CN110232473A

CN110232473A - 一种基于大数据金融的黑产用户预测方法

Info

Publication number: CN110232473A
Application number: CN201910430445.6A
Authority: CN
Inventors: 王进; 郝守迪; 罗杰; 孙开伟; 邓欣
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-13
Anticipated expiration: 2039-05-22
Also published as: CN110232473B

Abstract

本发明请求保护一种基于大数据金融的黑产用户预测方法，包括：101对用户的历史操作数据和历史交易数据进行预处理操作；102对经过预处理的数据进行特征工程构建；103对特征工程构造的特征进行筛选；104建立多个机器学习模型，通过模型融合提高模型的泛化性能；105通过建立的模型，对用户是否是黑产用户进行预测。本发明主要是通过用户30天的操作数据和交易数据以及黑产用户信息，构建特征工程，建立机器学习模型，从而能够在未来通过用户行为预测用户是否是黑产用户，来识别交易风险，切实结合当下的技术发展需求。

Description

一种基于大数据金融的黑产用户预测方法

技术领域

本发明属于机器学习、金融大数据处理、人工智能技术领域，尤其是金融领域的黑产用户预测方法。

背景技术

随着互联网+这一概念的不断发展，电商、出行、外卖等行业近些年也持续发展壮大，越来越多的商家进入这一市场。为了在激烈的竞争中拉取新用户，培养用户的消费习惯，各种类型的营销活动和补贴活动也是层出不穷。在为正常用户带来福利的同时，也催生了一批专注于营销活动的黑产用户，也就是所谓的“羊毛党”。黑产用户即个人注册大量账号，找规则漏洞，找营销套路，赚取商家大量补贴的用户。目前，羊毛党的行为越发专业化，团伙化和地域化，同套利黑产团伙的斗争，是一场永无止境的攻防战。

通过数据监控可以构筑第一道防线，但是在巨大的利益诱惑下，黑产的作案手法、作案技术升级速度越来越快；传统的基于专家规则的风控体系已经很难跟上黑产作案手法的迭代，往往仅能在黑产已经获利后才能针对性的上线规则进行风险防控。这样容易形成“黑产获利-布控规则-黑产变化手法再次获利-跟进调整规则”的恶性循环，不能从根本上对黑产完成有效的打击。

机器学习模型是风控系统中实时识别和对抗黑产攻击的有效手段。面对黑产攻击手段快速多变，黑样本数据标签缺失等问题，目前除了LR,RF等耳熟能详的机器学习模型，基于RNN的深度学习模型，无监督学习模型等技术也被应用到同黑产的对抗中。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种识别交易风险的基于大数据金融的黑产用户预测方法。本发明的技术方案如下：

一种基于大数据金融的黑产用户预测方法，其包括以下步骤：

101、对用户的历史操作数据和历史交易数据进行包括缺失值填充、对低基数定性字段进行独热编码、对高基数定性字段进行平均值编码在内的预处理操作；

102、对步骤101经过预处理的数据进行特征工程构建，构建特征工程主要包括两个方面的特征，对应于两种黑产用户：一种是根据用户的身份标识信息和商户、设备标识信息就可以识别的黑产用户，这是初级黑产用户，他们使用相同的终端设备登录多个账号，没有掩饰自身的身份，包括统计特征；第二种是根据用户的行为模式才可以识别的黑产用户，这是高级黑产用户，他们已经学会隐瞒身份，包括时间特征、时序特征、社交特征；

103、对特征工程构造的特征进行筛选，筛选掉无用的特征。采用的方法是基于树的特征选取方法；

104、建立四个机器学习模型，包括建立CatBoost、QRNN准循环神经网络、LightGBM和逻辑斯特回归四个子模型，使用设定比例进行模型融合提高模型的泛化性能；

105、通过步骤104建立的模型，对用户是否是黑产用户进行预测。

进一步的，所述步骤101用户的历史操作数据和历史交易数据具体包括：历史操作数据中的操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置，历史交易数据包括：商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、资金类型、营销活动号编码、营销活动标识、交易金额和账户余额，这些数据信息和操作日期和交易日期时间信息。

进一步的，所述步骤101进行包括缺失值填充、对低基数定性字段进行独热编码、对高基数定性字段进行平均值编码在内的预处理操作。具体处理步骤如下：

(1)缺失值填充：对不同类型的字段采用不同的填充方法。对操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识这13个定性字段，使用-1填充，对交易金额和账户余额这2个定量字段，使用众数填充；

(2)对低基数定性字段进行独热编码：对操作状态、交易资金源类型、资金类型这3个取值少的属性，进行独热编码；

(3)对高基数定性字段进行平均值编码：对客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、营销活动号编码、营销活动标识这10个字段采用平均值编码。

进一步的，所述对高基数定性字段进行平均值编码采用经验贝叶斯的方法，使用已有数据估算字段每个取值的后验概率，将每个取值的后验概率作为它的编码值，字段取值为k的后验概率计算方法如下：

其中，M表示黑产用户中字段取值为k的用户数量，N表示所有的黑产用户的数量。

进一步的，对于测试集中出现的新的字段取值，使用先验概率作为其编码值。先验概率即训练集中黑产用户数量与所有用户数量的比值。

进一步的，所述步骤102对经过预处理的数据进行特征工程构建。具体包括：

(1)统计特征：对操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识这13个定性字段，提取以下特征：以用户ID为键，提取每个字段的唯一值计数特征，表示用户在这个字段有多少种取值；以用户ID为键，提取每个字段的平均值编码的最大值、平均值特征。对交易金额和账户余额字段，提取用户每一天的累加和特征，用户每天的交易金额之和的平均绝对偏差特征；

(2)时间特征：对操作数据表和交易数据表，以用户ID为键，统计用户最活跃即数据记录最多的天和时段；

(3)时序特征：对所有字段，以用户ID为键，以每一天为时间窗口，统计用户所有的统计特征，用于时序模型的训练；

(4)社交特征：从数据中挖掘出社交网络，从而由点及面地找出黑产用户；

根据交易数据表中的每一笔交易的用户交易账户号和转入、转出账户号，建立带权无向图G(V，E)：每个用户的账户号是结点集V中的结点v_i，E中结点之间的边表示账户之间存在交易，账户之间的交易次数是边的权重，根据带权无向图计算账户v_i社交特征值的公式如下：

其中V′表示黑产用户的结点集。F(v_i)越大，表示用户v_i与黑产用户的交易越密切，是黑产用户的可能性越大。

进一步的，所述步骤103对特征工程构造的特征进行筛选，采用的是基于树的特征选取方法，具体描述如下。

使用CART分类与回归树，将所有特征输入CART分类与回归树模型模型：分类与回归树模型在构建树的过程中，在每一个分支结点计算所使用特征v_i进行划分得到左右子结点的基尼值的减少量作为特征v_i的贡献；

将特征在每个分支节点的贡献相加，得到特征的重要度，再对所有特征的重要度作归一化处理，最后按照阈值0.02筛选，将特征重要度小于阈值的特征丢弃。

进一步的，所述步骤104建立多个机器学习模型，通过模型融合提高模型的泛化性能：建立CatBoost、QRNN准循环神经网络、LightGBM和逻辑斯特回归四个子模型，使用设定比例进行模型融合，具体步骤如下：

(1)训练子模型：使用训练集训练CatBoost、QRNN、LightGBM和逻辑斯特回归四个机器学习模型作为子模型，四个子模型使用不同的特征训练：CatBoost和LightGBM模型使用统计特征、ID特征和时间特征来训练；逻辑斯特回归模型使用统计特征和社交特征来训练；QRNN模型使用时序特征来训练。

(2)使用子模型对测试集进行预测；

(3)使CatBoost模型的权重系数w₁为0.27、QRNN模型的权重系数w₂为0.29、LightGBM模型的权重系数w₃为0.33、逻辑斯特回归模型的权重系数w₄为0.11，将四个模型对测试集的预测结果y₁、y₂、y₃、y₄进行融合，得到最终的预测结果。

进一步的，所述步骤105通过建立的模型，对用户是否是黑产用户进行预测，具体方法如下：

通过步骤104得到最终的预测结果，即每一个用户是黑产用户的概率，再使用阈值0.715进行筛选，将预测概率大于0.715的用户判定为黑产用户。

本发明的优点及有益效果如下：

本发明对高基数定性字段，采用了平均值编码的方法，把原始字符串转换成了与预测标签相关的定量值，使其能够直接用于模型训练，有效利用了数据。

本发明针对金融领域中黑产用户难以识别的问题，提出了构造社交特征的方法，通过从数据中挖掘出的社交网络，由点及面地识别黑产用户。

本发明针对金融用户的时序特征，创新性地采用了QRNN模型(结合了CNN和RNN的网络结构)，更好地利用了用户的随时间变化的局部特征。

本发明的模型融合方法，是采用了特定领域的设定比例系数，融合多个处理了不同特征的模型。因为不同的模型适合处理的特征不同，因此本发明使用不同类型的特征训练了多个模型，并且使用特定的比例系数进行融合。

附图说明

图1是本发明提供优选实施例提供一种基于大数据金融的黑产用户预测方法的流程图。

图2为本发明实施例一提供一种基于大数据金融的黑产用户预测方法中独热编码示意图。

图3为本发明实施例一提供一种基于大数据金融的黑产用户预测方法中特征筛选示意图。

图4为本发明实施例一提供一种基于大数据金融的黑产用户预测方法中的模型融合图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

参考图1，图1为本发明实施例一提供一种基于大数据金融的黑产用户预测方法的流程图，具体包括：

101对用户的历史操作数据和历史交易数据进行预处理操作，具体如下：

(1)缺失值填充：对不同类型的字段采用不同的填充方法。对操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识这13个定性字段，使用-1填充。对交易金额和账户余额这2个定量字段，使用众数填充。

(2)对低基数定性字段进行独热编码：对操作状态、交易资金源类型、资金类型这3个取值少的属性，进行独热编码。

(3)对高基数定性字段进行平均值编码：对客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、营销活动号编码、营销活动标识这10个字段采用平均值编码，具体方法如下：

采用经验贝叶斯的方法，使用已有数据估算字段每个取值的后验概率，将每个取值的后验概率作为它的编码值。字段取值为k的后验概率计算方法如下：

特别地，对于测试集中出现的新的字段取值，使用先验概率作为其编码值。先验概率即训练集中黑产用户数量与所有用户数量的比值。

102对经过预处理的数据进行特征工程构建。构建特征工程主要包括两个方面的特征，对应于两种黑产用户：一种是根据用户的身份标识信息和商户、设备标识信息就可以识别的黑产用户，这是初级黑产用户，他们使用相同的终端设备登录多个账号，没有掩饰自身的身份，包括统计特征；第二种是根据用户的行为模式才可以识别的黑产用户，这是高级黑产用户，他们已经学会隐瞒身份，包括时间特征、时序特征、社交特征。

(1)统计特征：对13个定性字段(操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识)，提取以下特征：以用户ID为键，提取每个字段的唯一值计数特征，表示用户在这个字段有多少种取值；以用户ID为键，提取每个字段的平均值编码的最大值、平均值特征。对交易金额和账户余额字段，提取用户每一天的累加和特征，用户每天的交易金额之和的平均绝对偏差特征。

(2)时间特征：对操作数据表和交易数据表，以用户ID为键，统计用户最活跃即数据记录最多的天和时段。

(3)时序特征：对所有字段，以用户ID为键，以每一天为时间窗口，统计用户所有的统计特征，方便时序模型的训练。

(4)社交特征：从数据中挖掘出社交网络，从而由点及面地找出黑产用户。

根据交易数据表中的每一笔交易的用户交易账户号和转入、转出账户号，可以建立带权无向图G(V，E)：每个用户的账户号是结点集V中的结点v_i，E中结点之间的边表示账户之间存在交易，账户之间的交易次数是边的权重。根据带权无向图计算账户v_i社交特征值的公式如下：

103对特征工程构造的特征进行筛选：特征工程构造了大量的特征，尤其是统计特征。为了降低模型的复杂度，提高模型的应用性能，需要筛选无用的特征。采用的方法是基于树的特征选取方法。具体描述如下：

使用CART分类与回归树，将所有特征输入CART模型：分类与回归树模型在构建树的过程中，在每一个分支结点会计算所使用特征v_i进行划分得到左右子结点的基尼值的减少量作为特征v_i的贡献。

将特征在每个分支节点的贡献相加，就得到特征的重要度，再对所有特征的重要度作归一化处理。最后按照阈值0.02筛选，将特征重要度小于阈值的特征丢弃。

104建立多个机器学习模型，通过模型融合提高模型的泛化性能：建立CatBoost、QRNN、LightGBM和逻辑斯特回归四个子模型，使用基于岭回归的方法进行模型融合，具体步骤如下：

(1)训练子模型：使用训练集训练CatBoost、QRNN、LightGBM和逻辑斯特回归四个机器学习模型作为子模型。四个子模型使用不同的特征训练：CatBoost和LightGBM模型使用统计特征、ID特征和时间特征来训练；逻辑斯特回归模型使用统计特征和社交特征来训练；QRNN模型使用时序特征来训练。

(2)使用子模型对测试集进行预测。

(3)使CatBoost模型的权重系数w₁为0.27、QRNN模型的权重系数w₂为0.29、LightGBM模型的权重系数w₃为0.33、逻辑斯特回归模型的权重系数w₄为0.11，将四个模型对测试集的预测结果y₁、y₂、y₃、y₄进行融合，得到最终的预测结果，公式如下：

y＝y₁×w₁+y₂×w₂+y₃×w₃+y₄×w₄

105通过建立的模型，对用户是否是黑产用户进行预测。具体方法如下：

通过步骤104得到最终的预测结果，即每一个用户是黑产用户的概率。再使用阈值0.7进行筛选，将预测概率大于0.7的用户判定为黑产用户。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于大数据金融的黑产用户预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大数据金融的黑产用户预测方法，其特征在于，所述步骤101用户的历史操作数据和历史交易数据具体包括：历史操作数据中的操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置，历史交易数据包括：商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、资金类型、营销活动号编码、营销活动标识、交易金额和账户余额，这些数据信息和操作日期和交易日期时间信息。

3.根据权利要求2所述的一种基于大数据金融的黑产用户预测方法，其特征在于，所述步骤101进行包括缺失值填充、对低基数定性字段进行独热编码、对高基数定性字段进行平均值编码在内的预处理操作。具体处理步骤如下：

4.根据权利要求3所述的一种基于大数据金融的黑产用户预测方法，其特征在于，所述对高基数定性字段进行平均值编码采用经验贝叶斯的方法，使用已有数据估算字段每个取值的后验概率，将每个取值的后验概率作为它的编码值，字段取值为k的后验概率计算方法如下：

5.根据权利要求4所述的一种基于大数据金融的黑产用户预测方法，其特征在于，对于测试集中出现的新的字段取值，使用先验概率作为其编码值。先验概率即训练集中黑产用户数量与所有用户数量的比值。

6.根据权利要求2-5之一所述的一种基于大数据金融的黑产用户预测方法，其特征在于，所述步骤102对经过预处理的数据进行特征工程构建。具体包括：

其中V′表示黑产用户的结点集，F(v_i)越大，表示用户v_i与黑产用户的交易越密切，是黑产用户的可能性越大。

7.根据权利要求6所述的一种基于大数据金融的黑产用户预测方法，其特征在于，所述步骤103对特征工程构造的特征进行筛选，采用的是基于树的特征选取方法，具体描述如下。

8.根据权利要求7所述的一种基于大数据金融的黑产用户预测方法，其特征在于，所述步骤104建立多个机器学习模型，通过模型融合提高模型的泛化性能：建立CatBoost、QRNN准循环神经网络、LightGBM和逻辑斯特回归四个子模型，使用设定比例进行模型融合，具体步骤如下：

(1)训练子模型：使用训练集训练CatBoost、QRNN、LightGBM和逻辑斯特回归四个机器学习模型作为子模型，四个子模型使用不同的特征训练：

CatBoost和LightGBM模型使用统计特征、ID特征和时间特征来训练；逻辑斯特回归模型使用统计特征和社交特征来训练；QRNN模型使用时序特征来训练。

(2)使用子模型对测试集进行预测；

9.根据权利要求8所述的一种基于大数据金融的黑产用户预测方法，其特征在于，所述步骤105通过建立的模型，对用户是否是黑产用户进行预测，具体方法如下：