CN115936773A

CN115936773A - 一种互联网金融黑产识别方法与系统

Info

Publication number: CN115936773A
Application number: CN202211713315.1A
Authority: CN
Inventors: 江远强; 韩逸; 管雪松
Original assignee: Baiweijinke Shanghai Information Technology Co ltd
Current assignee: Baiweijinke Shanghai Information Technology Co ltd
Priority date: 2022-08-26
Filing date: 2022-12-29
Publication date: 2023-04-07

Abstract

本发明公开了一种互联网金融黑产识别方法与系统，方法包含以下步骤：步骤1：获取黑产样本数据与正常客户样本数据，并通过分类器进行下采样得到建模客户样本数据；步骤2：提取建模客户样本数据中多维度的特征数据，对特征数据进行预处理、特征衍生、筛选后得到建模样本数据集；步骤3：从建模样本数据集中选取训练样本数据与测试样本数据；步骤4：依据BP神经网络对训练样本数据进行训练，用测试样本数据对隐藏层进行参数调整，得到黑产识别模型；步骤5：获取客户信息数据并输入至黑产识别模型得到识别结果；系统包含数据获取模块、分类器、数据集创建模块、建模模块、识别模块。

Description

一种互联网金融黑产识别方法与系统

技术领域

本发明涉及互联网金融黑产识别领域，具体涉及一种互联网金融黑产识别方法与系统。

背景技术

当下互联网金融业务中，拉新促活的营销和补贴活动是是黑产的主要活动地，在现有技术中，传统风控策略一般会通过黑名单、多种类型的流量规则、画像规则、模型评分等手段来对抗黑产，但黑产攻击手段快速多变，风控体系很难跟上黑产作案手法的迭代，且容易被黑产绕过，需要事后的人为分析后进行规则的调整来应对，无法实时准确识别新型未知的黑产群体，互联网金融风控体系受到很大的挑战，因此，需要提供一种有效准确快速识别黑产用户的方法，逐渐成为了互联网金融亟待解决的问题。

发明内容

本发明要解决的技术问题是现有技术中，传统风控策略一般会通过黑名单、多种类型的流量规则、画像规则、模型评分等手段来对抗黑产，但黑产攻击手段快速多变，风控体系很难跟上黑产作案手法的迭代，且容易被黑产绕过，需要事后的人为分析后进行规则的调整来应对，无法实时准确识别新型未知的黑产群体，本发明提供一种互联网金融黑产识别方法，本发明还提供一种互联网金融黑产识别系统，能够通过基于XGBoost分类模型将基于经验判定为非黑产样本进行检验，使得样本更加可靠；对高基数定性字段，采用了平均值编码的方法，把原始字符串转换成了与预测标签相关的定量值，使其能够直接用于模型训练，有效利用了数据；将测试集通过K折交叉方法进行验证，评估模型效果，提高模型识别黑产用户的准确率和效率，用以解决现有技术导致的缺陷。

为解决上述技术问题本发明提供以下的技术方案：

第一方面，一种互联网金融黑产识别方法，其中，包含以下步骤：

步骤1：获取黑产样本数据与正常客户样本数据，并通过分类器进行下采样得到建模客户样本数据；

步骤2：提取所述建模客户样本数据中多维度的特征数据，对所述特征数据进行预处理、特征衍生、筛选后得到建模样本数据集；

步骤3：从所述建模样本数据集中选取训练样本数据与测试样本数据；

步骤4：依据BP神经网络对所述训练样本数据进行训练，用所述测试样本数据对隐藏层进行参数调整，得到黑产识别模型；

步骤5：获取客户信息数据并输入至所述黑产识别模型得到识别结果。

上述的一种互联网金融黑产识别方法，其中，步骤1中从黑产样本库中获取一定比例的所述黑产样本数据，所述黑产样本库的建立方法如下：

获取黑产实体信息并通过知识图谱进行所述黑产实体信息与网络关联匹配得到所述黑产样本数据，多个所述黑产样本数据构成所述黑产样本库，所述黑产实体信息包含黑产团伙信息、手机号、账号、设备、IP信息、IP建立时域网络信息；

步骤1中通过XGBoost分类器对所述黑产样本数据与所述正常客户样本数据进行1：2的比例下采样得到的所述建模客户样本数据。

上述的一种互联网金融黑产识别方法，其中，还需对所述XGBoost分类器进行训练，具体方法如下：

采用负样本与无标签样本训练XGBoost分类器，采用该XGBoost分类器对无标签样本进行分类，将分类为负样本的样本作为可靠负样本，采用该XGBoost分类器对正样本与剩下的未标注样本进行分类训练，不断重复上述过程直至没有更多可靠正样本，得到所述XGBoost分类器。

上述的一种互联网金融黑产识别方法，其中，步骤2中多维度的所述特征数据包含客户在互联网金融平台上的账号信息、操作行为数据、设备维度数据、环境维度数据；

对所述特征数据进行预处理包含缺失值填充、编码；

所述特征衍生包含统计特征衍生、时间特征衍生、时序特征衍生、社交特征衍生。

上述的一种互联网金融黑产识别方法，其中，步骤3中通过K折方法从所述建模样本数据集中选取训练样本数据与测试样本数据的具体过程如下：

根据所述建模样本数据集中数据的特征向量及其对应的标签进行K折生成K份目标样本数据，选取其中一份未选取过的目标样本数据作为所述测试样本数据，选取剩余K-1份目标样本数据中的其中一份目标样本数据作为所述训练样本数据。

上述的一种互联网金融黑产识别方法，其中，步骤4中依据BP神经网络对所述训练样本数据进行训练，用所述测试样本数据对隐藏层进行参数调整的过程如下：

构建默认参数的BP神经网络，将所述训练样本数据以特征数据为输入、以黑产用户或正常用户的标签为输出对所述BP神经网络进行训练；

选取所述测试样本数据中与输入至所述BP神经网络进行训练的所述特征数据一致的特征数据输入至所述BP神经网络得到预测结果，根据所述预测结果是否符合预设阈值来调整所述BP神经网络隐藏层的参数，得到黑产识别模型。

第二方面，一种互联网金融黑产识别系统，其中，包含数据获取模块、分类器、数据集创建模块、建模模块、识别模块；

所述数据获取模块用于获取黑产样本数据与正常客户样本数据并传输至所述分类器；

所述分类器进行下采样得到建模客户样本数据并传输至所述数据集创建模块；

所述数据集创建模块提取所述建模客户样本数据中多维度的特征数据，对所述特征数据进行预处理、特征衍生、筛选后得到建模样本数据集；

所述建模模块用于从所述建模样本数据集中选取训练样本数据与测试样本数据，并依据BP神经网络对所述训练样本数据进行训练，用所述测试样本数据对隐藏层进行参数调整，得到黑产识别模型；

所述识别模块用于获取客户信息数据并输入至所述黑产识别模型得到识别结果。

第三方面，一种芯片，其中，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行：如第一方面中任一项所述的方法。

依据上述本发明一种互联网金融黑产识别方法与系统提供的技术方案具有以下技术效果：

通过基于XGBoost分类模型将基于经验判定为非黑产样本进行检验，使得样本更加可靠；对高基数定性字段，采用了平均值编码的方法，把原始字符串转换成了与预测标签相关的定量值，使其能够直接用于模型训练，有效利用了数据；将测试集通过K折交叉方法进行验证，评估模型效果，提高模型识别黑产用户的准确率和效率。

附图说明

图1为一种互联网金融黑产识别方法的流程图；

图2为一种互联网金融黑产识别系统的结构示意图。

其中，附图标记如下：

数据获取模块100、分类器200、数据集创建模块300、建模模块400、识别模块500。

具体实施方式

为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解，下结合具体图示，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

本发明的第一实施例是提供一种互联网金融黑产识别方法，第二实施例是提供一种互联网金融黑产识别系统，目的是通过基于XGBoost分类模型将基于经验判定为非黑产样本进行检验，使得样本更加可靠；对高基数定性字段，采用了平均值编码的方法，把原始字符串转换成了与预测标签相关的定量值，使其能够直接用于模型训练，有效利用了数据；将测试集通过K折交叉方法进行验证，评估模型效果，提高模型识别黑产用户的准确率和效率。

如图1所示，一种互联网金融黑产识别方法，其特征在于，包含以下步骤：

步骤1：获取黑产样本数据与正常客户样本数据，并通过分类器200进行下采样得到建模客户样本数据；

步骤2：提取建模客户样本数据中多维度的特征数据，对特征数据进行预处理、特征衍生、筛选后得到建模样本数据集；

步骤3：从建模样本数据集中选取训练样本数据与测试样本数据；

步骤4：依据BP神经网络对训练样本数据进行训练，用测试样本数据对隐藏层进行参数调整，得到黑产识别模型；

步骤5：获取客户信息数据并输入至黑产识别模型得到识别结果；

将存量客户作为待处理用户，将客户的数据输入上述训练好的用于识别黑产用户的至黑产识别模型中，得到上述待处理用户是否为黑产用户的识别结果，根据识别结果采用预设风险策略对疑似黑产用户进行风险分析评价并核实或者由人工进行风险分析评价并核实，得出对应的最终异常风险判定结果，确认为高风险用户采用相应处置。

上述的一种互联网金融黑产识别方法，其中，步骤1中从黑产样本库中获取一定比例的黑产样本数据，黑产样本库的建立方法如下：

获取黑产实体信息并通过知识图谱进行黑产实体信息与网络关联匹配得到黑产样本数据，多个黑产样本数据构成黑产样本库，黑产实体信息包含黑产团伙信息、手机号、账号、设备、IP信息、IP建立时域网络信息，打通数据之间的关联关系，常见如微信号、同一设备登录、同一IP登录、同一个手机号码等关联；

黑产团伙是基于手机号、账号、设备、IP建立时域关联网络，利用社群发现、风险传播等无监督算法精准防御从事批量、规模性欺诈活动发现的；

步骤1中通过XGBoost分类器对黑产样本数据与正常客户样本数据进行1：2的比例下采样得到的建模客户样本数据；

所谓下采样是由于样本抽样过程中得到的黑产样本占比很少，与正常客户样本比例比较悬殊，正负样本(正样本即正常客户，负样本即黑产用户)不均衡会导致模型对比例大的样本造成过拟合，为了平衡正负样本对模型训练的影响，会对负样本进行下采样，本技术方案中采样到的正样本当中，由于受限于数据完备性，在样本构建时把没有明显黑产特征的都当做正常样本，这样得到的正样本是掺杂有部分负样本，把采样得到的正样本当做未标注样本，通过XGBoost分类器的PU-Learning技术将正样本进行提纯，使得负样本更加可靠；

XGBoost(eXtreme Gradient Boosting：极限梯度提升)是基于决策树的集成机器学习算法，它以梯度提升(Gradient Boost)为框架，由GBDT发展而来。它的主要目标是提升模型运行的速度和有效性(efficiency)；

PU Learning(Positive-unlabeled learning)是半监督学习的一个研究方向，指在只有正类和无标记数据的情况下，训练二分类器200；

对XGBoost分类器进行训练的具体方法如下：

采用负样本与无标签样本训练XGBoost分类器，采用该XGBoost分类器对无标签样本进行分类，将分类为负样本的样本作为可靠负样本，采用该XGBoost分类器对正样本与剩下的未标注样本进行分类训练，不断重复上述过程直至没有更多可靠正样本，得到XGBoost分类器。

上述的一种互联网金融黑产识别方法，其中，步骤2中多维度的特征数据包含客户在互联网金融平台上的账号信息、操作行为数据、设备维度数据、环境维度数据；

对特征数据进行预处理包含缺失值填充、编码；

特征衍生包含统计特征衍生、时间特征衍生、时序特征衍生、社交特征衍生；

账号信息包含用户ID、身份证号、手机号码、年龄、注册时间、等级；

操作行为数据是指用户在平台上的注册、登录、点击、浏览、收藏、加购、转账、购买、转发、点赞、评论等行为，具体包括：近1个月登录次数/登录时间/浏览商品数/购买商品数、浏览到购买各环节转化率、交易资金源类型、资金类型、营销活动号编码、营销活动标识、交易金额和账户余额；

设备维度数据是指用户设备有关的信息，具体包括：设备ID、设备MAC地址，历史操作数据中的操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、Wi-Fi的MAC地址、IP地址、GPS地理位置；

环境维度数据是APP运行设备的各类传感器的设备属性和特征信号，传感器可以为光线传感器、加速度传感器、陀螺仪传感器、磁场传感器、重力传感器、压力传感器、温度传感器、距离传感器及方向传感器等，通过传感器采集的各种数据；

缺失值填充是对不同类型的字段采用不同的填充方法；

对时序性或类别特征，如：交易资金源类型、资金类型、营销活动号编码、营销活动标识，使用-1填充，对于连续型，如次数和金额，近1个月登录次数/登录时间/浏览商品数/购买商品数，使用0填充；

对于交易金额和账户余额这2个定量字段，使用中位数或众数填充方式进行处理填充缺失值填充；

用于对上述样本用户数据中的异常数据采用中位数填充方式进行处理；

编码包含低基数独热编码与高基数平均值编码，对低基数定性字段进行独热编码，低基数定性字段包括：操作状态、交易资金源类型、资金类型，这3个取值少属性的字符串类型的数据进行One-Hot编码；对高基数定性字段进行平均值编码，高基数定性字段包括：对客户端版本号、操作设备唯一标识码、Wi-Fi的MAC地址、IP地址、GPS地理位置、操作设备唯一标识、用户交易账户号、转出转入账户号、营销活动号编码、营销活动标识，这10个字段采用平均值编码；

对高基数定性字段进行平均值编码采用经验贝叶斯的方法，使用已有数据估算字段每个取值的后验概率，将每个取值的后验概率作为它的编码值，字段取值为k的后验概率计算方法如下：

其中，M表示黑产用户中字段取值为k的用户数量，N表示所有的黑产用户的数量；

统计特征衍生：以用户ID为键，提取每个字段的平均值编码的最大值、平均值特征，对交易金额和账户余额字段，提取用户每一天的累加和特征，用户每天的交易金额之和的平均绝对偏差特征；

时间特征衍生：对操作数据表和交易数据表，以用户ID为键，统计用户最活跃即数据记录最多的天和时段；

时序特征衍生：对所有字段，以用户ID为键，以每一天为时间窗口，统计用户所有的统计特征，用于时序模型的训练；

社交特征衍生：从社交特征数据中挖掘出社交网络，从而由点及面地找出黑产用户，处理黑产用户难以识别的问题。

上述的一种互联网金融黑产识别方法，其中，步骤3中通过K折方法从建模样本数据集中选取训练样本数据与测试样本数据的具体过程如下：

根据建模样本数据集中数据的特征向量及其对应的标签进行K折生成K份目标样本数据，选取其中一份未选取过的目标样本数据作为测试样本数据，选取剩余K-1份目标样本数据中的其中一份目标样本数据作为训练样本数据。

上述的一种互联网金融黑产识别方法，其中，步骤4中依据BP神经网络对训练样本数据进行训练，用测试样本数据对隐藏层进行参数调整的过程如下：

构建默认参数的BP神经网络，将训练样本数据以特征数据为输入、以黑产用户或正常用户的标签为输出对BP神经网络进行训练；

选取测试样本数据中与输入至BP神经网络进行训练的特征数据一致的特征数据输入至BP神经网络得到预测结果，根据预测结果是否符合预设阈值来调整BP神经网络隐藏层的参数，得到黑产识别模型；

具体过程如下：

初始化BP神经网络，确定BP神经网络的输入结构、输出结构、初始的连接权值和阈值，a个输入层节点、b个隐藏层节点和c个输出层节点以及网络初始权值和阈值；

初始化鲸鱼优化算法:种群规模N、最大迭代次数T_Max、初始最小权重w1、初始最大权重w2和收敛因子A，并利用随机选取法确定初始种群位置，将BP神经网络中的初始权值和阈值转化为的鲸鱼的位置向量，其中每个鲸鱼的位置对应一组初始权值和阈值，同时，将WOA的适应度函数F(x)作为模型预测输出值与实测值之间的均方误差，计算每头鲸鱼适应度值并保留最优个体位置，适应度计算公式如下：

式中：N为鲸鱼种群规模；y_i为实际输出值；y_i ^′为预测输出值；

初始化人工鲸鱼种群，其个体编码为W；

设置种群规模WSize(与LVQ神经网络权重个数n相等)和最大迭代次数T_max，当前迭代次数t＝0，随机产生WSize个候选解组成种群WP＝{X1,X2,…,Xi,…,XWSize}，其中Xi为种群中的第i个候选解，且Xi存储了LVQ神经网络的初始权值xi＝[W1,W2,…,Wj,…,Wn]，鲸鱼初始位置x0；

识别包围猎物；

座头鲸在识别猎物的时候，对猎物位置是先验未知的，因此假设目标猎物位置是当前种群中最优或接近最优的鲸鱼个体的位置，其他的鲸鱼个体均向目标猎物靠近，位置更新公式可以描述为：

X(t+1)＝X＊(t)-A·D；

D＝|CX＊(t)-X(t)|；

其中，D是当前鲸鱼与最优鲸鱼之间的距离系数；X*(t)是当代种群中鲸鱼个体的最优位置向量，即局部最优解，t是当前迭代次数；X(t)是当代鲸鱼个体的位置向量，会实时更新；A和C是系数变量，其中A是区间[-2,2]上的随机参数，决定游走觅食和包围收缩环节的切换，C是区间[0,2]上的随机数，控制Xrand距离X远近程度的影响，系数变量A和C表达式如下：

A＝2ar1-a；

C＝2·r2；

其中，r1和r2为[0,1]之间的随机数；a为收敛因子或控制参数，表达式如下：

其中，t表示当前的迭代次数；T_max为最大迭代次数；。

收敛因子a从2到0线性下降，在训练中不断缩小搜索范围，影响系数向量A，实现对猎物的包围收缩，提高鲸鱼收敛速度；

气泡网攻击；

座头鲸吐气泡攻击猎物，气泡网觅食方法主要分为收缩包围和螺旋式上升位置更新，收缩包围是通过减少其中的收敛因子a，实现对猎物的包围收缩，螺旋式上升位置更新是鲸鱼自下而上沿螺旋状通过制造气泡逐步收缩对猎物的包围范围来更新自身的位置；

座头鲸在气泡网攻击猎物时，收缩包围和螺旋式上升位置更新是同步的，为了模拟这一点，随机选择n个鲸鱼中一个鲸鱼的位置作为最优鲸鱼位置向量X*(t)，其它非最优鲸鱼根据最优鲸鱼位置随机选择概率p更新方式为收缩环绕机制或螺旋机制来更新鲸鱼位置，保证鲸鱼在寻优时的全局搜索与局部开发，减少寻优盲点；

本专利选取在两者之间选用选择概率p＝50％的概率选择收缩包围机制或者选择螺旋式位置更新机制，数学模型可以表示为：

其中，p为[0,1]上的随机数，D_P＝|X*(t)-X(t)|表示鲸鱼目前最佳位置到猎物之间的距离，X*(t)是当代种群中鲸鱼个体的最优位置向量，X(t)为当前鲸鱼的位置向量，t为当前迭代次数；b为定义的对数螺旋形状常数；l是[-1,1]之间的随机数，其中当l＝-1时，人工鲸鱼距离食物最近，当l＝1时，人工鲸鱼距离食物最远；

搜索捕食；

座头鲸在气泡网攻击猎物外，还会随机搜索猎物；以变量系数A为基础，A的波动范围也随a降，在迭代过程中当a的值从2到0下降时，A是在[-a,a]内的随机值，当A在[-1,1]之间时，即|A|<1时，鲸鱼群寻找的位置就是目标猎物的位置，鲸鱼群向目标猎物靠近，向猎物发起攻击；

当A>1或A<-1时，即|A|>1，鲸群将进行移动搜索远离猎物，借此寻找一个更加合适的猎物，这样可以加强算法的勘探能力使WOA算法能够进行全局搜索，其数学模型如下：

D＝|C·Xrand-X(t)|；

X(t+1)＝Xrand-A·D；

其中，Xrand是随机选择的鲸鱼位置向量；

鲸鱼优化算法的改进

传统鲸鱼优化算法在预测过程中对全局搜索与局部挖掘的有效协调具有一定的局限性，其中，收敛因子a线性减少导致算法未能较好反映实际寻优过程，为此，提出非线性收敛因子a：

式中：a_initial和a_final分别为收敛因子a的初始值和最终值；

寻优初期，数值较大且减小缓慢的收敛因子a方便算法扩大搜索范围，增强全局性，随着迭代次数的增加，a迅速减小，可提高算法收敛速度；非线性收敛因子a在一定程度上提升了算法的性能，鲸鱼位置向量在运算中并未得到充分利用，这将导致种群灵活多样性较低，寻优效果受到影响。故本文引入随迭代次数增加不断调整的自适应权重ω:

式中：ω_max为最大惯性权重；ω_min为最小惯性权重；k为调节曲线变化率的调节变量；μ的取值与ω下降趋势密切相关，取值较大会导致ω无法在迭代结束前下降到最小，不利于算法后期局部挖掘，取值较小则会导致ω下降过快，不利于充分搜寻全局最优解，经过反复测试，本申请实例选取μ＝3；该权重的引入既保证运算前期拥有较大的ω值，加强全局搜索并增加种群多样性，又确保运算后期较小的ω对鲸群在猎物附近精细搜寻能力的改善，提高收敛精度。通过非线性收敛因子与自适应权重共同协作，得到具有收敛精度高、收敛速度快的改进鲸鱼优化算法；

更新参数a，ω，P，A的值，根据训练样本和适应度函数计算鲸鱼适应度函数值，找出最优适应度值的位置，记录下位置向量并将其作为当前最优个体位置，对种群位置进行更新，满足最大迭代次数或达到误差精度要求后终止寻优算法，将当前的最优参数赋值给BP神经网络建立最优黑产识别模型；

输入测试集进而得到黑产预测分类结果。

所述模型参数调整，将步骤S3的训练集的数据预处理后，且选取的特征与上述预先训练好的神经网络的数据特征保持一致，输入黑产识别模型中，得到是否为黑产用户的预测结果，根据测试样本的原始固有标签，得到预测模型的混淆矩阵，计算模型的准确率和召回率，根据获取到用户账号误判的样本集合进行迭代训练，并通过K折交叉方法进行验证，评估模型效果，直至风控评估准确率达到设定阈值时停止迭代，得到稳定的神经网络，从而提高模型识别黑产用户的准确率和效率；

所述设置判定为黑产的概率阈值，通过基于神经网络识别黑产的模型，得到的预测结果为用户是黑产用户的概率，根据KS和AUC取值，在最高准确率和最低误判率下选取判定为欺诈的概率阈值，例如，将预测概率大于0.8的用户判定为黑产用户；

得到预测模型的混淆矩阵，计算模型的准确率和召回率，混淆矩阵(ConfusionMatrix)是评估模型结果的指标，属于模型评估的一部分，混淆矩阵如表1所示；

表1

TP(True Positive):真实为正例，预测也为正例；

FN(False Negative):真实为正例，预测为负例；

FP(False Positive):真实为负例，预测为正例；

TN(True Negative):真实为负例，预测也为负例；

准确率(accuracy)：所有预测正确的样本占所有样本的比例；

式中：TP(True Positive，真正例)被模型预测为正的正样本，可以称作判断为真的正确率；

TN(True Negative，真负例)被模型预测为负的负样本，可以称作判断为假的正确率；

FP(False Positive，假正例)被模型预测为正的负样本；可以称作误报率；

FN(False Negative，假负例)被模型预测为负的正样本；可以称作漏报率。

召回率(Recall):真实为正例的样本中预测结果为正例的比例；

式中：TP(True Positive，真正例)被模型预测为正的正样本；

FN(False Negative，假负例)被模型预测为负的正样本。

K折交叉方法进行验证：

k折交叉验证的基本思路如下：

第一步，不重复地将原训练集随机分为k份；

第二步，挑选其中1份作为验证集，剩余k-1份作为训练集用于模型训练，在训练集上训练后得到一个模型，用这个模型在验证集上测试，保存模型的评估指标；

第三步，重复第二步k次(确保每个子集都有一次机会作为验证集)；

第四步，计算k组测试指标的平均值作为模型精度的估计，并作为当前k折交叉验证下模型的性能指标。

KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估，指标衡量的是好坏样本累计分部之间的差值，好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强；

AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积是衡量二分类模型优劣的一种评价指标，表示预测的正例排在负例前面的概率,AUC越大(越接近1)，模型的分类效果越好。

如图2所示，第二方面，第二实施例，一种互联网金融黑产识别系统，其中，包含数据获取模块100、分类器200、数据集创建模块300、建模模块400、识别模块500；

数据获取模块100用于获取黑产样本数据与正常客户样本数据并传输至分类器200；

分类器200进行下采样得到建模客户样本数据并传输至数据集创建模块300；

数据集创建模块300提取建模客户样本数据中多维度的特征数据，对特征数据进行预处理、特征衍生、筛选后得到建模样本数据集；

建模模块400用于从建模样本数据集中选取训练样本数据与测试样本数据，并依据BP神经网络对训练样本数据进行训练，用测试样本数据对隐藏层进行参数调整，得到黑产识别模型；

识别模块500用于获取客户信息数据并输入至黑产识别模型得到识别结果。

第三方面，一种芯片，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有芯片的设备执行：如第二方面中任一项的方法。

例如，存储器可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等；

处理器可以是中央处理器(Central Processing Unit，CPU)等，或者是图像处理器(Graphic Processing Unit,GPU)存储器可以存储可执行指令；

处理器可以执行在存储器中存储的执行指令，从而实现本文描述的各个过程。

可以理解，本实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者；

其中，非易失性存储器可以是ROM(Read-OnlyMemory，只读存储器)、PROM(ProgrammableROM，可编程只读存储器)、EPROM(ErasablePROM，可擦除可编程只读存储器)、EEPROM(ElectricallyEPROM，电可擦除可编程只读存储器)或闪存。

易失性存储器可以是RAM(RandomAccessMemory，随机存取存储器)，其用作外部高速缓存；

通过示例性但不是限制性说明，许多形式的RAM可用，例如SRAM(StaticRAM，静态随机存取存储器)、DRAM(DynamicRAM，动态随机存取存储器)、SDRAM(SynchronousDRAM，同步动态随机存取存储器)、DDRSDRAM(DoubleDataRate SDRAM，双倍数据速率同步动态随机存取存储器)、ESDRAM(Enhanced SDRAM，增强型同步动态随机存取存储器)、SLDRAM(SynchlinkDRAM，同步连接动态随机存取存储器)和DRRAM(DirectRambusRAM，直接内存总线随机存取存储器)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器存储了如下的元素，升级包、可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序；

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

应用程序，包含各种应用程序，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。

本领域技术人员可以明白的是，结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现；

这些功能是以硬件还是软件方式来实现，取决于技术方案的特定应用和设计约束条件；

本领域技术人员可以针对每个特定的应用，使用不同的方式来实现所描述的功能，但是这种实现并不应认为超出本申请的范围。

在本申请实施例中，所公开的系统、装置和方法可以通过其它方式来实现；

例如，单元或模块的划分仅仅为一种逻辑功能划分，在实际实现时还可以有另外的划分方式；

例如，多个单元或模块或组件可以进行组合或者可以集成到另一个系统中；

另外，在本申请实施例中的各功能单元或模块可以集成在一个处理单元或模块中，也可以是单独的物理存在等等。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在机器可读存储介质中；

因此，本申请的技术方案可以以软件产品的形式来体现，该软件产品可以存储在机器可读存储介质中，其可以包括若干指令用以使得电子设备执行本申请实施例所描述的技术方案的全部或部分过程；

上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。

综上，本发明的一种互联网金融黑产识别方法与系统，能够通过基于XGBoost分类模型将基于经验判定为非黑产样本进行检验，使得样本更加可靠；对高基数定性字段，采用了平均值编码的方法，把原始字符串转换成了与预测标签相关的定量值，使其能够直接用于模型训练，有效利用了数据；将测试集通过K折交叉方法进行验证，评估模型效果，提高模型识别黑产用户的准确率和效率。

以上对发明的具体实施例进行了描述。需要理解的是，发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换，这并不影响发明的实质内容。

Claims

1.一种互联网金融黑产识别方法，其特征在于，包含以下步骤：

2.如权利要求1所述的一种互联网金融黑产识别方法，其特征在于，步骤1中从黑产样本库中获取一定比例的所述黑产样本数据，所述黑产样本库的建立方法如下：

3.如权利要求2所述的一种互联网金融黑产识别方法，其特征在于，还需对所述XGBoost分类器进行训练，具体方法如下：

4.如权利要求3所述的一种互联网金融黑产识别方法，其特征在于，步骤2中多维度的所述特征数据包含客户在互联网金融平台上的账号信息、操作行为数据、设备维度数据、环境维度数据；

对所述特征数据进行预处理包含缺失值填充、编码；

5.如权利要求4所述的一种互联网金融黑产识别方法，其特征在于，步骤3中通过K折方法从所述建模样本数据集中选取训练样本数据与测试样本数据的具体过程如下：

6.如权利要求5所述的一种互联网金融黑产识别方法，其特征在于，步骤4中依据BP神经网络对所述训练样本数据进行训练，用所述测试样本数据对隐藏层进行参数调整的过程如下：

7.一种互联网金融黑产识别系统，其特征在于，包含数据获取模块、分类器、数据集创建模块、建模模块、识别模块；

8.一种芯片，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行：如权利要求1-6中任一项所述的方法。