CN114513791A

CN114513791A - 一种基于机器学习的电信反欺诈方法

Info

Publication number: CN114513791A
Application number: CN202210034458.3A
Authority: CN
Inventors: 吴勇; 顾强峰; 梁晓龙; 徐梦蝶; 李炳; 梁建斌; 陈一蕾
Original assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Current assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-05-17

Abstract

本发明涉及一种基于机器学习的电信反欺诈方法，本发明旨在解决及时拦截电信诈骗的问题，目标是提前预警提前防范电信诈骗的情况，本发明利用机器学习中的LightGBM算法对正负样本进行训练和预测，并将常见的诈骗场景分为四大类，根据不同的大类分别进行建模训练，提高预测的准确性。

Description

一种基于机器学习的电信反欺诈方法

技术领域

本发明涉及计算机大数据分析和机器学习技术领域，尤其涉及一种基于机器学习的电信反欺诈方法。

背景技术

近几年，电信诈骗案件频发，不法分子利用向被害人群发诈骗短信、拨打诈骗电话，实时诈骗，许多电信网络诈骗犯罪案件呈有组织化发展。按工信部要求，应当建立预警监测、大数据研判等机制，防范未经用户同意或者请求发送的商业性短信息或拨打的商业性电话，防范和打击电信诈骗违法犯罪行为，维护人民群众合法权益,保障国家安全和社会安定。除了强化防诈意识，提高识骗防骗能力以外，如何快速从源头上遏制电信诈骗的发生，也是至关重要的一步。电信运营商如何通过各种技术手段，建立用户行为涉诈骚扰预测机制，构建涉诈预警分析能力，达到防范和打击电信诈骗目的，是目前存在的技术难题。如何防范电信电话诈骗，及时阻断不法分子的通话行为，预测运营商号卡的涉诈风险等级情况也是至关重要的；传统的反欺诈方法主要是利用经验和人工的规则判断针对低套餐和新入网用户在产生高话务的同时进行拦截，但无法做到提前预警和防范；现有反电信诈骗模型大多是根据人工经验或者规则判断去拦截已经有发生通话的涉诈用户，很难做到提前预警，且容易以偏概全，时长会有规则难以覆盖的诈骗号码产生。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于机器学习的电信反欺诈方法，本发明能够准确有效识别别出高风险的涉诈用户，分层分级对涉诈用户进行预警、核验和关停处置。

本发明是通过以下技术方案达到上述目的：一种基于机器学习的电信反欺诈方法，包括如下步骤：

(1)根据历史所有的通报号码和通报的内容分析梳理，不同场景梳理，将潜在电信诈骗用户细分，深入挖掘用户分群，刻画出目标用户的特征；

(2)进行数据采集，针对现有存量用户采集其各个维度的特征，从用户的基本属性，通话行为数据，套餐入网信息，消费使用特征，终端标记信息，衍生变量这六大维度入手，细分成178个特征，构建号卡的活跃行为宽表，采集用户数据；

(3)进行数据清洗和预处理，根据用户宽表数据，对进行缺失值检测和异常值检查；

(4)进行数据采样，采用加入伪标签的方法，即已经被预测为涉诈用户且没有复机的号卡作为正样本加入被通报的号卡，使得正负样本的比例控制在1:15；

(5)基于机器学习算法训练模型，预测用户是电信诈骗用户的概率，同时利用交叉验证和网格搜索来寻找模型的最优参数；

(6)进行模型的迭代与优化；根据投诉用户、复机用户、接入用户优化模型，实现达到更好的预测效果。

作为优选，所述步骤(1)的通报号码分析具体为：根据公安和12321下发的通报号码核查分析，从用户的入网情况，套餐消费，历史活跃行为，上网行为，通话指标及位置信息入手分析正常用户与涉诈用户存在的区别，刻画出目标用户的特征。

作为优选，所述步骤(3)的数据清洗和预处理具体为：数据中的用户年龄，月出账信息，用户粘性采用中值填充，用户出账，省内外流量使用，语音通话次数、语音通话时长分别采用零值填充，针对异常值，用平均值来修正；针对数据中出现的数值，类型，日期等错误问题进行修正；针对缺失值，如年龄的缺失采用中位数填充，如月消费金额则进行零值的填充；在预处理中，针对一些类别变量，如用户的终端型号，用户的套餐名称，则进行独热编码的处理，将原本的中文类别转为计算机可处理的数字信息。

作为优选，所述步骤(4)数据采样时利用SMOTE算法，SMOTE算法是利用线性插值的方法计算两个新近通报号码样本，生成新的人工正样本加入到总体的正向样本中扩充正样本的数量；即运用公式：

X_new,attr＝X_i,attr+(X_ij,attr-X_i,attr)×γ

X_ij是样本X_i的j个邻近的样本，即表示涉诈样本i的邻近的j个涉诈样本；γ则是0到1之间的随机数；新生成的涉诈样本则用X_i和其邻近样本j的线性表达式组成。

作为优选，所述使用伪标签时，首先根据已打标的正负样本数据训练模型，再预测无标签数据；伪标签将训练集抽取一部分作为新的验证集，将预测出来的数据加入成为新的训练集，再训练出新的模型，从而预测后续的无标签数据；其中在反欺诈实际应用场景有以下一类用户数据：用户号卡被反欺诈模型预测命中关停，且长时间没有通过提供的线上、线下任何复机渠道来进行复机操作，则此类用户会被认定为存在涉诈风险的用户，将其当作伪标签数据加入到正样本中，扩充正样本；在本步骤中，伪标签是利用算法模型预测出来的涉诈非涉诈标签数据，和通报号码组成新的训练集，训练出最优模型，预测用户是否有涉诈风险。

作为优选，所述步骤(5)中的机器学习算法采用LightGBM算法，将获得的数据划分为训练集和测试集，训练集和测试集的比例为3:7；并采用5折交差验证法和网格搜索来筛选出模型的最优解，已达到最佳的评价指标；模型评估方面，主要采用F1值和AUC值来评估模型的效果，其中模型再测试集的F1值为0.871824，AUC值为0.995512。

作为优选，所述LightGBM算法是使用Histogram直方图算法、GOSS基于单边的梯度采样和EFB专有特征捆绑算法来实现的；

直方图算法即将特征的连续值离散化，使其成为k个离散的特征，构造一个宽度为k的分箱；其中，将k分箱设置为256，样本集数据总量为两千万，特征共178维；用XGBoost的复杂度O＝20000000*178降低为O＝256*178；

基于单边的梯度采样方法是保留梯度较大的样本，在梯度较小的样本上选择随机采样的方法；基于单边的梯度采样方法是将数据按梯度值的大小进行降序排列，选取排名前a的数据，再在剩余的数据中随机采样b的数据，将小梯度的数据乘上常量乘数：(1-a)/b，再计算信息增益。

作为优选，所述步骤(5)中，使用python中的LightGBM包，即lightgbm.LGBMClassifier()，其调整参数包括三大类：核心参数、学习控制参数和指标类参数；

核心参数包括：boosting,这里使用gbdt算法；objective目标函数：二分类；n_estimators:弱分类器数目设置为1000；learning_rate学习率设置为0.01；num_leaves一棵树上的叶子结点数设为40，max_depth树的最大深度设置为7，seed种子树设置为4500个；学习控制参数：min_child_samples最小样本数量设置为46；min_child_weight叶子结点上的最小海瑟矩阵和默认设置为0.01；subsample_freq：训练样本采样率设置为2；subsample子样本设置为2；colsample_bytree列采样参数选择0.8；reg_alpha：L1正则参数；reg_lambda：L2正则参数分别选择0和5；

指标函数：metric可选指标设置为binary_logloss；verbose冗余参数设置为1；

在模型训练完后，使用F1值和AUC(ROC曲线下的面积)进一步评价此模型的情况；

本模型的在测试集上打印出的各个指标如下所示：

Model Report

AUC Score(TEST):0.995512

召回率(TEST):0.925329

准确率(TEST):0.824169

F1(TEST):0.871824。

作为优选，所述步骤(6)中，在反欺诈模型实际部署应用的流程中，先根据数据的来源从不同的平台采集汇聚数据，从用户的基础数据：客户信息、套餐情况、开卡渠道、消费特征，行为数据：通话行为、流量上网行为、通话漫游位置，网络数据：DPI数据、用户位置和终端数据，接口数据：信令数据、试呼数据、通报数据、平台举报数据生成用户特征，建立反欺诈行为宽表；通过机器学习模型算法训练模型并预测反欺诈行为宽表中的用户是否有涉诈行为；将诈骗场景分为四大类：贷款金融诈骗、冒充客服、GOIP类诈骗和沉默卡诈骗，从四个场景生成不同的模型训练预测，并且将预测出来用户的涉诈概率划分为高、中、低三个风险等级对应三种的反欺诈处理流程，给用户发送预警核验信息，如核验通过则表示用户实名认证通过，如核验不通过则将对号码做关停处理。

本发明的有益效果在于：(1)本发明较传统规则划分方法，能够更准确快速的预测出涉诈用户，包括一些还未发生诈骗行为的号卡；(2)本发明加入了伪标签使得模型的分类更为准确；(3)本发明通过分场景建模，根据通报号码被通报的原因划分为四大场景分别建模训练和预测数据，可以对涉诈用户分层分级预警管理。

附图说明

图1是本发明的方法流程示意图；

图2是本发明的具体LightGBM参数设置示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：如图1所示，一种基于机器学习的电信反欺诈方法，具体如下：

第一步，分析历史被12321(和公安通报的用户基本属性，从用户的入网情况，套餐消费，历史活跃行为，上网行为，通话指标及位置信息分析涉诈用户和正常用户的情况。

第二步，进行数据的采集和汇聚，根据第一步的六大维度入手，细化用户的全方位特征共计178个，建立号卡的活跃行为宽表，观测提升号卡预警监控能力。

第三步，数据的清洗和预处理，其目的是将冗余的数据剔重，将缺失的数据填充，通过对缺失值的处理、异常值处理和去重操作，得到数据质量较高的正负样本。缺失值操作例如用户的漫游情况为空，需要将归属地设为其漫游地；异常值处理例如用户当天使用某应用次数会超出一般常理可以用中位数填充；去重操作例如部分号码可能存在被举报多次的情况就需要做剔重。

第四步，调整正负样本。在实际应用过程中，报用户的比例大约是是正常用户的五千分之一，这样的数量级会导致在使用机器学习模型训练样本记不均衡。欺诈用户和正常用户的比例差距过大，导致正负样本差距过大，大量的负样本直接影响优化最小损失函数的效果，导致模型训练的效果变得不为准确。

在模型建立初期，简单的方法是重复采用正样本，修正正负样本比例，这种比较简单，本方面就不在细说。在本发明中，尝试使用SMOTE(Synthetic Minority OversamplingTechnique)算法，SMOTE方法主要是利用线性插值的方法计算两个新近通报号码样本，生成新的人工正样本加入到总体的正向样本中扩充正样本的数量。即运用公式：X_new,attr＝X_i,attr+(X_ij,attr-X_i,attr)×γX_ij是样本X_i的j个邻近的样本，即表示涉诈样本i的邻近的j个涉诈样本。γ则是0到1之间的随机数。新生成的涉诈样本就可以用X_i和其邻近样本j的线性表达式组成。

在反欺诈实际应用中有被通报和有被举报的标记号卡仅仅是少数，大量的数据是没有打上涉诈标记的正常用户数据，获得较大量打上标签的数据很困难。

通常在使用伪标签时，是先根据已打标的正负样本数据训练模型，再预测无标签数据。伪标签将训练集抽取一部分作为新的验证集，再讲前面提到预测出来的数据加入成为新的训练集，再训练出新的模型，从而预测后续的无标签数据。

在反欺诈实际应用场景有以下一类用户数据：用户号卡被反欺诈模型预测命中关停，且长时间没有通过提供的线上、线下任何复机渠道来进行复机操作。这部分用户也是认定为存在涉诈风险的用户，把他们当作伪标签数据加入到正样本中，扩充正样本。伪标签的本质是半监督学习。在本发明中，伪标签是利用算法模型预测出来的涉诈非涉诈标签数据，和通报号码组成新的训练集，训练出最优模型，预测用户是否有涉诈风险。

第五步，选择合适的算法训练模型和预测数据。调整完训练集正负样本比例后，使用LightGBM轻量级梯度提升机算法来进行模型的训练与预测。

LightGBM主要的技术是使用Histogram直方图算法、GOSS(Gradient basedOneSide Sampling)基于单边的梯度采样和EFB(Exclusive Feature Bunding)专有特征捆绑算法来实现。

直方图算法即将特征的连续值离散化，使其成为k个离散的特征，构造一个宽度为k的分箱。例如预测涉诈用户时的每月的流量使用情况为连续值特征，在使用直方图算法后，可将其切割成k个分箱，使该算法之遥遍历k次就可以获得特征的最佳分裂增益。而其他算法如XGBoost会需要遍历所有数据才能得到最佳分裂点。其时间复杂度较XGBoost算法的O(data*feature)降低O(k*feature)可以大大的降低。本案例中，将k分箱设置为256，样本集数据总量为两千万，特征共178维。用XGBoost的复杂度O＝20000000*178降低为O＝256*178。

基于单边的梯度采样方法是保留梯度较大的样本，在梯度较小的样本上选择随机采样的方法。这是因为对损失函数的梯度进行拟合，梯度的绝对值越小表示样本误差越小，准确度越高，在模型算法中训练的价值会比较低。基于单边的梯度采样方法是将数据按梯度值的大小进行降序排列。选取排名前a的数据，再在剩余的数据中随机采样b的数据，将小梯度的数据乘上常量乘数：(1-a)/b，再计算信息增益。在反欺诈的样本数据中往往有大量的非诈骗即正常用户，就是上述所提到的梯度较小、训练价值较低的样本数据，在此时对此类正常用户缩小样本，对其进行随机采样的方法，能达到减少了样本数据量，使得直方图算法更加突出。

互斥特征合并算法的使用，在反欺诈的宽表中，有近180维的各类特征，部分特征都是较稀疏的，但是这些特征往往都是互斥的，比如说用户的偏好属性、用户的省外流量使用、用户漫游高危省市时长、夜间通话使用情况，这些特征大多都是缺失度较高且稀疏的，通常的做法是将这些稀疏且互斥的特征合并构建上述第一步所提到的特征直方图。

本发明是使用python中的LightGBM包，即lightgbm.LGBM Classifier()，其主要调整参数包括三大类：核心参数、学习控制参数和指标类参数。

核心参数包括：boosting,本方法使用gbdt算法；objective目标函数：二分类；n_estimators:弱分类器数目设置为1000；learning_rate学习率设置为0.01；num_leaves一棵树上的叶子结点数设为40，max_depth树的最大深度设置为7，seed种子树设置为4500个。

学习控制参数：min_child_samples最小样本数量设置为46；min_child_weight叶子结点上的最小海瑟矩阵和默认设置为0.01；subsample_freq：训练样本采样率设置为2；subsample子样本设置为2；colsample_bytree列采样参数选择0.8；reg_alpha：L1正则参数；reg_lambda：L2正则参数分别选择0和5。

指标函数：metric可选指标设置为binary_logloss；verbose冗余参数设置为1。具体LightGBM参数设置如附图2所示。

在模型训练完后，使用F1值和AUC(ROC曲线下的面积)进一步评价此模型的情况。

本模型的在测试集上打印出的各个指标如下所示：

Model Report

AUC Score(TEST):0.995512

召回率(TEST):0.925329

准确率(TEST):0.824169

F1(TEST):0.871824

第六步优化与迭代，由于反欺诈有多种欺诈场景，几个场景的大类如下：贷款金融诈骗、冒充客服、GOIP类诈骗和沉默卡诈骗类。将模型划分为四大类别分别做模型的训练和预测，以达到最优的预测结果。

在反欺诈模型实际部署应用的流程中，首先根据数据的来源从不同的平台采集汇聚数据。从用户的基础数据：客户信息、套餐情况、开卡渠道、消费特征，行为数据：通话行为、流量上网行为、通话漫游位置，网络数据：DPI数据、用户位置和终端数据，接口数据：信令数据、试呼数据、通报数据、平台举报数据生成用户特征，建立反欺诈行为宽表。

通过机器学习模型算法训练模型并预测反欺诈行为宽表中的用户是否有涉诈行为。将诈骗场景分为四大类：贷款金融诈骗、冒充客服、GOIP类诈骗和沉默卡诈骗，从四个场景生成不同的模型训练预测，并且将预测出来用户的涉诈概率划分为高、中、低三个风险等级对应三种的反欺诈处理流程，给用户发送预警核验信息，如核验通过则表示用户实名认证通过，如核验不通过则将对号码做关停处理。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于机器学习的电信反欺诈方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于机器学习的电信反欺诈方法，其特征在于：所述步骤(1)的通报号码分析具体为：根据公安和12321下发的通报号码核查分析，从用户的入网情况，套餐消费，历史活跃行为，上网行为，通话指标及位置信息入手分析正常用户与涉诈用户存在的区别，刻画出目标用户的特征。

3.根据权利要求1所述的一种基于机器学习的电信反欺诈方法，其特征在于：所述步骤(3)的数据清洗和预处理具体为：数据中的用户年龄，月出账信息，用户粘性采用中值填充，用户出账，省内外流量使用，语音通话次数、语音通话时长分别采用零值填充，针对异常值，用平均值来修正；针对数据中出现的数值，类型，日期等错误问题进行修正；针对缺失值，如年龄的缺失采用中位数填充，如月消费金额则进行零值的填充；在预处理中，针对一些类别变量，如用户的终端型号，用户的套餐名称，则进行独热编码的处理，将原本的中文类别转为计算机可处理的数字信息。

4.根据权利要求1所述的一种基于机器学习的电信反欺诈方法，其特征在于：所述步骤(4)数据采样时利用SMOTE算法，SMOTE算法是利用线性插值的方法计算两个新近通报号码样本，生成新的人工正样本加入到总体的正向样本中扩充正样本的数量；即运用公式：

X_new,attr＝X_i,attr+(X_ij,attr-X_i,attr)×γ

5.根据权利要求4所述的一种基于机器学习的电信反欺诈方法，其特征在于：所述使用伪标签时，首先根据已打标的正负样本数据训练模型，再预测无标签数据；伪标签将训练集抽取一部分作为新的验证集，将预测出来的数据加入成为新的训练集，再训练出新的模型，从而预测后续的无标签数据；其中在反欺诈实际应用场景有以下一类用户数据：用户号卡被反欺诈模型预测命中关停，且长时间没有通过提供的线上、线下任何复机渠道来进行复机操作，则此类用户会被认定为存在涉诈风险的用户，将其当作伪标签数据加入到正样本中，扩充正样本；在本步骤中，伪标签是利用算法模型预测出来的涉诈非涉诈标签数据，和通报号码组成新的训练集，训练出最优模型，预测用户是否有涉诈风险。

6.根据权利要求1所述的一种基于机器学习的电信反欺诈方法，其特征在于：所述步骤(5)中的机器学习算法采用LightGBM算法，将获得的数据划分为训练集和测试集，训练集和测试集的比例为3:7；并采用5折交差验证法和网格搜索来筛选出模型的最优解，已达到最佳的评价指标；模型评估方面，主要采用F1值和AUC值来评估模型的效果，其中模型再测试集的F1值为0.871824，AUC值为0.995512。

7.根据权利要求6所述的一种基于机器学习的电信反欺诈方法，其特征在于：所述LightGBM算法是使用Histogram直方图算法、GOSS基于单边的梯度采样和EFB专有特征捆绑算法来实现的；

8.根据权利要求7所述的一种基于机器学习的电信反欺诈方法，其特征在于：所述步骤(5)中，使用python中的LightGBM包，即lightgbm.LGBM Classifier()，其调整参数包括三大类：核心参数、学习控制参数和指标类参数；

核心参数包括：boosting,这里使用gbdt算法；objective目标函数：二分类；n_estimators:弱分类器数目设置为1000；learning_rate学习率设置为0.01；num_leaves一棵树上的叶子结点数设为40，max_depth树的最大深度设置为7，seed种子树设置为4500个；

学习控制参数：min_child_samples最小样本数量设置为46；min_child_weight叶子结点上的最小海瑟矩阵和默认设置为0.01；subsample_freq：训练样本采样率设置为2；subsample子样本设置为2；colsample_bytree列采样参数选择0.8；reg_alpha：L1正则参数；reg_lambda：L2正则参数分别选择0和5；

本模型的在测试集上打印出的各个指标如下所示：

Model Report

AUC Score(TEST):0.995512

召回率(TEST):0.925329

准确率(TEST):0.824169

F1(TEST):0.871824。

9.根据权利要求1所述的一种基于机器学习的电信反欺诈方法，其特征在于：所述步骤(6)中模型的优化迭代具体为：首先将反欺诈场景分为贷款金融诈骗、冒充客服、GOIP类诈骗和沉默卡诈骗类四个大类，再将模型划分为四大类别分别做模型的训练和预测，并根据已被模型关停号卡的复机情况和投诉情况持续对四类模型进行优化与迭代。

10.根据权利要求9所述的一种基于机器学习的电信反欺诈方法，其特征在于：所述步骤(6)中，在反欺诈模型实际部署应用的流程中，先根据数据的来源从不同的平台采集汇聚数据，从用户的基础数据：客户信息、套餐情况、开卡渠道、消费特征，行为数据：通话行为、流量上网行为、通话漫游位置，网络数据：DPI数据、用户位置和终端数据，接口数据：信令数据、试呼数据、通报数据、平台举报数据生成用户特征，建立反欺诈行为宽表；通过机器学习模型算法训练模型并预测反欺诈行为宽表中的用户是否有涉诈行为；将诈骗场景分为四大类：贷款金融诈骗、冒充客服、GOIP类诈骗和沉默卡诈骗，从四个场景生成不同的模型训练预测，并且将预测出来用户的涉诈概率划分为高、中、低三个风险等级对应三种的反欺诈处理流程，给用户发送预警核验信息，如核验通过则表示用户实名认证通过，如核验不通过则将对号码做关停处理。