CN109492026B

CN109492026B - 一种基于改进的主动学习技术的电信欺诈分类检测方法

Info

Publication number: CN109492026B
Application number: CN201811301410.4A
Authority: CN
Inventors: 万辛; 刘冠男; 郭佳; 林浩; 安茂波; 李鹏; 高圣翔; 黄远; 沈亮
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2021-11-09
Anticipated expiration: 2038-11-02
Also published as: CN109492026A

Abstract

本发明公开了一种基于改进的主动学习技术的电信欺诈分类检测方法，涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。抽取数量为X的数据划分训练集和测试集。从训练集中抽取样本作为初始训练集，其余为未标记样本。若当前训练集中正类与负类样本数量的比值不小于阈值e，训练有监督分类器f并构造强组合分类器F；将未标记样本逐个放入有监督分类器f中进行类别评分，得到类别评分结果，输入主动学习采样算法，得到信息量大小的评分。选取信息量最大的前D个进行标注，并加入训练集中；当前训练集样本数量大于等于X₁，或者迭代次数大于等于C时结束，输出训练好的分类器f。本发明具有较强的稳定性和鲁棒性，实现较高的分类和检测效率。

Description

一种基于改进的主动学习技术的电信欺诈分类检测方法

技术领域

本发明属于数据挖掘与机器学习和商务智能等领域，涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。

背景技术

在实际应用中，不同类别的数据在数量上可能会有很大的差异。例如，在电信欺诈检测领域，大多数通话记录来自正常用户，只有一小部分通话记录来自欺诈者。然而，即使欺诈电话的数量较少，也会给公共通信资源和个人财产带来巨大损失。根据美国通信欺诈控制协会(CFCA)发布了一份关于2015年全球电信诈骗损失的调查报告，其中显示全球电信欺诈损失预计年均将近400亿美元，约占电信总收入的2％。

近年来，电信欺诈检测引起了许多工业界和学术界研究人员的极大兴趣，这不仅因为其潜在的巨大经济损失，而且还因异常的特征和行为模式难以捕捉。

目前，有监督和无监督学习技术已被应用于这个问题。但是，大多数经典学习算法都假设数据类的分布是平衡的。因此，当这些算法应用于非常不平衡的数据集时，它们通常无法达到预期的效果。

在这种情况下，如何有效地选择训练样本以取得良好的效果被视为一项至关重要的任务。主动学习(Active Learning)是一组特殊的机器学习方法，旨在通过从未标记的数据集中主动选择训练样本来提高学习性能。在主动学习中，在信息最丰富的样本上递增和迭代训练的学习算法通常会导致更高的准确性，并且优于随机选择训练样本的传统算法。

发明内容

本发明考虑到传统机器学习方法在数据类别不平衡情况下的分类难度和挑战，同时鉴于样本量较大，正类样本也较少的特点，提出了一种基于改进的主动学习技术的电信欺诈分类检测方法。

具体步骤如下：

步骤一、收集电信网中某段时间内的呼叫详细数据，随机等概率抽取数量为X的数据作为样本，并划分训练集和测试集。

训练集样本比例为A％，则训练集的样本总量为A％*X；测试集的样本总量为(1-A％)*X；

步骤二、从训练集中随机等概率抽取B％的样本进行人工标记，并将所有标记样本视为初始训练集，其余训练集样本视为未标记样本。

人工标记的样本数量为A％*B％*X；包括：被标记为诈骗的电话记录，视为正类样本；被标记为正常电话记录，视为负类样本。

未标记样本数量为A％*(1-B％)*X

步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗，并根据实际需要对每个样本均提取M维数据特征进行处理转换，用于后续机器学习模型输入。

处理转换包括：特征归一化、连续数值离散化、指数/log变换、独热编码等；

步骤四、初始化主动学习算法的迭代参数；

包括：设置最大迭代步数C、每次迭代步长D以及训练集最大样本数量X₁。

步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e，如果是，则采用重采样技术SMOTE对样本进行调整，并返回步骤二；否则进入步骤六；

当前训练集初始值选用初始训练集；

步骤六、根据当前训练集中每个样本提取的数据特征，训练用于欺诈检测的有监督分类器f，以及构造用于问询样本可信类别概率的强组合分类器F；

强组合分类器F的投票结果作为样本的潜在类别分布。

步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分。

步骤八、将每个未标记样本的类别评分结果，分别输入主动学习采样算法，结合该样本被分错的概率和样本信息量大小，得到每个未标记样本关于其信息量大小的评分。

第j个未标记样本的评分MIS_j，具体计算公式如下：

x*表示的是当前未标记样本集合中信息量最大的数据样本集合，P_θ(y_i|x_j)表示强组合分类器F中的一个假设所预测的实例x_j的类概率，P^es(y_i|x_j)表示强组合分类器F最终预测的x_j的类概率大小，N代表强组合分类器F中的分类器个数。θ∈Θ代表一个假设所使用的参数集合，I(x_j)是用来测量一个样本是否满足信息熵最大的指示器函数，取值为1或0；P(y_i|x_j)由用于欺诈检测的有监督分类器f预测的x_j的类概率分布。

如果第j个未标记样本根据公式获得分数等于x*，则I(x_j)值为1，否则为0。MIS_j反映了第j个未标记样本被误分情况以及信息量大小的综合研判。

步骤九、将所有评分值由大至小排序，选取信息量最大的前D个未标记样本进行标注，并加入训练集中；

步骤十、判断当前训练集样本数量是否大于等于X₁，或者迭代次数是否大于等于C，如果是，则主动学习采样算法停止，输出分类器f，进入步骤十一；否则，未标记样本数量减少D个样本，迭代次数增计一次，返回步骤五。

步骤十一、使用训练好的分类器f在测试集上进行分类效果测试，对电信欺诈的呼叫数据进行分类。

本发明的优势在于：

1)、一种基于改进的主动学习技术的电信欺诈分类检测方法，将主动学习应用于大规模和不平衡的数据集的分类问题中，为解决如电信欺诈检测等此类问题提供了一种新的方法。

2)、一种基于改进的主动学习技术的电信欺诈分类检测方法，通过迭代的方式，结合重采样技术，使得分类结果具有较强的稳定性和鲁棒性，可以实现较高的分类和检测效率。

附图说明

图1为本发明一种基于改进的主动学习技术的电信欺诈分类检测方法的原理图；

图2为本发明一种基于改进的主动学习技术的电信欺诈分类检测方法流程图。

具体实施方式

下面将结合附图和实例对本发明作进一步的详细说明。

目前，大规模不平衡数据集的处理和计算任务已引起业界和学术界的高度重视，同时也是电信、金融等领域欺诈检测问题面临的重点和难点。在大数据时代，计算资源和时间成本的限制使得技术人员很难将相关算法和模型直接运行在原始数据集合上，因此，如何从大规模数据集中提取出更准确反映数据分布和特点的训练集成为了亟待解决的问题。

主动学习算法为该问题提供了一种迭代的思路，每一次迭代会依据模型评分和样本信息量逐步增加初始训练集合。但是，在面临极不平衡数据集时，传统的主动学习方法也存在一些弊端。为此，本发明提出了一种基于改进的主动学习技术的电信欺诈分类检测方法，以解决大规模不平衡的学习问题。该实验是在电信欺诈检测的真实数据上进行，实验结果表明，与传统的方法相比，本发明表现出更稳定和更好的性能。

本发明提出了一种新的抽样方法，它综合了分类器错分的概率和样本的不确定性度量。同时，与重采样方法相配合，以保持训练数据集的平衡。最后，构建了一个全面的主动学习框架，在每次迭代中，如果现有训练集是不平衡的，将采用重采样的方法来平衡它。之后，通过逐次有目的性地选择未标记数据集的一小部分来标记和扩充初始训练集，以提高分类器的学习性能。

如图1和图2所示，具体步骤如下：

本实施例中收集电信网中一周的呼叫详细数据(Call Detail Record，简称CDR数据)，从中随机等概率抽取一定数量X＝100000数据作为实验准备，并按照训练集比例A％＝15％，随机等概率划分出训练集和测试集；则训练集的样本总量为15000；测试集的样本总量为85000；

本实施例中选取B％＝10％，即1500个人工标记的样本数量；其中被标记为诈骗的电话记录，视为正类样本；被标记为正常电话记录，视为负类样本。

未标记样本数量为13500；

本实施例选择提取M＝27维数据特征；

步骤四、初始化主动学习算法的迭代参数；

包括：设置最大迭代步数C＝100、每次迭代步长D＝100以及训练集最大样本数量X₁＝60000。

步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e，如果是，则采用重采样技术SMOTE对样本进行均衡调整，并返回步骤二；否则进入步骤六；

当前训练集初始值选用初始训练集；本实施例设置阈值e＝0.15；正类样本数量与负类样本数量的比值小于0.15时，说明当前训练集正负类样本分布极不平衡，采用重采样技术SMOTE对样本进行均衡调整。

有监督分类器f选用RandomForest分类器；

强组合分类器F的投票结果作为样本的潜在类别分布。

第j个未标记样本的评分MIS_j，具体计算公式如下：

本实施例中D＝100；按照信息量大小对评分值进行排序，由高至低选取满足迭代步长个样本。

本实施例中迭代终止条件设定为若迭代次数达到最大X₁＝60000，或训练集数量C＝100达到规定阈值，则算法终止。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于改进的主动学习技术的电信欺诈分类检测方法，其特征在于，具体步骤如下：

步骤一、收集电信网中某段时间内的呼叫详细数据，随机等概率抽取数量为X的数据作为样本，并划分训练集和测试集；

步骤二、从训练集中随机等概率抽取B％的样本进行人工标记，并将所有标记样本视为初始训练集，其余训练集样本视为未标记样本；

步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗，并根据实际需要对每个样本均提取M维数据特征进行处理转换，用于后续机器学习模型输入；

步骤四、初始化主动学习算法的迭代参数；

当前训练集初始值选用初始训练集；

强组合分类器F的投票结果作为样本的潜在类别分布；

步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分；

步骤八、将每个未标记样本的类别评分结果，分别输入主动学习采样算法，结合该样本被分错的概率和样本信息量大小，得到每个未标记样本关于其信息量大小的评分；

第j个未标记样本的评分MIS_j，具体计算公式如下：

x*表示的是当前未标记样本集合中信息量最大的数据样本集合，P_θ(y_i|x_j)表示强组合分类器F中的一个假设所预测的实例x_j的类概率，P^es(y_i|x_j)表示强组合分类器F最终预测的x_j的类概率大小，N代表强组合分类器F中的分类器个数；θ∈Θ代表一个假设所使用的参数集合，I(x_j)是用来测量一个样本是否满足信息熵最大的指示器函数，取值为1或0；P(y_i|x_j)由用于欺诈检测的有监督分类器f预测的x_j的类概率分布；

如果第j个未标记样本根据公式获得分数等于x*，则I(x_j)值为1，否则为0；MIS_j反映了第j个未标记样本被误分情况以及信息量大小的综合研判；

步骤十、判断当前训练集样本数量是否大于等于X₁，或者迭代次数是否大于等于C，如果是，则主动学习采样算法停止，输出分类器f，进入步骤十一；否则，未标记样本数量减少D个样本，迭代次数增计一次，返回步骤五；

设置最大迭代步数C、每次迭代步长D以及训练集最大样本数量X₁；

2.如权利要求1所述的一种基于改进的主动学习技术的电信欺诈分类检测方法，其特征在于，步骤二中所述的人工标记的样本数量为A％*B％*X；包括：被标记为诈骗的电话记录，视为正类样本；被标记为正常电话记录，视为负类样本；

未标记样本数量为A％*(1-B％)*X。

3.如权利要求1所述的一种基于改进的主动学习技术的电信欺诈分类检测方法，其特征在于，步骤三所述的处理转换包括：特征归一化、连续数值离散化、指数/log变换和独热编码。