CN109492026B - 一种基于改进的主动学习技术的电信欺诈分类检测方法 - Google Patents

一种基于改进的主动学习技术的电信欺诈分类检测方法 Download PDF

Info

Publication number
CN109492026B
CN109492026B CN201811301410.4A CN201811301410A CN109492026B CN 109492026 B CN109492026 B CN 109492026B CN 201811301410 A CN201811301410 A CN 201811301410A CN 109492026 B CN109492026 B CN 109492026B
Authority
CN
China
Prior art keywords
samples
training set
sample
unlabeled
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811301410.4A
Other languages
English (en)
Other versions
CN109492026A (zh
Inventor
万辛
刘冠男
郭佳
林浩
安茂波
李鹏
高圣翔
黄远
沈亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201811301410.4A priority Critical patent/CN109492026B/zh
Publication of CN109492026A publication Critical patent/CN109492026A/zh
Application granted granted Critical
Publication of CN109492026B publication Critical patent/CN109492026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06Q50/40

Abstract

本发明公开了一种基于改进的主动学习技术的电信欺诈分类检测方法,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。抽取数量为X的数据划分训练集和测试集。从训练集中抽取样本作为初始训练集,其余为未标记样本。若当前训练集中正类与负类样本数量的比值不小于阈值e,训练有监督分类器f并构造强组合分类器F;将未标记样本逐个放入有监督分类器f中进行类别评分,得到类别评分结果,输入主动学习采样算法,得到信息量大小的评分。选取信息量最大的前D个进行标注,并加入训练集中;当前训练集样本数量大于等于X1,或者迭代次数大于等于C时结束,输出训练好的分类器f。本发明具有较强的稳定性和鲁棒性,实现较高的分类和检测效率。

Description

一种基于改进的主动学习技术的电信欺诈分类检测方法
技术领域
本发明属于数据挖掘与机器学习和商务智能等领域,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。
背景技术
在实际应用中,不同类别的数据在数量上可能会有很大的差异。例如,在电信欺诈检测领域,大多数通话记录来自正常用户,只有一小部分通话记录来自欺诈者。然而,即使欺诈电话的数量较少,也会给公共通信资源和个人财产带来巨大损失。根据美国通信欺诈控制协会(CFCA)发布了一份关于2015年全球电信诈骗损失的调查报告,其中显示全球电信欺诈损失预计年均将近400亿美元,约占电信总收入的2%。
近年来,电信欺诈检测引起了许多工业界和学术界研究人员的极大兴趣,这不仅因为其潜在的巨大经济损失,而且还因异常的特征和行为模式难以捕捉。
目前,有监督和无监督学习技术已被应用于这个问题。但是,大多数经典学习算法都假设数据类的分布是平衡的。因此,当这些算法应用于非常不平衡的数据集时,它们通常无法达到预期的效果。
在这种情况下,如何有效地选择训练样本以取得良好的效果被视为一项至关重要的任务。主动学习(Active Learning)是一组特殊的机器学习方法,旨在通过从未标记的数据集中主动选择训练样本来提高学习性能。在主动学习中,在信息最丰富的样本上递增和迭代训练的学习算法通常会导致更高的准确性,并且优于随机选择训练样本的传统算法。
发明内容
本发明考虑到传统机器学习方法在数据类别不平衡情况下的分类难度和挑战,同时鉴于样本量较大,正类样本也较少的特点,提出了一种基于改进的主动学习技术的电信欺诈分类检测方法。
具体步骤如下:
步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集。
训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1-A%)*X;
步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本。
人工标记的样本数量为A%*B%*X;包括:被标记为诈骗的电话记录,视为正类样本;被标记为正常电话记录,视为负类样本。
未标记样本数量为A%*(1-B%)*X
步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入。
处理转换包括:特征归一化、连续数值离散化、指数/log变换、独热编码等;
步骤四、初始化主动学习算法的迭代参数;
包括:设置最大迭代步数C、每次迭代步长D以及训练集最大样本数量X1
步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;
当前训练集初始值选用初始训练集;
步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;
强组合分类器F的投票结果作为样本的潜在类别分布。
步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分。
步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分。
第j个未标记样本的评分MISj,具体计算公式如下:
Figure BDA0001852498380000021
Figure BDA0001852498380000022
Figure BDA0001852498380000023
x*表示的是当前未标记样本集合中信息量最大的数据样本集合,Pθ(yi|xj)表示强组合分类器F中的一个假设所预测的实例xj的类概率,Pes(yi|xj)表示强组合分类器F最终预测的xj的类概率大小,N代表强组合分类器F中的分类器个数。θ∈Θ代表一个假设所使用的参数集合,I(xj)是用来测量一个样本是否满足信息熵最大的指示器函数,取值为1或0;P(yi|xj)由用于欺诈检测的有监督分类器f预测的xj的类概率分布。
如果第j个未标记样本根据公式获得分数等于x*,则I(xj)值为1,否则为0。MISj反映了第j个未标记样本被误分情况以及信息量大小的综合研判。
步骤九、将所有评分值由大至小排序,选取信息量最大的前D个未标记样本进行标注,并加入训练集中;
步骤十、判断当前训练集样本数量是否大于等于X1,或者迭代次数是否大于等于C,如果是,则主动学习采样算法停止,输出分类器f,进入步骤十一;否则,未标记样本数量减少D个样本,迭代次数增计一次,返回步骤五。
步骤十一、使用训练好的分类器f在测试集上进行分类效果测试,对电信欺诈的呼叫数据进行分类。
本发明的优势在于:
1)、一种基于改进的主动学习技术的电信欺诈分类检测方法,将主动学习应用于大规模和不平衡的数据集的分类问题中,为解决如电信欺诈检测等此类问题提供了一种新的方法。
2)、一种基于改进的主动学习技术的电信欺诈分类检测方法,通过迭代的方式,结合重采样技术,使得分类结果具有较强的稳定性和鲁棒性,可以实现较高的分类和检测效率。
附图说明
图1为本发明一种基于改进的主动学习技术的电信欺诈分类检测方法的原理图;
图2为本发明一种基于改进的主动学习技术的电信欺诈分类检测方法流程图。
具体实施方式
下面将结合附图和实例对本发明作进一步的详细说明。
目前,大规模不平衡数据集的处理和计算任务已引起业界和学术界的高度重视,同时也是电信、金融等领域欺诈检测问题面临的重点和难点。在大数据时代,计算资源和时间成本的限制使得技术人员很难将相关算法和模型直接运行在原始数据集合上,因此,如何从大规模数据集中提取出更准确反映数据分布和特点的训练集成为了亟待解决的问题。
主动学习算法为该问题提供了一种迭代的思路,每一次迭代会依据模型评分和样本信息量逐步增加初始训练集合。但是,在面临极不平衡数据集时,传统的主动学习方法也存在一些弊端。为此,本发明提出了一种基于改进的主动学习技术的电信欺诈分类检测方法,以解决大规模不平衡的学习问题。该实验是在电信欺诈检测的真实数据上进行,实验结果表明,与传统的方法相比,本发明表现出更稳定和更好的性能。
本发明提出了一种新的抽样方法,它综合了分类器错分的概率和样本的不确定性度量。同时,与重采样方法相配合,以保持训练数据集的平衡。最后,构建了一个全面的主动学习框架,在每次迭代中,如果现有训练集是不平衡的,将采用重采样的方法来平衡它。之后,通过逐次有目的性地选择未标记数据集的一小部分来标记和扩充初始训练集,以提高分类器的学习性能。
如图1和图2所示,具体步骤如下:
步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集。
本实施例中收集电信网中一周的呼叫详细数据(Call Detail Record,简称CDR数据),从中随机等概率抽取一定数量X=100000数据作为实验准备,并按照训练集比例A%=15%,随机等概率划分出训练集和测试集;则训练集的样本总量为15000;测试集的样本总量为85000;
步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本。
本实施例中选取B%=10%,即1500个人工标记的样本数量;其中被标记为诈骗的电话记录,视为正类样本;被标记为正常电话记录,视为负类样本。
未标记样本数量为13500;
步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入。
本实施例选择提取M=27维数据特征;
处理转换包括:特征归一化、连续数值离散化、指数/log变换、独热编码等;
步骤四、初始化主动学习算法的迭代参数;
包括:设置最大迭代步数C=100、每次迭代步长D=100以及训练集最大样本数量X1=60000。
步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行均衡调整,并返回步骤二;否则进入步骤六;
当前训练集初始值选用初始训练集;本实施例设置阈值e=0.15;正类样本数量与负类样本数量的比值小于0.15时,说明当前训练集正负类样本分布极不平衡,采用重采样技术SMOTE对样本进行均衡调整。
步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;
有监督分类器f选用RandomForest分类器;
强组合分类器F的投票结果作为样本的潜在类别分布。
步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分。
步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分。
第j个未标记样本的评分MISj,具体计算公式如下:
Figure BDA0001852498380000041
Figure BDA0001852498380000042
Figure BDA0001852498380000043
x*表示的是当前未标记样本集合中信息量最大的数据样本集合,Pθ(yi|xj)表示强组合分类器F中的一个假设所预测的实例xj的类概率,Pes(yi|xj)表示强组合分类器F最终预测的xj的类概率大小,N代表强组合分类器F中的分类器个数。θ∈Θ代表一个假设所使用的参数集合,I(xj)是用来测量一个样本是否满足信息熵最大的指示器函数,取值为1或0;P(yi|xj)由用于欺诈检测的有监督分类器f预测的xj的类概率分布。
如果第j个未标记样本根据公式获得分数等于x*,则I(xj)值为1,否则为0。MISj反映了第j个未标记样本被误分情况以及信息量大小的综合研判。
步骤九、将所有评分值由大至小排序,选取信息量最大的前D个未标记样本进行标注,并加入训练集中;
本实施例中D=100;按照信息量大小对评分值进行排序,由高至低选取满足迭代步长个样本。
步骤十、判断当前训练集样本数量是否大于等于X1,或者迭代次数是否大于等于C,如果是,则主动学习采样算法停止,输出分类器f,进入步骤十一;否则,未标记样本数量减少D个样本,迭代次数增计一次,返回步骤五。
本实施例中迭代终止条件设定为若迭代次数达到最大X1=60000,或训练集数量C=100达到规定阈值,则算法终止。
步骤十一、使用训练好的分类器f在测试集上进行分类效果测试,对电信欺诈的呼叫数据进行分类。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (3)

1.一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,具体步骤如下:
步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集;
训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1-A%)*X;
步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本;
步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入;
步骤四、初始化主动学习算法的迭代参数;
步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;
当前训练集初始值选用初始训练集;
步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;
强组合分类器F的投票结果作为样本的潜在类别分布;
步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分;
步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分;
第j个未标记样本的评分MISj,具体计算公式如下:
Figure FDA0003160571590000011
Figure FDA0003160571590000012
Figure FDA0003160571590000013
x*表示的是当前未标记样本集合中信息量最大的数据样本集合,Pθ(yi|xj)表示强组合分类器F中的一个假设所预测的实例xj的类概率,Pes(yi|xj)表示强组合分类器F最终预测的xj的类概率大小,N代表强组合分类器F中的分类器个数;θ∈Θ代表一个假设所使用的参数集合,I(xj)是用来测量一个样本是否满足信息熵最大的指示器函数,取值为1或0;P(yi|xj)由用于欺诈检测的有监督分类器f预测的xj的类概率分布;
如果第j个未标记样本根据公式获得分数等于x*,则I(xj)值为1,否则为0;MISj反映了第j个未标记样本被误分情况以及信息量大小的综合研判;
步骤九、将所有评分值由大至小排序,选取信息量最大的前D个未标记样本进行标注,并加入训练集中;
步骤十、判断当前训练集样本数量是否大于等于X1,或者迭代次数是否大于等于C,如果是,则主动学习采样算法停止,输出分类器f,进入步骤十一;否则,未标记样本数量减少D个样本,迭代次数增计一次,返回步骤五;
设置最大迭代步数C、每次迭代步长D以及训练集最大样本数量X1
步骤十一、使用训练好的分类器f在测试集上进行分类效果测试,对电信欺诈的呼叫数据进行分类。
2.如权利要求1所述的一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,步骤二中所述的人工标记的样本数量为A%*B%*X;包括:被标记为诈骗的电话记录,视为正类样本;被标记为正常电话记录,视为负类样本;
未标记样本数量为A%*(1-B%)*X。
3.如权利要求1所述的一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,步骤三所述的处理转换包括:特征归一化、连续数值离散化、指数/log变换和独热编码。
CN201811301410.4A 2018-11-02 2018-11-02 一种基于改进的主动学习技术的电信欺诈分类检测方法 Active CN109492026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811301410.4A CN109492026B (zh) 2018-11-02 2018-11-02 一种基于改进的主动学习技术的电信欺诈分类检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811301410.4A CN109492026B (zh) 2018-11-02 2018-11-02 一种基于改进的主动学习技术的电信欺诈分类检测方法

Publications (2)

Publication Number Publication Date
CN109492026A CN109492026A (zh) 2019-03-19
CN109492026B true CN109492026B (zh) 2021-11-09

Family

ID=65692174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811301410.4A Active CN109492026B (zh) 2018-11-02 2018-11-02 一种基于改进的主动学习技术的电信欺诈分类检测方法

Country Status (1)

Country Link
CN (1) CN109492026B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059889B (zh) * 2019-03-28 2021-05-28 国家计算机网络与信息安全管理中心 基于无监督学习的诈骗呼叫序列检测方法
CN110070131A (zh) * 2019-04-24 2019-07-30 苏州浪潮智能科技有限公司 一种面向数据驱动建模的主动学习方法
CN110072017A (zh) * 2019-04-28 2019-07-30 济南大学 基于特征选择与集成学习的异常电话识别方法及系统
CN110287311B (zh) * 2019-05-10 2023-05-26 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110363415A (zh) * 2019-06-29 2019-10-22 上海淇馥信息技术有限公司 基于多视图学习的欺诈标记的方法和装置
CN112330328A (zh) * 2019-08-05 2021-02-05 四川大学 一种基于特征提取的信用卡欺诈检测方法
CN111047428B (zh) * 2019-12-05 2023-08-08 深圳索信达数据技术有限公司 基于少量欺诈样本的银行高风险欺诈客户识别方法
CN111160469B (zh) * 2019-12-30 2023-08-08 湖南大学 一种目标检测系统的主动学习方法
CN111506757A (zh) * 2020-04-10 2020-08-07 复旦大学 基于增量迭代的语音标记装置及方法
CN112070127A (zh) * 2020-08-21 2020-12-11 南方电网科学研究院有限责任公司 一种基于智能分析的海量数据样本增量分析方法
CN113793214B (zh) * 2021-09-27 2023-07-11 武汉众邦银行股份有限公司 一种解决小微企业信贷授信风险控制和管理方法及装置
CN114118201A (zh) * 2021-09-27 2022-03-01 南开大学 基于主动学习的医疗设备性能指标检测方法和装置
CN115130462B (zh) * 2022-06-23 2023-09-01 成都信息工程大学 一种基于深度神经网络的信息抽取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095943A1 (en) * 2010-10-15 2012-04-19 Yahoo! Inc. System for training classifiers in multiple categories through active learning
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
CN103617429A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习分类方法和系统
CN104166706A (zh) * 2014-08-08 2014-11-26 苏州大学 基于代价敏感主动学习的多标签分类器构建方法
CN107092932A (zh) * 2017-04-24 2017-08-25 苏州融希信息科技有限公司 一种基于条件依赖标签集的多标签主动学习方法
CN107451192A (zh) * 2017-06-28 2017-12-08 国家计算机网络与信息安全管理中心 一种基于分解聚合的电信诈骗电话的分类检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095943A1 (en) * 2010-10-15 2012-04-19 Yahoo! Inc. System for training classifiers in multiple categories through active learning
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
CN103617429A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习分类方法和系统
CN104166706A (zh) * 2014-08-08 2014-11-26 苏州大学 基于代价敏感主动学习的多标签分类器构建方法
CN107092932A (zh) * 2017-04-24 2017-08-25 苏州融希信息科技有限公司 一种基于条件依赖标签集的多标签主动学习方法
CN107451192A (zh) * 2017-06-28 2017-12-08 国家计算机网络与信息安全管理中心 一种基于分解聚合的电信诈骗电话的分类检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
主动学习算法研究进展;杨文柱 等;《河北大学学报(自然科学版)》;20171231;第37卷(第2期);第216-114页 *

Also Published As

Publication number Publication date
CN109492026A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN108363810B (zh) 一种文本分类方法及装置
CN109299741B (zh) 一种基于多层检测的网络攻击类型识别方法
CN111314353B (zh) 一种基于混合采样的网络入侵检测方法及系统
CN114003721A (zh) 矛盾纠纷事件类型分类模型的构建方法、装置及应用
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN109255029A (zh) 一种采用加权优化训练集增强自动Bug报告分配的方法
CN112784031B (zh) 一种基于小样本学习的客服对话文本的分类方法和系统
CN110377605A (zh) 一种结构化数据的敏感属性识别与分类分级方法
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN110414587A (zh) 基于渐进学习的深度卷积神经网络训练方法与系统
WO2020024444A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN114077836A (zh) 一种基于异构神经网络的文本分类方法及装置
CN111813893B (zh) 基于深度迁移学习的房地产市场分析方法、装置及设备
CN109582743A (zh) 一种针对恐怖袭击事件的数据挖掘方法
Chandana et al. BCC NEWS classification comparison between naive bayes, support vector machine, recurrent neural network
CN112131106B (zh) 基于小概率数据的测试数据构造方法及装置
CN114387005A (zh) 一种基于图分类的套利团伙识别方法
CN114547294A (zh) 一种基于传播过程综合信息的谣言检测方法及系统
CN113010673A (zh) 一种基于熵优化支持向量机的漏洞自动分类方法
CN113792142B (zh) 基于多语义因素与特征聚合的目标用户隐性关系分类方法
Xue et al. TSC-GCN: A Face Clustering Method Based on GCN
CN111858887B (zh) 一种机场服务的社区问答系统
CN117057743B (zh) 建筑工程项目咨询费用管理方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant