CN109492026A - 一种基于改进的主动学习技术的电信欺诈分类检测方法 - Google Patents
一种基于改进的主动学习技术的电信欺诈分类检测方法 Download PDFInfo
- Publication number
- CN109492026A CN109492026A CN201811301410.4A CN201811301410A CN109492026A CN 109492026 A CN109492026 A CN 109492026A CN 201811301410 A CN201811301410 A CN 201811301410A CN 109492026 A CN109492026 A CN 109492026A
- Authority
- CN
- China
- Prior art keywords
- sample
- training set
- classification
- unmarked
- active learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 238000012952 Resampling Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000011551 log transformation method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于改进的主动学习技术的电信欺诈分类检测方法,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。抽取数量为X的数据划分训练集和测试集。从训练集中抽取样本作为初始训练集,其余为未标记样本。若当前训练集中正类与负类样本数量的比值不小于阈值e,训练有监督分类器f并构造强组合分类器F;将未标记样本逐个放入有监督分类器f中进行类别评分,得到类别评分结果,输入主动学习采样算法,得到信息量大小的评分。选取信息量最大的前D个进行标注,并加入训练集中;当前训练集样本数量大于等于X1,或者迭代次数大于等于C时结束,输出训练好的分类器f。本发明具有较强的稳定性和鲁棒性,实现较高的分类和检测效率。
Description
技术领域
本发明属于数据挖掘与机器学习和商务智能等领域,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。
背景技术
在实际应用中,不同类别的数据在数量上可能会有很大的差异。例如,在电信欺诈检测领域,大多数通话记录来自正常用户,只有一小部分通话记录来自欺诈者。然而,即使欺诈电话的数量较少,也会给公共通信资源和个人财产带来巨大损失。根据美国通信欺诈控制协会(CFCA)发布了一份关于2015年全球电信诈骗损失的调查报告,其中显示全球电信欺诈损失预计年均将近400亿美元,约占电信总收入的2%。
近年来,电信欺诈检测引起了许多工业界和学术界研究人员的极大兴趣,这不仅因为其潜在的巨大经济损失,而且还因异常的特征和行为模式难以捕捉。
目前,有监督和无监督学习技术已被应用于这个问题。但是,大多数经典学习算法都假设数据类的分布是平衡的。因此,当这些算法应用于非常不平衡的数据集时,它们通常无法达到预期的效果。
在这种情况下,如何有效地选择训练样本以取得良好的效果被视为一项至关重要的任务。主动学习(Active Learning)是一组特殊的机器学习方法,旨在通过从未标记的数据集中主动选择训练样本来提高学习性能。在主动学习中,在信息最丰富的样本上递增和迭代训练的学习算法通常会导致更高的准确性,并且优于随机选择训练样本的传统算法。
发明内容
本发明考虑到传统机器学习方法在数据类别不平衡情况下的分类难度和挑战,同时鉴于样本量较大,正类样本也较少的特点,提出了一种基于改进的主动学习技术的电信欺诈分类检测方法。
具体步骤如下:
步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集。
训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1-A%)*X;
步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本。
人工标记的样本数量为A%*B%*X;包括:被标记为诈骗的电话记录,视为正类样本;被标记为正常电话记录,视为负类样本。
未标记样本数量为A%*(1-B%)*X
步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入。
处理转换包括:特征归一化、连续数值离散化、指数/log变换、独热编码等;
步骤四、初始化主动学习算法的迭代参数;
包括:设置最大迭代步数C、每次迭代步长D以及训练集最大样本数量X1。
步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;
当前训练集初始值选用初始训练集;
步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;
强组合分类器F的投票结果作为样本的潜在类别分布。
步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分。
步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分。
第j个未标记样本的评分MISj,具体计算公式如下:
x*表示的是当前未标记样本集合中信息量最大的数据样本集合,Pθ(yi|xj)表示强组合分类器F中的一个假设所预测的实例xj的类概率,Pes(yi|xj)表示强组合分类器F最终预测的xj的类概率大小,N代表强组合分类器F中的分类器个数。θ∈Θ代表一个假设所使用的参数集合,I(xj)是用来测量一个样本是否满足信息熵最大的指示器函数,取值为1或0;P(yi|xj)由用于欺诈检测的有监督分类器f预测的xj的类概率分布。
如果第j个未标记样本根据公式获得分数等于x*,则I(xj)值为1,否则为0。MISj反映了第j个未标记样本被误分情况以及信息量大小的综合研判。
步骤九、将所有评分值由大至小排序,选取信息量最大的前D个未标记样本进行标注,并加入训练集中;
步骤十、判断当前训练集样本数量是否大于等于X1,或者迭代次数是否大于等于C,如果是,则主动学习采样算法停止,输出分类器f,进入步骤十一;否则,未标记样本数量减少D个样本,迭代次数增计一次,返回步骤五。
步骤十一、使用训练好的分类器f在测试集上进行分类效果测试,对电信欺诈的呼叫数据进行分类。
本发明的优势在于:
1)、一种基于改进的主动学习技术的电信欺诈分类检测方法,将主动学习应用于大规模和不平衡的数据集的分类问题中,为解决如电信欺诈检测等此类问题提供了一种新的方法。
2)、一种基于改进的主动学习技术的电信欺诈分类检测方法,通过迭代的方式,结合重采样技术,使得分类结果具有较强的稳定性和鲁棒性,可以实现较高的分类和检测效率。
附图说明
图1为本发明一种基于改进的主动学习技术的电信欺诈分类检测方法的原理图;
图2为本发明一种基于改进的主动学习技术的电信欺诈分类检测方法流程图。
具体实施方式
下面将结合附图和实例对本发明作进一步的详细说明。
目前,大规模不平衡数据集的处理和计算任务已引起业界和学术界的高度重视,同时也是电信、金融等领域欺诈检测问题面临的重点和难点。在大数据时代,计算资源和时间成本的限制使得技术人员很难将相关算法和模型直接运行在原始数据集合上,因此,如何从大规模数据集中提取出更准确反映数据分布和特点的训练集成为了亟待解决的问题。
主动学习算法为该问题提供了一种迭代的思路,每一次迭代会依据模型评分和样本信息量逐步增加初始训练集合。但是,在面临极不平衡数据集时,传统的主动学习方法也存在一些弊端。为此,本发明提出了一种基于改进的主动学习技术的电信欺诈分类检测方法,以解决大规模不平衡的学习问题。该实验是在电信欺诈检测的真实数据上进行,实验结果表明,与传统的方法相比,本发明表现出更稳定和更好的性能。
本发明提出了一种新的抽样方法,它综合了分类器错分的概率和样本的不确定性度量。同时,与重采样方法相配合,以保持训练数据集的平衡。最后,构建了一个全面的主动学习框架,在每次迭代中,如果现有训练集是不平衡的,将采用重采样的方法来平衡它。之后,通过逐次有目的性地选择未标记数据集的一小部分来标记和扩充初始训练集,以提高分类器的学习性能。
如图1和图2所示,具体步骤如下:
步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集。
本实施例中收集电信网中一周的呼叫详细数据(Call Detail Record,简称CDR数据),从中随机等概率抽取一定数量X=100000数据作为实验准备,并按照训练集比例A%=15%,随机等概率划分出训练集和测试集;则训练集的样本总量为15000;测试集的样本总量为85000;
步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本。
本实施例中选取B%=10%,即1500个人工标记的样本数量;其中被标记为诈骗的电话记录,视为正类样本;被标记为正常电话记录,视为负类样本。
未标记样本数量为13500;
步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入。
本实施例选择提取M=27维数据特征;
处理转换包括:特征归一化、连续数值离散化、指数/log变换、独热编码等;
步骤四、初始化主动学习算法的迭代参数;
包括:设置最大迭代步数C=100、每次迭代步长D=100以及训练集最大样本数量X1=60000。
步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行均衡调整,并返回步骤二;否则进入步骤六;
当前训练集初始值选用初始训练集;本实施例设置阈值e=0.15;正类样本数量与负类样本数量的比值小于0.15时,说明当前训练集正负类样本分布极不平衡,采用重采样技术SMOTE对样本进行均衡调整。
步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;
有监督分类器f选用RandomForest分类器;
强组合分类器F的投票结果作为样本的潜在类别分布。
步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分。
步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分。
第j个未标记样本的评分MISj,具体计算公式如下:
x*表示的是当前未标记样本集合中信息量最大的数据样本集合,Pθ(yi|xj)表示强组合分类器F中的一个假设所预测的实例xj的类概率,Pes(yi|xj)表示强组合分类器F最终预测的xj的类概率大小,N代表强组合分类器F中的分类器个数。θ∈Θ代表一个假设所使用的参数集合,I(xj)是用来测量一个样本是否满足信息熵最大的指示器函数,取值为1或0;P(yi|xj)由用于欺诈检测的有监督分类器f预测的xj的类概率分布。
如果第j个未标记样本根据公式获得分数等于x*,则I(xj)值为1,否则为0。MISj反映了第j个未标记样本被误分情况以及信息量大小的综合研判。
步骤九、将所有评分值由大至小排序,选取信息量最大的前D个未标记样本进行标注,并加入训练集中;
本实施例中D=100;按照信息量大小对评分值进行排序,由高至低选取满足迭代步长个样本。
步骤十、判断当前训练集样本数量是否大于等于X1,或者迭代次数是否大于等于C,如果是,则主动学习采样算法停止,输出分类器f,进入步骤十一;否则,未标记样本数量减少D个样本,迭代次数增计一次,返回步骤五。
本实施例中迭代终止条件设定为若迭代次数达到最大X1=60000,或训练集数量C=100达到规定阈值,则算法终止。
步骤十一、使用训练好的分类器f在测试集上进行分类效果测试,对电信欺诈的呼叫数据进行分类。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (4)
1.一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,具体步骤如下:
步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集;
训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1-A%)*X;
步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本;
步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入;
步骤四、初始化主动学习算法的迭代参数;
步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;
当前训练集初始值选用初始训练集;
步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;
强组合分类器F的投票结果作为样本的潜在类别分布;
步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分;
步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分;
第j个未标记样本的评分MISj,具体计算公式如下:
x*表示的是当前未标记样本集合中信息量最大的数据样本集合,Pθ(yi|xj)表示强组合分类器F中的一个假设所预测的实例xj的类概率,Pes(yi|xj)表示强组合分类器F最终预测的xj的类概率大小,N代表强组合分类器F中的分类器个数。θ∈Θ代表一个假设所使用的参数集合,I(xj)是用来测量一个样本是否满足信息熵最大的指示器函数,取值为1或0;P(yi|xj)由用于欺诈检测的有监督分类器f预测的xj的类概率分布;
如果第j个未标记样本根据公式获得分数等于x*,则I(xj)值为1,否则为0;MISj反映了第j个未标记样本被误分情况以及信息量大小的综合研判;
步骤九、将所有评分值由大至小排序,选取信息量最大的前D个未标记样本进行标注,并加入训练集中;
步骤十、判断当前训练集样本数量是否大于等于X1,或者迭代次数是否大于等于C,如果是,则主动学习采样算法停止,输出分类器f,进入步骤十一;否则,未标记样本数量减少D个样本,迭代次数增计一次,返回步骤五;
步骤十一、使用训练好的分类器f在测试集上进行分类效果测试,对电信欺诈的呼叫数据进行分类。
2.如权利要求1所述的一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,步骤二中所述的人工标记的样本数量为A%*B%*X;包括:被标记为诈骗的电话记录,视为正类样本;被标记为正常电话记录,视为负类样本;
未标记样本数量为A%*(1-B%)*X。
3.如权利要求1所述的一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,步骤三所述的处理转换包括:特征归一化、连续数值离散化、指数/log变换和独热编码。
4.如权利要求1所述的一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,所述的步骤四包括:设置最大迭代步数C、每次迭代步长D以及训练集最大样本数量X1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811301410.4A CN109492026B (zh) | 2018-11-02 | 2018-11-02 | 一种基于改进的主动学习技术的电信欺诈分类检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811301410.4A CN109492026B (zh) | 2018-11-02 | 2018-11-02 | 一种基于改进的主动学习技术的电信欺诈分类检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492026A true CN109492026A (zh) | 2019-03-19 |
CN109492026B CN109492026B (zh) | 2021-11-09 |
Family
ID=65692174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811301410.4A Active CN109492026B (zh) | 2018-11-02 | 2018-11-02 | 一种基于改进的主动学习技术的电信欺诈分类检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492026B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059889A (zh) * | 2019-03-28 | 2019-07-26 | 国家计算机网络与信息安全管理中心 | 基于无监督学习的诈骗呼叫序列检测方法 |
CN110070131A (zh) * | 2019-04-24 | 2019-07-30 | 苏州浪潮智能科技有限公司 | 一种面向数据驱动建模的主动学习方法 |
CN110072017A (zh) * | 2019-04-28 | 2019-07-30 | 济南大学 | 基于特征选择与集成学习的异常电话识别方法及系统 |
CN110287311A (zh) * | 2019-05-10 | 2019-09-27 | 平安科技(深圳)有限公司 | 文本分类方法及装置、存储介质、计算机设备 |
CN110363415A (zh) * | 2019-06-29 | 2019-10-22 | 上海淇馥信息技术有限公司 | 基于多视图学习的欺诈标记的方法和装置 |
CN111047428A (zh) * | 2019-12-05 | 2020-04-21 | 深圳索信达数据技术有限公司 | 基于少量欺诈样本的银行高风险欺诈客户识别方法 |
CN111160469A (zh) * | 2019-12-30 | 2020-05-15 | 湖南大学 | 一种目标检测系统的主动学习方法 |
CN111506757A (zh) * | 2020-04-10 | 2020-08-07 | 复旦大学 | 基于增量迭代的语音标记装置及方法 |
CN112070127A (zh) * | 2020-08-21 | 2020-12-11 | 南方电网科学研究院有限责任公司 | 一种基于智能分析的海量数据样本增量分析方法 |
CN112330328A (zh) * | 2019-08-05 | 2021-02-05 | 四川大学 | 一种基于特征提取的信用卡欺诈检测方法 |
CN113793214A (zh) * | 2021-09-27 | 2021-12-14 | 武汉众邦银行股份有限公司 | 一种解决小微企业信贷授信风险控制和管理方法及装置 |
CN114118201A (zh) * | 2021-09-27 | 2022-03-01 | 南开大学 | 基于主动学习的医疗设备性能指标检测方法和装置 |
CN115130462A (zh) * | 2022-06-23 | 2022-09-30 | 成都信息工程大学 | 一种基于深度神经网络的信息抽取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120095943A1 (en) * | 2010-10-15 | 2012-04-19 | Yahoo! Inc. | System for training classifiers in multiple categories through active learning |
US20130097103A1 (en) * | 2011-10-14 | 2013-04-18 | International Business Machines Corporation | Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set |
CN103617429A (zh) * | 2013-12-16 | 2014-03-05 | 苏州大学 | 一种主动学习分类方法和系统 |
CN104166706A (zh) * | 2014-08-08 | 2014-11-26 | 苏州大学 | 基于代价敏感主动学习的多标签分类器构建方法 |
CN107092932A (zh) * | 2017-04-24 | 2017-08-25 | 苏州融希信息科技有限公司 | 一种基于条件依赖标签集的多标签主动学习方法 |
CN107451192A (zh) * | 2017-06-28 | 2017-12-08 | 国家计算机网络与信息安全管理中心 | 一种基于分解聚合的电信诈骗电话的分类检测方法 |
-
2018
- 2018-11-02 CN CN201811301410.4A patent/CN109492026B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120095943A1 (en) * | 2010-10-15 | 2012-04-19 | Yahoo! Inc. | System for training classifiers in multiple categories through active learning |
US20130097103A1 (en) * | 2011-10-14 | 2013-04-18 | International Business Machines Corporation | Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set |
CN103617429A (zh) * | 2013-12-16 | 2014-03-05 | 苏州大学 | 一种主动学习分类方法和系统 |
CN104166706A (zh) * | 2014-08-08 | 2014-11-26 | 苏州大学 | 基于代价敏感主动学习的多标签分类器构建方法 |
CN107092932A (zh) * | 2017-04-24 | 2017-08-25 | 苏州融希信息科技有限公司 | 一种基于条件依赖标签集的多标签主动学习方法 |
CN107451192A (zh) * | 2017-06-28 | 2017-12-08 | 国家计算机网络与信息安全管理中心 | 一种基于分解聚合的电信诈骗电话的分类检测方法 |
Non-Patent Citations (1)
Title |
---|
杨文柱 等: "主动学习算法研究进展", 《河北大学学报(自然科学版)》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059889A (zh) * | 2019-03-28 | 2019-07-26 | 国家计算机网络与信息安全管理中心 | 基于无监督学习的诈骗呼叫序列检测方法 |
CN110059889B (zh) * | 2019-03-28 | 2021-05-28 | 国家计算机网络与信息安全管理中心 | 基于无监督学习的诈骗呼叫序列检测方法 |
CN110070131A (zh) * | 2019-04-24 | 2019-07-30 | 苏州浪潮智能科技有限公司 | 一种面向数据驱动建模的主动学习方法 |
CN110072017A (zh) * | 2019-04-28 | 2019-07-30 | 济南大学 | 基于特征选择与集成学习的异常电话识别方法及系统 |
CN110287311A (zh) * | 2019-05-10 | 2019-09-27 | 平安科技(深圳)有限公司 | 文本分类方法及装置、存储介质、计算机设备 |
CN110287311B (zh) * | 2019-05-10 | 2023-05-26 | 平安科技(深圳)有限公司 | 文本分类方法及装置、存储介质、计算机设备 |
CN110363415A (zh) * | 2019-06-29 | 2019-10-22 | 上海淇馥信息技术有限公司 | 基于多视图学习的欺诈标记的方法和装置 |
CN112330328A (zh) * | 2019-08-05 | 2021-02-05 | 四川大学 | 一种基于特征提取的信用卡欺诈检测方法 |
CN111047428A (zh) * | 2019-12-05 | 2020-04-21 | 深圳索信达数据技术有限公司 | 基于少量欺诈样本的银行高风险欺诈客户识别方法 |
CN111047428B (zh) * | 2019-12-05 | 2023-08-08 | 深圳索信达数据技术有限公司 | 基于少量欺诈样本的银行高风险欺诈客户识别方法 |
CN111160469A (zh) * | 2019-12-30 | 2020-05-15 | 湖南大学 | 一种目标检测系统的主动学习方法 |
CN111160469B (zh) * | 2019-12-30 | 2023-08-08 | 湖南大学 | 一种目标检测系统的主动学习方法 |
CN111506757A (zh) * | 2020-04-10 | 2020-08-07 | 复旦大学 | 基于增量迭代的语音标记装置及方法 |
CN112070127A (zh) * | 2020-08-21 | 2020-12-11 | 南方电网科学研究院有限责任公司 | 一种基于智能分析的海量数据样本增量分析方法 |
CN114118201A (zh) * | 2021-09-27 | 2022-03-01 | 南开大学 | 基于主动学习的医疗设备性能指标检测方法和装置 |
CN113793214A (zh) * | 2021-09-27 | 2021-12-14 | 武汉众邦银行股份有限公司 | 一种解决小微企业信贷授信风险控制和管理方法及装置 |
CN115130462A (zh) * | 2022-06-23 | 2022-09-30 | 成都信息工程大学 | 一种基于深度神经网络的信息抽取方法 |
CN115130462B (zh) * | 2022-06-23 | 2023-09-01 | 成都信息工程大学 | 一种基于深度神经网络的信息抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109492026B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492026A (zh) | 一种基于改进的主动学习技术的电信欺诈分类检测方法 | |
CN105653444B (zh) | 基于互联网日志数据的软件缺陷故障识别方法和系统 | |
CN107729919A (zh) | 基于大数据技术的深化投诉穿透分析方法 | |
CN103823890B (zh) | 一种针对特定群体的微博热点话题检测方法及装置 | |
CN106709349B (zh) | 一种基于多维度行为特征的恶意代码分类方法 | |
CN110210301B (zh) | 基于微表情评价面试者的方法、装置、设备和存储介质 | |
CN106228554B (zh) | 基于多属性约简的模糊粗糙集煤粉尘图像分割方法 | |
CN105760439A (zh) | 一种基于特定行为共现网络的人物共现关系图谱构建方法 | |
CN110377605A (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
CN107273295A (zh) | 一种基于文本混乱度的软件问题报告分类方法 | |
CN109871686A (zh) | 基于图标表示和软件行为一致性分析的恶意程序识别方法及装置 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
Wang et al. | Time-variant graph classification | |
CN102129568A (zh) | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 | |
Wang et al. | Positive unlabeled fake news detection via multi-modal masked transformer network | |
CN111047428B (zh) | 基于少量欺诈样本的银行高风险欺诈客户识别方法 | |
CN108960282A (zh) | 一种基于半监督学习的在线服务信誉度量方法 | |
CN112200260B (zh) | 一种基于丢弃损失函数的人物属性识别方法 | |
CN114387005A (zh) | 一种基于图分类的套利团伙识别方法 | |
Singh et al. | Prominent Sampling Techniques Analysis in Machine Learning: Bibliometric Survey and Performance Evaluation | |
CN117828029A (zh) | 一种基于情感-风格去偏的多领域虚假新闻检测方法 | |
Maçãs et al. | Vabank: visual analytics for banking transactions | |
CN116578904A (zh) | 基于集成机器学习的区块链地址属性分类方法及系统 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |