CN110072017A - 基于特征选择与集成学习的异常电话识别方法及系统 - Google Patents
基于特征选择与集成学习的异常电话识别方法及系统 Download PDFInfo
- Publication number
- CN110072017A CN110072017A CN201910350416.9A CN201910350416A CN110072017A CN 110072017 A CN110072017 A CN 110072017A CN 201910350416 A CN201910350416 A CN 201910350416A CN 110072017 A CN110072017 A CN 110072017A
- Authority
- CN
- China
- Prior art keywords
- average
- called
- sample
- day
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 54
- 230000009467 reduction Effects 0.000 claims abstract description 11
- 238000004891 communication Methods 0.000 claims abstract description 9
- 238000005065 mining Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims abstract 2
- 230000002354 daily effect Effects 0.000 claims description 52
- 230000006399 behavior Effects 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 230000003203 everyday effect Effects 0.000 claims description 16
- 238000003066 decision tree Methods 0.000 claims description 13
- 238000013145 classification model Methods 0.000 claims description 11
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/60—Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/60—Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
- H04M2203/6027—Fraud preventions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Technology Law (AREA)
- Computer Security & Cryptography (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于特征选择与集成学习的异常电话识别方法及系统,包括:构建混合数据集;通过用户在起始时间到终止时间的窗口中的历史通话行为挖掘样本特征;将基于用户通话行为的特征进行组合优化,从时间、频率、短信、流量、位置和联系人角度挖掘更具有行为信息的特征;将基于用户通话行为样本进行过采样,增加少数样本数量,减少样本不平衡对模型的影响;将用户通话行为样本进行特征降维处理;利用集成学习训练数据集建立模型,进行异常电话识别。本发明通过特征挖掘组合和降维的混合方式将充分还原样本原始信息,从而提高预测精度。
Description
技术领域
本发明属于机器学习和数据挖掘技术领域,具体涉及一种基于特征选择与集成学习的异常电话识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
传统识别模型如黑白名单技术、异常话务检测技术等是目前异常电话识别的主要形式。随着通信技术的高速发展和人们生活水品的提高,诈骗电话也变得越来越低成本和多样化。传统的异常电话识别模型由于各方面的缺陷,防范的主动性和准确性有很大的缺陷。为了解决此问题,许多方案相继提出,比如基于SVM算法的异常电话检测、基于决策树的异常电话检测等。这些方法在一定程度上将被动地传统检测转变为主动检测,但对于检测的准确率和精度上还需要很大的提高。
发明人发现,单一的样本特征对于原始样本的描述能力非常有限,而过高的维度特征会增加模型的复杂度从而降低模型的识别效率,因此选择有效的特征并包含丰富的信息是非常重要的。
对于样本特征第一个问题:如何获得充分的样本特征?很多异常电话模型仅仅通过两三个特征来判断样本类别,这样的模型是不可取的。想要获得高性能的模型,样本特征需要充分的挖掘和组合,对于电话样本要考虑位置、接听频率、接听时间等各种因素,这样才能充分的挖掘样本信息。
第二个问题:如何从样本的高纬度特征中选择有效的维度特征?目前的主流的方法主要有两个:
(1)主成分分析方法,旨在利用降维的思想,把多维指标转化为少数几个综合维度,然后利用这些综合维度进行数据挖掘和学习,以代替原来利用所有维度进行挖掘学习的方法。它是按照一定的数学变换方法,把给定的一组相关变量(维度)通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
(2)因子分析,假想变量是不可观测的潜在变量,称为因子。将多个实测变量转换为少数几个不相关的综合指标的多元统计方法。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。
在研究中,越来越多的学者将机器学习算法融入到异常电话的识别中。然而单一的分类算法往往由于数据噪声或敏感点不能充分的挖掘数据特征从而达不到高性能的预测结果。
综上,现有异常电话识别模型主要有以下问题:
(1)用户的通话行为特征挖掘不充分,缺少有效的样本信息;
(2)样本维度不合适,过高或过低影响预测结果;
(3)在实际电话样本中,异常电话的样本远远小于正常电话样本,所以存在极大的样本不平衡的问题,影响模型结果。
(4)单一分类算法的异常电话识别模型性能较差。
发明内容
为了解决上述问题,本发明提出一种基于特征选择与集成学习的异常电话识别方法及系统,能够充分挖掘用户的通话行为,采用特征组合和降维的方式找到最合适的维度,最后运用集成学习将机器学习算法通过不同的结合策略进行组合,解决传统异常电话方法预测时准确率低的问题。
在一些实施方式中,采用如下技术方案:
一种基于特征选择与集成学习的异常电话识别方法,包括:
构建混合数据集;
通过用户在起始时间到终止时间的窗口中的历史通话行为挖掘样本特征;
将基于用户通话行为的特征进行组合优化,从时间、频率、短信、流量、位置和联系人角度挖掘更具有行为信息的特征;
将基于用户通话行为样本进行过采样,增加少数样本数量,减少样本不平衡对模型的影响;
将用户通话行为样本进行特征降维处理;
利用集成学习训练数据集建立模型,进行异常电话识别。
进一步地,利用集成学习训练数据集建立模型,具体为:将处理好的样本集根据交叉验证分为训练集和测试集;分别采用决策树算法、最近邻算法、贝叶斯算法以及神经网络方法对训练集数据进行训练,得到相应的第一基学习器、第二基学习器、第三基学习器和第四基学习器。
建立模型的方法具体为:
将训练集随机抽样为N个子训练集,每一个子训练集训练为一个决策树模型,得到N个决策树模型;
对于测试集的每一个样本,每一个决策树模型都会有一个预测结果,在这些预测结果中选取最多数的类别作为最后的识别结果;
或者,分别根据训练集数据训练四个不同的分类模型,对于测试集的每一个样本,四个分类模型分别产生一个预测结果,通过投票选取类别多作为样本的最终识别结果;
或者,
通过训练集采用k折交叉验证,每一折中有一份为测试集,其他四份为训练集;
通过训练集分别训练四种不同的分类模型作为基学习器;
将每一个基学习器分别训练每一折中的测试集,预测的结果为A1={t1,t2,..tk.};
采用相同的方法得到其他基学习器的预测结果B1,C1,D1;
令D={A1,B1,C1,D1}为第二层学习器M的训练集,同时将每一个基学习器分别训练原始测试集结果为w1,w2,…wk;将结果取平均记为A2;
采用相同的方法得到其他基学习器的结果为B2,C2,D2;
令T={A2,B2,C2,D2}为第二层学习器M的测试集;
构建两层框架的异常电话识别模型。
在另一些实施方式中,采用如下技术方案:
一种基于特征选择与集成学习的异常电话识别系统,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述的基于特征选择与集成学习的异常电话识别方法。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述的基于特征选择与集成学习的异常电话识别方法。
与现有技术相比,本发明的有益效果是:
通过特征挖掘组合和降维的混合方式将充分还原样本原始信息,从而提高预测精度。
为了减少样本不平衡对模型的影响,采用过采样来提高少数样本的数量。
采用特征组合和降维的方式找到最合适的维度,最后运用集成学习将机器学习算法通过不同的结合策略进行组合,解决传统异常电话方法预测时准确率低的问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是实施例一中构建混合数据集方法示意图;
图2是实施例一中用户关系图;
图3是实施例一中用户行为特征示意图;
图4是实施例一中SMOTE采样示意图;
图5是实施例一中集成学习训练模型示意图;
图6是实施例一中基于特征选择与集成学习的异常电话识别方法示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在一个或多个实施方式中,公开了一种基于特征选择与集成学习的异常电话识别方法,如图6所示,具体包括以下步骤:
(1)构建混合数据集;
在数据样本中,异常通话行为检测问题由于正常通话行为的实例数量远大于异常的,所以属于类别不平衡问题。并且在运营商所提供的正常通话样本中存在一些未知类别和少量异常电话的“脏数据”。本实施例研究的重点在高维小样本下异常电话行为分析,所以在采样样本集时,需要构建混合数据集来还原真实数据集如图1所示。
(1)通过用户在起始时间到终止时间的窗口中的历史通话行为挖掘样本特征;
用户的主叫被叫关系图如图2所示,挖掘到的样本特征包括:
样本特征1:该用户话单覆盖天数,指该用户在(w-wo)时间窗口内有通话行为的天数。
样本特征2:天均主叫次数,指该用户平均每天主动拨打电话的数量。
样本特征3:天均主叫时长,指该用户平均每天主动拨打电话的时间。
样本特征4:天均主叫联系人数目,指该用户平均每天主动拨打的联系人数目的。
样本特征5:天均被叫联系人数目,指该用户平均每天接听电话的联系人数目的。
样本特征6:天均被叫次数,指用户平均每天接听电话的数量。
样本特征7:天均被叫时长,指用户平均每天接听电话的时间。
样本特征8:天均长途次数,指用户平均每天拨打长途电话的次数。
样本特征9:天均漫游次数,指用户平均每天漫游的次数。
样本特征10:天均的经度均值,指用户平均每天位置的经度值。
样本特征11:天均的纬度均值,指用户平均每天位置的纬度值。
样本特征12:被叫联系人出现连号的天数:若某天拨打电话时出现至少一次前后连号,则记为有一天,
样本特征13:被叫联系人前9位相同:拨打的电话出现联系人前九位相同的次数
样本特征14:四连号:被叫联系人出现四连号的天数
样本特征15:三连号:被叫联系人出现三连号的天数
样本特征16:二连号:被叫联系人出现二连号的天数
样本特征17:被叫联系人们的天均主叫次数均值,指用户被叫联系人平均每天主动拨打电话数量。
样本特征18:被叫联系人们的天均主叫时长均值,指用户被叫联系人平均每天主动拨打电话的时长。
样本特征19:被叫联系人们的天均被叫次数均值,指用户被叫联系人平均每天接听电话数量。
样本特征20:被叫联系人们的天均被叫时长均值,指用户被叫联系人平均每天接听电话数量。
样本特征21:被叫联系人们的天均主叫联系人数目,指用户被叫联系人平均每天主动拨打电话的联系人数目。
样本特征22:被叫联系人们的天均被叫联系人数目,指用户被叫联系人平均每天接听电话的联系人数目。
样本特征23:天均发送短信数,指用户平均每天发送短信的数目的。
样本特征24:天均接收短信数,指用户平均每天接收短信数目的。
样本特征25:天均上行流量,指用户平均每天上网的上行流量的。
样本特征26:天均下行流量,指用户平均每天上网的下行流量的。
样本特征27:年龄,指用户的年龄。
样本特征28:被叫联系人们的天均发送短信次数均值,指用户的被叫联系人平均每天发送短信的数量。
样本特征29:被叫联系人们的天均接收短信次数均值,指用户的被叫联系人平均每天接收短信的数量。
样本特征30:被叫联系人们的天均上行流量均值,指用户的被叫联系人平均每天上网的上行流量。
样本特征31:被叫联系人们的天均下行流量均值,指用户的被叫联系人平均每天上网的下行流量。
样本特征32:被叫联系人们的男性所占比例,指用户的被叫联系人的男性的所占比例。
样本特征33:被叫联系人们的年龄均值,指用户的被叫联系人的年龄的平均值。
样本特征34:被叫联系人们数量,指用户的被叫联系人的数量总和。
样本特征35:被叫联系人们的天均长途次数均值,指用户的被叫联系人平均每天的长途次数。
样本特征36:被叫联系人们的天均漫游次数均值,指用户的被叫联系人平均每天的漫游次数。
(3)将基于用户通话行为的特征进行组合优化,从时间、频率、短信、流量、位置和联系人角度挖掘更具有行为信息的特征,充分体现用户的属性。组合特征具体包括:
组合特征1:次主叫时长=天均主叫时长/天均主叫次数,指用户平均每次主动拨打电话的通话时间。
组合特征2:人均拨打次数=天均主叫次数/天均主叫联系人数目,指用户主动拨打的人均次数。
组合特征3:次被叫时长=天均被叫次数/天均被叫联系人数目,指用户平均每天接听电话的通话时间。
组合特征4:天均联系人数目主叫被叫比=天均主叫联系人数目/天均被叫联系人数目,指用户平均每天的主叫联系人和被叫联系人比值。
组合特征5:次被叫主叫时长比=次被叫时长/次主叫时长,指用户平均每次被叫时长和主叫时长的比值。
组合特征6:天均接听率=天均被叫次数/天均主叫次数,指用户平均每天被叫次数与主叫次数的比值。
组合特征7:天均的经度标准差=sqrt[(Σ((用户经度值-天均经度均值)^2))/(总人数)],指用户的天均经度标准差。
组合特征8:天均的纬度标准差=sqrt[(Σ((用户纬度值-天均纬度均值)^2))/(总人数)],指用户的天均纬度标准差。
组合特征9:被叫联系人们的天均长途次数标准差=sqrt[(Σ((被叫联系人们长途次数-被叫联系人们的天均长途次数均值)^2))/(总人数)],指被叫联系人们的天均长途次数标准差。
组合特征10:被叫联系人们的天均漫游次数标准差=sqrt[(Σ((被叫联系人们漫游次数-被叫联系人们的天均漫游次数均值)^2))/(总人数)],指被叫联系人们的天均漫游次数标准差。
组合特征11:被叫联系人们的天均主叫次数标准差=sqrt[(Σ((被叫联系人们天均主叫次数-被叫联系人们的天均主叫次数均值)^2))/(总人数)],指被叫联系人们的天均主叫次数标准差。
组合特征12:被叫联系人们的天均主叫时长标准差=sqrt[(Σ((被叫联系人们天均主叫时长-被叫联系人们的天均主叫时长均值)^2))/(总人数)],指被叫联系人们的天均主叫时长标准差。
组合特征13:被叫联系人们的天均被叫次数标准差=sqrt[(Σ((被叫联系人们天均被叫次数-被叫联系人们的天均被叫次数均值)^2))/(总人数)],指被叫联系人们的天均被叫次数标准差。
组合特征14:被叫联系人们的天均被叫时长标准差=sqrt[(Σ((被叫联系人们天均被叫时长-被叫联系人们的天均被叫时长均值)^2))/(总人数)],指被叫联系人们的天均被叫时长标准差。
组合特征15:被叫联系人们的天均主叫联系人数目标准差=sqrt[(Σ((被叫联系人们天均联系人数目-被叫联系人们的天均联系人数目均值)^2))/(总人数)],指被叫联系人们的天均主叫联系人数目标准差。
组合特征16:被叫联系人们的天均被叫联系人数目标准差=sqrt[(Σ((被叫联系人们天均被叫联系人数目-被叫联系人们的天均被叫联系人数目均值)^2))/(总人数)],指被叫联系人们的天均被叫联系人数目标准差。
组合特征17:被叫联系人们的天均发送短信次数标准差=sqrt[(Σ((被叫联系人们天均发送短信次数-被叫联系人们的天均发送短信次数均值)^2))/(总人数)],指被叫联系人们的天均发送短信次数标准差。
组合特征18:被叫联系人们的天均接收短信次数标准差=sqrt[(Σ((被叫联系人们天均接收短信次数-被叫联系人们的天均接收短信次数均值)^2))/(总人数)],指被叫联系人们的天均接收短信次数标准差。
组合特征19:被叫联系人们的天均上行流量标准差=sqrt[(Σ((被叫联系人们天均上行流量-被叫联系人们的天均上行流量均值)^2))/(总人数)],指被叫联系人们的天均上行流量标准差。
组合特征20:被叫联系人们的天均下行流量标准差=sqrt[(Σ((被叫联系人们天均下行流量-被叫联系人们的天均下行流量均值)^2))/(总人数)],指被叫联系人们的天均下行流量标准差。
组合特征21:被叫联系人们的年龄标准差=sqrt[(Σ((被叫联系人们天均下行流量-被叫联系人们的天均下行流量均值)^2))/(总人数)],指被叫联系人们的年龄标准差。
将所有特征F分为时间(F1)、频率(F2)、短信(F3)、流量(F4)、位置(F5)、联系人(F6)。从这几个角度充分挖掘用户的行为特征,全方面的展示用户信息。特征图如图2所示。
(4)将基于用户通话行为样本进行过采样,增加少数样本数量,减少样本不平衡对模型的影响.
在数据样本中正常用户样本的数量远远大于异常用户样本的数量,在常规调用分类模型去判断的时候可能会导致忽视掉异常样本带来的影响,只强调蓝色样本的分类准确性,所以需要增加异常样本来平衡数据集。
由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,采用合成少数类过采样技术(SMOTE算法),将少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。如图3所示,Pj1、Pj2、Pj3、Pj4、Pj5为生成的新样本。
SMOTE算法的具体过程为:
1)对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
2)根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,选择最近邻样本和距离倍数生成新样本。
(5)将用户通话行为样本进行特征降维处理;
由于数据维度较高,、需要对其进行降维处理以更好的挖掘样本特征,去除数据噪声,找出关联度最高和比重最大的维度特征。、采用主成分分析法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,即把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合。并期望在所投影的维度上数据的方差最大,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。以此使用较少的数据维度,同时保留住较多的原数据点的特性。简单的来说PCA降维是将高纬度的特征向量投射到d维子空间中,将特征中的主成分留下生成全新的d维正交特征。
(6)利用集成学习训练数据集建立模型,进行异常电话识别。
如图5所示,将处理好的样本集根据交叉验证分为训练集和测试集。分别采用决策树算法、最近邻算法、贝叶斯算法以及神经网络方法对训练集数据进行训练,得到相应的第一基学习器、第二基学习器、第三基学习器和第四基学习器。
可以采用以下3种集成方法来构建分类模型:
1.将每个学习器用bagging算法进行集成,将训练集随机抽样为N个子训练集,每一个训练集训练为一个决策树模型,得到N个决策树模型。
对于测试集的每一个样本,每一个决策树模型都会有一个预测结果,在这些预测结果中选取最多数的类别作为最后的结果。
2.采用训练集分别训练四个不同的分类模型(上述的四个基学习器),对于测试集的每一个样本,四个分类模型分别产生一个预测结果,通过投票法选取类别最多的作为该样本的最终识别结果。
3.将四个学习器作为第一层学习器,采用是stacking算法,第二层采用SVM算法构建两层模型。
通过训练集采用k折交叉验证,每一折中有一份为测试集其他四份为训练集。通过训练集分别训练四种不同的分类模型作为基学习器。将每一个基学习器分别训练每一折中的测试集预测的结果为A1={t1,t2,..tk.};重复上述步骤得到其他基学习器的预测结果B1,C1,D1;
令D={A1,B1,C1,D1}为第二层学习器M的训练集。同时将每一个基学习器分别训练原始测试集结果为w1,w2,…wk,将结果取平均记为A2,重复上述步骤得到其他基学习器的结果为B2,C2,D2;
令T={A2,B2,C2,D2}为第二层学习器M的测试集。构建两层框架的异常电话识别模型。(基学习器为上述得到的四个基学习器,M为SVM算法。)
实施例二
在一个或多个实施方式中,提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成方法中的各个操作,为了简洁,在此不再赘述。
应理解,在本公开中,该处理器可以是中央处理单元CPU,该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
结合本实施例一所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过起塔的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于特征选择与集成学习的异常电话识别方法,其特征在于,包括:
构建混合数据集;
通过用户在起始时间到终止时间的窗口中的历史通话行为挖掘样本特征;
将基于用户通话行为的特征进行组合优化,从时间、频率、短信、流量、位置和联系人角度挖掘更具有行为信息的特征;
将基于用户通话行为样本进行过采样,增加少数样本数量,减少样本不平衡对模型的影响;
将用户通话行为样本进行特征降维处理;
利用集成学习训练数据集建立模型,进行异常电话识别。
2.如权利要求1所述的一种基于特征选择与集成学习的异常电话识别方法,其特征在于,对正常样本进行随机抽样,抽样得到的正常样本与异常样本进行混合,得到混合数据集。
3.如权利要求1所述的一种基于特征选择与集成学习的异常电话识别方法,其特征在于,通过用户在起始时间到终止时间的窗口中的历史通话行为挖掘样本特征,包括:用户话单覆盖天数、天均主叫次数、天均主叫时长、天均主叫联系人数目、天均被叫联系人数目、天均被叫次数、天均被叫时长、天均长途次数、天均漫游次数、天均的经度均值、天均的纬度均值、被叫联系人出现连号的天数、被叫联系人前n位相同次数、四连号、三连号、二连号、被叫联系人们的天均主叫次数均值、被叫联系人们的天均主叫时长均值、被叫联系人们的天均被叫次数均值、被叫联系人们的天均被叫时长均值、被叫联系人们的天均主叫联系人数目、被叫联系人们的天均被叫联系人数目、天均发送短信数、天均接收短信数、天均上行流量、天均下行流量、用户年龄、被叫联系人们的天均发送短信次数均值、被叫联系人们的天均接收短信次数均值、被叫联系人们的天均上行流量均值、被叫联系人们的天均下行流量均值、被叫联系人们的男性所占比例、被叫联系人们的年龄均值、被叫联系人们数量、被叫联系人们的天均长途次数均值以及被叫联系人们的天均漫游次数均值。
4.如权利要求1所述的一种基于特征选择与集成学习的异常电话识别方法,其特征在于,将基于用户通话行为的特征进行组合优化后得到的组合特征具体为:次主叫时长、人均拨打次数、次被叫时长、天均联系人数目主叫被叫比、次被叫主叫时长比、天均接听率、天均的经度标准差、天均的纬度标准差、被叫联系人们的天均长途次数标准差、被叫联系人们的天均漫游次数标准差、被叫联系人们的天均主叫次数标准差、被叫联系人们的天均主叫时长标准差、被叫联系人们的天均被叫次数标准差、被叫联系人们的天均被叫时长标准差、被叫联系人们的天均主叫联系人数目标准差、被叫联系人们的天均被叫联系人数目标准差、被叫联系人们的天均发送短信次数标准差、被叫联系人们的天均接收短信次数标准差、被叫联系人们的天均上行流量标准差、被叫联系人们的天均下行流量标准差以及被叫联系人们的年龄标准差。
5.如权利要求1所述的一种基于特征选择与集成学习的异常电话识别方法,其特征在于,为了减少样本不平衡对模型的影响,采用SMOTE方法,将少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。
6.如权利要求1所述的一种基于特征选择与集成学习的异常电话识别方法,其特征在于,采用主成分分析法,通过线性投影,将高维的数据映射到低维的空间中表示;期望在所投影的维度上数据的方差最大,使新的m个特征互不相关。
7.如权利要求1所述的一种基于特征选择与集成学习的异常电话识别方法,其特征在于,利用集成学习训练数据集建立模型,具体为:将处理好的样本集根据交叉验证分为训练集和测试集;分别采用决策树算法、最近邻算法、贝叶斯算法以及神经网络方法对训练集数据进行训练,得到相应的第一基学习器、第二基学习器、第三基学习器和第四基学习器。
8.如权利要求7所述的一种基于特征选择与集成学习的异常电话识别方法,其特征在于,建立模型的方法具体为:
将训练集随机抽样为N个子训练集,每一个子训练集训练为一个决策树模型,得到N个决策树模型;
对于测试集的每一个样本,每一个决策树模型都会有一个预测结果,在这些预测结果中选取最多数的类别作为最后的识别结果;
或者,分别根据训练集数据训练四个不同的分类模型,对于测试集的每一个样本,四个分类模型分别产生一个预测结果,通过投票选取类别多作为样本的最终识别结果;
或者,
通过训练集采用k折交叉验证,每一折中有一份为测试集,其他四份为训练集;
通过训练集分别训练四种不同的分类模型作为基学习器;
将每一个基学习器分别训练每一折中的测试集,预测的结果为A1={t1,t2,..tk.};
采用相同的方法得到其他基学习器的预测结果B1,C1,D1;
令D={A1,B1,C1,D1}为第二层学习器M的训练集,同时将每一个基学习器分别训练原始测试集结果为w1,w2,…wk;将结果取平均记为A2;
采用相同的方法得到其他基学习器的结果为B2,C2,D2;
令T={A2,B2,C2,D2}为第二层学习器M的测试集;
构建两层框架的异常电话识别模型。
9.一种基于特征选择与集成学习的异常电话识别系统,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-8任一方法所述的步骤。
10.一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,
完成权利要求1-8任一方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910350416.9A CN110072017A (zh) | 2019-04-28 | 2019-04-28 | 基于特征选择与集成学习的异常电话识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910350416.9A CN110072017A (zh) | 2019-04-28 | 2019-04-28 | 基于特征选择与集成学习的异常电话识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110072017A true CN110072017A (zh) | 2019-07-30 |
Family
ID=67369293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910350416.9A Pending CN110072017A (zh) | 2019-04-28 | 2019-04-28 | 基于特征选择与集成学习的异常电话识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110072017A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110519466A (zh) * | 2019-08-30 | 2019-11-29 | 北京泰迪熊移动科技有限公司 | 一种快递号码识别方法、设备及计算机存储介质 |
CN110572382A (zh) * | 2019-09-02 | 2019-12-13 | 西安电子科技大学 | 基于smote算法和集成学习的恶意流量检测方法 |
CN110913081A (zh) * | 2019-11-28 | 2020-03-24 | 上海观安信息技术股份有限公司 | 一种识别呼叫中心骚扰电话的方法及系统 |
CN111465021A (zh) * | 2020-04-01 | 2020-07-28 | 北京中亦安图科技股份有限公司 | 基于图的骚扰电话识别模型构建方法 |
CN111461231A (zh) * | 2020-04-02 | 2020-07-28 | 腾讯云计算(北京)有限责任公司 | 一种短信息的发送控制方法、装置及存储介质 |
CN112399013A (zh) * | 2019-08-15 | 2021-02-23 | 中国电信股份有限公司 | 异常话务识别方法和装置 |
CN112860303A (zh) * | 2021-02-07 | 2021-05-28 | 济南大学 | 一种模型增量更新的方法及系统 |
CN113379176A (zh) * | 2020-03-09 | 2021-09-10 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN114172674A (zh) * | 2020-08-21 | 2022-03-11 | 中国移动通信集团重庆有限公司 | 一种异常数据检测方法、装置、设备及计算机介质 |
CN115412850A (zh) * | 2022-08-18 | 2022-11-29 | 南京鼎山信息科技有限公司 | 基于5g通信的短信消息管控服务系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080065572A1 (en) * | 2004-06-28 | 2008-03-13 | Naoki Abe | Methods for multi-class cost-sensitive learning |
CN106385693A (zh) * | 2016-09-22 | 2017-02-08 | 长沙创客软件有限公司 | 针对虚拟号段的电信诈骗判断方法 |
CN108030494A (zh) * | 2017-11-08 | 2018-05-15 | 华南理工大学 | 基于交叉验证的心电信号错误标记训练样本识别方法 |
CN109359193A (zh) * | 2018-09-25 | 2019-02-19 | 济南大学 | 基于pca降维的堆积两层框架的异常电话识别方法及系统 |
CN109474755A (zh) * | 2018-10-30 | 2019-03-15 | 济南大学 | 基于排序学习和集成学习的异常电话主动预测方法及系统 |
CN109492026A (zh) * | 2018-11-02 | 2019-03-19 | 国家计算机网络与信息安全管理中心 | 一种基于改进的主动学习技术的电信欺诈分类检测方法 |
-
2019
- 2019-04-28 CN CN201910350416.9A patent/CN110072017A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080065572A1 (en) * | 2004-06-28 | 2008-03-13 | Naoki Abe | Methods for multi-class cost-sensitive learning |
CN106385693A (zh) * | 2016-09-22 | 2017-02-08 | 长沙创客软件有限公司 | 针对虚拟号段的电信诈骗判断方法 |
CN108030494A (zh) * | 2017-11-08 | 2018-05-15 | 华南理工大学 | 基于交叉验证的心电信号错误标记训练样本识别方法 |
CN109359193A (zh) * | 2018-09-25 | 2019-02-19 | 济南大学 | 基于pca降维的堆积两层框架的异常电话识别方法及系统 |
CN109474755A (zh) * | 2018-10-30 | 2019-03-15 | 济南大学 | 基于排序学习和集成学习的异常电话主动预测方法及系统 |
CN109492026A (zh) * | 2018-11-02 | 2019-03-19 | 国家计算机网络与信息安全管理中心 | 一种基于改进的主动学习技术的电信欺诈分类检测方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112399013A (zh) * | 2019-08-15 | 2021-02-23 | 中国电信股份有限公司 | 异常话务识别方法和装置 |
CN112399013B (zh) * | 2019-08-15 | 2021-12-03 | 中国电信股份有限公司 | 异常话务识别方法和装置 |
CN110519466A (zh) * | 2019-08-30 | 2019-11-29 | 北京泰迪熊移动科技有限公司 | 一种快递号码识别方法、设备及计算机存储介质 |
CN110572382A (zh) * | 2019-09-02 | 2019-12-13 | 西安电子科技大学 | 基于smote算法和集成学习的恶意流量检测方法 |
CN110572382B (zh) * | 2019-09-02 | 2021-05-18 | 西安电子科技大学 | 基于smote算法和集成学习的恶意流量检测方法 |
CN110913081A (zh) * | 2019-11-28 | 2020-03-24 | 上海观安信息技术股份有限公司 | 一种识别呼叫中心骚扰电话的方法及系统 |
CN113379176A (zh) * | 2020-03-09 | 2021-09-10 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN113379176B (zh) * | 2020-03-09 | 2023-12-19 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN111465021B (zh) * | 2020-04-01 | 2023-06-09 | 北京中亦安图科技股份有限公司 | 基于图的骚扰电话识别模型构建方法 |
CN111465021A (zh) * | 2020-04-01 | 2020-07-28 | 北京中亦安图科技股份有限公司 | 基于图的骚扰电话识别模型构建方法 |
CN111461231A (zh) * | 2020-04-02 | 2020-07-28 | 腾讯云计算(北京)有限责任公司 | 一种短信息的发送控制方法、装置及存储介质 |
CN114172674A (zh) * | 2020-08-21 | 2022-03-11 | 中国移动通信集团重庆有限公司 | 一种异常数据检测方法、装置、设备及计算机介质 |
CN114172674B (zh) * | 2020-08-21 | 2023-11-10 | 中国移动通信集团重庆有限公司 | 一种异常数据检测方法、装置、设备及计算机介质 |
CN112860303A (zh) * | 2021-02-07 | 2021-05-28 | 济南大学 | 一种模型增量更新的方法及系统 |
CN112860303B (zh) * | 2021-02-07 | 2023-07-04 | 济南大学 | 一种模型增量更新的方法及系统 |
CN115412850A (zh) * | 2022-08-18 | 2022-11-29 | 南京鼎山信息科技有限公司 | 基于5g通信的短信消息管控服务系统及方法 |
CN115412850B (zh) * | 2022-08-18 | 2023-07-28 | 南京鼎山信息科技有限公司 | 基于5g通信的短信消息管控服务系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110072017A (zh) | 基于特征选择与集成学习的异常电话识别方法及系统 | |
US11080569B2 (en) | Method and device for image processing, and computer storage medium | |
US11388490B2 (en) | Call classification through analysis of DTMF events | |
EP2652909B1 (en) | Method and system for carrying out predictive analysis relating to nodes of a communication network | |
CN113961712B (zh) | 一种基于知识图谱的诈骗电话分析方法 | |
CN109547393B (zh) | 恶意号码识别方法、装置、设备和存储介质 | |
US11870932B2 (en) | Systems and methods of gateway detection in a telephone network | |
Riazi et al. | Synfi: Automatic synthetic fingerprint generation | |
CN112464058A (zh) | 一种基于XGBoost算法的电信互联网诈骗识别方法 | |
CN111131627B (zh) | 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质 | |
CN112395943A (zh) | 一种基于深度学习伪造人脸视频的检测方法 | |
CN114301850B (zh) | 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法 | |
CN109474755B (zh) | 基于排序学习和集成学习的异常电话主动预测方法、系统及计算机可读存储介质 | |
CN111062422B (zh) | 一种套路贷体系化识别方法及装置 | |
CN111930808B (zh) | 一种利用键值匹配模型提高黑名单准确率的方法及系统 | |
CN111131626A (zh) | 基于流数据图谱的群组有害呼叫检测方法、装置及可读介质 | |
CN110310627A (zh) | 一种用于检测真人用户的方法及系统 | |
CN113316185B (zh) | 基于分类器的lte网络上行干扰类别识别方法及系统 | |
CN118799611A (zh) | 违规发放号码的识别方法、装置、设备、介质及程序产品 | |
CN116528242A (zh) | 诈骗用户识别方法、装置、电子设备及存储介质 | |
CN117909975A (zh) | 一种基于图卷积神经网络的安卓恶意软件检测方法 | |
Guarnera | Advanced Methods for Image Forensics: First Quantization Estimation and Document Authentication | |
CN116776167A (zh) | 异常用户识别方法、装置、设备、存储介质及程序产品 | |
CN115860457A (zh) | 通信业务运营风控方法及装置 | |
CN117312942A (zh) | 基于深度残差收缩网络的非授权频段无线信号识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |