CN109359193A

CN109359193A - 基于pca降维的堆积两层框架的异常电话识别方法及系统

Info

Publication number: CN109359193A
Application number: CN201811119184.8A
Authority: CN
Inventors: 纪科; 袁雅涵; 孙润元; 刘健; 马坤; 林杰; 张尧臣
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-02-19

Abstract

本发明公开了一种基于PCA降维的堆积两层框架的异常电话识别方法及系统，包括：采集电话样本，基于PCA对电话样本的特征进行降维；将采集到的样本分为选择训练集样本和测试集样本；对于训练集样本，采用5折交叉验证方法分别训练第一层的五个基学习器；根据第一层的训练结果得到第二层学习器的训练集样本和测试集样本，对第二层学习器进行训练，输出最后的测试结果。本发明有益效果：使用两层的Stacking框架预测异常电话准确率高于单层集成算法，采用五折交叉验证可以增加训练数据的个数，解决样本少的问题。

Description

基于PCA降维的堆积两层框架的异常电话识别方法及系统

技术领域

本发明涉及机器学习和数据挖掘领域，尤其涉及基于PCA降维的堆积两层框架的异常电话识别方法及系统。

背景技术

单一分类算法是当前解决异常电话识别问题的主要形式。然而，随着诈骗电话出现的形式越来越多样，涉及范围越来越广泛，传统单一的分类算法在信息挖掘、特征分析方面有不足导致准确率遇到瓶颈。大数据的技术的发展，使得个人信息在多种平台上泄露，传统检测异常电话主要有黑白名单技术、系统技术、异常话务检测技术、、语音检测技术等。但由于这些技术缺乏主动识别异常电话的性质,所以没有很高的应用价值。为了解决此问题，许多方案相继提出，比如SVM算法、决策树算法等都开始应用到诈骗电话的识别模型中。随着技术的发展集成算法也开始运用到诈骗电话识别模型中。

现有的技术中，有两种比较常见的集成算法bagging和boosting：

(1)Bagging算法是指在数据集中通过放回采样获得N个不同的采样集，训练出N个决策树基学习器。对于每个样本每个基学习器都分类得出一个类别，然后通过投票法得到每个样本的得票率高的类别实现最终的强学习器。

(2)Boosting算法是首先从训练集用初始权重训练出一个基学习器，根据基学习器的学习误差率表现来更新训练样本的权重。使得上一个基学习器学习误差率高的训练样本点的权重变高，使得误差率高的点在后面的基学习器中得到更多的重视，权重调整后的训练集训练下一个基学习器。如此反复进行直到达到设定好的基学习器数目。最后通过集合策略整合成最终的强学习器。

综上，现有集成算法在异常电话识别的应用有以下缺点：

(1)电话样本特征较多，特征提取不充分，影响异常电话预测识别结果。

(2)使用同质基学习器，不能避免基学习器的缺点，泛化能力较差。

(3)由于不同分类算法可能有不同的数据敏感点，随机选择基学习器，风险较大。

发明内容

本发明的目的就是为了解决上述问题，提供一种基于PCA降维的堆积两层框架的异常电话识别方法及系统。将PCA降维技术应用到样本数据处理以充分挖掘样本重要的特征，组合异质分类器并构建第二层模型以达到更精确的异常电话识别。

为了实现上述目的，本发明采用如下技术方案：

在一个或多个实施方式公开的基于PCA降维的堆积两层框架的的异常电话识别方法，包括：

(1)采集电话样本，基于PCA对电话样本的特征进行降维；

(2)将采集到的样本分为选择训练集样本和测试集样本；

(3)对于训练集样本，采用5折交叉验证方法分别训练第一层的五个基学习器；

(4)根据第一层的训练结果得到第二层学习器的训练集样本和测试集样本，对第二层学习器进行训练，输出最后的测试结果。

进一步地，所述第一层的五个基学习器包括：

第一基学习器：支持向量机；

第二基学习器：决策树；

第三基学习器：最近邻分类算法；

第四基学习器：朴素贝叶斯；

第五基学习器：梯度提升；

进一步地，所述第二层学习器为：决策树。

进一步地，采用5折交叉验证方法分别训练第一层的五个基学习器，具体为：

对于第一层的某一个基学习器，在训练时将训练样本集分成t1、t2、t3、t4和t5五部分；

每次选取其中的一个部分作为测试集，剩下的四个部分作为训练集进行训练；

用该基学习器预测测试集的结果为a1，放入训练集X1’，用该基学习器预测步骤(2) 中的测试集样本，得到结果b1；

上述过程重复五次，每一次选取的测试集各不相同，分别得到包含a1、a2、a3、a4、a5 的训练集X1’，以及结果b1、b2、b3、b4和b5，将b1、b2、b3、b4和b5做加权平均运算，所得结果作为测试集y1’；

对于另外四个基学习器分别重复上述过程，分别X1’、X2’、X3’、X4’、X5’五组训练集，以及y1’、y2’、y3’、y4’、y5’五组测试集。

进一步地，将X1’、X2’、X3’、X4’、X5’五组训练集作为第二层学习器的训练集样本，将y1’、y2’、y3’、y4’、y5’五组测试集作为第二层学习器的测试集样本。

进一步地，所述电话样本的特征包括：用户话单覆盖天数，天均主叫次数，天均主叫时长，天均被叫次数，天均被叫时长，天均长途次数，天均漫游次数，天均主叫联系人。

进一步地，所述电话样本包括：在N条正常电话记录中取出N1条作为正常数据，在M条异常电话记录中取出M1条作为正常电话混入正常数据中，取M2条作为异常数据，将N1+M1+M2条电话记录作为电话样本集；其中，N1，M1，M2均为大于零的整数，N1≤N， M1+M2≤M。

在一个或多个实施方式公开的基于PCA降维的堆积两层框架的异常电话识别模型，包括：

PCA降维模块：用于对采集到的电话样本进行降维；

样本选择模块：将采集到的样本分为选择训练集样本和测试集样本；

第一层弱分类器：对于训练集样本，采用5折交叉验证方法对训练集数据进行训练；

所述第一层弱分类器包括：第一基学习器，第二基学习器，第三基学习器，第四基学习器和第五基学习器；

第二层分类器：将第一层分类器的输出作为输入，对输入数据进行训练，得到最终的训练结果。

在一个或多个实施方式公开的基于PCA降维的堆积两层框架的异常电话识别系统，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

采集电话样本，基于PCA对电话样本的特征进行降维；

将采集到的样本分为选择训练集样本和测试集样本；

对于训练集样本，采用5折交叉验证方法分别训练第一层的五个基学习器；

根据第一层的训练结果得到第二层学习器的训练集样本和测试集样本，对第二层学习器进行训练，输出最后的测试结果。

在一个或多个实施方式公开的一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

采集电话样本，基于PCA对电话样本的特征进行降维；

将采集到的样本分为选择训练集样本和测试集样本；

与现有技术相比，本发明的有益效果是：

1.使用PCA降维更好的挖掘样本的有效特征。

2.使用集成学习预测异常电话准确率高于单个学习器；

3.使用两层的Stacking框架预测异常电话准确率高于单层集成算法。

4.采用五折交叉验证可以增加训练数据的个数，解决样本少的问题。

5.减小小样本数据对实验结果的影响。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为单个模型五折交叉验证流程图；

图2为Stacking两层框架。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

为了解决背景技术中出现的问题，本发明公开了一种基于PCA降维的Stacking两层框架的的异常电话识别模型，首先对电话样本的特征进行降维，采用交叉验证选择训练集和测试基，在训练集中并用5折交叉验证训练五个基学习器作为第一层，将第一层的训练结果当做输入构建第二层学习器，输出最后的测试结果。

其中，第一基学习器为SVM,支持向量机(supportvector machine)，在样本集中寻找一个最大边缘超平面，使得能将样本划分开的超平面的两条平行线距离最大，在二分类中有比较好的效果。

第二基学习器为决策树，是一种用于实例进行分类的树形结构，由节点和向边组成。内部节点表示特征，叶节点表示类。分类的时候，从根节点开始，对实例的某一个特征进行测试，根据测试结果，将实例分配到其子结点；此时，每一个子结点对应着该特征的一个取值。如此递归向下移动，直至达到叶结点，最后将实例分配到叶结点的类中。

第三基学习器为KNN，最近邻分类算法，如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别。

第四基学习器为GaussianNB，朴素贝叶斯，基于贝叶斯定理与特征条件独立假设的分类方法。对缺失数据不敏感算法较简单。

第五基学习器为Gradient Boosting(梯度提升),通过一系列的迭代来优化分类结果，每迭代一次引入一个基学习器，Gradient Boosting在迭代的时候选择梯度下降的方向来保证最后的结果最好。

采用决策树构造第二层学习器模型。

基于上述模型，基于PCA降维的堆积两层框架的的异常电话识别方法，包括如下步骤：

步骤(1)：对电话样本进行PCA降维处理，每个电话样本原始的样本有53个，我们通过PCA将电话特征纬度降维到10维。PCA降维是将高纬度的特征向量投射到d维子空间中， d维空间将特征中的主成份留下全新的正交特征。

电话样本特征有c1为该用户话单覆盖天数，c2为天均主叫次数，c3为天均主叫时长， c4为天均被叫次数，c5为天均被叫时长，c6为天均长途次数，c7为天均漫游次数，c8为天均主叫联系人等53个特征。

样本集所有数据均由中国某运营商数据库提供，在30万条正常电话中取出520条作为本次试验的正常数据，144条异常电话记录，取出异常电话中的49条作为正常电话混入正常数据中，剩下的95条作为非正常数据。将这664条数据作为本次试验的样本集，并将其中的 80％作为训练集剩下的20％作为测试集。

步骤(2)：采用交叉验证，取电话样本集的80％做训练集，20％做测试集。训练第一基学习器SVM；

如图1所示，每一个基学习器的五折交叉验证过程，在第一层的电话样本训练集中，等分成均等的五份样本。在第一次的训练中前四份样本作为训练集训练出基学习器1，第五份作为测试集，用基学习器1预测测试集的结果为a1，放入训练集X1’，并用基学习器1测试测试电话样本集中20％的测试集，结果b1放入y1’中。

第二次取第四份样本作为测试集，其他四份作为训练集训练出基学习器1，用基学习器1 测试测试集的结果a2放入X1’，并用基学习器1测试电话样本集中20％的测试集，结果b2 放入y1’中。

一直到第五次得到的a5放入X1’，b5放入y1’中。这样a1、a2、a3、a4、a5形成新的训练集X1’，b1、b2、b3、b4、b5加权平均形成新的测试集y1’。

步骤(3)：重复步骤(2)训练出第一层学习器2决策树、学习器3NN、学习器4GaussianNB、学习器5Gradient Boosting。

如图2所示第一层基学习器1形成的训练集为X1’，形成的新的测试集为y1’，基学习器 2形成的训练集为X2’，形成的新的测试集为y2’。这样五个学习器一共得到了X1’、X2’、X3’、X4’、X5’五组训练集，y1’、y2’、y3’、y4’、y5’五组测试集。

步骤(4)：根据第一层五个学习器得到的训练集和测试集得到第二层学习器的训练集和测试集。

将X1’、X2’、X3’、X4’、X5’五组训练集作为第二层学习器的训练集，将y1’、y2’、y3’、 y4’、y5’五组测试集加权平均作为第二层学习器的测试集。

步骤(5)：利用步骤四的训练集训练第二层的学习器，测试新得到的测试集预测出最后的结果。

步骤(6)：利用测试集测试，比较准确率。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于PCA降维的堆积两层框架的异常电话识别方法，其特征在于，包括：

(1)采集电话样本，基于PCA对电话样本的特征进行降维；

(2)将采集到的样本分为选择训练集样本和测试集样本；

2.如权利要求1所述的基于PCA降维的堆积两层框架的异常电话识别方法，其特征在于，所述第一层的五个基学习器包括：

第一基学习器：支持向量机；

第二基学习器：决策树；

第三基学习器：最近邻分类算法；

第四基学习器：朴素贝叶斯；

第五基学习器：梯度提升。

3.如权利要求1所述的基于PCA降维的堆积两层框架的异常电话识别方法，其特征在于，所述第二层学习器为：决策树。

4.如权利要求1所述的基于PCA降维的堆积两层框架的异常电话识别方法，其特征在于，采用5折交叉验证方法分别训练第一层的五个基学习器，具体为：

用该基学习器预测测试集的结果为a1，放入训练集X1’，用该基学习器预测步骤(2)中的测试集样本，得到结果b1；

上述过程重复五次，每一次选取的测试集各不相同，分别得到包含a1、a2、a3、a4、a5的训练集X1’，以及结果b1、b2、b3、b4和b5，将b1、b2、b3、b4和b5做加权平均运算，所得结果作为测试集y1’；

5.如权利要求4所述的基于PCA降维的堆积两层框架的异常电话识别方法，其特征在于，将X1’、X2’、X3’、X4’、X5’五组训练集作为第二层学习器的训练集样本，将y1’、y2’、y3’、y4’、y5’五组测试集作为第二层学习器的测试集样本。

6.如权利要求1所述的基于PCA降维的堆积两层框架的异常电话识别方法，其特征在于，所述电话样本的特征包括：用户话单覆盖天数，天均主叫次数，天均主叫时长，天均被叫次数，天均被叫时长，天均长途次数，天均漫游次数，天均主叫联系人。

7.如权利要求1所述的基于PCA降维的堆积两层框架的异常电话识别方法，其特征在于，所述电话样本包括：在N条正常电话记录中取出N1条作为正常数据，在M条异常电话记录中取出M1条作为正常电话混入正常数据中，取M2条作为异常数据，将N1+M1+M2条电话记录作为电话样本集；其中，N1，M1，M2均为大于零的整数，N1≤N，M1+M2≤M。

8.基于PCA降维的堆积两层框架的异常电话识别模型，其特征在于，包括：

PCA降维模块：用于对采集到的电话样本进行降维；

9.基于PCA降维的堆积两层框架的异常电话识别系统，其特征在于，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

采集电话样本，基于PCA对电话样本的特征进行降维；

将采集到的样本分为选择训练集样本和测试集样本；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行以下步骤：

采集电话样本，基于PCA对电话样本的特征进行降维；

将采集到的样本分为选择训练集样本和测试集样本；