CN109474755B

CN109474755B - 基于排序学习和集成学习的异常电话主动预测方法、系统及计算机可读存储介质

Info

Publication number: CN109474755B
Application number: CN201811279810.XA
Authority: CN
Inventors: 纪科; 刘健; 孙润元; 陈贞翔; 马坤; 王琳; 袁雅涵
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2020-10-30
Anticipated expiration: 2038-10-30
Also published as: CN109474755A

Abstract

本公开公开了基基于排序学习和集成学习的异常电话主动预测方法及系统，包括：采集电话样本，基于分析和组合对电话样本的特征进行选择；将采集到的样本分为训练集和测试集；对于训练集样本，采用排序学习处理数据，得出的结果作为新的测试集，然后组建n组新的训练集继续通过学习模型，得出n组结果，再将这n组结果通过集成学习，输出最后的测试结果。本公开有益效果：使用排序学习和集成学习预测异常电话准确率高于单一使用排序学习，和常规方法比我们的方法更能主动预测异常电话，可以进行解决大规模数据问题。

Description

基于排序学习和集成学习的异常电话主动预测方法、系统及计算机可读存储介质

技术领域

本公开涉及机器学习和数据挖掘领域，特别是涉及基于排序学习和集成学习的异常电话主动预测方法及系统。

背景技术

本部分的陈述仅仅是提高了与本公开相关的背景技术，并不必然构成现有技术。

被动检测方法是当前解决异常电话识别问题的主要形式，即一个电话被大量用户举报标记后，会被识别为异常电话。然而，随着诈骗电话出现的形式越来越多样，涉及范围越来越广泛，被动检测方法在信息挖掘、特征分析方面有不足导致准确率和时效性遇到瓶颈。大数据的技术的发展，使得个人信息在多种平台上泄露，为了解决此问题，许多方案相继提出，比如SVM算法、决策树算法等都开始应用到异常电话的识别模型中。随着技术的发展排序学习和集成算法也开始运用到异常电话识别模型中。

现有的技术中，有几种比较常见的识别异常电话的方法：

(1)黑白名单技术主要是通过受理用户投诉、举报等手段获取到异常电话号码，然后由互联网公司以及运营商设置黑白名单功能，直接在用户呼叫或被叫时检测出垃圾电话，提醒用户阻断源自该类号码的电信服务。目前，我国电信用户实名制还不完善，真实性差且随意变换，因此该方法的防范效果非常有限。

(2)声誉系统技术主要是在用户接受呼叫之前由声誉系统向被叫方提供关于主叫方的声誉情况。该用户声誉情况的表示通常以声誉分值来表示。当声誉分值较低时，用户可根据该主叫的声誉分值有选择的接受或者拒绝该呼叫。但是，如何缺定用户声誉是一个难点。

(3)异常话务检测技术主要是是采用信令监测手段，对区域内的话务流量流向进行统计分析，提取呼叫数据中的呼叫时间、持续时间等参数，通过监测话务模型的异常变化及时发现可能存在的异常通话事件。但，该方法需要在收集一定的话务流量后才能作出判决，防范的时效性相对较差。

(4)语音检测技术是一种依靠硬件支持的垃圾电话检测技术。它通过语音内容检测SPIT 具有实效性好、精确度高等优点，但由于语音识别算法复杂，处理能力需求很高，无论从工程实现还是部署成本角度而言，目前都难以满足在大规模电信网中的应用需求。

综上，现有传统方法在异常电话识别的应用有以下缺点：

(1)从原理上看，上述方法都是分类思想，所以在效果方面都很相近。

(2)以上方法都是后知后觉的被动处理方案，缺少能主动对用户进行异常检测的系统。

发明内容

为了解决现有技术的不足，本公开提供了基于排序学习和集成学习的异常电话主动预测方法及系统，将排序学习应用到样本数据处理，将分类问题转换成排序问题，并且通过集成算法处理得到更精确的异常电话识别，成为一套能主动预测异常电话的模型。

第一方面，本公开提供了基于排序学习和集成学习的异常电话主动预测方法；

基于排序学习和集成学习的异常电话主动预测方法，包括：

步骤(1)：采集电话样本，提取每个电话号码的数据特征；

步骤(2)：将采集的电话样本分为训练集M和测试集N；所述训练集M，包括：a条正常电话号码和b条异常电话号码；所述测试集N，包括：待测试的电话号码；

步骤(3)：基于排序学习算法构建排序模型，将训练集M每个电话号码的数据特征输入到排序模型中，将训练集M每个电话号码对应的设定分数作为排序模型的输出值，对排序模型进行训练，得到训练好的排序模型；

将测试集N输入到已经训练好的排序模型中，输出测试集N中每个电话号码对应的分数；将分数按照从大到小进行排序，选择排序靠前的p个电话号码作为新的测试集P；

步骤(4)：从测试集N中随机选取选取n组电话号码，每组是q个电话号码；将每一组q个电话号码分别与b条异常电话号码组合，构成新的训练集Q_i，i的取值范围是1到n；

将新的测试集P与新的训练集Q_i进行组合，得到数据集Y_i；

将数据集Y_i输入到已经训练好的排序模型中，输出结果Z_i；

步骤(5)：利用集成学习中的平均法，计算结果Z_i的平均值，输出最终得分。

作为可能的一些实现方式，所述排序学习算法，包括：Ranking SVM算法或Ranknet算法。

作为可能的一些实现方式，所述电话样本，包括正常电话号码、异常电话号码和待测试的电话号码。

作为可能的一些实现方式，所述电话号码的数据特征，包括：用户话单覆盖天数、日均主叫次数、日均主叫时长、日均被叫次数、日均被叫时长、日均长途次数、日均漫游次数或日均主叫联系人。

第二方面，本公开还提供了基于排序学习和集成学习的异常电话主动预测系统，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面任一可能的实现方式中的方法。

第三方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面任一可能的实现方式中的任一方法的步骤。

与现有技术相比，本公开的有益效果是：

1.特征选择更有针对性，组合后的特征会更加多样和有效。

2.使用排序学习模型，将分类问题转换成排序问题，在解决问题上具有创新性。并且实验结果比传统方法有明显提高。

3.对排序学习模型的处理结果进行集成学习处理，使实验结果的准确率又提高了一个层次。

4.将排序学习和集成学习结合，与传统的方法进行比较，我们的方法可以对异常电话进行主动预测。

5.该模型适合大规模数据处理和预测。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为一个或多个实施方式的排序学习模型的使用方法策略；

图2为一个或多个实施方式的集成学习处理策略。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本公开首先进行电话特征的选择和组合，

天均联系人数目>50，并且天均联系人数目/天均主叫次数>0.8(公式一)，基本可以判定该样本为欺诈电话。

天均联系人数目<＝50，天均覆盖天数<10，如果满足天均主叫时长/天均主叫次数>15(公式二)或者天均被叫时长/天均被叫次数>15(公式三)，并且满足公式一，则基本可以判断样本为欺诈电话。

对于天均覆盖天数<5的样本，天均主叫时长/天均主叫次数>10或者天均被叫时长/天均被叫次数>10，并且天均主叫时长或天均被叫时长>500,可以判断样本为欺诈电话。

天均主叫次数+天均被叫次数＝天均长途次数(>10),可作为一个特征进行某些样本的分析。

前9位相同>100,可作为一个特征进行某些样本的分析。

对样本训练集和测试集进行排序学习处理，对第一次处理结果构成新的测试集，并且构建10个新的训练集，再次通过排序学习模型，得出10个新的结果，并且对新的结果进行集成学习处理，最终得到输出结果。

其中关于排序学习，排序学习将机器学习的技术很好地应用到了排序问题中，并提出了新的理论和算法，不仅有效地解决了排序的问题，其中一些算法的理念和思想具有创新性，可以在其他领域中进行借鉴。关于异常电话识别本是一个二分类问题，我们通过排序学习转换成一个排序问题。对于同一分组的相关文档集中，任何2个不同标签的文档，都可以得到一个训练实例(d_i,d_j)，如果d_i>d_j则赋值+1，反之-1，二元分类器训练所需的训练样本因此得出。

集成学习通过构建并结合多个学习器来完成学习任务，个体学习器由排序学习算法从训练数据产生，在集成学习模块，我们实验中一共构建了10个学习器，对他们的结果进行集成学习处理，输出最终的结果，集成学习通常通过将多个学习器进行结合，获得比单一学习器显著优越的泛化性能。

基于排序学习和集成学习的异常电话识别方法，包括：

步骤(1)：对电话样本特征进行选择，每个电话样本特征原始的特征有53个，我们通过分析和组合，选取其中的9个作为基础特征。c1为该用户话单覆盖天数，c2为日均主叫次数， c3为日均主叫时长，c4为日均被叫次数，c5为日均被叫时长，c6为日均长途次数，c7为日均漫游次数，c8为日均主叫联系人，c9为前9位相同；所述前9位相同是指用户拨打的电话前9位电话数字相同的电话数量。

电话样本特征有c1为该用户话单覆盖天数，c2为日均主叫次数，c3为日均主叫时长， c4为日均被叫次数，c5为日均被叫时长，c6为日均长途次数，c7为日均漫游次数，c8为日均主叫联系人等53个特征。

每个电话号码，包括：用户号码、该用户话单覆盖天数、日均主叫次数、日均主叫时长、日均被叫次数、日均被叫时长、日均长途次数、日均漫游次数、日均主叫联系人数目、日均被叫联系人数目、日均发送短信数目、日均上行流量、日均下行流量、性别、年龄、日均用户所处经度均值、日均用户所处经度标准差、日均用户所处纬度均值、日均所处纬度标准差、被叫联系人出现连号的天数、被叫联系人前m位相同、被叫联系人的日均主叫次数均值、被叫联系人的日均主叫次数标准差、被叫联系人的日均主叫时长均值、被叫联系人的日均主叫时长标准差、被叫联系人的日均被叫次数均值、被叫联系人的日均被叫次数标准差、被叫联系人的日均被叫时长均值、被叫联系人的日均被叫时长标准差、被叫联系人的日均长途次数均值、被叫联系人的日均长途次数标准差、被叫联系人们的日均漫游次数均值、被叫联系人们的日均漫游次数标准差、被叫联系人们的日均主叫联系人数目、被叫联系人们的日均主叫联系人数目标准差、被叫联系人们的日均被叫联系人数目、被叫联系人们的日均被叫联系人数目标准差、被叫联系人们的日均发送短信次数均值、被叫联系人们的日均发送短信次数标准差、被叫联系人们的日均接收短信次数均值、被叫联系人们的日均接收短信次数标准差、被叫联系人们的日均上行流量均值、被叫联系人们的日均上行流量标准差、被叫联系人们的日均下行流量均值、被叫联系人们的日均下行流量标准差、被叫联系人们的男性所占比例、被叫联系人们的年龄均值、被叫联系人们的年龄标准差、被叫联系人们数量、用户号码尾号为四连号、用户号码尾号为三连号、用户号码尾号为二联号。

步骤(2)：将样本集分为训练集和测试集，样本集所有数据均由中国某运营商数据库提供，在1437458条电话中取出10000条作为本次试验的正常数据，144条异常电话记录，全部取出作为异常数据和刚选出的10000条数据合并作为训练集X1，而1437458条数据组成测试集T1。

如图1所示，数据如何通过排序学习模型进行处理。

步骤(3)：通过排序学习模型，将训练集X1和测试集T1进行实验，得出测试集T1中排名最高的499条数据作为新的测试集x1。

步骤(4)：从测试集T1中随机选取1000条数据，共选取10组，与144条异常数据构成10组新的训练集t1、t2、t3、t4、t5、t6、t7、t8、t9、t10，每个新的训练集都是1000+144＝1144条数据。

步骤(5)：将测试集x1与10组训练集t1、t2、t3、t4、t5、t6、t7、t8、t9、t10再次通过排序学习模型，得出实验结果r1、r2、r3、r4、r5、r6、r7、r8、r9、r10。

如图2表示如何对数据，通过集成学习进行处理。

步骤(6)：对步骤(5)得出的10组结果r1、r2、r3、r4、r5、r6、r7、r8、r9、r10通过求平均值，输出最终结果R1。

本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过起塔的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于排序学习和集成学习的异常电话主动预测方法，其特征是，包括：

步骤(1)：采集电话样本，提取每个电话号码的数据特征；

其中，对电话样本特征进行选择，每个电话样本特征原始的特征有53个，通过分析和组合，选取其中的9个作为基础特征，c1为用户话单覆盖天数，c2为日均主叫次数，c3为日均主叫时长，c4为日均被叫次数，c5为日均被叫时长，c6为日均长途次数，c7为日均漫游次数，c8为日均主叫联系人，c9为前9位相同；所述前9位相同是指用户拨打的电话前9位电话数字相同的电话数量；

步骤(4)：从测试集N中随机选取n组电话号码，每组是q个电话号码；将每一组q个电话号码分别与b条异常电话号码组合，构成新的训练集Q_i，i的取值范围是1到n；

将新的测试集P与新的训练集Q_i进行组合，得到数据集Y_i；

将数据集Y_i输入到已经训练好的排序模型中，输出结果Z_i；

2.如权利要求1所述的基于排序学习和集成学习的异常电话主动预测方法，其特征是，所述排序学习算法，包括：RankingSVM算法或Ranknet算法。

3.如权利要求1所述的基于排序学习和集成学习的异常电话主动预测方法，其特征是，所述电话样本，包括正常电话号码、异常电话号码和待测试的电话号码。

4.基于排序学习和集成学习的异常电话主动预测系统，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-3任一方法所述的步骤。

5.一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-3任一方法所述的步骤。