CN112351429A

CN112351429A - 基于深度学习的有害信息检测方法及系统

Info

Publication number: CN112351429A
Application number: CN202011137247.XA
Authority: CN
Inventors: 刘立峰; 徐启南; 薛洪涛; 付俊; 张志航
Original assignee: Zhuhai Comleader Information Technology Co Ltd
Current assignee: Zhuhai Comleader Information Technology Co Ltd; Henan Xinda Wangyu Technology Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-02-09
Anticipated expiration: 2040-10-22
Also published as: CN112351429B

Abstract

本发明公开了基于深度学习的有害信息检测方法及系统，该方法包括：S100，采集多个用户的CDR数据、XDR数据及信令数据，得到样本数据，对样本数据进行分解，提取样本特征，并存入数据集合；S200，从数据集合中提取通信节点统计及子图的相关属性和表征，并对相关属性及表征进行预处理，并划分训练集和测试集，使训练集和测试集包括一定数量的有害数据；S300，将训练集输入基于循环神经网络的深度学习模型，进行监督训练，并结合测试集对深度学习模型进行优化，得到评估模型；S400，根据评估模型进行有害信息的定位分析。本发明较大程度地提升了电话通信中的有害信息的分析实时性及准确性，并能对模型进行在线训练和持续提升。

Description

基于深度学习的有害信息检测方法及系统

技术领域

本发明涉及电信网数据分析，特别涉及一种基于深度学习的有害呼叫检测方法及系统。

背景技术

随着无线通讯技术的普及，手机已成为人们进行远程通话的必备方式，给生活带来极大便捷。然而任何事物都具有两面性，无线通讯技术在为生活提供便利的同时，也容易被不法分子利用进行犯罪。电信诈骗便是一种由移动通信的普及衍生而来的新型诈骗方式。诈骗方式对生活与经济造成了巨大损失，如何有效进行有害呼叫检测迫在眉睫。

目前广泛采用的有害信息检测技术多为以分析主叫用户行为发现电信诈骗的行为，针对互联网诈骗，通过网址判断，缺少结合海量控制面和用户面的信令进行分析判断，语音分析虽然在电信网有一定效果，随着国内隐私保护要求越来越高，尤其对运营商保护客户隐私的要求，对语音分析渐渐无法获得授权，因而导致现有的方法对电信诈骗的防范虽具有一定作用，但无法从海量数据中及时、准确地对网络中恶意呼叫号码及恶意移动互联网有害信息进行检测。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于深度学习的有害信息检测方法，能够从海量数据中迅速准确地检出有害信息。

本发明还提出一种具有上述基于深度学习的有害信息检测方法的基于深度学习的有害信息检测系统。

本发明还提出一种具有上述基于深度学习的有害信息检测方法的计算机可读存储介质。

根据本发明的第一方面实施例的基于深度学习的有害信息检测方法，包括以下步骤：S100，采集多个用户的CDR数据、XDR数据及信令数据，得到样本数据，对所述样本数据进行分解，提取样本特征，并存入数据集合；S200，从所述数据集合中提取通信节点统计及子图的相关属性和表征，并对相关属性及表征进行预处理，并划分训练集和测试集，使所述训练集和所述测试集包括一定数量的有害数据；S300，将所述训练集输入基于循环神经网络的深度学习模型，进行监督训练，并结合所述测试集对所述深度学习模型进行优化，得到评估模型；S400，根据所述评估模型进行有害信息的定位分析。

根据本发明实施例的基于深度学习的有害信息检测方法，至少具有如下有益效果：通过可扩展维度的深度学习方法，较大程度地提升了电话通信中的有害信息的分析实时性及准确性，并能对模型进行在线训练和持续提升，解决了模型的扩展性和持续优化问题。

根据本发明的一些实施例，所述步骤S200包括：S210，从所述数据集合中提取通信节点统计及子图的相关属性和表征，并对相关属性及表征进行预处理，得到预处理数据；S220，将所述预处理数据打乱顺序，进行欠采集，随机抽取若干正常样例，与有害样例进行结合，划分出所述训练集和所述测试集。

根据本发明的一些实施例，所述步骤S300包括：S310，将所述训练集输入所述深度学习模型，通过循环神经网络的网络结构、基于二分类的交叉熵的代价函数，通过梯度下降法，得出所述评估模型；S320，基于混淆矩阵，定义评价准则，通过所述测试集对所述评估模型的性能进行评估，得到评估结果；S330，根据所述评估结果多次迭代循环训练所述深度学习模型，得到最终的所述评估模型。

根据本发明的一些实施例，所述评价标准包括查全率、查准率以及F值中的至少一项。

根据本发明的一些实施例，所述查全率的计算方法为：

recall＝TP/(TP+FN)，

所述查准率的计算方法为：

precision＝TP/(TP+FP)，

所述F值的计算方法为：

其中，recall为所述查全率，precision为所述查准率，F-value为所述F值，TP、FN分别为被正确分类的正类样例及负类样例的数量，FP为错误分类的正类样例，β为评价系数。

根据本发明的一些实施例，所述步骤S400包括：S410，采集待测用户的CDR数据、XDR数据及信令数据，提取通信节点统计及子图的相关属性和表征，进行预处理，得到待预测样例数据；S420，将所述待预测样例数据输入至所述评估模型，得到有害信息的定位分析结果。

根据本发明的一些实施例，所述步骤S400还包括：S430，根据所述定位分析结果，对有害呼叫进行告警或者通话阻断。

根据本发明的一些实施例，所述相关属性和表征包括：离散率、空号率、应答率、号段重复率、呼叫结束原因、被叫新号率、被叫拒绝率、被叫挂机率、被叫号码连续率、呼出终止率、呼叫成功率、主叫呼叫参与率、主叫时间分布、通话时间分布、主叫热线号码分布、主叫来源地、号段特征、被叫地域特征、办卡开卡时间、主叫呼叫公共服务情况、套餐类型、轨迹特征、投诉特征、一机多号特征、一人多号特征以及流量使用特征。

根据本发明的第二方面实施例的基于深度学习的有害信息检测系统，包括：采集模块，用于采集多个用户的CDR数据、XDR数据及信令数据，得到样本数据，对所述样本数据进行分解，提取样本特征，并存入数据集合；预处理模块，用于从所述数据集合中提取通信节点统计及子图的相关属性和表征，并对相关属性及表征进行预处理，并划分训练集和测试集，使所述训练集和所述测试集包括一定数量的有害数据；训练模块，用于将所述训练集输入基于循环神经网络的深度学习模型，进行监督训练，并结合所述测试集对所述深度学习模型进行优化，得到评估模型；预测模块，用于根据所述评估模型进行有害信息的定位分析。

根据本发明实施例的基于深度学习的有害信息检测系统，至少具有如下有益效果：通过可扩展维度的深度学习方法，较大程度地提升了电话通信中的有害信息的分析实时性及准确性，并能对模型进行在线训练和持续提升，解决了模型的扩展性和持续优化问题。

根据本发明的第三方面实施例的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明的第一方面实施例的方法。

根据本发明实施例的计算机可读存储介质，至少具有与本发明的第一方面实施例的方法同样的有益效果。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的方法的流程示意图；

图2为本发明实施例的方法中的数据交互示意图；

图3为本发明实施例的方法中的混淆矩阵示意图；

图4为本发明实施例的系统的模块示意框图。

附图标记：

采集模块100、预处理模块200、训练模块300、预测模块400。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个及两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

名词解释：

CDR，呼叫记录，代表通信网中含有主被叫号码、呼叫时间、呼叫通话时长等信息的数据记录。

XDR，通信网用户上网记录等数据。

参照图1，本发明的实施例的方法包括：S100，采集多个用户的CDR数据、XDR数据及信令数据，得到样本数据，对样本数据进行分解，提取样本特征，并存入数据集合；S200，从数据集合中提取通信节点统计及子图的相关属性和表征，并对相关属性及表征进行预处理，并划分训练集和测试集，使训练集和测试集包括一定数量的有害数据；S300，将训练集输入基于循环神经网络的深度学习模型，进行监督训练，并结合测试集对深度学习模型进行优化，得到评估模型；S400，根据评估模型进行有害信息的定位分析。

本发明的实施例中，首先，采集多个用户的CDR数据、XDR数据及信令数据，将收集来的样本数据进行分解，提取样本数据特征，然后存入数据集合。然后，提取通信节点统计及子图的相关属性和表征，如下所示。

离散率：离散率是统计一段时间内同一主叫发起的呼叫中被叫号码个数。计算公式＝被叫号码个数/呼叫数。离散度包括号码离散度与号段离散度。诈骗电话离散度的特征为：号段离散度低，号码离散度高。

空号率：空号率是统计一段时间内同一主叫所发起的呼叫中被叫号码为空号的呼叫比例。诈骗电话由于是随机连续拨号，空号率可能会比较高。空号率计算公式＝被叫号码为空号的呼叫数/呼叫总数。

应答率：应答率是统计一段时间内同一主叫所发起的呼叫中被叫应答呼叫数所占比例。计算公式＝呼叫应答次数/呼叫总数。

号段重复率：统计一段时间内同一主叫发起的呼叫中被叫号段重复呼叫数所占比例，对于固定电话就是万号段相同呼叫，移动电话就是号段+H码相同的呼叫。号段重复率计算公式＝被叫号段重复呼叫数/呼叫总数。

呼叫结束原因：主叫挂机、被叫挂机等。

被叫新号率：被叫号码与以前号码新信号比例。

被叫拒绝率：用户作为主叫拨打的号码中被叫拒绝接通的数量。

被叫挂机率：指一段时间内接通的呼叫中，通话结束时被叫先挂机的次数。

被叫号码连续率：指一段时间内的呼叫行为中，被叫号码连续的被叫号码数量。

呼出终止率：指一段时间内的不成功呼叫中，主叫主动挂机的呼叫数量。

呼叫成功率：指一段时间内成功呼叫与未接通呼叫的比值。

主叫呼叫参与率：该特征表达呼叫行为中主叫用户对呼叫的参与程度。

主叫时间分布：用来刻画用户作个体为主叫时的活跃规律。

通话时间分布：用来刻画用户通话时长特征分布。

主叫热线号码分布：指一定时间内，按照与主叫用户通话总时长排在前n的被叫用户号码集合。

主叫来源地：用户拨打电话时所在的重点地区。

号段特征：电话所属号段。

被叫地域特征：用户作为主叫拨打的号码的所在地域特征。

办卡开卡时间:用户的电话卡办卡开卡的时间。

主叫呼叫公共服务情况：主叫是否打过银行客服等公共服务电话。

套餐类型：主叫办理的套餐类型。

轨迹特征：主叫的开户是否发生变化、通话的轨迹特征。

投诉特征：主叫是还被投诉过。

一机多号特征：主叫所在电话是否一机多号，即一个IMEI对应多个手机号，可结合业务支出数据得出结论。

一人多号特征：主叫号码所属人是否有多部手机，即一人多IMEI，对应多号码，可结合验证卡到开卡静默时间得出结论。

流量使用特征：主叫手机流量使用情况。

参照图2，从数据集合中提取通信节点统计及子图的相关属性和表征，将上述相关属性及表征作为待训练数据进行预处理(如正则化)，得到预处理数据；并将预处理数据打乱顺序，进行欠采集，随机抽取若干正常样例，与有害样例进行结合，划分出训练集和测试集。使训练数据集(也称训练集)中包含一定数量的有害样例在一定程度上解决数据极度不平衡的问题。

深度学习模型的训练过程如下：

第一步，定义神经网络结构，选择使用的网络结构为循环神经网络LSTM，它的基本思想是对一个问题的解决不会完全从头开始，比如在预测天气变化时，会根据之前的天气变化来预测往后的天气趋势。在看天气变化趋势时，会看前期的天气变化，而循环神经网络可以通过不停的将信息循环操作，保证信息持续存在，从而解决问题。传统的神经网络并不能做到这一点，这是在对这种序列信息(如语音)进行预测时的一个缺点。比如想对电影中的每个片段去做事件分类，传统的神经网络是很难通过利用前面的事件信息来对后面事件进行分类。通过LSTM分析每一时刻的值,并且将这一时刻和前面时刻的理解合并在一起,生成当前时刻对前面数据的理解或记忆，传递这种理解给下一时刻分析。因此，本发明的实施例中，可通过LSTM网络，可聚合若干天的数据变化，通过之前的数据，得到有害信息的变化趋势，从而检测到有害信息。

第二步，定义代价函数即损失函数，本发明采用交叉熵损失函数(crossentropy)，这个概念是从信息论以及极大似然估计得到的。

设p(x)、q(x)分别是离散变量X的两个概率分布，其中p(x)为目标分布，p和q的交叉熵可以看做是，使用分布q(x)表示目标分布p(x)的困难程度：

对于本方案中的信息检测，可以看做一个二分类的交叉熵计算，其中y＝labels，表示真实标签，logits表示预测标签，则有如下公式：

loss_ij＝-[y_ij*logp_ij+(1-y_ij)log(1-p_ij)]

第三步，对模型训练的超参数进行调整，包括学习率lr、batch_size、epochs等进行调整，为了得到最优解，本方案使用梯度下降法来求，其公式为：

其中J(θ₁,θ₂,...,θ_n)是损失函数，通多轮迭代以及参数调整得到最优解，输出最终权重特征。

即，本发明的实施例中，将训练集输入深度学习模型，通过循环神经网络的LSTM网络结构、基于二分类的交叉熵的代价函数，通过梯度下降法，得出评估模型。参照图2，本发明的实施例还包括：基于混淆矩阵，定义评价准则，通过测试集对评估模型的性能进行评估，得到评估结果；并根据评估结果多次迭代循环训练深度学习模型，得到最终的评估模型。本发明基于混淆矩阵来评判模型的性能，其中TP(true positive)和TN(truenegative)分别表示被正确分类的正类样本和负类样本，FP(false positive)和FN(falsenegative)分别表示被错误分类的正类样本和负类样本，参照图3。

本发明的实施例中，评价标准包括查全率、查准率以及F值中的至少一项。查全率的计算方法为：

recall＝TP/(TP+FN)，

查准率的计算方法为：

precision＝TP/(TP+FP)，

F值的计算方法为：

其中，recall为查全率，precision为查准率，F-value为F值，TP、FN分别为被正确分类的正类样例及负类样例的数量，FP为错误分类的正类样例，β为评价系数。F值为recall和precision的组合，它是不平衡分类问题中有效的评价准则，β作为参数，通常取值为1。

本发明的实施例中，得到评估模型后，对有害信息的检测过程如下，包括：采集待测用户的CDR数据、XDR数据及信令数据，提取通信节点统计及子图的相关属性和表征，进行预处理，得到待预测样例数据；将待预测样例数据输入至评估模型，得到有害信息的定位分析结果。根据定位分析结果，对有害呼叫进行告警或者通话阻断。

参照图4，本发明的实施例的系统中包括：采集模块100，用于采集多个用户的CDR数据、XDR数据及信令数据，得到样本数据，对样本数据进行分解，提取样本特征，并存入数据集合；预处理模块200，用于从数据集合中提取通信节点统计及子图的相关属性和表征，并对相关属性及表征进行预处理，并划分训练集和测试集，使训练集和测试集包括一定数量的有害数据；训练模块300，用于将训练集输入基于循环神经网络的深度学习模型，进行监督训练，并结合测试集对深度学习模型进行优化，得到评估模型；预测模块400，用于根据评估模型进行有害信息的定位分析。

尽管本文描述了具体实施方案，但是本领域中的普通技术人员将认识到，许多其它修改或另选的实施方案同样处于本公开的范围内。例如，结合特定设备或组件描述的功能和/或处理能力中的任一项可以由任何其它设备或部件来执行。另外，虽然已根据本公开的实施方案描述了各种例示性具体实施和架构，但是本领域中的普通技术人员将认识到，对本文所述的例示性具体实施和架构的许多其它修改也处于本公开的范围内。

上文参考根据示例性实施方案所述的系统、方法、系统和/或计算机程序产品的框图和流程图描述了本公开的某些方面。应当理解，框图和流程图中的一个或多个块以及框图和流程图中的块的组合可分别通过执行计算机可执行程序指令来实现。同样，根据一些实施方案，框图和流程图中的一些块可能无需按示出的顺序执行，或者可以无需全部执行。另外，超出框图和流程图中的块所示的那些部件和/或操作以外的附加部件和/或操作可存在于某些实施方案中。

因此，框图和流程图中的块支持用于执行指定功能的装置的组合、用于执行指定功能的元件或步骤的组合以及用于执行指定功能的程序指令装置。还应当理解，框图和流程图中的每个块以及框图和流程图中的块的组合可以由执行特定功能、元件或步骤的专用硬件计算机系统或者专用硬件和计算机指令的组合来实现。

本文所述的程序模块、应用程序等可包括一个或多个软件组件，包括例如软件对象、方法、数据结构等。每个此类软件组件可包括计算机可执行指令，所述计算机可执行指令响应于执行而使本文所述的功能的至少一部分(例如，本文所述的例示性方法的一种或多种操作)被执行。

软件组件可以用各种编程语言中的任一种来编码。一种例示性编程语言可以为低级编程语言，诸如与特定硬件体系结构和/或操作系统平台相关联的汇编语言。包括汇编语言指令的软件组件可能需要在由硬件架构和/或平台执行之前由汇编程序转换为可执行的机器代码。另一种示例性编程语言可以为更高级的编程语言，其可以跨多种架构移植。包括更高级编程语言的软件组件在执行之前可能需要由解释器或编译器转换为中间表示。编程语言的其它示例包括但不限于宏语言、外壳或命令语言、作业控制语言、脚本语言、数据库查询或搜索语言、或报告编写语言。在一个或多个示例性实施方案中，包含上述编程语言示例中的一者的指令的软件组件可直接由操作系统或其它软件组件执行，而无需首先转换成另一种形式。

软件组件可存储为文件或其它数据存储构造。具有相似类型或相关功能的软件组件可一起存储在诸如特定的目录、文件夹或库中。软件组件可为静态的(例如，预设的或固定的)或动态的(例如，在执行时创建或修改的)。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于深度学习的有害信息检测方法，其特征在于，包括以下步骤：

S100，采集多个用户的CDR数据、XDR数据及信令数据，得到样本数据，对所述样本数据进行分解，提取样本特征，并存入数据集合；

S200，从所述数据集合中提取通信节点统计及子图的相关属性和表征，并对相关属性及表征进行预处理，并划分训练集和测试集，使所述训练集和所述测试集包括一定数量的有害数据；

S300，将所述训练集输入基于循环神经网络的深度学习模型，进行监督训练，并结合所述测试集对所述深度学习模型进行优化，得到评估模型；

S400，根据所述评估模型进行有害信息的定位分析。

2.根据权利要求1所述的基于深度学习的有害信息检测方法，其特征在于，所述步骤S200包括：

S210，从所述数据集合中提取通信节点统计及子图的相关属性和表征，并对相关属性及表征进行预处理，得到预处理数据；

S220，将所述预处理数据打乱顺序，进行欠采集，随机抽取若干正常样例，与有害样例进行结合，划分出所述训练集和所述测试集。

3.根据权利要求1所述的基于深度学习的有害信息检测方法，其特征在于，所述步骤S300包括：

S310，将所述训练集输入所述深度学习模型，通过循环神经网络的网络结构、基于二分类的交叉熵的代价函数，通过梯度下降法，得出所述评估模型；

S320，基于混淆矩阵，定义评价准则，通过所述测试集对所述评估模型的性能进行评估，得到评估结果；

S330，根据所述评估结果多次迭代循环训练所述深度学习模型，得到最终的所述评估模型。

4.根据权利要求3所述的基于深度学习的有害信息检测方法，其特征在于，所述评价标准包括查全率、查准率以及F值中的至少一项。

5.根据权利要求3所述的基于深度学习的有害信息检测方法，其特征在于，所述查全率的计算方法为：

recall＝TP/(TP+FN)，

所述查准率的计算方法为：

precision＝TP/(TP+FP)，

所述F值的计算方法为：

6.根据权利要求1所述的基于深度学习的有害信息检测方法，其特征在于，所述步骤S400包括：

S410，采集待测用户的CDR数据、XDR数据及信令数据，提取通信节点统计及子图的相关属性和表征，进行预处理，得到待预测样例数据；

S420，将所述待预测样例数据输入至所述评估模型，得到有害信息的定位分析结果。

7.根据权利要求6所述的基于深度学习的有害信息检测方法，其特征在于，所述步骤S400还包括：

S430，根据所述定位分析结果，对有害呼叫进行告警或者通话阻断。

8.根据权利要求1所述的基于深度学习的有害信息检测方法，其特征在于，所述相关属性和表征包括：离散率、空号率、应答率、号段重复率、呼叫结束原因、被叫新号率、被叫拒绝率、被叫挂机率、被叫号码连续率、呼出终止率、呼叫成功率、主叫呼叫参与率、主叫时间分布、通话时间分布、主叫热线号码分布、主叫来源地、号段特征、被叫地域特征、办卡开卡时间、主叫呼叫公共服务情况、套餐类型、轨迹特征、投诉特征、一机多号特征、一人多号特征以及流量使用特征。

9.一种基于深度学习的有害信息检测系统，使用权利要求1至8中任一项的方法，其特征在于，包括：

采集模块，用于采集多个用户的CDR数据、XDR数据及信令数据，得到样本数据，对所述样本数据进行分解，提取样本特征，并存入数据集合；

预处理模块，用于从所述数据集合中提取通信节点统计及子图的相关属性和表征，并对相关属性及表征进行预处理，并划分训练集和测试集，使所述训练集和所述测试集包括一定数量的有害数据；

训练模块，用于将所述训练集输入基于循环神经网络的深度学习模型，进行监督训练，并结合所述测试集对所述深度学习模型进行优化，得到评估模型；

预测模块，用于根据所述评估模型进行有害信息的定位分析。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至8中任一项的方法。