CN114066490B

CN114066490B - 一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质

Info

Publication number: CN114066490B
Application number: CN202210045845.7A
Authority: CN
Inventors: 林建洪; 陈晓莉; 冯杰; 赵祥廷; 聂宜君; 徐佳丽
Original assignee: Zhejiang Ponshine Information Technology Co ltd
Current assignee: Zhejiang Ponshine Information Technology Co ltd
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-04-29
Anticipated expiration: 2042-01-17
Also published as: CN114066490A

Abstract

本发明涉及GoIP诈骗窝点的识别方法、系统及计算机可读存储介质，其方法包括：S1、采集历史样本数据集；S2、神经网络模型的训练；对历史样本数据集及其对应的神经网络模型输出的置信度进行GMM聚类分析，得到历史分簇结果；S3、待测样本输入神经网络模型，输出置信度；若置信度超过预设阈值，则为GoIP诈骗电话，转至步骤S4；S4、将属于GoIP诈骗电话的待测样本与历史分簇结果进行概率匹配，得到目标分簇结果；S5、根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的诈骗窝点簇。本发明能有效识别GoIP诈骗窝点，实现对GoIP诈骗的精准打击。

Description

一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质

技术领域

本发明属于电信诈骗识别技术领域，具体涉及一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质。

背景技术

随着网络技术日新月异，犯罪分子也开始不断使用新技术、新设备来逃避打击，例如，GoIP网络电话成为近年来诈骗分子的新宠。

GoIP又称虚拟拨号设备，支持手机卡接入，能将传统电话信号转化为网络信号。一台设备可供上百张手机SIM卡同时运作，还可远程控制异地的SIM卡和GoIP设备拨打电话、收发短信，实现了人与SIM卡的分离，无人值守，达到隐藏身份、逃避打击的目的。

现有技术中，主要集中在GoIP诈骗电话的识别，例如，公开号为CN113794805A公开的一种GoIP诈骗电话的检测方法以及公开号为CN111741472A公开的一种GoIP诈骗电话识别方法，即仅能实现单个GoIP诈骗电话号码的判断，无法实现GoIP诈骗窝点的识别。另外，现有的GoIP诈骗电话识别过程中，并未考虑时序特征等特征属性，模型精度不高，且模型的鲁棒性不强。

发明内容

基于现有技术中存在的上述缺点和不足，本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个，换言之，本发明的目的之一是提供满足前述需求之一或多个的一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质。

为了达到上述发明目的，本发明采用以下技术方案：

一种GoIP诈骗窝点的识别方法，包括以下步骤：

S1、采集历史样本数据集；历史样本数据集包括GoIP诈骗设备和正常通信设备的通信数据信息及设备信息；

S2、采用历史样本数据集对神经网络进行训练，得到神经网络模型；

对历史样本数据集及其对应的神经网络模型输出的属于GoIP诈骗电话的置信度进行GMM聚类分析，得到历史分簇结果；

S3、获取待测样本数据集并输入神经网络模型，输出各待测样本对应的属于GoIP诈骗电话的置信度，以判断各待测样本是否为GoIP诈骗电话；若置信度超过预设阈值，则待测样本为GoIP诈骗电话，转至步骤S4；

S4、将属于GoIP诈骗电话的待测样本数据集及其对应的置信度与历史分簇结果进行概率匹配，得到目标分簇结果；

S5、根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的目标簇；若是，则目标簇为诈骗窝点簇。

作为优选方案，用于神经网络训练或输入神经网络模型的通信数据信息包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数，设备信息包括通话次数最多的IMEI信息；

用于GMM聚类分析或概率匹配的通信数据信息包括通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数，设备信息包括IMEI信息。

作为优选方案，所述步骤S2中，神经网络模型的训练过程包括：

S21、将24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数并行输入双向LSTM网络，之后通过双向LSTM网络的输出连接的第一FC层输出；

将通话次数最多的IMEI信息进行编码之后依次输入embedding层、CNN网络，并通过CNN网络的输出连接的第二FC层输出；

将24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数输入第三FC层并输出；

S22、将步骤S21中各FC层的输出通过第四FC层结合，并通过sigmoid层输出，得到属于GoIP诈骗电话的置信度。

作为优选方案，所述步骤S4中，根据待测样本数据集中的各待测样本对应的通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数、IMEI信息以及置信度分别计算其属于历史分簇结果中各个簇的概率，并将各待测样本归属至其对应的概率最高的簇中，得到目标分簇结果。

作为优选方案，所述步骤S5之后，还包括以下步骤：

S6、将诈骗窝点簇的信息发送至监管平台。

作为优选方案，所述监管平台根据诈骗窝点簇中的待测样本对应的通信数据信息中的定位位置确定诈骗窝点位置。

作为优选方案，所述步骤S2中的历史分簇结果定期更新。

本发明还提供一种GoIP诈骗窝点的识别系统，应用如上方案所述的识别方法，所述识别系统包括：

采集模块，用于采集历史样本数据集；历史样本数据集包括GoIP诈骗设备和正常通信设备的通信数据信息及设备信息；

神经网络训练模块，用于采用历史样本数据集对神经网络进行训练，得到神经网络模型；

GMM聚类分析模块，用于对历史样本数据集及其对应的神经网络模型输出的属于GoIP诈骗电话的置信度进行GMM聚类分析，得到历史分簇结果；

数据库模块，用于存储神经网络模型和历史分簇结果；神经网络模型用于根据待测样本数据集的输入，输出各待测样本对应的属于GoIP诈骗电话的置信度；

判断模块，用于根据各待测样本对应的属于GoIP诈骗电话的置信度是否超过预设阈值的比较结果，判断各待测样本是否为GoIP诈骗电话；若是，则待测样本为GoIP诈骗电话；

GMM聚类分析模块还用于将属于GoIP诈骗电话的待测样本数据集及其对应的置信度与历史分簇结果进行概率匹配，得到目标分簇结果；

判断模块还用于根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的目标簇；若是，则目标簇为诈骗窝点簇；

输出模块，用于输出诈骗窝点簇的信息。

作为优选方案，识别系统，还包括：

更新模块，用于定期更新历史分簇结果。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行如上任一方案所述的识别方法。

本发明与现有技术相比，有益效果是：

（1）本发明利用神经网络的预测与GMM聚类分析相结合进行闭环处理，能有效识别GoIP诈骗窝点，实现对GoIP诈骗的精准打击。

（2）本发明的神经网络模型，在考虑通话基本特征的基础之上，结合三个24维的时序特征（24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数）和文本特征（通话次数最多的IMEI信息），有效提升神经网络模型的预测精度，且模型的鲁棒性更强。

（3）本发明先对历史样本数据集进行GMM聚类分析，之后对于待测样本而言，只需进行概率匹配即可，数量处理量小，识别效率高。

附图说明

图1是本发明实施例1的GoIP诈骗窝点的识别方法的流程图；

图2是本发明实施例1的GoIP诈骗窝点识别的详细流程图；

图3是现有的双向LSTM神经网络的构架图；

图4是本发明实施例1的GoIP诈骗窝点的识别系统的模块组成图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图1所示，本实施例的GoIP诈骗窝点的识别方法，包括以下步骤：

具体地，如图2所示，根据历史样本数据集统计用于神经网络训练的通信数据信息包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数，设备信息包括通话次数最多的IMEI信息；

另外，根据历史样本数据集统计用于GMM聚类分析的通信数据信息包括通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数，设备信息包括IMEI信息。更为具体地，选择用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数，保证数据的实时性。

具体地，如图2所示，神经网络模型的具体训练过程，包括：

（1）用于神经网络训练的通信数据信息中的前三个特征，即24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数，是三个24维的时序特征；三个时序特征并行输入双向LSTM，之后通过双向LSTM网络的输出连接的第一FC层输出。

为了有效解决梯度消失问题，LSTM在RNN的基础上加入了门结构：遗忘门、输入门和输出门，同时为了解决单向循环神经网络的预测方向的局限性，利用双向LSTM神经网络进行时序特征的学习。具体地，双向LSTM神经网络的网络结构如图3所示：

sigmoid的公式如下：

tanh的公式如下：

遗忘门的公式可得：

输入门的公式可得：

输出门的公式可得：

。

（2）将通话次数最多的IMEI信息进行编码之后依次输入embedding层、CNN网络，并通过CNN网络的输出连接的第二FC层输出。

其中，采用字典编码对通话次数最多的IMEI信息进行编码，最终从第二FC层输出得到文本特征。

（3）将24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数输入第三FC层并输出。

（4）将上述第一FC层、第二FC层及第三FC层的输出通过第四FC层结合，并通过sigmoid层输出，得到属于GoIP诈骗电话的置信度。之后，根据置信度判断样本是否属于GoIP诈骗电话。

其中，神经网络模型的训练过程中进行模型正向传播和反向传播，更新迭代模型权重；具体采用历史样本数据集对模型进行前向传播，得到初始预测结果；之后根据二分类交叉熵进行损失函数的计算或者计算网络损失梯度，根据Adam优化算法进行网络损失梯度的回传，并对测试集进行预测测试，通过准确率计算模型的权重，详细过程可参考现有的模型正向传播和反向传播技术，在此不赘述。

另外，本实施例还对历史样本数据集及其对应的神经网络模型输出的属于GoIP诈骗电话的置信度进行GMM聚类分析，得到历史分簇结果。

具体地，本实施例对数据进行聚类计算，从设备角度、地理位置角度、通话特征角度以及是否为疑似GoIP诈骗电话，进行GMM聚类分析，根据AIC和BIC判断聚类的效果，聚类分析后的分簇结果保存至数据库，数据定期更新。

其中，用于GMM聚类分析的数据信息包括用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数，还包括属于GoIP诈骗电话的置信度。另外，GMM聚类分析的原理可参考现有技术，在此不赘述；簇数量选择的不同，最终聚类的结果也不同，具体根据实际需求进行确定。

S3、获取待测样本数据集并输入神经网络模型，输出各待测样本对应的属于GoIP诈骗电话的置信度，以判断各待测样本是否为GoIP诈骗电话；若置信度超过预设阈值，则待测样本为GoIP诈骗电话，转至步骤S4。

具体地，从待测样本数据集中统计出各待测样本用于输入神经网络模型的通信数据信息，包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数，设备信息包括通话次数最多的IMEI信息；之后将上述通信数据信息和设备信息输入神经网络模型中进行预测，得到各待测样本对应的属于GoIP诈骗电话的置信度；根据置信度是否超过预设阈值，据此判断各待测样本是否为GoIP诈骗电话；若是，则待测样本为GoIP诈骗电话；若否，则待测样本不属于GoIP诈骗电话。

S4、将属于GoIP诈骗电话的待测样本数据集及其对应的置信度与历史分簇结果进行概率匹配，得到目标分簇结果。

具体地，将属于GoIP诈骗电话的待测样本数据集中的用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数，还结合属于GoIP诈骗电话的待测样本对应的属于GoIP诈骗电话的置信度，分别计算其属于历史分簇结果中各个簇的概率，并将各待测样本归属至其对应的概率最高的簇中，得到目标分簇结果。其中，概率计算过程可参考现有的GMM聚类分析的概率计算过程，在此不赘述。

其中，GoIP诈骗电话的通话特征一般是高内聚低耦合的，GMM聚类分析得到的分簇结果分为数个簇，对较高内聚（或数量较多）簇中待测样本对应的置信度的平均值进行计算，目标簇中的样本对应的置信度的平均值越接近于1，为诈骗窝点簇的概率越高，以便后续执法部门进行精准排查。

对应于本实施例的上述GoIP诈骗窝点的识别方法，如图4所示，本实施例还提供GoIP诈骗窝点的识别系统，包括采集模块、神经网络训练模块、GMM聚类分析模块、数据库模块、更新模块、判断模块和输出模块。

其中，采集模块用于采集历史样本数据集；历史样本数据集包括GoIP诈骗设备和正常通信设备的通信数据信息及设备信息。具体地，如图2所示，根据历史样本数据集统计用于神经网络训练的通信数据信息包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数，设备信息包括通话次数最多的IMEI信息；

本实施例的神经网络训练模块用于采用历史样本数据集对神经网络进行训练，得到神经网络模型。

具体地，如图2所示，神经网络模型的具体训练过程，包括：

（a）用于神经网络训练的通信数据信息中的前三个特征，即24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数，是三个24维的时序特征；三个时序特征并行输入双向LSTM，之后通过双向LSTM网络的输出连接的第一FC层输出。

sigmoid的公式如下：

tanh的公式如下：

遗忘门的公式可得：

输入门的公式可得：

输出门的公式可得：

。

（b）将通话次数最多的IMEI信息进行编码之后依次输入embedding层、CNN网络，并通过CNN网络的输出连接的第二FC层输出。

（c）将24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数输入第三FC层并输出。

（d）将上述第一FC层、第二FC层及第三FC层的输出通过第四FC层结合，并通过sigmoid层输出，得到属于GoIP诈骗电话的置信度。之后，根据置信度判断样本是否属于GoIP诈骗电话。

其中，神经网络模型的训练过程中进行模型正向传播和反向传播，更新迭代模型权重，详细过程可参考现有的模型正向传播和反向传播技术，在此不赘述。

本实施例的GMM聚类分析模块用于对历史样本数据集及其对应的神经网络模型输出的属于GoIP诈骗电话的置信度进行GMM聚类分析，得到历史分簇结果。具体地，本实施例对数据进行聚类计算，从设备角度、地理位置角度、通话特征角度以及是否为疑似GoIP诈骗电话，进行GMM聚类分析，根据AIC和BIC判断聚类的效果，聚类分析后的分簇结果保存至数据库。其中，用于GMM聚类分析的数据信息包括用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数，还包括属于GoIP诈骗电话的置信度。另外，GMM聚类分析的原理可参考现有技术，在此不赘述；簇数量选择的不同，最终聚类的结果也不同，具体根据实际需求进行确定。

另外，本实施例的更新模块用于定期更新历史分簇结果。历史分簇结果的数据定期更新，保证聚类的精度。

本实施例数据库模块，用于存储神经网络模型和历史分簇结果；神经网络模型用于根据待测样本数据集的输入，输出各待测样本对应的属于GoIP诈骗电话的置信度。具体地，从待测样本数据集中统计出各待测样本用于输入神经网络模型的通信数据信息，包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数，设备信息包括通话次数最多的IMEI信息；之后将上述通信数据信息和设备信息输入神经网络模型中进行预测，得到各待测样本对应的属于GoIP诈骗电话的置信度。

本实施例的判断模块用于根据各待测样本对应的属于GoIP诈骗电话的置信度是否超过预设阈值的比较结果，判断各待测样本是否为GoIP诈骗电话；若是，则待测样本为GoIP诈骗电话；若否，则待测样本不属于GoIP诈骗电话。

本实施例的GMM聚类分析模块还用于将属于GoIP诈骗电话的待测样本数据集及其对应的置信度与历史分簇结果进行概率匹配，得到目标分簇结果。具体地，将属于GoIP诈骗电话的待测样本数据集中的用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数，还结合属于GoIP诈骗电话的待测样本对应的属于GoIP诈骗电话的置信度，分别计算其属于历史分簇结果中各个簇的概率，并将各待测样本归属至其对应的概率最高的簇中，得到目标分簇结果。其中，概率计算过程可参考现有的GMM聚类分析的概率计算过程，在此不赘述。

本实施例的判断模块还用于根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的目标簇；若是，则目标簇为诈骗窝点簇。其中，GoIP诈骗电话的通话特征一般是高内聚低耦合的，GMM聚类分析得到的分簇结果分为数个簇，对较高内聚（或数量较多）簇中待测样本对应的置信度的平均值进行计算，目标簇中的样本对应的置信度的平均值越接近于1，为诈骗窝点簇的概率越高。

本实施例的输出模块用于输出诈骗窝点簇的信息，以便后续执法部门进行精准排查。

本实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行本实施例上述的GoIP诈骗窝点的识别方法，实现智能识别。

实施例2：

本实施例的GoIP诈骗窝点的识别方法与实施例1的不同之处在于：

在获取诈骗窝点簇的信息之后，还将诈骗窝点簇的信息发送至监管平台，监管平台根据诈骗窝点簇中的待测样本对应的通信数据信息中的定位位置确定诈骗窝点位置，实现对GoIP诈骗窝点的高效、精准打击；

其他步骤可以参考实施例1；

本实施例的GoIP诈骗窝点的识别系统与实施例1的不同之处在于：

还包括远程通信模块，用于将诈骗窝点簇的信息发送至监管平台；

其他构架可以参考实施例1；

本实施例的计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行本实施例的GoIP诈骗窝点的识别方法，以便远程监管平台及时获取诈骗窝点的相关信息。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种GoIP诈骗窝点的识别方法，其特征在于，包括以下步骤：

S5、根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的目标簇；若是，则目标簇为诈骗窝点簇；

用于神经网络训练或输入神经网络模型的通信数据信息包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数，设备信息包括通话次数最多的IMEI信息；

用于GMM聚类分析或概率匹配的通信数据信息包括通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数，设备信息包括IMEI信息；

所述步骤S2中，神经网络模型的训练过程包括：

2.根据权利要求1所述的一种GoIP诈骗窝点的识别方法，其特征在于，所述步骤S4中，根据待测样本数据集中的各待测样本对应的通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数、IMEI信息以及置信度分别计算其属于历史分簇结果中各个簇的概率，并将各待测样本归属至其对应的概率最高的簇中，得到目标分簇结果。

3.根据权利要求2所述的一种GoIP诈骗窝点的识别方法，其特征在于，所述步骤S5之后，还包括以下步骤：

S6、将诈骗窝点簇的信息发送至监管平台。

4.根据权利要求3所述的一种GoIP诈骗窝点的识别方法，其特征在于，所述监管平台根据诈骗窝点簇中的待测样本对应的通信数据信息中的定位位置确定诈骗窝点位置。

5.根据权利要求1-4任一项所述的一种GoIP诈骗窝点的识别方法，其特征在于，所述步骤S2中的历史分簇结果定期更新。

6.一种GoIP诈骗窝点的识别系统，应用如权利要求1所述的识别方法，其特征在于，所述识别系统包括：

其中，用于神经网络训练或输入神经网络模型的通信数据信息包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数，设备信息包括通话次数最多的IMEI信息；

神经网络训练模块，用于采用历史样本数据集对神经网络进行训练，得到神经网络模型；其中，神经网络模型的训练过程包括以下步骤：

（1）将24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数并行输入双向LSTM网络，之后通过双向LSTM网络的输出连接的第一FC层输出；

（2）将步骤（1）中各FC层的输出通过第四FC层结合，并通过sigmoid层输出，得到属于GoIP诈骗电话的置信度；

输出模块，用于输出诈骗窝点簇的信息。

7.根据权利要求6所述的一种GoIP诈骗窝点的识别系统，其特征在于，还包括：

更新模块，用于定期更新历史分簇结果。

8.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当指令在计算机上运行时，使得计算机执行如权利要求1-5任一项所述的识别方法。