CN114066490B - 一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质 - Google Patents
一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114066490B CN114066490B CN202210045845.7A CN202210045845A CN114066490B CN 114066490 B CN114066490 B CN 114066490B CN 202210045845 A CN202210045845 A CN 202210045845A CN 114066490 B CN114066490 B CN 114066490B
- Authority
- CN
- China
- Prior art keywords
- fraud
- goip
- hours
- neural network
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003062 neural network model Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 238000004891 communication Methods 0.000 claims description 34
- 238000007621 cluster analysis Methods 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 239000006185 dispersion Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及GoIP诈骗窝点的识别方法、系统及计算机可读存储介质,其方法包括:S1、采集历史样本数据集;S2、神经网络模型的训练;对历史样本数据集及其对应的神经网络模型输出的置信度进行GMM聚类分析,得到历史分簇结果;S3、待测样本输入神经网络模型,输出置信度;若置信度超过预设阈值,则为GoIP诈骗电话,转至步骤S4;S4、将属于GoIP诈骗电话的待测样本与历史分簇结果进行概率匹配,得到目标分簇结果;S5、根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的诈骗窝点簇。本发明能有效识别GoIP诈骗窝点,实现对GoIP诈骗的精准打击。
Description
技术领域
本发明属于电信诈骗识别技术领域,具体涉及一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质。
背景技术
随着网络技术日新月异,犯罪分子也开始不断使用新技术、新设备来逃避打击,例如,GoIP网络电话成为近年来诈骗分子的新宠。
GoIP又称虚拟拨号设备,支持手机卡接入,能将传统电话信号转化为网络信号。一台设备可供上百张手机SIM卡同时运作,还可远程控制异地的SIM卡和GoIP设备拨打电话、收发短信,实现了人与SIM卡的分离,无人值守,达到隐藏身份、逃避打击的目的。
现有技术中,主要集中在GoIP诈骗电话的识别,例如,公开号为CN113794805A公开的一种GoIP诈骗电话的检测方法以及公开号为CN111741472A公开的一种GoIP诈骗电话识别方法,即仅能实现单个GoIP诈骗电话号码的判断,无法实现GoIP诈骗窝点的识别。另外,现有的GoIP诈骗电话识别过程中,并未考虑时序特征等特征属性,模型精度不高,且模型的鲁棒性不强。
发明内容
基于现有技术中存在的上述缺点和不足,本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个,换言之,本发明的目的之一是提供满足前述需求之一或多个的一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质。
为了达到上述发明目的,本发明采用以下技术方案:
一种GoIP诈骗窝点的识别方法,包括以下步骤:
S1、采集历史样本数据集;历史样本数据集包括GoIP诈骗设备和正常通信设备的通信数据信息及设备信息;
S2、采用历史样本数据集对神经网络进行训练,得到神经网络模型;
对历史样本数据集及其对应的神经网络模型输出的属于GoIP诈骗电话的置信度进行GMM聚类分析,得到历史分簇结果;
S3、获取待测样本数据集并输入神经网络模型,输出各待测样本对应的属于GoIP诈骗电话的置信度,以判断各待测样本是否为GoIP诈骗电话;若置信度超过预设阈值,则待测样本为GoIP诈骗电话,转至步骤S4;
S4、将属于GoIP诈骗电话的待测样本数据集及其对应的置信度与历史分簇结果进行概率匹配,得到目标分簇结果;
S5、根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的目标簇;若是,则目标簇为诈骗窝点簇。
作为优选方案,用于神经网络训练或输入神经网络模型的通信数据信息包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数,设备信息包括通话次数最多的IMEI信息;
用于GMM聚类分析或概率匹配的通信数据信息包括通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数,设备信息包括IMEI信息。
作为优选方案,所述步骤S2中,神经网络模型的训练过程包括:
S21、将24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数并行输入双向LSTM网络,之后通过双向LSTM网络的输出连接的第一FC层输出;
将通话次数最多的IMEI信息进行编码之后依次输入embedding层、CNN网络,并通过CNN网络的输出连接的第二FC层输出;
将24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数输入第三FC层并输出;
S22、将步骤S21中各FC层的输出通过第四FC层结合,并通过sigmoid层输出,得到属于GoIP诈骗电话的置信度。
作为优选方案,所述步骤S4中,根据待测样本数据集中的各待测样本对应的通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数、IMEI信息以及置信度分别计算其属于历史分簇结果中各个簇的概率,并将各待测样本归属至其对应的概率最高的簇中,得到目标分簇结果。
作为优选方案,所述步骤S5之后,还包括以下步骤:
S6、将诈骗窝点簇的信息发送至监管平台。
作为优选方案,所述监管平台根据诈骗窝点簇中的待测样本对应的通信数据信息中的定位位置确定诈骗窝点位置。
作为优选方案,所述步骤S2中的历史分簇结果定期更新。
本发明还提供一种GoIP诈骗窝点的识别系统,应用如上方案所述的识别方法,所述识别系统包括:
采集模块,用于采集历史样本数据集;历史样本数据集包括GoIP诈骗设备和正常通信设备的通信数据信息及设备信息;
神经网络训练模块,用于采用历史样本数据集对神经网络进行训练,得到神经网络模型;
GMM聚类分析模块,用于对历史样本数据集及其对应的神经网络模型输出的属于GoIP诈骗电话的置信度进行GMM聚类分析,得到历史分簇结果;
数据库模块,用于存储神经网络模型和历史分簇结果;神经网络模型用于根据待测样本数据集的输入,输出各待测样本对应的属于GoIP诈骗电话的置信度;
判断模块,用于根据各待测样本对应的属于GoIP诈骗电话的置信度是否超过预设阈值的比较结果,判断各待测样本是否为GoIP诈骗电话;若是,则待测样本为GoIP诈骗电话;
GMM聚类分析模块还用于将属于GoIP诈骗电话的待测样本数据集及其对应的置信度与历史分簇结果进行概率匹配,得到目标分簇结果;
判断模块还用于根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的目标簇;若是,则目标簇为诈骗窝点簇;
输出模块,用于输出诈骗窝点簇的信息。
作为优选方案,识别系统,还包括:
更新模块,用于定期更新历史分簇结果。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行如上任一方案所述的识别方法。
本发明与现有技术相比,有益效果是:
(1)本发明利用神经网络的预测与GMM聚类分析相结合进行闭环处理,能有效识别GoIP诈骗窝点,实现对GoIP诈骗的精准打击。
(2)本发明的神经网络模型,在考虑通话基本特征的基础之上,结合三个24维的时序特征(24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数)和文本特征(通话次数最多的IMEI信息),有效提升神经网络模型的预测精度,且模型的鲁棒性更强。
(3)本发明先对历史样本数据集进行GMM聚类分析,之后对于待测样本而言,只需进行概率匹配即可,数量处理量小,识别效率高。
附图说明
图1是本发明实施例1的GoIP诈骗窝点的识别方法的流程图;
图2是本发明实施例1的GoIP诈骗窝点识别的详细流程图;
图3是现有的双向LSTM神经网络的构架图;
图4是本发明实施例1的GoIP诈骗窝点的识别系统的模块组成图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例1:
如图1所示,本实施例的GoIP诈骗窝点的识别方法,包括以下步骤:
S1、采集历史样本数据集;历史样本数据集包括GoIP诈骗设备和正常通信设备的通信数据信息及设备信息;
具体地,如图2所示,根据历史样本数据集统计用于神经网络训练的通信数据信息包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数,设备信息包括通话次数最多的IMEI信息;
另外,根据历史样本数据集统计用于GMM聚类分析的通信数据信息包括通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数,设备信息包括IMEI信息。更为具体地,选择用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数,保证数据的实时性。
S2、采用历史样本数据集对神经网络进行训练,得到神经网络模型;
具体地,如图2所示,神经网络模型的具体训练过程,包括:
(1)用于神经网络训练的通信数据信息中的前三个特征,即24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数,是三个24维的时序特征;三个时序特征并行输入双向LSTM,之后通过双向LSTM网络的输出连接的第一FC层输出。
为了有效解决梯度消失问题,LSTM在RNN的基础上加入了门结构:遗忘门、输入门和输出门,同时为了解决单向循环神经网络的预测方向的局限性,利用双向LSTM神经网络进行时序特征的学习。具体地,双向LSTM神经网络的网络结构如图3所示:
sigmoid的公式如下:
tanh的公式如下:
遗忘门的公式可得:
输入门的公式可得:
输出门的公式可得:
(2)将通话次数最多的IMEI信息进行编码之后依次输入embedding层、CNN网络,并通过CNN网络的输出连接的第二FC层输出。
其中,采用字典编码对通话次数最多的IMEI信息进行编码,最终从第二FC层输出得到文本特征。
(3)将24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数输入第三FC层并输出。
(4)将上述第一FC层、第二FC层及第三FC层的输出通过第四FC层结合,并通过sigmoid层输出,得到属于GoIP诈骗电话的置信度。之后,根据置信度判断样本是否属于GoIP诈骗电话。
其中,神经网络模型的训练过程中进行模型正向传播和反向传播,更新迭代模型权重;具体采用历史样本数据集对模型进行前向传播,得到初始预测结果;之后根据二分类交叉熵进行损失函数的计算或者计算网络损失梯度,根据Adam优化算法进行网络损失梯度的回传,并对测试集进行预测测试,通过准确率计算模型的权重,详细过程可参考现有的模型正向传播和反向传播技术,在此不赘述。
另外,本实施例还对历史样本数据集及其对应的神经网络模型输出的属于GoIP诈骗电话的置信度进行GMM聚类分析,得到历史分簇结果。
具体地,本实施例对数据进行聚类计算,从设备角度、地理位置角度、通话特征角度以及是否为疑似GoIP诈骗电话,进行GMM聚类分析,根据AIC和BIC判断聚类的效果,聚类分析后的分簇结果保存至数据库,数据定期更新。
其中,用于GMM聚类分析的数据信息包括用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数,还包括属于GoIP诈骗电话的置信度。另外,GMM聚类分析的原理可参考现有技术,在此不赘述;簇数量选择的不同,最终聚类的结果也不同,具体根据实际需求进行确定。
S3、获取待测样本数据集并输入神经网络模型,输出各待测样本对应的属于GoIP诈骗电话的置信度,以判断各待测样本是否为GoIP诈骗电话;若置信度超过预设阈值,则待测样本为GoIP诈骗电话,转至步骤S4。
具体地,从待测样本数据集中统计出各待测样本用于输入神经网络模型的通信数据信息,包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数,设备信息包括通话次数最多的IMEI信息;之后将上述通信数据信息和设备信息输入神经网络模型中进行预测,得到各待测样本对应的属于GoIP诈骗电话的置信度;根据置信度是否超过预设阈值,据此判断各待测样本是否为GoIP诈骗电话;若是,则待测样本为GoIP诈骗电话;若否,则待测样本不属于GoIP诈骗电话。
S4、将属于GoIP诈骗电话的待测样本数据集及其对应的置信度与历史分簇结果进行概率匹配,得到目标分簇结果。
具体地,将属于GoIP诈骗电话的待测样本数据集中的用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数,还结合属于GoIP诈骗电话的待测样本对应的属于GoIP诈骗电话的置信度,分别计算其属于历史分簇结果中各个簇的概率,并将各待测样本归属至其对应的概率最高的簇中,得到目标分簇结果。其中,概率计算过程可参考现有的GMM聚类分析的概率计算过程,在此不赘述。
S5、根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的目标簇;若是,则目标簇为诈骗窝点簇。
其中,GoIP诈骗电话的通话特征一般是高内聚低耦合的,GMM聚类分析得到的分簇结果分为数个簇,对较高内聚(或数量较多)簇中待测样本对应的置信度的平均值进行计算,目标簇中的样本对应的置信度的平均值越接近于1,为诈骗窝点簇的概率越高,以便后续执法部门进行精准排查。
对应于本实施例的上述GoIP诈骗窝点的识别方法,如图4所示,本实施例还提供GoIP诈骗窝点的识别系统,包括采集模块、神经网络训练模块、GMM聚类分析模块、数据库模块、更新模块、判断模块和输出模块。
其中,采集模块用于采集历史样本数据集;历史样本数据集包括GoIP诈骗设备和正常通信设备的通信数据信息及设备信息。具体地,如图2所示,根据历史样本数据集统计用于神经网络训练的通信数据信息包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数,设备信息包括通话次数最多的IMEI信息;
另外,根据历史样本数据集统计用于GMM聚类分析的通信数据信息包括通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数,设备信息包括IMEI信息。更为具体地,选择用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数,保证数据的实时性。
本实施例的神经网络训练模块用于采用历史样本数据集对神经网络进行训练,得到神经网络模型。
具体地,如图2所示,神经网络模型的具体训练过程,包括:
(a)用于神经网络训练的通信数据信息中的前三个特征,即24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数,是三个24维的时序特征;三个时序特征并行输入双向LSTM,之后通过双向LSTM网络的输出连接的第一FC层输出。
为了有效解决梯度消失问题,LSTM在RNN的基础上加入了门结构:遗忘门、输入门和输出门,同时为了解决单向循环神经网络的预测方向的局限性,利用双向LSTM神经网络进行时序特征的学习。具体地,双向LSTM神经网络的网络结构如图3所示:
sigmoid的公式如下:
tanh的公式如下:
遗忘门的公式可得:
输入门的公式可得:
输出门的公式可得:
(b)将通话次数最多的IMEI信息进行编码之后依次输入embedding层、CNN网络,并通过CNN网络的输出连接的第二FC层输出。
其中,采用字典编码对通话次数最多的IMEI信息进行编码,最终从第二FC层输出得到文本特征。
(c)将24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数输入第三FC层并输出。
(d)将上述第一FC层、第二FC层及第三FC层的输出通过第四FC层结合,并通过sigmoid层输出,得到属于GoIP诈骗电话的置信度。之后,根据置信度判断样本是否属于GoIP诈骗电话。
其中,神经网络模型的训练过程中进行模型正向传播和反向传播,更新迭代模型权重,详细过程可参考现有的模型正向传播和反向传播技术,在此不赘述。
本实施例的GMM聚类分析模块用于对历史样本数据集及其对应的神经网络模型输出的属于GoIP诈骗电话的置信度进行GMM聚类分析,得到历史分簇结果。具体地,本实施例对数据进行聚类计算,从设备角度、地理位置角度、通话特征角度以及是否为疑似GoIP诈骗电话,进行GMM聚类分析,根据AIC和BIC判断聚类的效果,聚类分析后的分簇结果保存至数据库。其中,用于GMM聚类分析的数据信息包括用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数,还包括属于GoIP诈骗电话的置信度。另外,GMM聚类分析的原理可参考现有技术,在此不赘述;簇数量选择的不同,最终聚类的结果也不同,具体根据实际需求进行确定。
另外,本实施例的更新模块用于定期更新历史分簇结果。历史分簇结果的数据定期更新,保证聚类的精度。
本实施例数据库模块,用于存储神经网络模型和历史分簇结果;神经网络模型用于根据待测样本数据集的输入,输出各待测样本对应的属于GoIP诈骗电话的置信度。具体地,从待测样本数据集中统计出各待测样本用于输入神经网络模型的通信数据信息,包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数,设备信息包括通话次数最多的IMEI信息;之后将上述通信数据信息和设备信息输入神经网络模型中进行预测,得到各待测样本对应的属于GoIP诈骗电话的置信度。
本实施例的判断模块用于根据各待测样本对应的属于GoIP诈骗电话的置信度是否超过预设阈值的比较结果,判断各待测样本是否为GoIP诈骗电话;若是,则待测样本为GoIP诈骗电话;若否,则待测样本不属于GoIP诈骗电话。
本实施例的GMM聚类分析模块还用于将属于GoIP诈骗电话的待测样本数据集及其对应的置信度与历史分簇结果进行概率匹配,得到目标分簇结果。具体地,将属于GoIP诈骗电话的待测样本数据集中的用户最近使用的IMEI信息、用户最近通话的基站位置和定位位置、用户最近24小时的有通话的小时数、用户最近24小时的总通话次数,还结合属于GoIP诈骗电话的待测样本对应的属于GoIP诈骗电话的置信度,分别计算其属于历史分簇结果中各个簇的概率,并将各待测样本归属至其对应的概率最高的簇中,得到目标分簇结果。其中,概率计算过程可参考现有的GMM聚类分析的概率计算过程,在此不赘述。
本实施例的判断模块还用于根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的目标簇;若是,则目标簇为诈骗窝点簇。其中,GoIP诈骗电话的通话特征一般是高内聚低耦合的,GMM聚类分析得到的分簇结果分为数个簇,对较高内聚(或数量较多)簇中待测样本对应的置信度的平均值进行计算,目标簇中的样本对应的置信度的平均值越接近于1,为诈骗窝点簇的概率越高。
本实施例的输出模块用于输出诈骗窝点簇的信息,以便后续执法部门进行精准排查。
本实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行本实施例上述的GoIP诈骗窝点的识别方法,实现智能识别。
实施例2:
本实施例的GoIP诈骗窝点的识别方法与实施例1的不同之处在于:
在获取诈骗窝点簇的信息之后,还将诈骗窝点簇的信息发送至监管平台,监管平台根据诈骗窝点簇中的待测样本对应的通信数据信息中的定位位置确定诈骗窝点位置,实现对GoIP诈骗窝点的高效、精准打击;
其他步骤可以参考实施例1;
本实施例的GoIP诈骗窝点的识别系统与实施例1的不同之处在于:
还包括远程通信模块,用于将诈骗窝点簇的信息发送至监管平台;
其他构架可以参考实施例1;
本实施例的计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行本实施例的GoIP诈骗窝点的识别方法,以便远程监管平台及时获取诈骗窝点的相关信息。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (8)
1.一种GoIP诈骗窝点的识别方法,其特征在于,包括以下步骤:
S1、采集历史样本数据集;历史样本数据集包括GoIP诈骗设备和正常通信设备的通信数据信息及设备信息;
S2、采用历史样本数据集对神经网络进行训练,得到神经网络模型;
对历史样本数据集及其对应的神经网络模型输出的属于GoIP诈骗电话的置信度进行GMM聚类分析,得到历史分簇结果;
S3、获取待测样本数据集并输入神经网络模型,输出各待测样本对应的属于GoIP诈骗电话的置信度,以判断各待测样本是否为GoIP诈骗电话;若置信度超过预设阈值,则待测样本为GoIP诈骗电话,转至步骤S4;
S4、将属于GoIP诈骗电话的待测样本数据集及其对应的置信度与历史分簇结果进行概率匹配,得到目标分簇结果;
S5、根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的目标簇;若是,则目标簇为诈骗窝点簇;
用于神经网络训练或输入神经网络模型的通信数据信息包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数,设备信息包括通话次数最多的IMEI信息;
用于GMM聚类分析或概率匹配的通信数据信息包括通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数,设备信息包括IMEI信息;
所述步骤S2中,神经网络模型的训练过程包括:
S21、将24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数并行输入双向LSTM网络,之后通过双向LSTM网络的输出连接的第一FC层输出;
将通话次数最多的IMEI信息进行编码之后依次输入embedding层、CNN网络,并通过CNN网络的输出连接的第二FC层输出;
将24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数输入第三FC层并输出;
S22、将步骤S21中各FC层的输出通过第四FC层结合,并通过sigmoid层输出,得到属于GoIP诈骗电话的置信度。
2.根据权利要求1所述的一种GoIP诈骗窝点的识别方法,其特征在于,所述步骤S4中,根据待测样本数据集中的各待测样本对应的通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数、IMEI信息以及置信度分别计算其属于历史分簇结果中各个簇的概率,并将各待测样本归属至其对应的概率最高的簇中,得到目标分簇结果。
3.根据权利要求2所述的一种GoIP诈骗窝点的识别方法,其特征在于,所述步骤S5之后,还包括以下步骤:
S6、将诈骗窝点簇的信息发送至监管平台。
4.根据权利要求3所述的一种GoIP诈骗窝点的识别方法,其特征在于,所述监管平台根据诈骗窝点簇中的待测样本对应的通信数据信息中的定位位置确定诈骗窝点位置。
5.根据权利要求1-4任一项所述的一种GoIP诈骗窝点的识别方法,其特征在于,所述步骤S2中的历史分簇结果定期更新。
6.一种GoIP诈骗窝点的识别系统,应用如权利要求1所述的识别方法,其特征在于,所述识别系统包括:
采集模块,用于采集历史样本数据集;历史样本数据集包括GoIP诈骗设备和正常通信设备的通信数据信息及设备信息;
其中,用于神经网络训练或输入神经网络模型的通信数据信息包括24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数、24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数,设备信息包括通话次数最多的IMEI信息;
用于GMM聚类分析或概率匹配的通信数据信息包括通话的基站位置和定位位置、24小时有通话的小时数、24小时的总通话次数,设备信息包括IMEI信息;
神经网络训练模块,用于采用历史样本数据集对神经网络进行训练,得到神经网络模型;其中,神经网络模型的训练过程包括以下步骤:
(1)将24小时每个小时的通话次数、24小时每个小时的通话时长、24小时每个小时的通话对象数并行输入双向LSTM网络,之后通过双向LSTM网络的输出连接的第一FC层输出;
将通话次数最多的IMEI信息进行编码之后依次输入embedding层、CNN网络,并通过CNN网络的输出连接的第二FC层输出;
将24小时经过的基站数、通话对象归属地的离散程度、24小时的工作总时长、三天内用过的IMEI数、历史三天内单天通话最高次数输入第三FC层并输出;
(2)将步骤(1)中各FC层的输出通过第四FC层结合,并通过sigmoid层输出,得到属于GoIP诈骗电话的置信度;
GMM聚类分析模块,用于对历史样本数据集及其对应的神经网络模型输出的属于GoIP诈骗电话的置信度进行GMM聚类分析,得到历史分簇结果;
数据库模块,用于存储神经网络模型和历史分簇结果;神经网络模型用于根据待测样本数据集的输入,输出各待测样本对应的属于GoIP诈骗电话的置信度;
判断模块,用于根据各待测样本对应的属于GoIP诈骗电话的置信度是否超过预设阈值的比较结果,判断各待测样本是否为GoIP诈骗电话;若是,则待测样本为GoIP诈骗电话;
GMM聚类分析模块还用于将属于GoIP诈骗电话的待测样本数据集及其对应的置信度与历史分簇结果进行概率匹配,得到目标分簇结果;
判断模块还用于根据目标分簇结果判断是否存在待测样本数量大于预设数量阈值且所有待测样本对应的置信度的平均值大于预设置信度阈值的目标簇;若是,则目标簇为诈骗窝点簇;
输出模块,用于输出诈骗窝点簇的信息。
7.根据权利要求6所述的一种GoIP诈骗窝点的识别系统,其特征在于,还包括:
更新模块,用于定期更新历史分簇结果。
8.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当指令在计算机上运行时,使得计算机执行如权利要求1-5任一项所述的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210045845.7A CN114066490B (zh) | 2022-01-17 | 2022-01-17 | 一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210045845.7A CN114066490B (zh) | 2022-01-17 | 2022-01-17 | 一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114066490A CN114066490A (zh) | 2022-02-18 |
CN114066490B true CN114066490B (zh) | 2022-04-29 |
Family
ID=80230951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210045845.7A Active CN114066490B (zh) | 2022-01-17 | 2022-01-17 | 一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114066490B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549026B (zh) * | 2022-04-26 | 2022-07-19 | 浙江鹏信信息科技股份有限公司 | 基于算法组件库分析的未知诈骗的识别方法及系统 |
CN115002778B (zh) * | 2022-06-17 | 2024-09-17 | 中国联合网络通信集团有限公司 | 诈骗用户的识别方法、装置、电子设备及介质 |
CN117828479B (zh) * | 2024-02-29 | 2024-06-11 | 浙江鹏信信息科技股份有限公司 | 诈骗网站识别检测方法、系统及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924333A (zh) * | 2018-06-12 | 2018-11-30 | 阿里巴巴集团控股有限公司 | 诈骗电话识别方法、装置和系统 |
CN112291424A (zh) * | 2020-10-29 | 2021-01-29 | 上海观安信息技术股份有限公司 | 一种诈骗号码识别方法、装置、计算机设备及存储介质 |
CN113889118A (zh) * | 2021-09-27 | 2022-01-04 | 平安科技(深圳)有限公司 | 一种诈骗电话识别方法、装置、计算机设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10692058B2 (en) * | 2017-09-06 | 2020-06-23 | Fair Isaac Corporation | Fraud detection by profiling aggregate customer anonymous behavior |
CN108566627A (zh) * | 2017-11-27 | 2018-09-21 | 浙江鹏信信息科技股份有限公司 | 一种利用深度学习识别诈骗短信的方法及系统 |
CN110798330A (zh) * | 2018-08-01 | 2020-02-14 | 中国移动通信集团浙江有限公司 | 一种电信诈骗库更新处理方法及装置 |
CN109615116B (zh) * | 2018-11-20 | 2020-12-29 | 中国科学院计算技术研究所 | 一种电信诈骗事件检测方法和检测系统 |
CN111278014A (zh) * | 2019-12-31 | 2020-06-12 | 中移(杭州)信息技术有限公司 | 一种防诈骗系统、方法、服务器及存储介质 |
CN113129010A (zh) * | 2020-01-10 | 2021-07-16 | 联洋国融(北京)科技有限公司 | 一种基于复杂网络模型的欺诈团伙挖掘系统及其挖掘方法 |
CN113645356A (zh) * | 2020-04-27 | 2021-11-12 | 国家计算机网络与信息安全管理中心 | 一种基于网内开卡行为分析的诈骗电话识别方法及系统 |
CN112150153A (zh) * | 2020-10-12 | 2020-12-29 | 中国农业银行股份有限公司 | 电信诈骗用户识别方法和装置 |
-
2022
- 2022-01-17 CN CN202210045845.7A patent/CN114066490B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924333A (zh) * | 2018-06-12 | 2018-11-30 | 阿里巴巴集团控股有限公司 | 诈骗电话识别方法、装置和系统 |
CN112291424A (zh) * | 2020-10-29 | 2021-01-29 | 上海观安信息技术股份有限公司 | 一种诈骗号码识别方法、装置、计算机设备及存储介质 |
CN113889118A (zh) * | 2021-09-27 | 2022-01-04 | 平安科技(深圳)有限公司 | 一种诈骗电话识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114066490A (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114066490B (zh) | 一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质 | |
CN110298663B (zh) | 基于序列宽深学习的欺诈交易检测方法 | |
CN107222865A (zh) | 基于可疑行为识别的通讯诈骗实时检测方法和系统 | |
CN112987675B (zh) | 一种异常检测的方法、装置、计算机设备和介质 | |
CN109116299B (zh) | 一种指纹定位方法、终端、计算机可读存储介质 | |
CN112581265A (zh) | 一种基于AdaBoost的互联网金融客户申请欺诈检测方法 | |
CN113111930B (zh) | 一种端到端的以太坊钓鱼账户检测方法和系统 | |
CN111461784B (zh) | 一种基于多模型融合的欺诈行为检测方法 | |
CN112149887A (zh) | 一种基于数据时空特征的pm2.5浓度预测方法 | |
CN110072016A (zh) | 一种利用通话行为时域滤波实现不良语音分类的方法 | |
CN107944557B (zh) | 一种骚扰电话的识别方法 | |
CN109600520B (zh) | 骚扰电话号码识别方法、装置及设备 | |
CN115681821A (zh) | 用于智慧燃气设备管理的加臭自动控制方法和物联网系统 | |
CN116680613A (zh) | 基于多尺度度量学习的人类活动识别综合优化方法 | |
CN113163057A (zh) | 一种诈骗电话动态识别区间构建方法 | |
CN117152413A (zh) | 基于改进yolov7的火灾目标检测方法 | |
CN117081941A (zh) | 基于注意力机制的流量预测方法及其装置、电子设备 | |
CN108984773B (zh) | 数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备 | |
CN116186581A (zh) | 一种基于图脉冲神经网络的楼层识别方法及系统 | |
CN113923102B (zh) | 物联设备供电故障分析方法及装置 | |
CN111432364B (zh) | 一种基于径向基函数神经网络的非视距误差抑制方法 | |
CN113159395A (zh) | 一种基于深度学习的污水处理厂进水流量预测方法及系统 | |
CN109510903B (zh) | 一种识别国际诈骗号码的方法 | |
CN113645356A (zh) | 一种基于网内开卡行为分析的诈骗电话识别方法及系统 | |
CN118433330B (zh) | 一种利用大模型降低边端监控误报率的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |