CN113794805A - 一种goip诈骗电话的检测方法、检测系统 - Google Patents
一种goip诈骗电话的检测方法、检测系统 Download PDFInfo
- Publication number
- CN113794805A CN113794805A CN202111085799.5A CN202111085799A CN113794805A CN 113794805 A CN113794805 A CN 113794805A CN 202111085799 A CN202111085799 A CN 202111085799A CN 113794805 A CN113794805 A CN 113794805A
- Authority
- CN
- China
- Prior art keywords
- goip
- fraud
- data
- suspected
- mobile communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000010295 mobile communication Methods 0.000 claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000007405 data analysis Methods 0.000 claims description 23
- 230000011664 signaling Effects 0.000 claims description 23
- 230000006399 behavior Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 13
- 238000013136 deep learning model Methods 0.000 claims description 11
- 210000001503 joint Anatomy 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 239000006185 dispersion Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000019771 cognition Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42025—Calling or Called party identification service
- H04M3/42034—Calling party identification service
- H04M3/42059—Making use of the calling party identifier
Abstract
本申请公开了一种基于IP的全球移动通信系统GOIP诈骗电话的检测方法,该方法包括,分别获取移动通信网数据和互联网数据,利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码,对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码,将除仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码之外的剩余疑似GOIP诈骗号码判定为GOIP诈骗电话。本申请提高了GOIP诈骗电话检测的准确性,降低了误判率。
Description
技术领域
本发明涉及通信领域,特别地,涉及一种GOIP诈骗电话的检测方法。
背景技术
基于IP的全球移动通信系统GSM(GOIP,GSM Over IP)设备是近年来用于实施电信诈骗的一个重要手段。犯罪嫌疑人通过互联网发起呼叫至GOIP设备,再控制GOIP设备与所在地通信基站连接,以将呼叫电话拨出,受害者接到的电话虽来自当地,但实际与他们对话的诈骗人员则往往躲在海外。
一个典型的GOIP系统组网结构如图1所示。GOIP网关放置在本地,GOIP网关提供多个手机射频和基带硬件,从移动通信网络角度看过去,GOIP网关就好比是若干个手机终端。GOIP网关可以使用通常的家用宽带线路连接到互联网上,也可以通过移动通信上网卡(例如,4G上网卡)连接到互联网上。GOIP网关注册在互联网上的基于IP的语音VOIP(VoiceOver IP)服务器上。
犯罪嫌疑人使用手机拨号软件或电脑端的拨号软件拨打真实的被叫号码,拨号软件使用SIP协议发起呼叫,呼叫被路由到VOIP服务器上,VOIP服务器根据配置将呼叫路由到GOIP网关,GOIP网关完成互联网侧SIP消息和移动网的空口信令的转换并向移动网络发起始呼,通过GOIP网关实现了与被叫用户的通话。而从被叫用户看过去,呈现给被叫用户的主叫号码则是插在GOIP网关上的SIM卡的号码,这样主叫实现了身份隐藏。
目前,GOIP网关已经进化到机卡分离,也就是说,GOIP网关的射频硬件部分(即猫池)与卡池部分异地部署,如图中,猫池位于GOIP网关本体上,卡池位于GOIP网关本体之外的地方,猫池与卡池之间通过互联网实时通信。在建立呼叫时,猫池实时到卡池中获取一个手机号码。这样即使公安机关找到窝点查扣猫池,卡池也可以逃脱打击,逃脱了被公安机关同时查扣。
现有的基于GOIP的诈骗电话检测方法基本都是利用移动通信的呼叫记录,基于呼叫行为特征进行建模分析,所使用的呼叫行为特征大多是呼叫频次、被叫离散度、主被叫平衡比、同基站共轨迹等。该方法有一定的效果,但由于:一方面,犯罪嫌疑人有意识的反侦查反对抗,会不断尝试改变自己的呼叫行为,因此有可能绕过呼叫特征监测模型,造成漏检;另一方面,大量营销电话、骚扰电话等非诈骗电话的呼叫特性与GOIP设备所使用的呼叫特征很类似,模型难以区分,造成误检,因此带来后续大量的人工甄别的工作量。
发明内容
本发明提供了一种GOIP诈骗电话的检测方法,以提高GOIP诈骗电话检测的准确性。
本发明提供的GOIP诈骗电话的检测方法是这样实现的:
一种基于IP的全球移动通信系统GOIP诈骗电话的检测方法,该方法包括,
分别获取移动通信网数据和互联网数据,
利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码,
对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码,将除仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码之外的剩余疑似GOIP诈骗号码判定为GOIP诈骗电话。
较佳地,所述利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码,包括,
利用用于电话信令分类的第一模型,对移动通信网数据进行分类,以及,利用用于互联网流量分类的第二模型,对互联网数据进行分类,得到疑似GOIP诈骗号码,
其中,
第一模型、第二模型为训练后的深度学习模型。
较佳地,所述利用用于电话信令分类的第一模型,对移动通信网数据进行分类,包括,
从移动通信网数据中提取至少如下之一的特征:
表征GOIP设备标识信息合法性的设备指纹特征、表征电话呼叫属性的信令呼叫特征、基站位置特征、表征主被叫号码关联程度的社交特征、GOIP设备的号码特征、GOIP设备的开关机特征、表征GOIP设备的卡池与该GOIP设备标识对应关系的终端匹配特征,
其中,
信令呼叫特征包括呼叫频次、主叫占比、被叫省外归属占比、被叫号码离散度之一或其任意组合,
基站位置特征包括高危基站和/或基站轨迹,
社交特征包括,主被叫号码之间的历史通联关系、和/或呼叫平衡比,
GOIP设备的号码特征包括,沉默卡和/或新入网卡,
开关机特征包括,开关机时间、开关机位置、活跃时间之一或其任意组合;
对每一个号码进行特征离散化处理,形成该号码的特征向量;
多个号码构成特征向量矩阵;
将特征向量矩阵经过最大池化和扁平化处理后,输入至第一模型,
通过第一模型对输入的特征向量矩阵的处理,得到第一疑似GOIP诈骗号码。
较佳地,所述利用用于互联网流量分类的第二模型,对互联网流量数据进行分类,包括,
从互联网流量数据中提取至少如下之一的特征:互联网流量VoIP特征、VoIP呼叫特征、IP特征;
其中,VoIP呼叫特征包括,VoIP呼叫源IP地址、VoIP呼叫目的IP地址、源IP作为被叫方的会话次数、源IP作为主叫方的会话次数、目的IP作为被叫方的会话次数、目的IP作为主叫方的会话次数之一或其任意组合;
对每一个号码进行特征离散化处理,形成该号码的特征向量;
多个号码构成特征向量矩阵;
将特征向量矩阵经过最大池化和扁平化处理后,输入至第二模型,
通过第二模型对输入的特征向量矩阵的处理,得到第二疑似GOIP诈骗号码。
较佳地,所述对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码,将除仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码之外的剩余疑似GOIP诈骗号码判定为GOIP诈骗电话,包括,
将疑似诈骗号码在移动通信网数据中的呼叫会话与在互联网数据中的呼叫会话进行匹配,
如果呼叫会话满足在时间上相同、经过的网关相同、接入点位置相同、被叫号码相同至少之一或其任意组合,则判定为GOIP诈骗号码,否则,判定为单边数据,去除该呼叫会话对应的疑似GOIP诈骗号码。
较佳地,该方法进一步包括,
以标准通信协议与移动通信网进行信令和媒体对接,对疑似GOIP号码发起的呼叫进行语音采样,
对所采样的语音进行语音识别和/或语义理解,
根据语音识别和/或语义理解结果,判定该GOIP诈骗号码是否涉诈。
7、如权利要求1至5任一所述的检测方法,其特征在于,该方法进一步包括,以GOIP诈骗号码为线索,在移动通信网数据和互联网流量数据中进行数据溯源,锁定目标GOIP设备。
本发明还提供一种GOIP诈骗电话的检测系统,该系统包括,
数据采集装置,用于将移动通信网数据和互联网数据汇接入大数据分析平台,
大数据分析平台,用于利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码;对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码,将除仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码之外的剩余疑似GOIP诈骗号码判定为GOIP诈骗电话。
较佳地,该系统还包括,
语音采样装置,用于以标准通信协议与移动通信网进行信令和媒体对接,对疑似GOIP号码发起的呼叫进行语音采样,
识别装置,对所采样的语音进行语音识别和/或语义理解,根据语音识别和/或语义理解结果,判定该GOIP诈骗号码是否涉诈;
和/或
数据溯源装置,用于以GOIP诈骗号码为线索,在移动通信网数据和互联网流量数据中进行数据溯源,锁定目标GOIP设备。
本发明又提供一种用于GOIP诈骗电话检测的大数据分析平台,该平台用于利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码,对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码,将除仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码之外的剩余疑似GOIP诈骗号码判定为GOIP诈骗电话。
本申请提供的一种GOIP诈骗电话的检测方法,以采集、分析、采样、内容识别、研判、溯源、处置全流程工作机制,覆盖了GOIP诈骗电话治理工作全链条,提供一站式产品服务;利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码,通过对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的单边数据,从而将非诈骗号码予以排除,提高了GOIP诈骗电话检测的准确性,降低了误判率。
附图说明
图1是典型的GOIP系统组网结构的一种示意图。
图2为图2为本申请实施例GOIP诈骗电话的检测方法的一种流程示意图。
图3为本申请GOIP诈骗电话的检测方法的一种流程示意图。
图4为深度学习模型的一种示意图。
图5为本申请实施例GOIP诈骗电话检测系统的一种示意图。
图6为大数据分析平台的一种示意图。
具体实施方式
为了使本申请的目的、技术手段和优点更加清楚明白,以下结合附图对本申请做进一步详细说明。
本发明提出的一种GOIP诈骗电话检测方法,通过GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合的特征纬度,从设备认知、场景认知、内容认知三个认知角度,基于移动通信网数据和互联网数据进行特征提取、构建多维度认知模型,结合行为交叉比对、语音识别、语义分类等技术对GOIP诈骗号码、诈骗设备进行分析和检测,提高了对GOIP诈骗电话识别的准确率,降低了误判率。
参见图2所示,图2为本申请实施例GOIP诈骗电话的检测方法的一种流程示意图。该方法包括,
步骤201,分别获取移动通信网数据和互联网数据,
步骤202,利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码,
步骤203,对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码,将除仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码之外的剩余疑似GOIP诈骗号码判定为GOIP诈骗电话。
本实施例利用GOIP设备特征属性、GOIP呼叫行为特征属性,提高了疑似GOIP诈骗号码识别的准确性,通过过滤单边数据,进一步提高了GOIP诈骗号码的检测。
为便于理解本申请,以下以一具体实施例予以说明。
参见图3所示,图3为本申请GOIP诈骗电话的检测方法的一种流程示意图。基于移动通信网数据和互联网流量数据,进行如下处理:
步骤301,将移动通信网数据和互联网流量数据进行结构化处理,处理后保存至大数据分析平台,
其中,大数据分析平台为一应用程序,作为客户端可存储于服务器中,
所述移动通信网数据和互联网流量数据通过大数据分析平台与移动通信网之间的接口,汇总至大数据分析平台。
为了保证数据汇总过程的平稳性,解决数据浪涌和时延抖动带来的影响,可以采用分布式消息中间件技术,以订阅-消费机制,将需要存储至大数据分析平台的数据变为平稳数据流。
具体地,为了实现数据规整,采用流计算方法,从分布式消息中间件中消费原始数据流,对原始数据流进行数据规整归一化(结构化)后,重新注入分布式消息中间件中。当大数据分析平台订阅规整后的数据流,将规整后的归一化数据流消费入大数据分析平台。
步骤302,在大数据分析平台侧,将移动通信网数据输入至用于电话信令分类的第一模型,互联网流量数据输入至用于互联网流量分类的第二模型,分别进行分类,分别得到第一GOIP疑似诈骗号码和第二GOIP疑似诈骗号码,第一GOIP疑似诈骗号码和第二GOIP疑似诈骗号码的并集作为疑似诈骗号码。
其中,第一模型、第二模型为训练后的深度学习模型。例如,采用神经网络(ANN)构建的GoIP号码分类器。
参见图4所示,图4为深度学习模型的一种示意图。
模型的输入层是特征向量矩阵;其中,特征向量表示为【x1,x2,…xi...xn】T,i=1~n,n为特征数量;
模型的隐藏层为g(xj)=∑(wijxi)+bj,其中,g(xj)代表了隐藏层的第j个节点,wij是第i个输入层节点到第j个隐藏层节点的连接权重,bj是第j个隐藏层节点的偏置,隐藏层节点输出采用激活函数,g’(xi)=ReLU(g(xi));
模型的输出层为oi=∑(w’ig’(xi))+b’i,i=1~k,k为隐藏层节点数,w’i是第i个隐藏层节点到输出层节点的连接权重,b’i是第i个输出层节点的偏置。输出层输出采用sigmoid函数,最终输出结果为号码属于疑似诈骗电话号码的概率值,p=sigmoid(oi)。
利用反向传播算法对训练集数据进行训练,最终得到误差函数小于ε的wij、w’i、bj、b’i,从而得到训练后的深度学习模型。
对于特征向量矩阵,是这样确定的:
对于第一模型,在对深度学习模型进行训练或利用训练后的深度学习模型进行分类时,从移动通信网数据中提取至少如下之一的特征:
表征GOIP设备标识信息合法性的设备指纹特征、表征电话呼叫属性的信令呼叫特征、基站位置特征、表征主被叫号码关联程度的社交特征、GOIP设备的号码特征、GOIP设备的开关机特征、表征GOIP设备的卡池与该GOIP设备标识对应关系的终端匹配特征,
其中,
信令呼叫特征包括呼叫频次、主叫占比、被叫省外归属占比、被叫号码离散度等之一或其任意组合,
基站位置特征包括高危基站和/或基站轨迹等,
社交特征包括,主被叫号码之间的历史通联关系、和/或呼叫平衡比等,
GOIP设备的号码特征包括,沉默卡和/或新入网卡等,
开关机特征包括,开关机时间、开关机位置、活跃时间等之一或其任意组合。
对于第二模型,在对深度学习模型进行训练或利用训练后的深度学习模型进行分类时,从互联网流量数据中提取至少如下之一的特征:互联网流量VoIP特征、VoIP呼叫特征,IP特征;
其中,VoIP呼叫特征包括,VoIP呼叫源IP地址、VoIP呼叫目的IP地址、源IP在设定时间段内作为被叫方的会话次数、源IP在设定时间段内作为主叫方的会话次数、目的IP在设定时间段内作为被叫方的会话次数、目的IP在设定时间段内作为主叫方的会话次数之一或其任意组合;
IP特征包括境外IP等,
提取特征时,结合GoIP设备的实际使用特点,在统计呼叫特征、社交特征、号码特征、开关机特征、终端匹配特征时,以多卡同位置共同使用的特征为约束进行挖掘,即考虑群体共有特征,而不是单个号码独有特征。
提取特征后,对每一个号码进行特征离散化处理,形成该号码的特征向量;多号码构成特征向量矩阵。将特征向量矩阵经过最大池化和扁平化处理后,作为模型输入层输入数据。
步骤303,将疑似诈骗号码在移动通信网数据和互联网流量数据中进行交叉比对,找出同时贯通移动通信网和互联网、具有呼叫会话同时、同质、同位置、同被叫通信行为的号码,以便过滤掉只有单侧单边数据的疑似诈骗号码,从而极大限度地去掉营销电话、骚扰电话等干扰因素。
鉴于GOIP诈骗电话既占用移动通信网资源又占用互联网流量资源,故而,在该步骤中,将移动通信网数据中具有该疑似诈骗号码的呼叫会话和互联网流量数据中具有该疑似诈骗号码的呼叫会话进行匹配,如果呼叫会话满足在时间上相同(同时)、经过的网关相同(同质)、接入点位置相同(同位置)、被叫号码相同(同被叫)至少之一或其任意组合,则判定为疑似诈骗号码,否则,判定为单侧单边数据,即,呼叫会话要么为移动通信网中的呼叫,要么为互联网中的呼叫,例如,以微信方式的呼叫为互联网中的呼叫。
步骤304,对进行了过滤处理的疑似诈骗号码的通话进行语音采样,通过语音识别、和/或语义理解等方式对通话内容进行识别,深度地研判疑似诈骗号码,以确定诈骗号码。
例如,将所采样的语音样本转换为文本,利用自然语言处理对文本进行内容识别,识别涉诈关键词、上下文语义等,从而判定语音样本是否涉诈,以进一步得到诈骗号码。
又例如,对所采样的语音样本进行语音识别,将语音识别结果与预先存储的涉诈语音识别结果进行比对,如果与涉诈语音识别结果一致,则判定为诈骗号码。
较佳地,利用主叫签约,可获得通话的语音采样。
步骤305,对所确定的诈骗号码进行数据溯源,以锁定目标GOIP设备。
以诈骗号码为线索,在原始移动通信网数据和互联网流量数据中进行数据溯源,得到目标GOIP设备信息,包括且不限于设备位置、设备安装时间、宽带开办地、宽带开办人、电话卡开办人等信息,用于处置打击。
参见图5所示,图5为本申请实施例GOIP诈骗电话检测系统的一种示意图。该系统包括,
数据采集装置,用于将移动通信网数据和互联网流量数据进行类型规整、格式转换、取值归一化后汇接入大数据分析平台(如HDFS)。其中,移动通信网数据可以通过例如A接口呼叫记录、Gm接口呼叫记录获得,互联网流量数据可以通过例如S1-U接口记录、固网流量日志获得;
所应理解的是,所述类型规整、格式转换、取值归一化的结构化处理可以由大数据分析平台处理。
大数据分析平台,用于对汇入大数据分析平台的移动通信网数据和互联网流量数据,利用训练后的深度学习模型,进行建模分析,得到疑似GOIP号码。大数据分析平台包括数据特征提取、模型构建、行为交叉比对等功能。
语音采样装置,用于以标准通信协议与移动通信网进行信令和媒体对接,对疑似GOIP号码发起的呼叫电话进行语音采样,较佳地,可以通过客服系统CRM进行签约,签约信息存储于HLR/HSS中,这样,对于涉及签约用户的疑似GOIP号码的电话可进行语音采样。
语音采样装置是一个通信呼叫平台,接入移动通信网内,支持2G、3G和4G网络和GSM、CDMA、LTE等各种网络制式,可支持呼叫的建立和释放。
语音采样装置包括信令接入、媒体接入、通话录音、呼叫控制等功能模块。其中,
信令接入模块提供标准控制面信令接口,以使得语音采样装置与移动通信网对接,用于控制面信令的建立处理;
媒体接入模块提供标准用户面接口与移动通信网对接,用于用户面信令和数据包的建立、转发处理;
通话录音模块用于在呼叫建立后对通话进行录音;
呼叫控制模块用于执行业务逻辑。
识别装置,用于对语音采样装置采集的疑似GOIP号码的语音样本进行内容识别,以识别出其中涉诈语音,进而对GOIP号码进行研判。
识别装置包括语音识别和语义理解两个功能模块。语音识别(ASR)采用深度学习卷积神经网络(CNN),完成语音到文本的连续转换功能;语义理解采用自然语言处理(NLP)对转换文本进行处理,深度识别涉诈关键词、上下文语义,研判语音样本是否涉诈,从而进一步研判得到诈骗GOIP号码。
数据溯源装置,用于以识别得到的GOIP诈骗号码为线索,在原始移动通信网数据和互联网流量数据中进行数据溯源,得到目标GOIP设备信息,包括窝点、设备标识、安装时间、宽带开办地、宽带开办人、电话卡开办人等信息,用于处置打击。
参见图6所示,图6为大数据分析平台(客户端)的一种示意图。大数据分析平台包括,
数据结构化处理模块,用于将移动通信网数据和互联网流量数据进行类型规整、格式转换、取值归一化处理,得到结构化的移动通信网数据和互联网流量数据,
数据库模块,用于存储结构化的移动通信网数据和互联网流量数据;
第一分类器,用于通过电话信令分类模型,对数据库中的移动通信网数据进行GOIP号码识别,得到第一GOIP疑似诈骗号码,
第二分类器,用于通过互联网流量分类模型,对互联网数据进行GOIP号码识别,得到第二GOIP疑似诈骗号码,
其中,第一GOIP疑似诈骗号码和第二GOIP疑似诈骗号码的并集为GOIP疑似诈骗号码;
交叉比对模块,用于将GOIP疑似诈骗号码在移动通信网数据和互联网流量数据中进行交叉比对,找出同时贯通移动通信网和互联网、具有呼叫会话同时、同质、同位置、同被叫通信行为之一或其任意组合的号码,作为单边数据,将剩余的GOIP疑似诈骗号码作为GOIP诈骗号码。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现GOIP诈骗电话检测方法的步骤。
对于装置/网络侧设备/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种基于IP的全球移动通信系统GOIP诈骗电话的检测方法,其特征在于,该方法包括,
分别获取移动通信网数据和互联网数据,
利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码,
对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码,将除仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码之外的剩余疑似GOIP诈骗号码判定为GOIP诈骗电话。
2.如权利要求1所述的检测方法,其特征在于,所述利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码,包括,
利用用于电话信令分类的第一模型,对移动通信网数据进行分类,以及,利用用于互联网流量分类的第二模型,对互联网数据进行分类,得到疑似GOIP诈骗号码,
其中,
第一模型、第二模型为训练后的深度学习模型。
3.如权利要求2所述的检测方法,其特征在于,所述利用用于电话信令分类的第一模型,对移动通信网数据进行分类,包括,
从移动通信网数据中提取至少如下之一的特征:
表征GOIP设备标识信息合法性的设备指纹特征、表征电话呼叫属性的信令呼叫特征、基站位置特征、表征主被叫号码关联程度的社交特征、GOIP设备的号码特征、GOIP设备的开关机特征、表征GOIP设备的卡池与该GOIP设备标识对应关系的终端匹配特征,
其中,
信令呼叫特征包括呼叫频次、主叫占比、被叫省外归属占比、被叫号码离散度之一或其任意组合,
基站位置特征包括高危基站和/或基站轨迹,
社交特征包括,主被叫号码之间的历史通联关系、和/或呼叫平衡比,
GOIP设备的号码特征包括,沉默卡和/或新入网卡,
开关机特征包括,开关机时间、开关机位置、活跃时间之一或其任意组合;
对每一个号码进行特征离散化处理,形成该号码的特征向量;
多个号码构成特征向量矩阵;
将特征向量矩阵经过最大池化和扁平化处理后,输入至第一模型,
通过第一模型对输入的特征向量矩阵的处理,得到第一疑似GOIP诈骗号码。
4.如权利要求2所述的检测方法,其特征在于,所述利用用于互联网流量分类的第二模型,对互联网流量数据进行分类,包括,
从互联网流量数据中提取至少如下之一的特征:互联网流量VoIP特征、VoIP呼叫特征、IP特征;
其中,VoIP呼叫特征包括,VoIP呼叫源IP地址、VoIP呼叫目的IP地址、源IP作为被叫方的会话次数、源IP作为主叫方的会话次数、目的IP作为被叫方的会话次数、目的IP作为主叫方的会话次数之一或其任意组合;
对每一个号码进行特征离散化处理,形成该号码的特征向量;
多个号码构成特征向量矩阵;
将特征向量矩阵经过最大池化和扁平化处理后,输入至第二模型,
通过第二模型对输入的特征向量矩阵的处理,得到第二疑似GOIP诈骗号码。
5.如权利要求1所述的检测方法,其特征在于,所述对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码,将除仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码之外的剩余疑似GOIP诈骗号码判定为GOIP诈骗电话,包括,
将疑似诈骗号码在移动通信网数据中的呼叫会话与在互联网数据中的呼叫会话进行匹配,
如果呼叫会话满足在时间上相同、经过的网关相同、接入点位置相同、被叫号码相同至少之一或其任意组合,则判定为GOIP诈骗号码,否则,判定为单边数据,去除该呼叫会话对应的疑似GOIP诈骗号码。
6.如权利要求1至5任一所述的检测方法,其特征在于,该方法进一步包括,
以标准通信协议与移动通信网进行信令和媒体对接,对疑似GOIP号码发起的呼叫进行语音采样,
对所采样的语音进行语音识别和/或语义理解,
根据语音识别和/或语义理解结果,判定该GOIP诈骗号码是否涉诈。
7.如权利要求1至5任一所述的检测方法,其特征在于,该方法进一步包括,以GOIP诈骗号码为线索,在移动通信网数据和互联网流量数据中进行数据溯源,锁定目标GOIP设备。
8.一种GOIP诈骗电话的检测系统,其特征在于,该系统包括,
数据采集装置,用于将移动通信网数据和互联网数据汇接入大数据分析平台,
大数据分析平台,用于利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码;对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码,将除仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码之外的剩余疑似GOIP诈骗号码判定为GOIP诈骗电话。
9.如权利要求8所述的检测系统,其特征在于,该系统还包括,
语音采样装置,用于以标准通信协议与移动通信网进行信令和媒体对接,对疑似GOIP号码发起的呼叫进行语音采样,
识别装置,对所采样的语音进行语音识别和/或语义理解,根据语音识别和/或语义理解结果,判定该GOIP诈骗号码是否涉诈;
和/或
数据溯源装置,用于以GOIP诈骗号码为线索,在移动通信网数据和互联网流量数据中进行数据溯源,锁定目标GOIP设备。
10.一种用于GOIP诈骗电话检测的大数据分析平台,其特征在于,该平台用于利用GOIP设备特征属性、GOIP呼叫行为特征属性、通话内容语义特征属性之一或其任意组合,对移动通信网数据和互联网数据,分别进行号码识别,得到疑似GOIP诈骗号码,对疑似GOIP诈骗号码的移动通信网数据和/或互联网数据进行分析,识别出仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码,将除仅具有移动通信网数据或仅具有互联网数据的疑似GOIP诈骗号码之外的剩余疑似GOIP诈骗号码判定为GOIP诈骗电话。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111085799.5A CN113794805A (zh) | 2021-09-16 | 2021-09-16 | 一种goip诈骗电话的检测方法、检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111085799.5A CN113794805A (zh) | 2021-09-16 | 2021-09-16 | 一种goip诈骗电话的检测方法、检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113794805A true CN113794805A (zh) | 2021-12-14 |
Family
ID=79183563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111085799.5A Pending CN113794805A (zh) | 2021-09-16 | 2021-09-16 | 一种goip诈骗电话的检测方法、检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113794805A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114499996A (zh) * | 2021-12-30 | 2022-05-13 | 天津市国瑞数码安全系统股份有限公司 | 一种基于VoIP行为特征的疑似有害网关发现方法及系统 |
CN114826735A (zh) * | 2022-04-25 | 2022-07-29 | 国家计算机网络与信息安全管理中心 | 一种基于异构神经网络技术的VoIP恶意行为检测方法及系统 |
CN115051969A (zh) * | 2021-12-29 | 2022-09-13 | 中国电信股份有限公司 | 一种goip诈骗窝点溯源方法、装置、电子设备和存储介质 |
CN115278687A (zh) * | 2022-07-27 | 2022-11-01 | 联通(山东)产业互联网有限公司 | 一种基于时空网络和图算法的电话号码诈骗检测的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111741472A (zh) * | 2020-08-07 | 2020-10-02 | 北京微智信业科技有限公司 | 一种GoIP诈骗电话识别方法、系统、介质及设备 |
US20210029536A1 (en) * | 2019-07-23 | 2021-01-28 | Jpmorgan Chase Bank, N.A. | Method and system for low density hosted telephony regulatory compliance |
CN112738807A (zh) * | 2020-12-31 | 2021-04-30 | 恒安嘉新(北京)科技股份公司 | 发现有害goip设备的方法、装置、设备、及存储介质 |
-
2021
- 2021-09-16 CN CN202111085799.5A patent/CN113794805A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210029536A1 (en) * | 2019-07-23 | 2021-01-28 | Jpmorgan Chase Bank, N.A. | Method and system for low density hosted telephony regulatory compliance |
CN111741472A (zh) * | 2020-08-07 | 2020-10-02 | 北京微智信业科技有限公司 | 一种GoIP诈骗电话识别方法、系统、介质及设备 |
CN112738807A (zh) * | 2020-12-31 | 2021-04-30 | 恒安嘉新(北京)科技股份公司 | 发现有害goip设备的方法、装置、设备、及存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115051969A (zh) * | 2021-12-29 | 2022-09-13 | 中国电信股份有限公司 | 一种goip诈骗窝点溯源方法、装置、电子设备和存储介质 |
CN115051969B (zh) * | 2021-12-29 | 2023-12-26 | 中国电信股份有限公司 | 一种goip诈骗窝点溯源方法、装置、电子设备和存储介质 |
CN114499996A (zh) * | 2021-12-30 | 2022-05-13 | 天津市国瑞数码安全系统股份有限公司 | 一种基于VoIP行为特征的疑似有害网关发现方法及系统 |
CN114826735A (zh) * | 2022-04-25 | 2022-07-29 | 国家计算机网络与信息安全管理中心 | 一种基于异构神经网络技术的VoIP恶意行为检测方法及系统 |
CN114826735B (zh) * | 2022-04-25 | 2023-11-03 | 国家计算机网络与信息安全管理中心 | 一种基于异构神经网络技术的VoIP恶意行为检测方法及系统 |
CN115278687A (zh) * | 2022-07-27 | 2022-11-01 | 联通(山东)产业互联网有限公司 | 一种基于时空网络和图算法的电话号码诈骗检测的方法 |
CN115278687B (zh) * | 2022-07-27 | 2023-08-15 | 联通(山东)产业互联网有限公司 | 一种基于时空网络和图算法的电话号码诈骗检测的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109451182B (zh) | 一种诈骗电话的检测方法和装置 | |
CN109600752B (zh) | 一种深度聚类诈骗检测的方法和装置 | |
US10410636B2 (en) | Methods and system for reducing false positive voice print matching | |
CN113794805A (zh) | 一种goip诈骗电话的检测方法、检测系统 | |
EP3158719B1 (fr) | Procede et systeme de filtrage d'appels telephoniques entrants indesirables | |
CN106550155B (zh) | 对可疑号码进行诈骗样本甄别归类及拦截的方法及系统 | |
CN109819127B (zh) | 骚扰电话的管理方法和系统 | |
CN107331385A (zh) | 一种骚扰电话的识别与拦截方法 | |
CN111131593B (zh) | 骚扰电话识别方法及其装置 | |
CN106936997B (zh) | 一种基于社交关系图谱的垃圾语音识别方法和系统 | |
CN106936971B (zh) | 一种来电人信息提示系统及提示方法 | |
CN111128241A (zh) | 语音通话的智能质检方法及系统 | |
CN112511696A (zh) | 呼叫中心ai引擎不良内容鉴别系统及方法 | |
US8483672B2 (en) | System and method for selective monitoring of mobile communication terminals based on speech key-phrases | |
WO2015096429A1 (zh) | 通话声音识别方法及装置 | |
CN111246008A (zh) | 一种电话助理的实现方法、系统及装置 | |
US20220224793A1 (en) | Systems and methods of gateway detection in a telephone network | |
CN110167030B (zh) | 识别骚扰电话的方法、装置、电子设备和存储介质 | |
CN110705926A (zh) | 一种物流对象配送信息的获取方法、装置和系统 | |
CN109151229A (zh) | 异常呼叫自动识别预警系统及其工作方法、呼叫中心系统 | |
JP2016071068A (ja) | 通話解析装置、通話解析方法および通話解析プログラム | |
CN111131627B (zh) | 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质 | |
CN114710591B (zh) | 一种骚扰诈骗电话的防范方法及系统 | |
CN107645613A (zh) | 服务转接的方法和装置 | |
US11606461B2 (en) | Method for training a spoofing detection model using biometric clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |