CN109615116B - 一种电信诈骗事件检测方法和检测系统 - Google Patents
一种电信诈骗事件检测方法和检测系统 Download PDFInfo
- Publication number
- CN109615116B CN109615116B CN201811381191.5A CN201811381191A CN109615116B CN 109615116 B CN109615116 B CN 109615116B CN 201811381191 A CN201811381191 A CN 201811381191A CN 109615116 B CN109615116 B CN 109615116B
- Authority
- CN
- China
- Prior art keywords
- fraud
- graph
- abnormal
- dynamic
- event detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 230000002159 abnormal effect Effects 0.000 claims abstract description 88
- 238000004891 communication Methods 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000006399 behavior Effects 0.000 claims abstract description 19
- 238000005065 mining Methods 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 8
- 238000010586 diagram Methods 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 9
- 230000000903 blocking effect Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 7
- 230000003068 static effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 101100383920 Fragaria ananassa MCSI gene Proteins 0.000 description 1
- 208000034188 Stiff person spectrum disease Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
- H04W12/128—Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种电信诈骗事件检测方法和检测系统,其利用构建的电信诈骗事件检测模型来预测诈骗模式。诈骗事件检测模型的构建包括:基于已有的诈骗行为数据建立反映不同时间序列通联模式的动态通联图;基于所述动态通联图挖掘存在诈骗行为的异常子图序列,其中,所述异常子图序列由异常节点、与异常节点关联的节点和边构成;基于所述异常子图序列训练多分类模型,获得用于检测多种诈骗模式的电信诈骗事件检测模型。利用本发明的检测方法和检测系统,能够快速、准确的预测诈骗行为。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种电信诈骗事件检测方法和检测系统。
背景技术
目前,电信诈骗一般以团伙作案为基础,通常利用号码篡改、伪装等方式,针对特定的个体在一段时间内开展有套路、有剧本的精准诈骗活动,多点动态通联诈骗甚至跨境实施,单一的国际关口的监测都无法还原欺诈通联模式的变化。这类欺诈活动通常会造成重大损失,具有极高的社会危害性。在此过程中,诈骗群体对应的通联关系以及伴随的呼叫模式也会随之发生动态演变。尽管传统的模板匹配、信令的统计分析和单纯的国际关口检测等传统的犯罪检测方法能够在一定程度上遏制一些传统的诈骗事件,但是诈骗团伙的诈骗方式和伪装在不断的演化,诈骗形式复杂多样,而传统针对单点欺诈的电话诈骗检测方法又存在数据采集速度慢、难以整理庞大数据量的问题,最终导致传统的检测方法效率比较低。
然而,在现有技术中,还没有针对团伙的、具有复杂诈骗模式及通联关系的、多点跨境实施的、具有动态演化特征的欺诈手法的分析挖掘能力。因此,急需在现有静态、单通话的信令分析基础上,研究疑似诈骗电话的通联关系结构的动态演化模式,融合利用国际和省际通联数据,更有效地检测识别诈骗团伙的行为手段,并且在结构的演化过程中检测分析各类诈骗事件(包括事件过程、欺诈及受害群体特征等),从而为公安部门、通信监管部门提供决策支持,将诈骗管控的关口前移,提升对于新型诈骗的防范能力。
因此,需要对现有技术进行改进,以提供更有效的诈骗事件检测方法。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种电信诈骗事件检测方法和检测系统,能够基于动态通联图准确快速的检测电信诈骗事件。
根据本发明的第一方面,提供了一种构建电信诈骗事件检测模型的方法。该方法包括以下步骤:
步骤1:基于已有的诈骗行为数据建立反映不同时间序列通联模式的动态通联图;
步骤2:基于所述动态通联图挖掘存在诈骗行为的异常子图序列,其中,所述异常子图序列由异常节点、与异常节点关联的节点和边构成;
步骤3:基于所述异常子图序列训练多分类模型,获得用于检测多种诈骗模式的电信诈骗事件检测模型。
在一个实施例中,步骤2包括:
步骤21:基于所述动态通联图的结构特征、动态演变特征或节点特征中的至少一项初步挖掘异常子图序列;
步骤22:基于所述初步挖掘的异常子图序列训练二分类模型,获得经过二次筛选的异常子图序列,作为所述存在诈骗行为的异常子图序列。
在一个实施例中,步骤21中,在基于所述动态通联图的动态演变特征初步挖掘异常子图序列的情况下,包括:
步骤211:将所述动态通联图中转换为自我中心网络图;
步骤212:基于不同时间序列的自我中心网络图提取图结构距离和图编辑距离;
步骤213:基于所述图结构距离和图编辑距离获得初步挖掘的异常子图序列。
在一个实施例中,在步骤21中,在基于所述动态通联图的结构特征初步挖掘异常子图序列的情况下,基于节点度数、中介中心性、接近中心性、聚类系数中的至少一项获得初步挖掘的异常子图序列。
在一个实施例中,步骤22包括:
以所述初步挖掘的异常子图序列作为训练数据,标记为异常的数据作为正样本,标记为正常的数据作为负样本,结合长短时记忆网络训练二分类模型。
在一个实施例中,本发明的方法还包括:
步骤4:当出现新型诈骗模式时,利用自组织增量学习神经网络通过增量学习来更新所构建的电信诈骗事件检测模型。
在一个实施例中,所述动态通联图的节点表示用户信息,边表示用户间的呼叫关系,边的权重表示用户间的呼叫频率。
根据本发明的第二方面,提供了一种电信诈骗事件检测方法。该方法包括:
步骤81:获取电信数据并构建动态通联图;
步骤82:基于所构建的动态通联图,利用本发明所构建的电信诈骗事件检测模型来预测诈骗模式。
根据本发明的第三方面,提供了一种电信诈骗事件检测系统。该系统包括:
数据采集模块:获取采集电信数据并构建动态通联图;
特征提取模块:基于所构建的动态通联图提取所述动态通联图的结构特征、动态演变特征或节点特征中的至少一项;
诈骗事件检测模块:基于提取的特征,利用本发明所构建的电信诈骗事件检测模型来预测诈骗模式。
在一个实施例中,本发明的系统还包括增量学习模块和诈骗预警阻断模块,其中,所述增量学习模块用于更新所构建的电信诈骗事件检测模型,所述诈骗预警阻断模块根据所述诈骗事件检测模块输出的诈骗模式进行疑似诈骗事件推荐和发现新型诈骗模式。
与现有技术相比,本发明的优点在于:通过对动态通联关系结构进行深度特征提取能够挖掘在给定连续时间序列的电信网络通联图中找出有效的找出异常节点;基于异常节点通过模型训练,能够获得面向不同诈骗类型的检测模型;通过增量学习训练,能够实现对电信诈骗模型的快速迭代更新,减少重复训练过程。本发明提供的诈骗事件检测方法能够快速、准确的检测不同类型的诈骗模式。
附图说明
以下附图仅对本发明作示意性的说明和解释,并不用于限定本发明的范围,其中:
图1是根据本发明一个实施例的电信诈骗事件检测方法的流程图;
图2是电话网络通联图的示意图;
图3是动态EgoNet网络的示意图;
图4是基于LSTM筛选异常信息的过程示意图;
图5是残差网络ResNet块结构图;
图6是SOINN的两层竞争示意图
图7是根据本发明一个实施例的电信诈骗事件检测系统的示意图;
图8是图7的电信诈骗事件检测系统中诈骗预警阻断模块的反馈机制流程图。
具体实施方式
为了使本发明的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供了一种电信诈骗事件检测方法,简言之,该方法基于电信网络的动态通联图提取关键特征,利用关键特征训练来获得诈骗模式检测模型,并根据获得的检测模型对新的动态通联图进行检测,以预测电信诈骗事件。具体地,参见图1所示,本发明的实施例包括以下步骤、
步骤S110,采集已有的诈骗行为数据,构建动态通联图。
在此步骤,采集通信网络中已有的历史通信数据,构建连续时间序列的动态通联图。在本文中,动态通联图可用于反映不同时刻通信人(或称用户)之间的通信关系和通信人的信息等。采集的通信数据例如包括通信时长、通信人的身份地址、手机号、地理位置、社会关系、通信内容中的关键词等。
在一个实施例中,移动数据端通过接收短信消息、来电消息等获取通信数据。在构建动态通联图时,以例如通信时长、通信人的身份地址或通信内容中的关键词等作为整个通信网络的节点,而通信人之间的通联关系、地理距离等信息作为通信网络的边数据。通过这种方式,可将同一个时间段内的通信关系抽象为一个静态图模型,而连续多个时间段内的静态图模型的数据变化可作为动态通联图。
参见图2示意的通联图,其由节点和边构成,其中的数字用于标识节点和边,各节点和各边的数据可来自于已对历史数据进行标记的数据库,即已经标记了那些数据属于诈骗数据,以及对应那种诈骗模式。
对于动态通联图的构建,可根据大数据关联属性数据,基于国际和省级层面的呼叫相关数据,将传统电信网络的呼叫关系用通联关系结构图(简称通联图)来描述,其中,通联图的节点表示用户,通联图的边代表用户间的呼叫关系,边的权重则用来描述用户间的呼叫频率(次数)。随着时间的演化,用户之间的呼叫关系是复杂动态变化的,因而,可通过如图2示意的动态的有向带权图来表示电信网络中的通联关系。
步骤S120,基于构建的动态通联图初步挖掘异常子图序列。
动态通联图能够反映不同时间段内图结构的演变,通过提取反映图结构演变的关键特征来判断发生异常的子图序列。其中,提取的动态通联图的关键特征包括动态通联图特征和通联图的节点特征,而动态通联图特征包括通联图的结构特征和通联图的动态演变特征等;通联图的节点特征包括文本、语音、行为等信令数据等。
在此步骤S120中,通过从动态通联图提取关键特征来初步挖掘异常节点。在本文中,异常节点是指可能存在诈骗行为的用户。
在一个实施例中,根据动态通联图的结构特征初步筛选异常子图序列。
例如,动态通联图的结构特征包括节点度数(例如节点入度、节点出度)、入边权重和、出边权重和、中介中心性、接近中心性、聚类系数等。
节点度数,表示连接到某一节点的边的数量,由于动态通联图是有向图,所以节点入度表示指向该节点即入边的数目,节点的出度表示该节点相应出边的数目。高入度点可以理解为可信赖的关键节点,高出度的节点可以理解为活跃节点。在电信网络中,高出度点可能是异常节点。在实际应用中,可取节点出度和节点入度的正则化表示,以易于计算。
权重和,表示连接到某一节点的边的权重之和,相应地,入边权重和是指所有入边的权重之和,出边权重和是指所有出边的权重之和。
中介中心性,表示对于通联图中任意两个节点的所有最短路径,如果这些最短路径都经过了某个节点,则认为该节点的中介中心性高。在电信网络中具有高中介中心性的节点可能是异常节点,这是由于犯罪团伙很可能同时对多个社交团体中的成员进行诈骗。
接近中心性,表示如果通联图中某一节点到其他节点的最短距离都很小,则认为该节点的接近中心性高,具有高接近中心性的节点更利于向其他节点传播消息。在电信网络中,具有高接近中心性的节点可以解释为诈骗节点。
聚类系数,表示通联图中节点聚集程度。在现实的电信网络中,尤其是在特定的网络中,由于具有相对高密度的连接点,节点总是趋向于建立一组严密的组织关系。在现实世界的网络中,这种可能性往往比两个节点之间随机设立了一个连接的平均概率更大。这种相互关系可以利用聚类系数进行量化表示,聚类系数越高,意味着网络中三角连接的数量越多。
综上,可利用上述的节点度数、权重和、中介中心性、接近中心性、聚类系数等中的一项或多项来筛选异常节点。根据本发明的一个实施例,可根据对历史数据的分析和电信网络的规模来设置筛选阈值,例如,节点度数大于预定阈值时,将其标记为异常节点。
在另一实施例中,基于通联图的动态演变特征初步筛选异常子图序列。
例如,对于动态通联图,提取反映图结构演变的关键特征,从而获得通联图的动态变化程度。
在一个示例中,采用基于距离的EgoNet网络(自我中心网络)来提取动态通联图的关键特征。参见图3所示,通联图中某一节点的EgoNet,其包括该节点(即黑色实点)、其邻居节点(即周围的空心点)及连接这些节点的边的子图,通过对该节点提取不同时序的EgoNet网络并测量动态相邻时序图之间的图距离,能够反映通联图结构的动态变化程度,两张图拓扑结构差异越大,相应的图距离也就越大,所述图距离包括图结构距离和图编辑距离。
图结构距离,对于普通的图结构,给定有向图G=(Vi,Ei)和H=(Vj,Ej),采用子图同构算法提取两者的最大公共子图MCS(即两个图的节点和边的交集),表示为F=mcs(G,H)。在确定MCS的基础上,图结构距离可以表示为MCS的节点数目与两个图G和H的节点并集数目的比值。由于公共子图越接近,图距离越小,所以,可用1减去对应比值,表示为:
其中,G、H分别表示两个有向图,而Vi、Vj分别表示有向图G、H的点的集合,Ei、Ej分别表示有向图G、H边的集合。需说明的是,在边具有更大影响作用的图结构中,可以将公式(1)中节点的数目替换为边的数目,进行图结构距离的度量。
图编辑距离,用于度量两个图的相似程度。例如,采用纠错图匹配算法,通过增加、删除边和节点,以及权重的替换,使用最少的操作将输入图转换为参考图的图结构,由此获得的最小操作成本即为两个图之间编辑距离的度量。例如,给定图结构G=(Vi,Ei)和H=(Vj,Ej)是时间序列上连续的两个通联图,用于描述该动态图在连续时间间隔内结构演变的图编辑距离d(G,H)可表示为:
d(G,H)=|VG|+|VH|-2|VG∩VH|+|EG|+|EH|-2|EG∩EH| (2)
其中,Vi是有向图G的节点i的属性,Vj是有向图H的节点j的属性,两个节点的交集表示两个节点的共有属性,这里的属性指上文中提到的手机号、身份地址等;同理,Ei是有向图G的边i的属性,Ej是有向图H的边j的属性,交集是边的共有属性,这里的属性是上文中提到的通信距离、通话时长等信息。
在本发明中的实施例中,利用图结构距离和图编辑距离这两种特征,能够有效度量两个图的相似程度。对于动态通联图,如果相邻时间序列,图变化较大,则该时间点的子图可能是导致异常发生的区域,该子图的动态变化过程即为结构演变的关键特征。
在又一实施例中,根据通联图的节点特征初步筛选异常子图序列。
通联节点数据包括通话地点、通话时间、通话时长、通话频率、通话用户身份信息、文字和语音通话内容等。对通联节点的特征提取包括行为分析、文本分析、语音分析这三种特征的提取。
行为分析是基于普通数据针对诈骗通话统计分析诈骗电话的通话时长、拨入拨出情况、连续通话时间长短、通话频率等情况进行处理。
文本分析是采用大数据文本挖掘方法针对短信诈骗数据做分析,使用中英文分词工具对短信文本进行词汇切割,然后提取出诈骗类短信中的高频词和标记信息等敏感信息作为特征。
语音分析采用机器学习中自然语言处理技术针对电话诈骗数据做分析,针对通话记录进行词法分析、语法分析、情感分析,在对通话记录理解的层面上,进一步使用机器学习中语义理解技术,深度挖掘诈骗通话记录中的语义特征,识别出语音通话的主题、通话的场景等信息,例如对所有呼叫的前几秒音频进行分析,结合出现频率等特征找出可能诈骗语音模板,并将其他正常呼叫的前几秒音频与该模板进行相似度判断。通过上述对文本分析语音分析,能够提取关键的特征,并显著降低后续节点特征学习的复杂度。
综上,在此步骤S120中,初步进行异常节点检测的目的是,寻找数据中显著区别于其他正常情况时的数据。基于动态通联图检测异常节点的基本思想是:对于给定的连续时间序列的通联图,找出特定的时间节点对应于图上显著的变化或事件发生,并挖掘出影响较大的相关节点、边或子图。
例如,以新浪微博为例,新加入的用户由于粉丝较少而处于网络的边缘位置,而处于边缘位置的用户需要不断积攒人脉才能逐渐成为拥有众多粉丝的重要节点,这种演化过程可以用社交网络的动态通联图表示。如果该用户在某时刻突然发生一件重要的社会事件,或该用户刻意策划商业炒作,则该节点及其周边节点构成的子图的拓扑结构会发生显著的变化。这种异常演化模式显然意味着某种异常行为,如果能及时对这种异常行为进行侦测,对于网络系统全局的安全具有不可估量的意义。类似地,对于电信网络中的异常演化模式,通过对比相邻时序内的通联图的特征,将检测出的变化较明显的节点标记为异常节点,并挖掘与其相关联的节点、边,构成一个子图序列,即异常子图序列。
需要说明的是,可以利用上述的一种方法或综合利用多种方法来进行第一次异常节点序列的挖掘,从而挖掘出一系列的异常子图序列,将这些异常子图序列作为对电信数据的一个初步检测和筛选。
步骤S130,对初步挖掘的异常子图序列进一步挖掘,获得经过二次筛选的异常子图序列。
在此步骤中,基于初步筛选出的异常子图序列,通过建立判断正常或异常的二分类器来进行二次筛选异常子图序列,从而获得更准确的异常数据。可采用多种类型的二分类器,例如,长短时记忆网络(LSTM)、逻辑回归分类器、SVM分类器等。
在一个优选实施例中,采用LSTM的时间序列分类算法,对主、被叫的动态通联结构演化进行建模和训练。这是由于LSTM适合于学习时间序列上的动态特征,对于电信网络中普通节点用户的行为,虽然在连续时间点上可能会体现不同的特征,但这种模式却往往是固定的,例如,工作日呼叫联络较周末更多。而对于电话团伙诈骗等异常事件而言,往往是突变的,这种异常事件会与平时的呼叫流量相差很大,与之前时间点的特征不相符,因此使用LSTM能够有效的捕捉到这种变化,通过学习这种模式可以训练出一个用于异常检测的分类器。
在采用LSTM进行训练时,其输入是指从步骤S120检测出的连续的静态异常子图序列(即动态的异常子图序列),其中包含了节点的信息,例如用户手机号码、用户身份等信息,以及边的信息,例如通信距离等通信数据。
具体地,训练过程参见图4所示,将异常子图序列的演变特征作为训练数据,标记为异常的数据作为正样本,标记为正常的数据作为负样本,通过LSTM的输入单元(x1,x2,…,xw)后,获得优化参数(h1,h2,…,hw),其中,h代表训练数据经过LSTM网络训练之后得到的数据特征,包括异常数据特征及正常数据的特征;然后经过mean pooling池化(均值池化)和softmax回归获得需要的异常检测分类器。该分类器能够有效的检测出动态通联图中的异常子图序列,而且对于异常的动态子图序列,基于其通联结构特征,做进一步的处理,能够展示图结构动态演化过程,进一步展示图结构的异常特点。
此步骤是对异常子图序列进一步挖掘,实现检测异常子图序列的二分类器,能够从通联图中更精确地检测出异常的子图序列。
步骤S140、基于二次筛选的异常子图序列通过训练学习获得电信诈骗事件检测模型。
在此步骤中,以经过二次筛选的异常子图序列为输入,以对应的诈骗模式为输出,通过训练多分类器,获得用于检测诈骗模式的模型。可采用多种类型的分类器,例如SVM多分类器、ResNet(残差网络)等。
在一个优选实施例中,利用ResNet训练多分类模型,以二次筛选获得异常子图序列作为深度学习网络ResNet的输入数据,它对每层的输入做一个参照映射,学习形成残差函数,而不是学习一些没有参考的函数。这种残差函数更容易优化,能使网络层数大大加深。ResNet的块结构图参见图5所示。
在ResNet分类训练结束之后,最终输出包含多种电话诈骗模式的分类器。诈骗模式包括赔款诈骗,如冒充快递公司员工,称把快递丢失,要全额赔款,然后开始进行诱导诈骗;冒充警务人员诈骗等。
在该步骤S140中,训练的是多分类器,作用是可以对异常子图序列进行检测,确定是哪一类诈骗模式,逐步减小检索范围,实现对诈骗事件的精准定位。
步骤S150,基于获得的电信诈骗事件检测模型来预测诈骗事件。
在获得电信诈骗事件检测模型之后,对于采集到的新的电信数据,可预测是否包含诈骗行为以及诈骗模式。简言之,预测过程包括:对新的电信数据构建动态通联图(与步骤S110类似);挖掘异常子图序列(与步骤S120和S130类似);利用获得的电信诈骗事件检测模型预测模式等。
步骤S160,更新电信诈骗事件检测模型。
在获得诈骗事件检测模型之后,可选地,可进一步更新该模型。
例如,当成功判断出某一异常子图序列包含诈骗事件,根据得到的诈骗模式结果,例如,通过后期进行电话回访,调查取证证实该异常事件是电话诈骗事件,再次处理异常子图序列,去除噪声,结合标记的信息数据,可以更新诈骗模型。通过这种方式,能够对原有的诈骗模型进行补充训练,以获得更准确的模型。
又如,在出现新型的电话诈骗模式时,对新型的诈骗模式数据进行标记,然后通过增量学习训练,快速对新型诈骗模型生成模型,并快速更新到电话诈骗模型中。
在一个优选实施例中,利用自组织增量学习神经网络(SOINN)来进行增量学习。自组织增量学习神经网络SOINN是一种基于竞争学习的两层神经网络,可以对动态输入数据进行在线聚类和拓扑表示,同时对噪音数据具有较强的鲁棒性。SOINN的增量性使得它能够在不影响之前学习结果的前提下,发现数据流中出现的新模式并进行学习。因此可以调整SOINN使其适应需求,实现对电信诈骗模型的快速更新和增量学习。
SOINN用自组织的方式对输入数据进行在线聚类和拓扑表示,其工作过程示意参见图6所示,第1层网络接受原始数据的输入,以在线的方式自适应地生成原型神经元来表示输入数据,这些节点和它们之间的连接反映原始数据的分布情况;第2层根据第1层网络的结果估计出原始数据的类间距离与类内距离,并以此作为参数,把第1层生成的神经元作为输入再运行一次SOINN算法,以稳定学习结果。当输入数据存在多个聚类,同时还存在噪声时,SOINN依然能够生成可靠的神经元节点来表示输入数据中的各个聚类,而且子图的拓扑结构反映原始数据分布性。
图7示出了根据本发明一个实施例的电信诈骗事件检测系统,该系统包括数据采集模块710、特征提取模块720、诈骗事件检测模块730、增量学习模块740和诈骗预警阻断模块750。
数据采集模块710,用于采集电信数据,构建动态通联图,可在移动数据端实现。
特征提取模块720,用于从动态通联图提取动态通联图特征(例如,通联图结构特征和动态演变特征)和通联节点特征(例如通过文本分析、语音分析、行为分析等)。
诈骗事件检测模块730,用于基于提取的特征进行训练或利用已经训练好的模型预测诈骗事件。
增量学习模块740,用于出现新型的电话诈骗模式时,通过增量学习训练快速对新型诈骗模式生成模型。
诈骗预警阻断模块750,用于接收到诈骗事件检测模块730的诈骗预警信息时及时采取相应措施,进行疑似诈骗事件推荐,诈骗群体发现,潜在受害者预警,及时阻断电信诈骗事件的发生等。
此外,根据本发明的另一个实施例,诈骗预警阻断模块有一个后续的反馈机制,用于对模型进行优化调整,及时发现新型的诈骗模式。参见图8所示,当检测结果判定某个异常子图序列为电话诈骗时(步骤S801),一方面诈骗预警阻断端将发出预警,另一方面采取人工验证的方式对事件做出判断(S802),若判定事件是已有模型的诈骗模式(S804),会根据手机管家等软件内标记的标签以第三方数据进行验证(S806)。若发现事件为新型诈骗模式(S803),会采取抽样电话回访的方式对事件进行验证(S805),然后统计整理数据;若为已有的诈骗模式,对诈骗事件检测模型进行调整(S807),若事件为新型诈骗模式,则通过增量学习模块,对模型进行更新,然后对新模型进行验证测试。
综上,在本发明的实施例中,结合诈骗模式对异常子图序列中的节点元素进行多维度分析。一方面,是通过检测分析通信用户的短信文字、电话语音等电信信息内容,主要使用自然语言处理对通信内容进行语义分析,通过用户的通话内容进行检测,针对诈骗人员的诈骗行为、作案手段和诈骗剧本进行分析建模,结合人工智能自动识别诈骗模式。另一方面,结合用户的个人信息资料,电话呼叫频率,呼叫时长等特征,根据异常子图序列和节点对应的身份,统计输出受害人与犯罪团伙成员之间的通话记录、通话时长、通话频率等信息,进而输出二者联络关系及动态事件演化。获得诈骗事件检测模型能够快速、准确的检测存在的诈骗行为。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (11)
1.一种构建电信诈骗事件检测模型的方法,包括以下步骤:
步骤1:基于已有的诈骗行为数据建立反映不同时间序列通联模式的动态通联图;
步骤2:基于所述动态通联图的结构特征、动态演变特征或节点特征中的至少一项初步挖掘异常子图序列;
步骤3:基于所述初步挖掘的异常子图序列训练二分类模型,获得经过二次筛选的异常子图序列,作为存在诈骗行为的异常子图序列;
步骤4:基于所述异常子图序列训练多分类模型,获得用于检测多种诈骗模式的电信诈骗事件检测模型。
2.根据权利要求1所述的方法,其中,步骤2中,在基于所述动态通联图的动态演变特征初步挖掘异常子图序列的情况下,包括:
步骤21:将所述动态通联图中转换为自我中心网络图;
步骤22:基于不同时间序列的自我中心网络图提取图结构距离和图编辑距离;
步骤23:基于所述图结构距离和图编辑距离获得初步挖掘的异常子图序列。
3.根据权利要求1所述的方法,其中,在步骤2中,在基于所述动态通联图的结构特征初步挖掘异常子图序列的情况下,基于节点度数、中介中心性、接近中心性、聚类系数中的至少一项获得初步挖掘的异常子图序列。
4.根据权利要求1所述的方法,其中,步骤3包括:
以所述初步挖掘的异常子图序列作为训练数据,标记为异常的数据作为正样本,标记为正常的数据作为负样本,结合长短时记忆网络训练二分类模型。
5.根据权利要求1所述的方法,其中,还包括:
步骤5:当出现新型诈骗模式时,利用自组织增量学习神经网络通过增量学习来更新所构建的电信诈骗事件检测模型。
6.根据权利要求1所述的方法,其中,所述动态通联图的节点表示用户信息,边表示用户间的呼叫关系,边的权重表示用户间的呼叫频率。
7.一种电信诈骗事件检测方法,包括:
步骤71:获取电信数据并构建动态通联图;
步骤72:基于所构建的动态通联图,利用权利要求1至6中任一项所构建的电信诈骗事件检测模型来预测诈骗模式。
8.一种电信诈骗事件检测系统,包括:
数据采集模块:获取采集电信数据并构建动态通联图;
特征提取模块:基于所构建的动态通联图提取所述动态通联图的结构特征、动态演变特征或节点特征中的至少一项;
诈骗事件检测模块:基于提取的特征,利用权利要求1至6任一项所构建的电信诈骗事件检测模型来预测诈骗模式。
9.根据权利要求8所述的系统,还包括增量学习模块和诈骗预警阻断模块,其中,所述增量学习模块用于更新所构建的电信诈骗事件检测模型,所述诈骗预警阻断模块根据所述诈骗事件检测模块输出的诈骗模式进行疑似诈骗事件推荐和发现新型诈骗模式。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至6中任一项或权利要求7所述方法的步骤。
11.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6中任一项或权利要求7所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811381191.5A CN109615116B (zh) | 2018-11-20 | 2018-11-20 | 一种电信诈骗事件检测方法和检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811381191.5A CN109615116B (zh) | 2018-11-20 | 2018-11-20 | 一种电信诈骗事件检测方法和检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109615116A CN109615116A (zh) | 2019-04-12 |
CN109615116B true CN109615116B (zh) | 2020-12-29 |
Family
ID=66003830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811381191.5A Active CN109615116B (zh) | 2018-11-20 | 2018-11-20 | 一种电信诈骗事件检测方法和检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109615116B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322356B (zh) * | 2019-04-22 | 2020-08-07 | 山东大学 | 基于hin挖掘动态多模式的医保异常检测方法及系统 |
CN110210653B (zh) * | 2019-05-15 | 2021-11-16 | 中国移动通信集团内蒙古有限公司 | 电信诈骗演变分析预测方法、装置、设备及介质 |
CN110177179B (zh) * | 2019-05-16 | 2020-12-29 | 国家计算机网络与信息安全管理中心 | 一种基于图嵌入的诈骗号码识别方法 |
CN110209841A (zh) * | 2019-06-17 | 2019-09-06 | 深圳市安络科技有限公司 | 一种基于诈骗案件案情的诈骗分析方法及装置 |
CN110348519A (zh) * | 2019-07-12 | 2019-10-18 | 深圳众赢维融科技有限公司 | 金融产品欺诈团伙的识别方法和装置 |
US10970350B2 (en) | 2019-08-15 | 2021-04-06 | Advanced New Technologies Co., Ltd. | Method and apparatus for processing user interaction sequence data |
CN110543935B (zh) * | 2019-08-15 | 2023-06-20 | 创新先进技术有限公司 | 处理交互序列数据的方法及装置 |
CN110598847B (zh) * | 2019-08-15 | 2020-08-28 | 阿里巴巴集团控股有限公司 | 处理交互序列数据的方法及装置 |
CN112822686A (zh) * | 2019-11-18 | 2021-05-18 | 中国移动通信集团广东有限公司 | 一种异常短消息的检测方法、装置及电子设备 |
CN112995110A (zh) * | 2019-12-17 | 2021-06-18 | 深信服科技股份有限公司 | 一种恶意事件信息的获取方法、装置及电子设备 |
CN111371749A (zh) * | 2020-02-21 | 2020-07-03 | 苏州浪潮智能科技有限公司 | 一种电信诈骗检测的方法、系统、设备及可读存储介质 |
CN111415168B (zh) * | 2020-03-06 | 2023-08-22 | 中国建设银行股份有限公司 | 一种交易告警的方法和装置 |
CN111465021B (zh) * | 2020-04-01 | 2023-06-09 | 北京中亦安图科技股份有限公司 | 基于图的骚扰电话识别模型构建方法 |
CN111581339B (zh) * | 2020-04-09 | 2021-11-12 | 天津大学 | 基于树状lstm对生物医学文献的基因事件的抽取方法 |
CN111858925B (zh) * | 2020-06-04 | 2023-08-18 | 国家计算机网络与信息安全管理中心 | 电信网络诈骗事件的剧本提取方法以及装置 |
CN111815034B (zh) * | 2020-06-20 | 2023-04-07 | 中国人民解放军战略支援部队信息工程大学 | 基于模体演化的电信诈骗流程预测方法及系统 |
CN112134998B (zh) * | 2020-09-09 | 2021-08-17 | 中移(杭州)信息技术有限公司 | 码号区分方法、电子设备和计算机可读存储介质 |
CN112418267B (zh) * | 2020-10-16 | 2023-10-24 | 江苏金智科技股份有限公司 | 一种基于多尺度可视图和深度学习的电机故障诊断方法 |
CN112288330A (zh) * | 2020-11-24 | 2021-01-29 | 拉卡拉支付股份有限公司 | 一种欺诈社群的识别方法及装置 |
CN112887325B (zh) * | 2021-02-19 | 2022-04-01 | 浙江警察学院 | 一种基于网络流量的电信网络诈骗犯罪欺诈识别方法 |
CN113610521A (zh) * | 2021-07-27 | 2021-11-05 | 胜斗士(上海)科技技术发展有限公司 | 用于检测行为数据的异常的方法和设备 |
CN113626817B (zh) * | 2021-08-25 | 2024-06-25 | 北京邮电大学 | 恶意代码家族分类方法 |
CN113961712B (zh) * | 2021-09-08 | 2024-04-26 | 武汉众智数字技术有限公司 | 一种基于知识图谱的诈骗电话分析方法 |
CN114363463A (zh) * | 2021-12-13 | 2022-04-15 | 恒安嘉新(北京)科技股份公司 | 一种电话诈骗人员识别方法、装置、设备及存储介质 |
CN114066490B (zh) * | 2022-01-17 | 2022-04-29 | 浙江鹏信信息科技股份有限公司 | 一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质 |
CN114641004B (zh) * | 2022-02-18 | 2023-05-23 | 国政通科技有限公司 | 一种基于文本特征分析的防诈骗警示系统和方法 |
CN114675942B (zh) * | 2022-03-23 | 2024-09-17 | 支付宝(杭州)信息技术有限公司 | 基于动态图的群体识别方法和系统 |
CN118133031A (zh) * | 2022-12-02 | 2024-06-04 | 华为技术有限公司 | 异常事件检测方法、异常事件检测模型构建方法以及装置 |
CN117880766B (zh) * | 2024-03-13 | 2024-05-28 | 深圳市诚立业科技发展有限公司 | 基于随机权重算法的短信通道路由方法 |
CN118503653A (zh) * | 2024-07-15 | 2024-08-16 | 北京城市网邻信息技术有限公司 | 欺诈模式识别模型生成方法、装置、电子设备和计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744994A (zh) * | 2014-01-22 | 2014-04-23 | 中国科学院信息工程研究所 | 一种面向通信网络的用户行为模式挖掘方法及系统 |
CN105631049A (zh) * | 2016-02-17 | 2016-06-01 | 北京奇虎科技有限公司 | 一种识别诈骗短信的方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7296018B2 (en) * | 2004-01-02 | 2007-11-13 | International Business Machines Corporation | Resource-light method and apparatus for outlier detection |
CN104469025B (zh) * | 2014-11-26 | 2017-08-25 | 杭州东信北邮信息技术有限公司 | 一种基于聚类算法的实时拦截诈骗电话的方法和系统 |
-
2018
- 2018-11-20 CN CN201811381191.5A patent/CN109615116B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744994A (zh) * | 2014-01-22 | 2014-04-23 | 中国科学院信息工程研究所 | 一种面向通信网络的用户行为模式挖掘方法及系统 |
CN105631049A (zh) * | 2016-02-17 | 2016-06-01 | 北京奇虎科技有限公司 | 一种识别诈骗短信的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109615116A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109615116B (zh) | 一种电信诈骗事件检测方法和检测系统 | |
CN109451182B (zh) | 一种诈骗电话的检测方法和装置 | |
Aceto et al. | Multi-classification approaches for classifying mobile app traffic | |
CN111935143B (zh) | 一种攻击防御策略可视化的方法及系统 | |
CN112153221B (zh) | 一种基于社交网络图计算的通信行为识别方法 | |
CN109672674A (zh) | 一种网络威胁情报可信度识别方法 | |
CN109218321A (zh) | 一种网络入侵检测方法及系统 | |
CN112488716B (zh) | 一种异常事件检测系统 | |
CN116305168B (zh) | 一种多维度信息安全风险评估方法、系统及存储介质 | |
CN111917574B (zh) | 社交网络拓扑模型及构建方法、用户置信度和亲密度计算方法及电信诈骗智能拦截系统 | |
CN107092651B (zh) | 一种基于通信网络数据分析的关键人物挖掘方法及系统 | |
CN112685272B (zh) | 一种具备可解释性的用户行为异常检测方法 | |
US11290593B2 (en) | Systems and methods of gateway detection in a telephone network | |
CN113904881A (zh) | 一种入侵检测规则误报处理方法和装置 | |
Paudel et al. | Snapsketch: Graph representation approach for intrusion detection in a streaming graph | |
CN114124484B (zh) | 网络攻击识别方法、系统、装置、终端设备以及存储介质 | |
CN112351429B (zh) | 基于深度学习的有害信息检测方法及系统 | |
CN111105064A (zh) | 确定欺诈事件的嫌疑信息的方法及装置 | |
CN117729027A (zh) | 异常行为检测方法、装置、电子设备及存储介质 | |
CN111062422B (zh) | 一种套路贷体系化识别方法及装置 | |
CN117240523A (zh) | 一种基于结构信息原理的网络欺骗账户的检测方法 | |
Hamdy et al. | Criminal act detection and identification model | |
CN111465021B (zh) | 基于图的骚扰电话识别模型构建方法 | |
CN116545679A (zh) | 一种工业情境安全基础框架及网络攻击行为特征分析方法 | |
CN112153220B (zh) | 一种基于社交评价动态更新的通信行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |