CN110233938B - 一种基于可疑性度量的团伙诈骗电话识别方法 - Google Patents

一种基于可疑性度量的团伙诈骗电话识别方法 Download PDF

Info

Publication number
CN110233938B
CN110233938B CN201910398052.1A CN201910398052A CN110233938B CN 110233938 B CN110233938 B CN 110233938B CN 201910398052 A CN201910398052 A CN 201910398052A CN 110233938 B CN110233938 B CN 110233938B
Authority
CN
China
Prior art keywords
telephone
telephone number
fraud
risk
calls
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910398052.1A
Other languages
English (en)
Other versions
CN110233938A (zh
Inventor
周川
高扬
胡玥
谭建龙
郭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910398052.1A priority Critical patent/CN110233938B/zh
Publication of CN110233938A publication Critical patent/CN110233938A/zh
Application granted granted Critical
Publication of CN110233938B publication Critical patent/CN110233938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud

Abstract

本发明提出一种基于可疑性度量的团伙诈骗电话识别方法,采用无监督的方式,利用电话号码之间的呼叫记录信息,为每个电话号码定义可疑性度量,采用风险等级量化的方式识别团伙诈骗电话。本方法不需引入用户的主观标记结果,不仅能避免主观判断带来的缺陷,还能在较短时间内完成模型训练与线上使用,为用户遭受团体诈骗提供了一种简单、实用的识别方法,有效地缓解了滞后性所带来的问题。

Description

一种基于可疑性度量的团伙诈骗电话识别方法
技术领域
本发明属于计算机信息技术领域,具体涉及一种基于可疑性度量的团伙诈骗电话识别方法。
背景技术
随着电信技术迅猛发展,电信诈骗呈现高发态势,且逐年上升,如2017年全国已结一审电信网络诈骗案件量较2016年上升70.34%。在众多电信诈骗形式中,团伙诈骗因其欺骗性高、隐蔽性强等特点,近年来发展迅速,严重威胁人们的财产安全。在团伙诈骗电话中,犯罪分子团伙冒充不同身份对受害人进行引诱欺诈,使受害人容易上当受骗,遭受财产损失。因此对(团伙)诈骗电话进行快速准确识别对维护社会稳定、保护人民财产安全有着重要的社会现实意义。
利用号码标记库来识别诈骗电话是目前最主要、最常用的技术手段。用户在日常生活中在12321、360、百度、搜狗等网络平台上对疑似诈骗电话进行标记,然后相关部门利用这些标记数据来提醒用户,预防诈骗的发生。这一方式主要利用互联网的公信力来保障标记结果的可信度,在一定程度上能够识别诈骗电话,及时阻止诈骗的发生。
然而,在实际生活中,利用号码标记库来识别诈骗电话的方式存在一定的局限性。首先,这一方式需要人工标注,会导致漏标、误标等情形的发生,所以通常需要一定的数据积累才能保证标记结果的准确性与可靠性,从而带来诈骗电话识别的滞后性。其次,从事诈骗的犯罪分子可以通过多种手段来绕过号码标记库,如每过一段时间更换一次电话号码。此外,团伙诈骗等方式由于具有较高的迷惑性,很多用户难以对诈骗电话做出正确的识别,从而导致用户标记诈骗电话的可能性降低。
基于号码标记库的诈骗电话识别方法存在以下缺陷:
1.过于依赖用户:需要用户有一定的反诈骗常识和意识,能够及时反馈疑似诈骗电话。当诈骗方式具有较高的迷惑性时,用户对疑似诈骗电话进行标记的可能性降低,从而导致识别效果变差。
2.存在滞后性:由于人工标记存在漏标、误标、恶意标注等问题,因此往往需要积累一定量的标记结果后才能生效,对于新的诈骗电话号码识别效果较弱。
3.对于团伙诈骗的识别效果较弱:因欺骗性高、隐蔽性强等特点,团伙诈骗是目前电信诈骗的主要形式。而目前的人工标记主要针对的是单个诈骗电话进行标注,对于诈骗团伙,如果诈骗成功,被诈骗的电话号码通常不会标记;如果未诈骗成功,电话号码发觉异常,诈骗团伙通常只会暴露初级的诈骗号码,而高级的诈骗号码未被暴露,无法实现对诈骗团伙进行整体识别与定性。
发明内容
为了解决上述问题,本发明提出一种基于可疑性度量的团伙诈骗电话识别方法,采用无监督的方式,利用电话号码之间的呼叫记录信息,为每个电话号码定义可疑性度量,采用风险等级量化的方式识别团伙诈骗电话。本方法不需引入用户的主观标记结果,不仅能避免主观判断带来的缺陷,还能在较短时间内完成模型训练与线上使用,为用户遭受团体诈骗提供了一种简单、实用的识别方法,有效地缓解了滞后性所带来的问题。
为实现上述目的,本发明采用如下技术方案:
一种基于可疑性度量的团伙诈骗电话识别方法,包括以下步骤:
根据历史通话记录,构建电话号码间的通讯关系图G=(V,E,n),其中V为节点集,一个电话号码为一个节点;E为边集,存在一条边从节点u指向节点v,当且仅当u给v打过电话;n为边集E上的函数,表示一段时间内呼叫次数;
计算电话号码的可疑性度量S(u),公式如下:
Figure BDA0002058815680000021
其中,dout(u)为电话号码u的出度,即电话号码在一个时间窗口内给多少人打过电话;din(u)为电话号码u的入度,即电话号码在一个时间窗口内被多少人呼叫过;n(u,v)为一段时间内u呼叫v的次数;Nout(u)为电话号码u一段时间内联系过的所有人;
根据电话号码的可疑性度量S(u)从大到小排名的比例
Figure BDA0002058815680000022
为不同的电话号码分配不同的可疑性分值c(u);
为每个电话号码统计一个时间窗口内呼入电话的可疑性分值之和,作为危险评分D(u),按照危险评分D(u)的大小对电话号码遭受团伙诈骗的风险进行等级划分,按照风险等级从高到底输出电话号码,从中识别出团伙诈骗电话。
进一步地,可疑性分值c(u)的计算公式为:
Figure BDA0002058815680000031
进一步地,比例
Figure BDA0002058815680000032
具体大小根据需要进行调节。
进一步地,风险等级划分包括:当2<D(u)≤4时,风险等级为C;当4<D(u)≤8时,风险等级为B;当D(u)>8时,风险等级为A;风险程度A>B>C。
进一步地,利用获得的不同风险等级的主叫方和被叫方电话号码、通话次数、可疑性分值更新电话号码的通讯关系图、可疑性度量和可疑性分值。
一种基于可疑性度量的团伙诈骗电话识别系统,包括存储器和处理器,该存储器存储计算机程序,该程序被配置为由该处理器执行,该程序包括用于执行上述任一方法中各步骤的指令。
一种存储计算机程序的计算机可读存储介质,该计算机程序包括指令,该指令当由服务器的处理器执行时使得该服务器执行上述任一方法中的各个步骤。
与现有技术相比,本发明取得的技术效果为:
1.使用无监督的方式进行诈骗电话识别,不需要人工进行标注;
2.较强的实时性,利用很小的一个时间窗口内的通话记录作为历史数据就可以处理实时数据,并且可以将实时数据作为历史数据不断更新模型;
3.可以有效识别团伙诈骗;
4.时间复杂度和空间复杂度都很小,方便监控与部署,能耗小。
附图说明
图1是一种基于可疑性度量的团伙诈骗电话识别方法的流程图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本实施例提出一种基于可疑性度量的团伙诈骗电话识别方法,引入了电话号码的可疑性度量和可疑性分值,根据一个时间窗口内可疑通话的次数去识别用户遭受团伙诈骗的等级。
本方法基本的现实假设为:诈骗电话号码为了实施诈骗,会广泛地寻找潜在受害者,使得诈骗电话号码的通讯关系大部分是单向的向外呼出电话,且通讯关系不稳定;电话号码拥有的不稳定通讯关系越多,可疑性越高;诈骗团伙会在短时间内多次以不同的电话,不同身份欺骗受害者,这些可疑电话都在受害者稳定通讯关系之外,短时间内用户接到的可疑电话越多,电话号码处于被团体诈骗状态的可能性越大。
本发明方法的主要流程如图1所示,本方法主要包括以下两个阶段:
1.统计阶段:利用历史通话记录构建电话号码间的通讯关系图,并计算电话号码的可疑性度量与可疑性分值,具体如下。
根据历史的通话记录,可以构建通讯关系图G=(V,E,n),其中V表示节点集,一个电话号码就是一个节点;E表示边集,存在一条边从节点u指向节点v,当且仅当u给v打过电话;n是边集E上的函数,n(u,v)表示一段时间内u呼叫v的次数。
根据假设,本方法将电话号码u的可疑性度量S(u)定义为:
Figure BDA0002058815680000041
其中dout(u)为电话号码u的出度,即电话号码在一个时间窗口内给多少人打过电话;din(u)为电话号码u的入度,即电话号码在一个时间窗口内被多少人呼叫过。电话号码在一个时间窗口内打出的电话越多,而接到的电话越少,
Figure BDA0002058815680000042
越大,电话号码u越可疑。电话号码u和电话号码v之间通讯次数n(u,v)越少,
Figure BDA0002058815680000043
越大。Nout(u)为电话号码u一段时间内联系过的所有人。而Nout(u)中通讯不频繁的电话号码越多,
Figure BDA0002058815680000044
越大,电话号码u越可疑。
根据上述公式可以计算出通讯关系图中每个电话号码的可疑性度量。然后,本方法按照比例
Figure BDA0002058815680000045
为不同的电话号码分配不同的可疑性分值,计算方式如下:
Figure BDA0002058815680000046
Index(S(u))即电话号码u的可疑性度量S(u)从大到小排名的比例。
Figure BDA0002058815680000047
的大小可以进行人为调节,从而使模型对不同场景有更好地适应性。
2.预警阶段:为每个电话号码统计一个时间窗口内呼入电话的可疑性分值之和,并对该电话号码遭受团伙诈骗的风险进行等级划分,具体如下。
团伙诈骗具有在短时间内向同一受害者发起多次通话的特点。为了更准确地捕捉这一类诈骗,本发明为每个电话号码统计其在一个时间窗口内接到呼入电话的可疑性分值c(·)之和,然后为该电话号码计算危险评分,优先推送危险评分高的电话号码给公安司法单位,进行人为介入,防止诈骗行为的进一步发展。对任意一个电话号码u,其危险评分D(u)定义为在一个滑动时间窗口T(比方10分钟)内接到呼入电话可疑性分值之和,即:
Figure BDA0002058815680000051
其中Lin(u)为电话号码u在一个时间窗口T内接到的所有呼入电话。在同一个时间窗口内,呼叫电话号码u的可疑通话越多,电话号码u被团伙诈骗的可能性越高。
关于风险等级约定,当2<可疑性分值之和≤4时,该电话号码遭受诈骗的风险等级为C;当4<可疑性分值之和≤8时,该电话号码遭受诈骗的风险等级为B;当可疑性分值之和>8时,该电话号码遭受诈骗的风险等级为A。并按照该分值之和由高到底的顺序输出带风险等级的电话号码。
预警阶段处理完的数据可以用来持续更新电话号码通讯关系图、电话号码可疑性度量以及可疑性分值等内容。
为验证本发明方法的可行性和取得的技术效果,实验如下:
实验数据为中国某城市的真实通话记录(所有号码均经过脱敏处理,且隐去了前7位数字),其中历史数据包含30万条通话记录,时间跨度为3小时,预警阶段的数据也包含30万条通话记录,时间跨度同样为3小时,总共涉及超76万个电话号码。实验部分只列出通话记录中疑似遭受团伙诈骗的通话记录。
表1中列出了可疑度最高的11个电话号码及其相关信息。这些电话号码都是在短时间内有许多呼出电话而被呼入的次数很少,这符合对可疑电话号码的假设。其中第10个和第11个电话号码虽然短时间内呼出的电话号码数量多,但是这两个电话号码与部分电话号码之间存在多次通话,因此其可疑性度量要低于前9个电话号码。
表1可疑度最高的11个电话号码
Figure BDA0002058815680000052
Figure BDA0002058815680000061
处理实时预警数据的结果如表2所示。可以看到疑似团伙诈骗的电话号码在短时间内多次呼叫同一个电话号码,这符合团伙诈骗的特点。
表2实时数据中的疑似团伙诈骗通话记录
Figure BDA0002058815680000062
时空复杂度分析:
本方法在处理历史数据时,只需要针对每条通话记录更新通讯图中的对应节点和边的相关信息,查询操作利用Hash表,时间复杂度为O(1),因此统计阶段的时间复杂度为O(n),其中n为历史数据量。
本方法在处理实时数据时,只需要查找主叫方的效果信息,查询操作的复杂度也是O(1),因此预警阶段的时间复杂度也是O(m),其中m为实时数据的数量。
在整个过程中,需要记录通讯关系图,并缓存时间窗口内的通话记录,因此空间复杂度为O(N+E+D),其中N为通讯图中节点数量,E为通讯图中边的数量,D为时间窗口内通话记录的数量。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (6)

1.一种基于可疑性度量的团伙诈骗电话识别方法,包括以下步骤:
根据历史通话记录,构建电话号码间的通讯关系图G=(V,E,n),其中V为节点集,一个电话号码为一个节点;E为边集,存在一条边从节点u指向节点v,当且仅当u给v打过电话;n为边集E上的函数,表示一段时间内呼叫次数;
计算电话号码的可疑性度量S(u),公式如下:
Figure FDA0002640209260000011
其中,dout(u)为电话号码u的出度,即电话号码在一个时间窗口内给多少人打过电话;din(u)为电话号码u的入度,即电话号码在一个时间窗口内被多少人呼叫过;n(u,v)为一段时间内u呼叫v的次数;Nout(u)为电话号码u一段时间内联系过的所有人;
根据电话号码的可疑性度量S(u)从大到小排名的比例
Figure FDA0002640209260000013
为不同的电话号码分配不同的可疑性分值c(u);可疑性分值c(u)的计算公式为:
Figure FDA0002640209260000012
为每个电话号码统计一个时间窗口内呼入电话的可疑性分值之和,作为危险评分D(u),按照危险评分D(u)的大小对电话号码遭受团伙诈骗的风险进行等级划分,按照风险等级从高到低输出电话号码,从中识别出团伙诈骗电话。
2.如权利要求1所述的方法,其特征在于,比例
Figure FDA0002640209260000014
具体大小根据需要进行调节。
3.如权利要求1所述的方法,其特征在于,风险等级划分包括:当2<D(u)≤4时,风险等级为C;当4<D(u)≤8时,风险等级为B;当D(u)>8时,风险等级为A;风险程度A>B>C。
4.如权利要求1所述的方法,其特征在于,利用获得的不同风险等级的主叫方和被叫方电话号码、通话次数、可疑性分值更新电话号码的通讯关系图、可疑性度量和可疑性分值。
5.一种基于可疑性度量的团伙诈骗电话识别系统,其特征在于,包括存储器和处理器,该存储器存储计算机程序,该程序被配置为由该处理器执行,该程序包括用于执行上述权利要求1-4任一所述方法中各步骤的指令。
6.一种存储计算机程序的计算机可读存储介质,其特征在于,该计算机程序包括指令,该指令当由服务器的处理器执行时使得该服务器执行上述权利要求1-4任一所述方法中的各个步骤。
CN201910398052.1A 2019-05-14 2019-05-14 一种基于可疑性度量的团伙诈骗电话识别方法 Active CN110233938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910398052.1A CN110233938B (zh) 2019-05-14 2019-05-14 一种基于可疑性度量的团伙诈骗电话识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910398052.1A CN110233938B (zh) 2019-05-14 2019-05-14 一种基于可疑性度量的团伙诈骗电话识别方法

Publications (2)

Publication Number Publication Date
CN110233938A CN110233938A (zh) 2019-09-13
CN110233938B true CN110233938B (zh) 2020-12-22

Family

ID=67861245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910398052.1A Active CN110233938B (zh) 2019-05-14 2019-05-14 一种基于可疑性度量的团伙诈骗电话识别方法

Country Status (1)

Country Link
CN (1) CN110233938B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111131626B (zh) * 2019-12-20 2022-01-14 珠海高凌信息科技股份有限公司 基于流数据图谱的群组有害呼叫检测方法、装置及可读介质
CN111465021B (zh) * 2020-04-01 2023-06-09 北京中亦安图科技股份有限公司 基于图的骚扰电话识别模型构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170077381A (ko) * 2015-12-28 2017-07-06 주식회사 케이티 음성 인식을 이용한 보이스피싱 방지 시스템 및 방법
CN108133061A (zh) * 2018-02-01 2018-06-08 天津市国瑞数码安全系统股份有限公司 一种诈骗群体识别系统
CN109600752A (zh) * 2018-11-28 2019-04-09 国家计算机网络与信息安全管理中心 一种深度聚类诈骗检测的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101217595A (zh) * 2007-12-29 2008-07-09 宇龙计算机通信科技(深圳)有限公司 一种呼入通讯号码处理方法及装置
CN103067896B (zh) * 2013-01-17 2015-08-19 中国联合网络通信集团有限公司 垃圾短信过滤方法及装置
CN103716471B (zh) * 2013-12-18 2015-11-04 华中科技大学 一种适用于垃圾语音过滤的用户呼叫行为模型的生成方法
CN106657690A (zh) * 2016-12-09 2017-05-10 北京奇虎科技有限公司 一种防止电话诈骗的方法、装置及移动终端
CN108989581B (zh) * 2018-09-21 2022-03-22 中国银行股份有限公司 一种用户风险识别方法、装置及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170077381A (ko) * 2015-12-28 2017-07-06 주식회사 케이티 음성 인식을 이용한 보이스피싱 방지 시스템 및 방법
CN108133061A (zh) * 2018-02-01 2018-06-08 天津市国瑞数码安全系统股份有限公司 一种诈骗群体识别系统
CN109600752A (zh) * 2018-11-28 2019-04-09 国家计算机网络与信息安全管理中心 一种深度聚类诈骗检测的方法和装置

Also Published As

Publication number Publication date
CN110233938A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN108924333B (zh) 诈骗电话识别方法、装置和系统
CN106453061B (zh) 一种识别网络诈骗行为的方法及系统
CN112053221A (zh) 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN107197463A (zh) 一种电话诈骗的检测方法、存储介质及电子设备
CN111950937A (zh) 一种基于融合时空轨迹的重点人员风险评估方法
CN111159387B (zh) 基于多维度报警信息文本相似度分析的推荐方法
CN110233938B (zh) 一种基于可疑性度量的团伙诈骗电话识别方法
CN110381218B (zh) 一种识别电话诈骗团伙的方法及装置
CN110839216B (zh) 识别通讯信息诈骗的方法和装置
CN107092651B (zh) 一种基于通信网络数据分析的关键人物挖掘方法及系统
CN112053222A (zh) 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN110933115A (zh) 基于动态session的分析对象行为异常检测方法及装置
CN110659335A (zh) 一种隐性吸毒人员分析方法
CN112819611A (zh) 欺诈识别方法、装置、电子设备和计算机可读存储介质
CN112839014A (zh) 建立识别异常访问者模型的方法、系统、设备及介质
CN110113748B (zh) 骚扰电话监控方法、装置
CN111918293A (zh) 一种通讯信息诈骗的多维度关联检测方法
WO2023035362A1 (zh) 用于模型训练的污染样本数据的检测方法及装置
CN111105064B (zh) 确定欺诈事件的嫌疑信息的方法及装置
CN113141370B (zh) 一种内部网络流量的恶意dns隧道识别方法
CN110213449B (zh) 一种漫游诈骗号码的识别方法
CN109587357B (zh) 一种骚扰电话的识别方法
CN108984773B (zh) 数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备
CN114817518A (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN113923011A (zh) 一种网络诈骗的预警方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant