CN110233938B

CN110233938B - 一种基于可疑性度量的团伙诈骗电话识别方法

Info

Publication number: CN110233938B
Application number: CN201910398052.1A
Authority: CN
Inventors: 周川; 高扬; 胡玥; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2020-12-22
Anticipated expiration: 2039-05-14
Also published as: CN110233938A

Abstract

本发明提出一种基于可疑性度量的团伙诈骗电话识别方法，采用无监督的方式，利用电话号码之间的呼叫记录信息，为每个电话号码定义可疑性度量，采用风险等级量化的方式识别团伙诈骗电话。本方法不需引入用户的主观标记结果，不仅能避免主观判断带来的缺陷，还能在较短时间内完成模型训练与线上使用，为用户遭受团体诈骗提供了一种简单、实用的识别方法，有效地缓解了滞后性所带来的问题。

Description

一种基于可疑性度量的团伙诈骗电话识别方法

技术领域

本发明属于计算机信息技术领域，具体涉及一种基于可疑性度量的团伙诈骗电话识别方法。

背景技术

随着电信技术迅猛发展，电信诈骗呈现高发态势，且逐年上升，如2017年全国已结一审电信网络诈骗案件量较2016年上升70.34％。在众多电信诈骗形式中，团伙诈骗因其欺骗性高、隐蔽性强等特点，近年来发展迅速，严重威胁人们的财产安全。在团伙诈骗电话中，犯罪分子团伙冒充不同身份对受害人进行引诱欺诈，使受害人容易上当受骗，遭受财产损失。因此对(团伙)诈骗电话进行快速准确识别对维护社会稳定、保护人民财产安全有着重要的社会现实意义。

利用号码标记库来识别诈骗电话是目前最主要、最常用的技术手段。用户在日常生活中在12321、360、百度、搜狗等网络平台上对疑似诈骗电话进行标记，然后相关部门利用这些标记数据来提醒用户，预防诈骗的发生。这一方式主要利用互联网的公信力来保障标记结果的可信度，在一定程度上能够识别诈骗电话，及时阻止诈骗的发生。

然而，在实际生活中，利用号码标记库来识别诈骗电话的方式存在一定的局限性。首先，这一方式需要人工标注，会导致漏标、误标等情形的发生，所以通常需要一定的数据积累才能保证标记结果的准确性与可靠性，从而带来诈骗电话识别的滞后性。其次，从事诈骗的犯罪分子可以通过多种手段来绕过号码标记库，如每过一段时间更换一次电话号码。此外，团伙诈骗等方式由于具有较高的迷惑性，很多用户难以对诈骗电话做出正确的识别，从而导致用户标记诈骗电话的可能性降低。

基于号码标记库的诈骗电话识别方法存在以下缺陷：

1.过于依赖用户：需要用户有一定的反诈骗常识和意识，能够及时反馈疑似诈骗电话。当诈骗方式具有较高的迷惑性时，用户对疑似诈骗电话进行标记的可能性降低，从而导致识别效果变差。

2.存在滞后性：由于人工标记存在漏标、误标、恶意标注等问题，因此往往需要积累一定量的标记结果后才能生效，对于新的诈骗电话号码识别效果较弱。

3.对于团伙诈骗的识别效果较弱：因欺骗性高、隐蔽性强等特点，团伙诈骗是目前电信诈骗的主要形式。而目前的人工标记主要针对的是单个诈骗电话进行标注，对于诈骗团伙，如果诈骗成功，被诈骗的电话号码通常不会标记；如果未诈骗成功，电话号码发觉异常，诈骗团伙通常只会暴露初级的诈骗号码，而高级的诈骗号码未被暴露，无法实现对诈骗团伙进行整体识别与定性。

发明内容

为了解决上述问题，本发明提出一种基于可疑性度量的团伙诈骗电话识别方法，采用无监督的方式，利用电话号码之间的呼叫记录信息，为每个电话号码定义可疑性度量，采用风险等级量化的方式识别团伙诈骗电话。本方法不需引入用户的主观标记结果，不仅能避免主观判断带来的缺陷，还能在较短时间内完成模型训练与线上使用，为用户遭受团体诈骗提供了一种简单、实用的识别方法，有效地缓解了滞后性所带来的问题。

为实现上述目的，本发明采用如下技术方案：

一种基于可疑性度量的团伙诈骗电话识别方法，包括以下步骤：

根据历史通话记录，构建电话号码间的通讯关系图G＝(V，E，n)，其中V为节点集，一个电话号码为一个节点；E为边集，存在一条边从节点u指向节点v，当且仅当u给v打过电话；n为边集E上的函数，表示一段时间内呼叫次数；

计算电话号码的可疑性度量S(u)，公式如下：

其中，d^out(u)为电话号码u的出度，即电话号码在一个时间窗口内给多少人打过电话；dⁱⁿ(u)为电话号码u的入度，即电话号码在一个时间窗口内被多少人呼叫过；n(u，v)为一段时间内u呼叫v的次数；N^out(u)为电话号码u一段时间内联系过的所有人；

根据电话号码的可疑性度量S(u)从大到小排名的比例

为不同的电话号码分配不同的可疑性分值c(u)；

为每个电话号码统计一个时间窗口内呼入电话的可疑性分值之和，作为危险评分D(u)，按照危险评分D(u)的大小对电话号码遭受团伙诈骗的风险进行等级划分，按照风险等级从高到底输出电话号码，从中识别出团伙诈骗电话。

进一步地，可疑性分值c(u)的计算公式为：

进一步地，比例

具体大小根据需要进行调节。

进一步地，风险等级划分包括：当2＜D(u)≤4时，风险等级为C；当4＜D(u)≤8时，风险等级为B；当D(u)＞8时，风险等级为A；风险程度A＞B＞C。

进一步地，利用获得的不同风险等级的主叫方和被叫方电话号码、通话次数、可疑性分值更新电话号码的通讯关系图、可疑性度量和可疑性分值。

一种基于可疑性度量的团伙诈骗电话识别系统，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行上述任一方法中各步骤的指令。

一种存储计算机程序的计算机可读存储介质，该计算机程序包括指令，该指令当由服务器的处理器执行时使得该服务器执行上述任一方法中的各个步骤。

与现有技术相比，本发明取得的技术效果为：

1.使用无监督的方式进行诈骗电话识别，不需要人工进行标注；

2.较强的实时性，利用很小的一个时间窗口内的通话记录作为历史数据就可以处理实时数据，并且可以将实时数据作为历史数据不断更新模型；

3.可以有效识别团伙诈骗；

4.时间复杂度和空间复杂度都很小，方便监控与部署，能耗小。

附图说明

图1是一种基于可疑性度量的团伙诈骗电话识别方法的流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例提出一种基于可疑性度量的团伙诈骗电话识别方法，引入了电话号码的可疑性度量和可疑性分值，根据一个时间窗口内可疑通话的次数去识别用户遭受团伙诈骗的等级。

本方法基本的现实假设为：诈骗电话号码为了实施诈骗，会广泛地寻找潜在受害者，使得诈骗电话号码的通讯关系大部分是单向的向外呼出电话，且通讯关系不稳定；电话号码拥有的不稳定通讯关系越多，可疑性越高；诈骗团伙会在短时间内多次以不同的电话，不同身份欺骗受害者，这些可疑电话都在受害者稳定通讯关系之外，短时间内用户接到的可疑电话越多，电话号码处于被团体诈骗状态的可能性越大。

本发明方法的主要流程如图1所示，本方法主要包括以下两个阶段：

1.统计阶段：利用历史通话记录构建电话号码间的通讯关系图，并计算电话号码的可疑性度量与可疑性分值，具体如下。

根据历史的通话记录，可以构建通讯关系图G＝(V，E，n)，其中V表示节点集，一个电话号码就是一个节点；E表示边集，存在一条边从节点u指向节点v，当且仅当u给v打过电话；n是边集E上的函数，n(u，v)表示一段时间内u呼叫v的次数。

根据假设，本方法将电话号码u的可疑性度量S(u)定义为：

其中d^out(u)为电话号码u的出度，即电话号码在一个时间窗口内给多少人打过电话；dⁱⁿ(u)为电话号码u的入度，即电话号码在一个时间窗口内被多少人呼叫过。电话号码在一个时间窗口内打出的电话越多，而接到的电话越少，

越大，电话号码u越可疑。电话号码u和电话号码v之间通讯次数n(u，v)越少，

越大。N^out(u)为电话号码u一段时间内联系过的所有人。而N^out(u)中通讯不频繁的电话号码越多，

越大，电话号码u越可疑。

根据上述公式可以计算出通讯关系图中每个电话号码的可疑性度量。然后，本方法按照比例

为不同的电话号码分配不同的可疑性分值，计算方式如下：

Index(S(u))即电话号码u的可疑性度量S(u)从大到小排名的比例。

的大小可以进行人为调节，从而使模型对不同场景有更好地适应性。

2.预警阶段：为每个电话号码统计一个时间窗口内呼入电话的可疑性分值之和，并对该电话号码遭受团伙诈骗的风险进行等级划分，具体如下。

团伙诈骗具有在短时间内向同一受害者发起多次通话的特点。为了更准确地捕捉这一类诈骗，本发明为每个电话号码统计其在一个时间窗口内接到呼入电话的可疑性分值c(·)之和，然后为该电话号码计算危险评分，优先推送危险评分高的电话号码给公安司法单位，进行人为介入，防止诈骗行为的进一步发展。对任意一个电话号码u，其危险评分D(u)定义为在一个滑动时间窗口T(比方10分钟)内接到呼入电话可疑性分值之和，即：

其中Lⁱⁿ(u)为电话号码u在一个时间窗口T内接到的所有呼入电话。在同一个时间窗口内，呼叫电话号码u的可疑通话越多，电话号码u被团伙诈骗的可能性越高。

关于风险等级约定，当2＜可疑性分值之和≤4时，该电话号码遭受诈骗的风险等级为C；当4＜可疑性分值之和≤8时，该电话号码遭受诈骗的风险等级为B；当可疑性分值之和＞8时，该电话号码遭受诈骗的风险等级为A。并按照该分值之和由高到底的顺序输出带风险等级的电话号码。

预警阶段处理完的数据可以用来持续更新电话号码通讯关系图、电话号码可疑性度量以及可疑性分值等内容。

为验证本发明方法的可行性和取得的技术效果，实验如下：

实验数据为中国某城市的真实通话记录(所有号码均经过脱敏处理，且隐去了前7位数字)，其中历史数据包含30万条通话记录，时间跨度为3小时，预警阶段的数据也包含30万条通话记录，时间跨度同样为3小时，总共涉及超76万个电话号码。实验部分只列出通话记录中疑似遭受团伙诈骗的通话记录。

表1中列出了可疑度最高的11个电话号码及其相关信息。这些电话号码都是在短时间内有许多呼出电话而被呼入的次数很少，这符合对可疑电话号码的假设。其中第10个和第11个电话号码虽然短时间内呼出的电话号码数量多，但是这两个电话号码与部分电话号码之间存在多次通话，因此其可疑性度量要低于前9个电话号码。

表1可疑度最高的11个电话号码

处理实时预警数据的结果如表2所示。可以看到疑似团伙诈骗的电话号码在短时间内多次呼叫同一个电话号码，这符合团伙诈骗的特点。

表2实时数据中的疑似团伙诈骗通话记录

时空复杂度分析：

本方法在处理历史数据时，只需要针对每条通话记录更新通讯图中的对应节点和边的相关信息，查询操作利用Hash表，时间复杂度为O(1)，因此统计阶段的时间复杂度为O(n)，其中n为历史数据量。

本方法在处理实时数据时，只需要查找主叫方的效果信息，查询操作的复杂度也是O(1)，因此预警阶段的时间复杂度也是O(m)，其中m为实时数据的数量。

在整个过程中，需要记录通讯关系图，并缓存时间窗口内的通话记录，因此空间复杂度为O(N+E+D)，其中N为通讯图中节点数量，E为通讯图中边的数量，D为时间窗口内通话记录的数量。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于可疑性度量的团伙诈骗电话识别方法，包括以下步骤：

计算电话号码的可疑性度量S(u)，公式如下：

其中，d^out(u)为电话号码u的出度，即电话号码在一个时间窗口内给多少人打过电话；dⁱⁿ(u)为电话号码u的入度，即电话号码在一个时间窗口内被多少人呼叫过；n(u,v)为一段时间内u呼叫v的次数；N^out(u)为电话号码u一段时间内联系过的所有人；

根据电话号码的可疑性度量S(u)从大到小排名的比例

为不同的电话号码分配不同的可疑性分值c(u)；可疑性分值c(u)的计算公式为：

为每个电话号码统计一个时间窗口内呼入电话的可疑性分值之和，作为危险评分D(u)，按照危险评分D(u)的大小对电话号码遭受团伙诈骗的风险进行等级划分，按照风险等级从高到低输出电话号码，从中识别出团伙诈骗电话。

2.如权利要求1所述的方法，其特征在于，比例

具体大小根据需要进行调节。

3.如权利要求1所述的方法，其特征在于，风险等级划分包括：当2<D(u)≤4时，风险等级为C；当4<D(u)≤8时，风险等级为B；当D(u)>8时，风险等级为A；风险程度A>B>C。

4.如权利要求1所述的方法，其特征在于，利用获得的不同风险等级的主叫方和被叫方电话号码、通话次数、可疑性分值更新电话号码的通讯关系图、可疑性度量和可疑性分值。

5.一种基于可疑性度量的团伙诈骗电话识别系统，其特征在于，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行上述权利要求1-4任一所述方法中各步骤的指令。

6.一种存储计算机程序的计算机可读存储介质，其特征在于，该计算机程序包括指令，该指令当由服务器的处理器执行时使得该服务器执行上述权利要求1-4任一所述方法中的各个步骤。