CN106331390A

CN106331390A - 一种基于通话数据来识别诈骗号码的方法和系统

Info

Publication number: CN106331390A
Application number: CN201611036866.3A
Authority: CN
Inventors: 申正; 洪永婷; 吉立妍; 张煊; 王昊; 王娜
Original assignee: Hangzhou Dongxin Beiyou Information Technology Co Ltd
Current assignee: Xinxun Digital Technology Hangzhou Co ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2017-01-11
Anticipated expiration: 2036-11-23
Also published as: CN106331390B

Abstract

一种基于通话数据来识别诈骗号码的方法和系统，当主叫用户向被叫用户发起呼叫时，方法包括有：步骤A、提取本次呼叫的主叫用户在当前时间周期内的所有通话记录，并从其所有通话记录中提取出主叫用户在当前时间周期内的所有通话号码，从而构成主叫用户的通话号码集；步骤B、根据所提取的通话记录来统计主叫用户和其所有通话号码在当前时间周期内的若干通话指标，然后根据所述若干通话指标来计算主叫号码的诈骗标识符，以识别主叫号码是否是疑似诈骗号码。本发明属于网络通信技术领域，能从现网所有发起呼叫的主叫号码中快速识别出疑似诈骗号码，从而有效防范电信诈骗。

Description

一种基于通话数据来识别诈骗号码的方法和系统

技术领域

本发明涉及一种基于通话数据来识别诈骗号码的方法和系统，属于网络通信技术领域。

背景技术

手机等移动终端作为目前普及的通讯工具，已经成为人们工作生活中不可或缺的一部分。随着近年来公安部、工信部及各级基础电信运营商的针对诈骗电话的持续打击治理，电信诈骗的猖獗势头得到有效遏制，但诈骗分子不断变换花样，由原来的广撒网的高频攻击，逐渐转向基于个人信息泄露的低频攻击，给诈骗号码的识别分析工作带来巨大挑战。如果能在主叫用户发起呼叫时快速识别出其中的疑似诈骗号码，则可以对电信诈骗进行有效防范。

当前也存在有一些识别诈骗号码的技术方案，如申请人的专利申请CN201410693578.X(申请名称：一种基于聚类算法的实时拦截诈骗电话的方法和系统，申请日：2014-11-26，申请人：杭州东信北邮信息技术有限公司)公开了一种基于聚类算法的实时拦截诈骗电话的方法和系统，方法包括：根据话单记录，计算所有主叫号码在一定时间周期内的若干个特征指标值，然后采用聚类算法将所有主叫号码划分到三个簇中，从而使得每个簇中的主叫号码具有相同或相近的特征指标值；将已确认诈骗号码的特征指标值分别和三个簇中主叫号码的特征指标值进行匹配，如果特征指标值所构成的取值区间越接近则说明匹配相似度越高，最后将其中匹配相似度最高的簇设置为诈骗电话簇、匹配相似度次之的簇设置为疑似诈骗电话簇；将诈骗号码簇和疑似诈骗号码簇中的所有主叫号码分别更新到取证号码表和拦截号码表中。这些技术方案均需要较大的计算量和计算时间，主要用于后台从全网话单记录中识别出诈骗号码，然后写入到拦截号码表中，而并不能从现网所有发起呼叫的主叫号码中快速、即时的识别出疑似诈骗号码。

因此，如何能从现网所有发起呼叫的主叫号码中快速识别出疑似诈骗号码，从而有效防范电信诈骗，已成为技术人员普遍关注的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种基于通话数据来识别诈骗号码的方法和系统，能从现网所有发起呼叫的主叫号码中快速识别出疑似诈骗号码，从而有效防范电信诈骗。

为了达到上述目的，本发明提供了一种基于通话数据来识别诈骗号码的方法，当主叫用户向被叫用户发起呼叫时，包括有：

步骤A、提取本次呼叫的主叫用户在当前时间周期内的所有通话记录，并从其所有通话记录中提取出主叫用户在当前时间周期内的所有通话号码，从而构成主叫用户的通话号码集；；

步骤B、根据所提取的通话记录来统计主叫用户和其所有通话号码在当前时间周期内的若干通话指标，然后根据所述若干通话指标来计算主叫号码的诈骗标识符，以识别主叫号码是否是疑似诈骗号码。

为了达到上述目的，本发明还提供了一种基于通话数据来识别诈骗号码的系统，包括有：

呼叫采集装置，用于将主叫用户向被叫用户发起的呼叫信息转发给诈骗标识符计算装置；；

诈骗标识符计算装置，用于提取本次呼叫的主叫用户在当前时间周期内的所有通话记录，并从其所有通话记录中提取出主叫用户在当前时间周期内的所有通话号码，从而构成主叫用户的通话号码集，然后根据所提取的通话记录来统计主叫用户和其所有通话号码在当前时间周期内的若干通话指标，最后根据所述若干通话指标来计算主叫号码的诈骗标识符，其中，主叫号码的诈骗标识符用于标识主叫号码是否是疑似诈骗号码；

诈骗识别装置，用于根据主叫号码的诈骗标识符，识别主叫号码是否是疑似诈骗号码。

与现有技术相比，本发明的有益效果是：本发明采集现网中呼叫的主叫用户的历史通话数据，并通过多个通话指标的计算和层层筛选，从而能快速识别出其中的疑似诈骗号码，计算方法简单易行，具有较高的可实用性；本发明还进一步计算多个诈骗标识符，然后根据多个诈骗标识符来识别主叫号码是否是疑似诈骗号码，从而充分利用了诈骗号码的各种通话特点，实现疑似诈骗号码的准确识别；在判断主叫号码是否是疑似诈骗号码之前，本发明还进一步采用系统白名单和被叫用户的常用联系人对主叫号码进行筛选，从而有效减少了计算时间，并大大提高了系统处理效率。

附图说明

图1是本发明一种基于通话数据来识别诈骗号码的方法流程图。

图2是本发明步骤B中计算主叫号码的第一诈骗标识符的具体操作流程图。

图3是本发明步骤B中计算主叫号码的第二诈骗标识符的具体操作流程图。

图4是本发明步骤B中计算主叫号码的第三诈骗标识符的具体操作流程图。

图5是在步骤A之前，本发明根据系统白名单和被叫用户的常用联系人对主叫号码进行筛选的具体操作流程图。

图6是本发明一种基于通话数据来识别诈骗号码的系统的组成结构示意图。

图7是诈骗标识符计算装置的组成结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种基于通话数据来识别诈骗号码的方法，当主叫用户向被叫用户发起呼叫时，包括有：

本发明还可以根据不同的通话指标来计算多个主叫号码的诈骗标识符，包括有：第一诈骗标识符、第二诈骗标识符、第三诈骗标识符，只要其中的一个诈骗标识符识别出主叫号码是疑似诈骗号码即可。下面将分别对每个主叫号码的诈骗标识符的计算过程进行具体阐述：

1、计算主叫号码的第一诈骗标识符，如图2所示，步骤B还可以进一步包括有：

步骤B11、逐一从主叫用户在当前时间周期内的所有通话记录中提取其和每个通话号码的相互通话记录，统计主叫用户在当前时间周期内作为每个通话号码的主叫时的总呼叫次数、作为每个通话号码的被叫时的总被呼叫次数、和作为每个通话号码的被叫时的平均接听时长，然后计算主叫号码相对每个通话号码的第一疑似诈骗标识符：其中，是主叫号码相对通话号码集中的第j个通话号码的第一疑似诈骗标识符，calling_nums_j是主叫用户在当前时间周期内作为第j个通话号码的主叫时的总呼叫次数，called_nums_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的总被呼叫次数，avg_called_ans_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的平均接通时长，ZP是诈骗通话次数阈值，ACA是平均接通时长阈值；

步骤B12、计算主叫号码的第一诈骗标识符：其中，M是主叫用户的通话号码集中的通话号码总数，S是疑似诈骗数阈值，其值为自然数，可以根据实际业务需要而设定，例如S＝10；

步骤B13、判断主叫号码的第一诈骗标识符是否大于1？如果是，则主叫号码是疑似诈骗号码；如果否，则主叫号码不是疑似诈骗号码。

2、计算主叫号码的第二诈骗标识符，如图3所示，步骤B还可以进一步包括有：

步骤B21、根据主叫用户在当前时间周期内的所有通话记录，统计主叫用户在当前时间周期内作为被叫时的总被呼叫次数作为被叫时的平均通话时长avg_called_ans，其中，M是主叫用户的通话号码集中的通话号码总数，called_nums_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的总被呼叫次数；

步骤B22、计算主叫号码的第二诈骗标识符：

其中，PF_max分别是频繁通话次数的最大阈值，ACA是平均接通时长阈值；

步骤B23、判断主叫号码的第二诈骗标识符是否是1？如果是，则主叫号码是疑似诈骗号码；如果否，则主叫号码不是疑似诈骗号码。

3、计算主叫号码的第三诈骗标识符，如图4所示，步骤B还可以进一步包括有：

步骤B31、根据主叫用户在当前时间周期内的所有通话记录，统计主叫用户在当前时间周期内作为每个通话号码的被叫时的总被呼叫次数，并计算主叫号码相对每个通话号码的第三疑似诈骗标识符：其中，是主叫号码相对通话号码集中的第j个通话号码的第三疑似诈骗标识符，called_nums_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的总被呼叫次数，ZP是诈骗通话次数阈值；

步骤B32、计算主叫号码的第三诈骗标识符：其中，M是主叫用户的通话号码集中的通话号码总数，S是疑似诈骗数阈值；

步骤B33、判断主叫号码的第三诈骗标识符是否大于1？如果是，则继续下一步；如果否，则主叫号码不是疑似诈骗号码，本流程结束；

步骤B34、判断是否此次呼叫的主、被叫用户的归属地不相同、且当前的呼叫时间处于忙时工作时段？如果是，则主叫号码是疑似诈骗号码；如果否，则主叫号码不是疑似诈骗号码，其中，忙时工作时段可以设置为[9:00AM，5:00PM]。

在识别主叫号码是否是疑似诈骗号码之前，本发明还可以根据系统白名单和被叫用户的常用联系人对主叫号码进行筛选，即当主叫号码不在系统白名单、且不是被叫用户的常用联人时，再判断主叫号码是否是疑似诈骗号码，从而提高系统处理效率，因而如图5所示，本发明在步骤A之前还可以包括有：

步骤1、判断主叫号码是否在系统白名单之内？如果是，则主叫号码不是疑似诈骗号码，本流程结束；如果否，则继续下一步；

步骤2、从主、被叫用户在当前时间周期内的相互通话记录中提取主叫用户作为主叫时的通话记录；

步骤3、统计主叫用户在当前时间周期内作为主叫时的总呼叫次数calling_nums、主叫用户在当前时间周期内作为主叫时的接通次数calling_nums_jt、主叫用户在当前时间周期内作为主叫时的平均接通时长avg_calling_ans，计算主叫用户在当前时间周期内作为主叫时的接通率：

步骤4、计算本次呼叫的主叫用户对于被叫用户的联系标识符：其中，PF_min、PF_max分别是频繁通话次数的最小、最大阈值，P是接通率阈值，ACA是平均接通时长阈值；

步骤5、判断主叫用户对于被叫用户的联系标识符是否是0？如果是，则说明主叫用户是被叫用户的常用联系人，主叫号码不是疑似诈骗号码，本流程结束；如果否，则继续步骤A。

所有阈值可以根据实际业务需要而灵活设置，根据大量试验证明，当上述阈值设置如下时，本发明可以取得最优的技术效果：ZP＝3、ACA＝6秒、PF_min＝6、PF_max＝50、S＝10、P＝0.876。

如图6所示，本发明一种基于通话数据来识别诈骗号码的系统，包括有：

呼叫采集装置，用于将主叫用户向被叫用户发起的呼叫信息转发给诈骗标识符计算装置；

诈骗标识符计算装置可以根据不同的通话指标来计算多个主叫号码的诈骗标识符，包括有：第一诈骗标识符、第二诈骗标识符、第三诈骗标识符，然后根据所计算出的诈骗标识符来识别主叫号码是否是疑似诈骗号码。如图7所示，诈骗标识符计算装置还可以进一步包括有第一诈骗标识符计算单元、第二诈骗标识符计算单元和第三诈骗标识符计算单元，其中：

第一诈骗标识符计算单元，用于逐一从主叫用户在当前时间周期内的所有通话记录中提取其和每个通话号码的相互通话记录，统计主叫用户在当前时间周期内作为每个通话号码的主叫时的总呼叫次数、作为每个通话号码的被叫时的总被呼叫次数、和作为每个通话号码的被叫时的平均接听时长，然后计算主叫号码相对每个通话号码的第一疑似诈骗标识符：其中，是主叫号码相对通话号码集中的第j个通话号码的第一疑似诈骗标识符，calling_nums_j是主叫用户在当前时间周期内作为第j个通话号码的主叫时的总呼叫次数，called_nums_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的总被呼叫次数，avg_called_ans_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的平均接通时长，ZP是诈骗通话次数阈值，ACA是平均接通时长阈值，最后计算主叫号码的第一诈骗标识符：其中，M是主叫用户的通话号码集中的通话号码总数，S是疑似诈骗数阈值；

第二诈骗标识符计算单元，用于根据主叫用户在当前时间周期内的所有通话记录，统计主叫用户在当前时间周期内作为被叫时的总被呼叫次数作为被叫时的平均通话时长avg_called_ans，其中，M是主叫用户的通话号码集中的通话号码总数，called_nums_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的总被呼叫次数，然后计算主叫号码的第二诈骗标识符：其中，PF_max分别是频繁通话次数的最大阈值，ACA是平均接通时长阈值；

第三诈骗标识符计算单元，用于根据主叫用户在当前时间周期内的所有通话记录，统计主叫用户在当前时间周期内作为每个通话号码的被叫时的总被呼叫次数，并计算主叫号码相对每个通话号码的第三疑似诈骗标识符：其中，是主叫号码相对通话号码集中的第j个通话号码的第三疑似诈骗标识符，called_nums_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的总被呼叫次数，然后计算主叫号码的第三诈骗标识符：其中，M是主叫用户的通话号码集中的通话号码总数，S是疑似诈骗数阈值，最后判断是否此次呼叫的主、被叫用户的归属地不相同、且当前的呼叫时间处于忙时工作时段，如果否，则将主叫号码的第三诈骗标识符更新为0，其中，忙时工作时段可以设置为[9:00AM，5:00PM]。

诈骗识别装置进一步包括有：

诈骗标识符判断单元，用于读取诈骗标识符计算装置所计算出的主叫号码的诈骗标识符，并判断所读取的诈骗标识符是否是大于或等于1，如果是，则主叫号码是疑似诈骗号码；如果否，则主叫号码不是疑似诈骗号码。

在识别主叫号码是否是疑似诈骗号码之前，本发明还可以根据系统白名单和被叫用户的常用联系人对主叫号码进行筛选，即当主叫号码不在系统白名单、且不是被叫用户的常用联人时，再判断主叫号码是否是疑似诈骗号码，从而提高系统处理效率，因而本发明还包括有：

系统白名单筛选装置，用于判断主叫号码是否在系统白名单之内，如果是，则主叫号码不是疑似诈骗号码；

常用联系人筛选装置，用于从主、被叫用户在当前时间周期内的相互通话记录中提取主叫用户作为主叫时的通话记录，统计主叫用户在当前时间周期内作为主叫时的总呼叫次数calling_nums、主叫用户在当前时间周期内作为主叫时的接通次数calling_nums_jt、主叫用户在当前时间周期内作为主叫时的平均接通时长avg_calling_ans，计算主叫用户在当前时间周期内作为主叫时的接通率：然后计算此次呼叫的主叫用户对于被叫用户的联系标识符：其中，PF_min、PF_max分别是频繁通话次数的最小、最大阈值，P是接通率阈值，ACA是平均接通时长阈值，最后判断主叫用户对于被叫用户的联系标识符是否是0，如果是，则说明主叫用户是被叫用户的常用联系人，主叫号码不是疑似诈骗号码。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于通话数据来识别诈骗号码的方法，其特征在于，当主叫用户向被叫用户发起呼叫时，包括有：

步骤A、提取本次呼叫的主叫用户在当前时间周期内的所有通话记录，并从其所有通话记录中提取出主叫用户在当前时间周期内的所有通话号码，从而构成主叫用户的通话号码集；

2.根据权利要求1所述的方法，其特征在于，主叫号码的诈骗标识符包括有：第一诈骗标识符，步骤B进一步包括有：

步骤B12、计算主叫号码的第一诈骗标识符：其中，M是主叫用户的通话号码集中的通话号码总数，S是疑似诈骗数阈值；

步骤B13、判断主叫号码的第一诈骗标识符是否大于1，如果是，则主叫号码是疑似诈骗号码。

3.根据权利要求1所述的方法，其特征在于，主叫号码的诈骗标识符包括有：第二诈骗标识符，步骤B进一步包括有：

步骤B22、计算主叫号码的第二诈骗标识符：其中，PF_max分别是频繁通话次数的最大阈值，ACA是平均接通时长阈值；

步骤B23、判断主叫号码的第二诈骗标识符是否是1，如果是，则主叫号码是疑似诈骗号码。

4.根据权利要求1所述的方法，其特征在于，主叫号码的诈骗标识符包括有：第三诈骗标识符，步骤B进一步包括有：

步骤B33、判断主叫号码的第三诈骗标识符是否大于1，如果是，则继续下一步；

步骤B34、判断是否此次呼叫的主、被叫用户的归属地不相同、且当前的呼叫时间处于忙时工作时段，如果是，则主叫号码是疑似诈骗号码。

5.根据权利要求1所述的方法，其特征在于，步骤A之前还包括有：

步骤1、判断主叫号码是否在系统白名单之内，如果是，则主叫号码不是疑似诈骗号码，本流程结束；如果否，则继续下一步；

步骤5、判断主叫用户对于被叫用户的联系标识符是否是0，如果是，则主叫号码不是疑似诈骗号码，本流程结束；如果否，则继续步骤A。

6.一种基于通话数据来识别诈骗号码的系统，其特征在于，包括有：

7.根据权利要求6所述的系统，其特征在于，诈骗标识符计算装置进一步包括有：

第一诈骗标识符计算单元，用于逐一从主叫用户在当前时间周期内的所有通话记录中提取其和每个通话号码的相互通话记录，统计主叫用户在当前时间周期内作为每个通话号码的主叫时的总呼叫次数、作为每个通话号码的被叫时的总被呼叫次数、和作为每个通话号码的被叫时的平均接听时长，然后计算主叫号码相对每个通话号码的第一疑似诈骗标识符：其中，是主叫号码相对通话号码集中的第j个通话号码的第一疑似诈骗标识符，calling_nums_j是主叫用户在当前时间周期内作为第j个通话号码的主叫时的总呼叫次数，called_nums_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的总被呼叫次数，avg_called_ans_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的平均接通时长，ZP是诈骗通话次数阈值，ACA是平均接通时长阈值，最后计算主叫号码的第一诈骗标识符：其中，M是主叫用户的通话号码集中的通话号码总数，S是疑似诈骗数阈值。

8.根据权利要求6所述的系统，其特征在于，诈骗标识符计算装置进一步包括有：

第二诈骗标识符计算单元，用于根据主叫用户在当前时间周期内的所有通话记录，统计主叫用户在当前时间周期内作为被叫时的总被呼叫次数作为被叫时的平均通话时长avg_called_ans，其中，M是主叫用户的通话号码集中的通话号码总数，called_nums_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的总被呼叫次数，然后计算主叫号码的第二诈骗标识符：其中，PF_max分别是频繁通话次数的最大阈值，ACA是平均接通时长阈值。

9.根据权利要求6所述的系统，其特征在于，诈骗标识符计算装置进一步包括有：

第三诈骗标识符计算单元，用于根据主叫用户在当前时间周期内的所有通话记录，统计主叫用户在当前时间周期内作为每个通话号码的被叫时的总被呼叫次数，并计算主叫号码相对每个通话号码的第三疑似诈骗标识符：其中，是主叫号码相对通话号码集中的第j个通话号码的第三疑似诈骗标识符，called_nums_j是主叫用户在当前时间周期内作为第j个通话号码的被叫时的总被呼叫次数，然后计算主叫号码的第三诈骗标识符：其中，M是主叫用户的通话号码集中的通话号码总数，S是疑似诈骗数阈值，最后判断是否此次呼叫的主、被叫用户的归属地不相同、且当前的呼叫时间处于忙时工作时段，如果否，则将主叫号码的第三诈骗标识符更新为0。

10.根据权利要求7、8、或9所述的系统，其特征在于，诈骗识别装置进一步包括有：

诈骗标识符判断单元，用于读取诈骗标识符计算装置所计算出的主叫号码的诈骗标识符，并判断所读取的诈骗标识符是否是大于或等于1，如果是，则主叫号码是疑似诈骗号码。

11.根据权利要求6所述的系统，其特征在于，还包括有：

常用联系人筛选装置，用于从主、被叫用户在当前时间周期内的相互通话记录中提取主叫用户作为主叫时的通话记录，统计主叫用户在当前时间周期内作为主叫时的总呼叫次数calling_nums、主叫用户在当前时间周期内作为主叫时的接通次数calling_nums_jt、主叫用户在当前时间周期内作为主叫时的平均接通时长avg_calling_ans，计算主叫用户在当前时间周期内作为主叫时的接通率：然后计算此次呼叫的主叫用户对于被叫用户的联系标识符：其中，PF_min、PF_max分别是频繁通话次数的最小、最大阈值，P是接通率阈值，ACA是平均接通时长阈值，最后判断主叫用户对于被叫用户的联系标识符是否是0，如果是，则主叫号码不是疑似诈骗号码。