CN106970911A

CN106970911A - 一种基于大数据和机器学习的防范电信诈骗系统及方法

Info

Publication number: CN106970911A
Application number: CN201710211148.3A
Authority: CN
Inventors: 陈春艳; 陈升东; 董雯雯; 陈健彬; 李引
Original assignee: Guangzhou Institute of Software Application Technology Guangzhou GZIS
Current assignee: Guangzhou Institute of Software Application Technology Guangzhou GZIS
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2017-07-21

Abstract

本发明公开了一种基于大数据和机器学习的防范电信诈骗系统及方法，该系统包括：移动端，用于在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定，采用机器学习算法检测是否为电信诈骗，如果检测结果判定为电信诈骗，则将该诈骗数据信息上传到大数据分析端；大数据分析端，用于实时统计从移动端上传举报的诈骗数据信息，针对收到举报数量超过一定阈值的银行卡账号或/和电话号码，向诈骗阻断治理端发送诈骗预警信息；诈骗阻断治理端，用于在接收到诈骗预警信息时及时采取相应措施阻断电信诈骗事件的发生。本发明能联合移动端、运营商、公安、银行等机构，不仅能实现快速有效防范还能实现及时打击电信诈骗。

Description

一种基于大数据和机器学习的防范电信诈骗系统及方法

技术领域

本发明涉及信息安全技术领域，具体涉及一种基于大数据和机器学习的防范电信诈骗系统及方法。

背景技术

“互联网+”时代，我们每天都面临身份信息泄露的可能性，每天都要大量使用身份信息，寄快递、挂号、办证等，要保证信息不被人有意收集，十分困难。随着互联网电话的出现和普及，电信诈骗的便利性大大提升。例如，犯罪分子可利用改号软件伪装成国家机关，或者伪装成银行利用电话银行密码验证机制，骗取受害人银行密码完成犯罪；获取受害人基本信息、取得空白银行卡等都可以通过互联网完成，诈骗非法所得也多是通过网上银行等渠道转款，并通过互联网金融等途径洗白。

同时，电信欺诈用户的欺诈手段也越来越隐蔽并且经常变换，例如同一个电信欺诈用户使用一种欺诈手段后，运营商往往还没有发现，电信欺诈用户就更换为另外一种手段继续欺诈，或同时使用不同类型的电信欺诈手段，但每种的欺诈手段的使用次数都比较少，导致运营商难以发现，也增加后续公安的执法难度和成本。以徐玉玉案为例，由于涉及跨省联动办案等，有专家估计总体办案成本远高于被骗的9000多元。深圳公安部门曾透露，去年从国外抓回39个电信诈骗嫌疑人，平均追捕成本高达28万元/人。

正因为当前无法从源头上杜绝电信欺诈，在末端打击电信欺诈又存在困难且成本高的问题，因此急需从中间环节入手、以新型技术手段介入就成了一个更具操作性的方式。内蒙古公安与通信运营商合作推出的预警系统，通过电话号码标记，既提升了公众的警惕，实施成本也相当低，可谓事半功倍。在一些国家，技术手段已经成为打击电信诈骗的主要手段。比如美国联邦通信委员会敦促AT&T、苹果、谷歌等通信公司，联手开发主叫号码识别技术来屏蔽假号码；而在日本，手机制造商富士通和名古屋大学研发了手机对话内容分析功能，将诈骗常用的关键词设定为危险词语，一旦通话内容中包含该类词语，手机马上发出警报和提示。

如何关联分析不同的电信欺诈事件，寻找电信欺诈用户，进而从根本上治理电信欺诈，是通信技术领域亟待解决的问题。

现有的电信诈骗预警系统存在如下缺陷：

1)、当前运营商针对欺诈事件采取出现一种治理一种，单个欺诈事件单个治理的电信欺诈治理方法，该方法已经远远跟不上当前电信欺诈手段的发展；

2)、现有的电信诈骗预警系统，比如电话号码标记，方式单一，很难应对那种改号拨号的电信欺诈；

3)、现有的电信诈骗预警系统大多数是在移动端对移动用户的预警，这种预警无法确保针对所有用户都有效果，而且不能实现电信诈骗预警防范和治理打击的统一；

4)、现有的电信诈骗预警系统没有整合用户、运营商、公安部门等资源，造成电信诈骗预警缺乏时效性，打击治理电信诈骗困难。

发明内容

有鉴于此，为了解决现有技术中的预警延时、治理打击电信诈骗困难的技术问题，本发明提出一种基于大数据和机器学习的防范电信诈骗系统及方法，实现实时有效的欺诈预警和低成本的治理。

本发明通过以下技术手段解决上述问题：

一种基于大数据和机器学习的防范电信诈骗系统，包括：

移动端，用于在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定，采用机器学习算法检测是否为电信诈骗，如果检测结果判定为电信诈骗，则将该诈骗数据信息上传到大数据分析端；

大数据分析端，用于实时统计从移动端上传举报的诈骗数据信息，针对收到举报数量超过一定阈值的银行卡账号或/和电话号码，向诈骗阻断治理端发送诈骗预警信息；

诈骗阻断治理端，用于在接收到诈骗预警信息时及时采取相应措施阻断电信诈骗事件的发生。

进一步地，所述移动端包括：

数据采集模块，用于通过接收短信消息或者来电消息来获取电信数据；

诈骗评估检测模块，用于通过预定的约束规则针对当前的电信数据进行诈骗检测判定，采用机器学习算法检测是否为电信诈骗，如果检测结果判定为电信诈骗，则将该诈骗数据信息上传到大数据分析端；

诈骗定性规则库，用于存储预定的约束规则。

进一步地，所述诈骗评估检测模块采用机器学习算法中的决策树方法检测是否为电信诈骗。

进一步地，所述决策树方法的构建步骤包括：

S1：开始将所有预设规则看作一个节点；

S2：遍历每个规则的每一种分割方式，找到最好的分割点；

S3：分割成两个节点N₁和N₂；

S4：对节点N₁和N₂分别继续执行S2至S3，直到每个节点足够评估为电信诈骗。

进一步地，所述大数据分析端包括诈骗数据中心和诈骗数据深度挖掘模块；

所述诈骗数据中心用于实时统计从移动端上传举报的诈骗数据信息，针对收到举报数量超过一定阈值的银行卡账号或/和电话号码，向诈骗阻断治理端发送诈骗预警信息；

其中诈骗数据中心包括：

诈骗电话号码数据库，用于存储由运营商提供的电信诈骗电话号码；

诈骗收款账号数据库，用于存储由各大银行提供的电信诈骗收款账号；

电信诈骗历史数据库，用于存储电信诈骗历史数据；

诈骗套路模型数据库，用于存储电信诈骗套路模型；

所述诈骗数据深度挖掘模块用于通过提取电信诈骗历史数据库中的电信诈骗历史数据特征，采用机器学习算法对诈骗数据进行文本分析、语音分析、行为分析，综合这些多维度的诈骗特征分析结果，总结归纳出一个完善的电信诈骗套路模型，保存在诈骗套路模型数据库中，并将诈骗特征分析结果下发到移动端，更新移动端中的诈骗定性规则库。

进一步地，所述诈骗数据深度挖掘模块包括：

文本分析单元，用于采用大数据文本挖掘方法针对短信诈骗数据做分析，对短信内容进行预处理、短信文本分词，提取诈骗类短信中的高频词和标记信息；

语言分析单元，用于采用机器学习中自然语言处理技术针对电话诈骗数据做分析，针对通话记录进行词法分析、语法分析、情感分析，在对通话记录理解的层面，进一步使用机器学习中语义理解技术，深度挖掘诈骗通话记录中的语义特征；

行为分析单元，用于针对诈骗通话统计分析诈骗电话的通话时长、拨出拨入情况、连续通话时间长短情况。

进一步地，所述诈骗数据中心还用于通过诈骗电话号码数据库和诈骗收款账号数据库进一步分析接收到的电信数据是否为电信诈骗。

进一步地，所述诈骗数据中心还用于通过诈骗套路模型数据库进一步验证接收到的电信数据是否为电信诈骗。

进一步地，所述诈骗阻断治理端包括运营商、银行、公安。

一种基于大数据和机器学习的防范电信诈骗方法，包括：

移动端在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定，采用机器学习算法检测是否为电信诈骗，如果检测结果判定为电信诈骗，则将该诈骗数据信息上传到大数据分析端；

大数据分析端实时统计从移动端上传举报的诈骗数据信息，针对收到举报数量超过一定阈值的银行卡账号或/和电话号码，向诈骗阻断治理端发送诈骗预警信息；

诈骗阻断治理端在接收到诈骗预警信息时及时采取相应措施阻断电信诈骗事件的发生。

与现有技术相比，本发明的有益效果如下：

1)、本发明在接收到短信或电话时，就自启动诈骗评估检测模块，针对满足诈骗检测判定的电信数据上传到诈骗数据中心，诈骗数据中心及时作出阻断欺诈的决策，该方案能够及时有效的防范欺诈事件发生；

2)、本发明所提到的移动端的诈骗评估检测模块是自启动的，不需要移动用户人为操作，可以有效阻断打击那种让被害人电话一直占线的欺诈事件模型；

3)、本发明所提到的大数据分析端，通过统计分析移动用户举报的数据，决策出是否诈骗，算法简单且能有效打击广撒网型的电信诈骗；

4)、本发明所提到的防范电信诈骗的方法能联合移动端、运营商、公安、银行等机构，不仅能实现快速有效防范还能实现及时打击电信诈骗。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于大数据和机器学习的防范电信诈骗系统的结构示意图；

图2是本发明基于大数据和机器学习的防范电信诈骗系统的实施流程图；

图3是本发明检测通话数据是否为电信诈骗的决策树模型图；

图4是本发明检测短信数据是否为电信诈骗的决策树模型图；

图5是本发明基于大数据和机器学习的防范电信诈骗方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明提供一种基于大数据和机器学习的防范电信诈骗系统，包括：

所述移动端包括：

诈骗定性规则库，用于存储预定的约束规则。

移动端在接收到短信消息或者来电消息的时候，开机自启动的诈骗评估检测模块会针对当前的电信数据(短信文字内容或者通话语音内容)进行诈骗检测判定。诈骗评估检测模块会根据移动端上诈骗定性规则库中预定的一些简单约束规则(如陌生号码的短息及来电、显示为高频呼叫号码、短信内容含有账号)，采用机器学习算法检测是否为电信诈骗，如果检测结果判定为电信诈骗，则打包该诈骗数据信息(短信号码、短信内容，通话号码、通话语音、通话时间长度，电信数据接收时间)上传到大数据分析端的诈骗数据中心。

所述大数据分析端包括诈骗数据中心和诈骗数据深度挖掘模块；

诈骗数据中心会实时统计从移动端上传举报的诈骗数据，其中可能包括电话号码、收款账号等。针对收到举报数量超过一定阈值的银行卡账号和电话号码，诈骗数据中心会向相关部门发送诈骗预警，相关部门及时采取相应措施阻断电信诈骗事件发生。

其中诈骗数据中心包括：

电信诈骗历史数据库，用于存储电信诈骗历史数据；

诈骗套路模型数据库，用于存储电信诈骗套路模型；

所述诈骗数据深度挖掘模块包括：

诈骗数据深度挖掘模块通过提取电信诈骗历史数据特征，采用机器学习相关算法对诈骗数据进行文本分析、语音分析，行为分析等。诈骗数据深度挖掘模块不需要实时执行分析操作，只需要定期执行，或者诈骗数据骤增的时候执行。诈骗数据深度挖掘模块综合这些多维度的诈骗特征分析结果，建立一个完善的诈骗套路模型数据库，该诈骗套路模型数据库可以针对诈骗数据中心接收到的新的诈骗数据做交叉验证，从而提高诈骗预警的准确性。

诈骗数据深度挖掘过程中，可以不断地用诈骗数据中心的数据和参数调整来保证挖掘出来的诈骗套路模型是有用的。防范电信诈骗系统中的大数据分析端得到的诈骗关键词或其他特征都可以下发到移动端，用于补充完善移动端诈骗定性规则库，规则库的丰富可确保诈骗检测的准确性。

所述诈骗数据中心还用于通过诈骗电话号码数据库和诈骗收款账号数据库进一步分析接收到的电信数据是否为电信诈骗。

所述诈骗数据中心还用于通过诈骗套路模型数据库进一步验证接收到的电信数据是否为电信诈骗。

所述诈骗阻断治理端包括运营商、银行、公安。

本发明提出的基于大数据和机器学习的防范电信诈骗系统整合了移动端、运营商、公安、银行等多方资源，能实现电信诈骗预警和打击治理的实时和统一。本发明中的大数据分析端是在服务端或云端，移动端只需要利用常用机器学习算法对当前电信数据做诈骗检测，因此对移动端没有过多的存储计算资源要求，实现了整个方案的可操作性。

如图2所示，本发明基于大数据和机器学习的防范电信诈骗系统的实施流程包括：

1)、移动端接收到短信消息或者电话消息后，移动端自带的诈骗评估检测模块开启诈骗检测扫描功能；诈骗评估检测模块可以是一个检测电信诈骗之类的APP，该APP需要添加在移动端的开机自启动项。

2)、诈骗评估检测模块针对移动端当前接收的电信数据进行预处理，预处理操作可以包括解析电话号码，对短信内容进行诈骗特征词提取等。

3)、电信数据预处理完后，诈骗评估检测模块评估当前电信数据是否属于电信诈骗，检测识别方法可以采用机器学习中的决策树方法。根据预设的一些诈骗定性规则构建决策树，预设的诈骗定性规则比如根据接收到的消息是否为通知类消息，消息中的号码是否是正常号码，当前通话号码是否为标记的高频呼叫号码，短信内容是否含有账号或网址等电信诈骗特征数据。如图3所示为识别通话诈骗数据的决策树模型，图4为识别短信诈骗数据的决策树模型。诈骗定性规则会不断丰富，因此相对应的决策树模型会不断更新，从而不断适应新的电信诈骗手段和模型，快速准确的评估检测诈骗事件。

构建决策树的步骤：

S1：开始将所有预设规则看作一个节点；

S2：遍历每个规则的每一种分割方式，找到最好的分割点；

S3：分割成两个节点N₁和N₂；

S4：对节点N₁和N₂分别继续执行2至3步，直到每个节点足够评估为电信诈骗。

4)、诈骗评估检测模块如果检测出电信数据为非电信诈骗，则流程结束。如果评估检测为诈骗则封装电信数据上传举报到诈骗数据中心，移动端需要具备这种上传数据举报功能。

5)、诈骗数据中心实时统计分析所接收到的诈骗举报数据，针对特定的举报电话或者账号，当统计到举报的数据大于一定阈值时，及时给相关部门发送诈骗预警。如当特定电话号码被举报为诈骗电话号码时，运营商可以介入采取提醒接听者、停止服务甚至直接侦查等方式予以处理。

6)、诈骗数据中心包含有联网实时的诈骗电话号码数据库、实时的诈骗收款账号数据库、诈骗套路模型数据库，这些数据库可进一步分析接收到的举报电信数据是否为电信诈骗。实时的诈骗电话号码数据库可以由运营商提供数据建立，联网实时的诈骗收款账号数据库可以由各大银行提供数据建立，诈骗套路模型是通过电信诈骗历史数据进行大数据进行挖掘分析建立。

7)、大数据分析端将电信诈骗历史数据输入到机器学习系统里，进行有监督或者半监督的学习，机器学习系统自动找出电信诈骗的相关性来。

8)、诈骗数据深度挖掘模块中的文本分析针对短信诈骗数据做分析，文本分析可采用常用的大数据文本挖掘的相关方法。开始对短信内容进行预处理，短信文本分词，提取诈骗类短信中的高频词和标记信息，这些高频词和标记信息可下发到移动端，更新移动端中的诈骗定性规则库。

9)、诈骗数据深度挖掘模块中的语音分析针对电话诈骗数据做分析，语音分析采用机器学习中自然语言处理相关技术，针对通话记录进行词法分析、语法分析、情感分析。在对通话记录理解的层面，进一步使用语义理解等机器学习技术，深度挖掘诈骗通话记录中的语义特征。

10)、根据电信诈骗历史数据深度挖掘诈骗事件的行为模型，比如针对诈骗通话可以统计分析诈骗电话的通话时长，拨出拨入情况，连续通话时间长短等情况，多维度的分析电信诈骗历史数据，总结归纳出诈骗事件的常用模型，可用于诈骗检测的交叉验证。

11)、大数据分析端可根据分析结果建立诈骗事件的常用模型，这些模型可以用于诈骗数据中心进一步验证电信诈骗的准确性，从而提高了诈骗检测的准确率。

12)、诈骗数据深度挖掘模块挖掘出来的诈骗特征，可用于移动端的电信诈骗检测的定性规则，诈骗数据深度挖掘模块挖掘了丰富多维的诈骗特征，为移动端电信诈骗的检测的准确性提供了保障。

实施例2

如图5所示，本发明一种基于大数据和机器学习的防范电信诈骗方法，包括：

与现有技术相比，本发明的有益效果如下：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于大数据和机器学习的防范电信诈骗系统，其特征在于，包括：

2.根据权利要求1所述的基于大数据和机器学习的防范电信诈骗系统，其特征在于，所述移动端包括：

诈骗定性规则库，用于存储预定的约束规则。

3.根据权利要求2所述的基于大数据和机器学习的防范电信诈骗系统，其特征在于，所述诈骗评估检测模块采用机器学习算法中的决策树方法检测是否为电信诈骗。

4.根据权利要求3所述的基于大数据和机器学习的防范电信诈骗系统，其特征在于，所述决策树方法的构建步骤包括：

S1：开始将所有预设规则看作一个节点；

S2：遍历每个规则的每一种分割方式，找到最好的分割点；

S3：分割成两个节点N₁和N₂；

5.根据权利要求1所述的基于大数据和机器学习的防范电信诈骗系统，其特征在于，所述大数据分析端包括诈骗数据中心和诈骗数据深度挖掘模块；

其中诈骗数据中心包括：

电信诈骗历史数据库，用于存储电信诈骗历史数据；

诈骗套路模型数据库，用于存储电信诈骗套路模型；

6.根据权利要求5所述的基于大数据和机器学习的防范电信诈骗系统，其特征在于，所述诈骗数据深度挖掘模块包括：

7.根据权利要求5所述的基于大数据和机器学习的防范电信诈骗系统，其特征在于，所述诈骗数据中心还用于通过诈骗电话号码数据库和诈骗收款账号数据库进一步分析接收到的电信数据是否为电信诈骗。

8.根据权利要求5所述的基于大数据和机器学习的防范电信诈骗系统，其特征在于，所述诈骗数据中心还用于通过诈骗套路模型数据库进一步验证接收到的电信数据是否为电信诈骗。

9.根据权利要求1所述的基于大数据和机器学习的防范电信诈骗系统，其特征在于，所述诈骗阻断治理端包括运营商、银行、公安。

10.一种基于大数据和机器学习的防范电信诈骗方法，其特征在于，包括：