CN106970911A - 一种基于大数据和机器学习的防范电信诈骗系统及方法 - Google Patents
一种基于大数据和机器学习的防范电信诈骗系统及方法 Download PDFInfo
- Publication number
- CN106970911A CN106970911A CN201710211148.3A CN201710211148A CN106970911A CN 106970911 A CN106970911 A CN 106970911A CN 201710211148 A CN201710211148 A CN 201710211148A CN 106970911 A CN106970911 A CN 106970911A
- Authority
- CN
- China
- Prior art keywords
- swindle
- telecommunication fraud
- data
- machine learning
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 36
- 238000007405 data analysis Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 230000005540 biological transmission Effects 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims description 48
- 238000003066 decision tree Methods 0.000 claims description 12
- 230000006872 improvement Effects 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 7
- 238000005065 mining Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- KEIFWROAQVVDBN-UHFFFAOYSA-N 1,2-dihydronaphthalene Chemical compound C1=CC=C2C=CCCC2=C1 KEIFWROAQVVDBN-UHFFFAOYSA-N 0.000 claims description 4
- GRJMIMFTPGNXIC-UHFFFAOYSA-N Dialin Natural products C1=C(OC)C(OC)=CC=C1C1C2=CC(OC)=C(OC)C=C2C=C(C)C1C GRJMIMFTPGNXIC-UHFFFAOYSA-N 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000006698 induction Effects 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000009412 basement excavation Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 2
- 230000000903 blocking effect Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000002265 prevention Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005266 casting Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- ZRHANBBTXQZFSP-UHFFFAOYSA-M potassium;4-amino-3,5,6-trichloropyridine-2-carboxylate Chemical compound [K+].NC1=C(Cl)C(Cl)=NC(C([O-])=O)=C1Cl ZRHANBBTXQZFSP-UHFFFAOYSA-M 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72484—User interfaces specially adapted for cordless or mobile telephones wherein functions are triggered by incoming communication events
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Computer Security & Cryptography (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于大数据和机器学习的防范电信诈骗系统及方法,该系统包括:移动端,用于在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;大数据分析端,用于实时统计从移动端上传举报的诈骗数据信息,针对收到举报数量超过一定阈值的银行卡账号或/和电话号码,向诈骗阻断治理端发送诈骗预警信息;诈骗阻断治理端,用于在接收到诈骗预警信息时及时采取相应措施阻断电信诈骗事件的发生。本发明能联合移动端、运营商、公安、银行等机构,不仅能实现快速有效防范还能实现及时打击电信诈骗。
Description
技术领域
本发明涉及信息安全技术领域,具体涉及一种基于大数据和机器学习的防范电信诈骗系统及方法。
背景技术
“互联网+”时代,我们每天都面临身份信息泄露的可能性,每天都要大量使用身份信息,寄快递、挂号、办证等,要保证信息不被人有意收集,十分困难。随着互联网电话的出现和普及,电信诈骗的便利性大大提升。例如,犯罪分子可利用改号软件伪装成国家机关,或者伪装成银行利用电话银行密码验证机制,骗取受害人银行密码完成犯罪;获取受害人基本信息、取得空白银行卡等都可以通过互联网完成,诈骗非法所得也多是通过网上银行等渠道转款,并通过互联网金融等途径洗白。
同时,电信欺诈用户的欺诈手段也越来越隐蔽并且经常变换,例如同一个电信欺诈用户使用一种欺诈手段后,运营商往往还没有发现,电信欺诈用户就更换为另外一种手段继续欺诈,或同时使用不同类型的电信欺诈手段,但每种的欺诈手段的使用次数都比较少,导致运营商难以发现,也增加后续公安的执法难度和成本。以徐玉玉案为例,由于涉及跨省联动办案等,有专家估计总体办案成本远高于被骗的9000多元。深圳公安部门曾透露,去年从国外抓回39个电信诈骗嫌疑人,平均追捕成本高达28万元/人。
正因为当前无法从源头上杜绝电信欺诈,在末端打击电信欺诈又存在困难且成本高的问题,因此急需从中间环节入手、以新型技术手段介入就成了一个更具操作性的方式。内蒙古公安与通信运营商合作推出的预警系统,通过电话号码标记,既提升了公众的警惕,实施成本也相当低,可谓事半功倍。在一些国家,技术手段已经成为打击电信诈骗的主要手段。比如美国联邦通信委员会敦促AT&T、苹果、谷歌等通信公司,联手开发主叫号码识别技术来屏蔽假号码;而在日本,手机制造商富士通和名古屋大学研发了手机对话内容分析功能,将诈骗常用的关键词设定为危险词语,一旦通话内容中包含该类词语,手机马上发出警报和提示。
如何关联分析不同的电信欺诈事件,寻找电信欺诈用户,进而从根本上治理电信欺诈,是通信技术领域亟待解决的问题。
现有的电信诈骗预警系统存在如下缺陷:
1)、当前运营商针对欺诈事件采取出现一种治理一种,单个欺诈事件单个治理的电信欺诈治理方法,该方法已经远远跟不上当前电信欺诈手段的发展;
2)、现有的电信诈骗预警系统,比如电话号码标记,方式单一,很难应对那种改号拨号的电信欺诈;
3)、现有的电信诈骗预警系统大多数是在移动端对移动用户的预警,这种预警无法确保针对所有用户都有效果,而且不能实现电信诈骗预警防范和治理打击的统一;
4)、现有的电信诈骗预警系统没有整合用户、运营商、公安部门等资源,造成电信诈骗预警缺乏时效性,打击治理电信诈骗困难。
发明内容
有鉴于此,为了解决现有技术中的预警延时、治理打击电信诈骗困难的技术问题,本发明提出一种基于大数据和机器学习的防范电信诈骗系统及方法,实现实时有效的欺诈预警和低成本的治理。
本发明通过以下技术手段解决上述问题:
一种基于大数据和机器学习的防范电信诈骗系统,包括:
移动端,用于在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;
大数据分析端,用于实时统计从移动端上传举报的诈骗数据信息,针对收到举报数量超过一定阈值的银行卡账号或/和电话号码,向诈骗阻断治理端发送诈骗预警信息;
诈骗阻断治理端,用于在接收到诈骗预警信息时及时采取相应措施阻断电信诈骗事件的发生。
进一步地,所述移动端包括:
数据采集模块,用于通过接收短信消息或者来电消息来获取电信数据;
诈骗评估检测模块,用于通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;
诈骗定性规则库,用于存储预定的约束规则。
进一步地,所述诈骗评估检测模块采用机器学习算法中的决策树方法检测是否为电信诈骗。
进一步地,所述决策树方法的构建步骤包括:
S1:开始将所有预设规则看作一个节点;
S2:遍历每个规则的每一种分割方式,找到最好的分割点;
S3:分割成两个节点N1和N2;
S4:对节点N1和N2分别继续执行S2至S3,直到每个节点足够评估为电信诈骗。
进一步地,所述大数据分析端包括诈骗数据中心和诈骗数据深度挖掘模块;
所述诈骗数据中心用于实时统计从移动端上传举报的诈骗数据信息,针对收到举报数量超过一定阈值的银行卡账号或/和电话号码,向诈骗阻断治理端发送诈骗预警信息;
其中诈骗数据中心包括:
诈骗电话号码数据库,用于存储由运营商提供的电信诈骗电话号码;
诈骗收款账号数据库,用于存储由各大银行提供的电信诈骗收款账号;
电信诈骗历史数据库,用于存储电信诈骗历史数据;
诈骗套路模型数据库,用于存储电信诈骗套路模型;
所述诈骗数据深度挖掘模块用于通过提取电信诈骗历史数据库中的电信诈骗历史数据特征,采用机器学习算法对诈骗数据进行文本分析、语音分析、行为分析,综合这些多维度的诈骗特征分析结果,总结归纳出一个完善的电信诈骗套路模型,保存在诈骗套路模型数据库中,并将诈骗特征分析结果下发到移动端,更新移动端中的诈骗定性规则库。
进一步地,所述诈骗数据深度挖掘模块包括:
文本分析单元,用于采用大数据文本挖掘方法针对短信诈骗数据做分析,对短信内容进行预处理、短信文本分词,提取诈骗类短信中的高频词和标记信息;
语言分析单元,用于采用机器学习中自然语言处理技术针对电话诈骗数据做分析,针对通话记录进行词法分析、语法分析、情感分析,在对通话记录理解的层面,进一步使用机器学习中语义理解技术,深度挖掘诈骗通话记录中的语义特征;
行为分析单元,用于针对诈骗通话统计分析诈骗电话的通话时长、拨出拨入情况、连续通话时间长短情况。
进一步地,所述诈骗数据中心还用于通过诈骗电话号码数据库和诈骗收款账号数据库进一步分析接收到的电信数据是否为电信诈骗。
进一步地,所述诈骗数据中心还用于通过诈骗套路模型数据库进一步验证接收到的电信数据是否为电信诈骗。
进一步地,所述诈骗阻断治理端包括运营商、银行、公安。
一种基于大数据和机器学习的防范电信诈骗方法,包括:
移动端在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;
大数据分析端实时统计从移动端上传举报的诈骗数据信息,针对收到举报数量超过一定阈值的银行卡账号或/和电话号码,向诈骗阻断治理端发送诈骗预警信息;
诈骗阻断治理端在接收到诈骗预警信息时及时采取相应措施阻断电信诈骗事件的发生。
与现有技术相比,本发明的有益效果如下:
1)、本发明在接收到短信或电话时,就自启动诈骗评估检测模块,针对满足诈骗检测判定的电信数据上传到诈骗数据中心,诈骗数据中心及时作出阻断欺诈的决策,该方案能够及时有效的防范欺诈事件发生;
2)、本发明所提到的移动端的诈骗评估检测模块是自启动的,不需要移动用户人为操作,可以有效阻断打击那种让被害人电话一直占线的欺诈事件模型;
3)、本发明所提到的大数据分析端,通过统计分析移动用户举报的数据,决策出是否诈骗,算法简单且能有效打击广撒网型的电信诈骗;
4)、本发明所提到的防范电信诈骗的方法能联合移动端、运营商、公安、银行等机构,不仅能实现快速有效防范还能实现及时打击电信诈骗。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于大数据和机器学习的防范电信诈骗系统的结构示意图;
图2是本发明基于大数据和机器学习的防范电信诈骗系统的实施流程图;
图3是本发明检测通话数据是否为电信诈骗的决策树模型图;
图4是本发明检测短信数据是否为电信诈骗的决策树模型图;
图5是本发明基于大数据和机器学习的防范电信诈骗方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供一种基于大数据和机器学习的防范电信诈骗系统,包括:
移动端,用于在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;
大数据分析端,用于实时统计从移动端上传举报的诈骗数据信息,针对收到举报数量超过一定阈值的银行卡账号或/和电话号码,向诈骗阻断治理端发送诈骗预警信息;
诈骗阻断治理端,用于在接收到诈骗预警信息时及时采取相应措施阻断电信诈骗事件的发生。
所述移动端包括:
数据采集模块,用于通过接收短信消息或者来电消息来获取电信数据;
诈骗评估检测模块,用于通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;
诈骗定性规则库,用于存储预定的约束规则。
移动端在接收到短信消息或者来电消息的时候,开机自启动的诈骗评估检测模块会针对当前的电信数据(短信文字内容或者通话语音内容)进行诈骗检测判定。诈骗评估检测模块会根据移动端上诈骗定性规则库中预定的一些简单约束规则(如陌生号码的短息及来电、显示为高频呼叫号码、短信内容含有账号),采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则打包该诈骗数据信息(短信号码、短信内容,通话号码、通话语音、通话时间长度,电信数据接收时间)上传到大数据分析端的诈骗数据中心。
所述大数据分析端包括诈骗数据中心和诈骗数据深度挖掘模块;
所述诈骗数据中心用于实时统计从移动端上传举报的诈骗数据信息,针对收到举报数量超过一定阈值的银行卡账号或/和电话号码,向诈骗阻断治理端发送诈骗预警信息;
诈骗数据中心会实时统计从移动端上传举报的诈骗数据,其中可能包括电话号码、收款账号等。针对收到举报数量超过一定阈值的银行卡账号和电话号码,诈骗数据中心会向相关部门发送诈骗预警,相关部门及时采取相应措施阻断电信诈骗事件发生。
其中诈骗数据中心包括:
诈骗电话号码数据库,用于存储由运营商提供的电信诈骗电话号码;
诈骗收款账号数据库,用于存储由各大银行提供的电信诈骗收款账号;
电信诈骗历史数据库,用于存储电信诈骗历史数据;
诈骗套路模型数据库,用于存储电信诈骗套路模型;
所述诈骗数据深度挖掘模块用于通过提取电信诈骗历史数据库中的电信诈骗历史数据特征,采用机器学习算法对诈骗数据进行文本分析、语音分析、行为分析,综合这些多维度的诈骗特征分析结果,总结归纳出一个完善的电信诈骗套路模型,保存在诈骗套路模型数据库中,并将诈骗特征分析结果下发到移动端,更新移动端中的诈骗定性规则库。
所述诈骗数据深度挖掘模块包括:
文本分析单元,用于采用大数据文本挖掘方法针对短信诈骗数据做分析,对短信内容进行预处理、短信文本分词,提取诈骗类短信中的高频词和标记信息;
语言分析单元,用于采用机器学习中自然语言处理技术针对电话诈骗数据做分析,针对通话记录进行词法分析、语法分析、情感分析,在对通话记录理解的层面,进一步使用机器学习中语义理解技术,深度挖掘诈骗通话记录中的语义特征;
行为分析单元,用于针对诈骗通话统计分析诈骗电话的通话时长、拨出拨入情况、连续通话时间长短情况。
诈骗数据深度挖掘模块通过提取电信诈骗历史数据特征,采用机器学习相关算法对诈骗数据进行文本分析、语音分析,行为分析等。诈骗数据深度挖掘模块不需要实时执行分析操作,只需要定期执行,或者诈骗数据骤增的时候执行。诈骗数据深度挖掘模块综合这些多维度的诈骗特征分析结果,建立一个完善的诈骗套路模型数据库,该诈骗套路模型数据库可以针对诈骗数据中心接收到的新的诈骗数据做交叉验证,从而提高诈骗预警的准确性。
诈骗数据深度挖掘过程中,可以不断地用诈骗数据中心的数据和参数调整来保证挖掘出来的诈骗套路模型是有用的。防范电信诈骗系统中的大数据分析端得到的诈骗关键词或其他特征都可以下发到移动端,用于补充完善移动端诈骗定性规则库,规则库的丰富可确保诈骗检测的准确性。
所述诈骗数据中心还用于通过诈骗电话号码数据库和诈骗收款账号数据库进一步分析接收到的电信数据是否为电信诈骗。
所述诈骗数据中心还用于通过诈骗套路模型数据库进一步验证接收到的电信数据是否为电信诈骗。
所述诈骗阻断治理端包括运营商、银行、公安。
本发明提出的基于大数据和机器学习的防范电信诈骗系统整合了移动端、运营商、公安、银行等多方资源,能实现电信诈骗预警和打击治理的实时和统一。本发明中的大数据分析端是在服务端或云端,移动端只需要利用常用机器学习算法对当前电信数据做诈骗检测,因此对移动端没有过多的存储计算资源要求,实现了整个方案的可操作性。
如图2所示,本发明基于大数据和机器学习的防范电信诈骗系统的实施流程包括:
1)、移动端接收到短信消息或者电话消息后,移动端自带的诈骗评估检测模块开启诈骗检测扫描功能;诈骗评估检测模块可以是一个检测电信诈骗之类的APP,该APP需要添加在移动端的开机自启动项。
2)、诈骗评估检测模块针对移动端当前接收的电信数据进行预处理,预处理操作可以包括解析电话号码,对短信内容进行诈骗特征词提取等。
3)、电信数据预处理完后,诈骗评估检测模块评估当前电信数据是否属于电信诈骗,检测识别方法可以采用机器学习中的决策树方法。根据预设的一些诈骗定性规则构建决策树,预设的诈骗定性规则比如根据接收到的消息是否为通知类消息,消息中的号码是否是正常号码,当前通话号码是否为标记的高频呼叫号码,短信内容是否含有账号或网址等电信诈骗特征数据。如图3所示为识别通话诈骗数据的决策树模型,图4为识别短信诈骗数据的决策树模型。诈骗定性规则会不断丰富,因此相对应的决策树模型会不断更新,从而不断适应新的电信诈骗手段和模型,快速准确的评估检测诈骗事件。
构建决策树的步骤:
S1:开始将所有预设规则看作一个节点;
S2:遍历每个规则的每一种分割方式,找到最好的分割点;
S3:分割成两个节点N1和N2;
S4:对节点N1和N2分别继续执行2至3步,直到每个节点足够评估为电信诈骗。
4)、诈骗评估检测模块如果检测出电信数据为非电信诈骗,则流程结束。如果评估检测为诈骗则封装电信数据上传举报到诈骗数据中心,移动端需要具备这种上传数据举报功能。
5)、诈骗数据中心实时统计分析所接收到的诈骗举报数据,针对特定的举报电话或者账号,当统计到举报的数据大于一定阈值时,及时给相关部门发送诈骗预警。如当特定电话号码被举报为诈骗电话号码时,运营商可以介入采取提醒接听者、停止服务甚至直接侦查等方式予以处理。
6)、诈骗数据中心包含有联网实时的诈骗电话号码数据库、实时的诈骗收款账号数据库、诈骗套路模型数据库,这些数据库可进一步分析接收到的举报电信数据是否为电信诈骗。实时的诈骗电话号码数据库可以由运营商提供数据建立,联网实时的诈骗收款账号数据库可以由各大银行提供数据建立,诈骗套路模型是通过电信诈骗历史数据进行大数据进行挖掘分析建立。
7)、大数据分析端将电信诈骗历史数据输入到机器学习系统里,进行有监督或者半监督的学习,机器学习系统自动找出电信诈骗的相关性来。
8)、诈骗数据深度挖掘模块中的文本分析针对短信诈骗数据做分析,文本分析可采用常用的大数据文本挖掘的相关方法。开始对短信内容进行预处理,短信文本分词,提取诈骗类短信中的高频词和标记信息,这些高频词和标记信息可下发到移动端,更新移动端中的诈骗定性规则库。
9)、诈骗数据深度挖掘模块中的语音分析针对电话诈骗数据做分析,语音分析采用机器学习中自然语言处理相关技术,针对通话记录进行词法分析、语法分析、情感分析。在对通话记录理解的层面,进一步使用语义理解等机器学习技术,深度挖掘诈骗通话记录中的语义特征。
10)、根据电信诈骗历史数据深度挖掘诈骗事件的行为模型,比如针对诈骗通话可以统计分析诈骗电话的通话时长,拨出拨入情况,连续通话时间长短等情况,多维度的分析电信诈骗历史数据,总结归纳出诈骗事件的常用模型,可用于诈骗检测的交叉验证。
11)、大数据分析端可根据分析结果建立诈骗事件的常用模型,这些模型可以用于诈骗数据中心进一步验证电信诈骗的准确性,从而提高了诈骗检测的准确率。
12)、诈骗数据深度挖掘模块挖掘出来的诈骗特征,可用于移动端的电信诈骗检测的定性规则,诈骗数据深度挖掘模块挖掘了丰富多维的诈骗特征,为移动端电信诈骗的检测的准确性提供了保障。
实施例2
如图5所示,本发明一种基于大数据和机器学习的防范电信诈骗方法,包括:
移动端在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;
大数据分析端实时统计从移动端上传举报的诈骗数据信息,针对收到举报数量超过一定阈值的银行卡账号或/和电话号码,向诈骗阻断治理端发送诈骗预警信息;
诈骗阻断治理端在接收到诈骗预警信息时及时采取相应措施阻断电信诈骗事件的发生。
与现有技术相比,本发明的有益效果如下:
1)、本发明在接收到短信或电话时,就自启动诈骗评估检测模块,针对满足诈骗检测判定的电信数据上传到诈骗数据中心,诈骗数据中心及时作出阻断欺诈的决策,该方案能够及时有效的防范欺诈事件发生;
2)、本发明所提到的移动端的诈骗评估检测模块是自启动的,不需要移动用户人为操作,可以有效阻断打击那种让被害人电话一直占线的欺诈事件模型;
3)、本发明所提到的大数据分析端,通过统计分析移动用户举报的数据,决策出是否诈骗,算法简单且能有效打击广撒网型的电信诈骗;
4)、本发明所提到的防范电信诈骗的方法能联合移动端、运营商、公安、银行等机构,不仅能实现快速有效防范还能实现及时打击电信诈骗。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于大数据和机器学习的防范电信诈骗系统,其特征在于,包括:
移动端,用于在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;
大数据分析端,用于实时统计从移动端上传举报的诈骗数据信息,针对收到举报数量超过一定阈值的银行卡账号或/和电话号码,向诈骗阻断治理端发送诈骗预警信息;
诈骗阻断治理端,用于在接收到诈骗预警信息时及时采取相应措施阻断电信诈骗事件的发生。
2.根据权利要求1所述的基于大数据和机器学习的防范电信诈骗系统,其特征在于,所述移动端包括:
数据采集模块,用于通过接收短信消息或者来电消息来获取电信数据;
诈骗评估检测模块,用于通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;
诈骗定性规则库,用于存储预定的约束规则。
3.根据权利要求2所述的基于大数据和机器学习的防范电信诈骗系统,其特征在于,所述诈骗评估检测模块采用机器学习算法中的决策树方法检测是否为电信诈骗。
4.根据权利要求3所述的基于大数据和机器学习的防范电信诈骗系统,其特征在于,所述决策树方法的构建步骤包括:
S1:开始将所有预设规则看作一个节点;
S2:遍历每个规则的每一种分割方式,找到最好的分割点;
S3:分割成两个节点N1和N2;
S4:对节点N1和N2分别继续执行S2至S3,直到每个节点足够评估为电信诈骗。
5.根据权利要求1所述的基于大数据和机器学习的防范电信诈骗系统,其特征在于,所述大数据分析端包括诈骗数据中心和诈骗数据深度挖掘模块;
所述诈骗数据中心用于实时统计从移动端上传举报的诈骗数据信息,针对收到举报数量超过一定阈值的银行卡账号或/和电话号码,向诈骗阻断治理端发送诈骗预警信息;
其中诈骗数据中心包括:
诈骗电话号码数据库,用于存储由运营商提供的电信诈骗电话号码;
诈骗收款账号数据库,用于存储由各大银行提供的电信诈骗收款账号;
电信诈骗历史数据库,用于存储电信诈骗历史数据;
诈骗套路模型数据库,用于存储电信诈骗套路模型;
所述诈骗数据深度挖掘模块用于通过提取电信诈骗历史数据库中的电信诈骗历史数据特征,采用机器学习算法对诈骗数据进行文本分析、语音分析、行为分析,综合这些多维度的诈骗特征分析结果,总结归纳出一个完善的电信诈骗套路模型,保存在诈骗套路模型数据库中,并将诈骗特征分析结果下发到移动端,更新移动端中的诈骗定性规则库。
6.根据权利要求5所述的基于大数据和机器学习的防范电信诈骗系统,其特征在于,所述诈骗数据深度挖掘模块包括:
文本分析单元,用于采用大数据文本挖掘方法针对短信诈骗数据做分析,对短信内容进行预处理、短信文本分词,提取诈骗类短信中的高频词和标记信息;
语言分析单元,用于采用机器学习中自然语言处理技术针对电话诈骗数据做分析,针对通话记录进行词法分析、语法分析、情感分析,在对通话记录理解的层面,进一步使用机器学习中语义理解技术,深度挖掘诈骗通话记录中的语义特征;
行为分析单元,用于针对诈骗通话统计分析诈骗电话的通话时长、拨出拨入情况、连续通话时间长短情况。
7.根据权利要求5所述的基于大数据和机器学习的防范电信诈骗系统,其特征在于,所述诈骗数据中心还用于通过诈骗电话号码数据库和诈骗收款账号数据库进一步分析接收到的电信数据是否为电信诈骗。
8.根据权利要求5所述的基于大数据和机器学习的防范电信诈骗系统,其特征在于,所述诈骗数据中心还用于通过诈骗套路模型数据库进一步验证接收到的电信数据是否为电信诈骗。
9.根据权利要求1所述的基于大数据和机器学习的防范电信诈骗系统,其特征在于,所述诈骗阻断治理端包括运营商、银行、公安。
10.一种基于大数据和机器学习的防范电信诈骗方法,其特征在于,包括:
移动端在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;
大数据分析端实时统计从移动端上传举报的诈骗数据信息,针对收到举报数量超过一定阈值的银行卡账号或/和电话号码,向诈骗阻断治理端发送诈骗预警信息;
诈骗阻断治理端在接收到诈骗预警信息时及时采取相应措施阻断电信诈骗事件的发生。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710211148.3A CN106970911A (zh) | 2017-03-28 | 2017-03-28 | 一种基于大数据和机器学习的防范电信诈骗系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710211148.3A CN106970911A (zh) | 2017-03-28 | 2017-03-28 | 一种基于大数据和机器学习的防范电信诈骗系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106970911A true CN106970911A (zh) | 2017-07-21 |
Family
ID=59336945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710211148.3A Pending CN106970911A (zh) | 2017-03-28 | 2017-03-28 | 一种基于大数据和机器学习的防范电信诈骗系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106970911A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107819747A (zh) * | 2017-10-26 | 2018-03-20 | 上海欣方智能系统有限公司 | 一种基于通信事件序列的电信诈骗关联分析系统和方法 |
CN108134998A (zh) * | 2017-12-05 | 2018-06-08 | 南京南邮信息产业技术研究院有限公司 | 基于移动大数据的信息诈骗预警方法和系统 |
CN110322049A (zh) * | 2019-06-03 | 2019-10-11 | 浙江图灵软件技术有限公司 | 一种公安大数据预警方法 |
CN111083705A (zh) * | 2019-12-10 | 2020-04-28 | 平安国际智慧城市科技股份有限公司 | 群发诈骗短信检测方法、装置、服务器及存储介质 |
CN111541818A (zh) * | 2020-04-10 | 2020-08-14 | 贵州索讯科技有限公司 | 一种基于大数据对可疑号码甄别归类及拦截的防诈骗方法 |
CN111800546A (zh) * | 2020-07-07 | 2020-10-20 | 中国工商银行股份有限公司 | 构建识别模型以及识别的方法、装置、系统和电子设备 |
CN111917574A (zh) * | 2020-07-21 | 2020-11-10 | 上海阿尔卡特网络支援系统有限公司 | 社交网络拓扑模型及构建方法、用户置信度和亲密度计算方法及电信诈骗智能拦截系统 |
CN112333709A (zh) * | 2020-11-09 | 2021-02-05 | 中国信息通信研究院 | 一种跨网络涉诈关联分析方法、系统及计算机存储介质 |
WO2021022790A1 (zh) * | 2019-08-07 | 2021-02-11 | 创新先进技术有限公司 | 基于智能交互的主动风控方法和系统 |
CN112887985A (zh) * | 2021-02-23 | 2021-06-01 | 深圳市安络科技有限公司 | 一种对电信诈骗进行预警的方法、装置及设备 |
CN113067945A (zh) * | 2021-03-12 | 2021-07-02 | 深圳市安络科技有限公司 | 一种对诈骗电话进行劝阻的方法、装置及设备 |
US11086991B2 (en) | 2019-08-07 | 2021-08-10 | Advanced New Technologies Co., Ltd. | Method and system for active risk control based on intelligent interaction |
CN113780876A (zh) * | 2021-09-24 | 2021-12-10 | 西安邮电大学 | 一种通信的信息安全的风险管理系统 |
CN114021039A (zh) * | 2021-11-10 | 2022-02-08 | 深圳安巽科技有限公司 | 一种反诈联防预警方法、系统及存储介质 |
CN114641004A (zh) * | 2022-02-18 | 2022-06-17 | 国政通科技有限公司 | 一种基于文本特征分析的防诈骗警示系统和方法 |
CN115396900A (zh) * | 2022-09-02 | 2022-11-25 | 南京信息工程大学 | 一种基于大数据的电信预警监测系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011025420A1 (en) * | 2009-08-25 | 2011-03-03 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for detecting fraud in telecommunication networks. |
CN102790752A (zh) * | 2011-05-20 | 2012-11-21 | 盛乐信息技术(上海)有限公司 | 一种基于特征识别的欺诈信息过滤系统及方法 |
CN106412348A (zh) * | 2016-11-14 | 2017-02-15 | 商客通尚景科技(上海)股份有限公司 | 一种电话录音识别预警控制方法 |
-
2017
- 2017-03-28 CN CN201710211148.3A patent/CN106970911A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011025420A1 (en) * | 2009-08-25 | 2011-03-03 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for detecting fraud in telecommunication networks. |
CN102790752A (zh) * | 2011-05-20 | 2012-11-21 | 盛乐信息技术(上海)有限公司 | 一种基于特征识别的欺诈信息过滤系统及方法 |
CN106412348A (zh) * | 2016-11-14 | 2017-02-15 | 商客通尚景科技(上海)股份有限公司 | 一种电话录音识别预警控制方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107819747B (zh) * | 2017-10-26 | 2020-09-18 | 上海欣方智能系统有限公司 | 一种基于通信事件序列的电信诈骗关联分析系统和方法 |
CN107819747A (zh) * | 2017-10-26 | 2018-03-20 | 上海欣方智能系统有限公司 | 一种基于通信事件序列的电信诈骗关联分析系统和方法 |
CN108134998A (zh) * | 2017-12-05 | 2018-06-08 | 南京南邮信息产业技术研究院有限公司 | 基于移动大数据的信息诈骗预警方法和系统 |
CN110322049A (zh) * | 2019-06-03 | 2019-10-11 | 浙江图灵软件技术有限公司 | 一种公安大数据预警方法 |
US11086991B2 (en) | 2019-08-07 | 2021-08-10 | Advanced New Technologies Co., Ltd. | Method and system for active risk control based on intelligent interaction |
WO2021022790A1 (zh) * | 2019-08-07 | 2021-02-11 | 创新先进技术有限公司 | 基于智能交互的主动风控方法和系统 |
CN111083705A (zh) * | 2019-12-10 | 2020-04-28 | 平安国际智慧城市科技股份有限公司 | 群发诈骗短信检测方法、装置、服务器及存储介质 |
CN111541818A (zh) * | 2020-04-10 | 2020-08-14 | 贵州索讯科技有限公司 | 一种基于大数据对可疑号码甄别归类及拦截的防诈骗方法 |
CN111800546A (zh) * | 2020-07-07 | 2020-10-20 | 中国工商银行股份有限公司 | 构建识别模型以及识别的方法、装置、系统和电子设备 |
CN111917574A (zh) * | 2020-07-21 | 2020-11-10 | 上海阿尔卡特网络支援系统有限公司 | 社交网络拓扑模型及构建方法、用户置信度和亲密度计算方法及电信诈骗智能拦截系统 |
CN112333709A (zh) * | 2020-11-09 | 2021-02-05 | 中国信息通信研究院 | 一种跨网络涉诈关联分析方法、系统及计算机存储介质 |
CN112333709B (zh) * | 2020-11-09 | 2021-06-25 | 中国信息通信研究院 | 一种跨网络涉诈关联分析方法、系统及计算机存储介质 |
CN112887985A (zh) * | 2021-02-23 | 2021-06-01 | 深圳市安络科技有限公司 | 一种对电信诈骗进行预警的方法、装置及设备 |
CN113067945A (zh) * | 2021-03-12 | 2021-07-02 | 深圳市安络科技有限公司 | 一种对诈骗电话进行劝阻的方法、装置及设备 |
CN113780876A (zh) * | 2021-09-24 | 2021-12-10 | 西安邮电大学 | 一种通信的信息安全的风险管理系统 |
CN114021039A (zh) * | 2021-11-10 | 2022-02-08 | 深圳安巽科技有限公司 | 一种反诈联防预警方法、系统及存储介质 |
CN114021039B (zh) * | 2021-11-10 | 2022-08-23 | 深圳安巽科技有限公司 | 一种反诈联防预警方法、系统及存储介质 |
CN114641004A (zh) * | 2022-02-18 | 2022-06-17 | 国政通科技有限公司 | 一种基于文本特征分析的防诈骗警示系统和方法 |
CN114641004B (zh) * | 2022-02-18 | 2023-05-23 | 国政通科技有限公司 | 一种基于文本特征分析的防诈骗警示系统和方法 |
CN115396900A (zh) * | 2022-09-02 | 2022-11-25 | 南京信息工程大学 | 一种基于大数据的电信预警监测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106970911A (zh) | 一种基于大数据和机器学习的防范电信诈骗系统及方法 | |
CN108924333B (zh) | 诈骗电话识别方法、装置和系统 | |
CN106550155B (zh) | 对可疑号码进行诈骗样本甄别归类及拦截的方法及系统 | |
CN109600752B (zh) | 一种深度聚类诈骗检测的方法和装置 | |
CN106791220B (zh) | 防止电话诈骗的方法及系统 | |
CN107197463A (zh) | 一种电话诈骗的检测方法、存储介质及电子设备 | |
CN111741472B (zh) | 一种GoIP诈骗电话识别方法、系统、介质及设备 | |
CN101686444B (zh) | 垃圾短信发送号码实时检测系统及方法 | |
CN107819747B (zh) | 一种基于通信事件序列的电信诈骗关联分析系统和方法 | |
CN111159387B (zh) | 基于多维度报警信息文本相似度分析的推荐方法 | |
CN108133061A (zh) | 一种诈骗群体识别系统 | |
CN107770777B (zh) | 一种录音诈骗电话的识别方法 | |
CN106713579A (zh) | 一种电话号码识别方法及装置 | |
CN110839216B (zh) | 识别通讯信息诈骗的方法和装置 | |
CN105335354A (zh) | 欺诈信息识别方法和装置 | |
CN111917574B (zh) | 社交网络拓扑模型及构建方法、用户置信度和亲密度计算方法及电信诈骗智能拦截系统 | |
CN106412348A (zh) | 一种电话录音识别预警控制方法 | |
CN110381219A (zh) | 一种通信防诈骗系统 | |
CN111104521A (zh) | 一种基于图分析的反欺诈检测方法及检测系统 | |
CN111918293A (zh) | 一种通讯信息诈骗的多维度关联检测方法 | |
CN111131627B (zh) | 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质 | |
KR101306074B1 (ko) | 피싱방지방법 및 피싱방지시스템 | |
CN112511696A (zh) | 呼叫中心ai引擎不良内容鉴别系统及方法 | |
CN108156334A (zh) | 一种基于互联网获得诈骗场景的控制系统 | |
CN107733900A (zh) | 一种通信网用户异常呼叫行为检测预警方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170721 |
|
RJ01 | Rejection of invention patent application after publication |