CN111104521B - 一种基于图分析的反欺诈检测方法及检测系统 - Google Patents
一种基于图分析的反欺诈检测方法及检测系统 Download PDFInfo
- Publication number
- CN111104521B CN111104521B CN201911306932.8A CN201911306932A CN111104521B CN 111104521 B CN111104521 B CN 111104521B CN 201911306932 A CN201911306932 A CN 201911306932A CN 111104521 B CN111104521 B CN 111104521B
- Authority
- CN
- China
- Prior art keywords
- nodes
- user
- victim
- relation
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供了一种基于图分析的反欺诈检测方法及系统,方法包括:1)、基于通信运营商提供的包括了受害者通信数据的通信数据,构建与通信数据中用户对应的关系图;2)、从关系图中获取受害者用户特征,并利用受害者用户特征训练随机森林分类模型,然后使用训练后的随机森林分类模型识别出待识别用户是否为受害者的结果;3)、将关系图中的除号码节点以外的其他节点收缩至对应的边或者节点中,得到目标关系图;4)、获取目标关系图中各个子连通图中对其他号码节点影响力最大的号码节点,并将对其他号码节点影响力最大的号码节点对应的用户作为诈骗犯罪分子。应用本发明实施例,可以识别出诈骗犯罪分子。
Description
技术领域
本发明涉及电信诈骗防范技术领域,具体来说是一种基于图分析的反欺诈检测方法及检测系统。
背景技术
在移动互联网时代背景下,伴随着通讯技术的飞速发展,一些不法分子在使用运营商服务的过程中故意使用欺诈方法来使自身获得利益,严重危害了人民群众的财产安全,同时也给运营商的业务发展带来了巨大影响。由于此类案件不受时间、地域限制,破案难度、成本极大,致使各类电信诈骗案件居高不下。因此及时准确地对电信诈骗进行检测对于社会的安全稳定起到了重要的作用。
目前,在电信诈骗检测中常用的方法是基于机器学习的建模方法,该方法从数据库中提取建模所需的样本数据,并对每个样本数据进行标签化处理;从数据库中匹配每个样本数据的关联信息,结合标签化处理结果构建基于用户的多维度特征,然后对特征数据进行数据处理并划分为训练集数据和测试集数据;利用训练集数据训练并调整反欺诈模型的参数;利用测试集数据测试反欺诈模型,获得测试集数据为欺诈用户的欺诈概率值;利用获得的欺诈概率值与对应的实际样本情况进行比对,根据比对结果判断所述反欺诈模型的稳定性并制定反欺诈统计阈值。
上述方法虽然通过将机器学习方法引入电信诈骗的检测之中,在一定程度上提高了欺诈用户的检测准确度,但是由于其在加工数据特征时使用的是传统关系型数据库,在做大量的关联和匹配操作时,会造成特别大的开销,因为一般关系型数据库在做三层表的关联就很吃力了,所以根本无法实现深层次、多张数据表之间频繁的关联匹配以及特征的构建。但是诈骗行为往往会发生在一个深层次的关系之中,要想更精准地对电信诈骗进行检测,需要挖掘出更深层次人物关系背后的隐藏特征。同时,在现有的方法中,模型最终的输出结果需要与实际样本情况进行对比来确定异常阈值,该做法所产生的模型结果会随着对比所采用的实际样本大小的变化而变化,从而使得最终的欺诈检测结果存在一定程度上的不稳定性。
本发明为了解决现有技术方案存在的无法挖掘深层次关系中的数据特征以及其得到的模型结果存在不稳定性的技术问题,提供了一种基于知识图谱的分析方法,可以高效挖掘出隐藏在多层关系背后的数据特征,精准定位到实施诈骗行为的核心成员。
发明内容
本发明所要解决的技术问题在于提供一种基于图分析的反欺诈检测方法及检测系统,以准确定位实施诈骗行为的核心人员。
针对现有技术中存在的无法挖掘深层次关系中的数据特征以及其得到的模型结构存在不稳定性的技术问题,提供一种基于图分析的反欺诈检测方法及检测系统,可以实现高效挖掘出隐藏在多层关系背后的数据特征,准确定位到实施诈骗行为的核心成员,且能通过图的形式实现可视化分析。
本发明通过以下技术手段实现解决上述技术问题的:
本发明实施例提供了一种基于图分析的反欺诈检测方法,所述方法包括:
1)、基于通信运营商提供的包括了受害者通信数据的通信数据,构建与通信数据中用户对应的关系图,其中,所述关系图是由通过边连接起来的节点构成的,其中,所述节点包括:受害者用户非受害者用户分别对应的号码、设备、时间、年龄、地址、套餐中的一种或组合;
2)、从所述关系图中获取受害者用户特征,并利用受害者用户特征训练随机森林分类模型,然后使用训练后的随机森林分类模型识别出待识别用户是否为受害者的结果;
3)、根据所述关系图中的各个节点之间的关系,将所述关系图中的除号码节点以外的其他节点收缩至对应的边或者节点中,得到目标关系图;
4)、针对所述目标关系图中每一个号码节点,根据所述号码节点对目标关系图中其他节点的影响力大小,获取目标关系图中各个子连通图中对其他号码节点影响力最大的号码节点,并将所述对其他号码节点影响力最大的号码节点对应的用户作为诈骗犯罪分子。
应用本发明实施例,利用随机森林算法识别出电信诈骗受害者,然后基于电信诈骗关系图,识别出电信诈骗关系图中的影响力最高的号码节点,由于电信诈骗绝大多数时候是一对多实施的,因此,可以将关系图中影响力最高的号码节点对应的用户作为诈骗犯罪分子,进而可以识别出诈骗犯罪分子。
可选的,所述步骤1),包括:
从运营商数据库中提取受害者的通信数据以及非受害者的通信数据,其中,所述通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息和已知的受害者信息;
获取所述通信数据中包含的各个节点以及各个节点之间的关系,并根据所述节点之间的关系建立各个节点之间的边构建用户的通信数据的关系图。
可选的,所述从所述关系图中获取受害者用户特征,包括:
将从受害者对应的号码节点出发沿着通话关系的边所能够到达的最远距离作为所述号码节点的通话深度;
将从受害者对应的号码节点出发沿着短信关系的边所能够到达的最远距离作为所述号码节点的短信深度;
将从受害者对应的号码节点所连接的设备节点的出度之和作为所述号码节点的设备共用数量;
将所述受害者对应的号码节点的通话关系的入度与短信关系的入度之和作为所述号码节点的父节点个数;
将所述受害者对应的号码节点的通话关系的出度与短信关系的出度之和作为所述号码节点的子节点个数;
将所述受害者对应的号码节点的父节点出度的平均值作为所述号码节点的父节点平均出度;
将所述受害者对应的号码节点的子节点出度的平均值作为所述号码节点对应的子节点平均出度;
获取所述受害者对应的号码节点是否为通话关系路径的起点的特征值;
将所述号码节点的通话深度、所述号码节点的短信深度、设备共用数量、父节点个数、子节点个数、父节点平均出度、子节点平均出度、是否为通话关系路径的起点以及用户为受害者用户的特征值进行组合,得到受害者用户特征。
可选的,步骤2)中的所述使用训练后的随机森林分类模型识别出待识别用户是否为受害者的结果,包括:
从运营商数据库中提取待识别用户的通信数据,其中,所述待识别用户的通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息;
基于待识别用户的通信数据,构建待识别用户的关系图,并从所述待识别用户的关系图中获取待识别用户的通信数据对应的待识别用户特征;
利用训练后的随机森林分类模型识别待识别用户特征,进而得到所述待识别用户是否为诈骗受害者的结果。
可选的,所述得到目标关系图,包括:
删除简化后的关系图中不包含受害者的号码节点的子连通图,得到目标关系图。
可选的,所述根据所述号码节点对目标关系图中其他节点的影响力大小,获取目标关系图中各个子连通图中对其他号码节点影响力最大的号码节点,包括:
利用网页排名算法获取各个号码节点的影响力值;
将各个号码节点的影响力值按照从大到小的顺序进行排序,得到影响力值序列;
将所述影响力值序列中前预设顺序次序对应的号码节点作为对其他号码节点影响力最大的号码节点。
本发明实施例还提供了一种基于图分析的反欺诈检测系统,所述系统包括:
构建模块,用于基于通信运营商提供的包括了受害者通信数据的通信数据,构建与通信数据中用户对应的关系图,其中,所述关系图是由通过边连接起来的节点构成的,其中,所述节点包括:受害者用户非受害者用户分别对应的号码、设备、时间、年龄、地址、套餐中的一种或组合;
训练模块,用于从所述关系图中获取受害者用户特征,并利用受害者用户特征训练随机森林分类模型,然后使用训练后的随机森林分类模型识别出待识别用户是否为受害者的结果;
收缩模块,用于根据所述关系图中的各个节点之间的关系,将所述关系图中的除号码节点以外的其他节点收缩至对应的边或者节点中,得到目标关系图;
识别模块,用于针对所述目标关系图中每一个号码节点,根据所述号码节点对目标关系图中其他节点的影响力大小,获取目标关系图中各个子连通图中对其他号码节点影响力最大的号码节点,并将所述对其他号码节点影响力最大的号码节点对应的用户作为诈骗犯罪分子。
可选的,所述构建模块,用于:
从运营商数据库中提取受害者的通信数据以及非受害者的通信数据,其中,所述通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息和已知的受害者信息;
获取所述通信数据中包含的各个节点以及各个节点之间的关系,并根据所述节点之间的关系建立各个节点之间的边构建用户的通信数据的关系图。
可选的,所述训练模块,用于:
将从受害者对应的号码节点出发沿着通话关系的边所能够到达的最远距离作为所述号码节点的通话深度;
将从受害者对应的号码节点出发沿着短信关系的边所能够到达的最远距离作为所述号码节点的短信深度;
将从受害者对应的号码节点所连接的设备节点的出度之和作为所述号码节点的设备共用数量;
将所述受害者对应的号码节点的通话关系的入度与短信关系的入度之和作为所述号码节点的父节点个数;
将所述受害者对应的号码节点的通话关系的出度与短信关系的出度之和作为所述号码节点的子节点个数;
将所述受害者对应的号码节点的父节点出度的平均值作为所述号码节点的父节点平均出度;
将所述受害者对应的号码节点的子节点出度的平均值作为所述号码节点对应的子节点平均出度;
获取所述受害者对应的号码节点是否为通话关系路径的起点的特征值;
将所述号码节点的通话深度、所述号码节点的短信深度、设备共用数量、父节点个数、子节点个数、父节点平均出度、子节点平均出度、是否为通话关系路径的起点以及用户为受害者用户的特征值进行组合,得到受害者用户特征。
可选的,训练模块,用于:
从运营商数据库中提取待识别用户的通信数据,其中,所述待识别用户的通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息;
基于待识别用户的通信数据,构建待识别用户的关系图,并从所述待识别用户的关系图中获取待识别用户的通信数据对应的待识别用户特征;
利用训练后的随机森林分类模型识别待识别用户特征,进而得到所述待识别用户是否为诈骗受害者的结果。
可选的,所述收缩模块,用于:
删除简化后的关系图中不包含受害者的号码节点的子连通图,得到目标关系图。
可选的,所述识别模块,用于:
利用网页排名算法获取各个号码节点的影响力值;
将各个号码节点的影响力值按照从大到小的顺序进行排序,得到影响力值序列;
将所述影响力值序列中前预设顺序次序对应的号码节点作为对其他号码节点影响力最大的号码节点。
本发明的优点在于:
应用本发明实施例,利用随机森林算法识别出电信诈骗受害者,然后基于电信诈骗关系图,识别出电信诈骗关系图中的影响力最高的号码节点,由于电信诈骗绝大多数时候是一对多实施的,因此,可以将关系图中影响力最高的号码节点对应的用户作为诈骗犯罪分子,进而可以识别出诈骗犯罪分子。
附图说明
图1为本发明实施例提供的一种基于图分析的反欺诈检测方法的流程示意图;
图2为本发明实施例提供的一种基于图分析的反欺诈检测方法的原理示意图;
图3为本发明实施例提供的一种基于图分析的反欺诈检测方法中得到的关系图的结构示意图;
图4为本发明实施例提供的一种基于图分析的反欺诈检测方法中节点之间相互影响的示意图;
图5为本发明实施例提供的一种基于图分析的反欺诈检测系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种基于图分析的反欺诈检测方法的流程示意图;图2为本发明实施例提供的一种基于图分析的反欺诈检测方法的原理示意图,如图1和图2所示,所述方法包括:
S101:基于通信运营商提供的包括了受害者通信数据的通信数据,构建与通信数据中用户对应的关系图,其中,所述关系图是由通过边连接起来的节点构成的,其中,所述节点包括:受害者用户非受害者用户分别对应的号码、设备、时间、年龄、地址、套餐中的一种或组合。
具体的,图3为本发明实施例提供的一种基于图分析的反欺诈检测方法中得到的关系图的结构示意图,如图3所示,可以从运营商数据库中提取受害者的通信数据以及非受害者的通信数据,其中,所述通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息和已知的受害者信息,类似的,非受害者的通信数据也可以包括上述类型的通信数据;获取所述通信数据中包含的各个节点以及各个节点之间的关系,并根据所述节点之间的关系建立各个节点之间的边构建用户的通信数据的关系图,其中,用户是指受害者、非受害者。
示例性的,运营商数据库为传统关系型数据库,例如运营商常常将与用户有关的通信数据存储在SQL(Structured Query Language,结构化查询语言)类型数据库中。用户的通信数据通常包括:用户实时话单,如用户在何时与何人进行了多长时间的语音通话或者视频通话;用户基本信息,如用户的手机号码、用户身份证号、用户姓名、用户家庭住址、用户的套餐类型;短信交往信息,如用户在何时与何人进行的短信交流。
从运营商的SQL数据库中获取已经确定为电信诈骗受害者的受害者的通信数据,如:所需要包含的字段为:主叫号码(call_phone)、被叫号码(called_phone)、通话时长(dur_time)、通话开始时间(start_time)、通话结束时间(end_time)。用户基本信息需包含的字段为:用户号码(phone_nbr)、用户年龄(user_age)、用户使用的终端(terminal)、用户地址(address)和用户套餐类型(type_name)。短信交往信息需要包含的字段为:发送号码(send_nbr)、接收号码(receive_nbr)、发送时间(send_time)和短信文本长度(content_length)。
通常情况下,从运营商那里获取的用户实时话单中的电话号码是被加密的,因此,在使用用户实时话单时需要先对获取的用户数据进行脱敏处理。
S102:从所述关系图中获取受害者用户特征,并利用受害者用户特征训练随机森林分类模型,然后使用训练后的随机森林分类模型识别出待识别用户是否为受害者的结果。
具体的,可以从运营商数据库中提取待识别用户的通信数据,其中,所述待识别用户的通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息;基于待识别用户的通信数据,构建待识别用户的关系图,并从所述待识别用户的关系图中获取待识别用户的通信数据对应的待识别用户特征;利用训练后的随机森林分类模型识别待识别用户特征,进而得到所述待识别用户是否为诈骗受害者的结果。
在本步骤中,可以按照如下步骤进行处理:
1)、首先,构造通讯交往圈关系网络。确定关系网络中的节点类型。本方法中需要构建的关系网络需要包含的节点有:号码节点(Phone)、设备节点(IMEI)、时间节点(OneTime)、年龄节点(Age)、地址节点(Address)、套餐节点(Package)等,其中,Phone对应所有数据中包含的主叫手机号、被叫手机号、联系号码和短信号码等;IMEI(InternationalMobile Equipment Identity,国际移动设备识别码)对应用户基本信息中的手机唯一标识;OneTime对应呼叫时间、用户入网时间和短信发送时间等;Age对应用户基本信息数据中的年龄;Address对应用户信息数据中的联系地址;Package为用户当前所使用的套餐信息。
2)、然后,确定关系网络中连接节点的边类型。最主要的边信息为通话关系、短信来往关系、号码归属地址关系和设备绑定关系等。为了方便统计,其中通话拆分成了主叫号码和被叫号码。Phone–(call)->Phone对应呼叫或短信关系;Phone–(attributive)->Address对应号码归属地址关系;Phone–(use_imei)->IMEI对应号码与设备关系。
3)、然后,将S101步骤中所获取的受害者通信数据的手机号导入到Phone节点中;将数据中的imei信息导入到IMEI节点中;类似的,分别将其他信息对应导入到相应的节点中。
4)、往关系图中导入边信息:将S101步骤获取的受害者通信数据中出现的各个节点间的关系导入图数据库中:将通话信息表中每一行call_phone和called_phone的联系导入到Phone–(call)->Phone边节点中,即节点A主叫节点B,则将call_phone作为节点A到节点B的边的属性,类似的,节点A被节点B呼叫,则将called_phone作为节点A到节点B的边的属性。类似的,可以将用户信息表中每一行phone和Address的关系导入到Phone–(attributive)->Address边中;再将数据中每一行的手机号和对应的设备唯一标识导入到Phone–(use_imei)->IMEI边中,分别将其它边信息导入到相应的边中。
5)、然后,基于上述已经构建好的通讯关系网络,围绕用户是否是电信诈骗受害者的角度,按照如下方法进行深层次和多角度的特征构建:
具体的,所述从所述关系图中获取受害者用户特征,包括:
将从受害者对应的号码节点出发沿着通话关系的边所能够到达的最远距离作为所述号码节点的通话深度;
将从受害者对应的号码节点出发沿着短信关系的边所能够到达的最远距离作为所述号码节点的短信深度;
将从受害者对应的号码节点所连接的设备节点的出度之和作为所述号码节点的设备共用数量;
将所述受害者对应的号码节点的通话关系的入度与短信关系的入度之和作为所述号码节点的父节点个数;
将所述受害者对应的号码节点的通话关系的出度与短信关系的出度之和作为所述号码节点的子节点个数;
将所述受害者对应的号码节点的父节点出度的平均值,即将所有父节点的出度求和除以所有父节点的个数得到的结果作为所述号码节点的父节点平均出度,其中,出度的计算公式为:V表示父节点的平均出度,n表示目标节点父节点的数量,Oi表示第i个父节点的出度。
将所述受害者对应的号码节点的子节点出度的平均值,即将所有子节点的出度求和除以所有子节点的个数得到的结果作为所述号码节点对应的子节点平均出度;
获取所述受害者对应的号码节点是否为通话关系路径的起点的特征值:提取目标节点所在的通话关系,如果目标节点的入度为0,则返回1,如果目标的出度为0,则返回2,其他情况返回3;是否短信关系线路起点,提取目标节点所在的短信关系,如果目标节点的入度为0,则返回1,如果目标的出度为0,则返回2,其他情况返回3。
将所述号码节点的通话深度、所述号码节点的短信深度、设备共用数量、父节点个数、子节点个数、父节点平均出度、子节点平均出度、是否为通话关系路径的起点以及用户为受害者用户的特征值进行组合,得到受害者用户特征。
需要强调的是,图数据库都内置了统计某个节点的出度或入度的函数,所以直接调用该数据库的内置函数即可,也就是说节点的出度以及入度的计算方法为现有技术。
6)、在完成对用户的特征进行提取之后,对已确定的受害者打上受害者标签,对于关系图中包含的非受害者打上非受害者标签,例如可以将电信诈骗受害用户标为1,将正常用户标为0;利用抽取的特征和标签训练随机森林分类模型:
其中,
为预测群体为电信诈骗受害者的概率;Wj(xi,x′)是第i个点在第j颗树中相对于新的数据点x'的非负权重,如果xi与x'属于同一个包含k'个点的叶结点,则/>否则为0;m是随机森林超参数,树的颗数;xi和yi是训练数据中第i条记录;n为数据集数量。将训练好的模型导出为PMML文件,PMML记录了模型的结构和所有参数,将PMML文件加载到线上,即可进行电信诈骗受害者识别。
7)、按照上述S101以及S102的步骤从运营商数据库中提取待识别用户的通信数据,其中,所述待识别用户的通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息;基于待识别用户的通信数据,构建待识别用户的关系图,并从所述待识别用户的关系图中获取待识别用户的通信数据对应的待识别用户特征;利用训练后的随机森林分类模型识别待识别用户特征,进而得到所述待识别用户是否为诈骗受害者的结果。
需要说明的是,本发明实施例的创新点在于使用受害者、受害者和非受害者的特征数据训练随机森林模型,然后将随机森林模型用于待识别用户是否被电信诈骗的识别。
S103:根据所述关系图中的各个节点之间的关系,将所述关系图中的除号码节点以外的其他节点收缩至对应的边或者节点中,得到目标关系图;
示例性的,由于后续步骤中需要使用图分析算法来进行电信诈骗的检测,为了更好地分析关系网络中号码节点之间的关系,需要将非号码节点进行简化使其融入号码节点之间边的属性中。所以需要对S102的关系图进一步优化来生成算法所需要的通讯关系网络。在步骤S102生成的关系图中,包含的节点有:号码节点、设备节点、时间节点、年龄节点、地址节点、套餐节点等。
例如,在待识别用户对应的关系图中,号码1与设备a存在一条边,号码2与设备a也存在了一条边,那么在简化后的号码关系图谱中,号码1与号码2之间的边关系即为同设备登录关系。
再例如,在待识别用户对应的关系图中,人物节点1和人物节点2之间存在同一个年龄节点,人物节点1和人物节点2之间的边关系即为同龄关系。
再例如,在待识别用户对应的关系图中,人物节点1和人物节点2之间存在同一个地址节点,人物节点1和人物节点2之间的边关系即为同居关系或者同事关系中的一种。
再例如,套餐节点辅助节点,用于前期提取特征,后期无需融入;时间节点是为了前期在时间维度上提取特征,后面的分析无需融入。
在进行节点收缩后,待识别用户对应的关系图可能包括了若干个相互独立的子连通图。连通子图是图分析中的一个重要概念,如果节点与节点之间存在至少一条能够连通的路径,那么它们就属于同一个连通子图,如果两个节点之间无法通过任何路径来到达对方的位置,那么它们就不属于同一个连通子图。
需要强调的是,在实际应用中,关系图也可以被称为通讯社交网络图。
S104:针对所述目标关系图中每一个号码节点,根据所述号码节点对目标关系图中其他节点的影响力大小,获取目标关系图中各个子连通图中对其他号码节点影响力最大的号码节点,并将所述对其他号码节点影响力最大的号码节点对应的用户作为诈骗犯罪分子。
具体的,可以利用网页排名算法获取各个号码节点的影响力值;将各个号码节点的影响力值按照从大到小的顺序进行排序,得到影响力值序列;将所述影响力值序列中前预设顺序次序对应的号码节点作为对其他号码节点影响力最大的号码节点。
示例性的,可以针对S103步骤中的各个子连通图分别进行处理。下面以其中一个子连通图为例进行说明:
本发明实施例使用的中心度算法中的网页排名算法计算每个节点对于每个其他节点的影响力。与个人在社交网络中的社会影响力大小类似,本发明实施例中的影响力是递归方式定义的:一个节点的影响力是基于引用它的其他节点的影响力来确定的:例如,如果引用节点A的节点越多,说明节点A的影响力大;如果引用节点A的其他节点的影响力高,则节点A的影响力更大。
图4为本发明实施例提供的一种基于图分析的反欺诈检测方法中节点之间相互影响的示意图,如图4所示,有两个节点PageA和PageB,假设PageA的PR(A)和PR(B)初始值为40,d默认为0.85
则第一次迭代:
PR(A)=(1-d)+d(PR(B)/1)=0.15+0.85*40=34.25
PR(B)=(1-d)+d(PR(A)/1)=0.15+0.85*0.385875=29.1775
第二次迭代:
PR(A)=0.15+0.85*29.1775=24.950875
PR(B)=0.15+0.85*24.950875=21.35824375
结果数值不断下降,在任一个节点的值达到1.0时,停止下降,得到的值即为节点的影响力值。
当然,在本发明实施例中,还可以并行处理若干个子连通图中的节点,以提高算法的执行效率。
应用本发明实施例,利用随机森林算法识别出电信诈骗受害者,然后基于电信诈骗关系图,识别出电信诈骗关系图中的影响力最高的号码节点,由于电信诈骗绝大多数时候是一对多,即广撒网的形式实施的,而他们诈骗的对象之间很少会产生联系,那么他们在其所在的连通子图中必然具有最高的影响力。因此,可以将关系图中影响力最高的号码节点对应的用户作为诈骗犯罪分子,进而可以识别出诈骗犯罪分子。
再者,本发明解决了现有技术方案存在的无法挖掘深层次关系中的数据特征以及其得到的模型结果存在不稳定性的技术问题,提供了一种基于知识图谱的分析方法,不但可以高效挖掘出隐藏在多层关系背后的数据特征,准确定位到实施诈骗行为的核心成员,而且能过通过图的形式来可视化分析的结果数据。
在本发明实施例1的基础上,发明人还提出了一种进一步的改进技术方案,在获取目标关系图时,可以删除简化后的关系图中不包含受害者的号码节点的子连通图,进而得到目标关系图。
示例性的,剔除掉与电信诈骗不相关的节点和边。步骤S104的模型对用户是否为电信诈骗受害者进行了识别,将识别的结果作为标签属性加入到目标关系图中,其中,在待识别用户属于电信诈骗受害者时,将对应的号码节点的标签标记为1;否则,将对应的号码节点的标签标记为0。在本方法中,剔除与电信诈骗受害者不相关的节点所使用的方法就是剔除掉不含电信诈骗受害者节点的连通子图后,可以降低S104步骤中的运算量,提高模型的运行效率。
实施例2
与本发明实施例1相对应,本发明实施例还提供了一种基于图分析的反欺诈检测系统。
图5为本发明实施例提供的一种基于图分析的反欺诈检测系统的结构示意图,如图5所示,所述系统包括:
构建模块501,用于基于通信运营商提供的包括了受害者通信数据的通信数据,构建与通信数据中用户对应的关系图,其中,所述关系图是由通过边连接起来的节点构成的,其中,所述节点包括:受害者用户非受害者用户分别对应的号码、设备、时间、年龄、地址、套餐中的一种或组合;
训练模块502,用于从所述关系图中获取受害者用户特征,并利用受害者用户特征训练随机森林分类模型,然后使用训练后的随机森林分类模型识别出待识别用户是否为受害者的结果;
收缩模块503,用于根据所述关系图中的各个节点之间的关系,将所述关系图中的除号码节点以外的其他节点收缩至对应的边或者节点中,得到目标关系图;
识别模块504,用于针对所述目标关系图中每一个号码节点,根据所述号码节点对目标关系图中其他节点的影响力大小,获取目标关系图中各个子连通图中对其他号码节点影响力最大的号码节点,并将所述对其他号码节点影响力最大的号码节点对应的用户作为诈骗犯罪分子。
应用本发明实施例,利用随机森林算法识别出电信诈骗受害者,然后基于电信诈骗关系图,识别出电信诈骗关系图中的影响力最高的号码节点,由于电信诈骗绝大多数时候是一对多实施的,因此,可以将关系图中影响力最高的号码节点对应的用户作为诈骗犯罪分子,进而可以识别出诈骗犯罪分子。
在本发明实施例的一种具体实施方式中,所述构建模块501,用于:
从运营商数据库中提取受害者的通信数据以及非受害者的通信数据,其中,所述通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息和已知的受害者信息;
获取所述通信数据中包含的各个节点以及各个节点之间的关系,并根据所述节点之间的关系建立各个节点之间的边构建用户的通信数据的关系图。
在本发明实施例的一种具体实施方式中,所述训练模块502,用于:
将从受害者对应的号码节点出发沿着通话关系的边所能够到达的最远距离作为所述号码节点的通话深度;
将从受害者对应的号码节点出发沿着短信关系的边所能够到达的最远距离作为所述号码节点的短信深度;
将从受害者对应的号码节点所连接的设备节点的出度之和作为所述号码节点的设备共用数量;
将所述受害者对应的号码节点的通话关系的入度与短信关系的入度之和作为所述号码节点的父节点个数;
将所述受害者对应的号码节点的通话关系的出度与短信关系的出度之和作为所述号码节点的子节点个数;
将所述受害者对应的号码节点的父节点出度的平均值作为所述号码节点的父节点平均出度;
将所述受害者对应的号码节点的子节点出度的平均值作为所述号码节点对应的子节点平均出度;
获取所述受害者对应的号码节点是否为通话关系路径的起点的特征值;
将所述号码节点的通话深度、所述号码节点的短信深度、设备共用数量、父节点个数、子节点个数、父节点平均出度、子节点平均出度、是否为通话关系路径的起点以及用户为受害者用户的特征值进行组合,得到受害者用户特征。
在本发明实施例的一种具体实施方式中,训练模块502,用于:
从运营商数据库中提取待识别用户的通信数据,其中,所述待识别用户的通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息;
基于待识别用户的通信数据,构建待识别用户的关系图,并从所述待识别用户的关系图中获取待识别用户的通信数据对应的待识别用户特征;
利用训练后的随机森林分类模型识别待识别用户特征,进而得到所述待识别用户是否为诈骗受害者的结果。
在本发明实施例的一种具体实施方式中,所述收缩模块503,用于:
删除简化后的关系图中不包含受害者的号码节点的子连通图,得到目标关系图。
在本发明实施例的一种具体实施方式中,所述识别模块504,用于:
利用网页排名算法获取各个号码节点的影响力值;
将各个号码节点的影响力值按照从大到小的顺序进行排序,得到影响力值序列;
将所述影响力值序列中前预设顺序次序对应的号码节点作为对其他号码节点影响力最大的号码节点。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于图分析的反欺诈检测方法,其特征在于,所述方法包括:
1)、基于通信运营商提供的包括了受害者通信数据的通信数据,构建与通信数据中用户对应的关系图,其中,所述关系图是由通过边连接起来的节点构成的,其中,所述节点包括:受害者用户非受害者用户分别对应的号码、设备、时间、年龄、地址、套餐中的一种或组合;
2)、从所述关系图中获取受害者用户特征,并利用受害者用户特征训练随机森林分类模型,然后使用训练后的随机森林分类模型识别出待识别用户是否为受害者的结果;所述从所述关系图中获取受害者用户特征,包括:
将从受害者对应的号码节点出发沿着通话关系的边所能够到达的最远距离作为所述号码节点的通话深度;
将从受害者对应的号码节点出发沿着短信关系的边所能够到达的最远距离作为所述号码节点的短信深度;
将从受害者对应的号码节点所连接的设备节点的出度之和作为所述号码节点的设备共用数量;
将所述受害者对应的号码节点的通话关系的入度与短信关系的入度之和作为所述号码节点的父节点个数;
将所述受害者对应的号码节点的通话关系的出度与短信关系的出度之和作为所述号码节点的子节点个数;
将所述受害者对应的号码节点的父节点出度的平均值作为所述号码节点的父节点平均出度;
将所述受害者对应的号码节点的子节点出度的平均值作为所述号码节点对应的子节点平均出度;
获取所述受害者对应的号码节点是否为通话关系路径的起点的特征值;
将所述号码节点的通话深度、所述号码节点的短信深度、设备共用数量、父节点个数、子节点个数、父节点平均出度、子节点平均出度、是否为通话关系路径的起点以及用户为受害者用户的特征值进行组合,得到受害者用户特征;
3)、根据所述关系图中的各个节点之间的关系,将所述关系图中的除号码节点以外的其他节点收缩至对应的边或者节点中,得到目标关系图;
4)、针对所述目标关系图中每一个号码节点,根据所述号码节点对目标关系图中其他节点的影响力大小,获取目标关系图中各个子连通图中对其他号码节点影响力最大的号码节点,并将所述对其他号码节点影响力最大的号码节点对应的用户作为诈骗犯罪分子。
2.根据权利要求1所述的一种基于图分析的反欺诈检测方法,其特征在于,所述步骤1),包括:
从运营商数据库中提取受害者的通信数据以及非受害者的通信数据,其中,所述通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息和已知的受害者信息;
获取所述通信数据中包含的各个节点以及各个节点之间的关系,并根据所述节点之间的关系建立各个节点之间的边构建用户的通信数据的关系图。
3.根据权利要求1所述的一种基于图分析的反欺诈检测方法,其特征在于,步骤2)中的所述使用训练后的随机森林分类模型识别出待识别用户是否为受害者的结果,包括:
从运营商数据库中提取待识别用户的通信数据,其中,所述待识别用户的通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息;
基于待识别用户的通信数据,构建待识别用户的关系图,并从所述待识别用户的关系图中获取待识别用户的通信数据对应的待识别用户特征;
利用训练后的随机森林分类模型识别待识别用户特征,进而得到所述待识别用户是否为诈骗受害者的结果。
4.根据权利要求1所述的一种基于图分析的反欺诈检测方法,其特征在于,所述得到目标关系图,包括:
删除简化后的关系图中不包含受害者的号码节点的子连通图,得到目标关系图。
5.一种基于图分析的反欺诈检测系统,其特征在于,所述系统包括:
构建模块,用于基于通信运营商提供的包括了受害者通信数据的通信数据,构建与通信数据中用户对应的关系图,其中,所述关系图是由通过边连接起来的节点构成的,其中,所述节点包括:受害者用户非受害者用户分别对应的号码、设备、时间、年龄、地址、套餐中的一种或组合;
训练模块,用于从所述关系图中获取受害者用户特征,并利用受害者用户特征训练随机森林分类模型,然后使用训练后的随机森林分类模型识别出待识别用户是否为受害者的结果;所述训练模块,用于:
将从受害者对应的号码节点出发沿着通话关系的边所能够到达的最远距离作为所述号码节点的通话深度;
将从受害者对应的号码节点出发沿着短信关系的边所能够到达的最远距离作为所述号码节点的短信深度;
将从受害者对应的号码节点所连接的设备节点的出度之和作为所述号码节点的设备共用数量;
将所述受害者对应的号码节点的通话关系的入度与短信关系的入度之和作为所述号码节点的父节点个数;
将所述受害者对应的号码节点的通话关系的出度与短信关系的出度之和作为所述号码节点的子节点个数;
将所述受害者对应的号码节点的父节点出度的平均值作为所述号码节点的父节点平均出度;
将所述受害者对应的号码节点的子节点出度的平均值作为所述号码节点对应的子节点平均出度;
获取所述受害者对应的号码节点是否为通话关系路径的起点的特征值;
将所述号码节点的通话深度、所述号码节点的短信深度、设备共用数量、父节点个数、子节点个数、父节点平均出度、子节点平均出度、是否为通话关系路径的起点以及用户为受害者用户的特征值进行组合,得到受害者用户特征;
收缩模块,用于根据所述关系图中的各个节点之间的关系,将所述关系图中的除号码节点以外的其他节点收缩至对应的边或者节点中,得到目标关系图;
识别模块,用于针对所述目标关系图中每一个号码节点,根据所述号码节点对目标关系图中其他节点的影响力大小,获取目标关系图中各个子连通图中对其他号码节点影响力最大的号码节点,并将所述对其他号码节点影响力最大的号码节点对应的用户作为诈骗犯罪分子。
6.根据权利要求5所述的一种基于图分析的反欺诈检测系统,其特征在于,所述构建模块,用于:
从运营商数据库中提取受害者的通信数据以及非受害者的通信数据,其中,所述通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息和已知的受害者信息;
获取所述通信数据中包含的各个节点以及各个节点之间的关系,并根据所述节点之间的关系建立各个节点之间的边构建用户的通信数据的关系图。
7.根据权利要求5所述的一种基于图分析的反欺诈检测系统,其特征在于,训练模块,用于:
从运营商数据库中提取待识别用户的通信数据,其中,所述待识别用户的通信数据包括:运营商的本地实时话单、用户基本信息、短信交往信息;
基于待识别用户的通信数据,构建待识别用户的关系图,并从所述待识别用户的关系图中获取待识别用户的通信数据对应的待识别用户特征;
利用训练后的随机森林分类模型识别待识别用户特征,进而得到所述待识别用户是否为诈骗受害者的结果。
8.根据权利要求5所述的一种基于图分析的反欺诈检测系统,其特征在于,所述收缩模块,用于:
删除简化后的关系图中不包含受害者的号码节点的子连通图,得到目标关系图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911306932.8A CN111104521B (zh) | 2019-12-18 | 2019-12-18 | 一种基于图分析的反欺诈检测方法及检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911306932.8A CN111104521B (zh) | 2019-12-18 | 2019-12-18 | 一种基于图分析的反欺诈检测方法及检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104521A CN111104521A (zh) | 2020-05-05 |
CN111104521B true CN111104521B (zh) | 2023-10-17 |
Family
ID=70422749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911306932.8A Active CN111104521B (zh) | 2019-12-18 | 2019-12-18 | 一种基于图分析的反欺诈检测方法及检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104521B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113727351B (zh) * | 2020-05-12 | 2024-03-19 | 中国移动通信集团广东有限公司 | 一种通信欺诈识别方法、装置及电子设备 |
CN111754337B (zh) * | 2020-06-30 | 2024-02-23 | 上海观安信息技术股份有限公司 | 一种信用卡养卡套现团体识别的方法及系统 |
CN111917574B (zh) * | 2020-07-21 | 2023-06-20 | 上海阿尔卡特网络支援系统有限公司 | 社交网络拓扑模型及构建方法、用户置信度和亲密度计算方法及电信诈骗智能拦截系统 |
CN114065060B (zh) * | 2020-07-28 | 2023-09-08 | 中国电信股份有限公司 | 数据分析方法、装置和存储介质 |
CN112288330A (zh) * | 2020-11-24 | 2021-01-29 | 拉卡拉支付股份有限公司 | 一种欺诈社群的识别方法及装置 |
CN112926990B (zh) * | 2021-03-25 | 2022-08-30 | 支付宝(杭州)信息技术有限公司 | 欺诈识别的方法和装置 |
CN113961712B (zh) * | 2021-09-08 | 2024-04-26 | 武汉众智数字技术有限公司 | 一种基于知识图谱的诈骗电话分析方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9043905B1 (en) * | 2012-01-23 | 2015-05-26 | Hrl Laboratories, Llc | System and method for insider threat detection |
CN106255116A (zh) * | 2016-08-24 | 2016-12-21 | 王瀚辰 | 一种骚扰号码的识别方法 |
CN107506776A (zh) * | 2017-01-16 | 2017-12-22 | 恒安嘉新(北京)科技股份公司 | 一种诈骗电话号码的分析方法 |
CN107730262A (zh) * | 2017-10-23 | 2018-02-23 | 阿里巴巴集团控股有限公司 | 一种欺诈识别方法和装置 |
CN109447180A (zh) * | 2018-11-14 | 2019-03-08 | 山东省通信管理局 | 一种基于大数据和机器学习的电信诈骗上当人发现方法 |
EP3474175A1 (en) * | 2017-10-18 | 2019-04-24 | AO Kaspersky Lab | System and method of managing computing resources for detection of malicious files based on machine learning model |
CN109685647A (zh) * | 2018-12-27 | 2019-04-26 | 阳光财产保险股份有限公司 | 信贷欺诈检测方法及其模型的训练方法、装置和服务器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150188941A1 (en) * | 2013-12-26 | 2015-07-02 | Telefonica Digital Espana, S.L.U. | Method and system for predicting victim users and detecting fake user accounts in online social networks |
-
2019
- 2019-12-18 CN CN201911306932.8A patent/CN111104521B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9043905B1 (en) * | 2012-01-23 | 2015-05-26 | Hrl Laboratories, Llc | System and method for insider threat detection |
CN106255116A (zh) * | 2016-08-24 | 2016-12-21 | 王瀚辰 | 一种骚扰号码的识别方法 |
CN107506776A (zh) * | 2017-01-16 | 2017-12-22 | 恒安嘉新(北京)科技股份公司 | 一种诈骗电话号码的分析方法 |
EP3474175A1 (en) * | 2017-10-18 | 2019-04-24 | AO Kaspersky Lab | System and method of managing computing resources for detection of malicious files based on machine learning model |
CN107730262A (zh) * | 2017-10-23 | 2018-02-23 | 阿里巴巴集团控股有限公司 | 一种欺诈识别方法和装置 |
CN109447180A (zh) * | 2018-11-14 | 2019-03-08 | 山东省通信管理局 | 一种基于大数据和机器学习的电信诈骗上当人发现方法 |
CN109685647A (zh) * | 2018-12-27 | 2019-04-26 | 阳光财产保险股份有限公司 | 信贷欺诈检测方法及其模型的训练方法、装置和服务器 |
Non-Patent Citations (4)
Title |
---|
Unsupervised Random Forest Manifold Alignment for Lipreading;Yuru Pei等;2013 IEEE International Conference on Computer Vision;全文 * |
基于大数据的互联网金融欺诈行为识别研究;丁爽斯;中国优秀硕士学位论文全文数据库(第2期);全文 * |
基于随机森林模型的电信运营商外呼推荐系统;朱奕健等;《计算机科学》;20161115;全文 * |
微博网络水军识别技术研究;程晓涛;中国优秀硕士学位论文全文数据库(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111104521A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104521B (zh) | 一种基于图分析的反欺诈检测方法及检测系统 | |
CN112053221A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
CN101345751B (zh) | 确定作为数据库活动的起源的应用程序用户 | |
CN109345417B (zh) | 基于身份认证的业务人员的在线考核方法及终端设备 | |
CN111405562B (zh) | 一种基于通信行为规律的移动恶意用户识别方法及系统 | |
CN108090351B (zh) | 用于处理请求消息的方法和装置 | |
CN109640312B (zh) | “黑卡”识别方法、电子设备及计算机可读取存储介质 | |
CN107515915A (zh) | 基于用户行为数据的用户标识关联方法 | |
CN106713579A (zh) | 一种电话号码识别方法及装置 | |
CN110609908A (zh) | 案件串并方法及装置 | |
CN107092651B (zh) | 一种基于通信网络数据分析的关键人物挖掘方法及系统 | |
CN113706100B (zh) | 配电网物联终端设备实时探测识别方法与系统 | |
CN112506925A (zh) | 一种基于区块链的数据检索系统及方法 | |
CN112053222A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
CN111092999A (zh) | 一种数据请求处理方法和装置 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN110909129B (zh) | 异常投诉事件的识别方法及装置 | |
CN111586695A (zh) | 短信识别方法及相关设备 | |
CN108804501B (zh) | 一种检测有效信息的方法及装置 | |
CN107194280B (zh) | 模型建立方法及装置 | |
CN112559776A (zh) | 一种敏感信息的定位方法及系统 | |
CN108540471B (zh) | 移动应用网络流量聚类方法、计算机可读存储介质和终端 | |
CN113904828B (zh) | 接口的敏感信息检测方法、装置、设备、介质和程序产品 | |
CN110457897A (zh) | 一种基于通信协议与sql语法的数据库安全检测方法 | |
CN115544558A (zh) | 敏感信息检测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |