CN112053221A - 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 - Google Patents

一种基于知识图谱的互联网金融团伙欺诈行为检测方法 Download PDF

Info

Publication number
CN112053221A
CN112053221A CN202010819152.XA CN202010819152A CN112053221A CN 112053221 A CN112053221 A CN 112053221A CN 202010819152 A CN202010819152 A CN 202010819152A CN 112053221 A CN112053221 A CN 112053221A
Authority
CN
China
Prior art keywords
node
data
fraud
user
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010819152.XA
Other languages
English (en)
Inventor
江远强
韩璐
李兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baiweijinke Shanghai Information Technology Co ltd
Original Assignee
Baiweijinke Shanghai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baiweijinke Shanghai Information Technology Co ltd filed Critical Baiweijinke Shanghai Information Technology Co ltd
Priority to CN202010819152.XA priority Critical patent/CN112053221A/zh
Publication of CN112053221A publication Critical patent/CN112053221A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开一种基于知识图谱的互联网金融团伙欺诈行为检测方法,所述方法包括以下步骤:获取多个预设数据源的用户的个人申请信息、操作行为埋点数据和黑名单数据;对申请信息和操作行为埋点数据进行预处理后切分训练集和测试集,根据黑名单命中情况标记客户为欺诈节点和未标记节点,然后求出欺诈节点与其相邻用户节点之间的相似度和归属因子,对未标记节点的欺诈风险评估,采用Neo4j图数据库构建知识图谱,对验证集欺诈风险评估结果测试,对实时申请用户欺诈行为检测并处理。本发明知识图谱的团伙欺诈行为检测,构建反欺诈引擎,快速高效识别可疑团体欺诈风险,提升了金融风控能力和降低信贷风险。

Description

一种基于知识图谱的互联网金融团伙欺诈行为检测方法
技术领域
本发明属于互联网金融行业的风控技术领域,具体提供一种利用知识图谱实现对互联网金融团伙欺诈行为检测的方法。
背景技术
据有关报告显示:互联网金融机构每年因个人信息造假、工作单位虚假、代办包装、虚假联系人、组团骗贷等欺诈风险而造成的损失高达数百亿人民币。传统反欺诈技术在已有的历史数据中挖掘出反欺诈规则或者模型,其中采用逻辑回归、决策树、支持向量机、XGBoost或神经网络等有监督算法是当下反欺诈检测中使用最广泛的技术方法,该类方法基于历史中的欺诈申请和正常申请数据输入训练出分类模型,输出欺诈概率来量化欺诈风险,能够识别规则引擎无法覆盖的复杂欺诈行为。
而随时间不断演化和发展,欺诈风险模式变化快、新欺诈方法层出不穷,以往单一的个体欺诈已迅速演变成有组织、有规模的团体欺诈和相应的关联风险,甚至出现了各种中介机构通过各种伪造的虚假信息帮助客户申请贷款,从个体的欺诈特征单独来看有时并不显著,传统的反欺诈手段包括身份验证、客户信息逻辑校验、外部信息的对比校验、黑名单过滤等方式主要识别个人风险,较为孤立的评估单个用户的风险情况,无法根据千丝万缕的关系挖掘潜在的群体欺诈,对目前的团伙骗贷的识别率较低。目前行业内亟需一种能够将“单点”的信息转换成“平面”的相互关联的风控技术,进一步挖掘团伙骗贷中隐藏的潜在信息,从而实现互联网金融团伙骗贷的欺诈风险的识别与防御。
发明内容
为了解决上述技术问题,本发明中披露了一种基于知识图谱的互联网金融团伙欺诈行为检测方法,本发明的技术方案是这样实施的:
知识图谱是一种基于图的数据结构,由节点和边组成,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”,知识图谱的最大优点在于遵循了资源描述框架(Resource Description Framework,RDF)数据模型,能够包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),还可以利用连续数值的向量反映知识图谱的结构特征,高效地计算实体间的关系。在互联网金融领域,知识图谱的运用主要停留在一度关系的识别,对于团伙案件的深度挖掘以及多度关系的识别尚未有较为深入的研究。本发明中对用户贷款申请数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,挖掘潜在的群体关系,识别出团伙骗贷。
一种基于知识图谱的互联网金融团伙欺诈行为检测方法,包括以下步骤:
步骤1:获取多个预设数据源的个人金融相关数据,包括用户的个人申请信息、操作行为埋点数据和黑名单数据;
步骤2:对收集到的个人申请信息、操作行为埋点数据进行预处理,并根据业务逻辑切分训练集和测试集;
步骤3:根据黑名单命中信息,命中客户标记为欺诈节点,未命中客户标记为未标记节点;
步骤4:分别求出欺诈节点与其相邻用户节点之间的归属因子和相似度,根据未标记节点和欺诈节点的相似度标记为欺诈节点或正常节点;
步骤5:抽取训练集的实体、实体属性及实体间关系,采用Neo4j图数据库来存储知识抽取后的数据组成节点、关系、属性和标签,根据两个节点的相似度、归属因子得到关系节点再通过指示线关联形成知识图谱;
步骤6:对验证集抽取实体、实体属性及实体间关系导入知识图谱进行欺诈风险评估,评估结果与验证集样本真实标签对比计算识别准确率;
步骤7:对实时申请用户放入已构建的知识图谱进行欺诈行为检测,计算输出实时申请用户的欺诈风险评估结果,若命中风险数据库或与异常可疑团体存在强相似度,则对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
进一步地,在步骤1中,所述特征信息包括用户的个人申请信息、操作行为埋点数据和黑名单数据。其中,申请信息包括:工作信息、手机号、学历、工作单位、住址、联系人信息;操作行为埋点数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度;日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等;另外黑名单数据主要分为以下几类:
(1)行政司法黑名单:法院执行名单、法院失信名单、黄赌毒等公安犯罪名单;
(2)内部信贷类黑名单:本平台信贷逾期、欺诈、失联、代办包装、虚假资料、组团骗贷等黑名单;
(3)第三方黑名单:同业金融机构的逾期和失联名单、各类征信数据联盟的不良名单和贷款黑中介等外部风险黑名单。
进一步地,在步骤2中,对收集到的个人申请和操作埋点数据进行预处理主要步骤分为:数据清理、数据变换、缺失值处理和冗余数据处理。数据清理包括清理光滑噪声数据、平滑或删除离群点;数据变换包括对数据进行标准化,离散化,稀疏化处理;缺失值处理包括忽略缺失值、删除空缺值或使用均值填充;冗余数据处理包括分箱、聚类和回归等方法。
经过预处理的数据根据业务逻辑按照比例7:3将数据分为训练集和测试集。
进一步地,在步骤3中,对客户命中的黑名单信息,将命中黑名单客户的个人信息加入到知识库中,设为欺诈节点,对未命中的客户的设为无标记节点。
进一步地,步骤4中,根据欺诈节点与其相邻用户节点之间的归属因子和相似度来确定未标记节点的标签。
所述用户节点与其相邻用户节点之间的归属因子计算公式如下:
Figure BDA0002633853900000041
其中,p(root,i)为用户节点的第i个属性,p(target,i)为邻居节点的第i个属性。n为点所具有的属性的总数。为用户节点与邻居节点的关系总数,rmax为用户节点与其邻居节点中关系总数中的最大值。另外f(x)根据节点属性值的类型有不同的计算方式,比如年龄会采用两节点之差值并进行归一化,是否疑似团伙欺诈会判断两节点属性值是否相等,相等则为1,不相等则为0。
根据知识图谱中相邻节点的相似性,计算知识图谱中无标记节点与欺诈节点之间的相似度,公式如下:
Figure BDA0002633853900000051
其中,s(a,b)是欺诈用户节点a和未标记用户b的相似度,I(a)表示欺诈用户节点a的入射相邻节点的集合,Ii(a)表示欺诈用户a的第i个相邻节点,I(b)表示未标记节点b的入射相邻节点的集合,Ii(b)表示未标记b的第j个相邻节点,s(Ii(a),Ij(b))是欺诈节点a的第i个相邻节点与未标记节点b的第j个相邻节点的相似度,C是阻尼系数,C∈(0,1)。
如果s(a,b)达到欺诈预设值,则将未标记用户b标记为欺诈节点,存储至潜在风险数据库,并对节点b进行实体特征验证,确定标记是否正确,如果验证标记有误则标记为正常节点。
迭代计算所有欺诈节点相邻的未标记节点的相似度,完成所有客户的欺诈标记。
进一步地,步骤5中采用了Neo4j和Cypher。Neo4j是一个高性能的NOSQL图形数据库,最大的特点是能够存储关系数据,能够通过创建属性图将结构化数据存储在图里而不是表中,创建的属性图是用顶点和边构建一个有向图,每个节点和关系都可以由一个或多个属性,Cypher是Neo4j的查询语言,已经成为事实上的标准。
步骤5利用Neo4j和Cypher构建知识图谱步骤如下:
利用抽取训练集的实体、实体属性及实体间关系进行存储,包括申请人的IP地址、设备、账户联系人等个体,IP登录行为、设备登录行为等个体关系,将存储的方法基于Neo4j提供的图数据查询语言Cypher进行数据导入,接着采用Neo4j图数据库来存储知识抽取后的数据组成节点、关系、属性和标签,根据两个节点的相似度、归属因子得到关系节点,关系节点通过指示线关联形成知识图谱。
根据用户贷款申请数据之间的关系,建立节点之间的关联关系可得到信用知识图谱,其中,所述用户贷款申请数据之间的关系包括用户与地址的关系、用户与手机号码的关系、用户与身份证号的关系、用户与银行卡号的关系以及用户与金融机构的关系,每一节点对应一实体用户,通过搜索一个用户,可以返回与这用户相关的所有历史借款记录、联系人信息、行为特征和每一个实体是欺诈节点或正常节点。
进一步地,步骤6中,对验证集抽取实体、实体属性及实体间关系导入知识图谱进行欺诈标签,欺诈风险评估结果与验证集样本的标签进行对比,得到知识图谱识别的准确率。
进一步地,步骤7中,对实时申请用户的个人金融数据抽取实体、实体属性及实体间关系,放入已构建的知识图谱进行欺诈行为检测,计算输出实时申请用户的欺诈风险评估结果,若命中风险数据库或与异常可疑团体存在强相似度,则对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
与现有技术相比,本发明具有以下有益的技术效果:
(1)相对于神经网络、决策树、朴素贝叶斯等评分卡模型,本文选用的知识图谱,从“单点”的信息转换成“平面”的相互关联的风控技术,挖掘团伙骗贷中隐藏的潜在信息,从而实现互联网金融团伙骗贷的欺诈风险的识别与防御;
(2)根据两个客户之间地归属因子和相似度,可挖掘无明显欺诈行为客户与欺诈客户之间的内部关系,并对其正确标记;
(3)Neo4j图数据库采用了知识图谱中的图关联分析、图计算推理等技术,能够更好地解决金融领域数据孤岛、数据不对等而造成的风险不可控问题,更好识别团伙欺诈,也能够实现关联监控、失踪复联、黑产识别等金融风控。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于知识图谱的互联网金融团伙欺诈行为检测方法,包括以下步骤:
步骤1:获取多个预设数据源的个人金融相关数据,包括用户的个人申请信息、操作行为埋点数据和黑名单数据;
步骤2:对收集到的个人申请信息、操作行为埋点数据进行预处理,并根据业务逻辑切分训练集和测试集;
步骤3:根据黑名单命中信息,命中客户标记为欺诈节点,未命中客户标记为未标记节点;
步骤4:分别求出欺诈节点与其相邻用户节点之间的归属因子和相似度,根据未标记节点和欺诈节点的相似度标记为欺诈节点或正常节点;
步骤5:抽取训练集的实体、实体属性及实体间关系,采用Neo4j图数据库来存储知识抽取后的数据组成节点、关系、属性和标签,根据两个节点的相似度、归属因子得到关系节点再通过指示线关联形成知识图谱;
步骤6:对验证集抽取实体、实体属性及实体间关系导入知识图谱进行欺诈风险评估,评估结果与验证集样本真实标签对比计算识别准确率;
步骤7:对实时申请用户放入已构建的知识图谱进行欺诈行为检测,计算输出实时申请用户的欺诈风险评估结果,若命中风险数据库或与异常可疑团体存在强相似度,则对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
在一种优选的实施方式中,结合图1所示,在步骤1中,所述特征信息包括用户的个人申请信息、操作行为埋点数据和黑名单数据。其中申请信息包括:工作信息、手机号、学历、工作单位、住址、联系人信息;操作行为埋点数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等;黑名单数据主要分为以下几类:
(1)行政司法黑名单:法院执行名单、法院失信名单、黄赌毒等公安犯罪名单;
(2)内部信贷类黑名单:本平台信贷逾期、欺诈、失联、代办包装、虚假资料、组团骗贷等黑名单;
(3)第三方黑名单:同业金融机构的逾期和失联名单、各类征信数据联盟的不良名单和贷款黑中介等外部风险黑名单;
在一种优选的实施方式中,结合图1所示,在步骤4中,采用Neo4j图数据库来存储知识抽取后的数据组成节点、关系、属性和标签,节点包括申请人的IP地址、设备、账户联系人等;关系包括:IP登录行为、设备登录行为等。
在一种优选的实施方式中,结合图1所示,在步骤4中,将抽取的实体、实体属性及实体间关系通过Cypher导入存储,提取时Cypher构建关系查询计算和图结构查询计算,Cypher还将异常姓名、异常电话或异常身份号等异常数据的查询语句以模块化的形式设置在查询界面上,并将多个样本数据以节点形式分布展开,关系节点通过指示线关联形成知识图谱,根据输入的查询语句从知识图谱中筛选出关系节点。除了用Neo4j自带的图数据查询语言Cypher语法简单直观,但是不便于流程化,而Python也含有neo4j库,即py2neo模块,直接执行Cypher语句,便于流程化,更加方便使用。
在一种优选的实施方式中,结合图1所示,在步骤4中,在Cypher存储的过程中需要采用Jena推理引擎通过将预定义规则集加入到推理引擎中判断待添加实体关系是否与已有图谱关系冲突或者异常,来决定是否加入到图谱中,具体过程如下:
(1)将待添加实体关系转写成图谱查询形式;
(2)应用推理引擎在图谱中形成查询机制,获得查询结果;
(3)如果出现查询结果与当前关系冲突,则终止当前实体关系的添加;
(4)如果出现查询结果与当前关系不存在冲突,则执行实体关系的插入操作;
通过以上步骤的不断迭代,可以实现高质量、高可靠的知识图谱结构。
在一种优选的实施方式中,结合图1所示,在步骤6中,根据构建好的知识图谱分析风险因素或者根据知识图谱表现的图结构特征抽取出待分析风控模型的特征集,基于知识图谱的风险因素主要从团伙欺诈、时序路径异常、中心位置等角度进行分析,其中,团伙欺诈旨在发现组织骗贷现象,如信息共用冲突特征;时序路径异常描述的是会员行为路径出现有违常理的情况;中心位置主要分析影响力集中、影响扩散现象。
需要指出的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均因包含在本发明的保护范围之内。

Claims (8)

1.一种基于知识图谱的互联网金融团伙欺诈行为检测方法,其特征在于,该方法包括以下步骤:
步骤1:获取多个预设数据源的个人金融相关数据,包括用户的个人申请信息、操作行为埋点数据和黑名单数据;
步骤2:对收集到的个人申请信息、操作行为埋点数据进行预处理,并根据业务逻辑切分训练集和测试集;
步骤3:根据黑名单命中信息,命中客户标记为欺诈节点,未命中客户标记为未标记节点;
步骤4:分别求出欺诈节点与其相邻用户节点之间的归属因子和相似度,根据未标记节点和欺诈节点的相似度标记为欺诈节点或正常节点;
步骤5:抽取训练集的实体、实体属性及实体间关系,采用Neo4j图数据库来存储知识抽取后的数据组成节点、关系、属性和标签,根据两个节点的相似度、归属因子得到关系节点再通过指示线关联形成知识图谱;
步骤6:对验证集抽取实体、实体属性及实体间关系导入知识图谱进行欺诈风险评估,评估结果与验证集样本真实标签对比计算识别准确率;
步骤7:对实时申请用户放入已构建的知识图谱进行欺诈行为检测,计算输出实时申请用户的欺诈风险评估结果,若命中风险数据库或与异常可疑团体存在强相似度,则对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
2.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法,其特征在于,在步骤1中,所述特征信息包括用户的个人申请信息、操作行为埋点数据和黑名单数据。其中申请信息包括:工作信息、手机号、学历、工作单位、住址、联系人信息;操作行为埋点数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP申请频次、设备电量占比、陀螺仪平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等;另外黑名单数据主要分为以下几类:
(1)行政司法黑名单:法院执行名单、法院失信名单、黄赌毒等公安违法犯罪名单;
(2)内部信贷类黑名单:本平台信贷逾期、欺诈、失联、代办包装、虚假资料、组团骗贷等黑名单;
(3)第三方黑名单:同业金融机构的逾期和失联名单、各类征信数据联盟的不良名单和贷款黑中介等外部风险黑名单。
3.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法,其特征在于,在步骤2中,对收集到的个人申请和操作埋点数据进行预处理主要步骤分为:数据清理、数据变换、缺失值处理和冗余数据处理。数据清理包括清理光滑噪声数据、平滑或删除离群点;数据变换包括对数据进行标准化,离散化,稀疏化处理;缺失值处理包括忽略缺失值、删除空缺值或使用均值填充;冗余数据处理包括分箱、聚类和回归等方法;
经过预处理的数据根据业务逻辑按照比例7:3将数据分为训练集和测试集。
4.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法,其特征在于,在步骤3中,对客户是否命中的黑名单信息划分客户,将命中黑名单客户的个人信息加入到知识库中,设为欺诈节点,对未命中的客户的设为无标记节点。
5.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法,其特征在于,步骤4中,根据欺诈节点与其相邻用户节点之间的归属因子和相似度来确定未标记节点的标签;
所述用户节点与其相邻用户节点之间的归属因子计算公式如下:
Figure FDA0002633853890000031
其中,p(root,i)为用户节点的第i个属性,p(target,i)为邻居节点的第i个属性;n为点所具有的属性的总数;为用户节点与邻居节点的关系总数,rmax为用户节点与其邻居节点中关系总数中的最大值;另外f(x)根据节点属性值的类型有不同的计算方式,比如年龄会采用两节点之差值并进行归一化,是否疑似团伙欺诈会判断两节点属性值是否相等,相等则为1,不相等则为0。
根据知识图谱中相邻节点的相似性,计算知识图谱中无标记节点与欺诈节点之间的相似度,公式如下:
Figure FDA0002633853890000041
其中,s(a,b)是欺诈用户节点a和未标记用户b的相似度,I(a)表示欺诈用户节点a的入射相邻节点的集合,Ii(a)表示欺诈用户a的第i个相邻节点,I(b)表示未标记节点b的入射相邻节点的集合,Ii(b)表示未标记b的第j个相邻节点,s(Ii(a),Ij(b))是欺诈节点a的第i个相邻节点与未标记节点b的第j个相邻节点的相似度,C是阻尼系数,C∈(0,1);
如果s(a,b)达到欺诈预设值,则将未标记用户b标记为欺诈节点,存储至潜在风险数据库,并对节点b进行实体特征,确定标记的正确性,反之则标记为正常节点。迭代计算所有欺诈节点相邻的未标记节点的相似度,完成所有客户的欺诈标记。
6.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法,其特征在于,步骤5中,抽取训练集的实体、实体属性及实体间关系进行存储,包括申请人的IP地址、设备、账户联系人等个体,IP登录行为、设备登录行为等个体关系,将存储的方法基于Neo4j提供的采用图数据查询语言Cypher进行数据导入,接着采用Neo4j图数据库来存储知识抽取后的数据组成节点、关系、属性和标签,根据两个节点的相似度、归属因子得到关系节点,关系节点通过指示线关联形成知识图谱;
根据用户贷款申请数据之间的关系,建立节点之间的关联关系可得到信用知识图谱,其中,所述用户贷款申请数据之间的关系包括用户与地址的关系、用户与手机号码的关系、用户与身份证号的关系、用户与银行卡号的关系以及用户与金融机构的关系,每一节点对应一实体,通过搜索一个用户,可以返回与这用户相关的所有历史借款记录、联系人信息、行为特征和每一个实体是欺诈节点或正常节点。
7.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测法,其特征在于,步骤6中,对验证集抽取实体、实体属性及实体间关系导入知识图谱进行欺诈标签,欺诈风险评估结果与验证集样本的标签进行对比,得到知识图谱识别的准确率。
8.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法,其特征在于,步骤7中,对实时申请用户的个人金融数据抽取实体、实体属性及实体间关系,放入已构建的知识图谱进行欺诈行为检测,计算输出实时申请用户的欺诈风险评估结果,若命中风险数据库或与异常可疑团体存在强相似度,则对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
CN202010819152.XA 2020-08-14 2020-08-14 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 Pending CN112053221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010819152.XA CN112053221A (zh) 2020-08-14 2020-08-14 一种基于知识图谱的互联网金融团伙欺诈行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010819152.XA CN112053221A (zh) 2020-08-14 2020-08-14 一种基于知识图谱的互联网金融团伙欺诈行为检测方法

Publications (1)

Publication Number Publication Date
CN112053221A true CN112053221A (zh) 2020-12-08

Family

ID=73600400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010819152.XA Pending CN112053221A (zh) 2020-08-14 2020-08-14 一种基于知识图谱的互联网金融团伙欺诈行为检测方法

Country Status (1)

Country Link
CN (1) CN112053221A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561684A (zh) * 2020-12-15 2021-03-26 平安科技(深圳)有限公司 金融欺诈风险识别方法、装置、计算机设备及存储介质
CN112579782A (zh) * 2020-12-28 2021-03-30 上海明略人工智能(集团)有限公司 数据处理方法、知识管理系统、电子设备和可读存储介质
CN112926855A (zh) * 2021-02-24 2021-06-08 北京通付盾人工智能技术有限公司 一种基于知识图谱的营销活动风险控制系统及方法
CN112926990A (zh) * 2021-03-25 2021-06-08 支付宝(杭州)信息技术有限公司 欺诈识别的方法和装置
CN113360580A (zh) * 2021-05-31 2021-09-07 北京百度网讯科技有限公司 基于知识图谱的异常事件检测方法、装置、设备及介质
CN113364764A (zh) * 2021-06-02 2021-09-07 中国移动通信集团广东有限公司 基于大数据的信息安全防护方法及装置
CN113657902A (zh) * 2021-08-03 2021-11-16 浙江创邻科技有限公司 基于图数据库的金融安全管理方法、系统及存储介质
CN113837777A (zh) * 2021-09-30 2021-12-24 浙江创邻科技有限公司 基于图数据库的反诈骗管控方法、装置、系统及存储介质
CN113962712A (zh) * 2021-10-29 2022-01-21 深圳市珍爱捷云信息技术有限公司 一种诈骗团伙的预测方法及相关设备
CN113988878A (zh) * 2021-12-27 2022-01-28 智器云南京信息科技有限公司 一种基于图数据库技术的反欺诈方法及系统
CN114022166A (zh) * 2021-11-19 2022-02-08 平安银行股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
CN114036923A (zh) * 2021-11-17 2022-02-11 四川新网银行股份有限公司 一种基于文本相似度的资料虚假识别系统及方法
CN114124576A (zh) * 2022-01-24 2022-03-01 成都无糖信息技术有限公司 一种基于知识图谱的诈骗网站关联方法及系统
CN114155080A (zh) * 2021-09-29 2022-03-08 东方微银科技股份有限公司 一种欺诈识别方法、设备及存储介质
CN115150130A (zh) * 2022-06-08 2022-10-04 北京天融信网络安全技术有限公司 攻击团伙的跟踪分析方法、装置、设备及存储介质
CN115423542A (zh) * 2022-11-07 2022-12-02 中邮消费金融有限公司 一种老带新活动反欺诈识别方法及系统
WO2023109116A1 (zh) * 2021-12-14 2023-06-22 同济大学 一种基于交易图谱的快速反洗钱检测方法
CN116308748A (zh) * 2023-03-19 2023-06-23 二十六度数字科技(广州)有限公司 一种基于知识图谱的用户欺诈行为判断系统
CN116542685A (zh) * 2023-07-06 2023-08-04 凯泰铭科技(北京)有限公司 一种基于图网络的车险数据处理方法及装置
CN117235200A (zh) * 2023-09-12 2023-12-15 杭州湘云信息技术有限公司 基于ai技术的数据集成方法、装置、计算机设备及存储介质
CN112579782B (zh) * 2020-12-28 2024-06-07 上海明略人工智能(集团)有限公司 数据处理方法、知识管理系统、电子设备和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492173A (zh) * 2018-03-23 2018-09-04 上海氪信信息技术有限公司 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法
CN109064318A (zh) * 2018-08-24 2018-12-21 苏宁消费金融有限公司 一种基于知识图谱的互联网金融风险监测系统
CN109522416A (zh) * 2018-10-19 2019-03-26 广东工业大学 一种金融风险控制知识图谱的构建方法
CN110111110A (zh) * 2019-04-01 2019-08-09 北京三快在线科技有限公司 基于知识图谱检测欺诈的方法和装置、存储介质
CN110223168A (zh) * 2019-06-24 2019-09-10 浪潮卓数大数据产业发展有限公司 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN110930246A (zh) * 2019-12-04 2020-03-27 深圳市新国都金服技术有限公司 信贷反欺诈识别方法、装置、计算机设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492173A (zh) * 2018-03-23 2018-09-04 上海氪信信息技术有限公司 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法
CN109064318A (zh) * 2018-08-24 2018-12-21 苏宁消费金融有限公司 一种基于知识图谱的互联网金融风险监测系统
CN109522416A (zh) * 2018-10-19 2019-03-26 广东工业大学 一种金融风险控制知识图谱的构建方法
CN110111110A (zh) * 2019-04-01 2019-08-09 北京三快在线科技有限公司 基于知识图谱检测欺诈的方法和装置、存储介质
CN110223168A (zh) * 2019-06-24 2019-09-10 浪潮卓数大数据产业发展有限公司 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN110930246A (zh) * 2019-12-04 2020-03-27 深圳市新国都金服技术有限公司 信贷反欺诈识别方法、装置、计算机设备及计算机可读存储介质

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561684A (zh) * 2020-12-15 2021-03-26 平安科技(深圳)有限公司 金融欺诈风险识别方法、装置、计算机设备及存储介质
CN112561684B (zh) * 2020-12-15 2024-03-19 平安科技(深圳)有限公司 金融欺诈风险识别方法、装置、计算机设备及存储介质
CN112579782A (zh) * 2020-12-28 2021-03-30 上海明略人工智能(集团)有限公司 数据处理方法、知识管理系统、电子设备和可读存储介质
CN112579782B (zh) * 2020-12-28 2024-06-07 上海明略人工智能(集团)有限公司 数据处理方法、知识管理系统、电子设备和可读存储介质
CN112926855A (zh) * 2021-02-24 2021-06-08 北京通付盾人工智能技术有限公司 一种基于知识图谱的营销活动风险控制系统及方法
CN112926990A (zh) * 2021-03-25 2021-06-08 支付宝(杭州)信息技术有限公司 欺诈识别的方法和装置
CN113360580A (zh) * 2021-05-31 2021-09-07 北京百度网讯科技有限公司 基于知识图谱的异常事件检测方法、装置、设备及介质
CN113360580B (zh) * 2021-05-31 2023-09-26 北京百度网讯科技有限公司 基于知识图谱的异常事件检测方法、装置、设备及介质
CN113364764A (zh) * 2021-06-02 2021-09-07 中国移动通信集团广东有限公司 基于大数据的信息安全防护方法及装置
CN113657902B (zh) * 2021-08-03 2024-03-22 浙江创邻科技有限公司 基于图数据库的金融安全管理方法、系统及存储介质
CN113657902A (zh) * 2021-08-03 2021-11-16 浙江创邻科技有限公司 基于图数据库的金融安全管理方法、系统及存储介质
CN114155080A (zh) * 2021-09-29 2022-03-08 东方微银科技股份有限公司 一种欺诈识别方法、设备及存储介质
CN113837777A (zh) * 2021-09-30 2021-12-24 浙江创邻科技有限公司 基于图数据库的反诈骗管控方法、装置、系统及存储介质
CN113837777B (zh) * 2021-09-30 2024-02-20 浙江创邻科技有限公司 基于图数据库的反诈骗管控方法、装置、系统及存储介质
CN113962712A (zh) * 2021-10-29 2022-01-21 深圳市珍爱捷云信息技术有限公司 一种诈骗团伙的预测方法及相关设备
CN114036923A (zh) * 2021-11-17 2022-02-11 四川新网银行股份有限公司 一种基于文本相似度的资料虚假识别系统及方法
CN114022166A (zh) * 2021-11-19 2022-02-08 平安银行股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
CN114022166B (zh) * 2021-11-19 2024-04-09 平安银行股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
WO2023109116A1 (zh) * 2021-12-14 2023-06-22 同济大学 一种基于交易图谱的快速反洗钱检测方法
CN113988878A (zh) * 2021-12-27 2022-01-28 智器云南京信息科技有限公司 一种基于图数据库技术的反欺诈方法及系统
CN114124576A (zh) * 2022-01-24 2022-03-01 成都无糖信息技术有限公司 一种基于知识图谱的诈骗网站关联方法及系统
CN115150130A (zh) * 2022-06-08 2022-10-04 北京天融信网络安全技术有限公司 攻击团伙的跟踪分析方法、装置、设备及存储介质
CN115150130B (zh) * 2022-06-08 2023-11-10 北京天融信网络安全技术有限公司 攻击团伙的跟踪分析方法、装置、设备及存储介质
CN115423542A (zh) * 2022-11-07 2022-12-02 中邮消费金融有限公司 一种老带新活动反欺诈识别方法及系统
CN116308748B (zh) * 2023-03-19 2023-10-20 二十六度数字科技(广州)有限公司 一种基于知识图谱的用户欺诈行为判断系统
CN116308748A (zh) * 2023-03-19 2023-06-23 二十六度数字科技(广州)有限公司 一种基于知识图谱的用户欺诈行为判断系统
CN116542685B (zh) * 2023-07-06 2023-09-15 凯泰铭科技(北京)有限公司 一种基于图网络的车险数据处理方法及装置
CN116542685A (zh) * 2023-07-06 2023-08-04 凯泰铭科技(北京)有限公司 一种基于图网络的车险数据处理方法及装置
CN117235200A (zh) * 2023-09-12 2023-12-15 杭州湘云信息技术有限公司 基于ai技术的数据集成方法、装置、计算机设备及存储介质
CN117235200B (zh) * 2023-09-12 2024-05-10 杭州湘云信息技术有限公司 基于ai技术的数据集成方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN112053221A (zh) 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN112053222A (zh) 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN109816397B (zh) 一种欺诈判别方法、装置及存储介质
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈系统
Yue et al. A review of data mining-based financial fraud detection research
CN106530078A (zh) 基于跨行业数据的贷款风险预警方法及系统
CN112132233A (zh) 一种基于有效影响因子的服刑人员危险行为预测方法及系统
Da Rocha et al. Identifying bank frauds using CRISP-DM and decision trees
CN111695597B (zh) 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统
CN113011973A (zh) 基于智能合约数据湖的金融交易监管模型、系统、设备
CN113902534A (zh) 一种基于股票社区关系图谱的交互风险团伙识别方法
Ramaki et al. Credit card fraud detection based on ontology graph
Khodabakhshi et al. Fraud detection in banking using knn (k-nearest neighbor) algorithm
Semmelbeck et al. Exploring the determinants of crime-terror cooperation using machine learning
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN113112323B (zh) 基于数据分析的异常订单识别方法、装置、设备及介质
Manoj et al. A Strategy for Identification and Prevention of Crime using various Classifiers
Sundaram et al. Detecting phishing websites using an efficient feature-based machine learning framework
Hui Construction of information security risk assessment model in smart city
Hamdy et al. Criminal act detection and identification model
CN109410035B (zh) 一种协助反欺诈分析群组结构的方法及工具
Deng Detection of fraudulent financial statements based on Naïve Bayes classifier
Cochrane et al. Pattern analysis for transaction fraud detection
Prabhakar et al. Credit card fraud detection using boosted stacking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201208

RJ01 Rejection of invention patent application after publication