CN109918511B - 一种基于bfs和lpa的知识图谱反欺诈特征提取方法 - Google Patents

一种基于bfs和lpa的知识图谱反欺诈特征提取方法 Download PDF

Info

Publication number
CN109918511B
CN109918511B CN201910084190.2A CN201910084190A CN109918511B CN 109918511 B CN109918511 B CN 109918511B CN 201910084190 A CN201910084190 A CN 201910084190A CN 109918511 B CN109918511 B CN 109918511B
Authority
CN
China
Prior art keywords
data
entity
node
information
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910084190.2A
Other languages
English (en)
Other versions
CN109918511A (zh
Inventor
后其林
李达
钟丽莉
万谊强
仵伟强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huarong Rongtong Beijing Technology Co ltd
Original Assignee
Huarong Rongtong Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huarong Rongtong Beijing Technology Co ltd filed Critical Huarong Rongtong Beijing Technology Co ltd
Priority to CN201910084190.2A priority Critical patent/CN109918511B/zh
Publication of CN109918511A publication Critical patent/CN109918511A/zh
Application granted granted Critical
Publication of CN109918511B publication Critical patent/CN109918511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种基于BFS和LPA的知识图谱反欺诈特征提取方法:步骤一、对原始数据标准化,将原始数据转化为不同维度下的标注数据,进行清洗、转换,形成符合知识图谱建模的数据;步骤二、知识图谱模型构建,包含本体构建、语义标注和信息抽取。本发明优点:(1)将单纯的社交关系转为知识关系,使不同本体知识注入图谱,提供面向消费金融领域的知识图谱表示方法;(2)引入广度优先搜索寻找实体触黑阶层,改进后可提炼不同遍历长度的触黑信息,增强了特征层次,多样化了特征表示方式;(3)对消费金融反欺诈领域的欺诈团案问题,使用基于标签传播的实体子团挖掘方法,挖掘实体子团信息,提取对应的特征变量,表现出较好的区分特性。

Description

一种基于BFS和LPA的知识图谱反欺诈特征提取方法
技术领域
本发明一种基于BFS(广度优先搜索,Breadth-First Search)和LPA(标签传播算法,Label Propagation Algorithm-LPA)的知识图谱反欺诈特征提取方法,涉及金融领域的用户欺诈风险评估技术,具体涉及一种面向资产管理公司消费金融领域的知识图谱反欺诈特征提取方法。
背景技术
近年来,以P2P借贷、消费金融等为主体业务的互联网金融公司不断涌现,在传统金融行业无法涉及的领域建立了一个庞大的新兴产业。但同时各种负面新闻也接踵而至,给这些互联网金融企业的前途蒙上一层阴影。在其中,风控能力一直是这些新兴科技金融公司的命门,只有拥有良好的风控技术,才可能在这股浪潮中健康发展。传统风控手段依赖于央行征信系统,也存在一定缺陷和问题。从客群角度来看,P2P借贷平台、消费金融公司面向的对象大多不是银行零售业务的目标客群,因而央行征信系统中也缺乏这类客户的信用信息;此外,央行征信系统也依赖于银行系统上传的历史数据,而这类数据缺乏时效性,对于客户当前信用风险的评估也就略显不足。
在科技赋能金融与人工智能潮流相融合的背景下,知识图谱挖掘和机器学习为消费金融这一领域的用户欺诈问题提供了一种方法,目前消费金融公司所面临的风险主要包括欺诈风险和信用风险,相对于信用风险而言,欺诈风险的鉴别和定义更为困难,欺诈风险用户是指在申请贷款同时就没有还款意愿的用户。目前欺诈所占消费金融坏账损失相比信用风险要高出许多,目前针对消费金融反欺诈的建模方法多从高维度数据(购物、通信、出行等)出发来反映用户行为,刻画用户画像,从而辅助判断用户的信用风险。当前国内知名互联网公司都依托于其业务场景,根据业务场景进行有效的数据积累,挖掘其背后隐藏的丰富信息,从而能完成对用户的欺诈风险定价。例如阿里巴巴集团旗下的蚂蚁金服依托于用户在支付宝这一聚合工具内的行为对用户进行风险定价;移动运营商方面,则基于用户通信行为数据给用户进行风险定价。这种基于多维度信息的风险定价方法,也为互联网金融公司风控提供了一种新思路。但是目前反欺诈针对的核心人群为中介和团案欺诈模式,传统的特征多采用用户是否触黑等黑名单信息进行特征提取,没有考虑到群体性和知识图谱的特征抽取。
基于以上问题,本发明提出一种基于BFS和LPA的知识图谱反欺诈特征提取方法,从用户的知识图谱数据入手,首先经过数据清洗对数据进行预处理,之后建立实体关系的知识图谱结构,通过使用广度优先遍历算法提取用户触黑信息,同时使用标签传播算法来对整个知识图谱建模,获取知识图谱的结构特性,最后综合BFS触黑信息和LPA知识图谱特征提取信息,最后使用相关信息进行建模来甄别是否是欺诈用户。
发明内容
本发明的目的在于提出一种BFS和LPA的知识图谱反欺诈特征提取方法,将传统搜索算法与知识图谱挖掘算法应用到欺诈风险的评估方法上,以技术推动业务发展,通过对用户的知识图谱进行建模,挖掘用户的触黑阶层以及社团信息,辅助业务人员审核判断用户的欺诈风险,极大地提高审核的效率和准确性。
为了实现上述目的,本发明一种基于BFS和LPA的知识图谱反欺诈特征提取方法采用如下技术方案:
本发明首先将用户的原始数据转换为标准信息;在此基础上,通过分析数据的关系和对象,剥离出对应的实体和关系,建立知识图谱模型;在知识图谱模型的基础上,通过广度优先搜索和标签传播算法来获取知识图谱的欺诈特征来对用户进行欺诈辅助定价。本发明主要包括对原始数据的标准化、知识图谱模型的构建以及基于广度优先搜索和标签传播算法的知识图谱特征提取三部分,具体如下:
一、对原始数据标准化
该部分主要将用户在APP端授权的原始数据(包含地址、联系人等)转化为不同维度下的标注数据,根据提供的数据将数据整体划分为行为数据、消费数据、基本信息数据等维度,通过对这些数据进行清洗,转换,最终形成符合知识图谱建模的数据。
同时原始数据可能存在存储不规范、字段不统一、中英文混合、数据缺失、多类别变量等问题,针对这些问题,采用数据清洗将原始数据转化为规整数据,具体技术方案如下:
1.1不规范字段处理
原始数据可能存在部分乱码数据和不规范数据。对于乱码数据,采用删除处理;对于存储不规范的数据,将其非标准化的数据转换为统一的标准形式。
1.2缺失数据处理
原始数据中可能存在大量缺失字段,针对不同的缺失情况存在不同的数据处理方式。对于联系数据的缺失问题,将被联系用户的联系人缺失数据删除。对地址关联数据中的地址信息缺失数据进行补全、删除等操作。
1.3关系抽取数据集建立
原始数据除通讯、紧急联系人数据外,地址数据的关系匹配并未直接给出,同时针对数据的亲属关系也并未给出。针对上述问题,通过将地址关系进行补全、去重、关键词提取后进行模糊匹配;亲属关系通过自然语言处理技术对亲属关系进行提取和分析,最终构建出用于可便于关系抽取的数据集。
二、知识图谱模型的构建
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识图谱构建主要包含本体构建、语义标注和信息抽取三个过程。
1.本体主要是用来描述某个领域内的概念和概念之间的关系,使得它们在共享的范围内具有大家共同认可的、明确的、唯一的定义。对于本领域的知识图谱构建而言,主要目标是识别消费金融知识图谱中的基于图论的欺诈本体,因此构建本体环节包括构建用户本体及围绕用户生成的联系本体、地址本体和公司本体。
2.语义标注是对原始数据做标记,使其包含一定的语义信息。具体为:针对消费公司提供的电核等文本中记录的数据进行语义标注和语义校准,最终形成图谱实体与实体之间的可解析的信息。
3.信息抽取包括实体抽取、关系抽取和属性抽取等三个步骤:
·实体抽取也叫做命名实体识别,是从文本中自动识别出命名实体。与之相似的任务是实体集扩充,该任务指的是根据种子实体集,从文本中抽取出相同类别的新实体。针对本领域的实体抽取任务是不同于传统的从文本中进行命名实体抽取的过程,主要由于消费金融领域数据的关注实体主要集中于用户本身,因此包含用户实体、公司实体、地址实体、申请实体等。
·关系抽取指的是从文本中抽取出实体和实体之间的关系,这样才能将零散的实体联系起来。关系抽取的算法可以分为基于规则的方法和基于机器学习的方法,针对消费金融领域而言,关系是从属于文本关系抽取之外的关系,主要是提取实体之间关系,这里使用了关系提取算法进行关系界定,从而确认实体与实体之间关系,以及实体间关系的权重,这里构建了通话、亲属、子女、上班等关系。
·属性抽取则是从文本中抽取出实体的属性信息,例如实体“中国”的“面积”、“人口数量”等属性。针对本领域下的属性抽取,主要关注实体与实体之间关系的权重,以及实体对应的好坏属性,例如实体:“用户A”的“逾期信息”,“年龄”等属性在数据通过不规范字段处理、缺失数据数据处理、关系数据处理之后,进一步对实体抽取、关系抽取、属性抽取等步骤,利用节点与节点之间的数据集,通过最终构建成实体明确关系清晰属性饱满的知识图谱。
三、基于BFS和LPA的知识图谱特征提取算法
当前反欺诈领域的特征提取多采用基于RFM的特征提取方法,关注消费金额、消费频率和消费时间,但是结合当前的科技金融的发展趋势,反欺诈的手段变得愈加丰富,可借助互联网的行为数据进行分析,其中针对联系人的社交属性的挖掘方式也层出不穷,但是多采用传统社交网络进行建模,强调人与人之间的关系,但是对于数据中的其他知识表示能力薄弱,这里引入了知识图谱从关系表示扩展到知识表示,在经过上述步骤之后,将用户数据表示成知识图谱数据形式,但是知识图谱的使用方法多面向智能问答和搜索引擎很少用于反欺诈领域,同时也少有特征提取方法应用于反欺诈特征提取领域,因此在这里引入BFS算法和LPA算法对知识图谱数据进行进一步提取,提炼出不同知识层次下的特征。下述为对应的算法过程。两算法为串行处理逻辑,首先提取n阶遍历长度的触黑信息,之后提取知识图谱条件下的子团结构。
3.1改进的广度优先搜索(BFS)算法:
传统广度优先搜索从图中某顶点v出发,在访问了v之后依次访问v的各个未曾访问过的邻接点,然后分别从这些邻接点出发依次访问它们的邻接点,并使得“先被访问的顶点的邻接点先于后被访问的顶点的邻接点被访问,直至图中所有已被访问的顶点的邻接点都被访问到。如果此时图中尚有顶点未被访问,则需要另选一个未曾被访问过的顶点作为新的起始点,重复上述过程,直至图中所有顶点都被访问到为止。
针对传统广度优先算法是遍历全图直到停止的特点,这里引入遍历长度的概念,结合需要控制的图遍历长度,控制遍历长度,从而找到遍历长度约束下的接触过逾期用户的节点。
具体步骤如下:
1.构建全图结构G(u,v),u,v为图中有连接关系的两实体;
2.获取单个用户实体ui所属的子图Gi,i表示对应于单个用户实体的子图索引;
3.输入参数为初始点为ui,遍历长度为n,节点存储集合Hash Black Set用于存放接触过逾期用户的节点;
4.使用python的queue作为暂存器,记录待访问节点,用Arrived List记录访问过的节点;
5.开始遍历,在未达到设定的遍历长度前,主要做图中节点的访问,每遍历完一层,遍历长度减1,同时将访问过的节点压入访问过列表Arrived List;
6.遍历长度减值到0的条件下,记录当前遍历的图节点是否包含接触过逾期用户的节点,存在返回0,否则返回1。
依据本算法可以提取在不同遍历长度条件下的接触过逾期用户的信息。之后结合标签传播算法对围绕用户实体构建的子团实体结构进行特征提取。这里主要使用标签传播算法来进行处理。
3.2标签传播算法(LPA)
该算法于2002年提出,它是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。利用样本间的关系建立关系完全图模型,在完全图中,节点包括已标注和未标注数据,其边表示两个节点的相似度,节点的标签按相似度传给其他节点。标签数据就像是一个源头,可以对无标签数据进行标注,节点的相似度越大,标签越容易传播。该主要用于信息检索领域和社区挖掘领域。但是该方法很少应用于消费金融知识图谱的实体子团挖掘,而对于消费金融反欺诈领域团案的风险对欺诈领域存在很大的影响,同时该方法的时间复杂度较低可以快速高效的计算出社团,因此将该方法引入消费金融反欺诈的知识图谱子团挖掘领域。
所述标签传播算法的前提条件约束:
1.令(x1,y1)...(xn,yn)为图谱中属性包含标签行的实体节点,Yn={y1...yn}∈{0,1}为类别型信息,类别0为非接触过逾期用户的节点标签,1为接触过逾期用户的节点标签,均存在包含标签信息的数据中。
2.令(xn+1,yn+1),...,(xn+l,yn+l)为不包含标签信息的实体节点数据,YL={y1...yl}为不可观测类别信息,n<<l,令公开数据集XL={x1,...,xl}∈RD,将问题转换为在已观测数据集条件下,利用观测数据来推导不可观测标签YL
所述标签传播算法的特征提取流程:
1.利用全部实体节点构建完全连接图:
其中边的权重计算公式如下:
Figure BDA0001961213670000061
其中dij表示两实体节点间的欧氏距离,权重wij和参数σ公式相关。为衡量一个标准为坏用户的节点通过边传播到其他未标注的实体节点的概率,在此定义一个(l+n)×(l+n)的概率传递矩阵T:
Figure BDA0001961213670000062
Tji表示j节点标签信息转移到i节点的概率。
2.定义一个(l+n)×2的标注矩阵Y,令Yic=δ(yi,c),它的第i行代表着节点yi的标注概率,第c列代表类别,若Yic=1则表示节点yi是属于c类别,否则为0。通过概率传递,使其概率分布集中于给定类别,然后通过边的权重值来传递节点标签。矩阵Y的初始值并不重要,但是要保证其他每行都是标准化的。
3.每个实体节点按传播概率把它周围节点传播的标注值按权重相加,并更新自己的概率分布:
Figure BDA0001961213670000063
4.限定已标注数据,把已标注数据的概率分布重新赋值为初始值。重复步骤3,直到收敛。注意保持已标注数据点的标注信息表不变,限定标注信息为Yn,不断地把标注从高权值传播到低权值,直到收敛:
Fij=Yij,1≤i≤n,j=2
5.将收敛完成的划分的社区进行子团规模计数,子团中接触过逾期用户的比率特征提取,同时分析实体子团的图结构。
具体特征提取方法流程图如图1所示。
本发明一种基于BFS和LPA的知识图谱反欺诈特征挖掘方法,具体涉及到消费金融反欺诈风险控制领域的特征提取技术,与现有技术相比,其优点和功效在于:(1)将单纯的社交关系转为知识关系,抽离了对应的实体信息、关系信息、属性信息进而呈现了层次更为丰富的图谱信息,使得不同本体知识注入图谱,提供了一种面向消费金融领域的知识图谱表示方法;(2)引入了广度优先搜索来寻找实体的触黑阶层,改进了传统广度优先搜索不能控制遍历长度的问题,改进后可使得该方法提炼不同遍历长度的触黑信息,增强了特征的层次,多样化了特征的表示方式;(3)针对消费金融反欺诈领域的欺诈团案问题,提出了一种实体子团方法,使用基于标签传播的实体子团挖掘方法,进一步挖掘了知识图谱中包含的实体子团信息,提取了对应的特征变量,在模型表现上表现出较好的区分特性。
附图说明
图1基于BFS和LPA的知识图谱挖掘的特征提取方法流程图。
具体实施方式
下面结合具体实施例,对本发明的技术方案做进一步的说明。
为了说明本发明的有效性,我们基于中国华融消费金融公司提供的关系数据进行验证。
一、数据导入
数据包含3张表,客户申请表,主要包含用户申请过程中的填写姓名、联系电话、身份证号以及用户触发的规则;联系人表包含了联系人的通讯联系人内容;通话记录表包含了联系人的通话行为记录。
二、数据标准化
原始数据可能存在存储不规范、字段不统一、中英文混合、数据缺失、多类别变量等问题,针对这些问题,采用数据清洗将原始数据转化为规整数据,具体技术方案如下:
2.1不规范字段处理
原始数据可能存在部分乱码数据和不规范数据。对于乱码数据,采用删除处理;对于存储不规范的数据,将其非标准化的数据转换为统一的标准形式。
2.2缺失数据处理
原始数据中存在大量缺失字段,针对不同的缺失情况存在不同的数据处理方式。对于联系数据的缺失问题,将被联系用户的联系人缺失数据删除。对地址关联数据中的地址信息缺失数据进行补全、删除等操作。
2.3关系抽取数据集建立
原始数据除通讯,紧急联系人数据外,地址数据的关系匹配并未直接给出,同时针对数据的亲属关系也并未给出。针对上述问题,通过将地址关系进行补全、去重、关键词提取后进行模糊匹配;亲属关系通过自然语言处理技术对亲属关系进行提取和分析,最终构建出用于可便于关系抽取的数据集。
三、知识图谱模型的构建
知识图谱构建主要包含本体构建、语义标注和信息抽取三个过程。
3.1由于反欺诈领域主要目标是识别知识图谱中的基于图的欺诈实体,因此本体主要关注用户本体及围绕用户生成的联系本体。因此这里共产生构建了4中本体:用户、申请、公司、电话。
3.2语义标注是指的是对原始数据做标记,使其包含一定的语义信息。针对文本中记录的数据进行语义标注和语义校准,最终使得数据中的语义信息可以进行机器解析。这里主要使用基于word embedding的方式将原始数据转为语义向量。
3.3信息抽取包括实体抽取、关系抽取和属性抽取等三个步骤:
·针对本领域的实体抽取任务是不同于传统的从文本中进行命名实体抽取的过程,主要由于消费金融领域数据的关注实体主要集中于用户本体下的单个用户实体以及围绕单个用户实体以及其周边的本体下的实体。共计形成109678个实体。
·关系抽取的算法可以分为基于规则的方法和基于机器学习的方法,针对消费金融领域而言,关系是从属于文本关系抽取之外的关系,主要是提取实体之间关系,这里使用了专家经验对关系进行界定,从而确认实体与实体之间关系,以及实体间关系的权重。经过专家界定共生成12种关系,共计126946条关系。
·针对本领域下的属性抽取,主要关注实体与实体之间关系的权重,以及实体对应的好坏属性。这里主要是将用户的标签信息进行导入,黑用户标注为1,正常用户标注为0。
四、基于BFS和LPA的知识图谱特征提取
在构建好知识图谱之后,将所有用户实体存入UserList,设置UserList中的节点为子图遍历的初始节点。同时设置遍历长度为3步,2步,1步,将不同层次的触黑信息存入对应的用户实体的特征向量中。之后使用标签传播算法对知识图谱中实体子团进行挖掘。
4.1利用全部实体节点构建完全连接图:
其中边的权重计算公式如下:
Figure BDA0001961213670000091
其中dij表示两节点间的欧氏距离,权重wij和参数σ公式相关。为衡量一个标准为坏用户的节点通过边传播到其他未标注的实体节点的概率,在此定义一个(14508+415)×(14508+415)的概率传递矩阵T:
Figure BDA0001961213670000092
Tji表示j节点标签信息转移到i节点的概率。
4.2定义一个(14508+415)×2的标注矩阵Y,令Yic=δ(yi,c),它的第i行代表着节点yi的标注概率,第c列代表类别,若Yic=1则表示节点yi是属于c类别,否则为0。通过概率传递,使其概率分布集中于给定类别,然后通过边的权重值来传递节点标签。矩阵Y的初始值并不重要,但是要保证其他每行都是标准化的。
4.3每个节点按传播概率把它周围节点传播的标注值按权重相加,并更新自己的概率分布:
Figure BDA0001961213670000093
4.4限定已标注数据,把已标注数据的概率分布重新赋值为初始值。重复步骤4.3,直到收敛。注意保持已标注数据点的标注信息表不变,限定标注信息为Yn,不断地把标注从高权值传播到低权值,直到收敛:
Fij=Yij,1≤i≤n,j=2
4.5将收敛完成的划分的社区进行子图规模计数,子团触黑几率特征提取,同时分析尸体子团的图结构。
将提取好的触黑特征与子团特征用于模型训练,将使用10000数据训练,4523测试,最终AUC的值为0.75。
以上所述,仅为本发明的较佳实施样例,并非对本发明的技术范围做任何限制,故凡是依据本发明的技术实质对以上实施样例所做的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (3)

1.一种基于BFS和LPA的知识图谱反欺诈特征提取方法,其特征在于:该方法包括如下步骤:
步骤一、对原始数据标准化
将用户在APP端授权的原始数据转化为不同维度下的标注数据,将数据整体划分为行为数据、消费数据、基本信息数据的维度,通过对这些数据进行清洗,转换,最终形成符合知识图谱建模的数据;
步骤二、知识图谱模型的构建
知识图谱模型构建包含本体构建、语义标注和信息抽取三个过程;
S2.1构建本体环节包括构建用户本体及围绕用户生成的联系本体、地址本体和公司本体;
S2.2针对消费公司提供的文本中记录的数据进行语义标注和语义校准,最终形成图谱实体与实体之间的可解析的信息;
S2.3信息抽取包括实体抽取、关系抽取和属性抽取三个步骤;
步骤三、基于BFS和LPA的知识图谱特征提取
引入知识图谱从关系表示扩展到知识表示,在经过上述步骤之后,将用户数据表示成知识图谱数据形式,引入改进的广度优先搜索算法即BFS和标签传播算法即LPA对知识图谱数据进行进一步提取,提炼出不同知识层次下的特征;两种算法为串行处理逻辑,首先提取n阶遍历长度的触发黑名单规则的信息,之后提取知识图谱条件下的子团结构;
所述的改进的广度优先搜索算法,针对传统广度优先算法是遍历全图直到停止的特点,引入遍历长度的概念,结合需要控制的图遍历长度,控制遍历长度,从而找到遍历长度约束下的接触过逾期用户的节点;具体步骤如下:
S3.1.1构建全图结构G(u,v),u,v为图中有连接关系的两实体;
S3.1.2获取单个用户实体ui所属的子图Gi,i表示对应于单个用户实体的子图索引;
S3.1.3输入参数为初始点为ui,遍历长度为n,节点存储集合Hash Black Set用于存放接触过逾期用户的节点;
S3.1.4使用python的queue作为暂存器,记录待访问节点,用Arrived List记录访问过的节点;
S3.1.5开始遍历,在未达到设定的遍历长度前,做图中节点的访问,每遍历完一层,遍历长度减1,同时将访问过的节点压入访问过列表Arrived List;
S3.1.6遍历长度减值到0的条件下,记录当前遍历的图节点是否包含接触过逾期用户的节点,存在返回0,否则返回1;
依据本算法提取在不同遍历长度条件下的接触过逾期用户的信息;之后结合标签传播算法对围绕用户实体构建的子团实体结构进行特征提取;
所述标签传播算法的前提条件约束:
(1).令(x1,y1)...(xn,yn)为图谱中属性包含标签行的实体节点,Yn={y1...yn}∈{0,1}为类别型信息,类别0为非接触过逾期用户的节点标签,1为接触过逾期用户的节点标签,均存在包含标签信息的数据中;
(2).令(xn+1,yn+1),...,(xn+l,yn+l)为不包含标签信息的实体节点数据,YL={y1...yl}为不可观测类别信息,n<<l,令公开数据集XL={x1,...,xl}∈RD,将问题转换为在已观测数据集条件下,利用观测数据来推导不可观测标签YL
所述标签传播算法的特征提取流程:
S3.2.1利用全部实体节点构建完全连接图:
其中边的权重计算公式如下:
Figure FDA0003026897350000021
其中dij表示两实体节点间的欧氏距离,权重wij和参数σ相关;为衡量一个标准为逾期用户的节点通过边传播到其他未标注的实体节点的概率,在此定义一个(l+n)×(l+n)的概率传递矩阵T:
Figure FDA0003026897350000022
Tji表示j节点标签信息转移到i节点的概率;
S3.2.2定义一个(l+n)×2的标注矩阵Y,令Yic=δ(yi,c),它的第i行代表着节点yi的标注概率,第c列代表类别,若Yic=1则表示节点yi是属于c类别,否则为0;通过概率传递,使其概率分布集中于给定类别,然后通过边的权重值来传递节点标签;矩阵Y的初始值并不重要,但是要保证其他每行都是标准化的;
S3.2.3每个实体节点按传播概率把它周围节点传播的标注值按权重相加,并更新自己的概率分布:
Figure FDA0003026897350000031
S3.2.4限定已标注数据,把已标注数据的概率分布重新赋值为初始值;重复步骤S3.2.3,直到收敛;注意保持已标注数据点的标注信息表不变,限定标注信息为Yn,不断地把标注从高权值传播到低权值,直到收敛:
Fij=Yij,1≤i≤n,j=2
S3.2.5将收敛完成的划分的社区进行子团规模计数,子团中接触过逾期用户的比率特征提取,同时分析实体子团的图结构。
2.根据权利要求1所述的一种基于BFS和LPA的知识图谱反欺诈特征提取方法,其特征在于:所述的对原始数据标准化,具体方案如下:
S1.1不规范字段处理
原始数据存在部分乱码数据和不规范数据;对于乱码数据,采用删除处理;对于存储不规范的数据,将其非标准化的数据转换为统一的标准形式;
S1.2缺失数据处理
原始数据中存在缺失字段,针对不同的缺失情况存在不同的数据处理方式;对于联系数据的缺失问题,将被联系用户的联系人缺失数据删除;对地址关联数据中的地址信息缺失数据进行补全、删除;
S1.3关系抽取数据集建立
原始数据除通讯、紧急联系人数据外,地址数据的关系匹配并未直接给出,同时针对数据的亲属关系也并未给出;针对上述问题,通过将地址关系进行补全、去重、关键词提取后进行模糊匹配;亲属关系通过自然语言处理技术对亲属关系进行提取和分析,最终构建出用于可便于关系抽取的数据集。
3.根据权利要求1所述的一种基于BFS和LPA的知识图谱反欺诈特征提取方法,其特征在于:所述的实体抽取包含用户实体、公司实体、地址实体、申请实体;所述的关系抽取是从属于文本关系抽取之外的关系,是提取实体之间关系,使用关系提取算法进行关系界定,从而确认实体与实体之间关系,以及实体间关系的权重,构建了通话、亲属、子女、上班关系;所述的属性抽取关注实体与实体之间关系的权重,以及实体对应的好坏属性。
CN201910084190.2A 2019-01-29 2019-01-29 一种基于bfs和lpa的知识图谱反欺诈特征提取方法 Active CN109918511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910084190.2A CN109918511B (zh) 2019-01-29 2019-01-29 一种基于bfs和lpa的知识图谱反欺诈特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910084190.2A CN109918511B (zh) 2019-01-29 2019-01-29 一种基于bfs和lpa的知识图谱反欺诈特征提取方法

Publications (2)

Publication Number Publication Date
CN109918511A CN109918511A (zh) 2019-06-21
CN109918511B true CN109918511B (zh) 2021-06-08

Family

ID=66960971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910084190.2A Active CN109918511B (zh) 2019-01-29 2019-01-29 一种基于bfs和lpa的知识图谱反欺诈特征提取方法

Country Status (1)

Country Link
CN (1) CN109918511B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781308B (zh) * 2019-06-25 2023-08-29 上海旭荣网络科技有限公司 一种基于大数据构建知识图谱的反欺诈系统
CN110363407A (zh) * 2019-06-27 2019-10-22 上海淇馥信息技术有限公司 基于用户行为轨迹的欺诈风险评估方法及装置
CN110414987B (zh) * 2019-07-18 2022-03-11 中国工商银行股份有限公司 账户集合的识别方法、装置和计算机系统
CN110688492B (zh) * 2019-09-25 2020-12-08 东南大学 一种基于轻量级索引的知识图谱查询方法
CN111131627B (zh) * 2019-12-20 2021-12-07 珠海高凌信息科技股份有限公司 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质
CN110888930A (zh) * 2019-12-23 2020-03-17 武汉大学 基于知识图谱的金融知识查询服务接口设计与实现方法
CN111314440B (zh) * 2020-01-21 2021-08-17 上海交通大学 图结构数据上的环检测方法及系统
CN111708897A (zh) * 2020-06-11 2020-09-25 中国建设银行股份有限公司 目标信息确定方法、装置和设备
CN112365270A (zh) * 2020-10-30 2021-02-12 上海欣方智能系统有限公司 一种金融欺诈识别与拦截的方法
CN112926990B (zh) * 2021-03-25 2022-08-30 支付宝(杭州)信息技术有限公司 欺诈识别的方法和装置
CN113808758B (zh) * 2021-08-31 2024-06-07 联仁健康医疗大数据科技股份有限公司 一种检验数据标准化的方法、装置、电子设备和存储介质
CN113807723B (zh) * 2021-09-24 2023-11-03 重庆富民银行股份有限公司 用于知识图谱的风险识别方法
CN114549026B (zh) * 2022-04-26 2022-07-19 浙江鹏信信息科技股份有限公司 基于算法组件库分析的未知诈骗的识别方法及系统
CN116109407A (zh) * 2023-03-07 2023-05-12 中科柏诚科技(北京)股份有限公司 一种基于区块链的信贷欺诈识别方法、装置及存储介质
CN116383412B (zh) * 2023-06-05 2023-09-15 中国电子科技集团公司信息科学研究院 基于知识图谱的功能点扩增方法和系统
CN116415564B (zh) * 2023-06-12 2023-08-25 中国电子科技集团公司信息科学研究院 基于知识图谱的功能点扩增方法和系统
CN116841536B (zh) * 2023-08-30 2023-12-05 成都摹客科技有限公司 一种组件引用关系重构方法、装置、系统及存储介质
CN117035082A (zh) * 2023-10-10 2023-11-10 北京江融信科技有限公司 一种用于识别欺诈团伙的知识图谱实时运算方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993139A (zh) * 2017-11-15 2018-05-04 华融融通(北京)科技有限公司 一种基于动态规则库的消费金融反欺诈系统与方法
US10127511B1 (en) * 2017-09-22 2018-11-13 1Nteger, Llc Systems and methods for investigating and evaluating financial crime and sanctions-related risks
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109064318A (zh) * 2018-08-24 2018-12-21 苏宁消费金融有限公司 一种基于知识图谱的互联网金融风险监测系统
CN109191281A (zh) * 2018-08-21 2019-01-11 重庆富民银行股份有限公司 一种基于知识图谱的团体欺诈识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127511B1 (en) * 2017-09-22 2018-11-13 1Nteger, Llc Systems and methods for investigating and evaluating financial crime and sanctions-related risks
CN107993139A (zh) * 2017-11-15 2018-05-04 华融融通(北京)科技有限公司 一种基于动态规则库的消费金融反欺诈系统与方法
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109191281A (zh) * 2018-08-21 2019-01-11 重庆富民银行股份有限公司 一种基于知识图谱的团体欺诈识别系统
CN109064318A (zh) * 2018-08-24 2018-12-21 苏宁消费金融有限公司 一种基于知识图谱的互联网金融风险监测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
全流程反欺诈体系的升级与重塑;曹汉平;《金融电子化》;20180630;全文 *
金融科技在互联网金融行业性风险防范领域的应用;胡鹏飞;《大数据》;20180131;全文 *

Also Published As

Publication number Publication date
CN109918511A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109918511B (zh) 一种基于bfs和lpa的知识图谱反欺诈特征提取方法
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
WO2021103492A1 (zh) 一种企业经营风险预测方法和系统
CN110555455A (zh) 一种基于实体关系的在线交易欺诈检测方法
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN113779264B (zh) 基于专利供需知识图谱的交易推荐方法
CN112434024B (zh) 面向关系型数据库的数据字典生成方法、装置、设备及介质
CN115878904A (zh) 基于深度学习的知识产权个性化推荐方法、系统及介质
CN116402512B (zh) 一种基于人工智能的账户安全排查管理方法
WO2023137918A1 (zh) 文本数据的分析方法、模型训练方法、装置及计算机设备
CN117290508A (zh) 一种基于自然语言处理的贷后文本数据处理方法和系统
CN116861924A (zh) 基于人工智能的项目风险预警方法及系统
CN112396437A (zh) 一种基于知识图谱的贸易合同验证方法及装置
Zhang Research on precision marketing based on consumer portrait from the perspective of machine learning
CN118153964A (zh) 基于大数据技术的供应商企业风险评估方法及系统
CN116541792A (zh) 一种基于图神经网络节点分类进行团伙识别的方法
Shi et al. Human resources balanced allocation method based on deep learning algorithm
Li et al. An improved genetic-XGBoost classifier for customer consumption behavior prediction
CN116739408A (zh) 基于数据标签的电网调度安全监控方法、系统及电子设备
CN115587190A (zh) 一种电力领域知识图谱的构建方法、装置及电子设备
Sharma et al. Deep learning in big data and data mining
CN116226371A (zh) 一种数字经济专利分类方法
Zhang [Retracted] Precise Dissemination of E‐Commerce Information and Behavior of Social Media Users
Kulothungan Loan Forecast by Using Machine Learning
Yang et al. Power user portrait model based on random forest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant