CN110765117B - 欺诈识别方法、装置、电子设备及计算机可读存储介质 - Google Patents

欺诈识别方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110765117B
CN110765117B CN201910940637.1A CN201910940637A CN110765117B CN 110765117 B CN110765117 B CN 110765117B CN 201910940637 A CN201910940637 A CN 201910940637A CN 110765117 B CN110765117 B CN 110765117B
Authority
CN
China
Prior art keywords
target credit
node
credit
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910940637.1A
Other languages
English (en)
Other versions
CN110765117A (zh
Inventor
王雪
庄若愚
陈惊雷
徐少迪
陈桂花
林乐凝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN201910940637.1A priority Critical patent/CN110765117B/zh
Publication of CN110765117A publication Critical patent/CN110765117A/zh
Application granted granted Critical
Publication of CN110765117B publication Critical patent/CN110765117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Storage Device Security (AREA)

Abstract

本申请提供了一种欺诈识别方法、装置、电子设备及计算机可读存储介质,应用于知识图谱技术领域,其中该方法包括:提取目标信贷主体的拓扑特征,从而能更好的保留图结构中实体节点的差异化信息及关联关系的异构结构,此外,基于由属性特征与拓扑特征确定的目标信贷主体的组合特征,进行目标信贷主体欺诈概率的识别,提升了欺诈识别的准确性与可靠性。

Description

欺诈识别方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及知识图谱技术领域,具体而言,本申请涉及一种欺诈识别方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网的发展,网络数据内容呈现爆炸式增长的态势,知识图谱(KnowledgeGraph)以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。随着知识图谱技术的发展,知识图谱开始应用于金融领域,如应用于信贷领域的欺诈识别。
目前,金融机构信贷业务运用知识图谱进行欺诈识别的方法,虽然运用了主体与其他实体的关联数据,但是仅考虑主体与其他实体之间是否有关系,即仅对主体与其他实体之间的关系进行单一考虑或同质化考虑。然而,在金融场景下,实体之间的关系是多种多样的(如投资、担保等,以及不同时期实体之间的关系),现有的对关联关系进行单一考虑或同质化考虑方法,丢失了大量的差异化信息,无法有效的反映不同关系类型对于不同细分场景、不同群体、不同时间范围内可能具备的不同影响,从而导致欺诈识别的准确性与可靠性较差。
发明内容
本申请提供了一种欺诈识别方法、装置、电子设备及计算机可读存储介质,用于提升欺诈识别的准确性、可靠性,本申请采用的技术方案如下:
第一方面,提供了一种欺诈识别方法,该方法包括,
获取目标信贷主体的信贷相关信息;
基于目标信贷主体的信贷相关信息更新预构建的知识图谱;
基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系;
基于属性特征与拓扑特征确定目标信贷主体的组合特征;
将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。
具体地,基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,包括:
基于预定义的至少一条元路径,通过随机游走算法从更新后的知识图谱中抽取得到与目标信贷主体相关的节点信息,并基于与目标信贷主体相关的节点信息组成节点序列;
通过图嵌入算法得到节点序列的向量表达,并将节点序列的向量表达作为目标信贷主体的拓扑特征。
具体地,元路径基于风险数据统计结果确定。
具体地,通过图嵌入算法得到节点序列的向量表达,包括:
将节点序列输入至预训练的词向量模型,得到节点序列的向量表达。
进一步地,词向量模型为Skip-Gram模型,该方法还包括:
进行Skip-Gram模型的训练时,对输出层进行异构化处理,用于保留节点序列之间的异构信息。
其中,预训练的分类器包括多个子分类器与组合分类器,组合分类器由子分类器组合得到。
第二方面,提供了一种欺诈识别装置,该装置包括,
获取模块,用于获取目标信贷主体的信贷相关信息;
更新模块,用于基于目标信贷主体的信贷相关信息更新预构建的知识图谱;
提取模块,用于基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及用于基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系;
组合模块,用于基于属性特征与拓扑特征确定目标信贷主体的组合特征;
识别模块,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。
具体地,提取模块包括:
抽取单元,用于基于预定义的至少一条元路径,通过随机游走算法从更新后的知识图谱中抽取得到与目标信贷主体相关的节点信息,并基于与目标信贷主体相关的节点信息组成节点序列;
图嵌入单元,用于通过图嵌入算法得到节点序列的向量表达,并将节点序列的向量表达作为目标信贷主体的拓扑特征。
具体地,元路径基于风险数据统计结果确定。
具体地,图嵌入单元,具体用于将节点序列输入至预训练的词向量模型,得到节点序列的向量表达。
进一步地,词向量模型为Skip-Gram模型,该装置还包括:
异构处理模块,用于进行Skip-Gram模型的训练时,对输出层进行异构化处理,用于保留节点序列之间的异构信息。
其中,预训练的分类器包括多个子分类器与组合分类器,组合分类器由子分类器组合得到。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的欺诈识别方法。
第四方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面所示的欺诈识别方法。
本申请提供了一种欺诈识别方法、装置、电子设备及计算机可读存储介质,与现有技术对实体之间的关联关系进行单一考虑或同质化处理相比,本申请通过获取目标信贷主体的信贷相关信息,然后基于目标信贷主体的信贷相关信息更新预构建的知识图谱,基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系,继而基于属性特征与拓扑特征确定目标信贷主体的组合特征,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。即提取目标信贷主体的拓扑特征,能更好的保留图结构中实体节点的差异化信息及关联关系的异构结构,此外,基于由属性特征与拓扑特征确定的目标信贷主体的组合特征,进行目标信贷主体欺诈概率的识别,提升了欺诈识别的准确性与可靠性。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的一种欺诈识别方法的流程示意图;
图2为本申请实施例的一种欺诈识别装置的结构示意图;
图3为本申请实施例的另一种欺诈识别装置的结构示意图;
图4为本申请实施例的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种欺诈识别方法,如图1所示,该方法可以包括以下步骤:
步骤S101,获取目标信贷主体的信贷相关信息;
具体地,获取目标信贷主体通过信贷APP或网页端程序提交的信贷相关信息,也可以在目标信贷主体提交的相应信贷申请后,从互联网或本地数据库中获取与目标信贷主体相关的信贷相关信息;其中,该信贷相关信息包括但不限于以下信息的一项或多项:信贷主体基本信息(主体名称/姓名、住所地/住址等)、相关干系人的基本信息、产品服务信息(申请的信贷产品信息)、关联关系信息(如投资、担保)、线上渠道交互信息、终端设备信息(如IMEI信息)等。其中,小微企业反欺诈领域中,干系人指该企业的实控人、法人、高管及其配偶、父母子女等直系亲属。
具体地,可以对获取的目标信贷主体的信贷相关信息进行数据清洗,其中,数据清洗的工作主要包括异常值处理、拆并表、同信息多来源数据整合、创建唯一标识、类别变量编码、数据截断等工作;其中异常值处理采用的方法包括:特定值填充、均值/众数填充、总体分布填充等填充方法以及样本和变量过滤方法。
步骤S102,基于目标信贷主体的信贷相关信息更新预构建的知识图谱;
具体地,基于目标信贷主体的信贷相关信息更新预先构建的知识图谱,其中,知识图谱的更新可以包括如下步骤:从信贷相关信息中识别出目标实体,从预先构建的知识图谱的实体中,确定至少一个与目标实体相关联的实体,然后建立目标实体与该相关联的实体之间的关系,其中,实体之间的关系可以用三元组形式的数据结构来表征。
其中,本申请的知识图谱可以采用图结构数据库(如Neo4j、OrientDB等)进行存储,也可以采用关系型数据库(如MySQL、Microsoft SQL Sever等)进行存储。
其中,知识图谱的结构包括:
1)节点
第一类是实体节点,指欺诈侦测的主体,如企业节点、个人节点、申请节点等。对应节点的属性可以包括节点ID、企业规模、注册资金金额、成立日期、净利润、存贷款余额、年龄、性别、学历、职业等信息。
第二类是虚拟节点,指非侦测主体但在关联网络中具有主体意义的节点,如电话节点、设备节点、地址节点、IP节点、GPS节点等。此类节点的属性包括节点ID、类型、归属地行政区划等。
2)边
第一类是实体节点之间的关联关系,如实控人、法人、投资、担保、高管、配偶、直系亲属等关系,其对应属性包括高管类型、出资方式、投资比例、起止时间、担保金额等。
第二类是实体节点与其他虚拟节点之间的关联关系,如占用电话、设备、IP等,其对应属性包括地址类型、电话类型、登录次数、登录时间等。
步骤S103,基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系;
具体地,基于目标信贷主体的信贷相关信息,可以通过相应的向量映射方法(如one-hot编码方法、词嵌入编码方法)确定目标信贷主体的属性特征;
具体地,基于更新后的知识图谱,通过相应的图结构特征提取方法,提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系,从而保留图结构中节点的差异化信息及关联关系的异构结构;其中,图数据场景下,异构指存在多种类型的节点和边,图数据语境下的图是指实体(又称节点)和他们之间的关系(又称边),比如人作为节点,人与人之间通过朋友等关系连接在一起,节点和边本身通常具有自己的属性,比如人的年龄和成为朋友的时间等。
步骤S104,基于属性特征与拓扑特征确定目标信贷主体的组合特征;
具体地,可以把代表属性特征的向量与代表拓扑特征的向量直接进行拼接,得到组合特征;此外,还可以采用线性组合的方式得到组合特征。
步骤S105,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。
具体地,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值,其中,概率值越大,欺诈的可能性越高。
本申请实施例提供了一种欺诈识别方法,与现有技术对实体之间的关联关系进行单一考虑或同质化处理相比,本申请通过获取目标信贷主体的信贷相关信息,然后基于目标信贷主体的信贷相关信息更新预构建的知识图谱,基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系,继而基于属性特征与拓扑特征确定目标信贷主体的组合特征,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。即提取目标信贷主体的拓扑特征,能更好的保留图结构中实体节点的差异化信息及关联关系的异构结构,此外,基于由属性特征与拓扑特征确定的目标信贷主体的组合特征,进行目标信贷主体欺诈概率的识别,提升了欺诈识别的准确性与可靠性。
本申请实施例提供了一种可能的实现方式,步骤S103包括:
步骤S1031(图中未示出),基于预定义的至少一条元路径,通过随机游走算法从更新后的知识图谱中抽取得到与目标信贷主体相关的节点信息,并基于与目标信贷主体相关的节点信息组成节点序列;
示例性地,如果两个节点之间的关系有5种,则三个节点之间的路径有5×5种可能,可以基于风险数据统计结果,从该25种路径中预先定义至少一条元路径,即可以根据大数据统计的风险结果信息,统计涉黑节点(即欺诈节点)和涉黑路径占比,确定与欺诈识别相关的至少一条路径;其中,还可以基于业务先验知识与风险数据统计结果预先定义至少一条元路径。
具体地,基于随机游走方法抽取节点序列,其中,游走概率根据节点类型N、边类型R和指定元路径P:(N1)-[R1]-(N2)-…-[Rd]-(Nd)确定,满足:
其中代表所有与vi直接相连的节点类型为Ni+1的节点集合,节点类型Ni+1和边类型/>由元路径P定义,当i=d时,令i+1=1.
即指定某一元路径,对所有节点游走一定的步数l,每个节点重复w次,从当前节点vi游走至下一节点vi+1时遵循以上公式定义的概率,即下一节点的必须符合元路径定义的边类型和节点类型,在所有符合该条件的节点中服从均匀分布随机抽取一个节点作为序列中的下一节点,且在抽取序列长度不足l时,元路径作为基本单元循环抽取。
抽取的节点以节点ID的形式组成序列,因此序列的规模与节点规模、节点重复次数w、游走步数l正相关。
步骤S1032(图中未示出),通过图嵌入算法得到节点序列的向量表达,并将节点序列的向量表达作为目标信贷主体的拓扑特征。
其中,图嵌入是一种将图数据(通常为高维稠密的矩阵)映射为低维稠密向量的过程,核心思想是在向量空间中保持连接的节点彼此靠近,目前大致有三类图嵌入算法:一是基于因子分解的方法;二是基于随机游走的方法;三是基于深度学习的方法。
具体地,通过相应的图嵌入算法得到节点序列的向量表达,并将节点序列的向量表达作为目标信贷主体的拓扑特征。
对于本申请实施例,采用基于预定义的元路径的图嵌入方法,在节点粒度上抽取拓扑特征,保留了图结构中节点的差异化信息,减少了现有的对节点关系进行单一考虑或同质化处理所带来的在特征工程阶段的信息丢失,从而能够在后续进行欺诈预测时,提升欺诈预测的准确性与可靠性。
本申请实施例提供了一种可能的实现方式,具体地,步骤S1032(图中未示出)的通过图嵌入算法得到节点序列的向量表达,包括:
步骤S10321(图中未示出),将节点序列输入至预训练的词向量模型,得到节点序列的向量表达。
具体地,可以将节点序列输入至预训练的词向量模型,得到节点序列的向量表达;其中,该预训练的词向量模型可以是Skip-gram模型、词袋模型(Continuous Bag-of-Words,CBOW)、GloVe模型(Global Vectors for Word Representation)、N-gram模型、ELMo模型(Embeddings from Language Models)、BERT模型,也可以是能够实现本申请功能的其他词向量模型,本申请此处不做限定。
对于本申请实施例,解决了节点序列的向量表达问题。
本申请实施例提供了一种可能的实现方式,进一步地,词向量模型为Skip-Gram模型,该方法还包括:
步骤S106(图中未示出),进行Skip-Gram模型的训练时,对输出层进行异构化处理,用于保留节点序列之间的异构信息。
具体地,在进行Skip-Gram模型的训练时,首先按照设定的窗口大小k从序列中抽取节点对,再放入浅层神经网络进行训练,所得隐藏层即为所需节点向量。
其中,输出层做了异构化处理,按不同节点类型分别计算其多项式分布概率,输出层的激活函数为针对节点类型归一化后的softmax函数:
其中,ct是指节点类型为t的内容节点,Vt是指节点类型为t的所有节点集合。
因此,对应目标函数变为:
计算对应梯度应用随机梯度下降方法训练神经网络,得到图嵌入向量。
对于本申请实施例,进行Skip-Gram模型的训练时,对输出层进行异构化处理,用于保留节点序列之间的异构信息。
本申请实施例提供了一种可能的实现方式,其中,预训练的分类器包括多个子分类器与组合分类器,组合分类器由子分类器组合得到。
具体地,在进行分类器的训练时,可以采用抽样数据集分别训练子分类器再组合的方法得到最终的分类器,降低了正负样本数据量极度不平衡的影响。
其中,子分类器采用的是XGBoost,也可采用其他诸如GBDT、逻辑回归等方法;其中,分类器的组合方法可以采用bootstraping,boosting,adaboost,bagging,randomforest等方法。
对于本申请实施例,分类器采用分类器组合的方式,降低了正负样本数据量极度不平衡的影响,能够提升对未知样本的分类准确率。
图2为本申请实施例提供的一种欺诈识别装置,该装置20包括:获取模块201、更新模块202、提取模块203、组合模块204以及识别模块205,其中,
获取模块201,用于获取目标信贷主体的信贷相关信息;
更新模块202,用于基于目标信贷主体的信贷相关信息更新预构建的知识图谱;
提取模块203,用于基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及用于基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系;
组合模块204,用于基于属性特征与拓扑特征确定目标信贷主体的组合特征;
识别模块205,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。
本申请实施例提供了一种欺诈识别装置,与现有技术对实体之间的关联关系进行单一考虑或同质化处理相比,本申请实施例通过获取目标信贷主体的信贷相关信息,然后基于目标信贷主体的信贷相关信息更新预构建的知识图谱,基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系,继而基于属性特征与拓扑特征确定目标信贷主体的组合特征,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。即提取目标信贷主体的拓扑特征,能更好的保留图结构中实体节点的差异化信息及关联关系的异构结构,此外,基于由属性特征与拓扑特征确定的目标信贷主体的组合特征,进行目标信贷主体欺诈概率的识别,提升了欺诈识别的准确性与可靠性。
本实施例的欺诈识别装置可执行本申请上述实施例中提供的一种欺诈识别方法,其实现原理相类似,此处不再赘述。
如图3所示,本申请实施例提供了另一种欺诈识别装置,该装置30包括:获取模块301、更新模块302、提取模块303、组合模块304以及识别模块305,其中,
获取模块301,用于获取目标信贷主体的信贷相关信息;
其中,图3中的获取模块301与图2中的获取模块201的功能相同或者相似。
更新模块302,用于基于目标信贷主体的信贷相关信息更新预构建的知识图谱;
其中,图3中的更新模块302与图2中的更新模块202的功能相同或者相似。
提取模块303,用于基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及用于基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系;
其中,图3中的提取模块303与图2中的提取模块201的功能相同或者相似。
组合模块304,用于基于属性特征与拓扑特征确定目标信贷主体的组合特征;
其中,图3中的组合模块304与图2中的组合模块204的功能相同或者相似。
识别模块305,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。
其中,图3中的识别模块305与图2中的识别模块205的功能相同或者相似。
本申请实施例提供了一种可能的实现方式,具体地,提取模块303包括:
抽取单元3031,用于基于预定义的至少一条元路径,通过随机游走算法从更新后的知识图谱中抽取得到与目标信贷主体相关的节点信息,并基于与目标信贷主体相关的节点信息组成节点序列;
图嵌入单元3032,用于通过图嵌入算法得到节点序列的向量表达,并将节点序列的向量表达作为目标信贷主体的拓扑特征。
其中,元路径基于风险数据统计结果确定。
对于本申请实施例,采用基于预定义的元路径的图嵌入方法,在节点粒度上抽取拓扑特征,保留了图结构中节点的差异化信息,减少了现有的对节点关系进行单一考虑或同质化处理所带来的在特征工程阶段的信息丢失,从而能够在后续进行欺诈预测时,提升欺诈预测的准确性与可靠性。
本申请实施例提供了一种可能的实现方式,具体地,图嵌入单元3032,具体用于将节点序列输入至预训练的词向量模型,得到节点序列的向量表达。
对于本申请实施例,解决了节点序列的向量表达问题。
本申请实施例提供了一种可能的实现方式,进一步地,所述词向量模型为Skip-Gram模型,该装置还包括:
异构处理模块306,用于进行Skip-Gram模型的训练时,对输出层进行异构化处理,用于保留节点序列之间的异构信息。
对于本申请实施例,进行Skip-Gram模型的训练时,对输出层进行异构化处理,用于保留节点序列之间的异构信息。
本申请实施例提供了一种可能的实现方式,其中,预训练的分类器包括多个子分类器与组合分类器,组合分类器由子分类器组合得到。
对于本申请实施例,分类器采用分类器组合的方式,降低了正负样本数据量极度不平衡的影响,能够提升对未知样本的分类准确率。
本申请实施例提供了一种欺诈识别装置,与现有技术对实体之间的关联关系进行单一考虑或同质化处理相比,本申请实施例通过获取目标信贷主体的信贷相关信息,然后基于目标信贷主体的信贷相关信息更新预构建的知识图谱,基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系,继而基于属性特征与拓扑特征确定目标信贷主体的组合特征,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。即提取目标信贷主体的拓扑特征,能更好的保留图结构中实体节点的差异化信息及关联关系的异构结构,此外,基于由属性特征与拓扑特征确定的目标信贷主体的组合特征,进行目标信贷主体欺诈概率的识别,提升了欺诈识别的准确性与可靠性。
本申请实施例提供了一种欺诈识别装置,适用于上述实施例所示的方法,在此不再赘述。
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。进一步地,电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个,该电子设备40的结构并不构成对本申请实施例的限定。其中,处理器401应用于本申请实施例中,用于实现图2或图3所示的获取模块、更新模块、提取模块、组合模块以及识别模块的功能,以及图3所示的异构处理模块的功能。收发器404包括接收机和发射机。
处理器401可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以实现图2或图3所示实施例提供的欺诈识别装置的功能。
本申请实施例提供了一种电子设备,与现有技术对实体之间的关联关系进行单一考虑或同质化处理相比,本申请实施例通过获取目标信贷主体的信贷相关信息,然后基于目标信贷主体的信贷相关信息更新预构建的知识图谱,基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系,继而基于属性特征与拓扑特征确定目标信贷主体的组合特征,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。即提取目标信贷主体的拓扑特征,能更好的保留图结构中实体节点的差异化信息及关联关系的异构结构,此外,基于由属性特征与拓扑特征确定的目标信贷主体的组合特征,进行目标信贷主体欺诈概率的识别,提升了欺诈识别的准确性与可靠性。
本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。
本申请实施例提供了一种计算机可读存储介质,与现有技术对实体之间的关联关系进行单一考虑或同质化处理相比,本申请实施例通过获取目标信贷主体的信贷相关信息,然后基于目标信贷主体的信贷相关信息更新预构建的知识图谱,基于目标信贷主体的信贷相关信息提取得到目标信贷主体的属性特征,以及基于更新后的知识图谱提取得到目标信贷主体的拓扑特征,拓扑特征用于描述知识图谱中节点之间的关联关系,继而基于属性特征与拓扑特征确定目标信贷主体的组合特征,将目标信贷主体的组合特征输入预训练的分类器,识别得到目标信贷主体的欺诈概率值。即提取目标信贷主体的拓扑特征,能更好的保留图结构中实体节点的差异化信息及关联关系的异构结构,此外,基于由属性特征与拓扑特征确定的目标信贷主体的组合特征,进行目标信贷主体欺诈概率的识别,提升了欺诈识别的准确性与可靠性。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (6)

1.一种欺诈识别方法,其特征在于,包括:
获取目标信贷主体的信贷相关信息;
基于所述目标信贷主体的信贷相关信息更新预构建的知识图谱;
基于所述目标信贷主体的信贷相关信息提取得到所述目标信贷主体的属性特征,以及基于更新后的知识图谱提取得到所述目标信贷主体的拓扑特征,所述拓扑特征用于描述知识图谱中节点之间的关联关系;
基于所述属性特征与所述拓扑特征确定所述目标信贷主体的组合特征;
将所述目标信贷主体的组合特征输入预训练的分类器,识别得到所述目标信贷主体的欺诈概率值;
所述基于更新后的知识图谱提取得到所述目标信贷主体的拓扑特征,包括:
基于预定义的至少一条元路径,通过随机游走算法从所述更新后的知识图谱中抽取得到与所述目标信贷主体相关的节点信息,并基于所述与所述目标信贷主体相关的节点信息组成节点序列;
通过图嵌入算法得到所述节点序列的向量表达,并将所述节点序列的向量表达作为所述目标信贷主体的拓扑特征;
所述通过图嵌入算法得到所述节点序列的向量表达,包括:
将所述节点序列输入至预训练的词向量模型,得到所述节点序列的向量表达;
所述词向量模型为Skip-Gram模型,该方法还包括:
进行所述Skip-Gram模型的训练时,对输出层进行异构化VB处理,用于保留节点序列之间的异构信息,包括:
按照设定的窗口大小k从序列中抽取节点对;
放入浅层神经网络进行训练,得到隐藏层,所得隐藏层即为所需节点向量;
对输出层做异构化处理,按不同节点类型分别计算其多项式分布概率,输出层的激活函数为针对节点类型归一化后的softmax函数;
通过计算对应梯度应用随机梯度下降方法训练神经网络,得到图嵌入向量。
2.根据权利要求1所述的方法,其特征在于,所述元路径基于风险数据统计结果确定。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述预训练的分类器包括多个子分类器与组合分类器,所述组合分类器由子分类器组合得到。
4.一种欺诈识别装置,其特征在于包括:
获取模块,用于获取目标信贷主体的信贷相关信息;
更新模块,用于基于所述目标信贷主体的信贷相关信息更新预构建的知识图谱;
提取模块,用于基于所述目标信贷主体的信贷相关信息提取得到所述目标信贷主体的属性特征,以及用于基于更新后的知识图谱提取得到所述目标信贷主体的拓扑特征,所述拓扑特征用于描述知识图谱中节点之间的关联关系;
组合模块,用于基于所述属性特征与所述拓扑特征确定所述目标信贷主体的组合特征;
识别模块,将所述目标信贷主体的组合特征输入预训练的分类器,识别得到所述目标信贷主体的欺诈概率值;
所述提取模块包括:
抽取单元,用于基于预定义的至少一条元路径,通过随机游走算法从所述更新后的知识图谱中抽取得到与所述目标信贷主体相关的节点信息,并基于所述与所述目标信贷主体相关的节点信息组成节点序列;
图嵌入单元,用于通过图嵌入算法得到所述节点序列的向量表达,并将所述节点序列的向量表达作为所述目标信贷主体的拓扑特征;所述通过图嵌入算法得到所述节点序列的向量表达,包括:
将所述节点序列输入至预训练的词向量模型,得到所述节点序列的向量表达;
所述词向量模型为Skip-Gram模型,该方法还包括:
进行所述Skip-Gram模型的训练时,对输出层进行异构化VB处理,用于保留节点序列之间的异构信息,包括:
按照设定的窗口大小k从序列中抽取节点对;
放入浅层神经网络进行训练,得到隐藏层,所得隐藏层即为所需节点向量;
对输出层做异构化处理,按不同节点类型分别计算其多项式分布概率,输出层的激活函数为针对节点类型归一化后的softmax函数;
通过计算对应梯度应用随机梯度下降方法训练神经网络,得到图嵌入向量。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至3任一项所述的欺诈识别方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1至3中任一项所述的欺诈识别方法。
CN201910940637.1A 2019-09-30 2019-09-30 欺诈识别方法、装置、电子设备及计算机可读存储介质 Active CN110765117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910940637.1A CN110765117B (zh) 2019-09-30 2019-09-30 欺诈识别方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910940637.1A CN110765117B (zh) 2019-09-30 2019-09-30 欺诈识别方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110765117A CN110765117A (zh) 2020-02-07
CN110765117B true CN110765117B (zh) 2023-09-26

Family

ID=69330381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910940637.1A Active CN110765117B (zh) 2019-09-30 2019-09-30 欺诈识别方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110765117B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612635A (zh) * 2020-04-18 2020-09-01 北京淇瑀信息科技有限公司 用户金融风险分析方法、装置及电子设备
CN111694969B (zh) * 2020-06-18 2021-07-09 拉卡拉支付股份有限公司 一种用户身份识别方法及装置
CN111538895A (zh) * 2020-07-07 2020-08-14 成都数联铭品科技有限公司 一种基于图网络的数据处理系统
CN111832300A (zh) * 2020-07-24 2020-10-27 中国联合网络通信集团有限公司 基于深度学习的合同审核方法和装置
CN112035677B (zh) * 2020-09-03 2023-09-22 中国银行股份有限公司 基于知识图谱的诈骗人员发现方法及装置
CN112256886B (zh) * 2020-10-23 2023-06-27 平安科技(深圳)有限公司 图谱中的概率计算方法、装置、计算机设备及存储介质
CN112200583B (zh) * 2020-10-28 2023-12-19 交通银行股份有限公司 一种基于知识图谱的欺诈客户识别方法
CN113094506B (zh) * 2021-04-14 2023-08-18 每日互动股份有限公司 一种基于关系图谱的预警方法、计算机设备及存储介质
CN113724073A (zh) * 2021-09-09 2021-11-30 支付宝(杭州)信息技术有限公司 一种风险识别和控制方法及装置
CN113988878B (zh) * 2021-12-27 2022-07-19 智器云南京信息科技有限公司 一种基于图数据库技术的反欺诈方法及系统
CN115641201B (zh) * 2022-09-27 2023-11-07 厦门国际银行股份有限公司 数据异常检测方法、系统、终端设备及存储介质
CN115641202A (zh) * 2022-10-28 2023-01-24 中山大学 基于知识图谱和图计算的小贷行业团体借贷风险测度方法
CN117455518B (zh) * 2023-12-25 2024-04-19 连连银通电子支付有限公司 一种欺诈交易检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149299A1 (zh) * 2017-02-20 2018-08-23 平安科技(深圳)有限公司 社保欺诈行为的识别方法、装置、设备及计算机存储介质
CN108564460A (zh) * 2018-01-12 2018-09-21 阳光财产保险股份有限公司 互联网信贷场景下的实时欺诈检测方法及装置
CN109685647A (zh) * 2018-12-27 2019-04-26 阳光财产保险股份有限公司 信贷欺诈检测方法及其模型的训练方法、装置和服务器
CN110188198A (zh) * 2019-05-13 2019-08-30 北京一览群智数据科技有限责任公司 一种基于知识图谱的反欺诈方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149299A1 (zh) * 2017-02-20 2018-08-23 平安科技(深圳)有限公司 社保欺诈行为的识别方法、装置、设备及计算机存储介质
CN108564460A (zh) * 2018-01-12 2018-09-21 阳光财产保险股份有限公司 互联网信贷场景下的实时欺诈检测方法及装置
CN109685647A (zh) * 2018-12-27 2019-04-26 阳光财产保险股份有限公司 信贷欺诈检测方法及其模型的训练方法、装置和服务器
CN110188198A (zh) * 2019-05-13 2019-08-30 北京一览群智数据科技有限责任公司 一种基于知识图谱的反欺诈方法及装置

Also Published As

Publication number Publication date
CN110765117A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN110765117B (zh) 欺诈识别方法、装置、电子设备及计算机可读存储介质
CN111602147B (zh) 基于非局部神经网络的机器学习模型
CN109919316B (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
WO2018166457A1 (zh) 神经网络模型训练、交易行为风险识别方法及装置
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN108550065B (zh) 评论数据处理方法、装置及设备
CN113590900A (zh) 一种融合动态知识图谱的序列推荐方法
WO2019019348A1 (zh) 产品信息推送方法、装置、存储介质和计算机设备
CN114491084B (zh) 基于自编码器的关系网络信息挖掘方法、装置及设备
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN111310462A (zh) 用户属性的确定方法、装置、设备及存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN114330476A (zh) 用于媒体内容识别的模型训练方法及媒体内容识别方法
CN107767278B (zh) 社群层次结构构建方法和装置
CN116975271A (zh) 文本相关性的确定方法、装置、计算机设备和存储介质
CN112364258B (zh) 基于图谱的推荐方法、系统、存储介质及电子设备
CN114969253A (zh) 市场主体与政策的匹配方法、装置、计算设备及介质
CN111291196B (zh) 知识图谱的完善方法及装置、数据处理方法及装置
CN111984842B (zh) 银行客户数据处理方法及装置
CN114529399A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN114281990A (zh) 文档分类方法及装置、电子设备和介质
CN113886539A (zh) 话术推荐方法、装置、客服设备及存储介质
CN111400413A (zh) 一种确定知识库中知识点类目的方法及系统
CN110033098A (zh) 在线gbdt模型学习方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220919

Address after: 12 / F, 15 / F, 99 Yincheng Road, Pudong New Area pilot Free Trade Zone, Shanghai, 200120

Applicant after: Jianxin Financial Science and Technology Co.,Ltd.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant