CN109522416A

CN109522416A - 一种金融风险控制知识图谱的构建方法

Info

Publication number: CN109522416A
Application number: CN201811223568.4A
Authority: CN
Inventors: 王涛; 李嘉正; 程良伦
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-03-26

Abstract

本发明公开了一种金融风险控制知识图谱构建方法，通过爬虫技术对金融资料采集数据，进行分词处理；利用深度置信网络从金融数据中抽取知识，包括实体和实体间关系和属性；将所述目标实体作为知识图谱节点，得到金融风险控制知识图谱并存储在Neo4j图数据库中。本发明能够充分利用从数据到知识的持续转化，通过金融风险控制知识图谱的构建快速把不同来来源的金融数据整合在一起，并构建反欺诈引擎，快速高效识别金融欺诈案件。

Description

一种金融风险控制知识图谱的构建方法

技术领域

本发明涉及金融领域，更具体地，涉及一种金融风险控制知识图谱的构建方法。

背景技术

知识图谱以符号形式描述物理世界中的概念及其相互关系，其基本组成单位是“实体－关系－实体”三元组，以及实体及其相关属性-值对，实体间通过关系相互联结，构成网状的知识结构。知识图谱遵循 RDF 数据模型，包含数以千万级或者亿级规模的实体，以及数十亿或百亿事实（即属性值和与其他实体的关系），并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。知识图谱，作为关系的直接表示方式，提供非常便捷的方式来添加新的数据源。而且，知识图谱本身就是用来表示关系的，这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。

反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据（结构化，非结构）整合在一起，并构建反欺诈引擎，来有效地识别出欺诈案件。而且不少欺诈案件会涉及到复杂的关系网络，这也给欺诈审核带来了新的挑战。

发明内容

为了解决现有技术中大数据的反欺诈手段无法把不同来源的数据整合在一起的不足，本发明提供了一种金融风险控制知识图谱的构建方法。

为实现以上发明目的，采用的技术方案是：

一种金融风险控制知识图谱的构建方法，包括以下步骤：

步骤 S1：通过爬虫技术对金融资料采集数据，并进行分词处理；

步骤S2：对经过处理的数据利用深度置信网络进行知识抽取，知识抽取包括实体、实体间关系以及实体的属性的抽取；

步骤S3：将知识抽取的结果数据作为知识图谱中的节点，构建金融风险控制知识图谱；

步骤 S4：将构建的所述医疗知识图谱存储在Neo4j图数据库中。

优选的，步骤S1具体包括以下步骤：

步骤S101：通过网络信息获取的爬虫技术从金融资料中采集数据，数据信息内容包括向人的电话、消费记录、行为记录、同事信息；

步骤S102：对数据进行预处理，使用自然语言技术进行分词、词性的标注及句法分析处理；

步骤S103：对噪声数据进行清理，首先结合金融词汇将所有异化的金融信息转化成正常的金融词汇，之后清除毫无意义的符号、标记噪声。

优选的，步骤S2具体包括以下步骤：

步骤 S201：使用词向量转化工具将步骤S1获得的分词结果转化为向量的形式；

步骤S202：剔除不是实体信息的词汇，将剩余的词汇的特征向量数据标为最为待抽取的特征向量；

步骤S203：将转化完成的词向量信息以及深度置信网络模型的设置参数传递给深度置信网络算法对实体知识进行检测和抽取；将实体信息组成核心实体列表，并将采集到的实体、实体间关系以及二者的属性信息进行结构化存储；同时将实体间的分类信息进行存储，得到知识抽取的知识实体列表、分类概念列表。

优选的，步骤S3具体包括以下步骤：

步骤S301：重复步骤S203不断从金融资料抽取概念信息，直至获得上下位分类关系，将概念分类组成一个知识分类树，将相同的实体概念合成一个节点构成知识分类树的树叶，组成模式层的概念间分类关系网；

步骤 S302：按照由步骤S301建立的知识分类树设定的规则；

步骤S303：针对金融资料中同一实体在不同篇幅中属性的不同，按照以下三个规则进行合并：（1）、取属性最大集合；（2）、对于单个属性取更加确定话的属性；（3）、对于类比属性取其中一个值即可；

步骤S304：构建金融风险控制知识图谱的本体结构。

与现有技术相比，本发明的有益效果是：

本发明能够把不同来源的数据，例如结构化，非结构的整合在一起，并构建反欺诈引擎，从而有效地识别出欺诈案件。由于不少欺诈案件会涉及到复杂的关系网络，知识图谱利用其本身的特点，即识图谱本身的关系网络，这种直观的表示方法可以更有效地分析复杂关系中存在的特定的潜在风险，从而识别金融欺诈案件的特征，减少金融欺诈案件的发生。

附图说明

图1为本发明的流程图。

图2为知识抽取的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1、图2所示，一种金融风险控制知识图谱的构建方法，包括以下步骤：

优选的，步骤S1具体包括以下步骤：

优选的，步骤S2具体包括以下步骤：

优选的，步骤S3具体包括以下步骤：

步骤 S301：重复步骤S203不断从金融资料抽取概念信息，直至获得上下位分类关系，将概念分类组成一个知识分类树，将相同的实体概念合成一个节点构成知识分类树的树叶，组成模式层的概念间分类关系网；

步骤 S302：按照由步骤S301建立的知识分类树设定的规则；

步骤S304：构建金融风险控制知识图谱的本体结构。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种金融风险控制知识图谱的构建方法，其特征在于，包括以下步骤：

步骤S1：通过爬虫技术对金融资料采集数据，并进行分词处理；

步骤S4：将构建的所述医疗知识图谱存储在Neo4j图数据库中。

2.根据权利要求1所述的一种金融风险控制知识图谱的构建方法，其特征在于，步骤S1具体包括以下步骤：

3.根据权利要求1所述的一种金融风险控制知识图谱的构建方法，其特征在于，步骤S2具体包括以下步骤：

4.根据权利要求1所述的一种金融风险控制知识图谱的构建方法，其特征在于，步骤S3具体包括以下步骤：

步骤 S302：按照由步骤S301建立的知识分类树设定的规则；

步骤S304：构建金融风险控制知识图谱的本体结构。