CN109522416A - 一种金融风险控制知识图谱的构建方法 - Google Patents

一种金融风险控制知识图谱的构建方法 Download PDF

Info

Publication number
CN109522416A
CN109522416A CN201811223568.4A CN201811223568A CN109522416A CN 109522416 A CN109522416 A CN 109522416A CN 201811223568 A CN201811223568 A CN 201811223568A CN 109522416 A CN109522416 A CN 109522416A
Authority
CN
China
Prior art keywords
data
financial
entity
knowledge
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811223568.4A
Other languages
English (en)
Inventor
王涛
李嘉正
程良伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811223568.4A priority Critical patent/CN109522416A/zh
Publication of CN109522416A publication Critical patent/CN109522416A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种金融风险控制知识图谱构建方法,通过爬虫技术对金融资料采集数据,进行分词处理;利用深度置信网络从金融数据中抽取知识,包括实体和实体间关系和属性;将所述目标实体作为知识图谱节点,得到金融风险控制知识图谱并存储在Neo4j图数据库中。本发明能够充分利用从数据到知识的持续转化,通过金融风险控制知识图谱的构建快速把不同来来源的金融数据整合在一起,并构建反欺诈引擎,快速高效识别金融欺诈案件。

Description

一种金融风险控制知识图谱的构建方法
技术领域
本发明涉及金融领域,更具体地,涉及一种金融风险控制知识图谱的构建方法。
背景技术
知识图谱以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱遵循 RDF 数据模型,包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。知识图谱,作为关系的直接表示方式,提供非常便捷的方式来添加新的数据源。而且,知识图谱本身就是用来表示关系的,这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。
反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据(结构化,非结构)整合在一起,并构建反欺诈引擎,来有效地识别出欺诈案件。而且不少欺诈案件会涉及到复杂的关系网络,这也给欺诈审核带来了新的挑战。
发明内容
为了解决现有技术中大数据的反欺诈手段无法把不同来源的数据整合在一起的不足,本发明提供了一种金融风险控制知识图谱的构建方法。
为实现以上发明目的,采用的技术方案是:
一种金融风险控制知识图谱的构建方法,包括以下步骤:
步骤 S1:通过爬虫技术对金融资料采集数据,并进行分词处理;
步骤S2:对经过处理的数据利用深度置信网络进行知识抽取,知识抽取包括实体、实体间关系以及实体的属性的抽取;
步骤S3:将知识抽取的结果数据作为知识图谱中的节点,构建金融风险控制知识图谱;
步骤 S4:将构建的所述医疗知识图谱存储在Neo4j图数据库中。
优选的,步骤S1具体包括以下步骤:
步骤S101:通过网络信息获取的爬虫技术从金融资料中采集数据,数据信息内容包括向人的电话、消费记录、行为记录、同事信息;
步骤S102:对数据进行预处理,使用自然语言技术进行分词、词性的标注及句法分析处理;
步骤S103:对噪声数据进行清理,首先结合金融词汇将所有异化的金融信息转化成正常的金融词汇,之后清除毫无意义的符号、标记噪声。
优选的,步骤S2具体包括以下步骤:
步骤 S201:使用词向量转化工具将步骤S1获得的分词结果转化为向量的形式;
步骤S202:剔除不是实体信息的词汇,将剩余的词汇的特征向量数据标为最为待抽取的特征向量;
步骤S203:将转化完成的词向量信息以及深度置信网络模型的设置参数传递给深度置信网络算法对实体知识进行检测和抽取;将实体信息组成核心实体列表,并将采集到的实体、实体间关系以及二者的属性信息进行结构化存储;同时将实体间的分类信息进行存储,得到知识抽取的知识实体列表、分类概念列表。
优选的,步骤S3具体包括以下步骤:
步骤S301:重复步骤S203不断从金融资料抽取概念信息,直至获得上下位分类关系,将概念分类组成一个知识分类树,将相同的实体概念合成一个节点构成知识分类树的树叶,组成模式层的概念间分类关系网;
步骤 S302:按照由步骤S301建立的知识分类树设定的规则;
步骤S303:针对金融资料中同一实体在不同篇幅中属性的不同,按照以下三个规则进行合并:(1)、取属性最大集合;(2)、对于单个属性取更加确定话的属性;(3)、对于类比属性取其中一个值即可;
步骤S304:构建金融风险控制知识图谱的本体结构。
与现有技术相比,本发明的有益效果是:
本发明能够把不同来源的数据,例如结构化,非结构的整合在一起,并构建反欺诈引擎,从而有效地识别出欺诈案件。由于不少欺诈案件会涉及到复杂的关系网络,知识图谱利用其本身的特点,即识图谱本身的关系网络,这种直观的表示方法可以更有效地分析复杂关系中存在的特定的潜在风险,从而识别金融欺诈案件的特征,减少金融欺诈案件的发生。
附图说明
图1为本发明的流程图。
图2为知识抽取的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1、图2所示,一种金融风险控制知识图谱的构建方法,包括以下步骤:
步骤 S1:通过爬虫技术对金融资料采集数据,并进行分词处理;
步骤S2:对经过处理的数据利用深度置信网络进行知识抽取,知识抽取包括实体、实体间关系以及实体的属性的抽取;
步骤S3:将知识抽取的结果数据作为知识图谱中的节点,构建金融风险控制知识图谱;
步骤 S4:将构建的所述医疗知识图谱存储在Neo4j图数据库中。
优选的,步骤S1具体包括以下步骤:
步骤S101:通过网络信息获取的爬虫技术从金融资料中采集数据,数据信息内容包括向人的电话、消费记录、行为记录、同事信息;
步骤S102:对数据进行预处理,使用自然语言技术进行分词、词性的标注及句法分析处理;
步骤S103:对噪声数据进行清理,首先结合金融词汇将所有异化的金融信息转化成正常的金融词汇,之后清除毫无意义的符号、标记噪声。
优选的,步骤S2具体包括以下步骤:
步骤 S201:使用词向量转化工具将步骤S1获得的分词结果转化为向量的形式;
步骤S202:剔除不是实体信息的词汇,将剩余的词汇的特征向量数据标为最为待抽取的特征向量;
步骤S203:将转化完成的词向量信息以及深度置信网络模型的设置参数传递给深度置信网络算法对实体知识进行检测和抽取;将实体信息组成核心实体列表,并将采集到的实体、实体间关系以及二者的属性信息进行结构化存储;同时将实体间的分类信息进行存储,得到知识抽取的知识实体列表、分类概念列表。
优选的,步骤S3具体包括以下步骤:
步骤 S301:重复步骤S203不断从金融资料抽取概念信息,直至获得上下位分类关系,将概念分类组成一个知识分类树,将相同的实体概念合成一个节点构成知识分类树的树叶,组成模式层的概念间分类关系网;
步骤 S302:按照由步骤S301建立的知识分类树设定的规则;
步骤S303:针对金融资料中同一实体在不同篇幅中属性的不同,按照以下三个规则进行合并:(1)、取属性最大集合;(2)、对于单个属性取更加确定话的属性;(3)、对于类比属性取其中一个值即可;
步骤S304:构建金融风险控制知识图谱的本体结构。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种金融风险控制知识图谱的构建方法,其特征在于,包括以下步骤:
步骤S1:通过爬虫技术对金融资料采集数据,并进行分词处理;
步骤S2:对经过处理的数据利用深度置信网络进行知识抽取,知识抽取包括实体、实体间关系以及实体的属性的抽取;
步骤S3:将知识抽取的结果数据作为知识图谱中的节点,构建金融风险控制知识图谱;
步骤S4:将构建的所述医疗知识图谱存储在Neo4j图数据库中。
2.根据权利要求1所述的一种金融风险控制知识图谱的构建方法,其特征在于,步骤S1具体包括以下步骤:
步骤S101:通过网络信息获取的爬虫技术从金融资料中采集数据,数据信息内容包括向人的电话、消费记录、行为记录、同事信息;
步骤S102:对数据进行预处理,使用自然语言技术进行分词、词性的标注及句法分析处理;
步骤S103:对噪声数据进行清理,首先结合金融词汇将所有异化的金融信息转化成正常的金融词汇,之后清除毫无意义的符号、标记噪声。
3.根据权利要求1所述的一种金融风险控制知识图谱的构建方法,其特征在于,步骤S2具体包括以下步骤:
步骤 S201:使用词向量转化工具将步骤S1获得的分词结果转化为向量的形式;
步骤S202:剔除不是实体信息的词汇,将剩余的词汇的特征向量数据标为最为待抽取的特征向量;
步骤S203:将转化完成的词向量信息以及深度置信网络模型的设置参数传递给深度置信网络算法对实体知识进行检测和抽取;将实体信息组成核心实体列表,并将采集到的实体、实体间关系以及二者的属性信息进行结构化存储;同时将实体间的分类信息进行存储,得到知识抽取的知识实体列表、分类概念列表。
4.根据权利要求1所述的一种金融风险控制知识图谱的构建方法,其特征在于,步骤S3具体包括以下步骤:
步骤S301:重复步骤S203不断从金融资料抽取概念信息,直至获得上下位分类关系,将概念分类组成一个知识分类树,将相同的实体概念合成一个节点构成知识分类树的树叶,组成模式层的概念间分类关系网;
步骤 S302:按照由步骤S301建立的知识分类树设定的规则;
步骤S303:针对金融资料中同一实体在不同篇幅中属性的不同,按照以下三个规则进行合并:(1)、取属性最大集合;(2)、对于单个属性取更加确定话的属性;(3)、对于类比属性取其中一个值即可;
步骤S304:构建金融风险控制知识图谱的本体结构。
CN201811223568.4A 2018-10-19 2018-10-19 一种金融风险控制知识图谱的构建方法 Pending CN109522416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811223568.4A CN109522416A (zh) 2018-10-19 2018-10-19 一种金融风险控制知识图谱的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811223568.4A CN109522416A (zh) 2018-10-19 2018-10-19 一种金融风险控制知识图谱的构建方法

Publications (1)

Publication Number Publication Date
CN109522416A true CN109522416A (zh) 2019-03-26

Family

ID=65772734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811223568.4A Pending CN109522416A (zh) 2018-10-19 2018-10-19 一种金融风险控制知识图谱的构建方法

Country Status (1)

Country Link
CN (1) CN109522416A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992673A (zh) * 2019-04-10 2019-07-09 广东工业大学 一种知识图谱生成方法、装置、设备及可读存储介质
CN110781254A (zh) * 2020-01-02 2020-02-11 四川大学 一种案情知识图谱自动构建方法及系统及设备及介质
CN112053221A (zh) * 2020-08-14 2020-12-08 百维金科(上海)信息科技有限公司 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN113487416A (zh) * 2021-07-26 2021-10-08 中国科学院大学 一种基于知识图谱的金融风险评估方法
CN113610626A (zh) * 2021-07-26 2021-11-05 建信金融科技有限责任公司 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
CN113988724A (zh) * 2021-12-28 2022-01-28 深圳市迪博企业风险管理技术有限公司 一种上市公司金融活动知识图谱的风险分析方法
CN115269879A (zh) * 2022-09-05 2022-11-01 北京百度网讯科技有限公司 知识结构数据的生成方法、数据搜索方法和风险告警方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN108492887A (zh) * 2018-04-13 2018-09-04 合肥工业大学 医疗知识图谱构建方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN108492887A (zh) * 2018-04-13 2018-09-04 合肥工业大学 医疗知识图谱构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廖先玲等: "我国互联网金融风险研究的网络结构和主题聚类——基于CiteSpace的知识图谱分析", 《金融理论与实践》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992673A (zh) * 2019-04-10 2019-07-09 广东工业大学 一种知识图谱生成方法、装置、设备及可读存储介质
CN110781254A (zh) * 2020-01-02 2020-02-11 四川大学 一种案情知识图谱自动构建方法及系统及设备及介质
CN112053221A (zh) * 2020-08-14 2020-12-08 百维金科(上海)信息科技有限公司 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN113487416A (zh) * 2021-07-26 2021-10-08 中国科学院大学 一种基于知识图谱的金融风险评估方法
CN113610626A (zh) * 2021-07-26 2021-11-05 建信金融科技有限责任公司 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
CN113988724A (zh) * 2021-12-28 2022-01-28 深圳市迪博企业风险管理技术有限公司 一种上市公司金融活动知识图谱的风险分析方法
CN115269879A (zh) * 2022-09-05 2022-11-01 北京百度网讯科技有限公司 知识结构数据的生成方法、数据搜索方法和风险告警方法

Similar Documents

Publication Publication Date Title
CN109522416A (zh) 一种金融风险控制知识图谱的构建方法
CN110825881B (zh) 一种建立电力知识图谱的方法
JP7468929B2 (ja) 地理知識取得方法
CN104915340B (zh) 自然语言问答方法及装置
JP5904559B2 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
CN104615608B (zh) 一种数据挖掘处理系统及方法
CN110457404B (zh) 基于复杂异质网络的社交媒体账户分类方法
CN107273355A (zh) 一种基于字词联合训练的中文词向量生成方法
JP5907393B2 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
CN108520166A (zh) 一种基于多重相似性网络游走的药物靶标预测方法
CN103207856A (zh) 一种本体概念及层次关系生成方法
JP2015121896A (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
Lee Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams
CN113222775B (zh) 融合多模态信息及权重张量的用户身份关联方法
CN115860006B (zh) 一种基于语义句法的方面级情感预测方法及装置
CN109344263A (zh) 一种地址匹配方法
CN108647800A (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN109858020A (zh) 一种基于语义图获取税务业务问题答案的方法及系统
WO2024099037A1 (zh) 数据处理、实体链接方法、装置和计算机设备
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN107977368A (zh) 信息提取方法及系统
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN115423639A (zh) 一种面向社交网络的安全社区发现方法
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190326

RJ01 Rejection of invention patent application after publication