CN109522416A - 一种金融风险控制知识图谱的构建方法 - Google Patents
一种金融风险控制知识图谱的构建方法 Download PDFInfo
- Publication number
- CN109522416A CN109522416A CN201811223568.4A CN201811223568A CN109522416A CN 109522416 A CN109522416 A CN 109522416A CN 201811223568 A CN201811223568 A CN 201811223568A CN 109522416 A CN109522416 A CN 109522416A
- Authority
- CN
- China
- Prior art keywords
- data
- financial
- entity
- knowledge
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 28
- 238000012954 risk control Methods 0.000 title claims abstract description 19
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 3
- 241000209202 Bromus secalinus Species 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种金融风险控制知识图谱构建方法,通过爬虫技术对金融资料采集数据,进行分词处理;利用深度置信网络从金融数据中抽取知识,包括实体和实体间关系和属性;将所述目标实体作为知识图谱节点,得到金融风险控制知识图谱并存储在Neo4j图数据库中。本发明能够充分利用从数据到知识的持续转化,通过金融风险控制知识图谱的构建快速把不同来来源的金融数据整合在一起,并构建反欺诈引擎,快速高效识别金融欺诈案件。
Description
技术领域
本发明涉及金融领域,更具体地,涉及一种金融风险控制知识图谱的构建方法。
背景技术
知识图谱以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱遵循 RDF 数据模型,包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。知识图谱,作为关系的直接表示方式,提供非常便捷的方式来添加新的数据源。而且,知识图谱本身就是用来表示关系的,这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。
反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据(结构化,非结构)整合在一起,并构建反欺诈引擎,来有效地识别出欺诈案件。而且不少欺诈案件会涉及到复杂的关系网络,这也给欺诈审核带来了新的挑战。
发明内容
为了解决现有技术中大数据的反欺诈手段无法把不同来源的数据整合在一起的不足,本发明提供了一种金融风险控制知识图谱的构建方法。
为实现以上发明目的,采用的技术方案是:
一种金融风险控制知识图谱的构建方法,包括以下步骤:
步骤 S1:通过爬虫技术对金融资料采集数据,并进行分词处理;
步骤S2:对经过处理的数据利用深度置信网络进行知识抽取,知识抽取包括实体、实体间关系以及实体的属性的抽取;
步骤S3:将知识抽取的结果数据作为知识图谱中的节点,构建金融风险控制知识图谱;
步骤 S4:将构建的所述医疗知识图谱存储在Neo4j图数据库中。
优选的,步骤S1具体包括以下步骤:
步骤S101:通过网络信息获取的爬虫技术从金融资料中采集数据,数据信息内容包括向人的电话、消费记录、行为记录、同事信息;
步骤S102:对数据进行预处理,使用自然语言技术进行分词、词性的标注及句法分析处理;
步骤S103:对噪声数据进行清理,首先结合金融词汇将所有异化的金融信息转化成正常的金融词汇,之后清除毫无意义的符号、标记噪声。
优选的,步骤S2具体包括以下步骤:
步骤 S201:使用词向量转化工具将步骤S1获得的分词结果转化为向量的形式;
步骤S202:剔除不是实体信息的词汇,将剩余的词汇的特征向量数据标为最为待抽取的特征向量;
步骤S203:将转化完成的词向量信息以及深度置信网络模型的设置参数传递给深度置信网络算法对实体知识进行检测和抽取;将实体信息组成核心实体列表,并将采集到的实体、实体间关系以及二者的属性信息进行结构化存储;同时将实体间的分类信息进行存储,得到知识抽取的知识实体列表、分类概念列表。
优选的,步骤S3具体包括以下步骤:
步骤S301:重复步骤S203不断从金融资料抽取概念信息,直至获得上下位分类关系,将概念分类组成一个知识分类树,将相同的实体概念合成一个节点构成知识分类树的树叶,组成模式层的概念间分类关系网;
步骤 S302:按照由步骤S301建立的知识分类树设定的规则;
步骤S303:针对金融资料中同一实体在不同篇幅中属性的不同,按照以下三个规则进行合并:(1)、取属性最大集合;(2)、对于单个属性取更加确定话的属性;(3)、对于类比属性取其中一个值即可;
步骤S304:构建金融风险控制知识图谱的本体结构。
与现有技术相比,本发明的有益效果是:
本发明能够把不同来源的数据,例如结构化,非结构的整合在一起,并构建反欺诈引擎,从而有效地识别出欺诈案件。由于不少欺诈案件会涉及到复杂的关系网络,知识图谱利用其本身的特点,即识图谱本身的关系网络,这种直观的表示方法可以更有效地分析复杂关系中存在的特定的潜在风险,从而识别金融欺诈案件的特征,减少金融欺诈案件的发生。
附图说明
图1为本发明的流程图。
图2为知识抽取的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1、图2所示,一种金融风险控制知识图谱的构建方法,包括以下步骤:
步骤 S1:通过爬虫技术对金融资料采集数据,并进行分词处理;
步骤S2:对经过处理的数据利用深度置信网络进行知识抽取,知识抽取包括实体、实体间关系以及实体的属性的抽取;
步骤S3:将知识抽取的结果数据作为知识图谱中的节点,构建金融风险控制知识图谱;
步骤 S4:将构建的所述医疗知识图谱存储在Neo4j图数据库中。
优选的,步骤S1具体包括以下步骤:
步骤S101:通过网络信息获取的爬虫技术从金融资料中采集数据,数据信息内容包括向人的电话、消费记录、行为记录、同事信息;
步骤S102:对数据进行预处理,使用自然语言技术进行分词、词性的标注及句法分析处理;
步骤S103:对噪声数据进行清理,首先结合金融词汇将所有异化的金融信息转化成正常的金融词汇,之后清除毫无意义的符号、标记噪声。
优选的,步骤S2具体包括以下步骤:
步骤 S201:使用词向量转化工具将步骤S1获得的分词结果转化为向量的形式;
步骤S202:剔除不是实体信息的词汇,将剩余的词汇的特征向量数据标为最为待抽取的特征向量;
步骤S203:将转化完成的词向量信息以及深度置信网络模型的设置参数传递给深度置信网络算法对实体知识进行检测和抽取;将实体信息组成核心实体列表,并将采集到的实体、实体间关系以及二者的属性信息进行结构化存储;同时将实体间的分类信息进行存储,得到知识抽取的知识实体列表、分类概念列表。
优选的,步骤S3具体包括以下步骤:
步骤 S301:重复步骤S203不断从金融资料抽取概念信息,直至获得上下位分类关系,将概念分类组成一个知识分类树,将相同的实体概念合成一个节点构成知识分类树的树叶,组成模式层的概念间分类关系网;
步骤 S302:按照由步骤S301建立的知识分类树设定的规则;
步骤S303:针对金融资料中同一实体在不同篇幅中属性的不同,按照以下三个规则进行合并:(1)、取属性最大集合;(2)、对于单个属性取更加确定话的属性;(3)、对于类比属性取其中一个值即可;
步骤S304:构建金融风险控制知识图谱的本体结构。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (4)
1.一种金融风险控制知识图谱的构建方法,其特征在于,包括以下步骤:
步骤S1:通过爬虫技术对金融资料采集数据,并进行分词处理;
步骤S2:对经过处理的数据利用深度置信网络进行知识抽取,知识抽取包括实体、实体间关系以及实体的属性的抽取;
步骤S3:将知识抽取的结果数据作为知识图谱中的节点,构建金融风险控制知识图谱;
步骤S4:将构建的所述医疗知识图谱存储在Neo4j图数据库中。
2.根据权利要求1所述的一种金融风险控制知识图谱的构建方法,其特征在于,步骤S1具体包括以下步骤:
步骤S101:通过网络信息获取的爬虫技术从金融资料中采集数据,数据信息内容包括向人的电话、消费记录、行为记录、同事信息;
步骤S102:对数据进行预处理,使用自然语言技术进行分词、词性的标注及句法分析处理;
步骤S103:对噪声数据进行清理,首先结合金融词汇将所有异化的金融信息转化成正常的金融词汇,之后清除毫无意义的符号、标记噪声。
3.根据权利要求1所述的一种金融风险控制知识图谱的构建方法,其特征在于,步骤S2具体包括以下步骤:
步骤 S201:使用词向量转化工具将步骤S1获得的分词结果转化为向量的形式;
步骤S202:剔除不是实体信息的词汇,将剩余的词汇的特征向量数据标为最为待抽取的特征向量;
步骤S203:将转化完成的词向量信息以及深度置信网络模型的设置参数传递给深度置信网络算法对实体知识进行检测和抽取;将实体信息组成核心实体列表,并将采集到的实体、实体间关系以及二者的属性信息进行结构化存储;同时将实体间的分类信息进行存储,得到知识抽取的知识实体列表、分类概念列表。
4.根据权利要求1所述的一种金融风险控制知识图谱的构建方法,其特征在于,步骤S3具体包括以下步骤:
步骤S301:重复步骤S203不断从金融资料抽取概念信息,直至获得上下位分类关系,将概念分类组成一个知识分类树,将相同的实体概念合成一个节点构成知识分类树的树叶,组成模式层的概念间分类关系网;
步骤 S302:按照由步骤S301建立的知识分类树设定的规则;
步骤S303:针对金融资料中同一实体在不同篇幅中属性的不同,按照以下三个规则进行合并:(1)、取属性最大集合;(2)、对于单个属性取更加确定话的属性;(3)、对于类比属性取其中一个值即可;
步骤S304:构建金融风险控制知识图谱的本体结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811223568.4A CN109522416A (zh) | 2018-10-19 | 2018-10-19 | 一种金融风险控制知识图谱的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811223568.4A CN109522416A (zh) | 2018-10-19 | 2018-10-19 | 一种金融风险控制知识图谱的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522416A true CN109522416A (zh) | 2019-03-26 |
Family
ID=65772734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811223568.4A Pending CN109522416A (zh) | 2018-10-19 | 2018-10-19 | 一种金融风险控制知识图谱的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522416A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992673A (zh) * | 2019-04-10 | 2019-07-09 | 广东工业大学 | 一种知识图谱生成方法、装置、设备及可读存储介质 |
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN112053221A (zh) * | 2020-08-14 | 2020-12-08 | 百维金科(上海)信息科技有限公司 | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 |
CN113487416A (zh) * | 2021-07-26 | 2021-10-08 | 中国科学院大学 | 一种基于知识图谱的金融风险评估方法 |
CN113610626A (zh) * | 2021-07-26 | 2021-11-05 | 建信金融科技有限责任公司 | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 |
CN113988724A (zh) * | 2021-12-28 | 2022-01-28 | 深圳市迪博企业风险管理技术有限公司 | 一种上市公司金融活动知识图谱的风险分析方法 |
CN115269879A (zh) * | 2022-09-05 | 2022-11-01 | 北京百度网讯科技有限公司 | 知识结构数据的生成方法、数据搜索方法和风险告警方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
CN108460136A (zh) * | 2018-03-08 | 2018-08-28 | 国网福建省电力有限公司 | 电力运维信息知识图谱构建方法 |
CN108492887A (zh) * | 2018-04-13 | 2018-09-04 | 合肥工业大学 | 医疗知识图谱构建方法及装置 |
-
2018
- 2018-10-19 CN CN201811223568.4A patent/CN109522416A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
CN108460136A (zh) * | 2018-03-08 | 2018-08-28 | 国网福建省电力有限公司 | 电力运维信息知识图谱构建方法 |
CN108492887A (zh) * | 2018-04-13 | 2018-09-04 | 合肥工业大学 | 医疗知识图谱构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
廖先玲等: "我国互联网金融风险研究的网络结构和主题聚类——基于CiteSpace的知识图谱分析", 《金融理论与实践》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992673A (zh) * | 2019-04-10 | 2019-07-09 | 广东工业大学 | 一种知识图谱生成方法、装置、设备及可读存储介质 |
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN112053221A (zh) * | 2020-08-14 | 2020-12-08 | 百维金科(上海)信息科技有限公司 | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 |
CN113487416A (zh) * | 2021-07-26 | 2021-10-08 | 中国科学院大学 | 一种基于知识图谱的金融风险评估方法 |
CN113610626A (zh) * | 2021-07-26 | 2021-11-05 | 建信金融科技有限责任公司 | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 |
CN113988724A (zh) * | 2021-12-28 | 2022-01-28 | 深圳市迪博企业风险管理技术有限公司 | 一种上市公司金融活动知识图谱的风险分析方法 |
CN115269879A (zh) * | 2022-09-05 | 2022-11-01 | 北京百度网讯科技有限公司 | 知识结构数据的生成方法、数据搜索方法和风险告警方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522416A (zh) | 一种金融风险控制知识图谱的构建方法 | |
CN110825881B (zh) | 一种建立电力知识图谱的方法 | |
JP7468929B2 (ja) | 地理知識取得方法 | |
CN104915340B (zh) | 自然语言问答方法及装置 | |
JP5904559B2 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
CN112434169B (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
CN104615608B (zh) | 一种数据挖掘处理系统及方法 | |
CN110457404B (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
CN107273355A (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
JP5907393B2 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
CN108520166A (zh) | 一种基于多重相似性网络游走的药物靶标预测方法 | |
CN103207856A (zh) | 一种本体概念及层次关系生成方法 | |
JP2015121896A (ja) | フレーズペア収集装置、及びそのためのコンピュータプログラム | |
Lee | Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams | |
CN113222775B (zh) | 融合多模态信息及权重张量的用户身份关联方法 | |
CN115860006B (zh) | 一种基于语义句法的方面级情感预测方法及装置 | |
CN109344263A (zh) | 一种地址匹配方法 | |
CN108647800A (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN109858020A (zh) | 一种基于语义图获取税务业务问题答案的方法及系统 | |
WO2024099037A1 (zh) | 数据处理、实体链接方法、装置和计算机设备 | |
CN109949174A (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
CN107977368A (zh) | 信息提取方法及系统 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
CN115423639A (zh) | 一种面向社交网络的安全社区发现方法 | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190326 |
|
RJ01 | Rejection of invention patent application after publication |