CN117668259B - 基于知识图谱的内外规数据联动分析方法及装置 - Google Patents
基于知识图谱的内外规数据联动分析方法及装置 Download PDFInfo
- Publication number
- CN117668259B CN117668259B CN202410142709.9A CN202410142709A CN117668259B CN 117668259 B CN117668259 B CN 117668259B CN 202410142709 A CN202410142709 A CN 202410142709A CN 117668259 B CN117668259 B CN 117668259B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- internal
- external
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 84
- 238000000605 extraction Methods 0.000 claims abstract description 59
- 238000007405 data analysis Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 51
- 238000003860 storage Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims 2
- 230000009286 beneficial effect Effects 0.000 abstract description 21
- 238000000034 method Methods 0.000 description 19
- 238000010276 construction Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000013075 data extraction Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000013480 data collection Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于知识图谱的内外规数据联动分析方法及装置,包括:获取外部数据以及内部数据,将外部数据以及内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果;基于模型输出结果,生成目标外部数据以及目标内部数据,根据所有目标外部数据以及所有目标内部数据,生成目标数据集合;基于目标数据集合,构建目标知识图谱;确定待分析数据对应的数据索引,根据数据索引对目标知识图谱执行搜索操作,得到数据搜索结果,并基于数据搜索结果确定待分析数据的数据分析结果。可见,本发明能够通过知识图谱提高进行数据联动分析的效率及准确性,进而有利于提高企业基于数据联动分析结果执行对应的管控操作的准确性。
Description
技术领域
本发明涉及数据智能分析技术领域,尤其涉及一种基于知识图谱的内外规数据联动分析方法及装置。
背景技术
随着科学技术的发展,人工智能已广泛应用于各行各业中,为人们的生产、学习及生活都带来了便利。当前证券行业通常会建立专门的法规研究团队,负责搜集、研究和分析新发布的外规,同时,通过借助信息科技工具建立完整的法规管理制度,明确内规和外规的关系,规定法规的搜集、更新和执行流程。最后,积极与监管机构保持沟通和合作,定期参加行业会议、培训和座谈会,了解监管政策的动向和变化。但是,目前大多数关注内外规动向的方法是通过人工监控并进行内外规数据分析的,这样不仅存在数据分析效率低下的问题,还存在数据分析准确性低下的问题。可见,提供一种新的数据分析方法以提高内外规数据分析的精准性和效率显得尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种基于知识图谱的内外规数据联动分析方法及装置,能够通过自然语言处理以及构建知识图谱的方法实现外规的自动搜集以及内外规数据之间的联动分析,有利于提高进行数据联动分析的效率及准确性,进而有利于提高企业基于数据联动分析结果执行对应的管控操作的准确性。
为了解决上述技术问题,本发明第一方面公开了一种基于知识图谱的内外规数据联动分析方法,所述方法包括:
获取外部数据以及内部数据,将所述外部数据以及所述内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果,其中,所述模型输出结果包括所述外部数据对应的外部数据输出结果以及所述内部数据对应的内部数据输出结果;
基于所述模型输出结果,生成目标外部数据以及目标内部数据,根据所有所述目标外部数据以及所有所述目标内部数据,生成目标数据集合;
基于所述目标数据集合,构建目标知识图谱,所述目标知识图谱包括所述目标外部数据与所述目标内部数据之间的实体关系;
获取待分析数据,并基于所述待分析数据,确定所述待分析数据对应的数据索引,根据所述数据索引对所述目标知识图谱执行搜索操作,得到数据搜索结果,并基于所述数据搜索结果确定所述待分析数据的数据分析结果。
作为一种可选的实施方式,在本发明第一方面中,所述关联抽取GraphRel模型包括序列编码Bi-LSTM模型以及双向图网络Bi-GCN模型;
其中,所述将所述外部数据以及所述内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果,包括:
通过所述序列编码Bi-LSTM模型对所述外部数据执行特征提取操作,得到外部特征数据,以及通过所述序列编码Bi-LSTM模型对所述内部数据执行特征提取操作,得到内部特征数据,并将所有所述外部特征数据以及所有所述内部特征数据确定为特征数据集合;
对于所述特征数据集合中的每个特征数据,对该特征数据执行类别预测操作,得到该特征数据的实体类别预测结果;
根据所有所述特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息,所述数据关系信息包括所述内部特征数据与所述外部特征数据之间的数据关系信息;
基于所述数据关系信息,通过所述双向图网络Bi-GCN模型,构建数据依赖信息图表,并根据所述数据依赖信息图表确定综合数据特征,并基于所述综合数据特征,确定模型输出结果。
作为一种可选的实施方式,在本发明第一方面中,所述基于所述目标数据集合,构建目标知识图谱,包括:
根据所述数据关系信息以及所述目标数据集合,确定目标点以及目标边,其中,所述目标点包括每个所述目标外部数据以及每个所述目标内部数据,所述目标边包括每个所述数据关系信息;
对所有所述目标点以及所述目标边执行数据连接操作,得到数据连接结果;
基于所述数据连接结果,构建目标知识图谱;
其中,所述数据连接结果包括所述目标外部数据与所述目标内部数据之间的数据依赖关系。
作为一种可选的实施方式,在本发明第一方面中,所述根据所有所述特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息,包括:
将所有所述特征数据的实体类别预测结果输入至预先确定出的应用分类损失模型执行训练操作,得到训练至收敛的应用分类损失模型;
将预先确定出的三元组关系对输入至训练至收敛的应用分类损失模型,得到损失分析结果,基于所述损失分析结果,确定关系概率参数,其中,所述关系概率参数包括所述外部特征数据与所述内部特征数据之间的关系概率;
基于所述关系概率参数以及所有所述特征数据的实体类别预测结果,生成数据关系信息。
作为一种可选的实施方式,在本发明第一方面中,所述基于所述待分析数据,确定所述待分析数据对应的数据索引,包括:
提取所述待分析数据中的数据关键字,基于所述数据关键字以及所述目标知识图谱,确定所述待分析数据对应的数据索引;
以及,所述根据所述数据索引对所述目标知识图谱执行搜索操作,得到数据搜索结果,包括:
根据所述数据索引,在所述目标知识图谱中确定出与所述数据索引相匹配的至少一个候选子图;
对于每个所述候选子图,确定该候选子图中的所有搜索路径;
根据所有所述搜索路径,生成搜索路径集合,所述搜索路径集合中包括所有所述候选子图中的所有所述搜索路径;
在所述搜索路径集合中确定出目标搜索路径,根据所述目标搜索路径以及所述目标搜索路径对应的目标候选子图,在所述目标知识图谱中执行搜索操作,得到数据搜索结果。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
将获取得到的所有所述外部数据以及所有所述内部数据执行存储操作,以使每个所述外部数据以及每个所述内部数据存储在预设的分布式数据库中;
采集每个目标对象的数据信息,并根据预先确定的数据处理操作程序以及所述分布式数据库中所存储的所有数据,对采集得到的每个所述数据信息执行数据处理操作,得到目标处理数据,并将所有所述目标处理数据存储至预设的所述分布式数据库中。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
基于所有所述目标处理数据,生成数据搜索结果;
对所述数据搜索结果与所述目标知识图谱执行数据对比操作,得到数据对比结果,基于所述数据对比结果,确定待更新数据;
根据所有所述待更新数据,对所述目标知识图谱执行更新操作;
其中,所述更新操作包括连接关系更新操作、目标外部数据更新操作、目标内部数据更新操作中的一种或多种。
本发明第二方面公开了一种基于知识图谱的内外规数据联动分析装置,所述装置包括:
获取模块,用于获取外部数据以及内部数据;
输入模块,用于将所述外部数据以及所述内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果,其中,所述模型输出结果包括所述外部数据对应的外部数据输出结果以及所述内部数据对应的内部数据输出结果;
生成模块,用于基于所述模型输出结果,生成目标外部数据以及目标内部数据,根据所有所述目标外部数据以及所有所述目标内部数据,生成目标数据集合;
构建模块,用于基于所述目标数据集合,构建目标知识图谱,所述目标知识图谱包括所述目标外部数据与所述目标内部数据之间的实体关系;
所述获取模块,还用于获取待分析数据;
确定模块,用于基于所述待分析数据,确定所述待分析数据对应的数据索引;
搜索模块,用于根据所述数据索引对所述目标知识图谱执行搜索操作,得到数据搜索结果,并基于所述数据搜索结果确定所述待分析数据的数据分析结果。
作为一种可选的实施方式,在本发明第二方面中,所述关联抽取GraphRel模型包括序列编码Bi-LSTM模型以及双向图网络Bi-GCN模型;
所述输入模块将所述外部数据以及所述内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果的具体方式包括:
通过所述序列编码Bi-LSTM模型对所述外部数据执行特征提取操作,得到外部特征数据,以及通过所述序列编码Bi-LSTM模型对所述内部数据执行特征提取操作,得到内部特征数据,并将所有所述外部特征数据以及所有所述内部特征数据确定为特征数据集合;
对于所述特征数据集合中的每个特征数据,对该特征数据执行类别预测操作,得到该特征数据的实体类别预测结果;
根据所有所述特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息,所述数据关系信息包括所述内部特征数据与所述外部特征数据之间的数据关系信息;
基于所述数据关系信息,通过所述双向图网络Bi-GCN模型,构建数据依赖信息图表,并根据所述数据依赖信息图表确定综合数据特征,并基于所述综合数据特征,确定模型输出结果。
作为一种可选的实施方式,在本发明第二方面中,所述构建模块基于所述目标数据集合,构建目标知识图谱的具体方式包括:
根据所述数据关系信息以及所述目标数据集合,确定目标点以及目标边,其中,所述目标点包括每个所述目标外部数据以及每个所述目标内部数据,所述目标边包括每个所述数据关系信息;
对所有所述目标点以及所述目标边执行数据连接操作,得到数据连接结果;
基于所述数据连接结果,构建目标知识图谱;
其中,所述数据连接结果包括所述目标外部数据与所述目标内部数据之间的数据依赖关系。
作为一种可选的实施方式,在本发明第二方面中,所述生成模块根据所有所述特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息的具体方式包括:
将所有所述特征数据的实体类别预测结果输入至预先确定出的应用分类损失模型执行训练操作,得到训练至收敛的应用分类损失模型;
将预先确定出的三元组关系对输入至训练至收敛的应用分类损失模型,得到损失分析结果,基于所述损失分析结果,确定关系概率参数,其中,所述关系概率参数包括所述外部特征数据与所述内部特征数据之间的关系概率;
基于所述关系概率参数以及所有所述特征数据的实体类别预测结果,生成数据关系信息。
作为一种可选的实施方式,在本发明第二方面中,所述确定模块基于所述待分析数据,确定所述待分析数据对应的数据索引的具体方式包括:
提取所述待分析数据中的数据关键字,基于所述数据关键字以及所述目标知识图谱,确定所述待分析数据对应的数据索引;
所述搜索模块根据所述数据索引对所述目标知识图谱执行搜索操作,得到数据搜索结果的具体方式包括:
根据所述数据索引,在所述目标知识图谱中确定出与所述数据索引相匹配的至少一个候选子图;
对于每个所述候选子图,确定该候选子图中的所有搜索路径;
根据所有所述搜索路径,生成搜索路径集合,所述搜索路径集合中包括所有所述候选子图中的所有所述搜索路径;
在所述搜索路径集合中确定出目标搜索路径,根据所述目标搜索路径以及所述目标搜索路径对应的目标候选子图,在所述目标知识图谱中执行搜索操作,得到数据搜索结果。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
存储模块,用于将获取得到的所有所述外部数据以及所有所述内部数据执行存储操作,以使每个所述外部数据以及每个所述内部数据存储在预设的分布式数据库中;
采集模块,用于采集每个目标对象的数据信息;
处理模块,用于根据预先确定的数据处理操作程序以及所述分布式数据库中所存储的所有数据,对采集得到的每个所述数据信息执行数据处理操作,得到目标处理数据;
所述存储模块,还用于将所有所述目标处理数据存储至预设的所述分布式数据库中。
作为一种可选的实施方式,在本发明第二方面中,所述生成模块,还用于基于所有所述目标处理数据,生成数据搜索结果;
所述处理模块,还用于对所述数据搜索结果与所述目标知识图谱执行数据对比操作,得到数据对比结果,基于所述数据对比结果,确定待更新数据;
所述装置还包括:
更新模块,用于根据所有所述待更新数据,对所述目标知识图谱执行更新操作;
其中,所述更新操作包括连接关系更新操作、目标外部数据更新操作、目标内部数据更新操作中的一种或多种。
本发明第三方面公开了另一种基于知识图谱的内外规数据联动分析装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于知识图谱的内外规数据联动分析方法。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于知识图谱的内外规数据联动分析方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,获取外部数据以及内部数据,将外部数据以及内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果;基于模型输出结果,生成目标外部数据以及目标内部数据,根据所有目标外部数据以及所有目标内部数据,生成目标数据集合;基于目标数据集合,构建目标知识图谱;获取待分析数据,并确定待分析数据对应的数据索引,根据数据索引对目标知识图谱执行搜索操作,得到数据搜索结果,并基于数据搜索结果确定待分析数据的数据分析结果。可见,实施本发明能够通过自然语言处理以及构建知识图谱的方法实现外规的自动搜集以及内外规数据之间的联动分析,有利于提高进行数据联动分析的效率及准确性,进而有利于提高企业基于数据联动分析结果执行对应的管控操作的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于知识图谱的内外规数据联动分析方法的流程示意图;
图2是本发明实施例公开的另一种基于知识图谱的内外规数据联动分析方法的流程示意图;
图3是本发明实施例公开的一种基于知识图谱的内外规数据联动分析装置的结构示意图;
图4是本发明实施例公开的另一种基于知识图谱的内外规数据联动分析装置的结构示意图;
图5是本发明实施例公开的又一种基于知识图谱的内外规数据联动分析装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于知识图谱的内外规数据联动分析方法及装置,能够通过自然语言处理以及构建知识图谱的方法实现外规的自动搜集以及内外规数据之间的联动分析,有利于提高进行数据联动分析的效率及准确性,进而有利于提高企业基于数据联动分析结果执行对应的管控操作的准确性。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于知识图谱的内外规数据联动分析方法的流程示意图。其中,图1所描述的基于知识图谱的内外规数据联动分析方法可以应用于基于知识图谱的内外规数据联动分析装置中,也可以应用于基于知识图谱的内外规数据联动分析的云端服务器或本地服务器,本发明实施例不做限定。如图1所示,该基于知识图谱的内外规数据联动分析方法可以包括以下操作:
101、获取外部数据以及内部数据,将外部数据以及内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果。
本发明实施例中,模型输出结果包括外部数据对应的外部数据输出结果以及内部数据对应的内部数据输出结果。
本发明实施例中,可选的,外部数据包括企业外部的相关法律法规、政策等的外部数据;内部数据包括企业内部的规章制度、流程等的内部数据。
本发明实施例中,可选的,关联抽取GraphRel模型包括端到端的关系抽取关联抽取GraphRel模型,通过关联抽取GraphRel模型能够实现命名实体与关系的联合信息抽取;进一步的,关联抽取GraphRel模型结合了Bi-LSTMs的序列编码与图卷积网络(GCN)的依赖树编码,实现自动提取每个词的隐性特征,通过关联抽取GraphRel模型通过一个关系加权的GCN来考虑命名实体和关系之间的交互,从而更好地提取关系;其中,线性结构和依赖结构都用于提取文本的序列特征和局部特征,而完整的词图则进一步用于提取文本所有词对之间的隐含特征。
102、基于模型输出结果,生成目标外部数据以及目标内部数据,根据所有目标外部数据以及所有目标内部数据,生成目标数据集合。
本发明实施例中,可选的,基于模型输出结果,生成目标外部数据以及目标内部数据,包括:
根据模型输出结果中所包括的外部数据输出结果以及内部数据输出结果,从外部数据输出结果中确定出目标外部数据结果,以及从内部数据输出结果中确定出目标内部数据结果,并基于目标外部数据结果以及目标内部数据结果,生成目标外部数据以及目标内部数据。
本发明实施例中,可选的,目标数据集合中包括所有目标外部数据以及所有目标内部数据。
103、基于目标数据集合,构建目标知识图谱。
本发明实施例中,目标知识图谱包括目标外部数据与目标内部数据之间的实体关系。
本发明实施例中,可选的,知识图谱的基本单位一般由类似“实体-关系-实体”的三元组所构成,来诠释真实世界中各种实体之间的复杂关系。每一个节点代表每一个实体,每一条边则为实体之间的关系信息。知识图谱可以简单的理解为实体关系图,便于进行更具深度和广度的搜索。
本发明实施例中,可选的,目标知识图谱中包括若干个节点和边,其中,内外规实体信息在目标知识图谱中表示为节点,内外规之间的关系在目标知识图谱中表示为边,并通过建立节点和边之间的连接,形成一个完整的知识图谱;具体而言,外部监管发布的外规和公司内部制定的内规,在图谱中都是一个节点。
本发明实施例中,可选的,知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
104、获取待分析数据,并基于待分析数据,确定待分析数据对应的数据索引,根据数据索引对目标知识图谱执行搜索操作,得到数据搜索结果,并基于数据搜索结果确定待分析数据的数据分析结果。
本发明实施例中,可选的,待分析数据可以为企业的行为数据,也可以为企业外部的行为数据,本发明实施例不做具体限定。
可见,实施图1所描述的基于知识图谱的内外规数据联动分析方法能够将获取到的外部数据以及内部数据输入至关联抽取GraphRel模型得到模型输出结果,基于模型输出结果生成目标外部数据以及目标内部数据并进而生成目标数据集合,基于目标数据集合构建目标知识图谱,确定待分析数据对应的数据索引,并根据数据索引对目标知识图谱执行搜索操作得到数据搜索结果进而确定出数据分析结果,能够通过关联抽取GraphRel模型对外部数据以及内部数据执行对应的数据处理操作并进一步构建知识图谱,并通过构建得到的知识图谱确定数据分析结果,能够提高企业合规执行效率,以及通过智能化地对数据进行分析能够有效避免人为错误,能够实现确保企业合规风控的实时性和有效性,有利于提高对数据进行分析的智能性和效率,以及有利于提高对数据进行分析的准确性和可靠性,进而有利于提高企业基于智能模型以及知识图谱对数据执行智能化分析的智能性和可靠性。
在一个可选的实施例中,关联抽取GraphRel模型包括序列编码Bi-LSTM模型以及双向图网络Bi-GCN模型;
其中,将外部数据以及内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果,包括:
通过序列编码Bi-LSTM模型对外部数据执行特征提取操作,得到外部特征数据,以及通过序列编码Bi-LSTM模型对内部数据执行特征提取操作,得到内部特征数据,并将所有外部特征数据以及所有内部特征数据确定为特征数据集合;
对于特征数据集合中的每个特征数据,对该特征数据执行类别预测操作,得到该特征数据的实体类别预测结果;
根据所有特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息,数据关系信息包括内部特征数据与外部特征数据之间的数据关系信息;
基于数据关系信息,通过双向图网络Bi-GCN模型,构建数据依赖信息图表,并根据数据依赖信息图表确定综合数据特征,并基于综合数据特征,确定模型输出结果。
在该可选的实施例中,可选的,序列编码Bi-LSTM模型分为2个独立的LSTM,输入序列分别以正序和逆序输入至2个LSTM模型进行特征提取,将2个输出向量进行拼接后形成的词向量作为该词的最终特征表(因此底层维度是普通LSTM隐藏层维度的两倍);进一步的,Bi-LSTM的模型设计理念是使t时刻所获得特征数据同时拥有过去和将来之间的信息,其中,Bi-LSTM中的2个LSTM参数是相互独立的,它们只共享训练集的word-embedding词向量列表等训练集基本信息。
在该可选的实施例中,可选的,通过一个端到端的关系抽取模型实现命名实体与关系的联合信息抽取,关联抽取GraphRel模型结合了Bi-LSTMs的序列编码与图卷积网络Bi-GCN模型,实现自动提取每个外部数据以及每个内部数据的特征提取操作,能够提高特征数据提取的智能性和效率,以及有利于提高特征数据提取的准确性和可靠性。
在该可选的实施例中,可选的,通过序列编码Bi-LSTM模型对外部数据执行特征提取操作,得到外部特征数据,以及通过序列编码Bi-LSTM模型对内部数据执行特征提取操作,得到内部特征数据,包括:
通过序列编码Bi-LSTM模型将外部数据以及内部数据中的每个词的初始特征被初始化为,其中/>为单个词,这里的词特征以及/>特征是通过预训练得到的,以及/>用于表示单词u的嵌入,/>用于表示单词u的词性嵌入,对序列式的原始输入进行依赖关系解析,生成相应的依赖树作为图网络输入节点的邻接矩阵,这里的图网络考虑连接边的方向性,采用双向图网络Bi-GCN模型以及预设的第一目标公式对特征向量执行计算操作,得到每外部数据对应的外部特征数据以及内部数据对应的内部特征数据,其中,预设的第一目标公式包括:
;
;
;
其中,表示第/>层节点/>的特征向量,箭头表示每个节点上的边出入方向,表示卷积网络的权重,/>表示边出入方向为右边的第/>层的权重,,/>表示边出入方向为左边的第/>层节点/>的特征权重,/>表示第/>+1层节点/>且边出入方向为左边的特征向量,/>表示第/>+1层节点/>的边出入方向为右边的特征向量,/>第/>+1层节点/>的特征向量,ReLU(全称为Rectified Linear Unit)是一种人工神经网络中常用的激活函数,ReLU是一种分段函数,通常在意义上代表数学中的斜坡函;。ReLU函数的特点是在x大于0的区域内,函数的导数一直存在,并且其值恒为1;这使得ReLU能够克服传统激活函数由于导数区间过于狭窄而产生的梯度消失和梯度爆炸问题。
在该可选的实施例中,可选的,特征数据集合中包括所有外部特征数据以及所有内部特征数据。
在该可选的实施例中,进一步可选的,根据所有特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息,可以是通过以下方式生成的:
利用Bi-GCN模型,考虑不同关系的不同影响程度,并为每个关系构建完整的关系图,将不同关系和所聚合的不同影响程度作为综合词特征,并基于综合次特征以及三元组关系对生成数据关系信息,其中,这个过程可以表示为:
其中,表示节点/>到/>在关系/>下的边权重,/>是所有的节点集合,/>是所有的边集合,/>包括第/>层关系/>的特征权重,/>包括表示第/>层节点/>的特征向量,/>为第/>层节点/>的特征向量,/>包括表示/>关系/>。
在该可选的实施例中,可选的,关系三元组是存储于数据库中结构化的数据的基本元素,由拥有三个基本字段的单独的记录组成,这三个字段的值是特定的某种类型的三元组中任意的某个值,也即,一个三元组是一列有三个属性的记录:一个主题(或单词,或事物),一个属性,一个值,从形式上讲,关系三元组以表的形式呈现,它由一组行和一组列组成,每一行提供一个存储在表中的实体信息,每一列提供一个类型特定的特性;通过表中每一行的实体信息,用户可以辨认出其实体的特性,从而获取关于该实体的细节信息。
在该可选的实施例中,可选的,数据依赖信息图表包括每个数据信息实体之间的依赖关系,每个数据信息实体包括外部数据和/或内部数据;举例来说,若外部数据A分别与内部数据B和内部数据C存在依赖关系,则外部数据A与内部数据B和内部数据C在数据依赖信息图表中均存在数据依赖关系。
在该可选的实施例中,可选的,综合数据特征包括所有数据依赖信息图表。
在该可选的实施例中,进一步可选的,基于综合数据特征,确定模型输出结果,包括:
将综合数据特征确定为模型输出结果。
可见,实施该可选的实施例能够通过序列编码Bi-LSTM模型对外部数据以及内部数据执行特征提取操作以得到外部特征数据以及内部特征数据进而得到特征数据集合,对每个特征数据执行类别预测操作得到每个特征数据的实体类别预测结果,根据所有特征数据的实体类别预测结果以及三元组关系对生成数据关系信息,并基于数据关系信息通过双向图网络Bi-GCN模型构建数据依赖信息图表并根据数据依赖信息图表确定综合数据特征并进一步生成模型输出结果,能够通过基于序列编码Bi-LSTM模型对执行特征提取操作,能够提高得到外部特征数据以及内部特征数据的精准性和可靠性,以及能够提高得到外部特征数据以及内部特征数据的智能性和效率,并且通过双向图网络Bi-GCN模型以及数据关系信息构建数据依赖信息图表,能够有利于提高得到各个实体之间的依赖关系的精准性和可靠性,以及有利于提高得到各个实体之间的依赖关系的智能性和效率,进一步的,关联抽取GraphRel模型通过一个关系加权的GCN来考虑命名实体和关系之间的交互,从而更好地提取关系,并且利用线性结构和依赖结构提取文本的序列特征和区域特征,并利用完整词图提取文本中所有词对的隐式特征,能够提高确定特征数据的精细度,进而能够通过对实体与关系的联合信息抽取,获得公司内外规之间的依赖关系,有利于为后续构建知识图谱奠定了基础,有利于提高构建知识图谱的精准性和智能性。
在另一个可选的实施例中,基于目标数据集合,构建目标知识图谱,包括:
根据数据关系信息以及目标数据集合,确定目标点以及目标边,其中,目标点包括每个目标外部数据以及每个目标内部数据,目标边包括每个数据关系信息;
对所有目标点以及目标边执行数据连接操作,得到数据连接结果;
基于数据连接结果,构建目标知识图谱;
其中,数据连接结果包括目标外部数据与目标内部数据之间的数据依赖关系。
在该可选的实施例中,可选的,知识图谱的基本单位一般由类似“实体-关系-实体”的三元组所构成,来诠释真实世界中各种实体之间的复杂关系。每一个节点代表每一个实体,每一条边则为实体之间的关系信息。知识图谱可以简单的理解为实体关系图,便于进行更具深度和广度的搜索。
在该可选的实施例中,可选的,对所有目标点以及目标边执行数据连接操作,得到数据连接结果,包括:
根据数据关系信息,确定每个目标点之间的连接关系,并基于每个目标边,确定所有目标点之间的连接参数,其中,每个目标点之间的连接关系包括存在连接关系或者不存在连接关系,所有目标点之间的连接参数包括连接依赖关系;
基于所有连接关系以及所有连接参数,生成数据连接结果。
在该可选的实施例中,进一步可选的,举例来说,根据关联抽取GraphRel模型对公司内部规章制度、流程和公司外部相关法律法规、政策等数据进行实体识别与关系抽取的结果,可以将内外规实体和关系转化为知识图谱的节点和边。内外规实体被表示为知识图谱中的节点,内外规之间的关系被表示为节点之间的边。通过建立节点和边之间的连接,形成一个完整的知识图谱。
在该可选的实施例中,进一步可选的,目标内部数据可以与其它目标内部数据之间存在连接依赖关系,也可以与目标外部数据之间存在连接依赖关系;目标外部数据可以与其它目标外部数据之间存在连接依赖关系,也可以与目标内部数据之间存在连接依赖关系,且每个目标外部数据以及每个目标内部数据对应的连接依赖关系的对象的数量可以为一个,也可以为多少个,本发明实施例不做限定。具体而言,外部监管发布的外规和公司内部制定的内规,在图谱中都是一个节点。外规节点中包含的属性有:外规名称、发文文号、发文单位、发布时间、生效时间等信息。内规节点中包含的属性有:内规名称、发文文号、发文部门、发布时间、生效时间、包含的条款。值得注意的是,在内外规知识图谱中,增加了条款节点,也即内规包含的条款,通过条款来构建内规和外规间的联系。此外,内外规知识图谱通过可视化的手段,将公司内部制定的内规之间的相互影响关系,和外部监管发布的外观之间的依赖关系,清晰的展示在公司的智能合规风控系统中,便于公司法律合规人员查看。
可见,实施该可选的实施例能够根据数据关系信息以及目标数据集合确定目标点以及目标边,对所有目标点以及目标边执行数据连接操作得到包括目标外部数据与目标内部数据之间的数据依赖关系的数据连接结果,基于数据连接结果构建目标知识图谱,能够提高目标点和目标边的准确性和可靠性,并且通过内外规知识图谱这种数据信息的互联方式,考虑了知识之间的联系,扩展了特征的维度,获取海量特征,采用可解释的图计算方法,可以学习到全局信息。依据底层数据收集与自然语言处理技术,图谱可以实时持续新增或者修订内外规之间的依赖关系,有利于提高后续对目标点和目标边执行数据连接操作的精准性和可靠性,并且有利于提高对目标点和目标边执行数据连接操作得到数据连接结果的智能性和效率,以及有利于提高得到数据连接结果的精准性和可靠性,从而有利于提高后续构建知识图谱的智能性和效率,以及有利于提高后续构建知识图谱的精准性和可靠性,进而有利于提高通过知识图谱对内外规数据执行分析操作得到数据分析结果的精准性、智能性及效率。
在又一个可选的实施例中,根据所有特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息,包括:
将所有特征数据的实体类别预测结果输入至预先确定出的应用分类损失模型执行训练操作,得到训练至收敛的应用分类损失模型;
将预先确定出的三元组关系对输入至训练至收敛的应用分类损失模型,得到损失分析结果,基于损失分析结果,确定关系概率参数,其中,关系概率参数包括外部特征数据与内部特征数据之间的关系概率;
基于关系概率参数以及所有特征数据的实体类别预测结果,生成数据关系信息。
在该可选的实施例中,可选的,将所有特征数据的实体类别预测结果输入至预先确定出的应用分类损失模型执行训练操作可以是通过应用分类损失进行训练的;其中,二元交叉熵损失(Binary Cross Entropy Loss,BCELoss),是用于二元分类的损失函数,它将模型输出的概率与真实标签的二进制值进行比较,并计算二元交叉熵损失。
在该可选的实施例中,可选的,将预先确定出的三元组关系对输入至训练至收敛的应用分类损失模型,得到损失分析结果,基于损失分析结果,确定关系概率参数,包括:
基于通过Bi-GCN模型中得到词特征向量,对每个词预测其实体类别与三元组关系对,并应用分类损失进行训练,对于关系抽取,取出依赖边并对所有次对进行预测,对于每个关系,基于预设的学习权重矩阵/>以及预设的第二目标,计算关系概率参数,其中,预设的第二公式,包括:
;
其中,为关系概率参数,/>为学习权重矩阵,/>以及为词向量特征,/>表示第L层节点u的关系。
可见,实施该可选的实施例能够将所有特征数据的实体类别预测结果对应用分类损失模型进行训练,得到训练至收敛的应用分类损失模型,并将三元组关系输入至训练至收敛的应用分类损失模型得到损失分析结果,基于损失分析结果确定外部特征数据与内部特征数据之间的关系概率参数,基于关系概率参数以及所有特征数据的实体类别预测结果生成数据关系信息,能够对应用分类损失模型执行智能化训练操作以得到训练至收敛的应用分类损失模型,有利于提高对应用分类损失模型执行训练操作的智能性和效率,有利于提高得到训练至收敛的应用分类损失模型的精准性和可靠性,以及有利于提高后续生成数据关系信息的精准性和可靠性,并且通过内外规知识图谱这种数据信息的互联方式,考虑了知识之间的联系,扩展了特征的维度,获取海量特征,采用可解释的图计算方法,可以学习到全局信息。依据底层数据收集与自然语言处理技术,图谱可以实时持续新增或者修订内外规之间的依赖关系,有利于提高基于知识图谱得到数据分析结果的精准性和可靠性。
在又一个可选的实施例中,基于待分析数据,确定待分析数据对应的数据索引,包括:
提取待分析数据中的数据关键字,基于数据关键字以及目标知识图谱,确定待分析数据对应的数据索引;
以及,根据数据索引对目标知识图谱执行搜索操作,得到数据搜索结果,包括:
根据数据索引,在目标知识图谱中确定出与数据索引相匹配的至少一个候选子图;
对于每个候选子图,确定该候选子图中的所有搜索路径;
根据所有搜索路径,生成搜索路径集合,搜索路径集合中包括所有候选子图中的所有搜索路径;
在搜索路径集合中确定出目标搜索路径,根据目标搜索路径以及目标搜索路径对应的目标候选子图,在目标知识图谱中执行搜索操作,得到数据搜索结果。
在该可选的实施例中,可选的,待分析数据中的数据关键字的数量可以为一个,也可以为多个,本发明实施例不做具体限定。进一步的,待分析数据中的数据关键字用于表示待分析数据中的关键信息。
在该可选的实施例中,可选的,基于数据关键字以及目标知识图谱,确定待分析数据对应的数据索引,包括:
基于目标知识图谱,确定与目标知识图谱相匹配的数据字库;
在与目标知识图谱相匹配的数据字库中搜索与数据关键字相匹配的目标关键字,并根据目标关键字确定待分析数据对应的数据索引。
在该可选的实施例中,可选的,举例来说,确定数据索引的方法还可以是通过以下方式确定得到的:将采集的原始数据存储在分布式数据库中,采集工具每采集一条数据,都会给数据处理程序发布一条指令,让其去分布式数据库中找到新进的数据,并做加工提炼,得到数据索引。
在该可选的实施例中,可选的,每个候选子图中的搜索路径的数量可以为一个,也可以为多个,本发明实施例不做具体限定。进一步的,每个候选子图中的搜索路径与数据索引相匹配。
在该可选的实施例中,可选的,目标搜索路径的数量为一个。
在该可选的实施例中,可选的,在搜索路径集合中确定出目标搜索路径,包括:
计算搜索路径集合中所包括的每个搜索路径的路径长度,并根据每个搜索路径的路径长度,筛选出至少一个备选路径,其中,备选路径的路径长度小于预设的路径长度阈值;
对于每个备选路径,确定该备选路径的搜索权重,并根据所有备选路径的搜索权重,确定最高搜索权重,并将最高搜索权重对应的备选路径确定为目标搜索路径。
在该可选的实施例中,进一步可选的,基于每个备选路径,通过数据索引获取包含所有备选路径的目标候选子图,并基于目标候选子图以及备选路径执行同构测试,获得测试结果,并基于测试结果更新数据索引。
可见,实施该可选的实施例能够提取待分析数据中的数据关键字并结合目标知识图谱确定待分析数据对应的数据索引,根据数据索引在目标知识图谱中确定出相匹配的至少一个候选子图,确定每个候选字图中的搜索路径并生成搜索路径集合,在搜索路径集合中确定出目标搜索路径,根据目标搜索路径以及对应的目标候选子图执行搜索操作得到数据搜索结果,能够通过数据关键字确定对应的数据索引,有利于提高确定数据索引的精准性和可靠性,以及有利于提高确定数据索引的智能性和效率,以及能够通过确定候选子图进而确定搜索路径,能够仅需要在候选子图中确定搜索路径而无需在整个目标知识图谱中确定搜索路径,有利于提高确定搜索路径的精准性和可靠性,以及有利于提高确定搜索路径的智能性和效率,进而有利于提高在所有搜索路径中确定出目标搜索路径的精准性和可靠性,有利于提高得到数据搜索结果的精准性和可靠性,以及有利于提高得到数据搜索结果的智能性和效率。
实施例二
请参阅图2,图2是本发明实施例公开的另一种基于知识图谱的内外规数据联动分析方法的流程示意图。其中,图2所描述的基于知识图谱的内外规数据联动分析方法可以应用于基于知识图谱的内外规数据联动分析装置中,也可以应用于基于知识图谱的内外规数据联动分析的云端服务器或本地服务器,本发明实施例不做限定。如图2所示,该基于知识图谱的内外规数据联动分析方法可以包括以下操作:
201、获取外部数据以及内部数据,将外部数据以及内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果。
202、基于模型输出结果,生成目标外部数据以及目标内部数据,根据所有目标外部数据以及所有目标内部数据,生成目标数据集合。
203、基于目标数据集合,构建目标知识图谱。
204、获取待分析数据,并基于待分析数据,确定待分析数据对应的数据索引,根据数据索引对目标知识图谱执行搜索操作,得到数据搜索结果,并基于数据搜索结果确定待分析数据的数据分析结果。
本发明实施例中,针对步骤201-步骤204的详细描述,请参照实施例一中针对步骤101-步骤104的其它描述,本发明实施例不再赘述。
205、将获取得到的所有外部数据以及所有内部数据执行存储操作,以使每个外部数据以及每个内部数据存储在预设的分布式数据库中。
本发明实施例中,可选的,将获取得到的所有外部数据以及所有内部数据执行存储操作,以使每个外部数据以及每个内部数据存储在预设的分布式数据库中,可以包括:
将获取得到的所有外部数据以及所有内部数据执行数据图转换操作,得到包括所有外部数据以及所有内部数据的目标图数据,并将目标图数据存储在预设的分布式数据库中。
这样能够通过将内外规所对应的外部数据以及内部数据通过图结构的存储方式对内外规知识进行直观灵活的表示和存储,能够提高后续用户基于知识图谱查看数据情况的直观性和便捷性。
206、采集每个目标对象的数据信息,并根据预先确定的数据处理操作程序以及分布式数据库中所存储的所有数据,对采集得到的每个数据信息执行数据处理操作,得到目标处理数据,并将所有目标处理数据存储至预设的分布式数据库中。
本发明实施例中,可选的,数据处理操作包括数据去重操作、数据过滤操作、数据清洁操作、数据提取操作中的一种或多种。
本发明实施例中,可选的,根据预先确定的数据处理操作程序以及分布式数据库中所存储的所有数据,对采集得到的每个数据信息执行数据处理操作,得到目标处理数据,可以包括:
根据预先确定出的数据处理操作程序以及分布式数据库中所存储的所有数据,判断分布式数据库中所存储的所有数据中是否存在重复数据,当判断出分布式数据库中所存储的所有数据中存在重复数据时,对所有重复数据执行去重操作,以更新分布式数据库中所存储的所有数据;
基于更新后的分布式数据库中所存储的所有数据,执行关键数据提取操作,得到数据提取结果,其中,数据提取结果包括多个数据;
将数据提取结果中所包括的所有数据确定为目标处理数据。
可见,实施该可选的实施例能够将获取得到的所有外部数据以及内部数据存储在预设的分布式数据库中,并采集每个目标对象的数据信息,根据预先确定的数据处理操作程度以及分布式数据库中所存储的所有数据对采集得到的每个数据信息执行数据处理操作得到目标处理数据,并将目标处理数据存储至预设的分布式数据库中,能够基于获取得到的所有数据执行存储操作,有利于提高对数据存储的智能性和效率,并且通过执行对应的数据处理操作,能够节省预设的分布式数据库存储数据的空间,能够进一步的提高数据存储的智能性和便捷性。
在一个可选的实施例中,该方法还包括:
基于所有目标处理数据,生成数据搜索结果;
对数据搜索结果与目标知识图谱执行数据对比操作,得到数据对比结果,基于数据对比结果,确定待更新数据;
根据所有待更新数据,对目标知识图谱执行更新操作;
其中,更新操作包括连接关系更新操作、目标外部数据更新操作、目标内部数据更新操作中的一种或多种。
在该可选的实施例中,可选的,数据搜索结果包括所有目标处理数据。
在该可选的实施例中,可选的,基于数据对比结果,确定待更新数据,包括:
基于数据对比结果,确定出数据搜索结果中与目标知识图谱中不相同的目标搜索数据,并将所有目标搜索数据确定为待更新数据。
在该可选的实施例中,可选的,根据所有待更新数据,对目标知识图谱执行更新操作,包括:
对于每个待更新数据,分析该待更新数据的更新数据结果,更新数据结果包括该待更新数据与目标知识图谱中每个目标点之间的依赖关系信息;
根据每个待更新数据的更新数据结果,对目标知识图谱执行更新操作,以更新目标知识图谱。
可见,实施该可选的实施例能够基于所有目标处理数据生成数据搜索结果,对数据搜索结果与目标知识图谱执行数据对比操作得到数据对比结果进而确定待更新数据,根据所有待更新数据对目标知识图谱执行更新操作,能够在外部法规有更新或修订时,自动对公司当前的内外规知识图谱进行全面检索,若外规的变动对公司内规有影响,则内外规知识图谱进行自动化更新,能够实现对知识图谱的智能化更新,能够实现目标知识图谱更新的实时性和及时性,并且还有利于实现过自然语言处理以及构建知识图谱的方法实现外规的自动搜集以及内外规数据之间的联动分析,有利于提高进行数据联动分析的效率及准确性,以及有利于提高进行数据联动分析得到数据分析结果的实时性和及时性,进而有利于提高企业基于数据联动分析结果执行对应的管控操作的准确性,以及有利于提高企业基于数据联动分析结果执行对应的管控操作的实时性和及时性。
实施例三
请参阅图3,图3是本发明实施例公开的一种基于知识图谱的内外规数据联动分析装置的结构示意图。如图3所示,该基于知识图谱的内外规数据联动分析装置可以包括:
获取模块301,用于获取外部数据以及内部数据;
输入模块302,用于将外部数据以及内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果,其中,模型输出结果包括外部数据对应的外部数据输出结果以及内部数据对应的内部数据输出结果;
生成模块303,用于基于模型输出结果,生成目标外部数据以及目标内部数据,根据所有目标外部数据以及所有目标内部数据,生成目标数据集合;
构建模块304,用于基于目标数据集合,构建目标知识图谱,目标知识图谱包括目标外部数据与目标内部数据之间的实体关系;
获取模块301,还用于获取待分析数据;
确定模块305,用于基于待分析数据,确定待分析数据对应的数据索引;
搜索模块306,用于根据数据索引对目标知识图谱执行搜索操作,得到数据搜索结果,并基于数据搜索结果确定待分析数据的数据分析结果。
可见,实施图3所描述的装置能够将获取到的外部数据以及内部数据输入至关联抽取GraphRel模型得到模型输出结果,基于模型输出结果生成目标外部数据以及目标内部数据并进而生成目标数据集合,基于目标数据集合构建目标知识图谱,确定待分析数据对应的数据索引,并根据数据索引对目标知识图谱执行搜索操作得到数据搜索结果进而确定出数据分析结果,能够通过关联抽取GraphRel模型对外部数据以及内部数据执行对应的数据处理操作并进一步构建知识图谱,并通过构建得到的知识图谱确定数据分析结果,能够提高企业合规执行效率,以及通过智能化地对数据进行分析能够有效避免人为错误,能够实现确保企业合规风控的实时性和有效性,有利于提高对数据进行分析的智能性和效率,以及有利于提高对数据进行分析的准确性和可靠性,进而有利于提高企业基于智能模型以及知识图谱对数据执行智能化分析的智能性和可靠性。
在一个可选的实施例中,关联抽取GraphRel模型包括序列编码Bi-LSTM模型以及双向图网络Bi-GCN模型;
输入模块302将外部数据以及内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果的具体方式包括:
通过序列编码Bi-LSTM模型对外部数据执行特征提取操作,得到外部特征数据,以及通过序列编码Bi-LSTM模型对内部数据执行特征提取操作,得到内部特征数据,并将所有外部特征数据以及所有内部特征数据确定为特征数据集合;
对于特征数据集合中的每个特征数据,对该特征数据执行类别预测操作,得到该特征数据的实体类别预测结果;
根据所有特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息,数据关系信息包括内部特征数据与外部特征数据之间的数据关系信息;
基于数据关系信息,通过双向图网络Bi-GCN模型,构建数据依赖信息图表,并根据数据依赖信息图表确定综合数据特征,并基于综合数据特征,确定模型输出结果。
可见,实施图3所描述的装置能够通过序列编码Bi-LSTM模型对外部数据以及内部数据执行特征提取操作以得到外部特征数据以及内部特征数据进而得到特征数据集合,对每个特征数据执行类别预测操作得到每个特征数据的实体类别预测结果,根据所有特征数据的实体类别预测结果以及三元组关系对生成数据关系信息,并基于数据关系信息通过双向图网络Bi-GCN模型构建数据依赖信息图表并根据数据依赖信息图表确定综合数据特征并进一步生成模型输出结果,能够通过基于序列编码Bi-LSTM模型对执行特征提取操作,能够提高得到外部特征数据以及内部特征数据的精准性和可靠性,以及能够提高得到外部特征数据以及内部特征数据的智能性和效率,并且通过双向图网络Bi-GCN模型以及数据关系信息构建数据依赖信息图表,能够有利于提高得到各个实体之间的依赖关系的精准性和可靠性,以及有利于提高得到各个实体之间的依赖关系的智能性和效率,进一步的,关联抽取GraphRel模型通过一个关系加权的GCN来考虑命名实体和关系之间的交互,从而更好地提取关系,并且利用线性结构和依赖结构提取文本的序列特征和区域特征,并利用完整词图提取文本中所有词对的隐式特征,能够提高确定特征数据的精细度,进而能够通过对实体与关系的联合信息抽取,获得公司内外规之间的依赖关系,有利于为后续构建知识图谱奠定了基础,有利于提高构建知识图谱的精准性和智能性。
在另一个可选的实施例中,构建模块304基于目标数据集合,构建目标知识图谱的具体方式包括:
根据数据关系信息以及目标数据集合,确定目标点以及目标边,其中,目标点包括每个目标外部数据以及每个目标内部数据,目标边包括每个数据关系信息;
对所有目标点以及目标边执行数据连接操作,得到数据连接结果;
基于数据连接结果,构建目标知识图谱;
其中,数据连接结果包括目标外部数据与目标内部数据之间的数据依赖关系。
可见,实施图3所描述的装置能够根据数据关系信息以及目标数据集合确定目标点以及目标边,对所有目标点以及目标边执行数据连接操作得到包括目标外部数据与目标内部数据之间的数据依赖关系的数据连接结果,基于数据连接结果构建目标知识图谱,能够提高目标点和目标边的准确性和可靠性,并且通过内外规知识图谱这种数据信息的互联方式,考虑了知识之间的联系,扩展了特征的维度,获取海量特征,采用可解释的图计算方法,可以学习到全局信息。依据底层数据收集与自然语言处理技术,图谱可以实时持续新增或者修订内外规之间的依赖关系,有利于提高后续对目标点和目标边执行数据连接操作的精准性和可靠性,并且有利于提高对目标点和目标边执行数据连接操作得到数据连接结果的智能性和效率,以及有利于提高得到数据连接结果的精准性和可靠性,从而有利于提高后续构建知识图谱的智能性和效率,以及有利于提高后续构建知识图谱的精准性和可靠性,进而有利于提高通过知识图谱对内外规数据执行分析操作得到数据分析结果的精准性、智能性及效率。
在又一个可选的实施例中,生成模块303根据所有特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息的具体方式包括:
将所有特征数据的实体类别预测结果输入至预先确定出的应用分类损失模型执行训练操作,得到训练至收敛的应用分类损失模型;
将预先确定出的三元组关系对输入至训练至收敛的应用分类损失模型,得到损失分析结果,基于损失分析结果,确定关系概率参数,其中,关系概率参数包括外部特征数据与内部特征数据之间的关系概率;
基于关系概率参数以及所有特征数据的实体类别预测结果,生成数据关系信息。
可见,实施图3所描述的装置能够将所有特征数据的实体类别预测结果对应用分类损失模型进行训练,得到训练至收敛的应用分类损失模型,并将三元组关系输入至训练至收敛的应用分类损失模型得到损失分析结果,基于损失分析结果确定外部特征数据与内部特征数据之间的关系概率参数,基于关系概率参数以及所有特征数据的实体类别预测结果生成数据关系信息,能够对应用分类损失模型执行智能化训练操作以得到训练至收敛的应用分类损失模型,有利于提高对应用分类损失模型执行训练操作的智能性和效率,有利于提高得到训练至收敛的应用分类损失模型的精准性和可靠性,以及有利于提高后续生成数据关系信息的精准性和可靠性,并且通过内外规知识图谱这种数据信息的互联方式,考虑了知识之间的联系,扩展了特征的维度,获取海量特征,采用可解释的图计算方法,可以学习到全局信息。依据底层数据收集与自然语言处理技术,图谱可以实时持续新增或者修订内外规之间的依赖关系,有利于提高基于知识图谱得到数据分析结果的精准性和可靠性。
在又一个可选的实施例中,确定模块305基于待分析数据,确定待分析数据对应的数据索引的具体方式包括:
提取待分析数据中的数据关键字,基于数据关键字以及目标知识图谱,确定待分析数据对应的数据索引;
搜索模块根据数据索引对目标知识图谱执行搜索操作,得到数据搜索结果的具体方式包括:
根据数据索引,在目标知识图谱中确定出与数据索引相匹配的至少一个候选子图;
对于每个候选子图,确定该候选子图中的所有搜索路径;
根据所有搜索路径,生成搜索路径集合,搜索路径集合中包括所有候选子图中的所有搜索路径;
在搜索路径集合中确定出目标搜索路径,根据目标搜索路径以及目标搜索路径对应的目标候选子图,在目标知识图谱中执行搜索操作,得到数据搜索结果。
可见,实施图3所描述的装置能够提取待分析数据中的数据关键字并结合目标知识图谱确定待分析数据对应的数据索引,根据数据索引在目标知识图谱中确定出相匹配的至少一个候选子图,确定每个候选字图中的搜索路径并生成搜索路径集合,在搜索路径集合中确定出目标搜索路径,根据目标搜索路径以及对应的目标候选子图执行搜索操作得到数据搜索结果,能够通过数据关键字确定对应的数据索引,有利于提高确定数据索引的精准性和可靠性,以及有利于提高确定数据索引的智能性和效率,以及能够通过确定候选子图进而确定搜索路径,能够仅需要在候选子图中确定搜索路径而无需在整个目标知识图谱中确定搜索路径,有利于提高确定搜索路径的精准性和可靠性,以及有利于提高确定搜索路径的智能性和效率,进而有利于提高在所有搜索路径中确定出目标搜索路径的精准性和可靠性,有利于提高得到数据搜索结果的精准性和可靠性,以及有利于提高得到数据搜索结果的智能性和效率。
在又一个可选的实施例中,如图4所示,该装置还包括:
存储模块307,用于将获取得到的所有外部数据以及所有内部数据执行存储操作,以使每个外部数据以及每个内部数据存储在预设的分布式数据库中;
采集模块308,用于采集每个目标对象的数据信息;
处理模块309,用于根据预先确定的数据处理操作程序以及分布式数据库中所存储的所有数据,对采集得到的每个数据信息执行数据处理操作,得到目标处理数据;
存储模块307,还用于将所有目标处理数据存储至预设的分布式数据库中。
可见,实施图4所描述的装置能够将获取得到的所有外部数据以及内部数据存储在预设的分布式数据库中,并采集每个目标对象的数据信息,根据预先确定的数据处理操作程度以及分布式数据库中所存储的所有数据对采集得到的每个数据信息执行数据处理操作得到目标处理数据,并将目标处理数据存储至预设的分布式数据库中,能够基于获取得到的所有数据执行存储操作,有利于提高对数据存储的智能性和效率,并且通过执行对应的数据处理操作,能够节省预设的分布式数据库存储数据的空间,能够进一步的提高数据存储的智能性和便捷性。
在又一个可选的实施例中,如图4所示,生成模块303,还用于基于所有目标处理数据,生成数据搜索结果;
处理模块309,还用于对数据搜索结果与目标知识图谱执行数据对比操作,得到数据对比结果,基于数据对比结果,确定待更新数据;
装置还包括:
更新模块310,用于根据所有待更新数据,对目标知识图谱执行更新操作;
其中,更新操作包括连接关系更新操作、目标外部数据更新操作、目标内部数据更新操作中的一种或多种。
可见,实施图4所描述的装置能够基于所有目标处理数据生成数据搜索结果,对数据搜索结果与目标知识图谱执行数据对比操作得到数据对比结果进而确定待更新数据,根据所有待更新数据对目标知识图谱执行更新操作,能够在外部法规有更新或修订时,自动对公司当前的内外规知识图谱进行全面检索,若外规的变动对公司内规有影响,则内外规知识图谱进行自动化更新,能够实现对知识图谱的智能化更新,能够实现目标知识图谱更新的实时性和及时性,并且还有利于实现过自然语言处理以及构建知识图谱的方法实现外规的自动搜集以及内外规数据之间的联动分析,有利于提高进行数据联动分析的效率及准确性,以及有利于提高进行数据联动分析得到数据分析结果的实时性和及时性,进而有利于提高企业基于数据联动分析结果执行对应的管控操作的准确性,以及有利于提高企业基于数据联动分析结果执行对应的管控操作的实时性和及时性。
实施例四
请参阅图5,图5是本发明实施例公开的又一种基于知识图谱的内外规数据联动分析装置的结构示意图。如图5所示,该基于知识图谱的内外规数据联动分析装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或本发明实施例二所描述的基于知识图谱的内外规数据联动分析方法中的步骤。
实施例五
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或本发明实施例二所描述的基于知识图谱的内外规数据联动分析方法中的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的基于知识图谱的内外规数据联动分析方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于知识图谱的内外规数据联动分析方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (8)
1.一种基于知识图谱的内外规数据联动分析方法,其特征在于,所述方法包括:
获取外部数据以及内部数据,将所述外部数据以及所述内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果,其中,所述模型输出结果包括所述外部数据对应的外部数据输出结果以及所述内部数据对应的内部数据输出结果;
基于所述模型输出结果,生成目标外部数据以及目标内部数据,根据所有所述目标外部数据以及所有所述目标内部数据,生成目标数据集合;
基于所述目标数据集合,构建目标知识图谱,所述目标知识图谱包括所述目标外部数据与所述目标内部数据之间的实体关系;
获取待分析数据,并基于所述待分析数据,确定所述待分析数据对应的数据索引,根据所述数据索引对所述目标知识图谱执行搜索操作,得到数据搜索结果,并基于所述数据搜索结果确定所述待分析数据的数据分析结果;
所述关联抽取GraphRel模型包括序列编码Bi-LSTM模型以及双向图网络Bi-GCN模型;
其中,所述将所述外部数据以及所述内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果,包括:
通过所述序列编码Bi-LSTM模型对所述外部数据执行特征提取操作,得到外部特征数据,以及通过所述序列编码Bi-LSTM模型对所述内部数据执行特征提取操作,得到内部特征数据,并将所有所述外部特征数据以及所有所述内部特征数据确定为特征数据集合;
对于所述特征数据集合中的每个特征数据,对该特征数据执行类别预测操作,得到该特征数据的实体类别预测结果;
根据所有所述特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息,所述数据关系信息包括所述内部特征数据与所述外部特征数据之间的数据关系信息;
基于所述数据关系信息,通过所述双向图网络Bi-GCN模型,构建数据依赖信息图表,并根据所述数据依赖信息图表确定综合数据特征,并基于所述综合数据特征,确定模型输出结果;
所述根据所有所述特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息,包括:
将所有所述特征数据的实体类别预测结果输入至预先确定出的应用分类损失模型执行训练操作,得到训练至收敛的应用分类损失模型;
将预先确定出的三元组关系对输入至训练至收敛的应用分类损失模型,得到损失分析结果,基于所述损失分析结果,确定关系概率参数,其中,所述关系概率参数包括所述外部特征数据与所述内部特征数据之间的关系概率;
基于所述关系概率参数以及所有所述特征数据的实体类别预测结果,生成数据关系信息。
2.根据权利要求1所述的基于知识图谱的内外规数据联动分析方法,其特征在于,所述基于所述目标数据集合,构建目标知识图谱,包括:
根据所述数据关系信息以及所述目标数据集合,确定目标点以及目标边,其中,所述目标点包括每个所述目标外部数据以及每个所述目标内部数据,所述目标边包括每个所述数据关系信息;
对所有所述目标点以及所述目标边执行数据连接操作,得到数据连接结果;
基于所述数据连接结果,构建目标知识图谱;
其中,所述数据连接结果包括所述目标外部数据与所述目标内部数据之间的数据依赖关系。
3.根据权利要求1所述的基于知识图谱的内外规数据联动分析方法,其特征在于,所述基于所述待分析数据,确定所述待分析数据对应的数据索引,包括:
提取所述待分析数据中的数据关键字,基于所述数据关键字以及所述目标知识图谱,确定所述待分析数据对应的数据索引;
以及,所述根据所述数据索引对所述目标知识图谱执行搜索操作,得到数据搜索结果,包括:
根据所述数据索引,在所述目标知识图谱中确定出与所述数据索引相匹配的至少一个候选子图;
对于每个所述候选子图,确定该候选子图中的所有搜索路径;
根据所有所述搜索路径,生成搜索路径集合,所述搜索路径集合中包括所有所述候选子图中的所有所述搜索路径;
在所述搜索路径集合中确定出目标搜索路径,根据所述目标搜索路径以及所述目标搜索路径对应的目标候选子图,在所述目标知识图谱中执行搜索操作,得到数据搜索结果。
4.根据权利要求1或2所述的基于知识图谱的内外规数据联动分析方法,其特征在于,所述方法还包括:
将获取得到的所有所述外部数据以及所有所述内部数据执行存储操作,以使每个所述外部数据以及每个所述内部数据存储在预设的分布式数据库中;
采集每个目标对象的数据信息,并根据预先确定的数据处理操作程序以及所述分布式数据库中所存储的所有数据,对采集得到的每个所述数据信息执行数据处理操作,得到目标处理数据,并将所有所述目标处理数据存储至预设的所述分布式数据库中。
5.根据权利要求4所述的基于知识图谱的内外规数据联动分析方法,其特征在于,所述方法还包括:
基于所有所述目标处理数据,生成数据搜索结果;
对所述数据搜索结果与所述目标知识图谱执行数据对比操作,得到数据对比结果,基于所述数据对比结果,确定待更新数据;
根据所有所述待更新数据,对所述目标知识图谱执行更新操作;
其中,所述更新操作包括连接关系更新操作、目标外部数据更新操作、目标内部数据更新操作中的一种或多种。
6.一种基于知识图谱的内外规数据联动分析装置,其特征在于,所述装置包括:
获取模块,用于获取外部数据以及内部数据;
输入模块,用于将所述外部数据以及所述内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果,其中,所述模型输出结果包括所述外部数据对应的外部数据输出结果以及所述内部数据对应的内部数据输出结果;
生成模块,用于基于所述模型输出结果,生成目标外部数据以及目标内部数据,根据所有所述目标外部数据以及所有所述目标内部数据,生成目标数据集合;
构建模块,用于基于所述目标数据集合,构建目标知识图谱,所述目标知识图谱包括所述目标外部数据与所述目标内部数据之间的实体关系;
所述获取模块,还用于获取待分析数据;
确定模块,用于基于所述待分析数据,确定所述待分析数据对应的数据索引;
搜索模块,用于根据所述数据索引对所述目标知识图谱执行搜索操作,得到数据搜索结果,并基于所述数据搜索结果确定所述待分析数据的数据分析结果;
所述关联抽取GraphRel模型包括序列编码Bi-LSTM模型以及双向图网络Bi-GCN模型;
所述输入模块将所述外部数据以及所述内部数据输入至预先确定出的关联抽取GraphRel模型,得到模型输出结果的具体方式包括:
通过所述序列编码Bi-LSTM模型对所述外部数据执行特征提取操作,得到外部特征数据,以及通过所述序列编码Bi-LSTM模型对所述内部数据执行特征提取操作,得到内部特征数据,并将所有所述外部特征数据以及所有所述内部特征数据确定为特征数据集合;
对于所述特征数据集合中的每个特征数据,对该特征数据执行类别预测操作,得到该特征数据的实体类别预测结果;
根据所有所述特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息,所述数据关系信息包括所述内部特征数据与所述外部特征数据之间的数据关系信息;
基于所述数据关系信息,通过所述双向图网络Bi-GCN模型,构建数据依赖信息图表,并根据所述数据依赖信息图表确定综合数据特征,并基于所述综合数据特征,确定模型输出结果;
所述生成模块根据所有所述特征数据的实体类别预测结果以及预先确定出的三元组关系对,生成数据关系信息的具体方式包括:
将所有所述特征数据的实体类别预测结果输入至预先确定出的应用分类损失模型执行训练操作,得到训练至收敛的应用分类损失模型;
将预先确定出的三元组关系对输入至训练至收敛的应用分类损失模型,得到损失分析结果,基于所述损失分析结果,确定关系概率参数,其中,所述关系概率参数包括所述外部特征数据与所述内部特征数据之间的关系概率;
基于所述关系概率参数以及所有所述特征数据的实体类别预测结果,生成数据关系信息。
7.一种基于知识图谱的内外规数据联动分析装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-5任一项所述的基于知识图谱的内外规数据联动分析方法。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-5任一项所述的基于知识图谱的内外规数据联动分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410142709.9A CN117668259B (zh) | 2024-02-01 | 2024-02-01 | 基于知识图谱的内外规数据联动分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410142709.9A CN117668259B (zh) | 2024-02-01 | 2024-02-01 | 基于知识图谱的内外规数据联动分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117668259A CN117668259A (zh) | 2024-03-08 |
CN117668259B true CN117668259B (zh) | 2024-04-26 |
Family
ID=90084794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410142709.9A Active CN117668259B (zh) | 2024-02-01 | 2024-02-01 | 基于知识图谱的内外规数据联动分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117668259B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9535902B1 (en) * | 2013-06-28 | 2017-01-03 | Digital Reasoning Systems, Inc. | Systems and methods for entity resolution using attributes from structured and unstructured data |
CN111639498A (zh) * | 2020-04-21 | 2020-09-08 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
CN112905746A (zh) * | 2021-03-08 | 2021-06-04 | 国能大渡河流域水电开发有限公司 | 一种基于知识图谱技术的制度档案知识挖掘处理方法 |
CN113011191A (zh) * | 2021-04-28 | 2021-06-22 | 广东工业大学 | 一种知识联合抽取模型训练方法 |
CN113254667A (zh) * | 2021-06-07 | 2021-08-13 | 成都工物科云科技有限公司 | 基于深度学习模型的科技人物知识图谱构建方法、装置及终端 |
CN115587192A (zh) * | 2022-10-18 | 2023-01-10 | 阿里巴巴(中国)有限公司 | 关系信息抽取方法、设备及计算机可读存储介质 |
CN116108194A (zh) * | 2022-11-23 | 2023-05-12 | 中国人民解放军国防科技大学 | 基于知识图谱的搜索引擎方法、系统、存储介质和电子设备 |
CN116467291A (zh) * | 2023-03-10 | 2023-07-21 | 北京无代码科技有限公司 | 一种知识图谱存储与搜索方法及系统 |
WO2023168601A1 (zh) * | 2022-03-08 | 2023-09-14 | 京东方科技集团股份有限公司 | 自然语言处理模型的训练方法、装置、存储介质 |
CN117391313A (zh) * | 2023-12-12 | 2024-01-12 | 广东正迪科技股份有限公司 | 基于ai的智能决策方法、系统、设备以及介质 |
CN117474091A (zh) * | 2023-12-07 | 2024-01-30 | 中国农业银行股份有限公司 | 一种知识图谱构建方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11841867B2 (en) * | 2019-08-09 | 2023-12-12 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
US20230342629A1 (en) * | 2022-04-26 | 2023-10-26 | Microsoft Technology Licensing, Llc | Exploring entities of interest over multiple data sources using knowledge graphs |
CN114780083B (zh) * | 2022-06-17 | 2022-10-18 | 之江实验室 | 一种知识图谱系统的可视化构建方法及装置 |
-
2024
- 2024-02-01 CN CN202410142709.9A patent/CN117668259B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9535902B1 (en) * | 2013-06-28 | 2017-01-03 | Digital Reasoning Systems, Inc. | Systems and methods for entity resolution using attributes from structured and unstructured data |
CN111639498A (zh) * | 2020-04-21 | 2020-09-08 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
CN112905746A (zh) * | 2021-03-08 | 2021-06-04 | 国能大渡河流域水电开发有限公司 | 一种基于知识图谱技术的制度档案知识挖掘处理方法 |
CN113011191A (zh) * | 2021-04-28 | 2021-06-22 | 广东工业大学 | 一种知识联合抽取模型训练方法 |
CN113254667A (zh) * | 2021-06-07 | 2021-08-13 | 成都工物科云科技有限公司 | 基于深度学习模型的科技人物知识图谱构建方法、装置及终端 |
WO2023168601A1 (zh) * | 2022-03-08 | 2023-09-14 | 京东方科技集团股份有限公司 | 自然语言处理模型的训练方法、装置、存储介质 |
CN115587192A (zh) * | 2022-10-18 | 2023-01-10 | 阿里巴巴(中国)有限公司 | 关系信息抽取方法、设备及计算机可读存储介质 |
CN116108194A (zh) * | 2022-11-23 | 2023-05-12 | 中国人民解放军国防科技大学 | 基于知识图谱的搜索引擎方法、系统、存储介质和电子设备 |
CN116467291A (zh) * | 2023-03-10 | 2023-07-21 | 北京无代码科技有限公司 | 一种知识图谱存储与搜索方法及系统 |
CN117474091A (zh) * | 2023-12-07 | 2024-01-30 | 中国农业银行股份有限公司 | 一种知识图谱构建方法、装置、设备及存储介质 |
CN117391313A (zh) * | 2023-12-12 | 2024-01-12 | 广东正迪科技股份有限公司 | 基于ai的智能决策方法、系统、设备以及介质 |
Non-Patent Citations (2)
Title |
---|
智慧搜索中的实体与关联关系建模与挖掘;王晓阳;郑骁庆;肖仰华;;通信学报;20151225(第12期);全文 * |
面向金融知识图谱的实体和关系联合抽取算法;胡扬;闫宏飞;陈翀;;重庆理工大学学报(自然科学);20200515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117668259A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
US20170200125A1 (en) | Information visualization method and intelligent visual analysis system based on text curriculum vitae information | |
CN109767312B (zh) | 一种信用评估模型训练、评估方法与装置 | |
CN113779272B (zh) | 基于知识图谱的数据处理方法、装置、设备及存储介质 | |
CN115599899B (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
US20240086731A1 (en) | Knowledge-graph extrapolating method and system based on multi-layer perception | |
Yahia et al. | A new approach for evaluation of data mining techniques | |
CN112148890A (zh) | 基于网络群体智能的教学知识点图谱系统 | |
CN117235281A (zh) | 基于知识图谱技术的多元数据管理方法及系统 | |
CN113268370B (zh) | 一种根因告警分析方法、系统、设备及存储介质 | |
CN111581956A (zh) | 基于bert模型和k近邻的敏感信息识别方法及系统 | |
CN114186076A (zh) | 知识图谱构建方法、装置、设备和计算机可读存储介质 | |
CN114331122A (zh) | 重点人员风险等级评估方法及相关设备 | |
CN113220901A (zh) | 基于增强智能的写作构思辅助系统、网路系统 | |
CN112632223A (zh) | 案事件知识图谱构建方法及相关设备 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
CN116702784B (zh) | 实体链接方法、装置、计算机设备和存储介质 | |
Dutta et al. | Big data architecture for environmental analytics | |
CN117217602A (zh) | 一种通用化及自动化的无人机任务效能评估指标构建方法 | |
CN116932775A (zh) | 基于规则的构建知识图谱的方法及系统 | |
CN117668259B (zh) | 基于知识图谱的内外规数据联动分析方法及装置 | |
CN113157892B (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
Thangarasu et al. | Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification | |
Nguyen et al. | An approach to constructing a graph data repository for course recommendation based on IT career goals in the context of big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |