CN112084347B - 一种基于知识表示学习的数据检索方法及系统 - Google Patents
一种基于知识表示学习的数据检索方法及系统 Download PDFInfo
- Publication number
- CN112084347B CN112084347B CN202010965798.9A CN202010965798A CN112084347B CN 112084347 B CN112084347 B CN 112084347B CN 202010965798 A CN202010965798 A CN 202010965798A CN 112084347 B CN112084347 B CN 112084347B
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- relation
- triplet
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 239000013598 vector Substances 0.000 claims abstract description 245
- 230000007474 system interaction Effects 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000010365 information processing Effects 0.000 claims abstract description 13
- 238000013135 deep learning Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 241000282376 Panthera tigris Species 0.000 description 26
- 241000282324 Felis Species 0.000 description 14
- 241001278385 Panthera tigris altaica Species 0.000 description 14
- 241001465754 Metazoa Species 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 241000124008 Mammalia Species 0.000 description 4
- 241001350462 Panthera tigris amoyensis Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000282323 Felidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于知识表示学习的数据检索方法及系统,其方法包括:整理检索信息库;将结构化文件文档中的内容整理成为知识图谱的知识库的形式;生成所有的实体和关系最终向量表示,并更新知识库文件中实体向量文档、关系向量文档和参数列表文档;处理待检索内容,在知识库文件中检索,得到整理后的知识库中的信息及预测信息;其系统包括:统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块;所述知识图谱的表示学习模块包括:实体关系嵌入单元、三元组嵌入单元、知识图谱预测单元;实现对于原有信息库的扩展,解决现有技术在已有信息检索过程中无法针对数据库中已有的数据进行推理和预测的问题。
Description
技术领域
本发明属于信息检索技术领域,具体涉及一种基于知识表示学习的数据检索方法及系统。
背景技术
信息检索(Information Retrieval,IR)是一种用户从大规模数据中获得所需的相关信息的过程。随着数字化时代的发展,通过将文本处理成的数据库中会包含很多的信息,对于有用信息的提取,已及如何能够更好地利用现有的信息进行推理和预测已经成为重要的问题。传统的一些信息检索方法中的布尔逻辑检索,位置限制检索,词语检索,截词检索等方法是无法通过数据库中已知的信息为用户提供更多的经过推理和预测后的信息。
知识图谱(Knowledge Graph)是通过一种结构化的形式来陈述客观世界中概念、实体(entity)及其之间的关系(relation),将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解信息的方法。而知识表示学习是知识图谱技术中的一个关键的技术。知识表示学习将现实世界中的各类知识表达成计算机可存储和计算的结构。知识表示学习将实体和关系表示为稠密的低维向量实现了对实体和关系的分布式表示已经成为知识图谱针对已有的互联网络中的信息进行预测的重要方法。随着知识表示学习技术的发展,Bordes等人提出了第一个知识表示学习的翻译模型TransE,该方法在大规模知识图谱上效果明显。但是由于TransE模型过于简单,导致其在处理复杂关系时捉襟见肘,虽然之后也出现了TransR,TransD,TransParse,CompleX等翻译模型和张量分解模型等在一定程度上提高复杂关系的知识库的方法,但目前这些已有的知识表示学习方法都无法判断知识库中不存在的实体和判断关系所在的三元组的正确性。
由于信息检索时所要检索的信息包含很多种类,会出现相同意思的不同检索词在现有的检索方法中不能将检索后的内容进行合并或者无法检索相关相似信息等问题。而目前已有的信息检索的方法无法通过对已有的检索库中的信息进行推理和预测,这就会出现检索者通过一些现有的检索方法进行检索,所得到的检索内容较少的问题。
发明内容
针对现有技术的不足,本发明公开了一种基于知识表示学习的数据检索方法及系统,通过对原有的所要检索的信息进行整理和学习,为检索者提供原有信息的检索内容以及推理出的信息的内容。通过本发明所述方法,可以更好地通过对数据库中已知的信息进行整理和挖掘从而为检索者提供更多的经过推理和预测后的信息。
为达到上述目的,本发明所采用的技术方案如下:
本发明所述一种基于知识表示学习的数据检索方法,包括以下步骤:
步骤1:整理检索信息库,将检索信息库中内容整理成结构化文件并保存到结构化文件文档中;
所述结构化文件的整理过程如下:
判断检索信息库中内容的形式,若为数据库形式,则保留该数据库形式的内容;当检索信息库中内容为文本形式时,则将文本形式的内容编辑成“实体,关系,实体”形式的内容。
所述将文本形式的内容编辑成“实体,关系,实体”形式的内容的方法为:
采用命名实体识别模型对所需的指定名词结构进行标注,得到对应的实体;再通过关系抽取模型对名词间的关系进行抽取。
步骤2:将结构化文件文档中的内容整理并保存到知识库文件中的三元组列表中,其过程如下:
若结构化文件文档中的内容是由文本形式整理出的文档,则直接将“实体,关系,实体”形式的内容保存在知识库文件中的三元组列表中;
若结构化文件文档中的内容为数据库形式,则将数据库中包含的数据库表中的每一条数据的内容对照标记成“实体,关系,实体”形式的内容,并保存到知识库文件中的三元组列表中。
所述数据库表中的数据内容包括:实体、属性和属性值。
步骤3:使用深度学习工具引入和实体及关系拆分出的单词个数等量的随机参数向量,通过哈德玛积将随机参数向量和实体及关系对应的词向量进行组合得到全部的初步实体向量、初步关系向量,将得到的全部的初步实体向量、初步关系向量与随机参数向量组成的参数列表一起,分别以实体向量文档,关系向量文档和参数列表文档保存到知识库文件中,过程如下:
步骤3.1:将知识库文件的三元组列表中的第一个实体定义为h,第二个实体定义为t,将两个实体间的关系定义为r,定义E为知识库文件中全部实体的集合,R为知识库文件中全部关系的集合,并将E和R以列表的形式保存到知识库文件中;
步骤3.2:将实体列表E中的第i个实体记为ei,ei∈E;关系列表R中的第i个关系记为ri,ri∈R;
步骤3.3:将E和R中的实体和关系分别标记数字并按包含的单词量进行拆分,即实体ei∈E拆分成[ei1,ei2,...ein],关系ri∈R拆分成[ri1,ri2,...,rin];其中ein表示实体包含的单词,rin表示关系包含的单词,n表示被拆分的实体或关系所拆分出的单词的数量;
步骤3.4:通过深度学习的神经网络工具随机生成和实体包含的单词ein对应数量的待训练的参数向量wein,关系包含的单词rin对应数量的待训练的参数向量wrin,并将全部参数向量制作成为参数列表W;
步骤3.5:将ein和rin对应的词向量和/>以及参数列表W通过哈德玛积的方式进行组合,得到全部的初步实体向量/>和初步关系向量/>具体公式如下:
其中,n表示的是实体包含的单词个数,bei和bri分别表示的是每个实体和关系对应的偏差,是和的维度和/>维度相同的向量,/>表示的是哈德玛积;
步骤3.6:将得到的全部的初步实体向量、初步关系向量和参数列表分别以实体向量文档,关系向量文档和参数列表文档保存到知识库文件中。
步骤4:通过深度学习的方法对所有的初步实体向量和初步关系向量/>进行处理,生成一一对应的最终的实体向量表示/>和关系向量表示/>并更新知识库文件中实体向量文档、关系向量文档和参数列表文档;
所述对所有的初步实体向量和初步关系向量/>进行处理,处理过程分为两类:
第一类,将知识库文件的三元组列表中的三元组中的实体和关系对应的初步实体向量和初步关系向量/>作为训练集,即对初步实体向量/>中的参数向量Wei和初步关系向量/>中的参数向量Wri进行训练,采用神经网络的随机梯度下降的方法使得损失函数L的数值在训练过程中得到最小值;在神经网络的训练后生成新的实体向量/>和新的关系向量/>
其中,损失函数L如下所示:
其中,γ为超参数,Δ是正样本集合,表示知识库文件中的三元组列表中的三元组(h,r,t)对应的向量形式三元组的集合,其中/>和/>是三元组中h和t在实体向量文档中对应的向量,/>是三元组中r在关系向量文档中对应的向量;Δ′是负样本集合,表示将知识库中的三元组列表中的三元组(h,r,t)随机用h’,h’∈E和t’,t’∈E替换h和t,将替换得到的不正确的三元组(h’,r,t’)对应的向量形式/>的集合,/>l1/2表示计算式子的第一范数和第二范数;fr(ξ)表示的是三元组的得分函数,其中的/>和/>表示三元组对应的向量表示;
通过第一类方法,正确的三元组对应的|fr(ξ)|值要比错误的三元组对应的|fr(ξ')|值小,这时取正确的三元组和不正确的三元组的分界值δr,使得|fr(ξ)|<δr<|fr(ξ')|;
第二类,是利用了深度学习方法中的LSTM对知识库文件的三元组列表中的三元组进行编码,对于知识库文件中的每一个三元组对应的向量形式和知识库文件中的每一个三元组对应的向量构建的负样本/>通过LSTM进行嵌入;每个三元组通过LSTM得到每个三元组对应/>和/>使得正确的三元组经过LSTM后输出的低维向量的第一范数和第二范数的数值比错误的三元组的值小,此时取正确的三元组和不正确的三元组的分界值δr,使得|LSTM(ξ)|<δr<|LSTM(ξ')|;
根据实际需要选择上述两类处理过程中的一类或两类进行处理,若使用第二类方法还需保存LSTM的参数到知识库文件中。
步骤5:定义待检索内容为A,在步骤4更新后的知识库文件中检索,得到整理后的知识库中的信息及预测信息,过程如下:
将A在知识库文件的实体向量文档中的实体列表E里检索,步骤5.1和步骤5.2不分先后顺序;
5.1:若A是实体列表E中已经存在的内容,则在知识库文件中查询与A对应的实体,得到该实体在知识库文件的三元组列表中已经存在的三元组的信息和知识图谱的知识库的预测信息;5.1.1和5.1.2不分先后顺序
所述知识图谱的知识库的预测信息包括:
5.1.1:对已有检索信息库内部信息的链式预测:对于一个头部实体在hlink和一个关系rlink寻找未知的尾部实体tu,或对于一个尾部实体tlink和一个关系rlink寻找未知的头部的实体,通过对未知内容使用实体列表中的实体进行替换得到(hlink,rlink,tu)或(tu,rlink,tlink),再查找实体向量文档和关系向量文档得到三元组(hlink,rlink,tu)或(tu,rlink,tlink)对应的向量形式的三元组或/>再通过计算|fr(ξlink)|或|LSTM(ξlink)|的数值,将计算后数值按从小到大进行排序,取其中的最小值对应的实体作为未知实体的预测和推理的备选答案返回给检索者;
5.1.2:实体关系信息的新组合进行的正确性预测:这种预测是针对一个知识图谱的知识库中已经存在的实体和关系构成的未知正确性的三元组f进行是否正确的判断,即对于一个信息检索库中的新信息f(hf,rf,tf),这里的实体hf,tf和关系rf都在知识库文件中E和R中出现的实体和关系,但知识库文件三元组列表中没有出现这个三元组,用知识库文件中的实体向量文档和关系向量文档中已经保存的hf,rf,tf对应的向量形式构成进行推断,当得到/>或/>时,则认为该三元组为真,得到的预测信息为:判断为真的信息,并得到三元组的表格形式的检索内容;
步骤5.2:若待检索内容A不是实体列表E中已经存在的实体,则需要通过知识库文件中的内容对A的相关内容进行推理,得到预测信息,所述预测信息的预测方法如下:
将待检索内容A作为一个新实体ex,并将实体ex拆分成单词[ex1,ex2,...exn],将其包含的单词和知识库中实体列表的实体ei构成的单词[ei1,ei2,...ein]进行比较,若查询ex和ein拆分出的对应位置,即ein=exn的单词最多的实体ein唯一,则将该ein定义为eA,若ein拆分出的对应位置,即ein=exn的单词最多的实体有多个,则将这些实体构成的词的词向量和exn构成的词的词向量做差,取差值最小的实体定义为eA;将eA在参数列表W中对应的参数向量与ex包含的单词进行组合,得到ex的实体向量,再将实体向量通过步骤5.1.1对已有检索信息库内部信息的链式预测和步骤5.1.2实体关系信息的新组合进行的正确性预测,得到的预测信息为三元组的表格形式的检索内容。
另一方面,本发明还提供一种基于知识表示学习的数据检索方法的系统,包括:系统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块;
所述基于知识表示学习的数据检索方法的系统与检索者进行交互,为检索者提供检索服务;
系统交互界面用于在界面上输入待检索内容,此时将待检索内容输入到检索信息模块中,通过检索信息模块以三元组列表的形式返回三元组的形式在交互界面上显示;
所述信息处理模块用于将当检索信息库中的文档形式内容和数据库形式内容整理成结构化文件并保存到结构化文件文档中;将结构化文件文档中的内容整理形成三元组的数据形式(实体,关系,实体),并将这种三元组的数据形式的内容全部保存到知识库文件的三元组列表文档中,与此同时将三元组中的实体集合和关系集合制作成为实体列表,和关系列表存入知识库文件,并以文档形式传输给知识图谱表示学习模块;
所述知识图谱的表示学习模块,用于将信息处理模块传输过来的知识库文件中的三元组列表中的信息通过知识表示学习的方法,实现已有知识库中的实体和关系的向量表示,并将实体和关系的向量表示以文档形式存入知识库文件之中,通过向量这种结构化数据的特点,使得知识图谱的知识库中的信息具有推理和预测功能;
所述检索信息模块,处理通过系统交互界面输入的待检索内容,并将检索信息和预测信息以三元组形式返回给系统交互界面,该模块将输入的待检索的内容与信息处理模块产生的实体列表进行比对,判断待检索信息是否在检索信息库中;若检索信息存在于检索信息库中,则访问知识图谱的表示学习模块中的知识图谱预测单元,将原来的检索信息以及推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面;若检索信息不存在知识库中,则访问知识图谱的表示学习模块中的实体关系嵌入单元,得到检索信息对应的新的实体对应的向量,并将该数据传入到三元组嵌入单元和知识图谱预测单元,并将推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面;
所述知识图谱的表示学习模块包括:实体关系嵌入单元、三元组嵌入单元、知识图谱预测单元:
所述的实体关系嵌入单元,用于处理信息处理模块传入的知识库文件的三元组列表中三元组形式的数据信息,得到初步的实体和关系的向量,知识库文件的三元组列表中的三元组作为数据集,再通过已有的深度学习神经网络的工具生成参数,将参数和已有的实体和关系拆分成的单词重新组合构造全部知识库文件中的实体和关系的向量表示将全部的初步的实体向量,关系的向量和相关参数分别以列表形式保存成为知识库文件的实体向量文档,关系向量文档和参数列表文档中并传输给三元组嵌入单元;
所述的三元组嵌入单元,用于将实体关系嵌入单元传输的列表形式的实体和关系的向量和相关参数通过神经网络进行训练得到最终的实体和关系的向量表示,并更新知识库文件中的实体向量文档,关系向量文档和参数列表文档;
所述的知识图谱预测单元,根据三元组嵌入单元中实体向量文档,关系向量文档和参数列表文档的信息进行推理和预测,从而使得系统对待检索内容进行推理,并把推理信息传输给检索信息模块,再由检索信息模块将预测内容传输给系统交互界面,从而将检索信息发给检索者。
采用上述技术方案所产生的有益效果在于:本发明提供一种基于知识表示学习的数据检索方法及系统,将机器无法理解的文件格式转为机器可以理解的结构化数据,通过知识图谱表示学习技术对结构化数据进行处理和挖掘,可以将信息库中的一些信息进行整合,并在已有的信息库检索内容的基础上进行推理和预测,从而实现对于原有的信息库的扩展,解决了现有技术在已有信息检索过程中无法针对数据库中已有的数据进行推理和预测的问题,为检索者提供更多的经过推理和预测后的信息。这种推理和预测的信息在一定程度上可以给检索者提供更多的相关信息。
附图说明
图1为本发明具体实施方式中一种基于知识表示学习的数据检索方法流程图;
图2为本发明具体实施方式中一种基于知识表示学习的数据检索系统示意图;
图3为本发明具体实施方式中检索者使用检索系统流程图。
具体实施方式
信息检索时所要检索的信息包含很多种类,会出现相同意思的不同检索词在现有的检索方法中不能将检索后的内容进行合并或者无法检索相关相似信息等问题。而目前已有的信息检索的方法无法通过对已有的检索库中的信息进行推理和预测,这就会出现检索者通过一些现有的检索方法进行检索,所得到的检索内容较少的问题。
有鉴如此,本发明使用一种基于知识表示学习的数据检索方法及系统,针对不同的信息进行整合,将整和后的信息构建成知识库。再根据知识图谱的知识表示技术,对原有的知识库中的内容进行挖掘生成一个计算机更擅长处理的知识图谱的结构化数据,通过对已有的一些结构化数据的计算,从而达到对一些检索内容的推理和预测,最终返回给检索者所需要的信息库中的信息和推理的信息。
下面结合附图对本发明具体实施方式加以详细的说明,所述是对本发明的解释而不是限定。
一种基于知识表示学习的数据检索方法,具体流程图如图1所示;
实施例1:
本实施例以如表1所示的动物信息表为例,以下采用基于知识表示学习的数据检索方法对表1所示的检索信息库中的动物信息表的数据库进行检索,包括以下步骤:
表1动物信息表
动物名称 | 科类 | 纲类 | 地区 | ... |
华南虎 | 猫科 | 哺乳纲 | 中国华南地区 | ... |
西伯利亚虎 | 猫科 | 哺乳纲 | 西伯利亚地区 | ... |
爪哇虎 | ? | 哺乳纲 | 中国东北地区 | ... |
金雕 | 鹰科 | 鸟纲 | 北半球温带、亚寒带和寒带地区 | ... |
东北虎 | ? | ? | ? | ... |
... | ... | ... | ... |
步骤1:整理检索信息库,将检索信息库中内容整理成结构化文件并保存到结构化文件文档中;这一步骤针对的主要是多源异构的数据进行整理并以一种结构化的形式对原有信息进行存储成为结构化文档的过程。由于此实施例为检索信息库中的数据库的信息,这一步骤保持原来的数据库结构。
步骤2:将结构化文件文档中的内容整理成为知识图谱的知识库的形式,保存到知识库文件中的三元组列表中。首先,对动物信息表中的每个数据将其转为三元组(实体,关系,实体)的形式,以华南虎为例,它的属性“科类”对应的属性值是“猫科”,他的属性纲类对应的属性值是哺乳纲。按照这种方式,将动物信息表中的每个动物的对应属性和属性值的内容转化成为(实体,关系,实体)这种结构的三元组:(华南虎,科类,猫科),(华南虎,纲类,哺乳纲)...然后将这些三元组放入到知识库文件的三元组列表之中,再将知识库文件的三元组(实体,关系,实体)中的实体和关系分别放入到知识库文件中的实体列表和关系列表之中。这里的实体列表中的实体就包括动物信息表之中的华南虎,西伯利亚虎,猫科,哺乳纲等内容,这里的关系列表中的关系就包括科类,纲类,地区等内容。这里构成的实体列表和关系列表中的内容是不重复的,如(华南虎,科类,猫科)和(西伯利亚虎,科类,猫科)这两个三元组中包含的实体是:华南虎,西伯利亚虎和猫科,这里的猫科并不在实体列表中出现多次与此同时科类也不在关系列表中出现多次。为了避免相同实体放入到实体列表和相同的关系放入到关系列表,在实体放入实体列表之前先检索实体列表判断实体列表中是否已经存在该实体,若不存在则将该实体放入到实体列表之中,对于关系放入到关系列表之前也用同样方法进行判断并将实体放入到实体列表之中。
步骤3:使用深度学习工具引入和实体及关系拆分出的单词个数等量的随机参数向量,通过哈德玛积将随机参数向量和实体及关系对应的词向量进行组合得到全部的初步实体向量、初步关系向量,将得到的全部的初步实体向量、初步关系向量与随机参数向量组成的参数列表一起,分别以实体向量文档,关系向量文档和参数列表文档保存到知识库文件中;
定义实体列表E中的第i个实体记为ei,,关系列表R中的第i个关系记为ri,将整理完成的知识库文件中的全部实体和关系,分别标记数字并拆分成实体包含的单词和关系包含的单词,即原来的实体ei∈E拆分成[ei1,ei2,...ein],将关系ri∈R拆分成[ri1,ri2,...,rin];其中ein表示实体包含的单词,rin表示关系包含的单词,n表示被拆分的实体或关系所拆分出的单词的数量(n≥1)。如已经存在的实体列表中的实体西伯利亚虎拆分出词[西伯利亚,虎];已经存在关系列表中的关系科类这个关系拆分出单词[科类],这里的实体和关系拆分出的单词最少的个数是1。
通过深度学习的工具如tensorflow框架或pytorch框架等,numpy随机向量的等方式,生成随机生成和实体包含的单词、关系包含的单词对应数量的待训练的参数向量,将和ein对应的参数向量wein,wein∈W和rin对应的参数向量wrin,wrin∈W分别和ein和rin对应的词向量和/>通过哈德玛积的方式进行组合得到全部的初步实体向量/>和初步关系向量/>具体公式如下:
其中,n表示的是实体包含的单词个数,bei和bri分别表示的是每个实体和关系对应的偏差,是和的维度和/>维度相同的向量,/>表示的是哈德玛积;
以实体“西伯利亚虎”和关系“科类”为例。实体西伯利亚虎拆分出的单词为[西伯利亚,虎],因此对应生成两个参数向量w西伯利亚和w虎,如关系科类拆分出单词[科类],则对应的每个单词对应生参数向量w科类。通过这种方式针对每个实体和关系对应的全部参数向量制作成为参数列表W。再将西伯利亚虎拆分出单词[西伯利亚,虎]对应的词向量和/>与其对应的参数向量w西伯利亚和w虎通过哈德玛积进行的组合,得到西伯利亚虎的初步实体向量/>将关系科类拆分出单词[科类]中的每个单词对应的词向量/>和其对应的参数向量w科类通过哈德玛积进行的组合,得到科类的初步关系向量/>这里的
其中,b西伯利亚虎和b科类分别表示的是每个实体和关系对应的偏差,这里的偏差是和的维度和/>维度相同的向量。
这里将得到的全部的初步实体向量和初步关系向量和参数列表分别以实体向量文档,关系向量文档和参数列表文档保存到知识库文件中;这里的实体向量文档,关系向量文档和参数向量文档可以按照实体顺序,关系的顺序以及参数的内容以张量的形式保存成一种二进制的.npy文件,计算机在使用和计算过程中处理这种文件运行速度要比文档文件更快;
步骤4:通过深度学习的方法对所有的初步实体向量和初步关系向量/>进行处理,生成一一对应的最终的实体向量表示/>和关系向量表示/>并更新知识库文件中实体向量文档、关系向量文档和参数列表文档;
所述对的维度和/>的处理,处理过程分为两类:
第一类,将知识库文件的三元组列表中的三元组中的实体和关系对应的初步实体向量和初步关系向量/>作为训练集,即对初步实体向量/>中的参数向量Wei和初步关系向量/>中的参数向量Wri进行训练,采用神经网络的随机梯度下降的方法使得损失函数L的数值在训练过程中得到最小值;在神经网络的训练后生成新的实体向量表示/>和新的关系向量表示/>损失函数L如下所示:
其中,γ为超参数,这个超参数是一个数字,可取值为1,5,15等数值,Δ是正样本集合,表示知识库文件中的三元组列表中的三元组(h,r,t)对应的向量形式三元组的集合,其中/>和/>是三元组中h和t在实体向量文档中对应的向量,/>是三元组中r在关系向量文档中对应的向量;Δ′是负样本集合,表示将知识库中的三元组列表中的三元组(h,r,t)随机用h’,h’∈E和t’,t’∈E替换h和t,将替换得到的不正确的三元组(h’,r,t’)对应的向量形式/>的集合,/>l1/2表示计算式子的第一范数和第二范数;fr(ξ)表示的是三元组的得分函数,其中的/>和/>表示三元组对应的向量表示。
以动物信息表整理出的信息为例,这里的正样本集合就是这些动物信息表中获取出的若干个类似于(西伯利亚虎,科类,猫科)这样的三元组中各个部分对应为向量的向量结构的三元组的集合。这里以(西伯利亚虎,科类,猫科)为例,使用鹰科替换掉(西伯利亚虎,科类,猫科)中的最后的实体猫科,从而得到一个不正确的三元组(西伯利亚虎,科类,鹰科),将这个不正确的三元组中的实体和关系的向量通过实体向量文档和关系体向量文档中获取对应的向量得到了一个错误的向量结构的三元组,通过类似的方法对所有的正确三元组对应的错误的向量结构的三元组;
通过第一类方法,正确的三元组对应的|fr(ξ)|值要比错误的三元组对应的|fr(ξ')|值小,这时取δr,使得|fr(ξ)|<δr<|fr(ξ')|;
第二类,是利用了深度学习技术中的LSTM对知识库文件的三元组列表中的三元组进行编码,对于知识库文件中的每一个三元组对应的向量形式和知识库文件中的每一个三元组对应的向量构建的负样本/>通过LSTM进行嵌入;每个三元组通过LSTM得到每个三元组对应/>和/>使得正确的三元组经过LSTM后输出的低维向量的第一范数和第二范数的数值比错误的三元组的值小,此时取δr,使得|LSTM(ξ)|<δr<|LSTM(ξ')|;
将通过以上两类方式训练后的产生的实体向量表示和关系向量表示/>和参数W列表进行保存,更新知识库文件中实体向量文档,关系向量文档和参数列表文档;若使用的方法为第二类方法还需保存LSTM的参数到知识库文件中。
步骤5:处理待检索内容,定义为A,在步骤4更新后的知识库文件中检索,得到整理后的知识库中的信息及预测信息;
将A在知识库文件实体列表E里检索,步骤4.1和步骤4.2不分先后顺序;
5.1:若A是实体列表E中已经存在的内容,则在知识库文件中查询与A对应的实体,得到该实体在知识库文件的三元组列表中已经存在的三元组的信息和知识图谱的知识库的预测信息;如对于检索者待检索内容为爪哇虎,则返回(爪哇虎,纲类,哺乳纲)等知识库文件中已经存在的三元组和知识图谱的知识库的预测信息。5.1.1和5.1.2不分先后顺序;
所述知识图谱的知识库的预测信息包括:
5.1.1:对已有检索信息库内部信息的链式预测:对于一个头部实体在hlink和一个关系rlink寻找未知的尾部实体tu,或对于一个尾部实体tlink和一个关系rlink寻找未知的头部的实体,通过对未知内容使用实体列表中的实体进行替换得到(hlink,rlink,tu)或(tu,rlink,tlink),再查找实体向量文档和关系向量文档得到三元组(hlink,rlink,tu)或(tu,rlink,tlink)对应的向量形式的三元组或/>再通过计算|fr(ξlink)|或|LSTM(ξlink)|的数值,将计算后数值按从小到大进行排序,取其中的最小值对应的实体作为未知实体的预测和推理的备选答案返回给检索者。以(爪哇虎,科类,?)为例,这里不知道爪哇虎对应科类的内容,这时使用全部的实体来进行搭配构造出(爪哇虎,科类,猫科),(爪哇虎,科类,鹰科)等候选的三元组,这时根据这些三元组中实体和关系在实体向量文档和关系向量文档中对应的向量计算|fr(ξlink)|或|LSTM(ξlink)|的数值,这里的ξlink就是上述的这些三元组,通过计算出这些三元组对应的数值,再从小到大排序,这时候算得(爪哇虎,科类,猫科)算得的数值最小,此时将猫科作为备选答案返回给检索者;
5.1.2:实体关系信息的新组合进行的正确性预测:这种预测是针对一个知识图谱的知识库中已经存在的实体和关系构成的未知正确性的三元组f进行是否正确的判断,即对于一个检索信息库中的新信息f(hf,rf,tf),这里的实体hf,tf和关系rf都在知识库文件中E和R中出现的实体和关系,但知识库文件三元组列表中没有出现这个三元组,用知识库文件中的实体向量文档和关系向量文档中已经保存的hf,rf,tf对应的向量形式构成进行推断,当得到/>或/>时,则认为该三元组为真,得到的预测信息为:判断为真的信息,并以三元组的表格形式的检索内容。以判断三元组(爪哇虎,科类,鹰科)正确性为例,这个三元组并非在知识图谱的三元组列表中出现,因此需要针对这个新信息进行判断其正确性,通过(爪哇虎,科类,鹰科)中包含的实体“爪哇虎”和“鹰科”和关系“科类”在实体向量文档和关系向量文档中对应的向量,计算/>或/>的数值,其中/>是三元组(爪哇虎,科类,鹰科)对应的向量形式。这时通过计算得到/>则认为该三元组为假则不返回给检索者,相似的判断三元组(爪哇虎,科类,猫科)的正确性,通过计算/>或/>的数值,其中/>是三元组(爪哇虎,科类,猫科)对应的向量形式。这时通过得到/>则认为该三元组为真则并返回给检索者;
步骤5.2:若待检索内容A不是实体列表E中已经存在的实体,则需要通过知识库文件中的内容对A的相关内容进行推理,得到预测信息,所述预测信息的预测方法如下:
将待检索内容A作为一个新实体ex,并将实体ex拆分成单词[ex1,ex2,...exn],将其包含的词和知识库中实体列表的实体ei构成的词[ei1,ei2,...ein]进行比较,若查询ex和ein拆分出的对应位置(ein=exn)的词最多的实体ein唯一,则将该ein定义为eA,若ein拆分出的对应位置(ein=exn)的词最多的实体有多个,则将这些实体构成的词的词向量和exn构成的词的词向量做差,取差值最小的实体定义为eA,这里exn构成的词的词向量也是从词向量集合Glove中获取,ex拆分出的词为动词或名词的变形没有在词向量集合中需要将该词变为原型,如果在遇到一些在知识库中并没有出现的词向量时可以通过深度学习的工具如tensorflow框架或pytorch框架等,numpy随机向量的等方式自动生成一个词向量,暂时作为这个单词的词向量;将eA在参数列表W中对应的参数向量与ex包含的单词进行组合,得到ex的实体向量。如知识库列表中没有保存东北虎这一实体,通过知识库的比对会东北虎和华南虎在实体的构成过程中最为接近,都包含两个单词,且实体的最后一个词是虎,这时以华南虎在参数列表中对应的参数w华南和w虎和东北虎的词向量/>和进行哈德玛积的组合:/>得到东北虎的实体向量/>再将实体向量通过步骤4.1.1对已有检索信息库内部信息的链式预测和步骤4.1.2实体关系信息的新组合进行的正确性预测,得到的预测信息为:三元组的表格形式的检索内容。
下面以系统的实现为例,详细描述本发明一种基于知识表示学习的数据检索方法的系统的具体实现:
实现一种基于知识表示学习的数据检索方法的系统,示意图如图2所示,模块包含:系统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块。
在一个示例性的实施方案中,该系统分别说明在知识图谱的知识库的构建和检索者使用检索系统的步骤。
知识图谱的知识库构建的步骤如下:
该系统通过信息处理模块将检索信息库中内容整理成结构化文件并保存到结构化文件文档中。当检索信息库中的文档形式内容和数据库形式内容整理成结构化文件并保存到结构化文件文档中;将结构化文件文档中的内容整理形成三元组的数据形式(实体,关系,实体),并将这种三元组的数据形式的内容全部保存到知识库文件的三元组列表文档中,与此同时将三元组中的实体集合和关系集合制作成为实体列表,和关系列表存入知识库文件,并以文档形式传输给知识图谱表示学习模块。
该系统通过知识图谱的表示学习模块,用于将信息处理模块传输过来的知识库文件中的三元组列表中的信息通过知识表示学习的方法,实现已有知识库中的实体和关系的向量表示,并将实体和关系的向量表示以文档形式存入知识库文件之中。其中实体关系嵌入单元,用于处理信息处理模块传入的知识库文件的三元组列表中三元组形式的数据信息,得到初步的实体和关系的向量,知识库文件的三元组列表中的三元组作为数据集,再通过已有的深度学习神经网络的工具生成参数,将参数和已有的实体和关系拆分成的单词重新组合构造全部知识库文件中的实体和关系的向量表示将全部的初步的实体向量,关系的向量和相关参数分别以列表形式保存成为知识库文件的实体向量文档,关系向量文档和参数列表文档中并传输给三元组嵌入单元。三元组嵌入单元,用于将实体关系嵌入单元传输的列表形式的实体和关系的向量和相关参数通过神经网络进行训练得到最终的实体和关系的向量表示,并更新知识库文件中的实体向量文档,关系向量文档和参数列表文档。继而知识图谱预测单元根据三元组嵌入单元中实体向量文档,关系向量文档和参数列表文档的信息进行推理和预测,从而使得系统对待检索内容进行推理,并把推理信息传输给检索信息模块。进而通过检索信息模块将推理信息与检索信息库中已有的信息作为检索信息完成的信息传输给系统交互界面。
图3为检索者使用检索系统流程图,系统运行的步骤如下:
检索者在系统的系统交互界面上输入检索者待检索的内容,并将检索信息和预测信息以三元组形式返回给系统交互界面。系统通过检索信息模块将系统交互界面中输入的待检索的内容与知识图谱的知识库文件中的实体列表进行比对,判断待检索信息是否在检索信息库中;若检索信息存在于检索信息库中,则访问知识图谱的表示学习模块中的知识图谱预测单元,将原来的检索信息以及推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面;若检索信息不存在知识库中,则访问知识图谱的表示学习模块中的实体关系嵌入单元,得到检索信息对应的新的实体对应的向量,并将该数据传入到三元组嵌入单元和知识图谱预测单元,并将推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面;
系统将已经检索完成的信息在系统交互界面上返回给用户。该界面分为两部分,一部分是检索库信息,一部分是推理信息,两部分在系统交互界面上分类显示,将在检索库中检索到的信息标记为已知信息返回给用户,将通过知识库推理得到的信息标记为推理信息返回给用户。
由以上描述可以看出,本发明将机器无法理解的文件格式转为机器可以理解的结构化数据,通过知识图谱表示学习技术对结构化数据进行处理和挖掘,从而达到对检索出的内容的扩展,为检索者提供更多的经过推理和预测后的信息。
Claims (8)
1.一种基于知识表示学习的数据检索方法,其特征在于,包括以下步骤:
步骤1:整理检索信息库,将检索信息库中内容整理成结构化文件并保存到结构化文件文档中;
步骤2:将结构化文件文档中的内容整理并保存到知识库文件中的三元组列表中;
步骤3:使用深度学习工具引入和实体及关系拆分出的单词个数等量的随机参数向量,通过哈德玛积将随机参数向量和实体及关系对应的词向量进行组合得到全部的初步实体向量、初步关系向量,将得到的全部的初步实体向量、初步关系向量与随机参数向量组成的参数列表一起,分别以实体向量文档,关系向量文档和参数列表文档保存到知识库文件中,过程如下:
步骤3.1:将知识库文件的三元组列表中的第一个实体定义为h,第二个实体定义为t,将两个实体间的关系定义为r,定义E为知识库文件中全部实体的集合,R为知识库文件中全部关系的集合,并将E和R以列表的形式保存到知识库文件中;
步骤3.2:将实体列表E中的第i个实体记为ei,ei∈E;关系列表R中的第i个关系记为ri,ri∈R;
步骤3.3:将E和R中的实体和关系分别标记数字并按包含的单词量进行拆分,即实体ei∈E拆分成[ei1,ei2,...ein],关系ri∈R拆分成[ri1,ri2,...,rin];其中ein表示实体包含的单词,rin表示关系包含的单词,n表示被拆分的实体或关系所拆分出的单词的数量;
步骤3.4:通过深度学习的神经网络工具随机生成和实体包含的单词ein对应数量的待训练的参数向量wein,关系包含的单词rin对应数量的待训练的参数向量wrin,并将全部参数向量制作成为参数列表W;
步骤3.5:将ein和rin对应的词向量和/>以及参数列表W通过哈德玛积的方式进行组合,得到全部的初步实体向量/>和初步关系向量/>具体公式如下:
其中,n表示的是实体包含的单词个数,bei和bri分别表示的是每个实体和关系对应的偏差,是和的维度和/>维度相同的向量,/>表示的是哈德玛积;
步骤3.6:将得到的全部的初步实体向量、初步关系向量和参数列表分别以实体向量文档,关系向量文档和参数列表文档保存到知识库文件中;
步骤4:通过深度学习的方法对所有的初步实体向量和初步关系向量/>进行处理,生成一一对应的最终的实体向量表示/>和关系向量表示/>并更新知识库文件中实体向量文档、关系向量文档和参数列表文档;
所述对所有的初步实体向量和初步关系向量/>进行处理,处理过程分为两类:
第一类,将知识库文件的三元组列表中的三元组中的实体和关系对应的初步实体向量和初步关系向量/>作为训练集,即对初步实体向量/>中的参数向量Wei和初步关系向量/>中的参数向量Wri进行训练,采用神经网络的随机梯度下降的方法使得损失函数L的数值在训练过程中得到最小值;在神经网络的训练后生成新的实体向量/>和新的关系向量/>
其中,损失函数L如下所示:
其中,γ为超参数,Δ是正样本集合,表示知识库文件中的三元组列表中的三元组(h,r,t)对应的向量形式三元组的集合,其中/>和/>是三元组中h和t在实体向量文档中对应的向量,/>是三元组中r在关系向量文档中对应的向量;Δ′是负样本集合,表示将知识库中的三元组列表中的三元组(h,r,t)随机用h’,h’∈E和t’,t’∈E替换h和t,将替换得到的不正确的三元组(h’,r,t’)对应的向量形式/>的集合,/>l1/2表示计算式子的第一范数和第二范数;fr(ξ)表示的是三元组的得分函数,其中的/>和/>表示三元组对应的向量表示;
通过第一类方法,正确的三元组对应的|fr(ξ)|值要比错误的三元组对应的|fr(ξ')|值小,这时取正确的三元组和不正确的三元组的分界值δr,使得|fr(ξ)|<δr<|fr(ξ')|;
第二类,是利用了深度学习方法中的LSTM对知识库文件的三元组列表中的三元组进行编码,对于知识库文件中的每一个三元组对应的向量形式和知识库文件中的每一个三元组对应的向量构建的负样本/>通过LSTM进行嵌入;每个三元组通过LSTM得到每个三元组对应/>和/>使得正确的三元组经过LSTM后输出的低维向量的第一范数和第二范数的数值比错误的三元组的值小,此时取正确的三元组和不正确的三元组的分界值δr,使得|LSTM(ξ)|<δr<|LSTM(ξ')|;
根据实际需要选择上述两类处理过程中的一类或两类进行处理,若使用第二类方法还需保存LSTM的参数到知识库文件中;
步骤5:定义待检索内容为A,在步骤4更新后的知识库文件中检索,得到整理后的知识库中的信息及预测信息。
2.根据权利要求1所述一种基于知识表示学习的数据检索方法,其特征在于,所述结构化文件的整理过程如下:
判断检索信息库中内容的形式,若为数据库形式,则保留该数据库形式的内容;当检索信息库中内容为文本形式时,则将文本形式的内容编辑成“实体,关系,实体”形式的内容。
3.根据权利要求2所述的一种基于知识表示学习的数据检索方法,其特征在于,所述将文本形式的内容编辑成“实体,关系,实体”形式的内容的方法为:
采用命名实体识别模型对所需的指定名词结构进行标注,得到对应的实体;再通过关系抽取模型对名词间的关系进行抽取。
4.根据权利要求1所述一种基于知识表示学习的数据检索方法,其特征在于,所述步骤2的过程如下:
若结构化文件文档中的内容是由文本形式整理出的文档,则直接将“实体,关系,实体”形式的内容保存在知识库文件中的三元组列表中;
若结构化文件文档中的内容为数据库形式,则将数据库中包含的数据库表中的每一条数据的内容对照标记成“实体,关系,实体”形式的内容,并保存到知识库文件中的三元组列表中。
5.根据权利要求4所述的一种基于知识表示学习的数据检索方法,其特征在于,所述数据库表中的数据内容包括:实体、属性和属性值。
6.根据权利要求1所述一种基于知识表示学习的数据检索方法,其特征在于,所述步骤5的过程如下:
将A在知识库文件的实体向量文档中的实体列表E里检索,步骤5.1和步骤5.2不分先后顺序;
5.1:若A是实体列表E中已经存在的内容,则在知识库文件中查询与A对应的实体,得到该实体在知识库文件的三元组列表中已经存在的三元组的信息和知识图谱的知识库的预测信息;5.1.1和5.1.2不分先后顺序
所述知识图谱的知识库的预测信息包括:
5.1.1:对已有检索信息库内部信息的链式预测:对于一个头部实体在hlink和一个关系rlink寻找未知的尾部实体tu,或对于一个尾部实体tlink和一个关系rlink寻找未知的头部的实体,通过对未知内容使用实体列表中的实体进行替换得到(hlink,rlink,tu)或(tu,rlink,tlink),再查找实体向量文档和关系向量文档得到三元组(hlink,rlink,tu)或(tu,rlink,tlink)对应的向量形式的三元组或/>再通过计算|fr(ξlink)|或|LSTM(ξlink)|的数值,将计算后数值按从小到大进行排序,取其中的最小值对应的实体作为未知实体的预测和推理的备选答案返回给检索者;
5.1.2:实体关系信息的新组合进行的正确性预测:这种预测是针对一个知识图谱的知识库中已经存在的实体和关系构成的未知正确性的三元组f进行是否正确的判断,即对于一个信息检索库中的新信息f(hf,rf,tf),这里的实体hf,tf和关系rf都在知识库文件中E和R中出现的实体和关系,但知识库文件三元组列表中没有出现这个三元组,用知识库文件中的实体向量文档和关系向量文档中已经保存的hf,rf,tf对应的向量形式构成进行推断,当得到/>或/>时,则认为该三元组为真,得到的预测信息为:判断为真的信息,并得到三元组的表格形式的检索内容;
步骤5.2:若待检索内容A不是实体列表E中已经存在的实体,则需要通过知识库文件中的内容对A的相关内容进行推理,得到预测信息,所述预测信息的预测方法如下:
将待检索内容A作为一个新实体ex,并将实体ex拆分成单词[ex1,ex2,...exn],将其包含的单词和知识库中实体列表的实体ei构成的单词[ei1,ei2,...ein]进行比较,若查询ex和ein拆分出的对应位置,即ein=exn的单词最多的实体ein唯一,则将该ein定义为eA,若ein拆分出的对应位置,即ein=exn的单词最多的实体有多个,则将这些实体构成的词的词向量和exn构成的词的词向量做差,取差值最小的实体定义为eA;将eA在参数列表W中对应的参数向量与ex包含的单词进行组合,得到ex的实体向量,再将实体向量通过步骤5.1.1对已有检索信息库内部信息的链式预测和步骤5.1.2实体关系信息的新组合进行的正确性预测,得到的预测信息为三元组的表格形式的检索内容。
7.采用权利要求1至6中任意一项所述的基于知识表示学习的数据检索方法进行数据检索的系统,其特征在于包括:系统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块;
系统交互界面用于在界面上输入待检索内容,此时将待检索内容输入到检索信息模块中,通过检索信息模块以三元组列表的形式返回三元组的形式在交互界面上显示;
所述信息处理模块用于将当检索信息库中的文档形式内容和数据库形式内容整理成结构化文件并保存到结构化文件文档中;将结构化文件文档中的内容整理形成“实体,关系,实体”三元组的数据形式,并将这种三元组的数据形式的内容全部保存到知识库文件的三元组列表文档中,与此同时将三元组中的实体集合和关系集合制作成为实体列表,和关系列表存入知识库文件,并以文档形式传输给知识图谱表示学习模块;
所述知识图谱的表示学习模块,用于将信息处理模块传输过来的知识库文件中的三元组列表中的信息通过知识表示学习的方法,实现已有知识库中的实体和关系的向量表示,并将实体和关系的向量表示以文档形式存入知识库文件之中,通过向量这种结构化数据的特点,使得知识图谱的知识库中的信息具有推理和预测功能;
所述检索信息模块,处理通过系统交互界面输入的待检索内容,并将检索信息和预测信息以三元组形式返回给系统交互界面,该模块将输入的待检索的内容与信息处理模块产生的实体列表进行比对,判断待检索信息是否在检索信息库中;若检索信息存在于检索信息库中,则访问知识图谱的表示学习模块中的知识图谱预测单元,将原来的检索信息以及推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面;若检索信息不存在知识库中,则访问知识图谱的表示学习模块中的实体关系嵌入单元,得到检索信息对应的新的实体对应的分布式结构化数据,并将该数据传入到三元组嵌入单元和知识图谱预测单元,并将推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面。
8.根据权利要求7所述采用基于知识表示学习的数据检索方法进行数据检索的系统,其特征在于,所述知识图谱的表示学习模块包括:实体关系嵌入单元、三元组嵌入单元、知识图谱预测单元:
所述的实体关系嵌入单元,用于处理信息处理模块传入的知识库文件的三元组列表中三元组形式的数据信息,得到初步的实体和关系的向量,知识库文件的三元组列表中的三元组作为数据集,再通过已有的深度学习神经网络的工具生成参数,将参数和已有的实体和关系拆分成的单词重新组合构造全部知识库文件中的实体和关系的向量表示将全部的初步的实体向量,关系的向量和相关参数分别以列表形式保存成为知识库文件的实体向量文档,关系向量文档和参数列表文档中并传输给三元组嵌入单元;
所述的三元组嵌入单元,用于将实体关系嵌入单元传输的列表形式的实体和关系的向量和相关参数通过神经网络进行训练得到最终的实体和关系的向量表示,并更新知识库文件中的实体向量文档,关系向量文档和参数列表文档;
所述的知识图谱预测单元,根据三元组嵌入单元中实体向量文档,关系向量文档和参数列表文档的信息进行推理和预测,从而使得系统对待检索内容进行推理,并把推理信息传输给系统交互界面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010965798.9A CN112084347B (zh) | 2020-09-15 | 2020-09-15 | 一种基于知识表示学习的数据检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010965798.9A CN112084347B (zh) | 2020-09-15 | 2020-09-15 | 一种基于知识表示学习的数据检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084347A CN112084347A (zh) | 2020-12-15 |
CN112084347B true CN112084347B (zh) | 2023-08-25 |
Family
ID=73737089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010965798.9A Active CN112084347B (zh) | 2020-09-15 | 2020-09-15 | 一种基于知识表示学习的数据检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084347B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948547B (zh) * | 2021-01-26 | 2024-04-09 | 中国石油大学(北京) | 测井知识图谱构建查询方法、装置、设备及存储介质 |
CN113032415B (zh) * | 2021-03-03 | 2024-04-19 | 西北工业大学 | 一种基于用户偏好与知识图谱的个性化产品描述生成方法 |
US20230132061A1 (en) * | 2021-10-22 | 2023-04-27 | International Business Machines Corporation | Information extraction from document corpora |
CN115080587B (zh) * | 2022-05-19 | 2024-04-16 | 华南理工大学 | 一种基于知识图谱的电子元器件替代方法、装置及介质 |
CN116860893B (zh) * | 2023-07-14 | 2024-03-08 | 浪潮智慧科技有限公司 | 一种水利数据管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615124A (zh) * | 2018-11-29 | 2019-04-12 | 中国铁路总公司 | 一种基于深度学习的scada主站负荷预测方法 |
CN110275959A (zh) * | 2019-05-22 | 2019-09-24 | 广东工业大学 | 一种面向大规模知识库的快速学习方法 |
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN111400455A (zh) * | 2020-03-18 | 2020-07-10 | 北京工业大学 | 基于知识图谱的问答系统的关系检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI493479B (zh) * | 2012-12-07 | 2015-07-21 | Univ Nat Taiwan | 一種知識本體增補方法與其系統 |
US11727243B2 (en) * | 2019-01-30 | 2023-08-15 | Baidu Usa Llc | Knowledge-graph-embedding-based question answering |
-
2020
- 2020-09-15 CN CN202010965798.9A patent/CN112084347B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615124A (zh) * | 2018-11-29 | 2019-04-12 | 中国铁路总公司 | 一种基于深度学习的scada主站负荷预测方法 |
CN110275959A (zh) * | 2019-05-22 | 2019-09-24 | 广东工业大学 | 一种面向大规模知识库的快速学习方法 |
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN111400455A (zh) * | 2020-03-18 | 2020-07-10 | 北京工业大学 | 基于知识图谱的问答系统的关系检测方法 |
Non-Patent Citations (1)
Title |
---|
语义网中基于描述逻辑的本体推理研究;孙鹏;《中国优秀硕士学位论文全文数据库 信息科技辑》;I139-177 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084347A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084347B (zh) | 一种基于知识表示学习的数据检索方法及系统 | |
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
JPH07295989A (ja) | データを解析するためのインタプリタを形成する装置 | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN110189831A (zh) | 一种基于动态图序列的病历知识图谱构建方法及系统 | |
CN107368521B (zh) | 一种基于大数据和深度学习的知识推介方法及系统 | |
CN106997341A (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
Thirumuruganathan et al. | Data curation with deep learning [vision] | |
CN113569023A (zh) | 一种基于知识图谱的中文医药问答系统及方法 | |
CN112163097A (zh) | 一种军事知识图谱构建方法及系统 | |
Palani et al. | T-BERT--Model for Sentiment Analysis of Micro-blogs Integrating Topic Model and BERT | |
CN110765781A (zh) | 一种领域术语语义知识库人机协同构建方法 | |
CN114564543A (zh) | 一种基于知识图谱的碳足迹获取方法 | |
CN114297351A (zh) | 语句问答方法、装置、设备、存储介质及计算机程序产品 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN108549667B (zh) | 一种结构化工程设计知识的语义检索方法 | |
Shirzad et al. | Deep Learning approach for text, image, and GIF multimodal sentiment analysis | |
Shah et al. | A hybrid approach of text summarization using latent semantic analysis and deep learning | |
Das et al. | Graph-based text summarization and its application on COVID-19 twitter data | |
Lincy et al. | An enhanced pre-processing model for big data processing: A quality framework | |
Kawamura et al. | Science graph for characterizing the recent scientific landscape using paragraph vectors | |
Chen et al. | Hybrid Method for Short Text Topic Modeling | |
Mihi et al. | Dialectal Arabic sentiment analysis based on tree-based pipeline optimization tool |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |