CN112084347A

CN112084347A - 一种基于知识表示学习的数据检索方法及系统

Info

Publication number: CN112084347A
Application number: CN202010965798.9A
Authority: CN
Inventors: 马连博; 孙鹏
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-15
Anticipated expiration: 2040-09-15
Also published as: CN112084347B

Abstract

本发明公开一种基于知识表示学习的数据检索方法及系统，其方法包括:整理检索信息库；将结构化文件文档中的内容整理成为知识图谱的知识库的形式；生成所有的实体和关系最终向量表示，并更新知识库文件中实体向量文档、关系向量文档和参数列表文档；处理待检索内容，在知识库文件中检索，得到整理后的知识库中的信息及预测信息；其系统包括：统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块；所述知识图谱的表示学习模块包括：实体关系嵌入单元、三元组嵌入单元、知识图谱预测单元；实现对于原有信息库的扩展，解决现有技术在已有信息检索过程中无法针对数据库中已有的数据进行推理和预测的问题。

Description

一种基于知识表示学习的数据检索方法及系统

技术领域

本发明属于信息检索技术领域，具体涉及一种基于知识表示学习的数据检索方法及系统。

背景技术

信息检索(Information Retrieval,IR)是一种用户从大规模数据中获得所需的相关信息的过程。随着数字化时代的发展，通过将文本处理成的数据库中会包含很多的信息，对于有用信息的提取，已及如何能够更好地利用现有的信息进行推理和预测已经成为重要的问题。传统的一些信息检索方法中的布尔逻辑检索，位置限制检索，词语检索，截词检索等方法是无法通过数据库中已知的信息为用户提供更多的经过推理和预测后的信息。

知识图谱(Knowledge Graph)是通过一种结构化的形式来陈述客观世界中概念、实体(entity) 及其之间的关系(relation)，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解信息的方法。而知识表示学习是知识图谱技术中的一个关键的技术。知识表示学习将现实世界中的各类知识表达成计算机可存储和计算的结构。知识表示学习将实体和关系表示为稠密的低维向量实现了对实体和关系的分布式表示已经成为知识图谱针对已有的互联网络中的信息进行预测的重要方法。随着知识表示学习技术的发展，Bordes等人提出了第一个知识表示学习的翻译模型TransE，该方法在大规模知识图谱上效果明显。但是由于TransE模型过于简单，导致其在处理复杂关系时捉襟见肘，虽然之后也出现了TransR， TransD，TransParse，CompleX等翻译模型和张量分解模型等在一定程度上提高复杂关系的知识库的方法，但目前这些已有的知识表示学习方法都无法判断知识库中不存在的实体和判断关系所在的三元组的正确性。

由于信息检索时所要检索的信息包含很多种类，会出现相同意思的不同检索词在现有的检索方法中不能将检索后的内容进行合并或者无法检索相关相似信息等问题。而目前已有的信息检索的方法无法通过对已有的检索库中的信息进行推理和预测，这就会出现检索者通过一些现有的检索方法进行检索，所得到的检索内容较少的问题。

发明内容

针对现有技术的不足，本发明公开了一种基于知识表示学习的数据检索方法及系统，通过对原有的所要检索的信息进行整理和学习，为检索者提供原有信息的检索内容以及推理出的信息的内容。通过本发明所述方法，可以更好地通过对数据库中已知的信息进行整理和挖掘从而为检索者提供更多的经过推理和预测后的信息。

为达到上述目的，本发明所采用的技术方案如下：

本发明所述一种基于知识表示学习的数据检索方法，包括以下步骤：

步骤1：整理检索信息库，将检索信息库中内容整理成结构化文件并保存到结构化文件文档中；

所述结构化文件的整理过程如下：

判断检索信息库中内容的形式，若为数据库形式，则保留该数据库形式的内容；当检索信息库中内容为文本形式时，则将文本形式的内容编辑成“实体，关系，实体”形式的内容。

所述将文本形式的内容编辑成“实体，关系，实体”形式的内容的方法为：

采用命名实体识别模型对所需的指定名词结构进行标注，得到对应的实体；再通过关系抽取模型对名词间的关系进行抽取。

步骤2：将结构化文件文档中的内容整理并保存到知识库文件中的三元组列表中，其过程如下：

若结构化文件文档中的内容是由文本形式整理出的文档，则直接将“实体，关系，实体” 形式的内容保存在知识库文件中的三元组列表中；

若结构化文件文档中的内容为数据库形式，则将数据库中包含的数据库表中的每一条数据的内容对照标记成“实体，关系，实体”形式的内容，并保存到知识库文件中的三元组列表中。

所述数据库表中的数据内容包括：实体、属性和属性值。

步骤3：使用深度学习工具引入和实体及关系拆分出的单词个数等量的随机参数向量，通过哈德玛积将随机参数向量和实体及关系对应的词向量进行组合得到全部的初步实体向量、初步关系向量，将得到的全部的初步实体向量、初步关系向量与随机参数向量组成的参数列表一起，分别以实体向量文档，关系向量文档和参数列表文档保存到知识库文件中，过程如下：

步骤3.1：将知识库文件的三元组列表中的第一个实体定义为h，第二个实体定义为t，将两个实体间的关系定义为r，定义E为知识库文件中全部实体的集合，R为知识库文件中全部关系的集合，并将E和R以列表的形式保存到知识库文件中；

步骤3.2：将实体列表E中的第i个实体记为e_i,e_i∈E；关系列表R中的第i个关系记为 r_i,r_i∈R；

步骤3.3：将E和R中的实体和关系分别标记数字并按包含的单词量进行拆分，即实体 e_i∈E拆分成[e_i1,e_i2,...e_in]，关系r_i∈R拆分成[r_i1,r_i2,...,r_in]；其中e_in表示实体包含的单词，r_in表示关系包含的单词，n表示被拆分的实体或关系所拆分出的单词的数量；

步骤3.4：通过深度学习的神经网络工具随机生成和实体包含的单词e_in对应数量的待训练的参数向量w_ein，关系包含的单词r_in对应数量的待训练的参数向量w_rin，并将全部参数向量制作成为参数列表W；

步骤3.5：将e_in和r_in对应的词向量

和

以及参数列表W通过哈德玛积的方式进行组合，得到全部的初步实体向量

和初步关系向量

具体公式如下：

其中，n表示的是实体包含的单词个数，b_ei和b_ri分别表示的是每个实体和关系对应的偏差，是和

的维度和

维度相同的向量，

表示的是哈德玛积；

步骤3.6：将得到的全部的初步实体向量、初步关系向量和参数列表分别以实体向量文档，关系向量文档和参数列表文档保存到知识库文件中。

步骤4:通过深度学习的方法对所有的初步实体向量

和初步关系向量

进行处理，生成一一对应的最终的实体向量表示

和关系向量表示

并更新知识库文件中实体向量文档、关系向量文档和参数列表文档；

所述对所有的初步实体向量

和初步关系向量

进行处理，处理过程分为两类：

第一类，将知识库文件的三元组列表中的三元组中的实体和关系对应的初步实体向量

和初步关系向量

作为训练集，即对初步实体向量

中的参数向量W_ei和初步关系向量

中的参数向量W_ri进行训练，采用神经网络的随机梯度下降的方法使得损失函数L的数值在训练过程中得到最小值；在神经网络的训练后生成新的实体向量

和新的关系向量

其中，损失函数L如下所示：

其中，γ为超参数，Δ是正样本集合，表示知识库文件中的三元组列表中的三元组(h,r,t) 对应的向量形式三元组

的集合，其中

和

是三元组中h和t在实体向量文档中对应的向量，

是三元组中r在关系向量文档中对应的向量；Δ′是负样本集合，表示将知识库中的三元组列表中的三元组(h,r,t)随机用h’，h’∈E和t’，t’∈E替换h和t，将替换得到的不正确的三元组(h’,r,t’)对应的向量形式

的集合，

l_1/2表示计算式子的第一范数和第二范数；f_r(ξ)表示的是三元组的得分函数，其中的

和

表示三元组对应的向量表示；

通过第一类方法，正确的三元组对应的|f_r(ξ)|值要比错误的三元组对应的|f_r(ξ')|值小，这时取正确的三元组和不正确的三元组的分界值δ_r，使得|f_r(ξ)|＜δ_r＜|f_r(ξ')|；

第二类，是利用了深度学习方法中的LSTM对知识库文件的三元组列表中的三元组进行编码，对于知识库文件中的每一个三元组对应的向量形式

和知识库文件中的每一个三元组对应的向量构建的负样本

通过LSTM进行嵌入；每个三元组通过LSTM 得到每个三元组对应

和

使得正确的三元组经过LSTM后输出的低维向量的第一范数和第二范数的数值比错误的三元组的值小，此时取正确的三元组和不正确的三元组的分界值δ_r，使得|LSTM(ξ)|＜δ_r＜|LSTM(ξ')|；

根据实际需要选择上述两类处理过程中的一类或两类进行处理，若使用第二类方法还需保存LSTM的参数到知识库文件中。

步骤5：定义待检索内容为A，在步骤4更新后的知识库文件中检索，得到整理后的知识库中的信息及预测信息，过程如下：

将A在知识库文件的实体向量文档中的实体列表E里检索，步骤5.1和步骤5.2不分先后顺序；

5.1：若A是实体列表E中已经存在的内容，则在知识库文件中查询与A对应的实体，得到该实体在知识库文件的三元组列表中已经存在的三元组的信息和知识图谱的知识库的预测信息；5.1.1和5.1.2不分先后顺序

所述知识图谱的知识库的预测信息包括：

5.1.1：对已有检索信息库内部信息的链式预测：对于一个头部实体在h_link和一个关系r_link寻找未知的尾部实体t_u，或对于一个尾部实体t_link和一个关系r_link寻找未知的头部的实体，通过对未知内容使用实体列表中的实体进行替换得到(h_link,r_link,t_u)或(t_u,r_link,t_link)，再查找实体向量文档和关系向量文档得到三元组(h_link,r_link,t_u)或(t_u,r_link,t_link)对应的向量形式的三元组

或

再通过计算|f_r(ξ_link)|或|LSTM(ξ_link)|的数值，将计算后数值按从小到大进行排序，取其中的最小值对应的实体作为未知实体的预测和推理的备选答案返回给检索者；

5.1.2：实体关系信息的新组合进行的正确性预测：这种预测是针对一个知识图谱的知识库中已经存在的实体和关系构成的未知正确性的三元组f进行是否正确的判断，即对于一个信息检索库中的新信息f(h_f,r_f,t_f)，这里的实体h_f,t_f和关系r_f都在知识库文件中E和R中出现的实体和关系，但知识库文件三元组列表中没有出现这个三元组，用知识库文件中的实体向量文档和关系向量文档中已经保存的h_f,r_f,t_f对应的向量形式构成

进行推断，当得到

或

时，则认为该三元组为真，得到的预测信息为：判断为真的信息，并得到三元组的表格形式的检索内容；

步骤5.2：若待检索内容A不是实体列表E中已经存在的实体，则需要通过知识库文件中的内容对A的相关内容进行推理，得到预测信息，所述预测信息的预测方法如下：

将待检索内容A作为一个新实体e_x，

并将实体e_x拆分成单词[e_x1,e_x2,...e_xn]，将其包含的单词和知识库中实体列表的实体ei构成的单词[e_i1,e_i2,...e_in]进行比较，若查询e_x和e_in拆分出的对应位置，即e_in＝e_xn的单词最多的实体e_in唯一，则将该e_in定义为e_A，若e_in拆分出的对应位置，即e_in＝e_xn的单词最多的实体有多个，则将这些实体构成的词的词向量和e_xn构成的词的词向量做差，取差值最小的实体定义为e_A；将e_A在参数列表W中对应的参数向量与 e_x包含的单词进行组合，得到e_x的实体向量，再将实体向量通过步骤5.1.1对已有检索信息库内部信息的链式预测和步骤5.1.2实体关系信息的新组合进行的正确性预测，得到的预测信息为三元组的表格形式的检索内容。

另一方面，本发明还提供一种基于知识表示学习的数据检索方法的系统，包括：系统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块；

所述基于知识表示学习的数据检索方法的系统与检索者进行交互，为检索者提供检索服务；

系统交互界面用于在界面上输入待检索内容，此时将待检索内容输入到检索信息模块中，通过检索信息模块以三元组列表的形式返回三元组的形式在交互界面上显示；

所述信息处理模块用于将当检索信息库中的文档形式内容和数据库形式内容整理成结构化文件并保存到结构化文件文档中；将结构化文件文档中的内容整理形成三元组的数据形式 (实体，关系，实体)，并将这种三元组的数据形式的内容全部保存到知识库文件的三元组列表文档中，与此同时将三元组中的实体集合和关系集合制作成为实体列表，和关系列表存入知识库文件，并以文档形式传输给知识图谱表示学习模块；

所述知识图谱的表示学习模块，用于将信息处理模块传输过来的知识库文件中的三元组列表中的信息通过知识表示学习的方法，实现已有知识库中的实体和关系的向量表示，并将实体和关系的向量表示以文档形式存入知识库文件之中，通过向量这种结构化数据的特点，使得知识图谱的知识库中的信息具有推理和预测功能；

所述检索信息模块，处理通过系统交互界面输入的待检索内容，并将检索信息和预测信息以三元组形式返回给系统交互界面，该模块将输入的待检索的内容与信息处理模块产生的实体列表进行比对，判断待检索信息是否在检索信息库中；若检索信息存在于检索信息库中，则访问知识图谱的表示学习模块中的知识图谱预测单元，将原来的检索信息以及推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面；若检索信息不存在知识库中，则访问知识图谱的表示学习模块中的实体关系嵌入单元，得到检索信息对应的新的实体对应的向量，并将该数据传入到三元组嵌入单元和知识图谱预测单元，并将推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面；

所述知识图谱的表示学习模块包括：实体关系嵌入单元、三元组嵌入单元、知识图谱预测单元：

所述的实体关系嵌入单元，用于处理信息处理模块传入的知识库文件的三元组列表中三元组形式的数据信息，得到初步的实体和关系的向量，知识库文件的三元组列表中的三元组作为数据集，再通过已有的深度学习神经网络的工具生成参数，将参数和已有的实体和关系拆分成的单词重新组合构造全部知识库文件中的实体和关系的向量表示将全部的初步的实体向量，关系的向量和相关参数分别以列表形式保存成为知识库文件的实体向量文档，关系向量文档和参数列表文档中并传输给三元组嵌入单元；

所述的三元组嵌入单元，用于将实体关系嵌入单元传输的列表形式的实体和关系的向量和相关参数通过神经网络进行训练得到最终的实体和关系的向量表示，并更新知识库文件中的实体向量文档，关系向量文档和参数列表文档；

所述的知识图谱预测单元，根据三元组嵌入单元中实体向量文档，关系向量文档和参数列表文档的信息进行推理和预测，从而使得系统对待检索内容进行推理，并把推理信息传输给检索信息模块，再由检索信息模块将预测内容传输给系统交互界面，从而将检索信息发给检索者。

采用上述技术方案所产生的有益效果在于：本发明提供一种基于知识表示学习的数据检索方法及系统，将机器无法理解的文件格式转为机器可以理解的结构化数据，通过知识图谱表示学习技术对结构化数据进行处理和挖掘，可以将信息库中的一些信息进行整合，并在已有的信息库检索内容的基础上进行推理和预测，从而实现对于原有的信息库的扩展，解决了现有技术在已有信息检索过程中无法针对数据库中已有的数据进行推理和预测的问题，为检索者提供更多的经过推理和预测后的信息。这种推理和预测的信息在一定程度上可以给检索者提供更多的相关信息。

附图说明

图1为本发明具体实施方式中一种基于知识表示学习的数据检索方法流程图；

图2为本发明具体实施方式中一种基于知识表示学习的数据检索系统示意图；

图3为本发明具体实施方式中检索者使用检索系统流程图。

具体实施方式

信息检索时所要检索的信息包含很多种类，会出现相同意思的不同检索词在现有的检索方法中不能将检索后的内容进行合并或者无法检索相关相似信息等问题。而目前已有的信息检索的方法无法通过对已有的检索库中的信息进行推理和预测，这就会出现检索者通过一些现有的检索方法进行检索，所得到的检索内容较少的问题。

有鉴如此，本发明使用一种基于知识表示学习的数据检索方法及系统，针对不同的信息进行整合，将整和后的信息构建成知识库。再根据知识图谱的知识表示技术，对原有的知识库中的内容进行挖掘生成一个计算机更擅长处理的知识图谱的结构化数据，通过对已有的一些结构化数据的计算，从而达到对一些检索内容的推理和预测，最终返回给检索者所需要的信息库中的信息和推理的信息。

下面结合附图对本发明具体实施方式加以详细的说明，所述是对本发明的解释而不是限定。

一种基于知识表示学习的数据检索方法，具体流程图如图1所示；

实施例1:

本实施例以如表1所示的动物信息表为例，以下采用基于知识表示学习的数据检索方法对表1所示的检索信息库中的动物信息表的数据库进行检索，包括以下步骤：

表1动物信息表

动物名称	科类	纲类	地区	...
					华南虎	猫科	哺乳纲	中国华南地区	...
西伯利亚虎	猫科	哺乳纲	西伯利亚地区	...
					爪哇虎	？	哺乳纲	中国东北地区	...
金雕	鹰科	鸟纲	北半球温带、亚寒带和寒带地区	...
					东北虎	？	？	？	...
...	...	...	...

步骤1：整理检索信息库,将检索信息库中内容整理成结构化文件并保存到结构化文件文档中；这一步骤针对的主要是多源异构的数据进行整理并以一种结构化的形式对原有信息进行存储成为结构化文档的过程。由于此实施例为检索信息库中的数据库的信息，这一步骤保持原来的数据库结构。

步骤2:将结构化文件文档中的内容整理成为知识图谱的知识库的形式，保存到知识库文件中的三元组列表中。首先，对动物信息表中的每个数据将其转为三元组(实体，关系，实体)的形式，以华南虎为例，它的属性“科类”对应的属性值是“猫科”，他的属性纲类对应的属性值是哺乳纲。按照这种方式，将动物信息表中的每个动物的对应属性和属性值的内容转化成为(实体,关系,实体)这种结构的三元组:(华南虎,科类,猫科),(华南虎,纲类,哺乳纲)...然后将这些三元组放入到知识库文件的三元组列表之中，再将知识库文件的三元组(实体，关系，实体)中的实体和关系分别放入到知识库文件中的实体列表和关系列表之中。这里的实体列表中的实体就包括动物信息表之中的华南虎，西伯利亚虎，猫科，哺乳纲等内容，这里的关系列表中的关系就包括科类,纲类,地区等内容。这里构成的实体列表和关系列表中的内容是不重复的，如(华南虎,科类,猫科)和(西伯利亚虎,科类,猫科)这两个三元组中包含的实体是:华南虎,西伯利亚虎和猫科，这里的猫科并不在实体列表中出现多次与此同时科类也不在关系列表中出现多次。为了避免相同实体放入到实体列表和相同的关系放入到关系列表，在实体放入实体列表之前先检索实体列表判断实体列表中是否已经存在该实体，若不存在则将该实体放入到实体列表之中，对于关系放入到关系列表之前也用同样方法进行判断并将实体放入到实体列表之中。

步骤3：使用深度学习工具引入和实体及关系拆分出的单词个数等量的随机参数向量，通过哈德玛积将随机参数向量和实体及关系对应的词向量进行组合得到全部的初步实体向量、初步关系向量，将得到的全部的初步实体向量、初步关系向量与随机参数向量组成的参数列表一起，分别以实体向量文档，关系向量文档和参数列表文档保存到知识库文件中；

定义实体列表E中的第i个实体记为e_i,,关系列表R中的第i个关系记为r_i,将整理完成的知识库文件中的全部实体和关系，分别标记数字并拆分成实体包含的单词和关系包含的单词，即原来的实体e_i∈E拆分成[e_i1,e_i2,...e_in]，将关系r_i∈R拆分成[r_i1,r_i2,...,r_in]；其中e_in表示实体包含的单词，r_in表示关系包含的单词，n表示被拆分的实体或关系所拆分出的单词的数量 (n≥1)。如已经存在的实体列表中的实体西伯利亚虎拆分出词[西伯利亚,虎]；已经存在关系列表中的关系科类这个关系拆分出单词[科类]，这里的实体和关系拆分出的单词最少的个数是 1。

通过深度学习的工具如tensorflow框架或pytorch框架等，numpy随机向量的等方式，生成随机生成和实体包含的单词、关系包含的单词对应数量的待训练的参数向量，将和e_in对应的参数向量w_ein，w_ein∈W和r_in对应的参数向量w_rin，w_rin∈W分别和e_in和r_in对应的词向量

和

通过哈德玛积的方式进行组合得到全部的初步实体向量

和初步关系向量

具体公式如下：

的维度和

维度相同的向量，

表示的是哈德玛积；

以实体“西伯利亚虎”和关系“科类”为例。实体西伯利亚虎拆分出的单词为[西伯利亚,虎]，因此对应生成两个参数向量w_西伯利亚和w_虎，如关系科类拆分出单词[科类]，则对应的每个单词对应生参数向量w_科类。通过这种方式针对每个实体和关系对应的全部参数向量制作成为参数列表W。再将西伯利亚虎拆分出单词[西伯利亚,虎]对应的词向量

和

与其对应的参数向量w_西伯利亚和w_虎通过哈德玛积进行的组合，得到西伯利亚虎的初步实体向量

将关系科类拆分出单词[科类]中的每个单词对应的词向量

和其对应的参数向量 w_科类通过哈德玛积进行的组合，得到科类的初步关系向量

这里的

其中，b_{西伯利亚虎}和b_科类分别表示的是每个实体和关系对应的偏差，这里的偏差是和

的维度和

维度相同的向量。

这里将得到的全部的初步实体向量和初步关系向量和参数列表分别以实体向量文档，关系向量文档和参数列表文档保存到知识库文件中；这里的实体向量文档，关系向量文档和参数向量文档可以按照实体顺序，关系的顺序以及参数的内容以张量的形式保存成一种二进制的.npy文件，计算机在使用和计算过程中处理这种文件运行速度要比文档文件更快；

步骤4:通过深度学习的方法对所有的初步实体向量

和初步关系向量

进行处理，生成一一对应的最终的实体向量表示

和关系向量表示

所述对

的维度和

的处理，处理过程分为两类：

和初步关系向量

作为训练集，即对初步实体向量

中的参数向量W_ei和初步关系向量

中的参数向量W_ri进行训练，采用神经网络的随机梯度下降的方法使得损失函数L的数值在训练过程中得到最小值；在神经网络的训练后生成新的实体向量表示

和新的关系向量表示

损失函数L如下所示：

其中，γ为超参数，这个超参数是一个数字，可取值为1,5,15等数值，Δ是正样本集合，表示知识库文件中的三元组列表中的三元组(h,r,t)对应的向量形式三元组

的集合，其中

和

是三元组中h和t在实体向量文档中对应的向量，

是三元组中r在关系向量文档中对应的向量；Δ′是负样本集合，表示将知识库中的三元组列表中的三元组(h,r,t)随机用h’， h’∈E和t’，t’∈E替换h和t，将替换得到的不正确的三元组(h’,r,t’)对应的向量形式

的集合，

和

表示三元组对应的向量表示。

以动物信息表整理出的信息为例，这里的正样本集合就是这些动物信息表中获取出的若干个类似于(西伯利亚虎,科类,猫科)这样的三元组中各个部分对应为向量的向量结构的三元组的集合。这里以(西伯利亚虎,科类,猫科)为例，使用鹰科替换掉(西伯利亚虎,科类,猫科)中的最后的实体猫科，从而得到一个不正确的三元组(西伯利亚虎,科类,鹰科)，将这个不正确的三元组中的实体和关系的向量通过实体向量文档和关系体向量文档中获取对应的向量得到了一个错误的向量结构的三元组，通过类似的方法对所有的正确三元组对应的错误的向量结构的三元组；

通过第一类方法，正确的三元组对应的|f_r(ξ)|值要比错误的三元组对应的|f_r(ξ')|值小，这时取δ_r，使得|f_r(ξ)|＜δ_r＜|f_r(ξ')|；

第二类，是利用了深度学习技术中的LSTM对知识库文件的三元组列表中的三元组进行编码，对于知识库文件中的每一个三元组对应的向量形式

和知识库文件中的每一个三元组对应的向量构建的负样本

通过LSTM进行嵌入；每个三元组通过LSTM 得到每个三元组对应

和

使得正确的三元组经过LSTM后输出的低维向量的第一范数和第二范数的数值比错误的三元组的值小，此时取δ_r，使得|LSTM(ξ)|＜δ_r＜|LSTM(ξ')|；

将通过以上两类方式训练后的产生的实体向量表示

和关系向量表示

和参数W列表进行保存，更新知识库文件中实体向量文档，关系向量文档和参数列表文档；若使用的方法为第二类方法还需保存LSTM的参数到知识库文件中。

步骤5：处理待检索内容，定义为A，在步骤4更新后的知识库文件中检索，得到整理后的知识库中的信息及预测信息；

将A在知识库文件实体列表E里检索，步骤4.1和步骤4.2不分先后顺序；

5.1：若A是实体列表E中已经存在的内容，则在知识库文件中查询与A对应的实体，得到该实体在知识库文件的三元组列表中已经存在的三元组的信息和知识图谱的知识库的预测信息；如对于检索者待检索内容为爪哇虎，则返回(爪哇虎,纲类,哺乳纲)等知识库文件中已经存在的三元组和知识图谱的知识库的预测信息。5.1.1和5.1.2不分先后顺序；

所述知识图谱的知识库的预测信息包括：

或

5.1.2：实体关系信息的新组合进行的正确性预测：这种预测是针对一个知识图谱的知识库中已经存在的实体和关系构成的未知正确性的三元组f进行是否正确的判断，即对于一个检索信息库中的新信息f(h_f,r_f,t_f)，这里的实体h_f,t_f和关系r_f都在知识库文件中E和R中出现的实体和关系，但知识库文件三元组列表中没有出现这个三元组，用知识库文件中的实体向量文档和关系向量文档中已经保存的h_f,r_f,t_f对应的向量形式构成

进行推断，当得到

或

时，则认为该三元组为真，得到的预测信息为：判断为真的信息，并以三元组的表格形式的检索内容。以判断三元组(爪哇虎,科类,鹰科)正确性为例，这个三元组并非在知识图谱的三元组列表中出现，因此需要针对这个新信息进行判断其正确性，通过(爪哇虎,科类,鹰科)中包含的实体“爪哇虎”和“鹰科”和关系“科类”在实体向量文档和关系向量文档中对应的向量，计算

或

的数值，其中

是三元组(爪哇虎, 科类,鹰科)对应的向量形式。这时通过计算得到

则认为该三元组为假则不返回给检索者，相似的判断三元组(爪哇虎,科类,猫科)的正确性，通过计算

或

的数值，其中

是三元组(爪哇虎,科类,猫科)对应的向量形式。这时通过得到

则认为该三元组为真则并返回给检索者；

将待检索内容A作为一个新实体e_x，

并将实体e_x拆分成单词[e_x1,e_x2,...e_xn]，将其包含的词和知识库中实体列表的实体ei构成的词[e_i1,e_i2,...e_in]进行比较，若查询e_x和e_in拆分出的对应位置(e_in＝e_xn)的词最多的实体e_in唯一，则将该e_in定义为eA，若e_in拆分出的对应位置(e_in＝e_xn)的词最多的实体有多个，则将这些实体构成的词的词向量和e_xn构成的词的词向量做差，取差值最小的实体定义为eA，这里e_xn构成的词的词向量也是从词向量集合Glove中获取， e_x拆分出的词为动词或名词的变形没有在词向量集合中需要将该词变为原型，如果在遇到一些在知识库中并没有出现的词向量时可以通过深度学习的工具如tensorflow框架或pytorch框架等，numpy随机向量的等方式自动生成一个词向量，暂时作为这个单词的词向量；将e_A在参数列表W中对应的参数向量与e_x包含的单词进行组合，得到e_x的实体向量。如知识库列表中没有保存东北虎这一实体，通过知识库的比对会东北虎和华南虎在实体的构成过程中最为接近，都包含两个单词，且实体的最后一个词是虎，这时以华南虎在参数列表中对应的参数w_华南和w_虎和东北虎的词向量

和进行哈德玛积的组合：

得到东北虎的实体向量

再将实体向量通过步骤4.1.1对已有检索信息库内部信息的链式预测和步骤4.1.2实体关系信息的新组合进行的正确性预测，得到的预测信息为：三元组的表格形式的检索内容。

实施例2:

本实施例以基于知识表示学习的数据检索方法检索信息库中的文本为例，其流程如图1 所示。本实施例用到的文本为中国的介绍的文本，内容如下：

中国的介绍

中国正式是中华人民共和国(PRC)，是位于东亚的主权国家。人口超过13.81亿，是世界上人口最多的州。国家由首都设在北京的中国共产党科类管理。

基于知识表示学习的数据检索方法对上述文本的数据检索的步骤如图1所示，包括：

步骤1：整理检索信息库：这一步骤针对的主要是多源异构的数据进行整理并以一种结构化的形式对原有信息进行存储成为结构化文档的过程。由于此实施例为检索信息库中文本的信息，则需要使用自然语言处理中的命名实体识别技术将其全部实体进行标注，这里使用命名实体识别模型对文本中句子中的人名、地名和组织机构名以及其他所需的指定名词结构进行标注，得到句子中对应的实体，以中国的介绍为例，这些实体包括：中国，中华人民共和国，东亚，13.81亿。再通过关系抽取技术抽取出文本中全部的实体间的关系。再通过关系抽取模型对名词间的关系抽取，则以上句子可以获取成为三元组：(中国,位于,东亚),(中国, 人口,13.81亿)...(中国,首都,北京)。

步骤2:将结构化文件文档中的内容整理成为知识图谱的知识库的形式。将步骤1中文本处理出的(中国,位于,东亚),(中国,人口,13.81亿)等三元组，放入到知识库文件的三元组列表之中，再将知识库文件的三元组(实体，关系，实体)中的实体和关系分别放入到知识库文件中的实体列表和关系列表之中。这里知识库文档中的实体向量文档，关系向量文档和参数列表文档构造方式同实施例1中的步骤2。

步骤3至步骤5同实施例1中的步骤3至步骤5。

下面以系统的实现为例，详细描述本发明一种基于知识表示学习的数据检索方法的系统的具体实现：

实现一种基于知识表示学习的数据检索方法的系统，示意图如图2所示，模块包含：系统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块。

在一个示例性的实施方案中，该系统分别说明在知识图谱的知识库的构建和检索者使用检索系统的步骤。

知识图谱的知识库构建的步骤如下：

该系统通过信息处理模块将检索信息库中内容整理成结构化文件并保存到结构化文件文档中。当检索信息库中的文档形式内容和数据库形式内容整理成结构化文件并保存到结构化文件文档中；将结构化文件文档中的内容整理形成三元组的数据形式(实体，关系，实体)，并将这种三元组的数据形式的内容全部保存到知识库文件的三元组列表文档中，与此同时将三元组中的实体集合和关系集合制作成为实体列表，和关系列表存入知识库文件，并以文档形式传输给知识图谱表示学习模块。

该系统通过知识图谱的表示学习模块，用于将信息处理模块传输过来的知识库文件中的三元组列表中的信息通过知识表示学习的方法，实现已有知识库中的实体和关系的向量表示，并将实体和关系的向量表示以文档形式存入知识库文件之中。其中实体关系嵌入单元，用于处理信息处理模块传入的知识库文件的三元组列表中三元组形式的数据信息，得到初步的实体和关系的向量，知识库文件的三元组列表中的三元组作为数据集，再通过已有的深度学习神经网络的工具生成参数，将参数和已有的实体和关系拆分成的单词重新组合构造全部知识库文件中的实体和关系的向量表示将全部的初步的实体向量，关系的向量和相关参数分别以列表形式保存成为知识库文件的实体向量文档，关系向量文档和参数列表文档中并传输给三元组嵌入单元。三元组嵌入单元，用于将实体关系嵌入单元传输的列表形式的实体和关系的向量和相关参数通过神经网络进行训练得到最终的实体和关系的向量表示，并更新知识库文件中的实体向量文档，关系向量文档和参数列表文档。继而知识图谱预测单元根据三元组嵌入单元中实体向量文档，关系向量文档和参数列表文档的信息进行推理和预测，从而使得系统对待检索内容进行推理，并把推理信息传输给检索信息模块。进而通过检索信息模块将推理信息与检索信息库中已有的信息作为检索信息完成的信息传输给系统交互界面。

图3为检索者使用检索系统流程图，系统运行的步骤如下:

检索者在系统的系统交互界面上输入检索者待检索的内容，并将检索信息和预测信息以三元组形式返回给系统交互界面。系统通过检索信息模块将系统交互界面中输入的待检索的内容与知识图谱的知识库文件中的实体列表进行比对，判断待检索信息是否在检索信息库中；若检索信息存在于检索信息库中，则访问知识图谱的表示学习模块中的知识图谱预测单元，将原来的检索信息以及推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面；若检索信息不存在知识库中，则访问知识图谱的表示学习模块中的实体关系嵌入单元，得到检索信息对应的新的实体对应的向量，并将该数据传入到三元组嵌入单元和知识图谱预测单元，并将推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面；

系统将已经检索完成的信息在系统交互界面上返回给用户。该界面分为两部分，一部分是检索库信息，一部分是推理信息，两部分在系统交互界面上分类显示，将在检索库中检索到的信息标记为已知信息返回给用户，将通过知识库推理得到的信息标记为推理信息返回给用户。

由以上描述可以看出，本发明将机器无法理解的文件格式转为机器可以理解的结构化数据，通过知识图谱表示学习技术对结构化数据进行处理和挖掘，从而达到对检索出的内容的扩展，为检索者提供更多的经过推理和预测后的信息。

Claims

1.一种基于知识表示学习的数据检索方法，其特征在于，包括以下步骤：

步骤2：将结构化文件文档中的内容整理并保存到知识库文件中的三元组列表中；

步骤4:通过深度学习的方法对所有的初步实体向量

和初步关系向量

进行处理，生成一一对应的最终的实体向量表示

和关系向量表示

步骤5：定义待检索内容为A，在步骤4更新后的知识库文件中检索，得到整理后的知识库中的信息及预测信息。

2.根据权利要求1所述一种基于知识表示学习的数据检索方法，其特征在于，所述结构化文件的整理过程如下：

3.根据权利要求2所述的一种基于知识表示学习的数据检索方法，其特征在于，所述将文本形式的内容编辑成“实体，关系，实体”形式的内容的方法为：

4.根据权利要求1所述一种基于知识表示学习的数据检索方法，其特征在于，所述步骤2的过程如下：

若结构化文件文档中的内容是由文本形式整理出的文档，则直接将“实体，关系，实体”形式的内容保存在知识库文件中的三元组列表中；

5.根据权利要求4所述的一种基于知识表示学习的数据检索方法，其特征在于，所述数据库表中的数据内容包括：实体、属性和属性值。

6.根据权利要求1所述的一种基于知识表示学习的数据检索方法，其特征在于，所述步骤3的过程如下：

步骤3.2：将实体列表E中的第i个实体记为e_i,e_i∈E；关系列表R中的第i个关系记为r_i,r_i∈R；

步骤3.3：将E和R中的实体和关系分别标记数字并按包含的单词量进行拆分，即实体e_i∈E拆分成[e_i1,e_i2,...e_in]，关系r_i∈R拆分成[r_i1,r_i2,...,r_in]；其中e_in表示实体包含的单词，r_in表示关系包含的单词，n表示被拆分的实体或关系所拆分出的单词的数量；

步骤3.5：将e_in和r_in对应的词向量

和

和初步关系向量

具体公式如下：

的维度和

维度相同的向量，

表示的是哈德玛积；

7.根据权利要求1所述一种基于知识表示学习的数据检索方法，其特征在于，所述步骤4中对所有的初步实体向量

和初步关系向量

进行处理，处理过程分为两类：

和初步关系向量

作为训练集，即对初步实体向量

中的参数向量W_ei和初步关系向量

和新的关系向量

其中，损失函数L如下所示：

其中，γ为超参数，Δ是正样本集合，表示知识库文件中的三元组列表中的三元组(h,r,t)对应的向量形式三元组

的集合，其中

和

是三元组中h和t在实体向量文档中对应的向量，

的集合，

和

表示三元组对应的向量表示；

和知识库文件中的每一个三元组对应的向量构建的负样本

通过LSTM进行嵌入；每个三元组通过LSTM得到每个三元组对应

和

8.根据权利要求1所述一种基于知识表示学习的数据检索方法，其特征在于，所述步骤5的过程如下：

所述知识图谱的知识库的预测信息包括：

或

进行推断，当得到

或

将待检索内容A作为一个新实体e_x，

并将实体e_x拆分成单词[e_x1,e_x2,...e_xn]，将其包含的单词和知识库中实体列表的实体ei构成的单词[e_i1,e_i2,...e_in]进行比较，若查询e_x和e_in拆分出的对应位置，即e_in＝e_xn的单词最多的实体e_in唯一，则将该e_in定义为e_A，若e_in拆分出的对应位置，即e_in＝e_xn的单词最多的实体有多个，则将这些实体构成的词的词向量和e_xn构成的词的词向量做差，取差值最小的实体定义为e_A；将e_A在参数列表W中对应的参数向量与e_x包含的单词进行组合，得到e_x的实体向量，再将实体向量通过步骤5.1.1对已有检索信息库内部信息的链式预测和步骤5.1.2实体关系信息的新组合进行的正确性预测，得到的预测信息为三元组的表格形式的检索内容。

9.采用权利要求1至8中任意一项所述的基于知识表示学习的数据检索方法进行数据检索的系统，其特征在于包括：系统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块；

所述信息处理模块用于将当检索信息库中的文档形式内容和数据库形式内容整理成结构化文件并保存到结构化文件文档中；将结构化文件文档中的内容整理形成“实体，关系，实体”三元组的数据形式，并将这种三元组的数据形式的内容全部保存到知识库文件的三元组列表文档中，与此同时将三元组中的实体集合和关系集合制作成为实体列表，和关系列表存入知识库文件，并以文档形式传输给知识图谱表示学习模块；

所述检索信息模块，处理通过系统交互界面输入的待检索内容，并将检索信息和预测信息以三元组形式返回给系统交互界面，该模块将输入的待检索的内容与信息处理模块产生的实体列表进行比对，判断待检索信息是否在检索信息库中；若检索信息存在于检索信息库中，则访问知识图谱的表示学习模块中的知识图谱预测单元，将原来的检索信息以及推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面；若检索信息不存在知识库中，则访问知识图谱的表示学习模块中的实体关系嵌入单元，得到检索信息对应的新的实体对应的分布式结构化数据，并将该数据传入到三元组嵌入单元和知识图谱预测单元，并将推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面。

10.根据权利要求9所述采用基于知识表示学习的数据检索方法进行数据检索的系统，其特征在于，所述知识图谱的表示学习模块包括：实体关系嵌入单元、三元组嵌入单元、知识图谱预测单元：

所述的知识图谱预测单元，根据三元组嵌入单元中实体向量文档，关系向量文档和参数列表文档的信息进行推理和预测，从而使得系统对待检索内容进行推理，并把推理信息传输给系统交互界面。