CN112765312A

CN112765312A - 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统

Info

Publication number: CN112765312A
Application number: CN202011624049.6A
Authority: CN
Inventors: 李肯立; 李旻佳; 刘楚波; 肖国庆; 周旭; 阳王东; 唐卓; 李克勤
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07
Anticipated expiration: 2040-12-31
Also published as: CN112765312B

Abstract

本发明公开了一种基于图神经网络嵌入匹配的知识图谱问答方法，包括：获取来自用户的问句，使用命名实体识别工具对该问句进行处理，以获得该问句中的实体，并利用句法分析工具对问句进行处理，以获得该问句对应的查询图和主题词；利用实体近义词字典对得到的主题词进行实体链接处理，以得到知识图谱中的主题词，并将知识图谱中的主题词输入知识图谱进行检索，以得到主题图，根据得到的主题图、以及得到的查询图输入训练好的图嵌入匹配模型中，以得到问句的答案。本发明能解决现有语义解析方法其模板并不能完全适用所有的自然语言问句的技术问题，对于语义相似的模糊查找能力较弱，并会生成众多不必要的查询语句，进而导致查询效率低下的技术问题。

Description

一种基于图神经网络嵌入匹配的知识图谱问答方法和系统

技术领域

本发明属于人工智能技术领域，更具体地，涉及一种基于图神经网络嵌入匹配的知识图谱问答方法和系统。

背景技术

融合人类知识是人工智能的研究方向之一。知识表示和推理，受人类解决问题的启发，是为智能系统表示知识，以获得解决复杂任务的能力。近年来，知识图谱作为结构化人类知识的一种形式，引起了学术界和工业界的极大关注。知识图谱是由一些相互连接的实体和其属性构成。换句话说，知识图谱是由一条条知识组成，每条知识表示为一个三元组，实体、关系、实体 (Entity-Relation-Entity)。实体可以是现实世界的对象和抽象概念，关系表示实体之间的关系。知识图谱问答(Knowledge base question answering，简称KBQA)利用图谱丰富的语义关联信息，能够深入理解用户问题并给出答案，近年来吸引了学术界和工业界的广泛关注。然而，随着知识图谱规模的不断扩大，如何快速且准确的进行问答，也成为KBQA的主要挑战。

现有的KBQA方法包括语义解析(Semantic Parsing)方法以及信息检索(Information retrieval)方法；针对基于语义解析的主流方法而言，主要通过语义分析，精准的识别问句中每个实体与关系，再依据句法依存关系，套入问句模板中，形成结构化查询语句，在数据库中进行查找；针对基于信息检索的方法而言，它们主要通过分析问句特征向量，与主题词到答案路径的特征向量，分析得到问句与答案匹配概率，得到匹配结果。

然而，上述KBQA方法均存在一些不可忽略的缺陷：语义解析方法在自然语言问句形式多变时，其模板并不能完全适用所有的自然语言问句；此外，由于该方法需要形成结构化查询语句，该方法对于语义相似的模糊查找能力较弱，并会生成众多不必要的查询语句，进而导致查询效率低下；针对信息检索方法而言，知识图谱与查询图均为图结构，单纯从单向序列结构的角度进行分析并不足以学习到完整的语义特征，从而导致查询准确性较低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于图神经网络嵌入匹配的知识图谱问答方法和系统，其目的在于，解决现有语义解析方法其模板并不能完全适用所有的自然语言问句的技术问题，现有语义解析方法对于语义相似的模糊查找能力较弱，并会生成众多不必要的查询语句，进而导致查询效率低下的技术问题，以及现有信息检索方法由于单纯从单向序列结构的角度进行分析，导致不能够学习到完整的语义特征，进而导致查询准确性较低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于图神经网络嵌入匹配的知识图谱问答方法，包括以下步骤：

(1)获取来自用户的问句，使用命名实体识别工具对该问句进行处理，以获得该问句中的实体，并利用句法分析工具对问句进行处理，以获得该问句对应的查询图和主题词；

(2)利用实体近义词字典对步骤(1)得到的主题词进行实体链接处理，以得到知识图谱中的主题词，并将知识图谱中的主题词输入知识图谱进行检索，以得到主题图。

(3)根据步骤(2)得到的主题图、以及步骤(1)得到的查询图输入训练好的图嵌入匹配模型中，以得到问句的答案。

优选地，步骤(1)具体包括以下子步骤：

(1-1)获取来自用户的问句，使用命名实体识别工具获取该问句中的所有实体。

(1-2)使用句法分析工具对步骤(1-1)得到的问句进行处理，以得到问句的句法依存树；

(1-3)使用句法分析工具对问句进行处理，以得到问句中每个词的词性；

(1-4)根据步骤(1-1)得到的实体、以及步骤(1-3)得到的问句中每个词的词性去除问句中的所有分词，并根据步骤(1-2)得到的该问句的句法依存树对去除了所有分词后的问句进行处理，以得到该问句中实体间的关系。

(1-5)根据步骤(1-1)得到的实体、步骤(1-4)得到的该问句中实体间的关系、以及步骤(1-2)得到的句法依存树，获取该问句对应的一个查询图；

(1-6)对步骤(1-5)得到的查询图进行解析，以得到主题词；

优选地，步骤(2)具体包括以下子步骤：

(2-1)利用实体近义词字典对步骤(1)得到的主题词进行实体链接处理，以得到知识图谱中的主题词。

(2-2)利用步骤(2-1)得到知识图谱中的主题词，在已有的知识图谱中进行检索，以得到主题词周围两跳内的实体，以及实体之间的关系。

(2-3)根据步骤(2-2)得到的主题词周围两跳内的实体、实体之间的关系、以及步骤(2-1)得到的主题词构建子图作为主题图。

优选地，主题词周围两跳内的实体是指主题词的邻居实体以及该邻居实体的邻居实体；

图嵌入匹配模型包括依次连接的长短期记忆网络LSTM网络、GCN网络、以及Sinkhorn网络。

优选地，步骤(3)中的图嵌入匹配模型是通过以下步骤训练得到的：

(3-1)获取P对问题-答案数据构成的训练集和K对问题-答案数据构成的测试集，分别对训练集和测试集执行上述进步骤(1)和步骤(2)的处理，以得到P对训练用查询图与训练主题图，以及K对测试用查询图与测试用主题图；其中P和K均为自然数，且P和K的比例是4:1。

(3-2)获取步骤(3-1)得到的P个训练用查询图中每张训练用查询图对应的所有实体、实体之间的关系，将每张训练用查询图对应的每个实体和每个关系输入到已训练好的公共词向量GloVe模型中，以得到每个实体和每个关系中每个单词的词向量(其是d维)，一个实体中所有单词的词向量构成该实体对应的一个C×d维实体单词词向量矩阵

其中C表示实体中的单词数目；一个关系中所有单词的词向量构成该关系对应的一个B×d 维关系单词词向量矩阵

其中B表示关系中的单词数目，d＝300；

(3-3)将一个实体对应的实体单词词向量矩阵

输入到LSTM网络中，以得到该实体的1×d维实体词向量Ew，构成N×d维实体词向量矩阵 Z^E，其中N表示训练用查询图中的实体数目；将一个关系对应的关系单词词向量矩阵

输入到LSTM网络中，以得到该关系的1×d维关系词向量Rw，构成L×d维关系词向量矩阵Z^R,其中L表示训练用查询图的关系数目；将获取的实体词向量矩阵Z^E和关系词向量矩阵Z^R，进行拼接处理，以得到 (N+L)×d维的词向量矩阵Z，依据训练用查询图中实体与实体间的邻接关系、以及实体与关系间的连接关系进行计算，以得到(N+L)×(N+L) 维邻接矩阵A，将获取的词向量矩阵Z以及邻接矩阵A同时输入到GCN中，以得到训练用查询图的实体特征向量矩阵

(3-4)获取步骤(3-1)得到的P个训练用主题图中每张训练用主题图对应的所有实体、实体之间的关系，将每张训练用主题图对应的每个实体和每个关系输入到已训练好的公共词向量GloVe模型中，以得到每个实体和每个关系中每个单词的词向量(其是d维)，一个实体中所有单词的词向量构成该实体对应的一个C×d维实体单词词向量矩阵

其中B表示关系中的单词数目，d＝300；

(3-5)将一个实体对应的实体单词词向量矩阵

输入到LSTM网络中，以得到该实体的1×d维实体词向量Ew，构成M×d维实体词向量矩阵 Z^E，其中M表示训练用主题图的实体数目；将一个关系对应的关系单词词向量矩阵

输入到LSTM网络中，以得到该关系的1×d维关系词向量Rw，构成I×d维关系词向量矩阵Z^R,其中L表示训练用主题图的关系数目；将获取的实体词向量矩阵Z^E和关系词向量矩阵Z^R，进行拼接处理，以得到(M+I) ×d维的词向量矩阵Z。依据训练用主题图中实体与实体间的邻接关系，以及实体与关系间的连接关系进行计算，以得到(M+I)×(M+I)维邻接矩阵A，将获取的词向量矩阵Z以及邻接矩阵A同时输入到GCN中，以获得训练用主题图的实体特征向量矩阵

(3-6)根据步骤(3-3)得到的训练用查询图N×d维实体特征向量矩阵和根据步骤(3-5)得到的训练用主题图M×d维实体特征向量矩阵，计算训练用查询图与训练用主题图中各个实体间的相似度，以得到相似度矩阵S。

(3-7)使用Sinkhorn网络对步骤(3-6)得到的N×M维相似度矩阵S，进行列归一化，以得到问句p的预测匹配矩阵S^*；

(3-8)根据步骤(3-7)得到的问句p预测匹配矩阵S^*，并使用交叉熵损失函数L对图嵌入匹配模型进行迭代训练，直到该图嵌入匹配模型收敛为止，以得到训练好的图嵌入匹配模型和预测答案y。

(3-9)根据步骤(3-1)得到的K对问答-答案数据构成的测试集对训练好的模型进行验证，直到得到的匹配精度达到最优为止，从而得到训练好的图嵌入匹配模型。

优选地，步骤(3-2)具体为：

首先，将C×d维实体单词词向量矩阵

输入到LSTM网络中，以从该网络的输出层中得到训练用查询图中每个实体e∈{e₁,e₂...,e_n}的1×d维词特征向量Ew：

Ew＝F_lstm(e,θ_lstm)

其中，F_lstm表示LSTM网络，θ_lstm表示LSTM网络的参数。

同时，将B×d维关系单词词向量矩阵

输入到LSTM网络中，以从该网络的输出层中得到训练用查询图中每个关系r∈{r₁,r₂...,r_n}的1×d维词特征向量Rw：

Rw＝F_lstm(r,θ_lstm)

其中，F_lstm表示LSTM网络，θ_lstm表示LSTM网络的参数。

然后，将以上所有实体词特征向量拼接，构成N×d维实体词向量矩阵 Z^E，其中N为训练用查询图中实体的数目；关系词特征向量结合，构成L×d 维关系词向量矩阵Z^R，其中L表示训练用查询图的关系数目。

随后，依据训练用查询图中实体i与实体j之间的邻接关系，得到矩阵A_ij：

依据训练用查询图中实体p与关系k之间的连接关系，得到矩阵A_pk：

从而整体构成(N+L)×(N+L)维邻接矩阵A。

然后，将L×d维关系词向量矩阵Z^R与N×d维实体词向量矩阵Z^E进行拼接处理，以得到(N+L)×d维的词向量矩阵Z。

随后，将邻接矩阵A与词向量矩阵Z同时输入GCN网络中，以获取 GCN网络中第l+1层的词向量矩阵Z^l+1，其中l＝0，最终得到的词向量矩阵 Z¹就是所有实体与关系的(N+L)×d维特征向量矩阵，其中前N×d维特征向量矩阵，也即为实体特征向量矩阵

其中，Z^l，U^l和f^l分别表示GCN网络中第l层的输入特征矩阵、第l 层的权重矩阵、以及第l层的非线性激活函数，Z⁰＝Z，

表示最终的邻接矩阵A的标准化版本，其计算过程如下：

其中，

I_C是单位矩阵，

是顶点度数的对角矩阵且满足

其中，i表示矩阵

的行序号，j表示矩阵

的列序号，

表示矩阵

的对角元素值。

优选地，步骤(3-6)中的相似度矩阵S为N×M维，并且是通过以下公式得到的：

优选地，步骤(3-7)具体为，首先，将N×M维相似度矩阵S输入Sinkhorn网络，以获取Sinkhorn中第k层的列行归一化后的矩阵S^k，其中k＝1，其计算过程如下：

其中，S⁰＝S，

表示按元素除，11^T表示N×N维方阵，其元素全为1。

优选地，步骤(3-8)中的交叉熵损失函数L为：

其中，p∈P表示是训练集P中的一条训练数据，S^*表示问句p的预测匹配矩阵，

表示真实匹配矩阵，Qe表示一张训练集查询图的实体集合，Te 表示一张训练集主题图的实体集合，疑问词实体匹配的结果即为预测答案y。

按照本发明的另一方面，提供了一种基于图神经网络嵌入匹配的知识图谱问答系统，包括：

第一模块，用于获取来自用户的问句，使用命名实体识别工具对该问句进行处理，以获得该问句中的实体，并利用句法分析工具对问句进行处理，以获得该问句对应的查询图和主题词；

第二模块，用于利用实体近义词字典对第一模块得到的主题词进行实体链接处理，以得到知识图谱中的主题词，并将知识图谱中的主题词输入知识图谱进行检索，以得到主题图；

第三模块，用于根据第二模块得到的主题图、以及第一模块得到的查询图输入训练好的图嵌入匹配模型中，以得到问句的答案。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明由于采用了步骤(1)，其从问句句法结构出发，得到一张确定的查询图，不用使用预先设定的模板，因此能够解决现有语义解析方法其模板并不能完全适用所有的自然语言问句的技术问题；

(2)本发明由于采用了步骤(1)和步骤(3-2)，其从问句句法结构出发，生成一张确定的查询图并用图嵌入匹配模型学习到完整的语义特征，因此能够解决现有语义解析方法对于语义相似的模糊查找能力较弱，并会生成众多不必要的查询语句，进而导致查询效率低下的技术问题；

(3)本发明由于采用了步骤(3-2)和步骤(3-3)，其使用图卷积网络对查询图和主题图进行嵌入，使图中节点能从图的角度学习到完整的语义特征，因此能够解决现有信息检索方法由于单纯从单向序列结构的角度进行分析，导致不能够学习到完整的语义特征，进而导致查询准确性较低的技术问题；

(4)本发明技术方案查询效率快，精度高。能够充分满足用户的查询需求。

附图说明

图1是本发明基于图神经网络嵌入匹配的知识图谱问答方法的流程示意图；

图2是本发明基于图神经网络嵌入匹配的知识图谱问答方法的细化流程示意图；

图3是本发明基于图神经网络嵌入匹配的知识图谱问答方法系统的结构框图；

图4是本发明计算机设备的内部结构图。

图5是本发明图嵌入匹配网络模型的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，提供一种高效精准的问答系统。它能够获取问句中实体的语义特征，近义词应有相似的语义特征，通过图嵌入匹配方式，使实体得到了的邻居特征，通过匹配相似的特征向量，即可找到查询结果，这样避免了语义解析中生成众多，相似但不必要查询语句的缺点提高了查询效率。由于从图嵌入角度进行特征提取，相对于从单向序列结构提取特征的信息检索方法，提高了查询准确性。

如图1和图2所示，本发明提供了一种基于图神经网络嵌入匹配的知识图谱问答方法，包括以下步骤：

(1)获取来自用户的问句(其是自然语言的问句，例如“北京是哪里的首都？”)，使用命名实体识别工具对该问句进行处理，以获得该问句中的实体，并利用句法分析工具对问句进行处理，以获得该问句对应的查询图和主题词；

本步骤具体包括以下步骤：

具体而言，本步骤中的命名实体识别工具是例如nltk、spacy以及 StanfordcoreNLP；实体一般表示为词组。

具体而言，本步骤中的句法分析工具是斯坦福解析器(Stanford Parser)；问句的句法依存树表示的是问句中每个词之间的依存关系。

具体而言，本步骤中的句法分析工具是斯坦福解析器(Stanford Parser)；词性是诸如名词、动词、代词、疑问词、分词、根词等。

具体而言，关系一般表示为词组，其意义是两个实体之间事实的联系。对于三元组而言，其中实体的头尾关系，是根据问句的句法依存关系决定，一般来说尾实体依存于头实体。

具体而言，查询图的存储格式为三元组，形如<头实体，关系，尾实体>。

例如，对于问句“北京是哪里的首都？”而言，其查询图为<“哪里”，首都，北京>。

(1-6)对步骤(1-5)得到的查询图进行解析，以得到主题词；

具体而言，主题词为实体，在查询图中，一个相对于其他实体而言拥有更多邻居实体的实体就是主题词。

例如，对于查询图“<美国，科学家，爱因斯坦>，<爱因斯坦，妻子，“谁”>”而言，其主题词为“爱因斯坦”。

本步骤具体包括以下步骤：

具体而言，本步骤中的实体近义词字典是公开的实体近义词字典，诸如CrossWikis字典。

具体而言，本步骤中的知识图谱是公开的知识图谱，诸如Freebase以及DBpedia。

具体而言，主题词周围两跳内的实体是指，主题词的邻居实体以及该邻居实体的邻居实体，二者分别表示为，<主题词，关系，邻居>，<邻居，关系，邻居的邻居>。

本发明的图嵌入匹配模型包括依次连接的长短期记忆网络(Long Short- TermMemory，简称LSTM)网络、图卷积(Graph convolution Network，简称GCN)网络、以及Sinkhorn网络。

具体而言，本步骤中的图嵌入匹配模型是通过以下步骤训练得到的：

具体而言，本步骤获取的问题-答案数据是来自例如WebQuestions数据集、Complex Questions数据集，GraphQuestions数据集等。

(3-2)获取步骤(3-1)得到的P个训练用查询图中每张训练用查询图对应的所有实体、实体之间的关系(其过程和上述步骤(2-2)完全相同，在此不再赘述)，将每张训练用查询图对应的每个实体和每个关系输入到已训练好的公共词向量GloVe模型中，以得到每个实体和每个关系中每个单词的词向量(其是d维)，一个实体中所有单词的词向量构成该实体对应的一个C×d维实体单词词向量矩阵

其中C表示实体中的单词数目；一个关系中所有单词的词向量构成该关系对应的一个B×d维关系单词词向量矩阵

其中B表示关系中的单词数目，d＝300；

(3-3)将一个实体对应的实体单词词向量矩阵

输入到LSTM网络中，以得到该关系的1×d维关系词向量 Rw，构成L×d维关系词向量矩阵Z^R,其中L表示训练用查询图的关系数目；将获取的实体词向量矩阵Z^E和关系词向量矩阵Z^R，进行拼接处理，以得到 (N+L)×d维的词向量矩阵Z，依据训练用查询图中实体与实体间的邻接关系、以及实体与关系间的连接关系进行计算，以得到(N+L)×(N+L) 维邻接矩阵A，将获取的词向量矩阵Z以及邻接矩阵A同时输入到GCN中，以得到训练用查询图的实体特征向量矩阵

步骤(3-3)具体为：

首先，将C×d维实体单词词向量矩阵

Ew＝F_lstm(e,θ_lstm)

其中，F_lstm表示LSTM网络，θ_lstm表示LSTM网络的参数。

同时，将B×d维关系单词词向量矩阵

Rw＝F_lstm(r,θ_lstm)

其中，F_lstm表示LSTM网络，θ_lstm表示LSTM网络的参数。

然后，将以上所有实体词特征向量拼接，构成N×d维实体词向量矩阵 Z^E，其中N为训练用查询图中实体的数目；关系词特征向量结合，构成L ×d维关系词向量矩阵Z^R，其中L表示训练用查询图的关系数目。

随后，依据训练用查询图中实体i与实体j之间的邻接关系，得到矩阵 A_ij：

从而整体构成(N+L)×(N+L)维邻接矩阵A。

随后，将邻接矩阵A与词向量矩阵Z同时输入GCN网络中，以获取GCN网络中第l+1层的词向量矩阵Z^l+1，其中l＝0，最终得到的词向量矩阵 Z¹就是所有实体与关系的(N+L)×d维特征向量矩阵，其中前N×d维特征向量矩阵，也即为实体特征向量矩阵

表示最终的邻接矩阵A的标准化版本，其计算过程如下：

其中，

I_C是单位矩阵，

是顶点度数的对角矩阵且满足

其中，i表示矩阵

的行序号，j表示矩阵

的列序号，

表示矩阵

的对角元素值。

本步骤的优点在于，首先使用词向量作为实体特征向量的初始向量，使初始向量包含语义特征，进而采用GCN网络学习图的结构特征，并将这些关系融入到实体特征向量中，因此能够保证后续匹配实体工作的准确性，相较于以往匹配方法需要实体与关系同时匹配，保证了查询的精准性，提高了查询效率。

(3-4)获取步骤(3-1)得到的P个训练用主题图中每张训练用主题图对应的所有实体、实体之间的关系(其过程和上述步骤(2-2)完全相同，在此不再赘述)，将每张训练用主题图对应的每个实体和每个关系输入到已训练好的公共词向量GloVe模型中，以得到每个实体和每个关系中每个单词的词向量(其是d维)，一个实体中所有单词的词向量构成该实体对应的一个C×d维实体单词词向量矩阵

其中B表示关系中的单词数目，d＝300；

(3-5)将一个实体对应的实体单词词向量矩阵

输入到LSTM网络中，以得到该关系的1×d维关系词向量Rw，构成I×d维关系词向量矩阵Z^R,其中L表示训练用主题图的关系数目；将获取的实体词向量矩阵Z^E和关系词向量矩阵Z^R，进行拼接处理，以得到 (M+I)×d维的词向量矩阵Z。依据训练用主题图中实体与实体间的邻接关系，以及实体与关系间的连接关系进行计算，以得到(M+I)×(M+I) 维邻接矩阵A，将获取的词向量矩阵Z以及邻接矩阵A同时输入到GCN中，以获得训练用主题图的实体特征向量矩阵

具体而言，本步骤训练的模型和方法，与(3-3)步骤相同，因此不再赘述。

具体而言，本步骤中的相似度矩阵S是通过以下步骤得到的：

相似度矩阵共有N行M列，相似度矩阵表第i行表示训练用查询图中第i个实体，与训练用主题图中所有实体的余弦相似度。相似度矩阵表第j 列表示训练用主题图中第j个实体，与训练用查询图中所有实体的余弦相似度。相似度计算公式如下。

相似度矩阵为N×M维。

(3-7)使用Sinkhorn网络对步骤(3-6)得到的N×M维相似度矩阵S，进行列归一化，以得到问句p的预测匹配矩阵S^*。

步骤(3-7)具体为，首先，将N×M维相似度矩阵S输入Sinkhorn网络，以获取Sinkhorn网络中第k层的列行归一化后的矩阵S^k，其中k＝1，其计算过程如下：

其中，S⁰＝S，

表示按元素除，11^T表示N×N维方阵，其元素全为1。

具体而言，交叉熵损失函数L为：

(3-9)根据步骤(3-1)得到的K对问题-答案数据构成的测试集对训练好的模型进行验证，直到得到的匹配精度达到最优为止，从而得到训练好的图嵌入匹配模型。

如图3所示，本申请还提供了一种基于图神经网络嵌入匹配的知识图谱问答系统，包括：

问句处理模块，用于获取来自用户的问句，使用命名实体识别工具对该问句进行处理，以获得该问句中的实体，并利用句法分析工具对问句进行处理，以获得该问句对应的查询图和主题词；

信息检索模块，用于利用实体近义词字典对问句处理模块得到的主题词进行实体链接处理，以得到知识图谱中的主题词，并将知识图谱中的主题词输入知识图谱进行检索，以得到主题图；

图嵌入匹配模块，用于根据信息检索模块得到的主题图、以及问句处理模块得到的查询图输入训练好的图嵌入匹配模型中，以得到问句的答案。

关于基于图神经网络嵌入匹配的知识图谱问答系统的具体限定可以参见上文中对于基于图神经网络嵌入匹配的知识图谱问答方法的限定，在此不再赘述。上述基于图神经网络嵌入匹配的知识图谱问答系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设知识图谱数据库以及实体近义词表等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时，用于实现一种基于图神经网络嵌入匹配的知识图谱问答方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM) 或闪存。易失性存储器可包括随机存取存储器(RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图神经网络嵌入匹配的知识图谱问答方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图神经网络嵌入匹配的知识图谱问答方法，其特征在于，步骤(1)具体包括以下子步骤：

(1-6)对步骤(1-5)得到的查询图进行解析，以得到主题词。

3.根据权利要求1或2所述的基于图神经网络嵌入匹配的知识图谱问答方法，其特征在于，步骤(2)具体包括以下子步骤：

4.根据权利要求1至3中任意一项所述的基于图神经网络嵌入匹配的知识图谱问答方法，其特征在于，

主题词周围两跳内的实体是指主题词的邻居实体、以及该邻居实体的邻居实体；

5.根据权利要求1至4中任意一项所述的基于图神经网络嵌入匹配的知识图谱问答方法，其特征在于，步骤(3)中的图嵌入匹配模型是通过以下步骤训练得到的：

其中B表示关系中的单词数目，d＝300；

(3-3)将一个实体对应的实体单词词向量矩阵

输入到LSTM网络中，以得到该实体的1×d维实体词向量Ew，构成N×d维实体词向量矩阵Z^E，其中N表示训练用查询图中的实体数目；将一个关系对应的关系单词词向量矩阵

输入到LSTM网络中，以得到该关系的1×d维关系词向量Rw，构成L×d维关系词向量矩阵Z^R,其中L表示训练用查询图的关系数目；将获取的实体词向量矩阵Z^E和关系词向量矩阵Z^R，进行拼接处理，以得到(N+L)×d维的词向量矩阵Z，依据训练用查询图中实体与实体间的邻接关系、以及实体与关系间的连接关系进行计算，以得到(N+L)×(N+L)维邻接矩阵A，将获取的词向量矩阵Z以及邻接矩阵A同时输入到GCN中，以得到训练用查询图的实体特征向量矩阵

其中B表示关系中的单词数目，d＝300；

(3-5)将一个实体对应的实体单词词向量矩阵

输入到LSTM网络中，以得到该实体的1×d维实体词向量Ew，构成M×d维实体词向量矩阵Z^E，其中M表示训练用主题图的实体数目；将一个关系对应的关系单词词向量矩阵

输入到LSTM网络中，以得到该关系的1×d维关系词向量Rw，构成I×d维关系词向量矩阵Z^R,其中L表示训练用主题图的关系数目；将获取的实体词向量矩阵Z^E和关系词向量矩阵Z^R，进行拼接处理，以得到(M+I)×d维的词向量矩阵Z。依据训练用主题图中实体与实体间的邻接关系，以及实体与关系间的连接关系进行计算，以得到(M+I)×(M+I)维邻接矩阵A，将获取的词向量矩阵Z以及邻接矩阵A同时输入到GCN中，以获得训练用主题图的实体特征向量矩阵