CN113297369B

CN113297369B - 基于知识图谱子图检索的智能问答系统

Info

Publication number: CN113297369B
Application number: CN202110846067.7A
Authority: CN
Inventors: 陶建华; 于敏; 张大伟; 刘通; 杨国花
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2022-04-01
Anticipated expiration: 2041-07-26
Also published as: CN113297369A

Abstract

本发明提供基于知识图谱子图检索的智能问答系统，包括：所述问句处理模块识别用户输入问句中的实体，根据所述实体构建输入问句的句法依存树，得到实体之间的关系谓词；利用知识图谱嵌入得到知识图谱中三元组的低维稠密向量表示；将得到的用户输入问句中的实体映射到知识图谱中，得到每个实体在知识图谱中对应的候选实体列表，选择起点实体，引入关系谓词，在知识图谱中检索与之相匹配的知识图谱子图，再引入实体和关系谓词继续检索，迭代至全部的实体和关系谓词都引入完毕，输出检索到的知识图谱子图；再利用知识图谱子图过滤将检索得到的知识图谱子图进行剪枝；最后，输出相应结果。

Description

基于知识图谱子图检索的智能问答系统

技术领域

本发明涉及知识图谱领域，具体涉及基于知识图谱子图检索的智能问答系统。

背景技术

随着科学技术的发展，互联网应用已经渗透到人类生活的方方面面，信息检索是互联网背景下的重要技术应用，是人们获取信息的必要手段。目前，人们搜集信息的主要方式是通过传统搜索引擎，这种搜索方式一般只需要用户输入关键字，搜索引擎便会采取关键词匹配的方法将所有符合匹配条件的搜索结果呈现给用户。然而该方式难以满足用户的需求：一方面，不能返回给用户最直接的答案，而是一些与问题相关的网页或者文档，用户需要重新从这些网页或者文档中寻找最终想要的答案；另一方面，答案质量参差不齐，用户在查找、获取、理解方面存在困难。智能问答系统不仅允许用户以自然语言的方式提问，还能返回给用户准确且简洁的答案，避免了繁琐的人工筛选环节。因此，开放领域智能问答系统的应用能够进一步提高人们获取信息的便捷性、准确性。

公开号为CN111090735A提供一种基于知识图谱的智能问答方法及其性能评价方法。本发明公开了一种基于知识图谱的智能问答方法，其生成答案时的运行工作量更低；具体包括以下步骤：构建知识图谱；接收用户问题并将用户问题和知识图谱内的问题集分别进行向量化；将向量化后的用户问题与问题集中的问题分别进行相似度匹配，并得到多个语义相似度；将多个语义相似度排序，选择问题集中语义相似度最高的问题为命中问题；在知识图谱内检索出命中问题对应的命中答案，然后将命中答案形成完整的答案后输出。

公开号为CN110737763A公开了一种融合知识图谱和深度学习的中文智能问答系统及方法，该系统将用户输入的当前问题传递给语义预处理模块，语义预处理模块处理后将分词结果传递给问题检索模块，问题检索模块找出与当前问题相似的已知问题，并计算当前问题和已知问题的相似度，如果相似度满足阈值，则将已知问题的已知答案作为推荐答案；如果相似度不满足阈值，则知识推理模块对当前问题进行知识推理，如果推理结果的置信度满足阈值，则将推理结果作为推荐答案；如果置信度不满足阈值，则深度学习模型使用深度神经网络模型对分词结果进行预测，将预测结果作为推荐答案；推荐答案返回给用户以实现智能问答，从而本发明能够回答未知问题。

现有技术缺点：

现有的基于知识图谱的问答技术，在单一问题上已取得非常好的效果。但在实际问答场景下，用户的问题往往较为复杂，一旦问题过长或者存在多种关系与实体，现有方法的效果则不尽人意。

发明内容

有鉴于此，本发明提供一种基于知识图谱子图检索的智能问答系统，包括：问句处理模块、知识图谱嵌入模块、知识图谱子图检索模块、知识图谱子图过滤模块和答案输出模块；

所述问句处理模块识别用户输入问句中的实体，根据所述实体构建输入问句的句法依存树，得到实体之间的关系谓词；

所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量；

所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量；

所述知识图谱子图检索模块将问句实体集合中的实体映射到知识图谱中，在知识图谱中检索与所述问句实体集合中的实体相匹配的知识图谱子图；

所述知识图谱子图过滤模块采用LDA主题模型对知识图谱子图的节点进行筛选，得到筛选后的知识图谱子图；

所述答案输出模块输出筛选后的知识图谱子图。

在一些实施例中，所述问句处理模块具体的处理过程包括：

使用BERT模型对用户输入问句进行训练，得到问句的语义表示向量；

再将所述问句的语义表示向量输入BiLSTM，得到隐含层矩阵；

同时，将所述问句的语义表示向量输入到CNN，得到特征矩阵；

将所述隐含层矩阵和所述特征矩阵进行拼接，得到融合特征向量；

将所述融合特征向量经过全连接层，得到每个实体对应标签的概率；

采用条件随机场CRF学习标签间的约束关系；

通过Viterbi动态规划算法得到问句标签的最优序列，进而预测实体标签。

在一些实施例中，所述将所述问句的语义表示向量输入CNN，得到特征矩阵的具体方法为：

将每个t时刻的所述问句的语义表示向量以及其上下窗口为l大小的上下文向量合并作为卷积神经网络的输入。

在一些实施例中，所述问句处理模块模型的损失函数为：

其中，Z(x)表示归一化因子，h(y_i;x)表示融合特征向量的打分值，g(y_k;y_k+1 )表示参选训练的转移矩阵。

在一些实施例中，所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量的具体形式为：知识图谱K={K₁,K₂,…,K_n}，K_i=<E_i,R_i,A_i>，其中K_i表示第i个向量三元组，E_i，R_i和A_i分别表示第i个三元组的实体、关系谓词和答案；所述答案为知识图谱的属性或值。

在一些实施例中，所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量的具体形式为：K^’ _i=<E^’ _i, R^’ _i>，其中K^’ _i表示第i个向量，E^’ _i和R^’ _i分别表示问句处理模块得到的实体、实体之间的关系。

在一些实施例中，所述在知识库中检索与所述知识图谱相匹配的知识图谱子图的具体方法为：

计算知识库中与所述知识图谱中实体相同或相似的实体节点，形成候选实体列表，选择候选实体列表中候选实体数量最少的实体为起点，引入与起点实体相连接的关系谓词，检索知识库中与其相匹配的子图，再引入实体和关系谓词继续检索，如此迭代，直至所有的实体和关系谓词都引用完毕即可得到最终匹配的知识图谱子图。

在一些实施例中，所述计算知识库中与所述知识图谱中实体相同或相似的实体节点的具体方法为：采用余弦相似度计算知识库中与所述知识图谱中实体相同或相似的实体节点。

在一些实施例中，所述余弦相似度的计算公式为：

。

在一些实施例中，所述选实体列表的具体形式为：

其中，s_i：知识图谱中第i个候选实体的标签；

：输入问句中的第

个实体与知识图谱中第

个实体的余弦相似度。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

使用BERT模型、BiLSTM网络和CNN对问句进行处理，结合条件随机场对问句中的每个词语进行实体标签预测，能够提高问句实体的识别准确率；得到与问句相匹配的知识图谱子图后，再利用LDA主题模型对检索得到的知识图谱子图进行剪枝，进一步提高子图节点和问句的相关程度，从而提高问答系统针对复杂问题的问答准确率。

附图说明

图1为本发明实施例提供的基于知识图谱子图检索的智能问答系统的结构图；

图2为本发明实施例提供的知识图谱子图过滤模块采用LDA主题模型对知识图谱子图的节点进行筛选示意图；

图3为本发明实施例提供的根据所述实体构建输入问句的句法依存树示意图；

图4为本发明实施例提供的检索到的知识图谱子图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1：

本实施例提供了一种基于知识图谱子图检索的智能问答系统，包括：问句处理模块、知识图谱嵌入模块、知识图谱子图检索模块、知识图谱子图过滤模块和答案输出模块；

所述答案输出模块输出筛选后的知识图谱子图。

在一些实施例中，所述问句处理模块具体的处理过程包括：

再将所述问句的语义表示向量输入BiLSTM，得到隐含层矩阵；

采用条件随机场CRF学习标签间的约束关系；

在一些实施例中，所述问句处理模块模型的损失函数为：

在一些实施例中，所述余弦相似度的计算公式为：

。

在一些实施例中，所述选实体列表的具体形式为：

其中，s_i：知识图谱中第i个候选实体的标签；

：输入问句中的第

个实体与知识图谱中第

个实体的余弦相似度。

实施例2：

如图1所示本申请实施例提供的基于知识图谱子图检索的智能问答系统，包括：

问句处理模块、知识图谱嵌入模块、知识图谱子图检索模块、知识图谱子图过滤模块和答案输出模块；

假定输入问句的长度为n；所述问句处理模块识别用户输入问句中的实体，根据所述实体构建输入问句的句法依存树，得到实体之间的关系谓词，具体过程包括：

使用BERT模型对用户输入问句进行训练，得到问句的语义表示向量C=BERT(n)，C={C ₁, C ₂,…, C _n }；

再将所述问句的语义表示向量C输入BiLSTM，得到隐含层矩阵；

其中

和

分别表t时刻正反两方向的隐含层向量；H _t为t时刻最终输出向量；假定BiLSTM隐含层数为p，则将C={C ₁, C ₂,…, C _n }经过BiLSTM网络处理后得到n*p大小的隐含层矩阵；

对于语义表示向量C={C ₁, C ₂,…, C _n }，为获取t时刻输入的相邻字符特征，同时，将每个t时刻的所述问句的语义表示向量以及其上下窗口为l大小的上下文向量合并输入到CNN，

M _t=CNN(C _t-l,…, C _t,…,C _t+l}

M _t表示t时刻蕴含邻接字符信息的特征向量，假定CNN最后全连接层节点数为q，向量经过CNN模型后得到n*q大小的特征矩阵Q={Q ₁,Q ₂,…,Q _n }；

将所述隐含层矩阵和所述特征矩阵进行拼接，得到融合特征向量T _t=[H _t,Q _t]；融合特征向量T={T ₁,T ₂,…,T _n }既包含了文本整体特征也包含了字符级的短文本特征；

将所述融合特征向量经过全连接层，得到每个实体对应标签的概率N={N ₁,N ₂,…,N _n }，公式如下：

式中，W ^T表示训练权重矩阵，b表示偏置项。N _ij则代表问句中第i个token属于标签j的非归一化概率；

为了考虑标签间的约束关系，CRF引入一个转移矩阵A，A _ij代表标签转移到标签的转移概率；对于输入句子x来说，输出标签序列y={y₁,y₂,…,y_n }的得分定义为：

对所有输出序列y均计算得分，使用Viterbi算法选出得分最高的序列作为实体识别的输出结果；问句处理模块的目标是最大化真实标签关于输入问句的条件概率，最终的序列得分由融合特征矩阵和CRF打分共同决定。在使用线性链CRF的条件下，模型概率分布如下：

随后采用最大似然函数的方法得到问句处理模块模型的损失函数为：

其中，Z(x)表示归一化因子，h(y_i;x)表示融合特征向量的打分值，g(y_k;y_k+1 )表示参选训练的转移矩阵；

经过以上步骤则可得到用户输入问句中的实体，例如：

用户输入问句“What is the budget of the film directed by Paul Andersonand starred by a Chinese actor”，该句子经过上述步骤，可以得到实体“what”、“film”、“Paul Anderson”、“Chinese”、“actor”；

进一步地，通过识别到的实体构建输入问句的句法依存树，如图3所示；则能够得到实体之间的关系谓词为：<What, (be) budget of, film>, <film, directed by, PaulAnderson>, < film, directed starred by, actor >, < Paul Anderson, directed bystarred by, actor >；

所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量，具体形式为：K^’ _i=<E^’ _i, R^’ _i>，其中K^’ _i表示第i个向量，E^’ _i和R^’ _i分别表示问句处理模块得到的实体、实体之间的关系；

所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量，具体形式为：知识图谱K={K₁,K₂,…,K_n}，K_i=<E_i,R_i,A_i>，其中K_i表示第i个向量三元组，E_i，R_i和A_i分别表示第i个三元组的实体、关系谓词和答案；所述答案为知识图谱的属性或值；

所述知识图谱子图检索模块将问句实体集合中的实体映射到知识图谱中，在知识图谱中检索与所述问句实体集合中的实体相匹配的知识图谱子图，具体方法为：

采用余弦相似度计算知识库中与所述知识图谱中实体相同或相似的实体节点，形成候选实体列表，选择候选实体列表中候选实体数量最少的实体为起点，引入与起点实体相连接的关系谓词，检索知识库中与其相匹配的子图，再引入实体和关系谓词继续检索，如此迭代，直至所有的实体和关系谓词都引用完毕即可得到最终匹配的知识图谱子图；

所述余弦相似度的计算公式为：

所述选实体列表的具体形式为：

其中，s_i：知识图谱中第i个候选实体的标签；

：输入问句中的第

个实体与知识图谱中第

个实体的余弦相似度；

示例地，知识图谱嵌入模块已经得到实体“film”、“Paul Anderson”、“Chinese”、“actor”的向量表示，需要找到上述实体在知识图谱中相对应的实体（可能存在不止一个），形成候选实体列表，例如：

实体“film”的候选实体列表：<film, S_E1)>, <Filmex, S_E2>；

实体“Paul Anderson”的候选实体列表：<Paul_Anderson_(actor), S_E1>, <PaulS. Anderson, S_E2>，<Paul W. S. Anderson, S_E3>；

实体“Chinese”的候选实体列表：<Chinese, S_E1>, <China, S_E2>；

实体“actor”的候选实体列表：<actor, S_E1>；

选择候选实体列表中候选实体数量最少的实体为起点，引入与起点实体相连接的关系谓词，检索知识库中与其相匹配的子图，再引入实体和关系谓词继续检索，如此迭代，直至所有的实体和关系谓词都引用完毕即可得到最终匹配的知识图谱子图；

示例地，用户输入问句“What is the budget of the film directed by PaulAnderson and starred by a Chinese actor”检索到的知识图谱子图如图4所示；

所述知识图谱子图过滤模块采用LDA主题模型对知识图谱子图的节点进行筛选，得到筛选后的知识图谱子图；如图2所示，用户输入问句经过LDA主题模型后将得到相关主题分布，再将知识图谱子图中除答案节点之外的扩展节点输入LDA模型中进行判断，剔除掉与输入问句主题相关程度较低的节点作为结果返回；

所述答案输出模块输出筛选后的知识图谱子图。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.基于知识图谱子图检索的智能问答系统，其特征在于，包括：问句处理模块、知识图谱嵌入模块、知识图谱子图检索模块、知识图谱子图过滤模块和答案输出模块；

所述答案输出模块输出筛选后的知识图谱子图；

再将所述问句的语义表示向量输入BiLSTM，得到隐含层矩阵；

采用条件随机场CRF学习标签间的约束关系；

通过Viterbi动态规划算法得到问句标签的最优序列，进而预测实体标签；

所述将所述问句的语义表示向量输入CNN，得到特征矩阵的具体方法为：

将每个t时刻的所述问句的语义表示向量以及其上下窗口为l大小的上下文向量合并作为卷积神经网络的输入；

所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量的具体形式为：知识图谱K={K₁,K₂,…,K_n}，K_i=<E_i,R_i,A_i>，其中K_i表示第i个向量三元组，E_i，R_i和A_i分别表示第i个三元组的实体、关系谓词和答案；所述答案为知识图谱的属性或值；

所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量的具体形式为：K^’ _i=<E^’ _i, R^’ _i>，其中K^’ _i表示第i个向量，E^’ _i和R^’ _i分别表示问句处理模块得到的实体、实体之间的关系；

再将所述问句的语义表示向量C输入BiLSTM，得到隐含层矩阵；

其中

和

M _t=CNN(C _t-l,…, C _t,…,C _t+l}

M _t表示t时刻蕴含邻接字符信息的特征向量，假定CNN最后全连接层节点数为q，向量经过CNN模型后得到n*q大小的特征矩阵Q={Q ₁, Q ₂,…,Q _n }；

将所述隐含层矩阵和所述特征矩阵进行拼接，得到融合特征向量T _t=[H _t, Q _t]；融合特征向量T={T ₁, T ₂,…, T _n }既包含了文本整体特征也包含了字符级的短文本特征；

将所述融合特征向量经过全连接层，得到每个实体对应标签的概率N={N ₁, N ₂,…,N _n }，公式如下：

式中，W ^T表示训练权重矩阵，b表示偏置项；N _ij则代表问句中第i个token属于标签j的非归一化概率；

对所有输出序列y均计算得分，使用Viterbi算法选出得分最高的序列作为实体识别的输出结果；问句处理模块的目标是最大化真实标签关于输入问句的条件概率，最终的序列得分由融合特征矩阵和CRF打分共同决定；在使用线性链CRF的条件下，模型概率分布如下：

所述在知识库中检索与所述知识图谱相匹配的知识图谱子图的具体方法为：

计算知识库中与所述知识图谱中实体相同或相似的实体节点，形成候选实体列表，选择候选实体列表中候选实体数量最少的实体为起点，检索知识库中是否存在所述实体及候选实体，若存在则引入与起点的实体相连接的关系谓词进行匹配，若不存在则重新选择其它实体节点重新检索，如此迭代，直至所有的实体和关系谓词都引用完毕即可得到最终匹配的知识图谱子图。

2.根据权利要求1所述的基于知识图谱子图检索的智能问答系统，其特征在于，所述计算知识库中与所述知识图谱中实体相同或相似的实体节点的具体方法为：采用余弦相似度计算知识库中与所述知识图谱中实体相同或相似的实体节点。

3.根据权利要求2所述的基于知识图谱子图检索的智能问答系统，其特征在于，所述余弦相似度的计算公式为：

。

4.根据权利要求3所述的基于知识图谱子图检索的智能问答系统，其特征在于，所述选实体列表的具体形式为：

其中，

s_i：知识图谱中第i个候选实体的标签；

：输入问句中的第

个实体与知识图谱中第

个实体的余弦相似度。