CN111159345A

CN111159345A - 一种中文知识库答案获取方法及其装置

Info

Publication number: CN111159345A
Application number: CN201911378934.8A
Authority: CN
Inventors: 赵小虎; 有鹏; 张志强; 赵成龙; 李婉梅
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-15
Anticipated expiration: 2039-12-27
Also published as: CN111159345B

Abstract

本发明涉及一种中文知识库答案获取方法及其装置，属于答案获取技术领域，解决了现有方法的答案获取结果准确度低的问题。方法包括：对用户输入的问题进行命名实体识别，获得问题的核心主题；根据核心主题检索中文知识库，获得待选答案；根据深度语义匹配模型分别将问题和待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间，获得字层次语义相似度和词层次语义相似度，得到问题和待选答案谓语之间的全局语义相似度；得到检索谓语，利用所述核心主题和检索谓语检索中文知识库得到最终答案。实现了融合字和词层次捕获问题和待选答案中谓语的相似度，提高了答案获取结果的准确率。

Description

一种中文知识库答案获取方法及其装置

技术领域

本发明涉及答案获取技术领域，尤其涉及一种中文知识库答案获取方法及其装置。

背景技术

知识问答的目的在于从知识库中提取答案，目前基于知识库的答案获取方法可以分为两类:基于语义分析(SP)的方法和基于信息检索(IR)的方法。基于SP的方法，将自然语言问句转换为某种逻辑表达形式来获取答案，语义分析错误会导致无法获得正确的答案。基于信息检索的方法，直接查询自然语言问题从知识库中检索出答案，作为正确答案返回。

目前，已经存在许多大规模的中文知识库，基于中文知识库的答案获取得到了迅速发展。卷积神经网络和门控循环单元(GRU)模型被用来对问句进行语义层次的表示。

虽然卷积网络、GRU模型等能够提高知识答案获取的准确性，但是目前中文知识答案获取研究仅衡量了问句和谓语分词后的相似度，由于中文自然语言的特殊性，分词会导致的误差传播以及分词前的语义丢失，造成答案获取结果的准确度低。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种中文知识库答案获取方法及其装置，用以解决现有的方法获得的答案获取结果准确度低的问题。

本发明的目的主要是通过以下技术方案实现的：

一种中文知识库答案获取方法，包括如下步骤：

对用户输入的问题进行命名实体识别，获得问题的核心主题；

根据上述核心主题检索中文知识库，获得待选答案；

根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间，获得字层次语义相似度和词层次语义相似度，得到问题和待选答案谓语之间的全局语义相似度；

基于所述全局语义相似度得到检索谓语，利用所述核心主题和检索谓语检索中文知识库得到最终答案。

在上述方案的基础上，本发明还做了如下改进：

进一步，所述对用户输入的问题进行命名实体识别，获得问题的核心主题，包括如下步骤：

对用户输入的问题进行分词，对分词结果进行词性标注，获得问题中包含的名词、动词、形容词，作为词性标注结果；

将上述词性标注结果和所述问题中包含的字符分别进行向量映射，获得词性向量矩阵x_P和问题字符向量矩阵x_Q；

将上述x_P和x_Q进行加和运算，提取加和运算结果x中包含的过去特征和未来特征，建立包含所述过去特征和未来特征的输出向量；

通过上述输出向量，获取所述问题中任意两个字符之间的关系，基于任意两个字符之间的关系得分得到预测序列，将预测序列中的连续序列作为核心主题。

进一步，所述建立包含所述过去特征和未来特征的输出向量，包括如下步骤：

通过下面公式提取加和运算结果x包含的过去特征

式中，

为前向长短时记忆网络中隐层的输出的过去特征，

为前向长短时记忆网络，

为前向长短时记忆网络隐层上一时刻的输出，x_i为加和运算结果x的第i个元素；

通过下面公式提取加和运算结果x包含的未来特征

式中，

为后向长短时记忆网络中隐层的输出的未来特征，

为后向长短时记忆网络，

为后向长短时记忆网络的隐层上一时刻的输出；

通过下面公式获得包含所述过去特征和未来特征的输出向量H

H＝[h₁,...,h_i,...,h_n]

式中，h_i为所述输出向量的第i个元素。

进一步，所述获取所述问题中任意两个字符之间的关系，包括如下步骤：

根据所述输出向量，获得放缩点注意力；

基于所述放缩点注意力，获得代表所述问题中任意两个字符之间的关系矩阵。

进一步，基于任意两个字符之间的关系得分得到预测序列，将预测序列中的连续序列作为核心主题，包括如下步骤：

根据任意两个字符之间的关系矩阵，获得多头注意力机制的输出矩阵；

根据所述多头注意力机制的输出矩阵，获得代表所述问题中任意两个字符之间的关系得分；

基于所述任意两个字符之间的关系得分，获得所有序列的概率；

对上述概率取对数，获得所述概率的对数函数；

选择所述对数函数中最大的序列作为问题的预测序列，将所述预测序列中的连续序列作为问题的命名实体，所述命名实体即为问题的核心主题。

进一步，所述获得字层次语义相似度和词层次语义相似度，得到问题和待选答案谓语之间的全局语义相似度，具体包括如下步骤：

将所述待选答案中及所述问题中与上述核心主题相连的谓语转换到字层次和词层次的向量空间；

通过下述公式得到字层次语义相似度：

式中，q_c为字层次向量空间的问题；p_c为字层次向量空间待选答案的谓语，v_qc为字层次问题的语义向量；v_pc为字层次待选答案谓语的语义向量；

通过下述公式得到词层次语义相似度：

式中，q_w为词层次向量空间的问题；p_w为词层次向量空间待选答案的谓语，

为词层次问题的语义向量；v_pw为词层次待选答案谓语的语义向量。

进一步，通过下述公式得到全局语义相似度：

sim(q，p)＝λsim(q_c，p_c)+μsim(q_w，p_w)

式中，q为问题；p为待选答案中的谓语；λ和μ为预先设定的超参数。

进一步，基于所述全局语义相似度，通过softmax转换为概率值；

式中，E为待选答案中与核心主题相连的所有谓语集合，

为谓语集合中的某一谓语；

将最大所述概率值对应的谓语作为检索谓语，利用所述核心主题和检索谓语检索中文知识库得到最终答案。

本发明的另一个实施例，提供了一种中文知识库答案获取装置，包括：

命名实体识别模块，用于对用户输入的问题进行命名实体识别，获得问题的核心主题；根据所述核心主题检索中文知识库，获得待选答案；

深度语义匹配模块，用于根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间，获得字层次语义相似度和词层次语义相似度，得到问题和待选答案谓语之间的全局语义相似度；

答案获得模块，用于基于所述全局语义相似度得到检索谓语，利用所述核心主题和检索谓语检索中文知识库得到最终答案。

进一步，所述命名实体识别模块包括下述流程：

通过上述输出向量，获取所述问题中任意两个字符之间的关系，基于任意两个字符之间的关系得分得到预测序列，将所述预测序列中的连续序列作为核心主题。

与现有技术相比，本发明至少可实现如下有益效果之一：

1、通过一种中文知识库答案获取方法，解决了分词导致的误差传播及语义丢失，实现了融合字层次和词层次捕获问题和待选答案中谓语的相似度，提高了获取结果的准确率。

2、通过获得包含过去特征和未来特征的输出向量，解决了传统模型无法考虑问题序列的语义依赖问题，实现了问题双向的语义依赖，提高了命名实体识别的准确率，提高了命名实体识别的准确度。

3、通过融合问题和谓语在词和字层次的语义相似度得到全局语义相似度，解决了单一层次的相似度无法充分利用问题和谓语全部的信息，实现了字和词层次语义相似度的充分利用，提高了知识获取结果的准确率。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为一个实施例中一种中文知识库答案获取方法流程示意图；

图2为另一个实施例中一种中文知识库答案获取装置结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种中文知识库答案获取方法，如图1所示，包括如下步骤：

S1.对用户输入的问题进行命名实体识别，获得问题的核心主题；

S2.根据上述核心主题检索中文知识库，获得待选答案；

S3.根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间，获得字层次语义相似度和词层次语义相似度，得到问题和待选答案谓语之间的全局语义相似度；

S4.基于所述全局语义相似度得到检索谓语，利用所述核心主题和检索谓语检索中文知识库得到最终答案。

实施时，用户输入的每个问题只有一个核心主题，通过命名实体识别模型得到问题的核心主题后，基于深度语义匹配模型将问题与待选答案中的与核心主题相连的谓语进行匹配得到最恰当的检索谓语，最后基于核心主题和匹配得到的最恰当的谓语在中文知识库检索得到最终答案。示例性的，对于用户输入的问题“边境牧羊犬是什么颜色”，通过命名实体识别模型得到“边境牧羊犬”，基于这个核心主题获得待选答案，然后基于深度语义匹配模型得到待选答案中最恰当的谓语“犬身颜色”，最后基于“边境牧羊犬”和“犬身颜色”在中文知识库检索得到最终答案。

通过一种中文知识库答案获取方法，解决了分词导致的误差传播及语义丢失，实现了融合字层次和词层次捕获问题和待选答案中谓语的相似度，提高了获取结果的准确率。

优选的，所述对用户输入的问题进行命名实体识别，获得问题的核心主题，包括如下步骤：

S11.对用户输入的问题进行分词，对分词结果进行词性标注，获得问题中包含的名词、动词和/或形容词，作为词性标注结果。

S12.将上述词性标注结果和所述问题中包含的字符分别进行向量映射，获得词性向量矩阵x_P和问题字符向量矩阵x_Q。

具体的，将用户输入的问题中包含的字符以及所有词性标注的词性结果，通过深度学习框架tensorflow的embedding层来初始化各自的对应向量，并随着深度学习网络一起训练更新，每个词性标注结果和所述问题中包含的字符都可以用一个向量来表示，整合起来就是词性向量矩阵x_P和问题字符向量矩阵x_Q。

S13.将上述x_P和x_Q进行加和运算，提取加和运算结果x中包含的过去特征和未来特征，建立包含所述过去特征和未来特征的输出向量。

中文命名实体识别和中文分词的词性标注有很多相似的地方，类如标注为名词则有很大的可能是命名实体，如果是形容词就概率比较小，在命名实体识别模型训练过程将词性标注的结果进行向量映射作为输入融合到输入向量中去，实体识别的输入x不止包括问题字符的矩阵x^Q还有问题词性标注后对应的矩阵x^P，则对应位置加和运算结果x的计算公式可以表示为：x＝x_P+x_Q。

S14.通过上述输出向量，获取所述问题中任意两个字符之间的关系，基于任意两个字符之间的关系得分得到预测序列，将预测序列中的连续序列作为核心主题。

任意两个字符间的关系指任意两个字符之间的语义关系。

上述的关系得分指任意两个字符对应语义向量之间的内积，通过多头注意力机制捕获的概率与元素之和得到。

将任意两个字符之间关系得分的最大值对应的序列作为预测序列。

通过对用户输入的问题进行命名实体识别获得问题的核心主题，实现了根据命名实体识别模型得到核心主题，提高了获取结果的效率和准确度。

优选的，所述建立包含所述过去特征和未来特征的输出向量，包括如下步骤：

通过下面公式提取加和运算结果x包含的过去特征

式中，

为前向长短时记忆网络中隐层的输出的过去特征，

为前向长短时记忆网络，

通过下面公式提取加和运算结果x包含的未来特征

式中，

为后向长短时记忆网络中隐层的输出的未来特征，

为后向长短时记忆网络，

为后向长短时记忆网络的隐层上一时刻的输出；

具体的，前向长短时记忆网络和后向长短时记忆网络是双向长短时记忆网络的双向计算，其中，前向长短时记忆网络是从前往后提取加和运算结果的语义特征，得到过去特征；后向长短时记忆网络是从后往前提取加和运算结果的语义特征，得到未来特征；综合过去特征和未来特征得到包含过去特征和未来特征的输出向量H。

通过下面公式获得包含所述过去特征和未来特征的输出向量H

H＝[h₁,...,h_i,...,h_n]

式中，h_i为所述输出向量的第i个元素。

通过获得包含过去特征和未来特征的输出向量，解决了传统模型无法考虑问题序列的语义依赖问题，实现了问题双向的语义依赖，提高了命名实体识别的准确率，提高了命名实体识别的准确度。

优选的，所述获取所述问题中任意两个字符之间的关系，包括如下步骤：

根据所述输出向量H，通过下式获得放缩点注意力Attention(Q,K,V)：

式中，d为特征向量的维度，softmax()为归一化运算；

其中，

Q＝K＝V＝H

基于所述放缩点注意力，通过下述公式获得代表所述问题中任意两个字符之间的关系矩阵O：

O＝[head₁,...,head_i,...,head_n]W₀

其中，

Head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

式中，W_i、W₀为用户设定的映射矩阵。

优选的，基于任意两个字符之间的关系得分得到预测序列，将预测序列中的连续序列作为核心主题，包括如下步骤：

根据任意两个字符之间的关系矩阵，获得多头注意力机制的输出矩阵Z，公式如下：

Z＝OW_z+b_z

式中，W_z为深度学习框架中初始化全连接网络的权重；b_z为深度学习框架中初始化全连接网络的偏置。

具体的，多头注意力机制的输出矩阵Z为n*k的矩阵，其中n为问题中字符的长度，k为问题中每个字符对应不同标签的数量。

根据所述多头注意力机制的输出矩阵，通过下式获得代表所述问题中任意两个字符之间的关系得分s(X,y)：

y＝(y₁,y₂,...,y_n)

式中，X为输入问题对应的序列，y_i为输入问题第i个字符对应的标签，A_yi,yi+1为标签y_i转移到标签y_i+1的概率，Z_i,yi为输出矩阵Z第i列第y_i行的元素，n为输入问题对应序列长度；

基于所述任意两个字符之间的关系得分s(X,y)，通过下式获得所有序列的概率：

式中，Y_x表示所有序列的集合，y′表示Y_x中的一种情况。

对上述概率p(y|X)取对数，通过下式获得所述概率的对数函数log[p(y|X)]：

选择最大的所述对数函数对应的序列y′作为问题的预测序列，将所述预测序列中的连续序列作为问题的命名实体，所述命名实体即为问题的核心主题。

具体的，问题中每个字符对应一个标签，标签包含B、I、O，分别代表命名实体的开始、命名实体的中间和不属于命名实体三种含义，选择预测序列中标记为B的标签以及相连标记为I标签对应的一个或多个连续字符作为连续序列，该连续序列就是问题的命名实体。示例性的，对于用户输入的问题“中国矿业大学在哪里”，基于获得的预测序列BIIIIIOOO，将预测序列BIIIIIOOO中的连续序列BIIIII作为问题的命名实体，该连续序列BIIIII就是核心主题，即核心主题为中国矿业大学。

通过多头注意力机制获取问题中任意字符之间的关系，解决了序列模型双向长短时记忆网络无法捕获问题字符长期依赖的问题，实现了问题任意字符之间语义关系的获取，提高了获取问题整体语义信息的准确度。

优选的，所述获得字层次语义相似度和词层次语义相似度，得到问题和待选答案谓语之间的全局语义相似度，具体包括如下步骤：

通过下述公式得到字层次语义相似度：

通过下述公式得到词层次语义相似度：

通过字和词层次来捕捉问题和谓语的相似度，解决了传统知识问答只通过词层次来获取语义相似度带来的误差传播，实现了多角度来获取问题和谓语的相似度，提高了答案获取的准确率。

具体的，在词层次语义相似度计算阶段，利用双向长短时记忆网络结合注意力机制，分别提取分词后的问句和谓语的语义向量来计算词层次语义相似度。首先通过结巴中文分词工具将对问题进行分词后得到序列w_q，对序列w_q通过深度学习框架tensorflow的embedding层来初始化各自的对应向量并随着深度学习网络一起训练来更新。将序列w_q中所有元素的对应向量组成矩阵M_q，其中M_q中第i行代表w_q中的第i个元素对应的向量。分别利用深度学习框架tensorflow得到前向长短时记忆网络和反向长短时记忆网络，并得到每个时刻的输出

和

通过拼接操作得到当前时刻的语义向量

合并所有时刻双向长短时记忆网络的语义向量得到问题的全局语义矩阵：

式中，

表示第i时刻前后向长短时记忆网络的语义向量，m为问题经过分词后的序列w_q的长度。

由于双向长短时记忆网络模型的特殊性，分别包括前向和后向提取语义特征的过程，所以全局语义特征由

和

两部分构成，即全局语义向量h_g为前向全局语义向量

和后向全局语义向量

的平均值。

注意力机制的权重为：

式中，

为语义向量h_i的注意力机制的权重，h_g是全局语义特征向量。提取词层次问题的语义向量，公式如下：

词层次语义相似度的计算公式如下：

优选的，通过下述公式得到全局语义相似度：

sim(q，p)＝λsim(q_c，p_c)+μsim(q_w，p_w)

通过融合问题和待选答案中的谓语在词和字层次的语义相似度得到全局语义相似度，解决了单一层次的相似度无法充分利用问题和谓语全部的信息，实现了字和词层次语义相似度的充分利用，提高了答案获取的准确率。

优选的，基于所述全局语义相似度得到检索谓语，利用所述核心主题和检索谓语检索中文知识库得到最终答案，具体包括如下步骤：

基于所述全局语义相似度，通过softmax转换为概率值；

式中，E为待选答案中与核心主题相连的所有谓语集合，

为谓语集合中的某一谓语；

本发明的另一个实施例，如图2所示，提供了一种中文知识库答案获取装置，包括：

通过一种中文知识库答案获取装置，解决了分词导致的误差传播及语义丢失，实现了融合字层次和词层次捕获问题和待选答案中谓语的相似度，提高了答案获取的准确率。

优选的，所述命名实体识别模块包括下述流程：

通过对用户输入的问题进行命名实体识别，实现了根据命名实体识别模型得到核心主题，提高了答案获取的效率和准确度。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。