CN111414461A

CN111414461A - 一种融合知识库与用户建模的智能问答方法及系统

Info

Publication number: CN111414461A
Application number: CN202010065407.8A
Authority: CN
Inventors: 陈羽中; 李超凡; 郭昆; 张睿
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-07-14
Anticipated expiration: 2040-01-20
Also published as: CN111414461B

Abstract

本发明涉及一种融合知识库与用户建模的智能问答方法及系统，该方法包括以下步骤：步骤A：采集智能问答系统中的问题以及回答记录，构建问答对训练集QA；步骤B：采集智能问答系统中每个用户对问题的回答记录，构建用户的历史回答训练集UA；步骤C：基于问答对训练集QA、用户的历史回答训练集UA以及知识库KB，训练基于改进循环实体网络Recurrent Entity Network的深度学习网络模型M；步骤D：接收用户的提问，并将提问输入到训练好的深度学习网络模型M中，输出匹配的答案。该方法及系统有利于提高对于提问的智能回答精度。

Description

一种融合知识库与用户建模的智能问答方法及系统

技术领域

本发明涉及自然语言处理与情感分析应用领域，具体涉及一种融合知识库与用户建模的智能问答方法及系统。

背景技术

随着社会信息化和互联网的快速发展，人们对于问答系统的需求日益增长。2005年以来，互联网相继涌现了大量的问答社区，基于社区的问答系统逐渐成了问答系统的一个重要研究分支，人们热衷于在社区智能问答系统上提出问题，获取答案并且同他人交流来分享自己的知识。

根据知识来源的不同，问答系统可以分为以下三种任务：基于知识库的问答、基于文档的问答、答案选择。问答系统的工作原理是用户用人类语言的形式提出查询信息的需求，系统通过某种技术手段对问题进行语义分析，接着从多种类的数据源(知识图谱、数据库、文档等)中找出最匹配的答案。传统的解决方法是通过人工构造规则和特征构建符合场景的规则组合来达到计算的目的；现代的自然语言处理领域已经大量运用统计机器学习的算法，通过机器学习算法来计算问题和答案的匹配关系；近两年，深度学习方法深受欢迎，基于词向量技术、循环神经网络、卷积神经网络等理论的研究也层出不穷，且已经被大量用于智能问答系统的各类应用场景中并且取得了突出的性能表现。

Carmel提出了一种改进的单词权重计算模型，加入了词语的词性和依赖关系等语法特性，这些特征被用来训练排序模型，验证了该方法的有效性。Wang等人通过将每一个问题句子都生成其语法树的形式,然后比较问题的语法树的相似性来判断问题的相似性。Jeon等人利用非文本特征来预测答案的质量，系统地分析了一些非文本特征对于预测答案质量的作用,最后应用最大熵方法和核密度方法去预测答案的质量。Liu等人利用大多数CQA问题都有多个答案的特性,把答案抽取的问题转换为多文档摘要的问题,从而达到较好的效果。

深度学习理论在答案抽取和排序任务上也有一定应用。Iyyer等人利用一个依赖树递归神经网络并且结合句子间的预测来对回答进行排列。Wang使用双向长短时记忆网络进行答案选择，将BiLSTM与关键词匹配模型相结合，由BiLSTM输出问题答案间的匹配结果。Guo等人引入一个跳跃卷积神经网络(Skip Convolutional Network)来获取语法语义特征。Zhou等人将答案选择看成答案标注问题，首先使用卷积神经网络(ConvolutionalNeural Network，CNN)抽取问题和答案的分布式表示，然后将联合表示作为循环记忆网络的输入，以学习所有答案与问题的匹配关系。Tan等人引入一个混合神经网络，通过结合卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent NeuralNetwork，RNN)的结果来学习问题/回答的表示。Santos等人提出一个一种双向注意机制，将成对的输入序列投射到一个公共的表示空间中，以更好的排列答案。

传统CQA系统使用有监督学习，训练答案排序和问题检索模型，但该方法需要抽取复杂的文本特征，很难在特征构造上做到最优，并且该方法在新的数据集上泛化性能较差，对新数据集往往需求重新进行特征抽取和特征工程。目前基于深度学习的方法通常基于单一的卷积神经网络或循环神经网络，无法全面准确地提取影响智能问答精度的各项特征，并且没有充分利用知识库中存储的先验知识作为问题回答的背景知识，在社区问答系统中没有考虑到用户自身所携带的信息对于回答选择所起的作用。

发明内容

本发明的目的在于提供一种融合知识库与用户建模的智能问答方法及系统，该方法及系统有利于提高对于提问的智能回答精度。

为实现上述目的，本发明采用的技术方案是：一种融合知识库与用户建模的智能问答方法，包括以下步骤：

步骤A：采集智能问答系统中的问题以及回答记录，构建问答对训练集QA；

智能问答系统中的每个问题及其回答记录表示为一个问答序列

q表示问题句子，{a_t|t＝1,2,...,N_q}为问题q的答案集合，N_q为问题q对应的答案数量，问题q和答案集合中的每个答案a_t构成一个问答对(q,a_t)，则问答对训练集QA中每个问题的训练样本表示为

步骤B：采集智能问答系统中每个用户对问题的回答记录，构建用户的历史回答训练集UA；

步骤C：基于问答对训练集QA、用户的历史回答训练集UA以及知识库KB，训练基于改进循环实体网络Recurrent Entity Network的深度学习网络模型；

步骤D：接收用户的提问，并将提问输入到训练好的深度学习网络模型中，输出匹配的答案。

进一步地，所述步骤C具体包括以下步骤：

步骤C1：对每个问答对(q,a_t)，分别对问题q和答案a_t进行分词处理并去除停用词；

步骤C2：对每个问答对(q,a_t)，分别获取问题q和答案a_t的初始表征向量；

步骤C3：对每个问答对(q,a_t)，分别获取问题q和答案a_t的知识表征向量；

步骤C4：对每个问答对(q,a_t)，融合步骤C2获得的问题q的初始表征向量和步骤C3获得的问题q的知识表征向量，得到问题q的带知识嵌入的表征向量

融合步骤C2获得的答案a_t的初始表征向量和步骤C3获得的答案a_t的知识表征向量，得到答案a_t的带知识嵌入的表征向量

步骤C5：遍历历史回答训练集UA，根据每个用户的历史回答集合，获取每个用户的历史回答表征向量；

步骤C6：对每个问答对(q,a_t)，得到提供答案a_t的用户

根据步骤C5获得的每个用户的历史回答表征向量，查找得到用户

的历史回答表征向量

与步骤C4获得的问题q和答案a_t的带知识嵌入的表征向量共同构成一个三元组

进而构成三元组序列

输入到深度学习网络模型的基于循环实体网络的动态记忆模块中，得到问答对的带知识嵌入以及用户嵌入的表征向量；

步骤C7：将步骤C6得到的表征向量输入到深度学习网络模型的隐藏层和Softmax层，根据目标损失函数loss，利用反向传播方法计算深度学习网络中各参数的梯度，并利用随机梯度下降方法更新参数；

步骤C8：当深度学习网络模型产生的损失值小于设定阈值或者迭代次数达到最大迭代次数，则终止深度学习网络模型的训练。

进一步地，所述步骤C2具体包括以下步骤：

步骤C21：对问答对(q,a_t)，根据问题q的问题描述q_S和问题主体q_B，获取问题q的初始表征向量；

智能问答系统中的每个问题q由问题描述q_S和问题主体q_B组成，q_S是经过分词处理并去除停用词后的问题的标题部分，表示为

表示q_S中的第i个词语；L(q_S)为q_S中的词数；q_B是经过分词处理并去除停用词后的问题的详细描述部分，表示为

表示q_B中的第i个词；L(q_B)为q_B中的词数；q由q_S和q_B连接构成，表示为

将问题q的初始表征向量

表示为：

其中，

为q中第i个词

所对应的词向量，i＝1,2,...,L(q)，L(q)＝L(q_S)+L(q_B)为q中的词数；

通过在预训练的词向量矩阵

查找得到，d₁表示词向量的维度，|D|是词典D中的词语数；

为q中第i个词

的位置编码，通过

将问题q中的每个单词进行加权得到问题q的初始表征向量

“○”为向量

与

的哈达玛积；

步骤C22：对问答对(q,a_t)，获取答案a_t的初始表征向量；

经过分词处理并去除停用词后的答案a_t表示为

表示a_t中的第i个词语，L(a_t)为a_t中的词数；

将答案a_t的初始表征向量

表示为：

其中，

为答案a_t中第i个词语

对应的词向量，i＝1,2,...,L(a_t)；

通过在预训练的词向量矩阵

查找得到；

为a_t中第i个词

的位置编码，通过

将答案a_t中的每个单词进行加权得到答案a_t的初始表征向量

步骤C23：组合问题q和答案a_t的初始表征向量，得到问答对(q,a_t)的初始表征向量二元组

进一步地，所述步骤C3具体包括以下步骤：

步骤C31：将问题q的知识表征向量表示为：

其中，

为问题q中检测到的第i个知识实体所对应的知识实体表征向量，d₂表示知识实体表征向量的维度，l₁为问题q中检测到的知识实体数；

为第i个知识实体的位置编码，通过

将问题q中检测到的每个知识实体进行加权得到问题q的知识表征向量

步骤C32：将答案a_t的知识表征向量表示为：

其中，

为答案a_t中检测到的第i个知识实体所对应的知识实体表征向量，l₂为答案a_t中检测到的知识实体数；

为第i个知识实体的位置编码，通过

将答案a_t中检测到的每个知识实体进行加权得到答案a_t的知识表征向量

步骤C33：组合问题q和答案a_t的知识表征向量，得到问答对(q,a_t)的知识表征向量二元组

进一步地，所述步骤C4具体为：连接步骤C2得到的问题q的初始表征向量与步骤C3得到的问题q的知识表征向量，得到问题q的带知识嵌入的表征向量

连接步骤C2得到的答案a_t的初始表征向量与步骤C3得到的答案a_t的知识表征向量，得到答案a_t的带知识嵌入的表征向量

其中d₁为词向量的维度，d₂为知识实体表征向量的维度。

进一步地，所述步骤C5具体包括以下步骤：

步骤C51：遍历用户的历史回答训练集UA，对每个用户的回答集合进行分词并去除停用词；

其中，

N_u为智能问答系统中回答过问题的用户数，u_c是用户c的回答集合，表示为

为u_c中的第i个回答，i＝1,2,...,L(u_c)，L(u_c)为用户c的回答数；

步骤C52：获取每个用户的所有回答经分词并去除停用词后的词语集合u_c′，查找每个词对应的词向量，融合得到每个用户的历史回答表征向量U_c；

其中，用户c的回答集合u_c经过分词及去除停用词后，得到词语集合u_c′，表示为

表示词语集合u_c′中的第i个词,N(c)表示u_c′中的词数；将用户c的历史回答的表征向量

表示为：

其中，

为u_c′中的第i个词

对应的词向量，通过在预训练的词向量矩阵

查找得到；

为u_c′中的第i个词

的位置编码，通过

将u_c′中的每个单词进行加权得到用户c的历史回答的表征向量

进一步地，所述步骤C6具体包括以下步骤：

步骤C61：对每个问答对(q,a_t)，得到提供答案a_t的用户

根据步骤C5获得的每个用户的历史回答表征向量，得到用户

的历史回答表征向量

步骤C62：获得每个问答对(q,a_t)，t＝1,2,...,N_q的三元组

进而构成三元组序列

输入到深度学习网络模型的基于循环实体网络的动态记忆模块中，输出隐状态作为表征向量；

其中，基于循环实体网络的动态记忆模块由m个记忆单元组成，block_i,i＝1,2,...,m表示第i个记忆单元，每个block相互独立，block_i的隐状态

的计算公式如下：

其中，公式(1)中

是block_i的门函数，k_i为三元组

的答案a_t中检测到的第i个知识实体所对应的知识实体表征向量

若不存在对应的

则k_i置为零矩阵；σ是Sigmoid函数；公式(2)中

为候选记忆隐状态，用于计算输入三元组

后需要更新的内容；φ是激活函数，矩阵

为训练参数；公式(3)中通过记忆单元的门函数

和候选记忆隐状态

对记忆

进行更新，公式(4)中对

进行归一化，最后输出隐状态

步骤C63：根据

使用softmax计算

在每个记忆单元的输出隐状态h_i上的条件分布p_i，获得

与每个记忆单元之间的相关程度，之后使用条件分布p_i作为权值对记忆单元的隐状态h_i进行注意力加权，得到问答对的带知识嵌入以及用户嵌入的表征向量y；计算公式如下：

进一步地，所述步骤C7具体包括以下步骤：

步骤C71：将步骤C6得到的问答对的带知识嵌入以及用户嵌入的表征向量y输入到深度学习网络模型的隐藏层和Softmax层进行归一化处理，计算答案属于各类别的概率，计算公式如下：

c＝f_hidden(W_hidden○y+b)

p(c_i)＝Softmax(c)

其中

为隐藏层权重矩阵，b∈R²为隐藏层的偏倚向量，f_hidden为隐藏层激活函数；p(c_i)为预测为类别i的概率，i＝0或1，i＝0表示答案是无帮助的，i＝1表示答案是有帮助的，0≤p(c_i)≤1；

步骤C72：用交叉熵作为损失函数计算损失值，通过梯度优化算法Adam进行学习率更新，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型；

其中最小化损失函数Loss的计算公式如下：

其中p_i为Softmax层的输出，y_i为训练集中的类别标签，y_i等于1代表该答案对于问题是有帮助的，y_i等于0代表该答案对于问题是无帮助的，θ包含深度学习网络的所有参数，

是L2正则化。

本发明还提供了一种采用上述方法的智能问答系统，包括：

训练集构建模块，用于采集智能问答系统中的问题和回答记录，以及每个用户对问题的回答记录，构建问答对训练集QA和用户的历史回答训练集UA；

文本预处理模块，用于对训练集输入文本进行预处理，包括对输入文本进行分词处理和去除停用词，得到经过预处理的文本；

知识库搜索模块，用于从知识库中检测出现在问题和答案中的知识实体及其关系；

特征提取模块，用于在预训练的词向量矩阵中查找经过预处理的训练集文本中词的词向量，并且结合位置信息得到文本表征向量和用户的历史回答表征向量；从知识库中获取的知识实体及其关系经过预训练的知识嵌入矩阵并结合位置信息得到知识表征向量，融合问答对的文本表征向量和知识表征向量得到问答对的最终表征向量；

网络训练模块，用于将问答对的最终表征向量和用户的历史回答表征向量输入到深度学习网络模型的动态记忆模块中，得到动态记忆网络中序列的最后隐藏状态表示作为特征向量进而训练深度学习网络，利用该特征向量属于某一类别的概率以及训练集中的标注作为损失，以最小化损失为目标来对整个深度学习网络进行训练，得到深度学习网络模型；以及

问题处理模块，用于利用训练好的深度学习网络模型对输入的问题进行分析处理，输出匹配回答。

相较于现有技术，本发明具有以下有益效果：提供了一种融合知识库与用户建模的智能问答方法及系统，该方法及系统基于问答对训练集、用户的历史回答训练集以及知识库训练基于改进循环实体网络的深度学习网络模型，可以更加全面地提取影响智能问答精度的各项特征，充分利用知识库中存储的先验知识，考虑用户自身所携带的信息，提高了对于用户提问的智能回答精度，具有很强的实用性和广阔的应用前景。

附图说明

图1为本发明实施例的方法实现流程图。

图2为本发明实施例的系统结构示意图。

图3为本发明实施例的模型架构图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明提供了一种融合知识库与用户建模的智能问答方法，如图1所示，包括以下步骤：

步骤A：采集智能问答系统中的问题以及回答记录，构建问答对训练集QA。

步骤B：采集智能问答系统中每个用户对问题的回答记录，构建用户的历史回答训练集UA。

步骤C：基于问答对训练集QA、用户的历史回答训练集UA以及知识库KB，训练基于改进循环实体网络Recurrent Entity Network的深度学习网络模型。

本发明中基于改进循环实体网络的深度学习网络模块如图3所示。所述步骤C具体包括以下步骤：

步骤C1：对每个问答对(q,a_t)，分别对问题q和答案a_t进行分词处理并去除停用词。

步骤C2：对每个问答对(q,a_t)，分别获取问题q和答案a_t的初始表征向量。具体包括以下步骤：

将问题q的初始表征向量

表示为：

其中，

为q中第i个词

通过在预训练的词向量矩阵

查找得到，d₁表示词向量的维度，|D|是词典D中的词语数；

为q中第i个词

的位置编码，通过

将问题q中的每个单词进行加权得到问题q的初始表征向量

“○”为向量

与

的哈达玛(Hadamard)积；

步骤C22：对问答对(q,a_t)，获取答案a_t的初始表征向量；

经过分词处理并去除停用词后的答案a_t表示为

表示a_t中的第i个词语，L(a_t)为a_t中的词数；

将答案a_t的初始表征向量

表示为：

其中，

为答案a_t中第i个词语

对应的词向量，i＝1,2,...,L(a_t)；

通过在预训练的词向量矩阵

查找得到；

为a_t中第i个词

的位置编码，通过

将答案a_t中的每个单词进行加权得到答案a_t的初始表征向量

步骤C3：对每个问答对(q,a_t)，分别获取问题q和答案a_t的知识表征向量。具体包括以下步骤：

步骤C31：将问题q的知识表征向量表示为：

其中，

为第i个知识实体的位置编码，通过

步骤C32：将答案a_t的知识表征向量表示为：

其中，

为第i个知识实体的位置编码，通过

具体为：连接步骤C2得到的问题q的初始表征向量与步骤C3得到的问题q的知识表征向量，得到问题q的带知识嵌入的表征向量

其中d₁为词向量的维度，d₂为知识实体表征向量的维度。

步骤C5：遍历历史回答训练集UA，根据每个用户的历史回答集合，获取每个用户的历史回答表征向量。具体包括以下步骤：

其中，

表示为：

其中，

为u_c′中的第i个词

对应的词向量，通过在预训练的词向量矩阵

查找得到；

为u_c′中的第i个词

的位置编码，通过

步骤C6：对每个问答对(q,a_t)，得到提供答案a_t的用户

的历史回答表征向量

进而构成三元组序列

输入到深度学习网络模型的基于循环实体网络的动态记忆模块中，得到问答对的带知识嵌入以及用户嵌入的表征向量。具体包括以下步骤：

步骤C61：对每个问答对(q,a_t)，得到提供答案a_t的用户

根据步骤C5获得的每个用户的历史回答表征向量，得到用户

的历史回答表征向量

步骤C62：获得每个问答对(q,a_t)，t＝1,2,...,N_q的三元组

进而构成三元组序列

的计算公式如下：

其中，公式(1)中

是block_i的门函数，k_i为三元组

若不存在对应的

则k_i置为零矩阵；σ是Sigmoid函数；公式(2)中

为候选记忆隐状态，用于计算输入三元组

后需要更新的内容；φ是激活函数，矩阵

为训练参数；公式(3)中通过记忆单元的门函数

和候选记忆隐状态

对记忆

进行更新，公式(4)中对

进行归一化，最后输出隐状态

步骤C63：根据

使用softmax计算

在每个记忆单元的输出隐状态h_i上的条件分布p_i，获得

步骤C7：将步骤C6得到的表征向量输入到深度学习网络模型的隐藏层和Softmax层，根据目标损失函数loss，利用反向传播方法计算深度学习网络中各参数的梯度，并利用随机梯度下降方法更新参数。具体包括以下步骤：

c＝f_hidden(W_hidden○y+b)

p(c_i)＝Softmax(c)

其中

其中最小化损失函数Loss的计算公式如下：

是L2正则化。

本发明还提供了一种采用上述方法的智能问答系统，如图2所示，包括：

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种融合知识库与用户建模的智能问答方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合知识库与用户建模的智能问答方法，其特征在于，所述步骤C具体包括以下步骤：

步骤C6：对每个问答对(q,a_t)，得到提供答案a_t的用户

的历史回答表征向量

进而构成三元组序列

3.根据权利要求2所述的一种融合知识库与用户建模的智能问答方法，其特征在于，所述步骤C2具体包括以下步骤：

将问题q的初始表征向量

表示为：

其中，

为q中第i个词

通过在预训练的词向量矩阵

查找得到，d₁表示词向量的维度，|D|是词典D中的词语数；

为q中第i个词

的位置编码，通过f_i ^(q)将问题q中的每个单词进行加权得到问题q的初始表征向量

为向量f_i ^(q)与

的哈达玛积；

步骤C22：对问答对(q,a_t)，获取答案a_t的初始表征向量；

经过分词处理并去除停用词后的答案a_t表示为

表示a_t中的第i个词语，L(a_t)为a_t中的词数；

将答案a_t的初始表征向量

表示为：

其中，

为答案a_t中第i个词语

对应的词向量，i＝1,2,...,L(a_t)；

通过在预训练的词向量矩阵

查找得到；

为a_t中第i个词

的位置编码，通过

将答案a_t中的每个单词进行加权得到答案a_t的初始表征向量

4.根据权利要求3所述的一种融合知识库与用户建模的智能问答方法，其特征在于，所述步骤C3具体包括以下步骤：

步骤C31：将问题q的知识表征向量表示为：

其中，

为第i个知识实体的位置编码，通过f_i ^(q,kb)将问题q中检测到的每个知识实体进行加权得到问题q的知识表征向量

步骤C32：将答案a_t的知识表征向量表示为：

其中，

为第i个知识实体的位置编码，通过

5.根据权利要求4所述的一种融合知识库与用户建模的智能问答方法，其特征在于，所述步骤C4具体为：连接步骤C2得到的问题q的初始表征向量与步骤C3得到的问题q的知识表征向量，得到问题q的带知识嵌入的表征向量

其中d₁为词向量的维度，d₂为知识实体表征向量的维度。

6.根据权利要求5所述的一种融合知识库与用户建模的智能问答方法，其特征在于，所述步骤C5具体包括以下步骤：

其中，

表示为：

其中，

为u_c′中的第i个词

对应的词向量，通过在预训练的词向量矩阵

查找得到；

为u_c′中的第i个词

的位置编码，通过

7.根据权利要求6所述的一种融合知识库与用户建模的智能问答方法，其特征在于，所述步骤C6具体包括以下步骤：

步骤C61：对每个问答对(q,a_t)，得到提供答案a_t的用户

根据步骤C5获得的每个用户的历史回答表征向量，得到用户

的历史回答表征向量

步骤C62：获得每个问答对(q,a_t)，t＝1,2,...,N_q的三元组

进而构成三元组序列

的计算公式如下：

其中，公式(1)中

是block_i的门函数，k_i为三元组

若不存在对应的

则k_i置为零矩阵；σ是Sigmoid函数；公式(2)中

为候选记忆隐状态，用于计算输入三元组

后需要更新的内容；φ是激活函数，矩阵

为训练参数；公式(3)中通过记忆单元的门函数

和候选记忆隐状态

对记忆

进行更新，公式(4)中对

进行归一化，最后输出隐状态

步骤C63：根据

使用softmax计算

在每个记忆单元的输出隐状态h_i上的条件分布p_i，获得

8.根据权利要求7所述的一种融合知识库与用户建模的智能问答方法，其特征在于，所述步骤C7具体包括以下步骤：

p(c_i)＝Softmax(c)

其中

其中最小化损失函数Loss的计算公式如下：

是L2正则化。

9.一种采用如权利要求1-8任一项所述方法的智能问答系统，其特征在于，包括：