CN108763284A

CN108763284A - 一种基于深度学习和主题模型的问答系统实现方法

Info

Publication number: CN108763284A
Application number: CN201810330697.7A
Authority: CN
Inventors: 詹国辉; 俞祝良
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-11-06
Anticipated expiration: 2038-04-13
Also published as: CN108763284B

Abstract

本发明公开了一种基于深度学习和主题模型的问答系统实现方法，包括步骤：S1、将问句输入Twitter LDA主题模型获得问句的主题类型，并提取相应主题词，将输入问句和主题词表示为词向量；S2、将输入问句的词向量输入RNN循环神经网络编码，获取问句的编码隐藏层状态向量；S3、解码RNN循环神经网络使用联合注意力机制结合问句的局部和全局混合语义向量，进行解码生成词；S4、使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型；S5、利用训练的问答模型预测输入问句的答案，生成与问句主题相关的答案。本发明弥补了问答模型外源知识的缺失，增加回答的丰富性和多样性。

Description

一种基于深度学习和主题模型的问答系统实现方法

技术领域

本发明涉及自然语言处理中问答系统的技术领域，尤其是指一种基于深度学习和主题模型的问答系统实现方法。

背景技术

人机对话是自然语言处理技术(Natural Language Processing,NLP)与实现真正人工智能中是一个富有挑战性的任务，现有的问答系统(question and answering,QA)包括特定任务的问答系统和开放域的问答系统。问答系统旨在帮助人类完成特定的任务，比如完成人发出的指令、引导人完成某一项任务，与此同时，问答系统设计用来完成不同聊天背景下模仿人类自然聊天的过程。之前有大量的研究集中在对话系统，随着网络上社交媒体数据的爆炸式增长，大量的训练对话语料成为模型进一步改进的突破口，深度学习聊天机器人成为了学术界和工业界的热门方向。

目前，问答系统问答模型相关问题的研究方法主要包含以下方法:1、基于模板式匹配问答模型。首先是模板匹配式模型，我们可以通过设计规则来让对话模型知道遇到不同语言问句时，回复不同内容，这种方式需要设计多种规则，并且考虑规则间的优先顺序，规则越完善则回答内容越好，不过这种模型可迁移性较差。2、另外，检索式模型跟搜索引擎相似，不同的是检索模型给我们的是答案，这个模型主要是对问答对进行匹配，取决于输入的问句与答案候选集之间相似度，但生成内容依赖于数据集，不能创造新的回答内容。

本发明针对问答系统生成与问句主题相关的回答，重点研究了一种基于深度神经网络和主题模型的问答模型，由于神经网络能够捕捉到问题和回复答案之间语义和句法上的关系，通过完全端到端(end-to-end)的方式从大量问答语料中学习模型参数，通过拟合神经网络参数，能够理解问答中的问句并做出适当的回复。当前主流的生成式问答模型主要使用序列到序列模型(sequence-to-sequence)生成问答回复，并且结合注意力机制(attention mechanism)和主题模型，能够有效的生成问句主题相关的回复，因此是一种可行的分析方法。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于深度学习和主题模型的问答系统实现方法，利用主题模型提取问句的主题词，并结合联合注意力机制有效利用编码语义向量和主题词，生成与问句主题相关的回答，从而弥补了对话模型外源知识的缺失，增加回答的丰富性和多样性。

为实现上述目的，本发明所提供的技术方案为：一种基于深度学习和主题模型的问答系统实现方法，包括以下步骤：

S1、将问句输入Twitter LDA主题模型获得问句的主题类型，并提取相应主题词，将输入问句和主题词表示为词向量；

S2、对话模型使用sequence-to-sequence编码解码框架，将输入问句的词向量输入RNN循环神经网络编码，获取问句的编码隐藏层状态向量；

S3、解码RNN循环神经网络使用联合注意力机制结合问句的局部和全局混合语义向量，进行解码生成词；

S4、使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型；

S5、利用训练的问答模型预测输入问句的答案，生成与问句主题相关的答案。

在步骤S1中，根据Twitter LDA主题模型提取主题词，首先需要将问题和答案组成问答对{post，answer}，此时问答对为短文本满足Twitter LDA主题模型要求，主题模型假设每个{post，answer}归类于某个主题Topic,并且原问答对中的词又能够进一步分类为主题词和背景词，通常只需该问答对的主题类别，并提取主题模型学习的不同主题下的主题词；

主题模型Twitter LDA在短文本挖掘主题能力强，使用{post，answer}大规模语料无监督训练主题模型，训练语料与问答模型训练语料不同，认为是引入外源知识信息到问答模型中，弥补问答模型主题知识的缺失；Twitter LDA模型为完全贝叶斯的概率图模型，参数的推理需要推断参数的后验分布，因此采用吉布斯采样算法(collapsed Gibbssampling)估计模型参数；

使用训练好的主题模型，预测输入问句的主题类别Topic，并提取相应主题词(k₁，...，k_n)。

在步骤S1中，将输入问句和主题词通过词向量表映为词向量；首先是将词通过Vocabulary映射数字id，之后通过学习Word Embedding将词id再查Word Embedding里的词向量表，从而得到输入问句词向量与主题词的词向量k＝(k₁，...，k_n)。

在步骤S2中，将输入问句的词向量依次输入RNN循环神经网络，某一时刻的计算过程如下：

h_t＝f(x_t，h_t-1)

其中，h_t∈Rⁿ是序列模型在t时刻隐层状态，f函数使用GRU(gated recurrentunit)作为非线性转换单元；

重复输入不同的词向量xt从而获得不同时刻的隐藏层状态向量h_t，最后RNN编码问句的结果为隐藏层状态向量集合表示问句词序列的语义向量。

所述步骤S3包括以下步骤：

S31、根据RNN编码隐藏层状态向量将编码中最后时刻隐藏层状态向量当作问句的全局(global)语义编码向量(context vetor)，即如下所示：

其中，c表示语义编码向量，q表示线性组合函数，为编码最后时刻隐藏层状态向量；

与全局语义向量不同，注意力机制(attention mechanism)能动态选择和线性组合的不同部分，因此c_t表示局部(local)语义编码向量，即如下所示：

其中，c_t表示不同时刻的语义编码向量，α_tj表示注意力机制的权重大小，e_tj表示多层感知器神经网络，s_t-1表示解码RNN的隐藏层状态向量，h_j表示编码RNN隐藏层状态向量；另外的参数为注意力模型需要学习的参数；

S32、解码RNN中使用主题的注意力(topic attention)和问句的注意力(messageattention)组成联合注意力机制，联合注意力机制能充分利用主题词和问句的编码语义向量，从而解码RNN利用它进行生成答案，相比传统注意力机制，联合注意力机制利用步骤S31中全局语义编码向量和局部语义编码向量的混合作为注意力机制的输入，进行topicattention和message attention权重参数的学习，一方面能引入主题词生成主题相关答案，另一方面能减少主题模型中无关主题词噪声数据的影响，注意力机制的权重参数计算分别如下：

其中，s_t-1表示解码RNN的第t-1个隐藏层状态向量，h_T是输入问句的最后一个隐藏层状态向量，k_j为主题词向量，h_j表示编码RNN隐藏层状态向量；，η₀是一个多层感知器，为主题注意力机制权重参数，为问句注意力机制权重参数；

S33、解码RNN在t时刻利用联合注意力机制信息进行隐藏层状态向量的计算如下：

s_t＝f(y_t-1，s_t-1，c_t，o_t)

其中，s_t∈Rⁿ是序列模型在t时刻隐层状态，c_t是t时刻问句message语义编码向量，o_t是t时刻主题词Topic主题语义向量，y_t-1表示t-1时刻预测词，f函数使用GRU(gatedrecurrent unit)作为非线性转换单元，为主题注意力机制权重参数，为问句注意力机制权重参数；

S34、利用步骤S33中解码RNN隐藏层状态向量s_t和y_t-1即可预测t时刻词y_t的概率p_v(y_t)，为了增加主题词在对话答案中出现的概率增加主题词的偏置概率项p_k(y_t)；对偏置概率项进一步使用topic attention中的主题词权重大小进一步减少无关主题词的影响，促进与问句相关性强的主题词出现在生成答案中，预测词生成概率计算如下：

其中，p_v(y_t)表示生成普通词的概率，p_k(y_t)表示主题词偏置概率，为主题注意力机制权重参数。

在步骤S4中，对大规模对话训练语料进行文本预处理，设置问答模型超参数、初始化神经网络神经元参数、使用梯度下降算法进行对话模型的训练。

在步骤S5中，训练完问答模型后，主题模型会提取问句相应主题词，输入问句和主题词到模型中进行对话预测，生成对话主题相关的答案。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明方法采用主题模型提取问答系统中问句的主题词，为深度学习问答模型引入了外源知识，使得问答模型除了从数据集学习对话模式外，问答模型还能利用外源知识，使得生成回复内容丰富多样性。

2、本发明方法使用联合注意力机制即主题注意力(topic attention)和问句注意力(message attention)机制，使得问答模型解码生成词时能动态地利用问句语义向量和主题词向量信息，同时使用主题词偏置概率促进答案中生成主题词，使得问答模型生成主题相关的答案。

3、本发明使用编码的全局(global)语义向量和动态加权的局部(local)语义向量，两者的混合语义向量输入到注意力机制能更好挖掘对话语料中词的语义信息和减少无关主题词的影响，同时使用主题模型的权重系数去调整主题词偏置概率，进一步增强与问句相关性强的主题词在答案中出现的概率，减少无关主题词噪声数据的影响。

附图说明

图1是本发明方法的问答模型答案生成流程图。

图2是本发明方法中主题模型Twitter LDA概率图模型示意图。

图3是本发明方法中问答模型神经网络结构图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的一种基于深度学习和主题模型的问答系统实现方法，包括以下步骤：

步骤S1、首先将问句输入Twitter LDA主题模型获得问句的主题类型，并提取相应主题词，将输入问句和主题词表示为词向量，具体过程为：

首先，由Twitter LDA主题模型提取主题词，首先需要将问题和答案组成问答对{post，answer}，此时问答对为短文本满足Twitter LDA主题模型要求，主题模型假设每个{post，answer}归类于某个主题Topic,并且原问答对中的词又可进一步分类为主题词和背景词，通常我们只需该问答对的主题类别，并提取主题模型学习的不同主题下的主题词。

主题模型Twitter LDA在短文本挖掘主题能力强，使用{post，answer}大规模语料无监督训练主题模型，训练语料与问答模型训练语料不同，可认为是引入外源知识信息到对话模型中，弥补了问答模型主题知识的缺失。Twitter LDA模型为完全贝叶斯的概率图模型，参数的推理需要推断参数的后验分布，因此可以采用吉布斯采样算法(collapsedGibbs sampling)估计模型参数，如图2为Twitter LDA概率图模型示意图，刻画了整个短文本数据集的生成过程，详细过程阐述如下：

1)为唯一的背景主题φ^B采样一个主题-分布φ^B～Dir(β)；

2)为决定词汇是主题词或背景词的π采样一个伯努利分布π～Dir(γ)；

3)对所有主题t＝1，...，T:

采样一个主题-词分布φ^t～Dir(β)；

4)对于每个用户u＝1，...，U：

4.1)采样一个用户-主题分布θ_u～Dir(α)；

4.2)对用户u的每条短文本s＝1，...，N_u:

4.2.1)采样一个主题标签z_u，s～Multi(θ_u)；

4.2.2)对于短文本s的每一个词汇n＝1，...，N_u，s:

4.2.2.1)采样一个二值标签y_u，s，n～Multi(π)(0为噪声词，1为主题词)；

4.2.2.1)假设y_u，s，n＝0，从背景主题采样w_u，s，n～Multi(φ^B)；假设y_u，s，n＝1，从该短文本的主题标签对应的主题采样

其中Multi(.)是多项式分布、Dir(.)是Dirichlet分布，模型的α表示每个主题在短文本语料所占的权重；β表示每个主题下的词汇在该主题的分布情况；γ表示整个数据集主题词和噪声词的相对比重；π为伯努利分布表示是否为主题词；用户-主题分布θ_u，主题-词分布φ^t，背景主题-词φ^B是模型需要学习的参数；用户的每条短文本标签z_u，s，以及决定每个词来自背景还是主题的二值标签y_u，s，n是隐变量；用户短文本的每个词w_u，s，n是可观察变量。

使用训练好的主题模型，预测输入问句的主题类别Topic，并提取相应主题词(k₁，...，k_n)。首先是将词通过Vocabulary映射数字id，之后通过学习WordEmbedding,将词id再查Word Embedding里的词向量表，从而得到了输入问句词向量与主题词的词向量k＝(k₁，...，k_n)。

步骤S2、建立深度学习问答模型，神经网络结构如图3所示，问答模型使用sequence-to-sequence编码解码框架，使用两层神经网络结构，首先将输入问句的词向量输入RNN循环神经网络编码，如图3中左半黑色部分为编码RNN，获取源输入问句的编码隐藏层状态向量的过程如下：

将输入问句的词向量依次输入RNN循环神经网络，某一时刻的计算过程如下：

ht＝f(x_t，h_t-1)

重复输入不同的词向量x_t从而获得不同时刻的隐藏层状态向量h_t，最后RNN编码问句的结果为隐藏层状态向量集合表示问句词序列的语义向量；

步骤S3、解码RNN循环神经网络使用联合注意力机制即输入问句注意力(messageattention)和主题注意力(topic attention)进行解码，注意力模型动态的利用S2中的输入问句隐藏层状态和主题词信息k＝(k₁，...，k_n)，更好挖掘语义信息和利用主题词信息；另外，结合问句的全局语义向量即最后一个向量对联合注意力模型进行调整，本质为全局语义向量对局部语义向量对齐过程进行补充，最后还使用主题注意力模型权重系数对主题词偏置概率进行调整，促进相关性强的主题词出现在答案中。解码神经网络为图3中右半灰色部分结构，具体过程阐述如下：

S31、根据RNN编码隐藏层状态向量通常将编码中最后时刻隐藏层状态向量当作问句的全局(global)语义编码向量(context vetor),即如下所示：

其中，c_t表示不同时刻的语义编码向量，α_tj表示注意力机制的权重大小，e_tj表示多层感知器神经网络，s_t-1表示解码RNN的隐藏层状态向量，另外的参数为注意力模型需要学习的参数，h_j表示编码RNN隐藏层状态向量；

S32、解码RNN中使用主题的注意力(topic attention)和问句的注意力(messageattention)组成联合注意力机制，联合注意力机制能充分利用主题词和问句的编码语义向量，从而解码RNN利用它进行生成答案，相比较于传统注意力机制，联合注意力机制利用步骤S31中全局语义编码向量和局部语义编码向量的混合作为注意力机制的输入，进行主题注意力topic attention和问句注意力message attention权重参数的学习，一方面能引入主题词生成主题相关答案，另一方面能减少主题模型中无关主题词噪声数据的影响，注意力机制的权重参数计算分别如下：

s_t＝f(y_t-1，s_t-1，c_t，o_t)

其中s_t∈Rⁿ是序列模型在t时刻隐层状态，c_t是t时刻问句message语义编码向量，o_t是t时刻主题词Topic主题语义向量，y_t-1表示t-1时刻预测词，f函数使用GRU(gatedrecurrent unit)作为非线性转换单元，为主题注意力机制权重参数，为问句注意力机制权重参数；

S34、利用步骤S33中解码RNN隐藏层状态向量s_t和y_t-1即可预测t时刻词y_t的概率p_v(y_t)，为了增加主题词在对话答案中出现的概率增加主题词的偏置概率项p_k(y_t)。对偏置概率项进一步使用topic attention中的主题词权重大小进一步减少无关主题词的影响，促进与问句相关性强的主题词出现在生成答案中，预测词生成概率计算如下：

其中，p_v(yt)表示生成普通词的概率，p_k(yt)表示主题词偏置概率，为主题注意力机制权重参数；

步骤S4、使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型：

首先，对大规模对话训练语料进行文本预处理，包括中文分词、对话数据集噪声处理等；将对话{post，answer}问答分别使用不同vocabulary构建词向量表，统计对话语料中出现频次较高的词作为常用词，剩余的低频词表示为UNK。

设置对话模型超参数，Twitter LDA主题模型主题数topic和Dirichlet先验分布超参数α＝50/topic，β＝0.01，γ＝0.01；编码解码encoder、decoder神经元个数、隐藏层状态向量维数、初始化神经网络神经元参数、训练样本每次梯度更新一批样本batch大小和学习率大小，使用梯度下降算法Adam进行问答模型的训练，设置训练迭代次数训练，直到训练模型完成。

其中，模型的α表示每个主题在短文本语料所占的权重；β表示每个主题下的词汇在该主题的分布情况；γ表示整个数据集主题词和噪声词的相对比重；

步骤S5、利用训练的问答模型预测输入问句的答案，生成与问句主题相关的答案，具体是：训练完问答模型后，主题模型会提取问句相应主题词，输入问句和主题词到模型中进行对话预测，生成对话主题相关的答案。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于深度学习和主题模型的问答系统实现方法，其特征在于，包括以下步骤：

S2、问答模型使用sequence-to-sequence编码解码框架，将输入问句的词向量输入RNN循环神经网络编码，获取问句的编码隐藏层状态向量；

2.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法，其特征在于：在步骤S1中，根据Twitter LDA主题模型提取主题词，首先需要将问题和答案组成问答对{post，answer}，此时问答对为短文本满足Twitter LDA主题模型要求，主题模型假设每个{post，answer}归类于某个主题Topic,并且原问答对中的词又能够进一步分类为主题词和背景词，通常只需该问答对的主题类别，并提取主题模型学习的不同主题下的主题词；

主题模型Twitter LDA在短文本挖掘主题能力强，使用{post，answer}大规模语料无监督训练主题模型，训练语料与问答模型训练语料不同，认为是引入外源知识信息到问答模型中，弥补问答模型主题知识的缺失；Twitter LDA模型为完全贝叶斯的概率图模型，参数的推理需要推断参数的后验分布，因此采用吉布斯采样算法估计模型参数；

3.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法，其特征在于：在步骤S1中，将输入问句和主题词通过词向量表映为词向量；首先是将词通过Vocabulary映射数字id，之后通过学习Word Embedding将词id再查Word Embedding里的词向量表，从而得到输入问句词向量与主题词的词向量k＝(k₁，...，k_n)。

4.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法，其特征在于：在步骤S2中，将输入问句的词向量依次输入RNN循环神经网络，某一时刻的计算过程如下：

h_t＝f(x_t，h_t-1)

其中，h_t∈Rⁿ是序列模型在t时刻隐层状态，f函数使用GRU作为非线性转换单元；

重复输入不同的词向量x_t从而获得不同时刻的隐藏层状态向量h_t，最后RNN编码问句的结果为隐藏层状态向量集合表示问句词序列的语义向量。

5.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法，其特征在于，所述步骤S3包括以下步骤：

S31、根据RNN编码隐藏层状态向量将编码中最后时刻隐藏层状态向量当作问句的全局语义编码向量，即如下所示：

与全局语义向量不同，注意力机制能动态选择和线性组合的不同部分，因此c_t表示局部语义编码向量，即如下所示：

其中，c_t表示不同时刻的语义编码向量，α_ij表示注意力机制的权重大小，e_tj表示多层感知器神经网络，s_t-1表示解码RNN的隐藏层状态向量，h_j表示编码RNN隐藏层状态向量；另外的参数W_a、U_a为注意力模型需要学习的参数；

S32、解码RNN中使用主题的注意力和问句的注意力组成联合注意力机制，联合注意力机制能充分利用主题词和问句的编码语义向量，从而解码RNN利用它进行生成答案，相比传统注意力机制，联合注意力机制利用步骤S31中全局语义编码向量和局部语义编码向量的混合作为注意力机制的输入，进行主题的注意力和问句的注意力权重参数的学习，一方面能引入主题词生成主题相关答案，另一方面能减少主题模型中无关主题词噪声数据的影响，注意力机制的权重参数计算分别如下：

s_t＝f(y_t-1，s_t-1，c_t，o_t)

其中，s_t∈Rⁿ是序列模型在t时刻隐层状态，c_t是t时刻问句message语义编码向量，o_t是t时刻主题词Topic主题语义向量，y_t-1表示t-1时刻预测词，f函数使用GRU作为非线性转换单元，为主题注意力机制权重参数，为问句注意力机制权重参数；

S34、利用步骤S33中解码RNN隐藏层状态向量s_t和y_t-1即可预测t时刻词y_t的概率p_v(y_t)，为了增加主题词在对话答案中出现的概率增加主题词的偏置概率项p_k(y_t)；对偏置概率项进一步使用主题的注意力中的主题词权重大小进一步减少无关主题词的影响，促进与问句相关性强的主题词出现在生成答案中，预测词生成概率计算如下：

6.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法，其特征在于：在步骤S4中，对大规模对话训练语料进行文本预处理，设置问答模型超参数、初始化神经网络神经元参数、使用梯度下降算法进行问答模型的训练。

7.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法，其特征在于：在步骤S5中，训练完问答模型后，主题模型会提取问句相应主题词，输入问句和主题词到模型中进行预测，生成问句主题相关的答案。