CN108763284A - 一种基于深度学习和主题模型的问答系统实现方法 - Google Patents

一种基于深度学习和主题模型的问答系统实现方法 Download PDF

Info

Publication number
CN108763284A
CN108763284A CN201810330697.7A CN201810330697A CN108763284A CN 108763284 A CN108763284 A CN 108763284A CN 201810330697 A CN201810330697 A CN 201810330697A CN 108763284 A CN108763284 A CN 108763284A
Authority
CN
China
Prior art keywords
question
question sentence
vector
theme
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810330697.7A
Other languages
English (en)
Other versions
CN108763284B (zh
Inventor
詹国辉
俞祝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810330697.7A priority Critical patent/CN108763284B/zh
Publication of CN108763284A publication Critical patent/CN108763284A/zh
Application granted granted Critical
Publication of CN108763284B publication Critical patent/CN108763284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习和主题模型的问答系统实现方法,包括步骤:S1、将问句输入Twitter LDA主题模型获得问句的主题类型,并提取相应主题词,将输入问句和主题词表示为词向量;S2、将输入问句的词向量输入RNN循环神经网络编码,获取问句的编码隐藏层状态向量;S3、解码RNN循环神经网络使用联合注意力机制结合问句的局部和全局混合语义向量,进行解码生成词;S4、使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型;S5、利用训练的问答模型预测输入问句的答案,生成与问句主题相关的答案。本发明弥补了问答模型外源知识的缺失,增加回答的丰富性和多样性。

Description

一种基于深度学习和主题模型的问答系统实现方法
技术领域
本发明涉及自然语言处理中问答系统的技术领域,尤其是指一种基于深度学习和主题模型的问答系统实现方法。
背景技术
人机对话是自然语言处理技术(Natural Language Processing,NLP)与实现真正人工智能中是一个富有挑战性的任务,现有的问答系统(question and answering,QA)包括特定任务的问答系统和开放域的问答系统。问答系统旨在帮助人类完成特定的任务,比如完成人发出的指令、引导人完成某一项任务,与此同时,问答系统设计用来完成不同聊天背景下模仿人类自然聊天的过程。之前有大量的研究集中在对话系统,随着网络上社交媒体数据的爆炸式增长,大量的训练对话语料成为模型进一步改进的突破口,深度学习聊天机器人成为了学术界和工业界的热门方向。
目前,问答系统问答模型相关问题的研究方法主要包含以下方法:1、基于模板式匹配问答模型。首先是模板匹配式模型,我们可以通过设计规则来让对话模型知道遇到不同语言问句时,回复不同内容,这种方式需要设计多种规则,并且考虑规则间的优先顺序,规则越完善则回答内容越好,不过这种模型可迁移性较差。2、另外,检索式模型跟搜索引擎相似,不同的是检索模型给我们的是答案,这个模型主要是对问答对进行匹配,取决于输入的问句与答案候选集之间相似度,但生成内容依赖于数据集,不能创造新的回答内容。
本发明针对问答系统生成与问句主题相关的回答,重点研究了一种基于深度神经网络和主题模型的问答模型,由于神经网络能够捕捉到问题和回复答案之间语义和句法上的关系,通过完全端到端(end-to-end)的方式从大量问答语料中学习模型参数,通过拟合神经网络参数,能够理解问答中的问句并做出适当的回复。当前主流的生成式问答模型主要使用序列到序列模型(sequence-to-sequence)生成问答回复,并且结合注意力机制(attention mechanism)和主题模型,能够有效的生成问句主题相关的回复,因此是一种可行的分析方法。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于深度学习和主题模型的问答系统实现方法,利用主题模型提取问句的主题词,并结合联合注意力机制有效利用编码语义向量和主题词,生成与问句主题相关的回答,从而弥补了对话模型外源知识的缺失,增加回答的丰富性和多样性。
为实现上述目的,本发明所提供的技术方案为:一种基于深度学习和主题模型的问答系统实现方法,包括以下步骤:
S1、将问句输入Twitter LDA主题模型获得问句的主题类型,并提取相应主题词,将输入问句和主题词表示为词向量;
S2、对话模型使用sequence-to-sequence编码解码框架,将输入问句的词向量输入RNN循环神经网络编码,获取问句的编码隐藏层状态向量;
S3、解码RNN循环神经网络使用联合注意力机制结合问句的局部和全局混合语义向量,进行解码生成词;
S4、使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型;
S5、利用训练的问答模型预测输入问句的答案,生成与问句主题相关的答案。
在步骤S1中,根据Twitter LDA主题模型提取主题词,首先需要将问题和答案组成问答对{post,answer},此时问答对为短文本满足Twitter LDA主题模型要求,主题模型假设每个{post,answer}归类于某个主题Topic,并且原问答对中的词又能够进一步分类为主题词和背景词,通常只需该问答对的主题类别,并提取主题模型学习的不同主题下的主题词;
主题模型Twitter LDA在短文本挖掘主题能力强,使用{post,answer}大规模语料无监督训练主题模型,训练语料与问答模型训练语料不同,认为是引入外源知识信息到问答模型中,弥补问答模型主题知识的缺失;Twitter LDA模型为完全贝叶斯的概率图模型,参数的推理需要推断参数的后验分布,因此采用吉布斯采样算法(collapsed Gibbssampling)估计模型参数;
使用训练好的主题模型,预测输入问句的主题类别Topic,并提取相应主题词(k1,...,kn)。
在步骤S1中,将输入问句和主题词通过词向量表映为词向量;首先是将词通过Vocabulary映射数字id,之后通过学习Word Embedding将词id再查Word Embedding里的词向量表,从而得到输入问句词向量与主题词的词向量k=(k1,...,kn)。
在步骤S2中,将输入问句的词向量依次输入RNN循环神经网络,某一时刻的计算过程如下:
ht=f(xt,ht-1)
其中,ht∈Rn是序列模型在t时刻隐层状态,f函数使用GRU(gated recurrentunit)作为非线性转换单元;
重复输入不同的词向量xt从而获得不同时刻的隐藏层状态向量ht,最后RNN编码问句的结果为隐藏层状态向量集合表示问句词序列的语义向量。
所述步骤S3包括以下步骤:
S31、根据RNN编码隐藏层状态向量将编码中最后时刻隐藏层状态向量当作问句的全局(global)语义编码向量(context vetor),即如下所示:
其中,c表示语义编码向量,q表示线性组合函数,为编码最后时刻隐藏层状态向量;
与全局语义向量不同,注意力机制(attention mechanism)能动态选择和线性组合的不同部分,因此ct表示局部(local)语义编码向量,即如下所示:
其中,ct表示不同时刻的语义编码向量,αtj表示注意力机制的权重大小,etj表示多层感知器神经网络,st-1表示解码RNN的隐藏层状态向量,hj表示编码RNN隐藏层状态向量;另外的参数为注意力模型需要学习的参数;
S32、解码RNN中使用主题的注意力(topic attention)和问句的注意力(messageattention)组成联合注意力机制,联合注意力机制能充分利用主题词和问句的编码语义向量,从而解码RNN利用它进行生成答案,相比传统注意力机制,联合注意力机制利用步骤S31中全局语义编码向量和局部语义编码向量的混合作为注意力机制的输入,进行topicattention和message attention权重参数的学习,一方面能引入主题词生成主题相关答案,另一方面能减少主题模型中无关主题词噪声数据的影响,注意力机制的权重参数计算分别如下:
其中,st-1表示解码RNN的第t-1个隐藏层状态向量,hT是输入问句的最后一个隐藏层状态向量,kj为主题词向量,hj表示编码RNN隐藏层状态向量;,η0是一个多层感知器,为主题注意力机制权重参数,为问句注意力机制权重参数;
S33、解码RNN在t时刻利用联合注意力机制信息进行隐藏层状态向量的计算如下:
st=f(yt-1,st-1,ct,ot)
其中,st∈Rn是序列模型在t时刻隐层状态,ct是t时刻问句message语义编码向量,ot是t时刻主题词Topic主题语义向量,yt-1表示t-1时刻预测词,f函数使用GRU(gatedrecurrent unit)作为非线性转换单元,为主题注意力机制权重参数,为问句注意力机制权重参数;
S34、利用步骤S33中解码RNN隐藏层状态向量st和yt-1即可预测t时刻词yt的概率pv(yt),为了增加主题词在对话答案中出现的概率增加主题词的偏置概率项pk(yt);对偏置概率项进一步使用topic attention中的主题词权重大小进一步减少无关主题词的影响,促进与问句相关性强的主题词出现在生成答案中,预测词生成概率计算如下:
其中,pv(yt)表示生成普通词的概率,pk(yt)表示主题词偏置概率,为主题注意力机制权重参数。
在步骤S4中,对大规模对话训练语料进行文本预处理,设置问答模型超参数、初始化神经网络神经元参数、使用梯度下降算法进行对话模型的训练。
在步骤S5中,训练完问答模型后,主题模型会提取问句相应主题词,输入问句和主题词到模型中进行对话预测,生成对话主题相关的答案。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明方法采用主题模型提取问答系统中问句的主题词,为深度学习问答模型引入了外源知识,使得问答模型除了从数据集学习对话模式外,问答模型还能利用外源知识,使得生成回复内容丰富多样性。
2、本发明方法使用联合注意力机制即主题注意力(topic attention)和问句注意力(message attention)机制,使得问答模型解码生成词时能动态地利用问句语义向量和主题词向量信息,同时使用主题词偏置概率促进答案中生成主题词,使得问答模型生成主题相关的答案。
3、本发明使用编码的全局(global)语义向量和动态加权的局部(local)语义向量,两者的混合语义向量输入到注意力机制能更好挖掘对话语料中词的语义信息和减少无关主题词的影响,同时使用主题模型的权重系数去调整主题词偏置概率,进一步增强与问句相关性强的主题词在答案中出现的概率,减少无关主题词噪声数据的影响。
附图说明
图1是本发明方法的问答模型答案生成流程图。
图2是本发明方法中主题模型Twitter LDA概率图模型示意图。
图3是本发明方法中问答模型神经网络结构图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的一种基于深度学习和主题模型的问答系统实现方法,包括以下步骤:
步骤S1、首先将问句输入Twitter LDA主题模型获得问句的主题类型,并提取相应主题词,将输入问句和主题词表示为词向量,具体过程为:
首先,由Twitter LDA主题模型提取主题词,首先需要将问题和答案组成问答对{post,answer},此时问答对为短文本满足Twitter LDA主题模型要求,主题模型假设每个{post,answer}归类于某个主题Topic,并且原问答对中的词又可进一步分类为主题词和背景词,通常我们只需该问答对的主题类别,并提取主题模型学习的不同主题下的主题词。
主题模型Twitter LDA在短文本挖掘主题能力强,使用{post,answer}大规模语料无监督训练主题模型,训练语料与问答模型训练语料不同,可认为是引入外源知识信息到对话模型中,弥补了问答模型主题知识的缺失。Twitter LDA模型为完全贝叶斯的概率图模型,参数的推理需要推断参数的后验分布,因此可以采用吉布斯采样算法(collapsedGibbs sampling)估计模型参数,如图2为Twitter LDA概率图模型示意图,刻画了整个短文本数据集的生成过程,详细过程阐述如下:
1)为唯一的背景主题φB采样一个主题-分布φB~Dir(β);
2)为决定词汇是主题词或背景词的π采样一个伯努利分布π~Dir(γ);
3)对所有主题t=1,...,T:
采样一个主题-词分布φt~Dir(β);
4)对于每个用户u=1,...,U:
4.1)采样一个用户-主题分布θu~Dir(α);
4.2)对用户u的每条短文本s=1,...,Nu:
4.2.1)采样一个主题标签zu,s~Multi(θu);
4.2.2)对于短文本s的每一个词汇n=1,...,Nu,s:
4.2.2.1)采样一个二值标签yu,s,n~Multi(π)(0为噪声词,1为主题词);
4.2.2.1)假设yu,s,n=0,从背景主题采样wu,s,n~Multi(φB);假设yu,s,n=1,从该短文本的主题标签对应的主题采样
其中Multi(.)是多项式分布、Dir(.)是Dirichlet分布,模型的α表示每个主题在短文本语料所占的权重;β表示每个主题下的词汇在该主题的分布情况;γ表示整个数据集主题词和噪声词的相对比重;π为伯努利分布表示是否为主题词;用户-主题分布θu,主题-词分布φt,背景主题-词φB是模型需要学习的参数;用户的每条短文本标签zu,s,以及决定每个词来自背景还是主题的二值标签yu,s,n是隐变量;用户短文本的每个词wu,s,n是可观察变量。
使用训练好的主题模型,预测输入问句的主题类别Topic,并提取相应主题词(k1,...,kn)。首先是将词通过Vocabulary映射数字id,之后通过学习WordEmbedding,将词id再查Word Embedding里的词向量表,从而得到了输入问句词向量与主题词的词向量k=(k1,...,kn)。
步骤S2、建立深度学习问答模型,神经网络结构如图3所示,问答模型使用sequence-to-sequence编码解码框架,使用两层神经网络结构,首先将输入问句的词向量输入RNN循环神经网络编码,如图3中左半黑色部分为编码RNN,获取源输入问句的编码隐藏层状态向量的过程如下:
将输入问句的词向量依次输入RNN循环神经网络,某一时刻的计算过程如下:
ht=f(xt,ht-1)
其中,ht∈Rn是序列模型在t时刻隐层状态,f函数使用GRU(gated recurrentunit)作为非线性转换单元;
重复输入不同的词向量xt从而获得不同时刻的隐藏层状态向量ht,最后RNN编码问句的结果为隐藏层状态向量集合表示问句词序列的语义向量;
步骤S3、解码RNN循环神经网络使用联合注意力机制即输入问句注意力(messageattention)和主题注意力(topic attention)进行解码,注意力模型动态的利用S2中的输入问句隐藏层状态和主题词信息k=(k1,...,kn),更好挖掘语义信息和利用主题词信息;另外,结合问句的全局语义向量即最后一个向量对联合注意力模型进行调整,本质为全局语义向量对局部语义向量对齐过程进行补充,最后还使用主题注意力模型权重系数对主题词偏置概率进行调整,促进相关性强的主题词出现在答案中。解码神经网络为图3中右半灰色部分结构,具体过程阐述如下:
S31、根据RNN编码隐藏层状态向量通常将编码中最后时刻隐藏层状态向量当作问句的全局(global)语义编码向量(context vetor),即如下所示:
其中,c表示语义编码向量,q表示线性组合函数,为编码最后时刻隐藏层状态向量;
与全局语义向量不同,注意力机制(attention mechanism)能动态选择和线性组合的不同部分,因此ct表示局部(local)语义编码向量,即如下所示:
其中,ct表示不同时刻的语义编码向量,αtj表示注意力机制的权重大小,etj表示多层感知器神经网络,st-1表示解码RNN的隐藏层状态向量,另外的参数为注意力模型需要学习的参数,hj表示编码RNN隐藏层状态向量;
S32、解码RNN中使用主题的注意力(topic attention)和问句的注意力(messageattention)组成联合注意力机制,联合注意力机制能充分利用主题词和问句的编码语义向量,从而解码RNN利用它进行生成答案,相比较于传统注意力机制,联合注意力机制利用步骤S31中全局语义编码向量和局部语义编码向量的混合作为注意力机制的输入,进行主题注意力topic attention和问句注意力message attention权重参数的学习,一方面能引入主题词生成主题相关答案,另一方面能减少主题模型中无关主题词噪声数据的影响,注意力机制的权重参数计算分别如下:
其中,st-1表示解码RNN的第t-1个隐藏层状态向量,hT是输入问句的最后一个隐藏层状态向量,kj为主题词向量,hj表示编码RNN隐藏层状态向量;,η0是一个多层感知器,为主题注意力机制权重参数,为问句注意力机制权重参数;
S33、解码RNN在t时刻利用联合注意力机制信息进行隐藏层状态向量的计算如下:
st=f(yt-1,st-1,ct,ot)
其中st∈Rn是序列模型在t时刻隐层状态,ct是t时刻问句message语义编码向量,ot是t时刻主题词Topic主题语义向量,yt-1表示t-1时刻预测词,f函数使用GRU(gatedrecurrent unit)作为非线性转换单元,为主题注意力机制权重参数,为问句注意力机制权重参数;
S34、利用步骤S33中解码RNN隐藏层状态向量st和yt-1即可预测t时刻词yt的概率pv(yt),为了增加主题词在对话答案中出现的概率增加主题词的偏置概率项pk(yt)。对偏置概率项进一步使用topic attention中的主题词权重大小进一步减少无关主题词的影响,促进与问句相关性强的主题词出现在生成答案中,预测词生成概率计算如下:
其中,pv(yt)表示生成普通词的概率,pk(yt)表示主题词偏置概率,为主题注意力机制权重参数;
步骤S4、使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型:
首先,对大规模对话训练语料进行文本预处理,包括中文分词、对话数据集噪声处理等;将对话{post,answer}问答分别使用不同vocabulary构建词向量表,统计对话语料中出现频次较高的词作为常用词,剩余的低频词表示为UNK。
设置对话模型超参数,Twitter LDA主题模型主题数topic和Dirichlet先验分布超参数α=50/topic,β=0.01,γ=0.01;编码解码encoder、decoder神经元个数、隐藏层状态向量维数、初始化神经网络神经元参数、训练样本每次梯度更新一批样本batch大小和学习率大小,使用梯度下降算法Adam进行问答模型的训练,设置训练迭代次数训练,直到训练模型完成。
其中,模型的α表示每个主题在短文本语料所占的权重;β表示每个主题下的词汇在该主题的分布情况;γ表示整个数据集主题词和噪声词的相对比重;
步骤S5、利用训练的问答模型预测输入问句的答案,生成与问句主题相关的答案,具体是:训练完问答模型后,主题模型会提取问句相应主题词,输入问句和主题词到模型中进行对话预测,生成对话主题相关的答案。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (7)

1.一种基于深度学习和主题模型的问答系统实现方法,其特征在于,包括以下步骤:
S1、将问句输入Twitter LDA主题模型获得问句的主题类型,并提取相应主题词,将输入问句和主题词表示为词向量;
S2、问答模型使用sequence-to-sequence编码解码框架,将输入问句的词向量输入RNN循环神经网络编码,获取问句的编码隐藏层状态向量;
S3、解码RNN循环神经网络使用联合注意力机制结合问句的局部和全局混合语义向量,进行解码生成词;
S4、使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型;
S5、利用训练的问答模型预测输入问句的答案,生成与问句主题相关的答案。
2.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法,其特征在于:在步骤S1中,根据Twitter LDA主题模型提取主题词,首先需要将问题和答案组成问答对{post,answer},此时问答对为短文本满足Twitter LDA主题模型要求,主题模型假设每个{post,answer}归类于某个主题Topic,并且原问答对中的词又能够进一步分类为主题词和背景词,通常只需该问答对的主题类别,并提取主题模型学习的不同主题下的主题词;
主题模型Twitter LDA在短文本挖掘主题能力强,使用{post,answer}大规模语料无监督训练主题模型,训练语料与问答模型训练语料不同,认为是引入外源知识信息到问答模型中,弥补问答模型主题知识的缺失;Twitter LDA模型为完全贝叶斯的概率图模型,参数的推理需要推断参数的后验分布,因此采用吉布斯采样算法估计模型参数;
使用训练好的主题模型,预测输入问句的主题类别Topic,并提取相应主题词(k1,...,kn)。
3.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法,其特征在于:在步骤S1中,将输入问句和主题词通过词向量表映为词向量;首先是将词通过Vocabulary映射数字id,之后通过学习Word Embedding将词id再查Word Embedding里的词向量表,从而得到输入问句词向量与主题词的词向量k=(k1,...,kn)。
4.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法,其特征在于:在步骤S2中,将输入问句的词向量依次输入RNN循环神经网络,某一时刻的计算过程如下:
ht=f(xt,ht-1)
其中,ht∈Rn是序列模型在t时刻隐层状态,f函数使用GRU作为非线性转换单元;
重复输入不同的词向量xt从而获得不同时刻的隐藏层状态向量ht,最后RNN编码问句的结果为隐藏层状态向量集合表示问句词序列的语义向量。
5.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法,其特征在于,所述步骤S3包括以下步骤:
S31、根据RNN编码隐藏层状态向量将编码中最后时刻隐藏层状态向量当作问句的全局语义编码向量,即如下所示:
其中,c表示语义编码向量,q表示线性组合函数,为编码最后时刻隐藏层状态向量;
与全局语义向量不同,注意力机制能动态选择和线性组合的不同部分,因此ct表示局部语义编码向量,即如下所示:
其中,ct表示不同时刻的语义编码向量,αij表示注意力机制的权重大小,etj表示多层感知器神经网络,st-1表示解码RNN的隐藏层状态向量,hj表示编码RNN隐藏层状态向量;另外的参数Wa、Ua为注意力模型需要学习的参数;
S32、解码RNN中使用主题的注意力和问句的注意力组成联合注意力机制,联合注意力机制能充分利用主题词和问句的编码语义向量,从而解码RNN利用它进行生成答案,相比传统注意力机制,联合注意力机制利用步骤S31中全局语义编码向量和局部语义编码向量的混合作为注意力机制的输入,进行主题的注意力和问句的注意力权重参数的学习,一方面能引入主题词生成主题相关答案,另一方面能减少主题模型中无关主题词噪声数据的影响,注意力机制的权重参数计算分别如下:
其中,st-1表示解码RNN的第t-1个隐藏层状态向量,hT是输入问句的最后一个隐藏层状态向量,kj为主题词向量,hj表示编码RNN隐藏层状态向量;,η0是一个多层感知器,为主题注意力机制权重参数,为问句注意力机制权重参数;
S33、解码RNN在t时刻利用联合注意力机制信息进行隐藏层状态向量的计算如下:
st=f(yt-1,st-1,ct,ot)
其中,st∈Rn是序列模型在t时刻隐层状态,ct是t时刻问句message语义编码向量,ot是t时刻主题词Topic主题语义向量,yt-1表示t-1时刻预测词,f函数使用GRU作为非线性转换单元,为主题注意力机制权重参数,为问句注意力机制权重参数;
S34、利用步骤S33中解码RNN隐藏层状态向量st和yt-1即可预测t时刻词yt的概率pv(yt),为了增加主题词在对话答案中出现的概率增加主题词的偏置概率项pk(yt);对偏置概率项进一步使用主题的注意力中的主题词权重大小进一步减少无关主题词的影响,促进与问句相关性强的主题词出现在生成答案中,预测词生成概率计算如下:
其中,pv(yt)表示生成普通词的概率,pk(yt)表示主题词偏置概率,为主题注意力机制权重参数。
6.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法,其特征在于:在步骤S4中,对大规模对话训练语料进行文本预处理,设置问答模型超参数、初始化神经网络神经元参数、使用梯度下降算法进行问答模型的训练。
7.根据权利要求1所述的一种基于深度学习和主题模型的问答系统实现方法,其特征在于:在步骤S5中,训练完问答模型后,主题模型会提取问句相应主题词,输入问句和主题词到模型中进行预测,生成问句主题相关的答案。
CN201810330697.7A 2018-04-13 2018-04-13 一种基于深度学习和主题模型的问答系统实现方法 Active CN108763284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810330697.7A CN108763284B (zh) 2018-04-13 2018-04-13 一种基于深度学习和主题模型的问答系统实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810330697.7A CN108763284B (zh) 2018-04-13 2018-04-13 一种基于深度学习和主题模型的问答系统实现方法

Publications (2)

Publication Number Publication Date
CN108763284A true CN108763284A (zh) 2018-11-06
CN108763284B CN108763284B (zh) 2021-07-20

Family

ID=63981828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810330697.7A Active CN108763284B (zh) 2018-04-13 2018-04-13 一种基于深度学习和主题模型的问答系统实现方法

Country Status (1)

Country Link
CN (1) CN108763284B (zh)

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446331A (zh) * 2018-12-07 2019-03-08 华中科技大学 一种文本情绪分类模型建立方法及文本情绪分类方法
CN109582778A (zh) * 2018-12-12 2019-04-05 东软集团股份有限公司 一种智能问答方法、装置、设备及介质
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN109670029A (zh) * 2018-12-28 2019-04-23 百度在线网络技术(北京)有限公司 用于确定问题答案的方法、装置、计算机设备及存储介质
CN109726276A (zh) * 2018-12-29 2019-05-07 中山大学 一种基于深度网络学习的任务型对话系统
CN109871451A (zh) * 2019-01-25 2019-06-11 中译语通科技股份有限公司 一种融入动态词向量的关系抽取方法和系统
CN109885661A (zh) * 2019-02-27 2019-06-14 上海优谦智能科技有限公司 教育场景下的问答系统
CN109933652A (zh) * 2019-01-17 2019-06-25 深圳壹账通智能科技有限公司 智能问答方法、装置、计算机设备及存储介质
CN109947894A (zh) * 2019-01-04 2019-06-28 北京车慧科技有限公司 一种文本标签提取系统
CN110163439A (zh) * 2019-05-24 2019-08-23 长安大学 一种基于注意力机制的城市规模出租车轨迹预测方法
CN110188176A (zh) * 2019-04-30 2019-08-30 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质
CN110222164A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种问答模型训练方法、问题语句处理方法、装置及存储介质
CN110263330A (zh) * 2019-05-22 2019-09-20 腾讯科技(深圳)有限公司 问题语句的改写方法、装置、设备和存储介质
CN110287283A (zh) * 2019-05-22 2019-09-27 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
CN110321417A (zh) * 2019-05-30 2019-10-11 山东大学 一种对话生成方法、系统、可读存储介质及计算机设备
CN110502619A (zh) * 2019-03-08 2019-11-26 中山大学 一种基于gru神经网络内部注意力机制的答案选择模型
CN110516053A (zh) * 2019-08-15 2019-11-29 出门问问(武汉)信息科技有限公司 对话处理方法、设备及计算机存储介质
CN110532565A (zh) * 2019-08-30 2019-12-03 联想(北京)有限公司 语句处理方法及装置、以及电子设备
CN110619042A (zh) * 2019-03-13 2019-12-27 北京航空航天大学 一种基于神经网络的导学问答系统及方法
CN110674279A (zh) * 2019-10-15 2020-01-10 腾讯科技(深圳)有限公司 基于人工智能的问答处理方法、装置、设备及存储介质
CN110674280A (zh) * 2019-06-21 2020-01-10 四川大学 一种基于增强问题重要性表示的答案选择算法
CN110717338A (zh) * 2019-07-29 2020-01-21 北京车慧科技有限公司 一种基于用户评论的典型意见生成装置
CN110727768A (zh) * 2019-10-24 2020-01-24 中国科学院计算技术研究所 一种候选回答语句生成和自然语言选择方法及系统
CN110909254A (zh) * 2019-10-31 2020-03-24 中山大学 基于深度学习模型针对问答社区进行问题热度预测的方法和系统
CN111159366A (zh) * 2019-12-05 2020-05-15 重庆兆光科技股份有限公司 一种基于正交主题表示的问答优化方法
CN111178067A (zh) * 2019-12-19 2020-05-19 北京明略软件系统有限公司 信息获取模型生成方法、装置及信息获取方法、装置
CN111275118A (zh) * 2020-01-22 2020-06-12 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111324709A (zh) * 2020-02-10 2020-06-23 广西师范大学 基于学科知识图谱和卷积神经网络的智能答疑方法
CN111400481A (zh) * 2020-05-15 2020-07-10 支付宝(杭州)信息技术有限公司 针对多轮对话生成回复语句的方法和装置
CN111522924A (zh) * 2020-03-31 2020-08-11 华东师范大学 一种带有主题感知的情感聊天式回复生成方法
CN111582498A (zh) * 2020-04-30 2020-08-25 重庆富民银行股份有限公司 基于机器学习的qa辅助决策方法及系统
CN111651557A (zh) * 2020-05-09 2020-09-11 清华大学深圳国际研究生院 一种自动化文本生成方法、装置及计算机可读存储介质
CN111666756A (zh) * 2020-05-26 2020-09-15 湖北工业大学 一种基于主题融合的序列模型文本摘要生成方法
CN111666397A (zh) * 2020-06-12 2020-09-15 苏州思必驰信息科技有限公司 多模型联合学习的问题匹配方法及系统
CN111797220A (zh) * 2020-07-30 2020-10-20 腾讯科技(深圳)有限公司 对话生成方法、装置、计算机设备和存储介质
CN112100342A (zh) * 2020-08-05 2020-12-18 西北工业大学 一种基于知识表示学习技术的知识图谱问答方法
CN112115250A (zh) * 2020-09-28 2020-12-22 四川长虹电器股份有限公司 一种问句自动生成方法及系统
CN112231461A (zh) * 2020-10-29 2021-01-15 中国科学院计算技术研究所厦门数据智能研究院 一种融合知识的对话生成方法
CN112416956A (zh) * 2020-11-19 2021-02-26 重庆邮电大学 一种基于bert和独立循环神经网络的问句分类方法
CN112487761A (zh) * 2020-11-26 2021-03-12 四川长虹电器股份有限公司 一种基于图表征融合的问句生成方法及装置
CN112765333A (zh) * 2021-01-08 2021-05-07 山东师范大学 基于情感与提示词结合的自动对话生成方法及系统
CN112905754A (zh) * 2019-12-16 2021-06-04 腾讯科技(深圳)有限公司 基于人工智能的视觉对话方法、装置及电子设备
WO2021139486A1 (zh) * 2020-01-08 2021-07-15 平安科技(深圳)有限公司 文本增量方法、装置及终端设备
CN113268561A (zh) * 2021-04-25 2021-08-17 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113420543A (zh) * 2021-05-11 2021-09-21 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
CN114444488A (zh) * 2022-01-26 2022-05-06 中国科学技术大学 一种少样本机器阅读理解方法、系统、设备及存储介质
WO2023274187A1 (zh) * 2021-07-01 2023-01-05 北京有竹居网络技术有限公司 基于自然语言推理的信息处理方法、装置和电子设备
CN110110048B (zh) * 2019-05-10 2023-06-02 科大讯飞股份有限公司 问询指引方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160342895A1 (en) * 2015-05-21 2016-11-24 Baidu Usa Llc Multilingual image question answering
US20170316775A1 (en) * 2016-04-27 2017-11-02 Conduent Business Services, Llc Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
US20180103052A1 (en) * 2016-10-11 2018-04-12 Battelle Memorial Institute System and methods for automated detection, reasoning and recommendations for resilient cyber systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160342895A1 (en) * 2015-05-21 2016-11-24 Baidu Usa Llc Multilingual image question answering
US20170316775A1 (en) * 2016-04-27 2017-11-02 Conduent Business Services, Llc Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network
US20180103052A1 (en) * 2016-10-11 2018-04-12 Battelle Memorial Institute System and methods for automated detection, reasoning and recommendations for resilient cyber systems
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Cited By (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN109657041B (zh) * 2018-12-04 2023-09-29 南京理工大学 基于深度学习的问题自动生成方法
CN109446331A (zh) * 2018-12-07 2019-03-08 华中科技大学 一种文本情绪分类模型建立方法及文本情绪分类方法
CN109582778B (zh) * 2018-12-12 2020-10-27 东软集团股份有限公司 一种智能问答方法、装置、设备及介质
CN109582778A (zh) * 2018-12-12 2019-04-05 东软集团股份有限公司 一种智能问答方法、装置、设备及介质
CN109670029A (zh) * 2018-12-28 2019-04-23 百度在线网络技术(北京)有限公司 用于确定问题答案的方法、装置、计算机设备及存储介质
CN109726276A (zh) * 2018-12-29 2019-05-07 中山大学 一种基于深度网络学习的任务型对话系统
CN109947894A (zh) * 2019-01-04 2019-06-28 北京车慧科技有限公司 一种文本标签提取系统
CN109933652A (zh) * 2019-01-17 2019-06-25 深圳壹账通智能科技有限公司 智能问答方法、装置、计算机设备及存储介质
CN109871451B (zh) * 2019-01-25 2021-03-19 中译语通科技股份有限公司 一种融入动态词向量的关系抽取方法和系统
CN109871451A (zh) * 2019-01-25 2019-06-11 中译语通科技股份有限公司 一种融入动态词向量的关系抽取方法和系统
CN109885661A (zh) * 2019-02-27 2019-06-14 上海优谦智能科技有限公司 教育场景下的问答系统
CN110502619A (zh) * 2019-03-08 2019-11-26 中山大学 一种基于gru神经网络内部注意力机制的答案选择模型
CN110619042A (zh) * 2019-03-13 2019-12-27 北京航空航天大学 一种基于神经网络的导学问答系统及方法
CN110188176A (zh) * 2019-04-30 2019-08-30 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质
CN110110048B (zh) * 2019-05-10 2023-06-02 科大讯飞股份有限公司 问询指引方法及装置
CN110287283B (zh) * 2019-05-22 2023-08-01 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
CN110287283A (zh) * 2019-05-22 2019-09-27 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
CN110263330A (zh) * 2019-05-22 2019-09-20 腾讯科技(深圳)有限公司 问题语句的改写方法、装置、设备和存储介质
CN110163439A (zh) * 2019-05-24 2019-08-23 长安大学 一种基于注意力机制的城市规模出租车轨迹预测方法
CN110321417A (zh) * 2019-05-30 2019-10-11 山东大学 一种对话生成方法、系统、可读存储介质及计算机设备
CN110321417B (zh) * 2019-05-30 2021-06-11 山东大学 一种对话生成方法、系统、可读存储介质及计算机设备
CN110222164B (zh) * 2019-06-13 2022-11-29 腾讯科技(深圳)有限公司 一种问答模型训练方法、问题语句处理方法、装置及存储介质
CN110222164A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种问答模型训练方法、问题语句处理方法、装置及存储介质
CN110674280B (zh) * 2019-06-21 2023-12-15 北京中科微末生物科技有限公司 一种基于增强问题重要性表示的答案选择算法
CN110674280A (zh) * 2019-06-21 2020-01-10 四川大学 一种基于增强问题重要性表示的答案选择算法
CN110717338A (zh) * 2019-07-29 2020-01-21 北京车慧科技有限公司 一种基于用户评论的典型意见生成装置
CN110516053A (zh) * 2019-08-15 2019-11-29 出门问问(武汉)信息科技有限公司 对话处理方法、设备及计算机存储介质
CN110532565A (zh) * 2019-08-30 2019-12-03 联想(北京)有限公司 语句处理方法及装置、以及电子设备
CN110674279A (zh) * 2019-10-15 2020-01-10 腾讯科技(深圳)有限公司 基于人工智能的问答处理方法、装置、设备及存储介质
CN110727768A (zh) * 2019-10-24 2020-01-24 中国科学院计算技术研究所 一种候选回答语句生成和自然语言选择方法及系统
CN110909254A (zh) * 2019-10-31 2020-03-24 中山大学 基于深度学习模型针对问答社区进行问题热度预测的方法和系统
CN110909254B (zh) * 2019-10-31 2022-05-03 中山大学 基于深度学习模型针对问答社区进行问题热度预测的方法和系统
CN111159366A (zh) * 2019-12-05 2020-05-15 重庆兆光科技股份有限公司 一种基于正交主题表示的问答优化方法
CN112905754A (zh) * 2019-12-16 2021-06-04 腾讯科技(深圳)有限公司 基于人工智能的视觉对话方法、装置及电子设备
CN111178067B (zh) * 2019-12-19 2023-05-26 北京明略软件系统有限公司 信息获取模型生成方法、装置及信息获取方法、装置
CN111178067A (zh) * 2019-12-19 2020-05-19 北京明略软件系统有限公司 信息获取模型生成方法、装置及信息获取方法、装置
WO2021139486A1 (zh) * 2020-01-08 2021-07-15 平安科技(深圳)有限公司 文本增量方法、装置及终端设备
CN111275118A (zh) * 2020-01-22 2020-06-12 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111275118B (zh) * 2020-01-22 2022-09-16 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111324709A (zh) * 2020-02-10 2020-06-23 广西师范大学 基于学科知识图谱和卷积神经网络的智能答疑方法
CN111324709B (zh) * 2020-02-10 2021-08-13 广西师范大学 基于学科知识图谱和卷积神经网络的智能答疑方法
CN111522924A (zh) * 2020-03-31 2020-08-11 华东师范大学 一种带有主题感知的情感聊天式回复生成方法
CN111582498A (zh) * 2020-04-30 2020-08-25 重庆富民银行股份有限公司 基于机器学习的qa辅助决策方法及系统
CN111651557A (zh) * 2020-05-09 2020-09-11 清华大学深圳国际研究生院 一种自动化文本生成方法、装置及计算机可读存储介质
CN111651557B (zh) * 2020-05-09 2023-03-31 清华大学深圳国际研究生院 一种自动化文本生成方法、装置及计算机可读存储介质
CN111400481B (zh) * 2020-05-15 2023-04-28 支付宝(杭州)信息技术有限公司 针对多轮对话生成回复语句的方法和装置
CN111400481A (zh) * 2020-05-15 2020-07-10 支付宝(杭州)信息技术有限公司 针对多轮对话生成回复语句的方法和装置
CN111666756A (zh) * 2020-05-26 2020-09-15 湖北工业大学 一种基于主题融合的序列模型文本摘要生成方法
CN111666756B (zh) * 2020-05-26 2023-12-05 湖北工业大学 一种基于主题融合的序列模型文本摘要生成方法
CN111666397A (zh) * 2020-06-12 2020-09-15 苏州思必驰信息科技有限公司 多模型联合学习的问题匹配方法及系统
CN111666397B (zh) * 2020-06-12 2022-07-12 思必驰科技股份有限公司 多模型联合学习的问题匹配方法及系统
CN111797220B (zh) * 2020-07-30 2024-02-09 腾讯科技(深圳)有限公司 对话生成方法、装置、计算机设备和存储介质
CN111797220A (zh) * 2020-07-30 2020-10-20 腾讯科技(深圳)有限公司 对话生成方法、装置、计算机设备和存储介质
CN112100342A (zh) * 2020-08-05 2020-12-18 西北工业大学 一种基于知识表示学习技术的知识图谱问答方法
CN112115250A (zh) * 2020-09-28 2020-12-22 四川长虹电器股份有限公司 一种问句自动生成方法及系统
CN112231461A (zh) * 2020-10-29 2021-01-15 中国科学院计算技术研究所厦门数据智能研究院 一种融合知识的对话生成方法
CN112416956A (zh) * 2020-11-19 2021-02-26 重庆邮电大学 一种基于bert和独立循环神经网络的问句分类方法
CN112487761A (zh) * 2020-11-26 2021-03-12 四川长虹电器股份有限公司 一种基于图表征融合的问句生成方法及装置
CN112765333A (zh) * 2021-01-08 2021-05-07 山东师范大学 基于情感与提示词结合的自动对话生成方法及系统
CN113268561B (zh) * 2021-04-25 2021-12-14 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113268561A (zh) * 2021-04-25 2021-08-17 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113420543A (zh) * 2021-05-11 2021-09-21 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
CN113420543B (zh) * 2021-05-11 2024-03-22 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
WO2023274187A1 (zh) * 2021-07-01 2023-01-05 北京有竹居网络技术有限公司 基于自然语言推理的信息处理方法、装置和电子设备
CN114444488B (zh) * 2022-01-26 2023-03-24 中国科学技术大学 一种少样本机器阅读理解方法、系统、设备及存储介质
CN114444488A (zh) * 2022-01-26 2022-05-06 中国科学技术大学 一种少样本机器阅读理解方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN108763284B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN108763284A (zh) 一种基于深度学习和主题模型的问答系统实现方法
Yang et al. VAE-Stega: linguistic steganography based on variational auto-encoder
Gibson et al. A deep learning approach to modeling empathy in addiction counseling
US20180329884A1 (en) Neural contextual conversation learning
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN112818107B (zh) 一种用于日常生活的对话机器人及其聊天方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
Zheng et al. Automatic generation of news comments based on gated attention neural networks
Wu et al. Recall what you see continually using gridlstm in image captioning
Zhou et al. Context-aware natural language generation for spoken dialogue systems
CN108595436A (zh) 情感对话内容的生成方法和系统、存储介质
Ma et al. PKUSE at SemEval-2019 task 3: emotion detection with emotion-oriented neural attention network
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN113918813A (zh) 基于聊天记录形式外部知识的人岗推荐方法及装置
CN114297399A (zh) 知识图谱生成方法、系统、存储介质及电子设备
CN114444481B (zh) 一种新闻评论的情感分析与生成方法
CN109933773A (zh) 一种多重语义语句解析系统及方法
Wang et al. Information-enhanced hierarchical self-attention network for multiturn dialog generation
Maslennikova ELMo Word Representations For News Protection.
Gholami et al. Does Synthetic Data Make Large Language Models More Efficient?
Hung Integrating diacritics restoration and question classification into vietnamese question answering system
CN116029283A (zh) 一种基于常识扩展的角色一致性对话生成方法
Ashfaque et al. Design and Implementation: Deep Learning-based Intelligent Chatbot
Jiang et al. DEIM: An effective deep encoding and interaction model for sentence matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant