CN108846130B - 一种问题文本生成方法、装置、设备和介质 - Google Patents

一种问题文本生成方法、装置、设备和介质 Download PDF

Info

Publication number
CN108846130B
CN108846130B CN201810712874.8A CN201810712874A CN108846130B CN 108846130 B CN108846130 B CN 108846130B CN 201810712874 A CN201810712874 A CN 201810712874A CN 108846130 B CN108846130 B CN 108846130B
Authority
CN
China
Prior art keywords
word
state vector
hidden layer
layer state
current output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810712874.8A
Other languages
English (en)
Other versions
CN108846130A (zh
Inventor
孙兴武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810712874.8A priority Critical patent/CN108846130B/zh
Publication of CN108846130A publication Critical patent/CN108846130A/zh
Application granted granted Critical
Publication of CN108846130B publication Critical patent/CN108846130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种问题文本生成方法、装置、设备和介质。该方法包括:本发明实施例通过采用编码器基于各输入词的属性参数,确定各输入词的编码隐层状态向量;并针对各候选词,采用解码器以及注意力机制模型确定各候选词作为当前输出词的上下文向量和解码隐层状态向量;并根据上下文向量和解码隐层状态向量,针对至少一种生成模式,分别计算各候选词作为当前输出词概率值以及生成模式的权重值,进而确定最终概率,以基于最终概率在候选词中筛选当前输出词。采用上述技术方案提高了基于答案文本生成问题文本的准确性和多样性。

Description

一种问题文本生成方法、装置、设备和介质
技术领域
本发明实施例涉及计算机数据处理技术,尤其涉及一种问题文本生成方法、装置、设备和介质。
背景技术
问题生成是人工智能重要的分支,有很多实际的应用场景:在教育领域,自动从阅读理解材料中生成问题能帮助学生理解或者辅助老师考察学生;在人机对话中,能够根据用户的回复生成问题,从而增强用户粘性;在问答领域,能够帮助问答系统自动标注更多的语料。
问题生成技术一般分为两步,第一步从自然语言中定位提问的目标片段,即答案文本;第二步是根据答案文本和给定的自然语言生成问题文本。本文主要关注于建模解决第二步,即如何根据自然语言和答案文本生成问题文本。
现有技术中生成问题文本的方法,一般基于规则的方法,首先对自然语言进行预处理,包括句法分析、句子简化和语义角色标注,然后用规则的方法确定作为答案文本的目标片段;接下来用转换规则或者转换模板,将答案文本转换生成问题文本;最后用有监督的机器学习方法对生成的问题文本进行排序筛选。
基于规则的方法分为两种,一种通过句法或语义分析人工总结大量的转换规则;另一种通过人工总结模板或者自动从标注数据中学习模板。基于转换规则的方法依赖大量人工的参与总结规则,非常繁琐和耗时,且基于转换规则的方法通常是对自然语言中的词语重组缺乏多样性。基于模板的方法能够生成多样性的问题,但是模板的方法能解决的问题类型有限,只能解决特定类型的问题,召回率低。
发明内容
本发明实施例提供一种问题文本生成方法、装置、设备和介质,以提高基于答案文本生成问题文本的准确性和多样性。
第一方面,本发明实施例提供了一种问题文本生成方法,该方法包括:
向编码器的多个模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量;
针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量;
分别将所述编码隐层状态向量和解码隐层状态向量传递至注意力机制模型中,并采用所述注意力机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器;
针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值,以及计算生成模式的权重值;
根据候选词的概率值和生成模式的权重值计算各候选词的最终概率;
根据所述最终概率从各候选词中筛选出当前输出词。
第二方面,本发明实施例还提供了一种问题文本生成装置,该装置包括:
编码隐层状态向量计算模块,用于向编码器的多个模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量;
解码隐层状态向量计算模块,用于针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量;
上下文向量计算模块,用于分别将所述编码隐层状态向量和解码隐层状态向量传递至注意力机制模型中,并采用所述注意力机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器;
候选词概率计算模块,用于针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值,以及计算生成模式的权重值;
最终概率确定模块,用于根据候选词的概率值和生成模式的权重值计算各候选词的最终概率;
输出词筛选模块,用于根据所述最终概率从各候选词中筛选出当前输出词。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面实施例提供的一种问题文本生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面实施例提供的一种问题文本生成方法。
本发明实施例通过采用编码器基于各输入词的属性参数,确定各输入词的编码隐层状态向量;并针对各候选词,采用解码器以及注意力机制模型确定各候选词作为当前输出词的上下文向量和解码隐层状态向量;并根据上下文向量和解码隐层状态向量,针对至少一种生成模式,分别计算各候选词作为当前输出词概率值以及生成模式的权重值,进而确定最终概率,以基于最终概率在候选词中筛选当前输出词。采用上述技术方案通过针对至少一种生成模式下各候选词作为当前输出词的概率值,经选取相应生成模式的权重值加权确定各候选词的最终概率,以从各候选词中筛选当前输出词,提高了基于答案文本生成问题文本的准确性和多样性。
附图说明
图1是本发明实施例一中的一种问题文本生成方法的流程示意图;
图2是本发明实施例一中的一种问题生成模型的结构示意图;
图3是本发明实施例二中的一种问题文本生成方法的流程示意图;
图4是本发明实施例二中的一种问题生成模型的结构示意图;
图5是本发明实施例三中的一种问题文本生成方法的流程示意图;
图6是本发明实施例四中的一种问题文本生成方法的流程示意图;
图7是本发明实施例四中的一种问题生成模型的结构示意图;
图8是本发明实施例五中的一种问题文本生成方法的流程示意图;
图9是本发明实施例六中的一种问题文本生成方法的流程示意图;
图10是本发明实施例六中的一种问题生成模型的结构示意图;
图11是本发明实施例七中的一种问题文本生成装置的结构示意图;
图12是本发明实施例八中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种问题文本生成方法的流程示意图。本发明实施例适用于采用神经网络的方法,基于答案文本生成相应的问题文本的情况,该方法由问题文本生成装置来执行,该装置由软件和/或硬件实现,并具体配置于用于生成问题文本的电子设备中,可以是服务器,也可以是终端设备。该问题文本生成方法,包括:
S110、向编码器的多个模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量。
其中,输入词是作为语句的答案文本中的词汇,可以是单个字,也可以是多个字构成的词,即有独立语义的词汇。可以是不同语种的词汇。可以是答案文本中的全部词汇,也可以是部分关键词。
示例性地,根据输入的答案文本确定多个关键词,可以是:根据主题模型确定答案文本中的多个关键词。具体的,采用经过训练的主题模型,例如可以是Twitter-LDA模型或Stentence-LDA模型等。将答案文本输入至主题模型中,确定用户主题,并选取出概率最高的主题词作为多个关键词。
示例性地,根据输入的答案文本确定多个关键词,可以是:根据对话管理算法确定多个关键词。具体的,采用对话管理算法确定,对获取的答案文本进行予以分析,得到语义槽,并根据语义槽所包含的特定的语义确定多个关键词。
示例性地,根据输入的答案文本确定多个关键词,可以是:确定答案文本中各词的词性,并将词性为实词的词语作为关键词。其中,实词包括名词、动词、形容词、数词以及量词等。
示例性地,将输入的答案文本确定多个关键词,可以是:获取答案文本中所包含的各个词,将每个词均作为关键词。需要注意的是,当专有名词由多个词组成时,将其整体作为一个关键词。
参见图2所示的问题生成模型可知,编码器220根据各输入词的属性参数210,对输入词进行编码计算后得到各输入词的编码隐层状态,形成编码隐层状态向量。
其中,输入词的属性参数210可以包括第一属性参数211、第二属性参数212以及第三属性参数213等。第一属性参数211例如是词汇编码数值,第二属性参数212例如是词性,第三属性参数213例如可以是答案位置参数。或者,还可以采用其他属性参数,数量不限为三个。
其中,编码器220可以是基于序列到序列的神经网络,例如可以是采用循环神经网络(Recurrent Neural Network,RNN、卷积神经网络(Convolution Neutral Network,CNN)等神经网络模型构建。其中,编码器220可以是单向的神经网络模型,也可以是双向的神经网络模型。
S120、针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量。
解码器230针对预设词集280中的各候选词,根据前一输出词的上下文向量和前一输出词的解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量。
其中,预设词集280中可以包括包含拷贝词和非拷贝词。其中,拷贝词为答案文本中的输入词。
其中,解码器230可以是基于序列到序列的神经网络,例如可以是采用循环神经网络(Recurrent Neural Network,RNN、卷积神经网络(Convolution Neutral Network,CNN)等神经网络模型构建。其中,解码器230可以是单向的神经网络模型,也可以是双向的神经网络模型。
其中,第一输出词是默认前缀词,对于所有输出结果可设置成相同的词汇,在最终输出时删去。其中,当不存在前一输出词的解码隐层状态向量时,相应的解码隐层状态向量可以使用默认值代替。
S130、分别将所述编码隐层状态向量和解码隐层状态向量传递至注意力机制模型中,并采用所述注意力机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器。
其中,注意力机制就是将一个固定的上下文向量改成一个动态的上下文向量,从而使各输出词的解码隐层状态保证相关性的同时,也增强了多样性。
其中,将当前输出词的编码隐层状态向量和解码隐层状态向量传递至注意力机制模型240中,并采用注意力机制模型240计算当前输出词的上下文向量回传至解码器230,使得解码器230可以根据当前输出词的上下文向量以及解码隐层状态向量确定下一输出词的解码隐层状态向量。示例性地,由注意力机制模型240所确定的上下文向量还可以存储至上下文向量库250中。
S140、针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值,以及计算生成模式的权重值。
其中,生成模式可以由一种或多种,当存在多种生成模式时,需要计算其对应的权重值。
生成模式可至少包括拷贝词表生成模式和非拷贝词表生成模式。其中,非拷贝词表生成模式可以是单个生成模式也可以包括至少两个生成模式。示例性地,非拷贝词表生成模式还可以包括通用词表生成模式以及疑问词表生成模式等。
图2示例性的给出了仅包含一种非拷贝词表生成模式的情况。
针对不同生成模式下,通过门结构260根据各候选词的上下文向量和解码隐层状态向量计算当前输出词所采用的非拷贝词表生成模式的权重值270A和采用拷贝词表生成模式的权重值270B;根据候选词的上下文向量和解码隐层状态向量分别计算候选词采用不同生成模式输出的概率值。
拷贝生成模式所针对的预设词集中有效词汇是答案文本中的输入词,但为了使不同生成模式对应使用的预设词集是相同的,可以设置拷贝生成模式的词集中增加非拷贝词,以保证各生成模式预设词集中所包括的词相同。而在拷贝生成模式中,非拷贝词的概率可直接设置为0或其他默认值,不再另行计算。
当然,在非拷贝词表生成模式仅包含一种生成模式时,为了简化计算,还可以在计算出一种生成模式下的权重值后,通过总权重值与该生成模式下的权重值做差的方式确定另一生成模式下的权重值。示例性地,总权重值为1。
需要说明的是,非拷贝词表生成模式包含至少两种生成模式时,还会通过门结构260生成采用非拷贝词表生成模式下不同生成模式的权重值;以及根据各候选词的上下文向量和解码隐层状态向量计算预设词集280中各候选词采用相应生成模式输出的概率值。
S150、根据候选词的概率值和生成模式的权重值计算各候选词的最终概率。
可选的,将各候选词的非拷贝词表生成模式的权重值270A和拷贝词表生成模式的权重值270B对候选词在相应不同生成模式输出所对应的概率值进行加权求和,确定各候选词的最终概率290。
需要说明的是,非拷贝词表生成模式包含至少两种生成模式时,还会对应将候选词根据其他各生成模式输出所对应的概率值采用相应生成模式的权重值进行加权求和,确定各候选词的最终概率290。
S160、根据所述最终概率从各候选词中筛选出当前输出词。
可选的,根据各候选词的最终概率,选取其中最大的候选词作为当前输出词;或者选取满足设定阈值的最终概率,确定相应的候选词作为当前输出词。
本发明实施例通过采用编码器基于各输入词的属性参数,确定各输入词的编码隐层状态向量;并针对各候选词,采用解码器以及注意力机制模型确定各候选词作为当前输出词的上下文向量和解码隐层状态向量;并根据上下文向量和解码隐层状态向量,针对至少一种生成模式,分别计算各候选词作为当前输出词概率值以及生成模式的权重值,进而确定最终概率,以基于最终概率在候选词中筛选当前输出词。采用上述技术方案通过针对至少一种生成模式下各候选词作为当前输出词的概率值,经选取相应生成模式的权重值加权确定各候选词的最终概率,以从各候选词中筛选当前输出词,提高了基于答案文本生成问题文本的准确性和多样性。并且,采用本发明实施例所提供的端到端的模型,不再需要人工设置规则,减少了人力成本的投入。
实施例二
图3是本发明实施例二提供的一种问题文本生成方法的流程示意图,本发明实施例在上述各实施例的技术方案的基础上进行了进一步的优化。
进一步地,在操作“采用所述注意力机制模型,根据所述答案位置参数、编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量”之前,追加“根据答案输入词和非答案输入词的答案位置参数,确定非答案输入词相对于答案输入词的距离,作为答案距离参数”操作;相应的,将操作“针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量”之后,追加“分别将所述编码隐层状态向量和解码隐层状态向量传递至距离感知机制模型中,并采用所述距离感知机制模型根据答案距离参数、编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器”,以在拷贝词表生成模式下,对距离答案词所在位置较近的输入词增强注意力,提高生成问题文本的准确性。
如图3所示的问题文本生成方法,具体包括:
S310、向编码器的多个模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量;
参见图4所示的问题生成模型进行论述,其中图4的问题生成模型在图2的基础上添加了距离感知机制模型200。
其中,所述属性信息210包括词参数211、语法分析参数212和/或答案位置参数213。其中,语法分析参数121可以包括词性特征。
其中,答案位置参数213用以表征输入词是否为与所生成问题相对应的答案。若当前输入词为答案或答案的一部分,可将答案位置参数设置为答案标识,例如可以是“1”;若当前输入词为与答案无关,可将答案位置参数设置为非答案标识,例如可以是“0”。
S320、针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量。
其中,候选词包括拷贝词和非拷贝词。
针对预设词集280中的非拷贝词,采用解码器230根据前一输出词的上下文向量和前一输出词的解码隐层状态向量,计算非拷贝词作为当前输出词的解码隐层状态向量。
针对预设词集280中的拷贝词,采用解码器230根据前一输出词的上下文向量和前一输出词的解码隐层状态向量,计算拷贝词作为当前输出词的解码隐层状态向量。
S330、分别将所述编码隐层状态向量和解码隐层状态向量传递至注意力机制模型中,并采用所述注意力机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器。
针对预设词集280中的非拷贝词,将非拷贝词所对应的编码隐层状态向量和解码隐层状态向量传递至注意力机制模型240中,并采用注意力机制模型240计算当前非拷贝词的上下文向量回传至解码器230,使得解码器230可以根据当前拷贝词的上下文向量以及解码隐层状态向量确定下一输出词的解码隐层状态向量。示例性地,由注意力机制模型240所确定的上下文向量还可以存储至上下文向量库250中。
S331、分别将所述编码隐层状态向量和解码隐层状态向量传递至距离感知机制模型中,并采用所述距离感知机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器。
针对预设词集280中的拷贝词,将拷贝词所对应的编码隐层状态向量和解码隐层状态向量传递至距离感知机制模型200中的位置注意力机制模型241中,并采用位置注意力机制模型241,根据答案距离参数214、编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前拷贝词的上下文向量,并回传给所述解码器230,使得解码器230可以根据当前拷贝词的上下文向量以及解码隐层状态向量确定下一输出词的解码隐层状态向量。示例性地,由位置注意力机制模型241所确定的上下文向量还可以存储至另一上下文向量库251中。
其中,采用所述距离感知机制模型200,根据答案输入词和非答案输入词的答案位置参数213,确定非答案输入词相对于答案输入词的距离,作为答案距离参数214。当然,还可以直接将答案距离参数214作为属性参数210的一输入值。
需要说明的是,距离感知机制模型200中的位置注意力机制模型241属于注意力机制模型240的一种特殊形式,两者的模型训练方式相同,训练结果形式相似,其区别仅在于训练时位置注意力机制模型241添加了答案距离参数214。
另外,本发明实施例对S330和S331的具体执行顺序不做任何限定。其中,S330和S331可以同时执行,当然S330也可以在S331之前或之后执行。或者,本实施例中的距离感知机制模型可以集成于注意力机制模型中,在执行注意力机制模型的数据处理时,一并考虑答案位置参数。
S340、针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值,以及计算生成模式的权重值。
其中,生成模式可至少包括拷贝词表生成模式和非拷贝词表生成模式。其中,非拷贝词表生成模式可以是单个生成模式也可以包括至少两个生成模式。示例性地,非拷贝词表生成模式还可以包括通用词表生成模式以及疑问词表生成模式等。
图4示例性的给出了仅包含一种非拷贝词表生成模式的情况。
针对预设词集280中的非拷贝词,根据与上下文向量库250中与非拷贝词相对应的上下文向量和解码隐层状态向量,计算非拷贝词所采用的非拷贝词表生成模式的权重值270A和采用拷贝词表生成模式的权重值270B;根据非拷贝词的上下文向量和解码隐层状态向量分别计算非拷贝词采用不同生成模式输出的概率值。
针对预设词集280中的拷贝词,根据与上下文向量库250中与拷贝词相对应的上下文向量和解码隐层状态向量,计算拷贝词所采用的非拷贝词表生成模式的权重值270A和采用拷贝词表生成模式的权重值270B;根据拷贝词的上下文向量和解码隐层状态向量分别计算拷贝词采用不同生成模式输出的概率值。
S350、根据候选词的概率值和生成模式的权重值计算各候选词的最终概率;
根据非拷贝词采用不同生成模式的权重值,对非拷贝词采用相应的生成模式作为当前输出词概率值加权求和,确定非拷贝词的最终概率290;根据拷贝词采用不同生成模式的权重值,对拷贝词采用相应的生成模式作为当前输出词概率值加权求和,确定拷贝词的最终概率290。
S360、根据所述最终概率从各候选词中筛选出当前输出词。
本发明实施例通过添加距离感知机制模型,通过在拷贝词表生成模式下,对答案文本中距离答案词所在位置较近的输入词增强距离注意力,提高了生成问题文本的准确性。
实施例三
图5是本发明实施例三提供的一种问题文本生成方法的流程示意图,本发明实施例在上述各实施例的技术方案的基础上进行了进一步的优化。
进一步地,将操作“向编码器的多个模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量”细化为“向编码器中的每个双向LSTM模型,分别输入答案文本中的每个输入词的属性参数,并采用各所述双向LSTM模型计算各所述输入词的编码隐层状态向量”,以采用双向LSTM模型构建编码器,通过正向词序和反向词序区分,使得编码器能够在复杂场景下可以避免长序依赖问题,更好地抓住上下文的信息,同时提高了基于答案文本生成问题文本的多样性。
进一步地,将操作“针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态相连,计算各候选词作为当前输出词的解码隐层状态向量”细化为“针对预设词集中的每个候选词,采用单向LSTM模型根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量”,采用单向LSTM模型构建解码器,通过词序区分使得解码器能够在复杂场景下可以解决梯度消失问题,同时避免长序依赖问题,提高了基于答案文本生成问题文本的多样性。
进一步地,将操作“采用所述注意力机制模型,根据所述答案位置参数、编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量”细化为“采用所述注意力机制模型按照如下公式,根据所述答案距离参数pi、编码隐层状态向量hi和当前输出词的解码隐层状态向量st,计算当前输出词的上下文向量ct
Figure BDA0001717034910000091
其中,softmax()为分类器函数,v,Wd,Wn,Ws以及battn为双曲正切函数tanh的参数值,dpi是pi的向量表示”,以细化上下文向量的具体生成方式,使得在拷贝词表生成模式下,对距离答案词所在位置较近的输入词增强注意力,提高生成问题文本的准确性。
如图5所示的问题文本生成方法,具体包括:
S510、向编码器中的每个双向LSTM模型,分别输入答案文本中的每个输入词的属性参数,并采用各所述双向LSTM模型计算各所述输入词的编码隐层状态向量。
具体的,向编码器中的每个双向LSTM模型,分别输入答案文本中的每个输入词wi的属性参数,其中,i为小于等于Tx的自然数,Tx代表答案文本词序列的长度;采用各所述双向LSTM模型按照如下公式计算各所述输入词的编码隐层状态向量(h1,h2,hTx):
Figure BDA0001717034910000092
其中,LSTMe()为双向LSTM模型函数。
S520、针对预设词集中的每个候选词,采用单向LSTM模型根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量。
具体的,针对预设词集中的每个候选词,采用单向LSTM模型按照如下公式根据前一输出词的上下文向量ct-1和解码隐层状态向量st-1,计算各候选词作为当前输出词wt的解码隐层状态向量st
st=LSTMd([wt;ct-1],st-1);
其中,LSTMd()为单向LSTM模型函数,c0和s0为默认值。
S530、采用所述注意力机制模型按照公式
Figure BDA0001717034910000093
计算当前输出词的上下文向量ct并回传给解码器;
其中,(h1,h2,hTx)为编码隐层状态向量,pi为答案距离参数,dpi为答案距离向量,st为解码隐层状态向量;softmax()为分类器函数,v、Wd、Wh、Ws以及battn为双曲正切函数tanh的参数值,可通过模型训练来确定。
参见图4,当候选词为非拷贝词时,采用注意力机制模型240根据公式:
Figure BDA0001717034910000101
计算当前输出词的上下文向量ct并回传给解码器230;其中,dpi=0。
当候选词为拷贝词时,采用距离感知机制模型200中的位置注意力机制模型241根据公式:
Figure BDA0001717034910000102
计算当前输出词的上下文向量ct并回传给解码器230;其中,dpi≠0。
需要说明的是,采用注意力机制模型240和位置注意力机制模型241所采用的分类器函数softmax()的训练方式相同,但函数本身可能相同也可能不同;双曲正切函数tanh的参数值可能相同,也可能不同。
540、针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值,以及计算生成模式的权重值。
示例性地,可以根据公式Ppattern=softmax(gpattern(st,ct)),计算候选词采用不同生成模式作为当前输出词的概率值;其中,Ppattern为概率值,gpattern为不同生成模式所对应的生成函数。
示例性地,可以根据公式ppattern=softmax(fpattern(ct,st,wt)),计算采用各生成模式的权重值;其中,ppattern为权重值,softmax()为分类器函数,fpattern()为模式权重函数。
其中,生成模式至少包括拷贝词表生成模式,还可以包括非拷贝词表生成模式。其中,非拷贝词表生成模式至少为1个,例如可以是通用词表生成模式、疑问词表生成模式等。
S550、根据候选词的概率值和生成模式的权重值计算各候选词的最终概率。
具体的,根据公式P(w)=ppattern×Ppattern计算各候选词的最终概率P(w)。
S560、根据所述最终概率从各候选词中筛选出当前输出词。
本发明实施例通过将编码器细化为基于双向LSTM模型构建的神经网络,将解码器细化为基于单向LSTM模型构建的神经网络,使得编码器和解码器能够在复杂场景下可以避免长序依赖问题,同时提高基于答案文本生成问题文本的多样性;通过细化上下文向量的具体生成方式,使得在拷贝词表生成模式下,对距离答案词所在位置较近的输入词增强注意力,提高生成问题文本的准确性。
实施例四
图6是本发明实施例四提供的一种问题文本生成方法的流程示意图,本发明实施例在上述各实施例的技术方案的基础上,进行了优化。
进一步地,将“生成模式”细化为“所述生成模式包括通用词表生成模式、疑问词表生成模式和拷贝词表生成模式,其中,所述通用词表生成模式的通用词集包括通用词、疑问词表生成模式的疑问词集包括设定疑问词、拷贝词表生成模式的拷贝词集包括答案文本中的原始词;其中,所述通用词集还包括疑问词集和拷贝词集,作为所述预设词集”,以通过添加疑问词表生成模式对答案增强注意力,使得疑问词的生成更加准确,进而使生成的问题文本的问题类型能够与答案文本相匹配。
本发明实施例参见图7所示的问题生成模型进行示例性说明。该模型仅在图2所示的模型的基础上添加了与答案文本中的答案2100相关的疑问词集281以及采用疑问词表生成模式的权重值270C。
如图6所示的问题文本生成方法,包括:
S610、向编码器的多个模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量。
S620、针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量。
其中,预设词集为通用词集、疑问词集和拷贝词集。其中,通用词集包括通用词,适用于通用词表生成模式;疑问词集包括与各答案文本中的答案2100相关的设定疑问词,适用于疑问词表生成模式;拷贝词集包括拷贝词,适用于拷贝词表生成模式。其中,拷贝词为答案文本中的原始词。具体的,可将通用词集直接作为预设词集。
需要说明的是,图7仅示例性将答案2100标注在输入词wTx所在位置,当然其也可以对应答案文本中其他位置的至少一个输入词,本发明实施例对此不做任何限定。
S630、分别将所述编码隐层状态向量和解码隐层状态向量传递至注意力机制模型中,并采用所述注意力机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器。
S640、针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值,以及计算生成模式的权重值;其中,所述生成模式包括通用词表生成模式、疑问词表生成模式和拷贝词表生成模式。
具体的,当候选词为通用词时,通过门结构260根据该通用词的上下文向量和解码隐层状态向量,计算通用词采用通用词表生成模式的权重值270A、采用拷贝词表生成模式的权重值260B以及采用疑问词表生成模式的权重值270C;并分别计算通用词在三张不同生成模式下作为当前输出词的概率值。
具体的,当候选词为疑问词时,通过门结构260根据该疑问词的上下文向量和解码隐层状态向量,计算疑问词采用通用词表生成模式的权重值270A、采用拷贝词表生成模式的权重值260B以及采用疑问词表生成模式的权重值270C;并分别计算疑问词在三张不同生成模式下作为当前输出词的概率值。
具体的,当候选词为拷贝词时,通过门结构260根据该疑问词的上下文向量和解码隐层状态向量,计算疑问词采用通用词表生成模式的权重值270A、采用拷贝词表生成模式的权重值260B以及采用疑问词表生成模式的权重值270C;并分别计算拷贝词在三张不同生成模式下作为当前输出词的概率值。
需要说明的是,为了简化计算,可以仅计算任意两种生成模式的权重值,然后用总权重值“1”减去所计算的权重值确定第三种生成模式的权重值。为了简化计算,还可以直接将疑问词以及通用词在拷贝词表生成模式的概率值直接设置为0。
S650、根据候选词的概率值和生成模式的权重值计算各候选词的最终概率。
具体的,将各候选词的通用词表生成模式的权重值270A、拷贝词表生成模式的权重值270B以及疑问词表生成模式的权重值270C,对候选词在采用相应生成模式输出所对应的概率值进行加权求和,确定各候选词的最终概率290。
S660、根据所述最终概率从各候选词中筛选出当前输出词。
本发明实施例将生成模式限定为通用词表生成模式、拷贝词表生成模式以及疑问词表生成模式。通过引入疑问词表生成模式对答案增强注意力,解决了生成的疑问词有误致使所生成问题文本转义的问题,使得疑问词的生成更加准确,进而使生成的问题文本的问题类型能够与答案文本相匹配。
实施例五
图8是本发明实施例五提供的一种问题文本生成方法的流程示意图,本发明实施例在上述各实施例的技术方案的基础上进行了优化。
进一步地,将操作“针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值”细化为“针对通用词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:Pvocab=softmax(gvocab(st,ct)),其中,gvocab()为通用词表生成函数;针对疑问词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:Pque=softmax(gque(vans,st,ct));其中,gque()为疑问词表生成函数,vans为答案位置向量;针对拷贝词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:Pcopy=softmax(gcopy(st,ct));其中,gcopy()为拷贝词表生成函数”,以完善各候选词采用不同生成模式输出所对应的概率值的计算方式。
进一步地,将操作“针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算生成模式的权重值”细化为“按照如下公式计算通用词表生成模式、疑问词表生成模式和拷贝词表生成模式各自的权重值:pgenv,pgenq,pcopy=softmax(f(ct,st,wt));其中,softmax()为分类器函数,f()为模式权重函数”,以完善当前输出词采用各生成模式的权重值的计算方式。
如图8所示的问题文本生成方法,包括:
S810、向编码器中的每个双向LSTM模型,分别输入答案文本中的每个输入词的属性参数,并采用各所述双向LSTM模型计算各所述输入词的编码隐层状态向量。
S820、针对预设词集中的每个候选词,采用单向LSTM模型根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量。
S830、采用所述注意力机制模型按照公式
Figure BDA0001717034910000131
计算当前输出词的上下文向量ct并回传给解码器;
其中,(h1,h2,hTx)为编码隐层状态向量,pi为答案距离参数,dpi为答案距离向量,st为解码隐层状态向量;softmax()为分类器函数,v、Wh、Ws以及battn为双曲正切函数tanh的参数值,可通过训练模型来确定。
需要说明的是,该步骤与前述S530的所采用的分类器函数softmax()的训练方式相同,但函数自身可能相同,也可能不同;双曲正切函数tanh的参数值可能相同,也可能不同。
S841、针对通用词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:Pvocab=softmax(gvocab(st,ct)),其中,gvocab()为通用词表生成函数。
S842、针对疑问词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:Pque=softmax(gque(vans,st,ct));其中,gque()为疑问词表生成函数,vans为答案位置向量。其中,答案位置向量为答案位置参数的向量化表示。
S843、针对拷贝词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:Pcopy=softmax(gcopy(st,ct));其中,gcopy()为拷贝词表生成函数。
S844、按照如下公式计算通用词表生成模式、疑问词表生成模式和拷贝词表生成模式各自的权重值:pgenv,pgenq,pcopy=softmax(f(ct,st,wt));其中,softmax()为分类器函数,f()为模式权重函数。
S850、根据候选词的概率值和生成模式的权重值计算各候选词的最终概率。
具体的,根据公式P(w)=pgenv×Pvocab+pgenq×Pque+pcopy×Pcopy,确定各候选词的最终概率。
S860、根据所述最终概率从各候选词中筛选出当前输出词。
本发明实施例通过将编码器细化为基于双向LSTM模型构建的神经网络,将解码器细化为基于单向LSTM模型构建的神经网络,使得编码器和解码器能够在复杂场景下可以避免长序依赖问题,同时提高基于答案文本生成问题文本的多样性;通过细化各候选词选取生成模式的权重值的选取方式以及各候选词不同生成模式下概率值的计算方式,完善了基于答案文本生成问题文本的生成方式。
实施例六
图9是本发明实施例六提供的一种问题文本生成方法的流程示意图,本发明实施例在上述各实施例的技术方案的基础上,提供了一种优选实例。
本发明实施例将参见图10所述的问题生成模型进行论述,该模型为图4和图7所示的问题生成模型的组合模型。本发明实施例未详述的部分,可参见上述各实施例的内容。
如图9所示的问题文本生成方法,包括:
S910、向编码器的每个双向LSTM模型,分别输入答案文本中的每个输入词的属性参数wi,并采用各双向LSTM模型按照公式
Figure BDA0001717034910000142
计算各所述输入词的编码隐层状态向量(h1,h2,hTx);其中,LSTMe()为双向LSTM模型函数。
其中,属性参数210包括:词参数211、语法分析参数212和答案位置参数213。其中,语法分析参数121可以包括词性特征。
S920、针对预设词集中的各候选词,采用单向LSTM模型按照公式:
st=LSTMd([wt;ct-1],st-1)计算各候选词作为当前输出词wt的解码隐层状态向量st
其中,ct-1为前一输出词的上下文向量,st-1为前一输出词的解码隐层状态向量;LSTMd()为单向LSTM模型函数,c0和s0为默认值。
S930、采用所述注意力机制模型按照公式
Figure BDA0001717034910000143
计算当前输出词的上下文向量ct
其中,pi为答案位置参数,dpi为答案距离向量,softmax()为分类器函数,v、Wd、Wh、Ws以及battn为双曲正切函数tanh的参数值。
其中,采用距离感知机制模200,根据答案输入词和非答案输入词在答案文本中的位置的答案位置参数pi,确定非答案输入词相对于答案输入词的距离,作为所述位置答案距离参数dpi
S941、针对通用词表生成模式,按照公式Pvocab=softmax(gvocab(st,ct))计算候选词作为当前输出词的概率值;其中,gvocab()为通用词表生成函数。
S942、针对疑问词表生成模式,按照公式Pque=softmax(gque(vans,st,ct))计算候选词作为当前输出词的概率值;其中,gque()为疑问词表生成函数,vans为答案位置向量。
其中,答案位置向量vans为答案位置参数213的向量表示。
S943、针对拷贝词表生成模式,按照公式Pcopy=softmax(gcopy(st,ct))计算候选词作为当前输出词的概率值;其中,gcopy()为拷贝词表生成函数。
S944、按照公式pgenv,pgenq,pcopy=softmax(f(ct,st,wt))计算通用词表生成模式、疑问词表生成模式和拷贝词表生成模式各自的权重值;其中,softmax()为分类器函数,f()为模式权重函数。
S950、根据公式P(w)=pgenv×Pvocab+pgenq×Pque+pcopy×Pcopy,确定各候选词的最终概率。
S960、根据所述最终概率从各候选词中筛选出当前输出词。
本发明实施例通过添加距离感知机制模型,通过在拷贝词表生成模式下,对答案文本中距离答案词所在位置较近的输入词增强距离注意力,提高了生成问题文本的准确性。
本发明实施例通过将编码器细化为基于双向LSTM模型构建的神经网络,将解码器细化为基于单向LSTM模型构建的神经网络,使得编码器和解码器能够在复杂场景下可以避免长序依赖问题,同时提高基于答案文本生成问题文本的多样性;通过细化上下文向量的具体生成方式,使得在拷贝词表生成模式下,对距离答案词所在位置较近的输入词增强注意力,提高生成问题文本的准确性;通过引入疑问词表生成模式对答案增强注意力,解决了生成的疑问词有误致使所生成问题文本转义的问题,使得疑问词的生成更加准确,进而使生成的问题文本的问题类型能够与答案文本相匹配。
实施例七
图11是本发明实施例七所提供的一种问题文本生成装置的结构示意图。本发明实施例适用于采用神经网络的方法,基于答案文本生成相应的问题文本的情况,该装置由软件和/或硬件实现,并具体配置于电子设备中。该问题文本生成装置,包括:编码隐层状态向量计算模块1110,解码隐层状态向量计算模块1120,上下文向量计算模块1130,候选词概率计算模块1140,最终概率确定模块1150以及输出词筛选模块1160。
其中,编码隐层状态向量计算模块1110,用于向编码器的多个模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量;
解码隐层状态向量计算模块1120,用于针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量;
上下文向量计算模块1130,用于分别将所述编码隐层状态向量和解码隐层状态向量传递至注意机制模型中,并采用所述注意机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器;
候选词概率计算模块1140,用于针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值,以及计算生成模式的权重值;
最终概率确定模块1150,用于根据候选词的概率值和生成模式的权重值计算各候选词的最终概率;
输出词筛选模块1160,用于根据所述最终概率从各候选词中筛选出当前输出词。
本发明实施例通过编码隐层状态向量计算模型基于各输入词的属性参数,确定各输入词的编码隐层状态向量;通过解码隐层状态向量计算模块和上下文向量计算模块针对各候选词,确定各候选词作为当前输出词的上下文向量和解码隐层状态向量;通过候选词概率计算模块根据上下文向量和解码隐层状态向量,针对至少一种生成模式,分别计算各候选词作为当前输出词概率值以及生成模式的权重值,进而通过最终概率确定模块确定最终概率,以便输出词筛选模块基于最终概率在候选词中筛选当前输出词。采用上述技术方案通过针对至少一种生成模式下各候选词作为当前输出词的概率值经选取相应生成模式的权重值加权确定各候选词的最终概率以从各候选词中筛选当前输出词,提高了基于答案文本生成问题文本的准确性和多样性。
进一步地,各所述输入词的属性参数中包括各输入词的答案位置参数;
相应的,所述上下文向量计算模块1130,包括:
上下文向量计算单元,用于采用所述注意力机制模型,根据所述答案位置参数、编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量。
进一步地,所述上下文向量计算模块1130,还包括:
答案距离参数确定单元,用于:在所述采用所述注意力机制模型,根据所述答案位置参数、编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量之前,采用距离感知机制模型,根据答案输入词和非答案输入词的答案位置参数,确定非答案输入词相对于答案输入词的距离,作为答案距离参数。
进一步地,该装置还包括,所述距离感知上下文向量计算模块,具体用于:
在针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量之后,分别将所述编码隐层状态向量和解码隐层状态向量传递至距离感知机制模型中,并采用所述距离感知机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器。
进一步地,所述生成模式包括通用词表生成模式、疑问词表生成模式和拷贝词表生成模式,其中,所述通用词表生成模式的通用词集包括通用词;疑问词表生成模式的疑问词集包括设定疑问词;拷贝词表生成模式的拷贝词集包括答案文本中的原始词;其中,所述通用词集还包括疑问词集和拷贝词集,作为所述预设词集。
进一步的,所述编码隐层状态向量计算模块1110,包括:
属性参数输入单元,用于向编码器中的每个双向LSTM模型,分别输入答案文本中的每个输入词wi的属性参数,其中,i为小于等于Tx的自然数,Tx代表答案文本词序列的长度;
编码隐层状态向量计算单元,用于采用各所述双向LSTM模型按照如下公式计算各所述输入词的编码隐层状态向量(h1,h2,hTx):
Figure BDA0001717034910000172
其中,LSTMe()为双向LSTM模型函数。
进一步地,所述解码隐层状态向量计算模块1120,包括:
解码隐层状态向量计算单元,用于针对预设词集中的每个候选词,采用单向LSTM模型按照如下公式根据前一输出词的上下文向量ct-1和解码隐层状态向量st-1,计算各候选词作为当前输出词wt的解码隐层状态向量st:st=LSTMd([wt;ct-1],st-1);
其中,LSTMd()为单向LSTM模型函数,c0和s0为默认值。
进一步地,所示上下文向量计算单元,包括:
采用所述注意机制模型按照如下公式,根据所述答案距离参数pi、编码隐层状态向量hi和当前输出词的解码隐层状态向量st,计算当前输出词的上下文向量ct
Figure BDA0001717034910000173
其中,softmax()为分类器函数,v,Wd,Wh,Ws以及battn为双曲正切函数tanh的参数值,dpi是pi的向量表示。
进一步地,所述候选词概率计算模块1140,包括:
通用词概率值计算单元,用于针对通用词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:Pvocab=softmax(gvocab(st,ct)),其中,gvocab()为通用词表生成函数;
疑问词概率值计算单元,用于针对疑问词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:Pque=softmax(gque(vans,st,ct));其中,gque()为疑问词表生成函数,vans为答案位置向量;
拷贝词概率值计算单元,用于针对拷贝词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:Pcopy=softmax(gcopy(st,ct));
其中,gcopy()为拷贝词表生成函数。
进一步地,所述候选词概率计算模块1140,包括:
权重值计算单元,用于按照如下公式计算通用词表生成模式、疑问词表生成模式和拷贝词表生成模式各自的权重值:pgenv,pgenq,pcopy=softmax(f(ct,st,wt));
其中,softmax()为分类器函数,f()为模式权重函数。
进一步地,最终概率确定模块1150,包括:
最终概率确定单元,用于针对每个候选词,将相应模式的生成概率与权重值相乘,并将各生成模式的乘积值求和,作为候选词的最终概率。
本发明实施例所提供的问题文本生成装置可执行本发明任意实施例所提供的问题文本生成方法,具备执行问题文本生成方法相应的功能模块和有益效果。
实施例八
图12为本发明实施例八提供的一种电子设备的结构示意图。图12示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图12显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图12所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图12未显示,通常称为“硬盘驱动器”)。尽管图12中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的问题文本生成方法。
实施例九
本发明实施例九还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行一种问题文本生成方法,该方法包括:向编码器的多个模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量;针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量;分别将所述编码隐层状态向量和解码隐层状态向量传递至注意力机制模型中,并采用所述注意力机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器;针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值,以及计算生成模式的权重值;根据候选词的概率值和生成模式的权重值计算各候选词的最终概率;根据所述最终概率从各候选词中筛选出当前输出词。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种问题文本生成方法,其特征在于,包括:
向编码器的多个神经网络模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量;
针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量;
分别将所述编码隐层状态向量和解码隐层状态向量传递至注意力机制模型中,并采用所述注意力机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器;
针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值,以及计算生成模式的权重值;其中,所述生成模式包括通用词表生成模式、疑问词表生成模式和拷贝词表生成模式,其中,所述通用词表生成模式的通用词集包括通用词、疑问词表生成模式的疑问词集包括设定疑问词、拷贝词表生成模式的拷贝词集包括答案文本中的原始词;其中,所述通用词集还包括疑问词集和拷贝词集,作为所述预设词集;
根据候选词的概率值和生成模式的权重值计算各候选词的最终概率;
根据所述最终概率从各候选词中筛选出当前输出词。
2.根据权利要求1所述的方法,其特征在于,各所述输入词的属性参数中包括各输入词的答案位置参数,则采用所述注意力机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量包括:
采用所述注意力机制模型,根据所述答案位置参数、编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量。
3.根据权利要求2所述的方法,其特征在于,采用所述注意力机制模型,根据所述答案位置参数、编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量之前,还包括:
采用距离感知机制模型,根据答案输入词和非答案输入词的答案位置参数,确定非答案输入词相对于答案输入词的距离,作为答案距离参数;
相应的,在所述针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量之后,还包括:
分别将所述编码隐层状态向量和解码隐层状态向量传递至距离感知机制模型中,并采用所述距离感知机制模型,根据答案距离参数、编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器。
4.根据权利要求2所述的方法,其特征在于,向编码器的多个神经网络模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量包括:
向编码器中的每个双向LSTM模型,分别输入答案文本中的每个输入词wi的属性参数,其中,i为小于等于Tx的自然数,Tx代表答案文本词序列的长度;
采用各所述双向LSTM模型按照如下公式计算各所述输入词的编码隐层状态向量(h1,h2,…hTx):
Figure FDA0002836338550000021
其中,LSTMe()为双向LSTM模型函数。
5.根据权利要求3所述的方法,其特征在于,向编码器的多个神经网络模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量包括:
向编码器中的每个双向LSTM模型,分别输入答案文本中的每个输入词wi的属性参数,其中,i为小于等于Tx的自然数,Tx代表答案文本词序列的长度;
采用各所述双向LSTM模型按照如下公式计算各所述输入词的编码隐层状态向量(h1,h2,…hTx):
Figure FDA0002836338550000022
其中,LSTMe()为双向LSTM模型函数。
6.根据权利要求4所述的方法,其特征在于,针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态相连,计算各候选词作为当前输出词的解码隐层状态向量包括:
针对预设词集中的每个候选词,采用单向LSTM模型按照如下公式根据前一输出词的上下文向量ct-1和解码隐层状态向量st-1,计算各候选词作为当前输出词wt的解码隐层状态向量st
st=LSTMd([wt;ct-1],st-1);
其中,LSTMd()为单向LSTM模型函数,c0和s0为默认值。
7.根据权利要求5所述的方法,其特征在于,针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态相连,计算各候选词作为当前输出词的解码隐层状态向量包括:
针对预设词集中的每个候选词,采用单向LSTM模型按照如下公式根据前一输出词的上下文向量ct-1和解码隐层状态向量st-1,计算各候选词作为当前输出词wt的解码隐层状态向量st
st=LSTMd([wt;ct-1],st-1);
其中,LSTMd()为单向LSTM模型函数,c0和s0为默认值。
8.根据权利要求7所述的方法,其特征在于,采用所述注意力机制模型,根据所述答案位置参数、编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量包括:
采用所述注意力机制模型按照如下公式,根据所述答案距离参数pi、编码隐层状态向量hi和当前输出词的解码隐层状态向量st,计算当前输出词的上下文向量ct
Figure FDA0002836338550000031
其中,softmax()为分类器函数,v、Wd、Wh、Ws以及battn为双曲正切函数tanh的参数值,dpi为答案距离向量。
9.根据权利要求6-7任一所述的方法,其特征在于,针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值包括:
针对通用词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:
Pvocab=softmax(gvocab(st,ct));
其中,gvocab()为通用词表生成函数;
针对疑问词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:
Pque=softmax(gque(vans,st,ct));
其中,gque()为疑问词表生成函数,vans为答案位置向量;
针对拷贝词表生成模式,根据各候选词的上下文向量和解码隐层状态向量,按照如下公式计算各候选词作为当前输出词概率值:
Pcopy=softmax(gcopy(st,ct));
其中,gcopy()为拷贝词表生成函数。
10.根据权利要求9所述的方法,其特征在于,针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算生成模式的权重值包括:
按照如下公式计算通用词表生成模式、疑问词表生成模式和拷贝词表生成模式各自的权重值:
pgenv,pgenq,pcopy=softmax(f(ct,st,wt));
其中,softmax()为分类器函数,f()为模式权重函数。
11.根据权利要求10所述的方法,其特征在于,根据候选词的概率值和生成模式的权重值计算各候选词的最终概率包括:
针对每个候选词,将相应模式的生成概率与权重值相乘,并将各生成模式的乘积值求和,作为候选词的最终概率。
12.一种问题文本生成方法装置,其特征在于,包括:
编码隐层状态向量计算模块,用于向编码器的多个神经网络模型输入答案文本的多个输入词的属性参数,并采用所述编码器计算各所述输入词的编码隐层状态向量;
解码隐层状态向量计算模块,用于针对预设词集中的候选词,采用解码器根据前一输出词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词的解码隐层状态向量;
上下文向量计算模块,用于分别将所述编码隐层状态向量和解码隐层状态向量传递至注意力机制模型中,并采用所述注意力机制模型根据编码隐层状态向量和当前输出词的解码隐层状态向量,计算当前输出词的上下文向量并回传给所述解码器;
候选词概率计算模块,用于针对至少一种生成模式,分别根据各候选词的上下文向量和解码隐层状态向量,计算各候选词作为当前输出词概率值,以及计算生成模式的权重值;其中,所述生成模式包括通用词表生成模式、疑问词表生成模式和拷贝词表生成模式,其中,所述通用词表生成模式的通用词集包括通用词、疑问词表生成模式的疑问词集包括设定疑问词、拷贝词表生成模式的拷贝词集包括答案文本中的原始词;其中,所述通用词集还包括疑问词集和拷贝词集,作为所述预设词集;
最终概率确定模块,用于根据候选词的概率值和生成模式的权重值计算各候选词的最终概率;
输出词筛选模块,用于根据所述最终概率从各候选词中筛选出当前输出词。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11任一项所述的一种问题文本生成方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11任一项所述的一种问题文本生成方法。
CN201810712874.8A 2018-06-29 2018-06-29 一种问题文本生成方法、装置、设备和介质 Active CN108846130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810712874.8A CN108846130B (zh) 2018-06-29 2018-06-29 一种问题文本生成方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810712874.8A CN108846130B (zh) 2018-06-29 2018-06-29 一种问题文本生成方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN108846130A CN108846130A (zh) 2018-11-20
CN108846130B true CN108846130B (zh) 2021-02-05

Family

ID=64200154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810712874.8A Active CN108846130B (zh) 2018-06-29 2018-06-29 一种问题文本生成方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN108846130B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670035B (zh) * 2018-12-03 2021-03-23 科大讯飞股份有限公司 一种文本摘要生成方法
CN109783621B (zh) * 2018-12-17 2021-10-08 北京百度网讯科技有限公司 对话生成方法、装置及设备
CN109684452A (zh) * 2018-12-25 2019-04-26 中科国力(镇江)智能技术有限公司 一种基于答案与答案位置信息的神经网络问题生成方法
CN109711121B (zh) * 2018-12-27 2021-03-12 清华大学 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
CN109726274B (zh) * 2018-12-29 2021-04-30 北京百度网讯科技有限公司 问题生成方法、装置及存储介质
CN111460109B (zh) * 2019-01-22 2023-12-26 阿里巴巴集团控股有限公司 摘要及对话摘要生成方法和装置
CN111783444B (zh) * 2019-04-02 2023-07-25 北京百度网讯科技有限公司 文本向量生成方法及装置
CN110135427B (zh) * 2019-04-11 2021-07-27 北京百度网讯科技有限公司 用于识别图像中的字符的方法、装置、设备和介质
CN110069612B (zh) * 2019-04-28 2022-02-01 河北省讯飞人工智能研究院 一种回复生成方法及装置
CN111414464B (zh) * 2019-05-27 2023-04-07 腾讯科技(深圳)有限公司 一种问题生成方法、装置、设备及存储介质
CN110532560A (zh) * 2019-08-30 2019-12-03 海南车智易通信息技术有限公司 一种生成文本标题的方法及计算设备
CN110516213B (zh) * 2019-09-03 2022-04-15 哈尔滨工业大学 一种基于表格层次化建模的结构化数据生成文本方法
CN110727765B (zh) * 2019-10-10 2021-12-07 合肥工业大学 基于多注意力机制的问题分类方法、系统及存储介质
CN110674281B (zh) * 2019-12-05 2020-05-29 北京百度网讯科技有限公司 人机对话及人机对话模型获取方法、装置及存储介质
CN110969010A (zh) * 2019-12-06 2020-04-07 浙江大学 一种基于关系指导及双通道交互机制的问题生成方法
US11741371B2 (en) * 2020-03-20 2023-08-29 International Business Machines Corporation Automatically generating diverse text
CN112101005B (zh) * 2020-04-02 2022-08-30 上海迷因网络科技有限公司 一种快速表达力测试题目生成和动态调整方法
CN111639163A (zh) * 2020-04-29 2020-09-08 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN111695354A (zh) * 2020-05-20 2020-09-22 平安科技(深圳)有限公司 基于命名实体的文本问答方法、装置及可读存储介质
CN111723185B (zh) * 2020-06-19 2022-07-08 思必驰科技股份有限公司 问题生成方法
CN112541350A (zh) * 2020-12-04 2021-03-23 支付宝(杭州)信息技术有限公司 一种变种文本还原方法、装置以及设备
CN112765959B (zh) * 2020-12-31 2024-05-28 康佳集团股份有限公司 意图识别方法、装置、设备及计算机可读存储介质
CN114282515B (zh) * 2022-02-18 2022-07-08 北京语言大学 一种基于增量式片段预测的端到端词汇受限文本生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10963782B2 (en) * 2016-11-04 2021-03-30 Salesforce.Com, Inc. Dynamic coattention network for question answering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Query and Output: Generating Words by Querying Distributed Word;Shuming Ma等;《Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies》;20180131;第1卷;1-11 *

Also Published As

Publication number Publication date
CN108846130A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
CN108846130B (zh) 一种问题文本生成方法、装置、设备和介质
CN111414464B (zh) 一种问题生成方法、装置、设备及存储介质
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
US11769018B2 (en) System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
WO2019076286A1 (zh) 一种语句的用户意图识别方法和装置
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN112214591B (zh) 一种对话预测的方法及装置
CN109635197B (zh) 搜索方法、装置、电子设备及存储介质
WO2023201975A1 (zh) 一种差异描述语句生成方法、装置、设备及介质
CN111241237A (zh) 一种基于运维业务的智能问答数据处理方法及装置
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN111402861A (zh) 一种语音识别方法、装置、设备及存储介质
JP2022006173A (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN112507695A (zh) 文本纠错模型建立方法、装置、介质及电子设备
WO2021143206A1 (zh) 单语句自然语言处理方法、装置、计算机设备及可读存储介质
CN111026840B (zh) 文本处理方法、装置、服务器和存储介质
CN112949758A (zh) 应答模型的训练方法、应答方法、装置、设备及存储介质
CN115495568A (zh) 一种对话模型的训练方法及装置、对话响应方法及装置
CN111782787A (zh) 问题生成模型训练方法、问题生成方法
CN112069781A (zh) 一种评语生成方法、装置、终端设备及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN115394321A (zh) 音频情感识别方法、装置、设备、存储介质及产品
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN114297220A (zh) 一种数据处理方法、装置、计算机设备以及存储介质
CN111475635B (zh) 语义补全方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant