CN108491514A

CN108491514A - 对话系统中提问的方法及装置、电子设备、计算机可读介质

Info

Publication number: CN108491514A
Application number: CN201810251972.6A
Authority: CN
Inventors: 黄民烈; 朱小燕
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-09-04
Anticipated expiration: 2038-03-26
Also published as: CN108491514B

Abstract

本公开涉及一种对话系统中提问的方法及装置、电子设备和计算机可读介质。属于计算机技术领域，该对话系统中提问的方法包括：接收输入信息；通过模型的编码器将所述输入信息编码成隐状态序列；将所述隐状态序列输入至所述模型的解码器，生成相应的输出信息；其中，组成所述输出信息的每个词分别属于预先定义的预设数量的词类型中的一种，所述输出信息相关于所述输入信息。

Description

对话系统中提问的方法及装置、电子设备、计算机可读介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种对话系统中提问的方法及装置、电子设备、计算机可读介质。

背景技术

在对话系统(Conversational Systems)中提出良好的问题是相当重要的，但它没有得到很好的研究。

学习提问(或问题生成，Question generation，QG)的目的是为给出的输入产生一个问题。决定问什么和如何提问体现了机器理解的程度(Mostafazadeh等人2016)，在机器理解(Du,Shao,和Cardie 2017；Zhou等人2017b；Yuan等人2017)和问题回答(Tang等人2017；Wang,Yuan,和Trischler 2017)中已经证明了。提出良好的问题对于每个对话系统都是必不可少的，因为只有通过询问和回应对话系统才能很好地与用户交互，这个系统才是一个好的对话系统(Li等人2016)。而提问则是指导对话互动走向更深层次的重要的主动性行为之一(Yu等人2016)。

发明内容

本公开提供一种对话系统中提问的方法及装置、电子设备、计算机可读介质，能够至少部分地或者全部地解决上述现有技术中存在的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种对话系统中提问的方法，包括：接收输入信息；通过模型的编码器将所述输入信息编码成隐状态序列；将所述隐状态序列输入至所述模型的解码器，生成相应的输出信息；其中，组成所述输出信息的每个词分别属于预先定义的预设数量的词类型中的一种，所述输出信息相关于所述输入信息。

在本公开的一种示例性实施例中，所述输出信息是针对所述输入信息回复的问题。

在本公开的一种示例性实施例中，所述词类型预设数量为3，所述词类型包括疑问词、话题词和一般词；其中，所述疑问词用于控制所述问题的各种提问模式；所述话题词用于处理所述问题的话题转换的信息；所述一般词用于在所述问题中发挥句法和语法作用。

在本公开的一种示例性实施例中，还包括：采用训练数据集训练所述模型，判定解码词汇表中每个词的词类型。

在本公开的一种示例性实施例中，所述将所述隐状态序列输入至所述模型的解码器，生成相应的问题包括：在所述问题的每个解码位置，生成基于词类型的类型概率分布；在所述问题的每个解码位置，基于所述解码词汇表生成不同词类型的特定类型生成分布；根据所述类型概率分布和所述特定类型生成分布获得最终概率分布；根据所述最终概率分布生成所述问题的每个解码位置的词。

在本公开的一种示例性实施例中，所述特定类型生成分布通过所述解码词汇表参数化，每个词类型的分布都有自己的参数。

在本公开的一种示例性实施例中，所述根据所述类型概率分布和所述特定类型生成分布获得最终概率分布包括：将所述类型概率分布中的类型概率作为所述特定类型生成分布中的特定类型生成概率的系数，进行加权求和获得所述最终概率分布。

在本公开的一种示例性实施例中，所述将所述隐状态序列输入至所述模型的解码器，生成相应的问题包括：在所述问题的每个解码位置，生成基于词类型的类型概率分布；基于所述解码词汇表并通过所述类型概率分布来调整每个词的生成概率分布；根据每个词的生成概率分布生成所述问题的每个解码位置的词。

在本公开的一种示例性实施例中，所述将所述隐状态序列输入至所述模型的解码器，生成相应的问题还包括：通过Gumbel-softmax重构所述类型概率分布。

在本公开的一种示例性实施例中，所述基于所述解码词汇表并通过所述类型概率分布来调整每个词的生成概率分布包括：选择类型概率的最大的词类型的词。

在本公开的一种示例性实施例中，还包括：根据所述输入信息预测所述问题中的与所述输入信息相关的话题词。

在本公开的一种示例性实施例中，所述根据所述输入信息预测所述问题中的与所述输入信息相关的话题词包括：采用PMI预测所述问题中的与所述输入信息相关的话题词。

在本公开的一种示例性实施例中，所述方法应用于开放领域聊天对话系统中。

根据本公开的一个方面，提供一种对话系统中提问的装置，包括：输入模块，用于接收输入信息；编码模块，用于通过模型的编码器将所述输入信息编码成隐状态序列；解码模块，用于将所述隐状态序列输入至所述模型的解码器，生成相应的输出信息；其中，组成所述输出信息的每个词分别属于预先定义的预设数量的词类型中的一种，所述输出信息相关于所述输入信息。

根据本公开的一个方面，提供一种电子设备，包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序，该程序被该处理器执行时实现上述任一实施例中的方法步骤。

根据本公开的一个方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例中的方法步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1是根据一示例性实施方式示出的一种对话系统中提问的方法的流程图。

图2是根据一示例性实施方式示出的一种在对话系统中的通常包括疑问词、话题词和一般词的好问题的示意图。

图3是根据一示例性实施方式示出的一种对话系统中提问的方法的编码器-解码器的示意图。

图4是根据一示例性实施方式示出的一种软类型化解码器的示意图。

图5是根据一示例性实施方式示出的一种硬类型化解码器的示意图。

图6是根据一示例性实施方式示出的一种对话系统中提问的装置的示意图。

图7是根据一示例性实施方式示出的一种电子设备的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

如图1所示，本实施例提供的对话系统中提问的方法可以包括以下步骤。

在步骤S110中，接收输入信息。

在步骤S120中，通过模型的编码器将所述输入信息编码成隐状态序列。

在步骤S130中，将所述隐状态序列输入至所述模型的解码器，生成相应的输出信息。

其中，组成所述输出信息的每个词分别属于预先定义的预设数量的词类型中的一种，所述输出信息相关于所述输入信息。

在示例性实施例中，所述输出信息是针对所述输入信息回复的问题。

在示例性实施例中，所述词类型预设数量可以为3，所述词类型包括疑问词、话题词和一般词；其中，所述疑问词用于控制所述问题的各种提问模式；所述话题词用于处理所述问题的话题转换的信息；所述一般词用于在所述问题中发挥句法和语法作用。

需要说明的是，虽然本发明实施例中均以上述3种词类型为例进行举例说明，但本公开并不限定于此，在其他实施例中，还可以预先定义更多种或者更少种词类型。

在示例性实施例中，所述方法还包括：采用训练数据集训练所述模型，判定解码词汇表中每个词的词类型。

在示例性实施例中，所述将所述隐状态序列输入至所述模型的解码器，生成相应的问题包括：在所述问题的每个解码位置，生成基于词类型的类型概率分布；在所述问题的每个解码位置，基于所述解码词汇表生成不同词类型的特定类型生成分布；根据所述类型概率分布和所述特定类型生成分布获得最终概率分布；根据所述最终概率分布生成所述问题的每个解码位置的词。

在示例性实施例中，所述特定类型生成分布通过所述解码词汇表参数化，每个词类型的分布都有自己的参数。

在示例性实施例中，所述根据所述类型概率分布和所述特定类型生成分布获得最终概率分布包括：将所述类型概率分布中的类型概率作为所述特定类型生成分布中的特定类型生成概率的系数，进行加权求和获得所述最终概率分布。

在示例性实施例中，所述将所述隐状态序列输入至所述模型的解码器，生成相应的问题包括：在所述问题的每个解码位置，生成基于词类型的类型概率分布；基于所述解码词汇表并通过所述类型概率分布来调整每个词的生成概率分布；根据每个词的生成概率分布生成所述问题的每个解码位置的词。

在示例性实施例中，所述将所述隐状态序列输入至所述模型的解码器，生成相应的问题还包括：通过Gumbel-softmax重构所述类型概率分布。

在示例性实施例中，所述基于所述解码词汇表并通过所述类型概率分布来调整每个词的生成概率分布还包括：选择类型概率的最大的词类型的词。

在示例性实施例中，所述方法还包括：根据所述输入信息预测所述问题中的与所述输入信息相关的话题词。

在示例性实施例中，所述根据所述输入信息预测所述问题中的与所述输入信息相关的话题词包括：采用PMI预测所述问题中的与所述输入信息相关的话题词。

在示例性实施例中，所述方法可以应用于开放领域聊天对话系统中。

问题生成(QG)在开放领域聊天对话系统中与传统的QG任务有很大的不同。这个任务的最终目标是提高人机交互的互动性和持久性，而对于传统的QG任务来说，通过一个生成的问题获取信息是主要的目的。对话系统中的一个生成问题的答案将由用户在新一轮对话(next turn)中提供，这个答案可能是全新的，这个答案一般不出现在给定的输入中。从这个意义上讲，这个任务的目的是引入新颖而又相关的信息，推动对话交互的深入和进一步发展。在传统的QG任务中，生成问题的答案一般出现在给定的输入中，如机器理解(Du,Shao,和Cardie 2017；Yuan等人2017)，自动问答(Tang等人2017；Wang,Yuan,和Trischler2017)或视觉自动问答(Mostafazadeh等人2016)。

鉴于此，本公开实施例首先分析了这个任务与传统问题生成的主要区别。为了提高交互的互动性和持久性，它需要以不同的提问模式，和针对与输入相关的、多样且与输入相关的话题进行提问。为此，本公开实施例开发了两种类型的解码器，将问题中的单词分为不同的类型(疑问词(interrogative)，话题词(topic word)和一般词(ordinary word))，以控制解码概率分布(decoding probability distribution)的产生。

其中，疑问词用于产生各种提问模式，话题词用于处理话题转换的关键信息，而一般词则用于在自然语句中发挥句法和语法作用。下文中的自动和手动评估都表明，本公开实施例中提出的解码器性能优于几个最先进的基线(baselines)，可以产生更多有意义的问题。

由于这两个QG的主要目的不同，与传统的QG相比，开放领域聊天对话系统中的问题生成在两个方面有所不同：它不仅要求不同模式的问题，同时还要求多样性的但相关的话题。首先，对于同一个输入有不同的提问模式，有时会问是-否问题(Yes-no questions)，而有时则会问“疑问句”(Wh-questions)。多样化的提问模式使对话交互变得更加丰富和灵活。相反，传统的QG任务可以通过语法转换(如基于规则的重新排序方法或时隙填充方法)来粗略地处理(Andrenucci和Sneiders 2005；Popowich和Winne 2013)，或者用神经模型隐式(implicitly)建模(Du,Shao,和Cardie 2017)。在这样的任务中，询问的信息是预先确定的，通常决定了质疑的模式。例如，对于一个人来说，它会询问是“谁”的问题(Who-questions)；而对于一个位置，它会询问“在哪里”的问题(Where-questions)。

其次，这个任务需要能够提出多样的且与输入相关话题的问题。在对话系统中提出好的问题需要解决一个话题过渡的问题：即如何从输入话题转换到提问话题，更多的关注给定输入后的话题转换。这是对话系统的本质。例如，对于“我和朋友去吃晚餐”的输入，我们可能会提出一些关于朋友，美食，价格，地点和品味等话题。因此，这个任务通常需要场景理解来想象和理解一个场景(例如，在餐厅用餐)，这个场景可以通过与输入相关的话题来解释。然而，在传统的QG任务中，问题的核心信息是预先指定的和静态的，这通常只需要在字面上理解(或用语义复述)。

第一个方面要求提出多样化的提问模式，如“是-否”问题(Yes-No questions)和疑问句(Wh-questions)。第二个方面需要预测相关主题的能力，然后在一个生成的问题中自然处理这些话题。因此，为了在对话系统中产生好的问题(见图2)，本实施例需要同时考虑疑问词，话题词和一般词。疑问词可以产生各种提问模式，话题词可以解决话题转换的关键信息，而一般词可以在自然句子中扮演句法和语法角色。

受到这些发现的启发，本实施例提出了两个在开放领域聊天对话系统中提出好问题的模型。为了简化任务，作为初步的研究，考虑了一个一轮的对话系统。具体而言，首先预先定义了三个词类型，即疑问词，话题词(在推断期间在线预测)和一般词。此后，本实施例设计了两个解码器，即软类型化解码器(Soft Typed Decoder，STD)和硬类型化解码器(Hard Typed Decoder，HTD)。

在每个解码位置，本实施例首先估计基于词类型的概率分布(a typedistribution over word types)。STD应用了特定类型生成分布的混合(a mixture oftype-specific generation distributions)，其中类型概率(type probabilities)是系数。相比之下，HTD通过Gumbel-softmax重构了概率分布，并通过类型概率来调整生成分布。对本实施例构建的数据集的大量实验证明了所提出模型的有效性。

这是第一个关于对话系统问题生成的研究。本实施例所述方法首先分析这个新的任务和其他传统的问题生成任务之间的主要区别。

为了解决关键的区别，本实施例设计了软硬类型化解码器，通过很好地捕捉不同类型词的不同角色，提出了很好的问题。如果可以识别词语义类型，则本公开实施例提出的这种类型的解码器可适用于其他生成任务。

图2举例说明一个对话系统中的优秀好问题通常包含疑问词，话题词和一般词。在实例1和实例2的机器提出的问题中，climbing和singing是话题词，How about和Are是疑问词，this weekend和you happy with your是一般词。

传统的问题生成可以在句子转换(Vanderwende 2008)，机器理解(Du,Shao,和Cardie 2017；Zhou等人2017b；Yuan等人2017)，问答(Qin 2015；Tang等人2017；Wang,Yuan,和Trischler 2017)和视觉问答(Mostafazadeh等人2016)中看见。在这样的任务中，回答是已知的，并且是输入的生成问题的一部分。同时，由于所有信息都是由输入提供的，因此生成任务不需要额外的话题。它们适用于某些特定的场景，比如设计阅读理解的问题，给出一个文件和答案(Du,Shao,和Cardie 2017；Zhou等人2017a；Yuan等人2017)通过给定图像(视频)生成问题来进行视觉理解(Mostafazadeh等人2016)。

从技术上讲，这些任务可以通过基于启发式规则的重新排序方法来解决(Andrenucci和Sneiders 2005；Ali,Chali,和Hasan 2010；Heilman和Smith 2010)，填充问题模板(slot-filling with question templates)(Popowich和Winne 2013；Chali和Golestanirad2016；Labutov,Basu,和Vanderwende 2015)，或者由近期的神经模型隐含地模拟(Du,Shao,和Cardie 2017；Zhou等人2017b；Yuan等人2017)。传统的QG任务通常不需要用各种模式产生问题：对于给定的答案和支持性文本，问题类型通常由输入决定。

交互系统中的问题生成相对较少的被研究。李等人(2016)表明，在面向任务的对话中提出问题可以提供有用的反馈，以促进通过交互学习。几种问题机制是用手工制作的模板设计的，但不幸的是不适用于开放领域的对话系统。类似于我们的目标，提出了一个视觉QG任务，需要在给出一个图像作为输入的情况下产生一个问题用来与其他人互动(Mostafazadeh等人2016)。

对话系统中问题生成的任务可以用公式表示如下：给定用户输入内容(auserpost)x＝{x₁，x₂，...，x_T}，系统应该生成一个自然而有意义的问题y＝{y₁，y₂，..y_n}与用户交互，公式为：

如前所述，在对话系统中提出良好的问题需要多样化的提问模式，预测相关主题，然后在一个问题中自然地表达这些问题。为此，本实施例中将每个词分为三类：疑问词，话题词和一般词。例如，如果有问题，“how can Ilose weightwithoutsports？”，疑问词是how和？，话题词是lose，weight和sports，其余的是一般词。疑问词用不同的模式来指导问题生成，话题词处理话题转换的关键信息，而一般词在自然句子中扮演句法和语法角色。为了从输入内容中预测相关话题，本实施例中采取了PMI(Pointwise Mutual Information，点互信息)(Church和Hanks 1990)。

在通常的编码器-解码器框架之上，本实施例提出了两种使用词类型来生成问题的模型。第一种模型是软类型化解码器，基于词类型估计类型概率分布以及基于词汇表估计特定类型生成分布，然后获得特定概率分布的混合。第二个是硬类型化解码器，可以更明确地控制解码过程。词的最终生成分布是通过它们的相应类型的类型概率来调整的。鉴于此，一个词的最终生成概率是由它的类型来调整的。硬类型化解码器是软类型化解码器的硬形式。

这个过程与argmax具有相似的效果：首先选择一个类型概率最大的类型，然后生成这种类型的词。本实施例采用Gumbel-softmax(Jang，Gu和Poole 2016)来近似argmax，避免级联错误的效果并解决不可微分的问题。

图3是根据一示例性实施方式示出的一种对话系统中提问的方法的编码器-解码器的示意图。图4是根据一示例性实施方式示出的一种软类型化解码器的示意图。图5是根据一示例性实施方式示出的一种硬类型化解码器的示意图。

图3和4和5为两个解码器的图示。STD应用了特定类型生成分布的混合，其中类型概率是系数。在HTD中，类型概率分布由Gumbel-softmax重构，然后用于调整生成分布。STD的词生成概率分布基于全词表，HTD则基于动态类型划分的动态词表。

本实施例的模型基于通常的编码器-解码器框架(Cho等人2014；Sutskever，Vinyals和Le2014)。形式上，该模型将输入序列x＝{x₁，x₂，...，x_T}编码成隐(hidden)状态序列h_i，序列如下所示，

h_t＝f(h_t-1,e(x_t)) (2)

在本实施例中，其中f(·)是GRU(Gatedrecurrentunit，门控循环神经网络，Cho等人2014)单元，e(x)是词x的词向量。解码器通过从概率p(y_t|y＜t,x)中抽样来生成一个词序列，其中概率p(y_t|y＜t,x)通过以下公式计算：

Pr(y_t|y＜t,x)＝g(s_t,e(y_t-1),c_t) (3)

s_t＝f(s_t-1,e(y_t-1),c_t) (4)

其中s_t是在时间步t处解码器的状态，g是MLP(Multi-layerPerceptron，即多层感知器，是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量)函数，并且上下文向量c_t是编码器的隐状态的注意力读取(attentive read)：

系数α_tτ由以下公式确定

其中η是一个多层感知器(MLP)神经网络用于计算s_t-1和h_τ之间的对应关系。

下面介绍软类型化解码器。

在通常的编解码器模型中，解码器倾向于产生通用的，毫无意义的问题，如“What's up？”和“So what？”。为了生成更有意义的问题，根据输入的关键信息，本实施例提供一个软类型化解码器。它假设每个词都有一个潜在的类型，在集合{疑问词，话题词，一般词}中。软类型化解码器首先估计给定语境下一个词的潜在类型的概率分布，然后计算整个词汇表中针对不同词类型的特定类型生成分布。生成词的最终概率是系数为类型概率的特定类型生成分布的混合。

从最终生成分布p(y_t|y<t，x)中可以抽样一个词，由下式给出：

其中ty_t表示当前步t的词类型，c_i是词类型。显然，这个公式表明最终的生成概率是特定类型生成概率Pr(y_t|ty_t＝c_i，y<t，x)的混合，由概率分布概率Pr(ty_t＝c_i|y<t，x)作为系数。本实施例中称这个解码器为软类型化解码器。在这个模型中，词类型是潜在的(latent)，因为我们不需要明确指定词的类型。换句话说，每个词都可以是三种类型中的任何一种，但是在当前语境下具有不同的概率。

对于词类型C＝{c₁，c₂，...，c_k}(本实施例中k＝3)的概率分布(我们称之为概率分布)由下式给出：

Pr(ty_t＝c_i|y＜t,x)＝soft max(W₀s_t+b₀) (8)

其中s_t是解码器在时间步t的隐状态，W₀∈R^k×d，d是隐状态的维数。

特定类型生成分布由以下公式给出：

其中，和|V|是整个词汇表的大小。注意，特定类型生成分布是通过参数化的，这表明每个词类型的分布都有自己的参数。而不是使用在一般Seq2Seq(序列到序列生成模型)解码器中的单一的分布P_r(y_t|y＜t,x)，本实施例的软类型化解码器通过应用多种特定类型生成分布丰富了模型。这使模型能够表达要生成的下一个词的更多信息。

在训练过程中，问题中每个词的词类型自动决定。本实施例中通过手动收集约20个疑问词，将问题中所有的动词和名词作为话题词。所有其他单词都被视为一般词。

本实施例中采用交叉熵作为损失函数，另外，对词类型的混合权重进行监督，形式如下：

Φ＝λΦ₁+Φ₂ (12)

其中表示引用字类型的独热码(one-hot)表示，y_t表示在时间t引用词的独热码表示，ω_j是词汇表中的一个词。λ是平衡两个损失函数项(lossterms)的因子。

下面介绍硬类型化解码器。

在软类型化解码器中，假设每个词都是三种潜在类型的分布。从这个意义上说，一个词的类型是隐式的，不需要明确地指定每个词的类型。在硬类型化解码器中，整个词汇表的每个词对各个输入动态地分为三种类型，解码器首先估计每个位置的类型概率分布，然后生成最大类型概率的词。这个过程可以表述如下：

Pr(y_t|y＜t,x)＝Pr(y_t|ty_t＝c^*,y＜t) (14)

这是上述公式7的硬形式，它只是选择概率最大的类型。然而，argmax过程可能导致两个问题。首先，这样的级联决策过程(首先选择最有可能的词类型，然后选择该类型的词)可能会导致严重的语法错误，如果第一个决定是错误的。第二，argmax是离散的、不可微分的，它打破了反向传播路径中的训练。

为了在硬类型化解码器中最好的利用词类型，本实施例中利用Gbumble-Softmax((Jang,Gu,和Poole 2016)近似argmax的效果来解决上述问题。解码器中有几个步骤(如图5所示)：

首先，一个问题中每个词(疑问词、话题词或一般词)的类型是在训练中自动决定的，如上所述。

第二，估计生成词的概率分布：

Pr(y_t|y＜t,x)＝soft max(W₀s_t+b₀) (15)

此外，每个解码位置的类型概率分布估计如下：

Pr(ty_t＝c_i|y＜t,x)＝soft max(W₁s_t+b₁) (16)

第三，每个词的生成概率由其相应的类型概率来调整：

Pr'(y_t|y＜t,x)＝Pr(y_t|y＜t,x)·m(y_t) (17)

其中c(y_t)查找词y_t的词类型，c^*是公式13中定义的最大概率类型。这个公式具有argmax的近似效果，其中该解码器只会产生具有最大概率的类型的词。

为了得到Pr^*(y_t|y＜t,x)分布，本实施例可以用归一化因子Z将这些值归一化：

其中ν是解码词汇表。然后，最终概率可以表示为：

Pr^*(y_t|y＜t,x)＝Z·Pr'(y_t|y＜t) (20)

如前所述，为了有argmax的效果但仍保持可微分能力，本实施例中采用Gumbel-Softmax(Jang,Gu,和Poole 2016)，这是一个接近argmax效果的可微分的函数。然后将类型概率分布调整为以下形式：

m(y_t)＝GumbelSoft max(Pr(ty_t＝c(y_t)|y＜t,x))

π₁，π₂…，π_k代表原分类分布的概率，g_j是Gumbel(0,1)(如果u～Uniform(0,1)，那么g＝-log(-log(u))～Gumbel(0,1))来的i.i.d(独立同分布)样本和τ是一个常数用于控制分布的平滑性。当τ→0时，Gumbel-Softmax表现为argmax，而如果τ→∞，Gumble-Softmax表现为均匀分布。在本实施例的实验中，把τ设置在0和1之间的一个常数，使得Gumbel-Softmax比argmax平滑，但比通常的Softmax轮廓鲜明(sharper)。

与软类型化解码器相似，本实施例中增加了对词类型的权重和最终解码分布的监督。唯一不同的是，本实施例中用Pr^*(y_t＝ω_j|y＜t,x)代替了公式11的第二行。

训练和推理的唯一区别在于话题词是如何被选择的。在训练中，本实施例中确定的名词和动词在回复内容为话题词；而在推理过程中，本实施例中采用了PMI(Church和Hanks1990)和Rel(k，x)来针对输入内容(an inputpost)预测关键词的集合{k₁,k₂,…,k_n}，定义如下：

其中p₁(w)/p₂(w)各自表示词w发生在一个输入/输出中的概率，以及p(w_x,w_y)是词w_x出现在一个输入中的和词w_y出现在一个回复内容中的概率。在推理过程中，本实施例中最多为一个输入预测12个关键词。

为了估计PMI中的概率(见公式22)，从微博(https://weibo.com/)收集了大约900万输入内容-回复内容(post-response)对。为了训练问题生成模型，在20个手工制作模板的帮助下，提取回复内容为提问形式的那些输入内容-回复内容对。模板包含一个疑问词列表和其他隐式提问模式。这样的模式检测出由类似what，how many，how about开头的句子，或以问号结束的句子。进一步，删除了那些回复内容是通用的问题的数据对，因为这些内容通常可以用来回答许多不同的输入内容。

表1：语料库统计

最终，获得了包含481000输入内容-回复内容对(Pairs)的数据集(Dataset)。其中，随机选取5000对用于测试，以及另外5000对用于验证。统计如表1概述的。数据集包含66547个不同的词和出现超过10次的18717个词。

实验设置中的参数设置如下：将词汇表的大小设置为20000，词向量的维数为100。词向量预先训练了大约900万个来自微博的输入内容-回复内容对，并在解码器的训练中被更新。采用4层GRU单位(隐状态有512个维度)。这些设置也适用于所有基线。λ在公式12中是0.8。在不同训练阶段在Gumbel-Softmax中设置不同的τ值。在早期阶段，设置一个小的τ值(0.6)以获得一个轮廓更鲜明的重构后的分布(更像argmax)。在几个步骤之后，设置一个更大的τ值(0.8)来应用一个更平滑的分布。

为了证明本实施例中提出的模型的有效性，将它们与三个最先进的基线进行了比较。

Seq2Seq是一种具有注意机制的简单编码器解码器(Luong,Pham,和Manning2015)。

机制感知(Mechanism-aware，MA)模型假设存在一些潜在回复机制，每个机制都用实值向量表示(Zhou等人2017a)。该模型也可以看作是一个混合模型。

话题感知(Topic-aware，TA)模型通过来自输入序列输入的关键字来生成信息回复(Xing等人2017)。

MA中的机制数同样设置为4(Zhou et al.2017a)。因此，MA为每个输入内容生成4个回复内容，本实施例中随机选择一个回复内容进行评估，以避免选择偏倚。

在5000个测试输入内容上进行了自动评估。对于每个输入内容，从5个模型中得到了回复内容，总共有25000个输入内容-回复内容对。

这里采用复杂度(Perplexity)和多样性(Distinct)作为评价指标。复杂度是量化概率模型如何拟合数据的一种度量方法。较小的值表示更好的性能。评价一个回复内容的多样性，采用Distinct(多样性)-1介绍参见(Li等人2015)。这个指标计算不同的一元词产生的所有生成的回复内容的测试集的单词(tokens)总数的比例。

本实施例中没有采用BLEU(a Method for Automatic Evaluation of MachineTranslation，机器翻译的自动评价方法)用于自动评价，因为BLEU和人类判断之间的低相关性，参见(Liu等人2016)的讨论。

比较结果显示在表2中。可以观察到STD和HTD具有较低的复杂度和Distinct-1得分较高。

模型	复杂度	Distinct-1
			Seq2Seq	63.71	0.0242
MA	48.47	0.0215
			TA	57.83	0.0835
STD	57.37	0.0802
			HTD	55.95	0.1085

表2：自动评估结果

本实施例提出的模型独特的指标分数比Seq2Seq和MA要好得多。STD能够与TA比较，HTD优于TA。然而，如何使用话题信息的方法在这些模型中有所不同。本实施例提出的解码器预测一个话题词是否应该在每个位置解码，而TA将话题信息附加到所有解码位置。

至于复杂度，TA，STD和HTD有非常接近的分数，低于Seq2Seq。我们观察到，MA获得最低的复杂度分数，因为该模型在本实施例提出的数据集上往往产生更普遍的输入内容。

人工评价是生成的质量评价不可缺少的一步。从测试集中随机选取了500个输入内容，得到了所有模型的2，500个回复内容。采用众包(众包是指，从一广泛群体，特别是在线社区，获取所需想法，服务或内容贡献的实践。它与外包的区别是，它将任务分解和分配于一个公众的、未加定义的群体而非某一特定群体手动标注手工注释服务。)服务进行人工标注。每个输入内容-回复内容对由五个标注者据以下指标进行标记，对每一对计算平均分作为最终得分。

定义了三个指标-符合语法度(Grammaticality)，合适度(Appropriateness)和话题丰富度(Richness)用于评价。

符合语法度：是否生成的回复内容是一个自然、流畅、符合语法的问题。分数0/1适用于这里。注意，如果一个回复内容在文法中是自然的而不是一个问题，那么它的分数是0。

合适度：此指标适用于0/1/2评分模式。分数0意味着回答不是一个适当的逻辑的问题。分数1表示，答复是一个合乎逻辑和合理的问题，但不是对关键信息的提问。大多数通用问题评分为1。分数2是指回复内容是合乎逻辑和合理的，也是对关键信息的提问。这些问题反映了对输入内容的很好理解和可引起输出进一步交互。

话题丰富度：一个回复内容是否包含与某个输入内容相关的话题词。分数0/1适用于这里。

注意合适度与话题丰富度无关。合适度是指同时考虑逻辑、内容和关键信息的总体判断。话题丰富度只考虑一个，即问题是否包含相关的话题词。包含相关话题词(丰富度＝1)的问题可能不是一个适当的问题(合适度＝0)。

这里分析了标注一致性统计。对于符合语法度，有88％的对被至少4个判断者被分配相同的标签。话题丰富度的百分比是78％。然而，对于合适度(百分比为45％)，注释更加困难和主观，部分原因是我们采用了细粒度的评分模式(0/1/2)。从Fleiss’Kappa(Fleiss1971)可以看出，对于符合语法度(Kappa＝0.51)和话题丰富度(Kappa＝0.41)Fleiss’Kappa展现出了温和的一致性，而对于合适度(Kappa＝0.34)只有相对的一致性。

人工评估的结果见表3。显然，STD和HTD的合适度、话题丰富度和总成绩方面优于基线，说明本实施例提出的解码器有更多的产生好的问题的优势。因为合适度和话题丰富度是独立的，本实施例通过同时考虑合适度和话题丰富度并给出了统计表4。观察到，HTD和STD可以产生更多的合适度分数为2和丰富度分数为1，对HTD和STD来说分别为18.6％和10.8％，而TA只有6.2％，其它的基线模型甚至更低。类似的情况可以在合适度-话题丰富度分数为1-1中观察到。结果表明，本实施例提出的解码器可以产生高品质的问题，具有适当的内容和丰富的话题。

表3：符合语法度、合适度和话题丰富度的人工评估结果

模型(％)	2-1	1-1	0-1	2-0	1-0	0-0
							Seq2Seq	5.6	3.8	1.0	6.6	48.0	35.0
MA	3.0	1.4	1.6	4.0	51.8	38.2
							TA	6.2	3.4	1.0	4.0	51.4	32.2
STD	14.6	8.4	4.0	6.6	32.0	34.4
							HTD	18.6	10.8	7.0	5.2	27.2	31.2

表4：回复内容的合适度-话题丰富度分数的百分比

表4中，例如，2-1的意思是合适度分数为2，话题丰富度分数为1。

还注意到，本实施例提出的解码器在语法方面的表现不如基线。这是因为对每个解码位置生成的词类型进行了强控制。对生成的词类型的强操作有时会牺牲语法，但语法仍然可以接受(最大得分是1)。为了验证本实施例提出的解码器是否比基线要好得多，在本实施例提出的解码器和性能最高的基线，主题感知(TA)模型之间进行了显著性测试。计算了两个系统中同一个输入内容下的两个回复内容之间的得分差异，从而为500个测试输入内容获得了500个得分样本。然后进行了假设检验和正态分布计算p值。结果表明，STD在p_total＝0.0137，p_appr.＝0.173,p_rich.＝3.882*10^-12,下优于TA，HTD在p_total＝1.472*10^-5,p_appr.＝0.0600,p_rich.＝1.348*10^-23优于TA。

人工评估证明本实施例提出的解码器相对基线更有优势。然而，人工评价进行标记具有相当的挑战性，特别是细粒度的度量(如合适度)。因此这里进行偏好测试(preference test)进一步证明了本实施例提出的模型通过标记是首选。对于每一个输入内容，用于比较的两个系统的回复内容被展示给5个标注者，看哪个回复内容更好。一个数据对的最终标签由多数票决定的。

表5：偏好测试的结果

表5的结果表明，STD和HTD优于其他模型。HTD对MA和TA具有显著的优势。这些结果也与以前的手工评估结果一致。这里没有在基线之间进行偏好测试(即TA与MA)。

表6中的示例表明，本实施例提出的解码器可以生成更合适的问题。Seq2Seq和MA往往会产生更普遍的问题。这些例子也清楚地表明，在开放领域聊天对话系统中提问是需要场景理解的，这里的场景是在卡拉OK唱歌。

表6：生成问题实例

上述表6的回复内容中疑问词是粗体，话题词是斜体字。

为了进一步理解如何在对话系统中提出好的问题，这里提出了更多的由人类和本实施例提出的类型解码器生成的问题示例。

表7中的第一个例子(Post₁)显示，一个好的问题可以仅由疑问词和一般词组成。这表明这个任务的复杂性和建模疑问词的必要性。Post₂显示一个典型的提问模式，是在输入内容的一个特定的话题词(effect)下的典型的提问模式。而对于Post₃，问题是问关于输入内容相关的话题(work～department；sports center～College ofPhysicalEducation)，表明在我们的任务中话题转换是普遍的。这个例子也表明，对于相同的输入内容，有多个提问模式：人问一个How-问题，STD问Which-问题，HTD问是-否问题。对于Post₄，完美的问题需要输入者和回复者之间的背景分享，而由于这种知识的缺乏，STD和HTD往往提出更一般的问题。

为了获得词类型在问题生成过程中扮演的角色的深度见解，这里在HTD中的每个解码位置可视化类型概率。这个例子(表8)显示了该模型可以很好地捕获不同位置的词类型。例如，在第一和第二的位置，一般词有最大的概率用于生成you和like，在第三的位置，预测一个话题词rabbit，而最后两个位置是疑问词(吗和一个问号)。

表7：典型提问模式的示例

上述表7的回复内容中疑问词是粗体，话题词是斜体。所有句子都用从中文翻译来的。但本公开实施例提出的方法可以应用于任何语言。

表8：从HTD来的概率分布的例子

上述表8中产生的问题是：“你喜欢兔子吗？”“兔子”这个词是PMI预测的话题词，_EOS是表示句子结束的符号。

本公开实施方式提出的对话系统中提问的方法，首先分析了开放领域聊天对话系统中问题生成与传统问题生成任务的三个主要区别：1)具有各种模式的提问；2)预测与输入内容相关的话题；3)在生成的问题中自然地处理话题。为了完成这项工作，本实施方式提出了软类型化和硬类型化的解码器，以产生良好的问题。解码器根据词类型({疑问词、话题词、一般词})估计概率分布，然后应用概率分布来调节问题生成过程。大量的实验表明，本实施例提出的模型比基线有优势。

需要说明的是，虽然在上述实施例中仅以一轮对话为例进行说明，但本公开实施方式提出的模型可以扩展以应用于复杂的对话上下文的多轮对话。

图6是根据一示例性实施方式示出的一种对话系统中提问的装置的框图。

如图6所示，该对话系统中提问的装置100可以包括输入模块110、编码模块120以及解码模块130。

输入模块110可以用于接收输入信息。

编码模块120可以用于通过模型的编码器将所述输入信息编码成隐状态序列。

解码模块130可以用于将所述隐状态序列输入至所述模型的解码器，生成相应的输出信息。

在示例性实施例中，所述词类型预设数量为3，所述词类型包括疑问词、话题词和一般词；其中，所述疑问词用于控制所述问题的各种提问模式；所述话题词用于处理所述问题的话题转换的信息；所述一般词用于在所述问题中发挥句法和语法作用。

在示例性实施例中，所述装置还包括训练模块，其中所述训练模块可以用于采用训练数据集训练所述模型，判定解码词汇表中每个词的词类型。

在示例性实施例中，所述解码模块包括类型概率分布生成单元、特定类型生成分布单元、最终概率分布生成单元以及词生成单元。其中，所述类型概率分布生成单元可以用于在所述问题的每个解码位置，生成基于词类型的类型概率分布。所述特定类型生成分布单元可以用于在所述问题的每个解码位置，基于所述解码词汇表生成不同词类型的特定类型生成分布。所述最终概率分布生成单元可以用于根据所述类型概率分布和所述特定类型生成分布获得最终概率分布。所述词生成单元可以用于根据所述最终概率分布生成所述问题的每个解码位置的词。

在示例性实施例中，所述最终概率分布生成单元包括加权求和子单元。其中，所述加权求和单元可以用于将所述类型概率分布中的类型概率作为所述特定类型生成分布中的特定类型生成概率的系数，进行加权求和获得所述最终概率分布。

在示例性实施例中，所述解码模块包括类型概率分布生成单元、生成概率分布生成单元、词生成单元。其中所述类型概率分布生成单元可以用于在所述问题的每个解码位置，生成基于词类型的类型概率分布。所述生成概率分布生成单元可以用于基于所述解码词汇表并通过所述类型概率分布来调整每个词的生成概率分布。所述词生成单元可以用于根据每个词的生成概率分布生成所述问题的每个解码位置的词。

在示例性实施例中，所述解码模块还包括重构单元，其中所述重构单元可以用于通过Gumbel-softmax重构所述类型概率分布。

在示例性实施例中，所述生成概率分布生成单元包括选择子单元，其中所述选择子单元可以用于选择类型概率的最大的词类型的词。

在示例性实施例中，所述装置还可以包括话题词预测模块，其中所述话题词预测模块可以用于根据所述输入信息预测所述问题中的与所述输入信息相关的话题词。

在示例性实施例中，所述话题词预测模块包括话题词预测单元，其中，所述话题词预测单元可以用于采用PMI预测所述问题中的与所述输入信息相关的话题词。

需要说明的是，上述发明实施例中的对话系统中提问的装置的模块和/或单元和/或子单元的具体实现可以参照上述图1所示的发明实施例中的对话系统中提问的方法的内容，在此不再赘述。

根据本公开的另一示例性实施方式，还提供了一种电子设备，其可以包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序，其中，该程序被该处理器执行时实现上述图1所示的发明实施例中的方法步骤。

下面参考图7，其示出了适于用来实现本申请实施例的电子设备400的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，电子设备400包括处理器401，其可以根据存储在存储器403中的程序而执行各种适当的动作和处理。特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码，在该计算机程序被处理器401执行时，执行本申请的系统中限定的上述功能。处理器401、存储器403以及通信接口402通过总线彼此相连。

附图中的流程图和框图，图示了按照本申请各种实施例的终端、服务端、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。

作为另一方面，本公开实施方式还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：接收输入信息；通过模型的编码器将所述输入信息编码成隐状态序列；将所述隐状态序列输入至所述模型的解码器，生成相应的输出信息；其中，组成所述输出信息的每个词分别属于预先定义的预设数量的词类型中的一种，所述输出信息相关于所述输入信息。

以上具体地示出和描述了本公开的示例性实施方式。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种对话系统中提问的方法，其特征在于，包括：

接收输入信息；

通过模型的编码器将所述输入信息编码成隐状态序列；

将所述隐状态序列输入至所述模型的解码器，生成相应的输出信息；

2.根据权利要求1所述的方法，其特征在于，所述输出信息是针对所述输入信息回复的问题。

3.根据权利要求2所述的方法，其特征在于，所述词类型预设数量为3，所述词类型包括疑问词、话题词和一般词；其中，

所述疑问词用于控制所述问题的各种提问模式；

所述话题词用于处理所述问题的话题转换的信息；

所述一般词用于在所述问题中发挥句法和语法作用。

4.根据权利要求3所述的方法，其特征在于，还包括：

采用训练数据集训练所述模型，判定解码词汇表中每个词的词类型。

5.根据权利要求4所述的方法，其特征在于，所述将所述隐状态序列输入至所述模型的解码器，生成相应的问题包括：

在所述问题的每个解码位置，生成基于词类型的类型概率分布；

在所述问题的每个解码位置，基于所述解码词汇表生成不同词类型的特定类型生成分布；

根据所述类型概率分布和所述特定类型生成分布获得最终概率分布；

根据所述最终概率分布生成所述问题的每个解码位置的词。

6.根据权利要求5所述的方法，其特征在于，所述特定类型生成分布通过所述解码词汇表参数化，每个词类型的分布都有自己的参数。

7.根据权利要求5所述的方法，其特征在于，所述根据所述类型概率分布和所述特定类型生成分布获得最终概率分布包括：

将所述类型概率分布中的类型概率作为所述特定类型生成分布中的特定类型生成概率的系数，进行加权求和获得所述最终概率分布。

8.根据权利要求4所述的方法，其特征在于，所述将所述隐状态序列输入至所述模型的解码器，生成相应的问题包括：

基于所述解码词汇表并通过所述类型概率分布来调整每个词的生成概率分布；

根据每个词的生成概率分布生成所述问题的每个解码位置的词。

9.根据权利要求8所述的方法，其特征在于，所述将所述隐状态序列输入至所述模型的解码器，生成相应的问题还包括：

通过Gumbel-softmax重构所述类型概率分布。

10.根据权利要求8所述的方法，其特征在于，所述基于所述解码词汇表并通过所述类型概率分布来调整每个词的生成概率分布包括：

选择类型概率的最大的词类型的词。

11.根据权利要求1至10任一所述的方法，其特征在于，还包括：

根据所述输入信息预测所述问题中的与所述输入信息相关的话题词。

12.根据权利要求11所述的方法，其特征在于，所述根据所述输入信息预测所述问题中的与所述输入信息相关的话题词包括：

采用PMI预测所述问题中的与所述输入信息相关的话题词。

13.根据权利要求1所述的方法，其特征在于，所述方法应用于开放领域聊天对话系统中。

14.一种对话系统中提问的装置，其特征在于，包括：

输入模块，用于接收输入信息；

编码模块，用于通过模型的编码器将所述输入信息编码成隐状态序列；

解码模块，用于将所述隐状态序列输入至所述模型的解码器，生成相应的输出信息；

15.一种电子设备，包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序，其特征在于，该程序被该处理器执行时实现权利要求1-13任一项所述的方法步骤。

16.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-13任一项所述的方法步骤。