CN109582767A

CN109582767A - 对话系统处理方法、装置、设备及可读存储介质

Info

Publication number: CN109582767A
Application number: CN201811388674.8A
Authority: CN
Inventors: 任昭春; 殷大伟; 陈宏申; 赵鸿; 赵一鸿
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-04-05
Anticipated expiration: 2038-11-21
Also published as: CN109582767B

Abstract

本发明实施例提供一种对话系统处理方法、装置、设备及可读存储介质，本发明实施例的方法通过获取用户在本轮对话输入的原始语句；根据所述用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，生成本轮对话的对话状态信息；根据所述本轮对话的对话状态信息，生成本轮对话回复的目标语句，采用了拷贝流机制，包括有从前一轮回复到本轮对话状态的复制流程，从本轮对话状态到本轮回复的复制流程，在相邻的对话轮次中，从前一轮对话状态到本轮对话状态的复制流程，通过拷贝流机制，将对话历史的信息流通过复制传递并最终参与本轮对话回复的目标语句的生成，能够实现长期对话状态的跟踪，可以提高对话系统生成的回复的准确性。

Description

对话系统处理方法、装置、设备及可读存储介质

技术领域

本发明实施例涉及对话系统技术领域，尤其涉及一种对话系统处理方法、装置、设备及可读存储介质。

背景技术

对话系统大致可分为两种：任务导向型(task-oriented)对话系统和非任务导向型(non-task-oriented)对话系统(也称为聊天机器人)。对话状态跟踪模型对于一个对话系统是十分重要的。

目前的对话系统在生成回复时，大多数基于连续隐变量的对话状态跟踪模型无法明确跟踪长期对话状态，导致对话系统生成的回复不准确。

发明内容

本发明实施例提供一种对话系统处理方法、装置、设备及可读存储介质，用以解决现有技术中对话系统在生成回复时，大多数基于连续隐变量的对话状态跟踪模型无法明确跟踪长期对话状态，导致对话系统生成的回复不准确的问题。

本发明实施例的一个方面是提供一种对话系统处理方法，包括：

获取用户在本轮对话输入的原始语句；

根据所述用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，生成本轮对话的对话状态信息；

根据所述本轮对话的对话状态信息，生成本轮对话回复的目标语句。

本发明实施例的另一个方面是提供一种对话系统处理装置，包括：

获取模块，用于获取用户在本轮对话输入的原始语句；

对话状态跟踪模块，用于根据所述用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，生成本轮对话的对话状态信息；

回复生成模块，用于根据所述本轮对话的对话状态信息，生成本轮对话回复的目标语句。

本发明实施例的另一个方面是提供一种对话系统处理设备，包括：

存储器，处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，

所述处理器运行所述计算机程序时实现上述所述的方法。

本发明实施例的另一个方面是提供一种计算机可读存储介质，存储有计算机程序，

所述计算机程序被处理器执行时实现上述所述的方法。

本发明实施例提供的对话系统处理方法、装置、设备及可读存储介质，通过获取用户在本轮对话输入的原始语句；根据所述用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，生成本轮对话的对话状态信息；根据所述本轮对话的对话状态信息，生成本轮对话回复的目标语句，采用了拷贝流机制，在本轮对话中，包括有从前一轮回复到本轮对话状态的复制流程，从本轮对话状态到本轮回复的复制流程，在相邻的对话轮次中，从前一轮对话状态到本轮对话状态的复制流程，通过拷贝流机制，将对话历史的信息流通过复制传递并最终参与本轮对话回复的目标语句的生成，能够实现长期对话状态的跟踪，可以提高对话系统生成的回复的准确性。

附图说明

图1为本发明实施例一提供的对话系统处理方法流程图；

图2为本发明实施例一提供的对话系统总体逻辑示意图；

图3为本发明实施例二提供的对话系统处理方法流程图；

图4为本发明实施例二提供的单轮对话处理流程的示意图；

图5为本发明实施例三提供的对话系统处理装置的结构示意图；

图6为本发明实施例四提供的对话系统处理装置的结构示意图；

图7为本发明实施例五提供的对话系统处理设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明实施例构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。

首先对本发明实施例所涉及的名词进行解释：

序列到序列模型(seq2seq model):一种神经网络结构，功能是将一个文字序列(通常称为源序列)转换成另一个文字序列(通常成为目标序列)，主要用于机器翻译，对话系统等。

拷贝流(copy flow)：从X到Y的拷贝流是一个在生成输出Y时额外计算从输入X复制一个输入的概率的过程。

注意力机制(attention mechanism)：在生成输出Y时对输入X动态分配权重的过程。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

在实际应用中,对话系统也称为聊天机器人，现有的对话系统大致可分为两种：任务导向型(task-oriented)对话系统和非任务导向型(non-task-oriented)对话系统，这两种对话系统各有应用。任务导向型系统旨在帮助用户完成实际具体的任务，例如帮助用户找寻商品，预订酒店餐厅等，通常与数据库进行交互。非任务导向的聊天机器人一般是帮助用户娱乐打发时间，或提供较宽泛领域的信息。本发明实施例可以应用于这两种对话系统。

对话生成的任务旨在根据用户对话的上下文做出回应。跟踪对话状态是用于估计用户意图的对话生成的重要因素。然而，昂贵的标签数据和弱解释性使对话状态跟踪成为面向任务和非面向任务的对话生成的一个具有挑战性的问题：为了在面向任务的对话中生成回复，模型通常从手动注释的语料库中学习状态跟踪，其中人类注释对于训练是昂贵的。而对于非面向任务的对话系统，由于无限数量的对话状态，大多数现有工作忽略了显式状态跟踪。显式的状态跟踪提升了模型生成回复的可解释性，同时也便于人们对模型进行调整。

图1为本发明实施例一提供的对话系统处理方法流程图；图2为本发明实施例一提供的对话系统总体逻辑示意图。本发明实施例针对现有技术中对话系统在生成回复时，大多数基于连续隐变量的对话状态跟踪模型无法明确跟踪长期对话状态，导致对话系统生成的回复不准确的问题，提供了对话系统处理方法。

本实施例中的方法应用于终端设备，该终端设备是指对话系统所在设备，可以是聊天机器人、智能手机、平板电脑等移动终端，也可以是用于提供对话系统服务的服务器等固定终端，在其他实施例中，该方法还可应用于其他设备，本实施例以终端设备为例进行示意性说明。

如图1所示，该方法具体步骤如下：

步骤S101、获取用户在本轮对话输入的原始语句。

用户在与对话系统进行一轮对话时，由用户向对话系统输入原始语句，以使对话系统根据用户输入的原始语句生成对应的回复语句。

步骤S102、根据用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，生成本轮对话的对话状态信息。

本实施例中，采用基于拷贝流机制的新型编码器-解码器架构，用于通过显示词汇序列表示对话状态，本实施例中将这一架构成为“拷贝流网络”。

本实施例中采用对话状态跟踪模型，根据用户在本轮对话输入的原始语句，生成本轮对话的对话状态信息以及本轮对话回复的目标语句，其中，对话状态跟踪模型采用拷贝流机制的序列到序列模型。

对于本轮对话，有从前一轮的回复以及本轮用户输入到本轮对话状态的复制流程，从本轮对话状态到本轮回复的复制流程；还有从前一轮对话状态到本轮对话状态的复制流程。通过这种拷贝流机制，对话状态跟踪模型可以将对话历史的信息流通过复制传递并最终参与本轮对话回复的目标语句的生成，能够实现长期对话状态的跟踪。

步骤S103、根据本轮对话的对话状态信息，生成本轮对话回复的目标语句。

本实施例中，在得到本轮对话的对话状态信息之后，可以根据本轮对话的对话状态信息，生成本轮对话回复的目标语句。

本实施例中，对话系统的总体逻辑如图2所示，用t表示本轮对话，(t-1)表示前一轮对话，(t+1)表示后一轮对话。对话系统的本轮对话的输入为X_t，对话系统的本轮对话的输入包括前一轮的回复与用户在本轮对话输入的原始语句，可以是前一轮的回复与用户在本轮对话输入的原始语句的拼接。对话系统输出的本轮对应状态信息为S_t，对话系统输出的本轮会话向用户回复的目标语句Y_t。

本发明实施例通过获取用户在本轮对话输入的原始语句；根据用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，生成本轮对话的对话状态信息；根据本轮对话的对话状态信息，生成本轮对话回复的目标语句，采用了拷贝流机制，在本轮对话中，包括有从前一轮回复到本轮对话状态的复制流程，从本轮对话状态到本轮回复的复制流程，在相邻的对话轮次中，从前一轮对话状态到本轮对话状态的复制流程，通过拷贝流机制，将对话历史的信息流通过复制传递并最终参与本轮对话回复的目标语句的生成，能够实现长期对话状态的跟踪，可以提高对话系统生成的回复的准确性。

实施例二

图3为本发明实施例二提供的对话系统处理方法流程图；图4为本发明实施例二提供的单轮对话处理流程的示意图。在上述实施例一的基础上，本实施例中，对话状态跟踪模型还可以结合注意力机制，通过为原始语句对应的关键词序列中每个关键词赋予不同的注意力权重系数，提升对话系统的回复质量。如图3所示，该方法具体步骤如下：

步骤S201、获取用户在本轮对话输入的原始语句。

具体的，步骤S202-S203是根据用户在本轮对话输入的原始语句以及前一轮对话中的对话状态信息生成本轮对话的对话状态信息的一种可行的实施方式。

步骤S202、根据用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，通过第一神经网络模型，从用户在本轮对话输入的原始语句提取关键词，生成原始语句对应的关键词序列。

其中，第一神经网络模型为半监督神经网络模型。

本实施例中，对话状态跟踪模型以半监督地方式训练第一神经网络模型，第一神经网络模型用于提取原始语句中的关键词，而不仅仅是生成一个代表当前状态的隐变量。例如，对于用户输入的原始语句：“请预定一个高档的中餐厅”，通过第一神经网络模型可以从该原始语句中提取出“高档”和“中餐厅”等有助于生成回复与信息检索的关键词，按照在原始语句中出现的先后顺序排列成关键词序列“高档，中餐厅”，而不仅仅是生成一个代表当前状态的隐变量。当用户紧接着改口输入另一语句：“请预定一个西餐厅”时，第一神经网络模型可以更新原始语句的关键词序列为：“高档，西餐厅”。

步骤S203、根据原始语句对应的关键词序列，计算原始语句对应的注意力权重序列。

本实施例中，在得到原始语句对应的关键词序列之后，对话状态跟踪模型可以以词汇空间上的概率分布表示出这些关键词序列，得到原始语句对应的注意力权重序列。本实施例中也将原始语句对应的注意力权重序列作为本轮的对话状态信息，对话状态信息也可以称为“对话状态区块”。

本实施例中，根据原始语句对应的关键词序列，计算原始语句对应的注意力权重序列，具体可以采用如下方式实现：

根据原始语句对应的关键词序列，计算关键词序列中每个词汇在词汇空间上的概率；将关键词序列中每个关键词在词汇空间上的概率，作为关键词对应的权重系数，确定原始语句对应的注意力权重序列。

通过拷贝流机制，对话状态跟踪模型在通过第一神经网络模型计算得到本轮的原始语句对应的关键词序列之后，还可以通第二神经网络模型根据原始语句对应的关键词序列，计算关键词序列中每个关键词在词汇空间上的概率，得到关键词序列中各个关键词的概率分布。同时，对话状态跟踪模型通过序列到序列方式，根据原始语句对应的关键词序列计算出直接生成某个词汇的概率，这两个概率通过取同一规范化项的方式加权相加，得到最终概率。

具体地，根据用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，生成本轮对话的对话状态信息，还包括：

通过第二神经网络模型对原始语句对应的关键词序列进行编码，得到原始语句对应的源序列，源序列包括分别与每个关键词对应的编码值；计算源序列中每个编码值对应于关键词序列中各个关键词的概率分布；根据原始语句对应的源序列，以及源序列中每个编码值对应于关键词序列中各个关键词的概率分布，进行加权相加处理，得到原始语句对应的特征向量。

步骤S204、根据本轮对话的对话状态信息，生成本轮对话回复的目标语句。

具体的，根据原始语句对应的特征向量，以及原始语句对应的源序列，通过序列到序列模型生成本轮对话回复的目标语句。

例如，单轮对话的内部逻辑的处理过程如图4所示，用户输入的原始语句为“Finda parking garage”，本轮对话中，通过第一神经网络模型作为输入编码器从原始语句提取关键词，生成原始语句对应的关键词序列，得到输入编码器的隐状态，如图4中的h₁ ^(x)，h₂ ^(x)，h₃ ^(x)，h₄ ^(x)，h₅ ^(x)。输入编码器的最后一个隐状态以及前一轮对话中的对话状态信息作为第二神经网络模型(也即是对话状态解码器)的输入，通过第二神经网络模型对关键词序列进行编码处理，得到对话状态解码器隐状态(如图4中的所示)，这些隐状态经过维度投影得到一个在词表空间上的概率分布(如图4中v)，对这些概率分布最大采样，获取对应概率最大的若干个关键词构成的特征向量，用于通过关键词匹配查询后端数据库。该示例中，概率最大的关键词可以包括“parking”和“garage”。如图4中所示，该示例中，后端数据库返回数据为：{poi_type(表示兴趣地点类型):parking garage,poi(表示兴趣地点名称):Dish Parking(表示一个停车场名称),distance(距离信息):4miles,traffic(交通状况):no traffic(表示空闲)}。之后，通过序列到序列模型(也即是回复解码器)根据特征向量和原序列，生成图4中h₁ ^(y)，h₂ ^(y)，h₃ ^(y)，h₄ ^(y)表示的回复解码器的隐状态。随后，通过维度投影得到词表空间上的概率分布，再进行性最大采样，得到对应的含占位符“<POI_SLOT>”的回复，该示例中为“<POI_SLOT>is nearby”。最后，模型以数据库的查询结果替换占位符<POI_SLOT>，生成回复语句：“Dish Parking is nearby，表示“Dish”停车场在附近。

另外，在实际应用中，对于任务导向型对话系统和非任务导向型对话系统中的对话生成，现有的显式方法需要获取大量的人工对话历史信息，通过人工标注获得大量的标注数据，使用监督学习的方式训练对话状态跟踪模型。对话状态跟踪模型的训练严重依赖昂贵的标注数据，导致对话状态跟踪模型极难转移到新场景或扩展到更大的状态空间。

由于对话状态系统中作为监督信号的标注数据的稀缺性，对话状态跟踪模型的训练可能不稳定，尤其是当完全没有标注数据时更是如此。为了解决这个问题，本实施例的另一实施方式中，在本轮对话中生成本轮对话回复的目标语句之后，可以再应用后验正则化方法来更稳定地训练对话状态跟踪模型，根据本轮对话的对话状态信息，生成本轮对话回复的目标语句之后，还可以采用后验正则化方法对对话状态跟踪模型进行无监督方式地训练。

具体的，后验正则化的步骤如下：

步骤一、构建出前文所述的对话状态跟踪模型。对话状态跟踪模型输入为本轮对话中用户的输入与上一轮对话的对话状态信息，输出为本轮的对话状态信息和回复。对话状态跟踪模型作为先验网络。

步骤二，构建与先验网络架构相同的另一个网络，此处记为后验网络。后验网络的输入为本轮对话中用户输入的原始语句与对话状态跟踪模型的回复的拼接，以及对话状态跟踪模型得到的前一轮对话的对话状态信息，后验网络的输出为对话状态跟踪模型在本轮对话的输入与回复的拼接。

后验网络是一个条件自编码器的结构，后验网络的任务为：压缩对话状态跟踪模型输入的关键信息至对话状态信息，再根据对话状态信息还原对话状态跟踪模型的输入。这一算法可以对话状态跟踪模型可以可靠地在对话状态信息中学习到本轮对话的输入以及输出信息的关键词。

步骤三、使用KL(Kullback-Leible)散度规约先验网络与后验网络的概率分布。

具体地，计算KL(q(s)||p(s))，其中q(s)为后验网络生成的关于对话状态信息的概率分布，p(s)为先验网络生成的关于对话状态信息的概率分布；把KL(q(s)||p(s))加入到损失函数中。在模型训练过程中，KL(q(s)||p(s))的值会逐步减小，因此p(s)与q(s)会倾向于接近。

另外，模型测试时，只有先验网络参与回复生成，后验网络只在训练中指导先验网络。这是因为后验网络需要该轮对话的回复(如步骤二所述)作为输入，仅可在依靠已有语料库进行的训练过程中使用，不可在测试中生成回复的过程中使用。

通过本轮对话中用户输入的原始语句与对话状态跟踪模型输出的目标语句作为共同的输入来训练后验网络，相当于体用了更多的标注数据；然后通过最小化后验网络的概率分布和先验网络的概率分布的距离来优化先验网络。这样，当可用的标记数据较少时，可以通过该后验正则化方法增加标注数据，提升对话状态跟踪模型的性能。

另外，后验正则化方法也有助于通过未标记的对话状态生成回复的目标语句。虽然先前的网络可以探索对话状态的生成策略，但同时也被规范化为后向网络学习的上下文和响应的压缩表示。因此，先验网络与后验网络的输出倾向相同。

通过后验正则化方法引入非直接监督信号，后验网络可以以无监督地方式更好地学习对话状态信息，并指导先验网络，可以提升对话状态跟踪模型训练的稳定性。

本发明实施例通过在对话状态跟踪模型中增加注意力机制，在对话状态跟踪过程中，为原始语句对应的关键词序列中每个关键词赋予不同的注意力权重系数，提升对话系统的回复质量。

实施例三

图5为本发明实施例三提供的对话系统处理装置的结构示意图。本发明实施例提供的对话系统处理装置可以执行对话系统处理方法实施例提供的处理流程。如图5所示，该对话系统处理装置30包括：获取模块301，对话状态跟踪模块302和回复生成模块303。

具体地，获取模块301用于获取用户在本轮对话输入的原始语句。

对话状态跟踪模块302用于根据用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，生成本轮对话的对话状态信息。

回复生成模块303用于根据本轮对话的对话状态信息，生成本轮对话回复的目标语句。

本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例，具体功能此处不再赘述。

实施例四

图6为本发明实施例四提供的对话系统处理装置的结构示意图。在上述实施例三的基础上，本实施例中，对话状态跟踪模块还用于：

根据用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，通过第一神经网络模型，计算得到本轮的对话状态信息从用户在本轮对话输入的原始语句提取关键词，生成原始语句对应的关键词序列；根据原始语句对应的关键词序列，计算原始语句对应的注意力权重序列。

可选的，对话状态跟踪模块还用于：

可选的，回复生成模块还用于：

根据原始语句对应的特征向量，以及原始语句对应的源序列，通过序列到序列模型生成本轮对话回复的目标语句。

可选的，如图6所示，对话系统处理装置30还可以包括：后验正则化模块304。

后验正则化模块304用于：

采用后验正则化方法对第一神经网络模型进行无监督方式地训练。

本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例，具体功能此处不再赘述。

实施例五

图7为本发明实施例五提供的对话系统处理设备的结构示意图。如图7所示，该设备50包括：处理器501，存储器502，以及存储在存储器502上并可由处理器501执行的计算机程序。

处理器501在执行存储在存储器502上的计算机程序时实现上述任一方法实施例提供的对话系统处理方法。

另外，本发明实施例还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法实施例提供的对话系统处理方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims

1.一种对话系统处理方法，其特征在于，包括：

获取用户在本轮对话输入的原始语句；

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，生成本轮对话的对话状态信息，包括：

根据所述用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，通过第一神经网络模型，从所述用户在本轮对话输入的原始语句提取关键词，生成所述原始语句对应的关键词序列；

根据所述原始语句对应的关键词序列，计算所述原始语句对应的注意力权重序列。

3.根据权利要求2所述的方法，其特征在于，所述根据所述原始语句对应的关键词序列，计算所述原始语句对应的注意力权重序列，包括：

根据所述原始语句对应的关键词序列，计算所述关键词序列中每个词汇在词汇空间上的概率；

将所述关键词序列中每个关键词在所述词汇空间上的概率，作为所述关键词对应的权重系数，确定所述原始语句对应的注意力权重序列。

4.根据权利要求3所述的方法，其特征在于，所述根据所述用户在本轮对话输入的原始语句，以及前一轮对话中的对话状态信息，生成本轮对话的对话状态信息，还包括：

通过第二神经网络模型对所述原始语句对应的所述关键词序列进行编码，得到所述原始语句对应的源序列，所述源序列包括分别与每个关键词对应的编码值；

计算所述源序列中每个编码值对应于所述关键词序列中各个关键词的概率分布；

根据所述原始语句对应的源序列，以及所述源序列中每个编码值对应于所述关键词序列中各个关键词的概率分布，进行加权相加处理，得到所述原始语句对应的特征向量。

5.根据权利要求4所述的方法，其特征在于，所述根据所述本轮对话的对话状态信息，生成本轮对话回复的目标语句，包括：

根据所述原始语句对应的特征向量，以及所述原始语句对应的源序列，通过序列到序列模型生成本轮对话回复的目标语句。

6.根据权利要求2所述的方法，其特征在于，所述根据所述本轮对话的对话状态信息，生成本轮对话回复的目标语句之后，还包括：

采用后验正则化方法对所述第一神经网络模型进行无监督方式地训练。

7.一种对话系统处理装置，其特征在于，包括：

获取模块，用于获取用户在本轮对话输入的原始语句；

8.根据权利要求7所述的装置，其特征在于，所述对话状态跟踪模块还用于：

9.根据权利要求8所述的装置，其特征在于，所述对话状态跟踪模块还用于：

10.根据权利要求9所述的装置，其特征在于，所述对话状态跟踪模块还用于：

11.根据权利要求10所述的装置，其特征在于，所述回复生成模块还用于：

12.根据权利要求8所述的装置，其特征在于，所述装置还包括后验正则化模块，所述后验正则化模块用于：

13.一种对话系统处理设备，其特征在于，包括：

所述处理器运行所述计算机程序时实现如权利要求1-6中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，存储有计算机程序，

所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。