CN112988960A

CN112988960A - 一种对话状态追踪方法、装置、设备及存储介质

Info

Publication number: CN112988960A
Application number: CN202110178271.6A
Authority: CN
Inventors: 陶建华; 杨国花
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-06-18

Abstract

本申请实施例涉及数据处理领域，具体涉及一种对话状态追踪方法、装置、设备及存储介质。旨在提升对话状态追踪的准确率。所述方法包括：将每轮对话的词序列与前一轮次系统动作的词序列拼接，得到每轮对话的输入词序列；利用预先训练好的槽填充序列标注模型，得到输入词序列中每个词的语义标签；将语义标签对应的特征向量与输入词序列中相应位置的词的向量拼接，得到输入词序列中每个词的特征向量；对输入词序列中每个词的特征向量编码，得到每轮对话的句子特征向量；将每轮对话的句子特征向量与前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中，为每轮对话标注上对话状态标签，得到每轮对话的对话状态。

Description

一种对话状态追踪方法、装置、设备及存储介质

技术领域

本申请实施例涉及数据处理技术领域，具体而言，涉及一种对话状态追踪方法、装置、设备及存储介质。

背景技术

近年来，人机对话系统在越来越多的场景中得到了应用，对话状态追踪是人机对话系统的重要组成部分，对话状态追踪的目标是准确的识别对话的状态，只有准确的识别对话状态，才能对用户目标作出正确的响应。现有的对话状态追踪方法一种是在槽填充结果的基础上进行，利用槽填充结果直接得到对话状态，另一种是直接基于词汇输入构建端到端的对话状态追踪模型。

现有技术存在的问题是，第一种方法容易将自然语言理解的错误在对话状态追踪任务中扩散，导致对话状态追踪的性能降低。第二中方法多侧重于词本身的含义，忽略了词中蕴含的丰富语义信息，从而制约了槽填充的语义信息在对话状态追踪作用方面的深入研究，导致对话状态追踪的性能降低。

发明内容

本申请实施例提供一种对话状态追踪方法、装置、设备及存储介质，旨在提升对话状态追踪的准确率。

本申请实施例第一方面提供一种对话状态追踪方法，所述方法包括：

将每轮对话的词序列和前一轮次系统动作的词序列进行拼接，得到每轮对话的输入词序列；

将所述输入词序列输入到预先训练好的槽填充序列标注模型中，得到所述输入词序列中每个词的语义标签；

将所述输入词序列中每个词的语义标签对应的特征向量与所述输入词序列中相应位置的词的向量进行拼接，得到所述输入词序列中每个词的特征向量；

对所述输入词序列中每个词的特征向量进行编码，得到每轮对话的句子特征向量；

将所述每轮对话的句子特征向量与前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中，为每轮对话标注上对话状态标签，得到每轮对话的对话状态。

可选地，在将每轮对话的词序列和前一轮次系统动作的词序列进行拼接，得到每轮对话的输入词序列之前，所述方法还包括：

获取每轮对话的句子，去除所述每轮对话的句子中的标点符号和停用词，得到所述每轮对话的词序列。

可选地，将所述输入词序列输入到预先训练好的槽填充序列标注模型中，得到所述输入词序列中每个词的语义标签，包括：

将所述输入词序列中的每个词进行向量化表示，得到所述输入词序列中的每个词的词向量；

将所述输入词序列中的每个词的词向量输入所述预先训练好的槽填充序列标注模型中，获得具有上下文信息的每个词的语义表示，对所述输入词序列中的每个词的语义向量进行分类，得到所述输入词序列中的每个词的语义标签。

可选地，对所述输入词序列中每个词的特征向量进行编码，得到每轮对话的句子特征向量，包括：

将所述输入词序列中的每个词的特征向量输入到长短时记忆神经网络或者卷积神经网络进行编码，得到所述每轮对话的句子特征向量。

可选地，将所述每轮对话的句子特征向量与前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预训练好的对话状态追踪模型中，为每轮对话标注上对话状态标签，得到每轮对话的对话状态，包括：

将所述每轮对话的句子特征向量与所述前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中；

通过预先训练好的对话状态追踪模型对所述拼接得到的向量进行计算，得到每轮对话的信念状态分布；

根据所述每轮对话的信念状态分布确定在预定义的槽值集合中具有最大信念得分的槽值，将所述具有最大信念得分的槽值作为相应轮次对话的对话状态标签，得到所述每轮对话的对话状态。

可选地，将所述每轮对话的句子特征向量与所述前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中，通过预先训练好的对话状态追踪模型对所述拼接得到的向量进行计算，得到当前对话轮次的信念状态分布，是按照以下公式执行的：

其中，

表示第t轮对话的句子特征向量，b_t-1表示第t-1轮对话状态的信念分布，

表示拼接操作，O_t表示拼接得到的t时刻对话状态追踪的输入向量，

表示第t轮对话对应LSTM_belief的隐层输出，LSTM_belief表示LSTM网络进行对话状态追踪计算，b_t表示第t轮对话状态的信念分布。

可选地，所述槽填充序列标注模型与所述对话状态追踪模型的训练过程包括：

收集人机对话的语料，对所述语料中的每轮对话中的每个词进行语义标签标注以及对所述语料中的每轮对话进行对话状态标注，将标注好的语料作为训练集；

将所述训练集输入所述槽填充序列标注模型与所述对话状态追踪模型中，对所述槽填充序列标注模型与所述对话状态追踪模型进行联合训练，其中，所述训练集首先通过所述槽填充序列标注模型，再传入所述对话状态追踪模型中；

所述对话状态追踪模型的损失值通过层级的长短时记忆神经网络的隐层回传到所述槽填充序列标注模型中，对所述槽填充序列标注模型的参数进行优化，最终得到所述预先训练好的槽填充序列标注模型与所述预先训练好的对话状态追踪模型。

本申请实施例第二方面提供一种对话状态追中装置，所述装置包括：

数据预处理模块，用于将每轮对话的词序列和前一轮次系统动作的词序列进行拼接，得到每轮对话的输入词序列。

槽填充模块，用于将所述输入词序列输入到预先训练好的槽填充序列标注模型中，得到所述输入词序列中每个词的语义标签。

特征提取模块，用于将所述输入词序列中每个词的语义标签对应的特征向量与所述输入词序列中相应位置的词的向量进行拼接，得到所述输入词序列中每个词的特征向量。

句子编码模块，用于对所述输入词序列中每个词的特征向量进行编码，得到每轮对话的句子特征向量。

对话状态追踪模块，用于将所述每轮对话的句子特征向量与前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中，为每轮对话标注上对话状态标签，得到每轮对话的对话状态。

可选地，所述数据预处理模块还包括：

词序列获取子模块，用于获取每轮对话的句子，去除所述每轮对话的句子中的标点符号和停用词，得到所述每轮对话的词序列。

可选地，所述槽填充模块包括：

词向量获得子模块，用于将所述输入词序列中的每个词进行向量化表示，得到所述输入词序列中的每个词的词向量；

语义标签获得子模块，用于将所述输入词序列中的每个词的词向量输入所述预先训练好的槽填充序列标注模型中，获得具有上下文信息的每个词的语义表示，对所述输入词序列中的每个词的语义向量进行分类，得到所述输入词序列中的每个词的语义标签。

可选地，所述句子编码模块包括：

句子编码子模块，用于将所述输入词序列中的每个词的特征向量输入到长短时记忆神经网络或者卷积神经网络进行编码，得到所述每轮对话的句子特征向量。

可选地，所述对话状态追踪模块包括：

特征拼接子模块，用于将所述每轮对话的句子特征向量与所述前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中；

信念状态分布获得子模块，用于通过预先训练好的对话状态追踪模型对所述拼接得到的向量进行计算，得到每轮对话的信念状态分布；

对话状态获得子模块，用于根据所述每轮对话的信念状态分布确定在预定义的槽值集合中具有最大信念得分的槽值，将所述具有最大信念得分的槽值作为相应轮次对话的对话状态标签，得到所述每轮对话的对话状态。

其中，

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

采用本申请提供的对话状态追踪方法，将每轮对话的词序列和前一轮次系统动作的词序列进行拼接，得到每轮对话的输入词序列，将输入词序列输入到预先训练好的槽填充序列标注模型中，得到输入词序列中每个词的语义标签，之后输入词序列中每个词的语义标签对应的特征向量与输入词序列中相应位置的词的向量进行拼接，得到输入词序列中每个词的特征向量，对输入词序列中每个词的特征向量进行编码，得到每轮对话的句子特征向量，将每轮对话的句子特征向量与前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中，为每轮对话标注上对话状态标签，得到每轮对话的对话状态。本申请中，通过将输入词序列输入预先训练好的槽填充序列标注模型中，得到了词的语义信息，通过挖掘出的语义特征进行特征补偿，提升了对话状态追踪的性能。另外，本申请对槽填充序列标注模型和对话状态追踪模型进行联合训练，促进了槽填充与对话状态追踪的联合研究，对对话状态追踪的发展具有十分重要的科学意义。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的对话状态追踪方法的流程图；

图2是本申请一实施例提出的对状态追踪装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1，图1是本申请一实施例提出的对话状态追踪方法的流程图。如图1所示，该方法包括以下步骤：

本实施例中，第t轮对话的状态(STATE_t)由k个槽STATE_t＝S₁×S₂×…×S_k，及其对应的槽值组成，k个槽{S₁,S₂,…,S_k}相互独立，为每个槽单独构建一个模型，它们具有相同的网络结构。

S11：将每轮对话的词序列和前一轮次系统动作的词序列进行拼接，得到每轮对话的输入词序列。

本实施例中，一段人机对话可以分为多个轮次，系统和用户进行对话，系统会根据用户的输入或预先的设定发出动作指令，根据该动作指令生成语句，系统输出一个语句是一个轮次，用户输入一个语句是另一个轮次，每个输入或输出的语句都视为一个单独的轮次。每轮对话指用户在一段人机对话中输入的语句，前一轮次系统动作指用户输入的语句对应的前一轮次的系统动作。

设第t轮对话用户输入的句子为

其中q代表第q个词，

是前一轮次的系统动作，其中z代表第z个词，那么第t轮输入的句子

为二者的拼接，拼接时将用户输入语句放置于前一轮次系统动作之前，

表示拼接操作，

是T_t中的第l个词，当1≤l≤q时，

表示u_t，当q+1≤l≤L时，

表示m_t-1。L为最大输入句子长度，当输入句子长度小于最大句子长度L时进行填充。

示例地，前一轮次对话中，用户输入句子为“为我推荐一家城东的便宜餐馆”，系统根据该用户的输入，生成的前一轮次系统的动作为“确认(价格＝便宜，方位＝城东)”，系统根据该动作提出的问题为“请问您是需要去一个便宜的，位于城东的餐馆就餐么。”用户的回答为“是的，我需要。”用户根据系统输出的内容进行的输入为当前轮次对话，将当前轮次对话的词序列与前一轮次系统动作的词序列进行拼接，得到当前轮次对话的输入词序列，拼接后的词序列为“是的，我需要。确认价格便宜方位东部”实际操作中词序列不含标点符号与括号。

本实施例的另一方面，在将每轮对话的词序列和前一轮次系统动作的词序列进行拼接，得到每轮对话的输入词序列之前，还需要进行如下步骤：

本实施例中，将每轮对话中句子中的标点符号和停用词去除，得到的只由字或者单词组成的词序列就是每轮对话的词序列。

S12：将所述输入词序列输入到预先训练好的槽填充序列标注模型中，得到所述输入词序列中每个词的语义标签。

本实施例中，槽填充指的是在一句话中，为这句话中的槽值打上槽标签，槽填充序列标注模型用于为输入词序列进行槽填充，对输入词序列中的槽值打上对应的槽标签即语义标签，对输入词序列中非槽值的词打上统一的语义标签。将所述输入词序列输入到预先训练好的槽填充序列标注模型中，得到所述输入词序列中每个词的语义标签的具体方法为：

S12-1：将所述输入词序列中的每个词进行向量化表示，得到所述输入词序列中的每个词的词向量。

本实施例中，当输入的词序列为英文时，每个词就代表一个单词，当输入的词序列为中文时，每个词就代表一个字。

S12-2：将所述输入词序列中的每个词的词向量输入所述预先训练好的槽填充序列标注模型中，获得具有上下文信息的每个词的语义表示，对所述输入词序列中的每个词的语义向量进行分类，得到所述输入词序列中的每个词的语义标签。

本实施例中，采用三层的长短时记忆神经网络LSTM对输入句子T_t进行槽填充，通过对输入句子T_t进行槽填充，可以获得句子中每个词的槽标记特征，即语义标签，具体计算过程如下所示：

上述公示中，

表示词

的向量，

和

分别表示双向LSTM中前向和后向的输出，LSTM_fwd表示前向LSTM网络，LSTM_bwd表示后向LSTM网络，

表示通过拼接双向LSTM前向和后向的隐层输出得到的词

的表示，每个单词的表示

包含了丰富的上下文信息，并被输入到上层LSTM中来对每个单词进行打标，

表示每个词的语义标签，本实施例中，将隐式的语义标签向量表示

作为语义标签对应的特征向量。

示例地，输入词序列为“是的，我需要。确认价格便宜位置东部”，这句话中有“价格槽”和“位置槽”，“便宜”是“价格槽”的槽值，“东部”是“位置槽”的槽值，这句话经过槽填充序列标注模型后得到的语义标签为“是/o的/o我/o需/o要/o确/o认/o价/o格/o便/b-price宜/i-price位/o置/o东/b-area部/i-area)”。

对不是槽值的词，语义标签为o，对于代表槽值的词“便宜”和“东部”，语义标签为“price”和“area”，可以根据槽值的内容设定语义标签，在此不做限制。

S13：将所述输入词序列中每个词的语义标签对应的特征向量与所述输入词序列中相应位置的词的向量进行拼接，得到所述输入词序列中每个词的特征向量。

本实施例中，将输入词序列输入预先训练好的槽填充序列标注模型中后，得到输入词序列中每个词的语义标签，之后将该模型的隐层输出作为每个词的语义标签特征向量，每个词的语义标签特征向量与相应位置的词的向量进行拼接，获得输入词序列中每个词的特征向量。

示例地，输入词序列的中每个词的特征向量为

其中

表示第t轮对话中第l个词的词向量，

表示第t轮对话中第l个词的语义标签特征向量。

S14：对所述输入词序列中每个词的特征向量进行编码，得到每轮对话的句子特征向量。

本实施例中，在得到输入词序列中每个词的特征向量之后，通过对每个词的特征向量进行编码，得到每轮对话的句子特征向量，具体方法为：

本实施例中，长短时记忆神经网络(LSTM)或者卷积神经网络(CNN)都可以对输入词序列中每个词的特征向量进行编码，具体可以表示为：

输入词序列为

句子的编码模块采用LSTM或者CNN获得输入句子的向量表示

即(d_t)＝LSTM(d_t)或者

S15：将所述每轮对话的句子特征向量与前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中，为每轮对话标注上对话状态标签，得到每轮对话的对话状态。

本实施例中，对于每个槽，都有一个对应的槽值，本实施例为每一个槽都预定义了一个槽值集合，通过计算每轮对话的对话状态的信念分布，可以得到每个预定义的槽值集合中的每个槽值对该槽的信念得分，这里每轮对话的对话状态就是信念得分最高的槽值，信念得分就是每个槽值是该槽对应的槽值的概率。对话状态追踪模型用于为输入的句子特征向量标注对话状态标签。对话状态追踪模型是基于长短时记忆神经网络模型(LSTM)建立的，将获取的句子特征与前一时刻对话状态的信念分布拼接作为长短时记忆神经网络的输入特征，初始化模型参数，每个输入表示对应一个长短时记忆神经网络单元，通过长短时记忆神经网络获得融合对话历史信息的当前轮次对话信息，将每个单元的长短时记忆神经网络隐层状态进行分类，获得每个轮次的对话状态。具体方法为：

S15-1：将所述每轮对话的句子特征向量与所述前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中。

S15-2：通过预先训练好的对话状态追踪模型对所述拼接得到的向量进行计算，得到每轮对话的信念状态分布。

本实施例中，上述步骤是通过以下公式实现的：

其中，

S15-3：根据所述每轮对话的信念状态分布确定在预定义的槽值集合中具有最大信念得分的槽值，将所述具有最大信念得分的槽值作为相应轮次对话的对话状态标签，得到所述每轮对话的对话状态。

本实施例中，对每个槽，在预定义的槽值集合上具有最大信念得分的槽值即为本轮次对话的状态标签，即：

其中，

D^S是槽S的预定义的槽值集合，V₁,V₂,…,V_m代表槽值。

示例地，当输入词序列为“是的，我需要。确认价格便宜位置东部”，状态追踪模型对该输入词序列对应的特征向量进行计算，得到该输入词序列中槽值的信念分布，确定具有最大信念得分的槽值为“便宜”和“东部”，就得到本轮次对话的状态标签为“便宜”和“东部”，进而确定本轮次对话的对话状态为{price＝“便宜”、area＝“东部”}。

本实施例中，槽填充序列标注模型与对话状态追踪模型的训练过程包括：

S21：收集人机对话的语料，对所述语料中的每轮对话中的每个词进行语义标签标注以及对所述语料中的每轮对话进行对话状态标注，将标注好的语料作为训练集。

S22：将所述训练集输入所述槽填充序列标注模型与所述对话状态追踪模型中，对所述槽填充序列标注模型与所述对话状态追踪模型进行联合训练，其中，所述训练集首先通过所述槽填充序列标注模型，再传入所述对话状态追踪模型中。

S23：所述对话状态追踪模型的损失值通过层级的长短时记忆神经网络的隐层回传到所述槽填充序列标注模型中，对所述槽填充序列标注模型的参数进行优化，最终得到所述预先训练好的槽填充序列标注模型与所述预先训练好的对话状态追踪模型。

本实施例中，通过梯度下降法对槽填充序列标注模型和对话状态追踪模型进行整体训练，这两个模型都是基于长短时记忆神经网络模型(LSTM)构成的，在训练过程中，对话状态追踪模型的损失值不仅用于优化对话状态追踪模型，还会通过层级的长短时记忆神经网络的隐层回传到槽填充序列标注模型中，同时优化槽填充序列标注模型的参数，这样槽填充标注模型会通过自身的损失值与对话状态追踪模型回传的损失值共同优化自身的参数。通过对对话状态追踪模型与槽填充序列标注模型的参数的多次迭代优化，最终获得预先训练好的槽填充序列标注模型和预先训练好的对话状态追踪模型。

采用本发明提供的实施例，首先通过槽填充序列标注模型从词序列中分离出词的语义信息，通过挖掘出的词的语义特征对词的词向量进行特征补偿，提升了对话状态追踪模型的性能，这样就实现了槽填充与对话状态追踪的联合研究，对于对话状态追踪的发展具有重要意义，此外，槽填充序列标注模型与对话状态追踪模型联合训练，提高了对话状态追踪的准确性，可以为人机之间的自然交互提供有力的保障，实现更具自然性和真实感的人机对话系统。

基于同一发明构思，本申请一实施例提供一种对话状态追踪装置。参考图2，图2是本申请一实施例提出的对话状态追踪装置200的示意图。如图2所示，该装置包括：

数据预处理模块201，用于将每轮对话的词序列和前一轮次系统动作的词序列进行拼接，得到每轮对话的输入词序列。

槽填充模块202，用于将所述输入词序列输入到预先训练好的槽填充序列标注模型中，得到所述输入词序列中每个词的语义标签。

特征提取模块203，用于将所述输入词序列中每个词的语义标签对应的特征向量与所述输入词序列中相应位置的词的向量进行拼接，得到所述输入词序列中每个词的特征向量。

句子编码模块204，用于对所述输入词序列中每个词的特征向量进行编码，得到每轮对话的句子特征向量。

对话状态追踪模块205，用于将所述每轮对话的句子特征向量与前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中，为每轮对话标注上对话状态标签，得到每轮对话的对话状态。

可选地，所述数据预处理模块还包括：

可选地，所述槽填充模块包括：

可选地，所述句子编码模块包括：

可选地，所述对话状态追踪模块包括：

其中，

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的对话状态追踪方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的对话状态追踪方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种对话状态追踪方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种对话状态追踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在将每轮对话的词序列和前一轮次系统动作的词序列进行拼接，得到每轮对话的输入词序列之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，将所述输入词序列输入到预先训练好的槽填充序列标注模型中，得到所述输入词序列中每个词的语义标签，包括：

4.根据权利要求1所述的方法，其特征在于，对所述输入词序列中每个词的特征向量进行编码，得到每轮对话的句子特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，将所述每轮对话的句子特征向量与前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中，为每轮对话标注上对话状态标签，得到每轮对话得到对话状态，包括：

6.根据权利要求5所述的方法，其特征在于，将所述每轮对话的句子特征向量与所述前一时刻对话状态的信念分布进行拼接，将拼接得到的向量输入预先训练好的对话状态追踪模型中，通过预先训练好的对话状态追踪模型对所述拼接得到的向量进行计算，得到当前对话轮次的信念状态分布，是按照以下公式执行的：

其中，

7.根据权利要求1所述的方法，其特征在于，所述槽填充序列标注模型与所述对话状态追踪模型的训练过程包括：

8.一种对话状态追踪装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至7任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至7任一所述的方法的步骤。