CN107832439B

CN107832439B - 多轮状态追踪的方法、系统及终端设备

Info

Publication number: CN107832439B
Application number: CN201711139798.8A
Authority: CN
Inventors: 陆广; 鞠强; 罗夏君
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2019-03-08
Anticipated expiration: 2037-11-16
Also published as: JP6605672B2; CN107832439A; JP2019091408A; US10664755B2; US20190147345A1

Abstract

本发明提出一种多轮状态追踪的方法、系统及终端设备。所述方法包括抽取用户输入多次的查询数据；判断用户输入的查询数据是否具有多轮特征；分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图；基于多轮意图，结合多次用户输入的查询数据，生成多轮候选状态；对多轮候选状态进行排序，得到最优的多轮状态并输出。根据本发明的多轮状态追踪的方法，使得机器可以通过对上下文理解，在一个连续的多轮对话状态下，理解用户的意图，提高用户使用的积极性。

Description

多轮状态追踪的方法、系统及终端设备

技术领域

本发明涉及在人工智能的互交对话中，对多轮互交对话的理解，更具体地，涉及多轮状态追踪的方法、系统及终端设备。

背景技术

目前，人工智能已经越来越多的被人们所熟知和应用。在人机对话中，通常赋予机器人听从指令、回答问题以及业务引导的能力，并且机器人可精确满足家庭陪护、儿童、医疗、教育、政务机关、银行、酒店、旅游景区等行业场景的需求。

但是，当前人们的生活、获取信息的形式，有很多是存在于社交场景当中的，但大部分识图类产品，还是作为一个单独的工具出现，不能与用户的原始需求场景相融合。

人机互交在单轮场景中，也就是用户一次性的单轮输入或者用户多次的单轮输入之间没有任何联系的情况下，人工智能能够较准确的对用户的query做出最优的回应输出。但是，如果用户的单轮输入之间存在某些联系，会形成多轮输入场景，需要人工智能结合输入内容的上下文关系来理解，而现有的方法主要是使用简单的字面与词性特征进行标注，完成多轮语言特征和多轮场景的识别任务，无法准确判断出多轮特征和多轮场景。

并且，在用户输入的语句比较模糊的弱语境环境下，现有方法更是无法准确判断出用户是否有想得到多轮场景的意图。现有方法缺少对上下文输入查询语言模型的建模，在弱语境的场景下，不能实现多轮意图的顺畅连续和正确断开。

因此，现有的人工智能在多轮场景下或者在弱语境环境下或者在弱语境环境下的多轮场景的人机交互中，不能够优质的输出用户实际需求或者满意的输出值，会影响到用户的使用的积极性。

发明内容

本发明实施例提供一种多轮状态追踪的方法、系统及终端设备，以至少解决或缓解现有技术中的一个或多个技术问题，至少提供一种有益的选择。

第一方面，本发明实施例提供了一种多轮状态追踪的方法。

本发明在第一方面中，多轮状态追踪的方法包括：抽取用户输入多次的查询数据；判断用户输入的查询数据是否具有多轮特征，所述多轮特征用于表示用户输入的多次查询数据之间存在某种关联性；分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图，所述多轮意图用于表示用户输入的多次查询意图之间存在某种关联性；基于多轮意图，结合多次用户输入的查询数据，生成多轮候选状态，所述多轮候选状态用于表示用户输入的查询数据相互组合后所形成的状态；对多轮候选状态进行排序，得到最优的多轮状态并输出。

结合第一方面，其中，判断用户输入的查询数据是否具有多轮特征，具体包括：通过资源、需求和先验分布做平滑，计算出各数据基于bi-gram的语言模型，并根据所述语言模型判断用户输入的查询数据是否具有多轮特征。

结合第一方面，其中，分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图，具体包括：基于结构化分析模型和深度学习模型分析计算当前意图的概率；当经结构化分析模型或深度学习模型之一所计算得出的当前意图的概率高于其所设定的阈值时，判断当前意图为多轮意图。

优选地，所述深度学习模型为LSTM模型，使用LSTM模型进行分类式训练，得到当前意图的概率分布；所述结构化分析模型通过上轮对话的意图内，结构化分析的正向term权重占比，来得到当前意图的概率，当前意图的概率计算公式为：

其中，其中φ为结构化特征集合，w为Term重要性分析结果，λ为正负特征加权，domain为上轮对话的意图，x为当前查询的term集合。

结合第一方面，对得到的多轮候选状态进行剪枝操作，从多个多轮候选状态中保留优质的多轮候选状态；对经剪枝后保留的多轮候选状态进行排序，得到最优的多轮状态并输出。

优选地，所述剪枝操作基于以下假设进行：当前查询只与时间上最接近的一次查询相关；多轮候选状态包括当前查询中新增的语义数据；多轮候选状态包括当前查询中出现的指代语义和该指代语义的对应数据。

结合第一方面，对多轮候选状态进行排序，具体包括，基于生成式模型和判别式模型，计算各个多轮候选状态的发生概率，并根据发生概率进行排序。

优选地，所述判别式模型为GBDT模型，使用GBDT模型进行判别式训练，得到多轮候选状态的发生概率；

所述生成式模型依据概率计算公式来计算多轮候选状态的发生概率，具体的概率计算公式如下：

P(candidate_n)＝η·P(slots_n|o_t+1，h_t+1，a_t)

在上述公式中，假设数据之间相互独立，则得到以下计算公式：

P(candidate_n)＝η·Π_i＝0P(slot_i|o_t+1，h_t+1，a_t)＝θ·Π_i＝0P(slot_i|o_t+1)·P(slot_i|h_t+1)·P(slot_i|a_t)

其中，η，θ为正规化常量；slot为槽位，即某意图下的关键检索片段；a为执行操作，h为历史状态记录，o为对用户输入的观察值；并且

P(slot_i|o_t+1)＝P(slot_i|slots_t+1)·P(slot_i|terms_t+1)·rule(syntacticalfeature)

P(slot_i|h_t+1)＝function(session num，session time)

P(slot_i|a_t)＝rule(bot state)

其中，P(slot_i|slots_t+1)表示上轮槽位组合与当前槽位组合的共现概率，P(slot_i|terms_t+1)表示上轮槽位组合与当前非槽位的term的共现概率，rule(syntacticalfeature)函数表示句法特征的规则，function函数表示一个槽位概率随时间和轮数的衰减函数，rule(bot state)函数表示结合了系统动作状态的基于规则的计算函数。

结合第一方面，当用户输入的查询数据不够具体和明确时，先进行询问操作，得到准确的用户输入的查询数据，再判断用户输入的查询数据是否具有多轮特征。

优选地，所述机器询问至少包括以下形式化语义表述之一：提问、选择和确认。

第二方面，本发明实施例提供了一种多轮状态追踪的系统。

本发明在第二方面中，多轮状态追踪的系统包括：特征抽取单元，配置用于抽取用户输入多次的查询数据，并判断用户输入的查询数据是否具有多轮特征，所述多轮特征用于表示用户输入的多次查询数据之间存在某种关联性；多轮意图识别单元，配置用于分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图，所述多轮意图用于表示用户输入的多次查询意图之间存在某种关联性；候选生成单元，配置用于基于多轮意图，结合多次用户输入的查询数据，生成多轮候选状态，所述多轮候选状态用于表示用户输入的查询数据相互组合后所形成的状态；状态排序单元，配置用于对多轮候选状态进行排序，得到最优的多轮状态并输出。

结合第二方面，所述特征抽取单元通过资源、需求和先验分布做平滑，计算出各数据基于bi-gram的语言模型，并根据所述语言模型判断用户输入的查询数据是否具有多轮特征。

结合第二方面，所述多轮意图识别单元基于结构化分析模型和深度学习模型分析计算当前意图的概率；当经结构化分析模型或深度学习模型之一所计算得出的当前意图的概率高于其所设定的阈值时，判断当前意图为多轮意图；其中，所述深度学习模型为LSTM模型，使用LSTM模型进行分类式训练，得到当前意图的概率分布；

所述结构化分析模型通过上轮对话的意图内，结构化分析的正向term权重占比，来得到当前意图的概率，当前意图的概率计算公式为：

结合第二方面，候选生成单元，进一步配置用于对得到的多轮候选状态进行剪枝操作，从多个多轮候选状态中保留优质的多轮候选状态；状态排序单元，进一步配置用于对经剪枝后保留的多轮候选状态进行排序，得到最优的多轮状态并输出。

优选地，其中，所述剪枝操作基于以下假设进行：当前查询只与时间上最接近的一次查询相关；多轮候选状态包括当前查询中新增的语义数据；多轮候选状态包括当前查询中出现的指代语义和该指代语义的对应数据。

结合第二方面，所述状态排序单元基于生成式模型和判别式模型，计算各个多轮候选状态的发生概率，并根据发生概率进行排序，其中，所述判别式模型为GBDT模型，使用GBDT模型进行判别式训练，得到多轮候选状态的发生概率；

P(candidate_n)＝η·P(slots_n|o_t+1，h_t+1，a_t)

P(candidate_n)＝，η·Π_i＝0P(slot_i|o_t+1，h_t+1，a_t)

＝θ·Π_i＝0P(slot_i|o_t+1)·P(slot_i|h_t+1)·P(slot_i|a_t)

P(slot_i|h_t+1)＝function(session num，session time)

P(slot_i|a_t)＝rule(bot state)

结合第二方面，所述特征抽取模块还配置用于，当用户输入的查询数据不够具体和明确时，先进行询问操作，得到准确的用户输入的查询数据，再判断用户输入的查询数据是否具有多轮特征。

第三方面，本发明实施例提供了一种多轮状态追踪的终端设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序；通信接口，配置为在存储器和处理器之间进行通信；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述第一方面中任一实现方式所述的方法。

上述技术方案中的一个技术方案具有如下优点或有益效果：使得机器可以通过上下文理解用户当前的意图，而不仅仅是针对单轮进行分析，可以在一个连续的多轮场景下，理解用户的意图，用户也可能在对话过程中不断修改或完善自己的需求。此外，当用户的陈述的需求不够具体或明确的时候，机器也可以通过询问、选择或确认等来帮助用户找到满意的结果。在互交场景中，能够对用户的意图精准理解及满足，让用户能以高效的方式，获取到需要的信息。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出了根据本申请一个实施例的多轮状态追踪的方法100的流程图；

图2示出了根据本申请另一个实施例的多轮状态追踪的方法200的流程图；

图3示出了根据本申请另一个实施例的多轮状态追踪的方法300的流程图；

图4示出了根据本申请一个实施例的多轮状态追踪的系统400的结构示意图；

图5示出了根据本申请的终端设备的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

参考图1所示，本申请第一方面，本发明实施例提供了一种多轮状态追踪的方法100。

轮场景追踪的方法100，具体包括以下步骤S101-S105。

S101，抽取用户输入多次的查询数据。在一种实施例中，具体地，在多轮互交对话中，判断用户输入的查询数据是否为多轮特征，具体包括：通过资源、需求和先验分布做平滑，计算多轮特征基于bi-gram的语言模型，并根据所述语言模型判断用户输入的查询数据是否为多轮特征。

S102，判断用户输入的查询数据是否具有多轮特征，所述多轮特征用于表示用户输入的多次查询数据之间存在某种关联性。如果用户输入的查询数据是具有多轮特征，继续进行以下步骤S103-S105操作；否则，直接返回输出值。

在一种实施例中，判断用户输入的查询数据是否具有多轮特征，包括：通过资源、需求和先验分布做平滑，计算出各数据基于bi-gram的语言模型，并根据所述语言模型判断用户输入的查询数据是否具有多轮特征。

例如，在人机交互对话中，如果用户在输入查询数据“周杰伦”后，又再次输入查询数据“嘻哈歌曲”，由于通过资源、需求和先验分布做平滑得出，周杰伦有演唱或发行过嘻哈歌曲，那么“周杰伦”与“嘻哈歌曲”之间可以形成某种语言模型，有一定关联性，所以两者可以被认定或判断具有多轮特征。而如果用户输入查询数据“周杰伦”后，又再次输入“摇滚歌曲”，由于在资源库中周杰伦没有演唱或发行过摇滚歌曲，那么“周杰伦”与“摇滚歌曲”并没有关联性，所以两者不能被认定或判断为具有多轮特征。

S103，分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图，所述多轮意图用于表示用户输入的多次查询意图之间存在某种关联性。如果当前意图是否为多轮意图，继续进行以下步骤S104-S105操作；否则，直接返回输出值。

在一种实施例中，具体地，即使用户输入的查询数据具有多轮特征，仍要对当前用户输入查询数据的意图进行判断。例如，虽然用户两次输入的查询数据“周杰伦”与“嘻哈歌曲”均具有多轮特征，但还是要判断用户输入的查询数据“嘻哈歌曲”时的当前意图，是否为“想要播放周杰伦演唱或发行的嘻哈歌曲”，还是只是想要播放“嘻哈歌曲”。如果经过判断，用户的当前意图确定为“想要播放周杰伦演唱或发行的嘻哈歌曲”，那么此时用户输入的查询数据的当前意图为多轮意图，并继续进行步骤S104。如果经过判断，用户输入的查询数据的当前意图被判断为非多轮意图，例如，只是想听“嘻哈音乐”而并不指定是“听周杰伦的嘻哈音乐”，直接输出用户输入的查询数据的查询结果。

同时，在一些用户输入的查询数据并不明确和具体的弱语境下，也可以通过分析结算用户的当前意图是否为多轮意图。例如，用户第一次输入时的目标是：想要播放曲婉婷；第二次输入时的目标是：想要播放曲婉婷的英文歌曲。但是，由于用户输入的语句模糊，第一次输入“我想听曲婉婷的歌曲”；而第二次输入“听英文歌的”；这时的“听英文歌的”是一个不明确的语义，形成了一个弱语境。此时，根据上述步骤S101-S103的分析和计算可以用户的当前意图确定为“我想听曲婉婷的英文歌曲”，那么此时用户输入的查询数据的当前意图为多轮意图，并继续进行步骤S104-S105。

更具体地，基于结构化分析模型和深度学习模型分析计算当前意图的概率；当经结构化分析模型或深度学习模型之一所计算得出的当前意图的概率高于其所设定的阈值时，判断当前意图为多轮意图。

S104，基于多轮意图，结合多次用户输入的查询数据，生成多轮候选状态，所述多轮候选状态用于表示用户输入的查询数据相互组合后所形成的状态。

在一种实施例中，具体地，随着人机交互对话的轮数的增长，经过步骤S101-S103的判断会形成多个多轮意图，这些多轮意图可以组合生成多个不同的多轮候选状态。

S105，对多轮候选状态进行排序，得到最优的多轮状态并输出。

在一种实施例中，具体地，基于生成式模型和判别式模型，计算各个多轮候选状态的发生概率。

P(candidate_n)＝η·P(slots_n|o_t+1，h_t+1，a_t)

P(candidate_n)＝η·Π_i＝0P(slot_i|o_t+1，h_t+1，a_t)＝θ·Π_i＝0P(slot_i|o_t+1)·P(slot_i|h_t+1)·P(slot_i|a_t)。

其中，η，θ为正规化常量。slot为槽位，即某意图下的关键检索片段，例如song＝周杰伦。a为执行操作，o为对用户输入的观察值。h为历史状态记录，例如，用户输入了一段语音，系统观察到用户输入为“播放周杰伦的歌曲”。并且，其中

P(slot_i|h_t+1)＝function(session num，session time)

P(slot_i|a_t)＝rule(bot state)

P(slot_i|o_t+1)表示上轮槽位组合在某个当前用户输入查询下的概率计算，其中P(slot_i|slots_t+1)表示上轮槽位组合与当前槽位组合的共现概率，P(slot_i|terms_t+1)表示上轮槽位组合与当前非槽位的term的共现概率，rule(syntactical feature)函数表示句法特征的规则；

P(slot_i|h_t+1)表示上轮槽位组合在当前系统历史记录下的概率值，其中，function函数表示一个槽位概率随时间和轮数的衰减函数；

P(slot_i|a_t)＝rule(bot state)表示上轮槽位组合在上轮系统动作下的概率值，其中，rule(bot state)函数表示结合了系统动作状态的基于规则的计算函数。

上述方法100，在抽取用户输入的查询数据之后，判断用户输入的查询数据是否具有多轮特征，分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图。并基于多轮意图，结合多次用户输入的查询数据，生成多轮候选状态，对多轮候选状态进行排序，得到最优的多轮状态并输出。这样，机器可以在连续的多轮对话中，了解的用户的查询意图，可以在一个连续的多轮场景下，理解用户的意图并给予最优质的反馈，用户也可能在对话过程中不断修改或完善自己的需求。

参考图2所示，本申请第一方面，本发明实施例提供了一种多轮状态追踪的方法200。在抽取用户输入的查询数据之后，判断用户输入的查询数据是否具有多轮特征，分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图。并基于多轮意图，结合多次用户输入的查询数据，生成多轮候选状态，对多个多轮候选状态进行剪枝。对剪枝后保留的多轮候选状态进行排序，得到最优的多轮状态并输出。

轮场景追踪的方法200，具体包括以下步骤S101-S104，S104’，S105’。

S101，抽取用户输入多次的查询数据。

S102，判断用户输入的查询数据是否具有多轮特征，所述多轮特征用于表示用户输入的多次查询数据之间存在某种关联性。

S103，分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图，所述多轮意图用于表示用户输入的多次查询意图之间存在某种关联性。

S104’，对生成的多轮候选状态进行剪枝操作，从多个多轮候选状态中保留优质的多轮候选状态。

S105’，对经剪枝后保留的多轮候选状态进行排序，得到最优的多轮状态并输出。

上述方法200中步骤S101-S104与方法100中的步骤S101-S104相一致，并已在上文中对其进行说明，在这里不再赘述。

由于，随着人机交互对话轮数的增长，所生成的多轮候选状态也随之增长，并且所形成空间的大小可由以下公式描述：

由上述公式可见，多轮候选状态空间是以指数形式在扩大，这种快速的增长将会严重影响计算效率。因此，需要步骤S104’，对多个多轮候选状态进行剪枝操作，保留优质的多轮候选状态。

所述剪枝操作基于以下假设进行。

假设一、当前查询只与时间上最接近的一次查询相关。

具体地，在人机交互对话的轮数增加时，用户已经输入了多个查询，这些查询有着时间上的顺序。而假设一做出了规则，即，当前用户输入的查询数据所形成的多轮候选状态只与上一轮用户输入的查询数据所形成的多轮候选状态相关。例如，第一轮中用户输入查询数据“周杰伦”，第n轮中用户输入查询数据“中国风音乐”，第n+1轮中用户输入查询数据“青花瓷”；那么，在这几轮用户输入的查询数据所形成的多轮候选状态中，根据假设一，“青花瓷”形成的多轮候选状态，只与“中国风音乐”所形成的多轮候选状态相关。

假设二、多轮候选状态包括当前查询中新增的语义数据。

在一种实施例中，具体地，在人机交互对话的轮数增加时，经过上述的判断会形成多个多轮候选状态，这些状态中包含着不同的用户输入的查询数据。而假设二做出了某个规则，即，多轮候选状态要包括表示当前用户查询中新增的语义的数据。例如，第一轮中用户输入查询数据“周杰伦”，第n轮中用户输查询数据“周杰伦的中国风音乐”，第n+1轮中用户输入查询数据“周杰伦的青花瓷”；那么，在这几轮用户输入的查询数据所形成的多轮候选状态中，根据假设二，多轮候选状态必须包括新增的“青花瓷”这一语义数据。

假设三、多轮候选状态包括当前查询中出现的指代语义和该指代语义的对应数据。

在一种实施例中，具体地，用户在输入时，其当前查询时可能会出现并不完整的语义表达，形成弱语境的语言环境。这些不完整的语义会有一个指代语义，而对应这些指代语义，设置了与其相对应的对应数据。假设三做出了某个规则，即，多轮候选状态中，必须包括当前查询中的指代语义和该指代语义的对应数据。例如，第一轮中用户输入查询数据“周杰伦”，第n轮中用户输入查询数据“他的中国风音乐”，第n+1轮中用户输入查询数据“他的青花瓷”；其中，“他”为指代语义，而“他”所对应的对应数据为“周杰伦”。那么，在多轮候选状态中，根据假设三，必须包括“周杰伦的青花瓷”的对应数据。

上述方法200，在方法100的基础上，除了可以实现方法100的技术效果外，其可以对多轮候选状态进行剪枝，减少了需要排序的多轮候选状态。这样，机器可以更加快捷的做出反应和输出，优化了用户的使用体验。

参考图3所示，本申请第一方面，本发明实施例提供了一种多轮状态追踪的方法300。

多轮状态追踪的方法300，在方法100和方法200的基础上增加了步骤S101’。其中步骤S101’发生在步骤S101和步骤S102之间。

S101’，当用户输入的查询数据不够具体和明确时，先进行询问操作，得到准确的用户输入的查询数据，再判断用户输入的查询数据是否具有多轮特征。其中，所述询问操作至少包括以下形式化语义表述之一：提问、选择和确认。

在一种实施例中，具体地，例如，当用户输入的查询数据为“周杰伦最新专辑”，如果周杰伦同时发现了两者专辑A和专辑B，那么，当用户当前输入查询则不够具体和明确。此时，会先进行询问操作，系会弹出对话框，采用提问的这种形式化语义表达，“请问您是想找专辑A吗？”；如果用户回答的返回值是否定的，那么再接着询问“请问您是想找专辑B吗？”。

上述方法300，在方法100和方法200的基础上，除了可以实现方法100和方法200的技术效果外，当用户的陈述的需求不够具体或明确的时候，可以通过询问、选择或确认等来帮助用户找到满意的结果。

参考图4所示，本申请的第二方面的一个实施例，提供了图1、图2和图3所述方法对应的多轮状态追踪的系统400。系统400具体包括特征抽取单元、多轮意图识别单元、候选生成单元和状态排序单元。

特征抽取单元，配置用于抽取用户输入多次的查询数据，并判断用户输入的查询数据是否具有多轮特征，所述多轮特征用于表示用户输入的多次查询数据之间存在某种关联性。

在一种实施例中，具体地，所述特征抽取单元通过资源、需求和先验分布做平滑，计算出各数据基于bi-gram的语言模型，并根据所述语言模型判断用户输入的查询数据是否具有多轮特征。

多轮意图识别单元，配置用于分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图，所述多轮意图用于表示用户输入的多次查询意图之间存在某种关联性。

在一种实施例中，具体地，所述多轮意图识别单元基于结构化分析模型和深度学习模型分析计算当前意图的概率；当经结构化分析模型或深度学习模型之一所计算得出的当前意图的概率高于其所设定的阈值时，判断当前意图为多轮意图；

其中，所述深度学习模型为LSTM模型，使用LSTM模型进行分类式训练，得到当前意图的概率分布；所述结构化分析模型通过上轮对话的意图内，结构化分析的正向term权重占比，来得到当前意图的概率，当前意图的概率计算公式为：

候选生成单元，配置用于基于多轮意图，结合多次用户输入的查询数据，生成多轮候选状态，所述多轮候选状态用于表示用户输入的查询数据相互组合后所形成的状态。

进一步地，候选生成单元还配置用于对生成的多轮候选状态进行剪枝操作，从多个多轮候选状态中保留优质的多轮候选状态；

在一种实施例中，具体地，所述剪枝操作基于以下假设进行：当前查询只与时间上最接近的一次查询相关；多轮候选状态包括当前查询中新增的语义的数据；多轮候选状态包括当前查询中出现的指代语义和该指代语义所对应的数据。其中，上述假设的具体内容已在上述方法200中进行说明，在这不再赘述。

状态排序单元，配置用于对多轮候选状态进行排序，得到最优的多轮状态并输出。当候选生成单元还配置用于对生成的多轮候选状态进行剪枝操作时，状态排序单元进一步配置用于对经剪枝后保留的多轮候选状态进行排序，得到最优的多轮状态并输出。

在一种实施例中，具体地，所述状态排序单元基于生成式模型和判别式模型，计算各个多轮候选状态的发生概率，并根据发生概率进行排序；

其中，所述判别式模型为GBDT模型，使用GBDT模型进行判别式训练，得到多轮候选状态的发生概率；

P(candidate_n)＝η·P(slots_n|o_t+1，h_t+1，a_t)

其中，η，θ为正规化常量，slot为槽位，即某意图下的关键检索片段，例如song＝周杰伦。a为执行操作，o为对用户输入的观察值。h为历史状态记录，例如，用户输入了一段语音，系统观察到用户输入为“播放周杰伦的歌曲”。并且，其中

P(slot_i|h_t+1)＝function(session num，session time)

P(slot_i|a_t)＝rule(bot state)，具体函数表达已在上述说明，在这不再赘述。

优选地，所述特征抽取模块还配置用于，当用户输入的查询数据不够具体和明确时，先进行询问操作，得到准确的用户输入的查询数据，再判断用户输入的查询数据是否具有多轮特征。其中，询问的操作已在方法300中进行说明，在这不再赘述。

上述系统400，可以在连续的多轮对话中，了解的查询意图，可以在一个连续的多轮场景下，理解用户的意图，用户也可能在对话过程中不断修改或完善自己的需求。同时，当用户的陈述的需求不够具体或明确的时候，可以通过询问、选择或确认等来帮助用户找到满意的结果。

本申请的第三方面提供了一种多轮状态追踪的终端设备，如图5所示，包括一个或多个处理器；存储装置，用于存储一个或多个程序。当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述方法100或方法200或方法300中任一所述的方法。

其中，存储器和处理器数量可以为一个或多个。

该设备还包括：

通信接口，配置为使处理器和存储器与外部设备进行通信。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器、处理器和通信接口独立实现，则存储器、处理器和通信接口可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，IndustryStandard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果处理器、存储器及通信接口集成在一块芯片上，则处理器、存储器及通信接口可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多轮状态追踪的方法，其特征在于，包括：

抽取用户输入多次的查询数据；

判断用户输入的查询数据是否具有多轮特征，所述多轮特征用于表示用户输入的多次查询数据之间存在某种关联性；

分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图，所述多轮意图用于表示用户输入的多次查询意图之间存在某种关联性；

基于多轮意图，结合多次用户输入的查询数据，生成多轮候选状态，所述多轮候选状态用于表示用户输入的查询数据相互组合后所形成的状态；

对多轮候选状态进行排序，得到最优的多轮状态并输出；

其中判断用户输入的查询数据是否具有多轮特征，具体包括：

通过资源、需求和先验分布做平滑，计算出各数据基于bi-gram的语言模型，并根据所述语言模型判断用户输入的查询数据是否具有多轮特征。

2.根据权利要求1所述的方法，其特征在于，其中，分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图，具体包括：

基于结构化分析模型和深度学习模型分析计算当前意图的概率；当经结构化分析模型或深度学习模型之一所计算得出的当前意图的概率高于其所设定的阈值时，判断当前意图为多轮意图。

3.根据权利要求2所述的方法，其特征在于，所述深度学习模型为LSTM模型，使用LSTM模型进行分类式训练，得到当前意图的概率分布；所述结构化分析模型通过上轮对话的意图内，结构化分析的正向term权重占比，来得到当前意图的概率，当前意图的概率计算公式为：

4.根据权利要求1所述的方法，其特征在于，

对生成的多轮候选状态进行剪枝操作，从多个多轮候选状态中保留优质的多轮候选状态；

对经剪枝后保留的多轮候选状态进行排序，得到最优的多轮状态并输出。

5.根据权利要求4所述的方法，其特征在于，所述剪枝操作基于以下假设进行：

当前查询只与时间上最接近的一次查询相关；

多轮候选状态包括当前查询中新增的语义数据；

多轮候选状态包括当前查询中出现的指代语义和该指代语义的对应数据。

6.根据权利要求1所述的方法，其特征在于，对多轮候选状态进行排序，具体包括，基于生成式模型和判别式模型，计算各个多轮候选状态的发生概率，并根据发生概率进行排序。

7.根据权利要求6所述的方法，其特征在于，所述判别式模型为GBDT模型，使用GBDT模型进行判别式训练，得到多轮候选状态的发生概率；

P(candidate_n)＝η·P(slots_n|o_t+1，h_t+1，a_t)

P(candidate_n)＝η·Π_i＝0P(slot_i|o_t+1，h_t+1，a_t)

＝θ·Π_i＝0P(slot_i|o_t+1)·P(slot_i|h_t+1)·P(slot_i|a_t)

P(slot_i|h_t+1)＝function(session num，session time)

P(slot_i|a_t)＝rule(bot state)

8.根据权利要求1-7任一项权利要求所述的方法，其特征在于，当用户输入的查询数据不够具体和明确时，先进行询问操作，得到准确的用户输入的查询数据，再判断用户输入的查询数据是否具有多轮特征。

9.根据权利要求8所述的方法，其特征在于，所述询问操作至少包括以下形式化语义表述之一：提问、选择和确认。

10.一种多轮状态追踪的系统，其特征在于，包括：

特征抽取单元，配置用于抽取用户输入多次的查询数据，并判断用户输入的查询数据是否具有多轮特征，所述多轮特征用于表示用户输入的多次查询数据之间存在某种关联性，所述特征抽取单元通过资源、需求和先验分布做平滑，计算出各数据基于bi-gram的语言模型，并根据所述语言模型判断用户输入的查询数据是否具有多轮特征；

多轮意图识别单元，配置用于分析计算用户输入查询数据时的当前意图，并判断所述当前意图是否为多轮意图，所述多轮意图用于表示用户输入的多次查询意图之间存在某种关联性；

候选生成单元，配置用于基于多轮意图，结合多次用户输入的查询数据，生成多轮候选状态，所述多轮候选状态用于表示用户输入的查询数据相互组合后所形成的状态；

状态排序单元，配置用于对多轮候选状态进行排序，得到最优的多轮状态并输出。

11.根据权利要求10所述的系统，其特征在于，所述多轮意图识别单元基于结构化分析模型和深度学习模型分析计算当前意图的概率；当经结构化分析模型或深度学习模型之一所计算得出的当前意图的概率高于其所设定的阈值时，判断当前意图为多轮意图；

12.根据权利要求10所述的系统，其特征在于，

候选生成单元，进一步配置用于对生成的多轮候选状态进行剪枝操作，从多个多轮候选状态中保留优质的多轮候选状态；

状态排序单元，进一步配置用于对经剪枝后保留的多轮候选状态进行排序，得到最优的多轮状态并输出。

13.根据权利要求12所述的系统，其特征在于，其中，所述剪枝操作基于以下假设进行：

当前查询只与时间上最接近的一次查询相关；

多轮候选状态包括当前查询中新增的语义数据；

14.根据权利要求10所述的系统，其特征在于，所述状态排序单元基于生成式模型和判别式模型，计算各个多轮候选状态的发生概率，并根据发生概率进行排序；

P(candidate_n)＝η·P(slots_n|o_t+1，h_t+1a_t)

P(candidate_n)＝η·Π_i＝0P(slot_i|o_t+1，h_t+1，a_t)

＝θ·Π_i＝0P(slot_i|o_t+1)·P(slot_i|h_t+1)·P(slot_i|a_t)

P(slot_i|h_t+1)＝function(session num，session time)

P(slot_i|a_t)＝rule(bot state)

15.根据权利要求10-14任一项权利要求所述的系统，其特征在于，所述特征抽取单元还配置用于，当用户输入的查询数据不够具体和明确时，先进行询问操作，得到准确的用户输入的查询数据，再判断用户输入的查询数据是否具有多轮特征。

16.一种多轮状态追踪的终端设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

通信接口，配置为在存储器和处理器之间进行通信；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。