CN108710704B

CN108710704B - 对话状态的确定方法、装置、电子设备及存储介质

Info

Publication number: CN108710704B
Application number: CN201810522824.3A
Authority: CN
Inventors: 李志飞; 徐朴旸
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2021-04-02
Anticipated expiration: 2038-05-28
Also published as: CN108710704A

Abstract

本发明实施例公开了一种对话状态的确定方法、装置、电子设备及存储介质。该方法包括：将待对话状态识别的对话文本进行序列标注，生成输入序列，其中，所述输入序列中包括所述对话文本的标注槽值；如果通过分类神经网络确定数据库中的存储槽值与所述对话文本的标注槽值不匹配，则通过预先训练的指针神经网络对所述输入序列进行编码，生成结果特征向量；通过所述指针神经网络对所述结果特征向量进行解码，输出用于指示对话状态的目标槽值。上述对话状态的确定方法不需要独立的SLU模块提供中间语义表述，也不需要列举所有可能的槽值备用值，同时该方法在槽值无法事先枚举的情况下追踪目标槽值的能力比较强。

Description

对话状态的确定方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及人机交互技术领域，尤其涉及一种对话状态的确定方法、装置、电子设备及存储介质。

背景技术

基于用户会话界面的新一代人机交互技术正在改变着我们的生活，例如，Alexa、Siri和大量的掌上电脑均为此类发展的代表。作为这类设备代理的核心，SDS(SpokenDialogue System，口语对话系统)发挥着重要的作用。

通常，一个SDS都是有ASR(Automatic Speech Recognition，自动语音识别)、SLU(Spoken Language Understanding，口语语言理解)、DM(Dialogue Management，对话管理)、NLG(Natural Language Generation，自然语音生成)和TTS(Text To Speech，语音合成)等五部分构成。其中，ASR的任务是将用户语音中的连续时间信号转变为一串离散的音节单元或单词；SLU的任务是对ASR的结果进行解析，利用语义和语法分析将用户的意图转化为DM模块能够利用的计算机标识形式；对于比较普遍的任务型，表单式对话来说，DM的任务是根据语言理解的结果及对话的上下文语境、对话历史信息等进行综合分析以确定用户的当前意图，必须判断是否已经从用户那里获取了足够的信息以启动后台数据库查询，并决定系统将要采取的应对动作或策略。DM是SDS的核心模块，其设计的优劣直接关系到对话的效果和用户的满意度，而DST(Dialogue State Tracking，对话状态追踪)技术是DM中最关键的步骤，DST的目的就在于从可能包含错误的识别和理解结果中对用户的实际状态进行估计。

目前，关于DST的研究进展主要在两方面，一方面，最先进的统计DST模型一般都采用识别方法计算对话状态的分布，基于不同形式深度学习的追踪技术进一步提高了DST技术的最高级别基准；另一方面，去除SLU步骤，从ASR输出中直接生成状态分布输入至DM模块，简化了SDS的同时，也削弱了级联系统中常见的误差传播问题。

但是，最先进的识别式DST模型一般需要列举所有可能的代表用户实际意图的槽值对，要么以二进制方式分别对它们进行评分，要么直接预测多级分布。然而，枚举各槽值对可能不适用于许多实际的语言应用程序。提取槽值的序列标注方法不存在这样的缺点，只要目标值在文本中出现，序列模型就能确定相应的槽值，不需要列举所有可能的槽值对，然而，这种序列标注的方法到目前为止仅被使用在SLU模块，尚未被运用在DST领域，对去除了SLU模块的SDS系统无益。

发明内容

本发明实施例提供一种对话状态的确定方法、装置、电子设备及存储介质，以完成DM模块中的对话状态追踪任务，对用户的实际意图进行确定。

第一方面，本发明实施例提供了一种对话状态的确定方法，包括：

将待对话状态识别的对话文本进行序列标注，生成输入序列，其中，所述输入序列中包括所述对话文本的标注槽值；

如果通过分类神经网络确定数据库中的存储槽值与所述对话文本的标注槽值不匹配，则通过预先训练的指针神经网络对所述输入序列进行编码，生成结果特征向量；

通过所述指针神经网络对所述结果特征向量进行解码，输出用于指示对话状态的目标槽值。

第二方面，本发明实施例还提供了一种对话状态的确定装置，包括：

输入序列生成模块，用于将待对话状态识别的对话文本进行序列标注，生成输入序列，其中，所述输入序列中包括所述对话文本的标注槽值；

编码模块，用于如果通过分类神经网络确定数据库中的存储槽值与所述对话文本的标注槽值不匹配，则通过预先训练的指针神经网络对所述输入序列进行编码，生成结果特征向量；

解码模块，用于通过所述指针神经网络对所述结果特征向量进行解码，输出用于指示对话状态的目标槽值。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任意实施例所提供的对话状态的确定方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的对话状态的确定方法。

本发明实施例提供的对话状态的确定方法、装置、电子设备及存储介质，利用经过分类神经网络和预先训练的指针神经网络直接对ASR模块输出的对话文本进行对话状态追踪，进而确定用户对话的实际意图，具体通过将待对话状态识别的对话文本进行序列标注，生成包括所述对话文本的标注槽值的输入序列；如果通过分类神经网络确定数据库中的存储槽值与所述对话文本的标注槽值不匹配，则通过预先训练的指针神经网络对所述输入序列进行编码，生成结果特征向量；再通过所述指针神经网络对所述结果特征向量进行解码，输出用于指示对话状态的目标槽值的技术手段，来达到确定对话状态的目的。上述对话状态的确定方法不需要独立的SLU模块提供中间语义表述，也不需要列举所有可能的槽值备用值，同时，该方法在槽值无法事先枚举的情况下追踪目标槽值的能力比较强。

附图说明

图1是本发明实施例一中的一种对话状态的确定方法的流程图；

图2是本发明实施例一中的指针神经网络的网络架构图；

图3是本发明实施例二中的一种对话状态的确定装置的结构示意图；

图4是本发明实施例四中的一种电子设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

本实施例提供了一种对话状态的确定方法，可适用于口语对话系统中对话管理模块进行对话状态追踪的情况，该方法可以由本发明实施例提供的对话状态的确定装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在处理器中。如图1所示，该对话状态的确定方法具体包括如下操作：

S110、将待对话状态识别的对话文本进行序列标注，生成输入序列，其中，所述输入序列中包括所述对话文本的标注槽值。

待对话状态识别的对话文本为用户的语音经过ASR模块识别后生成的对话文本，将所述对话文本进行序列标注后，确定标注槽值，进而根据确定的标注槽值生成输入序列，即输入序列是由待对话状态识别的对话文本的标注槽值组成的。其中，上述对话文本不需要通过SLU模块的解析。

序列标注可以分为两类：单序列标注和多序列标注。其中，单序列标注问题指的是预测一个输出标签序列的序列标注问题，多序列标注问题指的是预测多个输出标签序列的序列标注问题。

S120、如果通过分类神经网络确定数据库中的存储槽值与所述对话文本的标注槽值不匹配，则通过预先训练的指针神经网络对所述输入序列进行编码，生成结果特征向量。

将对话文本的标注槽值与通过分类神经网络确定数据库中的存储槽值进行比较：

如果能够匹配一致，则可以通过分类神经网络输出对话文本的目标槽值。

具体的，如果所述对话文本的标注槽值与所述数据库中的存储槽值的表现形式不一致，则通过所述分类神经网络输出对所述标注槽值标准化后的目标槽值。

待对话状态识别的对话文本的标注槽值有可能与通过分类神经网络确定的数据库中的存储槽值不严格一致，例如表现形式不一致等，但是实际含义相同时标注槽值即可与存储槽值匹配成功，进而分类神经网络会对标注槽值进行标准统一化处理，即通过分类神经网络输出对话文本的目标槽值是标准槽值，以便于后续的操作处理。例如，标注槽值为“温度”，数据库中如果未存储有这个槽值，而通过分类神经网络确定的数据库中的存储槽值包括“天气”，那么对话文本的标注槽值“温度”通过分类神经网络输出的目标槽值则为存储槽值“天气”。

如果不能匹配一致，则需通过预先训练的指针神经网络对与对话文本对应的输入序列进行处理，以最终输出对话文本的目标槽值。其中，对话文本的目标槽值是用来指示对话文本的对话状态的，进而指示用户的对话内容的意图。

本实施例提出的指针神经网络，就像它的名字一样，该指针神经网络经过预先训练修正后，其输出将指向对话文本的目标槽值，网络架构如图2所示。该指针神经网络为seq2seq架构，即将一个作为输入的序列映射为一个作为输出的序列，这一过程由编码输入与解码输出两个环节组成。其中，该指针神经网络的输入序列即为待对话状态识别的对话文本经序列标注后生成的包含标注槽值的输入序列。

所述输入序列经由指针神经网络构建的编码器后，被编译成为结果特征向量，其中，结果特征向量通常为指针神经网络中的最后一个隐节点或者是多个隐节点的加权总和。

具体的，所述指针神经网络在预先训练过程中支持多标签学习算法。该指针神经网络对于多序列标注问题，采用多标签联合学习方法来处理，对多序列标注问题包含的多个单序列标注问题同时进行处理，促进问题间的信息交互。上述处理方法，解决了级联学习方法易存在的错误传递和信息无法共享的问题。

作为本实施例一种可选的实施方式，将所述通过预先训练的指针神经网络中的编码器对所述输入序列进行编码，具体为：通过使用设定神经网络模型的变体，依据由至少一条历史交互信息确定的编码参数，对所述输入序列进行编码；其中，所述设定神经网络模型包括：卷积神经网络模型，或者循环神经网络模型；所述历史交互信息包括：历史对话文本，以及与历史对话文本匹配的机器响应信息。

即，上述指针神经网络中的编码器可以为卷积神经网络或循环神经网络中编码器的变体，在对输入序列的编码过程中需参考历史对话文本，以及与历史对话文本对应的机器响应信息。

S130、通过所述指针神经网络对所述结果特征向量进行解码，输出用于指示对话状态的目标槽值。

编码完成之后，结果特征向量将会进入指针神经网络的解码器进行解译。其中，解译的过程可以是通过启发式搜索算法，在序列输出前检索大量的词汇，得到最优的选择，这个最优的选择即为用于指示对话状态的目标槽值。

作为本实施例另一种可选的实施方式，将所述通过所述指针神经网络对所述结果特征向量进行解码，得到用于指示对话状态的目标槽值，具体为：通过所述指针神经网络对所述结果特征向量进行解码，并生成所述结果特征向量在各输入位置上的关注指数；将所述关注指数最高的结果特征向量的解码结果作为用于指示对话状态的目标槽值。

即，结果特征向量在指针神经网络中解码器的各输入位置上的关注指数得分并不相同，选取关注指数得分最高的结果特征向量的解码结果，即为最优的选择，即可作为用于指示对话状态的目标槽值。

本实施例提供的一种对话状态的确定方法，在不能利用分类神经网络直接确定待对话状态识别的对话文本的目标槽值时，利用指针神经网络对该待对话状态识别的对话文本的目标槽值进行确定，具体通过使用设定神经网络模型的变体，依据由至少一条历史交互信息确定的编码参数，对待对话状态识别的对话文本进行序列标注后生成的输入序列进行编码，生成结果特征向量，然后通过指针神经网络对该结果特征向量进行解码，生成该结果特征向量在各输入位置上的关注指数，进而将关注指数最高的结果特征向量的解码结果作为用于指示对话状态的目标槽值。利用上述方法，不管通过分类神经网络确定的数据库中是否存在目标槽值，都可以对待对话状态识别的对话文本进行对话状态追踪，进而确定用户对话文本的真实意图，因此，上述方法在槽值无法事先枚举的情况下追踪目标槽值的能力比较强。除此之外，上述对话状态的确定方法不需要独立的SLU模块提供中间语义表述，也不需要列举所有可能的槽值备用值。

实施例二

本实施例提供了一种对话状态的确定装置，可适用于口语对话系统中对话管理模块进行对话状态追踪的情况，该装置可采用软件和/或硬件的方式实现，并一般可集成在处理器中。如图3所示，该装置具体包括：输入序列生成模块310、编码模块320和第一槽值输出模块330。其中，

输入序列生成模块310，用于将待对话状态识别的对话文本进行序列标注，生成输入序列，其中，所述输入序列中包括所述对话文本的标注槽值；

编码模块320，用于如果通过分类神经网络确定数据库中的存储槽值与所述对话文本的标注槽值不匹配，则通过预先训练的指针神经网络对所述输入序列进行编码，生成结果特征向量；

第一槽值输出模块330，用于通过所述指针神经网络对所述结果特征向量进行解码，输出用于指示对话状态的目标槽值。

本实施例提供的一种对话状态的确定装置，利用经过分类神经网络和预先训练的指针神经网络直接对ASR模块输出的对话文本进行对话状态追踪，进而确定用户对话的实际意图，具体通过将待对话状态识别的对话文本进行序列标注，生成包括所述对话文本的标注槽值的输入序列；如果通过分类神经网络确定数据库中的存储槽值与所述对话文本的标注槽值不匹配，则通过预先训练的指针神经网络对所述输入序列进行编码，生成结果特征向量；再通过所述指针神经网络对所述结果特征向量进行解码，输出用于指示对话状态的目标槽值的技术手段，来达到确定对话状态的目的。上述对话状态的确定方法不需要独立的SLU模块提供中间语义表述，也不需要列举所有可能的槽值备用值，同时，该方法在槽值无法事先枚举的情况下追踪目标槽值的能力比较强。

具体的，上述对话状态的确定装置，还包括：第二槽值输出模块，用于如果通过所述分类神经网络确定所述数据库中的存储槽值与所述对话文本的标注槽值匹配，则通过所述分类神经网络输出所述目标槽值。

进一步的，所述第二槽值输出模块，具体用于如果所述对话文本的标注槽值与所述数据库中的存储槽值的表现形式不一致，则通过所述分类神经网络输出对所述标注槽值标准化后的目标槽值。

进一步的，编码模块320具体用于通过使用设定神经网络模型的变体，依据由至少一条历史交互信息确定的编码参数，对所述输入序列进行编码；其中，所述设定神经网络模型包括：卷积神经网络模型，或者循环神经网络模型；

所述历史交互信息包括：历史对话文本，以及与历史对话文本匹配的机器响应信息。

进一步的，第一槽值输出模块330，具体包括：关注指数生成单元和目标槽值输出单元，其中，

关注指数生成单元，用于通过所述指针神经网络对所述结果特征向量进行解码，并生成所述结果特征向量在各输入位置上的关注指数；

目标槽值输出单元，用于将所述关注指数最高的结果特征向量的解码结果作为用于指示对话状态的目标槽值。

具体的，所述指针神经网络在预先训练过程中支持多标签学习算法。

具体的，所述指针神经网络为seq2seq架构。

上述对话状态的确定装置可执行本发明任意实施例所提供的对话状态的确定方法，具备执行对话状态的确定方法相应的功能模块和有益效果。

实施例三

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种对话状态的确定方法，该方法包括：

可选的，该计算机可执行指令在由计算机处理器执行时还可以用于执行本发明任意实施例所提供的一种对话状态的确定方法的技术方案。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例四

如图4所示，为本发明实施例四提供的一种电子设备的硬件结构示意图，如图4所示，该电子设备包括：

一个或多个处理器410，图4中以一个处理器410为例；

存储器420；

所述电子设备还可以包括：输入装置430和输出装置440。

所述电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器420作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种对话状态的确定方法对应的程序指令/模块(例如，附图3所示的：输入序列生成模块310、编码模块320和第一槽值输出模块330)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的一种对话状态的确定方法。

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种对话状态的确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

如果通过所述分类神经网络确定所述数据库中的存储槽值与所述对话文本的标注槽值匹配，则通过所述分类神经网络输出所述目标槽值。

3.根据权利要求2所述的方法，其特征在于，通过所述分类神经网络输出所述目标槽值，包括：

如果所述对话文本的标注槽值与通过所述分类神经网络确定的所述数据库中的存储槽值的表现形式不一致但实际含义相同，则通过所述分类神经网络输出对所述标注槽值标准化后的目标槽值。

4.根据权利要求1-3任一所述的方法，其特征在于，通过预先训练的指针神经网络中的编码器对所述输入序列进行编码，包括：

通过使用设定神经网络模型的变体，依据由至少一条历史交互信息确定的编码参数，对所述输入序列进行编码；

所述设定神经网络模型包括：卷积神经网络模型，或者循环神经网络模型；

5.根据权利要求1-3任一所述的方法，其特征在于，所述通过所述指针神经网络对所述结果特征向量进行解码，得到用于指示对话状态的目标槽值，包括：

通过所述指针神经网络对所述结果特征向量进行解码，并生成所述结果特征向量在各输入位置上的关注指数；

将所述关注指数最高的结果特征向量的解码结果作为用于指示对话状态的目标槽值。

6.根据权利要求1所述的方法，其特征在于，

所述指针神经网络在预先训练过程中支持多标签学习算法。

7.根据权利要求1所述的方法，其特征在于，所述指针神经网络为seq2seq架构。

8.一种对话状态的确定装置，其特征在于，包括：

第一槽值输出模块，用于通过所述指针神经网络对所述结果特征向量进行解码，输出用于指示对话状态的目标槽值。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。