CN109902155A

CN109902155A - 多模态对话状态处理方法、装置、介质及计算设备

Info

Publication number: CN109902155A
Application number: CN201811645010.5A
Authority: CN
Inventors: 黄民烈; 朱小燕
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-06-18
Anticipated expiration: 2038-12-29
Also published as: CN109902155B

Abstract

本发明的实施方式提供了一种用于人机对话的多模态对话状态处理方法、装置、介质及计算设备。该方法包括：根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，获得当前轮次的用户视觉特征和系统视觉特征；获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。本发明的上述用于人机对话的多模态对话状态处理方法、装置、介质及计算设备，能够准确地理解多模态信息输入，并自适应地整合这些模态以进行对话状态的追踪。

Description

多模态对话状态处理方法、装置、介质及计算设备

技术领域

本发明的实施方式涉及电子信息领域，更具体地，本发明的实施方式涉及一种用于人机对话的多模态对话状态处理方法、装置、介质及计算设备。

背景技术

随着计算机以及互联网技术的发展，多模态对话系统越来越受到人们的重视，以更加自然和信息化的方式进行人机交互。其中，多模态对话系统中的多模态包括文本和视觉信息(如图像)两种模态。

作为其核心组成部分之一，对话状态跟踪器在对话的每一步都与用户的目标相匹配，并提供了一种直接的方式来验证对话理解的能力。

然而，现有的对话跟踪器技术主要局限于文本模态，这是不容易扩展到捕捉多模态系统中丰富的视觉信息的。

发明内容

在本上下文中，本发明的实施方式期望提供一种用于人机对话的多模态对话状态处理方法、装置、介质及计算设备，以至少解决现有的对话跟踪技术无法获得多模态系统中视觉信息、进而导致跟踪效果较差的问题。

在本发明实施方式的第一方面中，提供了一种用于人机对话的多模态对话状态处理方法，所述人机对话包括用户与系统之间的多轮对话，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理方法包括：根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的系统视觉特征，以及获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于所述结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。

进一步地，所述获得当前轮次的用户文本特征的步骤包括：获得当前轮次的用户输入文本内容的第一词向量，利用文本编码器对所述第一词向量进行编码，以获得对应的语义表示作为当前轮次的用户文本特征。

进一步地，所述文本编码器采用RNN、CNN或MLP神经网络编码器模型。

进一步地，所述确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数的步骤包括：获得当前轮次的用户输入图像内容对应的多个第一子区域；针对所述多个第一子区域中的每一个，确定该第一子区域中含有与该种预设属性值对应的内容的第一可能性分数；以及基于所述多个第一子区域各自对应的第一可能性分数，获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数。

进一步地，在所述获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，将所述多个第一子区域对应的第一可能性分数中的最大值作为第一下限值，令所述当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数大于所述第一下限值、且小于1。

进一步地，在所述多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，所述当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数越高。

进一步地，所述第一可能性分数基于利用LeNet、AlexNet、VGG或ResNet图像特征抽取算法得到的图像特征向量获得。

进一步地，所述确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数的步骤包括：在当前轮次的用户输入图像内容包括与该属性类目相关的至少一个第一属性值标签的情况下，根据该至少一个第一属性值标签与该种预设属性值之间的匹配程度来确定当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数。

进一步地，所述确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数的步骤包括：获得当前轮次的系统输出图像内容对应的多个第二子区域；针对所述多个第二子区域中的每一个，确定该第二子区域中含有与该种预设属性值对应的内容的第二可能性分数；以及基于所述多个第二子区域各自对应的第二可能性分数，获得当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数。

进一步地，在所述获得当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，将所述多个第二子区域对应的第二可能性分数中的最大值作为第二下限值，令所述当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数大于所述第二下限值、且小于1。

进一步地，在所述多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，所述当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数越高。

进一步地，所述第二可能性分数基于利用LeNet、AlexNet、VGG或ResNet图像特征抽取算法得到的图像特征向量获得。

进一步地，所述确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数的步骤包括：在当前轮次的系统输出图像内容包括与该属性类目相关的至少一个第二属性值标签的情况下，根据该至少一个第二属性值标签与该种预设属性值之间的匹配程度来确定当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数。

进一步地，所述获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征的步骤包括：通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第一空间，获得第一投影矩阵；以及通过对所述第一投影矩阵的各分向量进行加权计算，获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征。

进一步地，多模态对话状态处理方法还包括：获得当前轮次的系统文本特征；基于当前轮次的用户文本特征和系统文本特征，获得当前轮次对应的上下文特征；通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第二空间，获得第二投影矩阵；基于当前轮次的所述上下文特征和所述第二投影矩阵获得权重向量，其中，所述权重向量包括与所述第一投影矩阵的各分向量对应的多个权重。

进一步地，所述基于当前轮次的所述上下文特征和所述第二投影矩阵获得权重向量的步骤包括：将当前轮次的所述上下文特征和所述第二投影矩阵输入设有第一softmax层的预定神经网络，以将所述第一softmax层的输出结果作为所述权重向量。

进一步地，所述获得当前轮次的系统文本特征的步骤包括：获得当前轮次的系统输出文本内容的第二词向量，利用文本编码器对所述第二词向量进行编码，将获得的对应语义表示作为当前轮次的系统文本特征。

进一步地，所述获得当前轮次对应的上下文特征的步骤包括：利用对上一轮次的上下文特征编码后的对话编码器，对当前轮次的用户文本特征和系统文本特征拼接后的串接特征进行编码，以将所述对话编码器的输出作为当前轮次对应的上下文特征。

进一步地，所述对话编码器采用RNN、CNN或MLP神经网络编码器模型。

进一步地，所述获得该属性类目在其对应的多种预设属性值上的概率分布的步骤包括：将所述结合特征输入预设的多层感知器，来获得该属性类目在其对应的多种预设属性值上的概率分布。

进一步地，所述多层感知器后设有第二softmax层。

根据本发明的另一方面，还提供了一种用于人机对话的多模态对话状态处理装置，所述人机对话包括用户与系统之间的多轮对话，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理装置包括：文本特征获得单元，适于根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；处理单元，适于针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的系统视觉特征，以及获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于所述结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。

进一步地，所述文本特征获得单元适于：获得当前轮次的用户输入文本内容的第一词向量，利用文本编码器对所述第一词向量进行编码，以获得对应的语义表示作为当前轮次的用户文本特征。

进一步地，所述处理单元适于：获得当前轮次的用户输入图像内容对应的多个第一子区域；针对所述多个第一子区域中的每一个，确定该第一子区域中含有与该种预设属性值对应的内容的第一可能性分数；以及基于所述多个第一子区域各自对应的第一可能性分数，获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数。

进一步地，所述处理单元适于：在所述获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，将所述多个第一子区域对应的第一可能性分数中的最大值作为第一下限值，令所述当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数大于所述第一下限值、且小于1。

进一步地，所述处理单元适于：在所述多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，令所述当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数越高。

进一步地，所述处理单元基于利用LeNet、AlexNet、VGG或ResNet图像特征抽取算法得到的图像特征向量来获得所述第一可能性分数。

进一步地，所述处理单元适于：在当前轮次的用户输入图像内容包括与该属性类目相关的至少一个第一属性值标签的情况下，根据该至少一个第一属性值标签与该种预设属性值之间的匹配程度来确定当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数。

进一步地，所述处理单元适于：获得当前轮次的系统输出图像内容对应的多个第二子区域；针对所述多个第二子区域中的每一个，确定该第二子区域中含有与该种预设属性值对应的内容的第二可能性分数；以及基于所述多个第二子区域各自对应的第二可能性分数，获得当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数。

进一步地，所述处理单元适于：在所述获得当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，将所述多个第二子区域对应的第二可能性分数中的最大值作为第二下限值，令所述当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数大于所述第二下限值、且小于1。

进一步地，所述处理单元适于：在所述多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，令所述当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数越高。

进一步地，所述处理单元基于利用LeNet、AlexNet、VGG或ResNet图像特征抽取算法得到的图像特征向量来获得第二可能性分数。

进一步地，所述处理单元适于：在当前轮次的系统输出图像内容包括与该属性类目相关的至少一个第二属性值标签的情况下，根据该至少一个第二属性值标签与该种预设属性值之间的匹配程度来确定当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数。

进一步地，所述处理单元适于：通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第一空间，获得第一投影矩阵；以及通过对所述第一投影矩阵的各分向量进行加权计算，获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征。

进一步地，所述文本特征获得单元还用于获得当前轮次的系统文本特征；所述处理单元适于基于当前轮次的用户文本特征和系统文本特征，获得当前轮次对应的上下文特征；通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第二空间，获得第二投影矩阵；基于当前轮次的所述上下文特征和所述第二投影矩阵获得权重向量，其中，所述权重向量包括与所述第一投影矩阵的各分向量对应的多个权重。

进一步地，所述处理单元适于：将当前轮次的所述上下文特征和所述第二投影矩阵输入设有第一softmax层的预定神经网络，以将所述第一softmax层的输出结果作为所述权重向量。

进一步地，所述文本特征获得单元适于：获得当前轮次的系统输出文本内容的第二词向量，利用文本编码器对所述第二词向量进行编码，将获得的对应语义表示作为当前轮次的系统文本特征。

进一步地，所述处理单元适于：利用对上一轮次的上下文特征编码后的对话编码器，对当前轮次的用户文本特征和系统文本特征拼接后的串接特征进行编码，以将所述对话编码器的输出作为当前轮次对应的上下文特征。

进一步地，所述处理单元适于：将所述结合特征输入预设的多层感知器，来获得该属性类目在其对应的多种预设属性值上的概率分布。

进一步地，所述多层感知器后设有第二softmax层。

根据本发明的又一方面，还提供了一种存储有程序的存储介质，所述程序被处理器执行时实现上述用于人机对话的多模态对话状态处理方法。

根据本发明的再一方面，还提供了一种计算设备，包括上述存储介质。

根据本发明实施方式的用于人机对话的多模态对话状态处理方法、装置、介质及计算设备，能够克服现有技术的不足，通过捕捉多模态系统中的视觉信息而改善了对话跟踪的效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1是示出了本发明能够应用的场景的示意图；

图2是示意性地示出了根据本发明实施方式的用于人机对话的多模态对话状态处理方法的一个示例性处理的流程图；

图3是示出图2中的步骤S220的一种示例性处理的流程图；

图4是示出用于获得当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数的一种可能处理的流程示意图；

图5是示出用于获得当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数的一种可能处理的流程图；

图6是示出用于获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征的一种可能处理的流程图；

图7是示出用于获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征的另一种可能处理的流程图；

图8是示出根据本公开实施例的用于人机对话的多模态对话状态处理方法的整体处理模型的示意图；

图9是示意性地示出了根据本发明实施方式的用于人机对话的多模态对话状态处理装置的一个示例的结构框图；

图10示意性地示出了根据本发明一实施例的计算机的结构示意图；

图11示意性地示出了根据本发明一实施例的计算机可读存储介质的示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种用于人机对话的多模态对话状态处理方法、装置、介质及计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

场景概览

在面向任务的场景中，用户往往带着明确的目的而来，希望得到满足特定限制条件的信息或服务，例如：订餐，订票，线上购物，预约出租车，预定酒店，寻找音乐、电影或某种产品等。由于用户的需求有时比较复杂，可能需要分多轮进行陈述，此外，用户也可能在对话过程中不断修改或完善自己的需求。

本发明人发现，在面向任务的多轮对话场景中，多模态对话系统可以帮助用户实现他们的目标，比如在视觉模态的帮助下寻找特定的时尚产品或旅游景点。

这种对话系统的有效运行需要一个核心组件，对话状态跟踪器，或称对话跟踪器，它能够跟踪系统输出、用户话语、以及来自先前回合的上下文等所发生的事情。

然而，由于目前的对话系统主要局限于文本模式，现有的对话跟踪方法也主要局限于基于文本的方法。因此，它可能无法为多模态系统(同时包括文本和视觉图像信息两种模态的系统)生成准确的对话状态，因为忽略了视觉模态中固有的丰富语义。例如，为了为每个对话轮生成正确的置信状态(即对话状态)，如图1所示，系统需要理解第四个图像的视觉特征、第一个图像的类型和样式等。单纯依靠文本，系统将无法获得这些有用的语义，从而导致不准确的置信状态。此外，它可能进一步影响其他下游对话系统组件的性能。

发明概述

本发明的实施例提供了一种用于人机对话的多模态对话状态处理方法，所述人机对话包括用户与系统之间的多轮对话，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理方法包括：根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的系统视觉特征，以及获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。

通过本发明的实施例，能够准确地理解多模态信息输入，并自适应地整合这些模态以进行对话状态的追踪。通过将包括图像特征在内的多模态特征加以整合，本发明可以应用在更广泛的对话场景中，追踪更加丰富的对话信息，有助于提升对话模型在多模态场景下的置信状态追踪准确率。

在本发明的实施例中，通过神经多模态置信跟踪器(NMBT)演示多模态信息输入，可以促进语义理解和对话状态跟踪。

示例性方法

下面结合图2来描述根据本发明示例性实施方式的用于人机对话的多模态对话状态处理方法。

图2示意性地示出了根据本公开实施例的用于人机对话的多模态对话状态处理方法的一种示例性的处理流程200。处理流程200开始后，执行步骤S210。

根据本发明的实施例，人机对话的当前领域例如可以是至少一个预设领域中的其中之一，至少一个预设领域例如可以包括但不限于如下一个或多个领域：订餐；订票；线上购物；预约出租车；预定酒店；以及寻找音乐、电影或某种产品等。

根据本发明的实施例，人机对话中所包括的用户与系统之间的多轮对话可以仅仅涉及同一个领域，或者，也可以涉及多个领域，但每一轮次的对话仅涉及一个领域。

作为示例，在上述至少一个预设领域之中，每个预设领域可以具有预设的多个属性类目，其中每个属性类目又可具有对应的多种预设属性值。

例如，假设上述至少一个预设领域包括订餐以及寻找产品这两个领域。其中，订餐领域例如具有三个属性类目，这三个属性类目例如分别是餐饮类型、距离和价位区间，餐饮类型的多种预设属性值例如可以包括火锅、烧烤、西餐以及自助餐等中的至少部分，距离的多种预设属性值例如包括附近500米内、附近1公里内以及附近3公里内等中的至少部分，价位区间的多种预设属性值例如包括0-50元、50-100元、100-300元以及300元以上等中的至少部分。此外，寻找产品领域例如具有产品类别和产品价位这两个属性类目，产品类别的多种预设属性值例如包括手机、电视、冰箱以及电脑等中的至少部分，产品价位的多种预设属性值例如包括0-1000元、1000-2000元、2000-3000元、3000-4000元以及4000元以上等中的至少部分。

此外，用户与系统之间的多轮对话中的每轮对话是指，每一轮次的系统对话内容与用户对话内容。

作为示例，当前轮次所对应的领域(即当前领域)例如是上述至少一个预设领域中的任一个领域。

例如，用S(i)表示第i轮次的系统对话内容，用U(i)表示第i轮次的用户对话内容，其中i表示轮次序数，i＝1,2,3,…。如S(1)表示第一轮次的系统对话内容，U(1)表示第一轮次的系统对话内容，等等。这样，多轮对话可以表示为：S(1)→U(1)→S(2)→U(2)→S(3)→U(3)→……。

需要说明的是，多轮对话的首轮对话可以设定为系统的第一轮次发言内容(即第一轮次的系统对话内容)和用户紧接其后的第一轮次发言内容(即第一轮次的用户对话内容)，多轮对话的第二轮对话可以设定为第二轮次的系统对话内容和第二轮次的用户对话内容，依此类推。

应当注意的是，在每一轮对话中，系统对话内容的发言时间在用户对话内容的发言时间之前。

作为示例，若整个多轮对话的实际首次发言者为用户，则可以将系统的第一轮次发言内容(即第一轮次的系统对话内容S(1))设定为空。

作为示例，在多轮对话的每一轮对话中，该轮对话中的系统对话内容可以包括系统输出文本内容和/或系统输出图像内容。例如，若该轮对话中的系统对话内容包括系统输出图像内容，系统输出图像内容所包含的图像数量可能是一幅或多幅。

作为示例，在多轮对话的每一轮对话中，该轮对话中的用户对话内容可以包括用户输入文本内容和/或用户输入图像内容。例如，用户输入图像内容所包含的图像数量可能是零幅或一幅。

如图2所示，在步骤S210中，当处理到某一轮次(例如第t轮次，t为正整数，即t＝1,2,…)时，将该轮次作为当前轮次，根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征。然后，执行步骤S220。

例如，假设当前对话进行至第三轮次，即S(1)→U(1)→S(2)→U(2)→S(3)→U(3)，则当前轮次为第3轮次，即t＝3，当前轮次的用户输入文本内容即U(3)中的文本内容。

作为示例，在步骤S210中，例如可以采用现有的向量获取技术来获得当前轮次的用户输入文本内容的第一词向量，然后利用文本编码器对从当前轮次的用户输入文本内容中获得的第一词向量进行编码，以获得对应的语义表示来作为当前轮次的用户文本特征。

其中，在对从当前轮次的用户输入文本内容中获得的第一词向量进行编码时所利用的文本编码器例如可采用循环神经网络(Recurrent Neural Network，RNN)、卷积神经网络(Convolutional Neural Networks，CNN)或多层感知机(Multi-Layer Perceptron，MLP)等神经网络编码器模型来实现。

作为示例，若当前轮次的用户对话内容中并不包含文本(即不包含用户输入文本内容)，则可以预设一个空字符作为默认输入，再接着执行下一步骤S220。

在步骤S220中，针对当前轮次要处理的每个属性类目分别进行处理，以获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，从而能够基于该结合特征来得到每个属性类目在对应的多种预设属性值上的概率分布。

图3给出了步骤S220的一个处理示例。

作为示例，当前轮次要处理的属性类目可以是当前领域对应的全部属性类目，这样，在步骤S220中可以针对要处理的每个属性类目分别执行如图3所示的处理。例如，假设当前领域对应的全部属性类目包括3种属性类目A1、A2和A3，而当前轮次要处理的属性类目为上述3种属性类目，则可以首先对于A1执行如图3所示的处理，再对A2执行如图3所示的处理，最后对A3执行如图3所示的处理。

此外，当前轮次要处理的属性类目也可以是当前领域对应的全部属性类目中的部分属性类目(例如一个或多个属性类目)，这样，对于当前轮次要处理的上述部分属性类目中的每一个类目分别执行如图3所示的处理。例如，假设当前领域对应的全部属性类目包括3种属性类目A1、A2和A3，而当前轮次要处理的属性类目为上述3种属性类目中的前两种，即A1和A2，则可以首先对于A1执行如图3所示的处理，再对A2执行如图3所示的处理，而不需要对A3执行如图3所示的处理。

作为示例，若当前轮次要处理的属性类目并非当前领域对应的全部属性类目，则当前轮次不需执行处理的那些属性类目可以是在之前轮次已经处理过而不需再次处理的，也可以是预设的，等等。

如图3所示，假设当前轮次要处理的至少一个属性类目的数目为Ns，则该至少一个属性类目例如可以表示为SL(1)、SL(2)、…、SL(k)、…、SL(Ns)。其中，Ns可能等于或者小于当前领域对应的全部属性类目的类目总数。此外，k的取值范围为1～Ns之间的整数(包括端值)。

这样，针对当前轮次要处理的至少一个属性类目中的每一个属性类目SL(k)，k＝1,2,…Ns，分别执行步骤S221-S222。

应当说明的是，当前轮次要处理的至少一个属性类目中各个类目所对应的预设属性值数量可能是相同或不同的。举例来说，假设当前轮次要处理3个属性类目分别为A1、A2和A3，则A1对应的预设属性值数量可能是5，A2对应的预设属性值数量可能是10，而A3对应的预设属性值数量可能是3，等等。

在步骤S221中，对于该属性类目SL(k)对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征。举例来说，假设属性类目SL(k)具有n种预设属性值(n为正整数)，分别为w1、w2、…、wn，则确定出：当前轮次的用户输入图像内容中含有与w1对应的内容的可能性分数q_U ^w1；当前轮次的用户输入图像内容中含有与w2对应的内容的可能性分数q_U ^w2；…；当前轮次的用户输入图像内容中含有与wn对应的内容的可能性分数q_U ^wn。然后，根据q_U ^w1、q_U ^w2、…、q_U ^wn来获得当前轮次的用户视觉特征。

作为示例，通过“对于该属性类目SL(k)对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数”可以得到多个分数(即当前轮次的用户输入图像内容中含有该属性类目SL(k)对应的每一种预设属性值的可能性分数)，当前轮次的用户视觉特征可以是这多个分数所形成的向量，例如该向量可以表示为(q_U ^w1,q_U ^w2,…,q_U ^wn)或(q_U ^w1,q_U ^w2,…,q_U ^wn)^T等形式。

作为示例，在针对当前轮次要处理的至少一个属性类目中的每一个属性类目SL(k)的处理中，在步骤S221中，对于该属性类目SL(k)对应的每一种预设属性值，例如可以通过如图4所示的步骤S410～S430来确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数。

如图4所示，对于该属性类目SL(k)对应的每一种预设属性值(在步骤S410～S430的描述中以预设属性值w为例)，在步骤S410中，获得当前轮次的用户输入图像内容对应的多个第一子区域。例如，可以采用图像分割或滑动窗口等方法来获得当前轮次的用户输入图像内容对应的多个第一子区域。以滑动窗口方法为例，例如可以预设一个固定尺寸大小的窗口区域在当前轮次的用户输入图像内容内滑动(其中每次滑动的步长、方向、顺序等可以预先根据经验设置或通过试验方法确定，可以按照类似扫描的方式在图像上滑动等)，每次滑动对应的窗口区域即为一个第一子区域。

接着，在步骤S420中，针对S410中所获得的多个第一子区域中的每一个第一子区域，确定该第一子区域中含有与该种预设属性值w对应的内容的第一可能性分数。

作为示例，第一可能性分数例如可以基于利用诸如LeNet、AlexNet、VGG或ResNet等图像特征抽取算法得到的图像特征向量而获得。例如，以上述多个第一子区域中的任一个为例，可以采用无最后一层的ResNet-50作为基础网络来学习该第一子区域的图像特征向量，然后将学习到的上述图像特征向量输入一个后面设有s形激活函数(sigmoidactivation)的全连接层来计算该第一子区域中含有与该种预设属性值w对应的内容的第一可能性分数。

然后，在步骤S430中，基于上述多个第一子区域各自对应的第一可能性分数，获得当前轮次的用户输入图像内容含有与该种预设属性值w对应的内容的可能性分数。

作为示例，在获得当前轮次的用户输入图像内容含有与该种预设属性值w对应的内容的可能性分数的过程中，例如将多个第一子区域对应的第一可能性分数中的最大值作为第一下限值，令上述“当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数”大于该第一下限值、并且小于1。这样，能够使得整个图像(即用户输入图像内容)包含有某个属性值w的可能性不低于其局部的子区域(即第一子区域)中包含同样的属性值w的可能性。

此外，作为示例，在上述多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，令上述“当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数”越高。这样，若局部的子区域包含某个属性值w的可能性变大，也会使得整个图像包含同样的属性值w的可能性增大。

公式一给出了计算当前轮次的用户输入图像内容含有与该种预设属性值w对应的内容的可能性分数的一个示例性公式。

公式一：

在公式一中，i表示当前要计算的图像(其中，图像i可以是当前轮次的用户输入图像内容，也可以是下文将要描述的系统输出图像内容，i可以表示图像的序号或其他标识)，j表示图像i中的第j个子区域的序号，j＝1,2,…,Nz，Nz表示图像i中包含对应的子区域的个数，比如，当图像i表示当前轮次的用户输入图像内容时，则j对应表示当前轮次的用户输入图像内容中的第j个第一子区域。v_ij ^w表示图像i中的第j个子区域包含预设属性值w的可能性分数，b_i表示图像i中所有子区域的集合，|b_i|表示b_i中所含有子区域的个数(即上述Nz)，v_i ^w表示图像i中包含预设属性值w的可能性分数。

此外，根据本发明的另一实现方式，若当前轮次的用户输入图像内容包含有标签(该标签例如可以预先设定或人工标注等)，例如，包含有与该属性类目SL(k)相关的至少一个第一属性值标签，在这种情况下，在针对当前轮次要处理的至少一个属性类目中的每一个属性类目SL(k)的处理中，也可以在步骤S221中对于该属性类目SL(k)对应的每一种预设属性值，通过如下方式来确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数：根据该至少一个第一属性值标签与该种预设属性值w之间的匹配程度来确定当前轮次的用户输入图像内容含有与该种预设属性值w对应的内容的可能性分数。

例如，假设当前考虑的属性类目SL(k)为“颜色”这个属性类目，对于“颜色”的预设属性值为“黑色”这个属性值，假设当前轮次的用户输入图像内容包含有与“颜色”这个属性类目有关的2个标签“黑色”和“蓝色”(作为上述至少一个第一属性值标签的示例)，则可以计算标签“黑色”和“蓝色”与预设属性值“黑色”之间的相似度分数(作为匹配程度的示例)，将该相似度分数作为当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数。

其中，标签与预设属性值之间的相似度分数例如可以采用现有的文本相似度或文本匹配等方法计算。

此外，标签与预设属性值之间的相似度分数例如也可以通过如下方式确定：当上述至少一个第一属性值标签与当前所考虑的预设属性值w完全相同时，相似度分数记为1；当上述至少一个第一属性值标签中的部分与当前所考虑的预设属性值w相同时，相似度分数记为0.8(或其他数值)；当上述至少一个第一属性值标签与当前所考虑的预设属性值w完全不同时，相似度分数记为0；等等。

此外，在步骤S221中，对于该属性类目SL(k)对应的每一种预设属性值，还确定当前轮次的系统输出图像内容中含有与该种预设属性值w对应的内容的可能性分数，以获得当前轮次的系统视觉特征。

其中，若当前轮次系统输出的所有图像数量不止一幅，则上述“当前轮次的系统输出图像内容”可以是根据该轮对话中的用户对话内容(如用户输入文本内容和/或用户输入图像内容)所确定的某一幅图像，比如，本轮对话中，用户发言“第二幅图中的饰品”，根据现有的语义分析方法分析处理后，可以在本轮对话系统输出的所有图像中，将其中的第二幅图像作为上述“当前轮次的系统输出图像内容”。应当理解的是，下文中出现的“当前轮次的系统输出图像内容”指代的是单幅图像，而非多幅图像。

举例来说，假设属性类目SL(k)具有n种预设属性值(n为正整数)，分别为w1、w2、…、wn，则在步骤S221中确定出：当前轮次的系统输出图像内容中含有与w1对应的内容的可能性分数q_S ^w1；当前轮次的系统输出图像内容中含有与w2对应的内容的可能性分数q_S ^w2；…；当前轮次的系统输出图像内容中含有与wn对应的内容的可能性分数q_S ^wn。然后，根据q_S ^w1、q_S ^w2、…、q_S ^wn来获得当前轮次的系统视觉特征。

作为示例，通过“对于该属性类目SL(k)对应的每一种预设属性值，确定当前轮次的系统输出图像内容中含有与该种预设属性值w对应的内容的可能性分数”可以得到多个分数(即当前轮次的系统输出图像内容中含有该属性类目SL(k)对应的每一种预设属性值的可能性分数)，当前轮次的系统视觉特征可以是这多个分数所形成的向量，例如该向量可以表示为(q_S ^w1,q_S ^w2,…,q_S ^wn)或(q_S ^w1,q_S ^w2,…,q_S ^wn)^T等形式。

作为示例，在针对当前轮次要处理的至少一个属性类目中的每一个属性类目SL(k)的处理中，在步骤S221中，对于该属性类目SL(k)对应的每一种预设属性值，例如可以通过如图5所示的步骤S510～S530来确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数。

如图5所示，对于该属性类目SL(k)对应的每一种预设属性值(在步骤S510～S530的描述中以预设属性值w为例)，在步骤S510中，获得当前轮次的系统输出图像内容对应的多个第二子区域。例如，可以采用图像分割或滑动窗口等方法来获得当前轮次的系统输出图像内容对应的多个第二子区域，获得的方法例如可以与上文所描述的获得当前轮次的用户输入图像内容对应的多个第一子区域的方法相似，这里不再赘述。

接着，在步骤S520中，针对S510中所获得的多个第二子区域中的每一个第二子区域，确定该第二子区域中含有与该种预设属性值w对应的内容的第二可能性分数。

作为示例，第二可能性分数例如可以基于利用诸如LeNet、AlexNet、VGG或ResNet等图像特征抽取算法得到的图像特征向量而获得。例如，以上述多个第二子区域中的任一个为例，可以采用无最后一层的ResNet-50作为基础网络来学习该第二子区域的图像特征向量，然后将学习到的上述图像特征向量输入一个后面设有s形激活函数(sigmoidactivation)的全连接层来计算该第二子区域中含有与该种预设属性值w对应的内容的第二可能性分数。

然后，在步骤S530中，基于上述多个第二子区域各自对应的第二可能性分数，获得当前轮次的系统输出图像内容含有与该种预设属性值w对应的内容的可能性分数。

作为示例，在获得当前轮次的系统输出图像内容含有与该种预设属性值w对应的内容的可能性分数的过程中，例如将多个第二子区域对应的第二可能性分数中的最大值作为第二下限值，令上述“当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数”大于该第二下限值、并且小于1。这样，能够使得整个图像(即系统输出图像内容)包含有某个属性值w的可能性不低于其局部的子区域(即第二子区域)中包含同样的属性值w的可能性。

此外，作为示例，在上述多个第二子区域对应的第二可能性分数之中，当大于第二预设阈值的第二可能性分数的数量越多时，令上述“当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数”越高。这样，若局部的子区域包含某个属性值w的可能性变大，也会使得整个图像包含同样的属性值w的可能性增大。

作为示例，当前轮次的系统输出图像内容含有与该种预设属性值w对应的内容的可能性分数例如也可以采用上述公式一来计算。在利用公式一计算当前轮次的系统输出图像内容含有与该种预设属性值w对应的内容的可能性分数时，公式一中的图像i表示当前轮次的系统输出图像内容，j对应表示当前轮次的系统输出图像内容中的第j个第二子区域。

此外，根据本发明的另一实现方式，若当前轮次的系统输出图像内容包含有标签(该标签例如可以预先设定或人工标注等)，例如，包含有与该属性类目SL(k)相关的至少一个第二属性值标签，在这种情况下，在针对当前轮次要处理的至少一个属性类目中的每一个属性类目SL(k)的处理中，也可以在步骤S221中对于该属性类目SL(k)对应的每一种预设属性值，通过如下方式来确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数：根据该至少一个第二属性值标签与该种预设属性值w之间的匹配程度来确定当前轮次的用户输入图像内容含有与该种预设属性值w对应的内容的可能性分数，计算的方法可与上文中所描述的计算当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数的过程类似，这里不再赘述。

这样，可以采用与上述获得当前轮次的用户视觉特征相类似的方法来获得当前轮次的系统视觉特征，这里不再赘述。

然后，在得到当前轮次的用户视觉特征和系统视觉特征之后，可以在步骤S222中获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征c_t，以基于该结合特征来获得该属性类目SL(k)在其对应的多种预设属性值上的概率分布p_t。

作为示例，获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征的步骤例如可以包括如图6所示的步骤S610～S620。

如图6所示，在步骤S610中，通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第一空间(第一空间例如可以预先确定，根据经验值或试验的方法确定等)，获得第一投影矩阵。

例如，用v’_t表示当前轮次(即t轮次)的系统视觉特征(例如横向量或列向量形式)，v_t表示当前轮次的用户视觉特征(例如横向量或列向量形式)，r_t表示当前轮次的用户文本特征(例如横向量或列向量形式)。以v’_t、v_t和r_t均为列向量为例，将(v’_t,v_t,r_t)投影至第一空间，投影后的结果E_t即作为上述第一投影矩阵。假设E_t可表示如下公式二。

公式二：

E_t＝[W_iv_t,W_tv′_t,W₂r_t]

其中，W₁和W₂为投影参数，可以预先根据经验或通过试验的方法确定，为h行、d列的矩阵，其中h和d为预设值，为h行、h列的矩阵，其中，h和d的数值例如可以通过试验或经验设定。

接着，在步骤S620中，通过对上述第一投影矩阵的各分向量进行加权计算，获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征。

例如，用E_t(m)表示E_t中的第m个分量(如第m个列向量)，比如，E_t(1)表示W1_vt，E_t(2)表示W₁v′_t，E_t(3)表示W₂r_t，则当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征c_t可以表示为如下公式三。

公式三：

其中，α_t，m表示当前轮次E_t中的第m个分量对应的权重。

在一个示例中，在对上述第一投影矩阵的各分向量进行加权计算的步骤中，对上述第一投影矩阵的各分向量所采用的各个权重例如可以预先设定，各分向量之间的权重可以相同，也可以不同，如可以根据经验值设定，或者通过试验的方法确定等。

在另一个示例中，步骤S620中对上述第一投影矩阵的各分向量进行加权计算时所采用的权重也可以通过一个第二投影矩阵来获得，下面结合图7来描述该示例。

如图7所示，获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征的步骤可以通过图7所示的步骤S710-S750来实现。

在步骤S710中，通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第一空间，获得第一投影矩阵。该步骤与图6所示的步骤S610相似，并能够达到相类似的技术效果，这里不再赘述。

此外，在步骤S720中，获得当前轮次的系统文本特征，并基于当前轮次的用户文本特征和系统文本特征，获得当前轮次对应的上下文特征。

如图8所示，用h_t表示当前轮次对应的上下文特征。

例如，利用对上一轮次的上下文特征编码后的对话编码器，对当前轮次的用户文本特征和系统文本特征拼接后的串接特征进行编码，以将对话编码器的输出作为当前轮次对应的上下文特征。

其中，对话编码器可以采用RNN、CNN或MLP等神经网络编码器模型。

需要说明的是，步骤S720可以在步骤S710之前执行，也可以在步骤S710之后执行，或者可以与步骤S710并行处理。

然后，在步骤S730中，通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第二空间(第二空间例如可以预先确定，根据经验值或试验的方法确定等)，获得第二投影矩阵。

例如，将(v’_t,v_t,r_t)投影至第二空间，投影后的结果Z_t作为第二投影矩阵，可根据如下的公式四确定。

公式四：

Z_t＝[W₃v_t，W₃v′_t，W₄r_t]

其中，W₃和W₄也为投影参数，可以预先根据经验或通过试验的方法确定，W₃为h行、d列的矩阵，其中h和d为预设值，W₄为h行、b列的矩阵，其中，h、d和b的数值例如可以通过试验或经验设定。

接着，在步骤S740中，基于当前轮次的上下文特征和第二投影矩阵获得权重向量α_t，其中，权重向量α_t包括与第一投影矩阵的各分向量对应的多个权重。

例如，如图8所示，将当前轮次的上下文特征h_t和第二投影矩阵Z_t输入设有第一softmax层的预定神经网络，以将第一softmax层的输出结果作为所述权重向量。需要说明的是，图8中v_i ^printed中的“printed”表示对应的属性值为“印花”。

然后，在步骤S750中，通过对上述第一投影矩阵的各分向量进行加权计算，获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征。该步骤与上述S620类似，这里不再赘述。

作为示例，获得当前轮次的系统文本特征的步骤例如包括：获得当前轮次的系统输出文本内容的第二词向量，利用文本编码器对所述第二词向量进行编码，将获得的对应语义表示作为当前轮次的系统文本特征。其中，文本编码器例如可以采用与上文中对第一词向量进行编码时相同的编码器。

这样，在步骤S220中，例如可以将结合特征输入预设的多层感知器(该多层感知器后例如设有第二softmax层)，来获得该属性类目在其对应的多种预设属性值上的概率分布。

示例性装置

本发明的实施例还提供了一种用于人机对话的多模态对话状态处理装置，所述人机对话包括用户与系统之间的多轮对话，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理装置包括：文本特征获得单元，适于根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；处理单元，适于针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的系统视觉特征，以及获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于所述结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。

接下来，参考图9对本发明示例性实施方式的用于人机对话的多模态对话状态处理装置进行说明。

参见图9，示意性地示出了根据本发明一实施例的用于人机对话的多模态对话状态处理装置的结构示意图，该装置可以设置于终端设备中，例如，该装置可以设置于台式计算机、笔记型计算机、智能移动电话以及平板电脑等智能电子设备中；当然，本发明实施方式的装置也可以设置于服务器中。本发明实施方式的装置900可以包括下述组成单元：文本特征获得单元910和处理单元920。

文本特征获得单元910适于根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征。

处理单元920适于针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的系统视觉特征，以及获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。

作为示例，进一步地，文本特征获得单元适于：获得当前轮次的用户输入文本内容的第一词向量，利用文本编码器对第一词向量进行编码，以获得对应的语义表示作为当前轮次的用户文本特征。

作为示例，文本编码器采用RNN、CNN或MLP神经网络编码器模型。

作为示例，处理单元适于：获得当前轮次的用户输入图像内容对应的多个第一子区域；针对多个第一子区域中的每一个，确定该第一子区域中含有与该种预设属性值对应的内容的第一可能性分数；以及基于多个第一子区域各自对应的第一可能性分数，获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数。

作为示例，处理单元适于：在获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，将多个第一子区域对应的第一可能性分数中的最大值作为第一下限值，令当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数大于第一下限值、且小于1。

作为示例，处理单元适于：在多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，令当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数越高。

作为示例，处理单元基于利用LeNet、AlexNet、VGG或ResNet图像特征抽取算法得到的图像特征向量来获得第一可能性分数。

作为示例，处理单元适于：在当前轮次的用户输入图像内容包括与该属性类目相关的至少一个第一属性值标签的情况下，根据该至少一个第一属性值标签与该种预设属性值之间的匹配程度来确定当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数。

作为示例，处理单元适于：获得当前轮次的系统输出图像内容对应的多个第二子区域；针对多个第二子区域中的每一个，确定该第二子区域中含有与该种预设属性值对应的内容的第二可能性分数；以及基于多个第二子区域各自对应的第二可能性分数，获得当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数。

作为示例，处理单元适于：在获得当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，将多个第二子区域对应的第二可能性分数中的最大值作为第二下限值，令当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数大于第二下限值、且小于1。

作为示例，处理单元适于：在多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，令当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数越高。

作为示例，处理单元基于利用LeNet、AlexNet、VGG或ResNet图像特征抽取算法得到的图像特征向量来获得第二可能性分数。

作为示例，处理单元适于：在当前轮次的系统输出图像内容包括与该属性类目相关的至少一个第二属性值标签的情况下，根据该至少一个第二属性值标签与该种预设属性值之间的匹配程度来确定当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数。

作为示例，处理单元适于：通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第一空间，获得第一投影矩阵；以及通过对第一投影矩阵的各分向量进行加权计算，获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征。

作为示例，文本特征获得单元还用于获得当前轮次的系统文本特征；处理单元适于基于当前轮次的用户文本特征和系统文本特征，获得当前轮次对应的上下文特征；通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第二空间，获得第二投影矩阵；基于当前轮次的上下文特征和第二投影矩阵获得权重向量，其中，权重向量包括与第一投影矩阵的各分向量对应的多个权重。

作为示例，处理单元适于：将当前轮次的上下文特征和第二投影矩阵输入设有第一softmax层的预定神经网络，以将第一softmax层的输出结果作为权重向量。

作为示例，文本特征获得单元适于：获得当前轮次的系统输出文本内容的第二词向量，利用文本编码器对第二词向量进行编码，将获得的对应语义表示作为当前轮次的系统文本特征。

作为示例，处理单元适于：利用对上一轮次的上下文特征编码后的对话编码器，对当前轮次的用户文本特征和系统文本特征拼接后的串接特征进行编码，以将对话编码器的输出作为当前轮次对应的上下文特征。

作为示例，对话编码器采用RNN、CNN或MLP神经网络编码器模型。

作为示例，处理单元适于：将结合特征输入预设的多层感知器，来获得该属性类目在其对应的多种预设属性值上的概率分布。

作为示例，多层感知器后设有第二softmax层。

应当说明的是，本发明实施例的上述用于人机对话的多模态对话状态处理装置中的组成单元能够实现上述用于人机对话的多模态对话状态处理方法中对应步骤的处理和功能，并能够达到相类似的技术效果，这里不再一一赘述。

图10示出了适于用来实现本发明实施方式的示例性计算机系统/服务器1000的框图。图10显示的计算机系统/服务器1000仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统/服务器1000以通用计算设备的形式表现。计算机系统/服务器1000的组件可以包括但不限于：一个或者多个处理器或者处理器1001，系统存储器1002，连接不同系统组件(包括系统存储器1002和处理器1001)的总线1003。

计算机系统/服务器1000典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器1000访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器1002可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)10021和/或高速缓存存储器10022。计算机系统/服务器1000可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM10023可以用于读写不可移动的、非易失性磁介质(图10中未显示，通常称为“硬盘驱动器”)。尽管未在图10中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线1003相连。系统存储器1002中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块10024的程序/实用工具10025，可以存储在例如系统存储器1002中，且这样的程序模块10024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块10024通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器1000也可以与一个或多个外部设备1004(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口1005进行。并且，计算机系统/服务器1000还可以通过网络适配器1006与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图10所示，网络适配器1006通过总线1003与计算机系统/服务器1000的其它模块(如处理器1001等)通信。应当明白，尽管图10中未示出，可以结合计算机系统/服务器1000使用其它硬件和/或软件模块。

处理器1001通过运行存储在系统存储器1002中的程序，从而执行各种功能应用以及数据处理，例如，执行并实现用于人机对话的多模态对话状态处理方法中的各步骤；例如，根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的系统视觉特征，以及获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于所述结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。

本发明实施方式的计算机可读存储介质一个具体例子如图11所示。

图11的计算机可读存储介质为光盘1100，其上存储有计算机程序(即程序产品)，该程序被处理器执行时，会实现上述方法实施方式中所记载的各步骤，例如，根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的系统视觉特征，以及获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于所述结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布；各步骤的具体实现方式在此不再重复说明。

应当注意，尽管在上文详细描述中提及了用于人机对话的多模态对话状态处理装置的若干单元、模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

综上，在根据本公开的实施例中，本公开提供了如下方案，但不限于此：

方案1.用于人机对话的多模态对话状态处理方法，所述人机对话包括用户与系统之间的多轮对话，其特征在于，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理方法包括：

根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；

针对当前轮次要处理的至少一个属性类目中的每一个：

对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的系统视觉特征，以及

获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于所述结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。

方案2.根据方案1所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述获得当前轮次的用户文本特征的步骤包括：

获得当前轮次的用户输入文本内容的第一词向量，利用文本编码器对所述第一词向量进行编码，以获得对应的语义表示作为当前轮次的用户文本特征。

方案3.根据方案2所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述文本编码器采用RNN、CNN或MLP神经网络编码器模型。

方案4.根据方案1-3中任一项所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数的步骤包括：

获得当前轮次的用户输入图像内容对应的多个第一子区域；

针对所述多个第一子区域中的每一个，确定该第一子区域中含有与该种预设属性值对应的内容的第一可能性分数；以及

基于所述多个第一子区域各自对应的第一可能性分数，获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数。

方案5.根据方案4所述的用于人机对话的多模态对话状态处理方法，其特征在于，在所述获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，

将所述多个第一子区域对应的第一可能性分数中的最大值作为第一下限值，令所述当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数大于所述第一下限值、且小于1。

方案6.根据方案4或5所述的用于人机对话的多模态对话状态处理方法，其特征在于：

在所述多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，所述当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数越高。

方案7.根据方案3-6中任一项所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述第一可能性分数基于利用LeNet、AlexNet、VGG或ResNet图像特征抽取算法得到的图像特征向量获得。

方案8.根据方案1-7中任一项所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数的步骤包括：

在当前轮次的用户输入图像内容包括与该属性类目相关的至少一个第一属性值标签的情况下，根据该至少一个第一属性值标签与该种预设属性值之间的匹配程度来确定当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数。

方案9.根据方案1-8中任一项所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数的步骤包括：

获得当前轮次的系统输出图像内容对应的多个第二子区域；

针对所述多个第二子区域中的每一个，确定该第二子区域中含有与该种预设属性值对应的内容的第二可能性分数；以及

基于所述多个第二子区域各自对应的第二可能性分数，获得当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数。

方案10.根据方案9所述的用于人机对话的多模态对话状态处理方法，其特征在于，在所述获得当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，

将所述多个第二子区域对应的第二可能性分数中的最大值作为第二下限值，令所述当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数大于所述第二下限值、且小于1。

方案11.根据方案9或10所述的用于人机对话的多模态对话状态处理方法，其特征在于：

在所述多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，所述当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数越高。

方案12.根据方案7-11中任一项所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述第二可能性分数基于利用LeNet、AlexNet、VGG或ResNet图像特征抽取算法得到的图像特征向量获得。

方案13.根据方案1-12中任一项所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数的步骤包括：

在当前轮次的系统输出图像内容包括与该属性类目相关的至少一个第二属性值标签的情况下，根据该至少一个第二属性值标签与该种预设属性值之间的匹配程度来确定当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数。

方案14.根据方案1-13中任一项所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征的步骤包括：

通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第一空间，获得第一投影矩阵；以及

通过对所述第一投影矩阵的各分向量进行加权计算，获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征。

方案15.根据方案14所述的用于人机对话的多模态对话状态处理方法，其特征在于还包括：

获得当前轮次的系统文本特征；

基于当前轮次的用户文本特征和系统文本特征，获得当前轮次对应的上下文特征；

通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第二空间，获得第二投影矩阵；

基于当前轮次的所述上下文特征和所述第二投影矩阵获得权重向量，其中，所述权重向量包括与所述第一投影矩阵的各分向量对应的多个权重。

方案16.根据方案15所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述基于当前轮次的所述上下文特征和所述第二投影矩阵获得权重向量的步骤包括：

将当前轮次的所述上下文特征和所述第二投影矩阵输入设有第一softmax层的预定神经网络，以将所述第一softmax层的输出结果作为所述权重向量。

方案17.根据方案15或16所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述获得当前轮次的系统文本特征的步骤包括：

获得当前轮次的系统输出文本内容的第二词向量，利用文本编码器对所述第二词向量进行编码，将获得的对应语义表示作为当前轮次的系统文本特征。

方案18.根据方案15-17中任一项所述的用于人机对话的多模态对话状态处理方法，所述获得当前轮次对应的上下文特征的步骤包括：

利用对上一轮次的上下文特征编码后的对话编码器，对当前轮次的用户文本特征和系统文本特征拼接后的串接特征进行编码，以将所述对话编码器的输出作为当前轮次对应的上下文特征。

方案19.根据方案18所述的用于人机对话的多模态对话状态处理方法，所述对话编码器采用RNN、CNN或MLP神经网络编码器模型。

方案20.根据方案1-19中任一项所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述获得该属性类目在其对应的多种预设属性值上的概率分布的步骤包括：

将所述结合特征输入预设的多层感知器，来获得该属性类目在其对应的多种预设属性值上的概率分布。

方案21.根据方案20所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述多层感知器后设有第二softmax层。

方案22.用于人机对话的多模态对话状态处理装置，所述人机对话包括用户与系统之间的多轮对话，其特征在于，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理装置包括：

文本特征获得单元，适于根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；

处理单元，适于针对当前轮次要处理的至少一个属性类目中的每一个：

方案23.根据方案22所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述文本特征获得单元适于：获得当前轮次的用户输入文本内容的第一词向量，利用文本编码器对所述第一词向量进行编码，以获得对应的语义表示作为当前轮次的用户文本特征。

方案24.根据方案23所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述文本编码器采用RNN、CNN或MLP神经网络编码器模型。

方案25.根据方案22-24中任一项所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：

获得当前轮次的用户输入图像内容对应的多个第一子区域；

方案26.根据方案25所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：在所述获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，将所述多个第一子区域对应的第一可能性分数中的最大值作为第一下限值，令所述当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数大于所述第一下限值、且小于1。

方案27.根据方案25或26所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：

在所述多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，令所述当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数越高。

方案28.根据方案24-27中任一项所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元基于利用LeNet、AlexNet、VGG或ResNet图像特征抽取算法得到的图像特征向量来获得所述第一可能性分数。

方案29.根据方案22-28中任一项所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：

方案30.根据方案22-29中任一项所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：

获得当前轮次的系统输出图像内容对应的多个第二子区域；

方案31.根据方案30所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：在所述获得当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，将所述多个第二子区域对应的第二可能性分数中的最大值作为第二下限值，令所述当前轮次的系统输出图像内容含有与该种预设属性值对应的内容的可能性分数大于所述第二下限值、且小于1。

方案32.根据方案30或31所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：

在所述多个第一子区域对应的第一可能性分数之中，当大于第一预设阈值的第一可能性分数的数量越多时，令所述当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数越高。

方案33.根据方案28-32中任一项所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元基于利用LeNet、AlexNet、VGG或ResNet图像特征抽取算法得到的图像特征向量来获得第二可能性分数。

方案34.根据方案22-33中任一项所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：

方案35.根据方案22-34中任一项所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：

方案36.根据方案35所述的用于人机对话的多模态对话状态处理装置，其特征在于：

所述文本特征获得单元还用于获得当前轮次的系统文本特征；

所述处理单元适于基于当前轮次的用户文本特征和系统文本特征，获得当前轮次对应的上下文特征；通过将当前轮次的用户文本特征、用户视觉特征和系统视觉特征投影至第二空间，获得第二投影矩阵；基于当前轮次的所述上下文特征和所述第二投影矩阵获得权重向量，其中，所述权重向量包括与所述第一投影矩阵的各分向量对应的多个权重。

方案37.根据方案36所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：

方案38.根据方案36或37所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述文本特征获得单元适于：

方案39.根据方案36-38中任一项所述的用于人机对话的多模态对话状态处理装置，所述处理单元适于：

方案40.根据方案39所述的用于人机对话的多模态对话状态处理装置，所述对话编码器采用RNN、CNN或MLP神经网络编码器模型。

方案41.根据方案22-40中任一项所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述处理单元适于：

方案42.根据方案41所述的用于人机对话的多模态对话状态处理装置，其特征在于，所述多层感知器后设有第二softmax层。

方案43.一种存储有程序的存储介质，所述程序被处理器执行时实现如方案1到21中的任一项所述的用于人机对话的多模态对话状态处理方法。

方案44.一种计算设备，包括如方案43所述的存储介质。

Claims

1.用于人机对话的多模态对话状态处理方法，所述人机对话包括用户与系统之间的多轮对话，其特征在于，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理方法包括：

针对当前轮次要处理的至少一个属性类目中的每一个：

2.根据权利要求1所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述获得当前轮次的用户文本特征的步骤包括：

3.根据权利要求1或2所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数的步骤包括：

获得当前轮次的用户输入图像内容对应的多个第一子区域；

4.根据权利要求3所述的用于人机对话的多模态对话状态处理方法，其特征在于，在所述获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，

5.根据权利要求3或4所述的用于人机对话的多模态对话状态处理方法，其特征在于：

6.根据权利要求1-5中任一项所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征的步骤包括：

7.根据权利要求6所述的用于人机对话的多模态对话状态处理方法，其特征在于还包括：

获得当前轮次的系统文本特征；

8.用于人机对话的多模态对话状态处理装置，所述人机对话包括用户与系统之间的多轮对话，其特征在于，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理装置包括：

9.一种存储有程序的存储介质，所述程序被处理器执行时实现如权利要求1到7中的任一项所述的用于人机对话的多模态对话状态处理方法。

10.一种计算设备，包括如权利要求9所述的存储介质。