CN111460121B

CN111460121B - 视觉语义对话方法及系统

Info

Publication number: CN111460121B
Application number: CN202010247920.9A
Authority: CN
Inventors: 俞凯; 赵耀; 陈露
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2022-07-08
Anticipated expiration: 2040-03-31
Also published as: CN111460121A

Abstract

本发明实施例提供一种视觉语义对话方法。该方法包括：接收视觉图片以及与视觉图片相关的对话文本；将对话文本输入至使用注意力机制的历史对话编码器，以得到历史上下文文本的第一文本向量和问题对话的第二文本向量；通过关系图像编码器在视觉图片中提取与第一文本向量和第二文本向量语义对应的图片向量；基于循环注意管理器对第一文本向量、第二文本向量以及相应的图片向量进行循环学习推理训练，以在每轮的循环学习中得到与视觉图片相关的问题的多个备选答案；通过答案检索器在多个备选答案中选取用于答复问题的备选答案。本发明实施例还提供一种视觉语义对话系统。本发明实施例使用循环结构进行注意力推理能够进行信息的整合与进一步的萃取。

Description

视觉语义对话方法及系统

技术领域

本发明涉及视觉对话领域，尤其涉及一种视觉语义对话方法及系统。

背景技术

在视觉问答对话系统中，用户可以给聊天机器人发送图片，它能理解图片的意思，可以就图片内容展开对话；除了文本之外，让图片也成为交流的一部分；这可以帮助盲人理解周围或社交媒体上的信息。这是自然语言处理与计算机视觉的交叉应用。在该类系统上，具有两类研究，分别为VQA(Visual Question Answering，视觉问答)和Visual Dialog-视觉对话。Visual Dialog中的系统可以视作VQA中系统的泛化，前者考虑了多轮对话中对于对话历史信息的保存与检索方法，不过在VQA研究中的一些应用于模态融合的方法对于Visual Dialog任务中的模型仍具有参考意义。在Visual Dialog研究中，现存最优技术方案是DAN(Dual Attention Network，对偶注意力网络)，其综合采用了在图像和文本信息上的对偶注意力模型，使得模型整合获取的信息同时包含图像信息和文本信息。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

上述视觉问答与对话系统所涉及的技术对于图像信息与文本信息的整合大多都是比较低阶的、浅层次的，不涉及在文本信息与图像信息之间的深层推理过程，从而导致了在图像信息和文本信息的整合过程中缺失了对于二者相关性信息的整体性把握，在后续的答案生成和答案检索过程中，无法回答具有更加深层推理的问题。例如“餐厅中的那个拿着咖啡杯的妇女旁边的人是男性还是女性？”这种具有高阶逻辑的问题，此前的系统通常是无能为力的。

发明内容

为了至少解决现有技术中视觉问答与对话系统中图像信息与文本信息的整合大多都是比较低阶的、浅层次的，不涉及在文本信息与图像信息之间的深层推理过程，对于具有高阶逻辑的问题，通常是无法处理的。

第一方面，本发明实施例提供一种视觉语义对话方法，包括：

接收视觉图片以及与所述视觉图片相关的对话文本，其中，所述对话文本包括：历史上下文文本以及与所述视觉图片相关的问题对话；

将所述对话文本输入至使用注意力机制的历史对话编码器，以得到所述历史上下文文本的第一文本向量和所述问题对话的第二文本向量；

通过关系图像编码器在所述视觉图片中提取与所述第一文本向量和所述第二文本向量语义对应的图片向量；

基于循环注意管理器对所述第一文本向量、所述第二文本向量以及相应的图片向量进行循环学习推理训练，以在每轮的循环学习中得到与所述视觉图片相关的问题的多个备选答案；

通过答案检索器在所述多个备选答案中选取用于答复所述问题的备选答案。

第二方面，本发明实施例提供一种视觉语义对话系统，包括：

信息接收程序模块，用于接收视觉图片以及与所述视觉图片相关的对话文本，其中，所述对话文本包括：历史上下文文本以及与所述视觉图片相关的问题对话；

文本向量确定程序模块，用于将所述对话文本输入至使用注意力机制的历史对话编码器，以得到所述历史上下文文本的第一文本向量和所述问题对话的第二文本向量；

图片向量确定程序模块，用于通过关系图像编码器在所述视觉图片中提取与所述第一文本向量和所述第二文本向量语义对应的图片向量；

循环学习程序模块，用于基于循环注意管理器对所述第一文本向量、所述第二文本向量以及相应的图片向量进行循环学习推理训练，以在每轮的循环学习中得到与所述视觉图片相关的问题的多个备选答案；

对话程序模块，用于通过答案检索器在所述多个备选答案中选取用于答复所述问题的备选答案。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的视觉语义对话方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的视觉语义对话方法的步骤。

本发明实施例的有益效果在于：使用循环结构进行注意力推理能够用于在多个表现模态上进行信息的整合与进一步的萃取。进而可以处理高阶逻辑的问题。进一步地，使用循环多跳推理机制不仅可以用于本模型所适用的视觉场景任务中，也可用于其他涉及图像和文本之间信息整合的领域任务，包括图像标题提取、视觉问答任务、图像实体关系分析等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种视觉语义对话方法的流程图；

图2是本发明一实施例提供的一种视觉语义对话方法的模型框架体系结构图；

图3是本发明一实施例提供的一种视觉语义对话方法的性能对比图；

图4是本发明一实施例提供的一种视觉语义对话方法的递归层数示意图；

图5是本发明一实施例提供的一种视觉语义对话方法的语义关系提取子组件的效果示意图；

图6是本发明一实施例提供的一种视觉语义对话系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种视觉语义对话方法的流程图，包括如下步骤：

S11：接收视觉图片以及与所述视觉图片相关的对话文本，其中，所述对话文本包括：历史上下文文本以及与所述视觉图片相关的问题对话；

S12：将所述对话文本输入至注意力机制的使用历史对话编码器，以得到所述历史上下文文本的第一文本向量和所述问题对话的第二文本向量；

S13：通过关系图像编码器在所述视觉图片中提取与所述第一文本向量和所述第二文本向量语义对应的图片向量；

S14：基于循环注意管理器对所述第一文本向量、所述第二文本向量以及相应的图片向量进行循环学习推理训练，以在每轮的循环学习中得到与所述视觉图片相关的问题的多个备选答案；

S15：通过答案检索器在所述多个备选答案中选取用于答复所述问题的备选答案。

在本实施方式中，为了使视觉问答对话系统不仅进行一次注意力映射的分析，而是通过一个循环的结构，将注意力分析在文本信息和图像信息之间进行多轮的跳跃，将包含了注意力信息的上下文向量送入答案撷取器，获取当前轮次问题的答案，建立了以下框架，所述框架包含了五个子级模块，如图2所示的模型框架体系结构图，分别为历史对话编码器(History-Aware Dialog Encoder，HADE)、关系图像编码器(Relation-Aware ImageEncoder，RAIE)、循环注意管理器(Recurrent Attention Manager，RAM)、上下文整合(Context Integration)、答案检索器(Answer Ranker，AR)。

对于步骤S11，视觉语义对话的输入由图像和对话文本构成，其中，对话文本中包含了问题的对话以及历史上下文。如图2所示，输入的图像为一只猫的图片，对话文本为：

Q0：is the cat small？

A0：it’s average size。

Q1：Does it have short fur？

A1：？

对于步骤S12，历史对话编码器用于编码对话的历史上下文信息。该模块使用了注意力机制(Attention Mechanism)，通过如下公式计算问题q和历史上下文H的注意力，其中W为权重参数，softmax为一类用来进行概率归一化的映射函数。

历史对话编码器的输入包括历史上下文向量

和问题上下文向量

的集合，L_h是历史的长度，而d_emb是嵌入大小。

其中

和

是投影矩阵。d是q的维度。

是串联操作。q是由递归循环注意管理器的全局上下文向量，初始值为q₀。堆叠了多个注意层，以实现更高级别的抽象。将残差连接和层归一化应用于每一层的输出，然后是两层前馈网络。最后，通过以下方式获得历史感知的上下文表示

对于步骤S13，关系图像编码器RAIE模块用于编码对话涉及的图片中的关系信息。关系信息通过关系图注意力机制进行提取。关系图注意力机制是一类建立在各个实体之间根据关系在其他节点上进行注意力分布推断的机制，能够通过注意力分数的大小表现某个实体节点与其周边节点之间的关系在当前上下文中的重要性。

在这里，使用了类似的注意力机制，但是不同的，本方法考虑了对话历史，而不是仅使用问题来查询图像。将对象i的特征向量表示为v_i。将每个对象特征v_i与具有历史意识的上下文表示

连接起来：

首先计算对象i，j之间的相似度得分

和相对位置得分

其中α_i,j表示某个节点i在邻域节点j上的注意力权重大小，而节点的最终表示方法为其邻域的加权均值v_i。

是投影矩阵，d_text是

的维度。b_i是对象i的边界框功能。f_s(b_i,b_j)是可学习的位置嵌入函数，可生成两个区域的标量度量。然后通过以下方式计算隐式关系注意：

其中

ReLU是激活函数，而

是对象i的隐式关系向量。

作为一种实施方式，在本实施例中，在所述提取与所述第一文本向量和所述第二文本向量语义对应的图片向量之后，所述方法还包括：

建立所述文本向量与所述图片向量的双向三元组对，通过所述双向三元组对表示所述文本向量与所述图片向量的语义关系，其中，所述文本向量包括所述第一文本向量以及所述第二文本向量。所述双向三元组对包括：<图片宾语，谓语，文本宾语>。

其中实体之间的关系被表示为双向的三元组对<object_i，predicate，object_j>，其中谓词predicate表示关系，例如“乌鸦喝水”中的“喝”、“苏武牧羊”中的“牧”等。

并且i和j的顺序不可互换。提取这种方向关系的任务可以表述为分类任务。利用关系信息，可以通过以下方式计算显式关系的注意：

其中U,V是投影矩阵，N_i表示与对象i有明确关系的所有对象，W_d(i,j)；V_d(i，j)是由关系方向d(i，j)和b_t(i，j)；c_t(i，j)是由关系类型t(i，j)确定的偏差项。语义关系注意和空间关系注意是通过一组不同的参数来计算的。这种关注机制允许模块在对话历史记录和对象关系信息的引导下，关注转换中当前提到的区域。与ReGAT不同，此处还应用了多头和多层设置。该模块的最终输出是三个注意力向量的串联：

对于步骤S14，循环注意力管理器由两个组件组成，作为一种实施方式，所述循环注意管理器包括：上下文整合模块和上下文更新模块。上下文整合模块将历史对话编码器和关系图像编码器的输出作为输入，并计算对象关系向量的加权和x_t。上下文更新模块使用x_t更新全局上下文，并将全局上下文作为查询Q传递回历史对话编码器，以进行更精细的处理。

上下文整合Context Integration模块用于整合图像信息和文本信息。该模块采用了类似的注意力机制，其以文本信息作为注意力查询的query，而将图像信息作为注意力映射的目标。这个过程可以通过如下所示的公式进行详细表述。其中W表示权重矩阵，q表示文本信息，V表示图像信息。其中的Attention参见HADE模块中已经述及的内容。

其中

是

的集合，

和

在这里，x_c可以看作是通过转换聚焦的对象的表示。

循环注意管理器RAM模块则用于将通过Context Integration模块获取的整合后的图像和文本信息x_t循环性地送入下一轮循环中的历史对话编码器作为其输入q。在此过程中，RAM模块执行对于上一轮图像-文本向量的处理工作，实际执行时是通过一个LSTM(Long Short-Term Memory，长短期记忆网络)进行的。LSTM能够通过一个学习训练的过程来掌握在每个循环中应当保留哪些信息，并且应当摒弃哪些无用信息。通过这样一个信息筛选的过程，实现了推理整合的逻辑目标。从而推理出与视觉图片相关的问题的多个备选答案。

该过程详细表示为以下公式，其中h表示LSTM结构中用来保留上一次推理中的信息的隐藏向量，而LSTM的详细结构不在本方法详述之列。

h_t＝LSTM(x_t，h_t-1)

h_t是时间步长t的隐藏状态，被视为全局上下文向量。h_t用作第t轮历史对话编码器的输入Q，问题q的初始值是h₀。在每次运行时，全局上下文包含更多信息，并使历史编码过程更加具体，因此模块可以以更长的依赖关系执行推理。最终输出将为x_n，n是控制上下文更新模块的总运行次数的超参数。

对于步骤S15，答案检索器Answer Ranker模块用于为备选的答案集合进行打分排序，排序越靠前的答案，表明与该问题相关性越高。

作为一种实施方式，所述通过答案检索器在所述多个备选答案中选取用于答复所述问题的备选答案包括：

通过余弦相似度确定所述多个备选答案与所述问题的相关度；

基于所述相关度确定各备选答案的得分，其中，所述相关度与所述得分正相关；

选取得分最高的备选答案用于答复所述问题。

此处直接使用余弦相似度进行测量，反映在计算上就是内积相似度，如下公式进行详细表述。

c＝x_TW_c，p_i＝softmax(E_ac^T)

其中

是答案上下文矩阵，na是候选列表的编号。

在最后，如果还有下一轮的其他对话，上述所有模块执行一个循环的过程，也即将上下文整合模块的输出重新送到循环注意管理器模块中，经过LSTM的整合，获取下一个循环的输入Q。

通过该实施方式可以看出，使用循环结构进行注意力推理能够用于在多个表现模态上进行信息的整合与进一步的萃取。进而可以处理高阶逻辑的问题。进一步地，使用循环多跳推理机制不仅可以用于本模型所适用的视觉场景任务中，也可用于其他涉及图像和文本之间信息整合的领域任务，包括图像标题提取、视觉问答任务、图像实体关系分析等。

对本方法进行进一步实验，在VisDial v1.0数据集上评估了本方法提出的模型。它包含123k，2k和8k对话框，分别作为训练，验证和测试拆分。对于每个问题，对话代理都会获得100个候选答案的列表。三种评估指标可用于检索性能：(1)人类反应的平均等级；(2)R@k(排名靠前k的人类反应的存在与人类反应的等级相关。还对折现累积收益(NDCG)进行了评估，这是一种更强大的评估指标，可对具有高相关分数的低排名候选人进行惩罚。

关系感知图像编码器。使用感兴趣区域(ROI)。每个图像由1-100个ROI组成，并且两个ROI的每对均以两种方向关系连接，如上所述。图像特征d_image的原始尺寸为2048，首先将其减小为512。图像编码器的隐藏层大小也为512。

历史感知对话框编码器。使用共享的GloVe层将单词嵌入到300维矢量中。LSTM隐藏状态的维设置为512。磁头数为4，并且堆叠了2个关注层，每个关注层的隐藏大小为1024。

循环注意管理器。在上下文整合模块中，使用具有2个头和2层的多头注意力，隐藏大小为512。每个LSTM单元的输入特征x_t是1024像素矢量，而隐藏特征h_t是512像素矢量。

培训细节。将训练中的标准交叉熵损失降到最低，并使用Adam将学习速率为1*10^-3，每个时代降低1*10^-4，直到第6个时代，然后将每个时代的降低率减半。

VisDial v1.0数据集上的结果。如图3所示的性能对比图，本方法的模型优于所有其他方法，并在其他指标上取得可比的结果。

推理重现。循环注意网络通过循环上下文管理器获得多跳推理功能。它关注对话历史记录以获得视觉感知的文本功能，然后关注ROI功能以获得视觉感知的文本功能计算总共执行n次，其中n是超参数。并通过视觉和文字注意权重将推理过程可视化。

对具有三种模型变体的VisDial v1.0验证拆分执行消融研究：(1)具有不同推理递归的模型；(2)具有不同RAIE注意层的模型；(3)具有或不具有RAIE的模型。

图4所示的递归层数示意图所示的递归模型在视觉参考分辨率方面有利于多跳推理，这通过度量MRR的增加以及RAIE层反映出来。图5的语义关系提取子组件的效果示意图中显示的带有/不带有RAIE模块的模型的定量结果表明，这些模块也可以与MRR一起使用。

如图6所示为本发明一实施例提供的一种视觉语义对话系统的结构示意图，该系统可执行上述任意实施例所述的视觉语义对话方法，并配置在终端中。

本实施例提供的一种视觉语义对话系统包括：信息接收程序模块11，文本向量确定程序模块12和图片向量确定程序模块13；循环学习程序模块14；对话程序模块15。

其中，信息接收程序模块11用于接收视觉图片以及与所述视觉图片相关的对话文本，其中，所述对话文本包括：历史上下文文本以及与所述视觉图片相关的问题对话；文本向量确定程序模块12用于将所述对话文本输入至使用注意力机制的历史对话编码器，以得到所述历史上下文文本的第一文本向量和所述问题对话的第二文本向量；图片向量确定程序模块13用于通过关系图像编码器在所述视觉图片中提取与所述第一文本向量和所述第二文本向量语义对应的图片向量；循环学习程序模块14用于基于循环注意管理器对所述第一文本向量、所述第二文本向量以及相应的图片向量进行循环学习推理训练，以在每轮的循环学习中得到与所述视觉图片相关的问题的多个备选答案；对话程序模块15用于通过答案检索器在所述多个备选答案中选取用于答复所述问题的备选答案。

进一步地，所述循环注意管理器包括：上下文整合模块；

所述基于循环注意管理器对所述第一文本向量、所述第二文本向量以及相应的图片向量进行循环学习推理训练包括：

通过上下文整合模块对每一轮对话的文本向量和图片向量进行整合，其中，所述文本向量包括：所述第一文本向量以及所述第二文本向量；

将整合后的文本向量和图片向量送入历史对话编码器，以用于下一轮循环。

进一步地，所述对话程序模块用于：

选取得分最高的备选答案用于答复所述问题。

进一步地，所述图片向量确定程序模块用于：

建立所述文本向量与所述图片向量的双向三元组对，通过所述双向三元组对表示所述文本向量与所述图片向量的语义关系，其中，所述文本向量包括所述第一文本向量以及所述第二文本向量。

进一步地，所述双向三元组对包括：<图片宾语，谓语，文本宾语>。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的视觉语义对话方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的视觉语义对话方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的视觉语义对话方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视觉语义对话方法，包括：

通过答案检索器在所述多个备选答案中选取用于答复所述问题的备选答案，

其中，所述循环注意管理器包括：上下文整合模块；

2.根据权利要求1所述的方法，其中，所述通过答案检索器在所述多个备选答案中选取用于答复所述问题的备选答案包括：

选取得分最高的备选答案用于答复所述问题。

3.根据权利要求1所述的方法，其中，在所述提取与所述第一文本向量和所述第二文本向量语义对应的图片向量之后，所述方法还包括：

4.根据权利要求3所述的方法，其中，所述双向三元组对包括：<图片宾语，谓语，文本宾语>。

5.一种视觉语义对话系统，包括：

对话程序模块，用于通过答案检索器在所述多个备选答案中选取用于答复所述问题的备选答案，

其中，所述循环注意管理器包括：上下文整合模块；

6.根据权利要求5所述的系统，其中，所述对话程序模块用于：

选取得分最高的备选答案用于答复所述问题。

7.根据权利要求5所述的系统，其中，所述图片向量确定程序模块用于：

8.根据权利要求7所述的系统，其中，所述双向三元组对包括：<图片宾语，谓语，文本宾语>。