CN113435399B

CN113435399B - 一种基于多层次排序学习的多轮视觉对话方法

Info

Publication number: CN113435399B
Application number: CN202110793167.8A
Authority: CN
Inventors: 高联丽; 陈堂明; 李向鹏; 宋井宽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2022-04-15
Anticipated expiration: 2041-07-14
Also published as: CN113435399A

Abstract

本发明公开了一种基于多层次排序学习的多轮视觉对话方法，提出了上下文控制门机制，自适应地赋予对话历史信息权重以回答当前的问题，避免了盲目使用对话历史信息造成的冗余信息。同时本发明设计了多层次排序学习模块，将所有选项划分为3个层次，提升了与正确答案语义相近但是没有被标注为正确答案的选项的排名，从而提升了模型的泛化能力。

Description

一种基于多层次排序学习的多轮视觉对话方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于多层次排序学习的多轮视觉对话方法的设计。

背景技术

随着视觉和语言交互领域的快速发展，多轮视觉对话方法在近些年得到了广泛的关注和巨大的进步。作为传统视觉问答方法的一个分支，多轮视觉对话方法是围绕着给定的图片进行多轮对话，它的重心在于分析当前问题和对话历史信息之间的关系，并用于支持问题回答，在现实中具有广泛的应用，例如视障人士的视觉助理，协助分析人员的大数据分析助手，搜寻和救援助手等。相比较于传统的视觉问答，多轮视觉对话不仅要考虑到当前的问题和视觉信息，还需要考虑到之前的对话历史信息，通过这三种信息的结合与分析推理，最后进行回答问题。因此，完成这个任务需要多个技术领域支撑，例如对于视觉信息分析的目标检测，对于问题和对话历史信息推理的共同指代推理，以及文本信息和视觉信息融合的多模态推理等。正因为方法涉及技术领域较多，方法复杂性高，它目前是多媒体智能方面一个亟待解决的问题。

目前对于多轮视觉问答方法的研究主要集中在解决当前问题和对话历史信息之间的共同指代。因为该任务是多轮对话的形式，当前的问题可能会出现代词“他”，因此需要通过之前的对话信息来判断这个代词“他”代表什么意思，从而得到一个语义更加清楚的问题，进而结合给定的图片进行回答问题。然而，并不是所有的问题都需要结合之前的对话信息来得到一个语义更加清楚的问题。首先，一些问题本身就是语义清楚的，其次，在直接结合图片的前提下，一些存在代词的问题也可以直接回答，例如问题中存在代词“他”，但是图片中只有一个男孩。在这两种情况下，结合之前的对话信息会带来冗余的信息，并且可能会导致最后回答错误。除此之外，因为多轮视觉问答方法的回答形式是对给定的100个选项进行排序，排序越靠前，越被认为是正确答案。在对数据标注时，这100个选项中只有一个被标注为正确答案，但是，除了这个被标注为正确答案的选项外，可能还存在着其他语义与正确答案相近的选项，例如，正确答案为“是的”，选项中可能存在“当然，是的”。之前的方法只考虑如何提升正确答案在最终的排序列表中的排名，但是忽略了其他没有标注为正确答案但是语义与正确答案相同的选项的排名，这样导致模型的泛化能力不够好。

发明内容

本发明的目的是为了解决现有多轮视觉对话方法存在的上述问题，提出了一种基于多层次排序学习的多轮视觉对话方法。

本发明的技术方案为：一种基于多层次排序学习的多轮视觉对话方法，包括以下步骤：

S1、利用预训练的快速区域物体检测器提取图像中的视觉特征。

S2、利用双向长短期记忆网络作为问题的文本编码器，得到问题文本特征。

S3、利用双向长短期记忆网络作为对话历史的文本编码器，得到对话历史文本特征。

S4、利用直接回答模块融合图像中的视觉特征和问题文本特征，得到第一融合特征。

S5、利用对话历史解析回答模块融合图像中的视觉特征、问题文本特征和对话历史文本特征，得到第二融合特征。

S6、将第一融合特征和第二融合特征输入至上下文控制门中，通过上下文控制门自适应地选择两种特征的权重，并对两种特征进行加权融合，得到第三融合特征。

S7、利用双向长短期记忆网络作为选项的文本编码器，得到选项文本特征。

S8、将第三融合特征和选项文本特征输入至解码器中，得到所有选项的概率得分。

S9、通过多层次排序学习模块将所有选项划分为3个层次。

S10、根据所有选项的概率得分和所有选项划分得到的3个层次，计算得到多层次排序学习损失函数。

S11、根据所有选项的概率得分计算得到交叉熵损失函数。

S12、根据多层次排序学习损失函数和交叉熵损失函数计算得到最终损失函数。

S13、通过最终损失函数对多轮视觉对话网络进行更新，实现多轮视觉对话。

进一步地，步骤S4中利用直接回答模块融合图像中的视觉特征和问题文本特征的公式为：

α_qv＝softmax(s_qv)

e^d＝[q,v^d]

其中q表示问题文本特征，V表示图像中的视觉特征，W_qv表示可学习参数，s_qv表示问题文本特征和视觉特征的非线性映射结果，

表示直接回答模块中问题文本特征的非线性映射函数，

表示直接回答模块中视觉特征的非线性映射函数，

表示哈达玛积，softmax(·)表示softmax函数，α_qv表示直接回答模块中需要关注的视觉信息，

表示直接回答模块中第i个需要关注的视觉信息，v^d表示直接回答模块中需要关注的视觉信息的加权求和结果，n_v表示视觉特征V中的目标个数，v_i表示第i个目标的特征，[·]表示特征拼接操作，e^d表示第一融合特征。

进一步地，步骤S5中利用对话历史解析回答模块融合图像中的视觉特征、问题文本特征和对话历史文本特征的公式为：

α_qh＝softmax(s_qh)

q^c＝q+h^c

α_hv＝softmax(s_hv)

e^c＝[q^c,v^c]

其中q表示问题文本特征，H表示对话历史文本特征，V表示图像中的视觉特征，W_qh和W_hv均为可学习参数，

表示对话历史解析回答模块中问题文本特征的非线性映射函数，

表示对话历史解析回答模块中对话历史文本特征的非线性映射函数，s_qh表示问题文本特征和对话历史文本特征的非线性映射结果，softmax(·)表示softmax函数，α_qh表示需要关注的文本信息，

表示第i个需要关注的文本信息，h^c表示需要关注的文本信息的加权求和结果，t表示对话的轮数，h_i表示第i轮对话的特征，q^c表示更新后的问题文本特征，s_hv表示更新后的问题文本特征和视觉特征的非线性映射结果，α_hv表示对话历史解析回答模块中需要关注的视觉信息，

表示对话历史解析回答模块中第i个需要关注的视觉信息，v^c表示对话历史解析回答模块中需要关注的视觉信息的加权求和结果，[·]表示特征拼接操作，e^c表示第二融合特征。

进一步地，步骤S6中的上下文控制门包括过滤门和判断门。

过滤门的公式为：

其中g_v表示过滤后的第一融合特征，g_h表示过滤后的第二融合特征，σ(·)表示sigmoid函数，e^d表示第一融合特征，e^c表示第二融合特征，W_s表示可训练参数。

判断门的公式为：

λ＝σ(W_d e^d)

f＝λg_v+(1-λ)g_h

其中W_d表示可训练参数，λ表示g_v的权重参数，f表示第三融合特征。

进一步地，步骤S9中的3个层次包括和正确答案语义最相近的选项、和正确答案语义次相近的选项以及和正确答案语义最不相近的选项。

进一步地，步骤S10中的多层次排序学习损失函数L_MRL为：

L_MRL＝max{0，δ-f(f，c)+f(f，[s，r])}+max{0，δ-f(f，s)+f(f，r)}

其中δ表示超参数，f(.)表示余弦相似度，f表示第三融合特征，c、s和r分别表示和正确答案语义最相近的选项、和正确答案语义次相近的选项以及和正确答案语义最不相近的选项。

进一步地，步骤S11中的交叉熵损失函数L_CE为：

L_CE＝-∑y_i logp_i

其中y_i表示正确答案在第i个选项中的下标，p_i表示第i个选项的概率分布。

进一步地，步骤S12中的最终损失函数L为：

L＝L_CE+β*L_MRL

其中L_CE表示交叉熵损失函数，L_MRL表示多层次排序学习损失函数，β表示L_MRL的权重。

本发明的有益效果是：

(1)本发明提出了上下文控制门机制，自适应地赋予对话历史信息权重以回答当前的问题，避免了盲目使用对话历史信息造成的冗余信息。

(2)本发明设计了多层次排序学习模块，将所有选项划分为3个层次，提升了与正确答案语义相近但是没有被标注为正确答案的选项的排名，从而提升了模型的泛化能力。

附图说明

图1所示为本发明实施例提供的一种基于多层次排序学习的多轮视觉对话方法流程图。

图2所示为本发明实施例提供的基于多层次排序学习的多轮视觉对话网络结构框图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种基于多层次排序学习的多轮视觉对话方法，如图1和图2共同所示，包括以下步骤S1～S13：

S1、利用预训练的快速区域物体检测器(Faster-RCNN)提取图像中的视觉特征。

S2、利用双向长短期记忆网络(BiLSTM)作为问题的文本编码器，得到问题文本特征。

本发明实施例中，在直接回答模块首先将图像中的视觉特征和问题文本特征进行非线性映射，再通过问题文本特征对视觉特征使用注意力机制得到需要关注的视觉信息，并对需要关注的视觉信息进行加权求和，最后将问题文本特征与加权后的视觉特征进行拼接。具体公式如下：

α_qv＝softmax(s_qv)

e^d＝[q，v^d]

表示直接回答模块中问题文本特征的非线性映射函数，

表示直接回答模块中视觉特征的非线性映射函数，°表示哈达玛积，softmax(·)表示softmax函数，α_qv表示直接回答模块中需要关注的视觉信息，

本发明实施例中，在对话历史解析回答模块中首先将这问题文本特征和对话历史文本特征进行非线性映射，再通过问题文本特征对对话历史文本特征使用注意力机制得到需要关注的文本信息，并对需要关注的文本信息进行加权求和，并更新问题文本特征；最后，将更新后的问题文本特征与视觉特征采用与步骤S4相同的操作。具体公式如下：

α_qh＝softmax(s_qh)

q^c＝q+h^c

α_hv＝softmax(s_hv)

e^c＝[q^c，v^c]

本发明实施例中，上下文控制门包括过滤门和判断门。

其中，过滤门主要分析上下文信息，对信息中的每个信号分配合适的权重，具体来说，将给定的信息输入进入一个sigmoid函数，从而产生一个遗忘向量，这个向量代表着给定的信息中每个信号的权重，通过将该遗忘向量与给定信息进行对应位置点乘，得到过滤后的信息，具体公式如下：

判断门将第一融合特征e^d作为输入，自适应地判断只依靠当前给定的信息有多大概率能够回答问题。具体而言，将e^d输入进一个sigmoid函数，进而产生一个范围在0到1之间的标量值，这个标量值代表着过滤后的第一融合特征g_v的权重，与之相对应的权重则是过滤后的第二融合特征g_h的权重，具体公式如下：

λ＝σ(W_d e^d)

f＝λg_v+(1-λ)g_h

S9、通过多层次排序学习模块将所有选项划分为3个层次。

本发明实施例中，划分的3个层次包括和正确答案语义最相近的选项、和正确答案语义次相近的选项以及和正确答案语义最不相近的选项。

本发明实施例中，多层次排序学习损失函数用来提升其他没有被标注为正确答案但是语义上与正确答案相似答案的排名。具体来说，在模型训练阶段，先将100个选项输入进双向转换器表征编码器BERT，得到这100个选项的表征；使用余弦相似度计算其中的正确答案与100个选项(其中包含正确答案)之间的相似度，并且按照相似度从高到低排序；把根据相似度排序好的选项分成三部分，排序最靠前的K个选项看成是和正确答案语义最相近的选项c，接下来的排序靠前的M个选项看成是和正确答案语义次相近的选项s，剩下的100-K-M个选项看成是最不相近的选项r；根据选项划分，设计一个多层次排序学习损失函数L_MRL来提升其他语义相似答案的排名，公式如下：

L_MRL＝max(0,δ-f(f,c)+f(f,[s,r])}+max{0,δ-f(f,s)+f(f,r)}

S11、根据所有选项的概率得分计算得到交叉熵损失函数。

本发明实施例中，交叉熵损失函数L_CE用来保证正确答案的排序结果，其具体公式如下：

L_cE＝-∑y_i logp_i

其中y_i表示正确答案在第i个选项中的下标，p_i表示第i个选项的概率分布。本发明实施例中，根据标签，其中只有正确答案的y_i为1，其他选项则为0；同时在交叉熵损失函数公式中，只有正确答案会有损失结果logp_i，其他选项的损失结果为0，所以交叉熵损失函数只会惩罚正确答案，从而让正确答案的概率得分变高。

本发明实施例中，最终损失函数L的公式如下：

L＝L_CE+P*L_MRL

本发明实施例中，多轮视觉对话网络如图2所示，包括多模态特征提取模块、模态交互和上下文控制门模块以及损失函数模块，通过损失函数模块得到的最终损失函数L对多模态特征提取模块以及模态交互和上下文控制门模块中的参数进行更新，通过更新得到的多轮视觉对话网络即可实现多轮视觉对话。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。