CN113065012A

CN113065012A - 一种基于多模态动态交互机制的图文解析方法

Info

Publication number: CN113065012A
Application number: CN202110288644.5A
Authority: CN
Inventors: 曲磊钢; 刘萌; 胡宇鹏; 高赞; 聂礼强
Original assignee: Shandong University; Shandong Institute of Artificial Intelligence
Current assignee: Shandong University; Shandong Institute of Artificial Intelligence
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-07-02
Anticipated expiration: 2041-03-17
Also published as: CN113065012B

Abstract

一种基于多模态动态交互机制的图文解析方法，提出了一个动态模态交互建模框架用于解决图文检索问题，该框架不仅能够涵盖现有方法的交互模式，还能够自动学习其他未被探索到的模式。为了赋予模型充分的模态交互能力，从不同角度、不同粒度设计了四种基础的交互模块，其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式，在每个交互模块中整合了一个动态路由器。通过提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束，确保了模型路径学习的高效性。在进行图像和文本之间的相互检索时准确度大幅度提高。

Description

一种基于多模态动态交互机制的图文解析方法

技术领域

本发明涉及图文检索技术领域，具体涉及一种基于多模态动态交互机制的图文解析方法。

背景技术

视觉和语言作为信息表示、存储和传播的两大重要媒介，在日常生产和生活中扮演着重要的角色。近年来，随着计算机技术和人工智能的发展，人们对机器感知和推理的需求与日俱增，特别是对于图像和文本两种数据的理解与匹配，故图文检索吸引了国内外众多研究者的研究兴趣。作为信息检索和多媒体计算领域的基础性和关键性任务，其不仅能有效地打破视觉和语言之间的语义鸿沟和分布壁垒，还能促进许多上层应用的发展(如：跨模态检索、图像标注、视觉问答)，因而具有广泛的、深刻的研究意义。

图文检索任务聚焦于图像和文本之间的相互检索，它的发展面临着诸多挑战，其中的两个最具代表性的挑战为：模态内关系的推理和模态间语义的对齐。前者要求准确地识别和理解模态内部实体间的关系，如“小男孩旁边有一个红色的雪橇”；后者则要求在语义层面精确地对不同模态间的实体进行对齐。近年来，针对以上两大挑战，图文检索领域涌现了众多研究工作，其大致可以分为三个类别：基于模态内交互的方法、基于模态间交互的方法、基于混合模态交互的方法。这三类方法主要存在两个问题：首先，这些方法的模态交互模式是手工设计的，严重依赖于专家性经验和大量的实验反馈，这很有可能导致最优的模态交互模式未被探索到；另外，这些方法无一例外都属于静态方法，即所有的数据样本都经过相同且固定的计算流。即使简单的样本也不得不经过复杂的交互计算，这将导致计算资源的浪费。

发明内容

本发明为了克服以上技术的不足，提供了一种实现图像数据库和文本数据库之间的双向语义配对和检索的基于多模态动态交互机制的图文解析方法。

本发明克服其技术问题所采用的技术方案是：

一种基于多模态动态交互机制的图文解析方法，包括如下步骤：

a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入；

b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作；

c)对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度；

d)利用在线负样本挖掘方法计算三元组损失项；

e)以BERT提取的文本特征之间的相似度为监督信号，对收集的交互路径之间的相似度进行约束，得到路径损失项；

f)结合三元组损失项和路径损失项，利用PyTorch中的Adam优化器对模型进行端到端的优化；

g)使用优化的模型提取图像和文本的特征，计算余弦相似度，进行双向跨模态检索。

进一步的，步骤a)中选择Bottom-up Attention网络提取的按照置信度排序的前R个区域特征，使用全连接变换得到矩阵V，

v_i为第i个区域的特征，i∈{1,...,R}，

为实数空间，D为特征的维度，对矩阵V利用平均池化得到全局图像特征

利用预训练的BERT模型提取文本词嵌入，使用一维卷积网络对提取的文本词嵌入进行局部关系增强，得到矩阵W，

w_i为第i个单词的特征，i∈{1,...,K}，对矩阵W利用最大池化得到全局文本特征

进一步的，步骤b)包括如下步骤：

b-1)通过公式

得到第l层第i个基础交互模块输出的特征矩阵

式中

为第l层第i个基础交互模块的交互函数，

为第l层第i个基础交互模块的输入，使用矩阵

表示局部查询特征，使用矩阵

表示全局查询特征，使用矩阵

表示局部候选特征，使用矩阵

表示全局候选特征，M和N分别为两个矩阵的行数，对于图像-文本模型版本，赋值X:＝V(M:＝R)和Y:＝W(N:＝K)，对于文本-图像模型版本，赋值X:＝W(M:＝K)和Y:＝V(N:＝R)；

b-2)通过公式

建立修正恒等模块，ReLU(·)为修正线性映射；

b-3)通过公式

建立模态内推理模块，式中

Concat(·)为拼接操作，H为头的数目，FFN(·)为由两层感知机所实现的前馈网络，

i∈{1,...,H}，

Softmax(·)为Softmax函数，T为转置，d_k为Q′和K′的维度，W_i ^Q′、W_i ^K′、W_i ^V′为模型的权重；

b-4)通过公式

建立整体-局部引导模块，d_r为引导方向，Norm(·)为L2归一化操作，FC为全连接层，x_r为整体-局部引导模块的输入，x_r′为整体-局部引导模块的输出，r∈{1,...,M}；

b-5)通过公式

计算注意力权重a_rk，式中λ为温度因子的倒数，s_rk＝cos(x_r,y_k)，x_r为矩阵X的第r个行向量，y_k为矩阵Y的第k个行向量，通过公式

计算上下文向量c_r；

b-6)通过公式

建立跨模态精炼模块，式中FC(·)为全连接层的映射，Tanh(·)为双曲正切函数，MLP(·)为多层感知机，

为当前模块的输出，跨模态精炼模块表示为

进一步的，步骤c)包括如下步骤：

c-1)对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作，连接后形成路径空间；

c-2)通过公式

表示路径空间的路由过程，式中C为每层的模块总数，

表示第(l-1)层第j个模块的输出，

为第(l-1)层第j个cell到第1层第i个cell的路由概率，

为第l层第i个cell的路由函数，

为

的第r个行向量；

c-3)通过公式

得到精炼特征矩阵X^*，

为矩阵X第L层第0个cell，L为总层数，对精炼特征矩阵X^*所有行向量进行平均池化和最大池化操作得到精炼的全局特征x^*。

进一步的，步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到。

进一步的，步骤d)包括如下特征：步骤d)包括如下特征：

d-1)给定图像I和文本T，通过

计算图像-文本版本的模型的相似度s(I,T)，通过公式

计算文本-图像版本的模型的相似度s(I,T)，对于图像-文本模型版本，赋值X:＝V，模型输出为v^*＝x^*，对于文本-图像模型版本，赋值X:＝W，模型输出为w^*＝x^*；

d-2)通过公式

计算得到三元组损失项L_A，式中a为间隔系数，[·]₊＝max(·,0)，

进一步的，步骤e)包括如下步骤：

e-1)收集并拼接路由概率得到路由向量

e-2)以BERT提取的文本嵌入作为监督信号，使用语义-路径一致性损失对路由向量的学习进修越是，通过公式

计算路径损失项L_P，式中B为与x处于相同模态的数据实例集合，

与

为相应的BERT输出特征，g_y为临时变量。

进一步的，步骤f)中通过公式L＝L_A+λ_PL_P结合三元组损失项和路径损失项得到最终的损失L，λ_P为权衡参数。

本发明的有益效果是：提出了一个动态模态交互建模框架用于解决图文检索问题，该框架不仅能够涵盖现有方法的交互模式，还能够自动学习其他未被探索到的模式。为了赋予模型充分的模态交互能力，从不同角度、不同粒度设计了四种基础的交互模块，其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式，在每个交互模块中整合了一个动态路由器。通过提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束，确保了模型路径学习的高效性。在进行图像和文本之间的相互检索时准确度大幅度提高。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入。

b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作。

c)。为每个基础交互模块配置一个路由器，路由器能够根据数据自动学习交互路径。在图像-文本版本的模型中，把图像的视觉区域特征作为计算的主体，文本的词嵌入作为交互的辅助模态，两者作为输入通过多层的由四种交互模块稠密连接形成的模态交互路由模型中。文本-图像版本同理，也进行与此对称的操作过程对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度。

d)基于所计算的余弦相似度，利用在线负样本挖掘方法计算三元组损失项。

e)以BERT提取的文本特征之间的相似度为监督信号，对所收集的交互路径之间的相似度进行约束，得到路径损失项，该项可使语义空间和路径空间在一定程度上能够保持一致。

f)结合三元组损失项和路径损失项，利用PyTorch中的Adam优化器对模型进行端到端的优化。

g)在测试阶段，使用优化的模型提取图像和文本的特征，计算余弦相似度，以此进行双向跨模态检索。

提出了一个动态模态交互建模框架用于解决图文检索问题，该框架不仅能够涵盖现有方法的交互模式，还能够自动学习其他未被探索到的模式。这是第一个利用动态机制对模态交互模式进行探索的工作。为了赋予模型充分的模态交互能力，本发明从不同角度、不同粒度设计了四种基础的交互模块，其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式，本发明在每个交互模块中整合了一个动态路由器。此外，本发明提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束，确保了模型路径学习的高效性。通过使用本发明进行图像和文本之间的相互检索，准确度大幅度提高。

实施例1：

步骤a)中选择Bottom-up Attention网络提取的按照置信度排序的前R个区域特征，使用全连接变换得到矩阵V，

v_i为第i个区域的特征，i∈{1,...,R}，

实施例2：

步骤b)包括如下步骤：

b-1)通过公式

得到第l层第i个基础交互模块输出的特征矩阵

式中

为第l层第i个基础交互模块的交互函数，

为第l层第i个基础交互模块的输入，使用矩阵

表示局部查询特征，使用矩阵

表示全局查询特征，使用矩阵

表示局部候选特征，使用矩阵

表示全局候选特征，M和N分别为两个矩阵的行数。本发明共设计了两种版本的模型：对于图像-文本模型版本，赋值X:＝V(M:＝R)和Y:＝W(N:＝K)，对于文本-图像模型版本，赋值X:＝W(M:＝K)和Y:＝V(N:＝R)。

b-2)为了能够使模型能够灵活地跳过非必要的复杂交互，本发明首先设计了一个简单的修正恒等模块，其操作定义为：

ReLU(·)为修正线性映射。

b-3)通过公式

建立模态内推理模块，本发明使用多头注意力机制设计模态内推理模块，赋予模型模态内关系推理的能力，该机制表示如下：

i∈{1,...,H}，

Softmax(·)为Softmax函数，T为转置，d_k为Q′和K′的维度，W_i ^Q′、W_i ^K′、W_i ^V′为模型的权重。

b-4)管局部表征可以编码细节线索，但全局特征中包含了丰富的上下文和高层次语义信息，仍然值得关注。为此，本发明设计了整体-局部引导模块，该模块表示如下：

d_r为引导方向，Norm(·)为L2归一化操作，FC为全连接层，x_r为整体-局部引导模块的输入，x_r′为整体-局部引导模块的输出，r∈{1,...,M}。

b-5)为了进一步桥接跨模态数据间的语义鸿沟，本发明设计了跨模态精炼模块对局部特征进行局部-局部跨模态交互。首先，计算注意力权重：

式中λ为温度因子的倒数，s_rk＝cos(x_r,y_k)，x_r为矩阵X的第r个行向量，y_k为矩阵Y的第k个行向量，通过公式

计算上下文向量c_r。

b-6)通过公式

为当前模块的输出，跨模态精炼模块表示为

实施例3：

步骤c)包括如下步骤：

c-1)为了使以上四种基础交互模块更好地协同合作，本发明在深度和宽度两个维度对对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作，连接后形成路径空间。

c-2)通过公式

表示路径空间的路由过程，式中C为每层的模块总数，

表示第(l-1)层第j个模块的输出，

为第(l-1)层第j个cell到第1层第i个cell的路由概率，

为第l层第i个cell的路由函数，

为

的第r个行向量。

c-3)路由过程结束后，我们可以从模型的最后一层得到最终的精炼特征矩阵：

实施例4：

步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到。

实施例5：

步骤d)包括如下特征：

d-1)给定图像I和文本T，通过

计算图像-文本版本的模型的相似度s(I,T)，通过公式

d-2)通过公式

实施例6：

步骤e)包括如下步骤：

e-1)收集并拼接路由概率得到路由向量

与

为相应的BERT输出特征，g_y为临时变量。

实施例7：

步骤f)中通过公式L＝L_A+λ_PL_P结合三元组损失项和路径损失项得到最终的损失L，λ_P为权衡参数。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。