CN115661594A

CN115661594A - 一种基于对齐和融合的图文多模态特征表示方法和系统

Info

Publication number: CN115661594A
Application number: CN202211280895.XA
Authority: CN
Inventors: 黄思; 刘如梦; 张恺玉
Original assignee: Hainan Port And Shipping Holding Co ltd
Current assignee: Hainan Port And Shipping Holding Co ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-01-31
Anticipated expiration: 2042-10-19
Also published as: CN115661594B

Abstract

本发明公开了一种基于对齐和融合的图文多模态特征表示方法和系统，属于多模态学习领域。包括：对获取到的图像文本数据进行预处理；将预处理后图像数据、文本数据输入至不同的模型，抽取出不同模态特征；通过线性映射将不同模态的特征数据对齐到相同的语义空间中；将对齐后的图像文本特征输入至深层联合自编码模型，得到图文多模态特征，深层联合自编码模型的每一层进行交叉注意力。本发明先通过线性映射层将图片特征向量和文本特征向量都映射到相同的嵌入特征维度，能够快速找到不同模态实体与实体之间的关联关系；再进行跨模态交互，获得了更细粒度的语义区分能力，二者相辅相成，有效地利用多模态数据，从而使得预测结果精度更高。

Description

一种基于对齐和融合的图文多模态特征表示方法和系统

技术领域

本发明属于多模态学习领域，更具体地，涉及一种基于对齐和融合的图文多模态特征表示方法和系统。

背景技术

2021年，OpenAI提出的CLIP模型，不同模态有各自的编码器，文本数据经过文本Embedding层后被输入到Transformer编码器中提取特征信息，图片数据则使用VisionTransformer作为图片编码其提取特征，然后将文本和图像特征表示直接经过线性投影到统一的多模态编码空间中，计算模态间相似度完成图文匹配任务，CLIP模型最出彩的地方是通过海量数据，不断挖掘预训练模型的潜力，使其具备很强的zero-shot的能力。

然而，它们虽然在对比学习任务上表现优异，但图像文本之间缺乏交互，因此不能满足一些细粒度的图文匹配需求，物体、物体属性、物体之间的关系这些细粒度的语义对于精准理解一些真实视觉场景是至关重要的。比如输入一张帆船的图片作为图像数据，输入文本的为“车、船、火车、飞机”进行测试时，模型可以准确识别出照片对应的文本标签为船而且准确率一般都会很高，大概有95％的精度。但是如果换成细粒度任务，比如再对船只类型进行细分的识别任务，一般的模型测试的效果就明显变差了。如输入一张游艇的图片作为图像数据，输入文本的为“客船、货船、帆船、游艇”进行测试时，模型对看到“船”的字眼的标签给了比较高的匹配概率，导致识别的结果出现了错误。再比如在一个港口船舶图片中去找“白色帆船”和“黑色游艇”，双塔模型并不能理解“白色帆船”、“黑色游艇”这两个概念，而是单独对“白色”“黑色”和“帆船”“游艇”这两个属性进行了组合，导致其可能会返回“白色游艇”这样的错误结果。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于对齐和融合的图文多模态特征表示方法和系统，旨在解决现有多模态特征表示方法中图像文本之间缺乏交互，无法满足细粒度图文匹配需求的问题。

为实现上述目的，第一方面，本发明提供了一种基于对齐和融合的图文多模态特征表示方法，该方法包括：

S1.对获取到的图像文本数据进行预处理；

S2.将预处理后图像数据、文本数据输入至不同的模型，抽取出不同模态特征；

S3.通过线性映射将不同模态的特征数据对齐到相同的语义空间中；

S4.将对齐后的图像文本特征输入至深层联合自编码模型，得到图文多模态特征，所述深层联合自编码模型的每一层进行交叉注意力。

优选地，步骤S1中，图像数据的预处理包括：

(1)对输入的图像进行缩放和中心裁剪，使得图像尺寸统一；

(2)采用加入高斯噪声、修改亮度、对比度、饱和度或者色调中的至少一种方法，对图像进行增强；

(3)将图像从0到255的值映射到0到1的范围内，转化成张量格式；

(4)用均值和标准差归一化张量图像。

优选地，步骤S1中，文本数据的预处理包括：

1)利用Ftfy.fix_text整理乱码数据；

2)对每个句子进行分词，将一个句子划分成若干个词，转换为一个词的序列；

3)查找字典以将字符串转换为数字，所述字典中每个词映射到一个唯一的索引编号。

优选地，步骤S2中，图像这一模态使用改进后的ResNet50提取特征；所述改进后的ResNet50用一个QKV注意力池化层来代替最后的平均池化层，所述QKV注意力池化层由一层Transformer形式的多头QKV注意力构成。

优选地，步骤S2中，文本这一模态，对预处理后的文本，用one-hot编码进行词向量编码，基于位置向量嵌入方法生成位置编码，将词向量和位置编码直接相加，输入至基于注意力机制的Transformer编码器中，以提取特征。

优选地，步骤S3中，对得到的图像文本特征向量进行标准化，以将数据按照比例缩放使之放到一个特定的区间中。

优选地，该方法应用于船舶类型识别，所述图像数据包括客船、拖船、油船、帆船、游艇、货船不同类型的船舶图像，所述文本数据包括船舶名称、类型、IMO编号、航行轨迹。

优选地，训练阶段，将所有对齐融合后的文本和图像特征分别计算内积，得到一个矩阵；计算图像文本匹配的概率，通过Softmax进行归一化操作，得到所有标签概率的和为1。

优选地，模态间的余弦相似度计算公式如下：

其中，I表示图像，T表示文本数据，f_I表示图像特征，f_T表示文本特征，S_I,T表示模态间的余弦相似度。

为实现上述目的，第二方面，本发明提供了一种基于对齐和融合的图文多模态特征表示系统，包括处理器和存储器；所述存储器，用于存储计算机执行指令；所述处理器，用于执行所述计算机执行指令，使得第一方面所述的方法被执行。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提出了一种基于对齐和融合的图文多模态特征表示方法和系统，先通过线性映射层将图片特征向量和文本特征向量都映射到相同的嵌入特征维度，即对齐到相同的语义空间中，能够快速找到不同模态实体与实体之间的关联关系；再进行跨模态交互，获得了更细粒度的语义区分能力，二者相辅相成，有效地利用多模态数据，从而使得预测结果精度更高。

附图说明

图1为本发明提供的一种基于对齐和融合的图文多模态特征表示方法流程图。

图2为本发明提供的改进后的ResNet50总体结构示意图。

图3为本发明提供的深层联合自编码模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1为本发明提供的一种基于对齐和融合的图文多模态特征表示方法流程图。如图1所示，该方法包括：。

步骤S1.对获取到的图像文本数据进行预处理。

优选地，步骤S1中，图像数据的预处理包括：

(1)对输入的图像进行缩放和中心裁剪，使得图像尺寸统一；

(4)用均值和标准差归一化张量图像。

优选地，步骤S1中，文本数据的预处理包括：

1)利用Ftfy.fix_text整理乱码数据；

步骤S2.将预处理后图像数据、文本数据输入至不同的模型，抽取出不同模态特征。

优选地，步骤S2中，图像这一模态使用改进后的ResNet50提取特征；图2为本发明提供的改进后的ResNet50总体结构示意图。如图2所示，所述改进后的ResNet50用一个QKV注意力池化层来代替最后的平均池化层，所述QKV注意力池化层由一层Transformer形式的多头QKV注意力构成。

所述基于位置向量嵌入方法生成位置编码，公式如下：

其中，PE为二维矩阵，大小跟输入Embedding的维度一样；pos是单词在句子中的位置，取值为0到最大序列长度-1之间的整数，比如“[cls]我喜欢看书[sep]”是7个token组成的序列，“书”的pos值为5；i为词向量的位置；dmodel为词向量的维度。上述公式分别表示在每个词语的词向量的偶数位置2i使用正弦函数编码，奇数位置2i+1使用余弦函数编码。将位置编码信息加到词向量编码中去，这样位置编码的引入就完成了。

步骤S3.通过线性映射将不同模态的特征数据对齐到相同的语义空间中。

步骤S4.将对齐后的图像文本特征输入至深层联合自编码模型，得到图文多模态特征，所述深层联合自编码模型的每一层进行交叉注意力。

图3为本发明提供的深层联合自编码模型示意图。本发明中多模态编码器使用基于Bert的框架，在编码器的每一层进行交叉注意力从而实现跨模态交互。此处特征融合使用如图3所示的深层联合自编码模型，将两个模态的特征用两个线性层将特征转化为相同的维度，然后相加，最后再将二者还原回去。

本发明从图像和文字的图文多模态表征学习入手，用多模态预训练模型对船舶的图片文本数据进行语义特征提取、对齐、中间融合，计算模态间的相似度得到准确的分类结果从而实现对船舶类型的准确识别。

优选地，模态间的余弦相似度计算公式如下：

图片和文本匹配的概率为：

其中，τ是可学习的温度参数它可以调整数值范围，在计算概率时使用温度参数会有利于模型的收敛。

用yⁱ和y^t表示真实的标签，用交叉熵损失计算图文匹配损失函数如下：

本发明还提供了一种基于对齐和融合的图文多模态特征表示系统，包括处理器和存储器；所述存储器，用于存储计算机执行指令；所述处理器，用于执行所述计算机执行指令，使得上述方法被执行。

相较于未进行对齐、融合的模型的预测结果，本方法有效地利用多模态数据从而使得预测结果精度更高，对不同类型的船舶平均识别精确度提升到90％以上，而且经过模态的交互，细粒度的图文匹配也能取得比较好的结果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对齐和融合的图文多模态特征表示方法，其特征在于，该方法包括：

S1.对获取到的图像文本数据进行预处理；

2.如权利要求1所述的方法，其特征在于，步骤S1中，图像数据的预处理包括：

(1)对输入的图像进行缩放和中心裁剪，使得图像尺寸统一；

(4)用均值和标准差归一化张量图像。

3.如权利要求1所述的方法，其特征在于，步骤S1中，文本数据的预处理包括：

1)利用Ftfy.fix_text整理乱码数据；

4.如权利要求1所述的方法，其特征在于，步骤S2中，图像这一模态使用改进后的ResNet50提取特征；所述改进后的ResNet50用一个QKV注意力池化层来代替最后的平均池化层，所述QKV注意力池化层由一层Transformer形式的多头QKV注意力构成。

5.如权利要求1所述的方法，其特征在于，步骤S2中，文本这一模态，对预处理后的文本，用one-hot编码进行词向量编码，基于位置向量嵌入方法生成位置编码，将词向量和位置编码直接相加，输入至基于注意力机制的Transformer编码器中，以提取特征。

6.如权利要求1所述的方法，其特征在于，步骤S3中，对得到的图像文本特征向量进行标准化，以将数据按照比例缩放使之放到一个特定的区间中。

7.如权利要求1至6任一项所述的方法，其特征在于，该方法应用于船舶类型识别，所述图像数据包括客船、拖船、油船、帆船、游艇、货船不同类型的船舶图像，所述文本数据包括船舶名称、类型、IMO编号、航行轨迹。

8.如权利要求7所述的方法，其特征在于，训练阶段，将所有对齐融合后的文本和图像特征分别计算内积，得到一个矩阵；计算图像文本匹配的概率，通过Softmax进行归一化操作，得到所有标签概率的和为1。

9.如权利要求7所述的方法，其特征在于，模态间的余弦相似度计算公式如下：

10.一种基于对齐和融合的图文多模态特征表示系统，其特征在于，包括处理器和存储器；

所述存储器，用于存储计算机执行指令；

所述处理器，用于执行所述计算机执行指令，使得权利要求1至9任一项所述的方法被执行。