CN114399646B

CN114399646B - 一种基于Transformer结构的图像描述方法和装置

Info

Publication number: CN114399646B
Application number: CN202111576047.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Zhongke Mingyan Technology Co ltd
Current assignee: Beijing Zhongke Mingyan Technology Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-09-20
Anticipated expiration: 2041-12-21
Also published as: CN114399646A

Abstract

本发明公开了一种基于Transformer结构的图像描述方法和装置，包括：采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量；采用基于Transformer结构的特征增强编码器分别捕获图像初始特征V_G和图像全局特征V_g模态内的隐含关系实现特征增强，得到图像增强特征

和图像增强全局特征

采用基于Transformer结构的解码器对文本信息、所述图像增强特征

以及所述图像增强全局特征

进行特征融合，生成对应的图像描述并输出。本发明实现了图像描述任务从两个阶段任务集成到一个阶段，模型结构统一且参数量更少，缩减了模型训练的时间成本和计算成本。

Description

一种基于Transformer结构的图像描述方法和装置

技术领域

本发明属于图像描述技术领域，具体涉及一种基于Transformer结构的图像描述方法和装置。

背景技术

多模态深度学习旨在通过深度学习的方法实现处理和理解多源模态信息的能力。随着社会和经济的快速兴起，多模态深度学习已在社会生产中的各个方面有了众多应用，起到了非常瞩目的效果。目前比较热门的研究方向是图像、视频、音频和文本之间的多模态学习。

其中，采用自然语言对图像中的内容进行描述，被称为图像描述。语义不仅需要计算识别图像的对象和属性，还需要理解他们的关系，生成语法语义正确的自然语言。最早应用的图像描述方法主要有两种：一种是基于模板的方法，该方法预先设计描述模板，模板内空出诸如“主语、谓语、宾语”的位置，使用传统机器学习方法对图像进行特征提取，识别其中的实体目标、属性及实体目标之间的关系作为关键词，进而插入到模板内的空白中。另一种是基于检索的方法，该方法预先构建“图像-描述”数据库，使用传统机器学习方法计算待描述图像和数据库中图像的相似度，选择与之相似度最高的图像所对应的描述作为待描述图像的描述输出。但采用上述方法对图像内容进行描述的效果并未达到预期。

随着技术的发展，目前的图像描述结构主要分为两类：(1)卷积神经网络(CNN)+长短期记忆网络(Long Short-Term Memory，LSTM)结构；(2)CNN+Transformer结构。其中，CNN模块主要采用目标检测模型Faster R-CNN及其变体用于图像特征的提取，但采用上述两种模型进行图像描述的方法需要在额外的数据集上进行预训练，导致图像描述任务被分割为了两个阶段且训练时间成本过高，此外图像描述结果的性能很大程度上受限于Faster R-CNN模型的好坏，且Faster R-CNN模型结构复杂且运算量过大。LSTM用于将图像特征解码为语言描述，但LSTM模型表达能力有限且无法进行并行训练，模型训练时间成本高。

发明内容

本发明的目的是提供一种基于Transformer结构的图像描述方法和装置，用于解决现有技术中的图像描述方法训练时间过长和运算量较大的技术问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种基于Transformer结构的图像描述方法，包括：

采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量；其中，所述图像特征向量包括图像初始特征V_G和图像全局特征V_g；

采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征V_G和所述图像全局特征V_g模态内的隐含关系实现特征增强，得到图像增强特征

和图像增强全局特征

以及所述图像增强全局特征

进行特征融合，生成对应的图像描述并输出。

在一种可能的设计中，采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量，包括：

将大小为H×W×C1的原始图像输入至所述swin Transformer基础编码器，输出大小为

的第一图像特征向量；其中，H表示原始图像的高度，W表示原始图像的宽度，C1表示第一通道数量，C2表示第二通道数量，k表示原始图像的压缩比例；

采用全连接层对所述第一图像特征向量进行投影降维，得到所述图像初始特征V_G；其中，所述图像初始特征V_G的大小为

C3表示第三通道数量；

采用平均池化层选取所述图像初始特征V_G的平均值，将该平均值作为所述图像全局特征V_g；其中，所述图像全局特征V_g的大小为1×C3。

在一种可能的设计中，采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征V_G和所述图像全局特征V_g模态内的隐含关系实现特征增强，得到图像增强特征

和图像增强全局特征

包括：

将所述图像初始特征V_G依次经过所述特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward层以及第二Add&LN层进行处理，从而捕获所述图像初始特征V_G模态内的隐含关系以进行特征增强，得到所述图像增强特征

将所述图像全局特征V_g依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理，捕获所述图像全局特征V_g模态内的隐含关系以进行特征增强，得到所述图像增强全局特征

其中，所述图像初始特征V_G和所述图像全局特征V_g实现特征增强的参数可共享。

在一种可能的设计中，所述特征增强编码器设有3个，3个所述特征增强编码器依次堆叠，以对所述图像初始特征V_G和所述图像全局特征V_g进行逐步增强。

在一种可能的设计中，采用基于Transformer结构的解码器对文本信息、所述图像增强特征

以及所述图像增强全局特征

进行特征融合，生成对应的图像描述并输出，包括：

在t时间步，利用解码器的预融合模块对所述图像增强全局特征

和当前时间步之前已生成的t一1个单词的单词嵌入向量

进行特征融合，并输出包含图像信息和文本信息的第一多模态特征向量

根据所述第一多模态特征向量

利用解码器的单词语义信息抽取模块捕获所述单词嵌入向量

中不同单词之间模态内的隐含信息，以抽取当前时间步所需的语义信息嵌入；

利用解码器的后融合模块对当前时间步所需的语义信息嵌入和所述图像增强特征

进行特征融合，得到第二多模态特征向量

采用全连接层将所述第二多模态特征向量

投影到词汇表空间，得到当前时间步生成每个单词的概率，选取概率最大的单词作为当前时间步的图像描述并输出。

在一种可能的设计中，所述解码器设有3个，3个所述解码器依次堆叠，以对所述文本信息、所述图像增强特征

以及所述图像增强全局特征

进行多次特征融合。

在一种可能的设计中，所述预融合模块包括依次连接的Concat层、Linear和ReLU函数层以及第五Add&LN层。

在一种可能的设计中，所述单词语义信息抽取模块包括依次连接的Masked MSA层和第六Add&LN层。

在一种可能的设计中，所述后融合模块包括依次连接的Cross MSA层、第七Add&LN层、第三FeedForward层以及第八Add&LN层。

第二方面，本发明提供一种基于Transformer结构的图像描述装置，包括：

特征向量提取模块，用于采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量；其中，所述图像特征向量包括图像初始特征V_G和图像全局特征V_g；

特征向量增强模块，用于采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征V_G和所述图像全局特征V_g模态内的隐含关系实现特征增强，得到图像增强特征

和图像增强特征

图像描述生成模块，用于采用基于Trasformer结构的解码器对文本信息、所述图像增强特征

以及所述图像增强全局特征

进行特征融合，生成对应的图像描述并输出。

第三方面，本发明提供一种计算机设备，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。

第五方面，本发明提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。

有益效果：

本发明采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量；采用基于Transformer结构的特征增强编码器分别捕获图像初始特征V_G和图像全局特征V_g模态内的隐含关系实现特征增强，得到图像增强特征

和图像增强特征

以及所述图像增强全局特征

进行特征融合，生成对应的图像描述并输出。本发明实现了图像描述任务从两个阶段任务集成到一个阶段，模型结构统一且参数量更少，缩减了模型训练的时间成本和计算成本。其中，解码器中采用预融合模块实现了视觉模态信息与语言模态信息的初次交互，在保证模型运算效率的情况下增加了视觉模态(图像)与自然语言模态(描述)之间的交互从而进一步提升了图像描述模型的表达与推理能力。

附图说明

图1为本实施例中的基于Transformer结构的图像描述方法的流程图；

图2为本实施例中的基于Transformer结构的图像描述方法采用的模型结构图。

具体实施方式

为使本说明书实施例的目的、技术方案和优点更加清楚，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

为了解决现有技术中存在的图像描述方法训练时间过长和运算量较大的技术问题，本申请实施例提供了一种基于Transformer结构的图像描述方法，该方法实现了图像描述任务从两个阶段任务集成到一个阶段，模型结构统一且参数量更少，缩减了模型训练的时间成本和计算成本。

如图1-2所示，第一方面，本实施例提供一种基于Transformer结构的图像描述方法，包括但不限于由步骤S101～S103实现：

步骤S101.采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量；其中，所述图像特征向量包括图像初始特征V_G和图像全局特征V_g；

其中，需要说明的是，所述swin Transformer基础编码器采用现有的swinTransformer架构(即论文：Swin Transformer：Hierarchical Vision Transformerusing Shifted Windows中示出的架构)，主要包括LN(LayerNorm，归一化层)正则化层→W-MSA(window based self-attention，基于窗口的自我注意机制)子模块(或SW-MSA(shiftwindow based self-attention，基于移动窗口的自我注意机制)子模块)→残差连接层→LN正则化层→前馈网络→残差连接层，具体工作原理为现有的工作原理，此处不再赘述。

在步骤S101的一种具体的实施方式中，采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量，包括：

步骤S1011.将大小为H×W×C1的原始图像输入至所述swin Transformer基础编码器，输出大小为

例如：将大小为384×384×3的原始图像输入至所述swin Transformer基础编码器，输出大小为12×12×1536的第一图像特征向量。

步骤S1012.采用全连接层对所述第一图像特征向量进行投影降维，得到所述图像初始特征V_G；其中，所述图像初始特征V_G的大小为

C3表示第三通道数量；

例如：采用全连接层对所述第一图像特征向量从1536维进行投影降维，得到12×12＝144个维度为512的图像初始特征V_G。

步骤S1013.采用平均池化层选取所述图像初始特征V_G的平均值，将该平均值作为所述图像全局特征V_g；其中，所述图像全局特征V_g的大小为1×C3。

例如：采用平均池化层选取12×12＝144个维度为512的图像初始特征V_G的平均值1×512，将1×512作为所述图像全局特征V_g。

步骤S102.采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征V_G和所述图像全局特征V_g模态内的隐含关系实现特征增强，得到图像增强特征

和图像增强全局特征

其中，优选的，所述特征增强编码器设有3个，3个所述特征增强编码器依次堆叠，以对所述图像初始特征V_G和所述图像全局特征V_g进行逐步增强。

在步骤S102一种具体的实施方式中，采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征V_G和所述图像全局特征V_g模态内的隐含关系实现特征增强，得到图像增强特征

和图像增强全局特征

包括：

步骤S1021将所述图像初始特征V_G依次经过所述特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward(前馈网络)层以及第二Add&LN层进行处理，从而捕获所述图像初始特征V_G模态内的隐含关系以进行特征增强，得到所述图像增强特征

例如，将大小为12×12×512的图像初始特征V_G和大小为1×512的图像全局特征V_g输入到特征增强编码器中。其中，12×12×512的图像初始特征V_G依次经过所述特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward层以及第二Add&LN层进行处理，输出相同尺寸大小的图像初始特征

其中，1×512的图像全局特征V_g依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理，输出相同尺寸大小的图像增强特征

步骤S103.采用基于Transformer结构的解码器对文本信息、所述图像增强特征

以及所述图像增强全局特征

进行特征融合，生成对应的图像描述并输出。

其中，优选的，所述解码器设有3个，3个所述解码器依次堆叠，以对所述文本信息、所述图像增强特征

以及所述图像增强特征

进行多次特征融合。

在步骤S103一种具体的实施方式中，采用基于Transformer结构的解码器对文本信息、所述图像增强特征

以及所述图像增强全局特征

进行特征融合，生成对应的图像描述并输出，包括：

步骤S1031.在t时间步，利用解码器的预融合模块对所述图像增强全局特征

和当前时间步之前已生成的t-1个单词的单词嵌入向量

例如，所述单词嵌入向量

的大小为(t-1)×512。

优选的，所述预融合模块包括依次连接的Concat层、Linear(线性)和ReLU函数层以及第五Add&LN层，用于实现视觉模态信息与语言模态信息的初次交互；

步骤S1032.步骤S1032根据所述第一多模态特征向量

利用解码器的单词语义信息抽取模块捕获所述单词嵌入向量

优选的，所述单词语义信息抽取模块包括依次连接的Masked MSA(window basedself-attention，标记的基于窗口的自注意力机制)层和第六Add&LN层。

步骤S1033.利用解码器的后融合模块对当前时间步所需的语义信息嵌入和所述图像增强特征

进行特征融合，得到第二多模态特征向量

优选的，所述后融合模块包括依次连接的Cross(交叉)MSA层、第七Add&LN层、第三FeedForward层以及第八Add&LN层，用于实现视觉模态信息与语言模态信息的再次交互。

步骤S1034.采用全连接层将所述第二多模态特征向量

基于上述公开的内容，本实施例采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量；采用基于Transformer结构的特征增强编码器分别捕获图像初始特征V_G和图像全局特征V_g模态内的隐含关系实现特征增强，得到图像增强特征

和图像增强全局特征

以及所述图像增强全局特征

和图像增强全局特征

以及所述图像增强全局特征

进行特征融合，生成对应的图像描述并输出。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer结构的图像描述方法，其特征在于，包括：

采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量，其中，所述图像特征向量包括图像初始特征V_G和图像全局特征V_g，包括：

采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量，包括：

将大小为H×W×C1的原始图像输入至swin Transformer基础编码器，输出大小为

采用全连接层对所述第一图像特征向量进行投影降维，得到图像初始特征V_G；其中，所述图像初始特征V_G的大小为

C3表示第三通道数量；

采用平均池化层选取所述图像初始特征V_G的平均值，将该平均值作为图像全局特征V_g；其中，所述图像全局特征V_g的大小为1×C3；

和图像增强全局特征

以及所述图像增强全局特征

进行特征融合，生成对应的图像描述并输出，包括：

和当前时间步之前已生成的t-1个单词的单词嵌入向量

对所述第一多模态特征向量

采用解码器的单词语义信息抽取模块抽取当前时间步所需的语义信息嵌入；

进行特征融合，得到第二多模态特征向量

采用全连接层将所述第二多模态特征向量

2.根据权利要求1所述的基于Transformer结构的图像描述方法，其特征在于，采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征V_G和所述图像全局特征V_g模态内的隐含关系实现特征增强，得到图像增强特征

和图像增强全局特征

包括：

将所述图像初始特征V_G依次经过特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward层以及第二Add&LN层进行处理，从而捕获所述图像初始特征V_G模态内的隐含关系以进行特征增强，得到图像增强特征

将所述图像全局特征V_g依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理，捕获所述图像全局特征V_g模态内的隐含关系以进行特征增强，得到图像增强全局特征

3.根据权利要求2所述的基于Transformer结构的图像描述方法，其特征在于，所述特征增强编码器设有3个，3个所述特征增强编码器依次堆叠，以对所述图像初始特征V_G和所述图像全局特征V_g进行逐步增强。

4.根据权利要求1所述的基于Transformer结构的图像描述方法，其特征在于，所述解码器设有3个，3个所述解码器依次堆叠，以对所述文本信息、所述图像增强特征

以及所述图像增强全局特征

进行多次特征融合。

5.根据权利要求1所述的基于Transformer结构的图像描述方法，其特征在于，所述预融合模块包括依次连接的Concat层、Linear层和ReLU函数层以及第五Add&LN层。

6.根据权利要求1所述的基于Transformer结构的图像描述方法，其特征在于，所述单词语义信息抽取模块包括依次连接的Masked MSA层和第六Add&LN层。

7.根据权利要求1所述的基于Transformer结构的图像描述方法，其特征在于，所述后融合模块包括依次连接的Cross MSA层、第七Add&LN层、第三FeedForward层以及第八Add&LN层。

8.一种基于Transformer结构的图像描述装置，其特征在于，包括：

在采用swin Transformer基础编码器对原始图像信息进行编码，并提取图像特征向量时，所述特征向量提取模块具体用于：

C3表示第三通道数量；

和图像增强全局特征

图像描述生成模块，用于采用基于Transformer结构的解码器对文本信息、所述图像增强特征

以及所述图像增强全局特征

进行特征融合，生成对应的图像描述并输出，包括：

和当前时间步之前已生成的t-1个单词的单词嵌入向量

对所述第一多模态特征向量

进行特征融合，得到第二多模态特征向量

采用全连接层将所述第二多模态特征向量