CN113139378B

CN113139378B - 一种基于视觉嵌入和条件归一化的图像描述方法

Info

Publication number: CN113139378B
Application number: CN202110292545.4A
Authority: CN
Inventors: 张旻; 李鹏飞; 林培捷; 汤景凡; 姜明
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Taoyi Data Technology Co ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2022-02-18
Anticipated expiration: 2041-03-18
Also published as: CN113139378A

Abstract

本发明公开了一种基于视觉嵌入和条件归一化的图像描述方法。本发明提出了一种基于transformer模型的网络，被称为V‑CLTM。在transformer模型的输入端，使用关键词嵌入模块(KEM)提取图像中的目标类别作为关键词，结合文本序列作为输入序列；使用视觉嵌入模块(VEM)用来提取图像特征，并将特征编码成transformer的归一化层能接受维度作为条件输入；同时，本发明提出的条件归一化的LN层是一种通过视觉嵌入来调节模型进行特征选择的有效机制，将条件归一化LN应用于transformer上。结果表明，这种方法具有更好的鲁棒性和自适应能力。

Description

一种基于视觉嵌入和条件归一化的图像描述方法

技术领域

本发明涉及图像字幕生成方法，具体来讲是一种基于视觉嵌入和条件归一化的图像描述方法，属于图像字幕生成技术领域。

背景技术

图像描述是计算机视觉和自然语言处理的综合性任务，这个任务是具有挑战性的。它要准确的找到图像中显著性的物体，物体的属性，物体之间的关系以及所处场景，并使用自然语言正确的进行描述。得益于深度学习的快速发展，图像描述任务取得了优秀的成果，在一些评价指标上甚至超过了人类。

近年来，transformer模型使用全注意力机制的结构代替了LSTM应用在翻译任务中。针对图像-文本，语音-文本等研究也越来越多，具体应用上包括了图像字幕，视频字幕，图像问答，视频问答等。相对于传统编码-解码过程，transformer模型在这些任务上的成果是优秀的。该模型的输入序列包括了来自文本的单词、图像的感兴趣区域以及消除不同模态数据的特定元素。在输入操作之前，通过注意力机制将视觉-语言进行聚合、对齐是常见的操作。但是，最终任务需要的视觉信息和文本信息应该在模型学习整个过程起作用，而不是仅依靠输入序列的多模态融合信息。CBN(Conditional Batch Normalization)中认为语言能够更好的帮助图像模型更好的识别图像。CBN以LSTM提取的自然语言特征作为条件，预测BN(Batch Normalization)层参数的增量，使得不同的输入都有相对应的归一化参数。既然自然语言特征可以作为条件，用于预测BN参数的变化，那么图片的类别信息自然也可以作为条件来预测BN层的参数。受此启发，本发明认为图像作为条件能够帮助transformer模型更好的生成描述。在transformer模型中，LN(layer Normalization)层取代了BN层，因此需要将文本或图片信息嵌入到LN层中，通过这种操作使得transformer模型面对生成文本任务时，能更好的参考条件信息进行特征选择。另外，这种条件嵌入的方法需要为transformer提供合适的信息。因此，本发明在transformer编解码过程中选取了易于改变的LN层来接受参考条件。使用图像预训练模型提取图像信息，并将图像信息经过不同的编码过程编码为transformer能够接受的维度。

发明内容

本发明的目的是针对现有技术的不足，提供一种通过视觉嵌入来调节transformer模型训练过程中进行特征选择的有效机制，以解决视觉-语言模型在训练过程中，不能时刻借鉴图像信息的问题。具体来说，在transformer模型的输入端，构建关键词嵌入模块(KEM)，KEM使用目标检测的方法对图像进行目标检测，将结果组合成序列，和训练集中图像字幕组合成最终序列组合，通过输入端进行输入。构建视觉嵌入模块(VEM)对图像特征进行提取，将图像进行编码，通过条件嵌入的方式进行输入。对于transformer中的LN层已经有现成的、无条件的g(gain)和(bias)b了，它们用于对特征施加增益和偏置操作，都是固定长度的向量。通过VEM对图像进行编码为g′,b′作为条件输入，g′,b′跟g,b具有相同的维度，然后将结果分别加到g和b上去。从含义上讲可以解释为：根据g′,b′的信息，transformer模型在针对图像字幕任务生成过程中，针对性学习和图像特征相关的信息，进而调节权重。结果表明，这种方法具有更好的鲁棒性和自适应能力。

本发明有益效果如下：

本发明提出的条件归一化的LN层是一种通过视觉嵌入来调节模型进行特征选择的有效机制，将条件归一化LN应用于transformer上。结果表明，这种方法具有更好的鲁棒性和自适应能力。根据图像描述领域标准性能指标进行测试，其中评估指标包括：BLEU_1/BLEU_2/BLEU_3/BLEU_4/METOR/ROUGE_L/CIDEr/SPICE。在MSCOCO数据集上进行测试，测试结果分别为：82.9/63.3/47.4/37.9/28.9/56.5/127.2/22.5。在Visual Genome数据集上进行测试，测试结果分别为：44.2/29.2/20.1/19.5/21.8/45.3/185.9/38.9,两项测试结果均在领域内属于领先水平。

附图说明

图1是本发明的整体实施方案流程图；

图2是本发明的KEM示意图；

图3是本发明的VEM示意图；

图4是本发明的条件归一化层示意图；

图5是本发明的整体结构示意图；

图6是本发明实施例图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1是本发明的整体实施方案流程图，一种基于视觉嵌入和条件归一化的图像字幕方法，包括以下步骤：

步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测，将目标检测结果作为图像的关键词集合，将关键词集合和MSCOCO中图像的文本序列组成输入序列，构建关键词嵌入模块KEM(Keywords Embedding Module)；

步骤(2)使用预训练的图像特征提取模型ResNet对图像进行特征提取，将所提取的特征进行编码，将编码结果通过条件嵌入的方式输入到预训练语言模型。该步骤中所提到的操作被称为视觉嵌入模块VEM(Visual Embedding Module)；

步骤(3)使用transformer模型作为基干网络，LN层已有现成的、无条件的g和b，且g和b用于对特征施加增益和偏置操作时，都是固定长度的向量；通过视觉嵌入网络VEM将图像编码为g′,b′；g′,b′跟g,b具有相同的维度，将VEM的编码结果g′,b′分别加到g和b上去，构建条件归一化层LN(layer Normalization)；

步骤(4)将KEM和VEM的编码结果分别作为transformer模型的序列输入和条件嵌入，用条件归一化的LN替换transformer中所有的LN层，构建V-CLTM模型；

步骤(5)对V-CLTM模型在MSCOCO数据集上进行训练，挑选最优训练模型。将图片输入训练好的V-CLTM模型，输出对应的图像字幕；

进一步的，所述步骤(1)具体实现过程如下：

1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取。Faster RCNN能够获得目标类别以及相应目标在图像中的区域。为了用于图像标题生成任务，取模型最终类别输出并得到关键词集合W＝{w₁,w₂,…,w_s}。其中，w_s是通过目标检测算法对图像提取的类别如公式(1)所示。

W＝Faster RCNN(I) (1)

1-2获取关键词集W后，将将W中的关键词和特殊字符组合成序列S。三个特殊标记分别为：[CLS]、[SEP]和[STOP]；其中，[CLS]放在第一个关键字之前，例如输入句子A，要在句子A之前加[CLS]标志；[SEP]用于分开两个输入句子，例如输入句子A和B，要在句子A后面且句子B前面增加[SEP]标志；[STOP]放在句子结束，表示句子结束，例如句子A，要在A后面加[STOP]标志。

1-3训练阶段序列S和MSCOCO数据集中图像描述的序列S′进行组合成最终输入序列

若N为输入序列

的最终序列长度，则

的维度为768*N。

进一步的，所述步骤(2)具体实现过程如下：

2-1基干网络使用在ImageNet上预训练的ResNet模型，获得对应图像I的图像特征I_resnet，其维度为2048维，如公式(2)所示。

I_resnet＝ResNet(I) (2)

2-2将图像特征I_resnet经过两层512维的全连接操作以及两层ReLU激活函数，然后分别通过512维的全连接进行输出，它们的最终表达，如公式(3)(4)所示。

g′＝f_VEM(I_resnet) (3)

b′＝f_VEM(I_resnet) (4)

其中，f_VEM代表图像特征I_resnet的编码过程。

2-3将步骤2-1、2-2所述流程构成VEM，参照图3。

进一步的，所述步骤(3)具体实现过程如下：

3-1计算特征x在LN层的归一化统计量均值μ和方差σ，特征x通过均值μ和方差σ，可以得到归一化后的特征值为x′，如公式(5)所示：

其中，ε是一个很小的小数，防止除0。3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息，在LN中这组参数叫做增益g和偏置b，LN的输出如公式(6)所示。

f_LN(x′)＝g☉x′+b (6)

合并公式(5)，(6)，LN层最终输出，如公式(7)所示。

3-3对于transformer来说，已经有现成的、无条件的g和b了，它们都是长度固定的向量。VEN将图像特征编码到跟g和b一样的维度，然后将两个编码结果g′和b′分别加到g和b上去如公式(8)(9)所示。

3-4通过CELN获得新特征为

计算过程如公式(10)所示。

其中，μ和σ是分别是均值和方差。

3-5将步骤3-1、3-2、3-3和3-4所述流程构成条件归一化的LN层，参照图4。

进一步的，所述步骤(4)具体实现过程如下：

4-1将KEM作为transformer模型输入，VEM的结果作为transformer模型的条件输入，将条件归一化LN层替换transformer的所有的LN层。

4-2将4-1中KEM、VEM以及加入条件归一化LN层的transformer模型，构建V-CLTM模型，整体模型参照图5。

进一步的，所述步骤(5)具体实现过程如下：

5-1在MSCOCO数据集上进行端到端的训练，epoch设置为10，学习率为0.00001,batch size为16，使用Adam优化器渐进式的调整学习率。在推理短语中，使用波束搜索，波束大小为3。利用标准的交叉熵损失来训练模型，公式(11)所示。

其中，y_1:t为给定的真实字幕,θ为模型参数。

5-2将测试图像输入到V-CLTM模型中，获得图像字幕。

实施例1：

如图6所示，通过目标检测算法检测出目标包括：cat bowl，构建关键词集W＝{cat，bow}，将关键词集W和步骤1-2所提到的特殊字符组成输入序列S。训练阶段序列S和MSCOCO数据集中图像描述的序列S′进行组合成最终输入序列

训练得到V-CLTM模型。测试阶段，只需将关键词集W以及图像特征输入到V-CLTM模型中，得到预测结果为：a catsitting in a bowl looking down。

Claims

1.一种基于视觉嵌入和条件归一化的图像描述方法，其特征在于包括以下步骤：

步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测，将目标检测结果作为图像的关键词集合，将关键词集合和MSCOCO中图像的文本序列组成输入序列，构建关键词嵌入模块KEM；

步骤(2)使用预训练的图像特征提取模型ResNet对图像进行特征提取，将所提取的特征进行编码，将编码结果通过条件嵌入的方式输入到预训练语言模型；该步骤中所提到的操作被称为视觉嵌入模块VEM；

步骤(3)使用transformer模型作为基干网络，LN层已有现成的、无条件的g和b，且g和b用于对特征施加增益和偏置操作时，都是固定长度的向量；通过视觉嵌入网络VEM将图像编码为g′，b′；g′，b′跟g，b具有相同的维度，将VEM的编码结果g′，b′分别加到g和b上去，构建条件归一化层LN；

步骤(5)对V-CLTM模型在MSCOCO数据集上进行训练，挑选最优训练模型；将图片输入训练好的V-CLTM模型，输出对应的图像字幕；

所述步骤(4)具体实现过程如下：

4-1将KEM作为transformer模型输入，VEM的结果作为transformer模型的条件输入，将条件归一化LN层替换transformer的所有的LN层；

4-2将4-1中KEM、VEM以及加入条件归一化LN层的transformer模型，构建V-CLTM模型。

2.根据权利要求1所述的一种基于视觉嵌入和条件归一化的图像描述方法，其特征在于所述步骤(1)具体实现过程如下：

1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取；Faster RCNN能够获得目标类别以及相应目标在图像中的区域；为了用于图像标题生成任务，取模型最终类别输出并得到关键词集合W＝{w₁，w₂，...，w_s}；其中，w_s是通过目标检测算法对图像提取的类别如公式(1)所示；

W＝Faster RCNN (I) (1)

1-2获取关键词集W后，将W中的关键词和特殊字符组合成序列S；三个特殊标记分别为：[CLS]、[SEP]和[STOP]；其中，[CLS]放在第一个关键字之前，[SEP]用于分开两个输入句子，[STOP]放在句子结束，表示句子结束；