CN113139575B

CN113139575B - 一种基于条件嵌入预训练语言模型的图像标题生成方法

Info

Publication number: CN113139575B
Application number: CN202110292541.6A
Authority: CN
Inventors: 张旻; 林培捷; 李鹏飞; 姜明; 汤景凡
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2022-03-01
Anticipated expiration: 2041-03-18
Also published as: CN113139575A

Abstract

本发明公开了一种基于条件嵌入预训练语言模型的图像标题生成方法。本发明提出了一种基于预训练语言模型的网络，被称为CE‑UNILM。在预训练语言模型UNILM的输入端，构建KEN，KEN使用目标检测的方法对图像进行目标检测，并将结果作为关键文本信息，通过关键词嵌入的方式进行输入。通过构建VEN对图像特征进行提取，并将图像进行编码，通过条件嵌入的方式进行输入。同时，本发明提出的CELN，CELN是一种通过视觉嵌入来调节预训练语言模型进行特征选择的有效机制，将CELN应用于统一预训练语言模型中的transformer上。结果表明，这种方法具有更好的鲁棒性和自适应能力。

Description

一种基于条件嵌入预训练语言模型的图像标题生成方法

技术领域

本发明属于图像描述技术领域，涉及图像标题生成方法，具体是一种基于条件嵌入预训练语言模型的图像标题生成方法。

背景技术

大规模预训练语言模型使文本理解任务和文本生成任务的效果得到大幅度提高，这也改变了研究人员的研究方式，使得针对预训练语言模型进行调整进行下游任务成为主流方法。针对图像-文本，语音-文本等的研究也越来越多，具体应用上包括了图像字幕，视频字幕，图像问答，视频问答等。

相对于传统编码-解码的任务过程，预训练语言模型在自然语言处理任务上的成果是优秀的。这是因为文章、语句天生就是蕴含着语法、语义的训练资源,预训练语言模型在海量的语料数据中学习,它能够基于足够多的上下文文本表征来预测目标的语义信息。通常而言，预训练语言模型的输入包括了来自文本的单词、图像的感兴趣区域(IOU)以及消除不同模态数据的特定元素。在输入操作之前，通过注意力机制将视觉-语言进行聚合、对齐是常见的操作。但是，下游任务的视觉信息和文本信息应该在模型学习整个过程起作用，而不是仅依靠输入的多模态融合信息。CBN中认为语言能够更好的帮助预训练模型更好的识别图像。CBN以LSTM提取的自然语言特征作为条件，预测BN层参数的增量，使得不同的输入都有相对应的归一化参数。既然自然语言特征可以作为condition，用于预测BN参数的变化，那么图片的类别信息自然也可以作为condition来预测BN层的参数。受此启发，本文认为图像能够帮助预训练语言模型更好的说话。在预训练语言模型中，LN层取代了BN层，因此，需要将图片信息嵌入到LN层中，通过这种操作使得预训练语言模型面对下游任务时，能更好的参考图片信息进行特征选择。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于条件嵌入预训练语言模型的图像标题生成方法。通过本发明方法来解决预训练语言模型在进行下游任务时，不能时刻借鉴图像信息的问题。为了解决这些问题，本发明不再遵循这种主流做法，并提出通过视觉特征作为条件输入来调节整个预训练语言模型的处理。具体来说，在预训练语言模型UNILM的输入端构建KEN(Keywords Embedding Network)，KEN使用目标检测的方法对图像进行目标检测，并将检测结果作为关键文本信息，通过关键词嵌入的方式进行输入。通过构建VEN(Visual Embedding Network)对图像特征进行提取，并将图像进行编码，通过条件嵌入的方式进行输入。对于预训练语言模型来说，transformer中的LN层已经有现成的、无条件的g(gain)和b(bias)了，它们用于对特征施加增益和偏置操作，都是固定长度的向量。CELN需要保持模型跟原来的预训练语言模型一致，通过VEN对图像进行编码为g',b'作为条件输入，g',b'跟g,b具有相同的维度，然后将结果分别加到g和b上去。从含义上讲可以解释为：根据g',b'的信息，预训练语言模型强调和图像相关的特征选择，降权另一部分特征。通过条件调节权重，模型在文本生成时，会针对性的关注和图片相关的特征，达到对图像的准确描述。结果表明，这种方法具有更好的鲁棒性和自适应能力。

本发明有益效果如下：

本发明提出图像能够帮助预训练语言模型更好的说话，在预训练语言模型中，将图片信息嵌入到transformer中的LN层中，并利用目标检测提取的关键字作为预训练语言模型的输入。通过这种操作使得预训练语言模型面对下游任务时，能更好的参考图片信息进行特征选择。结果表明，这种方法具有更好的鲁棒性和自适应能力。根据图像描述领域标准性能指标进行测试，评价指标包括：BLEU_1/BLEU_2/BLEU_3/BLEU_4/METOR/ROUGE_L/CIDEr/SPICE。在MSCOCO数据集上进行测试，测试结果分别为：81.9/66.5/52.6/41.5/32,1/64.4/130.9/28.1。在Visual Genome数据集上进行测试，测试结果分别为：52.9/37.8/28.7/22.4/27.2/54.6/277.9/58.7,两项测试结果均在领域内属于领先水平。

附图说明

图1是本发明的整体实施方案流程图；

图2是本发明的KEN模块示意图；

图3是本发明的VEN模块示意图；

图4是本发明的CELN模块示意图；

图5是本发明的整体结构示意图；

图6是本发明实施例图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1是本发明的整体实施方案流程图，一种基于条件嵌入预训练语言模型的图像标题生成方法，包括以下步骤：

步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测，并将检测结果作为构建图像的关键词集合，将关键词集合和特殊字符组成输入序列，输入序列通过词嵌入的方式进行输入，构建关键词嵌入网络KEN(Keywords Embedding Network)；

步骤(2)使用预训练的图像提取模型ResNet对图像进行特征提取，构建特征编码网络；对图像进行编码，将编码结果通过条件嵌入的方式进行输入，构建视觉嵌入网络VEN(Visual Embedding Network)；

步骤(3)针对预训练语言模型，transformer中的LN层已有现成的、无条件的g和b，且g和b用于对特征施加增益和偏置操作时，都是固定长度的向量；通过VEN对图像编码为g',b'；

g',b'跟g,b具有相同的维度，将VEN的编码结果g',b'分别加到g和b上去，构建条件嵌入归一化层CELN(Conditional Embedding layer Normalization)；

步骤(4)将KEN和VEN的编码结果分别作为预训练语言模型的序列输入和条件嵌入。将CELN替换UNILM的transformer中所有的LN层，构建CE-UNILM模型；

步骤(5)对CE-UNILM模型进行训练，挑选最优训练模型。将图片输入训练好的CE-UNILM模型，输出对应的图像标题；

进一步的，所述步骤(1)具体实现过程如下：

1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取。Faster RCNN能够获得目标类别以及相应目标在图像中的区域。为了用于图像标题生成任务，取模型最终类别输出并得到关键词集合W＝{w₁，w₂，...，w_s}。其中，w_s是通过目标检测算法对图像提取的类别如公式(1)所示。

W＝Faster RCNN(I) (1)

1-2获取关键词集合W后，将W和三个特殊标记组合为输入序列S。三个特殊标记分别为：[CLS]、[SEP]和[STOP]；其中[CLS]放在第一个关键字之前，例如输入句子A，要在句子A之前加[CLS]标志，[SEP]用于分开两个输入句子，例如输入句子A和B，要在句子A后面且句子B前面增加[SEP]标志，[STOP]放在句子结束，表示句子结束，例如句子A，要在A后面加[STOP]标志。

1-3将步骤1-1中目标检测所获得的类别w_s进行编码，维度为768；若N为输入序列S的最终序列长度，则S的维度为768*N。

1-4将步骤1-1、1-2和1-3所述流程构成KEN，参照图2。

进一步，所述步骤(2)具体实现过程如下：

2-1基干网络使用在ImageNet上预训练的ResNet模型，获得对应图像I的图像特征I_resnet，其维度为2048维，如公式(2)所示。

I_resnet＝ResNet(I) (2)

2-2采用双通道结构，每个通道上图像特征I_resnet经过两层512维的全连接操作以及两层Swish激活函数，然后升维到768维，最终表达如公式(3)(4)所示。

g′＝f_VEN-DC1(I_resnet) (3)

b′＝f_VEN-DC2(I_resnet) (4)

其中，f_CEN-DC1和f_CEN-DC2分别代表两个不同的通道。由于图像特征I_resnet在训练过程中，两列参数的调整逐渐不同，所以最终产生的g′和b′也不相同。

2-3将步骤2-1和步骤2-2所述流程构成VEN，参照图3。

进一步的，所述步骤(3)具体实现过程如下：

3-1计算特征x在LN层的归一化统计量均值μ和方差σ，特征x通过均值μ和方差σ，可以得到归一化后的特征值为x′，如公式(5)所示：

其中，ε是一个很小的小数，防止除0。

3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息，在LN中这组参数叫做增益g和偏置b，LN的输出如公式(6)所示。

f_LN(x′)＝g⊙x′+b (6)

合并公式(5)，(6)，LN层最终输出，如公式(7)所示。

3-3对于transformer来说，已经有现成的、无条件的g和b了，它们都是长度固定的向量。VEN将图像特征编码到跟g和b一样的维度，然后将两个编码结果g′和b′分别加到g和b上去如公式(8)(9)所示。

为了防止扰乱原来的预训练权重，两个变换矩阵可以全零初始化，这样在初始状态，模型依然保持跟原来的预训练模型一致。

3-4通过CELN获得新特征为

计算过程如公式(10)所示。

其中，μ和σ是分别是均值和方差。

3-5将步骤3-1、3-2、3-3和3-4所述流程构成CELN，参照图4。

进一步的，步骤(4)所述具体实现过程如下：

4-1将KEN作为预训练语言模型UNILM的输入，VEN的结果作为预训练语言模型UNILM的条件输入，用CELN替换UNILM中transformer的所有的LN层。

4-2将步骤4-1中KEN、VEN以及加入了CELN的UNILM模型进行组合，构建CE-UNILM模型，整体模型参照图5。

进一步的，步骤(5)所述具体实现过程如下：

5-1进行端到端的训练，epoch设置为10，学习率为0.00001,batch size为16，使用Adam优化器渐进式的调整学习率。在推理短语中，使用波束搜索，波束大小为3。利用标准的交叉熵损失来训练模型，公式(11)所示。

其中，y_1:t为给定的真实描述,θ为模型参数。

5-2将测试图像输入到CE-UNILM模型中，获得图像标题。

实施例1：

如图6所示，通过目标检测算法检测出目标包括：flower vase lavender，构建关键词集W＝{flower vase lavender}，将关键词集和步骤1-2所提高的特殊字符组成输入序列S。输入到CE-UNILM模型中，得到预测结果为：a flower in a vase of purplelavender。

Claims

1.一种基于条件嵌入预训练语言模型的图像标题生成方法，其特征在于包括以下步骤：

步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测，并将检测结果作为构建图像的关键词集合，将关键词集合和特殊字符组成输入序列，输入序列通过词嵌入的方式进行输入，构建关键词嵌入网络KEN；

步骤(2)使用预训练的图像提取模型ResNet对图像进行特征提取，构建特征编码网络；对图像进行编码，将编码结果通过条件嵌入的方式进行输入，构建视觉嵌入网络VEN；

步骤(3)针对预训练语言模型，transformer中的LN层已有现成的、无条件的g和b，且g和b用于对特征施加增益和偏置操作时，都是固定长度的向量；通过VEN将图像编码为g',b'；

g',b'跟g,b具有相同的维度，将VEN的编码结果g',b'分别加到g和b上去，构建条件嵌入归一化层CELN；

步骤(4)将KEN和VEN的编码结果分别作为预训练语言模型的序列输入和条件嵌入；用CELN替换UNILM的transformer中所有的LN层，构建CE-UNILM模型；

步骤(5)对CE-UNILM模型进行训练，挑选最优训练模型；将图片输入训练好的CE-UNILM模型，输出对应的图像标题；

所述步骤(3)具体实现过程如下：

3-1计算特征x在LN层的归一化统计量均值μ和方差σ，特征x通过均值μ和方差σ，可以得到归一化后的特征值为x'，如公式(5)所示：

其中，ε是一个很小的小数，防止除0；

3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息，在LN中这组参数叫做增益g和偏置b，LN的输出如公式(6)所示；

f_LN(x')＝g☉x'+b (6)

合并公式(5)，(6)，LN层最终输出，如公式(7)所示；

3-3对于transformer来说，已经有现成的、无条件的g和b了，它们都是长度固定的向量；VEN将图像特征编码到跟g和b一样的维度，然后将两个编码结果g'和b'分别加到g和b上去如公式(8)(9)所示；

3-4通过CELN获得新特征为

计算过程如公式(10)所示；

其中，μ和σ是分别是均值和方差；

步骤(4)所述具体实现过程如下：

4-1将KEN作为预训练语言模型UNILM的输入，VEN的结果作为预训练语言模型UNILM的条件输入，用CELN替换UNILM中transformer的所有的LN层；

4-2将步骤4-1中KEN、VEN以及加入了CELN的UNILM模型进行组合，构建CE-UNILM模型。

2.根据权利要求1所述的一种基于条件嵌入预训练语言模型的图像标题生成方法，其特征在于所述步骤(1)具体实现过程如下：

1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取；Faster RCNN能够获得目标类别以及相应目标在图像中的区域；为了用于图像标题生成任务，取模型最终类别输出并得到关键词集合W＝{w₁,w₂,…,w_s}；其中，w_s是通过目标检测算法对图像提取的类别如公式(1)所示；

W＝Faster RCNN(I) (1)

1-2获取关键词集合W后，将W和三个特殊标记组合为输入序列S；三个特殊标记分别为：[CLS]、[SEP]和[STOP]；其中[CLS]放在第一个关键字之前，要在句子A之前加[CLS]标志；[SEP]用于分开两个输入句子，在句子A后面且句子B前面增加[SEP]标志；[STOP]放在句子结束，表示句子结束，在句子A后面加[STOP]标志；

3.根据权利要求2所述的一种基于条件嵌入预训练语言模型的图像标题生成方法，其特征在于所述步骤(2)具体实现过程如下：

2-1基干网络使用在ImageNet上预训练的ResNet模型，获得对应图像I的图像特征I_resnet，其维度为2048维，如公式(2)所示；

I_resnet＝ResNet(I) (2)

2-2采用双通道结构，每个通道上图像特征I_resnet经过两层512维的全连接操作以及两层Swish激活函数，然后升维到768维，最终表达如公式(3)(4)所示；

g'＝f_VEN-DC1(I_resnet) (3)

b'＝f_VEN-DC2(I_resnet) (4)

其中，f_CEN-DC1和f_CEN-DC2分别代表两个不同的通道；由于图像特征I_resnet在训练过程中，两列参数的调整逐渐不同，所以最终产生的g'和b'也不相同。

4.根据权利要求3所述的一种基于条件嵌入预训练语言模型的图像标题生成方法，其特征在于步骤(5)所述具体实现过程如下：

5-1进行端到端的训练，epoch设置为10，学习率为0.00001,batch size为16，使用Adam优化器渐进式的调整学习率；在推理短语中，使用波束搜索，波束大小为3；利用标准的交叉熵损失来训练模型，公式(11)所示；

其中，y_1:t为给定的真实描述,θ为模型参数；

5-2将测试图像输入到CE-UNILM模型中，获得图像标题。