CN113780350B

CN113780350B - 一种基于ViLBERT和BiLSTM的图像描述方法

Info

Publication number: CN113780350B
Application number: CN202110912994.4A
Authority: CN
Inventors: 温蜜; 许昊; 种法广
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-12-19
Anticipated expiration: 2041-08-10
Also published as: CN113780350A

Abstract

本发明提供一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于，包括：将待描述图像进行特征提取处理并输入至图像描述模型中进行处理得到图片描述信息，其中，图像描述模型通过如下预先训练过程获得：获取训练图像集以及对应的图像文本信息；对训练图像集进行特征提取得到图像特征信息；通过文本处理transformer块对图像文本信息进行处理得到文本特征信息；对图像特征信息以及文本特征信息分别进行一个联合注意力transformer层处理，再分别经过一个transformer块处理以及分别经过加权处理模块处理得到图像特征；使用Att‑LSTM的输入数据以及上一层Att‑LSTM的输出，再使用Lan‑LSTM的输入数据以及上一层Lan‑LSTM的输出，最后输出将输入至softmax中得到对应的单词；使用交叉熵损失函数对图像描述模型进行训练。

Description

一种基于ViLBERT和BiLSTM的图像描述方法

技术领域

本发明涉及一种基于ViLBERT和BiLSTM的图像描述方法。

背景技术

随着电脑和互联网的普及，人们每天会接触大量的图片和视频，如何让计算机快速识别图片中的信息并加以描述成文本信息，对于图像的检索和分析具有巨大的研究价值。结合近年来火热的深度学习技术，图像描述技术能够惠及到我们生活中的方方面面。图像描述作为把计算机视觉和自然语言处理相结合的跨模态跨领域的任务。一般地，它将输入的图片通过卷积神经网络提取图像特征并利用循环神经网络等方法生成一段文字的描述，这段描述要求和图片的内容高度相似。这对于人类来说是很简单的，通俗来说就是看图说话，几岁的儿童就能很详细地描述一张图片的内容。但对于计算机来说还是有很大的难度的，这要求计算机利用模型来提取图片内的特征以及一些高层语义信息，然后利用自然语言处理的方法表达图片中的内容。

近几年有关图像描述的研究主要可以分为以下三个方向：

(1)基于模板的方法

传统的图像描述模型是通过模板填充的方法来生成图像描述，它主要是通过局部二值模式、尺度不变特征转换或者方向梯度直方图等模型提取图像的视觉特征，并根据这些特征检测对应目标、动作及属性对应的单词词汇，最后将单词填入到模板中。该类方法使用的模板是固定的，生成的语句格式相对固定且形式单一，应用的场景也很局限，因而无法应用到实际的场景之中。

(2)基于检索的方法

基于检索的方法，主要是将大量的图片描述存于一个集合中，然后通过比较有标签图片和训练生成图片描述两者间相似度来生成一个候选描述的集合，再从中选择最符合该图片的描述。这样的方法能保证语句的正确性，但语义的正确性却难以保证，因而对图像描述的正确率较低。

(3)基于生成的方法

这类方法的大致流程是先将图像信息编码后作为输入放进模型，随后利用此模型生成该图像对应的文本描述。图像描述模型一般采用编码器-解码器架构，编码器使用卷积神经网络(CNN)提取图像特征，解码器采用循环神经网络(RNN)来生成文本描述。这是在图像描述中普遍应用且效果最好的模型，它在语句结构的完整性、语义的正确性、以及泛化能力得到了一致的认可。

本发明提出在编码阶段使用目标检测模型提取图像信息，并和图像对应的文本信息进行加权结合，能有效地提高图像信息的利用率，使模型能够准确定位图像的主体和图像内各目标之间的联系，最终生成高质量的文本描述。

本发明在盲人和机器人的实时导航、图像检索系统以及医学CT的报告生成等多个领域都有着广泛的应用场景。

发明内容

为解决上述问题，提供一种基于ViLBERT和BiLSTM的图像描述方法，本发明采用了如下技术方案：

本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于，包括：步骤S1-1，将待描述图像通过特征提取处理得到预处理图像特征；步骤S1-2，将预处理图像特征输入至预先训练的图像描述模型中进行处理得到图片描述信息，其中，图像描述模型具有ViLBERT子模型和BiLSTM子模型，ViLBERT子模型具有文本处理transformer块、两个联合注意力transformer层、两个transformer块、以及加权处理模块，BiLSTM子模型包括一个Att-LSTM以及一个Lan-LSTM，图像描述模型通过如下预先训练过程获得：步骤S2-1，获取训练图像集以及对应的图像文本信息w₀,w₁,…,w_t；步骤S2-2，对训练图像集进行特征提取得到图像特征信息p₀,p₁,…,p_t；步骤S2-3，通过文本处理transformer块对图像文本信息w₀,w₁,…,w_t进行处理得到文本特征信息；步骤S2-4，对图像特征信息以及文本特征信息分别进行一个联合注意力transformer层处理，然后再分别经过一个transformer块进行处理，得到对应的图像流特征h_p0,h_p1,…,h_pt以及对应的文本流特征h_w0,h_w1,…,h_wt；步骤S2-5，加权处理模块对图像流特征h_p0,h_p1,…,h_pt以及文本流特征h_w0,h_w1,…,h_wt进行处理得到图像特征V＝{v₀,v₁,…,v_t}；步骤S2-6，使用Att-LSTM的输入数据以及上一层Att-LSTM的输出，并输入至Att-LSTM中输出得到步骤S2-7，使用Lan-LSTM的输入数据以及上一层Lan-LSTM的输出，并输入至Lan-LSTM中输出得到/>步骤S2-8，将/>输入至softmax中进行分类得到对应的单词；步骤S2-9，基于真实人工描述序列以及图像文本信息参数，使用交叉熵损失函数对图像描述模型进行训练。

本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法，还可以具有这样的技术特征，其中，特征提取处理通过FasterR-CNN进行特征提取得到。

本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法，还可以具有这样的技术特征，其中，步骤S2-4中，在对将图像特征信息以及文本特征信息分别经过一个transformer块进行处理后，对图像特征信息以及文本特征信息进行残差相加处理，从而得到具有多模态特征的图像流特征h_p0,h_p1,…,h_pt以及具有多模态特征的文本流特征h_w0,h_w1,…,h_wt。

本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法，还可以具有这样的技术特征，其中，加权处理模块在计算时使用如下公式：

v_i＝0.5h_pi+0.5h_wi

式中，加权因子为0.5。

本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法，还可以具有这样的技术特征，其中，t时刻的Lan-LSTM的输入数据为

式中，为上一时间步长Lan-LSTM的输出，/>为图像特征V的均值池化值，即为之前生成单词的编码向量，W_e为加权矩阵，∏_t为t时刻驶入单词的独热编码，将这三者拼接得到/>

本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法，还可以具有这样的技术特征，其中，Lan-LSTM的输入数据为

式中，为加权后的图像特征V，/>为Att-LSTM的输出。

本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法，还可以具有这样的技术特征，其中，由如下公式计算得到：

式中，分别为已学习的参数，/>为ω_a的转置矩阵，v_i为图形特征V的第i个区域特征，/>为Att-LSTM的输出。

本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法，还可以具有这样的技术特征，其中，在t时间步长输出单词的概率分布由如下公式给出：

式中，y_1:T为单词序列(y₁,…,y_T)，以及/>分别为已学习权重和偏差参数。

并且，完整的单词序列输出分布如下式所示：

本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法，还可以具有这样的技术特征，其中，交叉熵损失函数为：

式中，为真实人工描述序列，θ为图像文本信息参数，/>为第t个真实人工描述。

发明作用与效果

根据本发明的一种基于ViLBERT和BiLSTM的图像描述方法，由于在获取训练图像集以及对应的图像文本信息后，对训练图像集进行特征提取得到图像特征信息，再通过文本处理transformer块对图像文本信息进行处理得到文本特征信息，又对图像特征信息以及文本特征信息分别进行一个联合注意力transformer层处理，然后再分别经过一个transformer块进行处理，得到对应的图像流特征以及对应的文本流特征，进而加权处理模块对图像流特征以及文本流特征进行处理得到图像特征V，因此不仅可以更好地学习到图像特征，而且解决了图像描述中图像特征信息提取利用不足，上下文关联性弱的问题。

附图说明

图1是本发明实施例中的基于ViLBERT和BiLSTM的图像描述方法的流程图；

图2是本发明实施例中的在图像描述中基于ViLBERT和BiLSTM的流程图；

图3是本发明实施例中基于ViLBERT和BiLSTM的图像描述方法的模型示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种基于ViLBERT和BiLSTM的图像描述方法作具体阐述。

<实施例>

图1是本发明实施例中的基于ViLBERT和BiLSTM的图像描述方法的流程图。

如图1所示，本实施例中先通过使用FasterR-CNN对图像集进行特征提取，再结合ViLBERT和BiLSTM训练完成图像描述模型，进而对图像描述模型进行测试，具体包括步骤S1-1至步骤S1-2。

步骤S1-1，将待描述图像通过特征提取处理得到预处理图像特征。

步骤S1-2，将预处理图像特征输入至预先训练的图像描述模型中进行处理得到图片描述信息。

其中，图像描述模型具有ViLBERT子模型和BiLSTM子模型，ViLBERT子模型具有文本处理transformer块、两个联合注意力transformer层、两个transformer块、以及加权处理模块，BiLSTM子模型包括一个Att-LSTM以及一个Lan-LSTM。

本实施例中，BiLSTM子模型为双层长短期记忆网络，Att-LSTM为注意力BiLSTM，Lan-LSTM为加入注意力的语义BiLSTM。

本实施例中，该图像描述模型需要预先通过训练过程进行训练得到，具体地：

图2是本发明实施例中的在图像描述中基于ViLBERT和BiLSTM的流程图。

如图2、图3所示，本实施例中图像描述模型的训练步骤包括步骤S2-1至步骤S2-9。

步骤S2-1，获取训练图像集以及对应的图像文本信息w₀,w₁,…,w_t(即图3)。

步骤S2-2，对训练图像集进行特征提取得到图像特征信息p₀,p₁,…,p_t(即图3)。

其中，特征提取处理通过FasterR-CNN进行特征提取得到。

步骤S2-3，通过文本处理transformer块(即图3中的TRM)对图像文本信息w₀,w₁,…,w_t进行处理得到文本特征信息。

步骤S2-4，对图像特征信息以及文本特征信息分别进行一个联合注意力transformer层(即图3中的CoTRM)处理，然后再分别经过一个transformer块(即图3中的TRM)进行处理，得到对应的图像流特征h_p0,h_p1,…,h_pt(即图3)以及对应的文本流特征h_w0,h_w1,…,h_wt(即图3)。

其中，在对将所述图像特征信息以及所述文本特征信息分别经过一个transformer块进行处理后，对所述图像特征信息以及所述文本特征信息进行残差相加处理，从而得到具有多模态特征的所述图像流特征h_p0,h_p1,…,h_pt以及具有多模态特征的所述文本流特征h_w0,h_w1,…,h_wt。

步骤S2-5，加权处理模块(即图3中的Concat)对图像流特征h_p0,h_p1,…,h_pt以及文本流特征h_w0,h_w1,…,h_wt进行处理得到图像特征V＝{v₀,v₁,…,v_t}。

其中，所述加权处理模块在计算时使用如下公式：

v_i＝0.5h_pi+0.5h_wi

式中，加权因子为0.5。

步骤S2-6，使用Att-LSTM的输入数据以及上一层Att-LSTM的输出，并输入至Att-LSTM中输出得到

其中，在每一个时间步长上，LSTM使用公式如下计算：

h_t＝LSTM(x_t,h_t-1)

式中，x_t为LSTM的输入向量，h_t-1为上一时间步长的LSTM的输出向量，

t时刻的所述Lan-LSTM的输入数据为

式中，为上一时间步长Lan-LSTM的输出，/>为所述图像特征V的均值池化值，即/>W_e∏_t为之前生成单词的编码向量，W_e为加权矩阵，∏_t为t时刻驶入单词的独热编码，将这三者拼接得到/>

实施例中，在输出得到后，在每一个时间步长上结合图像特征V生成一个标准化注意力权重α_i,t，并得到加权后的图像特征/>

步骤S2-7，使用Lan-LSTM的输入数据以及上一层Lan-LSTM的输出，并输入至Lan-LSTM中输出得到

其中，所述Lan-LSTM的输入数据为

式中，为加权后的图像特征V，/>为Att-LSTM的输出。

步骤S2-8，将输入至softmax中进行分类得到对应的单词(即图3中的“Twopeople on there snowboards with a group behind them”)。

其中，由如下公式计算得到：

式中，分别为已学习的参数，/>为ω_a的转置矩阵，v_i为图形特征V的第i个区域特征，/>为Att-LSTM的t时刻的输出隐藏向量，α_i,t为标准化注意力权重。

步骤S2-9，基于真实人工描述序列以及图像文本信息参数，使用交叉熵损失函数对图像描述模型进行训练。

其中，所述交叉熵损失函数为：

通过上述步骤即可完成图像描述模型的训练，将待描述图像经过特征提取处理后输入至图像描述模型进行处理，从而得到图像描述信息。

实施例作用与效果

根据本实施例提供的一种基于ViLBERT和BiLSTM的图像描述方法，由于在获取训练图像集以及对应的图像文本信息后，对训练图像集进行特征提取得到图像特征信息，再通过文本处理transformer块对图像文本信息进行处理得到文本特征信息，又对图像特征信息以及文本特征信息分别进行一个联合注意力transformer层处理，然后再分别经过一个transformer块进行处理，得到对应的图像流特征以及对应的文本流特征，进而加权处理模块对图像流特征以及文本流特征进行处理得到图像特征V，因此不仅可以更好地学习到图像特征，而且解决了图像描述中图像特征信息提取利用不足，上下文关联性弱的问题。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于，包括：

步骤S1-1，将待描述图像通过特征提取处理得到预处理图像特征；

步骤S1-2，将所述预处理图像特征输入至预先训练的图像描述模型中进行处理得到图片描述信息，

其中，图像描述模型具有ViLBERT子模型和BiLSTM子模型，

所述ViLBERT子模型具有文本处理transformer块、两个联合注意力transformer层、两个transformer块、以及加权处理模块，

所述BiLSTM子模型包括一个Att-LSTM以及一个Lan-LSTM，

所述图像描述模型通过如下预先训练过程获得：

步骤S2-1，获取训练图像集以及对应的图像文本信息w₀，w₁，...，w_t；

步骤S2-2，对所述训练图像集进行特征提取得到图像特征信息p₀，p₁，...，p_t；

步骤S2-3，通过所述文本处理transformer块对所述图像文本信息w₀，w₁，...，w_t进行处理得到文本特征信息；

步骤S2-4，对所述图像特征信息以及所述文本特征信息分别进行一个联合注意力transformer层处理，然后再分别经过一个transformer块进行处理，得到对应的图像流特征h_p0，h_p1，...，h_pt以及对应的文本流特征h_w0，h_w1，...，h_wt；

步骤S2-5，所述加权处理模块对所述图像流特征h_p0，h_p1，...，h_pt以及所述文本流特征h_w0，h_w1，...，h_wt进行处理得到图像特征V＝{v₀，v₁，...，v_t}；

步骤S2-6，使用所述Att-LSTM的输入数据以及上一层所述Att-LSTM的输出，并输入至所述Att-LSTM中输出得到

步骤S2-7，使用所述Lan-LSTM的输入数据以及上一层所述Lan-LSTM的输出，并输入至所述Lan-LSTM中输出得到

步骤S2-8，将所述输入至softmax中进行分类得到对应的单词；

步骤S2-9，基于真实人工描述序列以及图像文本信息参数，使用交叉熵损失函数对所述图像描述模型进行训练。

2.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于：

其中，所述特征提取处理通过Faster R-CNN进行特征提取得到。

3.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于：

其中，步骤S2-4中，在对将所述图像特征信息以及所述文本特征信息分别经过一个transformer块进行处理后，对所述图像特征信息以及所述文本特征信息进行残差相加处理，从而得到具有多模态特征的所述图像流特征h_p0，h_p1，...，h_pt以及具有多模态特征的所述文本流特征h_w0，h_w1，...，h_wt。

4.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于：

其中，所述加权处理模块在计算时使用如下公式：

v_i＝0.5h_pi+0.5h_wi

式中，加权因子为0.5。

5.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于：

其中，t时刻的所述Lan-LSTM的输入数据为

式中，为上一时间步长Lan-LSTM的输出，/>为所述图像特征V的均值池化值，即W_e∏_t为之前生成单词的编码向量，W_e为加权矩阵，∏_t为t时刻驶入单词的独热编码，将这三者拼接得到/>

6.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于：

其中，所述Lan-LSTM的输入数据为

式中，为加权后的图像特征V，/>为Att-LSTM的输出。

7.根据权利要求6所述的一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于：

其中，由如下公式计算得到：

8.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于：

其中，在t时间步长输出单词的概率分布由如下公式给出：

式中，y_1：T为单词序列(y₁，...，y_T)，以及/>分别为已学习权重和偏差参数，

并且，完整的单词序列输出分布如下式所示：

9.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法，其特征在于：

其中，所述交叉熵损失函数为：