CN113628288A

CN113628288A - 一种基于编-解码器结构的可控图像字幕生成优化方法

Info

Publication number: CN113628288A
Application number: CN202110761130.7A
Authority: CN
Inventors: 邵洁; 杨润霞; 马潇雨; 罗岩
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai Electric Power University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-11-09
Anticipated expiration: 2041-07-06

Abstract

本发明涉及一种基于编‑解码器结构的可控图像字幕生成优化方法，该方法包括：构建图像编码器，用于进行目标检测并提取各目标区域的图像特征，得到各目标区域的特征向量；采用排序网络对目标区域进行排序；构建图像解码器，将排序后的目标区域的特征向量输入至图像解码器，解码输出图像字幕。与现有技术相比，本发明字幕生成可控性高，生成的字幕的描述更具有多样性，能够应用到复杂的场景中。

Description

一种基于编-解码器结构的可控图像字幕生成优化方法

技术领域

本发明涉及一种图像字幕生成方法，尤其是涉及一种基于编-解码器结构的可控图像字幕生成优化方法。

背景技术

随着信息技术与人类生产生活的交汇融合，互联网在人类日常生活中得到快速普及，越来越多的数据在互联网终端产生，全球数据呈现爆炸式增长。图像和文本作为数据重要的表达方式，图像生动形象，能够给人留下形象深刻的印象，而文本概括性高，能够以简练的形式描绘并传递信息，这两者也分别代表了深度学习的两大领域，计算机视觉和自然语言处理。而图像字幕生成很好地建立了计算机视觉领域和自然语言处理领域的桥梁，使用自然语言对图像进行描述，实现图像的语义理解。

近几年，随着机器翻译以及大数据的兴起，已经出现了图像字幕生成的热潮，它的主流方法是基于编码器-解码器结构的深度学习，利用编码器提取图像特征，利用解码器来生成图像对应的描述文本。然而现有的绝大部分研究方法仍缺乏可控性和可解释性。在实际应用情景中，我们需要能够根据目标和上下文，用多种不同的方式来描述同一张图像。

因此，如何增加生成过程的可控性，根据需要生成相应的描述成为图像字幕的一个新的研究方向。而且该方向明显具有更大的应用潜力和实用价值。不仅可以实现更好的交互性、可解释性，同时也使得生成的描述更具有多样性，能够应用到复杂的场景中。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于编-解码器结构的可控图像字幕生成优化方法。

本发明的目的可以通过以下技术方案来实现：

一种基于编-解码器结构的可控图像字幕生成优化方法，该方法包括：

构建图像编码器，用于进行目标检测并提取各目标区域的图像特征，得到各目标区域的特征向量；

采用排序网络对目标区域进行排序；

构建图像解码器，将排序后的目标区域的特征向量输入至图像解码器，解码输出图像字幕。

优选地，所述的图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器，所述的第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。

优选地，所述的第一网络包括Faster R-CNN网络。

优选地，所述的第二网络包括VC R-CNN网络。

优选地，所述的图像解码器采用改进激活函数的LSTM神经网络，改进的激活函数为m-Tanh激活函数，表示为：

其中，x为输入，H(x)为输出，m为常数

优选地，利用m-Tanh激活函数更新LSTM神经网络细胞状态的具体方式为：

其中，x_t为t时刻输入的目标区域的特征向量，h_t-1为t-1时刻隐藏层的状态，W_c、

分别表示网络的权重和偏差参数，f_t、i_t分别表示t时刻的遗忘门向量和输入门向量，C_t-1、C_t分别表示t-1时刻、t时刻的细胞状态更新向量，

分别表示t-1时刻、t时刻的细胞状态初始向量。

优选地，利用m-Tanh激活函数更新LSTM神经网络隐藏层状态的具体方式为：

其中，h_t为t时刻隐藏层的状态，o_t为t时刻输出门向量。

优选地，当采用不同的图像编码器、排序网络、图像解码器生成不同的图像字幕后，多分枝决策输出算法来选出最优的图像字幕。

优选地，多分枝决策输出算法具体为：

对各情况下输出的图像字幕进行评价获取评价指标向量；

基于评价指标向量对图像字幕两两进行比对，选出最优的图像字幕。

优选地，对图像字幕两两比对的具体方式为：

对评价指标向量中的每个指标进行对比，若第一图像字幕中的各个评价指标均大于第二图像字幕的各个评价指标，则优选第一图像字幕，若第二图像字幕中的各个评价指标均小于第二图像字幕的各个评价指标，则优选第二图像字幕，否则，根据各个评价指标的重要程度为各个评价指标设置权重，对评价指标向量中的评价指标进行加权求和，优选加权求和结果较大的图像字幕。

与现有技术相比，本发明具有如下优点：

(1)本发明对图像编码器进行改进，将两种网络进行融合，分别提取图像一般性特征和图像视觉常识性特征，这两种特征具有互补的作用，可以很好地实现对图像信息的提取，由于图像字幕的生成主要依赖于提取的图像特征，因此采用改进后的图像编码器可以得到描述更为准确的图像字幕；

(2)本发明采用排序网络对目标区域进行排序，从而可以实现对图像区域描述顺序的控制，提高图像字幕的准确性；

(3)本发明对图像解码器进行改进，采用m-Tanh激活函数更新LSTM神经网络细胞状态以及隐藏层状态，此种方式使得图像解码器相比传统的采用LSTM神经网络的解码器，在训练时具有更快的收敛速度，且可以有效地缓解梯度消失问题，从而使得生成的图像字幕准确性更高且控制性能更好；

(4)本发明设计多分枝决策输出算法优选图像字幕，从而能根据不同场景获取最优的图像字幕，具有可控性。

附图说明

图1为本发明一种基于编-解码器结构的可控图像字幕生成优化方法的实施流程框图；

图2为本发明采用改进激活函数的LSTM神经网络的结构示意图；

图3为本发明多分枝决策输出算法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

如图1所示，本实施例提供一种基于编-解码器结构的可控图像字幕生成优化方法，该方法包括：

采用排序网络对目标区域进行排序；

图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器，第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。其中，第一网络包括Faster R-CNN网络，第二网络包括VC R-CNN网络。两个网络分别提取了图像的2048维的一般性特征和1024维的常识性特征后，再将其进行拼接得到3072维的图像特征，并检测到一组目标区域R＝[r₀,r₁,...,r_N]。

排序网络采用现有的网络结构，将FVC R-CNN输出的目标特征表示，对每个区域类别的嵌入，归一化之后的目标框的位置和大小进行拼接，再通过全连接层进行处理映射得到一个3维的描述向量，当对所有的region进行处理之后，就得到了一个3*3的矩阵，接下来就可以通过Sinkhorn操作将其转化为一个“soft”排列矩阵P，具体就是执行L(在我们的实验中L＝20)次连续的行归一化和列归一化。当经过L次处理之后，通过Hungarian算法将结果转换为排列矩阵，就得到了排好序的区域表示，并将其作为解码器的输入。

图像解码器采用改进激活函数的LSTM神经网络，具体结构如图2所示，改进的激活函数为m-Tanh激活函数，表示为：

其中，x为输入，H(x)为输出，m为常数

利用m-Tanh激活函数更新LSTM神经网络细胞状态的具体方式为：

分别表示t-1时刻、t时刻的细胞状态初始向量。

利用m-Tanh激活函数更新LSTM神经网络隐藏层状态的具体方式为：

其中，h_t为t时刻隐藏层的状态，o_t为t时刻输出门向量。

在编码器部分使用两层的MT-LSTM神经网络模型来生成可控的图像字幕y＝[y₀,y₁,...,y_N]。为了使生成的句子更好的与检测到的图像区域相对应，我们将一个句子分解成不同的名词块序列，每个名词块对应一个图像区域。此外，使用块移位门来预测块的结束，然后采用带有视觉哨兵的自适应注意机制来区分视觉词和文本词，块移位门模型与自适应注意力模型共同作用将生成的名词块与图像区域建立联系。其中，块移位门表示为：

当采用不同的图像编码器、排序网络、图像解码器生成不同的图像字幕后，多分枝决策输出算法来选出最优的图像字幕。

多分枝决策输出算法具体为：

对各情况下输出的图像字幕进行评价获取评价指标向量；

对图像字幕两两比对的具体方式为：

具体地，如图3所示，本实施例中评价指标包括Bleu_4,ROUGE,METEOR,Cider,SPICE,NW，各个评价指标Bleu_4,ROUGE,METEOR,Cider,SPICE,NW一起作为一个向量，即V＝[Bleu_4,ROUGE,METEOR,Cider,SPICE,NW]。其中，Bleu_4表示译文和参考译文之间n组词的相似的一个占比；ROUGE基于字的对应表示参考译文和待测译文的共现概率，与Bleu_4类似；METEOR基于顺序表示参考译文和待测译文的共现统计；Cider表示得到的候选句子和参考句子的相似度；SPICE表示使用基于图的语义表示来编码字幕中的目标分布和关系；NW表示描述内容与区域序列的一致性。

然后，针对模型改进前后两种情况，我们可以得到向量V1和V2，分别代表了模型改进前后的评价指标结果向量，如果V1中的每个元素都小于V2，则选择第二种情况；如果V1中的每个元素都大于V2，则选择第一种情况。否则，我们令V1＝[v11,v12,v13,v14,v15,v16],V2＝[v21,v22,v23,v24,v25,v26]，根据每个评价指标重要程度的不同分别设置不同的权重，最后分别计算V1和V2的最终得分，即：

如果sum1>＝sum2，选择第一种情况，否则，选择第二种情况。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。