CN107844743A

CN107844743A - 一种基于多尺度分层残差网络的图像多字幕自动生成方法

Info

Publication number: CN107844743A
Application number: CN201710896059.7A
Authority: CN
Inventors: 田彦; 王勋; 黄刚
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2018-03-27
Anticipated expiration: 2037-09-28
Also published as: CN107844743B

Abstract

本发明公开了一种基于多尺度分层残差网络的图像多字幕自动生成方法，该方法应用了改进的漏斗网络捕捉多尺度目标信息。首先在构建漏斗框架网络时提出了一种密集连接聚合残差块，为了解决梯度消失和梯度爆炸问题，进一步提出了残差LSTM。该方法取得了较高的实验性能，在多字幕获取任务上有明显优势。

Description

一种基于多尺度分层残差网络的图像多字幕自动生成方法

技术领域

本发明涉及多字幕获取技术，具体涉及一种基于多尺度分层残差网络的图像多字幕自动生成方法。

背景技术

多字幕获取就是获得一幅图像中非固定数量的类别目标描述语。这项工作是很多重要应用的基础服务，例如语义图像搜索、聊天机器人的视觉智能、社交媒体分享的图像和视频、帮助人们感知周围世界等等。

目前的研究结合了卷积神经网络和循环神经网络从图像特征图上预测字幕。但是在完善性能上遇到了一些瓶颈：1)目标检测在计算机视觉上仍然是开放性的问题；2)从图像特征空间到描述空间是一个非线性的多模态的映射；3)更深的网络更容易学习这种非线性映射关系，但是更深的网络容易引起梯度消失或者梯度爆炸问题。

最近残差学习网络及其扩展网络在非线性和多模型分类问题上表现突出，主要是因为它通过残差层解决了梯度消失的问题，进而利用加深的网络提升了准确度。尽管残差学习网络在分类任务中进行了很多的探索，但是其在多字幕获取这样的序列预测任务上仍存在限制。

目前的多字幕获取方法大致可以分为几类：

基于检索的方法：基于检索的方法利用卷积神经网络提取目标特征，然后评估图像特征和对应的描述词来预测图像字幕。

基于序列的方法：基于序列的方法通过卷积神经网络和循环神经网络推导出对时间序列的描述。

基于检测的方法：虽然基于序列的方法在字幕获取任务上实现了很高的准确度，但是它往往容易忽略图像上的细节，因此提出了基于检测的方法来解决这类问题。首先通过基于卷积神经网络的检测器获得图像上存在的目标，然后集合语言模型给出合适的描述语。

发明内容

本发明提供了一种基于多尺度分层残差网络的图像多字幕自动生成方法，该方法能够有效提高字幕获取的准确率。

本发明实施方式提供了一种基于多尺度分层残差网络的图像多字幕自动生成方法，包括以下步骤：

(1)设计多字幕生成模型：所述多字幕生成模型包括用于图像特征图提取与目标检测的卷积神经网络检测模型、用于字幕预测的循环神经网络预测模型复合而成；

在所述卷积神经网络检测模型中，将卷积神经网络中的残差块修改为密集连接聚合残差块；

在所述循环神经网络预测模型中，将循环神经网络的相邻两层之间提供一个梯度传播捷径；

所述多字幕生成模型的损失函数L定义为：

L＝L_det+αL_bbox+βL_cap

其中，L_det、L_bbox和L_cap分别为检测损失、边框定位损失、标题预测损失，α和β是影响因子；

(2)生成多字幕：利用合格的训练样本对所述多字幕生成模型进行训练，得到训练好的多字幕生成模型，测试时候给定待获取字幕图像，将训练好的多字幕生成模型执行前向传递，得到多字幕生成结果。

在卷积神经网络检测模型中，根据提取的特征图得到目标框和目标类别，然后在循环神经网络预测模型中根据目标框和目标类别得到字幕。

作为优选，所述密集连接聚合残差块为：

将卷积神经网络的残差块中的依次连接的3层基础卷积层Conv¹、Conv²、Conv³分别划分成n个并行的小基础卷积层Conv¹ _i、Conv² _i、Conv³ _i，并以序号相同的小基础卷积层Conv¹ _i、Conv² _i、Conv³ _i依次连接形成残差小块，n个残差小块并联融合成聚合残差块，i＝1,2,3,……,n，且聚合残差块的连接顺序为归一化层-激活层-卷积层；

在所述小基础卷积层Conv² _i与所述聚合残差块的前一网络层之间设有一条梯度传播捷径，形成密集连接聚合残差块。

本发明实施方式将残差块修改聚合残差块，在保证计算量的同时增加了网络深度和宽度，这样使得特征提取的更精确。同时，本发明实施方式在聚合残差块的基础上引入一条捷径。该捷径的引入不仅解决了梯度消失问题，而且加强了特征的传播，增加了特征重用，从本质上减少了参数。

本发明实施方式将将循环神经网络的相邻两层之间提供一个用于梯度传播的捷径，该捷径的引入解决了梯度消失和梯度爆炸问题。空间域的捷径和时域单元的更新分离开来会使解决梯度消失和梯度爆炸问题更加灵活。

作为优选，对所述多字幕生成模型进行训练的过程为：

对于卷积神经网络检测模型，利用ImageNet数据集上训练的权值和服从标准差为0.01的高斯分布的权值初始化网络；

对于循环神经网络预测模型，采用Visual Genome和MS-COCO数据集对该预测模型进行微调。

作为优选，所述卷积神经网络检测模型包括设于残差块后的漏斗结构。当图像分辨率降到最低后网络开始上采样，融合不同尺度的特征，上采样方式为元素级相加，得到的不同尺度特征图用来获取多尺度候选框，漏斗的拓扑结构是对称的，因此，特征图输出层在其后的结构中都有层与其对应。

作为优选，所述检测损失L_det、边框定位损失L_bbox、标题预测损失L_cap分别为：

检测损失

其中，c_i是检测框i所属的实际前景/背景信息(前景为1，背景为0)，pi是通过本发明提供的卷积神经网络所预测的前景概率；

边框定位损失

其中，G_i是物体i在图像中的实际位置，P_i是通过本发明提供的卷积神经网络所预测的物体i在图像中的位置；

标题预测损失

其中，w_i是真实字幕中第i个单词信息(真实单词为1，其余单词为0)，r_i是通过本发明提供的循环神经网络所预测的第i个单词概率。

影响因子的选择直接影响多字幕提取的精度，作为优选，所述影响因子α取值为0.05～0.15，影响因子β取值为0.01～0.1。进一步优选，所述影响因子α取值为0.1，影响因子β取值为0.05。

作为优选，所述循环神经网络预测模型的方程式更新如下：

h_t＝o_t⊙[ψ(c_t)+W_xx_t]

其中，W_x是残差LSTM的输入映射矩阵，x_t和h_t分别为残差LSTM层在时刻t的输入变量和隐含变量，c_t表示记忆单元，o_t是决定是否输出新记忆单元的输出门函数。ψ表示双曲线正切函数，⊙是矩阵逐点乘积操作。

所述多字幕生成模型训练阶段采用GPU进行计算。

相比于现有技术，本发明具有的有益效果为：

(1)漏斗结构的增加，能够在特征图提取时捕获到多尺度目标信息。

(2)密集连接聚合残差块的增加，能够在特征图提取时在保证计算量的同时增加了网络深度和宽度，且解决了梯度消失问题、加强特征的传播，增加了特征重用。

(3)梯度传播捷径的增加，进一步解决了多字幕获取过程中梯度消失和梯度爆炸问题。

附图说明

图1是本发明实施例提供的多字幕生成模型的框架示意图；

图2是本发明实施例提供的原始残差块的结构示意图；

图3是本发明实施例提供的聚合残差块的结构示意图；

图4是本发明实施例提供的密集连接聚合残差块结构示意图；

图5是图1提供的框架示意图中的漏斗结构示意图；

图6是图1提供的框架示意图中的残差LSTM的结构示意图；

图7是图1提供的多字幕生成模型在数据集Visual Genome上的测试结果示例图；

图8是图1提供的多字幕生成模型在数据集MS-COCO上的测试结果示例图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本实施例提供的多字幕获取方法可以获得一副图像中非固定数量的类别目标描述语，且可以应用到语义图像搜索、聊天机器人的视觉智能、社交媒体分享的图像和视频的字幕获取等。

采用本实施方式基于多尺度分层残差网络的图像多字幕自动生成方法对图像中的目标进行语义描述的过程包括训练和测试两个部分。下面在阐述这两个部分之前会着重介绍本实施例所采用的多字幕生成模型。

图1是本发明实施例提供的多字幕生成模型的框架示意图，参见图1，该模型框架包括连接的卷积神经网络检测模型和循环神经网络预测模型。

在图1中，conv代表卷积操作，箭头上方矩阵代表该层输出尺寸，Block表示本实施例提出的残差块结构，pooling代表池化操作，FC为全连接层，Hourglass为本实施例提出的漏斗结构。concate代表多层特征的融合操作。

卷积神经网络检测模型开始于一个7×7的卷积层，卷积步长为2；然后是一个残差块Block1、最大池化层Max Pooling，分辨率相较于输入降低了4倍；随后是残差块Block2、Block3、Block4和漏斗结构Hourglass，用来获取多尺度候选框，这里假设可以获得K个候选框；接下来是卷积层Conv2和兴趣域池化层Rol Pooling。以上的卷积神经网络结构具有三点优势：(1)特征图的通道数明显降低(从512降为64)；(2)滑动窗口分类器更加简单；(3)在卷积层Conv2里卷积核大小由3×3修改为1×1，限制了卷积层的感知域。

此外，在卷积神经网络模型中还加了两层全卷积层FC1和FC2来实现跨通道交互和信息集成，同时也加入了特征图的线性组合和通过增加卷积核通道数目来增加维度。区域特征通过1×1的卷积层Conv3和Conv4来获取检测得分和边界框的偏移量。

经过卷积神经网络检测模型特征提取后得到B个最高置信度得分的目标图像，这些目标图像的特征图串联输入至循环神经网络预测模型进行目标图像的字幕预测，也就是获取多字幕。循环神经网络预测模型包括残差LSTM网络。

图2是本发明实施例提供的原始残差块的结构示意图。原始残差块包括依次连接的是1×1×64的基础卷积层Conv¹、3×3×64的基础卷积层Conv²、1×1×C的基础卷积层Conv³，该三个基础卷积层相当于三个滤波器，另外，原始残差块还包括1×1×C卷积层Conv^m，用来匹配维度，且原始残差块的连接顺序为卷积层Conv-归一化层BN-激活层RELU，C为正整数。

图2所示的原始残差块虽特征提取性能很好，但是权值参数过多难以优化，本实施例提出了如图3所示的聚合残差块，在聚合残差块中，将基础卷积层Conv¹、Conv²、Conv³划分16个并行的1×1×4的小基础卷积层Conv¹ _i、3×3×4的小基础卷积层Conv² _i、1×1×C/16的小基础卷积层Conv³ _i，i＝1,2,3,……,16，并序号相同的小基础卷积层Conv¹ _i、Conv² _i、Conv³ _i依次连接后形成残差小块，16个残差小块并联聚合concate后，再与匹配维度卷积层Conv^m合成聚合残差块。由于基础卷积层Conv³本身尺度就是不确定的C，所以C/16仍然不确定，因此1×1×C的基础卷积层Conv³表示16个1×1×C/16Conv³ _i。聚合残差块的连接顺序为归一化层BN-激活层RELU-卷积层Conv。

通过图3所示的聚合残差块使得输入值通过卷积层转化为一些低维的特征然后以并联的方式融合。这种分开-转化-融合的操作期望能达到大的稠密的层所具有的表达能力，并且这些操作的计算复杂度要远远低于原始残差块。

如图4所示，本实施例在图3所示的聚合残差块基础上，在小基础卷积层Conv² _i与前一网络层Former layer之间连接一条梯度传播捷径，形成密集连接聚合残差块，这种密集连接聚合残差块不仅解决了梯度消失问题，而且加强了特征的传播，增加了特征重用，从本质上减少了权值参数。每个分支里所有前一网络层Former layer的特征图用作小基础卷积层Conv² _i的输入，小基础卷积层Conv² _i的输出又作为后一网络层Latter layer的输入。

图5是图1提供的框架示意图中的漏斗结构示意图。如图5所示，sub-pixel conv表示亚像素卷积操作，步长为2的卷积层用来提取特征并降低特征的分辨率。下采样时每个网络分支在池化前加入密集连接聚合残差块，当分辨率降到最低后网络开始上采样融合不同尺度的特征，上采样方式为元素级相加，得到的不同尺度特征图用来获取多尺度候选框，漏斗的拓扑结构是对称的，因此特征图输出层在其后的结构中都有层与其对应。

循环神经网络的训练最大的瓶颈是梯度消失和梯度爆炸问题，然而残差网络的提出刚好解决了这一问题，在超过100层的网络训练中也能达到不错的效果，目前在目标检测和分类任务重应用广泛，残差网络和关键技术是在层与层之间提供了一个用于梯度传播的捷径。原始的残差LSTM只是简单地在LSTM输出上加入了一个没有缩放的输入路径，但是随着层的增加路径不断积累，导致算法性能显著损失。没有合适的缩放残差LSTM输出的方差将会持续增加。因此，本实施例提供了一种如图6所示的残差LSTM，空间域的捷径和时域单元的更新分离开来会使解决梯度消失和梯度爆炸问题更加灵活。不同于高速LSTM，本实施例所提出的残差LSTM不用在一个内存ct里计算高速路径。在LSTM输出h_t加入一条捷径传入梯度就能解决梯度消失和梯度爆炸问题。

图6描述了残差LSTM层的结构，在输入x_t和输出h_t之前有一条梯度传递捷径shortcut，虽然梯度传递捷径可以是任何较低的输出层，但是本发明使用以前的输出层。残差LSTM的方程式更新如下：

h_t＝o_t⊙[ψ(c_t)+W_xx_t]

本实施例所提出的残差LSTM在空间捷径连接处用了一个输出层，而不是内存单元，这样对于时间梯度流的干预会少很多。残差LSTM结构通过一条快速捷径学习非线性的残差映射，因此每个新的层不用浪费时间和资源去前一层获得相似的输出。本实施例的残差LSTM重用了一个LSTM矩阵作为阀门网络。就一个普通的LSTM网络而言，超过10％的可学习参数可以通过快速LSTM从残差LSTM网络里得到保存。

本实施例中，多字幕生成模型的损失函数L定义为：

L＝L_det+αL_bbo_x+βL_cap

其中，α和β是影响因子，本实施例中，选择α＝0.1和β＝0.05；

检测损失

其中，c_i是检测框i所属的实际前景/背景信息(前景为1，背景为0)，p_i是通过本实施例提供的网络所预测的前景概率。

边框定位损失

其中，G_i是物体i在图像中的实际位置，P_i是通过本实施例提供的网络所预测的物体i在图像中的位置。

标题预测损失

其中，w_i是真实字幕中第i个单词信息(真实单词为1，其余单词为0)，r_i是通过本实施例提供的网络所预测的第i个单词概率。

以上模型建立完毕后，对多字幕生成模型进行训练，训练的过程为：

预训练(Pre-train)阶段：对于卷积神经网络检测模型，用ImageNet数据集上训练的权值初始化Conv1和Block1、Block2、Block3、Block4，其他初始化的权值服从标准差为0.01的高斯分布。

也可以选用一些其他数据集对卷积神经网络检测模型进行训练，确定每一层的权值。

微调(Fine-tuning)阶段：对于循环神经网络预测模型，在Visual Genome和MS-COCO数据集上微调模型。

此处模型训练阶段采用GPU进行计算。

多字幕生成模型训练好后，对该模型进行测试，获取多字幕。本实施例中测试模型具体为：

给定测试图像，将训练得到的多字幕生成模型执行一次前向传递得到若干个高置信度的区域候选框，在一定IoU门限下采用非极大抑制，得到基于本实施例提出的多字幕生成模型的测试结果，在数据集Visual Genome上的测试结果如图7，在MS-COCO数据集上的测试结果如图8，图7、图8中的方框为字幕获取框。

利用本实施例对图像进行多字幕获取，相比于目前主流字幕获取方法Full imageRNN、全卷积定位网络(fully convolutional localization network,FCLN)、和T-LSTM，算法性能明显提高。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度分层残差网络的图像多字幕自动生成方法，包括以下步骤：

所述多字幕生成模型的损失函数L定义为：

L＝L_det+αL_bbox+βL_cap

(2)生成多字幕：利用合格的训练样本对所述多字幕生成模型进行训练，得到训练好的多字幕生成模型，测试时候给定待生成字幕图像，将训练好的多字幕生成模型执行前向传递，得到多字幕生成结果。

2.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法，其特征在于，所述密集连接聚合残差块为：

3.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法，其特征在于，对所述多字幕生成模型进行训练的过程为：

4.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法，其特征在于，所述卷积神经网络检测模型包括设于残差块后的漏斗结构。

5.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法，其特征在于，所述检测损失L_det、边框定位损失L_bbox、标题预测损失L_cap分别为：

检测损失

其中，c_i是检测框i所属的实际前景/背景信息，p_i是预测的前景概率。

边框定位损失

其中，G_i是物体i在图像中的实际位置，P_i是预测的物体i在图像中的位置；

标题预测损失

其中，w_i是真实字幕中第i个单词信息，r_i是预测的第i个单词概率。

6.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法，其特征在于，所述影响因子α取值为0.05～0.15，影响因子β取值为0.01～0.1。

7.如权利要求6所述的基于多尺度分层残差网络的图像多字幕自动生成方法，其特征在于，所述影响因子α取值为0.1，影响因子β取值为0.05。

8.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法，其特征在于，所述循环神经网络预测模型的方程式更新如下：

h_t＝o_t⊙[ψ(c_t)+W_xx_t]

9.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法，其特征在于，所述多字幕生成模型训练阶段采用GPU进行计算。