CN111859005A

CN111859005A - 一种跨层多模型特征融合与基于卷积解码的图像描述方法

Info

Publication number: CN111859005A
Application number: CN202010960151.7A
Authority: CN
Inventors: 罗会兰; 岳亮亮; 陈鸿坤
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2020-07-01
Filing date: 2020-09-14
Publication date: 2020-10-30
Anticipated expiration: 2040-09-14
Also published as: CN111859005B

Abstract

本发明提供一种跨层多模型特征融合与基于卷积解码的图像描述方法，涉及计算机视觉和自然语言处理领域。该跨层多模型特征融合与基于卷积解码的图像描述方法，包括以下步骤：S1.得到嵌入向量序列和最终文本特征；S2.计算得到视觉与文本融合匹配的注意力向量；S3.将注意力向量和文本特征向量和进行相加融合；S4.生成一个完整的描述句子。通过使用跨层多模型特征融合，有效弥补低层图像特征信息的丢失，从而获得更加细节的图像特征及学习到更加详细的描述句子，该模型能够有效提取和保存复杂背景图像中的语义信息，且具有处理长序列单词的能力，对图像内容的描述更准确、信息表达更丰富，值得大力推广。

Description

一种跨层多模型特征融合与基于卷积解码的图像描述方法

技术领域

本发明涉及计算机视觉和自然语言处理领域，具体为一种跨层多模型特征融合与基于卷积解码的图像描述方法。

背景技术

图像作为信息的主要载体之一，已越来越多的被人类共享，如何让计算机根据图像内容生成在语法上正确且语义上合理的自然语言句子显得至关重要，不同于目标检测、图像分类等较为简单的计算机视觉任务，图像描述属于更高层视觉理解，它不仅需要对图像中的物体和场景进行识别，还需要对物体与物体、物体与场景之间的关系进行表达，同时要求所生成的描述语句在语法和语义上都能够达到人类的标准，传统的图像描述方法分为两种：一是模板的方法，它将检测到的图像目标信息填入结构固定的句子模板中，二是基于检索的方法，它通过检索相似的图像，将已有的图像信息转移到待描述的图像上，不同于传统的动作识别方法，深度学习的方法基于卷积神经网络和循环神经网络，使用“编解码”的方式生成图像描述，使得描述句子的质量更高，生成图像的自然语言描述在实际生活中有着非常广泛的应用，例如，智能人机交互、幼儿早教、信息检索、视觉障碍者协助等，随着深度神经网络的发展以及大型数据集的应用，图像描述任务的研究受到了越来越多的关注。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种跨层多模型特征融合与基于卷积解码的图像描述方法，解决了现有的图像描述方法对图像包含的信息较复杂时描述不准确的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种跨层多模型特征融合与基于卷积解码的图像描述方法，包括以下步骤：

S1.首先在视觉模块，对单模型中实现低层与高层的跨层图像特征融合，然后再将多个视觉特征提取模型得到的特征图进行平均融合，同时将图像所对应的句子中包含的每个单词映射到具有D_e维度的嵌入空间中，得到它们的嵌入向量序列，然后经过6层因果卷积操作获得最终文本特征；

S2.将S1得到的视觉特征向量和文本特征向量注入到Attention模块中，通过构造分值图，计算得到视觉与文本融合匹配的注意力向量，并以此将视觉模块和语言模块连接起来；

S3.然后将S2中具有文本信息与图像不同区域之间相关性的注意力向量和S1中得到的文本特征向量和进行相加融合；

S4.再将S3得到的结果经过激活函数后输入另一个1×1的卷积层，其通道数为单词本的大小，最后通过softmax层得到下一个单词的预测概率，重复S1～S4步骤，直到最终生成一个完整的描述句子。

优选的，所述视觉模块中设置有三个VGG16结构且三个VGG16结构为图像视觉特征的提取模块，所述每个VGG16结构中都添加有跨层融合结构。

优选的，所述文本特征模型采用了用于机器翻译的卷积架构和用于音频生成的卷积架构，所述因果卷积模块由6层因果卷积层构成且因果卷积的卷积核宽度为3。

优选的，所述Attention模型为注意力机制。

优选的，所述预测模块为一个浅层神经网络。

(三)有益效果

本发明提供了一种跨层多模型特征融合与基于卷积解码的图像描述方法。具备以下有益效果：

本发明通过使用跨层多模型特征融合，有效弥补低层图像特征信息的丢失，从而获得更加细节的图像特征及学习到更加详细的描述句子，在充分描述和表征图像语义方面起到了补充作用，使用因果卷积并行处理文本信息，实现对长序列单词的有效学习，提升了模型对包含复杂场景信息的图像描述能力，通过一种融合文本信息和视觉信息的注意力模型，针对每个由language-cnn产生的文本特征向量和每个visio-cnn产生的视觉特征向量匹配计算得一个具有强相关性的向量矩阵，从而学习文本信息与图像不同区域之间的相关性，并且该模型还可以通过因果卷积层看到先前单词的参与特征，对图像中的单一物体更为敏感，实现了模型的准确描述。

本发明提出的模型性能较好，对于反映生成单词准确率的BLEU-1指标，它的值高达72.1％，且在其他多个评估指标上优于一些当前其他主流方法，如B-4指标超过性能优越的Hard-ATT方法6.0％，B-1和CIDEr指标分别超过emb-gLSTM方法5.1％和13.3％，与同样使用CNN+CNN策略的ConvCap方法相比，在B-1指标上本发明所提模型提升了0.3％，该模型能够有效提取和保存复杂背景图像中的语义信息，且具有处理长序列单词的能力，对图像内容的描述更准确、信息表达更丰富，值得大力推广。

附图说明

图1为本发明的整体框架结构图；

图2为本发明的跨层多模型特征融合的图像特征提取模型原理图；

图3为本发明构建的用于语言处理的CNN网络结构图；

图4为本发明将视觉信息和文本信息融合连接的Attention模型原理图；

图5为本发明的预测生成描述句子结构图；

图6为本发明的实施例中的实验结果示例图一；

图7为本发明的实施例中的实验结果示例图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

如图1-5所示本发明实施例提供一种跨层多模型特征融合与基于卷积解码的图像描述方法，包括以下步骤：

S1.首先在视觉模块，对单模型中实现低层与高层的跨层图像特征融合，然后再将多个视觉特征提取模型得到的特征图进行平均融合，同时将图像所对应的句子中包含的每个单词映射到具有D_e维度的嵌入空间中，得到它们的嵌入向量序列，然后经过6层因果卷积操作获得最终文本特征，在进行视觉特征提取时，丰富的特征信息对图像描述结果具有良好的指导作用，所以使用三个VGG16结构作为图像视觉特征的提取模块，同时为了融合低层特征和高层特征，实现语义特征和细节特征之间的信息互补，将VGG16结构中的conv3_1与conv5_1进行求和融合来保证图像特征信息的丰富性和完整性，在融合之前，使用512个的卷积核对conv3_1输出的特征图进行卷积操作，并且对每个VGG16网络都添加这种跨层融合结构，图像并行输入到单个视觉特征提取结构，然后对三个网络的输出特征进行平均融合，如下式：

视觉模块输出一个d×d×D_c的特征图，特征图的每个像素点对应一个D_c维特征向量，故可以将输出的特征图用N＝d²个D_c维特征向量列表来表示v＝[v₁,...,v_N]，而在进行文本特征提取时，设定S＝[w₁,w₂,...,w_L]为包含有L个单词的一个句子,首先将每个单词映射到具有D_e维度的嵌入空间中，得到它们的嵌入向量序列E＝[e₁,e₂,...,e_L]，本发明使用深度学习框架Pytorch中的Embedding函数来实现这个功能，然后将单词嵌入向量序列输入因果卷积模块，它由6层因果卷积层构成，因果卷积是处理序列问题的一维卷积结构，结合当前时刻和历史时刻信息，得到一个新的当前时刻输出，本发明采用了卷积核宽度为3的因果卷积，即结合当前时刻和前两个时刻的信息，这样经过6层卷积操作得到的最终文本特征可以融合很长历史时刻的信息，得到充分的上下文信息，为了使输出序列的长度与输入序列的长度相同，卷积操作使用了零向量在左边进行填充，因果卷积滤波器能确保单词的输出是按顺序输出的，这样语言模型就可以逐字生成对图像的描述，在因果卷积层中使用了激活函数GLU(Gated Liner Unit)，实验表明在训练时该激活函数比标准的激活函数ReLU更快，最终语言模型的输出是一组词向量c＝[c₁,c₂,...,c_L]，其中

由于因果卷积没有循环连接，通常训练起来比RNN更快，且有助于长序列单词的训练；

S2.将S1得到的视觉特征向量和文本特征向量注入到Attention模块中，通过构造分值图，计算得到视觉与文本融合匹配的注意力向量，并以此将视觉模块和语言模块连接起来，Attention模块将视觉特征向量v和语言模型输出的文本特征向量c作为注意力模块的输入，对于每一个词向量c_j和视觉特征向量v_i，按下式：

计算得到一个分值s_i，j，其中

是参数矩阵，然后输入softmax层，如下式：

得到w_i，j，作为视觉特征向量v_i的权值，然后再通过加权和运算来计算最终的Attention向量，如下式：

所以Attention模块的最终输出是a＝[a₁,a₂,···,a_L]，句子中的每一个单词对应着一个向量，其中

S4.再将S3得到的结果经过激活函数后输入另一个1×1的卷积层，其通道数为单词本的大小，最后通过softmax层得到下一个单词的预测概率，重复S1～S4步骤，直到最终生成一个完整的描述句子，预测模块将Attention特征表达a和文本特征向量c作为输入，再第j个待生成单词的位置，将a_j和c_j送入网络中，其输出是下一个单词的预测概率P_j+1，如下式：

其中，

和

是参数，f(x)＝max(x,0.1x)是Leaky Relu激活函数，

其中V表示词汇量大小，本发明使用两个1×1的卷积层分别对注意力特征向量a_j和文本特征向量c_j进行了处理，将其维度同一到4096，相加融合并经过激活函数后输入另一个1×1的卷积层，其通道数为单词本的大小，在实验中为9489，最后通过softmax层得到下一个单词的预测概率P_j+1，直到生成最终的描述句子。

视觉模块中设置有三个VGG16结构且三个VGG16结构为图像视觉特征的提取模块，每个VGG16结构中都添加有跨层融合结构，文本特征模型采用了用于机器翻译的卷积架构和用于音频生成的卷积架构，因果卷积模块由6层因果卷积层构成且因果卷积的卷积核宽度为3，Attention模型为注意力机制，添加注意力机制是为了关注图像中的区域信息，使生成的描述更符合图像内容，同时将视觉模块和语言模块连接起来，预测模块为一个浅层神经网络。

实施例二：

如图1-7所示本发明实施例提供一种跨层多模型特征融合与基于卷积解码的图像描述方法，使用VGG-16和language-CNN(即本发明使用的语言模块)对模型进行训练，，将其作为基准模型CNN+CNN(Baseline)，然后在Baseline的基础上，添加多个VGG-16网络，并在每个VGG-16中实现跨层特征融合，使用已训练好的基准模型参数对模型进行初始化，重新训练，在MSCOCO数据集上，部分实验结果如下所示：

R1:A hamburger and a salad sitting on top of a table.

R2:A salad and a sandwich wait to be eaten at a restaurant.R3:Anoutside dining area with tables and chairs highlighting a salad and sandwich.

R4:A sandwich and a salad are on a tray on a wooden table.

R5:A table with a bowl of food,sandwich and wine glass sitting on itin a restaurant.

B:A table with a plate of food and a glass of wine.

C:A salad and a sandwich sitting on a table at a restaurant.

第一张图像的结果示例

R1:A group of commuters standing next to a passenger train.

R2:Passengers walking along a train at the station.

R3:A train marked 800 is at a station.

R4:People walk beside a train at a train station.

R5:The people are walking down the track as the train arrives.

B:A black and white photo of a man on a train station.

C:A man standing next to a train with a luggage at a station.

第二张图像的结果示例

R1:A dog wearing a tuxedo sitting at a table with a piece of cakewith a lit candle.

R2:A small dog wears a suit in front of a desert.

R3:A dog in a tuxedo is sitting at a table on which a piece of cakeis sitting.

R4:A small dog in a tuxedo sitting at a table

R5:A dog wearing a shirt standing next to a piece of cake

B:A dog is standing next to a plate with a cake.

C:A small dog in a suit with a birthday cake on top of table.

第三张图像的结果示例

R1:Old blue bus with bicycles parked on roadway near green space.

R2:An old grey bus with bicycles on the front going down the road.

R3:A blue bus driving down a road next to a lush green field.

R4:The old bus is painted a faded blue.

R5:A blue bus parked on the side of a road

B:A blue bus is parked in a road.

C:An old blue bus is parked on the side of the road.

第四张图像的结果示例

试验结果示例中R表示人工标注的5条参考句子，B表示基准模型生成的句子，C表示使用CMFF/CD模型生成的句子，从实验结果可以看出，本发明提出的模型所生成的句子具有更好的语义表达，较好地描述了图像中蕴含的内容，和句子B相比，本发明方法所生成的句子C语义信息更加丰富，句子质量较高，对图像场景描述也更为合理，例如在图6第1张图像中，句子B将关注点聚焦在了“食物(food)”和“酒(wine)”上，忽略了图像中的场景信息，而本发明方法生成的句子C即指明了场景信息(restaurant)，又说明了场景中包含的一些物体，虽然没有完全给出场景中包含的物体信息，但句子所描述的物体类别更为准确，且句子更贴近人类的表达习惯，同样，在图6第3张图像中，CMFF/CD模型生成的句子能够准确描述出“西装(suit)”、“生日蛋糕(birthday cake)”和“桌子(table)”，而基准模型生成的句子B缺少这种准确描述，与人工标注的5条参考句子相比，本发明生成的有些句子更为合理，例如图6第2张图像中，除了能够描述出“火车(train)”和“火车站(station)”外，还找出了“行李箱(luggage)”这一图像中显著部位的物体，而在5条人工标注的参考句子中并未出现“行李箱(luggage)”，本发明不仅能够对图像内容做到精准和整体的描述，通过对比发现，对图像中的物体还能够给出一些形象化的描述，对于“狗(dog)”、“公共汽车(bus)”，本发明方法模型使用了“小的(small)”、“旧的(old)”、“蓝色的(blue)”来描述，而且在图6第3张图像中，通过“生日蛋糕(birthday cake)”一词可以看出模型还具有一定的想象力，由此表明，本发明在各种场景中均具备客观的描述能力，且描述句子质量高，语义信息丰富。

下列表1和表2所示是分别在数据集MSCOCO和Flickr30k上，比较了本发明提出的跨层多模型特征融合与基于卷积解码的图像描述方法与图像描述领域中的其他主流模型的定量评价指标：

表1 不同方法在MSCOCO数据集上的性能对比

注：粗体表示最大值，下滑线表示次大值，“—”表示无。

表2 不同方法在Flickr30k数据集上的性能对比

表中BRNN，NIC，LRCN，MSR，m-RNN，Soft-ATT，Hard-ATT，ATT-FCN，emb-gLSTM，VAE，Sca-cnn和ConvCap方法的性能指标均来自于他们文献中报导的结果。

在MSCOCO数据集上，通过对比发现，本发明算法几乎在所有评估指标上的得分均高于基于CNN+LSTM策略的图像描述方法，B-4指标超过性能优越的Hard-ATT方法6.0％，同时B-1和CIDEr指标上分别超过emb-gLSTM方法5.1％和13.3％，甚至在B-1指标上与使用语义注意力模型的VAE方法表现相当，并且在其他指标上均有一定程度的提高，原因是本发明所使用的注意力模型能更好的将局部图像特征与词向量进行匹配学习，充分利用局部信息，从而对图像中包含的内容做到详细的表达，与同样使用CNN+CNN策略的ConvCap方法相比，在B-1指标上本发明所提模型略微提升0.3％，且在其他指标上表现相当。

在Flickr30k数据集上，本发明算法也提供了可比较的结果，在METEOR指标上略微低于Sca-cnn方法，但均高于其他基于RNN解码的方法，在CIDEr指标上也有所提升，由于BLEU评测方法的着重点在于生成单词的准确率，对语言表达考虑不足，在BLEU指标上，本发明算法低于同样使用Attention机制的Soft-ATT、Hard-ATT和ATT-FCN方法，但在METEOR和CIDEr指标上，本发明提出的模型均有一定提升，说明本发明提出的模型更注重生成句子的语义内涵以及对图像内容的细节理解。

图7所示的实验结果是本发明提出的模型CMFF/CD与ConvCap、ATT-FCN、SCA-CNN和POS生成的描述结果的定性比较，从图7中的实验结果可以看出，与ATT-FCN、SCA-CNN和POS相比较，本发明提出的CMFF/CD模型所生成的描述句子中包含的图像信息更加丰富，对长序列单词的处理效果更好，可以描述出诸如“toothbrush、sink/tunnel/audience”(见图7中第一行)、“bed trailer、bus/mother/cruiseship”(见图7中第二行)等图像中包含的物体，而其他基于CNN+LSTM架构的模型则无法做到这一点，与同样使用CNN+CNN架构的ConvCap模型相比较，从图7中的第四行结果示例中可以看出，虽然ConvCap模型同样能够描述出图像中存在的多个物体，并且也能很好的赋予物体一些属性描述，但本发明模型CMFF/CD的描述结果更准确和更具有细节性，例如“bread、peppers/curtain、blowdryer”(见图7中第四行)，特别是在两个模型同样描述出“computer”的基础上(见图7中第四行第3列)，本发明提出模型得到的描述“desktop computer”(台式计算机)比ConvCap模型得到的描述“blackcomputer”(黑色的计算机)更为准确，另外，通过图7中的描述结果对比也不难发现，本发明CMFF/CD模型生成的描述句子还具有更好的层次结构，例如图7中第一行示例中的“sitingin a sink in bathroom/under traffic lights”、第三行示例中的“on the back of anelephant/outdoors on a sidewalk”、第四行示例中的“up to/in front of”等，而在CNN+LSTM架构的模型中很少看到这种表现复杂背景信息层次关系的表达，这也反映出使用卷积神经网络(因果卷积)处理文本信息的有效性，从以上定性实验结果的对比分析可以看出本发明所提出的模型不仅能够检测并准确描述出图像中包含的多个目标物体，而且对于物体与物体、物体与场景之间关系的描述能力也有一定的提升。

ATT-FCN:a baby is ATT-FCN:a city street ATT-FCN:a baseball playersitting in a high filled with traffic and holding a bat on afield.chair.traffic lights.

CMFF/CD:a baby with a CMFF/CD:two cars going CMFF/CD:a couple ofbaseball toothbrush siting in a through a tunnel under players at baseballfield sink in bathroom.traffic lights.with a large audience.

第一行

SCA-CNN:a man is SCA-CNN:a little girl SCA-CNN:a beach area withriding a horse drawn sitting in front of a several chairs andumbrellas.carriage.small cupcake with acandle.

CMFF/CD:a horse pulls CMFF/CD:a baby and her CMFF/CD:a beach withchairs a bed trailer on the mother celebrating her and umbrellas with acruise street with a manwith birthday with a cupcake ship in the background.abus.and a candle.

第二行

POS:two people are POS:a woman smiles as she POS:a woman pulls awheeled riding an elephant on a poses next to a fridge.suitcase past a firehydrant.dirt road.

CMFF/CD:a couple of men CMFF/CD:a woman leaning CMFF/CD:a person ispulling riding on the back of an against a refrigerator a black suitcase pastan elephant next to a bus.outdoors on a sidewalk.orange fire hydrant.

第三行

ConvCap:a cappuccino ConvCap:a white dog ConvCap:a boy is wearing isand orange juice sit on having its hair blown dry white headphones at a blackthe table.by a man.computer.

CMFF/CD:a cup of CMFF/CD:a man holding a CMFF/CD:a young boy wearingcoffee is on a table blow dryer up to a dog in headphones using a desktopwith juice,bread,and front of a curtain.computer.peppers.

第四行

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种跨层多模型特征融合与基于卷积解码的图像描述方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法，其特征在于：所述视觉模块中设置有三个VGG16结构且三个VGG16结构为图像视觉特征的提取模块，所述每个VGG16结构中都添加有跨层融合结构。

3.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法，其特征在于：所述文本特征模型采用了用于机器翻译的卷积架构和用于音频生成的卷积架构，所述因果卷积模块由6层因果卷积层构成且因果卷积的卷积核宽度为3。

4.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法，其特征在于：所述Attention模型为注意力机制。

5.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法，其特征在于：所述预测模块为一个浅层神经网络。