CN110288665B

CN110288665B - 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备

Info

Publication number: CN110288665B
Application number: CN201910393359.2A
Authority: CN
Inventors: 郑向涛; 卢孝强; 吴思远
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2021-01-15
Anticipated expiration: 2039-05-13
Also published as: CN110288665A

Abstract

本发明提供一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备，解决现有递归神经网络方法不能并行处理序列信号以及运算耗时的问题。该方法包括以下步骤：1)将卷积神经网络预训练好；2)提取图像的全局特征和局部特征，将图像的全局特征和局部特征投影到多模态映射空间中；3)对步骤2)中多模态映射空间下的图像表达进行卷积编码；4)单词特征表达；5)对步骤4)的描述语句进行卷积编码，6)计算注意力，得到输入图像对应生成单词的概率；7)构建输入输出之间的目标损失函数，利用损失函数进行神经网络训练，得到神经网络的位置参数；8)将测试图像输入训练的神经网络系统，得到测试图片对应的描述性自然语句。

Description

基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备

技术领域

本发明涉及图像与文本多模态融合技术，具体涉及一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备，可用于儿童早教、人机交互、视觉障碍人群的辅助视觉等。

背景技术

随着科技的发展，人工智能已逐步成为推动人类进入智能时代的决定性力量。人工智能研究如何让机器模拟人的思维过程和智能行为，让计算机从自然图像中自动生成一段描述性文字，用一句话描述图像的内容。近几年，深度学习在计算机视觉、自然语言处理以及语音信息处理等领域取得巨大突破，在图像描述领域也获得广泛关注。

目前，图像描述的方法主要有两大类：

一是基于检索的图像描述方法，该方法在深度学习广泛应用之前较为流行。M.Hodosh等人在文献“M.Hodosh,P.Young,and J.Hockenmaier.Framing imagedescription as a ranking task:Data,models and evaluation metrics.Journal ofArtificial Intelligence Research,2013,47:853–899”中提出了一种基于检索的图像描述方法，即给定一张待描述的图像，在图像-文本数据库中检索出相似的图像，然后根据对应的描述语句生成新的语句来描述该图像。该方法存在的不足之处是，产生的语句缺乏变化，而且描述性语句和图像之间存在较大的偏差，描述精度不理想。

二是基于多模态神经网络的图像描述方法，该方法运用计算机视觉领域和自然语言处理领域取得极大成功的卷积神经网络和递归神经网络。J.Mao等人在文献“J.Mao,W.Xu,Y.Yang,J.Wang,Z.Huang,and A.Yuille,“Deep captioning with multimodalrecurrent neural networks(m-rnn).in International Conference on LearningRepresentations(ICLR),2015.”中提出了一种基于多模态递归神经网络的方法，利用卷积神经网络提取图像全局特征，利用递归神经网络对图像特征和自然语句特征进行融合，最后实现图像描述。然而，该方法中多模态融合模块和语言模块使用的是递归神经网络(Recurrent Neural Network，RNN)，与卷积神经网络(Convolutional Neural Network，CNN)相比，RNN有许多不足之处。首先，RNN对序列处理是串行处理，即逐词顺序处理，这大大增加了运算复杂度(或时间)，这和CNN并行计算隐层状态相反；其次，RNN在处理有单词构成的自然语句中，假设句子长度为T，那么RNN对第一个单词处理次数为T，而对最后一个单词的处理为1次，因此，RNN对序列中的每一个元素处理是不平衡的，而CNN对每一个元素的处理却是平等的。此外，很多研究成果表明，注意力机制对于图像描述任务具有重要的作用，那么当RNN换为CNN时，如何实现注意力机制也需要进一步研究。

发明内容

本发明的目的是解决现有递归神经网络方法不能并行处理序列信号以及运算耗时的问题，提出一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备。该方法改变传统“CNN-RNN”范式(即用CNN提取图像特征后，使用RNN作为多模态融合和语句生成模块)，提供一种新的“CNN-CNN”范式(图像特征和自然语句生成均用CNN来实现)。同时，探索了新的计算注意力方案，巧妙的将注意力机制融入到“CNN-CNN”范式中。

本发明的技术解决方案是：

一种基于卷积神经网络的图像描述方法，包括以下步骤：

1)将卷积神经网络在数据集ImageNet预训练好；

2)利用步骤1)预训练好的卷积神经网络提取图像的全局特征和局部特征，然后将图像的全局特征和局部特征投影到多模态映射空间中，得到多模态映射空间下的图像表达v′_i，所述图像包括训练集图像和测试集图像；

3)对步骤2)中多模态映射空间下的图像表达进行卷积编码，得到图像编码信息c_I；

c_I＝[c_I1,c_I2,…,c_Im]＝CNN[v′_i]＝CNN[v′₁,v′₂,…,v′_m]

4)单词特征表达；

给定步骤2)中图像对应的描述语句，对描述语句的单词进行特征表达，然后经过映射矩阵将其投影到多模态映射空间中，得到描述语句中每个单词的特征表达；

s_t＝W_s·w_t,t∈{1,2,…,N}

其中，s_t是语句中第t个单词的特征表达，w_t是原始描述语句的表示向量，W_s是文本的映射矩阵；

5)对步骤4)的描述语句进行卷积编码，得到相应文本编码信息c_s；

c_s＝[c_s1,c_s2,…,c_sT]＝CNN[s_t]＝CNN[s₁,s₂,…,s_T]

6)计算注意力，得到输入图像对应生成单词的概率；

6.1)将解码器的隐层状态h^l和步骤5)中文本编码信息c_s通过解码器加权，得到单词的解码向量，然后通过解码向量和步骤3)中的图像编码c_I做内积，计算注意力权重，计算公式如下：

其中，

表示注意力权重，

是第l层的第i个隐层状态，c_si是第i个单词编码，c_Ij是第j个图像编码，

表示第i个单词的解码向量，

和

是解码器的加权参数和偏移参数；

6.2)将步骤6.1)得到注意力权重与步骤3)得到的图像信息编码加权求和，得到基于注意力加权的图像信息编码；

其中，

是基于注意力加权的图像信息编码，v_j是第j个图像特征；

6.3)将步骤6.1)得到注意力权重与步骤5)得到的文本信息编码加权求和，得到基于注意力加权的文本信息编码；

假定解码CNN的深度为L，每一层的隐层状态可表示为：

h⁰＝c_s+c_I

其中，h^l是第l层的隐层状态，输入层h⁰是图像编码和单词编码加权；

编码器隐层状态更新，利用步骤6.2)中计算得到的经注意力机制后的图像信息

对编码器隐层状态

进行更新，更新公式为：

6.4)根据步骤6.2)的图像信息编码和步骤6.3)的文本信息编码，计算输入图像对应生成单词的概率；

解码网络的隐层输出h^L，计算每次生成单词的概率p_j+1：

(w_j+1|w_0:j,I；θ)～p_j+1

其中，W_p是加权矩阵，b_p是偏移量，θ表示设计网络中的所有参数，条件概率(w_j+1|w_0:j,I；θ)表示已知前j个单词情况下第j+1单词出现的概率；

7)构建输入输出之间的目标损失函数，利用损失函数进行神经网络训练，得到神经网络的位置参数；

7.1)利用步骤6.4)得到的单词概率构建输入图像和输出单词之间损失函数；

其中，条件概率P(S|I；θ)表示已知图像I情况下，语句S出现的概率，

7.2)使步骤7.1)的损失函数达到最小，初始化网络参数，通过优化算法迭代θ，得到最优的网络参数，完成神经网络训练过程；

8)将测试图像输入至步骤7)训练的神经网络系统，得到测试图片对应的描述性自然语句。

进一步地，步骤2)具体如下：

2.1)将卷积神经网络VGG-19全连接层fc-7的输出作为图像的全局特征；

2.2)将卷积神经网络VGG-19卷积层Conv5-4的输出经过flatten操作后作为图像的局部特征；

v＝{v₁,v₂,…,v_m}＝flatten(Conv(I))

其中，v是图像局部特征，I表示输入图像，Conv()表示利用VGG-19网络提取图像特征；

2.3)将步骤2.1)和步骤2.2)中得到的图像全局特征和局部特征投影到多模态映射空间中，得到多模态映射空间下的图像表达；

v′_i＝W_I·v_i,i∈{1,2,…,m}

其中，v′_i表示多模态映射空间下的图像表达，W_I是图像的映射投影矩阵，v_i表示第i个图像局部特征。

进一步地，步骤7.2)中，通过使用随时间反向传播算法优化网络参数。

同时，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

此外，本发明提供一种电子设备，包括处理器和计算机可读存储介质；

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被所述处理器运行时执行上述方法的步骤。

与现有方法相比，本发明具有以下有益效果：

本发明方法由于利用CNN作为多模态融合和语句生成模块，因此可以并行处理序列信息，提高运算效率；同时运用注意力机制，可以更加精细、精确的描述图像内容。

附图说明

图1为本发明基于卷积神经网络的图像描述方法流程图；

图2为本发明实验中图像描述结果示意图；其中，CNN+MemAttn表示本发明方法生成的描述语句，LSTM表示使用长短期记忆LSTM(Long Short-Term Memory，LSTM))作为语言生成器生成的描述语句，LSTM+Attn表示用LSTM作为语言生成器、使用注意力机制生成的描述语句，GT表示数据集标注的文本描述。

具体实施方式

以下结合附图和具体实施例对本发明的内容作进一步详细描述：

本发明公开了一种基于卷积神经网络的图像描述(图说生成或语句生成)方法，从图片中自动生成一段描述性文字，主要解决了现有递归神经网络(Recurrent NeuralNetwork，RNN)方法不能并行处理序列信号问题。其实现步骤是：(1)将卷积神经网络在数据集ImageNet预训练好；(2)用预训练好的卷积神经网络提取图像-文本数据集中的全局特征和局部特征；(3)将图像-文本训练集的图像特征和描述语句特征输入到多模态递归神经网络，学习图像文本之间的映射关系；(4)构建损失函数，使损失函数达到最小，通过使用随时间反向传播(Backpropagation through time，BPTT)算法优化网络参数；(5)将测试数据集的图像特征通过训练好的网络，产生测试集图像对应的描述性自然语句，并和对应真实标注的语句进行比较，得到相关指标分数。本发明与现有方法相比，使用卷积神经网络(Convolutional Neural Network，CNN)作为语言生成模型，克服已有图像文本描述方法中使用RNN不能并行处理导致的计算效率低的问题，可用于人机交互、虚拟现实等方面。

如图1所示，本发明基于卷积神经网络的图像描述方法具体包括如下步骤：

步骤1、将卷积神经网络在数据集ImageNet预训练好；

本发明使用卷积神经网络VGG-19作为特征提取器，不参与后续网络的训练，而是提前在ImageNet上预训练好；

步骤2、利用步骤1)预训练好的卷积神经网络提取图像的全局特征和局部特征，并对图像特征再表达，上述图像包括训练集图像和测试集图像；其中，将VGG-19的全连接层fc-7输出作为图像的全局特征，将VGG-19的卷积层Conv5-4输出经过flatten操作后作为图像的局部特征，对全局特征和局部特征进行再表达，投影到多模态映射空间中；

2.1)提取图像全局特征；

用步骤1)预训练好的卷积神经网络进行特征提取，预训练VGG-19的全连接层fc-7作为图像的全局特征；

2.2)提取图像局部特征；

将卷积神经网络VGG-19的卷积层conv5-4输出向量作为图像局部特征；具体来说，本方法主要利用文献“K.Xu,J.L.Ba,R.Kiros,K.Cho,A.Courville,R.Salakhutdinov,R.Zemel,and Y.Bengio.Show,attend and tell:neural image caption generationwith visual attention.in Proceedings of the International Conference onMachine Learning(ICML),2015”提出的方法，即将VGG-19在ImageNet上预训练好，将图像经过VGG-19网络，得到Conv5-4的输出feature map，然后经过flatten操作，即：

v＝{v₁,v₂,…,v_m}＝flatten(Conv(I))

其中，v是图像局部特征，由m个特征图(feature map)经过flatten操作组成；I表示输入图像，Conv()表示利用VGG-19网络提取图像特征，选择VGG-19的Conv5-4层特征图作为图像的局部特征；

2.3)将步骤2.2)中得到的图像局部特征和全局特征投影到多模态映射空间中，得到多模态映射空间的图像表达，其计算公式为：

v′_i＝W_I·v_i,i∈{1,2,…,m}

其中，v′_i表示多模态映射空间下的图像表达，W_I是图像的映射投影矩阵，v_i表示第i个图像局部特征；

步骤3、将2.3)中多模态映射空间下的图像表达输入到卷积神经网络中进行编码，不改变每幅图像局部特征的数目，得到图像编码信息c_I；

即将v′＝[v′₁,v′₂,…,v′_m]输入到预定义的CNN中，计算公式如下：

c_I＝[c_I1,c_I2,…,c_Im]＝CNN[v′_i]＝CNN[v′₁,v′₂,…,v′_m]

其中，c_I图像编码，CNN表示预定义的卷积神经网络，用来对图像表达进行编码；

步骤4、单词特征表达；

给定步骤2)中图像I及其对应的描述语句S＝(w₁,w₂,…,w_N)，对相应描述语句的单词进行特征表达，

表示该描述语句的第i个单词，N₀为数据库中单词总数，w_i是一个one-hot向量，即w_i这个单词在词汇表的位置处取值为1，其他维数的值均为0，然后通过投影映射矩阵对这些单词进行编码，投影到多模态映射空间中，得到描述语句中每个单词的特征表达，即：

s_t＝W_s·w_t,t∈{1,2,…,N}

其中，s_t是语句中第t个单词的特征表达，w_t是原始描述语句的表示向量，W_s是文本的投影映射矩阵；

步骤5、将步骤4)的描述语句输入到卷积神经网络中进行卷积编码，得到相应文本编码信息；

将s＝{s₁,s₂,…,s_T}输入到预定义的CNN中，计算公式如下：

c_s＝[c_s1,c_s2,…,c_sT]＝CNN[s_t]＝CNN[s₁,s₂,…,s_T]

其中，c_s文本编码，CNN表示预定义的卷积神经网络，用来对单词特征表达进行编码；

步骤6、计算注意力，对步骤5中的编码信息进行解码，计算每次生成单词的概率；

6.1)计算注意力权重将解码器的隐层状态h^l和步骤5)中相应文本编码信息c_s通过解码器加权，得到单词的解码向量d，然后通过解码向量d和步骤3)中的图像编码c_I做内积，

计算注意力权重，其具体计算公式如下：

其中，

表示注意力权重，

是第l层的第i个隐层状态，c_si是第i个单词编码(文本编码信息)，c_Ij是图像编码，

表示第i个单词的解码向量，

和

是解码器的加权参数和偏移参数；

6.2)计算经过注意力机制后的图像信息编码；

得到6.1)中的注意力权重后，对图像特征v和编码信息c_I加权求和，得到基于注意力加权的图像信息编码，具体计算公式为：

其中，

是基于注意力加权的图像编码，

是步骤6.1)计算的注意力，v_j是第j个图像特征；

6.3)对文本信息进行卷积解码，得到基于注意力加权的文本信息编码；

假定解码CNN的深度为L，每一层的隐层状态可表示为：

h⁰＝c_s+c_I

其中，h^l是第l层的隐层状态，CNN表示预定义解码卷积网络，输入层h⁰是图像编码和单词编码加权；

对编码器隐层状态

进行更新，更新公式为：

解码网络的隐层输出h^L，计算每次生成单词的概率p_j+1：

(w_j+1|w_0:j,I；θ)～p_j+1

其中，W_p是加权矩阵，b_p是偏移量，θ表示设计网络中的所有参数；条件概率(w_j+1|w_0:j,I；θ)表示已知前j个单词情况下第j+1单词出现的概率；

步骤7、构建输入输出之间的目标损失函数，利用损失函数进行神经网络训练，得到神经网络的位置参数；

模仿语言概率模型，仍然使产生的目标语句概率达到最大，因此损失公式可写为：

其中，条件概率P(S|I；θ)表示已知图像I情况下，语句S出现的概率。

7.2)，使步骤7.1)的损失函数达到最小，初始化网络参数，通过使用随时间反向传播(Backpropagation through time，BPTT)算法迭代训练参数θ，得到最优的网络参数，完成神经网络训练过程；

步骤8、将测试图像输入至步骤7)训练的神经网络系统，得到测试图片对应的描述性自然语句；

具体的，将步骤2中得到的测试图像特征输入到步骤7训练得到的系统中，得到相应测试图像的描述性语句，并和对应真实标注的语句进行比较，得到相关指标分数。

本发明的效果可以通过以下实验做进一步的说明。

1.仿真条件

本发明是在中央处理器为Intel(R)Xeon(R)E5-2697 2.60GHZ、内存4G、GPU K40、Ubuntu 14操作系统上，运用Python及其他相关工具包进行的仿真。实验中使用的训练和测试的数据库为flickr8K、flickr30K和MSCOCO，其样例如图2所示。

2.仿真内容

按如下步骤用本发明方法进行实验：

首先用训练数据训练网络，在测试集上进行测试，生成测试集图像的描述语句。

其次，将生成的图像描述和相应的真实标注语句做比较，计算出相关指标的分数并记录，同其他方法的对比结果如表1所示：

表1：不同方法的B-N分数对比

上表中，选取了目前最好的三种方法m-RNN、DeVS和Google-NIC进行对比。其中m-RNN在文献“J.Mao,W.Xu,Y.Yang,J.Wang,Z.Huang,and A.Yuille.Deepcaptioning withmultimodal recurrent neural networks(m-rnn).inInternational Conference onLearning Representations(ICLR),2015.”中提出的。DeVS在文献“A.Karpathy and Fei-Fei Li.Deep visual-semantic alignments for generating image descriptions.inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pages:3128–3137,2015.”中提出。Google-NIC在文献“O.Vinyals,A.Toshev,S.Bengio,and D.Erhan,Show and tell:Aneural image caption generator,inProceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),pages:3156–3164,2015”中提出。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现基于卷积神经网络的图像描述方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。

用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。