CN107688821B

CN107688821B - 基于视觉显著性与语义属性跨模态图像自然语言描述方法

Info

Publication number: CN107688821B
Application number: CN201710560024.6A
Authority: CN
Inventors: 田春娜; 王蔚; 高新波; 李明郎君; 王秀美; 张相南; 刘恒; 袁瑾
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-07-11
Filing date: 2017-07-11
Publication date: 2021-08-06
Anticipated expiration: 2037-07-11
Also published as: CN107688821A

Abstract

本发明属于计算机视觉与自然语言处理技术领域，公开了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法，采用卷积神经网络提取图像各区域的多尺度深度视觉特征；利用预训练的显著性模型，回归出图像显著性图对原图像进行加权；建立预定义字典作为语义属性类别，并对视觉显著性图像进行语义属性检测；采用多示例学习计算语义属性；利用语义属性对图像特征加权；采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码，生成图像描述。本发明具有准确度高的优点。可用于复杂场景下的图像检索及多目标图像语义理解等。

Description

基于视觉显著性与语义属性跨模态图像自然语言描述方法

技术领域

本发明属于计算机视觉与自然语言处理技术领域，尤其涉及一种基于视觉显著性与语义属性跨模态图像自然语言描述方法。

背景技术

图像自动描述系统能够基于图像中物体与环境之间的交互关系，自动生成准确、流利、接近于人的自然语言描述，从而对视觉场景中的内容进行语义理解。该系统将图像视觉特征与语义信息统一起来，使得图像语义信息更为客观的反映其视觉内容，利用语义信息进行高层推理、大规模图像组织和实现最终的图像理解。与计算机视觉领域中其他热门方向如图像检索，图像分割等领域相比，图像自动描述的本质问题是由视觉到语言，涉及到两种模态(即图像和文本)之间的“翻译”过程。当前的研究结果表明，受到目标种类数目及场景复杂度的限制，基于单一图像全局特征的自动生成结果准确度仍有待提升。因此，如何引入丰富的视觉信息和语义信息进而获得对图像更加全面理解概括，是提升图像描述系统准确度的关键问题之一。目前图像描述方法主要分为以下两类：第一类是自下而上的图像描述，将图像描述分解为若干个独立的子问题，并依次解决。美国Stony Brook大学的Kulkarni等利用条件随机场选择图像中概率最大的语义标签，填充语义模板生成自然语言描述。微软研究院的H.Fang等将问题分解为三个步骤：通过多示例学习对图像划分子区域进行语义属性检测，再根据语言模型生成句子，对其得分排序筛选。瑞士Idiap研究所的Lebret等利用了语料库的统计特性，将图像中预测到的短语级词汇重组为自然语言描述。这类方法往往能够从图像模态中检测到丰富的语义属性，并在语句生成阶段利用了文本模态的句法特征，因此最终生成结果较符合人类语言的描述方式。然而，这种方法仍然依赖于硬编码的视觉概念，因此在输出结果的多样性上有所欠缺，不能很好地描述训练库中未出现过的目标组合或新场景。在由视觉概念生成句子的转化过程中，如何制定一种端到端的机制对子问题进行组合也仍待解决。第二类是自上而下的图像描述。受到机器翻译的思想启发，近年来一种利用深度卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络的端到端翻译方法日渐成熟。这类方法将图像视为翻译任务中的源语言，用CNN对图像模态进行特征编码，再输入到循环神经网络中实现解码过程，最终将其翻译为文本模态的自然语言输出。谷歌的Vinyals等首先提出了利用CNN的倒数第二个全连接层表示图像特征编码，再经过长短期记忆(Long Short-Term Memory,LSTM)循环神经网络生成图像描述。这个端到端的系统在MSCOCO等大数据集上取得了很好的效果。随后，美国Stanford大学的Karpathy等使用了另一种卷积网络提取图像特征，并在解码阶段使用相对于LSTM而言更简洁的循环神经网络，在速度上有一定提升。在此基础上，注意力机制和语义信息的加入使得图像描述结果的准确度得到了提升。美国Rochester大学的You等将图像中检测到的视觉概念选择性的分阶段加入到循环神经网络的语句生成过程中，利用图像中的语义信息指导图像自然语言描述的生成。澳大利亚Adelaide大学的Wu等应用图像分类原理分区域对目标属性进行检测，选择语义属性较强的图像区域的特征替代传统意义上的全局图像特征，输入修正后的LSTM模型来输出图像的语句描述。目前，自上而下的图像描述方法虽然是图像自动描述领域内的主流方向之一，但这种方法很难关注到一些低层细节信息，而这些细节信息对最终生成的图像描述可能存在较大影响。因此，在场景复杂度较高、目标较多的图像中，其模型在生成语句的过程中仍存在关注重点不集中以及各目标描述精度低的问题，如何解决这些问题有待于进一步研究。

综上所述，现有技术存在的问题是：目前的自上而下图像描述方法关注重点不集中以及各目标描述精度低。

发明内容

针对现有技术存在的问题，本发明提供了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法。

本发明是这样实现的，一种基于视觉显著性与语义属性跨模态图像自然语言描述方法，所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括：采用卷积神经网络提取图像各区域的多尺度深度视觉特征；利用预训练的显著性模型，回归出图像显著性图对原图像进行加权；建立预定义字典作为语义属性类别，并对检测视觉显著性图像进行语义属性；采用多示例学习计算语义属性；利用语义属性对图像特征加权；采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码，生成图像描述。

进一步，所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括以下步骤：

(1)对图像进行子区域划分并用CNN对图像进行多尺度深度视觉特征提取；

(2)将CNN提取的多尺度特征向量输入到预训练好的显著性模型中，回归出图像各子区域的显著性分数，并用全局显著性图对原图像进行加权；

(3)建立预定义字典作为语义属性类别，并对视觉显著性图像的各子区域进行语义属性检测；采用基于视觉显著性的语义特征对初始化网络；

(4)采用多示例学习计算语义属性；

(5)利用语义属性对图像特征加权；

(6)采用LSTM网络对基于视觉显著性的语义属性特征进行解码，生成图像描述。

进一步，所述(5)是根据生成属性选择与之相连的权重，在对应的特征维度上累加作为对属性预测的重要性参数，再将每个子区域上各个位置的图像特征取均值得到单一特征，并通过重要性参数对其在对应维度上加权，以此表示输入图像的语义属性特征。

进一步，所述步骤(2)具体包括：

(a)预训练模型：显著性回归模型是由两个全连接层和一个输出层组成的神经网络，图像的一个子区域内70％以上的像素点具有相同的显著性标签，则将该子区域选为训练样本并将它的显著性分数整体置为1，否则为0；

(b)将图像的全部子区域输入到训练好的显著性模型中，得到15个分割层级上的15个显著性图，对显著性图加权平均后得到在各个分割尺度上融合后的显著性图I_smap，对原图像I以参数λ进行加权：

I_vis＝(1-λ)*I_smap+λ*I；

得到的视觉显著性图像I_vis作为端到端图像描述模型的输入，以进行后续训练与测试。

进一步，所述步骤(3)具体包括：

(1)首先对MSCOCO训练集的所有描述语句进行统计，选择出现频率最高的1000个单词，建立语义属性字典；MSCOCO训练集中92％的单词都出现在字典中，包含名词，动词，形容词各种形式；以字典中的1000个属性为依据对视觉显著性图像I_vis进行属性预测；

(2)语义属性检测网络的构建，保持第五卷积层以及之前的网络结构不变，将第六、七、八个全连接层修改为全卷积层；第八卷积层的输出为一个粗略的空间响应图，图中每个位置上的值对应于原输入图像上一个子区域的空间响应；在前八层后加入MIL层，在空间响应图上预测语义属性概率；

(3)将视觉显著性图像I_vis调整为565*565像素大小的正方形输入到语义属性检测网络中，并生成一个12*12像素大小的1000维粗略空间响应图fc8，图中每一个点相当于直接在I_vis上进行卷积操作。

进一步，所述步骤(5)具体包括：

根据阈值τ筛选出概率排名较高的前N个属性{Att¹，Att²，...，Att^N}，找到各自在空间响应图fc8上的相应位置；从fc7到fc8层相当于对图像特征做一个维度变换的映射，仅选择与{Att¹，Att²，...，Att^N}的空间响应图连接的映射权重，在fc7的每个维度上累计相加，得到一个同是4096维的重要性向量ρ；对图像特征fc7的各位置取均值后，再做每个维度上的重要性加权：

I_vis-attr＝ρ⊙fc7；

加权后的语义特征I_vis-attr输入到后续LSTM中生成自然语言描述。

本发明的优点及积极效果为：采用视觉显著性机制在图像模态上对图像描述模型进行改善，如图2，用二元显著性图对图像各区域加权，将关注焦点集中在颜色特征、纹理特征等与周围区域有显著性差异的容易被人眼注意到的区域上，有利于增加复杂场景中的显著性目标在图像上下文信息中的重要程度；同时了抑制视觉上不显著的次要目标与背景，减少其对图像上下文信息的贡献度；显著性图像依旧保留了各目标与背景间的位置关系，且强调了视觉显著性目标。采用语义属性在文本模态上对图像描述模型进行改善，选择图像中可能含有的高概率语义属性对原有图像特征进行加权，根据这些语义属性从神经网络中反向筛选出对特定属性响应较高的部分神经元；采用分区域卷积的方式预测语义属性，预测过程中提取到的图像特征保留了区域性的位置信息，有利于描述图像语义属性间的上下文关系；图像特征经过语义信息加权后，所要描述的语义属性更为集中，并且滤除了部分噪声，可以生成更精确的图像描述。

本发明实现了在复杂场景下集中关注具有视觉显著性的部分及在目标较多的图像中准确描述各物体的语义属性，有效的提高了图像自动描述的准确率。实验仿真结果表明：本发明与谷歌基于CNN+LSTM的图像描述算法相比，BLEU1提高了3.1个百分点，BLEU2提高了7.4个百分点，BLEU3提高了8.9个百分点，BLEU4提高了9.5个百分点，CIDer提高了4.4个百分点。

附图说明

图1是本发明实施例提供的基于视觉显著性与语义属性跨模态图像自然语言描述方法流程图。

图2是本发明实施例提供的基于视觉显著性与语义属性跨模态图像自然语言描述方法实现流程图。

图3是本发明实施例提供的获得视觉显著性图像的过程图。

图4是本发明实施例提供的基于视觉显著性的语义属性特征提取示意图。

图5是本发明实施例提供的用LSTM生成图像描述的过程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于视觉显著性与语义属性跨模态图像自然语言描述方法包括以下步骤：

S101：对图像进行子区域划分并用CNN对图像进行多尺度深度视觉特征提取；

S102：将CNN提取的多尺度特征向量输入到预训练好的显著性模型中，回归出图像各子区域的显著性分数，并用全局显著性图对原图像进行加权；

S103：建立预定义字典作为语义属性类别，并对视觉显著性图像的各子区域进行语义属性检测；

S104：采用多示例学习计算语义属性；

S105：利用语义属性对图像特征加权；

S106：采用LSTM网络对基于视觉显著性的语义属性特征进行解码，生成图像描述。

上述步骤S105是根据生成属性选择与之相连的权重，在对应的特征维度上累加作为对属性预测的重要性参数，再将每个子区域上各个位置的图像特征取均值得到单一特征，并通过重要性参数对其在对应维度上加权，以此表示输入图像的语义属性特征。

下面结合附图对本发明的应用原理作进一步的描述。

如图2-图5所示，本发明实施例提供的基于视觉显著性与语义属性跨模态图像自然语言描述方法包括以下步骤：

步骤1，对图像进行子区域划分，并用CNN对图像进行多尺度深度视觉特征提取；

(1a)按照精细程度不同，将输入图像I按照15个等比例分布的尺度分割成20-300个不等的互不重叠的子区域，并将所有尺度上分割得到的共800个子区域全部缩放至227*227像素大小，再用CNN分别对每个区域输入深度CNN提取其图像特征I_A；

(1b)由于图像特征I_A中不包含相邻图像区域的信息，因此选择该子区域的矩形邻域并同样调整到227*227像素大小后，用CNN提取邻域特征并记为I_B；

(1c)由于子区域在原图像中的位置以及与图像其余区域的差异性是判断该区域显著性的两个重要因素，因此将整幅图像调整至227*227像素大小，用CNN提取全局范围内的图像特征I_C；

(1d)将提取后的特征I_A，I_B，I_C连接为一个多尺度特征向量I_con，用于显著性模型的训练及测试。

I_con＝[I_A，I_B，I_C]。

步骤2，将CNN提取的多尺度特征向量I_con输入到预训练好的显著性模型中，回归出图像各子区域的显著性分数，并用全局显著性图对原图像进行加权；

(2a)预训练模型：显著性回归模型是由两个全连接层和一个输出层组成的神经网络，它是从一个标注了二元显著性标签的训练图像集上训练得到的。二元显著性标签标注该图像中的目标是否具有视觉上的显著性以区别于周围环境。训练原则是，若图像的一个子区域内70％以上的像素点具有相同的显著性标签，则将该子区域选为训练样本并将它的显著性分数整体置为1，否则为0；

(2b)将图像的全部子区域输入到训练好的显著性模型中，得到15个分割层级上的15个显著性图{A⁽¹⁾，A⁽²⁾，...，A⁽¹⁵⁾}，对这些显著性图加权平均后得到在各个分割尺度上融合后的显著性图I_smap，对原图像I以参数λ进行加权：

I_vis＝(1-λ)*I_smap+λ*I；

步骤3，建立语义属性类别的字典，并对视觉显著性图像的各子区域进行语义属性检测；

(3a)首先对MSCOCO训练集的所有描述语句进行统计，选择出现频率最高的1000个单词(语义属性)，建立语义属性字典。MSCOCO训练集中92％的单词都出现在字典中，包含名词，动词，形容词等各种形式。以字典中的1000个属性为依据对视觉显著性图像I_vis进行属性预测；

(3b)语义属性检测网络的构建。语义属性检测网络在VGG16深度卷积网络的基础上作出如下改进：保持第五卷积层以及之前的网络结构不变，将第六、七、八个全连接层修改为全卷积层。由于第五个池化层仍保留了输入图像的位置信息，因此经过第六、七层的卷积后得到的一个4096维的特征向量fc7中同样有粗略的空间位置信息。第八卷积层的输出为一个粗略的空间响应图，该图中每个位置上的值对应于原输入图像上一个子区域的空间响应。在前八层后加入MIL层，在空间响应图上预测语义属性概率；

(3c)将视觉显著性图像I_vis调整为565*565像素大小的正方形输入到语义属性检测网络中，并生成一个12*12像素大小的1000维粗略空间响应图fc8，图中每一个点相当于直接在I_vis上进行卷积操作。这一改动可以对输入图像中的每个位置进行高效地搜索以检测该子区域是否含有目标。

步骤4，采用多示例学习计算语义属性；

通过noisy-OR多示例学习对空间响应图fc8上各位置j含有语义属性w的概率

以如下规则计算，得到一个全局属性概率

由于各个属性的检测器是独立训练的，因此各个检测器的输出还需要进行统一的校准，再根据设定阈值τ得到按照概率由大到小排列的各个语义属性。

步骤5，利用语义属性对图像进行特征加权；

根据步骤4中的阈值τ筛选出概率排名较高的前N个属性{Att¹，Att²，...，Att^N}，找到它们各自在空间响应图fc8上的相应位置。从fc7到fc8层相当于对图像特征做了一个维度变换的映射，仅选择那些与{Att¹，Att²，...，Att^N}的空间响应图连接的映射权重，在fc7的每个维度上累计相加，得到一个同是4096维的重要性向量ρ。对图像特征fc7的各位置取均值后，再做每个维度上的重要性加权：

I_vis-attr＝ρ⊙fc7；

步骤6，采用LSTM网络对基于视觉显著性的语义属性特征进行解码，生成图像描述；

(6a)在跨模态图像自然语言描述方法中，图像和文本被映射到一个共同的空间中，上述过程中基于视觉显著性检测的语义属性特征提取，实现了对图像模态的映射过程，而文本模态的映射是通过词嵌入矩阵W_e实现的。在t＝-1时刻，首先将CNN提取到的基于视觉显著性的图像语义特征I_vis-attr输入到LSTM中，作为图像上下文信息对生成语言描述的模型进行初始化：

x_-1＝I_vis-attr；

(6b)其后每一个时刻t，LSTM将t-1时刻生成的K个最佳生成词作为候选集，预测出当前时刻的描述词汇S_t，并依然保留其中正确率最高的前K个作为下一时刻的候选集。其中，每个词汇都表示为与嵌入字典W_e具有相同维度的one-hot向量S_t。模型生成的句子表示为S＝(S₀，...S_N)，S₀为标记为语句的开始词汇，S_N为语句的结束标志，二者共同决定一个句子的开始和结束状态。LSTM的生成过程遵循如下原则：

x_c＝W_eS_t；

p_t＝LSTM(x_t)；

描述文本将保留在训练语料中所有出现次数≥5的词语；

(6c)设计损失函数，训练LSTM网络参数。取正确生成结果的最大似然概率，LSTM损失函数定义为每一时刻上正确预测单词的概率之和的负对数似然函数：

为使得该损失函数最小化，对LSTM模型中词嵌入矩阵W_e等网络参数进行优化。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视觉显著性与语义属性跨模态图像自然语言描述方法，其特征在于，所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括：采用卷积神经网络提取图像各区域的多尺度深度视觉特征；利用预训练的显著性模型，回归出图像显著性图对原图像进行加权；建立预定义字典作为语义属性类别，并对检测视觉显著性图像进行语义属性；采用多示例学习计算语义属性；利用语义属性对图像特征加权；采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码，生成图像描述；

所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括以下步骤：

(4)采用多示例学习计算语义属性；

(5)利用语义属性对图像特征加权；

2.如权利要求1所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法，其特征在于，所述(5)是根据生成属性选择与之相连的权重，在对应的特征维度上累加作为对属性预测的重要性参数，再将每个子区域上各个位置的图像特征取均值得到单一特征，并通过重要性参数对其在对应维度上加权，以此表示输入图像的语义属性特征。

3.如权利要求1所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法，其特征在于，所述步骤(2)具体包括：

I_vis＝(1-λ)*I_smap+λ*I；

4.如权利要求1所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法，其特征在于，所述步骤(3)具体包括：

5.如权利要求1所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法，其特征在于，所述步骤(5)具体包括：根据阈值τ筛选出概率排名较高的前N个属性{Att¹，Att²，...，Att^N}，找到各自在空间响应图fc8上的相应位置；从fc7到fc8层相当于对图像特征做一个维度变换的映射，仅选择与{Att¹，Att²，...，Att^N}的空间响应图连接的映射权重，在fc7的每个维度上累计相加，得到一个同是4096维的重要性向量ρ；对图像特征fc7的各位置取均值后，再做每个维度上的重要性加权：

I_vis-attr＝ρ⊙fc7；