CN107688821B - 基于视觉显著性与语义属性跨模态图像自然语言描述方法 - Google Patents

基于视觉显著性与语义属性跨模态图像自然语言描述方法 Download PDF

Info

Publication number
CN107688821B
CN107688821B CN201710560024.6A CN201710560024A CN107688821B CN 107688821 B CN107688821 B CN 107688821B CN 201710560024 A CN201710560024 A CN 201710560024A CN 107688821 B CN107688821 B CN 107688821B
Authority
CN
China
Prior art keywords
image
semantic
attributes
visual saliency
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710560024.6A
Other languages
English (en)
Other versions
CN107688821A (zh
Inventor
田春娜
王蔚
高新波
李明郎君
王秀美
张相南
刘恒
袁瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201710560024.6A priority Critical patent/CN107688821B/zh
Publication of CN107688821A publication Critical patent/CN107688821A/zh
Application granted granted Critical
Publication of CN107688821B publication Critical patent/CN107688821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉与自然语言处理技术领域,公开了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对视觉显著性图像进行语义属性检测;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。本发明具有准确度高的优点。可用于复杂场景下的图像检索及多目标图像语义理解等。

Description

基于视觉显著性与语义属性跨模态图像自然语言描述方法
技术领域
本发明属于计算机视觉与自然语言处理技术领域,尤其涉及一种基于视觉显著性与语义属性跨模态图像自然语言描述方法。
背景技术
图像自动描述系统能够基于图像中物体与环境之间的交互关系,自动生成准确、流利、接近于人的自然语言描述,从而对视觉场景中的内容进行语义理解。该系统将图像视觉特征与语义信息统一起来,使得图像语义信息更为客观的反映其视觉内容,利用语义信息进行高层推理、大规模图像组织和实现最终的图像理解。与计算机视觉领域中其他热门方向如图像检索,图像分割等领域相比,图像自动描述的本质问题是由视觉到语言,涉及到两种模态(即图像和文本)之间的“翻译”过程。当前的研究结果表明,受到目标种类数目及场景复杂度的限制,基于单一图像全局特征的自动生成结果准确度仍有待提升。因此,如何引入丰富的视觉信息和语义信息进而获得对图像更加全面理解概括,是提升图像描述系统准确度的关键问题之一。目前图像描述方法主要分为以下两类:第一类是自下而上的图像描述,将图像描述分解为若干个独立的子问题,并依次解决。美国Stony Brook大学的Kulkarni等利用条件随机场选择图像中概率最大的语义标签,填充语义模板生成自然语言描述。微软研究院的H.Fang等将问题分解为三个步骤:通过多示例学习对图像划分子区域进行语义属性检测,再根据语言模型生成句子,对其得分排序筛选。瑞士Idiap研究所的Lebret等利用了语料库的统计特性,将图像中预测到的短语级词汇重组为自然语言描述。这类方法往往能够从图像模态中检测到丰富的语义属性,并在语句生成阶段利用了文本模态的句法特征,因此最终生成结果较符合人类语言的描述方式。然而,这种方法仍然依赖于硬编码的视觉概念,因此在输出结果的多样性上有所欠缺,不能很好地描述训练库中未出现过的目标组合或新场景。在由视觉概念生成句子的转化过程中,如何制定一种端到端的机制对子问题进行组合也仍待解决。第二类是自上而下的图像描述。受到机器翻译的思想启发,近年来一种利用深度卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络的端到端翻译方法日渐成熟。这类方法将图像视为翻译任务中的源语言,用CNN对图像模态进行特征编码,再输入到循环神经网络中实现解码过程,最终将其翻译为文本模态的自然语言输出。谷歌的Vinyals等首先提出了利用CNN的倒数第二个全连接层表示图像特征编码,再经过长短期记忆(Long Short-Term Memory,LSTM)循环神经网络生成图像描述。这个端到端的系统在MSCOCO等大数据集上取得了很好的效果。随后,美国Stanford大学的Karpathy等使用了另一种卷积网络提取图像特征,并在解码阶段使用相对于LSTM而言更简洁的循环神经网络,在速度上有一定提升。在此基础上,注意力机制和语义信息的加入使得图像描述结果的准确度得到了提升。美国Rochester大学的You等将图像中检测到的视觉概念选择性的分阶段加入到循环神经网络的语句生成过程中,利用图像中的语义信息指导图像自然语言描述的生成。澳大利亚Adelaide大学的Wu等应用图像分类原理分区域对目标属性进行检测,选择语义属性较强的图像区域的特征替代传统意义上的全局图像特征,输入修正后的LSTM模型来输出图像的语句描述。目前,自上而下的图像描述方法虽然是图像自动描述领域内的主流方向之一,但这种方法很难关注到一些低层细节信息,而这些细节信息对最终生成的图像描述可能存在较大影响。因此,在场景复杂度较高、目标较多的图像中,其模型在生成语句的过程中仍存在关注重点不集中以及各目标描述精度低的问题,如何解决这些问题有待于进一步研究。
综上所述,现有技术存在的问题是:目前的自上而下图像描述方法关注重点不集中以及各目标描述精度低。
发明内容
针对现有技术存在的问题,本发明提供了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法。
本发明是这样实现的,一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括:采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对检测视觉显著性图像进行语义属性;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。
进一步,所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括以下步骤:
(1)对图像进行子区域划分并用CNN对图像进行多尺度深度视觉特征提取;
(2)将CNN提取的多尺度特征向量输入到预训练好的显著性模型中,回归出图像各子区域的显著性分数,并用全局显著性图对原图像进行加权;
(3)建立预定义字典作为语义属性类别,并对视觉显著性图像的各子区域进行语义属性检测;采用基于视觉显著性的语义特征对初始化网络;
(4)采用多示例学习计算语义属性;
(5)利用语义属性对图像特征加权;
(6)采用LSTM网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。
进一步,所述(5)是根据生成属性选择与之相连的权重,在对应的特征维度上累加作为对属性预测的重要性参数,再将每个子区域上各个位置的图像特征取均值得到单一特征,并通过重要性参数对其在对应维度上加权,以此表示输入图像的语义属性特征。
进一步,所述步骤(2)具体包括:
(a)预训练模型:显著性回归模型是由两个全连接层和一个输出层组成的神经网络,图像的一个子区域内70%以上的像素点具有相同的显著性标签,则将该子区域选为训练样本并将它的显著性分数整体置为1,否则为0;
(b)将图像的全部子区域输入到训练好的显著性模型中,得到15个分割层级上的15个显著性图,对显著性图加权平均后得到在各个分割尺度上融合后的显著性图Ismap,对原图像I以参数λ进行加权:
Ivis=(1-λ)*Ismap+λ*I;
得到的视觉显著性图像Ivis作为端到端图像描述模型的输入,以进行后续训练与测试。
进一步,所述步骤(3)具体包括:
(1)首先对MSCOCO训练集的所有描述语句进行统计,选择出现频率最高的1000个单词,建立语义属性字典;MSCOCO训练集中92%的单词都出现在字典中,包含名词,动词,形容词各种形式;以字典中的1000个属性为依据对视觉显著性图像Ivis进行属性预测;
(2)语义属性检测网络的构建,保持第五卷积层以及之前的网络结构不变,将第六、七、八个全连接层修改为全卷积层;第八卷积层的输出为一个粗略的空间响应图,图中每个位置上的值对应于原输入图像上一个子区域的空间响应;在前八层后加入MIL层,在空间响应图上预测语义属性概率;
(3)将视觉显著性图像Ivis调整为565*565像素大小的正方形输入到语义属性检测网络中,并生成一个12*12像素大小的1000维粗略空间响应图fc8,图中每一个点相当于直接在Ivis上进行卷积操作。
进一步,所述步骤(5)具体包括:
根据阈值τ筛选出概率排名较高的前N个属性{Att1,Att2,...,AttN},找到各自在空间响应图fc8上的相应位置;从fc7到fc8层相当于对图像特征做一个维度变换的映射,仅选择与{Att1,Att2,...,AttN}的空间响应图连接的映射权重,在fc7的每个维度上累计相加,得到一个同是4096维的重要性向量ρ;对图像特征fc7的各位置取均值后,再做每个维度上的重要性加权:
Ivis-attr=ρ⊙fc7;
加权后的语义特征Ivis-attr输入到后续LSTM中生成自然语言描述。
本发明的优点及积极效果为:采用视觉显著性机制在图像模态上对图像描述模型进行改善,如图2,用二元显著性图对图像各区域加权,将关注焦点集中在颜色特征、纹理特征等与周围区域有显著性差异的容易被人眼注意到的区域上,有利于增加复杂场景中的显著性目标在图像上下文信息中的重要程度;同时了抑制视觉上不显著的次要目标与背景,减少其对图像上下文信息的贡献度;显著性图像依旧保留了各目标与背景间的位置关系,且强调了视觉显著性目标。采用语义属性在文本模态上对图像描述模型进行改善,选择图像中可能含有的高概率语义属性对原有图像特征进行加权,根据这些语义属性从神经网络中反向筛选出对特定属性响应较高的部分神经元;采用分区域卷积的方式预测语义属性,预测过程中提取到的图像特征保留了区域性的位置信息,有利于描述图像语义属性间的上下文关系;图像特征经过语义信息加权后,所要描述的语义属性更为集中,并且滤除了部分噪声,可以生成更精确的图像描述。
本发明实现了在复杂场景下集中关注具有视觉显著性的部分及在目标较多的图像中准确描述各物体的语义属性,有效的提高了图像自动描述的准确率。实验仿真结果表明:本发明与谷歌基于CNN+LSTM的图像描述算法相比,BLEU1提高了3.1个百分点,BLEU2提高了7.4个百分点,BLEU3提高了8.9个百分点,BLEU4提高了9.5个百分点,CIDer提高了4.4个百分点。
附图说明
图1是本发明实施例提供的基于视觉显著性与语义属性跨模态图像自然语言描述方法流程图。
图2是本发明实施例提供的基于视觉显著性与语义属性跨模态图像自然语言描述方法实现流程图。
图3是本发明实施例提供的获得视觉显著性图像的过程图。
图4是本发明实施例提供的基于视觉显著性的语义属性特征提取示意图。
图5是本发明实施例提供的用LSTM生成图像描述的过程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于视觉显著性与语义属性跨模态图像自然语言描述方法包括以下步骤:
S101:对图像进行子区域划分并用CNN对图像进行多尺度深度视觉特征提取;
S102:将CNN提取的多尺度特征向量输入到预训练好的显著性模型中,回归出图像各子区域的显著性分数,并用全局显著性图对原图像进行加权;
S103:建立预定义字典作为语义属性类别,并对视觉显著性图像的各子区域进行语义属性检测;
S104:采用多示例学习计算语义属性;
S105:利用语义属性对图像特征加权;
S106:采用LSTM网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。
上述步骤S105是根据生成属性选择与之相连的权重,在对应的特征维度上累加作为对属性预测的重要性参数,再将每个子区域上各个位置的图像特征取均值得到单一特征,并通过重要性参数对其在对应维度上加权,以此表示输入图像的语义属性特征。
下面结合附图对本发明的应用原理作进一步的描述。
如图2-图5所示,本发明实施例提供的基于视觉显著性与语义属性跨模态图像自然语言描述方法包括以下步骤:
步骤1,对图像进行子区域划分,并用CNN对图像进行多尺度深度视觉特征提取;
(1a)按照精细程度不同,将输入图像I按照15个等比例分布的尺度分割成20-300个不等的互不重叠的子区域,并将所有尺度上分割得到的共800个子区域全部缩放至227*227像素大小,再用CNN分别对每个区域输入深度CNN提取其图像特征IA
(1b)由于图像特征IA中不包含相邻图像区域的信息,因此选择该子区域的矩形邻域并同样调整到227*227像素大小后,用CNN提取邻域特征并记为IB
(1c)由于子区域在原图像中的位置以及与图像其余区域的差异性是判断该区域显著性的两个重要因素,因此将整幅图像调整至227*227像素大小,用CNN提取全局范围内的图像特征IC
(1d)将提取后的特征IA,IB,IC连接为一个多尺度特征向量Icon,用于显著性模型的训练及测试。
Icon=[IA,IB,IC]。
步骤2,将CNN提取的多尺度特征向量Icon输入到预训练好的显著性模型中,回归出图像各子区域的显著性分数,并用全局显著性图对原图像进行加权;
(2a)预训练模型:显著性回归模型是由两个全连接层和一个输出层组成的神经网络,它是从一个标注了二元显著性标签的训练图像集上训练得到的。二元显著性标签标注该图像中的目标是否具有视觉上的显著性以区别于周围环境。训练原则是,若图像的一个子区域内70%以上的像素点具有相同的显著性标签,则将该子区域选为训练样本并将它的显著性分数整体置为1,否则为0;
(2b)将图像的全部子区域输入到训练好的显著性模型中,得到15个分割层级上的15个显著性图{A(1),A(2),...,A(15)},对这些显著性图加权平均后得到在各个分割尺度上融合后的显著性图Ismap,对原图像I以参数λ进行加权:
Ivis=(1-λ)*Ismap+λ*I;
得到的视觉显著性图像Ivis作为端到端图像描述模型的输入,以进行后续训练与测试。
步骤3,建立语义属性类别的字典,并对视觉显著性图像的各子区域进行语义属性检测;
(3a)首先对MSCOCO训练集的所有描述语句进行统计,选择出现频率最高的1000个单词(语义属性),建立语义属性字典。MSCOCO训练集中92%的单词都出现在字典中,包含名词,动词,形容词等各种形式。以字典中的1000个属性为依据对视觉显著性图像Ivis进行属性预测;
(3b)语义属性检测网络的构建。语义属性检测网络在VGG16深度卷积网络的基础上作出如下改进:保持第五卷积层以及之前的网络结构不变,将第六、七、八个全连接层修改为全卷积层。由于第五个池化层仍保留了输入图像的位置信息,因此经过第六、七层的卷积后得到的一个4096维的特征向量fc7中同样有粗略的空间位置信息。第八卷积层的输出为一个粗略的空间响应图,该图中每个位置上的值对应于原输入图像上一个子区域的空间响应。在前八层后加入MIL层,在空间响应图上预测语义属性概率;
(3c)将视觉显著性图像Ivis调整为565*565像素大小的正方形输入到语义属性检测网络中,并生成一个12*12像素大小的1000维粗略空间响应图fc8,图中每一个点相当于直接在Ivis上进行卷积操作。这一改动可以对输入图像中的每个位置进行高效地搜索以检测该子区域是否含有目标。
步骤4,采用多示例学习计算语义属性;
通过noisy-OR多示例学习对空间响应图fc8上各位置j含有语义属性w的概率
Figure BDA0001346832930000081
以如下规则计算,得到一个全局属性概率
Figure BDA0001346832930000082
Figure BDA0001346832930000083
由于各个属性的检测器是独立训练的,因此各个检测器的输出还需要进行统一的校准,再根据设定阈值τ得到按照概率由大到小排列的各个语义属性。
步骤5,利用语义属性对图像进行特征加权;
根据步骤4中的阈值τ筛选出概率排名较高的前N个属性{Att1,Att2,...,AttN},找到它们各自在空间响应图fc8上的相应位置。从fc7到fc8层相当于对图像特征做了一个维度变换的映射,仅选择那些与{Att1,Att2,...,AttN}的空间响应图连接的映射权重,在fc7的每个维度上累计相加,得到一个同是4096维的重要性向量ρ。对图像特征fc7的各位置取均值后,再做每个维度上的重要性加权:
Ivis-attr=ρ⊙fc7;
加权后的语义特征Ivis-attr输入到后续LSTM中生成自然语言描述。
步骤6,采用LSTM网络对基于视觉显著性的语义属性特征进行解码,生成图像描述;
(6a)在跨模态图像自然语言描述方法中,图像和文本被映射到一个共同的空间中,上述过程中基于视觉显著性检测的语义属性特征提取,实现了对图像模态的映射过程,而文本模态的映射是通过词嵌入矩阵We实现的。在t=-1时刻,首先将CNN提取到的基于视觉显著性的图像语义特征Ivis-attr输入到LSTM中,作为图像上下文信息对生成语言描述的模型进行初始化:
x-1=Ivis-attr
(6b)其后每一个时刻t,LSTM将t-1时刻生成的K个最佳生成词作为候选集,预测出当前时刻的描述词汇St,并依然保留其中正确率最高的前K个作为下一时刻的候选集。其中,每个词汇都表示为与嵌入字典We具有相同维度的one-hot向量St。模型生成的句子表示为S=(S0,...SN),S0为标记为语句的开始词汇,SN为语句的结束标志,二者共同决定一个句子的开始和结束状态。LSTM的生成过程遵循如下原则:
xc=WeSt
pt=LSTM(xt);
描述文本将保留在训练语料中所有出现次数≥5的词语;
(6c)设计损失函数,训练LSTM网络参数。取正确生成结果的最大似然概率,LSTM损失函数定义为每一时刻上正确预测单词的概率之和的负对数似然函数:
Figure BDA0001346832930000101
为使得该损失函数最小化,对LSTM模型中词嵌入矩阵We等网络参数进行优化。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,其特征在于,所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括:采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对检测视觉显著性图像进行语义属性;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述;
所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括以下步骤:
(1)对图像进行子区域划分并用CNN对图像进行多尺度深度视觉特征提取;
(2)将CNN提取的多尺度特征向量输入到预训练好的显著性模型中,回归出图像各子区域的显著性分数,并用全局显著性图对原图像进行加权;
(3)建立预定义字典作为语义属性类别,并对视觉显著性图像的各子区域进行语义属性检测;采用基于视觉显著性的语义特征对初始化网络;
(4)采用多示例学习计算语义属性;
(5)利用语义属性对图像特征加权;
(6)采用LSTM网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。
2.如权利要求1所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法,其特征在于,所述(5)是根据生成属性选择与之相连的权重,在对应的特征维度上累加作为对属性预测的重要性参数,再将每个子区域上各个位置的图像特征取均值得到单一特征,并通过重要性参数对其在对应维度上加权,以此表示输入图像的语义属性特征。
3.如权利要求1所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法,其特征在于,所述步骤(2)具体包括:
(a)预训练模型:显著性回归模型是由两个全连接层和一个输出层组成的神经网络,图像的一个子区域内70%以上的像素点具有相同的显著性标签,则将该子区域选为训练样本并将它的显著性分数整体置为1,否则为0;
(b)将图像的全部子区域输入到训练好的显著性模型中,得到15个分割层级上的15个显著性图,对显著性图加权平均后得到在各个分割尺度上融合后的显著性图Ismap,对原图像I以参数λ进行加权:
Ivis=(1-λ)*Ismap+λ*I;
得到的视觉显著性图像Ivis作为端到端图像描述模型的输入,以进行后续训练与测试。
4.如权利要求1所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法,其特征在于,所述步骤(3)具体包括:
(1)首先对MSCOCO训练集的所有描述语句进行统计,选择出现频率最高的1000个单词,建立语义属性字典;MSCOCO训练集中92%的单词都出现在字典中,包含名词,动词,形容词各种形式;以字典中的1000个属性为依据对视觉显著性图像Ivis进行属性预测;
(2)语义属性检测网络的构建,保持第五卷积层以及之前的网络结构不变,将第六、七、八个全连接层修改为全卷积层;第八卷积层的输出为一个粗略的空间响应图,图中每个位置上的值对应于原输入图像上一个子区域的空间响应;在前八层后加入MIL层,在空间响应图上预测语义属性概率;
(3)将视觉显著性图像Ivis调整为565*565像素大小的正方形输入到语义属性检测网络中,并生成一个12*12像素大小的1000维粗略空间响应图fc8,图中每一个点相当于直接在Ivis上进行卷积操作。
5.如权利要求1所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法,其特征在于,所述步骤(5)具体包括:根据阈值τ筛选出概率排名较高的前N个属性{Att1,Att2,...,AttN},找到各自在空间响应图fc8上的相应位置;从fc7到fc8层相当于对图像特征做一个维度变换的映射,仅选择与{Att1,Att2,...,AttN}的空间响应图连接的映射权重,在fc7的每个维度上累计相加,得到一个同是4096维的重要性向量ρ;对图像特征fc7的各位置取均值后,再做每个维度上的重要性加权:
Ivis-attr=ρ⊙fc7;
加权后的语义特征Ivis-attr输入到后续LSTM中生成自然语言描述。
CN201710560024.6A 2017-07-11 2017-07-11 基于视觉显著性与语义属性跨模态图像自然语言描述方法 Active CN107688821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710560024.6A CN107688821B (zh) 2017-07-11 2017-07-11 基于视觉显著性与语义属性跨模态图像自然语言描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710560024.6A CN107688821B (zh) 2017-07-11 2017-07-11 基于视觉显著性与语义属性跨模态图像自然语言描述方法

Publications (2)

Publication Number Publication Date
CN107688821A CN107688821A (zh) 2018-02-13
CN107688821B true CN107688821B (zh) 2021-08-06

Family

ID=61152697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710560024.6A Active CN107688821B (zh) 2017-07-11 2017-07-11 基于视觉显著性与语义属性跨模态图像自然语言描述方法

Country Status (1)

Country Link
CN (1) CN107688821B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416059B (zh) * 2018-03-22 2021-05-18 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108549709B (zh) * 2018-04-20 2019-02-22 福州大学 区块链内外多源异构数据基于广度学习算法的融合方法
CN108920448B (zh) * 2018-05-17 2021-09-14 南京大学 一种基于长短期记忆网络的比较关系抽取的方法
CN108829677B (zh) * 2018-06-05 2021-05-07 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN108959512B (zh) * 2018-06-28 2022-04-29 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109033321B (zh) * 2018-07-18 2021-12-17 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109147010B (zh) * 2018-08-22 2023-07-25 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
CN109447242B (zh) * 2018-10-10 2021-08-20 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109753954A (zh) * 2018-11-14 2019-05-14 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法
CN109635150B (zh) * 2018-12-19 2021-07-02 腾讯科技(深圳)有限公司 文本生成方法、装置以及存储介质
CN109726690B (zh) * 2018-12-30 2023-04-18 陕西师范大学 基于DenseCap网络的学习者行为图像多区域描述方法
CN109767457B (zh) * 2019-01-10 2021-01-26 厦门理工学院 在线多示例学习目标跟踪方法、终端设备及存储介质
CN111464881B (zh) * 2019-01-18 2021-08-13 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN109829430B (zh) * 2019-01-31 2021-02-19 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110020658B (zh) * 2019-03-28 2022-09-30 大连理工大学 一种基于多任务深度学习的显著目标检测方法
CN110111340B (zh) * 2019-04-28 2021-05-14 南开大学 基于多路割的弱监督实例分割方法
CN110288665B (zh) * 2019-05-13 2021-01-15 中国科学院西安光学精密机械研究所 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN110276396B (zh) * 2019-06-21 2022-12-06 西安电子科技大学 基于物体显著性和跨模态融合特征的图片描述生成方法
CN110490053B (zh) * 2019-07-08 2023-03-14 南京邮电大学盐城大数据研究院有限公司 一种基于三目摄像头深度估计的人脸属性识别方法
CN110414513A (zh) * 2019-07-31 2019-11-05 电子科技大学 基于语义增强卷积神经网络的视觉显著性检测方法
CN110426035B (zh) * 2019-08-13 2023-01-24 哈尔滨理工大学 一种基于单目视觉和惯导信息融合的定位及建图方法
CN110781911B (zh) * 2019-08-15 2022-08-19 腾讯科技(深圳)有限公司 一种图像匹配方法、装置、设备及存储介质
CN110598573B (zh) * 2019-08-21 2022-11-25 中山大学 一种基于多域异质图引导的视觉问题常识推理模型及方法
CN111462282B (zh) * 2020-04-02 2023-01-03 哈尔滨工程大学 一种场景图生成方法
CN111881997B (zh) * 2020-08-03 2022-04-19 天津大学 一种基于显著性的多模态小样本学习方法
CN114117104B (zh) * 2020-08-28 2023-06-16 四川大学 一种基于多关系感知推理的图像文本匹配方法
CN112949707B (zh) * 2021-02-26 2024-02-09 西安电子科技大学 一种基于多尺度语义信息监督的跨模态人脸图像生成方法
CN113221513A (zh) * 2021-04-19 2021-08-06 西北工业大学 一种跨模态数据融合的个性化产品描述生成方法
CN113657425B (zh) * 2021-06-28 2023-07-04 华南师范大学 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN113689514B (zh) * 2021-06-29 2024-04-09 杭州电子科技大学 一种面向主题的图像场景图生成方法
CN113657170B (zh) * 2021-07-20 2024-02-06 西安理工大学 一种增加图像文本描述多样性方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810158A (zh) * 2011-05-31 2012-12-05 中国科学院电子学研究所 一种基于多尺度语义模型的高分辨率遥感目标提取方法
CN103778227A (zh) * 2014-01-23 2014-05-07 西安电子科技大学 从检索图像中筛选有用图像的方法
CN104699783A (zh) * 2015-03-13 2015-06-10 西安电子科技大学 基于个性化视觉字典自适应调整的社交图像检索方法
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的系统和方法
CN106778811A (zh) * 2016-11-21 2017-05-31 西安电子科技大学 一种图像字典生成方法、图像处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
CN105550699B (zh) * 2015-12-08 2019-02-12 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
CN106384112A (zh) * 2016-09-08 2017-02-08 西安电子科技大学 基于多通道多尺度与级联过滤器的快速图像文本检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810158A (zh) * 2011-05-31 2012-12-05 中国科学院电子学研究所 一种基于多尺度语义模型的高分辨率遥感目标提取方法
CN103778227A (zh) * 2014-01-23 2014-05-07 西安电子科技大学 从检索图像中筛选有用图像的方法
CN104699783A (zh) * 2015-03-13 2015-06-10 西安电子科技大学 基于个性化视觉字典自适应调整的社交图像检索方法
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的系统和方法
CN106778811A (zh) * 2016-11-21 2017-05-31 西安电子科技大学 一种图像字典生成方法、图像处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于视觉认知机理的图像语义内容获取研究;南柄飞;《中国博士学位论文全文数据库》;20160815(第08期);摘要、第3.3.1节、第4.3.2节、第5.2节、第5.3节、第5.3.1节、第5.3.4节、第5.4.2节、图3-2、图5-4、表5-1 *

Also Published As

Publication number Publication date
CN107688821A (zh) 2018-02-13

Similar Documents

Publication Publication Date Title
CN107688821B (zh) 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
US11657230B2 (en) Referring image segmentation
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
JP6351689B2 (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
Mao et al. Explain images with multimodal recurrent neural networks
KR101855597B1 (ko) 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법
CN113297975A (zh) 表格结构识别的方法、装置、存储介质及电子设备
CN111598183B (zh) 一种多特征融合图像描述方法
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN110929640B (zh) 一种基于目标检测的宽幅遥感描述生成方法
CN111062277A (zh) 基于单目视觉的手语-唇语转化方法
CN111898704B (zh) 对内容样本进行聚类的方法和装置
Wu et al. Improving vqa and its explanations\\by comparing competing explanations
CN109033321B (zh) 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
Das et al. A deep sign language recognition system for Indian sign language
CN117149944A (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
Pang et al. Over-sampling strategy-based class-imbalanced salient object detection and its application in underwater scene
Li et al. Deep neural network with attention model for scene text recognition
CN115620125A (zh) 一种基于时空渐进式学习的抗干扰方法及装置
Yang et al. Visual Skeleton and Reparative Attention for Part-of-Speech image captioning system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant