CN107391709A - 一种基于新型注意模型进行图像字幕生成的方法 - Google Patents

一种基于新型注意模型进行图像字幕生成的方法 Download PDF

Info

Publication number
CN107391709A
CN107391709A CN201710632600.3A CN201710632600A CN107391709A CN 107391709 A CN107391709 A CN 107391709A CN 201710632600 A CN201710632600 A CN 201710632600A CN 107391709 A CN107391709 A CN 107391709A
Authority
CN
China
Prior art keywords
captions
image
significance
context
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710632600.3A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710632600.3A priority Critical patent/CN107391709A/zh
Publication of CN107391709A publication Critical patent/CN107391709A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于新型注意模型进行图像字幕生成的方法,其主要内容包括显著度预测模型、选中图像显著区域、显著度和文本感知注意力、字幕生成、分析注意力状态。其过程为,通过新型字幕结构,在字幕生成过程中聚焦所输入图像的不同部位,具体的图像中哪些部位是显著的,哪些部位是需要结合上下文的,由显著度预测模型给定,由卷积神经网络提取图像,递归神经网络生成对应字幕,通过注意模型的扩展,在显著性预测模型中,创造两条注意力途径,一条重点关注显著区域,另一条重点关注上下文区域,两条路径在生成字幕过程中共同合作,逐步生成优秀的字幕,为图像字幕生成的创新解决方案做了进一步贡献。

Description

一种基于新型注意模型进行图像字幕生成的方法
技术领域
本发明涉及图像理解领域,尤其是涉及了一种基于新型注意模型进行图像字幕生成的方法。
背景技术
图像字幕是为了理解图像内容而产生的辅助工具,随着互联网的发展,图像字幕生成技术得到越来越多的关注。图像字幕生成常用于机器翻译、人机交互、人工智能、视频处理以及医疗等领域。具体地,在机器翻译领域,可对输入图像的内容进行解释说明,提高了翻译质量。在人工智能领域,通过智能助手对图像的识别和处理,再生成字幕,使日常生活更为便利。在视频处理领域,根据视频图像自动生成字幕,减少了人力消耗。而在医疗领域,可以对医疗图像进行检测,科学分析图像并生成文字说明。生成字幕的过程就是通过用计算机系统解释图像,来实现类似人类视觉系统理解外部世界的过程。对图像字幕生成的研究很多,但要结合图像显著度和上下文来生成字幕,尚且存在一定的挑战。
本发明提出一种基于新型注意模型进行图像字幕生成的方法,通过新型字幕结构,在字幕生成过程中聚焦所输入图像的不同部位,具体的图像中哪些部位是显著的,哪些部位是需要结合上下文的,由显著度预测模型给定,由卷积神经网络提取图像,递归神经网络生成对应字幕,嵌入显著度预测可以有效提高图像字幕的质量。本发明提出一个新型注意模型,通过注意模型的扩展,在显著性预测模型中,创造两条注意力途径,一条重点关注显著区域,另一条重点关注上下文区域,两条路径在生成字幕过程中共同合作,逐步生成优秀的字幕,为图像字幕生成的创新解决方案做了进一步贡献。
发明内容
针对图像字幕生成,提出一个新型注意模型,通过注意模型的扩展,在显著性预测模型中,创造两条注意力途径,一条重点关注显著区域,另一条重点关注上下文区域,两条路径在生成字幕过程中共同合作,逐步生成优秀的字幕,为图像字幕生成的创新解决方案做了进一步贡献。
为解决上述问题,本发明提供一种基于新型注意模型进行图像字幕生成的方法,其主要内容包括:
(一)显著度预测模型;
(二)选中图像显著区域;
(三)显著度和文本感知注意力;
(四)字幕生成;
(五)分析注意力状态。
其中,所述的显著度预测模型,根据新型注意模型,提出一个新型字幕结构,在字幕生成过程中聚焦所输入图像的不同部位,具体的图像中哪些部位是显著的,哪些部位是需要结合上下文的,由显著度预测模型给定,由卷积神经网络提取图像,递归神经网络生成对应字幕,嵌入显著性预测可以有效提高图像字幕的质量。
其中,所述的新型注意模型,通过注意模型的扩展,在显著性预测模型中,创造两条注意力途径,一条重点关注显著区域,另一条重点关注上下文区域,两条路径在生成字幕过程中共同合作,逐步生成优秀的字幕。
进一步地,所述的选中图像显著区域,结合显著图和语义分割,来研究哪一部分图像被显著度实际选中或忽略,为了计算显著性图,采用当下流行的显著性基准,基于三个语义分割数据库进行分析:Pascal-Context数据集,Cityscapes数据集,和Look into Person数据集,其中第一个没有特定目标,其余两个分别集中于城市街道和人体部位,训练图像和验证图像来源于Pascal-Context数据集和LIP数据集,从Cityscapes数据集中选取5000个像素级的注释帧,首先调查每个数据集中显著度的两个极端,由于语义类在图像中出现的次数很少,所以只考虑出现次数大于N的类别,由于数据库大小不一,在Pascal-Context数据集和LIP数据集中,令N=500,在Cityscape数据集中,令N=200,为了收集显著性命中语义类别的次数,通过对显著图的像素值进行阈值化处理,再对每个图进行二值化,其中低阈值导致二值化图的显著性区域扩张,高阈值在固定点周围产生较小的显著度区域,故用这个两个不同的阈值来分析显著度最高和最低的类别,选择一个接近0的阈值在每个数据集中寻找显著度最低的类别,选择一个接近255的阈值寻找显著度最高的类别,结果观察到在特定的情景中,最重要的或者最明显的物体显著度最高,而背景中的物体和图像本身的上下文则容易被忽略。
进一步地,所述的显著度和文本感知注意力,首先输入一个图像I,先通过全卷积网络进行编码,其提供一个空间网格上的高等级特征堆栈{a1,a2,…,aL},每个堆栈对应一个图像中的空间位置,通过模型从所输入的图像中提取一个显著图,并缩减显著图直到它符合卷积特征的空间尺寸,之后在显著性区域得到如下的空间网格{s1,s2,…,s3},其中si∈[0,1],用上下文区域定义一个空间网格{z1,z2,…,zL},其中z1=1-si。在这个模式下,不同位置的视觉特征将根据它们的显著值来决定它们被选定还是被抑制。
其中,所述的高等级特征堆栈,每个图像通过卷积网络进行编码,计算出高等级特征堆栈,使用训练的ResNet-50数据集来计算输入图像的特征映射,ResNet-50由49个卷积层,划分为5个卷积块和1个完全连接层,因为要维持空间维度,故忽略完全连接层,直接从最后的卷积层提取特征映射,ResNet模型输出一个具有2048个通道的张量,为了限制特征映射和学习参数的数量,将该张量输送到具有512个滤波器的另一个卷积层,最后一个卷积层的权重在所考虑的数据集上进行初始化和调整,在长短期网络记忆层中,再次把初始化应用于输入的加权矩阵,并对内部状态的权重矩阵进行正交初始化。
进一步地,所述的字幕生成,字幕生成由长短期记忆网络(LSTM)层通过对词的取样和学习,逐字生成,其中每个时间步的条件是从输入图像和显著性映射中提取特征,LSTM生成字幕的行为由以下等式驱动:
ct=ft⊙ct-1+it⊙gt (4)
ht=ot⊙φ(ct) (6)
其中,在每个时间步长上,表示从I上提取的视觉特征,考虑到显著区域{si}i和上下文区域{zi}i的映射,其中wt是输入字,h是LSTM的内部状态,c是LSTM的储存单元,⊙表示Hadamard矩阵产生的元素级,σ是S形函数,φ是双曲正切tanh,W*是学习权矩阵,b*是学习偏差向量,为了生成具有视觉特征的网络,我们计算出定长特征向量作为空间特征的线性组合{a1,a2,…,aL},与时变权重αti一起,通过一个softmax算符在空间范围内标准化:
在每个时间步上,注意力机制根据先前的LSTM状态选择图像的一个区域,并将其反馈到LSTM,这样,一个单词的生成就被局限在该特定区域上,而不是由整个图像驱动。
其中,所述的权重,理想情况下,权重αti知道位置ai的显著度值和上下文值,并以LSTM的当前状态为条件,通过其内部状态ht进行编码,生成网络可以根据其属于显著区域或上下文区域以及当前的生成状态来关注输入图像的不同位置,其中将注意力权重与显著值相乘会导致上下文的丢失,因此将注意力权重分为两个路径,一个负责上下文区域,一个负责显著性区域,并采用两个不同的完全连接网络来学习这两个路径,最终,这个模型遵循以下等式:
其中是显著度的注意力权重,是上下文的注意力权重,显著度和上下文注意力权重计算公式如下:
该模型学习了显著度和上下文区域的不同权重,并将它们结合到最终的注意力映射中,其中显著区域和上下文区域的路径合并在一起,生成的LSTM可以集中在图像的每个区域,注意力途径知道每个位置的显著度,因此对显著度和上下文区域的关注是由显著度预测模型的输出驱动的。
其中,所述的长短期网络层(LSTM),对于文本部分,用独热向量对词语进行编码,其大小等于词汇量,然后通过线性变换学习将其投影到嵌入空间中,因为句子长度不同,它们被标记为特殊的开始字符串和结束字符串符号,以维持模型知道特定句子的开始和结束,给定一个图像和句子(y0,y1,…,yT),用一个独热向量对其进行编码,生成LSTM逐步对字幕的第一个字t进行调整,并对其进行训练生成字幕的下一个字,序列上正确单词的对数似然函数是一个优化的目标函数:
其中w是模型的所有参数,在LSTM输出中应用一个softmax函数对单词的概率进行建模,为了降低维度,采用线性嵌入变换将独热词向量投影到LSTM的输入空间,或反过来将LSTM的输出投影到字典空间:
其中Wp是将LSTM输出空间转换为单词空间的矩阵,ht是LSTM的输出,LSTM被给定一个标记的起始字符串作为第一个时间步长的输入,然后预测分布最可能的字被采样,并作为下一个时间步长的输入,直到标记的字符串结尾被预测。
进一步地,所述的注意力状态分析,从数据集中选取几个图像,两条路径之间的注意力权重发生了变化,对于每个图像,计算出每个时间步长的值的平均值以及其可视化显著图,可以观察到这个模型利用这两个注意力途径生成字幕的不同部分,并且已经生成的字幕可以和所在区域对应起来,在生成字幕的过程中,显著度注意力途径比上下文注意力途径更具活力,显著度注意力途径比上下文注意力途径所占的权重更低。
附图说明
图1是一种基于新型注意模型进行图像字幕生成的方法的系统流程图。
图2是一种基于新型注意模型进行图像字幕生成的方法的语义分割和显著度图。
图3是一种基于新型注意模型进行图像字幕生成的方法的字幕生成模型图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是一种基于新型注意模型进行图像字幕生成的方法的系统流程图。主要包括显著度预测模型、选中图像显著区域、显著度和文本感知注意力、字幕生成、分析注意力状态。
其中,所述的显著度预测模型,根据新型注意模型,提出一个新型字幕结构,在字幕生成过程中聚焦所输入图像的不同部位,具体的图像中哪些部位是显著的,哪些部位是需要结合上下文的,由显著度预测模型给定,由卷积神经网络提取图像,递归神经网络生成对应字幕,嵌入显著度预测可以有效提高图像字幕的质量。
其中,所述的新型注意模型,通过注意模型的扩展,在显著性预测模型中,创造两条注意力途径,一条重点关注显著区域,另一条重点关注上下文区域,两条路径在生成字幕过程中共同合作,逐步生成优秀的字幕。
图3是一种基于新型注意模型进行图像字幕生成的方法的语义分割和显著度图。其中,所述的选中图像显著区域,结合显著图和语义分割,来研究哪一部分图像被显著度实际选中或忽略,为了计算显著性图,采用当下流行的显著性基准,基于三个语义分割数据库进行分析:Pascal-Context数据集,Cityscapes数据集,和Look into Person数据集,其中第一个没有特定目标,其余两个分别集中于城市街道和人体部位,训练图像和验证图像来源于Pascal-Context数据集和LIP数据集,从Cityscapes数据集中选取5000个像素级的注释帧,首先调查每个数据集中显著度的两个极端,由于语义类在图像中出现的次数很少,所以只考虑出现次数大于N的类别,由于数据库大小不一,在Pascal-Context数据集和LIP数据集中,令N=500,在Cityscape数据集中,令N=200,为了收集显著性命中语义类别的次数,通过对显著图的像素值进行阈值化处理,再对每个图进行二值化,其中低阈值导致二值化图的显著性区域扩张,高阈值在固定点周围产生较小的显著度区域,故用这个两个不同的阈值来分析显著度最高和最低的类别,选择一个接近0的阈值在每个数据集中寻找显著度最低的类别,选择一个接近255的阈值寻找显著度最高的类别,结果观察到在特定的情景中,最重要的或者最明显的物体显著度最高,而背景中的物体和图像本身的上下文则容易被忽略。
图3是一种基于新型注意模型进行图像字幕生成的方法的字幕生成模型图。首先输入一个图像I,先通过全卷积网络进行编码,其提供一个空间网格上的高等级特征堆栈{a1,a2,…,aL},每个堆栈对应一个图像中的空间位置,通过模型从所输入的图像中提取一个显著图,并缩减显著图直到它符合卷积特征的空间尺寸,之后在显著性区域得到如下的空间网格{s1,s2,…,s3},其中si∈[0,1],用上下文区域定义一个空间网格{z1,z2,…,zL},其中z1=1-si。在这个模式下,不同位置的视觉特征将根据它们的显著值来决定它们被选定还是被抑制。
其中,所述的高等级特征堆栈,每个图像通过卷积网络进行编码,计算出高等级特征堆栈,使用训练的ResNet-50数据集来计算输入图像的特征映射,ResNet-50由49个卷积层,划分为5个卷积块和1个完全连接层,因为要维持空间维度,故忽略完全连接层,直接从最后的卷积层提取特征映射,ResNet模型输出一个具有2048个通道的张量,为了限制特征映射和学习参数的数量,将该张量输送到具有512个滤波器的另一个卷积层,最后一个卷积层的权重在所考虑的数据集上进行初始化和调整,在长短期网络记忆层中,再次把初始化应用于输入的加权矩阵,并对内部状态的权重矩阵进行正交初始化。
进一步地,所述的字幕生成,字幕生成由长短期记忆网络(LSTM)层通过对词的取样和学习,逐字生成,其中每个时间步的条件是从输入图像和显著性映射中提取特征,LSTM生成字幕的行为由以下等式驱动:
ct=ft⊙ct-1+it⊙gt (4)
ht=ot⊙φ(ct) (6)
其中,在每个时间步长上,表示从I上提取的视觉特征,考虑到显著区域{si}i和上下文区域{zi}i的映射,其中wt是输入字,h是LSTM的内部状态,c是LSTM的储存单元,⊙表示Hadamard矩阵产生的元素级,σ是S形函数,φ是双曲正切tanh,W*是学习权矩阵,b*是学习偏差向量,为了生成具有视觉特征的网络,我们计算出定长特征向量作为空间特征的线性组合{a1,a2,…,aL},与时变权重αti一起,通过一个softmax算符在空间范围内标准化:
在每个时间步上,注意力机制根据先前的LSTM状态选择图像的一个区域,并将其反馈到LSTM,这样,一个单词的生成就被局限在该特定区域上,而不是由整个图像驱动。
其中,所述的权重,理想情况下,权重αti知道位置ai的显著度值和上下文值,并以LSTM的当前状态为条件,通过其内部状态ht进行编码,这样,生成网络可以根据其属于显著区域或上下文区域以及当前的生成状态来关注输入图像的不同位置,其中将注意力权重与显著值相乘会导致上下文的丢失,因此将注意力权重分为两个路径,一个负责上下文区域,一个负责显著性区域,并采用两个不同的完全连接网络来学习这两个路径,最终,这个模型遵循以下等式:
其中是显著度的注意力权重,是上下文的注意力权重,显著度和上下文注意力权重计算公式如下:
该模型学习了显著度和上下文区域的不同权重,并将它们结合到最终的注意力映射中,其中显著区域和上下文区域的路径合并在一起,生成的LSTM可以集中在图像的每个区域,注意力途径知道每个位置的显著度,因此对显著度和上下文区域的关注是由显著度预测模型的输出驱动的。
其中,所述的长短期网络层(LSTM),对于文本部分,用独热向量对词语进行编码,其大小等于词汇量,然后通过线性变换学习将其投影到嵌入空间中,因为句子长度不同,它们被标记为特殊的开始字符串和结束字符串符号,以维持模型知道特定句子的开始和结束,给定一个图像和句子(y0,y1,…,yT)用一个独热向量对其进行编码,生成LSTM逐步对字幕的第一个字t进行调整,并对其进行训练生成字幕的下一个字,序列上正确单词的对数似然函数是一个优化的目标函数:
其中w是模型的所有参数,在LSTM输出中应用一个softmax函数对单词的概率进行建模,为了降低维度,采用线性嵌入变换将独热词向量投影到LSTM的输入空间,或反过来将LSTM的输出投影到字典空间:
其中Wp是将LSTM输出空间转换为单词空间的矩阵,ht是LSTM的输出,LSTM被给定一个标记的起始字符串作为第一个时间步长的输入,然后预测分布最可能的字被采样,并作为下一个时间步长的输入,直到标记的字符串结尾被预测。
进一步地,所述的注意力状态分析,从数据集中选取几个图像,两条路径之间的注意力权重发生了变化,对于每个图像,计算出每个时间步长的值的平均值以及其可视化显著图,可以观察到这个模型利用这两个注意力途径生成字幕的不同部分,并且已经生成的字幕可以和所在区域对应起来,在生成字幕的过程中,显著度注意力途径比上下文注意力途径更具活力,显著度注意力途径比上下文注意力途径所占的权重更低。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于新型注意模型进行图像字幕生成的方法,其特征在于,主要包括显著度预测模型(一);选中图像显著区域(二);显著度和文本感知注意力(三);字幕生成(四);分析注意力状态(五)。
2.基于权利要求书1所述的显著度预测模型(一),其特征在于,根据新型注意模型,提出一个新型字幕结构,在字幕生成过程中聚焦所输入图像的不同部位,具体的图像中哪些部位是显著的,哪些部位是需要结合上下文的,由显著度预测模型给定,由卷积神经网络提取图像,递归神经网络生成对应字幕,嵌入显著度预测可以有效提高图像字幕的质量。
3.基于权利要求书2所述的新型注意模型,其特征在于,通过注意模型的扩展,在显著度预测模型中,创造两条注意力途径,一条重点关注显著区域,另一条重点关注上下文区域,两条路径在生成字幕过程中共同合作,逐步生成优秀的字幕。
4.基于权利要求书1所述的选中图像显著区域(二),其特征在于,结合显著图和语义分割,来研究哪一部分图像被显著度实际选中或忽略,为了计算显著性图,采用当下流行的显著性基准,基于三个语义分割数据库进行分析:Pascal-Context数据集,Cityscapes数据集,和Look into Person数据集,其中第一个没有特定目标,其余两个分别集中于城市街道和人体部位,训练图像和验证图像来源于Pascal-Context数据集和LIP数据集,从Cityscapes数据集中选取5000个像素级的注释帧,首先调查每个数据集中显著度的两个极端,由于语义类在图像中出现的次数很少,所以只考虑出现次数大于N的类别,由于数据库大小不一,在Pascal-Context数据集和LIP数据集中,令N=500,在Cityscape数据集中,令N=200,为了收集显著性命中语义类别的次数,通过对显著图的像素值进行阈值化处理,再对每个图进行二值化,其中低阈值导致二值化图的显著性区域扩张,高阈值在固定点周围产生较小的显著度区域,故用这个两个不同的阈值来分析显著度最高和最低的类别,选择一个接近0的阈值在每个数据集中寻找显著度最低的类别,选择一个接近255的阈值寻找显著度最高的类别,结果观察到在特定的情景中,最重要的或者最明显的物体显著度最高,而背景中的物体和图像本身的上下文则容易被忽略。
5.基于权利要求书1所述的显著度和文本感知注意力(三),其特征在于,首先输入一个图像I,先通过全卷积网络进行编码,其提供一个空间网格上的高等级特征堆栈{a1,a2,…,aL},每个堆栈对应一个图像中的空间位置,通过模型从所输入的图像中提取一个显著图,并缩减显著图直到它符合卷积特征的空间尺寸,之后在显著性区域得到如下的空间网格{s1,s2,…,s3},其中si∈[0,1],用上下文区域定义一个空间网格{z1,z2,…,zL},其中z1=1-si,在这个模式下,不同位置的视觉特征将根据它们的显著值来决定它们被选定还是被抑制。
6.基于权利要求书5所述的高等级特征堆栈,其特征在于,每个图像通过卷积网络进行编码,计算出高等级特征堆栈,使用训练的ResNet-50数据集来计算输入图像的特征映射,ResNet-50由49个卷积层,划分为5个卷积块和1个完全连接层,因为要维持空间维度,故忽略完全连接层,直接从最后的卷积层提取特征映射,ResNet模型输出一个具有2048个通道的张量,为了限制特征映射和学习参数的数量,将该张量输送到具有512个滤波器的另一个卷积层,最后一个卷积层的权重在所考虑的数据集上进行初始化和调整,在长短期网络记忆层中,再次把初始化应用于输入的加权矩阵,并对内部状态的权重矩阵进行正交初始化。
7.基于权利要求书1所述的字幕生成(四),其特征在于,字幕生成由长短期记忆网络(LSTM)层通过对词的取样和学习,逐字生成,其中每个时间步的条件是从输入图像和显著性映射中提取特征,LSTM生成字幕的行为由以下等式驱动:
ct=ft⊙ct-1+it⊙gt (4)
ht=ot⊙φ(ct) (6)
其中,在每个时间步长上,表示从I上提取的视觉特征,考虑到显著区域{si}i和上下文区域{zi}i的映射,其中wt是输入字,h是LSTM的内部状态,c是LSTM的储存单元,⊙表示Hadamard矩阵产生的元素级,σ是S形函数,φ是双曲正切tanh,W*是学习权矩阵,b*是学习偏差向量,为了生成具有视觉特征的网络,我们计算出定长特征向量 作为空间特征的线性组合{a1,a2,…,aL},与时变权重αti一起,通过一个softmax算符在空间范围内标准化:
在每个时间步上,注意模型根据先前的LSTM状态选择图像的一个区域,并将其反馈到LSTM,这样,一个单词的生成就被局限在该特定区域上,而不是由整个图像驱动。
8.基于权利要求书7所述的权重,其特征在于,理想情况下,权重αti知道位置ai的显著度值和上下文值,并以LSTM的当前状态为条件,通过其内部状态ht进行编码,这样,生成网络可以根据其属于显著区域或上下文区域以及当前的生成状态来关注输入图像的不同位置,其中将注意力权重与显著值相乘会导致上下文的丢失,因此将注意力权重分为两个路径,一个负责上下文区域,一个负责显著性区域,并采用两个不同的完全连接网络来学习这两个路径,最终,这个模型遵循以下等式:
其中是显著度的注意力权重,是上下文的注意力权重,显著度和上下文注意力权重计算公式如下:
该模型学习了显著度和上下文区域的不同权重,并将它们结合到最终的注意力映射中,其中显著区域和上下文区域的路径合并在一起,生成的LSTM可以集中在图像的每个区域,注意力途径知道每个位置的显著度,因此对显著度和上下文区域的关注是由显著度预测模型的输出驱动的。
9.基于权利要求书7所述的长短期记忆网络层(LSTM),其特征在于,对于文本部分,用独热向量对词语进行编码,其大小等于词汇量,然后通过线性变换学习将其投影到嵌入空间中,因为句子长度不同,它们被标记为特殊的开始字符串和结束字符串符号,以维持模型知道特定句子的开始和结束,给定一个图像和句子(y0,y1,…,yT),用一个独热向量对其进行编码,生成LSTM逐步对字幕的第一个字t进行调整,并对其进行训练生成字幕的下一个字,序列上正确单词的对数似然函数是一个优化的目标函数:
其中w是模型的所有参数,在LSTM输出中应用一个softmax函数对单词的概率进行建模,为了降低维度,采用线性嵌入变换将独热词向量投影到LSTM的输入空间,或反过来将LSTM的输出投影到字典空间:
其中Wp是将LSTM输出空间转换为单词空间的矩阵,ht是LSTM的输出,LSTM被给定一个标记的起始字符串作为第一个时间步长的输入,然后预测分布最可能的字被采样,并作为下一个时间步长的输入,直到标记的字符串结尾被预测。
10.基于权利要求书1述的注意力状态分析(六),其特征在于,从数据集中选取几个图像,两条路径之间的注意力权重发生了变化,对于每个图像,计算出每个时间步长的值的平均值以及其可视化显著图,可以观察到这个模型利用这两个注意力途径生成字幕的不同部分,并且已经生成的字幕可以和所在区域对应起来,在生成字幕的过程中,显著度注意力途径比上下文注意力途径更具活力,显著度注意力途径比上下文注意力途径所占的权重更低。
CN201710632600.3A 2017-07-28 2017-07-28 一种基于新型注意模型进行图像字幕生成的方法 Withdrawn CN107391709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710632600.3A CN107391709A (zh) 2017-07-28 2017-07-28 一种基于新型注意模型进行图像字幕生成的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710632600.3A CN107391709A (zh) 2017-07-28 2017-07-28 一种基于新型注意模型进行图像字幕生成的方法

Publications (1)

Publication Number Publication Date
CN107391709A true CN107391709A (zh) 2017-11-24

Family

ID=60342609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710632600.3A Withdrawn CN107391709A (zh) 2017-07-28 2017-07-28 一种基于新型注意模型进行图像字幕生成的方法

Country Status (1)

Country Link
CN (1) CN107391709A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909115A (zh) * 2017-12-04 2018-04-13 上海师范大学 一种图像中文字幕生成方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108345887A (zh) * 2018-01-29 2018-07-31 清华大学深圳研究生院 图像语义分割模型的训练方法及图像语义分割方法
CN108959512A (zh) * 2018-06-28 2018-12-07 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109033321A (zh) * 2018-07-18 2018-12-18 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109117846A (zh) * 2018-08-22 2019-01-01 北京旷视科技有限公司 一种图像处理方法、装置、电子设备和计算机可读介质
CN109215097A (zh) * 2018-08-08 2019-01-15 深圳市唯特视科技有限公司 一种基于端到端联合学习的单个图像文本条件嵌入方法
CN109376222A (zh) * 2018-09-27 2019-02-22 国信优易数据有限公司 问答匹配度计算方法、问答自动匹配方法及装置
CN109522017A (zh) * 2018-11-07 2019-03-26 中山大学 一种基于神经网络和自注意力机制的网页截图代码生成方法
CN109582786A (zh) * 2018-10-31 2019-04-05 中国科学院深圳先进技术研究院 一种基于自动编码的文本表示学习方法、系统及电子设备
CN109948691A (zh) * 2019-03-14 2019-06-28 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN110309769A (zh) * 2019-06-28 2019-10-08 北京邮电大学 一种对图片中的字符串进行分割的方法
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法
CN110362809A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362810A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362808A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110555104A (zh) * 2018-03-26 2019-12-10 优酷网络技术(北京)有限公司 文本分析方法及装置
CN111222515A (zh) * 2020-01-06 2020-06-02 北方民族大学 一种基于上下文感知注意力的图像翻译方法
CN111612732A (zh) * 2020-04-02 2020-09-01 深圳大学 图像质量评估方法、装置、计算机设备及存储介质
CN113657534A (zh) * 2021-08-24 2021-11-16 北京经纬恒润科技股份有限公司 一种基于注意力机制的分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARCELLA CORNIA 等: "Paying More Attention to Saliency:Image Captioning with Saliency and Context Attention", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1706.08474V1》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909115A (zh) * 2017-12-04 2018-04-13 上海师范大学 一种图像中文字幕生成方法
CN107909115B (zh) * 2017-12-04 2022-02-15 上海师范大学 一种图像中文字幕生成方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN107979764B (zh) * 2017-12-06 2020-03-31 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108345887B (zh) * 2018-01-29 2020-10-02 清华大学深圳研究生院 图像语义分割模型的训练方法及图像语义分割方法
CN108345887A (zh) * 2018-01-29 2018-07-31 清华大学深圳研究生院 图像语义分割模型的训练方法及图像语义分割方法
CN110555104A (zh) * 2018-03-26 2019-12-10 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362808A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362810A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362809A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN108959512B (zh) * 2018-06-28 2022-04-29 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN108959512A (zh) * 2018-06-28 2018-12-07 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109033321B (zh) * 2018-07-18 2021-12-17 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109033321A (zh) * 2018-07-18 2018-12-18 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109215097A (zh) * 2018-08-08 2019-01-15 深圳市唯特视科技有限公司 一种基于端到端联合学习的单个图像文本条件嵌入方法
CN109117846B (zh) * 2018-08-22 2021-11-16 北京旷视科技有限公司 一种图像处理方法、装置、电子设备和计算机可读介质
CN109117846A (zh) * 2018-08-22 2019-01-01 北京旷视科技有限公司 一种图像处理方法、装置、电子设备和计算机可读介质
CN109376222A (zh) * 2018-09-27 2019-02-22 国信优易数据有限公司 问答匹配度计算方法、问答自动匹配方法及装置
CN109582786B (zh) * 2018-10-31 2020-11-24 中国科学院深圳先进技术研究院 一种基于自动编码的文本表示学习方法、系统及电子设备
CN109582786A (zh) * 2018-10-31 2019-04-05 中国科学院深圳先进技术研究院 一种基于自动编码的文本表示学习方法、系统及电子设备
CN109522017A (zh) * 2018-11-07 2019-03-26 中山大学 一种基于神经网络和自注意力机制的网页截图代码生成方法
CN109948691B (zh) * 2019-03-14 2022-02-18 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN109948691A (zh) * 2019-03-14 2019-06-28 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN110309769A (zh) * 2019-06-28 2019-10-08 北京邮电大学 一种对图片中的字符串进行分割的方法
CN110347860B (zh) * 2019-07-01 2021-07-09 南京航空航天大学 基于卷积神经网络的深度图像描述方法
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法
CN111222515A (zh) * 2020-01-06 2020-06-02 北方民族大学 一种基于上下文感知注意力的图像翻译方法
CN111222515B (zh) * 2020-01-06 2023-04-07 北方民族大学 一种基于上下文感知注意力的图像翻译方法
CN111612732A (zh) * 2020-04-02 2020-09-01 深圳大学 图像质量评估方法、装置、计算机设备及存储介质
CN111612732B (zh) * 2020-04-02 2023-07-18 深圳大学 图像质量评估方法、装置、计算机设备及存储介质
CN113657534A (zh) * 2021-08-24 2021-11-16 北京经纬恒润科技股份有限公司 一种基于注意力机制的分类方法及装置

Similar Documents

Publication Publication Date Title
CN107391709A (zh) 一种基于新型注意模型进行图像字幕生成的方法
Hui et al. Linguistic structure guided context modeling for referring image segmentation
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
Ding et al. VLT: Vision-language transformer and query generation for referring segmentation
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN109359559B (zh) 一种基于动态遮挡样本的行人再识别方法
Reed et al. Learning what and where to draw
Li et al. Lstm-cf: Unifying context modeling and fusion with lstms for rgb-d scene labeling
Wang et al. Actionness estimation using hybrid fully convolutional networks
CN106250915B (zh) 一种融合深度特征和语义邻域的自动图像标注方法
Wu et al. GINet: Graph interaction network for scene parsing
CN106650789A (zh) 一种基于深度lstm网络的图像描述生成方法
CN109978021B (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN104200203B (zh) 一种基于动作字典学习的人体动作检测方法
Wang et al. Multiscale deep alternative neural network for large-scale video classification
Gammulle et al. Multi-level sequence GAN for group activity recognition
CN112949647A (zh) 三维场景描述方法、装置、电子设备和存储介质
CN109740151A (zh) 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法
Jin et al. Pseudo-labeling and meta reweighting learning for image aesthetic quality assessment
Ruan et al. Category-level adversaries for semantic domain adaptation
Jiang et al. Cross-level reinforced attention network for person re-identification
CN107729821A (zh) 一种基于一维序列学习的视频概括方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20171124