CN109447242A - 基于迭代学习的图像描述重生成系统及方法 - Google Patents

基于迭代学习的图像描述重生成系统及方法 Download PDF

Info

Publication number
CN109447242A
CN109447242A CN201811176057.1A CN201811176057A CN109447242A CN 109447242 A CN109447242 A CN 109447242A CN 201811176057 A CN201811176057 A CN 201811176057A CN 109447242 A CN109447242 A CN 109447242A
Authority
CN
China
Prior art keywords
image
neural network
recurrent neural
descriptor
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811176057.1A
Other languages
English (en)
Other versions
CN109447242B (zh
Inventor
张玥杰
周练
田勇
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201811176057.1A priority Critical patent/CN109447242B/zh
Publication of CN109447242A publication Critical patent/CN109447242A/zh
Application granted granted Critical
Publication of CN109447242B publication Critical patent/CN109447242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation

Abstract

本发明为基于迭代学习的图像描述重生成系统及方法,包括:深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络。深度卷积网络对图像进行细粒度的编码。第一轮循环神经网络为图像生成初步的句子描述以及视觉注意力图序列。知识抽取模块根据注意力图,利用显著性区域检测算法来生成显著性区域掩码。此外,知识抽取模块从初步生成的句子描述中提取名词序列作为图像的主题词。第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入第二轮训练,即基于显著性区域掩码的全局图像视觉表示精炼,基于主题词的多模态图像表示优化以及基于主题词的多模态注意力机制。基于上述机制,第二轮循环神经网络可生成精炼的图像描述。

Description

基于迭代学习的图像描述重生成系统及方法
技术领域
本发明属于跨媒体生成技术领域,具体涉及基于迭代学习的图像描述重生成系统及方法。
背景技术
图像描述生成(Image Captioning)是一项非常重要的视觉任务,即为图像生成一句描述其视觉内容的自然语言。图像描述生成任务可以实现从视觉到文本的映射,具有非常广阔的应用前景,例如,跨媒体检索、盲人辅助等。图像描述生成任务非常具有挑战性,模型不仅需要准确地识别出图像中的显著性对象、对象的属性以及对象之间的交互关系,还要将这些识别出来的信息进行整合,最终生成一句有意义的自然语言描述。目前,实现图像描述生成的方法可以大致分为三类,即基于检索的方法、基于模板的方法以及基于序列学习的方法。前两种方法有比较明显的缺点,效果上不如基于序列学习的方法。所以,基于序列学习的方法是目前用于实现图像描述生成的主流方法。基于序列学习的方法是在深度神经网络快速发展的背景下提出的。具体来说,基于序列学习的方法从神经机器翻译领域的编码器-解码器框架获得启发,使用深度卷积网络CNN(Convolutional Neural Network)作为图像编码器,将图像编码成高维向量表示,然后利用循环神经网络RNN(RecurrentNeural Network)作为解码器,对图像的高维向量表示进行解码,最终生成图像的视觉描述。
目前,已经有实验证明视觉和语义的显著性广泛存在于图像描述任务中。但是,大部分基于单轮学习的图像描述生成模型无法利用视觉和语义上的显著性信息来增强模型的学习。所以,基于单轮学习的图像描述生成模型面临着两个问题。第一,粗糙的全局图像特征表示。许多模型利用深度卷积网络卷积层输出的特征图来编码图像,也就是将图像划分成小区域,每个区域表示成一个特征向量。在第一轮学习的初始时刻,由于无法判断哪些区域是显著区域,所以模型只能将这些区域特征向量进行简单的平均来得到一个图像的全局表示,然后基于该表示进行解码。因为人在描述图像的视觉内容时往往只描述图像的显著性区域,所以通过简单地将各个区域的特征向量进行平均得到的图像表示无法很好地编码图像的显著性视觉信息,从而损害最终生成的图像描述的质量。第二,语义信息的缺失。每个图像的视觉内容都对应一定的主题(例如“汽车”,“鲜花”等),所以主题词将有助于模型更好地理解图像的语义内容,从而提高所生成图像描述的质量。但是,对于只进行一轮学习的模型来说,模型无法获取测试集图像的主题词信息。为了解决以上问题,前期已经有一些工作提出利用人眼焦点数据集来学习一个图像显著性区域预测器,用于生成图像的显著性区域掩码,并利用显著性区域掩码来精炼图像的视觉表示。此外,还有工作利用检索、多实例学习、多标签分类等技术来学习图像语义预测器,从而为图像描述生成模型提供更多关于图像的显著性语义信息。但是,当我们的目标只是为图像生成描述时,上述方法引入了额外的负担。更好的方法应该是让图像描述生成模型自己去识别图像的显著性区域以及获取与显著性区域相对应的显著性语义信息。随着深度神经网络的发展,当前的图像描述生成模型已经可以学习到足够准确的图像视觉和语义显著性信息。但是由于单轮学习以及缺乏显著性信息提取和融合的机制,当前的模型无法很好地利用学习到的有益信息。基于上述考虑,本发明采用迭代学习的方式,通过视觉显著性检测以及主题词机制从第一轮模型中提取有益的显著性信息,并通过相应的显著性融合机制将显著性信息融入到第二轮的学习中,从而让图像描述生成模型能够更加充分地利用自己学习到的知识来提高模型的性能。
发明内容
为了解决传统模型在单轮学习过程中存在的全局图像特征表示比较粗糙以及缺乏主题语义信息这两个问题,本发明提出了一种基于迭代学习的图像描述重生成系统及方法,以提高所生成图像描述的质量。
本发明基于“CNN+LSTM”图像描述生成模型架构,提出迭代学习范式,从而让模型能够利用更多有益的信息来提高所生成图像描述的质量。基于迭代学习的图像描述重生成系统包括:深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络。所述深度卷积网络用于对图像进行细粒度的编码,即计算图像区域的特征向量表示,并将图像的特征向量表示输出到第一轮循环神经网络和第二轮循环神经网络;所述第一轮循环神经网络根据图像的特征向量表示得到粗糙的全局图像视觉表示,然后生成初步的图像描述以及与句子中每个词语对应的视觉注意力图序列,并将这些信息输出到知识抽取模块;所述知识抽取模块根据视觉注意力图,利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域,并生成显著性区域掩码。此外,所述知识抽取模块从初步生成的句子描述中提取名词序列,作为图像的主题词。所述知识抽取模块将显著性区域掩码和主题词作为图像的额外知识输出到第二轮循环神经网络;所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中,即利用显著性区域掩码来计算精炼的全局图像视觉表示,利用主题词来计算初始时刻多模态图像表示以及利用主题词来执行多模态注意力机制。通过上述机制,第二轮循环神经网络最终生成精炼的图像描述。
具体的,所述深度卷积网络将卷积层输出的特征图作为图像的细粒度特征表示,具体可表示为:
其中,v*表示卷积层输出的原始特征图,即一个形状为n×n×D的实值张量;表示实数空间;n表示特征图的大小,即图像总共被分割成n2个区域,可见,图像的每个区域和对应的特征向量均可通过一组下标来定位;D表示每个区域特征向量vi,j(1≤i,j≤n)的维度;ReLU表示线性整流函数。
具体的,所述第一轮循环神经网络采用带有视觉注意力机制的LSTM来生成初步的图像描述Y=(y1,…,yd)以及对应的视觉注意力图(α1,…,αd);其中,yt表示LSTM在第t个时刻生成的词语,其对应的视觉注意力图为:
表示第一轮LSTM在第t个时刻对每个图像区域的关注程度。
具体的,所述知识抽取模块从第一轮循环神经网络的输出中抽取有益的视觉和语义信息来精炼用于第二轮学习的图像特征表示;在视觉方面,首先根据句子中词语的词性(例如,名词、动词和形容词)从学习到的视觉注意力图序列中选择一个子集,并将选出的注意力图进行累加得到全局的视觉注意力图,即:
αc=g(∑qαq),q∈{q1,…,qk},1≤qi≤d,1≤i≤k,
其中,g是L1归一化函数;现在,αc是一个在图像区域上的概率分布,表示每个区域对于最终生成的图像描述的重要性;也就是说,概率密度越高,表示对应区域越重要;基于这一特点,可以通过检测αc的局部特征来找到图像的显著性区域。
本发明使用基于滑动窗口的显著性区域检测算法来识别出显著的区域,并输出与注意力图尺度一样的显著性区域掩码M;在M中,1表示对应区域被认定为显著性区域,而0表示对应区域为背景区域。
在语义方面,本发明从第一轮学习到的图像描述中提取名词集合作为图像的主题词,即:
其中,是每个主题词的索引向量,该向量在词语所对应编号的维度上为1,在其他维度上为0。
具体的,所述第二轮循环神经网络是一个与第一轮循环神经网络完全一样的LSTM;为了提高所生成图像描述的质量,第二轮循环神经网络对图像的特征表示进行优化。
在视觉方面,主要的优化是精炼图像的全局视觉表示,这可根据M和v计算得到;具体分为三步:
第一步,计算显著性区域的特征表示:
其中,αs=M/Q为对应的显著性区域系数矩阵,Q为显著性区域的个数;
第二步,计算背景区域的特征表示:
其中,αb=(I-M)/(n2-Q)为背景区域系数矩阵,I是大小为n×n且元素全为1的矩阵;
第三步,计算精炼的图像视觉表示:
其中,β是一个用于权衡显著性区域表示和背景区域表示的系数,取值范围是[0.5,1.0],表明模型倾向于关注显著的区域。
在语义方面,主要的优化是多模态图像表示和多模态注意力机制;在多模态图像表示方面,通过将语义信息与图像纯视觉表示进行融合来增加图像视觉表示的判别性;具体的,给定一张图像的主题词集合T,通过一个词嵌入矩阵We可将每个主题词映射到一个实值向量最终,通过将图像的视觉表示与主题词进行融合可得到多模态图像特征表示即:
其中,v0是图像的纯视觉表示。
在多模态注意力机制方面,通过让模型在生成描述的过程中同时关注视觉和语义信息来使模型能够获取更多关于图像的语义信息,具体体现为多模态上下文向量的计算,即:
其中,是每个主题词的注意力权重,而为每个视觉特征向量的注意力权重。
本发明还提供采用所述的基于迭代学习的图像描述重生成系统的图像描述重生成方法,包括:
步骤一、所述深度卷积网络用于对图像进行细粒度的编码,即计算图像区域的特征向量表示,并将图像的特征向量表示输出到第一轮循环神经网络和第二轮循环神经网络;
步骤二、所述第一轮循环神经网络根据图像的特征表示生成初步的图像描述以及与句子中每个词对应的注意力图,并将这些信息输出到知识抽取模块;
步骤三、所述知识抽取模块根据注意力图,利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域,并生成显著性区域掩码;同时,从初步生成的句子描述中提取名词序列,作为图像的主题词;最后,知识抽取模块将显著性区域掩码和主题词输出到第二轮循环神经网络;
步骤四、所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中,即利用显著性区域掩码来计算精炼的全局图像视觉表示,利用主题词来计算初始时刻多模态图像表示,利用主题词来执行多模态注意力机制;通过上述三种机制,第二轮循环神经网络最终生成精炼的图像描述。
本发明的优点:
首先,本发明采用迭代学习的策略来生成图像描述,可以克服单轮模型存在的全局图像表示比较粗糙以及语义信息缺失这两个问题,其生成过程更符合人类描述图像视觉信息的过程;
其次,本发明利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域,并将图像表示成显著性区域和背景区域的加权和;通过赋予显著性区域更大的权重,从而得到更好的图像视觉表示;
最后,本发明通过多模态图像表示和多模态注意力机制将语义信息融入第二轮学习当中,让模型能够获得更多关于图像的语义信息。
附图说明
图1是本发明的框架图。
图2是基于滑动窗口的显著性区域检测算法的示意图。其中,左:输入图像;中:αc;右:显著性区域掩码M。
具体实施方式
由技术背景可知,现有的图像描述生成模型大都只进行一轮的学习,存在全局图像表示比较粗糙、语义信息缺失等问题。申请人针对上述问题进行研究,在本发明中提供一种基于迭代学习的图像描述重生成系统及方法,通过迭代学习利用第一轮模型来学习与图像有关的视觉和语义知识,并输出到第二轮模型来缓解上述存在的两个问题。本发明通过两轮LSTM的学习来生成最终的图像描述,其中第一轮LSTM用来学习图像的视觉和语义信息,而第二轮LSTM用于生成精炼后的句子描述,而这两轮LSTM通过一个知识抽取模块进行联系。本发明的一个重要特点是通过引入基于滑动窗口的图像显著性区域检测算法和主题词机制,从第一轮LSTM中抽取有益的知识,并通过全局图像视觉表示精炼、多模态图像表示以及多模态注意力机制将所学习到的知识融入到第二轮LSTM的学习中,从而提高所生成句子描述的质量。
下文将结合附图和实施例对本发明的精神和实质做进一步阐述。
如图1所示,本发明实施例提供的基于迭代学习的图像描述生成系统包括:深度卷积网络01、第一轮循环神经网络02、知识抽取模块03以及第二轮循环神经网络04。所述深度卷积网络用于对图像进行细粒度的编码,即计算图像区域的特征向量表示,并将图像的特征向量表示输出到第一轮循环神经网络和第二轮循环神经网络;所述第一轮循环神经网络根据图像的特征向量表示得到粗糙的全局图像视觉表示,然后生成初步的图像描述以及与句子中每个词语对应的视觉注意力图,并将这些信息输出到知识抽取模块;所述知识抽取模块根据视觉注意力图,利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域,并生成显著性区域掩码。此外,所述知识抽取模块从初步生成的句子描述中提取名词序列,作为图像的主题词。所述知识抽取模块将显著性区域掩码和主题词作为图像的额外知识输出到第二轮循环神经网络;所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中,即利用显著性区域掩码来计算精炼的全局图像视觉表示,利用主题词来计算初始时刻多模态图像表示以及利用主题词来执行多模态注意力机制。通过上述机制,第二轮循环神经网络最终生成精炼的图像描述。
所述深度卷积网络将卷积层输出的特征图作为图像的细粒度特征表示。广泛使用的卷积网络包括VGG,ResNet等。则图像的视觉特征可表示如下:
其中,v*表示卷积层输出的原始特征图,即一个形状为n×n×D的实值张量;表示实数空间;n表示特征图的大小,即图像总共被分割成n2个区域,可见,图像的每个区域和对应的特征向量均可通过一组下标来定位;D表示每个区域特征向量vi,j(1≤i,j≤n)的维度;ReLU表示线性整流函数。
所述第一轮循环神经网络采用带有视觉注意力机制的LSTM来生成初步的图像描述以及对应的视觉注意力图。假设生成的句子描述为Y=(y0,y1,…,yd),其中y0表示句子开始标志,yt表示在时刻t所生成词语的索引向量,即该向量在词语所对应编号的维度上为1,在其他维度上均为0。通过词嵌入技术可以将索引向量映射成一个实值向量,如等式(2)所示。其中,是词嵌入矩阵,m是词嵌入向量的维度,K是词汇表的大小。
xt=Weyt,1≤t≤d (2)
LSTM在时刻t的状态转换如下所示:
ct=ft⊙ct-1+it⊙gt (4)
ht=ot⊙tanh(ct) (5)
其中,it,ft,ot,ct和ht分别是LSTM的输入门、遗忘门、输出门、记忆单元和隐藏层在时刻t的状态;σ,tanh和⊙分别是sigmoid激活函数、双曲正切激活函数和逐元素乘法操作;zt是在时刻t关于图像的一个上下文向量,由视觉注意力机制计算得到,如下所示:
其中,fatt是一个使用感知机实现的注意力函数,用于计算在时刻t模型对某一个图像区域的关注程度,即能量值通过将所有区域的能量值进行归一化,可得到一个关于图像区域的注意力分布αt。利用αt将所有图像区域的特征向量进行加权平均,则可得到一个上下文向量zt,即图像在时刻t的一个动态表示。α0被定义为初始时刻的注意力图,用于计算初始时刻的全局图像表示v0。根据v0,可以利用两个感知机来计算LSTM初始时刻隐藏层和记忆单元的初始值。需要注意的是,v0只用于初始化LSTM。每个时刻所生成词语的概率值可以通过xt-1、ht和zt计算得到,如下所示:
其中,u为LSTM记忆单元的个数。本发明通过最小化负对数似然来训练LSTM,如下所示:
所述知识抽取模块从第一轮循环神经网络的输出中抽取有益的视觉和语义信息来精炼用于第二轮学习的图像特征表示。在视觉方面,主要是学习图像区域上的显著性掩码。具体的,给定一个由第一轮LSTM生成的句子Y=(y1,…,yd)和对应的视觉注意力图序列(α1,…,αd),考虑到视觉注意力机制可以学习图像区域和词语之间的对齐关系,本发明首先根据词性选出与名词、动词和形容词对应的视觉注意力图,并将这些注意力图进行逐位置累加和归一化,即αc=g(∑qαq),q∈{q1,…,qk},1≤qi≤d,1≤i≤k,其中g是L1归一化函数。现在,αc是一个图像区域上的概率分布,表示每个区域对于最终生成的图像描述的重要性。基于这一特点,本发明利用滑动窗口检测αc的局部特征来找到图像的显著性区域,具体算法如下所示:
算法1:基于滑动窗口的图像显著性区域检测
输入:αc,分辨率h:w,单位长度e(1≤e≤n,e*max(h,w)≤n),步长s,区域个数阈值δ∈[0.0,1.0]。
输出:显著性区域掩码M。
1、初始化P=[],WIN=[],REG=[],M=[0]n×n
2、根据αc,滑动窗口(h*e,w*e)以及s将所有合法的滑动窗口位置(r,c)加入到列表P;
3、对于P中的每一个位置(r,c),按顺序执行:
1)获取对应窗口所包含区域的注意力权重集合
2)计算窗口的平均显著性分数:
3)将((r,c),score)元组加入到WIN列表中;
4、根据分数对WIN列表中的元组进行降序排序;
5、对于WIN中的每个元组((r,c),score),按顺序执行:
1)获取窗口所包含区域R=[(r,c),…,(r+h*e-1,c+w*e-1)];
2)对R中的区域根据其注意力权重进行降序排序;
3)对于R中的每个区域(r′,c′),按顺序执行:
如果REG包含的元素个数不小于则终止,执行步骤6;
如果(r′,c′)不在REG中,则将(r′,c′)加入到REG;
6、将REG中所包含区域在M中对应的值设置为1;
7、返回M。
在算法1中,一个滑动窗口的位置被定义为窗口中左上角区域的坐标。滑动窗口的尺寸为h*w*e2。可见,尺寸大于1的滑动窗口会考虑区域之间的几何位置关系,即将紧邻的区域看作一个整体,这有助于将同属于一个显著性对象的区域识别为显著性区域,尽管这些区域中有些区域对应的注意力权重并非很高。平均显著性程度被用来度量每个窗口的显著性。算法1倾向于将平均显著性分数高的窗口所包含的区域以及注意力权重高的区域当做显著性区域。在M中,1表示对应区域被认定为显著性区域,而0表示对应区域为背景区域。图2是对算法1的一个概念性说明,对应的参数为h:w=1:1,e=2,s=2,δ=0.8。在语义方面,本发明从第一轮学习到的图像描述中抽取名词集合 作为图像的主题词,其中是主题词的索引向量,即该向量在该词所对应编号的维度上为1,其他维度均为0。
所述第二轮循环神经网络是一个带有视觉注意力机制的LSTM。第二轮循环神经网络根据知识抽取模块输出的M和T来优化第二轮学习。本发明采用三种优化方式,包括全局图像视觉表示精炼、多模态图像表示以及多模态注意力机制。在全局图像视觉表示优化上,根据M和v可以得到精炼的图像表示,如下所示:
αs=M/Q,Q>0 (14)
αb=(I-M)/(n2-Q),n2>Q (15)
具体的,首先计算显著性区域的特征表示。通过M可计算得到显著性区域的系数矩阵,即αs=M/Q,其中Q为显著性区域的个数。则显著性区域的特征表示为同样的,通过M可计算得到背景区域的系数矩阵αb=(I-M)/(n2-Q),其中I是大小为n×n且元素全为1的矩阵。则背景区域的特征表示为最终经过精炼的全局图像视觉表示为 其中β是一个用于权衡显著性区域表示和背景区域表示的系数。为了突出显著性区域表示,β的取值范围被设定为[0.5,1.0]。在多模态图像表示方面,其计算过程如下:
通过将图像的视觉表示与主题词表示进行融合得到多模态图像表示,即其中v0是图像的纯视觉表示。在给定如等式(17)所示的图像主题词集合T后,第二轮循环神经网络可以将纯视觉注意力机制扩展成多模态注意力机制,即在生成图像描述的过程中同时关注视觉和语义信息,计算过程如下:
其中,是每个主题词的注意力权重,而为每个视觉特征向量的注意力权重。在每个时刻可以计算得到一个多模态上下文向量表示,即总体来说,相较于第一轮学习,本发明在第二轮学习中依据知识抽取模块提供的显著性区域掩码M以及主题词T进行的优化包括这些优化可以让图像的表示更具判别性,从而可以让第二轮循环神经网络更好地理解图像的内容,从而生成更优的图像描述。
综上所述,本发明提出了一种新颖的基于迭代学习的图像描述重生成系统和方法。本发明用卷积神经网络对图像内容进行细粒度的编码;第一轮循环神经网络根据图像的特征向量表示生成初步的图像描述以及与句子中每个词对应的注意力图;知识抽取模块根据注意力图,利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域,并生成显著性区域掩码。同时,从初步生成的句子描述中提取名词序列,作为图像的主题词;所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中,即利用显著性区域掩码来计算精炼的全局图像视觉表示,利用主题词来计算初始时刻多模态图像表示,利用主题词来执行多模态注意力机制。基于上述三种机制,第二轮循环神经网络最终生成精炼的图像描述。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (7)

1.一种基于迭代学习的图像描述重生成系统,其组件包括:深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络;其中,所述深度卷积网络用于对图像进行细粒度的编码,即计算图像区域的特征向量表示,并将图像的特征向量表示输出到第一轮循环神经网络和第二轮循环神经网络;
所述第一轮循环神经网络利用均匀的区域权重对图像的区域特征向量进行加权平均,得到粗糙的全局图像视觉表示,然后生成初步的图像描述以及与句子中每个词语对应的视觉注意力图,并将这些信息输出到知识抽取模块;
所述知识抽取模块根据视觉注意力图,利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域,并生成显著性区域掩码;此外,所述知识抽取模块根据词性从初步生成的句子描述中提取名词序列,作为图像的主题词;所述知识抽取模块将显著性区域掩码和主题词作为图像的额外知识输出到第二轮循环神经网络;
所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中,即利用显著性区域掩码来计算精炼的全局图像视觉表示,利用主题词来计算初始时刻多模态图像表示以及利用主题词来执行多模态注意力机制;基于上述三种机制,第二轮循环神经网络最终生成精炼的图像描述。
2.根据权利要求1所述的基于迭代学习的图像描述重生成系统,其特征在于,所述深度卷积网络将卷积层输出的特征图(feature map)作为图像的细粒度特征表示:
其中,v*表示卷积层输出的原始特征图,即一个形状为n×n×D的实值张量;表示实数空间;n表示特征图的大小,即图像总共被分割成n2个区域,可见,图像的每个区域和对应的特征向量均可通过一组下标来定位;D表示每个区域特征向量vi,j(1≤i,j≤n)的维度;ReLU表示线性整流函数(Rectified Linear Unit)。
3.根据权利要求1所述的基于迭代学习的图像描述重生成系统,其特征在于,所述第一轮循环神经网络采用带有视觉注意力机制(Visual Attention)的LSTM,即长短时记忆神经网络(Long Short-Term Memory Neural Network)来生成初步的图像描述Y=(y1,…,yd)以及对应的视觉注意力图(Attention Map)序列(α1,…,αd);其中,d表示句子的长度,yt(1≤t≤d)表示LSTM在第t个时刻生成的词语,其对应的视觉注意力图为:
表示第一轮LSTM在第t个时刻对每个图像区域的关注程度。
4.根据权利要求1所述的基于迭代学习的图像描述重生成系统,其特征在于,所述知识抽取模块从第一轮循环神经网络输出的视觉注意力图中抽取有益的视觉显著性信息,即通过逐位置累加句子描述Y对应的视觉注意力图序列来得到全局的视觉注意力图,即:
αc=g(∑qαq),q∈{q1,…,qk},1≤qi≤d,1≤i≤k,
其中,g是L1归一化函数;αc是一个在图像区域上的概率分布,表示每个区域对于最终生成的图像描述的重要性;知识抽取模块利用基于滑动窗口的显著性区域检测算法来检测αc的局部特征,从而识别出视觉上显著的区域,并输出与注意力图尺度一样的显著性区域掩码M;在M中,1表示对应区域被认定为显著性区域,0表示对应区域为背景区域。
5.根据权利要求1所述的基于迭代学习的图像描述重生成系统,其特征在于,所述知识抽取模块从第一轮循环神经网络输出的图像句子描述中抽取有益的语义信息,即从第一轮学习到的图像描述中提取名词集合作为图像的主题词:
T={yqi|yqi∈Y,1≤qi≤d,1≤i≤k}
其中,yqi表示每个主题词的索引向量,该向量在词语所对应编号的维度上为1,在其他维度上为0。
6.根据权利要求1所述的基于迭代学习的图像描述重生成系统,其特征在于,所述第二轮循环神经网络采用一个与第一轮循环神经网络完全一样的LSTM;为了提高所生成图像描述的质量,第二轮循环神经网络利用三种机制将知识抽取模块所提取的图像知识融入到第二轮训练中;在视觉方面,可以根据M和v得到精炼的全局图像视觉表示,具体分为三步:
第一步,计算显著性区域的特征表示:
其中,αs=M/Q为显著性区域对应的系数矩阵,Q为显著性区域的个数;
第二步,计算背景区域的特征表示:
其中,αb=(I-M)/(n2-Q)为背景区域对应的系数矩阵,I是大小为n×n且元素全为1的矩阵;(n2-Q)为背景区域的个数;
第三步,计算精炼的全局图像视觉表示
其中,β是一个用于权衡显著性区域表示和背景区域表示的系数,取值范围是[0.5,1.0],表明模型倾向于关注显著的区域;
在语义方面,通过多模态图像表示和多模态注意力机制可将图像的主题词融入到第二轮训练中;在多模态图像表示方面,通过将语义信息与图像纯视觉表示进行融合来增强图像视觉表示的判别性;给定一张图像的主题词集合T,通过一个词嵌入矩阵We将每个主题词映射到一个实值向量xqi=ReLU(Weyqi);最终,通过将图像的视觉表示与主题词进行融合得到多模态图像表示
其中,v0是图像的纯视觉表示;
在多模态注意力机制方面,通过让模型在生成描述的过程中同时关注视觉和语义信息使模型能够获取更多关于图像的语义信息,具体体现为多模态上下文向量的计算,即:
其中,是每个主题词的注意力权重,而为每个视觉特征向量的注意力权重。
7.一种基于权利要求1-6之一所述图像描述重生成系统的图像描述重生成方法,其特征包括:
步骤一、用所述深度卷积网络对图像进行细粒度的编码,即计算图像区域的特征向量表示,并将图像的特征向量表示输出到第一轮循环神经网络和第二轮循环神经网络;
步骤二、由第一轮循环神经网络根据图像的视觉特征表示生成初步的图像描述以及与句子中每个词对应的注意力图,并将这些信息输出到知识抽取模块;
步骤三、由所述知识抽取模块根据注意力图,利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域,并生成显著性区域掩码;同时,从初步生成的句子描述中提取名词序列,作为图像的主题词;最后,知识抽取模块将显著性区域掩码和主题词输出到第二轮循环神经网络;
步骤四、由所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中,即利用显著性区域掩码来计算精炼的全局图像视觉表示,利用主题词来计算初始时刻多模态图像表示,利用主题词来执行多模态注意力机制;基于上述机制,第二轮循环神经网络最终生成精炼的图像描述。
CN201811176057.1A 2018-10-10 2018-10-10 基于迭代学习的图像描述重生成系统及方法 Active CN109447242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811176057.1A CN109447242B (zh) 2018-10-10 2018-10-10 基于迭代学习的图像描述重生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811176057.1A CN109447242B (zh) 2018-10-10 2018-10-10 基于迭代学习的图像描述重生成系统及方法

Publications (2)

Publication Number Publication Date
CN109447242A true CN109447242A (zh) 2019-03-08
CN109447242B CN109447242B (zh) 2021-08-20

Family

ID=65546028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811176057.1A Active CN109447242B (zh) 2018-10-10 2018-10-10 基于迭代学习的图像描述重生成系统及方法

Country Status (1)

Country Link
CN (1) CN109447242B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960747A (zh) * 2019-04-02 2019-07-02 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
CN109978139A (zh) * 2019-03-20 2019-07-05 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN110046226A (zh) * 2019-04-17 2019-07-23 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN110084250A (zh) * 2019-04-26 2019-08-02 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN111539355A (zh) * 2020-04-27 2020-08-14 东北电力大学 一种基于深层神经网络的光伏板异物检测系统及检测方法
CN112257465A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于图像描述生成的多模态机器翻译数据增强方法
CN113011202A (zh) * 2021-03-23 2021-06-22 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置
CN113033636A (zh) * 2021-03-17 2021-06-25 济南国科医工科技发展有限公司 一种卵巢肿瘤自动鉴别系统
CN113423004A (zh) * 2021-08-23 2021-09-21 杭州一知智能科技有限公司 基于解耦译码的视频字幕生成方法和系统
CN113591874A (zh) * 2021-06-01 2021-11-02 清华大学 长时记忆增强的段落级别图像描述生成方法
CN113779938A (zh) * 2021-08-13 2021-12-10 同济大学 基于视觉与主题协同注意力的连贯性故事生成系统及方法
CN114972795A (zh) * 2021-12-30 2022-08-30 昆明理工大学 一种结合属性检测和视觉感知的民族服装图像字幕生成方法
CN116306796A (zh) * 2023-05-17 2023-06-23 北京智源人工智能研究院 模型自生长训练加速方法、装置、电子设备和存储介质
CN116596322A (zh) * 2023-07-17 2023-08-15 中电建物业管理有限公司 一种基于大数据可视化的物业设备管理方法及系统
CN113591874B (zh) * 2021-06-01 2024-04-26 清华大学 长时记忆增强的段落级别图像描述生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106846306A (zh) * 2017-01-13 2017-06-13 重庆邮电大学 一种超声图像自动描述方法和系统
CN107563409A (zh) * 2017-08-04 2018-01-09 汕头大学 一种基于区域图像特征关注网络与最近邻排序的描述方法
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
US20180144248A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
CN108564122A (zh) * 2018-04-10 2018-09-21 北京工业大学 基于卷积-循环混合网络的图像描述模型的一体化训练方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
US20180144248A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)
CN106846306A (zh) * 2017-01-13 2017-06-13 重庆邮电大学 一种超声图像自动描述方法和系统
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN107563409A (zh) * 2017-08-04 2018-01-09 汕头大学 一种基于区域图像特征关注网络与最近邻排序的描述方法
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
CN108564122A (zh) * 2018-04-10 2018-09-21 北京工业大学 基于卷积-循环混合网络的图像描述模型的一体化训练方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978139B (zh) * 2019-03-20 2021-06-04 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN109978139A (zh) * 2019-03-20 2019-07-05 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN109960747B (zh) * 2019-04-02 2022-12-16 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
CN109960747A (zh) * 2019-04-02 2019-07-02 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
CN110046226A (zh) * 2019-04-17 2019-07-23 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法
CN110046226B (zh) * 2019-04-17 2021-09-24 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN110084250A (zh) * 2019-04-26 2019-08-02 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110084250B (zh) * 2019-04-26 2024-03-12 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110347860B (zh) * 2019-07-01 2021-07-09 南京航空航天大学 基于卷积神经网络的深度图像描述方法
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法
US11341366B2 (en) 2020-03-30 2022-05-24 Beijing Baidu Netcom Science And Technology Co., Ltd. Cross-modality processing method and apparatus, and computer storage medium
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN111539355A (zh) * 2020-04-27 2020-08-14 东北电力大学 一种基于深层神经网络的光伏板异物检测系统及检测方法
CN112257465A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于图像描述生成的多模态机器翻译数据增强方法
CN112257465B (zh) * 2020-11-03 2023-08-08 沈阳雅译网络技术有限公司 一种基于图像描述生成的多模态机器翻译数据增强方法
CN113033636A (zh) * 2021-03-17 2021-06-25 济南国科医工科技发展有限公司 一种卵巢肿瘤自动鉴别系统
CN113033636B (zh) * 2021-03-17 2022-11-29 济南国科医工科技发展有限公司 一种卵巢肿瘤自动鉴别系统
CN113011202B (zh) * 2021-03-23 2023-07-25 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置
CN113011202A (zh) * 2021-03-23 2021-06-22 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置
CN113591874B (zh) * 2021-06-01 2024-04-26 清华大学 长时记忆增强的段落级别图像描述生成方法
CN113591874A (zh) * 2021-06-01 2021-11-02 清华大学 长时记忆增强的段落级别图像描述生成方法
CN113779938B (zh) * 2021-08-13 2024-01-23 同济大学 基于视觉与主题协同注意力的连贯性故事生成系统及方法
CN113779938A (zh) * 2021-08-13 2021-12-10 同济大学 基于视觉与主题协同注意力的连贯性故事生成系统及方法
CN113423004B (zh) * 2021-08-23 2021-11-30 杭州一知智能科技有限公司 基于解耦译码的视频字幕生成方法和系统
CN113423004A (zh) * 2021-08-23 2021-09-21 杭州一知智能科技有限公司 基于解耦译码的视频字幕生成方法和系统
CN114972795B (zh) * 2021-12-30 2023-04-07 昆明理工大学 一种结合属性检测和视觉感知的服装图像字幕生成方法
CN114972795A (zh) * 2021-12-30 2022-08-30 昆明理工大学 一种结合属性检测和视觉感知的民族服装图像字幕生成方法
CN116306796B (zh) * 2023-05-17 2023-09-15 北京智源人工智能研究院 模型自生长训练加速方法、装置、电子设备和存储介质
CN116306796A (zh) * 2023-05-17 2023-06-23 北京智源人工智能研究院 模型自生长训练加速方法、装置、电子设备和存储介质
CN116596322B (zh) * 2023-07-17 2023-10-31 中电建物业管理有限公司 一种基于大数据可视化的物业设备管理方法及系统
CN116596322A (zh) * 2023-07-17 2023-08-15 中电建物业管理有限公司 一种基于大数据可视化的物业设备管理方法及系统

Also Published As

Publication number Publication date
CN109447242B (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN109447242A (zh) 基于迭代学习的图像描述重生成系统及方法
Tao et al. A radical-aware attention-based model for chinese text classification
CN108921123A (zh) 一种基于双重数据增强的人脸识别方法
CN108536754A (zh) 基于blstm和注意力机制的电子病历实体关系抽取方法
CN109359538A (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
CN108664996A (zh) 一种基于深度学习的古文字识别方法及系统
CN110021051A (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN109829430A (zh) 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110390363A (zh) 一种图像描述方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN111984772A (zh) 一种基于深度学习的医疗影像问答方法及系统
Karimi et al. Persian handwritten digit recognition using ensemble classifiers
CN110276396A (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
Martinez-Martin et al. Deep learning techniques for Spanish sign language interpretation
Salim et al. Design & analyses of a novel real time kurdish sign language for kurdish text and sound translation system
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
Yang et al. Fast RF-UIC: a fast unsupervised image captioning model
CN116311477B (zh) 一种面向跨身份一致性的面部运动单元检测模型构建方法
CN110309510B (zh) 一种基于c-s和gru的看画题诗方法
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
Wei et al. Stack-vs: Stacked visual-semantic attention for image caption generation
Zhu et al. Fine-grained bidirectional attentional generation and knowledge-assisted networks for cross-modal retrieval
Chen et al. Improvement research and application of text recognition algorithm based on CRNN
Teng et al. End-to-End Model Based on Bidirectional LSTM and CTC for Online Handwritten Mongolian Word Recognition
Vora et al. Classification of Diverse AI Generated Content: An In-Depth Exploration using Machine Learning and Knowledge Graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant