CN110111399B - 一种基于视觉注意力的图像文本生成方法 - Google Patents

一种基于视觉注意力的图像文本生成方法 Download PDF

Info

Publication number
CN110111399B
CN110111399B CN201910334588.7A CN201910334588A CN110111399B CN 110111399 B CN110111399 B CN 110111399B CN 201910334588 A CN201910334588 A CN 201910334588A CN 110111399 B CN110111399 B CN 110111399B
Authority
CN
China
Prior art keywords
image
lstm
visual attention
layer
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910334588.7A
Other languages
English (en)
Other versions
CN110111399A (zh
Inventor
应捷
吴倩
胡文凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201910334588.7A priority Critical patent/CN110111399B/zh
Publication of CN110111399A publication Critical patent/CN110111399A/zh
Application granted granted Critical
Publication of CN110111399B publication Critical patent/CN110111399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于视觉注意力的图像文本生成方法,包括步骤S1:输入训练样本图像,获取训练样本图像的区域特征向量和区域空间特征向量;步骤S2:对训练样本图像的标注文本进行预处理,构建词汇库,并对词汇库中的单词进行编码得到每个单词的单词向量;步骤S3:将所述的训练样本图像的区域特征向量、区域空间特征向量和单词向量输入基于双向LSTM视觉注意力网络的图像语义理解模型,得到训练图像文本;步骤S4:通过反向传播算法优化训练所述的图像语义理解模型,得到最优模型;步骤S5:将测试图像输入所述最优模型得到测试图像文本。与现有技术相比,本发明能够结合历史信息和结合未来信息,并且能够在一定程度上修正之前关注的错误区域。

Description

一种基于视觉注意力的图像文本生成方法
技术领域
本发明涉及计算机视觉与图像理解领域,尤其是涉及一种基于视觉注意力的图像文本生成方法。
背景技术
图像文本描述任务是指以图像为对象,研究图像中的背景、物体、物体属性、物体间关系,并且生成具有一定结构的语句的工作。该领域的应用前景十分广泛,可用于图像检索、智能儿童早教机、智能机器人和辅助视觉障碍者等方面。近年来,研究人员针对图像文本描述问题提出了多种解决方案。
汤鹏杰、谭云兰、李金忠在大规模场景类别数据集上训练场景分类模型中的参数。同时,在大规模物体类别数据集上训练物体分类模型中的参数。然后将两个模型的参数迁移到文本描述模型中,用于捕捉图像中的背景、物体信息,并将其送入语言模型LSTM,最终生成图像的描述句子。
汤鹏杰、王瀚漓、许恺晟、首先使用浅层LSTM进行训练,收敛之后,保留原LSTM模型中的分类层及目标函数,并添加新的LSTM层及目标函数重新对模型进行训练,对模型原有参数进行微调,使用Softmax函数得到每层对单词的预测概率分值,最后将多层的概率分值进行加权融合,得到生成的单词。
刘畅、周向东、施伯乐、提出图像语义相似性神经网络,在递归神经网络的输出层之后添加全连接网络,引入图像间的视觉相似性和文本相似性信息,从而在预测图像的文本描述时保持相似图像的有效语义信息。
申请号为201611226528.6的专利提出了一种基于深度残差网络注意力的图像理解方法,使用深度残差网络提取图像的特征,利用前一时刻LSTM的隐含层和图像特征决定当前关注的区域,并由其引导LSTM生成新的单词。
申请号为201611236901.6的专利提出了一种使用知识迁移生成图像文本描述的方法。利用现成图像分类器以及语料库中的语法结构和语料关联,通过迁移学习更加准确的描述图像的内容。
申请号为201810748973.1的专利提出了一种基于图像相似性的图像标注语句自动生成方法。首先使用卷积神经网络提取图像的全局特征和局部特征,计算目标图像与训练图像的余弦相似度,寻找多个相似度较高的图像,根据其对应的文本生成目标图像的文本描述。
随着深度学习的发展,基于注意力机制的图像文本描述方法随之产生,并且取得了较大的成效。周治平、张威首先改进LSTM结构,并基于此设计了基于图像视觉语义属性的自适应注意力机制,模型根据上一时刻信息,自动选择下一时刻模型需要处理的图像区域。此外,构建了基于残差连接的stack-LSTM结构,能够联合图像视觉特征和语义特征对图像进行描述。
张威、周治平提出了一种结合图像动态语义指导和自适应注意力机制的图像描述模型。使用图像检索方法首先检索到与目标图像相似的图像语义描述,然后将该语句作为目标图像的指导信息。改进的注意力机制使用的不是均匀分割的图像,而是基于密度的图像信息。该模型可以联合图像语义信息和注意力信息进行图像内容描述。
徐守坤、周佳、李宁首先通过卷积神经网络得到图像特征,特征区域与文本标注序列匹配;然后通过注意力机制给标注词汇加权,结合空间特征提取损失函数得到基于空间特征注意力的图像文本描述。
申请号为201611207945.6的专利提出一种基于“视觉哨兵”门的自适应注意力模型,引入了一个新的LSTM产生额外的“视觉哨兵”向量,进一步得到哨兵门,由该哨兵门决定当前时刻生成的单词是依赖于视觉信息还是依赖于语言模型,从而生成完整的图像描述。
申请号为201710560024.6的专利提出了一种基于视觉显著性与语义属性跨模态的图像文本描述方法。首先使用预训练的显著性模型回归出图像的显著性图,并对原始图像进行加权。其次建立语义属性类别词典,对图像进行语言属性检测,使用多示例学习计算语义属性,并利用语义属性对图像特征加权。最后使用LSTM解码,产生图像的文本描述。
申请号为201710632600.3的专利提出了一种新型的注意模型进行图像字幕生成的方法。由卷积神经网络提取图像特征,递归神经网络生成对应字幕,嵌入显著度预测模型提高生成字幕的质量。其中,显著度预测模型通过显著图和语义分割结果决定。
申请号为201710806029.2的专利提出了一种融合视觉注意力和语义注意力的图像语义理解方法,该方法结合了图像到文本的转换,以及文本和文本之间的转换。利用视觉注意力模型产生图像的语义信息,将该语义信息和检测出的属性信息共同输入语义模型LSTM中预测新产生的单词。
申请号为201710806115.3的专利提出一种融合视觉注意力和语义注意力的图像文本生成方法。首先使用卷积神经网络提取图像的特征,同时将对应的文本通过LSTM获得时序信息。根据图像特征和时序信息生成视觉注意力模型。根据图像特征、时序信息和前一时刻单词生成语义注意力模型。使用这两个模型的注意力矩阵生成自动平衡测略,对LSTM模型进行修正,将生成的单词组合成图像的文本描述。
申请号为201710969648.3的专利提出了一种基于聚焦机制的深度神经网络图像标注方法,注意力集中的区域不仅由语言模型隐含层状态决定,而且由前一时刻的聚焦区域决定。聚焦权重加权后的图像特征输入语言模型LSTM中获得当前产生的单词,串联每个时刻的单词生成完整的语句。
申请号为201810684426.1的专利提出了一种基于属性增强注意力模型的图像描述方法。通过对属性词之间的相关关系进行建模,使得模型不仅能够通过图像信息预测属性词,而且能通过属性词之间的关系预测图像生成的文本。
基于注意力的图像语义理解模型被证明能够较好的生成图像的文本描述,但目前现有的模型只考虑前一时刻关注的信息,而没有结合后续时刻关注的信息。某个时刻关注的区域除了与语言模型的隐含状态有关,还有可能受到前后注意区域的影响。针对这个问题,本发明提出了一种结合前后信息的视觉注意力图像文本处理方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于视觉注意力的图像文本生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于视觉注意力的图像文本生成方法,该方法包括以下步骤:
步骤S1:输入训练样本图像,利用卷积神经网络获取训练样本图像的区域特征向量和区域空间特征向量;
步骤S2:输入训练样本图像的标注文本,对训练样本图像的标注文本进行预处理,构建词汇库,并对词汇库中的单词进行编码得到每个单词的单词向量;
步骤S3:将所述的训练样本图像的区域特征向量、区域空间特征向量和单词向量输入基于双向LSTM视觉注意力网络的图像语义理解模型,得到训练图像文本;
步骤S4:通过反向传播算法优化训练所述的图像语义理解模型,得到最优模型;
步骤S5:将测试图像输入所述最优模型得到测试图像文本。
步骤S1中卷积神经网络为InceptionV3,获取所述的区域特征向量和区域空间特征向量包括以下步骤:
步骤S11:输入训练样本图像,使用InceptionV3第一个全连接层前的部分得到区域特征向量;
步骤S12:将步骤S11中得到的特征向量再经过一个全连接层,得到区域空间特征向量。
步骤S2中单词向量获取步骤包括:
步骤S21:用空格替换标注文本中的标点符号;
步骤S22:用英文字符替换标注文本中的特殊字符;
步骤S23:将标注文本中的所有单词转换为小写形式;
步骤S24:设置句子的最大长度,删除长度大于最大长度的句子,对于长度小于最大长度的句子进行填充;
步骤S25:补充句子的开始和结束标签;
步骤S26:根据保留句子的全部单词构建词汇库;
步骤S27:利用独热编码和word embedding方法得到单词向量。
双向LSTM视觉注意力网络包括前向LSTM视觉注意力网络和后向LSTM视觉注意力网络,步骤S3包括:
步骤S31:将步骤S1得到的区域特征向量分别输入前向LSTM视觉注意力网络和后向LSTM视觉注意力网络,得到每个时刻前向LSTM视觉注意力网络和后向LSTM视觉注意力网络的隐含层特征向量;
步骤S32:将步骤S1得到的区域空间特征向量和所述的隐含层特征向量融合,融合后的结果通过全连接层和归一化层得到每个时刻前向LSTM视觉注意力网络和后向LSTM视觉注意力网络区域关注系数;
步骤S33:假设前向LSTM视觉注意力网络参与区域关注系数生成的比例为β,计算得到上下文向量Vt
步骤S34:建立双层LSTM神经网络,将所述的单词向量输入第一层LSTM神经网络,得到第一层每个时刻的隐含层特征向量;
步骤S35:将步骤S34得到的第一层每个时刻的隐含层特征向量和步骤S33得到的上下文向量Vt输入第二层LSTM神经网络,得到第二层每个时刻的隐含层特征向量;
步骤S36:步骤S35得到的第二层每个时刻的隐含层特征向量通过两个全连接层和softmax层,得到每个时刻对应的单词向量,根据单词向量与图像文本对应关系得到每个时刻对应的图像文本。
上下文向量Vt为:
Figure GDA0002091604880000051
其中,T为所述的双向LSTM视觉注意力网络单元数,L表示区域的个数,
Figure GDA0002091604880000052
和/>
Figure GDA0002091604880000053
分别为前向LSTM视觉注意力网络t时刻图像第i个区域的区域特征向量和区域关注系数,/>
Figure GDA0002091604880000054
Figure GDA0002091604880000055
分别为后向LSTM视觉注意力网络T-t时刻图像第i个区域的区域特征向量和区域关注系数。
步骤S4中反向传播算法的损失函数为:
Figure GDA0002091604880000056
其中,S0-St表示0-t时刻图像I的标定图像文本,N为训练样本图像大小,
Figure GDA0002091604880000057
为区域关注系数的正则项,λ为1。
双向LSTM视觉注意力网络的隐含层和存储细胞状态的初始值由输入图像的平均全局特征决定。
步骤S4中反向传播算法计算梯度时,使用Adam优化算法更新网络参数。
与现有技术相比,本发明具有以下优点:
(1)运用双向LSTM视觉注意力网络,双向LSTM视觉注意力网络包括前向LSTM视觉注意力网络和后向LSTM视觉注意力网络,能够结合历史信息和结合未来信息,实现注意力区域的动态提取,能够在一定程度上修正之前关注的错误区域,使得关注区域更加准确。本发明能有效的增强局部视觉区域与文本的联系,从而生成符合图像的文本描述。
(2)步骤S34使用两层LSTM,第一层LSTM实现对语言的进行初步建模以及单词向量的特征变换,第二层LSTM结合图像上下文得到图像对应的文本。这种结构能够减少有效信息的损失,更加准确的生成图像的文本描述。
(3)使用InceptionV3模型参数,减少了较大调参的个数,实际操作中很简便。
(4)使用Adam优化算法,计算效率高,所需内存少,梯度对角缩放的不变性,适合解决含大规模数据和参数的优化问题。
(5)使用反向传播训练模型,具有快速方便、容易实现的优点。
附图说明
图1为本发明流程图;
图2为本发明整体模型框架图;
图3为本发明中InceptionV3的结构图;
图4为本发明中LSTM单元结构图;
图5为本发明生成区域关注系数的流程图;
图6(a)-6(h)为本发明测试结果,其中图6(a)为输入原始图像,图6(b)-6(h)是根据原始图像在各个时刻生成的单词以及对应的聚焦区域示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
本发明提出了一种基于视觉注意力的图像文本生成方法,具体包括以下步骤:
步骤(1):提取图像特征。获取在Imagenet数据集上预训练的InceptionV3模型参数,使用该模型的卷积层提取图像的特征向量F,F={F1,F2,F3,...,Fl},Fi∈RD。即,将图像平均分为L个区域,每一个区域均是D维的向量。
步骤(2):预处理图像对应的标注文本。删除文本中的标点符号以及特殊字符,将句子中的单词全部转换成小写形式,并且用空格分隔句子中的每个单词。另外,设置句子的最大长度是19,删除句子长度大于19的句子,对于长度小于19的句子,用<null>进行填充。在每条语句的第一个单词之前加上<start>标签,在最后一个单词后面加上<end>标签。根据保留句子中出现的全部单词以及<null>、<start>、<end>建立词汇库,将词汇库中的每个单词转换成独热编码形式,再利用word embedding降维,得到每个单词对应的单词向量。
步骤(3):得到图像区域关注系数。将步骤(1)中得到的图像特征向量输入长度为20的双向长短期记忆网络(Long Short-Term Memory,LSTM)视觉注意力网络中,在每个LSTM单元后加上一个注意力机制获取图像L个区域分别对应的区域关注系数,并且设置前向区域关注系数与后向区域关注系数比例β。其中,注意力机制由LSTM的隐含层状态和输入的图像特征向量决定。由于图像被分为L个区域,因此每个时刻区域关注系数的维度是L,假设前向区域关注系数αf={α123,...,αl},αi∈R。
步骤(4):生成上下文向量。根据步骤(3)得到的区域关注系数和图像的特征向量F计算每个时刻的上下文向量。
步骤(5):得到每个时刻生成的单词。建立两层LSTM模型,将单词向量输入第一层LTSM中,每个时刻的隐含层向量除了输入到当前层的下一时刻,还与前一时刻得到的上下文向量一起输入到下一层LSTM。在第二层LSTM后设置两个全连接层和一个softmax层,用于输出产生的单词向量,并根据词汇表判断当前的图像文本。
本发明的有益效果在于:
(1)能够结合历史信息和结合未来信息,实现注意力区域的动态提取,能够在一定程度上修正之前关注的错误区域,使得关注区域更加准确。本发明能有效的增强局部视觉区域与文本的联系,从而生成符合图像的文本描述。
(2)使用两层LSTM构建语言模型,第一层LSTM实现对语言的进行初步建模以及单词向量的特征变换,第二层LSTM结合图像上下文进一步构建语言模型。这种结构能够减少有效信息的损失,更加准确的生成图像的文本描述。
如图1所示,本发明实现图像语义理解整体流程为:使用卷积神经网络提取图像的特征向量,并且将这些特征输入到双向LSTM视觉注意力网络中获得区域关注系数,根据区域关注系数和图像特征向量构建上下文向量。对标注文本进行预处理,获得词汇库,根据词汇库中单词的独热编码和词嵌入技术获得每个单词的向量表达。将上述处理得到的图像信息和文本信息输入双层的语言模型LSTM,根据LSTM隐含层向量得到每个时刻生成的图像文本。
本发明的整体流程可概括为以下六个部分:
1.图像预处理。
2.文本预处理。
3.将上述处理得到的图像信息与文本信息输入图像语义理解模型。
4.通过反向传播训练该模型。
5.输入几张测试集中图片,测试训练好的模型生成的文本表述。
6.根据测试集中的标定文本和模型生成的文本计算模型评价得分。
下面将详细描述这六个部分的具体实施方式。
1.图像预处理。图像的语义理解模型常采用卷积神经网络对图像进行编码,常见的编码模型有VGG19、ResNet、google的Inception系列模型等,在本例中使用的InceptionV3模型。具体处理步骤如下:
步骤(1):提取图像特征向量。获取在Imagenet数据集上预训练的InceptionV3模型参数,使用其第一个全连接层前的部分提取图像的特征F。
如图3所示,每张图像经过特征提取后得到的向量维数是64*2048。令图像的特征向量表示为:F={F1,F2,F3,...,Fl},Fi∈RD,那么,L=64,D=2048。即,将图像平均分为64个区域,每一个区域均是2048维的向量。
步骤(2):计算图像空间特征。将步骤(1)中得到的局部向量Fi经过一个全连接层,得到每个局部区域的空间特征向量Fi=WiFi,Wi∈RD那么每张图像的空间特征向量可表示为F'={F1',F2',F3',...,Fl'},Fi'∈RD
2.文本预处理。文本处理具体步骤如下:
步骤(1):替换图像标注文本中的标点符号。比如“,”、“.”、“’”、“””、“(”、“)”、“-”等全部替换为空格“”。
步骤(2):替换图像标注文本中的特殊字符。比如“&”替换成“and”。
步骤(3):将图像标注文本中的所有单词都转换成小写形式。
步骤(4):设置句子的最大长度是19,删除句子长度大于19的句子,对于长度小于19的句子,用<null>进行填充。
步骤(5):补充开始和结束。标签在每条语句的第一个单词之前加上<start>标签,在最后一个单词后面加上<end>标签。
步骤(6):构建词汇库。根据保留句子中出现的全部单词以及<null>、<start>、<end>建立词汇库,设定<null>标签序号为0,<start>标签序号为1,<end>标签序号为2,其他单词从3开始随机排序。本例中词汇库的大小为7224。
步骤(7):用向量表示词汇库中的单词。将每个单词表示为7224维的独热编码形式,并且利用word embedding技术降维,得到每个单词对应的向量表达。可表示为:
Figure GDA0002091604880000091
其中oi表示wi的独热编码,oi∈RV,V表示词汇库的大小,即7224;使用wordembedding降维得到Si,Si∈RM,M表示词嵌入向量的维度,在本例中为350。
3.将上述处理得到的图像信息与文本信息输入图像语义理解模型。经过图像预处理后得到的特征在图2中表示为Feature,经过文本预处理后得到的单词向量在图2中表示为S0,S1,S2,...,Sn-1。其中S1,S2,...,Sn-2分别表示一个句子中每个单词对应的词向量,S0,Sn-1分别表示<start>标签和<end>标签对应的向量。
如图2所示,生成图像的文本描述的过程包括以下两个方面:
a.根据图像预处理得到的特征向量F和空间特征向量Fi'获得每个局部区域的区域关注系数α,得到加权的图像特征,即上下文向量。
b.将上下文向量和2中得到的文本向量输入语言模型LSTM,根据LSTM隐含层得到每个时刻生成的单词。
a部分的具体实施方案如下:
步骤(1):得到LSTM隐含层向量。建立时间长度是T,隐含层向量维数是H的双向LSTM网络,将预处理得到的图像特征向量F输入双向LSTM中,得到每个时刻的隐含层特征向量。在本例中T=19,H=350。
为了方便理解,将前向网络命名为LSTM_att_f,后向网络命名为LSTM_att_b。LSTM_att_f和LSTM_att_b在t时刻得到的隐含层特征分别表示为
Figure GDA0002091604880000092
和/>
Figure GDA0002091604880000093
图4是本例中隐含层向量生成结构,F表示图像的平均特征向量,Ct-1和Ct分别表示t-1时刻和t时刻的细胞状态,ht-1和ht表示隐含状态。σ表示sigmoid函数,ft表示遗忘门函数,用于控制前一时刻细胞保留下来的信息;it表示输入门函数,用于更新当前时刻的信息;ot表示输出门函数,控制更新后细胞状态的输出。本例中,LSTM单元可以通过如下公式来计算t时刻隐藏状态h和细胞状态C:
ft=σ(Wf[ht-1,F]+bf)
it=σ(Wi[ht-1,F]+bi)
Ci=tanh(Wc[ht-1,F]+bc)
Ct=ft*Ct-1+it*Ci
ot=σ(Wo[ht-1,F]+bo)
ht=ot*tanh(Ct)
上述公式中Wf、Wi、Wo分别表示遗忘门、输入门、输出门的参数矩阵,bf、bi、bo分别为对应的偏置。*表示矩阵点乘。
步骤(2):生成区域关注系数α,具体过程如图5。
如图5所示,图中的上半部分和下半部分分别表示前向LSTM视觉注意力网络和后向LSTM视觉注意力网络中生成α的过程,图中变量分别以f和b后缀区别显示。前向LSTM视觉注意力网络中,h_att_f表示该时刻的输出隐含层状态,含有该时刻关注区域的信息,fc(F)代表图像的空间特征向量,融合两者得到新的h_att_f。将h_att_f经过一个单元数是64的全连接层和归一化层,得到某个区域关注的系数αi
其中,w_att的维数是D*1,得到的ef维数为L,经过归一化处理:
Figure GDA0002091604880000101
得到每个区域的权重αf={α123,...,αl},αi∈R。
后向LSTM视觉注意力网络生成αb与前向LSTM视觉注意力网络生成αf的过程相同。
步骤(3):得到加权的图像特征,即上下文向量Vt。因为双向LSTM视觉注意力网络单元数为T,假设前后向LSTM视觉注意力网络同时从0时刻开始训练,那么前向LSTM视觉注意力网络在t时刻生成的隐含状态应该与后向LSTM视觉注意力网络在T-t时刻相融合,用公式表示为:
Figure GDA0002091604880000102
Figure GDA0002091604880000103
令前向LSTM视觉注意力网络参与α生成的比例为β,那么t时刻重点关注的区域Vt为:
Figure GDA0002091604880000111
其中,T为所述的双向LSTM视觉注意力网络单元数,L表示将图像均分为L个区域,
Figure GDA0002091604880000112
和/>
Figure GDA0002091604880000113
分别为前向LSTM视觉注意力网络视觉注意力网络t时刻图像第i个区域的特征向量和区域关注系数,/>
Figure GDA0002091604880000114
和/>
Figure GDA0002091604880000115
分别为后向LSTM视觉注意力网络视觉注意力网络T-t时刻图像第i个区域的特征向量和区域关注系数。上述公式前半部分和后半部分分别是LSTM_att_f和LSTM_att_b产生的视觉关注区域,
其中,前后向LSTM视觉注意力网络的隐含层状态h0和存储细胞状态c0由输入图像的平均全局特征决定:
Figure GDA0002091604880000116
Figure GDA0002091604880000117
b部分的具体实施方案如下:
步骤(1):计算第一层LSTM隐含层向量。建立时间长度为20,隐含层数为350的双层LSTM。将预处理文本得到的单词向量分别输入LSTM的每个时刻,根据LSTM细胞更新的公式计算得到语言模型第一个层各时间节点的隐含层向量
Figure GDA0002091604880000118
步骤(2):计算第二层LSTM隐含层向量。分别连接每个时刻的
Figure GDA0002091604880000119
与a部分得到的上下文向量Vt,将其输入第二层LSTM,如图2,得到第二层各个时间节点的隐含层向量/>
Figure GDA00020916048800001110
步骤(3):生成每个时刻对应的单词向量。在第二层LSTM隐含层向量后分别连接两个全连接层,得到每个单词的独热编码形式,根据独热编码获得词汇表中对应的单词。在本例中,第一个全连接层单元数为350,第二个全连接单元数是7224。由每个时刻的隐含层向量
Figure GDA00020916048800001111
生成单词Yt的具体过程如下:
Figure GDA00020916048800001112
其中,在单词编码阶段,先采用独热编码得到V维向量,后采用embedding得到M维向量,因此生成Yt需要经过两个全连接fc1、fc2,由fc1得到一个M维向量rt,fc2得到一个V维的向量yt,yt经过归一化得到每个单词的概率pt,pt∈RV,在词汇表中取pt的最大值所对应单词作为最终输出Yt
4.通过反向传播训练该模型。针对一张图像I,训练模型的最终目的是得到模型中的最优参数θ*
Figure GDA0002091604880000121
上述公式中S表示图像I的标定描述,θ是模型中的自学习参数,训练时模型的损失函数为:
Figure GDA0002091604880000122
其中,S0-St表示0-t时刻图像I的标定图像文本,N为训练样本图像大小,
Figure GDA0002091604880000123
为区域关注系数α的正则项。上述公式前半部分表示交叉熵损失函数,后半部分表示注意力模型中α的正则项。当图像区域的权重预测正确,通过上下文信息能正确预测生成的文本时,损失函数会相对来说较小,当图像的关注区域定位不准确时,通过其上下文信息预测到错误的结果时,损失函数较大。本例在通过反向传播计算梯度时,更新网络参数时,使用Adam优化算法,Adam的参数设定为alpha=0.001、beta1=0.9、beta2=0.999。
5.输入几张测试集中图片,测试训练好的模型生成的文本表述。测试阶段与训练阶段的过程稍有不同,训练时模型会输入图像信息和文本信息,根据预测结果与标定信息的误差训练模型。但测试模型时,只输入图像信息,根据图像的信息依次生成文本。
在测试时,语言模型输入的第一个向量是<start>标签对应的向量以及通过注意力机制得到的上下文向量V1,根据这两个向量生成第一个单词Y1;将Y1对应的词嵌入向量与t=2时刻对应的上下文向量V2输入第二个LSTM单元,生成Y2;以此类推,最终得到一个完整的句子表达。
如图6所示,为本发明测试结果,图6(a)为输入原始图像,图6(b)-6(h)是根据原始图像在各个时刻生成的单词以及对应聚焦区域示意图,像素值接近255的区域表示聚焦区域。图6(b)是原始图像在第一时刻生成的单词a;图6(c)是原始图像在第二个时刻生成的单词dog,并且聚焦到图像中狗的位置;图6(d)、图6(e)中的聚焦区域与图像中的物体狗相关;图6(f)-6(h)中的聚焦区域与图像背景有关。在测试集上不仅能够生成准确的描述,而且能够对描述的区域给出更高的注意力,图中高亮区域表示注意力集中的地方。
6.根据测试集中的标定文本和模型生成的文本计算模型评价得分。
本发明中采用了BLEU和METEOR两种方法对生成的语句进行评价,MSCOCO已提供可下载的评估代码,只需要按照规定格式输入预测结果与标定结果即可。
BLEU表示候选语句与标定语句中n元组共同出现的程度,是一种基于精确度的评估方法,包括BLEU-1、BLEU-2、BLEU-3和BLEU-4。METEOR指标同时考虑了整个语料库上的准确率和召回率,其结果和人工判断的结果有较高相关性。这两种评价指标得分越高表示模型能够对图像进行更加准确的语义理解,生成的语句质量越好。
表1在Flickr8K数据集上的模型的评价得分比较
Figure GDA0002091604880000131
如表1所示,本发明在Flickr8k数据集上BLEU-1~BLEU-4和Meteor得分分别为:65.9、46.0、32.1、21.8、21.3。表中的对比模型均是该领域权威且正确率较高的模型,除了BLEU-1指数比hard-attention低以外,其他指数均高于其他模型。

Claims (7)

1.一种基于视觉注意力的图像文本生成方法,其特征在于,该方法包括以下步骤:
步骤S1:输入训练样本图像,利用卷积神经网络获取训练样本图像的区域特征向量和区域空间特征向量;
步骤S2:输入训练样本图像的标注文本,对训练样本图像的标注文本进行预处理,构建词汇库,并对词汇库中的单词进行编码得到每个单词的单词向量;
步骤S3:将所述的训练样本图像的区域特征向量、区域空间特征向量和单词向量输入基于双向LSTM视觉注意力网络的图像语义理解模型,得到训练图像文本;
步骤S4:通过反向传播算法优化训练所述的图像语义理解模型,得到最优模型;
步骤S5:将测试图像输入所述最优模型得到测试图像文本;
所述的双向LSTM视觉注意力网络包括前向LSTM视觉注意力网络和后向LSTM视觉注意力网络,步骤S3包括:
步骤S31:将步骤S1得到的区域特征向量分别输入前向LSTM视觉注意力网络和后向LSTM视觉注意力网络,得到每个时刻前向LSTM视觉注意力网络和后向LSTM视觉注意力网络的隐含层特征向量;
步骤S32:将步骤S1得到的区域空间特征向量和所述的隐含层特征向量融合,融合后的结果通过全连接层和归一化层得到每个时刻前向LSTM视觉注意力网络和后向LSTM视觉注意力网络区域关注系数;
步骤S33:假设前向LSTM视觉注意力网络参与区域关注系数生成的比例为β,计算得到上下文向量Vt
步骤S34:建立双层LSTM神经网络,将所述的单词向量输入第一层LSTM神经网络,得到第一层每个时刻的隐含层特征向量;
步骤S35:将步骤S34得到的第一层每个时刻的隐含层特征向量和步骤S33得到的上下文向量Vt输入第二层LSTM神经网络,得到第二层每个时刻的隐含层特征向量;
步骤S36:步骤S35得到的第二层每个时刻的隐含层特征向量通过两个全连接层和softmax层,得到每个时刻对应的单词向量,根据单词向量与图像文本对应关系得到每个时刻对应的图像文本。
2.根据权利要求1所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的步骤S1中卷积神经网络为InceptionV3,获取所述的区域特征向量和区域空间特征向量包括以下步骤:
步骤S11:输入训练样本图像,使用InceptionV3第一个全连接层前的部分得到区域特征向量;
步骤S12:将步骤S11中得到的特征向量再经过一个全连接层,得到区域空间特征向量。
3.根据权利要求1所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的步骤S2中单词向量获取步骤包括:
步骤S21:用空格替换标注文本中的标点符号;
步骤S22:用英文字符替换标注文本中的特殊字符;
步骤S23:将标注文本中的所有单词转换为小写形式;
步骤S24:设置句子的最大长度,删除长度大于最大长度的句子,对于长度小于最大长度的句子进行填充;
步骤S25:补充句子的开始和结束标签;
步骤S26:根据保留句子的全部单词构建词汇库;
步骤S27:利用独热编码和word embedding方法得到单词向量。
4.根据权利要求1所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的上下文向量Vt为:
Figure FDA0004159298010000021
其中,T为所述的双向LSTM视觉注意力网络单元数,L表示区域的个数,
Figure FDA0004159298010000022
和/>
Figure FDA0004159298010000023
分别为前向LSTM视觉注意力网络t时刻图像第i个区域的区域特征向量和区域关注系数,/>
Figure FDA0004159298010000024
和/>
Figure FDA0004159298010000025
分别为后向LSTM视觉注意力网络T-t时刻图像第i个区域的区域特征向量和区域关注系数。
5.根据权利要求4所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的步骤S4中反向传播算法的损失函数为:
Figure FDA0004159298010000031
其中,S0-St表示0-t时刻图像I的标定图像文本,N为训练样本图像大小,
Figure FDA0004159298010000032
为区域关注系数的正则项。
6.根据权利要求1所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述双向LSTM视觉注意力网络的隐含层和存储细胞状态的初始值由输入图像的平均全局特征决定。
7.根据权利要求1所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的步骤S4中反向传播算法计算梯度时,使用Adam优化算法更新网络参数。
CN201910334588.7A 2019-04-24 2019-04-24 一种基于视觉注意力的图像文本生成方法 Active CN110111399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910334588.7A CN110111399B (zh) 2019-04-24 2019-04-24 一种基于视觉注意力的图像文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910334588.7A CN110111399B (zh) 2019-04-24 2019-04-24 一种基于视觉注意力的图像文本生成方法

Publications (2)

Publication Number Publication Date
CN110111399A CN110111399A (zh) 2019-08-09
CN110111399B true CN110111399B (zh) 2023-06-30

Family

ID=67486633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910334588.7A Active CN110111399B (zh) 2019-04-24 2019-04-24 一种基于视觉注意力的图像文本生成方法

Country Status (1)

Country Link
CN (1) CN110111399B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472642B (zh) * 2019-08-19 2022-02-01 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
CN110717498A (zh) 2019-09-16 2020-01-21 腾讯科技(深圳)有限公司 图像描述生成方法、装置及电子设备
CN110796000B (zh) * 2019-09-18 2023-12-22 平安科技(深圳)有限公司 基于双向lstm的唇形样本生成方法、装置和存储介质
CN110610509B (zh) * 2019-09-18 2023-07-21 上海大学 可指定类别的优化抠图方法及系统
CN110717431B (zh) * 2019-09-27 2023-03-24 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法
CN112580658B (zh) * 2019-09-29 2024-03-12 中国移动通信集团辽宁有限公司 图像语义描述方法、装置、计算设备及计算机存储介质
CN110706302B (zh) * 2019-10-11 2023-05-19 中山市易嘀科技有限公司 一种文本合成图像的系统及方法
CN112732965A (zh) * 2019-10-28 2021-04-30 中国银联股份有限公司 基于图像描述生成的异常事件检测方法及检测系统
CN110851644A (zh) * 2019-11-04 2020-02-28 泰康保险集团股份有限公司 图像检索方法及装置、计算机可读存储介质、电子设备
CN111144410B (zh) * 2019-12-26 2023-08-04 齐鲁工业大学 一种跨模态的图像语义提取方法、系统、设备及介质
CN111402365B (zh) * 2020-03-17 2023-02-10 湖南大学 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN111581961B (zh) * 2020-05-06 2022-06-21 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN111950586B (zh) * 2020-07-01 2024-01-19 银江技术股份有限公司 一种引入双向注意力的目标检测方法
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质
CN112052906B (zh) * 2020-09-14 2024-02-02 南京大学 一种基于指针网络的图像描述优化方法
CN112257445B (zh) * 2020-10-19 2024-01-26 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN112215303B (zh) * 2020-11-05 2022-02-11 北京理工大学 一种基于自学属性的图像理解方法及系统
CN112183752B (zh) * 2020-12-01 2021-02-19 南京智谷人工智能研究院有限公司 一种基于自动示例选择的端到端多示例学习方法
CN112633008A (zh) * 2020-12-28 2021-04-09 中国石油大学(华东) 基于多特征注意力的卷积神经网络句子相似度计算方法
CN112949622B (zh) * 2021-04-08 2023-06-27 苏州大学 融合文本与图像的双模态性格分类方法及装置
CN113361250A (zh) * 2021-05-12 2021-09-07 山东师范大学 一种基于语义一致性的双向文本生成图像方法及系统
CN113240115B (zh) * 2021-06-08 2023-06-06 深圳数联天下智能科技有限公司 一种生成人脸变化图像模型的训练方法及相关装置
CN113128527B (zh) * 2021-06-21 2021-08-24 中国人民解放军国防科技大学 基于变换器模型和卷积神经网络的图像场景分类方法
CN113420680B (zh) * 2021-06-25 2022-10-28 中国人民解放军战略支援部队航天工程大学 一种基于gru注意力的遥感影像区域关注与文本生成方法
CN113515951B (zh) * 2021-07-19 2022-07-05 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN113792617B (zh) * 2021-08-26 2023-04-18 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN114972795B (zh) * 2021-12-30 2023-04-07 昆明理工大学 一种结合属性检测和视觉感知的服装图像字幕生成方法
CN114003758B (zh) * 2021-12-30 2022-03-08 航天宏康智能科技(北京)有限公司 图像检索模型的训练方法和装置以及检索方法和装置
CN115035351B (zh) * 2022-07-18 2023-01-06 北京百度网讯科技有限公司 基于图像的信息提取方法、模型训练方法、装置、设备及存储介质
CN115858847B (zh) * 2023-02-22 2023-06-23 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN109271537A (zh) * 2018-08-10 2019-01-25 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN109559799A (zh) * 2018-10-12 2019-04-02 华南理工大学 医学图像语义描述方法、描述模型的构建方法及该模型
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN109271537A (zh) * 2018-08-10 2019-01-25 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN109559799A (zh) * 2018-10-12 2019-04-02 华南理工大学 医学图像语义描述方法、描述模型的构建方法及该模型
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法

Also Published As

Publication number Publication date
CN110111399A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110111399B (zh) 一种基于视觉注意力的图像文本生成方法
CN109543180B (zh) 一种基于注意力机制的文本情感分析方法
CN111160467B (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN110929092B (zh) 一种基于动态注意力机制的多事件视频描述方法
CN110232186A (zh) 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN112818159A (zh) 一种基于生成对抗网络的图像描述文本生成方法
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN110490254B (zh) 一种基于双重注意力机制层次网络的图像语义生成方法
CN111444968A (zh) 一种基于注意力融合的图像描述生成方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN111460883B (zh) 基于深度强化学习的视频行为自动描述方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
Zhu et al. Multi-scale temporal network for continuous sign language recognition
CN114625882B (zh) 提高图像文本描述独特多样性的网络构建方法
CN116206596A (zh) 一种垂类领域端到端语音识别方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant