CN110458282B - 一种融合多角度多模态的图像描述生成方法及系统 - Google Patents

一种融合多角度多模态的图像描述生成方法及系统 Download PDF

Info

Publication number
CN110458282B
CN110458282B CN201910721397.6A CN201910721397A CN110458282B CN 110458282 B CN110458282 B CN 110458282B CN 201910721397 A CN201910721397 A CN 201910721397A CN 110458282 B CN110458282 B CN 110458282B
Authority
CN
China
Prior art keywords
sentence
image
features
image description
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910721397.6A
Other languages
English (en)
Other versions
CN110458282A (zh
Inventor
杨振宇
张姣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201910721397.6A priority Critical patent/CN110458282B/zh
Publication of CN110458282A publication Critical patent/CN110458282A/zh
Application granted granted Critical
Publication of CN110458282B publication Critical patent/CN110458282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种融合多角度多模态的图像描述生成方法及系统,所述方法包括以下步骤:接收待描述图像,提取所述图像的全局视觉特征和局部视觉特征并进行融合,得到融合视觉特征;采用单层长短期记忆网络,将融合视觉特征作为输入,得到第一句图像描述;根据第一句图像描述生成第一句语义向量;采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述第一句语义向量作为输入,生成下一句图像描述句子,进而得到完整的图像描述。本发明融合视觉特征和文本语义特征两种模态,并结合注意力机制,实现了图像的多角度全面描述。

Description

一种融合多角度多模态的图像描述生成方法及系统
技术领域
本发明属于图像处理技术领域,尤其涉及一种融合多角度多模态的图像描述生成方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
近年来,自然语言处理(NLP)和计算机视觉(CV)领域在分析和生成文本以及理解图像和视频方面取得了巨大的进步。日常工作中对于需要结合语言和视觉信息的场景很多,例如在报纸文章的背景下解读照片等。除此之外,网络还提供了大量的语言和视觉信息相结合的数据:标签照片,报纸插图,带有字幕的视频以及社交媒体上的多模式信息。在这些场景下,自动图像描述已经成为关键任务。这项任务涉及分析图像视觉内容,并生成文字描述(通常是一个句子),用语言表达图像最显着的方面,而好的图像描述需要全面的图像理解。传统的图像描述方法对于图像描述内容角度单一,内容匮乏,不能充分地描述图像中所展现的内容。
发明内容
为克服上述现有技术的不足,本发明提供了一种融合多角度多模态的图像描述生成方法及系统,该方法从文本和图像两个模态进行信息挖掘,基于融合的语义向量和视觉特征生成描述语句,并且,引入了注意力机制来提高模型的学习能力和描述效果。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种融合多角度多模态的图像描述生成方法,包括以下步骤:
接收待描述图像,提取所述图像的全局视觉特征和局部视觉特征并进行融合,得到融合视觉特征;
采用单层长短期记忆网络,将融合视觉特征作为输入,得到第一句图像描述;
根据第一句图像描述生成第一句语义向量;
采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述第一句语义向量作为输入,生成下一句图像描述句子,进而得到完整的图像描述。
一个或多个实施例提供了一种融合多角度多模态的图像描述生成系统,包括:
视觉特征提取模块,接收待描述图像,提取所述图像的全局视觉特征和局部视觉特征并进行融合,得到融合视觉特征;
句子生成模块,采用单层长短期记忆网络,将融合视觉特征作为输入,得到第一句图像描述;
句子再生成模块,根据第一句图像描述生成第一句语义向量;采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述第一句语义向量作为输入,生成下一句图像描述句子,进而得到完整的图像描述。
一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的融合多角度多模态的图像描述生成方法。
一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,用于指纹图谱相似度计算,该程序被处理器执行时实现所述的融合多角度多模态的图像描述生成方法。
以上一个或多个技术方案存在以下有益效果:
本发明提出了一种融合多角度多模态的图像描述生成方法,从文本和图像两个模态进行信息挖掘,融合语义向量和视觉特征,并以此来生成描述语句,多模态表示学习通过多模态之间的互补性,能够剔除模态间的冗余性,学习更好的特征表示;并且,在预测描述语句时,引入了注意力机制进行端到端的训练来提高模型的学习能力,通过注意力机制衡量图像上不同区域的注意力分布,从而能够从多个角度对图像进行信息的挖掘,生成多角度的全面的图像描述语句。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为一个图像描述示例;
图2为本发明一个或多个实施例中融合多角度多模态的图像描述生成方法模型架构图;
图3为本发明一个或多个实施例中句子编码器结构示意图;
图4为网络VGG16,VGG19和Inception-resnet三个网络模型的图像特征提取的可视化结果示例;
图5为基于全局图像和基于局部图像整体模型的测试图片的描述效果;
图6为本文模型的图片描述效果示例图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
如图1所示,有人会看到穿蓝色上衣,带着蓝色棒球帽的大人,有人看到拿着玩偶的小朋友,有人看到成人旁边的红色轿车,有人看到红色轿车旁边的白色小轿车,人们看到的这些场景都是图像上展现的画面,只是观察角度不同。图1中(a)-(d)分别为从图中识别出的不同对象,针对图1的相应描述语句可以包括:
1.a man in a blue shirt playing frisbee with a little boy in thepark.
2.a red car beside the man dressing a blue shirt in the park.
3.a little boy holding a toy in the park.
4.a white beside the tree in the park.
本实施例的目的就是从多个角度,结合图像和文本两个模态来学习完整地图像描述,从而充分的表达出图像中所包含的内容。基于此,本实施例公开了一种融合多角度多模态的图像描述生成方法,如图2所示,包括以下步骤:
步骤1:接收待描述图像,对所述图像进行编码,提取全局特征和局部特征并进行融合;
具体地,我们使用深度残差网络Inception-resnet对图像的全局特征进行提取。使用RetinaNet网络对图像特定候选区域的局部特征进行提取。使用注意力机制将两个特征相融合,得到最佳的融合特征。
图像特征的融合对于图像表示非常重要。全局特性通常包含对象周围的上下文信息,局部图像包含对象的细粒度信息。得益于深度残差网络Inception-resnet在图像分类上的强大能力以及深度网络RetinaNet在图像目标识别的强大能力。我们利用深度残差网络Inception-resnet提取图像的全局图像特征,使用残差结构的RetinaNet网络提取图像的局部特征。通过特征变换,将他们转换为统一大小的特征向量。通过视觉注意力将两者进行融合,输入到基线语言生成模型,生成第一句图像描述。图像编码的实现过程如下:
全局图像特征:对于图像的全局特征Hi,c(x),我们使用Inception-resnet进行了全局图像特征提取训练。我们提取Inception-resnet最后池化层的1×1×1792维图像特征。然后通过特征变换重新调整为统一的1×1×1024维的特征大小:Hi,c(x)={x1,x2,...xL},xi∈RD。其中L表示特征向量的个数,D表示特征向量的维数。此输出将与RetinaNet网络的输出在视觉注意力模块进行特征融合。
局部图像特征:对于局部图像特征Ibox,我们使用网络RetinaNet网络提取候选区域的局部图像特征。我们主要使用ROI Pooling区域的图像特征。RetinaNet是残差网络ResNet和金字塔网络FPN的结合。在提高准确率的同时能更好地检测小目标,能提取高质量、细粒度的图像特征。我们选取最大池化层1×1×1024维的图像特征为输入嵌入向量:Ibox={Ibox1,Ibox2,...Iboxn}。其中boxn表示特征向量的个数。
局部与全局图像特征的融合:本文采用视觉注意力机制来融合这两种特征:
Figure BDA0002157345990000051
其中
Figure BDA0002157345990000052
表示每个图像特征在时间t的注意力权重,且
Figure BDA0002157345990000053
这种注意力机制通过给每个特征分配一个权重
Figure BDA0002157345990000054
动态地进行加权。通过这种方式,我们的方法可以在不同的时间选择性地集中在不同的对象上,并能同时考虑它们的上下文信息。注意权重
Figure BDA0002157345990000055
测量每个特征在时间t时的重要程度以及每个特征与先前信息的相关性。因此,可以基于先前的信息和每个特征Vi∈{Hi,c(x),Ibox1,Ibox2,...Iboxn}采用下面的公式来计算权重:
Figure BDA0002157345990000056
Figure BDA0002157345990000057
其中,
Figure BDA0002157345990000061
表示特征Vi与单词的关联评分。权重
Figure BDA0002157345990000062
是通过用SoftMax回归对
Figure BDA0002157345990000063
进行归一化得到的。
Figure BDA0002157345990000064
是隐藏状态输出。Wt,Wh,b是由模型学习,且在所有时间步骤中由所有特征共享的参数。Tanh是我们的激活函数。
为了有效说明本文所提融合图像特征在图像描述生成的有效性,我们做了大量的对比试验。具体实验结果可在实验效果部分进行查看。
步骤2:采用单层的长短期记忆网络LSTM语言模型生成第一个完整的描述语句。
一般来说,多句话中的第一句包含图片中的概要信息和高级信息。因此,我们采用了比较流行的基于长短期记忆网络(LSTM)语言生成模型。我们通过视觉注意力改进了以往语言生成模型的输入向量,而不是单纯的使用深度卷积神经网络提取的图像特征作为输入。所述步骤2具体包括:
步骤2.1:在输入LSTM之前,利用一个全连接层对融合视觉特征向量进行变换,使其与词嵌入具有相同的维数;
步骤2.2:我们使用单层的LSTM用于句子解码,LSTM的隐藏状态和cell的初始值都设为零。该模型通过将图像数据和相应的描述语句作为训练数据进行学习得到。
该模型主要以图像编码器学习的融合视觉特征作预测第一句话的第一个词的初始输入,进行下一个单词的预测。继而生成图片的第一句描述。具体地,采用单层长短期记忆网络,首先将融合视觉特征作为输入,将预测得到的句子中的第一个词记为第一句图像描述的第一个词;将第一个词与融合视觉特征作为输入,将本次预测得到的句子中的第一个词记为第一句图像描述的第二个词;将第一个词、第二个词和融合视觉特征作为输入,将本次预测得到的句子中的第一个词记为第一句图像描述的第三个词;以此类推,预测得到第一句图像描述。
在本文所使用的所有LSTM模块中,字嵌入的维度和隐藏状态的维度分别是512和1024。
步骤3:根据第一句图像描述生成语义向量;采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述语义向量作为输入,生成下一句图像描述句子。具体包括:
步骤3.1:先将生成的第一句图像描述输入句子编码器模型,提取句子中重要的词向量,生成句子的语义向量。
句子编码器用于从文本描述中提取语义向量。本文提出了两种著名的文本编码器。第一个是双向长短期记忆网络(Bi-LSTM)。其可以比传统的定向LSTM更好地编码上下文信息。第二个是使用一维卷积神经网络用于句子编码。
在Bi-LSTM中,每个单词对应于两个隐藏状态,一个方向对应于一个。对于生成的首句
Figure BDA0002157345990000071
我们首先用独热向量将每一个词wt嵌入到向量集et中,然后使用双向的Bi-LSTM对整个表达式进行编码。每个单词的最后隐藏表示是隐藏向量在两个方向上的级联。这个隐向量包含了以wt为中心的整个句子的信息。可用以下公式进行表示:
et=embedding(wt) (4)
Figure BDA0002157345990000072
Figure BDA0002157345990000073
Figure BDA0002157345990000074
但是在一句话中,并不是每个词都能平等地表达句意。比如图1语句中的“man”,“woman”,“snow”这些词。因此,我们引入注意机制来提取对句子意义重要的词。然后将这些信息词的表示集合起来,形成句子特征向量。为了使神经网络能自动地将“注意力”放在这些词汇上,我们设计了基于单词的注意力模型。其计算公式如下:
ut=tanh(Wwht+bw) (8)
Figure BDA0002157345990000075
Figure BDA0002157345990000081
也就是说,我们首先通过单层的MLP输入ht,以获得ut,即为ht的隐藏表示。我们用单词级上下文向量uw和ut的相似度度量单词的重要性。并通过一个Softmax函数得到一个归一化的权重αt来计算每个单词的重要性。然后,我们通过对双向Bi-LSTM的输出进行加权平均得到每个句子的表示。结构图如图3所示。
本实施例将一维卷积神经网络应用于句子编码。我们的CNN模型将512维单词嵌入作为输入,并具有三个卷积层,以学习分层特征。每个卷积层具有核大小3、步长1和1024个特征信道。最大池化操作被应用于从每个卷积层提取的特征映射ui,产生1024维特征向量。最后一句特征是将不同层次的特征向量连在一起:u=[u1,u2,...un]。我们在实验部分对提出的这两个编码器网络的实验效果进行了比较。
将生成的第一个句子向量和特定候选区域的局部图像特征作为输入,依次生成多条语句。
步骤3.2:结合局部视觉特征和句子语义向量的联合输入到采用基于注意力的长短期记忆网络A-LSTM语言生成模型,生成下一句图像描述句子生成。以此类推,继而生成多个描述句子。
我们使用注意力机制构造句子解码器。句子解码器是一个叠加的两层LSTM模型。局部图像特征向量被转换为2层LSTM的初始输入。将特定候选区域的局部视觉特征和先前生成的第一个句子向量表示进行融合,并将其作为句子解码器的多模态输入,生成下一个描述句子。前面句子的学习编码过程引导我们的模型生成下一个句子。我们重复这一过程,直到达到生成句子个数的预设上限。具体地,采用基于注意力的长短期记忆网络,将第一句语义向量和局部视觉特征作为输入,预测得到第二句图像描述;根据第二句图像描述生成第二句语义向量,将第一句语义向量、第二句语义向量和局部视觉特征作为输入,预测得到第三句图像描述;以此类推,直至预测的描述句子数量达到设定阈值,从而生成完整的图像描述。
为了使不同的句子聚焦于不同的图像区域,捕捉句子之间的依赖关系,我们采用了一种注意机制模型。前句的语义特征和区域视觉表示是通过一个完全连接的层和一个Softmax层来提供的,从而得到图像区域的注意力分布。首先,我们将区域上的注意力权重计算为:
a=WattTanh(Wvv+Wss) (11)
其中
Figure BDA0002157345990000091
是由图像编码器学习的区局部视觉特征。
Figure BDA0002157345990000092
表示第一句描述的向量编码。Watt∈R1×k
Figure BDA0002157345990000093
是注意力网络的参数。dv=1024是区域视觉特征的维度。ds=2048是句子特征的维度(ds=2048用于Bi-LSTM编码器。ds=3072用于CNN句子编码器)。接下来,我们对所有区域进行标准化,以获得注意力分布:
Figure BDA0002157345990000094
其中ai是向量a中的第i个向量。最后,我们计算加权视觉表示:
Figure BDA0002157345990000095
句子解码器的初始输入是特定候选区域的局部图像特征和句子语义特征向量的联合加权表示。当生成不同的句子时,注意力模型基于前面句子的上下文来关注图像的不同区域。然后过滤出与当前句子不相关的特征或区域。模型不能直接看到句子编码,因此对于语义输入不太可能过度拟合。对于有和没有注意模块的模型表达效果,可以在实验分析部分看到性能比较。
实施例二
本实施例的目的是提供一种融合多角度多模态的图像描述生成系统。
为了实现上述目的,本实施例提供了一种融合多角度多模态的图像描述生成系统,包括:
视觉特征提取模块,接收待描述图像,提取所述图像的全局视觉特征和局部视觉特征并进行融合,得到融合视觉特征;
句子生成模块,采用单层长短期记忆网络,将融合视觉特征作为输入,得到第一句图像描述;
句子再生成模块,根据第一句图像描述生成第一句语义向量;采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述第一句语义向量作为输入,生成下一句图像描述句子,进而得到完整的图像描述。
实施例三
本实施例的目的是提供一种电子设备。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
接收待描述图像,提取所述图像的全局视觉特征和局部视觉特征并进行融合,得到融合视觉特征;
采用单层长短期记忆网络,将融合视觉特征作为输入,得到第一句图像描述;
根据第一句图像描述生成第一句语义向量;
采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述第一句语义向量作为输入,生成下一句图像描述句子,进而得到完整的图像描述。
实施例四
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行以下步骤:
接收待描述图像,提取所述图像的全局视觉特征和局部视觉特征并进行融合,得到融合视觉特征;
采用单层长短期记忆网络,将融合视觉特征作为输入,得到第一句图像描述;
根据第一句图像描述生成第一句语义向量;
采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述第一句语义向量作为输入,生成下一句图像描述句子,进而得到完整的图像描述。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
实验结果
为了验证本文方法相比于其他模型在图像描述上的独特性能,我们进行了大量的实验。我们针对图像特征编码模块和句子解码模块两个模型,分别进行了相关的实验验证。
1.全局图像特征、局部图像特征和图像特征融合的对比试验:为验证图像的全局特征和局部细粒度特征对图像描述生成的重要作用,通过评估图像描述生成的第一句描述,我们进行了多组对比试验。为了公平比较,我们都是用基于长短期记忆网络(LSTM)的语言生成模型来生成第一句描述。这一过程主要包括以下几个部分:
(1)只使用深度网络提取的全局图像特征H_(i,c)(x)来生成图像描述内容的第一句话。我们使用网络VGG16、VGG19和Inception-resnet分别进行了对比实验。如表2所示。我们提取VGG16的fc7层的4096维图像特征、VGG19的fc7层的图像特征和Inception-resnet最后池化层的1×1×1792维图像特征。通过特征转换调整为统一的输入大小,并用于LSTM的初始输入。我们还展示了三个网络模型的图像特征提取的可视化结果。如图4中(a)-(c)所示。基于该全局图像特征的模型生成图片描述的结果图示例,针对图5的全局图像特征生成的第一句话为“a group ofpeople standing on top of a snow covered slope”。
从表1中可以看出,使用网络VGG16和VGG19的图像编码器的模型,在整个模型的流行评分指标上的数值相差很少。但是采用Inception-resnet网络在模型的评分上取得了不错的评分。所以最终的图像编码器本文采用网络Inception-resnet进行全局图像特征的提取。
表1对于模型生成的第一句话,采用网络VGG16、VGG19和Inception-resnet这三个不同的基于全局图像特征的图像编码器在整个模型的评分对比试验。
Figure BDA0002157345990000121
(2)只使用深度区域检测网络提取的局部细粒度图像特征Ibox={Ibox1,Ibox2,...Iboxn}来生成图像内容描述的第一句话。我们使用图像局部特征提取网络Faster-RCNN和RetinaNet网络分别进行了对比试验。我们提取候选区域的局部图像特征,主要使用ROIPooling区域的图像特征。如表3所示。基于局部图像特征模型的图片描述,针对图5为“aman dressed in black coat”。
从表2中,我们可以看到基于局部图像特征和基于全局图像特征的模型相比,评估得分没有低很多。有时候的评分还会高一点。使用网络RestinaNet的效果整体上看比使用Faster-RCNN网络的评分要高一些。测试集图片生成的描述更具有针对性,更详细。所以本文的最终模型采用网络RestinaNet进行局部图像特征提取。
表2对于模型生成的第一句话,使用网络Faster-RCNN和RetinaNet这两个不同的基于局部图像特征的图像编码器在整个模型评分上对比试验
Figure BDA0002157345990000131
(3)使用图像全局与局部的融合特征yt来生成图像描述内容的第一句话。我们使用网络Inception-resnet提取的全局图像特征和RetinaNet提取的局部图像特征的融合特征进行了模型训练。对以上模型进行的对比如表3所示。
从表3中,我们发现基于融合图像特征的评分效果比基于全局或者局部图像特征的评分结果高很多。通常我们注重图像中重要的对象,但是细小对象也许是不能忽视的。基于融合特征的编码方法可以获得最佳性能。
表3对于模型生成的第一句话,基于全局特征、局部特征以及与融合图像特征的图像描述语句的比较试验结果。
Figure BDA0002157345990000132
Figure BDA0002157345990000141
2.在句子再生成模型部分:为了比较,我们重新复现了两个图像描述的基线模型。对于所有模型,我们使用相同的预先训练的RetiaNet局部图像特征编码器。由于Bi-LSTM编码在实验中比卷积编码取得了更好的性能,所以我们的最终模型采用了Bi-LSTM语句编码。我们还实现了一个没有注意模块的基线模型。在不加注意力的语句再生成模型中,语句编码器所学习的文本语义编码被用作句子解码器的初始隐藏状态和单元状态。
从表4中我们可以看到,我们的最后一个带有注意力的模型在所有评估指标中都比基线模型有显著的改进。此外,尽管分层模型取得了相当高的评价分数,但生成的描述内容单一、缺乏针对性、内容宽泛。相比之下,我们所提出的模型生成的描述包含多个对象,内容丰富,清晰明确。如图6,图中(a)-(d)分别为从该图像中识别出的不同对象,采用本方法针对该图像生成的描述如下:
Captions for image:little baby playing bear each other standing ontop of grass.
1)a baby dressing in white T-shirt with a little teddy bear.
2)a baby in the middle with a bread.
3)a baby dressing a pink trouser with a big teddy bear.
4)three babies standing in green grass with a stuffed animal
表4我们的模型与两个基线模型进行比较:使用BLEU,Meteor和CIDER指标对测试集生成的报告进行评估
Figure BDA0002157345990000142
Figure BDA0002157345990000151
以上一个或多个实施例具有以下技术效果:
从文本和图像两个模态进行信息挖掘,融合语义向量和视觉特征,并以此来生成描述语句,多模态表示学习通过多模态之间的互补性,能够剔除模态间的冗余性,学习更好的特征表示;并且,在预测描述语句时,引入了注意力机制进行端到端的训练来提高模型的学习能力,通过注意力机制衡量图像上不同区域的注意力分布,从而能够从多个角度对图像进行信息的挖掘,生成多角度的全面的图像描述语句。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种融合多角度多模态的图像描述生成方法,其特征在于,包括以下步骤:
接收待描述图像,提取所述图像的全局视觉特征和局部视觉特征并进行融合,得到融合视觉特征;
采用单层长短期记忆网络,将融合视觉特征作为输入,得到第一句图像描述;
根据第一句图像描述生成第一句语义向量;
采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述第一句语义向量作为输入,生成下一句图像描述句子,进而得到完整的图像描述;所述基于注意力的长短期记忆网络为两层长短期记忆网络,每一次预测所采用的前句语义向量和局部视觉特征均通过一个全连接层和一个Softmax层,得到在图像上区域的注意力分布。
2.如权利要求1所述的一种融合多角度多模态的图像描述生成方法,其特征在于,提取所述图像的全局视觉特征和局部视觉特征并进行融合具体包括:
利用深度残差网络Inception-resnet提取图像的全局特征;
使用残差结构的RetinaNet网络提取图像的局部特征;
将全局特征和局部特征进行特征变换,转换为统一大小的特征向量;
通过视觉注意力机制将转换后的全局特征和局部特征进行融合。
3.如权利要求2所述的一种融合多角度多模态的图像描述生成方法,其特征在于,通过视觉注意力机制为每个全局视觉特征和局部视觉特征进行权重分配,对所有全局视觉特征和局部视觉特征加权求和得到融合视觉特征。
4.如权利要求1所述的一种融合多角度多模态的图像描述生成方法,其特征在于,所述单层长短期记忆网络通过将图像数据和相应的描述语句作为训练数据进行学习得到;采用单层长短期记忆网络生成第一句图像描述包括:
利用一个全连接层对融合视觉特征进行变换,使其与词嵌入具有相同的维数;
采用单层长短期记忆网络,首先将融合视觉特征作为输入,将预测得到的句子中的第一个词记为第一句图像描述的第一个词;将第一个词与融合视觉特征作为输入,将预测得到的句子中的第一个词记为第一句图像描述的第二个词;将第一个词、第二个词和融合视觉特征作为输入,将预测得到的句子中的第一个词记为第一句图像描述的第三个词;以此类推,预测得到第一句图像描述。
5.如权利要求1所述的一种融合多角度多模态的图像描述生成方法,其特征在于,根据第一句图像描述生成第一句语义向量采用双向长短期记忆网络或一维卷积神经网络。
6.如权利要求1所述的一种融合多角度多模态的图像描述生成方法,其特征在于,采用基于注意力的长短期记忆网络生成完整的图像描述包括:
采用基于注意力的长短期记忆网络,将第一句语义向量和局部视觉特征作为输入,预测得到第二句图像描述;根据第二句图像描述生成第二句语义向量,将第一句语义向量、第二句语义向量和局部视觉特征作为输入,预测得到第三句图像描述;以此类推,直至预测的描述句子数量达到设定阈值,从而生成完整的图像描述。
7.一种用于权利要求1-6任一所述的融合多角度多模态的图像描述生成方法的生成系统,其特征在于,包括:
视觉特征提取模块,接收待描述图像,提取所述图像的全局视觉特征和局部视觉特征并进行融合,得到融合视觉特征;
句子生成模块,采用单层长短期记忆网络,将融合视觉特征作为输入,得到第一句图像描述;
句子再生成模块,根据第一句图像描述生成第一句语义向量;采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述第一句语义向量作为输入,生成下一句图像描述句子,进而得到完整的图像描述。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的融合多角度多模态的图像描述生成方法。
9.一种计算机可读存储介质,其上存储有计算机程序,用于指纹图谱相似度计算,其特征在于,该程序被处理器执行时实现如权利要求1-6任一项所述的融合多角度多模态的图像描述生成方法。
CN201910721397.6A 2019-08-06 2019-08-06 一种融合多角度多模态的图像描述生成方法及系统 Active CN110458282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910721397.6A CN110458282B (zh) 2019-08-06 2019-08-06 一种融合多角度多模态的图像描述生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910721397.6A CN110458282B (zh) 2019-08-06 2019-08-06 一种融合多角度多模态的图像描述生成方法及系统

Publications (2)

Publication Number Publication Date
CN110458282A CN110458282A (zh) 2019-11-15
CN110458282B true CN110458282B (zh) 2022-05-13

Family

ID=68485073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910721397.6A Active CN110458282B (zh) 2019-08-06 2019-08-06 一种融合多角度多模态的图像描述生成方法及系统

Country Status (1)

Country Link
CN (1) CN110458282B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969137A (zh) * 2019-12-10 2020-04-07 杭州群核信息技术有限公司 家居图像描述生成方法、装置、系统及存储介质
CN111191649A (zh) * 2019-12-31 2020-05-22 上海眼控科技股份有限公司 一种识别弯曲多行文本图像的方法与设备
CN111274995B (zh) * 2020-02-13 2023-07-14 腾讯科技(深圳)有限公司 视频分类方法、装置、设备和计算机可读存储介质
CN111444367B (zh) * 2020-03-24 2022-10-14 哈尔滨工程大学 一种基于全局与局部注意力机制的图像标题生成方法
CN111753825A (zh) * 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、系统、介质及电子设备
CN111640112B (zh) * 2020-06-11 2021-04-16 云从科技集团股份有限公司 图像检测方法、系统、平台、设备及介质、图像处理装置
CN111859005B (zh) * 2020-07-01 2022-03-29 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN111860235B (zh) * 2020-07-06 2021-08-06 中国科学院空天信息创新研究院 高低层特征融合的注意力遥感图像描述的生成方法及系统
CN111949824B (zh) * 2020-07-08 2023-11-03 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质
CN111931840A (zh) * 2020-08-04 2020-11-13 中国建设银行股份有限公司 一种图片分类的方法、装置、设备及存储介质
CN111916207B (zh) * 2020-08-07 2023-08-08 杭州深睿博联科技有限公司 一种基于多模态融合的疾病识别方法及装置
CN111988668B (zh) * 2020-08-28 2021-06-08 腾讯科技(深圳)有限公司 一种视频推荐方法、装置、计算机设备及存储介质
CN112163374B (zh) * 2020-09-27 2024-02-20 中国地质调查局自然资源综合调查指挥中心 一种多模态数据中间层融合全连接地质图预测模型的处理方法
CN112328782B (zh) * 2020-11-04 2022-08-09 福州大学 一种融合图像过滤器的多模态摘要生成方法
CN112528989B (zh) * 2020-12-01 2022-10-18 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112597278A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 一种语义信息融合方法、装置、电子设备及存储介质
CN113569068B (zh) * 2021-01-19 2023-09-29 腾讯科技(深圳)有限公司 描述内容生成方法、视觉内容的编码、解码方法、装置
CN112819052B (zh) * 2021-01-25 2021-12-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多模态细粒度混合方法、系统、设备和存储介质
CN112801017B (zh) * 2021-02-09 2023-08-04 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN112926662B (zh) * 2021-02-25 2022-05-03 电子科技大学 一种基于多尺度语言嵌入rec的目标检测方法
CN113035311B (zh) * 2021-03-30 2023-05-23 广东工业大学 一种基于多模态注意力机制的医学图像报告自动生成方法
CN113095431B (zh) * 2021-04-27 2023-08-18 中山大学 一种基于注意力机制的图像描述方法、系统及装置
CN113378919B (zh) * 2021-06-09 2022-06-14 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
CN114037831B (zh) * 2021-07-20 2023-08-04 星汉智能科技股份有限公司 图像深度密集描述方法、系统及存储介质
CN114118127A (zh) * 2021-10-15 2022-03-01 北京工业大学 一种视觉场景标志检测与识别方法及装置
CN114399646B (zh) * 2021-12-21 2022-09-20 北京中科明彦科技有限公司 一种基于Transformer结构的图像描述方法和装置
CN114708474A (zh) * 2022-03-14 2022-07-05 电子科技大学 一种融合局部和全局特征的图像语义理解算法
CN116132756B (zh) * 2023-01-06 2024-05-03 重庆大学 一种基于深度学习的端到端视频字幕生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563498A (zh) * 2017-09-08 2018-01-09 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN109685116A (zh) * 2018-11-30 2019-04-26 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN107563498A (zh) * 2017-09-08 2018-01-09 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN109685116A (zh) * 2018-11-30 2019-04-26 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于用户注意力与视觉注意力的社交图像描述";褚晓亮;《计算机系统应用》;20181231;第1-4页 *

Also Published As

Publication number Publication date
CN110458282A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110458282B (zh) 一种融合多角度多模态的图像描述生成方法及系统
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108804530B (zh) 对图像的区域加字幕
Niu et al. Multi-modal multi-scale deep learning for large-scale image annotation
Hossain et al. Text to image synthesis for improved image captioning
CN111598183B (zh) 一种多特征融合图像描述方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
Jing et al. Recognizing american sign language manual signs from rgb-d videos
CN110232564A (zh) 一种基于多模态数据的交通事故法律自动决策方法
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN114549850A (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114663915A (zh) 基于Transformer模型的图像人-物交互定位方法及系统
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
WO2022166840A1 (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN113378919B (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
CN111242114B (zh) 文字识别方法及装置
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
Kaddoura A Primer on Generative Adversarial Networks
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN114332288A (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络
CN111160040B (zh) 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法
CN110969187A (zh) 一种图谱迁移的语义分析方法
CN113283535B (zh) 一种融合多模态特征的虚假消息检测方法和装置
CN117540007B (zh) 基于相似模态补全的多模态情感分析方法、系统和设备
Yu et al. MMT-GD: Multi-Modal Transformer with Graph Distillation for Cross-Cultural Humor Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant