CN113673535A - 一种多模态特征融合网络的图像描述生成方法 - Google Patents

一种多模态特征融合网络的图像描述生成方法 Download PDF

Info

Publication number
CN113673535A
CN113673535A CN202110562471.1A CN202110562471A CN113673535A CN 113673535 A CN113673535 A CN 113673535A CN 202110562471 A CN202110562471 A CN 202110562471A CN 113673535 A CN113673535 A CN 113673535A
Authority
CN
China
Prior art keywords
feature fusion
network
modal feature
fusion network
image description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110562471.1A
Other languages
English (en)
Other versions
CN113673535B (zh
Inventor
杨有
陈立志
杨学森
余平
尚晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Normal University
Original Assignee
Chongqing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Normal University filed Critical Chongqing Normal University
Priority to CN202110562471.1A priority Critical patent/CN113673535B/zh
Publication of CN113673535A publication Critical patent/CN113673535A/zh
Application granted granted Critical
Publication of CN113673535B publication Critical patent/CN113673535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及图像数据处理领域,公开了一种多模态特征融合网络的图像描述生成方法,包括构建多模态特征融合网络;在Up‑Down模型基础架构上设计解码端;将多模态特征融合网络融入到解码端,形成基于多模态特征融合网络的图像描述生成模型;训练基于多模态特征融合网络的图像描述生成模型;输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证。本发明使用循环神经网络构建层级结构来融合编码特征,且使用注意力机制来加权输入信息,以此让编码器提取的单一图像特征相互关联,增强特征交互,从而更好地挖掘隐含层向量和对象特征的关联性,实现更高的图像描述生成性能。

Description

一种多模态特征融合网络的图像描述生成方法
技术领域
本发明涉及图像数据处理领域,尤其涉及一种多模态特征融合网络的图像描述生成方法。
背景技术
理解一幅图像很大程度上依赖于所获得的图像特征,用于获取特征的技术包括传统的机器学习技术和深度机器学习技术。传统的机器学习技术,提取LBPs、SIFT和HOG等人工特征,将它们或它们的组合送入SVM等分类器,用于确定对象类别,这种方法存在两个缺点,一是这些人工特征都是面向任务的,从量大而且具有多样性的数据集中提取此类特征是不可行的;二是真实世界的数据复杂而且具有不同的语义解释。相反,深度机器学习技术,可以从训练集中自动学习特征,而且适合处理量大且具有多样性的数据集。
现有的LSTM-A、Plstm-a-2、VS-LSTM、DAA、RFNet、Up-Down和VSV-VRV-POS等代表性模型,图像特征的提取和利用不够充分、语义鸿沟依然存在。
发明内容
本发明的目的在于提供一种多模态特征融合网络的图像描述生成方法,旨在更好地挖掘隐含层向量和对象特征的关联性,实现更高的图像描述生成性能。
为实现上述目的,本发明提供了一种多模态特征融合网络的图像描述生成方法,包括构建多模态特征融合网络;
在Up-Down模型基础架构上设计解码端;
将多模态特征融合网络融入到解码端,形成基于多模态特征融合网络的图像描述生成模型;
训练基于多模态特征融合网络的图像描述生成模型;
输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证。
其中,所述多模态特征融合网络由多层特征融合模块级联而成,每一层由注意力模块和循环神经网络组合而成;每层都有都包括局部特征信息和全局特征信息,所述局部特征信息用于注意力模块的使用;所述全局特征信息作为循环神经网络的初始向量。
其中,所述构建多模态特征融合网络的具体步骤是:
将当前层特征融合模块的特征输出嵌入到下一层的特征融合模块中;
通过注意力模块将上一层的融合特征传递到所述当前层的循环神经网络中,循环神经网络每一时间步的输入为当前的隐含层和加权融合注意力;
将所述下一层每一时刻循环单元的输出结果拼接起来,形成最终的融合向量组;
每层的循环融合网络后设置前馈神经网络进行处理,该所述前馈神经网络由两个线性变换组成,两个线性变换之间使用ReLU激活函数连接;
然后使用残差连接和层标准化;
对池化层级特征向量依次相加,并通过学习嵌入矩阵参数得到全局层级特征。
其中,所述解码端由生成注意权重注意网络和生成单词语言网络构成。
其中,所述训练基于多模态特征融合网络的图像描述生成模型的具体方式是:使用交叉熵损失和CIDEr优化来训练模型。
其中,所述输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证的具体步骤是:
输入测试图像并初始化生成模型参数;
使用Adam优化器对Captioning model模型进行交叉熵损失训练寻找最小值;
使用self-critical training strategy通过CIDEr-D奖赏继续优化训练;
采用波束搜索策略进行推理测试;
对模型进行评价。
本发明的一种多模态特征融合网络的图像描述生成方法,提出一种多模态特征融合网络(MFF-Net),使用多模态结构扩展传统编解码框架,以增强对象特征之间的相关性。MFF-Net使用循环神经网络构建层级结构来融合编码特征,且使用注意力机制来加权输入信息,以此让编码器提取的单一图像特征相互关联,增强特征交互。实验结果表明,MFF-Net模型方法达到了与最先进的方法竞争的性能,在MS COCO Karpathy离线测试split上达到了126.5CIDEr-D分数,在官方在线测试服务器上达到了123.2CIDEr-D(C40)分数。
本发明的有益效果如下:
提出利用循环神经网络结合注意力学习融合图像特征,这是对单一编解码器模型的扩展,能更好的获取内在特征的序列关联性;在编码器和解码器之间应用了融合网络,以层次结构相互连接,并在解码器端融合了的层级特征向量。这样能充分挖掘对象特征之间更高层级的相互关系,生成更加详细的图像描述;提出的方法具备通用性,可以应用于其他编解码框架的视觉-语言任务中。在MSCOCO数据集上与最先进的方法相比,图像描述模型实现了具有竞争力的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种多模态特征融合网络的图像描述生成方法的流程图;
图2是本发明的构建多模态特征融合网络的流程图;
图3是本发明的输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证的流程图;
图4是本发明的一种多模态特征融合网络架构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1~图4,本发明提供一种多模态特征融合网络的图像描述生成方法,包括:
S101构建多模态特征融合网络;
所述多模态特征融合网络由多层特征融合模块级联而成,每一层由注意力模块和循环神经网络组合而成;每层都有都包括局部特征信息和全局特征信息,所述局部特征信息用于注意力模块的使用;所述全局特征信息作为循环神经网络的初始向量。注意力模块用于图像区域特征和循环神经网络序列特征两者模态间的信息交互,循环神经网络用于增强特征之间的关联和融合不同的图像局部特征。
具体步骤是:
S201将当前层特征融合模块的特征输出嵌入到下一层的特征融合模块中;
以第I(0≤I<M)层的输出
Figure BDA0003079494050000041
为例。首先它们被嵌入到第I+1层的特征融合模块中:
Figure BDA0003079494050000042
其中FI+1代表MFF-Net的第I+1层的特征输出。
FFM(·)代表特征融合模块(即MFF-Net)的输出。
FI代表MFF-Net的第I(0≤I<M)层的特征输出。
Figure BDA0003079494050000043
代表FI的均值,
Figure BDA0003079494050000044
FI代表MFF-Net的第I(0≤I<M)层的特征输出,它共有k个分量,每个分量用
Figure BDA0003079494050000045
表示。
Figure BDA0003079494050000046
Figure BDA0003079494050000047
代表FI中k个分量的均值。
其中HI+1是通过特征融合模块输出的隐藏状态,FFM(·)表示特征融合模块,
Figure BDA0003079494050000048
表示第I层的池化层级特征。注意的是,F0是使用Faster R-CNN目标检测方法提取的图像区域特征
Figure BDA0003079494050000049
S202通过注意力模块将上一层的融合特征传递到所述当前层的循环神经网络中,循环神经网络每一时间步的输入为当前的隐含层和加权融合注意力;
Figure BDA00030794940500000410
Figure BDA0003079494050000051
代表I+1层在t+1时刻的网络隐状态,
RNN[·]代表循环神经网络的输出。
Figure BDA0003079494050000052
代表I+1层在t时刻的权重系数。
Figure BDA0003079494050000053
代表I+1层在t时刻的网络隐状态。
Figure BDA0003079494050000054
Figure BDA0003079494050000055
表示第I层的第i个特征在t时刻的权重系数。
Figure BDA0003079494050000056
表示融合层需要学习的视觉参数。
tanh(·)表示双曲正切激活函数。
Figure BDA00030794940500000519
表示第I层MFF-Net输出特征的第i个分量。
Wmf和Wmh表示融合层需要学习的视觉参数。
Figure BDA0003079494050000057
表示第I+1层MFF-Net网络在t时刻的隐状态。
Figure BDA0003079494050000058
Figure BDA0003079494050000059
表示第I层的t时刻全部特征的权重系数。
softmax(·)表示归一化到[0,1]的操作。
Figure BDA00030794940500000510
Figure BDA00030794940500000511
表示第I+1层在t时刻对特征学习得到的关注结果。
Figure BDA00030794940500000512
表示第I层的第i个特征在t时刻的被关注程度,即权重系数。
Figure BDA00030794940500000513
表示第I层MFF-Net输出特征的第i个分量。
其中,隐含层初始化状态
Figure BDA00030794940500000514
为上一层的池化层级特征
Figure BDA00030794940500000515
Wmf,Wmh
Figure BDA00030794940500000516
是融合层需要学习的视觉参数;
Figure BDA00030794940500000517
是t时刻学习得到的关注结果。注意,这里融合方式使用门控循环单元(GRU),因为它不仅能在保留长期序列信息下减少梯度消失问题,而且相对LSTM参数更少更容易收敛。
S203将所述下一层每一时刻循环单元的输出结果拼接起来,形成最终的融合向量组;
将第I+1层每一时刻循环单元的输出结果拼接起来,形成最终的HI+1融合向量组。
Figure BDA00030794940500000518
HI+1表示第I+1层的融合向量组。
Concat(·)表示向量连接操作。
Figure BDA0003079494050000061
分别代表第I+1层时刻1、2、…、t的循环单元的隐状态(即循环单元的输出结果)。
符号“[·,·]”表示向量拼接操作。
S204每层的循环融合网络后设置前馈神经网络进行处理,该所述前馈神经网络由两个线性变换组成,两个线性变换之间使用ReLU激活函数连接;
在每一子层的循环融合网络后是一个前馈神经网络(FFN),该网络由两个线性变换组成,两个线性变换之间使用ReLU激活函数:
FFN(x)=W2ReLU(W1x+b1)+b2 (18)
FI+1=FFN(HI+1) (19)
x表示FFN网络的输入向量。
FFN(x)表示前馈神经网络的输出。
Figure BDA0003079494050000062
表示FFN学习参数。
ReLU表示激活函数。
Figure BDA0003079494050000063
表示FFN学习参数。
b1表示W1的偏置项。
b2表示W2的偏置项。
Figure BDA0003079494050000064
是I+1块的输出。
HI+1表示第I+1层的融合向量。
FFN(·)表示前馈神经网络的输出。
其中,
Figure BDA0003079494050000065
是I+1块的输出。
S205然后使用残差连接和层标准化;
每个子层之后使用残差连接和层标准化,这里省略它们以进行简明的解释。
Figure BDA0003079494050000066
Figure BDA0003079494050000067
表示全局层级特征。
Wg和Wf为连接参数。
tanh(·)表示双曲正切激活函数。
Figure BDA0003079494050000068
表示第I层MFF-Net网络输出特征向量的均值。
Figure BDA0003079494050000069
代表V的均值。
M表示MFF-Net网络总共有多少层数。
S206对池化层级特征向量依次相加,并通过学习嵌入矩阵参数得到全局层级特征。
为了鼓励学习层级之间的相互作用关系,促进多模态信息交互,对池化层级特征向量依次相加,并通过学习Wg,和Wf嵌入矩阵参数,得到全局层级特征
Figure BDA0003079494050000071
S102在Up-Down模型基础架构上设计解码端;
所述解码端由生成注意权重注意网络和生成单词语言网络构成。
Up-Down模型有着卓越的表现,使用其作为本模型方法的基础框架。这个框架有两个LSTM堆积组成,一个生成注意权重的注意LSTMatt,一个生成单词的语言LSTMlang。它们在t时刻的隐含状态分别表示为
Figure BDA0003079494050000072
Figure BDA0003079494050000073
在较高的层次上,LSTM的隐藏状态被建模为:
ht=LSTM(xt,ht-1) (1)
其中ht和ht-1为LSTM网络在t时刻和t-1时刻的隐藏状态。LSTM()表示LSTM网络的输出,xt为LSTM输入向量。为了便于记法,省略了存储单元的传播。
Figure BDA0003079494050000074
其中,
Figure BDA0003079494050000075
表示解码端注意力网络在t时刻的隐藏状态;Xt-1表示t-1时刻的词嵌入向量;
Figure BDA0003079494050000076
表示全局层级特征;
Figure BDA0003079494050000077
表示解码端语言网络在t-1时刻的隐藏状态;LSTMatt()表示注意力网络的映射操作。
对于注意LSTM的每一时间步输入,其中Xt-1是前一个词嵌入、
Figure BDA0003079494050000078
是前一个语言LSTM的隐藏状态向量。
Figure BDA0003079494050000079
是来自MFF-Net的全局层级特征,它为注意LSTM提供了图像的多层级融合信息。多模态特征融合网络细节将在第3.2节中说明。
对给定图像I经过多模态特征融合网络的M个子层后,其输出融合特征FM可以表示为:
Figure BDA00030794940500000710
其中,
Figure BDA00030794940500000711
代表MFF-Net最后一层融合特征FM的第i个分量,每个分量为D维的实数。
语言模型LSTM的输入由注意加权图像特征与当前注意LSTM的隐藏状态连接而成:
Figure BDA00030794940500000712
其中LSTMlang代表语言网络,attt表示语言网络LSTMlang在t时刻的注意力,
Figure BDA0003079494050000081
表示注意力网络LSTMatt在t时刻的隐状态,
Figure BDA0003079494050000082
表示语言网络LSTMlang在t时刻的隐状态;LSTMlang表示语言网络的映射输出。
其中,attt是fi的加权和:
Figure BDA0003079494050000083
αt=softmax(at) (6)
Figure BDA0003079494050000084
其中
Figure BDA0003079494050000085
Waf和Wah是学习视觉注意部分的参数。
Figure BDA0003079494050000086
是F的相关权值,其和为1,即
Figure BDA0003079494050000087
attt是F的加权和,表示要生成单词的最相关位置。
αt,i表示第i层t时刻对特征的关注程度,即权重系数。
tanh表示双曲正切激活函数
softmax(·)表示归一化到[0,1]的操作。
Figure BDA0003079494050000088
表示MFF-Net第M层的第i个融合特征分量。
使用符号y1:T引用一个单词序列(y1,...,yT),在每个时间步长t下,给定对可能输出单词的条件分布:
Figure BDA0003079494050000089
p(yt|y1:t-1)单词序列的条件概率。
softmax(·)表示归一化到[0,1]的操作。
Wp表示
Figure BDA00030794940500000810
映射输出的学习参数
bp表示
Figure BDA00030794940500000811
映射输出的偏置
Figure BDA00030794940500000812
表示语言LSTM网络在t时刻的隐状态。
对完整输出序列的分布计算为条件分布的乘积:
Figure BDA00030794940500000813
p(y1∶T)表示解码端完整输出单词序列的分布概率。
p(yt|y1:t-1)单词序列的条件概率。
符合
Figure BDA00030794940500000814
表示乘积运算。
S103将多模态特征融合网络融入到解码端,形成基于多模态特征融合网络的图像描述生成模型;
S104训练基于多模态特征融合网络的图像描述生成模型;
具体方式是:使用交叉熵损失和CIDEr优化来训练模型。
在给定目标地真值序列
Figure BDA0003079494050000091
和带有参数θ的描述模型的情况下,通过优化交叉熵(XE)LXE对MFF-Net进行训练:
Figure BDA0003079494050000092
LXE(θ)表示损失函数。
Figure BDA0003079494050000093
表示参数为θ的联合概率分布。
Figure BDA0003079494050000094
表示t时刻的预测输出。
Figure BDA0003079494050000095
表示t时刻的输入。
自强化学习应用于描述模型以来,大量研究都使用该方法来优化训练。为了进行公平的比较,从交叉熵训练的模型初始化,寻求最小的负期望分数:
Figure BDA00030794940500000910
LR(·)表示强化学习的奖赏函数。
θ表示模型的优化参数。
pθ表示参数θ的分布。
E表示y1∶T服从pθ分布时r(y1∶T)的数学期望。
r(y1:T)表示通过解码当前模型生成句子获得的分数。
其中r为CIDEr-D评分函数。直接用自临界序列训练(SCST)优化不可微指标,这种损失的梯度可以近似:
Figure BDA0003079494050000096
其中:
Figure BDA0003079494050000097
表示求导操作。
LR(·)表示强化学习的奖赏函数。
符号“≈”表示使用蒙特卡罗方法近似采样。
Figure BDA0003079494050000098
为采样标题,上标“s”代表句子。
Figure BDA0003079494050000099
定义贪婪解码当前模型得到的基线得分。
pθ表示参数θ的分布.
S105输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证。
具体步骤是:
S301输入测试图像并初始化生成模型参数;
首先在数据预处理部分,将训练图像集中图像标注语句的所有单词全部转换为小写字母,并以出现次数大于指定阈值的单词建立单词库,在本文实验中单词阈值设为5。在实验部分,使用MSCOCO 2014 captions数据集来评估提出的方法。MSCOCO数据集包含123,287张图像,每个图像标有5个标题,包括82,783张训练图像和40,504张验证图像。MSCOCO也提供了40,775张图片作为在线评估的测试集。The offline“Karpathy″data split用于离线性能比较,这种分割在之前的工作中得到了广泛的应用,其中113,287张带有5个标题的图像进行训练,并用5000张图像用于验证,5000张图像用于测试。为了对本文所提出的模型方法进行定量的性能评价,并与其他方法进行比较,使用了标准的自动评估指标,其中包括BLEU,METEOR,ROUGE-L常规机器翻译的度量指标,以及专门用于image captioning的CIDEr-D和SPICE度量指标。
S302使用Adam优化器对Captioning model模型进行交叉熵损失训练寻找最小值;
整个Image Captioning框架主要是用PyTorch实现的,用Adam进行优化。在实验的参数方面,Up-Down模型遵循的设置,语言LSTM的隐藏状态维度设置为1000,注意LSTM和单词嵌入维度设置为1000,注意层的维度是512。使用预先训练的Faster-RCNN模型从pool-5层中提取2048维的目标特征。在特征融合网络中,使用soft-attention作为融合注意力网络,使用GRU作为融合编码器。融合GRU的输入维度维数为1000,隐藏状态维数为1000,层级之间的传递维数为1000。在训练模型方面,遵循Up-Down模型中的训练策略,首先使用Adam优化器以5e-4的学习速度对Captioning model模型进行交叉熵损失训练寻找最小值,批次大小为10,历时30个epochs,并每5个周期增加0.05的预定抽样概率。
S303使用self-critical training strategy通过CIDEr-D奖赏继续优化训练;
使用self-critical training strategy通过CIDEr-D奖赏继续优化训练,以5e-5的学习速率,重量衰减为1e-5,批处理大小设置为10,历时30个epochs。
S304采用波束搜索策略进行推理测试;
在推理测试方面,采用波束搜索策略,并将波束大小设为2。
S305对模型进行评价。
同时使用传统的Image Captioning评价指标对模型进行评价。
在表1和表2中报告了模型在offline COCO Karpathy test split的性能表现。为了与其他模型公平地进行性能比较,模型都是基于编解码器框架的生成方法。比较的模型包括:LSTM-A,获取高层语义属性特征嵌入到解码器中加以利用;pLSTM-A-2*,利用LSTM并行融合解码器部分的动态语义和视觉信息;VS-LSTM,使用语义属性特征替换低级视觉特性;DAA,自适应注意视觉语义区域和文本内容;RFNet,融合多个CNN网络的编码特征形成对解码器的表示;Up-Down,采用较快的R-CNN对象检测方法作为编码器,使用两层LSTM作为解码器;VSV-VRA-POS,将POS标签引入到语言模型中,并设计视觉骨架向量来约束POS语言模型;Zhao et al.,采用基于检索的方法,查询相似的图像对应标题作为额外的文本特征信息用于生成模型中;SCST,首次提出使用SCST优化评价指标;SR-PL通过自我检索指导产生有判别力的句子;Stack-Cap,提出了一个由粗到细的堆叠注意力模型;SEM,提出了语义增强网络和极难否定挖掘方法;VRES+AFS,使用先前的视觉上下文来考虑当前的序列推理。
Table 1.Experiment of our proposed feature fusion network on theMSCOCO Karpathy test split with both cross-entropy loss.Test results showthat our proposed methods have obvious improvement over our baseline.B-1/B-4/M/R/C/S refers to BLEU1/BLEU4/METEOR/ROUGE-L/CIDEr/SPICE scores.
Figure BDA0003079494050000111
Table 2.The results of our system which is optimized by CIDEroptimization on the MSCOCO Karpathy set test split.
Figure BDA0003079494050000121
在表1和表2中,分别公布了本文的多模态特征融合网络(MFF-Net)与上述其他模型在交叉熵损失优化训练和optimized for CIDEr-D score结果分数。可以看到,模型在大部分指标上与其他模型比较都获得了最高的分数。也从在线COCO测试服务器上对的模型进行了评估。如表3所示,总共比较了7个模型,并详细说明了使用5个参考标题(c5)和40个参考标题(c40)的官方测试图像的性能。可以看出,MFF-Net在大多数指标上的得分优于其他模型。
Table 3.Results of our system with CIDEr optimization on COCO onlinetesting server.c5 and c40 denote the official testing image set with 5 and 40reference captions respectively.
Figure BDA0003079494050000122
为了证明提出的方法的有效性和通用性,也实现了提出的方法与其他编解码模型的比较:Stack-Cap,att2all和Adaptive。对以上三种模型做了对比实验如表4所示,结果表明所提出的方法对于大多数encoder-decoder模型具有广泛的适用性。具体来说,提出的方法平均在Adaptive上提高了3.4%,在att2all上提高了3.3%,在Stack-Cap上提高2.1%。
Table 4.Performance of our proposed approach is better than that ofother encoder-decoder models after 15epochs of cross-entropy loss training.
Figure BDA0003079494050000123
Figure BDA0003079494050000131
表5显示了一些示例,其中每个实例包含的MFF-Net和强大的Up-Down基线生成的图像描述以及人为标注的3个ground truth(GT)。从这些示例中,发现基线模型生成的标题符合语言逻辑,但描述内容不够准确,与图像内容不太匹配。而MFF-Net生成的标题相对准确且更具描述性。具体来说,的MFF-Net在以下三个方面具有优势:1)MFF-Net反映出图像中对象之间的相互作用关系,第一个实例中,MFF-Net能知道一只黑狗是坐在一盘食物旁边的地板上;第二个实例中,MFF-Net能知道一个人头上顶着一串香蕉;2)MFF-Net对图像中对象的计数更为准确。在第三个例子的图像中有两个橘子一个香蕉。然而,的MFF-Net能够正确计数,基线模型只能找到一个橘子一个香蕉;3)MFF-Net生成的图像描述更生动形象。在第四个例子的图像中,一只黑白相间的牛在田野上站着。虽然MFF-Net和基线模型都能准确的生成描述句子,但MFF-Net生成的句子更具丰富性。整体来说,MFF-Net具有这些优势,因为它序列融合了图像中原本单一的对象特征,使其特征之间具备关联性,并且通过层级连接方式精炼出更加丰富的语义信息。
Table 5.Examples of captions generated by MFF-Net and a baselinemodel as well as the corresponding ground truths.
Figure BDA0003079494050000132
Figure BDA0003079494050000141
为了更好的检验多模态特征融合网络(MFF-Net)在图像编码器和句子解码器中对图像字幕的影响,如表6所示,与其他具有不同设置的模型进行消融研究。首先设置一个基础模型,它是最原始的框架结构。下一步,对模型进行扩展,在编码器和解码器之间加入了的MFF-Net,并设置循环神经网络使用LSTM和GRU两种不同的融合方式,发现都取得了较好的性能,但显然使用GRU效果更好且更容易收敛。然后,在GRU基础上使用了多头注意力网络,发现性能有所下降,从而验证使用GRU加传统的注意力的方式能够取得最佳性能。表明在基础模型的输入端使用了全局层级特征替换之前的全局池化特征,发现在替换之后,模型的效果有了一定提高。此外,为了说明特征融合的性能与MFF-Net层数的数量关系,在使用了全局融合层级特征基础上设置了层数变量,结果发现在融合网络中叠加层数可以提高性能,从而验证了融合网络层级之间交互的有效性。然而,当叠加到3层时,并没有观察到显著的性能提高。推测,叠加更多的层数而增加的参数可能导致过拟合,在一定程度上阻碍了以这种方式更高层级的融合。
Table 6.The results of 15 epochs of cross entropy loss optimizationfor multi-mode feature fusion network ablation research.
Figure BDA0003079494050000142
本文提出了一种新的多模态特征融合机制,以提高Captioning model生成图像-文本匹配的语句性能。的模型设计使用循环神经网络结合注意力方式对目标特征进行关联融合,并提出结构层级化,帮助融合网络学习图像的细粒度信息,增强多层信息交互性。为了验证的模型性能,在COCO数据集上进行的大量实验证明了MFF-Net模型的有效性,实现了与最先进的方法相比的竞争性能。也在其他传统的模型架构上进行了实验,并证实了提出的方法可以应用于所有Captioning model。在未来的工作中,将继续探索特征融合方式,尝试引入其他注意力网络,并设计更加有效的融合架构。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (6)

1.一种多模态特征融合网络的图像描述生成方法,其特征在于,
包括构建多模态特征融合网络;
在Up-Down模型基础架构上设计解码端;
将多模态特征融合网络融入到解码端,形成基于多模态特征融合网络的图像描述生成模型;
训练基于多模态特征融合网络的图像描述生成模型;
输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证。
2.如权利要求1所述的一种多模态特征融合网络的图像描述生成方法,其特征在于,
所述多模态特征融合网络由多层特征融合模块级联而成,每一层由注意力模块和循环神经网络组合而成;每层都有都包括局部特征信息和全局特征信息,所述局部特征信息用于注意力模块的使用;所述全局特征信息作为循环神经网络的初始向量。
3.如权利要求2所述的一种多模态特征融合网络的图像描述生成方法,其特征在于,
所述构建多模态特征融合网络的具体步骤是:
将当前层特征融合模块的特征输出嵌入到下一层的特征融合模块中;
通过注意力模块将上一层的融合特征传递到所述当前层的循环神经网络中,循环神经网络每一时间步的输入为当前的隐含层和加权融合注意力;
将所述下一层每一时刻循环单元的输出结果拼接起来,形成最终的融合向量组;
每层的循环融合网络后设置前馈神经网络进行处理,该所述前馈神经网络由两个线性变换组成,两个线性变换之间使用ReLU激活函数连接;
然后使用残差连接和层标准化;
对池化层级特征向量依次相加,并通过学习嵌入矩阵参数得到全局层级特征。
4.如权利要求1所述的一种多模态特征融合网络的图像描述生成方法,其特征在于,
所述解码端由生成注意权重注意网络和生成单词语言网络构成。
5.如权利要求1所述的一种多模态特征融合网络的图像描述生成方法,其特征在于,
所述训练基于多模态特征融合网络的图像描述生成模型的具体方式是:使用交叉熵损失和CIDEr优化来训练模型。
6.如权利要求1所述的一种多模态特征融合网络的图像描述生成方法,其特征在于,
所述输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证的具体步骤是:
输入测试图像并初始化生成模型参数;
使用Adam优化器对Captioning model模型进行交叉熵损失训练寻找最小值;
使用self-critical training strategy通过CIDEr-D奖赏继续优化训练;
采用波束搜索策略进行推理测试;
对模型进行评价。
CN202110562471.1A 2021-05-24 2021-05-24 一种多模态特征融合网络的图像描述生成方法 Active CN113673535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110562471.1A CN113673535B (zh) 2021-05-24 2021-05-24 一种多模态特征融合网络的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110562471.1A CN113673535B (zh) 2021-05-24 2021-05-24 一种多模态特征融合网络的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN113673535A true CN113673535A (zh) 2021-11-19
CN113673535B CN113673535B (zh) 2023-01-10

Family

ID=78538127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110562471.1A Active CN113673535B (zh) 2021-05-24 2021-05-24 一种多模态特征融合网络的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN113673535B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581425A (zh) * 2022-03-10 2022-06-03 四川大学 一种基于深度神经网络的心肌段缺损图像处理方法
CN114926828A (zh) * 2022-05-17 2022-08-19 北京百度网讯科技有限公司 场景文本识别方法、装置、电子设备及存储介质
CN116152623A (zh) * 2023-04-04 2023-05-23 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning
CN111860235A (zh) * 2020-07-06 2020-10-30 中国科学院空天信息创新研究院 高低层特征融合的注意力遥感图像描述的生成方法及系统
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111860235A (zh) * 2020-07-06 2020-10-30 中国科学院空天信息创新研究院 高低层特征融合的注意力遥感图像描述的生成方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PETER ANDERSON ET AL: ""Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering"", 《ARXIV:1707.07998V3》 *
谢琦彬等: ""结合全局-局部特征和注意力的图像描述方法"", 《计算机工程与应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581425A (zh) * 2022-03-10 2022-06-03 四川大学 一种基于深度神经网络的心肌段缺损图像处理方法
CN114581425B (zh) * 2022-03-10 2022-11-01 四川大学 一种基于深度神经网络的心肌段缺损图像处理方法
CN114926828A (zh) * 2022-05-17 2022-08-19 北京百度网讯科技有限公司 场景文本识别方法、装置、电子设备及存储介质
CN114926828B (zh) * 2022-05-17 2023-02-24 北京百度网讯科技有限公司 场景文本识别方法、装置、电子设备及存储介质
CN116152623A (zh) * 2023-04-04 2023-05-23 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及系统
CN116994069B (zh) * 2023-09-22 2023-12-22 武汉纺织大学 一种基于多模态信息的图像解析方法及系统

Also Published As

Publication number Publication date
CN113673535B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN108681610B (zh) 生成式多轮闲聊对话方法、系统及计算机可读存储介质
Gu et al. Stack-captioning: Coarse-to-fine learning for image captioning
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN111858931B (zh) 一种基于深度学习的文本生成方法
CN111159454A (zh) 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN111160467A (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
CN111859978A (zh) 一种基于深度学习的情感文本生成方法
CN109242090B (zh) 一种基于gan网络的视频描述及描述一致性判别方法
CN113628294A (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN114443827A (zh) 基于预训练语言模型的局部信息感知对话方法及系统
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
Olivastri et al. End-to-end video captioning
CN115794999A (zh) 一种基于扩散模型的专利文档查询方法及计算机设备
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN113298816A (zh) 一种遥感图像语义分割方法、装置和计算机设备
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant