CN113673535B - 一种多模态特征融合网络的图像描述生成方法 - Google Patents
一种多模态特征融合网络的图像描述生成方法 Download PDFInfo
- Publication number
- CN113673535B CN113673535B CN202110562471.1A CN202110562471A CN113673535B CN 113673535 B CN113673535 B CN 113673535B CN 202110562471 A CN202110562471 A CN 202110562471A CN 113673535 B CN113673535 B CN 113673535B
- Authority
- CN
- China
- Prior art keywords
- network
- feature fusion
- modal feature
- layer
- fusion network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 24
- 230000000306 recurrent effect Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000000844 transformation Methods 0.000 claims description 7
- 235000019987 cider Nutrition 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 abstract description 7
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000002596 correlated effect Effects 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 241000234295 Musa Species 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 235000013599 spices Nutrition 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000035508 accumulation Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像数据处理领域,公开了一种多模态特征融合网络的图像描述生成方法,包括构建多模态特征融合网络;在Up‑Down模型基础架构上设计解码端;将多模态特征融合网络融入到解码端,形成基于多模态特征融合网络的图像描述生成模型;训练基于多模态特征融合网络的图像描述生成模型;输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证。本发明使用循环神经网络构建层级结构来融合编码特征,且使用注意力机制来加权输入信息,以此让编码器提取的单一图像特征相互关联,增强特征交互,从而更好地挖掘隐含层向量和对象特征的关联性,实现更高的图像描述生成性能。
Description
技术领域
本发明涉及图像数据处理领域,尤其涉及一种多模态特征融合网络的图像描述生成方法。
背景技术
理解一幅图像很大程度上依赖于所获得的图像特征,用于获取特征的技术包括传统的机器学习技术和深度机器学习技术。传统的机器学习技术,提取LBPs、SIFT和HOG等人工特征,将它们或它们的组合送入SVM等分类器,用于确定对象类别,这种方法存在两个缺点,一是这些人工特征都是面向任务的,从量大而且具有多样性的数据集中提取此类特征是不可行的;二是真实世界的数据复杂而且具有不同的语义解释。相反,深度机器学习技术,可以从训练集中自动学习特征,而且适合处理量大且具有多样性的数据集。
现有的LSTM-A、Plstm-a-2、VS-LSTM、DAA、RFNet、Up-Down和VSV-VRV-POS等代表性模型,图像特征的提取和利用不够充分、语义鸿沟依然存在。
发明内容
本发明的目的在于提供一种多模态特征融合网络的图像描述生成方法,旨在更好地挖掘隐含层向量和对象特征的关联性,实现更高的图像描述生成性能。
为实现上述目的,本发明提供了一种多模态特征融合网络的图像描述生成方法,包括构建多模态特征融合网络;
在Up-Down模型基础架构上设计解码端;
将多模态特征融合网络融入到解码端,形成基于多模态特征融合网络的图像描述生成模型;
训练基于多模态特征融合网络的图像描述生成模型;
输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证。
其中,所述多模态特征融合网络由多层特征融合模块级联而成,每一层由注意力模块和循环神经网络组合而成;每层都有都包括局部特征信息和全局特征信息,所述局部特征信息用于注意力模块的使用;所述全局特征信息作为循环神经网络的初始向量。
其中,所述构建多模态特征融合网络的具体步骤是:
将当前层特征融合模块的特征输出嵌入到下一层的特征融合模块中;
通过注意力模块将上一层的融合特征传递到所述当前层的循环神经网络中,循环神经网络每一时间步的输入为当前的隐含层和加权融合注意力;
将所述下一层每一时刻循环单元的输出结果拼接起来,形成最终的融合向量组;
每层的循环融合网络后设置前馈神经网络进行处理,该所述前馈神经网络由两个线性变换组成,两个线性变换之间使用ReLU激活函数连接;
然后使用残差连接和层标准化;
对池化层级特征向量依次相加,并通过学习嵌入矩阵参数得到全局层级特征。
其中,所述解码端由生成注意权重注意网络和生成单词语言网络构成。
其中,所述训练基于多模态特征融合网络的图像描述生成模型的具体方式是:使用交叉熵损失和CIDEr优化来训练模型。
其中,所述输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证的具体步骤是:
输入测试图像并初始化生成模型参数;
使用Adam优化器对Captioning model模型进行交叉熵损失训练寻找最小值;
使用self-critical training strategy通过CIDEr-D奖赏继续优化训练;
采用波束搜索策略进行推理测试;
对模型进行评价。
本发明的一种多模态特征融合网络的图像描述生成方法,提出一种多模态特征融合网络(MFF-Net),使用多模态结构扩展传统编解码框架,以增强对象特征之间的相关性。MFF-Net使用循环神经网络构建层级结构来融合编码特征,且使用注意力机制来加权输入信息,以此让编码器提取的单一图像特征相互关联,增强特征交互。实验结果表明,MFF-Net模型方法达到了与最先进的方法竞争的性能,在MS COCO Karpathy离线测试split上达到了126.5CIDEr-D分数,在官方在线测试服务器上达到了123.2CIDEr-D(C40)分数。
本发明的有益效果如下:
提出利用循环神经网络结合注意力学习融合图像特征,这是对单一编解码器模型的扩展,能更好的获取内在特征的序列关联性;在编码器和解码器之间应用了融合网络,以层次结构相互连接,并在解码器端融合了的层级特征向量。这样能充分挖掘对象特征之间更高层级的相互关系,生成更加详细的图像描述;提出的方法具备通用性,可以应用于其他编解码框架的视觉-语言任务中。在MSCOCO数据集上与最先进的方法相比,图像描述模型实现了具有竞争力的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种多模态特征融合网络的图像描述生成方法的流程图;
图2是本发明的构建多模态特征融合网络的流程图;
图3是本发明的输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证的流程图;
图4是本发明的一种多模态特征融合网络架构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1~图4,本发明提供一种多模态特征融合网络的图像描述生成方法,包括:
S101构建多模态特征融合网络;
所述多模态特征融合网络由多层特征融合模块级联而成,每一层由注意力模块和循环神经网络组合而成;每层都有都包括局部特征信息和全局特征信息,所述局部特征信息用于注意力模块的使用;所述全局特征信息作为循环神经网络的初始向量。注意力模块用于图像区域特征和循环神经网络序列特征两者模态间的信息交互,循环神经网络用于增强特征之间的关联和融合不同的图像局部特征。
具体步骤是:
S201将当前层特征融合模块的特征输出嵌入到下一层的特征融合模块中;
其中FI+1代表MFF-Net的第I+1层的特征输出。
FFM(·)代表特征融合模块(即MFF-Net)的输出。
FI代表MFF-Net的第I(0≤I<M)层的特征输出。
S202通过注意力模块将上一层的融合特征传递到所述当前层的循环神经网络中,循环神经网络每一时间步的输入为当前的隐含层和加权融合注意力;
RNN[·]代表循环神经网络的输出。
tanh(·)表示双曲正切激活函数。
Wmf和Wmh表示融合层需要学习的视觉参数。
softmax(·)表示归一化到[0,1]的操作。
其中,隐含层初始化状态为上一层的池化层级特征Wmf,Wmh和是融合层需要学习的视觉参数;是t时刻学习得到的关注结果。注意,这里融合方式使用门控循环单元(GRU),因为它不仅能在保留长期序列信息下减少梯度消失问题,而且相对LSTM参数更少更容易收敛。
S203将所述下一层每一时刻循环单元的输出结果拼接起来,形成最终的融合向量组;
将第I+1层每一时刻循环单元的输出结果拼接起来,形成最终的HI+1融合向量组。
HI+1表示第I+1层的融合向量组。
Concat(·)表示向量连接操作。
符号“[·,·]”表示向量拼接操作。
S204每层的循环融合网络后设置前馈神经网络进行处理,该所述前馈神经网络由两个线性变换组成,两个线性变换之间使用ReLU激活函数连接;
在每一子层的循环融合网络后是一个前馈神经网络(FFN),该网络由两个线性变换组成,两个线性变换之间使用ReLU激活函数:
FFN(x)=W2ReLU(W1x+b1)+b2 (18)
FI+1=FFN(HI+1) (19)
x表示FFN网络的输入向量。
FFN(x)表示前馈神经网络的输出。
ReLU表示激活函数。
b1表示W1的偏置项。
b2表示W2的偏置项。
HI+1表示第I+1层的融合向量。
FFN(·)表示前馈神经网络的输出。
S205然后使用残差连接和层标准化;
每个子层之后使用残差连接和层标准化,这里省略它们以进行简明的解释。
Wg和Wf为连接参数。
tanh(·)表示双曲正切激活函数。
M表示MFF-Net网络总共有多少层数。
S206对池化层级特征向量依次相加,并通过学习嵌入矩阵参数得到全局层级特征。
S102在Up-Down模型基础架构上设计解码端;
所述解码端由生成注意权重注意网络和生成单词语言网络构成。
Up-Down模型有着卓越的表现,使用其作为本模型方法的基础框架。这个框架有两个LSTM堆积组成,一个生成注意权重的注意LSTMatt,一个生成单词的语言LSTMlang。它们在t时刻的隐含状态分别表示为和
在较高的层次上,LSTM的隐藏状态被建模为:
ht=LSTM(xt,ht-1) (1)
其中ht和ht-1为LSTM网络在t时刻和t-1时刻的隐藏状态。LSTM()表示LSTM网络的输出,xt为LSTM输入向量。为了便于记法,省略了存储单元的传播。
对于注意LSTM的每一时间步输入,其中Xt-1是前一个词嵌入、是前一个语言LSTM的隐藏状态向量。是来自MFF-Net的全局层级特征,它为注意LSTM提供了图像的多层级融合信息。多模态特征融合网络细节将在第3.2节中说明。
对给定图像I经过多模态特征融合网络的M个子层后,其输出融合特征FM可以表示为:
语言模型LSTM的输入由注意加权图像特征与当前注意LSTM的隐藏状态连接而成:
其中LSTMlang代表语言网络,attt表示语言网络LSTMlang在t时刻的注意力,表示注意力网络LSTMatt在t时刻的隐状态,表示语言网络LSTMlang在t时刻的隐状态;LSTMlang表示语言网络的映射输出。
其中,attt是fi的加权和:
αt=softmax(at) (6)
αt,i表示第i层t时刻对特征的关注程度,即权重系数。
tanh表示双曲正切激活函数
softmax(·)表示归一化到[0,1]的操作。
使用符号y1:T引用一个单词序列(y1,...,yT),在每个时间步长t下,给定对可能输出单词的条件分布:
p(yt|y1:t-1)单词序列的条件概率。
softmax(·)表示归一化到[0,1]的操作。
对完整输出序列的分布计算为条件分布的乘积:
p(y1∶T)表示解码端完整输出单词序列的分布概率。
p(yt|y1:t-1)单词序列的条件概率。
S103将多模态特征融合网络融入到解码端,形成基于多模态特征融合网络的图像描述生成模型;
S104训练基于多模态特征融合网络的图像描述生成模型;
具体方式是:使用交叉熵损失和CIDEr优化来训练模型。
LXE(θ)表示损失函数。
自强化学习应用于描述模型以来,大量研究都使用该方法来优化训练。为了进行公平的比较,从交叉熵训练的模型初始化,寻求最小的负期望分数:
LR(·)表示强化学习的奖赏函数。
θ表示模型的优化参数。
pθ表示参数θ的分布。
E表示y1∶T服从pθ分布时r(y1∶T)的数学期望。
r(y1:T)表示通过解码当前模型生成句子获得的分数。
其中r为CIDEr-D评分函数。直接用自临界序列训练(SCST)优化不可微指标,这种损失的梯度可以近似:
其中:
LR(·)表示强化学习的奖赏函数。
符号“≈”表示使用蒙特卡罗方法近似采样。
pθ表示参数θ的分布.
S105输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证。
具体步骤是:
S301输入测试图像并初始化生成模型参数;
首先在数据预处理部分,将训练图像集中图像标注语句的所有单词全部转换为小写字母,并以出现次数大于指定阈值的单词建立单词库,在本文实验中单词阈值设为5。在实验部分,使用MSCOCO 2014 captions数据集来评估提出的方法。MSCOCO数据集包含123,287张图像,每个图像标有5个标题,包括82,783张训练图像和40,504张验证图像。MSCOCO也提供了40,775张图片作为在线评估的测试集。The offline“Karpathy″data split用于离线性能比较,这种分割在之前的工作中得到了广泛的应用,其中113,287张带有5个标题的图像进行训练,并用5000张图像用于验证,5000张图像用于测试。为了对本文所提出的模型方法进行定量的性能评价,并与其他方法进行比较,使用了标准的自动评估指标,其中包括BLEU,METEOR,ROUGE-L常规机器翻译的度量指标,以及专门用于image captioning的CIDEr-D和SPICE度量指标。
S302使用Adam优化器对Captioning model模型进行交叉熵损失训练寻找最小值;
整个Image Captioning框架主要是用PyTorch实现的,用Adam进行优化。在实验的参数方面,Up-Down模型遵循的设置,语言LSTM的隐藏状态维度设置为1000,注意LSTM和单词嵌入维度设置为1000,注意层的维度是512。使用预先训练的Faster-RCNN模型从pool-5层中提取2048维的目标特征。在特征融合网络中,使用soft-attention作为融合注意力网络,使用GRU作为融合编码器。融合GRU的输入维度维数为1000,隐藏状态维数为1000,层级之间的传递维数为1000。在训练模型方面,遵循Up-Down模型中的训练策略,首先使用Adam优化器以5e-4的学习速度对Captioning model模型进行交叉熵损失训练寻找最小值,批次大小为10,历时30个epochs,并每5个周期增加0.05的预定抽样概率。
S303使用self-critical training strategy通过CIDEr-D奖赏继续优化训练;
使用self-critical training strategy通过CIDEr-D奖赏继续优化训练,以5e-5的学习速率,重量衰减为1e-5,批处理大小设置为10,历时30个epochs。
S304采用波束搜索策略进行推理测试;
在推理测试方面,采用波束搜索策略,并将波束大小设为2。
S305对模型进行评价。
同时使用传统的Image Captioning评价指标对模型进行评价。
在表1和表2中报告了模型在offline COCO Karpathy test split的性能表现。为了与其他模型公平地进行性能比较,模型都是基于编解码器框架的生成方法。比较的模型包括:LSTM-A,获取高层语义属性特征嵌入到解码器中加以利用;pLSTM-A-2*,利用LSTM并行融合解码器部分的动态语义和视觉信息;VS-LSTM,使用语义属性特征替换低级视觉特性;DAA,自适应注意视觉语义区域和文本内容;RFNet,融合多个CNN网络的编码特征形成对解码器的表示;Up-Down,采用较快的R-CNN对象检测方法作为编码器,使用两层LSTM作为解码器;VSV-VRA-POS,将POS标签引入到语言模型中,并设计视觉骨架向量来约束POS语言模型;Zhao et al.,采用基于检索的方法,查询相似的图像对应标题作为额外的文本特征信息用于生成模型中;SCST,首次提出使用SCST优化评价指标;SR-PL通过自我检索指导产生有判别力的句子;Stack-Cap,提出了一个由粗到细的堆叠注意力模型;SEM,提出了语义增强网络和极难否定挖掘方法;VRES+AFS,使用先前的视觉上下文来考虑当前的序列推理。
Table 1.Experiment of our proposed feature fusion network on theMSCOCO Karpathy test split with both cross-entropy loss.Test results showthat our proposed methods have obvious improvement over our baseline.B-1/B-4/M/R/C/S refers to BLEU1/BLEU4/METEOR/ROUGE-L/CIDEr/SPICE scores.
Table 2.The results of our system which is optimized by CIDEroptimization on the MSCOCO Karpathy set test split.
在表1和表2中,分别公布了本文的多模态特征融合网络(MFF-Net)与上述其他模型在交叉熵损失优化训练和optimized for CIDEr-D score结果分数。可以看到,模型在大部分指标上与其他模型比较都获得了最高的分数。也从在线COCO测试服务器上对的模型进行了评估。如表3所示,总共比较了7个模型,并详细说明了使用5个参考标题(c5)和40个参考标题(c40)的官方测试图像的性能。可以看出,MFF-Net在大多数指标上的得分优于其他模型。
Table 3.Results of our system with CIDEr optimization on COCO onlinetesting server.c5 and c40 denote the official testing image set with 5 and 40reference captions respectively.
为了证明提出的方法的有效性和通用性,也实现了提出的方法与其他编解码模型的比较:Stack-Cap,att2all和Adaptive。对以上三种模型做了对比实验如表4所示,结果表明所提出的方法对于大多数encoder-decoder模型具有广泛的适用性。具体来说,提出的方法平均在Adaptive上提高了3.4%,在att2all上提高了3.3%,在Stack-Cap上提高2.1%。
Table 4.Performance of our proposed approach is better than that ofother encoder-decoder models after 15epochs of cross-entropy loss training.
表5显示了一些示例,其中每个实例包含的MFF-Net和强大的Up-Down基线生成的图像描述以及人为标注的3个ground truth(GT)。从这些示例中,发现基线模型生成的标题符合语言逻辑,但描述内容不够准确,与图像内容不太匹配。而MFF-Net生成的标题相对准确且更具描述性。具体来说,的MFF-Net在以下三个方面具有优势:1)MFF-Net反映出图像中对象之间的相互作用关系,第一个实例中,MFF-Net能知道一只黑狗是坐在一盘食物旁边的地板上;第二个实例中,MFF-Net能知道一个人头上顶着一串香蕉;2)MFF-Net对图像中对象的计数更为准确。在第三个例子的图像中有两个橘子一个香蕉。然而,的MFF-Net能够正确计数,基线模型只能找到一个橘子一个香蕉;3)MFF-Net生成的图像描述更生动形象。在第四个例子的图像中,一只黑白相间的牛在田野上站着。虽然MFF-Net和基线模型都能准确的生成描述句子,但MFF-Net生成的句子更具丰富性。整体来说,MFF-Net具有这些优势,因为它序列融合了图像中原本单一的对象特征,使其特征之间具备关联性,并且通过层级连接方式精炼出更加丰富的语义信息。
Table 5.Examples of captions generated by MFF-Net and a baselinemodel as well as the corresponding ground truths.
为了更好的检验多模态特征融合网络(MFF-Net)在图像编码器和句子解码器中对图像字幕的影响,如表6所示,与其他具有不同设置的模型进行消融研究。首先设置一个基础模型,它是最原始的框架结构。下一步,对模型进行扩展,在编码器和解码器之间加入了的MFF-Net,并设置循环神经网络使用LSTM和GRU两种不同的融合方式,发现都取得了较好的性能,但显然使用GRU效果更好且更容易收敛。然后,在GRU基础上使用了多头注意力网络,发现性能有所下降,从而验证使用GRU加传统的注意力的方式能够取得最佳性能。表明在基础模型的输入端使用了全局层级特征替换之前的全局池化特征,发现在替换之后,模型的效果有了一定提高。此外,为了说明特征融合的性能与MFF-Net层数的数量关系,在使用了全局融合层级特征基础上设置了层数变量,结果发现在融合网络中叠加层数可以提高性能,从而验证了融合网络层级之间交互的有效性。然而,当叠加到3层时,并没有观察到显著的性能提高。推测,叠加更多的层数而增加的参数可能导致过拟合,在一定程度上阻碍了以这种方式更高层级的融合。
Table 6.The results of 15 epochs of cross entropy loss optimizationfor multi-mode feature fusion network ablation research.
本文提出了一种新的多模态特征融合机制,以提高Captioning model生成图像-文本匹配的语句性能。的模型设计使用循环神经网络结合注意力方式对目标特征进行关联融合,并提出结构层级化,帮助融合网络学习图像的细粒度信息,增强多层信息交互性。为了验证的模型性能,在COCO数据集上进行的大量实验证明了MFF-Net模型的有效性,实现了与最先进的方法相比的竞争性能。也在其他传统的模型架构上进行了实验,并证实了提出的方法可以应用于所有Captioning model。在未来的工作中,将继续探索特征融合方式,尝试引入其他注意力网络,并设计更加有效的融合架构。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (4)
1.一种多模态特征融合网络的图像描述生成方法,其特征在于,
包括构建多模态特征融合网络;
在Up-Down模型基础架构上设计解码端;
将多模态特征融合网络融入到解码端,形成基于多模态特征融合网络的图像描述生成模型;
训练基于多模态特征融合网络的图像描述生成模型;
输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证;所述多模态特征融合网络由多层特征融合模块级联而成,每一层由注意力模块和循环神经网络组合而成;每层都包括局部特征信息和全局特征信息,所述局部特征信息用于注意力模块的使用;所述全局特征信息作为循环神经网络的初始向量;所述构建多模态特征融合网络的具体步骤是:
将当前层特征融合模块的特征输出嵌入到下一层的特征融合模块中;
通过注意力模块将上一层的融合特征传递到所述当前层的循环神经网络中,循环神经网络每一时间步的输入为当前的隐含层和加权融合注意力;
将所述下一层每一时刻循环单元的输出结果拼接起来,形成最终的融合向量组;
每层的循环融合网络后设置前馈神经网络进行处理,所述前馈神经网络由两个线性变换组成,两个线性变换之间使用ReLU激活函数连接;
然后使用残差连接和层标准化;
对池化层级特征向量依次相加,并通过学习嵌入矩阵参数得到全局层级特征。
2.如权利要求1所述的一种多模态特征融合网络的图像描述生成方法,其特征在于,
所述解码端由生成注意权重注意网络和生成单词语言网络构成。
3.如权利要求1所述的一种多模态特征融合网络的图像描述生成方法,其特征在于,
所述训练基于多模态特征融合网络的图像描述生成模型的具体方式是:使用交叉熵损失和CIDEr优化来训练模型。
4.如权利要求1所述的一种多模态特征融合网络的图像描述生成方法,其特征在于,
所述输入测试图像,对基于多模态特征融合网络的图像描述生成模型的性能进行验证的具体步骤是:
输入测试图像并初始化生成模型参数;
使用Adam优化器对Captioning model模型进行交叉熵损失训练寻找最小值;
使用self-critical training strategy通过CIDEr-D奖赏继续优化训练;
采用波束搜索策略进行推理测试;
对模型进行评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110562471.1A CN113673535B (zh) | 2021-05-24 | 2021-05-24 | 一种多模态特征融合网络的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110562471.1A CN113673535B (zh) | 2021-05-24 | 2021-05-24 | 一种多模态特征融合网络的图像描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673535A CN113673535A (zh) | 2021-11-19 |
CN113673535B true CN113673535B (zh) | 2023-01-10 |
Family
ID=78538127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110562471.1A Expired - Fee Related CN113673535B (zh) | 2021-05-24 | 2021-05-24 | 一种多模态特征融合网络的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673535B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581425B (zh) * | 2022-03-10 | 2022-11-01 | 四川大学 | 一种基于深度神经网络的心肌段缺损图像处理方法 |
CN114926828B (zh) * | 2022-05-17 | 2023-02-24 | 北京百度网讯科技有限公司 | 场景文本识别方法、装置、电子设备及存储介质 |
CN116152623B (zh) * | 2023-04-04 | 2023-07-18 | 江西财经大学 | 基于多粒度特征融合的全景图像描述方法与系统 |
CN116994069B (zh) * | 2023-09-22 | 2023-12-22 | 武汉纺织大学 | 一种基于多模态信息的图像解析方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN111079601A (zh) * | 2019-12-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于多模态注意力机制的视频内容描述方法、系统、装置 |
CN111144553A (zh) * | 2019-12-28 | 2020-05-12 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210499B (zh) * | 2019-06-03 | 2023-10-13 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
US10699129B1 (en) * | 2019-11-15 | 2020-06-30 | Fudan University | System and method for video captioning |
-
2021
- 2021-05-24 CN CN202110562471.1A patent/CN113673535B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN111079601A (zh) * | 2019-12-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于多模态注意力机制的视频内容描述方法、系统、装置 |
CN111144553A (zh) * | 2019-12-28 | 2020-05-12 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
Non-Patent Citations (2)
Title |
---|
"Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering";Peter Anderson et al;《arXiv:1707.07998v3》;20180314;第1-15页 * |
"结合全局-局部特征和注意力的图像描述方法";谢琦彬等;《计算机工程与应用》;20210412;第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113673535A (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673535B (zh) | 一种多模态特征融合网络的图像描述生成方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
Gu et al. | Stack-captioning: Coarse-to-fine learning for image captioning | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN108681610B (zh) | 生成式多轮闲聊对话方法、系统及计算机可读存储介质 | |
CN111858931B (zh) | 一种基于深度学习的文本生成方法 | |
Makhzani et al. | Adversarial autoencoders | |
You et al. | Image captioning at will: A versatile scheme for effectively injecting sentiments into image descriptions | |
CN111159454A (zh) | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 | |
CN111651974B (zh) | 一种隐式篇章关系分析方法和系统 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN111859978A (zh) | 一种基于深度学习的情感文本生成方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN114443827A (zh) | 基于预训练语言模型的局部信息感知对话方法及系统 | |
CN109543820B (zh) | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN111368142B (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN109242090B (zh) | 一种基于gan网络的视频描述及描述一致性判别方法 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
Olivastri et al. | End-to-end video captioning | |
CN113298816A (zh) | 一种遥感图像语义分割方法、装置和计算机设备 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230110 |
|
CF01 | Termination of patent right due to non-payment of annual fee |