CN113673535B

CN113673535B - 一种多模态特征融合网络的图像描述生成方法

Info

Publication number: CN113673535B
Application number: CN202110562471.1A
Authority: CN
Inventors: 杨有; 陈立志; 杨学森; 余平; 尚晋
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2023-01-10
Anticipated expiration: 2041-05-24
Also published as: CN113673535A

Abstract

本发明涉及图像数据处理领域，公开了一种多模态特征融合网络的图像描述生成方法，包括构建多模态特征融合网络；在Up‑Down模型基础架构上设计解码端；将多模态特征融合网络融入到解码端，形成基于多模态特征融合网络的图像描述生成模型；训练基于多模态特征融合网络的图像描述生成模型；输入测试图像，对基于多模态特征融合网络的图像描述生成模型的性能进行验证。本发明使用循环神经网络构建层级结构来融合编码特征，且使用注意力机制来加权输入信息，以此让编码器提取的单一图像特征相互关联，增强特征交互，从而更好地挖掘隐含层向量和对象特征的关联性，实现更高的图像描述生成性能。

Description

一种多模态特征融合网络的图像描述生成方法

技术领域

本发明涉及图像数据处理领域，尤其涉及一种多模态特征融合网络的图像描述生成方法。

背景技术

理解一幅图像很大程度上依赖于所获得的图像特征，用于获取特征的技术包括传统的机器学习技术和深度机器学习技术。传统的机器学习技术，提取LBPs、SIFT和HOG等人工特征，将它们或它们的组合送入SVM等分类器，用于确定对象类别，这种方法存在两个缺点，一是这些人工特征都是面向任务的，从量大而且具有多样性的数据集中提取此类特征是不可行的；二是真实世界的数据复杂而且具有不同的语义解释。相反，深度机器学习技术，可以从训练集中自动学习特征，而且适合处理量大且具有多样性的数据集。

现有的LSTM-A、Plstm-a-2、VS-LSTM、DAA、RFNet、Up-Down和VSV-VRV-POS等代表性模型，图像特征的提取和利用不够充分、语义鸿沟依然存在。

发明内容

本发明的目的在于提供一种多模态特征融合网络的图像描述生成方法，旨在更好地挖掘隐含层向量和对象特征的关联性，实现更高的图像描述生成性能。

为实现上述目的，本发明提供了一种多模态特征融合网络的图像描述生成方法，包括构建多模态特征融合网络；

在Up-Down模型基础架构上设计解码端；

将多模态特征融合网络融入到解码端，形成基于多模态特征融合网络的图像描述生成模型；

训练基于多模态特征融合网络的图像描述生成模型；

输入测试图像，对基于多模态特征融合网络的图像描述生成模型的性能进行验证。

其中，所述多模态特征融合网络由多层特征融合模块级联而成，每一层由注意力模块和循环神经网络组合而成；每层都有都包括局部特征信息和全局特征信息，所述局部特征信息用于注意力模块的使用；所述全局特征信息作为循环神经网络的初始向量。

其中，所述构建多模态特征融合网络的具体步骤是：

将当前层特征融合模块的特征输出嵌入到下一层的特征融合模块中；

通过注意力模块将上一层的融合特征传递到所述当前层的循环神经网络中，循环神经网络每一时间步的输入为当前的隐含层和加权融合注意力；

将所述下一层每一时刻循环单元的输出结果拼接起来，形成最终的融合向量组；

每层的循环融合网络后设置前馈神经网络进行处理，该所述前馈神经网络由两个线性变换组成，两个线性变换之间使用ReLU激活函数连接；

然后使用残差连接和层标准化；

对池化层级特征向量依次相加，并通过学习嵌入矩阵参数得到全局层级特征。

其中，所述解码端由生成注意权重注意网络和生成单词语言网络构成。

其中，所述训练基于多模态特征融合网络的图像描述生成模型的具体方式是：使用交叉熵损失和CIDEr优化来训练模型。

其中，所述输入测试图像，对基于多模态特征融合网络的图像描述生成模型的性能进行验证的具体步骤是：

输入测试图像并初始化生成模型参数；

使用Adam优化器对Captioning model模型进行交叉熵损失训练寻找最小值；

使用self-critical training strategy通过CIDEr-D奖赏继续优化训练；

采用波束搜索策略进行推理测试；

对模型进行评价。

本发明的一种多模态特征融合网络的图像描述生成方法，提出一种多模态特征融合网络(MFF-Net)，使用多模态结构扩展传统编解码框架，以增强对象特征之间的相关性。MFF-Net使用循环神经网络构建层级结构来融合编码特征，且使用注意力机制来加权输入信息，以此让编码器提取的单一图像特征相互关联，增强特征交互。实验结果表明，MFF-Net模型方法达到了与最先进的方法竞争的性能，在MS COCO Karpathy离线测试split上达到了126.5CIDEr-D分数，在官方在线测试服务器上达到了123.2CIDEr-D(C40)分数。

本发明的有益效果如下：

提出利用循环神经网络结合注意力学习融合图像特征，这是对单一编解码器模型的扩展，能更好的获取内在特征的序列关联性；在编码器和解码器之间应用了融合网络，以层次结构相互连接，并在解码器端融合了的层级特征向量。这样能充分挖掘对象特征之间更高层级的相互关系，生成更加详细的图像描述；提出的方法具备通用性，可以应用于其他编解码框架的视觉-语言任务中。在MSCOCO数据集上与最先进的方法相比，图像描述模型实现了具有竞争力的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种多模态特征融合网络的图像描述生成方法的流程图；

图2是本发明的构建多模态特征融合网络的流程图；

图3是本发明的输入测试图像，对基于多模态特征融合网络的图像描述生成模型的性能进行验证的流程图；

图4是本发明的一种多模态特征融合网络架构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1～图4，本发明提供一种多模态特征融合网络的图像描述生成方法，包括：

S101构建多模态特征融合网络；

所述多模态特征融合网络由多层特征融合模块级联而成，每一层由注意力模块和循环神经网络组合而成；每层都有都包括局部特征信息和全局特征信息，所述局部特征信息用于注意力模块的使用；所述全局特征信息作为循环神经网络的初始向量。注意力模块用于图像区域特征和循环神经网络序列特征两者模态间的信息交互，循环神经网络用于增强特征之间的关联和融合不同的图像局部特征。

具体步骤是：

S201将当前层特征融合模块的特征输出嵌入到下一层的特征融合模块中；

以第I(0≤I＜M)层的输出

为例。首先它们被嵌入到第I+1层的特征融合模块中：

其中F^I+1代表MFF-Net的第I+1层的特征输出。

FFM(·)代表特征融合模块(即MFF-Net)的输出。

F^I代表MFF-Net的第I(0≤I＜M)层的特征输出。

代表F^I的均值，

F^I代表MFF-Net的第I(0≤I＜M)层的特征输出，它共有k个分量，每个分量用

表示。

代表F^I中k个分量的均值。

其中H^I+1是通过特征融合模块输出的隐藏状态，FFM(·)表示特征融合模块，

表示第I层的池化层级特征。注意的是，F⁰是使用Faster R-CNN目标检测方法提取的图像区域特征

S202通过注意力模块将上一层的融合特征传递到所述当前层的循环神经网络中，循环神经网络每一时间步的输入为当前的隐含层和加权融合注意力；

代表I+1层在t+1时刻的网络隐状态，

RNN[·]代表循环神经网络的输出。

代表I+1层在t时刻的权重系数。

代表I+1层在t时刻的网络隐状态。

表示第I层的第i个特征在t时刻的权重系数。

表示融合层需要学习的视觉参数。

tanh(·)表示双曲正切激活函数。

表示第I层MFF-Net输出特征的第i个分量。

W_mf和W_mh表示融合层需要学习的视觉参数。

表示第I+1层MFF-Net网络在t时刻的隐状态。

表示第I层的t时刻全部特征的权重系数。

softmax(·)表示归一化到[0,1]的操作。

表示第I+1层在t时刻对特征学习得到的关注结果。

表示第I层的第i个特征在t时刻的被关注程度，即权重系数。

表示第I层MFF-Net输出特征的第i个分量。

其中，隐含层初始化状态

为上一层的池化层级特征

W_mf，W_mh和

是融合层需要学习的视觉参数；

是t时刻学习得到的关注结果。注意，这里融合方式使用门控循环单元(GRU)，因为它不仅能在保留长期序列信息下减少梯度消失问题，而且相对LSTM参数更少更容易收敛。

S203将所述下一层每一时刻循环单元的输出结果拼接起来，形成最终的融合向量组；

将第I+1层每一时刻循环单元的输出结果拼接起来，形成最终的H^I+1融合向量组。

H^I+1表示第I+1层的融合向量组。

Concat(·)表示向量连接操作。

分别代表第I+1层时刻1、2、…、t的循环单元的隐状态(即循环单元的输出结果)。

符号“[·，·]”表示向量拼接操作。

S204每层的循环融合网络后设置前馈神经网络进行处理，该所述前馈神经网络由两个线性变换组成，两个线性变换之间使用ReLU激活函数连接；

在每一子层的循环融合网络后是一个前馈神经网络(FFN)，该网络由两个线性变换组成，两个线性变换之间使用ReLU激活函数：

FFN(x)＝W₂ReLU(W₁x+b₁)+b₂ (18)

F^I+1＝FFN(H^I+1) (19)

x表示FFN网络的输入向量。

FFN(x)表示前馈神经网络的输出。

表示FFN学习参数。

ReLU表示激活函数。

表示FFN学习参数。

b₁表示W₁的偏置项。

b₂表示W₂的偏置项。

是I+1块的输出。

H^I+1表示第I+1层的融合向量。

FFN(·)表示前馈神经网络的输出。

其中，

是I+1块的输出。

S205然后使用残差连接和层标准化；

每个子层之后使用残差连接和层标准化，这里省略它们以进行简明的解释。

表示全局层级特征。

W_g和W_f为连接参数。

tanh(·)表示双曲正切激活函数。

表示第I层MFF-Net网络输出特征向量的均值。

代表V的均值。

M表示MFF-Net网络总共有多少层数。

S206对池化层级特征向量依次相加，并通过学习嵌入矩阵参数得到全局层级特征。

为了鼓励学习层级之间的相互作用关系，促进多模态信息交互，对池化层级特征向量依次相加，并通过学习W_g，和W_f嵌入矩阵参数,得到全局层级特征

S102在Up-Down模型基础架构上设计解码端；

所述解码端由生成注意权重注意网络和生成单词语言网络构成。

Up-Down模型有着卓越的表现，使用其作为本模型方法的基础框架。这个框架有两个LSTM堆积组成，一个生成注意权重的注意LSTM^att，一个生成单词的语言LSTM^lang。它们在t时刻的隐含状态分别表示为

和

在较高的层次上，LSTM的隐藏状态被建模为:

h_t＝LSTM(x_t，h_t-1) (1)

其中h_t和h_t-1为LSTM网络在t时刻和t-1时刻的隐藏状态。LSTM()表示LSTM网络的输出，x_t为LSTM输入向量。为了便于记法，省略了存储单元的传播。

其中，

表示解码端注意力网络在t时刻的隐藏状态；X_t-1表示t-1时刻的词嵌入向量；

表示全局层级特征；

表示解码端语言网络在t-1时刻的隐藏状态；LSTM^att()表示注意力网络的映射操作。

对于注意LSTM的每一时间步输入，其中X_t-1是前一个词嵌入、

是前一个语言LSTM的隐藏状态向量。

是来自MFF-Net的全局层级特征，它为注意LSTM提供了图像的多层级融合信息。多模态特征融合网络细节将在第3.2节中说明。

对给定图像I经过多模态特征融合网络的M个子层后，其输出融合特征F^M可以表示为：

其中，

代表MFF-Net最后一层融合特征F^M的第i个分量，每个分量为D维的实数。

语言模型LSTM的输入由注意加权图像特征与当前注意LSTM的隐藏状态连接而成：

其中LSTM^lang代表语言网络，att_t表示语言网络LSTM^lang在t时刻的注意力，

表示注意力网络LSTM^att在t时刻的隐状态，

表示语言网络LSTM^lang在t时刻的隐状态；LSTM^lang表示语言网络的映射输出。

其中，att_t是f_i的加权和：

α_t＝softmax(a_t) (6)

其中

W_af和W_ah是学习视觉注意部分的参数。

是F的相关权值，其和为1，即

att_t是F的加权和，表示要生成单词的最相关位置。

α_t，i表示第i层t时刻对特征的关注程度，即权重系数。

tanh表示双曲正切激活函数

softmax(·)表示归一化到[0,1]的操作。

表示MFF-Net第M层的第i个融合特征分量。

使用符号y_1：T引用一个单词序列(y₁，...，y_T)，在每个时间步长t下，给定对可能输出单词的条件分布:

p(y_t|y_1：t-1)单词序列的条件概率。

softmax(·)表示归一化到[0,1]的操作。

W_p表示

映射输出的学习参数

b_p表示

映射输出的偏置

表示语言LSTM网络在t时刻的隐状态。

对完整输出序列的分布计算为条件分布的乘积:

p(y_1∶T)表示解码端完整输出单词序列的分布概率。

p(y_t|y_1：t-1)单词序列的条件概率。

符合

表示乘积运算。

S103将多模态特征融合网络融入到解码端，形成基于多模态特征融合网络的图像描述生成模型；

S104训练基于多模态特征融合网络的图像描述生成模型；

具体方式是：使用交叉熵损失和CIDEr优化来训练模型。

在给定目标地真值序列

和带有参数θ的描述模型的情况下，通过优化交叉熵(XE)L_XE对MFF-Net进行训练：

L_XE(θ)表示损失函数。

表示参数为θ的联合概率分布。

表示t时刻的预测输出。

表示t时刻的输入。

自强化学习应用于描述模型以来，大量研究都使用该方法来优化训练。为了进行公平的比较，从交叉熵训练的模型初始化，寻求最小的负期望分数：

L_R(·)表示强化学习的奖赏函数。

θ表示模型的优化参数。

p_θ表示参数θ的分布。

E表示y_1∶T服从p_θ分布时r(y_1∶T)的数学期望。

r(y_1：T)表示通过解码当前模型生成句子获得的分数。

其中r为CIDEr-D评分函数。直接用自临界序列训练(SCST)优化不可微指标，这种损失的梯度可以近似：

其中:

表示求导操作。

L_R(·)表示强化学习的奖赏函数。

符号“≈”表示使用蒙特卡罗方法近似采样。

为采样标题，上标“s”代表句子。

定义贪婪解码当前模型得到的基线得分。

p_θ表示参数θ的分布.

S105输入测试图像，对基于多模态特征融合网络的图像描述生成模型的性能进行验证。

具体步骤是：

S301输入测试图像并初始化生成模型参数；

首先在数据预处理部分，将训练图像集中图像标注语句的所有单词全部转换为小写字母,并以出现次数大于指定阈值的单词建立单词库，在本文实验中单词阈值设为5。在实验部分，使用MSCOCO 2014 captions数据集来评估提出的方法。MSCOCO数据集包含123,287张图像，每个图像标有5个标题，包括82,783张训练图像和40,504张验证图像。MSCOCO也提供了40,775张图片作为在线评估的测试集。The offline“Karpathy″data split用于离线性能比较，这种分割在之前的工作中得到了广泛的应用，其中113,287张带有5个标题的图像进行训练，并用5000张图像用于验证，5000张图像用于测试。为了对本文所提出的模型方法进行定量的性能评价，并与其他方法进行比较，使用了标准的自动评估指标，其中包括BLEU，METEOR,ROUGE-L常规机器翻译的度量指标，以及专门用于image captioning的CIDEr-D和SPICE度量指标。

S302使用Adam优化器对Captioning model模型进行交叉熵损失训练寻找最小值；

整个Image Captioning框架主要是用PyTorch实现的，用Adam进行优化。在实验的参数方面，Up-Down模型遵循的设置，语言LSTM的隐藏状态维度设置为1000，注意LSTM和单词嵌入维度设置为1000，注意层的维度是512。使用预先训练的Faster-RCNN模型从pool-5层中提取2048维的目标特征。在特征融合网络中，使用soft-attention作为融合注意力网络，使用GRU作为融合编码器。融合GRU的输入维度维数为1000，隐藏状态维数为1000，层级之间的传递维数为1000。在训练模型方面，遵循Up-Down模型中的训练策略，首先使用Adam优化器以5e-4的学习速度对Captioning model模型进行交叉熵损失训练寻找最小值，批次大小为10，历时30个epochs,并每5个周期增加0.05的预定抽样概率。

S303使用self-critical training strategy通过CIDEr-D奖赏继续优化训练；

使用self-critical training strategy通过CIDEr-D奖赏继续优化训练，以5e-5的学习速率，重量衰减为1e-5，批处理大小设置为10，历时30个epochs。

S304采用波束搜索策略进行推理测试；

在推理测试方面，采用波束搜索策略，并将波束大小设为2。

S305对模型进行评价。

同时使用传统的Image Captioning评价指标对模型进行评价。

在表1和表2中报告了模型在offline COCO Karpathy test split的性能表现。为了与其他模型公平地进行性能比较，模型都是基于编解码器框架的生成方法。比较的模型包括：LSTM-A，获取高层语义属性特征嵌入到解码器中加以利用；pLSTM-A-2*，利用LSTM并行融合解码器部分的动态语义和视觉信息；VS-LSTM，使用语义属性特征替换低级视觉特性；DAA，自适应注意视觉语义区域和文本内容；RFNet，融合多个CNN网络的编码特征形成对解码器的表示；Up-Down，采用较快的R-CNN对象检测方法作为编码器，使用两层LSTM作为解码器；VSV-VRA-POS，将POS标签引入到语言模型中，并设计视觉骨架向量来约束POS语言模型；Zhao et al.，采用基于检索的方法，查询相似的图像对应标题作为额外的文本特征信息用于生成模型中；SCST，首次提出使用SCST优化评价指标；SR-PL通过自我检索指导产生有判别力的句子；Stack-Cap，提出了一个由粗到细的堆叠注意力模型；SEM，提出了语义增强网络和极难否定挖掘方法；VRES+AFS，使用先前的视觉上下文来考虑当前的序列推理。

Table 1.Experiment of our proposed feature fusion network on theMSCOCO Karpathy test split with both cross-entropy loss.Test results showthat our proposed methods have obvious improvement over our baseline.B-1/B-4/M/R/C/S refers to BLEU1/BLEU4/METEOR/ROUGE-L/CIDEr/SPICE scores.

Table 2.The results of our system which is optimized by CIDEroptimization on the MSCOCO Karpathy set test split.

在表1和表2中，分别公布了本文的多模态特征融合网络(MFF-Net)与上述其他模型在交叉熵损失优化训练和optimized for CIDEr-D score结果分数。可以看到，模型在大部分指标上与其他模型比较都获得了最高的分数。也从在线COCO测试服务器上对的模型进行了评估。如表3所示，总共比较了7个模型，并详细说明了使用5个参考标题(c5)和40个参考标题(c40)的官方测试图像的性能。可以看出，MFF-Net在大多数指标上的得分优于其他模型。

Table 3.Results of our system with CIDEr optimization on COCO onlinetesting server.c5 and c40 denote the official testing image set with 5 and 40reference captions respectively.

为了证明提出的方法的有效性和通用性，也实现了提出的方法与其他编解码模型的比较:Stack-Cap，att2all和Adaptive。对以上三种模型做了对比实验如表4所示，结果表明所提出的方法对于大多数encoder-decoder模型具有广泛的适用性。具体来说，提出的方法平均在Adaptive上提高了3.4％，在att2all上提高了3.3％，在Stack-Cap上提高2.1％。

Table 4.Performance of our proposed approach is better than that ofother encoder-decoder models after 15epochs of cross-entropy loss training.

表5显示了一些示例，其中每个实例包含的MFF-Net和强大的Up-Down基线生成的图像描述以及人为标注的3个ground truth(GT)。从这些示例中，发现基线模型生成的标题符合语言逻辑，但描述内容不够准确，与图像内容不太匹配。而MFF-Net生成的标题相对准确且更具描述性。具体来说，的MFF-Net在以下三个方面具有优势:1)MFF-Net反映出图像中对象之间的相互作用关系，第一个实例中，MFF-Net能知道一只黑狗是坐在一盘食物旁边的地板上；第二个实例中，MFF-Net能知道一个人头上顶着一串香蕉；2)MFF-Net对图像中对象的计数更为准确。在第三个例子的图像中有两个橘子一个香蕉。然而，的MFF-Net能够正确计数，基线模型只能找到一个橘子一个香蕉；3)MFF-Net生成的图像描述更生动形象。在第四个例子的图像中，一只黑白相间的牛在田野上站着。虽然MFF-Net和基线模型都能准确的生成描述句子，但MFF-Net生成的句子更具丰富性。整体来说，MFF-Net具有这些优势，因为它序列融合了图像中原本单一的对象特征，使其特征之间具备关联性，并且通过层级连接方式精炼出更加丰富的语义信息。

Table 5.Examples of captions generated by MFF-Net and a baselinemodel as well as the corresponding ground truths.

为了更好的检验多模态特征融合网络(MFF-Net)在图像编码器和句子解码器中对图像字幕的影响，如表6所示，与其他具有不同设置的模型进行消融研究。首先设置一个基础模型，它是最原始的框架结构。下一步，对模型进行扩展，在编码器和解码器之间加入了的MFF-Net，并设置循环神经网络使用LSTM和GRU两种不同的融合方式，发现都取得了较好的性能，但显然使用GRU效果更好且更容易收敛。然后，在GRU基础上使用了多头注意力网络，发现性能有所下降，从而验证使用GRU加传统的注意力的方式能够取得最佳性能。表明在基础模型的输入端使用了全局层级特征替换之前的全局池化特征，发现在替换之后，模型的效果有了一定提高。此外，为了说明特征融合的性能与MFF-Net层数的数量关系，在使用了全局融合层级特征基础上设置了层数变量，结果发现在融合网络中叠加层数可以提高性能，从而验证了融合网络层级之间交互的有效性。然而，当叠加到3层时，并没有观察到显著的性能提高。推测，叠加更多的层数而增加的参数可能导致过拟合，在一定程度上阻碍了以这种方式更高层级的融合。

Table 6.The results of 15 epochs of cross entropy loss optimizationfor multi-mode feature fusion network ablation research.

本文提出了一种新的多模态特征融合机制，以提高Captioning model生成图像-文本匹配的语句性能。的模型设计使用循环神经网络结合注意力方式对目标特征进行关联融合，并提出结构层级化，帮助融合网络学习图像的细粒度信息，增强多层信息交互性。为了验证的模型性能，在COCO数据集上进行的大量实验证明了MFF-Net模型的有效性，实现了与最先进的方法相比的竞争性能。也在其他传统的模型架构上进行了实验，并证实了提出的方法可以应用于所有Captioning model。在未来的工作中，将继续探索特征融合方式，尝试引入其他注意力网络，并设计更加有效的融合架构。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种多模态特征融合网络的图像描述生成方法，其特征在于，

包括构建多模态特征融合网络；

在Up-Down模型基础架构上设计解码端；

训练基于多模态特征融合网络的图像描述生成模型；

输入测试图像，对基于多模态特征融合网络的图像描述生成模型的性能进行验证；所述多模态特征融合网络由多层特征融合模块级联而成，每一层由注意力模块和循环神经网络组合而成；每层都包括局部特征信息和全局特征信息，所述局部特征信息用于注意力模块的使用；所述全局特征信息作为循环神经网络的初始向量；所述构建多模态特征融合网络的具体步骤是：

每层的循环融合网络后设置前馈神经网络进行处理，所述前馈神经网络由两个线性变换组成，两个线性变换之间使用ReLU激活函数连接；

然后使用残差连接和层标准化；

2.如权利要求1所述的一种多模态特征融合网络的图像描述生成方法，其特征在于，

3.如权利要求1所述的一种多模态特征融合网络的图像描述生成方法，其特征在于，

所述训练基于多模态特征融合网络的图像描述生成模型的具体方式是：使用交叉熵损失和CIDEr优化来训练模型。

4.如权利要求1所述的一种多模态特征融合网络的图像描述生成方法，其特征在于，

所述输入测试图像，对基于多模态特征融合网络的图像描述生成模型的性能进行验证的具体步骤是：

输入测试图像并初始化生成模型参数；

使用self-critical training strategy通过CIDEr-D奖赏继续优化训练；

采用波束搜索策略进行推理测试；

对模型进行评价。