CN113378919A

CN113378919A - 融合视觉常识和增强多层全局特征的图像描述生成方法

Info

Publication number: CN113378919A
Application number: CN202110642157.4A
Authority: CN
Inventors: 杨有; 方小龙; 尚晋; 胡峻滔; 姚露; 边雅琳
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-09-10
Anticipated expiration: 2041-06-09
Also published as: CN113378919B

Abstract

本发明涉及计算机视觉技术领域，具体公开了一种融合视觉常识和增强多层全局特征的图像描述生成方法，融合VC R‑CNN提取的视觉常识特征和FasterR‑CNN提取的局部特征，得到融合特征；采用X线性注意力机制挖掘对象之间的视觉语义关系，以获得高层局部特征和多层全局特征；采用AoA机制增强多层全局特征，线性映射得到融合全局特征；利用视觉选择的长短时记忆对融合全局特征进行筛选，并采用X线性注意力机制对高层局部特征加权自适应地选择相关信息，最后使用语义解码的门控线性单元生成输出单词序列。解决了局部特征的图像描述生成模型对视觉语义关系挖掘不充分，且注意力机制提取的多层全局特征存在冗余信息的问题。

Description

融合视觉常识和增强多层全局特征的图像描述生成方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种融合视觉常识和增强多层全局特征的图像描述生成方法。

背景技术

图像描述生成是计算机视觉领域中的高级任务之一，其目的是使计算机自动生成给定图像的自然语言描述。与图像分类和目标检测等低级和中级任务相比，它不仅需要识别图像中显著的物体及其属性，理解他们之间的相互关系，而且要用准确、流畅的自然语言来表达，这是一项极具挑战性的任务。当人类获取信息时，视觉系统会主动关注感兴趣的目标区域，并提取相关的重要信息。受人类视觉系统的启发，注意力机制已广泛应用于机器翻译、图像描述和视觉问答等机器视觉领域。在基于注意力机制的图像描述生成结构中，首先通过卷积神经网络(Convolutional Neural Network，CNN)将图像编码成一组中间图像特征向量，然后采用循环神经网络(Recurrent Neural Network，RNN)将中间图像特征向量翻译成输出的单词序列，注意力机制(Attention Mechanism，AM)在每个时间步长对提取的中间图像特征向量加权平均来指导解码器的单词生成。

在编码部分的特征提取网络后叠加多层注意力机制来挖掘对象之间的视觉语义关系。现有模型一般采用Faster R-CNN^[2]提取的局部特征作为输入，但这种方式通常难以描述确切的对象之间的视觉语义关系，即使预测的描述是正确的，潜在的视觉注意力也可能是不合理的。模型期望视觉特征包含了局部特征之间的隐藏常识信息，而不仅仅是视觉表象。

鉴于此，针对局部特征的图像描述生成模型对视觉语义关系挖掘不充分，且注意力机制提取的多层全局特征存在冗余信息的问题，提出一种融合视觉常识和增强多层全局特征的图像描述生成方法是十分有必要。

发明内容

本发明的目的在于提供一种融合视觉常识和增强多层全局特征的图像描述生成方法，旨在解决现有技术中的局部特征的图像描述生成模型对视觉语义关系挖掘不充分，且注意力机制提取的多层全局特征存在冗余信息的技术问题。

为实现上述目的，本发明采用的一种融合视觉常识和增强多层全局特征的图像描述生成方法，包括如下步骤：

利用VC R-CNN和Faster R-CNN对输入图像分别提取视觉常识特征和局部特征；

融合所述VC R-CNN提取的所述视觉常识特征和所述Faster R-CNN提取的所述局部特征，得到融合特征；

采用X线性注意力机制挖掘对象之间的视觉语义关系，以获得高层局部特征和多层全局特征；

采用AoA机制增强所述多层全局特征，线性映射得到融合全局特征；

利用视觉选择的长短时记忆对所述融合全局特征进行筛选，并采用X线性注意力机制对所述高层局部特征加权自适应地选择相关信息，最后使用语义解码的门控线性单元生成输出单词序列。

其中，利用所述VC R-CNN提取所述视觉常识特征的步骤为：

输入图像输入至卷积神经网络，并提取得到第一卷积特征图；

利用因果干预模块挖掘所述第一卷积特征图中区域特征y与区域x的关系，之后采用全连接得到所述视觉常识特征。

其中，利用所述Faster R-CNN提取局部特征的步骤为：

将所述输入图像输入到卷积神经网络中提取第二卷积特征图；

将所述第二卷积特征图作为RPN的输入并生成相应的推荐区域，并对所述推荐区域进行RoI池化；

之后采用插值算法对每个所述推荐区域的所述第二卷积特征图进行裁剪，将其转换为固定大小的尺寸，然后利用卷积和最大池化得到推荐区域特征图；

之后将每个区域的特征图进行R-CNN处理，筛选推荐区域并生成所述局部特征。

其中，所述局部特征的个数与所述视觉常识特征的个数相等。

其中，在融合所述VC R-CNN提取的所述视觉常识特征和所述Faster R-CNN提取的所述局部特征的步骤中：

采用向量拼接的融合方式将所述视觉常识特征和所述局部特征拼接后得到融合特征。

其中，所述AoA机制采用多头自注意力和门控线性单元实现。

本发明的一种融合视觉常识和增强多层全局特征的图像描述生成方法，通过首先融合VC R-CNN提取的视觉常识特征和Faster R-CNN提取的局部特征，然后采用X线性注意力机制挖掘高层局部特征和多层全局特征，并对多层全局特征分别施加AoA(Attention onAttention)机制以增强并获得更好的相关性，将其联合嵌入得到融合全局特征。解码部分利用长短时记忆对融合全局特征进行视觉选择，采用X线性注意力机制对高层局部特征加权选择相关信息，最后使用门控线性单元生成输出单词序列，解决了局部特征的图像描述生成模型对视觉语义关系挖掘不充分，且注意力机制提取的多层全局特征存在冗余信息的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的融合视觉常识和增强多层全局特征的图像描述生成方法的原理框图。

图2是本发明的视觉常识特征提取示意图。

图3是本发明的局部特征提取示意图。

图4是本发明的视觉常识特征和局部特征融合示意图。

图5是本发明的视觉语义关系挖掘与多层全局特征增强示意图。

图6是本发明的语义解码示意图。

图7是本发明的基于图片不同情境下生成句子的描述对比示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1，本发明提供了一种融合视觉常识和增强多层全局特征的图像描述生成方法，包括如下步骤：

利用VC R-CNN和Faster R-CNN对输入图像提取视觉常识特征和局部特征；

在本实施方式中，如图1所示，输入一张图像，特征的提取与融合部分采用VC R-CNN提取视觉常识特征C，Faster R-CNN提取局部特征L，将两种特征线性拼接(Concat)后得到融合特征V；视觉语义关系挖掘模块将V线性映射后，采用堆叠3层X线性注意力(XLA)机制、残差连接和归一化得到多层全局特征和高层局部特征。多层全局特征增强部分使用AoA机制，并将增强后的特征线性映射后得到融合全局特征，视觉选择的长短时记忆(LSTM)对融合全局特征进行视觉选择，采用X线性注意力(XLA)机制对高层局部特征加权选择相关信息，最后使用语义解码的门控线性单元(GLU)生成输出单词序列(如：A dog watching adog on a television)。

具体原理为：

编解码器模型将Faster R-CNN提取的局部特征作为输入，其特征表示图像中显著性区域，而这些显著性区域是相互独立的，并未产生语义关联。生成句子时仅根据相互独立的视觉表象，难以确切描述对象之间的潜在视觉语义关系。因此，本文融入了视觉常识特征指导模型生成更加符合人类常识的描述。在编码部分将视觉常识和局部这两种不同尺度的特征融合，送入串行叠加的X线性注意力机制来挖掘对象之间的视觉语义关系。而X线性注意力机制的串行叠加及残差连接使得每一层全局特征之间有冗余信息。因此，引入了多个AoA机制分别对多层全局特征进行筛选，从而捕获多层级的全局特征。

提出的图像描述生成模型结构如图1所示。在编码部分，输入图像经过VC R-CNN和Faster R-CNN提取视觉常识特征和局部特征，并将这两种不同尺度的特征进行融合，然后送入串行叠加的X线性注意力机制来挖掘对象之间的视觉语义关系，以获得高层局部特征和多层全局特征，同时采用AoA增强多层全局特征，线性映射得到融合全局特征。在解码部分，利用视觉选择的LSTM对融合全局特征进行筛选，并采用X线性注意力机制对高层局部特征加权自适应地选择相关信息，最后使用语义解码的门控线性单元(Gated Linear Unit，GLU)生成输出单词序列。解决了局部特征的图像描述生成模型对视觉语义关系挖掘不充分，且注意力机制提取的多层全局特征存在冗余信息的问题。

进一步地，利用所述VC R-CNN提取所述视觉常识特征的步骤为：

在本实施方式中，VC R-CNN提取视觉常识特征，大小为1024维，网络结构如图2所示。该网络结构以CNN为骨干网络将输入图像生成第一卷积特征图(骨干网络采用ResNet101)，网络不使用Faster R-CNN中的区域建议网络(Region Proposal Network，RPN)，而是将图像中标注的边界框通过RoI层直接用来提取对象级表示。最后，每两个RoI特征x和y使用因果干预的预测器来预测内容标签，最后通过全连接生成视觉常识特征向量C＝{C₁，C₂，...，C_N}，其中，N表示视觉常识向量的个数。

图2中，输入图像经过卷积神经网络(CNN)得到第一卷积特征图，区域特征y通过因果干预挖掘与区域x的关系，因果干预由注意力(Att)、NWGM(Normalized WeightedGeometric Mean)和混淆字典实现，通过全连接得到视觉常识特征C。

进一步地，利用所述Faster R-CNN提取局部特征的步骤为：

在本实施方式中，目标检测网络Faster R-CNN提取局部特征，大小为2048维，网络结构如图3所示。首先将图像输入到卷积神经网络CNN中提取第二卷积特征图，将特征图作为RPN的输入并生成相应的推荐区域，并对推荐区域进行RoI池化，采用插值算法对每个推荐区域的卷积特征图进行裁剪，将其转换为固定大小的尺寸，然后利用卷积和最大池化得到推荐区域特征图。将每个区域的特征图进行R-CNN处理(ReLU及两次全连接操作)，筛选推荐区域并生成局部特征向量L＝{L₁，L₂，...，L_N}。其中，N表示局部特征向量的个数，与视觉常识特征向量数量相等。

进一步地，在融合所述VC R-CNN提取的所述视觉常识特征和所述Faster R-CNN提取的所述局部特征的步骤中：

所述AoA机制采用多头自注意力和门控线性单元实现。

采用X线性注意力机制挖掘对象之间的视觉语义关系，以获得高层局部特征和多层全局特征，包括：

采用堆叠3层X线性注意力机制、残差连接和归一化得到多层全局特征和高层局部特征。

融合特征向量的数学表达式为：

V_i＝[C_i，L_i]，i＝1，2…，N (1)

其中[·，·]表示向量拼接，N表示融合特征向量的个数，i表示第i个特征向量；

X线性注意力机制的数学表达式为：

式(2)和式(3)中，q表示注意后的特征向量；F_XLA()表示X线性注意力机制函数，XLA即X线性注意力；Q，K，V是F_XLA()的输入，Q表示查询query，K表示键key，V表示值value；β^c和

是通道注意权重和空间注意系数；

是基于查询Q和每个值v_i双线性注意后的值；v_i表示第几个值V；σ表示ReLU激活函数；⊙表示元素乘法；W_v，

是权重矩阵，N表示输入特征向量的个数；i表示第i个特征向量。

若l＝1时，融合特征的平均池化

作为X线性注意力机制的输入查询Q⁽⁰⁾，即Q⁽⁰⁾＝v_pool，融合特征作为输入键K⁽⁰⁾和值V⁽⁰⁾，即K⁽⁰⁾＝V⁽⁰⁾＝V，当l＞1时，每一层的输入查询来自上一层X线性注意力机制的全局特征输出q^(l-1)，每一层的输入键和值是上一层的层规范化后的局部特征输出K^(l-1)＝V^(l-1)。

所述AoA机制数学表达式如下：

F_MHA(Q，K，V)＝[head₁，head₂，...，head_h]W_o (8)

式(7)、(8)、(9)中，F_AOA表示AoA函数，Q表示查询query，K表示键key，V表示值value；F_MHA()是多头注意函数，MHA即Multi-Head Attention。σ表示ReLU激活函数；⊙表示元素乘法；[·，·]表示向量拼接；head_i是第i个注意头函数，采用缩放点积注意函数实现；

是缩放因子；softmax()是归一化指数函数；g表示AoA注意门；j表示AoA注意信息；

W_o，

是权重矩阵，

是偏置。

采用AoA机制对X线性注意力机制提取的每一层全局特征进行增强，数学表达如下：

是第l个AoA增强后的全局特征；

是第l层AoA机制，q^(l)是第l层X线性注意块挖掘后的全局特征；

是第l层AoA机制中的多头注意函数。

将所有增强后的多层全局特征线性映射后得到融合全局特征g，公式表达如下：

式(11)中，[.，.]表示向量拼接；W_G是权重矩阵；M表示AoA机制增强的全局特征数量。

采用向量拼接的融合方式，将视觉常识特征向量C和局部特征向量L拼接后得到融合特征向量V，大小为3072维，如图4所示，数学表达式如下：

V_i＝[C_i，L_i]，i＝1，2，..，N (1)

式中，[·，·]表示向量拼接，N表示融合特征向量的个数。i表示第i个特征向量。

X线性注意力机制来挖掘图像对象之间的视觉语义关系，X线性注意力机制的数学表达式如下：

是通道注意权重和空间注意系数；

采用叠加X线性注意力机制并使用残差连接和LayerNorm来更新全局特征和局部特征，数学表达式如下：

q^(l)＝F_XLA(q^(l-1)，K^(l-1)，V^(l-1)) (4)

式中，l表示当前层；q^(l)表示第l层挖掘后的全局特征；F_XLA()表示X线性注意力机制函数，XLA即X-Linear Attention；q^(l-1)，K^(l-1)，V^(l-1)是F_XLA的输入，来自l-1层的输出；

和

表示第l层的第i个键k、值v的值；

和

表示l-1层的第i个键k、值v的值；LayerNorm()是层归一化函数；σ是ReLU激活函数；[·，·]表示向量拼接；

是权重矩阵。i表示第i个特征向量。

如图5所示，当l＝1时，融合特征的平均池化

X线性注意力机制的串行叠加及残差连接使得每一层全局特征之间包含冗余信息，直接联合嵌入难以获得相关的信息。针对这个问题，引入了AoA机制对全局特征进行筛选，以增强特征并获得更好的相关性，从而捕获多层级的全局特征，如图5所示。本文的AoA机制采用多头自注意力(Multi-Head Attention，MHA)和门控线性单元实现，数学表达式如下：

F_MHA(Q，K，V)＝[head₁，head₂，...，head_h]W_o (8)

W_o，

是权重矩阵，

是偏置。

是第l个AoA增强后的全局特征；

是第l层AoA机制中的多头注意函数。MHA即Multi-HeadAttention。

语义解码如图6所示。视觉选择的LSTM包含四个输入：词向量w_t，融合全局特征g，前一时刻的隐藏状态h_t-1和前一时刻的上下文向量c_t-1，公式表达如下：

h_t＝LSTM(w_t，g，h_t-1，c_t-1) (12)

式中，h_t是LSTM当前的隐藏状态。将LSTM当前的隐藏状态h_t作为X线性注意力机制的查询Q，高层局部特征L作为键K和值V。计算查询Q和键K的相似性得到值V的权重分布，加权平均后得到向量e_t。然后使用GLU语言解码，公式表达如下：

式中，c_t是用于单词序列生成的上下文向量；h_t是LSTM当前的隐藏状态；e_t是X线性注意力机制的输出向量；σ是sigmoid激活函数；⊙表示矩阵乘法。

是权重矩阵，

是偏置。

上下文向量c_t通过softmax函数预测t+1时刻单词的概率分布y_t+1，公式表达如下：

y_t+1＝softmax(W_cc_t) (14)

其中，W_c是权重矩阵。

对融合视觉常识和增强多层全局特征的图像描述生成方法进行实验验证，本实验采用图像描述生成领域常用的MS COCO数据集来验证模型的有效性。如表1所示，MS COCO数据集共有123287张图像，其中包括82783张训练图像，40504张验证图像，以及40775张测试图像。本文采用Karpathy提供的数据分割方法来划分实验的训练、测试和验证数据集，即113287张训练图像，5000张验证图像，以及5000张测试图像。每一张图像对应5条人工描述。

数据预处理时，将MS COCO数据集中所有训练句子转换成小写，去掉在句子中出现次数低于6次的单词，最终得到9487个单词的词汇表，且每个单词采用独热编码方式表示。由于每张图像的描述句子长度不同，本实验将句子长度设置为17，较短的句子采用0来填充。

表1 MS COCO数据集划分方法

实验环境使用Ubuntu 18.04 64位操作系统，采用Pytorch 1.8.0和Torchversion0.5.0深度学习框架进行训练、测试和验证。硬件配置为：Intel(R)Core(TM)i5-10600KFCPU@4.10GHz×12，NIADIA Geforce RTX 3060显卡(3584个CUDA处理核心，12GB显存)。

实验采用VC R-CNN提取1024维的视觉常识特征^[3]和Faster R-CNN提取2048维的局部特征^[12]，并将两种不同尺度的特征拼接得到3072维的融合特征，然后统一变换为1024维的输入特征。使用交叉熵损失进行训练，超参数设置如表2所示。词嵌入向量大小为1024，LSTM隐藏层大小为1024。同时引入Dropout并设置为0.5，防止模型过拟合。初始学习率设置为0.0005，采用Adam(Adaptive Moment Estimation)优化算法，BEATS分别设置为0.9和0.98，EPSILON设置为1.0E-9。最大迭代次数设为80。在推理阶段，采用集束搜索，并将集束大小设为3。

表2主要超参数设置

融合视觉常识和增强多层全局特征的图像描述生成方法的性能分析：实验中采用图像描述生成领域主流的评价方法对生成的描述句子进行准确性和流畅性等评估，包括BLEU@N、METEOR、ROUGE_L、CIDEr、SPICE。采用Karpathy分割的测试集验证本文模型，使用客观评价方法对本文模型生成的图像描述句子进行量化评价。本文模型与RFNet、BUTD、DAA、AoA、ARL、ETN、XLAN模型对比结果如表3所示。

表3本文模型与其他模型评价结果对比

通过表3可知，我们的方法与XLAN相比在在评价方法Bleu@1和Bleu@4上分别提高了0.8％和0.9％，在CIDEr和SPICE上分别提高0.4％和0.2％。由此可见，我们所提出的方法在不仅能够提高单词生成的准确性，而且能够获得更好的句子语义结构信息。这得益于AoA对图像特征的增强获得了更加相关的信息及视觉常识特征对模型的指导。

模型训练完成后，为了测试模型生成句子的实际效果，本文从测试数据集中随机选取了一组图片，将本模型生成的句子和人工描述的句子进行比较，并随机抽取了部分图像，不同情境下描述句子如图7所示。在图7中，每张图像对应3种句子类别，包括人工描述(GT1、GT2、GT3)、模型(XLAN)以及本文模型(Ours)。图像1中，本文的模型能够准确的捕捉一群人和多台电脑，生成的句子更加接近人工描述句子GT1，而XLAN方法只识别到了一个人、一张桌子、一台电脑。图像2中，本文的模型生成的句子是“A man riding a bike next toa red train.”，能够准确的识别图像中的场景、对象、属性及其关系，但XLAN生成的句子是“A person riding a bike down a street next to a train.”，从句子语义表达上而言，“a street”表达不准确且显得有些多余，而火车的颜色属性“red”并未预测。图像3中，XLAN生成的句子是“A dog sitting on the floor watching TV.”，本文的模型生成的句子是“A dog watching a dog on a television.”，不仅正确识别了图像中的对象：两条狗、一台电视，提高了句子中单词生成的准确性，而且将它们之间复杂的逻辑语义关系表达出来：“A dog watching a television”和“a dog on a television”。

为了更好的验证叠加多层X线性注意力机制对模型的整体影响，我们叠加了4层注意力机制。叠加不同层数的结果对比如表4所示，很显然，叠加4层不仅增加了参数量，而且导致了模型过拟合，这在一定程度上阻碍了叠加注意力机制挖掘对象之间的语义关系。通过表4不难看出，在我们的模型中，采用3层能够获得最佳的结果。

表4注意力机制叠加不同层数的结果对比

采用强化学习中策略梯度的优化方法对模型进行训练，旨在模型的参数空间中寻找最优点。本文模型与RFNet、BUTD、AoA、ETN、XLAN模型经策略梯度优化后的对比结果如表5所示。从表5的结果来看，与XLAN相比，在评价指标Bleu@1和Bleu@2上稍有提升，使用策略梯度后能够提高模型对图像特征的表达能力。

表5策略梯度学习后的结果对比

表中，模型对比项的文献来源为：

RFNet：JIANG W，MA L，JIANG Y G，et al.Recurrent Fusion Network for ImageCaptioning[C]//Proceedings of the European Conference on Computer Vision(ECCV)，2018：499-515。

BUTD：ANDERSON P，HE X，BUEHLER C，et al.Bottom-Up and Top-Down Attentionfor Image Captioning and Visual Question Answering[C]//Proceedings of theConference on Computer Vision and Pattem Recognition(CVPR)，Salt Lake City，UT，USA，2018：6077-6086。

DAA：XIAO F，GONG X，ZHANG Y，et al.DAA：Dual LSTMs with adaptiveattention for image captioning[J].Neurocomputing，2019，364：322-329。

AoA：HUANG L，WANG W，CHEN J，et al.Attention on Attention for ImageCaptioning[C]//Proceedings of the IEEE International Conference on ComputerVision(ICCV)，Seoul，Korea(South)，2019：4633-4642。

ARL：WANG J，WANG W，WANG L，et al.Learning visual relationship andcontext-aware attention for image captioning[J].Pattem Recognition，2020，98(C)：107075-107075。

ETN：SAMMANI F，MELAS-KYRIAZI L.Show，Edit and Tell：A Framework forEditing Image Captions[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition(CVPR)，Seattle，WA，USA，2020：4807-4815。

XLAN：PAN Y，YAO T，LI Y，et al.X-Linear Attention Networks for ImageCaptioning[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(CVPR)，Seattle，WA，USA，2020：10968-10977。

本发明，针对现有图像描述生成模型的不足之处，提出了融入视觉常识和增强多层全局特征的图像描述生成模型。编码部分引入视觉常识特征指导模型生成，将提取的视觉常识特征和局部特征融合，使用多层X线性注意力机制挖掘对象之间的语义关系，并对多层全局特征施加AoA以增强并获得更好的相关性。实验表明，所提出的模型能够更好的表达图像中隐藏的视觉语义关系，获得更加丰富的图像语义内容，生成更加准确、细致的图像描述句子。本发明提出的方法能够挖掘对象之间的隐藏的高层语义信息，并获得了更好的句子生成结果，这表明在图像特征表示方面还有很大的挖掘潜力，如何将图像特征更好地提取表示并用于图像描述生成和视觉问答等机器视觉领域。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种融合视觉常识和增强多层全局特征的图像描述生成方法，其特征在于，包括如下步骤：

2.如权利要求1所述的融合视觉常识和增强多层全局特征的图像描述生成方法，其特征在于，利用所述VC R-CNN提取所述视觉常识特征的步骤为：

3.如权利要求1所述的融合视觉常识和增强多层全局特征的图像描述生成方法，其特征在于，利用所述Faster R-CNN提取局部特征的步骤为：

4.如权利要求3所述的融合视觉常识和增强多层全局特征的图像描述生成方法，其特征在于，

所述局部特征的个数与所述视觉常识特征的个数相等。

5.如权利要求1所述的融合视觉常识和增强多层全局特征的图像描述生成方法，其特征在于，在融合所述VC R-CNN提取的所述视觉常识特征和所述Faster R-CNN提取的所述局部特征的步骤中：

6.如权利要求1所述的融合视觉常识和增强多层全局特征的图像描述生成方法，其特征在于，

所述AoA机制采用多头自注意力和门控线性单元实现。