CN115019142B

CN115019142B - 基于融合特征的图像标题生成方法、系统、电子设备

Info

Publication number: CN115019142B
Application number: CN202210665448.XA
Authority: CN
Inventors: 梅红岩; 耿耀港; 李文潇; 李凯; 李雨恬
Original assignee: Liaoning University of Technology
Current assignee: Liaoning University of Technology
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2024-03-29
Anticipated expiration: 2042-06-14
Also published as: CN115019142A

Abstract

本发明提供一种基于融合特征的图像标题生成方法，通过SE通道特征提取模块获取目标图像的通道级特征；通过节点嵌入区域特征提取模块获取目标图像的区域级特征；通过特征融合模块基于注意力机制对通道级特征与区域级特征进行融合以获取融合特征；通过LSTM解码器对融合特征进行解码以在LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对目标单词进行组句子处理以形成与目标图像相对应的图像标题，使用模型创新地融合图像和文本间的特征,使得提取到的图像特征具有类似视觉注意力的特性,有效缩减训练的时间，改善注意力权重的可解释性，统一视觉图像和语言理解间的跨模块特征。

Description

基于融合特征的图像标题生成方法、系统、电子设备

技术领域

本发明涉及传播动力学技术领域，更为具体地，涉及一种基于融合特征的图像标题生成方法、系统、电子设备。

背景技术

随着多媒体技术和计算机网络的快速发展，数据的多模态性日显突出，数据量爆发式增长，学术界和企业界对多模态数据的处理的需求也日益迫切。

图像标题生成任务是由Farhadi^[1]等人在2010年提出，其任务是通过模型实现从图像模态到文本模态的模态转换,具体化表示为二元组(I，S)，模型完成图像模态I(Image)到文本模态S(Sentence)的模态转换。图像标题生成任务是计算机视觉领域(ComputerVision，CV)和自然语言处理领域(Natural Language Processing，NLP)的交叉任务。这项任务对有一定生活经验的人类来说非常简单，但是对于计算机来说却有着巨大的挑战性，这不仅要求计算机能够理解图像的内容，而且还要求计算机能够生成符合人类语言习惯的句子。图像标题生成任务，在图像理解、人机交互和视觉障碍患者辅助和新闻领域等领域有着重要的作用，由于其重要性和挑战性，逐渐成为人工智能领域研究的一个热点。

自图像标题生成任务被提出以来，经过研究者们的科研探索，目前图像标题生成主要有以下几种基本方法：基于模板的方法，该方法需要人工设计句法模板，依赖于硬解码的视觉概念，受到图像检测质量，句法模板数量等条件的限制，且该方法生成的标题，语法形式单一，标题的多样性不足；基于检索的方法，该方法由整体的数据驱动生成图像标题，基于输入图像，在数据库中检索相似图像以及描述该图像的人工合成短语，该方法生成标题的质量依赖于输入图像与数据库中图像的相似程度，且难以保证标题语义的正确性；

因此，亟需一种能够融合图像和文本间特征,使得提取到的图像特征具有类似视觉注意力的特性,有效缩减训练的时间，改善注意力权重的可解释性的基于融合特征的图像标题生成方法。

发明内容

鉴于上述问题，本发明的目的是提供一种基于融合特征的图像标题生成方法，以解决目前的图像标题生成方法中，当前标题形式单一，且准确性较差的问题。

本发明提供的一种基于融合特征的图像标题生成方法，其中，包括：

搭建并训练图神经网络以形成融合特征目标标题生成模型；其中，所述融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器；其中，所述融合特征编码器中至少包括SE通道特征提取模块、节点嵌入区域特征提取模块和特征融合模块；

通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征；通过所述节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征；

通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征；

通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题。

优选地，所述搭建并训练图神经网络以形成融合特征目标标题生成模型，包括：

通过网络检索获取MSCOCO数据集；

将所述MSCOCO数据集输入预搭建的图神经网络中进行反复训练，直至所述图神经网络的输出信息的损失函数小于预设的训练阈值，并将最后一次训练的图神经网络作为融合特征目标标题生成模型；其中，

所述图神经网络遵循编码器-解码器结构。

优选地，通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征，包括：

将所述SE通道特征提取模块嵌入在预设的ResNet-101神经网络中；

所述SE通道特征提取模块嵌入在ResNet-101神经网络的残差运算中进行SE操作；并且，将最后一次SE操作形成的SE操作特征作为通道级特征。

优选地，所述SE操作包括：

对所述目标图像进行图像转换处理形成多维张量数据；

根据所述多维张量数据确定所述目标图像的特征图；

对所述特征图进行压缩操作以获取所述特征图的标量，基于所述标量计算所述目标图像的全局特征；其中，所述压缩操作为：对所述特征图中的元素进行逐行逐列累加，并除以元素总数以获取所述标量；

使用Sigmo id函数对所述全局特征进行激活处理以获取通道级特征注意力权重；

将所述全局特征中每个通道的特征与和各个通道相对应的通道级特征注意力权重相乘以获取各个通道的SE操作特征。

优选地，所述通过所述融合特征编码器中的节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征，包括：

通过目标检测技术检测所述目标图像，以获取所述目标图像的区域视觉特征、对象信息、对象属性信息、对象间关系信息，及锚框位置；

根据所述对象信息、对象属性信息、对象间关系信息建立关于松鼠目标图像的有向图结构，并将所述有向图结构的节点编码为X，X＝{x₁，···，x_|V|}；其中，x_i为所述有向图结构的各个节点对应的区域视觉特征，|V|为所述有向图结构的节点个数；

基于所述节点编码对所述有向结构中的各个节点进行类型嵌入以获取与所述对象信息相对应的对象类型信息；

使用GCN网络对所述有向图结构的各个节点进行信息提取操作以将所述节点的邻接节点的邻接信息汇聚在各个节点中，并将各个节点的原始信息与所述临界信息相加输入至预设的ReLU激活函数中以获取节点特征，以及，将所述GCN网络最后一层输出的节点特征作为所述目标图像的区域级特征。

优选地，所述通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征，包括：

通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行向量拼接操作以获取拼接向量：

F＝concat(F_c,F_r)

其中，F为拼接向量，F_c为通道级特征，F_r为区域级特征；

基于预设的参数对所述拼接向量进行注意力权重的计算以获取注意力权重；

对所述拼接向量与所述注意力权重进行乘融合操作以获取融合特征。

优选地，所述通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题，包括：

通过所述LSTM解码器将所述融合特征初始化为LSTM的细胞状态和隐藏层状态，并根据所述细胞状态和所述隐藏状态进行线性变换，以获取与所述隐藏状态对应的维度数据；

将所述维度数据输入至所述LSTM解码器的Softmax层，以生成与所述LSTM解码器中的字典相对应的词汇可能性，并选取所述词汇可能性最大的词汇作为目标单词；

按照预设的语句生成规则对所获取的所有的目标单词根据汉语语法进行排序以形成与所述目标图像相对应的图像标题。

本发明还提供一种基于融合特征的图像标题生成系统，实现如前所述的基于融合特征的图像标题生成方法，包括：

模型训练单元，用于搭建并训练图神经网络以形成融合特征目标标题生成模型；其中，所述融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器；其中，所述融合特征编码器中至少包括SE通道特征提取模块、节点嵌入区域特征提取模块和特征融合模块；

通道特征提取单元，用于通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征；

区域特征提取单元，用于通过所述节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征；

融合特征获取单元，用于通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征；

图像标题生成单元，用于通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题。

本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于融合特征的图像标题生成方法中的步骤。

从上面的技术方案可知，本发明提供的基于融合特征的图像标题生成方法，首先搭建并训练图神经网络以形成融合特征目标标题生成模型；其中，融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器；其中，所述融合特征编码器中至少包括SE通道特征提取模块、节点嵌入区域特征提取模块和特征融合模块；通过SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取目标图像的通道级特征；通过节点嵌入区域特征提取模块基于目标检测技术对目标图像进行区域特征提取以获取目标图像的区域级特征；通过特征融合模块基于注意力机制对通道级特征与区域级特征进行融合以获取融合特征；通过LSTM解码器对融合特征进行解码以在LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对目标单词进行组句子处理以形成与目标图像相对应的图像标题，如此，在采用通道特征和区域特征结合的方式后，句子的语义信息更加丰富，表达出图像中更多的信息，使用模型创新地融合图像和文本间的特征,使得提取到的图像特征具有类似视觉注意力的特性,能够有效缩减训练的时间，结合采用了融合注意力机制的双层长短期记忆网络能改善注意力权重的可解释性，进一步统一视觉图像和语言理解间的跨模块特征。

附图说明

通过参考以下结合附图的说明书内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的基于融合特征的图像标题生成方法的流程图；

图2为根据本发明实施例的基于融合特征的图像标题生成方法所涉及的SE通道特征提取示意图；

图3为根据本发明实施例的基于融合特征的图像标题生成方法的双层LSTM解码流程图；

图4为根据本发明实施例的基于融合特征的图像标题生成系统的示意图；

图5为根据本发明实施例的电子设备的示意图。

具体实施方式

自图像标题生成任务被提出以来，经过研究者们的科研探索，目前图像标题生成主要有以下几种基本方法：基于模板的方法，该方法需要人工设计句法模板，依赖于硬解码的视觉概念，受到图像检测质量，句法模板数量等条件的限制，且该方法生成的标题，语法形式单一，标题的多样性不足；基于检索的方法，该方法由整体的数据驱动生成图像标题，基于输入图像，在数据库中检索相似图像以及描述该图像的人工合成短语，该方法生成标题的质量依赖于输入图像与数据库中图像的相似程度，且难以保证标题语义的正确性。

针对上述问题，本发明提供一种基于融合特征的图像标题生成方法、系统，以下将结合附图对本发明的具体实施例进行详细描述。

为了说明本发明提供的基于融合特征的图像标题生成方法、系统、电子设备，图1-图5对本发明实施例的进行了示例性标示。

以下示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论，但在适当情况下，所述技术和设备应当被视为说明书的一部分。

如图1所示，本发明提供的本发明实施例的基于融合特征的图像标题生成方法，包括：

S1：搭建并训练图神经网络以形成融合特征目标标题生成模型；其中，所述融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器；其中，所述融合特征编码器中至少包括SE通道特征提取模块、节点嵌入区域特征提取模块和特征融合模块；

S2：通过所述融合特征编码器中的SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征；S3：通过所述融合特征编码器中的节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征；

S4：通过所述融合特征编码器中的特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征；

S5：通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题。

如图1所示，步骤S1为搭建并训练图神经网络以形成融合特征目标标题生成模型；其中，所述融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器的过程；该基于融合特征的图像标题生成模型的目标是根据指定的图像I生成流畅且含有丰富语义信息的句子y＝{y₁，……，y_T}。模型遵循编码器-解码器结构，由一个融合特征编码器和解码器组成。

其中，搭建并训练图神经网络以形成融合特征目标标题生成模型，包括：

通过网络检索获取MSCOCO数据集；

所述图神经网络遵循编码器-解码器结构。

在本实施例中，用于训练神经网络的数据集主要依赖经过目标检测技术处理的MSCOCO数据集，MSCOCO数据集是微软公司针对计算机视觉任务构建的，一个大型的、丰富的物体检测，分割和图像标题生成的标准化数据集，可通过官网链接地址http：//cocodataset.org下载获取。

更为具体的，在以往的工作中，模型一般采用CNN提取的通道级特征或GCN提取的区域级特征，这两种特征各有优点和弊端，在单一使用时容易放大两者的缺陷，因此，本实施例中的基于融合特征的图像标题生成方法中的融合特征编码器由SE通道特征提取模块、节点嵌入区域特征提取模块和基于注意力机制的特征融合模块构成。

其中，SE通道特征提取模块负责提取图像的通道级特征，节点嵌入区域特征模组提取图像的区域级特征，然后通过两种注意力机制，对其进行加权融合，使模型在获得丰富语义信息的同时，获得更多细粒度的信息。

在图1所示的实施例中，步骤S2、步骤S3为并列步骤，其不分先后，可同时进行，也可分别先后进行；步骤S2为通过所述融合特征编码器中的SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征的过程；步骤S3为通过所述节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征的过程；

其中，在通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征的过程中，包括：

所述SE操作包括：

对所述目标图像进行图像转换处理形成多维张量数据；

根据所述多维张量数据确定所述目标图像的特征图；

使用Sigmoid函数对所述全局特征进行激活处理以获取通道级特征注意力权重；

如图1、图2共同所示，SE通道特征提取模块：SE通道特征提取模块用于进行SE通道特征提取，即对每一张通道特征图进行运算，计算出其权重，然后将权重与通道特征图融合，SE通道特征提取模块其主体为嵌入SE(Squeeze and Excitation)操作的CNN，在本实施例中采用的CNN是凭借其优异性能广泛应用在深度学习领域的ResNet-101网络，ResNet-101基本原理是通过引入残差操作(如图2所示)解决深层神经网络反向传播时梯度消失和梯度爆炸的问题。而SE通道特征提取模块则是在ResNet-101的基础上进行了改进，我们选择在每一次残差操作中，加入SE操作，使网络能够动态的关注图像的通道特征图。

更为具体的，在一个具体实施例中，通过所述融合特征编码器中的SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征的具体步骤为：

第一步，通过Pytorch框架中的工具，将欲获取的PIL格式的图像转化为多维张量数据，便于神经网络运算训练，该多维张量数据在本实施例中为三维张量数据，其维度为I(H，W，C)，其中H为图像的高度，W为图像的宽度，C为通道数，彩色图片的通道数为R，G，B三通道，而灰度图为单通道；三维张量数据就是三个矩阵，通道数对应矩阵的数量；一个矩阵对应一个特征图。

第二步，对特征图进行压缩操作，通过对特征图中元素逐行逐列累加，除以元素总数，得到代表特征图的一个标量z_c，然后将所有特征图计算得到的标量整合为全局特征Z：

Z＝{z₁,z₂,...,z_c}

其中，I_c代表图像的通道特征图，F_sq代表压缩操作函数，c为通道特征图的数量，c∈{1,2，...C}，i，j为通道特征图矩阵的行和列，i∈{1,2，...H}，j∈{1,2，...W}，z_c为图像单张特征图的标量映射，而Z为图像的全局特征，维度为(1,1，C)。

第三步，模块对Z使用Sigmoid函数进行激活操作，目的是将z_c映射为0到1之间的注意力权重。首先，将Z与参数矩阵W1相乘输入到ReLU激活函数中，保证输出为正数，然后将结果与参数矩阵W2相乘输入Sigmo id激活函数中，得到0到1之间的注意力权重，其具体含义是计算模型在生成标题时应该在每张特征图上分多少注意力：

s＝F_ex(z)＝σ(W₂δ(W₁z)) (2)

其中，F_ex代表激活操作函数，其输入为z，s为图像的通道级特征注意力权重，δ为ReLU函数，保证输出为正数，W₁和W₂为需要学习的权重参数，σ为Sigmoid激活函数。

第四步，模块将每个通道的通道级特征注意力权重与该通道的特征相乘以获取SE操作特征(也可称为通道级特征，但在本实施例中将最后一层SE操作的通道级特征作为最终输出的通道级特征结果)，公式如下：

F_c＝F_scale(I_c,S_c)＝S_c*I_c (3)

其中，F_scale(*)为对齐函数，F_c是我们模块要获取到的注意力关注后的图像的SE操作特征。

以上步骤为模型的SE操作，将SE操作嵌入到了ResNet-101的每一个残差运算中，由于ResNet-101是一个深层次的神经网络，因此取最后一层SE操作的SE操作特征输出，作为我们最终的通道级特征结果F_c。

在图1所示的实施例中，步骤S3为通过所述节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征的过程；

通过所述节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征，包括：

S31：通过目标检测技术检测所述目标图像，以获取所述目标图像的区域视觉特征、对象信息、对象属性信息、对象间关系信息，及锚框位置；

S32：根据所述对象信息、对象属性信息、对象间关系信息建立关于松鼠目标图像的有向图结构，并将所述有向图结构的节点编码为X，X＝{x₁，···，x_|V|}；其中，x_i为所述有向图结构的各个节点对应的区域视觉特征，|V|为所述有向图结构的节点个数；

S33：基于所述节点编码对所述有向结构中的各个节点进行类型嵌入以获取与所述对象信息相对应的对象类型信息；

S34：使用GCN网络对所述有向图结构的各个节点进行信息提取操作以将所述节点的邻接节点的邻接信息汇聚在各个节点中，并将各个节点的原始信息与所述临界信息相加输入至预设的ReLU激活函数中以获取节点特征，以及，将所述GCN网络最后一层输出的节点特征作为所述目标图像的区域级特征。

具体的，在图1所示的实施例中，该节点嵌入区域特征提取模块主体为GCN网络，该模块首先通过目标检测技术检测图中的对象，对象属性和对象间的关系等信息，及其在图片中对应的锚框位置；而后通过单张图片中对象、对象属性、对象关系信息，构建有向图结构；再将图节点初步编码为X，X＝{x₁，···，x_|V|}，这里x_i为有向图节点对应区域的视觉特征(由目标检测技术提取)，|V|代表的是节点的个数。

更为具体的，在进行了上述初步编码后，为了使模型能够区分该节点的类型以及更好的获取该节点和邻接点的语义信息，再对节点类型进行嵌入，节点嵌入的公式如下：

其中，W_r为角色嵌入矩阵，维度为(3，d)，d为特征维数，W_r[k]表示W_r的第k行，pos[i]为位置嵌入，以区分与同一对象连接的不同属性节点的顺序。

在进行节点嵌入之后，节点特征中包含了节点的类型信息。使用GCN对x_i进行特征提取操作，其目的是将x_i节点的邻接点的信息汇聚到x_i中，主要操作方法是将x_i的邻居节点信息逐个累加，除以邻居节点的数量，再与x_i的原始信息相加，输入给ReLU激活函数后，得到新的x_i节点特征，其公式如下：

其中表示关系r～∈R下第i个节点的邻居，σ为ReLU激活函数，W^*(l)为第l个GCN层需要学习的参数。利用一层为每个节点从其直接邻居节点带来上下文，而叠加多层可以在图中编码更广泛的上下文。其中，在本具体实施例中，使模型堆叠L层，然后使用最后的L层的输出作为我们最终的节点嵌入X，再取X的平均值，作为图像的区域级特征F_r。

在图1所示的实施例中，步骤S4为通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征的过程；其中，通过所述融合特征编码器中的特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征，包括：

S41：通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行向量拼接操作以获取拼接向量：

F＝concat(F_c,F_r)

其中，F为拼接向量，F_c为通道级特征，F_r为区域级特征；

S42：基于预设的参数对所述拼接向量进行注意力权重的计算以获取注意力权重；

S43：对所述拼接向量与所述注意力权重进行乘融合操作以获取融合特征。

更为具体的，基于注意力机制的特征融合模块，其作用为使用注意力机制将两种级别的特征进行加权融合，其融合方式我们选择了向量拼接的方式，其目的为避免两种级别特征融合后的融合噪声问题，其流程如下：

首先，模型对两种级别的特征进行向量拼接操作，公式如下：

F＝concat(F_c,F_r) (5)

然后，模型对特征进行注意力权重的计算，公式如下：

β＝σ(W₂δ(W₁F)) (6)

其中，W_*为学习的参数。最后，将图像特征与其注意力权重进行乘融合操作，公式如下：

在图1所示的实施例中，步骤S5为通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题的过程；其中，

通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题，包括：

S51：通过所述LSTM解码器将所述融合特征初始化为LSTM的细胞状态和隐藏层状态，并根据所述细胞状态和所述隐藏状态进行线性变换，以获取与所述隐藏状态对应的维度数据；

S52：将所述维度数据输入至所述LSTM解码器的Softmax层，以生成与所述LSTM解码器中的字典相对应的词汇可能性，并选取所述词汇可能性最大的词汇作为目标单词；

S53：按照预设的语句生成规则对所获取的所有的目标单词根据汉语语法进行排序以形成与所述目标图像相对应的图像标题。

如图1、图3共同所示，模型经过编码器的一系列运算后，得到了注意力关注后的融合特征F，双层LSTM的工作用于进行双层LST解码工作，即在F的指导下按时间步生成单词，最终组合成句子。

更为具体的，第一步，首先将上文获取到的融合特征初始化为LSTM的细胞状态和隐藏层状态/>其中a代表Attention LSTM中的变量，L代表Language LSTM中的变量。

第二步，将开始标志<SOS>通过词嵌入(Word Embedding)技术，将其转换为矩阵形式W₀。然后我们将W₀和拼接为一个矩阵/>并将其传输到Attention LSTM，通过LSTM的计算公式，计算出Attention LSTM新的时间步的隐藏状态/>和新的细胞状态/>计算公式如下：

ft_t＝σ_g(W_fx_t+U_fh_t-1+b_f) (8)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i) (9)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o) (10)

h_t＝o_t*tanh(C_t) (13)

第三步，将传入Language LSTM中，通过LSTM计算公式计算出Language LSTM在时间步1的隐藏状态/>并更新/>

第四步，将进行线性变换，将/>的维度变换为/>其维度为(1，n)，其中n是词典的长度。

第五步，将输入Softmax层，计算出时间步1时，生成词典中各个单词的可能性，取最大值，作为时间步1生成的单词x₁。

第六步，将时间步1时的和x₁传入时间步2时的Attention LSTM，重复上述五个步骤，指导模型生成结束标志<EOS>，代表标题全部生成完成。

在应用之前，运用了两种评价指标进行评估，由评估实验结果可以得出本实施例中融合特征目标标题生成模型的每个组成部分对模型性能的影响，首先第一行采用传统CNN+LSTM经典方式提取图像通道级特征，作为baseline。第二行在其基础上将CNN优化为GCN使模型提取图像的区域级特征，模型在各项指标上均由一定程度的提升，然后，针对融合特征的四种方式分别进行了消融实验，由其指标可见，使用向量拼接和注意力融合的方式，性能最佳。

通过对比实验可知，模型(融合特征目标标题生成模型)在BLEU-1和BLEU-4得分保持在基线水平的同时，CIDEr得分比表中最优得分有0.4分的提升，可见在采用通道特征和区域特征结合的方式后，句子的语义信息更加丰富，表达出了图像中更多的信息。另一方面，为了验证模型中各模块对模型整体性能的影响，在5条参考标题，beamsearch为3的条件下，进行多组对比实验得出：使用模型创新地融合了图像和文本间的特征,使得提取到的图像特征具有类似视觉注意力的特性,该模型精简的参数量能有效缩减训练的时间。结合采用了融合注意力机制的双层长短期记忆网络能改善注意力权重的可解释性。该算法进一步统一视觉图像和语言理解间的跨模块特征。实验表明,该算法在各评价指标上都有着优异的表现，提高了标题自动生成的质量。

如上所述，本发明提供的基于融合特征的图像标题生成方法，首先搭建并训练图神经网络以形成融合特征目标标题生成模型；其中，融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器；通过融合特征编码器中的SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取目标图像的通道级特征；通过融合特征编码器中的节点嵌入区域特征提取模块基于目标检测技术对目标图像进行区域特征提取以获取目标图像的区域级特征；通过融合特征编码器中的特征融合模块基于注意力机制对通道级特征与区域级特征进行融合以获取融合特征；通过LSTM解码器对融合特征进行解码以在LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对目标单词进行组句子处理以形成与目标图像相对应的图像标题，如此，在采用通道特征和区域特征结合的方式后，句子的语义信息更加丰富，表达出图像中更多的信息，使用模型创新地融合图像和文本间的特征,使得提取到的图像特征具有类似视觉注意力的特性,能够有效缩减训练的时间，结合采用了融合注意力机制的双层长短期记忆网络能改善注意力权重的可解释性，进一步统一视觉图像和语言理解间的跨模块特征。

如图4所示，本发明还提供一种基于融合特征的图像标题生成系统100，实现如前所述的基于融合特征的图像标题生成方法，包括；

模型训练单元101，用于搭建并训练图神经网络以形成融合特征目标标题生成模型；其中，所述融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器；其中，所述融合特征编码器中至少包括SE通道特征提取模块、节点嵌入区域特征提取模块和特征融合模块；

通道特征提取单元102，用于通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征；

区域特征提取单元103，用于通过所述节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征；

融合特征获取单元104，用于通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征；

图像标题生成单元105，用于通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题。

所述基于融合特征的图像标题生成系统的具体实现方法可上述基于融合特征的图像标题生成方法对应实施例中相关步骤的描述，在此不作赘述。

本发明提供的基于融合特征的图像标题生成系统，首先通过模型训练单元101搭建并训练图神经网络以形成融合特征目标标题生成模型；然后利用通道特征提取单元102通过融合特征编码器中的SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取目标图像的通道级特征；再利用区域特征提取单元103通过融合特征编码器中的节点嵌入区域特征提取模块基于目标检测技术对目标图像进行区域特征提取以获取目标图像的区域级特征；利用融合特征获取单元104通过融合特征编码器中的特征融合模块基于注意力机制对通道级特征与区域级特征进行融合以获取融合特征；通过图像标题生成单元105通过LSTM解码器对融合特征进行解码以在LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对目标单词进行组句子处理以形成与目标图像相对应的图像标题，如此，在采用通道特征和区域特征结合的方式后，句子的语义信息更加丰富，表达出图像中更多的信息，使用模型创新地融合图像和文本间的特征,使得提取到的图像特征具有类似视觉注意力的特性,能够有效缩减训练的时间，结合采用了融合注意力机制的双层长短期记忆网络能改善注意力权重的可解释性，进一步统一视觉图像和语言理解间的跨模块特征。

如图5所示，本发明还提供一种电子设备，该电子设备包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

该存储器存储有可被至少一个处理器执行的计算机程序，该计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的基于融合特征的图像标题生成方法中的步骤。

本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于融合特征的图像标题生成程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征；

通过所述节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征；

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

如上参照附图以示例的方式描述了根据本发明提出的基于融合特征的图像标题生成方法、系统、电子设备。但是，本领域技术人员应当理解，对于上述本发明所提出的基于融合特征的图像标题生成方法、系统、电子设备，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于融合特征的图像标题生成方法，其特征在于，包括：

2.如权利要求1所述的基于融合特征的图像标题生成方法，其特征在于，所述搭建并训练图神经网络以形成融合特征目标标题生成模型，包括：

通过网络检索获取MSCOCO数据集；

所述图神经网络遵循编码器-解码器结构。

3.如权利要求2所述的基于融合特征的图像标题生成方法，其特征在于，通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征，包括：

4.如权利要求3所述的基于融合特征的图像标题生成方法，其特征在于，所述SE操作包括：

对所述目标图像进行图像转换处理形成多维张量数据；

根据所述多维张量数据确定所述目标图像的特征图；

5.如权利要求4所述的基于融合特征的图像标题生成方法，其特征在于，所述通过所述融合特征编码器中的节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征，包括：

基于所述节点编码对所述有向图结构中的各个节点进行类型嵌入以获取与所述对象信息相对应的对象类型信息；

使用GCN网络对所述有向图结构的各个节点进行信息提取操作，以将所述节点的邻接节点的邻接信息汇聚在各个节点中，并将各个节点的原始信息与所述邻接信息相加输入至预设的ReLU激活函数中以获取节点特征，以及，将所述GCN网络最后一层输出的节点特征作为所述目标图像的区域级特征。

6.如权利要求5所述的基于融合特征的图像标题生成方法，其特征在于，所述通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征，包括：

F＝concat(F_c,F_r)

其中，F为拼接向量，F_c为通道级特征，F_r为区域级特征；

7.如权利要求5所述的基于融合特征的图像标题生成方法，其特征在于，所述通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题，包括：

8.一种基于融合特征的图像标题生成系统，实现如权利要求1-7任一所述的基于融合特征的图像标题生成方法，包括；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，