CN113642630B

CN113642630B - 基于双路特征编码器的图像描述方法及系统

Info

Publication number: CN113642630B
Application number: CN202110913660.9A
Authority: CN
Inventors: 廖祥文; 吴君毅; 翁钰晨; 魏冬春; 吴海杰
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2024-03-15
Anticipated expiration: 2041-08-10
Also published as: CN113642630A

Abstract

本发明涉及一种基于双路特征编码器的图像描述方法及系统，系统包括：一个场景图生成模块，用于根据输入图片构造场景图；一个图卷积神经网络模块，用于对场景图中的物体节点和关系节点进行编码；一个全局特征编码器，用于对物体节点进行辅助编码；一个特征融合模块，用于对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合；一个基于双层LSTM的解码器模块，用于对经过图卷积神经网络和全局特征编码器共同编码的图节点特征进行解码，生成描述语句。本发明能够更好地根据图像生成描述语句。

Description

基于双路特征编码器的图像描述方法及系统

技术领域

本发明涉及图像描述领域，具体涉及一种基于双路特征编码器的图像描述方法及系统。

背景技术

图像描述旨在根据输入图片生成描述图片内容的语句，近年来，计算机视觉和自然语言处理受到了越来越多的关注，两者的交叉方向也不例外，图像描述便是其中之一。图像描述任务根据输入的图像产生的相应描述性语句，不仅要兼顾语句的流畅性，也要使得语句符合图像内容，是一项极具挑战性的任务。

图像描述的早期方法多是基于模板的方法和基于检索的方法，这两种方法的中心思想是基于特定的规则产生描述语句，这就导致了生成的语句灵活性与复杂性不足，只能应付一些常见的简单场景。随着深度学习的发展，机器翻译技术得到了大幅度的发展，其整体架构是基于编码器-解码器结构的模型。模型首先将源语句输入循环神经网络组成的编码器生成中间向量，中间向量再输入循环神经网络组成的解码器解码为目标语言的语句。

于是，如何得到一个表示足够正确和丰富的中间向量就显得非常的重要，一个好的中间向量往往可以使解码器生成更正确的描述语句。一种比较常见的中间向量获得方法是使用预训练的深层卷积神经网络编码图像。而后目标检测网络被引入图像描述任务，其用来模拟自底向上的注意力，能得到比单纯使用深层卷积神经网络更加丰富的特征。随着图神经网络GNN的发展，场景图被引入图像描述任务中。将图片输入场景图生成模块，得到的场景图再使用图卷积神经网络GCN编码，获得更有结构性的高层语义表示。由于使用了更高层次的特征，场景图结构配合GCN得到的中间向量表示往往可以更好的表达图像的语义特征。但GCN的编码却可能因为场景图结构的错误而导致编码后节点信息不够准确，影响解码器的解码效果。现有的方法尚未能解决因场景图结构错误而导致的节点特征编码不精确、中间向量信息不足这个问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于双路特征编码器的图像描述方法

为实现上述目的，本发明采用如下技术方案：

一种基于双路特征编码器的图像描述方法，包括以下步骤：

步骤S1:获取源图片，并根据输入图片构造场景图；

步骤S2:使用图卷积神经网络GCN，根据场景图结构对图中各个节点的特征进行增强编码；

步骤S3:基于多头注意力机制的全局特征编码器，对物体节点的特征进行编码；

步骤S4:使用多元残差融合模块对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合，得到物体节点特征；

步骤S5:根据得到的物体节点特征及排序结构，采用双层LSTM网络进行解码，将注意力机制聚焦图节点的特征，生成描述语句。

进一步的，场景图中包含物体节点的关系节点，关系节点只使用图卷积神经网络编码，而物体节点使用全局特征编码器和图卷积神经网络共同编码。解码器对编码后的场景图中物体节点和关系节点特征解码得到描述语句

进一步的，所述步骤S1具体为：

使用Faster RCNN作为目标检测网络检测图片上的物体以及类别；

将两两物体组合输入关系检测网络分类得到物体之间的关系；

使用多模态特征对场景图节点信息进行初步增强，其中多模态特征包括类别文本特征和视觉信息特征。

进一步的，所述关系检测网络输入是两个物体的区域和物体之间的联合区域，经过平均池化和全连接层组成的分类网络生成关系词表中每一类的概率，其中有一类是“无关系”，具体为：将o_i定义为目标检测网络检测出的第i个物体，r_ij定义物体o_i和物体o_j之间的关系，则我们可以得到三元组<o_i,r_ij,o_j>，表示<主语，谓语，宾语>；

根据检测得到的一系列的三元组，构成图片I的场景图其中/>代表点集，/>代表边集；点集/>包括两种节点：物体节点和关系节点；对于三元组<o_i,r_ij,o_j>，在点集/>上添加三个节点，分别是两个物体节点o_i、o_j和一个关系节点r_ij；并在边集/>上添加两个边，分别是点o_i到点r_ij和点r_ij到点o_j。

进一步的，所述类别文本特征是每个节点的类别标签的词向量，视觉信息特征是Faster RCNN提取的物体区域经过ImageNet上预训练的ResNet-101网络编码的定长图像特征，具体的，使用以下公式对物体节点o_i和关系节点r_ij的信息进行增强编码：

其中和/>表示编码后的节点特征；f_o和f_r表示使用ReLU激活函数的全连接网络；[；]表示拼接；/>和/>表示物体节点o_i的视觉信息特征和类别文本特征；/>表示关系节点r_ij的类别文本特征。

进一步的，所述步骤S2具体为：对不同类型的节点采用不同类型的编码方式：对于关系节点的计算，考虑与其相关的物体节点特征；对于物体节点的计算，考虑与其相关的关系节点特征；物体节点o_i和关系节点r_ij的编码计算方式如下：

其中，和/>表示经过GCN编码的物体节点和关系节点特征；f_in、f_out、f_r表示使用ReLU激活函数的全连接网络；N_in和N_out表示以o_i节点结尾和开头的边连接的关系节点；N_oi表示与o_i节点邻接的关系节点总数量。

进一步的，所述基于多头注意力机制的全局特征编码器包括多头自注意力模块、残差模块和正则化模块，其中，多头自注意力模块主要用于学习物体节点与物体节点之间的关系，并根据关系权重对节点进行编码；残差模块使得模型反向传播优化时梯度更容易传递，并使得模型训练的是输入和多头自注意力模块输出之间的联系，而不仅仅是学习多头自注意力模块输出的映射；正则化模块选用的是层级正则化Layer Normalization，正则化全局特征编码器的输出结果，使模型更容易被训练；整个模块的计算公式如下：

其中W_q、W_k、是三个线性转化的可训练参数矩阵；LayerNormal为层级正则化函数；f_mha是多头自注意力函数；

多头自注意力将输入的Q,K,V向量在通道维度切分为h份，对每一份进行自注意力运算，最后将每一份自注意力的结果在通道维度上做拼接，并通过一个参数矩阵融合输出结果，具体计算公式如下：

f_mha(Q,K,V)＝W_outConcat(head₁,head₂,…,head_h)

head_i＝f_self-att(Q_i,K_i,V_i)

其中，是可训练参数矩阵；头数h设置为8；softmax为权重归一化函数。

进一步的，所述多元残差融合模块包括残差投影融合模块和多线性关系融合模块，具体如下：

残差投影融合模块首先对输入做非线性变化，再使用残差模块学习输入和输出之间的联系，具体计算公式如下：

其中，是物体节点o_i经过全局特征编码器编码后的特征向量；/>是物体节点o_i经过图卷积神经网络编码后的特征向量；/>和/>是可训练参数矩阵；ReLU为一种非线性激活函数；/>是残差投影融合模块对于物体节点o_i融合两个特征向量的输出；

多线性关系融合模块，首先对每个输入向量分别进行k次Dropout操作，每个输入向量都被映射为k个向量，于是组成k组输入；每组输入都进行线性变化产生一组融合结果，得到k组结果；最后，对这j组结果进行平均池化得到最终输出；具体计算公式如下：

其中，表示物体节点o_i经过全局特征编码器编码后的特征向量；/>表示物体节点o_i经过图卷积神经网络编码后的特征向量；U_j、/>是可训练参数矩阵；/>表示哈达玛积；k表示Dropout组数；j表示输入经过Dropout后的第j组组合；MeanPooling是平均池化函数；/>表示多线性关系融合模块的输出；

多元残差融合模块使用残差投影融合模块和多线性关系融合模块同时对待融合向量进行融合，具体计算公式如下：

其中，为多元残差融合模块对物体节点o_i的输出。

进一步的，所述步骤S5具体为：使用多任务双层LSTM网络对编码后的图节点特征进行解码操作，生成描述语句，在每个时刻解码出一个单词，T时刻解码出的所有单词按照先后顺序组成生成的描述语句；

第一层LSTM根据平均图像特征和过去时刻的模型总结的语言状态计算出当前时刻的语言状态，计算公式如下：

其中，LSTM是一个时间步的LSTM计算单元，也可称为LSTM_cell；和/>分别是t-1时刻第一、二层LSTM的隐含层向量；/>是平均图像特征，由Faster RCNN得到的所有物体区域的特征进行平均池化得到；/>是上一步生成单词的词向量；

接着，使用作为查询，对物体节点特征集合/> 和关系节点特征集合/>分别进行注意力计算，具体公式如下：

其中，f_soft-att为软注意力机制的计算公式，和/>为当前时刻物体节点和关系节点的注意力结果；

软注意力的计算公式如下：

其中，W_h、W_u、W_a是可训练参数矩阵， b为偏置；c_t为注意力结果；

之后，第二层LSTM根据注意力的结果和第一层LSTM的隐含层状态解码得到当前时刻需要生成单词的特征，具体计算公式如下：

其中，是当前时刻第一层LSTM的隐含层状态；/>和/>表示当前时刻物体节点和关系节点的注意力结果，/>为上一时刻第二层LSTM的隐含层向量。与第一层LSTM类似，第二层LSTM也是单时间步的计算单元LSTM_cell；

最后，使用作为最终的语义向量，以得到当前时刻需要生成的单词。

进一步的，所述多任务双层LSTM网络采用多任务学习的方式训练模型：任务task1是生成单词y_t；任务task2是生成词性标签z_t，词性标签分为三类“物体”、“关系”、“其他”，标签描述的每个单词都对应着一个标签；

用如下方式得到当前时刻词表的概率与词性的概率：

其中，f_y和f_z是带ReLU激活函数的全连接网络；p(y_t|y_<t,I)和p(z_t|y_<t,I)代表当前时刻词表中每个单词的概率和词性标签中每个词性的概率，其中最大概率者为当前时刻需要生成的单词和词性；

损失函数包括两个部分，分别为单词序列的损失和词性序列的损失：

其中，I为输入的图片；T为句子长度；γ为超参数，用于平衡两个任务之间的权重。

一种基于双路特征编码器的图像描述系统，包括

场景图生成模块，用于根据输入图片构造场景图；

图卷积神经网络模块，用于对场景图中的物体节点和关系节点进行编码；

全局特征编码器，用于对物体节点进行编码；

特征融合模块，用于对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合；

基于双层LSTM的解码器模块，用于对经过图卷积神经网络和全局特征编码器共同编码的图节点特征进行解码，生成描述语句。

本发明与现有技术相比具有以下有益效果：

本发明能够在场景图特征上获取更正确且丰富的特征的节点特征信息，使得生成器获得更丰富的中间向量信息，从而生成更精确的表示结果。

附图说明

图1是本发明系统示意图；

图2是本发明一实施例中关系检测网络；

图3是本发明一实施例中全局特征编码器模型结构；

图4是本发明一实施例中多元残差融合模块示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于双路特征编码器的图像描述系统，包括

场景图生成模块，用于根据输入图片构造场景图；

全局特征编码器，用于对物体节点进行编码；

在本实施例中，优选的，场景图生成模块主要包括目标检测网络和关系检测网络。

首先，我们使用Faster RCNN作为目标检测网络检测图片上的物体以及他们的类别。

接着，我们将两两物体组合输入关系检测网络分类得到物体之间的关系。关系检测网络如图2所示，输入是两个物体的区域和物体之间的联合区域，经过平均池化和全连接层组成的分类网络生成关系词表中每一类的概率，其中有一类是“无关系”。

我们将o_i定义为目标检测网络检测出的第i个物体，r_ij定义物体o_i和物体o_j之间的关系，则我们可以得到三元组<o_i,r_ij,o_j>，表示<主语，谓语，宾语>。于是，我们可以根据检测得到的一系列的三元组，构成图片I的场景图其中/>代表点集，/>代表边集。点集/>包括两种节点：物体节点和关系节点。对于三元组<o_i,r_ij,o_j>，在点集/>上添加三个节点，分别是两个物体节点o_i、o_j和一个关系节点r_ij；并在边集/>上添加两个边，分别是点o_i到点r_ij和点r_ij到点o_j。生成的场景图示意图如图1的中间部分所示。

接着，我们使用多模态特征对场景图节点信息进行初步增强，其中多模态特征包括类别文本特征和视觉信息特征。类别文本特征是每个节点的类别标签的词向量，视觉信息特征是Faster RCNN提取的物体区域经过ImageNet上预训练的ResNet-101网络编码的定长图像特征。我们使用以下公式对物体节点o_i和关系节点r_ij的信息进行增强编码：

在本实施例中，优选的，使用图卷积神经网络GCN，根据场景图结构对图中各个节点的特征进行增强编码。我们对不同类型的节点采用不同类型的编码方式：对于关系节点的计算，考虑与其相关的物体节点特征；对于物体节点的计算，考虑与其相关的关系节点特征。物体节点o_i和关系节点r_ij的编码计算方式如下：

在本实施例中，优选的，全局特征编码器模块根据经过场景图生成器的检测，得到的初步增强物体节点特征集合其中k为物体节点的个数。构造了一个全局特征编码器编码提取物体节点之间的特征，以对GCN提取的物体节点特征作补充。全局特征编码器主要由多头自注意力模块、残差模块和正则化模块构成，模型结构如图3所示。其中，多头自注意力模块主要用于学习物体节点与物体节点之间的关系，并根据关系权重对节点进行编码。残差模块使得模型反向传播优化时梯度更容易传递，并使得模型训练的是输入和多头自注意力模块输出之间的联系，而不仅仅是学习多头自注意力模块输出的映射。正则化模块选用的是层级正则化Layer Normalization，正则化全局特征编码器的输出结果，使模型更容易被训练。整个模块的计算公式如下：

其中W_q、W_k、是三个线性转化的可训练参数矩阵；LayerNormal为层级正则化函数；f_mha是多头自注意力函数。多头自注意力将输入的Q,K,V向量在通道维度切分为h份，对每一份进行自注意力运算，最后将每一份自注意力的结果在通道维度上做拼接，并通过一个参数矩阵融合输出结果，具体计算公式如下：

f_mha(Q,K,V)＝W_outConcat(head₁,head₂,…,head_h)

head_i＝f_self-att(Q_i,K_i,V_i)

在本实施例中，优选的，使用多元残差融合模块(MRM)进行融合。MRM模块主要由两个模块的构成，一个是残差投影融合模块，一个是多线性关系融合模块。

(一)残差投影融合模块

残差投影融合模块的示意图如图4中(a)所示。该模块首先对输入做非线性变化，再使用残差模块学习输入和输出之间的联系。具体计算公式如下：

其中，是物体节点o_i经过全局特征编码器编码后的特征向量；/>是物体节点o_i经过图卷积神经网络编码后的特征向量；/>和/> 是可训练参数矩阵；ReLU为一种非线性激活函数；/>是残差投影融合模块对于物体节点o_i融合两个特征向量的输出。

(二)多线性关系融合模块

多线性关系融合模块的示意图如图4中(b)所示。该模块首先对每个输入向量分别进行k次Dropout操作，每个输入向量都被映射为k个向量，于是可以组成k组输入。每组输入都进行线性变化产生一组融合结果，可以得到k组结果。最后，对这j组结果进行平均池化得到最终输出。具体计算公式如下：

其中，表示物体节点o_i经过全局特征编码器编码后的特征向量；/>表示物体节点o_i经过图卷积神经网络编码后的特征向量；U_j、/> 是可训练参数矩阵；°表示哈达玛积；k表示Dropout组数；j表示输入经过Dropout后的第j组组合；MeanPooling是平均池化函数；/>表示多线性关系融合模块的输出。

(三)多元残差融合模块

多元残差融合模块的示意图如图4中(c)所示。该模块使用残差投影融合模块和多线性关系融合模块同时对待融合向量进行融合。具体计算公式如下：

其中，为多元残差融合模块对物体节点o_i的输出。经过该模块的计算，将图卷积神经网络和全局特征编码器得到的物体节点特征进行了充分的融合，得到了语义信息丰富的物体节点特征。

在本实施例中，优选的，使用多任务双层LSTM结构对编码后的图节点特征进行解码操作，生成描述语句，如图1右边部分所示。解码器在每个时刻解码出一个单词，T时刻解码出的所有单词按照先后顺序组成生成的描述语句。

其中，LSTM是一个时间步的LSTM计算单元，也可称为LSTM_cell；和/>分别是t-1时刻第一、二层LSTM的隐含层向量；/>是平均图像特征，由Faster RCNN得到的所有物体区域的特征进行平均池化得到；/>是上一步生成单词的词向量。

接着，我们使用作为查询，对物体节点特征集合/> 和关系节点特征集合/>分别进行注意力计算，具体公式如下：

其中，f_soft-att为软注意力机制的计算公式，和/>为当前时刻物体节点和关系节点的注意力结果。软注意力/>的计算公式如下：

其中，W_h、W_u、W_a是可训练参数矩阵， b为偏置；c_t为注意力结果。

其中，是当前时刻第一层LSTM的隐含层状态；/>和/>表示当前时刻物体节点和关系节点的注意力结果，/>为上一时刻第二层LSTM的隐含层向量。与第一层LSTM类似，第二层LSTM也是单时间步的计算单元LSTM_cell。

最后，我们使用作为最终的语义向量，以得到当前时刻需要生成的单词。由于在解码的过程中生成单词的同时生成词性，可以加深模型对于语义的理解，帮助模型生成更正确的单词。于是，我们采用多任务学习的方式训练模型：任务task1是生成单词y_t；任务task2是生成词性标签z_t，词性标签分为三类(“物体”、“关系”、“其他”)，标签描述的每个单词都对应着一个标签。我们可以用如下方式得到当前时刻词表的概率与词性的概率：

其中，f_y和f_z是带ReLU激活函数的全连接网络；p(y_t|y_<t,I)和p(z_t|y_<t,I)代表当前时刻词表中每个单词的概率和词性标签中每个词性的概率，其中最大概率者为当前时刻我们需要生成的单词和词性。

我们使用交叉熵损失函数衡量模型生成的单词序列和真实序列之间的差距。由于使用了多任务学习的方式优化模型，所以我们的损失函数包括两个部分，分别为单词序列的损失和词性序列的损失：

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于双路特征编码器的图像描述方法，其特征在于，包括以下步骤：

步骤S1:获取源图片，并根据输入图片构造场景图；

步骤S5:根据物体节点特征及关系节点特征，采用双层LSTM网络进行解码，将注意力机制聚焦图节点的特征，生成描述语句；

所述步骤S1具体为：

使用多模态特征对场景图节点信息进行初步增强，其中多模态特征包括类别文本特征和视觉信息特征；

所述关系检测网络输入是两个物体的区域和物体之间的联合区域，经过平均池化和全连接层组成的分类网络生成关系词表中每一类的概率，其中有一类是“无关系”，具体为：将o_i定义为目标检测网络检测出的第i个物体，r_ij定义物体o_i和物体o_j之间的关系，则可以得到三元组<o_i,r_ij,o_j>，表示<主语，谓语，宾语>；

根据检测得到的一系列的三元组，构成图片I的场景图其中/>代表点集，ε代表边集；点集/>包括两种节点：物体节点和关系节点；对于三元组<o_i,r_ij,o_j>，在点集/>上添加三个节点，分别是两个物体节点o_i、o_j和一个关系节点r_ij；并在边集ε上添加两个边，分别是点o_i到点r_ij和点r_ij到点o_j；

所述类别文本特征是每个节点的类别标签的词向量，视觉信息特征是Faster RCNN提取的物体区域经过ImageNet上预训练的ResNet-101网络编码的定长图像特征，具体的，使用以下公式对物体节点o_i和关系节点r_ij的信息进行增强编码：

其中和/>表示编码后的节点特征；f_o和f_r表示使用ReLU激活函数的全连接网络；[；]表示拼接；/>和/>表示物体节点o_i的视觉信息特征和类别文本特征；/>表示关系节点r_ij的类别文本特征；

所述步骤S2具体为：对不同类型的节点采用不同类型的编码方式：对于关系节点的计算，考虑与其相关的物体节点特征；对于物体节点的计算，考虑与其相关的关系节点特征；物体节点o_i和关系节点r_ij的编码计算方式如下：

其中，和/>表示经过GCN编码的物体节点和关系节点特征；f_in、f_out、f_r表示使用ReLU激活函数的全连接网络；N_in和N_out表示以o_i节点结尾和开头的边连接的关系节点；N_oi表示与o_i节点邻接的关系节点总数量；所述步骤S5具体为：使用多任务双层LSTM网络对编码后的图节点特征进行解码操作，生成描述语句，在每个时刻解码出一个单词，T时刻解码出的所有单词按照先后顺序组成生成的描述语句；

接着，使用作为查询，对物体节点特征集合/>和关系节点特征集合/>分别进行注意力计算，具体公式如下：

软注意力的计算公式如下：

其中，是当前时刻第一层LSTM的隐含层状态；/>和/>表示当前时刻物体节点和关系节点的注意力结果，/>为上一时刻第二层LSTM的隐含层向量；与第一层LSTM类似，第二层LSTM也是单时间步的计算单元LSTM_cell；

2.根据权利要求1所述的基于双路特征编码器的图像描述方法，其特征在于，所述基于多头注意力机制的全局特征编码器包括多头自注意力模块、残差模块和正则化模块，其中，多头自注意力模块主要用于学习物体节点与物体节点之间的关系，并根据关系权重对节点进行编码；残差模块使得模型反向传播优化时梯度更容易传递，并使得模型训练的是输入和多头自注意力模块输出之间的联系，而不仅仅是学习多头自注意力模块输出的映射；正则化模块选用的是层级正则化Layer Normalization，正则化全局特征编码器的输出结果，使模型更容易被训练；整个模块的计算公式如下：

其中是三个线性转化的可训练参数矩阵；LayerNormal为层级正则化函数；f_mha是多头自注意力函数；

f_mha(Q,K,V)＝W_outConcat(head₁,head₂,…,hea_d)

head_i＝f_self-att(Q_i,K_i,V_i)

3.根据权利要求1所述的基于双路特征编码器的图像描述方法，其特征在于，所述多元残差融合模块包括残差投影融合模块和多线性关系融合模块，具体如下：

其中，表示物体节点o_i经过全局特征编码器编码后的特征向量；/>表示物体节点o_i经过图卷积神经网络编码后的特征向量；/>是可训练参数矩阵；/>表示哈达玛积；k表示Dropout组数；j表示输入经过Dropout后的第j组组合；MeanPooling是平均池化函数；/>表示多线性关系融合模块的输出；

其中，为多元残差融合模块对物体节点o_i的输出。

4.根据权利要求1所述的基于双路特征编码器的图像描述方法，其特征在于，所述多任务双层LSTM网络采用多任务学习的方式训练模型：任务task1是生成单词y_t；任务task2是生成词性标签z_t，词性标签分为三类“物体”、“关系”、“其他”，标签描述的每个单词都对应着一个标签；

用如下方式得到当前时刻词表的概率与词性的概率：

5.一种基于双路特征编码器的图像描述系统，其特征在于运行如上述权利要求1-4中任意一项所述的一种基于双路特征编码器的图像描述方法，包括

场景图生成模块，用于根据输入图片构造场景图；

全局特征编码器，用于对物体节点进行编码；