CN113642630B - 基于双路特征编码器的图像描述方法及系统 - Google Patents
基于双路特征编码器的图像描述方法及系统 Download PDFInfo
- Publication number
- CN113642630B CN113642630B CN202110913660.9A CN202110913660A CN113642630B CN 113642630 B CN113642630 B CN 113642630B CN 202110913660 A CN202110913660 A CN 202110913660A CN 113642630 B CN113642630 B CN 113642630B
- Authority
- CN
- China
- Prior art keywords
- node
- relation
- nodes
- module
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明涉及一种基于双路特征编码器的图像描述方法及系统,系统包括:一个场景图生成模块,用于根据输入图片构造场景图;一个图卷积神经网络模块,用于对场景图中的物体节点和关系节点进行编码;一个全局特征编码器,用于对物体节点进行辅助编码;一个特征融合模块,用于对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合;一个基于双层LSTM的解码器模块,用于对经过图卷积神经网络和全局特征编码器共同编码的图节点特征进行解码,生成描述语句。本发明能够更好地根据图像生成描述语句。
Description
技术领域
本发明涉及图像描述领域,具体涉及一种基于双路特征编码器的图像描述方法及系统。
背景技术
图像描述旨在根据输入图片生成描述图片内容的语句,近年来,计算机视觉和自然语言处理受到了越来越多的关注,两者的交叉方向也不例外,图像描述便是其中之一。图像描述任务根据输入的图像产生的相应描述性语句,不仅要兼顾语句的流畅性,也要使得语句符合图像内容,是一项极具挑战性的任务。
图像描述的早期方法多是基于模板的方法和基于检索的方法,这两种方法的中心思想是基于特定的规则产生描述语句,这就导致了生成的语句灵活性与复杂性不足,只能应付一些常见的简单场景。随着深度学习的发展,机器翻译技术得到了大幅度的发展,其整体架构是基于编码器-解码器结构的模型。模型首先将源语句输入循环神经网络组成的编码器生成中间向量,中间向量再输入循环神经网络组成的解码器解码为目标语言的语句。
于是,如何得到一个表示足够正确和丰富的中间向量就显得非常的重要,一个好的中间向量往往可以使解码器生成更正确的描述语句。一种比较常见的中间向量获得方法是使用预训练的深层卷积神经网络编码图像。而后目标检测网络被引入图像描述任务,其用来模拟自底向上的注意力,能得到比单纯使用深层卷积神经网络更加丰富的特征。随着图神经网络GNN的发展,场景图被引入图像描述任务中。将图片输入场景图生成模块,得到的场景图再使用图卷积神经网络GCN编码,获得更有结构性的高层语义表示。由于使用了更高层次的特征,场景图结构配合GCN得到的中间向量表示往往可以更好的表达图像的语义特征。但GCN的编码却可能因为场景图结构的错误而导致编码后节点信息不够准确,影响解码器的解码效果。现有的方法尚未能解决因场景图结构错误而导致的节点特征编码不精确、中间向量信息不足这个问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于双路特征编码器的图像描述方法
为实现上述目的,本发明采用如下技术方案:
一种基于双路特征编码器的图像描述方法,包括以下步骤:
步骤S1:获取源图片,并根据输入图片构造场景图;
步骤S2:使用图卷积神经网络GCN,根据场景图结构对图中各个节点的特征进行增强编码;
步骤S3:基于多头注意力机制的全局特征编码器,对物体节点的特征进行编码;
步骤S4:使用多元残差融合模块对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合,得到物体节点特征;
步骤S5:根据得到的物体节点特征及排序结构,采用双层LSTM网络进行解码,将注意力机制聚焦图节点的特征,生成描述语句。
进一步的,场景图中包含物体节点的关系节点,关系节点只使用图卷积神经网络编码,而物体节点使用全局特征编码器和图卷积神经网络共同编码。解码器对编码后的场景图中物体节点和关系节点特征解码得到描述语句
进一步的,所述步骤S1具体为:
使用Faster RCNN作为目标检测网络检测图片上的物体以及类别;
将两两物体组合输入关系检测网络分类得到物体之间的关系;
使用多模态特征对场景图节点信息进行初步增强,其中多模态特征包括类别文本特征和视觉信息特征。
进一步的,所述关系检测网络输入是两个物体的区域和物体之间的联合区域,经过平均池化和全连接层组成的分类网络生成关系词表中每一类的概率,其中有一类是“无关系”,具体为:将oi定义为目标检测网络检测出的第i个物体,rij定义物体oi和物体oj之间的关系,则我们可以得到三元组<oi,rij,oj>,表示<主语,谓语,宾语>;
根据检测得到的一系列的三元组,构成图片I的场景图其中/>代表点集,/>代表边集;点集/>包括两种节点:物体节点和关系节点;对于三元组<oi,rij,oj>,在点集/>上添加三个节点,分别是两个物体节点oi、oj和一个关系节点rij;并在边集/>上添加两个边,分别是点oi到点rij和点rij到点oj。
进一步的,所述类别文本特征是每个节点的类别标签的词向量,视觉信息特征是Faster RCNN提取的物体区域经过ImageNet上预训练的ResNet-101网络编码的定长图像特征,具体的,使用以下公式对物体节点oi和关系节点rij的信息进行增强编码:
其中和/>表示编码后的节点特征;fo和fr表示使用ReLU激活函数的全连接网络;[;]表示拼接;/>和/>表示物体节点oi的视觉信息特征和类别文本特征;/>表示关系节点rij的类别文本特征。
进一步的,所述步骤S2具体为:对不同类型的节点采用不同类型的编码方式:对于关系节点的计算,考虑与其相关的物体节点特征;对于物体节点的计算,考虑与其相关的关系节点特征;物体节点oi和关系节点rij的编码计算方式如下:
其中,和/>表示经过GCN编码的物体节点和关系节点特征;fin、fout、fr表示使用ReLU激活函数的全连接网络;Nin和Nout表示以oi节点结尾和开头的边连接的关系节点;Noi表示与oi节点邻接的关系节点总数量。
进一步的,所述基于多头注意力机制的全局特征编码器包括多头自注意力模块、残差模块和正则化模块,其中,多头自注意力模块主要用于学习物体节点与物体节点之间的关系,并根据关系权重对节点进行编码;残差模块使得模型反向传播优化时梯度更容易传递,并使得模型训练的是输入和多头自注意力模块输出之间的联系,而不仅仅是学习多头自注意力模块输出的映射;正则化模块选用的是层级正则化Layer Normalization,正则化全局特征编码器的输出结果,使模型更容易被训练;整个模块的计算公式如下:
其中Wq、Wk、是三个线性转化的可训练参数矩阵;LayerNormal为层级正则化函数;fmha是多头自注意力函数;
多头自注意力将输入的Q,K,V向量在通道维度切分为h份,对每一份进行自注意力运算,最后将每一份自注意力的结果在通道维度上做拼接,并通过一个参数矩阵融合输出结果,具体计算公式如下:
fmha(Q,K,V)=WoutConcat(head1,head2,…,headh)
headi=fself-att(Qi,Ki,Vi)
其中,是可训练参数矩阵;头数h设置为8;softmax为权重归一化函数。
进一步的,所述多元残差融合模块包括残差投影融合模块和多线性关系融合模块,具体如下:
残差投影融合模块首先对输入做非线性变化,再使用残差模块学习输入和输出之间的联系,具体计算公式如下:
其中,是物体节点oi经过全局特征编码器编码后的特征向量;/>是物体节点oi经过图卷积神经网络编码后的特征向量;/>和/>是可训练参数矩阵;ReLU为一种非线性激活函数;/>是残差投影融合模块对于物体节点oi融合两个特征向量的输出;
多线性关系融合模块,首先对每个输入向量分别进行k次Dropout操作,每个输入向量都被映射为k个向量,于是组成k组输入;每组输入都进行线性变化产生一组融合结果,得到k组结果;最后,对这j组结果进行平均池化得到最终输出;具体计算公式如下:
其中,表示物体节点oi经过全局特征编码器编码后的特征向量;/>表示物体节点oi经过图卷积神经网络编码后的特征向量;Uj、/>是可训练参数矩阵;/>表示哈达玛积;k表示Dropout组数;j表示输入经过Dropout后的第j组组合;MeanPooling是平均池化函数;/>表示多线性关系融合模块的输出;
多元残差融合模块使用残差投影融合模块和多线性关系融合模块同时对待融合向量进行融合,具体计算公式如下:
其中,为多元残差融合模块对物体节点oi的输出。
进一步的,所述步骤S5具体为:使用多任务双层LSTM网络对编码后的图节点特征进行解码操作,生成描述语句,在每个时刻解码出一个单词,T时刻解码出的所有单词按照先后顺序组成生成的描述语句;
第一层LSTM根据平均图像特征和过去时刻的模型总结的语言状态计算出当前时刻的语言状态,计算公式如下:
其中,LSTM是一个时间步的LSTM计算单元,也可称为LSTM_cell;和/>分别是t-1时刻第一、二层LSTM的隐含层向量;/>是平均图像特征,由Faster RCNN得到的所有物体区域的特征进行平均池化得到;/>是上一步生成单词的词向量;
接着,使用作为查询,对物体节点特征集合/> 和关系节点特征集合/>分别进行注意力计算,具体公式如下:
其中,fsoft-att为软注意力机制的计算公式,和/>为当前时刻物体节点和关系节点的注意力结果;
软注意力的计算公式如下:
其中,Wh、Wu、Wa是可训练参数矩阵, b为偏置;ct为注意力结果;
之后,第二层LSTM根据注意力的结果和第一层LSTM的隐含层状态解码得到当前时刻需要生成单词的特征,具体计算公式如下:
其中,是当前时刻第一层LSTM的隐含层状态;/>和/>表示当前时刻物体节点和关系节点的注意力结果,/>为上一时刻第二层LSTM的隐含层向量。与第一层LSTM类似,第二层LSTM也是单时间步的计算单元LSTM_cell;
最后,使用作为最终的语义向量,以得到当前时刻需要生成的单词。
进一步的,所述多任务双层LSTM网络采用多任务学习的方式训练模型:任务task1是生成单词yt;任务task2是生成词性标签zt,词性标签分为三类“物体”、“关系”、“其他”,标签描述的每个单词都对应着一个标签;
用如下方式得到当前时刻词表的概率与词性的概率:
其中,fy和fz是带ReLU激活函数的全连接网络;p(yt|y<t,I)和p(zt|y<t,I)代表当前时刻词表中每个单词的概率和词性标签中每个词性的概率,其中最大概率者为当前时刻需要生成的单词和词性;
损失函数包括两个部分,分别为单词序列的损失和词性序列的损失:
其中,I为输入的图片;T为句子长度;γ为超参数,用于平衡两个任务之间的权重。
一种基于双路特征编码器的图像描述系统,包括
场景图生成模块,用于根据输入图片构造场景图;
图卷积神经网络模块,用于对场景图中的物体节点和关系节点进行编码;
全局特征编码器,用于对物体节点进行编码;
特征融合模块,用于对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合;
基于双层LSTM的解码器模块,用于对经过图卷积神经网络和全局特征编码器共同编码的图节点特征进行解码,生成描述语句。
本发明与现有技术相比具有以下有益效果:
本发明能够在场景图特征上获取更正确且丰富的特征的节点特征信息,使得生成器获得更丰富的中间向量信息,从而生成更精确的表示结果。
附图说明
图1是本发明系统示意图;
图2是本发明一实施例中关系检测网络;
图3是本发明一实施例中全局特征编码器模型结构;
图4是本发明一实施例中多元残差融合模块示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于双路特征编码器的图像描述系统,包括
场景图生成模块,用于根据输入图片构造场景图;
图卷积神经网络模块,用于对场景图中的物体节点和关系节点进行编码;
全局特征编码器,用于对物体节点进行编码;
特征融合模块,用于对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合;
基于双层LSTM的解码器模块,用于对经过图卷积神经网络和全局特征编码器共同编码的图节点特征进行解码,生成描述语句。
在本实施例中,优选的,场景图生成模块主要包括目标检测网络和关系检测网络。
首先,我们使用Faster RCNN作为目标检测网络检测图片上的物体以及他们的类别。
接着,我们将两两物体组合输入关系检测网络分类得到物体之间的关系。关系检测网络如图2所示,输入是两个物体的区域和物体之间的联合区域,经过平均池化和全连接层组成的分类网络生成关系词表中每一类的概率,其中有一类是“无关系”。
我们将oi定义为目标检测网络检测出的第i个物体,rij定义物体oi和物体oj之间的关系,则我们可以得到三元组<oi,rij,oj>,表示<主语,谓语,宾语>。于是,我们可以根据检测得到的一系列的三元组,构成图片I的场景图其中/>代表点集,/>代表边集。点集/>包括两种节点:物体节点和关系节点。对于三元组<oi,rij,oj>,在点集/>上添加三个节点,分别是两个物体节点oi、oj和一个关系节点rij;并在边集/>上添加两个边,分别是点oi到点rij和点rij到点oj。生成的场景图示意图如图1的中间部分所示。
接着,我们使用多模态特征对场景图节点信息进行初步增强,其中多模态特征包括类别文本特征和视觉信息特征。类别文本特征是每个节点的类别标签的词向量,视觉信息特征是Faster RCNN提取的物体区域经过ImageNet上预训练的ResNet-101网络编码的定长图像特征。我们使用以下公式对物体节点oi和关系节点rij的信息进行增强编码:
其中和/>表示编码后的节点特征;fo和fr表示使用ReLU激活函数的全连接网络;[;]表示拼接;/>和/>表示物体节点oi的视觉信息特征和类别文本特征;/>表示关系节点rij的类别文本特征。
在本实施例中,优选的,使用图卷积神经网络GCN,根据场景图结构对图中各个节点的特征进行增强编码。我们对不同类型的节点采用不同类型的编码方式:对于关系节点的计算,考虑与其相关的物体节点特征;对于物体节点的计算,考虑与其相关的关系节点特征。物体节点oi和关系节点rij的编码计算方式如下:
其中,和/>表示经过GCN编码的物体节点和关系节点特征;fin、fout、fr表示使用ReLU激活函数的全连接网络;Nin和Nout表示以oi节点结尾和开头的边连接的关系节点;Noi表示与oi节点邻接的关系节点总数量。
在本实施例中,优选的,全局特征编码器模块根据经过场景图生成器的检测,得到的初步增强物体节点特征集合 其中k为物体节点的个数。构造了一个全局特征编码器编码提取物体节点之间的特征,以对GCN提取的物体节点特征作补充。全局特征编码器主要由多头自注意力模块、残差模块和正则化模块构成,模型结构如图3所示。其中,多头自注意力模块主要用于学习物体节点与物体节点之间的关系,并根据关系权重对节点进行编码。残差模块使得模型反向传播优化时梯度更容易传递,并使得模型训练的是输入和多头自注意力模块输出之间的联系,而不仅仅是学习多头自注意力模块输出的映射。正则化模块选用的是层级正则化Layer Normalization,正则化全局特征编码器的输出结果,使模型更容易被训练。整个模块的计算公式如下:
其中Wq、Wk、是三个线性转化的可训练参数矩阵;LayerNormal为层级正则化函数;fmha是多头自注意力函数。多头自注意力将输入的Q,K,V向量在通道维度切分为h份,对每一份进行自注意力运算,最后将每一份自注意力的结果在通道维度上做拼接,并通过一个参数矩阵融合输出结果,具体计算公式如下:
fmha(Q,K,V)=WoutConcat(head1,head2,…,headh)
headi=fself-att(Qi,Ki,Vi)
其中,是可训练参数矩阵;头数h设置为8;softmax为权重归一化函数。
在本实施例中,优选的,使用多元残差融合模块(MRM)进行融合。MRM模块主要由两个模块的构成,一个是残差投影融合模块,一个是多线性关系融合模块。
(一)残差投影融合模块
残差投影融合模块的示意图如图4中(a)所示。该模块首先对输入做非线性变化,再使用残差模块学习输入和输出之间的联系。具体计算公式如下:
其中,是物体节点oi经过全局特征编码器编码后的特征向量;/>是物体节点oi经过图卷积神经网络编码后的特征向量;/>和/> 是可训练参数矩阵;ReLU为一种非线性激活函数;/>是残差投影融合模块对于物体节点oi融合两个特征向量的输出。
(二)多线性关系融合模块
多线性关系融合模块的示意图如图4中(b)所示。该模块首先对每个输入向量分别进行k次Dropout操作,每个输入向量都被映射为k个向量,于是可以组成k组输入。每组输入都进行线性变化产生一组融合结果,可以得到k组结果。最后,对这j组结果进行平均池化得到最终输出。具体计算公式如下:
其中,表示物体节点oi经过全局特征编码器编码后的特征向量;/>表示物体节点oi经过图卷积神经网络编码后的特征向量;Uj、/> 是可训练参数矩阵;°表示哈达玛积;k表示Dropout组数;j表示输入经过Dropout后的第j组组合;MeanPooling是平均池化函数;/>表示多线性关系融合模块的输出。
(三)多元残差融合模块
多元残差融合模块的示意图如图4中(c)所示。该模块使用残差投影融合模块和多线性关系融合模块同时对待融合向量进行融合。具体计算公式如下:
其中,为多元残差融合模块对物体节点oi的输出。经过该模块的计算,将图卷积神经网络和全局特征编码器得到的物体节点特征进行了充分的融合,得到了语义信息丰富的物体节点特征。
在本实施例中,优选的,使用多任务双层LSTM结构对编码后的图节点特征进行解码操作,生成描述语句,如图1右边部分所示。解码器在每个时刻解码出一个单词,T时刻解码出的所有单词按照先后顺序组成生成的描述语句。
第一层LSTM根据平均图像特征和过去时刻的模型总结的语言状态计算出当前时刻的语言状态,计算公式如下:
其中,LSTM是一个时间步的LSTM计算单元,也可称为LSTM_cell;和/>分别是t-1时刻第一、二层LSTM的隐含层向量;/>是平均图像特征,由Faster RCNN得到的所有物体区域的特征进行平均池化得到;/>是上一步生成单词的词向量。
接着,我们使用作为查询,对物体节点特征集合/> 和关系节点特征集合/>分别进行注意力计算,具体公式如下:
其中,fsoft-att为软注意力机制的计算公式,和/>为当前时刻物体节点和关系节点的注意力结果。软注意力/>的计算公式如下:
其中,Wh、Wu、Wa是可训练参数矩阵, b为偏置;ct为注意力结果。
之后,第二层LSTM根据注意力的结果和第一层LSTM的隐含层状态解码得到当前时刻需要生成单词的特征,具体计算公式如下:
其中,是当前时刻第一层LSTM的隐含层状态;/>和/>表示当前时刻物体节点和关系节点的注意力结果,/>为上一时刻第二层LSTM的隐含层向量。与第一层LSTM类似,第二层LSTM也是单时间步的计算单元LSTM_cell。
最后,我们使用作为最终的语义向量,以得到当前时刻需要生成的单词。由于在解码的过程中生成单词的同时生成词性,可以加深模型对于语义的理解,帮助模型生成更正确的单词。于是,我们采用多任务学习的方式训练模型:任务task1是生成单词yt;任务task2是生成词性标签zt,词性标签分为三类(“物体”、“关系”、“其他”),标签描述的每个单词都对应着一个标签。我们可以用如下方式得到当前时刻词表的概率与词性的概率:
其中,fy和fz是带ReLU激活函数的全连接网络;p(yt|y<t,I)和p(zt|y<t,I)代表当前时刻词表中每个单词的概率和词性标签中每个词性的概率,其中最大概率者为当前时刻我们需要生成的单词和词性。
我们使用交叉熵损失函数衡量模型生成的单词序列和真实序列之间的差距。由于使用了多任务学习的方式优化模型,所以我们的损失函数包括两个部分,分别为单词序列的损失和词性序列的损失:
其中,I为输入的图片;T为句子长度;γ为超参数,用于平衡两个任务之间的权重。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (5)
1.一种基于双路特征编码器的图像描述方法,其特征在于,包括以下步骤:
步骤S1:获取源图片,并根据输入图片构造场景图;
步骤S2:使用图卷积神经网络GCN,根据场景图结构对图中各个节点的特征进行增强编码;
步骤S3:基于多头注意力机制的全局特征编码器,对物体节点的特征进行编码;
步骤S4:使用多元残差融合模块对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合,得到物体节点特征;
步骤S5:根据物体节点特征及关系节点特征,采用双层LSTM网络进行解码,将注意力机制聚焦图节点的特征,生成描述语句;
所述步骤S1具体为:
使用Faster RCNN作为目标检测网络检测图片上的物体以及类别;
将两两物体组合输入关系检测网络分类得到物体之间的关系;
使用多模态特征对场景图节点信息进行初步增强,其中多模态特征包括类别文本特征和视觉信息特征;
所述关系检测网络输入是两个物体的区域和物体之间的联合区域,经过平均池化和全连接层组成的分类网络生成关系词表中每一类的概率,其中有一类是“无关系”,具体为:将oi定义为目标检测网络检测出的第i个物体,rij定义物体oi和物体oj之间的关系,则可以得到三元组<oi,rij,oj>,表示<主语,谓语,宾语>;
根据检测得到的一系列的三元组,构成图片I的场景图其中/>代表点集,ε代表边集;点集/>包括两种节点:物体节点和关系节点;对于三元组<oi,rij,oj>,在点集/>上添加三个节点,分别是两个物体节点oi、oj和一个关系节点rij;并在边集ε上添加两个边,分别是点oi到点rij和点rij到点oj;
所述类别文本特征是每个节点的类别标签的词向量,视觉信息特征是Faster RCNN提取的物体区域经过ImageNet上预训练的ResNet-101网络编码的定长图像特征,具体的,使用以下公式对物体节点oi和关系节点rij的信息进行增强编码:
其中和/>表示编码后的节点特征;fo和fr表示使用ReLU激活函数的全连接网络;[;]表示拼接;/>和/>表示物体节点oi的视觉信息特征和类别文本特征;/>表示关系节点rij的类别文本特征;
所述步骤S2具体为:对不同类型的节点采用不同类型的编码方式:对于关系节点的计算,考虑与其相关的物体节点特征;对于物体节点的计算,考虑与其相关的关系节点特征;物体节点oi和关系节点rij的编码计算方式如下:
其中,和/>表示经过GCN编码的物体节点和关系节点特征;fin、fout、fr表示使用ReLU激活函数的全连接网络;Nin和Nout表示以oi节点结尾和开头的边连接的关系节点;Noi表示与oi节点邻接的关系节点总数量;所述步骤S5具体为:使用多任务双层LSTM网络对编码后的图节点特征进行解码操作,生成描述语句,在每个时刻解码出一个单词,T时刻解码出的所有单词按照先后顺序组成生成的描述语句;
第一层LSTM根据平均图像特征和过去时刻的模型总结的语言状态计算出当前时刻的语言状态,计算公式如下:
其中,LSTM是一个时间步的LSTM计算单元,也可称为LSTM_cell;和/>分别是t-1时刻第一、二层LSTM的隐含层向量;/>是平均图像特征,由Faster RCNN得到的所有物体区域的特征进行平均池化得到;/>是上一步生成单词的词向量;
接着,使用作为查询,对物体节点特征集合/>和关系节点特征集合/>分别进行注意力计算,具体公式如下:
其中,fsoft-att为软注意力机制的计算公式,和/>为当前时刻物体节点和关系节点的注意力结果;
软注意力的计算公式如下:
其中,Wh、Wu、Wa是可训练参数矩阵, b为偏置;ct为注意力结果;
之后,第二层LSTM根据注意力的结果和第一层LSTM的隐含层状态解码得到当前时刻需要生成单词的特征,具体计算公式如下:
其中,是当前时刻第一层LSTM的隐含层状态;/>和/>表示当前时刻物体节点和关系节点的注意力结果,/>为上一时刻第二层LSTM的隐含层向量;与第一层LSTM类似,第二层LSTM也是单时间步的计算单元LSTM_cell;
最后,使用作为最终的语义向量,以得到当前时刻需要生成的单词。
2.根据权利要求1所述的基于双路特征编码器的图像描述方法,其特征在于,所述基于多头注意力机制的全局特征编码器包括多头自注意力模块、残差模块和正则化模块,其中,多头自注意力模块主要用于学习物体节点与物体节点之间的关系,并根据关系权重对节点进行编码;残差模块使得模型反向传播优化时梯度更容易传递,并使得模型训练的是输入和多头自注意力模块输出之间的联系,而不仅仅是学习多头自注意力模块输出的映射;正则化模块选用的是层级正则化Layer Normalization,正则化全局特征编码器的输出结果,使模型更容易被训练;整个模块的计算公式如下:
其中是三个线性转化的可训练参数矩阵;LayerNormal为层级正则化函数;fmha是多头自注意力函数;
多头自注意力将输入的Q,K,V向量在通道维度切分为h份,对每一份进行自注意力运算,最后将每一份自注意力的结果在通道维度上做拼接,并通过一个参数矩阵融合输出结果,具体计算公式如下:
fmha(Q,K,V)=WoutConcat(head1,head2,…,head)
headi=fself-att(Qi,Ki,Vi)
其中,是可训练参数矩阵;头数h设置为8;softmax为权重归一化函数。
3.根据权利要求1所述的基于双路特征编码器的图像描述方法,其特征在于,所述多元残差融合模块包括残差投影融合模块和多线性关系融合模块,具体如下:
残差投影融合模块首先对输入做非线性变化,再使用残差模块学习输入和输出之间的联系,具体计算公式如下:
其中,是物体节点oi经过全局特征编码器编码后的特征向量;/>是物体节点oi经过图卷积神经网络编码后的特征向量;/>和/>是可训练参数矩阵;ReLU为一种非线性激活函数;/>是残差投影融合模块对于物体节点oi融合两个特征向量的输出;
多线性关系融合模块,首先对每个输入向量分别进行k次Dropout操作,每个输入向量都被映射为k个向量,于是组成k组输入;每组输入都进行线性变化产生一组融合结果,得到k组结果;最后,对这j组结果进行平均池化得到最终输出;具体计算公式如下:
其中,表示物体节点oi经过全局特征编码器编码后的特征向量;/>表示物体节点oi经过图卷积神经网络编码后的特征向量;/>是可训练参数矩阵;/>表示哈达玛积;k表示Dropout组数;j表示输入经过Dropout后的第j组组合;MeanPooling是平均池化函数;/>表示多线性关系融合模块的输出;
多元残差融合模块使用残差投影融合模块和多线性关系融合模块同时对待融合向量进行融合,具体计算公式如下:
其中,为多元残差融合模块对物体节点oi的输出。
4.根据权利要求1所述的基于双路特征编码器的图像描述方法,其特征在于,所述多任务双层LSTM网络采用多任务学习的方式训练模型:任务task1是生成单词yt;任务task2是生成词性标签zt,词性标签分为三类“物体”、“关系”、“其他”,标签描述的每个单词都对应着一个标签;
用如下方式得到当前时刻词表的概率与词性的概率:
其中,fy和fz是带ReLU激活函数的全连接网络;p(yt|y<t,I)和p(zt|y<t,I)代表当前时刻词表中每个单词的概率和词性标签中每个词性的概率,其中最大概率者为当前时刻需要生成的单词和词性;
损失函数包括两个部分,分别为单词序列的损失和词性序列的损失:
其中,I为输入的图片;T为句子长度;γ为超参数,用于平衡两个任务之间的权重。
5.一种基于双路特征编码器的图像描述系统,其特征在于运行如上述权利要求1-4中任意一项所述的一种基于双路特征编码器的图像描述方法,包括
场景图生成模块,用于根据输入图片构造场景图;
图卷积神经网络模块,用于对场景图中的物体节点和关系节点进行编码;
全局特征编码器,用于对物体节点进行编码;
特征融合模块,用于对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合;
基于双层LSTM的解码器模块,用于对经过图卷积神经网络和全局特征编码器共同编码的图节点特征进行解码,生成描述语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110913660.9A CN113642630B (zh) | 2021-08-10 | 2021-08-10 | 基于双路特征编码器的图像描述方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110913660.9A CN113642630B (zh) | 2021-08-10 | 2021-08-10 | 基于双路特征编码器的图像描述方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642630A CN113642630A (zh) | 2021-11-12 |
CN113642630B true CN113642630B (zh) | 2024-03-15 |
Family
ID=78420520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110913660.9A Active CN113642630B (zh) | 2021-08-10 | 2021-08-10 | 基于双路特征编码器的图像描述方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642630B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546589B (zh) * | 2022-11-29 | 2023-04-07 | 浙江大学 | 一种基于图神经网络的图像生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325323A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
WO2020190112A1 (en) * | 2019-03-21 | 2020-09-24 | Samsung Electronics Co., Ltd. | Method, apparatus, device and medium for generating captioning information of multimedia data |
CN112733866A (zh) * | 2021-01-27 | 2021-04-30 | 西安理工大学 | 一种提高可控图像文本描述正确性的网络构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11423304B2 (en) * | 2020-01-15 | 2022-08-23 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for semantic analysis of multimedia data using attention-based fusion network |
-
2021
- 2021-08-10 CN CN202110913660.9A patent/CN113642630B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
WO2020190112A1 (en) * | 2019-03-21 | 2020-09-24 | Samsung Electronics Co., Ltd. | Method, apparatus, device and medium for generating captioning information of multimedia data |
CN111325323A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
CN112733866A (zh) * | 2021-01-27 | 2021-04-30 | 西安理工大学 | 一种提高可控图像文本描述正确性的网络构建方法 |
Non-Patent Citations (1)
Title |
---|
通过细粒度的语义特征与Transformer丰富图像描述;王俊豪;罗轶凤;;华东师范大学学报(自然科学版)(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113642630A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457480B (zh) | 基于交互式注意力机制的细粒度情感分类模型的构建方法 | |
CN111563166B (zh) | 一种针对数学问题分类的预训练模型方法 | |
CN110738057B (zh) | 一种基于语法约束和语言模型的文本风格迁移方法 | |
CN109670576B (zh) | 一种多尺度视觉关注图像描述方法 | |
Wu et al. | Recall what you see continually using gridlstm in image captioning | |
CN115455970A (zh) | 一种多模态语义协同交互的图文联合命名实体识别方法 | |
Liang et al. | Effective adaptation in multi-task co-training for unified autonomous driving | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN115630145A (zh) | 一种基于多粒度情感的对话推荐方法及系统 | |
CN111930981A (zh) | 一种草图检索的数据处理方法 | |
CN115718815A (zh) | 一种跨模态检索方法和系统 | |
CN115203409A (zh) | 一种基于门控融合和多任务学习的视频情感分类方法 | |
CN114648031A (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
CN113642630B (zh) | 基于双路特征编码器的图像描述方法及系统 | |
CN110334340B (zh) | 基于规则融合的语义分析方法、装置以及可读存储介质 | |
CN115935957A (zh) | 一种基于句法分析的句子语法纠错方法及系统 | |
CN113609326B (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
Yan et al. | Multimodal feature fusion based on object relation for video captioning | |
CN111242059A (zh) | 基于递归记忆网络的无监督图像描述模型的生成方法 | |
CN116579347A (zh) | 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN115422329A (zh) | 一种基于知识驱动的多路筛选融合对话生成方法 | |
CN113553445A (zh) | 一种生成视频描述的方法 | |
CN113469260A (zh) | 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法 | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |