CN114625882A

CN114625882A - 提高图像文本描述独特多样性的网络构建方法

Info

Publication number: CN114625882A
Application number: CN202210095359.6A
Authority: CN
Inventors: 朱虹; 张雨嘉; 杜森; 史静; 王栋
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-06-14
Anticipated expiration: 2042-01-26
Also published as: CN114625882B

Abstract

本发明公开了一种提高图像文本描述独特多样性的网络构建方法，包括构建网络模型图像数据集，提取图像数据集的全局特征g_ks和抽象场景图节点的区域特征，用编码器对抽象场景图节点区域特征进行编码，得到最终的区域特征

对

取平均值得到平均区域编码特征

将

和g_ks融合，得到编码阶段输出的全局特征

将全局特征

通过双层解码器解码，得到输出

并将

通过图更新模块更新区域特征，重新计算节点权重，生成下一个单词，以此类推；构建单词精细模块和单词校正模块，使用标准的交叉熵损失训练网络，完成网络构建。本发明构建的网络在保持文本语句准确率的同时更具有独特、多样的描述。

Description

提高图像文本描述独特多样性的网络构建方法

技术领域

本发明属于图像文本描述网络技术领域，涉及一种提高图像文本描述独特多样性的网络构建方法。

背景技术

图像是人类活动中最常用的信息载体，蕴含着丰富的有用信息。如何自动提取图像内容，对其进行文本的正确描述虽很困难，但已经具有了可行性。图像文本描述算法是指对于给定的图像，计算机自动输出一句描述图像内容的文字。由于其能够完成从图像到文本信息的跨模态转换，所以可以应用到图像的跨模态快速检索等多个领域，因此，这个方向的研究具有广泛的应用前景。

图像文本描述的独特多样性主要取决于两个方面：一是对图像中包含物体的主要属性的准确识别能力；二是通过解码网络准确输出文本内容的描述能力，而不只是对图像中物体、场景的广泛概况。对物体属性的准确识别能力是能输出独特单词的前提，这部分的工作要求提取到的特征具有代表性。之后在模型的解码器中提高独特单词的输出概率，但是现有技术在这方面还存在输出物体信息不准确、输出句子信息较少的不足。

发明内容

本发明的目的是提供一种提高图像文本描述独特多样性的网络构建方法，解决了现有技术在图像文本描述过程中描述信息较低，以及描述内容不可控的问题。

本发明所采用的技术方案是，一种提高图像文本描述独特多样性的网络构建方法，包括以下步骤：

步骤1，构建网络模型图像数据集；

步骤2，提取图像数据集的全局特征g_ks和抽象场景图节点的区域特征；

步骤3，用编码器对抽象场景图节点区域特征进行编码，得到最终的区域特征

对

取平均值得到平均区域编码特征

将

和g_ks融合，得到编码阶段输出的全局特征

步骤4，将全局特征

通过双层解码器解码，得到输出

并将

通过图更新模块更新区域特征，重新计算节点权重，生成下一个单词，以此类推；

步骤5，构建单词精细模块，选择出更准确更独特的单词；

步骤6，构建单词校正模块，通过单词校正模块输出语句；

步骤7，使用标准的交叉熵损失训练网络，完成网络构建。

其中，步骤1的具体过程如下：

步骤1.1，建立训练及验证图像数据集

选用数据集图像样本和标签作为特征提取网络的数据样本，数据集的90％作为训练集，其余作为验证集，统称为样本图像；

步骤1.2，建立控制条件数据集

通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图，确定每幅图像中的对象节点、属性节点和关系节点，训练样本和验证样本图像数据集的抽象场景图ASG记为G_ks＝(N_ks,E_ks)，ks＝1,2,...,N_s，N_s为数据集中的样本个数，样本集合的ASG节点集合为N_ks＝[node₁ ^ks,node₂ ^ks,...,node_Ne ^ks]，node_k ^ks∈{o,a,r}，k＝1,2,...,Ne，Ne为节点个数，ASG的边集合为E_ks＝[e_i,j]_Ne×Ne，e_i,j∈{0,1}。

步骤2的具体过程如下：

步骤2.1，建立描述文本的语义词典

从训练集和验证集样本的标注中，选择出现频次最高的前m个单词，组成语义概念集合，m的取值范围为[10000,12000]，对每个单词分配一个整数序号，再加上三个特殊位：开始标志位、结束标志位和低频词位，共m+3个整数序号构成词典；利用建立的词典对数据集样本进行语义词典标注，语义属性标注为Y_ks，

是第t个单词在文本语义词典中的排序序号，t＝1,2,...,L_ks，L_ks是数据集样本中第ks幅图像的文本描述长度；

步骤2.2，提取全局特征

采用ResNet网络提取样本图像的全局特征g_ks，取卷积网络ResNet中最后一层平均池化层的输出M₁维特征向量描述图像的全局特征；

步骤2.3，提取抽象场景图节点的区域特征

取Faster-RCNN网络的全连接fc7层作为图像区域特征，提取所有ASG节点N_ks的区域特征

对于node_k ^ks＝o的目标节点，

为在对应的区域上提取的特征；对于node_k ^ks＝a的属性节点，

与其连接的对象节点的区域特征相同，对于node_k ^ks＝r的关系节点，

从涉及到的两个关联目标的联合区域中提取。

步骤3中编码器包括节点嵌入模块和图卷积模块，步骤3具体过程如下：

步骤3.1，将代表不同节点的区域特征

输入节点嵌入模块，进行节点嵌入增强，得到具有节点属性感知的区域特征Z_k ^ks：

其中，W_r是3×M₁大小的节点嵌入矩阵，W_r[1]，W_r[2]，W_r[3]分别表示W_r的第1、2、3行，

是第k个节点的属性，pos_k是M₁维的位置嵌入向量，当节点为属性节点时增大W_r[2]的权重系数，用来区分连接同一对象的不同属性节点的顺序，其中：

步骤3.2，将节点特征Z_k ^ks输入图卷积模块进行编码，得到最终的区域特征

其中，

表示节点k在关系s下的邻居节点，σ是ReLU激活函数，

是由网络学出的第l层的关系s的参数；

步骤3.3，特征融合

对

取平均值得到平均区域编码特征

将

和g_ks融合，得到编码阶段输出的全局特征

步骤4中双层解码器包括双层LSTM模块，图注意力模块和图更新模块，步骤4的具体过程如下：

步骤4.1，构建双层LSTM模块，双层LSTM模块由注意LSTM和语言LSTM构成，t时刻注意LSTM的输入为全局特征

输出为

其中，θ^a是网络参数，W_t-1为词表特征，Drop为dropout操作，

为t-1时刻语言LSTM的输出；

步骤4.2，将t时刻的区域特征

和注意LSTM输出

作为双层解码器中图注意力模块的输入，得到内容注意力

和图流注意力

对

和

加权融合，获得最终的图注意力，加入图注意力后的注意力区域特征为

步骤4.3，将注意LSTM的输出

和注意力区域特征

作为语言LSTM的输入，生成t时刻的预测结果输出

其中，θ^l是网络训练的参数；

步骤4.4，构建图更新模块，在图注意力

下对重要节点进行解码后，需要通过图更新模块，以记录表示过的节点和需要被更新的节点，即需要一个擦除操作和增添操作，擦除操作是根据图注意力的强度对每个节点进行不同程度的擦除，擦除操作输出为

其中，sigmoid是S型激活函数，f_c是全连接网络，θ_c是网络参数，

是语言LSTM的预测结果输出，

是t时刻的区域特征；如果不再需要访问某个节点，则可以将其设置为零，而如果一个节点需要多次访问，就需要使用一个增添操作，增添操作输出为

将擦除操作和增添操作结合，更新图以进行下一个解码步骤：

其中，f_a是全连接网络，θ_a是网络参数，

是网络学习到的更新强度。

步骤4.2的具体过程如下：

步骤4.2.1，将t时刻的区域特征

和注意LSTM输出

作为双层解码器中图注意力的输入，，计算两者语义相关度，得到内容注意力

其中，W_c，W_xc，W_hc是网络训练的参数，tanh是双曲正切函数，soft是softmax函数；

步骤4.2.2，输入图结构的邻接矩阵M_f、前一时刻的图流注意力

和注意力区域特征

得到t时刻距离为dis的节点的图流注意力：

其中，W_s，W_es，W_hs是网络训练的参数，dis为转移距离，

为t时刻距离为dis的节点的图流注意力，

是上一时刻的图流注意力；

步骤4.2.3，将内容注意力

和图流注意力

进行加权融合，得到最终的图注意力：

其中，β_t为t时刻网络学习到的权重；

加入图注意力后的注意力区域特征为

其中，

表示t时刻最终区域特征。

步骤5具体包括将LSTM的预测结果输出

通过两个不同全连接层，使特征变为词典维度大小的概率后，将两结果进行点乘得到最终的融合单词概率：

其中，f₁和f₂为不同的全连接层，

是按位点乘操作，输出为每个单词的概率。

步骤6包括采用束搜索和前k采样方法对重复单词进行校正的同时扩大寻优范围，在保证指标不降的前提下减少重复，提高语句的多样性；

前k采样方法是先确定每个时刻的候选词典m_t，之后根据单词概率进行随机采样得到下一个单词；候选词典是在之前已经生成好的单词的情况下，选择当前概率最大的pk个单词：

其中，topk是对输入的数进行从大到小的排序，然后选取前pk个作为词典m_t，按照单词概率在候选词典中随机采样出bk个词；

之后的时刻基于之前所有的输出序列，在组合的条件概率中再进行前k采样选取bk个单词，作为该时间步长下的候选输出序列，最后从bk个候选句子中挑出最优的。

步骤7包括对编码网络进行训练，用编码网络获得带有可控条件的图像特征，之后输入至解码网络，完成图像文本的描述；

使用标准的交叉熵损失训练网络，对于在控制条件G_ks下图像ks的文本描述的损失L^ks为：

本发明的有益效果是，将解码特征通过单词精细模块获得两个不同的单词特征，之后将两个特征融合使用，提高了图像文本描述的准确独特性，再通过单词校正模块对每个时刻的单词进行选择校正，输出最终的文本描述，与目前现有的图像文本描述网络相比，本发明图像文本描述网络可以在保持文本语句准确率的同时更具有独特、多样的描述。

附图说明

图1是本发明提高图像文本描述独特多样性的网络构建中抽象场景图的结构示意图；

图2是本发明提高图像文本描述独特多样性的网络构建中编码器结构示意图；

图3是本发明提高图像文本描述独特多样性的网络构建中双层解码器模型示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种提高图像文本描述独特多样性的网络构建方法，包括以下步骤：

步骤1，构建网络模型图像数据集

步骤1.1，建立训练及验证图像数据集

训练一个深度学习网络的数据集，需要大量的已经标注过的样本，考虑到自行对图像进行打标有一定的局限性，并且该网络模型需要提供控制条件来控制描述的生成，为此，本实施例选用已经公开发表的MSCOCO数据集图像样本和标签作为特征提取网络的数据样本，随机选出MSCOCO数据集的90％作为训练集，其余作为验证集，统称为样本图像；

步骤1.2，建立控制条件数据集

在生成图像文本描述时，对每幅样本图像都需要提供一个抽象场景图(ASG)，作为输入来控制生成语句的结构，抽象场景图的结构如图1所示，包括三种类型的节点(对象节点o，属性节点a，和关系节点r)和连接节点的边；例如，用图1描述“一束粉红色的花放在木制的桌子上”句子时，“花”和“桌子”是对象节点，“粉红色”，“一束”，“木制的”是属性节点，“花与桌子是关联的”是关系节点；

通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图，之后使用已经公开的RPN模型来检测每幅图像中的对象节点，属性节点通过自动采样添加到对象节点上；关系节点只需确定物体间是否存在关系即可，所以采用一个简单的分类网络，判断两个物体间是否有关系节点(即边)；训练样本和验证样本图像数据集的抽象场景图ASG记为G_ks＝(N_ks,E_ks)，ks＝1,2,...,N_s，N_s为数据集中的样本个数，样本集合的ASG节点集合为N_ks＝[node₁ ^ks,node₂ ^ks,...,node_Ne ^ks]，node_k ^ks∈{o,a,r}，k＝1,2,...,Ne，Ne为节点个数，为描述和计算方便起见，设置每幅样本图的节点个数为固定值，优选范围为：Ne∈[10,20]，如果实际提取出的节点数多于Ne，则消除没有关联的孤立节点，或者限制属性节点的个数，如果少于Ne，则将对应的节点置为0；ASG的边集合为E_ks＝[e_i,j]_Ne×Ne，e_i,j∈{0,1}(两个节点间有关联为1，无关联为0)。

步骤2，提取数据集特征

步骤2.1，建立描述文本的语义词典

从训练集和验证集样本的标注中，选择出现频次最高的前m个单词，组成语义概念集合，m一般按照不同的文本描述领域和不同的描述准确度要求进行选择，本发明根据MSCOCO数据集和通用要求，优选单词总数m的取值范围为[10000,12000]，对每个单词分配一个整数序号，再加上三个特殊位：开始标志位、结束标志位和低频词位，共m+3个整数序号构成词典；

对于数据集样本中的第ks幅图像样本，L_ks是第ks幅图像的文本描述长度；利用建立的词典对数据集样本进行语义词典标注，语义属性

标注为Y_ks，

其中，

是第t个单词在文本语义词典中的排序序号，t＝1,2,...,L_ks；步骤2.2，提取全局特征

采用ResNet网络提取样本图像的全局特征g_ks，取卷积网络ResNet中最后一层平均池化层的输出M₁维特征向量描述图像的全局特征，本实施例中M₁为2048；

步骤2.3，提取抽象场景图节点的区域特征

根据ASG节点集合N_ks＝[node₁ ^ks,node₂ ^ks,...,node_Ne ^ks]，采用Faster-RCNN网络，取Faster-RCNN网络的全连接fc7层作为图像区域特征，为计算方便起见，区域特征也为M₁维的特征向量；提取所有ASG节点N_ks的区域特征

对于node_k ^ks＝o的目标节点，

从涉及到的两个关联目标的联合区域中提取。

步骤3，用编码器将特征进行编码

对特征进行编码的编码器结构如图2所示，包括节点嵌入模块和图卷积模块；

步骤3.1，仅仅通过提取到的区域特征

无法体现图像文本描述的可控性，因此将代表不同节点的区域特征

输入节点嵌入模块，经过节点嵌入模块将特征与节点属性结合，进行节点嵌入增强，得到具有节点属性感知的区域特征Z_k ^ks：

步骤3.2，因为ASG中连接节点之间的边对两个节点的影响是相互的，而且消息从一种类型的节点传递到另一种类型的节点的方式与其反向也是不同的；所以需要将原先抽象场景图ASG中有方向的单向边扩展为具有不同含义的双向边，即将G_ks＝(N_ks,E_ks)，ks＝1,2,...,N_s改为多关系场景图G_ks'＝(N_ks,E_ks,R_ks)，ks＝1,2,...,N_s，R_ks是节点间的6种交互关系，包括物体对属性，属性对物体，主体对关系，关系对主体，客体对关系和关系对客体的关系；

将节点特征Z_k ^ks输入图卷积模块进行编码，得到最终的区域特征

其中，

表示节点k在关系s下的邻居节点，σ是ReLU激活函数，

是由网络学出的第l层的关系s的参数；

使用一次GCN可以为每个节点带来相邻节点的特征信息，而堆叠多次可以获得更广泛的上下文；一般我们优选l∈[2,4]，最后第l层的输出作为编码阶段输出的10个512维的区域特征

步骤3.3，特征融合

对

取平均值得到平均区域编码特征

将平均区域编码特征

和全局特征g_ks融合，得到编码阶段输出的全局特征

步骤4，将特征通过双层解码器解码

双层解码器解码模型结构如图3所示，包括双层LSTM模块，图注意力模块和图更新模块，双层LSTM模块由注意LSTM和语言LSTM构成，解码过程中先将步骤3得到的全局特征

作为输入，通过双层LSTM模块计算出t时刻注意LSTM的输出

再经过图注意力模块计算每个解码时刻需要关注的节点的权重，将图注意力后的注意力区域特征通过语言LSTM得到输出

再将当前LSTM的输出通过图更新模块以更新区域特征重新计算节点权重，生成下一个单词，以此类推；具体过程如下：

步骤4.1，构建双层LSTM模块，双层LSTM模块由注意(Top-Down Attention)LSTM和语言(Language)LSTM构成，t时刻注意LSTM的输入为全局特征

输出为

其中，θ^a是网络参数，W_t-1为词表特征，Drop为dropout操作，即在前向传播中随机让某些神经元间的激活值置0，这样会破坏神经元携带的信息，迫使它们更健壮地执行中间计算，使网络模型更具有泛化性；

为t-1时刻语言LSTM的输出；

步骤4.2，图注意力模块是为了兼顾语义内容和图的结构，所以将内容注意力和图流注意力结合使用；内容注意力不考虑图中节点的连接情况，因此可以在一个时间步长中跨越较远的距离；

步骤4.2.1，将t时刻的区域特征

和注意LSTM输出

作为双层解码器中图注意力模块的输入，计算两者语义相关度，得到内容注意力

步骤4.2.2，图的结构隐式地反映了用户在生成标题时的预期想法，所以也需要结合图流注意力；比如当前参与解码的是关系节点，那么下一个要访问的节点很有可能是紧随其后的对象节点；实现过程需要输入图结构的邻接矩阵M_f、前一时刻的图流注意力

和注意力区域特征

得到t时刻距离为dis的节点的图流注意力：

其中，W_s，W_es，W_hs是网络训练的参数，dis为转移距离，

为t时刻距离为dis的节点的图流注意力，

是上一时刻的图流注意力；

步骤4.2.3，将内容注意力

和图流注意力

进行加权融合，得到最终的图注意力：

其中，β_t为t时刻网络学习到的权重；

加入图注意力后的注意力区域特征为

其中，

表示t时刻最终区域特征。

步骤4.3，将注意LSTM的输出

和注意力区域特征

作为语言LSTM的输入，生成t时刻的预测结果输出

其中，θ^l是网络训练的参数；

步骤4.4，构建图更新模块，在图注意力

是语言LSTM的预测结果输出，

其中，f_a是全连接网络，θ_a是网络参数，

是网络学习到的更新强度。

步骤5，构建单词精细模块

通过增加全连接层，可以得到两种不同的预测结果，同时参考两个结果可以精细化单词，选择更准确更独特的单词；具体操作是将LSTM的预测结果输出

其中，f₁和f₂为不同的全连接层，

是按位点乘操作，输出为每个单词的概率。

步骤6，构建单词校正模块

经过以上操作得到的句子中会出现一些明显的重复错误，比如“a white andwhite building”或“a luggage cart with luggage”；因此构建单词校正模块，就是采用束搜索(beam search)和前k采样(top-k)方法对重复单词进行校正的同时扩大寻优范围，在保证指标不降的前提下减少重复，提高语句的多样性；

传统的贪心搜索方法直接在每个时刻选取条件概率最大的候选单词作为最优进行输出，但该方法其实与人们平常表述出的单词分布是不同的；而前k采样方法是先确定每个时刻的候选词典m_t，之后根据单词概率进行随机采样得到下一个单词；候选词典是在之前已经生成好的单词的情况下，选择当前概率最大的pk个单词：

其中，topk是对输入的数进行从大到小的排序，然后选取前pk个作为词典m_t，pk的取值范围为[10,30]，按照单词概率在候选词典中随机采样出bk个词，而不只是选取条件概率中最大的一个单词；

之后的时刻基于之前所有的输出序列，在组合的条件概率中再进行前k采样选取bk个单词，作为该时间步长下的候选输出序列，最后从bk个候选句子中挑出最优的。这种方法比一般的搜索方法空间更大，所以可以达到降低重复和提高句子多样性的结果。

步骤7，训练网络

对编码网络进行训练，用编码网络获得带有可控条件的图像特征，之后输入至解码网络，完成图像文本的描述；

训练过程中设置的具体参数为，批处理大小Batch size优选为128，迭代次数Epoch优选为50代，初始学习率Learning rate优选为0.0002；构建的网络可以根据图像和指定的ASG生成可控的图像文本描述。

Claims

1.一种提高图像文本描述独特多样性的网络构建方法，其特征在于，包括以下步骤：

步骤1，构建网络模型图像数据集；

对

取平均值得到平均区域编码特征

将

和g_ks融合，得到编码阶段输出的全局特征

步骤4，将全局特征

通过双层解码器解码，得到输出

并将

步骤5，构建单词精细模块，选择出更准确更独特的单词；

步骤6，构建单词校正模块，通过单词校正模块输出语句；

步骤7，使用标准的交叉熵损失训练网络，完成网络构建。

2.根据权利1所述的一种提高图像文本描述独特多样性的网络构建方法，其特征在于，所述步骤1的具体过程如下：

步骤1.1，建立训练及验证图像数据集

步骤1.2，建立控制条件数据集

3.根据权利2所述的一种提高图像文本描述独特多样性的网络构建方法，其特征在于，所述步骤2的具体过程如下：

步骤2.1，建立描述文本的语义词典

步骤2.2，提取全局特征

步骤2.3，提取抽象场景图节点的区域特征

对于node_k ^ks＝o的目标节点，

从涉及到的两个关联目标的联合区域中提取。

4.根据权利3所述的一种提高图像文本描述独特多样性的网络构建方法，其特征在于，所述步骤3中编码器包括节点嵌入模块和图卷积模块，步骤3具体过程如下：

步骤3.1，将代表不同节点的区域特征

其中，

表示节点k在关系s下的邻居节点，σ是ReLU激活函数，

是由网络学出的第l层的关系s的参数；

步骤3.3，特征融合

对

取平均值得到平均区域编码特征

将

和g_ks融合，得到编码阶段输出的全局特征

5.根据权利4所述的一种提高图像文本描述独特多样性的网络构建方法，其特征在于，所述步骤4中双层解码器包括双层LSTM模块，图注意力模块和图更新模块，步骤4的具体过程如下：

输出为

其中，θ^a是网络参数，W_t-1为词表特征，Drop为dropout操作，

为t-1时刻语言LSTM的输出；

步骤4.2，将t时刻的区域特征

和注意LSTM输出

作为双层解码器中图注意力模块的输入，得到内容注意力

和图流注意力

对

和

步骤4.3，将注意LSTM的输出

和注意力区域特征

作为语言LSTM的输入，生成t时刻的预测结果输出

其中，θ^l是网络训练的参数；

步骤4.4，构建图更新模块，在图注意力

是语言LSTM的预测结果输出，

其中，f_a是全连接网络，θ_a是网络参数，

是网络学习到的更新强度。

6.根据权利5所述的一种提高图像文本描述独特多样性的网络构建方法，其特征在于，所述步骤4.2的具体过程如下：

步骤4.2.1，将t时刻的区域特征

和注意LSTM输出

和注意力区域特征

得到t时刻距离为dis的节点的图流注意力：

其中，W_s，W_es，W_hs是网络训练的参数，dis为转移距离，

为t时刻距离为dis的节点的图流注意力，

是上一时刻的图流注意力；

步骤4.2.3，将内容注意力

和图流注意力

进行加权融合，得到最终的图注意力：

其中，β_t为t时刻网络学习到的权重；

加入图注意力后的注意力区域特征为

其中，

表示t时刻最终区域特征。

7.根据权利6所述的一种提高图像文本描述独特多样性的网络构建方法，其特征在于，所述步骤5具体包括将LSTM的预测结果输出

其中，f₁和f₂为不同的全连接层，

是按位点乘操作，输出为每个单词的概率。

8.根据权利7所述的一种提高图像文本描述独特多样性的网络构建方法，其特征在于，所述步骤6包括采用束搜索和前k采样方法对重复单词进行校正的同时扩大寻优范围，在保证指标不降的前提下减少重复，提高语句的多样性；

9.根据权利8所述的一种提高图像文本描述独特多样性的网络构建方法，其特征在于，所述步骤7包括对编码网络进行训练，用编码网络获得带有可控条件的图像特征，之后输入至解码网络，完成图像文本的描述；