CN115062174A

CN115062174A - 基于语义原型树的端到端图像字幕生成方法

Info

Publication number: CN115062174A
Application number: CN202210683376.1A
Authority: CN
Inventors: 高联丽; 朱晋宽; 顾嘉扬; 曾鹏鹏; 宋井宽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-16

Abstract

本发明公开了基于语义原型树的端到端图像字幕生成方法，涉及跨模态信息理解技术领域，解决了传统方法中特征所处领域与下游任务领域有所割裂的问题，以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题，包在设计的端到端方法中，构建一个可训练的视觉编码器，基于当前给定的原始图片信息，能够提取出图像的栅格信息，构建提取器TSP，该模块的输入是词库里的所有词，模块利用分词算法和分层聚类算法，输出树结构的原型语义词基于交叉注意力机制，渐进地融合语义信息与栅格特征，进行跨模态与跨空间域的对象表征学习，得到语义强化的视觉表征向量将改进的栅格特征送入其中，得到模型预测的描述结果，并计算预测损失。

Description

基于语义原型树的端到端图像字幕生成方法

技术领域

本发明涉及跨模态信息理解技术领域，更具体的是涉及基于语义原型树的端到端图像字幕生成方法。

背景技术

近年来，随着深度神经网络技术的快速发展，和图像、文本等数据的爆炸式增长，图像认知、文本理解等单模态技术已经日趋成熟，并被广泛应用于各个领域。但是，图像字幕生成技术由于身处跨模态领域，往往存在视频信息与文本信息密度不对等的问题，导致即便图像信息提取模块能维持较高的认知水平，文本生成模块却缺乏与之对应水准的理解能力，导致后者无法充分利用图像特征生成准确无误的解释性文本，从而未能得到广泛的支持和应用。

其中，图像描述生成任务是一种功能性较强、应用前景广泛的图像多模态技术，它利用用户给出的一张图片，在线地对图片内容进行表征学习和逻辑推理，通过进一步完成文本和视觉模态信息之间的语义对齐，最终给出一个合适的文本描述。由于图像描述生成技术满足基于语言的人机交互范式，因此该研究有助于基于内容的图像信息检索、情景分析和视觉障碍辅助等领域的发展。

学习图像字幕生成技术的主流解决方案是一种两阶段模型，它旨在用预训练的视觉编码器来解析图像特征，然后通过这些提取好的离线图像特征，利用注意力机制来推理出描述词汇。然而，这种传统的两阶段模型存在两个问题。首先，这种离线的图像特征的提取过程耗时较长，导致整体模型难以应用到实时的在线场景中，以及，这种在别的预训练任务上训练的预训练模型提取的图像特征与下游的跨模态任务所需要的图像特征之间存在差异，导致基于不合适的图像特征推理得到的图像描述也是不贴切的；其次，这些方法局限于探索图像与文本信息之间的联系，而未考虑先验性的知识概念信息，这与人类认知过程的本质并不一致。具体地，当一个人类要求对图像进行概括性描述时，人类会先从大脑中挑出一部分符合这个图像大致内容的文本信息，缩小了生成描述时的检索空间，并将这些检索的词语作为推理过程中的指导。然而目前的图像描述生成方法对这一论点的理解仅停留在生硬而随机的概念选取上，并不能系统、高效地从词库中检索出对应的词语，导致模型待搜索的解空间仍停留在一个较大的范围。

发明内容

本发明的目的在于：提供一种基于语义原型树的端到端图像字幕生成方法，解决了传统方法中特征所处领域与下游任务领域有所割裂的问题，以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题。

本发明为了实现上述目的具体采用以下技术方案：

基于语义原型树的端到端图像字幕生成方法，包括以下步骤：

S1：在设计的端到端方法中，构建一个可训练的视觉编码器，基于当前给定的原始图片信息，能够提取出图像的栅格信息，作为后续用于推理的视觉信息的基础；

S2：为了能让不同粒度的语义信息来辅助图像描述的生成，构建了一个用于提取语义原型树的提取器TSP，该模块的输入是词库里的所有词，模块利用分词算法和分层聚类算法，输出树结构的原型语义词；

S3：在S2的基础上，基于交叉注意力机制，渐进地融合语义信息与栅格特征，进行跨模态与跨空间域的对象表征学习，得到语义强化的视觉表征向量；

S4：采用基于Transformer结构的解码器，将改进的栅格特征送入其中，得到模型预测的描述结果，并计算预测损失。

作为一种可选的技术方案，所述S1具体包括：

首先，将输入图像I∈R^HxWx3分割为B个不相交的补丁区域，将局部区域记为I∈R^PxPx3；其中{H，W}和{P，P}分别表示输入图像和补丁区域的大小；根据以上信息可以得到，补丁区域的数据N＝(H×W)/P²，同时N还要作为视频序列的长度信息输入到视觉编码器中；然后将这些补丁进行平铺操作并输入到一个可训练的嵌入层得到补丁嵌入向量；

然后，为了保留位置信息，位置嵌入也被融合到补丁嵌入向量中，补丁嵌入向量经过4个编码阶段，每个阶段包含一个补丁特征融合层和多个相邻的编码器核心单元，用于获得分层次的视觉表征；

最终，将视觉编码器最后一个阶段输出的特征作为网格特征，用G来表示，并将其输入到下一个模块中。

作为一种可选的技术方案，所述补丁特征融合层通过将2x2个补丁区域特征进行拼接，将局部特征的总规模缩小到原来的四分之一；每个核心单元由基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块组成，多个核心单元能在保持原本不重叠窗口有效计算的同时引入跨窗口的连接，显著增强了整体模型的表征能力。

作为一种可选的技术方案，所述S2中树结构的语义原型信息的提取器TSP中包含两个步骤，分别是语义概念信息初始化操作和分层聚类操作；

TSP首先会对词库中词性为名词、形容词和动词的单词进行筛选，并用其初始化语义概念信息，记作X；随后，根据一个简而有效的分层聚类算法，得到一系列树结构的语义原型向量信息。

作为一种可选的技术方案，所述分层聚类算法，如下表示：

其中，给定概念词的词嵌入表示X，分层数目L，每层所包含的原型词数目F₁，...，F_L；

表示第I层、第f个聚类词，F_l表示第I层所包含的原型词数目；

首先，使用聚类算法(K-Means、gmm)在X上进行聚类，完成第一层的语义原型向量信息Z₁，其中每一个原型向量都代表着一些相似语义的概念词的语义中心；在初始化第一层原型信息之后，TSP迭代地生成剩下每一层的、代表着更概括的语义层次的原型语义信息。

作为一种可选的技术方案，所述S3具体包括：

S3.1、为了使树结构的原型词向量能够辅助图像描述的生成，步骤S3中包含一个渐进的特征融合模块，将视觉栅格信息与原型词向量信息进行渐进地融合，从而得到一个语义强化后的视觉特征，视觉特征会先与粗粒度的语义信息进行融合，后与细粒度的语义信息融合；

S3.2、在两个步骤的融合过程中，给定栅格特征G和树结构的原型语义向量Z，步骤S3会使用多头交叉注意力模块CMA，为栅格特征注入语义信息；

以第一个步骤的融合为例，该模块将栅格特征G映射为查询，语义原型向量映射为键和值，第i个交叉注意力模块CMA_i可以表示为：

其中，MHA、FFN、LN都是未经更改的多头注意力机制，Z_i表示第i层的原型向量，W_Q、W_K、W_VR^DxD都是可学习的参数矩阵，D表示特征维度；G_i表示输入到第i层交叉注意力模块的栅格特征，

表示在第i个交叉注意力模块中，经过多头注意力机制和LN层得到的栅格特征，G_i+1表示第i个交叉注意力模块输出的栅格特征；

为了简便表示，本模块的总体执行过程可以表示为如下形式：

G_i+1＝CMA_i(G_i，Z_i)，i＝1，…，l

其中，G₁用视觉编码器的输出G来初始化，L表示堆叠的交叉注意力模块数目，最终经过语义强化的视觉信息

作为本步骤的输出，随后会被输入到基于Transformer的解码器中获得图像描述。

作为一种可选的技术方案，所述S4中的计算预测损失的过程为：

其中，

是目标真值描述，

是模型预测的描述，T表示序列长度，t表示在总长为T的句子中，某个词语在其中的位置，在完成了一定的迭代次数后，本步骤将强化学习引入训练过程，对CIDEr得分进行了优化；

强化学习的损失函数L_RL和相关参数表示如下：

其中，r(s_1：T)表示生成描述s_1：T的CIDEr-D得分，强化学习的目标是最大限度地降低负奖励期望；

L_RL的梯度表示如下：

其中k是采样序列的个数，

表示第i个采样的序列，b是所有采样序列CIDEr-D得分的平均值)

本发明的有益效果如下：

1.首次在图像描述生成领域中提出一种语义词的树结构，能在不需要额外标注工作的前提下，分层地表示不同语义粒度的概念词，意图是通过文本信息的辅助，来使得生成的描述更为准确。

2.提出了一种新的渐进融合模块，通过在不同融合步骤用不同粒度的语义信息来完成文本信息与图像网格信息的融合，能得到一个融合更充分的、经过语义强化的视觉特征，同时这种融合方式也更贴合人类生成图像描述的本质过程。

3.本发明在MSCOCO数据集上进行了大量的实验验证，实验结果表明本文的方法取得了最先进的成果，并极大地超过了其他主流方法，甚至优于一些大规模视觉-语言预训练模型。

附图说明

图1为一种基于语义原型树的图像字幕生成方法的流程图。

图2为一种基于语义原型树的图像字幕生成方法的整体框架图。

图3为仿真实验一，即基线方案与本方法的可视化结果对比图。

图4为仿真实验二，即TSP中聚类算法的可视化结果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1、2分别展示了基于树结构的语义原型网络的图像字幕生成方法的流程图和整体框架图，该方法包括步骤S1至步骤S4。如图2所示，主要功能模块分为了提取树结构的语义原型信息的提取器TSP，和渐进的基于语义信息引导的交叉注意力模块PA。

在本发明的一个实施例中，步骤S1、S2中，视觉信息和语义信息提取网络的执行步骤具体包括：

A1、在本模块中，首先将输入图像I∈R^HxWx3分割为B个不相交的补丁区域(patch)，将局部区域记为I∈R^PxPx3.其中{H，W}和{P，P}分别表示输入图像和补丁区域的大小。根据以上信息可以得到，补丁区域的数据N＝(H×W)/P²，同时N还要作为视频序列的长度信息输入到视觉编码器中。然后将这些补丁进行平铺操作并输入到一个可训练的嵌入层得到补丁嵌入向量。为了保留位置信息，位置嵌入也被融合到补丁嵌入向量中。接着，补丁嵌入向量经过4个编码阶段，每个阶段包含一个补丁特征融合层和多个相邻的编码器核心单元，用于获得分层次的视觉表征。其中，补丁特征融合层通过将2x2个补丁区域特征进行拼接，将局部特征的总规模缩小到原来的四分之一；每个核心单元由基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块组成，多个核心单元能在保持原本不重叠窗口有效计算的同时引入跨窗口的连接，显著增强了整体模型的表征能力。最终，本文将视觉编码器最后一个阶段输出的特征作为网格特征，用G来表示，并将其输入到下一个模块中。

A2、树结构的语义原型信息的提取器TSP中包含两个步骤，语义概念信息初始化和分层聚类算法。TSP首先会对词库中的名词、形容词和动词词性的单词进行筛选，并用其初始化语义概念信息，记作X。随后，根据一个简而有效的分层聚类算法，得到一系列树结构的语义原型向量信息。算法1的伪代码表示如下：

算法1中，给定概念词的词嵌入表示X，分层数目L，每层所包含的原型词数目F₁，...，F_L，使用聚类算法(K-Means、gmm)在X上进行聚类，完成第一层的语义原型向量信息Z₁。每一个原型向量都代表着一些相似语义的概念词的语义中心。在初始化第一层原型信息之后，TSP迭代地生成剩下每一层的、代表着更概括的语义层次的原型信息。

在本发明的一个实施例中，步骤S3中，渐进融合模块的执行步骤具体包括：

A1、为了能够使树结构的原型词向量能够辅助图像描述的生成，步骤S3中包含一个渐进的特征融合模块，将视觉栅格信息与原型词向量信息能够渐进地融合，从而得到一个语义强化后的视觉特征。总体而言，视觉特征会先与粗粒度的语义信息进行融合，后与细粒度的语义信息融合。

A2、在两个步骤的融合过程中，给定栅格特征G和树结构的原型语义向量Z，步骤S3会使用多头交叉注意力模块CMA，为栅格特征注入语义信息。以第一个步骤的交互为例，该模块将栅格特征G映射为查询，语义原型向量映射为键和值。第i个交叉注意力模块CMA_i可以表示为：

在公式中，MHA、FFN、LN都源于未经更改的多头注意力机制。Z_i表示第i层的原型向量。W_Q、W_K、W_V∈R^DxD都是可学习的参数矩阵，D表示特征维度。为了简便表示，本模块的执行过程可以表示为如下形式：

G_i+1＝CMA_i(G_i，Z_i)，i＝1，...，l

公式中，G₁用视觉编码器的输出G来初始化，K表示堆叠的交叉注意力模块数目，最终经过语义强化的视觉信息

在本发明的一个实施例中，步骤S4说明采用了交叉熵损失函数和强化学习损失函数更新模型参数，具体描述为：

其中，

是目标真值描述，

是模型预测的描述。在完成了一定的迭代次数后，本步骤将强化学习引入训练过程，对CIDEr得分进行了优化。强化学习的损失函数和相关参数表示如下。

其中，r(s_1：T)表示生成描述s_1：T的CIDEr-D得分。强化学习的目标是最大限度地降低负奖励期望。L_RL的梯度表示如下。

下面结合仿真实验，对本方案的效果进行说明：

设置试验条件为：系统：Ubuntu 20.04，软件：Python 3.7，处理器：Intel(R)Xeon(R)Gold 5220R CPU@2.20GHz，内存：512GB。

实验内容：

仿真实验一：利用基线方法和本方案进行对比，将原始图像特征作为输入，给出对应的预测描述。进一步地，本方案提供了注意力权重图映射到原图上的表示，和每张注意力权重图对应生成的描述单词，结果如附图3所示。

实验结果分析：

从图3可以看出，本方案在生成图像描述的每一个单词时，相比于基线方法，能够更加准确地注意到图片中与语义单词相关的对应部分。进一步地，从可视化效果来看，TSP机制可以为模型提供充足的语义先验信息，来解释我们的模型在推理每一个单词时，背后的推理依据，从而进一步证明了TSP的有效性和可解释性。

仿真实验二：将TSP模块中，通过聚类算法得到的语义概念树进行聚类结果的可视化。结果如附图4所示。

实验结果分析：

从图4可以看出，聚类得到的中心语义词与周围的概念词代表的语义相似，且不同语义粒度的概念词距离中心的远近不同，可以得到我们的TSP模块能够正确构建词库中各个概念词之间的关系。

下面结合现有技术的图像字幕生成方法，通过仿真实验对本方案的效果进行对比说明：

设置试验条件为：系统：Ubuntu 20.04，软件：Python 3.7，处理器：lntel(R)Xeon(R)Gold 5220R CPU@2.20GHz，内存：512GB。

测试说明：实验中所使用的数据集都是以图像描述对的形式存在的，即一张图片对应若干个真值描述。具体地，依次使用每种算法对数据集中的训练集进行训练。训练完毕后，分别用每种算法对该数据集测试集上真实图像进行描述预测，得到预测结果。

在实验中将测试集随机划分为若干个批次，每个批次包括了50个图像。

考察生成描述的准确度：数据集MSCOCO中的评价指标包括5种，分别为BLEU-1，BLEU-4，METEOR，CIDEr和ROUGE-L。BLEU-1、BLEU-4是基于精确率设计的，表达正确描述中在生成描述中出现的gram个数占正确描述总gram个数的比值。CIDEr通过TF-IDF计算每个n-gram的权重，将句子用n-gram表示成向量的形式，然后计算两种描述之间的TF-IDF向量余弦距离，以此度量二者的相似性。METE0R使用WordNet扩充同义词集，同时考虑单词词性，在计算方式上融合了准确率、召回率，利用二者的调和平均值来作为评判标准。ROUGE-L基于两种描述间最长共有子句共现性精度和召回率统计。

表1

表2

表3

通过表1、表2和表3的数据分析对比，可以得知本方案生成描述的能力更优，这些结果验证了语义信息与视觉栅格特征的融合对于表征学习的有效性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明的保护范围，任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于语义原型树的端到端图像字幕生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法，其特征在于，所述S1具体包括：

首先，将输入图像I∈R^HxWx3分割为B个不相交的补丁区域,将局部区域记为I∈R^PxPx3；其中{H,W}和{P,P}分别表示输入图像和补丁区域的大小；根据以上信息可以得到，补丁区域的数据N＝(H×W)/P²,同时N还要作为视频序列的长度信息输入到视觉编码器中；然后将这些补丁进行平铺操作并输入到一个可训练的嵌入层得到补丁嵌入向量；

然后，为了保留位置信息,位置嵌入也被融合到补丁嵌入向量中,补丁嵌入向量经过4个编码阶段,每个阶段包含一个补丁特征融合层和多个相邻的编码器核心单元,用于获得分层次的视觉表征；

最终,将视觉编码器最后一个阶段输出的特征作为网格特征,用G来表示,并将其输入到下一个模块中。

3.根据权利要求2所述的基于语义原型树的端到端图像字幕生成方法，其特征在于，所述补丁特征融合层通过将2x2个补丁区域特征进行拼接,将局部特征的总规模缩小到原来的四分之一；每个核心单元由基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块组成,多个核心单元能在保持原本不重叠窗口有效计算的同时引入跨窗口的连接,显著增强了整体模型的表征能力。

4.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法，其特征在于，所述S2中树结构的语义原型信息的提取器TSP中包含两个步骤，分别是语义概念信息初始化操作和分层聚类操作；

5.根据权利要求4所述的基于语义原型树的端到端图像字幕生成方法，其特征在于，所述分层聚类算法，如下表示：