CN116204674A

CN116204674A - 一种基于视觉概念词关联结构化建模的图像描述方法

Info

Publication number: CN116204674A
Application number: CN202310475627.1A
Authority: CN
Inventors: 张勇东; 毛震东; 张驰; 王朋喆; 陈伟东; 宋彦; 王婷
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-06-02
Anticipated expiration: 2043-04-28
Also published as: CN116204674B

Abstract

本发明涉及计算机视觉和自然语言处理领域。本发明提出了一种基于视觉概念词关联结构化建模的图像描述方法，通过图像描述模型对输入的图像，生成所述图像的描述语句。图像描述模型的训练过程包括：将训练数据输入视觉特征提取和编码模块，得到视觉特征；将视觉特征输入视觉概念预测模块，得到对应的视觉概念词，将视觉概念词输入视觉概念关联结构化建模模块，得到结构化视觉语义概念词特征；将视觉特征和结构化视觉语义概念词特征输入描述生成模块，得到描述语句。基于总体损失函数训练模型。本发明提供的方法对单词在文本模态中的语言学先验的提取做了有效的约束。

Description

一种基于视觉概念词关联结构化建模的图像描述方法

技术领域

本发明涉及人工智能领域，具体涉及一种基于视觉概念词关联结构化建模的图像描述方法。

背景技术

随着互联网技术的快速发展和应用，从图像获取信息、以图像传递信息逐渐成为人们日常生活的主流。这些图像为图像描述技术带来了极大的机遇和挑战。图像描述作为现代计算机跨模态领域的一个代表性任务，贯通了计算机视觉与自然语言处理两个领域的技术，旨在让计算机识别、分析和理解给定图像的内容，并准确生成流畅自然的描述性语句，辅助信息传递。图像描述技术在教育、辅助医疗、人机交互等方面具有广阔的实际应用价值和前景。

传统方法通常将预训练的视觉特征提取器作为编码器来挖掘图像中的视觉信息，再联合部分已生成的文本信息，送入Transformer解码器中预测文本描述。这种方式通常存在两方面缺陷：一方面，视觉特征提取器的感知能力受到预定义的类标签的严重限制，使得解码器过度依赖语言先验，有时生成的单词根本不切合图像；另一方面，图像和文本之间存在巨大的语义鸿沟，难以建立它们之间的跨模态语义一致性。

为此，一些技术提出利用视觉概念作为中介以缓解上述缺陷。视觉概念可以定义为语义与视觉内容高度相关的文本单词，同时也是构成对应文本描述的主要关键词，例如涉及的主体、主体间关系、主体的属性等，其丰富而准确的语义信息可以为建立视觉内容到文本描述的对齐映射提供桥梁。

然而，现有的相关技术往往忽略了不同视觉概念词在视觉模态中潜在的语义关联，并不能充分缓解对语言先验的过度依赖。视觉概念词之间的关系并不仅来自于文本模态中单词间天然存在的语言学依赖关系，也来自于视觉模态中不同区域特征间的关联。

这种视觉模态的关联既有助于模型更好地对齐两种模态的语义信息，又可以使模型在遇见未曾见过样本时能够根据实际的视觉内容进行预测，并排除掉语言先验引导的可信度较低的答案，提升模型的鲁棒性。例如，模型从样本中预测出了视觉概念词“喝”和“婴儿”，如果它已经解码出了“婴儿→喝”，那么模型将很容易受语言先验影响没有考虑图像信息直接生成“喝→水”，而不是实际上更贴合视觉内容“喝→牛奶”。

发明内容

为解决上述问题，本发明提供一种基于视觉概念词关联结构化建模的图像描述方法。

该方法包括：

通过图像描述模型对输入的图像，生成描述语句，所述图像描述模型的训练过程，包括以下步骤：

步骤一，准备训练数据集，训练数据集中包括若干图像，以及图像对应的单词标签；

步骤二，图像特征提取和编码：定义训练数据集中的图像为图像I，将图像I进行图像编码，得到初步图像特征，然后将初步图像特征输入若干个Transformer编码器中进一步编码，取最后一个Transformer编码器的输出作为视觉特征

；

步骤三，视觉概念预测任务：随机初始化一组语义向量

，将视觉特征

和语义向量

一起送入若干个Transformer解码器，将最后一个Transformer解码器的输出作为视觉语义特征

，则预测的视觉概念词

，其中，

代表多层感知预测网络；

步骤四，视觉概念关联结构化建模：为视觉概念词

构造图及相应的邻接矩阵，利用图卷积网络探索视觉概念词

之间的潜在关系，取图卷积网络最后一层的输出作为结构化视觉语义概念词特征

；

步骤五，描述语句生成任务：以视觉特征

和结构化视觉语义概念词特征

作为标准Transformer解码器的输入，按顺序生成描述语句；

步骤六，联合优化：定义所述图像描述模型的总体损失函数L：

；

其中

为视觉概念预测任务的损失函数，

为描述语句生成任务的损失函数；

步骤七，根据所述总体损失函数L训练所述图像描述模型。

进一步的，步骤二具体包括：

步骤二A，通过图像描述模型的视觉特征提取器将所述图像I进行图像编码，得到初步特征编码：

；

其中，

代表所述图像

的初步特征编码，

代表视觉特征提取器；

步骤二B，将所述初步特征编码输入若干个Transformer编码器中编码，取最后一个Transformer编码器输出的特征编码作为视觉特征

：

；

其中，

表示Transformer编码器的编号，

表示第

个Transformer编码器输出的图像

的特征编码，

为层归一化运算，

为Transformer的多头注意力机制操作：

；

其中，Q、K、V分别代表多头注意力机制中的查询值、键值和真值，

和

分别是Q、K、V对应的可学习权值矩阵，

表示可学习权值矩阵的列数，

表示

激活函数，T表示转置。

进一步的，步骤三具体包括：

步骤三A，随机初始化一组语义向量

；

步骤三B，将所述视觉特征

和所述语义向量

一起输入若干个Transformer解码器，通过自注意力机制深度编码，输出语义特征，取最后一个Transformer解码器的输出作为视觉语义特征

，Transformer解码器的输出计算如下：

；

；

其中，

表示Transformer解码器的编号，

表示第

个Transformer解码器的输出，

是Transformer解码器初始的查询值，

为层归一化运算，

为Transformer的多头注意力机制操作；

步骤三C，得到预测的视觉概念词

：

；

其中，

表示多层感知预测网络；

步骤三D，则视觉概念预测任务的损失函数

如下：

；

其中，

表示不对称损失，

表示构建的视觉概念词标签。

进一步的，所述视觉概念词标签

的构建方法包括：

将训练数据集进行清洗后，取出所述训练数据集所有单词中出现频率高于阈值的若干单词，组成一张语义词表

；

比较所述图像

的每个预测的视觉概念词

是否属于所述语义词表

，如是，将所述预测的视觉概念词

加入所述视觉概念词标签

，如否，在所述视觉概念词标签

中加入特殊字符串，所述特殊字符串不同于所述语义词表

中任意一个单词。

进一步的，步骤四具体包括：

步骤四A，统计所述训练数据集中每个单词出现的概率，以及在规定单词距离内任意两个单词按指定顺序同时出现的概率，然后计算任意两个单词

的点间互信息分数：

；

其中，

代表

的点间互信息分数，

分别是

在所述训练数据集中出现的概率，

是

和

在按照

在先

在后，并且

和

在所述规定单词距离内出现的概率；

步骤四B，通过所述视觉概念词构造一个图，定义图的节点集合

，k为所述视觉概念词的数量，每个节点代表一个所述视觉概念词，每条边代表该边所连接的两个节点之间的关系；

步骤四C，使用邻接矩阵

表述所述图，

是代表节点

和

的关系，

代表节点

和

有关系或者i与j相等；

步骤四D，建立词典，将所述训练数据集中所有

大于阈值的两个单词建立一个相关词对，将所述相关词对存入所述词典；

步骤四E，根据所述词典初始化所述邻接矩阵A；

步骤四F，通过图卷积网络处理所述图数据，得到所述结构化视觉语义概念词特征

。

进一步的，根据所述词典初始化所述邻接矩阵A，包括：

将

所代表的节点

和

对应的所述视觉概念词组成词对

；

在所述词典中查找所述词对

，如果能找到，则设

；如果无法找到，比较i与j是否相等，如果相等，则设

，如果不相等，则设

。

进一步的，所述通过图卷积网络处理所述图数据，得到所述结构化视觉语义概念词特征

，包括：

在所述图卷积网络的第

层，对于每一个节点

，在所述邻接矩阵中找到所有

的

，从第

层取所有

的隐藏向量

，并计算

的输出：

；

其中，

和

分别为第

层图卷积网络的可训练权重和偏置，

为层归一化运算，

为

激活函数，

代表第

层里节点

的一种整合

所有相邻节点隐藏向量的向量；

取最后一层的输出作为所述结构化视觉语义概念词特征

。

进一步的，步骤五包括：

按照Transformer解码器结构，以所述视觉特征

和所述结构化视觉语义概念词特征

作为输入，生成描述语句：

；

；

其中，

是生成的描述语句中的第

个单词，

是中间隐藏状态；

描述语句生成任务的损失函数

为：

；

其中，

为所述图像描述模型生成的描述语句，

表示标注的描述语句，CE代表交叉熵损失。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

在思想上提出显式建模视觉概念词之间的关联信息，重点挖掘视觉模态信息以辅助模型学习建立更鲁棒的跨模态映射；在手段上利用图卷积网络来建立视觉概念词之间结构化的关联信息，基于数据集中单词的互信息对图进行初始化，对单词在文本模态中的语言学先验的提取做了有效的约束。

附图说明

图1为本发明实施例提供的训练流程图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明，在详细说明本发明各实施例的技术方案前，对所涉及的名词和术语进行解释说明，在本说明书中，名称相同或标号相同的部件代表相似或相同的结构，且仅限于示意的目的。

本发明提出了一种基于视觉概念词关联结构化建模的图像描述方法，通过图像描述模型对输入的图像，生成所述图像的描述语句。该图像描述模型包括视觉特征提取和编码模块、视觉概念预测模块、视觉概念关联结构化建模模块、描述生成模块。

视觉特征提取和编码模块用于提取视觉特征；视觉概念预测模块增强视觉信息的贡献，缩小图像与文本之间的语义鸿沟；视觉概念关联结构化建模模块根据词的依赖关系，建立视觉语义概念词的拓扑结构，用以控制生成描述的潜在句法结构，缓解对语言先验的过度依赖；描述生成模块利用视觉特征和结构化视觉语义概念词特征，预测图像的描述性句子，以提升图像描述的表现。再将视觉语义概念词预测任务和图像描述任务共同优化，如此，整个网络能够以端到端的方式进行训练，以更好地适应句子解码过程。

下面具体解释本发明的各个模块。

1.视觉特征提取和编码模块：

通过视觉特征提取器（例如预训练模型CLIP）将所述图像I进行图像编码，得到初步特征编码：

；

其中，

代表所述图像

的初步特征编码，

代表视觉特征提取器；

将所述初步特征编码输入若干个Transformer编码器中编码，取最后一个Transformer编码器的输出作为视觉特征

，Transformer编码器输出计算如下公式：

；

其中，

表示Transformer编码器的编号，

表示第

个Transformer编码器输出的图像

的特征编码，

为层归一化运算，

为Transformer的多头注意力机制操作：

；

其中，Q，K，V分别代表多头注意力机制中的查询值、键值和真值，

和

分别是对应的可学习权值矩阵，

表示可学习权值矩阵的列数，

表示

激活函数。

2.视觉概念预测模块

本模块基于编码后的视觉特征

，预测对应的视觉概念词。

首先，随机初始化一组语义向量

，作为注意力机制中的查询值来引导学习主体、主体间关系、主体属性等视觉概念词。

之后，将所述视觉特征

和所述语义向量

一起输入若干个Transformer解码器，通过自注意力机制深度编码，学习视觉信息与语义词间的潜在关联，输出语义特征。取最后一个所述Transformer解码器的输出作为视觉语义特征

，Transformer解码器输出计算如下公式：

；

其中，

表示Transformer解码器的编号，

表示第

个Transformer解码器的输出，

是所述语义向量

作为Transformer解码器初始的查询值，

为层归一化运算；

最后，将视觉语义特征输入到预测网络，得到预测的视觉概念词

：

；

其中，

表示预测的视觉概念词，

表示多层感知预测网络；

为视觉概念预测模块单独定义损失函数

，使其可以和描述生成模块共同优化，以更好地适应句子解码过程，损失函数

如下：

；

其中，

表示不对称损失，

表示视觉概念词标签。

所述视觉概念词标签

的构建方法如下：

取出清洗后的所述训练数据集所有单词中出现频率高于阈值的若干单词组成一张语义词表

；比较所述图像

的每个所述预测的视觉概念词

是否属于所述语义词表

，如果所述预测的视觉概念词

属于所述语义词表

，将所述预测的视觉概念词

加入所述视觉概念词标签

，如果所述预测的视觉概念词不属于所述语义词表

，在所述视觉概念词标签

中加入特殊字符串，所述特殊字符串不同于所述语义词表

中任意一个单词。

3.视觉概念关联结构化建模模块

从视觉概念预测模块获得概念词后，以往的方法将其直接送入Transformer的语言解码器。然而，因为这些概念是独立处理的，它们的特征是独立学习的，这种方式会使解码器过度依赖语言先验。而视觉概念是源自于图像信息生成的，相当于视觉的高级语义信息，它们之间的进一步建模并没有被考虑。

本发明提出，来自同一图像的视觉概念之间具有很强的关系，于是为这些视觉概念词构造图及相应的邻接矩阵，利用图卷积网络探索概念之间的潜在关系，实现结构化建模，从而可辅助模型像人类一样按更贴合图像真实内容的语言顺序分配所有概念词。

首先，统计训练数据集中每个单词出现的概率，以及在规定单词距离内任意两个单词按指定顺序同时出现的概率，然后计算任意两个单词

的点间互信息分数：

；

其中，

代表

的点间互信息分数，

是

在所述训练数据集中出现的概率，

是

和

在按照

在先

在后，并且

和

在所述规定单词距离内出现的概率。

其次，通过所述视觉概念词构造一个图，定义图的节点集合

，k为所述视觉概念词的数量，每个节点代表一个所述视觉概念词，每条边代表所述边所连接的两个节点之间的关系。使用邻接矩阵

表述所述图，

代表节点

和

的关系，

代表节点

和

有关系或者i与j相等；

再次，建立词典，将所述训练数据集中所有

大于阈值的两个词建立一个相关词对，将所述相关词对存入所述词典。将

所代表的节点

和

对应的所述视觉概念词组成词对

；在所述词典中查找所述词对

，如果能找到，则设

，如果找不到，比较i与j是否相等，如果相等，则设

，如果不相等，则设

。

最后，在所述图卷积网络的第

层，对于每一个节点

，在所述邻接矩阵中找到所有

的

，从第

层取所有

的隐藏向量

，并计算

的输出。

；

其中，

和

分别为第

层图卷积网络的可训练权重和偏置，

为层归一化运算，

为

激活函数，

代表第

层里节点

的一种向量，该向量整合

所有相邻节点的隐藏向量；

取最后一层的输出作为所述结构化视觉语义概念词特征

，将其送到语言解码器中，有助于建立文本的语法关系和依赖关系，从而生成更准确的文本描述。

4.描述生成模块

按照Transformer解码器结构，以所述视觉特征

和所述结构化视觉语义概念词特征

作为输入，生成描述语句：

；

；

其中，

是生成的描述语句中的第

个单词，

是中间隐藏状态；

描述语句生成任务的损失函数

为：

；

其中，

为所述图像描述模型生成的描述语句，

表示标注的描述语句，CE代表交叉熵损失。

图像描述模型的上述四个模块依次处理输入的图像，之后定义图像描述模型的总体损失L：

；

根据总体损失L训练图像描述模型。

之后，用训练好的图像描述模型来处理图像描述任务。

综上所述，本发明在预测视觉概念的基础上，利用图卷积建模其拓扑关联，用以控制生成描述的潜在句法结构，以提升图像描述的表现。

以上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种基于视觉概念词关联结构化建模的图像描述方法，其特征在于，通过图像描述模型对输入的图像，生成描述语句，所述图像描述模型的训练过程，包括以下步骤：

；

步骤三，视觉概念预测任务：随机初始化一组语义向量

，将视觉特征

和语义向量

，则预测的视觉概念词

，其中，

代表多层感知预测网络；

步骤四，视觉概念关联结构化建模：为视觉概念词

构造图及相应的邻接矩阵，利用图卷积网络探索视觉概念词

；

步骤五，描述语句生成任务：以视觉特征

和结构化视觉语义概念词特征

作为标准Transformer解码器的输入，按顺序生成描述语句；

；

其中

为视觉概念预测任务的损失函数，

为描述语句生成任务的损失函数；

步骤七，根据所述总体损失函数L训练所述图像描述模型。

2.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法，其特征在于，步骤二具体包括：

；

其中，

代表所述图像

的初步特征编码，

代表视觉特征提取器；

：

；

其中，

表示Transformer编码器的编号，

表示第

个Transformer编码器输出的图像

的特征编码，

为层归一化运算，

为Transformer的多头注意力机制操作：

；

和

分别是Q、K、V对应的可学习权值矩阵，

表示可学习权值矩阵的列数，

表示

激活函数，T表示转置。

3.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法，其特征在于，步骤三具体包括：

步骤三A，随机初始化一组语义向量

；

步骤三B，将所述视觉特征

和所述语义向量

，Transformer解码器的输出计算如下：

；

；

其中，

表示Transformer解码器的编号，

表示第

个Transformer解码器的输出，

是Transformer解码器初始的查询值，

为层归一化运算，

为Transformer的多头注意力机制操作；

步骤三C，得到预测的视觉概念词

：

；

其中，

表示多层感知预测网络；

步骤三D，则视觉概念预测任务的损失函数

如下：

；

其中，

表示不对称损失，

表示构建的视觉概念词标签。

4.根据权利要求3所述的基于视觉概念词关联结构化建模的图像描述方法，其特征在于，所述视觉概念词标签

的构建方法包括：

；

比较所述图像

的每个预测的视觉概念词

是否属于所述语义词表

，如是，将所述预测的视觉概念词

加入所述视觉概念词标签

，如否，在所述视觉概念词标签

中加入特殊字符串，所述特殊字符串不同于所述语义词表

中任意一个单词。

5.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法，其特征在于，步骤四具体包括：

的点间互信息分数：

；

其中，

代表

的点间互信息分数，

分别是

在所述训练数据集中出现的概率，

是

和

在按照

在先

在后，并且

和

在所述规定单词距离内出现的概率；

步骤四C，使用邻接矩阵

表述所述图，

是代表节点

和

的关系，

代表节点

和

有关系或者i与j相等；

步骤四D，建立词典，将所述训练数据集中所有

步骤四E，根据所述词典初始化所述邻接矩阵A；

。

6.根据权利要求5所述的基于视觉概念词关联结构化建模的图像描述方法，其特征在于，根据所述词典初始化所述邻接矩阵A，包括：

将

所代表的节点

和

对应的所述视觉概念词组成词对

；

在所述词典中查找所述词对

，如果能找到，则设

；如果无法找到，比较i与j是否相等，如果相等，则设

，如果不相等，则设

。

7.根据权利要求5所述的基于视觉概念词关联结构化建模的图像描述方法，其特征在于，所述通过图卷积网络处理所述图数据，得到所述结构化视觉语义概念词特征

，包括：

在所述图卷积网络的第

层，对于每一个节点

，在所述邻接矩阵中找到所有

的

，从第

层取所有

的隐藏向量

，并计算

的输出：

；

其中，

和

分别为第

层图卷积网络的可训练权重和偏置，

为层归一化运算，

为

激活函数，

代表第

层里节点

的一种整合

所有相邻节点隐藏向量的向量；

取最后一层的输出作为所述结构化视觉语义概念词特征

。

8.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法，其特征在于，步骤五包括：

按照Transformer解码器结构，以所述视觉特征

和所述结构化视觉语义概念词特征

作为输入，生成描述语句：

；

；

其中，

是生成的描述语句中的第

个单词，

是中间隐藏状态；

描述语句生成任务的损失函数

为：

；

其中，

为所述图像描述模型生成的描述语句，

表示标注的描述语句，CE代表交叉熵损失。