CN114693940A

CN114693940A - 基于深度学习的特征混合可分解性增强的图像描述方法

Info

Publication number: CN114693940A
Application number: CN202210304675.XA
Authority: CN
Inventors: 李宏亮; 邱奔流; 高翔宇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-07-01
Anticipated expiration: 2042-03-22
Also published as: CN114693940B

Abstract

本发明提出一种基于深度学习的特征混合可分解性增强的图像描述方法，旨在直接变换图片内各个目标的深层视觉特征，来为视觉特征赋予混合可分解性，通过混合模块来生成混合特征，通过特征提取器提取初始特征，利用混合模块读取一个主特征一个副特征来生成混合特征，再通过分解模块来重构主特征。进一步的，根据特征提取器提取的特征的分类损失、混合模块的混合损失和分解模块重构出的特征的分类损失，利用反向传播和梯度下降算法来更新模型参数，以增强特征提取器提取的特征的混合可分解性。本发明提取的特征具有更强的可分解性，能广泛地应用于视觉问答和图片标注等一系列下游任务，来提升下游任务模型的表现。

Description

基于深度学习的特征混合可分解性增强的图像描述方法

技术领域

本发明涉及机器学习中的表示学习技术；特别涉及图像描述技术。

背景技术

伴随着深度学习技术的发展和成熟，深度学习技术与人们日常生活的结合越来越紧密。深度学习技术在计算机视觉中丰富多彩的应用场景，也对特征应该具有的性质提出了更高的要求。更高层次的计算机视觉下游任务的解决，往往需要利用上游任务提取的低层次视觉信息。这些低层次信息作为下游高层次任务的基础，对下游任务的解决有着很大的影响。为了使特征提取器提取的视觉特征能提升已有模型在下游任务上的表现，我们需要赋予特征更多的优良性质。本发明主要致力于训练一个特征提取器，来提取具有混合可分解性的视觉特征。

目前，一些数据增强方法通过直接对输入图片进行旋转、翻转等变换，来丰富原始训练图片集，以增强特征提取器提取的特征具有的旋转不变性和翻转不变性等。然而，这类直接变换输入图片的方法，缺乏对模型深层特征的直接增强。另外，这些方法大多变换整张图片，而缺乏更精细的变换图片内部各个目标的操作，也缺乏对特征混合可分解性这一优良性质的增强。

发明内容

本发明提出一种提取的目标的特征相比原始的目标特征有更好的混合可分解性的基于深度学习的特征混合可分解性增强方法，为后续的更精准的图像分类提供基础。

本发明为解决上述技术问题所采用的技术方案是，基于深度学习的特征混合可分解性增强的图像描述方法，特征提取器的训练步骤如下：

特征提取步骤：特征提取器接收输入的N对目标标签对

为每个带标签y_i的目标图像x_i生成特征f_i，

是标签集合；

混合步骤：混合模块将特征f_i作为主特征，以其它目标图像的特征作为副特征生成目标图像x_i的混合特征m_ij：

其中，f_i为目标图像x_i的特征，f_j为其他目标图像x_j的特征，j＝1，...，N，i≠j；

代表对应位置元素相加，∈是超参数；

是从主副目标索引对到主副标签对的映射，u_l(i，j)为映射l(i，j)的加权系数，u_l(i，j)∈[0，1]；

分解步骤：分解模块利用预设的目标特征字典D从混合特征m_ij中重构出能体现特征可分解性的主特征o_i：

其中，目标特征字典D由C个类别的目标图像的均值特征组成，

P(c)表示类别c的目标占整个有标签目标的比例，c＝1，...，C；P(·)表示某个类别的目标占整个数据集中有标签目标的比例；W₁和W₂均为输出维度是σ的全连接层，W₁(·)和W₂(·)代表全连接层的输出；I表示转置，⊙表示对应元素相乘，

表示矩阵乘法，Softmax表示Softmax函数；

训练过程中特征提取模块通过分类损失进行约束；混合模块通过混合损失进行约束；分解模块通过分解损失进行约束；

使用训练好的特征提取器来提取用于描述图像的目标特征。

本发明旨在直接变换图片内各个目标的深层视觉特征，来为视觉特征赋予混合可分解性，尝试通过混合模块来生成混合特征，主要是通过特征提取器提取初始特征，利用混合模块读取两个初始特征(一个作为主特征，另一个作为副特征)来生成混合特征，通过分解模块来重构主特征。进一步的，根据特征提取器提取的特征的分类损失、混合模块的混合损失和分解模块重构出的特征的分类损失，利用反向传播和梯度下降算法来更新模型参数，以增强特征提取器提取的特征的混合可分解性。

本发明的有益效果是，利用本发明的方法训练的特征提取器，其提取的特征具有更强的可分解性，可通过与其他特征直接级联的方式广泛地应用于视觉问答和图片标注等一系列下游任务，来提升下游任务模型的表现。具有使用范围广、使用方便的特点。

附图说明

图1：本发明整体框架图

图2：混合模块计算图

图3：分解模块计算图

具体实施方式

实现本发明基于深度学习的特征混合可分解性增强方法的整体构架如图1所示，包含特征提取模块、混合模块和分解模块三个部分，由分类损失、混合损失和分解损失来分别指导三个模块的学习。

下面将首先说明特征提取模块、混合模块和分解模块的具体设计。

设目前已获得目标标签对数据共N对，表示为

其中x_i是从图片中使用预先准备好的检测框裁剪出的索引为i的目标图像，y_i是该目标对应的标签，

是标签集合。对于特征提取器

可产生目标图像x_i的视觉特征：

为每个带标签目标生成混合特征。例如，如果一张图片有M个带标签目标，那么我们能够为每个带标签目标计算M-1个混合特征。当计算某个带标签目标x_i的混合特征时，该目标称为主目标，其对应的特征f_i称为主特征，用来混合主目标的其他目标称为副目标，副目标x_j对应的特征f_j称为副特征。

混合模块如图2所示，其利用副特征f_j来混合主特征f_i得到混合特征m_ij的操作如下：

其中

是从主副目标索引对到主副标签对的映射，u_l(i，j)为映射l(i，j)的加权系数，u_l(i，j)∈[0，1]。符号

代表对应位置元素相加，∈是超参数。

分解模块从混合模块生成的混合特征中重构出主特征，来体现特征的可分解性。由于不能在没有先验知识的条件下仅由混合特征重构出主特征，因此分解模块中集成了一个预先准备的目标特征字典D。字典为每个类别的目标存储了一个均值特征d_i，该均值特征是预训练的特征提取器提取的所有该类目标的特征的均值。分解模块的输入仅有混合特征m_ij。在给定目标特征字典

即数据集中标签种类的数量)，如图3所示，其计算重构输出特征o_i的方式如下：

其中q＝W₁(m_ij)，K＝W₂(D^T)，P(·)表示某个类别的目标占整个数据集中有标签目标的比例。W₁和W₂分别代表输出维度是σ的全连接层，W₁(·)和W₂(·)代表全连接层的输出，T表示转置。符号⊙表示对应元素相乘，

表示矩阵乘法。

下面分别说明分类损失、分解损失和混合损失的具体计算方法。

该发明使用一个分类器读取特征提取器提取的特征，来判断该特征对应目标的标签。交叉熵损失被用作分类损失来指导特征提取器和分类器的学习，分类损失计算如下：

其中

是目标特征f_i的真实标签，p(·)代表接在特征提取器顶部的分类器。由于分解模块的输出特征应该和特征提取器提取的特征相似，本发明使用了接在特征提取器顶部的分类器p(·)，来判断分解出的特征的标签。与式(4)类似，分解损失也采用交叉熵损失，计算如下：

其中o_i是分解出的相似于主特征f_i的特征，其真实标签即为主特征的f_i的真实标签

为了指导混合模块的学习，本发明采用的混合特征由两部分构成。这是因为一方面，混合模块要利用副特征将主特征充分混合，另一方面又不能彻底破坏主特征。前者通过分类器p(·)对混合特征的分类损失很大来体现，后者通过限制u_l(i，j)过小来实现。因此，用来指导混合模块学习的混合损失构造如下：

其中，N(i)代表目标x_i所在图片中余下的有标记目标的数量，k(i，·)：{1，...，N(i)}→{1，...，N}是从目标x_i所在图片中余下目标的局部索引，到整个数据集中所有的带标记目标的全局索引的映射，k(i，j)即代表目标x_i所在图片中局部索引为j的目标在整个数据集中的全局索引，取值范围1到N；u为由u_l(i，j)组成的大小为

的矩阵，

表示集合

中的元素个数；||·||代表某种范数，可取二范数，λ是用来平衡该损失的两个部分的超参数。

最后，本发明采用了交替训练的策略来指导特征提取器、混合模块和分解模块的学习。在整个训练过程中，特征提取器始终可以更新参数，而混合模块和分解模块交替更新参数。具体来说，当特征提取器和混合模块参数更新时，分解模块参数不变，特征提取器提取的特征的分类损失和混合损失直接相加的结果来反向传播和梯度更新特征提取器和混合模块的参数；而当特征提取器和分解模块参数更新时，特征提取器提取的特征的分类损失和分解损失直接相加的结果来反向传播和梯度更新特征提取器和分解模块的参数，此时混合模块参数不变。

实施例

本发明在PyTorch深度学习框架上实现，主要包括如下步骤：特征提取器提取特征，计算用特征提取器提取的特征的分类损失，选取图片中主特征和副特征来计算混合特征，计算混合损失，利用分解模块分解出主特征，计算分解出的特征的分解损失，根据分类损失、混合损失和分解损失来更新模块参数。

步骤一：

第1步：特征提取器

给一个批次数据中每个带标记的目标x_i提取特征f_i；

第2步：按照式(4)计算特征提取器提取特征f_i的分类损失

第3步：针对同一张图片中所有带标签目标的特征，按照式(2)操作，生成混合特征m_ij；

第4步：按照式(6)计算混合损失

第5步：计算混合损失

与分类损失

的和；

第6步：根据上一步计算的损失之和，来反向传播和梯度更新特征提取器和混合模块的参数；

步骤二：

第7步：特征提取器

给一个批次数据中每个带标记的目标x_i提取特征f_i；

第8步：按照式(4)计算特征提取器提取特征f_i的分类损失

第9步：读取混合模块生成的混合特征m_ij，使用分解模块，按式(3)重构出特征o_i；

第10步：按照式(5)计算分解损失

第11步：计算分解损失

与分类损失

的和；

第12步：根据上一步计算的损失之和，来反向传播和梯度更新特征提取器和分解模块的参数；

步骤三：

第13步：循环到第1步，开始下一周期的训练，直到达到预先设定的循环次数。

第14步：使用训练好的特征提取器来提取目标特征用于视觉问答或图片标注等下游任务的训练和测试。