CN116452931B

CN116452931B - 一种层级敏感的图像特征聚合方法

Info

Publication number: CN116452931B
Application number: CN202310382755.1A
Authority: CN
Inventors: 樊彬; 陈永杰; 刘红敏; 曾慧
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2024-03-19
Anticipated expiration: 2043-04-11
Also published as: CN116452931A

Abstract

本发明公开了一种层级敏感的图像特征聚合方法，包括：在Transformer网络中加入局部自适应特征聚合模块和语义信息聚合模块，构建出层次结构敏感的特征聚合框架；其中，所述特征聚合框架包括三次特征聚合过程，且在三次特征聚合过程中分别采用了不同的聚合方案；将待处理的图像输入所述特征聚合框架中进行特征聚合，得到特征图像。本发明可使Transformer建立更准确的全局关系，并在图像分类、目标检测、语义分割等多个任务上取得更好的效果。

Description

一种层级敏感的图像特征聚合方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种层级敏感的图像特征聚合方法。

背景技术

目前主流的计算机视觉骨干网络主要包含卷积神经网络和Transformer。由于卷积神经网络是先于Transformer被提出来的，所以Transformer很多方案是直接沿用的卷积神经网络的方案，而并没有考虑到不同骨干网络的特性，层次化特征聚合方案就属于这种情况。

对于卷积神经网络而言，其是通过滑动窗口对图像进行学习的，这就会导致在学习的过程中学习的都是图像的局部信息，就比如图像的一小块内容，而为了能够更好的学习到图像更多的内容，让每个“局部信息”之间进行合并，从而学习到整幅图像，就需要通过卷积对图像进行下采样，从而实现特征的聚合。进行特征聚合之后的图像大小会减半，计算量会降低。对于目前大多数的卷积神经网络来讲，整个网络结构会被分为4个阶段，这四个阶段之间会经过3次下采样来进行特征聚合。以输入图像的大小为224×224而言，四个阶段的图像大小分别为：56×56、28×28、14×14、7×7。所以对于卷积神经网络的特征聚合方案就是通过步长为2的卷积进行下采样，由于卷积对图像的学习方式本来就是通过滑动窗口进行学习的，所以直接采用这种方案是可以的。

对于Transformer骨干网络而言，目前常见的特征聚合方案仍然和卷积神经网络是相似的，通过步长为2的卷积对图像进行下采样，实现特征聚合。或者是将相邻区域的图像直接进行合并来实现特征的聚合。同时，Transformer在整个网络结构中仍然会进行3次下采样来进行特征聚合，下采样之后图像的大小和卷积神经网络是相同的。

目前主流的图像特征融合方案如图1所示，其中，白色框为卷积操作，箭头为卷积的滑动方向。(a)是特征聚合之前的样子，(b)是特征聚合之后的图像，此时图像的高和宽都减小减半。具体对于卷积核而言，这是一个大小为2×2的卷积核，这个2×2其实表示的是在一个卷积核内有4个像素。然后在进行特征聚合操作时，卷积核的步长为2，也就是每次滑动的像素数目为2，这样就会使得卷积核聚合的特征不会重叠。整个卷积和学习的过程是一个加权相乘的过程，其公式表示为：其中，左边的矩阵表示图像中被卷积核框住的像素，右边的矩阵表示卷积核的数据。等式右边是聚合之后的结果，这里多了一个bias是一个可学习的数。从卷积的结果看出来，一共四个像素在特征聚合之后变成了一个新的像素。这也是为什么在进行特征融合之后图像的高和宽都会减少一半。在目前已有的方案中，基本都采用的是这种方案，同时在不同的阶段都采用这种方案进行特征融合。

在Transformer中的特征聚合方案是直接沿用卷积神经网络的操作。但是这就会带来一个问题，卷积神经网络之所以需要下采样，是因为单靠卷积操作是没法使图像不同部位的特征进行交互的，所以要通过卷积操作进行特征融合来缩小图像的大小，从而使图像中不同的特征能够进行交互。但是这个问题在Transformer里并不存在，因为Transformer中有一个操作叫做注意力机制，这个注意力机制是公认的拥有全局建模能力，也就是可以直接使图像中不同位置的特征产生交互。在Transformer中，图像会被分为很多个小的图像块，如果仍然按照卷积的方案进行特征融合这样可能会导致融合之后的特征语义信息会发生混淆。这使得之后注意力机制在建模全局关系时不准确，最终导致下游任务中出现分割不准确或者漏分割的问题。

简单来讲，卷积神经网络这样做是因为卷积神经网络学习特征的方式就是通过卷积核来对图像进行滑动学习，从整体来看是合理的。但是对于Transformer而言，是通过注意力机制来学习图像的，仍然按照卷积的方案是不合理的，直接采用卷积的方案会导致聚合之后的特征语义信息会发生混淆，从而使得最后注意力机制在建模全局关系时不准确，最终导致下游任务中出现分割不准确或者漏分割的问题。

发明内容

本发明提供了一种层级敏感的图像特征聚合方法，以解决现有技术直接使用卷积进行特征融合导致聚合之后的特征语义发生混淆，使得注意力机制在建模全局关系时不准确，导致下游任务中出现分割不准确或者漏分割的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种层级敏感的图像特征聚合方法，包括：

在Transformer网络中加入局部自适应特征聚合模块和语义信息聚合模块，构建出层次结构敏感的特征聚合框架；其中，所述层次结构敏感的特征聚合框架包括三次特征聚合过程，且在三次特征聚合过程中采用了不同的聚合方案；

将待处理的图像输入所述特征聚合框架中进行特征聚合，得到特征图像。

进一步地，所述Transformer网络分为四个阶段；所述在Transformer网络中加入局部自适应特征聚合模块和语义信息聚合模块，构建出层次结构敏感的特征聚合框架，包括：

在Transformer网络的第一阶段和第二阶段，以及第二阶段和第三阶段间加入局部自适应特征聚合模块；在第三阶段和第四阶段间加入语义信息聚合模块。

进一步地，所述局部自适应特征聚合模块进行特征聚合的过程包括：

通过一个大小为2×2的卷积核对输入图像进行学习，从而为每个采样点预测一个偏移；其中，所述输入图像为第一阶段或第二阶段输出的特征图；

将每个采样点的初始坐标与其对应的偏移相加，从而使采样点进行偏移；

将偏移之后的采样点坐标对应的值进行聚合，得到聚合特征。

进一步地，偏移之后的采样点坐标对应的值通过双线性插值的方式获取。

进一步地，将偏移之后的采样点坐标对应的值进行聚合与卷积一样是一个加权相乘再相加的过程。

进一步地，所述语义信息聚合模块包括第一支路和第二支路；

所述语义信息聚合模块进行特征聚合的过程包括：

首先将第三阶段输出的特征图复制为两份，一份输入所述语义信息聚合模块的第一支路，另一份输入所述语义信息聚合模块的第二支路；

在所述第一支路中，首先将图像块进行聚类，将具有相似语义信息的图像块划分到同一个组内；然后将同一个组内的图像块进行聚合，实现特征的聚合；

在所述第二支路中包括一个位置编码模块，所述位置编码模块通过大小为2×2，步长为2的卷积操作对图像进行位置编码。

进一步地，所述第一支路中将图像块进行聚类时使用的聚类算法为DPC-KNN。

进一步地，所述第一支路中将同一个组内的图像块进行聚合的过程包括：

通过一个全连接层来预测每一个图像块的重要性；

将当前聚类组内的图像块的重要性先归一化，然后得到一个权重；

用得到的权重来与对应的图像块的值相乘，得到加权后的图像块的值；

将整个组内的图像块的加权相乘之后的值相加，表示为聚合后的新图像块。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明提出了一种针对Transformer的层次结构敏感的特征聚合框架。根据Transformer网络在不同阶段学习到的特征进行专门的特征聚合。在模型阶段1和阶段2，以及阶段2和阶段3之间利用局部自适应特征聚合增强了局部特征的保留；在模型阶段3和阶段4之间利用语义信息聚合模块根据特征的语义信息进行聚合。从而使得Transformer网络在使用该层次化结构感知的特征聚合框架后能够在不同阶段更合理的对特征进行聚合。在前几个阶段保留更多的局部信息，在后面阶段将相似语义信息进行聚合。从而使Transformer可建立更准确的全局关系，并在图像分类、目标检测、语义分割等多个任务上取得更好的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有的图像特征融合方案示意图；其中，(a)是特征聚合之前的图像示意图，(b)是特征聚合之后的图像示意图；

图2是Transformer将图像划分为多个图像块的示意图；

图3是本发明实施例提供的层次结构敏感的特征聚合框架示意图；

图4是本发明实施例提供的层级敏感的图像特征聚合方法的整体流程图；

图5是本发明实施例提供的局部自适应特征聚合模块结构示意图；

图6是本发明实施例提供的局部自适应特征聚合流程示意图；

图7是本发明实施例提供的语义信息聚合模块结构示意图；

图8是本发明实施例提供的语义信息聚合流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

针对现有技术直接使用卷积进行特征融合导致聚合之后的特征语义发生混淆，使得注意力机制在建模全局关系时不准确，导致下游任务中出现分割不准确或者漏分割的问题，本实施例提供了一种层级敏感的图像特征聚合方法，该方法提出了一种层次结构敏感的特征聚合框架，该框架包含两大模块，分别是“局部自适应特征聚合模块”和“语义信息聚合模块”。在局部自适应特征聚合模块中包含一个自适应的特征学习模块；在语义信息聚合模块中包含一个聚类算法：DPC-KNN和特征合并与空间分布保留方案。

该方法的执行流程包括以下步骤：

S1，在Transformer网络中加入局部自适应特征聚合模块和语义信息聚合模块，构建出层次结构敏感的特征聚合框架；其中，该层次结构敏感的特征聚合框架包括三次特征聚合过程，且在三次特征聚合过程中采用了不同的聚合方案；

其中，需要说明的是，一个Transformer网络分为4个阶段，在4个阶段之间会有三次特征聚合操作。所以，本实施例的框架也包含三个特征聚合操作，具体而言，本实施例在阶段1和阶段2与阶段2和阶段3之间均采用了局部自适应特征融合模块，而在阶段3和阶段4之间采用了语义信息聚合模块。该框架结构如图3所示，其对输入图像的整体处理流程如图4所示。

而本实施例之所以在阶段1和阶段2与阶段2和阶段3之间使用局部自适应特征聚合模块。是因为对于Transformer网络而言，在前2个阶段学习到的特征主要是一些局部特征，例如局部纹理信息。而在靠近网络的输出端，也就是阶段3和阶段4所学到的特征主要是高级语义信息。由于在网络深层的高级语义信息的质量很大程度依赖于浅层局部信息的提取，所以本实施例在浅层，也就是阶段1和阶段2与阶段2和阶段3之间使用局部自适应特征聚合模块，来增强局部信息的提取。

S2，将待处理的图像输入该特征聚合框架中进行特征聚合，得到特征图像。

下面结合图2至图8，对本实施例的方法进行详细说明。

首先，需要说明的是，相比于卷积神经网络，Transformer天生就拥有更好的全局建模能力。这是因为注意力机制能够直接对全局关系进行建模，所以Transformer并不需要像卷积神经网络一样通过滑动窗口进行下采样来建立全局关系。尽管如此，为了能够直接将Transformer纳入下游任务的现有框架(如目标检测和实例、语义分割)，生成分层特征图对于Transformer仍然至关重要。Transformer首先会将图像划分为多个小的图像块，如图2所示。这样会带来一个很严重问题：物体的完整的语义信息会被破坏，具体表现为同一个图像块内可能包含多种破碎的语义信息。紧接着在采用卷积神经网络的特征融合方案之后，融合之后的特征中的语义信息会发生混淆。这使得之后注意力机制在建模全局关系时不准确，最终导致下游任务中出现分割不准确或者漏分割的问题。

针对上述问题，本实施例提出了一种针对于Transformer的层次敏感的特征融合框架。从大的方向上而言，本实施例主要是针对Transformer提出了一种特征聚合方案。目前Transformer中的特征聚合方案主要采用滑动窗口对特征进行聚合，或者直接将相邻区域的图像进行聚合，对于3次特征聚合都是采用相同的方式。而本实施例的方案是层次敏感的，本实施例在3次特征聚合过程中采用了不同的方案，具体而言，本实施例在前两次特征聚合时采用了局部自适应特征聚合模块，在最后一次特征聚合时采用了语义信息聚合模块。本实施例的方法是根据Transformer骨干网络在网络的不同阶段学习到的图像特征进行专门的特征聚合，而不是直接在3个特征聚合处采用相同的聚合方案。

从具体的小方向上而言，在前两次的局部自适应特征聚合模块，本实施例采用了类似于可变形卷积的思想。简单来讲，并不是直接采用卷积窗口进行特征聚合。而是通过一个卷积对图像进行学习，预测哪里的特征更加重要，然后学习一个位置偏移。进一步，在一个原始的卷积上应用这个位置偏移，从而能够更好的学习图像的特征。而在语义信息聚合模块中，本实施例主要采用了DPC-KNN算法对图像的特征进行聚类，然后对图像的特征进行聚合以及位置信息的保留。简单讲来，本实施例其实是取两种方法的优势，结合Transformer网络在不同阶段学习到的特征进行专门的特征融合。在保证推理速度的同时兼顾精度以及在其他任务的拓展性。

具体地，本实施例的局部自适应特征聚合模块如图5所示，其中，点表示采样点，常规采样点的坐标为小图像块的中心。如图6所示，局部自适应模块，通过一个大小为2×2的卷积核对输入图像进行学习，从而为每个采样点预测一个偏移。每个采样点的坐标与其对应的偏移相加，从而使采样点进行偏移。由于整个操作过程是可微分的，所以可通过梯度下降算法进行学习，从而使采样中心捕捉到更多的局部信息，而减少冗余信息。每个采样点的值可通过双线性插值来获取。最终，将偏移之后的采样点进行聚合，这个聚合过程和卷积一样是一个加权相乘再相加的过程。通过自适应的学习之后获得的聚合特征具有更丰富、高质量的局部信息，可以帮助模型在深层更好地建立高质量的语义信息。

这个方案用公式说明可以这样，首先一个输入图像为其中C、H、W分别为特征通道尺寸、高度、宽度。/>其中，P_I表示采样点的初始坐标，n×n表示图像被分割为了n×n个图像块。这里之所以还要乘以2是因为坐标包含横坐标和纵坐标有两个，所以要乘以2。然后我们通过一个2×2的卷积去学习一个位移/>由于每个采样点都会学习到一个偏移，所以P_I、O_f的形状是相同的。所以最终采样点的坐标为P_E＝P_I+O_f。在得到偏移之后的坐标之后通过双线性插值得到采样点对应的值。最后将这些值进行聚合。

进一步地，需要说明的是，局部自适应特征聚合模块的作用就是在模型的浅层，语义信息还不是很丰富的时候捕捉更多的局部信息减少冗余信息，使得模型在深层拥有更完整和准确的语义信息。除此之外，如果直接在浅层使用语义信息聚合模块可能会带来大量的噪声以及计算量，从而导致模型效果不好。

语义信息聚合模块如图7所示，这个模块用在阶段3和阶段4之间，根据阶段3输出的图像块的语义信息进行聚类，将具有相似语义信息的图像块划分到同一个组内。然后将同一个组内的图像块进行聚合，实现特征的聚合。

语义信息聚合模块对图像的处理过程如图8所示，首先将图像块复制为两份，具体体现为图7中的两条支路。首先介绍下面的一条支路。首先需要将图像块进行聚类，聚类算法选择的是DPC-KNN(基于K近邻的峰值密度聚类算法)，这个算法来源于两个假设：(1)聚类中心的局部密度高于周围数据点的局部密度。(2)不同组的中心距离很远。首先，我们用d_ij＝||x_i-x_j||₂来表示两个图像块之间的欧几里得距离。在进行局部密度计算式，这里考虑最近的k个图像块来减少计算量。所以局部密度可以表示为：其中，ρ_i表示图像块i的局部密度，k表示最近邻的k个图像块。x_j∈KNN(x_i)表示x_j属于x_i的k个最近的图像块。Exp表示取指数。第二步是计算局部密度较大的图像块与比它局部密度更大的图像块之间的相对距离，可以表示为/>其中，ρ_j＞ρ_i表示局部密度比ρ_i更大的图像块。i表示一共有N个图像块。这里之所以取了一个最小值，是因为在假设2中，需要不同簇的中心的距离相对较远。然后为了满足两个假设，将局部密度和聚类中心之间相对距离大这两个假设，本实施例计算出每个图像块的ρ_i×δ_i。这个值越大表示这个图像块成为聚类中心的概率越大。在这里本实施例选择值最大的前四分之一图像块作为聚类中心。然后将所有的图像块与每个聚类中心计算欧几里得距离，将非聚类中心的图像块与其欧几里得距离最近的聚类中心图像块划分为同一组。本实施例认为在同一组内具有相似的语义信息。

下一步就是将具有相似语义信息的图像块进行融合，本实施例首先通过一个全连接层来预测每一个图像块的重要性，重要性表示为p。然后本实施例将同一个组中具有相似语义信息的图像块进行聚合，聚合过程如式：其中，C_i表示第i个聚类中心所在的组，m表示这个聚类组内一共有m个图像块。x_j表示图像块j。整体公式的意思可以理解为，将这个聚类组内的图像块的重要性先归一化，然后得到一个权重，用这个权重来与图像块的值相乘，得到加权后的图像块的值。最终将整个组内的图像块的加权相乘之后的值相加，表示为聚合之后的新图像块。最后将聚合之后的图像块输入到之后的Transformer块中进行处理。

之前说过会将阶段3的图像块复制2份，现在接着说上面一条支路，这条支路里面有一个位置编码模块，简单来讲就是一个卷积操作。卷积的大小为2×2，步长为2，通过卷积对图像进行位置编码。将编码之后的值输入到Transformer块中进行处理。

综上，本实施例提出了一种针对Transformer的层次结构敏感的特征聚合框架。根据Transformer网络在不同阶段学习到的特征进行专门的特征聚合。在模型阶段1和阶段2，以及阶段2和阶段3之间利用局部自适应特征聚合增强了局部特征的保留；在模型阶段3和阶段4之间利用语义信息聚合模块根据特征的语义信息进行聚合。从而使得模型在使用该层次化结构感知的特征聚合框架后能够在不同阶段更合理的对特征进行聚合。在前几个阶段保留更多的局部信息，在后面阶段将相似语义信息进行聚合。从而使Transformer可建立更准确的全局关系，并在图像分类、目标检测、语义分割等多个任务上取得更好的效果。

第二实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第三实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种层级敏感的图像特征聚合方法，其特征在于，包括：

将待处理的图像输入所述特征聚合框架中进行特征聚合，得到特征图像；

所述Transformer网络分为四个阶段；所述在Transformer网络中加入局部自适应特征聚合模块和语义信息聚合模块，构建出层次结构敏感的特征聚合框架，包括：

在Transformer网络的第一阶段和第二阶段间，以及第二阶段和第三阶段间加入局部自适应特征聚合模块；在第三阶段和第四阶段间加入语义信息聚合模块；

所述局部自适应特征聚合模块进行特征聚合的过程包括：

将偏移之后的采样点坐标对应的值进行聚合，得到聚合特征；其中，将偏移之后的采样点坐标对应的值进行聚合，与卷积一样是一个加权相乘再相加的过程；

所述语义信息聚合模块包括第一支路和第二支路；

所述语义信息聚合模块进行特征聚合的过程包括：

在所述第二支路中包括一个位置编码模块，所述位置编码模块通过大小为2×2，步长为2的卷积操作对图像进行位置编码；将编码之后的值输入到Transformer块中进行处理；

所述第一支路中将同一个组内的图像块进行聚合的过程包括：

通过一个全连接层来预测每一个图像块的重要性；

2.如权利要求1所述的层级敏感的图像特征聚合方法，其特征在于，偏移之后的采样点坐标对应的值通过双线性插值的方式获取。

3.如权利要求1所述的层级敏感的图像特征聚合方法，其特征在于，所述第一支路中将图像块进行聚类时使用的聚类算法为DPC-KNN。