CN117152455A

CN117152455A - 一种特征图上采样方法及应用

Info

Publication number: CN117152455A
Application number: CN202311088025.7A
Authority: CN
Inventors: 陆昊; 刘文泽; 付洪涛; 曹治国
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-12-01

Abstract

本发明公开了一种特征图上采样方法及应用，属于图像处理技术领域，包括：S1、将输入特征图映射为位置偏置图；其中，位置偏置图第i行第j列的元素(Δx_i,Δy_j)表示输入特征图([i/s],[j/s])位置处的位置偏置；s为缩放比例；H和W分别为输入特征图的长和宽；S2、将位置偏置图中第i行第j列的元素(Δx_i,Δy_j)与位置([i/s],[j/s])相加，得到输入特征图的采样位置图；S3、基于采样位置图，对输入特征图进行插值，得到高分辨率特征图，从而实现对输入特征图的上采样操作。本发明在保证上采样性能的基础上，能够以较低的复杂度和较快的计算速度实现上采样。

Description

一种特征图上采样方法及应用

技术领域

本发明属于图像处理技术领域，更具体地，涉及一种特征图上采样方法及应用。

背景技术

图像稠密预测任务是一种给图片的每一个像素都做分类预测的任务，在许多视觉任务，如显著物体检测、语义分割、深度估计、边缘检测和关键点检测等中均有着非常重要的作用。而特征图上采样是图像稠密预测任务中不可或缺的一部分，起到逐渐恢复特征图分辨率的作用。

常用的特征图上采样方法包括最近邻插值和双线性插值，它们遵循固定的规则计算上采样后的值。为了增加灵活性，一些任务引入了可学习的上采样算子，比如实例分割中的反卷积和图像超分辨率中的深度转空间等。然而，反卷积会造成棋盘格效应，深度转空间不适用于高层视觉任务。

随着动态网络的流行，一些动态上采样方法在某些稠密预测任务上展现出巨大潜力，如CARAFE算法、FADE算法、SAPA算法等。其中，CARAFE算法提出首先生成内容相关的上采样核，而后使用动态卷积进行上采样。FADE算法和SAPA算法提出结合高分辨率和低分辨率特征来生成上采样核，使得上采样过程可以得到高分辨率结构的引导。然而这些动态上采样算子的结构一般比较复杂，需要安装特制的CUDA代码包，并且相比双线性插值有相当多的时间消耗。特别是FADE算法和SAPA算法，高分辨率的引导会引入更多的计算量，并且给它们的应用场景带来局限性。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种特征图上采样方法及应用，其目的在于，在保证上采样性能的基础上，提出一种计算复杂度低、计算速度快的特征图上采样方法。

为了实现上述目的，第一方面，本发明提供了一种特征图上采样方法，包括：

S1、将输入特征图映射为位置偏置图；其中，位置偏置图的大小为sH*sW*2，其第i行第j列的元素(Δx_i,Δy_j)表示输入特征图([i/s],[j/s])位置处的位置偏置；[·]为取整符号；i＝1,2,…,sH；j＝1,2,…,sW；s为缩放比例；H和W分别为输入特征图的长和宽；

S2、将位置偏置图中第i行第j列的元素(Δx_i,Δy_j)与位置([i/s],[j/s])相加，得到输入特征图的采样位置图；

S3、基于采样位置图，对输入特征图进行插值，得到高分辨率特征图，从而实现对输入特征图的上采样操作。

进一步优选地，基于采样位置图，对输入特征图进行双线性插值。

进一步优选地，采用线性网络将输入特征图映射为位置偏置图。

进一步优选地，在得到位置偏置图后，还通过方式一或方式二对位置偏置图进行调整；

在方式一中，将位置偏置图调整为位置偏置图与预设权重值α的乘积；其中，预设权重值α大于0.2、且小于0.3；

在方式二中，将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积；其中，预设权重值β大于0.4、且小于0.6；f(·)为映射函数；/>为输入特征图。

进一步优选地，上述预设权重值α为0.25；上述预设权重值β为0.5。

第二方面，本发明提供了一种特征图上采样方法，包括：

将输入特征图在通道维度上进行分组，得到多个特征子图；

分别将各特征子图映射为对应的位置偏置图；位置偏置图的大小为sH*sW*2，其第i行第j列的元素(Δx_i,Δy_j)表示对应特征子图([i/s],[j/s])位置处的位置偏置；[·]为取整符号；i＝1,2,…,sH；j＝1,2,…,sW；s为缩放比例；H和W分别为输入特征图的长和宽；

将每一个位置偏置图中第i行第j列的元素(Δx_i,Δy_j)与位置([i/s],[j/s])相加，得到对应特征子图的采样位置图；

基于采样位置图，对对应特征子图进行插值，得到高分辨率特征子图；

将各高分辨率特征子图在通道维度上进行拼接，得到高分辨率特征图，从而实现对输入特征图的上采样操作。

进一步优选地，基于采样位置图，对对应特征子图进行双线性插值，得到高分辨率特征子图。

进一步优选地，采用线性网络分别将各特征子图映射为对应的位置偏置图。

在方式二中，将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积；其中，M＝βsigmoid(f(Z))；预设权重值β大于0.4、且小于0.6；f(·)为映射函数；Z为位置偏置图所对应的特征子图。

第三方面，本发明提供了一种特征图上采样系统，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行本发明第一方面或第二方面所提供的特征图上采样方法。

第四方面，本发明提供了一种图像处理方法，包括：将待处理的图像输入到稠密预测网络中，以使其对图像进行语义分割、目标检测、实例分割、全景分割和深度估计中的任意一种操作；

其中，上述稠密预测网络包括上采样层，用于采用本发明第一方面或第二方面所提供的特征图上采样方法对输入特征图进行上采样操作。

第五方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明第一方面、第二方面、第四方面所提供的一种或多种方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

1、本发明第一方面提供了一种特征图上采样方法，将输入特征图映射为位置偏置图，位置偏置图中的每一个元素表示输入特征图对应位置处的位置偏置，以此对输入特征图中的各位置进行调整，得到采样位置图，然后基于采样位置图，对输入特征图进行插值，从而实现对输入特征图的上采样操作。本发明绕过了基于核的上采样的范式，回到上采样的根本点采样上，并绕过以往的基于动态卷积的方式，在保证上采样性能的基础上，能够以较低的复杂度和较快的计算速度实现上采样。

2、本发明第二方面所提供的特征图上采样方法，在第一方面所提供的特征图上采样方法的基础上，通过将输入特征图按照通道分组后分别进行上采样，最后再将各组结果沿通道维度重新拼合，进一步提高了计算效率。

3、进一步地，本发明第一方面和第二方面所提供的特征图上采样方法，采用线性网络将输入特征图或特征子图映射为位置偏置图，进一步降低了计算量。

4、进一步地，本发明第一方面和第二方面所提供的特征图上采样方法，基于采样位置图，对输入特征图或特征子图进行双线性插值，进一步降低了计算量。

5、进一步地，考虑到采样点在经过位置偏置调整后可能会偏离正确的范围，本发明第一方面和第二方面所提供的特征图上采样方法，在得到位置偏置图后，通过将位置偏置图调整为位置偏置图与一范围处于0.2与0.3之间的固定预设权重值α的乘积，从而将位置调整到正确的范围内，进而进一步提高了特征图上采样的性能。

6、进一步地，考虑到采样点在经过位置偏置调整后可能会偏离正确的范围，本发明第一方面和第二方面所提供的特征图上采样方法，在得到位置偏置图后，通过将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积，其中动态权重矩阵M基于输入特征图或者位置偏置图所对应的特征子图来确定，从而在特征图内容的引导下对各位置偏置进行调整，从而更加自适应地将位置调整到正确的范围内，进而进一步提高了特征图上采样的性能。

附图说明

图1为本发明实施例1提供的特征图上采样方法流程图；

图2为本发明实施例1提供的整个上采样过程示意图；

图3为本发明实施例1提供的固定采样范围下的上采样过程示意图；

图4为本发明实施例1提供的动态采样范围下的上采样过程示意图；

图5为本发明实施例1提供的分别采用本发明所提供的特征图上采样方法、以及现有的CARAFE算法、FADE算法、SAPA-B算法对同一语义分割模型进行改进后，对改进后的模型的语义分割性能进行比较的结果图；

图6为本发明实施例4提供的基于CARAFE算法、IndexNet算法、A2U算法、FADE算法、SAPA算法以及本发明所提供的上采样方法构建的稠密预测网络在不同图像稠密预测任务中的对比结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1

一种特征图上采样方法，其流程图如图1所示，整个上采样过程如图2所示。具体地，上述特征图上采样方法，包括以下步骤：

S1、将输入特征图映射为位置偏置图/>其中，位置偏置图/>的大小为sH*sW*2，其第i行第j列的元素/>表示输入特征图([i/s],[j/s])位置处的位置偏置；[·]为取整符号；i＝1,2,…,sH；j＝1,2,…,sW；s为缩放比例，本实施例中取值为2；H和W分别为输入特征图的长和宽；

具体地，可以采用线性网络或卷积层将输入特征图映射为位置偏置图；为了进一步降低计算量，优选地采用线性网络将输入特征图映射为位置偏置图，即

进一步地，在得到位置偏置图后，还通过方式一或方式二对位置偏置图进行调整；

在方式一中，如图3所示，将位置偏置图调整为位置偏置图与预设权重值α的乘积，即其中，预设权重值α大于0.2、且小于0.3，优选取值为0.25。

在方式二中，如图4所示，将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积，即其中，/> 预设权重值β大于0.4、且小于0.6，优选取值为0.5；f(·)为映射函数，可以为卷积函数、线性映射函数等；/>为输入特征图。

S2、将位置偏置图中第i行第j列的元素(Δx_i,Δy_j)与位置([i/s],[j/s])相加，得到输入特征图的采样位置图

具体地，将位置偏置图与原网格坐标图/>相加得到采样位置图/>即

S3、基于采样位置图对输入特征图进行插值，得到高分辨率特征图，从而实现对输入特征图的上采样操作。

具体地，可以基于采样位置图，对输入特征图进行双线性插值或双三次插值。为了进一步降低计算量，优选地采用对输入特征图进行双线性插值，所得高分辨率特征图将初始采样位置选为与双线性插值相同。

本发明假设输入特征图为双线性插值后的连续特征图，然后生成内容相关的采样位置，用这些位置对输入特征图重新采样得到上采样后的特征图。在实现上，本发明将输入特征图映射为采样位置图，然后使用网格采样函数基于这些位置重新采样。本发明绕过了基于核的上采样的范式，回到上采样的根本——点采样。其绕过以往的基于动态卷积的方式，达到了低计算复杂度，低时延的目的。同时本发明不需引导特征图，使用场景更加广泛，具有更广阔的实际应用空间，从而使算子能够广泛运用于各种稠密预测网络中的上采样环节中。

为了进一步说明本发明实施例1所提供的特征图上采样方法的性能，下面结合具体实验进行详述：

本发明使用大小为256×120×120的随机特征图(如果需要，还提供尺寸为256×240×240的引导特征图)测试推理延迟的输入。本发明使得一个语义分割的深度神经网络模型SegFormer-B1的上采样层分别采用本发明所提供的特征图上采样方法(DySample)、以及现有的CARAFE算法、FADE算法、SAPA-B算法进行上采样，然后比较基于各上采样方法下的语义分割性能，具体包括准确性(mIoU)、所需测试时间(latency)、训练显存占用(memory)、训练时间(training time)、浮点运算次数(GFLOPs)和参数量(parameters)，得到如图5所示的定量结果。从图中可以看出，本发明所提供的特征图上采样方法取得了最佳性能，同时效率最高，复杂度最低。对于推理时间，本发明所提供的上采样方法在6.2ms即可对256×120×120特征图完成上采样，接近双线性插值(1.6ms)，大大低于其他方法所需的时间。另外由于可以使用高度优化的PyTorch内置函数，DySample的反向传播相当快，增加的训练时间可以忽略不计。

实施例2

一种特征图上采样方法，包括：

A1、将输入特征图在通道维度上进行分组，得到多个特征子图；

A2、分别将各特征子图映射为对应的位置偏置图；位置偏置图的大小为sH*sW*2，其第i行第j列的元素(Δx_i,Δy_j)表示对应特征子图([i/s],[j/s])位置处的位置偏置；[·]为取整符号；i＝1,2,…,sH；j＝1,2,…,sW；s为缩放比例；H和W分别为输入特征图的长和宽；

具体地，可以采用线性网络或卷积层将各特征子图分别映射为对应的位置偏置图。为了进一步降低计算量，优选地采用线性网络。

在得到位置偏置图后，还通过方式一或方式二对位置偏置图进行调整；

在方式一中，将位置偏置图调整为位置偏置图与预设权重值α的乘积；其中，预设权重值α大于0.2、且小于0.3，优选取值为0.25。

在方式二中，将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积；其中，M＝βsigmoid(f(Z))；预设权重值β大于0.4、且小于0.6，优选取值为0.5；f(·)为映射函数，可以为卷积函数、线性映射函数等；Z为位置偏置图所对应的特征子图。

A3、将每一个位置偏置图中第i行第j列的元素(Δx_i,Δy_j)与位置([i/s],[j/s])相加，得到对应特征子图的采样位置图；

A4、基于采样位置图，对对应特征子图进行插值，得到高分辨率特征子图；

具体地，可以基于采样位置图，对对应特征子图进行双线性插值或双三次插值。为了进一步降低计算量，优选地采用双线性插值法。

A5、将各高分辨率特征子图在通道维度上进行拼接，得到高分辨率特征图，从而实现对输入特征图的上采样操作。

本发明实施例2所提供的方法在实施例1的基础上通过将输入特征图按照通道分组后分别进行上采样，最后再将各组结果沿通道维度重新拼合，进一步提高了计算效率。

相关技术方案同实施例1，这里不做赘述。

实施例3

一种特征图上采样系统，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行本发明实施例1或实施例2所提供的特征图上采样方法。

相关技术方案同实施例1或实施例2，这里不做赘述。

实施例4

一种图像处理方法，包括：将待处理的图像输入到稠密预测网络中，以使其对图像进行语义分割、目标检测、实例分割、全景分割和深度估计中的任意一种操作；

其中，上述稠密预测网络包括上采样层，用于采用本发明实施例1或实施例2所提供的特征图上采样方法对输入其中的特征图进行上采样操作。

对于语义分割任务，采用语义分割数据集(如PASCALVOC数据集)训练稠密预测网络后，将待进行语义分割的图像输入到稠密预测网络中，对图像中的每个像素点标签进行预测，得到语义分割结果。

对于目标检测任务，采用目标检测数据集(如ImageNet数据集)训练稠密预测网络后，将待进行目标检测的图像输入到稠密预测网络中，得到图像中的各目标所在的边界框。

对于实例分割任务，采用实例分割数据集(如COCO数据集)训练稠密预测网络后，将待进行实例分割的图像输入到稠密预测网络中，得到图像中的各目标的轮廓。

对于全景分割任务，采用全景分割数据集(如KITTI数据集)训练稠密预测网络后，将待进行全景分割的图像输入到稠密预测网络中，对图像中的每个像素点的语义标签和实例进行预测，得到全景分割结果。

对于深度估计任务，采用深度估计数据集(如KITTI数据集)训练稠密预测网络后，将待进行深度估计的图像输入到稠密预测网络中，得到图像的深度信息。

具体地，如图6所示为基于CARAFE算法、IndexNet算法、A2U算法、FADE算法、SAPA算法以及本发明所提供的上采样方法构建的稠密预测网络在不同图像稠密预测任务中的对比结果，从第一列到最后一列分别对应语义分割、目标检测、实例分割、全景分割和深度估计任务的结果图。从图中可以看出，基于本发明所提供的上采样方法构建的稠密预测网络在各任务中的性能较优。

相关技术方案同实施例1或实施例2，这里不做赘述。

实施例5

一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明实施例1、实施例2、实施例4所提供的一种或多种方法。

相关技术方案同实施例1-4，这里不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种特征图上采样方法，其特征在于，包括：

S1、将输入特征图映射为位置偏置图；其中，所述位置偏置图的大小为sH*sW*2，其第i行第j列的元素(Δx_i,Δy_j)表示输入特征图([i/s],[j/s])位置处的位置偏置；[·]为取整符号；i＝1,2,…,sH；j＝1,2,…,sW；s为缩放比例；H和W分别为输入特征图的长和宽；

S2、将所述位置偏置图中第i行第j列的元素(Δx_i,Δy_j)与位置([i/s],[j/s])相加，得到所述输入特征图的采样位置图；

S3、基于所述采样位置图，对所述输入特征图进行插值，得到高分辨率特征图，从而实现对所述输入特征图的上采样操作。

2.根据权利要求1所述的特征图上采样方法，其特征在于，基于采样位置图，对所述输入特征图进行双线性插值；采用线性网络将所述输入特征图映射为位置偏置图。

3.根据权利要求1或2所述的特征图上采样方法，其特征在于，在得到所述位置偏置图后，还通过方式一或方式二对所述位置偏置图进行调整；

在所述方式一中，将所述位置偏置图调整为所述位置偏置图与预设权重值α的乘积；其中，所述预设权重值α大于0.2、且小于0.3；

在所述方式二中，将所述位置偏置图调整为所述位置偏置图与动态权重矩阵M的Hadamard乘积；其中，所述预设权重值β大于0.4、且小于0.6；f(·)为映射函数；/>为输入特征图。

4.根据权利要求3所述的特征图上采样方法，其特征在于，所述预设权重值α为0.25；所述预设权重值β为0.5。

5.一种特征图上采样方法，其特征在于，包括：

将输入特征图在通道维度上进行分组，得到多个特征子图；

6.根据权利要求5所述的特征图上采样方法，其特征在于，基于采样位置图，对对应特征子图进行双线性插值，得到高分辨率特征子图；采用线性网络分别将各特征子图映射为对应的位置偏置图。

7.根据权利要求5或6所述的特征图上采样方法，其特征在于，在得到位置偏置图后，还通过方式一或方式二对位置偏置图进行调整；

在所述方式一中，将位置偏置图调整为位置偏置图与预设权重值α的乘积；其中，所述预设权重值α大于0.2、且小于0.3；

在所述方式二中，将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积；其中，M＝βsigmoid(f(Z))；预设权重值β大于0.4、且小于0.6；f(·)为映射函数；Z为位置偏置图所对应的特征子图。

8.根据权利要求7所述的特征图上采样方法，其特征在于，所述预设权重值α为0.25；所述预设权重值β为0.5。

9.一种特征图上采样系统，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行权利要求1-4任意一项所述的特征图上采样方法、或权利要求5-8任意一项所述的特征图上采样方法。

10.一种图像处理方法，其特征在于，包括：将待处理的图像输入到稠密预测网络中，以使其对图像进行语义分割、目标检测、实例分割、全景分割和深度估计中的任意一种操作；

其中，所述稠密预测网络包括上采样层，用于采用权利要求1-4任意一项所述的特征图上采样方法、或权利要求5-8任意一项所述的特征图上采样方法对输入其中的特征图进行上采样操作。