CN117152455A - 一种特征图上采样方法及应用 - Google Patents
一种特征图上采样方法及应用 Download PDFInfo
- Publication number
- CN117152455A CN117152455A CN202311088025.7A CN202311088025A CN117152455A CN 117152455 A CN117152455 A CN 117152455A CN 202311088025 A CN202311088025 A CN 202311088025A CN 117152455 A CN117152455 A CN 117152455A
- Authority
- CN
- China
- Prior art keywords
- map
- feature map
- position offset
- sampling
- upsampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000010586 diagram Methods 0.000 claims abstract description 29
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000003672 processing method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 9
- 238000012545 processing Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 24
- 238000012549 training Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种特征图上采样方法及应用,属于图像处理技术领域,包括:S1、将输入特征图映射为位置偏置图;其中,位置偏置图第i行第j列的元素(Δxi,Δyj)表示输入特征图([i/s],[j/s])位置处的位置偏置;s为缩放比例;H和W分别为输入特征图的长和宽;S2、将位置偏置图中第i行第j列的元素(Δxi,Δyj)与位置([i/s],[j/s])相加,得到输入特征图的采样位置图;S3、基于采样位置图,对输入特征图进行插值,得到高分辨率特征图,从而实现对输入特征图的上采样操作。本发明在保证上采样性能的基础上,能够以较低的复杂度和较快的计算速度实现上采样。
Description
技术领域
本发明属于图像处理技术领域,更具体地,涉及一种特征图上采样方法及应用。
背景技术
图像稠密预测任务是一种给图片的每一个像素都做分类预测的任务,在许多视觉任务,如显著物体检测、语义分割、深度估计、边缘检测和关键点检测等中均有着非常重要的作用。而特征图上采样是图像稠密预测任务中不可或缺的一部分,起到逐渐恢复特征图分辨率的作用。
常用的特征图上采样方法包括最近邻插值和双线性插值,它们遵循固定的规则计算上采样后的值。为了增加灵活性,一些任务引入了可学习的上采样算子,比如实例分割中的反卷积和图像超分辨率中的深度转空间等。然而,反卷积会造成棋盘格效应,深度转空间不适用于高层视觉任务。
随着动态网络的流行,一些动态上采样方法在某些稠密预测任务上展现出巨大潜力,如CARAFE算法、FADE算法、SAPA算法等。其中,CARAFE算法提出首先生成内容相关的上采样核,而后使用动态卷积进行上采样。FADE算法和SAPA算法提出结合高分辨率和低分辨率特征来生成上采样核,使得上采样过程可以得到高分辨率结构的引导。然而这些动态上采样算子的结构一般比较复杂,需要安装特制的CUDA代码包,并且相比双线性插值有相当多的时间消耗。特别是FADE算法和SAPA算法,高分辨率的引导会引入更多的计算量,并且给它们的应用场景带来局限性。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种特征图上采样方法及应用,其目的在于,在保证上采样性能的基础上,提出一种计算复杂度低、计算速度快的特征图上采样方法。
为了实现上述目的,第一方面,本发明提供了一种特征图上采样方法,包括:
S1、将输入特征图映射为位置偏置图;其中,位置偏置图的大小为sH*sW*2,其第i行第j列的元素(Δxi,Δyj)表示输入特征图([i/s],[j/s])位置处的位置偏置;[·]为取整符号;i=1,2,…,sH;j=1,2,…,sW;s为缩放比例;H和W分别为输入特征图的长和宽;
S2、将位置偏置图中第i行第j列的元素(Δxi,Δyj)与位置([i/s],[j/s])相加,得到输入特征图的采样位置图;
S3、基于采样位置图,对输入特征图进行插值,得到高分辨率特征图,从而实现对输入特征图的上采样操作。
进一步优选地,基于采样位置图,对输入特征图进行双线性插值。
进一步优选地,采用线性网络将输入特征图映射为位置偏置图。
进一步优选地,在得到位置偏置图后,还通过方式一或方式二对位置偏置图进行调整;
在方式一中,将位置偏置图调整为位置偏置图与预设权重值α的乘积;其中,预设权重值α大于0.2、且小于0.3;
在方式二中,将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积;其中,预设权重值β大于0.4、且小于0.6;f(·)为映射函数;/>为输入特征图。
进一步优选地,上述预设权重值α为0.25;上述预设权重值β为0.5。
第二方面,本发明提供了一种特征图上采样方法,包括:
将输入特征图在通道维度上进行分组,得到多个特征子图;
分别将各特征子图映射为对应的位置偏置图;位置偏置图的大小为sH*sW*2,其第i行第j列的元素(Δxi,Δyj)表示对应特征子图([i/s],[j/s])位置处的位置偏置;[·]为取整符号;i=1,2,…,sH;j=1,2,…,sW;s为缩放比例;H和W分别为输入特征图的长和宽;
将每一个位置偏置图中第i行第j列的元素(Δxi,Δyj)与位置([i/s],[j/s])相加,得到对应特征子图的采样位置图;
基于采样位置图,对对应特征子图进行插值,得到高分辨率特征子图;
将各高分辨率特征子图在通道维度上进行拼接,得到高分辨率特征图,从而实现对输入特征图的上采样操作。
进一步优选地,基于采样位置图,对对应特征子图进行双线性插值,得到高分辨率特征子图。
进一步优选地,采用线性网络分别将各特征子图映射为对应的位置偏置图。
进一步优选地,在得到位置偏置图后,还通过方式一或方式二对位置偏置图进行调整;
在方式一中,将位置偏置图调整为位置偏置图与预设权重值α的乘积;其中,预设权重值α大于0.2、且小于0.3;
在方式二中,将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积;其中,M=βsigmoid(f(Z));预设权重值β大于0.4、且小于0.6;f(·)为映射函数;Z为位置偏置图所对应的特征子图。
进一步优选地,上述预设权重值α为0.25;上述预设权重值β为0.5。
第三方面,本发明提供了一种特征图上采样系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本发明第一方面或第二方面所提供的特征图上采样方法。
第四方面,本发明提供了一种图像处理方法,包括:将待处理的图像输入到稠密预测网络中,以使其对图像进行语义分割、目标检测、实例分割、全景分割和深度估计中的任意一种操作;
其中,上述稠密预测网络包括上采样层,用于采用本发明第一方面或第二方面所提供的特征图上采样方法对输入特征图进行上采样操作。
第五方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明第一方面、第二方面、第四方面所提供的一种或多种方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
1、本发明第一方面提供了一种特征图上采样方法,将输入特征图映射为位置偏置图,位置偏置图中的每一个元素表示输入特征图对应位置处的位置偏置,以此对输入特征图中的各位置进行调整,得到采样位置图,然后基于采样位置图,对输入特征图进行插值,从而实现对输入特征图的上采样操作。本发明绕过了基于核的上采样的范式,回到上采样的根本点采样上,并绕过以往的基于动态卷积的方式,在保证上采样性能的基础上,能够以较低的复杂度和较快的计算速度实现上采样。
2、本发明第二方面所提供的特征图上采样方法,在第一方面所提供的特征图上采样方法的基础上,通过将输入特征图按照通道分组后分别进行上采样,最后再将各组结果沿通道维度重新拼合,进一步提高了计算效率。
3、进一步地,本发明第一方面和第二方面所提供的特征图上采样方法,采用线性网络将输入特征图或特征子图映射为位置偏置图,进一步降低了计算量。
4、进一步地,本发明第一方面和第二方面所提供的特征图上采样方法,基于采样位置图,对输入特征图或特征子图进行双线性插值,进一步降低了计算量。
5、进一步地,考虑到采样点在经过位置偏置调整后可能会偏离正确的范围,本发明第一方面和第二方面所提供的特征图上采样方法,在得到位置偏置图后,通过将位置偏置图调整为位置偏置图与一范围处于0.2与0.3之间的固定预设权重值α的乘积,从而将位置调整到正确的范围内,进而进一步提高了特征图上采样的性能。
6、进一步地,考虑到采样点在经过位置偏置调整后可能会偏离正确的范围,本发明第一方面和第二方面所提供的特征图上采样方法,在得到位置偏置图后,通过将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积,其中动态权重矩阵M基于输入特征图或者位置偏置图所对应的特征子图来确定,从而在特征图内容的引导下对各位置偏置进行调整,从而更加自适应地将位置调整到正确的范围内,进而进一步提高了特征图上采样的性能。
附图说明
图1为本发明实施例1提供的特征图上采样方法流程图;
图2为本发明实施例1提供的整个上采样过程示意图;
图3为本发明实施例1提供的固定采样范围下的上采样过程示意图;
图4为本发明实施例1提供的动态采样范围下的上采样过程示意图;
图5为本发明实施例1提供的分别采用本发明所提供的特征图上采样方法、以及现有的CARAFE算法、FADE算法、SAPA-B算法对同一语义分割模型进行改进后,对改进后的模型的语义分割性能进行比较的结果图;
图6为本发明实施例4提供的基于CARAFE算法、IndexNet算法、A2U算法、FADE算法、SAPA算法以及本发明所提供的上采样方法构建的稠密预测网络在不同图像稠密预测任务中的对比结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1
一种特征图上采样方法,其流程图如图1所示,整个上采样过程如图2所示。具体地,上述特征图上采样方法,包括以下步骤:
S1、将输入特征图映射为位置偏置图/>其中,位置偏置图/>的大小为sH*sW*2,其第i行第j列的元素/>表示输入特征图([i/s],[j/s])位置处的位置偏置;[·]为取整符号;i=1,2,…,sH;j=1,2,…,sW;s为缩放比例,本实施例中取值为2;H和W分别为输入特征图的长和宽;
具体地,可以采用线性网络或卷积层将输入特征图映射为位置偏置图;为了进一步降低计算量,优选地采用线性网络将输入特征图映射为位置偏置图,即
进一步地,在得到位置偏置图后,还通过方式一或方式二对位置偏置图进行调整;
在方式一中,如图3所示,将位置偏置图调整为位置偏置图与预设权重值α的乘积,即其中,预设权重值α大于0.2、且小于0.3,优选取值为0.25。
在方式二中,如图4所示,将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积,即其中,/> 预设权重值β大于0.4、且小于0.6,优选取值为0.5;f(·)为映射函数,可以为卷积函数、线性映射函数等;/>为输入特征图。
S2、将位置偏置图中第i行第j列的元素(Δxi,Δyj)与位置([i/s],[j/s])相加,得到输入特征图的采样位置图
具体地,将位置偏置图与原网格坐标图/>相加得到采样位置图/>即
S3、基于采样位置图对输入特征图进行插值,得到高分辨率特征图,从而实现对输入特征图的上采样操作。
具体地,可以基于采样位置图,对输入特征图进行双线性插值或双三次插值。为了进一步降低计算量,优选地采用对输入特征图进行双线性插值,所得高分辨率特征图将初始采样位置选为与双线性插值相同。
本发明假设输入特征图为双线性插值后的连续特征图,然后生成内容相关的采样位置,用这些位置对输入特征图重新采样得到上采样后的特征图。在实现上,本发明将输入特征图映射为采样位置图,然后使用网格采样函数基于这些位置重新采样。本发明绕过了基于核的上采样的范式,回到上采样的根本——点采样。其绕过以往的基于动态卷积的方式,达到了低计算复杂度,低时延的目的。同时本发明不需引导特征图,使用场景更加广泛,具有更广阔的实际应用空间,从而使算子能够广泛运用于各种稠密预测网络中的上采样环节中。
为了进一步说明本发明实施例1所提供的特征图上采样方法的性能,下面结合具体实验进行详述:
本发明使用大小为256×120×120的随机特征图(如果需要,还提供尺寸为256×240×240的引导特征图)测试推理延迟的输入。本发明使得一个语义分割的深度神经网络模型SegFormer-B1的上采样层分别采用本发明所提供的特征图上采样方法(DySample)、以及现有的CARAFE算法、FADE算法、SAPA-B算法进行上采样,然后比较基于各上采样方法下的语义分割性能,具体包括准确性(mIoU)、所需测试时间(latency)、训练显存占用(memory)、训练时间(training time)、浮点运算次数(GFLOPs)和参数量(parameters),得到如图5所示的定量结果。从图中可以看出,本发明所提供的特征图上采样方法取得了最佳性能,同时效率最高,复杂度最低。对于推理时间,本发明所提供的上采样方法在6.2ms即可对256×120×120特征图完成上采样,接近双线性插值(1.6ms),大大低于其他方法所需的时间。另外由于可以使用高度优化的PyTorch内置函数,DySample的反向传播相当快,增加的训练时间可以忽略不计。
实施例2
一种特征图上采样方法,包括:
A1、将输入特征图在通道维度上进行分组,得到多个特征子图;
A2、分别将各特征子图映射为对应的位置偏置图;位置偏置图的大小为sH*sW*2,其第i行第j列的元素(Δxi,Δyj)表示对应特征子图([i/s],[j/s])位置处的位置偏置;[·]为取整符号;i=1,2,…,sH;j=1,2,…,sW;s为缩放比例;H和W分别为输入特征图的长和宽;
具体地,可以采用线性网络或卷积层将各特征子图分别映射为对应的位置偏置图。为了进一步降低计算量,优选地采用线性网络。
在得到位置偏置图后,还通过方式一或方式二对位置偏置图进行调整;
在方式一中,将位置偏置图调整为位置偏置图与预设权重值α的乘积;其中,预设权重值α大于0.2、且小于0.3,优选取值为0.25。
在方式二中,将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积;其中,M=βsigmoid(f(Z));预设权重值β大于0.4、且小于0.6,优选取值为0.5;f(·)为映射函数,可以为卷积函数、线性映射函数等;Z为位置偏置图所对应的特征子图。
A3、将每一个位置偏置图中第i行第j列的元素(Δxi,Δyj)与位置([i/s],[j/s])相加,得到对应特征子图的采样位置图;
A4、基于采样位置图,对对应特征子图进行插值,得到高分辨率特征子图;
具体地,可以基于采样位置图,对对应特征子图进行双线性插值或双三次插值。为了进一步降低计算量,优选地采用双线性插值法。
A5、将各高分辨率特征子图在通道维度上进行拼接,得到高分辨率特征图,从而实现对输入特征图的上采样操作。
本发明实施例2所提供的方法在实施例1的基础上通过将输入特征图按照通道分组后分别进行上采样,最后再将各组结果沿通道维度重新拼合,进一步提高了计算效率。
相关技术方案同实施例1,这里不做赘述。
实施例3
一种特征图上采样系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本发明实施例1或实施例2所提供的特征图上采样方法。
相关技术方案同实施例1或实施例2,这里不做赘述。
实施例4
一种图像处理方法,包括:将待处理的图像输入到稠密预测网络中,以使其对图像进行语义分割、目标检测、实例分割、全景分割和深度估计中的任意一种操作;
其中,上述稠密预测网络包括上采样层,用于采用本发明实施例1或实施例2所提供的特征图上采样方法对输入其中的特征图进行上采样操作。
对于语义分割任务,采用语义分割数据集(如PASCALVOC数据集)训练稠密预测网络后,将待进行语义分割的图像输入到稠密预测网络中,对图像中的每个像素点标签进行预测,得到语义分割结果。
对于目标检测任务,采用目标检测数据集(如ImageNet数据集)训练稠密预测网络后,将待进行目标检测的图像输入到稠密预测网络中,得到图像中的各目标所在的边界框。
对于实例分割任务,采用实例分割数据集(如COCO数据集)训练稠密预测网络后,将待进行实例分割的图像输入到稠密预测网络中,得到图像中的各目标的轮廓。
对于全景分割任务,采用全景分割数据集(如KITTI数据集)训练稠密预测网络后,将待进行全景分割的图像输入到稠密预测网络中,对图像中的每个像素点的语义标签和实例进行预测,得到全景分割结果。
对于深度估计任务,采用深度估计数据集(如KITTI数据集)训练稠密预测网络后,将待进行深度估计的图像输入到稠密预测网络中,得到图像的深度信息。
具体地,如图6所示为基于CARAFE算法、IndexNet算法、A2U算法、FADE算法、SAPA算法以及本发明所提供的上采样方法构建的稠密预测网络在不同图像稠密预测任务中的对比结果,从第一列到最后一列分别对应语义分割、目标检测、实例分割、全景分割和深度估计任务的结果图。从图中可以看出,基于本发明所提供的上采样方法构建的稠密预测网络在各任务中的性能较优。
相关技术方案同实施例1或实施例2,这里不做赘述。
实施例5
一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明实施例1、实施例2、实施例4所提供的一种或多种方法。
相关技术方案同实施例1-4,这里不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种特征图上采样方法,其特征在于,包括:
S1、将输入特征图映射为位置偏置图;其中,所述位置偏置图的大小为sH*sW*2,其第i行第j列的元素(Δxi,Δyj)表示输入特征图([i/s],[j/s])位置处的位置偏置;[·]为取整符号;i=1,2,…,sH;j=1,2,…,sW;s为缩放比例;H和W分别为输入特征图的长和宽;
S2、将所述位置偏置图中第i行第j列的元素(Δxi,Δyj)与位置([i/s],[j/s])相加,得到所述输入特征图的采样位置图;
S3、基于所述采样位置图,对所述输入特征图进行插值,得到高分辨率特征图,从而实现对所述输入特征图的上采样操作。
2.根据权利要求1所述的特征图上采样方法,其特征在于,基于采样位置图,对所述输入特征图进行双线性插值;采用线性网络将所述输入特征图映射为位置偏置图。
3.根据权利要求1或2所述的特征图上采样方法,其特征在于,在得到所述位置偏置图后,还通过方式一或方式二对所述位置偏置图进行调整;
在所述方式一中,将所述位置偏置图调整为所述位置偏置图与预设权重值α的乘积;其中,所述预设权重值α大于0.2、且小于0.3;
在所述方式二中,将所述位置偏置图调整为所述位置偏置图与动态权重矩阵M的Hadamard乘积;其中,所述预设权重值β大于0.4、且小于0.6;f(·)为映射函数;/>为输入特征图。
4.根据权利要求3所述的特征图上采样方法,其特征在于,所述预设权重值α为0.25;所述预设权重值β为0.5。
5.一种特征图上采样方法,其特征在于,包括:
将输入特征图在通道维度上进行分组,得到多个特征子图;
分别将各特征子图映射为对应的位置偏置图;位置偏置图的大小为sH*sW*2,其第i行第j列的元素(Δxi,Δyj)表示对应特征子图([i/s],[j/s])位置处的位置偏置;[·]为取整符号;i=1,2,…,sH;j=1,2,…,sW;s为缩放比例;H和W分别为输入特征图的长和宽;
将每一个位置偏置图中第i行第j列的元素(Δxi,Δyj)与位置([i/s],[j/s])相加,得到对应特征子图的采样位置图;
基于采样位置图,对对应特征子图进行插值,得到高分辨率特征子图;
将各高分辨率特征子图在通道维度上进行拼接,得到高分辨率特征图,从而实现对输入特征图的上采样操作。
6.根据权利要求5所述的特征图上采样方法,其特征在于,基于采样位置图,对对应特征子图进行双线性插值,得到高分辨率特征子图;采用线性网络分别将各特征子图映射为对应的位置偏置图。
7.根据权利要求5或6所述的特征图上采样方法,其特征在于,在得到位置偏置图后,还通过方式一或方式二对位置偏置图进行调整;
在所述方式一中,将位置偏置图调整为位置偏置图与预设权重值α的乘积;其中,所述预设权重值α大于0.2、且小于0.3;
在所述方式二中,将位置偏置图调整为位置偏置图与动态权重矩阵M的Hadamard乘积;其中,M=βsigmoid(f(Z));预设权重值β大于0.4、且小于0.6;f(·)为映射函数;Z为位置偏置图所对应的特征子图。
8.根据权利要求7所述的特征图上采样方法,其特征在于,所述预设权重值α为0.25;所述预设权重值β为0.5。
9.一种特征图上采样系统,其特征在于,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行权利要求1-4任意一项所述的特征图上采样方法、或权利要求5-8任意一项所述的特征图上采样方法。
10.一种图像处理方法,其特征在于,包括:将待处理的图像输入到稠密预测网络中,以使其对图像进行语义分割、目标检测、实例分割、全景分割和深度估计中的任意一种操作;
其中,所述稠密预测网络包括上采样层,用于采用权利要求1-4任意一项所述的特征图上采样方法、或权利要求5-8任意一项所述的特征图上采样方法对输入其中的特征图进行上采样操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311088025.7A CN117152455A (zh) | 2023-08-28 | 2023-08-28 | 一种特征图上采样方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311088025.7A CN117152455A (zh) | 2023-08-28 | 2023-08-28 | 一种特征图上采样方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117152455A true CN117152455A (zh) | 2023-12-01 |
Family
ID=88909266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311088025.7A Pending CN117152455A (zh) | 2023-08-28 | 2023-08-28 | 一种特征图上采样方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117152455A (zh) |
-
2023
- 2023-08-28 CN CN202311088025.7A patent/CN117152455A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
US20200210773A1 (en) | Neural network for image multi-label identification, related method, medium and device | |
CN112800964B (zh) | 基于多模块融合的遥感影像目标检测方法及系统 | |
CN109712165B (zh) | 一种基于卷积神经网络的同类前景图像集分割方法 | |
CN111476719A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111899203B (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
Ma et al. | Super resolution land cover mapping of hyperspectral images using the deep image prior-based approach | |
CN111126385A (zh) | 一种可变形活体小目标的深度学习智能识别方法 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN114862725B (zh) | 基于光流法实现运动感知模糊特效的方法及装置 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN108921801B (zh) | 用于生成图像的方法和装置 | |
CN113744136A (zh) | 基于通道约束多特征融合的图像超分辨率重建方法和系统 | |
CN114241388A (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN114612289A (zh) | 风格化图像生成方法、装置及图像处理设备 | |
CN115713632A (zh) | 一种基于多尺度注意力机制的特征提取方法及装置 | |
CN113807354B (zh) | 图像语义分割方法、装置、设备和存储介质 | |
KR102051597B1 (ko) | 내용 기반 영상 크기 조절 장치 및 방법 | |
CN112017113B (zh) | 图像处理方法及装置、模型训练方法及装置、设备及介质 | |
CN111985503A (zh) | 一种基于改进的特征金字塔网络结构的目标检测方法和装置 | |
CN117152455A (zh) | 一种特征图上采样方法及应用 | |
CN116246064A (zh) | 一种多尺度空间特征增强方法及装置 | |
CN115187834A (zh) | 一种票据识别的方法及装置 | |
CN111161250B (zh) | 一种多尺度遥感图像密集房屋检测方法及装置 | |
CN112950553A (zh) | 一种多尺度肺叶分割方法、系统、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |