CN117409299A - 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法 - Google Patents
一种基于多尺度池化Transformer的图像内部遮挡关系预测方法 Download PDFInfo
- Publication number
- CN117409299A CN117409299A CN202311731854.2A CN202311731854A CN117409299A CN 117409299 A CN117409299 A CN 117409299A CN 202311731854 A CN202311731854 A CN 202311731854A CN 117409299 A CN117409299 A CN 117409299A
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- scale
- module
- image element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011176 pooling Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003708 edge detection Methods 0.000 claims abstract description 30
- 238000010586 diagram Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000003709 image segmentation Methods 0.000 claims abstract description 11
- 230000001629 suppression Effects 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 52
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 238000010606 normalization Methods 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 14
- 239000000654 additive Substances 0.000 claims description 6
- 230000000996 additive effect Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度池化Transformer的图像内部遮挡关系预测方法。所述的方法包括以下步骤:输入图像首先通过由卷积模块、图像切分模块和多尺度池化Transformer模块组成的编码器;然后这些特征通过逐层对应连接由一些多尺度池化Transformer模块组成的解码器;接着这些特征分别通过预测器里面两个独立的神经网络分支,分别负责生成边缘检测图和遮挡方向图;最后在方法的预测器结构内,边缘检测图和遮挡方向图通过非极大值抑制(NMS)计算后,生成遮挡关系图。本发明是目前首次使用含有Transformer的深度神经网络进行图像内部遮挡关系预测的方法,并首次提出了多尺度池化的Transformer结构,本发明相比已有的其他方法有更好的预测效果。
Description
技术领域
本发明属于计算机视觉领域,更具体地,涉及一种基于多尺度池化Transformer的图像内部遮挡关系预测方法。
背景技术
通过视觉算法对图像内部区域的遮挡关系进行预测是进行视觉理解和分析的重要技术。对遮挡关系的准确预测能够在不引入三维信息的情况下,仅依靠二维信息准确判断图像内部各区域的空间前后顺序,从而有助于从二维信息直接获取三维深度信息,并帮助更加准确地进行视觉分析和视觉理解。
目前,图像内部区域的遮挡关系的预测方法主要是基于深度卷积神经网络而开展的,通用的思路是构建一个深度卷积神经网络,然后使用网络生成遮挡关系图作为最终的预测结果。当前方法通过设计各类卷积神经网络实现预测的功能,已经取得了一定的效果,但是,当前方法的普遍问题是卷积神经网络的图像内容局部建模能力较强,但全局建模能力较弱,这会导致依靠局部特征预测出来的结果无法有效表示全局信息,从而在许多场景下出现错误的遮挡关系预测结果,这是单纯采用卷积神经网络作为解决方案所必然存在的问题。
发明内容
针对目前方法和技术存在的以上问题和不足,本发明首次采用基于Transformer的深度神经网络进行图像内部遮挡关系的预测,并首次提出了多尺度池化的Transformer结构,本发明充分利用Transformer优秀的全局信息提取能力,生成了能够表征全局信息的特征,并在Transformer结构的构建中用多尺度池化替换了传统Transformer结构中Query-Key-Value的全局比较结构。本发明中的多尺度池化计算量和复杂性远小于Query-Key-Value的全局比较结构,但取得的效果更好,而且还获得了重要的多尺度信息。本发明相比已有的其他方法有更好的预测效果。
本发明采用的技术方案为一种基于多尺度池化Transformer的图像内部遮挡关系预测方法,该方法具体包括以下步骤:
步骤1,输入图像通过由卷积模块、图像切分模块和数个多尺度池化Transformer模块组成的编码器,由此获得具有局部和全局表达能力的和空间尺寸不同的多层次图像元特征;
步骤2,将以上多层次图像元特征逐个对应连接到解码器中的数个多尺度池化Transformer模块,通过逐步融合特征和提高图像元数量的方式,获得图像元数量增加后的含有丰富细节和语义信息的特征;
步骤3,预测器对步骤2产生的特征进行处理,分别通过两个独立的神经网络分支,其中一个分支由第二卷积模块组成,负责生成边缘检测图,而另一个分支则通过第三卷积模块生成逐像素的遮挡方向图,最后边缘检测图和遮挡方向图通过非极大值抑制计算后,生成遮挡关系图,其反映了图像内部区域和物体间的遮挡关系。
优选地,编码器包括1个第一卷积模块、1个图像切分模块和4个第一多尺度池化Transformer模块,输入图像输入编码器后,各个模块串联依次进行运算,编码器内部的计算和结构具体包括:
步骤1-1,将输入图像通过编码器中的1个第一卷积模块;输入图像的空间分辨率H×W(H和W分别代表图像的高和宽)在通过第一卷积模块后保持不变;第一卷积模块由一个1×1的卷积层、GELU激活函数层和批归一化(BN)层组成,第一卷积模块的输出特征维度为H×W×C1(C1为特征的维度);
步骤1-2,将步骤1-1的结果通过1个图像切分模块;该模块将特征图切分为互相不重叠的空间大小为P×P的子块,并将每个子块特征拉伸为一个图像元特征向量,则此时得到的特征的维度为((H/P)×(W/P))×C1;
步骤1-3,将步骤1-2的图像元特征向量依次顺序通过4个第一多尺度池化Transformer模块;这4个模块拥有相同的结构,内部由一个第一多尺度池化Transformer单元、第一特征维度转换模块、第四卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元串联组成;步骤1-3中4个第一多尺度池化Transformer模块的输出图像元特征的维度依次为:((H/2P)×(W/2P))×C2、((H/4P)×(W/4P))×C3、((H/8P)×(W/8P))×C4和((H/16P)×(W/16P))×C5,其中C2、C3、C4和C5和C1一样,都是图像元特征的长度。
优选地,步骤1-3中的第一多尺度池化Transformer单元具体的计算包括:
步骤1-3-1,将输入图像元特征依次通过归一化层、多尺度池化层和相加层;其中,归一化层通过层归一化计算实现;多尺度池化层通过首先将图像元特征转化为特征图的样式,即将维度由两个维度(图像元的个数×图像元的长度)的特征调整为三个维度(特征图的长×宽×图像元的长度)的特征,然后进行多尺度(池化核的大小分别为3×3、5×3和7×7)的池化计算,接着再调整池化后三个特征图为统一尺寸大小,并按通道进行叠加,最后再将特征转换为两个维度的图像元特征样式而实现;相加层的计算是通过图像元特征相加实现的,相加层的对象为输入图像元特征和多尺度池化层的图像元特征结果;
步骤1-3-2,将步骤1-3-1的输出图像元特征送入和步骤1-3-1中一样的归一化层,然后依次通过多层感知机(MLP)层和相加层;相加层的输入为步骤1-3-1中相加层的输出和MLP层的输出;相加后输出的图像元特征为第一多尺度池化Transformer单元的输出图像元特征结果。
优选地,步骤1-3中的第一特征维度转换模块具体的计算方式是将输入的图像元特征维度变换为特征图的样式,即将维度由两个维度(图像元的个数×图像元的长度)的特征调整为三个维度(特征图的长×宽×图像元的长度)的特征。
优选地,步骤1-3中的第四卷积模块具体的结构包括一个3×3的卷积层、GELU激活函数层和批归一化(BN)层;第四卷积模块的作用是通过卷积的方式间接减少图像元特征的数量,从而减少计算量。
优选地,步骤1-3中的第二特征维度转换模块具体的计算方式是将输入的特征维度由特征图变换为图像元特征维度的样式,即将特征维度由三个维度(特征图的长×宽×图像元的长度)调整为两个维度(图像元的个数×图像元的长度)的特征;第二特征维度转换模块的功能和第一特征维度转换模块正好相反。
优选地,解码器包括1个第二多尺度池化Transformer模块和3个第三多尺度池化Transformer模块;这些模块的计算方式是:它们一方面各自对应接受编码器的4个第一多尺度池化Transformer模块的输出图像元特征作为输入的一部分,另一方面,也将各自已经计算完毕的图像元特征输出依次作为输入的另一部分,即解码器中的每个多尺度池化Transformer模块都有两个输入,并产生一个输出;解码器内部的计算和结构具体包括:
步骤2-1,将最后一个第一多尺度池化Transformer模块(特征维度尺寸为((H/16P)×(W/16P))×C5)输出的图像元特征输入第二多尺度池化Transformer模块,然后得到的输出图像元和倒数第二个第一多尺度池化Transformer模块的输出叠加一起作为图像元特征输入;
步骤2-2,按照步骤2-1的方式,顺序连接剩下的第三多尺度池化Transformer模块和对应的第一多尺度池化Transformer模块;最后一个第三多尺度池化Transformer模块的输出图像元特征的维度尺寸为((H/P)×(W/P))×C6,其中C6为每个图像元的特征长度。
优选地,第二多尺度池化Transformer模块具体的计算和第一多尺度池化Transformer模块类似,唯一的区别就是第二多尺度池化Transformer模块将第一多尺度池化Transformer模块中的第四卷积模块更换为了第一反卷积模块;后者由3×3的反卷积层、GELU激活函数层和批归一化(BN)层组成。
优选地,第三多尺度池化Transformer模块具体的计算方式是:其接受两种输入图像元特征,分别来自编码器和解码器中对应的多尺度池化Transformer模块的输出;输入的两种图像元特征通过特征融合模块,后者本质上进行特征相加的计算;然后融合后的图像元特征依次通过第一多尺度池化Transformer单元、第一特征维度转换模块、第一反卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元。
优选地,预测器里面包含两个独立的神经网络分支,其中一个分支由第二卷积模块组成,负责生成边缘检测图,而另一个分支则通过第三卷积模块生成逐像素的遮挡方向图;最后,边缘检测图和遮挡方向图通过NMS计算后,生成遮挡关系图,其反映了图像内部区域和物体间的遮挡关系。
优选地,预测器里面第二卷积模块的具体计算方式是:第二卷积模块首先将解码器输出的图像元特征的维度由((H/P)×(W/P))×C6转换为(H/P)×(W/P)×C6,然后将转换后的特征图依次通过1个3×3的反卷积层、GELU激活函数层、批归一化(BN)层和Softmax函数层,最后输出的边缘检测图的尺寸为H×W。
优选地,预测器里面第三卷积模块的具体计算方式是:第三卷积模块同样首先将解码器输出的图像元特征的维度由((H/P)×(W/P))×C6转换为(H/P)×(W/P)×C6,然后将转换后的特征图依次通过1个3×3的反卷积层、2个3×3的卷积层、1个GELU激活函数层、批归一化(BN)层和Sigmoid函数层,最后输出的遮挡方向图的尺寸为H×W。
优选地,预测器里面NMS模块的具体计算方式是:将已经得到的边缘检测图和遮挡方向图逐像素相乘,然后通过非极大值抑制的方式进行处理,最后输出遮挡关系图作为最终的预测结果。
优选地,本发明采用端对端的方式对整个神经网络进行训练,优化的目标函数为:L=L1+L2,其中L1代表第一目标函数,其作用于边缘检测图,L1为二元交叉熵函数;L2代表第二目标函数,其作用于最后的遮挡关系图,其为正交方向回归损失函数。
优选地,L1的计算方式如下式所示:
其中,和/>表示人工标记结果中非边缘像素和边缘像素的集合,,/>和/>分别表示非边缘像素和边缘像素的数量,/>用于平衡边缘检测时样本数的不均衡,/>表示每个像素点属于边缘的概率值,也就是边缘检测图每个像素的值;
L2的计算方式如下式所示:
其中,表示经典的平滑损失,/>表示人工标记结果中像素位置的方向角度值,/>和/>分别为生成的遮挡关系图中对应像素位置的角度的横纵坐标值。
总体而言,通过本发明所设计的以上技术方案与现有技术相比,具有以下有益效果:
本发明首次采用基于Transformer的深度神经网络进行图像内部遮挡关系的预测,能充分利用Transformer优秀的全局信息提取能力,生成了能够表征全局信息的特征。本发明首次提出了多尺度池化的Transformer结构,在Transformer结构的构建中用多尺度池化替换了传统Transformer结构中Query-Key-Value的全局比较结构。本发明中的多尺度池化计算量和复杂性远小于Query-Key-Value的全局比较结构,但取得的效果更好,而且还获得了重要的多尺度信息。本发明相比已有的其他方法有更好的预测效果,能够更加有效地预测图像内部区域的遮挡关系。
附图说明
图1为本发明提供的一种基于多尺度池化Transformer的图像内部遮挡关系预测方法的整体流程图;
图2为第一多尺度池化Transformer模块的结构示意图;
图3为第二多尺度池化Transformer模块的结构示意图;
图4为第三多尺度池化Transformer模块的结构示意图;
图5为第一多尺度池化Transformer单元的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于多尺度池化Transformer的图像内部遮挡关系预测方法,如图1所示,包括以下步骤:
步骤1,输入图像通过由卷积模块、图像切分模块和4个多尺度池化Transformer模块组成的编码器,由此获得具有局部和全局表达能力的和空间尺寸不同的多层次图像元特征;
步骤2,以上特征接着逐个对应连接解码器的4个多尺度池化Transformer模块,通过逐步融合特征和提高图像元数量的方式,获得图像元数量增加后的含有丰富细节和语义信息的特征;
步骤3,预测器对步骤2产生的图像元特征进行处理,分别通过两个独立的神经网络分支,其中一个分支由卷积模块组成,负责生成边缘检测图,而另一个分支则通过其他的卷积模块生成逐像素的遮挡方向图。最后边缘检测图和遮挡方向图通过非极大值抑制(NMS)计算后,生成遮挡关系图,其反映了图像内部区域和物体间的遮挡关系。
发明主要有三个实现部分:(1)编码器,(2)解码器,(3)预测器。接下来对本发明中步骤进行详细说明。
1.编码器的实现
方法中的编码器包括1个第一卷积模块、1个图像切分模块和4个第一多尺度池化Transformer模块。输入图像输入编码器后,各个模块串联依次进行运算。编码器内部的计算和结构具体包括:
步骤1-1,将输入图像通过编码器中的1个第一卷积模块;输入图像的空间分辨率H×W(H和W分别代表图像的高和宽)在通过第一卷积模块后保持不变;第一卷积模块由一个1×1的卷积层、GELU激活函数层和批归一化(BN)层组成,第一卷积模块的输出特征维度为H×W×C1,C1为特征的维度,实施例中取值为32;
步骤1-2,将步骤1-1的结果通过1个图像切分模块;该模块将特征图切分为互相不重叠的空间大小为P×P的子块,并将每个子块特征拉伸为一个图像元特征向量,则此时得到的特征的维度为((H/P)×(W/P))×C1,实施例中P的取值为4;
步骤1-3,将步骤1-2的图像元特征向量依次顺序通过4个第一多尺度池化Transformer模块;这4个模块拥有相同的结构,如图2所示,内部由一个第一多尺度池化Transformer单元、第一特征维度转换模块、第四卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元串联组成;步骤1-3中4个第一多尺度池化Transformer模块的输出图像元特征的维度依次为:((H/2P)×(W/2P))×C2、((H/4P)×(W/4P))×C3、((H/8P)×(W/8P))×C4和((H/16P)×(W/16P))×C5,其中C2、C3、C4和C5和C1一样,都是图像元特征的长度。实施例中C2、C3、C4和C5具体分别取值为64,128,256和512。
步骤1-3中的第一多尺度池化Transformer单元,如图5所示,具体的计算包括:
步骤1-3-1,将输入图像元特征依次通过归一化层、多尺度池化层和相加层;其中,归一化层通过层归一化计算实现;多尺度池化层通过首先将图像元特征转化为特征图的样式,即将维度由两个维度(图像元的个数×图像元的长度)的特征调整为三个维度(特征图的长×宽×图像元的长度)的特征,然后进行多尺度(池化核的大小分别为3×3、5×3和7×7)的池化计算,接着再调整池化后三个特征图为统一尺寸大小,并按通道进行叠加,最后再将特征转换为两个维度的图像元特征样式而实现;相加层的计算是通过图像元特征相加实现的,相加层的对象为输入图像元特征和多尺度池化层的图像元特征结果;
步骤1-3-2,将步骤1-3-1的输出图像元特征送入和步骤1-3-1中一样的归一化层,然后依次通过多层感知机(MLP)层和相加层;相加层的输入为步骤1-3-1中相加层的输出和MLP层的输出;相加后输出的图像元特征为第一多尺度池化Transformer单元的输出图像元特征结果。
步骤1-3中的第一特征维度转换模块具体的计算方式是将输入的图像元特征维度变换为特征图的样式,即将维度由两个维度(图像元的个数×图像元的长度)的特征调整为三个维度(特征图的长×宽×图像元的长度)的特征。
步骤1-3中的第四卷积模块具体的结构包括一个3×3的卷积层、GELU激活函数层和批归一化(BN)层;第四卷积模块的作用是通过卷积的方式间接减少图像元特征的数量,从而减少计算量。
步骤1-3中的第二特征维度转换模块具体的计算方式是将输入的特征维度由特征图变换为图像元特征维度的样式,即将特征维度由三个维度(特征图的长×宽×图像元的长度)调整为两个维度(图像元的个数×图像元的长度)的特征;第二特征维度转换模块的功能和第一特征维度转换模块正好相反。
2.解码器的实现
解码器包括1个第二多尺度池化Transformer模块和3个第三多尺度池化Transformer模块;这些模块的计算方式是:它们一方面各自对应接受编码器的4个第一多尺度池化Transformer模块的输出图像元特征作为输入的一部分,另一方面,也将各自已经计算完毕的图像元特征输出依次作为输入的另一部分,即解码器中的每个多尺度池化Transformer模块都有两个输入,并产生一个输出;解码器内部的计算和结构具体包括:
步骤2-1,将最后一个第一多尺度池化Transformer模块(特征维度尺寸为((H/16P)×(W/16P))×C5)输出的图像元特征输入第二多尺度池化Transformer模块,然后得到的输出图像元和倒数第二个第一多尺度池化Transformer模块的输出叠加一起作为图像元特征输入;
步骤2-2,按照步骤2-1的方式,顺序连接剩下的第三多尺度池化Transformer模块和对应的第一多尺度池化Transformer模块;最后一个第三多尺度池化Transformer模块的输出图像元特征的维度尺寸为((H/P)×(W/P))×C6,其中C6为每个图像元的特征长度,实施例中C6为64。
第二多尺度池化Transformer模块,如图3所示,具体的计算和第一多尺度池化Transformer模块类似,唯一的区别就是第二多尺度池化Transformer模块将第一多尺度池化Transformer模块中的第四卷积模块更换为了第一反卷积模块;后者由3×3的反卷积层、GELU激活函数层和批归一化(BN)层组成。
第三多尺度池化Transformer模块,如图4所示,具体的计算方式是:其接受两种输入图像元特征,分别来自编码器和解码器中对应的多尺度池化Transformer模块的输出;输入的两种图像元特征通过特征融合模块,后者本质上进行特征相加的计算;然后融合后的图像元特征依次通过第一多尺度池化Transformer单元、第一特征维度转换模块、第一反卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元。
3.预测器的实现
预测器里面包含两个独立的神经网络分支,其中一个分支由第二卷积模块组成,负责生成边缘检测图,而另一个分支则通过第三卷积模块生成逐像素的遮挡方向图;最后,边缘检测图和遮挡方向图通过NMS计算后,生成遮挡关系图,其反映了图像内部区域和物体间的遮挡关系。
预测器里面第二卷积模块的具体计算方式是:第二卷积模块首先将解码器输出的图像元特征的维度由((H/P)×(W/P))×C6转换为(H/P)×(W/P)×C6,然后将转换后的特征图依次通过1个3×3的反卷积层、GELU激活函数层、批归一化(BN)层和Softmax函数层,最后输出的边缘检测图的尺寸为H×W。
预测器里面第三卷积模块的具体计算方式是:第三卷积模块同样首先将解码器输出的图像元特征的维度由((H/P)×(W/P))×C6转换为(H/P)×(W/P)×C6,然后将转换后的特征图依次通过1个3×3的反卷积层、2个3×3的卷积层、1个GELU激活函数层、批归一化(BN)层和Sigmoid函数层,最后输出的遮挡方向图的尺寸为H×W。
预测器里面NMS模块的具体计算方式是:将已经得到的边缘检测图和遮挡方向图逐像素相乘,然后通过非极大值抑制的方式进行处理,最后输出遮挡关系图作为最终的预测结果。
本发明采用端对端的方式对整个神经网络进行训练,优化的目标函数为:L=L1+L2,其中L1代表第一目标函数,其作用于边缘检测图,L1为二元交叉熵函数;L2代表第二目标函数,其作用于最后的遮挡关系图,其为正交方向回归损失函数。
L1的计算方式如下式所示:
其中,和/>表示人工标记结果中非边缘像素和边缘像素的集合,,/>和/>分别表示非边缘像素和边缘像素的数量,/>用于平衡边缘检测时样本数的不均衡,/>表示每个像素点属于边缘的概率值,也就是边缘检测图每个像素的值。
L2的计算方式如下式所示:
其中,表示经典的平滑损失,/>表示人工标记结果中像素位置的方向角度值,/>和/>分别为生成的遮挡关系图中对应像素位置的角度的横纵坐标值。
下表展示了本发明在主流的PIOD数据库上,与两种主流方法DOOBNet和MTORL用B-ODS、B-OIS、O-ODS和O-OIS等四个通用指标进行比较时的结果,从下表中可见本发明的效果在所有四个指标中都优于两个对比方法,说明了本发明的有效性和优势。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于,包括以下步骤:
步骤1,输入图像通过由卷积模块、图像切分模块和数个多尺度池化Transformer模块组成的编码器,由此获得具有局部和全局表达能力的和空间尺寸不同的多层次图像元特征;
步骤2,将以上多层次图像元特征逐个对应连接到解码器中的数个多尺度池化Transformer模块,通过逐步融合特征和提高图像元数量的方式,获得图像元数量增加后的含有丰富细节和语义信息的特征;
步骤3,预测器对步骤2产生的特征进行处理,分别通过两个独立的神经网络分支,其中一个分支由第二卷积模块组成,负责生成边缘检测图,而另一个分支则通过第三卷积模块生成逐像素的遮挡方向图,最后边缘检测图和遮挡方向图通过非极大值抑制计算后,生成遮挡关系图,其反映了图像内部区域和物体间的遮挡关系。
2.如权利要求1所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于:编码器包括1个第一卷积模块、1个图像切分模块和4个第一多尺度池化Transformer模块,输入图像输入编码器后,各个模块串联依次进行运算;
编码器内部的计算和结构具体包括:
步骤1-1,将输入图像通过编码器中的1个第一卷积模块;输入图像的空间分辨率H×W在通过第一卷积模块后保持不变,H和W分别代表图像的高和宽;第一卷积模块由一个1×1的卷积层、GELU激活函数层和批归一化层组成,第一卷积模块的输出特征维度为H×W×C1,C1为特征的维度;
步骤1-2,将步骤1-1的结果通过1个图像切分模块;该图像切分模块将特征图切分为互相不重叠的空间大小为P×P的子块,并将每个子块特征拉伸为一个图像元特征向量,则此时得到的特征的维度为((H/P)×(W/P))×C1;
步骤1-3,将步骤1-2的图像元特征向量依次顺序通过4个第一多尺度池化Transformer模块;这4个模块拥有相同的结构,内部由一个第一多尺度池化Transformer单元、第一特征维度转换模块、第四卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元串联组成;步骤1-3中4个第一多尺度池化Transformer模块的输出图像元特征的维度依次为:((H/2P)×(W/2P))×C2、((H/4P)×(W/4P))×C3、((H/8P)×(W/8P))×C4和((H/16P)×(W/16P))×C5,其中C2、C3、C4和C5和C1一样,都是图像元特征的长度。
3.如权利要求2所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于:步骤1-3中的第一多尺度池化Transformer单元具体的计算包括:
步骤1-3-1,将输入图像元特征依次通过归一化层、多尺度池化层和相加层;其中,归一化层通过层归一化计算实现;多尺度池化层通过首先将图像元特征转化为特征图的样式,即将维度由两个维度的特征调整为三个维度的特征,然后进行多尺度的池化计算,接着再调整池化后三个特征图为统一尺寸大小,并按通道进行叠加,最后再将特征转换为两个维度的图像元特征样式而实现;相加层的计算是通过图像元特征相加实现的,相加层的对象为输入图像元特征和多尺度池化层的图像元特征结果;
步骤1-3-2,将步骤1-3-1的输出图像元特征送入和步骤1-3-1中一样的归一化层,然后依次通过多层感知机层和相加层;相加层的输入为步骤1-3-1中相加层的输出和MLP层的输出;相加后输出的图像元特征为第一多尺度池化Transformer单元的输出图像元特征结果。
4.如权利要求2所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于:步骤1-3中的第一特征维度转换模块具体的计算方式是将输入的图像元特征维度变换为特征图的样式,即将维度由两个维度的特征调整为三个维度的特征;
步骤1-3中的第四卷积模块具体的结构包括一个3×3的卷积层、GELU激活函数层和批归一化层。
5.如权利要求2所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于:步骤1-3中的第二特征维度转换模块具体的计算方式是将输入的特征维度由特征图变换为图像元特征维度的样式,即将特征维度由三个维度调整为两个维度的特征;第二特征维度转换模块的功能和第一特征维度转换模块正好相反。
6.如权利要求2所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于:解码器包括1个第二多尺度池化Transformer模块和3个第三多尺度池化Transformer模块;解码器内部的计算和结构具体包括:
步骤2-1,将最后一个第一多尺度池化Transformer模块输出的图像元特征输入第二多尺度池化Transformer模块,然后得到的输出图像元和倒数第二个第一多尺度池化Transformer模块的输出叠加一起作为图像元特征输入;
步骤2-2,按照步骤2-1的方式,顺序连接剩下的第三多尺度池化Transformer模块和对应的第一多尺度池化Transformer模块;最后一个第三多尺度池化Transformer模块的输出图像元特征的维度尺寸为((H/P)×(W/P))×C6,其中C6为每个图像元的特征长度。
7.如权利要求6所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于:第三多尺度池化Transformer模块具体的计算方式是:其接受两种输入图像元特征,分别来自编码器和解码器中对应的多尺度池化Transformer模块的输出;输入的两种图像元特征通过特征融合模块,后者本质上进行特征相加的计算;然后融合后的图像元特征依次通过第一多尺度池化Transformer单元、第一特征维度转换模块、第一反卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元。
8.如权利要求1所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于:预测器中第二卷积模块的具体计算方式是:首先将解码器输出的图像元特征的进行维度转换,然后将转换后的特征图依次通过1个3×3的反卷积层、GELU激活函数层、批归一化层和Softmax函数层,最后输出的边缘检测图的尺寸为H×W;
预测器中第三卷积模块的具体计算方式是:首先将解码器输出的图像元特征的进行维度转换,然后将转换后的特征图依次通过1个3×3的反卷积层、2个3×3的卷积层、1个GELU激活函数层、批归一化(BN)层和Sigmoid函数层,最后输出的遮挡方向图的尺寸为H×W。
9.如权利要求1所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于:预测器中非极大值抑制的具体计算方式是:将已经得到的边缘检测图和遮挡方向图逐像素相乘,然后通过非极大值抑制的方式进行处理,最后输出遮挡关系图作为最终的预测结果。
10.如权利要求1所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于:采用端对端的方式对步骤1-步骤4构成的整个神经网络进行训练,优化的目标函数为:L=L1+L2,其中L1代表第一目标函数,其作用于边缘检测图,L1为二元交叉熵函数;L2代表第二目标函数,其作用于最后的遮挡关系图,其为正交方向回归损失函数;
L1的计算方式如下式所示:
;
其中,和/>表示人工标记结果中非边缘像素和边缘像素的集合,,/>和/>分别表示非边缘像素和边缘像素的数量,/>用于平衡边缘检测时样本数的不均衡,/>表示每个像素点属于边缘的概率值,也就是边缘检测图每个像素的值;
L2的计算方式如下式所示:
;
其中,表示经典的平滑损失,/>表示人工标记结果中像素位置的方向角度值,/>和/>分别为生成的遮挡关系图中对应像素位置的角度的横纵坐标值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311731854.2A CN117409299B (zh) | 2023-12-15 | 2023-12-15 | 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311731854.2A CN117409299B (zh) | 2023-12-15 | 2023-12-15 | 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117409299A true CN117409299A (zh) | 2024-01-16 |
CN117409299B CN117409299B (zh) | 2024-03-05 |
Family
ID=89500439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311731854.2A Active CN117409299B (zh) | 2023-12-15 | 2023-12-15 | 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409299B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118134983A (zh) * | 2024-05-06 | 2024-06-04 | 武汉纺织大学 | 一种基于双交叉注意力网络的透明物体深度补全方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10191338A (ja) * | 1996-10-25 | 1998-07-21 | Fuji Xerox Co Ltd | 画像符号化装置および画像復号装置 |
CN114359972A (zh) * | 2022-01-13 | 2022-04-15 | 大连理工大学 | 一种基于注意力机制的遮挡行人检测方法 |
CN115908354A (zh) * | 2022-12-05 | 2023-04-04 | 上海派影医疗科技有限公司 | 一种基于双尺度策略和改进的yolov5网络的光伏面板缺陷检测方法 |
CN115909488A (zh) * | 2022-11-10 | 2023-04-04 | 杭州电子科技大学 | 一种姿态引导和动态特征提取的遮挡行人重识别方法 |
CN115953408A (zh) * | 2023-03-15 | 2023-04-11 | 国网江西省电力有限公司电力科学研究院 | 一种基于YOLOv7的避雷器表面缺陷检测方法 |
CN116309725A (zh) * | 2023-03-30 | 2023-06-23 | 中国矿业大学 | 基于多尺度可形变注意力机制的多目标跟踪方法 |
CN116402766A (zh) * | 2023-03-20 | 2023-07-07 | 南京信息工程大学 | 一种结合卷积神经网络和Transformer的遥感影像变化检测方法 |
CN116433911A (zh) * | 2023-04-21 | 2023-07-14 | 衡阳师范学院 | 基于多尺度池化建模的伪装物体实例分割方法、装置及系统 |
WO2023135320A1 (en) * | 2022-01-17 | 2023-07-20 | Cellavision Ab | Method, device and system for analyzing a sample |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与系统 |
CN116740439A (zh) * | 2023-06-14 | 2023-09-12 | 陕西科技大学 | 一种基于跨尺度金字塔Transformer的人群计数方法 |
CN116758130A (zh) * | 2023-06-21 | 2023-09-15 | 安徽理工大学 | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 |
CN116823885A (zh) * | 2023-06-27 | 2023-09-29 | 重庆邮电大学 | 一种基于金字塔池化注意力机制的端到端单目标跟踪方法 |
-
2023
- 2023-12-15 CN CN202311731854.2A patent/CN117409299B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10191338A (ja) * | 1996-10-25 | 1998-07-21 | Fuji Xerox Co Ltd | 画像符号化装置および画像復号装置 |
CN114359972A (zh) * | 2022-01-13 | 2022-04-15 | 大连理工大学 | 一种基于注意力机制的遮挡行人检测方法 |
WO2023135320A1 (en) * | 2022-01-17 | 2023-07-20 | Cellavision Ab | Method, device and system for analyzing a sample |
CN115909488A (zh) * | 2022-11-10 | 2023-04-04 | 杭州电子科技大学 | 一种姿态引导和动态特征提取的遮挡行人重识别方法 |
CN115908354A (zh) * | 2022-12-05 | 2023-04-04 | 上海派影医疗科技有限公司 | 一种基于双尺度策略和改进的yolov5网络的光伏面板缺陷检测方法 |
CN115953408A (zh) * | 2023-03-15 | 2023-04-11 | 国网江西省电力有限公司电力科学研究院 | 一种基于YOLOv7的避雷器表面缺陷检测方法 |
CN116402766A (zh) * | 2023-03-20 | 2023-07-07 | 南京信息工程大学 | 一种结合卷积神经网络和Transformer的遥感影像变化检测方法 |
CN116309725A (zh) * | 2023-03-30 | 2023-06-23 | 中国矿业大学 | 基于多尺度可形变注意力机制的多目标跟踪方法 |
CN116433911A (zh) * | 2023-04-21 | 2023-07-14 | 衡阳师范学院 | 基于多尺度池化建模的伪装物体实例分割方法、装置及系统 |
CN116740439A (zh) * | 2023-06-14 | 2023-09-12 | 陕西科技大学 | 一种基于跨尺度金字塔Transformer的人群计数方法 |
CN116758130A (zh) * | 2023-06-21 | 2023-09-15 | 安徽理工大学 | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 |
CN116823885A (zh) * | 2023-06-27 | 2023-09-29 | 重庆邮电大学 | 一种基于金字塔池化注意力机制的端到端单目标跟踪方法 |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与系统 |
Non-Patent Citations (2)
Title |
---|
YOUDA MO 等: "Swin-Conv-Dspp and Global Local Transformer for Remote Sensing Image Semantic Segmentation", 《IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING》, vol. 16, 26 March 2023 (2023-03-26) * |
韦春苗 等: "Transformer与卷积神经网络相结合的皮肤镜图像自动分割算法", 《计算机辅助设计与图形学学报》, vol. 34, no. 12, 31 December 2022 (2022-12-31) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118134983A (zh) * | 2024-05-06 | 2024-06-04 | 武汉纺织大学 | 一种基于双交叉注意力网络的透明物体深度补全方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117409299B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673307B (zh) | 一种轻量型的视频动作识别方法 | |
Huang et al. | ScaleFormer: revisiting the transformer-based backbones from a scale-wise perspective for medical image segmentation | |
CN117409299B (zh) | 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法 | |
CN111861880B (zh) | 基于区域信息增强与块自注意力的图像超分与融合方法 | |
CN113743269B (zh) | 一种轻量化识别视频人体姿态的方法 | |
CN110363068B (zh) | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 | |
CN111931857B (zh) | 一种基于mscff的低照度目标检测方法 | |
CN112101262B (zh) | 一种多特征融合手语识别方法及网络模型 | |
CN113506224A (zh) | 基于多尺度生成对抗网络的图像修复方法 | |
CN112215100B (zh) | 一种不平衡训练样本下针对退化图像的目标检测方法 | |
Khan et al. | An encoder–decoder deep learning framework for building footprints extraction from aerial imagery | |
CN111899203B (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
CN116797787A (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN113762277B (zh) | 一种基于Cascade-GAN的多波段红外图像融合方法 | |
CN116977651B (zh) | 一种基于双分支和多尺度特征提取的图像去噪方法 | |
CN117408924A (zh) | 一种基于多重语义特征融合网络的低光照图像增强方法 | |
CN115661340B (zh) | 一种基于源信息融合的三维点云上采样方法与系统 | |
CN116778165A (zh) | 基于多尺度自适应语义分割的遥感影像灾害检测方法 | |
CN116823610A (zh) | 一种基于深度学习的水下图像超分辨率生成方法和系统 | |
CN115147317A (zh) | 一种基于卷积神经网络的点云颜色质量增强方法及系统 | |
CN111047571B (zh) | 一种具有自适应选择训练过程的图像显著目标检测方法 | |
Zhang et al. | Pooling Pyramid Vision Transformer for Unsupervised Monocular Depth Estimation | |
CN114092650B (zh) | 一种基于高效图卷积的三维点云生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |