CN117409299A

CN117409299A - 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法

Info

Publication number: CN117409299A
Application number: CN202311731854.2A
Authority: CN
Inventors: 颜小运; 王兆静; 李敏; 李映进; 王晨; 杨凯; 欧浩; 余可
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-01-16
Anticipated expiration: 2043-12-15
Also published as: CN117409299B

Abstract

本发明公开了一种基于多尺度池化Transformer的图像内部遮挡关系预测方法。所述的方法包括以下步骤：输入图像首先通过由卷积模块、图像切分模块和多尺度池化Transformer模块组成的编码器；然后这些特征通过逐层对应连接由一些多尺度池化Transformer模块组成的解码器；接着这些特征分别通过预测器里面两个独立的神经网络分支，分别负责生成边缘检测图和遮挡方向图；最后在方法的预测器结构内，边缘检测图和遮挡方向图通过非极大值抑制（NMS）计算后，生成遮挡关系图。本发明是目前首次使用含有Transformer的深度神经网络进行图像内部遮挡关系预测的方法，并首次提出了多尺度池化的Transformer结构，本发明相比已有的其他方法有更好的预测效果。

Description

一种基于多尺度池化Transformer的图像内部遮挡关系预测方法

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种基于多尺度池化Transformer的图像内部遮挡关系预测方法。

背景技术

通过视觉算法对图像内部区域的遮挡关系进行预测是进行视觉理解和分析的重要技术。对遮挡关系的准确预测能够在不引入三维信息的情况下，仅依靠二维信息准确判断图像内部各区域的空间前后顺序，从而有助于从二维信息直接获取三维深度信息，并帮助更加准确地进行视觉分析和视觉理解。

目前，图像内部区域的遮挡关系的预测方法主要是基于深度卷积神经网络而开展的，通用的思路是构建一个深度卷积神经网络，然后使用网络生成遮挡关系图作为最终的预测结果。当前方法通过设计各类卷积神经网络实现预测的功能，已经取得了一定的效果，但是，当前方法的普遍问题是卷积神经网络的图像内容局部建模能力较强，但全局建模能力较弱，这会导致依靠局部特征预测出来的结果无法有效表示全局信息，从而在许多场景下出现错误的遮挡关系预测结果，这是单纯采用卷积神经网络作为解决方案所必然存在的问题。

发明内容

针对目前方法和技术存在的以上问题和不足，本发明首次采用基于Transformer的深度神经网络进行图像内部遮挡关系的预测，并首次提出了多尺度池化的Transformer结构，本发明充分利用Transformer优秀的全局信息提取能力，生成了能够表征全局信息的特征，并在Transformer结构的构建中用多尺度池化替换了传统Transformer结构中Query-Key-Value的全局比较结构。本发明中的多尺度池化计算量和复杂性远小于Query-Key-Value的全局比较结构，但取得的效果更好，而且还获得了重要的多尺度信息。本发明相比已有的其他方法有更好的预测效果。

本发明采用的技术方案为一种基于多尺度池化Transformer的图像内部遮挡关系预测方法，该方法具体包括以下步骤：

步骤1，输入图像通过由卷积模块、图像切分模块和数个多尺度池化Transformer模块组成的编码器，由此获得具有局部和全局表达能力的和空间尺寸不同的多层次图像元特征；

步骤2，将以上多层次图像元特征逐个对应连接到解码器中的数个多尺度池化Transformer模块，通过逐步融合特征和提高图像元数量的方式，获得图像元数量增加后的含有丰富细节和语义信息的特征；

步骤3，预测器对步骤2产生的特征进行处理，分别通过两个独立的神经网络分支，其中一个分支由第二卷积模块组成，负责生成边缘检测图，而另一个分支则通过第三卷积模块生成逐像素的遮挡方向图，最后边缘检测图和遮挡方向图通过非极大值抑制计算后，生成遮挡关系图，其反映了图像内部区域和物体间的遮挡关系。

优选地，编码器包括1个第一卷积模块、1个图像切分模块和4个第一多尺度池化Transformer模块，输入图像输入编码器后，各个模块串联依次进行运算，编码器内部的计算和结构具体包括：

步骤1-1，将输入图像通过编码器中的1个第一卷积模块；输入图像的空间分辨率H×W（H和W分别代表图像的高和宽）在通过第一卷积模块后保持不变；第一卷积模块由一个1×1的卷积层、GELU激活函数层和批归一化（BN）层组成，第一卷积模块的输出特征维度为H×W×C1（C1为特征的维度）；

步骤1-2，将步骤1-1的结果通过1个图像切分模块；该模块将特征图切分为互相不重叠的空间大小为P×P的子块，并将每个子块特征拉伸为一个图像元特征向量，则此时得到的特征的维度为（（H/P）×（W/P））×C1；

步骤1-3，将步骤1-2的图像元特征向量依次顺序通过4个第一多尺度池化Transformer模块；这4个模块拥有相同的结构，内部由一个第一多尺度池化Transformer单元、第一特征维度转换模块、第四卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元串联组成；步骤1-3中4个第一多尺度池化Transformer模块的输出图像元特征的维度依次为：（（H/2P）×（W/2P））×C2、（（H/4P）×（W/4P））×C3、（（H/8P）×（W/8P））×C4和（（H/16P）×（W/16P））×C5，其中C2、C3、C4和C5和C1一样，都是图像元特征的长度。

优选地，步骤1-3中的第一多尺度池化Transformer单元具体的计算包括：

步骤1-3-1，将输入图像元特征依次通过归一化层、多尺度池化层和相加层；其中，归一化层通过层归一化计算实现；多尺度池化层通过首先将图像元特征转化为特征图的样式，即将维度由两个维度（图像元的个数×图像元的长度）的特征调整为三个维度（特征图的长×宽×图像元的长度）的特征，然后进行多尺度（池化核的大小分别为3×3、5×3和7×7）的池化计算，接着再调整池化后三个特征图为统一尺寸大小，并按通道进行叠加，最后再将特征转换为两个维度的图像元特征样式而实现；相加层的计算是通过图像元特征相加实现的，相加层的对象为输入图像元特征和多尺度池化层的图像元特征结果；

步骤1-3-2，将步骤1-3-1的输出图像元特征送入和步骤1-3-1中一样的归一化层，然后依次通过多层感知机（MLP）层和相加层；相加层的输入为步骤1-3-1中相加层的输出和MLP层的输出；相加后输出的图像元特征为第一多尺度池化Transformer单元的输出图像元特征结果。

优选地，步骤1-3中的第一特征维度转换模块具体的计算方式是将输入的图像元特征维度变换为特征图的样式，即将维度由两个维度（图像元的个数×图像元的长度）的特征调整为三个维度（特征图的长×宽×图像元的长度）的特征。

优选地，步骤1-3中的第四卷积模块具体的结构包括一个3×3的卷积层、GELU激活函数层和批归一化（BN）层；第四卷积模块的作用是通过卷积的方式间接减少图像元特征的数量，从而减少计算量。

优选地，步骤1-3中的第二特征维度转换模块具体的计算方式是将输入的特征维度由特征图变换为图像元特征维度的样式，即将特征维度由三个维度（特征图的长×宽×图像元的长度）调整为两个维度（图像元的个数×图像元的长度）的特征；第二特征维度转换模块的功能和第一特征维度转换模块正好相反。

优选地，解码器包括1个第二多尺度池化Transformer模块和3个第三多尺度池化Transformer模块；这些模块的计算方式是：它们一方面各自对应接受编码器的4个第一多尺度池化Transformer模块的输出图像元特征作为输入的一部分，另一方面，也将各自已经计算完毕的图像元特征输出依次作为输入的另一部分，即解码器中的每个多尺度池化Transformer模块都有两个输入，并产生一个输出；解码器内部的计算和结构具体包括：

步骤2-1，将最后一个第一多尺度池化Transformer模块（特征维度尺寸为（（H/16P）×（W/16P））×C5）输出的图像元特征输入第二多尺度池化Transformer模块，然后得到的输出图像元和倒数第二个第一多尺度池化Transformer模块的输出叠加一起作为图像元特征输入；

步骤2-2，按照步骤2-1的方式，顺序连接剩下的第三多尺度池化Transformer模块和对应的第一多尺度池化Transformer模块；最后一个第三多尺度池化Transformer模块的输出图像元特征的维度尺寸为（（H/P）×（W/P））×C6，其中C6为每个图像元的特征长度。

优选地，第二多尺度池化Transformer模块具体的计算和第一多尺度池化Transformer模块类似，唯一的区别就是第二多尺度池化Transformer模块将第一多尺度池化Transformer模块中的第四卷积模块更换为了第一反卷积模块；后者由3×3的反卷积层、GELU激活函数层和批归一化（BN）层组成。

优选地，第三多尺度池化Transformer模块具体的计算方式是：其接受两种输入图像元特征，分别来自编码器和解码器中对应的多尺度池化Transformer模块的输出；输入的两种图像元特征通过特征融合模块，后者本质上进行特征相加的计算；然后融合后的图像元特征依次通过第一多尺度池化Transformer单元、第一特征维度转换模块、第一反卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元。

优选地，预测器里面包含两个独立的神经网络分支，其中一个分支由第二卷积模块组成，负责生成边缘检测图，而另一个分支则通过第三卷积模块生成逐像素的遮挡方向图；最后，边缘检测图和遮挡方向图通过NMS计算后，生成遮挡关系图，其反映了图像内部区域和物体间的遮挡关系。

优选地，预测器里面第二卷积模块的具体计算方式是：第二卷积模块首先将解码器输出的图像元特征的维度由（（H/P）×（W/P））×C6转换为（H/P）×（W/P）×C6，然后将转换后的特征图依次通过1个3×3的反卷积层、GELU激活函数层、批归一化（BN）层和Softmax函数层，最后输出的边缘检测图的尺寸为H×W。

优选地，预测器里面第三卷积模块的具体计算方式是：第三卷积模块同样首先将解码器输出的图像元特征的维度由（（H/P）×（W/P））×C6转换为（H/P）×（W/P）×C6，然后将转换后的特征图依次通过1个3×3的反卷积层、2个3×3的卷积层、1个GELU激活函数层、批归一化（BN）层和Sigmoid函数层，最后输出的遮挡方向图的尺寸为H×W。

优选地，预测器里面NMS模块的具体计算方式是：将已经得到的边缘检测图和遮挡方向图逐像素相乘，然后通过非极大值抑制的方式进行处理，最后输出遮挡关系图作为最终的预测结果。

优选地，本发明采用端对端的方式对整个神经网络进行训练，优化的目标函数为：L=L1+L2，其中L1代表第一目标函数，其作用于边缘检测图，L1为二元交叉熵函数；L2代表第二目标函数，其作用于最后的遮挡关系图，其为正交方向回归损失函数。

优选地，L1的计算方式如下式所示：

其中，和/>表示人工标记结果中非边缘像素和边缘像素的集合，，/>和/>分别表示非边缘像素和边缘像素的数量，/>用于平衡边缘检测时样本数的不均衡，/>表示每个像素点属于边缘的概率值，也就是边缘检测图每个像素的值；

L2的计算方式如下式所示：

其中，表示经典的平滑损失，/>表示人工标记结果中像素位置的方向角度值，/>和/>分别为生成的遮挡关系图中对应像素位置的角度的横纵坐标值。

总体而言，通过本发明所设计的以上技术方案与现有技术相比，具有以下有益效果：

本发明首次采用基于Transformer的深度神经网络进行图像内部遮挡关系的预测，能充分利用Transformer优秀的全局信息提取能力，生成了能够表征全局信息的特征。本发明首次提出了多尺度池化的Transformer结构，在Transformer结构的构建中用多尺度池化替换了传统Transformer结构中Query-Key-Value的全局比较结构。本发明中的多尺度池化计算量和复杂性远小于Query-Key-Value的全局比较结构，但取得的效果更好，而且还获得了重要的多尺度信息。本发明相比已有的其他方法有更好的预测效果，能够更加有效地预测图像内部区域的遮挡关系。

附图说明

图1为本发明提供的一种基于多尺度池化Transformer的图像内部遮挡关系预测方法的整体流程图；

图2为第一多尺度池化Transformer模块的结构示意图；

图3为第二多尺度池化Transformer模块的结构示意图；

图4为第三多尺度池化Transformer模块的结构示意图；

图5为第一多尺度池化Transformer单元的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种基于多尺度池化Transformer的图像内部遮挡关系预测方法，如图1所示，包括以下步骤：

步骤1，输入图像通过由卷积模块、图像切分模块和4个多尺度池化Transformer模块组成的编码器，由此获得具有局部和全局表达能力的和空间尺寸不同的多层次图像元特征；

步骤2，以上特征接着逐个对应连接解码器的4个多尺度池化Transformer模块，通过逐步融合特征和提高图像元数量的方式，获得图像元数量增加后的含有丰富细节和语义信息的特征；

步骤3，预测器对步骤2产生的图像元特征进行处理，分别通过两个独立的神经网络分支，其中一个分支由卷积模块组成，负责生成边缘检测图，而另一个分支则通过其他的卷积模块生成逐像素的遮挡方向图。最后边缘检测图和遮挡方向图通过非极大值抑制（NMS）计算后，生成遮挡关系图，其反映了图像内部区域和物体间的遮挡关系。

发明主要有三个实现部分：（1）编码器，（2）解码器，（3）预测器。接下来对本发明中步骤进行详细说明。

1.编码器的实现

方法中的编码器包括1个第一卷积模块、1个图像切分模块和4个第一多尺度池化Transformer模块。输入图像输入编码器后，各个模块串联依次进行运算。编码器内部的计算和结构具体包括：

步骤1-1，将输入图像通过编码器中的1个第一卷积模块；输入图像的空间分辨率H×W（H和W分别代表图像的高和宽）在通过第一卷积模块后保持不变；第一卷积模块由一个1×1的卷积层、GELU激活函数层和批归一化（BN）层组成，第一卷积模块的输出特征维度为H×W×C1，C1为特征的维度，实施例中取值为32；

步骤1-2，将步骤1-1的结果通过1个图像切分模块；该模块将特征图切分为互相不重叠的空间大小为P×P的子块，并将每个子块特征拉伸为一个图像元特征向量，则此时得到的特征的维度为（（H/P）×（W/P））×C1，实施例中P的取值为4；

步骤1-3，将步骤1-2的图像元特征向量依次顺序通过4个第一多尺度池化Transformer模块；这4个模块拥有相同的结构，如图2所示，内部由一个第一多尺度池化Transformer单元、第一特征维度转换模块、第四卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元串联组成；步骤1-3中4个第一多尺度池化Transformer模块的输出图像元特征的维度依次为：（（H/2P）×（W/2P））×C2、（（H/4P）×（W/4P））×C3、（（H/8P）×（W/8P））×C4和（（H/16P）×（W/16P））×C5，其中C2、C3、C4和C5和C1一样，都是图像元特征的长度。实施例中C2、C3、C4和C5具体分别取值为64，128,256和512。

步骤1-3中的第一多尺度池化Transformer单元，如图5所示，具体的计算包括：

步骤1-3中的第一特征维度转换模块具体的计算方式是将输入的图像元特征维度变换为特征图的样式，即将维度由两个维度（图像元的个数×图像元的长度）的特征调整为三个维度（特征图的长×宽×图像元的长度）的特征。

步骤1-3中的第四卷积模块具体的结构包括一个3×3的卷积层、GELU激活函数层和批归一化（BN）层；第四卷积模块的作用是通过卷积的方式间接减少图像元特征的数量，从而减少计算量。

步骤1-3中的第二特征维度转换模块具体的计算方式是将输入的特征维度由特征图变换为图像元特征维度的样式，即将特征维度由三个维度（特征图的长×宽×图像元的长度）调整为两个维度（图像元的个数×图像元的长度）的特征；第二特征维度转换模块的功能和第一特征维度转换模块正好相反。

2.解码器的实现

解码器包括1个第二多尺度池化Transformer模块和3个第三多尺度池化Transformer模块；这些模块的计算方式是：它们一方面各自对应接受编码器的4个第一多尺度池化Transformer模块的输出图像元特征作为输入的一部分，另一方面，也将各自已经计算完毕的图像元特征输出依次作为输入的另一部分，即解码器中的每个多尺度池化Transformer模块都有两个输入，并产生一个输出；解码器内部的计算和结构具体包括：

步骤2-2，按照步骤2-1的方式，顺序连接剩下的第三多尺度池化Transformer模块和对应的第一多尺度池化Transformer模块；最后一个第三多尺度池化Transformer模块的输出图像元特征的维度尺寸为（（H/P）×（W/P））×C6，其中C6为每个图像元的特征长度，实施例中C6为64。

第二多尺度池化Transformer模块，如图3所示，具体的计算和第一多尺度池化Transformer模块类似，唯一的区别就是第二多尺度池化Transformer模块将第一多尺度池化Transformer模块中的第四卷积模块更换为了第一反卷积模块；后者由3×3的反卷积层、GELU激活函数层和批归一化（BN）层组成。

第三多尺度池化Transformer模块，如图4所示，具体的计算方式是：其接受两种输入图像元特征，分别来自编码器和解码器中对应的多尺度池化Transformer模块的输出；输入的两种图像元特征通过特征融合模块，后者本质上进行特征相加的计算；然后融合后的图像元特征依次通过第一多尺度池化Transformer单元、第一特征维度转换模块、第一反卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元。

3.预测器的实现

预测器里面包含两个独立的神经网络分支，其中一个分支由第二卷积模块组成，负责生成边缘检测图，而另一个分支则通过第三卷积模块生成逐像素的遮挡方向图；最后，边缘检测图和遮挡方向图通过NMS计算后，生成遮挡关系图，其反映了图像内部区域和物体间的遮挡关系。

预测器里面第二卷积模块的具体计算方式是：第二卷积模块首先将解码器输出的图像元特征的维度由（（H/P）×（W/P））×C6转换为（H/P）×（W/P）×C6，然后将转换后的特征图依次通过1个3×3的反卷积层、GELU激活函数层、批归一化（BN）层和Softmax函数层，最后输出的边缘检测图的尺寸为H×W。

预测器里面第三卷积模块的具体计算方式是：第三卷积模块同样首先将解码器输出的图像元特征的维度由（（H/P）×（W/P））×C6转换为（H/P）×（W/P）×C6，然后将转换后的特征图依次通过1个3×3的反卷积层、2个3×3的卷积层、1个GELU激活函数层、批归一化（BN）层和Sigmoid函数层，最后输出的遮挡方向图的尺寸为H×W。

预测器里面NMS模块的具体计算方式是：将已经得到的边缘检测图和遮挡方向图逐像素相乘，然后通过非极大值抑制的方式进行处理，最后输出遮挡关系图作为最终的预测结果。

本发明采用端对端的方式对整个神经网络进行训练，优化的目标函数为：L=L1+L2，其中L1代表第一目标函数，其作用于边缘检测图，L1为二元交叉熵函数；L2代表第二目标函数，其作用于最后的遮挡关系图，其为正交方向回归损失函数。

L1的计算方式如下式所示：

其中，和/>表示人工标记结果中非边缘像素和边缘像素的集合，，/>和/>分别表示非边缘像素和边缘像素的数量，/>用于平衡边缘检测时样本数的不均衡，/>表示每个像素点属于边缘的概率值，也就是边缘检测图每个像素的值。

L2的计算方式如下式所示：

下表展示了本发明在主流的PIOD数据库上，与两种主流方法DOOBNet和MTORL用B-ODS、B-OIS、O-ODS和O-OIS等四个通用指标进行比较时的结果，从下表中可见本发明的效果在所有四个指标中都优于两个对比方法，说明了本发明的有效性和优势。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：编码器包括1个第一卷积模块、1个图像切分模块和4个第一多尺度池化Transformer模块，输入图像输入编码器后，各个模块串联依次进行运算；

编码器内部的计算和结构具体包括：

步骤1-1，将输入图像通过编码器中的1个第一卷积模块；输入图像的空间分辨率H×W在通过第一卷积模块后保持不变，H和W分别代表图像的高和宽；第一卷积模块由一个1×1的卷积层、GELU激活函数层和批归一化层组成，第一卷积模块的输出特征维度为H×W×C1，C1为特征的维度；

步骤1-2，将步骤1-1的结果通过1个图像切分模块；该图像切分模块将特征图切分为互相不重叠的空间大小为P×P的子块，并将每个子块特征拉伸为一个图像元特征向量，则此时得到的特征的维度为（（H/P）×（W/P））×C1；

3.如权利要求2所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：步骤1-3中的第一多尺度池化Transformer单元具体的计算包括：

步骤1-3-1，将输入图像元特征依次通过归一化层、多尺度池化层和相加层；其中，归一化层通过层归一化计算实现；多尺度池化层通过首先将图像元特征转化为特征图的样式，即将维度由两个维度的特征调整为三个维度的特征，然后进行多尺度的池化计算，接着再调整池化后三个特征图为统一尺寸大小，并按通道进行叠加，最后再将特征转换为两个维度的图像元特征样式而实现；相加层的计算是通过图像元特征相加实现的，相加层的对象为输入图像元特征和多尺度池化层的图像元特征结果；

步骤1-3-2，将步骤1-3-1的输出图像元特征送入和步骤1-3-1中一样的归一化层，然后依次通过多层感知机层和相加层；相加层的输入为步骤1-3-1中相加层的输出和MLP层的输出；相加后输出的图像元特征为第一多尺度池化Transformer单元的输出图像元特征结果。

4.如权利要求2所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：步骤1-3中的第一特征维度转换模块具体的计算方式是将输入的图像元特征维度变换为特征图的样式，即将维度由两个维度的特征调整为三个维度的特征；

步骤1-3中的第四卷积模块具体的结构包括一个3×3的卷积层、GELU激活函数层和批归一化层。

5.如权利要求2所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：步骤1-3中的第二特征维度转换模块具体的计算方式是将输入的特征维度由特征图变换为图像元特征维度的样式，即将特征维度由三个维度调整为两个维度的特征；第二特征维度转换模块的功能和第一特征维度转换模块正好相反。

6.如权利要求2所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：解码器包括1个第二多尺度池化Transformer模块和3个第三多尺度池化Transformer模块；解码器内部的计算和结构具体包括：

步骤2-1，将最后一个第一多尺度池化Transformer模块输出的图像元特征输入第二多尺度池化Transformer模块，然后得到的输出图像元和倒数第二个第一多尺度池化Transformer模块的输出叠加一起作为图像元特征输入；

7.如权利要求6所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：第三多尺度池化Transformer模块具体的计算方式是：其接受两种输入图像元特征，分别来自编码器和解码器中对应的多尺度池化Transformer模块的输出；输入的两种图像元特征通过特征融合模块，后者本质上进行特征相加的计算；然后融合后的图像元特征依次通过第一多尺度池化Transformer单元、第一特征维度转换模块、第一反卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元。

8.如权利要求1所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：预测器中第二卷积模块的具体计算方式是：首先将解码器输出的图像元特征的进行维度转换，然后将转换后的特征图依次通过1个3×3的反卷积层、GELU激活函数层、批归一化层和Softmax函数层，最后输出的边缘检测图的尺寸为H×W；

预测器中第三卷积模块的具体计算方式是：首先将解码器输出的图像元特征的进行维度转换，然后将转换后的特征图依次通过1个3×3的反卷积层、2个3×3的卷积层、1个GELU激活函数层、批归一化（BN）层和Sigmoid函数层，最后输出的遮挡方向图的尺寸为H×W。

9.如权利要求1所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：预测器中非极大值抑制的具体计算方式是：将已经得到的边缘检测图和遮挡方向图逐像素相乘，然后通过非极大值抑制的方式进行处理，最后输出遮挡关系图作为最终的预测结果。

10.如权利要求1所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：采用端对端的方式对步骤1-步骤4构成的整个神经网络进行训练，优化的目标函数为：L=L1+L2，其中L1代表第一目标函数，其作用于边缘检测图，L1为二元交叉熵函数；L2代表第二目标函数，其作用于最后的遮挡关系图，其为正交方向回归损失函数；

L1的计算方式如下式所示：

；

L2的计算方式如下式所示：

；