CN112489119B

CN112489119B - 一种增强可靠性的单目视觉定位方法

Info

Publication number: CN112489119B
Application number: CN202011522140.7A
Authority: CN
Inventors: 百晓; 张鹏程; 张亮; 王欣; 刘祥龙
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2023-01-31
Anticipated expiration: 2040-12-21
Also published as: CN112489119A

Abstract

本发明提出一种增强可靠性的单目视觉定位方法，包括以下步骤：(1)通过深度卷积神经网络DCNN对输入图像提取特征图；(2)提出一种多层融合的双线性模型从特征图中进行特征嵌入得到特征向量；(3)使用一个可靠性感知的姿态回归层从特征向量中回归输入图像的相机位置和朝向的预测值和不确定度。与现有技术相比，本发明具有预测结果可靠性更强，准确性更高等优点。

Description

一种增强可靠性的单目视觉定位方法

技术领域

本发明涉及视觉定位领域，提出了一种增强可靠性的单目视觉定位方法。

背景技术

视觉定位，又称相机重定位，是指输入一张图片计算这个图像对应相机6DoF(6Degree of Freedom)的相机姿态，因此，也被称为相机姿态回归或者相机姿态估计。在增强现实、自动驾驶、机器人等领域，由视觉传感器的图像获得视觉传感器在3D世界的位置是执行下一步任务(例如虚拟内容显示、路径规划、人机交互等)的基础。由于视觉传感器成本低且应用广泛，基于视觉的定位方法是重要的实用价值。

视觉定位问题在SLAM和Structure from Motion等系统领域有着很长的历史。借助SLAM和Structure from Motion系统构建一个描绘场景的3D模型，给定一张图像，提取它的局部特征与3D模型上的点云特征进行匹配(2D-3D匹配)，根据匹配关系求解PnP问题得到给定图像在场景中的相机姿态。这类需要构建场景结构3D模型的方法被称为基于结构的方法，由于采用多视几何对场景进行精确建模，这类方法的定位精确最高。另一种无需建立3D模型的方法是基于检索的方法，它通过一个地理位置图像数据库存储场景图像和对应的位置标签，给定一张图像使用图像检索技术识别数据库中与给定图像最相似的图像，用检索到的图像的位置标签近似给定图像的位置。为了获得更精确的位置信息，可以检索多张图像，用多张图像的位置信息近似给定图像的位置。基于检索的视觉定位方法，又被称为场景识别，通常用于大尺度场景的粗糙定位。而对于城市及的大尺度的视觉定位任务，通常是基于检索方法和基于结构方法结合的方法，也就是首先检索与输入图像最相似的N张图像，使用基于结构的方法求出输入图像的对应的相机姿态。这种方法无疑进一步增加了存储成本和计算负担。

在深度学习广泛应用之前，无论是基于结构的方法还是基于检索的方法，通常都是使用手工特征，例如SIFT、ORB等。在深度学习兴起之后，基于结构的方法使用的局部特征由手工提取的局部特征被CNN的局部特征取代，基于检索的方法则使用CNN提取的全局图像描述符，CNN强大的表征能力进一步提高了视觉定位的性能，尤其是在光照变化等场景下的定位精度，但是存储成本、计算负担与传统方法相比没有明显优势。另一方面，基于深度学习端到端的视觉定位成为了研究热点，这种方法被称为相机姿态回归。相机姿态回归方法使用CNN直接回归6DoF的相机姿态，以PoseNet为代表的相机姿态回归方法，在训练时需要使用Structure from Motion等方法生成Ground Truth，而在推断时只需要存储网络模型，无需额外的数据存储，且由于CNN能够并行运算，基于深度学习的方法具有占用空间小、推断速度快的优势。但是当前深度学习的视觉定位方法在模型层面存在不可靠的因素，例如使用平均池化和全连接层将CNN提取的特征图进行特征嵌入,然而平均池化使得一些与视觉定位无关的视觉元素被聚合到特征向量中而产生不可靠的结果。因此当前的视觉定位方法存在定位精度低，定位结果不可靠的缺点。

发明内容

本发明解决的问题：克服现有技术的不足，提供一种增强可靠性的单目视觉定位方法，提高姿态回归方法的精确度，实现相比现有方法更高精确度和更高可靠性的视觉定位，且具有传感器成本低、运算速度快等优点。

最近的理论证明视觉定位网络模型的姿态回归层的权重是一组基姿态的集合，从CNN提取的特征图嵌入的特征向量是基姿态的权重，输出的定位结果是基姿态的加权。当前深度学习的视觉定位方法使用平均池化和全连接层将CNN提取的特征图进行特征嵌入得到用于回归相机姿态的特征向量,然而平均池化使得一些与视觉定位无关的视觉元素被聚合到特征向量中而产生不可靠的结果，因此这种特征嵌入方法对于视觉定位任务而言并不可靠。特征嵌入应该关注能够区分相机姿态变化的视觉区域从而得到更精确的相机姿势估计，同时这些视觉区域应该是在不同位置采集的内容相似的两幅图像具有显著区别的视觉区域。从这些视觉区域对应的特征图嵌入得到的特征向量才能得到可靠的定位结果。此外，基姿态集合，即姿态回归层的权重，是通过随机梯度下降优化方法从训练数据中学习的对数据中可能存在的相机姿态的近似，因此基姿态集合，即全连接的回归层存在模型不确定性。因此，估计结果的不确定性并且尽可能地提高定位结果的可靠性是非常重要的。

为了解决当前视觉定位网络模型在特征嵌入和姿态回归层中存在不可靠因素的问题，本发明提出一种能够增强定位结果可靠性的特征嵌入模块以及一种基于随机采样的姿态回归层，有效地提升了定位结果的可靠性和精确度。

本发明的技术方案为：

本发明的一种基于可区分性特征的单目视觉定位方法，如图1所示，包括以下步骤：

(1)通过34层的残差卷积神经网络模型即ResNet34的全卷积层对输入图像提取特征图；

(2)采用一种多层融合的双线性模型从特征图中进行特征嵌入得到特征向量；

(3)使用一个可靠性感知的姿态回归层，从特征向量随机采样t组特征向量并输入到全连接的回归层输出t组3维向量和t组4维向量，计算t组向量的均值和协方差得到3维均值向量、4维均向量值、维度为3x3的协方差矩阵和维度为4x4的协方差矩阵，3维均值向量和4维均值向量作为分别表示拍摄图像的相机在场景中的位置和朝向，3x3协方差的迹为位置的不确定度，4x4协方差的迹为朝向的不确定度；此外，根据单位四元数的定义，对表示相机朝向的4维向量最后需要进行L2-Normalize操作使得4维向量的2范数为1，完成视觉定位任务。

所述步骤(1)具体实现过程包括：

首先对输入图像进行预处理,即将输入图像所有像素值除以255,使得所有像素值的取值范围为[0,1],然后分别减去和除以从ImageNet数据集上计算的均值和方差,最后将输入图像的大小调整为256x256输入到特征提取网络中，使用去除全局平均池化和Softmax分类层的ResNet34作为特征提取网络，256x256输入图像经过第一个卷积层conv1输出128x128特征图，后续四个卷积层conv2-5由基础残差块串联组成，基础残差块是由两个3x3卷积组成的残差块，卷积层conv2包含两个基础残差块，输入128x128的特征图输出64x64特征图，卷积层conv3包含四个基础残差块，输入64x64的特征图输出32x32特征图，卷积层conv4包含六个基础残差块，输入32x32的特征图输出16x16特征图，卷积层conv5包含四个基础残差块，输入16x16的特征图输出8x8特征图。

所述步骤(2)具体实现包括：

引入双线性池化技术进行特征增强，双线性池化通过计算来自CNN的特征图的外积来形成全局特征向量；为了降低参数量并防止过拟合,使用一种分解的双线性池化：

其中，x是CNN输出的特征图，z是双线性池化从特征图x聚合得到的特征向量，U,V为低秩投影矩阵。将分解的双线性特征聚合方法应用于两种不同特征的融合，提出一个多层融合的双线性模型，多层融合的双线性模型通过将ResNet34最后残差块conv5_3输出的双线性特征与前两个残差块conv5_1和conv5_2输出的特征进行双线性融合得到多层融合的双线性特征；由于来自较深层的特征图有与目标任务更相关的语义信息，而最后一个卷积层的双线性特征图能够进一步增强与有与目标任务相关的视觉区域的特征激活，因此利用最后一层的双线性特征与相对浅层的特征进行双线性特征融合以保证能够学习到更多与任务相关的特征；最后使用一个投用矩阵将融合特征投影到特定维度的特征空间,用于相机姿态回归，完整的多层融合的双线性模型写成：

其中，χ,γ,

分别是ResNet34最后三个残差块conv5_3、conv5_2和conv5_1输出的特征图，P是用于特征嵌入的投影矩阵，concat表示级联操作，U，V，S，D分别是特征图的投影矩阵，利用上述的多层双线性模型从特征图中嵌入得到多层融合的特征向量。

给定输入图像I的相机姿态

表示相机的位置，

表示相机的朝向，由于朝向的参数化形式不同，维度r可能取不同的值，则视觉定位任务可以方程

其中

基于CNN的绝对姿态回归任务可以被分为三个阶段：第一阶段是从图像I中提取特征F(I)，特征提取通常使用经典CNN模型(例如VGG、ResNet等)的全卷积部分；第二阶段是将提取的特征图嵌入到一个高维空间中的向量

记作E(F(I))，嵌入通常对应于网络倒数第三层的全局平均池化和倒数第二层的全连接层的输出；最后一个阶段是一个从嵌入空间到相机姿态空间的投影，最后一个阶段通常对应于网络最后的全连接层。根据上述阶段，视觉定位方程L可以展开为：

其中，

为投影矩阵，

是一个偏差项，L(I)的输出是图像对应的相机姿态

使

为投影矩阵的第j行，则可以将预测的相姿态表示为P_j的线性组合：

进一步可以将P_j分解为平移部分

和朝向部分

则P_j＝(c_j,r_j)^T，同理偏差项b也可以分解为b＝(c_b,r_b)^T，则公式(2.18)可以展开为：

结合上式，绝对相机姿态回归方法是在学习一个基姿态的集合β＝{(c_j,r_j)}，训练图像的姿态可以用基姿态的线性组合表示。根据输入图像的内容计算得到基姿态的权重，在姿态回归的第一阶段F(I)得到特征图的集合，第二阶段E(F(I))将特征图嵌入到一个高维空间的向量

其中

通过特征激活情况计算得到，表示输入图像对应每个基姿态的重要性。

从公式(3)可知，姿态回归方法的精确度，主要取决于的基姿态集合β＝{(c_j,r_j)}和特征嵌入向量

因此，提升基于姿态回归的视觉定位方法的关键在于网络是否能够从训练数据中学习到有效的基姿态以及特征嵌入向量使得基姿态仿射组合近似于真实的相机姿态。

为了从特征图中嵌入到具有视觉定位区分性的特征，本发明利用双线性池化技术进行特征增强。双线性池化通过计算来自CNN的特征图的外积来形成全局特征向量。在视觉定位中，双线性池化能够抑制与视觉定位任务无关区域中的特征图激活，有助于网络模型将更多的注意力集中与视觉定位有关的视觉区域。为了降低计算量和防止过拟合,本发明引入一个投影矩阵对双线性池化的结果进行降维,而投影矩阵可以使用两个低秩矩阵近似可得一种分解的双线性模型.基于分解的双线性池化,本发明提出了一个多层融合的双线性模型，该模型通过将ResNet最后一个残差块conv5_3输出的双线性特征与前两个残差块conv5_1和conv5_2的特征进行融合得到多层融合的双线性特征。多层融合结合了更多的特征信息，进一步增强了特征区分性。本发多层融合的双线性模型具体结构如图1所示，ResNet34最后一个残差块conv5_3输出的特征图被投影到维度为d的特征图1_0和特征图1_1，两个特征图执行哈达玛积操作得双线性特征图1，对双线性特征图1池化和l2-normalize操作得到双线性特征向量1；对ResNet34倒数第三个残差块conv5_1和倒数第二个残差块conv5_2分别投影到两个维度为d的特征图2和特征图3，特征图2、3分别与双线性特征图1执行哈达玛积操作得到双线性特征图2和双线性特征图3，分别对双线性特征图2、3池化和l2-normalize操作得到双线性特征2、3；串联双线性特征1、2和3得到多层融合双线性特征；最后使用一个投影矩阵将多层融合的双线性特征投影到维度为n的特征空间,用于相机姿态回归。其中n和d为超参数，一般可设n＝2048和d＝8192。

所述步骤(3)具体实现包括：

使用一个基于随机采样的回归层从特征嵌入模块输出的特征向量中回归7维向量并计算位置和朝向的不确定度。7维向量的前三位表示位置而后四位表示朝向，其中需要L2-Normalize操作使向量后四位称为为一个有意义的表示朝向的四元数。本发明提出的基于随机采样的回归层的具体实现为，对特征嵌入模块输出的特征向量进行t次概率为0.5的Dropout，得到t组特征向量，然后从这t组特征向量中回归t组相机位置和朝向向量，计算t组向量的均值作为最终的定位结果，分别计算t组位置向量和t组朝向向量的协方差，将协方差的迹为位置和朝向的不确定度。

与现有技术相比，本发明的创新之处在于：提出了增强当前基于深度学习的视觉定位算法可靠性的方法并提升了视觉定位的精确度。在特征嵌入模块，引入双线性模型技术进行特征增强并利用最后一层的双线性特征与相对浅层的特征进行特征融合来学习更多与任务相关的特征，提升了特征嵌入的可靠性。在姿态回归层，通过多次从基姿态的集合随机采样，减少姿态回归层的不确定性的影响，提升了定位结果的可靠性。

附图说明

图1为本发明的增强可靠性的单目视觉定位网络模型示意图；

图2为本发明的视觉定位方法构建过程示意图；

图3为本发明的多层融合的双线性模型示意图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图2所示，一种基于可区分性特征的深度学习视觉定位方法的实施过程，主要包括图像数据采集、创建三维模型获取相机姿态、模型实现与训练以及模型部署四个部分。

首先，使用相机沿着可能的定位路线采集连续的单目图像数据。然后，利用增量Structure from Motion方法从这些连续的单目图像序列中获得相机的标定结果、图像对应的相机姿态以及3D点云模型，整个过程包括匹配搜索和场景重建两个主要的阶段。匹配搜索阶段，输入连续的单目图像序列，首先进行特征提取和匹配，然后进行几何验证确保一对匹配图像上的对应特征点对应同一个场景点，最终输出几何验证后的匹配图像对集合和场景图。场景重建阶段，匹配搜索阶段生成的场景图用作重建阶段的输入，该阶段通过仔细选择的两视图重建进行初始化，然后逐步注册新图像，对场景点进行三角测量，过滤离群值并使用bundle adjustment细化重建结果，最终输出相机的标定结果、图像对应的相机姿态以及3D点云模型，将输入图像和输出的图像对应的相机姿态的作为模型训练的标注数据。

在模型层面，提出一种增强特征区分性的多层融合的特征嵌入模块从CNN提取的特征图中进行特征嵌入得到用于回归相机姿态的特征向量。多层融合的特征嵌入模块以双线性池化为基础。双线性池化计算两个特征向量的外积来建模特征交互，双线性池化的公式化定义为：

其中，

为CNN提取的特征图，特征图中每个位置对应的特征向量为

其中h,w和c为特征图的高、宽和维度，S是特征图对应的空间点的位置集合。然而双线性模型输出的维度通常很大，过大的特征维度增加了计算量且有过拟合风险。为了降低维度通常可以使用一个投影矩阵进行降维，则双线性池化可以被改写为：

其中

为降维后的特征向量，b为偏差项，

其中d为降维之后的维度，

为从W的第j列被reshape为c×c的矩阵。将W_j ^R进行矩阵分解进一步减少参数量，W_j ^R可以用两个矩阵的乘近似，即W_j ^R＝U_jV_j ^T，其中U_j，

分别为秩为1的向量，则公式(5)可以重写分解的形式：

其中，Sum表示求向量的和，此处还包括对空间位置S的特征值进行求和，°表示哈达玛积，即元素级的相乘。令U,V为分别由U_j，V_j组成的低秩投影矩阵，则公式(3.02)重写为分解的双线性池化：

为了进一步增加模型表征能力和避免过度拟合，可以在投影操作之后添加非线性激活(如tanh或ReLU)和Dropout。采用分解的双线性池化代替了传统的平均池化以增强特征的可区分性，从而促使网络在输入图像与视觉定位任务相关的视觉区域有更大的特征激活。

早期的双线性模型的输入是来自两种不同的输入，因此被称为双线性模型。因此，可将分解的双线性模型

应用于两种不同特征的融合，假设有两个不同的输入特征图χ和γ，则可得到双线性融合的特征向量z为：

上式也可以理解为将特征χ和γ分别用两个投影矩阵U和S投影到同一个特征空间，然后进行特征融合。

深层的卷积滤波器可以用作弱的部分属性检测器，来自不同卷积层的激活可以视为不同部分属性的表示。因此，对不同卷积层的特征交互进行建模可以帮助网络提取更多区分特征。基于这种观察，对来自多个卷积层的特征进行双线性特征融合，以计算不同的部分属性的交互关系。提出了一个多层融合的双线特征模型，它通过将ResNet最后一个卷积块conv5_3输出的双线性特征与ResNet中前两个块conv5_1和conv5_2的特征相结合进行融合得到多层融合的双线性特征。由于来自较深层的特征图具有与目标任务更相关的语义信息，因此利用最后一层的双线性特征作为公式(10)的输入之一与相对浅层的特征进行特征融合以保证能够学习到更多的与任务相关的特征。因此，多层融合的双线性模型为：

其中χ,γ,

分别是ResNet34最后三个残差块conv5_3、conv5_2和conv5_1输出的特征图，P是用于特征嵌入的投影矩阵，concat表示级联操作，而U，V，S，D分别是特征图的投影矩阵。

本发明提出的基于随机采样的姿态回归层利用Dropout以概率0.5从基姿态集合中采样t次，最终的相机姿态为t次采样结果计算出相机姿态的均值，则最终的相机姿态为：

其中

表示t次采样结果计算出相机位置矩阵，

表示t次采样结果计算出相机朝向矩阵，i表示第i次采样。对于不确定度而言，假设采样结果满足单峰的高斯分布，矩阵的轨迹tr(A)是矩阵A主对角线元素的总和，具有旋转不变性，可以有效地表示高斯分布的不确定性，因此定位结果的不确定度可以通过单峰高斯分布的协方差矩阵的迹表示，则定位结果的可靠性呗定位为：

其中

为定位结果的不确定度，

为相机位置矩阵C的协方差，

为相机朝向矩阵的协方差，j为协方差矩阵主对角线元素的行号和列号。

本发明使用可学习权重的加权损失函数，假设输入图片的相机姿态为p＝[t,q]，模型预测的相机姿态为

其中三元组

表示相机的位置，四元组

表示相机的朝向。

其中L表示损失函数，t和q分别表示输入图片的相机位置和朝向的真值，

则是对应的越策结果，γ是距离范数，此处令γ＝2。

和

分别表示为位置和朝向预测的不确定度，定义为自然数指数的形式能够保证不确定度始终为正数。

和

是可学习参数，能通过网络训练过程中学习合适数值，自动平衡位置和朝向的学习。

和

初始值设为0.0和-3.0。

本发明采用ResNet34用作特征提取器。提出的多层融合的双线性池化模块替换ResNet34网络中最后一个卷积层之后的全局平均池化层和全连接层作为特征嵌入模块，并使用来自最后三个残差块conv5_1,conv5_2和conv5_3的特征图作为模块的输入,将ResNet34网络中softmax分类层替换为本发明提出的基于随机采样的姿态回归层，姿态回归层在训练时只进行一次随机采样并回归，在测试时进行本发明中提出的基于随机采样的姿态回归并计算不确定度,完整的网络结构如图3所示。在该多层融合双线性池化模块中，设置超参数d＝8192和n＝2048,即此模块生成2048维特征向量，随机采样次数t设置为100。训练完成的模型可被用于输入图像的相机姿态估计。使用Places数据集的预训练权重进行初始化，利用采集的训练集数据集进行训练，测试集进行测试。使用PyTorch来实现算法模型，使用学习速率为5e^-4且权重衰减为5e^-4的SGD优化器，使用11GB的NVIDIA RTX 2080Ti上进行训练，batch size设为64，将输入图像重新缩放为256×256像素，并使用从ImageNet数据集计算出的均值和标准差进行归一化。在训练时使用随机裁剪，而在测试时使用中心裁剪；完成模型训练之后，只需保存模型即可完成对场景中任意的输入图像进行相机姿态估计。

本发明提出的方法在公开的室外数据集Cambridge Landmarks和室内数据集7Scenes是目前单目视觉定位方法中性能最优的方法，表1和表2分别是当前主流的深度学习视觉定位方法模型PoseNet、Beyasian PoseNet、PoseLSTM、PoseNet(learn weight)、Geometirc PoseNet、MapNet以及本发明提出的模型在不同场景下相机位置和朝向预测精确度的比较结果，相机位置的单位为米(m)，相机朝向的单位为度(°)。在室外数据集Cambridge Landmarks中，本发明在相机位置和朝向精确度两个指标中均为最优的结果，而在室内数据集7Scenes中，相机位置的精确度在“Office”场景下略弱于GeometricPoseNet，在“Chess”和“Office”两个场景下略弱于MapNet，相机的朝向准确度的在“chess”、“offcie”、“Pumpkin”和“Red Kitchen”场景下弱于MapNet，但是GeometricPosNet在训练时需要点云模型而MapNet需要输入图像对，本发明的方法只需要输入一张图片且本发明的相机位置和朝向精确度在所有只需要一张图片的模型中均为最优的。通过对特征图激活的可视化可以发现本发明方法能够使得特征图的激活集中在对于视觉定位任务而言相关的视觉区域，而不会错误地激活在草地、树木、天空等对定位而言不相关的视觉区域，提高了视觉定位结果的可靠性和精度。此外，本发明提出的可靠性感知的姿态回归层不仅可以减少模型过拟合风险，还能对预测结果进行不确定度预测，对不可靠预测起到风险提示的作用。相比现有方法，本发明有更高的精确度，同时在特征嵌入和姿态回归层保证了网络预测的可靠性并能够给出预测结果的不确定度。

表1不同方法在Cambridge landmarks数据集的性能对比

表2不同方法在7Scenes数据集的性能对比

Claims

1.一种基于增强可靠性的单目视觉定位方法，其特征在于，包括以下步骤：

(3)使用一个可靠性感知的姿态回归层，从特征向量随机采样t组特征向量并输入到全连接的回归层输出t组3维向量和t组4维向量，计算t组向量的均值和协方差得到3维均值向量、4维均向量值、维度为3x3的协方差矩阵和维度为4x4的协方差矩阵，3维均值向量和4维均值向量作为分别表示拍摄图像的相机在场景中的位置和朝向，3x3协方差的迹为位置的不确定度，4x4协方差的迹为朝向的不确定度；此外，根据单位四元数的定义，对表示相机朝向的4维向量最后需要进行L2-Normalize操作使得4维向量的2范数为1，完成视觉定位任务；

所述步骤(2)具体实现包括：

其中，x是CNN输出的特征图，z是双线性池化从特征图x聚合得到的特征向量，U,V为低秩投影矩阵，将分解的双线性特征聚合方法应用于两种不同特征的融合，提出一个多层融合的双线性模型，多层融合的双线性模型通过将ResNet34最后残差块conv5_3输出的双线性特征与前两个残差块conv5_1和conv5_2输出的特征进行双线性融合得到多层融合的双线性特征；利用最后一层的双线性特征与相对浅层的特征进行双线性特征融合以保证能够学习到更多与任务相关的特征；最后使用一个投影矩阵将融合特征投影到特定维度的特征空间,用于相机姿态回归，完整的多层融合的双线性模型写成：

其中，χ,γ,

分别是ResNet34最后三个残差块conv5_3、conv5_2和conv5_1输出的特征图，P是用于特征嵌入的投影矩阵，concat表示级联操作，U，V，S，D分别是特征图的投影矩阵，利用多层双融合的线性模型从特征图中嵌入得到特征向量。

2.根据权利要求1所述的一种基于增强可靠性的单目视觉定位方法，其特征在于，所述步骤(1)具体实现过程包括：

首先对输入图像进行预处理,即将输入图像所有像素值除以255,使得所有像素值的取值范围为[0,1],然后减去从ImageNet数据集上计算的均值，再除以从ImageNet数据集上计算的方差,最后将输入图像的大小调整为256x256输入到特征提取网络中，使用去除全局平均池化和Softmax分类层的ResNet34作为特征提取网络，256x256输入图像经过第一个卷积层conv1输出128x128特征图，后续四个卷积层conv2-5由基础残差块串联组成，基础残差块是由两个3x3卷积组成的残差块，卷积层conv2包含两个基础残差块，输入128x128的特征图输出64x64特征图，卷积层conv3包含四个基础残差块，输入64x64的特征图输出32x32特征图，卷积层conv4包含六个基础残差块，输入32x32的特征图输出16x16特征图，卷积层conv5包含四个基础残差块，输入16x16的特征图输出8x8特征图。