CN114399527A

CN114399527A - 单目内窥镜无监督深度和运动估计的方法及装置

Info

Publication number: CN114399527A
Application number: CN202210014288.2A
Authority: CN
Inventors: 王涌天; 刘诗源; 艾丹妮; 宋登攀; 杨健
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-04-26

Abstract

单目内窥镜无监督深度和运动估计的方法及装置，方法包括：(1)获取密集描述符图：对输入源‑目标图像对进行特征匹配，获得稀疏匹配点对；通过特征学习网络获取输入图像对应的密集描述符图；利用稀疏匹配点对和描述符图建立相对响应损失；(2)进行深度、位姿估计：对特征提取获得的密集描述符图执行密集特征匹配，获得N对密集匹配点对

深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿；为了给深度和位姿估计网络提供监督信号，描述符图和密集匹配点对

分别被用于构建特征一致性损失和对极几何一致性损失。

Description

单目内窥镜无监督深度和运动估计的方法及装置

技术领域

本发明涉及医学图像处理的技术领域，尤其涉及一种单目内窥镜无监督深度和运动估计的方法，以及单目内窥镜无监督深度和运动估计的装置。

背景技术

在微创手术(MIS)中，例如泌尿外科、腹部外科、胸外科等，外科医生通常需要使用医学内窥镜对体内解剖结构进行观察。然而，MIS中创口通常十分狭小，仅通过内窥镜提供的狭窄范围的视觉观察，外科医生依然难以进行精准的手术操作。幸运的是，基于内窥镜的手术导航系统能够为外科医生提供实时解剖结构和位置信息。但是，在这样的系统中，由于内窥镜成像通常会丢失三维结构信息，为了给医生提供更有效的手术指导，通常需要从术中内窥镜图像中恢复密集的3D信息以及内窥镜的相对位置。因此，有必要对内窥镜图像进行准确的图像深度和相机姿势估计，以便可以恢复丢失的3D信息和获得内窥镜的位置信息。

为了在用内窥镜进行观察的同时获得准确的深度和位姿信息，通常可以采用以下几种方法：利用双目视觉原理进行立体重构；利用结构光直接进行深度测量。与上述两种方法相比，直接通过单目内窥镜进行深度估计的方式具有硬件体积小、结构简单、成本低、便于集成到临床手术操作流程中等优点。然而，由于内窥镜图像通常具有镜面反射、光度不恒定、纹理较弱、图像扰动(烟、血等)、组织形变等特点。常用的基于内窥镜图像特征的深度测量方法，例如运动结构重建(SFM)、同时定位和映射(SLAM)通常难以获得稳定可靠的图像特征，从而在通过特征匹配和三角测量计算图像深度和相机位姿时失效。

近年来，深度学习已广泛应用于医学图像处理的各个方向。基于深度学习的内窥镜图像深度估计，通过端到端的网络模型能够进行密集的深度估计。然而，由于内窥镜图像所固有的光度不恒定、纹理较为相似等特点，在计算机视觉领域表现良好的基于视图合成的无监督单目深度估计方法，通常难以获得良好的深度估计。同时，Bian等人在室内视频无监督深度估计中指出，与计算机视觉领域汽车的运动相比，室内视频通常存在较多的相机旋转和较少的相机平移。在内窥镜视频中，相机的运动同样具有与室内视频相同的特点。Bian等人证明相机运动对于当前基于视图合成的无监督深度估计框架而言，相机旋转更像是噪声，而相机平移将有助于深度估计。两帧图像之间，相机平移量大小将影响深度估计的准确性，较大的平移量通常有助于获得更准确的深度估计。但是，较大的平移量意味着两帧图像光度差异也较大，这将违背视图合成方法关于光度恒定的假设。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种单目内窥镜无监督深度和运动估计的方法，其一方面解决了内窥镜图像光度不恒定、纹理相似造成深度估计失效的问题，另一方面允许采用更大的相机平移量所对应的两帧图像进行深度和位姿估计，提高预测精度。

本发明的技术方案是：这种单目内窥镜无监督深度和运动估计的方法，该方法包括以下步骤：

(1)获取密集描述符图：对输入源-目标图像对进行特征匹配，获得稀疏匹配点对；通过特征学习网络获取输入图像对应的密集描述符图；利用稀疏匹配点对和密集描述符图建立相对响应损失；

(2)进行深度、位姿估计：对特征提取获得的密集描述符图执行

密集特征匹配，获得N对密集匹配点对

分别被用于构建特征一致性损失和对极几何一致性损失。

本发明为学习密集特征描述符，搭建了特征学习网络Feat Net，并避免了卷积层所使用的Padding技术产生的棋盘伪影；通过学习获得的描述符在两帧图像之间，具有一定程度的稳定性，这一方面解决了内窥镜图像光度不恒定、纹理相似造成深度估计失效的问题，另一方面，这将允许采用更大的相机平移量所对应的两帧图像进行深度和位姿估计。提取的密集特征描述符可为深度估计提供监督信号，并通过在视频帧之间引入几何约束，将特征匹配和深度、位姿估计联合进行学习，提高所提出方法的预测精度。

还提供了单目内窥镜无监督深度和运动估计的装置，其包括：

密集描述符获取模块，其配置来对输入源-目标图像对进行特征匹配，获得稀疏匹配点对；通过特征学习网络获取输入图像对应的密集描述符图；利用稀疏匹配点对和密集描述符图建立相对响应损失；深度、位姿估计模块，其配置来对特征提取获得的密集描述符图执行密集特征匹配，获得N对密集匹配点对

分别被用于构建特征一致性损失和对极几何一致性损失。

附图说明

图1是根据本发明的单目内窥镜无监督深度和运动估计的方法的流程图。

具体实施方式

如图1所示，这种单目内窥镜无监督深度和运动估计的方法，该方法包括以下步骤：

(2)进行深度、位姿估计：对特征提取获得的密集描述符图执行密集特征匹配，获得N对密集匹配点对

分别被用于构建特征一致性损失和对极几何一致性损失。

优选地，所述步骤(1)中，采用端到端的特征学习网络，从源-目标输入内窥镜图像获得其对应的描述符图；特征学习网络Feat Net由两个权值共享的分支构成，网络的每一个分支采用残差块进行设计，其中编码器由一个卷积层和9个ResNet-v2块组成，从输入图像3×H×W经过两次平均池化层下采样，最终提取特征图C×H/4×W/4，其中H和W是输入图像的高度和宽度，C是提取特征图的通道数；解码器网络由三个卷积层组成，经过两次双线性上采样，最终获得L×H×W的密集特征描述符图，其中L是密集特征描述符的维数，L＝32。

优选地，所述步骤(1)中，在每一次卷积操作后，采用双线性插值的方法来保持卷积前后图像尺寸不变；同时在解码器中，采用卷积层和双线性上采样层来恢复图像尺寸；对描述符沿着通道进行L2归一化。

优选地，所述步骤(1)中，采用内窥镜图像特征匹配方法获得相邻帧之间的稀疏匹配点对

这些稀疏匹配点对被用于构建相对响应损失监督网络训练，对于输入的一对源图像I_s和目标图像I_t，特征描述符学习网络将会生成其对应的密集特征描述符图F_s和F_t，输入图像和密集描述符图大小分别为3×H×W和L×H×W，相对响应损失在数学上定义为：

其中R_t是响应图，表示F_s(x_s)与F_t上每个位置的相似度，计算两个描述符之间的欧氏距离平方作为其相似度评价指标，由于每个描述符已经被归一化为单位向量，描述符之间的欧式距离平方的计算简化为dist²＝(2-2cos(f₁,f₂))，其中f₁∈F_s,f₂∈F_t，为了避免距离范围过大，采用

将其归一化到[0,1]，然后对响应图进行softmax操作，同时，比例因子σ扩大了R_t的值域范围，使网络在学习的过程中更加关注相似度较大的区域，降低除真实位置的响应外的其他较大响应，并在一定程度上忽略已经存在较大差异的描述符。

优选地，所述步骤(1)中，取响应图R_t的最大值位置作为网络检测到的关键点x_det，对于k对稀疏匹配点对

L_RR＝λ_iL_rr (4)

其中，

是对

取平均值，将网络检测到的关键点和真实位置的距离，隐式地加权到相对响应损失中，错误匹配点对的权重将很小，网络将优化大多数正确匹配点对，从而有效避免了错误匹配点对的影响，加速网络收敛。

优选地，所述步骤(2)中，对于输入的源-目标图像对(I_s,I_t)，通过两个权值共享的分支网络分别预测出其深度图(D_s,D_t)，其中每个分支由编码器-解码器组成，编码器采用ResNet34，预测层的激活函数表示为：

其中x是预测层sigmoid激活函数的输出值，a＝(1/d_min-1/d_max),b＝1/d_max，d_min和d_max分别表示内窥镜图像的最小和最大深度，y是当前帧的预测深度；

利用没有遮罩预测分支的相对位姿估计网络PoseNet估计出输入图像对(I_s,I_t)的6DoF相对位姿

PoseNet由七个卷积层组成，网络的输出值乘以比例系数ρ用于限制输出值范围。

优选地，所述步骤(2)中，对于目标视图I_t中任一像素坐标ρ_t，假定在源视图中是可见的，则源视图中对应的像素坐标ρ_s由公式(6)确定

其中～表示齐次坐标相等，K_s和K_t是源视图和目标视图对应相机的内参矩阵，D_t(p_t)是目标视图中坐标点p_t处的深度。

优选地，所述步骤(2)中，通过公式(6)获得目标视图和源视图的坐标对应关系，对于特征描述符学习网络获得的源描述符图F_s和目标描述符图F_t，通过上述坐标对应关系利用双线性采样方法，从源描述符图F_s生成合成目标描述符图

然后，通过公式(7)最小化原始目标描述符图F_t和合成目标描述符图

之间的误差

其中M是二进制掩码，表示目标视图中的坐标点通过扭曲变换后是否落入源视图中的有效区域，可以通过扭曲变换确定；

然后，使用边缘感知的平滑度函数对深度图进行平滑度约束

其中

和

分别求x和y方向的导数，

是用于避免深度收缩的平均归一化逆深度；

在上述扭曲变换过程中对目标深度图进行变换合成源深度图

利用扭曲变换获得的坐标对应关系

对原始源深度图D_s进行采样获得采样源深度图D′_s，计算合成源深度图

和采样源深度图D′_s之间的一致性

M_diff＝1-D_diff (10)

对于源和目标输入图像之间的特征匹配点集

应该满足对极几何约束p′^TFp＝0，其中F＝K^-T[t]_×RK^-1是基本矩阵，[·]_×表示叉乘运算，因此，将网络估计的相对位姿T_t→s＝[R_t→s|t_t→s]∈SE(3)，结合特征匹配点集

建立对极损失函数如下:

其中dist(·,·)表示求点到直线的距离，Fp是对极线；

对于目标视图和源视图的特征匹配点集

建立S与重投影坐标点的误差函数，其中重投影坐标通过扭曲变换获得，重投影损失如下

优选地，所述步骤(2)中，每次使用3个视图，并对其两两之间都进行了损失的计算，首先令I₂为目标视图I_t，分别令I₁和I₃为源视图I_s，进行以上损失的计算，然后令I₁为目标视图I_t，令I₃为源视图I_s，最终损失函数L计算如下：

L＝k₁L_RR+k₂L_F+k₃L_s+k₄L_c+k₅L_epi+k₆L_reproject (14)

其中不同损失的权重k₁＝1,k₂＝1,k₃＝0.1,k₄＝2,k₅＝0.001,k₆＝0.001。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而所述的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。因此，与本发明的方法相对应的，本发明还同时包括一种单目内窥镜无监督深度和运动估计的装置，该装置通常以与方法各步骤相对应的功能模块的形式表示。该装置包括：

分别被用于构建特征一致性损失和对极几何一致性损失。

以下更详细地说明本发明的内容。

对于密集描述符获取模块，采用端到端的特征学习网络，从源-目标输入内窥镜图像获得其对应的描述符图。特征学习网络Feat Net由两个权值共享的分支构成，网络的每一个分支采用残差块进行设计。其中编码器由一个卷积层和9个ResNet-v2块组成，从输入图像3×H×W经过两次平均池化层下采样，最终提取特征图C×H/4×W/4。其中H和W是输入图像的高度和宽度，C是提取特征图的通道数。解码器网络由三个卷积层组成，经过两次双线性上采样，最终获得L×H×W的密集特征描述符图。其中L是密集特征描述符的维数，本文中取L＝32。

值得注意的是，卷积层所采用的，在图像边缘补零的填充技术，将会导致密集特征描述符图边缘区域产生棋盘伪影。为了避免在密集特征描述符图中产生棋盘伪影，卷积层不使用零来填充图像边缘，而是在每一次卷积操作后，采用双线性插值的方法来保持卷积前后图像尺寸不变。同时在解码器中，不使用反卷积层，而是采用卷积层和双线性上采样层来恢复图像尺寸。最后，为了避免图像亮度差异等影响，提高描述符的通用性，对描述符沿着通道进行了L2归一化。

直接采用内窥镜图像特征匹配方法获得相邻帧之间的稀疏匹配点对

进一步，这些稀疏匹配点对被用于构建相对响应损失监督网络训练。对于输入的一对源图像I_s和目标图像I_t，特征描述符学习网络将会生成其对应的密集特征描述符图F_s和F_t。输入图像和密集描述符图大小分别为3×H×W和L×H×W。相对响应损失在数学上定义为：

其中R_t是响应图，表示F_s(x_s)与F_t上每个位置的相似度，在本文中，计算两个描述符之间的欧氏距离平方作为其相似度评价指标。由于每个描述符已经被归一化为单位向量，描述符之间的欧式距离平方的计算可以简化为dist²＝(2-2cos(f₁,f₂))，其中f₁∈F_s,f₂∈F_t。实际上，为了避免距离范围过大，采用

将其归一化到[0,1]。然后对响应图进行了softmax操作，同时，比例因子σ扩大了R_t的值域范围，使网络在学习的过程中更加关注相似度较大的区域，降低除真实位置的响应外的其他较大响应，并在一定程度上忽略已经存在较大差异的描述符。

由于内窥镜图像的特殊性，将利用传统特征匹配方法获取的稀疏匹配点对，用作真实对应关系可能存在误差，这将影响网络对关键点进行精准定位。尤其是在两帧图像的光度差异较大时，可能存在错误匹配点对。为了避免错误匹配点对的影响，对相对响应损失进行了加权。取响应图R_t的最大值位置作为网络检测到的关键点x_det。对于k对稀疏匹配点对

L_RR＝λ_iL_rr (4)

其中，

是对

取平均值。将网络检测到的关键点和真实位置的距离，隐式地加权到相对响应损失中。错误匹配点对的权重将很小，网络将优化大多数正确匹配点对，从而有效避免了错误匹配点对的影响，加速网络收敛。

对于输入的源-目标图像对(I_s,I_t)，通过两个权值共享的分支网络分别预测出其深度图(D_s,D_t)。其中每个分支由编码器-解码器组成，编码器采用ResNet34。为了限制预测深度值的范围，预测层的激活函数表示为：

其中x是预测层sigmoid激活函数的输出值，a＝(1/d_min-1/d_max),b＝1/d_max。d_min和d_max分别表示内窥镜图像的最小和最大深度，y是当前帧的预测深度。

同时，利用没有遮罩预测分支的相对位姿估计网络PoseNet估计出输入图像对(I_s,I_t)的6DoF相对位姿T_t→s＝[R_t→s|t_t→s]∈SE(3)。PoseNet由七个卷积层组成，网络的输出值乘以比例系数ρ用于限制输出值范围。

对于目标视图I_t中任一像素坐标p_t，假定在源视图中是可见的，则源视图中对应的像素坐标p_s可以由以下方程式确定，该方程式确定了扭曲变换

通过上述扭曲变换方程式，可以获得目标视图和源视图的坐标对应关系。对于特征描述符学习网络获得的源描述符图F_s和目标描述符图F_t，通过上述坐标对应关系利用双线性采样方法，从源描述符图F_s生成合成目标描述符图

然后，通过以下方程式最小化原始目标描述符图F_t和合成目标描述符图

之间的误差

其中M是二进制掩码，表示目标视图中的坐标点通过扭曲变换后是否落入源视图中的有效区域，可以通过扭曲变换确定。

然后，使用边缘感知的平滑度函数对深度图进行平滑度约束。

其中

和

分别求x和y方向的导数，

是用于避免深度收缩的平均归一化逆深度。

由于深度估计网络每次进行深度预测时，只能估算当前帧的深度，为了使每一帧输入图像的估计深度具有一致性。在上述扭曲变换过程中我们对目标深度图进行变换合成源深度图

然后，利用扭曲变换获得的坐标对应关系

对原始源深度图D_s进行采样获得采样源深度图D′_s。最后，计算合成源深度图

和采样源深度图D′_s之间的一致性。

M_diff＝1-D_diff (10)

此外，由于无监督深度估计的复杂性，为了给深度和位姿估计提供更稳定有效的监督信号。对源和目标输入图像进行了对极几何一致性约束，使用对极损失和重投影损失对网络的位姿和深度估计进行了监督。

对于源和目标输入图像之间的特征匹配点集

应该满足对极几何约束p′^TFp＝0。其中F＝K^-T[t]_×RK^-1是基本矩阵，[·]_×表示叉乘运算。因此，可以将网络估计的相对位姿T_t→s＝[R_t→s|t_t→s]∈SE(3)，结合特征匹配点集

建立对极损失函数如下:

其中dist(·,·)表示求点到直线的距离，Fp是对极线。

对于目标视图和源视图的特征匹配点集

建立S与重投影坐标点的误差函数。其中重投影坐标可以通过扭曲变换获得。重投影损失如下

实际上，每次使用3个视图，并对其两两之间都进行了损失的计算。首先令I₂为目标视图I_t，分别令I₁和I₃为源视图I_s，进行以上损失的计算。然后令I₁为目标视图I_t，令I₃为源视图I_s。通过多个视图之间的损失计算，充分保证了深度预测的稳定性及深度一致性在视频序列间的传播。

总之，最终损失函数L计算如下：

L＝k₁L_RR+k₂L_F+k₃L_s+k₄L_c+k₅L_epi+k₆L_reproject (14)

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.单目内窥镜无监督深度和运动估计的方法，其特征在于：该方法包括以下步骤：

分别被用于构建特征一致性损失和对极几何一致性损失。

2.根据权利要求1所述的单目内窥镜无监督深度和运动估计的方法，其特征在于：所述步骤(1)中，采用端到端的特征学习网络，从源-目标输入内窥镜图像获得其对应的描述符图；特征学习网络Feat Net由两个权值共享的分支构成，网络的每一个分支采用残差块进行设计，其中编码器由一个卷积层和9个ResNet-v2块组成，从输入图像3×H×W经过两次平均池化层下采样，最终提取特征图C×H/4×W/4，其中H和W是输入图像的高度和宽度，C是提取特征图的通道数；解码器网络由三个卷积层组成，经过两次双线性上采样，最终获得L×H×W的密集特征描述符图，其中L是密集特征描述符的维数，L＝32。

3.根据权利要求2所述的单目内窥镜无监督深度和运动估计的方法，其特征在于：所述步骤(1)中，在每一次卷积操作后，采用双线性插值的方法来保持卷积前后图像尺寸不变；同时在解码器中，采用卷积层和双线性上采样层来恢复图像尺寸；对描述符沿着通道进行L2归一化。

4.根据权利要求3所述的单目内窥镜无监督深度和运动估计的方法，其特征在于：所述步骤(1)中，采用内窥镜图像特征匹配方法获得相邻帧之间的稀疏匹配点对