CN117152198A

CN117152198A - 一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法

Info

Publication number: CN117152198A
Application number: CN202311111825.6A
Authority: CN
Inventors: 刘博�; 李波剑; 罗晓燕; 周付根
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-01

Abstract

本发明公开了一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法，属于计算机视觉三维重建技术领域。本发明利用一个基于本征图像分解理论设计的分解网络，将图像分解到两个子空间：反射率和阴影。通过这种方式，将图像中光照变化的部分分离到阴影图中，然后对两个子空间进行合成与调整，利用合成图像与目标图像的相似性，约束网络训练。本发明使用深度估计网络、姿态估计网络、图像分解网络、光照调整网络四个神经网络以及重建损失、反射率损失、结构一致性损失、平滑性损失四项损失函数，有效提升了单目内窥镜深度估计方法的鲁棒性。

Description

一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法

技术领域

本发明涉及计算机视觉领域，更具体的说，涉及一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法。

背景技术

微创手术(MIS)具有创伤面积小、伤口愈合快的潜在优势，在临床手术中得到了广泛的应用。微创手术一般通过内窥镜进行诊断和治疗，如腹腔镜、胃镜等。然而，内窥镜成像在外科手术中存在着空间感知不足的问题。增强现实导航系统是解决这一问题的有效方法，它可以为医生提供额外的解剖和位置信息。此类系统通常需要将术前数据(如CT扫描)与术中视频数据进行配准。这种配准算法的准确性主要取决于内窥镜视频的三维重建的质量，它要求三维重建应该十分准确且足够密集。而深度估计是三维重建中最重要的一环，因此，内窥镜的深度估计具有十分重要的研究意义。

目前，术中所用内窥镜大多为单目相机，且内窥镜成像中存在镜面反射、光线变化和组织变形等一系列问题。因此，对单目内窥镜图像进行深度估计并不容易。现有的单目深度估计方法大都依赖光照一致性假设，这个假设在内窥镜成像过程中不再成立，因此，现有方法不能很好地直接应用在内窥镜图像上。

发明内容

为解决现有技术中存在的缺陷，本发明利用本征图像分解理论分离出光照变化量来解决光照一致性假设不成立的问题。

一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法，包括以下步骤：

步骤1：对单目内窥镜拍摄的视频进行采帧获得图像序列，取图像序列中的一帧作为目标图像I_t，上下两帧作为源图像I_s。取完所有图像序列，获得N个这样的图像对。

步骤2：搭建深度估计网络Φ_D，位姿估计网络Φ_T，分解网络Φ_R，光照调整网络Φ_L。将图像I_t输入深度估计网络Φ_D，得到其对应的深度图D_t；将I_t与I_s输入位姿估计网络Φ_T，得到I_t与I_s之间相机的姿态变换矩阵T_s→t；将I_t与I_s输入分解网络Φ_R，分别得到各自的反射率图A_t,A_s和阴影图S_t,S_s。

步骤3：利用A_t,S_t重建I_t,利用A_s,S_s重建I_s，计算重建损失L_r。利用估计的深度图D_t和姿态变换矩阵T_s→t得到相邻帧的扭曲变化T_warp。利用T_warp从A_s中得到A_s→t，与A_t计算反射率损失L_a。利用T_warp从S_s中得到S_s→t，从I_s中得到I_s→t,将I_s→t与I_t的差异输入光照调整网络Φ_L得到L_adjust，然后利用L_adjust，S_s→t，A_s→t重建I_t，由此计算结构一致性损失L_c。最后引入平滑损失函数L_s确保非边缘区域的平滑。基于上述损失函数进行网络训练，迭代至模型收敛。

步骤4：将单目图像输入训练好的深度估计网络Φ_D即可输出逐像素的深度图。

进一步的，步骤3中计算重建损失L_r，包括：利用A_t,S_t重建I_t,利用A_s,S_s重建I_s，计算重建误差：

其中，为重建图像，计算公式为：/>a为权重系数，SSIM是一种衡量两幅图相似性的指标，定义如下：

其中，μ_x是x的平均值，μ_y是y的平均值，σ_x是x的标准差，σ_y是y的标准差，σ_xy是x和y的协方差，c₁,c₂和c₃为超参数。

进一步的，步骤3中计算相邻帧的扭曲变化T_warp，包括：

首先，基于预测的深度图D_t和相机的姿态变换矩阵T_t→s，再利用已知的相机内参矩阵K，可以得到目标图像I_t与源图像I_s中一系列匹配的像素点{p_t,p_s},如(3)式所示：

p_s～KT_t→sD_t(p_t)K^-1p_t (3)

然后通过图像插值根据这些匹配点即可获得相邻帧的扭曲变化T_warp。

进一步的，步骤3中的计算反射率损失L_a，包括：利用T_warp，从A_s中得到A_s→t，计算A_s→t与A_t的相似性：

L_a(A_t,A_s→t)＝||A_t-A_s→t||₁ (4)。

进一步的，步骤3中的计算结构一致性损失L_c，包括：利用T_warp从I_s中得到I_s→t,将I_s→t与I_t的差异输入光照调整网络Φ_L得到L_adjust，然后利用T_warp从S_s中得到S_s→t，从A_s中得到A_s→t，利用L_adjust，S_s→t，A_s→t重建I_t，计算重建误差：

其中，

进一步的，步骤3中的平滑度损失L_s根据(6)式得到：

其中，和/>分别为图像I_t和其对应深度图D_t的梯度图。

进一步的，自动掩膜策略过滤无效像素，包括：使用,0,值在相邻帧的扭曲变化T_warp时填充未知区域。这些零填充区域用作掩膜，该掩膜会过滤掉无效像素，防止他们被计算在损失函数中。

M_a＝[I_s→t>0] (7)

进一步的，总的损失函数为：

其中λ_c,λ_a,λ_r和λ_s是相关损失函数的权重。

由该方法训练出的深度网络Φ_D即可用来进行单目图像的深度估计。

本发明的有益效果如下：

本发明引入了一个基于本征图像分解理论设计的分解网络，将图像中的光照变化量分离到阴影图中，而剩下的反射率图近似满足光照一致性假设。通过对阴影和反射率进行合成与调整，利用合成图像与目标图像的相似性，约束网络训练。通过这种方式，可有效解决内窥镜成像中存在的光照一致性假设不成立的问题，提高复杂光照条件下的深度估计效果，实现内窥镜场景下鲁棒的单目深度估计。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述的附图是本发明的一种实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种方法流程图；

图2为本发明实施例的网络框架结构示意图；

图3为本发明实施例的深度估计结果示例。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本方法包括如下4个步骤。

深度估计网络Φ_D要求预测每个像素点的深度，预测的是像素级别的几何因子，因此采用一个编解码网络，编码网络和解码网络通过跳跃连接逐层连接起来。给定一副输入图像I_t，它对应的深度图D_t由公式(1)计算。

式中的a,b为缩放因子，将最终的深度图缩放到合适范围。根据内窥镜数据集真实情况，我们将最终深度缩放到[0.1mm,,150mm]。

位姿估计网络Φ_T用来估计I_t与I_s之间相机的姿态变换，采用一个解码网络,输入层为两帧图像I_t与I_s，最后一层为6个输出通道的1×1卷积(对应于相机的3个欧拉角和3D平移)。

T_t→s＝Φ_T(I_t，I_s) (2)

分解网络Φ_R中反射率和阴影分支共享一个编码器。为了使阴影反应更详细的信息，阴影分支采用低维特征并叠加反照率解码器的输出以进行解码。

{A,S}＝Φ_R(I) (3)

光照调整网络Φ_L采用一个简单的卷积网络，以相邻两帧图像的差异作为输入，光照调整图为输出：

L_Adjust＝Φ_L(||I_t-I_s→t||₁) (4)

首先利用分解网络的输出计算重建损失L_r，公式如下：

其中，为重建图像，计算公式为：/>a为权重系数，实验中为0.8，SSIM是一种衡量两幅图相似性的指标，定义如下：

然后，基于预测的深度图D_t和已知的相机内参矩阵K，可以得到I_t中的像素p_t在三维空间中的坐标q_t＝D_t(p_t)K^-1p_t，然后利用位姿估计网络预测的相机运动矩阵T_t→s，将3D点云从t视角转换到另一视角s下，然后再乘以相机内参矩阵K将其从三维空间转换到s图像平面。整个过程可以由公式(7)表示：

p_s～KT_t→sD_t(p_t)K^-1p_t (7)

其中，p_t和p_s分别代表三维空间中同一个点在目标视角t和源图像视角s下的像素坐标。即得到了一系列匹配的像素点{p_t,p_s}，然后通过图像插值根据这些匹配点即可获得相邻帧的扭曲变化T_warp。

然后，利用T_warp从A_s中得到A_s→t，计算A_s→t与A_t的相似性，即反射率损失L_a：

L_a(A_t,A_s→t)＝||A_t-A_s→t||₁ (8)

利用T_warp从I_s中得到I_s→t,,将I_s→t与I_t的差异输入光照调整网络Φ_L得到L_adjust，如公式(4)所示。然后利用T_warp从S_s中得到S_s→t，从A_s中得到A_s→t，利用L_adjust，S_s→t，A_s→t重建I_t，计算结构一致性损失L_c：

考虑到深度估计问题中。除了遮挡边界，视差函数通常是平滑的，由此引入一种基于图像梯度加权的边缘感知深度平滑度损失函数，通过图像梯度的加权，保证了非边缘区域平滑的同时也避免了边缘的平滑。见式(12)：

为了防止错误的图像区域影响网络训练，采用自动掩膜策略过滤无效像素。使用,0,值在相邻帧的扭曲变化T_warp时填充未知区域，这些零填充区域用作掩膜，该掩膜会过滤掉无效像素，防止他们被计算在损失函数中。

M_a＝[I_s→t>0] (13)

由该方法训练出的深度网络Φ_D即可用来进行单目图像的深度估计。最终本方法训练网络的损失函数为：其中λ_c、λ_a、λ_r和λ_s是相关损失函数的权重。

整体网络构架如图2所示。

步骤4：对单目图像进行深度估计。将单目图像输入深度估计网络Φ_D即可输出逐像素的深度图，结果示例如图3所示。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，计算重建损失L_r，包括：利用A_t,S_t重建I_t,利用A_s,S_s重建I_s，计算重建误差：

3.根据权利要求1所述的方法，其特征在于，计算相邻帧的扭曲变化T_warp，包括：

p_s～KT_t→sD_t(p_t)K^-1p_t (3)

4.根据权利要求1所述的方法，其特征在于，计算反射率损失L_a，包括：

利用T_warp，从A_s中得到A_s→t，计算A_s→t与A_t的相似性：

L_a(A_t,A_s→t)＝||A_t-A_s→t||₁ (4)。

5.根据权利要求1所述的方法，其特征在于，计算结构一致性损失L_c，包括：

利用T_warp从I_s中得到I_s→t,将I_s→t与I_t的差异输入光照调整网络Φ_L得到L_adjust，然后利用T_warp从S_s中得到S_s→t，从A_s中得到A_s→t，利用L_adjust，S_s→t，A_s→t重建I_t，计算重建误差：

其中，

6.根据权利要求1所述的方法，其特征在于，计算平滑度损失L_s，包括：

其中，和/>分别为图像I_t和其对应深度图D_t的梯度图。

7.根据权利要求1所述的方法，其特征在于，自动掩膜策略过滤无效像素，包括：

使用,0,值在相邻帧的扭曲变化T_warp时填充未知区域。这些零填充区域用作掩膜，该掩膜会过滤掉无效像素，防止他们被计算在损失函数中。

M_a＝[I_s→t＞0] (7)。

8.根据权利要求1所述的方法，其特征在于，总的损失函数为：

其中λ_c,λ_a,λ_r和λ_s是相关损失函数的权重。