CN114022527A

CN114022527A - 基于无监督学习的单目内窥镜深度及位姿估计方法及装置

Info

Publication number: CN114022527A
Application number: CN202111221629.5A
Authority: CN
Inventors: 李强; 张叶荻; 石洪宽
Original assignee: Huazhong University of Science and Technology; Wuhan United Imaging Zhirong Medical Technology Co Ltd
Current assignee: Huazhong University of Science and Technology; Wuhan United Imaging Zhirong Medical Technology Co Ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-02-08

Abstract

本发明公开了一种基于无监督学习的单目内窥镜深度及位姿估计方法及装置，属于计算机视觉的三维重建技术领域，本发明首先得到深度估计网络输出的深度估计、位姿估计网络输出的相机位姿估计以及待测图像前后的相邻帧，然后通过视图合成得到目标图像；再根据目标图像与待测图像的损失函数，训练深度估计网络和位姿估计网络，从而实现单目内窥镜深度及位姿估计。如此，本发明将无监督深度学习的方法应用于单目内窥镜图像的三维重建，在推理时实现实时处理。同时，本发明使用光度重建损失、块间匹配相似性和平滑性损失三项误差函数，提升网络应对内窥镜图像的光照、纹理、遮挡等问题的鲁棒性。

Description

基于无监督学习的单目内窥镜深度及位姿估计方法及装置

技术领域

本发明属于计算机视觉的三维重建技术领域，更具体地，涉及一种基于无监督学习的单目内窥镜深度及位姿估计方法、装置、终端设备及可读存储介质。

背景技术

内窥镜图像的稠密三维重建能够预测图像中的每个像素点的深度，位姿估计能够预测每帧图片被拍摄时对应的相机空间位置。在图像引导的微创手术中，对内窥镜图像进行稠密重建和位姿估计是一项关键技术。

然而，单目图像的传统三维重建算法，例如运动恢复结构(Structure fromMotion)，应用于单目内窥镜图像的重建时存在若干缺陷。第一，传统重建算法是基于特征点的提取与匹配实现的，只能求解特征点的深度，因此只能进行稀疏重建。第二，传统重建算法的特征点匹配步骤涉及大规模非线性优化问题的求解，计算量大，应用于高帧率的内窥镜视频难以实现实时重建。第三，传统重建算法通常假设重建场景静止不变且表面具有朗伯反射效应。但在内窥镜手术中，由于手术器械与组织的存在，场景不会保持静止，组织表面也因为点光源照射而可能发生镜面反射。第四，与日常场景的日光照明不同，内窥镜手术场景由附于内窥镜上的灯提供照明。当内窥镜运动时，照明灯随之运动，导致内窥镜图像的照明光源不固定，场景的明暗程度也不稳定。图片亮度不一致使传统重建算法中的特征点匹配步骤的难度增大。因此，应用传统重建算法难以对内窥镜手术场景进行实时且稠密的三维重建。

近年来有研究者提出使用深度学习进行实时稠密三维重建与位姿估计。基于深度学习的单目重建方法通常需要大量深度标签进行训练。在内窥镜手术中，获取深度真值需要昂贵的传感器和严格的校准，且在临床手术中增添侵入性设备会额外增加患者的痛苦，所以获取有监督单目内窥镜图像数据的难度较高。除此之外，还有一部分基于深度学习的重建方法需要双目图像数据，使用双目图像中的视差信息预测深度。但是，在当前大多数基层医院中，单目内窥镜手术远多于更昂贵的双目内窥镜手术。因此，有监督单目重建算法和双目重建算法在内窥镜手术领域中的应用有限。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提出了一种基于无监督学习的单目内窥镜深度及位姿估计方法、装置、终端设备及可读存储介质，目的是在没有深度或位姿标签的情况下，使用单目图像序列训练，获得能实时重建单目内窥镜图像的深度及位姿估计模型。

第一方面，本发明提供了一种基于无监督学习的单目内窥镜深度及位姿估计方法，包含以下步骤：

S1，获取通过单目内窥镜采集的体内组织的视频数据集；

S2，从所述视频数据集中按照时间顺序抽取图像，将t时刻的图像I_t输入深度估计网络，得到深度估计图

将t时刻及t+1时刻的图像{I_t,I_t+1}输入位姿估计网络，得到从t时刻到t+1时刻的相机位姿变换

将t时刻及t-1时刻的图像{I_t-1,I_t}输入位姿估计网络，得到从t-1时刻到t时刻的相机位姿变换

S3，基于

和

以图像I_t+1为参考图像，通过视图合成得到目标图像

基于

和

以图像I_t-1为参考图像，通过视图合成得到目标图像

S4，根据目标图像

与图像I_t的损失函数，训练所述深度估计网络和位姿估计网络；并利用训练后的深度估计网络和位姿估计网络进行单目内窥镜深度及位姿估计。

进一步地，所述损失函数

表示为：

其中，

表示光度重建损失、

表示块间匹配相似性、

表示平滑性损失，λ₁,λ₂,λ₃分别为光度重建损失、块间匹配相似性和平滑性损失的权重。

进一步地，所述光度重建损失

表示为：

其中，pe(·)为光度重建误差函数，M为掩膜，

SSIM(A,B)表示图像A和B结构相似性，‖A-B‖₁表示图像A和B的像素之差的L1范数，α为权重系数。

进一步地，所述块间匹配相似性

表示为：

其中，N_x,y表示块状区域，(x,y)表示像素点的横纵坐标。

进一步地，所述平滑性损失

表示为：

其中，

是各像素深度估计

除以整张图像的深度估计平均值

的结果，(x,y)表示像素点的横纵坐标。

进一步地，所述深度估计网络的编码器为残差神经网络，解码器包括若干卷积层。

进一步地，所述位姿估计网络的编码器为残差神经网络，解码器包括若干卷积层和卷积长短期记忆层。

第二方面，本发明提供了一种基于无监督学习的单目内窥镜深度及位姿估计装置，包括：

获取单元，用于获取通过单目内窥镜采集的体内组织的视频数据集；

处理单元，用于从所述视频数据集中按照时间顺序抽取图像，将t时刻的图像I_t输入深度估计网络，得到深度估计图

以及基于

和

以图像I_t+1为参考图像，通过视图合成得到目标图像

基于

和

以图像I_t-1为参考图像，通过视图合成得到目标图像

以及根据目标图像

第三方面，本发明提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明首先得到深度估计网络输出的深度估计、位姿估计网络输出的相机位姿估计以及待测图像前后的相邻帧，然后通过视图合成得到目标图像；再根据目标图像与待测图像的损失函数，训练深度估计网络和位姿估计网络，从而实现单目内窥镜深度及位姿估计。如此，本发明将无监督深度学习的方法应用于单目内窥镜图像的三维重建，在推理时实现实时处理。

(2)本发明结合卷积神经网络与循环神经网络，使网络能够同时提取时序图像数据中的结构和时序信息。

(3)本发明使用光度重建损失、块间匹配相似性和平滑性损失三项误差函数，提升网络应对内窥镜图像的光照、纹理、遮挡等问题的鲁棒性。

附图说明

图1是本发明实施例提供的深度估计网络和位姿估计网络的结构示意图；

图2是本发明实施例提供的卷积长短期记忆神经元的结构示意图；

图3是本发明实施例提供的光度重建损失的计算过程示意图；

图4是本发明实施例提供的深度估计结果图；

图5是本发明实施例提供的位姿估计结果图；

图6是本发明实施例提供的一种基于无监督学习的单目内窥镜深度及位姿估计装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。此外，以下所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明提供了一种基于无监督学习的单目内窥镜深度及位姿估计方法，该估计方法包括操作S1-操作S4。

S1，获取通过单目内窥镜采集的体内组织的视频数据集；

S3，基于

和

以图像I_t+1为参考图像，通过视图合成得到目标图像

基于

和

以图像I_t-1为参考图像，通过视图合成得到目标图像

S4，根据目标图像

具体而言，分为以下两部分进行描述：

一、网络架构

本发明主要由两个网络组成。如图1所示，图1上方的网络为深度估计网络，输入为一张内窥镜图像，输出为对应的深度估计图。深度估计网络由深度编码器和深度解码器两部分组成。深度编码器为50层的残差神经网络，用于从RGB图片中提取特征；深度解码器由5层卷积层组成，用于将编码器提取的特征映射为与输入图片尺寸相同的深度估计图。

图1下方的网络为相机位姿估计网络，输入为两张相邻的内窥镜图像，输出为对应的位姿变换估计，即拍摄这两张图片间相机的旋转与位移。相机位姿估计网络由位姿编码器和位姿解码器两部分组成，它们不与深度估计网络共享权重。位姿编码器同样使用50层的残差神经网络，用于从RGB图片中提取特征。位姿解码器由一层卷积层和三层卷积长短期记忆层组成。

单个卷积长短期记忆神经元的结构如图2所示，其表达式如下。

其中，*是卷积算子，

是哈达玛积算子,σ和tanh分别表示Sigmoid和双曲正切激活函数。i,x,h,f,o,c分别表示输入门向量、输入向量、隐藏层向量、遗忘门向量、输出门向量、状态单元，其下标表示时刻。W是由下标指示的二者间的连接权重，b是偏置，它们的值是训练模型时逐渐优化确定的。

通常情况下，位姿估计网络由卷积神经网络构成，而卷积神经网络只能提取空间结构信息，无法挖掘利用数据中的时序信息。本发明的输入数据通常是单目内窥镜视频，具有时序的性质。又因为内窥镜手术场景的范围有限，单目内窥镜视频的相邻帧之间有较大的重合区域，所以输入数据中存在时序信息。因此本发明采用了循环神经网络作为位姿估计网络的解码器。具体地，位姿估计网络的解码器是卷积长短期记忆网络(ConvolutionalLong Short-Term Memory,ConvLSTM)，其中的记忆单元可以保存时序图片中来自前几帧的信息，从而利用输入数据中的时序信息。

除此之外，与自然语言处理的普通长短期记忆网络不同，本发明采用了卷积长短期记忆网络。自然语言处理中的普通长短期记忆网络只能处理一维数据，如果直接将其应用于计算机视觉任务，需要将二维图像数据降维为一维数据，这将导致二维图像中像素的位置信息部分丢失，网络提取空间信息的能力降低。如[1]式和图2所示，卷积长短期记忆网络中的神经元使用卷积运算处理输入图像，可以直接处理二维图像数据。因此，本发明使用卷积长短期记忆网络作为位姿估计网络的解码器，提取输入数据中的时序和空间信息。

训练中，若干帧连续的图片被划为一组，按照时间顺序输入位姿估计网络，它们之间的时序信息通过三层卷积长短期记忆层的记忆单元依次传递；其中任意时刻的训练都按照下文描述的步骤进行。

二、训练步骤

如图1所示，本发明所提出的网络训练主要分为数据增强、预训练模型加载、深度及位姿估计，视图合成和损失函数计算五个步骤：

1、数据增强

本发明使用单目腹腔图像作为数据集，并进行了数据增强。具体的数据增强方法包括：随机水平翻转，亮度、对比度、饱和度及色调的随机变化。

2、预训练模型加载

训练前，本发明加载50层的残差神经网络在ImageNet上预训练的权重作为初始权重。

3、深度及位姿估计

训练时，首先将训练数据输入上述的深度估计网络和位姿估计网络，得到一组深度和位姿估计值。具体地，将t时刻的图片I_t输入深度估计网络，得到其深度估计图

将t时刻的图片及其相邻的t+1时刻的图片{I_t,I_t+1}输入位姿估计网络，得到从t时刻到t+1时刻的相机位姿变换

将t时刻的图片及其相邻的t-1时刻的图片{I_t-1,I_t}输入位姿估计网络，得到从t-1时刻到t时刻的相机位姿变换

4、视图合成

如图1的“视图合成”箭头所示，合成目标图片需要三方面的信息：深度估计网络输出的深度估计，位姿估计网络输出的相机位姿估计，以及目标图片前后的相邻帧。具体地，本发明利用前一步骤估计的深度

和位姿变换

将t+1时刻的图片I_t+1作为参考图片，通过视图合成得到合成的目标图片

令p_t为目标图片中像素的齐次坐标，K为相机内参矩阵。根据视图合成的原理，通过如[2]式所示的计算，可以获得p_t在参考图片I_t+1上的投影坐标p_t+1：

由于p_t+1不一定为整数，本发明采用双线性可微采样法在参考图片中索引像素颜色值，线性插值4个临近像素(左上、右上、左下和右下)的颜色值作为最终结果，填充到合成的目标图片的p_t像素坐标。依次计算目标图片所有像素的颜色值，即可合成得到完整的目标图片

同理，利用

和

将t-1时刻的图片I_t-1作为参考图片，可以得到合成的目标图片

5、损失函数计算

为了评估上一步合成图片的准确性，需要将合成的目标图片

与真实图片I_t相比较，计算损失函数，如图1中的双向箭头所示。损失函数由三部分组成，即光度重建损失

块间匹配相似性

和平滑性损失

λ₁,λ₂,λ₃分别为光度重建损失、块间匹配相似性和平滑性损失的权重。

λ₁＝1,λ₂＝0.05,λ₃＝0.001 [4]

下面我们逐一描述三项误差函数。

[3]式中的

是光度重建损失，如[5]式所示。

其中，pe(·)为光度重建误差函数，也就是合成图片与真实图片的像素之差的L1范数，与其结构相似性(Structural Similarity，SSIM)的加权和。

如[5]式和图3左侧所示，本发明只取

中的最小值作为光度重建损失。即，在分别由I_t-1,I_t+1作为参考图片合成的两张目标图片

中，只有合成较好者被计入光度重建损失。当一张参考图片噪声较大时，根据该参考图片合成的目标图片噪声也较大，本发明则选择另一张噪声较小的合成图片计入光度重建损失。因此，取最小值操作有助于提升网络的抗噪声干扰性能。

如[5]式和图3右侧所示，光度重建损失是光度重建误差函数的最小值乘掩膜M。掩膜M是与输入图像同尺寸的布尔矩阵，决定每个像素是否被计算入光度重建损失。

如果合成图片的光度重建误差

比I_t-1,I_t+1的光度重建误差大，意味着目标图片I的某些像素很可能在t-1,t+1时刻被遮挡，从而无法在目标图片中被正确合成，这些像素应当被尽量排除。因此，本发明通过掩膜M将这些像素排除在光度重建误差的计算之外。如图3右侧所示，将掩膜M与合成的目标图片相乘后，黑色像素在计算光度重建损失时被排除。

[3]式中的

是块间匹配相似性，它考虑16×16像素的块状区域N_x,y的重建效果。计算块间匹配相似性时，先将合成图片与真实图片都划分成16×16像素块状区域，然后计算对应区块的零均值归一化互相关(Zero Mean Normalized Cross-Correlation，ZNCC)。

零均值归一化互相关取值于[-1,1]，值越大越准确。为了使零均值归一化互相关转换为损失函数，本发明对零均值归一化互相关进行了线性变换得到

如[9]式所示。

由于块间匹配相似性评估的是合成图片的块状区域的正确性，它考虑了单个像素的邻域信息。单目内窥镜图像通常包含许多血管和组织的纹理，这类纹理区域的像素值存在局部的剧烈变化，而其对应的深度值较平滑。块状区域的匹配相似性要求整块区域的合成尽量正确，而不严格惩罚单个像素有微小偏移的情形。因此，块间匹配相似性损失提高了网络处理纹理丰富的区域的鲁棒性，补充了光度重建损失仅独立地考虑单个像素的局限性。

另外，如[8]式所示，零均值归一化互相关是数据零均值化后的互相关值。对图像进行零均值化可以减小不一致的光照对网络的干扰。当图像明暗程度有整体性变化时，合成图片像素值可能比真实图片整体偏大；但是如果它们仅差相同的常数，则说明合成图片是正确的，零均值化能避免惩罚这种正确情形。

[3]式中的

是平滑性损失，它鼓励较为平滑的深度估计。

其中，

是各像素深度估计除以整张图片的深度估计平均值的结果。

将深度估计除以其平均值可以避免网络收敛到

的平凡解。

根据上述损失函数，使用梯度下降法同时训练深度估计网络和位姿估计网络，最终得到深度和位姿估计模型。

为进一步验证本发明的实用性和有效性，在本发明实施例中，以单目腹腔内窥镜图像作为数据集，使用留一法划分训练集和测试集。本发明在训练集上训练得到深度估计模型和位姿估计模型。使用训练得到的模型对测试集进行预测，可以得到一组预测结果。为了量化评估本发明的效果，将达芬奇手术机器人记录的相机位姿和由结构光方法获得的深度图作为参考标准，与模型的估计值进行比较。评价单目深度及位姿估计质量的常用指标如表1所示。

表1深度及位姿估计质量的评价指标及其公式

按照表1列举的评价指标，可以计算得到深度估计的质量指标如表2所示，位姿估计的质量指标如表3所示。表2、表3同时给出了自动驾驶领域的经典无监督单目三维重建算法Monodepth2在本医学图像问题中的表现。由表2、表3可知，本发明在这一任务上的表现优于经典算法Monodepth2。

表2本发明与经典算法的深度估计结果比较(单位：毫米)

表3本发明与经典算法的位姿估计结果比较(单位：毫米)

深度估计的可视化结果如图4所示，深度真值与深度估计均使用灰度表示深度大小，颜色越深的区域表示深度越大，颜色越浅的区域表示深度越小。图4展示的深度估计图中基本不存在从输入图片中错误继承的伪影，这符合前文所述的本发明优势。除深度估计以外，位姿估计的可视化结果如图5所示，位姿估计与位姿真值也基本相符。

对应于上文实施例所述的基于无监督学习的单目内窥镜深度及位姿估计方法，图6示出了本申请实施例基于无监督学习的单目内窥镜深度及位姿估计装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图6，该装置600包括：

获取单元601，用于获取通过单目内窥镜采集的体内组织的视频数据集；

处理单元602，用于从所述视频数据集中按照时间顺序抽取图像，将t时刻的图像I_t输入深度估计网络，得到深度估计图

以及基于

和

以图像I_t+1为参考图像，通过视图合成得到目标图像

基于

和

以图像I_t-1为参考图像，通过视图合成得到目标图像

以及根据目标图像

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

本发明实施例还提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。