CN116452752A

CN116452752A - 联合单目稠密slam与残差网络的肠壁重建方法

Info

Publication number: CN116452752A
Application number: CN202310485321.4A
Authority: CN
Inventors: 蒋鑫; 丁一洲; 陈智超; 夏清玲; 肖汉光
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-07-18

Abstract

本发明涉及联合单目稠密SLAM与残差网络的肠壁重建方法，包括：S1、对单目肠道内窥镜图像进行预处理，具体包括图像去畸变、裁剪、缩放等操作，使其适合于后续的处理。S2、使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像。S3、通过C3DPO对图像序列进行形变分解，得到形变参数和姿态参数。S4、根据形变参数和姿态参数对深度图像进行形变校正和缩放校正，得到校正后的深度图像。S5、通过体积融合算法将不同视角下的深度图像融合，以构建三维肠壁图像。其中，步骤S2和步骤S3并行进行。本发明解决了由于自身蠕动和胶囊内窥镜挤压，致使肠道内壁形状不定的问题，且提高肠壁三维重建的准确性。

Description

联合单目稠密SLAM与残差网络的肠壁重建方法

技术领域

本发明属于肠道内窥镜图像处理技术领域，尤其是一种联合单目稠密SLAM与残差网络的肠壁重建方法。

背景技术

三维重建是计算机视觉技术中的一个重要分支，被广泛应用于检测和观察中。三维重建是将现实中的三维物体通过确定其相应的数学模型在计算机中显示出来，并可进行相应处理，完成其性质的分析等基本过程。肠壁重建主要是针对单目肠道内窥镜图像来进行肠道内壁三维重建过程。

三维重建作为当今社会的一项核心技术，可作用于一类具有共性的实际问题，应用场景十分广泛，包括医学图像处理、自动驾驶、文物修复等相关场景。例如，在医学图像处理中，三维重建利用医学成像设备获取的二维图像构建组织或者器官的三维几何模型进而提供更加清晰准确的病灶体现；在自动驾驶中，轻量级三维几何深度生成模型，可用于实时、在线的室外场景导航、建图和语义理解、生成、预测及臆想；在当今的文化遗产数字化保护领域，利用三维数字化扫描重建和虚拟现实技术已经成为主要的手段。

图像三维重建可分为传统处理方法和深度学习方法。传统处理图像的三维重建方法主要有：(1)基于光流的三维重建技术，先提取图像序列中运动物体或场景表面的图像特征，如图像中的角点、直线、曲线等、然后对提取的特征跟踪、匹配并计算出其对应的图像坐标变化，从而根据特征光流与三维运动和空间结构的投影关系重建三维运动与结构。由于只是采用图像序列中感兴趣的图像特征对物体或场景进行描述，基于光流的三维重建技术能够克服亮度突变现象对重建结果的影响。当图像序列中存在运动遮挡情况时，光流估计在遮挡区域会有较大误差。(2)基于明暗恢复法是计算机视觉领域从图像恢复三维形状的的经典算法，其利用单幅图像优化迭代进行三维形状重建，但是只能重建反照率一致的图像，且只对无投射阴影的图像有效。(3)基于光度立体技术(PMS)是基于非平面表面的多幅辐照度图像对物体表面形状进行重建，PMS扩展了SFS的约束条件，从3幅或者3幅以上的辐照度图像重建物体的三维结构，是基于图像的三维重建中较准确且可靠的技术。当空间三维场景被投影为二维图像时，同一景物在不同视点下的全图会有很大不同，而且场景中的诸多因数，如光照条件，景物几何形状和物理特性，噪声干扰和畸变以及摄像机特性等，都会对三维重建的效果产生很大的影响。

而对于使用内窥镜的三维重建方法，使用阴影形状或双目立体技术已被提出。然而，这些技术通常对处理的图像有着严格的假设。在一些技术上，需要专门的内窥镜，而且连接到镜头的单线激光扫描仪需要平行于目标，这限制了该技术的实用性。有研究人员使用SFS技术根据结肠表面的亮度重建了一小段肠壁，但当光源太靠近肠壁时，结果会变得不准确。有研究人员使用SFM方法从短帧序列中重建了一小部分3D肠内壁作为稀疏点。然而，SFM算法要求摄像机移动非常慢，不适合重建完整或大块的3D肠壁。

随着深度学习的发展，深度神经网络凭借其自动提取特征和强大的非线性映射能力被广泛应用于各领域，成为了图像处理的重要手段。有研究人员训练了一个深度卷积神经网络，使用模拟结肠镜数据集和地面真实摄像机运动进行姿态估计。有研究人员使用从一个虚拟合成的数据集来训练深度估计的深度网络。有研究人员训练了一个条件生成对抗网络pix2pix，使用从分割结肠CT模型生成的合成数据进行结肠镜图像三维重建。有研究人员利用光学结肠镜(OC)的纹理信息和虚拟结肠镜(VC)的几何信息训练了一个Cycle GAN，用于两个模态之间的有损的未成对的图像的平移。有研究人员利用通过SFM获得的稀疏重建，开发了一种多视角立体重建方法，可以从短序列的内镜图像中生成一小段肠壁图像。上述所有方法都只能重建肠壁结构的单个框架或非常小的部分。

基于深度学习的三维重建继承了图像三维重建成本低、应用场景广泛的特点，与此同时，通过使用深度神经网络，可直接估计相机到物体的距离，相比传统的SFM，计算过程耗时少，且重建效果更优。但是基于深度学习的三维重建方法的一大弊端是规模受限：loss的优化需要很大的算力消耗、数据集的采集也存在限制，这使基于深度学习的三维重建很难应用到大分辨率的场景。

深度学习对于训练的数据集合硬件要求比较高，所以对于三维重建还有很有待提升。传统的三维重建方法需要较多的人力资源进行监督；且由于自身蠕动和胶囊内窥镜挤压，致使肠道内壁形状不定，现有三维重建方法面对多个形状修改与生成任务时，无法精确地识别对象形状地几何与拓扑结构差异；出现精细的几何细节时，由于无法实现全局性操作，三维重建的准确性不够高；由于无法输出各个部件的关系，对3D形状的结构编号进行建模的难度较高；最终重建的模型中可能会有孔洞、纹理混叠、由于体素分辨率限制丢失很多细节等。

发明内容

本发明所要解决的技术问题是提供一种联合单目稠密SLAM与残差网络的肠壁重建方法，解决由于自身蠕动和胶囊内窥镜挤压，致使肠道内壁形状不定的问题，提高重建效果。

为解决上述问题，本发明采用的技术方案为：联合单目稠密SLAM与残差网络的肠壁重建方法，其特征在于，包括

S1、对单目肠道内窥镜图像进行预处理；

S2、使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像；

S3、通过C3DPO对图像序列进行形变分解，得到形变参数和姿态参数；

S4、根据形变参数和姿态参数对深度图像进行形变校正和缩放校正，得到校正后的深度图像；

S5、通过体积融合算法将不同视角下的深度图像融合，以构建三维肠壁图像；

其中，步骤S2和步骤S3并行进行。

进一步地，步骤S2包括：

S21、通过视觉里程计估计全局位姿；

S22、通过CVA-MVSNet估计每一帧的稠密深度。

进一步地，步骤S21中，以稠密前端跟踪作为前端，粗略地提供相机的位姿估计，作为窗口优化后端的初始化；以直接法稀疏里程计作为后端，将一个稀疏深度图合并一个稠密的深度图/>对于关键帧n中的每个像素p，对其赋予一个深度值，该深度值来自于直接法稀疏里程计中稀疏VO点深度图/>或者是来自于稠密深度图/>从而用接近稠密的组合深度图用于两帧图像的直接对齐。

进一步地，步骤S22包括：在CVA-MVSNet中，将活动关键帧定义为其中I_i是大小为(H，W)的图像，T_i是视觉里程计中估计的全局位姿；

利用共享权重的2D U-Net提取关键帧的多尺度深度特征其中i∈[1，n]是帧索引，s∈[1，3]是尺度索引；

因此，的形状为(F^s，H^s，W^s)，其中F^s是尺度s的特征维度，H^s＝H/2^3-s，Ws＝W/2^3-s；

参考坐标系的深度图分层用3个阶段进行估计，每个阶段以特征集为输入，并预测形状为(H^s，W^s)的参考深度图；

对于每个阶段，使用深度特征构建代价体C^s，对于参考系的每个像素，定义D^s为深度假设，从而得到形状为(D^s，H^s，W^s)的一个张量/>利用深度假设、相对姿态和相机内参，对各帧的深度特征/>进行可微弯曲；由此为每一帧构造一个形状为(F^s，D^s，H^s，W^s)的特征体移/>

为了将来自多视图特征体的信息聚合到一个代价体C^s中，平等地对待不同的视图，并使用基于方差的代价度量：

利用自适应的视觉集成来构造代价体：

其中，视角聚合权重的形状为(1，D^s，H^s，W^s)且⊙是逐元素与广播相乘；通过浅层3D卷积网络分别为每个/>估计视角聚合权重/>其取/>作为输入；然后，使用3DU-Net对代价体积C^s进行正则化，并通过sonmax非线性以获得形状为(D^s，H^s，W^s)的概率体积P^s；给定形状为(D^s，H^s，W^s)的帧的每个像素的假设深度/>估计深度由下式计算：

该网络利用从前一阶段估计的深度D^s-1(s＞1)来定义细粒度深度假设张量由于第一阶段不存在先验阶段，/>的每个像素有着相同的深度范围[d_min，d_max]；对于之后的阶段(s＞1)，深度D^s-1通过上采样，然后用作先验信息定义/>

使用应用于三个阶段的相对于深度真值的L1损失的总和作为最终的损失函数并用于指导网络训练，即：

进一步地，步骤S3包括：

采用正交相机投影方式，则该投影方式可表示为：

Ψ＝[I₂，0]

其中，I₂∈R^2×2为单位矩阵；

设计线性模型对结构S进行约束，即有：

其中，α_n为S_n对应的视角参数，B表示形状基，D表示形状基的维度，表示克罗内克积；

根据上式可得：

S＝ΓB∈R^3D×P

其中，Γ∈R^3F×3D，从而将问题转化为：

其中，W∈R^2F×P，r_oi(i＝1，2，...，F表示第i帧输入图像对应的旋转矩阵；

对于形状基B，采用iresnet结构F替代传统的因式分解，从而获得对应的重建形变参数θ和形变姿态参数α；

损失函数采用：

其中，为Pseudo-Huber损失，∈＝0.01。

本发明的有益效果是：1、本发明构建了双支线深度学习模型，支线一通过C3DPO对图像序列进行形变分解，得到形变参数和姿态参数，支线二使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像，通过正则损失学习肠道内部形变特征并分解视点，很好地解决了由于自身蠕动和胶囊内窥镜挤压，致使肠道内壁形状不定的问题。

2、为了预测稠密的深度图，提出了级联视图聚合网络Cascade View-AggregationMVSNet(CVA-MVSNet)，利用整个活动关键帧窗口，通过使用自适应视图聚合分层构建3D代价体素(cost volume)，以平衡关键帧之间的不同立体基线。最后，将预测的深度图融合成一个一致的全局图，用截断有符号距离函数(TSDF)体素网格表示，提高了肠壁三维重建的准确性。

附图说明

图1是本发明的算法流程图；

图2是本发明提供的TANDEM总体结构图；

图3是本发明提供的CVA-MVSNet总体结构图；

图4是本发明提供的C3DPO结构图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明的联合单目稠密SLAM与残差网络的肠壁重建方法，如图1所示，包括以下步骤：

S1、对单目肠道内窥镜图像进行预处理，具体包括图像去畸变、裁剪、缩放等操作，使其适合于后续的处理。

S2、使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像。

S3、通过C3DPO对图像序列进行形变分解，得到形变参数和姿态参数。

S4、根据形变参数和姿态参数对深度图像进行形变校正和缩放校正，得到校正后的深度图像。

S5、通过体积融合算法将不同视角下的深度图像融合，以构建三维肠壁图像。

其中，步骤S2和步骤S3并行进行。

步骤S2包括：

S21、通过视觉里程计估计全局位姿。

视觉里程计采用了稠密前端跟踪(Dense Front-end Tracking)作为前端和直接法稀疏里程计(Direct Sparse Odometry，DSO)作为后端。前端粗略地提供了相机的位姿估计，作为窗口优化后端的初始化。在后端中，将一个稀疏深度图合并一个稠密的深度图/>对于关键帧n中的每个像素p，对其赋予一个深度值，这个深度值来自于直接法稀疏里程计(DSO)中稀疏VO点深度图/>或者是来自与稠密深度图/>这样用接近稠密的组合深度图用于两帧图像的直接对齐。

S22、通过CVA-MVSNet估计每一帧的稠密深度。

在CVA-MVSNet中，将活动关键帧定义为其中I_i是大小为(H，W)的图像，T_i是视觉里程计中估计的全局位姿。

首先利用共享权重的2D U-Net提取关键帧的多尺度深度特征其中i∈[1，n]是帧索引，s∈[1，3]是尺度索引。因此，/>的形状为(F^s，H^s，W^s)，其中F^s是尺度s的特征维度，H^s＝H/2^3-s，W^s＝W/2^3-s。参考坐标系的深度图分层用3个阶段进行估计，每个阶段以特征集为输入，并预测形状为(H^s，W^s)的参考深度图。

对于每个阶段，需要使用深度特征来构建一个代价体C^s。对于参考系的每个像素，定义D^s为深度假设，从而得到形状为(D^s，H^s，W^s)的一个张量/>利用深度假设、相对姿态/>和相机内参，对各帧的深度特征/>进行可微弯曲。由此为每一帧构造一个形状为(F^s，D^s，H^s，W^s)的特征体积/>

然而，在滑动窗口SLAM的设置中，关键帧并不是均匀地分布在优化窗口内，通常较新的关键帧之间的距离比旧关键帧之间的距离要小得多。这造成了相当大的遮挡和不重叠的图像。基于方差的代价体是不合理的，因为它公平地权衡了不同的图像。为了缓解这个问题，利用自适应的视觉集成来构造代价体：

其中，视角聚合权重的形状为(1，D^s，H^s，W^s)且⊙是逐元素与广播相乘。通过浅层3D卷积网络分别为每个/>估计视角聚合权重/>其取/>作为输入。该聚合模块允许网络自适应地降低错误信息的权重。然后，使用3D U-Net对代价体积C^s进行正则化，并最终通过softmax非线性以获得形状为(D^s，H^s，W^s)的概率体积P^s。给定形状为(D^s，H^s，W^s)的帧的每个像素的假设深度/>估计深度由下式计算：

该网络利用从前一阶段估计的深度D^s-1(s＞1)来定义细粒度深度假设张量由于第一阶段不存在先验阶段，/>的每个像素有着相同的深度范围[d_min，d_max]。对于之后的阶段(s＞1)，深度D^s-1通过上采样，然后用作先验信息去定义/>具体来说，对于像素位置(h，w)，/>使用上采样的D^s-1(h，w)定义为中心，然后使用预定义的偏移量在其周围采样D^s个值。这样对于具有更高分辨率的阶段，能减少需要的深度平面数量，即D¹≥D²≥D³。本发明使用应用于三个阶段的相对于深度真值的L1损失的总和作为最终的损失函数用于指导网络训练，即：

步骤S3包括：

常规的SFM问题，主要是从输入二维关键点的观测矩阵w_n＝(w_n1，w_n2，...，w_np)∈R^(2×p)获取对应的三维姿态坐标S＝(S_1，S_2，，...，S_p)∈R^(3×P)。其中，w_n表示在第n帧时P个特征点对应的二维坐标。将共有F帧的序列视为一个整体，整个问题可转化为：

W＝r_oS

W＝(w₁，w₂，...，w_F)^T∈R^2F×P

r_o＝(ΨR₁，ΨR₂，...，ΨR_F)^T∈R^2F×3

其中，Ψ：R³→R²为相机投影方式。R_n为对应第n帧中的旋转。

本发明选择正交相机投影方式，则该投影方式可表示为：

Ψ＝[I₂，0]

其中，F₂∈R^2×2为单位矩阵。

本发明基于SfM问题推广的NRSfM构建，因此设计线性模型对结构S进行约束，即有：

其中，α_n为S_n对应的视角参数，B表示形状基，D表示形状基的维度。表示克罗内克积(Kronecker Products)。

由上式可得：

S＝ΓB∈R^3D×P

其中，Γ∈R^3F×3D。

因此，本方案问题可转化为：

其中，W∈R^2F×P，r_oi(i＝1，2，...，F表示第i帧输入图像对应的旋转矩阵。

对于形状基B，本发明采用iresnet结构F替代传统的因式分解，从而获得对应的重建形变参数θ和形变姿态参数α。

损失函数的设计上，本发明拟选择与C3DPO相似设计，由此构建损失函数为：

其中，为Pseudo-Huber损失，∈＝0.01。

本发明构建了双支线深度学习模型，支线一通过C3DPO对图像序列进行形变分解，得到形变参数和姿态参数，支线二使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像，通过正则损失学习肠道内部形变特征并分解视点，很好地解决了由于自身蠕动和胶囊内窥镜挤压，致使肠道内壁形状不定的问题。

为了预测稠密的深度图，提出了级联视图聚合网络Cascade View-AggregationMVSNet(CVA-MVSNet)，利用整个活动关键帧窗口，通过使用自适应视图聚合分层构建3D代价体素(cost volume)，以平衡关键帧之间的不同立体基线。最后，将预测的深度图融合成一个一致的全局图，用截断有符号距离函数(TSDF)体素网格表示，提高了肠壁三维重建的准确性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.联合单目稠密SLAM与残差网络的肠壁重建方法，其特征在于，包括

S1、对单目肠道内窥镜图像进行预处理；

S2、使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像；

其中，步骤S2和步骤S3并行进行。

2.如权利要求1所述的联合单目稠密SLAM与残差网络的肠壁重建方法，其特征在于，步骤S2包括：

S21、通过视觉里程计估计全局位姿；

S22、通过CVA-MVSNet估计每一帧的稠密深度。

3.如权利要求2所述的联合单目稠密SLAM与残差网络的肠壁重建方法，其特征在于，步骤S21中，以稠密前端跟踪作为前端，粗略地提供相机的位姿估计，作为窗口优化后端的初始化；以直接法稀疏里程计作为后端，将一个稀疏深度图合并一个稠密的深度图对于关键帧n中的每个像素p，对其赋予一个深度值，该深度值来自于直接法稀疏里程计中稀疏VO点深度图/>或者是来自于稠密深度图/>从而用接近稠密的组合深度图用于两帧图像的直接对齐。

4.如权利要求3所述的联合单目稠密SLAM与残差网络的肠壁重建方法，其特征在于，步骤S22包括：在CVA-MVSNet中，将活动关键帧定义为其中I_i是大小为(H，W)的图像，T_i是视觉里程计中估计的全局位姿；

因此，的形状为(F^s，H^s，W^s)，其中F^s是尺度s的特征维度，H^s＝H/2^3-s，W^s＝W/2^3-s；

对于每个阶段，使用深度特征构建代价体C^s，对于参考系的每个像素，定义D^s为深度假设，从而得到形状为(D^s，H^s，W^s)的一个张量/>利用深度假设、相对姿态/>和相机内参，对各帧的深度特征/>进行可微弯曲；由此为每一帧构造一个形状为(F^s，D^s，H^s，W^s)的特征体积/>

利用自适应的视觉集成来构造代价体：

其中，视角聚合权重的形状为(1，D^s，H^s，W^s)且⊙是逐元素与广播相乘；通过浅层3D卷积网络分别为每个/>估计视角聚合权重/>其取/>作为输入；然后，使用3D U-Net对代价体积C^s进行正则化，并通过softmax非线性以获得形状为(D^s，H^s，W^s)的概率体积P^s；给定形状为(D^s，H^s，W^s)的帧的每个像素的假设深度/>估计深度由下式计算：

5.如权利要求1、2、3或4所述的联合单目稠密SLAM与残差网络的肠壁重建方法，其特征在于，步骤S3包括：

采用正交相机投影方式，则该投影方式可表示为：

Ψ＝[I₂，0]其中，I₂∈R^2×2为单位矩阵；

设计线性模型对结构S进行约束，即有：

S_n＝Γ_nB，α_n∈R^D，B∈R^3D×P

根据上式可得：

S＝ΓB∈R^3D×P

其中，Γ∈R^3F×3D，从而将问题转化为：

损失函数采用：

其中，为Pseudo-Huber损失，∈＝0.01。