CN116421311A

CN116421311A - 基于术前术中三维网格融合的术中危险区域生成系统

Info

Publication number: CN116421311A
Application number: CN202310419472.XA
Authority: CN
Inventors: 李霄剑; 郑杰禹; 杨善林; 莫杭杰; 李玲; 欧阳波; 唐华
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-14

Abstract

本发明提供一种基于术前术中三维网格融合的术中危险区域生成系统，涉及微创手术技术领域。本发明结合深度估计和多模配准融合算法，可以让医生根据自己的需要灵活选择特定的人体组织，并设置危险距离，获取危险区域并实时显示给医生，提高手术的精准度和安全性。由于该方法在实际操作前，根据需要提示手术操作的危险区域，可以帮助医生提前规划手术路径，大大提高了手术效率。此外，引入的基于双目内窥镜的在线自监督学习深度估计方法，其所使用的双目深度估计网络具有快速过学习的能力，能够利用自监督信息不断适应新场景，进而确保术中三维网格模型的精度。

Description

基于术前术中三维网格融合的术中危险区域生成系统

技术领域

本发明涉及微创手术技术领域，具体涉及一种基于术前术中三维网格融合的术中危险区域生成系统。

背景技术

相比于传统开放性手术，微创手术(如内腔镜手术)具有创口小、流血少、恢复速度快等优点，逐渐被广泛采用。

设置术中危险区域是保障手术安全的重要措施。例如，中国专利CN115624382A公开了一种肾盂镜的钬激光位置预警系统、方法、装置及介质，其将危险区域定义为钬激光距离肾盂镜的镜头的距离，通过设置辅助标尺图标及警报，避免钬激光距离肾盂镜的镜头太近或太远，可以避免钬激光对镜头或人体造成损伤，进一步提高手术的安全性。

然而，基于器械、组织之间位置关系的危险区域标识主要针对医生的操作行为，这类技术无法在医生操作前进行标识，提前规划手术路径。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于术前术中三维网格融合的术中危险区域生成系统，解决了无法在医生操作前进行标识，提前规划手术路径的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于术前术中三维网格融合的术中危险区域生成系统，其特征在于，包括：

配准模块，用于将术前三维网格模型和术中三维网格模型进行配准，获取所述术前三维网格模型配准后的所有顶点坐标；

其中，所述术前三维网格模型带有组织语义信息；

根据指定的双目内窥镜图像帧的深度值，获取所述术中三维网格模型；

接收模块，用于接收医生在配准后的术前三维网格模型的感兴趣区域上标注的待规避区域，以及设置的危险距离；

生成模块，用于根据所述待规避区域对应的三维网格模型，结合所述危险距离，生成并显示术中危险区域对应的三维网格模型。

优选的，所述配准模块包括：

第一建模单元，用于获取带有组织语义信息的术前三维网格模型；

第二建模单元，用于根据指定的双目内窥镜图像帧的深度值，获取术中三维网格模型；

特征提取单元，用于根据所述术前三维网格模型和术中三维网格模型，分别获取对应的多层级特征；

重叠预测单元，用于根据所述多层级特征，获取所述术前三维网格模型和术中三维网格模型的重叠区域，并获取所述术前三维网格模型处于重叠区域内顶点的位姿变换关系；

全局融合单元，用于根据所述术前三维网格模型处于重叠区域内顶点的坐标和位姿变换关系、以及非重叠区域内顶点的坐标，获取所述术前三维网格模型配准后的所有顶点坐标；

信息显示单元，用于根据所述术前三维网格模型配准后的所有顶点坐标，在所述术中三维网格模型中显示术前三维网格模型的内部组织信息。

优选的，所述特征提取单元采用切比雪夫谱图卷积提取所述术前三维网格模型和术中三维网格模型的多层级特征：

其中，定义术前三维网格模型M_pre＝(V_pre,E_pre)，V_pre表示术前三维网格模型的顶点的空间坐标，E_pre表示术前三维网格模型的顶点之间的边；术中三维网格模型M_in＝(V_in,E_in)，V_in表示术前三维网格模型的顶点的空间坐标，E_in表示术中三维网格模型的顶点之间的边；

和/>

分别表示术前组织模型的第n+1层和第n层的下采样尺度特征，初始化/>

为V_pre；/>

和/>

分别表示术中组织模型的第n+1层和第n层特征，初始化/>

为V_in；

分别由各自顶点与其B环邻域计算出的b阶切比雪夫多项式，/>

分别是由边E_in,E_pre计算的缩放拉普拉斯矩阵，/>

是神经网络的学习参数；

和/或所述重叠预测单元具体用于：

采用注意力机制获取所述术前三维网格模型和术中三维网格模型的重叠区域，包括：

其中，O_pre表示术前三维网格模型M_pre重叠区域的掩码；O_in表示术中三维网格模型M_in重叠区域的掩码；cross和self分别表示self-attention和cross-attention操作；

和/>

分别表示术前三维网格模型和术中三维网格模型的顶点的第m级下采样尺度特征；

根据掩码O_pre和O_in，获取各自处于重叠区域内的顶点

及其特征

并使用多层感知机MLP计算术前三维网格模型M_pre中的顶点/>

的对应点：

其中，

是术中三维网格模型M_in中的顶点，对应于术前三维网格模型M_pre中的顶点/>

表示余弦相似度计算，/>

表示对术中三维网格模型处于重叠区域内的顶点进行位置编码操作；

采用最近邻搜索KNN建立顶点

的局部邻域，采用奇异值分解SVD求解旋转矩阵，公式如下：

其中，

表示顶点/>

的旋转矩阵；/>

表示使用KNN算法构建属于顶点

的一个局部邻域；/>

是术前三维网格模型的顶点/>

的邻域点，/>

是对应于邻域点/>

的术中三维网格模型的顶点；

采用旋转矩阵

改变点云坐标得到/>

采用MLP预测顶点/>

的位移向量，公式如下：

其中，

表术前三维网格模型处于重叠区域的顶点的位移向量，并与旋转矩阵

构成所述位姿变换关系；

和/或所述全局融合单元具体用于：

采用MLP回归术前三维网格模型的所有顶点的旋转矩阵和位移向量：

其中，R_pre,t_pre分别表示术前三维网格模型的所有顶点的旋转矩阵和位移向量；

表示根据处于重叠区域内的顶点/>

与术前三维网格模型的所有顶点v_pre的距离计算的权重；

其中，

表示所述术前三维网格模型配准后的所有顶点坐标。

优选的，在所述术中危险区域生成系统的训练阶段，基于真实数据生成训练集：

根据指定的双目内窥镜图像帧与术前三维网格模型之间的特征点对，基于特征点采用非刚性算法配准术前三维网格模型和术中三维网格模型，对于任一特征点有：

其中，Non_rigid_ICP表示非刚性配准算法ICP，

表示术前三维网格模型的第a个用于非刚性配准的特征点，/>

对应/>

的术中三维网格模型的特征点，T_G为术前三维网格模型的整体转移矩阵，T_l,a是属于特征点v_pre,a的局部形变转移矩阵；

采用四元素插值求得术前三维网格模型中所有顶点的局部形变转移矩阵T_l，通过变换关系求得术前三维网格模型中的顶点v_pre配准后的坐标标签

优选的，在所述术中危险区域生成系统的训练阶段，构建如下有监督损失函数：

其中，Loss_s表示训练阶段的有监督损失函数；

β_s、γ_s分别表示有监督损失项系数；

N₁表示术前三维网格模型M_pre的顶点个数；

表示基于人工标注数据集的l2真值损失，/>

表示术前三维网格模型配准后的所有顶点坐标；

I_c+I_c+III_c表示柯西格林不变量，用于约束体内组织形变的程度，I_c约束表面两点间弧线距离长度不变，II_c约束组织表面积不变，III_c约束组织体积不变。

优选的，所述配准模块还包括：

精度微调单元，用于引入无监督损失微调网络，辅助所述全局融合单元获取所述术前三维网格模型配准后的所有顶点坐标；

和/或所述无监督损失微调网络在应用过程中，构建如下无监督损失函数：

其中，Loss_u表示无监督损失函数；

β_u,γ_u分别表示无监督损失项系数，

和/>

均为无监督训练时术前三维网格模型配准后的顶点坐标，/>

表示在术中三维网格模型中距离配准后术前三维网格模型的顶点/>

的最近点，/>

表示顶点/>

和/>

的欧式距离，

表示在配准后的术前三维网格模型中距离术中三维网格模型的顶点/>

的最近点，/>

表示顶点v_in,和顶点/>

的欧式距离；

N₁表示术前三维网格模型M_pre的顶点个数，N₂表示术中三维网格模型M_in的顶点个数；

表示无监督训练时的柯西格林不变量，/>

约束表面两点间弧线距离长度不变，/>

约束组织表面积不变，/>

约束组织体积不变。

优选的，所述生成模块包括：

估计单元，用于根据所述待规避区域对应的三维网格模型的表面顶点，采用等法线估计方法获取每个表面顶点的法向量并归一化；

扩张单元，根据各个所述表面顶点的空间坐标及其归一化的法向量，结合所述危险距离，扩张获取所述危险区域对应的组织网络模型的表面顶点；

v_danger＝_evade×Normal_evade+_evade

其中，v_danger表示危险区域对应的组织网络模型的表面顶点；d_evade表示危险距离；Normal_evade表示待规避区域对应的三维网格模型的表面顶点v_evade对应的归一化的法向量；

连接单元，根据所述术前三维网格模型的各个表面顶点之间的连接关系，连接所述危险区域对应的组织网络模型的各个表面顶点，生成并显示所述术中危险区域对应的三维网格模型。

优选的，所述第二建模单元采用基于双目内窥镜的在线自监督学习深度估计方法，获取所述指定的双目内窥镜图像帧的深度值；所述在线自监督学习深度估计方法所使用的双目深度估计网络具有快速过学习的能力，能够利用自监督信息不断适应新场景；

在实时重建模式下，所述第二建模单元具体用于对连续影像视频帧进行过拟合，获取指定的双目内窥镜图像帧的深度值，包括：

提取子单元，用于获取双目内窥镜影像，采用当前双目深度估计网络的编码器网络提取当前帧图像的多尺度特征；

融合子单元，用于采用当前双目深度估计网络的解码器网络，对多尺度特征进行融合，获取当前帧图像中每个像素点的视差；

转化子单元，用于根据相机内外参数，将视差转化为深度并作为当前帧图像的结果输出；

第一估计子单元，用于在不引入外部真值的条件下，利用自监督损失更新当前双目深度估计网络的参数，用于下一帧图像的深度估计。

优选的，在精准测量模式下，所述第二建模单元具体用于对关键影像视频帧进行过拟合，包括：

第二估计子单元，在不引入外部真值的条件下，根据指定的双目内窥镜图像帧的上一帧图像在实时重建模式中获取的双目深度估计网络，利用该指定的双目内窥镜图像帧对应的自监督损失更新前述双目深度估计网络的参数直至收敛，并将收敛后的双目深度估计网络用于对所述指定的双目内窥镜图像帧的精准深度估计，获取所述指定的双目内窥镜图像帧的深度值。

(三)有益效果

本发明提供了一种基于术前术中三维网格融合的术中危险区域生成系统。与现有技术相比，具备以下有益效果：

本发明结合深度估计和多模配准融合算法，可以让医生根据自己的需要灵活选择特定的人体组织，并设置危险距离，获取危险区域并实时显示给医生，提高手术的精准度和安全性。由于该方法在实际操作前，根据需要提示手术操作的危险区域，可以帮助医生提前规划手术路径，大大提高了手术效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于术前术中三维网格融合的术中危险区域生成系统的结构框图；

图2为本发明实施例提供的一种基于双目内窥镜的在线自监督学习深度估计方法的技术框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于术前术中三维网格融合的术中危险区域生成系统，解决了无法在医生操作前进行标识，提前规划手术路径的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例主要应用但不局限于手术内窥镜场景例如腹腔镜手术场景。具体的，所提供的基于术前术中三维网格融合的术中危险区域生成系统包括配准模块、接收模块和生成模块。其中：

配准模块，用于将术前三维网格模型和术中三维网格模型进行配准，获取所述术前三维网格模型配准后的所有顶点坐标；接收模块，用于接收医生在配准后的术前三维网格模型的感兴趣区域上标注的待规避区域，以及设置的危险距离；生成模块，用于根据所述待规避区域对应的三维网格模型，结合所述危险距离，生成并显示术中危险区域对应的三维网格模型。

通过在术中重建和多模融合的基础上，根据医生的操作需要，通过待规避区域对应的三维网格模型的表面顶点的法向量，膨胀待规避区域的组织边界，生成目标的术中危险区域，辅助医生进行手术操作，有效提高手术安全性。

此外，可以根据指定的双目内窥镜图像帧的深度值，获取术中三维网格模型。具体可以采用基于双目内窥镜的在线自监督学习深度估计方法，获取所述指定的双目内窥镜图像帧的深度值；所述在线自监督学习深度估计方法所使用的双目深度估计网络具有快速过学习的能力，能够利用自监督信息不断适应新场景。并且在线自监督学习深度估计方法还提供实时重建模式和精准测量模式两种模式，用于确定指定的双目内窥镜图像帧的深度值。

双模式切换的深度估计，既可以提供术中解剖结构的实时点云，辅助医生直观理解术中三维结构，还可以基于单帧过拟合实现医生指定的双目内窥镜图像帧的高精度重构，为后续处理提供基础，使得在应用中兼顾速度与精度。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例：

如图1所示，本发明实施例提供的一种基于术前术中三维网格融合的术中危险区域生成系统，包括：

其中，所述术前三维网格模型带有组织语义信息；

本发明实施例结合深度估计和多模配准融合算法，可以让医生根据自己的需要灵活选择特定的人体组织，并设置危险距离，获取危险区域并实时显示给医生，提高手术的精准度和安全性。由于该方法在实际操作前，根据需要提示手术操作的危险区域，可以帮助医生提前规划手术路径，大大提高了手术效率。

接下来将详细介绍上述技术方案的各个组成模块：

对于配准模块，其用于将术前三维网格模型和术中三维网格模型进行配准，获取所述术前三维网格模型配准后的所有顶点坐标；其中，所述术前三维网格模型带有组织语义信息；根据指定的双目内窥镜图像帧的深度值，获取所述术中三维网格模型。

所述配准模块包括第一建模单元、第二建模单元、特征提取单元、重叠预测单元、全局融合单元和精度微调单元。具体的：

对于第一建模单元，其用于获取带有组织语义信息的术前三维网格模型。

示例性的，本单元采用3D Slicer等软件重建CT/MRI组织，获得三维网格模型，然后使用DeepLab等深度学习算法或手动分割划分血管、肝脏等组织，最终形成带有组织语义信息的术前三维网格模型M_pre＝(V_pre,E_pre)，其中V_pre表示模型的顶点空间坐标，E_pre表示顶点之间的边。

对于第二建模单元，用于根据指定的双目内窥镜图像帧的深度值，获取术中三维网格模型。

示例性的，本单元采用一种基于双目内窥镜的在线自监督学习深度估计(具体参见后文)估计像素点的深度值D；并通过针孔相机模型计算像素点在相机坐标系下的空间坐标，其公式为

z＝D

其中，D为像素点的深度估计值；x、y、z分别表示相机坐标系下的x坐标、y坐标、z坐标；

c_x,c_y,f_x,f_y为双目内窥镜中左目或者右目内窥镜与相机内参矩阵

中对应的参数，将图片转换成点云V_in＝{v_in,a|a＝1,2,…N₁}，其中v_in,a表示第a个像素点的空间坐标；

最后使用Delaunay三角剖分生成点云V_in的邻接边E_in，最终形成术中三维网格模型M_in＝(V_in,E_in)。

对于特征提取单元，其用于根据所述术前三维网格模型和术中三维网格模型，分别获取对应的多层级特征。

具体的，所述特征提取单元采用切比雪夫谱图卷积提取所述术前三维网格模型和术中三维网格模型的多层级特征：

和/>

为V_pre；/>

和/>

分别表示术中组织模型的第n+1层和第n层特征，初始化/>

为V_in；

分别由各自顶点与其B环邻域计算出的b阶切比雪夫多项式，/>

分别是由边E_in,E_pre计算的缩放拉普拉斯矩阵，/>

是神经网络的学习参数。

对于重叠预测单元，其用于根据所述多层级特征，获取所述术前三维网格模型和术中三维网格模型的重叠区域，并获取所述术前三维网格模型处于重叠区域内顶点的位姿变换关系。

具体的，所述重叠预测单元用于：

和/>

根据掩码O_pre和O_in，获取各自处于重叠区域内的顶点

及其特征

并使用多层感知机MLP计算术前三维网格模型M_pre中的顶点/>

的对应点：

其中，

表示余弦相似度计算，/>

采用最近邻搜索KNN建立顶点

的局部邻域，采用奇异值分解SVD求解旋转矩阵，公式如下：

其中，

表示顶点/>

的旋转矩阵；/>

表示使用KNN算法构建属于顶点

的一个局部邻域；/>

是术前三维网格模型的顶点/>

的邻域点，/>

是对应于邻域点/>

的术中三维网格模型的顶点；

采用旋转矩阵

改变点云坐标得到/>

采用MLP预测顶点/>

的位移向量，公式如下：

其中，

表术前三维网格模型处于重叠区域的顶点的位移向量。

对于全局融合单元，其用于根据所述术前三维网格模型处于重叠区域内顶点的坐标和位姿变换关系、以及非重叠区域内顶点的坐标，获取所述术前三维网格模型配准后的所有顶点坐标。

具体的，所述全局融合单元用于：

表示根据处于重叠区域内的顶点/>

与术前三维网格模型的所有顶点v_pre的距离计算的权重(其中，所有顶点包括处于重叠区域的顶点以及非重叠区域的顶点)；

其中，

表示所述术前三维网格模型配准后的所有顶点坐标。

据此，可以明确本发明实施例提出基于网格数据的多模融合网络，通过重叠预测单元预测重叠区域和其位移场，并结合柯西格林不变量约束术前三维网格模型的非刚性形变，使得多模融合后的模型更加合理，减少多模融合的错误。

对于信息显示单元，其用于根据所述术前三维网格模型配准后的所有顶点坐标，在所述术中三维网格模型中显示术前三维网格模型的内部组织信息。

示例性的，本单元中可以采用VR眼镜将配准后的两个三维模型统一显示在一个坐标系中，也可以根据相机成像基本原理将配准后的术前三维网格模型叠加到腔镜影像中，这两种可选的显示手段都能实现向医生呈现组织内部信息，辅助医生做出临床决策，减少手术风险的同时提高手术效率。

对于精度微调单元，其用于引入无监督损失微调网络，辅助所述全局融合单元获取所述术前三维网格模型配准后的所有顶点坐标。

之所以引入精度微调单元，是因为本发明实施例考虑到对指定的双目内窥镜图像帧进行配准的时候，由于腔镜灯光和病患个体性差异，重建的术中三维网格模型与数据集相比也存在差异，这些差异可能会导致配准精度的下降，使用无监督损失微调网络可以提高配准的精度。

则所述无监督损失微调网络在应用过程中，需构建如下无监督损失函数：

其中，Loss_u表示无监督损失函数；

β_u,γ_u分别表示无监督损失项系数，

和/>

均为无监督训练时术前三维网格模型配准后的顶点坐标，/>

的最近点，/>

表示顶点/>

和/>

的欧式距离，

的最近点，/>

表示顶点v_in,和顶点/>

的欧式距离；

表示无监督训练时的柯西格林不变量，/>

约束表面两点间弧线距离长度不变，/>

约束组织表面积不变，/>

约束组织体积不变。

本发明实施例构建以双向最近邻为损失函数的无监督微调机制，实现指定的双目内窥镜图像帧下，术前组合网格模型和术中三维网格模型的精准融合。

需要注意的是，相比于现有技术中生物力学模型构建的虚拟配准数据集，本发明实施例针对体内柔性动态环境的特性，使用真实腔镜影像和医学检验数据构建数据集，该数据集训练的网络配准的精度更高。

具体的，在所述配准模块的训练阶段，基于真实数据生成训练集，包括：

其中，Non_rigid_ICP表示非刚性配准算法ICP，

表示术前三维网格模型的第a个用于非刚性配准的特征点，/>

对应/>

相应的，在所述配准模块的训练阶段，需构建如下有监督损失函数：

其中，Loss_s表示训练阶段的有监督损失函数；

β_s、γ_s分别表示有监督损失项系数；

N₁表示术前三维网格模型M_pre的顶点个数；

表示基于人工标注数据集的l2真值损失，/>

表示术前三维网格模型配准后的所有顶点坐标；

I_c+II_c+III_c表示柯西格林不变量，用于约束体内组织形变的程度，I_c约束表面两点间弧线距离长度不变，II_c约束组织表面积不变，III_c约束组织体积不变。

对于接收模块，其用于接收医生在配准后的术前三维网格模型的感兴趣区域上标注的待规避区域，以及设置的危险距离。

由于所述术前三维网格模型带有组织语义信息，例如对于组织中不同的区域(血管、肿瘤等)，使用不同的颜色(蓝色、绿色等)予以区分显示，则配准后的术前三维网格模型也带有组织语义信息。

在前述限定下，所述待规避区域可以是指医生通过选择不同的颜色，确认待规避区域对应的三维网格模型M_evade＝(V_evade,E_evade)。其中，V_evade表示待规避区域对应的三维网格模型的表面顶点的空间坐标，且V_evade为

构成集合的子集；E_evade表示待规避区域对应的三维网格模型的表面顶点之间的连接关系，且E_evade为E_pre的子集。

定义危险距离d_evade∈R。

对于生成模块，其用于根据所述待规避区域对应的三维网格模型，结合所述危险距离，生成并显示术中危险区域对应的三维网格模型。

所述生成模块包括：

估计单元，用于根据所述待规避区域对应的三维网格模型M_evade的表面顶点v_evade，采用等法线估计方法获取每个表面顶点v_evade的归一化的法向量Normal_evade∈R³；

扩张单元，根据各个所述表面顶点的空间坐标及其归一化的法向量，结合所述危险距离，扩张获取所述危险区域对应的组织网络模型的表面顶点v_danger；

v_danger＝d_evade×Normal_evade+v_evade

连接单元，根据所述术前三维网格模型的各个表面顶点之间的连接关系(具体根据E_pre的子集E_evade)，连接所述危险区域对应的组织网络模型的各个表面顶点，生成并显示所述术中危险区域对应的三维网格模型M_danger＝(V_danger,E_evade)。

示例性的，采用VR眼镜将所述术中危险区域以三维形式显示，也可以根据相机成像基本原理将危险区域叠加到双目内窥镜影像显示给医生。

不难理解的是，本发明实施例生成的危险区域至少可以在如下几个方面提示辅助医生操作的效果：

(1)、传统双目内窥镜手术场景下，在医生进行手术操作的时候，如果器械位移进入到设置的危险区域，系统向医生发出文字或声音提示，提醒医生谨慎操作。

(2)、手术机器人辅助的双目内窥镜场景下，在器械接近危险区域边缘的时候，系统也可以向医生施加一个远离危险区域的力，提醒医生将要进入危险区域，医生可以通过施加更多力的方式将手术器械移动到危险区域内进行操作。

此外，除了上述内容中提及可能影响融合精度的因素以外，通过所述第二建模单元如何获取所述指定的双目内窥镜图像帧的深度值也是关键因素之一，因为这直接影响了术中三维网格模型的精度。

基于此，所述第二建模单元采用基于双目内窥镜的在线自监督学习深度估计方法，获取所述指定的双目内窥镜图像帧的深度值；所述在线自监督学习深度估计方法所使用的双目深度估计网络具有快速过学习的能力，能够利用自监督信息不断适应新场景；

该种深度估计方案利用连续帧的相似性，将一对双目图像上的过拟合思想扩展到时间序列上的过拟合，通过在线学习不断更新模型参数，能在各种双目内窥镜手术环境下得到高精度的组织深度。

所述双目深度估计网络的预训练阶段抛弃了传统的训练模式，采用元学习的思路，让网络学习某一张图像去预测另外一张图像的深度，从而计算损失进行网络更新，可有效促进网络对新场景的泛化性和提升对低纹理复杂光照的鲁棒性，同时大幅减少了后续过拟合所需时间。

如图2中b部分所示，通过元学习方式训练获取所述双目深度估计网络对应的初始模型参数，具体包括：

S100、随机选取偶数对双目图像{e₁,e₂,…,e_2K}，并平均切分为支持集

和查询集

和/>

中的图像随机配对形成K个任务/>

S200、内循环训练：根据

中的支持集图像计算损失进行一次参数更新；

其中，

表示内循环更新后的网络参数；/>

表示求导，α为内循环的学习率，/>

为第k个任务的支持集图像，/>

是根据模型初始参数φ_m计算出的损失；f表示双目深度估计网络；

S300、外循环训练：根据

中的查询集图像，利用更新后的模型计算元学习损失，直接更新模型初始参数φ_m为φ_m+1；

其中，β为外循环的学习率；

是第k个任务的查询集图像，/>

为元学习损失。

以下是对于所述第二建模单元包括的各个子单元的详细说明：

对于提取子单元，如图2中a部分所示，其获取双目内窥镜影像，采用当前双目深度估计网络的编码器网络提取当前帧图像的多尺度特征。

示例性的，本子单元中双目深度估计网络的编码器采用ResNet18网络，用于对当前帧图像(左目和右目)分别提取5个尺度的特征图。

对于融合子单元，如图2中a部分所示，其采用当前双目深度估计网络的解码器网络，对多尺度特征进行融合，获取当前帧图像中每个像素点的视差；具体包括：

采用所述解码器网络将粗尺度特征图经过卷积块和上采样，与细尺度特征图拼接，再次经过卷积块进行特征融合，其中结合反射填充层(reflection padding)、卷积层、非线性激活子单元ELU构建所述卷积块；

根据网络分辨率最高的输出直接计算视差：

d＝k·((conv(Y))-H)

其中，d表示像素点的视差估计值；k为预先设定的最大视差范围，Y是分辨率最高的输出；TH表示与双目内窥镜的类型有关的参数，当内窥镜图像存在负视差时取0.5，当内窥镜图像均为正视差时取0；conv是卷积层；sigmoid进行范围归一化。

对于转化子单元，其根据相机内外参数，将视差转化为深度并作为当前帧图像的结果输出

本子单元中将视差转化为深度是指：

其中，c_x1、

分别为双目内窥镜中左目和右目内窥镜与相机内参矩阵/>

中对应的参数；如果f_x取左目相机对应内参/>

时，则d取左目像素点的视差估计值，此时D为左目像素点深度估计值；如果f_x取右目相机对应内参/>

则d取右目像素点的视差估计值，此时D为右目像素点深度估计值；b为基线长度，即双目相机外参。

对于第一估计单元，如图2中b部分所示，其在不引入外部真值的条件下，利用自监督损失更新当前双目深度估计网络的参数，用于下一帧图像的深度估计。

不难理解的是，本发明实施例中所提及的“外部真值”即为标签(或者称为“监督信息”)，此乃本领域内公知表述。

本子单元中，如图2中b部分所示，所述自监督损失表示为：

其中，L_self表示自监督损失；α₁、α₂、α₃、α₄均为超参数，l对应左图，r对应右图。

因为双目观察到的是同一个场景，所以左右深度图上对应像素点，变换到同一坐标系下的值应该相等，引入

和/>

(1)

表示左图的几何一致性损失：

其中，P₁表示第一有效像素点集合(即右目有效像素点)；

表示有效像素点p由右目深度图，经过相机位姿变换后获得的左目深度，D_l′(p)表示有效像素点p利用预测的右图视差Dis_R，在左目深度图上采样获得的左目深度。

(2)

表示右图的几何一致性损失：

其中，P₂表示第二有效像素点集合(即左目有效像素点)；

表示有效像素点p由左目深度图，经过相机位姿变换后获得的右目深度，D′_r(p)表示有效像素点p利用预测的左图视差Dis_L，在右目深度图上采样获得的右目深度。

通过训练损失中加入几何一致性约束实现，保证网络对于硬件的泛用性，实现自主适应手术内窥镜等非常规双目图像。

假设内窥镜手术中亮度恒定和空间平滑，利用左右目图片间的重投影可以实现另一目的重构，同时增加了结构相似度损失，对两幅图像的亮度、对比度和结构进行了归一化和比较，引入

和/>

(3)

表示左图的光度损失：/>

其中，I_L(p)表示左图，I′_L(p)表示利用右图与预测的左图视差Dis_L(p)生成的左目内窥镜重构图像，λ_i和λ_s为平衡参数，SSIM_LL′(p)表示I_L(p)与I′_L(p)的图像结构相似度；

(4)

表示右图的光度损失：

其中，I_R(p)表示右图，I′_R(p)表示利用左图与预测的右图视差Dis_R(p)生成的右目内窥镜重构图像，SSIM_RR′(p)表示I_R(p)与I′_R(p)的图像结构相似度。

在低纹理和单一颜色的组织区域，采用平滑先验辅助推理并且对深度进行正则化，引入

和/>

(5)

表示左图的平滑损失：

其中，

表示归一化的左目深度图，/>

和/>

表示沿着图像水平与垂直方向的一阶导数；

(6)

表示右图的平滑损失：

其中，

表示归一化的右目深度图，/>

和/>

表示沿着图像水平与垂直方向的一阶导数。

特别的，所述第一有效像素点集合P₁和第二有效像素点集合P₂的获取过程如下：

定义当前双目深度估计网络预测的左目视差值为

右目视差值为/>

则左目和右目交叉验证掩码的公式化表达如下：

其中，

分别用于判断左右目图像中(,j)位置的像素是否在立体匹配范围内；i取值范围为[1,W]间所有整数；j取值范围为[1,H]间所有整数；W表示图像宽度，H表示图像高度；/>

令c取L或R，当

时，表示当前计算方法下(,j)位置的像素在立体匹配范围内，否则不在立体匹配范围内；

利用相机模型、双目位姿变换与预测深度进行投影，获取基于3d点的有效区域掩码

取0或1，当/>

获取最终的有效区域掩码

若像素点p满足

当c取R则获取第一有效像素点集合P₁，当c取L则获取第二有效像素点集合P₂。

在校正后的立体图像中，由于视角偏移引起的额外区域，无法找到匹配的像素。然而，本发明实施例考虑到体内组织的低纹理和光照不均匀会导致局部特征更加不明显，这些无效区域内的像素往往会在邻近区域中找到相似的像素。因此如上文所言，本发明实施例提出了基于交叉验证双目有效区域识别算法，排除了无效区域像素的自监督损失对网络学习的误导，提升了深度估计的精度。

此外，为避免在纯纹理或低光照场景的深度估计鲁棒性不足，还引入

(7)

表示稀疏光流损失：

其中，Dis_L(p)表示预测的左目视差图，OF_L(p)表示左目稀疏视差图，Dis_R(p)表示预测的右目视差图，OF_R(p)表示右目稀疏视差图；P₃表示左目稀疏视差图OF_L(p)中的第三有效像素集合；P₄表示右目稀疏视差图OF_R(p)中的第四有效像素集合；γ₁和γ₂为平衡参数，均为非负数且不同时取0。

特别的，所述第三有效像素点集合P₃和第四有效像素点集合P₄的获取过程如下：

利用LK(Lucas-Kanade)光流求解算法，在行列方向每隔n个像素计算稀疏光流(Δx,Δy)，其中Δx表示像素点水平方向的偏移量，Δy表示像素点垂直方向的偏移量；

当求解左图到右图的光流时，仅当

且Δx>thd₁，保留该像素位置的视差为Δx，其中KT与thd₁为相应的预设阈值，不满足上述条件或不计算稀疏光流位置的视差置0，以获取最终的稀疏视差图OF_L()，OF_L(p)≠0的像素点构成第三有效像素点集合P₃；

当求解右图到左图的光流时，仅当

且Δx<thd₂，保留该像素位置的视差为Δx，其中thd₂为相应的预设阈值，不满足上述条件或不计算稀疏光流位置的视差置0，以获取最终的稀疏视差图OF_R()，OF_R(p)≠0的像素点构成第四有效像素点集合P₄。

正如上文所言本发明实施例引入传统Lucas-Kanade光流推导双目图像之间的稀疏视差，给予网络合理的学习方向，提高快速学习能力并降低陷入局部最优的概率。

特别强调的是，除了实时重建模式以外，本发明实施例中所述第二建模单元采用的在线自监督学习深度估计方法还设置了精准测量模式。如图2中b部分所示，在精准测量模式下，所述第二建模单元具体用于对关键影像视频帧进行过拟合，包括：

值得注意的是，精准测量模式下的深度估计网络、自监督损失函数、有效区域掩码计算、元学习预训练方式等技术细节均与实时重建模式中拓展的技术细节保持一致，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、通过在术中重建和多模融合的基础上，根据医生的操作需要，通过待规避区域对应的三维网格模型的表面顶点的法向量，膨胀待规避区域的组织边界，生成目标的术中危险区域，辅助医生进行手术操作，有效提高手术安全性。

2、由于该方法在实际操作前，根据需要提示手术操作的危险区域，可以帮助医生提前规划手术路径，大大提高了手术效率。

3、本发明实施例介绍了一种基于双目内窥镜的在线自监督学习深度估计方法，其有益效果至少包括：

3.1切换的深度估计，既可以提供术中解剖结构的实时点云，辅助医生直观理解术中三维结构，还可以基于单帧过拟合实现医生手选关键帧的高精度重构，为后续测量提供基础，使得在应用中兼顾速度与精度。

3.2利用连续帧的相似性，将一对双目图像上的过拟合思想扩展到时间序列上的过拟合，通过在线学习不断更新模型参数，能在各种双目内窥镜手术环境下得到高精度的组织深度。

3.3、网络模型的预训练阶段抛弃了传统的训练模式，采用元学习的思路，让网络学习某一张图像去预测另外一张图像的深度，从而计算损失进行网络更新，可有效促进网络对新场景的泛化性和提升对低纹理复杂光照的鲁棒性，同时大幅减少了后续过拟合所需时间。

3.4、通过训练损失中加入几何一致性约束实现，保证网络对于硬件的泛用性，实现自主适应手术内窥镜等非常规双目图像。

3.5、将每一帧双目图像的深度估计作为独立的任务，实时过拟合得到适用于当前帧的高精度模型；且通过在线学习能快速学习新场景从而获得高精度深度估计结果。

3.6、基于交叉验证双目有效区域识别算法，排除了无效区域像素的自监督损失对网络学习的误导，提升了深度估计的精度。

3.7、引入传统Lucas-Kanade光流推导双目图像之间的稀疏视差，给予网络合理的学习方向，提高快速学习能力并降低陷入局部最优的概率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。