CN116485851A

CN116485851A - 面向腹腔镜手术导航的三维网格模型配准融合系统

Info

Publication number: CN116485851A
Application number: CN202310419400.5A
Authority: CN
Inventors: 李霄剑; 沈子明; 杨善林; 李玲; 欧阳波; 莫杭杰
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-25

Abstract

本发明提供一种面向腹腔镜手术导航的三维网格模型配准融合系统，涉及腹腔镜手术导航技术领域。本发明提供的三维网格模型配准融合系统引入的网格数据，较传统的点云考虑模型的顶点间的连接关系，提高了后续多模融合的精度；并可以向医生呈现组织内部信息，辅助医生做出临床决策，减少手术风险的同时提高手术效率。其中，该系统基于真实数据通过人工标注和插值的方法生成训练数据，以有监督的方式训练多模配准融合网络，最后通过无监督微调进一步提高配准精度。此外，引入的基于双目内窥镜的在线自监督学习深度估计方法，其所使用的双目深度估计网络具有快速过学习的能力，能够利用自监督信息不断适应新场景，进而确保术中组织网格模型的精度。

Description

面向腹腔镜手术导航的三维网格模型配准融合系统

技术领域

本发明涉及腹腔镜手术导航技术领域，具体涉及一种面向腹腔镜手术导航的三维网格模型配准融合系统。

背景技术

相比于传统开放性手术，微创手术(如内腔镜手术)具有创口小、流血少、恢复速度快等优点，逐渐被广泛采用。但是受腔镜视场角的限制，内窥镜每次只能看到较为狭小的手术区域，并且体内组织的表观特征极其相似，大部分关键解剖结构和某些病变部位埋藏在组织内部，无法通过表观识别分析判断，必须结合术前CT、MRI等检验影像信息进行判断。如果将组织的术前和术中组织网格模型统一在同一个坐标系下并展现给医师，可以方便其估计病灶位置和内部结构，减少手术时间和风险。

目前基于多模融合的手术导航系统大多集中于骨科、牙科等组织非刚性形变较少的手术中，在腹腔等组织非刚性形变较多的技术应用仍有限。例如，中国专利CN201910253168.6公开了一种基于视频叠加的增强现实手术导航方法、系统及电子设备，该方法包括：获取目标组织器官的术前三维解剖模型；根据术中立体腹腔镜所采集的腹腔镜视频信息，构建目标组织器官表面的点云数据；对术前三维模型和点云数据进行配准，根据配准结果，得到术前三维解剖模型和当前腹腔镜视图对应的点云数据的目标变换关系；根据目标变换关系，将术前三维解剖模型通过增强现实技术叠加显示在腹腔镜视图上。

然而，上述方案在表示体内组织模型时，仅采用点云数据类型，限制了多模融合的精度。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种面向腹腔镜手术导航的三维网格模型配准融合系统，解决了多模融合的精度有待提高的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种面向腹腔镜手术导航的三维网格模型配准融合系统，包括：

第一建模模块，用于获取带有组织语义信息的术前组织网格模型；

第二建模模块，用于根据指定的双目内窥镜图像帧的深度值，获取术中组织网格模型；

特征提取模块，用于根据所述术前组织网格模型和术中组织网格模型，分别获取对应的多层级特征；

重叠预测模块，用于根据所述多层级特征，获取所述术前组织网格模型和术中组织网格模型的重叠区域，并获取所述术前组织网格模型处于重叠区域内顶点的位姿变换关系；

全局融合模块，用于根据所述术前组织网格模型处于重叠区域内顶点的坐标和位姿变换关系、以及非重叠区域内顶点的坐标，获取所述术前组织网格模型配准后的所有顶点坐标；

信息显示模块，用于根据所述术前组织网格模型配准后的所有顶点坐标，在所述术中组织网格模型中显示术前组织网格模型的内部组织信息。

优选的，所述特征提取模块采用切比雪夫谱图卷积提取所述术前组织网格模型和术中组织网格模型的多层级特征：

其中，定义术前组织网格模型M_pre＝(V_pre,E_pre)，V_pre表示术前组织网格模型的顶点的空间坐标，E_pre表示术前组织网格模型的顶点之间的边；术中组织网格模型M_in＝(V_in,E_in)，V_in表示术前组织网格模型的顶点的空间坐标，E_in表示术中组织网格模型的顶点之间的边；

和/>分别表示术前组织模型的第n+1层和第n层的下采样尺度特征，初始化/>为V_pre；/>和/>分别表示术中组织模型的第n+1层和第n层特征，初始化/>为V_in；

分别由各自顶点与其B环邻域计算出的b阶切比雪夫多项式，/>分别是由边E_in,E_pre计算的缩放拉普拉斯矩阵，/>是神经网络的学习参数。

优选的，所述重叠预测模块具体用于：

采用注意力机制获取所述术前组织网格模型和术中组织网格模型的重叠区域，包括：

其中，O_pre表示术前组织网格模型M_pre重叠区域的掩码；O_in表示术中组织网格模型M_in重叠区域的掩码；cross和self分别表示self-attention和cross-attention操作；和/>分别表示术前组织网格模型和术中组织网格模型的顶点的第m级下采样尺度特征；

根据掩码O_pre和O_in，获取各自处于重叠区域内的顶点及其特征并使用多层感知机MLP计算术前组织网格模型M_pre中的顶点/>的对应点：

其中，是术中组织网格模型M_in中的顶点，对应于术前组织网格模型M_pre中的顶点/>表示余弦相似度计算，/>表示对术中组织网格模型处于重叠区域内的顶点进行位置编码操作；

采用最近邻搜索KNN建立顶点的局部邻域，采用奇异值分解SVD求解旋转矩阵，公式如下：

其中，表示顶点/>的旋转矩阵；/>表示使用KNN算法构建属于顶点的一个局部邻域；/>是术前组织网格模型的顶点/>的邻域点，/>是对应于邻域点/>的术中组织网格模型的顶点；

采用旋转矩阵改变点云坐标得到/>采用MLP预测顶点/>的位移向量，公式如下：

其中，表术前组织网格模型处于重叠区域的顶点的位移向量，并与旋转矩阵构成所述位姿变换关系。

优选的，所述全局融合模块具体用于：

采用MLP回归术前组织网格模型的所有顶点的旋转矩阵和位移向量：

其中，R_pre,t_pre分别表示术前组织网格模型的所有顶点的旋转矩阵和位移向量；表示根据处于重叠区域内的顶点/>与术前组织网格模型的所有顶点v_pre的距离计算的权重；

其中，表示所述术前组织网格模型配准后的所有顶点坐标。

优选的，在所述三维网格模型配准融合系统的训练阶段，基于真实数据生成训练集：

根据指定的双目内窥镜图像帧与术前组织网格模型之间的特征点对，基于特征点采用非刚性算法配准术前组织网格模型和术中组织网格模型，对于任一特征点有：

其中，Non_rigid_ICP表示非刚性配准算法ICP，表示术前组织网格模型的第a个用于非刚性配准的特征点，/>对应/>的术中组织网格模型的特征点，T_G为术前组织网格模型的整体转移矩阵，T_l,a是属于特征点v_pre,a的局部形变转移矩阵；

采用四元素插值求得术前组织网格模型中所有顶点的局部形变转移矩阵T_l，通过变换关系求得术前组织网格模型中的顶点v_pre配准后的坐标标签

优选的，在所述三维网格模型配准融合系统的训练阶段，构建如下有监督损失函数：

其中，Loss_s表示训练阶段的有监督损失函数；

β_s、γ_s分别表示有监督损失项系数；

N₁表示术前组织网格模型M_pre的顶点个数；

表示基于人工标注数据集的l2真值损失，/>表示术前组织网格模型配准后的所有顶点坐标；

I_c+II_c+III_c表示柯西格林不变量，用于约束体内组织形变的程度，I_c约束表面两点间弧线距离长度不变，II_c约束组织表面积不变，III_c约束组织体积不变。

优选的，所述三维网格模型配准融合系统还包括：

精度微调模块，用于引入无监督损失微调网络，辅助所述全局融合模块获取所述术前组织网格模型配准后的所有顶点坐标。

优选的，所述无监督损失微调网络在应用过程中，构建如下无监督损失函数：

其中，Loss_u表示无监督损失函数；

β_u,γ_u分别表示无监督损失项系数，和/>均为无监督训练时术前组织网格模型配准后的顶点坐标，/>表示在术中组织网格模型中距离配准后术前组织网格模型的顶点/>的最近点，/> 表示顶点/>和/>的欧式距离，表示在配准后的术前组织网格模型中距离术中组织网格模型的顶点v_in,b的最近点，表示顶点v_in,b和顶点/>的欧式距离；

N₁表示术前组织网格模型M_pre的顶点个数，N₂表示术中组织网格模型M_in的顶点个数；

表示无监督训练时的柯西格林不变量，/>约束表面两点间弧线距离长度不变，/>约束组织表面积不变，/>约束组织体积不变。

优选的，所述第二建模模块采用基于双目内窥镜的在线自监督学习深度估计方法，获取所述指定的双目内窥镜图像帧的深度值；所述在线自监督学习深度估计方法所使用的双目深度估计网络具有快速过学习的能力，能够利用自监督信息不断适应新场景；

在实时重建模式下，所述第二建模模块具体用于对连续影像视频帧进行过拟合，获取指定的双目内窥镜图像帧的深度值，包括：

提取单元，用于获取双目内窥镜影像，采用当前双目深度估计网络的编码器网络提取当前帧图像的多尺度特征；

融合单元，用于采用当前双目深度估计网络的解码器网络，对多尺度特征进行融合，获取当前帧图像中每个像素点的视差；

转化单元，用于根据相机内外参数，将视差转化为深度并作为当前帧图像的结果输出；

第一估计单元，用于在不引入外部真值的条件下，利用自监督损失更新当前双目深度估计网络的参数，用于下一帧图像的深度估计。

优选的，在精准测量模式下，所述第二建模模块具体用于对关键影像视频帧进行过拟合，包括：

第二估计单元，在不引入外部真值的条件下，根据指定的双目内窥镜图像帧的上一帧图像在实时重建模式中获取的双目深度估计网络，利用该指定的双目内窥镜图像帧对应的自监督损失更新前述双目深度估计网络的参数直至收敛，并将收敛后的双目深度估计网络用于对所述指定的双目内窥镜图像帧的精准深度估计，获取所述指定的双目内窥镜图像帧的深度值。

(三)有益效果

本发明提供了一种面向腹腔镜手术导航的三维网格模型配准融合系统。与现有技术相比，具备以下有益效果：

本发明中，获取术前组织网格模型和术中组织网格模型，网格数据较传统的点云考虑模型的顶点间的连接关系，提高了后续多模融合的精度；根据术前和术中组织网格模型，分别获取对应的多层级特征；根据多层级特征，获取术前和术中组织网格模型的重叠区域，并获取术前组织网格模型处于重叠区域内顶点的位姿变换关系；根据术前组织网格模型处于重叠区域内顶点的坐标和位姿变换关系、以及非重叠区域内顶点的坐标，获取术前组织网格模型配准后的所有顶点坐标；并向医生呈现组织内部信息，辅助医生做出临床决策，减少手术风险的同时提高手术效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种面向腹腔镜手术导航的三维网格模型配准融合系统的框架图；

图2为本发明实施例提供的另一种面向腹腔镜手术导航的三维网格模型配准融合系统的框架图；

图3为本发明实施例提供的一种基于双目内窥镜的在线自监督学习深度估计方法的技术框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种面向腹腔镜手术导航的三维网格模型配准融合系统，解决了多模融合的精度有待提高的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例主要应用但不局限于手术内窥镜场景例如腹腔镜手术场景。在腔镜手术的视场中，医生仅能看见组织的表面，而组织内部的血管位置和病灶区域等信息依赖于医生的经验判断。CT/MRI术前重建模型带有组织内部的血管、病灶区域信息，非刚性配准融合算法可以将术前组织网格模型配准到术中组织网格模型中，并借助常规的显示技术向医生呈现组织内部信息，辅助医生做出临床决策，减少手术风险的同时提高手术效率。

具体的，本发明实施例中，获取术前组织网格模型和术中组织网格模型，网格数据较传统的点云考虑模型的顶点间的连接关系，提高了后续多模融合的精度；根据术前和术中组织网格模型，分别获取对应的多层级特征；根据多层级特征，获取术前和术中组织网格模型的重叠区域，并获取术前组织网格模型处于重叠区域内顶点的位姿变换关系；根据术前组织网格模型处于重叠区域内顶点的坐标和位姿变换关系、以及非重叠区域内顶点的坐标；根据所述术前组织网格模型配准后的所有顶点坐标，在所述术中组织网格模型中显示术前组织网格模型的内部组织信息。

此外，可以根据指定的双目内窥镜图像帧的深度值，获取术中组织网格模型。具体可以采用基于双目内窥镜的在线自监督学习深度估计方法，获取所述指定的双目内窥镜图像帧的深度值；所述在线自监督学习深度估计方法所使用的双目深度估计网络具有快速过学习的能力，能够利用自监督信息不断适应新场景。并且在线自监督学习深度估计方法还提供实时重建模式和精准测量模式两种模式，用于确定指定的双目内窥镜图像帧的深度值。

双模式切换的深度估计，既可以提供术中解剖结构的实时点云，辅助医生直观理解术中三维结构，还可以基于单帧过拟合实现医生指定的双目内窥镜图像帧的高精度重构，为后续处理提供基础，使得在应用中兼顾速度与精度。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例：

如图1所示，本发明实施例提供了一种面向腹腔镜手术导航的三维网格模型配准融合系统，包括：

上述三维网格模型配准融合系统引入的网格数据，较传统的点云考虑模型的顶点间的连接关系，提高了后续多模融合的精度；并可以向医生呈现组织内部信息，辅助医生做出临床决策，减少手术风险的同时提高手术效率。

接下来将详细介绍上述技术方案的各个组成模块：

对于第一建模模块，其用于获取带有组织语义信息的术前组织网格模型。

示例性的，本模块采用3D Slicer等软件重建CT/MRI组织，获得三维网格模型，然后使用DeepLab等深度学习算法或手动分割划分血管、肝脏等组织，最终形成带有组织语义信息的术前组织网格模型M_pre＝(V_pre,E_pre)，其中V_pre表示模型的顶点空间坐标，E_pre表示顶点之间的边。

对于第二建模模块，其用于根据指定的双目内窥镜图像帧的深度值，获取术中组织网格模型。

示例性的，本模块采用一种基于双目内窥镜的在线自监督学习深度估计(具体参见后文)估计像素点的深度值D；并通过针孔相机模型计算像素点在相机坐标系下的空间坐标，其公式为

z＝D

其中，D为像素点的深度估计值；x、y、z分别表示相机坐标系下的x坐标、y坐标、z坐标；

c_x,c_y,f_x,f_y为双目内窥镜中左目或者右目内窥镜与相机内参矩阵中对应的参数，将图片转换成点云V_in＝{v_in,a|＝1,2,…N₁}，其中v_in,a表示第a个像素点的空间坐标；

最后使用Delaunay三角剖分生成点云V_in的邻接边E_in，最终形成术中组织网格模型M_in＝(V_in,E_in)。

对于特征提取模块，其用于根据所述术前组织网格模型和术中组织网格模型，分别获取对应的多层级特征。

具体的，所述特征提取模块采用切比雪夫谱图卷积提取所述术前组织网格模型和术中组织网格模型的多层级特征：

对于重叠预测模块，其用于根据所述多层级特征，获取所述术前组织网格模型和术中组织网格模型的重叠区域，并获取所述术前组织网格模型处于重叠区域内顶点的位姿变换关系；其中所述位姿变换关系包括旋转矩阵和位移向量。

具体的，所述重叠预测模块用于：

其中，是术中组织网格模型M_in中的顶点，对应于术前组织网格模型M_pre中的顶点/> 表示余弦相似度计算，/>表示对术中组织网格模型处于重叠区域内的顶点进行位置编码操作；

其中，表术前组织网格模型处于重叠区域的顶点的位移向量。

对于全局融合模块，其用于根据所述术前组织网格模型处于重叠区域内顶点的坐标和位姿变换关系、以及非重叠区域内顶点的坐标，获取所述术前组织网格模型配准后的所有顶点坐标；

具体的，所述全局融合模块用于：

其中，R_pre,t_pre分别表示术前组织网格模型的所有顶点的旋转矩阵和位移向量；表示根据处于重叠区域内的顶点/>与术前组织网格模型的所有顶点v_pre的距离计算的权重(其中，所有顶点包括处于重叠区域的顶点以及非重叠区域的顶点)；

其中，表示所述术前组织网格模型配准后的所有顶点坐标。

据此，可以明确本发明实施例提出基于网格数据的多模融合网络，通过重叠预测模块预测重叠区域和其位移场，并结合柯西格林不变量约束术前组织网格模型的非刚性形变，使得多模融合后的模型更加合理，减少多模融合的错误。

对于信息显示模块，其用于根据所述术前组织网格模型配准后的所有顶点坐标，在所述术中组织网格模型中显示术前组织网格模型的内部组织信息。

示例性的，本模块中可以采用VR眼镜将配准后的两个三维模型统一显示在一个坐标系中，也可以根据相机成像基本原理将配准后的术前组织网格模型叠加到腔镜影像中，这两种可选的显示手段都能实现向医生呈现组织内部信息，辅助医生做出临床决策，减少手术风险的同时提高手术效率。

需要注意的是，相比于现有技术中生物力学模型构建的虚拟配准数据集，本发明实施例针对体内柔性动态环境的特性，使用真实腔镜影像和医学检验数据构建数据集，该数据集训练的网络配准的精度更高。

具体的，在所述三维网格模型配准融合系统的训练阶段，基于真实数据生成训练集，包括：

相应的，在所述三维网格模型配准融合系统的训练阶段，需构建如下有监督损失函数：

其中，Loss_s表示训练阶段的有监督损失函数；

β_s、γ_s分别表示有监督损失项系数；

N₁表示术前组织网格模型M_pre的顶点个数；

特别的，在本发明实施例对指定的双目内窥镜图像帧进行配准的时候，由于腔镜灯光和病患个体性差异，重建的术中组织网格模型与数据集相比也存在差异，这些差异可能会导致配准精度的下降，使用无监督损失微调网络可以提高配准的精度。

据此，如图2所示，本发明实施例提供的三维网格模型配准融合系统还包括：

则所述无监督损失微调网络在应用过程中，需构建如下无监督损失函数：

其中，Loss_u表示无监督损失函数；

β_u,γ_u分别表示无监督损失项系数，和/>均为无监督训练时术前组织网格模型配准后的顶点坐标，/>表示在术中组织网格模型中距离配准后术前组织网格模型的顶点/>的最近点，/> 表示顶点/>和/>的欧式距离，/>表示在配准后的术前组织网格模型中距离术中组织网格模型的顶点v_in,b的最近点，表示顶点v_in,b和顶点/>的欧式距离；

本发明实施例构建以双向最近邻为损失函数的无监督微调机制，实现指定的双目内窥镜图像帧下，术前组织网格模型和术中组织网格模型的精准融合。

此外，除了上述内容中提及可能影响融合精度的因素以外，通过所述第二建模模块如何获取所述指定的双目内窥镜图像帧的深度值也是关键因素之一，因为这直接影响了术中组织网格模型的精度。

正如上文所言，所述第二建模模块采用基于双目内窥镜的在线自监督学习深度估计方法，获取所述指定的双目内窥镜图像帧的深度值；所述在线自监督学习深度估计方法所使用的双目深度估计网络具有快速过学习的能力，能够利用自监督信息不断适应新场景；

该种深度估计方案利用连续帧的相似性，将一对双目图像上的过拟合思想扩展到时间序列上的过拟合，通过在线学习不断更新模型参数，能在各种双目内窥镜手术环境下得到高精度的组织深度。

所述双目深度估计网络的预训练阶段抛弃了传统的训练模式，采用元学习的思路，让网络学习某一张图像去预测另外一张图像的深度，从而计算损失进行网络更新，可有效促进网络对新场景的泛化性和提升对低纹理复杂光照的鲁棒性，同时大幅减少了后续过拟合所需时间。

如图3中b部分所示，通过元学习方式训练获取所述双目深度估计网络对应的初始模型参数，具体包括：

S100、随机选取偶数对双目图像{e₁,e₂,…,e_2K}，并平均切分为支持集和查询集和/>中的图像随机配对形成K个任务/>

S200、内循环训练：根据中的支持集图像计算损失进行一次参数更新；

其中，表示内循环更新后的网络参数；/>表示求导，α为内循环的学习率，/>为第k个任务的支持集图像，/>是根据模型初始参数φ_m计算出的损失；f表示双目深度估计网络；

S300、外循环训练：根据中的查询集图像，利用更新后的模型计算元学习损失，直接更新模型初始参数φ_m为φ_m+1；

其中，β为外循环的学习率；是第k个任务的查询集图像，/>为元学习损失。

以下是对于所述第二建模模块包括的各个单元的详细说明：

对于提取单元，如图3中a部分所示，其获取双目内窥镜影像，采用当前双目深度估计网络的编码器网络提取当前帧图像的多尺度特征。

示例性的，本单元中双目深度估计网络的编码器采用ResNet18网络，用于对当前帧图像(左目和右目)分别提取5个尺度的特征图。

对于融合单元，如图3中a部分所示，其采用当前双目深度估计网络的解码器网络，对多尺度特征进行融合，获取当前帧图像中每个像素点的视差；具体包括：

采用所述解码器网络将粗尺度特征图经过卷积块和上采样，与细尺度特征图拼接，再次经过卷积块进行特征融合，其中结合反射填充层(reflection padding)、卷积层、非线性激活单元ELU构建所述卷积块；

根据网络分辨率最高的输出直接计算视差：

d＝k·(sigmoid(conv(Y))-TH)

其中，d表示像素点的视差估计值；k为预先设定的最大视差范围，Y是分辨率最高的输出；TH表示与双目内窥镜的类型有关的参数，当内窥镜图像存在负视差时取0.5，当内窥镜图像均为正视差时取0；conv是卷积层；sigmoid进行范围归一化。

对于转化单元，其根据相机内外参数，将视差转化为深度并作为当前帧图像的结果输出

本单元中将视差转化为深度是指：

其中，c_x1、分别为双目内窥镜中左目和右目内窥镜与相机内参矩阵中对应的参数；如果f_x取左目相机对应内参/>时，则d取左目像素点的视差估计值，此时D为左目像素点深度估计值；如果f_x取右目相机对应内参/>则d取右目像素点的视差估计值，此时D为右目像素点深度估计值；b为基线长度，即双目相机外参。

对于第一估计模块，如图3中b部分所示，其在不引入外部真值的条件下，利用自监督损失更新当前双目深度估计网络的参数，用于下一帧图像的深度估计。

不难理解的是，本发明实施例中所提及的“外部真值”即为标签(或者称为“监督信息”)，此乃本领域内公知表述。

本单元中，如图3中b部分所示，所述自监督损失表示为：

其中，L_self表示自监督损失；α₁、α₂、α₃、α₄均为超参数，l对应左图，r对应右图。

因为双目观察到的是同一个场景，所以左右深度图上对应像素点，变换到同一坐标系下的值应该相等，引入和/>

(1)表示左图的几何一致性损失：

其中，P₁表示第一有效像素点集合(即右目有效像素点)；表示有效像素点p由右目深度图，经过相机位姿变换后获得的左目深度，D_l′(p)表示有效像素点p利用预测的右图视差Dis_R，在左目深度图上采样获得的左目深度。

(2)表示右图的几何一致性损失：

其中，P₂表示第二有效像素点集合(即左目有效像素点)；表示有效像素点p由左目深度图，经过相机位姿变换后获得的右目深度，D_r′(p)表示有效像素点p利用预测的左图视差Dis_L，在右目深度图上采样获得的右目深度。

通过训练损失中加入几何一致性约束实现，保证网络对于硬件的泛用性，实现自主适应手术内窥镜等非常规双目图像。

假设内窥镜手术中亮度恒定和空间平滑，利用左右目图片间的重投影可以实现另一目的重构，同时增加了结构相似度损失，对两幅图像的亮度、对比度和结构进行了归一化和比较，引入和/>

(3)表示左图的光度损失：

其中，I_L(p)表示左图，I_L′(p)表示利用右图与预测的左图视差Dis_L(p)生成的左目内窥镜重构图像，λ_i和λ_s为平衡参数，SSIM_LL′(p)表示I_L(p)与I_L′(p)的图像结构相似度；

(4)表示右图的光度损失：

其中，I_R(p)表示右图，I′_R(p)表示利用左图与预测的右图视差Dis_R(p)生成的右目内窥镜重构图像，SSIM_RR′(p)表示I_R(p)与I′_R(p)的图像结构相似度。

在低纹理和单一颜色的组织区域，采用平滑先验辅助推理并且对深度进行正则化，引入和/>

(5)表示左图的平滑损失：

其中，表示归一化的左目深度图，/>和/>表示沿着图像水平与垂直方向的一阶导数；

(6)表示右图的平滑损失：

其中，表示归一化的右目深度图，/>和/>表示沿着图像水平与垂直方向的一阶导数。

特别的，所述第一有效像素点集合P₁和第二有效像素点集合P₂的获取过程如下：

定义当前双目深度估计网络预测的左目视差值为右目视差值为/>则左目和右目交叉验证掩码的公式化表达如下：

/>

其中，分别用于判断左右目图像中(i,j)位置的像素是否在立体匹配范围内；i取值范围为[1,W]间所有整数；j取值范围为[1,H]间所有整数；W表示图像宽度，H表示图像高度；

令c取L或R，当时，表示当前计算方法下(i,j)位置的像素在立体匹配范围内，否则不在立体匹配范围内；

利用针孔相机模型、双目位姿变换与预测深度进行投影，获取基于3d点的有效区域掩码取0或1，当/>时，表示当前计算方法下(i,j)位置的像素在立体匹配范围内，否则不在立体匹配范围内；

获取最终的有效区域掩码

若像素点p满足当c取R则获取第一有效像素点集合P₁，当c取L则获取第二有效像素点集合P₂。

在校正后的立体图像中，由于视角偏移引起的额外区域，无法找到匹配的像素。然而，本发明实施例考虑到体内组织的低纹理和光照不均匀会导致局部特征更加不明显，这些无效区域内的像素往往会在邻近区域中找到相似的像素。因此如上文所言，本发明实施例提出了基于交叉验证双目有效区域识别算法，排除了无效区域像素的自监督损失对网络学习的误导，提升了深度估计的精度。

此外，为避免在纯纹理或低光照场景的深度估计鲁棒性不足，还引入

(7)表示稀疏光流损失：

其中，Dis_L(p)表示预测的左目视差图，OF_L(p)表示左目稀疏视差图，Dis_R(p)表示预测的右目视差图，OF_R(p)表示右目稀疏视差图；P₃表示左目稀疏视差图OF_L(p)中的第三有效像素集合；P₄表示右目稀疏视差图OF_R(p)中的第四有效像素集合；γ₁和γ₂为平衡参数，均为非负数且不同时取0。

特别的，所述第三有效像素点集合P₃和第四有效像素点集合P₄的获取过程如下：

利用LK(Lucas-Kanade)光流求解算法，在行列方向每隔n个像素计算稀疏光流(Δx,Δy)，其中Δx表示像素点水平方向的偏移量，Δy表示像素点垂直方向的偏移量；

当求解左图到右图的光流时，仅当且Δx>thred₁，保留该像素位置的视差为Δx，其中KT与thred₁为相应的预设阈值，不满足上述条件或不计算稀疏光流位置的视差置0，以获取最终的稀疏视差图OF_L(p)，OF_L(p)≠0的像素点构成第三有效像素点集合P₃；/>

当求解右图到左图的光流时，仅当且Δx<thred₂，保留该像素位置的视差为Δx，其中thred₂为相应的预设阈值，不满足上述条件或不计算稀疏光流位置的视差置0，以获取最终的稀疏视差图OF_R(p)，OF_R(p)≠0的像素点构成第四有效像素点集合P₄。

正如上文所言本发明实施例引入传统Lucas-Kanade光流推导双目图像之间的稀疏视差，给予网络合理的学习方向，提高快速学习能力并降低陷入局部最优的概率。

特别强调的是，除了实时重建模式以外，本发明实施例中所述第二建模模块采用的在线自监督学习深度估计方法还设置了精准测量模式。如图3中b部分所示，在精准测量模式下，所述第二建模模块具体用于对关键影像视频帧进行过拟合，包括：

值得注意的是，精准测量模式下的深度估计网络、自监督损失函数、有效区域掩码计算、元学习预训练方式等技术细节均与实时重建模式中拓展的技术细节保持一致，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例提供的三维网格模型配准融合系统引入的网格数据，较传统的点云考虑模型的顶点间的连接关系，提高了后续多模融合的精度；并可以向医生呈现组织内部信息，辅助医生做出临床决策，减少手术风险的同时提高手术效率。

2、本发明实施例基于真实数据通过人工标注和插值的方法生成训练数据，以有监督的方式训练多模配准融合网络，最后通过无监督微调进一步提高配准精度。

3、本发明实施例介绍了一种基于双目内窥镜的在线自监督学习深度估计方法，其有益效果至少包括：

3.1切换的深度估计，既可以提供术中解剖结构的实时点云，辅助医生直观理解术中三维结构，还可以基于单帧过拟合实现医生手选关键帧的高精度重构，为后续测量提供基础，使得在应用中兼顾速度与精度。

3..2利用连续帧的相似性，将一对双目图像上的过拟合思想扩展到时间序列上的过拟合，通过在线学习不断更新模型参数，能在各种双目内窥镜手术环境下得到高精度的组织深度。

3.3、网络模型的预训练阶段抛弃了传统的训练模式，采用元学习的思路，让网络学习某一张图像去预测另外一张图像的深度，从而计算损失进行网络更新，可有效促进网络对新场景的泛化性和提升对低纹理复杂光照的鲁棒性，同时大幅减少了后续过拟合所需时间。

3.4、通过训练损失中加入几何一致性约束实现，保证网络对于硬件的泛用性，实现自主适应手术内窥镜等非常规双目图像。

3.5、将每一帧双目图像的深度估计作为独立的任务，实时过拟合得到适用于当前帧的高精度模型；且通过在线学习能快速学习新场景从而获得高精度深度估计结果。

3.6、基于交叉验证双目有效区域识别算法，排除了无效区域像素的自监督损失对网络学习的误导，提升了深度估计的精度。

3.7、引入传统Lucas-Kanade光流推导双目图像之间的稀疏视差，给予网络合理的学习方向，提高快速学习能力并降低陷入局部最优的概率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向腹腔镜手术导航的三维网格模型配准融合系统，其特征在于，包括：

2.如权利要求1所述的三维网格模型配准融合系统，其特征在于，所述特征提取模块采用切比雪夫谱图卷积提取所述术前组织网格模型和术中组织网格模型的多层级特征：

其中，定义术前组织网格模型M_pre＝(V_pre，E_pre)，V_pre表示术前组织网格模型的顶点的空间坐标，E_pre表示术前组织网格模型的顶点之间的边；术中组织网格模型M_in＝(V_in，E_in)，V_in表示术前组织网格模型的顶点的空间坐标，E_in表示术中组织网格模型的顶点之间的边；

和/>分别表示术前组织模型的第n+1层和第n层的下采样尺度特征，初始化为V_pre；/>和/>分别表示术中组织模型的第n+1层和第n层特征，初始化/>为V_in；

分别由各自顶点与其B环邻域计算出的b阶切比雪夫多项式，/>分别是由边E_in，E_pre计算的缩放拉普拉斯矩阵，/>是神经网络的学习参数。

3.如权利要求2所述的三维网格模型配准融合系统，其特征在于，所述重叠预测模块具体用于：

其中，O_pre表示术前组织网格模型M_pre重叠区域的掩码；O_in表示术中组织网格模型M_in重叠区域的掩码；cross和self分别表示self-attention和cross-attention操作；和分别表示术前组织网格模型和术中组织网格模型的顶点的第m级下采样尺度特征；

根据掩码O_pre和O_in，获取各自处于重叠区域内的顶点及其特征/>并使用多层感知机MLP计算术前组织网格模型M_pre中的顶点/>的对应点：

其中，是术中组织网格模型M_in中的顶点，对应于术前组织网格模型M_pre中的顶点表示余弦相似度计算，/>表示对术中组织网格模型处于重叠区域内的顶点进行位置编码操作；

其中，表示顶点/>的旋转矩阵；/>表示使用KNN算法构建属于顶点/>的一个局部邻域；/>是术前组织网格模型的顶点/>的邻域点，/>是对应于邻域点的术中组织网格模型的顶点；

其中，表术前组织网格模型处于重叠区域的顶点的位移向量，并与旋转矩阵/>构成所述位姿变换关系。

4.如权利要求3所述的三维网格模型配准融合系统，其特征在于，所述全局融合模块具体用于：

其中，R_pre，t_pre分别表示术前组织网格模型的所有顶点的旋转矩阵和位移向量；表示根据处于重叠区域内的顶点/>与术前组织网格模型的所有顶点v_pre的距离计算的权重；

其中，表示所述术前组织网格模型配准后的所有顶点坐标。

5.如权利要求1所述的三维网格模型配准融合系统，其特征在于，在所述三维网格模型配准融合系统的训练阶段，基于真实数据生成训练集：

其中，Non_rigid_ICP表示非刚性配准算法ICP，表示术前组织网格模型的第a个用于非刚性配准的特征点，/>对应/>的术中组织网格模型的特征点，T_G为术前组织网格模型的整体转移矩阵，T_l，a是属于特征点v_pre，a的局部形变转移矩阵；

6.如权利要求5所述的三维网格模型配准融合系统，其特征在于，在所述三维网格模型配准融合系统的训练阶段，构建如下有监督损失函数：

其中，Loss_s表示训练阶段的有监督损失函数；

β_s、γ_s分别表示有监督损失项系数；

N₁表示术前组织网格模型M_pre的顶点个数；

7.如权利要求1所述的三维网格模型配准融合系统，其特征在于，还包括：

8.如权利要求7所述的三维网格模型配准融合系统，其特征在于，所述无监督损失微调网络在应用过程中，构建如下无监督损失函数：

其中，Loss_u表示无监督损失函数；

β_u，γ_u分别表示无监督损失项系数，和/>均为无监督训练时术前组织网格模型配准后的顶点坐标，/>表示在术中组织网格模型中距离配准后术前组织网格模型的顶点/>的最近点，/> 表示顶点/>和/>的欧式距离，/>表示在配准后的术前组织网格模型中距离术中组织网格模型的顶点v_in，b的最近点，表示顶点v_in，b和顶点/>的欧式距离；

9.如权利要求1～8任一项所述的三维网格模型配准融合系统，其特征在于，

所述第二建模模块采用基于双目内窥镜的在线自监督学习深度估计方法，获取所述指定的双目内窥镜图像帧的深度值；所述在线自监督学习深度估计方法所使用的双目深度估计网络具有快速过学习的能力，能够利用自监督信息不断适应新场景；

10.如权利要求9所述的三维网格模型配准融合系统，其特征在于，

在精准测量模式下，所述第二建模模块具体用于对关键影像视频帧进行过拟合，包括：