CN117710279A

CN117710279A - 内窥镜定位方法、电子设备和非暂态计算机可读存储介质

Info

Publication number: CN117710279A
Application number: CN202211086312.XA
Authority: CN
Inventors: 刘宏斌; 田庆瑶; 张子惠
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2024-03-15
Also published as: WO2024050918A1

Abstract

本发明提供一种内窥镜定位方法、电子设备和非暂态计算机可读存储介质，包括：基于深度提取网络获取真实内窥镜采集的第t帧图像的深度图像获取虚拟内窥镜采集的第t‑n帧目标虚拟图像的深度图像d_t‑n，或基于深度提取网络获取真实内窥镜采集的第t‑n帧图像的深度图像将深度图像和深度图像d_t‑n或将深度图像和深度图像输入深度配准网络，得到真实内窥镜的相对位姿估计信息将相对位姿估计信息与真实内窥镜采集第t‑n帧图像时的位姿估计信息叠加，获得真实内窥镜采集第t帧图像的位姿估计信息该方法可快速、准确且连续的获得真实内窥镜当前的位姿信息。

Description

内窥镜定位方法、电子设备和非暂态计算机可读存储介质

技术领域

本发明涉及内窥镜定位技术领域，尤其涉及一种内窥镜定位方法、电子设备和非暂态计算机可读存储介质。

背景技术

内窥镜是集中了传统光学、人体工程学、精密机械、现代电子、数学、软件等于一体的检测仪器。具有图像传感器、光学镜头、光源照明、机械装置等，它可以经口腔进入胃内或经其他天然孔道进入体内。利用内窥镜可以看到X射线不能显示的病变，因此成为了医学检查中常用的技术手段。

目前，内窥镜定位常用的方法包括：(1)通过明暗恢复形状(Shape from shading，SFS)方法提取内窥镜图像深度，将深度大的部分识别为气道。在提取出气道后，对比术前CT重建出的模型，将当前图像映射到相机处于的气道分支或者根据相邻图像中气道最深处位置的变化，估算内窥镜运动。该方法气道分叉处可能实现，而在视野中没有或只有一个气道的情况下难以提供连续的内窥镜定位信息。(2)通过运动结构恢复(Structure FromMotion，SFM)方法，提取内窥镜图像特征点，对于相邻两帧图像，将特征点一一匹配，并据此解算 Perspective-n-Point(PnP)进行内窥镜位姿估计。该方法在内窥镜图像的特征点较少或缺少特征点时Perspective-n-Point(PnP)将不能求解，出现内窥镜定位丢失的问题。(3)2D/3D配准方法，通过将内窥镜拍摄到的2D图像配准到术前重建出的虚拟模型上，从而得到内窥镜在模型中的位置。该方法基于迭代优化算法，因此得到每帧定位都需要较长的计算时间，而内窥镜在实际检查中的位姿变化很快，过长的计算时间容易造成定位丢失。

发明内容

本发明提供一种内窥镜定位方法、电子设备和非暂态计算机可读存储介质，用以解决现有技术中不能提供连续定位信息、易造成定位丢失的缺陷，实现对内窥镜的快速、准确定位并能够对获得连续的位姿信息。

本发明提供一种内窥镜定位方法，包括：

基于预训练的深度提取网络获取真实内窥镜采集的第t帧图像的深度图像

获取虚拟内窥镜在目标虚拟模型中t-n帧定位位姿处采集的第 t-n帧目标虚拟图像的深度图像d_t-n，或基于预训练的所述深度提取网络获取所述真实内窥镜采集的第t-n帧图像的深度图像其中，所述虚拟内窥镜是基于所述真实内窥镜确定的；

将所述深度图像和所述深度图像d_t-n或将所述深度图像/>和所述深度图像输入预训练的深度配准网络，得到所述真实内窥镜采集第t帧图像与采集第t-n帧图像时的相对位姿估计信息/>

将所述相对位姿估计信息与所述真实内窥镜采集第t-n 帧图像时的位姿估计信息/>叠加，获得所述真实内窥镜采集第t帧图像的位姿估计信息/>并根据所述位姿估计信息/>对所述真实内窥镜进行定位。

根据本发明提供的一种内窥镜定位方法，所述深度提取网络为基于循环生成对抗网络和预训练的所述深度配准网络的深度提取网络，所述循环生成对抗网络包括第一生成器、第一判别器、第二生成器和第二判别器，所述第一生成器用于将深度图像转换为真实风格的内窥镜图像，所述第二生成器用于将真实风格的内窥镜图像转换为深度图像；

基于循环生成对抗网络和所述深度配准网络的所述深度提取网络是通过下述方式训练得到的：

建立虚拟模型，获取所述虚拟内窥镜在所述虚拟模型中采集的虚拟图像的深度图像并获取采集所述虚拟图像时所述虚拟内窥镜对应的虚拟位姿信息；

获取预设真实内窥镜图像；

将所述预设真实内窥镜图像、所述虚拟图像的深度图像和所述虚拟位姿信息作为训练数据对初始深度提取网络进行弱监督训练；

基于对所述初始深度提取网络进行约束的循环一致性损失、身份损失、生成对抗损失、重建损失、几何一致性损失进行加权求和得到损失函数；

优化所述损失函数，更新基于循环生成对抗网络和所述深度配准网络的初始深度提取网络的参数，直至预设轮数，以得到基于循环生成对抗网络和所述深度配准网络的所述深度提取网络。

根据本发明提供的一种内窥镜定位方法，所述深度提取网络为基于SfMLearner的深度提取网络或基于循环生成对抗网络的深度提取网络；

在将所述深度图像和所述深度图像d_t-n或将所述深度图像/>和所述深度图像输入预训练的所述深度配准网络之前，所述方法还包括：

对所述深度图像和所述深度图像/>进行尺度标定以得到所述深度图像/>和所述深度图像/>的单位。

根据本发明提供的一种内窥镜定位方法，所述深度配准网络为通过如下方式训练得到的：

建立虚拟模型，获取所述虚拟内窥镜在所述虚拟模型中采集的虚拟图像的深度图像，并获取所述虚拟内窥镜采集所述虚拟图像时对应的虚拟位姿信息；

将所述虚拟图像的深度图像输入初始深度配准网络，所述初始深度配准网络输出采集相邻两帧虚拟图像时所述虚拟内窥镜的相对位姿估计信息；

将所述虚拟位姿信息作为训练真值，根据所述虚拟位姿信息获得所述虚拟内窥镜采集所述相邻两帧虚拟图像时的虚拟相对位姿信息；

通过对所述相对位姿估计信息与虚拟相对位姿信息之间的平移损失和旋转损失进行加权求和得到所述损失函数；

优化所述损失函数，更新所述初始深度配准网络的参数，直至收敛，以得到所述深度配准网络。

根据本发明提供的一种内窥镜定位方法，还包括：

采用基于迭代优化算法的配准方法与所述深度配准网络并行运行的方式，根据基于迭代优化算法的配准方法获得修正位姿对所述真实内窥镜的位姿估计信息进行修正，消除累积误差。

根据本发明提供的一种内窥镜定位方法，根据基于迭代优化算法的配准方法获得修正位姿的方法，包括：

获取真实内窥镜采集的第k帧图像作为当前修正图像，并通过所述深度提取网络获取第k帧图像的深度图像其中k≤t；

获取基于所述深度配准网络获得的所述真实内窥镜采集第k帧图像的位姿估计信息

利用所述当前修正图像、或所述深度图像或所述当前修正图像和所述深度图像/>对所述真实内窥镜视野中的腔道图像进行语义分割；

基于图像相似性测度和语义分割相似性测度，以位姿估计信息为初始值进行优化求解，得到当前修正图像的修正位姿/>

将所述真实内窥镜采集第k帧图像时的位姿估计信息替换为所述修正位姿/>

获取所述虚拟内窥镜在所述目标虚拟模型中第k帧定位位姿处采集的第k帧目标虚拟图像的深度图像d_k；

将所述深度图像转换为对应的点云/>将所述深度图像d_k转换为点云图像Y_k；

通过ICP算法求解Y_k到之间的相对位姿/>

采用所述相对位姿修正所述真实内窥镜采集第k帧图像时的位姿估计信息/>

根据本发明提供的一种内窥镜定位方法，还包括：

采用RGB图像特征提取方法提取真实内窥镜采集的第t帧图像的特征信息，将所述第t帧图像的特征信息和所述深度图像一起输入预训练的所述深度配准网络；

采用RGB图像特征提取方法提取真实内窥镜采集的第t-n帧图像的特征信息或提取虚拟内窥镜采集的第t-n帧目标虚拟图像的特征信息，其中，所述第t-n帧目标虚拟图像的特征信息是在对所述第t-n帧目标虚拟图像进行纹理贴图后提取的；

将所述第t-n帧目标虚拟图像的特征信息和所述深度图像d_t-n，或将所述第t-n帧图像的特征信息和所述深度图像输入预训练的所述深度配准网络。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述内窥镜定位方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述内窥镜定位方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述内窥镜定位方法。

本发明提供的内窥镜定位方法，通过在获知真实内窥镜初始位姿的情况下，采用预训练的深度提取网络和深度配准网络，可以快速、准确且连续的获得真实内窥镜当前的位姿信息。该方法中的深度提取网络和深度配准网络训练学习后针对不同的病人可以直接进行使用，不需要在术前进行训练，方便且节省时间。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的内窥镜定位方法的流程示意图之一；

图2是本发明提供的深度提取网络结构示意图；

图3是本发明提供的深度提取网络的训练方法的流程示意图；

图4a是本发明提供的深度提取网络生成器架构示意图；

图4b是本发明提供的深度提取网络Resnet块架构示意图

图4c是本发明提供的深度提取网络判别器架构示意图

图5是本发明提供的深度配准网络的训练方法的流程示意图；

图6是本发明提供的深度配准网络架构示意图；

图7是本发明提供的基于迭代优化算法的配准方法获得修正位姿的方法的流程示意图之一；

图8是本发明提供的基于迭代优化算法的配准方法获得修正位姿的方法的流程示意图之二；

图9是本发明提供的内窥镜定位方法的流程示意图之二；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图9描述本发明的内窥镜定位方法，如图1所示，该方法包括：

S101：基于预训练的深度提取网络获取真实内窥镜采集的第t帧图像的深度图像

在本发明实施例中，该内窥镜定位方法可以使用在呼吸道、胆道、脑室等人体自然腔道。该方法中首先需要获取真实内窥镜采集的当前帧即第t帧图像的深度图像深度图像(depth image)也被称为距离影像(range image)，是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。深度图像经过坐标转换可以计算为点云数据，有规则及必要信息的点云数据也可以反算为深度图像数据。

S102：获取虚拟内窥镜在目标虚拟模型中t-n帧定位位姿处采集的第t-n帧目标虚拟图像的深度图像d_t-n，或基于预训练的所述深度提取网络获取所述真实内窥镜采集的第t-n帧图像的深度图像其中，所述虚拟内窥镜是基于所述真实内窥镜确定的。

具体的，获取虚拟内窥镜在目标虚拟模型中t-n帧定位位姿处采集的第t-n帧目标虚拟图像的深度图像d_t-n，或获取所述真实内窥镜采集的第t-n帧图像的深度图像虚拟内窥镜在目标虚拟模型中是随着真实内窥镜的移动一起移动的，虚拟内窥镜在目标虚拟模型中t-n帧定位位姿处即是将真实内窥镜在采集第t-n帧图像时的定位位姿处对应到目标虚拟模型中得到的。其中，n≤10，即当前帧图像前十帧以内的图像，以使得t-n帧和t帧有较多的相似特征点。本方法中n的值不是固定的，例如当前帧是第8帧图像时，t-n可以等于7即是第7帧图像，此时n＝1，也可以等于3即是第3帧图像，此时n＝5。在当前帧为第9帧图像时，t-n可以等于7即第7帧图像，此时n＝2。

虚拟内窥镜需要基于真实内窥镜进行确定，因此虚拟内窥镜的内参需要与真实内窥镜的内参一致。

示例性的：对真实内窥镜使用MATLAB软件进行棋盘格标定，得到内窥镜的内参。

真实内窥镜的内参为：

图像像素为：

宽度*长度＝width×height

令：

平均焦距长度：

窗口中心x轴坐标：wcx＝-2×(cx-width/2)/width

窗口中心y轴坐标：wcy＝2×(cy-height/2)/height

此时，设计虚拟内窥镜时，虚拟内窥镜的参数为：

视场角：

ViewAngle＝180/π*(2.0*atan2(height/2.0,focal_length))

窗口大小：

WindowSize＝[width,height]

窗口中心位置：

WindowCenter＝[wcx,wcy]

S103：将所述深度图像和所述深度图像d_t-n或将所述深度图像/>和所述深度图像/>输入预训练的深度配准网络，得到所述真实内窥镜采集第t帧图像与采集第t-n帧图像时的相对位姿估计信息/>

具体的，可以通过将深度图像和深度图像d_t-n输入预训练的深度配准网络，得到真实内窥镜采集第t帧图像与采集第t-n帧图像时的相对位姿估计信息/>也可以将深度图像/>和深度图像/>输入预训练的深度配准网络，得到所述真实内窥镜采集第t帧图像与采集第t-n帧图像时的相对位姿估计信息/>

S104：将所述相对位姿估计信息与所述真实内窥镜采集第 t-n帧图像时的位姿估计信息/>叠加，获得所述真实内窥镜采集第 t帧图像的位姿估计信息/>并根据所述位姿估计信息/>对所述真实内窥镜进行定位。

具体的，将得到的相对位姿估计信息与所述真实内窥镜采集第t-n帧图像时的位姿估计信息/>叠加，即可以获得所述真实内窥镜采集第t帧图像的位姿估计信息根据该位姿估计信息/>对所述真实内窥镜进行定位。

真实内窥镜初始位置的位姿信息可以是在深度配准网络初始化的时候获知的。

在一个实施例中，如图2中所示，所述深度提取网络为基于循环生成对抗网络和预训练的所述深度配准网络的深度提取网络，所述循环生成对抗网络包括第一生成器、第一判别器、第二生成器和第二判别器，所述第一生成器用于将深度图像转换为真实风格的内窥镜图像，所述第二生成器用于将真实风格的内窥镜图像转换为深度图像；

如图3中所示，基于循环生成对抗网络和所述深度配准网络的所述深度提取网络是通过下述方式训练得到的：

S301：建立虚拟模型，获取所述虚拟内窥镜在所述虚拟模型中采集的虚拟图像的深度图像并获取采集所述虚拟图像时所述虚拟内窥镜对应的虚拟位姿信息。

具体的，上述深度提取网络训练之前，需要先训练出深度配准网络，该深度提取网络需要应用训练好的深度配准网络。图像的风格是指图像中不同空间尺度的纹理、颜色和视觉图案。

在实际中，由于在真实内窥镜检查中得到内窥镜的位姿是比较困难的，因此，我们需要建立虚拟模型，通过虚拟内窥镜来获取大量的深度图像和虚拟位姿信息来对深度提取网络进行训练监督，由此可以提高深度提取网络的鲁棒性，虚拟模型可以有多种，如针对呼吸道的虚拟模型，针对胆道的虚拟模型等，可以根据使用需要建立对应的虚拟模型。

S302：获取预设真实内窥镜图像。

预设真实内窥镜图像对应的目标体与虚拟模型建立对应的目标体是一致的，例如虚拟模型是根据呼吸道建立的呼吸道虚拟模型，则预设真实内窥镜图像也是采集的呼吸道的图像。

S303：将所述预设真实内窥镜图像、所述虚拟图像的深度图像和所述虚拟位姿信息作为训练数据对初始深度提取网络进行弱监督训练。

具体的，将上述步骤获得的深度图像和虚拟位姿信息作为训练数据对初始深度提取网络进行弱监督训练。

S304：基于对所述初始深度提取网络进行约束的循环一致性损失、身份损失、生成对抗损失、重建损失、几何一致性损失进行加权求和得到损失函数。

具体的，参考图2，循环生成对抗网络Cycle GAN包括第一生成器G_image、第一判别器G_image、第二生成器G_depth和第二判别器D_dept，将深度图像域和内窥镜图像域分别记为Z和X。

循环一致性损失：

对于一张内窥镜图像x∈X，深度提取算法旨在学习一个映射 G_dept：X→Z，从x_t生成其相应的深度图像接着，映射G_image：Z→X将/>重建到域X，从而完成循环，循环一致性损失指的是将/>重建到域X后与x_t的差距。从Z域到X域的转换也是类似。这里的重建循环中，网络模型对G_image、G_depth施加循环一致性损失：

其中，y为变量，表示某一帧图像，p表示概率分布，表示期望。

身份损失：

为了对映射的学习添加约束，提出身份损失：

生成对抗损失：

在生成器完成映射循环的同时，判别器D_image、D_depth分别学习判别输入的内窥镜图像和深度图像是真还是假；而生成器希望可以骗过判别器，生成可以被判别器认为真的图像，因此，引入生成对抗损失，这里可以采用LS-GAN损失：

其中·用来省略image或depth。y～p(data)代表样本服从域X或 Y的分布。

重建损失：

为了使网络学习到给定尺度的深度图像估计，可以从虚拟模型中采集虚拟内窥镜的运动轨迹，记录每一时刻的虚拟内窥镜位姿和对应深度图像，通过采集的虚拟内窥镜位姿和对应深度图像在生成的真实内窥镜采集的图像帧之间施加视图一致性约束，在对抗损失基础上根据Perspective-n-point(PnP)添加了图像视图一致性损失。

有深度图像z_t-n和z_t，分别输入到生成器G_image可以得到生成的内窥镜图像和由于t-n时刻和t时刻虚拟位姿信息在采集数据时也被记录下来，可以计算出从t-n时刻到t时刻的虚拟相对位姿 p_t-n,t＝(t_x,t_y,t_z,θ,φ,ψ)。已知相机内参K，齐次坐标下的像素点可以通过下式翘曲到/>

其中，为从t-n时刻到t时刻的相机的平移向量；从t-n时刻到t时刻的相机旋转矩阵R_t-n,t由下式计算：

其中，α₁＝sinθ，α₂＝sinφ，α₃＝sinψ，β₁＝cosθ，β₂＝cosφ，β₃＝cosψ。

在训练时使用n≤5。过大的n不能保证两张图像间有足够的共视区域。

由于通常为非整数，需要通过双曲采样到整数像素坐标，最终得到从/>翘曲到的图像/>而/>应当与/>一致，因此由视图一致性得到重建损失：

其中w(·)是翘曲到空间的算子，/>是由/>和通过相对平移向量t_t-n,t及相对旋转向量R_t-n,t重投影得到的深度图像；/>代表图像x中的一个像素。由此，G_image被鼓励学习从深度图像到对应内窥镜图像的无偏估计。由于循环一致性的约束，G_depth也将被鼓励学习从内窥镜图像到深度图像的无偏估计，也即生成与输入深度图尺度一致的深度图像。

为了进一步约束生成器G_depth：X→Z的学习，视图一致性也被加入到x_t-n和x_t以及生成的深度图和/>虽然此时的内窥镜相对位姿不能被采集，但有预训练的深度配准网络基于深度的位姿估计算法，通过/>和/>可以计算对应的内窥镜的相对位姿。在训练中加载预训练的位姿估计网络，来估计内窥镜的相对运动p_t-n,t。此时，一个理想的深度图像估计应该包含令位姿估计网络捕捉到内窥镜运动的信息，也就得到由视图一致性得到的重建损失：

因此，得到总的视图一致性重建损失：

几何一致性损失：

对于生成的深度图和/>若它们对应相同的3D场景，那么两者对应的深度信息应该一致。深度图/>和/>的不一致z_diff被定义为：

其中，是由/>和通过预训练的深度配准网络计算出的虚拟内窥镜相对位姿p_t-n,t重投影得到的深度图像。/>是从/>采样得到的深度图。这里计算/>和/>的误差，而不是/>和/>的误差，这是因为/>重投影的结果并不在一个整数坐标系上，需要把/>采样到同样的坐标系，以计算两者的差。

几何一致性损失被定义为：

其中，代表图像z中的一个像素。

综上，深度提取网络训练的总损失函数：

其中，β、γ、δ、θ₁、θ₂、η为调节各损失权重的超参数。

S305：优化所述损失函数，更新基于循环生成对抗网络和所述深度配准网络的初始深度提取网络的参数，直至预设轮数，以得到基于循环生成对抗网络和所述深度配准网络的所述深度提取网络。

如图4(a)、4(b)、4(c)中所示，为深度提取网络的架构示意图，其中，(a)生成器，(b)深度配准网络中的Resnet块，(c)判别器。该图所示张量的维数是基于图像大小为1×256×256的输入；Res(256，256) 表示输入和输出通道为256的Resnet块；IN表示InstanceNorm层， Leaky ReLU表示Leaky ReLU激活函数。

示例性的，深度提取网络可以由7段预设真实内窥镜视频和8段虚拟内窥镜采集的数据进行训练，包括多张预设真实内窥镜图像、 2187张深度图像和对应的虚拟内窥镜位姿。在深度提取网络架构中，生成器为常规编码器-解码器架构，其中瓶颈层由六个Resnet块组成，判别器由五个卷积层组成。采用Adam优化器训练100轮，训练开始时设置学习率0.001和θ₁＝θ₂＝η＝0，避免对早期生成结果不佳的深度图施加一致性约束。在训练10轮后，θ₁，θ₂和η分别设置为0.3、5 和5。β,γ和δ在整个训练过程中分别设置为10、5和1。

在训练过程中，通过持续优化上述步骤得到的损失函数，从而更新深度提取网络的参数，直至预设轮数确定最终的深度提取网络，预设轮数可以是50～300轮，进一步的可以是100轮～200轮。训练的该深度提取网络，相对于SfMLearner一类的深度提取网络，可以生成轮廓更清晰的深度图像。相对只使用Cycle GAN一类的深度提取网络，能够保证不改变输入图像的结构。可以生成尺度稳定且可知(尺度与训练数据尺度基本相同)的深度图像。

在一个实施例中，所述深度提取网络为基于SfMLearner的深度提取网络或基于循环生成对抗网络的深度提取网络；

具体的，针对基于SfMLearner的深度提取网络：

同时训练一个深度估计网络和一个位姿网络。深度估计网络从输入的一张内窥镜图像中估计其深度信息z，位姿网络通过输入的两张内窥镜图像，估计两张图像之间的相机相对位姿T和R。

对于输入的连续两帧内窥镜图像x_t-n、x_t，深度估计网络可以估计两帧图像的深度图像和/>位姿网络可以估计相机相对运动 t_t-n,t及R_t-n,t。

已知相机内参K，齐次坐标下的像素点可以通过下式翘曲到/>

由于通常为非整数，需要通过双曲采样到整数像素坐标，最终得到从/>翘曲到的图像/>应与/>一致。由视图一致性得到重建损失：

其中w(·)是翘曲到空间的算子，/>是由/>和通过相对平移向量t_t-n,t及相对旋转向量R_t-n,t重投影得到的深度图像；/>代表图像x中的一个像素，翘曲指操纵图像以使图像中的像素变形。通过该损失函数，位姿网络和深度估计网络可以实现自监督，从而完成网络训练。

为了使网络生成深度图像的尺度稳定，增加几何一致性损失。对于生成的深度图像和/>若它们对应相同的3D场景，那么两者对应的深度信息应该一致。深度图/>和/>的不一致z_diff被定义为：

/>

其中是由/>和通过位姿网络计算出的真实内窥镜相对运动/>重投影得到的深度图。/>是从/>采样得到的深度图。这里计算/>和/>的误差，而不是和/>的误差，这是因为/>重投影的结果并不在一个整数坐标系上，需要把采样到同样的坐标系，以计算两者的差。

几何一致性损失被定义为：

其中，代表图像z中的一个像素。

综上得到损失函数：L＝aL_rec+bL_gc，其中，a和b为调节各损失权重的超参数。

具体的，针对基于Cycle GAN的深度提取网络，损失函数可以包括下述损失：

对于一张内窥镜图像x∈X，深度提取算法旨在学习一个映射 G_depth：X→Z，从x生成其相应的深度图接着，映射G_image：Z→X将/>重建到域X，从而完成循环。从Z域到X域的转换也是类似。这里的重建循环中，网络模型对G_image、G_depth施加循环一致性损失：

其中，p表示概率分布，表示期望。

为了对映射的学习添加约束，其他的损失函数包括身份损失：

在生成器完成映射循环的同时，判别器D_image、D_dept分别学习判别输入的内窥镜图像和深度图像是真还是假；而生成器希望可以骗过判别器，生成可以被判别器认为真的图像，引入生成对抗损失，这里采用LS-GAN损失：

只使用Cycle GAN较难保证生成尺度稳定的深度图像，因此也可以考虑加上几何一致性损失。

上述两种深度提取网络获取的深度图像的尺度是模糊没有单位的，因此需要进行标定。对尺寸进行标定时，具体的标定方法包括以下两种，在进行标定时可以至少采用下述两种方法中的至少一种：

(1)在真实内窥镜进入腔道时，根据深度阈值对真实内窥镜可视范围进行分割，根据高于该阈值区域的直径和术前建立的虚拟模型中腔道中深度峰值同样直径处的深度进行比较，从而得到真实内窥镜尺度。示例性的，比如设定深度阈值为5，在真实内窥镜提取出的深度图像0中分割出高于该阈值的深度部分为一个直径为10像素的圆。针对于主气道建立的虚拟模型，假定真实内窥镜处于主气道中央位置，此时对应的深度图画等高线，可以找到围绕峰值直径为10像素的圆。该等高线对应的深度为1cm，那么可以得到深度网络的尺度为 1/5＝0.2cm。

(2)基于上述实施例中的深度提取网络，其位姿网络和深度网络具有相同的模糊的尺度，在真实内窥镜进境时，可以参考机器人控制信号，来比较位姿网络的相对位姿估计信息进行标定。比如机器人控制信号控制内窥镜进境1cm，而位姿网络得到的相对平移向量为向进境方向平移2，那么该尺度为1/2＝0.5cm。

在一个实施例中，如图5所示，所述深度配准网络为通过如下方式训练得到的：

S501：建立虚拟模型，获取所述虚拟内窥镜在所述虚拟模型中采集的虚拟图像的深度图像，并获取所述虚拟内窥镜采集所述虚拟图像时对应的虚拟位姿信息。

具体的，深度配准网络为编码器-解码器形式的深度神经网络。网络输入为两帧深度信息，编码器采用FlowNetC编码器的结构 (FlowNet提取的光流是对运动场的模拟)，解码器采用几层CNN (Convolutional Neural Network，卷积神经网络)将编码信息最后变为6DOF(即3维平移和3维欧拉角)位姿参数输出。

对深度配准网络进行训练时，首先需要建立虚拟模型，通过虚拟内窥镜来获取大量的深度图像和虚拟位姿信息来对深度配准网络进行训练监督，以提高深度配准网络的鲁棒性。

S502：将所述虚拟图像的深度图像输入初始深度配准网络，所述初始深度配准网络输出采集相邻两帧虚拟图像时所述虚拟内窥镜的相对位姿估计信息。

具体的，将上述步骤获得的虚拟图像的深度图像输入初始深度配准网络进行弱监督训练，初始深度配准网络输出可以得到采集相邻两帧虚拟图像时所述虚拟内窥镜的相对位姿估计信息。

S503：将所述虚拟位姿信息作为训练真值，根据所述虚拟位姿信息获得所述虚拟内窥镜采集所述相邻两帧虚拟图像时的虚拟相对位姿信息。

同时，将所述虚拟位姿信息作为训练真值，通过对虚拟位姿信息进行计算可以获得虚拟内窥镜采集所述相邻两帧虚拟图像时的虚拟相对位姿信息，此时得到了虚拟内窥镜采集相邻两帧图像时的相对位姿真值信息和相对位姿估计信息。

S504：通过对所述相对位姿估计信息与虚拟相对位姿信息之间的平移损失和旋转损失进行加权求和得到所述损失函数。

具体的，分别计算虚拟内窥镜的相对位姿估计信息与真实相对位姿之间的平移损失和旋转损失，将平移损失和旋转损失进行加权求和得到最终的损失函数：

L(z_t-m,z_t)＝L_t(z_t-m,z_t)+ωL_r(z_t-m,z_t)

其中，L_t为平移损失：分别为真实相对位姿信息和相对位姿估计信息中的平移向量； L_r为旋转损失：分别为真实相对位姿信息和相对位姿估计信息中的旋转向量；ω为用于调整旋转损失和位移损失两个损失占比的超参数。

如图6中所示，为深度配准的架构示意图：

位姿估计网络用37段虚拟内窥镜轨迹采集的虚拟内窥镜位姿和深度图像进行训练，包括11904帧。网络采用预训练的FlowNetC编码器，以三个卷积块回归姿态向量。网络通过使用Adam优化器进行训练，初始学习率为1e-5，训练时间为300个时期。ω被设置为100。

S505：优化所述损失函数，更新所述初始深度配准网络的参数，直至收敛，以得到所述深度配准网络。

该深度提取网络，通过深度学习方法学习两个输入深度图像间的内窥镜位姿变换参数，从而对每一输入的内窥镜图像，更新内窥镜的位姿变换。该深度配准网络是基于深度配准而不是图像强度，使算法对于模拟器中虚拟内窥镜采集的虚拟图像的渲染没有额外要求。深度学习算法直接估计位姿变换，使算法可以快速实时地运行，得到实时的定位结果。

在一个实施例中，还包括：

具体的，采用基于迭代优化算法的配准方法计算速度较慢，与深度配准网络并行运行来进行位姿修正，可以迟滞地对真实内窥镜的位姿估计信息进行修正，使得累积误差不会持续增大，提高定位精度。

在一个实施例中，如图7所示，根据基于迭代优化算法的配准方法获得修正位姿的方法，包括：

S701：获取真实内窥镜采集的第k帧图像作为当前修正图像，并通过所述深度提取网络获取第k帧图像的深度图像其中k≤t。

具体的，该修正方法相较于估算真实内窥镜位姿估计信息的网络运行较慢，因此在进行并行修正时，并不是逐帧进行修正的。获取 k≤t的第k帧图像作为当前修正图像，即作为修正图像的图像帧对应的真实内窥镜的位姿估计信息已经被估算获得。

S702：获取基于所述深度配准网络获得的所述真实内窥镜采集第 k帧图像的位姿估计信息

具体的，由于k≤t，因此在对第k帧图像做修正时，第k帧图像的位姿估计信息已经估算得到，可以直接获取。

S703：利用所述当前修正图像、或所述深度图像或所述当前修正图像和所述深度图像/>对所述真实内窥镜视野中的腔道图像进行语义分割。

在实验中发现，由于配准过程中使用的是相似性测度，当图像中同时出现一个较深的腔道和数个较浅的腔道时，由于较深腔道的深度相较其他腔道更大，配准优化过程中会优先满足对准该腔道，容易忽视其他较浅腔道的配准。此时的配准就容易忽略较浅腔道的结构信息。为解决这一问题，在配准前利用深度图像进行腔道图像分割，配准过程不仅需要配准到相似的深度，还要配准到相似的腔道结构。

这里的分割指将检测视野中所有的腔道图像进行区域分割，即进行分区。对于输入的内窥镜图像x_t，可以利用深度图像或是RGB 图像x_t或是RGBD图像(x_t及/>)分割出腔道。分割方法可以为利用深度阈值分割深度图像，也可以训练网络学习对于RGB或RGBD图像的腔道分割。

S704：基于图像相似性测度和语义分割相似性测度，以位姿估计信息为初始值进行优化求解，得到当前修正图像的修正位姿/>

具体的，该方法为基于图像配准的修正方法，将分割过程记为 Seg(·)，k时刻真实内窥镜的修正位姿对应的气道分割结果为/>给定时间t-1的相机位姿，从位姿初始值/>开始优化求解/>优化过程描述为：

其中SIM1(·)为图像相似性测度，SIM2(·)为分割相似性测度，P′_t为变量。Seg(P′_t)为对虚拟内窥镜的虚拟位姿为P′_t时对应的图像或深度图做分割的结果。同样选用Powell算法作为优化策略进行优化。示例性的，当取k＝t时，即以最新计算的位姿估计信息作为初始值进行优化求解，能够提高算法的收敛性且能够减少迭代的次数。

该方法可以弥补只使用图像相似性测度时，若出现一深一浅两个腔道，如NCC(Normalized Cross Correlation，归一化互相关)一类的相似性测度会着重对准两张深度图的深腔道部分，忽略浅腔道的特征从而造成的计算不准确问题。

S705：将所述真实内窥镜采集第k帧图像时的位姿估计信息替换为所述修正位姿/>

得到修正位姿后，将真实内窥镜采集第k帧图像时的位姿估计信息替换为修正位姿/>此时真实内窥镜轨迹上采集第t帧图像时的位姿得到修正。在一个实施例中，如图8所示，根据基于迭代优化算法的配准方法获得修正位姿的方法，包括：

S801：获取真实内窥镜采集的第k帧图像作为当前修正图像，并通过所述深度提取网络获取第k帧图像的深度图像其中k≤t。

具体的，该修正方法相较于估算真实内窥镜位姿估计信息的网络运行较慢，因此在进行并行修正时，并不是逐帧进行修正的。在进行修正时获取k≤t的第k帧图像作为当前修正图像。

S802：获取所述虚拟内窥镜在所述目标虚拟模型中第k帧定位位姿处采集的第k帧目标虚拟图像的深度图像d_k。

具体的，虚拟内窥镜在目标虚拟模型中是随着真实内窥镜的移动一起移动的，虚拟内窥镜在目标虚拟模型中第k帧定位位姿处即是将真实内窥镜在采集第k帧图像时的定位位姿处对应到目标虚拟模型中得到的。

S803：将所述深度图像转换为对应的点云/>将所述深度图像 d_k转换为点云图像Y_k。

S804：通过ICP算法求解Y_k到之间的相对位姿/>/>

S805：采用所述相对位姿修正所述真实内窥镜采集第k帧图像时的位姿估计信息/>

具体的，采用所述相对位姿修正所述真实内窥镜采集第k 帧图像时的位姿估计信息/>此时真实内窥镜轨迹上采集第k帧图像时的位姿得到修正。

在一个实施例中，该方法还包括：

S901：采用RGB图像特征提取方法提取真实内窥镜采集的第t帧图像的特征信息，将所述第t帧图像的特征信息和所述深度图像一起输入预训练的所述深度配准网络；

S902：采用RGB图像特征提取方法提取真实内窥镜采集的第 t-n帧图像的特征信息或提取虚拟内窥镜采集的第t-n帧目标虚拟图像的特征信息，其中，所述第t-n帧目标虚拟图像的特征信息是在对所述第t-n帧目标虚拟图像进行纹理贴图后提取的；

S903：将所述第t-n帧目标虚拟图像的特征信息和所述深度图像d_t-n，或将所述第t-n帧图像的特征信息和所述深度图像输入预训练的所述深度配准网络。

目前算法都只使用RGB图像信息或者只使用深度信息。虽然基于深度的定位技术被证明有更强的鲁棒性，但依赖深度做定位在实际使用中，视野中只有一个腔道时，深度图像中会存在一个圆形的深度峰值区域，此时内窥镜的旋转和平移运动将会较难估计。

因此，将RGB特征提取融合到实时定位的相对位姿计算中。具体可以利用RGB图像提取的腔道纹理等特征，用特征描述子(如SIFT， ORB)或预训练的特征提取网络提取两帧内窥镜图像特征，然后和深度图像一起作为深度配准网络的输入，可以弥补在深度图结构单一时内窥镜位姿难以估计的问题，辅助估计真实内窥镜的运动。此种情况下，需要采集虚拟内窥镜图像、深度图像和对应的虚拟内窥镜位姿，来训练深度提取网络。

数据采集中需要对虚拟内窥镜图像做纹理贴图，该贴图需要接近真实内窥镜采集的图像的纹理。

本发明提供的内窥镜定位方法，通过在获知真实内窥镜初始位姿的情况下，采用预训练的深度提取网络和深度配准网络，可以快速且连续的获得真实内窥镜当前的位姿信息。该方法中的深度提取网络和深度配准网络训练学习后针对不同的病人可以直接进行使用，不需要在术前进行训练，方便且节省时间。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行内窥镜定位方法，该方法包括：基于预训练的深度提取网络获取真实内窥镜采集的当前帧即第t帧图像的深度图像获取虚拟内窥镜在目标虚拟模型中t-n帧定位位姿处采集的第t-n帧目标虚拟图像的深度图像d_t-n，或基于预训练的所述深度提取网络获取所述真实内窥镜采集的第t-n帧图像的深度图像/>其中，所述虚拟内窥镜是基于所述真实内窥镜确定的；将所述深度图像/>和所述深度图像d_t-n或将所述深度图像/>和所述深度图像/>输入预训练的深度配准网络，得到所述真实内窥镜采集第t帧图像与采集第t-n帧图像时的相对位姿估计信息将所述相对位姿估计信息/>与所述真实内窥镜采集第t-n帧图像时的位姿估计信息/>叠加，获得所述真实内窥镜采集第t帧图像的位姿估计信息/>并根据所述位姿估计信息/>对所述真实内窥镜进行定位，其中，所述真实内窥镜初始位置的位姿信息是已知的。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的内窥镜定位方法，该方法包括：基于预训练的深度提取网络获取真实内窥镜采集的当前帧即第t帧图像的深度图像获取虚拟内窥镜在目标虚拟模型中t-n帧定位位姿处采集的第t-n帧目标虚拟图像的深度图像d_t-n，或基于所述预训练的深度提取网络获取所述真实内窥镜采集的第t-n帧图像的深度图像/>其中，所述虚拟内窥镜是基于所述真实内窥镜确定的；将所述深度图像/>和所述深度图像d_t-n或将所述深度图像/>和所述深度图像/>输入预训练的深度配准网络，得到所述真实内窥镜采集第t帧图像与采集第t-n帧图像时的相对位姿估计信息/>将所述相对位姿估计信息/>与所述真实内窥镜采集第t-n帧图像时的位姿估计信息/>叠加，获得所述真实内窥镜采集第t帧图像的位姿估计信息/>并根据所述位姿估计信息/>对所述真实内窥镜进行定位，其中，所述真实内窥镜初始位置的位姿信息/>是已知的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的内窥镜定位方法，该方法包括：基于预训练的深度提取网络获取真实内窥镜采集的当前帧即第t帧图像的深度图像获取虚拟内窥镜在目标虚拟模型中t-n帧定位位姿处采集的第t-n帧目标虚拟图像的深度图像d_t-n，或基于预训练的所述深度提取网络获取所述真实内窥镜采集的第t-n帧图像的深度图像/>其中，所述虚拟内窥镜是基于所述真实内窥镜确定的；将所述深度图像/>和所述深度图像d_t-n或将所述深度图像/>和所述深度图像/>输入预训练的深度配准网络，得到所述真实内窥镜采集第t帧图像与采集第t-n帧图像时的相对位姿估计信息/>将所述相对位姿估计信息/>与所述真实内窥镜采集第t-n帧图像时的位姿估计信息/>叠加，获得所述真实内窥镜采集第t帧图像的位姿估计信息/>并根据所述位姿估计信息/>对所述真实内窥镜进行定位，其中，所述真实内窥镜初始位置的位姿信息是已知的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种内窥镜定位方法，其特征在于，包括：

获取虚拟内窥镜在目标虚拟模型中t-n帧定位位姿处采集的第t-n帧目标虚拟图像的深度图像d_t-n，或基于预训练的所述深度提取网络获取所述真实内窥镜采集的第t-n帧图像的深度图像其中，所述虚拟内窥镜是基于所述真实内窥镜确定的；

将所述深度图像和所述深度图像d_t-n或将所述深度图像/>和所述深度图像/>输入预训练的深度配准网络，得到所述真实内窥镜采集第t帧图像与采集第t-n帧图像时的相对位姿估计信息/>

将所述相对位姿估计信息与所述真实内窥镜采集第t-n帧图像时的位姿估计信息/>叠加，获得所述真实内窥镜采集第t帧图像的位姿估计信息/>并根据所述位姿估计信息/>对所述真实内窥镜进行定位。

2.根据权利要求1所述的内窥镜定位方法，其特征在于，所述深度提取网络为基于循环生成对抗网络和预训练的所述深度配准网络的深度提取网络，所述循环生成对抗网络包括第一生成器、第一判别器、第二生成器和第二判别器，所述第一生成器用于将深度图像转换为真实风格的内窥镜图像，所述第二生成器用于将真实风格的内窥镜图像转换为深度图像；

获取预设真实内窥镜图像；

3.根据权利要求1所述的内窥镜定位方法，其特征在于，所述深度提取网络为基于SfMLearner的深度提取网络或基于循环生成对抗网络的深度提取网络；

在将所述深度图像和所述深度图像d_t-n或将所述深度图像/>和所述深度图像/>输入预训练的所述深度配准网络之前，所述方法还包括：

对所述深度图像和所述深度图像/>进行尺度标定，以得到所述深度图像/>和所述深度图像/>的单位。

4.根据权利要求1所述的内窥镜定位方法，其特征在于，所述深度配准网络为通过如下方式训练得到的：

5.根据权利要求1～4任一项所述的内窥镜定位方法，其特征在于，还包括：

6.根据权利要求5所述的内窥镜定位方法，其特征在于，根据基于迭代优化算法的配准方法获得修正位姿的方法，包括：

7.根据权利要求5所述的内窥镜定位方法，其特征在于，根据基于迭代优化算法的配准方法获得修正位姿的方法，包括：

通过ICP算法求解Y_k到之间的相对位姿/>

8.根据权利要求1～4任一项所述的内窥镜定位方法，其特征在于，还包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述内窥镜定位方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述内窥镜定位方法。