CN114399527A - 单目内窥镜无监督深度和运动估计的方法及装置 - Google Patents

单目内窥镜无监督深度和运动估计的方法及装置 Download PDF

Info

Publication number
CN114399527A
CN114399527A CN202210014288.2A CN202210014288A CN114399527A CN 114399527 A CN114399527 A CN 114399527A CN 202210014288 A CN202210014288 A CN 202210014288A CN 114399527 A CN114399527 A CN 114399527A
Authority
CN
China
Prior art keywords
depth
dense
descriptor
feature
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210014288.2A
Other languages
English (en)
Inventor
王涌天
刘诗源
艾丹妮
宋登攀
杨健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210014288.2A priority Critical patent/CN114399527A/zh
Publication of CN114399527A publication Critical patent/CN114399527A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Endoscopes (AREA)
  • Image Analysis (AREA)

Abstract

单目内窥镜无监督深度和运动估计的方法及装置,方法包括:(1)获取密集描述符图:对输入源‑目标图像对进行特征匹配,获得稀疏匹配点对;通过特征学习网络获取输入图像对应的密集描述符图;利用稀疏匹配点对和描述符图建立相对响应损失;(2)进行深度、位姿估计:对特征提取获得的密集描述符图执行密集特征匹配,获得N对密集匹配点对
Figure DDA0003454840600000011
深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿;为了给深度和位姿估计网络提供监督信号,描述符图和密集匹配点对
Figure DDA0003454840600000012
分别被用于构建特征一致性损失和对极几何一致性损失。

Description

单目内窥镜无监督深度和运动估计的方法及装置
技术领域
本发明涉及医学图像处理的技术领域,尤其涉及一种单目内窥镜无监督深度和运动估计的方法,以及单目内窥镜无监督深度和运动估计的装置。
背景技术
在微创手术(MIS)中,例如泌尿外科、腹部外科、胸外科等,外科医生通常需要使用医学内窥镜对体内解剖结构进行观察。然而,MIS中创口通常十分狭小,仅通过内窥镜提供的狭窄范围的视觉观察,外科医生依然难以进行精准的手术操作。幸运的是,基于内窥镜的手术导航系统能够为外科医生提供实时解剖结构和位置信息。但是,在这样的系统中,由于内窥镜成像通常会丢失三维结构信息,为了给医生提供更有效的手术指导,通常需要从术中内窥镜图像中恢复密集的3D信息以及内窥镜的相对位置。因此,有必要对内窥镜图像进行准确的图像深度和相机姿势估计,以便可以恢复丢失的3D信息和获得内窥镜的位置信息。
为了在用内窥镜进行观察的同时获得准确的深度和位姿信息,通常可以采用以下几种方法:利用双目视觉原理进行立体重构;利用结构光直接进行深度测量。与上述两种方法相比,直接通过单目内窥镜进行深度估计的方式具有硬件体积小、结构简单、成本低、便于集成到临床手术操作流程中等优点。然而,由于内窥镜图像通常具有镜面反射、光度不恒定、纹理较弱、图像扰动(烟、血等)、组织形变等特点。常用的基于内窥镜图像特征的深度测量方法,例如运动结构重建(SFM)、同时定位和映射(SLAM)通常难以获得稳定可靠的图像特征,从而在通过特征匹配和三角测量计算图像深度和相机位姿时失效。
近年来,深度学习已广泛应用于医学图像处理的各个方向。基于深度学习的内窥镜图像深度估计,通过端到端的网络模型能够进行密集的深度估计。然而,由于内窥镜图像所固有的光度不恒定、纹理较为相似等特点,在计算机视觉领域表现良好的基于视图合成的无监督单目深度估计方法,通常难以获得良好的深度估计。同时,Bian等人在室内视频无监督深度估计中指出,与计算机视觉领域汽车的运动相比,室内视频通常存在较多的相机旋转和较少的相机平移。在内窥镜视频中,相机的运动同样具有与室内视频相同的特点。Bian等人证明相机运动对于当前基于视图合成的无监督深度估计框架而言,相机旋转更像是噪声,而相机平移将有助于深度估计。两帧图像之间,相机平移量大小将影响深度估计的准确性,较大的平移量通常有助于获得更准确的深度估计。但是,较大的平移量意味着两帧图像光度差异也较大,这将违背视图合成方法关于光度恒定的假设。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种单目内窥镜无监督深度和运动估计的方法,其一方面解决了内窥镜图像光度不恒定、纹理相似造成深度估计失效的问题,另一方面允许采用更大的相机平移量所对应的两帧图像进行深度和位姿估计,提高预测精度。
本发明的技术方案是:这种单目内窥镜无监督深度和运动估计的方法,该方法包括以下步骤:
(1)获取密集描述符图:对输入源-目标图像对进行特征匹配,获得稀疏匹配点对;通过特征学习网络获取输入图像对应的密集描述符图;利用稀疏匹配点对和密集描述符图建立相对响应损失;
(2)进行深度、位姿估计:对特征提取获得的密集描述符图执行
密集特征匹配,获得N对密集匹配点对
Figure BDA0003454840580000021
深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿;为了给深度和位姿估计网络提供监督信号,描述符图和密集匹配点对
Figure BDA0003454840580000031
分别被用于构建特征一致性损失和对极几何一致性损失。
本发明为学习密集特征描述符,搭建了特征学习网络Feat Net,并避免了卷积层所使用的Padding技术产生的棋盘伪影;通过学习获得的描述符在两帧图像之间,具有一定程度的稳定性,这一方面解决了内窥镜图像光度不恒定、纹理相似造成深度估计失效的问题,另一方面,这将允许采用更大的相机平移量所对应的两帧图像进行深度和位姿估计。提取的密集特征描述符可为深度估计提供监督信号,并通过在视频帧之间引入几何约束,将特征匹配和深度、位姿估计联合进行学习,提高所提出方法的预测精度。
还提供了单目内窥镜无监督深度和运动估计的装置,其包括:
密集描述符获取模块,其配置来对输入源-目标图像对进行特征匹配,获得稀疏匹配点对;通过特征学习网络获取输入图像对应的密集描述符图;利用稀疏匹配点对和密集描述符图建立相对响应损失;深度、位姿估计模块,其配置来对特征提取获得的密集描述符图执行密集特征匹配,获得N对密集匹配点对
Figure BDA0003454840580000032
深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿;为了给深度和位姿估计网络提供监督信号,描述符图和密集匹配点对
Figure BDA0003454840580000033
分别被用于构建特征一致性损失和对极几何一致性损失。
附图说明
图1是根据本发明的单目内窥镜无监督深度和运动估计的方法的流程图。
具体实施方式
如图1所示,这种单目内窥镜无监督深度和运动估计的方法,该方法包括以下步骤:
(1)获取密集描述符图:对输入源-目标图像对进行特征匹配,获得稀疏匹配点对;通过特征学习网络获取输入图像对应的密集描述符图;利用稀疏匹配点对和密集描述符图建立相对响应损失;
(2)进行深度、位姿估计:对特征提取获得的密集描述符图执行密集特征匹配,获得N对密集匹配点对
Figure BDA0003454840580000041
深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿;为了给深度和位姿估计网络提供监督信号,描述符图和密集匹配点对
Figure BDA0003454840580000042
Figure BDA0003454840580000043
分别被用于构建特征一致性损失和对极几何一致性损失。
本发明为学习密集特征描述符,搭建了特征学习网络Feat Net,并避免了卷积层所使用的Padding技术产生的棋盘伪影;通过学习获得的描述符在两帧图像之间,具有一定程度的稳定性,这一方面解决了内窥镜图像光度不恒定、纹理相似造成深度估计失效的问题,另一方面,这将允许采用更大的相机平移量所对应的两帧图像进行深度和位姿估计。提取的密集特征描述符可为深度估计提供监督信号,并通过在视频帧之间引入几何约束,将特征匹配和深度、位姿估计联合进行学习,提高所提出方法的预测精度。
优选地,所述步骤(1)中,采用端到端的特征学习网络,从源-目标输入内窥镜图像获得其对应的描述符图;特征学习网络Feat Net由两个权值共享的分支构成,网络的每一个分支采用残差块进行设计,其中编码器由一个卷积层和9个ResNet-v2块组成,从输入图像3×H×W经过两次平均池化层下采样,最终提取特征图C×H/4×W/4,其中H和W是输入图像的高度和宽度,C是提取特征图的通道数;解码器网络由三个卷积层组成,经过两次双线性上采样,最终获得L×H×W的密集特征描述符图,其中L是密集特征描述符的维数,L=32。
优选地,所述步骤(1)中,在每一次卷积操作后,采用双线性插值的方法来保持卷积前后图像尺寸不变;同时在解码器中,采用卷积层和双线性上采样层来恢复图像尺寸;对描述符沿着通道进行L2归一化。
优选地,所述步骤(1)中,采用内窥镜图像特征匹配方法获得相邻帧之间的稀疏匹配点对
Figure BDA0003454840580000051
这些稀疏匹配点对被用于构建相对响应损失监督网络训练,对于输入的一对源图像Is和目标图像It,特征描述符学习网络将会生成其对应的密集特征描述符图Fs和Ft,输入图像和密集描述符图大小分别为3×H×W和L×H×W,相对响应损失在数学上定义为:
Figure BDA0003454840580000052
其中Rt是响应图,表示Fs(xs)与Ft上每个位置的相似度,计算两个描述符之间的欧氏距离平方作为其相似度评价指标,由于每个描述符已经被归一化为单位向量,描述符之间的欧式距离平方的计算简化为dist2=(2-2cos(f1,f2)),其中f1∈Fs,f2∈Ft,为了避免距离范围过大,采用
Figure BDA0003454840580000053
将其归一化到[0,1],然后对响应图进行softmax操作,同时,比例因子σ扩大了Rt的值域范围,使网络在学习的过程中更加关注相似度较大的区域,降低除真实位置的响应外的其他较大响应,并在一定程度上忽略已经存在较大差异的描述符。
优选地,所述步骤(1)中,取响应图Rt的最大值位置作为网络检测到的关键点xdet,对于k对稀疏匹配点对
Figure BDA0003454840580000054
Figure BDA0003454840580000055
Figure BDA0003454840580000056
LRR=λiLrr (4)
其中,
Figure BDA0003454840580000061
是对
Figure BDA0003454840580000062
取平均值,将网络检测到的关键点和真实位置的距离,隐式地加权到相对响应损失中,错误匹配点对的权重将很小,网络将优化大多数正确匹配点对,从而有效避免了错误匹配点对的影响,加速网络收敛。
优选地,所述步骤(2)中,对于输入的源-目标图像对(Is,It),通过两个权值共享的分支网络分别预测出其深度图(Ds,Dt),其中每个分支由编码器-解码器组成,编码器采用ResNet34,预测层的激活函数表示为:
Figure BDA0003454840580000063
其中x是预测层sigmoid激活函数的输出值,a=(1/dmin-1/dmax),b=1/dmax,dmin和dmax分别表示内窥镜图像的最小和最大深度,y是当前帧的预测深度;
利用没有遮罩预测分支的相对位姿估计网络PoseNet估计出输入图像对(Is,It)的6DoF相对位姿
Figure BDA0003454840580000064
PoseNet由七个卷积层组成,网络的输出值乘以比例系数ρ用于限制输出值范围。
优选地,所述步骤(2)中,对于目标视图It中任一像素坐标ρt,假定在源视图中是可见的,则源视图中对应的像素坐标ρs由公式(6)确定
Figure BDA0003454840580000065
其中~表示齐次坐标相等,Ks和Kt是源视图和目标视图对应相机的内参矩阵,Dt(pt)是目标视图中坐标点pt处的深度。
优选地,所述步骤(2)中,通过公式(6)获得目标视图和源视图的坐标对应关系,对于特征描述符学习网络获得的源描述符图Fs和目标描述符图Ft,通过上述坐标对应关系利用双线性采样方法,从源描述符图Fs生成合成目标描述符图
Figure BDA0003454840580000066
然后,通过公式(7)最小化原始目标描述符图Ft和合成目标描述符图
Figure BDA0003454840580000067
之间的误差
Figure BDA0003454840580000071
其中M是二进制掩码,表示目标视图中的坐标点通过扭曲变换后是否落入源视图中的有效区域,可以通过扭曲变换确定;
然后,使用边缘感知的平滑度函数对深度图进行平滑度约束
Figure BDA0003454840580000072
其中
Figure BDA0003454840580000073
Figure BDA0003454840580000074
分别求x和y方向的导数,
Figure BDA0003454840580000075
是用于避免深度收缩的平均归一化逆深度;
在上述扭曲变换过程中对目标深度图进行变换合成源深度图
Figure BDA0003454840580000076
利用扭曲变换获得的坐标对应关系
Figure BDA0003454840580000077
对原始源深度图Ds进行采样获得采样源深度图D′s,计算合成源深度图
Figure BDA0003454840580000078
和采样源深度图D′s之间的一致性
Figure BDA0003454840580000079
Mdiff=1-Ddiff (10)
Figure BDA00034548405800000710
对于源和目标输入图像之间的特征匹配点集
Figure BDA00034548405800000711
应该满足对极几何约束p′TFp=0,其中F=K-T[t]×RK-1是基本矩阵,[·]×表示叉乘运算,因此,将网络估计的相对位姿Tt→s=[Rt→s|tt→s]∈SE(3),结合特征匹配点集
Figure BDA00034548405800000712
建立对极损失函数如下:
Figure BDA0003454840580000081
其中dist(·,·)表示求点到直线的距离,Fp是对极线;
对于目标视图和源视图的特征匹配点集
Figure BDA0003454840580000082
建立S与重投影坐标点的误差函数,其中重投影坐标通过扭曲变换获得,重投影损失如下
Figure BDA0003454840580000083
优选地,所述步骤(2)中,每次使用3个视图,并对其两两之间都进行了损失的计算,首先令I2为目标视图It,分别令I1和I3为源视图Is,进行以上损失的计算,然后令I1为目标视图It,令I3为源视图Is,最终损失函数L计算如下:
L=k1LRR+k2LF+k3Ls+k4Lc+k5Lepi+k6Lreproject (14)
其中不同损失的权重k1=1,k2=1,k3=0.1,k4=2,k5=0.001,k6=0.001。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种单目内窥镜无监督深度和运动估计的装置,该装置通常以与方法各步骤相对应的功能模块的形式表示。该装置包括:
密集描述符获取模块,其配置来对输入源-目标图像对进行特征匹配,获得稀疏匹配点对;通过特征学习网络获取输入图像对应的密集描述符图;利用稀疏匹配点对和密集描述符图建立相对响应损失;深度、位姿估计模块,其配置来对特征提取获得的密集描述符图执行密集特征匹配,获得N对密集匹配点对
Figure BDA0003454840580000091
深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿;为了给深度和位姿估计网络提供监督信号,描述符图和密集匹配点对
Figure BDA0003454840580000092
分别被用于构建特征一致性损失和对极几何一致性损失。
以下更详细地说明本发明的内容。
对于密集描述符获取模块,采用端到端的特征学习网络,从源-目标输入内窥镜图像获得其对应的描述符图。特征学习网络Feat Net由两个权值共享的分支构成,网络的每一个分支采用残差块进行设计。其中编码器由一个卷积层和9个ResNet-v2块组成,从输入图像3×H×W经过两次平均池化层下采样,最终提取特征图C×H/4×W/4。其中H和W是输入图像的高度和宽度,C是提取特征图的通道数。解码器网络由三个卷积层组成,经过两次双线性上采样,最终获得L×H×W的密集特征描述符图。其中L是密集特征描述符的维数,本文中取L=32。
值得注意的是,卷积层所采用的,在图像边缘补零的填充技术,将会导致密集特征描述符图边缘区域产生棋盘伪影。为了避免在密集特征描述符图中产生棋盘伪影,卷积层不使用零来填充图像边缘,而是在每一次卷积操作后,采用双线性插值的方法来保持卷积前后图像尺寸不变。同时在解码器中,不使用反卷积层,而是采用卷积层和双线性上采样层来恢复图像尺寸。最后,为了避免图像亮度差异等影响,提高描述符的通用性,对描述符沿着通道进行了L2归一化。
直接采用内窥镜图像特征匹配方法获得相邻帧之间的稀疏匹配点对
Figure BDA0003454840580000093
进一步,这些稀疏匹配点对被用于构建相对响应损失监督网络训练。对于输入的一对源图像Is和目标图像It,特征描述符学习网络将会生成其对应的密集特征描述符图Fs和Ft。输入图像和密集描述符图大小分别为3×H×W和L×H×W。相对响应损失在数学上定义为:
Figure BDA0003454840580000101
其中Rt是响应图,表示Fs(xs)与Ft上每个位置的相似度,在本文中,计算两个描述符之间的欧氏距离平方作为其相似度评价指标。由于每个描述符已经被归一化为单位向量,描述符之间的欧式距离平方的计算可以简化为dist2=(2-2cos(f1,f2)),其中f1∈Fs,f2∈Ft。实际上,为了避免距离范围过大,采用
Figure BDA0003454840580000102
将其归一化到[0,1]。然后对响应图进行了softmax操作,同时,比例因子σ扩大了Rt的值域范围,使网络在学习的过程中更加关注相似度较大的区域,降低除真实位置的响应外的其他较大响应,并在一定程度上忽略已经存在较大差异的描述符。
由于内窥镜图像的特殊性,将利用传统特征匹配方法获取的稀疏匹配点对,用作真实对应关系可能存在误差,这将影响网络对关键点进行精准定位。尤其是在两帧图像的光度差异较大时,可能存在错误匹配点对。为了避免错误匹配点对的影响,对相对响应损失进行了加权。取响应图Rt的最大值位置作为网络检测到的关键点xdet。对于k对稀疏匹配点对
Figure BDA0003454840580000103
Figure BDA0003454840580000104
Figure BDA0003454840580000105
LRR=λiLrr (4)
其中,
Figure BDA0003454840580000106
是对
Figure BDA0003454840580000107
取平均值。将网络检测到的关键点和真实位置的距离,隐式地加权到相对响应损失中。错误匹配点对的权重将很小,网络将优化大多数正确匹配点对,从而有效避免了错误匹配点对的影响,加速网络收敛。
对于输入的源-目标图像对(Is,It),通过两个权值共享的分支网络分别预测出其深度图(Ds,Dt)。其中每个分支由编码器-解码器组成,编码器采用ResNet34。为了限制预测深度值的范围,预测层的激活函数表示为:
Figure BDA0003454840580000111
其中x是预测层sigmoid激活函数的输出值,a=(1/dmin-1/dmax),b=1/dmax。dmin和dmax分别表示内窥镜图像的最小和最大深度,y是当前帧的预测深度。
同时,利用没有遮罩预测分支的相对位姿估计网络PoseNet估计出输入图像对(Is,It)的6DoF相对位姿Tt→s=[Rt→s|tt→s]∈SE(3)。PoseNet由七个卷积层组成,网络的输出值乘以比例系数ρ用于限制输出值范围。
对于目标视图It中任一像素坐标pt,假定在源视图中是可见的,则源视图中对应的像素坐标ps可以由以下方程式确定,该方程式确定了扭曲变换
Figure BDA0003454840580000112
其中~表示齐次坐标相等,Ks和Kt是源视图和目标视图对应相机的内参矩阵,Dt(pt)是目标视图中坐标点pt处的深度。
通过上述扭曲变换方程式,可以获得目标视图和源视图的坐标对应关系。对于特征描述符学习网络获得的源描述符图Fs和目标描述符图Ft,通过上述坐标对应关系利用双线性采样方法,从源描述符图Fs生成合成目标描述符图
Figure BDA0003454840580000113
然后,通过以下方程式最小化原始目标描述符图Ft和合成目标描述符图
Figure BDA0003454840580000114
之间的误差
Figure BDA0003454840580000115
其中M是二进制掩码,表示目标视图中的坐标点通过扭曲变换后是否落入源视图中的有效区域,可以通过扭曲变换确定。
然后,使用边缘感知的平滑度函数对深度图进行平滑度约束。
Figure BDA0003454840580000116
其中
Figure BDA0003454840580000117
Figure BDA0003454840580000118
分别求x和y方向的导数,
Figure BDA0003454840580000119
是用于避免深度收缩的平均归一化逆深度。
由于深度估计网络每次进行深度预测时,只能估算当前帧的深度,为了使每一帧输入图像的估计深度具有一致性。在上述扭曲变换过程中我们对目标深度图进行变换合成源深度图
Figure BDA0003454840580000121
然后,利用扭曲变换获得的坐标对应关系
Figure BDA0003454840580000122
对原始源深度图Ds进行采样获得采样源深度图D′s。最后,计算合成源深度图
Figure BDA0003454840580000123
和采样源深度图D′s之间的一致性。
Figure BDA0003454840580000124
Mdiff=1-Ddiff (10)
Figure BDA0003454840580000125
此外,由于无监督深度估计的复杂性,为了给深度和位姿估计提供更稳定有效的监督信号。对源和目标输入图像进行了对极几何一致性约束,使用对极损失和重投影损失对网络的位姿和深度估计进行了监督。
对于源和目标输入图像之间的特征匹配点集
Figure BDA0003454840580000126
应该满足对极几何约束p′TFp=0。其中F=K-T[t]×RK-1是基本矩阵,[·]×表示叉乘运算。因此,可以将网络估计的相对位姿Tt→s=[Rt→s|tt→s]∈SE(3),结合特征匹配点集
Figure BDA0003454840580000127
建立对极损失函数如下:
Figure BDA0003454840580000128
其中dist(·,·)表示求点到直线的距离,Fp是对极线。
对于目标视图和源视图的特征匹配点集
Figure BDA0003454840580000129
建立S与重投影坐标点的误差函数。其中重投影坐标可以通过扭曲变换获得。重投影损失如下
Figure BDA0003454840580000131
实际上,每次使用3个视图,并对其两两之间都进行了损失的计算。首先令I2为目标视图It,分别令I1和I3为源视图Is,进行以上损失的计算。然后令I1为目标视图It,令I3为源视图Is。通过多个视图之间的损失计算,充分保证了深度预测的稳定性及深度一致性在视频序列间的传播。
总之,最终损失函数L计算如下:
L=k1LRR+k2LF+k3Ls+k4Lc+k5Lepi+k6Lreproject (14)
其中不同损失的权重k1=1,k2=1,k3=0.1,k4=2,k5=0.001,k6=0.001。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (10)

1.单目内窥镜无监督深度和运动估计的方法,其特征在于:该方法包括以下步骤:
(1)获取密集描述符图:对输入源-目标图像对进行特征匹配,获得稀疏匹配点对;通过特征学习网络获取输入图像对应的密集描述符图;利用稀疏匹配点对和密集描述符图建立相对响应损失;
(2)进行深度、位姿估计:对特征提取获得的密集描述符图执行密集特征匹配,获得N对密集匹配点对
Figure FDA0003454840570000011
深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿;为了给深度和位姿估计网络提供监督信号,描述符图和密集匹配点对
Figure FDA0003454840570000012
分别被用于构建特征一致性损失和对极几何一致性损失。
2.根据权利要求1所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(1)中,采用端到端的特征学习网络,从源-目标输入内窥镜图像获得其对应的描述符图;特征学习网络Feat Net由两个权值共享的分支构成,网络的每一个分支采用残差块进行设计,其中编码器由一个卷积层和9个ResNet-v2块组成,从输入图像3×H×W经过两次平均池化层下采样,最终提取特征图C×H/4×W/4,其中H和W是输入图像的高度和宽度,C是提取特征图的通道数;解码器网络由三个卷积层组成,经过两次双线性上采样,最终获得L×H×W的密集特征描述符图,其中L是密集特征描述符的维数,L=32。
3.根据权利要求2所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(1)中,在每一次卷积操作后,采用双线性插值的方法来保持卷积前后图像尺寸不变;同时在解码器中,采用卷积层和双线性上采样层来恢复图像尺寸;对描述符沿着通道进行L2归一化。
4.根据权利要求3所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(1)中,采用内窥镜图像特征匹配方法获得相邻帧之间的稀疏匹配点对
Figure FDA0003454840570000021
这些稀疏匹配点对被用于构建相对响应损失监督网络训练,对于输入的一对源图像Is和目标图像It,特征描述符学习网络将会生成其对应的密集特征描述符图Fs和Ft,输入图像和密集描述符图大小分别为3×H×W和L×H×W,相对响应损失在数学上定义为:
Figure FDA0003454840570000022
其中Rt是响应图,表示Fs(xs)与Ft上每个位置的相似度,计算两个描述符之间的欧氏距离平方作为其相似度评价指标,由于每个描述符已经被归一化为单位向量,描述符之间的欧式距离平方的计算简化为dist2=(2-2cos(f1,f2)),其中f1∈Fs,f2∈Ft,为了避免距离范围过大,采用
Figure FDA0003454840570000023
将其归一化到[0,1],然后对响应图进行softmax操作,同时,比例因子σ扩大了Rt的值域范围,使网络在学习的过程中更加关注相似度较大的区域,降低除真实位置的响应外的其他较大响应,并在一定程度上忽略已经存在较大差异的描述符。
5.根据权利要求4所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(1)中,取响应图Rt的最大值位置作为网络检测到的关键点xdet,对于k对稀疏匹配点对
Figure FDA0003454840570000024
Figure FDA0003454840570000025
Figure FDA0003454840570000026
Figure FDA0003454840570000031
LRR=λiLrr (4)
其中,
Figure FDA0003454840570000032
是对
Figure FDA0003454840570000033
取平均值,将网络检测到的关键点和真实位置的距离,隐式地加权到相对响应损失中,错误匹配点对的权重将很小,网络将优化大多数正确匹配点对,从而有效避免了错误匹配点对的影响,加速网络收敛。
6.根据权利要求5所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(2)中,对于输入的源-目标图像对(Is,It),通过两个权值共享的分支网络分别预测出其深度图(Ds,Dt),其中每个分支由编码器-解码器组成,编码器采用ResNet34,预测层的激活函数表示为:
Figure FDA0003454840570000034
其中x是预测层sigmoid激活函数的输出值,a=(1/dmin-1/dmax),b=1/dmax,dmin和dmax分别表示内窥镜图像的最小和最大深度,y是当前帧的预测深度;
利用没有遮罩预测分支的相对位姿估计网络PoseNet估计出输入图像对(Is,it)的6DoF相对位姿Tt→s=[Rt→s|tt→s]∈SE(3),PoseNet由七个卷积层组成,网络的输出值乘以比例系数ρ用于限制输出值范围。
7.根据权利要求6所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(2)中,对于目标视图It中任一像素坐标pt,假定在源视图中是可见的,则源视图中对应的像素坐标ps由公式(6)确定
Figure FDA0003454840570000035
其中~表示齐次坐标相等,Ks和Kt是源视图和目标视图对应相机的内参矩阵,Dt(pt)是目标视图中坐标点pt处的深度。
8.根据权利要求7所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(2)中,通过公式(6)获得目标视图和源视图的坐标对应关系,对于特征描述符学习网络获得的源描述符图Fs和目标描述符图Ft,通过上述坐标对应关系利用双线性采样方法,从源描述符图Fs生成合成目标描述符图
Figure FDA0003454840570000041
然后,通过公式(7)最小化原始目标描述符图Ft和合成目标描述符图
Figure FDA0003454840570000042
之间的误差
Figure FDA0003454840570000043
其中M是二进制掩码,表示目标视图中的坐标点通过扭曲变换后是否落入源视图中的有效区域,可以通过扭曲变换确定;
然后,使用边缘感知的平滑度函数对深度图进行平滑度约束
Figure FDA0003454840570000044
其中
Figure FDA0003454840570000045
Figure FDA0003454840570000046
分别求x和y方向的导数,
Figure FDA0003454840570000047
是用于避免深度收缩的平均归一化逆深度;
在上述扭曲变换过程中对目标深度图进行变换合成源深度图
Figure FDA0003454840570000048
利用扭曲变换获得的坐标对应关系
Figure FDA0003454840570000049
对原始源深度图Ds进行采样获得采样源深度图D′s,计算合成源深度图
Figure FDA00034548405700000410
和采样源深度图D′s之间的一致性
Figure FDA00034548405700000411
Mdiff=1-Ddiff (10)
Figure FDA0003454840570000051
对于源和目标输入图像之间的特征匹配点集
Figure FDA0003454840570000052
应该满足对极几何约束p′TFp=0,其中F=K-T[t]×RK-1是基本矩阵,[·]×表示叉乘运算,因此,将网络估计的相对位姿Tt→s=[Rt→s|tt→s]∈SE(3),结合特征匹配点集
Figure FDA0003454840570000053
建立对极损失函数如下:
Figure FDA0003454840570000054
其中dist(·,·)表示求点到直线的距离,Fp是对极线;
对于目标视图和源视图的特征匹配点集
Figure FDA0003454840570000055
建立S与重投影坐标点的误差函数,其中重投影坐标通过扭曲变换获得,重投影损失如下
Figure FDA0003454840570000056
9.根据权利要求8所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(2)中,每次使用3个视图,并对其两两之间都进行了损失的计算,首先令I2为目标视图It,分别令I1和I3为源视图Is,进行以上损失的计算,然后令I1为目标视图It,令I3为源视图Is,最终损失函数L计算如下:
L=k1LRR+k2LF+k3Ls+k4Lc+k5Lepi+k6Lreproject (14)
其中不同损失的权重k1=1,k2=1,k3=0.1,k4=2,k5=0.001,k6=0.001。
10.单目内窥镜无监督深度和运动估计的装置,其特征在于:其包括:
密集描述符获取模块,其配置来对输入源-目标图像对进行特征匹配,获得稀疏匹配点对;通过特征学习网络获取输入图像对应的密集描述符图;利用稀疏匹配点对和密集描述符图建立相对响应损失;深度、位姿估计模块,其配置来对特征提取获得的密集描述符图执行密集特征匹配,获得N对密集匹配点对
Figure FDA0003454840570000061
深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿;为了给深度和位姿估计网络提供监督信号,描述符图和密集匹配点对
Figure FDA0003454840570000062
分别被用于构建特征一致性损失和对极几何一致性损失。
CN202210014288.2A 2022-01-04 2022-01-04 单目内窥镜无监督深度和运动估计的方法及装置 Pending CN114399527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210014288.2A CN114399527A (zh) 2022-01-04 2022-01-04 单目内窥镜无监督深度和运动估计的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210014288.2A CN114399527A (zh) 2022-01-04 2022-01-04 单目内窥镜无监督深度和运动估计的方法及装置

Publications (1)

Publication Number Publication Date
CN114399527A true CN114399527A (zh) 2022-04-26

Family

ID=81228432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210014288.2A Pending CN114399527A (zh) 2022-01-04 2022-01-04 单目内窥镜无监督深度和运动估计的方法及装置

Country Status (1)

Country Link
CN (1) CN114399527A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710711A (zh) * 2024-02-06 2024-03-15 东华理工大学南昌校区 一种基于轻量化深度卷积网络的光学和sar图像匹配方法
CN117974721A (zh) * 2024-04-01 2024-05-03 合肥工业大学 一种基于单目连续帧图像的车辆运动估计方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210183083A1 (en) * 2019-12-16 2021-06-17 Robert Bosch Gmbh Self-supervised depth estimation method and system
CN113077505A (zh) * 2021-04-19 2021-07-06 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN113450410A (zh) * 2021-06-29 2021-09-28 浙江大学 一种基于对极几何的单目深度和位姿联合估计方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210183083A1 (en) * 2019-12-16 2021-06-17 Robert Bosch Gmbh Self-supervised depth estimation method and system
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN113077505A (zh) * 2021-04-19 2021-07-06 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN113450410A (zh) * 2021-06-29 2021-09-28 浙江大学 一种基于对极几何的单目深度和位姿联合估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张建勋 等: "面向低分辨率单目内窥镜图像的三维多孔结构重建", 光学精密工程, 15 September 2020 (2020-09-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710711A (zh) * 2024-02-06 2024-03-15 东华理工大学南昌校区 一种基于轻量化深度卷积网络的光学和sar图像匹配方法
CN117710711B (zh) * 2024-02-06 2024-05-10 东华理工大学南昌校区 一种基于轻量化深度卷积网络的光学和sar图像匹配方法
CN117974721A (zh) * 2024-04-01 2024-05-03 合肥工业大学 一种基于单目连续帧图像的车辆运动估计方法及系统

Similar Documents

Publication Publication Date Title
CN110010249B (zh) 基于视频叠加的增强现实手术导航方法、系统及电子设备
CN109448041B (zh) 一种胶囊内镜图像三维重建方法及系统
Mori et al. Tracking of a bronchoscope using epipolar geometry analysis and intensity-based image registration of real and virtual endoscopic images
JP5153620B2 (ja) 連続的にガイドされる内視鏡と関係する画像を重ね合わせるためのシステム
Stoyanov et al. Dense 3D depth recovery for soft tissue deformation during robotically assisted laparoscopic surgery
CN111080778B (zh) 一种双目内窥镜软组织图像的在线三维重建方法
CN111260786A (zh) 一种智能超声多模态导航系统及方法
CN110992431B (zh) 一种双目内窥镜软组织图像的联合三维重建方法
CN114399527A (zh) 单目内窥镜无监督深度和运动估计的方法及装置
CN112614169B (zh) 基于深度学习网络的2d/3d脊椎ct层级配准方法
US20110187707A1 (en) System and method for virtually augmented endoscopy
CN110288653B (zh) 一种多角度超声图像融合方法、系统及电子设备
WO2010081094A2 (en) A system for registration and information overlay on deformable surfaces from video data
CN112819777B (zh) 一种双目内窥镜辅助显示方法、系统、装置和存储介质
CN108090954A (zh) 基于图像特征的腹腔环境地图重建与腹腔镜定位的方法
Wu et al. Reconstructing 3D lung shape from a single 2D image during the deaeration deformation process using model-based data augmentation
CN116740170A (zh) 一种单目内窥镜视频深度与位姿估计方法
KR100346363B1 (ko) 자동 의료 영상 분할을 통한 3차원 영상 데이터 구축방법/장치, 및 그를 이용한 영상유도 수술 장치
CN112261399B (zh) 胶囊内窥镜图像三维重建方法、电子设备及可读存储介质
CN116993805A (zh) 面向手术规划辅助的术中剩余器官体积估计系统
CN115619790B (zh) 一种基于双目定位的混合透视方法、系统及设备
CN115294128B (zh) 一种用于消化内镜的单目结构三维成像方法及装置
Zhou et al. Synthesis of stereoscopic views from monocular endoscopic videos
CN115222878A (zh) 一种应用于肺支气管镜手术机器人的场景重建方法
CN114092643A (zh) 一种基于混合现实与3dgan的软组织自适应形变方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination