CN114399527A - 单目内窥镜无监督深度和运动估计的方法及装置 - Google Patents
单目内窥镜无监督深度和运动估计的方法及装置 Download PDFInfo
- Publication number
- CN114399527A CN114399527A CN202210014288.2A CN202210014288A CN114399527A CN 114399527 A CN114399527 A CN 114399527A CN 202210014288 A CN202210014288 A CN 202210014288A CN 114399527 A CN114399527 A CN 114399527A
- Authority
- CN
- China
- Prior art keywords
- depth
- dense
- descriptor
- feature
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004044 response Effects 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 15
- 239000004576 sand Substances 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000013519 translation Methods 0.000 description 8
- 230000014616 translation Effects 0.000 description 8
- 238000002324 minimally invasive surgery Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012084 abdominal surgery Methods 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Endoscopes (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及医学图像处理的技术领域,尤其涉及一种单目内窥镜无监督深度和运动估计的方法,以及单目内窥镜无监督深度和运动估计的装置。
背景技术
在微创手术(MIS)中,例如泌尿外科、腹部外科、胸外科等,外科医生通常需要使用医学内窥镜对体内解剖结构进行观察。然而,MIS中创口通常十分狭小,仅通过内窥镜提供的狭窄范围的视觉观察,外科医生依然难以进行精准的手术操作。幸运的是,基于内窥镜的手术导航系统能够为外科医生提供实时解剖结构和位置信息。但是,在这样的系统中,由于内窥镜成像通常会丢失三维结构信息,为了给医生提供更有效的手术指导,通常需要从术中内窥镜图像中恢复密集的3D信息以及内窥镜的相对位置。因此,有必要对内窥镜图像进行准确的图像深度和相机姿势估计,以便可以恢复丢失的3D信息和获得内窥镜的位置信息。
为了在用内窥镜进行观察的同时获得准确的深度和位姿信息,通常可以采用以下几种方法:利用双目视觉原理进行立体重构;利用结构光直接进行深度测量。与上述两种方法相比,直接通过单目内窥镜进行深度估计的方式具有硬件体积小、结构简单、成本低、便于集成到临床手术操作流程中等优点。然而,由于内窥镜图像通常具有镜面反射、光度不恒定、纹理较弱、图像扰动(烟、血等)、组织形变等特点。常用的基于内窥镜图像特征的深度测量方法,例如运动结构重建(SFM)、同时定位和映射(SLAM)通常难以获得稳定可靠的图像特征,从而在通过特征匹配和三角测量计算图像深度和相机位姿时失效。
近年来,深度学习已广泛应用于医学图像处理的各个方向。基于深度学习的内窥镜图像深度估计,通过端到端的网络模型能够进行密集的深度估计。然而,由于内窥镜图像所固有的光度不恒定、纹理较为相似等特点,在计算机视觉领域表现良好的基于视图合成的无监督单目深度估计方法,通常难以获得良好的深度估计。同时,Bian等人在室内视频无监督深度估计中指出,与计算机视觉领域汽车的运动相比,室内视频通常存在较多的相机旋转和较少的相机平移。在内窥镜视频中,相机的运动同样具有与室内视频相同的特点。Bian等人证明相机运动对于当前基于视图合成的无监督深度估计框架而言,相机旋转更像是噪声,而相机平移将有助于深度估计。两帧图像之间,相机平移量大小将影响深度估计的准确性,较大的平移量通常有助于获得更准确的深度估计。但是,较大的平移量意味着两帧图像光度差异也较大,这将违背视图合成方法关于光度恒定的假设。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种单目内窥镜无监督深度和运动估计的方法,其一方面解决了内窥镜图像光度不恒定、纹理相似造成深度估计失效的问题,另一方面允许采用更大的相机平移量所对应的两帧图像进行深度和位姿估计,提高预测精度。
本发明的技术方案是:这种单目内窥镜无监督深度和运动估计的方法,该方法包括以下步骤:
(1)获取密集描述符图:对输入源-目标图像对进行特征匹配,获得稀疏匹配点对;通过特征学习网络获取输入图像对应的密集描述符图;利用稀疏匹配点对和密集描述符图建立相对响应损失;
(2)进行深度、位姿估计:对特征提取获得的密集描述符图执行
密集特征匹配,获得N对密集匹配点对深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿;为了给深度和位姿估计网络提供监督信号,描述符图和密集匹配点对分别被用于构建特征一致性损失和对极几何一致性损失。
本发明为学习密集特征描述符,搭建了特征学习网络Feat Net,并避免了卷积层所使用的Padding技术产生的棋盘伪影;通过学习获得的描述符在两帧图像之间,具有一定程度的稳定性,这一方面解决了内窥镜图像光度不恒定、纹理相似造成深度估计失效的问题,另一方面,这将允许采用更大的相机平移量所对应的两帧图像进行深度和位姿估计。提取的密集特征描述符可为深度估计提供监督信号,并通过在视频帧之间引入几何约束,将特征匹配和深度、位姿估计联合进行学习,提高所提出方法的预测精度。
还提供了单目内窥镜无监督深度和运动估计的装置,其包括:
附图说明
图1是根据本发明的单目内窥镜无监督深度和运动估计的方法的流程图。
具体实施方式
如图1所示,这种单目内窥镜无监督深度和运动估计的方法,该方法包括以下步骤:
(1)获取密集描述符图:对输入源-目标图像对进行特征匹配,获得稀疏匹配点对;通过特征学习网络获取输入图像对应的密集描述符图;利用稀疏匹配点对和密集描述符图建立相对响应损失;
(2)进行深度、位姿估计:对特征提取获得的密集描述符图执行密集特征匹配,获得N对密集匹配点对深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿;为了给深度和位姿估计网络提供监督信号,描述符图和密集匹配点对 分别被用于构建特征一致性损失和对极几何一致性损失。
本发明为学习密集特征描述符,搭建了特征学习网络Feat Net,并避免了卷积层所使用的Padding技术产生的棋盘伪影;通过学习获得的描述符在两帧图像之间,具有一定程度的稳定性,这一方面解决了内窥镜图像光度不恒定、纹理相似造成深度估计失效的问题,另一方面,这将允许采用更大的相机平移量所对应的两帧图像进行深度和位姿估计。提取的密集特征描述符可为深度估计提供监督信号,并通过在视频帧之间引入几何约束,将特征匹配和深度、位姿估计联合进行学习,提高所提出方法的预测精度。
优选地,所述步骤(1)中,采用端到端的特征学习网络,从源-目标输入内窥镜图像获得其对应的描述符图;特征学习网络Feat Net由两个权值共享的分支构成,网络的每一个分支采用残差块进行设计,其中编码器由一个卷积层和9个ResNet-v2块组成,从输入图像3×H×W经过两次平均池化层下采样,最终提取特征图C×H/4×W/4,其中H和W是输入图像的高度和宽度,C是提取特征图的通道数;解码器网络由三个卷积层组成,经过两次双线性上采样,最终获得L×H×W的密集特征描述符图,其中L是密集特征描述符的维数,L=32。
优选地,所述步骤(1)中,在每一次卷积操作后,采用双线性插值的方法来保持卷积前后图像尺寸不变;同时在解码器中,采用卷积层和双线性上采样层来恢复图像尺寸;对描述符沿着通道进行L2归一化。
优选地,所述步骤(1)中,采用内窥镜图像特征匹配方法获得相邻帧之间的稀疏匹配点对这些稀疏匹配点对被用于构建相对响应损失监督网络训练,对于输入的一对源图像Is和目标图像It,特征描述符学习网络将会生成其对应的密集特征描述符图Fs和Ft,输入图像和密集描述符图大小分别为3×H×W和L×H×W,相对响应损失在数学上定义为:
其中Rt是响应图,表示Fs(xs)与Ft上每个位置的相似度,计算两个描述符之间的欧氏距离平方作为其相似度评价指标,由于每个描述符已经被归一化为单位向量,描述符之间的欧式距离平方的计算简化为dist2=(2-2cos(f1,f2)),其中f1∈Fs,f2∈Ft,为了避免距离范围过大,采用将其归一化到[0,1],然后对响应图进行softmax操作,同时,比例因子σ扩大了Rt的值域范围,使网络在学习的过程中更加关注相似度较大的区域,降低除真实位置的响应外的其他较大响应,并在一定程度上忽略已经存在较大差异的描述符。
LRR=λiLrr (4)
优选地,所述步骤(2)中,对于输入的源-目标图像对(Is,It),通过两个权值共享的分支网络分别预测出其深度图(Ds,Dt),其中每个分支由编码器-解码器组成,编码器采用ResNet34,预测层的激活函数表示为:
其中x是预测层sigmoid激活函数的输出值,a=(1/dmin-1/dmax),b=1/dmax,dmin和dmax分别表示内窥镜图像的最小和最大深度,y是当前帧的预测深度;
优选地,所述步骤(2)中,对于目标视图It中任一像素坐标ρt,假定在源视图中是可见的,则源视图中对应的像素坐标ρs由公式(6)确定
其中~表示齐次坐标相等,Ks和Kt是源视图和目标视图对应相机的内参矩阵,Dt(pt)是目标视图中坐标点pt处的深度。
优选地,所述步骤(2)中,通过公式(6)获得目标视图和源视图的坐标对应关系,对于特征描述符学习网络获得的源描述符图Fs和目标描述符图Ft,通过上述坐标对应关系利用双线性采样方法,从源描述符图Fs生成合成目标描述符图然后,通过公式(7)最小化原始目标描述符图Ft和合成目标描述符图之间的误差
其中M是二进制掩码,表示目标视图中的坐标点通过扭曲变换后是否落入源视图中的有效区域,可以通过扭曲变换确定;
然后,使用边缘感知的平滑度函数对深度图进行平滑度约束
Mdiff=1-Ddiff (10)
对于源和目标输入图像之间的特征匹配点集应该满足对极几何约束p′TFp=0,其中F=K-T[t]×RK-1是基本矩阵,[·]×表示叉乘运算,因此,将网络估计的相对位姿Tt→s=[Rt→s|tt→s]∈SE(3),结合特征匹配点集建立对极损失函数如下:
其中dist(·,·)表示求点到直线的距离,Fp是对极线;
优选地,所述步骤(2)中,每次使用3个视图,并对其两两之间都进行了损失的计算,首先令I2为目标视图It,分别令I1和I3为源视图Is,进行以上损失的计算,然后令I1为目标视图It,令I3为源视图Is,最终损失函数L计算如下:
L=k1LRR+k2LF+k3Ls+k4Lc+k5Lepi+k6Lreproject (14)
其中不同损失的权重k1=1,k2=1,k3=0.1,k4=2,k5=0.001,k6=0.001。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种单目内窥镜无监督深度和运动估计的装置,该装置通常以与方法各步骤相对应的功能模块的形式表示。该装置包括:
密集描述符获取模块,其配置来对输入源-目标图像对进行特征匹配,获得稀疏匹配点对;通过特征学习网络获取输入图像对应的密集描述符图;利用稀疏匹配点对和密集描述符图建立相对响应损失;深度、位姿估计模块,其配置来对特征提取获得的密集描述符图执行密集特征匹配,获得N对密集匹配点对深度估计网络和位姿估计网络分别获得输入图像的深度图和相对位姿;为了给深度和位姿估计网络提供监督信号,描述符图和密集匹配点对分别被用于构建特征一致性损失和对极几何一致性损失。
以下更详细地说明本发明的内容。
对于密集描述符获取模块,采用端到端的特征学习网络,从源-目标输入内窥镜图像获得其对应的描述符图。特征学习网络Feat Net由两个权值共享的分支构成,网络的每一个分支采用残差块进行设计。其中编码器由一个卷积层和9个ResNet-v2块组成,从输入图像3×H×W经过两次平均池化层下采样,最终提取特征图C×H/4×W/4。其中H和W是输入图像的高度和宽度,C是提取特征图的通道数。解码器网络由三个卷积层组成,经过两次双线性上采样,最终获得L×H×W的密集特征描述符图。其中L是密集特征描述符的维数,本文中取L=32。
值得注意的是,卷积层所采用的,在图像边缘补零的填充技术,将会导致密集特征描述符图边缘区域产生棋盘伪影。为了避免在密集特征描述符图中产生棋盘伪影,卷积层不使用零来填充图像边缘,而是在每一次卷积操作后,采用双线性插值的方法来保持卷积前后图像尺寸不变。同时在解码器中,不使用反卷积层,而是采用卷积层和双线性上采样层来恢复图像尺寸。最后,为了避免图像亮度差异等影响,提高描述符的通用性,对描述符沿着通道进行了L2归一化。
直接采用内窥镜图像特征匹配方法获得相邻帧之间的稀疏匹配点对进一步,这些稀疏匹配点对被用于构建相对响应损失监督网络训练。对于输入的一对源图像Is和目标图像It,特征描述符学习网络将会生成其对应的密集特征描述符图Fs和Ft。输入图像和密集描述符图大小分别为3×H×W和L×H×W。相对响应损失在数学上定义为:
其中Rt是响应图,表示Fs(xs)与Ft上每个位置的相似度,在本文中,计算两个描述符之间的欧氏距离平方作为其相似度评价指标。由于每个描述符已经被归一化为单位向量,描述符之间的欧式距离平方的计算可以简化为dist2=(2-2cos(f1,f2)),其中f1∈Fs,f2∈Ft。实际上,为了避免距离范围过大,采用将其归一化到[0,1]。然后对响应图进行了softmax操作,同时,比例因子σ扩大了Rt的值域范围,使网络在学习的过程中更加关注相似度较大的区域,降低除真实位置的响应外的其他较大响应,并在一定程度上忽略已经存在较大差异的描述符。
由于内窥镜图像的特殊性,将利用传统特征匹配方法获取的稀疏匹配点对,用作真实对应关系可能存在误差,这将影响网络对关键点进行精准定位。尤其是在两帧图像的光度差异较大时,可能存在错误匹配点对。为了避免错误匹配点对的影响,对相对响应损失进行了加权。取响应图Rt的最大值位置作为网络检测到的关键点xdet。对于k对稀疏匹配点对
LRR=λiLrr (4)
对于输入的源-目标图像对(Is,It),通过两个权值共享的分支网络分别预测出其深度图(Ds,Dt)。其中每个分支由编码器-解码器组成,编码器采用ResNet34。为了限制预测深度值的范围,预测层的激活函数表示为:
其中x是预测层sigmoid激活函数的输出值,a=(1/dmin-1/dmax),b=1/dmax。dmin和dmax分别表示内窥镜图像的最小和最大深度,y是当前帧的预测深度。
同时,利用没有遮罩预测分支的相对位姿估计网络PoseNet估计出输入图像对(Is,It)的6DoF相对位姿Tt→s=[Rt→s|tt→s]∈SE(3)。PoseNet由七个卷积层组成,网络的输出值乘以比例系数ρ用于限制输出值范围。
对于目标视图It中任一像素坐标pt,假定在源视图中是可见的,则源视图中对应的像素坐标ps可以由以下方程式确定,该方程式确定了扭曲变换
其中~表示齐次坐标相等,Ks和Kt是源视图和目标视图对应相机的内参矩阵,Dt(pt)是目标视图中坐标点pt处的深度。
通过上述扭曲变换方程式,可以获得目标视图和源视图的坐标对应关系。对于特征描述符学习网络获得的源描述符图Fs和目标描述符图Ft,通过上述坐标对应关系利用双线性采样方法,从源描述符图Fs生成合成目标描述符图然后,通过以下方程式最小化原始目标描述符图Ft和合成目标描述符图之间的误差
其中M是二进制掩码,表示目标视图中的坐标点通过扭曲变换后是否落入源视图中的有效区域,可以通过扭曲变换确定。
然后,使用边缘感知的平滑度函数对深度图进行平滑度约束。
由于深度估计网络每次进行深度预测时,只能估算当前帧的深度,为了使每一帧输入图像的估计深度具有一致性。在上述扭曲变换过程中我们对目标深度图进行变换合成源深度图然后,利用扭曲变换获得的坐标对应关系对原始源深度图Ds进行采样获得采样源深度图D′s。最后,计算合成源深度图和采样源深度图D′s之间的一致性。
Mdiff=1-Ddiff (10)
此外,由于无监督深度估计的复杂性,为了给深度和位姿估计提供更稳定有效的监督信号。对源和目标输入图像进行了对极几何一致性约束,使用对极损失和重投影损失对网络的位姿和深度估计进行了监督。
对于源和目标输入图像之间的特征匹配点集应该满足对极几何约束p′TFp=0。其中F=K-T[t]×RK-1是基本矩阵,[·]×表示叉乘运算。因此,可以将网络估计的相对位姿Tt→s=[Rt→s|tt→s]∈SE(3),结合特征匹配点集建立对极损失函数如下:
其中dist(·,·)表示求点到直线的距离,Fp是对极线。
实际上,每次使用3个视图,并对其两两之间都进行了损失的计算。首先令I2为目标视图It,分别令I1和I3为源视图Is,进行以上损失的计算。然后令I1为目标视图It,令I3为源视图Is。通过多个视图之间的损失计算,充分保证了深度预测的稳定性及深度一致性在视频序列间的传播。
总之,最终损失函数L计算如下:
L=k1LRR+k2LF+k3Ls+k4Lc+k5Lepi+k6Lreproject (14)
其中不同损失的权重k1=1,k2=1,k3=0.1,k4=2,k5=0.001,k6=0.001。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (10)
2.根据权利要求1所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(1)中,采用端到端的特征学习网络,从源-目标输入内窥镜图像获得其对应的描述符图;特征学习网络Feat Net由两个权值共享的分支构成,网络的每一个分支采用残差块进行设计,其中编码器由一个卷积层和9个ResNet-v2块组成,从输入图像3×H×W经过两次平均池化层下采样,最终提取特征图C×H/4×W/4,其中H和W是输入图像的高度和宽度,C是提取特征图的通道数;解码器网络由三个卷积层组成,经过两次双线性上采样,最终获得L×H×W的密集特征描述符图,其中L是密集特征描述符的维数,L=32。
3.根据权利要求2所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(1)中,在每一次卷积操作后,采用双线性插值的方法来保持卷积前后图像尺寸不变;同时在解码器中,采用卷积层和双线性上采样层来恢复图像尺寸;对描述符沿着通道进行L2归一化。
4.根据权利要求3所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(1)中,采用内窥镜图像特征匹配方法获得相邻帧之间的稀疏匹配点对这些稀疏匹配点对被用于构建相对响应损失监督网络训练,对于输入的一对源图像Is和目标图像It,特征描述符学习网络将会生成其对应的密集特征描述符图Fs和Ft,输入图像和密集描述符图大小分别为3×H×W和L×H×W,相对响应损失在数学上定义为:
6.根据权利要求5所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(2)中,对于输入的源-目标图像对(Is,It),通过两个权值共享的分支网络分别预测出其深度图(Ds,Dt),其中每个分支由编码器-解码器组成,编码器采用ResNet34,预测层的激活函数表示为:
其中x是预测层sigmoid激活函数的输出值,a=(1/dmin-1/dmax),b=1/dmax,dmin和dmax分别表示内窥镜图像的最小和最大深度,y是当前帧的预测深度;
利用没有遮罩预测分支的相对位姿估计网络PoseNet估计出输入图像对(Is,it)的6DoF相对位姿Tt→s=[Rt→s|tt→s]∈SE(3),PoseNet由七个卷积层组成,网络的输出值乘以比例系数ρ用于限制输出值范围。
8.根据权利要求7所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(2)中,通过公式(6)获得目标视图和源视图的坐标对应关系,对于特征描述符学习网络获得的源描述符图Fs和目标描述符图Ft,通过上述坐标对应关系利用双线性采样方法,从源描述符图Fs生成合成目标描述符图然后,通过公式(7)最小化原始目标描述符图Ft和合成目标描述符图之间的误差
其中M是二进制掩码,表示目标视图中的坐标点通过扭曲变换后是否落入源视图中的有效区域,可以通过扭曲变换确定;
然后,使用边缘感知的平滑度函数对深度图进行平滑度约束
Mdiff=1-Ddiff (10)
对于源和目标输入图像之间的特征匹配点集应该满足对极几何约束p′TFp=0,其中F=K-T[t]×RK-1是基本矩阵,[·]×表示叉乘运算,因此,将网络估计的相对位姿Tt→s=[Rt→s|tt→s]∈SE(3),结合特征匹配点集建立对极损失函数如下:
其中dist(·,·)表示求点到直线的距离,Fp是对极线;
9.根据权利要求8所述的单目内窥镜无监督深度和运动估计的方法,其特征在于:所述步骤(2)中,每次使用3个视图,并对其两两之间都进行了损失的计算,首先令I2为目标视图It,分别令I1和I3为源视图Is,进行以上损失的计算,然后令I1为目标视图It,令I3为源视图Is,最终损失函数L计算如下:
L=k1LRR+k2LF+k3Ls+k4Lc+k5Lepi+k6Lreproject (14)
其中不同损失的权重k1=1,k2=1,k3=0.1,k4=2,k5=0.001,k6=0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210014288.2A CN114399527A (zh) | 2022-01-04 | 2022-01-04 | 单目内窥镜无监督深度和运动估计的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210014288.2A CN114399527A (zh) | 2022-01-04 | 2022-01-04 | 单目内窥镜无监督深度和运动估计的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114399527A true CN114399527A (zh) | 2022-04-26 |
Family
ID=81228432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210014288.2A Pending CN114399527A (zh) | 2022-01-04 | 2022-01-04 | 单目内窥镜无监督深度和运动估计的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114399527A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710711A (zh) * | 2024-02-06 | 2024-03-15 | 东华理工大学南昌校区 | 一种基于轻量化深度卷积网络的光学和sar图像匹配方法 |
CN117974721A (zh) * | 2024-04-01 | 2024-05-03 | 合肥工业大学 | 一种基于单目连续帧图像的车辆运动估计方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210183083A1 (en) * | 2019-12-16 | 2021-06-17 | Robert Bosch Gmbh | Self-supervised depth estimation method and system |
CN113077505A (zh) * | 2021-04-19 | 2021-07-06 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
CN113450410A (zh) * | 2021-06-29 | 2021-09-28 | 浙江大学 | 一种基于对极几何的单目深度和位姿联合估计方法 |
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
-
2022
- 2022-01-04 CN CN202210014288.2A patent/CN114399527A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210183083A1 (en) * | 2019-12-16 | 2021-06-17 | Robert Bosch Gmbh | Self-supervised depth estimation method and system |
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
CN113077505A (zh) * | 2021-04-19 | 2021-07-06 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
CN113450410A (zh) * | 2021-06-29 | 2021-09-28 | 浙江大学 | 一种基于对极几何的单目深度和位姿联合估计方法 |
Non-Patent Citations (1)
Title |
---|
张建勋 等: "面向低分辨率单目内窥镜图像的三维多孔结构重建", 光学精密工程, 15 September 2020 (2020-09-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710711A (zh) * | 2024-02-06 | 2024-03-15 | 东华理工大学南昌校区 | 一种基于轻量化深度卷积网络的光学和sar图像匹配方法 |
CN117710711B (zh) * | 2024-02-06 | 2024-05-10 | 东华理工大学南昌校区 | 一种基于轻量化深度卷积网络的光学和sar图像匹配方法 |
CN117974721A (zh) * | 2024-04-01 | 2024-05-03 | 合肥工业大学 | 一种基于单目连续帧图像的车辆运动估计方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110010249B (zh) | 基于视频叠加的增强现实手术导航方法、系统及电子设备 | |
CN109448041B (zh) | 一种胶囊内镜图像三维重建方法及系统 | |
Mori et al. | Tracking of a bronchoscope using epipolar geometry analysis and intensity-based image registration of real and virtual endoscopic images | |
JP5153620B2 (ja) | 連続的にガイドされる内視鏡と関係する画像を重ね合わせるためのシステム | |
Stoyanov et al. | Dense 3D depth recovery for soft tissue deformation during robotically assisted laparoscopic surgery | |
CN111080778B (zh) | 一种双目内窥镜软组织图像的在线三维重建方法 | |
CN111260786A (zh) | 一种智能超声多模态导航系统及方法 | |
CN110992431B (zh) | 一种双目内窥镜软组织图像的联合三维重建方法 | |
CN114399527A (zh) | 单目内窥镜无监督深度和运动估计的方法及装置 | |
CN112614169B (zh) | 基于深度学习网络的2d/3d脊椎ct层级配准方法 | |
US20110187707A1 (en) | System and method for virtually augmented endoscopy | |
CN110288653B (zh) | 一种多角度超声图像融合方法、系统及电子设备 | |
WO2010081094A2 (en) | A system for registration and information overlay on deformable surfaces from video data | |
CN112819777B (zh) | 一种双目内窥镜辅助显示方法、系统、装置和存储介质 | |
CN108090954A (zh) | 基于图像特征的腹腔环境地图重建与腹腔镜定位的方法 | |
Wu et al. | Reconstructing 3D lung shape from a single 2D image during the deaeration deformation process using model-based data augmentation | |
CN116740170A (zh) | 一种单目内窥镜视频深度与位姿估计方法 | |
KR100346363B1 (ko) | 자동 의료 영상 분할을 통한 3차원 영상 데이터 구축방법/장치, 및 그를 이용한 영상유도 수술 장치 | |
CN112261399B (zh) | 胶囊内窥镜图像三维重建方法、电子设备及可读存储介质 | |
CN116993805A (zh) | 面向手术规划辅助的术中剩余器官体积估计系统 | |
CN115619790B (zh) | 一种基于双目定位的混合透视方法、系统及设备 | |
CN115294128B (zh) | 一种用于消化内镜的单目结构三维成像方法及装置 | |
Zhou et al. | Synthesis of stereoscopic views from monocular endoscopic videos | |
CN115222878A (zh) | 一种应用于肺支气管镜手术机器人的场景重建方法 | |
CN114092643A (zh) | 一种基于混合现实与3dgan的软组织自适应形变方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |