CN117152198A - 一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法 - Google Patents

一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法 Download PDF

Info

Publication number
CN117152198A
CN117152198A CN202311111825.6A CN202311111825A CN117152198A CN 117152198 A CN117152198 A CN 117152198A CN 202311111825 A CN202311111825 A CN 202311111825A CN 117152198 A CN117152198 A CN 117152198A
Authority
CN
China
Prior art keywords
image
network
loss
warp
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311111825.6A
Other languages
English (en)
Inventor
刘博�
李波剑
罗晓燕
周付根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202311111825.6A priority Critical patent/CN117152198A/zh
Publication of CN117152198A publication Critical patent/CN117152198A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法,属于计算机视觉三维重建技术领域。本发明利用一个基于本征图像分解理论设计的分解网络,将图像分解到两个子空间:反射率和阴影。通过这种方式,将图像中光照变化的部分分离到阴影图中,然后对两个子空间进行合成与调整,利用合成图像与目标图像的相似性,约束网络训练。本发明使用深度估计网络、姿态估计网络、图像分解网络、光照调整网络四个神经网络以及重建损失、反射率损失、结构一致性损失、平滑性损失四项损失函数,有效提升了单目内窥镜深度估计方法的鲁棒性。

Description

一种基于光照变化量分离的无监督单目内窥镜图像深度估计 方法
技术领域
本发明涉及计算机视觉领域,更具体的说,涉及一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法。
背景技术
微创手术(MIS)具有创伤面积小、伤口愈合快的潜在优势,在临床手术中得到了广泛的应用。微创手术一般通过内窥镜进行诊断和治疗,如腹腔镜、胃镜等。然而,内窥镜成像在外科手术中存在着空间感知不足的问题。增强现实导航系统是解决这一问题的有效方法,它可以为医生提供额外的解剖和位置信息。此类系统通常需要将术前数据(如CT扫描)与术中视频数据进行配准。这种配准算法的准确性主要取决于内窥镜视频的三维重建的质量,它要求三维重建应该十分准确且足够密集。而深度估计是三维重建中最重要的一环,因此,内窥镜的深度估计具有十分重要的研究意义。
目前,术中所用内窥镜大多为单目相机,且内窥镜成像中存在镜面反射、光线变化和组织变形等一系列问题。因此,对单目内窥镜图像进行深度估计并不容易。现有的单目深度估计方法大都依赖光照一致性假设,这个假设在内窥镜成像过程中不再成立,因此,现有方法不能很好地直接应用在内窥镜图像上。
发明内容
为解决现有技术中存在的缺陷,本发明利用本征图像分解理论分离出光照变化量来解决光照一致性假设不成立的问题。
一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法,包括以下步骤:
步骤1:对单目内窥镜拍摄的视频进行采帧获得图像序列,取图像序列中的一帧作为目标图像It,上下两帧作为源图像Is。取完所有图像序列,获得N个这样的图像对。
步骤2:搭建深度估计网络ΦD,位姿估计网络ΦT,分解网络ΦR,光照调整网络ΦL。将图像It输入深度估计网络ΦD,得到其对应的深度图Dt;将It与Is输入位姿估计网络ΦT,得到It与Is之间相机的姿态变换矩阵Ts→t;将It与Is输入分解网络ΦR,分别得到各自的反射率图At,As和阴影图St,Ss
步骤3:利用At,St重建It,利用As,Ss重建Is,计算重建损失Lr。利用估计的深度图Dt和姿态变换矩阵Ts→t得到相邻帧的扭曲变化Twarp。利用Twarp从As中得到As→t,与At计算反射率损失La。利用Twarp从Ss中得到Ss→t,从Is中得到Is→t,将Is→t与It的差异输入光照调整网络ΦL得到Ladjust,然后利用Ladjust,Ss→t,As→t重建It,由此计算结构一致性损失Lc。最后引入平滑损失函数Ls确保非边缘区域的平滑。基于上述损失函数进行网络训练,迭代至模型收敛。
步骤4:将单目图像输入训练好的深度估计网络ΦD即可输出逐像素的深度图。
进一步的,步骤3中计算重建损失Lr,包括:利用At,St重建It,利用As,Ss重建Is,计算重建误差:
其中,为重建图像,计算公式为:/>a为权重系数,SSIM是一种衡量两幅图相似性的指标,定义如下:
其中,μx是x的平均值,μy是y的平均值,σx是x的标准差,σy是y的标准差,σxy是x和y的协方差,c1,c2和c3为超参数。
进一步的,步骤3中计算相邻帧的扭曲变化Twarp,包括:
首先,基于预测的深度图Dt和相机的姿态变换矩阵Tt→s,再利用已知的相机内参矩阵K,可以得到目标图像It与源图像Is中一系列匹配的像素点{pt,ps},如(3)式所示:
ps~KTt→sDt(pt)K-1pt (3)
然后通过图像插值根据这些匹配点即可获得相邻帧的扭曲变化Twarp
进一步的,步骤3中的计算反射率损失La,包括:利用Twarp,从As中得到As→t,计算As→t与At的相似性:
La(At,As→t)=||At-As→t||1 (4)。
进一步的,步骤3中的计算结构一致性损失Lc,包括:利用Twarp从Is中得到Is→t,将Is→t与It的差异输入光照调整网络ΦL得到Ladjust,然后利用Twarp从Ss中得到Ss→t,从As中得到As→t,利用Ladjust,Ss→t,As→t重建It,计算重建误差:
其中,
进一步的,步骤3中的平滑度损失Ls根据(6)式得到:
其中,和/>分别为图像It和其对应深度图Dt的梯度图。
进一步的,自动掩膜策略过滤无效像素,包括:使用,0,值在相邻帧的扭曲变化Twarp时填充未知区域。这些零填充区域用作掩膜,该掩膜会过滤掉无效像素,防止他们被计算在损失函数中。
Ma=[Is→t>0] (7)
进一步的,总的损失函数为:
其中λcar和λs是相关损失函数的权重。
由该方法训练出的深度网络ΦD即可用来进行单目图像的深度估计。
本发明的有益效果如下:
本发明引入了一个基于本征图像分解理论设计的分解网络,将图像中的光照变化量分离到阴影图中,而剩下的反射率图近似满足光照一致性假设。通过对阴影和反射率进行合成与调整,利用合成图像与目标图像的相似性,约束网络训练。通过这种方式,可有效解决内窥镜成像中存在的光照一致性假设不成立的问题,提高复杂光照条件下的深度估计效果,实现内窥镜场景下鲁棒的单目深度估计。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述的附图是本发明的一种实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种方法流程图;
图2为本发明实施例的网络框架结构示意图;
图3为本发明实施例的深度估计结果示例。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
如图1所示,本方法包括如下4个步骤。
步骤1:对单目内窥镜拍摄的视频进行采帧获得图像序列,取图像序列中的一帧作为目标图像It,上下两帧作为源图像Is。取完所有图像序列,获得N个这样的图像对。
步骤2:搭建深度估计网络ΦD,位姿估计网络ΦT,分解网络ΦR,光照调整网络ΦL。将图像It输入深度估计网络ΦD,得到其对应的深度图Dt;将It与Is输入位姿估计网络ΦT,得到It与Is之间相机的姿态变换矩阵Ts→t;将It与Is输入分解网络ΦR,分别得到各自的反射率图At,As和阴影图St,Ss
深度估计网络ΦD要求预测每个像素点的深度,预测的是像素级别的几何因子,因此采用一个编解码网络,编码网络和解码网络通过跳跃连接逐层连接起来。给定一副输入图像It,它对应的深度图Dt由公式(1)计算。
式中的a,b为缩放因子,将最终的深度图缩放到合适范围。根据内窥镜数据集真实情况,我们将最终深度缩放到[0.1mm,,150mm]。
位姿估计网络ΦT用来估计It与Is之间相机的姿态变换,采用一个解码网络,输入层为两帧图像It与Is,最后一层为6个输出通道的1×1卷积(对应于相机的3个欧拉角和3D平移)。
Tt→s=ΦT(It,Is) (2)
分解网络ΦR中反射率和阴影分支共享一个编码器。为了使阴影反应更详细的信息,阴影分支采用低维特征并叠加反照率解码器的输出以进行解码。
{A,S}=ΦR(I) (3)
光照调整网络ΦL采用一个简单的卷积网络,以相邻两帧图像的差异作为输入,光照调整图为输出:
LAdjust=ΦL(||It-Is→t||1) (4)
步骤3:利用At,St重建It,利用As,Ss重建Is,计算重建损失Lr。利用估计的深度图Dt和姿态变换矩阵Ts→t得到相邻帧的扭曲变化Twarp。利用Twarp从As中得到As→t,与At计算反射率损失La。利用Twarp从Ss中得到Ss→t,从Is中得到Is→t,将Is→t与It的差异输入光照调整网络ΦL得到Ladjust,然后利用Ladjust,Ss→t,As→t重建It,由此计算结构一致性损失Lc。最后引入平滑损失函数Ls确保非边缘区域的平滑。基于上述损失函数进行网络训练,迭代至模型收敛。
首先利用分解网络的输出计算重建损失Lr,公式如下:
其中,为重建图像,计算公式为:/>a为权重系数,实验中为0.8,SSIM是一种衡量两幅图相似性的指标,定义如下:
其中,μx是x的平均值,μy是y的平均值,σx是x的标准差,σy是y的标准差,σxy是x和y的协方差,c1,c2和c3为超参数。
然后,基于预测的深度图Dt和已知的相机内参矩阵K,可以得到It中的像素pt在三维空间中的坐标qt=Dt(pt)K-1pt,然后利用位姿估计网络预测的相机运动矩阵Tt→s,将3D点云从t视角转换到另一视角s下,然后再乘以相机内参矩阵K将其从三维空间转换到s图像平面。整个过程可以由公式(7)表示:
ps~KTt→sDt(pt)K-1pt (7)
其中,pt和ps分别代表三维空间中同一个点在目标视角t和源图像视角s下的像素坐标。即得到了一系列匹配的像素点{pt,ps},然后通过图像插值根据这些匹配点即可获得相邻帧的扭曲变化Twarp
然后,利用Twarp从As中得到As→t,计算As→t与At的相似性,即反射率损失La
La(At,As→t)=||At-As→t||1 (8)
利用Twarp从Is中得到Is→t,,将Is→t与It的差异输入光照调整网络ΦL得到Ladjust,如公式(4)所示。然后利用Twarp从Ss中得到Ss→t,从As中得到As→t,利用Ladjust,Ss→t,As→t重建It,计算结构一致性损失Lc
考虑到深度估计问题中。除了遮挡边界,视差函数通常是平滑的,由此引入一种基于图像梯度加权的边缘感知深度平滑度损失函数,通过图像梯度的加权,保证了非边缘区域平滑的同时也避免了边缘的平滑。见式(12):
为了防止错误的图像区域影响网络训练,采用自动掩膜策略过滤无效像素。使用,0,值在相邻帧的扭曲变化Twarp时填充未知区域,这些零填充区域用作掩膜,该掩膜会过滤掉无效像素,防止他们被计算在损失函数中。
Ma=[Is→t>0] (13)
由该方法训练出的深度网络ΦD即可用来进行单目图像的深度估计。最终本方法训练网络的损失函数为: 其中λc、λa、λr和λs是相关损失函数的权重。
整体网络构架如图2所示。
步骤4:对单目图像进行深度估计。将单目图像输入深度估计网络ΦD即可输出逐像素的深度图,结果示例如图3所示。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法,其特征在于,包括以下步骤:
步骤1:对单目内窥镜拍摄的视频进行采帧获得图像序列,取图像序列中的一帧作为目标图像It,上下两帧作为源图像Is。取完所有图像序列,获得N个这样的图像对。
步骤2:搭建深度估计网络ΦD,位姿估计网络ΦT,分解网络ΦR,光照调整网络ΦL。将图像It输入深度估计网络ΦD,得到其对应的深度图Dt;将It与Is输入位姿估计网络ΦT,得到It与Is之间相机的姿态变换矩阵Ts→t;将It与Is输入分解网络ΦR,分别得到各自的反射率图At,As和阴影图St,Ss
步骤3:利用At,St重建It,利用As,Ss重建Is,计算重建损失Lr。利用估计的深度图Dt和姿态变换矩阵Ts→t得到相邻帧的扭曲变化Twarp。利用Twarp从As中得到As→t,与At计算反射率损失La。利用Twarp从Ss中得到Ss→t,从Is中得到Is→t,将Is→t与It的差异输入光照调整网络ΦL得到Ladjust,然后利用Ladjust,Ss→t,As→t重建It,由此计算结构一致性损失Lc。最后引入平滑损失函数Ls确保非边缘区域的平滑。基于上述损失函数进行网络训练,迭代至模型收敛。
步骤4:将单目图像输入训练好的深度估计网络ΦD即可输出逐像素的深度图。
2.根据权利要求1所述的方法,其特征在于,计算重建损失Lr,包括:利用At,St重建It,利用As,Ss重建Is,计算重建误差:
其中,为重建图像,计算公式为:/>a为权重系数,SSIM是一种衡量两幅图相似性的指标,定义如下:
其中,μx是x的平均值,μy是y的平均值,σx是x的标准差,σy是y的标准差,σxy是x和y的协方差,c1,c2和c3为超参数。
3.根据权利要求1所述的方法,其特征在于,计算相邻帧的扭曲变化Twarp,包括:
首先,基于预测的深度图Dt和相机的姿态变换矩阵Tt→s,再利用已知的相机内参矩阵K,可以得到目标图像It与源图像Is中一系列匹配的像素点{pt,ps},如(3)式所示:
ps~KTt→sDt(pt)K-1pt (3)
然后通过图像插值根据这些匹配点即可获得相邻帧的扭曲变化Twarp
4.根据权利要求1所述的方法,其特征在于,计算反射率损失La,包括:
利用Twarp,从As中得到As→t,计算As→t与At的相似性:
La(At,As→t)=||At-As→t||1 (4)。
5.根据权利要求1所述的方法,其特征在于,计算结构一致性损失Lc,包括:
利用Twarp从Is中得到Is→t,将Is→t与It的差异输入光照调整网络ΦL得到Ladjust,然后利用Twarp从Ss中得到Ss→t,从As中得到As→t,利用Ladjust,Ss→t,As→t重建It,计算重建误差:
其中,
6.根据权利要求1所述的方法,其特征在于,计算平滑度损失Ls,包括:
其中,和/>分别为图像It和其对应深度图Dt的梯度图。
7.根据权利要求1所述的方法,其特征在于,自动掩膜策略过滤无效像素,包括:
使用,0,值在相邻帧的扭曲变化Twarp时填充未知区域。这些零填充区域用作掩膜,该掩膜会过滤掉无效像素,防止他们被计算在损失函数中。
Ma=[Is→t>0] (7)。
8.根据权利要求1所述的方法,其特征在于,总的损失函数为:
其中λcar和λs是相关损失函数的权重。
CN202311111825.6A 2023-08-31 2023-08-31 一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法 Pending CN117152198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311111825.6A CN117152198A (zh) 2023-08-31 2023-08-31 一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311111825.6A CN117152198A (zh) 2023-08-31 2023-08-31 一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法

Publications (1)

Publication Number Publication Date
CN117152198A true CN117152198A (zh) 2023-12-01

Family

ID=88886269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311111825.6A Pending CN117152198A (zh) 2023-08-31 2023-08-31 一种基于光照变化量分离的无监督单目内窥镜图像深度估计方法

Country Status (1)

Country Link
CN (1) CN117152198A (zh)

Similar Documents

Publication Publication Date Title
Allan et al. Stereo correspondence and reconstruction of endoscopic data challenge
WO2021077997A9 (zh) 图像去噪的多生成器生成对抗网络学习方法
US20210158510A1 (en) Estimating object thickness with neural networks
CN110009669B (zh) 一种基于深度强化学习的3d/2d医学图像配准方法
CN111862171B (zh) 基于多视图融合的cbct与激光扫描点云数据牙齿配准方法
CN110992431B (zh) 一种双目内窥镜软组织图像的联合三维重建方法
Mahmoud et al. SLAM based quasi dense reconstruction for minimally invasive surgery scenes
CN114022527B (zh) 基于无监督学习的单目内窥镜深度及位姿估计方法及装置
CN111080778B (zh) 一种双目内窥镜软组织图像的在线三维重建方法
CN112085821A (zh) 一种基于半监督的cbct与激光扫描点云数据配准方法
CN111508068B (zh) 一种应用于双目内窥镜图像的三维重建方法及系统
CN116958437A (zh) 融合注意力机制的多视图重建方法及系统
CN114399527A (zh) 单目内窥镜无监督深度和运动估计的方法及装置
JP7363883B2 (ja) 画像処理の方法、デバイス及びコンピュータ可読記憶媒体
CN112261399B (zh) 胶囊内窥镜图像三维重建方法、电子设备及可读存储介质
Wu et al. Reconstructing 3D lung shape from a single 2D image during the deaeration deformation process using model-based data augmentation
JP4274400B2 (ja) 画像の位置合わせ方法および装置
CN116452752A (zh) 联合单目稠密slam与残差网络的肠壁重建方法
CN113822923A (zh) 用于获取血管的目标切面图像的方法、设备和介质
CN116740170A (zh) 一种单目内窥镜视频深度与位姿估计方法
Zhou et al. Real-time nonrigid mosaicking of laparoscopy images
CN111260765A (zh) 一种显微手术术野的动态三维重建方法
CN114120012A (zh) 一种基于多特征融合和树形结构代价聚合的立体匹配方法
CN117333751A (zh) 一种医学图像融合方法
Tokgozoglu et al. Color-based hybrid reconstruction for endoscopy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination