CN114022527A - 基于无监督学习的单目内窥镜深度及位姿估计方法及装置 - Google Patents

基于无监督学习的单目内窥镜深度及位姿估计方法及装置 Download PDF

Info

Publication number
CN114022527A
CN114022527A CN202111221629.5A CN202111221629A CN114022527A CN 114022527 A CN114022527 A CN 114022527A CN 202111221629 A CN202111221629 A CN 202111221629A CN 114022527 A CN114022527 A CN 114022527A
Authority
CN
China
Prior art keywords
depth
image
pose
pose estimation
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111221629.5A
Other languages
English (en)
Inventor
李强
张叶荻
石洪宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Wuhan United Imaging Zhirong Medical Technology Co Ltd
Original Assignee
Huazhong University of Science and Technology
Wuhan United Imaging Zhirong Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, Wuhan United Imaging Zhirong Medical Technology Co Ltd filed Critical Huazhong University of Science and Technology
Priority to CN202111221629.5A priority Critical patent/CN114022527A/zh
Publication of CN114022527A publication Critical patent/CN114022527A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于无监督学习的单目内窥镜深度及位姿估计方法及装置,属于计算机视觉的三维重建技术领域,本发明首先得到深度估计网络输出的深度估计、位姿估计网络输出的相机位姿估计以及待测图像前后的相邻帧,然后通过视图合成得到目标图像;再根据目标图像与待测图像的损失函数,训练深度估计网络和位姿估计网络,从而实现单目内窥镜深度及位姿估计。如此,本发明将无监督深度学习的方法应用于单目内窥镜图像的三维重建,在推理时实现实时处理。同时,本发明使用光度重建损失、块间匹配相似性和平滑性损失三项误差函数,提升网络应对内窥镜图像的光照、纹理、遮挡等问题的鲁棒性。

Description

基于无监督学习的单目内窥镜深度及位姿估计方法及装置
技术领域
本发明属于计算机视觉的三维重建技术领域,更具体地,涉及一种基于无监督学习的单目内窥镜深度及位姿估计方法、装置、终端设备及可读存储介质。
背景技术
内窥镜图像的稠密三维重建能够预测图像中的每个像素点的深度,位姿估计能够预测每帧图片被拍摄时对应的相机空间位置。在图像引导的微创手术中,对内窥镜图像进行稠密重建和位姿估计是一项关键技术。
然而,单目图像的传统三维重建算法,例如运动恢复结构(Structure fromMotion),应用于单目内窥镜图像的重建时存在若干缺陷。第一,传统重建算法是基于特征点的提取与匹配实现的,只能求解特征点的深度,因此只能进行稀疏重建。第二,传统重建算法的特征点匹配步骤涉及大规模非线性优化问题的求解,计算量大,应用于高帧率的内窥镜视频难以实现实时重建。第三,传统重建算法通常假设重建场景静止不变且表面具有朗伯反射效应。但在内窥镜手术中,由于手术器械与组织的存在,场景不会保持静止,组织表面也因为点光源照射而可能发生镜面反射。第四,与日常场景的日光照明不同,内窥镜手术场景由附于内窥镜上的灯提供照明。当内窥镜运动时,照明灯随之运动,导致内窥镜图像的照明光源不固定,场景的明暗程度也不稳定。图片亮度不一致使传统重建算法中的特征点匹配步骤的难度增大。因此,应用传统重建算法难以对内窥镜手术场景进行实时且稠密的三维重建。
近年来有研究者提出使用深度学习进行实时稠密三维重建与位姿估计。基于深度学习的单目重建方法通常需要大量深度标签进行训练。在内窥镜手术中,获取深度真值需要昂贵的传感器和严格的校准,且在临床手术中增添侵入性设备会额外增加患者的痛苦,所以获取有监督单目内窥镜图像数据的难度较高。除此之外,还有一部分基于深度学习的重建方法需要双目图像数据,使用双目图像中的视差信息预测深度。但是,在当前大多数基层医院中,单目内窥镜手术远多于更昂贵的双目内窥镜手术。因此,有监督单目重建算法和双目重建算法在内窥镜手术领域中的应用有限。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提出了一种基于无监督学习的单目内窥镜深度及位姿估计方法、装置、终端设备及可读存储介质,目的是在没有深度或位姿标签的情况下,使用单目图像序列训练,获得能实时重建单目内窥镜图像的深度及位姿估计模型。
第一方面,本发明提供了一种基于无监督学习的单目内窥镜深度及位姿估计方法,包含以下步骤:
S1,获取通过单目内窥镜采集的体内组织的视频数据集;
S2,从所述视频数据集中按照时间顺序抽取图像,将t时刻的图像It输入深度估计网络,得到深度估计图
Figure BDA0003312850060000021
将t时刻及t+1时刻的图像{It,It+1}输入位姿估计网络,得到从t时刻到t+1时刻的相机位姿变换
Figure BDA0003312850060000022
将t时刻及t-1时刻的图像{It-1,It}输入位姿估计网络,得到从t-1时刻到t时刻的相机位姿变换
Figure BDA0003312850060000023
S3,基于
Figure BDA0003312850060000024
Figure BDA0003312850060000025
以图像It+1为参考图像,通过视图合成得到目标图像
Figure BDA0003312850060000026
基于
Figure BDA0003312850060000027
Figure BDA0003312850060000028
以图像It-1为参考图像,通过视图合成得到目标图像
Figure BDA0003312850060000029
S4,根据目标图像
Figure BDA00033128500600000210
与图像It的损失函数,训练所述深度估计网络和位姿估计网络;并利用训练后的深度估计网络和位姿估计网络进行单目内窥镜深度及位姿估计。
进一步地,所述损失函数
Figure BDA0003312850060000031
表示为:
Figure BDA0003312850060000032
其中,
Figure BDA0003312850060000033
表示光度重建损失、
Figure BDA0003312850060000034
表示块间匹配相似性、
Figure BDA0003312850060000035
表示平滑性损失,λ123分别为光度重建损失、块间匹配相似性和平滑性损失的权重。
进一步地,所述光度重建损失
Figure BDA0003312850060000036
表示为:
Figure BDA0003312850060000037
其中,pe(·)为光度重建误差函数,M为掩膜,
Figure BDA0003312850060000038
Figure BDA0003312850060000039
SSIM(A,B)表示图像A和B结构相似性,‖A-B‖1表示图像A和B的像素之差的L1范数,α为权重系数。
进一步地,所述块间匹配相似性
Figure BDA00033128500600000310
表示为:
Figure BDA00033128500600000311
Figure BDA00033128500600000312
其中,Nx,y表示块状区域,(x,y)表示像素点的横纵坐标。
进一步地,所述平滑性损失
Figure BDA00033128500600000313
表示为:
Figure BDA00033128500600000314
Figure BDA00033128500600000315
其中,
Figure BDA00033128500600000316
是各像素深度估计
Figure BDA00033128500600000317
除以整张图像的深度估计平均值
Figure BDA00033128500600000318
的结果,(x,y)表示像素点的横纵坐标。
进一步地,所述深度估计网络的编码器为残差神经网络,解码器包括若干卷积层。
进一步地,所述位姿估计网络的编码器为残差神经网络,解码器包括若干卷积层和卷积长短期记忆层。
第二方面,本发明提供了一种基于无监督学习的单目内窥镜深度及位姿估计装置,包括:
获取单元,用于获取通过单目内窥镜采集的体内组织的视频数据集;
处理单元,用于从所述视频数据集中按照时间顺序抽取图像,将t时刻的图像It输入深度估计网络,得到深度估计图
Figure BDA0003312850060000041
将t时刻及t+1时刻的图像{It,It+1}输入位姿估计网络,得到从t时刻到t+1时刻的相机位姿变换
Figure BDA0003312850060000042
将t时刻及t-1时刻的图像{It-1,It}输入位姿估计网络,得到从t-1时刻到t时刻的相机位姿变换
Figure BDA0003312850060000043
以及基于
Figure BDA0003312850060000044
Figure BDA0003312850060000045
以图像It+1为参考图像,通过视图合成得到目标图像
Figure BDA0003312850060000046
基于
Figure BDA0003312850060000047
Figure BDA0003312850060000048
以图像It-1为参考图像,通过视图合成得到目标图像
Figure BDA0003312850060000049
以及根据目标图像
Figure BDA00033128500600000410
Figure BDA00033128500600000411
与图像It的损失函数,训练所述深度估计网络和位姿估计网络;并利用训练后的深度估计网络和位姿估计网络进行单目内窥镜深度及位姿估计。
第三方面,本发明提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明首先得到深度估计网络输出的深度估计、位姿估计网络输出的相机位姿估计以及待测图像前后的相邻帧,然后通过视图合成得到目标图像;再根据目标图像与待测图像的损失函数,训练深度估计网络和位姿估计网络,从而实现单目内窥镜深度及位姿估计。如此,本发明将无监督深度学习的方法应用于单目内窥镜图像的三维重建,在推理时实现实时处理。
(2)本发明结合卷积神经网络与循环神经网络,使网络能够同时提取时序图像数据中的结构和时序信息。
(3)本发明使用光度重建损失、块间匹配相似性和平滑性损失三项误差函数,提升网络应对内窥镜图像的光照、纹理、遮挡等问题的鲁棒性。
附图说明
图1是本发明实施例提供的深度估计网络和位姿估计网络的结构示意图;
图2是本发明实施例提供的卷积长短期记忆神经元的结构示意图;
图3是本发明实施例提供的光度重建损失的计算过程示意图;
图4是本发明实施例提供的深度估计结果图;
图5是本发明实施例提供的位姿估计结果图;
图6是本发明实施例提供的一种基于无监督学习的单目内窥镜深度及位姿估计装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。此外,以下所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明提供了一种基于无监督学习的单目内窥镜深度及位姿估计方法,该估计方法包括操作S1-操作S4。
S1,获取通过单目内窥镜采集的体内组织的视频数据集;
S2,从所述视频数据集中按照时间顺序抽取图像,将t时刻的图像It输入深度估计网络,得到深度估计图
Figure BDA0003312850060000061
将t时刻及t+1时刻的图像{It,It+1}输入位姿估计网络,得到从t时刻到t+1时刻的相机位姿变换
Figure BDA0003312850060000062
将t时刻及t-1时刻的图像{It-1,It}输入位姿估计网络,得到从t-1时刻到t时刻的相机位姿变换
Figure BDA0003312850060000063
S3,基于
Figure BDA0003312850060000064
Figure BDA0003312850060000065
以图像It+1为参考图像,通过视图合成得到目标图像
Figure BDA0003312850060000066
基于
Figure BDA0003312850060000067
Figure BDA0003312850060000068
以图像It-1为参考图像,通过视图合成得到目标图像
Figure BDA0003312850060000069
S4,根据目标图像
Figure BDA00033128500600000610
与图像It的损失函数,训练所述深度估计网络和位姿估计网络;并利用训练后的深度估计网络和位姿估计网络进行单目内窥镜深度及位姿估计。
具体而言,分为以下两部分进行描述:
一、网络架构
本发明主要由两个网络组成。如图1所示,图1上方的网络为深度估计网络,输入为一张内窥镜图像,输出为对应的深度估计图。深度估计网络由深度编码器和深度解码器两部分组成。深度编码器为50层的残差神经网络,用于从RGB图片中提取特征;深度解码器由5层卷积层组成,用于将编码器提取的特征映射为与输入图片尺寸相同的深度估计图。
图1下方的网络为相机位姿估计网络,输入为两张相邻的内窥镜图像,输出为对应的位姿变换估计,即拍摄这两张图片间相机的旋转与位移。相机位姿估计网络由位姿编码器和位姿解码器两部分组成,它们不与深度估计网络共享权重。位姿编码器同样使用50层的残差神经网络,用于从RGB图片中提取特征。位姿解码器由一层卷积层和三层卷积长短期记忆层组成。
单个卷积长短期记忆神经元的结构如图2所示,其表达式如下。
Figure BDA0003312850060000071
其中,*是卷积算子,
Figure BDA0003312850060000072
是哈达玛积算子,σ和tanh分别表示Sigmoid和双曲正切激活函数。i,x,h,f,o,c分别表示输入门向量、输入向量、隐藏层向量、遗忘门向量、输出门向量、状态单元,其下标表示时刻。W是由下标指示的二者间的连接权重,b是偏置,它们的值是训练模型时逐渐优化确定的。
通常情况下,位姿估计网络由卷积神经网络构成,而卷积神经网络只能提取空间结构信息,无法挖掘利用数据中的时序信息。本发明的输入数据通常是单目内窥镜视频,具有时序的性质。又因为内窥镜手术场景的范围有限,单目内窥镜视频的相邻帧之间有较大的重合区域,所以输入数据中存在时序信息。因此本发明采用了循环神经网络作为位姿估计网络的解码器。具体地,位姿估计网络的解码器是卷积长短期记忆网络(ConvolutionalLong Short-Term Memory,ConvLSTM),其中的记忆单元可以保存时序图片中来自前几帧的信息,从而利用输入数据中的时序信息。
除此之外,与自然语言处理的普通长短期记忆网络不同,本发明采用了卷积长短期记忆网络。自然语言处理中的普通长短期记忆网络只能处理一维数据,如果直接将其应用于计算机视觉任务,需要将二维图像数据降维为一维数据,这将导致二维图像中像素的位置信息部分丢失,网络提取空间信息的能力降低。如[1]式和图2所示,卷积长短期记忆网络中的神经元使用卷积运算处理输入图像,可以直接处理二维图像数据。因此,本发明使用卷积长短期记忆网络作为位姿估计网络的解码器,提取输入数据中的时序和空间信息。
训练中,若干帧连续的图片被划为一组,按照时间顺序输入位姿估计网络,它们之间的时序信息通过三层卷积长短期记忆层的记忆单元依次传递;其中任意时刻的训练都按照下文描述的步骤进行。
二、训练步骤
如图1所示,本发明所提出的网络训练主要分为数据增强、预训练模型加载、深度及位姿估计,视图合成和损失函数计算五个步骤:
1、数据增强
本发明使用单目腹腔图像作为数据集,并进行了数据增强。具体的数据增强方法包括:随机水平翻转,亮度、对比度、饱和度及色调的随机变化。
2、预训练模型加载
训练前,本发明加载50层的残差神经网络在ImageNet上预训练的权重作为初始权重。
3、深度及位姿估计
训练时,首先将训练数据输入上述的深度估计网络和位姿估计网络,得到一组深度和位姿估计值。具体地,将t时刻的图片It输入深度估计网络,得到其深度估计图
Figure BDA0003312850060000081
将t时刻的图片及其相邻的t+1时刻的图片{It,It+1}输入位姿估计网络,得到从t时刻到t+1时刻的相机位姿变换
Figure BDA0003312850060000082
将t时刻的图片及其相邻的t-1时刻的图片{It-1,It}输入位姿估计网络,得到从t-1时刻到t时刻的相机位姿变换
Figure BDA0003312850060000083
4、视图合成
如图1的“视图合成”箭头所示,合成目标图片需要三方面的信息:深度估计网络输出的深度估计,位姿估计网络输出的相机位姿估计,以及目标图片前后的相邻帧。具体地,本发明利用前一步骤估计的深度
Figure BDA0003312850060000091
和位姿变换
Figure BDA0003312850060000092
将t+1时刻的图片It+1作为参考图片,通过视图合成得到合成的目标图片
Figure BDA0003312850060000093
令pt为目标图片中像素的齐次坐标,K为相机内参矩阵。根据视图合成的原理,通过如[2]式所示的计算,可以获得pt在参考图片It+1上的投影坐标pt+1
Figure BDA0003312850060000094
由于pt+1不一定为整数,本发明采用双线性可微采样法在参考图片中索引像素颜色值,线性插值4个临近像素(左上、右上、左下和右下)的颜色值作为最终结果,填充到合成的目标图片的pt像素坐标。依次计算目标图片所有像素的颜色值,即可合成得到完整的目标图片
Figure BDA0003312850060000095
同理,利用
Figure BDA0003312850060000096
Figure BDA0003312850060000097
将t-1时刻的图片It-1作为参考图片,可以得到合成的目标图片
Figure BDA0003312850060000098
5、损失函数计算
为了评估上一步合成图片的准确性,需要将合成的目标图片
Figure BDA0003312850060000099
与真实图片It相比较,计算损失函数,如图1中的双向箭头所示。损失函数由三部分组成,即光度重建损失
Figure BDA00033128500600000910
块间匹配相似性
Figure BDA00033128500600000911
和平滑性损失
Figure BDA00033128500600000912
Figure BDA00033128500600000913
λ123分别为光度重建损失、块间匹配相似性和平滑性损失的权重。
λ1=1,λ2=0.05,λ3=0.001 [4]
下面我们逐一描述三项误差函数。
[3]式中的
Figure BDA00033128500600000914
是光度重建损失,如[5]式所示。
Figure BDA00033128500600000915
其中,pe(·)为光度重建误差函数,也就是合成图片与真实图片的像素之差的L1范数,与其结构相似性(Structural Similarity,SSIM)的加权和。
Figure BDA0003312850060000101
如[5]式和图3左侧所示,本发明只取
Figure BDA0003312850060000102
中的最小值作为光度重建损失。即,在分别由It-1,It+1作为参考图片合成的两张目标图片
Figure BDA0003312850060000103
中,只有合成较好者被计入光度重建损失。当一张参考图片噪声较大时,根据该参考图片合成的目标图片噪声也较大,本发明则选择另一张噪声较小的合成图片计入光度重建损失。因此,取最小值操作有助于提升网络的抗噪声干扰性能。
如[5]式和图3右侧所示,光度重建损失是光度重建误差函数的最小值乘掩膜M。掩膜M是与输入图像同尺寸的布尔矩阵,决定每个像素是否被计算入光度重建损失。
Figure BDA0003312850060000104
如果合成图片的光度重建误差
Figure BDA0003312850060000105
比It-1,It+1的光度重建误差大,意味着目标图片I的某些像素很可能在t-1,t+1时刻被遮挡,从而无法在目标图片中被正确合成,这些像素应当被尽量排除。因此,本发明通过掩膜M将这些像素排除在光度重建误差的计算之外。如图3右侧所示,将掩膜M与合成的目标图片相乘后,黑色像素在计算光度重建损失时被排除。
[3]式中的
Figure BDA0003312850060000106
是块间匹配相似性,它考虑16×16像素的块状区域Nx,y的重建效果。计算块间匹配相似性时,先将合成图片与真实图片都划分成16×16像素块状区域,然后计算对应区块的零均值归一化互相关(Zero Mean Normalized Cross-Correlation,ZNCC)。
Figure BDA0003312850060000107
零均值归一化互相关取值于[-1,1],值越大越准确。为了使零均值归一化互相关转换为损失函数,本发明对零均值归一化互相关进行了线性变换得到
Figure BDA0003312850060000111
如[9]式所示。
Figure BDA0003312850060000112
由于块间匹配相似性评估的是合成图片的块状区域的正确性,它考虑了单个像素的邻域信息。单目内窥镜图像通常包含许多血管和组织的纹理,这类纹理区域的像素值存在局部的剧烈变化,而其对应的深度值较平滑。块状区域的匹配相似性要求整块区域的合成尽量正确,而不严格惩罚单个像素有微小偏移的情形。因此,块间匹配相似性损失提高了网络处理纹理丰富的区域的鲁棒性,补充了光度重建损失仅独立地考虑单个像素的局限性。
另外,如[8]式所示,零均值归一化互相关是数据零均值化后的互相关值。对图像进行零均值化可以减小不一致的光照对网络的干扰。当图像明暗程度有整体性变化时,合成图片像素值可能比真实图片整体偏大;但是如果它们仅差相同的常数,则说明合成图片是正确的,零均值化能避免惩罚这种正确情形。
[3]式中的
Figure BDA0003312850060000113
是平滑性损失,它鼓励较为平滑的深度估计。
Figure BDA0003312850060000114
其中,
Figure BDA0003312850060000115
是各像素深度估计除以整张图片的深度估计平均值的结果。
Figure BDA0003312850060000116
将深度估计除以其平均值可以避免网络收敛到
Figure BDA0003312850060000117
的平凡解。
根据上述损失函数,使用梯度下降法同时训练深度估计网络和位姿估计网络,最终得到深度和位姿估计模型。
为进一步验证本发明的实用性和有效性,在本发明实施例中,以单目腹腔内窥镜图像作为数据集,使用留一法划分训练集和测试集。本发明在训练集上训练得到深度估计模型和位姿估计模型。使用训练得到的模型对测试集进行预测,可以得到一组预测结果。为了量化评估本发明的效果,将达芬奇手术机器人记录的相机位姿和由结构光方法获得的深度图作为参考标准,与模型的估计值进行比较。评价单目深度及位姿估计质量的常用指标如表1所示。
表1深度及位姿估计质量的评价指标及其公式
Figure BDA0003312850060000121
按照表1列举的评价指标,可以计算得到深度估计的质量指标如表2所示,位姿估计的质量指标如表3所示。表2、表3同时给出了自动驾驶领域的经典无监督单目三维重建算法Monodepth2在本医学图像问题中的表现。由表2、表3可知,本发明在这一任务上的表现优于经典算法Monodepth2。
表2本发明与经典算法的深度估计结果比较(单位:毫米)
Figure BDA0003312850060000122
表3本发明与经典算法的位姿估计结果比较(单位:毫米)
Figure BDA0003312850060000123
深度估计的可视化结果如图4所示,深度真值与深度估计均使用灰度表示深度大小,颜色越深的区域表示深度越大,颜色越浅的区域表示深度越小。图4展示的深度估计图中基本不存在从输入图片中错误继承的伪影,这符合前文所述的本发明优势。除深度估计以外,位姿估计的可视化结果如图5所示,位姿估计与位姿真值也基本相符。
对应于上文实施例所述的基于无监督学习的单目内窥镜深度及位姿估计方法,图6示出了本申请实施例基于无监督学习的单目内窥镜深度及位姿估计装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图6,该装置600包括:
获取单元601,用于获取通过单目内窥镜采集的体内组织的视频数据集;
处理单元602,用于从所述视频数据集中按照时间顺序抽取图像,将t时刻的图像It输入深度估计网络,得到深度估计图
Figure BDA0003312850060000131
将t时刻及t+1时刻的图像{It,It+1}输入位姿估计网络,得到从t时刻到t+1时刻的相机位姿变换
Figure BDA0003312850060000132
将t时刻及t-1时刻的图像{It-1,It}输入位姿估计网络,得到从t-1时刻到t时刻的相机位姿变换
Figure BDA0003312850060000133
以及基于
Figure BDA0003312850060000134
Figure BDA0003312850060000135
以图像It+1为参考图像,通过视图合成得到目标图像
Figure BDA0003312850060000136
基于
Figure BDA0003312850060000137
Figure BDA0003312850060000138
以图像It-1为参考图像,通过视图合成得到目标图像
Figure BDA0003312850060000139
以及根据目标图像
Figure BDA00033128500600001310
Figure BDA00033128500600001311
与图像It的损失函数,训练所述深度估计网络和位姿估计网络;并利用训练后的深度估计网络和位姿估计网络进行单目内窥镜深度及位姿估计。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
本发明实施例还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于无监督学习的单目内窥镜深度及位姿估计方法,其特征在于,包括:
S1,获取通过单目内窥镜采集的体内组织的视频数据集;
S2,从所述视频数据集中按照时间顺序抽取图像,将t时刻的图像It输入深度估计网络,得到深度估计图
Figure FDA0003312850050000011
将t时刻及t+1时刻的图像{It,It+1}输入位姿估计网络,得到从t时刻到t+1时刻的相机位姿变换
Figure FDA0003312850050000012
将t时刻及t-1时刻的图像{It-1,It}输入位姿估计网络,得到从t-1时刻到t时刻的相机位姿变换
Figure FDA0003312850050000013
S3,基于
Figure FDA0003312850050000014
Figure FDA0003312850050000015
以图像It+1为参考图像,通过视图合成得到目标图像
Figure FDA0003312850050000016
基于
Figure FDA0003312850050000017
Figure FDA0003312850050000018
以图像It-1为参考图像,通过视图合成得到目标图像
Figure FDA0003312850050000019
S4,根据目标图像
Figure FDA00033128500500000110
与图像It的损失函数,训练所述深度估计网络和位姿估计网络;并利用训练后的深度估计网络和位姿估计网络进行单目内窥镜深度及位姿估计。
2.根据权利要求1所述的基于无监督学习的单目内窥镜深度及位姿估计方法,其特征在于,所述损失函数
Figure FDA00033128500500000111
表示为:
Figure FDA00033128500500000112
其中,
Figure FDA00033128500500000113
表示光度重建损失、
Figure FDA00033128500500000114
表示块间匹配相似性、
Figure FDA00033128500500000115
表示平滑性损失,λ123分别为光度重建损失、块间匹配相似性和平滑性损失的权重。
3.根据权利要求2所述的基于无监督学习的单目内窥镜深度及位姿估计方法,其特征在于,所述光度重建损失
Figure FDA00033128500500000116
表示为:
Figure FDA00033128500500000117
其中,pe(·)为光度重建误差函数,M为掩膜,
Figure FDA0003312850050000021
Figure FDA0003312850050000022
SSIM(A,B)表示图像A和B结构相似性,‖A-B‖1表示图像A和B的像素之差的L1范数,α为权重系数。
4.根据权利要求2所述的基于无监督学习的单目内窥镜深度及位姿估计方法,其特征在于,所述块间匹配相似性
Figure FDA0003312850050000023
表示为:
Figure FDA0003312850050000024
Figure FDA0003312850050000025
其中,Nx,y表示块状区域,(x,y)表示像素点的横纵坐标。
5.根据权利要求2所述的基于无监督学习的单目内窥镜深度及位姿估计方法,其特征在于,所述平滑性损失
Figure FDA0003312850050000026
表示为:
Figure FDA0003312850050000027
Figure FDA0003312850050000028
其中,
Figure FDA0003312850050000029
是各像素深度估计
Figure FDA00033128500500000210
除以整张图像的深度估计平均值
Figure FDA00033128500500000211
的结果,(x,y)表示像素点的横纵坐标。
6.根据权利要求1至5任一项所述的基于无监督学习的单目内窥镜深度及位姿估计方法,其特征在于,所述深度估计网络的编码器为残差神经网络,解码器包括若干卷积层。
7.根据权利要求1至5任一项所述的基于无监督学习的单目内窥镜深度及位姿估计方法,其特征在于,所述位姿估计网络的编码器为残差神经网络,解码器包括若干卷积层和卷积长短期记忆层。
8.一种基于无监督学习的单目内窥镜深度及位姿估计装置,其特征在于,包括:
获取单元,用于获取通过单目内窥镜采集的体内组织的视频数据集;
处理单元,用于从所述视频数据集中按照时间顺序抽取图像,将t时刻的图像It输入深度估计网络,得到深度估计图
Figure FDA0003312850050000031
将t时刻及t+1时刻的图像{It,It+1}输入位姿估计网络,得到从t时刻到t+1时刻的相机位姿变换
Figure FDA0003312850050000032
将t时刻及t-1时刻的图像{It-1,It}输入位姿估计网络,得到从t-1时刻到t时刻的相机位姿变换
Figure FDA0003312850050000033
以及基于
Figure FDA0003312850050000034
Figure FDA0003312850050000035
以图像It+1为参考图像,通过视图合成得到目标图像
Figure FDA0003312850050000036
基于
Figure FDA0003312850050000037
Figure FDA0003312850050000038
以图像It-1为参考图像,通过视图合成得到目标图像
Figure FDA0003312850050000039
以及根据目标图像
Figure FDA00033128500500000310
Figure FDA00033128500500000311
与图像It的损失函数,训练所述深度估计网络和位姿估计网络;并利用训练后的深度估计网络和位姿估计网络进行单目内窥镜深度及位姿估计。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202111221629.5A 2021-10-20 2021-10-20 基于无监督学习的单目内窥镜深度及位姿估计方法及装置 Pending CN114022527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111221629.5A CN114022527A (zh) 2021-10-20 2021-10-20 基于无监督学习的单目内窥镜深度及位姿估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111221629.5A CN114022527A (zh) 2021-10-20 2021-10-20 基于无监督学习的单目内窥镜深度及位姿估计方法及装置

Publications (1)

Publication Number Publication Date
CN114022527A true CN114022527A (zh) 2022-02-08

Family

ID=80056829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111221629.5A Pending CN114022527A (zh) 2021-10-20 2021-10-20 基于无监督学习的单目内窥镜深度及位姿估计方法及装置

Country Status (1)

Country Link
CN (1) CN114022527A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663496A (zh) * 2022-03-23 2022-06-24 北京科技大学 一种基于卡尔曼位姿估计网络的单目视觉里程计方法
CN115330874A (zh) * 2022-09-02 2022-11-11 中国矿业大学 基于超像素处理遮挡的单目深度估计方法
CN117115786A (zh) * 2023-10-23 2023-11-24 青岛哈尔滨工程大学创新发展中心 一种联合分割跟踪的深度估计模型训练方法及使用方法
CN117671012A (zh) * 2024-01-31 2024-03-08 临沂大学 术中内窥镜绝对与相对位姿计算的方法、装置及设备
WO2024050918A1 (zh) * 2022-09-06 2024-03-14 中国科学院自动化研究所 内窥镜定位方法、电子设备和非暂态计算机可读存储介质
WO2024098240A1 (zh) * 2022-11-08 2024-05-16 中国科学院深圳先进技术研究院 一种消化内镜视觉重建导航系统及方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663496A (zh) * 2022-03-23 2022-06-24 北京科技大学 一种基于卡尔曼位姿估计网络的单目视觉里程计方法
CN114663496B (zh) * 2022-03-23 2022-10-18 北京科技大学 一种基于卡尔曼位姿估计网络的单目视觉里程计方法
CN115330874A (zh) * 2022-09-02 2022-11-11 中国矿业大学 基于超像素处理遮挡的单目深度估计方法
WO2024050918A1 (zh) * 2022-09-06 2024-03-14 中国科学院自动化研究所 内窥镜定位方法、电子设备和非暂态计算机可读存储介质
WO2024098240A1 (zh) * 2022-11-08 2024-05-16 中国科学院深圳先进技术研究院 一种消化内镜视觉重建导航系统及方法
CN117115786A (zh) * 2023-10-23 2023-11-24 青岛哈尔滨工程大学创新发展中心 一种联合分割跟踪的深度估计模型训练方法及使用方法
CN117115786B (zh) * 2023-10-23 2024-01-26 青岛哈尔滨工程大学创新发展中心 一种联合分割跟踪的深度估计模型训练方法及使用方法
CN117671012A (zh) * 2024-01-31 2024-03-08 临沂大学 术中内窥镜绝对与相对位姿计算的方法、装置及设备
CN117671012B (zh) * 2024-01-31 2024-04-30 临沂大学 术中内窥镜绝对与相对位姿计算的方法、装置及设备

Similar Documents

Publication Publication Date Title
CN114022527A (zh) 基于无监督学习的单目内窥镜深度及位姿估计方法及装置
Liu et al. Dense depth estimation in monocular endoscopy with self-supervised learning methods
CN111627019B (zh) 一种基于卷积神经网络的肝脏肿瘤分割方法及系统
US20180174311A1 (en) Method and system for simultaneous scene parsing and model fusion for endoscopic and laparoscopic navigation
US20210406596A1 (en) Convolutional neural networks for efficient tissue segmentation
CN110910351B (zh) 基于生成对抗网络的超声图像模态迁移、分类方法及终端
CN111882514A (zh) 一种基于双残差超密集网络的多模态医学图像融合方法
CN106327479A (zh) 血管造影中介下先心病术中血管辨识的装置及方法
CN111899165A (zh) 一种基于功能模块的多任务图像重建卷积网络模型
CN115731178A (zh) 一种跨模态的无监督域自适应医学图像分割方法
Popescu et al. Anatomically informed deep learning on contrast-enhanced cardiac magnetic resonance imaging for scar segmentation and clinical feature extraction
CN113496494A (zh) 基于drr模拟数据生成的二维骨骼分割方法及装置
Bardozzo et al. StaSiS-Net: A stacked and siamese disparity estimation network for depth reconstruction in modern 3D laparoscopy
Wu et al. Reconstructing 3D lung shape from a single 2D image during the deaeration deformation process using model-based data augmentation
CN116740170A (zh) 一种单目内窥镜视频深度与位姿估计方法
CN114187214A (zh) 一种红外与可见光图像融合系统及方法
CN114399527A (zh) 单目内窥镜无监督深度和运动估计的方法及装置
Psychogyios et al. MSDESIS: Multitask stereo disparity estimation and surgical instrument segmentation
Zhou et al. Real-time nonrigid mosaicking of laparoscopy images
Tao et al. SVT-SDE: spatiotemporal vision transformers-based self-supervised depth estimation in stereoscopic surgical videos
CN117392312A (zh) 基于可变形神经辐射场的单目内窥镜新视角图像生成方法
Xie et al. MRSCFusion: Joint residual Swin transformer and multiscale CNN for unsupervised multimodal medical image fusion
CN110570416A (zh) 多模态心脏图像的可视化和3d打印的方法
CN115690327A (zh) 一种空频解耦的弱监督三维人脸重建方法
Quan et al. 3d reconstruction of medical images with transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination