CN116452752A - 联合单目稠密slam与残差网络的肠壁重建方法 - Google Patents
联合单目稠密slam与残差网络的肠壁重建方法 Download PDFInfo
- Publication number
- CN116452752A CN116452752A CN202310485321.4A CN202310485321A CN116452752A CN 116452752 A CN116452752 A CN 116452752A CN 202310485321 A CN202310485321 A CN 202310485321A CN 116452752 A CN116452752 A CN 116452752A
- Authority
- CN
- China
- Prior art keywords
- depth
- image
- dense
- parameters
- monocular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000968 intestinal effect Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000000007 visual effect Effects 0.000 claims abstract description 14
- 238000012937 correction Methods 0.000 claims abstract description 8
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 238000004220 aggregation Methods 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 7
- 239000002775 capsule Substances 0.000 abstract description 5
- 238000001125 extrusion Methods 0.000 abstract description 5
- 230000008855 peristalsis Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002572 peristaltic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B1/00—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
- A61B1/00002—Operational features of endoscopes
- A61B1/00004—Operational features of endoscopes characterised by electronic signal processing
- A61B1/00009—Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B1/00—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
- A61B1/00002—Operational features of endoscopes
- A61B1/00004—Operational features of endoscopes characterised by electronic signal processing
- A61B1/00009—Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
- A61B1/000096—Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope using artificial intelligence
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B1/00—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
- A61B1/31—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor for the rectum, e.g. proctoscopes, sigmoidoscopes, colonoscopes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/41—Medical
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Surgery (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Optics & Photonics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Radiology & Medical Imaging (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及联合单目稠密SLAM与残差网络的肠壁重建方法,包括:S1、对单目肠道内窥镜图像进行预处理,具体包括图像去畸变、裁剪、缩放等操作,使其适合于后续的处理。S2、使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像。S3、通过C3DPO对图像序列进行形变分解,得到形变参数和姿态参数。S4、根据形变参数和姿态参数对深度图像进行形变校正和缩放校正,得到校正后的深度图像。S5、通过体积融合算法将不同视角下的深度图像融合,以构建三维肠壁图像。其中,步骤S2和步骤S3并行进行。本发明解决了由于自身蠕动和胶囊内窥镜挤压,致使肠道内壁形状不定的问题,且提高肠壁三维重建的准确性。
Description
技术领域
本发明属于肠道内窥镜图像处理技术领域,尤其是一种联合单目稠密SLAM与残差网络的肠壁重建方法。
背景技术
三维重建是计算机视觉技术中的一个重要分支,被广泛应用于检测和观察中。三维重建是将现实中的三维物体通过确定其相应的数学模型在计算机中显示出来,并可进行相应处理,完成其性质的分析等基本过程。肠壁重建主要是针对单目肠道内窥镜图像来进行肠道内壁三维重建过程。
三维重建作为当今社会的一项核心技术,可作用于一类具有共性的实际问题,应用场景十分广泛,包括医学图像处理、自动驾驶、文物修复等相关场景。例如,在医学图像处理中,三维重建利用医学成像设备获取的二维图像构建组织或者器官的三维几何模型进而提供更加清晰准确的病灶体现;在自动驾驶中,轻量级三维几何深度生成模型,可用于实时、在线的室外场景导航、建图和语义理解、生成、预测及臆想;在当今的文化遗产数字化保护领域,利用三维数字化扫描重建和虚拟现实技术已经成为主要的手段。
图像三维重建可分为传统处理方法和深度学习方法。传统处理图像的三维重建方法主要有:(1)基于光流的三维重建技术,先提取图像序列中运动物体或场景表面的图像特征,如图像中的角点、直线、曲线等、然后对提取的特征跟踪、匹配并计算出其对应的图像坐标变化,从而根据特征光流与三维运动和空间结构的投影关系重建三维运动与结构。由于只是采用图像序列中感兴趣的图像特征对物体或场景进行描述,基于光流的三维重建技术能够克服亮度突变现象对重建结果的影响。当图像序列中存在运动遮挡情况时,光流估计在遮挡区域会有较大误差。(2)基于明暗恢复法是计算机视觉领域从图像恢复三维形状的的经典算法,其利用单幅图像优化迭代进行三维形状重建,但是只能重建反照率一致的图像,且只对无投射阴影的图像有效。(3)基于光度立体技术(PMS)是基于非平面表面的多幅辐照度图像对物体表面形状进行重建,PMS扩展了SFS的约束条件,从3幅或者3幅以上的辐照度图像重建物体的三维结构,是基于图像的三维重建中较准确且可靠的技术。当空间三维场景被投影为二维图像时,同一景物在不同视点下的全图会有很大不同,而且场景中的诸多因数,如光照条件,景物几何形状和物理特性,噪声干扰和畸变以及摄像机特性等,都会对三维重建的效果产生很大的影响。
而对于使用内窥镜的三维重建方法,使用阴影形状或双目立体技术已被提出。然而,这些技术通常对处理的图像有着严格的假设。在一些技术上,需要专门的内窥镜,而且连接到镜头的单线激光扫描仪需要平行于目标,这限制了该技术的实用性。有研究人员使用SFS技术根据结肠表面的亮度重建了一小段肠壁,但当光源太靠近肠壁时,结果会变得不准确。有研究人员使用SFM方法从短帧序列中重建了一小部分3D肠内壁作为稀疏点。然而,SFM算法要求摄像机移动非常慢,不适合重建完整或大块的3D肠壁。
随着深度学习的发展,深度神经网络凭借其自动提取特征和强大的非线性映射能力被广泛应用于各领域,成为了图像处理的重要手段。有研究人员训练了一个深度卷积神经网络,使用模拟结肠镜数据集和地面真实摄像机运动进行姿态估计。有研究人员使用从一个虚拟合成的数据集来训练深度估计的深度网络。有研究人员训练了一个条件生成对抗网络pix2pix,使用从分割结肠CT模型生成的合成数据进行结肠镜图像三维重建。有研究人员利用光学结肠镜(OC)的纹理信息和虚拟结肠镜(VC)的几何信息训练了一个Cycle GAN,用于两个模态之间的有损的未成对的图像的平移。有研究人员利用通过SFM获得的稀疏重建,开发了一种多视角立体重建方法,可以从短序列的内镜图像中生成一小段肠壁图像。上述所有方法都只能重建肠壁结构的单个框架或非常小的部分。
基于深度学习的三维重建继承了图像三维重建成本低、应用场景广泛的特点,与此同时,通过使用深度神经网络,可直接估计相机到物体的距离,相比传统的SFM,计算过程耗时少,且重建效果更优。但是基于深度学习的三维重建方法的一大弊端是规模受限:loss的优化需要很大的算力消耗、数据集的采集也存在限制,这使基于深度学习的三维重建很难应用到大分辨率的场景。
深度学习对于训练的数据集合硬件要求比较高,所以对于三维重建还有很有待提升。传统的三维重建方法需要较多的人力资源进行监督;且由于自身蠕动和胶囊内窥镜挤压,致使肠道内壁形状不定,现有三维重建方法面对多个形状修改与生成任务时,无法精确地识别对象形状地几何与拓扑结构差异;出现精细的几何细节时,由于无法实现全局性操作,三维重建的准确性不够高;由于无法输出各个部件的关系,对3D形状的结构编号进行建模的难度较高;最终重建的模型中可能会有孔洞、纹理混叠、由于体素分辨率限制丢失很多细节等。
发明内容
本发明所要解决的技术问题是提供一种联合单目稠密SLAM与残差网络的肠壁重建方法,解决由于自身蠕动和胶囊内窥镜挤压,致使肠道内壁形状不定的问题,提高重建效果。
为解决上述问题,本发明采用的技术方案为:联合单目稠密SLAM与残差网络的肠壁重建方法,其特征在于,包括
S1、对单目肠道内窥镜图像进行预处理;
S2、使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像;
S3、通过C3DPO对图像序列进行形变分解,得到形变参数和姿态参数;
S4、根据形变参数和姿态参数对深度图像进行形变校正和缩放校正,得到校正后的深度图像;
S5、通过体积融合算法将不同视角下的深度图像融合,以构建三维肠壁图像;
其中,步骤S2和步骤S3并行进行。
进一步地,步骤S2包括:
S21、通过视觉里程计估计全局位姿;
S22、通过CVA-MVSNet估计每一帧的稠密深度。
进一步地,步骤S21中,以稠密前端跟踪作为前端,粗略地提供相机的位姿估计,作为窗口优化后端的初始化;以直接法稀疏里程计作为后端,将一个稀疏深度图合并一个稠密的深度图/>对于关键帧n中的每个像素p,对其赋予一个深度值,该深度值来自于直接法稀疏里程计中稀疏VO点深度图/>或者是来自于稠密深度图/>从而用接近稠密的组合深度图用于两帧图像的直接对齐。
进一步地,步骤S22包括:在CVA-MVSNet中,将活动关键帧定义为其中Ii是大小为(H,W)的图像,Ti是视觉里程计中估计的全局位姿;
利用共享权重的2D U-Net提取关键帧的多尺度深度特征其中i∈[1,n]是帧索引,s∈[1,3]是尺度索引;
因此,的形状为(Fs,Hs,Ws),其中Fs是尺度s的特征维度,Hs=H/23-s,Ws=W/23-s;
参考坐标系的深度图分层用3个阶段进行估计,每个阶段以特征集为输入,并预测形状为(Hs,Ws)的参考深度图;
对于每个阶段,使用深度特征构建代价体Cs,对于参考系的每个像素,定义Ds为深度假设,从而得到形状为(Ds,Hs,Ws)的一个张量/>利用深度假设、相对姿态和相机内参,对各帧的深度特征/>进行可微弯曲;由此为每一帧构造一个形状为(Fs,Ds,Hs,Ws)的特征体移/>
为了将来自多视图特征体的信息聚合到一个代价体Cs中,平等地对待不同的视图,并使用基于方差的代价度量:
利用自适应的视觉集成来构造代价体:
其中,视角聚合权重的形状为(1,Ds,Hs,Ws)且⊙是逐元素与广播相乘;通过浅层3D卷积网络分别为每个/>估计视角聚合权重/>其取/>作为输入;然后,使用3DU-Net对代价体积Cs进行正则化,并通过sonmax非线性以获得形状为(Ds,Hs,Ws)的概率体积Ps;给定形状为(Ds,Hs,Ws)的帧的每个像素的假设深度/>估计深度由下式计算:
该网络利用从前一阶段估计的深度Ds-1(s>1)来定义细粒度深度假设张量由于第一阶段不存在先验阶段,/>的每个像素有着相同的深度范围[dmin,dmax];对于之后的阶段(s>1),深度Ds-1通过上采样,然后用作先验信息定义/>
使用应用于三个阶段的相对于深度真值的L1损失的总和作为最终的损失函数并用于指导网络训练,即:
进一步地,步骤S3包括:
采用正交相机投影方式,则该投影方式可表示为:
Ψ=[I2,0]
其中,I2∈R2×2为单位矩阵;
设计线性模型对结构S进行约束,即有:
其中,αn为Sn对应的视角参数,B表示形状基,D表示形状基的维度,表示克罗内克积;
根据上式可得:
S=ΓB∈R3D×P
其中,Γ∈R3F×3D,从而将问题转化为:
其中,W∈R2F×P,roi(i=1,2,...,F表示第i帧输入图像对应的旋转矩阵;
对于形状基B,采用iresnet结构F替代传统的因式分解,从而获得对应的重建形变参数θ和形变姿态参数α;
损失函数采用:
其中,为Pseudo-Huber损失,∈=0.01。
本发明的有益效果是:1、本发明构建了双支线深度学习模型,支线一通过C3DPO对图像序列进行形变分解,得到形变参数和姿态参数,支线二使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像,通过正则损失学习肠道内部形变特征并分解视点,很好地解决了由于自身蠕动和胶囊内窥镜挤压,致使肠道内壁形状不定的问题。
2、为了预测稠密的深度图,提出了级联视图聚合网络Cascade View-AggregationMVSNet(CVA-MVSNet),利用整个活动关键帧窗口,通过使用自适应视图聚合分层构建3D代价体素(cost volume),以平衡关键帧之间的不同立体基线。最后,将预测的深度图融合成一个一致的全局图,用截断有符号距离函数(TSDF)体素网格表示,提高了肠壁三维重建的准确性。
附图说明
图1是本发明的算法流程图;
图2是本发明提供的TANDEM总体结构图;
图3是本发明提供的CVA-MVSNet总体结构图;
图4是本发明提供的C3DPO结构图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明的联合单目稠密SLAM与残差网络的肠壁重建方法,如图1所示,包括以下步骤:
S1、对单目肠道内窥镜图像进行预处理,具体包括图像去畸变、裁剪、缩放等操作,使其适合于后续的处理。
S2、使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像。
S3、通过C3DPO对图像序列进行形变分解,得到形变参数和姿态参数。
S4、根据形变参数和姿态参数对深度图像进行形变校正和缩放校正,得到校正后的深度图像。
S5、通过体积融合算法将不同视角下的深度图像融合,以构建三维肠壁图像。
其中,步骤S2和步骤S3并行进行。
步骤S2包括:
S21、通过视觉里程计估计全局位姿。
视觉里程计采用了稠密前端跟踪(Dense Front-end Tracking)作为前端和直接法稀疏里程计(Direct Sparse Odometry,DSO)作为后端。前端粗略地提供了相机的位姿估计,作为窗口优化后端的初始化。在后端中,将一个稀疏深度图合并一个稠密的深度图/>对于关键帧n中的每个像素p,对其赋予一个深度值,这个深度值来自于直接法稀疏里程计(DSO)中稀疏VO点深度图/>或者是来自与稠密深度图/>这样用接近稠密的组合深度图用于两帧图像的直接对齐。
S22、通过CVA-MVSNet估计每一帧的稠密深度。
在CVA-MVSNet中,将活动关键帧定义为其中Ii是大小为(H,W)的图像,Ti是视觉里程计中估计的全局位姿。
首先利用共享权重的2D U-Net提取关键帧的多尺度深度特征其中i∈[1,n]是帧索引,s∈[1,3]是尺度索引。因此,/>的形状为(Fs,Hs,Ws),其中Fs是尺度s的特征维度,Hs=H/23-s,Ws=W/23-s。参考坐标系的深度图分层用3个阶段进行估计,每个阶段以特征集为输入,并预测形状为(Hs,Ws)的参考深度图。
对于每个阶段,需要使用深度特征来构建一个代价体Cs。对于参考系的每个像素,定义Ds为深度假设,从而得到形状为(Ds,Hs,Ws)的一个张量/>利用深度假设、相对姿态/>和相机内参,对各帧的深度特征/>进行可微弯曲。由此为每一帧构造一个形状为(Fs,Ds,Hs,Ws)的特征体积/>
为了将来自多视图特征体的信息聚合到一个代价体Cs中,平等地对待不同的视图,并使用基于方差的代价度量:
然而,在滑动窗口SLAM的设置中,关键帧并不是均匀地分布在优化窗口内,通常较新的关键帧之间的距离比旧关键帧之间的距离要小得多。这造成了相当大的遮挡和不重叠的图像。基于方差的代价体是不合理的,因为它公平地权衡了不同的图像。为了缓解这个问题,利用自适应的视觉集成来构造代价体:
其中,视角聚合权重的形状为(1,Ds,Hs,Ws)且⊙是逐元素与广播相乘。通过浅层3D卷积网络分别为每个/>估计视角聚合权重/>其取/>作为输入。该聚合模块允许网络自适应地降低错误信息的权重。然后,使用3D U-Net对代价体积Cs进行正则化,并最终通过softmax非线性以获得形状为(Ds,Hs,Ws)的概率体积Ps。给定形状为(Ds,Hs,Ws)的帧的每个像素的假设深度/>估计深度由下式计算:
该网络利用从前一阶段估计的深度Ds-1(s>1)来定义细粒度深度假设张量由于第一阶段不存在先验阶段,/>的每个像素有着相同的深度范围[dmin,dmax]。对于之后的阶段(s>1),深度Ds-1通过上采样,然后用作先验信息去定义/>具体来说,对于像素位置(h,w),/>使用上采样的Ds-1(h,w)定义为中心,然后使用预定义的偏移量在其周围采样Ds个值。这样对于具有更高分辨率的阶段,能减少需要的深度平面数量,即D1≥D2≥D3。本发明使用应用于三个阶段的相对于深度真值的L1损失的总和作为最终的损失函数用于指导网络训练,即:
步骤S3包括:
常规的SFM问题,主要是从输入二维关键点的观测矩阵w_n=(w_n1,w_n2,...,w_np)∈R^(2×p)获取对应的三维姿态坐标S=(S_1,S_2,,...,S_p)∈R^(3×P)。其中,w_n表示在第n帧时P个特征点对应的二维坐标。将共有F帧的序列视为一个整体,整个问题可转化为:
W=roS
W=(w1,w2,...,wF)T∈R2F×P
ro=(ΨR1,ΨR2,...,ΨRF)T∈R2F×3
其中,Ψ:R3→R2为相机投影方式。Rn为对应第n帧中的旋转。
本发明选择正交相机投影方式,则该投影方式可表示为:
Ψ=[I2,0]
其中,F2∈R2×2为单位矩阵。
本发明基于SfM问题推广的NRSfM构建,因此设计线性模型对结构S进行约束,即有:
其中,αn为Sn对应的视角参数,B表示形状基,D表示形状基的维度。表示克罗内克积(Kronecker Products)。
由上式可得:
S=ΓB∈R3D×P
其中,Γ∈R3F×3D。
因此,本方案问题可转化为:
其中,W∈R2F×P,roi(i=1,2,...,F表示第i帧输入图像对应的旋转矩阵。
对于形状基B,本发明采用iresnet结构F替代传统的因式分解,从而获得对应的重建形变参数θ和形变姿态参数α。
损失函数的设计上,本发明拟选择与C3DPO相似设计,由此构建损失函数为:
其中,为Pseudo-Huber损失,∈=0.01。
本发明构建了双支线深度学习模型,支线一通过C3DPO对图像序列进行形变分解,得到形变参数和姿态参数,支线二使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像,通过正则损失学习肠道内部形变特征并分解视点,很好地解决了由于自身蠕动和胶囊内窥镜挤压,致使肠道内壁形状不定的问题。
为了预测稠密的深度图,提出了级联视图聚合网络Cascade View-AggregationMVSNet(CVA-MVSNet),利用整个活动关键帧窗口,通过使用自适应视图聚合分层构建3D代价体素(cost volume),以平衡关键帧之间的不同立体基线。最后,将预测的深度图融合成一个一致的全局图,用截断有符号距离函数(TSDF)体素网格表示,提高了肠壁三维重建的准确性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.联合单目稠密SLAM与残差网络的肠壁重建方法,其特征在于,包括
S1、对单目肠道内窥镜图像进行预处理;
S2、使用单目稠密SLAM算法TANDEM计算每个视角下的深度图像;
S3、通过C3DPO对图像序列进行形变分解,得到形变参数和姿态参数;
S4、根据形变参数和姿态参数对深度图像进行形变校正和缩放校正,得到校正后的深度图像;
S5、通过体积融合算法将不同视角下的深度图像融合,以构建三维肠壁图像;
其中,步骤S2和步骤S3并行进行。
2.如权利要求1所述的联合单目稠密SLAM与残差网络的肠壁重建方法,其特征在于,步骤S2包括:
S21、通过视觉里程计估计全局位姿;
S22、通过CVA-MVSNet估计每一帧的稠密深度。
3.如权利要求2所述的联合单目稠密SLAM与残差网络的肠壁重建方法,其特征在于,步骤S21中,以稠密前端跟踪作为前端,粗略地提供相机的位姿估计,作为窗口优化后端的初始化;以直接法稀疏里程计作为后端,将一个稀疏深度图合并一个稠密的深度图对于关键帧n中的每个像素p,对其赋予一个深度值,该深度值来自于直接法稀疏里程计中稀疏VO点深度图/>或者是来自于稠密深度图/>从而用接近稠密的组合深度图用于两帧图像的直接对齐。
4.如权利要求3所述的联合单目稠密SLAM与残差网络的肠壁重建方法,其特征在于,步骤S22包括:在CVA-MVSNet中,将活动关键帧定义为其中Ii是大小为(H,W)的图像,Ti是视觉里程计中估计的全局位姿;
利用共享权重的2D U-Net提取关键帧的多尺度深度特征其中i∈[1,n]是帧索引,s∈[1,3]是尺度索引;
因此,的形状为(Fs,Hs,Ws),其中Fs是尺度s的特征维度,Hs=H/23-s,Ws=W/23-s;
参考坐标系的深度图分层用3个阶段进行估计,每个阶段以特征集为输入,并预测形状为(Hs,Ws)的参考深度图;
对于每个阶段,使用深度特征构建代价体Cs,对于参考系的每个像素,定义Ds为深度假设,从而得到形状为(Ds,Hs,Ws)的一个张量/>利用深度假设、相对姿态/>和相机内参,对各帧的深度特征/>进行可微弯曲;由此为每一帧构造一个形状为(Fs,Ds,Hs,Ws)的特征体积/>
为了将来自多视图特征体的信息聚合到一个代价体Cs中,平等地对待不同的视图,并使用基于方差的代价度量:
利用自适应的视觉集成来构造代价体:
其中,视角聚合权重的形状为(1,Ds,Hs,Ws)且⊙是逐元素与广播相乘;通过浅层3D卷积网络分别为每个/>估计视角聚合权重/>其取/>作为输入;然后,使用3D U-Net对代价体积Cs进行正则化,并通过softmax非线性以获得形状为(Ds,Hs,Ws)的概率体积Ps;给定形状为(Ds,Hs,Ws)的帧的每个像素的假设深度/>估计深度由下式计算:
该网络利用从前一阶段估计的深度Ds-1(s>1)来定义细粒度深度假设张量由于第一阶段不存在先验阶段,/>的每个像素有着相同的深度范围[dmin,dmax];对于之后的阶段(s>1),深度Ds-1通过上采样,然后用作先验信息定义/>
使用应用于三个阶段的相对于深度真值的L1损失的总和作为最终的损失函数并用于指导网络训练,即:
5.如权利要求1、2、3或4所述的联合单目稠密SLAM与残差网络的肠壁重建方法,其特征在于,步骤S3包括:
采用正交相机投影方式,则该投影方式可表示为:
Ψ=[I2,0]其中,I2∈R2×2为单位矩阵;
设计线性模型对结构S进行约束,即有:
Sn=ΓnB,αn∈RD,B∈R3D×P
其中,αn为Sn对应的视角参数,B表示形状基,D表示形状基的维度,表示克罗内克积;
根据上式可得:
S=ΓB∈R3D×P
其中,Γ∈R3F×3D,从而将问题转化为:
其中,W∈R2F×P,roi(i=1,2,...,F表示第i帧输入图像对应的旋转矩阵;
对于形状基B,采用iresnet结构F替代传统的因式分解,从而获得对应的重建形变参数θ和形变姿态参数α;
损失函数采用:
其中,为Pseudo-Huber损失,∈=0.01。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485321.4A CN116452752A (zh) | 2023-04-28 | 2023-04-28 | 联合单目稠密slam与残差网络的肠壁重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485321.4A CN116452752A (zh) | 2023-04-28 | 2023-04-28 | 联合单目稠密slam与残差网络的肠壁重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116452752A true CN116452752A (zh) | 2023-07-18 |
Family
ID=87120159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310485321.4A Pending CN116452752A (zh) | 2023-04-28 | 2023-04-28 | 联合单目稠密slam与残差网络的肠壁重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452752A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117204796A (zh) * | 2023-11-09 | 2023-12-12 | 哈尔滨海鸿基业科技发展有限公司 | 一种腹腔内窥镜多光谱成像方法及装置 |
CN117747056A (zh) * | 2024-02-19 | 2024-03-22 | 遂宁市中心医院 | 一种微创手术术前图像估计方法、装置、设备及存储介质 |
CN118570613A (zh) * | 2024-08-01 | 2024-08-30 | 苏州中德睿博智能科技有限公司 | 一种基于几何和光度一致性的视觉里程计方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145238A (zh) * | 2019-12-12 | 2020-05-12 | 中国科学院深圳先进技术研究院 | 单目内窥镜图像的三维重建方法、装置及终端设备 |
CN113920254A (zh) * | 2021-12-15 | 2022-01-11 | 深圳市其域创新科技有限公司 | 一种基于单目rgb的室内三维重建方法及其系统 |
-
2023
- 2023-04-28 CN CN202310485321.4A patent/CN116452752A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145238A (zh) * | 2019-12-12 | 2020-05-12 | 中国科学院深圳先进技术研究院 | 单目内窥镜图像的三维重建方法、装置及终端设备 |
CN113920254A (zh) * | 2021-12-15 | 2022-01-11 | 深圳市其域创新科技有限公司 | 一种基于单目rgb的室内三维重建方法及其系统 |
Non-Patent Citations (3)
Title |
---|
DAVID NOVOTNY, ETC.: "C3DPO: Canonical 3D Pose Networks for Non-Rigid Structure From Motion", 《ARXIV:1909.02533V2》, 15 October 2019 (2019-10-15), pages 1 - 13 * |
JINGWEI SONG,ETC.: "MIS-SLAM: Real-Time Large-Scale Dense Deformable SLAM System in Minimal Invasive Surgery Based on Heterogeneous Computing", 《IEEE ROBOTICS AND AUTOMATION LETTERS》, 31 December 2018 (2018-12-31), pages 4068 - 4075 * |
LUKAS KOESTLER,ETC.: "TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view Stereo", 《CORL 2021》, 31 December 2021 (2021-12-31), pages 1 - 12 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117204796A (zh) * | 2023-11-09 | 2023-12-12 | 哈尔滨海鸿基业科技发展有限公司 | 一种腹腔内窥镜多光谱成像方法及装置 |
CN117204796B (zh) * | 2023-11-09 | 2024-02-13 | 哈尔滨海鸿基业科技发展有限公司 | 一种腹腔内窥镜多光谱成像方法及装置 |
CN117747056A (zh) * | 2024-02-19 | 2024-03-22 | 遂宁市中心医院 | 一种微创手术术前图像估计方法、装置、设备及存储介质 |
CN118570613A (zh) * | 2024-08-01 | 2024-08-30 | 苏州中德睿博智能科技有限公司 | 一种基于几何和光度一致性的视觉里程计方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106803267B (zh) | 基于Kinect的室内场景三维重建方法 | |
CN111325794A (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN116452752A (zh) | 联合单目稠密slam与残差网络的肠壁重建方法 | |
Letouzey et al. | Scene flow from depth and color images | |
WO2022206020A1 (zh) | 图像场景深度的估计方法、装置、终端设备和存储介质 | |
CN112308918B (zh) | 一种基于位姿解耦估计的无监督单目视觉里程计方法 | |
CN107563323A (zh) | 一种视频人脸特征点定位方法 | |
CN114429555A (zh) | 由粗到细的图像稠密匹配方法、系统、设备及存储介质 | |
Huang et al. | Self-supervised depth estimation in laparoscopic image using 3D geometric consistency | |
CN112862736B (zh) | 一种基于点的实时三维重建与优化方法 | |
Ubina et al. | Intelligent underwater stereo camera design for fish metric estimation using reliable object matching | |
CN115880720A (zh) | 一种基于置信度分享的无标注场景自适应人体姿态和外形估计方法 | |
CN111260765B (zh) | 一种显微手术术野的动态三维重建方法 | |
CN112288788A (zh) | 单目图像深度估计方法 | |
CN115018989B (zh) | 基于rgb-d序列的三维动态重建方法、训练装置及电子设备 | |
CN118247435A (zh) | 基于视觉里程计和卷积神经网络的肠道稠密三维建模方法 | |
Wang et al. | Deep convolutional network for stereo depth mapping in binocular endoscopy | |
CN115205463A (zh) | 基于多球面场景表达的新视角图像生成方法、装置和设备 | |
CN112686952A (zh) | 一种图像光流计算系统、方法及应用 | |
Liu et al. | Sparse-to-dense coarse-to-fine depth estimation for colonoscopy | |
CN112308893B (zh) | 一种基于迭代搜索策略的单目深度估计方法 | |
CN117152228A (zh) | 基于通道自注意力机制的自监督图像深度估计方法 | |
Song et al. | BDIS-SLAM: a lightweight CPU-based dense stereo SLAM for surgery | |
Wang et al. | Physical Priors Augmented Event-Based 3D Reconstruction | |
CN116485697A (zh) | 基于图像块匹配和视差优化的立体匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |