CN112163452B - 基于深度学习的双目近红外肢体静脉图像的三维重建方法 - Google Patents

基于深度学习的双目近红外肢体静脉图像的三维重建方法 Download PDF

Info

Publication number
CN112163452B
CN112163452B CN202010862866.9A CN202010862866A CN112163452B CN 112163452 B CN112163452 B CN 112163452B CN 202010862866 A CN202010862866 A CN 202010862866A CN 112163452 B CN112163452 B CN 112163452B
Authority
CN
China
Prior art keywords
vein
image
infrared
limb
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010862866.9A
Other languages
English (en)
Other versions
CN112163452A (zh
Inventor
齐鹏
唐笠轩
李卓凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010862866.9A priority Critical patent/CN112163452B/zh
Publication of CN112163452A publication Critical patent/CN112163452A/zh
Application granted granted Critical
Publication of CN112163452B publication Critical patent/CN112163452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/14Vascular patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,包括:1:将静脉部分从原图中分割出;2:生成肢体的高精度全局稠密视差图集;3:把步骤2中获得的高精度全局稠密视差图中的静脉部分像素视差值分割出来,生成静脉稠密视差图数据集;4:利用对应的肢体静脉分割数据集和静脉稠密视差图数据集,对深度神经网络模型进行训练;5:将双目近红外肢体图像输入到深度神经网络模型中,生成与该组双目图像对应的静脉稠密视差图;6:生成肢体静脉的三维模型。与现有技术相比,本发明能够从双目近红外图像中实时地生成静脉稠密视差图,从而可以实时获取肢体静脉的三维模型和位姿信息,可供静脉穿刺机器人实时地调整规划运动轨迹。

Description

基于深度学习的双目近红外肢体静脉图像的三维重建方法
技术领域
本发明涉及图像处理领域,尤其是涉及一种基于深度学习的双目近红外肢体静脉图像的三维重建方法。
背景技术
静脉穿刺是医学上对人体内环境进行检测和干预的重要手段,如验血、输液等。对于当下的医护人员,静脉穿刺存在人眼难以识别,操作对象的静脉状况个体差异大,容易引起医患矛盾等问题。而为娴熟掌握该项必备技能,每个医护人员又需经历大量的临床实践。为解决该矛盾,目前主要有通过静脉可视化来提升医护人员定位静脉的准确度,或者直接应用半自动化或全自动化的静脉穿刺机器人等方法。在这些方法中,能够提供三维深度信息的静脉模型三维重建是一个核心的需求。
近红外光摄像机是一种常用的用于人体静脉显像的光学设备。与可见光相比,近红外光谱散射波可以更深地穿透组织,到达皮肤以下3mm的血管。血管内的血红蛋白吸收光线,从而形成血管的形状,它对肉眼来说是不可见的,但是可以被对近红外光敏感的相机捕捉到,从而能明显增加血管对比度,使用简便。
双目立体视觉是对人体浅层静脉进行三维重建的常用方法,相关专利有CN201621205300.4,CN201310245219.3等。然而这些已有方案中的算法存在计算量大,计算流程复杂等问题,难以做到对静脉三维模型的实时建模,不能满足在静脉穿刺过程中对穿刺执行者或者穿刺机器人进行即时规划和指导的需求。而基于深度学习的方法,通过设计特定结构的深度神经网络模型,完成模型的训练,能够在应用过程中发挥出快速、实时、准确等性能,从而满足静脉穿刺的实际需要。
基于深度学习的范式对数据量有较大的需求,而当前医学图像数据存在获取难度大,利用率不高等问题。对于基于深度学习和近红外图像的立体匹配三维建模,稠密的视差图真值数据几乎无法通过人工观测的方式逐像素点进行标注,因此,高精度的静脉稠密视差图数据集制作也是一大难题。
针对基于深度学习的快速立体匹配问题,文献“Real-Time Semantic StereoMatching”提出的网络结构在分辨率从低到高逐层精化的基础上,在输出阶段加入语义分割信息对视差估计进行优化。但该优化仅在每层分辨率图像对外输出阶段进行,低分辨率下的优化结果未能传入高分辨率阶段;且没有利用语义分割与视差估计的融合信息对语义分割分支进行优化。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的双目近红外肢体静脉图像的三维重建方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,包括以下步骤:
S1:利用肢体的双目近红外图像制作肢体静脉分割数据集,将静脉部分从原图中分割出,得到静脉分割信息;
S2:利用肢体的双目近红外图像,引入步骤S1中获得的静脉分割信息作为先验进行立体匹配,生成肢体的高精度全局稠密视差图集;
S3:利用步骤S1中获得的静脉分割信息,把步骤S2中获得的高精度全局稠密视差图中的静脉部分像素视差值分割出来,生成静脉稠密视差图数据集;
S4:利用对应的肢体静脉分割数据集和静脉稠密视差图数据集,对深度神经网络模型进行训练,获得以双目近红外肢体图像为输入、高精度静脉稠密视差图为输出的端到端模型;
S5:将双目近红外肢体图像输入到步骤S4中训练得到的深度神经网络模型中,生成与该组双目图像对应的静脉稠密视差图;
S6:利用步骤S5中得到的静脉稠密视差图,计算静脉对应像素点处的深度,生成肢体静脉的三维模型。
优选的,所述步骤S1具体包括:
S11:利用标定好的一组双目近红外摄像头,拍摄一系列肢体图像对;
S12:利用S11中获取的双目近红外肢体图像对,采用Hessian滤波器对静脉进行增强预处理;
S13:对增强预处理后图像对中的静脉进行成对的人工标注;
S14:对标注部分和其余部分进行二值化分割,形成静脉的分割数据集。
优选的,所述S13中人工标注时,样条曲线控制点能覆盖图中所有的特殊点,同一对图像的样条曲线控制点实现图片水平方向上的一一对应和图片垂直方向上的均匀分布。
优选的,所述步骤S2具体包含:
S21:利用S12中获取的静脉增强预处理后的双目近红外肢体图像对,视差图以其中一侧图为基准,新建与近红外图像相同尺寸和分辨率的视差图,并将其建模为一个马尔可夫随机场;
S22:根据贝叶斯定理,在所述马尔可夫随机场中引入步骤S1中最终获得的肢体静脉分割信息作为先验约束,并作为附加条件项;
S23:构建该马尔可夫随机场的能量函数,并进行置信度传播迭代,求取最小化能量函数,对应生成双目近红外肢体图像的高精度稠密视差图集。
优选的,所述步骤S3中具体包括:
S31:新建与全局稠密视差图相同大小和分辨率的视差图,全局使用零视差进行初始化;
S32:视差图以其中一侧图为基准,将步骤S1中获得的该侧分割图像中静脉部分在步骤S2中获得的全局稠密视差图中对应像素处的视差值,拷贝到S31中新建的视差图对应像素处,从而生成静脉稠密视差图,作为后续深度神经网络模型训练的真值。
优选的,所述深度神经网络模型包括:基于U-Net网络结构的特征提取器、视差估计网络、语义分割网络和视差精化网络。
优选的,所述基于U-Net网络结构的特征提取器的实现过程包括:
S41:对于输入的一对双目近红外肢体图像对,使用U-Net特征提取器进行分层降采样,形成不同分辨率的若干对静脉特征图。
优选的,所述视差估计网络的实现过程包括:
S42:从分辨率最小的若干对静脉特征图开始,建立左右静脉特征图基于距离的匹配代价体积块,采用三维卷积进行视差值回归,生成对应于最小分辨率的粗略静脉视差估计图。
S43:假设视差图以左图为基准,将S42中生成的最小分辨率静脉视差图上采样到次小分辨率等级,并对隶属该等级分辨率的右静脉特征图进行作差变换,生成次小分辨率等级的左静脉特征估计图。
S44:建立S43中的次小分辨率左静脉特征估计图与S41中实际生成的次小分辨率左静脉特征图间基于距离的代价体积块,采用三维卷积进行残差值回归,并将得到的该分辨率下的残差图与S43中经过一次上采样后相同分辨率的静脉视差估计图进行叠加,得到次小分辨率等级的静脉视差估计图;
S45:采用与S43到S44相同的步骤,直到将静脉视差估计图的分辨率提升到原图等级。
优选的,所述语义分割网络的实现过程包括:
S46:分割部分仅对双目中的左图进行操作,采用与前述视差估计网络对称的结构,对于S41中获得的分辨率最小的若干静脉特征图,采用二维卷积对每个像素进行语义概率值回归,生成对应于最小分辨率的粗略静脉语义分割图。
S47:对于S41中获得的其余分辨率的若干静脉特征图,采用二维卷积对每个像素进行语义概率残差值回归,生成对应于各自分辨率的静脉语义概率残差图;
S48:从S46中生成的最小分辨率粗略静脉语义分割图开上进行上采样,每上采样至一个分辨率,就与S47中生成的当前分辨率下的静脉语义概率残差图进行叠加,直到生成与原图相同分辨率的静脉语义分割图。
优选的,所述视差精化网络的实现过程包括:
S49:在视差估计网络和语义分割网络的基础上,添加语义分割信息与视差估计信息相互精细化纠正的网络线路。
与现有技术相比,本发明具有以下有益效果:
1、本发明在肢体静脉视差图数据集制作阶段,通过一系列图像处理和立体匹配算法流程,追求精度,不计耗时,制作高精度静脉稠密视差图数据集,使得在深度神经网络模型训练阶段有高准确度的真值数据集,保证系统的应用精准度。
2、本发明中构建的深度神经网络模型,充分地利用了上述数据集制作流程中涉及到的肢体静脉分割图、静脉稠密视差图两种数据集,在网络中将语义分割信息和视差估计两条分支的信息进行深度融合,相互优化,而不是单方面的优化,提高了数据集的利用率和使用价值。
3、本发明中提出的深度神经网络模型结构,在分辨率从低到高逐层精化的基础上,实现了语义分割和视差估计融合信息的优化从低分辨率阶段传入高分辨率阶段,连贯的优化过程使得该网络在应用中兼具准确率和实时性的要求。
附图说明
图1为本发明的整体流程图;
图2为本发明提出的肢体静脉分割数据集制作流程图;
图3为本发明提出的肢体静脉稠密视差图数据集制作流程图;
图4为本发明提出的深度神经网络结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,本申请提出了一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,包括肢体静脉分割图、视差图数据集制作和静脉模型三维重建三个部分,应用于双目近红外肢体图像的深度神经网络模型训练。针对医学图像处理与应用领域存在数据集获取难度大、质量不高、利用率不高的痛点,由于通过人工标注的方式难以在双目近红外图像上生成稠密的视差图数据集,所以本申请所涉及的深度学习模型的训练所需数据集,需要依赖于传统的高精度稠密立体匹配算法,保证数据集尽可能接近真实值。传统高精度稠密立体匹配算法(如置信传播、图割、动态规划等)在生成稠密视差图时存在计算量大、计算流程复杂的问题,所以基于传统图像分割和立体匹配算法获得高精度稠密视差图进行静脉三维重建无法满足实时性要求,本申请基于深度学习获得静脉稠密视差图的方法,在深度神经网络模型训练完成投入应用阶段时,能够从双目近红外图像中实时地生成静脉稠密视差图,从而可以实时获取肢体静脉的三维模型和位姿信息,可供静脉穿刺机器人实时地调整规划运动轨迹。
本方法具体包括:
肢体静脉分割图和视差图数据集制作:
S1:利用肢体的双目近红外图像,制作肢体静脉分割数据集,将静脉部分从原图中分割而出。肢体部位包括手背、脚背、小臂、小腿、大臂、大腿等;
如图2所示,本部分中,制作静脉分割图集包含以下步骤:
S11:以基线距B标定一组双目近红外摄像头,拍摄一系列肢体图片对,包括手背、脚背、小臂、大臂、小腿、大腿等部位;
S12:采用基于Hessian矩阵的多尺度滤波器对每对图像中的静脉进行增强预处理;
S13:使用擅长于医学图像的标注软件ITK-SNAP,对预处理后的图像对中的静脉进行成对的人工标注,要求标注时,图像中所有的静脉交叉、分叉点被样条曲线控制点覆盖,任意一段静脉在同一对图片的垂直方向上均匀分布相同数量且水平一一对应的样条曲线控制点;
S14:对标注部分和其余部分进行二值化分割,形成静脉的分割数据集:把调整各段粗细后的样条曲线转化为像素形式的二值化掩膜,实现静脉部分和其余部分的分割。
采用上述步骤的优点是,血管增强预处理有助于在人工标注时更清楚地确定静脉位置,标注的方式有助于提高后续制作静脉视差图真值的精度。
S2:利用肢体的双目近红外图像,引入S1步骤中获得的静脉分割信息作为先验进行立体匹配,生成肢体的高精度全局稠密视差图集。
如图3所示,本部分中,高精度全局稠密视差图集的制作包含如下步骤:
S21:利用S11步骤中获取的双目近红外肢体图像对,假设视差图以左图为基准,新建与近红外图像相同尺寸和分辨率的视差图,并将其建模为一个马尔可夫随机场,该场的数学描述由如下联合概率分布p表示:
Figure BDA0002648743020000061
其中,M为像素标签集合,N为由M中的元素组成的有序二元组构成的集合,f为代表该视差图的函数,fi为视差图中位置为i的像素处视差值,D(fi)指由于左右两图在位置为i的像素处的强度差异而在视差图f中造成的惩罚,代表像素本身的代价。W(fi,fj)指视差图中位置为i的像素和与其相邻的位置为j的像素间视差值的差异而在f中造成的惩罚,代表相邻像素不平滑引起的代价。
S22:根据贝叶斯定理,在马尔可夫随机场p中引入肢体静脉分割信息作为先验约束,作为附加条件项,添加约束后的马尔可夫随机场p可用如下联合概率分布公式进行描述:
Figure BDA0002648743020000062
其中,Φ(fi,fj)即为引入的分割先验。设视差图f中,位置为i的像素和位置为j的像素相邻,CΦ是一个大于0的常数。Φ(fi,fj)有如下取值规则:
Φ(fi,fj)=0,像素i与像素j的分割标签相同
Φ(fi,fj)=CΦ,像素i与像素j的分割标签不同
Φ(fi,fj)取0,意味着相邻像素标签相同将会在后续带来更小的能量函数值,该匹配更接近真实情况;Φ(fi,fj)取正常数,意味着相邻像素标签不同将会在后续带来更大的能量函数,该匹配更偏离真实情况。这在近红外肢体图像应用背景下是有意义的,因为图中处于分割边界的相邻像素对数量远远少于处于各分割块中的相邻像素对数量。
S23:构建附加先验约束后的马尔可夫随机场p的能量函数:
Figure BDA0002648743020000071
利用置信度传播迭代,求取最小化能量函数:
Figure BDA0002648743020000072
其中,
Figure BDA0002648743020000073
为t时刻像素i向像素j传播的信息向量m,L(i)/j代表像素i除了j之外的其他相邻元素构成的集合,k就为其中的一员,公式意义为每一步置信度迭代过程中,像素i都将上一步迭代中来自其他相邻像素中最小值信息传递给像素j。
当全局的信息向量m稳定,或者迭代步数达到要求之后,像素j的能量值可用如下j的置信度向量表示:
Figure BDA0002648743020000074
对于每个像素j,独立地选择能最小化其置信度向量bj(fj)的视差值大小f,当所有像素均完成视差值选择后,即生成了具有最低能量函数的视差图f,从而生成肢体的高精度全局稠密视差图集。
Figure BDA0002648743020000075
采用上述步骤的优点是,置信传播是一种全局稠密的立体匹配方案,针对每一对像素计算视差值,虽然计算量大,耗时长,不满足实时性,但在数据集制作阶段能够生成高精度的近红外肢体视差图,并且由于引入了前述图像的背景、肢体和静脉分割信息作为立体匹配的先验知识,保证最后真值的准确度满足使用要求。
S3:利用步骤S1中获得的图集静脉分割结果,把S2中获得的高精度全局稠密视差图中的静脉部分像素视差值分割出来,生成静脉的稠密视差图数据集。具体为:
S31:新建与前述全局稠密视差图f相同尺寸和分辨率的视差图fvein,P_whole代表全局像素集合,全局使用零视差进行初始化:
Figure BDA0002648743020000081
S32:假设视差图以左图Ileft为基准,P_vein为左图像中属于静脉部分的像素集合,进行如下拷贝:
Figure BDA0002648743020000082
从而生成高精度全局稠密静脉视差图数据集,作为后续模型训练的真值。
采用上述步骤的益处是,由于全局稠密立体匹配过程中先行用到了背景、肢体、静脉的分割情况作为先验信息,能够保证从全局稠密视差图中按照对应像素分割得到的静脉视差图有较高的真实度,使得最终完成的静脉视差图真值数据集能够满足应用时的精度要求。
应用于双目近红外肢体图像的深度神经网络模型训练:
S4:对于输入的双目近红外肢体图像,利用对应的静脉分割数据集和静脉稠密视差图数据集,对深度神经网络模型进行训练,获得基于深度学习的,以双目近红外肢体图像为输入、以静脉分割图和肢体静脉稠密视差图为初步输出,并将网络学习到的语义分割和视差估计信息进行深度融合,相互精细化,最终输出高精度静脉稠密视差图的端到端模型;
如图4所示,本部分深度神经网络由U-Net特征提取器、视察估计网络、语义分割网络、视差精化网络四个部分组成;
基于U-Net网络结构的特征提取器:
S41:对于输入的一对双目近红外肢体图像对,使用U-Net特征提取器进行分层降采样,形成2对原分辨率特征图对,8对1/4分辨率特征图对,16对1/8分辨率特征图对。
视差估计网络:
S42:从1/8分辨率静脉特征图对开始,建立左右静脉特征图基于距离的匹配代价体积块cost volume,其三维参数由图像宽度W,图像高度H,数据集中的最大视差dmax乘以当前分辨率放缩系数(1/8)决定。随后采用一次三维卷积,紧跟正则化操作和ReLU激活函数进行视差值回归,生成1/8分辨率的粗略静脉视差估计图。
S43:假设视差图以左图为基准,将S42中生成的1/8分辨率静脉视差图上采样到1/4分辨率,并对1/4分辨率的右静脉特征图进行作差变换(warp),生成1/4分辨率左静脉特征估计图。
S44:由于1/4分辨率左静脉特征估计图,1/4分辨率左静脉特征图之间存在残差,为进行修正,同样建立该两特征图间基于距离的代价体积块cost volume,H和W参数与S42中一致,第三个参数在原来的基础上可取正负值。随后采用一次三维卷积,紧跟正则化和ReLU激活函数进行残差值回归,并将得到的1/4分辨率残差图与S43中1/4分辨率的静脉视差估计图进行叠加,得到精细化后的1/4分辨率静脉视差估计图。
S45:采用与S43到S44相同的步骤,直到将静脉视差估计图的分辨率提升到原图等级。
语义分割网络:
S46:分割部分仅对双目中的左图进行操作。对于1/8分辨率的16张静脉特征图,采用二维卷积对每个像素进行语义概率值回归,生成1/8分辨率的粗略静脉语义分割图。
S47:对于S41中获得的其余分辨率的若干静脉特征图,采用二维卷积对每个像素进行语义概率残差值回归,生成对应于各自分辨率的静脉语义概率残差图。
S48:从S46中生成的1/8分辨率粗略静脉语义分割图开上进行上采样,每上采样至一个分辨率,就与S47中生成的当前分辨率下的静脉语义概率残差图进行叠加,直到生成与原图相同分辨率的静脉语义分割图。
视差精化网络:
S49:在上述视差估计网络和语义分割网络的基础上,添加语义分割信息与视差估计信息相互精细化纠正的网络线路。对于前述生成的1/8、1/4和原分辨率下完成的静脉视差估计图和静脉语义分割图,在每一层分辨率处理层级下,将二图连接为一个两层的混合体积块hybrid volume。然后并行进行两次三维卷积,其中一个卷积核与hybrid volume卷积后生成该分辨率下的静脉视差残差估计图,与前述同分辨率下的静脉视差图进行叠加,生成经过语义分割信息融合修正后的静脉视差估计图;另一个卷积核与hybrid volume卷积后生成该分辨率下的语义分割概率残差图,与前述同分辨率下的语义分割图进行叠加,生成经过视差估计信息融合修正后的语义分割图。值得注意的是,当上升到原分辨率图像层级时,仅保留视差估计图输出线路,而取消视差估计对语义分割的精细化修正。
神经网络损失函数L设定:
L=Wd·Ld+Ws·Ls+Wdr·Ldr
其中,Ld和Ldr分别为视差估计网络部分和视差精化网络部分的损失函数,两者均采用smooth L1损失函数进行定义。
Ls表示语义分割网络部分的损失函数,采用二分类交叉熵进行定义。
Wd、Ws、Wdr则分别对应于三者的权值。
深度神经网络模型训练:
将前述制作的静脉分割数据集和静脉稠密视差图数据集进行划分,其中的80%用于模型训练,20%用于模型测试,经过若干轮参数调整步骤,完成深度神经网络模型的训练。
采用上述深度神经网络结构的优点有:
1、第一次静脉视差估计在最低分辨率下进行,能够快速计算得到粗略的视差估计值,并且在随后提升静脉视差图分辨率的过程中,仅仅是用每一层学到的残差图对上采样后的静脉视差图进行叠加修正,不需要直接计算高分辨率全局视差图。语义分割网络部分也采用了相同的结构,能够保证该深度神经网络模型在训练完成投入应用的过程中,同时满足准确度和实时性的计算要求,在诸如穿刺机器人的静脉实时导航等应用中能实现安全而高效的性能。
2、充分利用了前述步骤制作的静脉分割和静脉视差两个数据集,在神经网络学习过程中将视差估计和语义分割进行深度融合,在每一分辨率下,语义分割信息与视差估计信息相互修正,这与数据集制作阶段,将静脉分割作为静脉视差立体匹配的先验具有一致性。
3、在分辨率从低到高逐层精化的基础上,实现了语义分割和视差估计融合信息的优化从低分辨率阶段传入高分辨率阶段,连贯的优化过程使得该网络在应用中兼具准确率和实时性的要求。
静脉模型三维重建:
S5:实际应用阶段,以标定好基线距B的双目近红外摄像头拍摄到的肢体静脉图像作为输入,经过深度神经网络的处理,实时地输出对应于当前情况的肢体静脉稠密视差图。
S6:对于生成的静脉视差图中的像素i,设其对应视差值为di,另设近红外摄像机的焦距为f,每个像素的尺寸为Ps,则像素i对应的物体深度Di可用如下公式计算:
Figure BDA0002648743020000111
针对视差图中每个像素,进行上述计算,即可得到每个像素对应的深度值,进而可以按照具体所需的方式,生成静脉的三维模型。
由于深度神经网络能够实时计算出稠密静脉视差图,S6步骤中利用GPU对每个像素并行计算,综合上能够实现实时的静脉三维重建。

Claims (10)

1.一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,其特征在于,包括以下步骤:
S1:利用肢体的双目近红外图像制作肢体静脉分割数据集,将静脉部分从原图中分割出,得到静脉分割信息;
S2:利用肢体的双目近红外图像,引入步骤S1中获得的静脉分割信息作为先验进行立体匹配,生成肢体的高精度全局稠密视差图集;
S3:利用步骤S1中获得的静脉分割信息,把步骤S2中获得的高精度全局稠密视差图中的静脉部分像素视差值分割出来,生成静脉稠密视差图数据集;
S4:利用对应的肢体静脉分割数据集和静脉稠密视差图数据集,对深度神经网络模型进行训练,获得以双目近红外肢体图像为输入、高精度静脉稠密视差图为输出的端到端模型;
S5:将双目近红外肢体图像输入到步骤S4中训练得到的深度神经网络模型中,生成与肢体的双目近红外图像对应的静脉稠密视差图;
S6:利用步骤S5中得到的静脉稠密视差图,计算静脉对应像素点处的深度,生成肢体静脉的三维模型。
2.根据权利要求1所述的一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,其特征在于,所述步骤S1具体包括:
S11:利用标定好的一组双目近红外摄像头,拍摄一系列肢体图像对;
S12:利用S11中获取的双目近红外肢体图像对,采用Hessian滤波器对静脉进行增强预处理;
S13:对增强预处理后图像对中的静脉进行成对的人工标注;
S14:对标注部分和其余部分进行二值化分割,形成静脉的分割数据集。
3.根据权利要求2所述的一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,其特征在于,所述S13中人工标注时,样条曲线控制点能覆盖图中所有的特殊点,同一对图像的样条曲线控制点实现图片水平方向上的一一对应和图片垂直方向上的均匀分布。
4.根据权利要求1所述的一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,其特征在于,所述步骤S2具体包含:
S21:利用S12中获取的静脉增强预处理后的双目近红外肢体图像对,视差图以其中一侧图为基准,新建与近红外图像相同尺寸和分辨率的视差图,并将其建模为一个马尔可夫随机场;
S22:根据贝叶斯定理,在所述马尔可夫随机场中引入步骤S1中最终获得的肢体静脉分割信息作为先验约束,并作为附加条件项;
S23:构建该马尔可夫随机场的能量函数,并进行置信度传播迭代,求取最小化能量函数,对应生成双目近红外肢体图像的高精度稠密视差图集。
5.根据权利要求1所述的一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,其特征在于,步骤S3中具体包括:
S31:新建与全局稠密视差图相同大小和分辨率的视差图,全局使用零视差进行初始化;
S32:视差图以其中一侧图为基准,将步骤S1中获得的该侧分割图像中静脉部分在步骤S2中获得的全局稠密视差图中对应像素处的视差值,拷贝到S31中新建的视差图对应像素处,从而生成静脉稠密视差图,作为后续深度神经网络模型训练的真值。
6.根据权利要求1所述的一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,其特征在于,所述深度神经网络模型包括:基于U-Net网络结构的特征提取器、视差估计网络、语义分割网络和视差精化网络。
7.根据权利要求6所述的一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,其特征在于,所述基于U-Net网络结构的特征提取器的实现过程包括:
S41:对于输入的一对双目近红外肢体图像对,使用U-Net特征提取器进行分层降采样,形成不同分辨率的若干对静脉特征图。
8.根据权利要求7所述的一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,其特征在于,所述视差估计网络的实现过程包括:
S42:从分辨率最小的若干对静脉特征图开始,建立左右静脉特征图基于距离的匹配代价体积块,采用三维卷积进行视差值回归,生成对应于最小分辨率的粗略静脉视差估计图;
S43:假设视差图以左图为基准,将S42中生成的最小分辨率静脉视差图上采样到次小分辨率等级,并对隶属该等级分辨率的右静脉特征图进行作差变换,生成次小分辨率等级的左静脉特征估计图;
S44:建立S43中的次小分辨率左静脉特征估计图与S41中实际生成的次小分辨率左静脉特征图间基于距离的代价体积块,采用三维卷积进行残差值回归,并将得到的该分辨率下的残差图与S43中经过一次上采样后相同分辨率的静脉视差估计图进行叠加,得到次小分辨率等级的静脉视差估计图;
S45:采用与S43到S44相同的步骤,直到将静脉视差估计图的分辨率提升到原图等级。
9.根据权利要求8所述的一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,其特征在于,所述语义分割网络的实现过程包括:
S46:分割部分仅对双目中的左图进行操作,采用与前述视差估计网络对称的结构,对于S41中获得的分辨率最小的若干静脉特征图,采用二维卷积对每个像素进行语义概率值回归,生成对应于最小分辨率的粗略静脉语义分割图;
S47:对于S41中获得的其余分辨率的若干静脉特征图,采用二维卷积对每个像素进行语义概率残差值回归,生成对应于各自分辨率的静脉语义概率残差图;
S48:从S46中生成的最小分辨率粗略静脉语义分割图开上进行上采样,每上采样至一个分辨率,就与S47中生成的当前分辨率下的静脉语义概率残差图进行叠加,直到生成与原图相同分辨率的静脉语义分割图。
10.根据权利要求9所述的一种基于深度学习的双目近红外肢体静脉图像的三维重建方法,其特征在于,所述视差精化网络的实现过程包括:
S49:在视差估计网络和语义分割网络的基础上,添加语义分割信息与视差估计信息相互精细化纠正的网络线路。
CN202010862866.9A 2020-08-25 2020-08-25 基于深度学习的双目近红外肢体静脉图像的三维重建方法 Active CN112163452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010862866.9A CN112163452B (zh) 2020-08-25 2020-08-25 基于深度学习的双目近红外肢体静脉图像的三维重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010862866.9A CN112163452B (zh) 2020-08-25 2020-08-25 基于深度学习的双目近红外肢体静脉图像的三维重建方法

Publications (2)

Publication Number Publication Date
CN112163452A CN112163452A (zh) 2021-01-01
CN112163452B true CN112163452B (zh) 2022-11-18

Family

ID=73860123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010862866.9A Active CN112163452B (zh) 2020-08-25 2020-08-25 基于深度学习的双目近红外肢体静脉图像的三维重建方法

Country Status (1)

Country Link
CN (1) CN112163452B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112583B (zh) * 2021-03-22 2023-06-20 成都理工大学 基于红外热成像的3d人体重构方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361626A (zh) * 2014-09-29 2015-02-18 北京理工大学 基于混合匹配策略的皮下静脉三维重建方法
CN109544613A (zh) * 2018-11-23 2019-03-29 南昌航空大学 一种基于稠密网络深度学习的双目立体匹配方法及系统
WO2020108437A1 (zh) * 2018-11-26 2020-06-04 深圳市前海安测信息技术有限公司 舌下静脉特征提取装置及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361626A (zh) * 2014-09-29 2015-02-18 北京理工大学 基于混合匹配策略的皮下静脉三维重建方法
CN109544613A (zh) * 2018-11-23 2019-03-29 南昌航空大学 一种基于稠密网络深度学习的双目立体匹配方法及系统
WO2020108437A1 (zh) * 2018-11-26 2020-06-04 深圳市前海安测信息技术有限公司 舌下静脉特征提取装置及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Near-infrared Dorsal Hand Vein Image Segmentation by Local Thresholding Using Grayscale Morphology;Liukui Chen;《IEEE》;20071215;第868-871页 *
基于正态分布变换的多位姿手掌部三维静脉识别;周雅;《北京理工大学学报》;20180815;第848-860页 *

Also Published As

Publication number Publication date
CN112163452A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN108765363B (zh) 一种基于人工智能的冠脉cta自动后处理系统
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
CN112634341B (zh) 多视觉任务协同的深度估计模型的构建方法
CN110443144A (zh) 一种人体图像关键点姿态估计方法
CN111862171B (zh) 基于多视图融合的cbct与激光扫描点云数据牙齿配准方法
CN107657612A (zh) 适用于智能便携设备的全自动视网膜血管分析方法及系统
CN106683182A (zh) 一种权衡立体匹配和视觉外形的三维重建方法
CN110992431B (zh) 一种双目内窥镜软组织图像的联合三维重建方法
CN110009722A (zh) 三维重建方法及装置
CN108764342B (zh) 一种对于眼底图中视盘和视杯的语义分割方法
CN109700550A (zh) 一种用于牙科手术的增强现实方法及装置
CN106485207A (zh) 一种基于双目视觉图像的指尖检测方法及系统
CN110008992B (zh) 一种用于前列腺癌辅助诊断的深度学习方法
CN106485721A (zh) 从光学相干断层图像获取视网膜结构的方法及其系统
CN110675335A (zh) 基于多分辨率残差融合网络的浅表静脉增强方法
CN103679801A (zh) 一种基于多视角x光片的心血管三维重建方法
CN113077545B (zh) 一种基于图卷积的从图像中重建着装人体模型的方法
CN111080778A (zh) 一种双目内窥镜软组织图像的在线三维重建方法
CN112767441B (zh) 一种基于残差场和位移场的图像光流优化方法及系统
CN112163452B (zh) 基于深度学习的双目近红外肢体静脉图像的三维重建方法
CN111582437B (zh) 一种视差回归深度神经网络的构造方法
CN113570685A (zh) 图像处理方法及装置、电子设备、存储介质
CN115546442A (zh) 基于感知一致损失的多视图立体匹配重建方法及系统
CN116452752A (zh) 联合单目稠密slam与残差网络的肠壁重建方法
CN110689080A (zh) 一种血管结构影像的平面图谱构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant