CN113920179A

CN113920179A - 一种基于标记点的多视觉2d-3d图像非刚性配准方法及系统

Info

Publication number: CN113920179A
Application number: CN202111321693.0A
Authority: CN
Inventors: 李松峰; 魏军; 赖耀明; 蒋斌
Original assignee: Guangzhou Baishi Data Technology Co ltd; Perception Vision Medical Technology Co ltd
Current assignee: Guangzhou Baishi Data Technology Co ltd; Perception Vision Medical Technology Co ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-01-11
Anticipated expiration: 2041-11-09
Also published as: CN113920179B

Abstract

本发明涉及图像处理领域，具体公开了一种基于标记点的多视觉2D‑3D图像非刚性配准方法及系统，其中方法包括：获取目标对戏的二维DR图像，以及对目标对象的三维CT图像进行重建得到N个二维DRR图像；将各DR图像和DRR图像分别输入神经网络，得到每个图像的K个二维标记点结果；采用神经网络，分别将DR图像和DRR图像输入，并输出K对匹配点；通过最小化K对匹配点的点距离总和，拟合出刚性配准的变换矩阵，然后利用K对匹配点，通过基于控制点的插值法得到非刚性配准的位移场三维矩阵，最后通过迭代的方式优化该结果。该方案比传统方法的运算时间更快，具有更强的可解释性。

Description

一种基于标记点的多视觉2D-3D图像非刚性配准方法及系统

技术领域

本发明涉及图像处理领域，具体公开了一种基于标记点的多视觉2D-3D图像非刚性配准方法及系统。

背景技术

临床医学中的影像导航手术通常需要在术前获取3D人体病灶图像帮助医生了解病人病情和制定手术规划，同时还需要在术中获取2D人体图像一边引导医生在手术中实现跟踪和校正手术器械相对病人病灶的空间位置，手术的关键就在于准确的建立术前3D图像和术中2D图像之间的空间位置关系，即2D-3D医学图像。

2D-3D图像配准是指病人的术前拍摄的三维CT图像与术中拍摄的二维X-ray图像进行配准，使配准后的三维CT图像尽量接近术中实际的人体姿态，使通过该配准后的CT图像进行重建得到的二维图像(digitally reconstructed radiographs，DRR)与X-ray图像尽量相似。该技术主要应用于肺结节穿刺定位手术等。

传统的2D-3D图像配准方法运算时间较慢，可解释性较弱，不利于推广应用。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种基于标记点的多视觉2D-3D图像非刚性配准方法及系统，其能够提高运算效率，可解释性更强。

本发明提供了一种基于标记点的多视觉2D-3D图像非刚性配准方法，包括以下步骤：

S1，获取目标对象的N个视觉下的二维DR图像，记作DR₁、DR₂、…、DR_N，并通过相机标定算法得到各DR图像的内参和外参，对目标对象的三维CT图像进行重建得到N个二维DRR图像，记作DRR₁、DRR₂、…、DRR_N；其中N为正整数；

S2，将各DR图像和DRR图像分别输入神经网络，得到每个图像的K个二维标记点结果；

S3，对于DR图像，将N个视觉下的神经网络输出的二维标记点坐标通过反向映射算法得到与人体对应的第一组三维标记点集

同理对于DRR图像，得到与CT对应的第二组三维标记点集

所述第一组三维标记点集与所述第二组三维标记点集分别一一对应形成K对匹配点；

S4，通过最小化K对匹配点的点距离总和，拟合出刚性配准的变换矩阵，然后利用K对匹配点，通过基于控制点的插值法得到非刚性配准的位移场三维矩阵，最后通过迭代的方式优化该结果。

优选地，所述S2具体包括：

所述神经网络的输入为单个二维的DR图像或DRR图像，所述神经网络的输出为与输入尺寸相同的K个通道的概率图，单个概率图中的像素的值表示该像素是对应标记点的概率，取该概率图中的概率最大值对应的像素即为对应标记点的位置。

优选地，所述神经网络为以Unet为基础的U型结构，所述U型结构的左侧编码器由四个残差模块(Residual Modules)和四个下采样交替组成，所述U型结构的右侧解码器由四个Residual Modules和四个上采样交替组成，并通过残差连接(skip-connection)将所述主网络的编码器中部分较浅层的高分辨率特征与解码器中对应层的特征进行融合，以补充由下采样带来的细节损失，解码器最后一个Residual Modules后接一个通道数为K的卷积层，输出多通道概率图。

优选地，所述S3具体包括：

记第n个视觉的内参矩阵为Intri_n，大小为3x3，其X射线源位置相对于第1个视觉的X射线源位置的偏移量为Offset_n，大小为3x1，记矩阵

为点

的第1个维度的坐标值，

为点

的第2个维度的坐标值；

其中，A^k为N个

矩阵拼接组成，同理B^k为N个

矩阵拼接组成；则第k个三维标记点的坐标为：

其中，

为A^k的广义逆矩阵；

分别对DR图像和DRR图像的K个标记点作上述步骤，得到与人体对应的三维标记点集

与CT对应的三维标记点集

便得到了K对匹配点。

优选地，所述S4具体包括：

得到刚性配准的变换矩阵R和位移向量t后，基于此重新生成N个DRR图像，用神经网络预测二维标记点，反向映射得到三维标记点，与DR的三维标记点组成匹配点对进行非刚性配准。

优选地，所述S4具体包括：

初始化位移场三维矩阵为零矩阵，其大小与三维CT相同，对矩阵中属于CT的匹配点的像素赋值为与该点对应的属于目标对象的匹配点的物理坐标的差值；然后采用如下基于控制点的样条插值法得到位移场矩阵剩余像素点的值；

B₀(t)＝(1-t)³/6

B₁(t)＝(3t³-6t²+4)/6

B₂(t)＝(-3t³+3t²+3t+1)/6

B₃(t)＝t³/6

其中(x,y，z)为位移场矩阵中某个已赋值的像素点在此新坐标系下的坐标位置，

表示x的往下取整，

为坐标位置在

的控制点，f(x，y,z)为该像素点的位移值，f'(x,y,z)为通过该像素点附近的16个控制点拟合的近似值，B为权重，t为位移变量。

优选地，所述S4具体包括：

对于某个像素点，满足f(x,y,z)＝f'(x,y,z)的控制点的值有多种解，因此加上最小化上式的约束条件后求解，得到控制点的最优解为：

其中，φ_i,j,k为

的简写。

优选地，所述S4之后还包括：

当能求解控制点φ_i,j,k的像素点不只一个时，各像素点通过上式求解得到该控制点的最优解可能不同，通过最小化下式，得到φ_i,j,k的最终解：

min e(φ_i,j,k)＝∑_s(w_sφ_i,j,k-w_sφ_s)²

最终解为：

其中：

S_i,j,k＝{(x_s,y_s,z_s)|i-2≤x_s<i+2,j-2≤y_s<j+2,k-2≤z_s<k+2}

S_i,j,k为参与求解控制点φ_i,j,k的所有已赋值的像素点的集合；φ_s为通过坐标为(x_s,y_s,z_s)的像素点得到的控制点最优解，w_s为中间变量；

当能求解控制点φ_i,j,k的像素点个数为0时，对其赋值为0。

优选地，所述S4之后还包括：

在得到所有控制点的值后，位移场中剩余像素点的位移值均通过与其最接近的16个控制点拟合得到；

由于位移值是三维向量，即x、y、z方向，故上述插值过程需重复3次，即每个方向分别进行一次，便得到非刚性配准的位移场三维矩阵；

得到非刚性配准的位移场三维矩阵后，可基于此对DRR重复执行上述步骤，即重新生成N个DRR图像，用神经网络预测二维标记点，反向映射得到三维标记点，与DR的三维标记点组成匹配点对进行非刚性配准，从而使位移场三维矩阵的结果更加精准。

本发明还提供了一种基于标记点的多视觉2D-3D图像非刚性配准系统，包括：

数据采集模块，用于获取目标对象的N个视觉下的二维DR图像，记作DR₁、DR₂、…、DR_N，并通过相机标定算法得到各DR图像的内参和外参，对目标对象的三维CT图像进行重建得到N个二维DRR图像，记作DRR₁、DRR₂、…、DRR_N；其中N为正整数；

标记模块，用于将各DR图像和DRR图像分别输入神经网络，得到每个图像的K个二维标记点结果；

匹配模块，对于DR图像，将N个视觉下的神经网络输出的二维标记点坐标通过反向映射算法得到与人体对应的第一组三维标记点集

同理对于DRR图像，得到与CT对应的第二组三维标记点集

非刚性配准模块，用于通过最小化K对匹配点的点距离总和，拟合出刚性配准的变换矩阵，然后利用K对匹配点，通过基于控制点的插值法得到非刚性配准的位移场三维矩阵，最后通过迭代的方式优化该结果。

与现有技术相比，根据本发明的一种基于标记点的多视觉2D-3D图像非刚性配准方法及系统，其中方法包括：获取目标对戏的二维DR图像，以及对目标对象的三维CT图像进行重建得到N个二维DRR图像；将各DR图像和DRR图像分别输入神经网络，得到每个图像的K个二维标记点结果；采用神经网络，分别将DR图像和DRR图像输入，并输出K对匹配点；通过最小化K对匹配点的点距离总和，拟合出刚性配准的变换矩阵，然后利用K对匹配点，通过基于控制点的插值法得到非刚性配准的位移场三维矩阵，最后通过迭代的方式优化该结果。该方案比传统方法的运算时间更快，具有更强的可解释性。

附图说明

图1是根据本发明基于标记点的多视觉2D-3D图像非刚性配准方法的流程示意图；

图2为本发明提供的一种可能的电子设备的硬件结构示意图；

图3为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

如图1所示，根据本发明优选实施方式的一种基于标记点的多视觉2D-3D图像非刚性配准方法，包括以下步骤：

S1，获取目标对象的N个视觉下的二维DR图像，记作DR₁、DR₂、…、DR_N，并通过相机标定算法得到各DR图像的内参和外参，对目标对象的三维CT图像进行重建得到N个二维DRR图像，记作DRR₁、DRR₂、…、DRR_N；其中N为正整数。在术中对人体拍摄N个视觉(多个不同位置的X射线源，N≥2)的二维X-ray图像(DR图像)，记作DR₁、DR₂、…、DR_N，并通过相机标定算法得到各自的内参和外参，用于对术前拍摄的三维CT图像进行重建得到N个二维图像(digitallyreconstructed radiographs，DRR)，记作DRR₁、DRR₂、…、DRR_N。

S2，将各DR图像和DRR图像分别输入神经网络，得到每个图像的K个二维标记点结果。训练神经网络用于识别二维图像中的标记点。把N个DR图像和N个DRR图像分别输入神经网络，得到每个图像的K个二维标记点结果。

同理对于DRR图像，得到与CT对应的第二组三维标记点集

所述第一组三维标记点集与所述第二组三维标记点集分别一一对应形成K对匹配点。对于DR图像，把N个视觉下的神经网络输出的二维标记点坐标通过反向映射算法得到与人体对应的三维标记点坐标，得到三维点集

同理对于DRR图像，得到与CT对应的三维标记点集

便得到了K对匹配点。

在一个具体的实施场景中，具体步骤如下：

S1，在术中对人体拍摄N个视觉(多个不同位置的X射线源，N≥2)的二维X-ray图像(DR图像)，记作DR₁、DR₂、…、DR_N，并通过相机标定算法得到各自的内参和外参，用于对术前拍摄的三维CT图像进行重建得到N个二维图像(digitally reconstructed radiographs，DRR)，记作DRR₁、DRR₂、…、DRR_N。

S2，训练神经网络用于识别二维图像中的标记点。把N个DR图像和N个DRR图像分别输入神经网络，得到每个图像的K个二维标记点结果。

对于DR图像，把N个视觉下的神经网络输出的二维标记点坐标通过反向映射算法得到与人体对应的三维标记点坐标，得到三维点集

同理对于DRR图像，得到与CT对应的三维标记点集

便得到了K对匹配点。

S3，通过最小化K对匹配点的点距离总和，拟合出刚性配准的变换矩阵，并可以通过迭代的方式优化该结果。

在刚性配准的基础上，利用K对匹配点通过基于控制点的插值法得到非刚性配准的位移场三维矩阵，并可以通过迭代的方式优化该结果。

本发明的一种基于标记点的多视觉2D-3D图像配准方法的一个具体实施的工作流程包括：

S1、准备配准用的图像；

步骤S1具体包括以下步骤：

S11、在术中对人体拍摄N个视觉(多个不同位置的X射线源，N≥2)的二维X-ray图像(DR图像)，记作DR₁、DR₂、…、DR_N。

S12、通过相机标定算法得到每个视觉的内参和外参。

S13、对术前拍摄的三维CT图像进行重建得到N个二维图像(digitallyreconstructed radiographs，DRR)，记作DRR₁、DRR₂、…、DRR_N。

S2、训练神经网络用于识别二维图像中的标记点；

步骤S2具体包括以下步骤：

S21、神经网络的输入为单个二维的DR图像或DRR图像，输出为K个通道的与输入尺寸相同的概率图，单个概率图中的某个像素的值表示该像素是对应标记点的概率，取该热力图中的最大值的像素即为对应标记点的位置。

S22、标记点是结合人为标注和已有算法的结果在三维CT图像上标识，再映射至二维图像用于神经网络的监督学习。标记点包括但不限于肋骨及脊柱等骨骼结构、肺部及肝脏等器官的外轮廓上的角点、外侧切点等。

S23、所述神经网络的结构以Unet为基础，U型结构的左侧编码器由4个ResidualModules和下采样交替组成，U型结构的右侧解码器由4个Residual Modules和上采样交替组成，并通过skip-connection将所述主网络的编码器中部分较浅层的高分辨率特征与解码器中对应层的特征进行融合，以补充由下采样带来的细节损失，解码器最后一个Residual Modules后接一个通道数为K的卷积层，输出多通道概率图。

S24、网络训练完成后，把N个DR图像和N个DRR图像分别输入神经网络，得到每个图像的K个二维标记点结果。

S3、对于DR图像和DRR图像，分别把N个视觉下的神经网络输出的二维标记点坐标通过反向映射算法得到三维标记点坐标，得到了K对匹配点；

步骤S3具体包括以下步骤：

S31、对于第k个三维标记点的N个视觉的DR或DRR二维图像的神经网络预测结果为

其中

表示第k个标记点在第n个二维图像的坐标。

记第n个视觉的内参矩阵为Intri_n，大小为3x3，其X射线源位置相对于第1个视觉的X射线源位置的偏移量为Offset_n，大小为3x1，记矩阵：

其中：

为点

的第1个维度的坐标值，

为点

的第2个维度的坐标值。

其中，A^k为N个

矩阵拼接组成，同理B^k。则第k个三维标记点的坐标为：

其中，

为A^k的广义逆矩阵。

S32、分别对DR图像和DRR图像的K个标记点作上述步骤，得到与人体对应的三维标记点集

与CT对应的三维标记点集

便得到了K对匹配点。

S4、通过最小化K对匹配点的点距离总和，拟合出刚性配准的变换矩阵，并可以通过迭代的方式优化该结果；

步骤S4具体包括以下步骤：

S41、得到所有匹配点对后，通过下式进行最小化，得到刚性配准的变换矩阵R和位移向量t的最优解：

最优解为：

U,S,V＝SVD(H)

R＝VU

t＝mean(P^DR)-R mean(P^DRR)

其中，P^DR为DR图像中K个匹配点组成的矩阵，大小为3xK，mean(P^DR)为K个匹配点的均值，大小为3x1，同理P^DRR与mean(P^DRR)。SVD(H)为对H做奇异值分解。

S42、得到刚性配准的变换矩阵R和位移向量t后，可基于此对DRR图像重复执行上述步骤，即重新生成N个DRR图像，用神经网络预测二维标记点，反向映射得到三维标记点，与DR的三维标记点组成匹配点对计算刚性配准，从而使R和t的结果更加精准。

S5、在刚性配准的基础上，利用K对匹配点通过基于控制点的插值法得到非刚性配准的位移场三维矩阵，并可以通过迭代的方式优化该结果；

步骤S5具体包括以下步骤：

S51、得到刚性配准的变换矩阵R和位移向量t后，基于此重新生成N个DRR图像，用神经网络预测二维标记点，反向映射得到三维标记点，与DR的三维标记点组成匹配点对进行非刚性配准。

S52、初始化位移场三维矩阵为零矩阵，其大小与三维CT相同，对矩阵中属于CT的匹配点的像素赋值为与该点对应的属于人体的匹配点的物理坐标的差值；然后采用如下基于控制点的样条插值法得到位移场矩阵剩余像素点的值；

B₀(t)＝(1-t)³/6

B₁(t)＝(3t³-6t²+4)/6

B₂(t)＝(-3t³+3t²+3t+1)/6

B₃(t)＝t³/6

假设由一组m×n×l个控制点组成的网格作为新的像素坐标系，其中(x,y,z)为位移场矩阵中某个已赋值的像素点在此新坐标系下的坐标位置，

表示x的往下取整，

为坐标位置在

的控制点，f(x,y,z)为该像素点的位移值，f'(x,y,z)为通过该像素点附近的16个控制点拟合的近似值，B为权重，t为位移变量；

其中，φ_i,j,k为

的简写；

min e(φ_i,j,k)＝∑_s(w_sφ_i,j,k-w_sφ_s)²

最终解为：

其中：

S_i,j,k＝{(x_s,y_s,z_s)|i-2≤x_s<i+2,j-2≤y_s<j+2,k-2≤z_s<k+2}

S_i,j,k为参与求解控制点φ_i,j,k的所有已赋值的像素点的集合；φ_s为通过坐标为(x_s,y_s,z_s)的像素点得到的控制点最优解；

当能求解控制点φ_i,j,k的像素点个数为0时，对其赋值为0；

在得到所有控制点的值后，位移场中剩余像素点的位移值均通过其附近的16个控制点拟合得到；

由于位移值是三维向量，即x、y、z方向，故上述插值过程需重复3次，即每个方向分别进行一次，便得到非刚性配准的位移场三维矩阵。

S53、得到非刚性配准的位移场三维矩阵后，可基于此对DRR重复执行上述步骤，即重新生成N个DRR图像，用神经网络预测二维标记点，反向映射得到三维标记点，与DR的三维标记点组成匹配点对进行非刚性配准，从而使位移场三维矩阵的结果更加精准。

本发明公开了一种基于标记点的多视觉2D-3D图像非刚性配准方法，方法包括：在术中对人体拍摄多个视觉的二维X-ray图像(DR图像)，对术前拍摄的三维CT图像进行重建得到多个视觉的二维DRR图像；训练神经网络分别识别多个DR图像和DRR图像的二维标记点结果；对于DR图像，通过反向映射算法得到与人体对应的三维标记点集，对于DRR图像，得到与CT对应的三维标记点集，便得到了匹配点集；通过最小化匹配点集的点距离总和，拟合出刚性配准的变换矩阵，并可以通过迭代的方式优化该结果；在刚性配准的基础上，利用匹配点集通过基于控制点的插值法得到非刚性配准的位移场三维矩阵，并可以通过迭代的方式优化该结果。本发明能本发明通过神经网络进行2D-3D图像配准，比传统方法的运算时间更快；采用匹配点进行配准，可解释性更强，且对刚性配准及非刚性配准均能实现。

请参阅图2为本发明实施例提供的电子设备的实施例示意图。如图2所示，本发明实施例提了一种电子设备，包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311，处理器1320执行计算机程序1311时实现以下步骤：

同理对于DRR图像，得到与CT对应的第二组三维标记点集

请参阅图3为本发明提供的一种计算机可读存储介质的实施例示意图。如图3所示，本实施例提供了一种计算机可读存储介质1400，其上存储有计算机程序1411，该计算机程序1411被处理器执行时实现如下步骤：

同理对于DRR图像，得到与CT对应的第二组三维标记点集

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明通过神经网络进行2D-3D图像配准，比传统方法的运算时间更快。

(2)本发明采用匹配点进行配准，可解释性更强。

(3)本发明本发明采用匹配点进行配准，对刚性配准及非刚性配准均能实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于标记点的多视觉2D-3D图像非刚性配准方法，其特征在于，包括以下步骤：

同理对于DRR图像，得到与CT对应的第二组三维标记点集

2.如权利要求1所述的基于标记点的多视觉2D-3D图像非刚性配准方法，其特征在于，所述S2具体包括：

3.如权利要求2所述的基于标记点的多视觉2D-3D图像非刚性配准方法，其特征在于，所述神经网络为以Unet为基础的U型结构，所述U型结构的左侧编码器由四个残差模块(Residual Modules)和四个下采样交替组成，所述U型结构的右侧解码器由四个ResidualModules和四个上采样交替组成，并通过残差连接(skip-connection)将所述主网络的编码器中部分较浅层的高分辨率特征与解码器中对应层的特征进行融合，以补充由下采样带来的细节损失，解码器最后一个Residual Modules后接一个通道数为K的卷积层，输出多通道概率图。

4.如权利要求1所述的基于标记点的多视觉2D-3D图像非刚性配准方法，其特征在于，所述S3具体包括：