CN116934859B

CN116934859B - 基于矢状位图的关键点识别方法及相关装置

Info

Publication number: CN116934859B
Application number: CN202311200830.4A
Authority: CN
Inventors: 宋凯; 王征; 蔡素到
Original assignee: Bone's Biological Technology Shenzhen Co ltd
Current assignee: Bone's Biological Technology Shenzhen Co ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2024-01-05
Anticipated expiration: 2043-09-18
Also published as: CN116934859A

Abstract

本发明涉及图像处理技术领域，公开了一种基于矢状位图的关键点识别方法及相关装置，用于提高对X‑ray矢状位图像进行关键点识别的准确率。包括：采集历史X‑ray矢状位图像集，对所述历史X‑ray矢状位图像集中每一历史X‑ray矢状位图像进行标注处理，得到候选X‑ray矢状位图像集，并对所述候选X‑ray矢状位图像集进行预处理，得到目标X‑ray矢状位图像集；搭建初始关键点识别模型；通过所述目标X‑ray矢状位图像集对所述初始关键点识别模型进行模型训练，得到目标关键点识别模型；获取目标X‑ray矢状位图像，并将所述目标X‑ray矢状位图像输入所述目标关键点识别模型进行关键点位置识别，得到关键点坐标集合。

Description

基于矢状位图的关键点识别方法及相关装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于矢状位图的关键点识别方法及相关装置。

背景技术

目前，基于X-ray矢状位图像的外耳道、颅骨、脊柱、骨盆和股骨头关键点全自动识别方法可以应用于广泛的医学影像和诊断任务，包括：脊柱曲度分析：评估脊柱畸形如脊柱侧弯或驼背。髋关节评估：诊断髋关节疾患，如发育性髋关节发育不良。手术规划：为术前规划和术后评估提供关键信息。生物力学分析：研究各种病状对肌肉骨骼系统的影响。

然而，目前对于X-ray矢状位图像的外耳道、颅骨、脊柱、骨盆和股骨头关键点识别的金标准依旧是由医生进行手动标注完成的。手动标注不仅存在主观性，还耗时易错，严重降低对关键点识别的效率以及准确率。

发明内容

本发明提供了一种基于矢状位图的关键点识别方法及相关装置，用于提高对X-ray矢状位图像进行关键点识别的准确率。

本发明第一方面提供了一种基于矢状位图的关键点识别方法，所述基于矢状位图的关键点识别方法包括：

采集历史X-ray矢状位图像集，对所述历史X-ray矢状位图像集中每一历史X-ray矢状位图像进行标注处理，得到候选X-ray矢状位图像集，并对所述候选X-ray矢状位图像集进行预处理，得到目标X-ray矢状位图像集；

搭建初始关键点识别模型，其中，所述初始关键点识别模型包括初始Transformer特征提取骨干网络以及初始关键点检测头网络；

通过所述目标X-ray矢状位图像集对所述初始关键点识别模型进行模型训练，得到目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络；

获取目标X-ray矢状位图像，并将所述目标X-ray矢状位图像输入所述目标关键点识别模型进行关键点位置识别，得到关键点坐标集合。

结合第一方面，在本发明第一方面的第一实施方式中，所述采集历史X-ray矢状位图像集，对所述历史X-ray矢状位图像集中每一历史X-ray矢状位图像进行标注处理，得到候选X-ray矢状位图像集，并对所述候选X-ray矢状位图像集进行预处理，得到目标X-ray矢状位图像集，包括：

采集历史X-ray矢状位图像集，分别对所述历史X-ray矢状位图像集中每个历史X-ray矢状位图像进行关键点标注，得到历史X-ray矢状位图像集对应的关键点坐标集合；

基于预设的关键点类型，对所述关键点坐标集合中每个类型的关键点进行标注位置分析，确定每个类型的关键点对应的目标关键点位置数据；

基于预设的部位位置信息，对每个类型的关键点对应的目标关键点位置数据进行部位标签标注，得到候选X-ray矢状位图像集；

对所述候选X-ray矢状位图像集中每个候选X-ray矢状位图像进行灰度增强处理，得到第一X-ray矢状位图像集；

对所述第一X-ray矢状位图像集进行像素值标准化处理，得到第二X-ray矢状位图像集；

对所述第二X-ray矢状位图像集进行图像增强处理，得到第三X-ray矢状位图像集；

对所述第三X-ray矢状位图像集进行等比缩放处理，得到所述目标X-ray矢状位图像集。

结合第一方面，在本发明第一方面的第二实施方式中，所述通过所述候选X-ray矢状位图像集对所述初始关键点识别模型进行模型训练，得到目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络，包括：

基于自注意力机制，将所述候选X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络中进行特征提取，得到全局特征向量；

将所述全局特征向量输入所述初始关键点检测头网络进行关键点位置预测，生成初始关键点位置预测结果；

基于所述初始关键点位置预测结果，通过预设的损失函数对所述初始关键点识别模型进行模型参数权重调整，生成目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络。

结合第一方面的第二实施方式，在本发明第一方面的第三实施方式中，所述基于自注意力机制，将所述目标X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络中进行特征提取，得到全局特征向量，包括：

基于所述自注意力机制，将所述目标X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络进行椎体特征提取，得到多个不同部位椎体对应的椎体特征；

对多个所述不同部位椎体对应的椎体特征进行长距离关系模拟分析，生成目标长距离关系数据；

基于所述目标长距离关系数据对多个所述不同部位椎体对应的椎体特征进行全局向量映射，得到全局特征向量。

结合第一方面的第三实施方式，在本发明第一方面的第四实施方式中，所述基于所述自注意力机制，将所述目标X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络进行椎体特征提取，得到多个不同部位椎体对应的椎体特征，包括：

将所述目标X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络，通过初始Transformer特征提取骨干网络对所述目标X-ray矢状位图像集中每个目标X-ray矢状位图像进行图像划分，得到每个目标X-ray矢状位图像对应的多个互不重叠的窗口图像；

分别对每个目标X-ray矢状位图像对应的多个互不重叠的窗口图像进行自注意力计算，得到自注意力数据集合；

基于所述自注意力数据集合对进行所述目标X-ray矢状位图像集进行椎体特征分析，得到多个不同部位椎体对应的椎体特征。

结合第一方面的第二实施方式，在本发明第一方面的第五实施方式中，所述将所述全局特征向量输入所述初始关键点检测头网络进行关键点位置预测，生成初始关键点位置预测结果，包括：

将所述全局特征向量输入所述初始关键点检测头网络的多层感知机的输入层，其中，所述多层感知机包括：输入层、第一全连接层、第二全连接层、Relu激活层以及输出层；

对所述全局特征向量中每个全局特征向量进行向量拉直运算，得到列向量；

将所述列向量输入所述第一全连接层进行第一特征映射处理，得到第一映射特征；

将所述第一映射特征输入所述第二全连接层进行第二特征映射处理，得到第二映射特征；

将所述第二映射特征输入所述Relu激活层进行特征拟合处理，并获取从所述输出层输出的目标特征向量；

通过所述目标特征向量对所述目标X-ray矢状位图像集进行关键点位置预测，生成初始关键点位置预测结果。

结合第一方面的第五实施方式，在本发明第一方面的第六实施方式中，所述通过所述目标特征向量对所述目标X-ray矢状位图像集进行关键点位置预测，生成初始关键点位置预测结果，包括：

将所述目标特征向量输入所述关键点检测头网络的头部网络的第一卷积层进行向量维度一致性处理，得到第一卷积特征；其中，所述头部网络包括：第一卷积层以及第二卷积层；

将所述第一卷积特征输入所述第二卷积层进行数据升维处理，得到升维特征向量，同时，基于预设的标准维度数据，对所述升维特征集合进行数据通道降维处理，得到目标降维向量；

通过所述目标降维向量进行关键点热图构建，生成关键点热图数据，并通过所述关键点热图数据生成所述初始关键点位置预测结果。

本发明第二方面提供了一种基于矢状位图的关键点识别系统，所述基于矢状位图的关键点识别系统包括：

采集模块，用于采集历史X-ray矢状位图像集，对所述历史X-ray矢状位图像集中每一历史X-ray矢状位图像进行标注处理，得到候选X-ray矢状位图像集，并对所述候选X-ray矢状位图像集进行预处理，得到目标X-ray矢状位图像集；

搭建模块，用于搭建初始关键点识别模型，其中，所述初始关键点识别模型包括初始Transformer特征提取骨干网络以及初始关键点检测头网络；

训练模块，用于通过所述目标X-ray矢状位图像集对所述初始关键点识别模型进行模型训练，得到目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络；

识别模块，用于获取目标X-ray矢状位图像，并将所述目标X-ray矢状位图像输入所述目标关键点识别模型进行关键点位置识别，得到关键点坐标集合。

本发明第三方面提供了一种基于矢状位图的关键点识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于矢状位图的关键点识别设备执行上述的基于矢状位图的关键点识别方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于矢状位图的关键点识别方法。

本发明提供的技术方案中，采集历史X-ray矢状位图像集，对所述历史X-ray矢状位图像集中每一历史X-ray矢状位图像进行标注处理，得到候选X-ray矢状位图像集，并对所述候选X-ray矢状位图像集进行预处理，得到目标X-ray矢状位图像集；搭建初始关键点识别模型，其中，所述初始关键点识别模型包括初始Transformer特征提取骨干网络以及初始关键点检测头网络；通过所述目标X-ray矢状位图像集对所述初始关键点识别模型进行模型训练，得到目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络；获取目标X-ray矢状位图像，并将所述目标X-ray矢状位图像输入所述目标关键点识别模型进行关键点位置识别，得到关键点坐标集合。在本发明中，使用自注意力机制，自注意力机制可以模拟长距离关系，对输入进行全局建模，学习获得全局信息，有助于模型专注于识别关键点的最相关特征，从而扩大所识别的结构大小，提高关键点识别的准确性。有效解决CNN卷积核大小限制感受野的问题。此外，基于Transformer特征提取骨干网络的关键点识别架构方法参数量大，拟合能力强。

附图说明

图1为本发明实施例中基于矢状位图的关键点识别方法的一个实施例示意图；

图2为本发明实施例中通过目标X-ray矢状位图像集对初始关键点识别模型进行模型训练，得到目标关键点识别模型的流程图；

图3为本发明实施例中将候选X-ray矢状位图像集输入初始关键点检测头网络进行椎体特征提的流程图；

图4为本发明实施例中将全局特征向量输入初始关键点检测头网络进行关键点位置预测的流程图；

图5为本发明实施例中基于矢状位图的关键点识别系统的一个实施例示意图；

图6为本发明实施例中基于矢状位图的关键点识别设备的一个实施例示意图；

图7为本发明实施例中外耳道、颅骨、颈胸腰椎关键点点位图；

图8为本发明实施例中骨盆、股骨头关键点点位的示意图；

图9为本发明实施例中Transformer关键点识别网络框架的示意图。

具体实施方式

本发明实施例提供了一种基于矢状位图的关键点识别方法及相关装置，用于提高乡村物流的流转规划效率以及配送效率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于矢状位图的关键点识别方法的一个实施例包括：

S101、采集历史X-ray矢状位图像集，对历史X-ray矢状位图像集中每一历史X-ray矢状位图像进行标注处理，得到候选X-ray矢状位图像集，并对候选X-ray矢状位图像集进行预处理，得到目标X-ray矢状位图像集；

可以理解的是，本发明的执行主体可以为基于矢状位图的关键点识别系统，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

需要说明的是，服务器采集历史X-ray矢状位图像集，分别对历史X-ray矢状位图像集中每个历史X-ray矢状位图像进行关键点标注，得到历史X-ray矢状位图像集对应的关键点坐标集合；基于预设的关键点类型，对关键点坐标集合中每个类型的关键点进行标注位置分析，确定每个类型的关键点对应的目标关键点位置数据；基于预设的部位位置信息，对每个类型的关键点对应的目标关键点位置数据进行部位标签标注，得到候选X-ray矢状位图像集；对候选X-ray矢状位图像集中每个候选X-ray矢状位图像进行灰度增强处理，得到第一X-ray矢状位图像集；对第一X-ray矢状位图像集进行像素值标准化处理，得到第二X-ray矢状位图像集；对第二X-ray矢状位图像集进行图像增强处理，得到第三X-ray矢状位图像集；对第三X-ray矢状位图像集进行等比缩放处理，得到目标X-ray矢状位图像集。

S102、搭建初始关键点识别模型，其中，初始关键点识别模型包括初始Transformer特征提取骨干网络以及初始关键点检测头网络；

S103、通过目标X-ray矢状位图像集对初始关键点识别模型进行模型训练，得到目标关键点识别模型，其中，目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络；

具体的，服务器基于自注意力机制，将目标X-ray矢状位图像集输入初始Transformer特征提取骨干网络中进行特征提取，得到全局特征向量；服务器将全局特征向量输入初始关键点检测头网络进行关键点位置预测，生成初始关键点位置预测结果；服务器基于初始关键点位置预测结果，通过预设的损失函数对初始关键点识别模型进行模型参数权重调整，生成目标关键点识别模型，其中，目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络。

具体的，为训练候选关键点识别模型，需构建对应的训练标签：对每个所需识别的关键点构建所在位置的高斯热图（heatmap），得到实际关键点热图。其中离关键点近的区域趋近于1，离关键点越远的区域趋近于0，这些数值的分布满足高斯分布，如下面公式所示：

；

其中，y_i表示某一个关键点对应的高斯热图，i可以从1取到120，表示所有关键点数。u_i表示第i块椎骨的中心位置，表示高斯分布的标准差，其控制了高斯分布的形态，x表示输入的自变量。

此外，通过预设的损失函数，计算预测关键点热图与实际关键点热图之间损失，如L2损失等。再通过过优化算法（如：Adam优化算法）等优化基于Transformer的X-ray矢状位外耳道、颅骨、脊柱、骨盆、股骨头关键点检测头网络的权重，进一步训练模型，使损失函数最小化，得到训练好的基于Transformer的X-ray矢状位外耳道、颅骨、脊柱、骨盆、股骨头关键点识别模型（也就是，目标关键点识别模型）。

S104、获取目标X-ray矢状位图像，并将目标X-ray矢状位图像输入目标关键点识别模型进行关键点位置识别，得到关键点坐标集合。

具体的，将新获取待识别关键点的临床X-ray矢状位图像（也就是，目标X-ray矢状位图像），进行数据预处理，包括灰度增强、像素值标准化处理，并等比缩放到H×W×1的大小，满足所搭建关键点检测头网络的输入尺寸要求。再将其输入目标关键点识别模型中，得到对应的关键点坐标和置信度。将置信度与设定的阈值比较比较。若置信度大于阈值，则判定存在该关键点。反之，则不存在。并将判定存在的关键点对应热图上最高值的坐标作为该关键点的预测坐标，输出关键点名称和对应坐标，得到关键点坐标集合，完成X-ray矢状位图像外耳道、颅骨、脊柱、骨盆、股骨头关键点的自动识别。

在一具体实施例中，执行步骤S101的过程可以具体包括如下步骤：

（1）采集历史X-ray矢状位图像集，分别对历史X-ray矢状位图像集中每个历史X-ray矢状位图像进行关键点标注，得到历史X-ray矢状位图像集对应的关键点坐标集合；

（2）基于预设的关键点类型，对关键点坐标集合中每个类型的关键点进行标注位置分析，确定每个类型的关键点对应的目标关键点位置数据；

（3）基于预设的部位位置信息，对每个类型的关键点对应的目标关键点位置数据进行部位标签标注，得到候选X-ray矢状位图像集；

（4）对候选X-ray矢状位图像集中每个候选X-ray矢状位图像进行灰度增强处理，得到第一X-ray矢状位图像集；

（5）对第一X-ray矢状位图像集进行像素值标准化处理，得到第二X-ray矢状位图像集；

（6）对第二X-ray矢状位图像集进行图像增强处理，得到第三X-ray矢状位图像集；

（7）对第三X-ray矢状位图像集进行等比缩放处理，得到目标X-ray矢状位图像集。

进而需要说明的是，基于目前还没有基于X-ray矢状位图像涵盖外耳道、颅骨、脊柱、骨盆、股骨头的数据集，需在临床上先采集历史X-ray矢状位图像数据集，并由多位专家医生对外耳道、颅骨、脊柱、骨盆、股骨头的120个关键点进行标注，并取平均值作为X-ray矢状位图像的标注关键点。再将标注的关键点坐标，按照人体部位进行排序，制备成关键点的标签，便于后续关键点检测头网络能更便捷学到部位信息，进而识别每个人对应部位的对应关键点坐标。其中，X-ray矢状位图像的外耳道、颅骨、脊柱关键点点位图如图7所示，0为外耳道，1为颅骨，2-91为颈椎、胸椎、腰椎的角点。骨盆、股骨头关键点点位图如图8所示。关键点92-115为骨盆角点，关键圆为髋轴轮廓，其中，关键点92-104为骶、尾骨角点，关键点105-114为髂、坐骨角点，关键圆为双侧髋轴轮廓（关键圆包含的信息为髋轴中心空间坐标和半径，其中116、118代表圆心， 117、119代表半径上任意一点）。它们分别为：骶、尾骨角点：92、骶1椎体终板后缘；93、骶骨岬；94、骶2椎体上终板后缘；95、骶2椎体上终板前缘；96、骶3椎体上终板后缘；97、骶3椎体上终板前缘；98、骶4椎体上终板后缘；99、骶4椎体上终板前缘；100、骶5椎体上终板后缘；101、骶5椎体上终板前缘；102、尾1椎体上终板后缘；103、尾1椎体上终板前缘；104、尾1椎体-尾2椎体绞链中心；髂、坐骨角点：105、髂后上嵴连线中点；106、髂后下嵴连线中点；107、坐骨大切迹顶点连线中点；108、坐骨棘连线中点；109、坐骨结节后上缘连线中点；110、坐骨结节前下缘连线中点；111、耻骨联合；112、髂前下棘连线中点；113、髂前上棘连线中点；114、髂前上棘-髂嵴顶点中间髂嵴连线中点；115、髂嵴顶点连线中点；关键圆：116和118、左（右）髋轴中心及半径上任意一点；117和119、右（左）髋轴中心及半径上任意一点，进而，对候选X-ray矢状位图像集进行预处理。包括但不限于对图像灰度增强、像素值标准化、数据增强（仅限于模型训练阶段）。对候选X-ray矢状位图像进行灰度增强，以突出关键点的特征，提高后续关键点识别精度，得到第一X-ray矢状位图像集。对第一X-ray矢状位图像集进行像素值标准化处理，可将原像素值的分布均映射到同一标准化分布（如正态分布、均匀分布、泊松分布等），得到第二X-ray矢状位图像集。本实施例采用的是标准正态分布，该分布均值为0，标准差为1。像素值标准化的目的是消除极端像素值对后续基于视觉的数据处理产生的影响。对第二X-ray矢状位图像集进行数据增强，如几何操作、添加噪声、色彩抖动等操作，可生成更多训练样本，以适配实际情况可能出现的各种情况，进而提高模型的泛化能力，得到第三X-ray矢状位图像集，服务器对第三X-ray矢状位图像集进行等比缩放处理，具体的，将第三X-ray矢状位图像集进行等比缩放，缩放的尺寸为H×W×1，该缩放尺寸为适配后续的关键点检测头网络的输入要求。本发明所实施的具体等比缩放尺寸为1024×512×1的尺寸，该缩放尺寸大小适配全身的X-ray矢状位图像，对原始图像的失真小，进而得到候选X-ray矢状位图像集。本领域的技术人员可以理解，本申请涉及的灰度增强、像素值标准化、数据增强仅仅是列举的实例，并不构成应用本申请方案的限定

在一具体实施例中，如图2所示，执行步骤S103的过程可以具体包括如下步骤：

S201、基于自注意力机制，将目标X-ray矢状位图像集输入初始Transformer特征提取骨干网络中进行特征提取，得到全局特征向量；

S202、将全局特征向量输入初始关键点检测头网络进行关键点位置预测，生成初始关键点位置预测结果；

S203、基于初始关键点位置预测结果，通过预设的损失函数对初始关键点识别模型进行模型参数权重调整，生成目标关键点识别模型，其中，目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络。

其中，执行基于自注意力机制，将目标X-ray矢状位图像集输入初始Transformer特征提取骨干网络中进行特征提取，得到全局特征向量步骤的过程，具体可以包括如下步骤：

（1）基于自注意力机制，将目标X-ray矢状位图像集输入初始Transformer特征提取骨干网络进行椎体特征提取，得到多个不同部位椎体对应的椎体特征；

（2）对多个不同部位椎体对应的椎体特征进行长距离关系模拟分析，生成目标长距离关系数据；

（3）基于目标长距离关系数据对多个不同部位椎体对应的椎体特征进行全局向量映射，得到全局特征向量。

具体的，将目标X-ray矢状位图像集输入到预置的Transformer特征提取骨干网络中进行特征提取。传统的基于卷积神经网络的方法缺少对全局信息的理解学习，不能建立特征之间的远程依赖关系。而所使用的Transformer特征提取骨干网络的核心是使用自注意力机制，其自注意力机制可以模拟长距离关系，对输入进行全局建模，对多个不同部位椎体对应的椎体特征进行长距离关系模拟分析，生成目标长距离关系数据，学习获得全局信息，有助于模型专注于识别关键点的最相关特征，从而提高关键点识别的准确性。基于目标长距离关系数据对多个不同部位椎体对应的椎体特征进行全局向量映射，得到全局特征向量，并搭建初始关键点识别模型，其中，搭建X-ray矢状位图像外耳道、颅骨、脊柱、骨盆和股骨头关键点自动识别及计算机视觉Transformer特征提取骨干网络的关键点检测头网络。所设计的基于计算机视觉Transformer特征提取骨干网络的X-ray矢状位关键点检测网络结构图，如图9所示，主要由Transformer特征提取骨干网络（图像分块层、线性嵌入层、SwimTransformer块）、关键点检测头（多层感知机层、头部网络）

在一具体实施例中，如图3所示，执行基于自注意力机制，将目标X-ray矢状位图像集输入初始Transformer特征提取骨干网络进行椎体特征提取，得到多个不同部位椎体对应的椎体特征步骤的过程可以具体包括如下步骤：

S301、将目标X-ray矢状位图像集输入初始Transformer特征提取骨干网络，通过初始Transformer特征提取骨干网络对目标X-ray矢状位图像集中每个目标X-ray矢状位图像进行图像划分，得到每个目标X-ray矢状位图像对应的多个互不重叠的窗口图像；

S302、分别对每个目标X-ray矢状位图像对应的多个互不重叠的窗口图像进行自注意力计算，得到自注意力数据集合；

S303、基于自注意力数据集合对进行目标X-ray矢状位图像集进行椎体特征分析，得到多个不同部位椎体对应的椎体特征。

具体的，本实施例中的Transformer特征提取骨干网络主要使用的是SwimTransformer特征提取骨干网络架构，其主要原因是该网络框架能让Transformer像CNN一样，分成几个Swim Transformer块，对输入图像提取层级式的特征，得到具有多尺度概念的特征。所提取多尺度特征，使搭建的关键点检测头网络可以识别来自不同设备所拍摄的不同分辨率的X-ray矢状位图像的关键点，更符合实际临床需求。另一个原因是SwimTransformer特征提取骨干网络架构计算复杂度低，可输入较大尺寸的图像。因本发明所需识别的人全身的X-ray矢状位图像，一般尺寸较大，使用Swim Transformer特征提取骨干网络架构，可大大降低输入图像的失真程度。其复杂度低的原因是Swim Transformer特征提取骨干网络架构的本质是将输入的图像划分成互不重叠的窗口，得到每个目标X-ray矢状位图像对应的多个互不重叠的窗口图像，进而分别对每个目标X-ray矢状位图像对应的多个互不重叠的窗口图像进行自注意力计算，在每个窗口中计算自注意力，而非直接对整图计算自注意力，并且还使用移动窗口对特征进行交互，获取全局特征信息，得到自注意力数据集合。因窗口的尺寸是固定的，所以计算自注意力的复杂度也是固定的，计算整张图的自注意复杂度与图像尺寸成线性增长关系。不同于ViT（Vision Transformer）直接对整张图进行自注意力计算，造成自注意力计算复杂度与图像尺寸大小成平方倍。

其中，将等比缩放的X-ray矢状位图像输入到图像分块层中进行分块，将相邻的16×16像素分成一个图像块，图像块之间不重叠，再把图像块沿着通道方向展开，变成维度为×/>×256的图像向量。

再将分块后的图像向量×/>×256输入到阶段1中，阶段1由一个线性嵌入层和两个连续的Swim Transformer块组成。图像向量先经过线性嵌入层，将图像向量映射到任意所设定好的维度，即得到/>×/>×C（用C表达该设定维度）的映射向量，输入到两个连续的Swim Transformer块中进行特征提取，得到阶段1的输出特征向量/>×/>×C。

其中，Swim Transformer块将Transformer的标准多头自注意力模块（MSA，multi-head self-attention）改进成基于窗口的多头自注意力层（W-MSA，window multi-headself-attention）和基于滑动窗口的多头自注意力层（SW-MSA，shifted window basedmulti-head self-attention）交替的自注意力模块，其他层保持不变。Swim Transformer块的结构图，包括4个标准化层（LN，layer normalization）、2个多层感知机（MLP，multilayer perceptron）和1个W-MSA层和1个SW-MSA层。输入到Swim Transformer块的特征向量先经过LN进行特征的归一化处理，再通过W-MSA层提取特征，再经过残差连接操作得到/>，再将其输入到LN层进行归一化处理后输入到MLP中，在特征的通道维度上进行线性变换，再使用残差连接操作得到输出的特征/>，再将其传入到SW-MSA层中，该层操作与W-MSA层结构类似。Swim Transformer块中的W-MSA层将输入的特征图分割成M×M大小的窗口，在这些互不重叠的窗口中进行多头的自注意力计算。公式如下：

；

其中，分别是查询Q(Query)，键K(Key)和权重V(Value)矩阵，d是Query和Key的维度，M²是窗口的数量。QK^T是使用点积计算不同特征之间的相似性，除以/>是进行缩放操作，确保多头注意力中每个头所计算的相似性大小在一个量级上。在多头字注意力计算每一个头时，还加入了可学习的相对位置编码/>，用于学习特征窗口块的相对空间位置信息。

其中，Swim Transformer块中的SW-MSA层则通过巧妙设计循环移位和掩码操作，实现不重叠窗口之间的信息交互，学习到跨窗口的信息。在Swim Transformer特征提取骨干网络架构中，为了构建层次化特征，在不同阶段之间使用图像块拼接层对图像进行下采样。其原理是将间隔为2的相邻元素划分成一个个图像块，再在通道维度上进行拼接操作，使得整个输入特征图的宽高的维度减半。再经过一个LN层进行特征归一化处理后输入到一个全连接增将通道数线性变换为原来的一般。最终输出的特征图宽高会减半，通道数翻倍。随着网络层次加深，特征图的感受野也不断扩大。一般使用完图像拼接层构建不同尺度的特征图后，再使用Swim Transformer块进行图像全局特征的提取。如阶段2，3，4所示，均由图像拼接层和Swim Transformer块构成，其中阶段2，4包括2个Swim Transformer块，阶段3则包含6个Swim Transformer块。阶段1输出特征向量×/>×C，经过阶段2的，得到/>××2C的特征向量，经过阶段3后，得到/>×/>×4C的特征向量，经过阶段4，得到/>××8C的全局特征向量。

在一具体实施例中，如图4所示，执行步骤S202的过程可以具体包括如下步骤：

S401、将全局特征向量输入初始关键点检测头网络的多层感知机的输入层，其中，多层感知机包括：输入层、第一全连接层、第二全连接层、Relu激活层以及输出层；

S402、对全局特征向量中每个全局特征向量进行向量拉直运算，得到列向量；

S403、将列向量输入第一全连接层进行第一特征映射处理，得到第一映射特征；

S404、将第一映射特征输入第二全连接层进行第二特征映射处理，得到第二映射特征；

S405、将第二映射特征输入Relu激活层进行特征拟合处理，并获取从输出层输出的目标特征向量；

S406、通过目标特征向量对目标X-ray矢状位图像集进行关键点位置预测，生成初始关键点位置预测结果。

具体的，将Transformer特征提取骨干网络所提取的全局特征向量×/>×8C输入到关键点检测头中进行关键点的预测。其中，关键点检测头由多层感知机和头部网络构成。本发明所具体实施的的多层感知机主要包括：输入层、第一全连接层、第二全连接层、Relu激活层以及输出层。加入多层感知机作用是：捕捉输入特征向量之间复杂的相互作用，更好学习到关键点之间的相互空间位置关系。Transformer特征提取骨干网络所提取的全局特征向量/>×/>×8C，拉直后输入到多层感知机中，经过两层全连接的隐藏层和一个Relu激活层后，输出最终的目标特征向量D。再将最终的特征向量输入到头部网络中，对关键坐标进行预测，生成初始关键点位置预测结果。

在一具体实施例中，执行步骤S406的过程可以具体包括如下步骤：

（1）将目标特征向量输入关键点检测头网络的头部网络的第一卷积层进行向量维度一致性处理，得到第一卷积特征；其中，头部网络包括：第一卷积层以及第二卷积层；

（2）将第一卷积特征输入第二卷积层进行数据升维处理，得到升维特征向量，同时，基于预设的标准维度数据，对升维特征集合进行数据通道降维处理，得到目标降维向量；

（3）通过目标降维向量进行关键点热图构建，生成关键点热图数据，并通过关键点热图数据生成初始关键点位置预测结果。

需要说明的是，头部网络由两个卷积层构成，第一层卷积用与保持维度的一致性，第二层卷积用于分类和回归关键点。将前面感知机所输出的目标特征向量D升维到×/>×C，得到升维特征向量；基于预设的标准维度数据，通过1×1卷积将/>×/>×C的通道维度下降为k， k为待预测关键点的数量，对升维特征集合进行数据通道降维处理，得到目标降维向量。在本实施中有87个关键点。网络的最终输出的关键点热图维度为/>×/>×k，其中关键点热图的长宽为原输出图像宽高的四分之一，通过目标降维向量进行关键点热图构建，生成关键点热图数据，并通过关键点热图数据生成初始关键点位置预测结果。本发明所选择的层数以及各层的通道数不构成本发明申请方案的限定。

上面对本发明实施例中基于矢状位图的关键点识别方法进行了描述，下面对本发明实施例中基于矢状位图的关键点识别系统进行描述，请参阅图5，本发明实施例中基于矢状位图的关键点识别系统一个实施例包括：

采集模块501，用于采集历史X-ray矢状位图像集，对所述历史X-ray矢状位图像集中每一历史X-ray矢状位图像进行标注处理，得到候选X-ray矢状位图像集，并对所述候选X-ray矢状位图像集进行预处理，得到目标X-ray矢状位图像集；

搭建模块502，用于搭建初始关键点识别模型，其中，所述初始关键点识别模型包括初始Transformer特征提取骨干网络以及初始关键点检测头网络；

训练模块503，用于通过所述目标X-ray矢状位图像集对所述初始关键点识别模型进行模型训练，得到目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络；

识别模块504，用于获取目标X-ray矢状位图像，并将所述目标X-ray矢状位图像输入所述目标关键点识别模型进行关键点位置识别，得到关键点坐标集合。

通过上述各个组成部分的协同合作，采集历史X-ray矢状位图像集，对所述历史X-ray矢状位图像集中每一历史X-ray矢状位图像进行标注处理，得到候选X-ray矢状位图像集，并对所述候选X-ray矢状位图像集进行预处理，得到目标X-ray矢状位图像集；搭建初始关键点识别模型，其中，所述初始关键点识别模型包括初始Transformer特征提取骨干网络以及初始关键点检测头网络；通过所述目标X-ray矢状位图像集对所述初始关键点识别模型进行模型训练，得到目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络；获取目标X-ray矢状位图像，并将所述目标X-ray矢状位图像输入所述目标关键点识别模型进行关键点位置识别，得到关键点坐标集合。在本发明中，使用自注意力机制，自注意力机制可以模拟长距离关系，对输入进行全局建模，学习获得全局信息，有助于模型专注于识别关键点的最相关特征，从而扩大所识别的结构大小，提高关键点识别的准确性。有效解决CNN卷积核大小限制感受野的问题。此外，基于Transformer特征提取骨干网络的关键点识别架构方法参数量大，拟合能力强。

上面图5从模块化功能实体的角度对本发明实施例中的基于矢状位图的关键点识别系统进行详细描述，下面从硬件处理的角度对本发明实施例中基于矢状位图的关键点识别设备进行详细描述。

图6是本发明实施例提供的一种基于矢状位图的关键点识别设备的结构示意图，该基于矢状位图的关键点识别设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）610（例如，一个或一个以上处理器）和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基于矢状位图的关键点识别设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在基于矢状位图的关键点识别设备600上执行存储介质630中的一系列指令操作。

基于矢状位图的关键点识别设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的基于矢状位图的关键点识别设备结构并不构成对基于矢状位图的关键点识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于矢状位图的关键点识别设备，所述基于矢状位图的关键点识别设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于矢状位图的关键点识别方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于矢状位图的关键点识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random acceS memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于矢状位图的关键点识别方法，其特征在于，所述基于矢状位图的关键点识别方法包括：

采集历史X-ray矢状位图像集，对所述历史X-ray矢状位图像集中每一历史X-ray矢状位图像进行标注处理，得到候选X-ray矢状位图像集，并对所述候选X-ray矢状位图像集进行预处理，得到目标X-ray矢状位图像集；具体包括：采集历史X-ray矢状位图像集，分别对所述历史X-ray矢状位图像集中每个历史X-ray矢状位图像进行关键点标注，得到历史X-ray矢状位图像集对应的关键点坐标集合；基于预设的关键点类型，对所述关键点坐标集合中每个类型的关键点进行标注位置分析，确定每个类型的关键点对应的目标关键点位置数据；基于预设的部位位置信息，对每个类型的关键点对应的目标关键点位置数据进行部位标签标注，得到候选X-ray矢状位图像集；对所述候选X-ray矢状位图像集中每个候选X-ray矢状位图像进行灰度增强处理，得到第一X-ray矢状位图像集；对所述第一X-ray矢状位图像集进行像素值标准化处理，得到第二X-ray矢状位图像集；对所述第二X-ray矢状位图像集进行图像增强处理，得到第三X-ray矢状位图像集；对所述第三X-ray矢状位图像集进行等比缩放处理，得到所述目标X-ray矢状位图像集；

通过所述目标X-ray矢状位图像集对所述初始关键点识别模型进行模型训练，得到目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络；具体包括：基于自注意力机制，将所述目标X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络中进行特征提取，得到全局特征向量；将所述全局特征向量输入所述初始关键点检测头网络进行关键点位置预测，生成初始关键点位置预测结果；基于所述初始关键点位置预测结果，通过预设的损失函数对所述初始关键点识别模型进行模型参数权重调整，生成目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络；其中，得到全局特征向量，包括：基于所述自注意力机制，将所述目标X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络进行椎体特征提取，得到多个不同部位椎体对应的椎体特征；对多个所述不同部位椎体对应的椎体特征进行长距离关系模拟分析，生成目标长距离关系数据；基于所述目标长距离关系数据对多个所述不同部位椎体对应的椎体特征进行全局向量映射，得到全局特征向量；其中，得到多个不同部位椎体对应的椎体特征，包括：将所述目标X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络，通过初始Transformer特征提取骨干网络对所述目标X-ray矢状位图像集中每个目标X-ray矢状位图像进行图像划分，得到每个目标X-ray矢状位图像对应的多个互不重叠的窗口图像；分别对每个目标X-ray矢状位图像对应的多个互不重叠的窗口图像进行自注意力计算，得到自注意力数据集合；基于所述自注意力数据集合对进行所述目标X-ray矢状位图像集进行椎体特征分析，得到多个不同部位椎体对应的椎体特征；其中，生成初始关键点位置预测结果，包括：将所述全局特征向量输入所述初始关键点检测头网络的多层感知机的输入层，其中，所述多层感知机包括：输入层、第一全连接层、第二全连接层、Relu激活层以及输出层；对所述全局特征向量中每个全局特征向量进行向量拉直运算，得到列向量；将所述列向量输入所述第一全连接层进行第一特征映射处理，得到第一映射特征；将所述第一映射特征输入所述第二全连接层进行第二特征映射处理，得到第二映射特征；将所述第二映射特征输入所述Relu激活层进行特征拟合处理，并获取从所述输出层输出的目标特征向量；通过所述目标特征向量对所述目标X-ray矢状位图像集进行关键点位置预测，生成初始关键点位置预测结果；所述通过所述目标特征向量对所述目标X-ray矢状位图像集进行关键点位置预测，生成初始关键点位置预测结果，包括：将所述目标特征向量输入所述关键点检测头网络的头部网络的第一卷积层进行向量维度一致性处理，得到第一卷积特征；其中，所述头部网络包括：第一卷积层以及第二卷积层；将所述第一卷积特征输入所述第二卷积层进行数据升维处理，得到升维特征向量，同时，基于预设的标准维度数据，对所述升维特征集合进行数据通道降维处理，得到目标降维向量；通过所述目标降维向量进行关键点热图构建，生成关键点热图数据，并通过所述关键点热图数据生成所述初始关键点位置预测结果；

2.一种基于矢状位图的关键点识别系统，其特征在于，所述基于矢状位图的关键点识别系统包括：

采集模块，用于采集历史X-ray矢状位图像集，对所述历史X-ray矢状位图像集进行预处理，得到候选X-ray矢状位图像集，并对所述候选X-ray矢状位图像集中每一图像进行关键点标注，得到目标X-ray矢状位图像集；具体包括：采集历史X-ray矢状位图像集，分别对所述历史X-ray矢状位图像集中每个历史X-ray矢状位图像进行关键点标注，得到历史X-ray矢状位图像集对应的关键点坐标集合；基于预设的关键点类型，对所述关键点坐标集合中每个类型的关键点进行标注位置分析，确定每个类型的关键点对应的目标关键点位置数据；基于预设的部位位置信息，对每个类型的关键点对应的目标关键点位置数据进行部位标签标注，得到候选X-ray矢状位图像集；对所述候选X-ray矢状位图像集中每个候选X-ray矢状位图像进行灰度增强处理，得到第一X-ray矢状位图像集；对所述第一X-ray矢状位图像集进行像素值标准化处理，得到第二X-ray矢状位图像集；对所述第二X-ray矢状位图像集进行图像增强处理，得到第三X-ray矢状位图像集；对所述第三X-ray矢状位图像集进行等比缩放处理，得到所述目标X-ray矢状位图像集；

训练模块，用于通过所述目标X-ray矢状位图像集对所述初始关键点识别模型进行模型训练，得到目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络；具体包括：基于自注意力机制，将所述目标X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络中进行特征提取，得到全局特征向量；将所述全局特征向量输入所述初始关键点检测头网络进行关键点位置预测，生成初始关键点位置预测结果；基于所述初始关键点位置预测结果，通过预设的损失函数对所述初始关键点识别模型进行模型参数权重调整，生成目标关键点识别模型，其中，所述目标关键点识别模型包括目标Transformer特征提取骨干网络以及目标关键点检测头网络；其中，得到全局特征向量，包括：基于所述自注意力机制，将所述目标X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络进行椎体特征提取，得到多个不同部位椎体对应的椎体特征；对多个所述不同部位椎体对应的椎体特征进行长距离关系模拟分析，生成目标长距离关系数据；基于所述目标长距离关系数据对多个所述不同部位椎体对应的椎体特征进行全局向量映射，得到全局特征向量；其中，得到多个不同部位椎体对应的椎体特征，包括：将所述目标X-ray矢状位图像集输入所述初始Transformer特征提取骨干网络，通过初始Transformer特征提取骨干网络对所述目标X-ray矢状位图像集中每个目标X-ray矢状位图像进行图像划分，得到每个目标X-ray矢状位图像对应的多个互不重叠的窗口图像；分别对每个目标X-ray矢状位图像对应的多个互不重叠的窗口图像进行自注意力计算，得到自注意力数据集合；基于所述自注意力数据集合对进行所述目标X-ray矢状位图像集进行椎体特征分析，得到多个不同部位椎体对应的椎体特征；其中，生成初始关键点位置预测结果，包括：将所述全局特征向量输入所述初始关键点检测头网络的多层感知机的输入层，其中，所述多层感知机包括：输入层、第一全连接层、第二全连接层、Relu激活层以及输出层；对所述全局特征向量中每个全局特征向量进行向量拉直运算，得到列向量；将所述列向量输入所述第一全连接层进行第一特征映射处理，得到第一映射特征；将所述第一映射特征输入所述第二全连接层进行第二特征映射处理，得到第二映射特征；将所述第二映射特征输入所述Relu激活层进行特征拟合处理，并获取从所述输出层输出的目标特征向量；通过所述目标特征向量对所述目标X-ray矢状位图像集进行关键点位置预测，生成初始关键点位置预测结果；所述通过所述目标特征向量对所述目标X-ray矢状位图像集进行关键点位置预测，生成初始关键点位置预测结果，包括：将所述目标特征向量输入所述关键点检测头网络的头部网络的第一卷积层进行向量维度一致性处理，得到第一卷积特征；其中，所述头部网络包括：第一卷积层以及第二卷积层；将所述第一卷积特征输入所述第二卷积层进行数据升维处理，得到升维特征向量，同时，基于预设的标准维度数据，对所述升维特征集合进行数据通道降维处理，得到目标降维向量；通过所述目标降维向量进行关键点热图构建，生成关键点热图数据，并通过所述关键点热图数据生成所述初始关键点位置预测结果；

3.一种基于矢状位图的关键点识别设备，其特征在于，所述基于矢状位图的关键点识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于矢状位图的关键点识别设备执行如权利要求1所述的基于矢状位图的关键点识别方法。

4.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1所述的基于矢状位图的关键点识别方法。