CN116342516B

CN116342516B - 基于模型集成的儿童手骨x光图像骨龄评估方法及系统

Info

Publication number: CN116342516B
Application number: CN202310261469.XA
Authority: CN
Inventors: 郑欣; 田博; 江泽宇; 李娟�; 周頔; 阮茂良; 何怡; 杨浩云
Original assignee: SICHUAN UNIVERSITY OF ARTS AND SCIENCE
Current assignee: SICHUAN UNIVERSITY OF ARTS AND SCIENCE
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2024-04-16
Anticipated expiration: 2043-03-17
Also published as: CN116342516A

Abstract

本发明提出了一种基于模型集成的儿童手骨X光图像骨龄评估方法及系统。该方法为：获取儿童手骨X光图像集；构建骨龄预测网络，所述骨龄预测网络包括手骨分割子网络、第一骨龄预测子网络、第二骨龄预测子网络以及骨龄融合模块，所述第一骨龄预测子网络的层数多于所述第二骨龄预测子网络的层数；将儿童手骨X光图像集于手骨分割子网络中提取手骨区域,得到手骨区域的图像集，将提取到的手骨区域的图像与性别信息一起分别于第一骨龄预测子网络、第二骨龄预测子网络中进行训练预测，将第一骨龄预测子网络、第二骨龄预测子网络预测得到的骨龄于所述骨龄融合模块中进行融合，输出最终的骨龄预测值。该方法能取得更好的骨龄预测性能。

Description

基于模型集成的儿童手骨X光图像骨龄评估方法及系统

技术领域

本发明涉及人工智能计算机视觉和深度学习图像处理技术领域，具体涉及一种基于模型集成的儿童手骨X光图像骨龄评估方法及系统。

背景技术

儿童骨龄评估在儿科临床诊断、儿童的成年身高预测、体育竞技等领域有着广泛应用。由于手腕部最能代表骨骼发育程度与生长潜力，所以手腕部在儿童骨龄测评中最为常用。

传统骨龄评估方法可以分为两种类型，包括Greulich-Pyle图谱法和Tanner-White-house计分法。这些方法都需要医生通过读取骨骺和干骺端发育状况的形态特点进行骨龄评估，对评估者的专业技能要求较高。此外，人工读片、分析及推断骨龄均存在耗时长、误差较大、一致性欠佳等明显弊端。对同一张X光手骨图像，同一个阅片者不同时间的判定结果、不同阅片者之间的判定结果均存在较大差异。

随着计算机视觉技术的发展，智能骨龄评估方法逐渐兴起。早期的智能评估方法是对人工评估使用的特征进行自动提取，并且大多使用私有数据集测试，但这样得到的预测结果准确性非常的差。近年来，深度学习技术在计算机视觉领域取得了突破性进展。作为深度学习的代表性方法，卷积神经网络(convolutional neural networks,CNN)能够自动、快速地从图像中提取关键特征，取代了基于先验知识的传统特征提取方法。基于CNN进行小儿骨龄评估的研究也呈现出快速增长趋势，提高了骨龄评估精度，但这依然存在不足，究其原因大多为未充分发挥骨干网络的结构优势，未充分学习手骨区域的语义特征等。为了获得更加精确的骨龄评估结果，急需一种精度更高的骨龄评估方法。

发明内容

为了克服上述现有技术中存在的缺陷，本发明的目的是提供一种基于模型集成的儿童手骨X光图像骨龄评估方法及系统。

为了实现本发明的上述目的，本发明提供了一种基于模型集成的儿童手骨X光图像骨龄评估方法，包括以下步骤：

获取儿童手骨X光图像集；

构建骨龄预测网络，所述骨龄预测网络包括手骨分割子网络、第一骨龄预测子网络、第二骨龄预测子网络以及骨龄融合模块，所述第一骨龄预测子网络的层数多于所述第二骨龄预测子网络的层数；

将儿童手骨X光图像集于手骨分割子网络中提取手骨区域,得到手骨区域的图像集，将提取到的手骨区域的图像与性别信息一起分别于第一骨龄预测子网络、第二骨龄预测子网络中进行训练预测，将第一骨龄预测子网络、第二骨龄预测子网络预测得到的骨龄于所述骨龄融合模块中进行融合，输出最终的骨龄预测值。

该方法考虑了性别信息来弥补男性与女性在生理上的骨龄差异，并用采用两个不同结构的骨龄预测子网络进行骨龄回归，第一骨龄预测子网络侧重于捕获更加丰富和更加复杂的高阶特征，第二骨龄预测子网络侧重于捕获较为直观的低阶特征，能取得更好的骨龄预测性能。

该基于模型集成的儿童手骨X光图像骨龄评估方法的优选方案：所述手骨区域经M个第一可变卷积网络进行特征提取和尺度变换后获得的特征，与性别信息融合后，再经过两个密集连接层及一个全连接层，输出第一骨龄预测子网络的预测骨龄；

其中，每个所述第一可变卷积网络的网络层数有若干层，所述第一可变卷积网络包括多层感知注意力模块和聚合注意力模块，所述多层感知注意力模块、聚合注意力模块采用并行或串行连接，捕获手骨区域中的关键有效特征。

该优选方案中，第一骨龄预测子网络能够针对不同特征的图像数据，设置每个第一可变卷积网络的网络层数，进而提升骨龄预测网络的性能，且第一可变卷积网络在可变卷积网络的基础上，引入注意力机制，即多层感知注意力模块、聚合注意力模块，使得第一骨龄预测子网络可从不同维度细化特征，从而提取到更深层次、更有效表征骨龄的关键特征，两个密集连接层的设置为第一骨龄预测子网络提供了更多的学习参数，便于在训练时进行调，提高了骨龄评估的精度。

该基于模型集成的儿童手骨X光图像骨龄评估方法的优选方案：所述手骨区域与性别信息一起于第二骨龄预测子网络进行训练预测时，

所述手骨区域经N个第二可变卷积网络进行特征提取和尺度变换后获得特征，与性别信息融合后，再经过两个密集连接层及一个全连接层，输出第二骨龄预测子网络的预测骨龄；

其中，每个所述第二可变卷积网络的网络层数有若干层，所述第二可变卷积网络包括多层感知注意力模块和聚合注意力模块，所述多层感知注意力模块、聚合注意力模块采用并行或串行连接，捕获手骨区域中的关键有效特征。

该优选方案中第二骨龄预测子网络能够针对不同特征的图像数据，设置每个第二可变卷积网络的网络层数，进而提升骨龄预测网络的性能，且第二可变卷积网络在可变卷积网络的基础上，引入注意力机制，即多层感知注意力模块、聚合注意力模块，使得第二骨龄预测子网络可从不同维度细化特征，从而提取到更深层次、更有效表征骨龄的关键特征，两个密集连接层的设置为第二骨龄预测子网络提供了更多的学习参数，便于在训练时进行调，提高了骨龄评估的精度。

该基于模型集成的儿童手骨X光图像骨龄评估方法的优选方案：骨龄融合模块按以下公式进行骨龄预测：

其中，BA为最终的骨龄预测值，BA_H是第一骨龄预测子网络输出的骨龄预测值，BA_L是第二骨龄预测子网络输出的骨龄预测值，κ_H是第一骨龄预测子网络输出的骨龄预测值BA_H的权重，κ_L是第二骨龄预测子网络输出的骨龄预测值BA_L的权重，κ是修正值权重，MAE_H是第一骨龄预测子网络输出的骨龄预测值BA_H的绝对方差，MAE_L是第二骨龄预测子网络输出的骨龄预测值BA_L的绝对方差。

该优选方案对两个骨龄预测子网络赋予相关权重，并且考虑两个骨龄预测子网络预测结果的绝对方差，对骨龄预测结果进行进一步的修正，且该修正值也可以通过修正值权重κ进行调节。

该基于模型集成的儿童手骨X光图像骨龄评估方法的优选方案：所述第一骨龄预测子网络和第二骨龄预测子网络均选取均方根误差RMSE作为损失函数，其中N为样本个数，/>为第一骨龄预测子网络或第二骨龄预测子网络预测骨龄结果，y_i为对应标注真实值。

该基于模型集成的儿童手骨X光图像骨龄评估方法的优选方案：定义输入多层感知注意力模块的特征图为CF_IN,维度为H×W×C，当CF_IN输入所述多层感知注意力模块时，CF_IN首先分别经最大池化和平池化生成两个尺度为1×1×C的特征图，其中，最大池化保留图像的局部典型特征，平均池化保留图像整体分布信息，然后这两个尺度为1×1×C的特征图分别通过多层感知器压缩特征尺寸，将多层感知器的两路输出相加并Sigmoid归一化，得到多层感知注意力权重A_MPAM，所述多层感知注意力权重A_MPAM与输入的CF_IN相乘得到多层感知注意力模块的输出特征CF_OUT，

CF_OUT＝CF_IN×A_MPAM＝CF_IN×(Fs(F_mlp(F_max(CF_IN)))⊕F_s(F_mlp(F_avg(CF_IN))))，其中，F_s表示Sigmoid归一化，F_mlp表示MLP操作，F_max表示最大池化操作，F_avg表示平均池化操作，⊕表示特征通道逐元素相加，通道数量不变。

其中，所述多层感知注意力模块的卷积核尺寸k通过输入特征图的通道数量C进行自适应选择，以聚合不同空间位置的相似特征，两者的对应关系如下式所示：

其中，<·>_odd表示取最接近运算结果的奇数。

该优选方案中多层感知注意力模块可自适应校准通道特征权重，强化了网络对通道特征的提取能力，且该多层感知注意力模块可辨识特征图中的特异性通道，并为聚合注意力模块提供增强的关键特征信息。

该基于模型集成的儿童手骨X光图像骨龄评估方法的优选方案：定义输入聚合注意力模块的特征图为SF_IN,维度为H×W×C'，当SF_IN输入所述聚合注意力模块时，SF_IN首先分别经最大池化和平池化生成两个特征图，将这两个特征图进行特征拼接，得到尺度为H×W×2的位置权重，再经v×v卷积降维和Sigmoid归一化，得到聚合注意力权重A_FAM，聚合注意力权重A_FAM与输入SF_IN相乘得到聚合注意力模块的输出SF_OUT，

SF_OUT＝SF_IN×A_FAM＝SF_IN×(F_s(F_v×v,conv(F_max(SF_IN)))⊙(F_avg(SF_IN)))，其中，F_s表示Sigmoid

归一化，F_v×v,conv表示v×v卷积降维操作，F_max表示最大池化操作，F_avg表示平均池化操作，⊙表示通道拼接，通道数量改变。

其中，所述聚合注意力模块的卷积核尺寸w通过输入特征图的通道数量C’进行自适应选择，以聚合不同空间位置的相似特征，两者的对应关系如下式所示：

其中，<·>_odd表示取最接近运算结果的奇数。

该优选方案中，聚合注意力模块可使网络提取特征的重点聚焦在有意义的位置，提升了网络对手骨X光图像中关键特征区域的灵敏度。

本发明还提出了一种儿童手骨X光图像骨龄评估系统，包括图像接收模块、处理模块和存储模块，所述图像接收模块接收用于训练或待评估的图像，并将接收到的图像发送至处理模块，所述处理模块与存储模块通信连接，所述存储模块用于存放至少一个可执行指令，所述可执行指令使所述处理模块根据其接收到的图像执行如上述的基于模型集成的儿童手骨X光图像骨龄评估方法对应的操作。该系统具备上述基于模型集成的儿童手骨X光图像骨龄评估方法的所有优点。

本发明的有益效果是：本发明采用手骨分割子网络去除原图像中的背景区域，分割出手骨图像区域，使得第一骨龄预测子网络、第二骨龄预测子网络能够聚焦于包含关键特征的手骨区域，以提高骨龄评估的性能络；第一骨龄预测子网络、第二骨龄预测子网络在可变卷积网络的基础上增加了注意力机制(多层感知注意力模块、聚合注意力模块)，使得网络可从多个独立维度细化特征，从而提取到更深层次、更有效的特征；并引入性别信息，让网络平衡不同性别之间的手骨发育程度差异，提高细粒度关注；最后利用骨龄融合模块对第一骨龄预测子网络、第二骨龄预测子网络的输出进行融合，可大幅提高儿童骨龄评估的精度。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的整体框架示意图；

图2是手骨分割子网络结构示意图；

图3是第一骨龄预测子网络BAPN-H的结构示意图；

图4是第二骨龄预测子网络BAPN-L的结构示意图；

图5(a)是MPAM与FAM并行连接示意图；

图5(b)是MPAM与FAM的一种串行连接示意图；

图5(c)是MPAM与FAM的另一种串行连接示意图；

图6是MPAM模块结构示意图；

图7是FAM模块结构示意图；

图8是RSNA数据集中年龄及性别分布图；

图9是性别因素对骨龄评估的影响对比示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明提供了一种基于模型集成的儿童手骨X光图像骨龄评估方法，包括以下步骤：

获取儿童手骨X光图像集。本实施例中的儿童手骨X光图像集集取自2017年北美放射学会(Radiological Society of North America,RSNA)举办的儿童骨龄挑战比赛公开数据集。数据集包含14236张1～228个月的儿童手骨X光图像，其中训练集12611张，验证集1425张，测试集200张，数据集详情如图8所示。这些图像被六位放射科医生标记，附有临床放射学报告提供的骨骼年龄和性别。将训练集用于模型训练，验证集用于监控训练过程并反馈实时训练性能，测试集则对完成训练的模型进行评估。

构建骨龄预测网络，所述骨龄预测网络包括手骨分割子网络、第一骨龄预测子网络、第二骨龄预测子网络以及骨龄融合模块。

将儿童手骨X光图像集于手骨分割子网络中提取手骨区域，得到手骨区域的图像集，本实施例中，手骨分割子网络采用Mask R-CNN模型从儿童手骨X光图像中提取手部区域，去除背景信息。

Mask R-CNN是一个两阶段分割框架，第一阶段扫描图像并生成建议区域(regionproposal networks，RPN)，第二阶段对建议区域分类并生成边界框(bounding box)和掩膜(mask)。Mask R-CNN扩展自目标检测框架Faster R-CNN，如图2所示。Mask R-CNN在FasterR-CNN的基础上添加了一个预测分割掩膜的分支，即FCN层(fully convolutionalnetworks，FCN)。Mask R-CNN还引入了特征金字塔网络(feature pyramid networks，FPN)，实现底层到高层feature map的融合，以充分利用各阶段的特征。此外，将Faster R-CNN中的RoI Pooling层替换成RoI Align层。ROI Align使用双线性内插法(bi-linearinterpolation)获得坐标为浮点数的像素值，从而解决了ROI Pooling中的不匹配(misalignment)。

根据图1，手骨分割子网络从儿童手骨X光图像中提取出完整手骨区域，然后将提取到的手骨区域的图像与性别信息一起分别于第一骨龄预测子网络BAPN-H、第二骨龄预测子网络BAPN-L中进行训练预测，将第一骨龄预测子网络BAPN-H、第二骨龄预测子网络BAPN-L预测得到的骨龄于骨龄融合模块中进行融合，输出最终的骨龄预测值BA。

本实施例中，第一骨龄预测子网络BAPN-H、第二骨龄预测子网络BAPN-L均采用结合注意力机制的可变卷积网络。该可变卷积网络采用可变卷积网络作为骨干网络，然后引入多层感知注意力模块MPAM、聚合注意力模块FAM。同时，考虑了性别信息来弥补男性与女性在生理上的骨龄差异。需要注意的是，为了取得更好的骨龄预测性能，第一骨龄预测子网络BAPN-H、第二骨龄预测子网络BAPN-L是两个不同结构的网络，第一骨龄预测子网络BAPN-H的层数多于第二骨龄预测子网络BAPN-L的层数，具体地说，第一骨龄预测子网络BAPN-H采用层数较深的卷积网络，侧重于捕获更加丰富和更加复杂的高阶特征；第二骨龄预测子网络BAPN-L采用层数较浅的卷积网络，侧重于捕获较为直观的低阶特征。

具体的，第一骨龄预测子网络BAPN-H的工作流程如图3所示，手骨区域的图像经M个第一可变卷积网络AMVCN-H进行特征提取和尺度变换后获得的特征，M为正整数，本实施例中优选但不限于为4，与性别信息融合后，再经过两个密集连接层Dense Layer及一个全连接层Full Connection layer，输出第一骨龄预测子网络的预测骨龄BA_H。

如图3所示，手骨区域的图像经四个第一可变卷积网络AMVCN-H(AMVCN-H[1]、AMVCN-H[2]、AMVCN-H[3]、AMVCN-H[4])的特征提取和尺度变换，每个第一可变卷积网络AMVCN-H中的网络层数(即卷积单元数)有若干层，分别对应为Num_H1、Num_H2、Num_H3、Num_H4，Num_H1、Num_H2、Num_H3、Num_H4可进行编辑，其优选值分别依次为4、10、10、4。本实施例中，第一可变卷积网络AMVCN-H是向可变卷积网络VCN引入双重注意力机制(多层感知注意力模块(Multi-layer Perceptual Attention Module，MPAM)和聚合注意力模块(FocusingAttention Module，FAM))构成的基于注意力机制的可变卷积网络模块AMVCN，多层感知注意力模块MPAM、聚合注意力模块FAM两者可采用并行或串行的方式连接，以捕获手骨图像区域中的关键有效特征，如图5(a)至图5(c)，分别给出了串行和并行的三种连接方式。其中，输入特征F_in经特征分组(router)划分为G个子特征组，在组内分别学习每组特征图的通道特征和空间特征，输出特征F_out。表1描述了第一骨龄预测子网络BAPN-H的操作流程及特征图尺度变换过程，该表中每个第一可变卷积网络AMVCN-H的每一层是由Conv1X1，Conv3X3，Conv1X1模块串行连接，然后接上多层感知注意力模块MPAM、聚合注意力模块FAM，其中，Conv1X1，是1X1卷积模块，有2个；Conv3X3是3X3卷积模块，有1个。如用F_OH表示第一可变卷积网络AMVCN-H的输出特征向量，用F_IH表示第一可变卷积网络AMVCN-H的输入特征向量，则有：

其中，CBlock×<A_MPAM,A_FAM>代表/>对输入特征向量的相关操作，代表3个卷积层(即Conv1X1，Conv3X3和Conv1X1)串连，<A_MPAM,A_FAM>代表多层感知注意力模块MPAM与聚合注意力模块FAM的连接，当该连接采用如图5(c)中所示的优选方案(MPAM模块串联FAM模块)时，其表达式为：<A_MPAM,A_FAM>＝A_MPAM×A_FAM，其中，A_MPAM为多层感知注意力模块MPAM的注意力权重，A_FAM为聚合注意力模块的注意力权重。

表1第一骨龄预测子网络BAPN-H网络结构

下面对多层感知注意力模块MPAM、聚合注意力模块FAM的进行介绍。

定义输入多层感知注意力模块MPAM的特征图为CF_IN,维度为H×W×C。如图6所示，当CF_IN输入所述多层感知注意力模块MPAM时，CF_IN首先分别经最大池化和平池化生成两个尺度为1×1×C的特征图，其中，最大池化保留图像的局部典型特征，平均池化保留图像整体分布信息，然后这两个尺度为1×1×C的特征图分别通过多层感知器MLP压缩特征尺寸，减小参数开销，将多层感知器MLP的两路输出相加并Sigmoid归一化，得到多层感知注意力权重A_MPAM，多层感知注意力权重A_MPAM与输入的CF_IN相乘得到多层感知注意力模块MPAM的输出特征CF_OUT。

计算过程如下式：

CF_OUT＝CF_IN×A_MPAM＝CF_IN×(F_s(F_mlp(F_max(CF_IN)))⊕F_s(F_mlp(F_avg(CF_IN))))，其中，F_s表示Sigmoid归一化，F_mlp表示MLP操作，F_max表示最大池化操作，F_avg表示平均池化操作，⊕表示特征通道逐元素相加，通道数量不变。为了实现合适的跨通道交互作用，多层感知注意力模块MPAM的卷积核尺寸k通过输入特征图CF_IN的通道数量C进行自适应选择，以聚合不同空间位置的相似特征，两者的对应关系如下式所示：

其中，<·>_odd表示取最接近运算结果的奇数。

定义输入聚合注意力模块FAM的特征图为SF_IN,维度为H×W×C'。如图7所示，当SF_IN输入所述聚合注意力模块FAM时，SF_IN首先分别经最大池化和平池化生成两个特征图，将这两个特征图进行特征拼接，得到尺度为H×W×2的位置权重，再经v×v卷积降维和Sigmoid归一化，得到聚合注意力权重A_FAM，聚合注意力权重A_FAM与输入SF_IN相乘得到聚合注意力模块FAM的输出SF_OUT。计算过程如下式所示：

SF_OUT＝SF_IN×A_FAM＝SF_IN×(F_s(F_v×v,conv(F_max(SF_IN)))⊙(F_avg(SF_IN)))，其中，F_s表示Sigmoid归一化，F_v×v,conv表示v×v卷积降维操作，F_max表示最大池化操作，F_avg表示平均池化操作，⊙表示通道拼接，通道数量改变。为了实现有效的空间聚合作用，聚合注意力模块FAM的卷积核尺寸w通过输入特征图的通道数量C’进行自适应选择，以聚合不同空间位置的相似特征，两者的对应关系如下式所示：

其中，<·>_odd表示取最接近运算结果的奇数。

由上述可知，本实施例中第一骨龄预测子网络BAPN-H中各第一可变卷积网络AMVCN-H的网络层数可变，第一可变卷积网络AMVCN-H中多层感知注意力模块MPAM、聚合注意力模块FAM中的卷积核的尺度可变。

第二骨龄预测子网络BAPN-L的工作流程如图4所示，手骨区域的图像经N个第二可变卷积网络AMVCN-L进行特征提取和尺度变换后获得特征，N为正整数，且N小于M，本实施例中N优选但不限于为3，与性别信息融合后，再经过两个密集连接层Dense Layer及一个全连接层Full Connection layer，输出第二骨龄预测子网络的预测骨龄BA_L。

手骨区域的图像经三个第二可变卷积网络AMVCN-L(AMVCN-L[1]、AMVCN-L[2]、AMVCN-L[3])的特征提取和尺度变换，各第二可变卷积网络的网络层数(即卷积单元数)有若干层，分别为Num_L1、Num_L2、Num_L3，Num_L1、Num_L2、Num_L3可进行编辑，其优选值分别为3、6、3。在本实施例中，第二可变卷积网络AMVCN-L是向可变卷积网络VCN引入双重注意力机制(多层感知注意力模块MPAM和聚合注意力模块FAM)构成的基于注意力机制的可变卷积网络模块AMVCN，多层感知注意力模块MPAM、聚合注意力模块FAM两者可采用并行或串行等方式连接，以捕获手骨图像区域中的关键有效特征，如图5(a)至图5(c)，分别给出了串行和并行的三种连接方式。其中，输入特征F_in经特征分组(router)划分为G个子特征组，在组内分别学习每组特征图的通道特征和空间特征，输出特征F_out。表2描述了第二骨龄预测子网络BAPN-L的操作流程及特征图尺度变换过程，该表中每个第二可变卷积网络AMVCN-L的每一层是由Conv1X1，Conv3X3，Conv1X1模块串行连接，然后接上多层感知注意力模块MPAM、聚合注意力模块FAM，其中，Conv1X1，是1X1卷积模块，有2个；Conv3X3是3X3卷积模块，有1个。如用F_OL表示第一可变卷积网络AMVCN-H的输出特征向量，用F_IL表示第一可变卷积网络AMVCN-H的输入特征向量，则有：

表2第二骨龄预测子网络BAPN-L网络结构

这里多层感知注意力模块MPAM、聚合注意力模块FAM的实现方式参考前述记载，此处不再详述。

由上述可知，本实施例中第二骨龄预测子网络BAPN-L中各第二可变卷积网络AMVCN-L的网络层数可变，第二可变卷积网络AMVCN-L中多层感知注意力模块MPAM、聚合注意力模块FAM中的卷积核的尺度可变。

在第一骨龄预测子网络BAPN-H、第二骨龄预测子网络BAPN-L的训练过程中，加入性别信息时，将性别特征(男性为1，女性为0)通过一个具有32个神经元的密集连接层，和最后一个第一可变卷积网络AMVCN-H或第二可变卷积网络AMVCN-L输出的图像特征进行融合，然后再接入两个密集连接单元，本实施例中这两个密集连接单元都由1024个神经元紧密连接的ReLU激活层及Dropout(0.2)层馈入，最后一个全连接层是由一个线性激活的神经元构成的全连接层，用来预测骨龄，如图3、图4所示。这里的两个密集连接单元为第一骨龄预测子网络BAPN-H或第二骨龄预测子网络BAPN-L提供了更多的学习参数，以便在训练时进行调整，同时，增加的Dropout层能够防止网络过拟合，提升网络的泛化能力。

获取了第一骨龄预测子网络BAPN-H输出的骨龄预测值BA_H，第二骨龄预测子网络BAPN-L输出的骨龄预测值BA_L后，骨龄融合模块按以下公式进行骨龄预测，获取最终输出的骨龄预测值BA。

其中，κ_H是第一骨龄预测子网络输出的骨龄预测值BA_H的权重，κ_L是第二骨龄预测子网络输出的骨龄预测值BA_L的权重，κ是修正值权重，取值范围[-1,1]，默认取值0，MAE_H是第一骨龄预测子网络输出的骨龄预测值BA_H的绝对方差，MAE_L是第二骨龄预测子网络输出的骨龄预测值BA_L的绝对方差，修正值/>可以通过修正值权重κ进行调节。

骨龄评估作为一项回归任务，评估模型的最终输出结果为具体实数值。本实施例中，第一骨龄预测子网络BAPN-H和第二骨龄预测子网络BAPN-L均选取均方根误差RMSE作为损失函数，其中N为样本个数，/>为第一骨龄预测子网络BAPN-H或第二骨龄预测子网络BAPN-L预测骨龄结果，y_i为对应标注真实值。由该式可知，随着RMSE值减小，模型进行评估结果的优化。

本实施例使用的硬件环境为Intel(R)Core(TM)i7-8700K CPU，四块NVIDIAGeForce RTX 2080Ti(11GB)GPU，内存为64G。软件环境为Ubuntu 16.04操作系统，PyThorch1.7开源框架。网络输入图像尺寸为299×299像素，训练参数设置如下：

(1)手骨分割子网络训练时，采用自适应矩估计算法(adaptive momentestimation,Adam)优化网络，Batch Size设置为2，初始学习率设置为0.001，迭代训练120个epoch，挑选出最优训练模型用于X光图像的手骨区域分割。

(2)第一骨龄预测子网络BAPN-H、第二骨龄预测子网络BAPN-L中，采用自适应矩估计算法优化网络，Batch Size设置为8，初始学习率设置为0.001，迭代训练200个epoch。当验证集的损失值连续10个Epoch没有下降时，按照10％比例调整学习率。挑选出最优训练模型用于测试集的骨龄评估。

评价指标

骨龄评估中，采用平均绝对误差作为评价指标，计算方法如下式所示。MAE的值越小，评估结果越好。

其中，N为样本数量，y_i为标注真实值，/>为各模型评估骨龄结果。

使用不同基准网络的对比实验：

为了选择合适的基准网络进行骨龄评估，本文挑选EfficientNet-B4、Inception-V4、ResNet-101、ResNet-50、DensNet-201、Inception-ResNet-V2和Xception七种经典网络以及本方法进行骨龄评估，并对比评估结果。评估时，对网络结构和数据集不做任何处理，将图像尺寸统一至299×299后输入基准网络，得到表3所示的骨龄评估结果。其中，采用本方法的评估结果在八组网络中表现最佳，其骨龄评估的MAE为7.29个月。

表3不同基准网络的评估误差

基准网络	平均绝对误差(MAE：月)
		EfficientNet-B4	7.68
Inception-V4	8.94
		Inception-V3	9.06
ResNet-101	8.68
		ResNet-50	8.42
DensNet-201	8.48
		Inception-ResNet-V2	8.37
Xception	7.59
		本方法	7.29

骨龄评估的消融实验：

本文的骨龄评估工作分为两个部分，即提取手骨区域和使用AMVCN集成网络进行骨龄回归。为了验证上述模块及相关机制的有效性与必要性，设计了相关消融实验，包括：(1)采用可变卷积网络VCN直接对原始图像进行骨龄评估；(2)先用Mask R-CNN分割手骨区域，再输入可变卷积网络VCN；(3)先用Mask R-CNN分割手骨区域，再输入结合MPAM模块的可变卷积网络VCN；(4)本文方法。消融实验均使用了性别信息，评估精度如表4所示。

表4消融实验的结果

表4中，对原始图像直接采用可变卷积网络VCN进行骨龄评估的MAE是7.05个月，采用Mask R-CNN网络提取手骨区域后，骨龄评估的MAE减小到5.27个月。进一步，引入MPAM模块，骨龄评估的MAE减小到4.84个月。最后，完整引入本文的注意力机制，最终结果的MAE为4.64个月。消融实验结果表明，通过Mask R-CNN网络提取手骨中的三个关键区域，能够有效减少背景信息的干扰，将MPAM、FAM双重注意力机制加入到可变卷积网络VCN中，使网络可以关注到手骨图像区域中更加丰富的关键特征。上述模块及相关机制，均能有效提高骨龄评估的精度。

性别因素对比实验：

儿童生长发育过程中，男性与女性在同一年龄段手部发育成熟程度存在差异，因此我们设计了与性别因素相关的四组骨龄评估实验，包括：(1)对数据集中的男性图像进行骨龄评估；(2)对数据集中的女性图像进行骨龄评估；(3)对数据集中所有图像进行骨龄评估；(4)结合性别信息，对数据集中所有图像进行骨龄评估。上述实验结果如图9所示。

由图9可知，单独对男性和女性进行骨龄评估的MAE分别为4.81和4.96个月，不加入性别信息的骨龄评估的MAE为5.46个月。加入性别信息后，骨龄评估的MAE为4.64个月。对单一性别进行骨龄评估，相比于不加入性别信息，误差分别减小了0.65和0.50个月，而加入性别因素使误差减小了0.82个月。因此，在骨龄评估中加入性别信息，能够有效减小误差，提高评估的精度。

不同深度学习方法对比：

为了说明本文方法在骨龄评估中的先进性，将本方法与近年来具有代表性的多种骨龄评估方法进行了比较。本方法进行骨龄评估的精度最高(MAE最小，为4.64个月)。

本申请还提出了种儿童手骨X光图像骨龄评估系统，包括图像接收模块、处理模块和存储模块，图像接收模块接收用于训练或待评估的图像，并将接收到的图像发送至处理模块，处理模块与存储模块通信连接，存储模块用于存放至少一个可执行指令，可执行指令使所述处理模块根据其接收到的图像执行如本申请所述的基于模型集成的儿童手骨X光图像骨龄评估方法对应的操作。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于模型集成的儿童手骨X光图像骨龄评估方法，其特征在于，包括以下步骤：

获取儿童手骨X光图像集；

将儿童手骨X光图像集于手骨分割子网络中提取手骨区域,得到手骨区域的图像集，将提取到的手骨区域的图像与性别信息一起分别于第一骨龄预测子网络、第二骨龄预测子网络中进行训练预测；

所述手骨区域与性别信息一起于第一骨龄预测子网络进行训练预测时，

所述手骨区域经M个第一可变卷积网络进行特征提取和尺度变换后获得的特征，与性别信息融合后，再经过两个密集连接层及一个全连接层，输出第一骨龄预测子网络的预测骨龄；

其中，每个所述第一可变卷积网络的网络层数有若干层，所述第一可变卷积网络包括多层感知注意力模块和聚合注意力模块，所述多层感知注意力模块、聚合注意力模块采用并行或串行连接，捕获手骨区域中的关键有效特征；

所述手骨区域与性别信息一起于第二骨龄预测子网络进行训练预测时，

其中，每个所述第二可变卷积网络的网络层数有若干层，所述第二可变卷积网络包括多层感知注意力模块和聚合注意力模块，所述多层感知注意力模块、聚合注意力模块采用并行或串行连接，捕获手骨区域中的关键有效特征；

将第一骨龄预测子网络、第二骨龄预测子网络预测得到的骨龄于所述骨龄融合模块中进行融合，输出最终的骨龄预测值；

具体的，骨龄融合模块按以下公式进行骨龄预测：

2.根据权利要求1所述的基于模型集成的儿童手骨X光图像骨龄评估方法，其特征在于，所述第一骨龄预测子网络和第二骨龄预测子网络均选取均方根误差RMSE作为损失函数，其中N为样本个数，/>为第一骨龄预测子网络或第二骨龄预测子网络预测骨龄结果，y_i为对应标注真实值。

3.根据权利要求1所述的基于模型集成的儿童手骨X光图像骨龄评估方法，其特征在于，定义输入多层感知注意力模块的特征图为CF_IN,维度为H×W×C，当CF_IN输入所述多层感知注意力模块时，CF_IN首先分别经最大池化和平池化生成两个尺度为1×1×C的特征图，其中，最大池化保留图像的局部典型特征，平均池化保留图像整体分布信息，然后这两个尺度为1×1×C的特征图分别通过多层感知器压缩特征尺寸，将多层感知器的两路输出相加并Sigmoid归一化，得到多层感知注意力权重A_MPAM，所述多层感知注意力权重A_MPAM与输入的CF_IN相乘得到多层感知注意力模块的输出特征CF_OUT，

其中，F_s表示Sigmoid归一化，F_mlp表示MLP操作，F_max表示最大池化操作，F_avg表示平均池化操作，/>表示特征通道逐元素相加，通道数量不变。

4.根据权利要求3所述的基于模型集成的儿童手骨X光图像骨龄评估方法，其特征在于，所述多层感知注意力模块的卷积核尺寸k通过输入特征图的通道数量C进行自适应选择，以聚合不同空间位置的相似特征，两者的对应关系如下式所示：

其中，<·>_odd表示取最接近运算结果的奇数。

5.根据权利要求1所述的基于模型集成的儿童手骨X光图像骨龄评估方法，其特征在于，定义输入聚合注意力模块的特征图为SF_IN,维度为H×W×C'，当SF_IN输入所述聚合注意力模块时，SF_IN首先分别经最大池化和平池化生成两个特征图，将这两个特征图进行特征拼接，得到尺度为H×W×2的位置权重，再经v×v卷积降维和Sigmoid归一化，得到聚合注意力权重A_FAM，聚合注意力权重A_FAM与输入SF_IN相乘得到聚合注意力模块的输出SF_OUT，

SF_OUT＝SF_IN×A_FAM＝SF_IN×(F_s(F_v×v,conv(F_max(SF_IN)))⊙(F_avg(SF_IN)))，其中，F_s表示Sigmoid归一化，F_v×v,conv表示v×v卷积降维操作，F_max表示最大池化操作，F_avg表示平均池化操作，⊙表示通道拼接，通道数量改变。

6.根据权利要求5所述的基于模型集成的儿童手骨X光图像骨龄评估方法，其特征在于，所述聚合注意力模块的卷积核尺寸w通过输入特征图的通道数量C’进行自适应选择，以聚合不同空间位置的相似特征，两者的对应关系如下式所示：

其中，〈·〉odd表示取最接近运算结果的奇数。

7.一种儿童手骨X光图像骨龄评估系统，其特征在于，包括图像接收模块、处理模块和存储模块，所述图像接收模块接收用于训练或待评估的图像，并将接收到的图像发送至处理模块，所述处理模块与存储模块通信连接，所述存储模块用于存放至少一个可执行指令，所述可执行指令使所述处理模块根据其接收到的图像执行如权利要求1-6任一项所述的基于模型集成的儿童手骨X光图像骨龄评估方法对应的操作。