CN116778587A

CN116778587A - 一种基于深度学习的活体年龄推断方法、设备、存储介质

Info

Publication number: CN116778587A
Application number: CN202310785445.4A
Authority: CN
Inventors: 陶疆; 沈诗慧
Original assignee: Ninth Peoples Hospital Shanghai Jiaotong University School of Medicine
Current assignee: Ninth Peoples Hospital Shanghai Jiaotong University School of Medicine
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-09-19

Abstract

本发明涉及一种基于深度学习的活体年龄推断方法、设备、介质，方法包括如下步骤：获取口腔全景片、CBCT和头颅侧位片并输入预训练好的深度学习模型中，获取活体年龄推断结果，其中，深度学习模型包括：牙龄推断网络，用于基于口腔全景片和CBCT的牙齿部分，通过对二维图像和三维图像进行图像分割重建和特征提取，获取牙龄推断特征；骨龄推断网络，用于基于头颅侧位片CBCT的颈椎部分，通过对二维图像和三维图像进行图像分割重建和特征提取，获取骨龄推断特征；综合推断网络，用于针对牙龄推断特征和骨龄推断特征进行特征融合处理，获取活体年龄推断结果。与现有技术相比，本发明具有牙龄与骨龄融合、预测准确度高、无主观偏差等优点。

Description

一种基于深度学习的活体年龄推断方法、设备、存储介质

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种基于深度学习的活体年龄推断方法、设备、存储介质。

背景技术

活体年龄推断是一种科学鉴定过程，综合考虑青少年身体各系统发育年龄。该程序包括身体检查、骨龄、牙龄、综合评价等步骤。活体年龄推断最早应用于医学和口腔医学领域，用于研究和衡量儿童的生长发育情况、临床疾病的预防和诊断、颌面部的生长发育与错畸形、口腔正畸适龄青少年牙齿发育等。随着体育运动的发展，活体年龄推断也被广泛应用于运动员的科学选材和确定实际年龄以保证参赛资格。此外，活体年龄推断还可以用于更正户口本上的年龄、司法实践中推断青少年在犯罪行为发生时的真实年龄、被害人在案发时的真实年龄等。

目前国内活体年龄推断的主要依据是X线骨龄。依照公共安全行业标准，参考六大关节及锁骨、骨盆的X线片，根据骨化中心及骨骺的影像学特征从而对12-20岁汉族青少年进行骨龄鉴定。但是在实际应用中存在一些不足。首先是精度欠佳。应用前述骨龄鉴定技术规程的鉴定误差范围是1-2岁，因而鉴定意见往往表述为年龄范围，尚不能准确到某一确定的年龄。其次，受主观因素影响大。该技术规程主要是依据骨化中心及骨骺闭合程度分级结果决定的，也就是对照图谱对24个不同部位进行分级，不同的鉴定专家在定级时会有主观上的偏差，而24个部位定级完成后需要根据分级标准表确定年龄段，由于该技术规程并未规定如何客观地选取年龄段，所以容易造成分歧。再次，用六大关节进行活体年龄鉴定时，需要被鉴定人拍摄多部位的X线片，摄片量大，且此类被鉴定人多系嫌疑人，需采取一定监管措施，实践操作时存在不安全因素。最后，该骨龄鉴定技术规程推断的下限为12岁，对于法律中新增的12岁这个关键界点年龄，难以做出精确推断。因此，如有其它年龄推断法能作为骨龄推断的协同参考或互为补充，将有助于提高年龄推断的精度。

骨骼发育相似，牙齿发育也被广泛认为是衡量青少年年龄的准确指标之一。Demirjian法是迄今为止牙龄推断最流行的方法之一。Demirjian法是将下颌中切牙至第二磨牙共七颗牙齿进行评分，以计算牙齿成熟度分值，并通过表格转换得到牙龄。因其有较好的准确性，从而在世界范围内得到了广泛的应用。但它也存在一些缺点。首先，牙齿的发育阶段由Demirjian描述的成熟度指数决定，因此主观判断可能导致偏差；其次Demirjian法将成熟度得分转换为牙龄所涉及的步骤较为复杂，颇为耗时；最后Demirjian法不能应用于牙列缺损或牙齿发育不良的情况，并且该技术没有针对特定的牙齿进行权重的分配。

需要注意的是，牙齿发育和骨骼发育的特征融合可以更全面地了解一个人的发育情况。当一个人的牙齿和骨骼发育不协调时，单独使用牙龄或骨龄来推断年龄可能会导致结果的不准确。此外，许多因素也会影响牙龄和骨龄的推断结果，例如个体差异、遗传、营养、环境等，这些多因素的干扰可能会导致主观误差更大。

中国专利申请号CN202110859700.6提供了一种颈椎骨龄的判断方法，基于头颅侧位片，建立神经网络颈椎检测模型、神经网络颈椎标志点定位模型以及神经网络颈椎分割模型；用颈椎检测模型检测出头颅侧位片颈椎位置；用颈椎标志点定位模型对颈椎外形标志点进行定位；用颈椎分割模型对颈椎进行分割；对分割后的颈椎提取颈椎轮廓；将各标志点间的关系进行量化及判读，然后得出当前的生长发育阶段。

上述方法考虑到头颅侧位片的图形学特点进行年龄推定，但是，该申请仅使用头颅侧位片进行骨龄推定，在年龄推断上存在推断不准确的问题。另外，传统的人工方法进行牙龄或骨龄推断存在以下缺点：(1)主观性强：传统的人工方法通常需要依靠人工分析影像数据，分析结果受到鉴定专家的主观因素影响，容易产生误差。(2)精度不高：传统的人工方法往往需要对影像数据进行人工测量，由于人工测量的精度受到鉴定专家经验和技能的限制，所以精度有限，误差较大。(3)工作量大：传统的人工方法需要对大量的影像数据进行分析和处理，需要耗费大量的人力和时间。(4)难以处理非线性关系：传统的人工方法通常是基于线性模型或者人工规则来进行推断，难以处理数据中的非线性关系，限制了其推断能力和精度。

而现有的只用牙龄或者只用骨龄进行年龄推断都存在一些缺点：牙齿发育和骨骼发育均会受多因素(遗传、环境、营养等)影响。尤其当一个人的牙齿和骨骼发育不协调时，单独使用牙龄或骨龄来推断年龄可能会导致结果的不准确。骨龄推断通常需要拍摄多个部位的X光片，对被检测者的辐射剂量产生一定的危害。缺乏基于深度学习，融合牙龄和骨龄特征的年龄推断探索研究。

当前国内基于深度学习的牙龄、骨龄推断的研究，大多基于二维影像。只用二维影像进行年龄推断可能存在以下缺点：(1)部分结构不可见：二维影像只能呈现一个平面的图像，难以展示三维结构，可能会导致一些结构不可见，如颅骨内部的结构。(2)容易受到角度和位置的影响：二维影像的呈现效果受到拍摄角度和位置的影响，因此，不同的拍摄角度和位置可能会呈现不同的影像，从而影响年龄推断结果的准确性。(3)容易出现影像伪影：二维影像在呈现过程中可能会受到各种因素的影响，如伪影和部分容积效应，这些因素可能会干扰年龄推断的准确性。缺乏基于深度学习，结合二维和三维影像的年龄推断探索研究。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的活体年龄推断方法、设备、存储介质，通过综合骨龄和牙龄对活体的年龄进行推断，以提高推断的准确性。

本发明的目的可以通过以下技术方案来实现：

本发明的一个方面，提供了一种基于深度学习的活体年龄推断方法，包括如下步骤：

获取二维口腔全景片、三维CBCT和二维头颅侧位片并输入预训练好的深度学习模型中，获取活体年龄推断结果，其中，所述的深度学习模型包括：

牙龄推断网络，用于基于所述口腔全景片和所述CBCT的牙齿部分，通过图像分割重建和特征提取，获取牙龄推断特征；

骨龄推断网络，用于基于所述头颅侧位片所述CBCT的颈椎部分，通过图像分割重建和特征提取，获取骨龄推断特征；

综合推断网络，用于针对所述牙龄推断特征和所述骨龄推断特征进行特征融合处理，获取活体年龄推断结果。

作为优选的技术方案，所述的二次判断模型基于所述牙龄推断特征和所述骨龄推断特征，使用卷积注意力模块提取通道空间上的关键特征，基于所述关键特征确定活体所属的年龄区间。

作为优选的技术方案，所述的二次判断模型包括通道注意力模块和空间注意力模块。

作为优选的技术方案，针对所述的牙龄推断网络和所述的骨龄推断网络中的任一个，均包括：

2D图像分割子网络，用于针对所述口腔全景片或所述头颅侧位片进行图像分割；

基于多头自注意力和Darknet的第一特征提取子网络，用于针对图像分割后的口腔全景片或头颅侧位片进行特征提取；

3D图像分割子网络，用于针对所述CBCT进行图像分割；

基于Masked Voxel的第二特征提取自网络，用于针对图像分割后的CBCT进行特征提取。

作为优选的技术方案，所述的深度学习模型的训练过程包括如下步骤：

获取口腔全景片、头颅侧位片和CBCT图像，针对图像内容进行提取获取对应活体的实际年龄信息，构建数据集；

使用划分后的数据集对深度学习模型进行训练，基于深度学习模型输出的预测年龄和对应的实际年龄信息计算损失函数值以更新模型参数。

作为优选的技术方案，对深度学习模型进行训练的过程还包括如下步骤：

使用骨龄与牙龄相同的特殊训练集分别对所述牙龄推断网络和所述骨龄推断网络进行单独训练后，基于知识蒸馏对所述综合推断网络进行训练。

作为优选的技术方案，所述的损失函数采用下式获取：

其中，L₁′为损失函数值，α为权重因子，y_i是真实年龄值，为预测的年龄值，N是所有牙龄与骨龄相等的特殊样本数量，M是除去所述特殊样本之后剩余样本的数量

作为优选的技术方案，所述的综合推断网络包括Transformer编解码器和ML-Decoder解码器。

本发明的另一个方面，提供了一种电子设备，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行上述基于深度学习的活体年龄推断方法的指令。

本发明的另一个方面，提供了一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行上述基于深度学习的活体年龄推断方法的指令。

与现有技术相比，本发明具有以下优点：

(1)综合牙龄和骨龄进行年龄推断，提高准确性：现有方法大多仅仅从牙龄或骨龄进行活体年龄推断，与现有方法不同的，本发明使用牙龄推断网络和骨龄推断网络对活体的口腔全景片、CBCT和头颅侧位片进行特征提取，然后使用综合推断网络对提取得到的特征进行融合处理，最终输出年龄推断结果。本发明综合2D和3D的骨龄特征和牙龄特征进行年龄推断，提高推断的准确性。

(2)年龄界定精准度高：通过设置二次判断模型，当活体年龄推断结果位于预设的关键年龄界点范围内时，用预训练好的二次判断模型确定活体所属的年龄区间，能够实现法定关键年龄的精准判断。

附图说明

图1为活体年龄推断模型结构示意图；

图2为MHSA网络层结构示意图；

图3为MHSA-Darknet模型结构示意图和CSPDark block模块架构对比示意图；

图4为attention YOLO(左)和YOLOv8(右)模型结构对比示意图；

图5为二次判断模型结构示意图；

图6为活体年龄推断模型的训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例1

本实施例提供了一种基于深度学习的活体年龄推断方法，通过建立一个多类型口腔头颈影像活体年龄推断数据库，在此基础上运用多任务深度学习建立人工智能推断系统，包括牙龄推断子系统、骨龄推断子系统、活体年龄推断系统和法定年龄界定系统。具体实现如下：

(1)建立多类型口腔头颈影像活体年龄推断数据库

采集三种口腔头颈影像资料，即口腔全景片、CBCT(锥形束CT)、头颅侧位片，对影像中的文本信息进行识别提取，并对影像进行质量筛查，最后将图像和文字信息进行结构化存储，建立多类型口腔头颈影像活体年龄推断数据库。模型训练时，可以直接对数据库中的数据进行预处理操作，基于5-折交叉验证自动分配，为模型训练提供高质量数据集。按照8:1:1的比例，将数据集划分为训练集、验证集和测试集，保证所有分类网络均能够得到充裕的特征学习；将其输入到网络中进行分类器的训练；通过分类器在测试集上的表现来评估分类器对不同年龄样本的分类能力。所述评估是通过计算预测值和实际年龄的平均绝对误差得出。

数据集预处理的过程如下：

针对收集的口腔全景片、头颅侧位片和CBCT图像，本发明先通过数字图像处理技术自动提取每个图像的基础标注信息，基础标注信息主要包括出生日期、拍摄日期、民族和性别，完成图像中关键特征标注，再完成年龄推断分析标注，之后对数据进行审核修正，最后共同确认数据，确认无误后将标注数据作为深度学习模型的训练数据集部分。

在完成数据的采集后数据集将随机分成5组用于5-折交叉验证以准确验证计算机全自动化年龄推断系统的准确性及鲁棒性(robustness)。按照8:1:1的比例，将数据集划分为训练集、验证集和测试集，保证所有分类网络均能够得到充裕的特征学习；将其输入到网络中进行分类器的训练；通过分类器在测试集上的表现来评估分类器对不同年龄样本的分类能力。所述评估是通过计算预测值和实际年龄的平均绝对误差得出。

针对数据类型的不同，本发明拟将模型构建分为三个部分：基于口腔全景片和CBCT牙齿图像数据的牙龄推断模型构建；基于头颅侧位片和CBCT颈椎骨图像数据的骨龄推断模型构建；面向多类型数据的牙龄骨龄融合应用的活体年龄推断模型构建。其模型结构图如图1和图6所示。

(2)建立牙龄推断子系统。

利用2D-UNet模型对口腔全景片进行图像分割，用Attention YOLO(基于YOLOv8模型进行的改进)进行特征提取。利用3D-UNet模型对CBCT牙齿部分进行图像分割重建，用Voxel R-CNN进行特征提取。用3D Volume Transformer进行编码解码，融合二维三维牙齿特征，结合提取的信息进行牙龄推断。

具体地，基于口腔全景片和CBCT牙齿图像数据的牙龄推断模型构建过程如下：

首先采用2D-UNet模型对口腔全景片进行图像分割，将分割之后的掩码图像输入结构相同、权重不同的目标检测模型。针对青少年口腔全景片图像特点与任务要求，基于目标检测模型YOLOv8进行相应改进。

针对BackBone模块，基于自然语言以及计算机视觉等领域表现优秀的Transformer模型的MHSA(Multi-Head Self-Attention，多头自注意力)对YOLOv8模型的Backbone进行改进，从而实现能够全局关注图像特征块之间的相关性，并通过多头自关注力机制保留足够的空间信息用于对象的检测。

如图2所示，MHSA(Multi-Head Self-Attention)是一种注意力机制，常用于自然语言处理和计算机视觉领域中。在计算机视觉领域，MHSA通常用于对图像或特征图中的不同位置或通道进行建模，以捕捉其内部关系和重要性。

其中，Position Encoding用于将序列的位置信息融合到Transformer模型中。在Transformer模型中，注意力机制只考虑了序列中各个元素的语义信息，没有考虑它们的位置信息。因此，为了融合位置信息，Transformer模型使用Position Encoding将位置信息加入输入的嵌入向量中。具体的，加入位置信息的过程可以通过对每个位置对应的嵌入向量加上一些特定的位置编码来实现。因此，模型可以在处理序列时同时考虑到其位置信息和语义信息。

Content-Content指在Attention计算中，将输入的query、key、value三个向量中的key和value做点积得到的context向量。Content-Content的作用是根据query向量对输入序列中的每个元素进行加权平均，得到一个加权后的向量表示，用于下游任务的处理。具体的，query向量在计算Attention时通过点积的方式与key向量相似度进行打分，再将打分结果作为权重，加权求和得到context向量。该context向量就是输入序列中所有元素的value向量的加权平均，即加权后的向量表示。

在MHSA架构中，Position Encoding和Content-Content的能够更好地处理序列数据，将位置信息和语义信息进行融合，从而提高模型的性能。

MHSA网络层首先将输入牙齿或颈椎特征图通过三个线性变换(即Q、K和V)映射到三个不同的表示空间。然后，将这三个表示空间进行相似度计算，得到一个注意力分数矩阵。接着，通过将注意力分数矩阵与V进行加权求和，得到一个新的表示向量。最后，将多个这样的新表示向量进行拼接，形成最终输出的牙齿或颈椎特征图。

MHSA网络层的优势在于可以有效地捕捉到输入特征图中不同位置或通道之间的相互关系和重要性，从而提高模型的性能和准确度。

具体地，将多头自注意力(MHSA)层嵌入到CSPDark block模块中，使其可以寻找多个特征之间的关联性，在二维特征图上实现全局(所有)自关注，称为MHSA-Darknet。其中MHSA具体架构如图2所述，CSPDark block和MHSA-Darknet模块架构对比如图3所述，其中(a)为CSPDark block模块架构示意图，(b)为MHSA-Darknet模块架构示意图。

如图3所示，CSPDark block是Darknet网络中的一个基础模块，包含两个主要分支：主分支和旁分支。其中主分支包含一个卷积层和若干个残差块，旁分支则是对主分支进行通道分割后的结果。MHSA-Darknet是将MHSA层嵌入到CSPDark block模块中得到的一种特征提取模型。MHSA-Darknet在CSPDark block中使用了MHSA层来替代原来的卷积层，以增强特征提取能力。

MHSA-Darknet和CSPDark block的区别在于前者使用了MHSA层而后者使用的是卷积层。MHSA层是一种注意力机制，能够自适应地捕捉输入中不同区域之间的关系，并在特征提取中将其加以利用。而卷积层则是一种固定的模式，对所有区域的特征都采用同样的卷积核进行卷积操作，无法针对不同区域进行自适应的特征提取。因此，MHSA-Darknet相比CSPDark block具有更强的特征提取能力，能够更好地捕捉输入数据(牙齿或颈椎)的关系和特征。

此外，运用YOLOv8模型中的Neck部分对多尺度特征的融合能力进行进一步的考量。EfficientDet网络采用了BiFPN结构来代替PAN+FPN结构，并引入可学习权重来学习不同输入特征的重要性。通过跳跃连接，BiFPN进一步改进了PAN+FPN结构，同时利用可学习权重来替代简单的相加或拼接操作，从而进一步提升了模型对多尺度特征的感知能力。

如图4所述，其中(a)为attention YOLO模型结构图，(b)为YOLOv8模型结构图，改进之后的特征提取模型称为注意力YOLO(Attention YOLO)模型，其本质上是一个卷积神经网络与自注意力的混合模型，考虑了更多的图像上下文信息，并根据区分度的特征，有效地实现了跨尺度特征融合。

如图4所示，YOLO模型结构(右图)用于目标检测中的特征提取如下：首先将图像输入到primary Backbone part中，该部分负责提取图像的初步特征。然后，通过C2F层进一步提取特征，该层利用特征金字塔技术将低级别特征与高级别特征相结合，使得模型可以同时关注图像中的不同尺度和层次的特征。

接下来，利用SPFF(Spatial Pyramid Feature Fusion)层，将不同尺度的特征图融合在一起，以获得更全面和准确的特征表示。然后，通过PAN+FPN层，将不同尺度的特征图通过金字塔池化操作进一步融合，以进一步提高模型的感受野和特征表现能力。

最后，通过Decoupled head将融合后的特征图送入两个并行的分支中进行目标检测，分别负责检测目标的位置和类别，从而输出检测框和相应的置信度。最终，模型将所有检测结果进行筛选和非极大值抑制，以得到最终的目标检测结果。

Attention YOLO模型结构(左图)用于特征提取的过程如下：首先，图像输入经过primary Backbone部分提取基础特征，然后通过MHSA-Dark模块进行特征增强，该模块通过MHSA网络层和CSPDark Block实现特征融合和注意力机制，从而提高了模型的表现。接着，通过SPFF模块进行特征融合和卷积操作，以加强特征的表示能力。然后，特征经过BiFPN模块进行上下文感知和特征融合，以更好地捕捉目标间的语义关系和上下文信息。最后，特征经过Decoupled head模块进行目标检测和预测，最终输出目标检测结果。

相比于YOLO模型，Attention YOLO模型加入了MHSA-Dark模块和BiFPN模块，分别实现了特征增强和上下文感知，以提高模型的准确率和鲁棒性。同时，Attention YOLO模型的特征提取过程采用了不同的特征融合和注意力机制，以提高特征的表达能力和泛化能力。

并且，采用3D Volume Transformer模型作为二维数据的Transformer编码器，抽取经由Attention YOLO模型的二维图像特征，并通过探索二维图像中不同牙齿的特征和空间关系对不同牙齿特征进行融合。

对于CBCT这种基于体素的结构更适合于特征提取，但由于输入数据被划分成网格，往往会产生较低的精度。为了提升模型的精度，设计了相关组合模型以提升性能。

首先，针对获取的CBCT图像使用3D-UNet进行分割，得到针对牙齿感兴趣区域的区域体素结构，之后针对所得到的牙齿区域体素结构借鉴Voxel R-CNN模型的主干网络进行特征提取。将3D Volume Transformer输出的融合二维图像特征与Voxel R-CNN输出的三维体素特征进行拼接，并将拼接后的二维-三维数据一同送入Transformer解码器，将基于图像特征的年龄推断问题处理为回归问题。Transformer解码器通过引入多头注意力机制，联合学习输入特征中二维图像特征与三维体素特征间的2D图像-3D体素的特征相关性以及不同空间位置的相关性。考虑注意力机制可能对复杂过程的拟合程度不够，通过增加两层前馈全连接层网络来增强模型的能力。最后基于任务要求设置自定义的损失函数，完成基于口腔全景片和CBCT(牙齿部分)的牙龄推断模型设计。

(3)建立骨龄推断子系统。

利用2D-UNet模型对头颅侧位片进行图像分割，用Attention YOLO(基于YOLOv8模型进行的改进)进行特征提取。利用3D-UNet模型对CBCT颈椎部分进行图像分割重建，用Voxel R-CNN进行特征提取。用3D Volume Transformer进行编码解码，融合二维三维颈椎特征，结合提取的信息进行骨龄推断。

具体地，基于头颅侧位片和CBCT颈椎骨图像数据的骨龄推断模型构建

头颅侧位片的图像处理参考口腔全景片。其余与牙龄推断模型类似。最后，将头颅侧位片经由3D Volume Transformer编码器输出后融合CBCT数据中的颈椎骨体素特征输入至最终的Transformer解码器，将基于颈椎特征的骨龄推断问题处理为回归问题，并基于任务要求设置自定义的损失函数，完成基于头颅侧位片和CBCT(颈椎部分)的骨龄推断模型设计。

平均绝对误差损失函数：

其中，是模型的预测值，y_i是真实值，n是样本数量。平均绝对误差损失函数的优化目标是使预测值与真实值之间的差异最小化。在训练过程中，通过反向传播算法计算损失函数对模型参数的梯度，从而更新模型参数，使其逐渐收敛于最优解。

(4)建立融合骨龄与牙龄的活体年龄推断系统。

利用前述提取的二维和三维牙齿和颈椎特征，利用3D Volume Transformer进行编码，ML-Decoder进行解码，同时利用特殊样本(牙龄＝骨龄)对模型进行二次训练，融合二维和三维牙齿颈椎特征，结合提取的信息进行活体年龄推断。

面向多类型数据的牙龄骨龄融合应用的年龄推断模型构建

在活体年龄推断模型中，将ML-Deocder作为年龄推断模型的解码器进行改进以应用于最终年龄推断问题，ML-Deocder是最新的将attention结构应用到分类Head的工作，它被设计出来的初衷是为了解决多分类问题。但是由于优秀的设计使得它可以作为其他计算机视觉任务中的头部替代品。

对ML-Deocder的改进首先通过去除冗余的自我关注块，也就是将查询数量的二次依赖性松弛为线性依赖性，同时重新训练相同的表达性。其次，ML-Deocder使用了一种新颖的分组解码方案，它不是为每个类分配查询，而是使用固定数量的Queries，通过一个称为group fully connected的新架构块剂型插值操作，得到最终的类数。由于将牙龄推断定义为回归问题，所以对于特征的提取并不需要将特征完全映射成每种类别的概率，即不需使用group fully connected的插值操作，而是将其对应的特征直接映射成所需要维度的向量。

同时为了更好地将信息交融考虑，拟计划参考Dynamic Head在预测的头部添加注意力计算，可以对全局特征进行更细致考量。该方法采用注意力机制将不同的目标检测头进行统一，并提出一种任务感知注意力，可以促进联合学习与目标表达能力的泛化性。具体改进如下：通过特征层次之间的注意力机制用于尺度感知，空间位置之间的注意力机制用于空间感知，输出通道内的注意力机制用于任务感知，可以在不增加计算量的情况下显著提升模型目标检测头的表达能力。

在所采集的样本中，存在着一些特殊样本，他们的“牙龄＝骨龄”，是因为这些样本是个体在同一天拍摄了具有牙齿特征与颈椎特征(CBCT、口腔全景片+头颅侧位片)的影像资料，因而从这些样本图片中所提取的特征更为统一，更有利于特征的融合以及年龄的推断，所以在最终推断年龄步骤中这些样本起到了重要的作用。因此，从解决分类问题中类别不平衡的角度出发，认为这种特殊数据是一种数量很少的类别，通过对分类问题类别不平衡解决方法进行思考，选择合适思路将之迁移到回归问题中，对回归问题的损失函数进行了重新设计。具体而言，从平衡交叉熵(Balanced Cross Entropy)的改进思路出发，进一步改进交叉熵损失函数(Cross Entropy Loss)，引入了权重因子α，以更好地适应数据类别不平衡的情况，并提高模型的性能。经过考虑特殊数据的改进之后，重新设计的损失函数L₁′loss为：

其中，N表示所有“牙龄＝骨龄”的特殊样本数量，M表示除去这些特殊样本之后剩余样本的数量

基于前述牙龄推断模型和骨龄推断模型，牙龄骨龄融合推断模型在训练阶段会使用特殊训练集进行训练。为保证不同数据间的特征一致性，先使用所有数据均在同一天获取的特殊样本数据对牙龄推断模型、骨龄推断模型进行单独训练，得到满足条件的推断模型，随后将利用不同类型数据的牙龄/骨龄推断模型提取的特征进行特征融合，并结合多头注意力机制，最终通过知识蒸馏的方法完成对融合框架的最后融合层训练，实现牙龄/骨龄推断模型的有机融合，完成年龄推断模型的构建。

(5)建立法定年龄界定系统。

在活体年龄推断系统的基础上，提出基于CBAM的二次判断模型，同时建立界点年龄对应的分段数据集，利用该数据集对模型进行强化训练，提升模型推断界点年龄的准确性，结合提取的信息进行法定年龄界定。具体的，把符合界点年龄数据的骨龄特征+牙龄特征输入到二次判断模型中，根据模型输出确定活体所属的年龄区间。

为实现对12/14/16/18岁的刑法定责关键年龄界点的精确年龄推断，本发明基于前述年龄推断模型构建了关键年龄界点二次判断模型，以年为单位，针对性设置仅包含关键年龄界点年龄段的训练数据集，利用集中界点年龄段的数据集对关键年龄界点二次判断模型进行针对性训练，并以提高模型在关键年龄界点阶段的推断准确度为目标，对模型进行优化。在年龄推断阶段，对于初次推断结果可能位于关键年龄界点范围的数据，将被送入二次判断模型进行进一步精确化预测，从而提升对于关键年龄的判断。

本发明将卷积注意力模块(Convolutional Block Attention Module，CBAM)加入到关键年龄界点二次判断模型，如下图，CBAM主要包括：通道注意力模块(ChannelAttention Module，CAM)和空间注意力模块(Spatial Attention Module，SAM)。CBAM可以从通道和空间两个维度捕获关键特征，充分利用二次训练数据集中界点年龄所包含的图像特征，提高模型对于此类关键特征的注意力，使得最终训练完成的模型可以更加精准的判断待检测图像特征与界点年龄特征的相似度，进而完成界点年龄的二次判断，具体如图5所述。

活体年龄推断的流程包括如下步骤：

步骤一：将口腔全景片或头颅侧位片使用2D-UNet进行图像分割，以得到牙齿或颈椎的二维图像。接下来，通过Attention YOLO对这些二维图像进行特征提取。AttentionYOLO是对YOLOv8改进后的特征提取模型，其中使用了MHSA层嵌入到CSPDark block模块中，以BiFPN结构代替PAN+FPN结构来进行更加有效的特征提取。通过多层感知器(MultilayerPerceptron,MLP)对特征进行加工和优化，进一步提高了检测精度。

步骤二：将CBCT通过3D-UNet进行图像分割重建，得到牙齿或颈椎的三维图像。通过Masked Voxel对三维点云数据中的一些体素进行掩码操作，将其标记为无效的点(即被忽略的点)。通过Masked Voxel操作，可以将这些无关或干扰性的点过滤掉，从而提高算法对目标物体的关注度和识别效率。此外，Masked Voxel操作还可以有效地减少数据量，减轻计算负担，从而提高算法的运行速度和效率。最后通过Voxel R-CNN进行特征提取。

步骤三：对于牙齿数据的二维和三维特征，采用3D Volume Transformer模型作为二维数据的Transformer编码器，抽取经由Attention YOLO模型的二维图像特征。将3DVolume Transformer输出的融合二维图像特征与Voxel R-CNN输出的三维体素特征进行拼接，并将拼接后的二维-三维数据一同送入Transformer解码器，最终得到牙龄。

对于颈椎数据的二维和三维特征，同样采取以上步骤，最终得到骨龄

步骤四：利用前述提取的二维和三维牙齿和颈椎特征，利用3D VolumeTransformer进行编码，改进后的ML-Decoder进行解码，同时利用特殊样本(牙龄＝骨龄)对模型进行二次训练，融合二维和三维牙齿颈椎特征，结合提取的信息进行活体年龄推断。

与现有技术相比，本发明具有以下改进点及有益效果(优点)：

(1)采用MHSA-Darknet对先进的YOLOv8模型进行改进而得到的Attention YOLO模型，能更有效实现跨尺度特征融合，并进一步提升模型融合不同层次的图像特征进行精准分析。

(2)本发明同时开展牙龄研究与骨龄研究，并通过深度学习将两者融合，包括将3DVolume Transformer编解码器结构用于二维和三维影像的特征融合，并以ML-Decoder解码器为基础进行改进，最终达到多类型影像特征融合，建立更为精准的活体年龄推断系统。而且牙龄/骨龄研究均通过二维与三维图像多维度反复验证，包括以3D-UNet模型来重建和分割CBCT影像，以及用Voxel R-CNN模型从点云数据中提取三维特征等，并用牙龄与骨龄相同的特殊样本进行组间矫正，极大的降低了误差，从而获得更全面、更准确、更稳定的输出结果。深度学习可以自动从数据中学习到复杂的特征表示和模式，避免了人工特征设计和人工规则的限制，因此在牙龄或骨龄推断等任务中具有更高的精度和泛化能力。此外，深度学习可以处理大规模数据，同时具有较高的并行处理能力，能够提高工作效率。

(3)针对法律中12岁/14岁/16岁/18岁这四个界点年龄，依靠牙龄与骨龄的融合，利用专属数据集对模型进行强化训练并基于CBAM进行二次判断，并用牙龄与骨龄相同的特殊样本进行组间矫正，从而明显提高法定界点年龄判断的精准度。

(4)本发明样本量大，口腔影像资料足，具备完善和充足的口腔全景片、CBCT、头颅侧位片这三种影像学资源。可选取至少14万例总样本数据，其中口腔全景片10万，CBCT 2万，头颅侧位片2万(其中包括特殊样本至少2万)建立年龄自动推断模型，减小样本偏倚，更具有代表性。

实施例2

本实施例提供了一种电子设备，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行如实施例1所述基于深度学习的活体年龄推断方法的指令。

实施例3

本实施例提供了一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如实施例1所述基于深度学习的活体年龄推断方法的指令。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度学习的活体年龄推断方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的活体年龄推断方法，其特征在于，所述的活体年龄推断方法还包括如下步骤：

判断所述活体年龄推断结果是否位于预设的关键年龄界点范围内，若是，使用预训练好的二次判断模型确定活体所属的年龄区间。

3.根据权利要求2所述的一种基于深度学习的活体年龄推断方法，其特征在于，所述的二次判断模型基于所述牙龄推断特征和所述骨龄推断特征，使用卷积注意力模块提取通道空间上的关键特征，基于所述关键特征确定活体所属的年龄区间。

4.根据权利要求1所述的一种基于深度学习的活体年龄推断方法，其特征在于，针对所述的牙龄推断网络和所述的骨龄推断网络中的任一个，均包括：

3D图像分割子网络，用于针对所述CBCT进行图像分割；

5.根据权利要求1所述的一种基于深度学习的活体年龄推断方法，其特征在于，所述的深度学习模型的训练过程包括如下步骤：

6.根据权利要求5所述的一种基于深度学习的活体年龄推断方法，其特征在于，对深度学习模型进行训练的过程还包括如下步骤：

7.根据权利要求5所述的一种基于深度学习的活体年龄推断方法，其特征在于，所述的损失函数采用下式获取：

其中，L₁′为损失函数值，α为权重因子，y_i是真实年龄值，为预测的年龄值，N是所有牙龄与骨龄相等的特殊样本数量，M是除去所述特殊样本之后剩余样本的数量。

8.根据权利要求1所述的一种基于深度学习的活体年龄推断方法，其特征在于，所述的综合推断网络包括Transformer编解码器和ML-Decoder解码器。

9.一种电子设备，其特征在于，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-8任一所述基于深度学习的活体年龄推断方法的指令。

10.一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-8任一所述基于深度学习的活体年龄推断方法的指令。