CN113516639A

CN113516639A - 基于全景x光片的口腔异常检测模型的训练方法及装置

Info

Publication number: CN113516639A
Application number: CN202110743677.4A
Authority: CN
Inventors: 卢光明; 赵梦婷; 余红兵; 陈炳志
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-19
Anticipated expiration: 2041-06-30
Also published as: CN113516639B

Abstract

本申请提供了基于口腔全景X光片的检测模型的训练方法，应用于通过口腔全景X光片进行口腔异常的检测；包括：获取样本图像和初始口腔异常检测模型，样本图像具有特征标注；通过特征提取模型提取样本图像的图像特征；通过特征识别模型对图像特征进行识别处理，得到样本图像的识别结果和与识别结果对应的置信参数，置信参数用于指示所述识别结果的置信度；基于识别结果、置信参数和特征标注确定损失函数；依据损失函数训练特征提取模型和特征识别模型，得到目标口腔异常检测模型。通过利用深度学习等人工智能技术辅助医生进行口腔全景X光片全面诊断、提高检查效率与便捷度具有重要应用价值和社会效益。

Description

基于全景X光片的口腔异常检测模型的训练方法及装置

技术领域

本申请涉及口腔医学成像智能处理与分析技术领域，特别是基于全景X光片的口腔异常检测模型的训练方法及装置。

背景技术

随着饮食和生活方式的改变，口腔健康问题在全国各地普遍存在。目前龋病、智齿、埋伏牙、炎症等口腔疾病的临床诊断主要是由临床医生根据患者的临床症状、探诊检查和影像学检查等进行综合评判。探诊检查作为传统常规的儿童口腔健康筛查手段之一，经常受操作繁琐、耗时长等限制，难以满足大量的口腔健康患者的筛查和诊断需求。相比之下，口腔全景X光(X-ray，X射线)片可以为医生对患者口腔整体健康进行综合评估提供全景X光图像，帮助医生快速掌握口腔整体健康情况。全景片可以清晰、完整的显示上颌骨、下颌骨全貌，上下颌牙(牙齿倾斜程度、牙根)、牙槽骨(牙周软组织，牙槽骨质)情况。

然而，临床上的口腔X光全景口腔异常筛查仍面临着以下三个困难：

(1)异常复杂多样：口腔全景X光片往往会同时包含多个不同的异常病理的影像学表现，且病理特征复杂、病灶大小不一，难以进行精确化的全面诊断。(2)依赖专业操作：口腔全景片的评估非常依赖于临床医生的个人临床经验和知识，不同临床医生之间诊断的差异导致了口腔疾病治疗的方案不同，存在误诊漏诊的可能。(3)容易误诊漏诊：人工阅片容易发生误诊漏诊。在阅片过程中往往只关注的是患者主诉牙的问题，忽略了导致隐藏较深的非主诉牙异常，导致丧失最佳治疗时间。

此外，口腔医生的紧缺和医疗资源分布不均也加剧了居民接受口腔健康服务的阻力，使口腔保健工作面临严峻考验。

发明内容

鉴于所述问题，提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的基于全景X光片的口腔异常检测模型的训练方法及装置。

为了解决上述问题，本发明实施例公开了基于全景X光片的口腔异常检测模型的训练方法，所述方法应用于通过口腔全景X光片进行口腔异常的检测；

所述方法包括：

获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注；其中，所述初始口腔异常检测模型包括特征提取模型和特征识别模型；所述特征标注包括特征分类标注和目标定位标注；

通过所述特征提取模型提取所述样本图像的图像特征；其中，所述图像特征包括异常类别；

通过所述特征识别模型对所述图像特征进行识别处理，得到所述样本图像的识别结果和与所述识别结果对应的置信参数，所述置信参数用于指示所述识别结果的置信度；其中，所述识别结果包括特征分类结果和目标定位结果；

基于所述识别结果、所述置信参数和所述特征标注确定损失函数；

依据所述损失函数训练所述特征提取模型和所述特征识别模型，得到目标口腔异常检测模型。

进一步的，所述获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注的步骤，包括：

所述目标定位标注，包括在所述样本图像上的所述图像特征的位置坐标标注；

所述特征分类标注，包括在所述样本图像上，标注有口腔异常问题的所述图像特征。

进一步的，所述通过所述特征提取模型提取所述样本图像的图像特征的步骤，包括：

通过所述特征提取模型对所述样本图像进行卷积运算，获得特征图，具体的，通过第一融合网络对所述样本图像进行至少三次卷积，获得对应于特征向量的所述特征图；其中，所述特征提取模型包括ResNet50，以及由FPN和Faster R-CNN组成的第一融合网络；所述特征向量相对于所述样本图像存在一一对应的映射关系；

对所述特征图进行图像特征提取，获得候选框，并依据所述特征图和所述候选框，生成与所述候选框的位置坐标对应的特征区域数据；具体的，对所述特征图对应的所述特征向量进行两次全连接，得到候选框的位置坐标，并判断所述候选框内是否存在目标；

对所述特征区域数据进行池化，获得图像特征的分类特征数据集合和候选框回归；其中，所述分类特征数据集合用于特征识别模型。

进一步的，通过所述特征提取模型对所述样本图像进行卷积运算，获得特征图的步骤，包括：

对所述图像特征进行残差卷积，获得残差卷积数据；

对所述残差卷积数据进行1*1卷积的特征融合，生成与所述残差卷积数据对应的融合特征数据；

对每层所述融合特征数据自上而下依次进行上采集，并更新所述融合特征数据；

对所述融合特征数据进行进行3*3卷积的横向预测，生成与所述融合特征数据对应的预测图；

对每层所述预测图自下而上依次进行下采集，并更新所述预测图，获得特征图。

进一步的，所述对所述特征图进行图像特征提取，获得候选框，并依据所述特征图和所述候选框，生成与所述候选框的位置坐标对应的特征区域数据的步骤，包括：

以所述特征区域的左上角或中心作为锚点，生成k个生成框，其中，每个所述特征向量对应所述图像特征的k个生成框；

通过对k个所述生成框进行长宽和/或比例的修正得到候选框；

依据所述候选框对每个所述特征向量，生成2*k个分数用于判断是否有目标，生成4*k个坐标确定特征区域位置。

根据所述候选框区域位置以所述及特征图生成与其对应的位置坐标的特征区域数据。

进一步的，所述通过所述特征识别模型对所述图像特征进行识别处理，得到所述样本图像的识别结果和与所述识别结果对应的置信参数，所述置信参数用于指示所述识别结果的置信度的步骤，包括：

根据输出分类和候选框回归，确定异常区域坐标；

L_i＝{x,y,w,h}∈L,(i＝0,1,2…)

其中，L为坐标，i为所述目标检测网络所检测到异常区域的系列，x,y,w,h是候选框中心的坐标和宽高值。

进一步的，所述基于所述识别结果、所述置信参数和所述特征标注确定损失函数的步骤，包括：

依据所述特征分类结果和所述特征分类标注确定多标签目标分类损失函数，所述多标签目标分类损失函数为：

其中，p_i表示识别结果，所述识别结果包括候选框预测为目标的归一化后的概率，

表示用于监督学习的特征标注；

公式中，r_ij用来表示在训练数据中类别i相对于类别j的共存概率分布，C代表类别个数，z代表预测的分类的结果。

进一步的，所述基于所述识别结果、所述置信参数和所述特征标注确定损失函数的步骤，还包括：

依据目标定位结果和目标定位标注确定回归损失函数；所述回归损失函数为：

其中，

t_i＝{t_x，t_y，t_w，t_h}

公式中，表示候选框的4个参数，

是特征标注的4个坐标参数；

t_x，t_y，t_w，t_h的计算公式如下：

t_x＝(x-x_a)/w_a

t_y＝(y-y_a)/h_a

t_w＝log(w/w_a)

t_h＝log(h/h_a)

其中x，y，w，h是候选框中心的坐标和宽高值，x_x，x_y，x_w，x_h是以锚点为中心的生成框的坐标和宽高值；

的计算如下：

x^*，y^*，w^*，h^*是特征标注中心坐标和宽高值。

进一步的，所述依据所述损失函数训练所述特征提取模型和所述特征识别模型，得到目标口腔异常检测模型的步骤，包括：

对所述识别结果进行监督学习，获得修正后的候选框以及异常类别的置信参数，具体的，通过综合损失函数对所述识别结果进行训练，用于监督整个学习过程；

依据置信参数和修正后的候选框，通过非极大值抑制算法，抑制不同候选框的重复结果；

所述综合损失函数是通过分类损失函数和回归损失函数得出，具体为：

公式中，λ表示表示权重，N_c1s表示进行分类损失函数的次数，N_reg表示进行损失函数的次数。

进一步的，所述口腔异常问题包括9种，其9种口腔异常问题具体为：根尖阴影问题、龋齿问题、智齿问题、空缺问题、根管填充问题、龋齿充填问题、种植问题、烤瓷牙问题、烤瓷冠问题。

进一步的，所述9种口腔异常问题的所述图像特征，其中所述9种口腔问题与所述图像特征一一对应，包括：牙齿根部出现黑色阴影、牙齿硬组织出现破损、口腔内牙槽骨上最里面的第三颗恒磨牙、缺失牙齿、对牙根进行填充，因填充物质密度大，牙根显示为亮白色、对破损的牙齿硬组织进行填充，因填充物质密度大，牙齿硬组织显示为白色、牙根整体由柱状性的桩进行填充，填充区域粗、对牙冠进行填充，因填充物质密度大，牙冠显示为白色、与烤瓷牙区别在于出现两个或者两个以上的牙冠填充连在一起。

进一步的，所述依据所述损失函数训练所述特征提取模型和所述特征识别模型，得到目标口腔异常检测模型之后，还包括：

将所述异常区域坐标和分类结果一起返回，并进行可视化展示，包括：

将包含候选框的所述异常区域坐标和分类结果一起返回，并打印到所述口腔全景X光片。

本发明实施例还公开了基于全景X光片的口腔异常检测模型的训练装置，包括：

初始模块，用于获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注；其中，所述初始口腔异常检测模型包括特征提取模型和特征识别模型；所述特征标注包括特征分类标注和目标定位标注；

样本提取模块，用于通过所述特征提取模型提取所述样本图像的图像特征；

识别处理模块，用于通过所述特征识别模型对所述图像特征进行识别处理，得到所述样本图像的识别结果和与所述识别结果对应的置信参数，所述置信参数用于指示所述识别结果的置信度；其中，所述识别结果包括特征分类结果和目标定位结果；

函数确定模块，用于基于所述识别结果、所述置信参数和所述特征标注确定损失函数；

函数训练模块，用于依据所述损失函数训练所述特征提取模型和所述特征识别模型，得到目标口腔异常检测模型。

一种设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的基于全景X光片的口腔异常检测模型的训练方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的基于全景X光片的口腔异常检测模型的训练方法的步骤。

本申请具有以下优点：在本申请的实施例中，通过基于全景X光片的口腔异常检测模型的训练方法，所述方法应用于通过口腔全景X光片进行口腔异常的检测；所述方法包括：获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注；其中，所述初始口腔异常检测模型包括特征提取模型和特征识别模型；所述特征标注包括特征分类标注和目标定位标注；通过所述特征提取模型提取所述样本图像的图像特征；通过所述特征识别模型对所述图像特征进行识别处理，得到所述样本图像的识别结果和与所述识别结果对应的置信参数，所述置信参数用于指示所述识别结果的置信度；其中，所述识别结果包括特征分类结果和目标定位结果；基于所述识别结果、所述置信参数和所述特征标注确定损失函数；依据所述损失函数训练所述特征提取模型和所述特征识别模型，得到目标口腔异常检测模型。通过利用深度学习等人工智能技术辅助医生进行口腔全景X光片全面诊断、提高检查效率与便捷度具有重要应用价值和社会效益。

附图说明

为了更清楚地说明本申请的技术方案，下面将对本申请的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的基于全景X光片的口腔异常检测的训练方法的步骤流程图；

图2是本申请一实施例提供的口腔异常检测模型的快速区域卷积神经网络结构示意图；

图3是本申请一实施例提供的口腔异常检测模型的特征区域示意图；

图4是本申请一实施例提供的口腔异常检测模型的特征金字塔网络结构示意图；

图5是本申请一实施例提供的口腔异常检测模型的特征金字塔网络融合快速区域卷积神经网络的结构示意图；

图6是本发明一实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的所述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本发明任一实施例中，基于全景X光片的口腔异常检测的训练方法，所述方法应用于通过口腔全景X光片进行口腔异常的检测。置信度，包括一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围，即所述的“一定概率”。这个概率被称为置信度。

参照图1，示出了本申请一实施例提供的基于全景X光片的口腔异常检测的训练方法，所述方法应用于通过口腔全景X光片进行口腔异常的检测；所述方法包括：

S100、获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注；其中，所述初始口腔异常检测模型包括特征提取模型和特征识别模型；所述特征标注包括特征分类标注和目标定位标注；

S200、通过所述特征提取模型提取所述样本图像的图像特征；

S300、通过所述特征识别模型对所述图像特征进行识别处理，得到所述样本图像的识别结果和与所述识别结果对应的置信参数，所述置信参数用于指示所述识别结果的置信度；其中，所述识别结果包括特征分类结果和目标定位结果；

S400、基于所述识别结果、所述置信参数和所述特征标注确定损失函数；

S500、依据所述损失函数训练所述特征提取模型和所述特征识别模型，得到目标口腔异常检测模型。

在本申请的实施例中，通过利用深度学习等人工智能技术辅助医生进行口腔全景X光片全面诊断、提高检查效率与便捷度具有重要应用价值和社会效益。通过结合深度学习技术和口腔临床经验知识，实现基于口腔全景X光片的口腔异常智能筛查检测技术，进一步提高口腔医生诊疗的精准度和效率，有效地解决口腔全景X光片临床诊断存在的缺陷，促进新一代人工智能技术在口腔健康服务及辅助诊疗方面的应用发展。

下面，将对本示例性实施例中基于全景X光片的口腔异常检测的训练方法作进一步地说明。

如所述步骤S100获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注；其中，所述初始口腔异常检测模型包括特征提取模型和特征识别模型；所述特征标注包括特征分类标注和目标定位标注。

在本发明一实施例中，可以结合下列描述进一步说明步骤S100所述“获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注”的具体过程。

如下列步骤所述获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注，特征标注包括对9种口腔异常问题的分类特征标注；其中，分类特征标注，包括在所述样本图像上，标注有9种口腔异常问题的所述图像特征；所述目标定位标注，包括在所述样本图像上的所述图像特征的目标定位标注；其中，所述9种口腔异常问题包括：根尖阴影问题、龋齿问题、智齿问题、空缺问题、根管填充问题、龋齿充填问题、种植问题、烤瓷牙问题、烤瓷冠问题。

需要说明的是，所述9种口腔异常问题的所述图像特征，其中所述9种口腔问题与所述图像特征一一对应，包括：牙齿根部出现黑色阴影、牙齿硬组织出现破损、口腔内牙槽骨上最里面的第三颗恒磨牙、缺失牙齿、对牙根进行填充，因填充物质密度大，牙根显示为亮白色、对破损的牙齿硬组织进行填充，因填充物质密度大，牙齿硬组织显示为白色、牙根整体由柱状性的桩进行填充，填充区域粗、对牙冠进行填充，因填充物质密度大，牙冠显示为白色、与烤瓷牙区别在于出现两个或者两个以上的牙冠填充连在一起。

如所述步骤S200所述通过所述特征提取模型提取所述样本图像的图像特征。

在本发明一实施例中，可以结合下列描述进一步说明步骤S200所述“通过所述特征提取模型提取所述样本图像的图像特征”的具体过程。

如下列步骤所述通过所述特征提取模型提取所述样本图像的图像特征；

通过所述特征提取模型对所述样本图像进行卷积运算，获得特征图，具体的，通过第一融合网络对所述样本图像进行至少三次卷积，获得对应于特征向量的所述特征图；其中，所述特征提取模型包括ResNet50，以及由FPN和Faster R-CNN组成的第一融合网络；所述特征向量相对于所述样本图像存在一一对应的映射关系；对所述特征图进行图像特征提取，获得候选框，并依据所述特征图和所述候选框，生成与所述候选框的位置坐标对应的特征区域数据；具体的，对所述特征图对应的所述特征向量进行两次全连接，得到候选框的位置坐标，并判断所述候选框内是否存在目标；对所述特征区域数据进行池化，获得图像特征的分类特征数据集合和候选框回归；其中，所述分类特征数据集合用于特征识别模型。

在本发明一实施例中，可以结合下列描述进一步说明“通过所述特征提取模型对所述样本图像进行卷积运算，获得特征图”的具体过程。

通过第一融合网络对所述样本图像进行至少三次卷积，获得对应于特征向量的所述特征图；其中，所述特征提取模型包括ResNet50，以及由FPN和Faster R-CNN组成的第一融合网络；所述特征向量相对于所述样本图像存在一一对应的映射关系，具体的，对所述图像特征进行残差卷积，获得残差卷积数据；对所述残差卷积数据进行1*1卷积的特征融合，生成与所述残差卷积数据对应的融合特征数据；对每层所述融合特征数据自上而下依次进行上采集，并更新所述融合特征数据；对所述融合特征数据进行进行3*3卷积的横向预测，生成与所述融合特征数据对应的预测图；对每层所述预测图自下而上依次进行下采集，并更新所述预测图，获得特征图。

作为一种示例，快速区域卷积神经网络(Faster R-CNN)的架构如附图2所示，首先对口腔全景X光片进行卷积生成特征图，此时卷积层取决于选用的初始模型，接下来进行特征区域提取(Region Proposal)，而这也是快速区域卷积神经网络中最重要的一个环节，最后根据该步骤生成的特征区域找到并匹配对应的特征图，进行感兴趣区域池化(RoIPooling)，将其送入分类和候选框回归。需要说明的是原图中的标注特征区域即为感兴趣区域，当用于检测目标时，目标图像中的特征区域即为感兴趣的区域。

进一步，对样本图像进行卷积生成特征图，包括：对所述样本图像进行3*3的卷积，获得H*W个256维的特征向量；对每个所述特征向量进行两次全连接，判断所述特征区域是否具存在目标，以及确定所述特征区域相对于所述特征图的位置坐标，其中，每个所述特征向量相对于所述特征图存在一一对应的映射关系；以所述特征区域的左上角或中心作为锚点，生成k个候选框(即H*W个向量)，其中，每个所述特征向量对应所述特征图k个候选框。

如图3所示，对样本图像进行3*3的卷积操作，最终得到H*W个256维的向量。接下来对每个特征向量进行两次全连接操作，一个是用来判断该区域是否有物体，另一个是用来确定该区域相对于原图的位置坐标(x、y、w、h)，每个向量相对于原图存在一一映射关系，对应原图上的部分区域，但该区域很小，以该区域的左上角或者中心作为锚点，生成k个框，即H*W个向量，每个向量对应原图k个框，而k的确定是由大小和比例两者确定，生成的k个框需要有不同的尺寸大小，尺寸的变化通过修改长宽大小和长宽比来体现，为了适应原图尺寸大小分别为128*128、256*256、512*512，比例分别为2:1、1:1、1:2，所以k为9个(3种大小*3种比例)，由此可知对于每个向量，需要生成2*9个分数判断是否有物体，4*9个坐标确定区域位置。需要说明的是原图为样本图像，当进行检测时，原图为检测的目标图像。

在本发明一实施例中，如图5所示，所述通过所述特征提取模型提取所述样本图像的图像特征的步骤，包括：

通过所述特征提取模型对所述样本图像进行卷积运算，获得特征图，具体的，通过第一融合网络对所述样本图像进行至少三次卷积，获得对应于特征向量的所述特征图；其中，所述特征提取模型包括ResNet50，以及由FPN和Faster R-CNN组成的第一融合网络，其中，所述特征向量相对于所述样本图像存在一一对应的映射关系；对所述特征图进行图像特征提取，获得候选框，并依据所述特征图和所述候选框，生成与所述候选框的位置坐标对应的特征区域数据；具体的，对所述特征图对应的所述特征向量进行两次全连接，得到候选框的位置坐标，并判断所述候选框内是否存在目标；对所述特征区域数据进行池化，获得图像特征的分类特征数据集合和候选框回归；其中，所述分类特征数据集合用于特征识别模型。

在一具体实现中，如图5所示，所述通过所述特征提取模型对所述样本图像进行卷积运算，获得特征图的步骤，包括：对所述图像特征进行残差卷积，获得残差卷积数据C2、C3、C4、C5、C6；对所述残差卷积数据C2、C3、C4、C5、C6进行1*1卷积的特征融合，生成与所述残差卷积数据C2、C3、C4、C5、C6对应的融合特征数据p2、p3、p4、p5、p6；对每层所述融合特征数据p2、p3、p4、p5、p6自上而下依次进行上采集，并更新所述融合特征数据p2、p3、p4、p5、p6；对所述融合特征数据p2、p3、p4、p5、p6进行进行3*3卷积的横向预测，生成与所述融合特征数据p2、p3、p4、p5、p6对应的预测图FPN/p2、FPN/p3、FPN/p4、FPN/p5、FPN/p6；对每层所述预测图p2、p3、p4、p5、p6自下而上依次进行下采集，并更新所述预测图p2、p3、p4、p5、p6，获得特征图。对所述特征图对应的所述特征向量进行两次全连接，得到候选框的位置坐标，并判断所述候选框内是否存在目标，包括全连接所述若干层预测图FPN/p2、FPN/p3、FPN/p4、FPN/p5、FPN/p6，生成与获得候选框，以及所述与所述候选框的位置坐标对应的特征区域数据；

对所述特征区域数据进行筛选，获得包含候选框的筛选结果；对所述筛选结果进行池化，获得识别结果和与所述识别结果对应的置信参数。

如所述步骤S300所述通过所述特征识别模型对所述图像特征进行识别处理，得到所述样本图像的识别结果和与所述识别结果对应的置信参数，所述置信参数用于指示所述识别结果的置信度；其中，所述识别结果包括特征分类结果和目标定位结果；

根据输出分类和候选框回归，确定异常区域坐标；

L_i＝{x,y,w,h}∈L,(i＝0,1,2…)，

作为一种示例，特征金字塔网络本身并不是用于检测的算法，他需要和目标检测算法相结合，提高检测精确度。本发明利用特征金字塔网络和Faster R-CNN的融合，对口腔全景X光片进行检测。对于快速区域卷积神经网络来说，生成一层特征图，通过将特征金字塔网络结合快速区域卷积神经网络，主要需要改动的是特征提取区域网络的特征图层数。如图5所示，例如，快速区域卷积神经网络的初始模型选择的是ResNet50，金字塔的层数对应下采样的次数，通过横向连接，本层下采样特征图和自上而下连接的上一层特征图上采样后的特征进行相连，生成本层金字塔特征图，对应附图中的p2、p3、p4、p5和p6，FPN/p2、FPN/p3、FPN/p4、FPN/p5和FPN/p6筛选出200-1000个候选框，然后进行池化(RoI Pooling)，最后进行分类和候选框回归。

需要说明的是，所述特征金字塔网络是从低层到高层的语义信息，构建一个具有高层次语义的特征金字塔网络(FPN)如图4所示，其包括一个自下而上的通道(Bottom-upPathway)、自上而下的连接(Top-up Pathway)和横向连接(Lateral Connections)。自下而上的通道是主干框架的前馈计算，以完全卷积的方式在多个层次上输出成比例大小的特征图(Feature Map)。自上而下的连接和横向连接作为该网络中最为重要的一部分，自上而下的连接产生高分辨率的特征，主要是通过对来自更高层的金字塔层次的特征图进行空间上粗糙但是语义上更强的上采样产生，每个横向连接合并自下而上与自上而下连接中具有相同空间大小的特征图，得到新的特征图，该特征图融合了不同层的特征，具有更丰富的信息。

如所述步骤S400所述基于所述识别结果、所述置信参数和所述特征标注确定损失函数；依据所述特征分类结果和所述特征分类标注确定多标签目标分类损失函数，所述多标签目标分类损失函数具体为：

表示用于监督学习的特征标注；

所述所述基于所述识别结果、所述置信参数和所述特征标注确定损失函数，还包括：

其中，

公式中，表示候选框的4个参数，

是特征标注的4个坐标参数；

t_x，t_y，t_w，t_h的计算公式如下：

t_x＝(x-x_a)/w_a；t_y＝(y-y_a)/h_a；t_w＝log(w/w_a)；t_h＝log(h/h_a)；

的计算如下：

x^*，y^*，w^*，h^*是特征标注中心坐标和宽高值。

如所述步骤S500所述依据所述损失函数训练所述特征提取模型和所述特征识别模型，得到目标口腔异常检测模型；

在本发明一实施例中，对所述识别结果进行监督学习，获得修正后的候选框以及异常类别的置信参数，具体的，通过综合损失函数对所述识别结果进行训练，用于监督整个学习过程；依据置信参数和修正后的候选框，通过非极大值抑制算法，抑制不同候选框的重复结果；

公式中，λ表示表示权重，N_cls表示进行分类损失函数的次数，N_reg表示进行损失函数的次数。

需要说明的是，本发明通回归损失函购数和多标签目标损失函数构建新的综合损失函数处理一个物体对应一个标注的问题，进一步提高应用时识别的准确率和识别精度。使用新的分类损失函数有益效果还包括，与以往目标检测数据集一个物体对应一个标注不同的是，本发明所涉及的数据集，同一颗牙齿会有多个标注，而现有的目标检测损失函数，会使多个标注之间进行竞争，从而导致分类不够精确或出现遗漏的问题，由此本发明使用新的多标签分类损失函数进行分类，避免出现上述问题。

在上述实施例中，本发明对每个候选框，不像现有技术中一般做法一样预测单个实例，而是预测一组可能包含多个标注的集合，然后再用新的非极大值抑制(NMS)技术来移除重复的预测结果。对应附图5中的多标签分类(Multi-labelclsloss)+回归模块(Bboxloss模块)，多标签分类和回归模块将使用以下两个技术：新的综合损失函数，用于监督预测的学习过程；对于标注集合的非极大值抑制(NMS)后处理方法，用以抑制来自不同后续候选框的重复结果。

需要说明的是，MS概念，NMS也即非极大值抑制。在常见的物体检测算法(包括RCNN、SPPET、FAST-RCNN、FASTER-RCNN等)中，最终都会从一张图片中找出很多个可能是物体的矩形框，然后为每个矩形框为做类别分类概率：所谓非极大值抑制：依靠分类器得到多个候选框，以及关于候选框中属于类别的概率值，根据分类器得到的类别分类概率做排序，具体算法流程如下：(1)将所有框的得分排序，选中最高分及其对应的框(2)遍历其余的框，如果和当前最高分框的重叠面积(IOU)大于一定阈值，我们就将框删除。(为什么要删除，是因为超过设定阈值，认为两个框的里面的物体属于同一个类别，比如都属于蛀牙这个类别。只需要留下一个类别的可能性框图即可。)(3)从未处理的框中继续选一个得分最高的，重复上述过程。

在上述实施例中，将异常区域坐标和分类结果最终一起返回，并且将这两个结果打印在口腔全景X光片上，以可视化的形式展示给牙医。可使用红色框和绿色字体表示牙医标注的数据(Ground Truth，简称GT)，可使用橙色框和蓝色字体表示测试结果。根据在全景X光片上显示的根尖阴影、龋齿、智齿、空缺、烤瓷冠和烤瓷牙，以及根管填充、龋齿充填、烤瓷冠和烤瓷牙的、种植、龋齿和智齿，检测后通过标注的形式结出检测结果。

本发明的实施例中，可参照以下实验数据，通过与医院合作通过获取到的上千张高质量、高分辨率的口腔全景X光片，同时，和专业牙科医生进行多次沟通探讨，最终本发明确定检测9类口腔异常问题，分别为根尖阴影、龋齿、智齿、空缺、根管填充、龋齿充填、种植、烤瓷牙、烤瓷冠，以此为基础得进行训练。

本发明的标注工作由多名专业牙医完成，共标注1415张口腔全景X光片。表1显示了每类口腔异常标注数量、异常特点和影像表现。

如下表1所示，每类口腔异常标注数量、异常特点以及影像表现，本发明实施例中，通过选取1415张口腔全景X光片，通过训练，识别得出检测检准确率高，作为本发明示例，通过此示例可达到80％以上的检测精度；

表1、每类口腔异常标注数量、异常特点以及影像表现

本发明提出的基于全景X光片的口腔异常检测的训练方法，所述方法应用于通过口腔全景X光片进行口腔异常的检测，具有以下优点：

即时检测。与人工阅片相比，本发明采用自动化、智能化的深度学习方法，可以快速判别口腔异常。通过多次预测，可以得到每预测100张图片，仅需20秒左右(包含启动时间)的便能得到检测结果，实现快速高效的识别。

准确性高。该发明测试结果的准确性如表2所示，大部分准确性在80％以上，作为医学辅助工具，既可以当作人工阅片前的先验经验，也可以用于对人工阅片结果的复检，提高牙医判断精确度。

覆盖率高。本发明所涉及的口腔异常问题覆盖范围广，同时，在检测期间，不仅可以快速定位患者主诉牙问题，同时可以发现潜在的口腔疾病，把握最佳治疗时间，避免口腔问题恶化加重患者痛苦和加大牙医工作量。

需要说明的是，本发明识别准确率受限于实验时机器学习训练的数据量相对较小，在实际运用中，根据不断模型输入、学习增加训练的数据量，可以使准确率更进一步得到提高。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本申请的实施例中，示出了本申请一实施例提供的基于全景X光片的口腔异常检测的训练装置；具体包括：

初始模块，用于获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注；其中，所述初始口腔异常检测模型包括特征提取模型和特征识别模型；所述特征标注包括特征分类标注和目标定位标注；样本提取模块，用于通过所述特征提取模型提取所述样本图像的图像特征；其中，所述图像特征包括异常类别；识别处理模块，用于通过所述特征识别模型对所述图像特征进行识别处理，得到所述样本图像的识别结果和与所述识别结果对应的置信参数，所述置信参数用于指示所述识别结果的置信度；其中，所述识别结果包括特征分类结果和目标定位结果；函数确定模块，用于基于所述识别结果、所述置信参数和所述特征标注确定损失函数；函数训练模块，用于依据所述损失函数训练所述特征提取模型和所述特征识别模型，得到目标口腔异常检测模型。

参照图6，示出了本发明的基于全景X光片的口腔异常检测的训练方法的计算机设备，具体可以包括如下：

上述计算机设备12以通用计算设备的形式表现，计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线18结构中的一种或多种，包括存储器总线18或者存储器控制器，外围总线18，图形加速端口，处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线18，微通道体系结构(MAC)总线18，增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块42，这些程序模块42被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得医护人员能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)界面22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN))，广域网(WAN)和/或公共网络(例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白，尽管图6中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的基于全景X光片的口腔异常检测的训练方法。

也即，上述处理单元16执行上述程序时实现：获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注；其中，所述初始口腔异常检测模型包括特征提取模型和特征识别模型；所述特征标注包括特征分类标注和目标定位标注；通过所述特征提取模型提取所述样本图像的图像特征；其中，所述图像特征包括异常类别；通过所述特征识别模型对所述图像特征进行识别处理，得到所述样本图像的识别结果和与所述识别结果对应的置信参数，所述置信参数用于指示所述识别结果的置信度；其中，所述识别结果包括特征分类结果和目标定位结果；基于所述识别结果、所述置信参数和所述特征标注确定损失函数；依据所述损失函数训练所述特征提取模型和所述特征识别模型，得到目标口腔异常检测模型。

在本发明实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有实施例提供的基于全景X光片的口腔异常检测的训练方法：

也即，给程序被处理器执行时实现：获取样本图像和初始口腔异常检测模型，所述样本图像具有特征标注；其中，所述初始口腔异常检测模型包括特征提取模型和特征识别模型；所述特征标注包括特征分类标注和目标定位标注；通过所述特征提取模型提取所述样本图像的图像特征；其中，所述图像特征包括异常类别；通过所述特征识别模型对所述图像特征进行识别处理，得到所述样本图像的识别结果和与所述识别结果对应的置信参数，所述置信参数用于指示所述识别结果的置信度；其中，所述识别结果包括特征分类结果和目标定位结果；基于所述识别结果、所述置信参数和所述特征标注确定损失函数；依据所述损失函数训练所述特征提取模型和所述特征识别模型，得到目标口腔异常检测模型。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机克顿信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPOM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在医护人员计算机上执行、部分地在医护人员计算机上执行、作为一个独立的软件包执行、部分在医护人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到医护人员计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的基于全景X光片的口腔异常检测的训练方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。