CN116205925A

CN116205925A - 基于改进U-Net网络的牙齿咬合翼片龋齿分割方法

Info

Publication number: CN116205925A
Application number: CN202211643401.XA
Authority: CN
Inventors: 刘瑞军; 韩致远; 王晨
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-06-02

Abstract

本申请公开了一种基于改进U‑Net网络的牙齿咬合翼片龋齿分割方法。该方法包括基于改进U‑Net网络模型，在U‑Net网络的普通卷积后加入了DropBlock，保持该网络编码器‑解码器的架构和跳跃连接，在编码‑解码结构的底部添加一个非局部自注意力机制模块，对牙齿咬合翼片图像数据中的患龋区域进行分割并输出结果。本申请能够更好地提取图像的相关特征，有效地缓解网络过拟合，在不增加参数数量的情况下，通过扩大感受野来增强像素信息的相关性，提高龋齿分割的精确度和鲁棒性，辅助龋齿更高效率的检测。

Description

基于改进U-Net网络的牙齿咬合翼片龋齿分割方法

技术领域

本申请属于计算机视觉领域，特别涉及了一种基于改进U-Net网络的牙齿咬合翼片龋齿分割方法。

背景技术

据估计，目前全球近一半人口受到口腔疾病的影响，其中23亿人患有永久性龋齿。龋齿的临床治疗仍然有限，因为一旦出现严重程度的龋齿，就不可能再矿化，只能进行破坏性拔牙。因此，在早期发现龋齿并防止进一步的龋齿过程尤为重要。然而，龋齿的有效诊断仍然很困难，因此，国际口腔研究受到了广泛关注。传统的龋齿临床检测主要依靠牙医的视觉检查，这取决于个人经验，主观性很强，因此容易出现错误判断。此外，早期龋齿很难用肉眼区分，尤其是发生在牙齿相邻表面等区域的龋齿。牙齿咬合翼片被认为是检测肉眼看不见的龋齿的标准，它也有助于了解龋齿的深度。然而，口腔医生在读取X光图像方面的经验将影响龋齿检测结果，因为经验较少的年轻牙医可能会导致一些不明显龋齿的漏检。另一方面，检查大量的X射线图像也增加了医生的工作量。因此，迫切需要一种具有高重复性和准确性的自动检测方法，为临床口腔医生提供客观的龋病诊断帮助。计算机自动检测方法可以显著节省人力资源和医疗资源，帮助专业医生进行诊断，更快、更准确地完成疾病筛查，提高口腔疾病诊断效率。具有很好的实用意义和医学价值。

一些研究人员专注于利用咬合翼片图像进行计算机辅助龋齿检测。提出了利用选定的特征在全景牙科X光图像中检测龋齿的方法，并使用前馈人工神经网络对是否存在龋齿进行分类。或者是使用无监督学习模型用于龋齿检测，并取得了良好的效果。然而，所有这些研究都只进行龋齿检测，不涉及分割。龋齿分割也很重要，因为它提供了更多关于龋齿程度的信息，例如龋齿的面积，这可能是进一步龋齿分类的先决条件。

随着人工智能研究的迅速崛起，深度学习已被广泛应用于各种医学成像任务中，并取得了显著的成功。与传统方法相比，深度学习具有强大的特征表示自提取能力和网络结构的灵活性，对复杂干扰具有更强的鲁棒性。在临床口腔领域，一些研究人员尝试使用深层卷积神经网络(CNN)分割牙齿，并证实了有希望的结果。然而，到目前为止，基于深度学习的龋齿分割研究还很少。

U-Net的出现奠定了医学影像语义分割的基础，它启发了大量研究人员去探索“U”型语义分割网络的上限。U-Net仿造FCN的编码-解码结构，将编码(特征提取)路径和解码(分辨率恢复)路径嵌入分割网络。

虽然在一些研究中使用了U-Net，但没有充分利用网络提取的特征，分割的综合指标也不能满足临床要求。对于深度学习方法来说，龋齿分割仍然是一项艰巨的任务。牙齿X射线图像通常具有干涉性和低对比度，因此很难从背景中分割出病变区域。此外，龋齿病变的规模多样，早期病变很难识别，这是龋齿分割的另一个难点。

发明内容

本申请所要解决的技术问题在于分割出图像中患龋部位的病变区域。该方法包括基于改进U-Net网络模型，在U-Net网络的普通卷积后加入了DropBlock，保持该网络编码器-解码器的架构和跳跃连接，在编码-解码结构的底部添加一个非局部自注意力机制模块，对牙齿咬合翼片图像数据中的患龋区域进行分割并输出结果。本申请能够更好地提取图像的相关特征，有效地缓解网络过拟合，在不增加参数数量的情况下，通过扩大感受野来增强像素信息的相关性，提高龋齿分割的精确度和鲁棒性，辅助龋齿更高效率的检测。

根据本申请的一个方面，一种基于改进U-Net网络的牙齿咬合翼片龋齿分割方法包括：获取用于分割的牙齿咬合翼片图像数据；对所述牙齿咬合翼片图像数据进行标注和预处理，得到用于训练和测试的语义分割数据集；

通过改进U-Net网络进行图像语义分割：将所述语义分割数据集输入所述U-Net网络；在U-Net网络中加入非局部自注意力机制模块，同时，在U-Net网络的普通卷积后加入DropBlock消除语义信息中的冗余；牙齿图像分割算法训练：网络Epoch设置为200，batch_size设置为4，选择Adam为梯度下降优化器；学习速率调整为1e-5，同时采用交叉验证的方式进行训练；将牙齿咬合翼片中患龋区域的分割结果进行可视化输出。

其中，所述牙齿咬合翼片图像数据包含牙齿的X线图片数据；对所述牙齿咬合翼片图像数据进行标注包括：根据临床视觉触觉检查的结果，将每一个龋齿都用一个边框标出，作为参考注释；利用Labelme标记图像中龋齿，生成json格式的标签文件；对所述牙齿咬合翼片图像数据进行预处理：利用对比度受限的自适应直方图均衡和gamma校正，对原始图像数据进行对比度调整；通过对图像进行水平翻转、垂直翻转、随机平移、随机裁剪与填充和引入椒盐噪声的方式进行数据增强，扩充数据集样本。对所述数据集中，每个图像数据对应的json格式的标签文件，也作相应的预处理操作和数据增强。

其中，通过改进U-Net网络进行图像语义分割还包括：

以U-Net网络为基础，将数据集图像作为输入，编码器部分用于提取特征和下采样，主要用于加强龋齿特征的细节提取，其由3×3卷积和2×2最大池组成。编码器由四个卷积块组成，其中每个卷积块执行两个卷积、一个批处理化、激活函数ReLU和1个最大池化层，用于下采样。每次下采样都会使特征图的数量翻倍，并且特征图的大小会逐渐减小，以捕获更高级别的语义信息，生成73×73的特征图。

网络的右侧部分是解码器，包括一个2×2转置卷积块，用于上采样和减半特征通道的数量，然后与来自编码器的相应特征图连接，然后与卷积块连接。在最后一层进行1×1卷积，以改变信道维度，并利用sigmoid激活函数生成最终的分割图。

利用解码器与编码器之间通过跳跃连接进行特征图融合，使得不同层龋齿特征融合连接到解码相对应层中，实现特征的提取和龋齿位置定位。

其中，在解码器与编码器之间的跳跃连接进行特征融合还包括：在所述解码器与编码器之间的跳跃连接中加入非局部自注意力机制模块，将该模块作为一个组件嵌入到U-Net网络结构中，引入注意力机制模块捕捉了像素的空间相关性，提高龋齿区域的识别率。

其中，改进U-Net网络，在U-Net网络的普通卷积后加入了DropBlock，是一种针对卷积层的正则化。通过DropBlock对每个特征图进行裁剪，舍弃掉一部分区域中的像素，将输入图像的一些权重和偏差归零，以使网络专注于更多特征并防止过度拟合。可以在一定程度上去除语义信息中的冗余，并使学习到的特征更加健壮。

其中，对所述分割数据集划分出训练集和测试集，其中，利用样本量估计公式计算测试集的样本，而将数据集中剩余的样本作为训练集的样本；将训练集和测试集中图片对应的json格式标签文件，也一一对应划分出来。

其中，对用于龋齿分割的改进后的U-Net网络在训练时采用Adam优化器，所述Adam优化器的学习率为1e-5，所述训练网络Epoch(将所有训练样本训练一次的过程)为200，batch size(批处理大小)设置为4。

与现有技术相比，本发明的有益效果是：主要包括以下几个方面：

一、本技术可以显著节省人力资源和医疗资源，辅助专业医生进行龋病诊断，更快、更准确地完成疾病筛查，提高龋齿诊断的效率，具有很好的实用意义和医学价值。实现牙齿咬合翼片图像中患龋部位的语义分割，能够促进龋齿分割技术的发展。

二、目前，许多研究工作都致力于解决龋齿的分割诊断问题。对于龋齿分割任务，大多数的方法都是在基于编解码结构的网络上进行的。本技术在编解码网络的基础上添加非局部自注意力模块，可以充分利用网络提取的特征，提高龋齿病变区域的识别率。

三、本技术基于的U-Net网络，引入了DropBlock，在一定程度上消除了语义信息中的冗余，使网络关注更多的特征，防止网络的过拟合，使学习到的特征更加健壮。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请技术基于改进U-Net网络的牙齿咬合翼片龋齿分割方法的流程示意图；

图2是U-Net网络中加入非局部自注意力机制模块之后的示意图；

图3是改进后的U-Net网络结构，用于龋齿分割。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

以下结合图1、图2和图3所示，图1为图1是本发明提供的一种基于改进U-Net网络的牙齿咬合翼片龋齿分割方法的流程图，图2是U-Net网络中加入非局部自注意力机制模块之后的示意图，图3是改进后的U-Net网络结构。本发明提供的基于改进U-Net网络的牙齿咬合翼片龋齿分割方法，包括：

实施过程主要包括三个步骤：数据集的获取与预处理；对U-Net模型进行改进；模型网络的训练和测试。

S1、数据集获取与收集。由于医学图像数据的特殊性，目前临床口腔领域缺少可以应用的大型公开数据集，所以，首先需要获取用于该方案的小型牙齿咬合翼片图像数据集。

具体的，步骤S1具体为：

S101、采集研究中所需要的牙齿咬合翼片图像。入选标准：相邻表面有明显或疑似龋病的牙齿，无发育异常，无假体，无牙周病等其他会影响判断的情况，以此作为初始数据。

S2、数据集预处理。由具有丰富临床经验的专业口腔医生对所有收集到的牙齿咬合翼片图像进行标记，划分出具体的龋齿区域。然后，我们使用软件LabelMe对图像进行标注。最后对图像及其标注的json文件进行图像预处理，可以提高图像的对比度；对数据集进行数据增强，可以有效地增强图像角度、牙齿形状、牙齿大小和龋面积等方面的样本多样性，使训练后的模型具有更好的泛化性能。

具体的，步骤S2具体为：

S201、所有收集到的牙齿咬合翼片均由具有丰富临床经验的专业口腔医生标记，划分出龋齿区域。

S202、使用LabelMe软件对所有的图像进行标注，生成json格式文件。

S203、为了改进收集到的咬合翼片图像，进一步增强区域边缘的特征以提高后续在图像语义分割中的算法性能，我们对牙齿图像数据集进行对比度校正预处理。利用对比度受限的自适应直方图均衡(Contrast Limited Adequate Histogram Equalization,CLAHE)和gamma校正，对图像数据集进行适当的对比度调整。

S204、由于牙齿咬合翼片X线片图像总体数量有限，我们通过数据增强的方式对数据集样本进行扩充。通过使用水平翻转、随机放大图像、随机平移、改变图像的对比度、改变图像的亮度等方式进行数据增强。这些方法可以有效地增强图像角度、牙齿形状、牙齿大小和龋面积等方面的样本多样性，使训练后的模型具有更好的泛化性能。

S205、将经过图像增强后的数据集中所有图片的大小调整为584×584。

S3、利用U-Net网络进行图像分割。整个主干网络左边是编码器部分，由四个卷积块组成。通过卷积和下采样来降低图像尺寸，进行特征提取。右边是解码器部分，由四个反卷积块组成，进行上采样。中间通过跳跃连接，进行特征图的叠加，最终输出分割图。

具体的，步骤S3具体为：

S301、主干特征提取网络以584×584预处理后的图片作为输入。网络的编码器部分进行特征提取，编码器由四个卷积块组成。每个卷积块都执行两次卷积，一个批处理归一化，激活函数ReLU，和一个用于下采样的最大池化层。每次下采样都会使得特征映射的数量增加一倍，并且特征映射的大小会逐渐减小，以捕获更高层次的语义信息。最终，生成大小为73×73的特征图。

S302、网络的右侧是解码器，包括三个2×2转置卷积块。对特征图进行上采样，并对特征通道数进行减半，然后与编码器的相应特征映射连接。在最后一层进行1×1卷积以改变通道尺寸，加入sigmoid激活函数，生成输出分割图。

S4、改进U-Net网络。在图像处理中，为方便对图像特征的提取和边缘的分割通常通过增加卷积层的数量来实现。连续卷积相应地可以扩展感受野，然而，连续卷积会使得网络层数增加，导致产生巨大的参数，降低计算效率，使得该方法不适合小数据集的医学图像分割。为解决这个问题，我们在U-Net网络中加入非局部自注意力机制模块进行改进。

具体的，步骤S4具体为：

S401、由于U-Net中使用连续卷积，导致了层数的增加产生了巨大的参数，降低了计算效率，使得该方法不适合于小数据集的医学图像分割。为解决这个问题，我们在U-Net网络中加入非局部自注意力机制模块进行改进。

S402、非局部自注意力机制模块的实现公式如下。

其中，i是计算响应的输出空间位置的索引，j列举所有可能的位置，x为图像输入，y是输出，大小与输入相同。函数f(x_i，x_j)计算输入x_i和x_j之间的相关性。一元函数g计算x_i处输入信号的特征值以交换信息，而C(x)是一个归一化函数，确保变换前后信息的整体不变性。

S403、为了将非局部自注意力机制模块与网络框架相结合，我们将其封装在Non-local块中，其表示形式如下，具体结合插入位置如图2所示:

z_i＝W_zy_i+x_i

其中y_i是Non-local块的输出，“+x_i”使用了残差连接，能够在不破坏原有网络结构的情况下，很容易将Non-local块嵌入到模型中。

S5、为了更好地提取图像的相关特征，有效缓解网络过拟合，我们在U-Net网络的普通卷积后加入了DropBlock。DropBlock可以在一定程度上消除了语义信息中的冗余，使学习到的特征更加健壮。将DropBlock作用于卷积层后，应用于每个特征图，对输入图像的某些权值和偏差归零，使网络关注更多的特征，防止过拟合。

具体的，步骤S5具体为：

S501、利用DropBlock作用于卷积层产生的每个特征图，对某些块进行随机置0。迫使了卷积层的神经元不能通过空间上的特征关联推理出已失活的区域信息，进而迫使网络从其他特征进行推理，起到正则化作用。

S502、DropBlock中设置了两个参数:一个参数是block_size，它表示drop像素区域的长度和宽度，一般设置block_size＝7为最优值。第二个参数是γ，它代表了每个元素被置0的概率，由下面的伯努利函数给出:

其中keep_prob是保存信息的比率,为0.8，feat_size是整个特征图的大小(即73×73)，feat_size-block_size+1是目标区域的大小。

S6、使用本方案改进的U-Net网络在构建的牙齿咬合翼片数据集上进行训练和测试，得到最终图像患龋区域的分割结果。

具体的，步骤S6具体为：

S601、为了探索测试数据集的样本量，我们采用具有客观性能标准的临床研究的样本量估计公式。

其中Z_1-α/2＝1.96,Z_1-β＝1.28，显著性水平α＝0.05,1-β＝0.9。预期的敏感度p和临床上可接受的敏感度的最低标准p₀分别假定为0.80和0.60。根据公式得出所需的测试集的样本量n。

S602、为了有足够的余地，可以将测试数据集大小确定为计算结果的两倍。

S603、训练和测试为了验证改进后的U-Net网络模型的鲁棒性和准确性，我们对其进行训练和测试。在将Epoch设置为200，batch_size设置为4，梯度下降优化器为Adam。学习速率调整为1e-5，以确保更好的收敛性，同时设置4个线程加快数据读取速度。

近年来，基于深度学习的算法在医学领域应用中取得了显著成就。目前在口腔医学领域，进行龋齿诊断使用的方法是利用U-Net网络分割咬合翼片的龋齿病变，与牙医人工检测的结果进行比较，并得出结论，深度学习模型可以帮助临床医生更准确地诊断龋齿。受上述方法的启发，本申请提出了一种基于改进U-Net网络的牙齿咬合翼片患龋区域的分割方法，基于U形深度网络中使用的编码器-解码器架构和跳跃连接的思想。首先，为了更好地提取图像的相关特征，有效缓解网络过拟合，我们在U-Net网络的普通卷积后加入了DropBlock。DropBlock可以在一定程度上消除了语义信息中的冗余，使学习到的特征更加健壮。然后，在编码-解码结构的底部添加一个非局部自注意力机制模块，在不增加参数数量的情况下，扩大感受野并增强像素信息的相关性。最后，根据分割出的病灶区域，实现最终的龋齿分割和检测。本技术对龋齿分割具有较好的准确性和鲁棒性，具有一定的实用价值。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.基于改进U-Net网络的牙齿咬合翼片龋齿分割方法，其特征在于，包括：

获取用于龋齿分割的牙齿咬合翼片图像数据；

对获得的牙齿咬合翼片图像数据进行标注和预处理，得到用于训练和测试的语义分割数据集；

通过改进U-Net网络进行图像语义分割；

将牙齿咬合翼片图像数据输入到改进的U-Net网络中，通过该网络，将患龋区域的分割结果输出。

2.根据权利要求1所述的方法，其特征在于，所述牙齿咬合翼片图像数据包含牙齿的X线片图像数据；

对所述牙齿咬合翼片图像数据进行标注包括：根据临床视觉触觉检查的结果，将每一个龋齿都用一个边框标出，作为参考注释；利用Labelme标记图像中龋齿，生成的json格式的标签文件，用于改进后模型的训练；

对所述牙齿咬合翼片图像数据进行预处理：利用对比度受限的自适应直方图均衡和gamma校正，对原始图像数据进行对比度调整；

通过对图像进行水平翻转、垂直翻转、随机平移、随机裁剪与填充和引入椒盐噪声的方式进行数据增强，扩充数据集样本。

每个图像数据对应的json格式的标签文件，也作相应的预处理操作和数据增强。

3.根据权利要求1所述的方法，其特征在于，通过改进U-Net网络进行图像语义分割还包括：

以U-Net网络为基础，将数据集图像数据作为输入，利用编码器对输入的图像数据进行降维和特征提取，利用编码器加强龋齿特征的细节提取；

4.根据权利要求3所述的方法，其特征在于，所述解码器与编码器之间的跳跃连接进行特征融合还包括：在所述解码器与编码器之间的跳跃连接中加入非局部自注意力机制模块，将该模块作为一个组件嵌入到U-Net网络结构中，引入注意力机制模块捕捉了像素的空间相关性，提高龋齿区域的识别率。

5.根据权利要求1所述的方法，其特征在于，所述改进U-Net网络，在U-Net网络的普通卷积后加入了DropBlock，是一种针对卷积层的正则化。通过DropBlock对每个特征图进行裁剪，舍弃掉一部分区域中的像素，将输入图像的一些权重和偏差归零，以使网络专注于更多特征并防止过度拟合。可以在一定程度上从语义信息中去除冗余，并使学习到的特征更加健壮。

6.根据权利要求2所述的方法，其特征在于，对所述咬合翼语义分割数据集划分出训练集和测试集，其中，利用样本量估计公式计算测试集的样本，而将数据集中剩余的样本作为训练集的样本；将训练集和测试集中图片对应的json格式标签文件，也一一对应划分出来。

7.根据权利要求1所述的方法，其特征在于，所述用于龋齿分割的改进后的U-Net网络在训练时采用Adam优化器，所述Adam优化器的学习率为1e-5，所述训练网络Epoch(将所有训练样本训练一次的过程)为200，batch size(批处理大小)设置为4。