CN115578406B

CN115578406B - 基于上下文融合机制的cbct颌骨区域分割方法及系统

Info

Publication number: CN115578406B
Application number: CN202211592276.4A
Authority: CN
Inventors: 马英梓; 何弦; 黄泽宇; 黄心悦; 翁恩怀; 王雅璇; 王世忠; 任嘉琪; 蒋宇寰; 黄欣怡; 李兆平; 唐于婷; 袁学东; 龙虎
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-04-07
Anticipated expiration: 2042-12-13
Also published as: CN115578406A

Abstract

本发明公开了基于上下文融合机制的CBCT颌骨区域分割方法及系统，涉及于计算机视觉技术领域，设计了一种新的神经网络结构CA‑Swin‑Unet，基于现有的Swin‑Unet的编码器部分和解码器部分进行网络结构上的改进，通过在解码器中添加上下文注意力模块TBCAM使得解码器在解析浅层语义时能考虑上下文语义，提高CBCT图像分割的质量，特别是对于颌骨来说，分割时考虑上下文语义，对于图像全局的把握更能有效分割出完整的颌骨，避免会过于依赖大量训练样本，非常适用于医学图像数量较少的场景。

Description

基于上下文融合机制的CBCT颌骨区域分割方法及系统

技术领域

本发明涉及于计算机视觉技术领域，具体涉及基于上下文融合机制的CBCT颌骨区域分割方法及系统。

背景技术

CBCT（锥形束 CT）采用低能锥束状射线，通过围绕患者被拍摄部位旋转成像，在口腔领域的应用中具有扫描速度快、轴向和矢状面空间分辨率高、定位准确、辐射量低、范围可选、旋转角度任意、且应用成本相对较低的优点，近年来逐步受到口腔临床医生的重视并大规模应用于口腔临床和科研。但人工处理医学图像是一个极其繁琐的工作过程，且常常由于处理图像者主观判断标准的不同，经人工分割医学图像实验在临床研究上的可重复性较低。

为了扩大 CBCT 在对颌骨区域的应用，将人工智能与 CBCT 结合起来，通过机器学习和图像识别技术，训练计算机自动选择出合适的片层，分割特定的颌骨区域并获取相应的数据，进而在此基础上实现颌骨区域的多元化拓展，如三维可视化，骨密度测定等等。其中，现有的用于 CBCT 牙齿图像图像分割方法主要有以下几种：

阈值分割是最常用的一种分割方法，需要图像分割部分与其他部分有较大的阈值差别，而CBCT图像灰度差异不明显，并且不同目标灰度值有重叠，尤其是牙槽骨部分，与牙齿的灰度值十分接近且有的区域上位置也接近，所以常常导致无效分割。

边缘分割适用于低噪声干扰，区域之间的性质差别很大的图像；但现各大医院采用的 CBCT 图像分辨率不高，并且噪点较多，所以分割效果不佳。

区域分割的前提是需得到具有区域结构的分割图，但CBCT图中各个牙齿形态各异，并且相同的牙齿在不同的平面上有不同的形态特点，所以此类分割容易造成图像的过度分割。

聚类分析的图像分割，其对初始参数极为敏感，时常需要人工干预参数的初始化以接近全局最优解，提高分割速度，而怎样确定聚类的有效性准则、在聚类中心的位置和特性事先不清楚时如何设置初始值这样的问题难以解决。

医学图像分割网络主要有 UNet、ResUnet、FPN、AttUNet 和UNet+CBAM等。但它们都是基于传统的卷积神经网络结构提出的，尽管个别网络引入了注意力机制，或者加入了更为强大的backbone，但是仍摆脱不了卷积神经网络结构带来的缺点：第一是卷积神经网络所具有的locality特性，这就导致卷积神经网络只会注意到图像局部的区域而忽略图像中相隔较远的区域，第二是训练样本不足，医学图像往往数量较少，而卷积神经网络的预训练效果往往不如从头训练，而在样本少的情况下，从头训练也不是一个好的办法；第三是计算复杂度，在相同计算成本下，CNN结构的神经网络在分割效果上往往不及 Transformer的神经网络结构。

发明内容

本发明所要解决的技术问题是：传统的卷积神经网络结构进行医学图像分割过程，只会注意到图像局部的区域而忽略图像中相隔较远的区域，影响颌骨区域分割的质量，且需要大量训练样本，计算复杂度也高；本发明目的在于提供基于上下文融合机制的CBCT颌骨区域分割方法及系统，设计一种新的神经网络结构CA-Swin-Unet，基于现有的 Swin-Unet 的编码器部分和解码器部分进行改进，通过在解码器中添加上下文注意力模块TBCAM使得解码器在解析深层语义时能考虑上下文语义，提高CBCT图像分割的质量。

本发明通过下述技术方案实现：

本方案提供基于上下文融合机制的CBCT颌骨区域分割方法，包括：

步骤一，获取颌骨原始CBCT图像；

步骤二，对颌骨原始CBCT图像进行预处理；

步骤三，将预处理后的图像输入已训练好的神经网络结构中进行分割得到颌骨区域分割图像；

所述神经网络结构为CA-Swin-Unet，包括编码器和解码器；所述解码器中添加上下文注意力模块TBCAM，用于在多个尺度捕获上下文信息以实现上下文语义信息融合。

本方案工作原理：统的卷积神经网络结构进行医学图像分割过程，只会注意到图像局部的区域而忽略图像中相隔较远的区域，影响颌骨区域分割的质量，且需要大量训练样本，计算复杂度也高；针对现有神经网络分割模型的不足，本发明目提供基于上下文融合机制的CBCT颌骨区域分割方法及系统，设计一种新的神经网络结构CA-Swin-Unet，基于现有的 Swin-Unet 的编码器部分和解码器部分进行改进，通过在解码器中添加上下文注意力模块TBCAM使得解码器在解析浅层语义时能考虑上下文语义，提高CBCT图像分割的质量；

CA-Swin-Unet基于 transformer 结构的网络，通用建模能力更强，有效的获取目标分割区域的特征；二是训练计算成本，CA-Swin-Unet结构的网络有很多预训练模型，根据这些预训练模型进行调整即可得到一个不错的效果，因此对于医学图像这样的小样本数据训练比较友好，不会过于依赖大量训练样本；对于医学图像这种边缘敏感的图像的分割质量比较高，特别是对于颌骨来说，分割时考虑上下文语义，对于图像全局的把握更能有效分割。

上下文注意力模块TBCAM是基于传统的CBAM模块改进而来，目的是为了在多个尺度捕获上下文信息，从而实现上下文语义信息的融合。

进一步优化方案为，所述上下文注意力模块TBCAM先将解码器不同层之间的特征图concat拼接后加入卷积实现特征融合，然后将特征融合后的数据输入卷积注意力模块CBAM中提取特征掩码，以筛选融合后的上下文特征。

进一步优化方案为，所述上下文注意力模块TBCAM的计算表达式为：

TBCAM(S_l) = patch_expand(CBAM(concat(S_l−1, patch_merge (S_l)))⊙ S_l)；

式中，S_l表示解码器中第 l 层 Transformer block 输出的特征图， patch_expand (*)表示一个上采样操作，通过减少通道数提高图像分辨率， patch_merge (*)表示一个下采样操作，通过提高通道数减小图像分辨率，作用都是使得l层和l-1层的Transformer block输出的特征图分辨率一致，从而可以直接 concat拼接(在通道维度上拼接)， CBAM(*) 表示卷积注意力模块用于得到融合了上下层语义的特征图的注意力权重图，⊙表示点乘。最后与 S_l点乘就可以得到融合了上下文语义的特征图。

本发明中的神经网络结构为CA-Swin-Unet结构网络，其结构包括编码器和解码器，以及两者之间的跳层连接， CA-Swin-Unet 结构网络是在 Swin-Unet的解码器上做出了有效的改进。

进一步优化方案为，所述编码器包括2n(n=3)个Swin Transformer模块，在每个Swin Transformer模块中，神经网络会通过注意力机制以及滑动窗口的方法来使得图片的各像素得到充分的互动，从而更好的提取需要被关注到的图像特征。在每两个SwinTransformer模块之间通过 Patch Merge方法来实现一种类似卷积的层级结构，编码器与解码器之间的跳层连接结构通过concat手段融合编码阶段和解码阶段的特征图，实现浅层特征和深层特征的融合，从而使得在解码的过程中浅层特征不会丢失。

进一步优化方案为，所述解码器的层与层之间通过上下文注意力模块TBCAM连接上下层的特征图。解码器是本发明改进的重点，与普通的Swin-Unet不同，本方案提出了一种新型的解码器结构，在解码器的层与层之间通过一个TBCAM 模块连接上下层的特征图，用于融合一些深浅层次特征，最后得到分割掩码图像。

解码器与编码器对称，都采用6个Swin Transformer块来抽取或者重构特征，但是解码器中要将编码器中Patch Merge操作变换为Patch Expand操作，等价于解码器和编码器中一个是下采样功能，一个是上采样功能。

进一步优化方案为，神经网络结构的训练过程包括：

T1，获取颌骨的原始CBCT图像并进行预处理；

T2，将预处理后的图像分成训练集、验证集和测试集；其中训练集占比80%，验证集占比10%，测试集占比10%；

T3，将训练集作为神经网络结构的输入，通过损失函数对神经网络结构的网络参数逐一进行优化，将验证集中评价指标最优的参数模型选作最终分割模型；

T4，将测试集输入最终分割模型进行测试。

进一步优化方案为，所述预处理过程包括：

将Dicom格式保存的原始CBCT图像转化为 PNG 格式；

逐层读取原始CBCT图像，并对原始CBCT图像依次进行随机剪裁、随机水平镜像翻转、随机仿射变换和转置，将图像统一为448*448 像素后进行归一化处理。为了尽可能使图像的清晰度和灰度值得到保留，剪裁后的原始图片（像素为 565*565）统一为448*448 的像素。

进一步优化方案为，T3中损失函数用于适应只有一个目标分割区域的分割任务，所述损失函数包括BCEWithLogitsLoss 和 BinaryDiceLoss。

进一步优化方案为，T3中的评价指标包括：IoU、SE、DSC、SP和HD，优先选择IoU高的参数模型为最终的分割模型。

本方案还提供基于上下文融合机制的CBCT颌骨区域分割系统，应用于上述方案所述的CBCT颌骨区域分割方法，包括：

采集模块，用于获取颌骨的原始CBCT图像；

预处理模块，用于对颌骨的原始CBCT图像进行预处理；

分割模块，用于将预处理后的图像输入已训练好的神经网络结构中进行分割得到颌骨区域分割图像；所述神经网络结构为CA-Swin-Unet，包括编码器和解码器；所述解码器的外层添加上下文注意力模块TBCAM，用于在多个尺度捕获上下文信息以实现上下文语义信息融合。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明提供基于上下文融合机制的CBCT颌骨区域分割方法及系统，设计了一种新的神经网络结构CA-Swin-Unet，基于现有的 Swin-Unet 的编码器部分和解码器部分进行网络结构上的改进，通过在解码器中添加上下文注意力模块TBCAM使得解码器在解析浅层语义时能考虑上下文语义，提高CBCT图像分割的质量，特别是对于颌骨来说，分割时考虑上下文语义，对于图像全局的把握更能有效分割出完整的颌骨，就不会过于依赖大量训练样本，非常适用于医学图像数量较少的场景。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为基于上下文融合机制的CBCT颌骨区域分割方法流程示意图；

图2为CA-Swin-Unet神经网络结构示意图；

图3为神经网络结构训练过程示意图；

图4为测试分割过程示意图；

图5为传统神经网络与本发明神经网络结构分割效果比较示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

本实施例提供基于上下文融合机制的CBCT颌骨区域分割方法，如图1所示，包括：

步骤一，获取颌骨原始CBCT图像；

步骤二，对颌骨原始CBCT图像进行预处理；

颌骨原始 CBCT 图像以 Dicom 的格式保存，通过软件将原始图像转化为 PNG 格式送进预处理模块，逐层读取颌骨的 CBCT 图像，并对原始的 CBCT 图像进行随机剪裁，随机水平镜像翻转，随机仿射变换，以及转置，以达到数据增强的目的。

在训练神经网络结构过程中，为了尽可能使图像的清晰度和灰度值得到保留，剪裁后的图像统一为448*448 像素 (原始图片像素为 565*565)；对剪裁后的颌骨图像使用归一化操作，调整数据分布，以便于训练。

本实施例设计了一个上下文注意力模块TBCAM，我们在解码器的外层加入了上下文注意力模块TBCAM 模块，该模块是基于传统的 CBAM 模块改进而来，传统的 CBAM 模块(Convolutional Block Attention Model) 的作用是通过注意力机制来筛选卷积模块中特征图的空间和通道有效特征。而CA-Swin-Unet中的 Transformer 结构的网络本身已经具有很强的空间通道注意力建模能力，因此我们引入并改进 CBAM，得到了 TBCAM 模块，目的是为了在多个尺度捕获上下文信息，从而实现上下文语义信息的融合，通过将不同层之间的特征图 concat 后，再加入卷积实现特征融合，最后放入 CBAM 模块，从而得到特征掩码，进而可以筛选融合后的上下文特征。

上下文注意力模块TBCAM的计算表达式为：

TBCAM(Sl) = patch_expand(CBAM(concat(Sl−1, patch_merge (Sl)))⊙Sl)

其中，Sl 代表解码器中第 l 层 Transformer block 输出的特征图，patch_expand（*）是一个上采样操作，通过减少通道数提高图像分辨率，patch_merge（*）是一个下采样操作，通过提高通道数减小图像分辨率，它们的作用都是使得 l 层和 l − 1 层的Transformer block 输出的特征图分辨率一致，从而可以直接 concat拼接(在通道维度上拼接)，CBAM（*）就是普通的卷积注意力模块，用来得到融合了上下层语义的特征图的注意力权重图，最后与 S_l 点乘就可以得到融合了上下文语义的特征图。

神经网络结构CA-Swin-Unet分为编码器、解码器，以及两者之间的跳层连接，我们提出的 CA-Swin-Unet 结构网络是在 Swin-Unet 的解码器上做出了有效的改进。

如图2所示，编左侧的编码器采用 6 个 Swin Transformer 模块（使用滑动窗口的层级式transformer模块），在每个Swin Transformer模块中，神经网络会通过注意力机制以及滑动窗口的方法来使得图片的各像素得到充分的互动，从而更好的提取需要被关注到的图像特征。并且，每两个模块之间会采用 Patch Merging 图像块融合的方法来实现一种类似卷积的层级结构，从而更好地提取图片上下文的特征。中间的跳层结构与 Swin-Unet 中的一致，通过 concat拼接手段融合编码阶段和解码阶段的特征图，实现浅层特征和深层特征的融合，从而使得在解码的过程中浅层特征不会丢失。

右侧的解码器则是我们改进的重点，与普通的 Swin-Unet 不同，在解码器的层与层之间通过一个TBCAM 模块连接上下层的特征图，用于融合一些深浅层次特征，最后得到分割掩码图像。

神经网络结构放入训练过程流程图如图3所示，包括以下步骤：

神经网络结构的训练过程包括：

T1，获取颌骨的原始CBCT图像并进行预处理；这里将带有标注的 CBCT 图像作为输入进行预处理得到处理结果 A，原始标注掩码图像为 B。

具体的将神经网络看作函数 Function，输出 B’=Function(A)，根据输出图像 B’和标注图像 B 计算 Dice loss(包括 BCEWithLogitsLoss 和 BinaryDiceLoss)，通过Dice loss 调整网络参数 (也就是调整函数 Function 系数)，直到得到的 Dice loss 达到期望，训练完成。

T4，将测试集输入最终分割模型进行测试。

实施例2

本实施例进行实际神经网络分割，其分割过程流程图如图4所示，包括以下步骤：

首先将未带有标注的 CBCT 图像作为输入，预处理得到处理结果 A（这里的预处理与训练过程中的并不一致）

然后将处理后的图像A 输入上述已训练好的神经网络函数 Function中，得到输出 B’ = Function(A)。即可得到分割后的机器标注掩码图像 B’，根据原始图像和掩码图像就可以求出分割后的 CBCT 颌骨图像。

同时本实施例还通过传统的Swin-Unet网络构架进行CBCT颌骨区域分割，与本发明的神经网络结构进行比较，如图5所示，本发明的神经网络结构分割出的CBCT颌骨图像与传统的Swin-Unet网络构架进行CBCT颌骨区域分割相比，IoU值较有优势。

实施例3

本实施例提供基于上下文融合机制的CBCT颌骨区域分割系统，应用于上述方案所述的CBCT颌骨区域分割方法，包括：

采集模块，用于获取颌骨的原始CBCT图像；

预处理模块，用于对颌骨的原始CBCT图像进行预处理；

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于上下文融合机制的CBCT颌骨区域分割方法，其特征在于，包括：

步骤一，获取颌骨原始CBCT图像；

步骤二，对颌骨原始CBCT图像进行预处理；

所述神经网络结构为CA-Swin-Unet，包括编码器和解码器；所述解码器中添加上下文注意力模块TBCAM，用于在多个尺度捕获上下文信息以实现上下文语义信息融合；

所述上下文注意力模块TBCAM先将解码器不同层之间的特征图concat拼接后加入卷积实现特征融合，然后将特征融合后的数据输入卷积注意力模块CBAM中提取特征掩码，以筛选融合后的上下文特征；

所述上下文注意力模块TBCAM的计算表达式为：

TBCAM(S_l) = patch_expand(CBAM(concat(S_l−1， patch_merge (S_l)))⊙S_l)；

式中，S_l表示解码器中第l层Transformer block输出的特征图，patch_expand (*)表示一个上采样操作，通过减少通道数提高图像分辨率，patch_merge(*)表示一个下采样操作，通过提高通道数减小图像分辨率；CBAM(*) 表示卷积注意力模块用于获取融合上下层语义后特征图的注意力权重图，⊙表示点乘；

所述编码器包括2n个Swin Transformer模块，在每两个Swin Transformer模块之间通过 Patch Merge方法来实现层级结构；n为除零以外的自然数；

编码器与解码器中间的跳层结构通过concat拼接融合编码阶段和解码阶段的特征图，实现浅层特征和深层特征的融合；

所述解码器与编码器对称，解码器包括2n个Swin Transformer模块用于抽取或重构特征；

所述解码器层与层之间的特征图通过上下文注意力模块TBCAM连接；

神经网络结构的训练过程包括：

T1，获取颌骨的原始CBCT图像并进行预处理；

所述预处理的过程包括：

将Dicom格式保存的颌骨原始CBCT图像转化为 PNG 格式；

逐层读取原始CBCT图像，并对原始CBCT图像依次进行随机剪裁、随机水平镜像翻转、随机仿射变换和转置，将图像统一为448*448 像素后进行归一化处理；

所述损失函数用于适应只有一个目标分割区域的分割任务，所述损失函数包括BCEWithLogitsLoss 和 BinaryDiceLoss；

所述评价指标包括：IoU、SE、DSC、SP和HD，选择IoU高的参数模型作为最终分割模型。

2.基于上下文融合机制的CBCT颌骨区域分割系统，其特征在于，应用于权利要求1所述的CBCT颌骨区域分割方法，包括：

采集模块，用于获取颌骨的原始CBCT图像；

预处理模块，用于对颌骨的原始CBCT图像进行预处理；

分割模块，用于将预处理后的图像输入已训练好的神经网络结构中进行分割得到颌骨区域分割图像；