CN114913327A

CN114913327A - 一种基于改进U-Net的下肢骨骼CT图像分割算法

Info

Publication number: CN114913327A
Application number: CN202210535354.0A
Authority: CN
Inventors: 童晶; 刘金辉
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-16

Abstract

本发明公开了一种基于改进U‑Net的下肢骨骼CT图像分割算法，包括：获得CT数据集；将CT数据集按比例划分，构建为训练集与测试集，将获得数据增强和裁剪后的训练集导入改进的U‑Net网络提取多个不同维度通道的骨骼特征，并对多个不同维度通道的骨骼特征进行融合获取预测图；将预测图与对应的金标准对比图进行对比，获得网络损失函数，并导入反向传播训练模型计算，获得网络训练参数优化改进的U‑Net网络，并将测试集数据导入优化后的改进的U‑Net网络，对优化改进的U‑Net网络的性能进行评分，选择性能评分高于其它的优化改进的U‑Net网络进行分割。本发明弥补了U‑Net算法的部分不足和充分利用骨骼CT图像的特征，实现了精准的医学CI图像分割。

Description

一种基于改进U-Net的下肢骨骼CT图像分割算法

技术领域

本发明属于医学图像语义分割技术领域，具体涉及一种基于改进U-Net的下肢骨骼CT图像分割算法。

背景技术

现有分割算法大致分为两者中：基于阈值分割的算法；基于神经网络的分割算法。基于阈值分割的算法核心在于找到一个较为合适的阈值来分割骨骼与其余组织，但这类算法过于依赖数据的好坏。即使许多研究从图像本身出发，提高图像聚类与分割的准确性，但仍然存在分割精度较低的问题。基于神经网络的分割算法与传统的分割算法相比，神经网络算法拥有大量可学习神经元参数与非线性的表达,可以很好的去除CT数据中的噪声，提取骨骼特征。但现有的网络模型无法利用骨骼CT图像的特点，也无法实现精确分割。

发明内容

发明目的：为了克服现有技术中的不足，本发明提供一种基于改进U-Net的下肢骨骼CT图像分割算法，该方法基于U-Net算法做改进，弥补了U-Net算法的部分不足和充分利用骨骼CT图像的特征，实现了较为准确的分割能力。

技术方案：第一方面本发明提供一种基于改进U-Net的下肢骨骼CT图像分割算法，包括：

对采集的患者下肢骨骼CT图像进行标注，获得CT数据集；

将CT数据集按比例划分，构建为训练集与测试集，并对训练集进行数据增强、随机裁剪，获得数据增强和裁剪后的训练集；

将数据增强和裁剪后的训练集导入改进的U-Net网络提取多个不同维度通道的骨骼特征，并对多个不同维度通道的骨骼特征进行融合，获取预测图；

将预测图与对应的金标准对比图进行对比，获得网络损失函数；

将网络损失函数导入反向传播训练模型计算，获得网络训练参数；

利用训练参数优化改进的U-Net网络，并将测试集数据导入优化后的改进的U-Net网络，获得用于测试的分割骨骼图像，并通过测试的分割骨骼图像对优化改进的U-Net网络的性能进行评分；

选择性能评分高于其它的优化改进的U-Net网络导入CT数据集进行CT图像分割。

在进一步的实施例中，将CT数据集按比例划分，构建为训练集与测试集，并对训练集进行数据增强、随机裁剪，获得数据增强和裁剪后的训练集包括：

对CT数据集沿Axial方向切片，生成共8000张dcm格式的二维CT图像，并将CT数据集以8:2比例划分为训练集与测试集；其中设置CT数据集的HU值为[1000-1500]的窗位大小；

将筛选训练集中包含较多骨骼的图像进行裁剪，获得包含较多骨骼图像的小尺寸训练样本；

对较多骨骼图像的小尺寸训练样本进行数据增强，获得数据增强和裁剪后的训练数据集；

其中，裁剪区域的约束公式为：

式中，N表示为当前区域骨骼像素的总数，i表示当前随机裁剪的次数，i取值[1,100]；

数据增强方法每次输入网络进行训练时进行三种操作包括：随机旋转、随机水平反转、光度失真。

在进一步的实施例中，将数据增强和裁剪后的训练集导入改进的U-Net网络提取多个不同维度通道的骨骼特征，并对多个不同维度通道的骨骼特征进行融合，获取预测图的方法包括：

训练集中的多个小尺寸训练样本输入改进的U-Net网络的下采样模块进行多层卷积的计算，提取网络编码的骨骼特征图，其中对每层卷积输出的特征图进行均批归一化操作和采用Relu激活函数操作，获得骨骼特征图；

将网络编码的骨骼特征图输入密集连接的空洞卷积模块进行特征提取，提取细小骨骼特征；

其中，下采样模块的卷积层为3，卷积核大小为3×3，步长为1，第一层下采样模块通道数为64，第二层下采样模块通道数为128；第三层下采样模块通道数为256；

将网络编码的骨骼特征图输入上采样模块进行多层卷积计算，输出网络解码的骨骼特征图，其中，每层卷积输出的特征信息进行均批归一化操作和采用Relu激活函数操作，获得骨骼特征图；上采样模块的卷积层数为3，卷积核大小为1×1，步长为1，第一层上采样模块通道数为256；第二层上采样模块通道数为128；第三层上采样模块通道数为64；

将上采样模块和下采样模块输出的骨骼特征图输入结合注意力机制的融合模块进行融合，生成预测图。

在进一步的实施例中，将网络编码的骨骼特征图输入密集连接的空洞卷积模块进行特征提取，提取细小骨骼特征的方法包括：

特征图X输入第一空洞卷积层，输出生成特征图X1；其中第一空洞卷积层的空洞卷积率为3，卷积核大小为3，步长为1，输入输出通道相同，

将特征图X与X1按通道维度融合输入第二空洞卷积层，输出生成特征图X2；其中第二空洞卷积层空洞卷积率为5，卷积核大小为3，步长为1，输入通道为2n，输出通道为n；

将特征图X、特征图X1、特征图X2按通道维度融合输入第三空洞卷积层，输出生成特征图X3；其中第三空洞卷积层空洞卷积率为7，卷积核大小为3，步长为1，输入通道为3n，输出通道为n；

将特征图X、特征图X1、特征图X2、特征图X3按通道维度融合第四空洞卷积层，输出细小骨骼特征；其中第四空洞卷积层卷积核大小为1，步长为1，输入通道数为4n，输出通道为n的卷积；

其中，模型操作公式为：

Y＝Conv_3x3([X3,X2,X1,X])

式中，X代表输入,Xi代表中间操作的输出,Y代表最终输出,di代表空洞率,Conv代表空洞卷积操作，[X_i-1,X_i-2,...,X₁]或[X3,X2,X1,X]代表通道维度连接。

每一层的输入都是前面所有中间操作的输出通道连接，最后通过卷积操作降低维度作为输出；空洞率的选取也决定着信息提取的好坏,，较差的空洞率组合会带来网格效应。

在进一步的实施例中，将上采样模块和下采样模块输出的骨骼特征图输入结合注意力机制的融合模块进行融合，生成预测图的方法包括：

从上采样模块和下采样模块输出的骨骼特征图中分别提取高维度特征H、低维度特征L；

将从上采样模块得来的高维度特征H按通道维度随机平分生成特征图H1、特征图H2类别，将低维度特征经过卷积核大小为1×1，步长为1，输入输出通道数相同的卷积层实现跨域操作生成L；

特征图H1与L通过通道注意力分支生成通道注意力特征Fc，特征图H2与L通过空间注意力分支生成空间注意力特征Fs；

通过通道注意力特征Fc与空间注意力特征Fs，获得通道权重和空间权重；

将通道权重和空间权重分别按照通道维度融合后通过卷积操作进行通道降维，获得融合后的通道权重和空间权重；

根据融合后的通道权重和空间权重，输出生成预测图。

在进一步的实施例中，通道注意力特征Fc获得通道权重的方法包括：

对特征图H1每一个通道做全局平均池化来获取当前通道的全局特征；

对当前通道的全局特征使用卷积核大小为1×1，输入通道为n,输出通道为n/r的卷积操作，生成通道注意力第一积卷层的特征图；

对通道注意力第一积卷层的特征图使用卷积核大小为1×1，输入通道为n/r,输出通道为n的卷积操作；生成通道注意力第二积卷层的特征图；

通道注意力第二积卷层的特征图通过Relu激活函数和Sigmoid函数变换后生成通道输出权重；

通道分支公式为：

ω_C＝Conv_1x1(Conv_1x1(GAP([H1,L])))

F_C＝Sigmoid(ω_C)*[H1,L]

式中，ω_C为根据特征图求得的通道权重，H1为随机分配的高维度特征，L为低维度特征，Conv表示卷积核为1x1的卷积操作；GAP表示为全局平均池化；Sigmoid代表S函数，[H1,L]表示为通道维度的连接。

在进一步的实施例中，空间注意力特征Fs获得空间权重的方法包括：

从上采样模块和下采样模块输出的骨骼特征图中分别提取高维度特征H、低维度特征L；并将高维度特征H、低维度特征L相加；

分别对相加后的特征做通道上的最大池化与平均池化两种操作，分别获取两个特征图通道；

将获取到的两个特征图进行通道连接，生成通道数为1的特征图，其中，通道连接为经过一个卷积核大小为7×7的卷积层操作；

将通道数为1的特征图利用Sigmoid函数变化后作为高维度和低维度融合后的空间权重；

空间分支公式为：

ω_S＝Conv([(AvgPool(H2+L),MaxPool(H2+L)])

F_S＝Sigmoid(ω_S)*(H2+L)；

式中，ω_S为根据特征图求得的空间权重，H2为随机分配的高维度特征，MaxPool()为最大池化操作，AvgPool()为平均池化操作。

在进一步的实施例中，反向传播训练模型采用SGD优化器来对模型参数训练优化,并使用poly学习策略对学习率进行调整,表达式为：

式中，lr为初始学习率，power为学习率衰减的变化程度，total_epoch为最大训练次数,epoch为当前训练次数，batch_size为训练过程中每次训练的样本数量。

在进一步的实施例中，将满足金标准的预测图导入反向传播训练模型计算，获得网络训练参数过程中，反向传播训练模型采用损失函数对导入的预测图进行计算，表达式为：

L_loss＝L_Dice+αL_Focal

式中，L_loss为模型总损失，L_Dice为dice系数损失，L_Focal为focal损失，α为中和两种损失的权重系数。

在进一步的实施例中，利用训练参数优化改进的U-Net网络，并将测试集数据导入优化后的改进的U-Net网络，获得用于测试的分割骨骼图像，并通过测试的分割骨骼图像对优化改进的U-Net网络的性能进行评分的表达式为：

Dice＝2TP/(2TP+FP+FN)

IoU＝TP/(TP+FP+FN)

Recall＝TP/(TP+FN)

Precision＝TP/(TP+FP)

式中，TP(True Positives)、TN(True Negatives)、FP(False Positives)、FN(False Negatives)依次表示为预测和标签均为骨骼像素点数量(真阳性)、预测和标签均为背景像素点数量(真阴性)、预测为骨骼和标签为背景的像素点数量(假阳性)、预测为背景和标签为骨骼的像素点数量(假阴性)；Dice为dice评价系数，IoU为骨骼像素交并比，Recall为骨骼像素召回率，Precision为骨骼像素准确率。

有益效果：本发明与现有技术相比具有以下优点：

基于U-Net算法做改进，在网络编码阶段，使用密集连接的空洞卷积模块加强骨骼特征的提取；在网络解码阶段,使用结合注意力机制的融合模块充分利用空间信息与语义信息,改善骨骼信息丢失的问题，弥补了U-Net算法的部分不足和充分利用骨骼CT图像的特征，实现了精准的医学CI图像分割。

附图说明

图1是CT数据图像与金标准的对比图；

图2是CT数据图像经过U-Net网络处理后的实施例图；

图3是密集连接的多尺度卷积模块的结构示意图；

图4是结合注意力机制的融合模块的结构示意图；

图5是多个样本2D预测结果对比图；

图6是多个样本3D预测结果对比图。

具体实施方式

为了更充分理解本发明的技术内容，下面结合具体实施例对本发明的技术方案进一步介绍和说明，但不局限于此。

如图1至图6所示进一步说明本实施例中的一种基于改进U-Net的下肢骨骼CT图像分割算法包括如下步骤：

对采集的患者下肢骨骼CT图像进行标注，获得CT数据集；

将CT数据集按比例划分，构建为训练集与测试集，并对训练集进行数据增强、随机裁剪，获得数据增强和裁剪后的训练集包括：

其中，裁剪区域的约束公式为：

式中，N表示为当前区域骨骼像素的总数，i表示当前随机裁剪的次数，i取值[1,100]；参考图1观察原始数据集可知，骨骼数据在原始图中占比较小且相对集中，导致图中大部分为无用的信息，所以训练过程中对数据集进行有规划的随机裁剪，可以节省训练时间和起到数据增强的作用；本实施例中规划的随机裁剪目的为将原图裁剪成大小为128×128、包含较多骨骼图像的小尺寸训练样本。

数据增强方法每次输入网络进行训练时进行三种操作包括：随机旋转、随机水平反转、光度失真，增强方法采用随机在线增广方法。

将数据增强和裁剪后的训练集导入改进的U-Net网络提取多个不同维度通道的骨骼特征，并对多个不同维度通道的骨骼特征进行融合，获取预测图的方法包括：

将上采样模块和下采样模块输出的骨骼特征图输入结合注意力机制的融合模块进行融合，生成预测图；在本实施例中在网络编码阶段，数据依次通过下采样模块和密集连接的空洞卷积模块，提取骨骼特征；在网络解码阶段，数据依次通过上采样模块和结合注意力机制的融合模块，将骨骼特征分辨率恢复值原大小。

将网络编码的骨骼特征图输入密集连接的空洞卷积模块进行特征提取，提取细小骨骼特征的方法包括：

其中，模型操作公式为：

Y＝Conv_3x3([X3,X2,X1,X])

每一层的输入都是前面所有中间操作的输出通道连接，最后通过卷积操作降低维度作为输出；空洞率的选取也决定着信息提取的好坏，较差的空洞率组合会带来网格效应。根据混合空洞卷积理论和本实施例对比结果,选取大小为3,5,7的空洞率组合。

将上采样模块和下采样模块输出的骨骼特征图输入结合注意力机制的融合模块进行融合，生成预测图的方法包括：

根据融合后的通道权重和空间权重，输出生成预测图。在本实施例中融合模块中的通道注意力分支为经典的压缩激励模块,该模块旨在获取特征通道之间的关系，低维度特征即使通过1×1的卷积实现跨域操作后，其中仍包含大量的无用信息，若直接与高维度特征融合，会存在破坏语义信息的可能性。因此通过通道注意力机制来抑制无用的信息通道；融合模块中的空间注意力分支旨在获取特征图空间上的关系,从自身学习通道共享的空间权重参数，以此来突出骨骼特征，空间注意力分支通过将不同维度的特征图相加来实现语义信息与空间信息融合，再通过注意力机制，将网络的关注重心放在骨骼信息上。

通道注意力特征Fc获得通道权重的方法包括：

通道分支公式为：

ω_C＝Conv_1x1(Conv_1x1(GAP([H1,L])))

F_C＝Sigmoid(ω_C)*[H1,L]

空间注意力特征Fs获得空间权重的方法包括：

空间分支公式为：

ω_S＝Conv([(AvgPool(H2+L),MaxPool(H2+L)])

F_S＝Sigmoid(ω_S)*(H2+L)；

式中，lr为初始学习率,power为学习率衰减的变化程度,total_epoch为最大训练次数,epoch为当前训练次数，batch_size为训练过程中每次训练的样本数量，本实施例中初始学习率lr设置为0.001,power为0.9,最大训练次数total_epoch为100,并设置batch_size为64。

Dice系数损失函数可以用来衡量预测值与真实值相似度，又因骨骼数据在CT数据中占比较小的特殊性，引入了Focal损失函数来挖掘困难样本，调节正负样本比例失衡的场景。

将满足金标准的预测图导入反向传播训练模型计算，获得网络训练参数过程中，反向传播训练模型采用损失函数对导入的预测图进行计算，表达式为：

L_loss＝L_Dice+αL_Focal

式中，L_loss为模型总损失，L_Dice为dice系数损失，L_Focal为focal损失，α为中和两种损失的权重系数，本实施例中α取值为0.5；

利用训练参数优化改进的U-Net网络，并将测试集数据导入优化后的改进的U-Net网络，获得用于测试的分割骨骼图像，并通过测试的分割骨骼图像对优化改进的U-Net网络的性能进行评分的表达式为：

Dice＝2TP/(2TP+FP+FN)

IoU＝TP/(TP+FP+FN)

Recall＝TP/(TP+FN)

Precision＝TP/(TP+FP)

式中，TP(True Positives)、TN(True Negatives)、FP(False Positives)、FN(False Negatives)依次表示为预测和标签均为骨骼像素点数量(真阳性)、预测和标签均为背景像素点数量(真阴性)、预测为骨骼和标签为背景的像素点数量(假阳性)、预测为背景和标签为骨骼的像素点数量(假阴性)；Dice为dice评价系数，IoU为骨骼像素交并比，Recall为骨骼像素召回率，Precision为骨骼像素准确率；以上指标范围均为0-1之间，越靠近1表示模型的预测能力越强，按以上指标，选择了在语义分割领域中具有代表性的网络模型:U-Net、Attention U-Net和BiSeNet作为对比网络模型.在CT数据集上多次实验计算平均值作为最终实验结果,实验结果如表1所示证明了本发明的优越性。

表1 CT数据集实验结果

综上所述本发明基于U-Net算法做改进，在网络编码阶段，使用密集连接的空洞卷积模块加强骨骼特征的提取；在网络解码阶段,使用结合注意力机制的融合模块充分利用空间信息与语义信息,改善骨骼信息丢失的问题，弥补了U-Net算法的部分不足和充分利用骨骼CT图像的特征，实现了精准的医学CI图像分割。

本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于改进U-Net的下肢骨骼CT图像分割算法，其特征在于，包括：

对采集的患者下肢骨骼CT图像进行标注，获得CT数据集；

2.根据权利要求1所述的基于改进U-Net的下肢骨骼CT图像分割算法，其特征在于，将CT数据集按比例划分，构建为训练集与测试集，并对训练集进行数据增强、随机裁剪，获得数据增强和裁剪后的训练集包括：

其中，裁剪区域的约束公式为：

3.根据权利要求1所述的基于改进U-Net的下肢骨骼CT图像分割算法，其特征在于，将数据增强和裁剪后的训练集导入改进的U-Net网络提取多个不同维度通道的骨骼特征，并对多个不同维度通道的骨骼特征进行融合，获取预测图的方法包括：

4.根据权利要求3所述的基于改进U-Net的下肢骨骼CT图像分割算法，其特征在于，将网络编码的骨骼特征图输入密集连接的空洞卷积模块进行特征提取，提取细小骨骼特征的方法包括：

其中，模型操作公式为：

Y＝Conv_3x3([X3,X2,X1,X])

式中，X代表输入,Xi代表中间操作的输出,Y代表最终输出,di代表空洞率,Conv代表空洞卷积操作,[X_i-1,X_i-2,...,X₁]或[X3,X2,X1,X]代表通道维度连接。

5.根据权利要求3所述的基于改进U-Net的下肢骨骼CT图像分割算法，其特征在于，将上采样模块和下采样模块输出的骨骼特征图输入结合注意力机制的融合模块进行融合，生成预测图的方法包括：

根据融合后的通道权重和空间权重，输出生成预测图。

6.根据权利要求5所述的基于改进U-Net的下肢骨骼CT图像分割算法，其特征在于，通道注意力特征Fc获得通道权重的方法包括：

通道分支公式为：

ω_C＝Conv_1x1(Conv_1x1(GAP([H1,L])))

F_C＝Sigmoid(ω_C)*[H1,L]

7.根据权利要求5所述的基于改进U-Net的下肢骨骼CT图像分割算法，其特征在于，空间注意力特征Fs获得空间权重的方法包括：

空间分支公式为：

ω_S＝Conv([(AvgPool(H2+L),MaxPool(H2+L)])

F_S＝Sigmoid(ω_S)*(H2+L)；

8.根据权利要求1所述的基于改进U-Net的下肢骨骼CT图像分割算法，其特征在于，反向传播训练模型采用SGD优化器来对模型参数训练优化,并使用poly学习策略对学习率进行调整,表达式为：

9.根据权利要求1所述的基于改进U-Net的下肢骨骼CT图像分割算法，其特征在于，将满足金标准的预测图导入反向传播训练模型计算，获得网络训练参数过程中，反向传播训练模型采用损失函数对导入的预测图进行计算，表达式为：

L_loss＝L_Dice+αL_Focal

10.根据权利要求1所述的基于改进U-Net的下肢骨骼CT图像分割算法，其特征在于，利用训练参数优化改进的U-Net网络，并将测试集数据导入优化后的改进的U-Net网络，获得用于测试的分割骨骼图像，并通过测试的分割骨骼图像对优化改进的U-Net网络的性能进行评分的表达式为：

Dice＝2TP/(2TP+FP+FN)

IoU＝TP/(TP+FP+FN)

Recall＝TP/(TP+FN)

Precision＝TP/(TP+FP)

式中，TP(True Positives)、TN(True Negatives)、FP(False Positives)、FN(FalseNegatives)依次表示为预测和标签均为骨骼像素点数量(真阳性)、预测和标签均为背景像素点数量(真阴性)、预测为骨骼和标签为背景的像素点数量(假阳性)、预测为背景和标签为骨骼的像素点数量(假阴性)；Dice为dice评价系数，IoU为骨骼像素的交并比，Recall为骨骼像素召回率，Precision为骨骼像素准确率。