CN113643303A

CN113643303A - 基于双路注意力编解码网络的三维图像分割方法

Info

Publication number: CN113643303A
Application number: CN202110863600.0A
Authority: CN
Inventors: 韩越兴; 李小龙; 钱权; 王冰
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-12

Abstract

本发明公开了一种基于双路注意力编解码网络的三维图像分割方法。本方法首先对用于训练图像进行预处理，接着构建双路注意力编解码网络，使用边界损失优化网络的参数，并利用训练好的模型对三维图像进行预测分割；最后使用密集条件随机场和最大连通区域算法对概率图进行调整，优化分割结果，并保存输出的后处理结果。本发明将双路注意力模块融入编解码网络之中，提高网络对三维图像的分割精度，降低三维图像处理的时间成本和人力成本，促进相应学界和产界的进步和发展。

Description

基于双路注意力编解码网络的三维图像分割方法

技术领域

本发明涉及计算机视觉三维图像分析和处理领域，针对三维图像数据，提出了一种基于双路注意力编解码网络的三维图像分割方法。本发明可以应用于材料学和医学等领域的三维图像分割，提高三维图像分割精度，降低三维图像处理的时间成本和人力成本，促进相应学界和产界的进步和发展。

背景技术

图像语义分割是图像处理等领域普遍关注的问题。语义分割是让计算机根据图像的内容来进行分割，分割是从像素的层面分割图片中的不同对象，对原图中的每个像素点进行标注，将其分类为不同的标签，而分割的精度则包含着对图像中信息的理解。三维图像具有成像复杂、图片维度高和信息大的特点，因此如何利用人工智能技术快速准确地对三维图像进行语义分割并从中提取有用信息是计算机视觉领域的研究热点之一。

图像语义分割的方法有许多种，其中基于神经网络的图像语义分割是目前关注较多的研究热点之一，已有较多的研究成果。FCN(Fully convolutional network)是图像语义分割的经典框架，它以端对端的方法进行训练，并将训练好的分类网络用于语义分割；为了恢复图像的分辨率，FCN还利用反卷积进行上采样。与FCN相比U-Net具有更对称的编码和解码结构，从编码到解码部分的跳跃连接有助于位置信息的恢复，但由于构建网络结构的基本模块是简单的卷积块，因此存在一定程度的梯度消失问题，限制了网络深度的增加；此外U-Net没有充分考虑像素与像素之间的联系，缺少对局部特征之间依赖关系的探索，从而影响了最终分割结果的准确性。损失函数作为优化网络参数的重要工具，诸如交叉熵、相似性系数等损失缺少优化网络探索图像边界特征的能力，限制了语义分割精度的提升。因此，如何构建更深更有效的网络结构和优化网络探索更多特征是提升语义分割精度的关键。

发明内容

为了解决现有技术问题，本发明的目的在于克服已有技术存在的不足，设计一种基于双路注意力编解码网络的三维图像分割方法，增强网络对图像局部特征和边界特征的探索，实现对三维图像的高精度分割。

为达到上述发明创造目的，本发明采用如下技术方案：

.一种基于双路注意力编解码网络的三维图像分割方法，包括如下的步骤：

(1)三维图像预处理：

将用于训练的原始图像随机裁剪成小图像块，对小图像块进行预处理，获得更清晰的图像，并将预处理的数据保存在本地；

(2)训练双路注意力编解码网络：

构建基于双路注意力编解码网络，将训练集数据输入网络，使用边界损失优化网络的模型参数，并保存训练好的网络参数文件；

(3)使用训练好的模型预测：

载入训练好的模型参数文件，将测试集数据输入网络，获取预测的分割结果，分割结果以概率图表示；

(4)网络预测结果后处理：

使用密集条件随机场对概率图进行调整，优化分割结果的边缘，再使用最大连通区域算法去除多余的假正例，输出并保存后处理的图像结果。

优选地，一种基于双路注意力编解码网络的三维图像分割方法，包括如下的步骤：

(1)、将用于训练的原始图像随机裁剪成较小的图像块，对小图像块进行预处理，获得更清晰的图像，并将预处理的数据保存在本地；

作为本发明的技术方案，步骤1包含以下子步骤：

(1-1)将三维图像数据裁剪为12×224×244像素的图像块；

(1-2)判断图像块是否为灰度图，对于非灰度图使用归一化算法进行灰度图转换；

(1-3)使用高斯滤波去除图像中的噪音点；

(1-4)使用直方图均衡化拉伸图像的灰度分布，增强图像的对比度；

(1-5)使用拉普拉斯算子实现图像的边缘锐化处理，增强图像中的灰度突变即降低灰度变化缓慢的区域；

(1-6)划分并保存预处理的图像数据；

(2)、构建基于双路注意力编解码网络，将训练集数据输入网络，使用边界损失优化网络的模型参数，并保存训练好的网络参数文件；

作为本发明的技术方案，在所述步骤2中，双路注意力编解码网络包含三个子网络模块，分别是：(a)编码器网络、(b)双路注意力网络和(c)解码器网络；

作为本发明的技术方案，在所述步骤2中，采用残差块、最大池化、平均池化和双路径块构建编码器，编码器网络构建包括以下步骤：

(2-1-1)使用1个残差块构建编码器的第一层以适应不同数据维度的输入，使用最大池化对第一层的输出进行降维；

(2-1-2)在编码器第二层使用2个双路径块探索图像低级纹理特征，使用最大池化对第二层的输出进行降维；

(2-1-3)在编码器第三层使用3个双路径块探索图像高级抽象特征，使用平均池化对第三层的输出进行降维；

(2-1-4)在编码器第四层使用5个双路径块探索图像高级抽象特征，使用平均池化对第四层的输出进行降维；

(2-1-5)在编码器第五层使用2个双路径块对探索的图像特征进行整合；

作为本发明的技术方案，在所述步骤2中，注意力网络模块包含三个子模块：(a)位置注意力模块，(b)通道注意力模块和(c)特征融合模块；注意力网络模块使用卷积块和Softmax激活函数构建注意力网络中三个子模块；注意力网络模块构建包括以下步骤：

(2-2-1)将位置注意力模块与通道注意力模块并行放置探索空间特征和通道特征；

(2-2-2)采用特征融合模块将探索的空间特征和通道特征进行整合；

作为本发明的技术方案，在所述步骤2中，采用残差块、反卷积块和Sigmoid激活函数构建解码器网络，解码器构建包括如下步骤：

(2-3-1)在解码器第一层至第四层使用2个残差块和1个反卷积块交替连接来逐步恢复图像特征分辨率；

(2-3-2)在解码器第五层使用2个残差块和1个Sigmoid激活函数输出概率特征映射图；

作为本发明的技术方案，在所述步骤2中，使用边界损失函数优化网络探索更多轮廓和边界特征，边界损失可以表示为：

L_e＝d+α·a+β·e (1)

上述公式(1)中，d、a和e分别表示距离、面积和边界。α和β分别是面积和边界对应的加权，将d、a和e分别以像素形式展开可以表示为：

其中v_i，j和u_i，j分别表示标注值和预测值，x_i，j和y_ij分别是像素点(i，j)的横纵坐标，N是图像的像素空间，Δu表示对应坐标的像素值相减的结果；假设图像真实值为A，B是A进行四次迭代膨胀的结果，C则是A迭代腐蚀四次的结果，于是可以得到真实图像外边界

以及内边界

其中

表示异或操作，使用真实图像外边界O_m和I_m获取预测图像的内外边界I和O，此时边界损失函数的边界e可以表示为：

作为本发明的技术方案，在所述步骤2中，训练网络模型时设置迭代次数epoch为100，通常迭代次数epoch不大于50网络参数即可收敛至最优值附近，网络训练包括以下步骤：

(2-4-1)采用Adam一阶优化算法优化网络参数，基于训练数据迭代地更新神经网络权重；

(2-4-2)设置权重衰减系数，以减轻模型过拟合的问题；

(2-4-3)为了进一步得到更加优秀的网络性能，设置学习率，采用动态减小学习率的方案来进一步逼近网络参数最优值，当一定epoch内损失值不再下降，将学习率厅乘上衰减因子以减小学习率；

(3)载入训练好的模型参数文件，将测试集数据输入网络，获取预测的分割结果，分割结果以概率图表示；

作为本发明的技术方案，在所述步骤3中，三维图像的预测包括以下具体步骤：

(3-1)载入训练好的模型参数文件；

(3-2)将三维图像数据输入网络，获取预测的分割结果；

(3-3)在完成小图像块的预测后，将小图像块按照顺序拼接成与标签图同样大小的图像，并以概率图的形式保存在本地。

使用密集条件随机场对概率图进行调整，优化分割结果的边缘，再使用最大连通区域算法去除多余的假正例，输出并保存后处理的图像结果；

作为本发明的技术方案，在所述步骤4中，网络预测结果图像的优化包括以下步骤：

(4-1)将网络输出的概率图当作一张无向完全图，每个像素点i可以看作一张图G(V，E)中的节点v∈V，该节点v具有固定的类别标签x_i以及对应的观测值y_i，节点与节点之间的依赖关系视为边e∈E，从而使用平均近似算法将一个无向完全图构建成密集条件随机场；

(4-2)使用密集条件随机场调整概率图中的概率，优化分割图像的边缘细节；

(4-3)使用最大区域连通技术减少分割结果中的假正例与假反例，进一步提升分割准确；

(4-4)输出并保存后处理的图像结果。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明设计了一种基于双路注意力编解码网络结构，应用于材料学和医学等领域的三维图像分割，其中编码器的每一层采用不同数目的残差块和双路径块更高地探索图像低级纹理特征和高级抽象特征；将双路注意力网络模块融入编解码网络中，提升网络对局部特征的表达能力，探索更多三维图像中的空间上下文特征信息，从而实现对三维图像的高精度分割；

2.本发明结合密集条件随机场和最大区域连通技术对模型的预测结果进行后处理，能够有效优化图像边缘细节，减少分割结果中假正例和假反例的存在。

附图说明

图1为本发明优选实施例分割三维图像的流程图，共分为以下步骤：(1)输入三维图像数据，将用于训练和测试的原始图像随机裁剪成较小的图像块，对小图像块进行预处理，获得更清晰的图像，并将预处理的数据保存在本地；(2)构建基于双路注意力编解码网络，将训练集数据输入网络模型，使用边界损失优化网络的模型参数，并保存训练好的网络参数文件；(3)载入训练好的模型参数文件，将测试集数据输入网络，获取预测的分割结果，分割结果以概率图表示；(4)使用密集条件随机场对概率图进行调整，优化分割结果的边缘，再使用最大连通区域算法去除多余的假正例，输出并保存后处理的图像结果。

图2为本发明优选实施例预处理方法的流程图，共分为以下步骤：(1)三维图像裁剪将三维图像数据裁剪为12×224×244像素的图像块；(2)判断图像块是否为灰度图，对于非灰度图使用归一化算法进行灰度图转换；(3)使用高斯滤波去除图像中的噪音点；(4)使用直方图均衡化拉伸图像的灰度分布，增强图像的对比度；(5)使用拉普拉斯算子实现图像的边缘锐化处理，增强图像中的灰度突变即降低灰度变化缓慢的区域；(6)划分并保存预处理的图像数据。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明优选实施例中的技术方案进行清查、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施案例，而非全部实施案例。基于本发明中的实施例，本领域普通技术人员在没有做过创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护范围。

以下结合具体的实施例子对上述方案做进一步说明，本发明的优选实施例详述如下：

实施例一：

参见图1，在本实施例中，提供一种基于双路注意力编解码网络的三维图像分割方法，该方法构建了一种高效的双路注意力编码解码网络结构，使用边界损失优化网络参数，提升网络对三维图像数据的分割精度。

本发明的方法使用某种三维医学图像对本模型进行训练，得到此类数据的模型参数，进而得到对样本以外的同类分割数据的高精度预测，本发明的方法包括以下步骤：

(1)将用于训练的原始图像随机裁剪成较小的图像块，对小图像块进行预处理，获得更清晰的图像，并将预处理的数据保存在本地；

(2)构建基于双路注意力编解码网络，将训练集数据输入网络，使用边界损失优化网络的模型参数，并保存训练好的网络参数文件；

(4)使用密集条件随机场对概率图进行调整，优化分割结果的边缘，再使用最大连通区域算法去除多余的假正例，输出并保存后处理的图像结果。

本发明基于双路注意力编解码网络的三维图像分割方法，首先，对用于训练的图像进行预处理，获得更清晰的图像，并将预处理的数据保存在本地；接着使用边界损失在训练数据集上训练双路注意力网络；然后使用训练好的模型对测试数据集进行预测，保存预测的概率图结果；最后使用密集条件随机场对概率图进行调整，优化分割结果的边缘，再使用最大连通区域算法去除多余的假正例，输出并保存后处理的图像结果。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，如图2所示，图像预处理包含以下步骤：

(1-1)将三维图像数据裁剪为12×224×244像素的图像块；

(1-3使用高斯滤波去除图像中的噪音点；

(1-6)划分并保存预处理的图像数据。

本实施例进行图像预处理，数据保存在本地，为后续步骤打好基础。

实施例三：

本实施例与实施例二基本相同，特别之处在于：

在本实施例中，双路注意力编解码网络包含三个子网络模块，分别是：(a)编码器网络，(b)双路注意力网络和(c)解码器网络；采用残差块、最大池化、平均池化和双路径块构建编码器，编码器网络构建包括以下步骤：

在本实施例中，注意力网络模块包含三个子模块：(a)位置注意力模块，(b)通道注意力模块和(c)特征融合模块；注意力网络模块使用卷积块和Softmax激活函数构建注意力网络中三个子模块；注意力网络模块构建包括以下步骤：

在本实施例中，采用残差块、反卷积块和Sigmoid激活函数构建解码器网络，解码器构建包括如下步骤：

在本实施例中，使用边界损失函数优化网络探索更多轮廓和边界特征，边界损失可以表示为：

L_e＝d+α·a+β·e (1)

上式(1)中，d、a和e分别表示距离、面积和边界。α和β分别是面积和边界对应的加权，将d、a和e分别以像素形式展开可以表示为：

以及内边界

其中

表示异或操作，使用真实图像外边界O_m和I_m可以获取预测图像的内外边界I和O，此时边界损失函数的边界e可以表示为：

在本实施例中，训练网络模型时设置迭代次数epoch为100，通常迭代次数epoch不大于50网络参数即可收敛至最优值附近，网络训练包括以下步骤：

(2-4-2)设置权重衰减系数，以减轻模型过拟合的问题；

(2-4-3)为了进一步得到更加优秀的网络性能，设置学习率，采用动态减小学习率的方案来进一步逼近网络参数最优值，当一定epoch内损失值不再下降，将学习率厅乘上衰减因子以减小学习率。

实施例四：

本实施例与实施例三基本相同，特别之处在于：

在本实施例中，三维图像的预测包括以下步骤：

(3-1)载入训练好的模型参数文件；

(3-2)将三维图像数据输入网络，获取预测的分割结果；

本实施例进行三维图像的预测，为后续步骤优化分割结果的边缘提供预测信息。

实施例五：

本实施例与实施例三基本相同，特别之处在于：

在本实施例中，网络预测结果图像的优化包括以下步骤：

(4-3)使用最大区域连通技术减少分割结果中的假正例与假反例，进一步提升分割准确度；

(4-4)输出并保存后处理的图像结果。

综合上述实施例可知，图2是本发明中的基于双路注意力编解码网络的三维图像分割方法流程图，包括以下步骤：

首先将用于训练的原始图像随机裁剪成较小的图像块，对小图像块进行预处理，获得更清晰的图像块，并将预处理的数据保存在本地；设计边界损失函数，构建基于双路注意力编解码网络，将训练集数据输入网络，使用边界损失优化网络的模型参数，并保存训练好的网络参数文件；载入训练好的模型参数文件，将三维图像数据输入网络，获取预测的分割结果，分割结果以概率图表示；使用密集条件随机场对概率图进行调整，优化分割结果的边缘，再使用最大连通区域算法去除多余的假正例，输出并保存后处理的图像结果。本发明可以应用于材料学和医学等领域的三维图像分割，促进各个学科领域的进步和发展。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明基于双路注意力编解码网络的三维图像分割方法的技术原理和发明构思，都属于本发明的保护范围。

Claims

1.一种基于双路注意力编解码网络的三维图像分割方法，其特征在于，包括如下的步骤：

(1)三维图像预处理：

(2)训练双路注意力编解码网络：

(3)使用训练好的模型预测：

(4)网络预测结果后处理：

2.根据权利要求1所述基于双路注意力编解码网络的三维图像分割方法，其特征在于，在权利要求1所述步骤(1)中，其图像预处理包含以下具体步骤：

(1-1)将三维图像数据裁剪为12×224×244像素的图像块；

(1-3)使用高斯滤波去除图像中的噪音点；

(1-6)划分并保存预处理的图像数据。

3.根据权利要求1所述基于双路注意力编解码网络的三维图像分割方法，其特征在于，在所述步骤(2)中，使用边界损失函数用于优化网络模型参数，边界损失表示为：

L_e＝d+α·a+β·e (1)

上述公式(1)中，d、a和e分别表示距离、面积和边界；α和β分别是面积和边界对应的加权。

4.根据权利要求1所述基于双路注意力编解码网络的三维图像分割方法，其特征在于，在所述步骤(2)中，采用残差块、最大池化、平均池化和双路径块构建编码器网络；采用卷积块和Softmax激活函数构建双路注意力网络；采用残差块、反卷积块和Sogmoid激活函数构建解码器网络。

5.根据权利要求4所述基于双路注意力编解码网络的图像分割方法，其特征在于，在所述步骤(2)中，编码器的编码网络的设计与构建包括如下具体步骤：

(2-1-1)在编码器第一层使用1个残差块适应不同数据维度的输入，使用最大池化对第一层的输出进行降维；

(2-1-5)在编码器第五层使用2个双路径块对探索的图像特征进行整合。

6.根据权利要求4所述基于双路注意力编解码网络的三维图像分割方法，其特征在于，注意力编码网络模块包含三个子模块：

(a)位置注意力模块；

(b)通道注意力模块；

(c)特征融合模块；所述双路注意力网络模块的设计与构建包括如下具体步骤：

(2-2-1)将位置注意力模块与通道注意力模块并行放置以探索空间特征和通道特征；

(2-2-2)采用特征融合模块将探索的空间特征和通道特征进行整合。

7.根据权利要求4所述基于双路注意力编解码网络的三维图像分割方法，其特征在于，编码器的解码器网络的设计与构建包括如下具体步骤：

(2-3-2)在解码器第五层使用2个残差块和1个Sigmoid激活函数输出概率特征映射图。

8.根据权利要求1所述基于双路注意力编解码网络的图像分割方法，其特征在于，在所述步骤(2)中，网络训练包括以下具体步骤：

(2-4-2)设置权重衰减系数，以减轻模型过拟合的问题；

(2-4-3)为了进一步得到更加优秀的网络性能，设置学习率，采用动态减小学习率的方案来进一步逼近网络参数最优值，当一定epoch内损失值不再下降，将学习率lr乘上衰减因子以减小学习率。

9.根据权利要求1所述基于双路注意力编解码网络的三维图像分割方法，其特征在于，在所述步骤(3)中，三维图像的预测包括以下具体步骤：

(3-1)载入训练好的模型参数文件；

(3-2)将三维图像数据输入网络，获取预测的分割结果；

10.根据权利要求1所述基于双路注意力编解码网络的三维图像分割方法，其特征在于，在所述步骤(4)中，网络预测结果图像的优化包括以下步骤：

(4-1)将网络输出的概率图当作一张无向完全图，每个像素点i看作一张图G(V,E)中的节点v∈V，该节点v具有固定的类别标签x_i以及对应的观测值y_i，节点与节点之间的依赖关系视为边e∈E，从而使用平均近似算法将一个无向完全图构建成密集条件随机场；

(4-4)输出并保存后处理的图像结果。