CN116630245A

CN116630245A - 一种基于显著性图引导和不确定性语义增强的息肉分割方法

Info

Publication number: CN116630245A
Application number: CN202310490844.8A
Authority: CN
Inventors: 郑建炜; 李燕; 方创杰; 刘豪; 谷雨斌
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-08-22

Abstract

本发明公开了一种基于显著性图引导和不确定性语义增强的息肉分割方法。对待分割的医学图像，先通过主干编码子网络提取特征图和显著性图，将特征图通过二阶池化卷积注意力子网络，学习更高阶的特征表示以增强非线性建模能力，使用显著性图通过不确定性语义增强子网络引导特征图，即引导网络关注目标区域特征的学习，最后将显著性图经过上采样和激活函数得到医学图像最终预测分割结果。本发明试图通过对目标区域的显著性和不确定性计算，来引导网络关注目标区域特征的学习，同时对与边界信息高度相关的显著图进行不确定性区域增强，以进一步提升网络在多种复杂场景下的分割性能，增强网络的泛化能力和鲁棒性。

Description

一种基于显著性图引导和不确定性语义增强的息肉分割方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于显著性图引导和不确定性语义增强的息肉分割方法。

背景技术

深度学习技术已被证明在医学图像分割的不同的基准数据集上是有效的。目前医学分割普遍存在的问题，即是充分整合CNN和Transformer的优点，提出分割模型。然而，这类端到端的方法基本都是从原始数据中提取隐藏信息并利用这些模型进行预测。因此，大多数基于深度学习的医学图像分割的研究都忽略了一个最重要的问题，即在学习过程中需要考虑模型预测的不确定性，特别是在医学图像分析中。预测模型的性能可能会受到输入数据和建模先验等不确定性的影响。如何有效地处理模型中的不确定性，并创建一个具有更好泛化能力的模型是一个值得深度探索的问题，特别是在像医疗诊断这样的安全关键应用中，因此，不确定性量化在深度学习中起着重要作用。

除了不确定性问题以外，回归到医学图像分割本身。针对于息肉分割这一常见问题，以往分割算法通常采用显著目标检测的方法，因为它们共享感兴趣区域，更多地关注息肉区域，而不是环绕场景。目前最先进的SOD方法显示出良好的性能，这与边缘引导高度相关。然而，获取额外的边缘数据通常是昂贵的。反向注意力建议使用反向显著图来获取边界线索，但由于边界区域与模糊显著性分数高度相关，未经反向操作的显著图已经具备了这样的边界信息。总而言之，如何有效提取医学图像中目标区域的显著特征，进而准确定位目标区域，实现目标区域的精准分割，仍然有待于进一步研究。由于不确定性对医学图像分割的影响，现有的方法尚未精确地分割出整个目标区域。在类内特征差异较大的情况下，仍有部分数据样本存在欠分割的情况；在类间特征差异较小或背景中存在较多干扰信息的情况下，还存在误分割的问题。

发明内容

本发明试图通过对目标区域的显著性和不确定性计算，来引导网络关注目标区域特征的学习，同时对与边界信息高度相关的显著图进行不确定性区域增强，以进一步提升网络在多种复杂场景下的分割性能，增强网络的泛化能力和鲁棒性。

为实现上述目的，本发明所采取的技术方案为：

一种基于显著性图引导和不确定性语义增强的息肉分割方法，包括以下步骤：

步骤S1、获取待分割的医学图像P；

步骤S2、将图像P输入到PVT(Pyramid Vision Transformer)主干编码子网络中，提取出三个特征图T₁、T₂、T₃和一个显著性图s₁；

步骤S3、将特征图T₁、T₂、T₃分别输入到二阶池化卷积注意力子网络SPA中得到图像Y₁、Y₂、Y₃；

步骤S4、显著性图s₁通过不确定性语义增强子网络UAA引导特征图Y₃得到u₃，并通过逐点相加引导u₃得到显著性图s₂；显著性图s₂通过不确定性语义增强子网络引导特征图Y₂得到u₂，并通过逐点相加引导u₂得到显著性图s₃；显著性图s₃通过不确定性语义增强子网络引导特征图Y₁得到u₁，并通过逐点相加引导u₁得到显著性图s₄；

步骤S5、将显著性图s₄经过2倍双线性插值上采样和Sigmoid函数得到医学图像P的最终预测分割结果P₀。

作为优选，步骤S3所述的二阶池化卷积注意力子网络模块，包括：

S31.令输入的特征图为×，其大小为H×W×C，其中H、W和C分别是特征图X的高度、宽度和通道数；

S32.将X通过Linear和Unfold两个线性层投影成大小为H×W×C的特征V，对于给定空间位置(i，j)，令表示以空间位置(i，j)为中心的大小为K×K×C的局部窗口内像素值的集合，/>可定义为：

其中K表示正方形局部窗口的边长，p表示局部窗口内像素值相对空间位置(i，j)在横坐标上的偏移量，q表示局部窗口内像素值相对空间位置(i，j)在纵坐标上的偏移量，V_i+p，j+q表示局部窗口内某一点的像素值；

S34.将X输入到二阶池化模块中，对X使用1×1卷积将通道数缩减到c；

S35.计算两两通道相关性，得到一个具备明确物理意义的协方差矩阵c×c，即第i行表示第i通道与所有通道间的统计相关性；

S36.将协方差矩阵进行逐行卷积，得到一个(K²×K²)×1的权值向量，再通过线性投影成大小为H×W×K⁴的权值A，对于给定空间位置(i，j)，是大小为K²×K²的局部窗口内的权值；

S37.将经过Softmax操作后与/>做多头自注意力操作得到局部窗口的深层特征/> 定义为：

S38.将经过加权平均密集聚合，得到大小为H×W×C的二阶池化卷积注意力子网络的深层特征输出/>其中对于给定空间位置(i，j)的深层特征输出/>可定义为：

其中m表示给定空间位置(i，j)周围局部窗口内的深层特征相对该位置在横坐标上的偏移量，n表示给定空间位置(i，j)周围局部窗口内的深层特征相对该位置在纵坐标上的偏移量，Y_Δi+m，j+n表示空间位置(i+m，j+n)上的深层特征。

作为优选，步骤S4所述的不确定性语义增强子网络，包括：

S41.令输入的显著性图为s，大小为上采样为H×W×1的显著性图S，令输入的特征图为x，其大小为H×W×C；

S42.对显著性图S计算前景图S_f、背景图S_b和不确定区域图S_u的表征向量，计算公式如下：

S_f＝max(S-0.5，0)，S_b＝max(0.5-S，0)，S_u＝0.5-|S-0.5|；

S43.对大小为H×W×1的显著性图S_f、S_b和S_u做通道连接并重塑为1×HW×3大小的特征图f₀；

S44.将特征图x经过1×1卷积进行特征融合，并重塑为1×HW×C大小的特征图f₁；

S45.将特征图f₁的与特征图f₀每个区域图汇总，做矩阵乘法并在通道维度拼接得到大小为1×C×3的特征图f₂，汇总过程可定义为：

v_f＝S_f⊙f₁，v_b＝S_b⊙f₁，v_u＝S_u⊙f₁，

f₂＝concat(v_f，v_b，v_u)，

其中v_f、v_b和v_u分别表示前景区域、背景区域和不确定区域特征向量，⊙表示矩阵乘法；

S46.将特征图f₁和f₂分别经过1×1卷积进行特征融合，然后做矩阵乘法得到大小为1×HW×3的特征图f₃，以计算每个特征向量与输入特征图f₁中的每个像素之间的相似度，定义为：

其中表示逐点卷积，r_f′、r_b′和r_u′表示对应特征向量v_f、v_b、和v_u与输入特征图f₁中的每个像素之间的相似度，r_f、r_b和r_u表示对应特征向量v_f、v_b、和v_u的相似度得分，

S47.将特征向量v_f、v_b、和v_u经过权重矩阵与相似度得分r_f、r_b和r_u相乘的结果相加，然后通过1×1卷积得到上下文特征图R如下：

其中ω为权重矩阵；

S48.将上下文特征图R和输入特征图x相对于通道方向进行拼接，并进行逐点卷积得到大小为H×W×C的不确定性语义增强子网络输出特征图u。

作为优选，步骤S4所述的显著性引导过程，包括：

S41.令医学图像P的大小为W×H×C，其中W、H和C分别是图像的宽度、高度和通道数；

S42.将医学图像P输入到PVT网络，通过卷积层得到大小为的T₁，卷积核大小为3×3×C，步长为2，输出通道数为/>其中L是特征图T₃的通道数。将T₁通过卷积层得到大小为/>的T₂，将T₂通过卷积层得到大小为/>的T₃，两个卷积层都将图像的高和宽变为原来的一半，通道数变为原来的两倍。将T₃通过卷积层得到大小为的显著性图s1。

S43.将T₁输入SPA网络模块得到大小为的Y₁；将T₂输入SPA网络模块得到大小为/>的Y₂；将T₃输入SPA网络模块得到大小为/>的Y₃；

S44.将s₁经过2倍线性上采样得到大小为的S₁，将S₁通过不确定性语义增强子网络引导特征图_Y3得到u₃，并通过逐点相加引导u₃得到大小为/>显著性图s₂；

S45.将s₂经过2倍线性上采样得到大小为的S₂，将S₂通过不确定性语义增强子网络引导特征图Y₂得到u₂，并通过逐点相加引导u₂得到大小为/>显著性图s3；

S46.将s3经过2倍线性上采样得到大小为的S₃，将S₃通过不确定性语义增强子网络引导特征图Y₁得到u₁，并通过逐点相加引导u₁得到大小为/>显著性图s4。

与现有技术相比，本发明具有如下优点：

本发明提供的基于显著性图引导和不确定性语义增强的息肉分割方法，该算法首先通过二阶池化卷积注意力网络(SPA)学习更高阶的特征表示以增强非线性建模能力，进一步地将显著性检测编码网络生成的显著图通过不确定性语义增强子网络(UAA)引导网络关注目标区域特征的学习，同时增强网络对不确定分类区域和复杂边界的表征能力，以提升网络在不同模态医学图像语义分割任务中的分割性能。相比于其他对比算法，此算法在目标息肉数据集图像分割任务中取得了更好的分割性能。

附图说明

图1为本发明的基于显著性图引导和不确定性语义增强网络的架构图；

图2为本发明二阶池化注意力子网络结构图；

图3为本发明不确定性语义增强子网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

其中一个实施例中，提供了一种基于显著性图引导和不确定性语义增强的息肉分割方法，该方法通过对目标区域的显著性和不确定性计算，来引导网络关注目标区域特征的学习，同时对与边界信息高度相关的显著图进行不确定性区域增强，以进一步提升网络在多种复杂场景下的分割性能，增强网络的泛化能力和鲁棒性。

具体的，如图1所示，本实施例中的基于显著性图引导和不确定性语义增强的息肉分割方法，包括以下步骤：

步骤S1、获取待分割的医学图像P。

步骤S2、将图像P输入到PVT主干编码子网络中，提取出三个特征图T₁、T₂、T₃和一个显著性图s₁。

步骤S3、将特征图T₁、T₂、T₃分别输入到二阶池化卷积注意力子网络SPA中得到图像Y₁、Y₂、Y₃。

如图2所示，本实施例中的二阶池化卷积注意力子网络模块具体如下：

S31.令输入的特征图为X，其大小为H×W×C，其中H、W和C分别是特征图X的高度、宽度和通道数；

S38.将经过加权平均密集聚合，得到大小为H×W×C的二阶池化卷积注意力子网络的深层特征输出/>其中对于给定空间位置(i\，j)的深层特征输出/>可定义为：

本实例即为提出的一个新颖的注意力模型，将特征表示从较低层引入到较高层，以在整个网络中利用整体图像信息。具体地，通过卷积局部先验引入，并聚焦细粒度全局依赖建模，二阶池化卷积注意力模型旨在更高效的将细粒度特征和全局上下文信息编码到特征表征中。进一步，通过全局相关性建模，捕获长距离统计信息并使用注意力权值丰富原数据的表征能力。

步骤S4、显著性图s₁通过不确定性语义增强子网络UAA引导特征图_Y3得到u₃，并通过逐点相加引导u₃得到显著性图s₂；显著性图s₂通过不确定性语义增强子网络引导特征图Y₂得到u₂，并通过逐点相加引导u₂得到显著性图s₃；显著性图s₃通过不确定性语义增强子网络引导特征图Y₁得到u₁，并通过逐点相加引导u₁得到显著性图s₄。

如图3所示，本实施例中的不确定性语义增强子网络具体如下：

S_f＝max(S-0.5，0)，S_b＝max(0.5-S，0)，S_u＝0.5-|S-0.5|；

v_f＝S_f⊙f₁，v_b＝S_b⊙f₁，v_u＝S_u⊙f₁，

f₂＝concat(v_f，v_b，v_u)，

其中ω为权重矩阵；

本实施例中的显著性引导过程具体如下：

S44.将s1经过2倍线性上采样得到大小为的S₁，将_S1通过不确定性语义增强子网络引导特征图Y₃得到u₃，并通过逐点相加引导u₃得到大小为/>显著性图s₂；

通过研究显著性图和反向显著性图的反向注意力，发现显著性分数模糊的地方通常有边界区域。换言之，边界区域与显著性分数约为0.5倍的高度相关。基于此，假设显著性图和反向显著性图的边缘信息量相似，因此提出不确定性语义增强模块来排除不确定区域的丰富语义特征，即使没有额外的边缘指导。本节使用最大运算来计算前景和背景图，以便从彼此之间以及不确定的区域图中获取信息。因为不确定的区域图已经代表了它们的联合区域，因此这些信息是多余的，可能会削弱不确定性的作用。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于显著性图引导和不确定性语义增强的息肉分割方法，其特征在于，包括以下步骤：

步骤S1、获取待分割的医学图像P；

步骤S2、将图像P输入到PVT主干编码子网络中，提取出三个特征图T₁、T₂、T₃和一个显著性图s₁；

2.如权利要求1的基于显著性图引导和不确定性语义增强的息肉分割方法，其特征在于：步骤S3中，二阶池化卷积注意力子网络SPA，包括：

S32.将X通过Linear和Unfold两个线性层投影成大小为H×W×C的特征V，对于给定空间位置(i,j)，令表示以空间位置(i,j)为中心的大小为K×K×C的局部窗口内像素值的集合，/>可定义为：

其中K表示正方形局部窗口的边长，p表示局部窗口内像素值相对空间位置(i,j)在横坐标上的偏移量，q表示局部窗口内像素值相对空间位置(i,j)在纵坐标上的偏移量，V_i+p,j+q表示局部窗口内某一点的像素值；

S36.将协方差矩阵进行逐行卷积，得到一个(K²×K²)×1的权值向量，再通过线性投影成大小为H×W×K⁴的权值A，对于给定空间位置(i,j)，是大小为K²×K²的局部窗口内的权值；

S37.将经过Softmax操作后与/>做多头自注意力操作得到局部窗口的深层特征定义为：

S38.将经过加权平均密集聚合，得到大小为H×W×C的二阶池化卷积注意力子网络的深层特征输出/>其中对于给定空间位置(i,j)的深层特征输出/>可定义为：

其中m表示给定空间位置(i,j)周围局部窗口内的深层特征相对该位置在横坐标上的偏移量，n表示给定空间位置(i,j)周围局部窗口内的深层特征相对该位置在纵坐标上的偏移量，Y_Δi+m,j+n表示空间位置(i+m,j+n)上的深层特征。

3.如权利要求1的基于显著性图引导和不确定性语义增强的息肉分割方法，其特征在于：步骤S4中，所述的不确定性语义增强子网络，包括：

S41.令输入的显著性图为s，大小为上采样为H×W×1的显著性图S，令输入的特征图为x,其大小为H×W×C；

S42.对显著性图S计算前景图S_f、背景图S_b和不确定区域图S_u的表征向量,计算公式如下：

S_f＝max(S-0.5,0),S_b＝max(0.5-S,0),S_u＝0.5-|S-0.5|；

v_f＝S_f⊙f₁,v_b＝S_b⊙f₁,v_u＝S_u⊙f₁，

f₂＝concat(v_f,v_b,v_u)，

其中ω为权重矩阵；