CN113657392A

CN113657392A - 基于低秩混合注意力机制的小目标语义分割方法及系统

Info

Publication number: CN113657392A
Application number: CN202110936284.5A
Authority: CN
Inventors: 宁阳; 聂秀山; 魏珑; 尹习林; 王大伟; 张云峰; 张彩明
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-11-16
Anticipated expiration: 2041-08-16
Also published as: CN113657392B

Abstract

本发明提出了基于低秩混合注意力机制的小目标语义分割方法及系统，包括：构建分割模型，具体为：构造分割数据集并进行数据预处理；针对预处理后的分割数据集进行特征提取：基于扩张卷积扩大感受野；作为池化层的替代，通过在网络中添加低秩混合注意力机制聚合特征信息并提取高阶语义特征；针对提取的特征，计算加权交叉熵损失及Dice损失，使用混合损失函数对网络进行训练获得网络模型；针对待分割对象，利用分割模型输出小目标分割结果。有效地解决图像数据集中较小的目标尺寸易导致严重的类别不均衡问题，以及在特征学习过程中导致信息丢失，致使难以在解码器中实现对图像精确重建的问题。

Description

基于低秩混合注意力机制的小目标语义分割方法及系统

技术领域

本发明属于图像分割技术领域，尤其涉及基于低秩混合注意力机制的小目标语义分割方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着深度学习技术的不断发展，图像的语义分割方法取得了显著的进步。作为计算机视觉中的一个基本主题，语义分割的目标是为图像中的每个像素分配语义类标签。近年来，基于深度学习的语义分割在各种具有挑战性的任务中得到了众多学者的积极研究，例如自动驾驶、虚拟现实和计算机辅助诊断等。其中，语义分割对此类任务中传统目标的分割通常能取得令人满意的效果。

然而，相对于传统目标，小目标具有一些阻碍图像分割精度提高的不利因素。首先，小目标不但容易受到复杂背景信息的影响(例如自然图像中的遮挡难题)且具有较少的上下文信息(例如医学图像中冠脉钙化病灶)；其次，由于小目标的尺寸较小，因此其通常会导致所属任务中严重的类别不均衡问题；最后，小目标容易在下采样的过程中丢失结构化细节信息。由于这些上述因素使得研究者面临巨大挑战。因此，当前针对小目标的语义分割方法尚未成熟，仍然需要研究者继续为之进行更加深入的研究。

目前，针对小目标的语义分割方法大致分为两种流派：基于两阶段(先硬定位再分割、两次分割)和基于单阶段(注意力机制软定位)的分割方法。对基于两阶段的分割方法来说，虽然通常具有较高的分割精度，但由于此类方法首先需要对目标进行硬定位，然后再进行分割，因此其复杂的步骤并不利于模型的落地。

传统的图像的注意力机制可以在局部特征表示上建模远程的上下文信息以获得更具判别性的特征，这对于图像的场景理解至关重要。然而，由于非局部矩阵运算的操作容易引入较大的计算复杂度，因此其同样不利于模型的落地。

发明内容

为克服上述现有技术的不足，本发明提供了基于低秩混合注意力机制的小目标语义分割方法，能够满足绝大部分小目标分割任务的深度学习要求。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了基于低秩混合注意力机制的小目标语义分割方法，包括：构建分割模型，具体为：

构造分割数据集并进行数据预处理；

针对预处理后的分割数据集进行特征提取：基于扩张卷积扩大感受野；作为池化层的替代，通过在网络中添加低秩混合注意力机制聚合特征信息并提取高阶语义特征；

针对提取的特征，计算加权交叉熵损失及Dice损失，使用混合损失函数对网络进行训练获得网络模型；

针对待分割对象，利用分割模型输出小目标分割结果。

进一步的技术方案，对分割数据集进行数据预处理，包括：

对分割数据集中的图像进行重采样；

重采样后，基于滑动窗口在图像上取得的较小图像块作为网络的输入图像；

最后，对数据进行增强操作，增强操作后有标签数据集和无标签数据集的标签不变。

进一步的技术方案，基于扩张卷积扩大感受野，具体为：使用扩张卷积提取图像的特征不同尺度的特征信息。

进一步的技术方案，提取高阶语义特征时：使用平均池化和最大化池化来分别提取平滑特征信息和显著性特征，并将提取的特征相加，然后，对获得的相加后的特征进行以学习获得相似性关系，最后，通过一元函数对最初的输入矩阵进行学习。

进一步的技术方案，所述特征提取还包括：构造门控机制来抑制特征提取中的噪声信息：

使用特征聚合函数来压缩通道信息并计算二维空间位置的相似度信息；

使用两个连续的全连接层学习位置权重；

使用一个概率学习函数来学习不同通道与位置间的差别；

对计算所得的概率图添加阈值。

进一步的技术方案，所述特征提取还包括：在去除噪声之后，通过连续的上采样和卷积层对图像进行重建。

进一步的技术方案，计算加权交叉熵损失时，构造一个基于图像中点到病灶距离的加权方式对交叉熵损失函数加权。

进一步的技术方案，计算Dice损失时，利用全部数据的对比得分和历史加权对比得分，计算其得分最大值所对应类别为预测类别；然后，将现在输出的预测结果与历史加权输出的预测结果做均方差损失计算。

第二方面，公开了基于低秩混合注意力机制的小目标语义分割系统，包括：

分割模型构建模块，被配置为：

构造分割数据集并进行数据预处理；

分割模块，被配置为：针对待分割对象，利用分割模型输出小目标分割结果。

以上一个或多个技术方案存在以下有益效果：

基于低秩混合注意力机制的小目标语义分割方法，对比传统的方法，在小目标分割方面有优异表现。

首先，针对小目标尺寸过小可能导致严重的类别不均衡问题，本发明构造了一个新的混合损失函数对网络进行监督训练，获得了较好的分割结果。

其次，针对小目标容易在特征提取过程中丢失结构化信息，以致难以在重建过程中保证边缘结构完整性的问题，本发明基于扩张卷积构造了多尺度融合模块来提取小目标的多尺度信息，在扩大感受野的同时对图像的空间分辨率进行有效保持，使对小目标的精确重建成为可能。

然后，针对传统注意力机制的矩阵运算的计算复杂度过高的问题，本发明基于低秩重建的思想构造了低秩混合注意力机制模块，其能在建立全局依赖和通道间依赖关系的同时有效降低模型的计算复杂度。

最后，针对网络跳跃连接中的噪声影响，构造了一个新的门控机制来抑制不相关信息，进一步提高了小目标的分割精度。基本上述算法，能够满足绝大部分小目标分割任务的深度学习要求。

上述设计思想也可以引用到其他有此问题的领域上，帮助其他领域更好的完成深度学习任务。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明提供的一种基于低秩混合注意力机制的小目标分割方法与系统实现钙化斑块分割的网络学习流程示意图；

图2为本发明提供的基于低秩混合注意力机制的小目标分割模型框架示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了基于低秩混合注意力机制的小目标语义分割方法，如图1所示，本发明实施例中的一种基于低秩混合注意力机制的钙化斑块分割方法与系统的具体实现流程，包括如下步骤：

步骤(1)：数据预处理

数据预处理：由于操作习惯和设备型号的差异，对图像数据进行了归一化(自然图像)或重采样(医学图像)操作。对医学图像来说，首先，由于数据中存在某些部位HU(Hounsfield Unit)值过高的情况，本方明通过设置一个阈值来抑制数据中某些部位HU值过高的情况，从而避免出现数据在归一化后值分布过于集中所导致的特征不明显的情况；其次，为了让数据集每个类别的数量达到平衡，对数据进行了随机数据增强操作；另外，为了降低计算资源消耗，本发明使用滑动窗口构造图像块作为网络的输入；

针对输入的原始图像，首先，先设置阈值；其次，通过数据增强来降低类别不均衡的问题；最后，再用滑动窗口获得增强图像的图像块作为输出，输出是基于滑动窗口得到的图像块用于后续的分割网络，上述操作目的是为了降低后续分割网络的计算复杂度。

具体的，由于本发明构造的冠脉钙化小目标分割数据集中的图像存在像素间距和切片间距离不一致的问题，这不利于模型的学习。因此首先对图像进行了重采样。由此可能导致图像大小不一致，且图像过大的分辨率也会导致计算机显存需求较大，因此基于滑动窗口在图像上取得的较小图像块作为网络的输入图像。另外，由于冠脉钙化分割数据集中有标签数据量较少，为提升模型的数据量和泛化能力，对数据进行了常规的数据增强操作，包括图像规范化、随机图像翻转、旋转、添加弹性形变、随机对比度调整等。数据增强后有标签数据集和无标签数据集的标签不变。特别注意的是，扩充后有标签数据必须保证每类数据平衡，即每类数据量大体一致。

步骤(2)：特征提取

首先，自动编码解码器网络使用传统的U形网络作为骨架网络，编码器使用连续的卷积和池化操作来逐层提取高阶语义特征，解码器使用连续的上采样和卷积来逐渐恢复原始空间分辨率并获得最终的分割结果；其次，由于目标的尺寸较小，为了降低待分割对象的信息丢失，本发明基于扩张卷积来扩大感受野；然后，作为池化层的替代，通过在网络中添加低秩混合注意力机制模块来聚合特征信息并提取高阶语义特征；最后，本发明在跳跃连接上添加了一个新构造的可过滤噪声信息的门控机制，通过学习一个全局的权重分布来抑制特征图中的不相关信息，从而强化相关信息的影响力；

具体包括以下步骤：

步骤(2-1)：假设图像的特征为F。使用扩张卷积提取F不同尺度的特征信息，并通过通道注意力机制调节通道间的强度关系。在本实例中，扩张率分别取1、2、3，提取特征后使用拼接的方式进行聚合并获得输出特征F_s。

F_a＝f[C_a1(F)，C_a2(F)，C_a3(F)]

F_s＝f_se(F_a)

其中，F表示模型输入的中间层特征图，C_ai表示扩张率为i的空洞卷积，f_se表示混合注意力机制。

接下来，将通过构造低秩混合注意力机制模块来对特征进行增强，其由低秩空间注意力机制和通道注意力机制共同构成。

步骤(2-2)：首先，为了在对小目标长距离依赖关系进行捕捉的同时有效降低网络的计算复杂度，使用平均池化和最大化池化来分别提取分割目标特征F_s的平滑特征信息和显著性特征，并将提取的特征相加获得低秩特征y。其次，使用f(x，y)和g(x)对y进行学习以获得相似性关系。其计算过程如下：

其中f_ap和f_mp分别代表平均池化和最大化池化操作，F_s代表经过混合注意力机制模块以后的增强特征。

表示特征融合过程，f表示不同位置间的关系映射函数，g表示特征映射函数，C(x)表示归一化函数。

然后，通过将上述低秩特征信息与空间注意力机制相结合获得此步骤的特征输出F。

步骤(2-3)：为了使网络具有更强的梯度回传，本发明通过新构造的门控机制来增强通道注意力机制抑制跳跃连接中噪声信息的能力。

首先，使用一个可学习的特征聚合函数θ将输入特征F映射为一维空间，以降低模型的计算复杂度，其计算过程如下式所示：

F＝θ(F)＝W_θ*F

然后，使用两个连续的全连接层来学习特征F的位置权重，并使用resize函数将特征重新映射为二维空间，其计算过程如下式所示：

F＝f_sc(f_sq(F))

F₁＝resize(F)

其中f_sq与f_sc表示连续的两个全连接层。

其次，考虑到上述路径忽略了不同通道之间特征的差异性，本发明引入了一条跳跃连接，其使用一个概率学习函数T来学习不同通道与位置间的差别以增强模型对噪声的鲁棒性(特征F₁和F₂分别是低秩空间注意力机制和通道注意力机制的增强输出，这两个融合以后作为低秩混合注意力机制的特征输出)，其计算过程如下式所示：

F₂＝T(F)

其中T基于3*3的卷积操作实现。

最后，为了避免权重过小而彻底丢失特征信息，对基于混合注意力特征计算得到的概率图添加阈值ε，这里取ε为0.01。其计算过程如下式所示：

其中M为输出的增强特征矩阵。

步骤(2-4)：通过对特征M进行连续的上采样和卷积层操作来对图像进行重建，并通过添加抑制无关信息后的浅层信息使推断结果更加准确，进一步获得最终的分割结果。

步骤(3)：计算加权交叉熵损失

上述步骤3和步骤4对应网络训练阶段，这两个损失是用来对步骤2所构造框架进行训练的，通过训练步骤2才能得到最终的分割结果。

利用有标签数据对比得分，计算其得分最大值所对应类别为预测类别。将预测类别与真实标签类别进行交叉熵损失计算；

首先，本发明构造了一个基于图像中点到病灶距离的加权方式对交叉熵损失函数加权。传统的二值交叉熵损失函数公式如下所示：

l(p)＝-(y_plog(x_p)+(1-y_p)log(1-x_p))

其中p表示当前像素点。为了解决交叉熵损失函数容易导致类间不均衡的问题，本发明提出了一种新的加权方法，从而使得网络获得更好的收敛结果。其计算过程如下所示：

ω＝C(ρ(ω)，β)

其中ρ表示一次迭代计算ω的过程，

表示使用参数全1的卷积核将卷积ω范围向外拓展一次的运算过程。α表示每次卷积间的权重差值，距离病灶区域越远，权重越低。β用来表示计算过程的迭代次数，函数C表示对权重ω进行β次ρ函数运算。最终的权重矩阵表现为以病灶为中心，随距离向外逐渐递减的阶梯状矩阵。

其次，为了平衡图像边缘负类与ω之间的关系，从而使得边缘负类也可以对网络的优化做贡献，本发明对ω做以下变换：

其中

和δ用来调整损失的范围以及平衡ω与边缘负类间的关系。对于DWCE损失的最终计算结果，本发明使用符号L来表示。其计算公式如下所示：

步骤(4)：计算Dice损失

利用全部数据的对比得分和历史加权对比得分，计算其得分最大值所对应类别为预测类别。将现在输出的预测结果与历史加权输出的预测结果做均方差损失计算。

首先，利用全部数据的对比得分和历史加权对比得分，计算其得分最大值所对应类别为预测类别；然后，将现在输出的预测结果与历史加权输出的预测结果做均方差损失计算。Dice损失的计算公式如下所示：

其中p表示模型的预测结果，y表示输入图像的Ground Truth。

步骤(5)：网络训练

结合加权交叉熵损失函数和Dice损失的优势，通过使用基于距离的加权交叉熵损失函数DWCE损失和Dice损失的混合损失函数对网络进行训练。首先，使用DWCE损失对网络进行多次迭代训练和分阶段优化；然后，使用Dice损失获得网络的最终收敛结果，保存其最小损失值时的网络模型。

步骤(6)：网络预测

将待测试的图像数据输入已训练好的网络模型进行预测得到分割结果：全局图像每一个像素位置属于每一个类别的概率，然后计算每一个像素位置最大值所对应类别为预测结果，输出预测结果。

本发明实施例中有效地解决图像数据集中较小的目标尺寸易导致严重的类别不均衡问题，以及在特征学习过程中导致信息丢失，致使难以在解码器中实现对图像精确重建的问题。通过融合注意力机制和低秩重建算法的优势，解决了上述问题，实现了在图像分割领域中针对小目标更好的分割效果。为了对提出的算法进行充分验证，首先，本发明构造了一个全新的针对小目标的图像分割数据集(面向冠心病辅助诊断的冠脉钙化分割数据集)；其次，针对某些图像应用领域(例如医学图像领域)的专业性较强所导致的标注困难和有标签数据量过小的问题，本发明构造了一种新的数据增强方法以扩充训练样本的数据量；另外，本发明构造了一个基于低秩混合注意力机制的分割网络以实现对小目标的精确分割，其主要包括如下：

1)为了解决分割模型感受野扩大与结构化细节信息丢失之间的矛盾，本发明构造了一个低秩混合注意力机制模块，对应步骤(2-2)和步骤(2-3)，，其可以使分割模型在捕捉长期依赖关系的同时具有多尺度学习能力；

2)为了抑制不相关信息以提高网络推断结果的精度，本发明构造了一个新的门控单元机制，针对低秩空间注意力机制的输出特征，因为低秩通道注意力机制是其后的操作；利用新的门控单元机制：其处理结果F₂同空间注意力结果F₁进行融合作为增强后的特征输出；具体过程：对应步骤(2-3)，以过滤网络学习中的噪声信息；

3)为了更好地对分割过程中的类别不均衡问题进行抑制，本发明通过对图像中像素与小目标的像素距离作为权重对交叉熵损失函数进行加权，构造了一个基于加权交叉熵损失和Dice损失的混合损失函数对网络进行训练。

实施例二

本实施例的目的是提供一种计算装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

实施例四

本实施例的目的是提供基于低秩混合注意力机制的小目标语义分割系统，包括：

分割模型构建模块，被配置为：

构造分割数据集并进行数据预处理；

分割模型构建模块包括：编码器特征提取模块、依赖增强模块、解码器。

编码器特征提取模块、依赖增强模块执行上述实施例子二中的步骤(2)中的具体步骤。

具体的，如图2所示，对整个基于低秩注意力机制的小目标分割系统模型框架做解释说明。

图2中所对应的虚线框内系统为主要执行小目标分割功能的系统模块，主要过程对应于步骤(2)中的过程。首先，输入图像由编码器提取特征向量；然后，通过低秩注意力机制模块扩大感受野并建立全局和通道间的依赖关系，最后通过解码器获得分割结果；最后，使用新构造的门控机制来抑制跳跃连接中的噪声信息。

用户输入待测试图像数据进入分割系统，系统内部自动进行编码器特征提取、依赖增强、门控机制过滤噪声、解码器获取分割结果四个过程，最后输出小目标分割结果与用户进行交互。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于低秩混合注意力机制的小目标语义分割方法，其特征是，包括：构建分割模型，具体为：

构造分割数据集并进行数据预处理；

针对待分割对象，利用分割模型输出小目标分割结果。

2.如权利要求1所述的基于低秩混合注意力机制的小目标语义分割方法，其特征是，对分割数据集进行数据预处理，包括：

对分割数据集中的图像进行重采样；

3.如权利要求1所述的基于低秩混合注意力机制的小目标语义分割方法，其特征是，基于扩张卷积扩大感受野，具体为：使用扩张卷积提取图像的特征不同尺度的特征信息。

4.如权利要求1所述的基于低秩混合注意力机制的小目标语义分割方法，其特征是，提取高阶语义特征时：使用平均池化和最大化池化来分别提取平滑特征信息和显著性特征，并将提取的特征相加，然后，对获得的相加后的特征进行以学习获得相似性关系，最后，通过一元函数对最初的输入矩阵进行学习。

5.如权利要求1所述的基于低秩混合注意力机制的小目标语义分割方法，其特征是，所述特征提取还包括：构造门控机制来抑制特征提取中的噪声信息：

使用两个连续的全连接层学习位置权重；

使用一个概率学习函数来学习不同通道与位置间的差别；

对计算所得的概率图添加阈值。

6.如权利要求1所述的基于低秩混合注意力机制的小目标语义分割方法，其特征是，所述特征提取还包括：在去除噪声之后，通过连续的上采样和卷积层对图像进行重建。

7.如权利要求1所述的基于低秩混合注意力机制的小目标语义分割方法，其特征是，计算加权交叉熵损失时，构造一个基于图像中点到病灶距离的加权方式对交叉熵损失函数加权；

优选的，计算Dice损失时，利用全部数据的对比得分和历史加权对比得分，计算其得分最大值所对应类别为预测类别；然后，将现在输出的预测结果与历史加权输出的预测结果做均方差损失计算。

8.基于低秩混合注意力机制的小目标语义分割系统，其特征是，包括：

分割模型构建模块，被配置为：

构造分割数据集并进行数据预处理；

9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。