CN117152443B

CN117152443B - 一种基于语义前导指引的图像实例分割方法及系统

Info

Publication number: CN117152443B
Application number: CN202311412606.1A
Authority: CN
Inventors: 王伟; 张磊; 唐涛; 朱杰; 龚汉城; 陈敏; 赵鹏飞; 龚宇波
Original assignee: Jiangxi Jiangtou Digital Economy Technology Co ltd; Jiangxi Yunyan Shijie Technology Co ltd
Current assignee: Jiangxi Jiangtou Digital Economy Technology Co ltd; Jiangxi Yunyan Shijie Technology Co ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-02-23
Anticipated expiration: 2043-10-30
Also published as: CN117152443A

Abstract

本发明提供一种基于语义前导指引的图像实例分割方法及系统，方法包括基于CSPDarknet53主干网络搭建图像实例分割框架，并在图像实例分割框架中引入双向特征金字塔网络，得到更新图像实例分割框架；在更新图像实例分割框架中引入SGP模块，并基于SGP模块整合背景前导表征模块与语义增强通道模块；并将其引入更新图像实例分割框架中，得到增强图像实例分割框架；基于解耦头对增强图像实例分割框架进行分割，以得到检测分支以及掩码分支，并基于检测分支以及掩码分支对预处理图像数据集进行实例分割。本发明能够适应不同尺度的对象和场景，消除不相关的背景噪声，并且能够更加精确的分割出图像数据集中的不同目标。

Description

一种基于语义前导指引的图像实例分割方法及系统

技术领域

本发明涉及图像实例分割技术领域，特别涉及一种基于语义前导指引的图像实例分割方法及系统。

背景技术

自动驾驶技术是近年来智能交通领域中的重要突破，其在提高交通安全性、减少交通拥堵、提升交通效率等方面具有巨大潜力。自动驾驶车辆通过感知环境并做出决策，使其能够实时地适应各种交通场景和路况情况。其中，自动驾驶车辆需要准确、高效地定位并分割出道路、障碍物、行人等各种关键物体，以便更精准地做出驾驶决策。

目前，深度学习技术在计算机视觉领域取得了巨大的突破，尤其是在目标检测和语义分割等任务方面

现有技术当中，在自动驾驶场景中，传统的图像分割方法仍面临着一些挑战，例如准确性、鲁棒性和实时性等。已有的自动驾驶车辆的视觉感知系统通常将卷积神经网络等深度学习技术作为算法基础模型，其中以 FCN 为代表的编解码器架构是一种常见的选择。然而，在现有的编解码器架构中，一方面由于内核大小的固定，感受野受到极大的限制，这可能阻碍网络对全局上下文信息的建模，导致目标无法被清晰的定位分割出来。另一方面，虽然大部分主流的实例分割算法框架都会引入特定的特征融合模块以弥补从浅层传输到深层所丢失的深度语义信息，但由于缺乏合理的融合机制，这可能会引入噪声和无关信息，模糊最终的检测结果，导致不可估量的影响。

发明内容

基于此，本发明的目的是提供一种基于语义前导指引的图像实例分割方法及系统，以至少解决上述现有技术当中的不足。

一方面本发明提供一种基于语义前导指引的图像实例分割方法，所述方法包括：

获取图像数据集，并对所述图像数据集进行预处理，得到预处理图像数据集；

基于CSPDarknet53主干网络搭建图像实例分割框架，并在所述图像实例分割框架中引入双向特征金字塔网络，得到更新图像实例分割框架；

在所述更新图像实例分割框架中引入SGP模块，并基于所述SGP模块整合背景前导表征模块与语义增强通道模块；

将所述背景前导表征模块与所述语义增强通道模块引入所述更新图像实例分割框架中，得到增强图像实例分割框架；

基于解耦头对所述增强图像实例分割框架进行分割，以得到检测分支以及掩码分支，并基于所述检测分支以及所述掩码分支对所述预处理图像数据集进行实例分割。

与现有技术相比，本发明的有益效果是：通过CSPDarknet53主干网络能够捕获多层级的特征信息，从而能够适应不同尺度的对象和场景，通过在图像实例分割框架中引入双向特征金字塔网络，从而使得图像实例分割框架能够在多个尺度上聚合和融合特征信息，并且通过将背景前导表征模块与语义增强通道模块引入更新图像实例分割框架中，使得图像实例分割框架能够消除不相关的背景噪声，并且能够更加精确的分割出图像数据集中的不同目标。

进一步的，所述并对所述图像数据集进行预处理的步骤包括：

加载所述图像数据集中的对应的标注信息，并对所述图像数据集进行清洗，得到清洗图像数据集；

对所述清洗图像数据集进行图像增强，得到增强图像数据集；

提取所述增强图像数据集中的各个像素，并将语义标签映射到所述各个像素上，得到标签图像数据集；

对所述标签图像数据集进行处理，所述处理包括缩放、裁剪以及填充。

进一步的，所述对所述清洗图像数据集进行图像增强的步骤包括：

对所述清洗图像数据集依次进行增强处理，所述增强处理包括马赛克增强、MixUp数据增强以及Copy-Paste数据增强。

进一步的，所述基于CSPDarknet53主干网络搭建图像实例分割框架的步骤包括：

在所述图像实例分割框架中引入部分连接机制；

将所述图像实例分割框架划分成若干不同的卷积层，以得到若干不同层级的卷积层。

进一步的，所述在所述更新图像实例分割框架中引入SGP模块的步骤包括：

基于所述SGP模块对所述预处理图像数据集进行特征传播，以将所述预处理图像数据集中的不同层级的特征信息进行融合；

基于所述SGP模块对所述预处理图像数据集进行横向连接，以将所述预处理图像数据集中的相邻层级的特征信息进行融合。

进一步的，所述并基于所述SGP模块整合背景前导表征模块与语义增强通道模块的步骤之后，所述方法包括：

基于所述背景前导表征模块提取所述预处理图像数据集中的相同目标像素之间的关联性特征，并基于所述关联性特征生成所述预处理图像数据集的区分特征；

基于所述语义增强通道模块提炼所述关联性特征中的高级抽象信息的语义特征，并将所述语义特征嵌入所述背景前导表征模块中。

进一步的，所述基于解耦头对所述增强图像实例分割框架进行分割的步骤之后，所述方法包括：

基于所述预处理图像数据集对所述增强图像实例分割框架进行训练，以得到优化图像实例分割框架。

另一方面本发明还提供一种基于语义前导指引的图像实例分割系统，所述系统包括：

获取模块，用于获取图像数据集，并对所述图像数据集进行预处理，得到预处理图像数据集；

搭建模块，用于基于CSPDarknet53主干网络搭建图像实例分割框架，并在所述图像实例分割框架中引入双向特征金字塔网络，得到更新图像实例分割框架；

第一引入模块，用于在所述更新图像实例分割框架中引入SGP模块，并基于所述SGP模块整合背景前导表征模块与语义增强通道模块；

第二引入模块，用于将所述背景前导表征模块与所述语义增强通道模块引入所述更新图像实例分割框架中，得到增强图像实例分割框架；

分割模块，用于基于解耦头对所述增强图像实例分割框架进行分割，以得到检测分支以及掩码分支，并基于所述检测分支以及所述掩码分支对所述预处理图像数据集进行实例分割。

进一步的，所述获取模块包括：

加载清洗单元，用于加载所述图像数据集中的对应的标注信息，并对所述图像数据集进行清洗，得到清洗图像数据集；

增强单元，用于对所述清洗图像数据集进行图像增强，得到增强图像数据集；

提取单元，用于提取所述增强图像数据集中的各个像素，并将语义标签映射到所述各个像素上，得到标签图像数据集；

处理单元，对所述标签图像数据集进行处理，所述处理包括缩放、裁剪以及填充。

进一步的，所述加载清洗单元包括：

增强处理子单元，用于对所述清洗图像数据集依次进行增强处理，所述增强处理包括马赛克增强、MixUp数据增强以及Copy-Paste数据增强。

附图说明

图1为本发明第一实施例中的基于语义前导指引的图像实例分割方法的流程图；

图2为本发明第一实施例中的图像实例分割框架的结构示意图；

图3为本发明第一实施例中的SGP模块的结构示意图；

图4为本发明第一实施例中的基于特征感知的通道筛选器的结构示意图；

图5为本发明第一实施例中的解耦头的解耦特征图；

图6为本发明第二实施例中的基于语义前导指引的图像实例分割系统的结构框图。

主要元件符号说明：

10、获取模块；20、搭建模块；30、第一引入模块；40、第二引入模块；50、分割模块。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，所示为本发明第一实施例中的基于语义前导指引的图像实例分割方法，所述方法包括步骤S1至步骤S5：

S1，获取图像数据集，并对所述图像数据集进行预处理，得到预处理图像数据集；

需要解释的是，图像数据集包括CitySpace数据集和ADE20k数据集，其中，CitySpace数据集涵盖了多种城市街景图像，其中包含了丰富的道路、建筑、车辆和行人等对象，适用于自动驾驶场景下的视觉感知任务，ADE20k数据集则涵盖了各种室内和室外环境，且包括了多个类别的物体和场景，适合进行图像分割性能评估。

值得说明的是，为了进行训练、验证和测试，可以将图像数据集划分为不同的子集，将其划分为训练集、验证集以及测试集，训练集用于训练，验证集用于调整参数和监控性能，测试集用于最终性能评估。

具体的，所述步骤S1包括步骤S11至S14：

S11，加载所述图像数据集中的对应的标注信息，并对所述图像数据集进行清洗，得到清洗图像数据集；

可以理解的是，为了确保图像数据集适用于图像实例分割，需要对其进行预处理，首先从CitySpace数据集和ADE20k数据集中加载图像和对应的标注信息，并进行清洗，以排出不适合训练和评估的图像，如质量较差的图像或缺少关键标签的图像。

S12，对所述清洗图像数据集进行图像增强，得到增强图像数据集；

可以理解的是，为了增加图像数据集的多样性和模型的鲁棒性，对图像进行增强操作，如随机裁剪、镜像翻转、颜色调整等。

具体的，所述步骤S12包括步骤S121：

S121，对所述清洗图像数据集依次进行增强处理，所述增强处理包括马赛克增强、MixUp数据增强以及Copy-Paste数据增强；

需要解释的是，为了应对复杂多变的场景变换，增强处理还可以引入马赛克增强、MixUp数据增强以及Copy-Paste数据增强，以提供图像数据的多样性和场景的丰富性。

S13，提取所述增强图像数据集中的各个像素，并将语义标签映射到所述各个像素上，得到标签图像数据集；

可以理解的是，将原始标签映射到图像数据集中的图像的各个像素上，确保每个像素都有对应的以及正确的语义标签。

S14，对所述标签图像数据集进行处理，所述处理包括缩放、裁剪以及填充；

需要解释的是，对标签数据处理具体为调整图像的尺寸以适应输入需求，可以通过简单的缩放、裁剪以及填充来实现。

S2，基于CSPDarknet53主干网络搭建图像实例分割框架，并在所述图像实例分割框架中引入双向特征金字塔网络，得到更新图像实例分割框架；

需要解释的是，CSPDarknet53主干网络是一种基于残差结构的深度卷积网络，其能够获得多尺度的特征表示能力，具体可参阅图2，所示为图像实例分割框架的结构图。

具体的，所述步骤S2包括步骤S21至步骤S22：

S21，在所述图像实例分割框架中引入部分连接机制；

可以理解的是，在图像实例分割框架中引入部分连接机制，也就是在CSPDarknet53主干网络中引入Cross-Stage机制，能够有效地提升特征提取的效率和能力。

S22，将所述图像实例分割框架划分成若干不同的卷积层，以得到若干不同层级的卷积层；

需要解释的是，通过将图像实例分割框架划分成不同的卷积层，以使得不同的卷积层处理不同的图像数据，而CSPDarknet53主干网络可以捕获多层级的图像的特征信息，适应不同尺度的对象和场景，因此，通过若干不同层级的卷积层进行卷积和池化操作，在不同层级生成的特征图被用于构建特征金字塔，从而能够捕获不同尺度的特征信息。这种多尺度特征金字塔有助于检测和分割不同大小的目标，为后续的分割任务提供了更多的上下文信息，使得图像实例分割框架能够在更大范围内感知图像的语义信息，因为道路、车辆、行人等对象通常存在不同的尺度，从而需要图像实例分割框架能够在更大范围内感知图像的语义信息。

S3，在所述更新图像实例分割框架中引入SGP模块，并基于所述SGP模块整合背景前导表征模块与语义增强通道模块；

需要解释的是，虽然采用了CSPDarknet53主干网络搭建图像实例分割框架，但在自动驾驶场景中，图像中不同目标的语义信息差异任然存在挑战，特别是在复杂的路况下，例如车辆与行人之间的边界区域，会使得分割任务可能变得更加困难，SGP模块通过有机地整合背景前导表征模块和语义增强通道模块来准确地建模全局上下文先验信息，同时有效地弥补抽象特征和具象特征之间的语义信息隔阂。

具体的，所述步骤S3包括步骤S31至步骤S34：

S31，基于所述SGP模块对所述预处理图像数据集进行特征传播，以将所述预处理图像数据集中的不同层级的特征信息进行融合；

需要解释的是，为了进一步提升从CSPDarknet53主干网络输出的特征图的表达能力，在更新图像实例分割框架中引入双向特征金字塔网络，用于在多个尺度上聚合和融合特征信息，双向特征金字塔网络充分利用了自底向上和自顶向下的特征传播，以增强特征的语义表达能力，具体的，请参阅图3，所示为SGP模块的结构示意图，在本实施例中，SGP模块为语义前导指引模块；

进一步的，双向特征金字塔网络通过自底向上和自顶向下的特征传播，将不同层级的特征信息进行融合，这种特征融合能够将不同尺度的语义信息结合在一起，从而能够更好的捕获目标的上下文关系；

S32，基于所述SGP模块对所述预处理图像数据集进行横向连接，以将所述预处理图像数据集中的相邻层级的特征信息进行融合。

需要解释的是，双向特征金字塔网络通过横向连接将相邻层级的特征进行融合，有助于在不同尺度上传播和保留信息，这种连接保持了特征图的高分辨率，有利于检测和分割小尺度的目标；

S33，基于所述背景前导表征模块提取所述预处理图像数据集中的相同目标像素之间的关联性特征，并基于所述关联性特征生成所述预处理图像数据集的区分特征；

可以理解的是，背景前导表征模块主要用于提取属于相同目标像素之间的关联性特征，以生成更多具有判别力的区分性特征，同时过滤掉无用的嘈杂背景信息；

在具体实施时，对于输入的具象特征，首先经过一个投影函数，进行通道维度的压缩，并利用Sigmoid 函数激活相关的目标区域同时进行相应地维度变换，具体表示如下：

；

其中，为输出的上下文先验，/>表示每个元素属于相应目标区域的激活度，在本实施例中，投影函数采用滤波器尺寸为1的卷积核进行计算，然后对特征图/>进行相应的矩阵变换，得到对应的/>个维度为/>的特征向量/>，其中r表示相应的压缩倍数，然后就能够计算出相应的哈达玛积，表达式为：

；

表示Softmax激活函数，用于获取相应的注意力权重系数，整体来说，背景前导表征模块采取了类似与注意力模块的互相关操作，使得特征向量中的每个像素都关联到其它像素之间的上下文信息，但又能很好的避免传统子注意力高昂的计算代价，同时极大降低显存。

S34，基于所述语义增强通道模块提炼所述关联性特征中的高级抽象信息的语义特征，并将所述语义特征嵌入所述背景前导表征模块中；

需要解释的是，经过语义增强通道模块的提取，可以先获得代表具象特征通道的上下文先验表征，由于具象特征本身分辨率更高，包含更多对定位有帮助的细节信息，但是由于经过的特征提取层更少，其语义性相对较低，同时也包含更多的噪声，抽象特征则阈值相反，由于经过多层特征提取因此具备更强的语义信息，但是由于其分辨率较低，故对目标细节的感知能力也会相对薄弱，因此需要语义增强通道模块提炼一组经过过滤筛选过厚的高级抽象信息的语义特征，从而为背景前导表征模块嵌入稀缺的高级语义先验。

在具体实施时，首先我们将来自浅层的具象特征从空间维度上与来自身深层的抽象特征进行对齐拼接并进行通道缩减。为了获取更具有代表性的一组语义特征，此处应用了基于特征感知的通道筛选器，具体可参阅图4，所示为基于特征感知的通道筛选器的结构示意图，主流的激励-挤压注意力机制更加关注通道压缩，从而可能降低学习到的通道间依赖关系。然而，这种压缩可能会导致信息损失，影响模型性能。相比之下，基于特征感知的通道筛选器注意力机制采用了一种不同的策略来处理通道间的关系，避免了降维。通过利用高效的点卷积操作，基于特征感知的通道筛选器能够在局部范围内跨通道进行交互，从而捕捉并提取通道间的关联。具体的，假设输入特征图为，其中/>为通道数，而和/>分别为特征图的高度和宽度，此时可以将基于特征感知的通道筛选器的通用数学表示，表示为：

；

经过全局平均池化/>进行压缩，随后应用一个简单的点卷积/>进行特征映射来计算每个通道的关联权重，对于每个通道，需要将关联权重进行归一化，以获得通道注意力权重，这里可以实用/>即Softmax来实现归一化操作，记作/>，则引出表达式：

；

表示第i个通道的注意力权重，最后，通过将每个通道的注意力权重与对应的特征图相乘，得到加权的特征图表示/>，这种方法在保持特征丰富性的同时，有效的建模了通道之间的依赖关系，因此与SE注意力机制相比，基于特征感知的通道筛选器在维持信息丰富性的同时，更有效地促进了通道之间的交互和依赖关系的学习。最终，通过语义增强通道模块获得的增强语义特征，便可以为每个背景前导表征模块引入来自深层抽象特征且经过特征筛选后的高级语义信息，以补偿在图像实例分割框架在解码过程中所稀释掉的语义权重。

值得说明的是，针对不同的输入图片，所需的语义和细节权重比应该是不同的，因此此处引入一个可学习的参数α以实现动态比例分配机制，以确保不同输入的特征能够得到适当的资源，简单来说这种权重分配机制将会根据特征图的内容自适应调整权重融合比例。最终，我们引入残差学习来稳健网络训练的收敛性，从而获得整个SGP模块的输出。

S4，将所述背景前导表征模块与所述语义增强通道模块引入所述更新图像实例分割框架中，得到增强图像实例分割框架；

可以理解的是，在将背景前导表征模块与语义增强通道模块引入更新图像实例分割框架后，使得更新实例分割框架能够对图像数据集进行处理。

S5，基于解耦头对所述增强图像实例分割框架进行分割，以得到检测分支以及掩码分支，并基于所述检测分支以及所述掩码分支对所述预处理图像数据集进行实例分割；

需要解释的是，为了提高分割的准确性和效率将增强图像实例分割框架分割为两个子任务，分别为检测分支与掩码分支，从而使得增强图像实例分割框架能够更加精确的定位和分割出图像数据集中的不同目标，诸如YOLOX等主流的一阶段目标检测器，尽管其同样也提供了解耦头设计，当本质上权重还是共享来自于BiFPN输出的相同输入特征，这种简单的设计并不能从本质上解决问题。这是因为不同的输入特征其涵盖的语义和空间细节信息是不相同的。通常来说，低层特征具备更丰富的细节信息而缺乏语义信息，而高层特征则与之相反，这必然不能最大限度的发挥这种“解耦头”的优势。如图5所示，在本实施例中，解耦头接收来自中间三个层级输出的特征图，即{,/>}，并生成用于特定任务的解耦特征图，在获取丰富语义上下文的同时也能兼顾必要的空间细节信息。

检测分支对于融合后的层级特征图，在解耦头中执行边界框回归，回归过程利用网络学习目标的精确位置，通过预测目标的中心坐标和边界框的宽度和高度来实现，这些预测值用于准确地定位目标，并生成相应的Bounding Box，在这个过程中，网络同时学习了若干个不同的掩码系数，其代表分割分支每个掩码图的置信度；

掩码分支在回归检测框的同时，解耦头还执行类别分割任务，生成每个目标的语义分割掩码，这些掩码指示了图像中每个像素属于哪个目标类别，从而实现像素级别的语义分割，此外，对于每个类别对象，将若干个掩码系数与对应的若干个掩码原型图进行乘积运算，再将所有结果累加，最终获取到对应对象的实例分割掩码图。

具体的，所述步骤S5包括步骤S51：

S51，基于所述预处理图像数据集对所述增强图像实例分割框架进行训练，以得到优化图像实例分割框架；

可以理解的是，通过图像数据集中的训练集可以对增强图像实例分割框架进行训练，以得到实例分割更为有效的优化图像实例分割框架。

综上，本发明上述实施例当中的基于语义前导指引的图像实例分割方法，通过CSPDarknet53主干网络能够捕获多层级的特征信息，从而能够适应不同尺度的对象和场景，通过在图像实例分割框架中引入双向特征金字塔网络，从而使得图像实例分割框架能够在多个尺度上聚合和融合特征信息，并且通过将背景前导表征模块与语义增强通道模块引入更新图像实例分割框架中，使得图像实例分割框架能够消除不相关的背景噪声，并且能够更加精确的分割出图像数据集中的不同目标。

实施例二

请参阅图6，所示为本发明第二实施例中的基于语义前导指引的图像实例分割系统，所述系统包括：

获取模块10，用于获取图像数据集，并对所述图像数据集进行预处理，得到预处理图像数据集；

搭建模块20，用于基于CSPDarknet53主干网络搭建图像实例分割框架，并在所述图像实例分割框架中引入双向特征金字塔网络，得到更新图像实例分割框架；

第一引入模块30，用于在所述更新图像实例分割框架中引入SGP模块，并基于所述SGP模块整合背景前导表征模块与语义增强通道模块；

第二引入模块40，用于将所述背景前导表征模块与所述语义增强通道模块引入所述更新图像实例分割框架中，得到增强图像实例分割框架；

分割模块50，用于基于解耦头对所述增强图像实例分割框架进行分割，以得到检测分支以及掩码分支，并基于所述检测分支以及所述掩码分支对所述预处理图像数据集进行实例分割。

在一些可选实施例中，所述获取模块10包括：

处理单元，对所述标签图像数据集进行处理，所述处理包括缩放、裁剪以及填充；

所述加载清洗单元包括：

在一些可选实施例中，所述搭建模块20包括：

引入单元，用于在所述图像实例分割框架中引入部分连接机制；

划分单元，用于将所述图像实例分割框架划分成若干不同的卷积层，以得到若干不同层级的卷积层。

在一些可选实施例中，所述第一引入模块30包括：

第一融合单元，用于基于所述SGP模块对所述预处理图像数据集进行特征传播，以将所述预处理图像数据集中的不同层级的特征信息进行融合；

第二融合单元，用于基于所述SGP模块对所述预处理图像数据集进行横向连接，以将所述预处理图像数据集中的相邻层级的特征信息进行融合；

区分单元，用于基于所述背景前导表征模块提取所述预处理图像数据集中的相同目标像素之间的关联性特征，并基于所述关联性特征生成所述预处理图像数据集的区分特征；

提炼单元，用于基于所述语义增强通道模块提炼所述关联性特征中的高级抽象信息的语义特征，并将所述语义特征嵌入所述背景前导表征模块中。

在一些可选实施例中，所述分割模块50包括：

训练单元，用于基于所述预处理图像数据集对所述增强图像实例分割框架进行训练，以得到优化图像实例分割框架。

上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。

本发明实施例所提供的基于语义前导指引的图像实例分割系统，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，系统实施例部分未提及之处，可参考前述方法实施例中相应内容。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于语义前导指引的图像实例分割方法，其特征在于，所述方法包括：

在所述更新图像实例分割框架中引入SGP模块，将所述SGP模块插入到所述双向特征金字塔的每一个相邻层级之间，并基于所述SGP模块整合背景前导表征模块与语义增强通道模块，其中，所述SGP模块为语义前导指引模块；

基于所述背景前导表征模块提取所述预处理图像数据集中的相同目标像素之间的关联性特征，对于输入的具象特征，首先经过一个投影函数/>，进行通道维度的压缩，并利用Sigmoid 函数激活相关的目标区域同时进行相应地维度变换，具体表示如下：

；

其中，为输出的上下文先验，/>表示每个元素属于相应目标区域的激活度，投影函数采用滤波器尺寸为1的卷积核进行计算，然后对特征图/>进行相应的矩阵变换，得到对应的 /> 个维度为 /> 的特征向量 />，其中r表示相应的压缩倍数，然后计算出相应的哈达玛积，表达式为：

；

表示Softmax激活函数，用于获取相应的注意力权重系数，并基于所述关联性特征生成所述预处理图像数据集的区分特征；

基于所述语义增强通道模块提炼所述关联性特征中的高级抽象信息的语义特征，采用点卷积操作并基于特征感知的通道筛选器跨通道交互，以捕捉所述关联性特征中的代表性的语义特征，并将所述语义特征嵌入所述背景前导表征模块中；

2.根据权利要求1所述的基于语义前导指引的图像实例分割方法，其特征在于，所述并对所述图像数据集进行预处理的步骤包括：

3.根据权利要求2所述的基于语义前导指引的图像实例分割方法，其特征在于，所述对所述清洗图像数据集进行图像增强的步骤包括：

4.根据权利要求1所述的基于语义前导指引的图像实例分割方法，其特征在于，所述基于CSPDarknet53主干网络搭建图像实例分割框架的步骤包括：

在所述图像实例分割框架中引入部分连接机制；

5.根据权利要求1所述的基于语义前导指引的图像实例分割方法，其特征在于，所述在所述更新图像实例分割框架中引入SGP模块的步骤包括：

6.根据权利要求1所述的基于语义前导指引的图像实例分割方法，其特征在于，所述基于解耦头对所述增强图像实例分割框架进行分割的步骤之后，所述方法包括：

7.一种基于语义前导指引的图像实例分割系统，其特征在于，所述系统包括：

第一引入模块，用于在所述更新图像实例分割框架中引入SGP模块，将所述SGP模块插入到所述双向特征金字塔的每一个相邻层级之间，并基于所述SGP模块整合背景前导表征模块与语义增强通道模块，其中，所述SGP模块为语义前导指引模块；

所述第一引入模块还用于：

；

8.根据权利要求7所述的基于语义前导指引的图像实例分割系统，其特征在于，所述获取模块包括：

9.根据权利要求8所述的基于语义前导指引的图像实例分割系统，其特征在于，所述加载清洗单元包括：