CN117152443B - 一种基于语义前导指引的图像实例分割方法及系统 - Google Patents
一种基于语义前导指引的图像实例分割方法及系统 Download PDFInfo
- Publication number
- CN117152443B CN117152443B CN202311412606.1A CN202311412606A CN117152443B CN 117152443 B CN117152443 B CN 117152443B CN 202311412606 A CN202311412606 A CN 202311412606A CN 117152443 B CN117152443 B CN 117152443B
- Authority
- CN
- China
- Prior art keywords
- image
- module
- instance segmentation
- semantic
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 131
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012512 characterization method Methods 0.000 claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 27
- 238000004140 cleaning Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000011068 loading method Methods 0.000 claims description 10
- 239000002243 precursor Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000011049 filling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000004927 fusion Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于语义前导指引的图像实例分割方法及系统,方法包括基于CSPDarknet53主干网络搭建图像实例分割框架,并在图像实例分割框架中引入双向特征金字塔网络,得到更新图像实例分割框架;在更新图像实例分割框架中引入SGP模块,并基于SGP模块整合背景前导表征模块与语义增强通道模块;并将其引入更新图像实例分割框架中,得到增强图像实例分割框架;基于解耦头对增强图像实例分割框架进行分割,以得到检测分支以及掩码分支,并基于检测分支以及掩码分支对预处理图像数据集进行实例分割。本发明能够适应不同尺度的对象和场景,消除不相关的背景噪声,并且能够更加精确的分割出图像数据集中的不同目标。
Description
技术领域
本发明涉及图像实例分割技术领域,特别涉及一种基于语义前导指引的图像实例分割方法及系统。
背景技术
自动驾驶技术是近年来智能交通领域中的重要突破,其在提高交通安全性、减少交通拥堵、提升交通效率等方面具有巨大潜力。自动驾驶车辆通过感知环境并做出决策,使其能够实时地适应各种交通场景和路况情况。其中,自动驾驶车辆需要准确、高效地定位并分割出道路、障碍物、行人等各种关键物体,以便更精准地做出驾驶决策。
目前,深度学习技术在计算机视觉领域取得了巨大的突破,尤其是在目标检测和语义分割等任务方面
现有技术当中,在自动驾驶场景中,传统的图像分割方法仍面临着一些挑战,例如准确性、鲁棒性和实时性等。已有的自动驾驶车辆的视觉感知系统通常将卷积神经网络等深度学习技术作为算法基础模型,其中以 FCN 为代表的编解码器架构是一种常见的选择。然而,在现有的编解码器架构中,一方面由于内核大小的固定,感受野受到极大的限制,这可能阻碍网络对全局上下文信息的建模,导致目标无法被清晰的定位分割出来。另一方面,虽然大部分主流的实例分割算法框架都会引入特定的特征融合模块以弥补从浅层传输到深层所丢失的深度语义信息,但由于缺乏合理的融合机制,这可能会引入噪声和无关信息,模糊最终的检测结果,导致不可估量的影响。
发明内容
基于此,本发明的目的是提供一种基于语义前导指引的图像实例分割方法及系统,以至少解决上述现有技术当中的不足。
一方面本发明提供一种基于语义前导指引的图像实例分割方法,所述方法包括:
获取图像数据集,并对所述图像数据集进行预处理,得到预处理图像数据集;
基于CSPDarknet53主干网络搭建图像实例分割框架,并在所述图像实例分割框架中引入双向特征金字塔网络,得到更新图像实例分割框架;
在所述更新图像实例分割框架中引入SGP模块,并基于所述SGP模块整合背景前导表征模块与语义增强通道模块;
将所述背景前导表征模块与所述语义增强通道模块引入所述更新图像实例分割框架中,得到增强图像实例分割框架;
基于解耦头对所述增强图像实例分割框架进行分割,以得到检测分支以及掩码分支,并基于所述检测分支以及所述掩码分支对所述预处理图像数据集进行实例分割。
与现有技术相比,本发明的有益效果是:通过CSPDarknet53主干网络能够捕获多层级的特征信息,从而能够适应不同尺度的对象和场景,通过在图像实例分割框架中引入双向特征金字塔网络,从而使得图像实例分割框架能够在多个尺度上聚合和融合特征信息,并且通过将背景前导表征模块与语义增强通道模块引入更新图像实例分割框架中,使得图像实例分割框架能够消除不相关的背景噪声,并且能够更加精确的分割出图像数据集中的不同目标。
进一步的,所述并对所述图像数据集进行预处理的步骤包括:
加载所述图像数据集中的对应的标注信息,并对所述图像数据集进行清洗,得到清洗图像数据集;
对所述清洗图像数据集进行图像增强,得到增强图像数据集;
提取所述增强图像数据集中的各个像素,并将语义标签映射到所述各个像素上,得到标签图像数据集;
对所述标签图像数据集进行处理,所述处理包括缩放、裁剪以及填充。
进一步的,所述对所述清洗图像数据集进行图像增强的步骤包括:
对所述清洗图像数据集依次进行增强处理,所述增强处理包括马赛克增强、MixUp数据增强以及Copy-Paste数据增强。
进一步的,所述基于CSPDarknet53主干网络搭建图像实例分割框架的步骤包括:
在所述图像实例分割框架中引入部分连接机制;
将所述图像实例分割框架划分成若干不同的卷积层,以得到若干不同层级的卷积层。
进一步的,所述在所述更新图像实例分割框架中引入SGP模块的步骤包括:
基于所述SGP模块对所述预处理图像数据集进行特征传播,以将所述预处理图像数据集中的不同层级的特征信息进行融合;
基于所述SGP模块对所述预处理图像数据集进行横向连接,以将所述预处理图像数据集中的相邻层级的特征信息进行融合。
进一步的,所述并基于所述SGP模块整合背景前导表征模块与语义增强通道模块的步骤之后,所述方法包括:
基于所述背景前导表征模块提取所述预处理图像数据集中的相同目标像素之间的关联性特征,并基于所述关联性特征生成所述预处理图像数据集的区分特征;
基于所述语义增强通道模块提炼所述关联性特征中的高级抽象信息的语义特征,并将所述语义特征嵌入所述背景前导表征模块中。
进一步的,所述基于解耦头对所述增强图像实例分割框架进行分割的步骤之后,所述方法包括:
基于所述预处理图像数据集对所述增强图像实例分割框架进行训练,以得到优化图像实例分割框架。
另一方面本发明还提供一种基于语义前导指引的图像实例分割系统,所述系统包括:
获取模块,用于获取图像数据集,并对所述图像数据集进行预处理,得到预处理图像数据集;
搭建模块,用于基于CSPDarknet53主干网络搭建图像实例分割框架,并在所述图像实例分割框架中引入双向特征金字塔网络,得到更新图像实例分割框架;
第一引入模块,用于在所述更新图像实例分割框架中引入SGP模块,并基于所述SGP模块整合背景前导表征模块与语义增强通道模块;
第二引入模块,用于将所述背景前导表征模块与所述语义增强通道模块引入所述更新图像实例分割框架中,得到增强图像实例分割框架;
分割模块,用于基于解耦头对所述增强图像实例分割框架进行分割,以得到检测分支以及掩码分支,并基于所述检测分支以及所述掩码分支对所述预处理图像数据集进行实例分割。
进一步的,所述获取模块包括:
加载清洗单元,用于加载所述图像数据集中的对应的标注信息,并对所述图像数据集进行清洗,得到清洗图像数据集;
增强单元,用于对所述清洗图像数据集进行图像增强,得到增强图像数据集;
提取单元,用于提取所述增强图像数据集中的各个像素,并将语义标签映射到所述各个像素上,得到标签图像数据集;
处理单元,对所述标签图像数据集进行处理,所述处理包括缩放、裁剪以及填充。
进一步的,所述加载清洗单元包括:
增强处理子单元,用于对所述清洗图像数据集依次进行增强处理,所述增强处理包括马赛克增强、MixUp数据增强以及Copy-Paste数据增强。
附图说明
图1为本发明第一实施例中的基于语义前导指引的图像实例分割方法的流程图;
图2为本发明第一实施例中的图像实例分割框架的结构示意图;
图3为本发明第一实施例中的SGP模块的结构示意图;
图4为本发明第一实施例中的基于特征感知的通道筛选器的结构示意图;
图5为本发明第一实施例中的解耦头的解耦特征图;
图6为本发明第二实施例中的基于语义前导指引的图像实例分割系统的结构框图。
主要元件符号说明:
10、获取模块;20、搭建模块;30、第一引入模块;40、第二引入模块;50、分割模块。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参阅图1,所示为本发明第一实施例中的基于语义前导指引的图像实例分割方法,所述方法包括步骤S1至步骤S5:
S1,获取图像数据集,并对所述图像数据集进行预处理,得到预处理图像数据集;
需要解释的是,图像数据集包括CitySpace数据集和ADE20k数据集,其中,CitySpace数据集涵盖了多种城市街景图像,其中包含了丰富的道路、建筑、车辆和行人等对象,适用于自动驾驶场景下的视觉感知任务,ADE20k数据集则涵盖了各种室内和室外环境,且包括了多个类别的物体和场景,适合进行图像分割性能评估。
值得说明的是,为了进行训练、验证和测试,可以将图像数据集划分为不同的子集,将其划分为训练集、验证集以及测试集,训练集用于训练,验证集用于调整参数和监控性能,测试集用于最终性能评估。
具体的,所述步骤S1包括步骤S11至S14:
S11,加载所述图像数据集中的对应的标注信息,并对所述图像数据集进行清洗,得到清洗图像数据集;
可以理解的是,为了确保图像数据集适用于图像实例分割,需要对其进行预处理,首先从CitySpace数据集和ADE20k数据集中加载图像和对应的标注信息,并进行清洗,以排出不适合训练和评估的图像,如质量较差的图像或缺少关键标签的图像。
S12,对所述清洗图像数据集进行图像增强,得到增强图像数据集;
可以理解的是,为了增加图像数据集的多样性和模型的鲁棒性,对图像进行增强操作,如随机裁剪、镜像翻转、颜色调整等。
具体的,所述步骤S12包括步骤S121:
S121,对所述清洗图像数据集依次进行增强处理,所述增强处理包括马赛克增强、MixUp数据增强以及Copy-Paste数据增强;
需要解释的是,为了应对复杂多变的场景变换,增强处理还可以引入马赛克增强、MixUp数据增强以及Copy-Paste数据增强,以提供图像数据的多样性和场景的丰富性。
S13,提取所述增强图像数据集中的各个像素,并将语义标签映射到所述各个像素上,得到标签图像数据集;
可以理解的是,将原始标签映射到图像数据集中的图像的各个像素上,确保每个像素都有对应的以及正确的语义标签。
S14,对所述标签图像数据集进行处理,所述处理包括缩放、裁剪以及填充;
需要解释的是,对标签数据处理具体为调整图像的尺寸以适应输入需求,可以通过简单的缩放、裁剪以及填充来实现。
S2,基于CSPDarknet53主干网络搭建图像实例分割框架,并在所述图像实例分割框架中引入双向特征金字塔网络,得到更新图像实例分割框架;
需要解释的是,CSPDarknet53主干网络是一种基于残差结构的深度卷积网络,其能够获得多尺度的特征表示能力,具体可参阅图2,所示为图像实例分割框架的结构图。
具体的,所述步骤S2包括步骤S21至步骤S22:
S21,在所述图像实例分割框架中引入部分连接机制;
可以理解的是,在图像实例分割框架中引入部分连接机制,也就是在CSPDarknet53主干网络中引入Cross-Stage机制,能够有效地提升特征提取的效率和能力。
S22,将所述图像实例分割框架划分成若干不同的卷积层,以得到若干不同层级的卷积层;
需要解释的是,通过将图像实例分割框架划分成不同的卷积层,以使得不同的卷积层处理不同的图像数据,而CSPDarknet53主干网络可以捕获多层级的图像的特征信息,适应不同尺度的对象和场景,因此,通过若干不同层级的卷积层进行卷积和池化操作,在不同层级生成的特征图被用于构建特征金字塔,从而能够捕获不同尺度的特征信息。这种多尺度特征金字塔有助于检测和分割不同大小的目标,为后续的分割任务提供了更多的上下文信息,使得图像实例分割框架能够在更大范围内感知图像的语义信息,因为道路、车辆、行人等对象通常存在不同的尺度,从而需要图像实例分割框架能够在更大范围内感知图像的语义信息。
S3,在所述更新图像实例分割框架中引入SGP模块,并基于所述SGP模块整合背景前导表征模块与语义增强通道模块;
需要解释的是,虽然采用了CSPDarknet53主干网络搭建图像实例分割框架,但在自动驾驶场景中,图像中不同目标的语义信息差异任然存在挑战,特别是在复杂的路况下,例如车辆与行人之间的边界区域,会使得分割任务可能变得更加困难,SGP模块通过有机地整合背景前导表征模块和语义增强通道模块来准确地建模全局上下文先验信息,同时有效地弥补抽象特征和具象特征之间的语义信息隔阂。
具体的,所述步骤S3包括步骤S31至步骤S34:
S31,基于所述SGP模块对所述预处理图像数据集进行特征传播,以将所述预处理图像数据集中的不同层级的特征信息进行融合;
需要解释的是,为了进一步提升从CSPDarknet53主干网络输出的特征图的表达能力,在更新图像实例分割框架中引入双向特征金字塔网络,用于在多个尺度上聚合和融合特征信息,双向特征金字塔网络充分利用了自底向上和自顶向下的特征传播,以增强特征的语义表达能力,具体的,请参阅图3,所示为SGP模块的结构示意图,在本实施例中,SGP模块为语义前导指引模块;
进一步的,双向特征金字塔网络通过自底向上和自顶向下的特征传播,将不同层级的特征信息进行融合,这种特征融合能够将不同尺度的语义信息结合在一起,从而能够更好的捕获目标的上下文关系;
S32,基于所述SGP模块对所述预处理图像数据集进行横向连接,以将所述预处理图像数据集中的相邻层级的特征信息进行融合。
需要解释的是,双向特征金字塔网络通过横向连接将相邻层级的特征进行融合,有助于在不同尺度上传播和保留信息,这种连接保持了特征图的高分辨率,有利于检测和分割小尺度的目标;
S33,基于所述背景前导表征模块提取所述预处理图像数据集中的相同目标像素之间的关联性特征,并基于所述关联性特征生成所述预处理图像数据集的区分特征;
可以理解的是,背景前导表征模块主要用于提取属于相同目标像素之间的关联性特征,以生成更多具有判别力的区分性特征,同时过滤掉无用的嘈杂背景信息;
在具体实施时,对于输入的具象特征,首先经过一个投影函数,进行通道维度的压缩,并利用Sigmoid 函数激活相关的目标区域同时进行相应地维度变换,具体表示如下:
;
其中,为输出的上下文先验,/>表示每个元素属于相应目标区域的激活度,在本实施例中,投影函数采用滤波器尺寸为1的卷积核进行计算,然后对特征图/>进行相应的矩阵变换,得到对应的/>个维度为/>的特征向量/>,其中r表示相应的压缩倍数,然后就能够计算出相应的哈达玛积,表达式为:
;
表示Softmax激活函数,用于获取相应的注意力权重系数,整体来说,背景前导表征模块采取了类似与注意力模块的互相关操作,使得特征向量中的每个像素都关联到其它像素之间的上下文信息,但又能很好的避免传统子注意力高昂的计算代价,同时极大降低显存。
S34,基于所述语义增强通道模块提炼所述关联性特征中的高级抽象信息的语义特征,并将所述语义特征嵌入所述背景前导表征模块中;
需要解释的是,经过语义增强通道模块的提取,可以先获得代表具象特征通道的上下文先验表征,由于具象特征本身分辨率更高,包含更多对定位有帮助的细节信息,但是由于经过的特征提取层更少,其语义性相对较低,同时也包含更多的噪声,抽象特征则阈值相反,由于经过多层特征提取因此具备更强的语义信息,但是由于其分辨率较低,故对目标细节的感知能力也会相对薄弱,因此需要语义增强通道模块提炼一组经过过滤筛选过厚的高级抽象信息的语义特征,从而为背景前导表征模块嵌入稀缺的高级语义先验。
在具体实施时,首先我们将来自浅层的具象特征从空间维度上与来自身深层的抽象特征进行对齐拼接并进行通道缩减。为了获取更具有代表性的一组语义特征,此处应用了基于特征感知的通道筛选器,具体可参阅图4,所示为基于特征感知的通道筛选器的结构示意图,主流的激励-挤压注意力机制更加关注通道压缩,从而可能降低学习到的通道间依赖关系。然而,这种压缩可能会导致信息损失,影响模型性能。相比之下,基于特征感知的通道筛选器注意力机制采用了一种不同的策略来处理通道间的关系,避免了降维。通过利用高效的点卷积操作,基于特征感知的通道筛选器能够在局部范围内跨通道进行交互,从而捕捉并提取通道间的关联。具体的,假设输入特征图为,其中/>为通道数,而和/>分别为特征图的高度和宽度,此时可以将基于特征感知的通道筛选器的通用数学表示,表示为:
;
经过全局平均池化/>进行压缩,随后应用一个简单的点卷积/>进行特征映射来计算每个通道的关联权重,对于每个通道,需要将关联权重进行归一化,以获得通道注意力权重,这里可以实用/>即Softmax来实现归一化操作,记作/>,则引出表达式:
;
表示第i个通道的注意力权重,最后,通过将每个通道的注意力权重与对应的特征图相乘,得到加权的特征图表示/>,这种方法在保持特征丰富性的同时,有效的建模了通道之间的依赖关系,因此与SE注意力机制相比,基于特征感知的通道筛选器在维持信息丰富性的同时,更有效地促进了通道之间的交互和依赖关系的学习。最终,通过语义增强通道模块获得的增强语义特征,便可以为每个背景前导表征模块引入来自深层抽象特征且经过特征筛选后的高级语义信息,以补偿在图像实例分割框架在解码过程中所稀释掉的语义权重。
值得说明的是,针对不同的输入图片,所需的语义和细节权重比应该是不同的,因此此处引入一个可学习的参数α以实现动态比例分配机制,以确保不同输入的特征能够得到适当的资源,简单来说这种权重分配机制将会根据特征图的内容自适应调整权重融合比例。最终,我们引入残差学习来稳健网络训练的收敛性,从而获得整个SGP模块的输出。
S4,将所述背景前导表征模块与所述语义增强通道模块引入所述更新图像实例分割框架中,得到增强图像实例分割框架;
可以理解的是,在将背景前导表征模块与语义增强通道模块引入更新图像实例分割框架后,使得更新实例分割框架能够对图像数据集进行处理。
S5,基于解耦头对所述增强图像实例分割框架进行分割,以得到检测分支以及掩码分支,并基于所述检测分支以及所述掩码分支对所述预处理图像数据集进行实例分割;
需要解释的是,为了提高分割的准确性和效率将增强图像实例分割框架分割为两个子任务,分别为检测分支与掩码分支,从而使得增强图像实例分割框架能够更加精确的定位和分割出图像数据集中的不同目标,诸如YOLOX等主流的一阶段目标检测器,尽管其同样也提供了解耦头设计,当本质上权重还是共享来自于BiFPN输出的相同输入特征,这种简单的设计并不能从本质上解决问题。这是因为不同的输入特征其涵盖的语义和空间细节信息是不相同的。通常来说,低层特征具备更丰富的细节信息而缺乏语义信息,而高层特征则与之相反,这必然不能最大限度的发挥这种“解耦头”的优势。如图5所示,在本实施例中,解耦头接收来自中间三个层级输出的特征图,即{,/>},并生成用于特定任务的解耦特征图,在获取丰富语义上下文的同时也能兼顾必要的空间细节信息。
检测分支对于融合后的层级特征图,在解耦头中执行边界框回归,回归过程利用网络学习目标的精确位置,通过预测目标的中心坐标和边界框的宽度和高度来实现,这些预测值用于准确地定位目标,并生成相应的Bounding Box,在这个过程中,网络同时学习了若干个不同的掩码系数,其代表分割分支每个掩码图的置信度;
掩码分支在回归检测框的同时,解耦头还执行类别分割任务,生成每个目标的语义分割掩码,这些掩码指示了图像中每个像素属于哪个目标类别,从而实现像素级别的语义分割,此外,对于每个类别对象,将若干个掩码系数与对应的若干个掩码原型图进行乘积运算,再将所有结果累加,最终获取到对应对象的实例分割掩码图。
具体的,所述步骤S5包括步骤S51:
S51,基于所述预处理图像数据集对所述增强图像实例分割框架进行训练,以得到优化图像实例分割框架;
可以理解的是,通过图像数据集中的训练集可以对增强图像实例分割框架进行训练,以得到实例分割更为有效的优化图像实例分割框架。
综上,本发明上述实施例当中的基于语义前导指引的图像实例分割方法,通过CSPDarknet53主干网络能够捕获多层级的特征信息,从而能够适应不同尺度的对象和场景,通过在图像实例分割框架中引入双向特征金字塔网络,从而使得图像实例分割框架能够在多个尺度上聚合和融合特征信息,并且通过将背景前导表征模块与语义增强通道模块引入更新图像实例分割框架中,使得图像实例分割框架能够消除不相关的背景噪声,并且能够更加精确的分割出图像数据集中的不同目标。
实施例二
请参阅图6,所示为本发明第二实施例中的基于语义前导指引的图像实例分割系统,所述系统包括:
获取模块10,用于获取图像数据集,并对所述图像数据集进行预处理,得到预处理图像数据集;
搭建模块20,用于基于CSPDarknet53主干网络搭建图像实例分割框架,并在所述图像实例分割框架中引入双向特征金字塔网络,得到更新图像实例分割框架;
第一引入模块30,用于在所述更新图像实例分割框架中引入SGP模块,并基于所述SGP模块整合背景前导表征模块与语义增强通道模块;
第二引入模块40,用于将所述背景前导表征模块与所述语义增强通道模块引入所述更新图像实例分割框架中,得到增强图像实例分割框架;
分割模块50,用于基于解耦头对所述增强图像实例分割框架进行分割,以得到检测分支以及掩码分支,并基于所述检测分支以及所述掩码分支对所述预处理图像数据集进行实例分割。
在一些可选实施例中,所述获取模块10包括:
加载清洗单元,用于加载所述图像数据集中的对应的标注信息,并对所述图像数据集进行清洗,得到清洗图像数据集;
增强单元,用于对所述清洗图像数据集进行图像增强,得到增强图像数据集;
提取单元,用于提取所述增强图像数据集中的各个像素,并将语义标签映射到所述各个像素上,得到标签图像数据集;
处理单元,对所述标签图像数据集进行处理,所述处理包括缩放、裁剪以及填充;
所述加载清洗单元包括:
增强处理子单元,用于对所述清洗图像数据集依次进行增强处理,所述增强处理包括马赛克增强、MixUp数据增强以及Copy-Paste数据增强。
在一些可选实施例中,所述搭建模块20包括:
引入单元,用于在所述图像实例分割框架中引入部分连接机制;
划分单元,用于将所述图像实例分割框架划分成若干不同的卷积层,以得到若干不同层级的卷积层。
在一些可选实施例中,所述第一引入模块30包括:
第一融合单元,用于基于所述SGP模块对所述预处理图像数据集进行特征传播,以将所述预处理图像数据集中的不同层级的特征信息进行融合;
第二融合单元,用于基于所述SGP模块对所述预处理图像数据集进行横向连接,以将所述预处理图像数据集中的相邻层级的特征信息进行融合;
区分单元,用于基于所述背景前导表征模块提取所述预处理图像数据集中的相同目标像素之间的关联性特征,并基于所述关联性特征生成所述预处理图像数据集的区分特征;
提炼单元,用于基于所述语义增强通道模块提炼所述关联性特征中的高级抽象信息的语义特征,并将所述语义特征嵌入所述背景前导表征模块中。
在一些可选实施例中,所述分割模块50包括:
训练单元,用于基于所述预处理图像数据集对所述增强图像实例分割框架进行训练,以得到优化图像实例分割框架。
上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同,在此不再赘述。
本发明实施例所提供的基于语义前导指引的图像实例分割系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,系统实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于语义前导指引的图像实例分割方法,其特征在于,所述方法包括:
获取图像数据集,并对所述图像数据集进行预处理,得到预处理图像数据集;
基于CSPDarknet53主干网络搭建图像实例分割框架,并在所述图像实例分割框架中引入双向特征金字塔网络,得到更新图像实例分割框架;
在所述更新图像实例分割框架中引入SGP模块,将所述SGP模块插入到所述双向特征金字塔的每一个相邻层级之间,并基于所述SGP模块整合背景前导表征模块与语义增强通道模块,其中,所述SGP模块为语义前导指引模块;
基于所述背景前导表征模块提取所述预处理图像数据集中的相同目标像素之间的关联性特征,对于输入的具象特征,首先经过一个投影函数/>,进行通道维度的压缩,并利用Sigmoid 函数激活相关的目标区域同时进行相应地维度变换,具体表示如下:
;
其中,为输出的上下文先验,/>表示每个元素属于相应目标区域的激活度,投影函数采用滤波器尺寸为1的卷积核进行计算,然后对特征图/>进行相应的矩阵变换,得到对应的 /> 个维度为 /> 的特征向量 />,其中r表示相应的压缩倍数,然后计算出相应的哈达玛积,表达式为:
;
表示Softmax激活函数,用于获取相应的注意力权重系数,并基于所述关联性特征生成所述预处理图像数据集的区分特征;
基于所述语义增强通道模块提炼所述关联性特征中的高级抽象信息的语义特征,采用点卷积操作并基于特征感知的通道筛选器跨通道交互,以捕捉所述关联性特征中的代表性的语义特征,并将所述语义特征嵌入所述背景前导表征模块中;
将所述背景前导表征模块与所述语义增强通道模块引入所述更新图像实例分割框架中,得到增强图像实例分割框架;
基于解耦头对所述增强图像实例分割框架进行分割,以得到检测分支以及掩码分支,并基于所述检测分支以及所述掩码分支对所述预处理图像数据集进行实例分割。
2.根据权利要求1所述的基于语义前导指引的图像实例分割方法,其特征在于,所述并对所述图像数据集进行预处理的步骤包括:
加载所述图像数据集中的对应的标注信息,并对所述图像数据集进行清洗,得到清洗图像数据集;
对所述清洗图像数据集进行图像增强,得到增强图像数据集;
提取所述增强图像数据集中的各个像素,并将语义标签映射到所述各个像素上,得到标签图像数据集;
对所述标签图像数据集进行处理,所述处理包括缩放、裁剪以及填充。
3.根据权利要求2所述的基于语义前导指引的图像实例分割方法,其特征在于,所述对所述清洗图像数据集进行图像增强的步骤包括:
对所述清洗图像数据集依次进行增强处理,所述增强处理包括马赛克增强、MixUp数据增强以及Copy-Paste数据增强。
4.根据权利要求1所述的基于语义前导指引的图像实例分割方法,其特征在于,所述基于CSPDarknet53主干网络搭建图像实例分割框架的步骤包括:
在所述图像实例分割框架中引入部分连接机制;
将所述图像实例分割框架划分成若干不同的卷积层,以得到若干不同层级的卷积层。
5.根据权利要求1所述的基于语义前导指引的图像实例分割方法,其特征在于,所述在所述更新图像实例分割框架中引入SGP模块的步骤包括:
基于所述SGP模块对所述预处理图像数据集进行特征传播,以将所述预处理图像数据集中的不同层级的特征信息进行融合;
基于所述SGP模块对所述预处理图像数据集进行横向连接,以将所述预处理图像数据集中的相邻层级的特征信息进行融合。
6.根据权利要求1所述的基于语义前导指引的图像实例分割方法,其特征在于,所述基于解耦头对所述增强图像实例分割框架进行分割的步骤之后,所述方法包括:
基于所述预处理图像数据集对所述增强图像实例分割框架进行训练,以得到优化图像实例分割框架。
7.一种基于语义前导指引的图像实例分割系统,其特征在于,所述系统包括:
获取模块,用于获取图像数据集,并对所述图像数据集进行预处理,得到预处理图像数据集;
搭建模块,用于基于CSPDarknet53主干网络搭建图像实例分割框架,并在所述图像实例分割框架中引入双向特征金字塔网络,得到更新图像实例分割框架;
第一引入模块,用于在所述更新图像实例分割框架中引入SGP模块,将所述SGP模块插入到所述双向特征金字塔的每一个相邻层级之间,并基于所述SGP模块整合背景前导表征模块与语义增强通道模块,其中,所述SGP模块为语义前导指引模块;
所述第一引入模块还用于:
基于所述背景前导表征模块提取所述预处理图像数据集中的相同目标像素之间的关联性特征,对于输入的具象特征,首先经过一个投影函数/>,进行通道维度的压缩,并利用Sigmoid 函数激活相关的目标区域同时进行相应地维度变换,具体表示如下:
;
其中,为输出的上下文先验,/>表示每个元素属于相应目标区域的激活度,投影函数采用滤波器尺寸为1的卷积核进行计算,然后对特征图/>进行相应的矩阵变换,得到对应的 /> 个维度为 /> 的特征向量 />,其中r表示相应的压缩倍数,然后计算出相应的哈达玛积,表达式为:
;
表示Softmax激活函数,用于获取相应的注意力权重系数,并基于所述关联性特征生成所述预处理图像数据集的区分特征;
基于所述语义增强通道模块提炼所述关联性特征中的高级抽象信息的语义特征,采用点卷积操作并基于特征感知的通道筛选器跨通道交互,以捕捉所述关联性特征中的代表性的语义特征,并将所述语义特征嵌入所述背景前导表征模块中;
第二引入模块,用于将所述背景前导表征模块与所述语义增强通道模块引入所述更新图像实例分割框架中,得到增强图像实例分割框架;
分割模块,用于基于解耦头对所述增强图像实例分割框架进行分割,以得到检测分支以及掩码分支,并基于所述检测分支以及所述掩码分支对所述预处理图像数据集进行实例分割。
8.根据权利要求7所述的基于语义前导指引的图像实例分割系统,其特征在于,所述获取模块包括:
加载清洗单元,用于加载所述图像数据集中的对应的标注信息,并对所述图像数据集进行清洗,得到清洗图像数据集;
增强单元,用于对所述清洗图像数据集进行图像增强,得到增强图像数据集;
提取单元,用于提取所述增强图像数据集中的各个像素,并将语义标签映射到所述各个像素上,得到标签图像数据集;
处理单元,对所述标签图像数据集进行处理,所述处理包括缩放、裁剪以及填充。
9.根据权利要求8所述的基于语义前导指引的图像实例分割系统,其特征在于,所述加载清洗单元包括:
增强处理子单元,用于对所述清洗图像数据集依次进行增强处理,所述增强处理包括马赛克增强、MixUp数据增强以及Copy-Paste数据增强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311412606.1A CN117152443B (zh) | 2023-10-30 | 2023-10-30 | 一种基于语义前导指引的图像实例分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311412606.1A CN117152443B (zh) | 2023-10-30 | 2023-10-30 | 一种基于语义前导指引的图像实例分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117152443A CN117152443A (zh) | 2023-12-01 |
CN117152443B true CN117152443B (zh) | 2024-02-23 |
Family
ID=88908437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311412606.1A Active CN117152443B (zh) | 2023-10-30 | 2023-10-30 | 一种基于语义前导指引的图像实例分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117152443B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407557B (zh) * | 2023-12-13 | 2024-05-07 | 江西云眼视界科技股份有限公司 | 零样本实例分割方法、系统、可读存储介质及计算机 |
CN117576401A (zh) * | 2023-12-13 | 2024-02-20 | 南京林业大学 | 基于语义分割的无监督实例分割方法、系统、设备和介质 |
CN118172555B (zh) * | 2024-05-09 | 2024-07-26 | 江西理工大学南昌校区 | 一种道路场景图像分割方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837330A (zh) * | 2021-03-02 | 2021-05-25 | 中国农业大学 | 基于多尺度双注意力机制和全卷积神经网络的叶分割方法 |
CN114821408A (zh) * | 2022-04-13 | 2022-07-29 | 华南理工大学 | 基于旋转目标检测的包裹位置实时检测方法、装置、设备和介质 |
CN115147648A (zh) * | 2022-06-29 | 2022-10-04 | 江苏大学 | 一种基于改进YOLOv5目标检测的茶叶嫩梢识别方法 |
CN115410067A (zh) * | 2022-08-23 | 2022-11-29 | 浙江工商大学 | 一种基于CNN-Transformer双流网络的细粒度服饰检索方法 |
CN115719337A (zh) * | 2022-11-11 | 2023-02-28 | 无锡学院 | 一种风力涡轮机表面缺陷检测方法 |
CN115797635A (zh) * | 2022-12-09 | 2023-03-14 | 江苏大学 | 一种基于并行特征补全的多阶段实例分割方法及系统 |
CN116052026A (zh) * | 2023-03-28 | 2023-05-02 | 石家庄铁道大学 | 一种无人机航拍图像目标检测方法、系统及存储介质 |
KR102528507B1 (ko) * | 2022-12-08 | 2023-05-08 | 주식회사 인터엑스 | Yolo모델과 객체 추적 기법을 융합한 하이브리드형 열화상 이미지 기반 객체 탐지 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11256960B2 (en) * | 2020-04-15 | 2022-02-22 | Adobe Inc. | Panoptic segmentation |
-
2023
- 2023-10-30 CN CN202311412606.1A patent/CN117152443B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837330A (zh) * | 2021-03-02 | 2021-05-25 | 中国农业大学 | 基于多尺度双注意力机制和全卷积神经网络的叶分割方法 |
CN114821408A (zh) * | 2022-04-13 | 2022-07-29 | 华南理工大学 | 基于旋转目标检测的包裹位置实时检测方法、装置、设备和介质 |
CN115147648A (zh) * | 2022-06-29 | 2022-10-04 | 江苏大学 | 一种基于改进YOLOv5目标检测的茶叶嫩梢识别方法 |
CN115410067A (zh) * | 2022-08-23 | 2022-11-29 | 浙江工商大学 | 一种基于CNN-Transformer双流网络的细粒度服饰检索方法 |
CN115719337A (zh) * | 2022-11-11 | 2023-02-28 | 无锡学院 | 一种风力涡轮机表面缺陷检测方法 |
KR102528507B1 (ko) * | 2022-12-08 | 2023-05-08 | 주식회사 인터엑스 | Yolo모델과 객체 추적 기법을 융합한 하이브리드형 열화상 이미지 기반 객체 탐지 방법 |
CN115797635A (zh) * | 2022-12-09 | 2023-03-14 | 江苏大学 | 一种基于并行特征补全的多阶段实例分割方法及系统 |
CN116052026A (zh) * | 2023-03-28 | 2023-05-02 | 石家庄铁道大学 | 一种无人机航拍图像目标检测方法、系统及存储介质 |
Non-Patent Citations (3)
Title |
---|
Forest Fire Smoke Detection Based on Deep Learning Approaches and Unmanned Aerial Vehicle Images;Soon-Young Kim et al.;Sensors;第23卷;5702-5726 * |
多尺度下遥感小目标多头注意力检测;张朝阳等;计算机工程与应用;第59卷(第8期);227-238 * |
王亮等.智能光电感知.中国青年出版社,2022,(第1版),526-528. * |
Also Published As
Publication number | Publication date |
---|---|
CN117152443A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956094B (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN117152443B (zh) | 一种基于语义前导指引的图像实例分割方法及系统 | |
CN111915530A (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
CN111767927A (zh) | 一种基于全卷积网络的轻量级车牌识别方法及系统 | |
CN115082855B (zh) | 基于改进yolox算法的行人遮挡检测方法 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN114399734A (zh) | 一种基于视觉信息的森林火灾预警方法 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN117036895B (zh) | 基于相机与激光雷达点云融合的多任务环境感知方法 | |
CN114708566A (zh) | 一种基于改进YOLOv4的自动驾驶目标检测方法 | |
CN114627269A (zh) | 一种基于深度学习目标检测的虚拟现实安防监控平台 | |
CN116597411A (zh) | 极端天气下无人驾驶车辆识别交通标志的方法及系统 | |
CN112785610A (zh) | 一种融合低层特征的车道线语义分割方法 | |
CN114937239B (zh) | 行人多目标跟踪识别方法及跟踪识别装置 | |
CN116434119A (zh) | 一种矿井下巷道内目标检测方法及系统 | |
CN114494893B (zh) | 基于语义重用上下文特征金字塔的遥感图像特征提取方法 | |
CN113963265B (zh) | 一种复杂遥感陆地环境小样本小目标快速检测识别方法 | |
CN111160255B (zh) | 一种基于三维卷积网络的捕鱼行为识别方法及系统 | |
CN112307873A (zh) | 一种基于全卷积神经网络的违章建筑自动识别方法 | |
CN114998820B (zh) | 一种基于多任务学习的天气识别方法及系统 | |
CN117671472B (zh) | 一种基于动态视觉传感器的水下多目标群体识别方法 | |
CN116343010A (zh) | 一种基于经验参照学习框架目标检测方法、系统及终端设备 | |
CN115082421A (zh) | 工业缺陷检测优化方法、装置、系统及存储介质 | |
CN118570760A (zh) | 一种夜间行人检测方法、计算机设备、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |