CN116503603B - 一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法 - Google Patents
一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法 Download PDFInfo
- Publication number
- CN116503603B CN116503603B CN202310550746.9A CN202310550746A CN116503603B CN 116503603 B CN116503603 B CN 116503603B CN 202310550746 A CN202310550746 A CN 202310550746A CN 116503603 B CN116503603 B CN 116503603B
- Authority
- CN
- China
- Prior art keywords
- feature
- target
- loss function
- segmentation
- inter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 92
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 title claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 36
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,所述弱监督语义分割和特征弥补的类间遮挡目标检测网络模型包括卷积神经网络、弱监督语义分割模块、特征弥补模块,包括如下步骤:将预处理原始图输入卷积神经网络进行特征提取,获得若干检测层的若干输出特征图;将所述若干输出特征图输入弱监督语义分割模块进行特征优化获得卷积神经网络的损失函数L0和分割损失函数Lseg,将优化后的特征图输入特征弥补模块获得弥补损失函数Lre,将所有损失叠加得到总体损失并进行反向传播,更新网络权重,直至网络收敛。分别从数据增强、特征提取、特征空间这三个方面进行优化,提高了检测目标被遮挡时的识别精度。
Description
技术领域
本发明属于目标检测技术领域,具体涉及一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法。
背景技术
目标检测一般可以理解为在给定的输入图像中对其中的目标进行识别并确定目标所在位置和大小,其是目标检测的重要分支。目标检测的研究目的是在复杂场景中快速且准确的检测出目标目标,其可以与目标跟踪、目标重识别等技术相结合,实现区域内目标的追踪和识别,在安防监控、自动驾驶等场合中具有广泛应用。虽然目前目标检测技术已有较长的研究历史,但其识别率还有很大的提升空间。
基于深度学习的方法以深度神经网络为基础,利用大量的数据完成有监督的学习,可以划分为两个类别:第一类是两阶段的框架,它首先生成一定数量近似有效的区域建议框,然后通过另一个子网络对建议框进行改进;第二类是一阶段的框架,它跳过区域建议框的生成阶段,直接对预定义的区域进行回归来加快检测速度,从而提高整体的检测效率。YOLOv5算法从网络结构、标签匹配等多个方面进行了优化,在一般的目标检测场景下具有较好的效果,但是对于类间遮挡场景下目标特征信息缺失、复杂背景干扰的问题,识别精度仍然较低。
发明内容
针对上述技术问题,本发明第一方面提供了,一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,所述弱监督语义分割和特征弥补的类间遮挡目标检测网络模型包括卷积神经网络和弱监督语义分割模块,包括如下步骤:
将预处理原始图输入卷积神经网络进行特征提取,获得若干检测层的若干输出特征图;
将所述若干输出特征图输入弱监督语义分割模块进行特征优化并计算获得卷积神经网络的损失函数L0和分割损失函数Lseg,所述弱监督语义分割模块被配置为:将所述输出特征图通过若干个分支产生通道注意力权重和分割图,将所述通道注意力权重叠加到所述输出特征图上,得到所述优化特征图,将所述分割图和目标标注框产生的对应尺度上的弱监督语义分割真值图计算分割损失函数Lseg。
第二方面一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现所述方法的步骤。
本发明的有益效果在于,通过分别从数据增强、特征提取、特征空间这三个方面进行优化,与该领域其它方法相比,本发明提高了检测目标被遮挡时的识别精度。
附图说明
图1网络模型训练流程图;
Up表示上采样;
Down表示下采样;
图2多尺度弱监督语义分割模块及其子模块结构图;
Sigmoid表示激活函数,将输入变换为(0,1)上的输出,在神经网络中的主要作用是给神经网络提供非线性建模能力;
Softmax表示激活函数,主要用于处理多分类问题,在神经网络中的主要作用是给神经网络提供非线性建模能力;
图3特征弥补流程图;
PrRoIPooling表示特征映射;
图4类间遮挡数据增强方法的目标框框划分方式图。
具体实施方式
术语解释
数据增强:从现有的训练样本中生成新的训练样本,在数据约束环境下提高机器学习模型性能和准确性的低成本且有效的方法;
特征提取:对某一模式的组测量值进行变换,以突出该模式具有代表性特征的一种方法;
语义分割:实现图像像素级的分类,将一张图片或者视频,按照类别的异同,将图像分为多个块;
特征弥补:数据获取时,由于某些原因,缺少某些数值,需要进行弥补,常见利用同一特征的均值进行弥补;
池化Pooling:用来降低卷积神经网络CNN或循环神经网络RNN中的特征图FeatureMap的维度,在卷积神经网络中,池化操作通常紧跟在卷积操作之后,用于降低特征图的空间大小;
非极大值抑制:搜素局部最大值,抑制非极大值;
卷积神经网络:是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一,卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。
现有技术中,YOLOv5算法从数据增强(Mosaic)、特征提取、网络结构、标签匹配等多个方面进行了优化,在一般的目标检测场景下具有较好的效果,但是对于类间遮挡场景下目标特征信息缺失、复杂背景干扰的问题,仍然存在识别精度较低的缺陷。
以下结合附图对本发明提供的具体实施方式进行详细说明。
针对现有技术中的技术问题,本发明的一些实施例中,如图1所示,一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,所述弱监督语义分割和特征弥补的类间遮挡目标检测网络模型包括卷积神经网络和弱监督语义分割模块,包括如下步骤:
将预处理原始图输入卷积神经网络进行特征提取,获得若干检测层的若干输出特征图;
将所述若干输出特征图输入弱监督语义分割模块进行特征优化并计算获得卷积神经网络的损失函数L0和分割损失函数Lseg,所述弱监督语义分割模块被配置为:将所述输出特征图通过若干个分支产生通道注意力权重和分割图,将所述通道注意力权重叠加到所述输出特征图上,得到所述优化特征图,将所述分割图和目标标注框产生的对应尺度上的弱监督语义分割真值图计算分割损失函数Lseg。
如图1所示,在一些实施例中,一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,所述弱监督语义分割和特征弥补的类间遮挡目标检测网络模型还包括特征弥补模块,还包括如下步骤:
将所述优化特征图进行标签匹配和特征映射得到所有目标正样本特征并将所述目标正样本特征划分为两个集合,将所述两个集合计算弥补损失函数Lre;
将所述卷积神经网络损失函数L0、所述分割损失函数Lseg和所述弥补损失函数Lre按照式(I)进行相加,得到总体损失函数L。
L=λ0L0+λ1Lseg+λ2Lre (I)
式中:L0表示卷积神经网络的损失函数,Lseg表示分割损失函数,Lre表示弥补损失函数,λ0表示卷积神经网络损失函数L0损失的加权系数,λ1表示分割损失函数Lseg损失的加权系数,λ2表示弥补损失函数Lre损失的加权系数。此处λ0、λ1、λ2均设置为1。
本发明通过分别从数据增强、特征提取、特征空间这三个方面进行优化,与该领域其它方法相比,本发明在类间遮挡场景下目标检测结果更为准确。
在一些实施例中,如图4所示,一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,所述将预处理原始图像进行类间遮挡数据增强获得增强图像,包括如下步骤:
将单张所述预处理原始图像中的目标标注框划分为N个标注框部位,计算目标标注框可见比例;若随机数po大于阈值且所述目标标注框可见比例在预设范围内,则进行除所述N个标注框部位中的预设部位以外其他N-1个部位的随机遮挡数据增强获得所述增强图像。
其中,步骤一:预处理是将训练采用将一个批次(b张)的原始图像采用马赛克(mosaic)增强、随机左右翻转、颜色空间增强、随机透视变换进行预处理,得到处理后的图像即得到b张分辨率为w×h的图像。
其中,步骤二:数据增强是将预处理后的图像输入类间遮挡数据增强模块,获得增强后的图像。对于单张预处理原始图像的处理流程是,对图像中可见比例在[0.65,1]的行人,以po的概率进行除行人头部以外的随机部位遮挡。
其中,N个部位是将行人标注框划分为头部、左半身、右半身、左腿、右腿五个部位,如图4所示。产生取值在0-1之间的随机数po,若其取值大于0.5且行人可见比例在[0.65,1]之间,则进行遮挡数据增强。行人可见比例计算方式如式(II)所示。
如图1和图4所示,在一些实施例中,一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,所述将预处理原始图像进行类间遮挡数据增强获得增强图像,还包括如下步骤:
所述目标标注框可见比例计算方式按式(II)进行:
产生取值在设定范围之间的随机数pm,随机选择所述N个标注框部位中的目标预设部位以外的N-1个部位中的一个;
若所述随机数pm取值大于阈值则采用目标图像的均值对该部位进行填充,获得增强图像;
若所述随机数pm取值小于阈值采用图像类间增强即裁剪目标前景区域外的背景区域,对该部位进行填充,获得增强图像。
其中,步骤二中的两种填充方式通过随机数pm实现:产生取值在0-1之间的随机数pm,若其取值大于0.5采用图像均值增强,否则采用图像类间增强。随机选择行人其它4个部分(左半身、右半身、左腿、右腿)中的一个,对于图像均值增强模式,采用行人图像的均值对该部位进行填充。对于图像类间增强模式,裁剪行人前景区域外的背景区域,对该部位进行填充。
本发明提出了适用于类间遮挡场景的数据增强方法,其采用两种不同的方式模拟实际场景中出现的类间遮挡情况,丰富了遮挡行人的训练样本,提升了网络对类间遮挡行人检测的鲁棒性。
如图2所示,在一些实施例中,一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,所述输出特征图通过若干个分支产生通道注意力权重和分割图,包括如下步骤:
将所述若干输出特征图经过池化和若干卷积层处理,进一步进行特征提取,得到若干新特征图;
将所述若干新特征图输入注意力通道,获得所述若干新特征图相应的通道注意力权重以及分割图。
其中,步骤三:将本发明增强后的图像输入YOLOv5网络进行特征提取,得到多个输出特征图,分别记作P3(大小为b×256×h/8×w/8),P4(大小为b×512×h/16×w/16),P5(大小为b×1024×h/32×w/32)。
其中,步骤四:将步骤三得到特征图(P3、P4、P5)输入到弱监督语义分割模块,得到优化特征图(P3’、P4’、P5’)。具体地,根据图2展示的流程,该模块的处理过程为:
1)将特征图P3、P4、P5分别经过一个3×3卷积进行降维,分别得到(b×256×h/8×w/8)、(b×256×h/16×w/16)、(b×256×h/32×w/32)大小的特征图。
2)将1)中得到的三个特征图都经过由两个3×3卷积构成的卷积组进行特征提取。
3)将2)得到的三个特征图通过注意力模块,得到各自相应的通道注意力权重以及分割图。
i:得到通道注意力权重:首先将输入的三个特征图分别通过全局平均池化和全局最大池化进行处理并将结果相加,输出三个(b×256×1×1)大小的特征图。然后经过一个1×1的卷积层进行降维,输出三个(b×64×1×1)大小的特征图。再次经过一个1×1的卷积层进行升维,分别输出(b×256×1×1)、(b×512×1×1)、(b×1024×1×1)大小的特征图。最后三个特征图分别经过sigmoid函数处理,得到各自的通道注意力权重;
ii:得到分割图:首先将输入的三个特征图经过一个1×1的卷积层,输出(b×2×h/8×w/8)、(b×2×h/16×w/16)、(b×2×h/32×w/32)的三个特征图。然后经过上采样恢复到原始图像大小,即输出三个(b×2×h×w)的特征图。最后经过softmax在通道维度对特征图进行归一化,得到三个大小为(b×2×h×w)的分割图。
4)将3)中得到的通道注意力权重通过乘积的方式叠加到输入YOLOv5的特征图,得到优化特征图(P3’、P4’、P5’)。
在一些实施例中,一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,所述弱监督语义分割模块还被配置为:
5)所述分割图和目标标注框产生的对应尺度上的弱监督语义分割真值图计算分割损失函数Lseg,按式(III)进行:
式中:Ns表示弱监督语义分割图对应的像素数量,表示像素位置j对应的真实标签,ls=0表示背景标签,ls=1表示对应尺度的目标标签,/>表示像素位置j对第ls类预测的得分,τ{·}表示恒等函数,i表示对应的预测层,wi,j表示对于背景和不同尺度目标的加权系数,[hmin,i,hmax,i]表示对应第i个检测层预先设置的目标高度范围。
其中,步骤四中:5)将3)中得到的分割图和行人标注框产生的对应尺度上的弱监督语义分割真值图计算分割损失函数Lseg,三个尺度对应的行人高度范围分别为[20,30],[30,80],[80,+∞]。
本发明以行人粗标注框产生的弱监督语义信息作为辅助信息,添加了分割和注意力分支,并利用分割分支的监督促进注意力分支产生细粒度的通道注意力图,增强了网络对行人细节信息的学习能力。
在一些实施例中,一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,将所述优化特征图进行标签匹配和特征映射得到所有目标正样本特征并将所述目标正样本特征划分为若干个集合,包括如下步骤:
将经过标签匹配得到的行人正样本,结合所述优化特征图,进行特征映射处理,得到所有行人正样本特征;
将所有所述目标正样本特征按照对应所述目标标注框的目标标注框可见比例将目标正样本特征划分为两个集合:轻微遮挡目标的特征,严重遮挡目标的特征;
将所述轻微遮挡目标的特征和严重遮挡目标的特征计算弥补损失函数Lre。
其中,步骤五:将特征图(P3’、P4’、P5’)中的行人正样本部分输入到PrRoIpooling,得到所有行人正样本的PrRoI特征,然后输入到特征弥补模块进行处理,结构如图3所示,处理过程为:
1)将经过标签匹配得到的行人正样本,结合特征图(P3’、P4’、P5’),使用PrRoIpooling处理,得到所有行人正样本的PrRoI特征,大小为(U×128×7×7),U代表行人正样本的数量。
在一些实施例中,一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,将所述优化特征图进行标签匹配和特征映射得到所有目标正样本特征还包括如下步骤:
将经过标签匹配得到的目标正样本,结合优化特征图,任一个所述目标正样本特征的计算方法按式(IV)进行:
f(x,y)=∑i,jIC(x,y,i,j)×wi,j
IC(x,y,i,j)=max(0,1-|x-i|)×max(0,1-|y-j|)
式中:PrPool(bin,F)代表计算某个目标正样本的计算结果,F代表特征图,bin表示目标正样本在F上的特征映射区域{(x1,y1),(x2,y2)},f(x,y)表示区域内连续坐标(x,y)对应的特征值,IC函数表示(x,y)位置的插值系数,(i,j)表示对连续坐标(x,y)取整后的离散坐标位置,wi,j表示F在(i,j)位置处的特征值。
2)按照对应所述目标标注框的所述目标标注框可见比例,将目标正样本特征划分为两个集合:轻微遮挡目标的特征即所述目标标注框可见比例大于某一阈值时,记作和严重遮挡目标的特征即所述目标标注框可见比例小于某一阈值时,记作
3)将轻微遮挡目标的特征和严重遮挡目标的特征计算弥补损失函数Lre,按照式(V)进行:
式中:T表示严重遮挡目标的数量,S表示轻微遮挡目标的数量,Fj o表示N维特征向量,CR表示N维特征向量,si表示Fj o和CR两个特征向量第i维度的标准差。
其中,步骤五中2):按照对应真实框的行人可见比例,将行人正样本的PrRoI特征划分为两个集合:轻微遮挡行人(行人可见比例>0.65)的PrRoI特征,记作和严重遮挡行人(0.2<行人可见比例<0.65)的PrRoI特征,记作/>
本发明设计了特征弥补方法,在特征空间中对严重遮挡的行人正样本进行优化,提升了遮挡行人的判别度。
将所述损失弥补函数Lre,分割损失函数Lseg,卷积神经网络损失函数L0按照式(I)进行相加,得到总体损失函数L进行反向传播,更新网络权重,继续下一次训练,重复训练直至网络收敛,每个epoch训练完成后,利用最后一次迭代得到的网络模型用作验证,保存验证效果最好的网络模型。
下面结合实施例一对本发明的技术方案做进一步说明,实施例一一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,具体包括以下步骤:
步骤1:将一个批次(8张)训练使用的图像,经过马赛克(mosaic)增强、随机左右翻转、颜色空间增强、随机透视变换进行预处理,得到8张分辨率为640×640的图像。
步骤2:将预处理后的图像输入类间遮挡数据增强模块,得到增强后的图像。
步骤3:将增强后的图像输入YOLOv5网络进行特征提取,得到三个特征图,分别记作P3(8×256×80×80),P4(8×512×40×40),P5(8×1024×20×20)。
步骤4:将步骤三得到的特征图(P3、P4、P5)输入到弱监督语义分割模块,得到优化特征图(P3’、P4’、P5’)。具体地,该模块的处理过程为:
1)将特征图P3、P4、P5分别经过一个3×3卷积进行降维,得到(8×256×80×80)、(8×256×40×40)、(8×256×20×20)大小的特征图。
2)将1)中的三个特征图经过由两个3×3卷积构成的卷积组进行特征提取,此处三个特征图采用相同的卷积组进行处理。
3)将2)中得到的三个特征图通过注意力模块,得到各自相应的通道注意力权重以及分割图。
i:得到通道注意力权重:首先将输入的三个特征图分别通过全局平均池化和全局最大池化进行处理并将结果相加,输出三个(8×256×1×1)大小的特征图。然后经过一个1×1的卷积层进行降维,输出三个(8×64×1×1)大小的特征图。再次经过一个1×1的卷积层进行升维,分别输出(8×256×1×1)、(8×512×1×1)、(8×1024×1×1)大小的特征图。最后经过sigmoid函数处理,得到各自的通道注意力权重;
ii:得到分割图:首先将输入的三个特征图经过一个1×1的卷积层,输出(8×2×80×80)、(8×2×40×40)、(8×2×20×20)的三个特征图。然后经过上采样恢复到原始图像大小,即输出三个(8×2×640×640)的特征图。最后经过softmax在通道维度对特征图进行归一化,得到三个大小为(8×2×640×640)的分割图。
4)将3)中得到的通道注意力权重通过乘积的方式叠加到输入特征图,得到优化特征图(P3’、P4’、P5’)。
5)将3)中得到的分割图和行人标注框产生的对应尺度上的弱监督语义分割真值图计算分割损失函数Lseg,三个尺度对应的行人高度范围分别为[20,30],[30,80],[80,+∞]。
步骤5:将特征图(P3’、P4’、P5’)中的行人正样本部分输入到PrRoI pooling,得到所有行人正样本的PrRoI特征,然后输入到特征弥补模块进行处理,结构如图3所示。
1)将经过标签匹配得到的行人正样本,结合特征图(P3’、P4’、P5’),使用PrRoIpooling处理,得到所有行人正样本的PrRoI特征,大小为(U×128×7×7),U代表行人正样本的数量。
2)按照对应目标标注框的行人可见比例,将行人正样本的PrRoI特征划分为两个集合:轻微遮挡行人(行人可见比例>0.65)的PrRoI特征,记作和严重遮挡行人(0.2<行人可见比例<0.65)的PrRoI特征,记作/>
3)将轻微遮挡行人的PrRoI特征和严重遮挡行人的PrRoI特征计算弥补损失函数Lre。
步骤6:将所述损失弥补函数Lre,分割损失函数Lseg,卷积神经网络损失函数L0按照式(I)进行相加,得到总体损失进行反向传播,更新网络权重,继续下一次训练。
步骤7:重复以上步骤,直至网络收敛。每个epoch训练完成后,利用最后一次迭代得到的网络模型用作验证,保存验证效果最好的网络模型用作测试。
将一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型模型训练完成后用于行人检测的过程,具体包括以下步骤:
步骤8:将待检测图像(3×480×640)输入到训练好的模型中,得到多个输出特征图P3、P4、P5。
步骤9:将步骤8得到的特征图经过弱监督语义分割模块,得到(P3’,P4’,P5’),对其采用非极大值抑制(NMS)算法进行处理后得到行人的检测结果。
下面结合实施例二对本发明的技术方案做进一步说明:
1.实施例二与实施例一所不同的是:实施例二为使用CityPerson训练集训练模型,其他训练过程与实施例一相同。
此外,实施例二在CityPerson数据集中的行人严重遮挡子集(H)下进行行人识别,该场景中行人可见比例为0.2至0.65之间。
2.在CityPerson数据集中的行人严重遮挡子集(H),YOLO5的对数平均漏检率为41.98%,本发明的对数平均漏检率为35.99%,行人的漏检率明显降低。
本说明书中描述的主题的实施方式和功能性操作可以在以下中实施:数字电子电路,有形实施的计算机软件或者固件,计算机硬件,包括本说明书中公开的结构及其结构等同体,或者上述中的一者以上的组合。本说明书中描述的主题的实施方式可以被实施为一个或多个计算机程序,即,一个或多个有形非暂时性程序载体上编码的计算机程序指令的一个或多个模块,用以被数据处理设备执行或者控制数据处理设备的操作。
作为替代或者附加,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电信号、光信号或者电磁信号,上述信号被生成为编码信息以传递到用数据处理设备执行的适当的接收器设备。计算机存储介质可以是机器可读存储装置、机器可读的存储基片、随机或者串行存取存储器装置或者上述装置中的一种或多种的组合。
Claims (8)
1.一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,所述弱监督语义分割和特征弥补的类间遮挡目标检测网络模型包括卷积神经网络和弱监督语义分割模块,其特征在于,包括如下步骤:
将预处理原始图输入卷积神经网络进行特征提取,获得若干检测层的若干输出特征图;
将所述若干输出特征图输入弱监督语义分割模块进行特征优化并计算获得卷积神经网络的损失函数L0和分割损失函数Lseg,所述弱监督语义分割模块被配置为:将所述输出特征图通过若干个分支产生通道注意力权重和分割图,将所述通道注意力权重叠加到所述输出特征图上,得到优化特征图,将所述分割图和目标标注框产生的对应尺度上的弱监督语义分割真值图计算分割损失函数Lseg;
所述弱监督语义分割和特征弥补的类间遮挡目标检测网络模型还包括特征弥补模块,被配置为:
将所述优化特征图进行标签匹配和特征映射得到所有目标正样本特征并将所述目标正样本特征划分为两个集合,将所述两个集合计算弥补损失函数Lre;
将所述卷积神经网络损失函数L0、所述分割损失函数Lseg和所述弥补损失函数Lre按照式(I)进行相加,得到总体损失函数L:
L=λ0L0+λ1Lseg+λ2Lre(I)
式中:L0表示卷积神经网络的损失函数,Lseg表示分割损失函数,Lre表示弥补损失函数,λ0表示卷积神经网络损失函数L0损失的加权系数,λ1表示分割损失函数Lseg损失的加权系数,λ2表示弥补损失函数Lre损失的加权系数;λ0为1;
所述输出特征图通过若干个分支产生通道注意力权重和分割图,包括如下步骤:
将所述若干输出特征图经过池化和若干卷积层处理,进一步进行特征提取,得到若干新特征图;
将所述若干新特征图输入通道注意力部分,获得所述若干新特征图相应的通道注意力权重以及分割图;
将轻微遮挡目标的特征和严重遮挡目标的特征计算弥补损失函数Lre。
2.根据权利要求1所述的一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,其特征在于,还包括将预处理原始图像进行类间遮挡数据增强获得增强图像步骤,包括如下步骤:
将单张所述预处理原始图像中的目标标注框划分为N个标注框部位,计算目标标注框可见比例;若取值在0-1之间的随机数po大于阈值0.5且所述目标标注框可见比例在预设范围[0.65,1]内,则进行除所述N个标注框部位中的预设部位以外其他N-1个部位的随机遮挡数据增强获得所述增强图像;
所述目标标注框可见比例计算方式按式(II)进行:
3.根据权利要求2所述的一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,其特征在于,所述将预处理原始图像进行类间遮挡数据增强获得增强图像,还包括如下步骤:
产生取值在设定范围0-1之间的随机数pm,随机选择所述N个标注框部位中的目标预设部位以外的N-1个部位中的一个;
若所述随机数pm取值大于阈值0.5则采用目标图像的均值对该部位进行填充,获得增强图像;
若所述随机数pm取值小于阈值0.5采用图像类间增强,所述图像类间增强包括裁剪目标前景区域外的背景区域,对该部位进行填充,获得增强图像。
4.根据权利要求1所述的一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,其特征在于,所述弱监督语义分割模块还被配置为:
所述分割图和目标标注框产生的对应尺度上的弱监督语义分割真值图计算分割损失函数Lseg,按式(III)进行:
式中:Ns表示弱监督语义分割图对应的像素数量,表示像素位置j对应的真实标签,ls=0表示背景标签,ls=1表示对应尺度的目标标签,/>表示像素位置j对第ls类预测的得分,τ{·}表示恒等函数,i表示对应的预测层,wi,j表示对于背景和不同尺度目标的加权系数,[hmin,i,hmax,i]表示对应第i个检测层预先设置的目标高度范围。
5.根据权利要求1所述的一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,其特征在于,将所述优化特征图进行标签匹配和特征映射得到所有目标正样本特征并将所述目标正样本特征划分为若干个集合,包括如下步骤:
将经过标签匹配得到的行人正样本,结合所述优化特征图,进行特征映射处理,得到所有目标正样本特征;
将所有所述目标正样本特征按照对应所述目标标注框的可见比例将目标正样本特征划分为两个集合:轻微遮挡目标的特征,严重遮挡目标的特征。
6.根据权利要求1所述一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,其特征在于,将所述优化特征图进行标签匹配和特征映射得到所有目标正样本特征还包括如下步骤:
将经过标签匹配得到的目标正样本,结合优化特征图,任一个所述目标正样本特征的计算方法按式(IV)进行:
式中:PrPool(bin,F)代表计算某个目标正样本的计算结果,F代表特征图,bin表示目标正样本在F上的特征映射区域{(x1,y1),(x2,y2)},f(x,y)表示区域内连续坐标(x,y)对应的特征值,IC函数表示(x,y)位置的插值系数,(i,j)表示对连续坐标(x,y)取整后的离散坐标位置,wi,j表示F在(i,j)位置处的特征值。
7.根据权利要求1所述的一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法,其特征在于,计算所述弥补损失函数Lre,还包括如下步骤:
按照对应所述目标标注框的可见比例,将目标正样本特征划分为两个集合:轻微遮挡目标的特征即所述目标标注框可见比例大于某一阈值时,记作和严重遮挡目标的特征即所述目标标注框可见比例小于某一阈值时,记作/>
将轻微遮挡目标的特征和严重遮挡目标的特征计算弥补损失函数Lre,按照式(V)进行:
式中:T表示严重遮挡目标的数量,S表示轻微遮挡目标的数量,Fj o表示N维特征向量,CR表示N维特征向量,si表示Fj o和CR两个特征向量第i维度的标准差,k表示轻微遮挡目标数量的索引值,k的取值从1到S。
8.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-7所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310550746.9A CN116503603B (zh) | 2023-05-16 | 2023-05-16 | 一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310550746.9A CN116503603B (zh) | 2023-05-16 | 2023-05-16 | 一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116503603A CN116503603A (zh) | 2023-07-28 |
CN116503603B true CN116503603B (zh) | 2024-02-23 |
Family
ID=87320160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310550746.9A Active CN116503603B (zh) | 2023-05-16 | 2023-05-16 | 一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503603B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215034A (zh) * | 2018-07-06 | 2019-01-15 | 成都图必优科技有限公司 | 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法 |
CN111680739A (zh) * | 2020-06-04 | 2020-09-18 | 通号通信信息集团有限公司 | 一种目标检测和语义分割的多任务并行方法及系统 |
CN115063704A (zh) * | 2022-06-28 | 2022-09-16 | 南京邮电大学 | 一种立体特征融合语义分割的无人机监测目标分类方法 |
WO2023045284A1 (zh) * | 2021-09-26 | 2023-03-30 | 上海商汤智能科技有限公司 | 图像处理方法、装置、计算机设备、存储介质及程序产品 |
-
2023
- 2023-05-16 CN CN202310550746.9A patent/CN116503603B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215034A (zh) * | 2018-07-06 | 2019-01-15 | 成都图必优科技有限公司 | 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法 |
CN111680739A (zh) * | 2020-06-04 | 2020-09-18 | 通号通信信息集团有限公司 | 一种目标检测和语义分割的多任务并行方法及系统 |
WO2023045284A1 (zh) * | 2021-09-26 | 2023-03-30 | 上海商汤智能科技有限公司 | 图像处理方法、装置、计算机设备、存储介质及程序产品 |
CN115063704A (zh) * | 2022-06-28 | 2022-09-16 | 南京邮电大学 | 一种立体特征融合语义分割的无人机监测目标分类方法 |
Non-Patent Citations (1)
Title |
---|
卷积神经网络图像语义分割技术;田启川;孟颖;;小型微型计算机系统(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116503603A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472627B (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
Adarsh et al. | YOLO v3-Tiny: Object Detection and Recognition using one stage improved model | |
CN111723748A (zh) | 一种红外遥感图像舰船检测方法 | |
CN109785366B (zh) | 一种针对遮挡的相关滤波目标跟踪方法 | |
CN110909591B (zh) | 用编码向量的行人图像检测自适应非极大值抑制处理方法 | |
CN112149591B (zh) | 用于sar图像的ssd-aeff自动桥梁检测方法及系统 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
Nguyen et al. | Satellite image classification using convolutional learning | |
CN113052006B (zh) | 一种基于卷积神经网络的图像目标检测方法,系统及可读存储介质 | |
CN111898432A (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN106600613B (zh) | 基于嵌入式gpu的改进lbp红外目标检测方法 | |
CN110991257A (zh) | 基于特征融合与svm的极化sar溢油检测方法 | |
CN112733942A (zh) | 一种基于多级特征自适应融合的变尺度目标检测方法 | |
Hu et al. | A video streaming vehicle detection algorithm based on YOLOv4 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN115564983A (zh) | 目标检测方法、装置、电子设备、存储介质及其应用 | |
Du et al. | Semisupervised SAR ship detection network via scene characteristic learning | |
Kuppusamy et al. | Enriching the multi-object detection using convolutional neural network in macro-image | |
CN113763417B (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN116863293A (zh) | 一种基于改进YOLOv7算法的可见光下海上目标检测方法 | |
CN116953702A (zh) | 基于演绎范式的旋转目标检测方法及装置 | |
CN116503603B (zh) | 一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法 | |
CN115631211A (zh) | 一种基于无监督分割的高光谱图像小目标检测方法 | |
Zhang et al. | An Improved Detection Algorithm For Pre-processing Problem Based On PointPillars |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |