CN115082855A - 基于改进yolox算法的行人遮挡检测方法 - Google Patents
基于改进yolox算法的行人遮挡检测方法 Download PDFInfo
- Publication number
- CN115082855A CN115082855A CN202210696966.8A CN202210696966A CN115082855A CN 115082855 A CN115082855 A CN 115082855A CN 202210696966 A CN202210696966 A CN 202210696966A CN 115082855 A CN115082855 A CN 115082855A
- Authority
- CN
- China
- Prior art keywords
- yolox
- improved
- feature
- network model
- pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于改进YOLOX算法的行人遮挡检测方法,包括:获取行人遮挡数据集,分为训练集、验证集和测试集;构建YOLOX网络模型;将YOLOX网络模型的主干特征网络融合改进的CBAM模块,加入ASFF自适应特征融合机制模块,得到改进后的YOLOX网络模型;将融合后的特征图通过不同尺寸的YOLO检测头对训练集图像中目标的位置和类别进行预测,得到预测结果,利用损失函数训练改进后的YOLOX网络模型;将验证集输入改进后的YOLOX网络模型中,通过实验训练得到最优权重,对测试集中的图片进行测试,获得最终的检测结果。本发明将YOLOX算法应用到行人遮挡检测中,在原来的特征提取网络上,增加改进的CBAM模块,来增强特征图中的特征,从而得到更有用的特征,能够更好的识别出行人。
Description
技术领域
本发明涉及行人检测技术领域,尤其是一种基于改进YOLOX算法的行人遮挡检测方法。
背景技术
随着科技不断的发展,计算机视觉成为国内外学者研究的热点之一。行人检测作为计算机视觉中的一个重要分支,在智能视频监控、无人驾驶以及智能机器人等领域得到广泛的应用。行人检测是通过在图片和视频中检测出行人并得到行人具体位置信息的一种目标检测,与普通的目标检测相比较为复杂。对于普通目标检测而言,物体的形态固定,而行人检测中,行人的形态随时可能会发生变化,增加检测的复杂性。此外,行人检测容易受到环境的影响,如行人被车辆或其他物体遮挡上半身或下半身而使行人结构不完整时,容易产生漏检。
目前,深度学习的行人检测方法已慢慢取代了传统的行人检测方法。深度学习的网络模型可以提取图像中更深层次的特征,并且表示的特征具有较强的表达能力和更好的鲁棒性,可以更好地去解决行人检测问题。芮挺等人在2018年提出一种基于深度卷积神经网络的行人检测方法,该方法利用深度卷积网络模型,对使用现场图像进行行人检测,通过连续dropout策略,在保持网络训练精度的同时,获得更好的泛化能力,从而在行人检测中获得更高的正确率。然而,针对遮挡的行人检测效果不佳。王亚茹等人在2022年提出一种基于注意力机制的遮挡行人检测方法,通过构建新的行人检测器SKGNet,将轻量级的卷积核与注意力模块SKG嵌入到ResNet-101网络中,构建出特征提取网络SKGNet-101,使网络可提取到更关键的特征信息,针对行人遮挡情况,提出掩膜调制模块,来提高遮挡行人的检测精度。此方法只是以交通场景中的行人为例提出的检测方法,数据集较为单一,此外,其使用的注意力机制不太便捷、参数多、计算量大。
由于深度神经卷积在行人检测中可以得到较好的检测效果,越来越多的学者对深度神经网络加以改进,并应用在行人检测中。为了使改进的模型能更好地关注到行人,通常在网络中增加空间注意力机制和通道注意力机制,计算的复杂度也在不断攀升;然而针对行人之间的相互遮挡,行人检测较为困难,同时,行人检测的漏检问题也较为严重。
发明内容
本发明的目的在于提供一种解决被遮挡行人检测精度低且存在漏检问题,能够更好地检测出行人的基于改进YOLOX算法的行人遮挡检测方法。
为实现上述目的,本发明采用了以下技术方案:一种基于改进YOLOX算法的行人遮挡检测方法,该方法包括下列顺序的步骤:
(1)获取行人遮挡数据集,对获取的行人遮挡数据集中的数据进行数据增强处理,再将行人遮挡数据集分为训练集、验证集和测试集;
(2)构建YOLOX网络模型;
(3)将YOLOX网络模型的主干特征网络融合改进的CBAM模块,得到融合后的YOLOX网络模型,将训练集输入融合后的YOLOX网络模型进行特征提取,得到提取的特征,在融合后的YOLOX网络模型的基础上加入ASFF自适应特征融合机制模块,得到改进后的YOLOX网络模型,将提取的特征的权重参数输入改进后的YOLOX网络模型,改进后的YOLOX网络模型对提取的特征进行学习,得到融合后的特征图,将训练集输入改进后的YOLOX网络模型中训练;
(4)将融合后的特征图通过不同尺寸的YOLO检测头来对训练集图像中目标位置和类别进行预测,得到预测结果,利用损失函数训练改进后的YOLOX网络模型;
(5)将验证集输入改进后的YOLOX网络模型中,通过实验训练得到最优权重,对测试集中的图片进行测试,获得最终的检测结果。
在步骤(2)中,所述YOLOX网络模型包括:
特征提取网络Backbone,用于进行特征提取,提取到的特征称作特征层;
加强特征网络Neck,用于对获得的有效特征层采用FPN进行特征融合;
预测网络YOLO Head,用于对特征进行分类和定位,得到最终的预测结果。
在所述步骤(3)中,改进的CBAM模块是一种结合空间注意力和通道注意力的模块,通道域注意力机制中的方程如下:
式中,MC(F)表示通道注意力特征,F表示原始图像特征;MLP表示为多层感知器,W1和W0为MLP的权重,AvgPool表示平均池化,MaxPool表示最大池化,σ表示sigmoid激活函数,和分别表示平均池化和最大池化运算;
空间域注意力机制的方程为:
融合后的YOLOX网络模型进行特征提取,得到的提取特征是通道域注意力机制特征、空间域注意力机制特征和原特征相叠加的特征,叠加的方程为:
式中,F'表示提取特征,MC(F)表示通道注意力特征,MS(F)表示空间注意力特征,F表示原始图像特征;
将提取的特征的权重参数输入改进后的YOLOX网络模型,改进后的YOLOX网络模型对提取特征进行学习,得到融合后的特征图,如方程(4)所示:
在步骤(4)中,所述不同尺寸的YOLO检测头的个数为三个,分别用于检测大目标、中目标和小目标,每个检测头拥有一个由解耦头和签分配策略组成的高性能的Anchorfree检测器,输入Anchor free检测器的图片尺寸为N*N,通道数为3,检测输出预测结果(M*M*(4+1+C)),其中,M为不同尺度的特征层预测的结果,4和1分别是预测框的坐标和置信度,C为检测类别。
在步骤(4)中,所述损失函数采用Focal loss损失函数,在Focal loss损失函数中引入α1平衡因子,平衡正负样本的数量比,如方程(5)所示:
其中,α1为平衡因子,γ1为调节因子,加入γ1减少易分类样本的损失,y是真实样本,Focal loss损失函数使用α1和γ1进行综合调控,得到最优权重。
在步骤(5)中,将测试集图片输入训练好的改进后的YOLOX网络模型中,获得最终的检测结果。
由上述技术方案可知,本发明的有益效果为:本发明主要解决的是行人被遮挡情况下的检测精度低且存在漏检的问题,将YOLOX算法应用到行人遮挡检测中,在原来的特征提取网络上,增加改进的CBAM模块,来增强特征图中的特征,从而得到更有用的特征,能够更好的检测出行人。
附图说明
图1为本发明的方法流程图。
具体实施方式
如图1所示,一种基于改进YOLOX算法的行人遮挡检测方法,该方法包括下列顺序的步骤:
(1)获取行人遮挡数据集,对获取的行人遮挡数据集中的数据进行数据增强处理,再将行人遮挡数据集分为训练集、验证集和测试集;
(2)构建YOLOX网络模型;
(3)将YOLOX网络模型的主干特征网络融合改进的CBAM模块,得到融合后的YOLOX网络模型,将训练集输入融合后的YOLOX网络模型进行特征提取,得到提取的特征,在融合后的YOLOX网络模型的基础上加入ASFF自适应特征融合机制模块,得到改进后的YOLOX网络模型,将提取的特征的权重参数输入改进后的YOLOX网络模型,改进后的YOLOX网络模型对提取的特征进行学习,得到融合后的特征图,将训练集输入改进后的YOLOX网络模型中训练;
(4)将融合后的特征图通过不同尺寸的YOLO检测头来对训练集图像中目标位置和类别进行预测,得到预测结果,利用损失函数训练改进后的YOLOX网络模型;
(5)将验证集输入改进后的YOLOX网络模型中,通过实验训练得到最优权重,对测试集中的图片进行测试,获得最终的检测结果。
在步骤(2)中,所述YOLOX网络模型包括:
特征提取网络Backbone,用于进行特征提取,提取到的特征称作特征层;
加强特征网络Neck,用于对获得的有效特征层采用FPN进行特征融合;
预测网络YOLO Head,用于对特征进行分类和定位,得到最终的预测结果。
在所述步骤(3)中,改进的CBAM模块是一种结合空间注意力和通道注意力的模块,通道域注意力机制中的方程如下:
式中,MC(F)表示通道注意力特征,F表示原始图像特征;MLP表示为多层感知器,W1和W0为MLP的权重,AvgPool表示平均池化,MaxPool表示最大池化,σ表示sigmoid激活函数,和分别表示平均池化和最大池化运算;
空间域注意力机制的方程为:
融合后的YOLOX网络模型进行特征提取,得到的提取特征是通道域注意力机制特征、空间域注意力机制特征和原特征相叠加的特征,叠加的方程为:
式中,F'表示提取特征,MC(F)表示通道注意力特征,MS(F)表示空间注意力特征,F表示原始图像特征;
将提取的特征的权重参数输入改进后的YOLOX网络模型,改进后的YOLOX网络模型对提取特征进行学习,得到融合后的特征图,如方程(4)所示:
在步骤(4)中,所述不同尺寸的YOLO检测头的个数为三个,分别用于检测大目标、中目标和小目标,每个检测头拥有一个由解耦头和签分配策略组成的高性能的Anchorfree检测器,输入Anchor free检测器的图片尺寸为N*N,通道数为3,检测输出预测结果(M*M*(4+1+C)),其中,M为不同尺度的特征层预测的结果,4和1分别是预测框的坐标和置信度,C为检测类别。
在步骤(4)中,所述损失函数采用Focal loss损失函数,在Focal loss损失函数中引入α1平衡因子,平衡正负样本的数量比,如方程(5)所示:
其中,α1为平衡因子,γ1为调节因子,加入γ1减少易分类样本的损失,y是真实样本,Focal loss损失函数使用α1和γ1进行综合调控,得到最优权重。
在步骤(5)中,将测试集图片输入训练好的改进后的YOLOX网络模型中,获得最终的检测结果。
综上所述,本发明主要解决的是行人被遮挡情况下的精度低且存在漏检的问题,将YOLOX算法应用到行人遮挡检测中,在原来的特征提取网络上,增加改进的CBAM模块,来增强特征图中的特征,从而得到更有用的特征,能够更好的识别出行人。
Claims (6)
1.一种基于改进YOLOX算法的行人遮挡检测方法,其特征在于:该方法包括下列顺序的步骤:
(1)获取行人遮挡数据集,对获取的行人遮挡数据集中的数据进行数据增强处理,再将行人遮挡数据集分为训练集、验证集和测试集;
(2)构建YOLOX网络模型;
(3)将YOLOX网络模型的主干特征网络融合改进的CBAM模块,得到融合后的YOLOX网络模型,将训练集输入融合后的YOLOX网络模型进行特征提取,得到提取的特征,在融合后的YOLOX网络模型的基础上加入ASFF自适应特征融合机制模块,得到改进后的YOLOX网络模型,将提取的特征的权重参数输入改进后的YOLOX网络模型,改进后的YOLOX网络模型对提取的特征进行学习,得到融合后的特征图,将训练集输入改进后的YOLOX网络模型中训练;
(4)将融合后的特征图通过不同尺寸的YOLO检测头来对训练集图像中目标位置和类别进行预测,得到预测结果,利用损失函数训练改进后的YOLOX网络模型;
(5)将验证集输入改进后的YOLOX网络模型中,通过实验训练得到最优权重,对测试集中的图片进行测试,获得最终的检测结果。
2.根据权利要求1所述的基于改进YOLOX算法的行人遮挡检测方法,其特征在于:在步骤(2)中,所述YOLOX网络模型包括:
特征提取网络Backbone,用于进行特征提取,提取到的特征称作特征层;
加强特征网络Neck,用于对获得的有效特征层采用FPN进行特征融合;
预测网络YOLO Head,用于对特征进行分类和定位,得到最终的预测结果。
3.根据权利要求1所述的基于改进YOLOX算法的行人遮挡检测方法,其特征在于:在所述步骤(3)中,改进的CBAM模块是一种结合空间注意力和通道注意力的模块,通道域注意力机制中的方程如下:
式中,MC(F)表示通道注意力特征,F表示原始图像特征;MLP表示为多层感知器,W1和W0为MLP的权重,AvgPool表示平均池化,MaxPool表示最大池化,σ表示sigmoid激活函数,和分别表示平均池化和最大池化运算;
空间域注意力机制的方程为:
融合后的YOLOX网络模型进行特征提取,得到的提取特征是通道域注意力机制特征、空间域注意力机制特征和原特征相叠加的特征,叠加的方程为:
式中,F′表示提取特征,MC(F)表示通道注意力特征,MS(F)表示空间注意力特征,F表示原始图像特征;
将提取的特征的权重参数输入改进后的YOLOX网络模型,改进后的YOLOX网络模型对提取特征进行学习,得到融合后的特征图,如方程(4)所示:
4.根据权利要求1所述的基于改进YOLOX算法的行人遮挡检测方法,其特征在于:在步骤(4)中,所述不同尺寸的YOLO检测头的个数为三个,分别用于检测大目标、中目标和小目标,每个检测头拥有一个由解耦头和签分配策略组成的高性能的Anchor free检测器,输入Anchor free检测器的图片尺寸为N*N,通道数为3,检测输出预测结果(M*M*(4+1+C)),其中,M为不同尺度的特征层预测的结果,4和1分别是预测框的坐标和置信度,C为检测类别。
6.根据权利要求1所述的基于改进YOLOX算法的行人遮挡检测方法,其特征在于:在步骤(5)中,将测试集图片输入训练好的改进后的YOLOX网络模型中,获得最终的检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210696966.8A CN115082855A (zh) | 2022-06-20 | 2022-06-20 | 基于改进yolox算法的行人遮挡检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210696966.8A CN115082855A (zh) | 2022-06-20 | 2022-06-20 | 基于改进yolox算法的行人遮挡检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115082855A true CN115082855A (zh) | 2022-09-20 |
Family
ID=83253099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210696966.8A Pending CN115082855A (zh) | 2022-06-20 | 2022-06-20 | 基于改进yolox算法的行人遮挡检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115082855A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471871A (zh) * | 2022-09-22 | 2022-12-13 | 四川农业大学 | 一种基于目标检测和分类网络的麻鸭性别分类识别方法 |
CN116092168A (zh) * | 2023-03-27 | 2023-05-09 | 湖南乐然智能科技有限公司 | 一种课堂环境下的人脸识别检测方法 |
CN116883862A (zh) * | 2023-07-19 | 2023-10-13 | 北京理工大学 | 一种光学遥感图像多尺度目标检测方法及装置 |
CN116958086A (zh) * | 2023-07-21 | 2023-10-27 | 盐城工学院 | 具有增强特征融合能力的金属表面缺陷检测方法及系统 |
CN117079311A (zh) * | 2023-10-18 | 2023-11-17 | 爱芯元智半导体(宁波)有限公司 | 行人检测及属性识别方法、系统、电子设备及存储介质 |
CN117437697A (zh) * | 2023-12-20 | 2024-01-23 | 广州思德医疗科技有限公司 | 卧姿人体检测模型的训练方法、卧姿人体检测方法及系统 |
-
2022
- 2022-06-20 CN CN202210696966.8A patent/CN115082855A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471871A (zh) * | 2022-09-22 | 2022-12-13 | 四川农业大学 | 一种基于目标检测和分类网络的麻鸭性别分类识别方法 |
CN116092168A (zh) * | 2023-03-27 | 2023-05-09 | 湖南乐然智能科技有限公司 | 一种课堂环境下的人脸识别检测方法 |
CN116883862A (zh) * | 2023-07-19 | 2023-10-13 | 北京理工大学 | 一种光学遥感图像多尺度目标检测方法及装置 |
CN116883862B (zh) * | 2023-07-19 | 2024-02-23 | 北京理工大学 | 一种光学遥感图像多尺度目标检测方法及装置 |
CN116958086A (zh) * | 2023-07-21 | 2023-10-27 | 盐城工学院 | 具有增强特征融合能力的金属表面缺陷检测方法及系统 |
CN116958086B (zh) * | 2023-07-21 | 2024-04-19 | 盐城工学院 | 具有增强特征融合能力的金属表面缺陷检测方法及系统 |
CN117079311A (zh) * | 2023-10-18 | 2023-11-17 | 爱芯元智半导体(宁波)有限公司 | 行人检测及属性识别方法、系统、电子设备及存储介质 |
CN117437697A (zh) * | 2023-12-20 | 2024-01-23 | 广州思德医疗科技有限公司 | 卧姿人体检测模型的训练方法、卧姿人体检测方法及系统 |
CN117437697B (zh) * | 2023-12-20 | 2024-04-30 | 广州思德医疗科技有限公司 | 卧姿人体检测模型的训练方法、卧姿人体检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115082855A (zh) | 基于改进yolox算法的行人遮挡检测方法 | |
CN110188705B (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
CN112818903B (zh) | 一种基于元学习和协同注意力的小样本遥感图像目标检测方法 | |
CN106845487B (zh) | 一种端到端的车牌识别方法 | |
WO2019144575A1 (zh) | 一种快速行人检测方法及装置 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN110929593B (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN110795982A (zh) | 一种基于人体姿态分析的表观视线估计方法 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN111008633A (zh) | 一种基于注意力机制的车牌字符分割方法 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN115631344B (zh) | 一种基于特征自适应聚合的目标检测方法 | |
CN115631407B (zh) | 基于事件相机与彩色帧图像融合的水下透明生物检测 | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
CN113762009A (zh) | 一种基于多尺度特征融合及双注意力机制的人群计数方法 | |
Liu et al. | D-CenterNet: An anchor-free detector with knowledge distillation for industrial defect detection | |
CN117372898A (zh) | 一种基于改进yolov8的无人机航拍图像目标检测方法 | |
Sun et al. | IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes | |
CN114596548A (zh) | 目标检测方法、装置、计算机设备及计算机可读存储介质 | |
CN111797795A (zh) | 一种基于YOLOv3与SSR的行人检测算法 | |
CN115797684A (zh) | 一种基于上下文信息的红外小目标检测方法及系统 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
CN115272450A (zh) | 一种基于全景分割的目标定位方法 | |
Shi et al. | CPA-YOLOv7: Contextual and pyramid attention-based improvement of YOLOv7 for drones scene target detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |