CN114881210A - 基于可切换空洞卷积和gc-bfp特征增强的行人检测方法及存储介质 - Google Patents
基于可切换空洞卷积和gc-bfp特征增强的行人检测方法及存储介质 Download PDFInfo
- Publication number
- CN114881210A CN114881210A CN202210481577.3A CN202210481577A CN114881210A CN 114881210 A CN114881210 A CN 114881210A CN 202210481577 A CN202210481577 A CN 202210481577A CN 114881210 A CN114881210 A CN 114881210A
- Authority
- CN
- China
- Prior art keywords
- model
- convolution
- bfp
- pedestrian
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于可切换空洞卷积和GC‑BFP特征增强的行人检测方法及存储介质,所述方法通过摄像监控设备获得行人数据,经过行人检测模型的数据处理,输出检测数据。行人检测模型使用轻量级的卷积神经网络ShuffleNetV2可以降低模型计算量,提高模型速度,在ShuffleNetV2结构中融入可切换空洞卷积,帮助模型扩大并自适应选取感受野,且在模型多尺度特征融合后使用GC‑BFP特征增强模块,保证模型检测精度,进一步提高了行人检测的检测速度和精度。
Description
技术领域
本发明涉及计算机应用技术领域,具体涉及一种基于可切换空洞卷积和GC-BFP特征增强的行人检测方法及存储介质。
背景技术
随着互联网和移动通信技术的发展,计算机视觉作为人工智能领域的一个方向也逐步获得广泛应用,其中,无人驾驶汽车、无人配送机器人、商场服务机器人等也得到了越来越多的实际应用。在无人汽车、无人配送机器人或商场服务机器人行驶的过程中,对于行人的检测是一件重要的任务,必须要对自身行走路线前侧及两侧存在的行人进行准确且实时的检测,才能保障行驶过程中的安全。由于行人的各种穿着,遮挡等影响,行人检测的准确率也存在着一定的技术挑战。
行人检测的实现首先要对行人图像进行采集,其次对行人进行分类和定位,其中,行人的分类和定位效果会直接影响行人检测的整体效果。ATSS(目标检测模型)可以解决分类和定位任务,检测效果较好,但是模型的计算量还存在优化的空间,其它模型也是多少存在一些不足之处。因此,设计一种计算量更小、速度更快、精度更好的实时行人检测模型用于无人配送、商场服务或无人驾驶等方面是业界不断追求的目标。
发明内容
本发明提供了一种基于可切换空洞卷积和GC-BFP特征增强的高效行人检测方法,通过将行人数据集应用到目标检测模型ATSS当中,并将ShuffleNetV2、可切换空洞卷积和GC-BFP特征增强融合到模型中,设计了一种新的行人检测模型,进一步提高了行人检测的检测速度和精度。
本发明通过摄像监控设备获得行人数据,经过行人检测模型的数据处理,输出检测数据。所述行人检测模型的构建包括以下步骤:
(1)保留ATSS模型中多尺度特征融合以及多尺度特征预测部分,将特征提取部分的ResNet-50结构删去。
(2)设计ShuffleNetV2-SAC结构,将ShuffleNetV21.0×中的1个Conv、1个Maxpool、4个Stage2、8个Stage3和4个Stage4保留,同时将Stage2、Stage3、Stage4中strides=1结构中的3×3DWConv卷积替换为可切换空洞卷积SAC,SAC结构里的3×3卷积仍然使用3×3DWConv卷积。
(3)设计GC-BFP结构,引入BFP特征增强模块,并在BFP特征增强模块的Refine部分使用GCNet全局注意力机制。
(4)将步骤(2)所述的ShuffleNetV2-SAC结构作为步骤(1)所述ATSS模型的特征提取模块,把Stage2、Stage3、Stage4输出的特征图作为步骤(1)所述ATSS模型多尺度特征融合的输入部分。
(5)将步骤(3)所述的GC-BFP结构用于步骤(1)所述ATSS模型的多尺度特征融合之后、多尺度检测之前。
其中:ATSS表示目标检测模型;ShuffleNetV2表示卷积神经网络模型;DWConv表示深度卷积层;Conv表示普通卷积层;Maxpool表示最大池化层;strides表示卷积步长;Stage2、Stage3、Stage4表示ShuffleNetV2结构的核心构件,由一系列卷积步长为1和卷积步长为2的结构构成。
本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于可切换空洞卷积和GC-BFP特征增强的行人检测方法的步骤。
附图说明
图1为本发明的整体流程图;
图2为本发明中的行人检测模型训练原理图。
具体实施方式
下面结合附图和实施例对本发明作出更详细的说明。
实施例采用了摄像头获取行人数据,通过构建的行人检测模型处理后输出检测结果。具体内容为:首先采用数据增强技术扩充行人数据集以达到更好的检测效果。其次使用ShuffleNetV2代替ATSS的ResNet-50网络,降低模型计算量,并将可切换空洞卷积融入ShuffleNetV2网络中扩大并实现模型感受野自适应选取,将GC-BFP特征融合模块用于多尺度融合之后,进一步对融合的多尺度特征进行特征增强并平衡多尺度信息,提高模型的检测效果。新模型通过单一网络就能实现行人的分类和定位任务,检测速度快且精度较高。最后,添加实时摄像头监控设备,实时的检测摄像视频中出现的无人、单人或多人情况,将新模型在公开的INRIA Person Dataset行人数据集和NICTA行人数据集上进行训练和测试,从而评估模型的精度和检测速度。
为了获取更好的检测效果,本实施例对行人数据集进行了数据扩充操作,利用亮度变化、高斯模糊、随机抠除、镜像翻转方法对INRIA Person Dataset行人数据集进行扩充,获得9901张图片。
为了提高行人检测的检测速度和精度,实施例中的行人检测模型具体如下:
(1)保留ATSS(Adaptive Training Sample Selection)模型中多尺度特征融合以及多尺度特征预测部分,将特征提取部分的ResNet-50结构删去。
具体为:将ATSS模型所使用的FPN多尺度特征融合技术保留,将多尺度预测部分的分类分支、定位分支和中心位置分支(Center-ness)保留。由于ATSS模型使用的ResNet-50特征提取网络所需计算量较多,于是将ResNet-50删去,选用轻量化的卷积神经网络替换。
(2)设计ShuffleNetV2-SAC结构,将ShuffleNetV21.0×前18层(1个Conv、1个Maxpool、4个Stage2、8个Stage3、4个Stage4)保留,同时将Stage2、Stage3、Stage4中strides=1结构中的3×3DWConv卷积替换为可切换空洞卷积SAC,SAC结构里的3×3卷积仍然使用3×3DWConv卷积。
具体为:设计ShuffleNetV2-SAC结构,ResNet-50结构的FLOPs为3.8×109M,而轻量化ShuffleNetV21.0×卷积神经网络FLOPs只有144M(FLOPs表示模型所需计算量,一般用来衡量算法/模型复杂度)。模型使用轻量级网络速度必然有所提升,但会损耗一定的精度。为了保障模型在提高速度的同时也能保持较好的精度,使用可切换空洞卷积SAC替换ShuffleNetV21.0×中Stage2、Stage3和Stage4中strides为1结构所使用的3×3DWConv卷积。SAC提供了两种空洞率的卷积计算,一种是空洞率为1的3×3卷积,跟普通卷积一样,空洞率为1的3×3卷积在卷积运算时只能感受3×3像素点范围,另一种是空洞率为3的3×3卷积,在卷积运算时可以感受7×7像素点范围,扩大了模型感受野。同时SAC结构提供了一种切换函数S(x),可以以不同的概率分别作用于空洞率为1和空洞率为3的3×3卷积,实现模型自适应的感受选取。实现公式为Conv(x,w,1)→S(x)×Conv(x,w,1)+(1-S(x))×Conv(x,w+Δw,r),其中公式箭头左边是原来的卷积,右边是转换好的卷积,Conv表示卷积,x表示输入特征图,w表示权重,Δw表示在训练过程中模型学习到的权重,初始为0,r表示空洞率,这里为3。为了可以使用ShuffleNetV21.0×提供的预训练权重,SAC结构中的3×3卷积仍然使用3×3DWConv卷积,SAC结构前后分布有全局上文和全局下文模块,可以帮助切换函数S(x)更稳定的切换。
(3)设计GC-BFP结构,引入BFP(Balanced Feature Pyramid)特征增强模块,并在BFP的Refine部分使用GCNet(Global Context Network)全局注意力机制。
具体为:设计GC-BFP结构,用于FPN多尺度特征融合之后,对经过FPN结构的特征进行增强,同时避免多尺度特征携带信息造成的预测不平衡问题,提高模型精度。假设多尺度特征表示为G2、G3、G4、G5、G6。BFP结构由四部分组成,首先将多尺度特征通过最大池化或插值的方式缩放至统一大小,取中间特征图尺寸进行缩放,如C4。其次对缩放后的多尺度特征进行特征聚合,使用G2到G6特征的平均值作为聚合后的特征。然后将聚合后的特征使用GCNet全局注意力机制进行注意力的聚焦,注意力的使用可以避免目标周围环境的干扰,同时GCNet融合了Non-local和SEnet的优点,可以实现在全局角度关注目标信息且计算量较小。最后将经过GCNet增强的特征使用残差的形式作用于原输入多尺度特征G2到G6,输出的多尺度特征用于模型预测。GC-BFP使用这四步实现了输入特征的特征增强,且避免了多尺度特征信息不平衡的问题,可以提高模型精度。
(4)将设计好的ShuffleNetV2-SAC结构作为ATSS模型的特征提取模块,把Stage2、Stage3、Stage4输出的特征图作为ATSS模型多尺度特征融合的输入部分。
具体为:将设计好的ShuffleNetV2-SAC结构作为ATSS模型的特征提取模块,其中Stage2、Stage3、Stage4输出的特征图,假设为P2,P3,P4,进行FPN特征融合。P4经过1×1卷积得到new_P4,P3经过1×1卷积与new_P4上采样的特征进行融合得到new_P3,P2经过1×1卷积与new_P3上采样的特征进行融合得到new_P2。
(5)将设计好的GC-BFP结构用于ATSS模型多尺度特征融合之后,多尺度检测之前。
具体为:将GC-BFP结构用于FPN之后,多尺度检测之前。new_P4经过步长为1的3×3卷积得到G4,经过两个步长为2的3×3卷积分别得到G5和G6,new_P3经过步长为1的3×3卷积得到G3,new_P2经过步长为1的3×3卷积得到G2。特征G2到G6进行GC-BFP特征增强。
新模型使用轻量级卷积神经网络ShuffleNetV21.0×作为模型特征提取部分,简化了模型的计算量,可以提高模型速度,检测速度更容易达到实时。同时为了保证模型的精度,首先在ShuffleNetV21.0×中引入了可切换空洞卷积SAC,SAC提供了两种空洞率卷积,可以在扩大模型感受野的同时不损害模型输入特征的信息,同时切换函数帮助模型自适应的选择感受野,便于模型更好的检测目标。其次在模型多尺度特征融合之后,为了更好的利用多尺度特征信息,使用BFP结构进行特征增强,由于GCNet全局注意力机制可以帮助模型在全局视角下定位感兴趣物体且计算量较低,因此在BFP中引入GCNet设计了GC-BFP结构用于多尺度特征的特征增强,并平衡了多尺度信息,提高了模型精度。综上,改进后的模型在行人检测上可以达到更快的检测速度以及较好的检测精度,能更高效的进行行人检测工作。
参照图1所示,实施例的整体流程如下:
(1)行人数据集扩充:选择公开的行人数据集INRIA Person Dataset,并利用亮度变化、高斯模糊、随机抠除、镜像翻转方法对其进行数据扩充,获得9901张图片。
(2)模型训练与评估
1)搭建基于深度学习Pytorch框架的实验环境为模型训练和评估做准备。
2)将INRIA Person Dataset和NICTA数据集数据编码为json格式的可训练数据文件。
3)将ShuffleNetV2、可切换空洞卷积核GC-BFP结构融入到ATSS网络中,设计一种新的行人检测模型。
4)将编码后生成的json格式的数据集加载到新设计的行人检测模型中进行训练,并生成相对应的pth后缀的权重文件。
5)使用训练好的权重文件在INRIA Person Dataset和NICTA测试集上进行验证并计算精度mAP指标,速度FPS指标和计算量FLOPs指标验证模型检测性能。
(3)实时检测:利用摄像头监控设备以及训练好的检测模型进行可视化的实时行人检测,并将检测结果实时显示在摄像头监控视频中。实验显示当摄像头捕捉到一人或多人出现在监控视频中,检测屏幕便能快速将捕捉到的行人检测出来并进行准确的定位。
参照图2所示,本发明给出的行人检测模型训练原理图如下:
行人检测模型训练使用的损失函数有三类,一是分类损失,是预测行人类别相比于真实行人类别标签的误差值,使用Focal Loss;二是定位损失,是行人类别预测框位置相比于行人类别真实框位置的误差值,使用GIoU Loss;三是中心位置(Center-ness)损失,作用于分类分支,降低对整体损失的影响,使用BCE Loss。总体损失为分类损失、定位损失和中心位置损失的平均值。
在模型训练时,使用轻量级的卷积神经网络ShuffleNetV2可以降低模型计算量,提高模型速度,同时在ShuffleNetV2结构中融入可切换空洞卷积,帮助模型扩大并自适应选取感受野,且在模型多尺度特征融合后使用GC-BFP特征增强模块,保证模型检测精度,提高模型检测性能。
Claims (2)
1.基于可切换空洞卷积和GC-BFP特征增强的行人检测方法,其特征在于,摄像头获取行人数据输入行人检测模型,行人检测模型输出检测结果,所述行人检测模型的构建包括以下步骤:
(1)保留ATSS模型中多尺度特征融合以及多尺度特征预测部分,将特征提取部分的ResNet-50结构删去;
(2)设计ShuffleNetV2-SAC结构,将ShuffleNetV21.0×中的1个Conv、1个Maxpool、4个Stage2、8个Stage3和4个Stage4保留,同时将Stage2、Stage3、Stage4中strides=1结构中的3×3DWConv卷积替换为可切换空洞卷积SAC,SAC结构里的3×3卷积仍然使用3×3DWConv卷积;
(3)设计GC-BFP结构,引入BFP特征增强模块,并在BFP特征增强模块的Refine部分使用GCNet全局注意力机制;
(4)将步骤(2)所述的ShuffleNetV2-SAC结构作为步骤(1)所述ATSS模型的特征提取模块,把Stage2、Stage3、Stage4输出的特征图作为步骤(1)所述ATSS模型多尺度特征融合的输入部分;
(5)将步骤(3)所述的GC-BFP结构用于步骤(1)所述ATSS模型的多尺度特征融合之后、多尺度检测之前;
其中:ATSS表示目标检测模型;ShuffleNetV2表示卷积神经网络模型;DWConv表示深度卷积层;Conv表示普通卷积层;Maxpool表示最大池化层;strides表示卷积步长;Stage2、Stage3、Stage4表示ShuffleNetV2结构的核心构件,由一系列卷积步长为1和卷积步长为2的结构构成。
2.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1所述的基于可切换空洞卷积和GC-BFP特征增强的行人检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210481577.3A CN114881210A (zh) | 2022-05-05 | 2022-05-05 | 基于可切换空洞卷积和gc-bfp特征增强的行人检测方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210481577.3A CN114881210A (zh) | 2022-05-05 | 2022-05-05 | 基于可切换空洞卷积和gc-bfp特征增强的行人检测方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114881210A true CN114881210A (zh) | 2022-08-09 |
Family
ID=82674184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210481577.3A Pending CN114881210A (zh) | 2022-05-05 | 2022-05-05 | 基于可切换空洞卷积和gc-bfp特征增强的行人检测方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881210A (zh) |
-
2022
- 2022-05-05 CN CN202210481577.3A patent/CN114881210A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119148B (zh) | 一种六自由度姿态估计方法、装置及计算机可读存储介质 | |
CN111738110A (zh) | 基于多尺度注意力机制的遥感图像车辆目标检测方法 | |
EP3822852A2 (en) | Method, apparatus, computer storage medium and program for training a trajectory planning model | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN111275711A (zh) | 基于轻量级卷积神经网络模型的实时图像语义分割方法 | |
CN110837811A (zh) | 语义分割网络结构的生成方法、装置、设备及存储介质 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN110781980B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN112862828B (zh) | 一种语义分割方法、模型训练方法及装置 | |
CN113591573A (zh) | 多任务学习深度网络模型的训练及目标检测方法、装置 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN115147745A (zh) | 一种基于城市无人机图像的小目标检测方法 | |
CN114529890A (zh) | 状态检测方法、装置、电子设备及存储介质 | |
CN112668596B (zh) | 三维物体识别方法及装置、识别模型训练方法及装置 | |
CN111126561B (zh) | 一种基于多路并行卷积神经网络的图像处理方法 | |
CN112633066A (zh) | 一种航拍小目标检测方法、装置、设备及存储介质 | |
CN117011819A (zh) | 基于特征引导注意力的车道线检测方法、装置及设备 | |
CN116797789A (zh) | 一种基于注意力架构的场景语义分割方法 | |
CN116259040A (zh) | 识别交通标志的方法、装置和电子设备 | |
CN116844032A (zh) | 一种海洋环境下目标检测识别方法、装置、设备及介质 | |
TWI809957B (zh) | 物件偵測方法及電子裝置 | |
CN114881210A (zh) | 基于可切换空洞卷积和gc-bfp特征增强的行人检测方法及存储介质 | |
CN116453086A (zh) | 识别交通标志的方法、装置和电子设备 | |
CN113034432B (zh) | 一种产品缺陷检测方法、系统、装置及存储介质 | |
CN114022630A (zh) | 三维场景的重建方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |