CN112487911A - 智能监控环境下基于改进yolov3的实时行人检测方法及装置 - Google Patents
智能监控环境下基于改进yolov3的实时行人检测方法及装置 Download PDFInfo
- Publication number
- CN112487911A CN112487911A CN202011329405.1A CN202011329405A CN112487911A CN 112487911 A CN112487911 A CN 112487911A CN 202011329405 A CN202011329405 A CN 202011329405A CN 112487911 A CN112487911 A CN 112487911A
- Authority
- CN
- China
- Prior art keywords
- image
- yolov3
- training
- algorithm
- pedestrian detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000012544 monitoring process Methods 0.000 title claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 86
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000012360 testing method Methods 0.000 claims abstract description 40
- 238000012795 verification Methods 0.000 claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 230000006872 improvement Effects 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种智能监控环境下基于改进yolov3的实时行人检测方法及装置,该方法包括以下步骤:获取监控场景下的行人图像,对图像中的行人目标进行标注,将图像按一定比例随机划分为训练集、测试集和验证集;对训练集、测试集和验证集的图像进行预处理;利用训练集对改进后的yolov3算法进行训练,所述改进后的yolov3算法为在原始yolov3算法的基础上对特征提取网络、特征融合层、预测层进行改进后的算法;通过测试集和验证集来选取改进后yolov3算法的最优模型,并将其用于监控视频下的行人检测。本发明在保证对输入图像进行丰富细致的特征提取的同时保持了较低的计算量,提高了图像利用率,减小了行人检测计算量,保持低耗时的同时提高对行人的检测效果。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种智能监控环境下基于改进yolov3的实时行人检测方法及装置。
背景技术
行人检测是计算机视觉的一项基本任务,是指通过计算机判断图像或视频帧中是否存在行人并给出行人的精确位置的技术。行人检测结合行人重识别后能广泛应用于智能视频监控和智能安保等领域。由于该技术在以上行业的广泛应用,行人检测技术已成为计算机视觉领域最活跃的研究方向之一。行人检测方法主要分为两种,基于传统手工特征的方法和基于深度学习的方法。前者又称为特征工程方法,侧重于寻找或设计优秀的特征描述子,普遍存在提取的特征单一、计算复杂度高、对行人外观变化缺乏鲁棒性、检测性能不高等问题。随着深度学习在图像任务上的崛起,行人检测领域已经逐渐出现了各种端到端的深度学习检测方法,比较有代表性的有Faster-rcnn,SSD,yolov3,Tiny-yolov3等算法。
yolov3系列算法是一种单阶段目标检测算法,在不同的特征层上对特征图上的点预测有无目标的置信度、目标的位置以及目标的类别。相比Faster-rcnn与SSD算法,yolov3算法均衡了速度和准确率两方面指标,是当前目标检测领域最为优秀的算法之一。然而原生yolov3和Tiny-yolov3分别采用具有53层卷积的DarkNet53和一个7层的小型特征提取网络,前者可以保证较高精度但是计算复杂度较高,后者降低了计算复杂度但是同时检测精度也大幅降低。对于智能监控等场景,其对行人检测的精度和实时性均有较高要求,特别是在CPU环境或嵌入式设备中,以上算法未能达到又快精度又高的要求。
发明内容
为解决现有技术存在的上述技术问题,本发明提供一种智能监控环境下基于改进yolov3的实时行人检测方法及装置。
本发明是这样实现的:
一方面,本发明提供一种智能监控环境下基于改进yolov3的实时行人检测方法,包括以下步骤:
获取监控场景下的行人图像,对图像中的行人目标进行标注,将图像按一定比例随机划分为训练集、测试集和验证集;
对训练集、测试集和验证集的图像进行预处理;
利用训练集对改进后的yolov3算法进行训练,所述改进后的yolov3算法为在原始yolov3算法的基础上对特征提取网络、特征融合层、预测层进行改进后的算法;
通过测试集和验证集来选取改进后yolov3算法的最优模型,并将其用于监控视频下的行人检测。
进一步地,所述对训练集、测试集和验证集的图像进行预处理具体包括:
对图像进行水平翻转,颜色、亮度、对比度随机变换,色温变换,随机裁剪的数据扩增操作。
进一步地,所述在原始yolov3算法的基础上对特征提取网络进行改进具体包括:
采用EfficentNet-B0特征提取网络替换原始yolov3算法的DarkNet53网络。
进一步地,所述在原始yolov3算法的基础上对特征融合层进行改进具体包括:
将原始yolov3算法的特征融合层卷积系列中的1x1、3x3、1x1、3x3、1x1卷积层减少为1x1、3x3、1x1卷积层。
进一步地,所述在原始yolov3算法的基础上对特征融合层进行改进还包括:
将原始yolov3算法的特征融合层的3x3普通卷积改进为压缩卷积。
进一步地,所述对训练集、测试集和验证集的图像进行预处理具体包括:
根据图像的实际长宽比,将原始输入图像的长和宽分别调整到32像素的整数倍,并将网络输入图像尺寸由方形输入调整为固定的矩形输入的形式。
进一步地,所述在原始yolov3算法的基础上对预测层进行改进具体包括:
改进后的yolov3算法对于矩形图像输入,1/8、1/16、1/32三种尺度预测层中特征图w和h方向的像素数分别为W和H,将三种尺度预测层的输出大小分别改进为WSxHSx3x(1+4+N)、WMxHMx3x(1+4+N)、WLxHLx3x(1+4+N)。
进一步地,所述利用训练集对改进后的yolov3算法进行训练具体包括:
采用不同训练策略及优化参数多次训练,得到多个模型文件。
进一步地,所述通过测试集和验证集来选取改进后yolov3算法的最优模型具体包括:
在测试集测试单次训练过程中不同训练阶段保存的模型的map指标中,选择map指标最高的模型文件进行保存;
在验证集上测试保存的不同参数下模型的map指标,取map指标最高的模型作为最优模型。
另一方面,本发明还提供一种智能监控环境下基于改进yolov3的实时行人检测装置,包括:
图像标注划分模块,用于获取监控场景下的行人图像,对图像中的行人目标进行标注,将图像按一定比例随机划分为训练集、测试集和验证集;
图像预处理模块,用于对训练集、测试集和验证集的图像进行预处理;
改进yolov3算法训练模块,用于利用训练集对改进后的yolov3算法进行训练,所述改进后的yolov3算法为在原始yolov3算法的基础上对特征提取网络、特征融合层、预测层进行改进后的算法;
模型选取模块,用于通过测试集和验证集来选取改进后yolov3算法的最优模型,并将其用于监控视频下的行人检测。
与现有技术相比,本发明具有以下有益效果:
1、采用了更为高效的特征提取网络,在保证对输入图像进行丰富细致的特征提取的同时保持了较低的计算量;
2、针对实际视频帧图像的长宽比,对输入图像尺寸及网络的预测层输出向量进行了调整,有效提高了图像利用率,相对于原yolov3方形图像输入减小了行人检测计算量;
3、在各特征融合层减少了卷积层数并采用了计算复杂度较低但感受野更大的缩放卷积机制,保持低耗时的同时提高对行人的检测效果。
附图说明
图1为本发明实施例提供的一种智能监控环境下基于改进yolov3的实时行人检测方法的流程图;
图2为本发明实施例提供的改进后的yolov3算法的网络结构图;
图3为本发明实施例提供的特征融合层改进前后对比图;
图4为本发明实施例提供的普通卷积和压缩卷积结构图;
图5为本发明实施例提供的一种智能监控环境下基于改进yolov3的实时行人检测装置的方框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种智能监控环境下基于改进yolov3的实时行人检测方法,包括以下步骤:
S1、获取监控场景下的行人图像,对图像中的行人目标进行标注,将图像按一定比例随机划分为训练集、测试集和验证集;
具体地,可通过采集监控摄像头下的视频然后解析得到多个行人多种状态下的图像,在一个实施例中,可收集约2000个行人不同地点、不同时间、不同角度、不同天气、不同距离(近,中,远)下的大小为1920x1080的50000张图片,然后对图像中的行人目标进行标注,随机按照7:1.5:1.5的比例划分训练集、测试集、验证集。
S2、对训练集、测试集和验证集的图像进行预处理;
具体地,首先对图像进行水平翻转,颜色、亮度、对比度随机变换,色温变换,随机裁剪等数据扩增操作,对于任意原始输入图像每种数据扩增可以以0.5的概率执行;然后根据图像的实际长宽比,将原始输入图像的长和宽分别调整到32像素的整数倍,并将网络输入图像尺寸由方形输入MxM调整为固定的矩形输入MxN的形式。在一个实施例中,将w=1920、h=1080的所有原始输入图像根据长宽比调整为w=704、h=384。常规yolov3算法将数据填充或调整为608x608等方形图像,对于从视频帧中获得的矩形图像这样操作不仅会造成较大的图像分辨率浪费,而且拉伸或挤压后的图像会有一定程度失真而降低检测的准确性。与方形输入图像相比,相同面积情况下,与图像本身长宽比匹配的矩形图像输入提高了图像的利用率和检测的精度。
S3、利用训练集对改进后的yolov3算法进行训练,所述改进后的yolov3算法为在原始yolov3算法的基础上对特征提取网络、特征融合层、预测层进行改进后的算法,参照图2;
具体地,本发明首先对原始的yolov3算法进行了改进,具体包括:
1、特征提取网络的改进:
采用EfficentNet-B0特征提取网络替换原始yolov3算法的DarkNet53网络,对输入图像进行特征提取。DarkNet53网络具备较强的特征提取能力,但是该网络层数较深,特征提取过程的FLOPS较大,计算量较大,不适用于在计算资源受限且对实时性要求极高的安防监控条件。EffientNet-B0由16个移动翻转瓶颈卷积模块和2个卷积层构成,是当前最为先进的特征提取网络之一。该结构既具备较高的实时性又在图像分类任务中保持了非常高的精度,在保持较低计算量的同时能对复杂场景下的行人特征进行精细提取。
2、特征融合层的改进:
特征融合过程为分别取特征提取网络中1/8、1/16、1/32降采样层处的特征图,对1/16和1/32尺寸降采样特征图分别进行上采样再和上一层次相同尺寸特征图通道合并得到三种不同尺度的特征图,三种尺度特征图经过特征融合层后得到融合后的特征图。
本发明对特征融合层的第一个改进为,如图3所示,为了降低特征融合过程的计算复杂度,将原始yolov3算法的特征融合层(ConvolutionalSet)卷积系列中的1x1、3x3、1x1、3x3、1x1卷积层减少为1x1、3x3、1x1卷积层。在一个实施例中,对于1/8、1/16、1/32的特征融合层其调整后的1x1、3x3、1x1卷积层的通道数分别为(64,128,64)、(128,256,128)、(256,512,256),步长均为1。
本发明对特征融合层的第二个改进为,为了进一步降低特征融合过程的计算复杂度,将原始yolov3算法的特征融合层(ConvolutionalSet)的3x3普通卷积改进为压缩卷积(ZoomedConv),其具体结构如图4所示。压缩卷积在进行卷积操作前先以线性插值方式将输入特征图长宽均缩小到原来的1/2,依次进行卷积和批归一化之后用线性插值方式将特征图长宽放大2倍,再进行Relu操作。相比普通卷积,压缩卷积输出的特征图上每个像素点具有更大的感受野,由于在进行耗时较高的卷积操作前减小了输入特征图尺寸,大幅降低了整个操作计算量。
3、预测层的改进:
yolov3算法中1/8、1/16、1/32三种尺度预测层中特征图w和h方向的像素数是一致的,每种尺度特征图每个像素与3种预设值的anchor绑定,通过在每种尺度预测层的特征图像素上预测是否含有物体(objectness-score)、物体相对位置(x、y、w、h)、类别(N)来输出检测结果,三种尺度预测层的输出大小分别为SSxSSx3x(1+4+N)、SMxSMx3x(1+4+N)、SLxSLx3x(1+4+N)。改进后的yolov3算法对于矩形图像输入,1/8、1/16、1/32三种尺度预测层中特征图w和h方向的像素数分别为W和H,将三种尺度预测层的输出大小分别改进为WSxHSx3x(1+4+N)、WMxHMx3x(1+4+N)、WLxHLx3x(1+4+N)。在一个实施例中,对于w=704、h=384的输入图像数据,在1/8、1/16、1/32尺度的预测输出分别为88x48x3x6、44x24x3x6、22x12x3x6。
然后利用训练集对改进后的yolov3算法进行训练,具体包括:
采用不同训练策略及优化参数多次训练,得到多个模型文件。在一个实施例中,分别采用Adam、SGD策略以lr=0.0002、0.001、0.005对改进后的yolov3算法进行训练。每训练50个epoch学习率降低到原来的0.1倍,训练过程中batchsize设置为4,总迭代次数300epoch,动量固定为0.9,权重衰减固定为0.0005,每10个epoch保存一次模型。其余yolov3算法相关参数采用与论文相同的默认参数。
S4、通过测试集和验证集来选取改进后yolov3算法的最优模型,并将其用于监控视频下的行人检测。
具体地,在测试集测试单次训练过程中不同训练阶段保存的模型的map指标中,选择map指标最高的模型文件进行保存;
在验证集上测试保存的不同参数下模型的map指标,取map指标最高的模型作为最优模型,用于行人检测。
通过上述方式选取的最优模型,可获得较高的行人检测精度。
本发明采用了更为高效的特征提取网络,在保证对输入图像进行丰富细致的特征提取的同时保持了较低的计算量;针对实际视频帧图像的长宽比,对输入图像尺寸及网络的预测层输出向量进行了调整,有效提高了图像利用率,相对于原yolov3方形图像输入减小了行人检测计算量;在各特征融合层减少了卷积层数并采用了计算复杂度较低但感受野更大的缩放卷积机制,保持低耗时的同时提高对行人的检测效果。
基于同一发明构思,本发明实施例还提供了一种智能监控环境下基于改进yolov3的实时行人检测装置,由于该装置所解决问题的原理与前述实施例的方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
如图5所示,为本发明实施例提供的一种智能监控环境下基于改进yolov3的实时行人检测装置,可以用于执行上述方法实施例,该装置包括:
图像标注划分模块,用于获取监控场景下的行人图像,对图像中的行人目标进行标注,将图像按一定比例随机划分为训练集、测试集和验证集;
图像预处理模块,用于对训练集、测试集和验证集的图像进行预处理;
改进yolov3算法训练模块,用于利用训练集对改进后的yolov3算法进行训练,所述改进后的yolov3算法为在原始yolov3算法的基础上对特征提取网络、特征融合层、预测层进行改进后的算法;
模型选取模块,用于通过测试集和验证集来选取改进后yolov3算法的最优模型,并将其用于监控视频下的行人检测。
进一步地,所述图像预处理模块具体用于:
对图像进行水平翻转,颜色、亮度、对比度随机变换,色温变换,随机裁剪的数据扩增操作。
进一步地,所述在原始yolov3算法的基础上对特征提取网络进行改进具体包括:
采用EfficentNet-B0特征提取网络替换原始yolov3算法的DarkNet53网络。
进一步地,所述在原始yolov3算法的基础上对特征融合层进行改进具体包括:
将原始yolov3算法的特征融合层卷积系列中的1x1、3x3、1x1、3x3、1x1卷积层减少为1x1、3x3、1x1卷积层。
进一步地,所述在原始yolov3算法的基础上对特征融合层进行改进还包括:
将原始yolov3算法的特征融合层的3x3普通卷积改进为压缩卷积。
进一步地,所述图像预处理模块还用于:
根据图像的实际长宽比,将原始输入图像的长和宽分别调整到32像素的整数倍,并将网络输入图像尺寸由方形输入调整为固定的矩形输入的形式。
进一步地,所述在原始yolov3算法的基础上对预测层进行改进具体包括:
改进后的yolov3算法对于矩形图像输入,1/8、1/16、1/32三种尺度预测层中特征图w和h方向的像素数分别为W和H,将三种尺度预测层的输出大小分别改进为WSxHSx3x(1+4+N)、WMxHMx3x(1+4+N)、WLxHLx3x(1+4+N)。
进一步地,所述改进yolov3算法训练模块具体用于:
采用不同训练策略及优化参数多次训练,得到多个模型文件。
进一步地,所述模型选取模块具体用于:
在测试集测试单次训练过程中不同训练阶段保存的模型的map指标中,选择map指标最高的模型文件进行保存;
在验证集上测试保存的不同参数下模型的map指标,取map指标最高的模型作为最优模型。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种智能监控环境下基于改进yolov3的实时行人检测方法,其特征在于,包括以下步骤:
获取监控场景下的行人图像,对图像中的行人目标进行标注,将图像按一定比例随机划分为训练集、测试集和验证集;
对训练集、测试集和验证集的图像进行预处理;
利用训练集对改进后的yolov3算法进行训练,所述改进后的yolov3算法为在原始yolov3算法的基础上对特征提取网络、特征融合层、预测层进行改进后的算法;
通过测试集和验证集来选取改进后yolov3算法的最优模型,并将其用于监控视频下的行人检测。
2.如权利要求1所述的智能监控环境下基于改进yolov3的实时行人检测方法,其特征在于,所述对训练集、测试集和验证集的图像进行预处理具体包括:
对图像进行水平翻转,颜色、亮度、对比度随机变换,色温变换,随机裁剪的数据扩增操作。
3.如权利要求1所述的智能监控环境下基于改进yolov3的实时行人检测方法,其特征在于,所述在原始yolov3算法的基础上对特征提取网络进行改进具体包括:
采用EfficentNet-B0特征提取网络替换原始yolov3算法的DarkNet53网络。
4.如权利要求1所述的智能监控环境下基于改进yolov3的实时行人检测方法,其特征在于,所述在原始yolov3算法的基础上对特征融合层进行改进具体包括:
将原始yolov3算法的特征融合层卷积系列中的1x1、3x3、1x1、3x3、1x1卷积层减少为1x1、3x3、1x1卷积层。
5.如权利要求4所述的智能监控环境下基于改进yolov3的实时行人检测方法,其特征在于,所述在原始yolov3算法的基础上对特征融合层进行改进还包括:
将原始yolov3算法的特征融合层的3x3普通卷积改进为压缩卷积。
6.如权利要求1所述的智能监控环境下基于改进yolov3的实时行人检测方法,其特征在于,所述对训练集、测试集和验证集的图像进行预处理具体包括:
根据图像的实际长宽比,将原始输入图像的长和宽分别调整到32像素的整数倍,并将网络输入图像尺寸由方形输入调整为固定的矩形输入的形式。
7.如权利要求6所述的智能监控环境下基于改进yolov3的实时行人检测方法,其特征在于,所述在原始yolov3算法的基础上对预测层进行改进具体包括:
改进后的yolov3算法对于矩形图像输入,1/8、1/16、1/32三种尺度预测层中特征图w和h方向的像素数分别为W和H,将三种尺度预测层的输出大小分别改进为WS x HS x 3x(1+4+N)、WM x HM x 3x(1+4+N)、WL x HL x 3x(1+4+N)。
8.如权利要求1所述的智能监控环境下基于改进yolov3的实时行人检测方法,其特征在于,所述利用训练集对改进后的yolov3算法进行训练具体包括:
采用不同训练策略及优化参数多次训练,得到多个模型文件。
9.如权利要求1所述的智能监控环境下基于改进yolov3的实时行人检测方法,其特征在于,所述通过测试集和验证集来选取改进后yolov3算法的最优模型具体包括:
在测试集测试单次训练过程中不同训练阶段保存的模型的map指标中,选择map指标最高的模型文件进行保存;
在验证集上测试保存的不同参数下模型的map指标,取map指标最高的模型作为最优模型。
10.一种智能监控环境下基于改进yolov3的实时行人检测装置,其特征在于,包括:
图像标注划分模块,用于获取监控场景下的行人图像,对图像中的行人目标进行标注,将图像按一定比例随机划分为训练集、测试集和验证集;
图像预处理模块,用于对训练集、测试集和验证集的图像进行预处理;
改进yolov3算法训练模块,用于利用训练集对改进后的yolov3算法进行训练,所述改进后的yolov3算法为在原始yolov3算法的基础上对特征提取网络、特征融合层、预测层进行改进后的算法;
模型选取模块,用于通过测试集和验证集来选取改进后yolov3算法的最优模型,并将其用于监控视频下的行人检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011329405.1A CN112487911B (zh) | 2020-11-24 | 2020-11-24 | 智能监控环境下基于改进yolov3的实时行人检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011329405.1A CN112487911B (zh) | 2020-11-24 | 2020-11-24 | 智能监控环境下基于改进yolov3的实时行人检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487911A true CN112487911A (zh) | 2021-03-12 |
CN112487911B CN112487911B (zh) | 2024-05-24 |
Family
ID=74933764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011329405.1A Active CN112487911B (zh) | 2020-11-24 | 2020-11-24 | 智能监控环境下基于改进yolov3的实时行人检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487911B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155551A (zh) * | 2021-11-19 | 2022-03-08 | 北京华能新锐控制技术有限公司 | 基于YOLOv3改进的复杂环境下的行人检测方法及装置 |
JP7320307B1 (ja) | 2022-03-31 | 2023-08-03 | 南京郵電大学 | 知的交通に向けた複雑な多目標の精密な階層的等級的結合検出方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508710A (zh) * | 2018-10-23 | 2019-03-22 | 东华大学 | 基于改进YOLOv3网络的无人车夜间环境感知方法 |
CN110070074A (zh) * | 2019-05-07 | 2019-07-30 | 安徽工业大学 | 一种构建行人检测模型的方法 |
CN110321874A (zh) * | 2019-07-12 | 2019-10-11 | 南京航空航天大学 | 一种轻量化的卷积神经网络行人识别方法 |
CN111415338A (zh) * | 2020-03-16 | 2020-07-14 | 城云科技(中国)有限公司 | 目标检测模型的构建方法及系统 |
WO2020164270A1 (zh) * | 2019-02-15 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于深度学习的行人检测方法、系统、装置及存储介质 |
-
2020
- 2020-11-24 CN CN202011329405.1A patent/CN112487911B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508710A (zh) * | 2018-10-23 | 2019-03-22 | 东华大学 | 基于改进YOLOv3网络的无人车夜间环境感知方法 |
WO2020164270A1 (zh) * | 2019-02-15 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于深度学习的行人检测方法、系统、装置及存储介质 |
CN110070074A (zh) * | 2019-05-07 | 2019-07-30 | 安徽工业大学 | 一种构建行人检测模型的方法 |
CN110321874A (zh) * | 2019-07-12 | 2019-10-11 | 南京航空航天大学 | 一种轻量化的卷积神经网络行人识别方法 |
CN111415338A (zh) * | 2020-03-16 | 2020-07-14 | 城云科技(中国)有限公司 | 目标检测模型的构建方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155551A (zh) * | 2021-11-19 | 2022-03-08 | 北京华能新锐控制技术有限公司 | 基于YOLOv3改进的复杂环境下的行人检测方法及装置 |
JP7320307B1 (ja) | 2022-03-31 | 2023-08-03 | 南京郵電大学 | 知的交通に向けた複雑な多目標の精密な階層的等級的結合検出方法 |
JP2023152231A (ja) * | 2022-03-31 | 2023-10-16 | 南京郵電大学 | 知的交通に向けた複雑な多目標の精密な階層的等級的結合検出方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112487911B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598558B (zh) | 人群密度估计方法、装置、电子设备及介质 | |
CN113011329B (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN112906718B (zh) | 一种基于卷积神经网络的多目标检测方法 | |
CN113128558B (zh) | 基于浅层空间特征融合与自适应通道筛选的目标检测方法 | |
WO2021180030A1 (zh) | 行为识别方法及系统、电子设备和计算机可读存储介质 | |
CN111696110B (zh) | 场景分割方法及系统 | |
WO2021238420A1 (zh) | 图像去雾方法、终端及计算机存储介质 | |
CN111861925A (zh) | 一种基于注意力机制与门控循环单元的图像去雨方法 | |
CN111242127A (zh) | 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法 | |
CN111079739A (zh) | 一种多尺度注意力特征检测方法 | |
CN110991444A (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN112766123B (zh) | 一种基于纵横交叉注意力网络的人群计数方法及系统 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN112487911B (zh) | 智能监控环境下基于改进yolov3的实时行人检测方法及装置 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN114494981A (zh) | 一种基于多层次运动建模的动作视频分类方法及系统 | |
CN111339950B (zh) | 一种遥感图像目标检测方法 | |
CN110659724A (zh) | 一种基于目标尺度范围的目标检测卷积神经网络构建方法 | |
CN117237867A (zh) | 基于特征融合的自适应场面监视视频目标检测方法和系统 | |
CN117173547A (zh) | 一种基于改进的YOLOv6算法的水下目标检测方法 | |
Li et al. | CDMY: A lightweight object detection model based on coordinate attention | |
Wang et al. | SCNet: Scale-aware coupling-structure network for efficient video object detection | |
CN110110589A (zh) | 基于fpga并行计算的人脸分类方法 | |
Manojkumar et al. | Performance comparison of real time object detection techniques with YOLOv4 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |