CN113792660B - 基于改进YOLOv3网络的行人检测方法、系统、介质、设备 - Google Patents
基于改进YOLOv3网络的行人检测方法、系统、介质、设备 Download PDFInfo
- Publication number
- CN113792660B CN113792660B CN202111080800.5A CN202111080800A CN113792660B CN 113792660 B CN113792660 B CN 113792660B CN 202111080800 A CN202111080800 A CN 202111080800A CN 113792660 B CN113792660 B CN 113792660B
- Authority
- CN
- China
- Prior art keywords
- network
- feature
- convolution
- layer
- downsampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进YOLOv3网络的行人检测方法,包括:1:构建特征提取网络Darknet的残差网络、特征提取网络;2:构建特征金字塔网络,将特征提取网络获取的4个卷积特征与YOLO输出的4种尺度信息进行融合;使YOLO输出层输出4种尺度的特征图;3:YOLOv3算法得到4种尺度特征图上的预测候选框;4:利用k‑means算法对预测候选框进行聚类;5:按照尺度从小到大的顺序确定坐标点队列;对坐标点队列进行尺度缩放,根据缩放后的坐标点得到对应的缩放后的目标候选框;6:运用NMS方法选出特征图上目标候选框中具有最大IOU的目标候选框,根据选出的目标候选框进行行人目标预测。该方法结合线性缩放来处理行人目标先验框,提升了网络的特征描述能力。
Description
技术领域
本发明属于行人检测技术领域,具体涉及一种基于改进YOLOv3网络的行人检测方法、系统、介质、设备。
背景技术
随着科技快速的发展,行人检测在智能视频监控、车辆辅助驾驶、智能机器人等领域有着广泛的应用。行人检测作为智能设备的一种核心的技术,可以使机器设备获取图像信息,且对这些信息进行分析处理,帮助人们完成各种识别检测任务。
YOLOv3算法利用了特征金字塔网络(FPN)实现了三种尺度的预测,分别为13*13、26*26、52*52,其检测精度相比于YOLO、YOLOv2均有所提升。尽管目标检测算法在深度学习YOLOv3方法上已取得不错的成绩,但仍然存在以下问题:卷积神经网络中深层感受野大,经过多次下采样后,更难提取到行人特征,导致小尺寸行人目标存在漏检、误检等情况。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于改进YOLOv3网络的行人检测方法,该方法结合线性缩放来处理行人目标先验框,提升了网络的特征描述能力。最终改进的网络拥有更高的准确率,同时保持了原有算法的鲁棒性。
技术方案:本发明一方面提供了一种基于改进YOLOv3网络的行人检测方法,包括以下步骤:
步骤1:构建特征提取网络Darknet的残差网络,将残差网络基本单元中BN层的参数合并到其卷积层;根据构建的残差网络构建特征提取网络,记为特征提取网络Darknet-53;
步骤2:构建特征金字塔网络,将特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合;使YOLOv3算法中的YOLO输出层输出4种尺度的特征图,其中,4种尺度包括:13*13、26*26、52*52、104*104;
步骤3:YOLOv3算法得到4种尺度特征图上的预测候选框;
步骤4:利用k-means算法对4种尺度特征图上的预测候选框进行聚类,得到每种尺度特征图上的目标候选框;
步骤5:按照尺度从小到大的顺序将4种尺度特征图的目标候选框定位点排列为坐标点队列;对所述坐标点队列进行尺度缩放,缩放计算式为:
其中N为坐标点队列中坐标点的总数;m、n分别为缩小系数和放大系数,0<m<1,n>1;(xi,yi)和(x′i,y′i)分别为坐标点队列中第i个坐标点缩放前和缩放后的坐标值,i=1,2,…,N;
根据缩放后的坐标点得到对应的缩放后的目标候选框;
步骤6:在缩放后的目标候选框中运用NMS方法,选出特征图上目标候选框中具有最大IOU的目标候选框,根据选出的目标候选框进行行人目标预测。
所述步骤1中将残差网络基本单元中BN层的参数合并到其卷积层,具体为:
步骤11:卷积层和BN层融合前,Darknet-53提取网络中卷积层输出yconv为:
yconv=w*x+b
其中x、w、b分别为Darknet-53提取网络中卷积层的输入、权重和偏置;
步骤12:将yconv输入到BN层,BN层输出ybn为:
其中μ为BN层输入的均值,σ2为方差,γ为缩放因子,β为偏移量;ε为一个较小数;
步骤13:卷积层和BN层合并后,权重参数和偏置/>为:
步骤14:卷积层和BN层合并后,合并输出y′融合为:
其中为合并后卷积权重,/>为合并后卷积偏置。
步骤5中的目标候选框定位点为目标候选框的左上角、右上角和几何中心处的坐标点。
所述步骤2中,特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征的具体步骤为:
步骤21:使用尺寸为416*416的图像作为Darknet-53的网络输入,进行第一次下采样;
步骤22:进行第二次下采样,对第二次下采样结果使用2个步骤1中构建的残差网络进行特征提取,输出第一卷积特征为104*104*128;
步骤23:进行第三次下采样,对第三次下采样结果使用8个步骤1中构建的残差网络进行特征提取,输出第二卷积特征为52*52*256;
步骤24:进行第四次下采样,对第四次下采样结果使用通道为512的卷积进行特征提取,输出第三卷积特征为26*26*512;
步骤25:进行第五次下采样,对第五次下采样结果使用4个步骤1中构建的残差网络进行特征提取,输出第四卷积特征为13*13*1024。
所述步骤4具体包括:
步骤41、将所有的bounding box坐标提取出来;
步骤42、聚类分析bounding box的宽高大小;
步骤43、初始化k个anchor box,通过在所有的boundingboxes中随机选取k个值作为k个anchor boxes的初始值;
步骤44、计算每个boundingbox与每个anchorbox的iou值;
步骤45、分类操作:经过前一步的计算可以的到每一个bounding box对于每个anchor box的误差d(n,k),通过比较每个bounding box其对于每个anchor box的误差大小{d(i,1),d(i,2),...d(i,k)},选取最小误差的那个anchor box,将这个bounding box分类给它,对于每个bounding box都做这个操作,最后记录下来每个anchor box有哪些bounding box属于它;
步骤46、anchor box更新;
步骤47、重复步骤44-46,直到在步骤45中发现对于全部bounding box其所属的anchor box类与之前所属的anchor box类完全一样;
步骤48、计算anchor boxes精确度后锚框在目标区域内就是目标候选区域。
另一方面,本发明提供了一种基于改进YOLOv3网络的行人检测系统,包括:
残差网络构建模块1,用于构建特征提取网络Darknet的残差网络,将残差网络基本单元中BN层的参数合并到其卷积层;根据构建的残差网络构建特征提取网络,记为特征提取网络Darknet-53;
特征金字塔网络构建模块2,用于构建特征金字塔网络,将特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合;使YOLOv3算法中的YOLO输出层输出4种尺度的特征图,其中,4种尺度包括:13*13、26*26、52*52、104*104;
预测候选框获取模块3,用于采用YOLOv3算法得到4种尺度特征图上的预测候选框;
聚类模块4,用于利用k-means算法对4种尺度特征图上的预测候选框进行聚类,得到每种尺度特征图上的目标候选框;
目标候选框缩放模块5,用于对聚类后的目标候选框进行缩放,具体步骤为:
按照尺度从小到大的顺序将4种尺度特征图的目标候选框定位点排列为坐标点队列;对所述坐标点队列进行尺度缩放,缩放计算式为:
其中N为坐标点队列中坐标点的总数;m、n分别为缩小系数和放大系数,0<m<1,n>1;(xi,yi)和(x′i,y′i)分别为坐标点队列中第i个坐标点缩放前和缩放后的坐标值,i=1,2,…,N;
根据缩放后的坐标点得到对应的缩放后的目标候选框;
目标预测确定模块6,用于在缩放后的目标候选框中运用NMS方法,选出特征图上目标候选框中具有最大IOU的目标候选框,根据选出的目标候选框进行行人目标预测。
本发明还公开了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述行人检测方法。
本发明还公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述行人检测方法。
有益效果:与现有技术相比,本发明公开的基于改进YOLOv3网络的行人检测方法具有以下优点:
1、利用特征提取网络获取4种尺度的卷积特征,提高了对小尺度行人检测的精度;2、利用FPN将图像的深层特征信息与浅层特征信息充分融合,YOLOv3层输出由原来三种尺度特征图增加为四种尺度特征图,增强对大小行人目标与相互遮挡行人目标的检测效果,提高了行人检测的鲁棒性;3、对k-means算法聚类后的目标候选框进行线性尺度缩放,有效的发挥YOLOv3算法多尺度检测的优势,提高小尺寸行人目标检测准确率。
附图说明
图1为本发明公开行人检测方法流程图;
图2为残差网络级别单元示意图;
图3为特征提取网络Darket-53结构示意图;
图4为本发明改进的YOLOv3的网络结构示意图;
图5为线性缩放示意图;
图6为本发明公开的行人检测系统组成示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明公开了一种基于改进YOLOv3网络的行人检测方法,如图1所示,包括:
步骤1:构建特征提取网络Darknet的残差网络,将残差网络基本单元中BN层的参数合并到其卷积层;根据构建的残差网络构建特征提取网络,记为特征提取网络Darknet-53;
如图2所示,残差网络的基本单元CBL包括卷积层Conv和BN层,结果经激活函数Leaky Relu后输出;如图3所示,为特征提取网络Darket-53结构示意图。
为了增加网络前向推理速度,本实施例中,将残差网络基本单元中BN层的参数合并到其卷积层,具体步骤为:
步骤11:卷积层和BN层融合前,Darknet-53提取网络中卷积层输出yconv为:
yconv=w*x+b
其中x、w、b分别为Darknet-53提取网络中卷积层的输入、权重和偏置;
步骤12:将yconv输入到BN层,BN层输出ybn为:
其中μ为BN层输入的均值,σ2为方差,γ为缩放因子,β为偏移量;ε为一个较小数;
步骤13:卷积层和BN层合并后,权重参数和偏置/>为:
步骤14:卷积层和BN层合并后,合并输出y′融合为:
其中为合并后卷积权重,/>为合并后卷积偏置。
步骤2:构建特征金字塔网络,将特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合;使YOLOv3算法中的YOLO输出层输出4种尺度的特征图,其中,4种尺度包括:13*13、26*26、52*52、104*104;
特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征的具体步骤为:
步骤A21:使用尺寸为416*416的图像作为Darknet-53的网络输入,进行第一次下采样;
步骤A22:进行第二次下采样,对第二次下采样结果使用2个步骤1中构建的残差网络进行特征提取,输出第一卷积特征为104*104*128;
步骤A23:进行第三次下采样,对第三次下采样结果使用8个步骤1中构建的残差网络进行特征提取,输出第二卷积特征为52*52*256;
步骤A24:进行第四次下采样,对第四次下采样结果使用通道为512的卷积进行特征提取,输出第三卷积特征为26*26*512;
步骤A25:进行第五次下采样,对第五次下采样结果使用4个步骤1中构建的残差网络进行特征提取,输出第四卷积特征为13*13*1024。
步骤A21-A25获得的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合,具体包括:
步骤B21、特征提取网络Darknet-53经过五次下采样获取图像的4个卷积特征,将第4卷积特征经过卷积获得13*13尺度的特征图;
构建特征金字塔网络,将13*13尺度的特征图通过特征金字塔网络与第三卷积特征进行特征融合,获得26*26尺度的特征图;
步骤B22、将26*26尺度的特征图通过特征金字塔网络与第二卷积特征进行特征融合,获得52*52尺度的特征图;
步骤B23、将52*52尺度的特征图通过特征金字塔网络与第一卷积特征进行特征融合,获得104*104尺度的特征图.
通过上述步骤中融合浅层信息与深层特征信息,增强了图像金字塔的表征能力,得到的13*13和26*26特征图适合图像中大尺寸行人目标的检测,得到的26*26和52*52特征图适合图像中大尺度行人目标检测,得到的104*104特征图适合图像中小尺寸行人目标的检测,降低了行人漏检率。
步骤3:YOLOv3算法得到4种尺度特征图上的预测候选框。
步骤1-3实现了对YOLOv3算法的改进,如图4所示。利用FPN将图像的深层特征信息与浅层特征信息充分融合,将YOLOv3层输出由原来三种尺度特征图增加为四种尺度特征图,增强了对大小行人目标与相互遮挡行人目标的检测效果,提高了行人检测的鲁棒性。
步骤4:利用k-means算法对4种尺度特征图上的预测候选框进行聚类,得到每种尺度特征图上的目标候选框;具体包括:
步骤41、将所有的bounding box坐标提取出来;
步骤42、聚类分析bounding box的宽高大小;
步骤43、初始化k个anchor box,通过在所有的boundingboxes中随机选取k个值作为k个anchor boxes的初始值;本实施例中,取k=3;
步骤44、计算每个boundingbox与每个anchorbox的iou值;
步骤45、分类操作:经过前一步的计算可以的到每一个bounding box对于每个anchor box的误差d(n,k),通过比较每个bounding box其对于每个anchor box的误差大小{d(i,1),d(i,2),...d(i,k)},选取最小误差的那个anchor box,将这个bounding box分类给它,对于每个bounding box都做这个操作,最后记录下来每个anchor box有哪些bounding box属于它;
步骤46、anchor box更新;
步骤47、重复步骤44-46,直到在步骤45中发现对于全部bounding box其所属的anchor box类与之前所属的anchor box类完全一样;
步骤48、计算anchor boxes精确度后锚框在目标区域内就是目标候选区域。
步骤5:按照尺度从小到大的顺序将4种尺度特征图的目标候选框定位点排列为坐标点队列;
本实施例中目标候选框定位点为目标候选框的左上角、右上角和几何中心处的坐标点,根据这三个点即可确定目标候选框。
对所述坐标点队列进行尺度缩放,缩放计算式为:
其中N为坐标点队列中坐标点的总数;m、n分别为缩小系数和放大系数,0<m<1,n>1;(xi,yi)和(x′i,y′i)分别为坐标点队列中第i个坐标点缩放前和缩放后的坐标值,i=1,2,…,N;
考虑到行人数据集中的目标尺寸大小比较集中,没有充分的发挥出YOLOv3多尺度的价值,因此将K-means算法聚类产生的候选框乘以一定比例系数,本实施例中m=0.3,n=1.2,使之大的尺度更大,小的尺度更小,提高对小尺寸行人检测的准确率。
根据缩放后的坐标点得到对应的缩放后的目标候选框;线性缩放如图5所示。
步骤6:在缩放后的目标候选框中运用NMS方法,选出特征图上目标候选框中具有最大IOU的目标候选框,根据选出的目标候选框进行行人目标预测。
具体如下:
1)将提取的4个尺度特征图送入到YOLO网络中进行检测,本发明设置的最大迭代次数为4000次,batch_size设置为64,subdivisions设置为16,decay为0.0005,momentum为0.9,初始化学习率为0.001,根据损失下降的趋势,可以适当调节学习率和直至训练数据集输出的损失函数值小于等于阈值或达到设置的最大迭代次数时停止训练,得到训练好的改进网络。
2)采用非极大值抑制法选取最佳目标边界框,通过按照置信度的数值对候选框进行排列,计算候选框与真实目标框的IOU值生成IOU队列,选出IOU最大值的边界框后生成预测框,最后将预测框坐标转换到原图上输出预测结果。
实现上述行人检测方法的系统如图6所示,
残差网络构建模块1,用于构建特征提取网络Darknet的残差网络,将残差网络基本单元中BN层的参数合并到其卷积层;根据构建的残差网络构建特征提取网络,记为特征提取网络Darknet-53;
特征金字塔网络构建模块2,用于构建特征金字塔网络,将特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合;使YOLOv3算法中的YOLO输出层输出4种尺度的特征图,其中,4种尺度包括:13*13、26*26、52*52、104*104;
预测候选框获取模块3,用于采用YOLOv3算法得到4种尺度特征图上的预测候选框;
聚类模块4,用于利用k-means算法对4种尺度特征图上的预测候选框进行聚类,得到每种尺度特征图上的目标候选框;
目标候选框缩放模块5,用于对聚类后的目标候选框进行缩放,具体步骤为:
按照尺度从小到大的顺序将4种尺度特征图的目标候选框定位点排列为坐标点队列;对所述坐标点队列进行尺度缩放,缩放计算式为:
其中N为坐标点队列中坐标点的总数;m、n分别为缩小系数和放大系数,0<m<1,n>1;(xi,yi)和(x′i,y′i)分别为坐标点队列中第i个坐标点缩放前和缩放后的坐标值,i=1,2,…,N;
根据缩放后的坐标点得到对应的缩放后的目标候选框;
目标预测确定模块6,用于在缩放后的目标候选框中运用NMS方法,选出特征图上目标候选框中具有最大IOU的目标候选框,根据选出的目标候选框进行行人目标预测。
本发明还公开了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述行人检测方法。
本发明还公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述行人检测方法。为了提高行人检测系统检测速度,本实施例中的计算机设备配有NVIDIA GTX 1080Ti的GPU计算机,Ubuntu 16.04系统,可以实现实时检测。
以上实施例仅为说明本发明的技术思想,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (4)
1.一种基于改进YOLOv3网络的行人检测方法,其特征在于,包括以下步骤:
步骤1:构建特征提取网络Darknet的残差网络,将残差网络基本单元中BN层的参数合并到其卷积层;根据构建的残差网络构建特征提取网络,记为特征提取网络Darknet-53;将残差网络基本单元中BN层的参数合并到其卷积层,具体为:
步骤11:卷积层和BN层融合前,Darknet-53提取网络中卷积层输出yconv为:
yconv=w*x+b
其中x、w、b分别为Darknet-53提取网络中卷积层的输入、权重和偏置;
步骤12:将yconv输入到BN层,BN层输出ybn为:
其中,μ为BN层输入的均值,σ2为方差,γ为缩放因子,β为偏移量;ε为一个较小数;
步骤13:卷积层和BN层合并后,权重参数和偏置/>为:
步骤14:卷积层和BN层合并后,合并输出y′融合为:
其中为合并后卷积权重,/>为合并后卷积偏置;
步骤2:构建特征金字塔网络,将特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合;使YOLOv3算法中的YOLO输出层输出4种尺度的特征图,其中,4种尺度包括:13*13、26*26、52*52、104*104;特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征的具体步骤为:
步骤A21:使用尺寸为416*416的图像作为Darknet-53的网络输入,进行第一次下采样;
步骤A22:进行第二次下采样,对第二次下采样结果使用2个步骤1中构建的残差网络进行特征提取,输出第一卷积特征为104*104*128;
步骤A23:进行第三次下采样,对第三次下采样结果使用8个步骤1中构建的残差网络进行特征提取,输出第二卷积特征为52*52*256;
步骤A24:进行第四次下采样,对第四次下采样结果使用通道为512的卷积进行特征提取,输出第三卷积特征为26*26*512;
步骤A25:进行第五次下采样,对第五次下采样结果使用4个步骤1中构建的残差网络进行特征提取,输出第四卷积特征为13*13*1024;
步骤3:YOLOv3算法得到4种尺度特征图上的预测候选框;
步骤4:利用k-means算法对4种尺度特征图上的预测候选框进行聚类,得到每种尺度特征图上的目标候选框;具体包括:
步骤41、将所有的bounding box坐标提取出来;
步骤42、聚类分析bounding box的宽高大小;
步骤43、初始化k个anchor box,通过在所有的boundingboxes中随机选取k个值作为k个anchor boxes的初始值;k=3;
步骤44、计算每个boundingbox与每个anchorbox的iou值;
步骤45、分类操作:经过前一步的计算可以的到每一个bounding box对于每个anchorbox的误差d(n,k),通过比较每个bounding box其对于每个anchor box的误差大小{d(i,1),d(i,2),...d(i,k)},选取最小误差的那个anchor box,将这个bounding box分类给它,对于每个bounding box都做这个操作,最后记录下来每个anchor box有哪些bounding box属于它;
步骤46、anchor box更新;
步骤47、重复步骤44-46,直到在步骤45中发现对于全部bounding box其所属的anchorbox类与之前所属的anchor box类完全一样;
步骤48、计算anchor boxes精确度后锚框在目标区域内就是目标候选区域;
步骤5:按照尺度从小到大的顺序将4种尺度特征图的目标候选框定位点排列为坐标点队列;对所述坐标点队列进行尺度缩放,缩放计算式为:
其中N为坐标点队列中坐标点的总数;m、n分别为缩小系数和放大系数;
0<m<1,n>1;(xi,yi)和(x′i,y′i)分别为坐标点队列中第i个坐标点缩放前和缩放后的坐标值,i=1,2,…,N;
根据缩放后的坐标点得到对应的缩放后的目标候选框;目标候选框定位点为目标候选框的左上角、右上角和几何中心处的坐标点;
步骤6:在缩放后的目标候选框中运用NMS方法,选出特征图上目标候选框中具有最大IOU的目标候选框,根据选出的目标候选框进行行人目标预测。
2.一种基于改进YOLOv3网络的行人检测系统,其特征在于,包括:
残差网络构建模块(1),用于构建特征提取网络Darknet的残差网络,将残差网络基本单元中BN层的参数合并到其卷积层;根据构建的残差网络构建特征提取网络,记为特征提取网络Darknet-53;将残差网络基本单元中BN层的参数合并到其卷积层,具体为:
步骤11:卷积层和BN层融合前,Darknet-53提取网络中卷积层输出yconv为:
yconv=w*x+b
其中x、w、b分别为Darknet-53提取网络中卷积层的输入、权重和偏置;
步骤12:将yconv输入到BN层,BN层输出ybn为:
其中,μ为BN层输入的均值,σ2为方差,γ为缩放因子,β为偏移量;ε为一个较小数;
步骤13:卷积层和BN层合并后,权重参数和偏置/>为:
步骤14:卷积层和BN层合并后,合并输出y′融合为:
其中为合并后卷积权重,/>为合并后卷积偏置;
特征金字塔网络构建模块(2),用于构建特征金字塔网络,将特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征与YOLO输出13*13、26*26、52*52、104*104尺度信息进行融合;使YOLOv3算法中的YOLO输出层输出4种尺度的特征图,其中,4种尺度包括:13*13、26*26、52*52、104*104;特征提取网络Darknet-53经过5次下采样获取图像的4个卷积特征的具体步骤为:
步骤A21:使用尺寸为416*416的图像作为Darknet-53的网络输入,进行第一次下采样;
步骤A22:进行第二次下采样,对第二次下采样结果使用2个残差网络构建模块中构建的残差网络进行特征提取,输出第一卷积特征为104*104*128;
步骤A23:进行第三次下采样,对第三次下采样结果使用8个残差网络构建模块中构建的残差网络进行特征提取,输出第二卷积特征为52*52*256;
步骤A24:进行第四次下采样,对第四次下采样结果使用通道为512的卷积进行特征提取,输出第三卷积特征为26*26*512;
步骤A25:进行第五次下采样,对第五次下采样结果使用4个残差网络构建模块中构建的残差网络进行特征提取,输出第四卷积特征为13*13*1024;
预测候选框获取模块(3),用于采用YOLOv3算法得到4种尺度特征图上的预测候选框;
聚类模块(4),用于利用k-means算法对4种尺度特征图上的预测候选框进行聚类,得到每种尺度特征图上的目标候选框;具体包括:
步骤41、将所有的bounding box坐标提取出来;
步骤42、聚类分析bounding box的宽高大小;
步骤43、初始化k个anchor box,通过在所有的boundingboxes中随机选取k个值作为k个anchor boxes的初始值;k=3;
步骤44、计算每个boundingbox与每个anchorbox的iou值;
步骤45、分类操作:经过前一步的计算可以的到每一个bounding box对于每个anchorbox的误差d(n,k),通过比较每个bounding box其对于每个anchor box的误差大小{d(i,1),d(i,2),...d(i,k)},选取最小误差的那个anchor box,将这个bounding box分类给它,对于每个bounding box都做这个操作,最后记录下来每个anchor box有哪些bounding box属于它;
步骤46、anchor box更新;
步骤47、重复步骤44-46,直到在步骤45中发现对于全部bounding box其所属的anchorbox类与之前所属的anchor box类完全一样;
步骤48、计算anchor boxes精确度后锚框在目标区域内就是目标候选区域;
目标候选框缩放模块(5),用于对聚类后的目标候选框进行缩放,具体步骤为:
按照尺度从小到大的顺序将4种尺度特征图的目标候选框定位点排列为坐标点队列;对所述坐标点队列进行尺度缩放,缩放计算式为:
其中N为坐标点队列中坐标点的总数;m、n分别为缩小系数和放大系数,0<m<1,n>1;(xi,yi)和(x′i,y′i)分别为坐标点队列中第i个坐标点缩放前和缩放后的坐标值,i=1,2,…,N;
根据缩放后的坐标点得到对应的缩放后的目标候选框;
目标预测确定模块(6),用于在缩放后的目标候选框中运用NMS方法,选出特征图上目标候选框中具有最大IOU的目标候选框,根据选出的目标候选框进行行人目标预测。
3.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1所述的行人检测方法。
4.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1所述的行人检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111080800.5A CN113792660B (zh) | 2021-09-15 | 2021-09-15 | 基于改进YOLOv3网络的行人检测方法、系统、介质、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111080800.5A CN113792660B (zh) | 2021-09-15 | 2021-09-15 | 基于改进YOLOv3网络的行人检测方法、系统、介质、设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792660A CN113792660A (zh) | 2021-12-14 |
CN113792660B true CN113792660B (zh) | 2024-03-01 |
Family
ID=79183544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111080800.5A Active CN113792660B (zh) | 2021-09-15 | 2021-09-15 | 基于改进YOLOv3网络的行人检测方法、系统、介质、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792660B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511802A (zh) * | 2021-12-31 | 2022-05-17 | 苏州玖合智能科技有限公司 | 二维卷积网络用于人体动作检测的优化方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284669A (zh) * | 2018-08-01 | 2019-01-29 | 辽宁工业大学 | 基于Mask RCNN的行人检测方法 |
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
CN109815886A (zh) * | 2019-01-21 | 2019-05-28 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
CN110533640A (zh) * | 2019-08-15 | 2019-12-03 | 北京交通大学 | 基于改进YOLOv3网络模型的轨道线路病害辨识方法 |
KR20200046178A (ko) * | 2018-10-18 | 2020-05-07 | 주식회사 케이티 | 머리 영역 검출 방법 및 머리 영역 검출 장치 |
CN111222474A (zh) * | 2020-01-09 | 2020-06-02 | 电子科技大学 | 一种任意尺度的高分辨率图像小目标检测方法 |
CN111563458A (zh) * | 2020-05-09 | 2020-08-21 | 北京航空航天大学 | 基于YOLOv3和OpenCV的目标检测与定位方法 |
CN111723743A (zh) * | 2020-06-19 | 2020-09-29 | 北京邮电大学 | 一种小尺度行人快速检测方法 |
CN112507861A (zh) * | 2020-12-04 | 2021-03-16 | 江苏科技大学 | 一种多层卷积特征融合的行人检测方法 |
CN112613387A (zh) * | 2020-12-18 | 2021-04-06 | 五邑大学 | 一种基于YOLOv3的交通标志检测方法 |
WO2021147817A1 (zh) * | 2020-01-21 | 2021-07-29 | 第四范式(北京)技术有限公司 | 文本定位方法和系统以及文本定位模型训练方法和系统 |
-
2021
- 2021-09-15 CN CN202111080800.5A patent/CN113792660B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284669A (zh) * | 2018-08-01 | 2019-01-29 | 辽宁工业大学 | 基于Mask RCNN的行人检测方法 |
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
KR20200046178A (ko) * | 2018-10-18 | 2020-05-07 | 주식회사 케이티 | 머리 영역 검출 방법 및 머리 영역 검출 장치 |
CN109815886A (zh) * | 2019-01-21 | 2019-05-28 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
CN110533640A (zh) * | 2019-08-15 | 2019-12-03 | 北京交通大学 | 基于改进YOLOv3网络模型的轨道线路病害辨识方法 |
CN111222474A (zh) * | 2020-01-09 | 2020-06-02 | 电子科技大学 | 一种任意尺度的高分辨率图像小目标检测方法 |
WO2021147817A1 (zh) * | 2020-01-21 | 2021-07-29 | 第四范式(北京)技术有限公司 | 文本定位方法和系统以及文本定位模型训练方法和系统 |
CN111563458A (zh) * | 2020-05-09 | 2020-08-21 | 北京航空航天大学 | 基于YOLOv3和OpenCV的目标检测与定位方法 |
CN111723743A (zh) * | 2020-06-19 | 2020-09-29 | 北京邮电大学 | 一种小尺度行人快速检测方法 |
CN112507861A (zh) * | 2020-12-04 | 2021-03-16 | 江苏科技大学 | 一种多层卷积特征融合的行人检测方法 |
CN112613387A (zh) * | 2020-12-18 | 2021-04-06 | 五邑大学 | 一种基于YOLOv3的交通标志检测方法 |
Non-Patent Citations (3)
Title |
---|
UAV-YOLO:Small Object Detection on Unmanned Aerial Vehicle Perspective;Mingjie Liu et.;《Sensors》;全文 * |
一种基于改进YOLOv3的遥感影像飞机目标检测算法;袁铭阳;姜挺;王鑫;;测绘科学技术学报(第06期);全文 * |
基于YOLOv3的轻量级目标检测网络;齐榕;贾瑞生;徐志峰;毛其超;;计算机应用与软件(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113792660A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563372B (zh) | 一种基于深度学习ssd框架的车牌定位方法 | |
CN111626128B (zh) | 一种基于改进YOLOv3的果园环境下行人检测方法 | |
CN109903331B (zh) | 一种基于rgb-d相机的卷积神经网络目标检测方法 | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
CN110796057A (zh) | 行人重识别方法、装置及计算机设备 | |
CN104680559B (zh) | 基于运动行为模式的多视角室内行人跟踪方法 | |
CN112364931B (zh) | 一种基于元特征和权重调整的少样本目标检测方法及网络系统 | |
CN111709285A (zh) | 一种基于无人机的疫情防护监控方法、装置和存储介质 | |
CN111783576A (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
JP2016062610A (ja) | 特徴モデル生成方法及び特徴モデル生成装置 | |
CN113052185A (zh) | 一种基于Faster R-CNN的小样本目标检测方法 | |
CN112396036B (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN116363526B (zh) | MROCNet模型构建与多源遥感影像变化检测方法及系统 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 | |
CN113762009A (zh) | 一种基于多尺度特征融合及双注意力机制的人群计数方法 | |
CN104778699A (zh) | 一种自适应对象特征的跟踪方法 | |
CN114529583B (zh) | 基于残差回归网络的电力设备跟踪方法及跟踪系统 | |
Alsanad et al. | Real-time fuel truck detection algorithm based on deep convolutional neural network | |
CN113792660B (zh) | 基于改进YOLOv3网络的行人检测方法、系统、介质、设备 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
CN111339967A (zh) | 一种基于多视域图卷积网络的行人检测方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN113327269A (zh) | 一种无标记颈椎运动检测方法 | |
CN113989612A (zh) | 基于注意力及生成对抗网络的遥感影像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |