CN114170627A - 基于改进的Faster RCNN的行人检测方法 - Google Patents

基于改进的Faster RCNN的行人检测方法 Download PDF

Info

Publication number
CN114170627A
CN114170627A CN202111402477.9A CN202111402477A CN114170627A CN 114170627 A CN114170627 A CN 114170627A CN 202111402477 A CN202111402477 A CN 202111402477A CN 114170627 A CN114170627 A CN 114170627A
Authority
CN
China
Prior art keywords
network
frame
box
candidate
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111402477.9A
Other languages
English (en)
Inventor
赵志强
马培红
黑新宏
赵钦
何文娟
马召熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202111402477.9A priority Critical patent/CN114170627A/zh
Publication of CN114170627A publication Critical patent/CN114170627A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于改进的Faster RCNN的行人检测方法,首先通过ResNet‑50神经网络提取样本图像的特征图,然后将所得特征图输入RPN模型,并修改了RPN模型的边框回归损失函数,生成候选框;最后将特征图和候选框发送到ROI Head模型,得到目标的类别和定位。本发明基于CNN特征,不仅可以处理任意尺度的图像,而且检测精度较高。相比已公开发明专利,本发明所公开的方法并不需要对网络进行特殊的设计,只需修改RPN模型的边框回归损失函数,充分利用了已有的可用数据,采用通用的网络结构仍旧可以达到不错的实验效果,充分发挥了深度卷积网络的优势,具有设计简单,鲁棒性较佳,检测准确率高,漏检率低的优点。

Description

基于改进的Faster RCNN的行人检测方法
技术领域
本发明属于图像处理与计算机视觉技术领域,涉及基于改进的Faster RCNN的行人检测方法。
背景技术
目标检测是最重要的计算机视觉任务之一,处理在杂乱的现实场景或输入图像中某一类物体的视觉实例的检测。由于其广泛的应用,目标检测近年来引起了人们极大的关注。目标检测主要包括两项任务:目标定位和目标分类。对象定位通过在一个或多个对象实例周围绘制一个边界框来确定其位置和比例。分类是指为该对象分配类标签的过程。在检测方面,目标检测系统从一组训练数据中构建模型,在泛化方面,需要提供大量的训练数据集。
目前,智能监控摄像头的普及与图像处理技术的发展为智能监控提供了很好的发展前提。行人流量统计在智能监控中运用广泛,具体可运用于医院、施工现场、学校、商场等等,准确的流量统计可以帮助工作人员进行合理的资源配置,相关部门可以根据行人流量曲线最大限度地预防公共安全事件的发生,及早拟定应急预案。行人流量统计的基础就是行人检测,通过统计行人检测的结果绘出行人流量曲线。
行人检测作为目标检测的具体应用,具体过程为:给出输入图像或者视频帧,判断图像中是否有行人,有的话框出行人位。
近十年来,人工智能在人类生活的各个领域都产生了影响,而深度学习就是利用人工神经网络进行表示学习的人工智能领域。深度学习的应用在目标检测领域占领了主要地位,目前,主流的基于深度学习的目标检测算法可分为两种,基于候选框的Two-Stage算法和基于回归的One-Stage算法。基于候选框的Two-Stage算法主要包括RCNN、Fast RCNN、Faster RCNN和Mask RCNN等;基于回归的One-Stage算法主要包括Yolo系列、SSD等。Two-Stage目标检测算法由于事先获取候选框,能够充分学习到目标的特征,其检测精度和定位精度高,但是网络结构复杂,计算量大,检测速度较慢,不适合用于实时性要求较高的应用场景。One-Stage目标检测算法结构简单,可直接对输入图像进行处理,检测速度快,可以应用于实时性检测,但One-Stage算法对小目标、多目标物体检测精度较低。
发明内容
本发明的目的是提供基于改进的Faster RCNN的行人检测方法,传统的FasterRCNN网络RPN模型的边框回归损失只考量了锚盒与真值框坐标值之间的差距,没有考虑它们之间的重叠情况,从而导致Faster RCNN检测目标精度不高,为了克服这一缺点,本发明提供基于改进的Faster RCNN行人检测方法,提高Faster RCNN行人检测的准确率。
本发明所采用的技术方案是,基于改进的Faster RCNN的行人检测方法,首先通过ResNet-50神经网络提取样本图像的特征图,然后将所得特征图输入RPN模型,并修改了RPN模型的边框回归损失函数,生成候选框;最后将特征图和候选框发送到ROI Head模型,得到目标的类别和定位;具体操作步骤如下:
步骤1:对ResNet-50网络进行预训练,提取行人图像的特征图;
步骤2:利用RPN模型在图像的特征图上生成候选框,得到1:1比例的正负样本;将所述正负样本作为标签去训练RPN模型,得到候选框中目标的类别和初步定位信息,所述类别包括前景和背景;
步骤3:利用RPN模型得到候选框中的目标的类别、初步定位信息和ResNet-50网络得到的特征图,对随机初始化参数得到的ROI Head模型进行训练,得到目标的类别和定位。
本发明的特点还在于,
步骤1具体如下:
采用VOC2007数据集对ResNet-50神经网络进行预训练,得到网络权重,将预训练好的权重加载到Faster RCNN的ResNet-50网络,得到预训练后的ResNet-50网络;之后的训练过程冻结ResNet-50网络部分,即ResNet-50网络的参数不进行反向传播,不进行梯度更新;将图像输入预训练好的ResNet-50网络,得到行人图像的特征图。
步骤2生成候选框的方法具体如下:
设定RPN模型初始化信息,所述初始化信息包括锚盒的尺寸、比例;RPN模型的锚盒尺寸为:8×8、16×16、32×32,其中8×8、16×16适用于小的行人检测,32×32适用于大的行人检测;这三种尺寸每种尺寸按1:1,1:2,2:1的长宽比例缩放,共9种尺寸作为RPN模型需要评估的候选框;训练RPN模型的目标就是对特征图中的每个锚点对应的9个锚盒,预测其是否是一个存在目标的框;框与真值框的交并比IoU>0.7就认为这个框是一个候选框,反之,则不是;
将步骤1中得到的特征图输入RPN模型,改善RPN模型的边框回归损失,以提高检测识别精度,最后生成候选框。
训练RPN模型的具体方法如下:
将一个二进制分类标签(二进制分类标签为{0,1})分配给每个锚盒,其中0表示负样本,1表示正样本;如果一个锚盒跟所有真值框之一的交并比IoU大于0.7,则称之为正样本;如果一个锚盒跟所有真值框的交并比IoU小于0.3,则称之为负样本;剩下的框既不是正样本也不是负样本,不用于最终的训练;将真值框与回归输出的候选框的定位做比较,用梯度下降法来训练RPN模型;
训练RPN模型的损失函数定义如下:
Figure BDA0003369382430000041
其中,一个训练批次mini-batch是由一幅图像中最终选取的所有正负样本组成,其中正负样本的比例为1:1;i表示一个mini-batch中第i个锚点,pi表示第i个锚点对应的锚盒是目标的概率,值在[0,1]之间;正样本的
Figure BDA0003369382430000042
为1,负样本的
Figure BDA0003369382430000043
为0;bi表示锚盒的定位信息,
Figure BDA0003369382430000044
是分类损失函数,
Figure BDA0003369382430000045
是边框回归损失函数;
Figure BDA0003369382430000046
表示只对正样本进行边框回归操作;分类和回归操作分别输出候选框是目标的概率pi和候选框的定位信息bi,这两项分别由Ncls和Nreg以及平衡权重λ归一化,Ncls为mini-batch的大小,Nreg为锚点的数量;锚点是ResNet-50网络输出的特征图上的一个像素点;锚盒是每一个锚点对应的候选框;
分类损失函数
Figure BDA0003369382430000047
定义如下:
Figure BDA0003369382430000048
边框回归损失函数
Figure BDA0003369382430000049
定义如下:
Figure BDA00033693824300000410
其中,GIoU损失函数为:
Figure BDA00033693824300000411
GIoU loss(A,B)=1-GIoU(A,B) (6)
其中,
Figure BDA00033693824300000412
A,B代表两个边框,C代表能同时包围A,B的最小边框。
步骤3具体如下:
将ResNet-50网络输出的特征图和RPN模型输出的候选框发送到ROI Head网络,ROI Head网络包括感兴趣区域ROI池化层,完全连接FC层,一个边框回归器和Softmax分类器;感兴趣区域ROI池化层用于将不同大小的候选框转换为固定大小的候选框,以传进完全连接FC层;边框回归器用于确定候选框的定位;Softmax分类器用于确定候选框中目标的具体类别。
本发明的有益效果:
本发明提供的基于改进的Faster RCNN的行人检测方法采用当前非常流行高效的Faster RCNN框架并加以改进来完成行人检测工作,其基于CNN特征,不仅可以处理任意尺度的图像,而且检测精度较高。相比已公开发明专利,本发明所公开的方法并不需要对网络进行特殊的设计,只需修改RPN模型的边框回归损失函数,充分利用了已有的可用数据,采用通用的网络结构仍旧可以达到不错的实验效果,充分发挥了深度卷积网络的优势,具有设计简单,鲁棒性较佳,检测准确率高,漏检率低的优点。
附图说明
图1是本发明的基于改进的Faster RCNN的行人检测方法的具体流程图;
图2为本发明所公开的基于改进的Faster RCNN的行人检测方法应用于实际场景的检测效果图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用与限制本发明的范围,在阅读本发明后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明基于深度学习的框架PyTorch实现,基于改进的Faster RCNN的行人检测方法,包括以下三个步骤:
S1、对ResNet-50网络进行预训练,提取行人图像的特征图;
S2、利用RPN模型在图像的特征图上生成候选框,得到1:1比例的正负样本,将所述正负样本作为标签训练RPN模型,得到候选框中目标的类别和初步定位信息,所述类别包括前景和背景;
S3、利用RPN模型得到候选框中的目标的类别、初步定位和ResNet-50网络得到特征图,对随机初始化参数得到的ROI Head模型进行训练,得到目标的类别和定位。
进一步的,所述步骤S1的具体步骤如下:
S11、准备好VOC2007数据集对ResNet-50神经网络预训练好的网络权重,将预训练好的权重加载到Faster RCNN的ResNet-50网络,得到预训练后的ResNet-50网络。之后的训练过程冻结ResNet-50网络部分,即ResNet-50网络的参数不进行反向传播,没有梯度更新。图像输入预训练好的ResNet-50网络,得到特征图。
进一步的,所述步骤S2的具体步骤如下:
S21、设定RPN模型锚盒的尺寸,比例等初始化信息。RPN模型的锚盒尺寸为:8×8、16×16、32×32,其中8×8、16×16适用于小的行人检测,32×32适用于大的行人检测;这三种尺寸每种尺寸按1:1,1:2,2:1的长宽比例缩放,共9种尺寸作为RPN模型需要评估的候选框;训练RPN模型的目标就是对特征图中的每个锚点对应的9个锚盒,预测其是否是一个存在目标的框;框与真值框的交并比IoU>0.7就认为这个框是一个候选框,反之,则不是。将步骤S11中得到的特征图输入RPN模型,改善RPN模型的边框回归损失,以提高检测识别精度,最后生成候选框。
S22、训练RPN:为了训练RPN,将一个二进制分类标签(二进制分类标签为{0,1})分配给每个锚盒,其中0表示负样本,1表示正样本;如果一个锚盒跟所有真值框之一的交并比IoU大于0.7,则称之为正样本;如果一个锚盒跟所有真值框的交并比IoU小于0.3,则称之为负样本;剩下的框既不是正样本也不是负样本,不用于最终的训练;将真值框与回归输出的候选框的定位做比较,用梯度下降法来训练RPN模型。
训练RPN的损失函数定义如下:
Figure BDA0003369382430000071
其中,一个训练批次mini-batch是由一幅图像中最终选取的所有正负样本组成的,其中正负样本的比例为1:1,i表示一个mini-batch中第i个锚点,pi表示第i个锚点对应的锚盒是目标的概率,值在[0,1]之间;正样本的
Figure BDA0003369382430000072
为1,负样本的
Figure BDA0003369382430000073
为0;bi表示锚盒的定位信息,
Figure BDA0003369382430000074
是分类损失函数,
Figure BDA0003369382430000075
是边框回归损失函数;
Figure BDA0003369382430000076
表示只对正样本进行边框回归操作;分类和回归操作分别输出候选框是目标的概率pi和候选框的定位信息bi,这两项分别由Ncls和Nreg以及平衡权重λ归一化,Ncls为mini-batch的大小,Nreg为锚点的数量。
分类损失函数
Figure BDA0003369382430000077
定义如下:
Figure BDA0003369382430000078
边框回归损失函数
Figure BDA0003369382430000079
定义如下:
Figure BDA00033693824300000710
其中,GIoU损失函数为:
Figure BDA0003369382430000081
Figure BDA0003369382430000082
GIoU loss(A,B)=1-GIoU(A,B)
其中,A,B代表两个边框,C代表能同时包围A,B的最小边框。IoU(A,B)表示A,B的交并比,衡量了它们的重叠程度,IoU的值在[0,1]之间,当IoU越接近1时,说明A,B之间重叠部分越大;当IoU越接近0时,说明A,B之间重叠部分越小或几乎没有重叠部分。当IoU(A,B)=0,即A,B之间没有重叠部分时,用IoU不能表现出它们之间是如何排列的,即IoU不能体现出它们是离得近还是离得远,就引出广义的交并比GIoU,GIoU(A,B)表示A,B的广义的交并比,GIoU的值在[-1,1]之间,且GIoU是IoU的下限,即GIoU≤IoU。当A,B越靠近,形状越相似,则GIoU越接近IoU,即
Figure BDA0003369382430000083
只有当A,B完全重合时,即|A∪B|=|A∩B|,此时GIoU(A,B)=IoU(A,B)=1;当A,B的交集所占面积与C所占面积之比趋于0时,GIoU趋于-1,即
Figure BDA0003369382430000084
可以看出,GIoU保持了IoU的主要性质并避免了loU的缺点,即使A,B没有重叠时,GIoU依然可以表现它们的分布情况,能更好描述它们的重合度。
改进的Faster RCNN检测网络RPN模型的边框回归损失函数
Figure BDA0003369382430000085
采用广义的交并比损失GIoU loss,将交并比IoU加入了RPN训练的约束条件,这样训练RPN的目标就是找到与真值框交并比IoU最大的候选框,而不仅仅是只考虑坐标值之间的差异,这样提高了检测精度。
S31、根据训练数据集类别数设定Faster RCNN检测网络的输出单元数目,并初始化检测网络的权重参数。将ResNet-50网络输出的特征图和RPN模型输出的候选框发送到ROI Head网络,ROI Head网络包括感兴趣区域ROI池化层,完全连接FC层,一个边框回归器和Softmax分类器;感兴趣区域ROI池化层用于将不同大小的候选框转换为固定大小的候选框,以传进完全连接FC层;边框回归器用于确定候选框的定位;Softmax分类器用于确定候选框中目标的具体类别。
至此,本发明所提供的一种基于改进的Faster RCNN的行人检测方法的训练阶段完成。
具体的:本发明涉及到的相关定义如下:
定义1(锚点),锚点是ResNet-50网络输出的特征图上的一个像素点。
定义2(锚盒),锚盒是每一个锚点对应的候选框。在本发明中锚盒有3种尺度:8×8,16×16,32×32,3种尺寸:1:1,1:2,2:1,所以一个锚点对应9个锚盒。
定义3(真值框),真值框是图像数据集中,人工标注的目标框。
下面对基于改进的Faster RCNN的行人检测方法的网络结构进行说明:
①对ResNet-50网络进行预训练,提取行人图像的特征图:准备好VOC2007数据集对ResNet-50网络预训练好的网络权重,将预训练好的权重加载到Faster RCNN的ResNet-50网络,得到预训练后的ResNet-50网络。之后的训练过程冻结ResNet-50网络部分,即ResNet-50网络的参数不进行反向传播,没有梯度更新。图像输入预训练好的ResNet-50网络,得到特征图。
②利用RPN模型在图像的特征图上生成候选框,得到1:1比例的正负样本,将所述正负样本作为标签训练RPN模型,得到候选框中目标的类别和初步定位信息,所述类别包括前景和背景;
设定RPN模型锚盒的尺寸,比例等初始化信息。RPN模型的锚盒尺寸为:8×8、16×16、32×32,其中8×8、16×16适用于小的行人检测,32×32适用于大的行人检测;这三种尺寸每种尺寸按1:1,1:2,2:1的长宽比例缩放,共9种尺寸作为RPN需要评估的候选框;RPN的目标就是对特征图中的每个锚点对应的9个锚盒,预测其是否是一个存在目标的框;框与真值框的交并比IoU>0.7就认为这个框是一个候选框,反之,则不是。将步骤S11中得到的特征图输入RPN模型,改善RPN模型的边框回归损失,以提高检测精度,最后生成候选框。
训练RPN模型:为了训练RPN模型,将一个二进制分类标签(二进制分类标签为{0,1})分配给每个锚盒,其中0表示负样本,1表示正样本;如果一个锚盒跟所有真值框之一的交并比IoU大于0.7,则称之为正样本;如果一个锚盒跟所有真值框的交并比IoU小于0.3,则称之为负样本;剩下的框既不是正样本也不是负样本,不用于最终的训练;将真值框与回归输出的候选框的定位做比较,用梯度下降法来训练RPN模型。
训练RPN模型的损失函数定义如下:
Figure BDA0003369382430000101
其中,一个训练批次mini-batch是由一幅图像中最终选取的所有正负样本组成的,其中正负样本的比例为1:1,i表示一个mini-batch中第i个锚点,pi表示第i个锚点对应的锚盒是目标的概率,值在[0,1]之间;正样本的
Figure BDA0003369382430000102
为1,负样本的
Figure BDA0003369382430000103
为0;bi表示锚盒的定位信息,
Figure BDA0003369382430000104
是分类损失函数,
Figure BDA0003369382430000105
是边框回归损失函数;
Figure BDA0003369382430000106
表示只对正样本进行边框回归操作;分类和回归操作分别输出候选框是目标的概率pi和候选框的定位信息bi,这两项分别由Ncls和Nreg以及平衡权重λ归一化,Ncls为mini-batch的大小,Nreg为锚点的数量。
分类损失
Figure BDA0003369382430000111
采用交叉熵损失函数,定义如下::
Figure BDA0003369382430000112
如图2所示,边框回归损失
Figure BDA0003369382430000113
采用GIoU广义的交并比损失函数,定义如下:
Figure BDA0003369382430000114
其中,GIoU损失函数为:
Figure BDA0003369382430000115
Figure BDA0003369382430000116
GIoU loss(A,B)=1-GIoU(A,B)(6)
其中,A,B代表两个边框,C代表能同时包围A,B的最小边框。
改进的Faster RCNN检测网络RPN模型的边框回归损失函数
Figure BDA0003369382430000117
采用广义的交并比损失GIoU loss,将交并比IoU加入了RPN训练的约束条件,这样训练RPN的目标就是找到与真值框交并比IoU最大的候选框,而不仅仅是只考虑坐标值之间的差异,这样提高了检测精度。
③利用RPN模型得到候选框中的目标的类别、初步定位和ResNet-50网络得到的特征图,对随机初始化参数得到的ROI Head模型进行训练,得到目标的类别和定位。
④根据训练数据集类别数设定Faster RCNN检测网络的输出单元数目,并初始化检测网络的权重参数。将ResNet-50网络输出的特征图和RPN模型输出的候选框发送到ROIHead网络,ROI Head网络包括感兴趣区域ROI池化层,完全连接FC层,一个边框回归器和Softmax分类器;感兴趣区域ROI池化层用于将不同大小的候选框转换为固定大小的候选框,以传进完全连接FC层;边框回归器用于确定候选框的定位;Softmax分类器用于确定候选框中目标的具体类别。
参数的设置和实验评价标准如下:
A参数设置
以下为几个影响Faster RCNN的关键参数:学习率(learning rate)、权重衰减(Weight decay)、动量(Momentum)、丢失率(Dropout ratio)。
表1列出了Faster RCNN网络的一些参数设置:
表1 Faster RCNN网络训练参数设置
Figure BDA0003369382430000121
B实验评价指标:
实验评价指标为平均精度均值(mean Average Precision,mAP),即所有类标签的平均精度。要想计算出mAP,首先要计算出精确率(Precision)、召回率(Recall)和每个标签的精度均值(Average Precision,AP)。假设分类目标只有两类,记为正例(positive)和负例(negative),可以得到如下四种情况:
(1)True positives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的样本数;
(2)False positives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的样本数;
(3)False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的样本数;
(4)True negatives(TN):被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的样本数。
在划分正例或是负例时需要给出交并比IoU阈值,模型给每个预测框一个置信度,置信度只是表达了模型预测该边框内含有目标的概率,是对自己自信检测出目标的自信程度。当置信度大于等于IoU阈值的就被判为正例,反之就是负例。根据不同的IoU阈值可计算出不同的Precision和Recall值。
精确率(Precision)表示预测样本中正确划分为正例的样本数占全部预测为正例的样本数的比例,计算公式为:
Figure BDA0003369382430000131
召回率(Recall)表示预测样本中正确划分为正例的样本数占全部真正的正样本数的比例,计算公式为:
Figure BDA0003369382430000132
单独使用Precision或者Recall都不能很好的进行模型性能的评估,可以使用F1值来衡量Precision和Recall之间的平衡。
Figure BDA0003369382430000141
当F1值较高时,这意味着Precision和Recall的值都比较高,F1的值越低,意味着Precision和Recall之间越不平衡。
对单个样本类别来说,可根据不同IoU阈值下的Precision和Recall值绘出Precision-Recall曲线,Precision-Recall曲线表示了精确率和召回率之间的关系。AP是将Precision-Recall曲线汇总为单个值的方法。该值代表了所有Precision的平均值:
Figure BDA0003369382430000142
Recalln=0,Precisionn=1
其中n是IoU阈值的个数。在计算AP时,要遍历所有的Precision/Recall,计算当前Recall和下一次Recall的差值,然后乘以当前的精度。即在上式中,AP是每个阈值精度的加权和,权重是Recall的增量。
要计算mAP,首先计算每个类别的AP,对所有类别的AP求均值即可得到mAP。
Figure BDA0003369382430000143
其中k代表类别,n代表类别总数。由于本发明中只涉及一个类“person”,故计算得到的“person”的AP就是最终所需要的mAP。
本发明公开的方法在VOC 2007数据集上进行测试,在相同的测试数据下,相比于原来的Faster RCNN模型,本发明公开的方法提高了5.66个百分点的mAP,证实了本发明方法的有益效果。
如图2所示,我们将实际场景中拍摄的图片输入到改进的Faster RCNN网络,检测出图片中的行人,达到了理想效果。
至此,本发明所提供的一种基于改进的Faster RCNN的行人检测方法的测试阶段完成。
综上所述,本发明公开了一种基于改进的Faster RCNN的行人检测方法,主要阐述了训练的方法。首先加载ResNet-50网络在VOC2007数据集上预训练好的权重作为ResNet-50网络的参数初始值,生成特征图,这样获得模型参数的一个不错的初始值,避免陷入不良的局部最小值,同时加速网络的收敛。对随机初始化参数得到的RPN区域生成模型进行训练,改进了RPN模型的边框回归损失函数,将衡量标准IoU直接作为损失函数参与训练,更好的提高识别候选框的准确率,利用RPN模型在图像的特征图上生成候选框,得到候选框中目标的类别(前景或背景)和定位特征;最后利用目标的类别、定位特征和特征图,对随机初始化参数得到的ROI Head模型进行训练,得到目标的具体类别和定位。
本发明提出的基于改进的Faster RCNN行人检测方法其基于CNN特征,不仅可以处理任意尺度的图像,而且检测速度快,所做的改进主要考虑了应用场景、数据分布情况、防止过拟合等。同时,本发明所公开的方法并不需要对网络进行特殊的设计,充分利用了己有的可用数据,采用通用的网络结构依旧可以达到不错的实验效果,充分发挥了深度卷积网络的优势,具有设计简单,鲁棒性较佳,检测准确率高,漏检率低的优点。

Claims (5)

1.基于改进的Faster RCNN的行人检测方法,其特征在于,首先通过ResNet-50神经网络提取样本图像的特征图,然后将所得特征图输入RPN模型,并修改了RPN模型的边框回归损失函数,生成候选框;最后将特征图和候选框发送到ROI Head模型,得到目标的类别和定位;具体操作步骤如下:
步骤1:对ResNet-50网络进行预训练,提取行人图像的特征图;
步骤2:利用RPN模型在图像的特征图上生成候选框,得到1:1比例的正负样本;将所述正负样本作为标签去训练RPN模型,得到候选框中目标的类别和初步定位信息,所述类别包括前景和背景;对
步骤3:利用RPN模型得到候选框中的目标的类别、初步定位信息和ResNet-50网络得到的特征图,对随机初始化参数得到的ROI Head模型进行训练,得到目标的类别和定位。
2.根据权利要求1所述的基于改进的Faster RCNN的行人检测方法,其特征在于,步骤1具体如下:
采用VOC2007数据集对ResNet-50神经网络进行预训练,得到网络权重,将预训练好的权重加载到Faster RCNN的ResNet-50网络,得到预训练后的ResNet-50网络;之后的训练过程冻结ResNet-50网络部分,即ResNet-50网络的参数不进行反向传播,不进行梯度更新;将图像输入预训练好的ResNet-50网络,得到行人图像的特征图。
3.根据权利要求1所述的基于改进的Faster RCNN的行人检测方法,其特征在于,步骤2生成候选框的方法具体如下:
设定RPN模型初始化信息,所述初始化信息包括锚盒的尺寸、比例;RPN模型的锚盒尺寸为:8×8、16×16、32×32,其中8×8、16×16适用于小的行人检测,32×32适用于大的行人检测;这三种尺寸每种尺寸按1:1,1:2,2:1的长宽比例缩放,共9种尺寸作为RPN模型需要评估的候选框;训练RPN模型的目标就是对特征图中的每个锚点对应的9个锚盒,预测其是否是一个存在目标的框;框与真值框的交并比IoU>0.7就认为这个框是一个候选框,反之,则不是;
将步骤1中得到的特征图输入RPN模型,改善RPN模型的边框回归损失,以提高检测识别精度,最后生成候选框。
4.根据权利要求3所述的基于改进的Faster RCNN的行人检测方法,其特征在于,训练RPN模型的具体方法如下:
将一个二进制分类标签分配给每个锚盒,其中0表示负样本,1表示正样本;如果一个锚盒跟所有真值框之一的交并比IoU大于0.7,则称之为正样本;如果一个锚盒跟所有真值框的交并比IoU小于0.3,则称之为负样本;剩下的框既不是正样本也不是负样本,不用于最终的训练;将真值框与回归输出的候选框的定位做比较,用梯度下降法来训练RPN模型;
训练RPN模型的损失函数定义如下:
Figure FDA0003369382420000021
其中,一个训练批次mini-batch是由一幅图像中最终选取的所有正负样本组成,其中正负样本的比例为1:1;i表示一个mini-batch中第i个锚点,pi表示第i个锚点对应的锚盒是目标的概率,值在[0,1]之间;正样本的
Figure FDA0003369382420000022
为1,负样本的
Figure FDA0003369382420000023
为0;bi表示锚盒的定位信息,
Figure FDA0003369382420000024
是分类损失函数,
Figure FDA0003369382420000025
是边框回归损失函数;
Figure FDA0003369382420000026
表示只对正样本进行边框回归操作;分类和回归操作分别输出候选框是目标的概率pi和候选框的定位信息bi,这两项分别由Ncls和Nreg以及平衡权重λ归一化,Ncls为mini-batch的大小,Nreg为锚点的数量;锚点是ResNet-50网络输出的特征图上的一个像素点;锚盒是每一个锚点对应的候选框;
分类损失函数
Figure FDA0003369382420000031
定义如下:
Figure FDA0003369382420000032
边框回归损失函数
Figure FDA0003369382420000033
定义如下:
Figure FDA0003369382420000034
其中,GIoU损失函数为:
Figure FDA0003369382420000035
GIoU loss(A,B)=1-GIoU(A,B) (6)
其中,
Figure FDA0003369382420000036
A,B代表两个边框,C代表能同时包围A,B的最小边框。
5.根据权利要求1所述的基于改进的Faster RCNN的行人检测方法,其特征在于,步骤3具体如下:
将ResNet-50网络输出的特征图和RPN模型输出的候选框发送到ROI Head网络,ROIHead网络包括感兴趣区域ROI池化层,完全连接FC层,一个边框回归器和Softmax分类器;感兴趣区域ROI池化层用于将不同大小的候选框转换为固定大小的候选框,以传进完全连接FC层;边框回归器用于确定候选框的定位;Softmax分类器用于确定候选框中目标的具体类别。
CN202111402477.9A 2021-11-23 2021-11-23 基于改进的Faster RCNN的行人检测方法 Pending CN114170627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111402477.9A CN114170627A (zh) 2021-11-23 2021-11-23 基于改进的Faster RCNN的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111402477.9A CN114170627A (zh) 2021-11-23 2021-11-23 基于改进的Faster RCNN的行人检测方法

Publications (1)

Publication Number Publication Date
CN114170627A true CN114170627A (zh) 2022-03-11

Family

ID=80480288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111402477.9A Pending CN114170627A (zh) 2021-11-23 2021-11-23 基于改进的Faster RCNN的行人检测方法

Country Status (1)

Country Link
CN (1) CN114170627A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360033A (zh) * 2022-03-18 2022-04-15 武汉大学 基于图卷积融合网络的口罩人脸识别方法、系统及设备
CN115311255A (zh) * 2022-09-14 2022-11-08 西安理工大学 一种基于全卷积神经网络的伪装物体分割方法
CN115953666A (zh) * 2023-03-15 2023-04-11 国网湖北省电力有限公司经济技术研究院 一种基于改进Mask-RCNN的变电站现场进度识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360033A (zh) * 2022-03-18 2022-04-15 武汉大学 基于图卷积融合网络的口罩人脸识别方法、系统及设备
CN114360033B (zh) * 2022-03-18 2022-06-14 武汉大学 基于图卷积融合网络的口罩人脸识别方法、系统及设备
CN115311255A (zh) * 2022-09-14 2022-11-08 西安理工大学 一种基于全卷积神经网络的伪装物体分割方法
CN115953666A (zh) * 2023-03-15 2023-04-11 国网湖北省电力有限公司经济技术研究院 一种基于改进Mask-RCNN的变电站现场进度识别方法

Similar Documents

Publication Publication Date Title
CN110059554B (zh) 一种基于交通场景的多支路目标检测方法
CN112380952B (zh) 基于人工智能的电力设备红外图像实时检测及识别方法
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN114170627A (zh) 基于改进的Faster RCNN的行人检测方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
Shuai et al. Object detection system based on SSD algorithm
CN115797736B (zh) 目标检测模型的训练和目标检测方法、装置、设备和介质
CN113159066B (zh) 基于类间相似度的分布式标签的细粒度图像识别算法
WO2024032010A1 (zh) 一种基于迁移学习策略的少样本目标实时检测方法
CN112949510A (zh) 基于Faster R-CNN热红外影像人物探测方法
CN114821022A (zh) 融合主观逻辑和不确定性分布建模的可信目标检测方法
CN114529552A (zh) 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法
CN111797795A (zh) 一种基于YOLOv3与SSR的行人检测算法
CN116630753A (zh) 一种基于对比学习的多尺度小样本目标检测方法
Li et al. GADet: A Geometry-Aware X-ray Prohibited Items Detector
CN116363552A (zh) 一种应用于边缘设备的实时目标检测方法
CN113887455B (zh) 一种基于改进fcos的人脸口罩检测系统及方法
Sun et al. Flame Image Detection Algorithm Based onComputer Vision.
CN115661539A (zh) 一种嵌入不确定性信息的少样本图像识别方法
CN111401225B (zh) 基于改进逻辑回归分类的人群异常行为检测方法
CN115240163A (zh) 一种基于一阶段检测网络的交通标志检测方法及系统
CN114548376A (zh) 一种面向智能交通系统的车辆快速检测网络及方法
CN114332754A (zh) 基于多度量检测器的Cascade R-CNN行人检测方法
Kinattukara et al. Clustering based neural network approach for classification of road images
CN116246128B (zh) 跨数据集的检测模型的训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination