CN113052136A - 一种基于改进Faster RCNN的行人检测方法 - Google Patents

一种基于改进Faster RCNN的行人检测方法 Download PDF

Info

Publication number
CN113052136A
CN113052136A CN202110437461.5A CN202110437461A CN113052136A CN 113052136 A CN113052136 A CN 113052136A CN 202110437461 A CN202110437461 A CN 202110437461A CN 113052136 A CN113052136 A CN 113052136A
Authority
CN
China
Prior art keywords
samples
cluster
positive
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110437461.5A
Other languages
English (en)
Other versions
CN113052136B (zh
Inventor
卞海彤
刘斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN202110437461.5A priority Critical patent/CN113052136B/zh
Publication of CN113052136A publication Critical patent/CN113052136A/zh
Application granted granted Critical
Publication of CN113052136B publication Critical patent/CN113052136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于Faster RCNN的行人检测方法,属于目标检测和计算机视觉技术领域。本发明针对在行人检测的实际应用中,类别之间的比例严重不平衡,导致预测结果将存在偏差这一问题,基于检测效果较好的Faster RCNN检测网络做出改进。本发明包括:将获取的行人检测数据集进行预处理;单独训练RPN网络,采用改进的K‑meansSMOTE算法平衡正负样本,使用RPN网络提取训练集上的候选区域作为Fast R‑CNN的训练样本;训练RPN网络和Fast R‑CNN网络,共享卷积层特征,获得训练好后的FasterRCNN行人检测模型;将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型,得到最终的检测结果。本发明方法降低了漏检率,提高了基于Faster RCNN的行人检测模型的检测性能。

Description

一种基于改进Faster RCNN的行人检测方法
技术领域
本发明属于人脸识别领域,尤其涉及一种基于改进Faster RCNN的行人检测方法。
背景技术
随着科学技术的不断提高和互联网应用的高速发展,人们的生活正发生着日新月异的变化,人脸识别、指纹解锁、语音助手等人工智能技术的应用也逐渐随处可见。计算机视觉作为人工智能技术的重要一环,通过计算机等设备代替人类的眼睛,让人们不再受制于视野的局限性,通过对视频或图片的处理,达到目标检测、目标追踪等目的,所以,计算机视觉技术具有广泛的应用场景。同时,计算机视觉也因为不断更新的计算机软硬件、图像采集和处理设备等后备保障而在飞速发展。而行人检测技术一直是计算机视觉研究中的热点和难点。
行人检测简单来说,就是判断视频或图像中是否存在行人并给出行人较为精确的位置信息。行人检测技术与行人重识别、行人跟踪等技术结合,有着很强的实用价值,被广泛应用于如智能交通系统、智能监控系统、机器人、人机交互系统等领域。因此,行人检测越来越受到工业界和学术界研究者的重视。近年来,深度卷积神经网络在计算机视觉任务中取得了巨大的成功,采用深度学习方法的目标检测总是有较好的效果。因此,研究人员试图利用一些成功的深度学习技术来解决行人检测任务。在大多数行人检测技术的应用当中,行人检测算法不仅需要有较高的检测速度,同时,还需具备较高的检测精度,因此本专利对基于区域建议的Faster RCNN进行改进,来提高行人检测性能。
Faster RCNN是在R-CNN和Fast RCNN的基础上的改进,是一种基于区域建议的两阶段检测算法。传统的目标检测算法流程包括生成候选框、提取候选框特征、对候选框进行分类与回归,而Faster RCNN将这些步骤通过一个卷积神经网络来实现,这样既简化了传统的检测系统,又在很大程度上提升了训练效率。Faster RCNN框架主要包含基础特征提取网络、区域建议网络和Fast RCNN这三个部分,其中区域建议网络和Fast RCNN共享卷积特征提取网络,可以大大减少计算时间。Faster RCNN整体检测流程如图1所示。
Faster RCNN算法的检测流程分为三个步骤:(1)将任意尺寸的图像缩放为网络预设的尺寸后,输入进一个基础CNN网络,在共享卷积层中,向前传播至检测网络的特有卷积层,提取目标图像的特征向量;(2)将特征图输入进RPN网络,生成候选区域与该区域属于目标行人的概率得分,采用非极大值抑制法,筛选出概率大的候选区域;(3)将生成的候选框经过感兴趣区域池化(Region of Interest Pooling,ROI Pooling)后,通过Fast RCNN进行分类与位置回归操作。经过这三个步骤,基本可以得到最终的检测结果。
Faster RCNN作为一个两阶段的检测算法亮点在于提出了RPN,RPN位于整个Faster RCNN框架的中间部分,用于提取候选框,耗时少,可以很容易与Fast R-CNN结合,成为一个整体。在RPN阶段会生成一些锚点,特征图的每个点都会以这个点为中心预测k个锚框,原始的Faster RCNN模型包含了3种尺度[8,16,32]和3种宽高比[1,0.5,2]共9种锚框,所有锚框是输入图像上对应的区域,在RPN阶段会生成大约20000个anchor,再使用非极大值抑制算法对整张图片产生的候选区域中的多余的候选区域进行剔除,用来预测目标的边界框。
Figure BDA0003033707370000021
RPN的损失函数形式如公式1所示。其中Lcls是分类损失函数,Lreg是回归损失函数,pi是anchor[i]的预测概率。若anchor[i]为正样本,pi *值为1;若anchor为负样本,pi *值为0。ti是anchor[i]预测的边界框的参数化坐标,
Figure BDA0003033707370000022
是anchor[i]的真实边界框的参数化坐标。这两部分由小批量的大小Ncls和anchor位置数量Nreg进行规范化,并通过一个平衡参数λ进行加权。
RPN通过反向传播和随机梯度下降进行端对端训练,在图像中随机采样256个锚点,计算一个小批量数据的损失函数,理想状态下,采样的正样本和负样本的比率为1:1。如果图像中的正样本少于128个,使用负样本进行补足。
Faster RCNN在RPN中第一次回归候选框时已经过滤了大部分无意义的负样本,这样最后回归检测框时能做到比大部分单阶段方法更为精确。
行人检测是对于给定的图片,选定的感兴趣区域,再根据区域包含的特征对它是否是要检测的对象做出判断,最终再判断是否为行人并得到它的位置。Faster RCNN网络在通用的目标检测领域表现优异,但是对于行人检测任务却表现不好,因为在行人检测实际应用中,可能会碰到一种比较头疼的问题,比如类别之间的比例严重不平衡,因为一张图片中行人往往也是占很少一部分。如果数据存在严重的不平衡,预测得出的结论往往也是有偏的,即分类结果会偏向于较多观测的类。Faster RCNN算法是先使用RPN生成候选区域,再对该区域进行分类与回归位置,是一种基于分类思想的目标检测算法,这样的算法往往存在样本不平衡的问题,会导致检测模型降低训练效率和检测精度。
发明内容
发明目的:为了解决样本不均衡情况下检测性能不佳的问题,提出一种基于改进Faster RCNN行人检测方法。
技术方案:本发明提出一种基于改进Faster RCNN的行人检测方法,该方法包括以下步骤:
步骤1:获取行人检测数据样本制作数据集,并进行预处理;
步骤2:单独训练RPN网络,采用K-means SMOTE算法平衡正负样本,使用RPN网络提取训练集上的候选区域作为Fast R-CNN的训练样本;
步骤3:训练RPN网络和Fast R-CNN网络,共享卷积层特征,获得训练好后的FasterRCNN行人检测模型;
步骤4:将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型,得到最终的检测结果。
进一步,步骤1所述数据集生成具体过程为:
步骤1.1:从Caltech数据集获取行人检测所需的用来训练和检测的数据样本。
步骤1.2:预处理将获取的数据样本转化为标准的VOC数据格式,再生成对应的带标注的文件。
进一步,步骤2所述训练RPN网络具体过程为:
步骤2.1:将训练样本输入到基础网络VGG-16,生成用于RPN网络训练的前景样本和背景样本,具体过程为:
步骤2.1.1:将训练集中的图片通过VGG-16进行特征提取;
步骤2.1.2:对于特征图的每一个点,输出3种尺度和3种长宽比的9个anchors;
步骤2.1.3:对于训练集中的每张图像,通过计算真值区域和anchors的重叠比例,与设置的阈值进行对比,大于阈值的为前景样本,则此anchor为正样本,其余为背景样本,则此anchor为负样本;
步骤2.2:训练RPN时每个mini-batch包含从一张图像中随机提取的256个anchors,此时正负样本不均衡,采用K-means SMOTE算法生成新的正样本来平衡正负样本的具体过程为:
步骤2.2.1:将抽取的256个anchors中心点向量作为一个数据集,将不均衡数据集分为正样本集和负样本集;
步骤2.2.2:对于负样本集Smax,负样本总数为S,通过k-means聚类,簇划分A={A1,A2,…,Aa},划分后每个负样本子簇中心点向量:{μ1,μ2,…,μa},每个负样本子簇的anchor样本数量:{m1,m2,…,ma},a为负样本通过聚类划分的聚类的个数;
步骤2.2.3:对于正样本集Smin,正样本总数为s,通过k-means聚类,簇划分B={B1,B2,…,Bb},划分后每个正样本子簇中心点向量:{λ1,λ2,…,λb},每个正样本子簇的anchor样本数量:{M1,M2,…,Mb},b为正样本通过聚类划分的聚类的个数;
步骤2.2.4:对于每一个正样本子簇,找出所有有效正样本子簇,在这些有效正样本子簇中生成新的正样本,找出所有有效正样本子簇的具体过程为:
步骤2.2.4.1:设有效正样本子簇点数量至少为δ,遍历步骤2.2.3中划分的正样本子簇Bi,i=1,2,...,b,如果Mi<δ,则Bi不是有效正样本子簇,如果Mi≥δ,继续步骤2.2.4.2;
步骤2.2.4.2:设有效正样本子簇中心点与任意负样本子簇中心点的欧式距离不得低于ξ,对于符合步骤2.2.4.1的所有正样本子簇,计算它们的中心点向量λi与所有负样本子簇中心点向量μj欧氏距离,如果dist(λij)<ξ,则Bi不是有效正样本子簇;如果dist(λij)≥ξ,则Bi是有效正样本子簇,j=1,2,...,a;
步骤2.2.4.3:按照以上两个步骤得到k个有效正样本子簇C={C1,C2,...,Ck},对应的每个有效正样本子簇的anchor样本数量:Mm={Mm1,Mm2,...,Mmk};
步骤2.2.5:根据不均衡数据集的正负样本比例,计算为了均衡样本所需添加的正样本的数量N,假设步骤2.2.4中得到的每一个有效正样本子簇Cq对应需要合成的正样本数为nq,满足
Figure BDA0003033707370000041
Figure BDA0003033707370000042
q=1,2,...k;
步骤2.2.6:在每个有效正样本子簇中,通过线性插值依次合成nq个新样本,直到每个子簇都生成对应数量的新样本,合成新样本的具体过程为:
步骤2.2.6.1:对于有效正样本子簇Cq中的中心点xq,以欧氏距离为标准计算xq到Cq中所有正样本的距离,按距离由小到大的顺序从Cq中选择xq的w个近邻样本;
步骤2.2.6.2:在w个近邻样本中随机选择nq个样本,记为yu,在xq与yu之间进行随机线性插值,构造新的正样本newu=xq+rand(0,1)*(yu-xq),u=1,2,...,nq
步骤2.2.6.3:将每个有效正样本子簇中生成的新正样本组成一个新正样本集;
步骤2.2.7:将步骤2.2.6生成的新正样本集加入原来随机抽取的256个anchors样本集组成一个样本均衡的新训练集Snew
步骤2.3:将平衡样本后的训练集用来训练RPN,利用训练好的RPN网络生成候选框。
进一步,步骤3所述训练Faster RCNN行人检测模型具体过程为:
步骤3.1:利用RPN网络生成的候选框去训练Fast RCNN网络参数;
步骤3.2:保持RPN网络和Fast RCNN网络共享的卷积层固定,调整Fast RCNN的全连接层,使两个网络共享相同的卷积层,构成一个统一的网络,得到训练好的Faster RCNN模型;
进一步,步骤4所述将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型,得到最终的检测结果,具体过程为:
步骤4.1:将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型;
步骤4.2:Faster RCNN行人检测模型使用已经训练好的网络,自动进行候选区域生成、特征提取、候选区域分类以及位置回归;
步骤4.3:输出行人检测结果。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
本发明在训练RPN网络时遇到正负样本不均衡的情况下,引入了改进的K-meansSMOTE算法,通过增加有效正样本的数量,来平衡训练集样本,训练出来的模型不再会偏向于负样本,降低了漏检率,提高了基于Faster RCNN的行人检测模型的检测性能。
附图说明
图1是本发明中加入K-means SMOTE算法改进后的Faster RCNN模型示意图。
图2是K-means SMOTE算法生成新的有效正样本流程图。
图3是本发明中K-means算法对原RPN训练集数据样本聚类示意图。
图4是本发明中线性插值算法示意图。
图5是本发明提出的改进Faster RCNN的行人检测模型示例对比图。
具体实施方式
本发明提出一种基于改进Faster RCNN的行人检测方法,该方法包括以下步骤:
步骤1:获取行人检测数据样本制作数据集,并进行预处理;
步骤2:单独训练RPN网络,采用K-means SMOTE算法平衡正负样本,使用RPN网络提取训练集上的候选区域作为Fast R-CNN的训练样本;
步骤3:训练RPN网络和Fast R-CNN网络,共享卷积层特征,获得训练好后的FasterRCNN行人检测模型;
步骤4:将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型,得到最终的检测结果。
进一步,步骤1所述数据集生成具体过程为:
步骤1.1:从Caltech数据集获取行人检测所需的用来训练和检测的数据样本。
步骤1.2:预处理将获取的数据样本转化为标准的VOC数据格式,再生成对应的带标注的文件。
进一步,步骤2所述训练RPN网络具体过程为:
步骤2.1:将训练样本输入到基础网络VGG-16,生成用于RPN网络训练的前景样本和背景样本,具体过程为:
步骤2.1.1:将训练集中的图片通过VGG-16进行特征提取;
步骤2.1.2:对于特征图的每一个点,输出3种尺度和3种长宽比的9个anchors;
步骤2.1.3:对于训练集中的每张图像,通过计算真值区域和anchors的重叠比例,与设置的阈值进行对比,大于阈值的为前景样本,则此anchor为正样本,其余为背景样本,则此anchor为负样本;
步骤2.2:训练RPN时每个mini-batch包含从一张图像中随机提取的256个anchors,此时正负样本不均衡,采用K-means SMOTE算法生成新的正样本来平衡正负样本的具体过程为:
步骤2.2.1:将抽取的256个anchors中心点向量作为一个数据集,将不均衡数据集分为正样本集和负样本集;
步骤2.2.2:对于负样本集Smax,负样本总数为S,通过k-means聚类,簇划分A={A1,A2,…,Aa},划分后每个负样本子簇中心点向量:{μ1,μ2,…,μa},每个负样本子簇的anchor样本数量:{m1,m2,…,ma},a为负样本通过聚类划分的聚类的个数;
步骤2.2.3:对于正样本集Smin,正样本总数为s,通过k-means聚类,簇划分B={B1,B2,…,Bb},划分后每个正样本子簇中心点向量:{λ1,λ2,…,λb},每个正样本子簇的anchor样本数量:{M1,M2,…,Mb},b为正样本通过聚类划分的聚类的个数;
步骤2.2.4:对于每一个正样本子簇,找出所有有效正样本子簇,在这些有效正样本子簇中生成新的正样本,找出所有有效正样本子簇的具体过程为:
步骤2.2.4.1:设有效正样本子簇点数量至少为δ,遍历步骤2.2.3中划分的正样本子簇Bi,i=1,2,...,b,如果Mi<δ,则Bi不是有效正样本子簇,如果Mi≥δ,继续步骤2.2.4.2;
步骤2.2.4.2:设有效正样本子簇中心点与任意负样本子簇中心点的欧式距离不得低于ξ,对于符合步骤2.2.4.1的所有正样本子簇,计算它们的中心点向量λi与所有负样本子簇中心点向量μj欧氏距离,如果dist(λij)<ξ,则Bi不是有效正样本子簇;如果dist(λij)≥ξ,则Bi是有效正样本子簇,j=1,2,...,a;
步骤2.2.4.3:按照以上两个步骤得到k个有效正样本子簇C={C1,C2,...,Ck},对应的每个有效正样本子簇的anchor样本数量:Mm={Mm1,Mm2,...,Mmk};
步骤2.2.5:根据不均衡数据集的正负样本比例,计算为了均衡样本所需添加的正样本的数量N,假设步骤2.2.4中得到的每一个有效正样本子簇Cq对应需要合成的正样本数为nq,满足
Figure BDA0003033707370000071
Figure BDA0003033707370000072
q=1,2,...k;
步骤2.2.6:在每个有效正样本子簇中,通过线性插值依次合成nq个新样本,直到每个子簇都生成对应数量的新样本,合成新样本的具体过程为:
步骤2.2.6.1:对于有效正样本子簇Cq中的中心点xq,以欧氏距离为标准计算xq到Cq中所有正样本的距离,按距离由小到大的顺序从Cq中选择xq的w个近邻样本;
步骤2.2.6.2:在w个近邻样本中随机选择nq个样本,记为yu,在xq与yu之间进行随机线性插值,构造新的正样本newu=xq+rand(0,1)*(yu-xq),u=1,2,...,nq
步骤2.2.6.3:将每个有效正样本子簇中生成的新正样本组成一个新正样本集;
步骤2.2.7:将步骤2.2.6生成的新正样本集加入原来随机抽取的256个anchors样本集组成一个样本均衡的新训练集Snew
步骤2.3:将平衡样本后的训练集用来训练RPN,利用训练好的RPN网络生成候选框。
进一步,步骤3所述训练Faster RCNN行人检测模型具体过程为:
步骤3.1:利用RPN网络生成的候选框去训练Fast RCNN网络参数;
步骤3.2:保持RPN网络和Fast RCNN网络共享的卷积层固定,调整Fast RCNN的全连接层,使两个网络共享相同的卷积层,构成一个统一的网络,得到训练好的Faster RCNN模型;
进一步,步骤4所述将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型,得到最终的检测结果,具体过程为:
步骤4.1:将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型;
步骤4.2:Faster RCNN行人检测模型使用已经训练好的网络,自动进行候选区域生成、特征提取、候选区域分类以及位置回归;
步骤4.3:输出行人检测结果。

Claims (5)

1.一种基于改进Faster RCNN的行人检测方法,其特征在于,该方法包括以下步骤:
步骤1:获取行人检测数据样本制作数据集,并进行预处理;
步骤2:训练RPN网络,采用K-means SMOTE算法平衡正负样本,使用RPN网络提取训练集上的候选区域作为Fast R-CNN的训练样本;
步骤3:训练RPN网络和Fast R-CNN网络,共享卷积层特征,获得训练好后的FasterRCNN行人检测模型;
步骤4:将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型,得到最终的检测结果。
2.根据权利要求1所述的一种基于改进Faster RCNN的行人检测方法,其特征在于,步骤1的具体方法如下:
步骤1.1:从Caltech数据集获取行人检测所需的用来训练和检测的数据样本;
步骤1.2:预处理将获取的数据样本转化为标准的VOC数据格式,再生成对应的带标注的文件。
3.根据权利要求1或2所述的一种基于改进Faster RCNN的行人检测方法,其特征在于,步骤2的具体方法如下:
步骤2.1:将训练样本输入到基础网络VGG-16,生成用于RPN网络训练的前景样本和背景样本,具体过程为:
步骤2.1.1:将训练集中的图片通过VGG-16进行特征提取;
步骤2.1.2:对于特征图的每一个点,输出3种尺度和3种长宽比的9个anchors;
步骤2.1.3:对于训练集中的每张图像,通过计算真值区域和anchors的重叠比例,与设置的阈值进行对比,大于阈值的为前景样本,则此anchor为正样本,其余为背景样本,则此anchor为负样本;
步骤2.2:训练RPN时每个mini-batch包含从一张图像中随机提取的256个anchors,此时正负样本不均衡,采用K-means SMOTE算法生成新的正样本来平衡正负样本的具体过程为:
步骤2.2.1:将抽取的256个anchors中心点向量作为一个数据集,将不均衡数据集分为正样本集和负样本集;
步骤2.2.2:对于负样本集Smax,负样本总数为S,通过k-means聚类,簇划分A={A1,A2,...,Aa},划分后每个负样本子簇中心点向量:{μ1,μ2,...,μa},每个负样本子簇的anchor样本数量:{m1,m2,...,ma},a为负样本通过聚类划分的聚类的个数;
步骤2.2.3:对于正样本集Smin,正样本总数为s,通过k-means聚类,簇划分B={B1,B2,...,Bb},划分后每个正样本子簇中心点向量:{λ1,λ2,...,λb},每个正样本子簇的anchor样本数量:{M1,M2,...,Mb},b为正样本通过聚类划分的聚类的个数;
步骤2.2.4:对于每一个正样本子簇,找出所有有效正样本子簇,在这些有效正样本子簇中生成新的正样本,找出所有有效正样本子簇的具体过程为:
步骤2.2.4.1:设有效正样本子簇点数量至少为δ,遍历步骤2.2.3中划分的正样本子簇Bi,i=1,2,...,b,如果Mi<δ,则Bi不是有效正样本子簇,如果Mi≥δ,继续步骤2.2.4.2;
步骤2.2.4.2:设有效正样本子簇中心点与任意负样本子簇中心点的欧式距离不得低于ξ,对于符合步骤2.2.4.1的所有正样本子簇,计算它们的中心点向量λi与所有负样本子簇中心点向量μj欧氏距离,如果dist(λi,μj)<ξ,则Bi不是有效正样本子簇;如果dist(λi,μj)≥ξ,则Bi是有效正样本子簇,j=1,2,...,a;
步骤2.2.4.3:按照以上两个步骤得到k个有效正样本子簇C={C1,C2,...,Ck},对应的每个有效正样本子簇的anchor样本数量:Mm={Mm1,Mm2,...,Mmk};
步骤2.2.5:假设步骤2.2.4中得到的每一个有效正样本子簇Cq对应需要合成的正样本数为nq,满足
Figure FDA0003033707360000021
Figure FDA0003033707360000022
步骤2.2.6:在每个有效正样本子簇中,通过线性插值依次合成nq个新样本,直到每个子簇都生成对应数量的新样本,合成新样本的具体过程为:
步骤2.2.6.1:对于有效正样本子簇Cq中的中心点xq,以欧氏距离为标准计算xq到Cq中所有正样本的距离,按距离由小到大的顺序从Cq中选择xq的w个近邻样本;
步骤2.2.6.2:在w个近邻样本中随机选择nq个样本,记为yu,在xq与yu之间进行随机线性插值,构造新的正样本newu=xq+rand(0,1)*(yu-xq),u=1,2,...,nq
步骤2.2.6.3:将每个有效正样本子簇中生成的新正样本组成一个新正样本集;
步骤2.2.7:将步骤2.2.6生成的新正样本集加入原来随机抽取的256个anchors样本集组成一个样本均衡的新训练集Snew
步骤2.3:将平衡样本后的训练集用来训练RPN,利用训练好的RPN网络生成候选框。
4.根据权利要求3所述的一种基于改进Faster RCNN的行人检测方法,其特征在于,步骤3中,训练Faster RCNN行人检测模型具体过程为:
步骤3.1:利用RPN网络生成的候选框去训练FastRCNN网络参数;
步骤3.2:保持RPN网络和Fast RCNN网络共享的卷积层固定,调整Fast RCNN的全连接层,使两个网络共享相同的卷积层,构成一个统一的网络,得到训练好的Faster RCNN模型。
5.根据权利要求1或4所述的一种基于改进Faster RCNN的行人检测方法,其特征在于,步骤4中,将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型,得到最终的检测结果,具体过程为:
步骤4.1:将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型;
步骤4.2:Faster RCNN行人检测模型使用已经训练好的网络,自动进行候选区域生成、特征提取、候选区域分类以及位置回归;
步骤4.3:输出行人检测结果。
CN202110437461.5A 2021-04-22 2021-04-22 一种基于改进Faster RCNN的行人检测方法 Active CN113052136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110437461.5A CN113052136B (zh) 2021-04-22 2021-04-22 一种基于改进Faster RCNN的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110437461.5A CN113052136B (zh) 2021-04-22 2021-04-22 一种基于改进Faster RCNN的行人检测方法

Publications (2)

Publication Number Publication Date
CN113052136A true CN113052136A (zh) 2021-06-29
CN113052136B CN113052136B (zh) 2023-10-10

Family

ID=76520270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110437461.5A Active CN113052136B (zh) 2021-04-22 2021-04-22 一种基于改进Faster RCNN的行人检测方法

Country Status (1)

Country Link
CN (1) CN113052136B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837316A (zh) * 2021-10-13 2021-12-24 山东德普检测技术有限公司 一种基于农产品的异常区域检测方法、装置、设备及介质
CN114005009A (zh) * 2021-09-30 2022-02-01 苏州浪潮智能科技有限公司 一种基于RS loss的目标检测模型的训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416287A (zh) * 2018-03-04 2018-08-17 南京理工大学 一种基于遗漏负样本挖掘的行人检测方法
CN110852388A (zh) * 2019-11-13 2020-02-28 吉林大学 基于K-means改进的SMOTE算法
CN111444816A (zh) * 2020-01-14 2020-07-24 北京银河信通科技有限公司 一种基于Faster RCNN的多尺度密集行人检测方法
CN111626336A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416287A (zh) * 2018-03-04 2018-08-17 南京理工大学 一种基于遗漏负样本挖掘的行人检测方法
CN110852388A (zh) * 2019-11-13 2020-02-28 吉林大学 基于K-means改进的SMOTE算法
CN111444816A (zh) * 2020-01-14 2020-07-24 北京银河信通科技有限公司 一种基于Faster RCNN的多尺度密集行人检测方法
CN111626336A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郭朝有 等: "面向不平衡数据集融合Can...ans的SMOTE改进算法", 《科学技术与工程》, vol. 20, no. 22, pages 9069 - 9073 *
陈斌 等: "基于KM-SMOTE和随机森林的不平衡数据分类", 《计算机技术与发展》, vol. 25, no. 9, pages 17 - 21 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005009A (zh) * 2021-09-30 2022-02-01 苏州浪潮智能科技有限公司 一种基于RS loss的目标检测模型的训练方法及装置
CN114005009B (zh) * 2021-09-30 2023-11-14 苏州浪潮智能科技有限公司 一种基于RS loss的目标检测模型的训练方法及装置
CN113837316A (zh) * 2021-10-13 2021-12-24 山东德普检测技术有限公司 一种基于农产品的异常区域检测方法、装置、设备及介质
CN113837316B (zh) * 2021-10-13 2023-12-26 山东德普检测技术有限公司 一种基于农产品的异常区域检测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113052136B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
Li et al. Dbcface: Towards pure convolutional neural network face detection
Zhang et al. Pedestrian detection method based on Faster R-CNN
CN112257569B (zh) 一种基于实时视频流的目标检测和识别方法
CN108564598B (zh) 一种改进的在线Boosting目标跟踪方法
CN108804453A (zh) 一种视音频识别方法及装置
Xian et al. Evaluation of low-level features for real-world surveillance event detection
CN111783681B (zh) 大规模人脸库识别方法、系统、计算机设备及存储介质
CN110322445A (zh) 一种基于最大化预测和标签间相关性损失函数的语义分割方法
CN113052136A (zh) 一种基于改进Faster RCNN的行人检测方法
KR20160037424A (ko) 개선된 리얼 아다부스트 알고리즘에 근거한 새로운 멀티 뷰 얼굴감지방식
CN111931572B (zh) 一种遥感影像的目标检测方法
CN115527269B (zh) 一种人体姿态图像智能识别方法及系统
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN112183450A (zh) 一种多目标跟踪方法
Yin Object Detection Based on Deep Learning: A Brief Review
CN111626160A (zh) 一种基于区域式渐进校准网络的角度变化下人脸检测方法
CN117975377A (zh) 一种高精度车辆检测方法
CN111160099B (zh) 一种视频图像目标的智能化分割方法
CN117593794A (zh) 改进的YOLOv7-tiny模型及基于该模型的人手脸检测方法及系统
CN116152699B (zh) 用于水电厂视频监控系统的实时运动目标检测方法
CN116152696A (zh) 一种工控系统智慧安防图像识别方法及系统
CN115393892A (zh) 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法
Sankaranarayanan et al. Virtual mono-layered continuous containers for vehicle detection applications in intelligent transportation systems
CN114299113A (zh) 一种基于孪生网络的目标跟踪方法及装置
Wang et al. CNN Network for Head Detection with Depth Images in cyber-physical systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant