CN110321818A - 一种复杂场景中的行人检测方法 - Google Patents

一种复杂场景中的行人检测方法 Download PDF

Info

Publication number
CN110321818A
CN110321818A CN201910541000.5A CN201910541000A CN110321818A CN 110321818 A CN110321818 A CN 110321818A CN 201910541000 A CN201910541000 A CN 201910541000A CN 110321818 A CN110321818 A CN 110321818A
Authority
CN
China
Prior art keywords
pedestrian
training
network model
converged network
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910541000.5A
Other languages
English (en)
Inventor
叶超
贠周会
王欣欣
应艳丽
王旭
吴斌
黄江林
谢吉朋
赖泽伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Hongdu Aviation Industry Group Co Ltd
Original Assignee
Jiangxi Hongdu Aviation Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Hongdu Aviation Industry Group Co Ltd filed Critical Jiangxi Hongdu Aviation Industry Group Co Ltd
Priority to CN201910541000.5A priority Critical patent/CN110321818A/zh
Publication of CN110321818A publication Critical patent/CN110321818A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种复杂场景中的行人检测方法,包括以下步骤:S1、获取行人正样本;S2、获取负样本;S3、将正样本和负样本进行线性变换,进行多级特征融合网络模型参数训练,得到多级特征融合网络模型;S4、通过多级特征融合网络模型获取正样本和负样本的图像特征矩阵;S5、利用图像特征矩阵训练获得SVM分类模型;S6、从行人数据集中,获取测试数据集,然后框选目标候选区域,将目标候选区域载入训练得到的多级特征融合网络模型提取图像特征,再将图像特征载入SVM分类模型进行识别,从而确认目标候选区域是行人区域还是非行人区域。本发明方法即提升了行人检测算法的准确性,又减少了深度学习在样本训练中的时间。

Description

一种复杂场景中的行人检测方法
技术领域
本发明涉及视觉检测技术领域,具体是一种复杂场景中的行人检测方法。
背景技术
随着经济的快速发展,工业制造技术不断提升,材料科学不断发展,电子产品日新月异,元器件逐步走向小型化,运算速度呈现几何倍数的增长,成千上万的高性能计算设备应运而生,从高端科学实验室走向民用企业,为人工智能技术的创新发展奠定了基础。
作为人工智能技术的一个重要分支,计算机视觉技术也受到了广泛的研究。汽车自动驾驶系统、智能视频监控系统、人机交互系统也进入到大众的眼帘。作为汽车自动驾驶系统、智能视频监控系统、人机交互等系统的关键技术之一—行人检测方法也引起了科学研究人员的重视。行人检测方法的准确性及速度直接关系到行人的安全,一个行之有效的行人检测方法可能避免一场交通事故,相反也可能会带来灾难。
行人检测方法大体分为两类:一类是基于人工设计特征的检测方法,如:HOG、SVM、AdaBoost等。此类方法的优势在于计算性能需求不大,运算速度快,缺点在于准确率不高,尤其是在复杂场景中的应用。二类是基于深度学习的行人检测方法。此类方法的优势在于精度高,可试用复杂场景的应用,但需要极大的计算资源且训练时间长,迭代次数多。
发明内容
为解决上述问题,本发明提供一种复杂场景中的行人检测方法。
本发明采用的技术方案是:一种复杂场景中的行人检测方法,包括以下步骤:
S1、从行人数据集中,获取训练样本集,通过在训练样本集视频序列中截图并标记的方式,获取行人正样本;
S2、在步骤S1的截图中,随机选择生成负样本;
S3、将步骤S1获得的正样本和步骤S2生成的负样本进行线性变换(对图像进行缩放,缩放比例根据目标大小和原图大小的比值确认),进行多级特征融合网络模型参数训练,得到多级特征融合网络模型;
S4、通过步骤S3得到的多级特征融合网络模型获取正样本和负样本的图像特征矩阵;
S5、保持步骤S3训练得到的多级特征融合网络模型的参数不变,在多级特征融合网络模型基础上,添加完全连接层,利用步骤S4获取的图像特征矩阵训练获得SVM分类模型;
S6、从行人数据集中,获取测试数据集,然后框选目标候选区域,将目标候选区域载入步骤S3训练得到的多级特征融合网络模型提取图像特征,再将图像特征载入步骤S5获得的SVM分类模型进行识别,从而确认目标候选区域是行人区域还是非行人区域。
进一步地,所述步骤S1中,在Caltech行人数据集中,选择set00-set05作为训练样本集。
进一步地,所述步骤S2中,正样本与负样本比例为1:5。
进一步地,所述步骤S3中,多级特征融合网络模型的参数配置为:p1-p5分别表示各个完全连接层输出的4096维特征向量, α1-α5为各层特征向量所占的权重,其中α1=0.1,α2=0.2,α3=0.5,α4=0.7,α5=1。
进一步地,所述步骤S4中,图像特征矩阵的提取方法具体为:将VGG16网络架构设置为1000类二分类softmax层,在深度学习Caffe架构下,将正样本和负样本输入至多级特征融合网络模型中,设置训练时批处理的大小为16,训练周期为220000,网络的整体基础学习率设置为0.001,最后一层的层次权重学习率为10,最后一层的偏置学习率设置为20,其他层次的权重学习和偏置学习率设置分别为1和2,每40000个周期后学习率设置前一次的0.1,直至训练完所有周期,获得图像特征矩阵。
进一步地,所述步骤S4中,正样本和负样本输入的图像大小为224×224,多级特征融合网络模型共13个卷积层、5个池化层、卷积核为3×3,激活函数使用线性整流函数激活函数。
进一步地,所述步骤S5中,SVM分类模型的训练方法具体为:在Caffe架构下,设定训练时批处理的大小为16,在训练集上训练周期为110000,网络的整体基础学习率为0.001,所有完全连接层的层次权重学习率设置为10,层次偏置学习率设置为20,而多级特征融合网络模型原有层的层次权重学习率和层次偏置学习率都设置为0,从而获得SVM分类模型,SVM分类模型的核函数为Sigmoid核函数。
进一步地,所述步骤S6中,将Caltech行人数据集的set06-set10设置为测试数据集。
本发明的有益效果是:既具有人工设计特征的行人检测方法检测速度快的优点,又具有基于深度学习的行人检测算法的准确性及适合多场景的优点,实现了复杂场景下的行人检测,更好的提升了行人检测方法的准确性,减少深度学习在样本训练中的时间,加速产品的更新换代,将其应用于汽车驾驶、智能视频监控、人机交互等多个计算机视觉相关领域,可以提高产品的准确率及使用场景,能极大地方便使用者。
附图说明
图1为本发明行人检测方法的工作流程图;
图2为本发明多级特征融合网络模型示意图;
图3 为本发明多级特征融合网络模型中卷积神经网络训练流程图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例和附图对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
数据集的选择:国际常用的数据集有INRIA行人数据集、Caltech行人数据集。根据未来使用的场景主要是视频中行人检测,通过技术验证及测试,选择Caltech行人数据集。
分类器的选择:本发明采用的分类器为支持向量机(SVM)分类器,分类器的核函数为Sigmoid核函数。
实施例
如图1所示,一种复杂场景中的行人检测方法,包括以下步骤:
S1、在Caltech行人数据集中,选择set00-set05作为训练样本集,通过在训练样本集视频序列中截图并标记的方式,获取4396个行人正样本,对其进行多角度旋转,颜色转化平移得到13188个正样本。
S2、在步骤S1的截图中,运用随机选择算法自动生成60072负样本,使得正样本与负样本比例达到1:5左右。
S3、将步骤S1获得的正样本和步骤S2生成的负样本进行线性变换,进行多级特征融合网络模型参数训练(多级特征融合网络模型的架构与基网络 VGG16一样),使其能够达到多级特征融合网络模型参数配置的要求,得到多级特征融合网络模型。多级特征融合网络架构参数配置如图2所示,p1-p5分别表示各个完全连接层输出的4096维特征向量, α1-α5为各层特征向量所占的权重,其中α1=0.1,α2=0.2,α3=0.5,α4=0.7,α5=1。
S4、通过步骤S3得到的多级特征融合网络模型获取正样本和负样本的图像特征矩阵;具体提取方法为:将VGG16网络架构设置为1000类二分类softmax层,在深度学习Caffe架构下,将正样本和负样本输入至多级特征融合网络模型中,输入的图像大小为224×224,多级特征融合网络模型共13个卷积层、5个池化层、卷积核为3×3,激活函数使用线性整流函数(ReLu)激活函数。设置训练时批处理的大小为16,训练周期为220000,网络的整体基础学习率设置为0.001,最后一层的层次权重学习率为10,最后一层的偏置学习率设置为20,其他层次的权重学习和偏置学习率设置分别为1和2,每40000个周期后学习率设置前一次的0.1,直至训练完所有周期,获得图像特征矩阵,训练流程如图3卷积神经网络训练流程一致。
S5、保持步骤S3训练得到的多级特征融合网络模型的参数不变,按照图2,在多级特征融合网络模型基础上,添加完全连接层,完全连接层的参数按照步骤S3的设置进行,利用步骤S4获取的图像特征矩阵训练获得SVM分类模型。具体训练方法为:在Caffe架构下,设定训练时批处理的大小为16,在训练集上训练周期为110000,网络的整体基础学习率为0.001,所有完全连接层的层次权重学习率设置为10,层次偏置学习率设置为20,而多级特征融合网络模型原有层的层次权重学习率和层次偏置学习率都设置为0,从而获得SVM分类模型,SVM分类模型的核函数为Sigmoid核函数。
S6、将Caltech行人数据集的set06-set10设置为测试数据集,然后采用选择性搜索(Selective Search)算法框选目标候选区域,将目标候选区域载入步骤S3训练得到的多级特征融合网络模型提取图像特征,再将图像特征载入步骤S5获得的SVM分类模型进行识别,从而确认目标候选区域是行人区域还是非行人区域。选择性搜索算法在框选候选窗口时,窗口数量更少,而且准确率极高,能够快速得到多尺度、多场景下的候选窗口,从而达到减少计算量的目的。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (8)

1.一种复杂场景中的行人检测方法,其特征在于,包括以下步骤:
S1、从行人数据集中,获取训练样本集,通过在训练样本集视频序列中截图并标记的方式,获取行人正样本;
S2、在步骤S1的截图中,随机选择生成负样本;
S3、将步骤S1获得的正样本和步骤S2生成的负样本进行线性变换,进行多级特征融合网络模型参数训练,得到多级特征融合网络模型;
S4、通过步骤S3得到的多级特征融合网络模型获取正样本和负样本的图像特征矩阵;
S5、保持步骤S3训练得到的多级特征融合网络模型的参数不变,在多级特征融合网络模型基础上,添加完全连接层,利用步骤S4获取的图像特征矩阵训练获得SVM分类模型;
S6、从行人数据集中,获取测试数据集,然后框选目标候选区域,将目标候选区域载入步骤S3训练得到的多级特征融合网络模型提取图像特征,再将图像特征载入步骤S5获得的SVM分类模型进行识别,从而确认目标候选区域是行人区域还是非行人区域。
2.根据权利要求1所述的一种复杂场景中的行人检测方法,其特征在于,所述步骤S1中,在Caltech行人数据集中,选择set00-set05作为训练样本集。
3.根据权利要求1所述的一种复杂场景中的行人检测方法,其特征在于,所述步骤S2中,正样本与负样本比例为1:5。
4.根据权利要求1所述的一种复杂场景中的行人检测方法,其特征在于,所述步骤S3中,多级特征融合网络模型的参数配置为:p1-p5分别表示各个完全连接层输出的4096维特征向量, α1-α5为各层特征向量所占的权重,其中α1=0.1,α2=0.2,α3=0.5,α4=0.7,α5=1。
5.根据权利要求1所述的一种复杂场景中的行人检测方法,其特征在于,所述步骤S4中,图像特征矩阵的提取方法具体为:将VGG16网络架构设置为1000类二分类softmax层,在深度学习Caffe架构下,将正样本和负样本输入至多级特征融合网络模型中,设置训练时批处理的大小为16,训练周期为220000,网络的整体基础学习率设置为0.001,最后一层的层次权重学习率为10,最后一层的偏置学习率设置为20,其他层次的权重学习和偏置学习率设置分别为1和2,每40000个周期后学习率设置前一次的0.1,直至训练完所有周期,获得图像特征矩阵。
6.根据权利要求5所述的一种复杂场景中的行人检测方法,其特征在于,所述步骤S4中,正样本和负样本输入的图像大小为224×224,多级特征融合网络模型共13个卷积层、5个池化层、卷积核为3×3,激活函数使用线性整流函数激活函数。
7.根据权利要求1所述的一种复杂场景中的行人检测方法,其特征在于,所述步骤S5中,SVM分类模型的训练方法具体为:在Caffe架构下,设定训练时批处理的大小为16,在训练集上训练周期为110000,网络的整体基础学习率为0.001,所有完全连接层的层次权重学习率设置为10,层次偏置学习率设置为20,而多级特征融合网络模型原有层的层次权重学习率和层次偏置学习率都设置为0,从而获得SVM分类模型,SVM分类模型的核函数为Sigmoid核函数。
8.根据权利要求1所述的一种复杂场景中的行人检测方法,其特征在于,所述步骤S6中,将Caltech行人数据集的set06-set10设置为测试数据集。
CN201910541000.5A 2019-06-21 2019-06-21 一种复杂场景中的行人检测方法 Pending CN110321818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910541000.5A CN110321818A (zh) 2019-06-21 2019-06-21 一种复杂场景中的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910541000.5A CN110321818A (zh) 2019-06-21 2019-06-21 一种复杂场景中的行人检测方法

Publications (1)

Publication Number Publication Date
CN110321818A true CN110321818A (zh) 2019-10-11

Family

ID=68119957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910541000.5A Pending CN110321818A (zh) 2019-06-21 2019-06-21 一种复杂场景中的行人检测方法

Country Status (1)

Country Link
CN (1) CN110321818A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866487A (zh) * 2019-11-12 2020-03-06 复旦大学 大规模行人检测与重识别样本集构建方法及装置
CN111695504A (zh) * 2020-06-11 2020-09-22 重庆大学 一种融合型自动驾驶目标检测方法
CN112990328A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 特征融合方法、装置、设备、存储介质以及程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166861A (zh) * 2014-08-11 2014-11-26 叶茂 一种行人检测方法
CN106446792A (zh) * 2016-08-31 2017-02-22 大连楼兰科技股份有限公司 一种道路交通辅助驾驶环境下的行人检测特征提取方法
US20170140253A1 (en) * 2015-11-12 2017-05-18 Xerox Corporation Multi-layer fusion in a convolutional neural network for image classification
CN107145845A (zh) * 2017-04-26 2017-09-08 中山大学 基于深度学习及多特征点融合的行人检测方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109284669A (zh) * 2018-08-01 2019-01-29 辽宁工业大学 基于Mask RCNN的行人检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166861A (zh) * 2014-08-11 2014-11-26 叶茂 一种行人检测方法
US20170140253A1 (en) * 2015-11-12 2017-05-18 Xerox Corporation Multi-layer fusion in a convolutional neural network for image classification
CN106446792A (zh) * 2016-08-31 2017-02-22 大连楼兰科技股份有限公司 一种道路交通辅助驾驶环境下的行人检测特征提取方法
CN107145845A (zh) * 2017-04-26 2017-09-08 中山大学 基于深度学习及多特征点融合的行人检测方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109284669A (zh) * 2018-08-01 2019-01-29 辽宁工业大学 基于Mask RCNN的行人检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
尚晓航: "复杂场景中的行人检测算法研究", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》 *
胡庆新等: "基于多特征融合的红外图像行人检测", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866487A (zh) * 2019-11-12 2020-03-06 复旦大学 大规模行人检测与重识别样本集构建方法及装置
CN110866487B (zh) * 2019-11-12 2023-01-17 复旦大学 大规模行人检测与重识别样本集构建方法及装置
CN111695504A (zh) * 2020-06-11 2020-09-22 重庆大学 一种融合型自动驾驶目标检测方法
CN112990328A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 特征融合方法、装置、设备、存储介质以及程序产品

Similar Documents

Publication Publication Date Title
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN111814621B (zh) 一种基于注意力机制的多尺度车辆行人检测方法及装置
CN111126258B (zh) 图像识别方法及相关装置
WO2021043193A1 (zh) 神经网络结构的搜索方法、图像处理方法和装置
CN113221905B (zh) 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN111639679B (zh) 一种基于多尺度度量学习的小样本学习方法
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别系统及方法
CN108830196A (zh) 基于特征金字塔网络的行人检测方法
CN111797983A (zh) 一种神经网络构建方法以及装置
CN106557778A (zh) 通用物体检测方法和装置、数据处理装置和终端设备
CN110321818A (zh) 一种复杂场景中的行人检测方法
CN104517103A (zh) 一种基于深度神经网络的交通标志分类方法
EP3690744B1 (en) Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN113221787A (zh) 基于多元差异性融合的行人多目标跟踪方法
CN107247952B (zh) 基于深层监督的循环卷积神经网络的视觉显著性检测方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN111199175A (zh) 一种目标检测网络模型的训练方法及装置
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN111881802A (zh) 基于双分支时空图卷积网络的交警手势识别方法
CN104021395B (zh) 一种基于高阶偏最小二乘法的目标跟踪算法
CN113553918B (zh) 一种基于脉冲主动学习的机打发票字符识别方法
CN118015490A (zh) 一种无人机航拍图像小目标检测方法、系统及电子设备
CN117710841A (zh) 一种无人机航拍图像的小目标检测方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191011