CN108804969B - 特定场景下的行人检测方法 - Google Patents

特定场景下的行人检测方法 Download PDF

Info

Publication number
CN108804969B
CN108804969B CN201611146030.9A CN201611146030A CN108804969B CN 108804969 B CN108804969 B CN 108804969B CN 201611146030 A CN201611146030 A CN 201611146030A CN 108804969 B CN108804969 B CN 108804969B
Authority
CN
China
Prior art keywords
model
training
network
pedestrian
fcn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611146030.9A
Other languages
English (en)
Other versions
CN108804969A (zh
Inventor
骆小飞
蒋胜
范柘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Aware Information Technology Co ltd
Original Assignee
Shanghai Aware Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Aware Information Technology Co ltd filed Critical Shanghai Aware Information Technology Co ltd
Priority to CN201611146030.9A priority Critical patent/CN108804969B/zh
Publication of CN108804969A publication Critical patent/CN108804969A/zh
Application granted granted Critical
Publication of CN108804969B publication Critical patent/CN108804969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及特定场景下的行人检测方法,检测步骤如下:步骤1,根据测试集(目标域)选择合适的训练集(源域);步骤2,在训练集上标定后面框架所需要的监督信息,运用对抗网络来完成训练集中的行人标注;步骤3,将训练集转化为VOC形式输送至R‑FCN进行训练;步骤4,将R‑FCN的训练模型对特定场景行人进行检测。

Description

特定场景下的行人检测方法
技术领域
本发明涉及特定场景行人检测的方法,主要基于深度学习的行人检测方法。
背景技术
计算机视觉涉及了图像处理、机器学习、模式识别等多个学科,最终目的是模拟人的视觉能力,可以完成各种识别任务。在计算机视觉这个大的研究领域下,又有一个备受学术界和工业界关注的一个子方向——行人检测。行人检测就是计算机对于给定的图像和视频,判断出其中是否有行人,如果有还需要给出行人的具体位置。行人检测是行人跟踪,行为分析,步态分析,行人身份识别等研究的基础和前提,一个好的行人检测算法能够为后者提供有力的支持和保障。行人检测有视频监控、车辆辅助驾驶、智能机器人等应用场景。
现有的传统行人检测方法大致有三种,第一种为基于全局特征的方法,例如:Harr小波特征、HOG特征、Edgelet特征、Shapelet特征、轮廓模板特征、运动特征等;第二种为基于人体部件的方法;第三种为立体视觉的方法。
以上所述方法都需要手动提取特征,尽管有些特征已经取得不错的效果,但是整体从精度和速度来衡量,效果还是没有深度学习做的行人检测效果好。本发明和传统方法有很大的差异,不需要手动提取特征,而是用深度卷积神经网络来提取特征,在这基础上再做回归和分类。对比传统方法,本发明在速度和精度上有了很大的提高,鲁棒性更强,泛化能力更强。
发明内容
本发明提供特定场景行人检测的方法,用于视频监控环境的行人检测,减少财产损失,适用范围更广,稳定性更高,使用更加方便。
为了达到上述目的,本发明提供一种行人检测方法,该行人检测方法包含以下步骤:
步骤1:选择数据集。
传统的机器学习假设训练数据与测试数据服从相同的数据分布。然而,这种同分布假设不容易满足。训练数据可能会过期,这往往需要我们去重新标注大量的训练数据以满足我们训练的需要,但标注新数据是非常昂贵的,需要大量的人力与物力。从另外一个角度上看,如果我们有了大量的、在不同分布下的训练数据,完全丢弃这些数据也是非常浪费的。
选择数据集非常重要,对之后检测的结果有很大的影响。根据测试集的行人大小,光线强度,摄像机角度等信息来选择训练集。使训练集(源域)尽量“靠近”测试集(目标域),以这种方式选择训练集有以下两点原因,根据我们后期的检测方法,以上做法可以减少重复计算,同时可以提高检测模型的精度。这种选择数据的方法的本质就是基于实例的迁移学习,基于实例的迁移学习只能发生在源数据与辅助数据非常相近的情况下。但是,当源数据和辅助数据差别比较大的时候,基于实例的迁移学习算法往往很难找到可以迁移的知识。
步骤2:构建生成对抗网络。
生成对抗网络启发自博弈论,包含一个生成模型和一个判别模型。生成模型捕捉样本数据的分布,判别模型是一个二分类器,判别输入是真实数据还是生成的样本。
步骤2.1:训练生成对抗模型的判别模型。
此时的判别模型只是一个粗分类,所以此时的效果并不会很好,需要人工的检查,这步是必须的,因为整个步骤2提供的样本标定信息要准确无误,否则会影响后面的检测网络的精度。用fasterrcnn在imagenet基础上微调一个通用的行人检测模型,基础网络用ZF网络,根据测试集的行人尺寸调整fasterrcnn里anchor的尺寸和宽长比,本来fasterrcnn做的多尺度的多目标检测,直接应用的到行人检测上,会有很多的无用计算,首先在特定场景下的行人检测,例如在监控摄像头下拍的行人的尺寸是个固定的范围,并不会有跳跃性的变化,此处就把基于fasterrcnn的多尺度搜索的尺度大小适当地变化,再结合行人自身的特点,行人的宽长比,行人的姿势等,调整搜索框的宽长比。当然这一步也涉及数据集的选择,方法和步骤1中的相似。训练出来的模型作为生成对抗模型的D(判别)模型。
步骤2.2:对图片样本做标定。
给生成对抗网络的生成式模型的输入给个噪声信号,生成模型回归出的boundingbox给判别模型来判别,也就是说生成模型回归出的行人坐标是经过判别模型认可的行人坐标,训练也是通过两个模型回归的差异只更新生成模型的参数。
步骤3:转换数据集格式。
通过步骤2已经有了正确的行人框了,标定好的数据集还不能直接放入R-FCN里训练,必须转换为相应的格式。
步骤4:训练R-FCN。
这里考虑到显存的问题,把原先R-FCN的resnet网络替换成VGG网络(不带全连接层),显存减少的同时,精度也有所下降,所以在VGG网络结构上做了一些修改,把一些ReLU函数替换成C.ReLU函数,加入了残差训练。具体步骤如下:
步骤4.1:修改VGG网络(附图)。
在CNN前期提取特征的时候,有对称(成对)的神经元,也就说有做同样计算的神经元,多余计算,C.ReLU减少多余计算,同时前期提取特征的速度是原来的2倍,且不影响精度。
深度卷积网络训练一直是个问题,对VGG的修改也引进了Batch Normalization,也就是“批规范化”,大量论文和实验证明用不用这个BN,简直就是两个世界,在每次SGD时,通过mini-batch来对相应的激励做规范化操作,使得结果(输出信号各个维度)的均值为0,方差为1.而最后的“scale and shift”操作则是为了让因训练所需而“刻意”加入的BN能够有可能还原最初的输入,从而保证整个网络的容纳能力。
步骤4.2:预训练VGG网络。
使用imagenet训练VGG网络,使之有个初步分类的能力。
步骤4.3:用步骤3做出来的数据集微调r-fcn(VGG),微调的时候anchor的参数需要修改。训练出来一个初步可用的行人检测模型。
步骤4.4:对模型进行权值更新。对新获取的数据集也做步骤2和步骤3的工作,然后再微调网络,更新模型。
步骤5:特定场景的行人检测测试。输入图片,放入R-FCN中,做前向传输,得出检测结果。
附图说明
图1是本发明的流程图。
图2是生成对抗网络标注示意图。
图3是C.ReLU结构示意图。
图4是部分VGG改进网络(BN未画出)。
具体实施方式
提供一种行人检测方法,该行人检测方法包含以下步骤:
步骤1:选择数据集。
步骤2:构建生成对抗网络。
生成对抗网络启发自博弈论,包含一个生成模型和一个判别模型。生成模型捕捉样本数据的分布,判别模型是一个二分类器,判别输入是真实数据还是生成的样本。
步骤2.1:训练生成对抗模型的判别模型。
此时的判别模型只是一个粗分类,所以此时的效果并不会很好,需要人工的检查,这步是必须的,因为整个步骤2提供的样本标定信息要准确无误,否则会影响后面的检测网络的精度。用fasterrcnn在imagenet基础上微调一个通用的行人检测模型,基础网络用ZF网络,根据测试集的行人尺寸调整fasterrcnn里anchor的尺寸和宽长比,本来fasterrcnn做的多尺度的多目标检测,直接应用的到行人检测上,会有很多的无用计算,首先在特定场景下的行人检测,例如在监控摄像头下拍的行人的尺寸是个固定的范围,并不会有跳跃性的变化,此处就把基于fasterrcnn的多尺度搜索的尺度大小适当地变化,再结合行人自身的特点,行人的宽长比,行人的姿势等,调整搜索框的宽长比。当然这一步也涉及数据集的选择,方法和步骤1中的相似。训练出来的模型作为生成对抗模型的D(判别)模型。
步骤2.2:对图片样本做标定。
给生成对抗网络的生成式模型的输入给个噪声信号,生成模型回归出的boundingbox给判别模型来判别,也就是说生成模型回归出的行人坐标是经过判别模型认可的行人坐标,训练也是通过两个模型回归的差异只更新生成模型的参数。
步骤3:转换数据集格式。
通过步骤2已经有了正确的行人框了,标定好的数据集还不能直接放入R-FCN里训练,必须转换为相应的格式。
步骤4:训练R-FCN。
这里考虑到显存的问题,把原先R-FCN的resnet网络替换成VGG网络(不带全连接层),显存减少的同时,精度也有所下降,所以在VGG网络结构上做了一些修改,把一些ReLU函数替换成C.ReLU函数,加入了残差训练。具体步骤如下:
步骤4.1:修改VGG网络(附图)。
在CNN前期提取特征的时候,有对称(成对)的神经元,也就说有做同样计算的神经元,多余计算,C.ReLU减少多余计算,同时前期提取特征的速度是原来的2倍,且不影响精度。
深度卷积网络训练一直是个问题,对VGG的修改也引进了Batch Normalization,也就是“批规范化”,大量论文和实验证明用不用这个BN,简直就是两个世界,在每次SGD时,通过mini-batch来对相应的激励做规范化操作,使得结果(输出信号各个维度)的均值为0,方差为1.而最后的“scale and shift”操作则是为了让因训练所需而“刻意”加入的BN能够有可能还原最初的输入,从而保证整个网络的容纳能力。
步骤4.2:预训练VGG网络。
使用imagenet训练VGG网络,使之有个初步分类的能力。
步骤4.3:用步骤3做出来的数据集微调r-fcn(VGG),微调的时候anchor的参数需要修改。训练出来一个初步可用的行人检测模型。
步骤4.4:对模型进行权值更新。对新获取的数据集也做步骤2和步骤3的工作,然后再微调网络,更新模型。
步骤5:特定场景的行人检测测试。输入图片,放入R-FCN中,做前向传输,得出检测结果。

Claims (1)

1.特定场景下的行人检测方法,其特征在于,检测步骤如下:
步骤1,根据测试集即目标域选择合适的训练集即源域;
步骤2,在训练集上标定后面框架所需要的监督信息,运用对抗网络来完成训练集中的行人标注;
步骤3,将训练集转化为VOC形式输送至R-FCN进行训练;
步骤4,将R-FCN的训练模型对特定场景行人进行检测;
其中,步骤2所述对抗网络包含一个生成模型和一个判别模型;生成模型捕捉样本数据的分布,判别模型是一个二分类器,判别输入是真实数据还是生成的样本;
步骤2还包括如下步骤:
步骤21,训练生成对抗模型的判别模型;用Faster R-CNN在imagenet基础上微调一个通用的行人检测模型,基础网络用ZF网络,根据测试集的行人尺寸调整Faster R-CNN里anchor的尺寸和宽长比,训练出来的行人检测模型作为生成对抗模型的D模型即判别模型;
步骤22,对图片样本做标定;给生成对抗网络的生成模型输入噪声信号,生成模型回归出的bounding box给判别模型来判别,也就是说生成模型回归出的行人坐标是经过判别模型认可的行人坐标,训练也是通过两个模型回归的差异只更新生成模型的参数;
步骤4还包括如下步骤:
R-FCN的resnet网络替换成不带全连接层的VGG网络;
步骤41,修改VGG网络,把部分ReLU函数替换成C.ReLU函数,加入了残差训练;
步骤42,预训练VGG网络,使用imagenet训练VGG网络,使之有个初步分类的能力;
步骤43,用步骤3做出来的数据集微调R-FCN,微调的时候anchor的参数需要修改;训练出来一个初步可用的行人检测模型;
步骤44,对所述初步可用的行人检测模型进行权值更新,对新获取的数据集也做步骤2和步骤3的工作,然后再微调网络,更新所述初步可用的行人检测模型;
步骤45,特定场景的行人检测测试,输入图片,放入R-FCN中,做前向传输,得出检测结果;
在步骤1中,进一步的,根据测试集的行人大小、光线强度、摄像机角度来选择训练集。
CN201611146030.9A 2017-05-03 2017-05-03 特定场景下的行人检测方法 Active CN108804969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611146030.9A CN108804969B (zh) 2017-05-03 2017-05-03 特定场景下的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611146030.9A CN108804969B (zh) 2017-05-03 2017-05-03 特定场景下的行人检测方法

Publications (2)

Publication Number Publication Date
CN108804969A CN108804969A (zh) 2018-11-13
CN108804969B true CN108804969B (zh) 2022-07-12

Family

ID=64068972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611146030.9A Active CN108804969B (zh) 2017-05-03 2017-05-03 特定场景下的行人检测方法

Country Status (1)

Country Link
CN (1) CN108804969B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902572A (zh) * 2019-01-24 2019-06-18 哈尔滨理工大学 一种基于深度学习的车辆检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239907A (zh) * 2014-07-16 2014-12-24 华南理工大学 面向变化场景的远红外行人检测方法
CN105354548A (zh) * 2015-10-30 2016-02-24 武汉大学 一种基于ImageNet检索的监控视频行人重识别方法
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239907A (zh) * 2014-07-16 2014-12-24 华南理工大学 面向变化场景的远红外行人检测方法
CN105354548A (zh) * 2015-10-30 2016-02-24 武汉大学 一种基于ImageNet检索的监控视频行人重识别方法
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"R-FCN: Object Detection via Region-based Fully Convolutional Networks";Jifeng Dai, Yi Li, Kaiming He, Jian Sun;《https://arxiv.org/abs/1605.06409》;20160621;第1-7页及图2-3 *

Also Published As

Publication number Publication date
CN108804969A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
Lopez et al. Deep single image camera calibration with radial distortion
Xiong et al. Panicle-SEG: a robust image segmentation method for rice panicles in the field based on deep learning and superpixel optimization
US20210089895A1 (en) Device and method for generating a counterfactual data sample for a neural network
KR20190100881A (ko) 반도체 시편의 검사에 사용가능한 훈련 세트의 생성
CN113039563A (zh) 学习生成用于训练神经网络的合成数据集
WO2020055490A1 (en) Generating synthetic digital assets for a virtual scene including a model of a real-world object
CN110348319A (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN111027481B (zh) 基于人体关键点检测的行为分析方法及装置
CN110634116B (zh) 一种面部图像评分方法及摄像机
KR20090119664A (ko) 다수의 쓰레숄드 적응적 부스팅을 가진 객체 검출 및 분류를 위한 시스템 및 방법
WO2022218396A1 (zh) 图像处理方法、装置和计算机可读存储介质
CN111709966B (zh) 眼底图像分割模型训练方法及设备
CN110648305A (zh) 工业图像检测方法、系统与计算机可读记录介质
CN111461212A (zh) 一种用于点云目标检测模型的压缩方法
Pramunendar et al. A Robust Image Enhancement Techniques for Underwater Fish Classification in Marine Environment.
Kar et al. Benchmarking of deep learning algorithms for 3D instance segmentation of confocal image datasets
CN117011274A (zh) 自动化玻璃瓶检测系统及其方法
He et al. Human segmentation of infrared image for mobile robot search
US11403491B2 (en) Object recognition from images using cad models as prior
TWI845797B (zh) 物件辨識裝置及物件辨識方法
CN108804969B (zh) 特定场景下的行人检测方法
CN117173154A (zh) 玻璃瓶的在线图像检测系统及其方法
CN115116117A (zh) 一种基于多模态融合网络的学习投入度数据的获取方法
Berlier et al. Augmenting simulation data with sensor effects for improved domain transfer
CN109727256B (zh) 一种基于玻尔兹曼和目标先验知识的图像分割识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Pedestrian detection method in specific scenes

Effective date of registration: 20230129

Granted publication date: 20220712

Pledgee: Shanghai Pudong Development Bank Co.,Ltd. Zhangjiang science and technology sub branch

Pledgor: SHANGHAI AWARE INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2023980031181

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230818

Granted publication date: 20220712

Pledgee: Shanghai Pudong Development Bank Co.,Ltd. Zhangjiang science and technology sub branch

Pledgor: SHANGHAI AWARE INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2023980031181

PC01 Cancellation of the registration of the contract for pledge of patent right