CN107330387B - 基于图像数据的行人检测方法 - Google Patents
基于图像数据的行人检测方法 Download PDFInfo
- Publication number
- CN107330387B CN107330387B CN201710475390.1A CN201710475390A CN107330387B CN 107330387 B CN107330387 B CN 107330387B CN 201710475390 A CN201710475390 A CN 201710475390A CN 107330387 B CN107330387 B CN 107330387B
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- picture
- data
- yolo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种基于图像数据的行人检测方法,包括以下步骤:(1)对于数据的预处理,在网络结构的第一层添加一层用来将数据读入;(2)YOLO原来的全连接层用卷积层替代,每个卷积层后面加一个ReLU层,然后用Reshape层改变输入的维度;(3)对于Loss Function的实现。本发明的有益效果是:将Fast YOLO实现为基于Caffe接口和GoogLeNet的网络,原网络中的全连接层改成卷积层实现,这不仅可以加快检测速度,而且实验结果表明还可以提升检测率。
Description
技术领域
本发明涉及行人检测方法,尤其涉及一种基于图像数据的行人检测方法。
背景技术
基于HOG和SVM的行人检测是非常经典的检测模型,HOG已经被证明是一种对人体检测非常有效的描述子。
当今流行的物体检测很多是基于神经网络的,基于神经网络的检测对窗口尺寸不敏感。RCNN、DeepPed检测行人时都是使用一种称为SelectiveSearch的方法先对输入图像进行一些处理后,将处理后的结果送入神经网络。这些图像检测网络在人脸识别领域具有比较高的地位。
基于HOG和SVM的行人检测方法,对于检测窗口的大小比较敏感,基于低空飞行平台拍摄的视频有时在行人大小上差距很大,该方法并不适用。
RCNN、DeepPed检测行人用到的Selective Search方法在一张图片中提取几千个候选框,每一个候选框都要送入神经网络进行判断,因此这种方法十分慢。在进行行人检测时,实时性问题还是比较重要的。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于图像数据的行人检测方法。
本发明提供了一种基于图像数据的行人检测方法,包括以下步骤:
(1)对于数据的预处理,在网络结构的第一层添加一层用来将数据读入;(2)YOLO原来的全连接层用卷积层替代,每个卷积层后面加一个ReLU层,然后用Reshape层改变输入的维度;
(3)对于Loss Function的实现,首先在layers中添加detection_loss_layer层和eval_detection_layer层,然后在用于训练的网络配置文件中,在网络结构的最后添加DetectionLoss层来实现原YOLO网络中的Loss Function,以调整网络参数;在用于预测的网络配置文件中,在DetectionLoss层的后面添加最后一层EvalDetection层,用于实现最后的向量输出,包括对各个类的可信度的预测以及对坐标位置的预测。
作为本发明的进一步改进,在步骤(1)中,在数据输入时,将图片正则化成448×448像素的图片,存成lmdb格式然后供网络读取。
作为本发明的进一步改进,通过利用Caffe提供的工具convert_box_data,将图片正则化成448×448像素的图片,存成lmdb格式然后供网络读取。
本发明的有益效果是:将Fast YOLO实现为基于Caffe接口和GoogLeNet的网络,原网络中的全连接层改成卷积层实现,这不仅可以加快检测速度,而且实验结果表明还可以提升检测率。
附图说明
图1是本发明一种基于图像数据的行人检测方法的网络结构图。
具体实施方式
下面结合附图说明及具体实施方式对本发明作进一步说明。
如图1所示,一种基于图像数据的行人检测方法,主要是结合了传统的HOG(方向梯度直方图,Histogram of Oriented Gradient)+SVM(支持向量机SVM,Support VectorMachine)行人检测方法以及低秩稀疏矩阵分解的方法。其中,低秩稀疏矩阵分解采用GoDec模型解决这一问题。GoDec模型的目的是对于一个矩阵来说,可以通过算法处理,将它分为三部分:低秩的部分,离散的部分以及噪声:
本发明对Fast YOLO最主要的修改有三部分:数据的预处理,Fast YOLO网络结构的修改以及最终的Loss Function的实现。
首先,GoogLeNet的网络结构如表4-1所示。
表4-1 GoogLeNet结构
GoogLeNet的最主要的动机以及改进的部分是在保持计算代价是常量的同时,增加了网络结构的宽度和深度,而实现这一点的关键在于GoogLeNet使用了创新性的感知层(Inception Module)。相比而言,原FastYOLO是一个只有9层卷积层的网络,层数较少,可能会有宽度及深度不足的情况,导致网络在参数方面有所丢失。因此,本文改用GoogLeNet网络结构,并将Fast YOLO的思想用在GoogLeNet上,以提高原网络结构在宽度和深度上不足的问题。
修改过后的网络结构如图1所示,省略了中间部分与GoogLeNet相似的结构。
对于Fast YOLO的网络结构的修改,本文基于GoogLeNet原来结构进行修改,一共分为以下几个部分:
(1)对于数据的预处理,由于GoogLeNet处理的是从lmdb获取的数据,而在程序中使用Caffe封装好的BoxData可以完成从lmdb到BoxData的转变,因此在训练时,网络结构的第一层首先要添加一层用来将数据读入。
(2)YOLO原来的全连接层用卷积层替代,每个卷积层后面加一个ReLU层,然后用Reshape层改变输入的维度。
(3)对于Loss Function的实现,首先在layers中添加detection_loss_layer层和eval_detection_layer层。然后在用于训练的网络配置文件中,在网络结构的最后添加DetectionLoss层来实现原YOLO网络中的Loss Function,以调整网络参数;在用于预测的网络配置文件中,在DetectionLoss层的后面添加最后一层EvalDetection层,用于实现最后的向量输出,包括对各个类的可信度的预测以及对坐标位置的预测。
在数据输入时,需要将图片正则化成448×448像素的图片,存成lmdb格式然后供网络读取,可通过利用Caffe提供的工具convert_box_data方便的完成这一操作。
修改过后的YOLO网络一共有24层卷积层,并且包含原GoogLeNet的感知层(inception module),与Fast YOLO的网络结构相比,虽然修改过后的网络层数变多,但是由于去掉了全连接层,因此速度相差预期没有很多。
本发明提供的一种基于图像数据的行人检测方法,主要研究现有的FastYOLO网络,并对其网络结构进行改进,将Fast YOLO实现为基于Caffe接口和GoogLeNet的网络,原网络中的全连接层改成卷积层实现,这不仅可以加快检测速度,而且实验结果表明还可以提升检测率。在训练神经网络结构时,由于数据库图像中的特殊性,将采用重新标定的一万多个正样本。本发明将基于改进的Fast YOLO网络设计实现一个行人检测图像处理系统,该系统能实现捕捉图像,检测行人,控制摄像头位置等功能。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (1)
1.一种基于图像数据的行人检测方法,其特征在于,包括以下步骤:
(1)对于数据的预处理,在网络结构的第一层添加一层用来将数据读入;
(2)YOLO原来的全连接层用卷积层替代,每个卷积层后面加一个ReLU层,然后用Reshape层改变输入的维度;
(3)对于Loss Function的实现,首先在layers中添加detection_loss_layer层和eval_detection_layer层,然后在用于训练的网络配置文件中,在网络结构的最后添加DetectionLoss层来实现原YOLO网络中的Loss Function,以调整网络参数;在用于预测的网络配置文件中,在DetectionLoss层的后面添加最后一层EvalDetection层,用于实现最后的向量输出,包括对各个类的可信度的预测以及对坐标位置的预测;
其中,
在步骤(1)中,在数据输入时,将图片正则化成448×448像素的图片,存成lmdb格式然后供网络读取;
通过利用Caffe提供的工具convert_box_data,将图片正则化成448×448像素的图片,存成lmdb格式然后供网络读取;
改用GoogLeNet网络结构,并将Fast YOLO的思想用在GoogLeNet上,以提高原网络结构在宽度和深度上不足的问题;
GoogLeNet的网络结构如下所示:
GoogLeNet结构
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710475390.1A CN107330387B (zh) | 2017-06-21 | 2017-06-21 | 基于图像数据的行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710475390.1A CN107330387B (zh) | 2017-06-21 | 2017-06-21 | 基于图像数据的行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107330387A CN107330387A (zh) | 2017-11-07 |
CN107330387B true CN107330387B (zh) | 2021-04-23 |
Family
ID=60195517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710475390.1A Active CN107330387B (zh) | 2017-06-21 | 2017-06-21 | 基于图像数据的行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330387B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI666941B (zh) | 2018-03-27 | 2019-07-21 | 緯創資通股份有限公司 | 多層次狀態偵測系統與方法 |
CN108510000B (zh) * | 2018-03-30 | 2021-06-15 | 北京工商大学 | 复杂场景下行人细粒度属性的检测与识别方法 |
CN108527382A (zh) * | 2018-04-09 | 2018-09-14 | 上海方立数码科技有限公司 | 一种巡检机器人 |
CN109165585A (zh) * | 2018-06-15 | 2019-01-08 | 沈阳理工大学 | 一种改进的基于yolo v2的船舶目标检测方法 |
CN110070074B (zh) * | 2019-05-07 | 2022-06-14 | 安徽工业大学 | 一种构建行人检测模型的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355188B (zh) * | 2015-07-13 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 图像检测方法及装置 |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
CN105678276A (zh) * | 2016-01-19 | 2016-06-15 | 武汉大学 | 一种人体动作特征提取方法 |
CN106845374B (zh) * | 2017-01-06 | 2020-03-27 | 清华大学 | 基于深度学习的行人检测方法及检测装置 |
-
2017
- 2017-06-21 CN CN201710475390.1A patent/CN107330387B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107330387A (zh) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330387B (zh) | 基于图像数据的行人检测方法 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
US11244191B2 (en) | Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model | |
WO2020098074A1 (zh) | 人脸样本图片标注方法、装置、计算机设备及存储介质 | |
CN107358262B (zh) | 一种高分辨率图像的分类方法及分类装置 | |
CN110223292B (zh) | 图像评估方法、装置及计算机可读存储介质 | |
US20190130229A1 (en) | Deep salient content neural networks for efficient digital object segmentation | |
WO2021051545A1 (zh) | 基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质 | |
WO2024001123A1 (zh) | 基于神经网络模型的图像识别方法、装置及终端设备 | |
GB2555136A (en) | A method for analysing media content | |
CN111989689A (zh) | 用于识别图像内目标的方法和用于执行该方法的移动装置 | |
CN110084238B (zh) | 基于LadderNet网络的指静脉图像分割方法、装置和存储介质 | |
CN109409210B (zh) | 一种基于ssd框架的人脸检测方法及系统 | |
EP3234865B1 (en) | Techniques for providing user image capture feedback for improved machine language translation | |
TWI441096B (zh) | 適用複雜場景的移動偵測方法 | |
JP2022133378A (ja) | 顔生体検出方法、装置、電子機器、及び記憶媒体 | |
CN113255557B (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
US20190311186A1 (en) | Face recognition method | |
CN106127222B (zh) | 一种基于视觉的字符串相似度计算方法及相似性判断方法 | |
WO2018036286A1 (zh) | 目标对象的识别方法和装置,及机器人 | |
WO2023083231A1 (en) | System and methods for multiple instance segmentation and tracking | |
JP2015036939A (ja) | 特徴抽出プログラム及び情報処理装置 | |
CN114926734B (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
Mustafa et al. | Accuracy enhancement of a blind image steganalysis approach using dynamic learning rate-based CNN on GPUs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |