CN107341483A - 一种基于旋转矫正网络的稳健行人检测方法 - Google Patents
一种基于旋转矫正网络的稳健行人检测方法 Download PDFInfo
- Publication number
- CN107341483A CN107341483A CN201710578588.2A CN201710578588A CN107341483A CN 107341483 A CN107341483 A CN 107341483A CN 201710578588 A CN201710578588 A CN 201710578588A CN 107341483 A CN107341483 A CN 107341483A
- Authority
- CN
- China
- Prior art keywords
- mrow
- layer
- result
- network
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明中提出的一种基于旋转矫正网络的稳健行人检测方法,其主要内容包括:网络结构、极坐标池化、数据输入,其过程为,首先使用一般卷积网络对已旋转的行人图像提取平面特征,通过系列批处理、最大池化操作,得到平面特征图的中间结果,再将其中间结果变换极坐标表示,输入到旋转矫正网络中进行极坐标池化,得到的结果与其原来的中间结果进行合并,输入到全连接网络得到输出结果,本发明可以处理不同姿态不同旋转角度的行人图像,提供了一个旋转估计模块来处理角度测量,提高了行人多姿态的识别效率及正确率。
Description
技术领域
本发明涉及行人检测领域,尤其是涉及了一种基于旋转矫正网络的稳健行人检测方法。
背景技术
行人检测在计算机视觉领域中具有重要意义,它在智能交通、机器人开发和视频监控等领域具有重要应用。行人检测的一个共同的任务就是识别人体的存在,它的目的在于确定人体在何种背景、甚至发生在什么环境条件下,随着人类生活水平的提高及公共道路上人们数量的急剧增多,如何准确地识别检测行人便成为了一种实用性很强的研究,尤其在汽车辅助驾驶技术、夜间行人监控、无人区域的巡逻等方面具有实际意义和巨大市场价值。
由于人类的每个个体的行走姿态不一致,加之不同的环境背景、摄影条件下,对人的检测并不容易。尤其在现实中,并不是每张摄影的图像中行人都以水平的角度呈现,因此,如何对付具有旋转角度的行人检测,是研究的难点,并且角度的不同,会给正确的检测带来难度。
本发明提出了一种基于旋转估计模块的新框架。使用一般卷积网络对已旋转的行人图像提取平面特征,通过系列批处理、最大池化操作,得到平面特征图的中间结果,再将其中间结果变换极坐标表示,输入到旋转矫正网络中进行极坐标池化,得到的结果与其原来的中间结果进行合并,输入到全连接网络得到输出结果,本发明可以处理不同姿态不同旋转角度的行人图像,提供了一个旋转估计模块来处理角度测量,提高了行人多姿态的识别效率及正确率。
发明内容
针对解决在行人处于旋转角度的检测问题,本发明的目的在于提供一种基于旋转矫正网络的稳健行人检测方法,提出了一种基于旋转估计模块的新框架。
为解决上述问题,本发明提供一种基于旋转矫正网络的稳健行人检测方法,其主要内容包括:
(一)网络结构;
(二)极坐标池化;
(三)数据输入。
其中,所述的网络结构,包括串联模块和并联模块两部分。
所述的串联模块,将卷积层、批处理层、最大池化层以及极坐标池化层按次序进行连接,上一层的结果经过该层计算得到中间结果后再传递到下一层进行操作,具体地包含三条串联线路:
(1)第一条:次序为卷积层、批处理层、最大池化层、卷积层、极坐标池化层;
(2)第二条:次序为第一条的次序后,再依次加上最大池化层、3个卷积层、最大池化层和平滑层;
(3)第三条:次序为第一条的次序后,再依次加上最大池化层、3个卷积层和极坐标池化层。
所述的并联模块,将三条串联线路的中间结果合并起来,具体地为两条并联线路:
(1)第一条:将第一条串联线路和第三条串联线路的结果合并;
(2)第二条:将第一条并联线路和第二条串联线路的结果合并。
所述的极坐标池化,包括特征图坐标转移和卷积网络嵌入两部分。
所述的特征图坐标转移,给定一个像素P,其平面坐标为(x,y),其宽高为(w,h),则极坐标正则化为:
则该像素极坐标可表示为:
由此,将平面的像素特征转移为极坐标表示方式。
所述的网络嵌入,将公式(1)(2)的中间结果模块快,具有相同的特征输出维度,即可嵌入到任意的卷积层中间进行承上启下,因此,整个网络结构的输入可以是特征图的旋转图或者真实图像的旋转图。
所述的数据输入,包括训练和测试两部分。
所述的训练,分别在主流数据库中进行人物旋转操作,具体为:
(1)选取手写字体数据库中像素大小为28×28的图像10000张用于训练,每张图像随机旋转,旋转角度在-90度到90度之间,即半圆;
(2)选取行人检测数据库中像素大小为480×640的图像42786张用于训练,每张图像统一在旋转角度-90度到90度之间取值。
所述的测试,在各训练集完成训练后,选取该训练集2000张图像进行验证操作,验证结果反馈到训练网络以调整权值,从而达到阈值后停止验证,再将剩下的5000张未使用图像输入训练网络,得到的结果进行统计即为正确检测率。
附图说明
图1是本发明一种基于旋转矫正网络的稳健行人检测方法的系统流程图。
图2是本发明一种基于旋转矫正网络的稳健行人检测方法的行人检测结果比较图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于旋转矫正网络的稳健行人检测方法的系统流程图。主要包括网络结构;极坐标池化;数据输入。
其中,网络结构,包括串联模块和并联模块两部分。
串联模块,将卷积层、批处理层、最大池化层以及极坐标池化层按次序进行连接,上一层的结果经过该层计算得到中间结果后再传递到下一层进行操作,具体地包含三条串联线路:
(1)第一条:次序为卷积层、批处理层、最大池化层、卷积层、极坐标池化层;
(2)第二条:次序为第一条的次序后,再依次加上最大池化层、3个卷积层、最大池化层和平滑层;
(3)第三条:次序为第一条的次序后,再依次加上最大池化层、3个卷积层和极坐标池化层。
并联模块,将三条串联线路的中间结果合并起来,具体地为两条并联线路:
(1)第一条:将第一条串联线路和第三条串联线路的结果合并;
(2)第二条:将第一条并联线路和第二条串联线路的结果合并。
极坐标池化,包括特征图坐标转移和卷积网络嵌入两部分。
特征图坐标转移,给定一个像素P,其平面坐标为(x,y),其宽高为(w,h),则极坐标正则化为:
则该像素极坐标可表示为:
由此,将平面的像素特征转移为极坐标表示方式。
网络嵌入,将公式(1)(2)的中间结果模块快,具有相同的特征输出维度,即可嵌入到任意的卷积层中间进行承上启下,因此,整个网络结构的输入可以是特征图的旋转图或者真实图像的旋转图。
数据输入,包括训练和测试两部分。
训练,分别在主流数据库中进行人物旋转操作,具体为:
(1)选取手写字体数据库中像素大小为28×28的图像10000张用于训练,每张图像随机旋转,旋转角度在-90度到90度之间,即半圆;
(2)选取行人检测数据库中像素大小为480×640的图像42786张用于训练,每张图像统一在旋转角度-90度到90度之间取值。
测试,在各训练集完成训练后,选取该训练集2000张图像进行验证操作,验证结果反馈到训练网络以调整权值,从而达到阈值后停止验证,再将剩下的5000张未使用图像输入训练网络,得到的结果进行统计即为正确检测率。
图2是本发明一种基于旋转矫正网络的稳健行人检测方法的行人检测结果比较图。如图所示,可以观察到第一行(RPN-BF方法)所检测到的行人都是垂直状态,丢失了很多细节,相比之下,第二行(本发明的方法)则随着行人的旋转角度而旋转,保留了更多的细节,并且检测范围更加准确。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于旋转矫正网络的稳健行人检测方法,其特征在于,主要包括网络结构(一);极坐标池化(二);数据输入(三)。
2.基于权利要求书1所述的网络结构(一),其特征在于,包括串联模块和并联模块两部分。
3.基于权利要求书2所述的串联模块,其特征在于,将卷积层、批处理层、最大池化层以及极坐标池化层按次序进行连接,上一层的结果经过该层计算得到中间结果后再传递到下一层进行操作,具体地包含三条串联线路:
(1)第一条:次序为卷积层、批处理层、最大池化层、卷积层、极坐标池化层;
(2)第二条:次序为第一条的次序后,再依次加上最大池化层、3个卷积层、最大池化层和平滑层;
(3)第三条:次序为第一条的次序后,再依次加上最大池化层、3个卷积层和极坐标池化层。
4.基于权利要求书2所述的并联模块,其特征在于,将三条串联线路的中间结果合并起来,具体地为两条并联线路:
(1)第一条:将第一条串联线路和第三条串联线路的结果合并;
(2)第二条:将第一条并联线路和第二条串联线路的结果合并。
5.基于权利要求书1所述的极坐标池化(二),其特征在于,包括特征图坐标转移和卷积网络嵌入两部分。
6.基于权利要求书5所述的特征图坐标转移,其特征在于,给定一个像素P,其平面坐标为(x,y),其宽高为(w,h),则极坐标正则化为:
<mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>-</mo>
<mfrac>
<mi>w</mi>
<mn>2</mn>
</mfrac>
<mo>,</mo>
<mo>-</mo>
<mi>y</mi>
<mo>+</mo>
<mfrac>
<mi>h</mi>
<mn>2</mn>
</mfrac>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
则该像素极坐标可表示为:
<mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>l</mi>
<mi>a</mi>
<mi>r</mi>
</mrow>
</msub>
<mo>=</mo>
<mrow>
<mo>(</mo>
<msqrt>
<mrow>
<msubsup>
<mi>x</mi>
<mrow>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<msubsup>
<mi>y</mi>
<mrow>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
<mo>,</mo>
<mi>a</mi>
<mi>t</mi>
<mi>a</mi>
<mi>n</mi>
<mn>2</mn>
<mo>(</mo>
<mrow>
<msub>
<mi>y</mi>
<mrow>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
由此,将平面的像素特征转移为极坐标表示方式。
7.基于权利要求书5所述的网络嵌入,其特征在于,将公式(1)(2)的中间结果模块快,具有相同的特征输出维度,即可嵌入到任意的卷积层中间进行承上启下,因此,整个网络结构的输入可以是特征图的旋转图或者真实图像的旋转图。
8.基于权利要求书1所述的数据输入(三),其特征在于,包括训练和测试两部分。
9.基于权利要求书8所述的训练,其特征在于,分别在主流数据库中进行人物旋转操作,具体为:
(1)选取手写字体数据库中像素大小为28×28的图像10000张用于训练,每张图像随机旋转,旋转角度在-90度到90度之间,即半圆;
(2)选取行人检测数据库中像素大小为480×640的图像42786张用于训练,每张图像统一在旋转角度-90度到90度之间取值。
10.基于权利要求书8所述的测试,其特征在于,在各训练集完成训练后,选取该训练集2000张图像进行验证操作,验证结果反馈到训练网络以调整权值,从而达到阈值后停止验证,再将剩下的5000张未使用图像输入训练网络,得到的结果进行统计即为正确检测率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710578588.2A CN107341483A (zh) | 2017-07-14 | 2017-07-14 | 一种基于旋转矫正网络的稳健行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710578588.2A CN107341483A (zh) | 2017-07-14 | 2017-07-14 | 一种基于旋转矫正网络的稳健行人检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107341483A true CN107341483A (zh) | 2017-11-10 |
Family
ID=60218717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710578588.2A Withdrawn CN107341483A (zh) | 2017-07-14 | 2017-07-14 | 一种基于旋转矫正网络的稳健行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107341483A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241968A (zh) * | 2018-09-25 | 2019-01-18 | 广东工业大学 | 图像内容倾斜角度预测网络训练方法及修正方法、系统 |
CN110363751A (zh) * | 2019-07-01 | 2019-10-22 | 浙江大学 | 一种基于生成协作网络的大肠内视镜息肉检测方法 |
CN113128662A (zh) * | 2020-01-16 | 2021-07-16 | 波音公司 | 卷积神经网络及基于卷积神经网络的图像处理方法 |
-
2017
- 2017-07-14 CN CN201710578588.2A patent/CN107341483A/zh not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
XINSHUO WENG等: "Rotation Rectification Network for Robust Pedestrian Detection", 《ARXIV(HTTPS://ARXIV.ORG/ABS/1706.08917V1)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241968A (zh) * | 2018-09-25 | 2019-01-18 | 广东工业大学 | 图像内容倾斜角度预测网络训练方法及修正方法、系统 |
CN109241968B (zh) * | 2018-09-25 | 2022-04-19 | 广东工业大学 | 图像内容倾斜角度预测网络训练方法及修正方法、系统 |
CN110363751A (zh) * | 2019-07-01 | 2019-10-22 | 浙江大学 | 一种基于生成协作网络的大肠内视镜息肉检测方法 |
CN110363751B (zh) * | 2019-07-01 | 2021-08-03 | 浙江大学 | 一种基于生成协作网络的大肠内视镜息肉检测方法 |
CN113128662A (zh) * | 2020-01-16 | 2021-07-16 | 波音公司 | 卷积神经网络及基于卷积神经网络的图像处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695522B (zh) | 一种平面内的旋转不变人脸检测方法、装置及存储介质 | |
CN104063719B (zh) | 基于深度卷积网络的行人检测方法及装置 | |
WO2017133009A1 (zh) | 一种基于卷积神经网络的深度图像人体关节定位方法 | |
CN111242127B (zh) | 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法 | |
Cao et al. | Rapid detection of blind roads and crosswalks by using a lightweight semantic segmentation network | |
CN103714548B (zh) | 基于视觉注意的红外图像与可见光图像配准方法 | |
WO2020103417A1 (zh) | 一种bmi评测方法、装置及计算机可读存储介质 | |
CN109858461A (zh) | 一种密集人群计数的方法、装置、设备以及存储介质 | |
CN107330357A (zh) | 基于深度神经网络的视觉slam闭环检测方法 | |
CN104035557B (zh) | 一种基于关节活跃度的Kinect动作识别方法 | |
CN109359539A (zh) | 注意力评估方法、装置、终端设备及计算机可读存储介质 | |
CN107657639A (zh) | 一种快速定位目标的方法和装置 | |
CN107808129A (zh) | 一种基于单个卷积神经网络的面部多特征点定位方法 | |
CN102789637B (zh) | 基于改进的susan算子的显著性区域提取 | |
CN105046701B (zh) | 一种基于构图线的多尺度显著目标检测方法 | |
CN103839277A (zh) | 一种户外大范围自然场景的移动增强现实注册方法 | |
CN107123188A (zh) | 基于模板匹配算法和边缘特征的伤票识别与定位方法 | |
CN107341483A (zh) | 一种基于旋转矫正网络的稳健行人检测方法 | |
CN109840508A (zh) | 一个基于深度网络架构自动搜索的机器人视觉控制方法,设备及存储介质 | |
CN112419326B (zh) | 图像分割数据处理方法、装置、设备及存储介质 | |
CN103902992B (zh) | 人脸识别方法 | |
CN106920247A (zh) | 一种基于比对网络的目标跟踪方法及装置 | |
CN106874913A (zh) | 一种菜品检测方法 | |
CN110458128A (zh) | 一种姿态特征获取方法、装置、设备及存储介质 | |
CN109508661A (zh) | 一种基于物体检测和姿态估计的举手者检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20171110 |
|
WW01 | Invention patent application withdrawn after publication |