CN109063559B - 一种基于改良区域回归的行人检测方法 - Google Patents

一种基于改良区域回归的行人检测方法 Download PDF

Info

Publication number
CN109063559B
CN109063559B CN201810685848.0A CN201810685848A CN109063559B CN 109063559 B CN109063559 B CN 109063559B CN 201810685848 A CN201810685848 A CN 201810685848A CN 109063559 B CN109063559 B CN 109063559B
Authority
CN
China
Prior art keywords
region
pedestrian
candidate
convolutional neural
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810685848.0A
Other languages
English (en)
Other versions
CN109063559A (zh
Inventor
姚莉
周威威
吴含前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810685848.0A priority Critical patent/CN109063559B/zh
Publication of CN109063559A publication Critical patent/CN109063559A/zh
Application granted granted Critical
Publication of CN109063559B publication Critical patent/CN109063559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改良区域回归的行人检测方法,包括标记训练样本;构建包括卷积特征提取、语义分割层、分类层和区域回归层的区域生成网络,利用训练样本迭代更新其参数;构建包括卷积特征提取、语义分割层和分类层的深度卷积神经网络,利用前一步获取到的多个候选区域迭代更新其参数;获取待检测行人的图像;将待检测图像输入训练好的区域生成网络,得到多个候选区域及每个候选区域p被预测为行人和背景的置信度评分;将前一步得到的多个候选区域,选择前Ntop个输入训练好的深度卷积神经网络,得到每个候选区域q被预测为行人和背景的置信度评分;融合前两步的结果,得到候选区域q被预测为行人的概率。该方法通过融合多网络输出,能够提供端到端的行人检测方案。

Description

一种基于改良区域回归的行人检测方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于深度学习的的行人检测技术。
背景技术
行人检测作为目标检测的一个主要分支,主要针对各种姿态的行人进行检测和识别,无论是公共场所的监控安防预警系统,还是汽车的自动驾驶技术,有非常普遍的应用场景。针对行人进行检测的各种算法和框架系统近年来也不断涌现,传统的机器学习方法利用提取图像特征如积分通道特征(ICF)、RotatedFilters和Checkerboard检测行人。此外,基于神经网络的深度学习方法也应用于行人检测中,利用卷积神经网络(CNN)可以实现端对端的行人检测,得益于GPU加速技术,深度学习逐渐成为行人检测的主流方法。
目前国内外关于行人检测还存在着有待解决的问题:
(1)对于依赖提取图像特征的机器学习方法而言,不仅会受到行人形状、角度和相似干扰物的影响,同时也对训练集比较敏感,容易受到错误标注的“噪声”影响。
(2)多人场景下的人群互遮挡问题突出,但目前大多行人检测别算法并没有对此类遮挡情况进行特殊处理,针对此类问题的优化也较少,在公共场景和人群聚集的情况下会产生行人位置偏移或定位错误,进而影响行人检测的准确率。
(3)非行人干扰物的影响,包括前景物体的遮挡和类似行人的物体在实际场景中也比较常见,在干扰物与行人位置比较接近的情况下,现有方法依赖色彩等特征检测效果不佳。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供了一种基于改良区域回归的行人检测方法,使用深度学习技术,通过融合多网络输出,能够提供端到端的行人检测方案。
技术方案:本发明采用如下技术方案:
一种基于改良区域回归的行人检测方法,包括如下步骤:
(1)采用若干包含行人的图像作为训练样本,在训练样本图像中用矩形框标记行人,所述矩形框为标记包围盒;
(2)构建区域生成网络,所述区域生成网络包括卷积特征提取、语义分割层、分类层和区域回归层;将训练样本输入所述区域生成网络中,通过最小化区域生成网络的损失函数来迭代更新区域生成网络的参数,直至区域生成网络的损失函数达到预设的收敛条件,得到训练好的区域生成网络、多个候选区域及每个候选区域被预测为行人和背景的置信度评分;所述区域生成网络的损失函数为区域生成网络中语义分割层、分类层和区域回归层损失函数的加权和;
(3)构建深度卷积神经网络,所述深度卷积神经网络包括卷积特征提取、语义分割层和分类层;将步骤(2)获取到的多个候选区域,选择被预测为行人的置信度评分最高的前Ntop个作为深度卷积神经网络的输入,通过最小化深度卷积神经网络的损失函数来迭代更新深度卷积神经网络的参数,直至深度卷积神经网络的损失函数达到预设的收敛条件,得到训练好的深度卷积神经网络、Ntop个候选区域中每个候选区域被预测为行人和背景的置信度评分;所述深度卷积神经网络的损失函数为深度卷积神经网络中语义分割层和分类层损失函数的加权和;
(4)获取待检测行人的图像,将其预处理,使其大小匹配区域生成网络输入图片的大小;
(5)将预处理后的待检测图像输入步骤(2)训练好的区域生成网络,得到多个候选区域及每个候选区域p被预测为行人和背景的置信度评分,记为[p,rpn_score1,rpn_score0];其中rpn_score1为区域p被预测为行人的置信度评分,rpn_score0为区域p被预测为背景的置信度评分;
(6)将步骤(5)得到的多个候选区域,选择被预测为行人的置信度评分最高的前Ntop个输入步骤(3)训练好的深度卷积神经网络,进行进一步分类,得到每个候选区域q被预测为行人和背景的置信度评分,记为[q,cnn_score1,cnn_score0];其中cnn_score1为区域q被预测为行人的置信度评分,cnn_score0为区域q被预测为背景的置信度评分;
(7)融合区域候选网络和深度卷积神经网络的结果,得到候选区域q被预测为行人的概率fusionscore(q):
Figure BDA0001711643890000031
其中rpn_scoreq1为区域q在区域候选网络中被预测为行人的置信度评分,rpn_scoreq0为区域q在区域候选网络中被预测为背景的置信度评分;cnn_scoreq1为区域q在深度卷积神经网络中被预测为行人的置信度评分,cnn_scoreq0为区域q在深度卷积神经网络中被预测为背景的置信度评分。
所述步骤(2)具体包括:
(21)训练样本图像输入构建的区域生成网络,经过卷积特征提取生成卷积特征图;在最后一层卷积特征图上,构建一层卷积层,使用anchor机制配合卷积核窗口滑动,产生大小和比例各不相同的anchor,映射到原图对应不同的候选区域;
(22)步骤(21)生成的候选区域根据与标记包围盒的重叠区域大小分成正区域样本集合P+和负区域样本集合P-
(23)区域生成网络的分类层对候选区域进行简单分类,输出每个候选区域属于行人和背景的概率作为该候选区域被预测为行人和背景的置信度评分;定义区域生成网络分类层的损失函数Lcls(p);
(24)区域生成网络的区域回归层预测出候选区域的位置及大小;定义区域生成网络区域回归层的损失函数Lreg(p);
(25)如果有多个候选区域对应一个标记包围盒的情况,采用soft-NMS方法进行区域筛选,剔除重复的候选区域;
(26)对训练样本图像做语义标记,标记包围盒所在区域为行人语义,其余区域为背景语义;对候选区域进行box-based的语义分割,定义区域生成网络中语义分割层的损失函数Lseg(p);
(27)区域生成网络的损失函数为:
L(p)=αp*Lcls(p)+αl*Lreg(p)+αs*Lseg(p)
其中,αp、α1和αs为调节权重的超参数;
通过最小化区域生成网络的损失函数L(p)来迭代更新区域生成网络的参数,直至区域生成网络的损失函数达到预设的收敛条件,得到训练好的区域生成网络、多个候选区域及每个候选区域被预测为行人和背景的置信度评分。
所述步骤(3)具体包括:
(31)将步骤(2)获取到的多个候选区域,选择被预测为行人的置信度评分最高的前Ntop个作为深度卷积神经网络的输入;
(32)深度卷积神经网络的特征提取部分基于VGG-16的卷积模块,共享卷积部分的网络权重,因此可以根据相应比例,直接将候选区域的位置映射到共享特征图上的对应特征区域,通过ROI Pooling输出固定维度的特征向量;
(33)深度卷积神经网络的分类层输出相应的行人或背景置信度评分;定义深度卷积神经网络的分类层的损失函数
Figure BDA0001711643890000041
(34)对深度卷积神经网络的输入做语义标记,标记包围盒所在区域为行人语义,其余区域为背景语义;对候选区域进行box-based的语义分割,定义区域生成网络中语义分割层的损失函数
Figure BDA0001711643890000042
(35)深度卷积神经网络的损失函数为:
Figure BDA0001711643890000043
其中βp、βs为调节权重的超参数;
通过最小化深度卷积神经网络的损失函数来迭代更新深度卷积神经网络的参数,直至深度卷积神经网络的损失函数达到预设的收敛条件,得到训练好的深度卷积神经网络、Ntop个候选区域中每个候选区域被预测为行人和背景的置信度评分。
所述区域生成网络中分类层的损失函数为:
Figure BDA0001711643890000044
其中ip表示候选区域p经过softmax层归一化后,预测为行人的概率;ip 为样本标签,如果p为正样本,即:p∈P+,则ip =1,如果p为负样本,即:p∈P-,则ip =0;
区域生成网络区域回归层的损失函数为:
Lreg(p)=γa*Attr(p)+γg*RepG(p) (2)
其中γa、γg为调节不同子项权重的超参数;Attr为目标包围盒区域的损失函数,Attr(p)=∑p∈P+SmoothL1(ti-ti )i∈{x,y,w,h},ti={tx,ty,tw,th}为回归过程中候选区域p相对于初始anchor位置的平移缩放参数,ti ={tx ,ty ,tw ,th }为目标包围盒gp相对于初始anchor位置的平移缩放参数;所述目标包围盒gp为与候选区域重叠度最大的标记包围盒;
定义
Figure BDA0001711643890000051
为除目标包围盒gp外,与候选区域p相交且重叠度最大的标记包围盒,RepG(p)为区域
Figure BDA0001711643890000052
的损失函数,
Figure BDA0001711643890000053
区域生成网络中语义分割层的损失函数为:
Figure BDA0001711643890000054
其中,sp表示候选区域p属于为行人语义遮罩的概率,sp 是语义标记,如果该区域表示为行人,则sp =1,否则sp =0。
所述深度卷积神经网络中分类层的损失函数为:
Figure BDA0001711643890000055
Figure BDA0001711643890000056
其中P*为每一张图像中的候选区域集合;widthp为候选区域p的宽度,
Figure BDA0001711643890000057
为集合P*内所有区域的平均宽度。
有益效果:与现有技术相比,本发明公开的行人检测方法具有以下优点:1、本发明基于深度学习技术,结合区域生成网络和卷积神经网络,融合两个阶段网络的输出,可以提供端到端的行人检测;2、本发明改进了传统的区域回归策略,并应用在区域生成网络中,候选行人区域在区域回归的过程中,不仅需要靠近预测的行人区域,还需要远离临近的非目标行人,减少定位时的偏移;3、本发明在卷积特征层上通过增加语义分割层,生成包含行人和背景信息的语义遮罩,能够对后续的分类提供有效帮助,减少临近干扰物的影响。
附图说明
图1为区域生成网络示意图;
图2为改良区域回归策略示意图。
图3为本发明公开的基于改良区域回归的行人检测流程示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明的具体实施案例做说明。
本发明公开了一种基于改良区域回归的行人检测方法,包括训练阶段和检测阶段,步骤如下:
步骤1、采用若干包含行人的图像作为训练样本,在训练样本图像中用矩形框标记行人;训练样本图像的选择要尽可能涵盖多种情况,如图像中有一个或多个行人,多个行人位置分散,行人有遮挡等;对训练样本图像进行手工标定,用矩形框,即标记包围盒来标记图像中的行人,标记包围盒的大小依据行人的大小设置;
步骤2、构建区域生成网络RPN,如图1所示,区域生成网络的包括卷积特征提取、语义分割层、分类层(cls层)和区域回归层(reg层);具体包括如下步骤:
(21)训练样本图像输入构建的区域生成网络,经过卷积特征提取生成卷积特征图;在最后一层卷积特征图上,构建一层卷积层,使用anchor机制配合卷积核窗口滑动,产生大小和比例各不相同的anchor,映射到原图对应不同的候选区域;本实施例中卷积特征提取部分采用基于VGG-16的卷积模块,经过卷积特征提取网络生成卷积特征图;构建的卷积层卷积核为3×3,每个滑动窗口生成9个anchor;在经过多层卷积和池化后的高维卷积特征上,即在最后一层卷积特征图上,构建一层语义分割层作为融合语义信息的具体实现方式,生成表示行人和背景语义的两类遮罩;本实施例中通过卷积核大小为1×1,步长为1,输出深度为2的全连接层来实现,这样可以将语义信息与卷积特征图直接融合;
(22)步骤(21)生成的候选区域根据与标记包围盒的重叠区域大小分成正区域样本集合P+和负区域样本集合P-,具体步骤为:
设区域生成网络中候选区域为p=[xp,yp,wp,hp],目标包围盒的对应区域为g=[xg,yg,wg,hg];区域中的x,y,w,h四个参数分别表示区域的中心坐标以及宽高长度。每一张图像都有集合P*={p}和G*={g},分别表示该图像的所有候选区域和真实标定的包围盒区域。将P*中满足IoU(p,g)>ε,ε∈[0,1]的区域p作为正样本(positive proposal),IoU(p,g)<ε的作为负样本(false proposal),分别表示为集合P+和P-
(23)区域生成网络的分类层对候选区域进行简单分类,输出每个候选区域属于行人和背景的概率作为该候选区域被预测为行人和背景的置信度评分,即cls score;RPN的分类层使用softmax逻辑损失定义区域生成网络分类层的损失函数Lc1s(p):
Figure BDA0001711643890000071
其中ip表示候选区域p经过softmax层归一化后,预测为行人的概率;ip 为样本标签,如果p为正样本,即:p∈P+,则ip =1,如果p为负样本,即:p∈P-,则ip =0;
(24)区域生成网络的区域回归层预测出候选区域的位置postion及大小;
候选区域经过区域回归后,会出现多个候选区域对应一个标记包围盒的情况,因此需要进行区域筛选,剔除重复区域,目前常见的区域筛选算法为非最大值抑制策略(nonmaximum suppression,NMS)。如图2所示,虚线框为预测包围盒,即目标包围盒,是与候选区域重叠度最大的标记包围盒;这种情况下,偏移的候选区域可能会在邻近行人标记Y进行区域筛选时因为重叠较大而被筛除,进而影响到目标行人标记X的识别过程。为了解决此问题,本发明公开了一种改良区域回归策略用于候选区域的位置回归,使生成的行人候选区域在回归过程中受到多方面因素的影响。步骤如下:
首先对于正样本中的候选区域p而言,如果p与目标包围盒集合中的某个目标包围盒重叠率大于固定的阈值,需要进行区域回归,尽可能的趋近最接近的目标包围盒,这一过程也可以被视为是来自目标区域的吸引作用。
其次,在本发明中,为了减少在拥挤情况下人群之间的遮挡对识别产生的不利影响,在区域回归过程中,除了目标区域以外,还将近邻的非目标区域考虑进来。候选区域在位置回归,接近目标区域的过程中,需要尽可能的远离最接近的非目标区域。这一过程也可以被视为来自非目标区域的排斥作用。
以上策略最终体现在区域回归的损失函数上,因此,区域回归的损失函数Lreg(p)包含两部分:
Lreg(p)=γa*Attr(p)+γg*RepG(p) (2)
其中γa、γg为调节不同子项权重的超参数;Attr为目标包围盒区域的损失函数,定义
Figure BDA0001711643890000081
为除目标包围盒gp外,与候选区域p相交且重叠度最大的标记包围盒,RepG(p)为区域
Figure BDA0001711643890000082
的损失函数;
(24-1)来自目标区域的吸引作用
对于正样本区域p∈P+,它所属的目标区域gp
gp=argmax[IoU(p,g)]g∈G*#(公式3)
在回归过程中,区域p需要不断靠近gp所在位置,可以看做被吸引过去。使用Smooth L1作为这部分的回归损失。
Figure BDA0001711643890000083
其中ti={tx,ty,tw,th}为回归过程中候选区域p相对于初始anchor位置的平移缩放参数,ti ={tx ,ty ,tw ,th }为目标包围盒gp相对于初始anchor位置的平移缩放参数;所述目标包围盒gp为与候选区域重叠度最大的标记包围盒;每次迭代通过更新ti来改变候选区域(预测包围盒)的位置和大小。ti和ti 具体为:
Figure BDA0001711643890000084
Figure BDA0001711643890000085
(24-2)来自非目标区域的排斥作用
定义存在区域
Figure BDA0001711643890000086
Figure BDA0001711643890000087
Figure BDA0001711643890000088
为除gp外,与p相交且IoU(p,g)最大的标记包围盒g。排斥作用体现在区域p逐渐靠近目标包围盒的过程中,尽量远离与其最接近的非目标区域
Figure BDA0001711643890000089
使用ln函数作为这一部分的损失:
Figure BDA0001711643890000091
Figure BDA0001711643890000092
因此RepG为定义域为[0,1],值域为[0,+∞]的单调递增函数,且在定义域内可导。可见,如果区域p与非目标行人
Figure BDA0001711643890000093
非常接近,即
Figure BDA0001711643890000094
较大,则损失函数惩罚就越大。所以在最小化RepG的过程中,p会逐渐远离
Figure BDA0001711643890000095
(25)如果有多个候选区域对应一个标记包围盒的情况,采用soft-NMS方法进行区域筛选,剔除重复的候选区域;
(26)对训练样本图像做语义标记,标记包围盒所在区域为行人语义,其余区域为背景语义;以一层语义分割层作为融合语义信息的具体实现方式,构建在经过多层卷积和池化后的高维卷积特征上,生成表示行人和背景语义的两类遮罩,通过卷积核大小为1×1,步长为1,输出深度为2的全连接层来实现,这样可以将语义信息与卷积特征图直接融合。
对候选区域进行box-based的语义分割,定义区域生成网络中语义分割层的损失函数Lseg(p);
区域生成网络中语义分割层的损失函数为:
Figure BDA0001711643890000096
其中,sp表示候选区域p属于为行人语义遮罩的概率,sp 是语义标记,如果该区域表示为行人,则sp =1,否则sp =0。
(27)区域生成网络的损失函数为:
L(p)=αp*Lcls(p)+αl*Lreg(p)+αs*Lseg(p)
其中,αp、α1和αs为调节权重的超参数;
通过最小化区域生成网络的损失函数L(p)来迭代更新区域生成网络的参数,直至区域生成网络的损失函数达到预设的收敛条件,得到训练好的区域生成网络、多个候选区域及每个候选区域被预测为行人和背景的置信度评分。
步骤3、构建深度卷积神经网络DCNN,所述深度卷积神经网络包括卷积特征提取、语义分割层和分类层;以深度卷积神经网络作为分类网络,在区域生成网络输出的候选区域中,选择被预测为行人的置信度评分最高的前Ntop个作为第二部分的输入,判断区域内目标是否为行人。为了避免再次对图像区域进行特征提取,分类网络的卷积特征提取部分也和区域生成网络一样,基于VGG-16的卷积模块,共享卷积部分的网络权重,因此可以根据相应比例,直接将候选区域的位置直接映射到共享特征图上的对应特征区域。之后通过ROIPooling输出固定维度的特征向量,最终输出相应的行人(背景)置信度评分。具体步骤为:
(31)将步骤(2)获取到的多个候选区域,选择被预测为行人的置信度评分最高的前Ntop个作为深度卷积神经网络的输入;
(32)深度卷积神经网络的特征提取部分基于VGG-16的卷积模块,共享卷积部分的网络权重,因此可以根据相应比例,直接将候选区域的位置映射到共享特征图上的对应特征区域,通过ROI Pooling输出固定维度的特征向量;
(33)深度卷积神经网络的分类层输出相应的行人或背景置信度评分;定义深度卷积神经网络的分类层的损失函数
Figure BDA0001711643890000101
Figure BDA0001711643890000102
Figure BDA0001711643890000103
其中P*为每一张图像中的候选区域集合;widthp为候选区域p的宽度,
Figure BDA0001711643890000104
为集合P*内所有区域的平均宽度。
和区域生成网络中分类损失一样,
Figure BDA0001711643890000105
采用softmax逻辑损失,scalep表示该区域的相对大小;与相对规模大小进行乘积,一方面可以增强中景和前景行人对模型的影响,此外,由于中前景的行人特征比较明显,通过增加此类行人对模型权重的影响,有利于对识别远景微小行人的识别。
(34)和区域生成网络一样,在分类网络的卷积特征图上也融合了语义信息,具体实现方式一致。对深度卷积神经网络的输入做语义标记,标记包围盒所在区域为行人语义,其余区域为背景语义;对候选区域进行box-based的语义分割,定义区域生成网络中语义分割层的损失函数
Figure BDA0001711643890000106
与RPN中的语义分割层损失函数一致;
(35)深度卷积神经网络的损失函数为:
Figure BDA0001711643890000111
其中βp、βs为调节权重的超参数;
通过最小化深度卷积神经网络的损失函数来迭代更新深度卷积神经网络的参数,直至深度卷积神经网络的损失函数达到预设的收敛条件,得到训练好的深度卷积神经网络、Ntop个候选区域中每个候选区域被预测为行人和背景的置信度评分。
上面步骤1-3利用训练样本完成了区域生成网络和深度卷积神经网络的参数训练,后面的检测阶段利用训练好的网络来进行行人检测,检测阶段的流程图如图3所示。
步骤4、获取待检测行人的图像,将其预处理,使其大小匹配区域生成网络输入图片的大小;
通常的行人检测应用场景为对视频进行检测。在监控安防、车载摄像头或机器人等领域,不同设备和摄像头采集到的视频大小、分辨率和宽高比例都不尽相同。因此,在开始进行行人识别之前,往往需要对原始数据进行处理,使原始数据能够满足神经网络的输入要求。
在本实施例中,对待检测视频数据主要进行了如下预处理操作:
(41)视频分帧
经过摄像头采集到的原始数据分为视频和图像,针对视频数据,需要对其进行分帧处理,即将保存的原始视频按照素材帧率切割成逐帧的静态图像。这一过程采用OpenCV处理,使用VideoCapture::read()接口处理这一过程。
(42)重置比例和分辨率
帧率为N时长为M秒的原始视频数据,经过分帧得到N*M张静态图像数据。这些图像分辨率较大,长宽比例也和原始视频数据一致,因此需要根据神经网络模型的输入大小对这些图像进行调整,重置比例和分辨率使其符合模型输入规格。这一过程使用OpenCV的resize()接口进行处理。
(43)去均值
对各个通道进行去均值处理,使每个通道的特征值符合零中心化特性。这一过程首先需要使用OpenCV计算所有图像的各个通道均值,再逐一减去。
步骤5、将预处理后的待检测图像输入步骤2训练好的区域生成网络,得到多个候选区域及每个候选区域p被预测为行人和背景的置信度评分,记为[p,rpn_score1,rpn_score0];其中rpn_score1为区域p被预测为行人的置信度评分,rpn_score0为区域p被预测为背景的置信度评分;
步骤6、将步骤/5得到的多个候选区域,选择被预测为行人的置信度评分最高的前Ntop个输入步骤3训练好的深度卷积神经网络,进行进一步分类,得到每个候选区域q被预测为行人和背景的置信度评分,记为[q,cnn_score1,cnn_score0];其中cnn_score1为区域q被预测为行人的置信度评分,cnn_score0为区域q被预测为背景的置信度评分;
步骤7、融合区域候选网络和深度卷积神经网络的结果,得到候选区域q被预测为行人的概率fusionscore(q):
Figure BDA0001711643890000121
其中rpn_scoreq1为区域q在区域候选网络中被预测为行人的置信度评分,rpn_scoreq0为区域q在区域候选网络中被预测为背景的置信度评分;cnn_scoreq1为区域q在深度卷积神经网络中被预测为行人的置信度评分,cnn_scoreq0为区域q在深度卷积神经网络中被预测为背景的置信度评分。

Claims (5)

1.一种基于改良区域回归的行人检测方法,其特征在于,包括如下步骤:
(1)采用若干包含行人的图像作为训练样本,在训练样本图像中用矩形框标记行人,所述矩形框为标记包围盒;
(2)构建区域生成网络,所述区域生成网络包括卷积特征提取、语义分割层、分类层和区域回归层;将训练样本输入所述区域生成网络中,通过最小化区域生成网络的损失函数来迭代更新区域生成网络的参数,直至区域生成网络的损失函数达到预设的收敛条件,得到训练好的区域生成网络、多个候选区域及每个候选区域被预测为行人和背景的置信度评分;所述区域生成网络的损失函数为区域生成网络中语义分割层、分类层和区域回归层损失函数的加权和;
(3)构建深度卷积神经网络,所述深度卷积神经网络包括卷积特征提取、语义分割层和分类层;将步骤(2)获取到的多个候选区域,选择被预测为行人的置信度评分最高的前Ntop个作为深度卷积神经网络的输入,通过最小化深度卷积神经网络的损失函数来迭代更新深度卷积神经网络的参数,直至深度卷积神经网络的损失函数达到预设的收敛条件,得到训练好的深度卷积神经网络、Ntop个候选区域中每个候选区域被预测为行人和背景的置信度评分;所述深度卷积神经网络的损失函数为深度卷积神经网络中语义分割层和分类层损失函数的加权和;
(4)获取待检测行人的图像,将其预处理,使其大小匹配区域生成网络输入图片的大小;
(5)将预处理后的待检测图像输入步骤(2)训练好的区域生成网络,得到多个候选区域及每个候选区域p被预测为行人和背景的置信度评分,记为[p,rpn_score1,rpn_score0];其中rpn_score1为区域p被预测为行人的置信度评分,rpn_score0为区域p被预测为背景的置信度评分;
(6)从步骤(5)得到的多个候选区域中,选择被预测为行人的置信度评分最高的前Ntop个输入步骤(3)训练好的深度卷积神经网络,进行进一步分类,得到每个候选区域q被预测为行人和背景的置信度评分,记为[q,cnn_score1,cnn_score0];其中cnn_score1为区域q被预测为行人的置信度评分,cnn_score0为区域q被预测为背景的置信度评分;
(7)融合区域候选网络和深度卷积神经网络的结果,得到候选区域q被预测为行人的概率fusionscore(q):
Figure FDA0002963256890000021
其中rpn_scoreq1为区域q在区域候选网络中被预测为行人的置信度评分,rpn_scoreq0为区域q在区域候选网络中被预测为背景的置信度评分;cnn_scoreq1为区域q在深度卷积神经网络中被预测为行人的置信度评分,cnn_scoreq0为区域q在深度卷积神经网络中被预测为背景的置信度评分。
2.根据权利要求1所述的基于改良区域回归的行人检测方法,其特征在于,所述步骤(2)具体包括:
(21)训练样本图像输入构建的区域生成网络,经过卷积特征提取生成卷积特征图;在最后一层卷积特征图上,构建一层卷积层,使用anchor机制配合卷积核窗口滑动,产生大小和比例各不相同的anchor,映射到原图对应不同的候选区域;
(22)步骤(21)生成的候选区域根据与标记包围盒的重叠区域大小分成正区域样本集合P+和负区域样本集合P-
(23)区域生成网络的分类层对候选区域进行简单分类,输出每个候选区域属于行人和背景的概率作为该候选区域被预测为行人和背景的置信度评分;定义区域生成网络分类层的损失函数Lcls(p);
(24)区域生成网络的区域回归层预测出候选区域的位置及大小;定义区域生成网络区域回归层的损失函数Lreg(p);
(25)如果有多个候选区域对应一个标记包围盒的情况,采用soft-NMS方法进行区域筛选,剔除重复的候选区域;
(26)对训练样本图像做语义标记,标记包围盒所在区域为行人语义,其余区域为背景语义;对候选区域进行box-based的语义分割,定义区域生成网络中语义分割层的损失函数Lseg(p);
(27)区域生成网络的损失函数为:
L(p)=αp*Lcls(p)+αl*Lreg(p)+αs*Lseg(p)
其中,αp、αl和αs为调节权重的超参数;
通过最小化区域生成网络的损失函数L(p)来迭代更新区域生成网络的参数,直至区域生成网络的损失函数达到预设的收敛条件,得到训练好的区域生成网络、多个候选区域及每个候选区域被预测为行人和背景的置信度评分。
3.根据权利要求1所述的基于改良区域回归的行人检测方法,其特征在于,所述步骤(3)具体包括:
(31)从步骤(2)获取到的多个候选区域中,选择被预测为行人的置信度评分最高的前Ntop个作为深度卷积神经网络的输入;
(32)深度卷积神经网络的特征提取部分基于VGG-16的卷积模块,共享卷积部分的网络权重,因此可以根据相应比例,直接将候选区域的位置映射到共享特征图上的对应特征区域,通过ROI Pooling输出固定维度的特征向量;
(33)深度卷积神经网络的分类层输出相应的行人或背景置信度评分;定义深度卷积神经网络的分类层的损失函数
Figure FDA0002963256890000031
(34)对深度卷积神经网络的输入做语义标记,标记包围盒所在区域为行人语义,其余区域为背景语义;对候选区域进行box-based的语义分割,定义区域生成网络中语义分割层的损失函数
Figure FDA0002963256890000032
(35)深度卷积神经网络的损失函数为:
Figure FDA0002963256890000033
其中βp、βs为调节权重的超参数;
通过最小化深度卷积神经网络的损失函数来迭代更新深度卷积神经网络的参数,直至深度卷积神经网络的损失函数达到预设的收敛条件,得到训练好的深度卷积神经网络、Ntop个候选区域中每个候选区域被预测为行人和背景的置信度评分。
4.根据权利要求2所述的基于改良区域回归的行人检测方法,其特征在于,所述区域生成网络中分类层的损失函数为:
Figure FDA0002963256890000034
其中P*为每一张图像中的候选区域集合,ip表示候选区域p经过softmax层归一化后,预测为行人的概率;ip *为样本标签,如果p为正样本,即:p∈P+,则ip *=1,如果p为负样本,即:p∈P-,则ip *=0;
区域生成网络区域回归层的损失函数为:
Lreg(p)=γa*Attr(p)+γg*RepG(p) (2)
其中γa、γg为调节不同子项权重的超参数;Attr为目标包围盒区域的损失函数,Attr(p)=∑p∈P+SmoothL1(ti-ti ),i∈{x,y,w,h},ti={tx,ty,tw,th}为回归过程中候选区域p相对于初始anchor位置的平移缩放参数,ti ={tx ,ty ,tw ,th }为目标包围盒gp相对于初始anchor位置的平移缩放参数;所述目标包围盒gp为与候选区域重叠度最大的标记包围盒;
定义
Figure FDA0002963256890000041
为除目标包围盒gp外,与候选区域p相交且重叠度最大的标记包围盒,RepG(p)为区域
Figure FDA0002963256890000042
的损失函数,
Figure FDA0002963256890000043
区域生成网络中语义分割层的损失函数为:
Figure FDA0002963256890000044
其中,sp表示候选区域p属于为行人语义遮罩的概率,sp 是语义标记,如果该区域表示为行人,则sp =1,否则sp =0。
5.根据权利要求3所述的基于改良区域回归的行人检测方法,其特征在于,所述深度卷积神经网络中分类层的损失函数为:
Figure FDA0002963256890000045
Figure FDA0002963256890000046
其中P*为每一张图像中的候选区域集合;widthp为候选区域p的宽度,
Figure FDA0002963256890000047
为集合P*内所有区域的平均宽度;ip表示候选区域p经过softmax层归一化后,预测为行人的概率;ip *为样本标签,如果p为正样本,即:p∈P+,则ip *=1,如果p为负样本,即:p∈P-,则ip *=0。
CN201810685848.0A 2018-06-28 2018-06-28 一种基于改良区域回归的行人检测方法 Active CN109063559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810685848.0A CN109063559B (zh) 2018-06-28 2018-06-28 一种基于改良区域回归的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810685848.0A CN109063559B (zh) 2018-06-28 2018-06-28 一种基于改良区域回归的行人检测方法

Publications (2)

Publication Number Publication Date
CN109063559A CN109063559A (zh) 2018-12-21
CN109063559B true CN109063559B (zh) 2021-05-11

Family

ID=64818257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810685848.0A Active CN109063559B (zh) 2018-06-28 2018-06-28 一种基于改良区域回归的行人检测方法

Country Status (1)

Country Link
CN (1) CN109063559B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840498B (zh) * 2019-01-31 2020-12-15 华南理工大学 一种实时行人检测方法及神经网络、目标检测层
CN110069985B (zh) * 2019-03-12 2020-08-28 北京三快在线科技有限公司 基于图像的目标点位置检测方法、装置、电子设备
CN109948616B (zh) * 2019-03-26 2021-05-25 北京迈格威科技有限公司 图像检测方法、装置、电子设备及计算机可读存储介质
CN110009090B (zh) * 2019-04-02 2022-12-02 北京市商汤科技开发有限公司 神经网络训练与图像处理方法及装置
CN110084131A (zh) * 2019-04-03 2019-08-02 华南理工大学 一种基于深度卷积网络的半监督行人检测方法
CN110020688B (zh) * 2019-04-10 2022-12-06 西安电子科技大学 基于深度学习的遮挡行人检测方法
CN110427819B (zh) * 2019-06-26 2022-11-29 深圳职业技术学院 一种识别图像中ppt边框的方法及相关设备
CN110503088B (zh) * 2019-07-03 2024-05-07 平安科技(深圳)有限公司 基于深度学习的目标检测方法及电子装置
CN110490060B (zh) * 2019-07-10 2020-09-11 特斯联(北京)科技有限公司 一种基于机器学习硬件架构的安防前端视频设备
CN111027621A (zh) * 2019-12-09 2020-04-17 上海扩博智能技术有限公司 图像识别模型的训练方法、系统、设备和存储介质
CN111027493B (zh) * 2019-12-13 2022-05-20 电子科技大学 一种基于深度学习多网络软融合的行人检测方法
CN111274926B (zh) * 2020-01-17 2023-09-22 武汉佑驾创新科技有限公司 图像数据筛选方法、装置、计算机设备和存储介质
CN111444832A (zh) * 2020-03-25 2020-07-24 哈尔滨工程大学 基于卷积神经网络的鲸鱼叫声分类方法
CN111523494A (zh) * 2020-04-27 2020-08-11 天津中科智能识别产业技术研究院有限公司 一种人体图像检测方法
CN112633086B (zh) * 2020-12-09 2024-01-26 西安电子科技大学 基于多任务EfficientDet的近红外行人监测方法、系统、介质、设备
EP4036892A1 (en) * 2021-02-02 2022-08-03 Aptiv Technologies Limited Detection system for predicting information on pedestrian

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217225A (zh) * 2014-09-02 2014-12-17 中国科学院自动化研究所 一种视觉目标检测与标注方法
CN106960195A (zh) * 2017-03-27 2017-07-18 深圳市丰巨泰科电子有限公司 一种基于深度学习的人群计数方法及装置
CN107330437A (zh) * 2017-07-03 2017-11-07 贵州大学 基于卷积神经网络目标实时检测模型的特征提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9400925B2 (en) * 2013-11-15 2016-07-26 Facebook, Inc. Pose-aligned networks for deep attribute modeling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217225A (zh) * 2014-09-02 2014-12-17 中国科学院自动化研究所 一种视觉目标检测与标注方法
CN106960195A (zh) * 2017-03-27 2017-07-18 深圳市丰巨泰科电子有限公司 一种基于深度学习的人群计数方法及装置
CN107330437A (zh) * 2017-07-03 2017-11-07 贵州大学 基于卷积神经网络目标实时检测模型的特征提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改良区域回归的行人识别框架;周威威;《中国优秀硕士学位论文全文数据库·信息科技辑》;中国学术期刊(光盘版)电子杂志社编辑出版;20190510(第5期);第1138-1571页 *

Also Published As

Publication number Publication date
CN109063559A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109063559B (zh) 一种基于改良区域回归的行人检测方法
CN111209810B (zh) 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构
CN108446617B (zh) 抗侧脸干扰的人脸快速检测方法
CN108304873B (zh) 基于高分辨率光学卫星遥感影像的目标检测方法及其系统
CN108304798B (zh) 基于深度学习及运动一致性的街面秩序事件视频检测方法
CN107622258B (zh) 一种结合静态底层特征和运动信息的快速行人检测方法
KR101964397B1 (ko) 정보처리장치 및 정보처리방법
US6757571B1 (en) System and process for bootstrap initialization of vision-based tracking systems
JP2006209755A (ja) シーンから取得されたフレームシーケンス中の移動オブジェクトを追跡する方法
CN113592911B (zh) 表观增强深度目标跟踪方法
CN111027475A (zh) 一种基于视觉的实时交通信号灯识别方法
CN113449606B (zh) 一种目标对象识别方法、装置、计算机设备及存储介质
CN113344971B (zh) 一种融合卡尔曼滤波的孪生红外目标跟踪方法
Su et al. A new local-main-gradient-orientation HOG and contour differences based algorithm for object classification
CN113191421A (zh) 一种基于Faster-RCNN的手势识别系统及方法
Ghahremannezhad et al. Automatic road detection in traffic videos
CN115049954A (zh) 目标识别方法、装置、电子设备和介质
CN112347967B (zh) 一种复杂场景下融合运动信息的行人检测方法
KR101542206B1 (ko) 코아스-파인 기법을 이용한 객체 추출과 추적 장치 및 방법
CN107704864B (zh) 基于图像对象性语义检测的显著目标检测方法
Zheng et al. Shadow removal for pedestrian detection and tracking in indoor environments
CN109493371A (zh) 一种基于视觉的四旋翼无人机行人跟踪方法
CN114332655A (zh) 一种车辆自适应融合检测方法及系统
CN114898306A (zh) 一种检测目标朝向的方法、装置及电子设备
CN114332754A (zh) 基于多度量检测器的Cascade R-CNN行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant