CN109344702B

CN109344702B - 基于深度图像和彩色图像的行人检测方法及装置

Info

Publication number: CN109344702B
Application number: CN201810967241.1A
Authority: CN
Inventors: 孟令康; 王行; 李骊; 周晓军; 盛赞; 李朔; 杨淼
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2020-11-10
Anticipated expiration: 2038-08-23
Also published as: CN109344702A

Abstract

一种基于深度图像和彩色图像的行人检测方法及装置，所述方法包括：获取深度图像和彩色图像；将所述深度图像分割为前景区域和背景区域；根据所述彩色图像以及所述前景区域分块对应的缩放比例建立彩色图像金字塔；将所述彩色图像金字塔中的分块对应的彩色图像中的彩色图像块缩放后输入预先训练的行人检测器，得到行人框、置信度；根据所述行人框和所述置信度生成行人蒙版。本发明提供的基于深度图像和彩色图像的行人检测方法及装置，使用深度图像的前景区域生成彩色图像金字塔，并使用经过行人检测器处理得到的行人框生成行人蒙版，抑制了因行人长期静止导致的背景错误，降低了行人检测器的计算量，提高了行人检测的实时性。

Description

基于深度图像和彩色图像的行人检测方法及装置

技术领域

本发明涉及计算机技术领域，具体地涉及一种基于深度图像和彩色图像的行人检测方法及装置。

背景技术

行人检测利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位。行人检测需要检测视频或图片中的行人，并给出行人位置框和关键点位置等信息，其对检测的准确性和实时性均有较高要求。传统基于可见光的行人检测方法，通常采用运动背景分割，特征提取，分类器检测，结果筛选等步骤。这类方法需要人工设计特征，分类器的效果对样本较为依赖，通常分类器很难在大规模数据集上进行训练，从而使模型的泛化能力受到限制。此外，基于可见光的前景背景处理在光线较暗或明暗对比较大时表现较差。

随着计算机视觉技术的不断发展，特别是在深度学习支持下的高准确率检测技术的不断进步，机器视觉和生产生活各领域的结合成为关注热点。机器视觉是使用计算机对数字化图片或视频进行分析和处理的学科。深度学习是基于多层神经网络展开的机器学习算法，可用来做图像、语音等高维度数据的降维和分析。深度图像是基于结构光技术得到的表示深度的图像，图像每一个像素值表示物体表面沿光轴方向到摄像机镜头平面的距离。基于深度图像的前背景分割受光照的影响较小，目前在背景建模方面已经能够做到实时，但单纯依赖统计信息的背景建模会将静止不动的物体融入背景。现有技术中，引入运动分块信息来更新背景，涉及到基于背景深度值最大的假设更新背景。这些方法仅依赖深度图像的信息，但深度图像往往精度不高、存在噪声，从而使前背景分割结构受到影响。

此外，基于深度学习的行人检测在准确率和泛化性能上普遍优于传统检测算法，但深度学习需要进行图像的多次卷积运算，对硬件的要求较高，实时性不易保证。现有技术中一种使用多个小型网络级联的方法进行人脸检测，该方法只适用于方形检测框，且若待检测图片中人脸较多，则速度将会下降。同时该方法要求图片进行多次缩放操作，以满足不同尺度的物体检测。现有技术中还存在其它方法提出在不进行图片缩放的情况下进行物体检测，但需要依赖较深的网络，从而实时性很难保证。

发明内容

本发明的目的在于提出一种的基于深度图像和彩色图像的行人检测方法及装置，以提高背景判断的准确性以及行人检测的实时性。

为达此目的，本发明采用以下技术方案：

一种基于深度图像和彩色图像的行人检测方法，所述方法包括：获取深度图像和彩色图像；将所述深度图像分割为前景区域和背景区域；根据所述彩色图像以及所述前景区域分块对应的缩放比例建立彩色图像金字塔，其中，所述前景区域分块由将所述前景区域进行分块处理后得到，所述前景区域分块对应的缩放比例根据所述前景区域分块的平均深度值与预设的设定行人宽度计算得到；将所述彩色图像金字塔中的分块对应的彩色图像中的彩色图像块缩放后输入预先训练的行人检测器，得到行人框、置信度；根据所述行人框和所述置信度生成行人蒙版。

上述方案中，所述将所述彩色图像金字塔中的分块对应的彩色图像中的图像块缩放后输入预先训练的行人检测器，得到行人框和置信度，包括：遍历所述彩色图像金字塔中的所有分块，在根据所述分块位置剪裁所述分块对应的彩色图像中的图像块后，将所述图像块缩放后输入预先训练的初筛行人检测器，得到行人候选框及其置信度；根据所述行人候选框在所述前景区域的覆盖率修正所述行人候选框的置信度；根据预设的第一条件采用非极大抑制合并相邻的行人候选框；将所述行人候选框从所述彩色图像中剪裁后，将所述行人候选框缩放后输入预先训练的精细判断行人检测器，得到行人框和置信度。

上述方案中，所述根据预设的第一条件采用非极大抑制合并相邻的行人候选框，包括：在满足第一条件时，将两个行人候选框的位置左上右下定点分别以所述置信度为权重加权平分，得到合并后的行人候选框；其中，所述置信度更新为两个行人候选框的置信度的最大值，所述第一条件为两个行人候选框的重合部分面积大于两者并集面积的60％，且其中一个行人候选框的置信度低于0.8。

上述方案中，所述根据所述行人框和所述置信度生成行人蒙版之前，所述方法还包括:在置信度大于等于设定第一阈值时，根据彩色图像中行人框所在位置的平均深度信息，对所述行人框和所述置信度进行修正。

上述方案中，所述根据所述行人框和所述置信度生成行人蒙版，包括：开辟一张单通道尺寸为所述彩色图像大小的全零的行人蒙版；将每个所述行人框对应的行人蒙版位置置为一；将所述行人蒙版大小缩放至深度图像尺寸。

上述方案中，所述生成彩色图像金字塔，包括：对所述前景区域按照四邻域深度相近的原则进行分块；根据所述分块的像素平均深度计算行人框估计宽度；根据所述行人框估计宽度和所述设定行人宽度计算彩色图像金字塔缩放尺度；遍历所有分块，将缩放尺度相近的分块合并为一个分块，其中，合并后的分块的缩放尺度为合并前的分块的缩放尺度的平均值。

上述方案中，所述在置信度大于等于设定第一阈值时，根据所述彩色图像中行人框所在位置的平均深度信息，对所述行人框和所述置信度进行修正，包括：在所述置信度低于预设的第一阈值，抛弃所述置信度对应的行人框；计算所述行人框对应深度图像区域的平均深度后，根据行人框估计宽度修正设定行人框宽度；在满足第二条件时，将两个行人框的位置左上右下定点分别以所述置信度为权重加权平分，得到合并后的行人框，所述第二条件为两个行人框的重合部分面积大于两者并集面积的80％。

一种基于深度图像和彩色图像的行人检测装置，所述装置包括：获取单元，用于获取深度图像和彩色图像；分割单元，用于将所述深度图像分割为前景区域和背景区域；建立单元，用于根据所述彩色图像以及所述前景区域分块对应的缩放比例建立彩色图像金字塔，其中，所述前景区域分块由将所述前景区域进行分块处理后得到，所述前景区域分块对应的缩放比例根据所述前景区域分块的平均深度值与预设的设定行人宽度计算得到；输入单元，用于将所述彩色图像金字塔中的分块对应的彩色图像中的彩色图像块缩放后输入预先训练的行人检测器，得到行人框、置信度；生成单元，用于根据所述行人框和所述置信度生成行人蒙版。

上述方案中，所述输入单元，还包括：第一输入子单元，用于遍历所述彩色图像金字塔中的所有分块，在根据所述分块位置剪裁所述分块对应的彩色图像中的图像块后，将所述图像块缩放后输入预先训练的初筛行人检测器，得到行人候选框及其置信度；修正子单元，用于根据所述行人候选框在所述前景区域的覆盖率修正所述行人候选框的置信度；合并子单元，用于根据预设的第一条件采用非极大抑制合并相邻的行人候选框；第二输入子单元，用于将所述行人候选框从所述彩色图像中剪裁后，将所述行人候选框缩放后输入预先训练的精细判断行人检测器，得到行人框和置信度。

上述方案中，所述装置还包括修正单元，用于:在置信度大于等于设定第一阈值时，根据彩色图像中行人框所在位置的平均深度信息，对所述行人框和所述置信度进行修正。

本发明提供的基于深度图像和彩色图像的行人检测方法及装置，使用深度图像的前景区域生成彩色图像金字塔，并使用经过行人检测器处理得到的行人框生成行人蒙版，抑制了因行人长期静止导致的背景错误，降低了行人检测器的计算量，提高了行人检测的实时性。

附图说明

图1是本发明实施例基于深度图像和彩色图像的行人检测方法的方法流程图；

图2是本发明实施例中的行人检测器采用神经网络方案的训练流程图；

图3是本发明实施例基于深度图像和彩色图像的行人检测装置的组成结构示意图。

具体实施方式

在本发明实施例中，使用可以生成深度图像和彩色图像的摄像头作为图像采集工具，采用水平或俯视的安装角度。具体地，可以采用华捷艾米a100摄像头部署在离地面3.5米，俯视视角30度的地方，正对行人进出通道。早摄像头倾斜安装时，可以减少行人在摄像机径向的遮挡，该设备安装方案可以在距镜头水平距离4米处实现5.5米的检测宽度。布设地点应避免阳光直射，地面应以浅色为宜，以防止深度图像出现无效数据。

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

如图1所示，本发明实施例提供的基于深度图像和彩色图像的行人检测方法包括：

步骤110，获取深度图像和彩色图像。

步骤120，将所述深度图像分割为前景区域和背景区域。

步骤130，根据所述彩色图像以及所述前景区域分块对应的缩放比例建立彩色图像金字塔，其中，所述前景区域分块对应的缩放比例根据所述前景区域分块的平均深度值与预设的设定行人宽度计算得到，所述前景区域分块由将所述前景区域进行分块处理后得到。

步骤140，将所述彩色图像金字塔中的分块对应的彩色图像中的彩色图像块缩放后输入预先训练的行人检测器，得到行人框、置信度。

步骤150，根据所述行人框和所述置信度生成行人蒙版。

本发明实施例提供的技术方案结合深度图像的前景区域信息和彩色图像信息生成彩色图像金字塔，并使用经过行人检测器处理得到的行人框生成行人蒙版，可以抑制因行人长期静止导致的背景错误，并可以减少彩色图像行人检测器的计算量，提高了行人检测的速度和准确度。

其中，经由深度图像生成背景，弥补了彩色图像背景因为光照环境引起的不稳定性。

使用深度图像前景区域信息生成彩色图像金字塔，一方面缩小了检测区域，另一方面避免了通常多尺度检测时有些尺度下没有行人造成的浪费，降低了行人检测器的计算量，从而提高了实时性。

具体的，在步骤110获取深度图像和彩色图像后，在步骤120中，采用码字方式进行背景深度信息建模，记录每个可能为背景的深度值区间，将频率最高的前若干个深度值区间内的深度值作为背景。若当前帧的深度值落在背景深度值范围以外，则将其标记为前景。我们借鉴背景深度值较大这一先验知识，在我们的场景下，摄像头基本保持固定，因此在更新背景深度区间时，较大的深度值会获得更大的更新几率；但我们的不完全阻止较小的深度值参与更新，而是采用随机更新方式。另外，上一帧行人检测框内的所有像素点更新几率将被调低，使行人不会因为长期站立而被当做背景。

由深度图像生成背景时，采用概率方式更新背景，将背景深度最大这一先验知识和前景人物不应融入背景这一约束以概率的形式实现，提高了背景更新的稳定性，也确保了背景算法框架的高效性不受影响。

对每一个像素，用多个Code表示其背景深度分布，每个Code包含d_min,d_max,count,miss。其中d_min,d_max分别表示该属于该Code的深度最小和最大值，count表示历史中深度值落入该Code的次数，miss表示从当前帧回溯深度值没有落在该Code的帧数。记当前帧该像素深度值为d，进行如下计算：

1)若存在Code使得d<＝d_max且d>＝d_min转4)；

2)若d大于所有Code d_max中最大值，则p＝1，否则p＝0.25；

3)以概率p建立一个新Code，其中d_min＝d*0.98,d_max＝d*1.02；

4)若当前像素行人蒙版为零，则p＝1，否则p＝0.1；

5)以概率p进行如下操作：若d*0.98<d_min，则d_min＝d_min-1，若d*0.12>d_max，则d_max＝d_max+1。count＝count+1，miss＝miss*0.8；

6)其他Code miss＝miss+1，若miss>miss_thresh则删除该Code；

7)若d所属Code count>Thresh，则为背景，否则为前景。

在步骤130中，对前景区域按照四邻域深度相近的原则进行分块；根据分块的像素平均深度计算行人框估计宽度；根据行人框估计宽度和设定行人宽度计算彩色图像金字塔缩放尺度；遍历所有分块，将缩放尺度相近的分块合并为一个分块，其中，合并后的分块的缩放尺度为合并前的分块的缩放尺度的平均值。

具体地，在步骤130中，将前景区域分块后，对面积满足条件的分块计算其平均深度值；根据该平均深度值用查表法得到该深度下对应的行人框估计宽度，将行人检测器的设定行人宽度除以行人框估计宽度，得到该分块对应的彩色金字塔缩放尺度。步骤130具体包括以下内容：

1)将前景区域按照四邻域深度相近的原则进行分块，邻接像素深度阈值为两者最小值*0.02，即两个分块的深度差值应大于等于该阈值。

2)对每个分块做以下操作：

2.1计算分块内像素平均深度，记为d_avg；

2.2记彩色图像宽度为w，计算行人框估计宽度w_ped＝500*w/d_avg；

2.3计算彩色图像金字塔缩放尺度scale＝54/w_ped，其中54为行人检测器的设定行人宽度。

3)记T＝0.08。

4)遍历所有分块，若存在两个分块scale差距<T，则合并这两个分块，scale为两者scale按照面积加权平均。

5)若合并后的分块数大于10，则T＝T*1.5转至4)

6)对合并之后的分块，按照其外框和scale裁剪和缩放图片。

在步骤140之前，需要训练行人检测器，本发明实施例列举两种行人检测器方案。在实际应用中，行人检测器包括但不限于所列举之方案，凡是采用深度图信息产生分块进行加速、并分为初筛和精细检测步骤的行人检测器方案皆在本发明声明保护之列。

所述行人检测器方案之一是深度学习方案。使用自主设计的Multi-taskCascaded Convolutional Networks(多任务级联卷积网络，简称MTCNN)，能够接受非正方形的物体检测窗口。在MTCNN网络的精细判断神经网络中添加蒙版作为训练目标，使神经网络输出更多有价值信息。

所述行人检测器方案之二是使用HOG特征的结合Adaboost的级联分类器方案。

本发明实施例中的行人检测器训练包含初筛检测器训练和精细检测器训练，使用初筛-精细两层结构，可以让大部分非行人区域被较浅的初筛检测器拒绝，使较深的精细检测器仅处理较少的区域，提高了实时性。

其中，采用多目标训练一个彩色图像行人初筛行人检测器，可以快速产生行人候选框；产生行人候选框时，使用前景区域的深度值信息估计输入初筛行人检测器中彩色图像金字塔的缩放比例；将彩色图像按前述比例缩放得到彩色图像金字塔，并输入初筛行人检测器得到行人候选框。得到行人候选框后，使用行人候选框在前景区域的覆盖率修正行人候选框的置信度；使用非极大抑制筛选行人候选框，得到少数行人候选框；采用多目标训练了一个彩色图像行人精细判断行人检测器；将少数行人候选框输入行人精细判断行人检测器。

行人检测器的训练过程如图2所示：

在步骤210中，生成行人框正样本和负样本。

在步骤220中，生成行人骨架关键点样本。

在步骤230中，训练初筛行人检测器，若使用深度学习方案，则目标为行人判断、行人框回归、关键点回归；若使用级联分类器方案，则目标为行人判断。

在步骤240中，生成行人身体蒙版样本。

在步骤250中，训练精细判断行人检测器，若使用深度学习方案，则目标位行人判断、行人框回归、关键点回归、生成身体蒙版；若使用级联分类器方案，则目标为行人判断。

所述步骤230和步骤250中采用级联分类器方案的数据准备步骤和深度学习方案相同，训练方法采用HOG和Adaboost标准方法。以下为深度学习方案下的训练步骤描述。

其中步骤230包括步骤231至步骤233，步骤231为准备数据：

1)使用COCO数据集，行人候选框长宽比为2:1，框的范围从头顶到腰间，对数据集中类别为行人的每一个数据标注，选取其头顶到腰间的区域作为base_rect，随机在base_rect周围产生新的矩形random_rect，若random_rect和base_rect相交部分的面积大于base_rect面积的70％则将其作为行人正样本，对该正样本进行随机翻转，倾斜，颜色扰动等操作。每个数据标注产生10张正样本。

2)对COCO数据集中的每张图片，随机产生长宽比为2:1的框，若该框和图中所有行人框的相交面积占比均小于30％，则将该样本作为行人负样本，每张图片产生20个负样本。

3)对每个正样本，若其存在骨架标注信息，则将左右肩膀坐标作为关键点样本。

步骤232为制定如表1所示的网络：

表格1.初筛神经网络结构

步骤233为训练过程：

1)Loss分为三部分：分类是否为行人，回归行人框，回归关键点。

2)自适应优化。

步骤250包括步骤251至步骤253，步骤251为准备数据：

3)对每个正样本，若其存在蒙版信息，则将其上半身蒙版作为蒙版样本。

步骤252为制定如表2所示的网络：

表格2.精细判断神经网络结构

步骤253为训练过程：

1)Loss分为三部分：分类是否为行人，行人框，行人蒙版。

2)自适应优化。

在步骤140中，建立彩色图像金字塔后，遍历彩色图像金字塔中的所有分块，在根据分块位置剪裁分块对应的彩色图像中的图像块后，将图像块缩放后输入预先训练的初筛神经网络，得到行人候选框以及初始置信度；根据行人候选框在前景区域的覆盖率修正行人候选框的初始置信度；根据预设的第一条件采用非极大抑制合并相邻的行人候选框；将行人候选框从彩色图像中剪裁后，将行人候选框缩放后输入预先训练的精细判断神经网络，得到行人框和置信度。

其中，根据预设的第一条件采用非极大抑制合并相邻的行人候选框，包括：在满足第一条件时，将两个行人候选框的位置左上右下定点分别以置信度为权重加权平分，得到合并后的行人候选框；其中，置信度更新为两个行人候选框的置信度的最大值，第一条件为两个框的重合部分面积大于两者并集面积的60％，并且其中一个行人候选框的置信度低于0.8。

具体的，在步骤140中，首先遍历彩色图金字塔中所有分块，按其分块位置裁剪原彩色图片，再按照其尺度缩放裁剪后的图片。彩色图像金字塔中的图像输入初筛神经网络，计算候选框和行人置信度，并根据金字塔图像的裁剪和缩放将候选框大小和位置映射回原图。

之后，进行初始置信度的修正以及行人候选框的合并，遍历所有的行人候选框，将框内所占深度图像前景的比例作为因子，乘以行人置信度，作为新的行人置信度。然后使用非极大抑制合并相邻的候选框，若相邻两个框交叠面积占比大于某既定阈值，且其中至少一个框的置信度小于某既定阈值，则对两个框的位置加权平均，权重为置信度。重复此合并过程直至无框可以合并，具体操作如下：

1)对每个行人候选框，计算其对应位置深度图像前景面积占比s_foreground，将s_foreground乘以行人置信度b，获得新的行人置信度b；

2)对所有的行人候选框进行非极大抑制，合并满足如下条件的候选框：两个框的重合部分面积大于两者并集面积的60％，且其中一者的置信度低于0.8。合并方法为置信度取两者最大，候选框位置为两者左上右下定点分别加权平均，权重为置信度。

最后，运行精细行人检测器，具体操作如下：

对每一个行人候选框，从原彩色图中将相应位置裁剪下来，并缩放到行人精细判断神经网络的预设大小例如：54*110，输入行人精细判断神经网络得到行人候选框，行人置信度和行人蒙版。

在步骤150之前，还需要在置信度大于等于设定的第一阈值时，根据彩色图像中行人框所在位置的平均深度信息，对行人框和置信度进行修正，具体操作为：

在置信度低于预设的第一阈值，抛弃该置信度对应的行人框。例如：在行人置信度低于阈值0.85，抛弃该候选框；这里，该第一阈值可以设置为其它值。计算行人框对应深度图像区域的平均深度后，根据行人框估计宽度修正设定行人框宽度。在满足第二条件时，将两个行人候选框的位置左上右下定点分别以置信度为权重加权平分，得到合并后的行人候选框，第二条件为两个框的重合部分面积大于两者并集面积的80％。

计算深度图像中该行人框位置的平均深度，根据平均深度用查表法得到行人框估计宽度，用加权平均的方式根据行人框估计宽度修正该结果的行人框大小。对所有的行人结果做非极大抑制，具体操作如下：

1)对每一候选框进行如下操作：

1.1若行人置信度低于阈值0.85，抛弃该候选框

1.2计算候选框对应深度图像区域的平均深度，计算行人框估计宽度w_ped＝500*w/d_avg，将行人候选框宽度w_cand，修改为w_cand＝(w_cand+w_ped)/2

2)对所有行人框做非极大抑制。合并满足条件为两个行人框的重合部分面积大于两者并集面积的80％，合并后的结果作为最终行人检测结果。

使用深度信息修正行人检测器输出结果，并将最后的行人检测结果作为辅助信息调整深度图像前背景分割学习率，提高了结果的可靠性。

在步骤150中，根据行人框和置信度生成行人蒙版时，具体操作为：开辟一张单通道尺寸为彩色图像大小的全零的行人蒙版；将每个行人框对应的行人蒙版位置置为一；将行人蒙版大小缩放至深度图像尺寸。

使用行人框生成深度图像背景更新蒙版，能够抑制因行人长期静止导致的背景错误，使背景更加稳定。

采用本发明提供的基于深度图像和彩色图像的行人检测方法，使用深度图像的前景区域生成彩色图像金字塔，并使用经过行人检测器处理得到的行人框生成行人蒙版，抑制了因行人长期静止导致的背景错误，降低了行人检测器的计算量，提高了行人检测的实时性。

本发明实施例提供一种基于深度图像和彩色图像的行人检测装置，如图3所示，该装置包括：获取单元310，用于获取深度图像和彩色图像；分割单元320，用于将深度图像分割为前景区域和背景区域；建立单元330，用于根据彩色图像以及前景区域分块对应的缩放比例建立彩色图像金字塔，其中，前景区域分块由将前景区域进行分块处理后得到，前景区域分块对应的缩放比例根据前景区域分块的平均深度值与预设的设定行人宽度计算得到；输入单元340，用于将彩色图像金字塔中的分块对应的彩色图像中的彩色图像块缩放后输入预先训练的行人检测器，得到行人框、置信度；生成单元350，用于根据行人框和置信度生成行人蒙版。

其中，输入单元还包括：第一输入子单元，用于遍历彩色图像金字塔中的所有分块，在根据分块位置剪裁分块对应的彩色图像中的图像块后，将图像块缩放后输入预先训练的初筛行人检测器，得到行人候选框及其置信度；修正子单元，用于根据行人候选框在前景区域的覆盖率修正行人候选框的置信度；合并子单元，用于根据预设的第一条件采用非极大抑制合并相邻的行人候选框；第二输入子单元，用于将行人候选框从彩色图像中剪裁后，将行人候选框缩放后输入预先训练的精细判断行人检测器，得到行人框和置信度。

该装置还包括修正单元，用于:在置信度大于等于设定第一阈值时，根据彩色图像中行人框所在位置的平均深度信息，对行人框和置信度进行修正。

采用本发明提供的基于深度图像和彩色图像的行人检测装置，使用深度图像的前景区域生成彩色图像金字塔，并使用经过行人检测器处理得到的行人框生成行人蒙版，抑制了因行人长期静止导致的背景错误，降低了行人检测器的计算量，提高了行人检测的实时性。

实际应用中，获取单元310、分割单元320、建立单元330、输入单元340以及生成单元350均可由位于基于深度图像和彩色图像的行人检测装置上的中央处理器(CPU，CentralProcessing Unit)、微处理器(MPU，Micro Processor Unit)、数字信号处理器(DSP，Digital Signal Processor)、或现场可编程门阵列(FPGA，Field Programmable GateArray)等实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于深度图像和彩色图像的行人检测方法，其特征在于，所述方法包括：

获取深度图像和彩色图像；

将所述深度图像分割为前景区域和背景区域；

根据所述彩色图像以及所述前景区域分块对应的缩放比例建立彩色图像金字塔，其中，所述前景区域分块由将所述前景区域进行分块处理后得到，所述前景区域分块对应的缩放比例根据所述前景区域分块的平均深度值与预设的设定行人宽度计算得到；

将所述彩色图像金字塔中的分块对应的彩色图像中的彩色图像块缩放后输入预先训练的行人检测器，得到行人框、置信度；

根据所述行人框和所述置信度生成行人蒙版；

所述将所述彩色图像金字塔中的分块对应的彩色图像中的图像块缩放后输入预先训练的行人检测器，得到行人框和置信度，包括：

遍历所述彩色图像金字塔中的所有分块，在根据分块位置剪裁所述分块对应的彩色图像中的图像块后，将所述图像块缩放后输入预先训练的初筛行人检测器，得到行人候选框及其置信度；

根据所述行人候选框在所述前景区域的覆盖率修正所述行人候选框的置信度；

根据预设的第一条件采用非极大抑制合并相邻的行人候选框；

将所述行人候选框从所述彩色图像中剪裁后，将所述行人候选框缩放后输入预先训练的精细判断行人检测器，得到行人框和置信度。

2.据权利要求1所述的方法，其特征在于，所述根据预设的第一条件采用非极大抑制合并相邻的行人候选框，包括：

在满足第一条件时，将两个行人候选框的位置左上右下定点分别以所述置信度为权重加权平分，得到合并后的行人候选框；其中，所述置信度更新为两个行人候选框的置信度的最大值，所述第一条件为两个行人候选框的重合部分面积大于两者并集面积的60％，且其中一个行人候选框的置信度低于0.8。

3.根据权利要求1所述的方法，其特征在于，所述根据所述行人框和所述置信度生成行人蒙版之前，所述方法还包括:

在置信度大于等于设定第一阈值时，根据彩色图像中行人框所在位置的平均深度信息，对所述行人框和所述置信度进行修正。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述行人框和所述置信度生成行人蒙版，包括：

开辟一张单通道尺寸为所述彩色图像大小的全零的行人蒙版；

将每个所述行人框对应的行人蒙版位置置为一；

将所述行人蒙版大小缩放至深度图像尺寸。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述建立彩色图像金字塔，包括：

对所述前景区域按照四邻域深度相近的原则进行分块；

根据所述分块的像素平均深度计算行人框估计宽度；

根据所述行人框估计宽度和所述设定行人宽度计算彩色图像金字塔缩放尺度；

遍历所有分块，将缩放尺度相近的分块合并为一个分块，其中，合并后的分块的缩放尺度为合并前的分块的缩放尺度的平均值。

6.根据权利要求3所述的方法，其特征在于，所述在置信度大于等于设定第一阈值时，根据所述彩色图像中行人框所在位置的平均深度信息，对所述行人框和所述置信度进行修正，包括：

在所述置信度低于预设的第一阈值，抛弃所述置信度对应的行人框；

计算所述行人框对应深度图像区域的平均深度后，根据行人框估计宽度修正设定行人框宽度；

在满足第二条件时，将两个行人框的位置左上右下定点分别以所述置信度为权重加权平分，得到合并后的行人框，所述第二条件为两个行人框的重合部分面积大于两者并集面积的80％。

7.一种基于深度图像和彩色图像的行人检测装置，其特征在于，所述装置包括：

获取单元，用于获取深度图像和彩色图像；

分割单元，用于将所述深度图像分割为前景区域和背景区域；

建立单元，用于根据所述彩色图像以及所述前景区域分块对应的缩放比例建立彩色图像金字塔，其中，所述前景区域分块由将所述前景区域进行分块处理后得到，所述前景区域分块对应的缩放比例根据所述前景区域分块的平均深度值与预设的设定行人宽度计算得到；

输入单元，用于将所述彩色图像金字塔中的分块对应的彩色图像中的彩色图像块缩放后输入预先训练的行人检测器，得到行人框、置信度；

生成单元，用于根据所述行人框和所述置信度生成行人蒙版；

所述输入单元，还包括：

第一输入子单元，用于遍历所述彩色图像金字塔中的所有分块，在根据分块位置剪裁所述分块对应的彩色图像中的图像块后，将所述图像块缩放后输入预先训练的初筛行人检测器，得到行人候选框及其置信度；

修正子单元，用于根据所述行人候选框在所述前景区域的覆盖率修正所述行人候选框的置信度；

合并子单元，用于根据预设的第一条件采用非极大抑制合并相邻的行人候选框；

第二输入子单元，用于将所述行人候选框从所述彩色图像中剪裁后，将所述行人候选框缩放后输入预先训练的精细判断行人检测器，得到行人框和置信度。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括修正单元，用于: