CN107578021A

CN107578021A - 基于深度学习网络的行人检测方法、装置及系统

Info

Publication number: CN107578021A
Application number: CN201710823332.3A
Authority: CN
Inventors: 陶海; 柯家琪; 杨帆
Original assignee: Wen'an Beijing Intelligent Technology Ltd By Share Ltd
Current assignee: Wen'an Beijing Intelligent Technology Ltd By Share Ltd
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2018-01-12

Abstract

本发明实施例公开一种基于深度学习网络的行人检测方法、装置及系统，其通过对待检测图像中的不同待检测子区域按照对应的最佳缩放比进行放大/缩小，可以将各个待检测子区域中行人的尺寸调整至行人检测模型的最佳检测尺寸范围内，从而克服行人检测模型的检测局限性，有效提高行人的检出率，降低误检率；本发明实施例对待检测图像的分区方式及所采用的最佳缩放比是通过以目标场景的拍摄图像为样本图像自动学习得到的，不需要人工操作干预，可以自动适应各种不同的未知场景的尺度变化情况；另外，通过上述自动学习过程中确定的行人位置和尺寸之间的对应关系对待检测图像的检测结果进行有效性校验，剔除明显过大或过小的误检结果，降低误检率。

Description

基于深度学习网络的行人检测方法、装置及系统

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于深度学习网络的行人检测方法、装置及系统。

背景技术

行人检测是目标检测技术中的一个重要部分，在客流统计、安防监控、智能交通等众多领域都具有广泛的应用。基于深度学习网络的行人检测模型是目前比较先进的行人检测技术，虽然随着深度学习技术的不断发展，该行人检测模型的性能也在不断提高，但其在应用时仍具有一定的局限性，主要体现在其仅能保证对待检测图像中显示大小在一定范围内的目标行人具有较佳的检测效果，即该行人检测模型存在一个最佳检测尺寸范围，对于待检测图像中尺寸过大或过小(超出其最佳检测尺寸范围)的目标行人，可能会因提取到的有效特征过少等因素而导致漏检、误检等现象。

实际应用中，由于成像设备(照相机或摄像机)的透视成像原理，实际大小相同的物体在其拍摄图像中会呈现“近大远小”的特性；例如，对于身高、体型相同的两个行人A和B，距离成像设备较近的行人A在拍摄图像中的显示大小可能为4*30像素，而距离成像设备较远的行人B在拍摄图像中的显示大小可能仅为2*15像素。有鉴于此，当目标场景的空间范围较大(如大厅、广场等场景)，导致成像设备的取景范围内既有远景又有近景，使得同一张拍摄图像中同时存在尺寸很小的行人图像(如2*15像素，对应远景区域)和尺寸很大的行人图像(如8*60像素，对应近景区域)；假设训练好的行人检测模型所适用的最佳检测尺寸范围为4(±1)*30(±5)像素，则当用其对上述拍摄图像进行行人检测时，对于其中显示大小为2*15像素及8*60像素的目标行人，很有可能检测不出来，或者在相应区域误检出一个或几个并不存在的行人。

可见，现有行人检测技术在尺度变化大的目标场景中检测准确度较低，检测效果较差。

发明内容

有鉴于此，本发明实施例提供一种基于深度学习网络的行人检测方法、装置及系统，以克服行人检测模型的检测局限性，保证对待检测图像中不同尺寸的行人都具有很好的检测效果，并自适应不同的检测场景。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供一种基于深度学习网络的行人检测方法，包括：

获取目标场景的待检测图像、预先确定的子区域位置信息和与所述子区域位置信息一一对应的最佳缩放比；

根据所述子区域位置信息，提取所述待检测图像中的待检测子区域，并将所述待检测子区域按照对应的所述最佳缩放比进行缩放处理；

获取基于深度学习网络的行人检测模型，通过所述行人检测模型对经过缩放处理后的待检测子区域进行行人检测。

作为另一实施例，所述方法进一步包括：

获取所述目标场景的样本图像和至少两个不同的预设缩放比；

将所述样本图像分别按照每个所述预设缩放比进行缩放处理，得到与所述预设缩放比一一对应的缩放后图像；

通过所述行人检测模型对每个所述缩放后图像进行行人检测；

获取各个所述缩放后图像对应的行人检测信息，并根据所述行人检测信息分析所述样本图像的不同区域在不同预设缩放比下的检测准确度；

获取所述样本图像中检测准确度满足预设要求的至少一个区域的区域坐标和对应的预设缩放比，并将其记为所述子区域位置信息和对应的最佳缩放比。

可选的，所述行人检测信息包括检测到的目标行人在所述样本图像中的实际坐标(x₀，y₀)、实际尺寸z₀、检测置信度，以及检测到所述目标行人的缩放后图像对应的预设缩放比；

所述根据所述行人检测信息分析所述样本图像的不同区域在不同预设缩放比下的检测准确度的步骤，包括：

获取所述行人检测信息中所述检测置信度大于置信度阈值的有效检测信息；

根据各条所述有效检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀进行拟合处理，得到目标拟合函数z＝f(x,y)，并根据所述目标拟合函数z＝f(x,y)确定所述实际坐标(x₀，y₀)对应的拟合尺寸z’；

将所述样本图像按照预设方向平均分割为预设个数的样本子区域；

根据各条所述有效检测信息中的实际坐标(x₀，y₀)分别筛选每个所述样本子区域对应的有效检测信息；

针对每个所述样本子区域，根据其对应的有效检测信息中的预设缩放比，筛选出所述样本子区域内每个预设缩放比对应的有效检测信息；

针对每个所述样本子区域内每个预设缩放比对应的有效检测信息中的实际尺寸z₀和对应的拟合尺寸z’，获取每个所述样本子区域在每个所述预设缩放比下的尺寸误差均值

可选的，所述获取所述样本图像中检测准确度满足预设要求的至少一个区域的区域坐标和对应的预设缩放比，并将其记为所述子区域位置信息和对应的最佳缩放比的步骤，包括：

获取所述尺寸误差均值小于预设误差均值的预设缩放比作为对应样本子区域的备选缩放比；

对相邻且具有至少一个相同备选缩放比的两个所述样本子区域进行合并；

获取合并得到的各个区域的区域坐标和对应的相同备选缩放比，并将其一一对应标记为所述待检测图像中要提取的各个所述待检测子区域的子区域位置信息和对应的最佳缩放比。

可选的，所述根据各条所述有效检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀进行拟合处理，得到目标拟合函数z＝f(x,y)的步骤，包括：

根据各条所述有效检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀，执行基于最小二乘法的第一次拟合操作，得到试拟合函数z＝f₁(x,y)；

根据所述试拟合函数z＝f₁(x,y)分别确定每条所述有效检测信息中的实际坐标(x₀，y₀)对应的试拟合尺寸z₁；

确定所述试拟合尺寸z₁与对应的实际尺寸z₀之间的试拟合尺寸误差，并获取所述试拟合尺寸误差小于预设误差阈值的有效检测信息作为优选检测信息；

根据各条所述优选检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀，执行基于最小二乘法的第二次拟合操作，得到所述目标拟合函数z＝f(x,y)。

作为另一实施例，在得到所述目标拟合函数z＝f(x,y)之后，所述方法还包括：

确定尺寸下限系数u₁和尺寸上限系数u₂，使得所述有效检测信息中的实际坐标(x₀，y₀)对应的实际尺寸z₀落在其对应的拟合尺寸z’限定的验证区间[u₁z’,u₂z’]内；其中，0＜u₁＜1，u₂＞1；

在所述通过所述行人检测模型对经过缩放处理后的待检测子区域进行行人检测的步骤之后，所述方法还包括：

针对所述行人检测模型检测到的每个目标行人，获取其在所述待检测图像中的目标坐标(x_v，y_v)和目标检测尺寸z_v；

根据所述目标拟合函数确定所述目标坐标(x_v，y_v)对应的目标拟合尺寸z'_v；

判断所述目标检测尺寸z_v是否落在由所述尺寸下限系数u₁、尺寸上限系数u₂和目标拟合尺寸z'_v所确定的验证区间[u₁z'_v,u₂z'_v]内；

存储所述目标检测尺寸落在对应的验证区间内的有效检测结果，舍弃所述目标检测尺寸未落在对应的验证区间内的误检结果。

可选的，所述方法还包括：

分别统计所述有效检测结果的个数L₁和所述误检结果的个数L₂；

根据所述L₁和L₂确定误检率；

当所述误检率大于误检率阈值时，重新执行所述获取所述目标场景的样本图像和至少两个不同的预设缩放比的步骤及其后续步骤，以重新确定所述待检测子区域对应的子区域位置信息和最佳缩放比，及所述目标拟合函数。

第二方面，本发明实施例提供一种基于深度学习网络的行人检测装置，包括：待检测信息获取模块、预处理模块和行人检测模块；

其中，所述待检测信息获取模块，用于获取目标场景的待检测图像、预先确定的子区域位置信息和与所述子区域位置信息一一对应的最佳缩放比；

所述预处理模块，用于根据所述子区域位置信息，提取所述待检测图像中的待检测子区域，并将所述待检测子区域按照对应的所述最佳缩放比进行缩放处理；

所述行人检测模块，用于获取基于深度学习网络的行人检测模型，通过所述行人检测模型对经过缩放处理后的待检测子区域进行行人检测。

作为另一实施例，所述装置还包括：样本处理模块，用于根据所述目标场景的样本图像确定所述子区域位置信息和对应的最佳缩放比；

所述样本处理模块包括：

样本信息获取子模块，用于获取所述目标场景的样本图像和至少两个不同的预设缩放比；

样本预处理子模块，用于将所述样本图像分别按照每个所述预设缩放比进行缩放处理，得到与所述预设缩放比一一对应的缩放后图像；

样本检测模块，用于通过所述行人检测模型对每个所述缩放后图像进行行人检测；

样本分析子模块，用于获取各个所述缩放后图像对应的行人检测信息，并根据所述行人检测信息分析所述样本图像的不同区域在不同预设缩放比下的检测准确度；

标记子模块，用于获取所述样本图像中检测准确度满足预设要求的至少一个区域的区域坐标和对应的预设缩放比，并将其记为所述子区域位置信息和对应的最佳缩放比。

所述样本分析子模块包括：

检测信息筛选单元，用于获取所述行人检测信息中所述检测置信度大于置信度阈值的有效检测信息；

拟合处理单元，用于根据各条所述有效检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀进行拟合处理，得到目标拟合函数z＝f(x,y)，并根据所述目标拟合函数z＝f(x,y)确定所述实际坐标(x₀，y₀)对应的拟合尺寸z’；

样本分割单元，用于将所述样本图像按照预设方向平均分割为预设个数的样本子区域；

检测信息分类单元，用于根据各条所述有效检测信息中的实际坐标(x₀，y₀)分别筛选每个所述样本子区域对应的有效检测信息，并针对每个所述样本子区域，根据其对应的有效检测信息中的预设缩放比，筛选出所述样本子区域内每个预设缩放比对应的有效检测信息；

误差计算单元，用于针对每个所述样本子区域内每个预设缩放比对应的有效检测信息中的实际尺寸z₀和对应的拟合尺寸z’，获取每个所述样本子区域在每个所述预设缩放比下的尺寸误差均值

所述标记子模块包括：

备选缩放比获取单元，用于获取所述尺寸误差均值小于预设误差均值的预设缩放比作为对应样本子区域的备选缩放比；

子区域合并单元，用于对相邻且具有至少一个相同备选缩放比的两个所述样本子区域进行合并；

标记单元，用于获取合并得到的各个区域的区域坐标和对应的相同备选缩放比，并将其一一对应标记为所述待检测图像中要提取的各个所述待检测子区域的子区域位置信息和对应的最佳缩放比。

作为另一实施例，所述装置还包括：

阈值系数确定模块，用于在所述拟合处理单元得到所述目标拟合函数z＝f(x,y)之后，确定尺寸下限系数u₁和尺寸上限系数u₂，使得所述有效检测信息中的实际坐标(x₀，y₀)对应的实际尺寸z₀落在其对应的拟合尺寸z’限定的验证区间[u₁z’,u₂z’]内；其中，0＜u₁＜1，u₂＞1；

有效性检验模块，用于针对所述行人检测模块检测到的每个目标行人，获取其在所述待检测图像中的目标坐标(x_v，y_v)和目标检测尺寸z_v；根据所述目标拟合函数确定所述目标坐标(x_v，y_v)对应的目标拟合尺寸z'_v；判断所述目标检测尺寸z_v是否落在由所述尺寸下限系数u₁、尺寸上限系数u₂和目标拟合尺寸z'_v所确定的验证区间[u₁z'_v,u₂z'_v]内；

检测结果存储模块，用于存储所述目标检测尺寸落在对应的验证区间内的有效检测结果，舍弃所述目标检测尺寸未落在对应的验证区间内的误检结果；

误检率监控模块，用于分别统计所述有效检测结果的个数L₁和所述误检结果的个数L₂，根据所述L₁和L₂确定误检率，并在所述误检率大于误检率阈值时，触发所述样本处理模块，以重新确定所述待检测子区域对应的子区域位置信息和最佳缩放比。

第三方面，本发明实施例提供一种行人检测系统，其特征在于，包括：前端成像设备、网络传输设备和上述任一种基于深度学习网络的行人检测装置；

其中，所述前端成像设备，用于采集目标场景的图像；

所述网络传输设备，用于将所述前端成像设备采集到的所述图像传输至所述行人检测装置；

所述行人检测装置，用于以所述网络传输设备传输来的所述图像为待检测图像进行行人检测。

第四方面，本发明实施例还提供了一种电子设备，可以包括：

一个或者多个处理器；

存储器；

一个或者多个模块，所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时进行如下操作：

第五方面，本发明实施例还提供了一种存储介质，用于存储应用程序，所述应用程序用于执行本发明实施例所提供的一种基于深度学习网络的行人检测方法。

第六方面，本发明实施例还提供了一种应用程序，用于执行本发明实施例所提供的一种基于深度学习网络的行人检测方法。

在本发明中，通过把待检测图像分成多个待检测子检测区域，并对待检测子区域按照对应的最佳缩放比进行放大/缩小，可以使得缩放后的各个待检测子区域中行人的尺寸都落在所述行人检测模型的最佳检测尺寸范围内，从而克服行人检测模型的检测局限性，有效提高行人的检出率，降低误检率。

进一步的，相对于直接人工设置各个场景对应的子区域位置信息和对应的最佳缩放比，本发明中通过以该场景的拍摄图像为样本图像，来自动学习该场景的尺度变化特性，并根据学习到的尺度变化特性确定适用于该场景的待检测子区域分割方式(即所述子区域位置信息)及各个待检测子区域对应的最佳缩放比更加准确、客观，不需要人工反复调试，可以快速适应各种未知场景，从而提高行人检测效率及准确度。另外，本发明基于自动学习得到的目标场景的拍摄图像中行人的坐标和尺寸之间的对应关系，来对行人检测模型输出的待检测图像中各个行人的实际尺寸进行验证，剔除明显过大或过小的误检结果，可以进一步降低误检率，提高检测准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的行人检测方法的流程示意图；

图2为本发明实施例提供的行人检测方法中确定图像分区方式及最佳缩放比的流程示意图；

图3为本发明实施例中坐标系构建及子区域位置标记的示意图；

图4为本发明实施例中对样本图像进行分割及合并的示意图；

图5为本发明实施例提供的行人检测系统的架构图；

图6为本发明实施例提供的行人检测装置的结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于深度学习网络的行人检测方法流程示意图。参见图1，该方法包括：

S11、获取目标场景的待检测图像、预先确定的子区域位置信息和与所述子区域位置信息一一对应的最佳缩放比；

本发明实施例中，所述子区域位置信息和对应的最佳缩放比都是基于所述目标场景确定的，不同的目标场景可能对应不同的子区域位置信息和最佳缩放比。通过预先确定在该目标场景的拍摄图像中哪个区域采用哪种缩放比可以达到最佳检测效果，并将达到最佳检测效果的每个区域的区域坐标记录为一条子区域位置信息，该区域对应的缩放比记为相应子区域位置信息对应的最佳缩放比，从而在正式检测时，就可以根据所述子区域位置信息和对应的最佳缩放比，确定使得检测效果最佳的待检测子区及其缩放比。

需要说明的是，本发明实施例所述的待检测图像为安装在目标场景的固定位置的成像设备所获取的图像，具体可以是通过相机拍摄的目标场景的照片，也可以是通过摄像机拍摄的目标场景的视频文件中的各帧视频图像。

S12、根据所述子区域位置信息，提取所述待检测图像中的待检测子区域，并将所述待检测子区域按照对应的所述最佳缩放比进行缩放处理；

本发明实施例在描述与子区域、目标行人等对象的位置相关的信息时，所采用的坐标系均为以相应图像的左上角为坐标原点、图像宽度方向为横轴、图像高度方向为纵轴的平面直角坐标系，如图2所示。在其他实施例中，也可以在图像中建立其他形式的坐标系(例如以左下角为坐标原点)，用于统一标记各个对象的位置。

基于上述坐标系，本实施例中所述的子区域位置信息的表示方式可以有多种。可选的，一种表示方式可以为(X₁,X₂,Y₁,Y₂)；其中，X₁为该子区域的左边缘对应的横坐标，X₂为该子区域的右边缘对应的横坐标，Y₁为该子区域的上边缘对应的纵坐标，Y₂为该子区域的下边缘对应的纵坐标。可选的，另一种表示方式可以为(X,Y,W,H)；其中，X和Y分别为该子区域的左上角的横坐标和纵坐标，W和H分别为该子区域的宽度和高度。

基于上述子区域位置信息的第一种表示方式，在一个可行的实施例中，如果仅需要对原图像在纵轴方向上进行分区，即每个子区域的左边缘都与该原图像的左边缘重合，每个子区域的右边缘都与该原图像的右边缘重合，则所述子区域位置信息可以省略两个横坐标，简化记为(Y₁,Y₂)；仍参照图2，各个子区域S₁、S₂等的左右边缘均为原图像200的左右边缘(该原图像200宽度为w)，则子区域S₁对应的子区域位置信息完整记作(0,w,Y₁₁,Y₁₂)，简化记为(Y₁₁,Y₁₂)；子区域S₂对应的子区域位置信息完整记作(0,w,Y₂₁,Y₂₂)，简化记为(Y₂₁,Y₂₂)……可以理解的是，在其他可行的实施例中，如果仅需要对原图像在横轴方向上进行分区，每个子区域的上/下边缘都分别与原图像的上/下边缘重合，则相应的子区域位置信息可以省略两个纵坐标，简化记为(X₁,X₂)。

基于上述对子区域位置信息的表示方式的阐述可知，本发明实施例中，可以根据子区域位置信息从当前的待检测图像中提取相应的待检测子区域，然后根据该子区域位置信息对应的最佳缩放比对所述待检测子区域进行缩放。例如，图2中所示的图像200为待检测图像时，根据子区域位置信息(Y₁₁,Y₁₂)可以从该图像200中提取得到待检测子区域S₁，假设与(Y₁₁,Y₁₂)对应记录的最佳缩放比(下文以字母α表示)为α＝1.2，则将待检测子区域放大1.2倍；同样的，根据子区域位置信息(Y₂₁,Y₂₂)可以从该图像200中提取到另一待检测子区域S₂，假设其对应的最佳缩放比为α＝0.8，则将待检测子区域S₂缩小至0.8倍。

本实施例中，两个待检测子区域之间可以有一定程度的重叠，其区域大小也可以不同，如图2中的S₁和S₂之间存在重叠区域，该重叠区域的上边缘对应的纵坐标为Y₂₁，下边缘对应的纵坐标为Y₁₂，区域S₁大于区域S₂。

S13、获取基于深度学习网络的行人检测模型，通过所述行人检测模型对经过缩放处理后的待检测子区域进行行人检测。

在完成步骤S12所述的待检测子区域提取及缩放后，利用基于深度学习网络的行人检测模型对缩放后的待检测子区域进行行人检测。

本实施例中，通过把待检测图像分成多个待检测子检测区域，并对待检测子区域按照对应的最佳缩放比进行放大/缩小，可以使得缩放后的各个待检测子区域中行人的尺寸都落在所述行人检测模型的最佳检测尺寸范围内，从而克服行人检测模型的检测局限性，有效提高行人的检出率，降低误检率。

本发明实施例中，待检测子区域的划分方式是否合理、对应的最佳缩放比是否合适，直接影响最终的检测效果。有鉴于此，本发明实施例提供的行人检测方法在执行上述步骤S11进行正式检测之前，还可以通过执行以下试检测及分析步骤，来使得相应检测设备自动分析得到适用于当前目标场景的子区域位置信息和对应的最佳缩放比，当目标场景改变时，也可以通过该试检测及分析步骤来重新自动确定适用于改变后的目标场景的子区域位置信息和对应的最佳缩放比。具体的，参照图3，本发明实施例提供的行人检测方法中的试检测及分析步骤包括：

S21、获取所述目标场景的样本图像和至少两个不同的预设缩放比；

对于未检测过的目标场景，由于初始时不知道将该目标场景的拍摄图像缩放到哪个尺寸可以使得检测效果最佳，所以本实施例在一个较宽的尺度范围内预设一组缩放比，可以记为{α₁,α₂,...,α_t}(即共有t个预设缩放比，t≥2)。可选的，可以根据所采用的行人检测模型的最佳检测尺寸z_best和常见目标场景的拍摄图像中可能出现的最大行人尺寸z_max、最小行人尺寸z_min来确定所述预设缩放比的最小值α₁和最大值α_t，例如，可以设置为α₁＝z_best/z_max，α_t＝z_best/z_min。

S22、将所述样本图像分别按照每个所述预设缩放比进行缩放处理，得到与所述预设缩放比一一对应的缩放后图像；

假设样本图像为I，根据上述t个预设缩放比{α₁,α₂,...,α_t}，将I按照α₁进行缩放得到一个缩放后图像I₁、将I按照α₂进行缩放得到一个缩放后图像I₂……以此类推，对于一个样板图像I，可以得到与t个预设缩放比{α₁,α₂,...,α_t}一一对应的t个缩放后图像I₁、I₂、……、I_t。

S23、通过所述行人检测模型对每个所述缩放后图像进行行人检测；

如上述样本图像为I按照上述t个预设缩放比{α₁,α₂,...,α_t}进行缩放得到的t个缩放后图像I₁、I₂、……、I_t，通过所述行人检测模型分别对I₁、I₂、……、I_t这t个缩放后图像进行行人检测，每个缩放后图像对应得到一组检测结果(即，对于样本图像I，共得到t组检测结果)，每组检测结果中包括若干条检测信息，每条检测信息中记录有从对应的缩放后图像中检测到的一个目标行人的相关信息，如行人位置、检测置信度等。

S24、获取各个所述缩放后图像对应的行人检测信息；

在本发明一个可行的实施例中，所述的取各个所述缩放后图像对应的行人检测结果，具体可以包括：

将在所述缩放后图像中检测到的每个目标行人分别映射到对应的样本图像中，获取每个所述目标行人在所述样本图像中的行人检测信息。

也就是说，本实施例中无论基于哪种预设缩放比检测到目标行人，都基于缩放前的所述样本图像的尺寸和坐标系来记录检测结果，从而将不同预设缩放比对应的检测结果统一到所述样本图像中，便于在后续步骤中进行统一分析。

S25、根据所述行人检测信息分析所述样本图像的不同区域在不同预设缩放比下的检测准确度；

本发明实施例中，可以先按照预设分割方式对样本图像进行分割，得到若干个不同的样本子区域；其中，所述预设分割方式可以为，在样本图像的横向/纵向方向上平均分割得到预设个数的样本子区域，或者，按照预设子区域尺寸从样本图像的左上角开始依次分割出各个样本子区域，或者，沿样本图像中下边缘到上边缘的方向(一般越靠近图像上边缘的目标离成像设备越远、尺寸也越小)依次分割得到宽度相同、高度值递减的样本子区域，等等，本实施例不限制具体的分割方式。

仍以上述样本图像为I按照上述t个预设缩放比{α₁,α₂,...,α_t}进行缩放得到的t个缩放后图像I₁、I₂、……、I_t，并得到一一对应的t组检测结果的情况为例，在将样本图像I分割为若干个样本子区域S_i(i＝1,2……)后，根据所述检测信息中记录的行人位置，判断每条检测信息分别对应哪个样本子区域，即分别将每组检测结果中的若干个检测信息按照样本子区域进行分类，这样每个样本子区域都可以得到与t个预设缩放比一一对应的t组检测结果子集。例如，对检测信息分类完成后，得到在样本子区域S₁中，预设缩放比α₁对应的检测结果子集包括T1～T10这10条检测信息，通过综合分析这10条检测信息的检测准确度，即可得到样本子区域S₁在预设缩放比α₁下的检测准确度，同理，可以得到任意样本子区域在任意预设缩放比下的检测准确度。

S26、获取所述样本图像中检测准确度满足预设要求的至少一个区域的区域坐标和对应的预设缩放比，并将其映射为应用于所述待检测图像中的所述子区域位置信息和对应的最佳缩放比。

本发明实施例中，对于从样本图像中选取的任一区域S_i(i＝1,2……)，都可以获取到t组检测结果(即所述行人检测信息)，每组检测结果对应一种预设缩放比；通过分析该区域内每种预设缩放比对应的检测结果的检测准确度(用于评价检测准确度的参数有多种，如检测结果的置信度、检测结果的位置误差等，在不同的实施例中具体可以采用不同的评价参数)，来确定使得该区域S_i的检测准确度最高的预设缩放比α_j(j＝1,2,...,t)，该区域S_i就可以对应待检测图像中的一个待检测子区域。通过将该区域S_i的位置信息记录为一条子区域位置信息，对应的使得检测准确度最高预设缩放比则记为该子区域位置信息对应的最佳缩放比，就可以在待检测图像中根据所述子区域位置信息提取该区域S_i对应的待检测子区域，并按照对应的最佳缩放比对该待检测子区域进行缩放，使得所述行人检测模型对该待检测子区域的检测准确度最高。

进一步的，对于从所述样本图像中选取的相邻两个区域，如果其对应的使得检测准确度最高的预设缩放比α_j相同，则可以将这两个区域合并为一个区域，以减少正式检测时待检测子区域的个数，提高处理速度。另外，在一个可行的实施例中，可以基于多个样本图像执行上述步骤S21～S26，以使得最终确定的子区域位置信息和对应的最佳缩放比能够与目标场景更匹配，能够在待检测图像中达到更佳的检测效果。

本发明实施例中，上述步骤S24获取的所述行人检测信息与所述行人检测模型检测到的目标行人一一对应，具体可以包括：所述目标行人在所述样本图像中的实际坐标(x₀，y₀)、实际尺寸z₀、检测置信度p，以及检测到所述目标行人的缩放后图像对应的预设缩放比α_j；即，所述行人检测信息可以表示为{x₀，y₀，z₀，p，α_j}。

在本发明一个可行的实施例中，基于上述行人检测信息{x₀，y₀，z₀，p，α_j}，上述步骤S25所述的根据所述行人检测结果分析所述样本图像的不同区域在不同预设缩放比下的检测准确度，具体可以包括：

S251、获取所述行人检测信息中所述检测置信度大于置信度阈值的有效检测信息；

如果检测到的所述目标行人对应的检测置信度过小，说明该目标行人极有可能为误检，故直接舍弃其对应的行人检测信息，只将所述检测置信度大于置信度阈值的行人检测信息作为有效检测信息进行存储，并利用其执行后续处理，从而减小后续处理过程中的误差。

S252、根据各条所述有效检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀进行拟合处理，得到目标拟合函数z＝f(x,y)；

S253、根据所述目标拟合函数z＝f(x,y)确定每条所述有效检测信息中的实际坐标(x₀，y₀)对应的拟合尺寸z’；

通过拟合处理，使得尽量多的有效检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀满足或趋近于所述目标拟合函数z＝f(x,y)；该目标拟合函数用于描述样本图像中目标行人的坐标和尺寸的映射关系，从而将所述样本图像中任一坐标(x，y)代入该目标拟合函数，即可计算得到该坐标(x，y)处出现的目标行人对应的尺寸z；同样的，将已经检测到的任一目标行人的实际坐标(x₀，y₀)代入该目标拟合函数，即可计算得到该目标行人对应的拟合尺寸z’。

S254、将所述样本图像按照预设方向平均分割为预设个数的样本子区域；

基于上文所述的针对样本图像中的不同区域S_i来分析检测准确度，本发明实施例通过对样本图像进行平均分割的方式来选取各个区域S_i。可选的，基于透视成像原理，一般由拍摄图像的下边缘到上边缘，目标行人对应的尺寸呈递减趋势；有鉴于此，本发明实施例中按照由下至上的方向(即所述预设方向)将所述样本图像平均分割为q个(即所述预设个数)样本子区域Q_k(k＝1，2，……，q)，获得每个样本子区域在所述样本图像中的坐标(Y₁，Y₂)。其中，q的具体值可以为任意正整数，如10、15、20等，实际应用中可以根据样本图像的高度H来确定，H越大则q越大(避免所述样本子区域过大或过小，以免影响后续步骤中对检测准确度的评价)；另外，由于每个样本子区域的左右边缘都分别为样本图像的左右边缘，故样本子区域的坐标可以只记录其上下边缘对应的纵坐标Y₁和Y₂。

S255、根据各条所述有效检测信息中的实际坐标(x₀，y₀)分别筛选每个所述样本子区域对应的有效检测信息；

本实施例中步骤S255相当于对所有的有效检测信息按照其对应的样本子区域进行分类。例如，对于上述由下至上的样本图像分割方式，假设其中一个样本子区域Q₁的坐标为(Y_Q11，Y_Q12)，则凡是实际坐标中的纵坐标y₀落在纵向区间(Y_Q11，Y_Q12)内的有效检测信息，均为该样本子区域Q₁对应的有效检测信息。

S256、针对每个所述样本子区域，根据其对应的有效检测信息中的预设缩放比，筛选出所述样本子区域内每个预设缩放比对应的有效检测信息；

对于同一个样本子区域，其对应的各条有效检测信息中的预设缩放比可能不完全相同，步骤S256即用于将同一样本子区域内的各条有效检测信息按照预设缩放比来分类。例如，经过步骤S255的筛选出的样本子区域Q₁对应的有效检测信息共15条(以下采用标号T1～T15来表示)，其中T1～T10这10条有效检测信息中所记录的预设缩放比均为α₁，T11～T15这5条有效检测信息中所记录的预设缩放比均为α₂，从而可以得到：在样本子区域Q₁内，预设缩放比α₁对应的有效检测信息为T1～T10，预设缩放比α₂对应的有效检测信息为T11～T15，除α₁和α₂之外的其他预设缩放比在Q₁内无对应的有效检测信息。

S257、针对每个所述样本子区域内每个预设缩放比对应的有效检测信息中的实际尺寸z₀和对应的拟合尺寸z’，获取每个所述样本子区域在每个所述预设缩放比下的尺寸误差均值

本发明实施例中，通过尺寸误差均值来评价每个样本子区域在每个预设缩放比下的检测准确度，即尺寸误差均值越小，对应的检测准确度越高。

例如，根据步骤S256所确定的“在样本子区域Q₁内，预设缩放比α₁对应的有效检测信息为T1～T10，预设缩放比α₂对应的有效检测信息为T11～T15，除α₁和α₂之外的其他预设缩放比在Q₁内无对应的有效检测信息”，可以先分别计算T1～T10中每条有效检测信息中的实际尺寸z₀与其对应的拟合尺寸z’之间的尺寸误差Δz，然后计算这10个尺寸误差Δz的平均值，即为样本子区域Q₁在预设缩放比α₂下的尺寸误差均值通过即可评价样本子区域Q₁在预设缩放比α₁下的检测准确度。同样的，根据有效检测信息T11～T15对应的5对实际尺寸和拟合尺寸，可以计算得到样本子区域Q₁在预设缩放比α₂下的尺寸误差均值通过即可评价样本子区域Q₁在预设缩放比α₂下的检测准确度。

在本发明一种可行的实施例中，所述有效检测信息中的实际尺寸和对应的拟合尺寸之间的尺寸误差可以定义为：该实际尺寸和对应的拟合尺寸的差值绝对值相对于该实际尺寸的比值(或百分比)，即Δz＝|z'-z₀|/z₀；相应的，任一样本子区域Q_k(k＝1，2，……，q)在任一预设缩放比α_j(j＝1,2,...,t)下的所述尺寸误差均值即为：该样本子区域Q_k内预设缩放比α_j对应的所有有效检测信息对应的尺寸误差的平均值，可以表示为如下公式(1)：

其中，z_n,k,j为样本子区域Q_k内预设缩放比α_j对应的第n条有效检测信息的实际尺寸，z'_n,k,j为样本子区域Q_k内预设缩放比α_j对应的第n条有效检测信息的拟合尺寸，N为样本子区域Q_k内预设缩放比α_j对应的有效检测信息的总条数。

在本发明另一可行的实施例中，也可以将所述实际尺寸和对应的拟合尺寸之间的尺寸误差定义为：该实际尺寸和对应的拟合尺寸的差值(或其绝对值)，并基于此定义下的尺寸误差计算所述尺寸误差均值。当然，在本发明其他可行的实施例中，除了上述尺寸误差均值，也可以根据同一样本子区域内同一预设缩放比对应的有效检测信息计算得到其他形式的准确度评价参数。

在本发明一个可行的实施例中，在步骤S251中基于检测置信度对检测信息进行筛选的同时，还可以统计每种预设缩放比对应的检测信息条数m，如果某种预设缩放比对应的m过小(如m＜m_ref其中，m_ref为预设条数阈值)，说明目标场景的拍摄图像(包括待检测图像)中很少存在尺寸与该预设缩放比对应的目标行人，对其进行分析的价值也较低，故可以将改检测信息条数过少的预设缩放比删除，相应的也只将检测信息条数多(m≥m_ref)的有效预设缩放比对应的检测信息记为有效检测信息；或者，在通过步骤S252确定所述目标拟合函数之后，再筛选出m≥m_ref的有效预设缩放比对应的有效检测信息，从而在步骤S255中仅利用m≥m_ref的有效预设缩放比对应的有效检测信息来计算各个样本子区域的尺寸误差均值时，以避免检测信息条数少的预设缩放比造成的偶然误差。

在步骤S257获取每个所述样本子区域在每个所述预设缩放比下的尺寸误差均值之后，即可以在步骤S26中根据所示尺寸误差均值来确定要应用于所述待检测图像中的各个所述待检测子区域的子区域位置信息和对应的最佳缩放比。

在本发明一个可行的实施例中，可以在步骤S26中将每个样本子区域的坐标对应标记为一条子区域位置信息，并将该样本子区域中尺寸误差均值的最小值对应的预设缩放比，作为该子区域位置信息对应的最佳缩放比；从而，对于待检测图像提取到与所述样本子区域一一对应的待检测子区域，该待检测子区域对应的最佳缩放比即对应的样本子区域中尺寸误差均值最小的预设缩放比。

在本发明另一个可行的实施例中，基于所述尺寸误差均值，所述步骤S26具体可以包括如下步骤：

S261、获取所述尺寸误差均值小于预设误差均值的预设缩放比作为对应样本子区域的备选缩放比；

S262、对相邻且具有至少一个相同备选缩放比的两个所述样本子区域进行合并；

S263、获取合并得到的各个区域的区域坐标和对应的相同备选缩放比，并将其一一对应标记为所述待检测图像中要提取的各个所述待检测子区域的子区域位置信息和对应的最佳缩放比。

仍以上述将样本图像平均分割为q个样本子区域Q_k(k＝1，2，……，q)的情况为例，参照图4(仅示出了Q₁～Q₅五个样本子区域)，基于步骤S261所述的备选缩放比确定方式，假设对于样本图像400的第一个样本子区域Q₁，其在三个预设缩放比α₁、α₂和α₃下的尺寸误差均值都大于所述预设误差均值，则所述α₁、α₂和α₃都记为第一个样本子区域Q₁的备选缩放比；同理，可以确定与Q₁相邻的第二个样本子区域Q₂的备选缩放比为α₂、α₃和α₄，与Q₂相邻的第三个样本子区域Q₃的备选缩放比为α₃、α₄和α₅，与Q₃相邻的第四个样本子区域Q₄的备选缩放比为α₄、α₅和α₆，与Q₄相邻的第五个样本子区域Q₅的备选缩放比为α₆和α₇，以及其他各个样本子区域对应的备选缩放比。

在确定各个样本子区域对应的备选缩放比后，根据步骤S262所述的合并方式，从样本子区域Q₁开始执行合并操作：对于相邻的样本子区域Q₁和Q₂，由于其存在相同的备选缩放比α₂和α₃，故将Q₁和Q₂合并为一个子区域Q₁’，对于相邻的子区域Q₁’和Q₃，由于其存在相同的备选缩放比α₃，故继续将Q₁’和Q₃合并为一个子区域Q₁”，相邻的子区域Q₁”与Q₄不存在相同的备选缩放比，不再对Q₁”进行合并；此时，子区域Q₁”就可以映射为待检测图像中的一个待检测子区域，Q₁”对应的区域坐标即可以记为一个子区域位置信息，Q₁”对应的备选缩放比α₃则记为相应待检测子区域对应的最佳缩放比。

同时，也可以由样本子区域开始执行合并操作：对于相邻的样本子区域Q₂和Q₃，由于其存在相同的备选缩放比α₃和α₄，故将Q₂和Q₃合并为一个子区域Q₂’，对于相邻的子区域Q₂’和Q₄，由于其存在相同的备选缩放比α₄，故继续将Q₂’和Q₄合并为一个子区域Q₂”，相邻的子区域Q₂”与Q₅不存在相同的备选缩放比，不再对Q₂”进行合并；此时，子区域Q₂”就可以映射为待检测图像中的另一个待检测子区域，Q₂”对应的区域坐标即可以记为一个子区域位置信息，Q₂”对应的备选缩放比α₄则记为相应待检测子区域对应的最佳缩放比。

可见，本发明实施例合并后得到的两个子区域Q₁”和Q₂”存在一定程度的重叠(重叠区域为Q₂和Q₃对应的区域)，也即在待检测图像中对应提取的两个待检测子区域也存在重叠，这样可以避免一个目标行人因被分割在两个待检测子区域中而被漏检。

根据上文所述步骤S21～S26，及其相关细化步骤S251～S257和S261～S263可知，应用本发明实施例行人检测方法，对于任意未知场景，相关处理设备能够以该场景的拍摄图像为样本图像，来自动学习该场景的尺度变化特性，即所述目标拟合函数，并根据学习到的尺度变化特性确定适用于该场景的待检测子区域分割方式(即所述子区域位置信息)及各个待检测子区域对应的最佳缩放比。上述过程完全在无人工操作干预的情况下，由相关处理设备自动执行完成，相对于直接人工设置各个场景对应的子区域位置信息和对应的最佳缩放比，本发明实施例更加准确、客观，不需要人工反复调试，可以快速适应各种未知场景，从而提高行人检测效率及准确度。

在本发明一个可行的实施例中，上述步骤S252中可以基于最小二乘法来拟合得到表示目标行人的坐标与尺寸之间的映射关系，即所述目标拟合函数z＝f(x,y)；具体步骤如下：

S2521、根据各条所述有效检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀，执行基于最小二乘法的第一次拟合操作，得到试拟合函数z＝f₁(x,y)；

以任意二次曲面函数z＝f₀(x,y)＝c₁x²+c₂xy+c₃y²+c₄x+c₅y+c₆作为初始函数，基于最小二乘法的原理，将各条有效检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀作为给定数据，按偏差平方和最小的原则(即使得各条有效检测信息对应的z₀与f₀(x₀,y₀)之间的偏差平方和最小)进行拟合曲线，计算得到该任意二次曲面函数的6个系数c₁～c₆，将该6个系数代入上述任意二次曲面函数中得到一个确定的二次曲面函数，即所述试拟合函数z＝f₁(x,y)。

在一个可行的实施例中，可以直接将所述试拟合函数z＝f₁(x,y)作为目标拟合函数来执行后续步骤S253等。但是，由于仅经过一次拟合操作，可能会因部分给定数据偏差较大而造成拟合结果，即所述试拟合函数，也存在偏差，从而影响后续对检测准确度的评价。有鉴于此，本发明实施例在得到所述试拟合函数z＝f₁(x,y)之后，继续通过下述步骤S2522～S2524来进行第二次拟合，从而得到偏差较小、拟合更准确的目标拟合函数。

S2522、根据所述试拟合函数z＝f₁(x,y)分别确定每条所述有效检测信息中的实际坐标(x₀，y₀)对应的试拟合尺寸z₁；

S2523、确定所述试拟合尺寸z₁与对应的实际尺寸z₀之间的试拟合尺寸误差，并获取所述试拟合尺寸误差小于预设误差阈值的有效检测信息作为优选检测信息；

将各条有效检测信息中的实际坐标(x₀，y₀)分别代入所述试拟合函数z＝f₁(x,y)，即可计算得到该实际坐标对应的试拟合尺寸，即z₁＝f₁(x₀,y₀)；然后计算各条有效检测信息中的实际坐标对应的试拟合尺寸z₁与其实际尺寸z₀之间的误差，即所述试拟合尺寸误差(以下表示为Δz₁)，然后筛选出Δz₁小于预设误差阈值的有效检测信息，即所述优选检测信息，进行第二次拟合，即下述步骤S2524，其他Δz₁不小于所述预设误差阈值的有效检测信息不参与第二次拟合。

在一个可行的实施例中，所述试拟合尺寸误差Δz₁可以采用偏差绝对值，即Δz₁＝|z₁-z₀|。在另一个可行的实施例中，所述试拟合尺寸误差也可以采用偏差比Δz₁＝|z₁-z₀|/z₀或者偏差百分比Δz₁＝(|z₁-z₀|/z₀)×100％。以所述试拟合尺寸误差采用所述偏差百分比为例，预设误差阈值可以设置为5％，即筛选出Δz₁<5％的有效检测信息作为所述优选检测信息，执行下述步骤S2524。

S2524、根据各条所述优选检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀，执行基于最小二乘法的第二次拟合操作，得到所述目标拟合函数z＝f(x,y)。

所述第二次拟合操作与步骤S2521中的第一次拟合操作类似，仍以任意二次曲面函数z＝f₀(x,y)＝c₁x²+c₂xy+c₃y²+c₄x+c₅y+c₆作为初始函数，基于最小二乘法的原理，将各条所述优选检测信息(不再是全部的有效检测信息)中的实际坐标(x₀，y₀)和实际尺寸z₀作为给定数据来拟合曲线，重新计算得到6个系数c₁～c₆，也即得到所述目标拟合函数z＝f(x,y)。

可见，本实施例在第一拟合得到试拟合函数后，通过计算试拟合尺寸误差将误差较大的有效检测信息过滤掉，仅保留误差小的有效检测信息作为优选检测信息进行第二次拟合，从而可以得到相对于所述试拟合函数更准确的拟合函数，将其作为目标拟合函数执行后续步骤，可以更准确地评价各个样本子区域的检测准确度，进而可以保证最终得到的子区域位置信息和对应的最佳缩放比更准确。

在本发明一个可行的实施例中，在确定所述目标拟合函数z＝f(x,y)(步骤S252或者S2524)之后，还可以进一步执行以下步骤：

S2525、确定尺寸下限系数u₁和尺寸上限系数u₂，使得所述有效检测信息中的实际坐标(x₀，y₀)对应的实际尺寸z₀落在其对应的拟合尺寸z’限定的验证区间[u₁z’,u₂z’]内；其中，0＜u₁＜1，u₂＞1。

具体的，在确定所述目标拟合函数z＝f(x,y)后，任意选取两个系数u₁和u₂，且0＜u₁＜1，u₂＞1；然后分别将每条有效检测信息中的实际坐标(x₀，y₀)代入所述目标拟合函数z＝f(x,y)，计算得到其对应的拟合尺寸z'＝f(x₀,y₀)，根据上述两个系数u₁和u₂计算该实际坐标对应的尺寸下限u₁z’和尺寸上限u₂z’，即得到所述验证区间[u₁z’,u₂z’]，判断该实际坐标对应的实际尺寸z₀是否在该验证区间内；也即，针对每条有效检测信息中的实际坐标(x₀，y₀)和对应的实际尺寸z₀，判断是否满足如下验证条件：z₀∈[u₁f(x₀,y₀),u₂f(x₀,y₀)]。如果不满足上述验证条件的有效检测信息超过一定比例(例如超过5％)，则视为u₁和u₂的取值不合适，重新选取新的取值，再次基于上述验证条件进行验证，直至所有或者大部分(例如95％以上)的有效检测信息都满足上述验证条件，说明两个系数u₁和u₂的取值合适。

基于上述步骤S2525确定的尺寸下限系数u₁和尺寸上限系数u₂，可以对行人检测模型输出的检测结果进行有效性验证，以剔除无效的检测结果，提高检测准确度。具体的，本发明实施例在执行步骤S13之后，还可以进一步执行如下步骤：

S141、针对所述行人检测模型检测到的每个目标行人，获取其在所述待检测图像中的目标坐标和目标检测尺寸；

本发明实施例中，由于在步骤S13中行人检测模型是基于经过缩放处理后的待检测子区域进行行人检测的，其得到的检测结果也是基于不同尺度的坐标系，故有必要将各个检测结果统一映射到缩放前的坐标系下，即其对应的待检测子区域所在坐标系，也即基于所述待检测图像建立的坐标系。具体可以基于坐标系之间的变换关系来实现该映射操作，得到行人检测模型检测到的每个目标行人在所述待检测图像中的目标坐标和目标检测尺寸。

S142、根据所述目标拟合函数确定所述目标坐标对应的目标拟合尺寸；

S143、判断所述目标检测尺寸是否落在所述尺寸下限系数u₁、尺寸上限系数u₂和目标拟合尺寸确定的验证区间内；

S144、存储所述目标检测尺寸落在对应的验证区间内的有效检测结果，舍弃所述目标检测尺寸未落在对应的验证区间内的误检结果。

在步骤S142中，分别将步骤S141中获取到的每个目标坐标(x_v，y_v)(其中，v表示所述行人检测模型检测到的第v个目标行人，v＝1,2，……)代入所述目标拟合函数z＝f(x,y)中，得到该目标坐标(x_v，y_v)对应的目标拟合尺寸z'_v＝f(x_v,y_v)；然后在步骤S143中，判断每个目标坐标(x_v，y_v)对应的目标检测尺寸z_v是否在由u₁、u₂和z'_v所确定的验证区间[u₁z'_v,u₂z'_v]内，也即判断是否满足不等式u₁z'_v≤z_v≤u₂z'_v；如果目标检测尺寸z_v在其对应的验证区域[u₁z'_v,u₂z'_v]内(即满足不等式u₁z'_v≤z_v≤u₂z'_v)，则将该目标检测尺寸对应的检测结果视为有效检测结果进行存储，反之，如果目标检测尺寸z_v不在其对应的验证区域[u₁z'_v,u₂z'_v]内，则将其对应的检测结果视为误检结果(即无效检测结果)，并直接将该误检结果舍弃，不进行存储。

由于本实施例中的目标拟合函数、尺寸下限系数u₁和尺寸上限系数u₂都是基于大量样本数据确定的，理论上所有有效检测结果中的目标检测尺寸都应当落在对应的验证区域内，如果不在其对应的验证区间，则说明该检测结果有误，属于误检结果，应当将其舍弃。可见，本发明实施例基于自动学习得到的目标场景的拍摄图像中行人的坐标和尺寸之间的对应关系，即所述目标拟合函数，以及上下限系数u₁和u₂，可以确定任意坐标处的拟合尺寸区间，并将其作为该坐标对应的参考尺寸区间，对待检测图像中检测到的实际尺寸进行验证，可以剔除行人检测模型输出的明显过大或过小的误检结果，进一步降低整个行人检测设备/系统的误检率，提高检测准确度。

实际应用场景中，除了行人检测模型的检测误差，成像设备位置变化、所确定的目标拟合函数仍然存在一定的偏差等因素，也会导致检测结果中出现不满足上述有效性验证条件的情况。其区别在于，所述行人检测模型本身造成的检测误差是偶然的，不会大量出现，对检测效果影响不大；而成像设备位置变化、目标拟合函数不合适等因素造成的检测误差是大量出现的，会严重影响检测效果，此时应当重新确定目标拟合函数、子区域位置信息及对应的最佳缩放比。有鉴于此，为了在实际检测时能够及时发现成像设备位置变化、目标拟合函数不合适等严重影响检测效果的情况，本发明实施例行人检测方法还可以包括以下步骤：

S151、分别统计所述有效检测结果的个数L₁和所述误检结果的个数L₂；

S152、根据所述L₁和L₂确定误检率；

S153、当所述误检率大于误检率阈值时，重新执行所述获取所述目标场景的样本图像和至少两个不同的预设缩放比的步骤及其后续步骤，以重新确定所述待检测子区域对应的子区域位置信息和最佳缩放比，及所述目标拟合函数。

本实施例中基于前文所述步骤S141～S144可以统计得到满足有效性验证条件的有效检测结果的个数L₁和不满足有效性验证条件的误检结果的个数L₂；当检测结果的总个数达到一定数量时(如，行人检测模型共输出1000个检测结果时)，或者经过检测的待检测图像个数达到一定数量时(如完成200幅待检测图像的行人检测时)，根据L₁和L₂计算当前检测过程的误检率(检测结果个数较少时计算得到的误检率存在较大的偶然性，不具备参考价值)；可选的，所述误检率可以采用二者的比值，即L₂/L₁，也可以采用误检结果的个数与总检测个数的比值，即L₂/(L₁+L₂)。

当所述误检率过大(大于所述误检率阈值)时，说明误检结果非常多，说明检测过程中采用的参数(包括所述子区域位置信息、最佳缩放比、目标拟合函数等)不适应当前的目标场景，应当重新确定这些参数。因此，当所述误检率大于误检率阈值时，重新执行步骤S21～S26，得到新的子区域位置信息、新的最佳缩放比和新的目标拟合函数后，再利用这些新的参数进行行人检测。

下面举例说明本发明所述的行人检测方法在实际应用时的流程。对于一个未知目标场景，当需要对其进行行人检测时，先在该场景下搭建如图5所示的行人检测系统，所用硬件设备包括前端成像设备501(具体可以为相机、摄像机等)、网络传输设备502和行人检测装置503。系统启动后，前端成像设备501拍摄目标场景的图像，并通过网络传输设备502将该图像传输给行人检测装置503，行人检测装置503在接收到该图像后，通过本发明实施例所述的行人检测方法，对该图像进行行人检测。

具体的，行人检测装置503可以将前端成像设备501拍摄到的视频文件的第1～100帧图像为样本图像，通过前文所述步骤S21～S26及相关具体步骤S251～S257、S2521～S2525、S261～S263，确定当前目标场景所适用的子区域位置信息、对应的最佳缩放比、目标拟合函数及尺寸上/下限系数；然后，行人检测装置503利用该子区域位置信息、对应的最佳缩放比及目标拟合函数，将第101帧开始的各帧图像作为待检测图像，分别通过步骤S11～S13进行行人检测，并根据尺寸上/下限系数通过步骤S141～S142验证各个待检测图像的各条检测结果的有效性；同时基于步骤S151连续统计有效检测结果的个数和误检结果的个数，并在第300帧图像检测完成后执行步骤S152～S153，计算第101～300帧图像的误检率，并判断其是否大于误检率阈值，如果大于该误检率阈值，则重新执行S21～S26及相关具体步骤。

如果在开始正式检测之后(第101帧之后)，前端成像设备501的位置、拍摄角度等变化，则会导致行人检测装置503基于第1～100帧图像所确定的目标拟合函数等参数与目标场景不匹配，从而出现大量误检结果，故需要重新确定目标拟合函数等参数；而由于之前作为样本图像的第1～100帧图像是前端成像设备501发生变化前得到的图像，故不应再以其为样本图像来执行步骤S21～S26，否则所确定的目标函数等参数依然会与前端成像设备501变化后的目标场景不匹配。因此，在需要重新确定目标拟合函数等参数时，要重新选取样本图像；例如，上述在检测到第300帧时判定需要重新执行S21～S26，可以选取最新的100帧图像(即第201～300帧图像)为样本图像，也可以选取后续的第301～450帧图像为样本图像。

由以上叙述可见，本发明实施例可以在不需要人工操作干预的情况下，完全由相关检测设备自动学习未知场景的尺度变化特性，并根据学习到的尺度变化特性对待检测图像进行自动合理的分割，将分割得到的待检测子区域分别缩放到行人检测模型的最佳检测尺寸范围内，从而提高对任意场景行人检测的检测准确率和检测效率；同时，还可以自动判断检测结果的有效性，并在场景发生变化(如成像设备位置变化)时，自动重新分析场景的尺度变化特性，重新确定对待检测图像的分割方式及最佳缩放尺度，保证检测结果的检测准确率。

图6为本发明实施例基于深度学习网络的行人检测装置的结构示意图。参见图6，该装置包括：待检测信息获取模块601、预处理模块602和行人检测模块603；

其中，所述待检测信息获取模块601，用于获取目标场景的待检测图像、预先确定的子区域位置信息和与所述子区域位置信息一一对应的最佳缩放比；

所述预处理模块602，用于根据所述子区域位置信息，提取所述待检测图像中的待检测子区域，并将所述待检测子区域按照对应的所述最佳缩放比进行缩放处理；

所述行人检测模块603，用于获取基于深度学习网络的行人检测模型，通过所述行人检测模型对经过缩放处理后的待检测子区域进行行人检测。

在本发明一个可行的实施例中，所述行人检测装置还包括：样本处理模块604，用于根据所述目标场景的样本图像确定所述子区域位置信息和对应的最佳缩放比；

其中，所述样本处理模块604具体可以包括：

样本信息获取模块，用于获取所述目标场景的样本图像和至少两个不同的预设缩放比；

样本预处理模块，用于将所述样本图像分别按照每个所述预设缩放比进行缩放处理，得到与所述预设缩放比一一对应的缩放后图像；

样本分析模块，用于获取各个所述缩放后图像对应的行人检测信息，并根据所述行人检测信息分析所述样本图像的不同区域在不同预设缩放比下的检测准确度；

标记模块，用于获取所述样本图像中检测准确度满足预设要求的至少一个区域的区域坐标和对应的预设缩放比，并将其记为所述子区域位置信息和对应的最佳缩放比。

作为一可选实施例，所述行人检测信息包括检测到的目标行人在所述样本图像中的实际坐标(x₀，y₀)、实际尺寸z₀、检测置信度，以及检测到所述目标行人的缩放后图像对应的预设缩放比；

基于上述行人检测信息，所述样本分析子模块具体可以包括：

作为一可选实施例，基于所述误差计算单元得到的尺寸误差均值，所述标记子模块具体可以包括：

在本发明一个可行的实施例中，所述行人检测装置还可以包括：

阈值系数确定模块605，用于在所述拟合处理单元得到所述目标拟合函数z＝f(x,y)之后，确定尺寸下限系数u₁和尺寸上限系数u₂，使得所述有效检测信息中的实际坐标(x₀，y₀)对应的实际尺寸z₀落在其对应的拟合尺寸z’限定的验证区间[u₁z’,u₂z’]内；其中，0＜u₁＜1，u₂＞1；

作为一可选实施例，基于所述阈值系数确定模块605，所述行人检测装置还可以包括：

有效性检验模块606，用于针对所述行人检测模块603检测到的每个目标行人，获取其在所述待检测图像中的目标坐标(x_v，y_v)和目标检测尺寸z_v；根据所述目标拟合函数确定所述目标坐标(x_v，y_v)对应的目标拟合尺寸z'_v；判断所述目标检测尺寸z_v是否落在由所述尺寸下限系数u₁、尺寸上限系数u₂和目标拟合尺寸z'_v所确定的验证区间[u₁z'_v,u₂z'_v]内；

检测结果存储模块607，用于存储所述目标检测尺寸落在对应的验证区间内的有效检测结果，舍弃所述目标检测尺寸未落在对应的验证区间内的误检结果；

作为一可选实施例，基于所述有效性检验模块606和检测结果存储模块607，所述行人检测装置还可以包括：

误检率监控模块608，用于分别统计所述有效检测结果的个数L₁和所述误检结果的个数L₂，根据所述L₁和L₂确定误检率，并在所述误检率大于误检率阈值时，触发所述样本处理模块，以重新确定所述待检测子区域对应的子区域位置信息和最佳缩放比。

由以上技术方案可知，本发明实施例基于深度神经网络的行人检测装置，通过把待检测图像分成多个待检测子检测区域，并对待检测子区域按照对应的最佳缩放比进行放大/缩小，可以使得缩放后的各个待检测子区域中行人的尺寸都落在所述行人检测模型的最佳检测尺寸范围内，从而克服行人检测模型的检测局限性，有效提高行人的检出率，降低误检率。

进一步的，本发明实施例对于任意未知场景，通过以该场景的拍摄图像为样本图像，来自动学习该场景的尺度变化特性，并根据学习到的尺度变化特性确定适用于该场景的待检测子区域分割方式(即所述子区域位置信息)及各个待检测子区域对应的最佳缩放比；上述过程完全在无人工操作干预的情况下，由相关处理设备自动执行完成，相对于直接人工设置各个场景对应的子区域位置信息和对应的最佳缩放比，本发明实施例更加准确、客观，不需要人工反复调试，可以快速适应各种未知场景，从而提高行人检测效率及准确度。

另外，本发明实施例基于自动学习得到的目标场景的拍摄图像中行人的坐标和尺寸之间的对应关系，即所述目标拟合函数，以及上下限系数u₁和u₂，可以确定任意坐标处的拟合尺寸区间，并以该拟合尺寸区间为该坐标对应的参考尺寸区间，对待检测图像中检测到的各个行人的实际尺寸进行验证，剔除行人检测模型输出的明显过大或过小的误检结果，进一步降低整个行人检测设备/系统的误检率，提高检测准确度。

本发明实施例还提供了一种行人检测系统，如图5所示，该系统包括：前端成像设备501、网络传输设备502和前文任一项实施例所述的基于深度学习网络的行人检测装置503；

其中，所述前端成像设备501，用于采集目标场景的图像；所述网络传输设备502，用于将所述前端成像设备采集到的所述图像传输至所述行人检测装置；所述行人检测装置503，用于以所述网络传输设备502传输来的所述图像为待检测图像进行行人检测，还用于以所述网络传输设备502传输来的所述图像为样本图像自动学习得到适用于所述目标场景的待检测子区域分割方式及各个待检测子区域对应的最佳缩放比。

本发明实施例还提供了一种电子设备，可以包括：

一个或者多个处理器；

存储器；

本发明实施例还提供了一种存储介质，用于存储应用程序，所述应用程序用于执行本发明实施例所提供的基于深度学习网络的行人检测方法。

本发明实施例还提供了一种应用程序，用于执行本发明实施例所提供的基于深度学习网络的行人检测方法。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

为了描述的方便，描述以上装置是以功能分为各种单元/模块分别描述。当然，在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度学习网络的行人检测方法，其特征在于，该方法包括：

2.根据权利要求1所述的行人检测方法，其特征在于，还包括：

3.根据权利要求2所述的行人检测方法，其特征在于，所述行人检测信息包括检测到的目标行人在所述样本图像中的实际坐标(x₀，y₀)、实际尺寸z₀、检测置信度，以及检测到所述目标行人的缩放后图像对应的预设缩放比；

4.根据权利要求3所述的行人检测方法，其特征在于，所述获取所述样本图像中检测准确度满足预设要求的至少一个区域的区域坐标和对应的预设缩放比，并将其记为所述子区域位置信息和对应的最佳缩放比的步骤，包括：

5.根据权利要求3所述的行人检测方法，其特征在于，所述根据各条所述有效检测信息中的实际坐标(x₀，y₀)和实际尺寸z₀进行拟合处理，得到目标拟合函数z＝f(x,y)的步骤，包括：

6.根据权利要求3至5任一项所述的行人检测方法，其特征在于，在得到所述目标拟合函数z＝f(x,y)之后，所述方法还包括：

7.根据权利要求6所述的行人检测方法，其特征在于，所述方法还包括：

根据所述L₁和L₂确定误检率；

8.一种基于深度学习网络的行人检测装置，其特征在于，包括：待检测信息获取模块、预处理模块和行人检测模块；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：样本处理模块，用于根据所述目标场景的样本图像确定所述子区域位置信息和对应的最佳缩放比；

所述样本处理模块包括：

10.根据权利要求9所述的装置，其特征在于，所述行人检测信息包括检测到的目标行人在所述样本图像中的实际坐标(x₀，y₀)、实际尺寸z₀、检测置信度，以及检测到所述目标行人的缩放后图像对应的预设缩放比；

所述样本分析子模块包括：

所述标记子模块包括：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.一种行人检测系统，其特征在于，包括：前端成像设备、网络传输设备和如权利要求8至11任一项所述的基于深度学习网络的行人检测装置；

其中，所述前端成像设备，用于采集目标场景的图像；

13.一种电子设备，其特征在于，包括：

一个或者多个处理器；

存储器；

14.一种存储介质，其特征在于，所述存储介质中存储有应用程序，所述应用程序用于执行如权利要求1至7任一项所述的行人检测方法。

15.一种应用程序，其特征在于，所述应用程序用于执行如权利要求1至7任一项所述的行人检测方法。