CN110097050A

CN110097050A - 行人检测方法、装置、计算机设备及存储介质

Info

Publication number: CN110097050A
Application number: CN201910267505.7A
Authority: CN
Inventors: 王健宗; 彭俊清; 瞿晓阳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2019-08-06
Anticipated expiration: 2039-04-03
Also published as: CN110097050B

Abstract

本申请涉及智能决策领域，利用机器学习和深度学习检测行人。具体公开了一种行人检测方法、装置、计算机设备及存储介质，该方法包括：获取待检测图像；确定待检测图像中的目标物体以及目标物体对应的人类基线；根据人类基线生成所目标物体对应的边界框；根据边界框确定待检测图像中的候选区域；将候选区域内的图像作为目标图像输入至卷积神经网络以使卷积神经网络提取目标图像对应的目标特征；将所述目标特征输入至预先训练的分类器进行分类识别以得到识别结果。

Description

行人检测方法、装置、计算机设备及存储介质

技术领域

本申请涉及行人检测技术领域，尤其涉及一种行人检测方法、装置、计算机设备及存储介质。

背景技术

近年来，以深度学习为主的人工智能发展迅猛，其中关于行人检测是最为活跃的一个研究方向，行人检测即是将图像中出现的行人从背景中区分出来并精准定位。并且行人检测在许多领域都有广泛应用，如视频监控领域、智能机器人领域、汽车辅助驾驶和自动驾驶领域，在这些领域中行人检测都是必不可少的技术。但是由于行人的人体姿态各异，衣着变化多样，图像又容易受到光照和环境影响以及人体部位被遮挡等因素，使得行人检测难以精准定位，虽然卷积神经网络可以取得较好检测效果，但是在小尺寸目标的检测上存在一定的局限性。因此，有必要提供一种行人检测方法以解决上述问题。

发明内容

本申请提供了一种行人检测方法、装置、计算机设备及存储介质，以提高行人检测的准确率，进而达到应用的要求。

第一方面，本申请提供了一种行人检测方法，所述方法包括：

获取待检测图像；

确定所述待检测图像中的目标物体以及所述目标物体对应的人类基线；

根据所述人类基线生成所述目标物体对应的边界框；

根据所述边界框确定所述待检测图像中的候选区域；

将所述候选区域内的图像作为目标图像输入至卷积神经网络以使所述卷积神经网络提取所述目标图像对应的目标特征；

将所述目标特征输入至预先训练的分类器进行分类识别以得到识别结果。

第二方面，本申请还提供了一种行人检测装置，所述装置包括：

图像获取单元，用于获取待检测图像；

目标基线确定单元，用于确定所述待检测图像中的目标物体以及所述目标物体对应的人类基线；

边界框生成单元，用于根据所述人类基线生成所述目标物体对应的边界框；

区域确定单元，用于根据所述边界框确定所述待检测图像中的候选区域；

特征提取单元，用于将所述候选区域内的图像作为目标图像输入至卷积神经网络以使所述卷积神经网络提取所述目标图像对应的目标特征；

特征识别单元，用于将所述目标特征输入至预先训练的分类器进行分类识别以得到识别结果。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的行人检测方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的行人检测方法。

本申请公开了一种行人检测方法、装置、设备及存储介质，通过先确定获取的待检测图像中的目标物体以及对应的人类基线；根据人类基线生成对应的边界框；再根据边界框确定待检测图像中的候选区域；将候选区域内的图像作为目标图像输入至卷积神经网络以使所述卷积神经网络提取所述目标图像对应的目标特征；以及将目标特征输入至预先训练的分类器进行分类识别以得到识别结果，该识别结果行人和非行人。该方法可以提高行人检测的准确率，进而满足各种应用的行人检测要求。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种行人检测方法的示意流程图；

图2是图1中提供的行人检测方法的子步骤示意流程图；

图3是图2中提供的行人检测方法的子步骤示意流程图；

图4a是本申请的实施例提供的生成边界框的效果示意图；

图4b是本申请的实施例提供的调整边界框的效果示意图；

图5是图1中提供的行人检测方法的另一子步骤示意流程图；

图6是本申请的实施例提供的另一种行人检测方法的示意流程图；

图7是本申请的实施例提供的边框回归技术的示意性框图；

图8为本申请实施例提供的一种行人检测装置的示意性框图；

图9为本申请实施例提供的另一种行人检测装置的示意性框图；

图10为本申请一实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的实施例提供了一种行人检测方法、行人检测装置、计算机设备及存储介质，可用于视频监控领域、智能机器人领域、汽车辅助驾驶和自动驾驶领域。例如，应用于视频监控领域，对道路上的行人进行识别分类以区分行人和非行人；再例如，应用于智能机器人领域，对智能机器人前面的行人进行检测，以便规划智能机器人的行走路线等。

在具体的应用中，该行人检测方法可以应用于终端或服务器中，或者服务器和终端交互使用，以快速准确地识别出待检测图像中的行人。服务器和终端交互使用，比如服务器将识别结果发送终端进行应用。

其中，服务器可以为独立的服务器，也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备等电子设备或智能机器人。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请的实施例提供的一种行人检测方法的示意流程图。该行人检测方法可以应用于终端或服务器中，对获取的拍摄图像进行检测以识别该图像中的行人和非行人。

如图1所示，该行人检测方法具体包括：步骤S101至步骤S106。

S101、获取待检测图像。

其中，所述待检测图像为视频中的图像，当然也可以为连续拍摄的多帧图像。具体地，该视频可以为实时视频或视频录像，待检测图像为该视频中某一帧图像或者几帧图像。

例如，可以通过摄像头实时采集相应场景的视频，并将视频中的图像作为待检测图像。其中，相应场景比如为商城、道路的十字路口或学校门口等，由于该待检测图像为实时视频中的图像，因此可能包括行人。

S102、确定所述待检测图像中的目标物体以及所述目标物体对应的人类基线。

具体地，可利用目标确定算法确定所述待检测图像中出现的目标物体，该目标物体比如为行人、动物、机动车辆或非激动车辆等。其中，目标确定算法比如包括图像处理算法、特征提取算法或帧间差分算法等等。

在一个实施例中，提供了一个人类基线确认的步骤，如图2所示，该步骤S102具体包括以下内容：

S102a、根据帧间差分算法确定所述待检测图像中的目标物体。

具体地，如图3所示，步骤S102a包括以下内容：S102a1、提取所述视频中相对所述待检测图像延后预设帧数的延后帧图像；S102a2、将所述延后帧图像与所述待检测图像相减以得到差分图像；S102a3、对所述差分图像进行阈值处理得到所述差分图像对应的二值图像；S102a4、根据所述二值图像确定所述待检测图像中的目标物体。

提取所述视频中相对所述待检测图像延后预设帧数的延后帧图像，比如提取相对待检测图像延后2帧的延后帧图像，该预设帧数也可以其他帧数，比如延后1帧或4帧等；当然预设帧数可以与视频的采集频率相关，比如采集频率大，预设帧数就相对较大，采集频率小，预设帧数就相对较小，由此提高确定目标物体的准确率。

将所述延后帧图像与所述待检测图像相减以得到差分图像，是指通过差分法将所述延后帧图像的像素值与所述待检测图像对应的像素值相减以得到差分图像。

对所述差分图像进行阈值处理得到所述差分图像对应的二值图像，具体包括：确定所述差分图像中像素值大于预设阈值的像素点；以及根据大于所述预设阈值的像素点确定所述差分图像对应的二值图像。

其中，所述二值图像表示为：

在公式(1)中，S(i,j)表示所述二值图像，T为所述预设阈值，(i,j)表示离散图像的坐标，D表示所述差分图像，当D大于或等于预设阈值时，S(i,j)表示为1，当D小于该预设阈值时，S(i,j)表示为0。

根据所述二值图像确定所述待检测图像中的目标物体，具体包括：将所述二值图像中S(i,j)为1对应的区域设为运动区域；对所述运动区域通过形态学处理和连通性分析去除噪点，以确定所述待检测图像中的目标物体。

S102b、基于人类注释规则，对所述目标物体作基准线处理以得到所述目标物体对应的人类基线，所述人类注释规则用于通过从行人头顶到两脚之间的点画一条线完成注释。

其中，人类注释规则是通过从行人头顶到两脚之间的点画一条线来完成的，这一条线即为用于生成边界框的人类基线。如图4a所示，比如确定待检测图像中包括目标物体，则对目标物体作人类基线，具体地从所述目标物体的顶部对应的点到底部中间位置对应的点画一条线(人类基线)，对应的点为像素点，可以为一个像素点，也可以为多个像素点的中间点。

S103、根据所述人类基线生成所述目标物体对应的边界框。

具体地，如图4a所示，根据人类基线(图4a中的虚线)生成所述目标物体对应的边界框，是指根据人类基线自动生成边界框(Bounding Box)，可以根据人类基线进行平移预设距离后作为边界框的两条边，再对两条边进行连线以生成该边界框。该边界框为图4a中的虚线框，通过该方式可确保目标物体在边界框上居中。

在一个实施例中，根据所述人类基线生成所述目标物体对应的边界框，可以将人类基线向两个方向对称平移相等距离后作为边界框的两条边，比如向左右两个方向平移，并对两条边进行连线以生成该边界框；以及平移该边界框以使目标物体全部在该边界框内，具体如图4a至图4b所示，图4a为平移前的效果，图4b为平移后的效果，以使目标物体(行人)完全位于边界框内。

在一个实施例中，如图5所示，步骤S103包括子步骤S103a至子步骤S103c。

S103a、根据所述人类基线在所述待处理图像中的长度确定边框长度；S103b、根据预设宽度确定边框宽度；S103c、根据所述边框长度和边框宽度生成所述目标物体对应的边界框。可以快速确定目标物体并提高目标物体的识别准确度。

其中，预设宽度和人类基线的倾斜角度相关联，比如人类基线的倾斜角度较大，则预设宽度较大，人类基线的倾斜角度较小，则预设宽度较小，倾斜角度是相对竖直线而言。通过预设宽度可以提高目标物体的识别准确率。

S104、根据所述边界框确定所述待检测图像中的候选区域。

具体地，根据边界框在待检测图像中的大小确定相应的候选区域，边界框在待检测图像中的大小包括宽度和长度，比如水平宽度和竖直长度，当然，也可能不是水平宽度或竖直长度；并根据边界框的宽度、长度以及坐标值，得到候选区域的大小和位置；根据候选区域的大小和位置确定候选区域中的图像，并将候选区域中的图像设为目标图像，以便进行下一操作步骤，即输入至卷积神经网络进行特征提取，当然也可以采用其他网络。

需要说明的是，待检测图像中可能包括多个目标物体，因此会对应有多个边界框，相应地也会有多个候选区域。

S105、将所述候选区域内的图像作为目标图像输入至卷积神经网络以使所述卷积神经网络提取所述目标图像对应的目标特征。

具体地，是采用卷积神经网络(Convolutional Neural Networks，CNN)来提取候选区域中的图像对应的目标特征，当然也可以采用其他网络进行特征提取。

由于CNN从原始图像中随机选取一小块作为样本，并且从这个小块样本中学习到一些特征，将这一小块样本作为探测器与原始图像做卷积，因此可以在原始图像上的任一位置获得一个特征值。由此可见，CNN更适合用来提取候选区域中的图像对应的目标特征。

CNN由局部连接的卷积层和池化层(Pooling Layer)交替连接而成，网络的最高层通过一个全连接网络将上一层的特征图转换为特征向量。最后一个池化层与一个全连接网络相连，将特征图转换为特征向量。卷积层也是特征提取层，通过一组滤波器(即卷积核)和非线性变换(即激活函数)得到若干个特征图，特征图的数量由卷积核的数目决定，特征图的大小则由上一层特征根图的大小和卷积核的大小共同决定。通过卷积操作得到的特征对输入的位移微小变化具有不变性，池化层通过对卷积层的特征图上一定大小的子块神经元求最大值/均值，然后经过一个激活函数得到对应的特征图。求最大值/均值并经过激活函数的过程也叫最大值/均值池化，经过池化后的特征维度将大大降低，最后得到的特征图即是目标特征。

S106、将所述目标特征输入至预先训练的分类器进行分类识别以得到识别结果。

具体地，在对候选区域中的图像提取到目标特征后，该目标特征可以是一个固定维度的特征向量，将该特征向量输入至预先训练好的分类器，使得该分类器根据特征向量对目标物体进行分类。其中，预先训练好的的分类器包括支持向量机(Support VectorMachine，SVM)分类器或Softmax分类器。

将目标特征输入至预先训练的分类器进行分类识别得到识别结果，该识别结果包括：识别结果为行人和识别结果为非行人两种。具体地，识别结果可以用检测目标物体是行人的概率进行确定，比如输出为行人的概率为75％、非行人的概率为20％和其他为5％，如果预先设定大于70％即确定识别结果为行人，则该识别结果为行人。

需要说明的是，待检测图像中可能包括多个目标物体，因此会对应有多个边界框，相应地也会有多个候选区域，因此通过上述行人检测方法也会得到每个目标物体的识别结果。

上述行人检测方法通过先确定获取的待检测图像中的目标物体以及对应的人类基线；根据人类基线生成对应的边界框；再根据边界框确定待检测图像中的候选区域；将候选区域内的图像作为目标图像输入至卷积神经网络以使所述卷积神经网络提取所述目标图像对应的目标特征；以及将目标特征输入至预先训练的分类器进行分类识别以得到识别结果，该识别结果包括行人和非行人。该方法可以提高行人检测的准确率，进而满足各种应用的行人检测要求。

请参阅图6，图6是本申请的实施例提供的另一种行人检测方法的示意流程图。该行人检测方法可以快速准确地识别出待检测图像中的行人，以便应用于各种应用中。

如图6所示，该行人检测方法具体包括：步骤S201至步骤S208。

S201、获取待检测图像。

其中，所述待检测图像为视频中的图像，当然也可以为连续拍摄的多帧图像。具体该视频可以为实时视频或视频录像，待检测图像为该视频中某一帧图像或者几帧图像。

S202、确定所述待检测图像中的目标物体以及所述目标物体对应的人类基线。

S203、根据所述人类基线生成所述目标物体对应的边界框。

具体地，根据人类基线生成所述目标物体对应的边界框，是指根据人类基线自动生成边界框(Bounding Box)，比如根据人类基线进行平移预设距离后作为边界框的两条边，再对两条边进行连线以生成该边界框。

S204、根据所述边界框确定所述待检测图像中的候选区域。

具体地，根据边界框在待检测图像中的大小确定相应的候选区域，边界框在待检测图像中的大小包括宽度和长度，比如水平宽度和竖直长度，也可能不是水平宽度或竖直长度；并根据边界框的宽度、长度以及坐标值，得到候选区域的大小和位置，以便根据候选区域的大小和位置确定候选区域中的图像。

S205、将所述候选区域内的图像作为目标图像输入至卷积神经网络以使所述卷积神经网络提取所述目标图像对应的目标特征。

具体地，是采用卷积神经网络(Convolutional Neural Networks，CNN)来提取候选区域中的图像对应的目标特征，当然也可以采用其他网络进行特征提取以提取出目标特征。

S206、将所述目标特征输入至预先训练的分类器进行分类识别以得到识别结果。

其中，将目标特征输入至预先训练的分类器进行分类识别得到识别结果，该识别结果包括：识别结果为行人和识别结果为非行人两种。预先训练好的分类器包括支持向量机(Support Vector Machine，SVM)分类器或Softmax分类器。

S207、基于边框回归技术，根据所述识别结果对所述目标物体的边界框进行调整以改变所述边界框。

具体地，根据所述识别结果对所述目标物体的边界框进行调整以改变所述边界框，包括：对识别结果为行人或非行人两种结果对应的目标物体的边界框均进行调整以改变所述边界框。

在一个实施例中，为了提高识别速度，根据所述识别结果对所述目标物体的边界框进行调整以改变所述边界框，具体包括：当所述识别结果为非行人时，对所述目标物体的边界框进行调整以改变所述边界框。

在一个实施例中，为了提高识别速度，根据所述识别结果对所述目标物体的边界框进行调整以改变所述边界框，具体包括：当所述识别结果为行人对应的概率小于预设概率值时，比如，识别结果对应的概率75％，而预设概率值为80％，则对所述目标物体的边界框进行调整以改变所述边界框。

边框回归技术是用来微调这个边界框对应的窗口，对于窗口一般使用四维向量(x,y,w,h)来表示，分别表示窗口的中心点坐标、宽和高。比如图7，边框回归技术是寻找一种关系使得输入的原始窗口P经过映射得到一个跟真实窗口G更接近的回归窗口具体过程，如图7所示，从图7中原始窗口P变为回归窗口简单的思路就是先平移再尺度缩放。

S208、返回执行所述根据所述边界框确定所述待检测图像中的候选区域，直至连续预设识别次数得到的识别结果均相同时，得到最终的识别结果。

具体地，返回至步骤S204继续执行，直至连续预设识别次数得到的识别结果均相同时，得到最终的识别结果。其中，连续预设识别次数得到的识别结果均相同时，比如连续执行5次，得到识别结果均是相同，比如识别结果都是行人；再或者连续执行5次，得到识别结果对应的概率分别为85.0％、85.1％、85.3％、85.3％和85.5％等，其概率变化均不大，由此认为得到识别结果均是相同，进而停止返回执行，得到最终的识别结果。

上述行人检测方法通过先确定获取的待检测图像中的目标物体以及对应的人类基线；根据人类基线生成对应的边界框；再根据边界框确定待检测图像中的候选区域；将候选区域内的图像作为目标图像输入至卷积神经网络以使所述卷积神经网络提取所述目标图像对应的目标特征；以及将目标特征输入至预先训练的分类器进行分类识别以得到识别结果，该识别结果包括行人和非行人；再利用边框回归技术根据所述识别结果对所述目标物体的边界框进行调整以改变所述边界框，从而返回执行确定候选区域等相关步骤，以得到最终的识别结果。该行人检测方法可以提高行人检测的准确率，可以快速地对行人进行识别，进而满足各种应用的行人检测要求。

请参阅图8，图8是本申请的实施例提供的一种行人检测装置的示意性框图，该行人检测装置400可以配置于终端或服务器中，用于执行前述的行人检测方法。

如图8所示，该行人检测装置400包括：图像获取单元401、目标基线确定单元402、边界框生成单元403、区域确定单元404、特征提取单元405和特征识别单元406。

图像获取单元401，用于获取待检测图像。

目标基线确定单元402，用于确定所述待检测图像中的目标物体以及所述目标物体对应的人类基线。

其中，目标基线确定单元402，包括：目标确定单元4021和基线确定单元4022。目标确定单元4021，用于根据帧间差分算法确定所述待检测图像中的目标物体；基线确定单元4022，用于基于人类注释规则，对所述目标物体作基准线处理以得到所述目标物体对应的人类基线，所述人类注释规则用于通过从行人头顶到两脚之间的点画一条线完成注释。

在一个实施例中，目标确定单元4021，具体用于：提取所述视频中相对所述待检测图像延后预设帧数的延后帧图像；图像差分子单元将所述延后帧图像与所述待检测图像相减以得到差分图像；对所述差分图像进行阈值处理得到所述差分图像对应的二值图像；根据所述二值图像确定所述待检测图像中的目标物体。

边界框生成单元403，用于根据所述人类基线生成所述目标物体对应的边界框。

在一个实施例中，边界框生成单元403，具体用于：根据所述人类基线在所述待处理图像中的长度确定边框长度；根据预设宽度确定边框宽度；根据所述边框长度和边框宽度生成所述目标物体对应的边界框。

区域确定单元404，用于根据所述边界框确定所述待检测图像中的候选区域。

特征提取单元405，用于将所述候选区域内的图像作为目标图像输入至卷积神经网络以使所述卷积神经网络提取所述目标图像对应的目标特征。

特征识别单元406，用于将所述目标特征输入至预先训练的分类器进行分类识别以得到识别结果。

请参阅图9，图9是本申请的实施例提供的一种行人检测装置的示意性框图，该行人检测装置500可以配置于终端或服务器中，用于执行前述的行人检测方法。

如图9所示，该行人检测装置500包括：图像获取单元501、目标基线确定单元502、边界框生成单元503、区域确定单元504、特征提取单元505、特征识别单元506和调整改变单元507。

图像获取单元501，用于获取待检测图像。

目标基线确定单元502，用于确定所述待检测图像中的目标物体以及所述目标物体对应的人类基线。

边界框生成单元503，用于根据所述人类基线生成所述目标物体对应的边界框。

区域确定单元504，用于根据所述边界框确定所述待检测图像中的候选区域。

特征提取单元505，用于将所述候选区域内的图像作为目标图像输入至卷积神经网络以使所述卷积神经网络提取所述目标图像对应的目标特征。

特征识别单元506，用于将所述目标特征输入至预先训练的分类器进行分类识别以得到识别结果。

调整改变单元507，用于基于边框回归技术，根据所述识别结果对所述目标物体的边界框进行调整以改变所述边界框。

区域确定单元504，还用于在调整改变单元507改变所述边界框后，返回执行所述根据所述边界框确定所述待检测图像中的候选区域，直至连续预设识别次数得到的识别结果均相同时，得到最终的识别结果。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

参阅图10，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种行人检测方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种行人检测方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取待检测图像，其中所述待检测图像为视频中的图像；确定所述待检测图像中的目标物体以及所述目标物体对应的人类基线；根据所述人类基线生成所述目标物体对应的边界框；根据所述边界框确定所述待检测图像中的候选区域；将所述候选区域内的图像作为目标图像输入至卷积神经网络以使所述卷积神经网络提取所述目标图像对应的目标特征；将所述目标特征输入至预先训练的分类器进行分类识别以得到识别结果。

在一个实施例中，所述处理器在实现所述确定所述待检测图像中的目标物体以及所述目标物体对应的人类基线时，用于实现：

根据帧间差分算法确定所述待检测图像中的目标物体；基于人类注释规则，对所述目标物体作基准线处理以得到所述目标物体对应的人类基线，所述人类注释规则用于通过从行人头顶到两脚之间的点画一条线完成注释。

在一个实施例中，所述处理器在实现所述根据帧间差分算法确定所述待检测图像中的目标物体时，用于实现：

提取所述视频中相对所述待检测图像延后预设帧数的延后帧图像；将所述延后帧图像与所述待检测图像相减以得到差分图像；对所述差分图像进行阈值处理得到所述差分图像对应的二值图像；以及根据所述二值图像确定所述待检测图像中的目标物体。

在一个实施例中，所述处理器在实现所述对所述差分图像进行阈值处理得到所述差分图像对应的二值图像时，用于实现：

确定所述差分图像中像素值大于预设阈值的像素点；以及，根据大于所述预设阈值的像素点确定所述差分图像对应的二值图像，所述二值图像表示为：

其中，S(i,j)表示所述二值图像，T为所述预设阈值，(i,j)表示离散图像的坐标，D表示所述差分图像。

在一个实施例中，所述处理器在实现所述根据所述二值图像确定所述待检测图像中的目标物体时，用于实现：

将所述二值图像中S_k(i,j)为1对应的区域设为运动区域；对所述运动区域通过形态学处理和连通性分析去除噪点，以确定所述实时录像中的目标物体。

在一个实施例中，所述处理器在实现所述根据所述人类基线生成所述目标物体对应的边界框时，用于实现：

根据所述人类基线在所述待处理图像中的长度确定边框长度；根据预设宽度确定边框宽度；根据所述边框长度和边框宽度生成所述目标物体对应的边界框。

在一个实施例中，所述处理器在实现所述将所述目标特征输入至预先训练的分类器进行分类识别以得到识别结果之后，还用于实现：

基于边框回归技术，根据所述识别结果对所述目标物体的边界框进行调整以改变所述边界框；返回执行所述根据所述边界框确定所述待检测图像中的候选区域，直至连续预设识别次数得到的识别结果均相同时，得到最终的识别结果。

在一个实施例中，所述处理器在实现所述根据所述识别结果对所述目标物体的边界框进行调整以改变所述边界框时，用于实现：

当所述识别结果为非行人时，对所述目标物体的边界框进行调整以改变所述边界框。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项行人检测方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种行人检测方法，其特征在于，包括：

获取待检测图像；

根据所述人类基线生成所述目标物体对应的边界框；

根据所述边界框确定所述待检测图像中的候选区域；

2.根据权利要求1所述的行人检测方法，其特征在于，所述确定所述待检测图像中的目标物体以及所述目标物体对应的人类基线，包括：

根据帧间差分算法确定所述待检测图像中的目标物体；

基于人类注释规则，对所述目标物体作基准线处理以得到所述目标物体对应的人类基线，所述人类注释规则用于通过从行人头顶到两脚之间的点画一条线完成注释。

3.根据权利要求2所述的行人检测方法，其特征在于，所述根据帧间差分算法确定所述待检测图像中的目标物体，包括：

提取所述视频中相对所述待检测图像延后预设帧数的延后帧图像；

将所述延后帧图像与所述待检测图像相减以得到差分图像；

对所述差分图像进行阈值处理得到所述差分图像对应的二值图像；以及

根据所述二值图像确定所述待检测图像中的目标物体。

4.根据权利要求3所述的行人检测方法，其特征在于，所述对所述差分图像进行阈值处理得到所述差分图像对应的二值图像，包括：

其中，S(i,j)表示所述二值图像，T为所述预设阈值，(i,j)表示离散图像的坐标，D表示所述差分图像；

所述根据所述二值图像确定所述待检测图像中的目标物体，包括：

将所述二值图像中S(i,j)为1对应的区域设为运动区域；

对所述运动区域通过形态学处理和连通性分析去除噪点，以确定所述待检测图像中的目标物体。

5.根据权利要求1所述的行人检测方法，其特征在于，所述根据所述人类基线生成所述目标物体对应的边界框，包括：

根据所述人类基线在所述待处理图像中的长度确定边框长度；

根据预设宽度确定边框宽度；

根据所述边框长度和边框宽度生成所述目标物体对应的边界框。

6.根据权利要求1至5任一项所述的行人检测方法，其特征在于，所述将所述目标特征输入至预先训练的分类器进行分类识别以得到识别结果之后，还包括：

基于边框回归技术，根据所述识别结果对所述目标物体的边界框进行调整以改变所述边界框；

返回执行所述根据所述边界框确定所述待检测图像中的候选区域，直至连续预设识别次数得到的识别结果均相同时，得到最终的识别结果。

7.根据权利要求6所述的行人检测方法，其特征在于，所述根据所述识别结果对所述目标物体的边界框进行调整以改变所述边界框，包括：

8.一种行人检测装置，其特征在于，包括：

图像获取单元，用于获取待检测图像；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的行人检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的行人检测方法。