CN106845383B

CN106845383B - 人头检测方法和装置

Info

Publication number: CN106845383B
Application number: CN201710029244.6A
Authority: CN
Inventors: 姜德强
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2023-06-06
Anticipated expiration: 2037-01-16
Also published as: US20190206085A1; EP3570209A1; US10796450B2; EP3570209A4; US20190206083A1; CN106845383A; WO2018130104A1

Abstract

本发明涉及一种人头检测方法和装置，方法包括：将待检测图像分割为多于一个的子图像；分别将每个子图像输入已根据已标定人头位置的训练图像进行训练的卷积神经网络，通过卷积神经网络中包括卷积层和子采样层的前置层输出对应于每个子图像的第一特征；通过卷积神经网络中前置层之后的卷积层，将对应于每个子图像的第一特征映射为对应于每个子图像的第二特征；通过卷积神经网络的回归层，将对应于每个子图像的第二特征映射为对应于每个子图像的人头位置及与人头位置相应的置信度；将对应于每个子图像的人头位置按照相应的置信度过滤，获得待检测图像中检测到的人头位置。本发明可以提高人头检测准确性。

Description

人头检测方法和装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种人头检测方法和装置。

背景技术

人头检测是指在图像中检测人体的头部，人头检测的结果由多种应用，如应用于安防领域。目前人头检测主要是基于人头形状和颜色来实现。目前人头检测的具体过程是：先对图像二值化，再进行边缘检测，得到大致为圆形的边缘；再使用圆形检测，得到圆形边缘的位置和大小，进而对原图像中对应的圆形区域进行灰度和大小判定，得到人头检测结果。

然而，目前人头检测依赖于人头形状为圆形的假设，而事实上人头形状并不是规则的圆形，而且不同人的人头形状也有差异，导致目前人头检测时会造成一部分人头漏检，造成人头检测结果准确性较低。

发明内容

基于此，有必要针对目前人头检测结果准确性较低的问题，提供一种人头检测方法和装置。

一种人头检测方法，所述方法包括：

将待检测图像分割为多于一个的子图像；

分别将每个所述子图像输入已根据已标定人头位置的训练图像进行训练的卷积神经网络，通过所述卷积神经网络中包括卷积层和子采样层的前置层输出对应于每个所述子图像的第一特征；

通过所述卷积神经网络中所述前置层之后的卷积层，将对应于每个所述子图像的第一特征映射为对应于每个所述子图像的第二特征；

通过所述卷积神经网络的回归层，将对应于每个所述子图像的所述第二特征映射为对应于每个所述子图像的人头位置及与所述人头位置相应的置信度；

将所述对应于每个所述子图像的人头位置按照相应的置信度过滤，获得所述待检测图像中检测到的人头位置。

一种人头检测装置，所述装置包括：

分割模块，用于将待检测图像分割为多于一个的子图像；

卷积神经网络模块，用于分别将每个所述子图像输入已根据已标定人头位置的训练图像进行训练的卷积神经网络，通过所述卷积神经网络中包括卷积层和子采样层的前置层输出对应于每个所述子图像的第一特征；通过所述卷积神经网络中所述前置层之后的卷积层，将对应于每个所述子图像的第一特征映射为对应于每个所述子图像的第二特征；通过所述卷积神经网络的回归层，将对应于每个所述子图像的所述第二特征映射为对应于每个所述子图像的人头位置及与所述人头位置相应的置信度；

人头检测结果确定模块，用于将所述对应于每个所述子图像的人头位置按照相应的置信度过滤，获得所述待检测图像中检测到的人头位置。

上述人头检测方法和装置，卷积神经网络预先根据已标定人头位置的训练图像进行了训练，卷积神经网络可以自动学习到人头的特征。经过训练的卷积神经网络可以自动从子图像中提取合适的特征来输出候选的人头位置及相应的置信度，进而再依据置信度过滤得到待检测图像中的人头位置。不需要预先假设人头形状，可以避免因设定人头形状而导致的漏检，提高了人头检测的准确性。而且，在卷积神经网络内部，由包括卷积层和子采样层的前置层输出子图像的第一特征，再由前置层之后且回归层之前的卷积层输出第二特征，以准确地描述子图像中人头的特征，从而通过回归层直接将第二特征映射为人头位置及置信度，是新结构的卷积神经网络的新应用，相比传统的基于圆形检测的人头检测的准确性有很大提高。

附图说明

图1为一个实施例中人头检测方法的应用环境图；

图2为一个实施例中电子设备的内部结构示意图；

图3为一个实施例中人头检测方法的流程示意图；

图4为一个实施例中卷积神经网络的结构示意图；

图5为一个实施例中将用于分类的卷积神经网络转化为用于人头检测的卷积神经网络并训练的步骤的流程示意图；

图6为一个实施例中将对应于每个子图像的人头位置按照相应的置信度过滤，获得待检测图像中检测到的人头位置的步骤的流程示意图；

图7为一个实施例中根据筛选出的人头位置及挑选出的人头位置确定待检测图像中检测到的人头位置的步骤的流程示意图；

图8为一个实施例中逐视频帧进行人头跟踪并统计人流量的步骤的流程示意图；

图9为一个实施例中当跟踪人头位置中断时在前一视频帧中跟踪的人头位置附近检测人头位置并继续跟踪的步骤的流程示意图；

图10为一个实施例中俯视图像中标定的矩形框的位置示意图；

图11为一个实施例中利用平行的两条线条进行人数统计的示意图；

图12为一个实施例中人头检测装置的结构框图；

图13为另一个实施例中人头检测装置的结构框图；

图14为一个实施例中人头检测结果确定模块的结构框图；

图15为再一个实施例中人头检测装置的结构框图；

图16为又一个实施例中人头检测装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中人头检测方法的应用环境图。参照图1，该人头检测方法应用于人头检测系统，该人头检测系统包括电子设备110以及与电子设备110连接的俯视摄像头120。其中俯视摄像头120用于拍摄待检测图像，并将待检测图像发送至电子设备120。俯视摄像头可安装在建筑物顶部或者高于人身高的墙壁处或者建筑物顶部墙角处，使得俯视摄像头可以拍摄到俯视视角的图像。俯视可以是正俯视或者具有倾斜角度的俯视。

在一个实施例中，电子设备120可用于将待检测图像分割为多于一个的子图像；分别将每个子图像输入已根据已标定人头位置的训练图像进行训练的卷积神经网络，通过卷积神经网络中包括卷积层和子采样层的前置层输出对应于每个子图像的第一特征；通过卷积神经网络中前置层之后的卷积层，将对应于每个子图像的第一特征映射为对应于每个子图像的第二特征；通过卷积神经网络的回归层，将对应于每个子图像的第二特征映射为对应于每个子图像的人头位置及与人头位置相应的置信度；将对应于每个子图像的人头位置按照相应的置信度过滤，获得待检测图像中检测到的人头位置。

图2为一个实施例中电子设备的内部结构示意图。参照图2，该电子设备包括通过系统总线连接的中央处理器、图形处理器、非易失性存储介质、内存储器和网络接口。其中，该电子设备的非易失性存储介质存储有操作系统和人头检测装置，该人头检测装置用于实现一种人头检测方法。中央处理器和图形处理器可统称为处理器，用于提供计算和控制能力，支撑电子设备的运行。该电子设备的内存储器为非易失性存储介质中的人头检测装置的运行提供环境。该内存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种人头检测方法。该电子设备的网络接口用于据以与俯视摄像头连接。电子设备可以用独立的电子设备或者是多个电子设备组成的集群来实现。电子设备可以是个人计算机、服务器或者专用的人头检测设备。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图3为一个实施例中人头检测方法的流程示意图。本实施例主要以该方法应用于上述图1和图2中的电子设备110来举例说明。参照图3，该人头检测方法具体包括如下步骤：

S302，将待检测图像分割为多于一个的子图像。

其中，待检测图像是指需要进行人头检测的图像。待检测图像可以是图片，也可以是视频中的视频帧。子图像是指从待检测图像中分割出的尺寸小于待检测图像的图像。分割出的所有子图像可以尺寸相同。

具体地，电子设备可将固定尺寸的窗口按照横向步长及纵向步长在待检测图像中遍历，从而在遍历过程中从待检测图像中分割出与尺寸与窗口尺寸相等的子图像。分割出的子图像能够组合成待检测图像。

在一个实施例中，步骤S302包括：将待检测图像分割为固定尺寸且多于一个的子图像，且分割出的子图像中相邻的子图像之间存在重叠部分。

其中，子图像相邻是指子图像在待检测图像中的位置相邻，相邻的子图像存在局部重合。具体地，电子设备可将固定尺寸的窗口按照小于窗口宽度的横向步长及小于窗口高度的纵向步长在待检测图像中遍历，得到多于一个的尺寸相等的子图像，且相邻的子图像之间存在重叠部分。

本实施例中，分割出的相邻的子图像之间存在重叠部分，可以保证相邻的子图像具有更强的关联，可提高从待检测图像中检测出人头位置的准确性。

S304，分别将每个子图像输入已根据已标定人头位置的训练图像进行训练的卷积神经网络，通过卷积神经网络中包括卷积层和子采样层的前置层输出对应于每个子图像的第一特征。

其中，卷积神经网络(Convolutional Neural Network，简称CNN)是一种人工神经网络。卷积神经网络包括卷积层(Convolutional Layer)和子采样层(Pooling Layer)。本实施例所采用卷积神经网络可直接构建，也可将已有的卷积神经网络进行改造得到。卷积神经网络中的计算任务可由中央处理器或者图形处理器来实现，采用中央处理器人头检测耗时大概为秒级，而采用图形处理器人头检测耗时可以降到百毫秒级，基本可以实现实时的人头检测。

在卷积神经网络的卷积层中，存在多个特征图(Feature Map)，每个特征图包括多个神经元，同一个特征图的所有神经元共用一个卷积核。卷积核就是相应神经元的权值，卷积核代表一个特征。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中将学习得到合理的卷积核。卷积层可以减少神经网络中各层之间的连接，同时又降低了过拟合的风险。

子采样也叫做池化(Pooling)，通常有均值子采样(Mean Pooling)和最大值子采样(Max Pooling)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了神经网络的复杂度，减少了神经网络的参数。

已标定人头位置的训练图像是指训练图像已经对应人工标记的人头位置。已标定人头位置的训练图像与待检测图像可以是相同场景下拍摄的图像，可以进一步提高人头检测准确性。已标定人头位置的训练图像与待检测图像可以尺寸相同。

在一个实施例中，在训练卷积神经网络时，可为训练图像标定的人头位置分配置信度；将训练图像按照与分割待检测图像时相同的分割方式分割出多于一个的子图像；将分割出的子图像分别输入卷积神经网络，由卷积神经网络输出人头位置及置信度；计算输出的人头位置和标定的人头位置的差距，并计算相应的置信度之间的差距，根据两种差距调整卷积神经网络的参数；继续训练，直至达到终止条件。终止条件可以是差距小于预设差距，或者迭代次数达到预设次数。

前置层是对卷积神经网络中除了回归层及回归层之前的一个卷积层的其它层的统称，前置层包括卷积层和子采样层。前置层中可包括并列的卷积层，并列的卷积层输出的数据可进行拼接后输入下一层。前置层中的最后一层可以是卷积层或者子采样层。

S306，通过卷积神经网络中前置层之后的卷积层，将对应于每个子图像的第一特征映射为对应于每个子图像的第二特征。

其中，卷积神经网络一般用于分类，用于分类的卷积神经网络中前置层之后为全连接层(Fully Connected Layer)，可将前置层输出的第一特征映射为对应于每一预设类别的概率数据，从而通过回归层输出输入图像所属的类别。而本实施例中，则是将卷积神经网络用于人头检测，用卷积层取代全连接层，输出用于描述子图像特征的第二特征。每个子图像对应的第二特征的数量可为多个。

S308，通过卷积神经网络的回归层，将对应于每个子图像的第二特征映射为对应于每个子图像的人头位置及与人头位置相应的置信度。

其中，人头位置可以用包括人头图像的矩形框的位置表示。矩形框的位置可以用四元组表示。四元组可以包括矩形框其中一个顶点的横坐标和纵坐标以及矩形框的宽度和高度，或者四元组可以包括矩形框对角关系的两个顶点各自的横坐标和纵坐标。回归层输出的置信度与回归层输出的人头位置一一对应，表示相对应的人头位置包括人头图像的概率。回归层可采用支持向量机(SVM，英文全称Support Vector Machine)。

在一个实施例中，步骤S308包括：通过卷积神经网络的回归层中的卷积层，将对应于每个子图像的第二特征映射为对应于每个子图像的人头位置及与人头位置相应的置信度。具体地，电子设备可通过卷积神经网络的回归层中的相同的卷积层，直接将对应于每个子图像的第二特征映射为对应于每个子图像的人头位置及与人头位置相应的置信度。

在一个实施例中，步骤S308包括：通过卷积神经网络的回归层中的第一卷积层，将对应于每个子图像的第二特征映射为对应于每个子图像的人头位置；通过卷积神经网络的回归层中的第二卷积层，将对应于每个子图像的第二特征映射为与输出的人头位置相对应的置信度。

举例说明，参照图4，子图像经过卷积神经网络的前置层，输出128个大小为M*N的特征矩阵。其中128为预设数量，可根据需要设定；M和N由前置层的参数确定。128个大小为M*N的特征矩阵输入前置层之后的卷积层，通过该卷积层中128*1024大小的参数矩阵做卷积处理，输出M*N个长度为1024的特征向量。M*N个长度为1024的特征向量输入回归层中的第一卷积层，通过第一卷积层中1024*4大小的参数矩阵做卷积处理，输出M*N个表示人头位置的四元组。M*N个长度为1024的特征向量输入回归层中的第二卷积层，通过第二卷积层中1024*1大小的参数向量做卷积处理，输出M*N个表示人头位置的置信度的一元组。人头位置和置信度的位置关系体现在输出的M*N个四元组及一元组的次序。

S310，将对应于每个子图像的人头位置按照相应的置信度过滤，获得待检测图像中检测到的人头位置。

具体地，电子设备可将卷积神经网络输出的每个人头位置的置信度与置信度阈值比较，将置信度小于置信度阈值的人头位置过滤掉。电子设备还可以进一步将通过置信度阈值过滤后的人头位置中所占面积小于预设面积的人头位置过滤掉。电子设备可以将过滤后的人头位置进行聚类，从而将聚类到相同类别的多个人头位置合并得到待检测图像中的人头位置，或者从聚类到相同类别的多个人头位置中选择一个人头位置作为待检测图像中的人头位置。

上述人头检测方法，卷积神经网络预先根据已标定人头位置的训练图像进行了训练，卷积神经网络可以自动学习到人头的特征。经过训练的卷积神经网络可以自动从子图像中提取合适的特征来输出候选的人头位置及相应的置信度，进而再依据置信度过滤得到待检测图像中的人头位置。不需要预先假设人头形状，可以避免因设定人头形状而导致的漏检，提高了人头检测的准确性。而且，在卷积神经网络内部，由包括卷积层和子采样层的前置层输出子图像的第一特征，再由前置层之后且回归层之前的卷积层输出第二特征，以准确地描述子图像中人头的特征，从而通过回归层直接将第二特征映射为人头位置及置信度，是新结构的卷积神经网络的新应用，相比传统的基于圆形检测的人头检测的准确性有很大提高。

在一个实施例中，在步骤S302之前，该人头检测方法还包括将用于分类的卷积神经网络转化为用于人头检测的卷积神经网络并训练的步骤。参照图5，该将用于分类的卷积神经网络转化为用于人头检测的卷积神经网络并训练的步骤具体包括如下步骤：

S502，将用于分类的卷积神经网络所包括的前置层之后且回归层之前的全连接层转换为卷积层。

用于分类的卷积神经网络是经过训练得到的可对输入该卷积神经网络的图像进行分类的卷积神经网络，如GoogleNet、VGGNET或者AlexNet。用于分类的卷积神经网络包括前置层、全连接层以及回归层。全连接层用于输出对应于每个预设类别的第二特征

全连接层与卷积层的稀疏连接和权值共享不同，全连接层的每一个神经元都和上一层的所有神经元相连接。卷积层和全连接层都是通过上一层的输出与参数矩阵相乘的方式得到下一层的输入，所以可以通过改变全连接层的参数的排列形式将全连接层转化为卷积层。

S504，将用于分类的卷积神经网络中的回归层替换为用于将转换后的卷积层输出的第二特征映射为人头位置及相应置信度的回归层。

用于分类的卷积神经网络中，回归层用于将全连接层输出的每个预设类别的第二特征映射为对应于每个预设类别的概率，并依据映射出的概率判定图像所属的预设类别，如选择对应最大概率的预设类别作为输入图像所属的预设类别。

本实施例的用于人头检测的卷积神经网络中，回归层用于将转换后的卷积层输出的预设数量的第二特征映射为人头位置以及与该人头位置相对应的置信度。回归层可以采用一个卷积层，由该卷积层直接将第二特征映射为人头位置以及与该人头位置相对应的置信度。回归层也可以采用并行的两个卷积层，其中一个卷积层用于将第二特征映射为人头位置，另一个卷积层则用于将第二特征映射为与映射的人头位置相对应的置信度。

S506，采用已标定人头位置的训练图像，对包括前置层、转换后的卷积层及替换后的回归层的卷积神经网络进行训练。

其中，包括前置层、转换后的卷积层及替换后的回归层的卷积神经网络，是从用于分类的卷积神经网络改造得到，其前置层的参数是已经过训练的，那么改造后的卷积神经网络主要需要对转换后的卷积层以及替换后的回归层中的参数进行训练。

具体地，在训练改造后的卷积神经网络时，可为训练图像标定的人头位置分配置信度；将训练图像按照与分割待检测图像时相同的分割方式分割出多于一个的子图像；将分割出的子图像分别输入卷积神经网络，经过卷积神经网络的前置层、前置层之后的卷积层以及回归层后，输出人头位置及置信度；计算输出的人头位置和标定的人头位置的差距，并计算相应的置信度之间的差距，根据两种差距调整卷积神经网络中前置层、前置层之后的卷积层以及回归层中的参数；继续训练，直至达到终止条件。终止条件可以是差距小于预设差距，或者迭代次数达到预设次数。

本实施例中，基于用于分类的卷积神经网络进行改造后训练，得到用于人头检测的卷积神经网络，不需要重新构建卷积神经网络，并可减少训练时长，提高了实现人头检测的效率。

如图6所示，在一个实施例中，步骤S310具体包括如下步骤：

S602，从对应于每个子图像的人头位置中筛选出所对应的置信度高于或等于置信度阈值的人头位置。

具体地，电子设备可将所有从待检测图像中分割出的子图像各自对应的人头位置构成人头位置集合，遍历该人头位置集合，比较遍历的人头位置与置信度阈值，将低于置信度阈值的人头位置从人头位置集合中剔除，遍历完成后人头位置集合中剩余的人头位置，便是筛选出的所对应的置信度高于或等于置信度阈值的人头位置。置信度阈值可根据需要设定，如取0.5～0.99中的值。

S604，从对应于每个子图像的人头位置中挑选在待检测图像中与筛选出的人头位置相交的人头位置。

人头位置之间相交，是指人头位置各自所表示的封闭区域存在交集。当人头位置用包括人头图像的矩形框的位置来表示时，人头位置相交即相应的矩形框相交。具体地，电子设备可从所有从待检测图像中分割出的子图像各自对应的人头位置构成的人头位置集合中，挑选与前述筛选出的人头位置在待检测图像中相交的人头位置。电子设备也可以仅从筛选出的人头位置中寻找相交的人头位置。

S606，根据筛选出的人头位置及挑选出的人头位置确定待检测图像中检测到的人头位置。

具体地，电子设备可将筛选出的人头位置及挑选出的人头位置分类，每类至少包括筛选出的人头位置中的一个人头位置，还包括与该至少一个的人头位置相交的人头位置。电子设备可将每类的人头位置合并为一个人头位置作为检测到的人头位置，或者从每类的人头位置中选择一个人头位置作为检测到的人头位置。

本实施例中，利用置信度及是否相交作为确定待检测图像中的人头位置的依据，可进一步提高人头检测的准确性。

如图7所示，在一个实施例中，步骤S606具体包括如下步骤：

S702，将筛选出的人头位置以及挑选出的人头位置作为二分图中的节点。

其中，二分图是图论中的图，该二分图中的节点可以被分为两组，并且使得所有连接节点的边都跨越组的边界。

S704，为二分图中的节点之间的边分配默认且为正的权重。

其中，对于每个筛选出的人头位置，其与相应挑选出的相交的人头位置之间存在边。默认且为正的权重为正值，比如1000。

S706，当边所关联的节点所表示的人头位置相交时，将相应分配的权重减小。

具体地，当边所关联的节点所表示的人头位置相交时，电子设备可将相应分配的权重减去小于默认且为正的权重的正值后除以默认且为正的权重，得到更新的权重。如默认且为正的权重为1000，小于默认且为正的权重的正值为100，则更新的权重为(1000-100)/1000＝0.9。

S708，求取二分图的最大权匹配，得到待检测图像中检测到的人头位置。

其中，二分图中的匹配是边的集合，该集合中的边没有公共节点。若一个二分图的所有匹配中，其中一个匹配的各边的权重和最大，则该匹配为最大权匹配。电子设备可遍历二分图中边的所有组合，从中找出最大权匹配。电子设备还可以采用Kuhn-Munkres算法求取二分图的最大权匹配。求得最大权匹配后，最大权匹配中的边所关联的人头位置就可以作为待检测图像中检测到的人头位置。

本实施例中，由于相交的人头位置很可能对应相同的人头，卷积神经网络输出的人头位置大部分会在待检测图像中实际的人头位置附近聚集，因此将筛选出的人头位置以及挑选出的人头位置作为二分图中的节点构建二分图，且相交的人头位置相应边的权重较小，通过求取最大权匹配来得到待检测图像中检测到的人头位置，可以更加准确地进行人头检测。

在一个实施例中，待检测图像为视频中的视频帧，该人头检测方法还包括逐视频帧进行人头跟踪并统计人流量的步骤。参照图8，该逐视频帧进行人头跟踪并统计人流量的步骤具体包括如下步骤：

S802，根据待检测图像中检测到的人头位置逐视频帧进行人头跟踪。

具体地，电子设备在一个视频帧中检测到人头位置后，以该人头位置为起点进行逐视频帧的人头跟踪。电子设备具体可采用MeanShift(均值漂移)跟踪算法、光流跟踪算法或者TLD(Tracking-Learning-Detection，跟踪学习检测)算法。

S804，确定跟踪的人头位置相对于指定区域的运动方向及位置关系。

指定区域是指在视频帧中指定的区域。跟踪的人头位置相对于指定区域的运动方向，是指朝向或者远离指定区域；跟踪的人头位置相对于指定区域的位置关系，是指人头位置在指定区域内或者指定区域外。

在一个实施例中，当跟踪的人头位置沿朝向指定区域的方向跨越表示指定区域边界的线条时，判定跟踪的人头位置进入指定区域；当跟踪的人头位置沿远离指定区域的方向跨越表示指定区域的边界的线条时，判定跟踪的人头位置离开指定区域。

在一个实施例中，当跟踪的人头位置依次跨越第一线条以及与第一线条平行的第二线条时，确定跟踪的人头位置进入指定区域；当跟踪的人头位置依次跨越第二线条以及第一线条时，确定跟踪的人头位置离开指定区域。

其中，平行的第一线条和第二线条可以是直线或者曲线。指定区域可以是待检测图像中由第二线条分割得到的两个区域中不包括第一线条的区域。本实施例中，通过两条线条来判断跟踪的人头位置相对于指定区域的运动方向及位置关系，可防止人头位置在指定区域边界附近活动而导致判断出错，从而可以保证人数统计的正确性。

S806，根据确定的运动方向和位置关系进行人数统计。

其中，人数统计具体可统计累计进入指定区域的人数、累计离开指定区域的人数以及进入指定区域的动态人数等中的一种或几种的组合。具体地，电子设备可在跟踪的一个人头位置进入指定区域时，将统计的累计进入指定区域的人数加1，和/或，将进入指定区域的动态人数加1；电子设备可在跟踪的一个人头位置离开指定区域时，将统计的累计离开指定区域的人数加1，和/或，将进入指定区域的动态人数加减1。

本实施例中，将人头检测应用于安防领域，根据跟踪的人头位置相对于指定区域的运动方向及位置关系进行人数统计，基于准确地人头检测，可以保证人数统计的准确性。

在一个实施例中，该人头检测方法还包括当跟踪人头位置中断时在前一视频帧中跟踪的人头位置附近检测人头位置并继续跟踪的步骤，参照图9，该步骤具体包括如下步骤：

S902，逐视频帧跟踪人头位置并记录。

具体地，电子设备以待检测图像中检测到的人头位置为起点，对该检测到的人头位置进行跟踪，并记录跟踪到的人头位置。

S904，若在当前视频帧中跟踪人头位置中断，则获取记录的前一视频帧中跟踪到的人头位置。

具体地，当人物快速移动或者光线变化时，可能导致跟踪人头位置中断，此时则获取逐视频帧跟踪时记录的前一视频帧中跟踪到的人头位置。

S906，检测在当前视频帧中覆盖获取的人头位置的局部区域中的人头位置。

其中，覆盖获取的人头位置的局部区域小于一个视频帧的尺寸，且大于前一视频帧中跟踪到的人头位置所占区域的尺寸。该局部区域的形状可以与前一视频帧中跟踪到的人头位置所占区域形状相似。该局部区域的中心可以与前一视频帧中跟踪到的人头位置所占区域的中心重叠。

具体地，电子设备可在当前视频帧中检测人头位置，从而找出属于局部区域中的人头位置。电子设备也可以仅在局部区域中检测人头位置。电子设备具体可采用上述步骤S302至步骤S310的各个步骤，检测在当前视频帧中局部区域中的人头位置。检测的人头位置可以局部或者全部位于局部区域中。电子设备可将中心位于局部区域之内的人头位置作为检测到的局部区域中的人头位置，中心位于局部区域之外的人头位置则不属于局部区域中的人头位置。

举例说明，当人头位置用包括人头图像的矩形框的位置表示时，若前一视频帧中跟踪到的矩形框的宽度为W，高度为H，设a和b均为大于1的系数，则局部区域可以是宽度为a*W且高度为b*H且与矩形框相同中心的矩形区域。若前一视频帧中跟踪到的矩形框的中心坐标为(X1，X2)，另一个表示人头位置的矩形框的中心坐标为(X2，Y2)，则当|X1-X2|＜W/2且|Y1-Y2|＜H/2时，判定中心坐标为(X2，Y2)的矩形框在中心坐标为(X1，X2)的矩形框的局部区域中。

S908，从局部区域中检测到的人头位置起继续执行步骤S902。

本实施例中，当跟踪人头位置中断时，可以从前一帧检测到的人头位置附近检测人头位置，并继续进行中断的人头跟踪，将人头检测和人头跟踪相结合，可以保证跟踪的连续性，进而保证人数统计的准确性。

下面用一个具体应用场景来说明上述人头检测方法的具体原理。事先获取大量电梯入口场景处的俯视图像，对这些俯视图像中的人头位置进行标定，如用一个四元组表示图10中人头图像所在矩形框的位置。选择一种用于分类的卷积神经网络，将其中的前置层之后且回归层之前的全连接层转换为卷积层，并将其中的回归层替换为用于将转换后的卷积层输出的第二特征映射为人头位置及相应置信度的回归层，从而利用已标定的俯视图像该卷积神经网络进行再训练。

参照图11，在实际应用中，若需要统计进出闸机的人数，则在闸机上方设置俯视摄像头，由该俯视摄像头拍摄视频并传输至与该俯视摄像头连接的电子设备。电子设备则将视频帧中其中一个视频帧中由线条1101和线条1104所夹图像区域作为待检测图像，将待检测图像分割为多于一个的子图像，分别将每个子图像输入已根据已标定人头位置的训练图像进行训练的卷积神经网络，由卷积神经网络输出对应于每个子图像的人头位置及与人头位置相应的置信度，从而将对应于每个子图像的人头位置按照相应的置信度过滤，获得待检测图像中检测到的人头位置。

进一步地，电子设备根据待检测图像中检测到的人头位置逐视频帧进行人头跟踪，当跟踪的人头位置1105依次跨越第一线条1102以及与第一线条1102平行的第二线条1103时，确定跟踪的人头位置1105进入指定区域。当跟踪的人头位置1106依次跨越第二线条1103以及第一线条1102时，确定跟踪的人头位置1106离开指定区域。图11中指定区域具体可以是第二线条1103与线条1104所夹区域。

图12为一个实施例中人头检测装置1200的结构框图。参照图12，该人头检测装置1200包括：分割模块1210、卷积神经网络模块1220和人头检测结果确定模块1230。

分割模块1210，用于将待检测图像分割为多于一个的子图像。

卷积神经网络模块1220，用于分别将每个子图像输入已根据已标定人头位置的训练图像进行训练的卷积神经网络，通过卷积神经网络中包括卷积层和子采样层的前置层输出对应于每个子图像的第一特征；通过卷积神经网络中前置层之后的卷积层，将对应于每个子图像的第一特征映射为对应于每个子图像的第二特征；通过卷积神经网络的回归层，将对应于每个子图像的第二特征映射为对应于每个子图像的人头位置及与人头位置相应的置信度。

人头检测结果确定模块1230，用于将对应于每个子图像的人头位置按照相应的置信度过滤，获得待检测图像中检测到的人头位置。

上述人头检测装置1200，卷积神经网络预先根据已标定人头位置的训练图像进行了训练，卷积神经网络可以自动学习到人头的特征。经过训练的卷积神经网络可以自动从子图像中提取合适的特征来输出候选的人头位置及相应的置信度，进而再依据置信度过滤得到待检测图像中的人头位置。不需要预先假设人头形状，可以避免因设定人头形状而导致的漏检，提高了人头检测的准确性。而且，在卷积神经网络内部，由包括卷积层和子采样层的前置层输出子图像的第一特征，再由前置层之后且回归层之前的卷积层输出第二特征，以准确地描述子图像中人头的特征，从而通过回归层直接将第二特征映射为人头位置及置信度，是新结构的卷积神经网络的新应用，相比传统的基于圆形检测的人头检测的准确性有很大提高。

在一个实施例中，分割模块1210还用于将待检测图像分割为固定尺寸且多于一个的子图像，且分割出的子图像中相邻的子图像之间存在重叠部分。本实施例中，分割出的相邻的子图像之间存在重叠部分，可以保证相邻的子图像具有更强的关联，可提高从待检测图像中检测出人头位置的准确性。

如图13所示，在一个实施例中，人头检测装置1200还包括：卷积神经网络调整模块1240和训练模块1250。

卷积神经网络调整模块1240，用于将用于分类的卷积神经网络所包括的前置层之后且回归层之前的全连接层转换为卷积层；将用于分类的卷积神经网络中的回归层替换为用于将转换后的卷积层输出的第二特征映射为人头位置及相应置信度的回归层。

训练模块1250，用于采用已标定人头位置的训练图像，对包括前置层、转换后的卷积层及替换后的回归层的卷积神经网络进行训练。

在一个实施例中，卷积神经网络模块1220还用于通过卷积神经网络的回归层中的第一卷积层，将对应于每个子图像的第二特征映射为对应于每个子图像的人头位置；通过卷积神经网络的回归层中的第二卷积层，将对应于每个子图像的第二特征映射为与输出的人头位置相对应的置信度。

如图14所示，在一个实施例中，人头检测结果确定模块1230包括：过滤模块1231和人头位置确定模块1232。

过滤模块1231，用于从对应于每个子图像的人头位置中筛选出所对应的置信度高于或等于置信度阈值的人头位置；从对应于每个子图像的人头位置中挑选在待检测图像中与筛选出的人头位置相交的人头位置。

人头位置确定模块1232，用于根据筛选出的人头位置及挑选出的人头位置确定待检测图像中检测到的人头位置。

在一个实施例中，人头位置确定模块1232还用于将筛选出的人头位置以及挑选出的人头位置作为二分图中的节点；为二分图中的节点之间的边分配默认且为正的权重；当边所关联的节点所表示的人头位置相交时，将相应分配的权重减小；求取二分图的最大权匹配，得到待检测图像中检测到的人头位置。

如图15所示，在一个实施例中，待检测图像为视频中的视频帧。人头检测装置1200还包括：

跟踪模块1260，用于根据待检测图像中检测到的人头位置逐视频帧进行人头跟踪；

统计条件检测模块1270，用于确定跟踪的人头位置相对于指定区域的运动方向及位置关系；

人数统计模块1280，用于根据确定的运动方向和位置关系进行人数统计。

在一个实施例中，统计条件检测模块1270还用于当跟踪的人头位置依次跨越第一线条以及与第一线条平行的第二线条时，确定跟踪的人头位置进入指定区域；当跟踪的人头位置依次跨越第二线条以及第一线条时，确定跟踪的人头位置离开指定区域。

本实施例中，通过两条线条来判断跟踪的人头位置相对于指定区域的运动方向及位置关系，可防止人头位置在指定区域边界附近活动而导致判断出错，从而可以保证人数统计的正确性。

如图16所示，在一个实施例中，人头检测模块1200还包括人头位置获取模块1290。

跟踪模块1260还用于逐视频帧跟踪人头位置并记录。

人头位置获取模块1290，用于若在当前视频帧中跟踪人头位置中断，则获取记录的前一视频帧中跟踪到的人头位置。

卷积神经网络模块1220还用于检测在当前视频帧中覆盖获取的人头位置的局部区域中的人头位置。

跟踪模块1260还用于从局部区域中检测到的人头位置起继续执行逐视频帧跟踪人头位置并记录的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种人头检测方法，所述方法包括：

将待检测图像分割为多于一个的子图像；分割出的所述子图像中相邻的子图像之间存在重叠部分；

从对应于每个所述子图像的人头位置中筛选出所对应的置信度高于或等于置信度阈值的人头位置；

从对应于每个所述子图像的人头位置中挑选在所述待检测图像中与筛选出的人头位置相交的人头位置；

根据所述筛选出的人头位置及挑选出的所述人头位置确定人头检测结果。

2.根据权利要求1所述的方法，其特征在于，所述将待检测图像分割为多于一个的子图像包括：

将待检测图像分割为固定尺寸且多于一个的子图像。

3.根据权利要求1所述的方法，其特征在于，所述将待检测图像分割为多于一个的子图像之前，所述方法还包括：

将用于分类的卷积神经网络所包括的前置层之后且回归层之前的全连接层转换为卷积层；所述用于分类的卷积神经网络为包括前置层、全连接层以及回归层的卷积神经网络；

将用于分类的所述卷积神经网络中的回归层替换为用于将转换后的卷积层输出的第二特征映射为人头位置及相应置信度的回归层；及

采用已标定人头位置的训练图像，对包括所述前置层、转换后的卷积层及替换后的回归层的所述卷积神经网络进行训练。

4.根据权利要求1所述的方法，其特征在于，所述通过所述卷积神经网络的回归层，将对应于每个所述子图像的所述第二特征映射为对应于每个所述子图像的人头位置及与所述人头位置相应的置信度包括：

通过所述卷积神经网络的回归层中的第一卷积层，将对应于每个所述子图像的所述第二特征映射为对应于每个所述子图像的人头位置；

通过所述卷积神经网络的回归层中的第二卷积层，将对应于每个所述子图像的所述第二特征映射为与输出的所述人头位置相对应的置信度。

5.根据权利要求1所述的方法，其特征在于，所述根据所述筛选出的人头位置及挑选出的所述人头位置确定人头检测结果包括：

将所述筛选出的人头位置以及挑选出的所述人头位置作为二分图中的节点；所述二分图包括两组节点，且所有连接节点的边都跨越组的边界；筛选出的所述人头位置与挑选出的所述人头位置之间存在边；为所述二分图中的节点之间的边分配默认且为正的权重；

当所述边所关联的节点所表示的人头位置相交时，将相应分配的权重减小；

求取所述二分图的最大权匹配，得到所述待检测图像中检测到的人头位置。

6.根据权利要求1所述的方法，其特征在于，所述待检测图像为视频中的视频帧；所述方法还包括：

根据所述待检测图像中检测到的人头位置逐视频帧进行人头跟随；

确定跟随的人头位置相对于指定区域的运动方向及位置关系；

根据确定的所述运动方向和所述位置关系进行人数统计。

7.根据权利要求6所述的方法，其特征在于，所述确定跟随的人头位置相对于指定区域的运动方向及位置关系包括：

当跟随的人头位置依次跨越第一线条以及与所述第一线条平行的第二线条时，确定跟随的人头位置进入指定区域；

当跟随的人头位置依次跨越所述第二线条以及所述第一线条时，确定跟随的人头位置离开所述指定区域。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

逐视频帧跟随所述人头位置并记录；

若在当前视频帧中跟随所述人头位置中断，则获取记录的前一视频帧中跟随到的人头位置；

检测在当前视频帧中覆盖获取的人头位置的局部区域中的人头位置；

从所述局部区域中检测到的人头位置起继续执行所述逐视频帧跟随所述人头位置并记录的步骤。

9.一种人头检测装置，其特征在于，所述装置包括：

分割模块，用于将待检测图像分割为多于一个的子图像；分割出的所述子图像中相邻的子图像之间存在重叠部分；

人头检测结果确定模块，用于将所述对应于每个所述子图像的人头位置按照相应的置信度过滤，获得所述待检测图像中检测到的人头位置；

过滤模块，用于从对应于每个所述子图像的人头位置中筛选出所对应的置信度高于或等于置信度阈值的人头位置；从对应于每个所述子图像的人头位置中挑选在所述待检测图像中与筛选出的人头位置相交的人头位置；

所述人头检测结果确定模块还用于，根据所述筛选出的人头位置及挑选出的所述人头位置确定人头检测结果。

10.根据权利要求9所述的装置，其特征在于，所述分割模块还用于将待检测图像分割为固定尺寸且多于一个的子图像。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：

卷积神经网络调整模块，用于将用于分类的卷积神经网络所包括的前置层之后且回归层之前的全连接层转换为卷积层；将用于分类的所述卷积神经网络中的回归层替换为用于将转换后的卷积层输出的第二特征映射为人头位置及相应置信度的回归层；所述用于分类的卷积神经网络为包括前置层、全连接层以及回归层的卷积神经网络；

训练模块，用于采用已标定人头位置的训练图像，对包括所述前置层、转换后的卷积层及替换后的回归层的所述卷积神经网络进行训练。

12.根据权利要求9所述的装置，其特征在于，所述卷积神经网络模块还用于通过所述卷积神经网络的回归层中的第一卷积层，将对应于每个所述子图像的所述第二特征映射为对应于每个所述子图像的人头位置；通过所述卷积神经网络的回归层中的第二卷积层，将对应于每个所述子图像的所述第二特征映射为与输出的所述人头位置相对应的置信度。

13.根据权利要求9所述的装置，其特征在于，所述人头位置确定模块还用于将所述筛选出的人头位置以及挑选出的所述人头位置作为二分图中的节点；所述二分图包括两组节点，且所有连接节点的边都跨越组的边界；筛选出的所述人头位置与挑选出的所述人头位置之间存在边；为所述二分图中的节点之间的边分配默认且为正的权重；当所述边所关联的节点所表示的人头位置相交时，将相应分配的权重减小；求取所述二分图的最大权匹配，得到所述待检测图像中检测到的人头位置。

14.根据权利要求9所述的装置，其特征在于，所述待检测图像为视频中的视频帧；所述装置还包括：

跟随模块，用于根据所述待检测图像中检测到的人头位置逐视频帧进行人头跟随；

统计条件检测模块，用于确定跟随的人头位置相对于指定区域的运动方向及位置关系；

人数统计模块，用于根据确定的所述运动方向和所述位置关系进行人数统计。

15.根据权利要求14所述的装置，其特征在于，所述统计条件检测模块还用于当跟随的人头位置依次跨越第一线条以及与所述第一线条平行的第二线条时，确定跟随的人头位置进入指定区域；当跟随的人头位置依次跨越所述第二线条以及所述第一线条时，确定跟随的人头位置离开所述指定区域。

16.根据权利要求14所述的装置，其特征在于，所述装置还包括：人头位置获取模块；

所述跟随模块还用于逐视频帧跟随所述人头位置并记录；

所述人头位置获取模块用于若在当前视频帧中跟随所述人头位置中断，则获取记录的前一视频帧中跟随到的人头位置；

所述卷积神经网络模块还用于检测在当前视频帧中覆盖获取的人头位置的局部区域中的人头位置；

所述跟随模块还用于从所述局部区域中检测到的人头位置起继续逐视频帧跟随所述人头位置并记录。

17.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。

18.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。