CN108416250B

CN108416250B - 人数统计方法及装置

Info

Publication number: CN108416250B
Application number: CN201710074404.9A
Authority: CN
Inventors: 徐茜; 毛泉涌; 祝中科; 王玲; 陈艳良
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Jinan Yushi Intelligent Technology Co ltd
Priority date: 2017-02-10
Filing date: 2017-02-10
Publication date: 2021-06-22
Anticipated expiration: 2037-02-10
Also published as: CN108416250A

Abstract

本申请提供一种人数统计方法及装置，该方法应用于搭载包括基于卷积神经网络构建的图像特征提取子模型和SSD分类回归子模型的人数统计模型的服务器，具体包括：将图像帧输入图像特征提取子模型生成图像特征图；基于SSD分类回归子模型对该图像特征图中各像素点生成默认框，获取各默认框位置坐标及概率评分，将最大概率评分作为初级置信度；筛选出初级置信度最高的前K个默认框作为目标候选框；基于各目标候选框的位置坐标和概率评分，进行包围盒回归分析和softxmax分类，得到各目标候选框的坐标位置和最终置信度；基于非极大值抑制算法，获取目标框，并基于目标框的数量统计监控区域中的人数。使用本方法，可以有效提高人数统计的实时性。

Description

人数统计方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及人数统计方法及装置。

背景技术

随着计算机视觉的发展，视频监控技术在保障公共安全，维护社会稳定方面越来越重要。人数统计是视频监控领域的重要组成部分，实时有效的人数统计为人群行为分析提供了基础数据，对防止人群拥堵、非法聚集等有着重要作用。

然而，现有的基于神经网络的人数统计方法大多利用了“区域建议框和分类器”的目标检测思想，在目标检测时，很难实现端到端的目标检测，因此极大地降低了人数统计的实时性。

发明内容

有鉴于此，本申请提供一种人数统计方法及装置，用以提高人数统计的实时性。

具体地，本申请是通过如下技术方案实现的：

根据本申请的第一方面，提供一种人数统计方法，所述方法应用于服务器，所述服务器搭载人数统计模型，所述人数统计模型包括基于卷积神经网络构建的图像特征提取子模型和SSD分类回归子模型，所述方法包括：

将前端摄像机采集到的图像帧输入所述图像特征提取子模型进行图像特征提取，并输出提取到的图像特征图；其中，所述图像特征提取子模型的部分卷积层在卷积操作中未进行下采样操作；

基于所述SSD分类回归子模型针对输出的所述图像特征图中每一个像素点分别生成对应的默认框，并获取各默认框在所述图像特征图中的位置坐标，以及对应于不同物体类别的概率评分，并将各默认框的最大概率评分作为初级置信度；

筛选出所述初级置信度最高的前K个默认框作为目标候选框，基于各目标候选框的位置坐标进行包围盒回归分析，得到对应于各目标候选框的区域大小；以及，对各目标候选框的概率评分进行softxmax分类，得到各目标候选框对应于不同物体分类的最终置信度；

基于非极大值抑制算法，获取重叠度高于预设阈值的目标候选框中所述最终置信度最高的目标候选框作为目标框，并基于所述目标框的数量统计监控区域中的人数。

根据本申请的第二方面，提供一种人数统计装置，所述装置应用于服务器，所述服务器搭载人数统计模型，所述人数统计模型包括基于卷积神经网络构建的图像特征提取子模型和SSD分类回归子模型，所述装置包括：

提取单元，用于将前端摄像机采集到的图像帧输入所述图像特征提取子模型进行图像特征提取，并输出提取到的图像特征图；其中，所述图像特征提取子模型的部分卷积层在卷积操作中未进行下采样操作；

获取单元，用于基于所述SSD分类回归子模型针对输出的所述图像特征图中每一个像素点分别生成对应的默认框，并获取各默认框在所述图像特征图中的位置坐标，以及对应于不同物体类别的概率评分，并将各默认框的最大概率评分作为初级置信度；

筛选单元，用于筛选出所述初级置信度最高的前K个默认框作为目标候选框，基于各目标候选框的位置坐标进行包围盒回归分析，得到对应于各目标候选框的区域大小；以及，对各目标候选框的概率评分进行softxmax分类，得到各目标候选框对应于不同物体分类的最终置信度；

第一统计单元，用于基于非极大值抑制算法，获取重叠度高于预设阈值的目标候选框中所述最终置信度最高的目标候选框作为目标框，并基于所述目标框的数量统计监控区域中的人数。

一方面，由于本申请使用的人数统计模型包括基于卷积神经网络的图像特征子模型和SSD分类回归子模型，在进行人数统计时，监控视频的图像帧不再经过区域建议框和分类器两个神经网络，而只需要经过这一个人数统计模型，因此大大提高了人数统计的实时性；

另一方面，由于在训练SSD分类回归子模型时，本申请可以对SSD分类回归子模型生成的默认框进行筛选，然后将计算筛选出的默认框的多任务损失进行反向传播，从而大大增加了SSD分类回归子模型的训练速率。在进行人数统计时，在SSD子模型生成默认框后，由于对默认框进行了筛选，使得在保证SSD分类回归子模型目标检测准确率的同时，大大提高了SSD分类回归子模型的速率。从而在保证目标检测高准确率的情况下，检测速度到达200fps，目标检测速率是相关技术中的目标检测速率的4倍，因此有效地提高了人数统计的实时性。

此外，本申请在进行人流量统计时，采用低频特征构建感知哈希指纹，并利用构建的感知哈希指纹距离和位置坐标距离实现目标特征匹配，不仅提升了匹配的准确率，还保证了目标跟踪的实时性。

附图说明

图1是本申请一示例性实施例示出的一种人数统计方法的流程图；

图2(a)是本申请一示例性实施例示出的一种监控区域人数统计的示意图；

图2(b)是本申请一示例性实施例示出的另一种监控区域人数统计的示意图；

图3是本申请一示例性实施例示出的一种人数统计装置所在设备的硬件结构图；

图4是本申请一示例性实施例示出的一种人数统计装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

一种相关的人数统计的方法可以通过更快速区域卷积神经网络Faster R-CNN进行头肩(人数)检测。在实现时，首先可以设置头肩热区(即监控区域)，然后使用区域建议网络RPN提取该头肩热区内可能出现头肩的可疑目标区域。最后使用分类器判断可疑目标区域是否存在头肩，从而实现人数统计。

然而，一方面，由于该相关的人数统计的方法是通过头肩进行人数统计，这就要求前端摄像机必须水平安装，对工勘要求十分严格，从而造成该方案的场景适应性不佳；

另一方面，由于该相关技术中的人数统计方案需要使用区域建议网络RPN，从头肩热区中提取可疑的目标区域，然后再使用分类器判断可疑目标区域内是否存在头肩，由于在人数统计时需要使用两个神经网络，因此这种人数统计的方法的实时性较差。此外，在训练神经网络时，也需要对两个神经网络进行训练，大大增加了神经网络训练的复杂度。

另一种相关的人数统计的方法是通过检测人头的数量来统计人数。在该方案中，可以使用Adaboost分类器从图像中提取可能存在人头的候选框，并利用卷积神经网络生成特征图，然后在利用生成的特征图和SVM分类器进一步筛选出人头目标框，通过统计人头目标框的数量，实现人数的统计。

然而，一方面，该相关的人数统计的方案只能对人头进行检测，但是由于当前端摄像机的安装的俯视角较小时，前端摄像机只能拍摄到头肩，而很难拍摄到人头，因此，该人数统计方案的场景适应性较差；

另一方面，该相关的人数统计方案先使用Adaboost分类器进行候选建议框提取，然后再利用SVM分类器进行分类，由于采用两个功能相同的分类器进行多次分类，使得该方案在统计人数实时性较差。

此外，使用该相关的人数统计方案需要同时训练Adaboost分类器、卷积神经网络和SVM，大大增加了网络训练的复杂度并且网络移植性较差。

综上所述，上述相关的两种人数统计方案均利用了“区域建议框和分类器”的目标检测思想。在目标检测时需要经过两个神经网络才能完成目标检测，使得使用该类方法很难实现端到端的目标检测，因此极大地降低了人数统计的实时性。此外，由于训练样本较为单一，使得上述两种方案的场景适应性不佳。

本申请提出一种人数统计的方法，服务器可以将前端摄像机采集到的图像帧输入所述预设的人数统计模型中的基于卷积神经网络构建的图像特征提取子模型进行图像特征提取，并输出提取到的图像特征图；其中，所述图像特征提取子模型仅部分卷积层搭载了池化层。并可以基于预设的人数统计模型的SSD分类回归子模型针对输出的所述图像特征图中每一个像素点分别生成对应的默认框，并获取各默认框位置坐标以及概率评分，并将各默认框的最大概率评分作为初级置信度。服务器可以筛选出所述初级置信度最高的前K个默认框作为目标候选框，并可以基于各目标候选框的位置坐标和概率评分分别进行包围盒回归分析和softxmax分类，得各目标候选框的区域大小以及最终置信度。最后可以基于非极大值抑制算法，获取重叠度高于预设阈值的目标候选框中所述最终置信度最高的目标候选框作为目标框，并基于所述目标框的数量统计该图像帧的监控区域中的人数。

一方面，由于本申请使用的人数统计模型可以包括基于卷积神经网络的图像特征子模型和SSD分类回归子模型，在进行人数统计时，监控视频的图像帧不再经过区域建议框和分类器两个神经网络，而只需要经过这一个人数统计模型，因此大大提高了人数统计的实时性；

最后，由于本申请采用前端摄像机在多个的安装俯视角下拍摄的监控视频的图像帧中的混合训练样本，使得本申请提出的人数统计方法可以适应各种复杂场景，大大提高了人数统计的场景适应性。

参见图1，图1是本申请一示例性实施例示出的一种人数统计方法的流程图。该方法应用于服务端，所述方法应用于人数统计模型，所述人数统计模型包括图像特征提取子模型和SSD分类回归子模型。所述人数统计的方法具体包括如下所述步骤：

步骤101：将前端摄像机采集到的图像帧输入所述预设的人数统计模型中的基于卷积神经网络构建的图像特征提取子模型进行图像特征提取，并输出提取到的图像特征图；其中，所述图像特征提取子模型的部分卷积层在卷积操作中未进行下采样操作；

步骤102：基于预设的人数统计模型的SSD分类回归子模型针对输出的所述图像特征图中每一个像素点分别生成对应的默认框，并获取各默认框在所述图像特征图中的位置坐标，以及对应于该图像特征图中的不同物体类别的最大概率评分作为初级置信度；

步骤103：筛选出所述初级置信度最高的前K个默认框作为目标候选框，基于各默认框的位置坐标进行包围盒回归分析，得到对应于各默认框的区域大小；以及，对各目标候选框的对应于不同物体分类的概率评分进行softxmax分类，得到所述K个默认框对应于不同物体分类的最终置信度；

步骤104：基于非极大值抑制算法，获取重叠度高于预设阈值的目标候选框中所述最终置信度高的目标候选框作为目标框，并基于所述目标框的数量统计该图像帧的监控区域中的人数。

其中，上述人数统计模型，可以包括基于卷积神经网络的图像特征提取子模型和用于目标检测的SSD分类回归子模型。上述人数统计模型可以被认为是一种基于深度学习的神经网络，由若干个卷积层组成，例如，上述人数统计模型的前几层可以组成卷积神经网络，接下来的几层可以组成SSD分类回归子模型，最后几层可以对SSD分类回归子模型生成的默认框进行筛选，获得最终的目标框。

在进行监控区域的人数统计时，将前端摄像机拍摄的监控视频的图像帧输入该人数统计模型，并经过该人数统计模型的处理和非极大值抑制操作后，可以得到如图2(a)所示的图像，即每个人的人头或者头肩对应一个目标框。上述服务器通过统计目标框的个数，来对该图像帧中的监控区域的人数进行统计。

上述基于卷积神经网络的图像特征提取子模型，主要用于提取图像帧的特征，生成图像特征图。上述卷积神经网络又可以被称为CNN网络(Convolutional NeuralNetworks，卷积神经网络)，可以包括VGG网络、ZF网络、AlexNet网络、ResNet网络等，这里只是对卷积神经网络进行示例性说明，不对其进行具体地限定。

需要说明的是，由于图像特征提取子模型是基于CNN网络构建的，所以下文中提到的CNN网络也可以指代图像特征提取子模型，在这里不再赘述。

上述SSD分类回归子模型，可以是一种基于深度学习的神经网络，SSD分类回归子模型的核心可以是使用softmax分类器和包围盒回归来预测图像特征图上固定的一组默认框的对于图像帧中不同物体类别的置信度和这组默认框在图像中的位置坐标。基于该核心思想，SSD分类回归子模型可以被用于进行目标检测。

上述监控区域，是指开发人员根据实际情况在图像帧中设置的一个区域，主要用于在该监控区域内进行人数统计。如图2(a)所示，图2(a)框内的区域即为监控区域，当然，该监控区域也可以由服务端自动生成，例如，服务端可以通过检测关键物体作为该监控区域的边界，形成该监控区域。在这里只是对监控区域的设置方式进行示例性的说明，不对其进行特别地限定。

上述预设绊线，通常为用于人数统计的水平基线，如图2(b)所示，图2(b)图片下部的水平基线即为绊线。通常开发人员可以为该预设绊线设定进出方向。例如，可以将图2(b)绊线的向上的方向设定为进方向，图2(b)绊线的向下的方向设定为出方向等。当然，开发人员可以根据实际情况对该绊线的进出方向进行设定，在这里不再赘述。

上述跟踪列表，主要用于方便对跟踪的目标进行记录。跟踪列表可以记录监控视频中出现的目标框的ID，每个目标框ID都有一定的生命值。如果一个目标框为监控视频中新出现的目标框，则为该目标框分配一个新的目标框ID，并将该目标框ID添加至跟踪列表。如果监控视频中的当前图像帧的一个目标框与前一图像帧的目标框匹配，则增加跟踪列表中的该目标框ID的生命值。如果监控视频中的当前图像帧未包含跟踪列表中的目标框ID对应的目标框，则减少该目标框ID的生命值。如果某一目标框的生命值为零，则可以将该目标框移出跟踪列表。

下面通过人数统计模型训练、基于人数统计模型的目标检测以及区域人数统计，以及区域人流量统计三个方面对本申请提出的人数统计方法进行详细地说明。

1)人数统计模型的训练

在本申请实施例中，一方面由于本申请提出的人数统计方法所使用的人数统计模型包括基于卷积神经网络的图像特征提取子模型和用于目标检测的SSD分类回归子模型，在训练模型时只需要训练一个人数统计模型，所以大大降低了人数统计模型训练的复杂程度；另一方面，由于本申请在训练人数统计模型时使用的是采用前端摄像机在多个的安装俯视角下拍摄到的若干被标定了人头和头肩所在位置区域图像帧中的混合训练样本，使得本申请提出的人数统计方法可以适应各种复杂场景，大大提高了人数统计的场景适应性。

由于上述人数统计模型可以是一种基于深度学习的神经网络，为了更清晰地对本申请提出的人数统计模型的训练进行介绍，下面先简要介绍神经网络训练的基本原理。

由于初始的神经网络所计算出的结果很难是标定的结果，所以神经网络的训练目的可以是通过将标定的结果与计算的结果的误差进行反向传播，来调整神经网络各层的权重，以确定神经网络计算出的结果与标定结果的误差在预设的范围内时各层的权重。

神经网络的训练，通常包括正向传播和反向传播两部分。在神经网络训练时，通常可以将样本以及该样本的标定结果输入神经网络。输入的样本经过正向传播，即经过该神经网络的计算，得到一个计算结果。并通过反向传播，即比较样本的标定结果与计算结果之间的误差，反向传播该误差，调整神经网络各层的权重，以使得样本的标定结果与样本的计算结果之间的误差在预设的阈值之内(神经网络收敛)时各层的权重。神经网络收敛时的各层的权重即为训练好的神经网络的各层的权重。

例如，在本申请实施例中，输入的样本可以包括视频监控的图像帧，以及该图像帧上标定的人头或者头肩的标定区域(每一个人头或者头肩对应有一个标定区域)。将该包含标定区域的图像帧送入初始的人数统计模型后，初始的人数统计模型可以计算出该图像帧上的人头或者头肩的目标框。然后，计算该目标框与标定区域之间的损失(也被称为误差)，并进行反向传播，以调整人数统计模型各层的权重，使得目标框与标定区域之间的损失在预设的损失阈值内。当目标框与标定区域之间的损失在预设的损失阈值内时各层的权重即为训练好的神经网络的各层权重。

下面对本申请的神经网络的训练方法进行详细地说明。

为了提高人数统计的场景适应性，解决因前端摄像机的安装角度不同，拍摄的路人的人头或者头肩角度不同而出现的场景适应性差的问题。例如，当前端摄像机安装的俯视角较大时，前端摄像机可以拍摄到路人的人头而很难拍摄到路人的头肩，当前端摄像机安装的俯视角较小时，前端摄像机只能拍摄行人的头肩而很难拍摄到行人的人头等问题。

在本申请实施例中，开发人员可以采集前端摄像机在多个不同的安装俯视角下拍摄的监控视频的图像帧作为样本，然后开发人员还可以基于前端摄像机安装的俯视角对样本进行分类。开发人员可以在样本上标定每个行人的人头或者头肩对应的标定区域，从而形成混合训练样本。

在人数统计模型训练时，可以将上述混合训练样本输入该人数统计模型。首先，混合训练样本中的图像帧样本可以先经过人数统计模型中的基于CNN网络的图像特征提取子模型，通过预设置的在卷积操作中不进行下采样操作的部分卷积层，提取图像帧样本中的高层抽象的大尺度图像特征，并输出提取到的图像特征图。

例如，在实现时，CNN网络的第一卷积层和第二卷积层可以对图像帧样本进行卷积操作和下采样操作。然后将第二卷积层输出的图像帧样本送入池化层，进行下采样操作。接着可以将池化层输出的图像帧样本依次送入第三卷积层、第四卷积层和第五卷积层只进行卷积操作，而不再进行下采样操作。最后，可以将第五卷积层输出的图像帧样本进行L2正则化处理，生成该图像帧样本的图像特征图样本。

在本申请实施例中，为了提高人数统计模型的收敛速率，提高人数统计模型训练的准确率，即该人数统计模型各层权重的准确率。与传统的训练SSD分类回归子模型不同的是，在本申请提出的训练人数统计模型的SSD分类回归子模型时，可以计算SSD分类回归子模型对生成的每个默认框的softmax分类损失和包围盒回归损失之和。并可以根据损失和对所有的默认框进行排序，然后计算前K个默认框的多任务损失，并根据该多任务损失进行反向传播。

在实现时，在上述CNN网络生成该图像帧样本的高层抽象特征的图像特征图样本后，可以将该图像特征图样本送入该人数统计模型的SSD分类回归子模型。SSD分类回归子模型可以在该图像特征图样本的每个像素点上生成若干个默认框，例如可以为每个像素点上生成三个默认框等。在这里，每个像素点上生成的默认框的数量由实验确定，不对像素点上生成的默认框的数量进行具体地限定。

需要说明的是，为了提高人数统计模型的收敛速率，传统的SSD分类回归子模型在计算默认框的多任务损失的时候，是基于每个默认框计算得到的该默认框对于不同物体类别的概率得分的高低，对负样本的默认框进行排序。并可以基于该排序，按照正负样本比例1:3选择负样本默认框，然后在计算选择出的正负样本的默认框的多任务损失。而这样人为干涉正负样本的比例大大降低了网络训练的准确性。

本申请提供的SSD分类回归子模型中也需要正样本和负样本，正样本的作用是提高SSD分类回归子模型的目标检测的准确率，而采用负样本是为了降低目标检测的误检率。SSD分类回归子模型在图像特征图样本的每个像素点生成若干个默认框后，可以将生成的默认框映射回原图像帧。该若干个默认框中，与标定区域的区域相交的默认框即为正样本，与标定区域的区域不相交的默认框即为负样本，正负样本的比例是SSD子模型随机生成的，并没有人为干预正负样本的比例，所以使用本申请的人数统计方法，可以有效地提高人数统计的准确率。

此外，为了提高网络训练的收敛速率，同时提高人数统计模型的准确率，本申请在计算默认框的多任务损失时，是通过计算每个默认框的softmax分类损失和包围盒回归损失之和，并计算softmax分类损失和包围盒回归损失之和最大的前K个默认框的多任务损失，由于服务器在计算多任务损失时，需要对默认框进行筛选，因此在保证网络训练准确率的同时，有效地提高了网络收敛的速率。

在实现时，在生成每个像素点的默认框(包括正样本和负样本)后，图像帧样本可以通过SSD分类回归子模型的卷积层生成每个默认框在该图像帧样本中的位置坐标以及该默认框对于该图像帧样本中的不同物体类别的概率评分。

SSD分类回归子模型可以基于各默认框样本的位置坐标计算各默认框样本的包围盒回归损失，以及基于各默认框样本对于该图像帧样本中的不同物体类别的概率评分，计算各默认框样本的softmax分类损失。SSD分类回归子模型可以计算各默认框样本的softmax分类损失和包围盒回归损失之和，并可以获取softmax分类损失和包围盒回归损失之和最小的前K个默认框样本，其中，K为大于1的整数。

需要说明的是，K值由上述大尺度特征图的大小决定，如果上述正方形特征图的尺寸为|f_k|，则

其中

为预配置的权重值，可以为0.75，在这里不对

的取值进行特别地限定。

在本申请实施例中，在获取到softmax分类损失和包围盒回归损失之和最小的前K个默认框样本后，可以计算该K个默认框样本的多任务损失，该多任务损失即为默认框和与其对应的标定区域之间的误差值。

多任务损失的计算公式如下：

其中，L(x,c,l,g)为多任务损失，x为当前计算的默认框，c表示当前计算的默认框的类别信息，l表示当前计算的默认框的位置信息，g表示当前计算的默认框的标定区域结果。

L_onf(x,c)为softmax分类损失；

L_loc(x,l,g)包围盒回归损失；

K＝|f_k|*|f_k|*α，|f_k|为所述图像特征图的尺寸，α为预配置的权重值。

在计算得到前K个默认框样本的多任务损失之后(即默认框样本与其对应的标定区域的误差之后)，可以将该多任务损失进行反向传播，调整该神经网络各层的权重值，并确定出该K个默认框的多任务损失值小于或者等于预设的阈值时的该人数统计模型各层网络的权重值。

2)基于人数统计模型的目标检测以及区域人数统计

在本申请实施例中，为了提高输入的图像帧的人头或者头肩的准确性，同时，为了提高人头或者头肩检测的实时性，本申请设计了一种CNN网络，通过将该CNN网络的设计为仅部分卷积层搭载池化层，可以获得输入的图像帧的具有高层抽象特征的大尺度图像特征图。

此外，本申请在传统的SSD分类回归子模型生成的默认框的基础上，又对默认框进行了筛选，再提取初级置信度最高的前K个默认框进行softmax分类和包围盒回归操作，然后进行非极大值抑制操作，获得对应于每个人头或者头肩的目标框。然后基于该图像帧中监控区域内的默认框的个数统计该图像帧的监控区域内的人数。因此，在保证检测准确率不变的前提下，应用本申请提供的SSD分类器可以有效地提高目标检测的速率。

在视频监控领域的人数统计中，检测的目标通常为人头或者头肩，由于人头或者头肩的目标较小，所以需要提高层抽象的大尺度特征才能准确地检测人头或者头肩的位置。而在传统的CNN网络中的大尺度特征基本是低层特征，但是低层特征的抽象性不够，造成目标检测的准确性下降。为了可以提取到高层抽象的大尺度特征，通常需要将输入CNN网络的图像帧进行特别放大，这极大地增加了CNN网络的卷积运算量。

因此，为了快速地提取抽象性高的高层大尺度特征，本申请提供一种CNN网络，用于实现高层抽象的大尺度特征的图像特征提取。

下面以任意一帧图像帧对基于人数统计模型的目标检测方法进行详细地说明。其他图像帧的目标检测方法与以下介绍的方法相同，在这里不再赘述。

在实现时，可以将前端摄像机拍摄的监控视频的图像帧输入本申请涉及的人数统计模型的基于CNN网络的人数统计子模型，由于本申请涉及的CNN网络的部分卷积层在卷积操作后未进行下采样操作，而下采样操作主要用于对图像帧信息进行压缩，所以采用具有在卷积操作中不进行下采样操作的部分卷积层的CNN网络，可以保留很多图像信息，因此可以生成该图像帧的具有高层抽象的大尺度特征的图像特征图。

例如，在实现时，当图像帧输入人数统计模型的CNN网络后，可以在CNN网络的第一卷积层和第二卷积层对图像帧进行卷积操作和下采样操作。然后将第二卷积层输出的图像帧送入池化层，下采样操作。接着可以将池化层输出的图像帧依次送入第三卷积层、第四卷积层和第五卷积层只进行卷积操作，而不进行下采样操作。最后，可以将第五卷积层输出的图像帧进行L2正则化处理，生成该图像帧的基于高层抽象的大尺度特征的图像特征图。

当然，上述只是对具有在卷积操作中不进行下采样操作的部分卷积层的CNN网络的示例性说明，当然开发人员也可以采用其他方法对用于提取高层抽象的大尺度特征的图像特征图的CNN网络进行设计，在这里，不再赘述。

在生成上述图像帧的图像特征图之后，可以将生成的图像特征图送入该人数统计模型的SSD分类回归子模型，SSD分类回归子模型可以基于预设的参数为该图像特征图上每个像素点获取一定数量，一定长宽比等的默认框。

其中，该预设的参数可以依据实验进行修订。以下公开一种预设参数的数值。

例如，SSD分类回归子模型可以在生成的图像特征图上的每个像素点获取3个默认框。其中一个默认框的尺度为0.1，长宽比为1:1，另外两个默认框的尺度为0.2，长宽比分别为1:2和2:1。默认框的宽高计算公式如下所示：

其中，s为尺度，a_r为长宽比。

每个默认框的中心点为

i为默认框在图像特征图中的横坐标，j为默认框在图像特征图中的纵坐标。

|f_k|为正方形大尺度特征图的尺寸，i,j∈[0,|f_k|)，所有尺度均归一化到[0,1]。

在本申请实施例中，SSD分类回归子模型可以对每个像素点上获取到的默认框进行卷积操作，获取每个默认框的在上述图像特征图中的位置偏移以及每个默认框对于该图像特征图中的不同物体类别的概率评分，并选取默认框对于该图像帧中的不同物体类别的最大概率评分，作为该默认框的初级置信度。

由于SSD分类回归子模型对上述具有高层抽象的大尺度特征的图像特征图进行处理运算后，得到的默认框会非常多，而且大部分默认框式是无效默认框。因此，为了提高SSD分类回归子模型的运算速度，提高人数统计的实时性。本申请提出的人数统计模型可以在SSD分类回归子模型生成的默认框的基础上进行进一步的筛选。

在实现时，可以先去除所有跨越图像特征图边界的默认框，然后根据SSD分类回归子模型计算出的各默认框的初级置信度的大小，对上述所有默认框进行排序。然后选取初级置信度最高的前K个默认框，作为目标候选框。

人数统计模型可以基于目标候选框在SSD子模型中计算出的位置坐标进行包围盒回归分析，得到对应于各目标候选框的区域大小，区域大小可以以目标候选框的中心坐标，目标候选框的高宽进行表征。

同时，人数统计模型还可以基于目标候选框在SSD子模型中计算出的针对图像特征图中不同物体类别的概率评分，对目标候选框进行softmax分类，获取目标候选框的对应于该图像特征图中的不同物体类别的最终置信度。

在本申请实施例中，人数统计模型输出的结果为目标候选框(即K个默认框)，以及目标候选框中心位置坐标、目标候选框的宽高以及各目标候选框针对图像特征图中不同物体类别的最终置信度。

其中

为预配置的权重值，可以为0.75，在这里不对

的取值进行特别地限定。

在本申请实施例中，经过上述CNN网络和SSD分类回归子模型的处理之后，可能出现输出的图像帧中的一个人头或者头肩具有多个目标候选框的情况，为了得到一个人头或者头肩对应一个目标候选框的输出结果，需要对目标候选框进行非极大值抑制处理。

非极大值抑制处理通常包括选择出重叠度高于预设阈值的目标候选框，然后在选择出的相邻的目标候选框中选择最终置信度最高的目标候选框作为目标框。

在实现时，人数统计模型可以分别计算上述两两目标候选框的面积交集和面积补集之比。当两个目标候选框的面积交集和面积补集之比大于预设阈值时，则确定这两个目标候选框为重叠度高于预设阈值的目标候选框。然后，人数统计模型可以舍弃最终置信度低的目标候选框，再将最终置信度高的目标候选框与其他相邻的目标候选框进行比较，最终获得置信度最高的目标候选框作为目标框。

其中，该预设阈值可以为0.5，当然在实际应用中可以由开发人员根据实验等进行设定，在这里只是对预设阈值进行示例性说明，不对其进行特别地限定。

人数统计模型可以统计非极大值抑制处理后输出的图像帧的监控区域中的目标框的数量，作为该单帧的图像帧的监控区域中的人数。

3)区域人数统计和区域人流量统计

在本申请实施例中，在进行人流量统计时，服务器可以根据前后两个图像帧中的目标框及该目标框中的图像特征(人头或者头肩)进行同一个人的人头或者头肩的识别。服务器可以对识别的目标框进行跟踪，形成跟踪轨迹，然后根据跟踪轨迹判断该目标框的运动方向，同时结合监控区域中的绊线的进出方向，进行人流量的统计。

由于精准地对前后两图像帧中的同一目标框进行相似度匹配是人流量统计的基础，也是人流量统计的关键，下面首先对前后两图像帧中的同一目标框进行相似度计算的原理进行详细地介绍。

在人流量统计的目标跟踪过程中，如果前后两图像帧中的距离越近，则这两个目标框很可能为同一目标框，如果前后两图像帧相像程度越高，则这两个目标框的目标框很可能为同一目标框。所以本申请实施例在计算相似度时，可以由预构建的感知哈希指纹距离和位置坐标距离进行表征。

其中，感知哈希指纹距离可以表征上述前后两图像帧中的目标框的相像程度，位置坐标距离可以表征上述前后两图像帧中的目标框的位置坐标。

下面介绍前后两图像帧中的目标框的感知哈希指纹距离计算。

在本申请实施例中，为了减少哈希指纹距离的计算量，提高哈希指纹距离的计算速率。在计算前后两图像帧中的目标框的哈希指纹距离时，服务器可以提取图像帧的目标框的低频信息(即该图像帧中图像的大概轮廓)来构建哈希指纹，并以哈希指纹表征图像帧中的各目标框。

在实现时，例如，服务器可以将图像帧转化为灰度图，并提取目标框包围的图像区域，并将其目标框包围区域缩放到像素为32*32的区域。然后可以计算32*32的区域离散余弦变换DCT，得到像素为32*32的DCT系数矩阵。再提取该32*32的DCT系数矩阵左上角的像素为8*8区域，即为目标框的最低频信息。服务器可以计算像素为8*8区域的DCT系数均值。并比较8*8区域的每一个DCT系数与DCT系数均值的大小，如果大于等于DCT均值，则设其为1，否则设其为0，从而构成一个64位特征向量，该64位特征向量即为目标的感知哈希指纹特征。

当然，上述只是对感知哈希指纹特征的提取方式进行示例性说明，还可以采用现有的其他的方式对感知哈希指纹特征进行提取，在这里不再赘述。

在得到前后两图像帧中的各目标框的感知哈希指纹后，可以使用汉明距离作为感知哈希指纹距离，度量两个目标框的相似性，计算公式如下：

d_hash＝∑_k(X_i[k]⊕Y_j[k])；

其中，X_i为当前图像帧中的第i个目标框的感知哈希指纹，Y_j前一图像帧中的第j个目标框的感知哈希指纹，k为感知哈希指纹中的第k位。

需要说明的是，d_hash为零时，两个目标框非常相似，d_hash值越大，表明两个目标框越不相似。

下面介绍前后两图像帧中的目标框的位置坐标距离的计算。

在本申请实施例中，为了加速前后两图像帧中的目标框的位置坐标距离的计算，可以通过如下公式计算位置坐标距离：

其中，所述(x_i,y_i)为当前图像帧中的第i个目标框的中心坐标点，所述(x_j,y_j)为前一图像帧中的第j个目标框的中心坐标点；

前后两图像帧中的目标框的相似度计算公式如下所示：

dis＝d_hash+β*d_loc；

其中，β为预配置的权重值。

需要说明的，在上述公式中，如果两个目标框越匹配，dis越小，如果两个目标框越不匹配，dis越大。

在完成上述相似度介绍后，下面可以对人流量统计进行详细的介绍。人流量统计中所使用的相似度计算方法即为上文中介绍的相似度计算方法。

在本申请实施例中，服务器可以分别计算当前图像帧中的目标框与前一图像帧中的各目标框的相似度。如果当前图像帧中的目标框与前一图像帧中的任一目标框的相似度达到(大于或者等于)预设的相似度阈值，则确定该当前图像帧中的目标框与该前一图像帧中的任一目标框匹配。

服务器可以将匹配到的前一图像帧中的目标框对应的目标框ID赋予与其匹配的当前图像帧中的目标框，并增加跟踪列表中的该目标框ID的生命值。例如，可以将该目标框ID的生命值加1。

在本申请实施例中，当所述目标框触发所述预设绊线时，服务器可以根据该目标框运动方向与该预设绊线的预设进出方向确定该目标框的进出方向，以进行人流量计数。

例如，如图2(b)所示，图2(b)绊线的向上的方向设定为入方向，图2(b)绊线的向下的方向设定为出方向等。如果目标框的运动方向与绊线的出方向相同，则表明目标框要跨出该监控区域，如果目标框运动方向与绊线的入方向相同，则表明目标框要进入该监控区域，然后服务器可以根据目标框的出入方向，对人流量进行计数。

如果当前图像帧中的目标框与前一图像帧中的任一目标框的相似度小于预设的相似度阈值，则表明该目标框为从未出现过的目标框，此时可以为当前图像帧中的该目标框分配目标框ID，并将该目标框ID添加至所述跟踪列表。

如果所述当前图像帧中未包含所述跟踪列表中的目标框ID对应的目标框，则表明该目标框已经不在当前图像帧中的监控区域的范围内，此时可以减小该目标框ID的生命值。

当目标框ID的生命值被减小为零时，服务器可以将生命值为零的目标框ID从上述跟踪列表中移除。

在本申请实施例中，一方面，由于本申请使用的人数统计模型包括基于卷积神经网络的图像特征子模型和SSD分类回归子模型，在进行人数统计时，监控视频的图像帧不再经过区域建议框和分类器两个神经网络，而只需要经过这一个人数统计模型，因此大大提高了人数统计的实时性；

与前述人数统计方法的实施例相对应，本申请还提供了人数统计方法装置的实施例。

本申请人数统计方法装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本申请人数统计方法装置所在服务器的一种硬件结构图，除了图3所示的处理器、内存、网络出接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图4，图4是本申请一示例性实施例示出的一种人数统计装置的框图。

所述装置应用于服务器，所述服务器搭载人数统计模型，所述人数统计模型包括基于卷积神经网络构建的图像特征提取子模型和SSD分类回归子模型，所述装置包括：

提取单元410，用于将前端摄像机采集到的图像帧输入所述图像特征提取子模型进行图像特征提取，并输出提取到的图像特征图；其中，其中，所述图像特征提取子模型的部分卷积层在卷积操作中未进行下采样操作；

获取单元420，用于基于所述SSD分类回归子模型针对输出的所述图像特征图中每一个像素点分别生成对应的默认框，并获取各默认框在所述图像特征图中的位置坐标，以及对应于不同物体类别的概率评分，并将各默认框的最大概率评分作为初级置信度；

筛选单元430，用于筛选出所述初级置信度最高的前K个默认框作为目标候选框，基于各目标候选框的位置坐标进行包围盒回归分析，得到对应于各目标候选框的区域大小；以及，对各目标候选框的概率评分进行softxmax分类，得到各目标候选框对应于不同物体分类的最终置信度；

第一统计单元440，用于基于非极大值抑制算法，获取重叠度高于预设阈值的目标候选框中所述最终置信度最高的目标候选框作为目标框，并基于所述目标框的数量统计监控区域中的人数。

在另一种可选的实现方式中，所述装置还包括：

训练单元450，用于将混合训练样本集输入所述图像特征提取子模型进行图像特征提取，并输出提取到的图像特征图样本；其中，所述混合训练样本集包括前端摄像机在多个不同的安装俯视角下拍摄到的若干被标定了人头和头肩所在位置区域的图像帧样本，并基于所述人数统计模型的SSD分类回归子模型对输出的所述图像特征图样本中的每个像素点分别生成对应的默认框样本，并获取各默认框样本在该图像特征图样本中的坐标位置，以及对应于不同物体类别的概率评分，并基于每个默认框样本的所述位置坐标和概率评分，分别计算各默认框样本的softmax分类损失和包围盒回归损失之和，并筛选出softmax分类损失和包围盒回归损失之和最小的前K个默认框样本，计算所述K个默认框样本多任务损失，并将计算出的所述K个默认框的多任务损失，在所述人数统计模型中反向传播，以对所述人数统计模型的各层网络的权重值进行更新，训练该人数统计模型。

在另一种可选的实现方式中，所述多任务损失通过如下公式计算：

其中，L_onf(x,c)为softmax分类损失，L_loc(x,l,g)为包围盒回归损失，K＝|f_k|*|f_k|*α，|f_k|为所述大尺度特征图的尺寸，α为预配置的权重值。

在另一种可选的实现方式中，所述监控区域包括预设绊线；

所述装置还包括：

第二统计单元460，用于分别计算当前图像帧中的目标框与前一图像帧中的各目标框的相似度；其中，所述相似度由预构建的感知哈希指纹距离和位置坐标距离进行表征；如果当前图像帧中的目标框与前一图像帧中的任一目标框的相似度达到预设的相似度阈值；将所述前一图像帧中的目标框对应的目标框ID赋予当前图像帧中的目标框，并更新跟踪列表中的所述目标框ID的生命值；当所述目标框触发所述预设绊线时，基于该目标框的运动方向与该预设绊线的预设进出方向确定该目标框的进出方向，以进行人流量计数。

在另一种可选的实现方式中，所述感知哈希指纹距离通过如下公式计算：

其中，X_i为当前图像帧中的第i个目标框的感知哈希指纹，Y_j前一图像帧中的第j个目标框的感知哈希指纹，k为感知哈希指纹中的第k位；

所述位置坐标距离通过如下公式计算：

所述相似度通过如下公式计算：

dis＝d_hash+β*d_loc；

其中，β为预配置的权重值。

在另一种可选的实现方式中，所述第二统计单元460，还用于如果所述相似度小于预设的相似度阈值，为所述当前图像帧中的目标框分配目标框ID，并将该目标框ID添加至所述跟踪列表；如果所述当前图像帧中未包含所述跟踪列表中的目标框ID对应的目标框，则减小该目标框ID的生命值，并将目标框ID的生命值等于零的目标框ID从所述跟踪列表中删除。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种人数统计方法，其特征在于，所述方法应用于服务器，所述服务器搭载人数统计模型，所述人数统计模型包括基于卷积神经网络构建的图像特征提取子模型和SSD分类回归子模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将混合训练样本集输入所述图像特征提取子模型进行图像特征提取，并输出提取到的图像特征图样本；其中，所述混合训练样本集包括前端摄像机在多个不同的安装俯视角下拍摄到的若干被标定了人头和头肩所在位置区域的图像帧样本；

基于所述人数统计模型的SSD分类回归子模型对输出的所述图像特征图样本中的每个像素点分别生成对应的默认框样本，并获取各默认框样本在该图像特征图样本中的坐标位置，以及对应于不同物体类别的概率评分；

基于每个默认框样本的所述位置坐标和概率评分，分别计算各默认框样本的softmax分类损失和包围盒回归损失之和；

筛选出softmax分类损失和包围盒回归损失之和最小的前K个默认框样本，计算所述K个默认框样本多任务损失，并将计算出的所述K个默认框的多任务损失，在所述人数统计模型中反向传播，以对所述人数统计模型的各层网络的权重值进行更新，训练该人数统计模型。

3.根据权利要求2所述的方法，其特征在于，所述多任务损失通过如下公式计算：

其中，L_conf(x,c)为softmax分类损失，L_loc(x,l,g)为包围盒回归损失，K＝|f_k|*|f_k|*α，|f_k|为大尺度特征图的尺寸，α为预配置的权重值。

4.根据权利要求1所述的方法，其特征在于，所述监控区域包括预设绊线；所述预设绊线为监控区域中预设的直线；

所述方法还包括：

分别计算当前图像帧中的目标框与前一图像帧中的各目标框的相似度；其中，所述相似度由预构建的感知哈希指纹距离和位置坐标距离进行表征；

如果当前图像帧中的目标框与前一图像帧中的任一目标框的相似度达到预设的相似度阈值；将所述前一图像帧中的目标框对应的目标框ID赋予当前图像帧中的目标框，并更新跟踪列表中的所述目标框ID的生命值；

当所述目标框触发所述预设绊线时，基于该目标框的运动方向与该预设绊线的预设进出方向确定该目标框的进出方向，以进行人流量计数。

5.根据权利要求4所述的方法，其特征在于，所述感知哈希指纹距离通过如下公式计算：

所述位置坐标距离通过如下公式计算：

其中，所述(x_i,y_i)为当前图像帧中的第i个目标框的中心坐标点，所述(x_j,y_j)为前一图像帧中的第j个目标框的中心坐标点，所述W为所述当前图像帧的宽，所述H为所述当前图像帧的高；

所述相似度通过如下公式计算：

dis＝d_hash+β*d_loc；

其中，β为预配置的权重值。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

如果当前图像帧中的目标框与前一图像帧中的任一目标框的相似度小于预设的相似度阈值，为所述当前图像帧中的目标框分配目标框ID，并将该目标框ID添加至所述跟踪列表；

如果所述当前图像帧中未包含所述跟踪列表中的目标框ID对应的目标框，则减小该目标框ID的生命值，并将目标框ID的生命值等于零的目标框ID从所述跟踪列表中删除。

7.一种人数统计装置，其特征在于，所述装置应用于服务器，所述服务器搭载人数统计模型，所述人数统计模型包括基于卷积神经网络构建的图像特征提取子模型和SSD分类回归子模型，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

训练单元，用于将混合训练样本集输入所述图像特征提取子模型进行图像特征提取，并输出提取到的图像特征图样本；其中，所述混合训练样本集包括前端摄像机在多个不同的安装俯视角下拍摄到的若干被标定了人头和头肩所在位置区域的图像帧样本，并基于所述人数统计模型的SSD分类回归子模型对输出的所述图像特征图样本中的每个像素点分别生成对应的默认框样本，并获取各默认框样本在该图像特征图样本中的坐标位置，以及对应于不同物体类别的概率评分，并基于每个默认框样本的所述位置坐标和概率评分，分别计算各默认框样本的softmax分类损失和包围盒回归损失之和，并筛选出softmax分类损失和包围盒回归损失之和最小的前K个默认框样本，计算所述K个默认框样本多任务损失，并将计算出的所述K个默认框的多任务损失，在所述人数统计模型中反向传播，以对所述人数统计模型的各层网络的权重值进行更新，训练该人数统计模型。

9.根据权利要求8所述的装置，其特征在于，所述多任务损失通过如下公式计算：

10.根据权利要求7所述的装置，其特征在于，所述监控区域包括预设绊线；所述预设绊线为监控区域中预设的直线；

所述装置还包括：

第二统计单元，用于分别计算当前图像帧中的目标框与前一图像帧中的各目标框的相似度；其中，所述相似度由预构建的感知哈希指纹距离和位置坐标距离进行表征；如果当前图像帧中的目标框与前一图像帧中的任一目标框的相似度达到预设的相似度阈值；将所述前一图像帧中的目标框对应的目标框ID赋予当前图像帧中的目标框，并更新跟踪列表中的所述目标框ID的生命值；当所述目标框触发所述预设绊线时，基于该目标框的运动方向与该预设绊线的预设进出方向确定该目标框的进出方向，以进行人流量计数。

11.根据权利要求10所述的装置，其特征在于，所述感知哈希指纹距离通过如下公式计算：

所述位置坐标距离通过如下公式计算：

所述相似度通过如下公式计算：

dis＝d_hash+β*d_loc；

其中，β为预配置的权重值。

12.根据权利要求10所述的装置，其特征在于，所述第二统计单元，还用于如果当前图像帧中的目标框与前一图像帧中的任一目标框的相似度小于预设的相似度阈值，为所述当前图像帧中的目标框分配目标框ID，并将该目标框ID添加至所述跟踪列表；如果所述当前图像帧中未包含所述跟踪列表中的目标框ID对应的目标框，则减小该目标框ID的生命值，并将目标框ID的生命值等于零的目标框ID从所述跟踪列表中删除。