CN109726658B

CN109726658B - 人群计数及定位方法、系统、电子终端及存储介质

Info

Publication number: CN109726658B
Application number: CN201811571565.XA
Authority: CN
Inventors: 高盛华; 廉东泽; 李晶
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2022-10-04
Anticipated expiration: 2038-12-21
Also published as: CN109726658A

Abstract

本申请提供人群计数及定位方法、系统、电子终端及存储介质，其中，所述方法包括：获取待分析图像中的各子图像的与深度相关的基准框尺寸数据；基于所述与深度相关的基准框尺寸数据训练目标检测网络和密度图回归网络；将所述密度图回归网络输出的随深度变化的各密度图分配至所述目标检测网络的各网络层，以与网络层的特征相拼接；其中，拼接后的网络用于对所述待分析图像进行人群计数及定位处理。本申请基于RGBD数据并利用目标检测算法进行人群计数，并可以对人头部位置进行定位。本申请的技术方案可利用深度信息快速的标注基准框，还可设计深度相关的基准框，将回归得到的密度图作为注意力图分配到目标检测网络的不同层中以提高计数准确率和定位精度。

Description

人群计数及定位方法、系统、电子终端及存储介质

技术领域

本申请涉及安防监控控制领域，特别是涉及人群计数及定位方法、系统、电子终端及存储介质。

背景技术

人群计数是指对于图片和视频中的人群数量进行估计的一项技术。对人群场景进行快速准确的估计可以提高安防摄像头的使用效率，保障公众安全，节省人力成本。在一些场景，比如演唱会、体育活动等，人群的数量和密度可以对活动策划、交通管制等提供帮助。此外，人群计数可以拓展到其他领域，比如车辆计数、细胞计数、动物种群估计、农作物计数等方面，具有一定的经济价值。

基于人群计数的潜在价值，许多人群计数的方法应运而生。最早的人群计数方法使用了手工设计的特征通过检测的方法在视频中估计行人的数量。但由于人群计数场景中存在着严重的遮挡、视角扰动以及人头部的尺寸差异等问题，导致检测器的性能不佳，从而影响了最终的计数准确度。此外，也有一些基于跟踪的人群计数方法，这类方法通过对被跟踪对象的特征轨迹进行聚类的方式进行计数。在深度学习之前，人群计数中最广泛使用的方法是基于特征直接对人群的数量进行回归。但是这种方法非常依赖于对前景的准确分割。分割的好坏会影响计数的精度。此外还有一些其他的传统方法使用了一些特征的组合，比如HOG、小波分解、贝叶斯分析等特征。

尽管直接回归人数在一定程度上有效，但是他们忽视了人群场景中十分重要的位置信息，没有预测人群的分布。人群区域的密度在很多应用中都有意义，如果一个区域的密度比相邻的区域高很多，这可能意味着发生了异常的情况。

随着深度学习的快速发展，当前主流的对人群进行计数的方法是使用卷积神经网络通过回归密度图的方法进行计数。最早的基于卷积神经网络进行人群计数的方法是基于视角图和密度图的相似性选择与测试图片相似的训练图片来对提前训练好的模型进行精调，但是在实际应用中视角图较难获得，因而缺少了一定的实用价值。多列卷积神经网络通过后融合的方式，用不同感受野大小的单列卷积神经网络的特征来回归密度图，通过感受野的变化来适应人群计数中人头大小的巨大变化，从而提高计数的准确率。之后的一些工作大多是受其启发，对图片中的不同拥挤情况进行处理，从而提高计数的性能。还有一些方法是通过更改网络结构来提高计数的性能。此外，还有将检测得到的结果通过注意力的方式与密度图进行结合和使用互联网搜索的到的人群图片信息来辅助对密度图的回归从而提高计数的准确率的方法。

尽管人群计数任务中通过回归密度图的方法能够具有较好的计数性能，但是通过回归密度图的方法，我们无法得到人头的位置，这限制了此类方法的其他应用，比如异常检测和行人重识别等。但是对于检测的方法来说，由于无法检测小物体，往往会出现欠估计的问题。此外由于数据集的人数众多，人头尺寸较小，数据集的标注代价高昂，难以获得。

因此，现有的人群计数方法，无论是回归密度图还是检测方法都有不足之处。

申请内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供人群计数及定位方法、系统、电子终端及存储介质，用于解决现有技术问题。

为实现上述目的及其他相关目的，本申请的第一方面提供一种人群计数及定位方法，其包括：获取待分析图像中的各头部区域图像的与深度相关的基准框尺寸数据；基于所述与深度相关的基准框尺寸数据训练目标检测网络和密度图回归网络；将所述密度图回归网络输出的随深度变化的各密度图分配至所述目标检测网络的各网络层，以与网络层的特征相拼接；其中，拼接后的网络用于对所述待分析图像进行人群计数及定位处理。

在本申请第一方面的一些实施方式中，所述获取待分析图像中的各头部区域图像的与深度相关的基准框尺寸数据的步骤，具体包括：对所述待分析图像中的多个头部中心进行点标注处理并获得各标注点的深度数据；根据所述深度数据获得对应的头部尺寸数据，以作为初始的基准框尺寸数据；利用所述目标检测算法的位置回归计算得到优化后的所述与深度相关的基准框尺寸数据。

在本申请第一方面的一些实施方式中，所述根据所述深度数据获得对应的头部尺寸数据，所述头部尺寸表示为：

其中，γ由相机内参决定，d_i为深度数据。

在本申请第一方面的一些实施方式中，所述目标检测网络包括RetinaNet检测网络，其表示为：L_D＝L_cls+λL_reg，L_cls为分类损失函数，L_reg为回归损失函数；其中，回归损失函数L_reg为分段函数，被表示为：若|P|≤1，则L_reg(p)＝0.5p²，否则L_reg(p)＝|P|-0.5。

在本申请第一方面的一些实施方式中，所述密度图回归网络包括以VGG网络为主干网络的CSRNet网络。

在本申请第一方面的一些实施方式中，所述密度图基表示为如下密度函数：

其中，x_i表示第i个人头标注点，δ(x-x_i)表示在第i个人头标注点的单位冲激函数，

表示方差为σ(d_i)的高斯核函数。

在本申请第一方面的一些实施方式中，利用分类算法对所述待分析图像中无法采集到深度数据的图像部分；其中，所述分类算法包括最近邻算法。

为实现上述目的及其他相关目的，本申请的第二方面提供一种人群计数及定位系统，其包括：获取模块，用于获取待分析图像中的各头部区域图像的与深度相关的基准框尺寸数据；训练模块，用于基于所述与深度相关的基准框尺寸数据训练目标检测网络和密度图回归网络；拼接模块，用于将随深度变化的各密度图分配至所述目标检测网络的各网络层，以与网络层的特征相拼接；其中，拼接后的网络用于对所述待分析图像进行人群计数和定位处理。

为实现上述目的及其他相关目的，本申请的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述人群计数及定位方法。

为实现上述目的及其他相关目的，本申请的第四方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述人群计数及定位方法。

如上所述，本申请的人群计数及定位方法、系统、电子终端及存储介质，具有以下有益效果：本申请基于RGBD数据并利用目标检测算法进行人群计数，并可以对人头部位置进行定位。本申请的技术方案可利用深度信息快速的标注基准框，并且可以设计深度相关的基准框，将回归得到的密度图作为注意力图分配到目标检测网络的不同层中以提高计数的准确率和定位的精度。

附图说明

图1显示为本申请一实施例中人群计数及定位方法的流程示意图。

图2显示为本申请一实施例中人群计数及定位方法中的网络模型的示意图。

图3显示为本申请一实施例中人群计数及定位系统的结构示意图。

图4显示为本申请一实施例中电子终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

人群计数的技术已被广泛应用于安防监控领域，例如体育活动现场、娱乐现场、大型演讲现场等等，故许多人群计数的方法应运而生。最早的人群计数方法使用了手工设计的特征通过检测的方法在视频中估计行人的数量，后期也有基于跟踪的人群计数方法，或者还有使用如HOG、小波分解、贝叶斯分析等计数方法。但是，现有的人群计数方法存在计数不够准确，定位不够精准，无法获悉人群分布信息等问题。

鉴于上述种种存在于现有技术中的问题，本申请提出基于RGBD信息来实现人群计数和定位，所述RGBD信息即RGB信息外加Depth深度信息。本申请利用深度数据与头部尺寸之间的关联关系，借助深度信息由标注点快速生成标注框，从而解决检测方法中数据标注难以获得的问题。此外，本申请还可根据深度信息来动态设计基准框的大小，从而提高检测方法的计数性能；还可根据深度数据生成随深度数据变化的密度图，从而提高回归密度图方法的技术性能。另外，本申请的技术方案还提出将密度图当做注意力图来辅助检测，从而提升检测的准确度。下文，将结合具体的实施例来说明本申请技术方案的实现方式及工作原理。

如图1所示，展示本申请一实施例中人群计数及定位方法的流程示意图。于本实施例中，所述人群计数方法包括步骤S1、步骤S2和步骤S3。

在步骤S1中，获取待分析图像中的各头部区域图像的与深度相关的基准框尺寸数据。于本实施例中，所述获取待分析图像中的各头部区域图像的与深度相关的基准框尺寸数据的步骤，具体包括：对所述待分析图像中的多个头部中心进行点标注处理并获得各标注点的深度数据；根据所述深度数据获得对应的头部尺寸数据，以作为初始的基准框尺寸数据；利用所述目标检测算法的位置回归计算得到优化后的所述与深度相关的基准框尺寸数据。

具体的，对所述待分析图像上的多个头部中心进行点标注处理，由于人的头部尺寸大致相同，故可根据每个中心标注点的深度数据d_i，可得到该中心标注点处的头部尺寸数据，即

其中，γ由相机内参决定，用于表示头部尺寸数据与深度数据之间的比例。

对于图片中无法采集到深度数据的图像部分，由于密集的场景中人头部尺寸与图像中头部间距成正比，故优选使用分类算法估计无法采集到深度数据的图像部分的头部尺寸。所述分类方法包括最近邻算法(The nearest neighbor algorithm)，最近邻算法也称为KNN算法，其表示如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特征。该方法在确定分类决策上只依据最近邻的一个或几个样本的类别来决定待分样本所属的类别。

需要说明的是，所述分类方法包括但不限于KNN算法，其还可采用贝叶斯算法、决策树算法、支持向量机SVM算法、基于神经网络的分类算法、深度学习分类算法等等进行分类处理，本申请对此不作限定。

在步骤S2中，基于所述与深度相关的基准框尺寸数据训练目标检测网络和密度图回归网络。

具体的，对于头部尺寸较小较难检测的图像部分，使用目标检测算法进行检测。所述目标检测算法包括但不限于基于RetinaNet网络的目标检测算法，还包括R-CNN算法、Fast R-CNN算法、Faster R-CNN算法、FPN算法、YOLO算法、SSD算法等等，即任何能够被本领域普通技术人员获取的能够进行目标检测的算法均可应用于本申请的技术方案中。

优选的，使用基于RetinaNet网络的算法进行检测，使用其中的C1，C2，C3，C4和C5五层特征进行回归。Retinanet网络由一个骨干网络和两个有特定任务的子网络组成，骨干网络负责在整个图像上计算卷积特征，第一个子网络在骨干网络的输出上执行图像分类任务，第二个子网络负责卷积边框回归。

RetinaNet网络的损失函数为交叉熵损失函数，其表示为：L_D＝L_cls+λL_reg，其中，L_cls为分类损失函数，L_reg为回归损失函数。回归损失函数L_reg可采用分段函数表示，其中，若|P|≤1，则L_reg(p)＝0.5p²，否则L_reg(p)＝|P|-0.5。通过本申请中的检测方法，不仅可计数人群数量，还可对人头部的位置进行定位。

所述与深度相关的基准框尺寸数据，主要是指由于深度数据可反映人头部的尺寸大小，故可根据深度数据动态设计基准框尺寸。具体的，基于深度数据获得的人头部尺寸可作为基准框的初始尺寸，在初始尺寸的基础上通过目标检测网络的回归计算得到更加精准的基准框尺寸。需要指出的是，根据深度数据设计的基准框初始尺寸能够减少搜索空间的大小并且利于基准框的初始化过程。

在一实施例中，所述密度图回归网络包括以VGG网络为主干网络的CSRNet网络。具体的，基于深度数据与图像中头部尺寸之间的关联关系，对于不同尺寸的头部图像设置不同的高斯核以生成对应的密度图，这样生成的密度图更具有合理性且能够提高计数的性能。

密度图被表示为：

表示方差为σ(d_i)的高斯核函数。

在步骤S3中，将所述密度图回归网络输出的随深度变化的各密度图分配至所述目标检测网络的各网络层，以与网络层的特征相拼接；其中，拼接后的网络用于对所述待分析图像进行人群计数及定位处理。

回归的密度图可提供人头部在图像中的分布情况，其隐含了图像中各位置是否有人头部的概率。本实施例利用一个回归密度图的网络预测密度图，例如以VGG网络为主干网络的CSRNet网络，再根据深度数据将不同位置的密度图分至RetinaNet网络的不同层。也即，将回归得到的各层密度图分配至RetinaNet网络的每一层，与RetinaNet网络原来的特征进行拼接，即密度图作为注意力图来辅助检测，从而提升计数的准确率和定位的精准度。

为便于本领域技术人员清晰地理解本申请的技术方案，现结合图2展示的网络模型示意图来进行进一步的解释说明。图2中，对于待分析图像中有深度数据的图像部分，由深度数据和点标注的图像得到基准框。对于没有深度数据的图像部分，使用近邻的距离估计大小得到基准框。利用基准框训练目标检测网络和密度图回归网络。

图中上方的网络为RetinaNet检测网络，图中的基准框大小是基于深度数据计算得到的，下方的网络是密度图回归网络。将图中虽深度变化的各密度图分配至RetinaNet检测网络的各网络层，与RetinaNet检测网络的各网络层的特征相拼接，再由检测的分类子网络和回归子网络进行分类和回归标注框大小。

在一具体的实施场景中，由深度数据和最近邻算法计算得到基准框大小之后，可使用基准框进行模型训练。本实施例中，目标检测网络是以ResNet101作为主干网络的RetinaNet网络，密度图回归网络是以VGG为主干网络的CSRNet网络。

首先用0.00001的学习率训练回归密度图的CSRNet网络，训练时图片被随机裁剪为原始大小的

网络收敛后，再训练检测网络RetinaNet，训练的图片为原始大小，学习率为0.0001，

本实施例是基于PyTorch框架执行的，经优选，本实施例的网络权重衰减系数设置为0.00001，并使用Adam优化器进行训练。本实施例的网络和解决方案在2个数据集上都获得了最好的效果，结果如下两表所示。

表一如下：在普通RGB采集数据的基础上，本申请提供的技术方案与MCNN算法、CP-CNN算法、CSRNet算法之间的比较：

方法	平均绝对误差	均方误差
			MCNN	26.4	41.3
CP-CNN	20.1	30.1
			CSRNet	10.6	16
本申请的方法	8.8	15.3

表二如下：在带有深度信息的RGBG采集数据的基础上，本申请提供的技术方案与MCNN算法、CSRNet算法之间的比较：

方法	平均绝对误差	均方误差	平均精度
				MCNN	7.56	10.92	-
CSRNet	5.11	7.34	-
				本申请的方法	4.96	7.22	0.610

由上表可知，本申请的技术方案相比于MCNN算法、CP-CNN算法、CSRNet算法等算法，具有明显更低的平均绝对误差，更低的均方误差，以及更高的平均精度。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

如图3所示，展示本申请一实施例中人群计数及定位系统的示意图。所述系统包括获取模块31、训练模块32、拼接模块33，其中，获取模块31用于获取待分析图像中的各头部区域图像的与深度相关的基准框尺寸数据，训练模块32用于基于所述与深度相关的基准框尺寸数据训练目标检测网络和密度图回归网络，拼接模块33用于将随深度变化的各密度图分配至所述目标检测网络的各网络层，以与网络层的特征相拼接；其中，拼接后的网络用于对所述待分析图像进行人群计数和定位处理。

需要说明的是，本实施例中人群计数及定位系统的实施方式与上文中人群计数及定位方法的实施方式类似，故不再赘述。另外需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，训练模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上训练模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

如图4所示，展示本申请实施例提供的再一种电子终端的结构示意图。本实例提供的电子终端，包括：处理器41、存储器42、收发器43、通信接口44和系统总线45；存储器42和通信接口44通过系统总线45与处理器41和收发器43连接并完成相互间的通信，存储器42用于存储计算机程序，通信接口44和收发器43用于和其他设备进行通信，处理器41用于运行计算机程序，使电子终端执行如上人群计数及定位方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本申请提供人群计数及定位方法、系统、电子终端及存储介质，其基于RGBD数据并利用目标检测算法进行人群计数，并可以对人头部位置进行定位。本申请的技术方案可利用深度信息快速的标注基准框，并且可以设计深度相关的基准框，将回归得到的密度图作为注意力图分配到目标检测网络的不同层中以提高计数的准确率和定位的精度。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种人群计数及定位方法，其特征在于，包括：

获取待分析图像中的各头部区域图像的与深度相关的基准框尺寸数据；

基于所述与深度相关的基准框尺寸数据训练目标检测网络和密度图回归网络；

将所述密度图回归网络输出的随深度变化的各密度图分配至所述目标检测网络的各网络层，以与网络层的特征相拼接；其中，拼接后的网络用于对所述待分析图像进行人群计数及定位处理。

2.根据权利要求1所述的人群计数及定位方法，其特征在于，所述获取待分析图像中的各头部区域图像的与深度相关的基准框尺寸数据的步骤，具体包括：

对所述待分析图像中的多个头部中心进行点标注处理并获得各标注点的深度数据；

根据所述深度数据获得对应的头部尺寸数据，以作为初始的基准框尺寸数据；

利用所述目标检测算法的位置回归计算得到优化后的所述与深度相关的基准框尺寸数据。

3.根据权利要求2所述的人群计数及定位方法，其特征在于，所述根据所述深度数据获得对应的头部尺寸数据，所述头部尺寸表示为：

其中，γ由相机内参决定，d_i为深度数据。

4.根据权利要求1所述的人群计数及定位方法，其特征在于，所述目标检测网络包括RetinaNet检测网络，其表示为：

L_D＝L_cls+λL_reg，L_cls为分类损失函数，L_reg为回归损失函数；

其中，回归损失函数L_reg为分段函数，被表示为：若|P|≤1，则L_reg(p)＝0.5p²，否则L_reg(p)＝|P|-0.5。

5.根据权利要求1所述的人群计数及定位方法，其特征在于，所述密度图回归网络包括以VGG网络为主干网络的CSRNet网络。

6.根据权利要求1所述的人群计数及定位方法，其特征在于，所述密度图基表示为如下密度函数：

表示方差为σ(d_i)的高斯核函数。

7.根据权利要求1所述的人群计数及定位方法，其特征在于，利用分类算法对所述待分析图像中无法采集到深度数据的图像部分；其中，所述分类算法包括最近邻算法。

8.一种人群计数及定位系统，其特征在于，包括：

获取模块，用于获取待分析图像中的各头部区域图像的与深度相关的基准框尺寸数据；

训练模块，用于基于所述与深度相关的基准框尺寸数据训练目标检测网络和密度图回归网络；

拼接模块，用于将随深度变化的各密度图分配至所述目标检测网络的各网络层，以与网络层的特征相拼接；其中，拼接后的网络用于对所述待分析图像进行人群计数和定位处理。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的人群计数及定位方法。

10.一种电子终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至6中任一项所述的人群计数及定位方法。