CN113516029A

CN113516029A - 基于部分标注的图像人群计数方法、装置、介质及终端

Info

Publication number: CN113516029A
Application number: CN202110469748.6A
Authority: CN
Inventors: 高盛华; 徐衍玉; 钟子明
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-10-19
Anticipated expiration: 2041-04-28
Also published as: CN113516029B

Abstract

本发明提供一种基于部分标注的图像人群计数方法、装置、介质及终端，采用前端解码器构建特征提取模块；基于第一损失函数构建特征分布一致性模块；基于隐式向量特征字典构建未标注区域特征化模块；基于不同的高斯核参数构建交叉回归一致性正则模块，最终构建出基于卷积神经网络的图像人群计数模型获取人群计数结果。本发明大大降低了新场景的人群计算成本，降低了人群计算对标注信息的依赖性，并且保证了人群计算的精度，最大程度地保留数据集中图片的人头姿态、光照情况、图片视角等信息的同时使用更少的标注量实现精确的人群计算，具有极高的应用价值和广泛的适用性，且对于管控人群异常事件具有重要意义。

Description

基于部分标注的图像人群计数方法、装置、介质及终端

技术领域

本发明涉及人群图像分析技术领域，特别是涉及基于部分标注的图像人群计数方法、装置、介质及终端。

背景技术

现有的人群计数方法存在对数据集人群位置标注依赖性比较大。许多数据集制作需要几千工时来标注。这对新场景的人群计算来说成本太高。现有的许多算法在数据集标注较少的情况下计数精度很低。如今，中国拥有全世界最多的人口以及最丰富的人群计算应用场景，对于通过人群计算来管控人群密度的需求越来越高，而不断出现的新场景人群计算任务意味着巨大的数据标注成本，全监督学习(Fully-Supervised Learning，FSL)需要的巨大标注量给人群计数任务带来了巨大的挑战，而半监督学习(Semi-supervisedlearning，SSL)以及主动学习(Active learning，AL)虽然可以利用部分具有完整标注的图片进行网络训练，但使用部分图片进行网络训练的做法损失了未使用图片的人头姿态、光照情况、图片视角等信息。因此最大程度地保留数据集中图片的人头姿态、光照情况、图片视角等信息的同时使用更少的标注量进行精确的人群计算对于管控人群异常事件具有重要意义。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供基于部分标注的图像人群计数方法、装置、介质及终端，用于解决现有技术中的人群计数标注较少的情况下人群计数精度不足的技术问题。

为实现上述目的及其它相关目的，本发明的第一方面提供一种基于部分标注的图像人群计数方法，包括：采用前端解码器构建特征提取模块，从图像中提取标注区域特征和未标注区域特征并输出第一特征图；基于第一损失函数构建特征分布一致性模块，对所述标注区域特征和未标注区域特征进行特征约束；基于隐式向量特征字典构建未标注区域特征化模块，对所述特征约束后的第一特征图进行更新和取回操作，以获取第二特征图；基于不同的高斯核参数构建交叉回归一致性正则模块，将所述第二特征图输入并预测获取人群密度估计图，且通过第二损失函数对预测结果进行约束以获取人群计数结果。

于本发明的第一方面的一些实施例中，所述图像人群计数方法包括：采用随机梯度下降法优化各个所述模块的参数。

于本发明的第一方面的一些实施例中，所述第一损失函数的构建方式包括：基于所述标注区域特征的均值和协方差，以及所述非标注区域特征的均值和协方差构建所述第一损失函数。

于本发明的第一方面的一些实施例中，所述第二特征图的获取方式包括：基于所述标注区域特征对所述隐式向量特征字典中的特征进行更新；采用所述隐式向量特征字典中的最相近特征对所述第一特征图中的标注区域特征和未标注区域特征进行替代；将替代后的特征与所述第一特征图进行连接以获取所述第二特征图。

于本发明的第一方面的一些实施例中，所述第二损失函数的构建方式包括：基于图像的人群密度估计图和人群实际密度图之间的欧氏距离构建所述第二损失函数。

于本发明的第一方面的一些实施例中，所述图像人群计数方法包括：采用平均绝对误差和均方误差评估所述人群计数结果的准确度。

于本发明的第一方面的一些实施例中，所述图像人群计数方法包括：分阶段训练各个所述模块；其包括：第一阶段使用部分标注的图像人群密度信息作为图像的真实人群密度信息进行训练并获取估计的图像人群密度信息；第二阶段使用所述第一阶段估计的图像人群密度信息作为图像的真实人群密度信息进行训练。

为实现上述目的及其它相关目的，本发明的第二方面提供一种基于部分标注的图像人群计数装置，包括：特征提取模块，用于从图像中提取标注区域特征和未标注区域特征并输出第一特征图；特征分布一致性模块，用于基于第一损失函数对所述标注区域特征和未标注区域特征进行特征约束；未标注区域特征化模块，用于基于隐式向量特征字典对所述特征约束后的第一特征图进行更新和取回操作，以获取第二特征图；交叉回归一致性正则模块，用于基于不同的高斯核参数对所述第二特征图进行预测以获取人群密度估计图，且通过第二损失函数对预测结果进行约束以获取人群计数结果。

为实现上述目的及其它相关目的，本发明的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于部分标注的图像人群计数方法。

为实现上述目的及其它相关目的，本发明的第四方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述基于部分标注的图像人群计数方法。

如上所述，本发明涉及的基于部分标注的图像人群计数方法、装置、介质及终端，具有以下有益效果：基于部分标注学习的方法建立人群计数模型，大大降低了新场景的人群计算成本，降低了人群计算对标注信息的依赖性，并且保证了人群计算的精度，最大程度地保留数据集中图片的人头姿态、光照情况、图片视角等信息的同时使用更少的标注量实现精确的人群计算，具有极高的应用价值和广泛的适用性，且对于管控人群异常事件具有重要意义。

附图说明

图1显示为本发明一实施例中一种基于部分标注的图像人群计数方法流程示意图。

图2显示为本发明一实施例中一种图像人群计数模型的结构示意图。

图3显示为本发明一实施例中一种图像人群计数方法的人群计数密度图。

图4显示为本发明一实施例中一种基于部分标注的图像人群计数装置结构示意图。

图5显示为本发明一实施例中电子终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，还可使用其它实施例，并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本发明。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其它特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

本发明提出一种基于部分标注的图像人群计数方法、装置、介质及终端，通过提供一种依据单张图像的部分标注进行精确的人群计数或者人群密度估计的部分标注学习Partial Annotation Learning(PAL)算法来解决现有技术中的人群计数标注较少的情况下人群计数精度不足的技术问题。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，本实施例提出一种基于部分标注的图像人群计数方法的流程示意图，其包括步骤如下：

步骤S11.采用前端解码器构建特征提取模块，从图像中提取标注区域特征和未标注区域特征并输出第一特征图。具体的，使用VGG-16作为前端解码器从标注区域和未标注区域获取图片特征，使用的VGG-16网络只包含卷积网络部分，其中标注区域的尺寸与图片尺寸的比例为Ratio。将图像输入到特征提取模块获取特征图F₀，输入的图像大小为H×W，特征图F₀的大小为

步骤S12.基于第一损失函数构建特征分布一致性模块(FDC，FeatureDistribution Consistency)，对所述标注区域特征和未标注区域特征进行特征约束。由于标注区域与未标注区域都是全部数据集的采样，因此两个区域拥有一致的特征分布。

在本实施例较佳的实施方式中，使用特征的均值和协方差进行第一损失函数的约束，具体表示如下：

其中，其中

和

分别是标注区域和未标注区域的均值特征向量，F_in和F_out分别是标注区域和未标注区域的全部特征向量；L_mean和L_covar分别表示均值和协方差的一致性损失值。

在一些示例中，均值和协方差一致性损失值L_mean、L_covar的系数在模型训练的过程中从0增加到0.01。

步骤S13.基于隐式向量特征字典构建未标注区域特征化模块(URC，UnannotatedRegions Characterization)，对所述特征约束后的第一特征图进行更新和取回操作，以获取第二特征图。URC模块用于储存学习到的标注区域特征，并不储存未标注区域特征。

在本实施例较佳的实施方式中，URC模块定义了一个记忆体E作为隐式向量特征字典，使用记忆体E编码和储存整个数据集标注区域的特征，记忆体E可表示如下：

E：＝e₁,e₂,…,e_n；

其中e_i是隐式向量特征字典中被储存的特征，n是记忆体E的大小。

关于记忆体E有两个阶段，更新阶段和取回阶段。更新阶段，只使用从标注区域学习的特征，也只依据标注部分的特征进行更新。将特征图F₀作为输入，对于在特征图

中任意一点的特征使用与之在记忆体E中最相近的特征e_i替代。取回阶段，标注部分和未标注部分都需要进行取回操作，取回记忆体中最相近特征e_i进行替代。最后连接取回后的特征与原始特征F₀作为未标注区域特征化模块(URC)的输出，即第二特征图，记为F₁。

在本实施例较佳的实施方式中，采用L₂范数测量两个特征的距离，从而获得最相近的特征进行替代。L₂范数相对于L₁范数具有更为平滑的特性，在模型预测中比L₁范数具有更好的预测特性。

步骤S14.基于不同的高斯核参数构建交叉回归一致性正则模块(CCR，Cross-regressor Consistency Regularization)，将所述第二特征图输入并预测获取人群密度估计图，且通过第二损失函数对预测结果进行约束以获取人群计数结果。

具体的，将第二特征图F₁输入到两个卷积神经网络分支Net1和Net2中，利用不同的高斯核参数sigma预测最后的人群密度图。两个分支都利用VGG-16的前端网络来提取特征，最后将基于不同高斯核参数sigma生成人群密度图。

在本实施例较佳的实施方式中，由于两个基于不同高斯核参数sigma的人群密度图都是同一张图片的人群预测，人群密度图的和即输入图片的总人数相同，因此约束两个人群密度图的和相同来优化网络，故可得第二损失函数表示如下：

其中，

和

分别是第i个图片优化网络参数θ₁和网络参数θ₂下Net1和Net2输出的人群密度图。

在一些实施方式中，所述方法可应用于控制器，所述电控单元例如为ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Microcontroller Unit)控制器等等。在一些实施方式中，所述方法也可应用于包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其它输出或控制设备，以及外部端口等组件的计算机；所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant，简称PDA)等个人电脑。在另一些实施方式中，所述方法还可应用于服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成。

实施例二

本发明实施例需要解决给定一张人群图像或者视频中的一帧，然后估计该图像各个区域人群的密度以及总人数。

已知输入图像可以表示为m×n的矩阵：x∈R^m×n，则该输入图像x所对应的实际人群密度可以表示为：

式中，N为图像中的人数，

表示图像中每个像素的位置，x_i为第i个人头在图像中的位置，δ为单位冲击函数，*为卷积操作，

为标准差为σ_i的高斯核。

基于特征量化变分自编码器卷积神经网络的弱监督人群计数算法的目标是学习一个由输入图像x到该图像中的人群密度(如图2Ours列所示)的映射函数F：

F:x→F(x)≈M(x)；

式中，F(x)为估计人群密度图。为了学习F，需要解决如下问题：

式中，F(x；Θ)为估计人群密度图，Θ为待学习参数。一般来说，F是一个复杂非线性的映射。

如图2所示，本发明实施例提出一种基于部分标注的图像人群计数模型来学习非线性函数F，其包括：特征分布一致性模块(FDC，Feature Distribution Consistency)、未标注区域特征化模块(URC，Unannotated Regions Characterization)和交叉回归一致性正则模块(CCR，Cross-regressor Consistency Regularization)。

Net1和Net2分别表示选用的不同的两个网络。F₀表示特征提取模块的输出。F₁表示未标注区域特征化模块(URC)的输出。Annotated Region和Unannotated Region分别表示图片中有标注信息的区域和没有标注信息的区域。M_θ1和M_θ2分别表示Net1和Net2输出的人群密度图。Concat表示各个特征图按“通道”维度链接起来总的特征图。L_CCR是交叉回归一致性正则模块(CCR)中对Net1和Net2的损失函数。

上述基于部分标注学习的人群计数卷积神经网络的损失函数是估计密度图和实际密度图之间的欧氏距离：

式中，F(X_i；Θ)为第i幅输入图像的人群密度估计图，X_i为第i幅输入图像的图像矩阵，Θ为待学习参数，N为输入图像的总数量，F_i为第i幅输入图像的标准密度图矩阵。首先随机初始化，给定初始值之后，根据实际的标准密度图算出输入图片的损失：L(Θ)。然后采用随机梯度下降法在每一次优化迭代中更新整个网络的参数：L(Θ)，直到损失值收敛到一个较小的值。

该图像人群计数模型为基于特征量化变分自编码器卷积神经网络模型，包括损失函数：原始模型损失函数

和

交叉损失函数L_CCR，均值和协方差一致性损失L_mean、L_covar。在一些示例中，两个原始模型损失

和

的系数是1，交叉损失L_CCR的系数是0.1，均值和协方差一致性损失L_mean、L_covar的系数在模型训练的过程中从0增加到0.01。

在本实施例较佳的实施方式中，该图像人群计数模型分为两个训练阶段：阶段一使用部分标注的图片人群密度信息作为图片的真实人群密度信息，本发明中使用10％标注信息进行举例；阶段二使用阶段一估计的图片人群密度信息作为图片的真实人群密度信息。

在本实施例较佳的实施方式中，为基于部分标注学习的人群计数卷积神经网络的参数设定一个初始值后，根据实际的标准密度图算出输入图片的损失：L(Θ)，然后在每一次优化迭代中更新整个网络的参数Θ，直到损失值收敛到一个较小的值。优选地，采用随机梯度下降法在每一次优化迭代中更新整个网络的参数Θ。

在一些示例中，输入图像x对应的实际人群密度图M(x)表示为：

其中，N为图像中的人数，

表示输入图像x中每个像素的位置，x_i为第i个人头在输入图像x中的位置，δ为单位冲击函数，*为卷积操作，

为标准差为σ_i的高斯核。

如图3所示，本发明实施例给出本发明在不同公共数据集上的人群密度图预测结果，各公共数据集分别ShanghaiTech Part A&B、UCF-QNRF和NWPU-Crowd，图3中Images为输入图片，GT为真实的人群密度图，Ours为本发明预测的人群密度图。由图3可知，本实施例提出的人群计数方法估计的人群密度图与真实的人群密度图相近，本发明有较好的预测精度。

进一步地，本发明实施例通过在不同数据集上与现有技术进行对比来说明本发明方法的技术效果，选取四个公共数据集：ShanghaiTech，UCF_CC_50，UCF-QNRF和NWPU-crowd。如表1所示，本实施例给出公共数据集基本信息如下：

表1.公共数据集基本信息

表1中，Num为图像数量，Max和Min分别表示图像中出现的最大人数和最小人数，Ave表示图像的平均人数，Total是数据集中所有的人数。

优选的，本实施例采用平均绝对误差(MAE)和均方误差(MSE)评估人群计数结果的准确度，分别表示如下：

其中，N为图片数量，z_i为第i幅图像中实际的人头数，

为第i幅图像输出的人头数。

表2、表3、表4和表5分别为ShanghaiTech数据集、UCF_CC_50数据集、UCF-QNRF数据集和NWPU-crowd数据集上，不同方法之间的图像人群计数对比结果：

表2.ShanghaiTech数据集对比结果

表3.UCF_CC_50数据集对比结果

表4.UCF-QNRF数据集对比结果

表5.NWPU-crowd数据集

其中，表2～表5中的Label-10％Regions Ours表示本发明实施例提出的图像人群计数方法，由表表2～表5可知，本发明提出的人群计数方法在图像仅有10％的标注信息的情况下仍然保持了较高的人群计数准确度。

实施例三

如图4所示，本发明实施例提出一种基于部分标注的图像人群计数装置的结构示意图，其包括：特征提取模块41，用于从图像中提取标注区域特征和未标注区域特征并输出第一特征图；特征分布一致性模块42，用于基于第一损失函数对所述标注区域特征和未标注区域特征进行特征约束；未标注区域特征化模块43，用于基于隐式向量特征字典对所述特征约束后的第一特征图进行更新和取回操作，以获取第二特征图；交叉回归一致性正则模块44，用于基于不同的高斯核参数对所述第二特征图进行预测以获取人群密度估计图，且通过第二损失函数对预测结果进行约束以获取人群计数结果。

需要说明的是，本实施例提供的模块与上文中提供的方法、实施方式类似，故不再赘述。另外需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，特征提取模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上特征提取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

实施例四

本发明实施例提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前文所述的基于部分标注的图像人群计数方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

实施例五

如图5所示，本发明实施例提供一种电子终端的结构示意图。本实施例提供的电子终端，包括：处理器51、存储器52、通信器53；存储器52通过系统总线与处理器51和通信器53连接并完成相互间的通信，存储器52用于存储计算机程序，通信器53用于和其它设备进行通信，处理器51用于运行计算机程序，使电子终端执行如上基于部分标注的图像人群计数方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其它设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明提供基于部分标注的图像人群计数方法、装置、介质及终端，基于部分标注学习的方法建立人群计数模型，大大降低了新场景的人群计算成本，降低了人群计算对标注信息的依赖性，并且保证了人群计算的精度，最大程度地保留数据集中图片的人头姿态、光照情况、图片视角等信息的同时使用更少的标注量实现精确的人群计算，具有极高的应用价值和广泛的适用性，且对于管控人群异常事件具有重要意义。所以，本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于部分标注的图像人群计数方法，其特征在于，包括：

采用前端解码器构建特征提取模块，从图像中提取标注区域特征和未标注区域特征并输出第一特征图；

基于第一损失函数构建特征分布一致性模块，对所述标注区域特征和未标注区域特征进行特征约束；

基于隐式向量特征字典构建未标注区域特征化模块，对所述特征约束后的第一特征图进行更新和取回操作，以获取第二特征图；

基于不同的高斯核参数构建交叉回归一致性正则模块，将所述第二特征图输入并预测获取人群密度估计图，且通过第二损失函数对预测结果进行约束以获取人群计数结果。

2.根据权利要求1所述的基于部分标注的图像人群计数方法，其特征在于，包括：采用随机梯度下降法优化各个所述模块的参数。

3.根据权利要求2所述的基于部分标注的图像人群计数方法，其特征在于，所述第一损失函数的构建方式包括：

基于所述标注区域特征的均值和协方差，以及所述非标注区域特征的均值和协方差构建所述第一损失函数。

4.根据权利要求1所述的基于部分标注的图像人群计数方法，其特征在于，所述第二特征图的获取方式包括：

基于所述标注区域特征对所述隐式向量特征字典中的特征进行更新；

采用所述隐式向量特征字典中的最相近特征对所述第一特征图中的标注区域特征和未标注区域特征进行替代；

将替代后的特征与所述第一特征图进行连接以获取所述第二特征图。

5.根据权利要求1所述的基于部分标注的图像人群计数方法，其特征在于，所述第二损失函数的构建方式包括：基于图像的人群密度估计图和人群实际密度图之间的欧氏距离构建所述第二损失函数。

6.根据权利要求1所述的基于部分标注的图像人群计数方法，其特征在于，包括：采用平均绝对误差和均方误差评估所述人群计数结果的准确度。

7.根据权利要求1所述的基于部分标注的图像人群计数方法，其特征在于，包括：分阶段训练各个所述模块；其包括：

第一阶段使用部分标注的图像人群密度信息作为图像的真实人群密度信息进行训练并获取估计的图像人群密度信息；

第二阶段使用所述第一阶段估计的图像人群密度信息作为图像的真实人群密度信息进行训练。

8.一种基于部分标注的图像人群计数装置，其特征在于，包括：

特征提取模块，用于从图像中提取标注区域特征和未标注区域特征并输出第一特征图；

特征分布一致性模块，用于基于第一损失函数对所述标注区域特征和未标注区域特征进行特征约束；

未标注区域特征化模块，用于基于隐式向量特征字典对所述特征约束后的第一特征图进行更新和取回操作，以获取第二特征图；

交叉回归一致性正则模块，用于基于不同的高斯核参数对所述第二特征图进行预测以获取人群密度估计图，且通过第二损失函数对预测结果进行约束以获取人群计数结果。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于部分标注的图像人群计数方法。

10.一种电子终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至7中任一项所述基于部分标注的图像人群计数方法。