CN110610143B

CN110610143B - 多任务联合训练的人群计数网络方法、系统、介质及终端

Info

Publication number: CN110610143B
Application number: CN201910795380.5A
Authority: CN
Inventors: 袁德胜; 游浩泉; 王作辉; 王海涛; 姚磊; 杨进参; 张宏俊; 吴贺丰; 余明静
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2023-05-12
Anticipated expiration: 2039-08-27
Also published as: CN110610143A

Abstract

本发明提供一种多任务联合训练的人群计数网络方法、系统、介质及终端，所述多任务联合训练的人群计数网络方法包括：将预处理后的训练集输入至预先训练的人群发现子网络，进行第一差异计算，并产生注意力特征图；同时，输入至预先训练的特征提取子网络，以获取空间特征图；对所述空间特征图与所述注意力特征图进行特征处理与密度训练，以产生人群密度图；将产生的人群密度图与所述训练集的人群密度图进行第二差异计算；根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度。本发明可在避免人群遮挡问题的同时实现有效地预测人群密度，统计人群数量，能够更准确地处理拥挤场景中多样化的人群分布。

Description

多任务联合训练的人群计数网络方法、系统、介质及终端

技术领域

本发明属于人群识别领域，涉及一种人群处理的训练方法，特别是涉及一种多任务联合训练的人群计数网络方法、系统、介质及终端。

背景技术

近年来，人群计数(Crowd Counting)由于其广泛应用，引起人们的关注。人群计数的目的是计算拥挤场景中的人数。随着世界人口的指数增长和城市化，社会活动数量急剧增加。在上述情况下，应用人群计数方法可以更好地管理、保障公共安全、避免拥塞和进行人流量分析。

但是人群计数与其他计算机视觉问题一样，人群计数分析也面临着许多挑战，如遮挡、场景高度杂乱、人员分布不均匀、光照不均匀等。这些问题使得人群计数的研究成果尚未达到在商业场景下的应用需求。现有的人群计数的方法主要分为以下几种：

基于检测的方法：主要集中在统计人群的数量上。通过一滑动窗口来检测场景中的人群以及利用从行人全身提取的手工特征如：Haar小波特征，HOG特征来对行人进行检测。该方法很难处理人群之间严重的遮挡问题。

基于回归的方法：主要通过学习一种特征到人群数量的映射，主要分为两步，第一步提取低级的特征，如前景特征，边缘特征，纹理和梯度特征；第二步学习一个回归模型，例如线性回归，岭回归和高斯回归等方法。学习一个低级特征到人群数的映射关系。Pham等人就使用随机森林回归来学习一种非线性的映射。该方法虽然在基于检测的方法基础上进行了改进，但是它只考虑了对图片的全局计数，容易受到图片背景噪声的干扰。

基于卷积神经网络(CNN)的方法：利用CNN预测人群密度图，并对人群数量进行计数。Sindagi等人提出了一种名为CP-CNN的多阵列CNN，它利用不同级别的上下文信息来改进生成高质量的密度图。Li等人提出了一种称为CSRNet的模型，该模型使用空洞卷积来扩大感受野，提取更深层次的特征以提高性能。该方法与上述两种方法在效果上有了很大提升，但同样存在一些缺点，如多阵列CNN，计算资源消耗非常大，难以训练，不适合实际场景的应用。而且，多列CNN引入了冗余结构，不同列的CNN效果表现相似，没有明显的区别，反而增加训练开销。

因此，如何提供一种多任务联合训练的人群计数网络方法、系统、介质及终端，以解决现有技术无法对拥挤场景中的更深层次特征进行编码，并生成高质量的密度图等缺陷，成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种多任务联合训练的人群计数网络方法、系统、介质及终端，用于解决现有技术无法对拥挤场景中的更深层次特征进行编码，并生成高质量的密度图的问题。

为实现上述目的及其他相关目的，本发明一方面提供一种多任务联合训练的人群计数网络方法，所述多任务联合训练的人群计数网络方法包括：将预处理后的训练集输入至预先训练的人群发现子网络，以预测所述训练集中的人群图像数据与背景图像数据，获取网络预测类别；将所述网络预测类别与所述训练集的图像真实类别进行第一差异计算，并通过区分后的人群图像数据与背景图像数据产生注意力特征图；所述注意力特征图为用于表示人群图像数据的权重值的权重图；同时，将预处理后的训练集输入至预先训练的特征提取子网络，以获取空间特征图；对所述空间特征图与所述注意力特征图进行特征处理，通过预先训练的人群计数子网络对特征处理后特征图进行密度训练，以产生人群密度图；将产生的人群密度图与所述训练集的人群密度图进行第二差异计算；根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度。

于本发明的一实施例中，在所述将预处理后的训练集输入至预先训练的人群发现子网络的步骤之前，所述多任务联合训练的人群计数网络方法还包括：获取图像数据集，以将所述图像数据集按照预设机制分为训练集和测试集；对所述训练集进行预处理，所述预处理包括：图像增强处理和模糊归一化处理；对所述人群发现子网络、特征提取子网络和人群计数子网络进行初始化。

于本发明的一实施例中，所述对所述人群发现子网络、特征提取子网络和人群计数子网络进行初始化的步骤包括：通过加载预训练模型确定所述人群发现子网络的预训练权重值；利用正态分布初始化所述人群发现子网络、特征提取子网络和人群计数子网络。

于本发明的一实施例中，在所述根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度的步骤之后，所述多任务联合训练的人群计数网络方法还包括：通过所述训练集的损失度对所述人群发现子网络、特征提取子网络和人群计数子网络进行回传梯度，以更新网络参数；将更新网络参数后的训练模型与所述测试集进行误差评估，确定最优模型；所述训练模型包括人群发现子网络、特征提取子网络和人群计数子网络；所述最优模型为误差最小的训练模型。

于本发明的一实施例中，所述将所述网络预测类别与所述训练集的图像真实类别进行第一差异计算，并通过区分后的人群图像数据与背景图像数据产生注意力特征图的步骤包括：在所述人群发现子网络中通过卷积计算得到基于人群图像数据与背景图像数据的分类特征图，并通过概率计算得到分类置信度；通过所述分类置信度与所述训练集的图像真实类别之间进行第一差异计算，所述第一差异计算包括交叉熵损失计算；根据所述分类特征图和分类置信度进行权重计算，以确定人群发现子网络的注意力特征图。

于本发明的一实施例中，所述对所述空间特征图与所述注意力特征图进行特征处理的步骤包括：对所述空间特征图与所述注意力特征图进行像素级相乘。

于本发明的一实施例中，所述根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度的步骤包括：将所述第一差异计算的计算结果与预设差异权重系数相乘之后，将相乘结果和所述第二差异计算的计算结果进行相加计算；所述第二损失计算的结果包括均方误差函数计算的欧氏距离。

本发明另一方面提供一种多任务联合训练的人群计数网络系统，所述多任务联合训练的人群计数网络系统包括：类别预测模块，用于将预处理后的训练集输入至预先训练的人群发现子网络，以预测所述训练集中的人群图像数据与背景图像数据，获取网络预测类别；第一差异计算模块，用于将所述网络预测类别与所述训练集的图像真实类别进行第一差异计算，并通过区分后的人群图像数据与背景图像数据产生注意力特征图；所述注意力特征图为用于表示人群图像数据的权重值的权重图；同时，空间特征模块，用于将预处理后的训练集输入至预先训练的特征提取子网络，以获取空间特征图；密度训练模块，用于对所述空间特征图与所述注意力特征图进行特征处理，通过预先训练的人群计数子网络对特征处理后特征图进行密度训练，以产生人群密度图；第二差异计算模块，用于将产生的人群密度图与所述训练集的人群密度图进行第二差异计算；损失计算模块，用于根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度。

本发明又一方面提供一种介质，其上存储有计算机程序，该程序被处理器执行时实现所述多任务联合训练的人群计数网络方法。

本发明最后一方面提供一种终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述多任务联合训练的人群计数网络方法。

如上所述，本发明所述的多任务联合训练的人群计数网络方法、系统、介质及终端，具有以下有益效果：

通过设计新的网络架构，采用端到端的多任务学习网络，实现对拥挤场景下的人群计数，可以对人群流量进行分析，避免拥挤产生，保障安全，有潜在的商业价值。

本发明通过结合注意力机制，用于指导网络特征图中的重要程度，可以处理拥挤场景中多样化的人群分布，让网络能够抑制消极响应，增强积极响应，促使网络多注意人群聚集的地区，提高抵抗各种噪声的能力。使提取的特征具有较细的粒度，大大提高算法的精确度与鲁棒性，适应各种场景下的人群分布。采用了可以产生密度图人群计数子网络，该网络为多尺度网络，输入图片可以任意大小，避免图片失真，并且可以应对各种遮挡，可适应各种情况下的的拥挤人群图片以及由于视角变化造成的图片扭曲。

综上，本发明能够有效地预测人群密度，统计人群数量，网络速度较快；能适应不同角度、失真与否、遮挡与否的人群图像；通过一个网络来预测人群分类置信度，进行像素级(pixel-wise)特征相乘，利用另一个网络来预测人群密度图，将两个网络有机的融合。

附图说明

图1显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的训练网络架构图。

图2显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的原理流程图。

图3显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的初始步骤流程图。

图4显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的训练步骤流程图。

图5显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的优化步骤流程图。

图6显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的回传梯度原理示意图。

图7显示为本发明的多任务联合训练的人群计数网络系统于一实施例中的结构原理图。

元件标号说明

7 多任务联合训练的人群计数网络系统

71 初始模块

72 类别预测模块

73 第一差异计算模块

74 空间特征模块

75 密度训练模块

76 第二差异计算模块

77 损失计算模块

78 优化模块

S11～S13 多任务联合训练的人群计数网络方法步骤

S111～S113 网络训练初始步骤

S121～S126 网络训练步骤

S131～S132 网络优化步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明所述多任务联合训练的人群计数网络方法、系统、介质及终端的技术原理如下：所述多任务联合训练的人群计数网络方法包括：将预处理后的训练集输入至预先训练的人群发现子网络，以预测所述训练集中的人群图像数据与背景图像数据，获取网络预测类别；将所述网络预测类别与所述训练集的图像真实类别进行第一差异计算，并通过区分后的人群图像数据与背景图像数据产生注意力特征图；所述注意力特征图为用于表示人群图像数据的权重值的权重图；同时，将预处理后的训练集输入至预先训练的特征提取子网络，以获取空间特征图；对所述空间特征图与所述注意力特征图进行特征处理，通过预先训练的人群计数子网络对特征处理后特征图进行密度训练，以产生人群密度图；将产生的人群密度图与所述训练集的人群密度图进行第二差异计算；根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度。

实施例一

本实施例提供一种多任务联合训练的人群计数网络方法，所述多任务联合训练的人群计数网络方法包括：

将预处理后的训练集输入至预先训练的人群发现子网络，以预测所述训练集中的人群图像数据与背景图像数据，获取网络预测类别；

将所述网络预测类别与所述训练集的图像真实类别进行第一差异计算，并通过区分后的人群图像数据与背景图像数据产生注意力特征图；所述注意力特征图为用于表示人群图像数据的权重值的权重图；同时，

将预处理后的训练集输入至预先训练的特征提取子网络，以获取空间特征图；

对所述空间特征图与所述注意力特征图进行特征处理，通过预先训练的人群计数子网络对特征处理后特征图进行密度训练，以产生人群密度图；

将产生的人群密度图与所述训练集的人群密度图进行第二差异计算；

根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度。

以下将结合图1至图6对本实施例所提供的多任务联合训练的人群计数网络方法进行详细描述。

请参阅图1，显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的训练网络架构图。如图1所示，于本实施例的一实际应用中，所述训练模型包括：人群发现子网络、特征提取子网络和人群计数子网络。所述训练模型为一个端到端的多任务学习的网络结构。

在本实施例中，所述人群发现子网络是一个全卷积二分类网络，可将输入图像分类成人群图像或者背景图像，即用于区分背景图片和人群图片，发现人群区域。所述人群发现子网络通过损失函数Loss₁进行第一差异计算，Loss₁为网络预测类别与输入图像真实类别的差异，具体地，本实施例中可采用交叉熵损失(cross entropy loss)进行第一差异计算。如图1所示，所述人群发现子网络可以产生注意力特征图，注意力特征图作为一种权重图，其中人群区域具有较高的权重值。

具体地，将人群发现子网络的具体结构表以表格形式编辑，参见表1人群发现子网络的具体结构表。

表1：人群发现子网络的具体结构表

在本实施例中，所述特征提取子网络用于提取图片在低层的空间特征，所述低层的空间特征包括前景特征、角点特征、边缘特征、纹理特征和梯度特征。

具体地，端到端计数网络结构包括特征提取模块结构与人群计数模块结构，其中，将特征提取子网络的模块结构以表格形式编辑，参见表2的特征提取模块结构表。

表2：特征提取模块结构表

Conv-3-64-1
	Conv-3-64-1
Conv-3-64-1
	Max_Pooling
Conv-3-128-1
	Conv-3-128-1
Conv-3-128-1
	Max_Pooling
Conv-3-256-1
	Conv-3-256-1
Conv-3-256-1
	Max_Pooling
Conv-3-512-1
	Conv-3-512-1
Conv-3-512-1

在本实施例中，所述人群计数子网络是一个用于产生人群密度图实现人群计数的多尺度网络，由此，输入图片可以任意大小，避免图片失真，并且可以应对各种遮挡，可适应各种情况下的的拥挤人群图片以及由于视角变化造成的图片扭曲。我们同时使用人群图像，以及无人街景图来训练上述的端到端多任务学习网络。

具体地，将端到端计数网络结构的人群计数子网络的模块结构以表格形式编辑，参见表3的人群计数模块结构表。

表3：人群计数模块结构表

具体地，请参阅表1、表2和表3，在描述表1、表2和表3的网络结构时，将所有的卷积层表示为Conv-卷积核大小-通道数量-膨胀率，所有卷积层使用填充方法来保持网络输入输出的大小一致。请参阅表2，Max_Pooling代表使用窗口大小为2×2的池化操作。

需要说明的是，端到端计数网络结构中的卷积层可替换为可变性卷积，该方案可使网络鲁棒性更强。更进一步地，端到端计数网络中的膨胀卷积可替换为普通卷积，该方案可使训练时间减少。

请参阅图2，显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的原理流程图。如图2所示，所述多任务联合训练的人群计数网络方法具体包括以下几个步骤：

S11，图像数据集的预处理与学习网络的初始化。

请参阅图3，显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的初始步骤流程图。如图3所示，所述S11包括：

S111，获取图像数据集，以将所述图像数据集按照预设机制分为训练集和测试集。

具体地，通过收集人群图像以及背景图像构建数据集；所述数据集中包括比例不等的人群图像和背景图像。将数据集按照一定比例划分为训练集，测试集，例如，随机抽取数据集的90％作为训练集，剩余10％作为测试集。

S112，对所述训练集进行预处理，所述预处理包括：图像增强处理和模糊归一化处理。

具体地，所述S112包括：

首先，对训练集的数据进行图像增强或数据扩充，将所述训练集中的原始图像分为9个小块，每个小块的大小是原图的1/4，前4个小块是原图的1/4区域不重叠的部分，后面5个小块是随机截取出来的图像，再将这9个小块做翻转变换，使得数据集数量翻倍。

其次，对数据增强后的图像进行Gaussian核模糊归一化处理，得到真实的人群密度图，其中，只含有无人街景图的背景图片将人群计数设置为0，不参与所述人群计数子网络的计算。

于本实施例的一实际应用中，在所述S112之后，S113之前，按1:3的比例从预处理后的训练集中抽取无人街景图和人群图做为网络的训练数据，并且对所述第一差异计算和第二差异计算的函数进行定义。

其中，所述人群发现子网络的第一差异计算的函数为：Loss₁，所述Loss₁为网络预测类别与输入图像真实类别的差异，具体表达式为：

Loss₁＝-{y_a log(P_a)+y_b log(P_b)}

其中，y_a,y_b表示真实分类，P_a,P_b表示预测分类，a表示由图片中分类出的人群特征的标识号，b表示由图片中分类出的背景特征的标识号。

所述人群计数子网络的第二差异计算的函数为Loss₂：所述Loss₂为网络生成密度图和真实密度图的差异，在本实施例中采用均方误差(MSE)，具体表达式为：

其中，N表示训练数据的图片数量，i表示0-N中的任意选值，G_i表示预测的密度图，F_i表示人群真实密度图。

S113，对所述人群发现子网络、特征提取子网络和人群计数子网络进行初始化。

在本实施例中，首先，通过加载预训练模型确定所述人群发现子网络的预训练权重值。

具体地，请参阅表1，通过加载预训练好的VGG-16模型用于人群发现子网络的参数初始化，载入VGG-16网络后，初始权值为VGG-16在ImageNet上的预训练权重。需要说明的是，可以将VGG-16结构替换成其他网络结构，比如MobileNet,Res-Net等。

其次，利用正态分布初始化所述人群发现子网络、特征提取子网络和人群计数子网络。

于本实施例的一实际应用中，对于网络结构里的全连接层和卷积层，采用正态分布，均方差为0.01进行初始化，偏差采用0进行初始化。

S12，网络的学习与损失计算。

在本实施例中，将所述训练集输入至训练模型进行图像的分类与密度训练，结合密度训练的结果与所述训练集输入的图像数据进行差异比较。

请参阅图4，显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的训练步骤流程图。如图4所示，所述S12包括：

S121，将预处理后的训练集输入至预先训练的人群发现子网络，以预测所述训练集中的人群图像数据与背景图像数据，获取网络预测类别。

具体地，从预处理后的数据集中按1:3比例抽取无人街景图和人群图像，输入到人群发现子网络和特征提取子网络进行训练。需要说明的是，在训练过程中可只采用人群图像，而不需要无人街景图，该方案可使训练时间减少。

S122，将所述网络预测类别与所述训练集的图像真实类别进行第一差异计算，并通过区分后的人群图像数据与背景图像数据产生注意力特征图；所述注意力特征图为用于表示人群图像数据的权重值的权重图。

在本实施例中，在所述人群发现子网络中通过卷积计算得到基于人群图像数据与背景图像数据的分类特征图，并通过概率计算得到分类置信度。

进一步地，通过所述分类置信度与所述训练集的图像真实类别之间进行第一差异计算Loss₁，所述第一差异计算包括交叉熵损失计算，即可采用交叉熵函数(CrossEntropy)来训练人群发现子网络的分类器。

更进一步地，根据所述分类特征图和分类置信度进行权重计算，以确定人群发现子网络的注意力特征图。所述人群发现子网络通过注意力机制产生注意力特征图(Attention Map)，用于指导网络特征图中的重要程度，可以处理拥挤场景中多样化的人群分布。所述人群发现子网络最后一层卷积层有两个输出通道，为F_a,F_b，分别指图像中分类识别出的人群特征图和背景特征图。F_a,F_b在经过全局平均池化(Global Average Pooling)之后的值为W_a,W_b。将W_a,W_b进行softmax操作，可得到两类的预测概率值P_a,P_b。，由此，人群发现子网络产生的注意力特征图可表示为(F_a·P_a+F_b·P_b)，将所述注意力特征图归一化在[0，1]区间。

S123，将预处理后的训练集输入至预先训练的特征提取子网络，以获取空间特征图。

具体地，在所述特征提取子网络中识别所输入训练集图像的前景特征、角点特征、边缘特征、纹理特征和梯度特征，以此获取空间特征图。

S124，对所述空间特征图与所述注意力特征图进行特征处理，通过预先训练的人群计数子网络对特征处理后特征图进行密度训练，以产生人群密度图。

在本实施例中，所述特征处理包括像素级特征相乘，该相乘的结果可突出人群密集的区域，且指示出地区的拥挤程度。

需要说明的是，人群发现网络产生的注意力特征图可直接与所述训练集的原图相乘，可以小幅度的提升网络的准确率。更进一步地，本实施例的另一实际应用中，也可不训练人群发现子网络且不采用特征图，直接训练人群计数子网络来进行密度图的预测，该方案可减少网络开销，加快训练速度，并且网络准确率没有下降特别多。或在本实施例的又一实际应用中，可以预先训练好一个人群发现网络，使用已训练好的特征提取子网络模型来产生特征图，再训练端到端计数网络(人群计数子网络)。

S125，将产生的人群密度图与所述训练集的人群密度图进行第二差异计算。

具体地，通过函数Loss₂进行第二差异计算，采用均方误差函数(MSE)来度量网络产生的密度图，与实际密度图之间的欧氏距离，将欧氏距离作为计算结果来测量人群计数网络生成的密度图和真实密度图之间的差异。

S126，根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度。

在本实施例中，将所述第一差异计算的计算结果与预设差异权重系数相乘之后，将相乘结果和所述第二差异计算的计算结果进行相加计算；所述第二损失计算的结果包括均方误差函数计算的欧氏距离。所述训练集的损失度表达式如下：

L＝λLoss₁+Loss₂

其中，λ为经验性的选值，本实施例中选为0.5，需要说明的是，其他经验性选值也在本实施例范围内。

S13，网络参数优化与最优评估。

在本实施例中，所述训练模型通过训练集中批量的图像数据输入进行识别训练，且通过回传梯度对所述训练模型进行迭代优化，通过比较每一次优化后的训练模型，从中选出损失度最小的训练模型作为最优模型。

请参阅图5，显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的优化步骤流程图。如图5所示，所述S13包括：

S131，通过所述训练集的损失度对所述人群发现子网络、特征提取子网络和人群计数子网络进行回传梯度，以更新网络参数。

具体地，请参阅图6，显示为本发明的多任务联合训练的人群计数网络方法于一实施例中的回传梯度原理示意图。如图6所示，所述训练集中的图像数据输入训练模型后得到识别图像，识别图像与训练集中的原输入图像相比计算出训练误差L，在本实施例中，训练集的损失度为该训练误差。所述训练模型在每计算一次都会产生一个训练误差，记录相应的训练模型网络中每层的梯度和网络图，可以实现梯度的反向回传，最后得到的训练误差可以逐步递归的求其每层的梯度，并实现权重值等调整参数的更新。

需要说明的是，本实施例中通过重复训练网络的步骤进行回传梯度，以实现迭代优化，因为每次更新参数后的训练模型得到的损失各不相同，整理所有损失值的趋势变化，直到损失不再明显下降，训练结束。所述损失不再明显下降是指数值变化趋于平稳，或连续多次计算得到的损失值其差值在预设范围内，以此作为训练结束的标志，所述预设范围根据训练要求及精度进行设置。

S132，将更新网络参数后的训练模型与所述测试集进行误差评估，确定最优模型；所述训练模型包括人群发现子网络、特征提取子网络和人群计数子网络；所述最优模型为误差最小的训练模型。

具体地，在测试集上评估训练模型，评估方法采用平均绝对误差(MAE)以及均方误差(MSE)。若该次训练MAE以及MSE有所下降，则保存网络权重，进行更新；若该次训练MAE以及MSE均没有下降，则不保存网络权重。因此，所述最优模型为测试集上的MSE以及MAE值最小的训练模型。

本实施例提供一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述多任务联合训练的人群计数网络方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的计算机可读存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。

本实施例所述多任务联合训练的人群计数网络方法针对实际场景中的人群密集多样性，提出了一种结合注意力机制的多任务学习网络，能够有效地解决背景噪声，遮挡，人群密度分布不均的问题。网络中的注意机制可减轻输入中的各种噪声，并捕获细粒度信息，使网络能够加强有效区域的响应和抑制无效区域的响应。多任务学习网络可适应不同的拥挤环境，能够模拟复杂的几何变换和多样化的人群分布。能够适应由于成像设备部署的位置与质量的好坏和不同的人群分布所造成的样本的失真，从而能产生更准确的拥挤环境下的人群密度图。

实施例二

本实施例提供一种多任务联合训练的人群计数网络系统，所述多任务联合训练的人群计数网络系统包括：

类别预测模块，用于将预处理后的训练集输入至预先训练的人群发现子网络，以预测所述训练集中的人群图像数据与背景图像数据，获取网络预测类别；

第一差异计算模块，用于将所述网络预测类别与所述训练集的图像真实类别进行第一差异计算，并通过区分后的人群图像数据与背景图像数据产生注意力特征图；所述注意力特征图为用于表示人群图像数据的权重值的权重图；同时，

空间特征模块，用于将预处理后的训练集输入至预先训练的特征提取子网络，以获取空间特征图；

密度训练模块，用于对所述空间特征图与所述注意力特征图进行特征处理，通过预先训练的人群计数子网络对特征处理后特征图进行密度训练，以产生人群密度图；

第二差异计算模块，用于将产生的人群密度图与所述训练集的人群密度图进行第二差异计算；

损失计算模块，用于根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度。

以下将结合图示对本实施例所提供的多任务联合训练的人群计数网络系统进行详细描述。需要说明的是，应理解以下系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现，也可以全部以硬件的形式实现，还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如：x模块可以为单独设立的处理元件，也可以集成在下述系统的某一个芯片中实现。此外，x模块也可以以程序代码的形式存储于下述系统的存储器中，由下述系统的某一个处理元件调用并执行以下x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以下各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

以下这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，一个或多个数字信号处理器(Digital Singnal Processor，简称DSP)，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。当以下某个模块通过处理元件调用程序代码的形式实现时，该处理元件可以是通用处理器，如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起，以片上系统(System-on-a-chip，简称SOC)的形式实现。

请参阅图7，显示为本发明的多任务联合训练的人群计数网络系统于一实施例中的结构原理图。如图7所示，所述多任务联合训练的人群计数网络系统7包括：初始模块71、类别预测模块72、第一差异计算模块73、空间特征模块74、密度训练模块75、第二差异计算模块76、损失计算模块77和优化模块78。

所述初始模块71用于获取图像数据集，以将所述图像数据集按照预设机制分为训练集和测试集；对所述训练集进行预处理，所述预处理包括：图像增强处理和模糊归一化处理；对所述人群发现子网络、特征提取子网络和人群计数子网络进行初始化。

在本实施例中，所述初始模块71具体通过加载预训练模型确定所述人群发现子网络的预训练权重值；利用正态分布初始化所述人群发现子网络、特征提取子网络和人群计数子网络。

所述类别预测模块72用于将预处理后的训练集输入至预先训练的人群发现子网络，以预测所述训练集中的人群图像数据与背景图像数据，获取网络预测类别。

所述第一差异计算模块73用于将所述网络预测类别与所述训练集的图像真实类别进行第一差异计算，并通过区分后的人群图像数据与背景图像数据产生注意力特征图；所述注意力特征图为用于表示人群图像数据的权重值的权重图。

在本实施例中，所述第一差异计算模块73具体用于在所述人群发现子网络中通过卷积计算得到基于人群图像数据与背景图像数据的分类特征图，并通过概率计算得到分类置信度；通过所述分类置信度与所述训练集的图像真实类别之间进行第一差异计算，所述第一差异计算包括交叉熵损失计算；根据所述分类特征图和分类置信度进行权重计算，以确定人群发现子网络的注意力特征图。

所述空间特征模块74用于将预处理后的训练集输入至预先训练的特征提取子网络，以获取空间特征图。

所述密度训练模块75用于对所述空间特征图与所述注意力特征图进行特征处理，通过预先训练的人群计数子网络对特征处理后特征图进行密度训练，以产生人群密度图。

于本实施例的一实际应用中，所述空间特征图与所述注意力特征图进行特征处理包括像素级相乘。

所述第二差异计算模块76用于将产生的人群密度图与所述训练集的人群密度图进行第二差异计算。

所述损失计算模块77用于根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度。

具体地，所述损失计算模块77将所述第一差异计算的计算结果与预设差异权重系数相乘之后，将相乘结果和所述第二差异计算的计算结果进行相加计算；所述第二损失计算的结果包括均方误差函数计算的欧氏距离。

所述优化模块78用于通过所述训练集的损失度对所述人群发现子网络、特征提取子网络和人群计数子网络进行回传梯度，以更新网络参数；将更新网络参数后的训练模型与所述测试集进行误差评估，确定最优模型；所述训练模型包括人群发现子网络、特征提取子网络和人群计数子网络；所述最优模型为误差最小的训练模型。

本实施例所述多任务联合训练的人群计数网络系统提供了一种结合注意力机制的多任务学习网络，能够有效地解决背景噪声，遮挡，人群密度分布不均的问题。

实施例三

本实施例提供一种终端，包括：处理器、存储器、收发器、通信接口或/和系统总线；存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于和其他设备进行通信，处理器和收发器用于运行计算机程序，使所述终端执行如实施例一所述多任务联合训练的人群计数网络方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(扫描应用程序licationSpecific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明所述的多任务联合训练的人群计数网络方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本发明还提供一种多任务联合训练的人群计数网络系统，所述多任务联合训练的人群计数网络系统可以实现本发明所述的多任务联合训练的人群计数网络方法，但本发明所述的多任务联合训练的人群计数网络方法的实现装置包括但不限于本实施例列举的多任务联合训练的人群计数网络系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

综上所述，本发明所述多任务联合训练的人群计数网络方法、系统、介质及终端能够有效地预测人群密度，统计人群数量，网络速度较快；能适应不同角度、失真与否、遮挡与否的人群图像；通过一个网络来预测人群分类置信度，进行像素级(pixel-wise)特征相乘，利用另一个网络来预测人群密度图，将两个网络有机的融合，可以应用于商场客流分析系统，景点客流疏散系统，输入一张人流图像，返回该场景下人群数量，可以统计一天内商场客流的变化，可以分析景点各处客流情况，对人群进行指引，避免拥堵。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种多任务联合训练的人群计数网络方法，其特征在于，所述多任务联合训练的人群计数网络方法包括：

将所述网络预测类别与所述训练集的图像真实类别进行第一差异计算，并通过区分后的人群图像数据与背景图像数据产生注意力特征图；在所述人群发现子网络中通过卷积计算得到基于人群图像数据与背景图像数据的分类特征图，并通过概率计算得到分类置信度；通过所述分类置信度与所述训练集的图像真实类别之间进行第一差异计算，所述第一差异计算包括交叉熵损失计算；根据所述分类特征图和分类置信度进行权重计算，以确定人群发现子网络的注意力特征图；所述注意力特征图为用于表示人群图像数据的权重值的权重图；同时，

2.根据权利要求1所述的多任务联合训练的人群计数网络方法，其特征在于，在所述将预处理后的训练集输入至预先训练的人群发现子网络的步骤之前，所述多任务联合训练的人群计数网络方法还包括：

获取图像数据集，以将所述图像数据集按照预设机制分为训练集和测试集；

对所述训练集进行预处理，所述预处理包括：图像增强处理和模糊归一化处理；

对所述人群发现子网络、特征提取子网络和人群计数子网络进行初始化。

3.根据权利要求2所述的多任务联合训练的人群计数网络方法，其特征在于，所述对所述人群发现子网络、特征提取子网络和人群计数子网络进行初始化的步骤包括：

通过加载预训练模型确定所述人群发现子网络的预训练权重值；

利用正态分布初始化所述人群发现子网络、特征提取子网络和人群计数子网络。

4.根据权利要求2所述的多任务联合训练的人群计数网络方法，其特征在于，在所述根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度的步骤之后，所述多任务联合训练的人群计数网络方法还包括：

通过所述训练集的损失度对所述人群发现子网络、特征提取子网络和人群计数子网络进行回传梯度，以更新网络参数；

将更新网络参数后的训练模型与所述测试集进行误差评估，确定最优模型；所述训练模型包括人群发现子网络、特征提取子网络和人群计数子网络；所述最优模型为误差最小的训练模型。

5.根据权利要求1所述的多任务联合训练的人群计数网络方法，其特征在于，所述对所述空间特征图与所述注意力特征图进行特征处理的步骤包括：

对所述空间特征图与所述注意力特征图进行像素级相乘。

6.根据权利要求1所述的多任务联合训练的人群计数网络方法，其特征在于，所述根据所述第一差异计算的计算结果和所述第二差异计算的计算结果，获取训练集的损失度的步骤包括：

将所述第一差异计算的计算结果与预设差异权重系数相乘之后，将相乘结果和所述第二差异计算的计算结果进行相加计算；所述第二差异计算的结果包括均方误差函数计算的欧氏距离。

7.一种多任务联合训练的人群计数网络系统，其特征在于，所述多任务联合训练的人群计数网络系统包括：

第一差异计算模块，用于将所述网络预测类别与所述训练集的图像真实类别进行第一差异计算，并通过区分后的人群图像数据与背景图像数据产生注意力特征图；在所述人群发现子网络中通过卷积计算得到基于人群图像数据与背景图像数据的分类特征图，并通过概率计算得到分类置信度；通过所述分类置信度与所述训练集的图像真实类别之间进行第一差异计算，所述第一差异计算包括交叉熵损失计算；根据所述分类特征图和分类置信度进行权重计算，以确定人群发现子网络的注意力特征图；所述注意力特征图为用于表示人群图像数据的权重值的权重图；同时，

8.一种介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6中任一项所述多任务联合训练的人群计数网络方法。

9.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至6中任一项所述多任务联合训练的人群计数网络方法。