CN111274973B

CN111274973B - 基于自动划分域的人群计数模型训练方法及应用

Info

Publication number: CN111274973B
Application number: CN202010070745.0A
Authority: CN
Inventors: 陈启军; 张会; 刘成菊
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2022-02-18
Anticipated expiration: 2040-01-21
Also published as: CN111274973A

Abstract

本发明涉及一种基于自动划分域的人群计数模型训练方法及应用，所述训练方法包括以下步骤：1)建立并训练获得初步训练模型；2)以一测试集对所述初步训练模型进行验证，获取测试集中每一图像对应的识别误差；3)将识别误差大于等于一设定阈值的图像划分为目标域，将识别误差小于所述设定阈值的图像划分为源域；4)在源域和目标域之间加入第二损失函数，基于该第二损失函数及两个域各自的原损失函数优化获得最终模型。与现有技术相比，本发明具有适应性强、提高计数准确性等优点。

Description

基于自动划分域的人群计数模型训练方法及应用

技术领域

本发明涉及机器人视觉领域，尤其是涉及一种基于自动划分域的人群计数模型训练方法及应用。

背景技术

人群计数在智能安防，城市规划等方面有些重要意义，进行人群监控能够有效避免踩踏事件的发生，同时根据历史人流量和人群分布调整城市基础设施建设和城市布局。

现有的人群计数算法主要分为以下几种：

1.基于目标检测的方法：包括基于整体的检测和基于部分身体的检测——通过对图像上每个行人或人头进行定位与识别，再根据结果统计人数。优点在于可以做到检测准确的行人或者人头位置，但缺点在于对高密度的人群图像来说,其检测效果差，难处理人群之间严重的遮挡问题。

2.基于回归的方法：即人群数目估计，没有精确定位行人位置，而是对大概的人群数目给出个估计值，MCNN和CSRNet是较有代表性的深度学习人群计数算法，是基于密度图的回归算法。基于回归的方法优点是对高密度人群图像来说比基于目标检测方法的好，但缺点是没有行人精确的定位，且已有的网络模型不能适应变化多端的行人分布。

在采用深度学习解决人群计数问题时，训练数据往往比较单一，得到的模型不能满足较好的适应性；当用数据分布不同的多个数据集(多个域)同时训练时又大大降低了模型的测试精度，因此兼顾精度和数据的适应性是人群计数实际应用中急需解决的问题。另外，常见的网络只是先在某一个数据集上训练，只能在满足同样数据分布的数据集上有较高精度，比如CSRNet在ShanghaiTech PartA上的训练结果在PartB上表现较差。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种适应性强、提高计数准确性的基于自动划分域的域适应算法的人群计数模型训练方法。

本发明的目的可以通过以下技术方案来实现：

一种基于自动划分域的人群计数模型训练方法，包括以下步骤：

1)建立并训练获得初步训练模型；

2)以一测试集对所述初步训练模型进行验证，获取测试集中每一图像对应的识别误差；

3)将识别误差大于等于一设定阈值的图像划分为目标域，将识别误差小于所述设定阈值的图像划分为源域；

4)在源域和目标域之间加入第二损失函数，基于该第二损失函数及两个域各自的原损失函数优化获得最终模型。

进一步地，所述步骤1)中，对用于训练的训练集的图像进行图像标注。

进一步地，所述步骤2)中，记录每一图像的绝对路径或相对路径。

进一步地，用于训练的训练集和测试集包括不同光线变化、不同背景或不同相机高度的图像。

进一步地，所述识别误差包括平均绝对误差、均方误差或均方根误差。

进一步地，所述设定阈值的设定满足源域图像数量远大于目标域图像数量的要求。

进一步地，所述第二损失函数为最大均值差异损失函数。

本发明还提供一种人群计数方法，采用如所述的基于自动划分域的人群计数模型训练方法获得最终模型，基于所述最终模型进行人群计数。

与现有技术相比，本发明具有如下有益效果：

1、本发明自动根据训练过程中平均绝对误差来划分域，适应性更强；同时不需要人为划分，不会引入额外误差也易操作。

2、本发明可以混合多个数据集进行训练，不需要针对某一种特地数据集训练，当应用场景发生光线，相机高度等变换时仍然适用，同时对图像的尺寸、通道数等没有要求。

3、不同于一般网络只是先在某一个数据集上训练，只能在满足同样数据分布的数据集上有较高精度，本发明的网络训练数据丰富多样，满足较复杂的实际情况——包括光线变化、背景差异、相机高度等，训练得到的模型更适应现实情况。

4、本发明采用的域适应能够构建源域与目标域之间的映射关系，能够提高人群计数深度网络适用性，使得当人群密度差异很大或者光线条件变化多端时，只需要训练一个网络模型就可以解决不同域的人群计数问题。

5、本发明对数据集没有要求，可以是在人口密集的场所随意采集的图片，该方法可以适应不同分布情况的数据集，提高了算法的泛化能力。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示，本实施例提供一种基于自动划分域的人群计数模型训练方法，包括以下步骤：

1)建立并训练获得初步训练模型。

该步骤为预训练阶段，在该阶段中按照一般网络的方法，将训练数据输入给网络进行一定数量epoch的预训练，使损失函数趋于稳定状态，得到初步训练模型M1。

在获得训练集后，对采集图像进行提前标注时，每一个人头大小为3*3pixel大小，将每个人头对应的位置设置为1，输入给网络进行一定数量epoch的预训练，使损失函数趋于稳定状态，比如100个epoch，得到初步训练模型M1。

2)以一测试集对所述初步训练模型进行验证，获取测试集中每一图像对应的识别误差和图像对应的位置，按照误差大小进行排序。图像对应的位置为图像的绝对路径或相对路径。

测试集为一组RGB图像，采用的识别误差可以是任意的误差表达方程，如平均绝对误差(Mean Absolute Error)、均方误差(Mean Square Error)、均方根误差(Root MeanSquare Error)等。本实施例采用MAE。

用于训练的训练集和测试集包括不同光线变化、不同背景或不同相机高度的图像。

3)将识别误差大于等于一设定阈值的图像划分为目标域，将识别误差小于所述设定阈值的图像划分为源域。

本实施例中，MAE大于一定阈值的图像集划分成目标域——即参与训练的RGB图像中效果较差的图像，训练得到的图像中人数与图像标注人数相差较多的图像，假如有N1张图像；MAE小于一定阈值——即参与训练的RGB图像中误差较小，训练得到的图像中人数与图像标注人数相差较小的图像划分成源域，假如有N2张图像。

设定阈值的选择同时需要满足域适应中，源域RGB图像数量远大于目标域RGB图像数量的要求，即N2>>N1。

第二损失函数可以是任意的损失函数，本实施例采用大均值差异(Maximum meandiscrepancy)损失函数，简称为MMD损失函数Lmmd，即将源域和目标域映射到希尔伯特空间求其距离，也可以是其他的空间映射方法表示的损失函数。优化过程中，将该损失函数Lmmd与两个域各自的损失函数(Output和Ground truth)——源域图像的输出与标定真实输出之间的损失函数Lsr，目标域图像的输出与标定真实输出之间的损失函数Ltg一起优化。

实施例2

本实施例一种人群计数方法，采用如实施例1所述的基于自动划分域的人群计数模型训练方法获得最终模型，基于所述最终模型得到人口密度图，通过密度图的卷积得到图片中的人数。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种基于自动划分域的人群计数模型训练方法，其特征在于，包括以下步骤：

1）建立并训练获得初步训练模型；

2）以一测试集对所述初步训练模型进行验证，获取测试集中每一图像对应的识别误差；

3）将识别误差大于等于一设定阈值的图像划分为目标域，将识别误差小于所述设定阈值的图像划分为源域；

4）在源域和目标域之间加入第二损失函数，基于该第二损失函数及两个域各自的原损失函数优化获得最终模型。

2.根据权利要求1所述的基于自动划分域的人群计数模型训练方法，其特征在于，所述步骤1）中，对用于训练的训练集的图像进行图像标注。

3.根据权利要求1所述的基于自动划分域的人群计数模型训练方法，其特征在于，所述步骤2）中，记录每一图像的绝对路径或相对路径。

4.根据权利要求1所述的基于自动划分域的人群计数模型训练方法，其特征在于，用于训练的训练集和测试集包括不同光线变化、不同背景或不同相机高度的图像。

5.一种人群计数方法，其特征在于，采用如权利要求1所述的基于自动划分域的人群计数模型训练方法获得最终模型，基于所述最终模型进行人群计数。