CN112906517A

CN112906517A - 一种自监督的幂律分布人群计数方法、装置和电子设备

Info

Publication number: CN112906517A
Application number: CN202110155618.5A
Authority: CN
Inventors: 胡睿晗; 甘林; 符智杰; 杨瑞
Original assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Current assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-04
Anticipated expiration: 2041-02-04
Also published as: CN112906517B

Abstract

本发明实施例涉及通信技术领域，特别涉及一种自监督的幂律分布人群计数方法、装置和电子设备，通过自训练的方式实现人群密度空间信息的建模，通过引入幂律分布描绘人群分布，极大优化了传统人群计数Point‑wise的标签化过程，补足了当前主流视觉计数模型只能利用强监督的形式进行人群计数建模的问题。此外，模型还能充分的应用在迁移学习框架中，在多个视觉背景场景下获得较好的自适应迁移效果。

Description

一种自监督的幂律分布人群计数方法、装置和电子设备

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种自监督的幂律分布人群计数方法、装置和电子设备。

背景技术

近年来，随着智慧交通、医疗器械、智慧景区等领域的兴起，人群计数问题成为了计算机视觉领域的研究热点。既利用相机作为传感器，通过获取群体场景的视觉信息实现群体计数。大量的前人实验中已经证实了，群体计数模型在社会安全和控制管理等领域扮演了重要的角色。

目前，群体计数模型的研究主要分为两类：基于特征提取的计数模型；基于深度学习的计数模型。基于特征的计数模型主要通过设计人工特征提取算子，例如视觉信息中的纹理、梯度、边缘特征，实现视觉计数；当面对高强度密集人群的场景中，基于特征提取的计数模型的计数精度会下降。随着深度学习在计算机视觉领域中的广泛应用，通过卷积网络自适应的学习人群特征，成为了目前人群计数模型的主流方案。利用深度学习实现人群计数目前有两种主流方式，即深度回归计数模型和分类计数模型。深度回归计数模型主要通过密度估计回归的方式，针对人群特征和视觉密度图之间映射关系进行建模，实现场景的计数。此外，基于深度分类计数模型通过将标签离散化的方式将图像样本当作识别问题进行建模。相比于特征提取的计数模型，基于深度学习的人群计数模型由于利用了卷积神经网络的强大特征表达能力，提升了计数的精确性。

当前，以深度学习为代表的人工智能技术已被证明具备非常强的特征学习能力，并在计算机视觉、自然语言处理等应用中获得了显著的效果。在人群计数领域，卷积神经网络的计数模型主要是基于样本-标签的强监督的训练形式，严重依赖样本标签化的过程。而标签化过程只能通过人工，利用逐点打标的方式，标签化效率低，标签化成本高。

发明内容

本发明实施方式的目的在于提供一种自监督的幂律分布人群计数方法、装置和电子设备，解决了现有技术中只能通过人工，利用逐点打标的方式，标签化效率低，标签化成本高的问题。

为解决上述技术问题，第一方面，本发明的实施方式提供了一种自监督的幂律分布人群计数方法，包括：

S1、将视觉场景样本图像切分成若干子图像块，得到训练样本集；

S2、对所述训练样本集中的每个所述子图像块按多个预设旋转角度的一个预设旋转角度进行随机旋转，每个所述预设旋转角度对应一个旋转标签，确定每个所述子图像块的旋转标签；

S3、根据每个旋转标签下的所述子图像块进行构建的双流自监督幂律分布人群计数网络进行训练，得到用于人群场景计数的双流自监督幂律分布人群计数网络；其中，所述双流自监督幂律分布人群计数网络包括人群分布匹配网络和多个旋转方向卷积网络，每个所述预设旋转角度对应一个旋转方向卷积网络。

作为优选的，步骤S1具体包括：

S11、对视觉场景样本图像进行图像增强处理，并进行亮度增强和色彩增强；所述图像增强处理包括翻转；

S12、将步骤S11处理后的所述视觉场景样本图像切分成若干子图像块。

作为优选的，步骤S3中，所述旋转方向卷积网络包括卷积层、池化层和全连结层；每层所述卷积层后都嵌入有Batch_Normalization结构；所述旋转方向卷积网络用于预测旋转标签；

所述人群分布匹配网络包括卷积层和池化层；每层所述卷积层后都嵌入有Batch_Normalization结构。

作为优选的，步骤S3具体包括：

S31、分别构建旋转方向卷积网络和人均分布匹配网络；

S32、构建所述旋转方向卷积网络与所述人群分布匹配网络之间的知识迁移，并搭建损失函数；根据训练样本集中计数样本逐点打标的空间分布，依据固定幂律参数生成的分布样本作为计数标签，并确定人群分匹配网络输出的分布估计计数结果；

S33、根据Sinkhorn距离衡量分布估计计数结果和计数标签的分布距离，并度量最优传输损失；

S34、根据梯度下降方法，训练所述双流自监督幂律分布人群计数网络。

作为优选的，所述旋转方向卷积网络包括9层卷积层、5层池化层和1层全连结层，所述全连结层的输出节点数与所述旋转标签数量一致；

所述人群分布匹配网络包括10层卷积层和3层池化层，且所述人群分布匹配网络通过卷积层输出分布计算结果。

作为优选的，步骤S21具体包括：

S321、将所述旋转方向卷及网络的训练参数迁移至所述人群分布匹配网络中，其中，所述训练参数迁移至所述人群分布匹配网络的卷积层中；

S322、根据训练样本集中计数样本逐点打标的空间分布，依据固定幂律参数生成的分布样本作为计数标签Count^gt；

S323、在人群分布匹配网络中，通过一层二维度的平均池化层输出分布估计计数结果Count^pred；

S324、根据Sinkhorn距离衡量分布估计计数结果和计数标签的分布距离，并度量最优传输损失：

Lsinkhorn＝argmin<Count^pred，Count^gt>-E(Count^pred)/β

上式中，<，>表示矩阵的内积，E()表示熵函数。

第二方面，本发明实施例提供了一种自监督的幂律分布人群计数装置，包括：

采集模块，用于将视觉场景样本图像切分成若干子图像块，得到训练样本集；

预处理模块，用于对所述训练样本集中的每个所述子图像块按多个预设旋转角度的一个预设旋转角度进行随机旋转，每个所述预设旋转角度对应一个旋转标签，确定每个所述子图像块的旋转标签；

训练模块，用于根据每个旋转标签下的所述子图像块进行对先构建的双流自监督幂律分布人群计数网络进行训练，得到用于人群场景计数的双流自监督幂律分布人群计数网络；其中，所述双流自监督幂律分布人群计数网络包括人群分布匹配网络和多个旋转方向卷积网络，每个所述预设旋转角度对应一个旋转方向卷积网络。

第三方面，本发明实施例提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本发明第一方面实施例所述自监督的幂律分布人群计数方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述自监督的幂律分布人群计数方法的步骤。

本发明实施方式相对于现有技术而言，通过自训练的方式实现人群密度空间信息的建模，通过引入幂律分布描绘人群分布，极大优化了传统人群计数Point-wise的标签化过程，补足了当前主流视觉计数模型只能利用强监督的形式进行人群计数建模的问题。此外，模型还能充分的应用在迁移学习框架中，在多个视觉背景场景下获得较好的自适应迁移效果。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施例的一种自监督的幂律分布人群计数方法流程图；

图2是本发明的双流自监督幂律分布网络模型的计算框架；

图3是双流自监督幂律分布网络模型的可视化计数结果图；

图4是不同标签化方式的计数结果对比图；

图5(a)是Shanghaitech Part_A数据集中不同人群计数模型在MAE和MSE尺度上的对比结果图；

图5(b)不同模型在Shanghaitech Part_A数据集中的迁移能力的对比结果图；

图6是根据本发明第三实施例的一种电子设备结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列部件或单元的系统、产品或设备没有限定于已列出的部件或单元，而是可选地还包括没有列出的部件或单元，或可选地还包括对于这些产品或设备固有的其它部件或单元。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

因此，本发明实施例通过自训练的方式实现人群密度空间信息的建模，通过引入幂律分布描绘人群分布，极大优化了传统人群计数Point-wise的标签化过程，补足了当前主流视觉计数模型只能利用强监督的形式进行人群计数建模的问题。此外，模型还能充分的应用在迁移学习框架中，在多个视觉背景场景下获得较好的自适应迁移效果。以下将通过多个实施例进行展开说明和介绍。

本发明第一实施例涉及一种自监督的幂律分布人群计数方法，如图1中所示，包括：

S12、将步骤S11处理后的所述视觉场景样本图像切分成若干子图像块；如将图像样本切分成4×4的子图像块，因此将原有的图像样本数量扩大16倍，达到扩展训练样本的目的；

S2、对所述训练样本集中的每个所述子图像块按多个预设旋转角度中的一个预设旋转角度进行随机旋转，每个所述预设旋转角度对应一个旋转标签，确定每个所述子图像块的旋转标签；

如，对每个子图像块分别进行旋转操作，随机划分为[0°，90°，180°，270°]共4个预设旋转角度，且分别设置为[1，2，3，4]共4个旋转标签；

S31、分别构建旋转方向卷积网络和人均分布匹配网络；

具体地，构建旋转方向卷积网络时，采用了VGG网络作为旋转方向卷积网络的主干结构，旨在提取更高分辨率的视觉特征信息。在本实施例中，旋转方向卷积网络采用了15层网络结构，其中卷积网络有9层卷积层，5层池化层和一层全连接层组成。其中在每层卷积层后嵌入Batch_Normalization结构，缓解网络过拟合。网络最后使用全连接层，计算类别概率。利用最大化类别概率的操作，得到预测旋转标签。网络结构如图2所示。表1展示了旋转方向卷积网络结构。

表1.旋转方向卷积网络结构

如表1中所示，卷积方向网络由15层网络组成，其中具体参数为:

第一层网络为二维卷积层，其中输入维度为3，核尺寸为3*3，输出维度为64；

第二层网络为二维卷积层，其中输入维度为64，核尺寸为3*3，输出维度为64；

第三层网络为二维最大池化层，其中核尺寸为2*2，滑动步长为2，填充尺寸为0；

第四层网络为二维卷积层，其中输入维度为64，核尺寸为3*3，输出维度为128；

第五层网络为二维卷积层，其中输入维度为128，核尺寸为3*3，输出维度为128；

第六层网络为二维最大池化层，其中核尺寸为2*2，滑动步长为2，填充尺寸为0；

第七层网络为二维卷积层，其中输入维度为128，核尺寸为3*3，输出维度为256；

第八层网络为二维卷积层，其中输入维度为256，核尺寸为3*3，输出维度为256；

第九层网络为二维卷积层，其中输入维度为256，核尺寸为3*3，输出维度为256；

第十层网络为二维最大池化层，其中核尺寸为2*2，滑动步长为2，填充尺寸为0；

第十一层网络为二维卷积层，其中输入维度为256，核尺寸为3*3，输出维度为128；

第十二层网络为二维最大池化层，其中核尺寸为2*2，滑动步长为2，填充尺寸为0；

第十三层网络为二维卷积层，其中输入维度为128，核尺寸为3*3，输出维度为64；

第十四层网络为二维平均池化层；

第十五层网络为全连接层，其中输入维度为64，输出维度为4。

人群分布匹配网络，采用了VGG网络作为人群分布匹配网络的主干结构，旨在提取更高分辨率的视觉特征信息。在本实施例中，旋转方向卷积网络采用了13层网络结构，其中卷积网络有10层卷积层和3层池化层。其中在每层卷积层后嵌入Batch_Normalization结构，缓解网络过拟合。网络是用卷积层作为分布的输出。表2展示了人群分布匹配网络结构。对比

表1、表2，可以看出，两阶段的网络在部分结构上是相似的。

表2.人群分布匹配网络结构

如表2中所示，人群分布匹配网络由13层网络组成，其中具体参数为：

第十层网络为二维卷积层，其中输入维度为384，核尺寸为3*3，输出维度为128；

第十一层网络为二维卷积层，其中输入维度为128，核尺寸为3*3，输出维度为64；

第十三层网络为二维卷积层，其中输入维度为64，核尺寸为3*3，输出维度为1。

S32、构建所述旋转方向卷积网络与所述人群分布匹配网络之间的知识迁移，并搭建损失函数；根据训练样本集中计数样本逐点打标的空间分布，依据固定幂律参数生成的分布样本作为计数标签，并确定人群分匹配网络输出的分布估计计数结果；通过构建卷积方向网络与人群分布匹配网络的迁移框架，包括最优分布传输损失函数，完成人群场景的计数任务。

具体地，人群分布网络接受迁移参数的卷积层有7层，分别是Conv2d(3-64-3)、Conv2d(3-64-3)、Conv2d(64-128-3)、Conv2d(128-128-3)、Conv2d(128-256-3)、Conv2d(256-256-3)、Conv2d(256-256-3)；

Lsinkhorn＝argmin<Count^pred，Count^gt>-E(Count^pred)/β

上式中，<，>表示矩阵的内积，E()表示熵函数。

S34、根据梯度下降方法，训练所述双流自监督幂律分布人群计数网络，优化器采用“Adam”优化器，学习率为0.0001，样本估计误差判决尺度用MAE衡量。

双流自监督幂律分布人群计数网络在Shanghaitech Part_A数据集下的建模效果展示在图3；其中第二列图像为双流自监督幂律分布人群计数网络的预测密度映射图。

图4为不同损失函数对比下，现有技术中人群计数模型与本实施例中Sinkhorn优化转移损失函数的比较结果。

由图4结果可知，本实施例的双流自监督幂律分布人群计数网络，通过幂律分布匹配的方式计算人群目标空间位置，解决了传统利用高斯光滑法计算密度映射图不精确的问题。同时，利用旋转方向卷积网络通过无标签学习样本知识，并采用网络迁移的方式利用样本知识解决测试样本的计数问题。

图5(a)展示了CCCN，MCNN，CMTL，Switch CNN，IG-CNN，CSRNet，PACNN，双流幂律分布网络在Shanghaitech Part_A数据集下关于MAE和RMSE的表现。图5(b)展示了双流自监督幂律分布人群计数网络在不同视觉背景下的计数迁移表现。

通过自训练的方式实现人群密度空间信息的建模，通过引入幂律分布描绘人群分布，极大优化了传统人群计数Point-wise的标签化过程，补足了当前主流视觉计数模型只能利用强监督的形式进行人群计数建模的问题。此外，模型还能充分的应用在迁移学习框架中，在多个视觉背景场景下获得较好的自适应迁移效果。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种电子设备，包括服务器，如图6所示，该服务器包括处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如上述各实施例所述自监督的幂律分布人群计数方法的步骤。

其中，存储器和处理器采用通信总线方式连接，通信总线可以包括任意数量的互联的总线和桥，通信总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在通信总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现如上述各实施例所述自监督的幂律分布人群计数方法的步骤。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种自监督的幂律分布人群计数方法，其特征在于，包括：

2.根据权利要求1所述的自监督的幂律分布人群计数方法，其特征在于，步骤S1具体包括：

3.根据权利要求1所述的自监督的幂律分布人群计数方法，其特征在于，步骤S3中，所述旋转方向卷积网络包括卷积层、池化层和全连结层；每层所述卷积层后都嵌入有Batch_Normalization结构；所述旋转方向卷积网络用于预测旋转标签；

4.根据权利要求3所述的自监督的幂律分布人群计数方法，其特征在于，步骤S3具体包括：

S31、分别构建旋转方向卷积网络和人均分布匹配网络；

5.根据权利要求4所述的自监督的幂律分布人群计数方法，其特征在于，所述旋转方向卷积网络包括9层卷积层、5层池化层和1层全连结层，所述全连结层的输出节点数与所述旋转标签数量一致；

6.根据权利要求5所述的自监督的幂律分布人群计数方法，其特征在于，所述S21具体包括：

S321、将所述旋转方向卷积网络的训练参数迁移至所述人群分布匹配网络中，其中，所述训练参数迁移至所述人群分布匹配网络的卷积层中；

Lsinkhorn＝argmin<Count^pred，Count^gt>-E(Count^pred)/β

上式中，<，>表示矩阵的内积，E()表示熵函数。

7.一种自监督的幂律分布人群计数装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6任一项所述自监督的幂律分布人群计数方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述自监督的幂律分布人群计数方法的步骤。