CN112232140A

CN112232140A - 人群计数方法、装置、电子设备及计算机存储介质

Info

Publication number: CN112232140A
Application number: CN202011022071.3A
Authority: CN
Inventors: 嵇望; 丁大为; 江志勇; 王哲
Original assignee: Zhejiang Utry Information Technology Co ltd
Current assignee: Zhejiang Utry Information Technology Co ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-01-15

Abstract

本发明涉及一种人群计数方法、装置、设备和介质，其中，该人群计数方法包括：将训练图像通过卷积神经网络计算得到第一特征，将第一特征通过一阶统计注意力网络计算得到第二特征，将第一特征通过二阶统计注意力网络计算得到第三特征，其中，该第三特征表示训练图像中尺寸小的人群目标的头部特性，将第一特征、第二特征和第三特征通过级联层计算得到预测密度图，根据预测密度图和标签密度图训练二阶混合深度神经网络，将待计数图像通过训练好的二阶混合深度神经网络计算得到人群密度图，根据人群密度图计算得到待计数图像中的人数。通过本申请，解决了基于卷积神经网络对人群目标密集且尺寸小的图像进行人群计数存在准确率低的问题。

Description

人群计数方法、装置、电子设备及计算机存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人群计数方法、装置、电子设备及计算机存储介质。

背景技术

人群计数旨在对图像中的人数进行计数，在视频监控、交通规划和公共安全等实际应用中起着至关重要的作用。在相关技术中，由于图像中的人群密度分布极不均匀，基于深度学习(Deep Learning，简称为DL)的计数方法利用多阵列的卷积神经网络(Convolutional Neural Network，简称为CNN)提取不同尺度人群目标的头部特征来预测人群密度图，进而实现对图像中的人数进行计数。但是在大量人群聚集的场景中，会出现人群目标尺寸小的情况，而卷积神经网络提取到的头部特征无法准确地表征这些尺寸小的人群目标的头部特性，导致人群计数的准确率较低。

针对相关技术中，基于卷积神经网络对人群目标密集且尺寸小的图像进行人群计数存在准确率低的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种人群计数方法、装置、电子设备和计算机存储介质，以至少解决相关技术中基于卷积神经网络对人群目标密集且尺寸小的图像进行人群计数存在准确率低的问题。

第一方面，本申请实施例提供了一种人群计数方法，所述方法包括：

将训练图像通过二阶混合深度神经网络中的卷积神经网络计算得到第一特征，将所述第一特征通过所述二阶混合深度神经网络中的一阶统计注意力网络计算得到第二特征，将所述第一特征通过所述二阶混合深度神经网络中的二阶统计注意力网络计算得到第三特征，其中，所述第三特征表示所述训练图像中尺寸小的人群目标的头部特性；

将所述第一特征、所述第二特征和所述第三特征通过所述二阶混合深度神经网络中的级联层进行计算，得到预测密度图，根据所述预测密度图和标签密度图训练所述二阶混合深度神经网络；

将待计数图像通过训练好的二阶混合深度神经网络计算得到所述待计数图像的人群密度图，根据所述人群密度图计算得到所述待计数图像中的人数。

在其中一些实施例中，所述卷积神经网络为VGG16网络，所述将训练图像通过二阶混合深度神经网络中的卷积神经网络计算得到第一特征，包括：

将UCF-QNRF数据集中的密集人群图像作为所述训练图像；

将所述训练图像通过所述VGG16网络进行计算得到所述第一特征，其中，所述VGG16网络的初始权重是所述VGG16网络在ImageNet上进行预训练得到的。

在其中一些实施例中，所述将所述第一特征通过所述二阶混合深度神经网络中的一阶统计注意力网络计算得到第二特征，包括：

对所述第一特征进行降维处理得到特征矩阵，将所述特征矩阵与所述卷积神经网络中的第一卷积核按照像素级相乘得到一阶统计注意力特征图，其中，所述第一卷积核与所述特征矩阵的尺寸相同；

将所述第一特征与所述一阶统计注意力特征图相乘得到所述第二特征。

在其中一些实施例中，所述将所述第一特征通过所述二阶混合深度神经网络中的二阶统计注意力网络计算得到第三特征，包括：

计算所述特征矩阵的协方差矩阵，将所述协方差矩阵与所述卷积神经网络中的第二卷积核按照像素级相乘得到特征匹配图，其中，所述第二卷积核与所述协方差矩阵的尺寸相同；

将所述特征匹配图通过卷积操作得到二阶统计注意力特征图；

将所述第一特征与所述二阶统计注意力特征图相乘得到所述第三特征。

在其中一些实施例中，所述级联层包括双线性上采样层、卷积层、批量归一化层和ReLU层，所述将所述第一特征、所述第二特征和所述第三特征通过所述二阶混合深度神经网络中的级联层进行计算，得到预测密度图，包括：

将所述第一特征、所述第二特征和所述第三特征进行级联后依次通过所述双线性上采样层、所述卷积层、所述批量归一化层和所述ReLU层进行计算，得到所述预测密度图。

在其中一些实施例中，所述标签密度图通过下述方式获得：将所述训练图像根据几何自适应高斯核进行标注，得到所述标签密度图。

在其中一些实施例中，所述根据所述预测密度图和标签密度图训练所述二阶混合深度神经网络，包括：

将所述预测密度图和所述标签密度图根据像素级损失函数进行计算，得到像素损失；

将所述预测密度图和所述标签密度图根据位置级损失函数进行计算，得到二值交叉熵；

将所述像素损失和所述二值交叉熵按照预设的权重相加，得到整体损失；

基于所述整体损失训练所述二阶混合深度神经网络，得到所述训练好的二阶混合深度神经网络。

第二方面，本申请实施例提供了一种人群计数装置，所述装置包括：特征提取模块、训练模块和预测模块；

所述特征提取模块，用于将训练图像通过二阶混合深度神经网络中的卷积神经网络计算得到第一特征，将所述第一特征通过所述二阶混合深度神经网络中的一阶统计注意力网络计算得到第二特征，将所述第一特征通过所述二阶混合深度神经网络中的二阶统计注意力网络计算得到第三特征，其中，所述第三特征表示所述训练图像中尺寸小的人群目标的头部特性；

所述训练模块，用于将所述第一特征、所述第二特征和所述第三特征通过所述二阶混合深度神经网络中的级联层进行计算，得到预测密度图，根据所述预测密度图和标签密度图训练所述二阶混合深度神经网络；

所述预测模块，用于将待计数图像通过训练好的二阶混合深度神经网络计算得到所述待计数图像的人群密度图，根据所述人群密度图计算得到所述待计数图像中的人数。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的人群计数方法。

第四方面，本申请实施例提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的人群计数方法。

相比相关技术，本申请实施例提供的人群计数方法，通过将训练图像通过二阶混合深度神经网络中的卷积神经网络计算得到第一特征，将该第一特征通过该二阶混合深度神经网络中的一阶统计注意力网络计算得到第二特征，将该第一特征通过该二阶混合深度神经网络中的二阶统计注意力网络计算得到第三特征，其中，该第三特征表示该训练图像中尺寸小的人群目标的头部特性，将该第一特征、该第二特征和该第三特征通过该二阶混合深度神经网络中的级联层进行计算得到预测密度图，根据该预测密度图和标签密度图训练该二阶混合深度神经网络，将待计数图像通过训练好的二阶混合深度神经网络计算得到该待计数图像的人群密度图，根据该人群密度图计算得到该待计数图像中的人数，解决了基于卷积神经网络对人群目标密集且尺寸小的图像进行人群计数存在准确率低的问题，提升了对人群目标密集且尺寸小的图像进行人群计数的准确度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的人群计数方法的应用环境示意图；

图2是根据本申请实施例的人群计数方法的流程图；

图3是根据本申请实施例的计算第一特征的流程图；

图4是根据本申请实施例的计算第二特征的流程图；

图5是根据本申请实施例的计算第三特征的流程图；

图6是根据本申请实施例的通过级联层获得预测密度图的流程示意图；

图7是根据本申请优选实施例的二阶混合深度神经网络的结构示意图；

图8是根据本申请实施例的人群计数装置的结构示意图；

图9是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

人群计数旨在对人群场景的图像或视频监控帧图像中的人数进行计数，由于城市中有大量人口，人群计数已成为各种应用(例如视频监视、人群分析和安全监视)中一个基本但具有挑战性的场景。在人群聚集的场景中，人群目标会呈现出尺寸小、尺度变化较大和遮挡的情况，这对同时预测出图像中人群的位置和尺寸提出了巨大挑战。传统的人群计数算法主要分为基于检测的方法和基于回归的方法。基于检测的方法使用一个滑动窗口检测器来检测场景中人群，并统计相应的人数。基于检测的方法分为基于整体和基于部分身体的检测方法。基于整体的检测方法主要训练一个分类器，利用从行人全身提取的小波、方向梯度直方图(Histogram of Oriented Gradient，简称HOG)和边缘等特征去检测行人，主要采用支持向量机(Support Vector Machine，简称SVM)、提升算法(Boosting)和随机森林等算法，主要适用于稀疏的人群计数。随着人群密度的提升，人与人之间的遮挡变得越来越严重，可以采用基于部分身体的检测方法来处理人群计数问题。基于部分身体的检测方法主要通过检测身体的部分结构，例如头、肩膀等去统计人群的数量，该方法相较于基于整体的检测方法，在效果上有略微的提升。但是无论何种基于检测的方法，都很难处理人群之间严重的遮挡问题，因此提取了基于回归的方法。基于回归的方法首先提取低级的特征，例如前景特征、边缘特征、纹理和梯度特征等，然后采用回归模型学习一种低级特征到人群数量的映射关系，例如线性回归、分段线性回归、岭回归和高斯过程回归等模型。

近些年来，深度学习技术被广泛应用于各个研究领域(例如计算机视觉、自然语言处理等)。深度学习技术凭借其出色的特征学习能力，同样被研究人员用于人群计数的研究中。不同于传统的基于检测和回归的方法，基于深度学习的计数方法对于图像中密集人群区域，利用预测密度图得到了更好的预测结果。由于图像中人群密度分布极不均匀，基于深度学习的计数方法利用多阵列的卷积神经网络来实现提取不同尺度的头部特征，但对于图像中尺寸小的人群目标(即图像中头部尺寸在9×9像素以下对应的人群目标)，卷积神经网络提取到的头部特征无法准确地表征尺寸小的头部特性，导致人群计数的准确率较低。因此，本发明通过训练包括卷积神经网络、一阶统计注意力网络和二阶统计注意力网络的二阶混合深度神经网络，可以更加准确地筛选并保留尺寸小的人群目标的头部特性，从而提高对人群目标密集且人群目标尺寸小的图像进行人群计数的准确率。

图1是根据本申请实施例的人群计数方法的应用环境示意图，本申请提供的人群计数方法，可以应用于如图1所示的应用环境中，终端12通过网络与摄像头14进行通信，摄像头14将拍摄到的视频监控帧图像发送至终端12。终端12将训练图像通过二阶混合深度神经网络中的卷积神经网络计算得到第一特征，将第一特征通过二阶混合深度神经网络中的一阶统计注意力网络计算得到第二特征，将第一特征通过二阶混合深度神经网络中的二阶统计注意力网络计算得到第三特征。该第三特征表示训练图像中尺寸小的人群目标(即训练图像中头部尺寸在9×9像素以下对应的人群目标)的头部特性。终端12将第一特征、第二特征和第三特征通过二阶混合深度神经网络中的级联层进行计算，得到预测密度图，并根据预测密度图和标签密度图训练二阶混合深度神经网络。终端12将接收到的视频监控帧图像作为待计数图像，将视频监控帧图像通过训练好的二阶混合深度神经网络进行计算，就可以得到该视频监控帧图像的人群密度图。

本实施例提供了一种人群计数方法。图2是根据本申请实施例的人群计数方法的流程图，如图2所示，该流程包括如下步骤：

S210、将训练图像通过二阶混合深度神经网络中的卷积神经网络计算得到第一特征。该训练图像可以但不限于是UCF-QNRF、ShanghaiTech、UCSD和UCF_CC_50等常用人群计数数据集中的密集人群图像。通过该卷积神经网络提取到的第一特征可以表征该训练图像中不同尺度的头部特性。

S220、将第一特征通过二阶混合深度神经网络中的一阶统计注意力网络计算得到第二特征。通过该一阶统计注意力网络可以处理该训练图像中尺寸正常的人群目标的头部特征，还可以对尺寸小的人群目标的头部特征提供一些补充信息，区分尺寸正常和尺寸小的标准为：将训练图像中头部尺寸在9×9像素以下对应的人群目标作为尺寸小的人群目标。

S230、将第一特征通过二阶混合深度神经网络中的二阶统计注意力网络计算得到第三特征，其中，该第三特征表示训练图像中尺寸小的人群目标的头部特性。通过该二阶统计注意力网络可以筛选并保留尺寸小的人群目标的头部特征。步骤S230和步骤S220可以在步骤S210后同时进行，也可以不同时进行。

S240、将第一特征、第二特征和第三特征通过二阶混合深度神经网络中的级联层进行计算，得到预测密度图，根据预测密度图和标签密度图训练二阶混合深度神经网络。将该第一特征、第二特征和第三特征输入该级联层级联计算，使得该级联层输出的预测密度图包含了不同尺度的头部特征、尺寸正常的头部特征以及尺寸小的头部特征。进一步基于该预测密度图以及与训练图像对应的标签密度图训练二阶混合深度神经网络，使得训练好的二阶混合深度神经网络可以用来准确地提取人群目标密集且尺寸小的图像中的头部特征，进而得到准确的人群密度图。

S250、将待计数图像通过训练好的二阶混合深度神经网络计算得到待计数图像的人群密度图，根据人群密度图计算得到待计数图像中的人数。该待计数图像可以但不限于是实时获取的视频监控帧图像和第三方图像数据库中的图像。将该待计数图像通过该训练好的二阶混合深度神经网络中的卷积神经网络，可以提取到该待计数图像中不同尺度的头部特征，然后分别通过该训练好的二阶混合深度神经网络中的一阶统计注意力网络和二阶统计注意力网络，可以得到该待计数图像中尺寸正常的头部特征以及尺寸小的头部特征。将该待计数图像的这三种头部特征通过该训练好的二阶混合深度神经网络中的级联层级联计算，就可以准确得预测出该待计数图像的人群密度图，进而根据该人群密度图获得该待计数图像中的人数，具体地，将该人群密度图中的所有像素进行累加得到该待计数图像中的人数。

通过上述步骤，基于训练图像以及该训练图像的标签密度图来训练二阶混合深度神经网络的网络参数，而该二阶混合深度神经网络包括可以提取不同尺度的头部特征的卷积神经网络、可以提取正常尺寸的头部特征的一阶统计注意力网络以及可以提取尺寸小的头部特征的二阶统计注意力网络，使得训练好的二阶混合深度神经网络可以准确得提取到人群目标密集且尺寸小的待计数图像中的头部特征，进而得到该待计数图像中准确的人数，解决了基于卷积神经网络对人群目标密集且尺寸小的图像进行人群计数存在准确率低的问题，有效提升了对人群目标密集且尺寸小的图像进行人群计数的准确度，提升了对图像中人群目标尺寸差异大的区域进行预测的鲁棒性。

在一些实施例中，二阶混合深度神经网络中的卷积神经网络为VGG16网络(VisualGeometry Group Network，也称为视觉几何群网络)。图3是根据本申请实施例的计算第一特征的流程图，如图3所示，将训练图像通过二阶混合深度神经网络中的卷积神经网络计算得到第一特征，包括如下步骤：

S310、将UCF-QNRF数据集中的密集人群图像作为训练图像。UCF-QNRF数据集包含了1535张来自Flickr、网络搜索和Hajj片段的密集人群图像。UCF-QNRF数据集包含广泛的场景，拥有丰富的视角、照明变化和密度多样性，人群计数范围从49到12865不等，此外UCF-QNRF数据集中的图像分辨率也很大，导致图像中的头部尺寸出现大幅变化。因此采用UCF-QNRF数据集中的密集人群图像作为训练图像，可以更好得训练二阶混合深度神经网络，使训练好的二阶混合深度神经网络的泛化能力更强。

S320、将训练图像通过VGG16网络进行计算得到第一特征，其中，VGG16网络的初始权重是VGG16网络在ImageNet上进行预训练得到的。VGG16网络包括13个卷积层和3个全链接层。将VGG16网络在ImageNet上进行预训练，并将预训练好的VGG16网络中的前13层用于对二阶混合深度神经网络的参数初始化。ImageNet是目前世界上图像识别最大的数据库，是美国斯坦福的计算机科学家模拟人类的识别系统建立的，能够从图片识别物体，因此使得预训练好的VGG16网络在初始化时就具有一定的泛化能力。相对于随机初始化的VGG16网络，通过预训练好的VGG16网络计算得到的第一特征，并用来计算第二特征和第三特征，可以加快二阶混合深度神经网络的训练速度，提高训练效率。

通过上述步骤，将UCF-QNRF数据集中的密集人群图像通过预训练好的VGG16网络计算，得到用于训练二阶混合深度神经网络的第一特征，可以加快二阶混合深度神经网络的训练速度。

在一些实施例中，图4是根据本申请实施例的计算第二特征的流程图，如图4所示，将第一特征通过二阶混合深度神经网络中的一阶统计注意力网络计算得到第二特征，包括如下步骤：

S410、对第一特征进行降维处理得到特征矩阵。

S420、将特征矩阵与VGG16网络中的第一卷积核按照像素级相乘得到一阶统计注意力特征图，其中，第一卷积核与特征矩阵的尺寸相同。

S430、将第一特征与一阶统计注意力特征图相乘得到第二特征。

通过上述步骤，将特征矩阵和与该特征矩阵尺寸相同的第一卷积核按像素级相乘得到一阶统计注意力特征图，并将该一阶统计注意力特征图与第一特征相乘，使得计算得到的第二特征包含了训练图像中尺寸正常的人群目标的头部特性，同时还可以包含一些尺寸小的人群目标(即训练图像中头部尺寸在9×9像素以下对应的人群目标)的头部特性，提高了训练图像提取到的特征精度，从而提升对人群目标密集且尺寸小的图像进行人群计数的准确度。

在一些实施例中，图5是根据本申请实施例的计算第三特征的流程图，如图5所示，将第一特征通过二阶混合深度神经网络中的二阶统计注意力网络计算得到第三特征，包括如下步骤：

S510、对第一特征进行降维处理得到特征矩阵。

S520、计算特征矩阵的协方差矩阵。

S530、将该协方差矩阵与VGG16网络中的第二卷积核按照像素级相乘得到特征匹配图，其中，该第二卷积核与该协方差矩阵的尺寸相同。

S540、将特征匹配图通过卷积操作得到二阶统计注意力特征图，具体地，将该特征匹配图经过1×1卷积操作并将维度恢复得到该二阶统计注意力特征图。

S550、将第一特征与该二阶统计注意力特征图相乘得到第三特征。

通过上述步骤，将协方差矩阵和与该协方差矩阵尺寸相同的第二卷积核按像素级相乘，将该特征匹配图通过卷积操作得到二阶统计注意力特征图，并将该二阶统计注意力特征图与第一特征相乘，使得计算得到的第三特征包含了训练图像中尺寸小的人群目标(即训练图像中头部尺寸在9×9像素以下对应的人群目标)的头部特性，提高了训练图像提取到的特征精度，从而提升对人群目标密集且尺寸小的图像进行人群计数的准确度。

在一些实施例中，图6是根据本申请实施例的通过级联层获得预测密度图的流程示意图，如图6所示，级联层包括依次相连的双线性上采样层、1×1卷积层、3×3卷积层、批量归一化层和ReLU(Rectified Linear Unit，又称为整流线性单元)层。将第一特征、第二特征和第三特征通过二阶混合深度神经网络中的级联层进行计算，得到预测密度图，包括如下步骤：将第一特征、第二特征和第三特征进行级联操作，然后将级联后的特征依次通过双线性上采样层、1×1卷积层、3×3卷积层、批量归一化层和ReLU层进行计算，得到预测密度图。

在一些实施例中，标签密度图通过下述方式获得：将训练图像根据几何自适应高斯核进行标注，得到标签密度图，可以在一定程度上解决图像中人群目标的遮挡问题。

在一些实施例中，根据预测密度图和标签密度图训练二阶混合深度神经网络，包括如下步骤：

首先，将预测密度图和标签密度图根据如公式1所示的像素级损失函数进行计算，得到像素损失。

其中，L₂表示像素损失，D^gt表示该标签密度图，D^pr表示该预测密度图，H表示该预测密度图的高，且该预测密度图和该标签密度图的高相同，W表示该预测密度图的宽，且该预测密度图和该标签密度图的宽相同，

表示该标签密度图中第i行第j列的值，

表示该预测密度图中第i行第j列的值。

然后，将预测密度图和标签密度图根据如公式2所示的位置级损失函数进行计算，得到二值交叉熵。

其中，L_BCE表示二值交叉熵，D^pr表示该预测密度图，D^b表示该标签密度图的二值图，f_sigmoid(·)表示sigmoid函数，log(·)表示log函数，H表示该二值图的高，且该二值图和该预测密度图的高相同，W表示该二值图的宽，且该二值图和该预测密度图的宽相同，

表示该二值图中的第p个值。

最后将像素损失和二值交叉熵根据如公式3所示的公式，按照预设的权重相加得到整体损失，并基于整体损失训练二阶混合深度神经网络，得到训练好的二阶混合深度神经网络。

L＝λL₂+(1-λ)L_BCE 公式3

其中，L表示整体损失，L₂表示像素损失，L_BCE表示二值交叉熵，λ表示预设的权重，按照经验可以设置为0.9。

下面通过优选实施例对本申请实施例进行描述和说明。图7是根据本申请优选实施例的二阶混合深度神经网络的结构示意图，如图7所示，输入图像是训练图像时，输出密度图为预测密度图，输入图像是待计数图像时，输出图像是该待计数图像的人群密度图。将UCF-QNRF数据集中的密集人群图像作为训练图像，对该训练图像采用几何自适应高斯核的方法标注得到标签密度图，可以在一定程度上解决遮挡的问题。通过加载预训练好的VGG16网络的前13层用于整个二阶混合深度神经网络的参数初始化，载入VGG16网络后，初始权值为VGG16网络在ImageNet上预训练得到的权重。将训练图像通过预训练好的VGG16网络进行计算得到第一特征记为F。

将第一特征F通过一阶统计注意力网络进行计算得到第二特征，具体包括如下步骤：对第一特征F降维得到特征矩阵记为X。将特征矩阵X与第一卷积核按像素级相乘得到一阶统计注意力特征图记为A_f，第一卷积核是VGG16网络中的与特征矩阵X尺寸相同的卷积核。将第一特征F与一阶统计注意力特征图A_f相乘得到第二特征记为F_f。

将第一特征F通过二阶统计注意力网络进行计算得到第三特征，具体包括如下步骤：计算特征矩阵X的协方差矩阵记为C，将协方差矩阵C与第二卷积核按像素级相乘得到特征匹配图记为G，第二卷积核是VGG16网络中的与协方差矩阵C尺寸相同的卷积核。将特征匹配图G经过1×1卷积操作并将维度恢复得到二阶统计注意力特征图A_s，将第一特征F与二阶统计注意力特征图A_s相乘得到第三特征记为F_s。

将第一特征F、第二特征F_f和第三特征F_s级联后，通过双线性上采样层、1×1卷积层、3×3卷积层、批量归一化层和ReLU层计算得到预测密度图D^pr。根据如公式1所示的像素级损失函数，直接比较预测密度图D^pr与标签密度图D^gt之间的差异，得到像素损失记为L₂。根据如公式2所示的位置级损失函数，计算预测密度图D^pr与标签密度图D^gt之间的二值交叉熵记为L_BCE。将像素损失L₂和二值交叉熵L_BCE根据如公式3所示的公式，按照预设的权重相加得到整体损失。基于整体损失训练二阶混合深度神经网络，得到训练好的二阶混合深度神经网络。将待计数图像通过训练好的二阶混合深度神经网络计算，得到待计数图像的人群密度图。根据人群密度图计算得到待计数图像中的人数，具体地，将该人群密度图中的所有像素进行累加，就可以得到该待计数图像中的人数。按照经验可以设置如下的一些网络参数：高斯核函数均值为0，标准差为0.01；批量大小设置为50；完整迭代次数设置为2000；对像素小于512×512的图像进行双线性插值，并且将图像随机裁剪为400×400像素后输入二阶混合深度神经网络。

本申请实施例提供了一种人群计数装置。图8是根据本申请实施例的人群计数装置的结构示意图，如图8所示，该装置包括特征提取模块810、训练模块820和预测模块830：特征提取模块810用于将训练图像通过二阶混合深度神经网络中的卷积神经网络计算得到第一特征，将该第一特征通过该二阶混合深度神经网络中的一阶统计注意力网络计算得到第二特征，将该第一特征通过该二阶混合深度神经网络中的二阶统计注意力网络计算得到第三特征，其中，该第三特征表示训练图像中尺寸小的人群目标(即训练图像中头部尺寸在9×9像素以下对应的人群目标)的头部特性；训练模块820用于将该第一特征、该第二特征和该第三特征通过该二阶混合深度神经网络中的级联层进行计算，得到预测密度图，根据该预测密度图和标签密度图训练该二阶混合深度神经网络；预测模块830用于将待计数图像通过训练好的二阶混合深度神经网络计算得到该待计数图像的人群密度图，根据该人群密度图计算得到该待计数图像中的人数。

关于人群计数装置的具体限定可以参见上文中对于人群计数方法的限定，在此不再赘述。上述人群计数装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的人群计数方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种人群计数方法。

在一个实施例中，图9是根据本申请实施例的电子设备的内部结构示意图，如图9所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人群计数方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchl ink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人群计数方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络为VGG16网络，所述将训练图像通过二阶混合深度神经网络中的卷积神经网络计算得到第一特征，包括：

将UCF-QNRF数据集中的密集人群图像作为所述训练图像；

3.根据权利要求1所述的方法，其特征在于，所述将所述第一特征通过所述二阶混合深度神经网络中的一阶统计注意力网络计算得到第二特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一特征通过所述二阶混合深度神经网络中的二阶统计注意力网络计算得到第三特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述级联层包括双线性上采样层、卷积层、批量归一化层和ReLU层，所述将所述第一特征、所述第二特征和所述第三特征通过所述二阶混合深度神经网络中的级联层进行计算，得到预测密度图，包括：

6.根据权利要求1所述的方法，其特征在于，所述标签密度图通过下述方式获得：将所述训练图像根据几何自适应高斯核进行标注，得到所述标签密度图。

7.根据权利要求1所述的方法，其特征在于，所述根据所述预测密度图和标签密度图训练所述二阶混合深度神经网络，包括：

8.一种人群计数装置，其特征在于，所述装置包括：特征提取模块、训练模块和预测模块；

9.一种电子设备，包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的人群计数方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的人群计数方法。