CN111652152A

CN111652152A - 人群密度检测方法、装置、计算机设备和存储介质

Info

Publication number: CN111652152A
Application number: CN202010499114.0A
Authority: CN
Inventors: 周康明; 彭山珍
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-09-11

Abstract

本申请涉及一种人群密度检测方法、装置、计算机设备和存储介质。该方法包括：获取待检测图像；将待检测图像输入注意机制特征图生成网络中，得到第一特征图；将待检测图像和第一特征图输入多尺度卷积网络中，得到第二特征图；该第二特征图包括不同尺度卷积下的特征图；将第二特征图输入特征融合网络中，得到人群密度热力图。该方法通过引入视觉注意机制，更专注于待检测图像中人群特征的图像部分，有效减少待检测图像中各种噪声的影响，使得得到的第一特征图质量更高；且通过不同尺度的卷积操作，可以获取输入图像中高层的语义信息以及低层的细节信息，使得第二特征图所包含的信息更加全面，大大提高了得到的人群密度热力图的图像质量。

Description

人群密度检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种人群密度检测方法、装置、计算机设备和存储介质。

背景技术

随着人口密度的增大，许多公共基础设施例如地铁站、高铁站等经常会迎来短期的人流高峰。因此，对公共基础设施等场合进行人群密度估计，对后续公共基础设施的管理以及协调是十分必要的，而背景噪声、遮挡和人群分布的多样性等问题增加了人群密度估计的难度。

传统技术中，多数是利用深度神经网络进行特征回归，一般是把神经网络当作特征提取器，并在网络的最后一层使用逻辑回归分类器将提取的特征进行分类映射，得到人群密度热力图。

但是，传统技术基于特征回归的方法大多聚焦在降低计数错误率上，而忽略了人群密度热力图的质量。因此，其得到的人群密度热力图存在质量不高的问题。

发明内容

基于此，有必要针对传统技术中得到的人群密度热力图质量不高的问题，提供一种人群密度检测方法、装置、计算机设备和存储介质。

一种人群密度检测方法，该方法包括：

获取待检测图像；

将待检测图像输入注意机制特征图生成网络中，得到第一特征图；

将待检测图像和第一特征图输入多尺度卷积网络中，得到第二特征图；该第二特征图包括不同尺度卷积下的特征图；

将第二特征图输入特征融合网络中，得到人群密度热力图。

在其中一个实施例中，将待检测图像和第一特征图输入多尺度卷积网络中，得到第二特征图，包括：

对待检测图像和第一特征图进行融合，得到融合特征图；

将融合特征图输入多尺度卷积网络中，得到第二特征图。

在其中一个实施例中，多尺度卷积网络包括深层全卷积网络和浅层全卷积网络；将融合特征图输入多尺度卷积网络中，得到第二特征图，包括：

将融合特征图输入深层全卷积网络中，得到深层特征图；将融合特征图输入浅层全卷积网络中，得到浅层特征图；

将深层特征图和浅层特征图作为第二特征图。

在其中一个实施例中，上述深层全卷积网络包括16层卷积层和4层最大池化层；

该4层最大池化层分别位于第2层卷积层之后、第4层卷积层之后、第7层卷积层之后和第16层卷积层之后，该4层最大池化层中前3层最大池化层的步长大小为2、最后一层最大池化层的步长大小为1。

在其中一个实施例中，上述浅层全卷积网络包括3层卷积层和3层最大池化层；该3层最大池化层与3层卷积层顺序连接。

在其中一个实施例中，将待检测图像输入注意机制特征图生成网络中，得到第一特征图，包括：

将待检测图像输入注意机制特征图生成网络，输出待检测图像属于前景图像的第一概率和属于背景图像的第二概率；

提取注意机制特征图生成网络最后一层卷积层中的特征图，得到前景特征图和背景特征图；

根据前景特征图和第一概率、背景特征图和第二概率，确定第一特征图。

在其中一个实施例中，上述特征融合网络的训练方法包括：

获取样本图像的第三特征图和人群密度标签图；该第三特征图包括不同尺度卷积下的特征图；

将第三特征图输入初始特征融合网络中，得到预测人群密度热力图；

计算预测人群密度热力图与人群密度标签图之间的损失，根据该损失对初始特征融合网络进行训练，得到特征融合网络。

一种人群密度检测装置，该装置包括：

获取模块，用于获取待检测图像；

第一特征图生成模块，用于将待检测图像输入注意机制特征图生成网络中，得到第一特征图；

第二特征图生成模块，用于将待检测图像和第一特征图输入多尺度卷积网络中，得到第二特征图；该第二特征图包括不同尺度卷积下的特征图；

特征融合模块，用于将第二特征图输入特征融合网络中，得到人群密度热力图。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行该计算机程序时实现以下步骤：

获取待检测图像；

将第二特征图输入特征融合网络中，得到人群密度热力图。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待检测图像；

将第二特征图输入特征融合网络中，得到人群密度热力图。

上述人群密度检测方法、装置、计算机设备和存储介质，能够首先将获取的待检测图像输入注意机制特征图生成网络中，得到第一特征图，其通过引入视觉注意机制，更专注于待检测图像中人群特征的图像部分，有效减少待检测图像中各种噪声的影响，使得得到的第一特征图质量更高；然后将待检测图像和第一特征图输入多尺度卷积网络中，得到包括不同尺度卷积下的第二特征图，并将第二特征图输入特征融合网络中，得到人群密度热力图。通过不同尺度的卷积操作，可以获取输入图像中高层的语义信息以及低层的细节信息，使得第二特征图所包含的信息更加全面，大大提高了得到的人群密度热力图的图像质量。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例中人群密度检测方法的流程示意图；

图2a为一个实施例中注意机制特征图生成网络的网络结构示意图；

图2b为一个实施例中深层全卷积网络的网络结构示意图；

图2c为一个实施例中浅层全卷积网络的网络结构示意图；

图2d为一个实施例中特征融合网络的网络结构示意图；

图3为另一个实施例中人群密度检测方法的流程示意图；

图4为又一个实施例中人群密度检测方法的流程示意图；

图5为一个实施例中特征融合网络的训练过程示意图；

图6为又一个实施例中人群密度检测方法的流程示意图；

图7为一个实施例中人群密度检测装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的人群密度检测方法，可以适用于如图1所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器，该存储器中存储有计算机程序，处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选地，该计算机设备还可以包括通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端通过网络连接通信。可选地，该计算机设备可以是个人计算机(personal computer，简称PC)，还可以是个人数字助理，还可以是其他的终端设备，例如平板电脑(portable android device，简称PAD)、手机等等，还可以是云端或者远程服务器，本申请实施例对计算机设备的具体形式并不做限定。

在一个实施例中，如图2所示，提供了一种人群密度检测方法，本实施例涉及的是对待检测图像进行一系列的特征分析，以得到人群密度热力图的具体过程。以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S101，获取待检测图像。

具体地，待检测图像可以为由计算机设备从后台服务器中获取的场景图像，如地铁站台的监控图像、高铁站候车室的监控图像等，通过对该待检测图像进行检测分析得到人群密度热力图，进而可以根据该人群密度热力图判断当前区域人群密度是否过大，以使得监控部门采取相应措施等。

可选地，计算机设备可以实时从后台服务器中获取待检测图像，以实现实时监控的目的。

S102，将待检测图像输入注意机制特征图生成网络中，得到第一特征图。

具体地，计算机设备将获取的待检测图像输入预设的注意机制特征图生成网络中，该注意机制特征图生成网络用于关注待检测图像中表征人群特征的图像部分，并生成第一特征图，该第一特征图即为注意机制特征图。

可选地，上述注意机制特征图生成网络可以为神经网络，如卷积神经网络、循环神经网络等。可选地，该注意机制特征图生成网络为AMG(Attention Map Generator)网络，其网络结构可以参加图2a所示：主体架构由前端网络和后端网络组成，其中，Conv表示卷积层，其第一个参数表示卷积核的大小，第二个参数表示卷积核的数量，如Conv-3-64表示该卷积层有64个3×3的卷积核；Max-pooling表示最大池化层，Up-sample表示上采样层，GAP代表全局平均池化层，softmax代表用于分类的激活函数。

S103，将待检测图像和第一特征图输入多尺度卷积网络中，得到第二特征图；该第二特征图包括不同尺度卷积下的特征图。

具体地，计算机设备得到第一特征图后，将该第一特征图和上述待检测图像同时输入预设的多尺度卷积网络中，该多尺度卷积网络用于综合第一特征图的特征从不同尺度对待检测图像进行卷积，以得到不同尺度卷积下的特征图，即第二特征图。

其中，上述多尺度卷积网络包括多个不同大小的卷积核，可选地，该多尺度卷积网络可以包括深层全卷积网络(Deep Fully Convolutional Network，DFCN)和浅层全卷积网络(Shallow Fully Convolutional Network，SFCN)。深层全卷积网络的网络结构可以参见图2b所示，其是基于VGG-16网络进行改进的包括16层卷积层(Conv)和4层最大池化层(Maxpooling)的分支网络，如图2b所示，其4层最大池化层分别位于第2层卷积层之后、第4层卷积层之后、第7层卷积层之后和第16层卷积层之后；且与传统VGG-16网络相比，本实施例的深层全卷积网络将第5个Max pooling移除，将最后一层Max pooling的步长大小设为1，前3层Max pooling的步长大小设为2，由此可使得输出的特征图大小为输入图像的1/8。需要说明的是，本实施例使得输出的特征图大小为输入图像的1/8是综合考虑计算机设备显存处理能力和图像分析时得到较优热力图等因素而确定的，但不限于此比例。DFCN作为回归器，具有比较大的感受野，能够很好的捕捉待检测图像中高层的语义信息。

可选地，浅层全卷积网络的网络结构可以参见图2c所示，其包括3层卷积层和3层最大池化层，该3层最大池化层与所述3层卷积层顺序连接，即网络层的顺序为CR(32,5)-MP(2,2)-CR(64,5)-MP(2,2)-CR(64,5)-MP(2,2)；其中C表示卷积，R表示后接的激活函数是ReLU，CR参数中的第一个数值表示卷积核的数量、第二个数值表示卷积核的尺寸；MP代表最大池化层，参数中的第一个数值表示池化滤波器的个数、第二个数值表示池化滤波器的尺寸。SFCN作为回归器，具有比较小的感受野，能够很好地捕捉待检测图像中低层的细节信息。

S104，将第二特征图输入特征融合网络中，得到人群密度热力图。

具体地，计算机设备得到上述第二特征图后，可以将其输入特征融合网络中，该特征融合网络用于将多尺度卷积网络得到的多个不同尺度卷积下的特征图进行融合，最终得到人群密度热力图，即表征待检测图像中的人群密度大小。

可选地，该特征融合网络可以为神经网络，如卷积神经网络、循环神经网络等。可选地，该特征融合网络可以为FCNN(Fusion Convolutional Neural Network)，由于上述多尺度卷积网络中的下采样操作(如最大池化操作)会使特征图分辨率降低，因此FCNN中可以利用上采样层增大特征图的分辨率；其网络结构可以参见图2d所示，网络层顺序可以为：CR(64,3)-UP-CR(32,3)-UP-CR(32,3)-UP-CR(32,3)-C(1,1)。其中C表示卷积，R表示后接的激活函数是ReLU，CR参数中的第一个数值表示卷积核的数量，第二个数值表示卷积核的尺寸；UP表示上采样操作。

本实施例提供的人群密度检测方法，计算机设备首先将获取的待检测图像输入注意机制特征图生成网络中，得到第一特征图，其通过引入视觉注意机制，更专注于待检测图像中人群特征的图像部分，有效减少待检测图像中各种噪声的影响，使得得到的第一特征图质量更高；然后将待检测图像和第一特征图输入多尺度卷积网络中，得到包括不同尺度卷积下的第二特征图，并将第二特征图输入特征融合网络中，得到人群密度热力图。通过不同尺度的卷积操作，可以获取输入图像中高层的语义信息以及低层的细节信息，使得第二特征图所包含的信息更加全面，大大提高了得到的人群密度热力图的图像质量。

在一个实施例中，如图3所示，涉及的是计算机设备将待检测图像和第一特征图输入多尺度卷积网络中，得到第二特征图的具体过程，可选地，上述S103可以包括：

S201，对待检测图像和第一特征图进行融合，得到融合特征图。

具体地，计算机设备可以先对上述待检测图像和第一特征图进行融合，使得待检测图像上融合人群特征，更加突出图像中的人群部分，以得到融合特征图。可选地，计算机设备可以将待检测图像和第一特征图进行通道融合，也可以对待检测图像和第一特征图相同位置像素点的像素值进行加权融合，得到融合特征图。

S202，将融合特征图输入多尺度卷积网络中，得到第二特征图。

具体地，计算机设备将上述得到的融合特征图输入上述多尺度卷积网络中，经过不同尺度下的卷积操作，得到第二特征图。

可选地，当上述多尺度卷积网络包括深层全卷积网络和浅层全卷积网络时，计算机设备可以将融合特征图输入深层全卷积网络中，得到深层特征图，以及将融合特征图输入浅层全卷积网络中，得到浅层特征图，将深层特征图和浅层特征图作为第二特征图。关于深层全卷积网络和浅层全卷积网络的网络结构可以参见上述实施例的描述，在此不再赘述。

本实施例提供的人群密度检测方法，计算机设备可以对待检测图像和第一特征图进行融合，得到融合特征图，再将融合特征图输入多尺度卷积网络中，得到第二特征图。通过不同尺度的卷积操作，可以获取输入图像中高层的语义信息以及低层的细节信息，使得第二特征图所包含的信息更加全面，大大提高了得到的人群密度热力图的图像质量。

在一个实施例中，如图4所示，涉及的是计算机设备将待检测图像输入注意机制特征图生成网络中，得到第一特征图的具体过程。可选地，上述S102可以包括：

S301，将待检测图像输入注意机制特征图生成网络，输出待检测图像属于前景图像的第一概率和属于背景图像的第二概率。

具体地，注意机制特征图生成网络可以看作为一个二分类网络，针对待检测图像中的每个像素点，该网络都可以输出其属于前景图像的概率和属于背景图像的概率，本实施例中，可以将人群图像作为前景图像，其余部分作为背景图像。那么经过注意机制特征图生成网络前端网络和后端网络的处理，可以得到待检测图像属于前景图像的第一概率和属于背景图像的第二概率。

S302，提取注意机制特征图生成网络最后一层卷积层中的特征图，得到前景特征图和背景特征图。

具体地，计算机设备还可以从上述后端网络最后一层卷积层(即图2a中后端网络的Conv-1-2层)中提取特征图，得到前景特征图(即人群特征图)和背景特征图。

S303，根据前景特征图和第一概率、背景特征图和第二概率，确定第一特征图。

具体地，计算机设备可以根据前景特征图Fc和第一概率Pc、背景特征图Fb和第二概率Pb，通过Pc×Fc+Pb×Fb的关系式确定第一特征图。可选地，计算机设备还可以再对前景特征图和背景特征图进行加权处理，并融合第一概率和第二概率确定第一特征图。

本实施例提供的人群密度检测方法，计算机设备通过将待检测图像输入注意机制特征图生成网络，输出待检测图像属于前景图像的第一概率和属于背景图像的第二概率，并提取注意机制特征图生成网络最后一层卷积层中的前景特征图和背景特征图，最后根据前景特征图和第一概率、背景特征图和第二概率，确定第一特征图。通过引入视觉注意机制，更专注于待检测图像中人群特征的图像部分，有效减少待检测图像中各种噪声的影响，使得得到的第一特征图质量更高，进而提高后续得到的人群密度热力图的图像质量。

在一个实施例中，在使用注意机制特征图生成网络、多尺度卷积网络以及特征融合网络之前，计算机设备还需对这些网络进行训练，本实施例中以特征融合网络的训练过程为例进行说明，注意机制特征图生成网络和多尺度卷积网络除训练数据集和标注的标签不同之外，训练过程类似。可选地，如图5所示，特征融合网络的训练方法包括：

S401，获取样本图像的第三特征图和人群密度标签图；该第三特征图包括不同尺度卷积下的特征图。

S402，将第三特征图输入初始特征融合网络中，得到预测人群密度热力图。

S403，计算预测人群密度热力图与人群密度标签图之间的损失，根据该损失对初始特征融合网络进行训练，得到特征融合网络。

具体地，计算机设备首先获取大量的样本图像，然后该样本图像经注意机制特征图生成网络和多尺度卷积网络的处理，得到包括不同尺度卷积下的第三特征图，而得到第三特征图的过程可以参见上述实施例的描述，在此不再赘述；并人为的对样本图像进行密度标记，得到人群密度标签图，作为训练过程的训练目标。然后计算机设备将第三特征图输入初始特征融合网络中，得到预测人群密度热力图，计算预测人群密度热力图与人群密度标签图之间的损失，即两者之间的差异，根据该损失调节初始特征融合网络的网络参数，由此迭代训练直至网络收敛，即得到特征融合网络。

本实施例提供的人群密度检测方法，计算机设备通过对特征融合网络进行训练，以得到收敛的特征融合网络，使得该网络的处理精度更高，进而提高其得到的人群密度热力图的质量。

为更好理解整个人群密度检测方法的过程，下面以一个具体实施例方式进行介绍，如图6所示，该方法包括：

S501，将待检测图像输入注意机制特征图生成网络中，得到第一特征图；

S502，对待检测图像和第一特征图进行融合，得到融合特征图；

S503，将融合特征图输入深层全卷积网络中，得到深层特征图；

S504，将融合特征图输入浅层全卷积网络中，得到浅层特征图；

S505，将深层特征图和浅层特征图输入特征融合网络中，得到人群密度热力图。

关于本实施例中各步骤的实现过程，可以参见上述实施例的描述，其实现原理和技术效果类似，在此不再赘述。

应该理解的是，虽然图2-图6的流程图中各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种人群密度检测装置，包括：获取模块11、第一特征图生成模块12、第二特征图生成模块13和特征融合模块14。

具体地，获取模块11，用于获取待检测图像；

第一特征图生成模块12，用于将待检测图像输入注意机制特征图生成网络中，得到第一特征图；

第二特征图生成模块13，用于将待检测图像和第一特征图输入多尺度卷积网络中，得到第二特征图；该第二特征图包括不同尺度卷积下的特征图；

特征融合模块14，用于将第二特征图输入特征融合网络中，得到人群密度热力图。

本实施例提供的人群密度检测装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在一个实施例中，第二特征图生成模块13，具体用于对待检测图像和第一特征图进行融合，得到融合特征图；将融合特征图输入多尺度卷积网络中，得到第二特征图。

在一个实施例中，多尺度卷积网络包括深层全卷积网络和浅层全卷积网络；第二特征图生成模块13，具体用于将融合特征图输入深层全卷积网络中，得到深层特征图；将融合特征图输入浅层全卷积网络中，得到浅层特征图；将深层特征图和浅层特征图作为第二特征图。

在一个实施例中，上述深层全卷积网络包括16层卷积层和4层最大池化层；该4层最大池化层分别位于第2层卷积层之后、第4层卷积层之后、第7层卷积层之后和第16层卷积层之后，该4层最大池化层中前3层最大池化层的步长大小为2、最后一层最大池化层的步长大小为1。

在一个实施例中，上述浅层全卷积网络包括3层卷积层和3层最大池化层；该3层最大池化层与3层卷积层顺序连接。

在一个实施例中，上述第一特征图生成模块12，具体用于将待检测图像输入注意机制特征图生成网络，输出待检测图像属于前景图像的第一概率和属于背景图像的第二概率；提取注意机制特征图生成网络最后一层卷积层中的特征图，得到前景特征图和背景特征图；根据前景特征图和第一概率、背景特征图和第二概率，确定第一特征图。

在一个实施例中，上述装置还包括训练模块，用于获取样本图像的第三特征图和人群密度标签图；该第三特征图包括不同尺度卷积下的特征图；将第三特征图输入初始特征融合网络中，得到预测人群密度热力图；计算预测人群密度热力图与人群密度标签图之间的损失，根据该损失对初始特征融合网络进行训练，得到特征融合网络。

关于人群密度检测装置的具体限定可以参见上文中对于人群密度检测方法的限定，在此不再赘述。上述人群密度检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种人群密度检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待检测图像；

将第二特征图输入特征融合网络中，得到人群密度热力图。

本实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对待检测图像和第一特征图进行融合，得到融合特征图；

将融合特征图输入多尺度卷积网络中，得到第二特征图。

在一个实施例中，多尺度卷积网络包括深层全卷积网络和浅层全卷积网络；处理器执行计算机程序时还实现以下步骤：

将深层特征图和浅层特征图作为第二特征图。

在一个实施例中，上述深层全卷积网络包括16层卷积层和4层最大池化层；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待检测图像；

将第二特征图输入特征融合网络中，得到人群密度热力图。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对待检测图像和第一特征图进行融合，得到融合特征图；

将融合特征图输入多尺度卷积网络中，得到第二特征图。

在一个实施例中，多尺度卷积网络包括深层全卷积网络和浅层全卷积网络；计算机程序被处理器执行时还实现以下步骤：

将深层特征图和浅层特征图作为第二特征图。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人群密度检测方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像输入注意机制特征图生成网络中，得到第一特征图；

将所述待检测图像和所述第一特征图输入多尺度卷积网络中，得到第二特征图；所述第二特征图包括不同尺度卷积下的特征图；

将所述第二特征图输入特征融合网络中，得到人群密度热力图。

2.根据权利要求1所述的方法，其特征在于，所述将所述待检测图像和所述第一特征图输入多尺度卷积网络中，得到第二特征图，包括：

对所述待检测图像和所述第一特征图进行融合，得到融合特征图；

将所述融合特征图输入所述多尺度卷积网络中，得到所述第二特征图。

3.根据权利要求2所述的方法，其特征在于，所述多尺度卷积网络包括深层全卷积网络和浅层全卷积网络；所述将所述融合特征图输入所述多尺度卷积网络中，得到所述第二特征图，包括：

将所述融合特征图输入所述深层全卷积网络中，得到深层特征图；将所述融合特征图输入所述浅层全卷积网络中，得到浅层特征图；

将所述深层特征图和所述浅层特征图作为所述第二特征图。

4.根据权利要求3所述的方法，其特征在于，所述深层全卷积网络包括16层卷积层和4层最大池化层；

所述4层最大池化层分别位于第2层卷积层之后、第4层卷积层之后、第7层卷积层之后和第16层卷积层之后，所述4层最大池化层中前3层最大池化层的步长大小为2、最后一层最大池化层的步长大小为1。

5.根据权利要求3或4所述的方法，其特征在于，所述浅层全卷积网络包括3层卷积层和3层最大池化层；所述3层最大池化层与所述3层卷积层顺序连接。

6.根据权利要求1所述的方法，其特征在于，所述将所述待检测图像输入注意机制特征图生成网络中，得到第一特征图，包括：

将所述待检测图像输入所述注意机制特征图生成网络，输出所述待检测图像属于前景图像的第一概率和属于背景图像的第二概率；

提取所述注意机制特征图生成网络最后一层卷积层中的特征图，得到前景特征图和背景特征图；

根据所述前景特征图和所述第一概率、所述背景特征图和所述第二概率，确定所述第一特征图。

7.根据权利要求1所述的方法，其特征在于，所述特征融合网络的训练方法包括：

获取样本图像的第三特征图和人群密度标签图；所述第三特征图包括不同尺度卷积下的特征图；

将所述第三特征图输入初始特征融合网络中，得到预测人群密度热力图；

计算所述预测人群密度热力图与所述人群密度标签图之间的损失，根据所述损失对所述初始特征融合网络进行训练，得到所述特征融合网络。

8.一种人群密度检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测图像；

第一特征图生成模块，用于将所述待检测图像输入注意机制特征图生成网络中，得到第一特征图；

第二特征图生成模块，用于将所述待检测图像和所述第一特征图输入多尺度卷积网络中，得到第二特征图；所述第二特征图包括不同尺度卷积下的特征图；

特征融合模块，用于将所述第二特征图输入特征融合网络中，得到人群密度热力图。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。