CN113869285A

CN113869285A - 一种人群密度估计装置、方法和存储介质

Info

Publication number: CN113869285A
Application number: CN202111447032.2A
Authority: CN
Inventors: 张晓磊; 闫超; 赵燕
Original assignee: Sichuan Bochenghui Frontier Technology Co ltd
Current assignee: Sichuan Bochenghui Frontier Technology Co ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2021-12-31
Anticipated expiration: 2041-12-01
Also published as: CN113869285B

Abstract

本发明公开了一种人群密度估计装置、方法和存储介质，网络模型包括上下文感知网络和多尺度特征提取网络，并用可监督的细致注意力模块进行横向链接，起到促进两分支循序渐进学习的作用。多尺度特征提取网络的输入图像是原始图像，反之上下文感知网络的输入图像是上采样图像。上下文感知网络主要提取样本对中上采样图像包含的上下文信息，适度上采样的图像可以放大原始图像的细节信息，模型可以通过学习这部分信息增加对小目标的检测。本发明通过细致注意力模块交叉融合不同特性的特征，跨阶段的、有监督的促进提高分支特征的表达能力，与此同时，实现了有效的信息共享，可以大幅度提升生成密度图的质量，增强人群密度估计性能。

Description

一种人群密度估计装置、方法和存储介质

技术领域

本发明属于人群计数的技术领域，具体涉及一种人群密度估计装置、方法和存储介质。

背景技术

随着国家经济的快速发展，城市化进程得到了加快，与此同时，城市包含的人口数量也出现了指数级增长，火车站、演唱会、广场活动等大型人群聚集场景愈加频繁，高度群集现象存在不可忽视的安全隐患，管理人员会很容易失去对人群的控制，人群一旦发生激进行为就可能出现踩踏事件，因此，如何合理安排管理人员，及时对人群进行疏导，有效地减少不良事件地发生，是许多研究者探讨的问题。

人群密度估计是一种通过视频监控对人群密度程度进行统计分析的技术方向，可以智能地管控人群，减少大量的人力和物力。除此之外，人群密度估计是人群计数的一个技术分支，早期，人群计数通过行人检测方法获得行人个数，这类方法在行人重叠程度大、遮挡严重的场景下存在较多的误检、漏检。随着时间的推移，研究学者为了解决早期人群计数的遗留问题，从而提出了基于人数回归的方法，这类方法通过利用各种特征描述子提取图像特征信息，再选用合适的分类器对行人数量进行回归，最终达到人群计数的目的，但是基于人数回归的人群计数方法只能统计行人数量，无法对行人进行定位。近几年，基于人群密度估计的人群计数方法运势而生，通过分析图像每个像素提取对应的人群密度图，同时获得行人数量和行人分布信息，解决遮挡场景下人群的定位和计数问题。

目前，大多数人群密度估计方法都是基于卷积神经网络搭建的，再通过各种技术方法提取多尺度特征和上下文特征，从而增强特征信息的表达能力，虽然利用卷积层的特性能融合能得到多尺度特征和上下文特征，但是这些特征也会因卷积层的局部提取操作受到一定的限制，尤其是在人群密度估计场景下存在较小的目标，增加了较大的检测难度。因此，急需提出一种能增强特征的多尺度性、提高上下文特征的质量的人群密度估计装置、方法。

发明内容

本发明的目的在于提供一种人群密度估计装置、方法和存储介质，通过细致注意力模块交叉融合不同特性的特征，跨阶段的、有监督的促进提高分支特征的表达能力，与此同时，实现了有效的信息共享，可以大幅度提升生成密度图的质量，增强人群密度估计性能。

本发明主要通过以下技术方案实现：

一种人群密度估计装置，包括数据采集模块、训练模块、检测模块，所述数据采集模块用于收集已标注人群数量的监控图像数据，并形成训练集；所述训练模块用于采用训练集训练网络模型，所述检测模块用于将待检测图片输入训练后的网络模型并输出人群密度估计结果；

所述网络模型包括上下文感知网络、多尺度特征提取网络以及若干个可监督的细致注意力模块，所述上下文感知网络与多尺度特征提取网络之间通过细致注意力模块进行横向链接，所述细致注意力模块用于利用真实密度图进行指导，将前一阶段计算出的注意力图精炼传播到下一阶段的特征信息；所述多尺度特征提取网络的输入图像为原始图像，用于利用不同层次的卷积层提取不同感受野、不同语义信息的特征信息f2；所述上下文感知网络的输入图像是原始图像的上采样图像，用于提取上采样图像的特征信息f1；所述细致注意力模块用于将特征信息f1和f2互补融合成新的信息，所述新的信息用于计算人群计数损失值，进而处理生成注意力图。

网络模型的主干部分网络采用多分支结构，分为上下文感知网络和多尺度特征提取网络，并用可监督的细致注意力模块进行横向链接，起到促进两分支循序渐进学习的作用。多尺度特征提取网络的输入图像是原始图像，反之上下文感知网络的输入图像是上采样图像。其中多尺度特征提取网络的主干网络采用ResNet结构。

上下文感知网络主要提取样本对中上采样图像包含的上下文信息，适度上采样的图像可以放大原始图像的细节信息，模型可以通过学习这部分信息增加对小目标的检测。在网络结构中，每次向前传播的特征信息是由可监督的细致注意力模块输出得到的，这种操作可以去除部分冗余特征，提高网络模型的训练速度，并且可以提高特征信息的质量。

为了更好地实现本发明，进一步地，所述细致注意力模块包括重组向量层、卷积层、S型激活函数层、特征相加层；所述卷积层包括第一卷积层、第二卷积层、第三卷积层、第四卷积层，所述f1通过重组向量层处理后分别与并列设置的第一卷积层、第二卷积层连接，所述f2分别与并列设置的第三卷积层、第四卷积层连接，所述第一卷积层、第三卷积层输出的特征为value特征，用于保留详细的特征信息进行检测；所述第二卷积层、第四卷积层输出的特征为key特征，用于生成注意力图，定位重要特征值；所述第二卷积层、第四卷积层通过特征相加层实现互补融合成新的信息，用于计算人群计数损失值，然后采用S型激活函数层处理生成注意力图。

f1向量的维度需与f2的维度保持一致，所以在f1输入到模块里先做了一个特征重组的操作。采用了4个并行的卷积层处理f1和f2特征，可监督的细致注意力图生成流程是先将第二卷积层和第四卷积层通过相加的方式互补融合成新的特征信息，然后用新生成的特征信息计算人群计数损失值，最后用激活函数生成注意力图，这种处理方式的优势是真实标注信息可以粗糙的纠正特征信息的偏差，使得注意力图能最大程度的抑制冗余信息，传播贡献度高的特征信息。

为了更好地实现本发明，进一步地，所述细致注意力模块还包括特征点乘层、特征拼接融合层以及损失计算模块，所述卷积层还包括第五卷积层；所述第一卷积层、第三卷积层的输出端分别与特征拼接融合层连接，所述第二卷积层、第四卷积层的输出端经过特征相加层后依次连接第五卷积层、S型激活函数层，所述第五卷积层与损失计算模块连接，用于计算人群计数损失值；所述S型激活函数层的输出与特征拼接融合层的输出经过特征点乘层后，再次与特征拼接融合层的输出经过特征相加层后输出注意力图。

为了更好地实现本发明，进一步地，所述第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层为不同通道、卷积核大小为1x1的卷积层。

为了更好地实现本发明，进一步地，所述上下文感知网络包括若干个从前至后依次设置的上下文特征提取模块，所述上下文特征提取模块用于提取上采样图像的特征信息f1；所述细致注意力模块与上下文特征提取模块交错设置。

为了更好地实现本发明，进一步地，所述上下文特征提取模块包括从前至后依次设置的特征拼接融合层、特征重组层、嵌入位置向量层、层归一化层以及自注意力变换模块；所述自注意力变换模块包括从前至后依次设置的若干个多头自注意力模块以及层归一化层、全连接层、激活函数层。

为了更好地实现本发明，进一步地，所述多尺度特征提取网络采用特征金字塔结构进行搭建；所述多尺度特征提取网络包括从前至后依次设置的卷积层、批归一化层、激活函数层、残差块、特征金字塔。

本发明主要通过以下技术方案实现：

一种人群密度估计方法，采用上述的装置进行，包括以下步骤：

步骤S100：收集已标注人群数量的监控图像数据，并利用标注内容对每张图像数据生成对应人群密度图，形成训练集；

步骤S200：将训练集里的每张图片处理成两种尺度样本对，然后由网络模型提取图片样本的深度特征，再级联生成预测密度图，最后计算预测人群密度图和真实人群密度图之间的损失值进行优化指导；

步骤S300：利用损失函数级联计算预测人群数量与真实人群数量之间的差异，以及计算预测人群密度图和真实人群密度图之间的误差；

步骤S400：设定最大迭代次数和适配的超参数，然后采用优化器对损失值进行衰减，随机初始化网络模型的相关参数准备训练，通过迭代训练可以找到网络模型的最优解，最后测试收敛网络模型；

步骤S500：将待测图片输入训练后的网络模型并输出人群密度估计结果。

为了更好地实现本发明，进一步地，所述步骤S300中损失函数包括人群计数损失函数和人群密度图回归损失函数，所述人群计数损失函数用于用于预测人群数量与真实人群数量之间的差异，所述人群密度图回归损失函数用于计算预测人群密度图和真实人群密度图之间的误差。

一种计算机可读存储介质，存储有计算机程序指令，所述程序指令被处理器执行时实现上述的方法。

本发明的有益效果：

（1）本发明通过可监督的细致注意力模块将真实标注的信息作为监督信息，可以粗糙的纠正特征信息的偏差，使得注意力图能最大程度的抑制冗余信息，传播贡献度高的特征信息；

（2）本发明通过细致注意力模块交叉融合不同特性的特征，跨阶段的、有监督的促进提高分支特征的表达能力，与此同时，实现了有效的信息共享，可以大幅度提升生成密度图的质量，增强人群密度估计性能，具有较好的实用性；

（3）本发明通过引入新的上下文感知网络，改善卷积操作带来的局限性，并且为了让上下文感知网络和多尺度特征提取网络能更好的共同学习，构建可监督的细致注意力模块，能使模型在训练过程中渐进式学习，去除前向传播中冗余的特征信息，从而大大提高特征的表征能力，增强小目标的检测精度。

附图说明

图1为整体网络结构示意图。

图2为上下文特征提取模块结构示意图。

图3为可监督的细致注意力模块结构示意图。

具体实施方式

实施例1：

一种人群密度估计装置，包括数据采集模块、训练模块、检测模块，所述数据采集模块用于收集已标注人群数量的监控图像数据，并形成训练集；所述训练模块用于采用训练集训练网络模型，所述检测模块用于将待检测图片输入训练后的网络模型并输出人群密度估计结果。

如图1所示，所述网络模型包括上下文感知网络、多尺度特征提取网络以及若干个可监督的细致注意力模块，所述上下文感知网络与多尺度特征提取网络之间通过细致注意力模块进行横向链接，所述细致注意力模块用于利用真实密度图进行指导，将前一阶段计算出的注意力图精炼传播到下一阶段的特征信息；所述多尺度特征提取网络的输入图像为原始图像，用于利用不同层次的卷积层提取不同感受野、不同语义信息的特征信息f2；所述上下文感知网络的输入图像是原始图像的上采样图像，用于提取上采样图像的特征信息f1；所述细致注意力模块用于将特征信息f1和f2互补融合成新的信息，所述新的信息用于计算人群计数损失值，进而处理生成注意力图。

进一步地，所述多尺度特征提取网络采用特征金字塔结构进行搭建；所述多尺度特征提取网络包括从前至后依次设置的卷积层、批归一化层、激活函数层、残差块、特征金字塔。

如图1所示，网络模型的主干部分网络采用多分支结构，分为上下文感知网络和多尺度特征提取网络，并用可监督的细致注意力模块进行横向链接，起到促进两分支循序渐进学习的作用。多尺度特征提取网络的输入图像是原始图像，反之上下文感知网络的输入图像是上采样图像。其中多尺度特征提取网络的主干网络采用ResNet结构。

本发明通过引入新的上下文感知网络，改善卷积操作带来的局限性，并且为了让上下文感知网络和多尺度特征提取网络能更好的共同学习，构建可监督的细致注意力模块，能使模型在训练过程中渐进式学习，去除前向传播中冗余的特征信息，从而大大提高特征的表征能力，增强小目标的检测精度。

实施例2：

本实施例是在实施例1的基础上进行优化，如图3所示，所述细致注意力模块包括重组向量层、卷积层、S型激活函数层、特征相加层；所述卷积层包括第一卷积层、第二卷积层、第三卷积层、第四卷积层，所述f1通过重组向量层处理后分别与并列设置的第一卷积层、第二卷积层连接，所述f2分别与并列设置的第三卷积层、第四卷积层连接，所述第一卷积层、第三卷积层输出的特征为value特征，用于保留详细的特征信息进行检测；所述第二卷积层、第四卷积层输出的特征为key特征，用于生成注意力图，定位重要特征值；所述第二卷积层、第四卷积层通过特征相加层实现互补融合成新的信息，用于计算人群计数损失值，然后采用S型激活函数层处理生成注意力图。

进一步地，所述细致注意力模块还包括特征点乘层、特征拼接融合层以及损失计算模块，所述卷积层还包括第五卷积层；所述第一卷积层、第三卷积层的输出端分别与特征拼接融合层连接，所述第二卷积层、第四卷积层的输出端经过特征相加层后依次连接第五卷积层、S型激活函数层，所述第五卷积层与损失计算模块连接，用于计算人群计数损失值；所述S型激活函数层的输出与特征拼接融合层的输出经过特征点乘层后，再次与特征拼接融合层的输出经过特征相加层后输出注意力图。

进一步地，所述第一卷积层、第二卷积层、第三卷积层、第四卷积层为不同通道、卷积核大小为1x1的卷积层。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例是在实施例1或2的基础上进行优化，如图1所示，所述上下文感知网络包括若干个从前至后依次设置的上下文特征提取模块，所述上下文特征提取模块用于提取上采样图像的特征信息f1；所述细致注意力模块与上下文特征提取模块交错设置。

进一步地，如图2所示，所述上下文特征提取模块包括从前至后依次设置的特征拼接融合层、特征重组层、嵌入位置向量层、层归一化层以及自注意力变换模块；所述自注意力变换模块包括从前至后依次设置的若干个多头自注意力模块以及层归一化层、全连接层、激活函数层。其中激活函数层为高斯误差线性单元层。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

一种人群密度估计装置，如图1所示，网络模型主干部分网络采用多分支结构，分为上下文感知网络和多尺度特征提取网络，并用可监督的细致注意力模块进行横向链接，起到促进两分支循序渐进学习的作用，使各个分支提取的特征更精细，从而提高人群密度估计效果；其中，所述的可监督的细致注意力模块利用真实密度图进行指导，将前一阶段的分支特征计算出注意力图，用于精炼传播到下一阶段的特征信息。

多尺度特征提取网络的输入图像是原始图像，反之上下文感知网络的输入图像是上采样图像。其中多尺度特征提取网络的主干网络采用ResNet结构，图中①②③④标识表示4种不同层次卷积层输出的特征信息，尺度大小依次降低。所述的多尺度特征提取网络的核心思路就是利用不同层次的卷积层可以提取到不同感受野、不同语义信息的特征的特性。

如图2所示，上下文特征提取模块包括从前至后依次设置的特征拼接融合层、特征重组层、嵌入位置向量层、层归一化层以及自注意力变换模块，而自注意力变换模块从前至后由数个多头自注意力模块、层归一化层、全连接层、激活函数层构成，其中激活函数层为高斯误差线性单元层。这部分网络主要提取样本对中上采样图像包含的上下文信息，适度上采样的图像可以放大原始图像的细节信息，模型可以通过学习这部分信息增加对小目标的检测。如图1所示，在网络结构中，每次向前传播的特征信息是由可监督的细致注意力模块输出得到的，这种操作可以去除部分冗余特征，提高网络模型的训练速度，并且可以提高特征信息的质量。

如图3所示，可监督的细致注意力模块主要由卷积层、S型激活函数层、特征重组层、特征点乘层、特征拼接融合层以及损失计算模块构成。图中f1指上下文特征提取模块输出的特征信息，f2表示多尺度提取网络输出的特征信息，f1向量的维度需与f2的维度保持一致，所以在f1输入到模块里先做了一个特征重组的操作。其次，采用了4个并行的卷积层C1-C4处理f1和f2特征。如图3所示，C1和C3处理得到的特征称为value特征，用于保留详细的特征信息进行检测，而C2和C4处理得到的特征称为key特征，用于生成注意力图，定位重要特征值，且C1、C2、C3、C4、C5为不同通道、卷积核大小为1x1的卷积层。可监督的细致注意力图生成流程是先将C2和C4通过相加的方式互补融合成新的特征信息，然后用新生成的特征信息计算人群计数损失值，最后用激活函数生成注意力图，这种处理方式的优势是真实标注信息可以粗糙的纠正特征信息的偏差，使得注意力图能最大程度的抑制冗余信息，传播贡献度高的特征信息。

本发明通过引入新的上下文感知网络，改善卷积操作带来的局限性，并且为了让上下文感知网络和多尺度特征提取网络能更好的共同学习，构建可监督的细致注意力模块，能使模型在训练过程中渐进式学习，去除前向传播中冗余的特征信息，从而大大提高特征的表征能力，增强小目标的检测精度

实施例5：

进一步地，所述步骤S300中损失函数包括人群计数损失函数和人群密度图回归损失函数，所述人群计数损失函数用于用于预测人群数量与真实人群数量之间的差异，所述人群密度图回归损失函数用于计算预测人群密度图和真实人群密度图之间的误差。

所述人群计数损失函数公式如下：

其中：M表示批处理样本的大小，i表示样本的索引，Q(·)为从人群密度图转化成预测人数的函数，Q(i)为预测的人数，P _i为真实的人数。

而人群密度图回归损失函数用于整体的网络模型的损失值计算，计算公式如下：

公式中j为样本的索引，G为估测的人群密度图，D为真实的人群密度图。最后，总的损失函数如下：

其中

表示第一级细致注意力模块损失值、第二级细致注意力模块损失值、第三级细致注意力模块损失值。

本发明构建的人群密度估计方法针对小目标的检测更加精准，能良好的处理人群遮挡问题。由实验可得，本发明提出的新的人群密度估计方法与已有的方法相比较，上下文信息感知能力更强，并且可监督的细致注意力模块的引入能更好的自适应筛选特征信息，大大提高模型的检测性能。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种人群密度估计装置，其特征在于，包括数据采集模块、训练模块、检测模块，所述数据采集模块用于收集已标注人群数量的监控图像数据，并形成训练集；所述训练模块用于采用训练集训练网络模型，所述检测模块用于将待检测图片输入训练后的网络模型并输出人群密度估计结果；

2.根据权利要求1所述的一种人群密度估计装置，其特征在于，所述细致注意力模块包括重组向量层、卷积层、S型激活函数层、特征相加层；所述卷积层包括第一卷积层、第二卷积层、第三卷积层、第四卷积层，所述f1通过重组向量层处理后分别与并列设置的第一卷积层、第二卷积层连接，所述f2分别与并列设置的第三卷积层、第四卷积层连接，所述第一卷积层、第三卷积层输出的特征为value特征，用于保留详细的特征信息进行检测；所述第二卷积层、第四卷积层输出的特征为key特征，用于生成注意力图，定位重要特征值；所述第二卷积层、第四卷积层通过特征相加层实现互补融合成新的信息，用于计算人群计数损失值，然后采用S型激活函数层处理生成注意力图。

3.根据权利要求2所述的一种人群密度估计装置，其特征在于，所述细致注意力模块还包括特征点乘层、特征拼接融合层以及损失计算模块，所述卷积层还包括第五卷积层；所述第一卷积层、第三卷积层的输出端分别与特征拼接融合层连接，所述第二卷积层、第四卷积层的输出端经过特征相加层后依次连接第五卷积层、S型激活函数层，所述第五卷积层与损失计算模块连接，用于计算人群计数损失值；所述S型激活函数层的输出与特征拼接融合层的输出经过特征点乘层后，再次与特征拼接融合层的输出经过特征相加层后输出注意力图。

4.根据权利要求3所述的一种人群密度估计装置，其特征在于，所述第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层为不同通道、卷积核大小为1x1的卷积层。

5.根据权利要求1-4任一项所述的一种人群密度估计装置，其特征在于，所述上下文感知网络包括若干个从前至后依次设置的上下文特征提取模块，所述上下文特征提取模块用于提取上采样图像的特征信息f1；所述细致注意力模块与上下文特征提取模块交错设置。

6.根据权利要求5所述的一种人群密度估计装置，其特征在于，所述上下文特征提取模块包括从前至后依次设置的特征拼接融合层、特征重组层、嵌入位置向量层、层归一化层以及自注意力变换模块；所述自注意力变换模块包括从前至后依次设置的若干个多头自注意力模块以及层归一化层、全连接层、激活函数层。

7.根据权利要求1所述的一种人群密度估计装置，其特征在于，所述多尺度特征提取网络采用特征金字塔结构进行搭建；所述多尺度特征提取网络包括从前至后依次设置的卷积层、批归一化层、激活函数层、残差块、特征金字塔。

8.一种人群密度估计方法，采用权利要求1-7任一项所述的装置进行，其特征在于，包括以下步骤：

9.根据权利要求8所述的一种人群密度估计方法，其特征在于，所述步骤S300中损失函数包括人群计数损失函数和人群密度图回归损失函数，所述人群计数损失函数用于预测人群数量与真实人群数量之间的差异，所述人群密度图回归损失函数用于计算预测人群密度图和真实人群密度图之间的误差。

10.一种计算机可读存储介质，存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求8或9所述的方法。