CN113807334B

CN113807334B - 一种基于残差网络的多尺度特征融合的人群密度估计方法

Info

Publication number: CN113807334B
Application number: CN202111384302.XA
Authority: CN
Inventors: 邓力嘉; 何先定
Original assignee: Chengdu Aeronautic Polytechnic
Current assignee: Chengdu Aeronautic Polytechnic
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-18
Anticipated expiration: 2041-11-22
Also published as: GB2614806A; CN113807334A; GB202217424D0

Abstract

本发明公开了一种基于残差网络的多尺度特征融合的人群密度估计方法，属于视频图像处理技术领域领域，本发明的目的在于提供一种基于残差网络的多尺度特征融合的人群密度估计方法，该方法基于人群密度预测的算法，通过多级网络获得多尺度特征，依靠多尺度特征融合，有效协调网络对低级特征的保留和对高级特征的提取，有效提升所训练的网络在识别高密度人群数量时的精度，为综合管理系统提供人流密度的监督信息，防范突发性人群密集事件。

Description

一种基于残差网络的多尺度特征融合的人群密度估计方法

技术领域

本发明属于视频图像处理技术领域，具体涉及一种基于残差网络的多尺度特征融合的人群密度估计方法。

背景技术

在公共安全和城市发展方面，人群计数对社会具有相当重要的意义。手动计算视频或照片中的人数通常耗时费力。人们需要一种高效、经济的方法，而不是手工计数。目前商用人群监控应用主要是基于目标识别的技术，该技术使用不同大小的扫描框将人体从图形中完全标识出，然后通过计数框的数量来获取人数。该方法在人群密度大、遮挡多的环境下，会因为人体的呈现不完整而出现识别不完全，识别效果差等问题。

发明内容

为了解决现有算法基于检测的方式难以估计区域内高密度人群的人数的问题，本发明的目的在于提供一种基于残差网络的多尺度特征融合的人群密度估计方法，该方法基于人群密度预测的算法，通过多级网络获得多尺度特征，依靠多尺度特征融合，有效协调网络对低级特征的保留和对高级特征的提取，有效提升所训练的网络在识别高密度人群数量时的精度，为综合管理系统提供人流密度的监督信息，防范突发性人群密集事件。

本发明采用的技术方案如下：

一种基于残差网络的多尺度特征融合的人群密度估计方法，包括如下步骤：

步骤1：图像预处理：将所有的训练图像处理为同一尺寸，对训练图像中人头的位置进行标注，生成对应的人头坐标表格并保存；

步骤2：将步骤1生成的人头坐标表格结合对应的缩放矩阵，通过高斯核卷积，生成对应的密度图；

步骤3：将步骤2生成的各训练图片的密度图通过筛选器二值化，生成像素值为0或1的二值图，作为注意力区域图；

步骤4：将训练图像送入模型主干网络；

步骤5：将模型主干网络输出的特征分别送入密度预测网络和注意力预测网络中；

步骤6：将密度预测网络和注意力预测网络中分别输出的特征图像分别送入链式残差池化进行特征增强；

步骤7：将经过增强的输出特征图依次输出到上采样过程中，使高级特征图的尺寸与低级的特征图的尺寸相匹配；

步骤8：将步骤7处理完毕的特征图全部相加到一起后，获得注意力特征图和人群密度特征图；

步骤9：将注意力特征图输入一个一层卷积的预测层，获得注意力区域图；

步骤10：将注意力区域图与人群密度特征图进行合并，消除人群密度特征图中的额外噪点，减少预测误差；

步骤11：消除噪点后的人群密度特征图通过一个一层卷积的预测层，展开为一张人群密度预测图。

采用上述技术方案，本发明主要基于人群密度预测的算法，通过多级网络获得多尺度特征，依靠多尺度特征融合，能有效协调网络对低级特征的保留和对高级特征的提取，能有效提升所训练的网络在识别高密度人群数量时的精度。

具体的，所述步骤2中所述生成对应的密度图的方法如下：

；

其中，

为训练图像中预设目标的真值密度图，

为被标记的目标在图像中的横坐标，

为被标记的目标在图像中的纵坐标，π为圆周率，

为高斯核大小，e为自然常数。

具体的，所述步骤3中所述注意力区域图的生成方法如下：

；

其中，

注意力区域图，

为训练图像中预设目标的真值密度图，

为被标记的目标在图像中的横坐标，

为被标记的目标在图像中的纵坐标，k为筛选器阈值，该阈值默认为0.001，可以根据具体情况进行修改。

具体的，在所述步骤4的主干网络中，训练图像被送入三个连续的的下采样卷积层，在卷积层中，训练图片通过卷积核扫描生成输入到下一层网络的特征图，方法如下：

；

其中

为输出特征图的值，

为该卷积层神经元的权重，

为输入特征图的值，

为神经元编号，

为偏置参数。

具体的，所述图像在经过卷积处理后，尺寸会发生变化，所述尺寸变化的方法如下：

；

其中

为输出特征图的边长，

为输入特征图的边长，

为卷积核边长，

为步长。

为防止图像尺寸缩小，在图像周围添加一圈像素，使得卷积后的图像尺寸和卷积前的一样，所述添加像素的方法如下：

；

其中

为输出特征图的边长，

为输入特征图的边长，

为卷积核边长，p为像素填充量，stride为步长。

具体的，卷积处理后的特征图经过最大池化，用于减小数据总量，防止过拟合，使用ReLU函数作为网络的激活函数，把特征图的像素值做线性修正，其表达式如下：

；

其中

为激活函数输出值，

为输入特征图的值。

输入特征图的值具体的，所述步骤6中的密度预测网络和注意力预测网络拥有相同的残差网络结构，残差网络结构都是由都是由多个残差模块组成的，每个残差模块都包含了三个卷积层和三个激活层，经过三层卷积层计算后的特征图与输入特征图通过残差层进行叠加。

具体的，每个残差模块中输出的特征图会经过一个由3轮链式残差池化层组成的CRPblock进行计算，可以有助于保留主要的特征的同时，减少参数和计算量，以防止过拟合，提高人群计数模型的泛化能力。

具体的，所述步骤8中包括：

经过CRPblock计算之后的特征图按从高级到低级的顺序，通过一个两层卷积层的融合层逐一相加，这一过程中，更高级的特征图使用上采样模块来扩大图像尺寸以适应低级的特征图的尺寸，上采样模块用于扩大图像尺寸，根据特征图周围的像素，对新增加的像素点进行插值，计算表达式如下：

；

是输出特征的边长，

是输入特征的边长，

为卷积核边长，p为像素填充量，stride为步长。

将步骤7处理完毕的特征图全部相加到一起，获得注意力特征图和人群密度特征图。

具体的，所述步骤10、11中注意力区域图和人群密度特征图融合到一起，构成最终人群密度特征图的方法如下：

；

其中

为被标记的目标在图像中的横坐标，

为被标记的目标在图像中的纵坐标，

为最终人群密度特征图，

为注意力区域网络输出的注意力区域图，

为密度预测网络输出的人群密度特征图。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1. 采用全卷积网络的方式，使得网络的设计参数可以固定，解决了使用传统方式中的线性层设计参数受到输入图像尺寸的影响，使得我们的方法可以接受任意尺寸的输入图像。

2. 通过使用上采样网络的手段，使得特征图尺寸能够恢复到输入图像的大小，解决了一些传统方法中需要对训练图像进行降采样的问题，能够有效减少因为降采样导致原始数据变化而对网络的训练效果造成的影响。

3. 通过基于回归的计数方式，能够解决高密度人群在图像上人与人互相遮挡导致传统检测方法识别人体不准确的问题，提高了人群计数模型在识别高密度人群时的效果。

4. 通过基于回归的计数方式，能够解决高密度人群在图像上人与人互相遮挡导致传统检测方法识别人体不准确的问题，提高了人群计数模型在识别高密度人群时的效果。

5. 通过多尺度特征融合的手段，能使网络中具有不同抽象程度的特征互相融合，减少了传统方法中高抽象度的特征图对类似图像的纹理等底层特征的丢失，能够有效提高预测的人群密度图的精度。

6. 采用了GPU加速计算，能提高模型的运行速度，解决了CPU计算缓慢的问题的，能更加快捷的预测人数。

7. 采用了基于残差网络的多尺度特征融合技术，能在增加网络深度的同时，更好的保留图像的纹理等底层特征，辅助提升了网络的估算效果。

本发明主要基于人群密度预测的算法，通过多级网络获得多尺度特征，依靠多尺度特征融合，能有效协调网络对低级特征的保留和对高级特征的提取，能有效提升所训练的网络在识别高密度人群数量时的精度。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明中人群密度估计方法的流程图；

图2是本发明中人群密度预测的算法网络示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提出了一种基于残差网络的多尺度特征融合的人群密度估计方法。1)能够接受任意尺寸输入图像；2)无需的训练数据进行降采样；3)基于回归的网络设计，能估算高密度人群的人数；4)使用注意力机制改善估算精度；5)使用多尺度特征融合来提高预测性能；6)采用GPU加速计算，提升对人群密度的预测计算速度；7)基于残差网络的多尺度特征融合技术，能在增加网络深度的同时，更好的保留图像的底层特征，辅助提升了网络的估算效果。本发明提出的方法能有效协调网络对低级特征的保留和对高级特征的提取，能有效提升所训练的网络在识别高密度人群数量时的精度。

下面对本发明提供的一种基于残差网络的多尺度特征融合的人群密度估计方法进行介绍，参见图1，包括：

步骤1：图像预处理：将所有的训练图像处理为同一尺寸，可适当缩小图像尺寸减少计算机运算负担，同时对训练图像中人头的位置进行标注，生成对应的人头坐标表格（location table）并保存为.mat格式；步骤2：将步骤1生成的人头坐标表格结合对应的缩放矩阵（Perspective map），通过高斯核卷积，生成对应的密度图并保存为CSV格式；步骤3：将步骤2生成的各训练图片的密度图通过筛选器二值化，生成像素值为0或1的二值图，作为注意力区域图；步骤4：将训练图像送入模型主干网络；步骤5：将模型主干网络输出的特征分别送入密度预测网络和注意力预测网络中，密度预测网络和注意力预测网络具有相同的网络结构；步骤6：将密度预测网络和注意力预测网络中分别输出的特征图像分别送入链式残差池化进行特征增强；步骤7：由于图像经过网络处理，在尺寸上缩小了8倍，所以我们为网络添加了上采样结构，将经过增强的的输出特征图依次输出到上采样过程中，使高级特征图的尺寸与低级的特征图的尺寸相匹配；步骤8：将步骤7处理完毕的特征图全部相加到一起后，获得注意力特征图和人群密度特征图；步骤9：将注意力特征图输入一个一层卷积的预测层，获得注意力区域图；步骤10：将注意力区域图与人群密度特征图进行合并，消除人群密度特征图中的额外噪点，减少预测误差；步骤11：消除噪点后的人群密度特征图通过一个一层卷积的预测层，展开为一张人群密度预测图。

具体步骤如下：

所述步骤2中所述生成对应的密度图的方法如下：

；

其中，

为训练图像中预设目标的真值密度图，x为被标记的目标在图像中的横坐标，y为被标记的目标在图像中的纵坐标，π为圆周率，

为高斯核大小，e为自然常数。

所述步骤3中所述注意力区域图的生成方法如下：

；

其中，

注意力区域图，

为训练图像中预设目标的真值密度图，

为被标记的目标在图像中的横坐标，

为被标记的目标在图像中的纵坐标，k为筛选器阈值，该阈值默认为0.001，可以更加具体情况进行修改。

具体的，在所述步骤4的主干网络中，训练图像被送入三个连续的的下采样卷积层，该主干网络包含了三个卷积层、一个池化层和三个激活层，这个三个卷积层分别有不同大小的卷积核，在下采样卷积层中，训练图片通过下采样卷积核扫描生成输入到下一层网络的特征图，方法如下：

；

其中

为输出特征图的值，

为该卷积层神经元的权重，

为输入特征图的值，

为神经元编号，

为偏置参数。

；

其中

为输出特征图的边长，

为输入特征图的边长，

为卷积核边长，

为步长；

为防止图像尺寸缩小，使用像素（padding）填充技术，在图像周围添加一圈像素，使得卷积后的图像尺寸和卷积前的一样，所述添加像素的方法如下：

；

其中

为输出特征图的边长，

为输入特征图的边长，

为卷积核边长，p为像素填充量，stride为步长。

具体的，卷积处理后的特征图经过最大池化，用于减小数据总量，防止过拟合，使用ReLU函数作为网络的激活函数，表达式如下：

；

其中

为激活函数输出值，

为输入特征图的值。

输入特征图的值具体的，所述步骤6中的密度预测网络和注意力预测网络拥有相同的残差网络结构，残差网络结构都是由都是由多个残差模块(Resblock)组成的，每个残差模块都包含了三个卷积层和三个激活层，经过三层卷积层计算后的特征图与输入特征图通过残差层进行叠加

具体的，每个残差模块中输出的特征图会经过一个由3轮链式残差池化层（Chained residual pooling）组成的CRPblock进行计算，可以有助于保留主要的特征的同时，减少参数和计算量，以防止过拟合，提高模型泛化能力。

具体的，所述步骤7中的高级特征图与低级特征图分别指代来自于网络更深层的抽象程度更高的特征图和来自于网络更浅层的抽象程度更低的特征图。

具体的，所述步骤8中包括：

经过CRPblock计算之后的特征图按从高级到低级的顺序，通过一个两层卷积层的融合层(fusion layer)逐一相加，这一过程中，更高级的特征图使用上采样模块来扩大图像尺寸以适应低级的特征图的尺寸，上采样模块用于扩大图像尺寸，根据特征图周围的像素，对新增加的像素点进行插值，计算表达式如下：

；

将步骤7处理完毕的特征图全部相加到一起，获得注意力特征图

和人群密度特征图

。

具体的，在所述步骤10、11中，将注意力区域图

和人群密度特征图

融合到一起，构成最终人群密度特征图的方法如下：

；

其中

为被标记的目标在图像中的横坐标，

为被标记的目标在图像中的纵坐标，

为最终人群密度特征图，

为注意力区域网络输出的注意力区域图，

为密度预测网络输出的人群密度特征图。

需要说明的是，本实施例中的人头坐标表格并保存为.mat格式以及密度图并保存为CSV格式，此处的人头坐标表格以及密度图的格式并不构成对技术方案的限定，在不影响技术方案实施的前提下，可以替换为其余同类的格式。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的得同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于残差网络的多尺度特征融合的人群密度估计方法，其特征在于，包括如下步骤：步骤1：图像预处理：将所有的训练图像处理为同一尺寸，对训练图像中人头的位置进行标注，生成对应的人头坐标表格并保存；

步骤4：将训练图像送入模型主干网络；

步骤11：消除噪点后的人群密度特征图通过一个一层卷积的预测层，展开为一张人群密度预测图；

所述步骤6中的密度预测网络和注意力预测网络拥有相同的残差网络结构，残差网络结构都是由都是由多个残差模块组成的，每个残差模块都包含了三个卷积层和三个激活层，经过三层卷积层计算后的特征图与输入特征图通过残差层进行叠加；每个残差模块中输出的特征图会经过一个由3轮链式残差池化层组成的链式残差池化模块进行计算。

2.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法，其特征在于，所述步骤2中所述生成对应的密度图的方法如下：

其中，G(x,y)为训练图像中预设目标的真值密度图，x为被标记的目标在图像中的横坐标，y为被标记的目标在图像中的纵坐标，π为圆周率，σ为高斯核大小，e为自然常数。

3.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法，其特征在于，所述步骤3中所述注意力区域图的生成方法如下：

其中，Attention(x，y)注意力区域图，G(x，y)为训练图像中预设目标的真值密度图，x为被标记的目标在图像中的横坐标，y为被标记的目标在图像中的纵坐标，k为筛选器阈值，该阈值默认为0.001，可以根据具体情况进行修改。

4.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法，其特征在于，在所述步骤4的主干网络中，训练图像被送入三个连续的的下采样卷积层，在卷积层中，训练图片通过卷积核扫描生成输入到下一层网络的特征图，方法如下：

h＝∑_iw_ie_i+b；

其中h为输出特征图的值，w_i为该卷积层神经元的权重，e_i为输入特征图的值，i为神经元编号，b为偏置参数。

5.根据权利要求4所述的一种基于残差网络的多尺度特征融合的人群密度估计方法，其特征在于，所述图像在经过卷积处理后，尺寸会发生变化，尺寸变化的方法如下：

其中d_out为输出特征图的边长，d_in为输入特征图的边长，d_kernel为卷积核边长，stride为步长，

为防止图像尺寸缩小，在图像周围添加一圈像素，使得卷积后的图像尺寸和卷积前的一样，添加像素的方法如下：

其中d_out为输出特征图的边长，d_in为输入特征图的边长，d_kernel为卷积核边长，p为像素填充量，stride为步长。

6.根据权利要求5所述的一种基于残差网络的多尺度特征融合的人群密度估计方法，其特征在于，卷积处理后的特征图经过最大池化，使用ReLU函数作为网络的激活函数，表达式如下：

σ(e)＝max(0，e)；

其中σ(e)为激活函数输出值，e为输入特征图的值。

7.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法，其特征在于，所述步骤8中具体包括：

d_out＝(d_in)×stride+d_kernel-2×p；

d_out是输出特征图的边长，d_in为输入特征图的边长，d_kernel为卷积核边长，p为像素填充量，stride为步长，CRPblock为3轮链式残差池化层组成的；

8.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法，其特征在于，所述步骤10、11中注意力区域图和人群密度特征图融合到一起，构成最终人群密度特征图的方法如下：

P(x，y)＝Att(x，y)×Perd(x，y)；

其中x为被标记的目标在图像中的横坐标，y为被标记的目标在图像中的纵坐标，P(x，y)为最终人群密度特征图，Att(x，y)为注意力区域网络输出的注意力区域图，Perd(x，y)为密度预测网络输出的人群密度特征图。