CN111681236A

CN111681236A - 一种带注意力机制的目标密度估计方法

Info

Publication number: CN111681236A
Application number: CN202010534052.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-18
Anticipated expiration: 2040-06-12
Also published as: CN111681236B

Abstract

本发明公开了一种带注意力机制的目标密度估计方法，涉及图像处理领域，包括：生成对应的预设目标坐标表格；基于预设目标坐标表格，生成对应训练图像中的预设目标的真值密度图；基于各个训练图像对应的预设目标的真值密度图生成全局注意力区域图；将训练图像与该训练图像中的预设目标的真值密度图分别输入并行的密度预测网络与注意力区域网络，输出预设目标密度预测图和注意力区域图；合并注意力区域图与预设目标密度预测图得到最终预设目标密度特征图；将最终预设目标密度特征图展开为最终预设目标预测图，本发明用以解决现有方法基于检测的方式难以估计区域内高密度目标数目的问题，为基于目标个数的应用提供准确的基础。

Description

一种带注意力机制的目标密度估计方法

技术领域

本发明涉及图像处理领域，具体地，涉及一种带注意力机制的目标密度估计方法。

背景技术

目前目标监控应用主要是基于目标识别的技术，这些检测方法通常是将目标用检测框圈出，通过统计检测框的数量来进行目标数量的统计，这些方法在目标密度大、遮挡多的环境下识别效果差，部分目标无法被检测框圈出，在统计时会漏掉许多目标。常见的卷积神经网络为单列网络，当目标物在图像中透视缩放程度较大时，单列神经网络很难学习到全部的特征情况。同时，现有神经网络通常会对输入图片的尺寸做要求，使得这些网络在使用时需要去调整图片的大小以适应神经网络。

发明内容

本发明提供了一种带注意力机制的目标密度估计方法，用以解决现有方法基于检测的方式难以估计区域内高密度目标数目的问题，为基于目标个数的应用提供准确的基础。

本发明基于目标密度估计的回归算法，能规避部分目标无法被检测框圈出的问题；添加了注意力学习模块，能有效提升网络在识别高密度目标数量时的精度。同时，本发明使用了多列卷积神经网络技术，每列卷积神经网络都有不同尺寸的卷积核，每列卷积神经网络能更好学习一种尺寸目标物，即大卷积核的网络学习大尺寸目标，小卷积核的网络学习小尺寸目标。该设计能更好全局学习图像中因透视缩放而大小差距很大的目标物。本发明使用技术成熟的VGG网络采集局部注意力区域，能有效提高系统的稳定性。本发明的网络参数经过调整，能使神经网络适应不同尺寸的图片，而无需对图片的尺寸做特定要求。

为实现上述发明目的，本发明提供了一种带注意力机制的目标密度估计方法，所述方法包括：

预处理训练图像，包括：标注训练图像中预设目标的位置得到对应的预设目标坐标表格；

基于预设目标坐标表格，生成对应训练图像中的预设目标的真值密度图；

基于各个训练图像对应的预设目标的真值密度图生成全局注意力区域图；

将训练图像与该训练图像中的预设目标的真值密度图分别输入并行的密度预测网络与注意力区域网络，密度预测网络输出预设目标密度预测图，注意力区域网络输出注意力区域图；

合并注意力区域图与预设目标密度预测图，消除预设目标密度预测图中的额外噪点得到最终预设目标密度特征图；

将最终预设目标密度特征图展开为最终预设目标预测图。

其中，本发明提出的目标密度估计方法能够接受任意尺寸的输入图像；无需对训练数据进行降采样；基于回归的网络设计，能估算高密度目标的数量；使用注意力机制提高估算精度。

其中，本发明中的预设目标可以为人，也可以为其他动物或建筑物或汽车等等物体，本发明对具体的预设目标类型不进行限定。

优选的，在本发明中为了减轻计算机的负荷，本发明中预处理训练图像还包括：将训练图像处理为同一尺寸。

优选的，本发明中所述基于预设目标坐标表格，生成对应训练图像中的预设目标的真值密度图，具体包括：

定标拍摄训练图像的拍摄设备得到该拍摄设备拍摄的图像大小相对于真实物体大小的缩放矩阵；

将预设目标坐标表格结合对应的缩放矩阵，通过高斯核卷积，生成训练图像对应的预设目标真值密度图。

优选的，本发明中采用以下公式生成训练图像中预设目标真值密度图：

其中，G(x,y)是高斯核卷积生成的训练图像中预设目标真值密度图，x为横坐标，y为纵坐标，π为圆周率，σ为高斯核大小。

优选的，本发明中所述基于各个训练图像对应的预设目标真值密度图生成全局注意力区域图，具体包括：将各个训练图像对应的预设目标真值密度图融入到一张坐标图中，并归一化到[0,1]区间内生成全局注意力区域图。

优选的，本发明中采用以下公式进行全局注意力区域图的计算：

其中，Attention(x,y)为全局注意力区域图，G(x,y)为训练图像中预设目标的真值密度图，x为横坐标，y为纵坐标，m为训练图像编号；M为训练图像总数。

优选的，本发明中在密度预测网络中，训练图像被分别输入三个并行的下采样编码子网络，下采样编码子网络将预设图像压缩，三个并行的下采样编码子网络分别使用三种不同大小的卷积核，每个下采样编码子网络均包括三个卷积层、一个池化层和三个激活层；

密度预测网络中的三个并行的下采样编码子网络能针对训练图像中的大、中和小目标分别输出一份特征图，并将这三份特征图合并到同一份特征图中。

优选的，本发明中训练图像通过卷积核扫描生成输入到下一层网络的特征图，其数学原理如下：

y＝∑_iw_ix_i+b

其中，y为输出特征图的值，w_i为该卷积层神经元的权重，x_i为输入特征图的值，i为神经元编号，b为偏置参数；

对训练图像进行像素填充，在训练图像周围额外添加一圈像素，其数学表达如下：

其中，d_out为输出特征图的边长，d_in为输入特征图的边长，d_kernel为卷积核边长，p为像素填充量，stride为步长；

卷积处理后的特征图经过最大池化；

使用ReLU函数作为神经网络的激活函数：

σ(x)＝max(0，x)；

其中，σ(x)为激活函数输出值，x为特征图的值。

优选的，本发明中密度预测网络添加作为解码器的上采样结构，训练图像将经过两个上采样模块处理，每个上采样模块由一个反卷积层组和一个卷积层组构成；

上采样模块能通过对训练图像做像素级的插值，扩大图像尺寸，其数学表达如下：

d_out＝(d_in)×stride+d_kernel-2×p

其中，d_out为输出特征图边长，d_in为输入特征图边长，d_kernel为反卷积卷积核边长，p为像素填充量，stride为步长。

优选的，本发明中利用基于VGG16网络的预训练注意力区域网络，通过迁移学习的方法，搭建生成注意力区域图的注意力区域网络，将VGG16网络最后四层全连接层变成卷积核为1×1的卷积层，利用反卷积层4倍上采样，将图像大小缩放到与密度预测网络输出图像大小相同。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明为解决常规检测方法难以应对大规模目标的问题，提出基于回归的人群密度估算方法。本发明创新使用了注意力机制对网络生成的密度图进行杂波过滤，辅助提升了网络的估算效果。本网络相较于原始的MCNN网络模型，准确度提升了大约25％。网络对人群密度的预测采用GPU加速计算，获得CPU计算2倍以上的计算的速度。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1为带注意力机制的目标密度估计方法网络示意图；

图2为带注意力机制的目标密度估计方法流程示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一

实施例一以目标为人对本发明进行介绍，当目标为其他类型时进行替换即可。

请参考图1-图2，图1为带注意力机制的目标密度估计方法网络示意图，图2为带注意力机制的目标密度估计方法流程示意图，本发明提出了一种带注意力机制的人群密度估计方法：本发明能够接受任意尺寸输入图像；无需对训练数据进行降采样；基于回归的网络设计，能估算高密度目标的数量；使用注意力机制提高估算精度。

本实施例中的目标密度估计方法流程如下：

步骤1：图像预处理。将训练图像处理为同一尺寸，可适当缩小图像尺寸减少计算机运算负荷，同时标注训练图像中目标的位置，生成对应的目标坐标表格(LocationTable)。

步骤2：密度图(Densitymap)生成。摄像机拍摄的画面存在近大远小的透视缩放，通过定标摄像机得到该摄像机的图像大小相对于真实物体大小的缩放矩阵(Perspectivemap)。将步骤1生成的人头坐标表格结合对应的缩放矩阵(Perspective map)，通过高斯核卷积，生成对应的密度图。其数学原理如以下公式所示：

步骤3：全局注意力区域图生成。将步骤2生成的各训练图片密度图全部融入到一张坐标图中，并归一化到[0,1]区间内。

步骤4：将训练图像与其对应的真值密度图即步骤2所生成密度图分别输入并行的密度预测网络与注意力区域网络。

步骤5：在密度预测网络中，训练图像被分别输入三个并行的下采样编码(Encoder)子网络，下采样网络能将图像压缩，减少数据量，提升运算速度。这三个并行子网络分别使用三种不同大小的卷积核，每个子网络均包含了三个卷积层、一个池化层和三个激活层。

卷积层介绍：训练图片通过卷积核扫描生成输入到下一层网络的特征图featuremap，其数学原理如下：

y＝∑_iw_ix_i+b

通常图像在经过卷积处理后，尺寸会发生变化，其数学原理如下：

其中，d_out为输出特征图的边长，d_in为输入特征图的边长，d_kernel为卷积核的边长，stride为步长。

为防止图像尺寸缩小，本发明使用了像素填充(padding)技术，在图像周围额外添加一圈像素，使得卷积后的图像尺寸和卷积前的一样。其数学表达如下：

卷积处理后的特征图经过最大池化，减小数据总量，防止过拟合。

使用ReLU函数作为网络的激活函数：

σ(x)＝max(0，x)

其中，σ(x)为激活函数输出值，x为特征图的值。

步骤6：密度预测网络中的三个并行的下采样子网络针对图像中的大、中、小目标，分别输出一份特征图。将这三份特征图合并到同一份特征图中。

步骤7：由于图像经过前半段网络的编码压缩(Encoder)处理，尺寸缩小了4倍，所以本发明为网络添加了作为解码器Decoder的上采样结构。图像将经过两个上采样模块处理，每个模块由一个反卷积层组和一个卷积层组构成。

上采样模块能通过对图像做像素级的插值，扩大图像尺寸，其数学表达如下：

d_out＝(d_in)×stride+d_kernel-2×p

步骤8：同理，利用基于VGG16网络的预训练网络，通过迁移学习的方法，搭建了生成注意力区域图的注意力区域网络。将VGG16网络最后四层全连接层变成卷积核为1×1的卷积层，利用反卷积层4倍上采样，图像大小缩放到与密度预测网络输出图像一样。

步骤9：合并注意力区域图与人群密度预测图，消除人群密度预测图中的额外噪点，减少预测误差。其数学原理如下：

其中，P(x,y)为最终密度特征图，Att(x,y)为注意力区域网络输出的局部注意力特征图，Perd(x,y)为密度预测网络输出的初步密度特征图。

步骤10：消除噪点后的最终密度特征图通过卷积核为1×1的卷积层，展开为一张预测图。

本发明为解决常规检测算法难以应对大规模人群的问题，提出基于回归的人群密度估算方法。该方法创新使用了注意力机制对网络生成的密度图进行杂波过滤，辅助提升了网络的估算效果。本网络相较于原始的MCNN网络模型，准确度提升了大约25％。网络对人群密度的预测采用GPU加速计算，获得CPU计算2倍以上的计算的速度。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种带注意力机制的目标密度估计方法，其特征在于，所述方法包括：

合并注意力区域图与预设目标密度预测图，消除预设目标密度预测图中的额外噪点，得到最终预设目标密度特征图；

将最终预设目标密度特征图展开为最终预设目标预测图。

2.根据权利要求1所述的带注意力机制的目标密度估计方法，其特征在于，所述预处理训练图像还包括：将训练图像处理为同一尺寸。

3.根据权利要求1所述的带注意力机制的目标密度估计方法，其特征在于，所述基于预设目标坐标表格，生成对应训练图像中的预设目标的真值密度图，具体包括：

4.根据权利要求3所述的带注意力机制的目标密度估计方法，其特征在于：

5.根据权利要求1所述的带注意力机制的目标密度估计方法，其特征在于，所述基于各个训练图像对应的预设目标的真值密度图生成全局注意力区域图，具体包括：将各个训练图像对应的预设目标的真值密度图融入到一张坐标图中，并归一化到[0,1]区间内生成全局注意力区域图。

6.根据权利要求5所述的带注意力机制的目标密度估计方法，其特征在于：

7.根据权利要求1所述的带注意力机制的目标密度估计方法，其特征在于，在密度预测网络中，训练图像被分别送入三个并行的下采样编码子网络，下采样编码子网络将预设图像压缩；三个并行的下采样编码子网络分别使用三种不同大小的卷积核，每个下采样编码子网络均包括三个卷积层、一个池化层和三个激活层；

密度预测网络中的三个并行的下采样编码子网络针对训练图像中的大、中和小目标分别输出一份特征图，将这三份特征图合并到同一份特征图中。

8.根据权利要求7所述的带注意力机制的目标密度估计方法，其特征在于：

训练图像通过卷积核扫描生成输入到下一层网络的特征图，其数学原理如下：

y＝∑_iw_ix_i+b

其中，do_ut为输出特征图的边长，d_in为输入特征图的边长，d_kernel为卷积核边长，p为像素填充量，stride为步长；

卷积处理后的特征图经过最大池化；

使用ReLU函数作为神经网络的激活函数：

σ(x)＝max(0，x)

其中，ρ(x)为激活函数输出值，x为特征图的值。

9.根据权利要求7所述的带注意力机制的目标密度估计方法，其特征在于，密度预测网络添加作为解码器的上采样结构，训练图像将经过两个上采样模块处理，每个上采样模块由一个反卷积层组和一个卷积层组构成；

上采样模块能通过对训练图像做像素级的插值，扩大图像尺寸，其数学表达如公式：

d_out＝(d_in)×stride+d_kernel-2×p

10.根据权利要求1所述的带注意力机制的目标密度估计方法，其特征在于，利用基于VGG16网络的预训练注意力区域网络，通过迁移学习的方法，搭建生成注意力区域图的注意力区域网络，将VGG16网络最后四层全连接层变成卷积核为1×1的卷积层，利用反卷积层4倍上采样，将图像大小缩放到与密度预测网络输出图像大小相同。