CN117315428B

CN117315428B - 一种跨模态特征对齐融合的人群计数系统及方法

Info

Publication number: CN117315428B
Application number: CN202311415625.XA
Authority: CN
Inventors: 孔维航; 于泽鹏; 李贺; 马尧
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-04-05
Anticipated expiration: 2043-10-30
Also published as: CN117315428A

Abstract

本发明公开一种跨模态特征对齐融合的人群计数系统及方法，涉及计算机视觉技术领域，包括：获取待计数场景下人群的可见光图像和热红外图像；将可见光图像和热红外图像输入优化后的跨模态特征对齐融合计数系统中，得到估计的人群密度图；其中，跨模态特征对齐融合计数系统包括初始特征提取层、可见光跨模态特征对齐层、热红外跨模态特征对齐层、可见光频域特征提取层、热红外频域特征提取层、跨模态频域特征提取层、频域特征融合层、人群密度图估计层；将估计的人群密度图进行逐像素相加，得到人群图像中人数的估计值。本发明能够有效解决不同模态图像错位现象带来的准确率下降问题。

Description

一种跨模态特征对齐融合的人群计数系统及方法

技术领域

本发明涉及计算机视觉技术领域，尤其是一种跨模态特征对齐融合的人群计数系统及方法。

背景技术

随着人们对公共场所安全问题的日益关注，人群计数由于能够预测无约束场景下的人数和人群分布而受到研究者的广泛关注。作为计算机视觉领域的一个重要课题，人群计数在现实世界的监控系统工程中有着广泛的应用，如人群流量监控和人群分析等。

无约束场景中的人群计数任务仍面临许多问题，特别是在不同场景下有不同的照明条件。在光照较差的黑暗场景下，先前基于可见光的单模态人群计数方法不能准确地提取到人群语义信息，这会严重影响计数精度。因此，一些研究者引入热红外数据作为补充源来补充同一场景中的可见光图像进行人群计数。但是，由于可见光图像和热红外图像是从具有不同成像原理的两个相机或传感器捕获的，所以成对的跨模态图像中不可避免地存在错位问题。然而现有跨模态人群计数方法技术通常专注于跨模态特征的融合，而忽略了错位问题，这会给计数网络模型从不同模态图像中提取对应特征的过程带来不利影响，进而影响计数精度。

发明内容

本发明需要解决的技术问题是提供一种跨模态特征对齐融合的人群计数系统及方法，能够减少不同模态图像间的错位问题对计数性能带来的不利影响，从而提升可见光-热红外跨模态人群计数方案的计数精度

为解决上述技术问题，本发明所采用的技术方案是：一种跨模态特征对齐融合的人群计数系统，包括依次相连的初始特征提取层、特征对齐层、频域特征提取层、频域特征融合层和人群密度图估计层，其中特征对齐层包括可见光特征对齐层和热红外特征对齐层，频域特征提取层包括可见光频域特征提取层、跨模态频域特征提取层和热红外频域特征提取层。

本发明技术方案的进一步改进在于：各层具体结构如下：

初始特征提取层：依次为2个3×3的卷积层、1个最大池化层、2个3×3的卷积层、1个最大池化层、4个3×3的卷积层、1个最大池化层、4个3×3的卷积层、1个最大池化层和4个3×3的卷积层，各卷积层所生成的特征图通道数依次为64、64、128、128、256、256、256、256、512、512、512、512、512、512、512和512，池化层的步长均为2；

可见光特征对齐层：1个相减操作、1个卷积核尺寸为3×3，输出通道数为18的卷积层、1个卷积核尺寸为3×3，输出通道数为512的卷积层、1个相加操作；

热红外特征对齐层：1个相减操作、1个卷积核尺寸为3×3，输出通道数为18的卷积层、1个卷积核尺寸为3×3，输出通道数为512的卷积层、1个相加操作；

可见光频域特征提取层：小波变换、空间注意力和小波逆变换，其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7，输出通道为1的卷积层和1个Sigmoid激活函数；

跨模态频域特征提取层：1个卷积核尺寸为1×1，输出通道数为512的卷积层、小波变换、空间注意力和小波逆变换，其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7，输出通道数为1的卷积层和1个Sigmoid激活函数；

热红外频域特征提取层：小波变换、空间注意力和小波逆变换，其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7，输出通道数为1的卷积层和1个Sigmoid激活函数；

频域特征融合层：2个差分操作和1个通道维度连接操作；

人群密度图估计层：1个卷积核尺寸为3×3，输出通道数为256的卷积层、1个卷积核尺寸为3×3，输出通道数为128的卷积层、1个卷积核尺寸为1×1，输出通道数为1的卷积层和2个ReLU层

一种跨模态特征对齐融合的人群计数方法，步骤如下：

步骤1：将可见光图像和热红外图像输入初始特征提取层进行初始特征提取，分别得到可见光初始特征图和热红外初始特征图；

步骤2：将可见光初始特征图和热红外初始特征图输入可见光特征对齐层进行特征对齐，得到可见光对齐特征图；

步骤3：将热红外初始特征图和可见光初始特征图输入热红外特征对齐层进行特征对齐，得到热红外对齐特征图；

步骤4：将可见光对齐特征图输入可见光频域特征提取层进行可见光频域特征提取，得到可见光频域特征图；

步骤5：将热红外对齐特征图输入热红外频域特征提取层进行热红外频域特征提取，得到热红外频域特征图；

步骤6：将可见光对齐特征图与热红外对齐特征图进行拼接，得到互补特征图，将互补特征图输入跨模态频域特征提取层进行跨模态频域特征提取，得到互补频域特征图；

步骤7：将可见光频域特征图、热红外频域特征图及互补频域特征图输入频域特征融合层进行融合，得到跨模态融合特征图；

步骤8：将跨模态融合特征图输入人群密度图估计层进行人群密度估计，得到估计的人群密度图；

步骤9：将估计的人群密度图进行逐像素相加，得到人群图像中人数的估计值。

本发明技术方案的进一步改进在于：步骤2具体如下：

步骤2.1：将热红外初始特征图与可见光初始特征图相减，得到差分特征图；

步骤2.2：将差分特征图输入卷积核尺寸为3×3，输出通道数为18的卷积层中，得到偏移图；

步骤2.3：将偏移图与差分特征图相加后输入卷积核尺寸为3×3，输出通道数为512的卷积层中，得到变形特征图；

步骤2.4：将可见光初始特征图与步骤2.3得到的变形特征图相加，得到可见光对齐特征图。

本发明技术方案的进一步改进在于：步骤3具体如下：

步骤3.1：将可见光初始特征图与热红外初始特征图相减，得到差分特征图；

步骤3.2：将差分特征图输入卷积核尺寸为3×3，输出通道数为18的卷积层中，得到偏移图；

步骤3.3：将偏移图与差分特征图相加后输入卷积核尺寸为3×3，输出通道数为512的卷积层中，得到变形特征图；

步骤3.4：将热红外初始特征图与步骤3.3得到的变形特征图相加，得到热红外对齐特征图。

本发明技术方案的进一步改进在于：步骤4具体如下：

步骤4.1：可见光频域特征提取层中的小波变换将可见光对齐特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量；

步骤4.2：利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵，并将加权矩阵与水平高频分量进行对应位置像素相乘，得到水平高频分量空间注意增强特征；

步骤4.3：将垂直高频分量和步骤4.2得到的水平高频分量空间注意增强特征进行相加，随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵，并将加权矩阵与相加结果进行对应位置像素相乘，得到垂直高频分量空间注意增强特征；

步骤4.4：将对角线高频分量和步骤4.3得到的垂直高频分量空间注意增强特征进行相加，随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵，并将加权矩阵与相加结果进行对应位置像素相乘，得到对角线高频分量空间注意增强特征；

步骤4.5：将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接，并将连接后的结果进行小波逆变换，得到可见光频域特征图。

本发明技术方案的进一步改进在于：步骤5具体如下：

步骤5.1：热红外频域特征提取层中的小波变换将热红外对齐特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量；

步骤5.2：利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵，并将加权矩阵与水平高频分量进行对应位置像素相乘，得到水平高频分量空间注意增强特征；

步骤5.3：将垂直高频分量和步骤5.2得到的水平高频分量空间注意增强特征进行相加，随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵，并将加权矩阵与相加结果进行对应位置像素相乘，得到垂直高频分量空间注意增强特征；

步骤5.4：将对角线高频分量和步骤5.3得到的垂直高频分量空间注意增强特征进行相加，随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵，并将加权矩阵与相加结果进行对应位置像素相乘，得到对角线高频分量空间注意增强特征；

步骤5.5：将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接，并将连接后的结果进行小波逆变换，得到热红外频域特征图。

本发明技术方案的进一步改进在于：步骤6具体如下：

步骤6.1：将可见光对齐特征图和热红外对齐特征图进行通道维度连接并通过卷积核尺寸为1×1，输出通道数为512的卷积层进行降维，得到互补特征图；

步骤6.2：跨模态频域特征提取层中的小波变换将互补特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量；

步骤6.3：利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵，并将加权矩阵与水平高频分量进行对应位置像素相乘，得到水平高频分量空间注意增强特征；

步骤6.4：将垂直高频分量和步骤6.3得到的水平高频分量空间注意增强特征进行相加，随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵，并将加权矩阵与相加结果进行对应位置像素相乘，得到垂直高频分量空间注意增强特征；

步骤6.5：将对角线高频分量和步骤6.4得到的垂直高频分量空间注意增强特征进行相加，随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵，并将加权矩阵与相加结果进行对应位置像素相乘，得到对角线高频分量空间注意增强特征；

步骤6.6：将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接，并将连接后的结果进行小波逆变换，得到互补频域特征图。

本发明技术方案的进一步改进在于：步骤7具体如下：

步骤7.1：利用互补频域特征图分别与可见光频域特征图、热红外频域特征图进行差分操作，得到两个过渡特征图；

步骤7.2：将两个过渡特征图进行通道维度连接，得到跨模态融合特征图。

本发明技术方案的进一步改进在于：步骤8具体如下：

步骤8.1：将跨模态融合特征图输入人群密度图估计层，依次经过卷积核尺寸为3×3，输出通道为256的卷积层、1个ReLU层、卷积核尺寸为3×3，输出通道为128的卷积层、1个ReLU层、卷积核尺寸为1×1，输出通道为1的卷积层，得到估计的人群密度图。

由于采用了上述技术方案，本发明取得的技术进步是：利用可见光特征对齐层、热红外特征对齐层分别对可见光图像和热红外图像进行跨模态特征的对齐，该模块的设计简洁高效地减少了跨模态错位问题对可见-热红外人群数量预测任务的负面影响，对齐后的跨模态人群特征图可以有效提高计数网络模型的最终计数精度，以减少不同模态图像的错位问题对于特征提取过程的不利影响。除此之外，通过引入了频域信息，利用两个特定模态频域特征提取层以及一个互补频域特征提取层，以提取频域上丰富的特征表示，用于融合跨模态人群计数任务中不同模态的对齐特征，从空间-频率联合的角度为相关的跨模态密集预测任务提供一种有效的互补特征表示方法，可以提取不同模态人群图像更加全面的特征，提高对人群图像计数的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；

图1为本发明跨模态特征对齐融合的计数系统结构示意图；

图2为本发明跨模态特征对齐融合的计数方法流程图；

图3是采用本发明人群计数方法进行人群计数的示意图；

具体实施方式

下面结合实施例对本发明做进一步详细说明：

如图1所示，为一种跨模态特征对齐融合的人群计数系统的结构示意图，在人群计数系统使用前，需要利用同一场景下的多张可见光图像和热红外图像对构建的人群计数系统进行训练，以真实的人群密度图为监督计算损失，利用梯度下降优化算法优化人群计数系统，得到人群计数系统的最佳参数。一种跨模态特征对齐融合的人群计数系统，由输入到输出方向依次连接有初始特征提取层、特征对齐层、频域特征提取层、频域特征融合层和人群密度图估计层，其中特征对齐层包括可见光特征对齐层和热红外特征对齐层，频域特征提取层包括可见光频域特征提取层、跨模态频域特征提取层和热红外频域特征提取层。各层具体结构如下：

初始特征提取层：为VGG19网络去掉全连接层和Softmax层后剩下的部分，包括16个卷积层和4个最大池化层，从输入到输出方向依次为2个3×3的卷积层、1个最大池化层、2个3×3的卷积层、1个最大池化层、4个3×3的卷积层、1个最大池化层、4个3×3的卷积层、1个最大池化层和4个3×3的卷积层，各卷积层所生成的特征图通道数依次为64、64、128、128、256、256、256、256、512、512、512、512、512、512、512和512，池化层的步长均为2；

可见光频域特征提取层：小波变换、空间注意力和小波逆变换，其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7，输出通道数为1的卷积层和1个Sigmoid激活函数；

频域特征融合层：2个差分操作和1个通道维度连接操作；

人群密度图估计层：1个卷积核尺寸为3×3，输出通道数为256的卷积层、1个卷积核尺寸为3×3，输出通道数为128的卷积层、1个卷积核尺寸为1×1，输出通道数为1的卷积层和2个ReLU层，最后一个1×1卷积层的目的是减少特征图的通道数至1，以生成估计的人群密度图。

应用上述跨模态特征对齐融合的人群计数的人群计数方法如图2所示，具体步骤如下：

步骤6.1：将可见光对齐特征图和热红外对齐特征图进行通道连接并通过卷积核为1×1，输出通道数为512的卷积层进行降维，得到互补特征图；

步骤8.1：将跨模态融合特征图输入人群密度图估计层，依次经过卷积核尺寸为3×3，输出通道为256的卷积层、1个ReLU层、卷积核尺寸为3×3，输出通道为128的卷积层、1个ReLU层、卷积核尺寸为1×1，输出通道为1的卷积层，得到估计的人群密度图

图3是采用本发明人群计数方法进行人群计数的示意图。参见图3，采用本发明人群计数方法进行人群计数时，将目标场景人群的可见光图像和热红外图像输入到建立的跨模态特征对齐融合计数系统中，使用训练和优化后的人群计数系统进行人群密度估计，将得到的估计人群密度图逐像素相加得到对应的人群计数结果。

本发明针对已有的跨模态人群计数中存在的错位问题，提出一种跨模态特征对齐融合网络的计数方法与系统，可以有效解决跨模态图像间的错位问题。通过对两个分支分别输入可见光图像和热红外图像，跨模态对齐模块分别对两个分支的不同模态人群特征图进行对齐；3分支频域特征提取层和频域特征融合层分别对不同分支中的特征图进行频域特征提取及融合；将融合的特征图经过卷积神经网络模型产生估计的人群密度图。由于跨模态对齐模块能够对不同模态的特征图进行有效对齐；以及频域特征提取模块能够学到不同模态特征图更全面的特征，从而使计数网络能够更准确地估计图像中的人数值。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种跨模态特征对齐融合的人群计数系统，其特征在于：包括依次相连的初始特征提取层、特征对齐层、频域特征提取层、频域特征融合层和人群密度图估计层，其中特征对齐层包括可见光特征对齐层和热红外特征对齐层，频域特征提取层包括可见光频域特征提取层、跨模态频域特征提取层和热红外频域特征提取层；各层具体结构如下：

热红外频域特征提取层：小波变换、空间注意力和小波逆变换，其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7、输出通道数为1的卷积层和1个Sigmoid激活函数；

频域特征融合层：2个差分操作和1个通道维度连接操作；

人群密度图估计层：1个卷积核尺寸为3×3，输出通道数为256的卷积层、1个卷积核尺寸为3×3，输出通道数为128的卷积层、1个卷积核尺寸为1×1，输出通道数为1的卷积层和2个ReLU层。

2.一种跨模态特征对齐融合的人群计数方法，其特征在于应用于如权利要求1所述的计数系统，步骤如下：

3.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法，其特征在于：步骤2具体如下：

4.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法，其特征在于：步骤3具体如下：

5.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法，其特征在于：步骤4具体如下：

6.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法，其特征在于：步骤5具体如下：

7.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法，其特征在于：步骤6具体如下：

8.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法，其特征在于：步骤7具体如下：

9.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法，其特征在于：步骤8具体如下：

步骤8.1：将跨模态融合特征图输入人群密度图估计层，依次经过卷积核尺寸为3×3，输出通道数为256的卷积层、1个ReLU层、卷积核尺寸为3×3，输出通道数为128的卷积层、1个ReLU层、卷积核尺寸为1×1，输出通道数为1的卷积层，得到估计的人群密度图。