CN115527159A

CN115527159A - 一种基于跨模态间尺度注意聚合特征的计数系统及方法

Info

Publication number: CN115527159A
Application number: CN202211072215.5A
Authority: CN
Inventors: 李贺; 张俊歌; 孔维航
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-12-27
Anticipated expiration: 2042-09-02
Also published as: CN115527159B

Abstract

本发明公开一种基于跨模态间尺度注意聚合特征的计数系统及方法，属于图像处理领域。所述方法包括：获取包括待计数可见光和红外热图像；将可见光图像进行初始特征提取；将红外热图像进行初始特征提取；将可见光初始特征进行尺度通道注意聚合，得到可见光尺度通道聚合特征；将红外热初始特征进行尺度通道注意聚合，得到红外热尺度通道聚合特征；将可见光尺度通道聚合特征和红外热尺度通道聚合特征进行跨模态间尺度空间注意聚合，得到跨模态尺度空间聚合特征；将跨模态尺度空间聚合特征进行密度图回归，将密度图像素值进行求和，得到人群计数结果。本发明能够有效解决人群尺度变换对跨模态特征融合的负面影响，从而提高跨模态人群计数性能。

Description

一种基于跨模态间尺度注意聚合特征的计数系统及方法

技术领域

本发明涉及图像处理领域，尤其是一种基于跨模态间尺度注意聚合特征学习的人群计数方法及系统。

背景技术

近年来，智能视频监控技术为社会公共安全管理提供了很大的保障。人群计数作为智能视频监控应用中的人群分析和人群异常检测等现实场景应用的核心算法之一，受到了学术界和工业界的广泛关注。现有大部分人群计数方法主要利用可见光图像(RGB图像)作为场景信息进行人群数量预测。虽然可见光图像能够较好描述强光线及白天场景的场景细节信息，但由于其自身依靠光线反射的成像原理在弱光线及夜间场景下常常无法提供足够的场景信息，少量的一些人群计数方法引入面向热源体敏感的红外热图像作为人群计数过程中可见光图像的互补数据源，形成跨模态人群计数解决方案。现有面向可见光-红外热图像的跨模态人群计数方法主要侧重于将可见光图像和红外热图像进行不同模态信息融合的过程设计，忽视了人群场景中由于“远小近大”产生的尺度变换现象对跨模态特征有效融合的负面影响，这种负面影响将导致跨模态人群计数的准确率剧烈下降。

发明内容

本发明需要解决的技术问题是提供一种基于跨模态间尺度注意聚合特征的计数系统及方法，以降低人群场景中尺度变换对跨模态特征融合的负面影响，从而提高面向可见光-红外热图像跨模态信息的人群计数的准确性。

为解决上述技术问题，本发明所采用的技术方案是：一种基于跨模态间尺度注意聚合特征的计数系统包括：获取模块、可见光初始特征提取模块、红外热初始特征提取模块、可见光尺度通道聚合特征提取模块、红外热尺度通道聚合特征提取模块、跨模态尺度感知特征融合模块、人群密度图回归模块和人群计数模块。

本发明技术方案的进一步改进在于：所述模块具体组成为：

可见光初始特征提取模块：从输入到输出方向依次为两个卷积层、一个池化层、两个卷积层、一个池化层、四个卷积层、一个池化层、四个卷积层、一个池化层和四个卷积层，每个卷积层的卷积核尺寸均为3×3，各所述卷积层生成的特征图通道数由输入至输出方向依次为64、64、128、128、256、256、256、256、512、512、512、512、512、512、512和512，各所述池化层均为步长为2的最大池化层；

红外热初始特征提取模块：从输入到输出方向依次为两个卷积层、一个池化层、两个卷积层、一个池化层、四个卷积层、一个池化层、四个卷积层、一个池化层和四个卷积层，每个卷积层的卷积核尺寸均为3×3，各所述卷积层生成的特征图通道数由输入至输出方向依次为64、64、128、128、256、256、256、256、512、512、512、512、512、512、512和512，各所述池化层均为步长为2的最大池化层；

可见光尺度通道聚合特征提取模块：包括可见光初始第一尺度卷积层至可见光初始第六卷积层等六个卷积层、一个全局平均池化层、两个全连接层和一个Softmax层；六个卷积层输出通道数均为512，各所述卷积层卷积核尺寸由第一至第六依次为3×3、5×5、7×7、9×9、11×11和13×13，全局平均池化层特征图空间方向的窗口尺寸为1×1；

红外热尺度通道聚合特征提取模块：包括红外热初始第一尺度卷积层至红外热初始第六卷积层等六个卷积层、一个全局平均池化层、两个全连接层和一个Softmax层；六个卷积层输出通道数均为512，各所述卷积层卷积核尺寸由第一至第六依次为3×3、5×5、7×7、9×9、11×11和13×13，全局平均池化层特征图空间方向的窗口尺寸为1×1；

跨模态尺度感知特征融合模块：包括可见光第一尺度卷积层至可见光第六尺度卷积层等六个尺度卷积层、第一全局平均池化层、可见光空间注意变换卷积层、Sigmoid层、红外热第一尺度卷积层至红外热第六尺度卷积层等六个尺度卷积层、第二全局平均池化层和红外热空间注意变换卷积层；所述可见光第一至第六尺度卷积层，六个卷积层输出通道数均为512，各所述卷积层卷积核尺寸由第一至第六依次为3×3、5×5、7×7、9×9、11×11和13×13，所述红外热第一至第六尺度卷积层，六个卷积层输出通道数均为512，各所述卷积层卷积核尺寸由第一至第六依次为3×3、5×5、7×7、9×9、11×11和13×13，所述第一平均池化层和第二平均池化层均为特征图通道方向的窗口尺寸为1×1的全局平均池化层；所述可见光空间注意变换卷积层和红外热空间注意变换卷积层均为一个卷积核尺寸为7×7和输出通道数为1的卷积层；

人群密度图回归模块：从输入到输出方向依次为三个卷积层，卷积核尺寸均为3×3，生成的特征图通道数依次为256、128和1。

一种基于跨模态间尺度注意聚合特征的计数方法应用于计数系统，步骤如下：

步骤一：获取包括待计数人群的场景可见光图像和红外热图像；

步骤二：将所述可见光图像进行可见光模态初始特征提取，得到可见光初始特征；

步骤三：将所述红外热图像进行红外热模态初始特征提取，得到红外热初始特征；

步骤四：将所述可见光初始特征进行可见光模态尺度通道注意聚合，得到可见光尺度通道聚合特征；

步骤五：将所述红外热初始特征进行红外热模态尺度通道注意聚合，得到红外热尺度通道聚合特征；

步骤六：将所述可见光尺度通道聚合特征和红外热尺度通道聚合特征进行跨模态间尺度空间注意聚合，得到跨模态尺度空间聚合特征；

步骤七：将所述跨模态尺度空间聚合特征进行密度图回归，得到人群密度图；

步骤八：将所述人群密度图的像素值进行求和，得到人群计数结果。

本发明技术方案的进一步改进在于：所述步骤四具体包括：将所述可见光初始特征输入可见光尺度通道注意聚合特征提取模块进行可见光模态尺度通道注意聚合，将可见光初始特征分别输入可见光初始第一至第六尺度卷积层，分别得到可见光初始第一至第六尺度特征图，将所述可见光初始第一尺度特征图、可见光初始第二尺度特征图、可见光初始第三尺度特征图、可见光初始第四尺度特征图、可见光初始第五尺度特征图和可见光初始第六尺度特征图进行对应位置像素相加，得到可见光初始尺度聚合特征图；

将可见光初始尺度聚合特征图依次输入到所述全局平均池化层、两个全连接层和Softmax层，得到可见光初始尺度聚合通道注意描述子；将可见光初始尺度聚合通道注意描述子和可见光初始第一至第六尺度特征图进行对应位置像素相乘，得到可见光第一至第六尺度通道聚合特征图；将可见光第一尺度通道聚合特征图、可见光第二尺度通道聚合特征图、可见光第三尺度通道聚合特征图、可见光第四尺度通道聚合特征图、可见光第五尺度通道聚合特征图和可见光第六尺度通道聚合特征图进行对应位置像素相加，得到可见光尺度通道聚合特征。

本发明技术方案的进一步改进在于：所述步骤五具体包括：将所述红外热初始特征输入红外热尺度通道注意聚合特征提取模块进行红外热模态尺度通道注意聚合，将红外热初始特征分别输入红外热初始第一至第六尺度卷积层，分别得到红外热初始第一至第六尺度特征图，将所述红外热初始第一尺度特征图、红外热初始第二尺度特征图、红外热初始第三尺度特征图、红外热初始第四尺度特征图、红外热初始第五尺度特征图和红外热初始第六尺度特征图进行对应位置像素相加，得到红外热初始尺度聚合特征图；

将红外热初始尺度聚合特征图依次输入到所述全局平均池化层、两个全连接层和Softmax层，得到红外热初始尺度聚合通道注意描述子；将红外热初始尺度聚合通道注意描述子和红外热初始第一至第六尺度特征图进行对应位置像素相乘，得到红外热第一至第六尺度通道聚合特征图；将红外热第一尺度通道聚合特征图、红外热第二尺度通道聚合特征图、红外热第三尺度通道聚合特征图、红外热第四尺度通道聚合特征图、红外热第五尺度通道聚合特征图和红外热第六尺度通道聚合特征图进行对应位置像素相加，得到红外热尺度通道聚合特征。

本发明技术方案的进一步改进在于：所述步骤六具体包括：将所述可见光尺度通道聚合特征和红外热尺度通道聚合特征输入跨模态尺度感知特征融合模块进行跨模态间尺度空间注意聚合，将所述可见光尺度通道聚合特征分别输入可见光第一至第六尺度卷积层，分别得到可见光第一至第六尺度特征图，将所述可见光第一尺度特征图、可见光第二尺度特征图、可见光第三尺度特征图、可见光第四尺度特征图、可见光第五尺度特征图和可见光第六尺度特征图进行对应位置像素相加，得到可见光尺度聚合特征图；将可见光尺度聚合特征图依次输入到第一全局平均池化层和可见光空间注意变换卷积层，得到可见光尺度聚合空间注意描述子；

将所述红外热尺度通道聚合特征分别输入红外热第一至第六尺度卷积层，分别得到红外热第一至第六尺度特征图；将所述红外热第一尺度特征图、红外热第二尺度特征图、红外热第三尺度特征图、红外热第四尺度特征图、红外热第五尺度特征图和红外热第六尺度特征图进行对应位置像素相加，得到红外热尺度聚合特征图；将红外热尺度聚合特征图依次输入到第二全局平均池化层和红外热空间注意变换卷积层，得到红外热尺度聚合空间注意描述子；

将所述红外热尺度聚合空间注意描述子和可见光第一至第六尺度特征图进行对应位置像素相乘，得到红外热引导可见光第一至第六尺度空间聚合特征图；将红外热引导可见光第一尺度空间聚合特征图、红外热引导可见光第二尺度空间聚合特征图、红外热引导可见光第三尺度空间聚合特征图、红外热引导可见光第四尺度空间聚合特征图、红外热引导可见光第五尺度空间聚合特征图和红外热引导可见光第六尺度空间聚合特征图进行对应位置像素相加，得到红外热引导可见光跨模态尺度空间聚合特征；

将所述可见光尺度聚合空间注意描述子和红外热第一至第六尺度特征图进行对应位置像素相乘，得到可见光引导红外热第一至第六尺度空间聚合特征图，将可见光引导红外热第一尺度空间聚合特征图、可见光引导红外热第二尺度空间聚合特征图、可见光引导红外热第三尺度空间聚合特征图、可见光引导红外热第四尺度空间聚合特征图、可见光引导红外热第五尺度空间聚合特征图和可见光引导红外热第六尺度空间聚合特征图进行对应位置像素相加，得到可见光引导红外热跨模态尺度空间聚合特征；

将所述红外热引导可见光跨模态尺度空间聚合特征和所述可见光引导红外热跨模态尺度空间聚合特征进行通道链接操作，得到跨模态尺度空间聚合特征。

由于采用了上述技术方案，本发明取得的技术进步是：通过采用“尺度分解-通道注意聚合”方式实现高效模态特异性特征表征进而实现具有尺度感知的特定模态特征提取的技术效果。通过采用“尺度分解-空间注意聚合”方式实现高效模态共性特征表征进而实现具有尺度感知的跨模态特征提取的技术效果。通过在跨模态特征提取阶段设计尺度感知通道/空间注意聚合特征提取部分实现具备尺度感知能力的跨模态特征高效提取并融合，进而降低人群计数场景中尺度变换对跨模态特征提取过程的负面影响，从而提高最终人群计数结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；

图1是一种基于跨模态间尺度注意聚合特征的计数方法的流程框图；

图2是深度神经网络模型的整体结构示意图；

图3是可见光/红外热尺度通道注意聚合特征提取模块的细节示意图；

图4是跨模态尺度感知特征融合模块的细节示意图；

图5是深度神经网络模型进行跨模态人群计数的示意图；

图6是一种基于跨模态间尺度注意聚合特征的计数系统的结构框图。

具体实施方式

下面结合实施例对本发明做进一步详细说明：

一种基于跨模态间尺度注意聚合特征的计数系统，如图6所示包括：获取模块、可见光初始特征提取模块、红外热初始特征提取模块、可见光尺度通道聚合特征提取模块、红外热尺度通道聚合特征提取模块、跨模态尺度感知特征融合模块、人群密度图回归模块和人群计数模块。

利用以上模块组成的基于跨模态间尺度注意聚合特征的计数系统使用相匹配使用的基于跨模态间尺度注意聚合特征的计数方法来得到人群计数结果，具体步骤如下：

实施例一：

获取模块、可见光初始特征提取模块、红外热初始特征提取模块、可见光尺度通道聚合特征提取模块、红外热尺度通道聚合特征提取模块、跨模态尺度感知特征融合模块、人群密度图回归模块和人群计数模块。这些模块共同组成用于人群密度图估计的深度神经网络模型；将深度神经网络模型估计得到的人群密度图像素值进行求和，即可得到人群数量预测结果。建立的用于跨模态人群密度图估计的深度神经网络模型整体结构如图2所示。深度神经网络模型的各模块具体组成如下：

可见光初始特征提取模块：从输入到输出方向依次包括2个卷积层、1个池化层、2个卷积层、1个池化层、4个卷积层、1个池化层、4个卷积层、1个池化层、4个卷积层，各卷积层的卷积核尺寸均为3×3，从输入到输出方向生成的特征图通道数依次为：64、64、128、128、256、256、256、256、512、512、512、512、512、512、512和512，各池化层均为步长是2的最大池化层。

红外热初始特征提取模块：从输入到输出方向依次包括2个卷积层、1个池化层、2个卷积层、1个池化层、4个卷积层、1个池化层、4个卷积层、1个池化层、4个卷积层，各卷积层的卷积核尺寸均为3×3，从输入到输出方向生成的特征图通道数依次为：64、64、128、128、256、256、256、256、512、512、512、512、512、512、512和512，各池化层均为步长是2的最大池化层。

可见光尺度通道聚合特征提取模块：结构如图3所示，包括可见光初始第一尺度卷积层、可见光初始第二尺度卷积层、可见光初始第三尺度卷积层、可见光初始第四尺度卷积层、可见光初始第五尺度卷积层、可见光初始第六尺度卷积层、一个全局平均池化层、两个全连接层和一个Softmax层；所述可见光初始第一尺度卷积层为一个卷积核尺寸为3×3和输出通道数为512的卷积层；所述可见光初始第二尺度卷积层为一个卷积核尺寸为5×5和输出通道数为512的卷积层；所述可见光初始第三尺度卷积层为一个卷积核尺寸为7×7和输出通道数为512的卷积层；所述可见光初始第四尺度卷积层为一个卷积核尺寸为9×9和输出通道数为512的卷积层；所述可见光初始第五尺度卷积层为一个卷积核尺寸为11×11和输出通道数为512的卷积层；所述可见光初始第五尺度卷积层为一个卷积核尺寸为13×13和输出通道数为512的卷积层；所述全局平均池化层为特征图空间方向的窗口尺寸为1×1的全局平均池化层；

红外热尺度通道聚合特征提取模块：结构如图3所示，包括红外热初始第一尺度卷积层、红外热初始第二尺度卷积层、红外热初始第三尺度卷积层、红外热初始第四尺度卷积层、红外热初始第五尺度卷积层、红外热初始第六尺度卷积层、一个全局平均池化层、两个全连接层和一个Softmax层；所述红外热初始第一尺度卷积层为一个卷积核尺寸为3×3和输出通道数为512的卷积层；所述红外热初始第二尺度卷积层为一个卷积核尺寸为5×5和输出通道数为512的卷积层；所述红外热初始第三尺度卷积层为一个卷积核尺寸为7×7和输出通道数为512的卷积层；所述红外热初始第四尺度卷积层为一个卷积核尺寸为9×9和输出通道数为512的卷积层；所述红外热初始第五尺度卷积层为一个卷积核尺寸为11×11和输出通道数为512的卷积层；所述红外热初始第五尺度卷积层为一个卷积核尺寸为13×13和输出通道数为512的卷积层；所述全局平均池化层为特征图空间方向的窗口尺寸为1×1的全局平均池化层；

跨模态尺度感知特征融合模块：结构如图4所示，包含可见光第一尺度卷积层、可见光第二尺度卷积层、可见光第三尺度卷积层、可见光第四尺度卷积层、可见光第五尺度卷积层、可见光第六尺度卷积层、第一全局平均池化层、可见光空间注意变换卷积层、Sigmoid层、红外热第一尺度卷积层、红外热第二尺度卷积层、红外热第三尺度卷积层、红外热第四尺度卷积层、红外热第五尺度卷积层、红外热第六尺度卷积层、第二全局平均池化层和红外热空间注意变换卷积层；所述可见光第一尺度卷积层和红外热第一尺度卷积层均为一个卷积核尺寸为3×3和输出通道数为512的卷积层；所述可见光第二尺度卷积层和红外热第二尺度卷积层均为一个卷积核尺寸为5×5和输出通道数为512的卷积层；所述可见光第三尺度卷积层和红外热第三尺度卷积层均为一个卷积核尺寸为7×7和输出通道数为512的卷积层；所述可见光第四尺度卷积层和红外热第四尺度卷积层均为一个卷积核尺寸为9×9和输出通道数为512的卷积层；所述可见光第五尺度卷积层和红外热第五尺度卷积层均为一个卷积核尺寸为11×11和输出通道数为512的卷积层；所述可见光第六尺度卷积层和红外热第六尺度卷积层均为一个卷积核尺寸为13×13和输出通道数为512的卷积层；所述第一平均池化层和第二平均池化层均为特征图通道方向的窗口尺寸为1×1的全局平均池化层；所述可见光空间注意变换卷积层和红外热空间注意变换卷积层均为一个卷积核尺寸为7×7和输出通道数为1的卷积层；

步骤一：利用获取模块获取包括待计数人群的场景可见光图像和红外热图像。

步骤二：任意将由获取模块获取的包含待训练计数人群的可见光图像输入可见光初始特征提取模块，得到可见光初始特征。

步骤三：将和步骤二中可见光图像配对的红外热图像输入红外热初始特征提取模块，得到红外热初始特征。虽然红外热初始特征提取模块和可见光初始特征提取模块的结构相同，但是因为在训练时的训练数据不同所以导致每个模型中相同卷积层的权值是不同的，所以得到的结果不同。

步骤四：将步骤一得到的可见光初始特征输入可见光尺度通道聚合特征提取模块，得到可见光尺度通道聚合特征。将可见光初始特征分别输入可见光初始第一尺度卷积层、可见光初始第二尺度卷积层、可见光初始第三尺度卷积层、可见光初始第四尺度卷积层、可见光初始第五尺度卷积层和可见光初始第六尺度卷积层，分别得到可见光初始第一尺度特征图、可见光初始第二尺度特征图、可见光初始第三尺度特征图、可见光初始第四尺度特征图、可见光初始第五尺度特征图和可见光初始第六尺度特征图；将可见光初始第一尺度特征图、可见光初始第二尺度特征图、可见光初始第三尺度特征图、可见光初始第四尺度特征图、可见光初始第五尺度特征图和可见光初始第六尺度特征图进行对应位置像素相加，得到可见光初始尺度聚合特征图；

将可见光初始尺度聚合特征图依次输入到全局平均池化层、两个全连接层和Softmax层，得到可见光初始尺度聚合通道注意描述子；将可见光初始尺度聚合通道注意描述子和可见光初始第一尺度特征图进行对应位置像素相乘，得到可见光第一尺度通道聚合特征图；将可见光初始尺度聚合通道注意描述子和可见光初始第二尺度特征图进行对应位置像素相乘，得到可见光第二尺度通道聚合特征图；将可见光初始尺度聚合通道注意描述子和可见光初始第三尺度特征图进行对应位置像素相乘，得到可见光第三尺度通道聚合特征图；将可见光初始尺度聚合通道注意描述子和可见光初始第四尺度特征图进行对应位置像素相乘，得到可见光第四尺度通道聚合特征图；将可见光初始尺度聚合通道注意描述子和可见光初始第五尺度特征图进行对应位置像素相乘，得到可见光第五尺度通道聚合特征图；将可见光初始尺度聚合通道注意描述子和可见光初始第六尺度特征图进行对应位置像素相乘，得到可见光第六尺度通道聚合特征图；将可见光第一尺度通道聚合特征图、可见光第二尺度通道聚合特征图、可见光第三尺度通道聚合特征图、可见光第四尺度通道聚合特征图、可见光第五尺度通道聚合特征图和可见光第六尺度通道聚合特征图进行对应位置像素相加，得到可见光尺度通道聚合特征。

步骤五：将步骤三得到的红外热初始特征输入红外热尺度通道聚合特征提取模块，得到红外热尺度通道聚合特征。虽然红外热尺度通道聚合特征提取模块和可见光尺度通道聚合特征提取模块的结构相同，但是因为在训练时的训练数据不同所以导致每个模型中相同卷积层的权值是不同的，所以得到的结果不同。

将红外热初始特征分别输入红外热初始第一尺度卷积层、红外热初始第二尺度卷积层、红外热初始第三尺度卷积层、红外热初始第四尺度卷积层、红外热初始第五尺度卷积层和红外热初始第六尺度卷积层，分别得到红外热初始第一尺度特征图、红外热初始第二尺度特征图、红外热初始第三尺度特征图、红外热初始第四尺度特征图、红外热初始第五尺度特征图和红外热初始第六尺度特征图；将红外热初始第一尺度特征图、红外热初始第二尺度特征图、红外热初始第三尺度特征图、红外热初始第四尺度特征图、红外热初始第五尺度特征图和红外热初始第六尺度特征图进行对应位置像素相加，得到红外热初始尺度聚合特征图；

将红外热初始尺度聚合特征图依次输入到全局平均池化层、两个全连接层和Softmax层，得到红外热初始尺度聚合通道注意描述子；将红外热初始尺度聚合通道注意描述子和红外热初始第一尺度特征图进行对应位置像素相乘，得到红外热第一尺度通道聚合特征图；将红外热初始尺度聚合通道注意描述子和红外热初始第二尺度特征图进行对应位置像素相乘，得到红外热第二尺度通道聚合特征图；将红外热初始尺度聚合通道注意描述子和红外热初始第三尺度特征图进行对应位置像素相乘，得到红外热第三尺度通道聚合特征图；将红外热初始尺度聚合通道注意描述子和红外热初始第四尺度特征图进行对应位置像素相乘，得到红外热第四尺度通道聚合特征图；将红外热初始尺度聚合通道注意描述子和红外热初始第五尺度特征图进行对应位置像素相乘，得到红外热第五尺度通道聚合特征图；将红外热初始尺度聚合通道注意描述子和红外热初始第六尺度特征图进行对应位置像素相乘，得到红外热第六尺度通道聚合特征图；将红外热第一尺度通道聚合特征图、红外热第二尺度通道聚合特征图、红外热第三尺度通道聚合特征图、红外热第四尺度通道聚合特征图、红外热第五尺度通道聚合特征图和红外热第六尺度通道聚合特征图进行对应位置像素相加，得到红外热尺度通道聚合特征。

步骤六：将步骤四得到的可见光尺度通道聚合特征和步骤五得到的红外热尺度通道聚合特征输入跨模态尺度感知特征融合模块，得到跨模态尺度空间聚合特征。将可见光尺度通道聚合特征分别输入可见光第一尺度卷积层、可见光第二尺度卷积层、可见光第三尺度卷积层、可见光第四尺度卷积层、可见光第五尺度卷积层和可见光第六尺度卷积层，分别得到可见光第一尺度特征图、可见光第二尺度特征图、可见光第三尺度特征图、可见光第四尺度特征图、可见光第五尺度特征图和可见光第六尺度特征图；将可见光第一尺度特征图、可见光第二尺度特征图、可见光第三尺度特征图、可见光第四尺度特征图、可见光第五尺度特征图和可见光第六尺度特征图进行对应位置像素相加，得到可见光尺度聚合特征图；将可见光尺度聚合特征图依次输入到第一全局平均池化层和可见光空间注意变换卷积层，得到可见光尺度聚合空间注意描述子；

将红外热尺度通道聚合特征分别输入红外热第一尺度卷积层、红外热第二尺度卷积层、红外热第三尺度卷积层、红外热第四尺度卷积层、红外热第五尺度卷积层和红外热第六尺度卷积层，分别得到红外热第一尺度特征图、红外热第二尺度特征图、红外热第三尺度特征图、红外热第四尺度特征图、红外热第五尺度特征图和红外热第六尺度特征图；将红外热第一尺度特征图、红外热第二尺度特征图、红外热第三尺度特征图、红外热第四尺度特征图、红外热第五尺度特征图和红外热第六尺度特征图进行对应位置像素相加，得到红外热尺度聚合特征图；将红外热尺度聚合特征图依次输入到第二全局平均池化层和红外热空间注意变换卷积层，得到红外热尺度聚合空间注意描述子；

将红外热尺度聚合空间注意描述子和可见光第一尺度特征图进行对应位置像素相乘，得到红外热引导可见光第一尺度空间聚合特征图；将红外热尺度聚合空间注意描述子和可见光第二尺度特征图进行对应位置像素相乘，得到红外热引导可见光第二尺度空间聚合特征图；将红外热尺度聚合空间注意描述子和可见光第三尺度特征图进行对应位置像素相乘，得到红外热引导可见光第三尺度空间聚合特征图；将红外热尺度聚合空间注意描述子和可见光第四尺度特征图进行对应位置像素相乘，得到红外热引导可见光第四尺度空间聚合特征图；将红外热尺度聚合空间注意描述子和可见光第五尺度特征图进行对应位置像素相乘，得到红外热引导可见光第五尺度空间聚合特征图；将红外热尺度聚合空间注意描述子和可见光第六尺度特征图进行对应位置像素相乘，得到红外热引导可见光第六尺度空间聚合特征图；将红外热引导可见光第一尺度空间聚合特征图、红外热引导可见光第二尺度空间聚合特征图、红外热引导可见光第三尺度空间聚合特征图、红外热引导可见光第四尺度空间聚合特征图、红外热引导可见光第五尺度空间聚合特征图和红外热引导可见光第六尺度空间聚合特征图进行对应位置像素相加，得到红外热引导可见光跨模态尺度空间聚合特征；

将可见光尺度聚合空间注意描述子和红外热第一尺度特征图进行对应位置像素相乘，得到可见光引导红外热第一尺度空间聚合特征图；将可见光尺度聚合空间注意描述子和红外热第二尺度特征图进行对应位置像素相乘，得到可见光引导红外热第二尺度空间聚合特征图；将可见光尺度聚合空间注意描述子和红外热第三尺度特征图进行对应位置像素相乘，得到可见光引导红外热第三尺度空间聚合特征图；将可见光尺度聚合空间注意描述子和红外热第四尺度特征图进行对应位置像素相乘，得到可见光引导红外热第四尺度空间聚合特征图；将可见光尺度聚合空间注意描述子和红外热第五尺度特征图进行对应位置像素相乘，得到可见光引导红外热第五尺度空间聚合特征图；将可见光尺度聚合空间注意描述子和红外热第六尺度特征图进行对应位置像素相乘，得到可见光引导红外热第六尺度空间聚合特征图；将可见光引导红外热第一尺度空间聚合特征图、可见光引导红外热第二尺度空间聚合特征图、可见光引导红外热第三尺度空间聚合特征图、可见光引导红外热第四尺度空间聚合特征图、可见光引导红外热第五尺度空间聚合特征图和可见光引导红外热第六尺度空间聚合特征图进行对应位置像素相加，得到可见光引导红外热跨模态尺度空间聚合特征；

将红外热引导可见光跨模态尺度空间聚合特征和可见光引导红外热跨模态尺度空间聚合特征进行通道链接操作，得到跨模态尺度空间聚合特征。

步骤七：将步骤六得到的跨模态尺度空间聚合特征输入人群密度图回归模块，得到估计人群密度图。使用人群密度估计图和真实人群密度图的欧氏距离作为损失函数对用于跨模态人群密度图估计的深度神经网络模型进行训练，得到训练好的深度神经网络模型。在每次得到待估计图像对应的人群密度估计图之后，根据用于跨模态人群密度图估计的深度神经网络模型的损失函数确定用于跨模态人群密度图估计的深度神经网络模型的误差，将所述误差反向传播，调整用于人跨模态人群密度图估计的深度神经网络模型的参数，对用于跨模态人群密度图估计的深度神经网络模型进行优化。待网络模型学习参数采用Adam优化算法在每一次优化迭代中更新，直到加权和结果收敛到一个较小的值，保存参数及训练后的模型。如图5所示，使用可见光初始特征提取模块、红外热初始特征提取模块、可见光尺度通道聚合特征提取模块、红外热尺度通道聚合特征提取模块、跨模态尺度感知特征融合模块和人群密度图回归模块共同组成的深度神经网络模型对待计数的可见光图像和红外热图像进行人群密度图估计，得到对应的人群密度图。

本发明通过在跨模态特征提取阶段设计尺度感知通道/空间注意聚合特征提取部分实现具备尺度感知能力的跨模态特征高效提取并融合，进而降低人群计数场景中尺度变换对跨模态特征提取过程的负面影响，从而提高最终人群计数结果的准确率。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于跨模态间尺度注意聚合特征的计数系统，其特征在于包括：获取模块、可见光初始特征提取模块、红外热初始特征提取模块、可见光尺度通道聚合特征提取模块、红外热尺度通道聚合特征提取模块、跨模态尺度感知特征融合模块、人群密度图回归模块和人群计数模块；

获取模块用于获取待计数人群的场景可见光图像和红外热图像；所述可见光初始特征提取模块用于将可见光图像进行可见光模态初始特征提取；所述红外热初始特征提取模块将红外热图像进行红外热模态初始特征提取；所述可见光尺度通道聚合特征提取模块用于将可见光初始特征进行可见光模态尺度通道注意聚合；红外热尺度通道聚合特征提取模块用于将红外热初始特征进行红外热模态尺度通道注意聚合；跨模态尺度感知特征融合模块用于将可见光尺度通道聚合特征和红外热尺度通道聚合特征进行跨模态间尺度空间注意聚合；人群密度图回归模块将跨模态尺度空间聚合特征进行密度图回归；人群计数模块用于将人群密度图的像素值进行求和。

2.根据权利要求1所述一种基于跨模态间尺度注意聚合特征的计数系统，其特征在于所述各模块具体组成为：

跨模态尺度感知特征融合模块：包括可见光第一尺度卷积层至可见光第六尺度卷积层等六个尺度卷积层，第一全局平均池化层、可见光空间注意变换卷积层、Sigmoid层、红外热第一尺度卷积层至红外热第六尺度卷积层，六个尺度卷积层、第二全局平均池化层和红外热空间注意变换卷积层；所述可见光第一至第六尺度卷积层，六个卷积层输出通道数均为512，各所述卷积层卷积核尺寸由第一至第六依次为3×3、5×5、7×7、9×9、11×11和13×13，所述红外热第一至第六尺度卷积层，六个卷积层输出通道数均为512，各所述卷积层卷积核尺寸由第一至第六依次为3×3、5×5、7×7、9×9、11×11和13×13，所述第一平均池化层和第二平均池化层均为特征图通道方向的窗口尺寸为1×1的全局平均池化层；所述可见光空间注意变换卷积层和红外热空间注意变换卷积层均为一个卷积核尺寸为7×7和输出通道数为1的卷积层；

3.一种基于跨模态间尺度注意聚合特征的计数方法，其特征在于基于权利要求1或2所述一种基于跨模态间尺度注意聚合特征的计数系统，步骤如下：

4.根据权利要求3所述的一种基于跨模态间尺度注意聚合特征的计数方法，其特征在于，所述步骤四具体包括：将所述可见光初始特征输入可见光尺度通道注意聚合特征提取模块进行可见光模态尺度通道注意聚合，将可见光初始特征分别输入可见光初始第一至第六尺度卷积层，分别得到可见光初始第一至第六尺度特征图，将所述可见光初始第一尺度特征图、可见光初始第二尺度特征图、可见光初始第三尺度特征图、可见光初始第四尺度特征图、可见光初始第五尺度特征图和可见光初始第六尺度特征图进行对应位置像素相加，得到可见光初始尺度聚合特征图；

5.根据权利要求3所述的一种基于跨模态间尺度注意聚合特征的计数方法，其特征在于，所述步骤五具体包括：将所述红外热初始特征输入红外热尺度通道注意聚合特征提取模块进行红外热模态尺度通道注意聚合，将红外热初始特征分别输入红外热初始第一至第六尺度卷积层，分别得到红外热初始第一至第六尺度特征图，将所述红外热初始第一尺度特征图、红外热初始第二尺度特征图、红外热初始第三尺度特征图、红外热初始第四尺度特征图、红外热初始第五尺度特征图和红外热初始第六尺度特征图进行对应位置像素相加，得到红外热初始尺度聚合特征图；

6.根据权利要求3所述的一种基于跨模态间尺度注意聚合特征的计数方法，其特征在于，所述步骤六具体包括：将所述可见光尺度通道聚合特征和红外热尺度通道聚合特征输入跨模态尺度感知特征融合模块进行跨模态间尺度空间注意聚合，将所述可见光尺度通道聚合特征分别输入可见光第一至第六尺度卷积层，分别得到可见光第一至第六尺度特征图将所述可见光第一尺度特征图、可见光第二尺度特征图、可见光第三尺度特征图、可见光第四尺度特征图、可见光第五尺度特征图和可见光第六尺度特征图进行对应位置像素相加，得到可见光尺度聚合特征图；将可见光尺度聚合特征图依次输入到第一全局平均池化层和可见光空间注意变换卷积层，得到可见光尺度聚合空间注意描述子；

7.根据权利要求3所述的一种基于跨模态间尺度注意聚合特征的计数方法，其特征在于，所述步骤七具体包括：将所述跨模态尺度空间聚合特征图输入人群密度图回归模块进行密度图回归，得到人群密度图。