CN113538401A

CN113538401A - 一种复杂场景下结合跨模态信息的人群计数方法及系统

Info

Publication number: CN113538401A
Application number: CN202110865267.7A
Authority: CN
Inventors: 张世辉; 李贺; 王威
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-10-22
Anticipated expiration: 2041-07-29
Also published as: CN113538401B

Abstract

本发明公开一种复杂场景下结合跨模态信息的人群计数方法及系统，涉及计算机视觉技术领域，包括：获取待计数复杂场景下人群的RGB图像和深度图像；将RGB图像和深度图像输入优化后的深度神经网络模型中，得到估计的人群密度图；其中，深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层；将估计的人群密度图进行逐像素相加，得到人群中人数的估计值。本发明能够避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。

Description

一种复杂场景下结合跨模态信息的人群计数方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种复杂场景下结合跨模态信息的人群计数方法及系统。

背景技术

随着世界人口的爆炸式增长和随之而来的智能视频监控的迅速发展，在复杂场景中准确的人群数量估计受到了学术界和工业界的广泛关注。

目前人群计数方法主要分为三类：基于检测的方法，基于回归的方法和基于密度图估计的方法。基于检测的方法和基于回归的方法在一定程度上由于人群严重遮挡和多尺度等现象性能受到限制，同时忽略了图像上关键的空间信息。因此近些年人群计数任务大多采用基于密度图估计的方法。考虑到外部环境变化尤其是光照条件的变化，研究者开始采用结合RGB图像和深度图像的方式进行复杂场景下人群计数任务。但是已有的融合不同模态图像的人群计数方法存在因直接对RGB图像和深度图像进行融合进而忽视了不同模态图像的自身特点，从而无法避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。

发明内容

本发明的目的是提供一种复杂场景下结合跨模态信息的人群计数方法及系统，能够避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。

为实现上述目的，本发明提供了如下方案：

一种复杂场景下结合跨模态信息的人群计数方法，所述方法包括：

获取待计数复杂场景下人群的RGB图像和深度图像；

将所述RGB图像和所述深度图像输入优化后的深度神经网络模型中，得到估计的人群密度图；所述深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层；所述优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对所述深度神经网络模型进行训练和优化得到；

将所述估计的人群密度图进行逐像素相加，得到人群中人数的估计值；

将所述RGB图像和所述深度图像输入优化后的深度神经网络模型中，得到估计的人群密度图，具体包括：

利用所述低层特征提取层对所述RGB图像和所述深度图像进行低层特征提取，得到RGB低层特征图和深度低层特征图；

利用所述第一跨模态循环注意力融合层和所述深度低层特征图对所述RGB低层特征图进行修正，得到修正后的RGB低层特征图；并利用所述第一跨模态循环注意力融合层和所述修正后的RGB低层特征图对所述深度低层特征图进行修正，得到修正后的深度低层特征图；

利用所述中层特征提取层对所述修正后的RGB低层特征图和所述修正后的深度低层特征图进行中层特征提取，得到RGB中层特征图和深度中层特征图；

利用所述第二跨模态循环注意力融合层和所述深度中层特征图对所述RGB中层特征图进行修正，得到修正后的RGB中层特征图；并利用所述第二跨模态循环注意力融合层和所述修正后的RGB中层特征图对所述深度中层特征图进行修正，得到修正后的深度中层特征图；

利用所述高层特征提取层对所述修正后的RGB中层特征图和所述修正后的深度中层特征图进行高层特征提取，得到RGB高层特征图和深度高层特征图；

利用所述第三跨模态循环注意力融合层和所述深度高层特征图对所述RGB高层特征图进行修正，得到修正后的RGB高层特征图；并利用所述第三跨模态循环注意力融合层和所述修正后的RGB高层特征图对所述深度高层特征图进行修正，得到修正后的深度高层特征图；

利用人群密度图估计层对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行人群密度估计，得到估计的人群密度图。

可选地，所述优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对所述深度网络模型进行训练和优化得到，具体包括：

获取不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图；

将所述RGB图像和所述深度图像输入所述深度神经网络模型中，利用所述RGB图像和所述深度图像对所述深度神经网络模型进行训练，得到估计的人群密度图；

将所述估计的人群密度图以及与所述估计的人群密度图对应的真实人群密度图送入多层次监督机制，计算所述深度神经网络模型的损失函数；

根据所述损失函数确定所述深度神经网络模型的误差，采用误差反向传播算法将所述误差进行反向传播，调整所述深度神经网络模型的参数，直至所述损失函数最小为止，得到所述优化后的深度神经网络模型。

可选地，所述多层次监督机制的计算公式为：

L_FC＝λ₁L_coarse+λ₂L_fine

式中，L_coarse表示粗粒度金字塔区域级感知监督，

为金字塔监督区域分层的数量，T表示每层监督区域的大小，j为金字塔监督区域层级，N为图片的数量，h′×w′为原图片的大小，h′为原图片的高，w′为原图片的宽，T^j×T^j为经自适应平均池化后的图片大小，

与

为经自适应平均池化后的估计的人群密度图与真实人群密度图，i表示图片序号，L_fine表示细粒度像素级感知监督，

与

为原始估计的人群密度图和真实人群密度图，L_FC表示最终的多层次监督机制损失，λ₁与λ₂分别为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。

可选地，所述深度神经网络模型还包括：

通道连接层，分别与所述第三跨模态循环注意力融合层和所述人群密度图估计层连接，用于将所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行通道上的连接，得到融合特征图；并将所述融合特征图输入所述人群密度估计层中，利用所述人群密度图估计层对所述融合特征图进行人群密度估计，得到估计的人群密度图。

可选地，所述深度神经网络模型还包括：

综合特征提取层，分别与所述第三跨模态循环注意力融合层和所述通道连接层连接，用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行综合特征提取，得到最终RGB特征图和最终深度特征图；并将所述最终RGB特征图和所述最终深度特征图传递到所述通道连接层，利用所述通道连接层将所述最终RGB特征图和所述最终深度特征图进行通道上的连接，得到融合特征图。

本发明还提供了如下方案：

一种复杂场景下结合跨模态信息的人群计数系统，所述系统包括：

RGB图像和深度图像获取模块，用于获取待计数复杂场景下人群的RGB图像和深度图像；

训练和优化模块，用于采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对深度神经网络模型进行训练和优化，得到优化后的深度神经网络模型；

人群密度图估计模块，用于将所述RGB图像和所述深度图像输入所述优化后的深度神经网络模型中，得到估计的人群密度图；所述深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层；

低层特征提取层用于对所述RGB图像和所述深度图像进行低层特征提取，得到RGB低层特征图和深度低层特征图；

第一跨模态循环注意力融合层用于利用所述深度低层特征图对所述RGB低层特征图进行修正，得到修正后的RGB低层特征图；并利用所述修正后的RGB低层特征图对所述深度低层特征图进行修正，得到修正后的深度低层特征图；

中层特征提取层用于对所述修正后的RGB低层特征图和所述修正后的深度低层特征图进行中层特征提取，得到RGB中层特征图和深度中层特征图；

第二跨模态循环注意力融合层用于利用所述深度中层特征图对所述RGB中层特征图进行修正，得到修正后的RGB中层特征图；并利用所述修正后的RGB中层特征图对所述深度中层特征图进行修正，得到修正后的深度中层特征图；

高层特征提取层用于对所述修正后的RGB中层特征图和所述修正后的深度中层特征图进行高层特征提取，得到RGB高层特征图和深度高层特征图；

第三跨模态循环注意力融合层用于利用所述深度高层特征图对所述RGB高层特征图进行修正，得到修正后的RGB高层特征图；并利用所述修正后的RGB高层特征图对所述深度高层特征图进行修正，得到修正后的深度高层特征图；

人群密度图估计层用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行人群密度估计，得到估计的人群密度图；

人群中人数值估计模块，用于将所述估计的人群密度图进行逐像素相加，得到人群中人数的估计值。

可选地，所述训练和优化模块具体包括：

RGB图像和深度图像获取单元，用于获取不同复杂场景下人群的RGB图像和深度图像；

真实密度图获取单元，用于获取与所述RGB图像和所述深度图像对应的真实人群密度图；

人群密度图估计单元，用于将所述RGB图像和所述深度图像输入深度神经网络模型中，利用所述RGB图像和所述深度图像对所述深度神经网络模型进行训练，得到估计的人群密度图；

模型损失函数计算单元，用于将所述估计的人群密度图以及与所述估计的人群密度图对应的真实人群密度图送入多层次监督机制，计算所述深度神经网络模型的损失函数；

模型优化单元，用于根据所述损失函数确定所述深度神经网络模型的误差，采用误差反向传播算法将所述误差进行反向传播，调整所述深度神经网络模型的参数，直至所述损失函数最小为止，得到优化后的深度神经网络模型。

可选地，所述多层次监督机制的计算公式为：

L_FC＝λ₁L_coarse+λ₂L_fine

式中，L_coarse表示粗粒度金字塔区域级感知监督，

与

与

可选地，所述深度神经网络模型还包括：

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开的复杂场景下结合跨模态信息的人群计数方法及系统，利用跨模态循环注意力融合层将RGB图像和深度图像的互补信息进行自适应的融合，即采用原始深度特征的空间几何信息为原始RGB特征提供修正信息来源同时采用修正后的RGB特征为原始深度特征提供修正信息来源，以充分发挥不同模态图像信息对复杂人群分布的作用，可以有效对复杂场景的人群分布进行建模并生成更为准确反映人群分布的密度图估计结果，能够避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明复杂场景下结合跨模态信息的人群计数方法实施例的流程图；

图2为本发明深度神经网络模型的整体结构示意图；

图3为跨模态循环注意力融合模块细节示意图；

图4为本发明计数方法的简单流程示意图；

图5为采用本发明人群计数方法进行人群计数的示意图；

图6为本发明复杂场景下结合跨模态信息的人群计数系统实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明复杂场景下结合跨模态信息的人群计数方法实施例的流程图。参见图1，该复杂场景下结合跨模态信息的人群计数方法包括：

步骤101：获取待计数复杂场景下人群的RGB图像和深度图像。

步骤102：将RGB图像和深度图像输入优化后的深度神经网络模型中，得到估计的人群密度图；深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层；优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与RGB图像和深度图像对应的真实人群密度图对深度神经网络模型进行训练和优化得到。在深度神经网络模型使用前，需要利用若干张同一场景下的RGB图像和深度图像对建立的深度神经网络模型进行训练，以多层次监督机制损失最小为目的，优化深度神经网络模型，得到深度神经网络模型的最佳参数。

步骤103：将估计的人群密度图进行逐像素相加，得到人群中人数的估计值。

其中，步骤102具体包括：

利用低层特征提取层对RGB图像和深度图像进行低层特征提取，得到RGB低层特征图和深度低层特征图。图2为本发明深度神经网络模型的整体结构示意图，参见图2，该低层特征提取层即Conv1层。Conv1层包括2个卷积层和1个池化层。将RGB图像或深度图像依次输入2个卷积层和1个池化层，得到RGB低层特征图(第一RGB特征图)或深度低层特征图(第一深度特征图)。Conv1层中的每个卷积核尺寸由输入至输出方向依次为3×3、3×3，Conv1层中的每个卷积层生成的特征图通道数由输入至输出方向依次为64、64；Conv1层的池化层步长为2。

利用第一跨模态循环注意力融合层和深度低层特征图对RGB低层特征图进行修正，得到修正后的RGB低层特征图；并利用第一跨模态循环注意力融合层和修正后的RGB低层特征图对深度低层特征图进行修正，得到修正后的深度低层特征图。该第一跨模态循环注意力融合层即图2中的第1个循环注意力融合模块。修正后的RGB低层特征图即修正后的第一RGB特征图。修正后的深度低层特征图即修正后的第一深度特征图。

利用中层特征提取层对修正后的RGB低层特征图和修正后的深度低层特征图进行中层特征提取，得到RGB中层特征图和深度中层特征图。该中层特征提取层即图2中的Conv2层。Conv2层包括2个卷积层和1个池化层。将修正后的第一RGB特征图或修正后的第一深度特征图依次输入2个卷积层和1个池化层，得到第二RGB特征图(RGB中层特征图)或第二深度特征图(深度中层特征图)，Conv2层中的每个卷积核尺寸由输入至输出方向依次为3×3、3×3，Conv2层中的每个卷积层生成的特征图通道数由输入至输出方向依次为128、128；Conv2层的池化层步长为2。

利用第二跨模态循环注意力融合层和深度中层特征图对RGB中层特征图进行修正，得到修正后的RGB中层特征图；并利用第二跨模态循环注意力融合层和修正后的RGB中层特征图对深度中层特征图进行修正，得到修正后的深度中层特征图。该第二跨模态循环注意力融合层即图2中的第2个循环注意力融合模块。修正后的RGB中层特征图即修正后的第二RGB特征图。修正后的深度中层特征图即修正后的第二深度特征图。

利用高层特征提取层对修正后的RGB中层特征图和修正后的深度中层特征图进行高层特征提取，得到RGB高层特征图和深度高层特征图。该高层特征提取层即图2中的Conv3层。Conv3层包括3个卷积层和1个池化层。将修正后的第二RGB特征图或修正后的第二深度特征图依次输入3个卷积层和1个池化层，得到第三RGB特征图(RGB高层特征图)或第三深度特征图(深度高层特征图)。Conv3层中的每个卷积核尺寸由输入至输出方向依次为3×3、3×3、3×3，Conv3层中的每个卷积层生成的特征图通道数由输入至输出方向依次为256、256、256；Conv3层的池化层步长为2。

利用第三跨模态循环注意力融合层和深度高层特征图对RGB高层特征图进行修正，得到修正后的RGB高层特征图；并利用第三跨模态循环注意力融合层和修正后的RGB高层特征图对深度高层特征图进行修正，得到修正后的深度高层特征图。该第三跨模态循环注意力融合层即图2中的第3个循环注意力融合模块。修正后的RGB高层特征图即修正后的第三RGB特征图。修正后的深度高层特征图即修正后的第三深度特征图。

利用人群密度图估计层对修正后的RGB高层特征图和修正后的深度高层特征图进行人群密度估计，得到估计的人群密度图。该人群密度图估计层即图2中的尾部网络(即图2中六个)。尾部网络包括7个卷积层、6个BatchNorm层和6个ReLU层。尾部网络中的前六个卷积层的卷积核尺寸均为3×3，第七个卷积层的卷积核尺寸为1×1，尾部网络中的前六个卷积核空洞率均为2，第七个卷积核空洞率为1，尾部网络中的每个卷积层生成的特征图输出通道数依次为512、512、512、256、128、64、1。在前6个卷积层的输出端连接BatchNorm层，在BatchNorm层输出端连接ReLU层。第7个卷积层的目的是将特征图像的通道数变为1，生成估计的密度图(估计的人群密度图)。

其中，优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与RGB图像和深度图像对应的真实人群密度图对深度网络模型进行训练和优化得到，具体包括：

获取不同复杂场景下人群的RGB图像和深度图像以及与RGB图像和深度图像对应的真实人群密度图。

将RGB图像和深度图像输入深度神经网络模型中，利用RGB图像和深度图像对深度神经网络模型进行训练，得到估计的人群密度图。

将估计的人群密度图以及与估计的人群密度图对应的真实人群密度图送入多层次监督机制，计算深度神经网络模型的损失函数。经多层次监督机制对模型进行优化，多层次监督机制的计算公式如下所示：

L_FC＝λ₁L_coarse+λ₂L_fine

式中，L_coarse表示粗粒度金字塔区域级感知监督，

与

与

为原始估计的人群密度图和真实人群密度图，L_FC表示最终的多层次监督机制损失，λ₁与λ₂分别为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。其中，图片即经自适应平均池化后的估计的人群密度图或经自适应平均池化后的真实人群密度图，原图片即原始估计的人群密度图或原始真实人群密度图，原始即没有经过自适应平均池化。

根据损失函数确定深度神经网络模型的误差，采用误差反向传播算法将误差进行反向传播，调整深度神经网络模型的参数，直至损失函数最小为止，得到优化后的深度神经网络模型。即以模型损失函数最小化为目的训练模型，其中目标函数为：

L_FC＝λ₁L_coarse+λ₂L_fine

具体地，将估计的密度图和真实密度图(与估计的密度图对应的真实人群密度图)经自适应池化后通过粗粒度金字塔区域级感知监督计算损失，即将估计密度图和真实密度图经自适应平均池化调整图片大小为T^j×T^j(j为金字塔监督区域层级)，调整后的估计密度图和真实密度图分别用符号

和符号

表示，调整后图片每个像素对照于原来图片像素大小为

(h′、w′为原图片的高和宽)，经欧几里得距离损失计算估计图像和真实图像的差值。对于金字塔结构，采用

作为每层监督区域的大小(这里的T值为2)。粗粒度金字塔区域级感知监督计算公式如下：

将估计密度图和真实密度图通过细粒度像素级感知监督计算损失(像素级的误差)，细粒度像素级感知监督采用传统的欧几里得距离损失，细粒度像素级感知监督计算公式如下：

式中，

与

为原始估计密度图和真实密度图。

将上述两种感知监督方式(粗粒度金字塔区域级感知监督方式和细粒度像素级感知监督方式)联合计算得出最终的多层次监督机制损失，最终的多层次监督机制损失计算公式如下：

L_FC＝λ₁L_coarse+λ₂L_fine

式中，λ₁与λ₂为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。

以L_FC最小化为目的训练模型。

本发明深度神经网络模型还包括通道连接层和综合特征提取层。

其中，通道连接层分别与第三跨模态循环注意力融合层和人群密度图估计层连接，通道连接层用于将修正后的RGB高层特征图和修正后的深度高层特征图进行通道上的连接，得到融合特征图；并将融合特征图输入人群密度估计层中，利用人群密度图估计层对融合特征图进行人群密度估计，得到估计的人群密度图。

综合特征提取层分别与第三跨模态循环注意力融合层和通道连接层连接，综合特征提取层用于对修正后的RGB高层特征图和修正后的深度高层特征图进行综合特征提取，得到最终RGB特征图和最终深度特征图；并将最终RGB特征图和最终深度特征图传递到通道连接层，利用通道连接层将最终RGB特征图和最终深度特征图进行通道上的连接，得到融合特征图。综合特征提取层即图2中的Conv4层。Conv4层包括3个卷积层和1个池化层。将修正后的第三RGB特征图或第三深度特征图依次输入3个卷积层和1个池化层，分别得到最终RGB特征图或最终深度特征图。Conv4层中的每个卷积核尺寸由输入至输出方向依次为3×3、3×3、3×3，Conv4层中的每个卷积层生成的特征图通道数由输入至输出方向依次为512、512、512。Conv4层的池化层步长为2。

本发明用于人群密度估计的深度神经网络模型的建立过程如下：

(1)建立3个跨模态循环注意力融合模块，设计权重计算函数f_att(·)，原始深度特征图或修正后的RGB特征图作为输入，经计算分别得到用于修正RGB图像或修正深度图像的可学习权重参数，这一阶段如下方公式所示：

f_att(X)＝Sigm(Conv₁(concat(maxpool(X),avgpool(X))))

具体包括：使用步长为2的Max Pooling池化操作和Average Pooling池化操作来处理原始图像，并将两者的结果在通道上连接起来。

采用卷积核为1×1卷积层将特征图的通道数变为1。

利用sigmoid函数来生成最终的权重参数。设计乘法操作，将可学习权重参数和原特征图逐像素相乘，得到初步修正后的特征图。设计连接操作，将初步修正后的特征图与原特征图进行通道上的连接，得到修正后的特征图。

(2)建立深度神经网络(深度神经网络模型)Conv1层，接收输入的RGB图像和深度图像，经过特征提取操作获得特征图像，这一阶段包含了2次卷积和1次池化。如图2所示，依次为2次卷积、1次池化，卷积层卷积尺寸均为3×3，生成的特征图通道数均为64，池化层步长为2，将获得的特征图像输入到(1)中的循环注意力融合模块。

(3)建立深度神经网络Conv2层，接收(1)中的循环注意力融合模块输出的RGB特征图和深度特征图，经过特征提取操作获得新的特征图像，这一阶段包含了2次卷积和1次池化。如图2所示，依次为2次卷积、1次池化，卷积层卷积尺寸均为3×3，生成的特征图通道数均为128，池化层步长为2，将所得新的特征图像输入到(1)中的循环注意力融合模块。

(4)建立深度神经网络Conv3层，接收(1)中循环注意力融合模块输出的RGB特征图和深度特征图，经过特征提取操作获得新的特征图像，这一阶段包含了3次卷积和1次池化。如图2所示，依次为3次卷积、1次池化，卷积层卷积尺寸均为3×3，生成的特征图通道数均为256，池化层步长为2，将所得新的特征图像输入到(1)中循环注意力融合模块。

(5)建立深度神经网络Conv4层，接收(1)中循环注意力融合模块输出的RGB特征图和深度特征图，经过特征提取操作获得最终特征图像，这一阶段包含了3次卷积和1次池化。如图2所示，依次为3次卷积、1次池化，卷积层卷积尺寸均为3×3，生成的特征图通道数均为512，池化层步长为2，将双分支得到的最终RGB图像和最终深度图像进行通道上的连接，得到新的特征图。

(6)建立深度神经网络尾部网络，接收(5)中深度神经网络第四子网络(Conv4)输出的新的特征图，经过特征提取操作获得估计的密度图，这一阶段包含了7个卷积层、6个BatchNorm层和6个ReLU层；其中前6个卷积层的卷积核尺寸均为3×3并且前六个卷积层的卷积核空洞率均为2，第7个卷积层的卷积核尺寸为1×1，第七个卷积核空洞率为1，7个卷积层生成的特征图输出通道数依次为512、512、512、256、128、64、1；在前6个卷积层的输出端连接BatchNorm层，在BatchNorm层输出端连接ReLU层；第7个卷积层的目的是将特征图像的通道数变为1，以生成估计密度图。

该实施例中，池化层为Max Pooling池化层。Max Pooling池化层形式如下所示：

式中，

是多尺度卷积神经网络池化层的输出，

是多尺度卷积神经网络卷积层的输出。多尺度卷积神经网络即深度神经网络模型。

跨模态循环注意力融合模块，即第一跨模态循环注意力融合层、第二跨模态循环注意力融合层或第三跨模态循环注意力融合层形式如下所示：

f_att(X)＝Sigm(Conv₁(concat(maxpool(X),avgpool(X))))

式中，Sigm(·)，Conv1(·)，maxpool(·)和avgpool(·)分别是sigmoid函数，卷积核为1×1并且输出通道数为1的卷积层，最大池化层和平均池化层。f_att(·)为权重系数的计算公式，F_R与F_D分别是原始RGB特征图和原始深度特征图，

与

分别是修正后的RGB特征图和修正后的深度特征图。

是两幅图像进行逐像素相乘，concat(·)是将图像在通道上进行连接。

图3为跨模态循环注意力融合模块细节示意图。下面结合图3对循环注意力融合模块(跨模态循环注意力融合模块)进行说明：

若要从深度特征图获取到对于修正RGB特征图的有用的信息，首先，需要利用深度特征图f_att(·)经公式计算得到用于修正RGB特征图的可学习权重参数，其次，将得到的可学习权重参数和RGB特征图逐像素相乘得到初步修正后的RGB特征图，最后，将初步修正后的RGB特征图和RGB特征图进行通道上的连接来保留对于生成最终RGB特征图像一些有用的信息(来自RGB模态的一些有用的信息)，得到修正后的RGB特征图。计算权重参数的公式f_att(·)具体如下：1、使用步长为2的Max Pooling池化操作和Average Pooling池化操作来处理原始图像，并将两者的结果在通道上连接起来。2、采用卷积核为1×1卷积层将图像的通道数变为1。3、利用sigmoid函数来生成最终的权重参数。

和修正RGB特征图的步骤不同，考虑到RGB模态包含了行人的形态和颜色等细节信息，为了减少RGB模态额外细节信息的干扰，将修正后的RGB特征图作为公式f_att(·)的自变量计算得到修正深度特征图的可学习权重参数。最终修正后的深度特征图获取方式和上述步骤相同。

下面以一个具体实施例说明本发明的技术方案：

图4为本发明计数方法的简单流程示意图。参见图4，该计数方法包括：

(一)将RGB图像和深度图像输入深度神经网络中的Conv1层，分别得到第一RGB特征图和第一深度特征图；将第一RGB特征图和第一深度特征图输入第1个循环注意力融合模块，得到修正后的第一RGB特征图和修正后的第一深度特征图。

(二)将修正后的第一RGB特征图和修正后的第一深度特征图输入深度神经网络中的Conv2层，分别得到第二RGB特征图和第二深度特征图；将第二RGB特征图和第二深度特征图输入第2个循环注意力融合模块，得到修正后的第二RGB特征图和修正后的第二深度特征图。

(三)将修正后的第二RGB特征图和修正后的第二深度特征图输入深度神经网络中的Conv3层，分别得到第三RGB特征图和第三深度特征图；将第三RGB特征图和第三深度特征图输入第3个循环注意力融合模块，得到修正后的第三RGB特征图和第三深度特征图。

(四)将修正后的第三RGB特征图和修正后的第三深度特征图输入深度神经网络中的Conv4层，分别得到最终RGB特征图和最终深度特征图。

(五)将最终RGB特征图和最终深度特征图进行通道上的连接，得到新的特征图。

(六)将新的特征图经过深度神经网络模型中的尾部网络，经多层卷积层的一系列计算得到估计的密度图。

(七)将真实密度图和估计的密度图送入多层次监督机制，计算模型的损失，以模型损失最小化为目的训练模型。

(八)将训练后的深度神经网络模型对任意输入的同一场景下RGB图像和深度图像进行人群密度估计(人群计数)得到估计密度图，将所得估计密度图进行逐像素相加得到对应的人群计数结果(估计的人群计数结果)。

图5为采用本发明人群计数方法进行人群计数的示意图。参见图5，采用本发明人群计数方法进行人群计数时，将目标图像的RGB图像和深度图像输入到步骤(1)-(6)建立的深度神经网络的双分支中，即使用训练和优化后的深度神经网络模型(图5中训练后的人群计数模型)对任意输入的同一场景下RGB图像和深度图像进行人群密度估计得到估计密度图，将所得估计密度图逐像素相加得到对应的人群计数结果。

图6为本发明复杂场景下结合跨模态信息的人群计数系统实施例的结构图。参见图6，该复杂场景下结合跨模态信息的人群计数系统包括：

RGB图像和深度图像获取模块601，用于获取待计数复杂场景下人群的RGB图像和深度图像。

训练和优化模块602，用于采用不同复杂场景下人群的RGB图像和深度图像以及与RGB图像和深度图像对应的真实人群密度图对深度神经网络模型进行训练和优化，得到优化后的深度神经网络模型。

人群密度图估计模块603，用于将RGB图像和深度图像输入优化后的深度神经网络模型中，得到估计的人群密度图；深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层。

低层特征提取层用于对RGB图像和深度图像进行低层特征提取，得到RGB低层特征图和深度低层特征图。

第一跨模态循环注意力融合层用于利用深度低层特征图对RGB低层特征图进行修正，得到修正后的RGB低层特征图；并利用修正后的RGB低层特征图对深度低层特征图进行修正，得到修正后的深度低层特征图。

中层特征提取层用于对修正后的RGB低层特征图和修正后的深度低层特征图进行中层特征提取，得到RGB中层特征图和深度中层特征图。

第二跨模态循环注意力融合层用于利用深度中层特征图对RGB中层特征图进行修正，得到修正后的RGB中层特征图；并利用修正后的RGB中层特征图对深度中层特征图进行修正，得到修正后的深度中层特征图。

高层特征提取层用于对修正后的RGB中层特征图和修正后的深度中层特征图进行高层特征提取，得到RGB高层特征图和深度高层特征图。

第三跨模态循环注意力融合层用于利用深度高层特征图对RGB高层特征图进行修正，得到修正后的RGB高层特征图；并利用修正后的RGB高层特征图对深度高层特征图进行修正，得到修正后的深度高层特征图。

人群密度图估计层用于对修正后的RGB高层特征图和修正后的深度高层特征图进行人群密度估计，得到估计的人群密度图。

人群中人数值估计模块604，用于将估计的人群密度图进行逐像素相加，得到人群中人数的估计值。

其中，训练和优化模块602具体包括：

RGB图像和深度图像获取单元，用于获取不同复杂场景下人群的RGB图像和深度图像。

真实密度图获取单元，用于获取与所述RGB图像和所述深度图像对应的真实人群密度图。

人群密度图估计单元，用于将RGB图像和深度图像输入深度神经网络模型中，利用RGB图像和深度图像对深度神经网络模型进行训练，得到估计的人群密度图。

模型损失函数计算单元，用于将估计的人群密度图以及与估计的人群密度图对应的真实人群密度图送入多层次监督机制，计算深度神经网络模型的损失函数。

模型优化单元，用于根据损失函数确定深度神经网络模型的误差，采用误差反向传播算法将误差进行反向传播，调整深度神经网络模型的参数，直至损失函数最小为止，得到优化后的深度神经网络模型。

其中，多层次监督机制的计算公式为：

L_FC＝λ₁L_coarse+λ₂L_fine

式中，L_coarse表示粗粒度金字塔区域级感知监督，

与

与

具体的，深度神经网络模型还包括：

通道连接层，分别与第三跨模态循环注意力融合层和人群密度图估计层连接，用于将修正后的RGB高层特征图和修正后的深度高层特征图进行通道上的连接，得到融合特征图；并将融合特征图输入人群密度估计层中，利用人群密度图估计层对融合特征图进行人群密度估计，得到估计的人群密度图。

综合特征提取层，分别与第三跨模态循环注意力融合层和通道连接层连接，用于对修正后的RGB高层特征图和修正后的深度高层特征图进行综合特征提取，得到最终RGB特征图和最终深度特征图；并将最终RGB特征图和最终深度特征图传递到通道连接层，利用通道连接层将最终RGB特征图和最终深度特征图进行通道上的连接，得到融合特征图。

本发明针对已有RGB-D人群计数方法存在的问题，提出了一种复杂场景下结合跨模态信息的人群计数方法及系统，可以有效解决人群任意分布的拥挤场景下RGB-D人群计数任务。通过在两个分支分别输入RGB图像和深度图像；多个循环注意力融合模块融合来自RGB图像和深度图像的互补信息；将两个分支的特征图连接经过卷积网络产生估计的人群密度图；用多层次监督机制计算估计密度图与真实密度图的损失，以损失最小化为目的优化模型的参数；将训练后的深度神经网络模型对任意输入的同一场景下RGB图像和深度图像进行人群密度估计得到估计密度图，最后将所得估计密度图逐像素相加得到对应的人群计数结果。由于跨模态循环注意力融合模块能够从RGB图像和深度图像学到更多关于人群分布的互补信息，多层次监督机制在细粒度像素视图和粗粒度空间区域视图中引入了综合学习的方向，使得计数模型关注于场景中不同子区域间存在的较大计数误差，从而使得模型具备更准确估计人群分布的能力。

与现有技术相比，本发明的优势在于：

(1)通过利用跨模态循环注意力模块将RGB图像和深度图像的互补信息进行自适应的融合，即采用原始深度特征的空间几何信息为原始RGB特征提供修正信息来源同时采用修正后的RGB特征为原始深度特征提供修正信息来源，以充分发挥不同模态图像信息对复杂人群分布的作用，可以有效对复杂场景的人群分布进行建模并生成更为准确反映真实人群分布的密度图估计结果。基于跨模态循环注意力融合模块生成了更精确的人群分布密度图。

(2)利用多层次监督机制能够有效使得深度神经网络模型结构能从监督层级上学习到更准确的人群分布信息和人的位置信息，即采用金字塔形的多层次密度图损失计算项，可以避免常规人群密度图损失计算忽视人群分布信息导致训练模型对人群场景空间信息不敏感进而导致人群计数性能不佳的问题。基于多层次监督机制可以更准确的计算深度神经网络模型的损失，增加了深度神经网络模型的计数准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。