CN113538400A

CN113538400A - 一种跨模态人群计数方法及系统

Info

Publication number: CN113538400A
Application number: CN202110865262.4A
Authority: CN
Inventors: 张世辉; 李贺; 赵维勃; 李群鹏
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-10-22
Anticipated expiration: 2041-07-29
Also published as: CN113538400B

Abstract

本发明涉及一种跨模态人群计数方法及系统。所述方法包括：获取包括待计数人群的RGB图像和红外热图像；根据RGB图像得到RGB图像的跨模态人群分布信息注意力掩膜；分别对RGB图像和红外热图像进行特征提取操作得到RGB图像的特征表示和红外热图像的特征表示；根据跨模态人群分布信息注意力掩膜和RGB图像的特征表示得到RGB图像特征图；根据RGB图像特征图和红外热图像的特征表示得到特征图；对特征图进行卷积操作得到人群密度估计图；根据人群密度估计图得到待计数人群的总人数。本发明可以提高人群计数的准确率。

Description

一种跨模态人群计数方法及系统

技术领域

本发明涉及计数领域，特别是涉及一种跨模态人群计数方法及系统。

背景技术

人群计数被广泛用于社会距离监测，考虑到不同场景中人群状态的复杂性，估计准确的人群数量到目前为止仍然是困难和具有挑战性的，尤其是无约束场景中背景信息对计数的干扰，现有的大多数方法仅利用了从RGB图像中提取的光学信息，在无约束场景下可能无法准确识别语义对象，例如，行人在较差的光照条件下(如背光和夜间)几乎是看不见的，并且很难从RGB图像中直接检测到行人，此外，一些人形物体(例如，微小的柱子和模糊的红绿灯)与行人的外观相似，仅依靠光学特征很容易被误认为是人，所以，根据RGB图像进行人群计数得到的结果并不准确。

发明内容

本发明的目的是提供一种跨模态人群计数方法及系统，可以提高人群计数的准确率。

为实现上述目的，本发明提供了如下方案：

一种跨模态人群计数方法，包括：

获取包括待计数人群的RGB图像和红外热图像；

根据所述RGB图像得到所述RGB图像的跨模态人群分布信息注意力掩膜；

分别对所述RGB图像和所述红外热图像进行特征提取操作得到所述RGB图像的特征表示和所述红外热图像的特征表示；

根据所述跨模态人群分布信息注意力掩膜和所述RGB图像的特征表示得到RGB图像特征图；

根据所述RGB图像特征图和所述红外热图像的特征表示得到特征图；

对所述特征图进行卷积操作得到人群密度估计图；

根据所述人群密度估计图得到所述待计数人群的总人数。

可选的，所述根据所述RGB图像得到所述RGB图像的跨模态人群分布信息注意力掩膜，具体包括：

对所述RGB图像进行特征提取操作得到所述RGB图像的跨模态区分特征表示；

对所述跨模态区分特征表示进行掩模操作得到跨模态人群分布信息注意力掩膜。

可选的，所述对所述RGB图像进行特征提取操作得到所述RGB图像的跨模态区分特征表示，具体包括：

将所述RGB图像输入第一子网络模型得到所述RGB图像的跨模态区分特征表示；所述第一子网络模型由上至下依次为两个卷积层，一个池化层，两个卷积层，一个池化层，三个卷积层，一个池化层和三个卷积层。

可选的，所述分别对所述RGB图像和所述红外热图像进行特征提取操作得到所述RGB图像的特征表示和所述红外热图像的特征表示，具体包括：

将所述RGB图像输入RGB图像特征图提取模型得到所述RGB图像的特征表示，所述RGB图像特征图提取模型由上至下依次为两个卷积层，一个池化层，两个卷积层，一个池化层，三个卷积层，一个池化层和三个卷积层；

将所述红外热图像输入红外热图像特征提取模型得到所述红外热图像的特征表示；所述红外热图像特征提取模型由上至下依次为两个卷积层，一个池化层，两个卷积层，一个池化层，三个卷积层，一个池化层和三个卷积层。

可选的，所述对所述跨模态区分特征表示进行掩模操作得到跨模态人群分布信息注意力掩膜，具体包括：

将所述跨模态区分特征表示针对通道进行全局最大池化操作，得到第一特征表示；

将所述跨模态区分特征表示针对通道进行全局平均池化操作，得到第二特征表示；

将所述第一特征表示和所述第二特征表示进行通道上的链接操作得到级联结果；

对所述级联结果进行卷积操作得到跨模态人群分布信息注意力掩膜。

可选的，所述根据所述跨模态人群分布信息注意力掩膜和所述RGB图像的特征表示得到RGB图像特征图，具体包括：

将所述跨模态人群分布信息注意力掩膜和所述RGB图像的特征表示按元素相乘得到RGB图像特征图。

可选的，所述根据所述RGB图像特征图和所述红外热图像的特征表示得到特征图，具体包括：

对所述RGB图像特征图和所述红外热图像的特征表示进行通道上的链接操作得到特征图。

可选的，所述对所述特征图进行卷积操作得到人群密度估计图，具体包括：

将所述特征图输入后端网络模型，得到人群密度估计图；所述后端网络模型包括七个依次连接的膨胀卷积层。

一种跨模态人群计数系统，包括：

获取模块，用于获取包括待计数人群的RGB图像和红外热图像；

生成注意力掩膜模块，用于根据所述RGB图像得到所述RGB图像的跨模态人群分布信息注意力掩膜；

特征提取模块，用于分别对所述RGB图像和所述红外热图像进行特征提取操作得到所述RGB图像的特征表示和所述红外热图像的特征表示；

RGB图像特征图确定模块，用于根据所述跨模态人群分布信息注意力掩膜和所述RGB图像的特征表示得到RGB图像特征图；

特征图确定模块，用于根据所述RGB图像特征图和所述红外热图像的特征表示得到特征图；

人群密度估计图确定模块，用于对所述特征图进行卷积操作得到人群密度估计图；

人群计数模块，用于根据所述人群密度估计图得到所述待计数人群的总人数。

可选的，所述生成注意力掩膜模块包括：

跨模态区分特征表示单元，用于对所述RGB图像进行特征提取操作得到所述RGB图像的跨模态区分特征表示；

掩模确定单元，用于对所述跨模态区分特征表示进行掩模操作得到跨模态人群分布信息注意力掩膜。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明根据跨模态人群分布信息注意力掩膜和RGB图像的特征表示得到RGB图像特征图；将RGB图像的特征表示与人群位置掩膜进行融合，从而使RGB图像的特征表示更加注意人群位置信息，忽略背景因素的干扰。根据RGB图像特征图和红外热图像的特征表示得到特征图，将添加了人群位置掩膜的RGB图像语义与热图像的特征表示融合，实现了多模态特征之间的互补，可以得到更多的信息，对背景因素具有更强的鲁棒性，有效抑制了人群密度估计任务中图像背景因素导致人群密度估计准确率下降的缺陷，从而提高人群计数的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的跨模态人群计数方法的流程图；

图2为本发明实施例提供的生成注意力掩膜模块的工作流程图

图3为本发明实施例提供的深度神经网络模型的整体结构示意图；

图4为采用本发明实施例提供的深度神经网络模型进行人群密度估计的示意图；

图5为本发明实施例提供的一种跨模态人群计数系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

热像可以极大地帮助区分潜在的行人和杂乱的背景，而且由于热像仪得到了广泛的普及增加了基于热像仪的人群计数的可行性，但是热像并不完美，一些有温度的物体(如加热墙和灯)在热像中也会突出显示，但借助光学信息可以有效地消除它们，所以RGB图像和热成像具有很强的互补性。本发明将RGB图像和热像图结合提供了一种跨模态人群计数方法进行人群计数，大概步骤为：将RGB图像输入深度神经网络模型的第一子网络模型和生成注意力掩膜模块，得到RGB图像的跨模态人群分布信息注意力掩膜(人群位置信息掩膜)；将RGB图像输入深度神经网络模型的第二子网络模型的RGB图像特征图提取模型，得到RGB图像的特征表示(语义特征图)；将热像图输入深度神经网络模型的第二子网络模型的红外热图像特征提取模型，得到热图的特征表示(语义特征图)；将RGB图像特征表示与跨模态人群分布信息注意力掩膜加权，并与热图的特征表示进行融合，经过回归得到人群密度估计图，根据人群密度估计图得到人数估计结果，具体步骤如图1所示，包括：

步骤101：获取包括待计数人群的RGB图像和红外热图像。

步骤102：根据所述RGB图像得到所述RGB图像的跨模态人群分布信息注意力掩膜。

步骤103：分别对所述RGB图像和所述红外热图像进行特征提取操作得到所述RGB图像的特征表示和所述红外热图像的特征表示。

步骤104：根据所述跨模态人群分布信息注意力掩膜和所述RGB图像的特征表示得到RGB图像特征图。

步骤105：根据所述RGB图像特征图和所述红外热图像的特征表示得到特征图。

步骤106：对所述特征图进行卷积操作得到人群密度估计图。

步骤107：根据所述人群密度估计图得到所述待计数人群的总人数。

在实际应用中，步骤102具体包括：

对所述RGB图像进行特征提取操作得到所述RGB图像的跨模态区分特征表示。

在实际应用中，所述对所述RGB图像进行特征提取操作得到所述RGB图像的跨模态区分特征表示，具体包括：

将所述RGB图像输入第一子网络模型得到所述RGB图像的跨模态区分特征表示；所述第一子网络模型由上至下依次为两个卷积层，一个池化层，两个卷积层，一个池化层，三个卷积层，一个池化层和三个卷积层，所述第一子网络模型中卷积层的通道数由输入至输出方向依次为64、64、128、128、256、256、256、512、512和512；卷积层的卷积尺寸均为3*3；池化层的步长均为2。

在实际应用中，步骤103具体包括：

将所述RGB图像输入RGB图像特征图提取模型得到所述RGB图像的特征表示，所述RGB图像特征图提取模型由上至下依次为两个卷积层，一个池化层，两个卷积层，一个池化层，三个卷积层，一个池化层和三个卷积层。

将所述红外热图像输入红外热图像特征提取模型得到所述红外热图像的特征表示；所述红外热图像特征提取模型由上至下依次为两个卷积层，一个池化层，两个卷积层，一个池化层，三个卷积层，一个池化层和三个卷积层，所述红外热图像特征提取模型和所述RGB图像特征图提取模型中卷积层的通道数由输入至输出方向均依次为64、64、128、128、256、256、256、512、512和512；卷积层的卷积尺寸均为3*3；池化层的步长均为2。

在实际应用中，所述对所述跨模态区分特征表示进行掩模操作得到跨模态人群分布信息注意力掩膜，如图2所示，具体包括：

将所述跨模态区分特征表示针对通道进行全局最大池化操作，得到第一特征表示。

将所述跨模态区分特征表示针对通道进行全局平均池化操作，得到第二特征表示。

将所述第一特征表示和所述第二特征表示进行通道上的链接操作得到级联结果(第一特征表示和第二特征表示均为单通道的跨模态区分特征表示)，公式表示形式为

式中，Maxpooing(F_cmdfr)为第一特征表示，

为通道上的链接操作，Averagepooling(F_cmdfr)为第二特征表示，F_result1为级联结果。

对所述级联结果进行卷积操作得到跨模态人群分布信息注意力掩膜F_result2，可以使用1*1的卷积层进行卷积操作。

在实际应用中，步骤104具体包括：

将所述跨模态人群分布信息注意力掩膜和所述RGB图像的特征表示按元素相乘得到RGB图像特征图，RGB图像特征图融合了跨模态人群分布信息，公式表示形式为：

式中，F_result2为跨模态人群分布信息注意力掩膜，F_RGB为RGB图像的特征表示，

为逐元素相乘操作，F_result3为RGB图像特征图。

在实际应用中，步骤105具体包括：

对所述RGB图像特征图和所述红外热图像的特征表示进行通道上的链接操作得到特征图，公式表示为

式中，F_result3为RGB图像特征图，

为通道上的链接操作，F_thermal为红外热图像的特征表示，F_result为特征图。

在实际应用中，步骤106具体包括：

将所述特征图输入后端网络模型，得到人群密度估计图；所述后端网络模型包括七个依次连接的膨胀卷积层，所述后端网络模型中膨胀卷积层的通道数由输入至输出方向依次为512、512、512、256、128、64和1；所述膨胀卷积层的卷积尺寸分别为3*3、3*3、3*3、3*3、3*3、3*3和1*1；所述膨胀卷积层的膨胀率分别为2、2、2、2、2、2和1。

下面介绍一下本实施例中用到的模型的训练过程：

步骤1：建立用于生成跨模态区分特征表示的深度神经网络模型，整体结构如图3的左边所示。建立跨模态特征表示学习模型的过程如下：

1.1)建立第一子网络模型。任意输入包括待训练计数人群的RGB图像，经过跨模态区分特征提取操作获得跨模态区分特征表示。这一阶段包括10次卷积和3次池化。如图3所示，依次为两个卷积层，一个池化层，两个卷积层，一个池化层，三个卷积层，一个池化层和三个卷积层，卷积层的卷积尺寸均为3*3，生成特征图通道数依次为：64、64、128、128、256、256、256、512、512和512，三个池化层步长均为2，第十次卷积操作后得到跨模态区分特征表示。

1.2)建立预测网络。接收1.1)中跨模态区分特征表示作为输入，获得RGB图像到热图像的非线性表示(生成热图)。这一阶段包括6次卷积，如图3所示，卷积层的卷积尺寸均为3*3，卷积层生成的特征图的通道数由输入至输出方向依次为512、512、512、256、128、64和3，池化层的步长均为2，第六次卷积操作后得到RGB图像到热图像的非线性表示。

使用生成热图和真实热图的结构相似性算法作为损失函数，对用于生成跨模态区分特征表示的深度神经网络模型进行训练得到训练好的第一子网络模型和预测网络。N为训练样本数量，将生成热图和真实热图分别分为M个patch(区域)，相同的位置相互对应。μ_x是生成热图中一个patch上的平均亮度，μ_y是真实热图中对应的patch上的平均亮度，σ_x是生成热图中一个patch上的对比度，σ_y是真实热图中对应的patch上的对比度，C₁，C₂是基于当前patch亮度范围的常数，σ_xy为生成热图的一个patch与对应的真实热图patch上的协方差对比度，对生成热图和对应的真实热图上的每一个patch进行结构相似性计算，得到单个patch上的损失函数结果SSIM(x_i，y_i)，计算公式如下：

对所有的patch上的损失函数值的总和求平均，得到单张图片的损失函数结果，计算公式如下：

对所有图像的绝对差值的总和求平均，得到损失函数的结果。

1.3)建立生成注意力掩膜模块，如图2所示，包括并联的最大池化操作单元(Maxpooling)和平均池化操作单元(Averagepooling)，两个单元的输出端均连接链接操作单元C，链接操作单元C的输出端连接1*1卷积单元(Conv1×1)。用于接收1.1)中的跨模态区分特征表示F_cmdfr作为输入，分别针对通道进行全局最大池化操作和全局平均池化操作，得到两个单通道的跨模态区分特征表示，将全局最大池化操作结果和全局平均池化操作结果进行通道上的链接操作，将链接结果使用1*1卷积，得到单通道的跨模态人群分布信息注意力掩膜。

步骤2：建立用于人群密度估计的深度神经网络模型，整体结构如图3的右边所示。建立深度神经网络模型的过程如下：

2.1)建立RGB图像特征图提取模型。将1.1)中的输入图像作为输入，经过特征提取操作获得RGB图像的特征表示。这一阶段包括10次卷积和3次池化。如图3所示，依次为两个卷积层，一个池化层，两个卷积层，一个池化层，三个卷积层，一个池化层和三个卷积层，卷积层的卷积尺寸均为3*3，生成特征图通道数依次为：64、64、128、128、256、256、256、512、512和512，三个池化层步长均为2，第十次卷积操作后得到RGB图像的特征表示，虽然第一子网络模型和RGB图像特征图提取模型的结构相同，但是因为在训练时的训练数据不同所以导致每个模型中相同卷积层的权值是不同的，所以得到的结果不同。

2.2)建立红外热图像特征提取模型。将1.1)中RGB图像对应的热图作为输入，经过特征提取操作获得热图的特征表示。这一阶段包括10次卷积和3次池化。如图3所示，依次为两个卷积层，一个池化层，两个卷积层，一个池化层，三个卷积层，一个池化层和三个卷积层，卷积层的卷积尺寸均为3*3，生成特征图通道数依次为：64、64、128、128、256、256、256、512、512和512，三个池化层步长均为2，第十次卷积操作后得到热图的特征表示。

2.3)建立特征融合模块。将1.3)中的跨模态人群分布信息注意力掩膜、2.1)中的RGB图像的特征表示和2.2)中的热图的特征表示作为输入，将跨模态人群分布信息注意力掩膜与RGB图像的特征表示按元素相乘，得到融合了跨模态人群分布信息的RGB图像特征图，将融合了跨模态人群分布信息的RGB图像特征图与热图的特征表示进行链接操作，得到了融合图像特征。

2.4)建立后端网络模型。接收2.3)中的融合图像特征作为输入，获得人群密度估计图。这一阶段包括七个膨胀卷积层。如图3所示，卷积层生成的特征图的通道数由输入至输出方向依次为512、512、512、256、128、64、和1，膨胀卷积层的卷积尺寸分别为3*3、3*3、3*3、3*3、3*3、3*3和1*1，膨胀卷积层的膨胀率分别为2、2、2、2、2、2和1，第七次卷次操作后得到人群密度估计图，对人群密度图进行求和，得到人群密度估计图。使用人群密度估计图和真实人群密度图的欧氏距离作为损失函数对用于人群密度估计的深度神经网络模型进行训练，得到训练好的RGB图像特征图提取模型、红外热图像特征提取模型和后端网络模型。N为训练样本数量，F_D(X_i；Θ)为生成的人群密度估计图，D_i为真实人群密度图，对每一张单幅图像的人群密度估计图和人群密度图求绝对差值，并对所有图像的绝对差值的总和求平均，得到损失函数的结果，计算公式如下：

在每次得到待估计图像对应的人群密度估计图和人数估计结果之后，根据用于人群密度估计的深度神经网络模型的损失函数确定用于人群密度估计的深度神经网络模型的误差，将所述误差反向传播，调整用于人群密度估计的深度神经网络模型的参数，对用于人群密度估计的深度神经网络模型进行优化。待学习参数Θ采用Adam优化算法在每一次优化迭代中更新，直到加权和结果L(Θ)收敛到一个较小的值，保存参数及训练后的模型。

最后，如图4所示，使用生成掩模模型、特征融合模块、训练后的第一子网络模型和用于人群密度估计的深度神经网络模型组成的深度神经网络模型对要计数的RGB图像和热图进行人群密度估计，得到对应的人群密度估计图。

本实施例还提供了一种与上述方法对应的跨模态人群计数系统，如图5所示，所述系统包括：

获取模块A1，用于获取包括待计数人群的RGB图像和红外热图像。

生成注意力掩膜模块A2，用于根据所述RGB图像得到所述RGB图像的跨模态人群分布信息注意力掩膜。

特征提取模块A3，用于分别对所述RGB图像和所述红外热图像进行特征提取操作得到所述RGB图像的特征表示和所述红外热图像的特征表示。

RGB图像特征图确定模块A4，用于根据所述跨模态人群分布信息注意力掩膜和所述RGB图像的特征表示得到RGB图像特征图。

特征图确定模块A5，用于根据所述RGB图像特征图和所述红外热图像的特征表示得到特征图。

人群密度估计图确定模块A6，用于对所述特征图进行卷积操作得到人群密度估计图。

人群计数模块A7，用于根据所述人群密度估计图得到所述待计数人群的总人数。

作为一种可选的实施方式，所述生成注意力掩膜模块包括：

跨模态区分特征表示单元，用于对所述RGB图像进行特征提取操作得到所述RGB图像的跨模态区分特征表示。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

(1)通过建立一个从RGB图像到热图像的非线性映射，而不是随意频繁地进行跨模态特征融合，从而有效地提取跨模态区分特征表示。因为拥挤场景的热像呈现与人群有关的更直观的信息，并且比传统光学图像对背景信息更不敏感，所以提取跨模态区分特征表示能更好的得到人群位置信息，通过注意力机制建立人群位置注意力掩膜模型，得到人群位置信息注意力掩膜。

(2)通过将RGB图像的特征表示与人群位置掩膜进行融合，从而使RGB图像的特征表示更加注意人群位置信息，忽略背景因素的干扰。将添加了人群位置掩膜的RGB图像语义与热图像的特征表示融合，实现了多模态特征之间的互补，可以得到更多的信息，对背景因素具有更强的鲁棒性，有效抑制了人群密度估计任务中图像背景因素导致人群密度估计准确率下降的缺陷。

(3)可以有效解决在从RGB图像中提取的光学信息进行人群计数任务中，在无约束场景下背景信息对计数的干扰导致人群计数性能不佳的问题，具有较高的准确性和较好的鲁棒性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种跨模态人群计数方法，其特征在于，包括：

获取包括待计数人群的RGB图像和红外热图像；

对所述特征图进行卷积操作得到人群密度估计图；

根据所述人群密度估计图得到所述待计数人群的总人数。

2.根据权利要求1所述的一种跨模态人群计数方法，其特征在于，所述根据所述RGB图像得到所述RGB图像的跨模态人群分布信息注意力掩膜，具体包括：

3.根据权利要求2所述的一种跨模态人群计数方法，其特征在于，所述对所述RGB图像进行特征提取操作得到所述RGB图像的跨模态区分特征表示，具体包括：

4.根据权利要求1所述的一种跨模态人群计数方法，其特征在于，所述分别对所述RGB图像和所述红外热图像进行特征提取操作得到所述RGB图像的特征表示和所述红外热图像的特征表示，具体包括：

5.根据权利要求2所述的一种跨模态人群计数方法，其特征在于，所述对所述跨模态区分特征表示进行掩模操作得到跨模态人群分布信息注意力掩膜，具体包括：

6.根据权利要求1所述的一种跨模态人群计数方法，其特征在于，所述根据所述跨模态人群分布信息注意力掩膜和所述RGB图像的特征表示得到RGB图像特征图，具体包括：

7.根据权利要求1所述的一种跨模态人群计数方法，其特征在于，所述根据所述RGB图像特征图和所述红外热图像的特征表示得到特征图，具体包括：

8.根据权利要求1所述的一种跨模态人群计数方法，其特征在于，所述对所述特征图进行卷积操作得到人群密度估计图，具体包括：

将所述特征图输入后端网络模型得到人群密度估计图，所述后端网络模型包括七个依次连接的膨胀卷积层。

9.一种跨模态人群计数系统，其特征在于，包括：

10.根据权利要求9所述的一种跨模态人群计数系统，其特征在于，所述生成注意力掩膜模块包括：