CN114821488A

CN114821488A - 基于多模态网络的人群计数方法、系统及计算机设备

Info

Publication number: CN114821488A
Application number: CN202210753795.8A
Authority: CN
Inventors: 余鹰; 蔡震; 钱进; 汤洪; 朱志亮
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-07-29
Anticipated expiration: 2042-06-30
Also published as: CN114821488B

Abstract

本发明提出一种基于多模态网络的人群计数方法、系统及计算机设备，该方法包括：将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码；将相同待训练图像中对应的多种第一特征向量进行映射融合，得到第二特征向量；根据位置信息和像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据第三特征向量对初始人群计数模型训练，得到最终人群计数模型；获取双模态下分别对应的待识别图像，并将待识别图像输入到最终人群计数模型中。本发明提出的基于多模态网络的人群计数方法，能够更好地应用于夜间或人群拥挤等复杂环境的人群计数，得到更准确的人群预测数量。

Description

基于多模态网络的人群计数方法、系统及计算机设备

技术领域

本发明涉及人群计数技术领域，特别涉及一种基于多模态网络的人群计数方法、系统及计算机设备。

背景技术

人群计数是一项计算机图像处理的富有挑战性的任务，目的是自动估计出图片场景中的人数，例如在交通监控管制或地铁人群预警方面均有十分广泛的应用前景。

现有技术中，人群计数主要是通过提取场景中行人的特征，而后采用目标检测技术来进行人群的标记，最后计数得到总人数，或者得到特征后直接回归人数。

然而，随着科技的发展，由于获得的场景图也越来越多样，例如在人群十分密集，有严重遮挡的场所；夜间光照不足，指示不明朗的场所，难以从监控视频或监控图像中充分提取出深层次的特征，导致人群计数得出的结果误差较大，存在不适用于对复杂环境下的场所进行有效人群计数的问题。

发明内容

基于此，本发明的目的是提出一种基于多模态网络的人群计数方法、系统及计算机设备，传统人群计数方法难以适用于监控存在严重遮挡以及光照不足的场所人数的问题。

根据本发明提出的基于多模态网络的人群计数方法，所述方法包括：

获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以得到与每份待训练图像对应的多种第一特征向量；

将相同待训练图像中对应的多种第一特征向量进行映射融合，以得到与每一待训练图像对应的第二特征向量，所述第二特征向量均包括对应待训练图像中的像素信息以及与所述像素信息对应的位置信息；

根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据所述第三特征向量对基于transformer构建的初始人群计数模型训练，得到最终人群计数模型；

获取双模态下分别对应的待识别图像，并将所述待识别图像输入到所述最终人群计数模型中，得到预测人群数量。

综上，根据上述的基于多模态网络的人群计数方法，通过将多模态的图像分别进行深层次网络特征提取，以深度分析得到各模态间的共性特征和差异性特征，从而能够更好地应对夜间或人群拥挤等复杂环境，得到更准确的人群预测数量。具体为，首先获取两种模态下的人群图像，并将各个模态图像分割成多份，有利于充分提取特征，而后对分割得到的各个待训练图像进行编码，得到对应的多种第一特征向量，而后再将得到的多种第一特征向量进行映射融合，以将充分提取出的多种第一特征向量融合成第二特征向量，即得到各模态下各待训练图像分别对应的特征，而后再根据位置信息将第二特征向量进行分离及融合，以得到模态间的共性特征和差异性特征，即多种第三特征向量，进而构建出适用于复杂环境下的最终人群计数模型，解决了传统人群计数方法难以适用于监控存在严重遮挡以及光照不足的场所人数的问题。

进一步地，所述根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据所述第三特征向量对基于transformer构建的初始人群计数模型训练，得到最终人群计数模型的步骤包括：

所述第三特征向量包括输入阶段对应的初始输入特征、分离融合阶段对应的分离特征以及输出阶段对应的输出特征，根据输出阶段对应的输出特征对所述初始人群计数模型进行回归训练，其中：

根据以下公式获取所述初始输入特征：

其中，Fs₀表示第一次训练时的输出阶段对应的初始输入特征，F_R表示第一种模态下的第二特征向量，F_T表示第二种模态下的第二特征向量，F_S（t）表示第t次训练的初始输入特征，F_S（t-1）表示第（t-1）次训练的初始输入特征；

根据以下公式获取所述分离特征：

其中，F_r表示第一种模态下的第二特征向量与初始输入特征的区别特征，F_t表示第二种模态下的第二特征向量与初始输入特征的区别特征，F´_S（t）表示第t次训练下经过前向传播后的初始输入特征；

根据以下公式获取所述输出特征：

其中，F_out表示输出特征，b_R表示第一种模态下的第二特征向量的注意力权重，b_T表示第二种模态下的第二特征向量的注意力权重。

进一步地，所述根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据所述第三特征向量对基于transformer构建的初始人群计数模型训练，得到最终人群计数模型的步骤还包括：

根据以下公式对所述输出特征进行卷积操作，以得到融合特征图：

其中，F表示融合当前卷积操作对应的融合特征图，Sigmod（·）表示对卷积后的输出特征作非线性激活的函数，conv1*1（·）表示以卷积核为1*1的尺寸对输出特征进行卷积。

进一步地，所述待训练图像至少包括RGB图像、热力图像以及深度图像，所述获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以得到与每份待训练图像对应的多种第一特征向量的步骤包括：

若第一种模态下的人群图像为所述RGB图像，则将每一通道下的所述RGB图像切割成第一预设份数的待训练图像，所述RGB图像包括三通道；

将各个通道下的所有待训练图像与第一预设个数的卷积核进行卷积，并根据第一卷积结果进行向量拉伸，以得到RGB特征向量。

进一步地，所述获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以得到与每份待训练图像对应的多种第一特征向量的步骤还包括：

若第二种模态下的人群图像为热力图像或深度图像，则将单通道下的热力图像或深度图像切割成第二预设份数的待训练图像；

将获得的第二预设份数的待训练图像与第二预设个数的卷积核做卷积，并根据第二卷积结果进行向量拉伸，得到热力特征向量或深度特征向量，所述热力特征向量或所述深度特征向量均与所述RGB特征向量的数量相等。

进一步地，所述将相同待训练图像中对应的多种第一特征向量进行映射融合，以得到与每一待训练图像对应的第二特征向量的步骤包括：

将同一待训练图像在不同阶段下得到的所述第一特征向量进行连接，并对连接后的第一特征向量进行多层感知，以根据多层感知结果对连接后的第一特征向量进行编码，得到所述第二特征向量，所述第一特征向量与所述第二特征向量的维度相等。

进一步地，根据以下公式获取所述融合特征图在本次卷积操作中的损失值：

其中，L_density表示当前卷积操作得到的融合特征图的损失值，N表示的是一次训练图片的总数量，F_i ^pre表示第i张图片的预测的特征图结果(i=1，2 ，…，N)，F_i ^GT为第i张训练图片的真实密度图。

根据本发明实施例的一种基于多模态网络的人群计数系统，所述基于多模态网络的人群计数系统包括：

前端特征提取模块，用于获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以得到与每份待训练图像对应的多种第一特征向量；

上下文感知模块，用于将相同待训练图像中对应的多种第一特征向量进行映射融合，以得到与每一待训练图像对应的第二特征向量，所述第二特征向量均包括对应待训练图像中的像素信息以及与所述像素信息对应的位置信息；

自适应特征融合模块，用于根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据所述第三特征向量对基于transformer构建的初始人群计数模型训练，得到最终人群计数模型；

预测模块，用于获取双模态下分别对应的待识别图像，并将所述待识别图像输入到所述最终人群计数模型中，得到预测人群数量。

本发明另一方面还提供一种存储介质，包括所述存储介质存储一个或多个程序，该程序被执行时实现如上述的基于多模态网络的人群计数方法。

本发明另一方面还提供一种计算机设备，所述计算机设备包括存储器和处理器，其中：

所述存储器用于存放计算机程序；

所述处理器用于执行所述存储器上所存放的计算机程序时，实现如上述的基于多模态网络的人群计数方法。

附图说明

图1为本发明第一实施例提出的基于多模态网络的人群计数方法的流程图；

图2为本发明第一实施例提出的前端特征提取模块操作示意图；

图3为本发明第一实施例中提出的上下文感知模块操作示意图；

图4为本发明第二实施例中的基于多模态网络的人群计数方法的流程图；

图5为本发明第二实施例中提出的自适应特征融合模块的操作示意图；

图6为本发明第三实施例中提出的基于多模态网络的人群计数系统的结构示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干个实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，所示为本发明第一实施例中基于多模态网络下的人群计数方法的流程图，该方法包括步骤S01至步骤S04，其中：

步骤S01：获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以得到与每份待训练图像对应的多种第一特征向量；

需要说明的是，在本实施例中，选取的两种模态的人群图像分别为RGB图像和红外热力图像，请参阅图2，所示为前端特征模块操作示意图，使用的基础特征提取器为VIT的编码器，其工作过程为把一张图片分成n个patch，然后每个patch编码成dim维的向量输入transformer中，再通过多头注意力模块，得到编码器的输出，前端特征提取模块分别由两路的各4个编码器的输入组成，其中第二个特征提取器与第四个特征提取器采取跳跃连接的方法来提升模型训练的精度，减少过拟合的现象，两种模态的输入分别经过4个特征编码器block进行特征提取，即得到四种第一特征向量。

步骤S02：将相同待训练图像中对应的多种第一特征向量进行映射融合，以得到与每一待训练图像对应的第二特征向量，所述第二特征向量均包括对应待训练图像中的像素信息以及与所述像素信息对应的位置信息；

在本步骤中，在经过前端特征提取之后，进行上下文感知，具体是把特征提取前端的经过的前4个transformer特征编码器特征分别提取出来，进行特征映射再融合，请参阅图3，所示为上下文感知模块操作示意图，双流框架分别提取到RGB与热图像的4个阶段的特征，经过connect操作把4个阶段提取到的特征进行连接，再经过MLP对连接后的特征进行编码，同时保持输入特征的维度与输出特征的维度不变，最后把得到的特征输入自适应融合特征模块，需要说明的是，第二特征向量均包括在人群图像中对应的位置信息以及像素信息，以便根据位置信息得知不同模态下表示相同区域的待训练图像。

步骤S03：根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据所述第三特征向量对基于transformer构建的初始人群计数模型训练，得到最终人群计数模型；

需要说明的是，为了能够适用于复杂环境下的人群计数，在经过前端特征提取以及上下文感知融合特征后，能够得到经过深度分析提取的两种模态下的各个待训练图像对应的第二特征向量，在此基础上，进而再通过将不同模态下表示同一区域的待训练图像进行特征分离及融合，能够充分利用两个模态特征间的互补性，以从不同模态数据中抓取出所需的信息，从而提高最终人群计数模型对复杂环境场所的适用性。

需要说明的是，由于transformer的结构特性，可以把两个不同模态的数据编码到同一框架下，其在多模态数据处理方面具有很好的优势，在多模态场景下的工作模型有VilBert等。

步骤S04：获取双模态下分别对应的待识别图像，并将所述待识别图像输入到所述最终人群计数模型中，得到预测人群数量。

在得到最终人群计数模型后，将双模态下分别对应的待识别图像均输入到该模型中，进而能够得到一密度图，再根据该密度图得到预测人群数量。

请参阅图4，所示为本发明第二实施例中的基于多模态网络下的人群计数方法的流程图，该方法包括步骤S101至步骤S107，其中：

步骤S101：若第一种模态下的人群图像为所述RGB图像，则将每一通道下的所述RGB图像切割成第一预设份数的待训练图像，所述RGB图像包括三通道；

步骤S102：将各个通道下的所有待训练图像与第一预设个数的卷积核进行卷积，并根据第一卷积结果进行向量拉伸，以得到RGB特征向量；

示例而非限定，假设输入为一张3通道的RGB图像，大小为256x256，把每张图片切成16块，则总共会生成48（16x3）个块，每个块的大小是64x64，通过向量编码会把48个块与dim个卷积核做卷积，假设dim是128，则生成128个4x4的结果（这里经过卷积核的运算为把原图64x64的区域生成一个像素的结果，且256x256经过运算后会得到4x4的结果），最后将结果拉伸就是（1，16，128）的向量。

步骤S103：若第二种模态下的人群图像为热力图像或深度图像，则将单通道下的热力图像或深度图像切割成第二预设份数的待训练图像；

步骤S104：将获得的第二预设份数的待训练图像与第二预设个数的卷积核做卷积，并根据第二卷积结果进行向量拉伸，得到热力特征向量或深度特征向量，所述热力特征向量或所述深度特征向量均与所述RGB特征向量的数量相等；

示例而非限定，假如输入是1通道的热力图或者深度图，大小为256x256，则每张图片会生成16个块，块大小也是64x64。再把16个块与128个1维卷积核做卷积，生成128个4x4的结果，即该热力特征向量与RGB特征向量的数量相等，而后再把结果拉伸就是（1，16，128）的向量。

步骤S105：将同一待训练图像在不同阶段下得到的所述第一特征向量进行连接，并对连接后的第一特征向量进行多层感知，以根据多层感知结果对连接后的第一特征向量进行编码，得到所述第二特征向量，所述第一特征向量与所述第二特征向量的维度相等；

需要说明的是，在本实施例中，由于前端特征提取中每个阶段的特征的突出的区域都不一样，且每个维度的向量的像素值都不一样，因此需经过MLP操作给不同阶段的特征一个权重，进而得到更详细的特征，且需保持输入与输出维度不变，例如：假如是得到4个（1，16，128）的向量，经过链连接操作得到（1，64，128），再把64维通过MLP映射为16维。

步骤S106：根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据所述第三特征向量对基于transformer构建的初始人群计数模型训练，得到最终人群计数模型；

该步骤通过一自适应融合特征模块完成，请参阅图5，所示为自适应融合特征模块的操作示意图，且该自适应融合特征模块分为三路，即三个阶段，故该第三特征向量包括输入阶段对应的初始输入特征、分离融合阶段对应的分离特征以及输出阶段对应的输出特征，而后根据输出阶段对应的输出特征对所述初始人群计数模型进行回归训练，其中：

根据以下公式获取所述初始输入特征：

根据以下公式获取所述分离特征：

其中，F_r表示第一种模态下的第二特征向量与初始输入特征的区别特征，F_t表示第二种模态下的第二特征向量与初始输入特征的区别特征,F´_S（t）表示第t次训练下经过前向传播后的初始输入特征；

需要说明的是，由于初始输入特征需要经过前向传播到达分离融合阶段，为了体现出传播前后的初始输入特征差异，故将分离特征的公式中的初始输入特征采用F´_S（t）进行表示，且该F´_S（t）在下次训练时会作为新的初始输入特征。

根据以下公式获取所述输出特征：

需要指出的是，为了得到更合理有效的特征图，需要对得到的区别特征设置相应的权重，且这两个权重可通过自适应的训练得到，通过上述公式对各个模态下的图像的特征进行深度分析，得到各模态间的共性特征和差异性特征，并进行深层次的提取、融合，进而得到最后用于训练模型的输出特征，该输出特征包含了两种模态图像中的深层次特征，进而实现充分抓取各模态图像中的有效信息，以提高在灯光指示不足以及人群拥挤的场所中计数精确度。

进一步地，在得到融合的输出特征之后，根据以下公式对所述输出特征进行卷积操作，以得到融合特征图：

其中，F表示融合当前卷积操作对应的融合特征图，Sigmod（·）表示对卷积后的输出特征作非线性激活的函数，conv1*1（·）表示以卷积核为1*1的尺寸对输出特征进行卷积。这里得到的结果是向量，把向量经过降维变成1维度，再resize变换成一张图片，再经过上述式子细化特征，最后通过欧氏距离损失函数来进行loss计算，回归结果，表达式如下：

其中，L_density表示当前卷积操作得到的融合特征图的损失值，N表示的是一次训练图片的总数量，F_i ^pre表示第i张图片的预测的特征图结果(i=1，2，…，N)，F_i ^GT为第i张训练图片的真实密度图。当得到的loss值趋于稳定，则表明人群计数模型训练完成，即得到最终人群计数模型。

步骤S107：获取双模态下分别对应的待识别图像，并将所述待识别图像输入到所述最终人群计数模型中，得到预测人群数量。

请参阅图6，所示为本发明第三实施例中的基于多模态的人群计数系统的结构示意图，该系统包括:

前端特征提取模块10，用于获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以得到与每份待训练图像对应的多种第一特征向量；

进一步地，所述前端特征提取模块10还包括：

第一分割单元，用于若第一种模态下的人群图像为所述RGB图像，则将每一通道下的所述RGB图像切割成第一预设份数的待训练图像，所述RGB图像包括三通道；

第一卷积拉伸单元，用于将各个通道下的所有待训练图像与第一预设个数的卷积核进行卷积，并根据第一卷积结果进行向量拉伸，以得到RGB特征向量；

第二分割单元，用于若第二种模态下的人群图像为热力图像或深度图像，则将单通道下的热力图像或深度图像切割成第二预设份数的待训练图像；

第二卷积拉伸单元，用于将获得的第二预设份数的待训练图像与第二预设个数的卷积核做卷积，并根据第二卷积结果进行向量拉伸，得到热力特征向量或深度特征向量，所述热力特征向量或所述深度特征向量均与所述RGB特征向量的数量相等。

上下文感知模块20，用于将相同待训练图像中对应的多种第一特征向量进行映射融合，以得到与每一待训练图像对应的第二特征向量，所述第二特征向量均包括对应待训练图像中的像素信息以及与所述像素信息对应的位置信息；

进一步地，所述上下文感知模块20还包括：

映射融合单元，用于将同一待训练图像在不同阶段下得到的所述第一特征向量进行连接，并对连接后的第一特征向量进行多层感知，以根据多层感知结果对连接后的第一特征向量进行编码，得到所述第二特征向量，所述第一特征向量与所述第二特征向量的维度相等。

自适应特征融合模块30，用于根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据所述第三特征向量对基于transformer构建的初始人群计数模型训练，得到最终人群计数模型；

进一步地，所述自适应特征融合模块30还包括：

第三特征向量获取单元，用于根据以下公式获取所述初始输入特征：

根据以下公式获取所述分离特征：

根据以下公式获取所述输出特征：

回归输出单元，用于根据以下公式对所述输出特征进行卷积操作，以得到融合特征图：

损失计算单元，用于根据以下公式获取所述融合特征图在本次卷积操作中的损失值：

预测模块40，用于获取双模态下分别对应的待识别图像，并将所述待识别图像输入到所述最终人群计数模型中，得到预测人群数量。

综上，根据上述的基于多模态网络的人群计数系统，通过将多模态的图像分别进行深层次网络特征提取，以深度分析得到各模态间的共性特征和差异性特征，从而能够更好地应对夜间或人群拥挤等复杂环境，得到更准确的人群预测数量。具体为，首先获取两种模态下的人群图像，并将各个模态图像分割成多份，有利于充分提取特征，而后对分割得到的各个待训练图像进行编码，得到对应的多种第一特征向量，而后再将得到的多种第一特征向量进行映射融合，以将充分提取出的多种第一特征向量融合成第二特征向量，即得到各模态下各待训练图像分别对应的特征，而后再根据位置信息将第二特征向量进行分离及融合，以得到模态间的共性特征和差异性特征，即多种第三特征向量，进而构建出适用于复杂环境下的最终人群计数模型，解决了传统人群计数方法难以适用于监控存在严重遮挡以及光照不足的场所人数的问题。

本发明另一方面还提出存储介质，其上存储有一个或多个程序，该程序被处理器执行时实现上述的基于多模态网络的人群计数方法。

本发明另一方面还提出一种计算机设备，包括存储器和处理器，其中存储器用于存放计算机程序，处理器用于执行存储器上所存放的计算机程序，以实现上述的基于多模态网络的人群计数方法。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于多模态网络的人群计数方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多模态网络的人群计数方法，其特征在于，所述根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据所述第三特征向量对基于transformer构建的初始人群计数模型训练，得到最终人群计数模型的步骤包括：

根据以下公式获取所述初始输入特征：

根据以下公式获取所述分离特征：

根据以下公式获取所述输出特征：

3.根据权利要求2所述的基于多模态网络的人群计数方法，其特征在于，所述根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据所述第三特征向量对基于transformer构建的初始人群计数模型训练，得到最终人群计数模型的步骤还包括：

4.根据权利要求3所述的基于多模态网络的人群计数方法，其特征在于，所述待训练图像至少包括RGB图像、热力图像以及深度图像，所述获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以得到与每份待训练图像对应的多种第一特征向量的步骤包括：

5.根据权利要求4所述的基于多模态网络的人群计数方法，其特征在于，所述获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以得到与每份待训练图像对应的多种第一特征向量的步骤还包括：

6.根据权利要求5所述的基于多模态网络的人群计数方法，其特征在于，所述将相同待训练图像中对应的多种第一特征向量进行映射融合，以得到与每一待训练图像对应的第二特征向量的步骤包括：

7.根据权利要求3所述的基于多模态网络的人群计数方法，其特征在于，根据以下公式获取所述融合特征图在本次卷积操作中的损失值：

其中，L_density表示当前卷积操作得到的融合特征图的损失值，N表示的是一次训练图片的总数量，F_i ^pre表示第i张图片的预测的特征图结果(i=1，2，…，N)，F_i ^GT为第i张训练图片的真实密度图。

8.一种基于多模态网络的人群计数系统，其特征在于，所述基于多模态网络的人群计数系统包括：

9.一种存储介质，其特征在于，包括：所述存储介质存储一个或多个程序，该程序被处理器执行时实现如权利要求1-7任一所述的基于多模态网络的人群计数方法。

10.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，其中：

所述存储器用于存放计算机程序；

所述处理器用于执行存储器上所存放的计算机程序时，实现权利要求1-7任一所述的基于多模态网络的人群计数方法。