CN113538401A - 一种复杂场景下结合跨模态信息的人群计数方法及系统 - Google Patents

一种复杂场景下结合跨模态信息的人群计数方法及系统 Download PDF

Info

Publication number
CN113538401A
CN113538401A CN202110865267.7A CN202110865267A CN113538401A CN 113538401 A CN113538401 A CN 113538401A CN 202110865267 A CN202110865267 A CN 202110865267A CN 113538401 A CN113538401 A CN 113538401A
Authority
CN
China
Prior art keywords
feature map
layer
depth
rgb
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110865267.7A
Other languages
English (en)
Other versions
CN113538401B (zh
Inventor
张世辉
李贺
王威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202110865267.7A priority Critical patent/CN113538401B/zh
Publication of CN113538401A publication Critical patent/CN113538401A/zh
Application granted granted Critical
Publication of CN113538401B publication Critical patent/CN113538401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种复杂场景下结合跨模态信息的人群计数方法及系统,涉及计算机视觉技术领域,包括:获取待计数复杂场景下人群的RGB图像和深度图像;将RGB图像和深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图;其中,深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层;将估计的人群密度图进行逐像素相加,得到人群中人数的估计值。本发明能够避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。

Description

一种复杂场景下结合跨模态信息的人群计数方法及系统
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种复杂场景下结合跨模态信息的人群计数方法及系统。
背景技术
随着世界人口的爆炸式增长和随之而来的智能视频监控的迅速发展,在复杂场景中准确的人群数量估计受到了学术界和工业界的广泛关注。
目前人群计数方法主要分为三类:基于检测的方法,基于回归的方法和基于密度图估计的方法。基于检测的方法和基于回归的方法在一定程度上由于人群严重遮挡和多尺度等现象性能受到限制,同时忽略了图像上关键的空间信息。因此近些年人群计数任务大多采用基于密度图估计的方法。考虑到外部环境变化尤其是光照条件的变化,研究者开始采用结合RGB图像和深度图像的方式进行复杂场景下人群计数任务。但是已有的融合不同模态图像的人群计数方法存在因直接对RGB图像和深度图像进行融合进而忽视了不同模态图像的自身特点,从而无法避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。
发明内容
本发明的目的是提供一种复杂场景下结合跨模态信息的人群计数方法及系统,能够避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。
为实现上述目的,本发明提供了如下方案:
一种复杂场景下结合跨模态信息的人群计数方法,所述方法包括:
获取待计数复杂场景下人群的RGB图像和深度图像;
将所述RGB图像和所述深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图;所述深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层;所述优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对所述深度神经网络模型进行训练和优化得到;
将所述估计的人群密度图进行逐像素相加,得到人群中人数的估计值;
将所述RGB图像和所述深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图,具体包括:
利用所述低层特征提取层对所述RGB图像和所述深度图像进行低层特征提取,得到RGB低层特征图和深度低层特征图;
利用所述第一跨模态循环注意力融合层和所述深度低层特征图对所述RGB低层特征图进行修正,得到修正后的RGB低层特征图;并利用所述第一跨模态循环注意力融合层和所述修正后的RGB低层特征图对所述深度低层特征图进行修正,得到修正后的深度低层特征图;
利用所述中层特征提取层对所述修正后的RGB低层特征图和所述修正后的深度低层特征图进行中层特征提取,得到RGB中层特征图和深度中层特征图;
利用所述第二跨模态循环注意力融合层和所述深度中层特征图对所述RGB中层特征图进行修正,得到修正后的RGB中层特征图;并利用所述第二跨模态循环注意力融合层和所述修正后的RGB中层特征图对所述深度中层特征图进行修正,得到修正后的深度中层特征图;
利用所述高层特征提取层对所述修正后的RGB中层特征图和所述修正后的深度中层特征图进行高层特征提取,得到RGB高层特征图和深度高层特征图;
利用所述第三跨模态循环注意力融合层和所述深度高层特征图对所述RGB高层特征图进行修正,得到修正后的RGB高层特征图;并利用所述第三跨模态循环注意力融合层和所述修正后的RGB高层特征图对所述深度高层特征图进行修正,得到修正后的深度高层特征图;
利用人群密度图估计层对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行人群密度估计,得到估计的人群密度图。
可选地,所述优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对所述深度网络模型进行训练和优化得到,具体包括:
获取不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图;
将所述RGB图像和所述深度图像输入所述深度神经网络模型中,利用所述RGB图像和所述深度图像对所述深度神经网络模型进行训练,得到估计的人群密度图;
将所述估计的人群密度图以及与所述估计的人群密度图对应的真实人群密度图送入多层次监督机制,计算所述深度神经网络模型的损失函数;
根据所述损失函数确定所述深度神经网络模型的误差,采用误差反向传播算法将所述误差进行反向传播,调整所述深度神经网络模型的参数,直至所述损失函数最小为止,得到所述优化后的深度神经网络模型。
可选地,所述多层次监督机制的计算公式为:
Figure BDA0003187327970000031
Figure BDA0003187327970000032
LFC=λ1Lcoarse2Lfine
式中,Lcoarse表示粗粒度金字塔区域级感知监督,
Figure BDA0003187327970000033
为金字塔监督区域分层的数量,T表示每层监督区域的大小,j为金字塔监督区域层级,N为图片的数量,h′×w′为原图片的大小,h′为原图片的高,w′为原图片的宽,Tj×Tj为经自适应平均池化后的图片大小,
Figure BDA0003187327970000034
Figure BDA0003187327970000035
为经自适应平均池化后的估计的人群密度图与真实人群密度图,i表示图片序号,Lfine表示细粒度像素级感知监督,
Figure BDA0003187327970000036
Figure BDA0003187327970000037
为原始估计的人群密度图和真实人群密度图,LFC表示最终的多层次监督机制损失,λ1与λ2分别为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。
可选地,所述深度神经网络模型还包括:
通道连接层,分别与所述第三跨模态循环注意力融合层和所述人群密度图估计层连接,用于将所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行通道上的连接,得到融合特征图;并将所述融合特征图输入所述人群密度估计层中,利用所述人群密度图估计层对所述融合特征图进行人群密度估计,得到估计的人群密度图。
可选地,所述深度神经网络模型还包括:
综合特征提取层,分别与所述第三跨模态循环注意力融合层和所述通道连接层连接,用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行综合特征提取,得到最终RGB特征图和最终深度特征图;并将所述最终RGB特征图和所述最终深度特征图传递到所述通道连接层,利用所述通道连接层将所述最终RGB特征图和所述最终深度特征图进行通道上的连接,得到融合特征图。
本发明还提供了如下方案:
一种复杂场景下结合跨模态信息的人群计数系统,所述系统包括:
RGB图像和深度图像获取模块,用于获取待计数复杂场景下人群的RGB图像和深度图像;
训练和优化模块,用于采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对深度神经网络模型进行训练和优化,得到优化后的深度神经网络模型;
人群密度图估计模块,用于将所述RGB图像和所述深度图像输入所述优化后的深度神经网络模型中,得到估计的人群密度图;所述深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层;
低层特征提取层用于对所述RGB图像和所述深度图像进行低层特征提取,得到RGB低层特征图和深度低层特征图;
第一跨模态循环注意力融合层用于利用所述深度低层特征图对所述RGB低层特征图进行修正,得到修正后的RGB低层特征图;并利用所述修正后的RGB低层特征图对所述深度低层特征图进行修正,得到修正后的深度低层特征图;
中层特征提取层用于对所述修正后的RGB低层特征图和所述修正后的深度低层特征图进行中层特征提取,得到RGB中层特征图和深度中层特征图;
第二跨模态循环注意力融合层用于利用所述深度中层特征图对所述RGB中层特征图进行修正,得到修正后的RGB中层特征图;并利用所述修正后的RGB中层特征图对所述深度中层特征图进行修正,得到修正后的深度中层特征图;
高层特征提取层用于对所述修正后的RGB中层特征图和所述修正后的深度中层特征图进行高层特征提取,得到RGB高层特征图和深度高层特征图;
第三跨模态循环注意力融合层用于利用所述深度高层特征图对所述RGB高层特征图进行修正,得到修正后的RGB高层特征图;并利用所述修正后的RGB高层特征图对所述深度高层特征图进行修正,得到修正后的深度高层特征图;
人群密度图估计层用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行人群密度估计,得到估计的人群密度图;
人群中人数值估计模块,用于将所述估计的人群密度图进行逐像素相加,得到人群中人数的估计值。
可选地,所述训练和优化模块具体包括:
RGB图像和深度图像获取单元,用于获取不同复杂场景下人群的RGB图像和深度图像;
真实密度图获取单元,用于获取与所述RGB图像和所述深度图像对应的真实人群密度图;
人群密度图估计单元,用于将所述RGB图像和所述深度图像输入深度神经网络模型中,利用所述RGB图像和所述深度图像对所述深度神经网络模型进行训练,得到估计的人群密度图;
模型损失函数计算单元,用于将所述估计的人群密度图以及与所述估计的人群密度图对应的真实人群密度图送入多层次监督机制,计算所述深度神经网络模型的损失函数;
模型优化单元,用于根据所述损失函数确定所述深度神经网络模型的误差,采用误差反向传播算法将所述误差进行反向传播,调整所述深度神经网络模型的参数,直至所述损失函数最小为止,得到优化后的深度神经网络模型。
可选地,所述多层次监督机制的计算公式为:
Figure BDA0003187327970000061
Figure BDA0003187327970000062
LFC=λ1Lcoarse2Lfine
式中,Lcoarse表示粗粒度金字塔区域级感知监督,
Figure BDA0003187327970000063
为金字塔监督区域分层的数量,T表示每层监督区域的大小,j为金字塔监督区域层级,N为图片的数量,h′×w′为原图片的大小,h′为原图片的高,w′为原图片的宽,Tj×Tj为经自适应平均池化后的图片大小,
Figure BDA0003187327970000064
Figure BDA0003187327970000065
为经自适应平均池化后的估计的人群密度图与真实人群密度图,i表示图片序号,Lfine表示细粒度像素级感知监督,
Figure BDA0003187327970000066
Figure BDA0003187327970000067
为原始估计的人群密度图和真实人群密度图,LFC表示最终的多层次监督机制损失,λ1与λ2分别为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。
可选地,所述深度神经网络模型还包括:
通道连接层,分别与所述第三跨模态循环注意力融合层和所述人群密度图估计层连接,用于将所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行通道上的连接,得到融合特征图;并将所述融合特征图输入所述人群密度估计层中,利用所述人群密度图估计层对所述融合特征图进行人群密度估计,得到估计的人群密度图。
可选地,所述深度神经网络模型还包括:
综合特征提取层,分别与所述第三跨模态循环注意力融合层和所述通道连接层连接,用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行综合特征提取,得到最终RGB特征图和最终深度特征图;并将所述最终RGB特征图和所述最终深度特征图传递到所述通道连接层,利用所述通道连接层将所述最终RGB特征图和所述最终深度特征图进行通道上的连接,得到融合特征图。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开的复杂场景下结合跨模态信息的人群计数方法及系统,利用跨模态循环注意力融合层将RGB图像和深度图像的互补信息进行自适应的融合,即采用原始深度特征的空间几何信息为原始RGB特征提供修正信息来源同时采用修正后的RGB特征为原始深度特征提供修正信息来源,以充分发挥不同模态图像信息对复杂人群分布的作用,可以有效对复杂场景的人群分布进行建模并生成更为准确反映人群分布的密度图估计结果,能够避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明复杂场景下结合跨模态信息的人群计数方法实施例的流程图;
图2为本发明深度神经网络模型的整体结构示意图;
图3为跨模态循环注意力融合模块细节示意图;
图4为本发明计数方法的简单流程示意图;
图5为采用本发明人群计数方法进行人群计数的示意图;
图6为本发明复杂场景下结合跨模态信息的人群计数系统实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种复杂场景下结合跨模态信息的人群计数方法及系统,能够避免现有人群计数方法在人群任意分布的复杂场景中准确率下降的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明复杂场景下结合跨模态信息的人群计数方法实施例的流程图。参见图1,该复杂场景下结合跨模态信息的人群计数方法包括:
步骤101:获取待计数复杂场景下人群的RGB图像和深度图像。
步骤102:将RGB图像和深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图;深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层;优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与RGB图像和深度图像对应的真实人群密度图对深度神经网络模型进行训练和优化得到。在深度神经网络模型使用前,需要利用若干张同一场景下的RGB图像和深度图像对建立的深度神经网络模型进行训练,以多层次监督机制损失最小为目的,优化深度神经网络模型,得到深度神经网络模型的最佳参数。
步骤103:将估计的人群密度图进行逐像素相加,得到人群中人数的估计值。
其中,步骤102具体包括:
利用低层特征提取层对RGB图像和深度图像进行低层特征提取,得到RGB低层特征图和深度低层特征图。图2为本发明深度神经网络模型的整体结构示意图,参见图2,该低层特征提取层即Conv1层。Conv1层包括2个卷积层和1个池化层。将RGB图像或深度图像依次输入2个卷积层和1个池化层,得到RGB低层特征图(第一RGB特征图)或深度低层特征图(第一深度特征图)。Conv1层中的每个卷积核尺寸由输入至输出方向依次为3×3、3×3,Conv1层中的每个卷积层生成的特征图通道数由输入至输出方向依次为64、64;Conv1层的池化层步长为2。
利用第一跨模态循环注意力融合层和深度低层特征图对RGB低层特征图进行修正,得到修正后的RGB低层特征图;并利用第一跨模态循环注意力融合层和修正后的RGB低层特征图对深度低层特征图进行修正,得到修正后的深度低层特征图。该第一跨模态循环注意力融合层即图2中的第1个循环注意力融合模块。修正后的RGB低层特征图即修正后的第一RGB特征图。修正后的深度低层特征图即修正后的第一深度特征图。
利用中层特征提取层对修正后的RGB低层特征图和修正后的深度低层特征图进行中层特征提取,得到RGB中层特征图和深度中层特征图。该中层特征提取层即图2中的Conv2层。Conv2层包括2个卷积层和1个池化层。将修正后的第一RGB特征图或修正后的第一深度特征图依次输入2个卷积层和1个池化层,得到第二RGB特征图(RGB中层特征图)或第二深度特征图(深度中层特征图),Conv2层中的每个卷积核尺寸由输入至输出方向依次为3×3、3×3,Conv2层中的每个卷积层生成的特征图通道数由输入至输出方向依次为128、128;Conv2层的池化层步长为2。
利用第二跨模态循环注意力融合层和深度中层特征图对RGB中层特征图进行修正,得到修正后的RGB中层特征图;并利用第二跨模态循环注意力融合层和修正后的RGB中层特征图对深度中层特征图进行修正,得到修正后的深度中层特征图。该第二跨模态循环注意力融合层即图2中的第2个循环注意力融合模块。修正后的RGB中层特征图即修正后的第二RGB特征图。修正后的深度中层特征图即修正后的第二深度特征图。
利用高层特征提取层对修正后的RGB中层特征图和修正后的深度中层特征图进行高层特征提取,得到RGB高层特征图和深度高层特征图。该高层特征提取层即图2中的Conv3层。Conv3层包括3个卷积层和1个池化层。将修正后的第二RGB特征图或修正后的第二深度特征图依次输入3个卷积层和1个池化层,得到第三RGB特征图(RGB高层特征图)或第三深度特征图(深度高层特征图)。Conv3层中的每个卷积核尺寸由输入至输出方向依次为3×3、3×3、3×3,Conv3层中的每个卷积层生成的特征图通道数由输入至输出方向依次为256、256、256;Conv3层的池化层步长为2。
利用第三跨模态循环注意力融合层和深度高层特征图对RGB高层特征图进行修正,得到修正后的RGB高层特征图;并利用第三跨模态循环注意力融合层和修正后的RGB高层特征图对深度高层特征图进行修正,得到修正后的深度高层特征图。该第三跨模态循环注意力融合层即图2中的第3个循环注意力融合模块。修正后的RGB高层特征图即修正后的第三RGB特征图。修正后的深度高层特征图即修正后的第三深度特征图。
利用人群密度图估计层对修正后的RGB高层特征图和修正后的深度高层特征图进行人群密度估计,得到估计的人群密度图。该人群密度图估计层即图2中的尾部网络(即图2中六个)。尾部网络包括7个卷积层、6个BatchNorm层和6个ReLU层。尾部网络中的前六个卷积层的卷积核尺寸均为3×3,第七个卷积层的卷积核尺寸为1×1,尾部网络中的前六个卷积核空洞率均为2,第七个卷积核空洞率为1,尾部网络中的每个卷积层生成的特征图输出通道数依次为512、512、512、256、128、64、1。在前6个卷积层的输出端连接BatchNorm层,在BatchNorm层输出端连接ReLU层。第7个卷积层的目的是将特征图像的通道数变为1,生成估计的密度图(估计的人群密度图)。
其中,优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与RGB图像和深度图像对应的真实人群密度图对深度网络模型进行训练和优化得到,具体包括:
获取不同复杂场景下人群的RGB图像和深度图像以及与RGB图像和深度图像对应的真实人群密度图。
将RGB图像和深度图像输入深度神经网络模型中,利用RGB图像和深度图像对深度神经网络模型进行训练,得到估计的人群密度图。
将估计的人群密度图以及与估计的人群密度图对应的真实人群密度图送入多层次监督机制,计算深度神经网络模型的损失函数。经多层次监督机制对模型进行优化,多层次监督机制的计算公式如下所示:
Figure BDA0003187327970000101
Figure BDA0003187327970000111
LFC=λ1Lcoarse2Lfine
式中,Lcoarse表示粗粒度金字塔区域级感知监督,
Figure BDA0003187327970000112
为金字塔监督区域分层的数量,T表示每层监督区域的大小,j为金字塔监督区域层级,N为图片的数量,h′×w′为原图片的大小,h′为原图片的高,w′为原图片的宽,Tj×Tj为经自适应平均池化后的图片大小,
Figure BDA0003187327970000113
Figure BDA0003187327970000114
为经自适应平均池化后的估计的人群密度图与真实人群密度图,i表示图片序号,Lfine表示细粒度像素级感知监督,
Figure BDA0003187327970000115
Figure BDA0003187327970000116
为原始估计的人群密度图和真实人群密度图,LFC表示最终的多层次监督机制损失,λ1与λ2分别为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。其中,图片即经自适应平均池化后的估计的人群密度图或经自适应平均池化后的真实人群密度图,原图片即原始估计的人群密度图或原始真实人群密度图,原始即没有经过自适应平均池化。
根据损失函数确定深度神经网络模型的误差,采用误差反向传播算法将误差进行反向传播,调整深度神经网络模型的参数,直至损失函数最小为止,得到优化后的深度神经网络模型。即以模型损失函数最小化为目的训练模型,其中目标函数为:
Figure BDA0003187327970000117
Figure BDA0003187327970000118
LFC=λ1Lcoarse2Lfine
具体地,将估计的密度图和真实密度图(与估计的密度图对应的真实人群密度图)经自适应池化后通过粗粒度金字塔区域级感知监督计算损失,即将估计密度图和真实密度图经自适应平均池化调整图片大小为Tj×Tj(j为金字塔监督区域层级),调整后的估计密度图和真实密度图分别用符号
Figure BDA0003187327970000119
和符号
Figure BDA00031873279700001110
表示,调整后图片每个像素对照于原来图片像素大小为
Figure BDA0003187327970000121
(h′、w′为原图片的高和宽),经欧几里得距离损失计算估计图像和真实图像的差值。对于金字塔结构,采用
Figure BDA0003187327970000122
作为每层监督区域的大小(这里的T值为2)。粗粒度金字塔区域级感知监督计算公式如下:
Figure BDA0003187327970000123
将估计密度图和真实密度图通过细粒度像素级感知监督计算损失(像素级的误差),细粒度像素级感知监督采用传统的欧几里得距离损失,细粒度像素级感知监督计算公式如下:
Figure BDA0003187327970000124
式中,
Figure BDA0003187327970000125
Figure BDA0003187327970000126
为原始估计密度图和真实密度图。
将上述两种感知监督方式(粗粒度金字塔区域级感知监督方式和细粒度像素级感知监督方式)联合计算得出最终的多层次监督机制损失,最终的多层次监督机制损失计算公式如下:
LFC=λ1Lcoarse2Lfine
式中,λ1与λ2为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。
以LFC最小化为目的训练模型。
本发明深度神经网络模型还包括通道连接层和综合特征提取层。
其中,通道连接层分别与第三跨模态循环注意力融合层和人群密度图估计层连接,通道连接层用于将修正后的RGB高层特征图和修正后的深度高层特征图进行通道上的连接,得到融合特征图;并将融合特征图输入人群密度估计层中,利用人群密度图估计层对融合特征图进行人群密度估计,得到估计的人群密度图。
综合特征提取层分别与第三跨模态循环注意力融合层和通道连接层连接,综合特征提取层用于对修正后的RGB高层特征图和修正后的深度高层特征图进行综合特征提取,得到最终RGB特征图和最终深度特征图;并将最终RGB特征图和最终深度特征图传递到通道连接层,利用通道连接层将最终RGB特征图和最终深度特征图进行通道上的连接,得到融合特征图。综合特征提取层即图2中的Conv4层。Conv4层包括3个卷积层和1个池化层。将修正后的第三RGB特征图或第三深度特征图依次输入3个卷积层和1个池化层,分别得到最终RGB特征图或最终深度特征图。Conv4层中的每个卷积核尺寸由输入至输出方向依次为3×3、3×3、3×3,Conv4层中的每个卷积层生成的特征图通道数由输入至输出方向依次为512、512、512。Conv4层的池化层步长为2。
本发明用于人群密度估计的深度神经网络模型的建立过程如下:
(1)建立3个跨模态循环注意力融合模块,设计权重计算函数fatt(·),原始深度特征图或修正后的RGB特征图作为输入,经计算分别得到用于修正RGB图像或修正深度图像的可学习权重参数,这一阶段如下方公式所示:
fatt(X)=Sigm(Conv1(concat(maxpool(X),avgpool(X))))
具体包括:使用步长为2的Max Pooling池化操作和Average Pooling池化操作来处理原始图像,并将两者的结果在通道上连接起来。
采用卷积核为1×1卷积层将特征图的通道数变为1。
利用sigmoid函数来生成最终的权重参数。设计乘法操作,将可学习权重参数和原特征图逐像素相乘,得到初步修正后的特征图。设计连接操作,将初步修正后的特征图与原特征图进行通道上的连接,得到修正后的特征图。
(2)建立深度神经网络(深度神经网络模型)Conv1层,接收输入的RGB图像和深度图像,经过特征提取操作获得特征图像,这一阶段包含了2次卷积和1次池化。如图2所示,依次为2次卷积、1次池化,卷积层卷积尺寸均为3×3,生成的特征图通道数均为64,池化层步长为2,将获得的特征图像输入到(1)中的循环注意力融合模块。
(3)建立深度神经网络Conv2层,接收(1)中的循环注意力融合模块输出的RGB特征图和深度特征图,经过特征提取操作获得新的特征图像,这一阶段包含了2次卷积和1次池化。如图2所示,依次为2次卷积、1次池化,卷积层卷积尺寸均为3×3,生成的特征图通道数均为128,池化层步长为2,将所得新的特征图像输入到(1)中的循环注意力融合模块。
(4)建立深度神经网络Conv3层,接收(1)中循环注意力融合模块输出的RGB特征图和深度特征图,经过特征提取操作获得新的特征图像,这一阶段包含了3次卷积和1次池化。如图2所示,依次为3次卷积、1次池化,卷积层卷积尺寸均为3×3,生成的特征图通道数均为256,池化层步长为2,将所得新的特征图像输入到(1)中循环注意力融合模块。
(5)建立深度神经网络Conv4层,接收(1)中循环注意力融合模块输出的RGB特征图和深度特征图,经过特征提取操作获得最终特征图像,这一阶段包含了3次卷积和1次池化。如图2所示,依次为3次卷积、1次池化,卷积层卷积尺寸均为3×3,生成的特征图通道数均为512,池化层步长为2,将双分支得到的最终RGB图像和最终深度图像进行通道上的连接,得到新的特征图。
(6)建立深度神经网络尾部网络,接收(5)中深度神经网络第四子网络(Conv4)输出的新的特征图,经过特征提取操作获得估计的密度图,这一阶段包含了7个卷积层、6个BatchNorm层和6个ReLU层;其中前6个卷积层的卷积核尺寸均为3×3并且前六个卷积层的卷积核空洞率均为2,第7个卷积层的卷积核尺寸为1×1,第七个卷积核空洞率为1,7个卷积层生成的特征图输出通道数依次为512、512、512、256、128、64、1;在前6个卷积层的输出端连接BatchNorm层,在BatchNorm层输出端连接ReLU层;第7个卷积层的目的是将特征图像的通道数变为1,以生成估计密度图。
该实施例中,池化层为Max Pooling池化层。Max Pooling池化层形式如下所示:
Figure BDA0003187327970000141
式中,
Figure BDA0003187327970000142
是多尺度卷积神经网络池化层的输出,
Figure BDA0003187327970000143
是多尺度卷积神经网络卷积层的输出。多尺度卷积神经网络即深度神经网络模型。
跨模态循环注意力融合模块,即第一跨模态循环注意力融合层、第二跨模态循环注意力融合层或第三跨模态循环注意力融合层形式如下所示:
fatt(X)=Sigm(Conv1(concat(maxpool(X),avgpool(X))))
Figure BDA0003187327970000151
Figure BDA0003187327970000152
式中,Sigm(·),Conv1(·),maxpool(·)和avgpool(·)分别是sigmoid函数,卷积核为1×1并且输出通道数为1的卷积层,最大池化层和平均池化层。fatt(·)为权重系数的计算公式,FR与FD分别是原始RGB特征图和原始深度特征图,
Figure BDA0003187327970000153
Figure BDA0003187327970000154
分别是修正后的RGB特征图和修正后的深度特征图。
Figure BDA0003187327970000155
是两幅图像进行逐像素相乘,concat(·)是将图像在通道上进行连接。
图3为跨模态循环注意力融合模块细节示意图。下面结合图3对循环注意力融合模块(跨模态循环注意力融合模块)进行说明:
若要从深度特征图获取到对于修正RGB特征图的有用的信息,首先,需要利用深度特征图fatt(·)经公式计算得到用于修正RGB特征图的可学习权重参数,其次,将得到的可学习权重参数和RGB特征图逐像素相乘得到初步修正后的RGB特征图,最后,将初步修正后的RGB特征图和RGB特征图进行通道上的连接来保留对于生成最终RGB特征图像一些有用的信息(来自RGB模态的一些有用的信息),得到修正后的RGB特征图。计算权重参数的公式fatt(·)具体如下:1、使用步长为2的Max Pooling池化操作和Average Pooling池化操作来处理原始图像,并将两者的结果在通道上连接起来。2、采用卷积核为1×1卷积层将图像的通道数变为1。3、利用sigmoid函数来生成最终的权重参数。
和修正RGB特征图的步骤不同,考虑到RGB模态包含了行人的形态和颜色等细节信息,为了减少RGB模态额外细节信息的干扰,将修正后的RGB特征图作为公式fatt(·)的自变量计算得到修正深度特征图的可学习权重参数。最终修正后的深度特征图获取方式和上述步骤相同。
下面以一个具体实施例说明本发明的技术方案:
图4为本发明计数方法的简单流程示意图。参见图4,该计数方法包括:
(一)将RGB图像和深度图像输入深度神经网络中的Conv1层,分别得到第一RGB特征图和第一深度特征图;将第一RGB特征图和第一深度特征图输入第1个循环注意力融合模块,得到修正后的第一RGB特征图和修正后的第一深度特征图。
(二)将修正后的第一RGB特征图和修正后的第一深度特征图输入深度神经网络中的Conv2层,分别得到第二RGB特征图和第二深度特征图;将第二RGB特征图和第二深度特征图输入第2个循环注意力融合模块,得到修正后的第二RGB特征图和修正后的第二深度特征图。
(三)将修正后的第二RGB特征图和修正后的第二深度特征图输入深度神经网络中的Conv3层,分别得到第三RGB特征图和第三深度特征图;将第三RGB特征图和第三深度特征图输入第3个循环注意力融合模块,得到修正后的第三RGB特征图和第三深度特征图。
(四)将修正后的第三RGB特征图和修正后的第三深度特征图输入深度神经网络中的Conv4层,分别得到最终RGB特征图和最终深度特征图。
(五)将最终RGB特征图和最终深度特征图进行通道上的连接,得到新的特征图。
(六)将新的特征图经过深度神经网络模型中的尾部网络,经多层卷积层的一系列计算得到估计的密度图。
(七)将真实密度图和估计的密度图送入多层次监督机制,计算模型的损失,以模型损失最小化为目的训练模型。
(八)将训练后的深度神经网络模型对任意输入的同一场景下RGB图像和深度图像进行人群密度估计(人群计数)得到估计密度图,将所得估计密度图进行逐像素相加得到对应的人群计数结果(估计的人群计数结果)。
图5为采用本发明人群计数方法进行人群计数的示意图。参见图5,采用本发明人群计数方法进行人群计数时,将目标图像的RGB图像和深度图像输入到步骤(1)-(6)建立的深度神经网络的双分支中,即使用训练和优化后的深度神经网络模型(图5中训练后的人群计数模型)对任意输入的同一场景下RGB图像和深度图像进行人群密度估计得到估计密度图,将所得估计密度图逐像素相加得到对应的人群计数结果。
图6为本发明复杂场景下结合跨模态信息的人群计数系统实施例的结构图。参见图6,该复杂场景下结合跨模态信息的人群计数系统包括:
RGB图像和深度图像获取模块601,用于获取待计数复杂场景下人群的RGB图像和深度图像。
训练和优化模块602,用于采用不同复杂场景下人群的RGB图像和深度图像以及与RGB图像和深度图像对应的真实人群密度图对深度神经网络模型进行训练和优化,得到优化后的深度神经网络模型。
人群密度图估计模块603,用于将RGB图像和深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图;深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层。
低层特征提取层用于对RGB图像和深度图像进行低层特征提取,得到RGB低层特征图和深度低层特征图。
第一跨模态循环注意力融合层用于利用深度低层特征图对RGB低层特征图进行修正,得到修正后的RGB低层特征图;并利用修正后的RGB低层特征图对深度低层特征图进行修正,得到修正后的深度低层特征图。
中层特征提取层用于对修正后的RGB低层特征图和修正后的深度低层特征图进行中层特征提取,得到RGB中层特征图和深度中层特征图。
第二跨模态循环注意力融合层用于利用深度中层特征图对RGB中层特征图进行修正,得到修正后的RGB中层特征图;并利用修正后的RGB中层特征图对深度中层特征图进行修正,得到修正后的深度中层特征图。
高层特征提取层用于对修正后的RGB中层特征图和修正后的深度中层特征图进行高层特征提取,得到RGB高层特征图和深度高层特征图。
第三跨模态循环注意力融合层用于利用深度高层特征图对RGB高层特征图进行修正,得到修正后的RGB高层特征图;并利用修正后的RGB高层特征图对深度高层特征图进行修正,得到修正后的深度高层特征图。
人群密度图估计层用于对修正后的RGB高层特征图和修正后的深度高层特征图进行人群密度估计,得到估计的人群密度图。
人群中人数值估计模块604,用于将估计的人群密度图进行逐像素相加,得到人群中人数的估计值。
其中,训练和优化模块602具体包括:
RGB图像和深度图像获取单元,用于获取不同复杂场景下人群的RGB图像和深度图像。
真实密度图获取单元,用于获取与所述RGB图像和所述深度图像对应的真实人群密度图。
人群密度图估计单元,用于将RGB图像和深度图像输入深度神经网络模型中,利用RGB图像和深度图像对深度神经网络模型进行训练,得到估计的人群密度图。
模型损失函数计算单元,用于将估计的人群密度图以及与估计的人群密度图对应的真实人群密度图送入多层次监督机制,计算深度神经网络模型的损失函数。
模型优化单元,用于根据损失函数确定深度神经网络模型的误差,采用误差反向传播算法将误差进行反向传播,调整深度神经网络模型的参数,直至损失函数最小为止,得到优化后的深度神经网络模型。
其中,多层次监督机制的计算公式为:
Figure BDA0003187327970000181
Figure BDA0003187327970000182
LFC=λ1Lcoarse2Lfine
式中,Lcoarse表示粗粒度金字塔区域级感知监督,
Figure BDA0003187327970000183
为金字塔监督区域分层的数量,T表示每层监督区域的大小,j为金字塔监督区域层级,N为图片的数量,h′×w′为原图片的大小,h′为原图片的高,w′为原图片的宽,Tj×Tj为经自适应平均池化后的图片大小,
Figure BDA0003187327970000184
Figure BDA0003187327970000185
为经自适应平均池化后的估计的人群密度图与真实人群密度图,i表示图片序号,Lfine表示细粒度像素级感知监督,
Figure BDA0003187327970000186
Figure BDA0003187327970000187
为原始估计的人群密度图和真实人群密度图,LFC表示最终的多层次监督机制损失,λ1与λ2分别为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。
具体的,深度神经网络模型还包括:
通道连接层,分别与第三跨模态循环注意力融合层和人群密度图估计层连接,用于将修正后的RGB高层特征图和修正后的深度高层特征图进行通道上的连接,得到融合特征图;并将融合特征图输入人群密度估计层中,利用人群密度图估计层对融合特征图进行人群密度估计,得到估计的人群密度图。
综合特征提取层,分别与第三跨模态循环注意力融合层和通道连接层连接,用于对修正后的RGB高层特征图和修正后的深度高层特征图进行综合特征提取,得到最终RGB特征图和最终深度特征图;并将最终RGB特征图和最终深度特征图传递到通道连接层,利用通道连接层将最终RGB特征图和最终深度特征图进行通道上的连接,得到融合特征图。
本发明针对已有RGB-D人群计数方法存在的问题,提出了一种复杂场景下结合跨模态信息的人群计数方法及系统,可以有效解决人群任意分布的拥挤场景下RGB-D人群计数任务。通过在两个分支分别输入RGB图像和深度图像;多个循环注意力融合模块融合来自RGB图像和深度图像的互补信息;将两个分支的特征图连接经过卷积网络产生估计的人群密度图;用多层次监督机制计算估计密度图与真实密度图的损失,以损失最小化为目的优化模型的参数;将训练后的深度神经网络模型对任意输入的同一场景下RGB图像和深度图像进行人群密度估计得到估计密度图,最后将所得估计密度图逐像素相加得到对应的人群计数结果。由于跨模态循环注意力融合模块能够从RGB图像和深度图像学到更多关于人群分布的互补信息,多层次监督机制在细粒度像素视图和粗粒度空间区域视图中引入了综合学习的方向,使得计数模型关注于场景中不同子区域间存在的较大计数误差,从而使得模型具备更准确估计人群分布的能力。
与现有技术相比,本发明的优势在于:
(1)通过利用跨模态循环注意力模块将RGB图像和深度图像的互补信息进行自适应的融合,即采用原始深度特征的空间几何信息为原始RGB特征提供修正信息来源同时采用修正后的RGB特征为原始深度特征提供修正信息来源,以充分发挥不同模态图像信息对复杂人群分布的作用,可以有效对复杂场景的人群分布进行建模并生成更为准确反映真实人群分布的密度图估计结果。基于跨模态循环注意力融合模块生成了更精确的人群分布密度图。
(2)利用多层次监督机制能够有效使得深度神经网络模型结构能从监督层级上学习到更准确的人群分布信息和人的位置信息,即采用金字塔形的多层次密度图损失计算项,可以避免常规人群密度图损失计算忽视人群分布信息导致训练模型对人群场景空间信息不敏感进而导致人群计数性能不佳的问题。基于多层次监督机制可以更准确的计算深度神经网络模型的损失,增加了深度神经网络模型的计数准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种复杂场景下结合跨模态信息的人群计数方法,其特征在于,所述方法包括:
获取待计数复杂场景下人群的RGB图像和深度图像;
将所述RGB图像和所述深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图;所述深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层;所述优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对所述深度神经网络模型进行训练和优化得到;
将所述估计的人群密度图进行逐像素相加,得到人群中人数的估计值;
将所述RGB图像和所述深度图像输入优化后的深度神经网络模型中,得到估计的人群密度图,具体包括:
利用所述低层特征提取层对所述RGB图像和所述深度图像进行低层特征提取,得到RGB低层特征图和深度低层特征图;
利用所述第一跨模态循环注意力融合层和所述深度低层特征图对所述RGB低层特征图进行修正,得到修正后的RGB低层特征图;并利用所述第一跨模态循环注意力融合层和所述修正后的RGB低层特征图对所述深度低层特征图进行修正,得到修正后的深度低层特征图;
利用所述中层特征提取层对所述修正后的RGB低层特征图和所述修正后的深度低层特征图进行中层特征提取,得到RGB中层特征图和深度中层特征图;
利用所述第二跨模态循环注意力融合层和所述深度中层特征图对所述RGB中层特征图进行修正,得到修正后的RGB中层特征图;并利用所述第二跨模态循环注意力融合层和所述修正后的RGB中层特征图对所述深度中层特征图进行修正,得到修正后的深度中层特征图;
利用所述高层特征提取层对所述修正后的RGB中层特征图和所述修正后的深度中层特征图进行高层特征提取,得到RGB高层特征图和深度高层特征图;
利用所述第三跨模态循环注意力融合层和所述深度高层特征图对所述RGB高层特征图进行修正,得到修正后的RGB高层特征图;并利用所述第三跨模态循环注意力融合层和所述修正后的RGB高层特征图对所述深度高层特征图进行修正,得到修正后的深度高层特征图;
利用人群密度图估计层对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行人群密度估计,得到估计的人群密度图。
2.根据权利要求1所述的复杂场景下结合跨模态信息的人群计数方法,其特征在于,所述优化后的深度神经网络模型采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对所述深度网络模型进行训练和优化得到,具体包括:
获取不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图;
将所述RGB图像和所述深度图像输入所述深度神经网络模型中,利用所述RGB图像和所述深度图像对所述深度神经网络模型进行训练,得到估计的人群密度图;
将所述估计的人群密度图以及与所述估计的人群密度图对应的真实人群密度图送入多层次监督机制,计算所述深度神经网络模型的损失函数;
根据所述损失函数确定所述深度神经网络模型的误差,采用误差反向传播算法将所述误差进行反向传播,调整所述深度神经网络模型的参数,直至所述损失函数最小为止,得到所述优化后的深度神经网络模型。
3.根据权利要求2所述的复杂场景下结合跨模态信息的人群计数方法,其特征在于,所述多层次监督机制的计算公式为:
Figure FDA0003187327960000021
Figure FDA0003187327960000022
LFC=λ1Lcoarse2Lfine
式中,Lcoarse表示粗粒度金字塔区域级感知监督,
Figure FDA0003187327960000031
为金字塔监督区域分层的数量,T表示每层监督区域的大小,j为金字塔监督区域层级,N为图片的数量,h′×w′为原图片的大小,h′为原图片的高,w′为原图片的宽,Tj×Tj为经自适应平均池化后的图片大小,
Figure FDA0003187327960000032
Figure FDA0003187327960000033
为经自适应平均池化后的估计的人群密度图与真实人群密度图,i表示图片序号,Lfine表示细粒度像素级感知监督,
Figure FDA0003187327960000034
Figure FDA0003187327960000035
为原始估计的人群密度图和真实人群密度图,LFC表示最终的多层次监督机制损失,λ1与λ2分别为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。
4.根据权利要求1所述的复杂场景下结合跨模态信息的人群计数方法,其特征在于,所述深度神经网络模型还包括:
通道连接层,分别与所述第三跨模态循环注意力融合层和所述人群密度图估计层连接,用于将所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行通道上的连接,得到融合特征图;并将所述融合特征图输入所述人群密度估计层中,利用所述人群密度图估计层对所述融合特征图进行人群密度估计,得到估计的人群密度图。
5.根据权利要求4所述的复杂场景下结合跨模态信息的人群计数方法,其特征在于,所述深度神经网络模型还包括:
综合特征提取层,分别与所述第三跨模态循环注意力融合层和所述通道连接层连接,用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行综合特征提取,得到最终RGB特征图和最终深度特征图;并将所述最终RGB特征图和所述最终深度特征图传递到所述通道连接层,利用所述通道连接层将所述最终RGB特征图和所述最终深度特征图进行通道上的连接,得到融合特征图。
6.一种复杂场景下结合跨模态信息的人群计数系统,其特征在于,所述系统包括:
RGB图像和深度图像获取模块,用于获取待计数复杂场景下人群的RGB图像和深度图像;
训练和优化模块,用于采用不同复杂场景下人群的RGB图像和深度图像以及与所述RGB图像和所述深度图像对应的真实人群密度图对深度神经网络模型进行训练和优化,得到优化后的深度神经网络模型;
人群密度图估计模块,用于将所述RGB图像和所述深度图像输入所述优化后的深度神经网络模型中,得到估计的人群密度图;所述深度神经网络模型包括依次连接的低层特征提取层、第一跨模态循环注意力融合层、中层特征提取层、第二跨模态循环注意力融合层、高层特征提取层、第三跨模态循环注意力融合层和人群密度图估计层;
低层特征提取层用于对所述RGB图像和所述深度图像进行低层特征提取,得到RGB低层特征图和深度低层特征图;
第一跨模态循环注意力融合层用于利用所述深度低层特征图对所述RGB低层特征图进行修正,得到修正后的RGB低层特征图;并利用所述修正后的RGB低层特征图对所述深度低层特征图进行修正,得到修正后的深度低层特征图;
中层特征提取层用于对所述修正后的RGB低层特征图和所述修正后的深度低层特征图进行中层特征提取,得到RGB中层特征图和深度中层特征图;
第二跨模态循环注意力融合层用于利用所述深度中层特征图对所述RGB中层特征图进行修正,得到修正后的RGB中层特征图;并利用所述修正后的RGB中层特征图对所述深度中层特征图进行修正,得到修正后的深度中层特征图;
高层特征提取层用于对所述修正后的RGB中层特征图和所述修正后的深度中层特征图进行高层特征提取,得到RGB高层特征图和深度高层特征图;
第三跨模态循环注意力融合层用于利用所述深度高层特征图对所述RGB高层特征图进行修正,得到修正后的RGB高层特征图;并利用所述修正后的RGB高层特征图对所述深度高层特征图进行修正,得到修正后的深度高层特征图;
人群密度图估计层用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行人群密度估计,得到估计的人群密度图;
人群中人数值估计模块,用于将所述估计的人群密度图进行逐像素相加,得到人群中人数的估计值。
7.根据权利要求6所述的复杂场景下结合跨模态信息的人群计数系统,其特征在于,所述训练和优化模块具体包括:
RGB图像和深度图像获取单元,用于获取不同复杂场景下人群的RGB图像和深度图像;
真实密度图获取单元,用于获取与所述RGB图像和所述深度图像对应的真实人群密度图;
人群密度图估计单元,用于将所述RGB图像和所述深度图像输入深度神经网络模型中,利用所述RGB图像和所述深度图像对所述深度神经网络模型进行训练,得到估计的人群密度图;
模型损失函数计算单元,用于将所述估计的人群密度图以及与所述估计的人群密度图对应的真实人群密度图送入多层次监督机制,计算所述深度神经网络模型的损失函数;
模型优化单元,用于根据所述损失函数确定所述深度神经网络模型的误差,采用误差反向传播算法将所述误差进行反向传播,调整所述深度神经网络模型的参数,直至所述损失函数最小为止,得到优化后的深度神经网络模型。
8.根据权利要求7所述的复杂场景下结合跨模态信息的人群计数系统,其特征在于,所述多层次监督机制的计算公式为:
Figure FDA0003187327960000051
Figure FDA0003187327960000052
LFC=λ1Lcoarse2Lfine
式中,Lcoarse表示粗粒度金字塔区域级感知监督,
Figure FDA0003187327960000053
为金字塔监督区域分层的数量,T表示每层监督区域的大小,j为金字塔监督区域层级,N为图片的数量,h′×w′为原图片的大小,h′为原图片的高,w′为原图片的宽,Tj×Tj为经自适应平均池化后的图片大小,
Figure FDA0003187327960000054
Figure FDA0003187327960000055
为经自适应平均池化后的估计的人群密度图与真实人群密度图,i表示图片序号,Lfine表示细粒度像素级感知监督,
Figure FDA0003187327960000056
Figure FDA0003187327960000057
为原始估计的人群密度图和真实人群密度图,LFC表示最终的多层次监督机制损失,λ1与λ2分别为粗粒度金字塔区域级感知监督和细粒度像素级感知监督的参数。
9.根据权利要求6所述的复杂场景下结合跨模态信息的人群计数系统,其特征在于,所述深度神经网络模型还包括:
通道连接层,分别与所述第三跨模态循环注意力融合层和所述人群密度图估计层连接,用于将所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行通道上的连接,得到融合特征图;并将所述融合特征图输入所述人群密度估计层中,利用所述人群密度图估计层对所述融合特征图进行人群密度估计,得到估计的人群密度图。
10.根据权利要求9所述的复杂场景下结合跨模态信息的人群计数系统,其特征在于,所述深度神经网络模型还包括:
综合特征提取层,分别与所述第三跨模态循环注意力融合层和所述通道连接层连接,用于对所述修正后的RGB高层特征图和所述修正后的深度高层特征图进行综合特征提取,得到最终RGB特征图和最终深度特征图;并将所述最终RGB特征图和所述最终深度特征图传递到所述通道连接层,利用所述通道连接层将所述最终RGB特征图和所述最终深度特征图进行通道上的连接,得到融合特征图。
CN202110865267.7A 2021-07-29 2021-07-29 一种复杂场景下结合跨模态信息的人群计数方法及系统 Active CN113538401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110865267.7A CN113538401B (zh) 2021-07-29 2021-07-29 一种复杂场景下结合跨模态信息的人群计数方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110865267.7A CN113538401B (zh) 2021-07-29 2021-07-29 一种复杂场景下结合跨模态信息的人群计数方法及系统

Publications (2)

Publication Number Publication Date
CN113538401A true CN113538401A (zh) 2021-10-22
CN113538401B CN113538401B (zh) 2022-04-05

Family

ID=78121481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110865267.7A Active CN113538401B (zh) 2021-07-29 2021-07-29 一种复杂场景下结合跨模态信息的人群计数方法及系统

Country Status (1)

Country Link
CN (1) CN113538401B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241411A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 基于目标检测的计数模型处理方法、装置及计算机设备
CN114662060A (zh) * 2022-05-26 2022-06-24 中汽研汽车检验中心(天津)有限公司 基于机器学习的车载氮氧化物传感器浓度测量值修正方法
CN114821488A (zh) * 2022-06-30 2022-07-29 华东交通大学 基于多模态网络的人群计数方法、系统及计算机设备
CN117315428A (zh) * 2023-10-30 2023-12-29 燕山大学 一种跨模态特征对齐融合的人群计数系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839085A (zh) * 2014-03-14 2014-06-04 中国科学院自动化研究所 一种列车车厢异常人群密度的检测方法
CN104751491A (zh) * 2015-04-10 2015-07-01 中国科学院宁波材料技术与工程研究所 一种人群跟踪及人流量统计方法及装置
CN107145821A (zh) * 2017-03-23 2017-09-08 华南农业大学 一种基于深度学习的人群密度检测方法和系统
CN107679503A (zh) * 2017-10-12 2018-02-09 中科视拓(北京)科技有限公司 一种基于深度学习的人群计数算法
CN109635763A (zh) * 2018-12-19 2019-04-16 燕山大学 一种人群密度估计方法
CN109726658A (zh) * 2018-12-21 2019-05-07 上海科技大学 人群计数及定位方法、系统、电子终端及存储介质
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
CN112396000A (zh) * 2020-11-19 2021-02-23 中山大学 一种多模态密集预测的深度信息传输模型的构建方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839085A (zh) * 2014-03-14 2014-06-04 中国科学院自动化研究所 一种列车车厢异常人群密度的检测方法
CN104751491A (zh) * 2015-04-10 2015-07-01 中国科学院宁波材料技术与工程研究所 一种人群跟踪及人流量统计方法及装置
CN107145821A (zh) * 2017-03-23 2017-09-08 华南农业大学 一种基于深度学习的人群密度检测方法和系统
CN107679503A (zh) * 2017-10-12 2018-02-09 中科视拓(北京)科技有限公司 一种基于深度学习的人群计数算法
CN109635763A (zh) * 2018-12-19 2019-04-16 燕山大学 一种人群密度估计方法
CN109726658A (zh) * 2018-12-21 2019-05-07 上海科技大学 人群计数及定位方法、系统、电子终端及存储介质
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
CN112396000A (zh) * 2020-11-19 2021-02-23 中山大学 一种多模态密集预测的深度信息传输模型的构建方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SHIHUI ZHANG ET AL: "A cross-modal fusion based approach with scale-aware deep representation for RGB-D crowd counting and density estimation", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
WEI HANG KONG ET AL: "An Automatic Scale-Adaptive Approach With Attention Mechchanism-Based Crowd Spatial Information for Crowd Counting", 《IEEE ACCESS》 *
左静 等: "基于多尺度融合的深度人群计数算法", 《激光与光电子学进展》 *
张世辉 等: "结合多尺度及密集特征图融合的阴影检测方法", 《计量学报》 *
赵轩 等: "RGB-D图像中的分步超像素聚合和多模态融合目标检测", 《中国图象图形学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241411A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 基于目标检测的计数模型处理方法、装置及计算机设备
CN114241411B (zh) * 2021-12-15 2024-04-09 平安科技(深圳)有限公司 基于目标检测的计数模型处理方法、装置及计算机设备
CN114662060A (zh) * 2022-05-26 2022-06-24 中汽研汽车检验中心(天津)有限公司 基于机器学习的车载氮氧化物传感器浓度测量值修正方法
CN114662060B (zh) * 2022-05-26 2022-08-16 中汽研汽车检验中心(天津)有限公司 基于机器学习的车载氮氧化物传感器浓度测量值修正方法
CN114821488A (zh) * 2022-06-30 2022-07-29 华东交通大学 基于多模态网络的人群计数方法、系统及计算机设备
CN117315428A (zh) * 2023-10-30 2023-12-29 燕山大学 一种跨模态特征对齐融合的人群计数系统及方法
CN117315428B (zh) * 2023-10-30 2024-04-05 燕山大学 一种跨模态特征对齐融合的人群计数系统及方法

Also Published As

Publication number Publication date
CN113538401B (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN113538401B (zh) 一种复杂场景下结合跨模态信息的人群计数方法及系统
CN109086807B (zh) 一种基于空洞卷积堆叠网络的半监督光流学习方法
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
US20210150747A1 (en) Depth image generation method and device
CN109377530A (zh) 一种基于深度神经网络的双目深度估计方法
CN112418163B (zh) 一种多光谱目标检测导盲系统
CN110689562A (zh) 一种基于生成对抗网络的轨迹回环检测优化方法
CN111582483B (zh) 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN111242844B (zh) 图像处理方法、装置、服务器和存储介质
CN111462324B (zh) 一种在线时空语义融合方法和系统
CN111508013B (zh) 立体匹配方法
CN109509156B (zh) 一种基于生成对抗模型的图像去雾处理方法
CN112750201B (zh) 三维重建方法及相关装置、设备
CN112949508A (zh) 模型训练方法、行人检测方法、电子设备及可读存储介质
CN111832453B (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN113962246B (zh) 融合双模态特征的目标检测方法、系统、设备及存储介质
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN113239825B (zh) 一种复杂场景下高精度烟草甲虫检测方法
CN106952304A (zh) 一种利用视频序列帧间相关性的深度图像计算方法
CN114004754A (zh) 一种基于深度学习的场景深度补全系统及方法
CN111354030A (zh) 嵌入SENet单元的无监督单目图像深度图生成方法
CN113724379A (zh) 三维重建方法、装置、设备及存储介质
Zhang et al. Multiscale adaptation fusion networks for depth completion
CN113298744B (zh) 一种端到端的红外与可见光图像融合方法
CN113222824B (zh) 一种红外图像超分辨率及小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant