CN117315428B - 一种跨模态特征对齐融合的人群计数系统及方法 - Google Patents

一种跨模态特征对齐融合的人群计数系统及方法 Download PDF

Info

Publication number
CN117315428B
CN117315428B CN202311415625.XA CN202311415625A CN117315428B CN 117315428 B CN117315428 B CN 117315428B CN 202311415625 A CN202311415625 A CN 202311415625A CN 117315428 B CN117315428 B CN 117315428B
Authority
CN
China
Prior art keywords
feature
layer
frequency component
alignment
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311415625.XA
Other languages
English (en)
Other versions
CN117315428A (zh
Inventor
孔维航
于泽鹏
李贺
马尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202311415625.XA priority Critical patent/CN117315428B/zh
Publication of CN117315428A publication Critical patent/CN117315428A/zh
Application granted granted Critical
Publication of CN117315428B publication Critical patent/CN117315428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种跨模态特征对齐融合的人群计数系统及方法,涉及计算机视觉技术领域,包括:获取待计数场景下人群的可见光图像和热红外图像;将可见光图像和热红外图像输入优化后的跨模态特征对齐融合计数系统中,得到估计的人群密度图;其中,跨模态特征对齐融合计数系统包括初始特征提取层、可见光跨模态特征对齐层、热红外跨模态特征对齐层、可见光频域特征提取层、热红外频域特征提取层、跨模态频域特征提取层、频域特征融合层、人群密度图估计层;将估计的人群密度图进行逐像素相加,得到人群图像中人数的估计值。本发明能够有效解决不同模态图像错位现象带来的准确率下降问题。

Description

一种跨模态特征对齐融合的人群计数系统及方法
技术领域
本发明涉及计算机视觉技术领域,尤其是一种跨模态特征对齐融合的人群计数系统及方法。
背景技术
随着人们对公共场所安全问题的日益关注,人群计数由于能够预测无约束场景下的人数和人群分布而受到研究者的广泛关注。作为计算机视觉领域的一个重要课题,人群计数在现实世界的监控系统工程中有着广泛的应用,如人群流量监控和人群分析等。
无约束场景中的人群计数任务仍面临许多问题,特别是在不同场景下有不同的照明条件。在光照较差的黑暗场景下,先前基于可见光的单模态人群计数方法不能准确地提取到人群语义信息,这会严重影响计数精度。因此,一些研究者引入热红外数据作为补充源来补充同一场景中的可见光图像进行人群计数。但是,由于可见光图像和热红外图像是从具有不同成像原理的两个相机或传感器捕获的,所以成对的跨模态图像中不可避免地存在错位问题。然而现有跨模态人群计数方法技术通常专注于跨模态特征的融合,而忽略了错位问题,这会给计数网络模型从不同模态图像中提取对应特征的过程带来不利影响,进而影响计数精度。
发明内容
本发明需要解决的技术问题是提供一种跨模态特征对齐融合的人群计数系统及方法,能够减少不同模态图像间的错位问题对计数性能带来的不利影响,从而提升可见光-热红外跨模态人群计数方案的计数精度
为解决上述技术问题,本发明所采用的技术方案是:一种跨模态特征对齐融合的人群计数系统,包括依次相连的初始特征提取层、特征对齐层、频域特征提取层、频域特征融合层和人群密度图估计层,其中特征对齐层包括可见光特征对齐层和热红外特征对齐层,频域特征提取层包括可见光频域特征提取层、跨模态频域特征提取层和热红外频域特征提取层。
本发明技术方案的进一步改进在于:各层具体结构如下:
初始特征提取层:依次为2个3×3的卷积层、1个最大池化层、2个3×3的卷积层、1个最大池化层、4个3×3的卷积层、1个最大池化层、4个3×3的卷积层、1个最大池化层和4个3×3的卷积层,各卷积层所生成的特征图通道数依次为64、64、128、128、256、256、256、256、512、512、512、512、512、512、512和512,池化层的步长均为2;
可见光特征对齐层:1个相减操作、1个卷积核尺寸为3×3,输出通道数为18的卷积层、1个卷积核尺寸为3×3,输出通道数为512的卷积层、1个相加操作;
热红外特征对齐层:1个相减操作、1个卷积核尺寸为3×3,输出通道数为18的卷积层、1个卷积核尺寸为3×3,输出通道数为512的卷积层、1个相加操作;
可见光频域特征提取层:小波变换、空间注意力和小波逆变换,其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7,输出通道为1的卷积层和1个Sigmoid激活函数;
跨模态频域特征提取层:1个卷积核尺寸为1×1,输出通道数为512的卷积层、小波变换、空间注意力和小波逆变换,其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7,输出通道数为1的卷积层和1个Sigmoid激活函数;
热红外频域特征提取层:小波变换、空间注意力和小波逆变换,其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7,输出通道数为1的卷积层和1个Sigmoid激活函数;
频域特征融合层:2个差分操作和1个通道维度连接操作;
人群密度图估计层:1个卷积核尺寸为3×3,输出通道数为256的卷积层、1个卷积核尺寸为3×3,输出通道数为128的卷积层、1个卷积核尺寸为1×1,输出通道数为1的卷积层和2个ReLU层
一种跨模态特征对齐融合的人群计数方法,步骤如下:
步骤1:将可见光图像和热红外图像输入初始特征提取层进行初始特征提取,分别得到可见光初始特征图和热红外初始特征图;
步骤2:将可见光初始特征图和热红外初始特征图输入可见光特征对齐层进行特征对齐,得到可见光对齐特征图;
步骤3:将热红外初始特征图和可见光初始特征图输入热红外特征对齐层进行特征对齐,得到热红外对齐特征图;
步骤4:将可见光对齐特征图输入可见光频域特征提取层进行可见光频域特征提取,得到可见光频域特征图;
步骤5:将热红外对齐特征图输入热红外频域特征提取层进行热红外频域特征提取,得到热红外频域特征图;
步骤6:将可见光对齐特征图与热红外对齐特征图进行拼接,得到互补特征图,将互补特征图输入跨模态频域特征提取层进行跨模态频域特征提取,得到互补频域特征图;
步骤7:将可见光频域特征图、热红外频域特征图及互补频域特征图输入频域特征融合层进行融合,得到跨模态融合特征图;
步骤8:将跨模态融合特征图输入人群密度图估计层进行人群密度估计,得到估计的人群密度图;
步骤9:将估计的人群密度图进行逐像素相加,得到人群图像中人数的估计值。
本发明技术方案的进一步改进在于:步骤2具体如下:
步骤2.1:将热红外初始特征图与可见光初始特征图相减,得到差分特征图;
步骤2.2:将差分特征图输入卷积核尺寸为3×3,输出通道数为18的卷积层中,得到偏移图;
步骤2.3:将偏移图与差分特征图相加后输入卷积核尺寸为3×3,输出通道数为512的卷积层中,得到变形特征图;
步骤2.4:将可见光初始特征图与步骤2.3得到的变形特征图相加,得到可见光对齐特征图。
本发明技术方案的进一步改进在于:步骤3具体如下:
步骤3.1:将可见光初始特征图与热红外初始特征图相减,得到差分特征图;
步骤3.2:将差分特征图输入卷积核尺寸为3×3,输出通道数为18的卷积层中,得到偏移图;
步骤3.3:将偏移图与差分特征图相加后输入卷积核尺寸为3×3,输出通道数为512的卷积层中,得到变形特征图;
步骤3.4:将热红外初始特征图与步骤3.3得到的变形特征图相加,得到热红外对齐特征图。
本发明技术方案的进一步改进在于:步骤4具体如下:
步骤4.1:可见光频域特征提取层中的小波变换将可见光对齐特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量;
步骤4.2:利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵,并将加权矩阵与水平高频分量进行对应位置像素相乘,得到水平高频分量空间注意增强特征;
步骤4.3:将垂直高频分量和步骤4.2得到的水平高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到垂直高频分量空间注意增强特征;
步骤4.4:将对角线高频分量和步骤4.3得到的垂直高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到对角线高频分量空间注意增强特征;
步骤4.5:将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接,并将连接后的结果进行小波逆变换,得到可见光频域特征图。
本发明技术方案的进一步改进在于:步骤5具体如下:
步骤5.1:热红外频域特征提取层中的小波变换将热红外对齐特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量;
步骤5.2:利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵,并将加权矩阵与水平高频分量进行对应位置像素相乘,得到水平高频分量空间注意增强特征;
步骤5.3:将垂直高频分量和步骤5.2得到的水平高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到垂直高频分量空间注意增强特征;
步骤5.4:将对角线高频分量和步骤5.3得到的垂直高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到对角线高频分量空间注意增强特征;
步骤5.5:将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接,并将连接后的结果进行小波逆变换,得到热红外频域特征图。
本发明技术方案的进一步改进在于:步骤6具体如下:
步骤6.1:将可见光对齐特征图和热红外对齐特征图进行通道维度连接并通过卷积核尺寸为1×1,输出通道数为512的卷积层进行降维,得到互补特征图;
步骤6.2:跨模态频域特征提取层中的小波变换将互补特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量;
步骤6.3:利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵,并将加权矩阵与水平高频分量进行对应位置像素相乘,得到水平高频分量空间注意增强特征;
步骤6.4:将垂直高频分量和步骤6.3得到的水平高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到垂直高频分量空间注意增强特征;
步骤6.5:将对角线高频分量和步骤6.4得到的垂直高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到对角线高频分量空间注意增强特征;
步骤6.6:将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接,并将连接后的结果进行小波逆变换,得到互补频域特征图。
本发明技术方案的进一步改进在于:步骤7具体如下:
步骤7.1:利用互补频域特征图分别与可见光频域特征图、热红外频域特征图进行差分操作,得到两个过渡特征图;
步骤7.2:将两个过渡特征图进行通道维度连接,得到跨模态融合特征图。
本发明技术方案的进一步改进在于:步骤8具体如下:
步骤8.1:将跨模态融合特征图输入人群密度图估计层,依次经过卷积核尺寸为3×3,输出通道为256的卷积层、1个ReLU层、卷积核尺寸为3×3,输出通道为128的卷积层、1个ReLU层、卷积核尺寸为1×1,输出通道为1的卷积层,得到估计的人群密度图。
由于采用了上述技术方案,本发明取得的技术进步是:利用可见光特征对齐层、热红外特征对齐层分别对可见光图像和热红外图像进行跨模态特征的对齐,该模块的设计简洁高效地减少了跨模态错位问题对可见-热红外人群数量预测任务的负面影响,对齐后的跨模态人群特征图可以有效提高计数网络模型的最终计数精度,以减少不同模态图像的错位问题对于特征提取过程的不利影响。除此之外,通过引入了频域信息,利用两个特定模态频域特征提取层以及一个互补频域特征提取层,以提取频域上丰富的特征表示,用于融合跨模态人群计数任务中不同模态的对齐特征,从空间-频率联合的角度为相关的跨模态密集预测任务提供一种有效的互补特征表示方法,可以提取不同模态人群图像更加全面的特征,提高对人群图像计数的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1为本发明跨模态特征对齐融合的计数系统结构示意图;
图2为本发明跨模态特征对齐融合的计数方法流程图;
图3是采用本发明人群计数方法进行人群计数的示意图;
具体实施方式
下面结合实施例对本发明做进一步详细说明:
如图1所示,为一种跨模态特征对齐融合的人群计数系统的结构示意图,在人群计数系统使用前,需要利用同一场景下的多张可见光图像和热红外图像对构建的人群计数系统进行训练,以真实的人群密度图为监督计算损失,利用梯度下降优化算法优化人群计数系统,得到人群计数系统的最佳参数。一种跨模态特征对齐融合的人群计数系统,由输入到输出方向依次连接有初始特征提取层、特征对齐层、频域特征提取层、频域特征融合层和人群密度图估计层,其中特征对齐层包括可见光特征对齐层和热红外特征对齐层,频域特征提取层包括可见光频域特征提取层、跨模态频域特征提取层和热红外频域特征提取层。各层具体结构如下:
初始特征提取层:为VGG19网络去掉全连接层和Softmax层后剩下的部分,包括16个卷积层和4个最大池化层,从输入到输出方向依次为2个3×3的卷积层、1个最大池化层、2个3×3的卷积层、1个最大池化层、4个3×3的卷积层、1个最大池化层、4个3×3的卷积层、1个最大池化层和4个3×3的卷积层,各卷积层所生成的特征图通道数依次为64、64、128、128、256、256、256、256、512、512、512、512、512、512、512和512,池化层的步长均为2;
可见光特征对齐层:1个相减操作、1个卷积核尺寸为3×3,输出通道数为18的卷积层、1个卷积核尺寸为3×3,输出通道数为512的卷积层、1个相加操作;
热红外特征对齐层:1个相减操作、1个卷积核尺寸为3×3,输出通道数为18的卷积层、1个卷积核尺寸为3×3,输出通道数为512的卷积层、1个相加操作;
可见光频域特征提取层:小波变换、空间注意力和小波逆变换,其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7,输出通道数为1的卷积层和1个Sigmoid激活函数;
跨模态频域特征提取层:1个卷积核尺寸为1×1,输出通道数为512的卷积层、小波变换、空间注意力和小波逆变换,其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7,输出通道数为1的卷积层和1个Sigmoid激活函数;
热红外频域特征提取层:小波变换、空间注意力和小波逆变换,其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7,输出通道数为1的卷积层和1个Sigmoid激活函数;
频域特征融合层:2个差分操作和1个通道维度连接操作;
人群密度图估计层:1个卷积核尺寸为3×3,输出通道数为256的卷积层、1个卷积核尺寸为3×3,输出通道数为128的卷积层、1个卷积核尺寸为1×1,输出通道数为1的卷积层和2个ReLU层,最后一个1×1卷积层的目的是减少特征图的通道数至1,以生成估计的人群密度图。
应用上述跨模态特征对齐融合的人群计数的人群计数方法如图2所示,具体步骤如下:
步骤1:将可见光图像和热红外图像输入初始特征提取层进行初始特征提取,分别得到可见光初始特征图和热红外初始特征图;
步骤2:将可见光初始特征图和热红外初始特征图输入可见光特征对齐层进行特征对齐,得到可见光对齐特征图;
步骤2.1:将热红外初始特征图与可见光初始特征图相减,得到差分特征图;
步骤2.2:将差分特征图输入卷积核尺寸为3×3,输出通道数为18的卷积层中,得到偏移图;
步骤2.3:将偏移图与差分特征图相加后输入卷积核尺寸为3×3,输出通道数为512的卷积层中,得到变形特征图;
步骤2.4:将可见光初始特征图与步骤2.3得到的变形特征图相加,得到可见光对齐特征图。
步骤3:将热红外初始特征图和可见光初始特征图输入热红外特征对齐层进行特征对齐,得到热红外对齐特征图;
步骤3.1:将可见光初始特征图与热红外初始特征图相减,得到差分特征图;
步骤3.2:将差分特征图输入卷积核尺寸为3×3,输出通道数为18的卷积层中,得到偏移图;
步骤3.3:将偏移图与差分特征图相加后输入卷积核尺寸为3×3,输出通道数为512的卷积层中,得到变形特征图;
步骤3.4:将热红外初始特征图与步骤3.3得到的变形特征图相加,得到热红外对齐特征图。
步骤4:将可见光对齐特征图输入可见光频域特征提取层进行可见光频域特征提取,得到可见光频域特征图;
步骤4.1:可见光频域特征提取层中的小波变换将可见光对齐特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量;
步骤4.2:利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵,并将加权矩阵与水平高频分量进行对应位置像素相乘,得到水平高频分量空间注意增强特征;
步骤4.3:将垂直高频分量和步骤4.2得到的水平高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到垂直高频分量空间注意增强特征;
步骤4.4:将对角线高频分量和步骤4.3得到的垂直高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到对角线高频分量空间注意增强特征;
步骤4.5:将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接,并将连接后的结果进行小波逆变换,得到可见光频域特征图。
步骤5:将热红外对齐特征图输入热红外频域特征提取层进行热红外频域特征提取,得到热红外频域特征图;
步骤5.1:热红外频域特征提取层中的小波变换将热红外对齐特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量;
步骤5.2:利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵,并将加权矩阵与水平高频分量进行对应位置像素相乘,得到水平高频分量空间注意增强特征;
步骤5.3:将垂直高频分量和步骤5.2得到的水平高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到垂直高频分量空间注意增强特征;
步骤5.4:将对角线高频分量和步骤5.3得到的垂直高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到对角线高频分量空间注意增强特征;
步骤5.5:将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接,并将连接后的结果进行小波逆变换,得到热红外频域特征图。
步骤6:将可见光对齐特征图与热红外对齐特征图进行拼接,得到互补特征图,将互补特征图输入跨模态频域特征提取层进行跨模态频域特征提取,得到互补频域特征图;
步骤6.1:将可见光对齐特征图和热红外对齐特征图进行通道连接并通过卷积核为1×1,输出通道数为512的卷积层进行降维,得到互补特征图;
步骤6.2:跨模态频域特征提取层中的小波变换将互补特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量;
步骤6.3:利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵,并将加权矩阵与水平高频分量进行对应位置像素相乘,得到水平高频分量空间注意增强特征;
步骤6.4:将垂直高频分量和步骤6.3得到的水平高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到垂直高频分量空间注意增强特征;
步骤6.5:将对角线高频分量和步骤6.4得到的垂直高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到对角线高频分量空间注意增强特征;
步骤6.6:将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接,并将连接后的结果进行小波逆变换,得到互补频域特征图。
步骤7:将可见光频域特征图、热红外频域特征图及互补频域特征图输入频域特征融合层进行融合,得到跨模态融合特征图;
步骤7.1:利用互补频域特征图分别与可见光频域特征图、热红外频域特征图进行差分操作,得到两个过渡特征图;
步骤7.2:将两个过渡特征图进行通道维度连接,得到跨模态融合特征图。
步骤8:将跨模态融合特征图输入人群密度图估计层进行人群密度估计,得到估计的人群密度图;
步骤8.1:将跨模态融合特征图输入人群密度图估计层,依次经过卷积核尺寸为3×3,输出通道为256的卷积层、1个ReLU层、卷积核尺寸为3×3,输出通道为128的卷积层、1个ReLU层、卷积核尺寸为1×1,输出通道为1的卷积层,得到估计的人群密度图
步骤9:将估计的人群密度图进行逐像素相加,得到人群图像中人数的估计值。
图3是采用本发明人群计数方法进行人群计数的示意图。参见图3,采用本发明人群计数方法进行人群计数时,将目标场景人群的可见光图像和热红外图像输入到建立的跨模态特征对齐融合计数系统中,使用训练和优化后的人群计数系统进行人群密度估计,将得到的估计人群密度图逐像素相加得到对应的人群计数结果。
本发明针对已有的跨模态人群计数中存在的错位问题,提出一种跨模态特征对齐融合网络的计数方法与系统,可以有效解决跨模态图像间的错位问题。通过对两个分支分别输入可见光图像和热红外图像,跨模态对齐模块分别对两个分支的不同模态人群特征图进行对齐;3分支频域特征提取层和频域特征融合层分别对不同分支中的特征图进行频域特征提取及融合;将融合的特征图经过卷积神经网络模型产生估计的人群密度图。由于跨模态对齐模块能够对不同模态的特征图进行有效对齐;以及频域特征提取模块能够学到不同模态特征图更全面的特征,从而使计数网络能够更准确地估计图像中的人数值。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (9)

1.一种跨模态特征对齐融合的人群计数系统,其特征在于:包括依次相连的初始特征提取层、特征对齐层、频域特征提取层、频域特征融合层和人群密度图估计层,其中特征对齐层包括可见光特征对齐层和热红外特征对齐层,频域特征提取层包括可见光频域特征提取层、跨模态频域特征提取层和热红外频域特征提取层;各层具体结构如下:
初始特征提取层:依次为2个3×3的卷积层、1个最大池化层、2个3×3的卷积层、1个最大池化层、4个3×3的卷积层、1个最大池化层、4个3×3的卷积层、1个最大池化层和4个3×3的卷积层,各卷积层所生成的特征图通道数依次为64、64、128、128、256、256、256、256、512、512、512、512、512、512、512和512,池化层的步长均为2;
可见光特征对齐层:1个相减操作、1个卷积核尺寸为3×3,输出通道数为18的卷积层、1个卷积核尺寸为3×3,输出通道数为512的卷积层、1个相加操作;
热红外特征对齐层:1个相减操作、1个卷积核尺寸为3×3,输出通道数为18的卷积层、1个卷积核尺寸为3×3,输出通道数为512的卷积层、1个相加操作;
可见光频域特征提取层:小波变换、空间注意力和小波逆变换,其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7,输出通道数为1的卷积层和1个Sigmoid激活函数;
跨模态频域特征提取层:1个卷积核尺寸为1×1,输出通道数为512的卷积层、小波变换、空间注意力和小波逆变换,其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7,输出通道数为1的卷积层和1个Sigmoid激活函数;
热红外频域特征提取层:小波变换、空间注意力和小波逆变换,其中空间注意力包括1个平均池化操作、1个最大池化操作、1个卷积核尺寸为7×7、输出通道数为1的卷积层和1个Sigmoid激活函数;
频域特征融合层:2个差分操作和1个通道维度连接操作;
人群密度图估计层:1个卷积核尺寸为3×3,输出通道数为256的卷积层、1个卷积核尺寸为3×3,输出通道数为128的卷积层、1个卷积核尺寸为1×1,输出通道数为1的卷积层和2个ReLU层。
2.一种跨模态特征对齐融合的人群计数方法,其特征在于应用于如权利要求1所述的计数系统,步骤如下:
步骤1:将可见光图像和热红外图像输入初始特征提取层进行初始特征提取,分别得到可见光初始特征图和热红外初始特征图;
步骤2:将可见光初始特征图和热红外初始特征图输入可见光特征对齐层进行特征对齐,得到可见光对齐特征图;
步骤3:将热红外初始特征图和可见光初始特征图输入热红外特征对齐层进行特征对齐,得到热红外对齐特征图;
步骤4:将可见光对齐特征图输入可见光频域特征提取层进行可见光频域特征提取,得到可见光频域特征图;
步骤5:将热红外对齐特征图输入热红外频域特征提取层进行热红外频域特征提取,得到热红外频域特征图;
步骤6:将可见光对齐特征图与热红外对齐特征图进行拼接,得到互补特征图,将互补特征图输入跨模态频域特征提取层进行跨模态频域特征提取,得到互补频域特征图;
步骤7:将可见光频域特征图、热红外频域特征图及互补频域特征图输入频域特征融合层进行融合,得到跨模态融合特征图;
步骤8:将跨模态融合特征图输入人群密度图估计层进行人群密度估计,得到估计的人群密度图;
步骤9:将估计的人群密度图进行逐像素相加,得到人群图像中人数的估计值。
3.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法,其特征在于:步骤2具体如下:
步骤2.1:将热红外初始特征图与可见光初始特征图相减,得到差分特征图;
步骤2.2:将差分特征图输入卷积核尺寸为3×3,输出通道数为18的卷积层中,得到偏移图;
步骤2.3:将偏移图与差分特征图相加后输入卷积核尺寸为3×3,输出通道数为512的卷积层中,得到变形特征图;
步骤2.4:将可见光初始特征图与步骤2.3得到的变形特征图相加,得到可见光对齐特征图。
4.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法,其特征在于:步骤3具体如下:
步骤3.1:将可见光初始特征图与热红外初始特征图相减,得到差分特征图;
步骤3.2:将差分特征图输入卷积核尺寸为3×3,输出通道数为18的卷积层中,得到偏移图;
步骤3.3:将偏移图与差分特征图相加后输入卷积核尺寸为3×3,输出通道数为512的卷积层中,得到变形特征图;
步骤3.4:将热红外初始特征图与步骤3.3得到的变形特征图相加,得到热红外对齐特征图。
5.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法,其特征在于:步骤4具体如下:
步骤4.1:可见光频域特征提取层中的小波变换将可见光对齐特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量;
步骤4.2:利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵,并将加权矩阵与水平高频分量进行对应位置像素相乘,得到水平高频分量空间注意增强特征;
步骤4.3:将垂直高频分量和步骤4.2得到的水平高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到垂直高频分量空间注意增强特征;
步骤4.4:将对角线高频分量和步骤4.3得到的垂直高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到对角线高频分量空间注意增强特征;
步骤4.5:将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接,并将连接后的结果进行小波逆变换,得到可见光频域特征图。
6.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法,其特征在于:步骤5具体如下:
步骤5.1:热红外频域特征提取层中的小波变换将热红外对齐特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量;
步骤5.2:利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵,并将加权矩阵与水平高频分量进行对应位置像素相乘,得到水平高频分量空间注意增强特征;
步骤5.3:将垂直高频分量和步骤5.2得到的水平高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到垂直高频分量空间注意增强特征;
步骤5.4:将对角线高频分量和步骤5.3得到的垂直高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到对角线高频分量空间注意增强特征;
步骤5.5:将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接,并将连接后的结果进行小波逆变换,得到热红外频域特征图。
7.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法,其特征在于:步骤6具体如下:
步骤6.1:将可见光对齐特征图和热红外对齐特征图进行通道维度连接并通过卷积核尺寸为1×1,输出通道数为512的卷积层进行降维,得到互补特征图;
步骤6.2:跨模态频域特征提取层中的小波变换将互补特征图分解为对角线高频分量、垂直高频分量、水平高频分量和低频分量;
步骤6.3:利用空间注意力对水平高频分量进行处理以获得水平空间注意力加权矩阵,并将加权矩阵与水平高频分量进行对应位置像素相乘,得到水平高频分量空间注意增强特征;
步骤6.4:将垂直高频分量和步骤6.3得到的水平高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得垂直空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到垂直高频分量空间注意增强特征;
步骤6.5:将对角线高频分量和步骤6.4得到的垂直高频分量空间注意增强特征进行相加,随后将相加结果输入空间注意力进行处理以获得对角线空间注意力加权矩阵,并将加权矩阵与相加结果进行对应位置像素相乘,得到对角线高频分量空间注意增强特征;
步骤6.6:将水平高频分量空间注意增强特征、垂直高频分量空间注意增强特征、对角线高频分量空间注意增强特征和低频特征进行通道维度连接,并将连接后的结果进行小波逆变换,得到互补频域特征图。
8.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法,其特征在于:步骤7具体如下:
步骤7.1:利用互补频域特征图分别与可见光频域特征图、热红外频域特征图进行差分操作,得到两个过渡特征图;
步骤7.2:将两个过渡特征图进行通道维度连接,得到跨模态融合特征图。
9.根据权利要求2所述的一种跨模态特征对齐融合的人群计数方法,其特征在于:步骤8具体如下:
步骤8.1:将跨模态融合特征图输入人群密度图估计层,依次经过卷积核尺寸为3×3,输出通道数为256的卷积层、1个ReLU层、卷积核尺寸为3×3,输出通道数为128的卷积层、1个ReLU层、卷积核尺寸为1×1,输出通道数为1的卷积层,得到估计的人群密度图。
CN202311415625.XA 2023-10-30 2023-10-30 一种跨模态特征对齐融合的人群计数系统及方法 Active CN117315428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311415625.XA CN117315428B (zh) 2023-10-30 2023-10-30 一种跨模态特征对齐融合的人群计数系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311415625.XA CN117315428B (zh) 2023-10-30 2023-10-30 一种跨模态特征对齐融合的人群计数系统及方法

Publications (2)

Publication Number Publication Date
CN117315428A CN117315428A (zh) 2023-12-29
CN117315428B true CN117315428B (zh) 2024-04-05

Family

ID=89288384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311415625.XA Active CN117315428B (zh) 2023-10-30 2023-10-30 一种跨模态特征对齐融合的人群计数系统及方法

Country Status (1)

Country Link
CN (1) CN117315428B (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101714251A (zh) * 2009-12-22 2010-05-26 上海电力学院 一种红外与可见光伪彩色图像融合及增强方法
CN110574071A (zh) * 2017-01-27 2019-12-13 Ucl商业有限公司 用于对齐3d数据集的设备,方法和系统
WO2020239126A1 (en) * 2019-05-31 2020-12-03 Huawei Technologies Co., Ltd. Methods and systems for relaying feature-driven communications
CN113538400A (zh) * 2021-07-29 2021-10-22 燕山大学 一种跨模态人群计数方法及系统
CN113538401A (zh) * 2021-07-29 2021-10-22 燕山大学 一种复杂场景下结合跨模态信息的人群计数方法及系统
CN114694076A (zh) * 2022-04-08 2022-07-01 浙江理工大学 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN114926825A (zh) * 2022-05-11 2022-08-19 复旦大学 一种基于时空特征融合的车辆驾驶行为检测方法
WO2022188030A1 (zh) * 2021-03-09 2022-09-15 中国科学院深圳先进技术研究院 人群密度估计方法、电子设备及存储介质
WO2022216522A2 (en) * 2021-04-06 2022-10-13 Delaware Capital Formation, Inc. Predictive maintenance of industrial equipment
CN115311186A (zh) * 2022-10-09 2022-11-08 济南和普威视光电技术有限公司 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN115376067A (zh) * 2022-08-17 2022-11-22 东南大学 基于加速度计的地铁公共交通拥挤监测与风险评估系统
CN115481669A (zh) * 2022-10-25 2022-12-16 青岛理工大学 快速分离公铁两用桥梁活荷载应变监测信号的方法及系统
CN115526862A (zh) * 2022-09-30 2022-12-27 燕山大学 基于CNN和transformer的跨模态人群计数方法
CN115527159A (zh) * 2022-09-02 2022-12-27 燕山大学 一种基于跨模态间尺度注意聚合特征的计数系统及方法
CN116028889A (zh) * 2023-02-02 2023-04-28 中国科学技术大学 一种用于自然手势识别的多模态渐进式层级融合方法
CN116485694A (zh) * 2023-04-25 2023-07-25 中国矿业大学 一种基于变分原理的红外与可见光图像融合方法、系统
CN116776157A (zh) * 2023-08-17 2023-09-19 鹏城实验室 支持模态增加的模型学习方法及其装置
CN116934762A (zh) * 2023-09-19 2023-10-24 华南理工大学 锂电池极片表面缺陷的检测系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10270642B2 (en) * 2012-12-05 2019-04-23 Origin Wireless, Inc. Method, apparatus, and system for object tracking and navigation
US20230090763A1 (en) * 2020-02-13 2023-03-23 Muhammed Zahid Ozturk Method, apparatus, and system for voice activity detection based on radio signals
CN109241895B (zh) * 2018-08-28 2021-06-04 北京航空航天大学 密集人群计数方法及装置
US20230145920A1 (en) * 2021-11-11 2023-05-11 GE Precision Healthcare LLC Systems and methods for motion detection in medical images
US20230281751A1 (en) * 2022-03-03 2023-09-07 Rensselaer Polytechnic Institute Systems and methods for multi-modal multi-dimensional image registration

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101714251A (zh) * 2009-12-22 2010-05-26 上海电力学院 一种红外与可见光伪彩色图像融合及增强方法
CN110574071A (zh) * 2017-01-27 2019-12-13 Ucl商业有限公司 用于对齐3d数据集的设备,方法和系统
WO2020239126A1 (en) * 2019-05-31 2020-12-03 Huawei Technologies Co., Ltd. Methods and systems for relaying feature-driven communications
WO2022188030A1 (zh) * 2021-03-09 2022-09-15 中国科学院深圳先进技术研究院 人群密度估计方法、电子设备及存储介质
WO2022216522A2 (en) * 2021-04-06 2022-10-13 Delaware Capital Formation, Inc. Predictive maintenance of industrial equipment
CN113538401A (zh) * 2021-07-29 2021-10-22 燕山大学 一种复杂场景下结合跨模态信息的人群计数方法及系统
CN113538400A (zh) * 2021-07-29 2021-10-22 燕山大学 一种跨模态人群计数方法及系统
CN114694076A (zh) * 2022-04-08 2022-07-01 浙江理工大学 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN114926825A (zh) * 2022-05-11 2022-08-19 复旦大学 一种基于时空特征融合的车辆驾驶行为检测方法
CN115376067A (zh) * 2022-08-17 2022-11-22 东南大学 基于加速度计的地铁公共交通拥挤监测与风险评估系统
CN115527159A (zh) * 2022-09-02 2022-12-27 燕山大学 一种基于跨模态间尺度注意聚合特征的计数系统及方法
CN115526862A (zh) * 2022-09-30 2022-12-27 燕山大学 基于CNN和transformer的跨模态人群计数方法
CN115311186A (zh) * 2022-10-09 2022-11-08 济南和普威视光电技术有限公司 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN115481669A (zh) * 2022-10-25 2022-12-16 青岛理工大学 快速分离公铁两用桥梁活荷载应变监测信号的方法及系统
CN116028889A (zh) * 2023-02-02 2023-04-28 中国科学技术大学 一种用于自然手势识别的多模态渐进式层级融合方法
CN116485694A (zh) * 2023-04-25 2023-07-25 中国矿业大学 一种基于变分原理的红外与可见光图像融合方法、系统
CN116776157A (zh) * 2023-08-17 2023-09-19 鹏城实验室 支持模态增加的模型学习方法及其装置
CN116934762A (zh) * 2023-09-19 2023-10-24 华南理工大学 锂电池极片表面缺陷的检测系统及方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting";Lingbo Liu等;《arxiv》;20210406;第1-11页 *
"Crowd counting with crowd attention convolutional neural network";Jiwei Chen等;《arxiv》;20220415;第1-13页 *
"Effective crowd counting using multi-resolution context and image quality assessment-guided training";He Li等;《Computer Vision and Image Understanding》;20201231;第201卷;第1-10页 *
"Feature-aware Adaptation and Density Alignment for Crowd Counting in Video Surveillance";Junyu Gao等;《arxiv》;20201027;第1-12页 *
"基于密度图估计的复杂场景图像人群计数方法研究";李贺;《中国优秀博士学位论文全文数据库》;20230115(第第1期期);正文第1-145页 *
"热成像特征中期融合夜视密集人群计数";任国印等;《应用光学》;20221231;第43卷(第6期);第1088-1096页 *

Also Published As

Publication number Publication date
CN117315428A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN112884064A (zh) 一种基于神经网络的目标检测与识别方法
CN111582092B (zh) 一种基于人体骨架的行人异常行为检测方法
CN111898431B (zh) 一种基于注意力机制部件遮挡的行人再识别方法
CN109509156B (zh) 一种基于生成对抗模型的图像去雾处理方法
CN109858467B (zh) 一种基于关键点区域特征融合的人脸识别方法及装置
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN111242868B (zh) 暗视觉环境下基于卷积神经网络的图像增强方法
CN117593304B (zh) 基于交叉局部全局特征的半监督工业品表面缺陷检测方法
CN116630608A (zh) 一种用于复杂场景下的多模态目标检测方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN113963170A (zh) 一种基于交互式特征融合的rgbd图像显著性检测方法
CN111223087A (zh) 一种基于生成对抗网络的桥梁裂缝自动检测方法
CN113538400B (zh) 一种跨模态人群计数方法及系统
CN113628261B (zh) 一种电力巡检场景下的红外与可见光图像配准方法
Liu et al. Local multi-scale feature aggregation network for real-time image dehazing
CN117315428B (zh) 一种跨模态特征对齐融合的人群计数系统及方法
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN115527159B (zh) 一种基于跨模态间尺度注意聚合特征的计数系统及方法
WO2022001364A1 (zh) 一种提取数据特征的方法和相关装置
CN111754459B (zh) 基于统计深度特征的染色伪造图像检测方法及电子装置
CN110148105B (zh) 基于迁移学习和视频帧关联学习的视频分析方法
CN113920317A (zh) 基于可见光图像和低分辨率深度图像的语义分割方法
CN113361475A (zh) 一种基于多阶段特征融合信息复用的多光谱行人检测方法
CN112598718B (zh) 一种无监督多视角多模态智能眼镜图像配准方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant