CN117253184B - 一种雾先验频域注意表征引导的雾天图像人群计数方法 - Google Patents

一种雾先验频域注意表征引导的雾天图像人群计数方法 Download PDF

Info

Publication number
CN117253184B
CN117253184B CN202311082649.8A CN202311082649A CN117253184B CN 117253184 B CN117253184 B CN 117253184B CN 202311082649 A CN202311082649 A CN 202311082649A CN 117253184 B CN117253184 B CN 117253184B
Authority
CN
China
Prior art keywords
feature map
attention
convolution
fog
foggy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311082649.8A
Other languages
English (en)
Other versions
CN117253184A (zh
Inventor
李贺
沈洁男
孔维航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202311082649.8A priority Critical patent/CN117253184B/zh
Publication of CN117253184A publication Critical patent/CN117253184A/zh
Application granted granted Critical
Publication of CN117253184B publication Critical patent/CN117253184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种雾先验频域注意表征引导的雾天图像人群计数方法,包括如下步骤:将雾天场景图像输入到C1块中,得到第一初始特征图;将所述的第一初始特征图输入第一雾先验引导表征学习过程,得到第一中间特征图和第一雾天信息图;将所述的第一中间特征图输入到第二雾先验引导表征学习过程,得到高级语义特征图和第二雾天信息图;将所述的高级语义特征图输入密度图回归模块,进行密度图回归,得到估计人群密度图;将所述的估计人群密度图的像素值求和,得到估计人群计数结果。本发明能够显著降低户外场景中雾天气因素对人群计数特征提取过程的负面影响,从而提升人群计数方法在恶劣天气户外场景中的准确性、鲁棒性和普适性。

Description

一种雾先验频域注意表征引导的雾天图像人群计数方法
技术领域
本发明涉及一种雾先验频域注意表征引导的雾天图像人群计数方法,属于图像处理领域。
背景技术
智能视频监控技术为社会公共安全管理提供了强有力的保障。图像人群计数作为智能视频监控系统中的人群分析和人群异常检测等现实场景应用的核心理论方法之一,近年来受到了学术界和工业界的广泛关注。现有图像人群计数方法大多面向户外晴朗场景进行人群数量预测并取得显著优良效果。然而由于雾天场景中行人能见度降低、轮廓模糊、外观辨识度显著降级等问题,直接将面向晴朗场景的图像人群计数方法应用于雾天场景中会使得预测人群数量远低于人群数量真实值。已有的少量雾天场景图像人群计数方法通过建立基于密度图估计的注意力增强深度模型并用传统欧氏距离进行模型优化实现端到端的人群数量预测,忽视了雾天场景中雾因素对人群计数特征表征过程的负面影响。同时,其他可借鉴的雾天场景计算机视觉任务如雾天目标检测,常将目标任务解耦为去雾和目标检测两个阶段或转换为域适应问题,需要依赖去雾阶段的繁重手工标注或复杂域适应策略。
总的来说,已有的少量雾天场景图像人群计数方法或技术因未考虑对雾天因素进行量化分析而不能适应雾浓度剧烈变化的雾天场景进而不能保证计数性能;已有的雾天场景其他计算机视觉任务需依赖繁重标注成本或复杂域适应实现过程,难以应用于需要更高层次推理功能的雾天人群计数任务。
发明内容
本发明为解决上述技术问题,提供一种雾先验频域注意表征引导的雾天图像人群计数方法,以量化建模并精准降低户外雾天场景中雾天气因素对雾天人群计数性能的负面影响,从而实现面向户外雾天场景图像的准确人群数量预测。
为解决上述技术问题,本发明所采用的技术方案是:
一种雾先验频域注意表征引导的雾天图像人群计数方法,建立雾先验频域注意表征引导的雾天图像人群计数模型,将待估计人数的雾天场景图像输入雾天图像人群计数模型进行人群计数;具体操作包括如下步骤:
S1、将雾天场景图像输入到C1块中,得到第一初始特征图;
S2、将所述的第一初始特征图输入第一雾先验引导表征学习过程,得到第一中间特征图和第一雾天信息图;
S3、将所述的第一中间特征图输入到第二雾先验引导表征学习过程,得到高级语义特征图和第二雾天信息图;
S4、将所述的高级语义特征图输入密度图回归模块,进行密度图回归,得到估计人群密度图;
S5、将所述的估计人群密度图的像素值求和,得到估计人群计数结果。
本发明技术方案的进一步改进在于:所述C1块包括八层卷积层和三层池化层,所述C1块从输入依次为:两层卷积层、一层池化层、两层卷积层、一层池化层、四层卷积层和一层池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为64、64、128、128、256、256、256和256的特征图,各所述池化层是步长为2的最大池化层。
本发明技术方案的进一步改进在于:所述S2的具体操作如下:
所述第一雾先验引导表征学习过程包括C2块、第一残差细节特征恢复模块和第一雾先验预测模块;
将所述第一初始特征图输入到第一雾先验引导表征学习过程的C2块中,得到第二初始特征图,所述C2块依次包括四层卷积层和一层池化层,所述C2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图,每层卷积层的卷积核尺寸为3×3,池化层为步长为2的最大池化层;
将所述第二初始特征图输入到第一雾先验引导表征学习过程的第一残差细节特征恢复模块中,得到第一特征图,所述第一残差细节特征恢复模块依次包括一层池化层和三层卷积层,池化层是步长为2的最大池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图,将第二初始特征图输入池化层得到第一池化特征图,将第一池化特征图输入到三层卷积层中,得到第一卷积特征图,将第一池化特征图和第一卷积特征图进行对应像素位置相加操作,得到第一特征图;
将所述第二初始特征图与第一特征图进行通道连接,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到第一中间特征图;
将所述第一特征图与第一中间特征图进行差分操作,得到第一初始雾天信息特征图,所述的差分操作为第一特征图与第一中间特征图进行对应像素位置相减操作,具体为第一特征图减去第一中间特征图,得到第一初始雾天信息特征图;
将所述第一初始雾天信息特征图输入到第一雾先验引导表征学习过程的第一雾先验预测模块中,得到第一雾天信息图,所述第一雾先验预测模块包括一层梯度反转层和四层卷积层,梯度反转层的权重是-0.1,从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图,其中卷积层的卷积核尺寸均为3×3,最后经过卷积核为1×1的卷积操作,将通道数从512降维到1,得到第一雾天信息图。
本发明技术方案的进一步改进在于:将得到的第一雾天信息图与真实雾先验特征图进行第一雾先验损失计算,第一雾先验损失lhaze-1计算公式为:
式中,xi为第i个样本,N为雾天人群图像训练样本数量,H1(·)是第一雾先验预测模块,R1(·)是第一残差细节特征恢复模块,F1(·)是C1块,f1是第一中间特征图,σ(xi)为第i个样本的真实雾先验特征图。
本发明技术方案的进一步改进在于:所述S3的具体操作为:
所述第二雾先验引导表征学习过程包括C3块、频域嵌入注意模块、第二残差细节特征恢复模块和第二雾先验预测模块;
将所述第一中间特征图输入到第二雾先验引导表征学习过程的C3块中,得到第三初始特征图,所述C3块依次包括四层卷积层和一层池化层,所述C3块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图,每层卷积层的卷积核尺寸为3×3,池化层为步长为2的最大池化层;
将所述第一中间特征图输入到第二雾先验引导表征学习过程的第二残差细节特征恢复模块中,得到第二特征图,所述第二残差细节特征恢复模块包括一层池化层和三层卷积层,池化层是步长为2的最大池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图,将第一中间特征图输入池化层得到第二池化特征图,将第二池化特征图输入到三层卷积层中,得到第二卷积特征图,将第二池化特征图和第二卷积特征图进行对应像素位置相加操作,得到第二特征图;
将所述第三初始特征图与第二特征图在通道维度上相加,并使用卷积核为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到第二中间特征图;
将所述第二中间特征图输入到频域嵌入注意模块,所述的频域嵌入注意模块包括:频域注意力聚合块、空间-像素注意力聚合块和通道注意力聚合块;
将所述第二中间特征图输入到频域嵌入注意模块的频域注意力聚合块中,得到频域注意特征图,所述频域注意力聚合块包括离散小波变换、上采样、一层卷积核为1×1的卷积层和Sigmoid函数,经过离散小波变换,将第二中间特征图在频域上分解为低频分量、水平高频分量、垂直高频分量和对角高频分量,分量的通道数均为512,水平高频分量、垂直高频分量和对角高频分量进行通道连接,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1536降维到512,接着进行上采样,将降维后的特征图的长和宽都扩大为原来的两倍,然后进行一层卷积核为1×1的卷积操作和Sigmoid操作,得到通道数为512的频域注意特征图;
将所述第二中间特征图输入到频域嵌入注意模块的空间-像素注意力聚合块中,得到空间-像素注意特征图,所述空间-像素注意力聚合块包括空间注意力部分和像素注意力部分,所述的空间注意力部分包括并列池化层结构、一层卷积层和Sigmoid函数,并列池化层结构包括一层最大池化层和一层平均池化层,将尺寸为C×h×w的第二中间特征图分别输入到并列池化层结构的最大池化层和平均池化层,得到尺寸为1×h×w的空间最大池化特征图和尺寸为1×h×w的空间平均池化特征图,将这两个特征图进行拼接得到尺寸为2×h×w的特征图,然后经过卷积核为1×1的卷积层和Sigmoid函数得到通道数为512的空间注意加权特征图,将第二中间特征图和空间注意加权特征图进行逐元素相乘,得到空间注意特征图,将空间注意特征图输入到像素注意力部分,像素注意力部分依次为一层卷积核为3×3的卷积层、Sigmoid函数和一层卷积核为3×3的卷积层,得到通道数为512的像素注意加权特征图,然后将像素注意加权特征图与空间注意特征图进行逐元素相乘,得到通道数为512的空间-像素注意特征图;
将所述频域注意特征图和空间-像素注意特征图在通道维度上相加,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到频域-空间-像素注意特征图;
将所述频域-空间-像素注意特征图输入到频域嵌入注意模块的通道注意力聚合块中,得到高级语义特征图,所述通道注意力聚合块包括并列池化部分、两个全连接层和Sigmoid函数,并列池化部分为一层最大池化层和一层平均池化层,将频域-空间-像素注意特征图分别输入到并列池化部分的最大池化层和平均池化层进行池化操作,得到C×1×1的通道最大池化结果和C×1×1的通道平均池化结果,将通道最大池化结果和通道平均池化结果进行对应位置元素相加,然后输入到全连接层和Sigmoid函数中,第一个全连接层的神经元个数为32,第二个全连接层的神经元个数为512,得到通道数为512的通道注意加权特征图,将通道注意加权特征图和频域-空间-像素注意特征图进行逐元素相乘,得到通道数为512的高级语义特征图;
将所述第二特征图和高级语义特征图进行差分操作,得到第二初始雾天信息特征图,所述的差分操作为第二特征图和高级语义特征图进行对应像素位置相减操作,具体为第二特征图减去高级语义特征图,得到第二初始雾天信息特征图;
将所述第二初始雾天信息特征图输入到第二雾先验引导表征学习过程的第二雾先验预测模块中,得到第二雾天信息图,所述第二雾先验预测模块包括一层梯度反转层和四层卷积层,梯度反转层的权重是-0.1,从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图,卷积层的卷积核尺寸均为3×3,最后经过卷积核为1×1的卷积操作,得到通道数为1的第二雾天信息图。
本发明技术方案的进一步改进在于:将所述得到的第二雾天信息图与真实雾先验特征图进行第二雾先验损失计算,第二雾先验损失lhaze-2计算公式为:
式中,xi为第i个样本,H2(·)是第二雾先验预测模块,R2(·)是第二残差细节特征恢复模块,F2(·)是C2块,F3(·)是C3块,Ffh(·)是频域嵌入注意模块,σ(xi)为第i个样本的真实雾先验特征图。
本发明技术方案的进一步改进在于:所述密度图回归模块依次为三层卷积层,前两个卷积层的卷积核尺寸为3×3,最后一层卷积核尺寸为1×1,各所述卷积层的通道数由输入至输出方向依次为256、128和1,输出特征图即为估计人群密度图。
本发明技术方案的进一步改进在于:在人群计数前,利用若干张雾天场景图像和真实人群密度图对雾先验频域注意表征引导的雾天图像人群计数模型进行训练,使得雾先验频域注意表征引导的雾天图像人群计数模型的总损失函数L损失最小,即训练完成;
所述总损失函数L表示为:
L=lc+0.0001×lhaze-1+0.005×lhaze-2
其中,lhaze-1为第一雾先验损失;
lhaze-2为第二雾先验损失;
lc为人群计数损失,即将估计人群密度图和真实人群数量标签做人群计数损失计算,表示为:
式中,Γ(·)是l1距离函数,E[Cn]表示第n个人的计数期望,Dest表示估计的密度图,p(yn|xm)表示每个像素出现人的后验概率,N(xm:;zn212×2)表示在xm处评估的二维高斯分布,xm表示每个目标在图像中的位置分布,yn表示目标标签,M表示每个密度图里的像素数量,N表示每张图像训练样本的总人数。
由于采用了上述技术方案,本发明取得的技术进步是:
本发明通过设计“初始特征提取-残差细节恢复-差分-雾先验预测”过程实现在不同层次特征上的雾先验引导高效表征学习进而达到引导计数模型过滤雾信息干扰及增强雾天人群特征建模精准度的技术效果。通过设计“频域嵌入+多维注意增强”的频域嵌入注意模块实现雾天场景图像中人群边缘特征、纹理特征和结构特征等在以频域空间为代表的多维方向特征恢复及注意力增强的技术效果。通过在人群计数特征提取阶段设计雾先验引导表征学习过程和频域嵌入注意模块部分实现对雾天信息精准量化提取过滤及频域多维人群特征建模,进而降低户外场景中雾因素对人群计数特征提取过程的负面影响,从而提升人群计数方法在恶劣天气户外场景中的鲁棒性和普适性。
附图说明
图1是本发明的流程图;
图2是本发明雾先验引导表征学习过程(包括残差细节特征恢复模块和雾先验预测模块结构)示意图;
图3是本发明频域嵌入注意模块整体结构示意图;
图4是本发明雾先验频域注意表征引导的雾天图像人群计数模型的示意图。
具体实施方式
本发明的目的是提供一种雾先验频域注意表征引导的雾天图像人群计数方法,通过雾先验引导表征学习过程对雾天场景中的雾天信息进行量化建模及过滤,从而降低雾天因素对人群计数特征提取阶段的干扰,并利用频域嵌入注意模块在频域、空间和通道方向对雾天场景下人群特征信息进行提取,从而实现精准鲁棒的人群计数。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种雾先验频域注意表征引导的雾天图像人群计数方法流程图。如图1所示,一种雾先验频域注意表征引导的雾天图像人群计数方法包括:
S1:将雾天场景图像输入C1块,得到第一初始特征图。
所述的C1块包括八层卷积层和三层池化层,所述C1块从输入依次为:两层卷积层、一层池化层、两层卷积层、一层池化层、四层卷积层和一层池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为64、64、128、128、256、256、256和256的特征图,各所述池化层是步长为2的最大池化层。
S2:将所述的第一初始特征图输入第一雾先验引导表征学习过程,得到第一中间特征图和第一雾天信息图;
S21:所述的第一雾先验引导表征学习过程包括C2块、第一残差细节特征恢复模块和第一雾先验预测模块;
S22:将S1得到的第一初始特征图输入到第一雾先验引导表征学习过程的C2块中,得到第二初始特征图,所述C2块依次包括四层卷积层和一层池化层,所述C2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图,每层卷积层的卷积核尺寸为3×3,池化层为步长为2的最大池化层。
S23:将第二初始特征图输入到第一雾先验引导表征学习过程的第一残差细节特征恢复模块中,得到第一特征图,所述第一残差细节特征恢复模块依次包括一层池化层和三层卷积层,池化层是步长为2的最大池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图,将第二初始特征图输入池化层得到第一池化特征图,将第一池化特征图输入到三层卷积层中,得到第一卷积特征图,将第一池化特征图和第一卷积特征图进行对应像素位置相加操作,得到第一特征图;
S24:第二初始特征图与第一特征图进行通道连接,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到第一中间特征图;
S25:第一特征图与第一中间特征图进行差分操作,得到第一初始雾天信息特征图,所述的差分操作为第一特征图与第一中间特征图进行对应像素位置相减操作,具体为第一特征图减去第一中间特征图,得到第一初始雾天信息特征图;
S26:将第一初始雾天信息特征图输入到第一雾先验引导表征学习过程的第一雾先验预测模块中,得到第一雾天信息图,所述第一雾先验预测模块包括一层梯度反转层和四层卷积层,梯度反转层的权重是-0.1,从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图,其中卷积层的卷积核尺寸均为3×3,最后经过卷积核为1×1的卷积操作,将通道数从512降维到1,得到第一雾天信息图;
S27:将得到的第一雾天信息图与真实雾先验特征图进行第一雾先验损失计算,第一雾先验损失lhaze-1计算公式为:
式中,xi为第i个样本,N为雾天人群图像训练样本数量,H1(·)是第一雾先验预测模块,R1(·)是第一残差细节特征恢复模块,F1(·)是C1块,f1是第一中间特征图,σ(xi)为第i个样本的真实雾先验特征图。
S3:将所述的第一中间特征图输入到第二雾先验引导表征学习过程,得到高级语义特征图和第二雾天信息图;
S31:所述的第二雾先验引导表征学习过程包括C3块、频域嵌入注意模块、第二残差细节特征恢复模块和第二雾先验预测模块;
S32:将S24得到的第一中间特征图输入到第二雾先验引导表征学习过程的C3块中,得到第三初始特征图,所述C3块依次包括四层卷积层和一层池化层,所述C2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图,每层卷积层的卷积核尺寸为3×3,池化层为步长为2的最大池化层。
S33:将S24得到的第一中间特征图输入到第二雾先验引导表征学习过程的第二残差细节特征恢复模块中,得到第二特征图,所述第二残差细节特征恢复模块包括一层池化层和三层卷积层,池化层是步长为2的最大池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图,将第一中间特征图输入池化层得到第二池化特征图,将第二池化特征图输入到三层卷积层中,得到第二卷积特征图,将第二池化特征图和第二卷积特征图进行对应像素位置相加操作,得到第二特征图;
S34:将第三初始特征图与第二特征图进行通道连接,并使用卷积核为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到第二中间特征图;
S35:将第二中间特征图输入到频域嵌入注意模块,所述的频域嵌入注意模块包括:频域注意力聚合块、空间-像素注意力聚合块和通道注意力聚合块;
将第二中间特征图输入到频域嵌入注意模块的频域注意力聚合块中,得到频域注意特征图,所述频域注意力聚合块包括离散小波变换、上采样、一层卷积核为1×1的卷积层和Sigmoid函数,经过离散小波变换,将第二中间特征图在频域上分解为低频分量、水平高频分量、垂直高频分量和对角高频分量,分量的通道数均为512,水平高频分量、垂直高频分量和对角高频分量进行通道连接,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1536降维到512,接着进行上采样,将降维后的特征图的长和宽都扩大为原来的两倍,然后进行一层卷积核为1×1的卷积操作和Sigmoid操作,得到通道数为512的频域注意特征图;
将第二中间特征图输入到频域嵌入注意模块的空间-像素注意力聚合块中,得到空间-像素注意特征图,所述空间-像素注意力聚合块包括空间注意力部分和像素注意力部分,所述的空间注意力部分包括并列池化层结构、一层卷积层和Sigmoid函数,并列池化层结构包括一层最大池化层和一层平均池化层,将尺寸为C×h×w的第二中间特征图分别输入到并列池化层结构的最大池化层和平均池化层,得到尺寸为1×h×w的空间最大池化特征图和尺寸1×h×w的空间平均池化特征图,将这两个特征图进行拼接得到尺寸为2×h×w特征图,然后经过卷积核为1×1的卷积层和Sigmoid函数得到通道数为512的空间注意加权特征图,将第二中间特征图和空间注意加权特征图进行逐元素相乘,得到空间注意特征图,将空间注意特征图输入到像素注意力部分,像素注意力部分依次为一层卷积核为3×3的卷积层、Sigmoid函数和一层卷积核为3×3的卷积层,得到通道数为512的像素注意加权特征图,然后将像素注意加权特征图与空间注意特征图进行逐元素相乘,得到通道数为512的空间-像素注意特征图;
将频域注意特征图和空间-像素注意特征图在通道维度上相加,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到频域-空间-像素注意特征图;
将频域-空间-像素注意特征图输入到频域嵌入注意模块的通道注意力聚合块中,得到高级语义特征图,所述通道注意力聚合块包括并列池化部分、两个全连接层和Sigmoid函数,并列池化部分为一层最大池化层和一层平均池化层,将频域-空间-像素注意特征图分别输入到并列池化部分的最大池化层和平均池化层进行池化操作,得到尺寸为C×1×1的通道最大池化结果和尺寸为C×1×1的通道平均池化结果,将通道最大池化结果和通道平均池化结果进行对应位置元素相加,然后输入到全连接层和Sigmoid函数中,第一个全连接层的神经元个数为32,第二个全连接层的神经元个数为512,得到通道数为512的通道注意加权特征图,将通道注意加权特征图和频域-空间-像素注意特征图进行逐元素相乘,得到通道数为512的高级语义特征图。
S36:将第二特征图和高级语义特征图进行差分操作,得到第二初始雾天信息特征图,所述的差分操作为第二特征图和高级语义特征图进行对应像素位置相减操作,具体为第二特征图减去高级语义特征图,得到第二初始雾天信息特征图;
S37:将第二初始雾天信息特征图输入到第二雾先验引导表征学习过程的第二雾先验预测模块中,得到第二雾天信息图,所述第二雾先验预测模块包括一层梯度反转层和四层卷积层,梯度反转层的权重是-0.1,从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图,卷积层的卷积核尺寸均为3×3,最后经过卷积核为1×1的卷积操作,得到通道数为1的第二雾天信息图;
S38:将得到的第二雾天信息图与真实雾先验特征图进行第二雾先验损失计算,第二雾先验损失lhaze-2计算公式为:
式中,xi为第i个样本,H2(·)是第二雾先验预测模块,R2(·)是第二残差细节特征恢复模块,F2(·)是C2块,F3(·)是C3块,Ffh(·)是频域嵌入注意模块,σ(xi)为第i个样本的真实雾先验特征图。
S4:将所述的高级语义特征图输入密度图回归模块,进行密度图回归,得到估计人群密度图。
所述S4中密度图回归模块依次为三层卷积层,前两个卷积层的卷积核尺寸为3×3,最后一层卷积核尺寸为1×1,各所述卷积层的通道数由输入至输出方向依次为256、128和1,输出特征图即为估计人群密度图。
S5:将所述估计人群密度图的像素值求和,得到估计人群计数结果。
将所述的估计的人群密度图进行像素求和,得到估计的人数,将估计人群密度图和真实人群数量标签做人群计数损失计算,人群计数损失lc表示为:
式中,Γ(·)是l1距离函数,E[Cn]表示第n个人的计数期望,Dest表示估计的密度图,p(yn|xm)表示每个像素出现人的后验概率,N(xm:;zn212×2)表示在xm处评估的二维高斯分布,xm表示每个目标在图像中的位置分布,yn表示目标标签,M表示每个密度图里的像素数量,N表示每张图像训练样本的总人数。
建立雾先验频域注意表征引导的雾天图像人群计数模型的总损失函数L表示为:
L=lc+0.0001×lhaze-1+0.005×lhaze-2
具体地,人群计数损失lc用于衡量估计人数和真实人数的误差距离,雾先验损失lhaze-1、lhaze-2用于衡量第一雾天信息图、第二雾天信息图与真实雾先验特征图(与估计的雾天信息图对应的真实雾先验特征图)的误差距离。采用暗通道先验去雾方法对雾天场景图像生成雾传输图作为模型训练过程所需的真实雾先验特征图。
以总损失函数L最小化为目的训练模型。
下面结合本发明的具体实施例来进一步说明本发明的方案。
步骤1:获取待估计人数的雾天场景图像;
步骤2:建立雾先验频域注意表征引导的雾天图像人群计数模型,整体结构如图4所示,图4为本发明一种雾先验频域注意表征引导的雾天图像人群计数模型整体结构示意图。建立雾先验频域注意表征引导的雾天场景图像人群计数模型的过程如下:
2.1)建立C1块部分,将雾天场景图像输入到C1块后,获得第一初始特征图。这一阶段从输入到输出依次包括两层卷积层、一层池化层、两层卷积层、一层池化层、四层卷积层和一层池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为64、64、128、128、256、256、256和256的特征图,各所述池化层是步长为2的最大池化层。
2.2)建立第一雾先验引导表征学习过程,第一雾先验引导表征学习过程包括C2块、第一残差细节特征恢复模块和第一雾先验预测模块,第一残差细节特征恢复模块和第一雾先验预测模块的结构如图2所示。
2.2.1)建立第一雾先验引导表征学习过程的C2块,接收2.1)中第一初始特征图作为输入,经过C2块,得到第二初始特征图。C2块依次包括四层卷积层和一层池化层,所述C2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图,每层卷积层的卷积核尺寸为3×3,池化层为步长为2的最大池化层。
2.2.2)建立第一雾先验引导表征学习过程的第一残差细节特征恢复模块,接收2.2.1)中第二初始特征图作为输入,经过第一残差细节特征恢复模块,得到第一特征图。第一残差细节特征恢复模块从输入到输出包括一层池化层和三层卷积层,池化层是步长为2的最大池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图,将第二初始特征图输入池化层得到第一池化特征图,将第一池化特征图输入到三层卷积层中,得到第一卷积特征图,将第一池化特征图和第一卷积特征图进行对应像素位置相加操作,得到第一特征图。
2.2.3)建立第一雾先验引导表征学习过程的第一雾先验预测模块的输入,接收2.2.1)中第二初始特征图作为输入,与2.2.2)的第一特征图进行通道连接,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到第一中间特征图。将第一特征图与第一中间特征图进行差分操作,得到第一初始雾天信息特征图,所述的差分操作为第一特征图与第一中间特征图进行对应像素位置相减操作,具体为第一特征图减去第一中间特征图,得到第一初始雾天信息特征图。
2.2.4)建立第一雾先验引导表征学习过程的第一雾先验预测模块,接收2.2.3)中第一初始雾天信息特征图作为输入,第一雾先验预测模块从输入到输出包括一层梯度反转层和四层卷积层,梯度反转层的权重是-0.1,从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图,其中卷积核尺寸均为3×3,最后经过卷积核为1×1的卷积操作,将通道数从512降维到1,得到第一雾天信息图。
2.3)建立第二雾先验引导表征学习过程,第二雾先验引导表征学习过程包括C3块、频域嵌入注意模块、第二残差细节特征恢复模块和第二雾先验预测模块,第二残差细节特征恢复模块和第二雾先验预测模块的结构如图2所示,频域嵌入注意模块的具体结构如图3所示。
2.3.1)建立第二雾先验引导表征学习过程的C3块,接收2.2.3)中第一中间特征图作为输入,经过C3块得到第三初始特征图。C3块依次包括四层卷积层和一层池化层,所述C3块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图,每层卷积层的卷积核尺寸为3×3,池化层为步长为2的最大池化层。
2.3.2)建立第二雾先验引导表征学习过程的第二残差细节特征恢复模块,接收2.2.3)中的第一中间特征图作为输入,经过第二残差细节特征恢复模块,得到第二特征图;第二残差细节特征恢复模块从输入到输出包括一层池化层和三层卷积层,池化层是步长为2的最大池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图,将第一中间特征图输入池化层得到第二池化特征图,将第二池化特征图输入到三层卷积层中,得到第二卷积特征图,将第二池化特征图和第二卷积特征图进行对应像素位置相加操作,得到第二特征图。
2.3.3)建立第二雾先验引导表征学习过程的频域嵌入注意模块的输入,接收2.3.1)中第三初始特征图作为输入与2.3.2)的第二特征图进行通道连接,并使用卷积核为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到第二中间特征图。
2.3.4)建立频域嵌入注意模块,其具体结构如图3所示,频域嵌入注意模块包括频域注意力聚合块、空间-像素注意力聚合块和通道注意力聚合块。
建立频域嵌入注意模块的频域注意力聚合块,接收2.3.3)中第二中间特征图作为输入,经过频域注意力聚合块,得到频域注意特征图。频域注意力聚合块从输入到输出包括离散小波变换、上采样、一层卷积核为1×1的卷积层和Sigmoid函数,经过离散小波变换,第二中间特征图在频域上分解为低频分量、水平高频分量、垂直高频分量和对角高频分量,分量的通道数均为512,水平高频分量、垂直高频分量和对角高频分量进行通道连接,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1536降维到512,接着进行上采样,将降维后的特征图的长和宽都扩大为原来的两倍,然后进行一层卷积核为1×1的卷积操作和Sigmoid操作,得到通道数为512的频域注意特征图。
建立频域嵌入注意模块的空间-像素注意力聚合块,接收2.3.3)中第二中间特征图作为输入,经过空间-像素注意力聚合块,得到空间-像素注意特征图。所述的空间注意力部分包括并列池化层结构、一层卷积层和Sigmoid函数,并列池化层结构包括一层最大池化层和一层平均池化层,将尺寸为C×h×w的第二中间特征图分别输入到并列池化层结构的最大池化层和平均池化层,得到尺寸为1×h×w的空间最大池化特征图和尺寸为1×h×w的空间平均池化特征图,将这两个特征图进行拼接得到尺寸为2×h×w的特征图,然后经过卷积核为1×1的卷积层和Sigmoid函数得到通道数为512的空间注意加权特征图,将第二中间特征图和空间注意加权特征图进行逐元素相乘,得到空间注意特征图,将空间注意特征图输入到像素注意力部分,像素注意力部分依次为一层卷积核为3×3的卷积层、Sigmoid函数和一层卷积核为3×3的卷积层,得到通道数为512的像素注意加权特征图,然后将像素注意加权特征图与空间注意特征图进行逐元素相乘,得到通道数为512的空间-像素注意特征图。
建立频域嵌入注意模块中通道注意力聚合块的输入,接收频域注意特征图和空间-像素注意特征图进行通道连接,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到频域-空间-像素注意特征图。
建立频域嵌入注意模块的通道注意力聚合块,接收频域-空间-像素注意特征图作为输入,经过通道注意力聚合块,得到高级语义特征图。通道注意力聚合块从输入到输出包括并列池化部分、两个全连接层和Sigmoid函数,并列池化部分为一层最大池化层和一层平均池化层,将频域-空间-像素注意特征图分别输入到并列池化部分的最大池化层和平均池化层进行池化操作,得到C×1×1的通道最大池化结果和C×1×1的通道平均池化结果,将通道最大池化结果和通道平均池化结果进行对应位置元素相加,然后输入到全连接层和Sigmoid函数中,第一个全连接层的神经元个数为32,第二个全连接层的神经元个数为512,得到通道数为512的通道注意加权特征图,将通道注意加权特征图和频域-空间-像素注意特征图进行逐元素相乘,得到通道数为512的高级语义特征图。
2.3.6)建立第二雾先验引导表征学习过程的第二雾先验预测模块的输入,接收2.3.2)的第二特征图与接收2.3.5)中高级语义特征图作为输入,将第二特征图与高级语义特征图进行差分操作,所述的差分操作为第二特征图与高级语义特征图进行对应像素位置相减操作,具体为第二特征图减去高级语义特征图,得到第二初始雾天信息特征图。
2.3.7)建立第二雾先验引导表征学习过程的第二雾先验预测模块,接收2.3.6)中第二初始雾天信息特征图作为输入,第二雾先验预测模块从输入到输出包括一层梯度反转层和四层卷积层,梯度反转层的权重是-0.1,从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图,卷积层的卷积核尺寸均为3×3,最后经过卷积核为1×1的卷积操作,得到第二雾天信息图。
2.4)建立密度图回归模块,接收2.3.4)中高级语义特征图作为输入,输入至建立的密度图回归模块,得到估计人群密度图。密度图回归模块从输入到输出方向依次为三层卷积层,前两个卷积层的卷积核尺寸为3×3,最后一层卷积核尺寸为1×1,各所述卷积层的通道数由输入至输出方向依次为256、128和1,输出特征图即为估计人群密度图,将估计人群密度图进行像素相加,得到估计人数。
2.5)在建立的一种雾先验频域注意表征引导的雾天图像人群计数模型使用前,需利用若干张雾天场景图像和真实人群密度图对建立的模型进行训练,训练过程中使用贝叶斯损失作为真实人群密度图和生成的人群密度图的损失函数,使用两个雾先验损失作为真实雾先验图和生成的雾先验图的损失函数,总损失函数为L=lc+0.0001×lhaze-1+0.005×lhaze-2,使L损失最小,训练步骤如下:
建立的一种雾先验频域注意表征引导的雾天图像人群计数模型,所建立模型中C1-C3块的参数由VGG-19前十六层卷积层初始化,其他模型参数随机设定一个初始值,在每次使用模型得到图像样本的生成人群密度图之后,根据总损失函数L对比真实人群密度图和生成人群密度图以及真实雾先验图和生成的雾先验图确定模型的每一次迭代误差,将模型每一次的误差反向传播,调整所述人群计数模型的参数,对所述一种雾先验频域注意表征引导的雾天图像人群计数模型进行优化。采用Adam优化算法在每一次优化迭代中更新参数,直到损失函数收敛到一个较小的值,保存参数及训练后的模型。
使用训练后的雾天场景图像人群计数模型对任意输入的雾天场景图像进行人群计数,将任意单张图像直接输入到人群计数模型中,即可得到人群计数结果。

Claims (8)

1.一种雾先验频域注意表征引导的雾天图像人群计数方法,其特征在于:建立雾先验频域注意表征引导的雾天图像人群计数模型,将待估计人数的雾天场景图像输入雾天图像人群计数模型进行人群计数;具体操作包括如下步骤:
S1、将雾天场景图像输入到C1块中,得到第一初始特征图;所述C1块包括八层卷积层和三层池化层;
S2、将所述的第一初始特征图输入第一雾先验引导表征学习过程,得到第一中间特征图和第一雾天信息图;
所述S2的具体操作如下:
所述第一雾先验引导表征学习过程包括C2块、第一残差细节特征恢复模块和第一雾先验预测模块;
将所述第一初始特征图输入到第一雾先验引导表征学习过程的C2块中,得到第二初始特征图;所述C2块依次包括四层卷积层和一层池化层;
将所述第二初始特征图输入到第一雾先验引导表征学习过程的第一残差细节特征恢复模块中,得到第一特征图;所述第一残差细节特征恢复模块依次包括一层池化层和三层卷积层;
将所述第二初始特征图与第一特征图进行通道连接,进行通道降维操作,得到第一中间特征图;
将所述第一特征图与第一中间特征图进行差分操作,得到第一初始雾天信息特征图;
将所述第一初始雾天信息特征图输入到第一雾先验引导表征学习过程的第一雾先验预测模块中,得到第一雾天信息图,所述第一雾先验预测模块包括一层梯度反转层和四层卷积层;
将得到的第一雾天信息图与真实雾先验特征图进行第一雾先验损失lhaze-1计算;
S3、将所述的第一中间特征图输入到第二雾先验引导表征学习过程,得到高级语义特征图和第二雾天信息图;
所述S3的具体操作为:
所述第二雾先验引导表征学习过程包括C3块、频域嵌入注意模块、第二残差细节特征恢复模块和第二雾先验预测模块;
将所述第一中间特征图输入到第二雾先验引导表征学习过程的C3块中,得到第三初始特征图;所述C3块依次包括四层卷积层和一层池化层;
将所述第一中间特征图输入到第二雾先验引导表征学习过程的第二残差细节特征恢复模块中,得到第二特征图,所述第二残差细节特征恢复模块包括一层池化层和三层卷积层;
将所述第三初始特征图与第二特征图在通道维度上相加,进行通道降维操作,得到第二中间特征图;
将所述第二中间特征图输入到频域嵌入注意模块,所述的频域嵌入注意模块包括:频域注意力聚合块、空间-像素注意力聚合块和通道注意力聚合块;
将所述第二中间特征图输入到频域嵌入注意模块的频域注意力聚合块中,得到频域注意特征图;所述频域注意力聚合块包括离散小波变换、上采样、一层卷积核为1×1的卷积层和Sigmoid函数;
将所述第二中间特征图输入到频域嵌入注意模块的空间-像素注意力聚合块中,得到空间-像素注意特征图,所述空间-像素注意力聚合块包括空间注意力部分和像素注意力部分;
将所述频域注意特征图和空间-像素注意特征图在通道维度上相加,进行通道降维操作,得到频域-空间-像素注意特征图;
将所述频域-空间-像素注意特征图输入到频域嵌入注意模块的通道注意力聚合块中,得到高级语义特征图,所述通道注意力聚合块包括并列池化部分、两个全连接层和Sigmoid函数;
将所述第二特征图和高级语义特征图进行差分操作,得到第二初始雾天信息特征图;
将所述第二初始雾天信息特征图输入到第二雾先验引导表征学习过程的第二雾先验预测模块中,得到第二雾天信息图;所述第二雾先验预测模块包括一层梯度反转层和四层卷积层;
将所述得到的第二雾天信息图与真实雾先验特征图进行第二雾先验损失lhaze-2计算;
S4、将所述的高级语义特征图输入密度图回归模块,进行密度图回归,得到估计人群密度图;所述密度图回归模块依次为三层卷积层;
S5、将所述的估计人群密度图的像素值求和,得到估计人群计数结果;
在人群计数前,利用若干张雾天场景图像和真实人群密度图对雾先验频域注意表征引导的雾天图像人群计数模型进行训练,使得雾先验频域注意表征引导的雾天图像人群计数模型的总损失函数L损失最小,即训练完成。
2.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法,其特征在于:所述C1块从输入依次为:两层卷积层、一层池化层、两层卷积层、一层池化层、四层卷积层和一层池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为64、64、128、128、256、256、256和256的特征图,各所述池化层是步长为2的最大池化层。
3.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法,其特征在于:所述步骤2中:
所述C2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图,每层卷积层的卷积核尺寸为3×3,池化层为步长为2的最大池化层;
所述第一残差细节特征恢复模块中池化层是步长为2的最大池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图,将第二初始特征图输入池化层得到第一池化特征图,将第一池化特征图输入到三层卷积层中,得到第一卷积特征图,将第一池化特征图和第一卷积特征图进行对应像素位置相加操作,得到第一特征图;
第一中间特征图得到过程中的通道降维操作具体为使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512;
所述的差分操作为第一特征图与第一中间特征图进行对应像素位置相减操作,具体为第一特征图减去第一中间特征图,得到第一初始雾天信息特征图;
所述第一雾先验预测模块中梯度反转层的权重是-0.1,从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图,其中卷积层的卷积核尺寸均为3×3,最后经过卷积核为1×1的卷积操作,将通道数从512降维到1,得到第一雾天信息图。
4.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法,其特征在于:所述步骤S2中第一雾先验损失lhaze-1计算公式为:
式中,xi为第i个样本,N为雾天人群图像训练样本数量,H1(·)是第一雾先验预测模块,R1(·)是第一残差细节特征恢复模块,F1(·)是C1块,f1是第一中间特征图,σ(xi)为第i个样本的真实雾先验特征图。
5.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法,其特征在于:所述S3中:
所述C3块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图,每层卷积层的卷积核尺寸为3×3,池化层为步长为2的最大池化层;
所述第二残差细节特征恢复模块中,池化层是步长为2的最大池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图,将第一中间特征图输入池化层得到第二池化特征图,将第二池化特征图输入到三层卷积层中,得到第二卷积特征图,将第二池化特征图和第二卷积特征图进行对应像素位置相加操作,得到第二特征图;
第二中间特征图得到过程中使用卷积核为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512;
所述频域注意力聚合块经过离散小波变换,将第二中间特征图在频域上分解为低频分量、水平高频分量、垂直高频分量和对角高频分量,分量的通道数均为512,水平高频分量、垂直高频分量和对角高频分量进行通道连接,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1536降维到512,接着进行上采样,将降维后的特征图的长和宽都扩大为原来的两倍,然后进行一层卷积核为1×1的卷积操作和Sigmoid操作,得到通道数为512的频域注意特征图;
所述的空间注意力部分包括并列池化层结构、一层卷积层和Sigmoid函数,并列池化层结构包括一层最大池化层和一层平均池化层,将尺寸为C×h×w的第二中间特征图分别输入到并列池化层结构的最大池化层和平均池化层,得到尺寸为1×h×w的空间最大池化特征图和尺寸为1×h×w的空间平均池化特征图,将这两个特征图进行拼接得到尺寸为2×h×w的特征图,然后经过卷积核为1×1的卷积层和Sigmoid函数得到通道数为512的空间注意加权特征图,将第二中间特征图和空间注意加权特征图进行逐元素相乘,得到空间注意特征图,将空间注意特征图输入到像素注意力部分,像素注意力部分依次为一层卷积核为3×3的卷积层、Sigmoid函数和一层卷积核为3×3的卷积层,得到通道数为512的像素注意加权特征图,然后将像素注意加权特征图与空间注意特征图进行逐元素相乘,得到通道数为512的空间-像素注意特征图;
频域-空间-像素注意特征图得到过程中使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512;
所述通道注意力聚合块中并列池化部分为一层最大池化层和一层平均池化层,将频域-空间-像素注意特征图分别输入到并列池化部分的最大池化层和平均池化层进行池化操作,得到C×1×1的通道最大池化结果和C×1×1的通道平均池化结果,将通道最大池化结果和通道平均池化结果进行对应位置元素相加,然后输入到全连接层和Sigmoid函数中,第一个全连接层的神经元个数为32,第二个全连接层的神经元个数为512,得到通道数为512的通道注意加权特征图,将通道注意加权特征图和频域-空间-像素注意特征图进行逐元素相乘,得到通道数为512的高级语义特征图;
所述的差分操作为第二特征图和高级语义特征图进行对应像素位置相减操作,具体为第二特征图减去高级语义特征图,得到第二初始雾天信息特征图;
所述第二雾先验预测模块中梯度反转层的权重是-0.1,从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图,卷积层的卷积核尺寸均为3×3,最后经过卷积核为1×1的卷积操作,得到通道数为1的第二雾天信息图。
6.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法,其特征在于:所述第二雾先验损失lhaze-2计算公式为:
式中,xi为第i个样本,H2(·)是第二雾先验预测模块,R2(·)是第二残差细节特征恢复模块,F2(·)是C2块,F3(·)是C3块,Ffh(·)是频域嵌入注意模块,σ(xi)为第i个样本的真实雾先验特征图。
7.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法,其特征在于:所述密度图回归模块中前两个卷积层的卷积核尺寸为3×3,最后一层卷积核尺寸为1×1,各所述卷积层的通道数由输入至输出方向依次为256、128和1,输出特征图即为估计人群密度图。
8.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法,其特征在于:所述总损失函数L表示为:
L=lc+0.0001×lhaze-1+0.005×lhaze-2
其中,lhaze-1为第一雾先验损失;
lhaze-2为第二雾先验损失;
lc为人群计数损失,即将估计人群密度图和真实人群数量标签做人群计数损失计算,表示为:
式中,Γ(·)是l1距离函数,E[Cn]表示第n个人的计数期望,Dest表示估计的密度图,p(yn|xm)表示每个像素出现人的后验概率,N(xm;zn212×2)表示在xm处评估的二维高斯分布,xm表示每个目标在图像中的位置分布,yn表示目标标签,M表示每个密度图里的像素数量,N表示每张图像训练样本的总人数。
CN202311082649.8A 2023-08-25 2023-08-25 一种雾先验频域注意表征引导的雾天图像人群计数方法 Active CN117253184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311082649.8A CN117253184B (zh) 2023-08-25 2023-08-25 一种雾先验频域注意表征引导的雾天图像人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311082649.8A CN117253184B (zh) 2023-08-25 2023-08-25 一种雾先验频域注意表征引导的雾天图像人群计数方法

Publications (2)

Publication Number Publication Date
CN117253184A CN117253184A (zh) 2023-12-19
CN117253184B true CN117253184B (zh) 2024-05-17

Family

ID=89128485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311082649.8A Active CN117253184B (zh) 2023-08-25 2023-08-25 一种雾先验频域注意表征引导的雾天图像人群计数方法

Country Status (1)

Country Link
CN (1) CN117253184B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935156A (zh) * 2024-01-24 2024-04-26 燕山大学 一种基于图像自适应恢复的雾天场景人群计数系统及方法

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数系统及方法
CN111985381A (zh) * 2020-08-13 2020-11-24 杭州电子科技大学 一种基于伸缩卷积神经网络的引导区域密集人群计数方法
CN112733714A (zh) * 2021-01-11 2021-04-30 北京大学 一种基于vgg网络的自动人群计数图像识别方法
CN112784685A (zh) * 2020-12-28 2021-05-11 山东师范大学 基于多尺度引导注意力机制网络的人群计数方法及系统
CN112818904A (zh) * 2021-02-22 2021-05-18 复旦大学 一种基于注意力机制的人群密度估计方法及装置
CN113239904A (zh) * 2021-07-09 2021-08-10 南京理工大学 基于卷积神经网络的高分辨率密集目标计数方法
CN113283356A (zh) * 2021-05-31 2021-08-20 上海应用技术大学 多级注意力尺度感知人群计数方法
CN113361374A (zh) * 2021-06-02 2021-09-07 燕山大学 一种人群密度估计方法及系统
CN113516029A (zh) * 2021-04-28 2021-10-19 上海科技大学 基于部分标注的图像人群计数方法、装置、介质及终端
CN113536925A (zh) * 2021-06-15 2021-10-22 杭州电子科技大学 一种基于引导注意力机制的人群计数方法
CN114399728A (zh) * 2021-12-17 2022-04-26 燕山大学 一种雾天场景人群计数方法
CN114663309A (zh) * 2022-03-23 2022-06-24 山东大学 一种基于多尺度信息选择注意机制的图像去雾方法及系统
CN114694102A (zh) * 2022-04-24 2022-07-01 杭州电子科技大学 一种基于多尺度空间引导感知聚合网络的人群计数方法
CN114742719A (zh) * 2022-03-14 2022-07-12 西北大学 一种基于多特征融合的端到端图像去雾方法
WO2022174517A1 (zh) * 2021-02-19 2022-08-25 平安科技(深圳)有限公司 一种人群计数方法、装置、计算机设备及存储介质
CN115170410A (zh) * 2022-06-17 2022-10-11 中国科学院自动化研究所 融合小波变换和注意力机制的图像增强方法及装置
CN115424026A (zh) * 2022-08-11 2022-12-02 中国人民解放军国防科技大学 一种基于知识嵌入的端到端雾天图像多目标检测模型
CN115775211A (zh) * 2022-11-09 2023-03-10 安庆师范大学 基于双树复小波变换与卷积神经网络的高频信息共享图像去噪方法及系统
CN115775376A (zh) * 2022-12-28 2023-03-10 广东工业大学 一种基于低光图像增强的人群计数方法
CN116012768A (zh) * 2022-08-03 2023-04-25 通号智慧城市研究设计院有限公司 人群密度检测方法、装置、电子设备及计算机存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241895B (zh) * 2018-08-28 2021-06-04 北京航空航天大学 密集人群计数方法及装置

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数系统及方法
CN111985381A (zh) * 2020-08-13 2020-11-24 杭州电子科技大学 一种基于伸缩卷积神经网络的引导区域密集人群计数方法
CN112784685A (zh) * 2020-12-28 2021-05-11 山东师范大学 基于多尺度引导注意力机制网络的人群计数方法及系统
CN112733714A (zh) * 2021-01-11 2021-04-30 北京大学 一种基于vgg网络的自动人群计数图像识别方法
WO2022174517A1 (zh) * 2021-02-19 2022-08-25 平安科技(深圳)有限公司 一种人群计数方法、装置、计算机设备及存储介质
CN112818904A (zh) * 2021-02-22 2021-05-18 复旦大学 一种基于注意力机制的人群密度估计方法及装置
CN113516029A (zh) * 2021-04-28 2021-10-19 上海科技大学 基于部分标注的图像人群计数方法、装置、介质及终端
CN113283356A (zh) * 2021-05-31 2021-08-20 上海应用技术大学 多级注意力尺度感知人群计数方法
CN113361374A (zh) * 2021-06-02 2021-09-07 燕山大学 一种人群密度估计方法及系统
CN113536925A (zh) * 2021-06-15 2021-10-22 杭州电子科技大学 一种基于引导注意力机制的人群计数方法
CN113239904A (zh) * 2021-07-09 2021-08-10 南京理工大学 基于卷积神经网络的高分辨率密集目标计数方法
CN114399728A (zh) * 2021-12-17 2022-04-26 燕山大学 一种雾天场景人群计数方法
CN114742719A (zh) * 2022-03-14 2022-07-12 西北大学 一种基于多特征融合的端到端图像去雾方法
CN114663309A (zh) * 2022-03-23 2022-06-24 山东大学 一种基于多尺度信息选择注意机制的图像去雾方法及系统
CN114694102A (zh) * 2022-04-24 2022-07-01 杭州电子科技大学 一种基于多尺度空间引导感知聚合网络的人群计数方法
CN115170410A (zh) * 2022-06-17 2022-10-11 中国科学院自动化研究所 融合小波变换和注意力机制的图像增强方法及装置
CN116012768A (zh) * 2022-08-03 2023-04-25 通号智慧城市研究设计院有限公司 人群密度检测方法、装置、电子设备及计算机存储介质
CN115424026A (zh) * 2022-08-11 2022-12-02 中国人民解放军国防科技大学 一种基于知识嵌入的端到端雾天图像多目标检测模型
CN115775211A (zh) * 2022-11-09 2023-03-10 安庆师范大学 基于双树复小波变换与卷积神经网络的高频信息共享图像去噪方法及系统
CN115775376A (zh) * 2022-12-28 2023-03-10 广东工业大学 一种基于低光图像增强的人群计数方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Crowd counting via Localization Guided Transformer;Lixian Yuan et al.;《Computers and Electrical Engineering》;20221116;第104卷;全文 *
CSA-Net: Cross-modal scale-aware attention-aggregated network for RGB-T crowd counting;He Li et al.;《Expert Systems with Applications》;20221029;第213卷;全文 *
Direction-aware attention aggregation for single-stage hazy-weather crowd counting;Weihang Kong et al.;《Expert Systems with Applications》;20230417;第225卷;全文 *
Feature-Aware Adaptation and Density Alignment for Crowd Counting in Video Surveillance;Junyu Gao et al.;《IEEE Transactions on Cybernetics》;20201201;全文 *
基于卷积神经网络的人群计数算法;李成龙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20230315(第2023年03期);全文 *
密集场景人群计数算法研究;姚肇亮;《中国优秀硕士学位论文全文数据库 信息科技辑》;20230115(第2023年01期);全文 *
面向密集人群计数的多尺度特征建模方法;祝鲁宁;《中国优秀硕士学位论文全文数据库 信息科技辑》;20230315(第2023年03期);全文 *

Also Published As

Publication number Publication date
CN117253184A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
Tian et al. Deep learning on image denoising: An overview
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN109035149B (zh) 一种基于深度学习的车牌图像去运动模糊方法
CN111915530B (zh) 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法
CN105657402B (zh) 一种深度图恢复方法
CN111861925B (zh) 一种基于注意力机制与门控循环单元的图像去雨方法
CN106250931A (zh) 一种基于随机卷积神经网络的高分辨率图像场景分类方法
CN104268594A (zh) 一种视频异常事件检测方法及装置
CN113962878B (zh) 一种低能见度图像去雾模型方法
CN112381897A (zh) 基于自编码网络结构的低照度图像增强方法
CN117253184B (zh) 一种雾先验频域注意表征引导的雾天图像人群计数方法
Kim et al. Deeply aggregated alternating minimization for image restoration
CN112183742A (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN113033432A (zh) 一种基于渐进监督的遥感影像居民区提取方法
CN111310767A (zh) 一种基于边界增强的显著性检测方法
CN110688966B (zh) 语义指导的行人重识别方法
CN117408924A (zh) 一种基于多重语义特征融合网络的低光照图像增强方法
Li et al. An end-to-end system for unmanned aerial vehicle high-resolution remote sensing image haze removal algorithm using convolution neural network
CN114882278A (zh) 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN112767277B (zh) 一种基于参考图像的深度特征排序去模糊方法
CN118172290A (zh) 一种基于多级自适应CNN与混合Transformer的唐卡图像修复方法、系统及存储介质
CN117350927A (zh) 一种基于深度学习的图像去雨方法
CN114419341B (zh) 一种基于迁移学习改进的卷积神经网络图像识别方法
CN116433509A (zh) 一种基于cnn和卷积lstm网络的递进式图像去雾方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant