CN117253184B

CN117253184B - 一种雾先验频域注意表征引导的雾天图像人群计数方法

Info

Publication number: CN117253184B
Application number: CN202311082649.8A
Authority: CN
Inventors: 李贺; 沈洁男; 孔维航
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2024-05-17
Anticipated expiration: 2043-08-25
Also published as: CN117253184A

Abstract

本发明公开了一种雾先验频域注意表征引导的雾天图像人群计数方法，包括如下步骤：将雾天场景图像输入到C1块中，得到第一初始特征图；将所述的第一初始特征图输入第一雾先验引导表征学习过程，得到第一中间特征图和第一雾天信息图；将所述的第一中间特征图输入到第二雾先验引导表征学习过程，得到高级语义特征图和第二雾天信息图；将所述的高级语义特征图输入密度图回归模块，进行密度图回归，得到估计人群密度图；将所述的估计人群密度图的像素值求和，得到估计人群计数结果。本发明能够显著降低户外场景中雾天气因素对人群计数特征提取过程的负面影响，从而提升人群计数方法在恶劣天气户外场景中的准确性、鲁棒性和普适性。

Description

一种雾先验频域注意表征引导的雾天图像人群计数方法

技术领域

本发明涉及一种雾先验频域注意表征引导的雾天图像人群计数方法，属于图像处理领域。

背景技术

智能视频监控技术为社会公共安全管理提供了强有力的保障。图像人群计数作为智能视频监控系统中的人群分析和人群异常检测等现实场景应用的核心理论方法之一，近年来受到了学术界和工业界的广泛关注。现有图像人群计数方法大多面向户外晴朗场景进行人群数量预测并取得显著优良效果。然而由于雾天场景中行人能见度降低、轮廓模糊、外观辨识度显著降级等问题，直接将面向晴朗场景的图像人群计数方法应用于雾天场景中会使得预测人群数量远低于人群数量真实值。已有的少量雾天场景图像人群计数方法通过建立基于密度图估计的注意力增强深度模型并用传统欧氏距离进行模型优化实现端到端的人群数量预测，忽视了雾天场景中雾因素对人群计数特征表征过程的负面影响。同时，其他可借鉴的雾天场景计算机视觉任务如雾天目标检测，常将目标任务解耦为去雾和目标检测两个阶段或转换为域适应问题，需要依赖去雾阶段的繁重手工标注或复杂域适应策略。

总的来说，已有的少量雾天场景图像人群计数方法或技术因未考虑对雾天因素进行量化分析而不能适应雾浓度剧烈变化的雾天场景进而不能保证计数性能；已有的雾天场景其他计算机视觉任务需依赖繁重标注成本或复杂域适应实现过程，难以应用于需要更高层次推理功能的雾天人群计数任务。

发明内容

本发明为解决上述技术问题，提供一种雾先验频域注意表征引导的雾天图像人群计数方法，以量化建模并精准降低户外雾天场景中雾天气因素对雾天人群计数性能的负面影响，从而实现面向户外雾天场景图像的准确人群数量预测。

为解决上述技术问题，本发明所采用的技术方案是：

一种雾先验频域注意表征引导的雾天图像人群计数方法，建立雾先验频域注意表征引导的雾天图像人群计数模型，将待估计人数的雾天场景图像输入雾天图像人群计数模型进行人群计数；具体操作包括如下步骤：

S1、将雾天场景图像输入到C1块中，得到第一初始特征图；

S2、将所述的第一初始特征图输入第一雾先验引导表征学习过程，得到第一中间特征图和第一雾天信息图；

S3、将所述的第一中间特征图输入到第二雾先验引导表征学习过程，得到高级语义特征图和第二雾天信息图；

S4、将所述的高级语义特征图输入密度图回归模块，进行密度图回归，得到估计人群密度图；

S5、将所述的估计人群密度图的像素值求和，得到估计人群计数结果。

本发明技术方案的进一步改进在于：所述C1块包括八层卷积层和三层池化层，所述C1块从输入依次为：两层卷积层、一层池化层、两层卷积层、一层池化层、四层卷积层和一层池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为64、64、128、128、256、256、256和256的特征图，各所述池化层是步长为2的最大池化层。

本发明技术方案的进一步改进在于：所述S2的具体操作如下：

所述第一雾先验引导表征学习过程包括C2块、第一残差细节特征恢复模块和第一雾先验预测模块；

将所述第一初始特征图输入到第一雾先验引导表征学习过程的C2块中，得到第二初始特征图，所述C2块依次包括四层卷积层和一层池化层，所述C2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图，每层卷积层的卷积核尺寸为3×3，池化层为步长为2的最大池化层；

将所述第二初始特征图输入到第一雾先验引导表征学习过程的第一残差细节特征恢复模块中，得到第一特征图，所述第一残差细节特征恢复模块依次包括一层池化层和三层卷积层，池化层是步长为2的最大池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图，将第二初始特征图输入池化层得到第一池化特征图，将第一池化特征图输入到三层卷积层中，得到第一卷积特征图，将第一池化特征图和第一卷积特征图进行对应像素位置相加操作，得到第一特征图；

将所述第二初始特征图与第一特征图进行通道连接，并使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512，得到第一中间特征图；

将所述第一特征图与第一中间特征图进行差分操作，得到第一初始雾天信息特征图，所述的差分操作为第一特征图与第一中间特征图进行对应像素位置相减操作，具体为第一特征图减去第一中间特征图，得到第一初始雾天信息特征图；

将所述第一初始雾天信息特征图输入到第一雾先验引导表征学习过程的第一雾先验预测模块中，得到第一雾天信息图，所述第一雾先验预测模块包括一层梯度反转层和四层卷积层，梯度反转层的权重是-0.1，从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图，其中卷积层的卷积核尺寸均为3×3，最后经过卷积核为1×1的卷积操作，将通道数从512降维到1，得到第一雾天信息图。

本发明技术方案的进一步改进在于：将得到的第一雾天信息图与真实雾先验特征图进行第一雾先验损失计算，第一雾先验损失l_haze-1计算公式为：

式中，x_i为第i个样本，N为雾天人群图像训练样本数量，H₁(·)是第一雾先验预测模块，R₁(·)是第一残差细节特征恢复模块，F₁(·)是C1块，f₁是第一中间特征图，σ(x_i)为第i个样本的真实雾先验特征图。

本发明技术方案的进一步改进在于：所述S3的具体操作为：

所述第二雾先验引导表征学习过程包括C3块、频域嵌入注意模块、第二残差细节特征恢复模块和第二雾先验预测模块；

将所述第一中间特征图输入到第二雾先验引导表征学习过程的C3块中，得到第三初始特征图，所述C3块依次包括四层卷积层和一层池化层，所述C3块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图，每层卷积层的卷积核尺寸为3×3，池化层为步长为2的最大池化层；

将所述第一中间特征图输入到第二雾先验引导表征学习过程的第二残差细节特征恢复模块中，得到第二特征图，所述第二残差细节特征恢复模块包括一层池化层和三层卷积层，池化层是步长为2的最大池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图，将第一中间特征图输入池化层得到第二池化特征图，将第二池化特征图输入到三层卷积层中，得到第二卷积特征图，将第二池化特征图和第二卷积特征图进行对应像素位置相加操作，得到第二特征图；

将所述第三初始特征图与第二特征图在通道维度上相加，并使用卷积核为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512，得到第二中间特征图；

将所述第二中间特征图输入到频域嵌入注意模块，所述的频域嵌入注意模块包括：频域注意力聚合块、空间-像素注意力聚合块和通道注意力聚合块；

将所述第二中间特征图输入到频域嵌入注意模块的频域注意力聚合块中，得到频域注意特征图，所述频域注意力聚合块包括离散小波变换、上采样、一层卷积核为1×1的卷积层和Sigmoid函数，经过离散小波变换，将第二中间特征图在频域上分解为低频分量、水平高频分量、垂直高频分量和对角高频分量，分量的通道数均为512，水平高频分量、垂直高频分量和对角高频分量进行通道连接，并使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1536降维到512，接着进行上采样，将降维后的特征图的长和宽都扩大为原来的两倍，然后进行一层卷积核为1×1的卷积操作和Sigmoid操作，得到通道数为512的频域注意特征图；

将所述第二中间特征图输入到频域嵌入注意模块的空间-像素注意力聚合块中，得到空间-像素注意特征图，所述空间-像素注意力聚合块包括空间注意力部分和像素注意力部分，所述的空间注意力部分包括并列池化层结构、一层卷积层和Sigmoid函数，并列池化层结构包括一层最大池化层和一层平均池化层，将尺寸为C×h×w的第二中间特征图分别输入到并列池化层结构的最大池化层和平均池化层，得到尺寸为1×h×w的空间最大池化特征图和尺寸为1×h×w的空间平均池化特征图，将这两个特征图进行拼接得到尺寸为2×h×w的特征图，然后经过卷积核为1×1的卷积层和Sigmoid函数得到通道数为512的空间注意加权特征图，将第二中间特征图和空间注意加权特征图进行逐元素相乘，得到空间注意特征图，将空间注意特征图输入到像素注意力部分，像素注意力部分依次为一层卷积核为3×3的卷积层、Sigmoid函数和一层卷积核为3×3的卷积层，得到通道数为512的像素注意加权特征图，然后将像素注意加权特征图与空间注意特征图进行逐元素相乘，得到通道数为512的空间-像素注意特征图；

将所述频域注意特征图和空间-像素注意特征图在通道维度上相加，并使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512，得到频域-空间-像素注意特征图；

将所述频域-空间-像素注意特征图输入到频域嵌入注意模块的通道注意力聚合块中，得到高级语义特征图，所述通道注意力聚合块包括并列池化部分、两个全连接层和Sigmoid函数，并列池化部分为一层最大池化层和一层平均池化层，将频域-空间-像素注意特征图分别输入到并列池化部分的最大池化层和平均池化层进行池化操作，得到C×1×1的通道最大池化结果和C×1×1的通道平均池化结果，将通道最大池化结果和通道平均池化结果进行对应位置元素相加，然后输入到全连接层和Sigmoid函数中，第一个全连接层的神经元个数为32，第二个全连接层的神经元个数为512，得到通道数为512的通道注意加权特征图，将通道注意加权特征图和频域-空间-像素注意特征图进行逐元素相乘，得到通道数为512的高级语义特征图；

将所述第二特征图和高级语义特征图进行差分操作，得到第二初始雾天信息特征图，所述的差分操作为第二特征图和高级语义特征图进行对应像素位置相减操作，具体为第二特征图减去高级语义特征图，得到第二初始雾天信息特征图；

将所述第二初始雾天信息特征图输入到第二雾先验引导表征学习过程的第二雾先验预测模块中，得到第二雾天信息图，所述第二雾先验预测模块包括一层梯度反转层和四层卷积层，梯度反转层的权重是-0.1，从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图，卷积层的卷积核尺寸均为3×3，最后经过卷积核为1×1的卷积操作，得到通道数为1的第二雾天信息图。

本发明技术方案的进一步改进在于：将所述得到的第二雾天信息图与真实雾先验特征图进行第二雾先验损失计算，第二雾先验损失l_haze-2计算公式为：

式中，x_i为第i个样本，H₂(·)是第二雾先验预测模块，R₂(·)是第二残差细节特征恢复模块，F₂(·)是C2块，F₃(·)是C3块，F_fh(·)是频域嵌入注意模块，σ(x_i)为第i个样本的真实雾先验特征图。

本发明技术方案的进一步改进在于：所述密度图回归模块依次为三层卷积层，前两个卷积层的卷积核尺寸为3×3，最后一层卷积核尺寸为1×1，各所述卷积层的通道数由输入至输出方向依次为256、128和1，输出特征图即为估计人群密度图。

本发明技术方案的进一步改进在于：在人群计数前，利用若干张雾天场景图像和真实人群密度图对雾先验频域注意表征引导的雾天图像人群计数模型进行训练，使得雾先验频域注意表征引导的雾天图像人群计数模型的总损失函数L损失最小，即训练完成；

所述总损失函数L表示为：

L＝l_c+0.0001×l_haze-1+0.005×l_haze-2；

其中，l_haze-1为第一雾先验损失；

l_haze-2为第二雾先验损失；

l_c为人群计数损失，即将估计人群密度图和真实人群数量标签做人群计数损失计算，表示为：

式中，Γ(·)是l₁距离函数，E[C_n]表示第n个人的计数期望，D^est表示估计的密度图，p(y_n|x_m)表示每个像素出现人的后验概率，N(x_m:；z_n,σ²1_2×2)表示在x_m处评估的二维高斯分布，x_m表示每个目标在图像中的位置分布，y_n表示目标标签，M表示每个密度图里的像素数量，N表示每张图像训练样本的总人数。

由于采用了上述技术方案，本发明取得的技术进步是：

本发明通过设计“初始特征提取-残差细节恢复-差分-雾先验预测”过程实现在不同层次特征上的雾先验引导高效表征学习进而达到引导计数模型过滤雾信息干扰及增强雾天人群特征建模精准度的技术效果。通过设计“频域嵌入+多维注意增强”的频域嵌入注意模块实现雾天场景图像中人群边缘特征、纹理特征和结构特征等在以频域空间为代表的多维方向特征恢复及注意力增强的技术效果。通过在人群计数特征提取阶段设计雾先验引导表征学习过程和频域嵌入注意模块部分实现对雾天信息精准量化提取过滤及频域多维人群特征建模，进而降低户外场景中雾因素对人群计数特征提取过程的负面影响，从而提升人群计数方法在恶劣天气户外场景中的鲁棒性和普适性。

附图说明

图1是本发明的流程图；

图2是本发明雾先验引导表征学习过程(包括残差细节特征恢复模块和雾先验预测模块结构)示意图；

图3是本发明频域嵌入注意模块整体结构示意图；

图4是本发明雾先验频域注意表征引导的雾天图像人群计数模型的示意图。

具体实施方式

本发明的目的是提供一种雾先验频域注意表征引导的雾天图像人群计数方法，通过雾先验引导表征学习过程对雾天场景中的雾天信息进行量化建模及过滤，从而降低雾天因素对人群计数特征提取阶段的干扰，并利用频域嵌入注意模块在频域、空间和通道方向对雾天场景下人群特征信息进行提取，从而实现精准鲁棒的人群计数。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种雾先验频域注意表征引导的雾天图像人群计数方法流程图。如图1所示，一种雾先验频域注意表征引导的雾天图像人群计数方法包括：

S1：将雾天场景图像输入C1块，得到第一初始特征图。

所述的C1块包括八层卷积层和三层池化层，所述C1块从输入依次为：两层卷积层、一层池化层、两层卷积层、一层池化层、四层卷积层和一层池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为64、64、128、128、256、256、256和256的特征图，各所述池化层是步长为2的最大池化层。

S2：将所述的第一初始特征图输入第一雾先验引导表征学习过程，得到第一中间特征图和第一雾天信息图；

S21：所述的第一雾先验引导表征学习过程包括C2块、第一残差细节特征恢复模块和第一雾先验预测模块；

S22：将S1得到的第一初始特征图输入到第一雾先验引导表征学习过程的C2块中，得到第二初始特征图，所述C2块依次包括四层卷积层和一层池化层，所述C2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图，每层卷积层的卷积核尺寸为3×3，池化层为步长为2的最大池化层。

S23：将第二初始特征图输入到第一雾先验引导表征学习过程的第一残差细节特征恢复模块中，得到第一特征图，所述第一残差细节特征恢复模块依次包括一层池化层和三层卷积层，池化层是步长为2的最大池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图，将第二初始特征图输入池化层得到第一池化特征图，将第一池化特征图输入到三层卷积层中，得到第一卷积特征图，将第一池化特征图和第一卷积特征图进行对应像素位置相加操作，得到第一特征图；

S24：第二初始特征图与第一特征图进行通道连接，并使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512，得到第一中间特征图；

S25：第一特征图与第一中间特征图进行差分操作，得到第一初始雾天信息特征图，所述的差分操作为第一特征图与第一中间特征图进行对应像素位置相减操作，具体为第一特征图减去第一中间特征图，得到第一初始雾天信息特征图；

S26：将第一初始雾天信息特征图输入到第一雾先验引导表征学习过程的第一雾先验预测模块中，得到第一雾天信息图，所述第一雾先验预测模块包括一层梯度反转层和四层卷积层，梯度反转层的权重是-0.1，从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图，其中卷积层的卷积核尺寸均为3×3，最后经过卷积核为1×1的卷积操作，将通道数从512降维到1，得到第一雾天信息图；

S27：将得到的第一雾天信息图与真实雾先验特征图进行第一雾先验损失计算，第一雾先验损失l_haze-1计算公式为：

S3：将所述的第一中间特征图输入到第二雾先验引导表征学习过程，得到高级语义特征图和第二雾天信息图；

S31：所述的第二雾先验引导表征学习过程包括C3块、频域嵌入注意模块、第二残差细节特征恢复模块和第二雾先验预测模块；

S32：将S24得到的第一中间特征图输入到第二雾先验引导表征学习过程的C3块中，得到第三初始特征图，所述C3块依次包括四层卷积层和一层池化层，所述C2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图，每层卷积层的卷积核尺寸为3×3，池化层为步长为2的最大池化层。

S33：将S24得到的第一中间特征图输入到第二雾先验引导表征学习过程的第二残差细节特征恢复模块中，得到第二特征图，所述第二残差细节特征恢复模块包括一层池化层和三层卷积层，池化层是步长为2的最大池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图，将第一中间特征图输入池化层得到第二池化特征图，将第二池化特征图输入到三层卷积层中，得到第二卷积特征图，将第二池化特征图和第二卷积特征图进行对应像素位置相加操作，得到第二特征图；

S34：将第三初始特征图与第二特征图进行通道连接，并使用卷积核为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512，得到第二中间特征图；

S35：将第二中间特征图输入到频域嵌入注意模块，所述的频域嵌入注意模块包括：频域注意力聚合块、空间-像素注意力聚合块和通道注意力聚合块；

将第二中间特征图输入到频域嵌入注意模块的频域注意力聚合块中，得到频域注意特征图，所述频域注意力聚合块包括离散小波变换、上采样、一层卷积核为1×1的卷积层和Sigmoid函数，经过离散小波变换，将第二中间特征图在频域上分解为低频分量、水平高频分量、垂直高频分量和对角高频分量，分量的通道数均为512，水平高频分量、垂直高频分量和对角高频分量进行通道连接，并使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1536降维到512，接着进行上采样，将降维后的特征图的长和宽都扩大为原来的两倍，然后进行一层卷积核为1×1的卷积操作和Sigmoid操作，得到通道数为512的频域注意特征图；

将第二中间特征图输入到频域嵌入注意模块的空间-像素注意力聚合块中，得到空间-像素注意特征图，所述空间-像素注意力聚合块包括空间注意力部分和像素注意力部分，所述的空间注意力部分包括并列池化层结构、一层卷积层和Sigmoid函数，并列池化层结构包括一层最大池化层和一层平均池化层，将尺寸为C×h×w的第二中间特征图分别输入到并列池化层结构的最大池化层和平均池化层，得到尺寸为1×h×w的空间最大池化特征图和尺寸1×h×w的空间平均池化特征图，将这两个特征图进行拼接得到尺寸为2×h×w特征图，然后经过卷积核为1×1的卷积层和Sigmoid函数得到通道数为512的空间注意加权特征图，将第二中间特征图和空间注意加权特征图进行逐元素相乘，得到空间注意特征图，将空间注意特征图输入到像素注意力部分，像素注意力部分依次为一层卷积核为3×3的卷积层、Sigmoid函数和一层卷积核为3×3的卷积层，得到通道数为512的像素注意加权特征图，然后将像素注意加权特征图与空间注意特征图进行逐元素相乘，得到通道数为512的空间-像素注意特征图；

将频域注意特征图和空间-像素注意特征图在通道维度上相加，并使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512，得到频域-空间-像素注意特征图；

将频域-空间-像素注意特征图输入到频域嵌入注意模块的通道注意力聚合块中，得到高级语义特征图，所述通道注意力聚合块包括并列池化部分、两个全连接层和Sigmoid函数，并列池化部分为一层最大池化层和一层平均池化层，将频域-空间-像素注意特征图分别输入到并列池化部分的最大池化层和平均池化层进行池化操作，得到尺寸为C×1×1的通道最大池化结果和尺寸为C×1×1的通道平均池化结果，将通道最大池化结果和通道平均池化结果进行对应位置元素相加，然后输入到全连接层和Sigmoid函数中，第一个全连接层的神经元个数为32，第二个全连接层的神经元个数为512，得到通道数为512的通道注意加权特征图，将通道注意加权特征图和频域-空间-像素注意特征图进行逐元素相乘，得到通道数为512的高级语义特征图。

S36：将第二特征图和高级语义特征图进行差分操作，得到第二初始雾天信息特征图，所述的差分操作为第二特征图和高级语义特征图进行对应像素位置相减操作，具体为第二特征图减去高级语义特征图，得到第二初始雾天信息特征图；

S37：将第二初始雾天信息特征图输入到第二雾先验引导表征学习过程的第二雾先验预测模块中，得到第二雾天信息图，所述第二雾先验预测模块包括一层梯度反转层和四层卷积层，梯度反转层的权重是-0.1，从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图，卷积层的卷积核尺寸均为3×3，最后经过卷积核为1×1的卷积操作，得到通道数为1的第二雾天信息图；

S38：将得到的第二雾天信息图与真实雾先验特征图进行第二雾先验损失计算，第二雾先验损失l_haze-2计算公式为：

S4：将所述的高级语义特征图输入密度图回归模块，进行密度图回归，得到估计人群密度图。

所述S4中密度图回归模块依次为三层卷积层，前两个卷积层的卷积核尺寸为3×3，最后一层卷积核尺寸为1×1，各所述卷积层的通道数由输入至输出方向依次为256、128和1，输出特征图即为估计人群密度图。

S5：将所述估计人群密度图的像素值求和，得到估计人群计数结果。

将所述的估计的人群密度图进行像素求和，得到估计的人数，将估计人群密度图和真实人群数量标签做人群计数损失计算，人群计数损失l_c表示为：

建立雾先验频域注意表征引导的雾天图像人群计数模型的总损失函数L表示为：

L＝l_c+0.0001×l_haze-1+0.005×l_haze-2

具体地，人群计数损失l_c用于衡量估计人数和真实人数的误差距离，雾先验损失l_haze-1、l_haze-2用于衡量第一雾天信息图、第二雾天信息图与真实雾先验特征图(与估计的雾天信息图对应的真实雾先验特征图)的误差距离。采用暗通道先验去雾方法对雾天场景图像生成雾传输图作为模型训练过程所需的真实雾先验特征图。

以总损失函数L最小化为目的训练模型。

下面结合本发明的具体实施例来进一步说明本发明的方案。

步骤1：获取待估计人数的雾天场景图像；

步骤2：建立雾先验频域注意表征引导的雾天图像人群计数模型，整体结构如图4所示，图4为本发明一种雾先验频域注意表征引导的雾天图像人群计数模型整体结构示意图。建立雾先验频域注意表征引导的雾天场景图像人群计数模型的过程如下：

2.1)建立C1块部分，将雾天场景图像输入到C1块后，获得第一初始特征图。这一阶段从输入到输出依次包括两层卷积层、一层池化层、两层卷积层、一层池化层、四层卷积层和一层池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为64、64、128、128、256、256、256和256的特征图，各所述池化层是步长为2的最大池化层。

2.2)建立第一雾先验引导表征学习过程，第一雾先验引导表征学习过程包括C2块、第一残差细节特征恢复模块和第一雾先验预测模块，第一残差细节特征恢复模块和第一雾先验预测模块的结构如图2所示。

2.2.1)建立第一雾先验引导表征学习过程的C2块，接收2.1)中第一初始特征图作为输入，经过C2块，得到第二初始特征图。C2块依次包括四层卷积层和一层池化层，所述C2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图，每层卷积层的卷积核尺寸为3×3，池化层为步长为2的最大池化层。

2.2.2)建立第一雾先验引导表征学习过程的第一残差细节特征恢复模块，接收2.2.1)中第二初始特征图作为输入，经过第一残差细节特征恢复模块，得到第一特征图。第一残差细节特征恢复模块从输入到输出包括一层池化层和三层卷积层，池化层是步长为2的最大池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图，将第二初始特征图输入池化层得到第一池化特征图，将第一池化特征图输入到三层卷积层中，得到第一卷积特征图，将第一池化特征图和第一卷积特征图进行对应像素位置相加操作，得到第一特征图。

2.2.3)建立第一雾先验引导表征学习过程的第一雾先验预测模块的输入，接收2.2.1)中第二初始特征图作为输入，与2.2.2)的第一特征图进行通道连接，并使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512，得到第一中间特征图。将第一特征图与第一中间特征图进行差分操作，得到第一初始雾天信息特征图，所述的差分操作为第一特征图与第一中间特征图进行对应像素位置相减操作，具体为第一特征图减去第一中间特征图，得到第一初始雾天信息特征图。

2.2.4)建立第一雾先验引导表征学习过程的第一雾先验预测模块，接收2.2.3)中第一初始雾天信息特征图作为输入，第一雾先验预测模块从输入到输出包括一层梯度反转层和四层卷积层，梯度反转层的权重是-0.1，从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图，其中卷积核尺寸均为3×3，最后经过卷积核为1×1的卷积操作，将通道数从512降维到1，得到第一雾天信息图。

2.3)建立第二雾先验引导表征学习过程，第二雾先验引导表征学习过程包括C3块、频域嵌入注意模块、第二残差细节特征恢复模块和第二雾先验预测模块，第二残差细节特征恢复模块和第二雾先验预测模块的结构如图2所示，频域嵌入注意模块的具体结构如图3所示。

2.3.1)建立第二雾先验引导表征学习过程的C3块，接收2.2.3)中第一中间特征图作为输入，经过C3块得到第三初始特征图。C3块依次包括四层卷积层和一层池化层，所述C3块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图，每层卷积层的卷积核尺寸为3×3，池化层为步长为2的最大池化层。

2.3.2)建立第二雾先验引导表征学习过程的第二残差细节特征恢复模块，接收2.2.3)中的第一中间特征图作为输入，经过第二残差细节特征恢复模块，得到第二特征图；第二残差细节特征恢复模块从输入到输出包括一层池化层和三层卷积层，池化层是步长为2的最大池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图，将第一中间特征图输入池化层得到第二池化特征图，将第二池化特征图输入到三层卷积层中，得到第二卷积特征图，将第二池化特征图和第二卷积特征图进行对应像素位置相加操作，得到第二特征图。

2.3.3)建立第二雾先验引导表征学习过程的频域嵌入注意模块的输入，接收2.3.1)中第三初始特征图作为输入与2.3.2)的第二特征图进行通道连接，并使用卷积核为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512，得到第二中间特征图。

2.3.4)建立频域嵌入注意模块，其具体结构如图3所示，频域嵌入注意模块包括频域注意力聚合块、空间-像素注意力聚合块和通道注意力聚合块。

建立频域嵌入注意模块的频域注意力聚合块，接收2.3.3)中第二中间特征图作为输入，经过频域注意力聚合块，得到频域注意特征图。频域注意力聚合块从输入到输出包括离散小波变换、上采样、一层卷积核为1×1的卷积层和Sigmoid函数，经过离散小波变换，第二中间特征图在频域上分解为低频分量、水平高频分量、垂直高频分量和对角高频分量，分量的通道数均为512，水平高频分量、垂直高频分量和对角高频分量进行通道连接，并使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1536降维到512，接着进行上采样，将降维后的特征图的长和宽都扩大为原来的两倍，然后进行一层卷积核为1×1的卷积操作和Sigmoid操作，得到通道数为512的频域注意特征图。

建立频域嵌入注意模块的空间-像素注意力聚合块，接收2.3.3)中第二中间特征图作为输入，经过空间-像素注意力聚合块，得到空间-像素注意特征图。所述的空间注意力部分包括并列池化层结构、一层卷积层和Sigmoid函数，并列池化层结构包括一层最大池化层和一层平均池化层，将尺寸为C×h×w的第二中间特征图分别输入到并列池化层结构的最大池化层和平均池化层，得到尺寸为1×h×w的空间最大池化特征图和尺寸为1×h×w的空间平均池化特征图，将这两个特征图进行拼接得到尺寸为2×h×w的特征图，然后经过卷积核为1×1的卷积层和Sigmoid函数得到通道数为512的空间注意加权特征图，将第二中间特征图和空间注意加权特征图进行逐元素相乘，得到空间注意特征图，将空间注意特征图输入到像素注意力部分，像素注意力部分依次为一层卷积核为3×3的卷积层、Sigmoid函数和一层卷积核为3×3的卷积层，得到通道数为512的像素注意加权特征图，然后将像素注意加权特征图与空间注意特征图进行逐元素相乘，得到通道数为512的空间-像素注意特征图。

建立频域嵌入注意模块中通道注意力聚合块的输入，接收频域注意特征图和空间-像素注意特征图进行通道连接，并使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512，得到频域-空间-像素注意特征图。

建立频域嵌入注意模块的通道注意力聚合块，接收频域-空间-像素注意特征图作为输入，经过通道注意力聚合块，得到高级语义特征图。通道注意力聚合块从输入到输出包括并列池化部分、两个全连接层和Sigmoid函数，并列池化部分为一层最大池化层和一层平均池化层，将频域-空间-像素注意特征图分别输入到并列池化部分的最大池化层和平均池化层进行池化操作，得到C×1×1的通道最大池化结果和C×1×1的通道平均池化结果，将通道最大池化结果和通道平均池化结果进行对应位置元素相加，然后输入到全连接层和Sigmoid函数中，第一个全连接层的神经元个数为32，第二个全连接层的神经元个数为512，得到通道数为512的通道注意加权特征图，将通道注意加权特征图和频域-空间-像素注意特征图进行逐元素相乘，得到通道数为512的高级语义特征图。

2.3.6)建立第二雾先验引导表征学习过程的第二雾先验预测模块的输入，接收2.3.2)的第二特征图与接收2.3.5)中高级语义特征图作为输入，将第二特征图与高级语义特征图进行差分操作，所述的差分操作为第二特征图与高级语义特征图进行对应像素位置相减操作，具体为第二特征图减去高级语义特征图，得到第二初始雾天信息特征图。

2.3.7)建立第二雾先验引导表征学习过程的第二雾先验预测模块，接收2.3.6)中第二初始雾天信息特征图作为输入，第二雾先验预测模块从输入到输出包括一层梯度反转层和四层卷积层，梯度反转层的权重是-0.1，从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图，卷积层的卷积核尺寸均为3×3，最后经过卷积核为1×1的卷积操作，得到第二雾天信息图。

2.4)建立密度图回归模块，接收2.3.4)中高级语义特征图作为输入，输入至建立的密度图回归模块，得到估计人群密度图。密度图回归模块从输入到输出方向依次为三层卷积层，前两个卷积层的卷积核尺寸为3×3，最后一层卷积核尺寸为1×1，各所述卷积层的通道数由输入至输出方向依次为256、128和1，输出特征图即为估计人群密度图，将估计人群密度图进行像素相加，得到估计人数。

2.5)在建立的一种雾先验频域注意表征引导的雾天图像人群计数模型使用前，需利用若干张雾天场景图像和真实人群密度图对建立的模型进行训练，训练过程中使用贝叶斯损失作为真实人群密度图和生成的人群密度图的损失函数，使用两个雾先验损失作为真实雾先验图和生成的雾先验图的损失函数，总损失函数为L＝l_c+0.0001×l_haze-1+0.005×l_haze-2，使L损失最小，训练步骤如下：

建立的一种雾先验频域注意表征引导的雾天图像人群计数模型，所建立模型中C1-C3块的参数由VGG-19前十六层卷积层初始化，其他模型参数随机设定一个初始值，在每次使用模型得到图像样本的生成人群密度图之后，根据总损失函数L对比真实人群密度图和生成人群密度图以及真实雾先验图和生成的雾先验图确定模型的每一次迭代误差，将模型每一次的误差反向传播，调整所述人群计数模型的参数，对所述一种雾先验频域注意表征引导的雾天图像人群计数模型进行优化。采用Adam优化算法在每一次优化迭代中更新参数，直到损失函数收敛到一个较小的值，保存参数及训练后的模型。

使用训练后的雾天场景图像人群计数模型对任意输入的雾天场景图像进行人群计数，将任意单张图像直接输入到人群计数模型中，即可得到人群计数结果。

Claims

1.一种雾先验频域注意表征引导的雾天图像人群计数方法，其特征在于：建立雾先验频域注意表征引导的雾天图像人群计数模型，将待估计人数的雾天场景图像输入雾天图像人群计数模型进行人群计数；具体操作包括如下步骤：

S1、将雾天场景图像输入到C1块中，得到第一初始特征图；所述C1块包括八层卷积层和三层池化层；

所述S2的具体操作如下：

将所述第一初始特征图输入到第一雾先验引导表征学习过程的C2块中，得到第二初始特征图；所述C2块依次包括四层卷积层和一层池化层；

将所述第二初始特征图输入到第一雾先验引导表征学习过程的第一残差细节特征恢复模块中，得到第一特征图；所述第一残差细节特征恢复模块依次包括一层池化层和三层卷积层；

将所述第二初始特征图与第一特征图进行通道连接，进行通道降维操作，得到第一中间特征图；

将所述第一特征图与第一中间特征图进行差分操作，得到第一初始雾天信息特征图；

将所述第一初始雾天信息特征图输入到第一雾先验引导表征学习过程的第一雾先验预测模块中，得到第一雾天信息图，所述第一雾先验预测模块包括一层梯度反转层和四层卷积层；

将得到的第一雾天信息图与真实雾先验特征图进行第一雾先验损失l_haze-1计算；

所述S3的具体操作为：

将所述第一中间特征图输入到第二雾先验引导表征学习过程的C3块中，得到第三初始特征图；所述C3块依次包括四层卷积层和一层池化层；

将所述第一中间特征图输入到第二雾先验引导表征学习过程的第二残差细节特征恢复模块中，得到第二特征图，所述第二残差细节特征恢复模块包括一层池化层和三层卷积层；

将所述第三初始特征图与第二特征图在通道维度上相加，进行通道降维操作，得到第二中间特征图；

将所述第二中间特征图输入到频域嵌入注意模块的频域注意力聚合块中，得到频域注意特征图；所述频域注意力聚合块包括离散小波变换、上采样、一层卷积核为1×1的卷积层和Sigmoid函数；

将所述第二中间特征图输入到频域嵌入注意模块的空间-像素注意力聚合块中，得到空间-像素注意特征图，所述空间-像素注意力聚合块包括空间注意力部分和像素注意力部分；

将所述频域注意特征图和空间-像素注意特征图在通道维度上相加，进行通道降维操作，得到频域-空间-像素注意特征图；

将所述频域-空间-像素注意特征图输入到频域嵌入注意模块的通道注意力聚合块中，得到高级语义特征图，所述通道注意力聚合块包括并列池化部分、两个全连接层和Sigmoid函数；

将所述第二特征图和高级语义特征图进行差分操作，得到第二初始雾天信息特征图；

将所述第二初始雾天信息特征图输入到第二雾先验引导表征学习过程的第二雾先验预测模块中，得到第二雾天信息图；所述第二雾先验预测模块包括一层梯度反转层和四层卷积层；

将所述得到的第二雾天信息图与真实雾先验特征图进行第二雾先验损失l_haze-2计算；

S4、将所述的高级语义特征图输入密度图回归模块，进行密度图回归，得到估计人群密度图；所述密度图回归模块依次为三层卷积层；

S5、将所述的估计人群密度图的像素值求和，得到估计人群计数结果；

在人群计数前，利用若干张雾天场景图像和真实人群密度图对雾先验频域注意表征引导的雾天图像人群计数模型进行训练，使得雾先验频域注意表征引导的雾天图像人群计数模型的总损失函数L损失最小，即训练完成。

2.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法，其特征在于：所述C1块从输入依次为：两层卷积层、一层池化层、两层卷积层、一层池化层、四层卷积层和一层池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为64、64、128、128、256、256、256和256的特征图，各所述池化层是步长为2的最大池化层。

3.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法，其特征在于：所述步骤2中：

所述C2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图，每层卷积层的卷积核尺寸为3×3，池化层为步长为2的最大池化层；

所述第一残差细节特征恢复模块中池化层是步长为2的最大池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图，将第二初始特征图输入池化层得到第一池化特征图，将第一池化特征图输入到三层卷积层中，得到第一卷积特征图，将第一池化特征图和第一卷积特征图进行对应像素位置相加操作，得到第一特征图；

第一中间特征图得到过程中的通道降维操作具体为使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512；

所述的差分操作为第一特征图与第一中间特征图进行对应像素位置相减操作，具体为第一特征图减去第一中间特征图，得到第一初始雾天信息特征图；

所述第一雾先验预测模块中梯度反转层的权重是-0.1，从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图，其中卷积层的卷积核尺寸均为3×3，最后经过卷积核为1×1的卷积操作，将通道数从512降维到1，得到第一雾天信息图。

4.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法，其特征在于：所述步骤S2中第一雾先验损失l_haze-1计算公式为：

5.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法，其特征在于：所述S3中：

所述C3块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图，每层卷积层的卷积核尺寸为3×3，池化层为步长为2的最大池化层；

所述第二残差细节特征恢复模块中，池化层是步长为2的最大池化层，每层卷积层的卷积核尺寸均为3×3，从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图，将第一中间特征图输入池化层得到第二池化特征图，将第二池化特征图输入到三层卷积层中，得到第二卷积特征图，将第二池化特征图和第二卷积特征图进行对应像素位置相加操作，得到第二特征图；

第二中间特征图得到过程中使用卷积核为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512；

所述频域注意力聚合块经过离散小波变换，将第二中间特征图在频域上分解为低频分量、水平高频分量、垂直高频分量和对角高频分量，分量的通道数均为512，水平高频分量、垂直高频分量和对角高频分量进行通道连接，并使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1536降维到512，接着进行上采样，将降维后的特征图的长和宽都扩大为原来的两倍，然后进行一层卷积核为1×1的卷积操作和Sigmoid操作，得到通道数为512的频域注意特征图；

所述的空间注意力部分包括并列池化层结构、一层卷积层和Sigmoid函数，并列池化层结构包括一层最大池化层和一层平均池化层，将尺寸为C×h×w的第二中间特征图分别输入到并列池化层结构的最大池化层和平均池化层，得到尺寸为1×h×w的空间最大池化特征图和尺寸为1×h×w的空间平均池化特征图，将这两个特征图进行拼接得到尺寸为2×h×w的特征图，然后经过卷积核为1×1的卷积层和Sigmoid函数得到通道数为512的空间注意加权特征图，将第二中间特征图和空间注意加权特征图进行逐元素相乘，得到空间注意特征图，将空间注意特征图输入到像素注意力部分，像素注意力部分依次为一层卷积核为3×3的卷积层、Sigmoid函数和一层卷积核为3×3的卷积层，得到通道数为512的像素注意加权特征图，然后将像素注意加权特征图与空间注意特征图进行逐元素相乘，得到通道数为512的空间-像素注意特征图；

频域-空间-像素注意特征图得到过程中使用卷积核尺寸为1×1的二维卷积进行通道降维操作，将通道数从1024降维到512；

所述通道注意力聚合块中并列池化部分为一层最大池化层和一层平均池化层，将频域-空间-像素注意特征图分别输入到并列池化部分的最大池化层和平均池化层进行池化操作，得到C×1×1的通道最大池化结果和C×1×1的通道平均池化结果，将通道最大池化结果和通道平均池化结果进行对应位置元素相加，然后输入到全连接层和Sigmoid函数中，第一个全连接层的神经元个数为32，第二个全连接层的神经元个数为512，得到通道数为512的通道注意加权特征图，将通道注意加权特征图和频域-空间-像素注意特征图进行逐元素相乘，得到通道数为512的高级语义特征图；

所述的差分操作为第二特征图和高级语义特征图进行对应像素位置相减操作，具体为第二特征图减去高级语义特征图，得到第二初始雾天信息特征图；

所述第二雾先验预测模块中梯度反转层的权重是-0.1，从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图，卷积层的卷积核尺寸均为3×3，最后经过卷积核为1×1的卷积操作，得到通道数为1的第二雾天信息图。

6.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法，其特征在于：所述第二雾先验损失l_haze-2计算公式为：

7.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法，其特征在于：所述密度图回归模块中前两个卷积层的卷积核尺寸为3×3，最后一层卷积核尺寸为1×1，各所述卷积层的通道数由输入至输出方向依次为256、128和1，输出特征图即为估计人群密度图。

8.根据权利要求1所述的一种雾先验频域注意表征引导的雾天图像人群计数方法，其特征在于：所述总损失函数L表示为：

L＝l_c+0.0001×l_haze-1+0.005×l_haze-2；

其中，l_haze-1为第一雾先验损失；

l_haze-2为第二雾先验损失；

式中，Γ(·)是l₁距离函数，E[C_n]表示第n个人的计数期望，D^est表示估计的密度图，p(y_n|x_m)表示每个像素出现人的后验概率，N(x_m；z_n,σ²1_2×2)表示在x_m处评估的二维高斯分布，x_m表示每个目标在图像中的位置分布，y_n表示目标标签，M表示每个密度图里的像素数量，N表示每张图像训练样本的总人数。