CN115439702A

CN115439702A - 一种基于频域处理的弱噪声图像分类方法

Info

Publication number: CN115439702A
Application number: CN202211393165.0A
Authority: CN
Inventors: 刘逢刚
Original assignee: Wuchang University of Technology
Current assignee: Wuchang University of Technology
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2022-12-06
Anticipated expiration: 2042-11-08
Also published as: CN115439702B

Abstract

本发明公开了一种基于频域处理的弱噪声图像分类方法，涉及图像频域处理和图像分类技术。本发明方法包括：输入弱噪声图像数据集，使用离散余弦变换将图像转换到频域进行预处理，得到粗降噪后的图像数据集；将粗降噪后的图像数据集输入到分类网络，经过多个特征提取模块提取图像特征，并引入频域通道注意力模块对通道重要性进行区分；通过频域下采样模块对特征图进行下采样；经过4层全连接层和激活层，最后输出分类结果。本发明方法解决了现有技术中噪声积累的问题，减少了图像噪声对分类网络提取特征的影响，使得分类网络具备更强的噪声鲁棒性，使得网络可以更快的收敛。

Description

一种基于频域处理的弱噪声图像分类方法

技术领域

本发明涉及图像分类和图像频域处理技术领域，并且更具体地，涉及一种基于频域处理的弱噪声图像分类方法。

背景技术

近几年，机器视觉领域蓬勃发展，一方面得益于精巧的网络结构，另一方面依靠大量的图像数据集支持。然而，由于图像采集设备、环境等因素的不稳定，导致采集的图像携带少量噪声，这些噪声会影响分类网络的训练，甚至会导致分类准确率的下降。

目前，国内外很多研究机构都在做相关图像去噪研究，针对不同类型的噪声有不同的去噪方法，通过设计不同的去噪模块加入到分类模型中，会增加模型的参数量和计算量，并且没有考虑分类模型本身对噪声的积累，导致模型训练难拟合。

公开号为CN 114758141A的中国专利公开了“一种协同学习的带噪声标签图像分类方法”，在保留Co-teaching方法协同训练的基础上，进行了改进，通过采取单向的数据交换方式和修改了数据接收方网络的损失函数，来抑制噪声标签对图像分类的影响，提高了模型的鲁棒性并有效防止了过拟合。但是该技术使用协同学习的方式必然会增加原分类模型的训练成本，并且在训练过程中没有考虑图像本身携带噪声积累的问题，会导致模型拟合较慢。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于频域处理的弱噪声图像分类方法，其目的在于解决弱噪声对分类网络的影响，降低分类网络在训练的过程中对图像噪声的积累，从而提高分类准确率，提高模型的噪声鲁棒性。

为实现上述目的，按照本发明的一个方面，提供了一种基于频域处理的弱噪声图像分类方法，包括如下步骤：

步骤（1），输入弱噪声图像数据集，使用离散余弦变换将图像转换到频域进行预处理，得到粗降噪后的图像数据集；

步骤（2），粗降噪后的图像数据集经过多个特征提取模块提取图像特征，并引入频域通道注意力模块对通道重要性进行区分，得到目标特征图；

步骤（3），通过频域下采样模块对目标特征图进行下采样；

步骤（4），经过若干层全连接层和激活层，最后输出分类结果。

进一步的，步骤（1）中图像在频域空间的预处理过程包括：

首先，对输入的弱噪声图像进行批量处理，若图像尺寸大于N×N，对图像进行中心裁剪，若图像尺寸小于N×N，使用0像素对图像填充，确保图像尺寸等于N×N；

然后，将图像由RGB颜色空间转换到YCbCr颜色空间，得到Y、Cb和Cr三个子图，使用离散余弦变换将子图转换到频域空间，为了减少传统离散余弦变换的运算量，提高运算速度，设计使用16×16的变换系数图进行二维快速离散余弦变换，该过程可以表示为：

其中，Y _i,j表示原图像的i,j位置的像素值，F _i,j表示Y _i,j对应位置的频率特征，cos(⋯)cos(⋯)为Y _i,j对应的离散余弦权重分量，c(h)c(w)为归一化因子常量，其中，常数

h,w分别表示变换系数图的高和宽；

经二维离散余弦变换可以得到3个2维系数矩阵，再将系数矩阵中相同频率的二维离散余弦系数分组到一个通道，可以得到3个3维特征矩阵，按照重要性对通道进行通道子集的选择；

最后，将YCbCr空间中选择的通道拼接在一起构成一组张量，对批量图像数据求平均值和方差，并对每个通道进行归一化。

进一步的，通道子集的选择策略如下：

经离散余弦变换后的系数矩阵具有能量聚集性，矩阵由左向右、由上向下频率逐渐升高，即越靠近左上角的系数越大，重要性越高，越靠近右下角的系数越小，重要性越小，按照上述原则，保留靠近左上角的低频通道分量，舍掉部分高频通道分量，确保最后保留的通道分量数为256，便于分类网络提取特征。

进一步的，步骤（2）中特征提取模块的输入是预处理后的图像，模块由两条支路构成，其中一条支路经过一个1×1的卷积层和激活层来增强网络的表达能力，再通过一个3×3的卷积层和激活层，步长为1，用于提取图像特征，输出的通道数扩大4倍，最后经过一个1×1的卷积层和激活层来增强网络的非线性；另一条支路直接输出图像特征，最后将两条支路得到的结果相加作为提取后的特征图传到下一层。

进一步的，步骤（2）中频域通道注意力模块由两条并联支路构成，其中一条支路由一个离散余弦变换层、一个全连接层、一个ReLU激活层、一个全连接层和一个Sigmoid激活层依次串联而成，输出一个通道权重矩阵；另一条支路省去了上述过程，直接将特征图输出；两条支路的结果进行矩阵相乘后得到目标特征图作为输出，作为频域通道注意力模块的输出传入下一层。

进一步的，步骤（3）中频域下采样模块的输入是目标特征图，输出是下采样到指定比例的特征图，频域下采样处理流程如下：首先，使用离散余弦变换将目标特征图转换到频域，其中低频分量主要集中在特征图的左上角，假设此时特征图的尺寸为H×W；然后，以目标特征图左上角（0，0）为起点，（H/2，W/2）为终点，截取H/2×W/2大小的矩形特征矩阵，该矩形特征矩阵的尺寸是原特征矩阵的一半，同时包含原特征矩阵的大部分信息；最后，使用逆离散余弦变换将裁剪后的特征图转换到空间域；

逆二维离散余弦变换可以表示为：

h,w分别表示变换系数图的高和宽。

进一步的，步骤（4）中经过4层全连接层和激活层，最后输出分类结果

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）通过将弱噪声图片转换到频域进行预处理，可以在保留大部分内容信息的同时，去除噪声，减少噪声对底层特征提取模块的影响，并且预处理过程没有引入新的参数，不会增加计算量。

（2）引入频域通道注意力模块可以更容易的对特征提取后的通道重要性进行区分，从而使得后面的特征提取模块可以更有针对性的提取重要通道的特征，提高分类准确率。

（3）使用频域下采样模块代替传统的最大值池化层和平均值池化层，借助特征图在频域中的能量聚集性，可以在缩小特征图尺寸的同时，保留更多的信息，增强分类模型的噪声鲁棒性。

附图说明

图1为本发明实施例提供的一种基于频域处理的弱噪声图像分类方法的流程示意图；

图2为本发明实施例提供的一种基于频域处理的弱噪声图像分类方法的核心网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，是实施例提供的一种基于频域处理的弱噪声图像分类方法流程示意图；实施例提供的一种基于频域处理的弱噪声图像分类方法包括如下步骤：

（1）输入弱噪声图像数据集，使用离散余弦变换将图像转换到频域进行预处理，得到粗降噪后的图像数据集；

其中，图像在频域空间的预处理过程包括：

首先，对输入的弱噪声图像进行批量处理，若图像尺寸大于448×448，对图像进行中心裁剪，若图像尺寸小于448×448，使用0像素对图像填充，确保图像尺寸等于448×448。

然后，将图像由RGB颜色空间转换到YCbCr颜色空间，得到Y、Cb和Cr三个子图，使用离散余弦变换将子图转换到频域空间，为了减少传统离散余弦变换的运算量，提高运算速度，我们设计使用16×16的二维快速离散余弦变换，即使用16×16的变换系数图（共256个基函数对图像进行离散余弦变换）可以表示为：

h,w分别表示变换系数图的高和宽；

逆二维离散余弦变换可以表示为：

经二维离散余弦变换可以得到3个2维系数矩阵（512×512），再将系数矩阵中相同频率的二维离散余弦系数分组到一个通道，可以得到3个3维特征矩阵（

×32×32），按照重要性对通道进行选择，选择影响较大通道的子集。一张图包含Y、Cb和Cr子图，每个子图可以变换得到1个二维系数矩阵，所以一共是3个二维系数矩阵。由于变换使用到的矩阵是16×16的，所以系数矩阵中每行每列隔15个位置对应的点属于一个频段（如：(0,0)、(0,16)、(0,32)、……(0,496)、(16,0)、(16,16)、…(16,496)、…(496,496)为相同频段。），通过将相同频段的系数分组到同一个通道（相当于在原来二维的基础上，增加了一维，变成三维），便可以得到256(16×16)个32×32的特征矩阵（即：256×32×32）。每个二维系数矩阵可以生成一个三维特征矩阵，一共就是3个三维特征矩阵。

最后，将YCbCr空间中选择的通道子集拼接在一起构成一组张量（256×32×32），对批量图像数据求平均值和方差，并对每个通道子集进行归一化。

其中，由于经离散余弦变换后的系数矩阵具有能量聚集性，矩阵由左向右、由上向下频率逐渐升高，即越靠近左上角的系数越大，重要性越高，越靠近右下角的系数越小，重要性越小。按照上述原则，通道选择策略为保留靠近左上角的低频通道分量，舍掉部分高频通道分量，确保最后保留的通道分量数为256，便于分类网络提取特征。

（2）粗降噪后的图像数据集经过多个特征提取块提取图像特征，并引入频域通道注意力模块对通道重要性进行区分，得到目标特征图；

其中，特征提取模块的输入是预处理后的图像，模块由两条支路构成，其中一条支路经过一个1×1的卷积层和激活层来增强网络的表达能力，再通过一个3×3的卷积层和激活层，步长为1，用于提取图像特征，输出的通道数扩大4倍，最后经过一个1×1的卷积层和激活层来增强网络的非线性；另一条支路直接输出图像特征，最后将两条支路得到的结果相加作为提取后的特征图传到下一层。

其中，频域通道注意力模块，根据提取后的特征图中对应频率的大小为每个通道赋予不同的权重，权重范围是0-1，权重越大表示该通道对于分类越重要，即包含了更多的图像内容信息。频域通道注意力模块由两条并联支路构成，其中一条支路由一个离散余弦变换层、一个全连接层、一个ReLU激活层、一个全连接层和一个Sigmoid激活层依次串联而成，输出一个通道权重矩阵，矩阵元素可表示为𝛼_𝑖,j；另一条支路省去了上述过程，直接将特征图输出；两条支路的结果进行矩阵相乘后得到目标特征图作为输出，作为频域通道注意力模块的输出传入下一层。输出结果可表示为

；

其中，𝛼_𝑖,j表示各通道权重系数，F _i,j表示各通道的频域分量，i和j是位置编号，Output _i,j表示第i行第j列元素经过与对应位置系数相乘后的输出，i和j的数值跟特征图的尺寸有关，i和j的最大值分别是特征图的宽和高，i和j的取值均为0-15。

（3）通过频域下采样模块对频域通道注意力模块输出的目标特征图进行下采样；

其中，频域下采样模块的输入是目标特征图，输出是下采样到指定比例的特征图。频域下采样处理流程如下：首先，使用离散余弦变换将特征图转换到频域，其中低频分量主要集中在特征图的左上角，假设此时特征图的尺寸为H×W；然后，以特征图左上角（0，0）为起点，（H/2，W/2）为终点，截取H/2×W/2大小的矩形特征矩阵，该矩形特征矩阵的尺寸是原特征矩阵的一半，同时包含原特征矩阵的大部分信息；最后，使用逆离散余弦变换将裁剪后的特征图转换到空间域。

（4）最后经过4层全连接层和激活层，最后输出分类结果。

如图2所示，是实施例提供的一种基于频域处理的弱噪声图像分类方法的核心网络结构图；

分类网络的核心结构由三部分构成：特征提取模块，频率通道注意力模块和频域下采样模块。图像首先经过特征提取模块，特征提取模块由两条支路构成，其中一条支路由一个1×1的卷积层和ReLU激活层、一个3×3的卷积层和ReLU激活层以及一个1×1的卷积层和ReLU激活层依次串联而成；另一条支路直接输出特征图，最后将两条支路得到的结果相加作为提取后的特征图传到下一层。

然后经过频域通道注意力模块，频域通道注意力模块由两条并联支路构成，其中一条支路由一个离散余弦变换层、一个全连接层、一个ReLU激活层、一个全连接层和一个Sigmoid激活层依次串联而成，输出一个通道权重矩阵；另一条支路直接将特征矩阵输出。两条支路的结果进行矩阵相乘后输出，作为频域通道注意力模块的输出传入下一层。

最后经过频域下采样模块，频域下采样模块由离散余弦变换层、局部裁剪层和逆离散余弦变换层依次串联而成，输出下采样后的特征图。

另外，我们通过设计实验来验证方法的有效性，在公开数据集Imagenet-C上对比本方法网络与Resnet50、EfficientnetV2的噪声鲁棒性。表1展示了本方法网络与Resnet50、EfficientnetV2在三种噪声数据集上的准确率，可以发现本方法均可以达到最优效果，可以证明本方法网络具备更好的噪声鲁棒性。

表1

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于频域处理的弱噪声图像分类方法，其特征在于，包括如下步骤：

步骤（3），通过频域下采样模块对目标特征图进行下采样；

2.如权利要求1所述的一种基于频域处理的弱噪声图像分类方法，其特征在于：步骤（1）中图像在频域空间的预处理过程包括：

h,w分别表示变换系数图的高和宽；

3.如权利要求2所述的一种基于频域处理的弱噪声图像分类方法，其特征在于：通道子集的选择策略如下：

4.如权利要求1所述的一种基于频域处理的弱噪声图像分类方法，其特征在于：步骤（2）中特征提取模块的输入是预处理后的图像，模块由两条支路构成，其中一条支路经过一个1×1的卷积层和激活层来增强网络的表达能力，再通过一个3×3的卷积层和激活层，步长为1，用于提取图像特征，输出的通道数扩大4倍，最后经过一个1×1的卷积层和激活层来增强网络的非线性；另一条支路直接输出图像特征，最后将两条支路得到的结果相加作为提取后的特征图传到下一层。

5.如权利要求1所述的一种基于频域处理的弱噪声图像分类方法，其特征在于：步骤（2）中频域通道注意力模块由两条并联支路构成，其中一条支路由一个离散余弦变换层、一个全连接层、一个ReLU激活层、一个全连接层和一个Sigmoid激活层依次串联而成，输出一个通道权重矩阵；另一条支路省去了上述过程，直接将特征图输出；两条支路的结果进行矩阵相乘后得到目标特征图作为输出，作为频域通道注意力模块的输出传入下一层。

6.如权利要求1所述的一种基于频域处理的弱噪声图像分类方法，其特征在于：步骤（3）中频域下采样模块的输入是目标特征图，输出是下采样到指定比例的特征图，频域下采样处理流程如下：首先，使用离散余弦变换将目标特征图转换到频域，其中低频分量主要集中在特征图的左上角，假设此时特征图的尺寸为H×W；然后，以目标特征图左上角（0，0）为起点，（H/2，W/2）为终点，截取H/2×W/2大小的矩形特征矩阵，该矩形特征矩阵的尺寸是原特征矩阵的一半，同时包含原特征矩阵的大部分信息；最后，使用逆离散余弦变换将裁剪后的特征图转换到空间域；

逆二维离散余弦变换可以表示为：

h,w分别表示变换系数图的高和宽。

7.如权利要求1所述的一种基于频域处理的弱噪声图像分类方法，其特征在于：步骤（4）中经过4层全连接层和激活层，最后输出分类结果。