CN116994074A

CN116994074A - 一种基于深度学习的摄像头脏污检测方法

Info

Publication number: CN116994074A
Application number: CN202311255115.0A
Authority: CN
Inventors: 宋军; 毛俊迪; 何舒平; 宋志龙; 陈向成; 余涛; 张良
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-11-03

Abstract

本发明涉及图像检测技术领域，尤其涉及一种基于深度学习的摄像头脏污检测方法，通过设置三个输出头，实现不同的检测任务，不但能够判断摄像头被脏污覆盖的区域，同时能够实现对部分物体的分类以及对当前场景的分类，多任务学习架构充分利用了底层特征的共享表达能力,不同输出头可以同时优化各自的目标，相互促进，提高了算法的全面性和健壮性，使脏污检测结果更加准确，通过使用Transformer进行脏污检测，相比传统的卷积神经网络，具有更强的上下文感知能力和多尺度特征表达能力，可以检测处理图像中大小不一的脏污区域,提高了模型的适应性。

Description

一种基于深度学习的摄像头脏污检测方法

技术领域

本发明涉及图像检测技术领域，尤其涉及一种基于深度学习的摄像头脏污检测方法。

背景技术

现有的自动驾驶车辆大量应用先进传感器以实现智能环境感知，但这些传感器大多数暴露在车辆外部。在极端条件下，例如泥浆飞溅到摄像头表面，这些传感器容易受到不同程度的污染，导致图像质量下降，最终影响到自动驾驶的安全性能。因此，准确检测和及时处理摄像头的污染变得至关重要。

目前，一般采用信息熵计算摄像头拍摄到的图像质量，再根据预设的固定阈值来判断图像质量是否大于该阈值，若不大于，则判定摄像头存在脏污。但在某些特殊场景下，如夜晚或逆光拍摄，由于本身图像质量就很差，而非摄像头脏污所致，因此使用这种方法进行摄像头污染检测容易出现误检情况。

发明内容

有鉴于此，本发明的目的在于提出一种基于深度学习的摄像头脏污检测方法，以解决现有的摄像头脏污判断容易误检的问题。

基于上述目的，本发明提供了一种基于深度学习的摄像头脏污检测方法，包括以下步骤：

S1、获取带有脏污区域标注的图像数据集，并进行预处理；

S2、构建包括transformer编码器、transformer解码器、多个输出头以及相应的连接层的深度神经网络；

S3、将原始图像转为序列化数据，送入transformer编码器中，采用自注意力机制提取图像的特征信息，生成Encoded Patches作为输出；

S4、将Encoded Patches送入transformer解码器中，采用自注意力机制，恢复原始图像的信息，实现图像的解码和重构，输出包含了原始图像的重建信息的DecodedPatches；

S5、将包含了原始图像的重建信息的Decoded Patches送入多个输出头中，进行脏污检测、场景检测和目标检测，输出脏污分类结果、场景分类结果和目标检测分类结果，基于损失函数对深度神经网络进行训练；

S6、将待检测图像输入训练好的深度神经网络，输出脏污分类结果、场景分类结果和目标检测分类结果。

优选地，所述脏污检测、场景检测和目标检测包括：

S51、通过脏污分割头，对Decoded Patches中的每个像素进行分类，确定该像素是否属于脏污区域，包括分割头输出与原图相同大小的概率图，其中每个像素的值代表该像素属于脏污区域的概率，再通过设定一个阈值，得到脏污区域的二值化分割图；

S52、场景检测对整个图像进行分类，其场景分类头给出场景分类标签，每个标签代表不同的场景类型，同时场景检测根据场景情况为脏污检测的阈值设定范围。

优选地，图像数据集包括不同场景下的真实脏污图像和利用CycleGAN网络生成的脏污图像，其中CycleGAN网络使用遮挡掩膜和注意力机制，在特定区域生成脏污，将干净图像转换成脏污图像。

优选地，步骤S1中，预处理包括图像尺寸调整、归一化、数据增强。

优选地，编码器包括多个编码层，每个编码层由一个多头自注意力模块和前馈神经网络组成，多头自注意力机制通过计算不同的注意力得分，将输入的特征图像分成不同的子集，并为每个子集计算相应的上下文表示，以捕获不同尺度和不同方向的特征。

优选地，深度神经网络包括脏污分割头、摄像头场景分类头和目标检测分类头，其中，每个输出头均包括卷积层、池化层和全连接层，在卷积层和池化层中，不同的卷积核、步长和填充方式，用于捕获不同尺度和不同方向的特征，全连接层用于将卷积层和池化层的输出转化为最终的分类结果。

优选地，步骤S5中，损失函数的计算公式为：

loss =α*分割损失+β*分类损失 +γ*检测损失；

其中，loss表示深度神经网络的多任务损失，语义分割和场景分类通过交叉熵损失进行计算，目标检测通过smooth L1计算边界框损失，α、β、γ均为可调整的权重超参数。

本发明的有益效果：

1、本发明通过设置三个输出头，实现不同的检测任务，不但能够判断摄像头被脏污覆盖的区域，同时能够实现对部分物体的分类以及对当前场景的分类，多任务学习架构充分利用了底层特征的共享表达能力,不同输出头可以同时优化各自的目标，相互促进，提高了算法的全面性和健壮性，使脏污检测结果更加准确。

2、本发明通过使用Transformer进行脏污检测，相比传统的卷积神经网络，具有更强的上下文感知能力和多尺度特征表达能力，对准确检测和定位图像中大小不一、形态各异的脏污区域非常关键，这种全局上下文建模能力弥补了卷积网络的局限性，能够更准确地识别整个图像区域中的脏污。同时，Transformer中的自注意力不受固定卷积核大小的限制，可以自适应提取多尺度特征。这使其可以检测处理图像中大小不一的脏污区域,提高了模型的适应性。

3、本发明通过改进CycleGAN网络生成脏污数据集，可以生成更加逼真的脏污图像，增强了模型训练时的稳定性和生成样本的多样性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于深度学习的摄像头脏污检测方法流程示意图；

图2为本发明实施例的深度神经网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

如图1所示，本说明书实施例提供一种基于深度学习的摄像头脏污检测方法，包括以下步骤：

S1、获取带有脏污区域标注的图像数据集，并进行预处理；

其中，图像数据集既可以采用不同场景下的真实脏污图像，首先，需要收集一批实地采集的脏污图像数据。通过实际驾驶过程中对摄像头进行人工脏污处理，例如在摄像头表面覆盖灰尘、污渍、雨水等杂质，以获得真实脏污图像。可以在不同天气、不同路况下进行采集，以获取更多场景下的脏污图像。也可以由实地采集图像和模拟生成图像两部分组成，由于实地采集的图像数量有限，为了获取更多的脏污图像数据，采用CycleGAN等图像生成技术进行数据增强。CycleGAN是一种无监督的图像转换技术，可以将一组图像转换成另一组类似的图像。可以将干净的图像转换成脏污的图像，从而获得更多的脏污图像数据集。其中CycleGAN网络使用遮挡掩膜和注意力机制，在特定区域生成脏污，将干净图像转换成脏污图像，Cyclegan是由生成器和辨别器组成的，遮挡掩膜是指在cycleGan的生成网络中通过添加一个有不规则图案的掩膜，使图像生成部分只在掩膜图案上生成，达到在特定区域生成脏污的效果。

改进的CycleGAN的生成器和判别器结构,提高了其建模能力。然后，使用遮挡掩膜和注意力机制，使得模型可以有针对性地在特定区域生成脏污，而不是对整张图像进行全局转换，从而减少了后处理中的人工标注量。同时，增强了模型训练时的稳定性和生成样本的多样性。经验证明，本方法取得了比原CycleGAN更好的脏污图像生成效果，为后续的检测模型提供了丰富的训练数据。

在获取脏污图像数据集后，需要进行数据预处理，以提高神经网络的训练效果。预处理包括图像尺寸调整、归一化、数据增强等操作。可以将图像的尺寸调整为神经网络所需的大小，并将像素值进行归一化，以便神经网络更好地处理图像。

通过以上实施方法，可以获取更多的脏污图像数据集，并进行数据预处理，为后续的神经网络训练和测试提供充分的数据支持。同时，利用CycleGAN等图像生成技术可以提高数据集的覆盖率和多样性。

S2、构建包括transformer编码器、transformer解码器、多个输出头以及相应的连接层的深度神经网络，即深度神经网络结构如图2所示，描述如下：

(1) Transformer编码器：首先，输入的图像数据被送入Transformer编码器，该编码器采用自注意机制，能够从输入的图像中提取出关键的特征信息。其中，通过多个编码层的堆叠来完成特征提取，每个编码层由一个多头自注意力模块和前馈神经网络组成，多头自注意力机制通过计算不同的注意力得分，将输入的特征图像分成不同的子集，并为每个子集计算相应的上下文表示，以捕获不同尺度和不同方向的特征。

(2) Transformer解码器：在解码器中，Encoded Patches被输入，然后通过多个解码器层进行处理。解码器层的目标是从Encoded Patches中恢复原始图像的信息,实现图像的解码和重构，解码器层的输出为Decoded Patches，这些Patches包含了原始图像的重建信息。

(3) 多个输出头：接下来，提取出的特征信息被送入多个输出头中。本发明提供了三个输出头：脏污分割头、摄像头场景分类头和目标检测分类头。其中，每个解码头包括一些卷积层、池化层和全连接层，在卷积层和池化层中，可以使用不同的卷积核、步长和填充方式，以捕获不同尺度和不同方向的特征。全连接层用于将卷积层和池化层的输出转化为最终的分类结果。

S3、将原始图像转为序列化数据，送入transformer编码器中，采用自注意力机制提取图像的特征信息，生成Encoded Patches作为输出，在自注意力模块中，序列化数据的每个元素（即图像块）都与其他元素进行交互，学习到不同图像块之间的关联性，从而捕获图像的全局信息。前馈神经网络通过全连接层对序列中的每个元素进行非线性变换，进一步加强图像特征的表征能力。这些编码器层的堆叠使得网络能够逐层提取图像的高层次特征，生成Encoded Patches作为输出。

S4、将Encoded Patches送入transformer解码器中，采用自注意力机制，恢复原始图像的信息，实现图像的解码和重构，输出包含了原始图像的重建信息的DecodedPatches，解码器层的目标是从Encoded Patches中恢复原始图像的信息，实现图像的解码和重构。解码器层的输出为Decoded Patches，这些Patches包含了原始图像的重建信息。

S5、将包含了原始图像的重建信息的Decoded Patches送入多个输出头中，进行脏污检测、场景检测和目标检测，输出脏污分类结果、场景分类结果和目标检测分类结果，基于损失函数对深度神经网络进行训练，其中Decoded Patches包含有图像特征信息；

进一步来说，步骤S5包括：

S51、通过脏污分割头，对Decoded Patches中的每个像素进行分类，确定该像素是否属于脏污区域，具体来说，分割头输出与原图相同大小的概率图，其中每个像素的值代表该像素属于脏污区域的概率，再通过设定一个阈值，得到脏污区域的二值化分割图；

作为一种实施方式，在步骤S5中，损失函数的计算公式为：

loss =α*分割损失+β*分类损失+γ*检测损失；

其中，loss表示深度神经网络的多任务损失，语义分割和场景分类通过交叉熵损失进行计算，目标检测通过smooth L1计算边界框损失，α、β、γ均为可调整的权重超参数，权重超参数可以根据需要实现的功能和实验结果来调整。

在使用本发明提供的方法时，在部署阶段，将训练好的神经网络部署到自动驾驶的平台上，对模型文件进行算子适配，将待检测的图像输入到计算平台中，调用模型进行预测，将结果发给自动驾驶中其他模块。根据摄像头场景和脏污类别进行分类，可以判断图像中是否存在脏污，并输出脏污区域的检测框。

本发明使用transformer提取图像特征,建模全局依赖关系，提高对脏污区域的检测，通过设计多任务网络,实现脏污检测、场景分类和目标检测，提高算法全面性，通过改进CycleGAN网络生成更逼真的脏污图像数据集。

本发明可以检测图像中的脏污区域并进行多任务处理，具有准确性高、鲁棒性强等优点，实现了对摄像头场景和脏污类别的分类，具有广泛的应用前景。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围（包括权利要求）被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的摄像头脏污检测方法，其特征在于，所述方法包括以下步骤：

S1、获取带有脏污区域标注的图像数据集，并进行预处理；

S4、将Encoded Patches送入transformer解码器中，采用自注意力机制，恢复原始图像的信息，实现图像的解码和重构，输出包含了原始图像的重建信息的Decoded Patches；

S6、将待检测图像输入训练好的深度神经网络，输出脏污分类结果、场景分类结果和目标检测分类结果；

所述脏污检测、场景检测和目标检测包括：

2.根据权利要求1所述的基于深度学习的摄像头脏污检测方法，其特征在于，所述图像数据集包括不同场景下的真实脏污图像和利用CycleGAN网络生成的脏污图像，其中CycleGAN网络使用遮挡掩膜和注意力机制，在特定区域生成脏污，将干净图像转换成脏污图像。

3.根据权利要求1所述的基于深度学习的摄像头脏污检测方法，其特征在于，步骤S1中，所述预处理包括图像尺寸调整、归一化、数据增强。

4.根据权利要求1所述的基于深度学习的摄像头脏污检测方法，其特征在于，所述编码器包括多个编码层，每个编码层由一个多头自注意力模块和前馈神经网络组成，多头自注意力机制通过计算不同的注意力得分，将输入的特征图像分成不同的子集，并为每个子集计算相应的上下文表示，以捕获不同尺度和不同方向的特征。

5.根据权利要求1所述的基于深度学习的摄像头脏污检测方法，其特征在于，所述深度神经网络包括脏污分割头、摄像头场景分类头和目标检测分类头，其中，每个输出头均包括卷积层、池化层和全连接层，在卷积层和池化层中，不同的卷积核、步长和填充方式，用于捕获不同尺度和不同方向的特征，全连接层用于将卷积层和池化层的输出转化为最终的分类结果。

6.根据权利要求1所述的基于深度学习的摄像头脏污检测方法，其特征在于，步骤S5中，损失函数的计算公式为：

loss =α*分割损失+β*分类损失 +γ*检测损失；