CN114549554B

CN114549554B - 基于风格不变性的空气污染源分割方法

Info

Publication number: CN114549554B
Application number: CN202210161385.4A
Authority: CN
Inventors: 高文飞; 王瑞雪; 王辉; 王磊; 郭丽丽
Original assignee: Shandong Rongling Technology Group Co ltd
Current assignee: Shandong Rongling Technology Group Co ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2024-05-14
Anticipated expiration: 2042-02-22
Also published as: CN114549554A

Abstract

本发明属于计算机视觉、人工智能技术领域，涉及一种图像分割技术，尤其涉及一种基于风格不变性的空气污染源分割方法。步骤包括，数据集准备，图像预训练，获取目标区，分离目标区域内容和风格，风格特征变换，特征叠加预测，计算分割损失和一致性损失。本发明通过分离特征图的高频特征和低频特征，并对高平特征施加变换，增加风格的复杂性，从而使模型学习风格不变性，增强对复杂风格的泛化性。

Description

基于风格不变性的空气污染源分割方法

技术领域

本发明属于计算机视觉、人工智能技术领域，涉及一种图像分割技术，尤其涉及一种基于风格不变性的空气污染源分割方法。

背景技术

随着深度学习技术的出现，国内外的学者纷纷采用深度学习来解决各行各业的难题，尤其在图像分类，分割等领域展现出巨大的价值。其中图像分割在各领域有着广泛的应用，分割算法将前景目标与背景区域分割出来，在环境资源监测，自然灾害评估中扮演者不可缺少的角色。

虽然图像分割领域的研究逐年深入，出现了各式各样性能优异的分割模型，其泛化性仍旧是不可忽视的短板。通常训练的较为出色的模型，面对真实场景时往往表现出明显的性能下降。尽管增大数据的多样性能有效缓解该问题，但是获取场景丰富的数据需要高昂的代价。况且在特定任务的图像标注需要较高的专业知识和耐心，例如空气污染源，需要专家根据图像进行判断污染源从而进行标注，而且空气污染源所处环境多变，会随着昼夜，季节，光照等的变化而呈现出不同的风格，对标注者同样有着极大的考验。因此，通常在特定数据集下训练的出的模型，对其他风格的图像泛化性较差。

随着近些年的对机器视觉的研究深入，出现了如迁移学习，领域自适应，领域泛化等方法可以提高模型对真实场景下的图像的泛化能力，这种真实场景下的图像域被称为目标域。而风格迁移等任务的出现，让图像可以被分解为风格信息和内容信息，消除风格差异的影响可以有效提高模型的鲁棒性和泛化性，因此针对风格不变性实现对未知目标域的泛化是目前的一个研究热点。

发明内容

本发明针对传统特定数据集下训练的出的模型，对其他风格的图像泛化性较差的问题提出一种新型的基于风格不变性的空气污染源分割方法，提高了对风格多样化的图像的泛化能力。

为了达到上述目的，本发明是采用下述的技术方案实现的：

一种基于风格不变性的空气污染源分割方法，步骤如下：

(1)数据集准备：将现有图像数据，等比例缩放到512*512尺寸，不足5像素长度不足512的地方填充0。施加旋转，平移，随机裁剪等增强方式到图像和其对应的语义掩码。

(2)图像预训练：使用deeplabv3+作为基线模型，将污染源图像输入到网络中进行少量的训练，使网络具备初步的判断能力。

(3)获取目标区：图像输入网络中，得到对该图像的密集预测图。然后依据密集预测中高概率的像素获取中间特征图中前景目标区域。

(4)分离目标区域内容和风格：对获取的目标区域施加平均池化操作，然后对其使用最邻近上采样，得到目标区域的低频特征(内容信息)f^L，原始的目标区域特征图f减去低频特征得到高频特征(风格信息)f^H。

(5)风格特征变换：对得到的高频特征图进行聚类，这里使用k-means，对每个位置的所有通道组成的向量进行聚类，得到语义掩码中类别数量的簇，每个簇内元素数值分布视为高斯分布，对每个簇的元素求均值和方差。每个簇从参数为该簇均值和方差的高斯分布中随机采样，得到新的高频特征图

(6)特征叠加预测：新的高频特征与低频特征f^L进行像素级相加得到新的特征图/>新特征图和原特征图输入到预测网络中，得到原图和变换后的密集预测图(概率map)。

(7)计算分割损失和一致性损失：使用交叉熵分别对原特征图和转换后特征图得到的概率map与语义掩码计算像素级损失，并计算转换后的特征图的预测map与原特征图概率map的KL散度，以缩小变换后特征图与原特征图的差异。

作为优选，所述步骤(5)中k-means公式如下：

其中，d为距离，u₁为第一个点横坐标位置，u₂为第二个点的横坐标位置，v₁为第一个像素的纵坐标位置，v₂为第二个像素的纵坐标位置，为在坐标(u₁,v₁)空间位置处点的各个通道组成的特征向量，/>为在坐标(u₂,v₂)空间位置处点的各个通道组成的特征向量。

与现有技术相比，本发明的优点和积极效果在于：

本发明通过分离特征图的高频特征(风格特征)和低频特征(内容特征)，并对高平特征施加变换，增加风格的复杂性，从而使模型学习风格不变性，增强对复杂风格的泛化性。适用范围广，提高了污染源标注的效率和准确性。

附图说明

图1为本发明模型的总体过程示意图。

图2为低频特征提取示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合具体实施例对本发明做进一步说明。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开说明书的具体实施例的限制。

实施例1

如图1和图2所示，本实施例提供基于风格不变性的空气污染源分割方法，具体步骤如下：

(1)数据集准备：收集并整理符合任务需求的空气污染源数据集，并为每幅图像标注语义掩码标签。随后将图像数据与掩码标签进行等比例缩放到512*512大小，不足5像素长度不足512的地方填充0。每幅图像及其语义掩码标签进行45°，90°，135°，180°旋转，随机进行4次范围中心裁剪，裁剪范围在原尺寸的60％到80％，图像随机平移4次。

(2)图像预训练：使用deeplabv3+卷积神经网络模型作为基线模型，以增强过的数据集作为输入，以像素级交叉熵作为损失函数，将污染源图像输入到deeplabv3+卷积神经网络模型中，对模型进行两轮训练，使网络具备初步的判断能力。

(3)获取目标区：在deeplabv3+模型具备一定判定能力时，将图像输入模型得到密集预测图g，密集预测图g中概率值高过平均值的像素，被认为是前景区域，根据前景像素的位置，从中间特征图f中获取到前景区域的特征。

f^R＝f[g＞avg(g)]

其中f^R为提取的前景特征，avg(·)代表对输入的图求均值。

(4)分离目标区域内容和风格：目标区域使用3*3平均池化得到低频特征。然后使用最邻近上采样将特征图尺寸还原。如图2所示得到特征图低频特征(内容特征)。可用下述公式表示：

f^L＝Upsampling(Avgpooling(f^R))，

原始前景特征图f^R减去低频特征f^L，则可得到高频特征f^H(风格信息)：

f^H＝f^R-f^L，

(5)风格特征变换：

对目标区域的高频特征图f^H上的元素进行k-means聚类，为了考虑到空间位置的影响，修改k-means中距离的衡量方式为下述形式：

其中(u1,v1),(u2,v2)分别代表高频特征图f^H上两个点的空间位置。代表在高频特征f^H上，(u1，v1)坐标处的特征向量。

所有像素聚为class_num个簇，将每个簇内高频特征分布视为高斯分布，计算每个簇的均值和方差：

然后每个簇内元素从其对应的均值和方差的高斯分布中采样，得到新的高频特征：

(6)特征叠加预测：新的高频特征与低频特征f^L进行像素级相加得到新的特征图/>新特征图/>和原特征图f输入到预测网络中，得到原图和变换后的密集预测图。

(7)计算分割损失和一致性损失：使用交叉熵分别对原特征图和转换后特征图得到的概率map(密集预测图)与语义掩码计算像素级损失，并计算转换后的特征图的预测map与原特征图概率map的KL散度，以缩小变换后特征图与原特征图的预测差异。

结论：通过上述方法，网络模型同时对经过风格特征变换的特征图和没有经过风格特征变换的特征图进行学习，并经过KL散度缩小二者的预测差距，使网络对风格信息不敏感，转而通过目标的内容信息进行判别，增强了模型的鲁棒性和泛化性。适用范围广，提高了污染源标注的效率和准确性。

名词注释：

交叉熵：交叉熵(Cross Entropy)是Shannon信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。在本文中，用来度量分类的预测结果与分类的真实标签的差异，因而又叫做交叉熵损失。

像素级交叉熵：相比起通常用于计算分类损失的普通交叉熵，像素级交叉熵，是在密集预测中使用的，计算每个像素点的分类损失。

语义掩码:标注了每个像素所属类别的标签。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.基于风格不变性的空气污染源分割方法,其特征在于，步骤如下：

S1：数据集准备

搜集已有的空气污染源数据集图像，标注出分割区域的语义掩码，并进行等比例缩放，然后进行旋转、平移、随机裁剪操作，得到备用图像集；

S2：图像预训练

使用deeplabv3+作为基线模型，以备用图像集作为输入，以像素级交叉熵作为损失函数，将备用图像集输入到网络中进行初步的训练，使网络具备初步的判断能力，得到预测网络；

S3：获取目标区

将待处理图像输入预测网络中，获取对待处理图像的密集预测图以及中间特征图f，根据密集预测图中高概率的像素获取中间特征图f前景目标区域图；

S4：分离目标区域内容和风格

对前景目标区域图施加平均池化操作后进行最邻近上采样，得到目标区域的低频特征图，前景目标区域图减去低频特征图得到高频特征图；

S5：风格特征变换

对高频特征图进行聚类，使用k-means对每个位置所有通道组成的向量进行聚类，得到语义掩码中类别数量的簇，对每个簇的元素求均值和方差；每个簇从参数为该簇均值和方差的高斯分布中随机采样，得到新的高频特征图a；

S6：特征叠加预测

步骤S5中高频特征图a与步骤S4中的低频特征图进行像素级相加得到新的特征图b；将新的特征图b和原中间特征图f输入到预测网络中，得到原中间特征图f和新的特征图b的概率map；

S7：计算分割损失和一致性损失

使用交叉熵分别对原特征图f和转换后特征图b得到的概率map与语义掩码计算像素级损失，并计算转换后的特征图b的概率map与原特征图f概率map的KL散度，以缩小变换后特征图与原特征图的差异。

2.根据权利要求1所述基于风格不变性的空气污染源分割方法,其特征在于，所述步骤S5中k-means公式如下：

其中，d为距离，u₁为第一个点横坐标位置，u₂为第二个点的横坐标位置，v₁为第一个像素的纵坐标位置，v₂为第二个像素的纵坐标位置，为在坐标（u₁,v₁）空间位置处点的各个通道组成的特征向量，/>为在坐标（u₂,v₂）空间位置处点的各个通道组成的特征向量。