CN114092798B

CN114092798B - 一种基于半监督学习策略的火灾实例分割方法

Info

Publication number: CN114092798B
Application number: CN202111250916.9A
Authority: CN
Inventors: 孙光民; 文宇轩; 李煜
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2024-06-11
Anticipated expiration: 2041-10-26
Also published as: CN114092798A

Abstract

一种基于半监督学习策略的火灾实例分割方法属于图像处理领域。包括：对现有实例分割模型进行改进，通过引入注意力机制、可变形卷积提升模型精度；针对火灾实例分割任务缺乏数据样本及标注的问题，提出一种基于火灾场景的实例分割模型半监督学习策略，引入火焰和烟雾的颜色与形态学特征，对半监督学习中生成的伪标签进行置信度筛选，降低错误伪标签引入的精度损失；针对数据集中类别不均衡问题和半监督学习错误伪标签的精度损失问题，通过改进的“copy‑paste”算法对混合训练集进行图像增强。有效提高模型的精确度及泛化性。本发明解决了火灾场景实例分割模型精度不高，泛化性不强的缺陷。

Description

一种基于半监督学习策略的火灾实例分割方法

技术领域

本发明属于图像处理技术，尤其涉及一种基于半监督学习策略的火灾实例分割方法。

背景技术

在当今的现代化社会中，火在生产和生活中都有着不可或缺的应用，但火在给人类带来便利的同时也伴随着事故与风险，严重的威胁着人民群众的生命财产安全。火灾大多具有起因复杂，燃烧面积大，扑救困难的特点，并且难以预测发生地点。特别在工业区和植被茂密的林区，任何微小且隐蔽的起火点都可能造成一场损失惨重的大灾难。

一直以来，对火灾的监测手段通常借助传统传感器的感知能力，通过感知火灾场景中的光、热、烟和气等物理量结合具体的设定阈值作为火灾是否发生的依据，进而实现火灾场景的监测。这种方法在小范围密闭空间中已有良好的应用，但针对于大范围场景及非密闭空间中，受限于传感器的工作原理和成本限制，无法大规模布置。所以在这类场景中，基于图像的火灾监测技术成为了主流方法，火灾场景中会伴随着明显的烟雾和火焰特征，基于特征提取和目标识别方法，能够对其进行有效的监测。自深度学习兴起后，深度学习方法替代了传统的手工特征提取方法，能够实现端到端的识别技术，成为了图像处理领域的主流。

目前主流的实例分割方法在火灾检测任务上存在着诸如火灾图像样本不足，火焰和烟雾掩膜标注困难，推理速度过慢等问题。为此，如何将火灾的光学特性结合深度学习的实例分割方法设计出一套精度较高且具备实时性的方法成为了需要解决的技术问题

发明内容

针对现有技术中的问题，本发明提供一种基于深度学习和半监督学习策略的火灾实例分割方法，该方法解决了现有技术中，火灾图像样本量较少，标注困难，精度较差的难题。

本发明提供一种基于深度学习的火灾实例分割方法，基于半监督学习策略解决了火灾图像样本少，标注困难的问题，基于类别均衡的“copy-paste”图像增强算法解决数据集内类别不均衡的问题，提升了模型性能与泛化性。

本方法主要步骤如下：

一.火灾实例分割模型构建

首先对实例分割模型进行改进，通过引入注意力机制、可变形卷积提升模型精度，针对火灾场景的特殊性，通过减小检测头的卷积核个数和图像尺寸，增加模型的推理效率。

二.基于火灾场景的半监督学习策略

针对火灾实例分割任务缺乏数据样本及标注的问题，提出一种基于火灾场景的实例分割模型半监督学习策略，引入火焰和烟雾的颜色特征及形态学特征，对半监督学习中生成的伪标签进行置信度判定及筛选，降低伪标签中错误标签混入带来的误差。

三.基于类别均衡的“copy-paste”图像增强算法

针对数据集中类别不均衡问题和半监督学习中错误标签混入带来的精度下降问题，通过进行类别均衡后的“copy-paste”算法对混合训练集进行图像增强。有效提高模型的精确度及泛化性。

S1、首先对实例分割模型进行改进，通过引入注意力机制、可变形卷积提升模型精度，针对火灾场景的特殊性，通过减小检测头的卷积核个数和图像尺寸，增加模型的推理效率。

采用ResNet-50为特征提取骨干网络的SOLOv2实例分割方法为基础架构，将原有网络中特征提取骨干网络结构和实例分割检测头上的普通卷积核替换为可变型卷积(DCNv2)，在骨干特征提取网络ResNet-50中添加注意力机制，本实施例中选取结合空间注意力和通道注意力的CBAM注意力机制，在每个ResNet-Block后添加该模块。由于原版网络架构针对多目标复杂场景的COCO数据集构建，对于火灾场景，将检测头的卷积核数量缩减为原来的一半，发现对精度几乎无影响，而模型的推理速度增加了近百分之五十。

S2、针对火灾实例分割任务缺乏数据样本及标注的问题，提出一种基于火灾场景的实例分割模型半监督学习策略，引入火焰和烟雾的颜色特征及形态学特征，对半监督学习中生成的伪标签进行置信度判定及筛选，降低伪标签中错误标签混入带来的误差。

引入半监督训练策略训练上述方案构建的模型。采用类似于Self-Training自训练分类算法的思想，但基于火灾实例分割任务与常规分类任务的不同，提出一种基于火灾特征的半监督实例分割训练算法。

首先使用已有人工标注的图像数据，训练得出第一个教师模型。使用该教师模型在未标注的图像数据进行推理，生成对应的伪标签数据。针对每一个伪标签数据生成的掩膜轮廓，使用火灾的颜色特征和形态学特征进行评分，判断其真实性。采用的火焰的颜色特征判据、烟雾颜色模型判据和形态学特征针对每一个伪标签中的掩膜轮廓进行评分，再与教师模型输出的伪标签置信度进行混合，对每一张图像上的掩膜计算出得分后进行排序，选择得分高的前若干张图像及伪标签设置为伪标签数据集。对该伪标签数据集和原数据集进行S3步骤的图像增强，将增强后的数据集和训练集以及伪标签数据集进行混合，得到新的数据集后重复S2步骤，直至模型在验证集上的精度收敛且不再上升为止。

S3、针对数据集中类别不均衡问题和半监督学习中错误标签混入带来的精度下降问题，通过进行类别均衡后的“copy-paste”算法对混合训练集进行图像增强。有效提高模型的精确度及泛化性。

对训练集和伪标签数据集进行类别均衡分布的“Copy-Paste”算法进行图像增强。对于每一张伪标签数据集中的图像，都执行一次混合粘贴方法，在粘贴的过程中，对裁剪出的掩膜部分和主图像做0.1至2.0倍的随机缩放，将缩放后的图像再进行结合。在选取源图和目标图之前，首先对训练集和伪标签数据集进行类别统计。所以在选取源图时，取类别统计的反比例抽取掩膜集合，对目标图做粘贴时，从该掩膜集合中随机选择源图掩膜。

综上所述，本发明利用了基于深度神经网络的实例分割模型对火灾场景做了针对性改进，且针对火灾实例分割任务缺少数据样本及标注的问题提出一种新的火灾场景实例分割半监督训练策略，有效提高火灾实例分割任务的精度和泛化性。本发明所提出的火灾场景的实例分割方法为相关的研究和业务化应用提供重要支撑。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1表示本发明实例一提供的基于半监督学习策略的火灾实例分割方法的流程示意图。

图2表示本发明实例一提供的基于SOLO算法的火灾实例分割方法结构示意图。

图3表示本发明实例一提供的输入火灾场景图像样本及标签可视化图示例。其中图3(a)表示火灾场景图像，图3(b)表示对应的输入网络数据的可视化图。

图4表示本发明实例一提供的ResNes-50骨干网络上CBAM注意力机制的嵌入结构。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

在以下的描述中，将描述本发明的多个不同的方面，然而，对于本领域内的普通技术人员而言，可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言，阐述了特定的数目、配置和顺序，但是很明显，在没有这些特定细节的情况下也可以实施本发明。在其它情况下，为了不混淆本发明，对于一些众所周知的特征将不再进行详细阐述。

针对现有技术中利用光学图像进行火灾实例分割精度有限，基于现有实例分割模型进行模型结构修改。结合基于火灾颜色及形态学特征的半监督学习策略和类别均衡的copy-paste算法，提高针对火灾场景的实例分割模型的精度与泛化性。

具体实施方式如下：

实施例一

图1示出了基于半监督学习策略的火灾实例分割方法的流程示意图。该方法包括如下步骤。

S1、实施例采用如图2所示ResNet-50为特征提取骨干网络的SOLOv2实例分割方法为基础架构，采用火灾场景样本图像和labelme软件标注出的图像标签以json格式保存并作为网络训练输入，训练图像及可视化标签如图3所示。网络采用多尺度输入，基准图像输入大小为852×480像素，图像将在输入后被随机缩放到基础图像输入尺寸相近的尺寸。

首先根据原版实例分割方法构建火灾实例分割模型，将原有网络中特征提取骨干网络结构和实例分割检测头上的普通卷积核替换为可变型卷积(DCNv2)，其并没有改变卷积的计算方式，而是在卷积操作的作用区域上，加入了一个可学习的参数Δp_n，在普通卷积中，对于每个输出y(p₀)，都要从x上采样9个位置，这9个位置是中心位置x(p₀)向四周均匀扩散至网格状形成，而在可变型卷积中，由于多一位偏移量Δp_n，允许采样点扩散成非网格状。具体公式如下：

其中，P_R代表从中心位置x(p₀)向四周均匀扩散成网格状的偏移量点集。p_n是对P_R点集中位置的枚举。w(p_n)代表对p_n赋予训练得到的权重进行归并。

Δp_n是通过对原始特征层进行卷积得到的。在偏移量的学习中，梯度通过双线性插值进行反向传播。

在骨干特征提取网络ResNet-50中添加注意力机制，本实施例中选取如图4所示的结合空间注意力和通道注意力的CBAM注意力机制，在每个ResNet-Block后添加该模块。

对于火灾场景，将检测头的卷积核数量缩减为原来的一半，发现对精度几乎无影响，而模型的推理速度增加了近百分之五十。

S2、引入半监督训练策略训练上述方案构建的模型。采用类似于Self-Training自训练分类算法的思想，但基于火灾实例分割任务与常规分类任务的不同，提出一种基于火灾特征的半监督实例分割训练算法。下图1示出了本方法的具体流程。

S21、首先使用已有的2300张已人工标注的图像数据，分为1700张训练集和500张验证集。使用训练集样本训练上述模型，采用Momentum-SGD学习算法，学习率为0.001，动量(Momentum)为0.9，学习率衰减(learning rate decay)为0.0001，总训练轮次为120轮，在第60轮、第90轮和第110轮发生学习率衰减，训练得出第一个教师模型。

S22、使用该教师模型在13000张未标注的图像数据进行推理，生成对应的伪标签数据。针对每一个伪标签数据生成的掩膜轮廓，使用火灾的颜色特征和形态学特征进行评分，判断其真实性。

采用的火焰的颜色特征判据为：

R>G>B (1-1)

R>R_thred (1-2)

S>(255-R)×R_thred/S_thred (1-3)

其中，R、G、B分别代表RGB图像的每个像素的红色、绿色和蓝色分量，S代表该像素点的饱和度，R_thred和S_thred分别是红色分量和饱和度的阈值，分别设置为55和115，饱和度计算公式为：

S＝(255-3×min(R,G,B))/(R+G+B)

同时满足(1-1)、(1-2)和(1-3)判据，将其该像素点视作满足火焰的颜色特征判据。

采用的烟雾颜色模型判据为：

R,G,B∈(Gray-thred,Gray+thred) (2-1)

Gray<220 (2-2)

其中，thred代表阈值，设置为10，Gray代表灰度值，为R、G、B三分量的平均值。

同时满足(2-1)和(2-2)判据，将该像素点视作满足烟雾的颜色特征判据。

在颜色特征匹配中，对于伪标签的每一个掩膜轮廓内所对应的原始图像中的每一个像素都进行颜色匹配，对于对应类别的掩膜，检验掩膜内每一个像素是否匹配。

对于火焰掩膜，计算其ColorScore得分：

其中FirePixel指在该轮廓范围内所有满足火焰的颜色特征判据的像素点个数，TotalPixel代表该轮廓中所有像素点个数。

对于烟雾掩膜，计算其ColorScore得分：

其中SmokePixel指在该轮廓范围内所有满足烟雾的颜色特征判据的像素点个数，TotalPixel代表该轮廓中所有像素点个数。

通过上述公式对该并计算出整个掩膜的匹配比，生成一个位于0到1之间的ColorScore得分，针对所有掩膜的烟雾和火焰得分进行标准化。

采用的形态学特征分为三项：

1.圆形度：

其中，S表示掩膜轮廓的面积，L表示掩膜轮廓的周长。掩膜的形状和圆的相似度越小，圆形度的值就越小。

2.矩形度：

R＝S/S_R

其中，S表示掩膜轮廓的面积，S_R表示包含掩膜所在区域的最小外接矩形的面积。物体与矩形越接近，矩形度的数值越大。

3.边界粗糙度：

B_R＝L/L_CH

边界粗糙度通过计算掩膜轮廓的周长与其外接凸包周长的比值，描述掩膜轮廓的粗糙程度。凸包是指包含某个疑似火焰连通域像素的最小凸集。上式中，L_CH为凸包周长，L为物体所在区域周长。

对于掩膜轮廓的形态学得分，将上述三个特征得分使用下式综合起来：

ContourScore＝circularity×40％+R×40％+B_R×20％

对于每一个掩膜轮廓都计算其形态学得分，并对全体掩膜轮廓的形态学得分进行标准化，最后整体的掩膜得分为：

MaskScore＝ColorScore×60％+ContourScore×40％

对每一张图像上的掩膜计算出得分后进行排序，选择得分高的前1000张图像及伪标签设置为伪标签数据集。

S23、对该伪标签数据集和原数据集进行S3步骤的图像增强，将增强后的数据集和训练集以及伪标签数据集进行混合，得到新的数据集后，使用该数据集和S21所示模型和训练方法重新进行训练，得到新的学生网络，将该学生网络作为新的教师网络，重复S22至S23步骤，至模型在验证集的验证精度收敛，即前后三轮以上的学生网络模型验证精度相差不超过0.2mAP。

S3、对训练集和伪标签数据集进行类别均衡分布的“Copy-Paste”算法进行图像增强。对于每一张伪标签数据集中的图像，都执行一次如下公式的混合粘贴方法，生成一张新的图像及对应标签：

I_new＝I₁×α+I₂×(1-α)

上式中，I₁是粘贴对象所在的源图像，I₂是主图像，α是I₁中目标粘贴对象所对应的掩膜，将I₁中的掩膜部分的像素裁剪出，粘贴到I₂中，形成一个新的图像数据。在选取源图I₁和目标图I₂之前，首先对训练集和伪标签数据集进行类别统计，在本训练集中，火焰与烟雾实例所占的比例为7:3。所以在选取源图I₁时，以火焰烟雾类别比3:7的比例抽取掩膜集合，对目标图I₂做粘贴时，从该掩膜集合中随机选择源图掩膜。在粘贴的过程中，对裁剪出的掩膜部分和主图像做0.1至2.0倍的随机缩放，将缩放后的图像再进行结合。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于半监督学习策略的火灾实例分割方法，其特征在于：

S1、采用火灾场景样本图像和labelme软件标注出的图像标签以json格式保存并作为网络训练输入，训练图像及可视化标签；网络采用多尺度输入，基准图像输入大小为852×480像素；

根据原版实例分割方法构建火灾实例分割模型，将原有网络中特征提取骨干网络结构和实例分割检测头上的普通卷积核替换为可变型卷积DCNv2，其并没有改变卷积的计算方式，而是在卷积操作的作用区域上，加入了一个可学习的参数Δp_n，在普通卷积中，对于每个输出y(p₀)，都要从x上采样9个位置，这9个位置是中心位置x(p₀)向四周均匀扩散至网格状形成，而在可变型卷积中，由于多一位偏移量Δp_n，允许采样点扩散成非网格状；具体公式如下：

其中，P_R代表从中心位置x(p₀)向四周均匀扩散成网格状的偏移量点集；p_n是对P_R点集中位置的枚举；w(p_n)代表对p_n赋予训练得到的权重进行归并；

Δp_n是通过对原始特征层进行卷积得到的；在偏移量的学习中，梯度通过双线性插值进行反向传播；

在骨干特征提取网络ResNet-50中添加注意力机制；

S2、引入半监督训练策略训练上述方案构建的模型；具体如下：

S21、首先使用已有的已人工标注的图像数据，分为训练集和验证集；使用训练集样本训练上述模型，采用Momentum-SGD学习算法，学习率为0.001，动量为0.9，学习率衰减为0.0001，总训练轮次为120轮，在第60轮、第90轮和第110轮发生学习率衰减，训练得出第一个教师模型；

S22、使用该教师模型在未标注的图像数据进行推理，生成对应的伪标签数据；针对每一个伪标签数据生成的掩膜轮廓，使用火灾的颜色特征和形态学特征进行评分，判断其真实性；

采用的火焰的颜色特征判据为：

R＞G＞B (1-1)

R＞R_thred (1-2)

S＞(255-R)×R_thred/S_thred (1-3)

其中，R、G、B分别代表RGB图像的每个像素的红色、绿色和蓝色分量，S代表像素点的饱和度，R_thred和S_thred分别是红色分量和饱和度的阈值，分别设置为55和115，饱和度计算公式为：

S＝(255-3×min(R，G，B))/(R+G+B)

同时满足(1-1)、(1-2)和(1-3)判据，将其该像素点视作满足火焰的颜色特征判据；

采用的烟雾颜色模型判据为：

R，G，B∈(Gray-thred，Gray+thred) (2-1)

Gray<220 (2-2)

其中，thred代表阈值，设置为10，Gray代表灰度值，为R、G、B三分量的平均值；

同时满足(2-1)和(2-2)判据，将该像素点视作满足烟雾的颜色特征判据；

在颜色特征匹配中，对于伪标签的每一个掩膜轮廓内所对应的原始图像中的每一个像素都进行颜色匹配，对于对应类别的掩膜，检验掩膜内每一个像素是否匹配；

对于火焰掩膜，计算其ColorScore得分：

其中FirePixel指在该轮廓范围内所有满足火焰的颜色特征判据的像素点个数，TotalPixel代表该轮廓中所有像素点个数；

对于烟雾掩膜，计算其ColorScore得分：

其中SmokePixel指在该轮廓范围内所有满足烟雾的颜色特征判据的像素点个数，TotalPixel代表该轮廓中所有像素点个数；

通过上述公式计算出整个掩膜的匹配比，生成一个位于0到1之间的ColorScore得分，针对所有掩膜的烟雾和火焰得分进行标准化；

采用的形态学特征分为三项：

圆形度：

其中，S表示掩膜轮廓的面积，L表示掩膜轮廓的周长；掩膜的形状和圆的相似度越小，圆形度的值就越小；

矩形度：

R＝S/S_R

其中，S表示掩膜轮廓的面积，S_R表示包含掩膜所在区域的最小外接矩形的面积；物体与矩形越接近，矩形度的数值越大；

边界粗糙度：

B_R＝L/L_CH

边界粗糙度通过计算掩膜轮廓的周长与其外接凸包周长的比值，描述掩膜轮廓的粗糙程度；凸包是指包含某个疑似火焰连通域像素的最小凸集；上式中，L_CH为凸包周长，L为物体所在区域周长；

ContourScore＝circularity×40％+R×40％+B_R×20％

MaskScore＝ColorScore×60％+ContourScore×40％

对每一张图像上的掩膜计算出得分后进行排序，选择得分高的前1000张图像及伪标签设置为伪标签数据集；

S23、对该伪标签数据集和原数据集进行S3步骤的图像增强，将增强后的数据集和训练集以及伪标签数据集进行混合，得到新的数据集后，使用该数据集和S21所示模型和训练方法重新进行训练，得到新的学生网络，将该学生网络作为新的教师网络，重复S22至S23步骤，至模型在验证集的验证精度收敛，即前后三轮以上的学生网络模型验证精度相差不超过0.2mAP；

S3、对训练集和伪标签数据集进行类别均衡分布的Copy-Paste算法进行图像增强；对于每一张伪标签数据集中的图像，都执行一次如下公式的混合粘贴方法，生成一张新的图像及对应标签：

I_new＝I₁×α+I₂×(1-α)

上式中，I₁是粘贴对象所在的源图像，I₂是主图像，α是I₁中目标粘贴对象所对应的掩膜，将I₁中的掩膜部分的像素裁剪出，粘贴到I₂中，形成一个新的图像数据；在选取源图I₁和目标图I₂之前，首先对训练集和伪标签数据集进行类别统计，火焰与烟雾实例所占的比例为7∶3；所以在选取源图I₁时，以火焰烟雾类别比3：7的比例抽取掩膜集合，对目标图I₂做粘贴时，从该掩膜集合中随机选择源图掩膜；在粘贴的过程中，对裁剪出的掩膜部分和主图像做0.1至2.0倍的随机缩放，将缩放后的图像再进行结合。