CN115272777A

CN115272777A - 面向输电场景的半监督图像解析方法

Info

Publication number: CN115272777A
Application number: CN202211169230.1A
Authority: CN
Inventors: 聂礼强; 吴建龙; 胡志坤; 郑晓云; 熊剑平; 翟永杰; 郝艳敏; 张俊硕; 高赞
Original assignee: Shandong University; North China Electric Power University; Zhejiang Dahua Technology Co Ltd; Shandong Computer Science Center National Super Computing Center in Jinan; Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhiyang Innovation Technology Co Ltd
Current assignee: Shandong University; North China Electric Power University; Zhejiang Dahua Technology Co Ltd; Shandong Computer Science Center National Super Computing Center in Jinan; Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhiyang Innovation Technology Co Ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-11-01
Anticipated expiration: 2042-09-26
Also published as: CN115272777B

Abstract

本发明涉及输电线路巡检技术领域，具体涉及一种面向输电场景的半监督图像解析方法，包括以下步骤：S1：数据预处理：人工标注部分输电线路场景的分类数据集和目标检测数据集；S2:数据集的增广和模型优化训练：使用动态参数混合数据增广框架对有标注数据集进行数据增广和模型优化训练，将参数化后的混合数据增广策略融入到判别模型中；S3:半监督训练方法改良：基于S2中经过动态参数混合数据增广优化的模型，使用基于队列优化的鲁棒半监督训练方法，以最优队列的标签筛选策略替换传统的固定高阈值策略，来筛选高置信度伪标签以计算无监督损失；S4:获取S3中预训练好的模型参数，在输电线路图像解析的下游任务中测试效果。

Description

面向输电场景的半监督图像解析方法

技术领域

本发明涉及输电线路巡检技术领域，具体涉及面向输电场景的半监督图像解析方法。

背景技术

本发明背景技术中公开的信息仅仅旨在增加对本发明的总体背景的理解，而不必然被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。

电网是关系国计民生和国家能源安全的重要基础设施，由于外力破坏具有相当大的隐蔽性和随意性，人工巡检的工作方式很容易受地形复杂、环境复杂、气候复杂等客观因素限制且难以及时应对并处理突发事件。其中基于人工智能技术的自动监测巡检技术目前已经成为各大电网的重要巡检方式，“自动监测巡检为主，人工巡检为辅”业务已发展成为我国输电线路巡检的主要运维模式。

通常来说，对于深度学习技术，训练集包含的数据量越多、种类越丰富、标注数据的质量越高，在这个数据集上训练出来的神经网络模型的鲁棒性也就越强；现有技术中，通常采用半监督学习方法对输电线路进行检测，在半监督学习中，伪标签是一个很重要的技术。然而，随着模型训练而产生的伪标签往往伴随着大量错误标注，传统的解决方案是设定一个高而固定的阈值，筛选出置信度高的伪标签，然而固定阈值却影响了模型的鲁棒性和训练效率。

因此，尽管传统的半监督学习方法已在开放数据集上取得了足以媲美标准监督学习的性能表现，但若将传统半监督学习方法应用于与开放数据集相比噪声更大、类别更不平衡的目标数据集上时，将会暴露出模型鲁棒性低，训练效率低下，对模型初始化参数敏感等问题，从而严重影响模型的性能发挥。

发明内容

针对现有技术中存在的问题，本发明提供一种面向输电场景的半监督图像解析方法。

为了达到以上目的，本发明采取以下技术方案：

一种面向输电场景的半监督图像解析方法，包括以下步骤：

S1，数据预处理：人工标注部分输电线路场景的分类数据集和目标检测数据集；

S2，数据集的增广和模型优化训练：使用动态参数混合数据增广框架对有标注数据集进行数据增广和判别模型中特征提取模块的优化训练，将参数化后的混合数据增广策略融入到判别模型中；

S3，半监督训练方法改良：基于S2中经过动态参数混合数据增广优化的特征提取模块，使用基于队列优化的鲁棒半监督训练方法，以最优队列的标签筛选策略替换传统的固定高阈值策略，来筛选高置信度伪标签以计算无监督损失；

S4，获取S3中预训练好的特征提取模块参数，在输电线路图像解析的下游任务中测试效果。

进一步地，进行数据增广和判别模型中特征提取模块优化训练的主要过程包括以下步骤：

S21:构建动态参数混合数据增广网络的图片增广混合函数；

S22:构建动态参数混合数据增广网络的混合块；

S23，利用深度神经网络作为判别模型以提取图像特征并对图像进行分类，判别模型是由特征提取模块和分类头组成，特征提取模块提取的特征信息传递给分类头，分类头依据特征信息完成分类任务；将该深度神经网络作为动态参数混合数据增广网络的分类器模块，与混合模块共同构成动态参数混合数据增广网络；

S24:首先，将输电场景下采集的真实图像送入S23中的特征提取模块，特征提取模块提取这些图片的特征做成特征字典，然后将特征字典将传入S22中的混合块，混合块根据特征字典，使用提取好的特征组合生成新的训练数据集，将新的训练数据集传给S23中的特征提取模块进行训练，直到模型收敛。

进一步地，先对特征提取模块进行训练，然后单独训练混合模块，最后让特征提取模块和混合块一起训练，直至模型收敛。

进一步地，在步骤S3中，还包括以下步骤：

S31，通过将有标注数据用于标准交叉熵损失得到监督损失；

S32，对无标注样例生成临时伪标签，将所述伪标签用于标准交叉熵损失得到无监督损失；

S33，步骤S31中的监督损失和S32中的无监督损失通过一致性正则化算法进行半监督训练。

进一步地，在步骤S32中，还包括以下步骤：

S321，在给定无标注图像的弱增强版本的情况下计算其预测概率；

S322，对S321中得到的预测概率进行硬化操作得到伪标签；

S323，对S322中的伪标签进行择优操作；

S324，从S323中得到的伪标签按照比例r选出更优样本参与模型的优化；

S325，随着

的变化以实现样本选择的动态策略。

进一步地，标准交叉熵损失函数如下：

其中，

和

为自行定义量，令

为一批共计

个的标注示例，其中

是训练样例，指的是输电场景下的真实图片，

是

形式存储的标签。

进一步地，S321中得到的预测概率为：

所述伪标签为：

步骤S323中的伪标签进行择优操作为：

其中，

是预定义的择优函数。

进一步地，S4包括以下步骤：

S41:加载在S3中预训练好的深度神经网络的模型参数，保留该模型的主体架构部分，去除该模型的最后一层输出作为特征提取器；

S42:构建新的网络结构；将原网络中的特征提取模块替换预训练好的特征提取器；

S43：使用新的网络结构进行测试。

进一步地，步骤S21中，动态参数混合数据增广网络的图片增广混合函数如下：

其中

是逐元素点乘，

为混合比例，

表示嵌入了

混合比例信息的

层特征，

和

分别表示不同信息（

和

）的

层特征；

为中间层的样本特征，

为计算样本之间关系的函数，是在给定输入

的条件下，通过S22中混合块学习得到；模型在给定输入

的前提下，经过函数

的作用，得到增广之后的图片。

进一步地，步骤S22中，混合块的构建需要生成像素级的掩码块，掩码块的生成

如下：

其中

是样本对的关系函数如下所示，

是线性变化矩阵，

激活函数Sigmoid，

是上采样函数；

动态参数混合数据增广网络的混合块的输入是来自特征字典的两个特征

和

，以及混合比例

；

是共享参数的线性变化矩阵，

是归一化因子。

本发明有益效果：本发明采用自主构建的输电线路数据集，充分学习和挖掘输电线路中存在各类隐患物体的视觉特征，并通过提出一种动态参数混合数据的增广技术，形成一个完整的数据与模型相互学习的闭环系统，数据随模型变化，模型随数据更新的双层优化问题来增强数据样本的多样性，从而保证检测模型具有鲁棒性。

本发明针对输电线路场景标注人力物力成本过大的问题和传统半监督学习中设定的固定高阈值带来的数据利用率不高、模型鲁棒性不好的问题，提出一种叫最优队列的标签筛选策略替换传统的固定高阈值策略，来选取那些置信度高的伪标签去计算无监督损失，进一步提高模型的泛化性和准确率。

通过基于动态参数混合数据增广技术和应用于半监督学习的高置信度样本筛选策略，在仅有少量标注数据训练情况下，构建了精度与速度方面都具有优势的模型。

附图说明

图1为基于动态参数混合数据增广和队列优化的鲁棒半监督方法的流程示意图；

图2为动态参数混合数据增广框架示意图；

图3队列优化的鲁棒半监督学习算法示意图；

图4为最优队列内部操作示意图。

具体实施方式

下面结合具体实施例和附图对本发明作进一步说明。

本发明提出了一种面向输电场景的半监督图像解析方法，包括以下步骤（整体的流程示意图参见附图1）：

S1：数据预处理：人工少量标注输电线路场景的分类数据集和目标检测数据集；

S2: 使用动态参数混合数据增广框架（如图2所示）对少量有标注数据集进行数据增广和模型优化训练；这是一个不同于固定的数据增广策略的模式-独立于模型的优化，该过程将参数化后的混合（mixup）数据增广策略融入到判别模型中，形成一个完整的数据与模型相互学习的闭环系统，即同时学习混合样本的生成任务和判别任务。这是一个数据随模型变化，模型随数据更新的双层优化问题；判别模型由特征提取模块和分类头组成；

S3: 基于S1中获得的少量有标注数据、相对大量的无标注数据和S2中经过动态参数混合数据增广优化的模型，使用基于队列优化的鲁棒半监督训练方法，以最优队列的标签筛选策略替换传统的固定高阈值策略，来筛选高置信度伪标签以计算无监督损失，以期取得相较传统半监督方法更好的模型泛化性与准确率；

S4: 获取S3中预训练好的模型参数，在输电线路图像解析的下游任务中测试效果。这里以构建目标检测任务为例，使用Faster R-CNN模型，采用预训练+调参的模式，实现参数和模型迁移。其中Backbone模块使用S3步骤中预训练好的分类模型。结合微调的方法，输入用少量有标注的目标检测数据集，冻结Backbone模块，训练Faster R-CNN目标检测模型，以获得更精确的输电线路目标检测的效果。

进一步地，所述步骤S1数据预处理的过程还包括：

S11：采用输电线路上高清摄像头，针对九类输电线路隐患物体采集的照片；并根据其图片内容做好类别标注；此数据集作为训练分类模型的数据集；

S12: 使用标注工具对固定尺度的图像数据进行人工标注，标注塔吊、卡车、防尘网、推土机、挖掘机、汽车起重机、烟、火和水泥搅拌机九种存在对输电线路造成隐患的物体，每张图片对应一个json格式的标注文件，再按照COCO数据集格式将所有标注文件转换为一个总的标注文件；此数据集作为图像解析下游任务微调的数据集。

进一步地，所述步骤S2使用动态参数混合数据增广框架对少量有标注数据进行数据增广和模型优化训练的过程还包括：

S21:本发明设计的动态参数混合数据增广网络的图片增广混合函数如下：

其中

是逐元素点乘，

为混合比例，

表示嵌入了

混合比例信息的

层特征，

和

分别表示不同信息（

和

）的

层特征；

为中间层的样本特征，

为计算样本之间关系的函数，是在给定输入

的条件下，通过S22中混合块学习得到；模型在给定输入

的前提下，经过函数

的作用，得到增广之后的图片；增广之后的图片可以有效的训练分类器，分类器训练的结果也会影响函数

，对函数

进行优化；分类器和函数

相互促进彼此优化，在真实输电场景下应用时，可以使得分类器更加快速的收敛，同时也可以增加其鲁棒性；

S22:构建动态参数混合数据增广网络的混合块；混合块的构建需要生成像素级的掩码块，掩码块的生成

如下：

其中

是样本对的关系函数如下所示，

是激活函数

，

是上采样函数；

是线性变化矩阵（如1×1卷积），该矩阵使用正态分布随机初始化矩阵参数，后经过神经网络学习梯度优化；

和

，以及混合比例

；两个特征分别经过一个1x1的卷积核，改变其尺寸，使得两个特征保持相同的尺寸；之后分别经过线性变化矩阵

的变换，

是共享参数的线性变换矩阵，其参数是

经过上述神经网络学习梯度优化后的参数，然后两矩阵相乘经过

函数把结果作为

的输入（见公式

）；同时特征

直接经过一个1x1卷积，然后进线性变化矩阵

，把结果和

的输出进行矩阵乘法；最后把结果经过一个

变化得到最后的输出

；

S23: 利用深度神经网络作为判别模型,判别模型是由特征提取模块和分类头组成，构建了一个Resnet50结构的神经网络模型作为特征提取模块，该特征提取模块由若干卷积块通过残差连接的方式构成，卷积块可以提取图片中的特征信息，例如当我们输入一张人脸图片时，较为低层的卷积会提取出图片中的纹理，颜色等特征，但是随着网络加深，卷积视野变大变可以提取出类似眼睛，耳朵等的图片特征，最后将特征提取模块提取的特征信息传递给分类头，分类头依据特征信息完成最后的分类任务；这里的特征提取模块可以有多种主干网络选择，并不局限于Restnet50结构，它们目的是为了提取图像特征，然后通过分类头对图像进行分类；将该网络作为动态参数混合数据增广网络的分类器模块，与混合模块一起构成整个动态参数混合数据增广网络；

S24:首先，将输电场景下由各种摄影设备所采集的真实图像送入特征提取模块，特征提取模块将会提取这些图片的特征，将训练数据分别提取特征之后做成特征字典，然后特征字典将被传入混合块，混合块根据特征字典，使用提取好的特征组合生成新的训练图片和训练标签，这些新的数据集合又将传递给特征提取模块进行训练，直到模型收敛；训练刚刚开始时，可以先对特征提取模块进行训练，当特征提取模块有一定的特征提取能力之后，将特征提取模块冻住不进行梯度计算；单独训练混合模块，由于混合模块比较简单，故而仅仅只需要几个批次的训练即可有较好的性能；此时在让特征提取模块和混合块一起训练，直至模型收敛。

进一步地，在步骤S3中，将在少量的有标注数据与大量的无标注数据之上以半监督的方式训练模型，此处的数据特指输电场景下由摄影设备采集的各种图像，模型的目标任务是对所有的数据进行图像分类。通过这样的训练，将取得一个良好的特征提取器，在产生有限的源数据变更或业务目标改变时，它可以较快且较好地以微调等方式适应新的任务。需要注意的是，虽然传统的半监督训练方法，已在开放数据集上取得了相当优秀的分类效果，但仍存在模型鲁棒性低，训练效率低下，对模型初始化参数敏感等问题，特别是针对输电场景下的真实图片来说。本发明提出了基于最优队列的标签筛选策略加以改进，可以较好地增强模型鲁棒性，提高模型的训练效率，降低其对初始化的敏感程度。在此步骤中，有标注数据的来源有二，分别是以人工形式标注的少量数据，以及以数据增广形式生成的数据；无标注数据则全部来源于从真实的输电作业场景中采集得到但并未人工标注的数据。无论是有标注数据还是无标注数据，都将采用一致的预处理。同时，要求在S1和S2中完成所有的数据准备工作。

进一步地，S3中背景知识与符号引入：在这一部分将在引入要使用的符号的同时，补充与半监督算法密切相关的常识性知识；

对于一个

类的分类问题，令

为一批共计

个的标注示例，其中

是训练样例，指的是输电场景下的真实图片，

是以

形式存储的标签，指的是经由人工标注产生或S2生成的类别信息；令

为一批共计

个的无标注示例，指的是因各种原因无法标注的输电场景图像；其中

是确定

和

的相对大小的超参数；设

是模型为输入

生成标签

的预测概率；例如其中两个概率

和

之间的交叉熵是

；在训练模型时，对样例分别应用强增强与弱增强，对应于

和

；具体的增强形式可以在实际应用时，视实验的具体效果和数据的固有特点而定，在此处，仅要求强增强应该具有比弱增强幅度更大的图像改变程度，比如空间上更大的扭曲，色彩上更大的失真等；

一致性正则化算法是半监督算法的重要组成部分；其利用无标注的数据，依赖于模型在输入同一图像的扰动版本时应该输出相似预测的假设；模型通过与标准监督损失相一致的损失函数进行训练：

其中，

和

都可以由自行定义，例如弱增强

可以是旋转一定的角度，概率预测

可以是将图像通过一个全连接网络；

伪标签指的是将无标注样例直接通过模型，由模型给出预测并将其硬化（一般指的是

操作）产生的标签；通常，需要筛选出那些最大类概率符合要求的较好的伪标签；即令

，伪标签算法使用损失函数：

其中

，

是择优函数，将从产生了初步预测概率的样本中选出符合期望的样本；为简单起见，假设

应用于概率分布会产生有效的

概率分布；硬标签的使用使得伪标签与熵最小化密切相关，其中鼓励模型的预测是对无标注数据的低熵，即高置信度；

整个半监督训练过程的损失函数由两个交叉熵损失组成：应用于有标注数据的监督损失

和无监督损失

；其中，

为标准监督下的交叉熵损失，将被使用在输电场景下真实图像的有监督分类上：

将每个无标注的样例通过网络，生成一个临时的伪标签，然后将其用于标准交叉熵损失；为了获得这个伪标签，首先在给定无标注图像的弱增强版本的情况下计算其预测概率：

；然后，使用

作为伪标签，在对

的强增强版本的模型输出强制交叉熵损失之前，需要先进行一个重要的择优步骤：

其中，

是预定义的择优函数，具体的，将维护一个包含所有或者部分无标签样本的队列，队列中的样本将按照其最大预测概率进行降序排序，将前部的数据（最大预测概率较高的那些）认为是符合期望的样本数据，通过函数的另一个参数，预定义比例值

，将从所有样本中选出比例为

的较优样本参与模型的优化，并在整个训练过程中，随着

的变化以实现样本选择的动态策略；实际上，这一择优方式是的方法与传统半监督方法的重要区别之一，其优势是可以显著增强模型的鲁棒性，降低其对初始化参数的敏感程度，并在一定程度上改善模型的训练效率，尤其是在输电场这样一个明显区别于开放数据集的特殊场景中；将最优化的目标损失定义为

，

是一个固定的标量超参数，表示无标注损失的相对权重；

对半监督训练过程的伪码表述如下：

算法名称：算法3-1 队列优化的鲁棒半监督学习

算法输入: 一批共计

个的标注示例

, 一批共计

个的无标注示例

，预定义的择优函数和预定义比例值

，无标注数据比例

，无标注损失的相对权重

；

1:进行有监督的训练，计算交叉熵损失：

2:进入循环，依次对每一个数据

，在给定无标注图像的弱增强版本的情况下进行伪标签预测，总共

个数据；即：

3:循环结束后，使用

作为伪标签，在对

的强增强版本的模型输出强制交叉熵损失之前，需要先进行一个重要的择优步骤，使用

预定义的择优函数和预定义比例值

，从所有样本中选出比例为

的较优样本参与模型的优化；即：

4:最后返回最优化的目标损失

；

return

关于队列优化的鲁棒半监督学习算法的直观图示以及最优队列的内部操作示意图，请参见附图3和附图4。

进一步地，所述步骤S4采用预训练+调参的模式，实现参数和模型迁移；在输电线路图像解析的下游任务中测试，以目标检测Faster R-CNN模型为例；

S41：加载在S3中预训练好的深度神经网络（ResNet50）的模型参数，保留该模型的主体架构部分，去除该模型的最后一层输出作为特征提取器；该特征提取器可以运用到任意需要特征提取的网络架构当中，本专利中将该特征提取器应用于需要进行目标检测的场景下，以Faster R-CNN结构为例作为下游任务的测试模型；

S42：构建Faster R-CNN网络结构；将原网络中的特征提取模块替换为预训练好的特征提取器；

S43：在模型训练中特征提取器将不进行梯度计算；少量数据集经过特征提取器生成特征字典，特征字典通过分类器和锚框预测网络最终生成目标检测的结果；其中分类器和锚框预测网络使用原始Faster R-CNN中的架构，并对其进行梯度计算；经过多轮迭代直到模型收敛。

本发明解决了以下问题：

（1）如何构建输电线路巡检数据集并进行动态参数混合数据增广。因为目前没有开源的输电线路巡检的数据，需要基于安装在输电线路的高清摄像头进行数据集的自主采集并进行人工标注。针对这一问题，本发明拟使用基于动态参数混合增强的技术对有标注数据进行增广，建立一个完整的数据与模型相互学习的闭环系统，并设计一种策略能够精确定位目标区域并准确生成混合样本，而且在一定程度上减少了额外计算成本，提高了训练效率。针对大量因各种原因无法标注的样本，本发明将使用队列改良的半监督学习技术加以充分利用，以期达到媲美完全监督学习的性能。构建了充足、完整的输电线路场景数据集。

（2）如何改进现有的半监督学习框架，提高无标签数据的利用率和模型的鲁棒性。本发明将提出一种基于最优队列的标签筛选策略改良现有的半监督学习方法，此举将可以较好地增强模型鲁棒性，提高模型的训练效率，降低其对初始化的敏感程度。

本发明针对输电线路场景标注人力物力成本过大的问题和传统半监督学习中设定的固定高阈值带来的数据利用率不高、模型鲁棒性不好的问题，提出一种叫最优队列的标签筛选策略替换传统的固定高阈值策略，来选取那些置信度高的伪标签去计算无监督损失，进一步提高模型的泛化性和准确率。通过基于动态参数混合数据增广技术和应用于半监督学习的高置信度样本筛选策略，在仅有少量标注数据训练情况下，构建了精度与速度方面都具有优势的模型。

本发明采用预训练+调参的模式，针对图像解析的下游任务，实现参数和模型迁移。本发明以采用高精度的Faster R-CNN检测模型为例，主干网络采用上述技术预训练的ResNet50网络，并加入特征金字塔来捕捉不同尺度的特征信息，取得了在输电场景外患识别任务中不错的效果。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。