CN114387538A

CN114387538A - 基于YoloX网络的变电站作业现场安全识别方法

Info

Publication number: CN114387538A
Application number: CN202111532947.3A
Authority: CN
Inventors: 张博; 俞君杰; 郭晓川; 周立壮
Original assignee: Jiangsu Electric Power Information Technology Co Ltd
Current assignee: Jiangsu Electric Power Information Technology Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-22

Abstract

本发明公开了一种基于YoloX网络的变电站作业现场安全识别方法，收集含有需要识别的目标数据集，并对目标进行人工标注；将处理过后的数据集通过YoloX网络进行训练，得到相应的网络参数权重文件；在检测目标图片、使用相关参数文件之前设置置信度阈值，用来确定检测目标的可信程度，输入图片之后，如果没有含有目标，输出原图片；如果含有目标，则通过训练完成的网络计算输入图片含有目标的置信度与预设的阈值进行比较，判断所得置信度是否大于阈值，如果置信度大于阈值，则在输出图片上标记相应类别；如果置信度小于阈值，则输出原图片。本发明能够用于变电站作业现场安全识别，可以快速的识别出相应类别，具有良好的应用前景。

Description

基于YoloX网络的变电站作业现场安全识别方法

技术领域

本发明涉及图像目标检测领域，尤其涉及一种基于YoloX网络的变电站作业现场安全识别方法。

背景技术

变电站作业现场安全监督对于保证工作人员的安全具有重要意义，变电站涉及到很多危险性工作，目前变电站作业现场一般采用人工安全的方式，但监护人员和作业人员一样容易受到外界因素影响，注意力可能不集中，继而引发安全事故。

随着视频影像技术的快速发展，通过视频图像识别物体的需求也相应增加，但是目前存在如检测准确率不高，检测速度过慢等问题，对图像目标检测的技术仍有很大的发展空间，为了解决这些问题，需要对图片结构有深刻的了解，以及对机器学习方法有熟练的掌握。

作为目标检测的重点，如何准确、更快地检测出目标是一个很广阔的课题。

发明内容

本发明的目的是提供一种基于YoloX网络的变电站作业现场安全识别方法，能够用于变电站作业现场安全识别，可以快速的识别出相应类别，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

基于YoloX网络的变电站作业现场安全识别方法，包括以下步骤：

步骤1，收集大量含有目标的数据集，并进行人工标注；

步骤2，通过YoloX网络对处理过后的数据集进行训练，得到相应的网络模型参数文件；

步骤3，设置置信度阈值大小，输入需要检测的图片，通过训练得到的网络模型计算是否含有目标，若含有目标判断目标置信度是否大于阈值，最后输出图片。

进一步地，在一种实现方式中，所述步骤1，包括以下步骤：

步骤1-1，通过网络等途径收集含有目标的数据集，将收集到的数据集通过LabelImg对数据集进行目标标注，得到目标标注文件，将数据集和标注文件分别对应放在相应文件夹内，等待网络训练。

进一步地，在一种实现方式中，所述步骤2，包括以下步骤：

步骤2-1，数据集放入网络训练前，设置需要识别的类别，选择需要使用的网络模型，设置读取训练数据的路径。选择合适的batch size，合适的batch size可以提高训练效率，最终训练收敛效果可以达到最优；

步骤2-2，将数据集输入到网络模型进行分类训练，经过迭代训练输出网络模型参数文件。

进一步地，在一种实现方式中，所述步骤2-2，包括以下步骤：

步骤2-2-1，图片输入到网络模型中经过以下网络特征提取和加强特征提取，计算相关误差，更新相关网络参数，直至到达迭代停止；

步骤2-2-2，图片输入时会进行压缩变换，将图片大小变为640*640的尺寸，方便后续处理，同时可以采用不同数据增强策略，如使用MixUP数据增强，即设置一个融合系数，然后将两张图片加权融合，最终得到混合的图片，通过数据增强可以增加分类精度；

步骤2-2-3，使用Focus网络结构，以便在图片下采样过程中不带来信息损失，为后续的特征提取保留更多的信息。具体操作是在一张图片中每隔一个像素拿到一个值，类似于邻近下采样，这个时候获得了四个独立的特征层，然后将四个独立的特征层进行堆叠，此时宽高信息就集中到了通道信息，输入通道扩充了四倍，拼接起来的特征层相对于原来的三通道变成了十二通道，如网络中输入由640*640*3经过Focus后变为320*320*12的大小。最后将得到的新图片经过卷积操作，最终得到了没有信息丢失情况下的二倍下采样特征图。

步骤2-2-4，主干特征提取网络CSPDarknet，使用了残差网络Residual，CSPDarknet中的残差卷积分为两个部分，主干部分是一次1x1的卷积和一次3x3的卷积，残差边不做任何处理，直接将主干的输入与输出结合；CSPnet则是将原来的残差块的堆叠进行拆分，拆分为：主干部分继续进行原来的残差块的堆叠，另一部分像一个残差边一样，经过少量处理后直接连接到最后，可以认为是CSPnet中存在一个大的残差边；

步骤2-2-5使用FPN特征金字塔进行加强特征提取，提取多特征层进行目标检测，一共提取三个特征层，当输入为(640，640，3)的时候，三个特征层分别为feat1＝(80，80，256)，feat2＝(40，40，512)，feat3＝(20，20，1024)，利用这三个有效特征层进行FPN层的构建。feat3＝(20，20，1024)的特征层进行1次1x1卷积调整通道后获得P5，P5进行上采样UmSampling2d后与feat2＝(40，40，512)特征层进行拼接，然后使用CSPLayer进行特征提取获得P5_upsample，此时获得的特征层为(40，40，512)；P5_upsample＝(40，40，512)的特征层进行1次1X1卷积调整通道后P4，P4进行上采样UmSampling2d后与feat1＝(80，80，256)特征层进行拼接，然后使用CSPLayer进行特征提取P3_out，此时获得的特征层为(80,80,256)；P3_out＝(80，80，256)的特征层进行一次3x3卷积进行下采样，下采样后与P4堆叠，然后使用CSPLayer进行特征提取P4_out，此时获得的特征层为(40，40，512)；P4_out＝(40，40，512)的特征层进行一次3x3卷积进行下采样，下采样后与P5堆叠，然后使用CSPLayer进行特征提取P5_out，此时获得的特征层为(20,20,1024)。这样将不同特征层进行特征融合，有利于提取出更好的特征。

步骤2-2-6，检测模型采用decoupled head，即将分类和回归分开预测，对于输入的FPN特征，首先通过1x1卷积将特征维度降低到256，然后分成两个并行的分支，每个分支包含2个3x3卷积，其中分类分支预测Cls，回归分支预测Reg和Obj：

1、Reg(h，w，4)用于判断每一个特征点的回归参数，回归参数调整后可以获得预测框。

2、Obj(h，w，1)用于判断每一个特征点是否包含目标。

3、Cls(h，w，number classes)用于判断每一个特征点所包含目标类别。

将三个预测结果进行堆叠，每个特征层获得的结果为：Out(h，w，4+1+numnerclasses)前四个参数用于判断每一个特征点的回归参数，回归参数调整后可以获得预测框；第五个参数用于判断每一个特征点是否包含目标；最后number classes个参数用于判断每一个特征点所包含的目标类别。

以(20，20，1024)对应的三个预测结果为例：

该特征层相当于将图像划分成20x20个特征点，如果某个特征点落在物体的对应框内，就用于预测该物体。利用Regression预测结果前两个序号的内容对特征点坐标进行偏移，利用Regression预测结果后两个序号的内容求指数后获得预测框的宽高。

对所得的三层特征信息进行变换，最终得到8400*85的预测信息，其中8400是预测框的数量，85是每个预测框的信息(Reg，Obj，Cls)；在8400个预测框中，有400个框所对应锚框的大小为32*32，有1600个框所对应锚框的大小为16*16，有6400个框所对应锚框的大小为8*8，使用标签分配将8400个锚框和图片上所有的目标框进行关联，挑选出正样本锚框，通过正样本锚框所对应的位置将正样本预测框挑选出来；

步骤2-2-7，利用锚框和实际目标框的关系，通过中心点判断、目标框判断和SimOTA筛选出一部分适合的正样本锚框。中心点和目标框判断两种方式尽量使属于正样本的特征点落在目标真实框内部，特征点中心与目标真实框中心相近用作初步筛选；SimOTA计算每个真实框和当前特征点预测框的重合程度，同时计算Reg IOU损失，然后将重合度最高的十个预测框与真实框的IOU加起来求得每个真实框的k，也就代表每个真实框有k个特征点与之对应，再计算每个真实框和当前特征点预测框的种类预测准确度以及Cls交叉熵损失，同时判断真实框的中心是否落在特征点的一定半径内，利用上面两种损失计算Cost代价矩阵：

最后将Cost最低的k个点作为该真实框的正样本。训练过程中，在锚框的基础上，不断的预测，然后不断的迭代，从而更新网络参数，让网络预测的越来越准。

步骤2-2-8，最后计算总loss，loss一共包含三个部分：

1、Reg部分，获取到每个框对应的特征点后，取出该特征点的预测框，利用真实框和预测框计算IOU损失，作为Reg部分的Loss组成。

2、Obj部分，所有真实框对应的特征点都是正样本，剩余的特征点均为负样本，根据正负样本和特征点的是否包含物体的预测结果计算交叉熵损失，作为Obj部分的Loss组成。

3、Cls部分，获取到每个框对应的特征点后，取出该特征点的种类预测结果，根据真实框的种类和特征点的种类预测结果计算交叉熵损失，作为Cls部分的Loss组成。

进一步地，在一种实现方式中，所述步骤3，包括以下步骤：

步骤3-1，输入需要检测的图片，通过已经训练完成的网络模型进行计算，判断是否含有目标类别，如果含有目标，排序类别置信度得分，进行非极大值抑制，根据所得类别与预设置信度阈值将满足条件的类别在图片上绘制目标类别框，最后生成输出图片。

本发明中，首先，收集含有需要识别的目标数据集，并对目标进行人工标注；其次，将处理过后的数据集通过YoloX网络进行训练，得到相应的网络参数权重文件；最后，在检测目标图片、使用相关参数文件之前设置置信度阈值，用来确定检测目标的可信程度，输入图片之后判断是否含有目标，如果没有含有目标，输出原图片；如果含有目标，则通过训练完成的网络计算输入图片含有目标的置信度与预设的阈值进行比较，判断所得置信度是否大于阈值，如果置信度大于阈值，则在输出图片上标记相应类别；如果置信度小于阈值，则输出原图片。

本发明能够用于变电站作业现场安全识别，可以快速的识别出相应类别，具有良好的应用前景。

附图说明

图1是本发明实施例部分提供的基于YoloX网络的变电站作业现场安全识别方法中对标注目标和进行实例识别时执行的具体操作流程示意图。

图2是本发明实施例部分提供的基于YoloX网络的变电站作业现场安全识别方法中所使用的YoloX网络模型结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

一种基于YoloX网络的变电站作业现场安全识别方法，可应用与变电站作业现场的识别，识别安全目标。

如图1和图2所示，首先，收集含有需要识别的目标数据集，并对目标进行人工标注；其次，将处理过后的数据集通过YoloX网络进行训练，得到相应的网络参数权重文件；最后，在检测目标图片、使用相关参数文件之前设置置信度阈值，用来确定检测目标的可信程度，输入图片之后判断是否含有目标，如果没有含有目标，输出原图片；如果含有目标，则通过训练完成的网络计算输入图片含有目标的置信度与预设的阈值进行比较，判断所得置信度是否大于阈值，如果置信度大于阈值，则在输出图片上标记相应类别；如果置信度小于阈值，则输出原图片。此方法能够用于变电站作业现场安全识别，可以快速的识别出相应类别，具有良好的应用前景。

具体包括以下步骤：

步骤1，收集大量含有目标的数据集，并进行人工标注；

所述步骤1，包括以下步骤：

所述步骤2，包括以下步骤：

所述步骤2-2，包括以下步骤：

2、Obj(h，w，1)用于判断每一个特征点是否包含目标。

以(20，20，1024)对应的三个预测结果为例：

步骤2-2-8，最后计算总loss，loss一共包含三个部分：

所述步骤3，包括以下步骤：

本实施例中，将本发明在公开的COCO数据集上进行了实验，达到了很好的效果，不仅具有更好的识别效果，而且性能也更加稳定。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于YoloX网络的变电站作业现场安全识别方法，其特征在于，包括以下步骤：

步骤1，收集大量含有目标的数据集，并进行人工标注；

2.根据权利要求1所述的基于YoloX网络的变电站作业现场安全识别方法，其特征在于，所述步骤1包括：

通过网络途径收集含有目标的数据集，将收集到的数据集通过LabelImg对数据集进行目标标注，得到目标标注文件，将数据集和标注文件分别对应放在相应文件夹内，等待网络训练。

3.根据权利要求1所述的基于YoloX网络的变电站作业现场安全识别方法，其特征在于，所述步骤2包括以下步骤：

步骤2-1，数据集放入网络训练前，设置需要识别的类别，选择需要使用的网络模型，设置读取训练数据的路径；选择合适的batch size，提高训练效率，最终训练收敛效果达到最优；

4.根据权利要求3所述的基于YoloX网络的变电站作业现场安全识别方法，其特征在于，所述步骤2-2包括以下步骤：

步骤2-2-2，图片输入时进行压缩变换，将图片大小变为640*640的尺寸，方便后续处理，同时采用不同数据增强策略，增加分类精度；

步骤2-2-3，使用Focus网络结构，以便在图片下采样过程中不带来信息损失，为后续的特征提取保留更多的信息；

步骤2-2-4，主干特征提取网络CSPDarknet，使用残差网络Residual，CSPDarknet中的残差卷积分为两个部分，主干部分是一次1x1的卷积和一次3x3的卷积，残差边不做任何处理，直接将主干的输入与输出结合；CSPnet则是将原来的残差块的堆叠进行拆分，拆分为：主干部分继续进行原来的残差块的堆叠，另一部分，经过少量处理后直接连接到最后，认为是CSPnet中存在一个大的残差边；

步骤2-2-5使用FPN特征金字塔进行加强特征提取，提取多特征层进行目标检测，一共提取三个特征层，当输入为(640，640，3)的时候，三个特征层分别为feat1＝(80，80，256)，feat2＝(40，40，512)，feat3＝(20，20，1024)，利用这三个有效特征层进行FPN层的构建；

1.Reg(h，w，4)用于判断每一个特征点的回归参数，回归参数调整后获得预测框；

2.Obj(h，w，1)用于判断每一个特征点是否包含目标；

3.Cls(h，w，number classes)用于判断每一个特征点所包含目标类别；

将三个预测结果进行堆叠，每个特征层获得的结果为：Out(h，w，4+1+numner classes)前四个参数用于判断每一个特征点的回归参数，回归参数调整后获得预测框；第五个参数用于判断每一个特征点是否包含目标；最后number classes个参数用于判断每一个特征点所包含的目标类别；

步骤2-2-7，利用锚框和实际目标框的关系，通过中心点判断、目标框判断和SimOTA筛选出一部分适合的正样本锚框；

步骤2-2-8，最后计算总loss，loss一共包含三个部分：

1.Reg部分，获取到每个框对应的特征点后，取出该特征点的预测框，利用真实框和预测框计算IOU损失，作为Reg部分的Loss组成；

2.Obj部分，所有真实框对应的特征点都是正样本，剩余的特征点均为负样本，根据正负样本和特征点的是否包含物体的预测结果计算交叉熵损失，作为Obj部分的Loss组成；

3.Cls部分，获取到每个框对应的特征点后，取出该特征点的种类预测结果，根据真实框的种类和特征点的种类预测结果计算交叉熵损失，作为Cls部分的Loss组成。

5.根据权利要求1所述的基于YoloX网络的变电站作业现场安全识别方法，其特征在于，所述步骤3包括：

输入需要检测的图片，通过已经训练完成的网络模型进行计算，判断是否含有目标类别，如果含有目标，排序类别置信度得分，进行非极大值抑制，根据所得类别与预设置信度阈值将满足条件的类别在图片上绘制目标类别框，最后生成输出图片。