CN115457415A

CN115457415A - 基于yolo-x模型的目标检测方法、装置、电子设备和存储介质

Info

Publication number: CN115457415A
Application number: CN202211137365.XA
Authority: CN
Inventors: 周帅; 于虹
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-12-09

Abstract

本申请实施例公开了基于YOLO‑X模型的目标检测方法、装置、电子设备和存储介质，通过基于深度学习的YOLOv3模型改进后得到的YOLO‑X模型能够自动获得图像中的被测目标，并且提升检测效果，其识别速率更快，检测效率更高，从而有效地提升无人机巡检的工作质量。该目标检测方法包括：获取待识别数据，其中待识别数据为在输电线路巡检过程中采集得到的图像数据和/或视频数据；以YOLOv3模型为基准模型，在基准模型中增加特殊结构网络进行改进得到改进后的YOLO‑X模型，其中特殊结构网络是基于解耦头Decoupled Head和SimOTA算法设计得到；使用训练好的YOLO‑X模型对待识别数据进行目标检测，得到检测结果。

Description

基于YOLO-X模型的目标检测方法、装置、电子设备和存储介质

技术领域

本申请涉及自动识别技术领域，尤其涉及基于Yolov3模型改进的目标检测方法、装置、电子设备和存储介质。

背景技术

在现阶段电网实际作业中，无人机巡检平台已经广泛应用于输电线路巡检任务。但传统的事后人工对无人机视频进行筛查的巡检模式存在实时性差、实用化水平低等问题，严重影响无人机巡检的工作质量。因此，需要提升无人机巡检的工作质量是现阶段电网实际作业中急需解决的技术难题。

发明内容

基于此，有必要针对上述问题，本申请提出了基于YOLO-X模型的目标检测方法、装置、电子设备和存储介质，通过基于深度学习的YOLOv3模型改进后得到的YOLO-X模型能够自动获得图像中的被测目标，并且提升检测效果，其识别速率更快，检测效率更高，从而有效地提升无人机巡检的工作质量。

第一方面，本申请提供了一种基于YOLO-X模型的目标检测方法，包括：

获取待识别数据，其中待识别数据为在输电线路巡检过程中采集得到的图像数据和/或视频数据；

以YOLOv3模型为基准模型，在基准模型中增加特殊结构网络进行改进得到改进后的YOLO-X模型，其中特殊结构网络是基于解耦头Decoupled Head和SimOTA算法设计得到；

使用训练好的YOLO-X模型对待识别数据进行目标检测，得到检测结果。

可选的，在第一方面的一种实现方式中，该目标检测方法还包括：

使用基于指数移动平均EMA权值更新和余弦函数学习率机制进行改进后的训练方式，对YOLO-X模型进行训练。

当对YOLO-X模型中的Reg分支进行训练时，使用重叠度IOU损失函数对Reg分支进行训练，其中Reg分支用于对目标框的坐标信息进行预测。

可选的，在第一方面的一种实现方式中，在获取待识别数据之后，还包括：

使用Mosaic和MizUp两种数据增强方法对待识别数据进行预处理，并使用预处理后得到的待识别数据进行目标检测。

可选的，在第一方面的一种实现方式中，特殊结构网络包括Decoupled Head网络，Decoupled Head网络中存在cls_output、obj_output和reg_output三个分支，cls_output分支用于对目标框的类别进行预测；obj_output分支用于判断目标框是前景或背景；reg_output分支用于对目标框的坐标信息进行预测，cls_output分支、obj_output分支和reg_output分支的输出通过字符串连接Concat函数进行融合。

可选的，在第一方面的一种实现方式中，YOLO-X模型中使用标签分配方式对预测框和目标框进行关联，并结合SimOTA算法选择出正样本预测框。

可选的，在第一方面的一种实现方式中，YOLO-X模型中使用Anchor Based的方式来提取目标框。

第二方面，本申请提供了一种目标检测装置，包括：

获取模块、模型设计模块和检测模块；

获取模块用于：获取待识别数据，其中待识别数据为在输电线路巡检过程中采集得到的图像数据和/或视频数据；

模型设计模块用于：以YOLOv3模型为基准模型，在基准模型中增加特殊结构网络进行改进得到改进后的YOLO-X模型，其中特殊结构网络是基于解耦头Decoupled Head和SimOTA算法设计得到；

检测模块用于：使用训练好的YOLO-X模型对待识别数据进行目标检测，得到检测结果。

第三方面，本申请提供了一种电子设备，包括：存储器和处理器，其中存储器上存储有可执行代码；

当可执行代码被处理器执行时，使得电子设备执行如第一方面及其任意一种实现方式中所述的方法。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使得电子设备执行如第一方面及其任意一种实现方式中所述的方法

本申请提供的技术方案具有以下有益效果：

以YOLOv3模型为基准模型，在基准模型中增加特殊结构网络进行改进得到改进后的YOLO-X模型，其中特殊结构网络是基于解耦头Decoupled Head和SimOTA算法设计得到，最终得到更高效的识别缺陷检测模型即YOLO-X模型；进一步，通过训练好的YOLO-X模型对待识别数据进行目标检测，得到检测结果，应理解，通过基于深度学习的YOLOv3模型改进后得到的YOLO-X模型能够自动获得图像中的被测目标，并且提升检测效果，其识别速率更快，检测效率更高，从而有效地提升无人机巡检的工作质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1为本申请实施例中基于YOLO-X模型的目标检测方法的一个流程示意图；

图2为本申请实施例中YOLO-X模型的一个结构示意图；

图3为本申请实施例中目标检测装置的一个结构示意图；

图4为本申请实施例中的电子设备的一个结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

针对以上问题，本申请提出了一种基于改进YOLO-X的电网图片、视频智能识别技术，完成将图像或视频流等视觉信息转换成高层的语义理解，实现对图像、视频数据中设备缺陷、线路隐患的智能感知，并在设备缺陷、线路隐患智能感知的基础上，实现异常状态的快速定位。

为了便于理解本申请实施例中的技术方案，下面结合附图对本申请实施例中的基于YOLO-X模型的目标检测方法进行详细说明，具体如下：

图1为本申请实施例中基于YOLO-X模型的目标检测方法的一个流程示意图。

如图1所示，本申请实施例中基于YOLO-X模型的目标检测方法，包括：

101、获取待识别数据，其中待识别数据为在输电线路巡检过程中采集得到的图像数据和/或视频数据。

本申请实施例中，待识别数据为输电线路巡检数据(即输电线路巡检过程中采集的数据)，具体的，输电线路巡检数据可以是图像数据，也可以是视频数据，当然，也可以是既包括图像数据的同时还包括视频数据。

需要说明的是，由于视频是由一系列图像构成，因此视频识别也可以用图像识别的方式来进行。具体的，在本申请中采用对视频进行关键帧提取的方式，形成视频的数据集，鉴于电网视频存在长度不一致的情况，故采用按视频时间轴均与提取关键帧，然后利用YOLO-X算法对关键帧图像数据集进行模型训练。

可选的，在本申请实施例的一种实施方式中，在获取待识别数据之后，还包括：使用Mosaic和MizUp两种数据增强方法对待识别数据进行预处理，并使用预处理后得到的待识别数据进行目标检测。

为了便于理解Mosaic和MizUp两种数据增强方法，下面将在后文对YOLO-X模型的网络输入端部分进行详细说明，此处不再赘述。

在该实施方式中，通过Mosaic和MizUp两种数据增强方法对待识别数据进行预处理，可以有效地增强YOLO-X模型的检测效果提升，使得识别速率更快，检测效率更高。

102、以YOLOv3模型为基准模型，在基准模型中增加特殊结构网络进行改进得到改进后的YOLO-X模型。

在本申请实施例中，特殊结构网络是基于解耦头Decoupled Head和SimOTA算法设计得到。

可选的，在本申请实施例的一种实施方式中，特殊结构网络包括Decoupled Head网络，Decoupled Head网络中存在cls_output、obj_output和reg_output三个分支，cls_output分支用于对目标框的类别进行预测；obj_output分支用于判断目标框是前景或背景；reg_output分支用于对目标框的坐标信息进行预测，cls_output分支、obj_output分支和reg_output分支的输出通过字符串连接Concat函数进行融合。

需要说明的是，该Decoupled Head网络具体可以在YOLO-X模型的预测Prediction层中实现。

本申请实施例中，还可以使用标签分配方式对YOLO-X模型进行改进，具体如下：可选的，在本申请实施例的一种实施方式中，YOLO-X模型中使用标签分配方式对预测框和目标框进行关联，并结合SimOTA算法选择出正样本预测框。

可选的，在本申请实施例的一种实施方式中，YOLO-X模型中使用Anchor Based的方式来提取目标框。需要说明的是，相对于YOLOv3、YOLOv4，YOLOx中采用物体检测的轮回Anchor Based的方式来提取目标框，进而和标注的Ground-truth进行比对，判断两者的差距。YOLOx-Darknet53采用Anchor Free方式的优点有如下2点：①输出的参数量减少至原参数量的33％；②8400个被标注的预测框的信息与图片上所有的目标框采用标签分配的方式进行关联，进而将正样本预测框挑选出来。

103、使用训练好的YOLO-X模型对待识别数据进行目标检测，得到检测结果。

在本申请实施例中，得到改进后的YOLO-X模型后，需要对其进行训练，进而使用训练好的YOLO-X模型进行目标检测。

与常规的模型训练方式相比，本申请中对YOLO-X模型的训练具有以下改进点，具体如下两方面：

第一方面，可选的，在本申请实施例的一种实施方式中，使用基于指数移动平均EMA权值更新和余弦函数学习率机制进行改进后的训练方式，对YOLO-X模型进行训练。

第二方面，可选的，在本申请实施例的一种实施方式中，当对YOLO-X模型中的Reg分支进行训练时，使用重叠度IOU损失函数对Reg分支进行训练，其中Reg分支用于对目标框的坐标信息进行预测。

通过本申请实施例提供的技术方案可以实现以下有益效果：以YOLOv3模型为基准模型，在基准模型中增加特殊结构网络进行改进得到改进后的YOLO-X模型，其中特殊结构网络是基于解耦头Decoupled Head和SimOTA算法设计得到，最终得到更高效的识别缺陷检测模型即YOLO-X模型；进一步，通过训练好的YOLO-X模型对待识别数据进行目标检测，得到检测结果，应理解，通过基于深度学习的YOLOv3模型改进后得到的YOLO-X模型能够自动获得图像中的被测目标，并且提升检测效果，其识别速率更快，检测效率更高，从而有效地提升无人机巡检的工作质量。

进一步，本申请主要通过以YOLOv3模型为基准模型，在基准模型中增加特殊结构网络进行改进得到改进后的YOLO-X模型，最终使用改进后的YOLO-X模型进行目标检测，以解决现有技术缺陷，实现上述有益效果。

为了便于理解本申请实施例的改进后的YOLO-X模型，下面结合其主要结构对其进行详细说明，具体如下：

图2为本申请实施例中YOLO-X模型的一个结构示意图。

如图2所示，本申请实施例中YOLO-X模型20包括：网络输入层201、主干网络Backbone层202、融合网络Neck层203和预测Prediction层204；

下面分别针对在YOLOv3模型之上的改进点，对上述各个网络层进行介绍，其他结构可参阅YOLOv3模型，具体如下：

一、网络输入层201

在把数据集放入网络进行训练的时候，往往会通过多种方法对数据集进行一定程度的优化，比如Moaic数据增强和Mizup数据增强就被用在了YOLOx中，参见上述步骤101部分的描述。

1)Mosaic数据增强

Mosaic的灵感来自于Yun S等人在2019年底提出的CutMiz数据增强，相对于前者的数据增强方法，Mosaic不仅在图像合成数量上翻倍，且在合成时把每个被合成的图片进行了缩放、裁剪以及排布处理。通过Mosaic数据增强后，YOLOx在2方面得到了改进：首先，数据集数量得到了提高同时提高了网络的稳定性；其次，当硬件计算资源有限时，也能够同时对多个图片进行分析处理。

2)MizUp数据增强

MizUp是在Mosaic基础上，增加的一种额外的增强策略。MizUp的主要思想是以混合模型的方法提高模型的泛化能力，数据量越小，对精度提升效果越好。

二、主干网络Backbone层202和融合网络Neck层203

YOLOx-Darknet53的Backbone主干网络，和原本的YOLOv3 baseline的主干网络相同。对于YOLOv3主干网络的改动也可以移植到YOLOx。而在Neck结构中，YOLOx-Darknet53和YOLOv3 Baseline的Neck结构相同，均采用FPN的结构进行融合。FPN的结构是自顶向下的。主要是将上层的特征信息，以上采样的方法传递融合，进而得到进行预测的特征图。

三、预测Prediction层204

预测Prediction层204是YOLO-X模型的最后的输出层，又称预测输出层或输出层，主要分为四个部分：解耦头Decoupled Head、Anchor Free、标签分配、精细化筛选、损失Loss计算。

1)、解耦头Decoupled Head

与YOLOv3模型相比，YOLO-X模型的Decoupled Head中Concat前总共有cls_output、obj_output和reg_output三个分支：

cls_output：主要对目标框的类别，预测分数。例如，数据集中的种类个数为80，且主要是N个二分类判断，因此经过Sigmoid激活函数处理后，变为20×20×80大小。

obj_output：主要判断目标框是前景还是背景。图像经过Sigmoid处理后，变为20×20×1大小。

reg_output：主要对目标框的坐标信息(x，y，w，h)进行预测，例如其图像大小为20×20×4。

最后，cls_output、obj_output和reg_output三个分支的输出通过字符串连接Concat函数进行融合，例如融合后得到20×20×85的特征信息。

YOLO-X模型的Decoupled Head可以使得其收敛速度更快、精度更高、兼容性更好，可以和很多算法任务，进行一体化结合。

2)、Anchor Free

相对于YOLOv3、YOLOv4，YOLOx中采用物体检测的轮回Anchor Based的方式来提取目标框，进而和标注的Ground-truth进行比对，判断两者的差距。YOLOx-Darknet53采用Anchor Free方式的优点有如下2点：①输出的参数量减少至原参数量的33％；②8400个被标注的预测框的信息与图片上所有的目标框采用标签分配的方式进行关联，进而将正样本预测框挑选出来。

3)、标签分配

初步筛选的方式主要有两种：根据中心点来判断和根据目标框来判断。具体如下：a、将落在Ground-truth矩形范围内的所有Anchors，都提取出来；b、以Ground-truth中心点为基准，设置一定边长的正方形，挑选在正方形内的所有锚框。

4)、精细化筛选(包括损失Loss计算)

精细化筛选流程，主要分为四个阶段：

a、初筛正样本信息提取，所有锚框的位置，和网络最后输出的85×8400特征向量是一一对应。

b、Loss函数计算，根据初步筛选出的Anchors和Ground-truth计算Loss函数，求出位置信息的Loss值(IoUs_1oss)和综合类别信息目标信息的Loss值(cls_1oss)。

c、Cost成本计算，两个损失函数(IoUs_1oss和cls_1o ss)加权相加得到Cost成本。

d、SimOTA算法求解，为每个Ground-truth取Cost排名最小的前dynamic_k个Anchor作为正样本，其余为负样本。

5)损失Loss计算

使用Sigmoid函数计算目标框和正样本预测框的误差。Sigmoid函数公式如下式所示：

本申请中提出基于深度学习的电网图片、视频智能识别技术。现如今，传统的人工检测已经不能满足当前实际需要，而基于深度学习的目标检测能够自动获得图像中的被测目标，并且检测效果较好。本申请的关键点如下：

1)基于深度学习的目标识别技术。考虑到电网图片、视频数据量较大，因此本发明采用一阶段目标检测算法中改进YOLO-X进行目标识别，识别速率更快，检测效率更高。

2)基于深度学习的图像、视频识别技术。由于视频是由一系列图像构成，因此视频识别也可以用图像识别的方式来进行。本发明采用对视频进行关键帧提取的方式，形成视频的数据集，鉴于电网视频存在长度不一致的情况，故采用按视频时间轴均与提取关键帧，然后利用YOLO-X算法对关键帧图像数据集进行模型训练。

与前述应用功能实现方法实施例相对应，本申请还提供了一种目标检测装置、电子设备、存储介质及相应的实施例。

图3为本申请实施例中目标检测装置的一个结构示意图。

如图3所示，本申请实施例中目标检测装置30，包括：

获取模块301、模型设计模块302和检测模块303；

获取模块301用于：获取待识别数据，其中待识别数据为在输电线路巡检过程中采集得到的图像数据和/或视频数据；

模型设计模块302用于：以YOLOv3模型为基准模型，在基准模型中增加特殊结构网络进行改进得到改进后的YOLO-X模型，其中特殊结构网络是基于解耦头Decoupled Head和SimOTA算法设计得到；

检测模块303用于：使用训练好的YOLO-X模型对待识别数据进行目标检测，得到检测结果。

可选的，在本申请实施例的一种实施方式中，如图3中虚线框中所示，目标检测装置30还包括：训练模块304，用于：使用基于指数移动平均EMA权值更新和余弦函数学习率机制进行改进后的训练方式，对YOLO-X模型进行训练。

可选的，在本申请实施例的一种实施方式中，训练模块304还用于：当对YOLO-X模型中的Reg分支进行训练时，使用重叠度IOU损失函数对Reg分支进行训练，其中Reg分支用于对目标框的坐标信息进行预测。

可选的，在本申请实施例的一种实施方式中，获取模块301还用于：在获取待识别数据之后，使用Mosaic和MizUp两种数据增强方法对待识别数据进行预处理，并使用预处理后得到的待识别数据进行目标检测。

可选的，在本申请实施例的一种实施方式中，模型设计模块302改进得到的YOLO-X模型中的特殊结构网络包括Decoupled Head网络，Decoupled Head网络中存在cls_output、obj_output和reg_output三个分支，cls_output分支用于对目标框的类别进行预测；obj_output分支用于判断目标框是前景或背景；reg_output分支用于对目标框的坐标信息进行预测，cls_output分支、obj_output分支和reg_output分支的输出通过字符串连接Concat函数进行融合。

可选的，在本申请实施例的一种实施方式中，模型设计模块302改进得到的YOLO-X模型中使用标签分配方式对预测框和目标框进行关联，并结合SimOTA算法选择出正样本预测框。

可选的，在本申请实施例的一种实施方式中，模型设计模块302改进得到的YOLO-X模型中使用Anchor Based的方式来提取目标框。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图4为本申请实施例中的电子设备的一个结构示意图。

如图4所示，本申请实施例中电子设备40包括存储器401和处理器402。存储器上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行上述任一实施例中的方法。

处理器402可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器401可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器402或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器401可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器401可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器401上存储有可执行代码，当可执行代码被处理器402处理时，可以使处理器402执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质(或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于YOLO-X模型的目标检测方法，其特征在于，包括：

获取待识别数据，其中所述待识别数据为在输电线路巡检过程中采集得到的图像数据和/或视频数据；

以YOLOv3模型为基准模型，在所述基准模型中增加特殊结构网络进行改进得到改进后的YOLO-X模型，其中所述特殊结构网络是基于解耦头Decoupled Head和SimOTA算法设计得到；

使用训练好的所述YOLO-X模型对所述待识别数据进行目标检测，得到检测结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

使用基于指数移动平均EMA权值更新和余弦函数学习率机制进行改进后的训练方式，对所述YOLO-X模型进行训练。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

当对所述YOLO-X模型中的Reg分支进行训练时，使用重叠度IOU损失函数对所述Reg分支进行训练，其中所述Reg分支用于对目标框的坐标信息进行预测。

4.根据权利要求1所述的方法，其特征在于，在所述获取待识别数据之后，还包括：

使用Mosaic和MizUp两种数据增强方法对所述待识别数据进行预处理，并使用预处理后得到的所述待识别数据进行目标检测。

5.根据权利要求1所述的方法，其特征在于，所述特殊结构网络包括Decoupled Head网络，所述Decoupled Head网络中存在cls_output、obj_output和reg_output三个分支，所述cls_output分支用于对目标框的类别进行预测；所述obj_output分支用于判断目标框是前景或背景；所述reg_output分支用于对目标框的坐标信息进行预测，所述cls_output分支、所述obj_output分支和所述reg_output分支的输出通过字符串连接Concat函数进行融合。

6.根据权利要求1所述的方法，其特征在于，所述YOLO-X模型中使用标签分配方式对预测框和目标框进行关联，并结合SimOTA算法选择出正样本预测框。

7.根据权利要求1所述的方法，其特征在于，所述YOLO-X模型中使用Anchor Based的方式来提取目标框。

8.一种目标检测装置，其特征在于，包括：

获取模块、模型设计模块和检测模块；

所述获取模块用于：获取待识别数据，其中所述待识别数据为在输电线路巡检过程中采集得到的图像数据和/或视频数据；

所述模型设计模块用于：以YOLOv3模型为基准模型，在所述基准模型中增加特殊结构网络进行改进得到改进后的YOLO-X模型，其中所述特殊结构网络是基于解耦头DecoupledHead和SimOTA算法设计得到；

所述检测模块用于：使用训练好的所述YOLO-X模型对所述待识别数据进行目标检测，得到检测结果。

9.一种电子设备，其特征在于，包括：

存储器和处理器，其中所述存储器上存储有可执行代码；

当所述可执行代码被所述处理器执行时，使得所述电子设备执行如权利要求1-7中所述的方法。

10.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使得所述电子设备执行如权利要求1-7中所述的方法。