CN116524296A

CN116524296A - 设备缺陷检测模型的训练方法、装置和设备缺陷检测方法

Info

Publication number: CN116524296A
Application number: CN202310466833.6A
Authority: CN
Inventors: 高圣溥; 饶竹一
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-08-01

Abstract

本申请涉及一种设备缺陷检测模型的训练方法、装置和设备缺陷检测方法。该方法包括：根据原始设备缺陷图像集对原始缺陷检测模型进行初始化训练，得到初始化训练模型；根据初始化训练模型的初始训练参数构建增量学习模型；将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到增量学习模型的蒸馏损失值和缺陷预测损失值；根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值；根据蒸馏损失值、预测损失值和参数正则化损失值，调整增量学习模型的模型参数，得到设备缺陷检测模型。采用本方法能够提高设备缺陷检测模型的准确性。

Description

设备缺陷检测模型的训练方法、装置和设备缺陷检测方法

技术领域

本申请涉及电网技术领域，特别是涉及一种设备缺陷检测模型的训练方法、装置、设备缺陷检测方法和计算机设备。

背景技术

维护变电站中各类设备的正常状态是保证电网运行正常的关键环节，为了维护设备的正常状态，需要对设备进行缺陷检测。

传统方式，是用某个数据集训练完设备缺陷检测模型后，将设备缺陷检测模型部署在实际应用场景下用于设备缺陷检测。然而由于实际应用场景下会出现一些新的缺陷情况，设备缺陷检测模型无法检测到没有学习过的缺陷情况，导致设备缺陷检测模型的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高设备缺陷检测模型的准确性的设备缺陷检测模型的训练方法、装置、设备缺陷检测方法和计算机设备。

第一方面，本申请提供了一种设备缺陷检测模型的训练方法。该方法包括：

根据原始设备缺陷图像集对原始缺陷检测模型进行初始化训练，得到初始化训练模型；

根据初始化训练模型的初始训练参数构建增量学习模型；

将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到增量学习模型的蒸馏损失值和缺陷预测损失值；

根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值；

根据蒸馏损失值、预测损失值和参数正则化损失值，调整增量学习模型的模型参数，得到设备缺陷检测模型。

在其中一个实施例中，根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值，包括：

根据蒸馏损失值和缺陷预测损失值，确定增量学习模型的增量学习参数的二阶偏导数；

根据二阶偏导数获得增量学习参数的重要度。

在其中一个实施例中，将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到增量学习模型的蒸馏损失值和缺陷预测损失值，包括：

将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到初始化训练模型预测的第一缺陷预测结果以及增量学习模型预测的第二缺陷预测结果；

根据第一缺陷预测结果和第二缺陷预测结果确定增量学习模型的蒸馏损失值；

根据第二缺陷预测结果和增量设备缺陷图像集的标签缺陷数据，确定增量学习模型的缺陷预测损失值。

在其中一个实施例中，根据第一缺陷预测结果和第二缺陷预测结果确定增量学习模型的蒸馏损失值，包括：

根据第一缺陷预测结果中的分类结果和第二缺陷预测结果中的分类结果，确定增量学习模型的蒸馏损失值。

在其中一个实施例中，缺陷预测损失值包括分类损失值和回归损失值；标签缺陷数据包括标签缺陷类别和标签缺陷位置；根据第二缺陷预测结果和增量设备缺陷图像集的标签缺陷数据，确定增量学习模型的缺陷预测损失值，包括：

根据第二缺陷预测结果中的分类向量和增量设备缺陷图像集的标签缺陷数据中的标签类别向量，确定增量学习模型的分类损失值；

在第二缺陷预测结果中确定增量设备缺陷图像集中正样本图像的预测缺陷位置，根据正样本图像的预测缺陷位置和标签缺陷位置，确定增量学习模型的回归损失值。

在其中一个实施例中，根据原始设备缺陷图像集对原始缺陷检测模型进行初始化训练，得到初始化训练模型包括：

将原始设备缺陷图像集输入至原始缺陷检测模型中进行缺陷预测，得到原始缺陷检测模型输出的原始缺陷预测结果；

根据原始缺陷预测结果和原始设备缺陷图像集的标签缺陷数据，确定原始缺陷检测模型的原始缺陷预测损失；

根据原始缺陷预测损失调整原始缺陷检测模型的模型参数，得到初始化训练模型。

在其中一个实施例中，原始设备缺陷图像集的图像数量大于增量设备缺陷图像集。

第二方面，本申请还提供了一种设备缺陷检测方法。该方法包括：

获取待检测设备图像；

调用设备缺陷检测模型；设备缺陷检测模型通过权利要求1至6中任一项的方法训练得到；

通过设备缺陷检测模型对待检测设备图像进行缺陷检测，得到待检测设备图像的缺陷检测结果。

第三方面，本申请还提供了一种设备缺陷检测模型的训练装置。该装置包括：

初始训练模块，用于根据原始设备缺陷图像集对原始缺陷检测模型进行初始化训练，得到初始化训练模型；

模型构建模块，用于根据初始化训练模型的初始训练参数构建增量学习模型；

知识蒸馏模块，用于将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到增量学习模型的蒸馏损失值和缺陷预测损失值；

正则化模块，用于根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值；

参数调整模块，用于根据蒸馏损失值、预测损失值和参数正则化损失值，调整增量学习模型的模型参数，得到设备缺陷检测模型。

第四方面，本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器，该存储器存储有计算机程序，该处理器执行该计算机程序时实现上述设备缺陷检测模型的训练方法的步骤；或者，实现设备缺陷检测方法的步骤。

第五方面，本申请还提供了一种计算机可读存储介质。该计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述设备缺陷检测模型的训练方法的步骤；或者，实现设备缺陷检测方法的步骤。

第六方面，本申请还提供了一种计算机程序产品。该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述设备缺陷检测模型的训练方法的步骤；或者，实现设备缺陷检测方法的步骤。

上述设备缺陷检测模型的训练方法、装置、设备缺陷检测方法和计算机设备，通过蒸馏损失值调整模型参数，使得训练后的设备缺陷检测模型能够识别出新增加的缺陷图像。根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值，结合参数正则化损失值和蒸馏损失值来调整模型参数，使得在海量原始数据上训练获得的模型能够在少量增加的数据上进行有效的增量学习，并在不遗忘海量原始数据的检测性能的基础上获得对少量增加数据的识别能力，因而使得训练后的设备缺陷检测模型具有类似与人类一样具有不断学习的能力，大幅度的提升了在不遗忘海量原始数据的检测性能的基础上，对新增数据的缺陷检测准确率，从而在整体上提高设备缺陷检测模型的准确性。另外，无需对海量原始数据进行重新优化，只需进行增量学习，节省了计算成本和存储资源。

附图说明

图1为一个实施例中设备缺陷检测模型的训练方法的应用环境图；

图2为一个实施例中设备缺陷检测模型的训练方法的流程示意图；

图3为一个实施例中获取增量学习参数的重要度步骤的流程示意图；

图4为一个实施例中设备缺陷检测方法的流程示意图；

图5为一个实施例中设备缺陷检测模型的训练装置的结构框图；

图6为一个实施例中设备缺陷检测装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

随着变电站数量的增加以及人力成本的提高，由于人工巡检存在低时效性且人力成本高昂，设备缺陷检测方式已经由人工巡检逐渐演变为人工巡检和机器自动巡检相结合的方式。机器自动化巡检的常见方案由巡检机器人、无人机以及工业监控相机等等，每种方案中最为关键的环节是智能感知，具体为通过计算机视觉和人工智能的算法完成各类变电站设备的缺陷检测。

目前的智能感知方式都是基于深度学习的目标检测方法，具体是通过某个数据集训练完设备缺陷检测模型后，将设备缺陷检测模型部署在实际应用场景下用于设备缺陷检测。然而由于实际应用场景下会出现一些新的缺陷情况，设备缺陷检测模型无法检测到没有学习过的缺陷情况，导致设备缺陷检测模型的准确性较低。

另外，对于设备缺陷检测模型无法检测到没有学习过的缺陷情况，在实际应用场景下也需要人为介入，即在机器自动巡检的基础上保留一定的人工巡检作为辅助。对于人工判断出的遗漏的缺陷目标数据，对基于深度学习的智能感知方法具有较大的价值，因此需要将其加入到模型的训练优化当中。然而，因为少量的数据而重新消耗大量的计算资源和时间获得一个新模型，显然是高成本、低效率的。

将人工判断出的遗漏的缺陷目标数据加入到模型的训练优化中的常用方法是基于迁移学习的方法，即使用某个数量庞大的数据集预训练的模型作为第二个模型的初始化参数，在少量的新数据中进行微调参数。然而训练后的模型虽然能够识别新增的数据，但是由于参数的随意改变，无法保持在原始数据上的性能，造成本来能够检测出的目标被遗忘了，这样的结果无法应用在实际的变电站设备巡检任务中。

因此，本申请基于上述问题，提出一种设备缺陷检测模型的训练方法。

本申请实施例提供的电网设备缺陷检测模型的训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104获取终端102发送的模型训练请求，对模型训练请求进行解析，得到原始缺陷检测模型标识。根据模型训练请求在数据存储系统中获取原始设备缺陷图像集、增量设备缺陷图像集以及原始缺陷检测模型标识对应的原始缺陷检测模型。之后，根据原始设备缺陷图像集对原始缺陷检测模型进行初始化训练，得到初始化训练模型，根据初始化训练模型的初始训练参数构建增量学习模型，从而将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到增量学习模型的蒸馏损失值和缺陷预测损失值，根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值，进而根据蒸馏损失值、预测损失值和参数正则化损失值，调整增量学习模型的模型参数，得到设备缺陷检测模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种设备缺陷检测模型的训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，根据原始设备缺陷图像集对原始缺陷检测模型进行初始化训练，得到初始化训练模型。

其中，原始设备缺陷图像集包含有海量标注有变电站设备的缺陷数据的图像。缺陷数据包括缺陷位置和缺陷类别。

具体地，服务器获取终端发送的模型训练请求，对模型训练请求进行解析，得到原始缺陷检测模型标识。原始缺陷检测模型标识是指用于区分不同缺陷检测模型的唯一标识。从而服务器根据模型训练请求在数据存储系统中获取原始缺陷检测模型标识对应的原始缺陷检测模型，以及用于训练该模型的样本集。具体地，该样本集可以包括原始设备缺陷图像集和增量设备缺陷图像集。其中，增量设备缺陷图像集包含有标注有变电站设备的缺陷数据的图像。增量设备缺陷图像集与原始设备缺陷图像集不相同。

可选地，增量设备缺陷图像集可以是人工巡检的遗漏的缺陷目标数据，是原始设备缺陷图像集的补充。

之后，根据原始设备缺陷图像集对原始缺陷检测模型进行训练，得到原始缺陷检测模型的原始缺陷预测损失，从而根据原始缺陷预测损失调整该原始缺陷检测模型的模型参数，直至满足预设条件，得到初始化训练模型。例如，原始缺陷检测模型可以是RetinaNet网络，RetinaNet包括主干网络、特征金子塔网络(Feature PyramidNetwork，FPN)以及头网络(RetinaHead)。其中，主干网络为残差网络(Residual Network，ResNet)，由于残差网络中包括跳线结构，残差网络能够在层数很深的条件下依然容易使用梯度下降法进行优化。特征金子塔网络用于将主干网络提取的多尺度特征进行不同空间分辨率特征信息的整合，让网络对各种尺寸的变电站设备都具有较好的特征提取和检测性能。头网络包括共享参数部分、分类网络部分以及回归网络部分。其中，共享参数部分包括三个卷积层，用于对特征金字塔网络的输出特征进行微调，使之更加适应后续的分类和检测任务。需要注意的是，头网络中的所有参数在特征金字塔网络的所有层之间是共享的。分类网络部分以及回归网络部分均为卷积层，分别用于在微调后的特征层上进行分类向量和回归向量的预测。

根据原始缺陷检测模型的预测结果，确定原始缺陷预测损失。原始缺陷预测损失包括分类损失和回归损失。进而根据分类损失和回归损失调整该原始缺陷检测模型的模型参数，直至损失不再下降或者达到预设迭代次数，即满足预设条件，得到初始化训练模型。

步骤204，根据初始化训练模型的初始训练参数构建增量学习模型。

将初始化训练模型中的模型参数定义为初始训练参数，根据初始训练参数初始化一个新的模型，即增量学习模型。例如，可以采用Xavier初始化(由Xavier Glorot提出的初始化方式)、Kaiming初始化(由何恺明提出的初始化方式)、均匀分布初始化、正态分布初始化等初始化方式来进行模型初始化。

可选地，增量学习模型可以与初始训练模型相同，也可以包括初始训练模型和其他的网络结构。

步骤206，将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到增量学习模型的蒸馏损失值和缺陷预测损失值。

在完成模型初始训练后，根据增量设备缺陷图像集对增量学习模型进行增量化训练。增量训练的目的是使模型像人类一样能够对缺陷图像进行增量式的学习，使得计算机终身学习成为可能。

为了让模型在增量学习阶段仍然保留在原始设备缺陷图像集上已经拥有的性能，通过计算增量学习模型的蒸馏损失值和缺陷预测损失值来调整模型参数。具体地，将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中，得到初始化训练模型的预测结果以及增量学习模型的预测结果，从而通过初始化训练模型的预测结果以及增量学习模型的预测结果计算增量学习模型的蒸馏损失值和缺陷预测损失值。其中，缺陷预测损失值是指增量学习模型在预测过程中的预测损失，具体可以包括分类损失和回归损失。

可选地，原始设备缺陷图像集的图像数量大于增量设备缺陷图像集。

可选地，初始化训练模型的原始缺陷预测损失与增量学习模型的缺陷预测损失值的计算方式相同。

步骤208，根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值。

步骤210，根据蒸馏损失值、预测损失值和参数正则化损失值，调整增量学习模型的模型参数，得到设备缺陷检测模型。

由于增量学习参数过多，为了使得增量学习模型在不遗忘原始设备缺陷图像集的检测性能的基础上获得对增量设备缺陷图像集的识别能力，提出了参数正则化损失函数。参数正则化损失函数能够对模型中所有非固定的参数进行约束，使其不产生较大的改变，从而降低增量学习模型的优化难度。

获取增量学习模型的增量学习参数以及各增量学习参数的重要度。其中，在首次迭代训练时，增量学习模型的增量学习参数可以与初始训练参数相同，也可以包括初始训练参数。在中间迭代过程中，增量学习模型的增量学习参数可以与初始训练参数不同。增量学习参数的重要度表示各增量学习参数在参数保持方面的重要程度。

将初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度代入至参数正则化损失函数中，确定增量学习模型的参数正则化损失值。初始训练参数可以表示为M₁＝{θ₁,θ₂,…,θ_n}。增量学习参数可以表示为例如，参数正则化损失函数如下所示：

其中，L_θ表示参数正则化损失值，表示增量学习模型中的增量学习参数，θ_i表示初始训练参数，b_i表示/>在参数保持方面的重要度。

将蒸馏损失值、预测损失值和参数正则化损失值求和，得到总损失值，根据总损失值调整增量学习模型的模型参数，直至总损失值不再下降或者达到设定迭代次数，得到设备缺陷检测模型。

可选地，可以利用深度学习框架pytorch中的梯度下降工具对原始缺陷检测模型进行初始化训练以及对增量学习模型进行增量化训练。

上述设备缺陷检测模型的训练方法中，通过蒸馏损失值调整模型参数，使得训练后的设备缺陷检测模型能够识别出新增加的缺陷图像。根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值，结合参数正则化损失值和蒸馏损失值来调整模型参数，使得在海量原始数据上训练获得的模型能够在少量增加的数据上进行有效的增量学习，并在不遗忘海量原始数据的检测性能的基础上获得对少量增加数据的识别能力，因而使得训练后的设备缺陷检测模型具有类似与人类一样具有不断学习的能力，大幅度的提升了在不遗忘海量原始数据的检测性能的基础上，对新增数据的缺陷检测准确率，从而在整体上提高设备缺陷检测模型的准确性。另外，无需对海量原始数据进行重新优化，只需进行增量学习，节省了计算成本和存储资源。

在一个实施例中，如图3所示，根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值还包括：获取增量学习参数的重要度的步骤，该步骤包括：

步骤302，根据蒸馏损失值和缺陷预测损失值，确定增量学习模型的增量学习参数的二阶偏导数。

步骤304，根据二阶偏导数获得增量学习参数的重要度。

将蒸馏损失值和缺陷预测损失值进行求和，根据求和后得到的损失值增量学习模型的各增量学习参数进行二阶偏导数计算，得到各增量学习参数的二阶偏导数。对于每一增量学习参数，其二阶偏导数即为重要度。二阶偏导数越大，说明参数的梯度更加陡峭，重要度更高，轻微的改变会带来较大的损失函数的改变，从而导致对原始任务的遗忘。

在本实施例中，使用蒸馏损失值和缺陷预测损失值计算对增量学习参数的二阶偏导数，通过二阶偏导数衡量每个参数的重要性，重要性越高的参数，其约束权重越大，能够简单且准确地确定每个参数的约束权值，从而进一步降低增量学习模型的优化难度。

在一个实施例中，将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到增量学习模型的蒸馏损失值和缺陷预测损失值，包括：将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到初始化训练模型预测的第一缺陷预测结果以及增量学习模型预测的第二缺陷预测结果；根据第一缺陷预测结果和第二缺陷预测结果确定增量学习模型的蒸馏损失值；根据第一缺陷预测结果和增量设备缺陷图像集的标签缺陷数据，确定增量学习模型的缺陷预测损失值。

将增量设备缺陷图像集输入至初始化训练模型中，通过初始化训练模型对增量设备缺陷图像集进行缺陷预测，得到第一缺陷预测结果。第一缺陷预测结果可以包括初始化训练模型预测的分类向量，可以称为第一分类向量。将增量设备缺陷图像集输入至增量学习模型中，通过增量学习模型对增量设备缺陷图像集进行缺陷预测，得到第二缺陷预测结果。第二缺陷预测结果可以包括增量学习模型预测的分类向量，可以称为第二分类向量。

获取知识蒸馏损失函数，将第一分类向量以及第二分类向量输入至知识蒸馏损失函数中，计算得到增量学习模型的蒸馏损失值。知识蒸馏损失函数的目的是让增量学习模型与初始化训练模型预测接近的分类特征向量。由于回归任务是与类别无关的，即新增加的数据和原始的数据回归任务是高度近似的，因此无需专门设计针对回归的知识蒸馏损失函数。

之后，根据第一缺陷预测结果和增量设备缺陷图像集的标签缺陷数据确定增量学习模型的分类损失值和回归损失值，得到缺陷预测损失值。对于增量学习模型来说，初始损失值为蒸馏损失值、分类损失值和回归损失值之和。

在本实施例中，通过初始化训练模型和增量学习模型对增量设备缺陷图像集进行缺陷预测，并根据初始化训练模型和增量学习模型输出的缺陷预测结果确定蒸馏损失值，使得增量学习模型具有类似与人类一样具有不断学习的能力，进一步提升新增数据的缺陷识别准确性。通过增量学习模型输出的缺陷预测结果和增量设备缺陷图像集的标签缺陷数据确定缺陷预测损失值，从而根据缺陷预测损失值调整模型参数，能够提高模型的目标检测准确性。

进一步地，根据第一缺陷预测结果和第二缺陷预测结果确定增量学习模型的蒸馏损失值，包括：根据第一缺陷预测结果中的分类结果和第二缺陷预测结果中的分类结果，确定增量学习模型的蒸馏损失值。

其中，第一分类结果为初始化训练模型预测的分类向量，第二分类结果为增量学习模型预测的分类向量。

获取知识蒸馏损失函数，将第一分类结果以及第二分类结果输入至知识蒸馏损失函数中，计算得到增量学习模型的蒸馏损失值。例如，知识蒸馏损失函数如下所示：

其中，L_z表示知识蒸馏损失值，p表示初始化训练模型预测的分类向量，增量学习模型预测的分类向量。

在本实施例中，只需要计算分类任务的蒸馏损失，无需计算回归任务的蒸馏损失，能够提高缺陷检测效率。

进一步地，缺陷预测损失值包括分类损失值和回归损失值；标签缺陷数据包括标签缺陷类别和标签缺陷位置；

根据第二缺陷预测结果和增量设备缺陷图像集的标签缺陷数据，确定增量学习模型的缺陷预测损失值，包括：根据第二缺陷预测结果中的分类向量和增量设备缺陷图像集的标签缺陷数据中的标签类别向量，确定增量学习模型的分类损失值；在第二缺陷预测结果中确定增量设备缺陷图像集中正样本图像的预测缺陷位置，根据正样本图像的预测缺陷位置和标签缺陷位置，确定增量学习模型的回归损失值。

增量学习模型在输出第二缺陷预测结果后，根据第二缺陷预测结果来识别增量设备缺陷图像集中的正样本图像和负样本图像。若第二缺陷预测结果中的预测缺陷位置的位置框与标签缺陷位置的位置框的重叠度大于预设阈值，则该预测缺陷位置对应的图像为正样本图像，否则，为负样本图像。正样本图像贡献了损失函数中的分类和回归两个任务的学习，负样本图像只贡献损失函数中的分类任务的学习。因此，根据第二缺陷预测结果中的全部分类向量和标签缺陷数据中的全部标签类别向量来计算分类损失值，在计算回归损失值时，只需要根据正样本图像的预测缺陷位置和标签缺陷位置来计算。预测缺陷位置和标签缺陷位置均为位置框的中心点坐标，可以表示为(x,y,w,h)，其中，x表示位置框的中心点的横坐标，y表示位置框的中心点的纵坐标，w表示位置框的中心点的宽，h表示位置框的中心点的高。

例如，采用分类损失函数focal loss(焦点损失)计算分类损失值：

L_fl＝-((1-)²qlog(p)+²(1-q)(1-))

其中，p表示第二缺陷预测结果中的分类向量，q表示标签类别向量。

采用回归损失函数smooth L1(平滑L1损失)计算回归损失值：

其中，x＝b_t-b_p，b_t表示第二缺陷预测结果中正样本图像的预测缺陷位置框的中心点坐标，b_p表示标签缺陷位置框的中心点坐标。

在本实施例中，根据第二缺陷预测结果中的全部分类向量和标签缺陷数据中的全部标签类别向量来计算分类损失值，根据正样本图像的预测缺陷位置和标签缺陷位置来计算回归损失值，能够在模型的分类和回归过程中，灵活运用正负样本图像，从而准确计算缺陷预测损失值。

在一个实施例中，根据原始设备缺陷图像集对原始缺陷检测模型进行初始化训练，得到初始化训练模型包括：将原始设备缺陷图像集输入至原始缺陷检测模型中进行缺陷预测，得到原始缺陷检测模型输出的原始缺陷预测结果；根据原始缺陷预测结果和原始设备缺陷图像集的标签缺陷数据，确定原始缺陷检测模型的原始缺陷预测损失；根据原始缺陷预测损失调整原始缺陷检测模型的模型参数，得到初始化训练模型。

原始缺陷检测结果包括原始检测模型输出的分类向量和预测位置框。原始设备缺陷图像集的标签缺陷数据中包括原始类别向量和原始位置框。根据原始缺陷检测结果识别原始设备缺陷图像集中的正样本图像和负样本图像。该正负样本的识别方式与增量设备缺陷图像集的正负样本的识别方式相同，此处不再赘述。

根据原始缺陷检测结果中的分类向量和原始类别向量，确定原始检测模型的分类损失值。在原始缺陷检测结果中确定原始设备缺陷图像集中正样本图像的预测缺陷位置，在原始位置框中获取原始设备缺陷图像集中正样本图像的原始位置框。根据该正样本图像的预测缺陷位置和原始位置框，确定原始检测模型的回归损失值。原始检测模型的分类损失值和回归损失值之和即为原始缺陷预测损失。原始检测模型的分类损失值和回归损失值计算方式与增量学习模型的损失计算方式相同，此处不再赘述。

进而根据原始缺陷预测损失调整原始缺陷检测模型的模型参数，直至原始缺陷预测损失不再下降或者达到设定迭代次数，得到初始化训练模型。

本实施例中，根据原始缺陷预测结果中的全部分类向量和标签缺陷数据中的全部标签类别向量来计算分类损失值，根据正样本图像的预测缺陷位置和原始位置框来计算回归损失值，能够在原始缺陷检测模型的分类和回归过程中，灵活运用正负样本图像，从而准确计算原始缺陷预测损失，进而提高初始化训练模型的准确性。

在一个实施例中，如图4所示，本申请还提供了一种设备缺陷检测方法，可以利用前述训练得到的设备缺陷检测模型进行设备缺陷检测。以该方法应用于图1中的服务器为例进行说明，设备缺陷检测方法包括：

步骤402，获取待检测设备图像。

变电站中预先安装有终端，用于采集变电站设备的设备图像，并将采集到的待检测设备图像发送至服务器。

步骤404，调用设备缺陷检测模型。

具体地，服务器中预先存储有已训练的设备缺陷检测模型，该设备缺陷检测模型通过前述设备缺陷检测模型的训练方法训练得到，具体可以是根据原始设备缺陷图像集对原始缺陷检测模型进行初始化训练，得到初始化训练模型，根据初始化训练模型的初始训练参数构建增量学习模型，从而将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到增量学习模型的蒸馏损失值和缺陷预测损失值，根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值，进而根据蒸馏损失值、预测损失值和参数正则化损失值，调整增量学习模型的模型参数得到的。

步骤406，通过设备缺陷检测模型对待检测设备图像进行缺陷检测，得到待检测设备图像的缺陷检测结果。

将待检测设备图像输入至设备缺陷检测模型中，通过设备缺陷检测模型对待检测设备图像进行缺陷检测，得到待检测设备图像中的缺陷类别和缺陷位置框。

在本实施例中，由于已训练的设备缺陷检测模型具有类似与人类一样具有不断学习的能力，能够在不遗忘海量原始数据的检测性能的基础上，提升对新增数据的缺陷检测准确率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的设备缺陷检测模型的训练方法的设备缺陷检测模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个设备缺陷检测模型的训练装置实施例中的具体限定可以参见上文中对于设备缺陷检测模型的训练方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种设备缺陷检测模型的训练装置，包括：初始训练模块502、模型构建模块504、知识蒸馏模块506、正则化模块508和参数调整模块510，其中：

初始训练模块502，用于根据原始设备缺陷图像集对原始缺陷检测模型进行初始化训练，得到初始化训练模型。

模型构建模块504，用于根据初始化训练模型的初始训练参数构建增量学习模型。

知识蒸馏模块506，用于将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到增量学习模型的蒸馏损失值和缺陷预测损失值。

正则化模块508，用于根据初始训练参数、增量学习模型的增量学习参数以及增量学习参数的重要度，确定增量学习模型的参数正则化损失值。

参数调整模块510，用于根据蒸馏损失值、预测损失值和参数正则化损失值，调整增量学习模型的模型参数，得到设备缺陷检测模型。

在一个实施例中，正则化模块508还用于根据蒸馏损失值和缺陷预测损失值，确定增量学习模型的增量学习参数的二阶偏导数；根据二阶偏导数获得增量学习参数的重要度。

在一个实施例中，知识蒸馏模块506还用于将增量设备缺陷图像集分别输入至初始化训练模型以及增量学习模型中进行缺陷预测，得到初始化训练模型预测的第一缺陷预测结果以及增量学习模型预测的第二缺陷预测结果；根据第一缺陷预测结果和第二缺陷预测结果确定增量学习模型的蒸馏损失值；根据第二缺陷预测结果和增量设备缺陷图像集的标签缺陷数据，确定增量学习模型的缺陷预测损失值。

在一个实施例中，知识蒸馏模块506还用于根据第一缺陷预测结果中的分类结果和第二缺陷预测结果中的分类结果，确定增量学习模型的蒸馏损失值。

在一个实施例中，缺陷预测损失值包括分类损失值和回归损失值；标签缺陷数据包括标签缺陷类别和标签缺陷位置；知识蒸馏模块506还用于根据第二缺陷预测结果中的分类向量和增量设备缺陷图像集的标签缺陷数据中的标签类别向量，确定增量学习模型的分类损失值；在第二缺陷预测结果中确定增量设备缺陷图像集中正样本图像的预测缺陷位置，根据正样本图像的预测缺陷位置和标签缺陷位置，确定增量学习模型的回归损失值。

在一个实施例中，该装置还包括：

样本获取模块，用于获取原始设备缺陷图像集和增量设备缺陷图像集；原始设备缺陷图像集的图像数量大于增量设备缺陷图像集。

在一个实施例中，如图6所示，提供了一种设备缺陷检测装置，包括：图像获取模块602、模型调用模块604和缺陷检测模块606，其中：

图像获取模块602，用于获取待检测设备图像。

模型调用模块604，用于调用设备缺陷检测模型。

缺陷检测模块606，用于通过设备缺陷检测模型对待检测设备图像进行缺陷检测，得到待检测设备图像的缺陷检测结果。

上述设备缺陷检测模型的训练装置和设备缺陷检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始设备缺陷图像集、增量设备缺陷图像集等。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种设备缺陷检测模型的训练方法以及设备缺陷检测方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，计算机程序被处理器执行时还实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种设备缺陷检测模型的训练方法，其特征在于，所述方法包括：

根据所述初始化训练模型的初始训练参数构建增量学习模型；

将增量设备缺陷图像集分别输入至所述初始化训练模型以及所述增量学习模型中进行缺陷预测，得到所述增量学习模型的蒸馏损失值和缺陷预测损失值；

根据所述初始训练参数、所述增量学习模型的增量学习参数以及所述增量学习参数的重要度，确定所述增量学习模型的参数正则化损失值；

根据所述蒸馏损失值、预测损失值和所述参数正则化损失值，调整所述增量学习模型的模型参数，得到设备缺陷检测模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述初始训练参数、所述增量学习模型的增量学习参数以及所述增量学习参数的重要度，确定所述增量学习模型的参数正则化损失值，包括：

根据所述蒸馏损失值和所述缺陷预测损失值，确定所述增量学习模型的增量学习参数的二阶偏导数；

根据所述二阶偏导数获得所述增量学习参数的重要度。

3.根据权利要求1所述的方法，其特征在于，所述将增量设备缺陷图像集分别输入至所述初始化训练模型以及所述增量学习模型中进行缺陷预测，得到所述增量学习模型的蒸馏损失值和缺陷预测损失值，包括：

将所述增量设备缺陷图像集分别输入至所述初始化训练模型以及所述增量学习模型中进行缺陷预测，得到所述初始化训练模型预测的第一缺陷预测结果以及所述增量学习模型预测的第二缺陷预测结果；

根据所述第一缺陷预测结果和所述第二缺陷预测结果确定所述增量学习模型的蒸馏损失值；

根据所述第二缺陷预测结果和所述增量设备缺陷图像集的标签缺陷数据，确定所述增量学习模型的缺陷预测损失值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一缺陷预测结果和所述第二缺陷预测结果确定所述增量学习模型的蒸馏损失值，包括：

根据所述第一缺陷预测结果中的分类结果和所述第二缺陷预测结果中的分类结果，确定所述增量学习模型的蒸馏损失值。

5.根据权利要求3所述的方法，其特征在于，所述缺陷预测损失值包括分类损失值和回归损失值；所述标签缺陷数据包括标签缺陷类别和标签缺陷位置；所述根据所述第二缺陷预测结果和所述增量设备缺陷图像集的标签缺陷数据，确定所述增量学习模型的缺陷预测损失值，包括：

根据所述第二缺陷预测结果中的分类向量和所述增量设备缺陷图像集的标签缺陷数据中的标签类别向量，确定所述增量学习模型的分类损失值；

在所述第二缺陷预测结果中确定所述增量设备缺陷图像集中正样本图像的预测缺陷位置，根据所述正样本图像的预测缺陷位置和标签缺陷位置，确定所述增量学习模型的回归损失值。

6.根据权利要求1所述的方法，其特征在于，所述根据原始设备缺陷图像集对原始缺陷检测模型进行初始化训练，得到初始化训练模型包括：

将所述原始设备缺陷图像集输入至原始缺陷检测模型中进行缺陷预测，得到所述原始缺陷检测模型输出的原始缺陷预测结果；

根据所述原始缺陷预测结果和所述原始设备缺陷图像集的标签缺陷数据，确定所述原始缺陷检测模型的原始缺陷预测损失；

根据所述原始缺陷预测损失调整所述原始缺陷检测模型的模型参数，得到初始化训练模型。

7.根据权利要求1所述的方法，其特征在于，所述原始设备缺陷图像集的图像数量大于所述增量设备缺陷图像集。

8.一种设备缺陷检测方法，其特征在于，所述方法包括：

获取待检测设备图像；

调用设备缺陷检测模型；所述设备缺陷检测模型通过权利要求1至6中任一项所述的方法训练得到；

通过所述设备缺陷检测模型对所述待检测设备图像进行缺陷检测，得到所述待检测设备图像的缺陷检测结果。

9.一种设备缺陷检测模型的训练装置，其特征在于，所述装置包括：

模型构建模块，用于根据所述初始化训练模型的初始训练参数构建增量学习模型；

知识蒸馏模块，用于将增量设备缺陷图像集分别输入至所述初始化训练模型以及所述增量学习模型中进行缺陷预测，得到所述增量学习模型的蒸馏损失值和缺陷预测损失值；

正则化模块，用于根据所述初始训练参数、所述增量学习模型的增量学习参数以及所述增量学习参数的重要度，确定所述增量学习模型的参数正则化损失值；

参数调整模块，用于根据所述蒸馏损失值、预测损失值和所述参数正则化损失值，调整所述增量学习模型的模型参数，得到设备缺陷检测模型。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。