CN116611494A - 电力缺陷检测模型的训练方法、装置、计算机设备和介质 - Google Patents
电力缺陷检测模型的训练方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN116611494A CN116611494A CN202310547812.7A CN202310547812A CN116611494A CN 116611494 A CN116611494 A CN 116611494A CN 202310547812 A CN202310547812 A CN 202310547812A CN 116611494 A CN116611494 A CN 116611494A
- Authority
- CN
- China
- Prior art keywords
- model
- defect detection
- electric power
- detection result
- quantization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 420
- 238000001514 detection method Methods 0.000 title claims abstract description 404
- 238000012549 training Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013139 quantization Methods 0.000 claims abstract description 202
- 238000004821 distillation Methods 0.000 claims abstract description 105
- 230000004927 fusion Effects 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 25
- 238000011002 quantification Methods 0.000 claims description 11
- 230000010354 integration Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 14
- 230000004913 activation Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Investigating Or Analyzing Materials By The Use Of Electric Means (AREA)
Abstract
本申请实施例提供了一种电力缺陷检测模型的训练方法,涉及互联网领域。该方法包括:获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据;根据预设量化精度对初始电力缺陷检测模型的各个网络层进行量化处理,得到电力量化模型;根据源模型的第一缺陷检测结果和目标模型的第二缺陷检测结果的差异,对目标模型进行训练,得到电力蒸馏模型;将电力样本数据输入电力蒸馏模型,得到电力蒸馏模型的第三缺陷检测结果;根据第二缺陷检测结果和第三缺陷检测结果得到融合缺陷检测结果,并根据融合缺陷检测结果和第三缺陷检测结果的差异,得到目标电力缺陷检测模型。该方法中,可以降低模型存储空间和计算复杂度,提高模型准确率。
Description
技术领域
本申请涉及互联网领域,特别是涉及一种电力缺陷检测模型的训练方法、装置、系统、计算机设备、存储介质和计算机程序产品。
背景技术
随着深度学习的快速发展,深度神经网络模型,例如电力缺陷检测模型,的精度不断地得到提高。这些深度神经网络模型,例如电力缺陷检测模型在应用时,也需要消耗巨大的硬件资源,不适用于移动终端等,为了解决在移动终端上应用高精度的电力缺陷检测模型,通常会采用对模型进行量化的方法来减小模型的存储空间和计算复杂度,以获得可以在移动终端上使用的模型。
目前,相关技术中的模型量化方法存在模型准确率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种电力缺陷检测模型的训练方法、装置、系统、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种电力缺陷检测模型的训练方法。所述方法包括:
获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据;
根据预设量化精度对所述初始电力缺陷检测模型的各个网络层进行量化处理,得到所述初始电力缺陷检测模型对应的待训练量化模型;
利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述初始电力缺陷检测模型对应的电力量化模型;
将所述初始电力缺陷检测模型作为源模型,以及将所述电力量化模型作为目标模型,并根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的电力蒸馏模型;
将所述电力样本数据输入所述电力蒸馏模型,得到所述电力蒸馏模型的第三缺陷检测结果;
根据所述第二缺陷检测结果和所述第三缺陷检测结果得到融合缺陷检测结果,并根据所述融合缺陷检测结果和所述第三缺陷检测结果的差异,对所述电力蒸馏模型进行训练,得到目标电力缺陷检测模型。
在其中一个实施例中,所述根据预设量化精度对所述初始电力缺陷检测模型的各个网络层进行量化处理,得到所述初始电力缺陷检测模型对应的待训练量化模型,包括:将所述初始电力缺陷检测模型的各个网络层的量化精度调整至所述预设量化精度,得到所述待训练量化模型。
在其中一个实施例中,所述利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述初始电力缺陷检测模型对应的电力量化模型,包括:利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述待训练量化模型的目标量化参数;将所述待训练量化模型的初始量化参数替换为所述目标量化参数,得到所述初始电力缺陷检测模型对应的电力量化模型。
在其中一个实施例中,所述根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的电力蒸馏模型,包括:根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的初始电力蒸馏模型;将所述初始电力蒸馏模型作为新的目标模型,返回执行根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练的步骤,直到满足预设训练次数,得到所述初始电力缺陷检测模型对应的电力蒸馏模型。
在其中一个实施例中,所述根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的初始电力蒸馏模型,包括:将所述电力样本数据输入至所述源模型,得到所述第一缺陷检测结果;将所述电力样本数据输入至所述目标模型,得到所述第二缺陷检测结果;根据所述第一缺陷检测结果和所述第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力蒸馏模型。
在其中一个实施例中,所述根据所述第二缺陷检测结果和所述第三缺陷检测结果得到融合缺陷检测结果,包括:获取所述第二缺陷检测结果和所述第三缺陷检测结果分别对应的权重值;基于所述权重值,对所述第二缺陷检测结果和所述第三缺陷检测结果进行加权平均处理,得到所述融合缺陷检测结果。
第二方面,本申请提供了一种电力缺陷检测模型的训练装置。所述装置包括:
获取模块,用于获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据;
调整模块,用于根据预设量化精度对所述初始电力缺陷检测模型的各个网络层进行量化处理,得到所述初始电力缺陷检测模型对应的待训练量化模型;
量化模块,用于利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述初始电力缺陷检测模型对应的电力量化模型;
蒸馏模块,用于将所述初始电力缺陷检测模型作为源模型,以及将所述电力量化模型作为目标模型;并根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的电力蒸馏模型;
计算模块,用于将所述电力样本数据输入所述电力蒸馏模型,得到所述电力蒸馏模型的第三缺陷检测结果;
集成模块,用于根据所述第二缺陷检测结果和所述第三缺陷检测结果得到融合缺陷检测结果,并根据所述融合缺陷检测结果和所述第三缺陷检测结果的差异,对所述电力蒸馏模型进行训练,得到目标电力缺陷检测模型。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据;
根据预设量化精度对所述初始电力缺陷检测模型的各个网络层进行量化处理,得到所述初始电力缺陷检测模型对应的待训练量化模型;
利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述初始电力缺陷检测模型对应的电力量化模型;
将所述初始电力缺陷检测模型作为源模型,以及将所述电力量化模型作为目标模型,并根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的电力蒸馏模型;
将所述电力样本数据输入所述电力蒸馏模型,得到所述电力蒸馏模型的第三缺陷检测结果;
根据所述第二缺陷检测结果和所述第三缺陷检测结果得到融合缺陷检测结果,并根据所述融合缺陷检测结果和所述第三缺陷检测结果的差异,对所述电力蒸馏模型进行训练,得到目标电力缺陷检测模型。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据;
根据预设量化精度对所述初始电力缺陷检测模型的各个网络层进行量化处理,得到所述初始电力缺陷检测模型对应的待训练量化模型;
利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述初始电力缺陷检测模型对应的电力量化模型;
将所述初始电力缺陷检测模型作为源模型,以及将所述电力量化模型作为目标模型,并根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的电力蒸馏模型;
将所述电力样本数据输入所述电力蒸馏模型,得到所述电力蒸馏模型的第三缺陷检测结果;
根据所述第二缺陷检测结果和所述第三缺陷检测结果得到融合缺陷检测结果,并根据所述融合缺陷检测结果和所述第三缺陷检测结果的差异,对所述电力蒸馏模型进行训练,得到目标电力缺陷检测模型。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据;
根据预设量化精度对所述初始电力缺陷检测模型的各个网络层进行量化处理,得到所述初始电力缺陷检测模型对应的待训练量化模型;
利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述初始电力缺陷检测模型对应的电力量化模型;
将所述初始电力缺陷检测模型作为源模型,以及将所述电力量化模型作为目标模型,并根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的电力蒸馏模型;
将所述电力样本数据输入所述电力蒸馏模型,得到所述电力蒸馏模型的第三缺陷检测结果;
根据所述第二缺陷检测结果和所述第三缺陷检测结果得到融合缺陷检测结果,并根据所述融合缺陷检测结果和所述第三缺陷检测结果的差异,对所述电力蒸馏模型进行训练,得到目标电力缺陷检测模型。
上述电力缺陷检测模型的训练方法、装置、系统、计算机设备、存储介质和计算机程序产品中,可以基于电力样本数据预先训练针对电力系统的初始电力缺陷检测模型;从而,根据预设量化精度对初始电力缺陷检测模型的各个网络层进行量化处理,得到初始电力缺陷检测模型对应的待训练量化模型;利用电力样本数据对待训练量化模型进行满足预设次数的迭代训练,得到初始电力缺陷检测模型对应的电力量化模型;进而,将初始电力缺陷检测模型作为源模型,以及将电力量化模型作为目标模型,并根据源模型的第一缺陷检测结果和目标模型的第二缺陷检测结果的差异,对目标模型进行训练,得到初始电力缺陷检测模型对应的电力蒸馏模型;接下来,将电力样本数据输入电力蒸馏模型,得到电力蒸馏模型的第三缺陷检测结果;并根据第二缺陷检测结果和第三缺陷检测结果得到融合缺陷检测结果,并根据融合缺陷检测结果和第三缺陷检测结果的差异,对电力蒸馏模型进行训练,得到目标电力缺陷检测模型。本申请实施例提供的该电力缺陷检测模型的训练方法中,可以通过对初始电力缺陷检测模型进行量化,得到所述初始电力缺陷检测模型对应的电力量化模型,减小初始电力缺陷检测模型的存储空间以及计算复杂度,在此基础上,又可以对电力量化模型进行蒸馏和集成处理,得到目标电力缺陷检测模型,增加了模型准确性。
附图说明
图1为一个实施例提供的一种电力缺陷检测模型的训练方法的流程示意图;
图2为另一个实施例提供的一种电力缺陷检测模型的训练方法的流程示意图;
图3为一个实施例提供的一种电力缺陷检测模型的训练装置的结构框图;
图4为一个实施例提供的一种计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在一个实施例中,如图1所示,提供了一种电力缺陷检测模型的训练方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S101,获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据。
在一些可能的实现方式中,初始电力缺陷检测模型的方法可以如下:
1、获取电力系统的电力样本数据,以及该电力样本数据的实际缺陷标签;
2、将该电力样本数据输入至待训练的初始电力缺陷检测模型,得到针对该电力样本数据的预测缺陷标签;
3、根据该实际缺陷标签和该预测缺陷标签的差异,对待训练的初始电力缺陷检测模型进行训练。
其中,该电力样本数据可以是待缺陷检测的电力数据,基于该电力数据可以判断对应的电力装置是否存在缺陷。该实际缺陷标签可以是该电力样本数据的表征的缺陷类别和/或缺陷判断准确率等。该初始电力缺陷检测模型的参数可以是高精度浮点型参数。
在一些可能的实现方式中,该初始电力缺陷检测模型可以包括至少一层卷积层、至少一层池化层和至少一层全连接层,该卷积层用于提取输入的数据的特征;池化层用于对输入的数据进行采样,该全连接层可以对数据进行分类。卷积层、池化层和全连接层均包括激活函数,激活函数包括权重矩阵和偏置常量。
在本实施例中,电力样本数据可以包括多个电力数据。
具体地,卷积层可以用于提取多个电力数据的初始特征。第一步,将多个电力数据进行向量转换,得到多个电力数据向量,多个电力数据向量可以组合为一个电力数据向量矩阵;第二步,将该电力数据向量矩阵输入至卷积层,使用卷积核与电力数据向量矩阵进行卷积运算,也就是将电力数据向量矩阵和卷积核作内积运算,得到电力数据向量矩阵对应的卷积结果;接下来,基于激活函数对卷积结果进行非线性变换,并且加上偏置向量,得到初始特征向量;第三步,将初始特征向量输入至池化层,可以对初始特征向量进行特征采样;然后,基于激活函数对特征采样结果进行非线性变换,并且加上偏置向量,得到电力缺陷特征;第四步,可以将电力缺陷特征输入至全连接层,基于激活函数的权重矩阵和偏置向量,对电力缺陷特征进行非线性变换,再通过归一化,得到电力样本数据对应的缺陷检测结果。
步骤S102,根据预设量化精度对初始电力缺陷检测模型的各个网络层进行量化处理,得到初始电力缺陷检测模型对应的待训练量化模型。
其中,初始电力缺陷检测模型可以是一种神经网络模型。该初始电力缺陷检测模型的参数,例如权重数据一般是float32的浮点数据,该量化是模型压缩的一种方式,量化就是把初始电力缺陷检测模型中高位宽(例如32float)表示的权值或者激活值用较低位宽来近似表示(int8),在数值上的体现就是将连续的值离散化。该预设量化精度可以是一个指定比特宽度。
在一些可能的实现方式中,量化方式可以包含以下几种:
具体地,对深度神经网络模型的每一层进行相应的量化,FP32是单精度浮点数,用8位表示指数部分和23位表示小数部分。相比于FP16与int8,它的小数部分表示范围更广,因此精度更高。但是,由于它的数据表示范围更大,需要更多的存储空间和计算资源。可使用16bit和8bit的量化,量化方式不同,以下具体阐释。
16位量化,也称为FP16,是一种半精度浮点数表示法。它用5个比特表示指数部分和10个比特表示小数部分,比32位单精度浮点数FP32少了13个小数部分比特。由于FP16的小数部分表示范围比FP32小,因此在存储和计算时需要进行舍入,存在一定的精度误差。但是,这种精度损失相对较小,而且在一些应用场景中,FP16可以在几乎不影响模型性能的情况下大幅减少模型大小和计算量。虽然在数据表示范围上,FP32和FP16表示的整数范围是一样的,但在小数部分表示范围上有所不同。在simd指令中,一条指令最多加载128位数据,因此对于FP32数据,一次最多支持4个数据的并行计算,而对于FP16数据,一次最多支持8个数据的并行计算。因此,在计算中,FP16的性能峰值应该是FP32的两倍。
8位量化,又称为int8量化,是一种非常常见的定点量化方法。在这种方法中,浮点型神经网络模型被转换为定点型神经网络模型,以实现减少模型体积和提高计算速度的目的。
线性量化,量化的变换必须是线性的,这意味着将浮点数转换为定点数时必须满足一个线性关系。具体而言,它是通过将浮点数乘以一个缩放因子,再将其四舍五入到最近的整数值来完成的。这个缩放因子是根据原始数据的范围和量化的比特数来确定的。由于线性关系的存在,量化后的数据可以通过反量化还原回原始浮点值,从而确保计算结果能够映射回原始值。线性量化可以包括对称量化和非对称量化,对称量化指缩放因子为正负对称的量化方法,可以更好地保持数据分布的形状;非对称量化指缩放因子为正数的量化方法,可以使得量化后的数据更加简单,便于硬件实现。
非均匀量化,除了线性量化外,还有一种非均匀量化方法,可以根据数据分布来确定缩放因子。这种方法可以使得数据在量化后具有更高的精度,但也会增加计算的复杂度。
步骤S103,利用电力样本数据对待训练量化模型进行满足预设次数的迭代训练,得到初始电力缺陷检测模型对应的电力量化模型。
具体地,可以将该电力样本数据输入至初始电力缺陷检测模型,得到初始缺陷检测结果;将该电力样本数据输入至待训练量化模型,得到待训练量化模型包含的各网络层分别对应的输出结果;基于该初始缺陷检测结果和该待训练量化模型包含的各网络层分别对应的输出结果,确定该待训练量化模型包含的各网络层分别对该预设量化精度,即指定比特宽度的敏感度;基于各网络层分别对应的敏感度,调整各网络层分别对应的比特宽度;基于各网络层分别对应的比特宽度,利用电力样本数据对待训练量化模型进行满足预设次数的迭代训练,得到初始电力缺陷检测模型对应的电力量化模型。
其中,在每一次迭代训练中,可以首先确定针对待训练量化模型的量化参数;接下来,根据各网络层分别对应的比特宽度和该量化参数,量化各网络层分别对应的权重和激活值,得到权重量化值和激活量化值;基于权重量化值和激活量化值,更新下一次迭代训练的量化参数。
在一些可能的实现方式中,各网络层分别对应的敏感度可以基于以下方式进行确定:
基于该初始缺陷检测结果和该待训练量化模型包含的各网络层分别对应的输出结果可以确定各网络层分别对应的精度损失;基于该各网络层分别对应的精度损失,获取各网络层分别对应的敏感度。
在一些可能的实现方式中,也可以对该电力量化模型进行继续优化,例如对该电力量化模型进行微调。
具体地,在初始电力缺陷检测模型进行量化得到电力量化模型的过程中,为了降低量化误差,通常采用一种补偿策略,即在量化过程中引入偏置(bias)来抵消量化误差。偏置是通过将一个常数加到量化后的数值上来实现的,从而使得量化后的数值与实际值更加接近。
经过量化操作后需对模型进行微调操作。在离线量化阶段,首先将原始的浮点模型转换为定点模型,并根据每一层的敏感度调整量化比特数,使得不同层的精度与敏感度匹配。在此过程中,采用了偏置策略来抵消量化误差。随后,在在线微调阶段,对量化后的模型进行微调以进一步提高精度,这通常包括调整补偿偏置、重新训练权重和偏置等操作。
其中,微调操作的具体步骤包括以下几个方面:
计算微调的损失函数,通常采用交叉熵损失函数来计算预测结果与实际结果之间的差距;根据微调的损失函数,调整模型的权重和偏置,以减小预测误差;调整偏置以减少量化误差,并确保量化后的模型的精度符合预期;重复以上步骤,直到模型的精度满足要求为止。
步骤S104,将初始电力缺陷检测模型作为源模型,以及将电力量化模型作为目标模型,并根据源模型的第一缺陷检测结果和目标模型的第二缺陷检测结果的差异,对目标模型进行训练,得到初始电力缺陷检测模型对应的电力蒸馏模型。
其中,该源模型,也可以称为教师模型;该目标模型,也可以称为学生模型;可以基于教师模型的第一缺陷检测结果,对该学生模型进行训练,使得该学生模型更接近教师模型。该第一缺陷检测结果可以是基于初始电力缺陷检测模型得到的针对电力样本数据的缺陷检测结果;该第二缺陷检测结果可以是基于电力量化模型得到的针对电力样本数据的缺陷检测结果;该缺陷检测结果可以用于表征该电力样本数据对应的电力装置是否存在缺陷,若该电力样本数据对应的电力装置存在缺陷,则可以包含该电力装置的缺陷类别和缺陷判断准确性。
步骤S105,将电力样本数据输入电力蒸馏模型,得到电力蒸馏模型的第三缺陷检测结果。
步骤S106,根据第二缺陷检测结果和第三缺陷检测结果得到融合缺陷检测结果,并根据融合缺陷检测结果和第三缺陷检测结果的差异,对电力蒸馏模型进行训练,得到目标电力缺陷检测模型。
其中,可以将第二缺陷检测结果和第三缺陷检测结果进行集成,得到融合缺陷检测结果。
本实施例的方法中,可以基于电力样本数据预先训练针对电力系统的初始电力缺陷检测模型;从而,根据预设量化精度对初始电力缺陷检测模型的各个网络层进行量化处理,得到初始电力缺陷检测模型对应的待训练量化模型;利用电力样本数据对待训练量化模型进行满足预设次数的迭代训练,得到初始电力缺陷检测模型对应的电力量化模型;进而,将初始电力缺陷检测模型作为源模型,以及将电力量化模型作为目标模型,并根据源模型的第一缺陷检测结果和目标模型的第二缺陷检测结果的差异,对目标模型进行训练,得到初始电力缺陷检测模型对应的电力蒸馏模型;接下来,将电力样本数据输入电力蒸馏模型,得到电力蒸馏模型的第三缺陷检测结果;并根据第二缺陷检测结果和第三缺陷检测结果得到融合缺陷检测结果,并根据融合缺陷检测结果和第三缺陷检测结果的差异,对电力蒸馏模型进行训练,得到目标电力缺陷检测模型。本申请实施例提供的该电力缺陷检测模型的训练方法中,可以通过对初始电力缺陷检测模型进行量化,得到所述初始电力缺陷检测模型对应的电力量化模型,减小初始电力缺陷检测模型的存储空间以及计算复杂度,在此基础上,又可以对电力量化模型进行蒸馏和集成处理,得到目标电力缺陷检测模型,增加了模型准确性。
在一些实施例中,步骤S102,可以包括:
将初始电力缺陷检测模型的各个网络层的量化精度调整至预设量化精度,得到待训练量化模型。
可以基于预设量化精度,确定量化位数;并基于该预设量化精度和该量化位数,设置指定比特宽度,从而,可以将初始电力缺陷检测模型的各个网络层的量化精度调整至预设量化精度,即指定比特宽度,得到待训练量化模型。
本实施例的方法中,可以通过对初始电力缺陷检测模型进行量化,得到所述初始电力缺陷检测模型对应的电力量化模型,减小初始电力缺陷检测模型的存储空间以及计算复杂度。
在一些实施例中,步骤S103可以包括:
利用电力样本数据对待训练量化模型进行满足预设次数的迭代训练,得到待训练量化模型的目标量化参数;将待训练量化模型的初始量化参数替换为目标量化参数,得到初始电力缺陷检测模型对应的电力量化模型。
本实施例的方法中,可以通过对初始电力缺陷检测模型进行量化,得到所述初始电力缺陷检测模型对应的电力量化模型,减小初始电力缺陷检测模型的存储空间以及计算复杂度。
在一些实施例中,步骤S104可以包括:
根据源模型的第一缺陷检测结果和目标模型的第二缺陷检测结果的差异,对目标模型进行训练,得到初始电力缺陷检测模型对应的初始电力蒸馏模型;将初始电力蒸馏模型作为新的目标模型,返回执行根据源模型的第一缺陷检测结果和目标模型的第二缺陷检测结果的差异,对目标模型进行训练的步骤,直到满足预设训练次数,得到初始电力缺陷检测模型对应的电力蒸馏模型。
在一些可能的实现方式中,可以基于初始电力缺陷检测模型对电力量化模型进行满足预设次数的多次蒸馏,以预设次数为三次为例:
具体地,将该电力样本数据输入至初始电力缺陷检测模型,得到该第一缺陷检测结果;将该电力样本数据输入至电力量化模型,得到该第二缺陷检测结果;根据该初始电力缺陷检测模型的第一缺陷检测结果和该电力量化模型的第二缺陷检测结果的差异,对该电力量化模型进行训练,得到初始电力蒸馏模型;将该电力样本数据输入至初始电力蒸馏模型,得到该初始电力蒸馏模型的第二缺陷检测结果;根据该初始电力缺陷检测模型的第一缺陷检测结果和该初始电力蒸馏模型的第二缺陷检测结果的差异,对该初始电力蒸馏模型进行训练,得到二次电力蒸馏模型;将该电力样本数据输入至该二次电力蒸馏模型,得到该二次电力蒸馏模型的第二缺陷检测结果;根据该初始电力缺陷检测模型的第一缺陷检测结果和该二次电力蒸馏模型的第二缺陷检测结果的差异,对该二次电力蒸馏模型的进行训练,得到三次电力蒸馏模型,将该三次电力蒸馏模型作为该初始电力缺陷检测模型对应的电力蒸馏模型。
本实施例的方法中,可以对电力量化模型进行满足预设次数的蒸馏处理,得到电力蒸馏模型,增加了模型准确性。
在一些实施例中,步骤S106中的根据第二缺陷检测结果和第三缺陷检测结果得到融合缺陷检测结果,可以包括:
其中,该第二缺陷检测结果可以包括至少一个缺陷检测结果,可以包括满足预设次数的缺陷检测结果个数。以预设次数为三次为例,则该第二缺陷检测结果可以包括该电力量化模型的第二缺陷检测结果、该初始电力蒸馏模型的第二缺陷检测结果和该二次电力蒸馏模型的第二缺陷检测结果。该第三缺陷检测结果可以是基于电力蒸馏模型获取的针对电力样本数据的缺陷检测结果。可以分别获取该电力量化模型的第二缺陷检测结果、该初始电力蒸馏模型的第二缺陷检测结果、该二次电力蒸馏模型的第二缺陷检测结果,以及第三缺陷检测结果的权重值;并将该电力量化模型的第二缺陷检测结果与对应的第一权重值的乘积、该初始电力蒸馏模型的第二缺陷检测结果与对应的第二权重值的乘积、该二次电力蒸馏模型的第二缺陷检测结果与对应的第三权重值的乘积,以及和第三缺陷检测结果与对应的第四权重值的乘积之和的平均值作为该融合缺陷检测结果。
在本实施例的方法中,可以对电力量化模型和多个蒸馏模型进行集成处理,得到目标电力缺陷检测模型,增加了模型准确性。
在另一个实施例中,如图2所示,提供了一种电力缺陷检测模型的训练方法,该方法可以包括:
步骤S201,获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据。
其中,待推荐资源对象为金融业务系统中待转移的资源对象;该候选待推荐账户为预先获取的针对待推荐资源对象具有潜在预设行为的账户。
步骤S202,将初始电力缺陷检测模型的各个网络层的量化精度调整至预设量化精度,得到待训练量化模型。
其中,预测资源转移倾向度表征各候选待推荐账户针对待推荐资源对象执行预设行为的预测概率。
步骤S203,利用电力样本数据对待训练量化模型进行满足预设次数的迭代训练,得到待训练量化模型的目标量化参数。
步骤S204,将待训练量化模型的初始量化参数替换为目标量化参数,得到初始电力缺陷检测模型对应的电力量化模型。
步骤S205,将初始电力缺陷检测模型作为源模型,以及将电力量化模型作为目标模型。
步骤S206,根据源模型的第一缺陷检测结果和目标模型的第二缺陷检测结果的差异,对目标模型进行训练,得到初始电力缺陷检测模型对应的初始电力蒸馏模型。
步骤S207,将初始电力蒸馏模型作为新的目标模型,返回执行根据源模型的第一缺陷检测结果和目标模型的第二缺陷检测结果的差异,对目标模型进行训练的步骤,直到满足预设训练次数,得到初始电力缺陷检测模型对应的电力蒸馏模型。
步骤S208,将电力样本数据输入电力蒸馏模型,得到电力蒸馏模型的第三缺陷检测结果。
步骤S209,获取第二缺陷检测结果和第三缺陷检测结果分别对应的权重值。
步骤S210,基于权重值,对第二缺陷检测结果和第三缺陷检测结果进行加权平均处理,得到融合缺陷检测结果。
步骤S211,根据融合缺陷检测结果和第三缺陷检测结果的差异,对电力蒸馏模型进行训练,得到目标电力缺陷检测模型。
本实施例的方法中,可以基于电力样本数据预先训练针对电力系统的初始电力缺陷检测模型;从而,根据预设量化精度对初始电力缺陷检测模型的各个网络层进行量化处理,得到初始电力缺陷检测模型对应的待训练量化模型;利用电力样本数据对待训练量化模型进行满足预设次数的迭代训练,得到初始电力缺陷检测模型对应的电力量化模型;进而,将初始电力缺陷检测模型作为源模型,以及将电力量化模型作为目标模型,并根据源模型的第一缺陷检测结果和目标模型的第二缺陷检测结果的差异,对目标模型进行训练,得到初始电力缺陷检测模型对应的电力蒸馏模型;接下来,将电力样本数据输入电力蒸馏模型,得到电力蒸馏模型的第三缺陷检测结果;并根据第二缺陷检测结果和第三缺陷检测结果得到融合缺陷检测结果,并根据融合缺陷检测结果和第三缺陷检测结果的差异,对电力蒸馏模型进行训练,得到目标电力缺陷检测模型。本申请实施例提供的该电力缺陷检测模型的训练方法中,可以通过对初始电力缺陷检测模型进行量化,得到所述初始电力缺陷检测模型对应的电力量化模型,减小初始电力缺陷检测模型的存储空间以及计算复杂度,在此基础上,又可以对电力量化模型进行蒸馏和集成处理,得到目标电力缺陷检测模型,增加了模型准确性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的电力缺陷检测模型的训练方法的电力缺陷检测模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个电力缺陷检测模型的训练装置实施例中的具体限定可以参见上文中对于电力缺陷检测模型的训练方法的限定,在此不再赘述。
在一个实施例中,如图3所示,提供了一种电力缺陷检测模型的训练装置,包括:获取模块301、调整模块302、量化模块303、蒸馏模块304、计算模块305和集成模块306,其中:
获取模块301,用于获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据;
调整模块302,用于根据预设量化精度对所述初始电力缺陷检测模型的各个网络层进行量化处理,得到所述初始电力缺陷检测模型对应的待训练量化模型;
量化模块303,用于利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述初始电力缺陷检测模型对应的电力量化模型;
蒸馏模块304,用于将所述初始电力缺陷检测模型作为源模型,以及将所述电力量化模型作为目标模型;并根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的电力蒸馏模型;
计算模块305,用于将所述电力样本数据输入所述电力蒸馏模型,得到所述电力蒸馏模型的第三缺陷检测结果;
集成模块306,用于根据所述第二缺陷检测结果和所述第三缺陷检测结果得到融合缺陷检测结果,并根据所述融合缺陷检测结果和所述第三缺陷检测结果的差异,对所述电力蒸馏模型进行训练,得到目标电力缺陷检测模型。
另外,调整模块302,还用于:将所述初始电力缺陷检测模型的各个网络层的量化精度调整至所述预设量化精度,得到所述待训练量化模型。
量化模块303,还用于:利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述待训练量化模型的目标量化参数;将所述待训练量化模型的初始量化参数替换为所述目标量化参数,得到所述初始电力缺陷检测模型对应的电力量化模型。
蒸馏模块304,还用于:根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的初始电力蒸馏模型;将所述初始电力蒸馏模型作为新的目标模型,返回执行根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练的步骤,直到满足预设训练次数,得到所述初始电力缺陷检测模型对应的电力蒸馏模型。
进一步地,蒸馏模块304,还用于:将所述电力样本数据输入至所述源模型,得到所述第一缺陷检测结果;将所述电力样本数据输入至所述目标模型,得到所述第二缺陷检测结果;根据所述第一缺陷检测结果和所述第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力蒸馏模型。
集成模块306,还用于:获取所述第二缺陷检测结果和所述第三缺陷检测结果分别对应的权重值;基于所述权重值,对所述第二缺陷检测结果和所述第三缺陷检测结果进行加权平均处理,得到所述融合缺陷检测结果。
上述电力缺陷检测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电力缺陷检测模型的训练的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电力缺陷检测模型的训练方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种电力缺陷检测模型的训练方法,其特征在于,所述方法包括:
获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据;
根据预设量化精度对所述初始电力缺陷检测模型的各个网络层进行量化处理,得到所述初始电力缺陷检测模型对应的待训练量化模型;
利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述初始电力缺陷检测模型对应的电力量化模型;
将所述初始电力缺陷检测模型作为源模型,以及将所述电力量化模型作为目标模型,并根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的电力蒸馏模型;
将所述电力样本数据输入所述电力蒸馏模型,得到所述电力蒸馏模型的第三缺陷检测结果;
根据所述第二缺陷检测结果和所述第三缺陷检测结果得到融合缺陷检测结果,并根据所述融合缺陷检测结果和所述第三缺陷检测结果的差异,对所述电力蒸馏模型进行训练,得到目标电力缺陷检测模型。
2.根据权利要求1所述的方法,其特征在于,所述根据预设量化精度对所述初始电力缺陷检测模型的各个网络层进行量化处理,得到所述初始电力缺陷检测模型对应的待训练量化模型,包括:
将所述初始电力缺陷检测模型的各个网络层的量化精度调整至所述预设量化精度,得到所述待训练量化模型。
3.根据权利要求1所述的方法,其特征在于,所述利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述初始电力缺陷检测模型对应的电力量化模型,包括:
利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述待训练量化模型的目标量化参数;
将所述待训练量化模型的初始量化参数替换为所述目标量化参数,得到所述初始电力缺陷检测模型对应的电力量化模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的电力蒸馏模型,包括:
根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的初始电力蒸馏模型;
将所述初始电力蒸馏模型作为新的目标模型,返回执行根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练的步骤,直到满足预设训练次数,得到所述初始电力缺陷检测模型对应的电力蒸馏模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的初始电力蒸馏模型,包括:
将所述电力样本数据输入至所述源模型,得到所述第一缺陷检测结果;
将所述电力样本数据输入至所述目标模型,得到所述第二缺陷检测结果;
根据所述第一缺陷检测结果和所述第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力蒸馏模型。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第二缺陷检测结果和所述第三缺陷检测结果得到融合缺陷检测结果,包括:
获取所述第二缺陷检测结果和所述第三缺陷检测结果分别对应的权重值;
基于所述权重值,对所述第二缺陷检测结果和所述第三缺陷检测结果进行加权平均处理,得到所述融合缺陷检测结果。
7.一种电力缺陷检测模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取预先训练的电力系统的初始电力缺陷检测模型,以及电力样本数据;
调整模块,用于根据预设量化精度对所述初始电力缺陷检测模型的各个网络层进行量化处理,得到所述初始电力缺陷检测模型对应的待训练量化模型;
量化模块,用于利用所述电力样本数据对所述待训练量化模型进行满足预设次数的迭代训练,得到所述初始电力缺陷检测模型对应的电力量化模型;
蒸馏模块,用于将所述初始电力缺陷检测模型作为源模型,以及将所述电力量化模型作为目标模型;并根据所述源模型的第一缺陷检测结果和所述目标模型的第二缺陷检测结果的差异,对所述目标模型进行训练,得到所述初始电力缺陷检测模型对应的电力蒸馏模型;
计算模块,用于将所述电力样本数据输入所述电力蒸馏模型,得到所述电力蒸馏模型的第三缺陷检测结果;
集成模块,用于根据所述第二缺陷检测结果和所述第三缺陷检测结果得到融合缺陷检测结果,并根据所述融合缺陷检测结果和所述第三缺陷检测结果的差异,对所述电力蒸馏模型进行训练,得到目标电力缺陷检测模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310547812.7A CN116611494A (zh) | 2023-05-15 | 2023-05-15 | 电力缺陷检测模型的训练方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310547812.7A CN116611494A (zh) | 2023-05-15 | 2023-05-15 | 电力缺陷检测模型的训练方法、装置、计算机设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116611494A true CN116611494A (zh) | 2023-08-18 |
Family
ID=87679339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310547812.7A Pending CN116611494A (zh) | 2023-05-15 | 2023-05-15 | 电力缺陷检测模型的训练方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116611494A (zh) |
-
2023
- 2023-05-15 CN CN202310547812.7A patent/CN116611494A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019238029A1 (zh) | 卷积神经网络系统和卷积神经网络量化的方法 | |
KR20190034985A (ko) | 인공 신경망의 양자화 방법 및 장치 | |
CN110728350B (zh) | 用于机器学习模型的量化 | |
CN110363297A (zh) | 神经网络训练及图像处理方法、装置、设备和介质 | |
CN107292382A (zh) | 一种神经网络声学模型激活函数定点量化方法 | |
US20240061889A1 (en) | Systems and Methods for Weighted Quantization | |
Wu et al. | Compiler-aware neural architecture search for on-mobile real-time super-resolution | |
CN115238893B (zh) | 面向自然语言处理的神经网络模型量化方法和装置 | |
CN112561050B (zh) | 一种神经网络模型训练方法及装置 | |
CN112598123A (zh) | 神经网络的权值的量化方法、量化装置及存储介质 | |
CN114677548A (zh) | 基于阻变存储器的神经网络图像分类系统及方法 | |
Kundu et al. | Bmpq: bit-gradient sensitivity-driven mixed-precision quantization of dnns from scratch | |
Li et al. | Using feature entropy to guide filter pruning for efficient convolutional networks | |
CN114155388A (zh) | 一种图像识别方法、装置、计算机设备和存储介质 | |
CN114239949A (zh) | 一种基于双阶段注意力机制的网站访问量预测方法及系统 | |
CN113902114A (zh) | 神经网络模型的量化方法、装置和系统、电子设备和存储介质 | |
CN114830137A (zh) | 用于生成预测模型的方法和系统 | |
CN116956997A (zh) | 用于时序数据处理的lstm模型量化重训练方法、系统及设备 | |
CN115062777B (zh) | 卷积神经网络的量化方法、量化装置、设备及存储介质 | |
CN116611494A (zh) | 电力缺陷检测模型的训练方法、装置、计算机设备和介质 | |
CN115905546A (zh) | 基于阻变存储器的图卷积网络文献识别装置与方法 | |
Dong et al. | An optimization method for pruning rates of each layer in CNN based on the GA-SMSM | |
CN115705486A (zh) | 量化模型的训练方法、装置、电子设备和可读存储介质 | |
CN114611665A (zh) | 基于权重振荡影响度的多精度分层量化方法及装置 | |
CN114065913A (zh) | 模型量化方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |