CN116756573A - 负例采样方法、训练方法、缺陷定级方法、装置和系统 - Google Patents
负例采样方法、训练方法、缺陷定级方法、装置和系统 Download PDFInfo
- Publication number
- CN116756573A CN116756573A CN202311026963.4A CN202311026963A CN116756573A CN 116756573 A CN116756573 A CN 116756573A CN 202311026963 A CN202311026963 A CN 202311026963A CN 116756573 A CN116756573 A CN 116756573A
- Authority
- CN
- China
- Prior art keywords
- defect
- standard
- standard defect
- description
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007547 defect Effects 0.000 title claims abstract description 431
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 title claims abstract description 83
- 238000005070 sampling Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 19
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000002372 labelling Methods 0.000 abstract description 5
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种负例采样方法、训练方法、缺陷定级方法、装置和系统,通过自采样负样例训练语言模型,并使用该语言模型对标准缺陷进行编码并离线存储于知识库。当收到用户的缺陷描述后,利用该语言模型进行缺陷编码,并引入额外阈值控制模型将缺陷编码与知识库存储的标准缺陷编码进行对比,得到标准缺陷描述和缺陷等级。本申请解决了模型训练需要大规模标注数据的问题,同时由于引入阈值控制模型良好的兼容了缺陷描述字段缺失等问题,增加模型的鲁棒性,返回用户需要的准确答案;同时缺陷定级均来自于知识库中的标准,模型返回缺陷等级时,可同时返回对应的规定条款以及答案置信度,可辅助用户判断设备缺陷等级,实现了缺陷描述和缺陷定级可溯源。
Description
技术领域
本申请涉及人工智能,算法,自然语言处理,具体涉及一种负例采样方法、模型训练方法、缺陷定级方法和系统。
背景技术
在电网主设备运检过程中,设备缺陷定级是一线检修、运维人员工作的重要一环。而电网主设备缺陷描述分为定性型缺陷描述和定量型缺陷描述,其中定性型缺陷描述可归纳为:设备+部件+部位+缺陷,例如:“换流变压器的本体油箱冒烟”。定量型缺陷描述可归纳为:设备+部件+部位+缺陷+定量描述,例如:“换流变压器的储油柜的油箱漏油,速度为每滴8秒”。上述两种类型的缺陷描述,需要针对性采取不同策略进行判定。
针对定性型缺陷描述,现有技术采用了构建基于决策树的缺陷定级模型、构建基于深度学习分类器的缺陷定级模型或构建基于搜索引擎的缺陷定级模型等方法来实现电网主设备的定性型缺陷描述。上述三种方案中构造决策树需要依赖大量专家的工作经验,难以对于非结构化文本进行直接处理,需要借助NER等工具进行设备名、部件名、部位名的识别,存在误差传播,最终影响缺陷等级。对于第二种方案,基于深度学习分类器的缺陷定级模型,对于分类器的训练一般采用有监督学习模型进行训练,对于电力领域而言,需要数十万级针对电网主设备缺陷描述的标注数据,因此用于设备缺陷定级的标注数据是一个巨大的空缺,而构建标注数据成本高、周期长、收益小。而对于第三种方案基于搜索引擎为通用引擎,难以对搜索结果进行优化,效果提升成本高,无法满足电力行业的精准检索需求。因此急需一种能满足电力行业对电网主设备定性型缺陷描述的方法。
发明内容
为了解决现有技术所存在的问题,本申请提供一种负例采样方法,包括:
获取电网主设备的多个历史标准缺陷描述和待采样的历史标准缺陷描述;
从所述多个历史标准缺陷描述中选择与所述待采样的历史标准缺陷描述不同的任意至少一个历史标准缺陷描述,将任意至少一个所述历史标准缺陷描述作为所述待采样的历史标准缺陷描述的简单负例;
替换所述待采样的历史标准缺陷描述的任意部分得到强负例;
基于所述待采样的历史标准缺陷描述、所述待采样的历史标准缺陷描述对应的简单负例和强负例得到所述待采样的历史标准缺陷描述的若干负样例对。
优选的,所述历史标准缺陷描述包括如下部分:设备名称、细节结构和缺陷描述;所述细节结构包括:部件名称和/或部位名称。
优选的,所述替换所述待采样的历史标准缺陷描述的任意部分得到强负例,包括:
将所述电网主设备的多个历史标准缺陷描述和待采样的历史标准缺陷描述进行正例解构得到各部分下的若干表述;
针对所述待采样的历史标准缺陷描述的任意一个或多个部分,从所述部分下的若干表述中选择与所述待采样的历史标准缺陷描述中对应部分不同的表述,组成多个强负例。
基于同一种发明构思,本发明还提供一种负例采样装置,包括:
获取模块:用于获取电网主设备的多个历史标准缺陷描述和待采样的历史标准缺陷描述;
简单负例确定模块:用于从所述多个历史标准缺陷描述中选择与所述待采样的历史标准缺陷描述不同的任意至少一个历史标准缺陷描述,将任意至少一个所述历史标准缺陷描述作为所述待采样的历史标准缺陷描述的简单负例;
强负例确定模块:用于替换所述待采样的历史标准缺陷描述的任意部分得到强负例;
负例采样模块,用于基于所述待采样的历史标准缺陷描述、所述待采样的历史标准缺陷描述对应的简单负例和强负例得到所述待采样的历史标准缺陷描述的若干负样例对。
基于同一种发明构思,本发明还提供一种语言模型的训练方法,包括:
获取电网主设备的多个历史标准缺陷描述并构建训练集;
基于所述训练集,以缺陷描述为输入、以缺陷编码为输出,采用交叉熵作为损失函数通过对编码器的迭代训练,构建语言模型缺陷编码;
其中,所述训练集包括标准缺陷描述的正样例和负样例,所述负样例利用本发明提供的一种负例采样方法得到的所有负样例对确定。
优选的,所述构建训练集包括:
将所述历史标准缺陷描述作为两个正样例,构建所述历史标准缺陷描述对应的正样例对;
基于所述历史标准缺陷描述进行负例采样,得到所述历史标准缺陷描述对应的若干负样例;
以所述历史标准缺陷描述和对应的若干负样例分别确定多个负样例对;
基于所有的正样例对和负样例对确定训练集。
优选的,所述基于所述训练集,以缺陷描述为输入、以缺陷编码为输出,采用交叉熵作为损失函数通过对编码器的迭代训练,构建语言模型缺陷编码,包括:
S1、基于每个历史标准缺陷描述确定对应的正样例对和至少一个负样例对;
S2、基于每个样例对,通过编码器构建两个句向量;并计算两个句向量的相似度;
S3、使用交叉熵计算两个句向量的相似度与标签的差值,迭代执行步骤S2至S3,直到所述差值最小,得到训练好的编码器,执行步骤S4;
S4、基于所述历史标准缺陷描述和正样例对、各负样例对的对应的差值确定所述历史标准缺陷描述对应的缺陷编码;
其中所述标签取值为0或1,负样例对应的相似度标签是0;正样例对应的相似度标签是1。
优选的,所述基于所述历史标准缺陷描述和正样例对、各负样例对的对应的差值确定所述历史标准缺陷描述对应的缺陷编码,包括:
利用编码器得到历史标准缺陷描述对应的句向量;
基于所述句向量、正样例对、各负样例对的对应的差值确定所述历史标准缺陷描述对应的缺陷编码;
其中,所述缺陷编码至少为768维句向量。
基于同一种发明构思,本发明还提供一种语言模型的训练装置,包括:
训练集构件模块,用于获取电网主设备的多个历史标准缺陷描述并构建训练集;
学习模块,用于基于所述训练集,以缺陷描述为输入、以缺陷编码为输出,采用交叉熵作为损失函数通过对编码器的迭代训练,构建语言模型缺陷编码;
其中,所述训练集包括标准缺陷描述的正样例和负样例,所述负样例利用本发明提供的一种负例采样方法确定。
基于同一种发明构思,本发明还提供一种设备缺陷的定级方法,包括:
利用预先训练好的语言模型为获取的缺陷描述生成缺陷编码;
基于所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度确定所述缺陷编码对应的标准缺陷描述和缺陷等级;
其中,所述语言模型基于本发明提供的一种语言模型的训练方法得到;所述知识库包括:标准缺陷描述、标准缺陷描述对应的标准缺陷编码和缺陷等级;所述标准缺陷编码利用所述语言模型对所述标准缺陷描述进行预先编码得到。
优选的,所述知识库的构建包括:
获取训练集中所有的正样例和负样例;
利用所述语言模型,为所有正样例和负样例对应的标准缺陷描述生成标准缺陷编码;
基于所有的标准缺陷描述、各标准缺陷描述对应的标准缺陷编码和缺陷等级构建知识库。
优选的,所述确定所述缺陷编码对应的标准缺陷描述和缺陷等级之后还包括:
以所述缺陷编码对应的标准缺陷描述和缺陷等级作为输出;
基于知识库对所述缺陷编码、所述缺陷编码对应的标准缺陷描述和缺陷等级进行溯源。
优选的,所述基于所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度确定所述缺陷编码对应的标准缺陷描述和缺陷等级,包括:
以编码的取值范围作为阈值范围;
当所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度在所述阈值范围内时,以所述标准缺陷编码对应的标准缺陷描述和缺陷等级为所述缺陷编码对应的标准缺陷描述和缺陷等级。
优选的,所述缺陷等级包括:一般、严重、危急。
基于同一种发明构思,本发明还提供一种设备缺陷的定级装置,包括:
编码模块,用于利用预先训练好的语言模型为获取的缺陷描述生成缺陷编码;
定级模块,用于基于所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度确定所述缺陷编码对应的标准缺陷描述和缺陷等级;
其中,所述语言模型基于本发明提供的一种语言模型的训练方法得到;所述知识库包括:标准缺陷描述、标准缺陷描述对应的标准缺陷编码和缺陷等级;所述标准缺陷编码利用所述语言模型对所述标准缺陷描述进行预先编码得到。
与现有技术相比,本申请的有益效果为:
1、本申请提供的一种负例采样方法、语言模型的训练方法和装置,包括:获取电网主设备的多个历史标准缺陷描述和待采样的历史标准缺陷描述;从所述多个历史标准缺陷描述中选择与所述待采样的历史标准缺陷描述不同的任意至少一个历史标准缺陷描述,将任意至少一个所述历史标准缺陷描述作为所述待采样的历史标准缺陷描述的简单负例;替换所述待采样的历史标准缺陷描述的任意部分得到强负例;基于所述待采样的历史标准缺陷描述、所述待采样的历史标准缺陷描述对应的简单负例和强负例得到所述待采样的历史标准缺陷描述的若干负样例对,利用负样例构建训练集进而训练出电网主设备缺陷描述的语言模型,实现了对负样例的自采样,无需对大量电力数据进行标准,降低了标注数据的成本,降低了电力数据负采样周期,提高了模型的训练效率;
2、本申请提供的一种设备缺陷的定级方法,包括: 利用前述训练好的语言模型为获取的缺陷描述生成缺陷编码;基于缺陷编码与预先构建的知识库中标准缺陷编码的相似度确定所述缺陷编码对应的标准缺陷描述和缺陷等级;其中标准缺陷编码也是由语言模型生成;利用本申请的离线知识库实现用户输入与全量知识库进行相似度计算,并通过额外的阈值控制模型,良好的兼容了缺陷描述字段缺失等问题,增加模型的鲁棒性,可辅助用户判断设备缺陷等级;
3、由于本申请制定的缺陷等级均来自于知识库中的标准,解决了模型可解释性差、难溯源的问题。
附图说明
图1为本申请的负例采样方法示意图;
图2为本申请的语言模型的训练方法示意图;
图3为本申请的设备缺陷的定级方法示意图;
图4为本申请的负例采样对比学习方法示意图;
图5为本申请的某真实场景下的缺陷定级流程。
具体实施方式
本申请的目标是对设备的缺陷描述划分为一般、严重、危急三个等级。本申请提出的对比学习方法,无需有标签数据,属于弱监督学习模型,可极大缓解因标注数据不足而导致的问题。对比学习的目的是通过将语义上相近的句子聚在一起,将非邻近的句子分开,以此来学习有效的句子表征。它训练时至少需要两组成对儿的例子指导模型学习,即正样例对和负样例对。为了更好地理解本申请,下面结合说明书附图和实例对本申请的内容做进一步的说明。
实施例1:
如图1所示,本申请提供一种负例采样方法,包括:
S101、获取电网主设备的多个历史标准缺陷描述和待采样的历史标准缺陷描述;
S102、从所述多个历史标准缺陷描述中选择与所述待采样的历史标准缺陷描述不同的任意至少一个历史标准缺陷描述,将任意至少一个所述历史标准缺陷描述作为所述待采样的历史标准缺陷描述的简单负例;
S103、替换所述待采样的历史标准缺陷描述的任意部分得到强负例;
S104、基于所述待采样的历史标准缺陷描述、所述待采样的历史标准缺陷描述对应的简单负例和强负例得到所述待采样的历史标准缺陷描述的若干负样例对。
本申请的历史标准缺陷描述包括如下部分:设备名称、细节结构和缺陷描述;细节结构包括:部件名称和/或部位名称。
步骤S103中替换所述待采样的历史标准缺陷描述的任意部分得到强负例,包括:
将所述电网主设备的多个历史标准缺陷描述和待采样的历史标准缺陷描述进行正例解构得到各部分下的若干表述;
针对所述待采样的历史标准缺陷描述的任意一个或多个部分,从所述部分下的若干表述中选择与所述待采样的历史标准缺陷描述中对应部分不同的表述,组成多个强负例。
实施例2
为了实现上述实施例的一种负例采样方法,本申请还提供一种负例采样装置,包括:
获取模块:用于获取电网主设备的多个历史标准缺陷描述和待采样的历史标准缺陷描述;
简单负例确定模块:用于从所述多个历史标准缺陷描述中选择与所述待采样的历史标准缺陷描述不同的任意至少一个历史标准缺陷描述,将任意至少一个所述历史标准缺陷描述作为所述待采样的历史标准缺陷描述的简单负例;
强负例确定模块:用于替换所述待采样的历史标准缺陷描述的任意部分得到强负例;
负例采样模块,用于基于所述待采样的历史标准缺陷描述、所述待采样的历史标准缺陷描述对应的简单负例和强负例得到所述待采样的历史标准缺陷描述的若干负样例对。
本实施例中各功能模块的具体实现内容可参见实施例1,这里不再赘述。
实施例3
如图2所示,本申请还提供一种语言模型的训练方法,包括:
S201、获取电网主设备的多个历史标准缺陷描述并构建训练集;
S202、基于所述训练集,以缺陷描述为输入、以缺陷编码为输出,采用交叉熵作为损失函数通过对编码器的迭代训练,构建语言模型缺陷编码;
本实施例中的训练集包括标准缺陷描述的正样例和负样例,其中负样例利用上述实施例提供的一种负例采样方法得到的所有负样例对确定。
步骤S201中构建训练集包括:
将所述历史标准缺陷描述作为两个正样例,构建所述历史标准缺陷描述对应的正样例对;
基于所述历史标准缺陷描述进行负例采样,得到所述历史标准缺陷描述对应的若干负样例;
以所述历史标准缺陷描述和对应的若干负样例分别确定多个负样例对;
基于所有的正样例对和负样例对确定训练集。
步骤S202中,基于所述训练集,以缺陷描述为输入、以缺陷编码为输出,采用交叉熵作为损失函数通过对编码器的迭代训练,构建语言模型缺陷编码,包括:
步骤1、基于每个历史标准缺陷描述确定对应的正样例对和至少一个负样例对;
步骤2、基于每个样例对,通过编码器构建两个句向量;并计算两个句向量的相似度;
步骤3、使用交叉熵计算两个句向量的相似度与标签的差值,迭代执行步骤2至3,直到所述差值最小,得到训练好的编码器,执行步骤4;
步骤4、基于所述历史标准缺陷描述和正样例对、各负样例对的对应的差值确定所述历史标准缺陷描述对应的缺陷编码;
其中所述标签取值为0或1,负样例对应的相似度标签是0;正样例对应的相似度标签是1。
进一步的,步骤4、基于所述历史标准缺陷描述和正样例对、各负样例对的对应的差值确定所述历史标准缺陷描述对应的缺陷编码,包括:
利用编码器得到历史标准缺陷描述对应的句向量;
基于所述句向量、正样例对、各负样例对的对应的差值确定所述历史标准缺陷描述对应的缺陷编码;
本申请的缺陷编码至少为768维句向量。
实施例4
为了实现上述一种语言模型的训练方法,本申请还提供一种语言模型的训练装置,包括:
训练集构件模块,用于获取电网主设备的多个历史标准缺陷描述并构建训练集;
学习模块,用于基于所述训练集,以缺陷描述为输入、以缺陷编码为输出,采用交叉熵作为损失函数通过对编码器的迭代训练,构建语言模型缺陷编码;
其中,所述训练集包括标准缺陷描述的正样例和负样例,所述负样例利上述一种负例采样方法得到的所有负样例对确定。
本实施例中各功能模块的具体实现内容可参见实施例3这里不再赘述。
实施例5
如图3所示,一种设备缺陷的定级方法,包括:
S301、利用预先训练好的语言模型为获取的缺陷描述生成缺陷编码;
S302、基于所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度确定所述缺陷编码对应的标准缺陷描述和缺陷等级;
本实施例的语言模型基于本申请提供的一种语言模型的训练方法得到;
本实施例中的知识库包括:标准缺陷描述、标准缺陷描述对应的标准缺陷编码和缺陷等级;其中,标准缺陷编码利用所述语言模型对所述标准缺陷描述进行预先编码得到。
在执行步骤S301之前需要先构建知识库,这里知识库的构建包括:
获取训练集中所有的正样例和负样例;
利用所述语言模型,为所有正样例和负样例对应的标准缺陷描述生成标准缺陷编码;
基于所有的标准缺陷描述、各标准缺陷描述对应的标准缺陷编码和缺陷等级构建知识库。
这里的负样例利用实施例1提供的一种负例采样方法确定。
步骤302,基于所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度确定所述缺陷编码对应的标准缺陷描述和缺陷等级,包括
以编码的取值范围作为阈值范围;
当所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度在所述阈值范围内时,以所述标准缺陷编码对应的标准缺陷描述和缺陷等级为所述缺陷编码对应的标准缺陷描述和缺陷等级。
步骤S302,确定所述缺陷编码对应的标准缺陷描述和缺陷等级之后还包括:
以所述缺陷编码对应的标准缺陷描述和缺陷等级作为输出;
基于知识库所述缺陷描述、所述缺陷编码对应的标准缺陷描述和缺陷等级进行溯源。
本申请的缺陷等级可以根据业务需要制定。作为示例性的,本实施例的缺陷等级定义为:一般、严重和危急。
实施例6
为了实现上述一种设备缺陷的定级方法,本申请还提供一种设备缺陷的定级装置,包括:
编码模块,用于利用预先训练好的语言模型为获取的缺陷描述生成缺陷编码;
定级模块,用于基于所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度确定所述缺陷编码对应的标准缺陷描述和缺陷等级;
本实施例的语言模型基于本申请提供的一种语言模型的训练方法得到;
本实施例中的知识库包括:标准缺陷描述、标准缺陷描述对应的标准缺陷编码和缺陷等级;其中,标准缺陷编码利用所述语言模型对所述标准缺陷描述进行预先编码得到。
本实施例中的语言模型的训练所采用的训练集包括正样例和负样例,这里的负样例利用实施例1提供的一种负例采样方法确定。
实施例7
下面以一个具体的实例对本申请提供的一种负例采样方法、训练方法和缺陷定级方法进行整体描述。
如图5所示,通过一个编码器(通常使用预训练语言模型)分别编码句子,并使用损失函数训练句子表征的差异化。在本申请中,利用训练后的对比学习模型,将用户对电网主设备的缺陷描述进行编码,然后与知识库中的缺陷描述进行相似度计算,得到最匹配的标准缺陷描述,即可输出对应的缺陷等级。
本申请通过设计一个离线缓存策略,可实现用户输入与全量知识库进行相似度计算,并通过额外的阈值控制模型,良好的兼容了缺陷描述字段缺失等问题,增加模型的鲁棒性,返回用户需要的准确答案。由于返回的结果均基于知识库实现,因此本申请的对比学习模型的结果可溯源,能够辅助检修人员提升判断决策效率,并顺利开展后续工作。示例性的阈值的构建的方法可以是:基于模型在验证集的结果,随机采样几百条,人工审核误判结果及对应的置信度,最终选择误判置信度的平均值左右的数据作为阈值范围。
本实施例中负例采样对比学习方法如图4所示。
对于正样例,标准的训练集范式为(正例,正例),如(开关柜的柜体进水,水流进了开关柜的柜体)。由于训练样例缺失,本申请让模型预测输入句子本身。但如果使用完全相同的两个样例作为正例,那么模型的泛化能力会大打折扣,所以本申请使用随机丢弃网络层dropout作为噪声。换句话说,将同一个句子输入预训练语言模型两次,每次都使用标准的dropout处理,这样可以获得两个不同“正例”表示,这两个不同的“正例”具有相同的标准缺陷描述但是对应的句向量由于使用模型计算了两次,每次的结果会出现细微的偏差,因此使得对应的句向量不完全相同。例如正样例对为(开关柜柜体进水,开关柜柜体进水);最终构造出的正样例对对应的缺陷编码为((1,1,2,……,2,1),(1,1,1,……,1,2)),该编码仅为示例性的,实际为一个高维向量数组,例如768维向量数组。可见经过两次计算得到了不同句向量的。
对于负样例,标准的训练集范式为(正例,负例)。将所有的历史标准缺陷描述进行正例解构得到各部分下的若干表述;基于所述历史标准缺陷描述的任意一个或多个部分,从所述部分下的若干表述中选择与所述历史标准缺陷描述中对应部分不同的表述,组成多个强负例。本申请将其分为了简单样例easy negative 和难样例hard negative 两种。Easy negative 是常规的随机负采样得到的结果,如:(开关柜的柜体进水,接地网的接地体锈蚀)。正例和负例在语义上区别明显,叙述了两个毫无关联的客观事实。Hard negative是表述相似但语义相反的两个句子,如:(开关柜的柜体进水,开关柜的柜体漏水)。两句话相差一个字,但表述的是两个截然不同的设备缺陷,对应的缺陷等级和应对措施也不一样。
对于 easy negative,在同一个训练批次batch 中选取其他句子作为“负例”。
对于 hard negative 依靠设备标准缺陷知识库完成,如上文所述,定性型缺陷描述,归纳为:设备+部件+部位+缺陷,本文将正例解构为这四个部分,通过替换关键字段,构造与原句语义相近,实则负例的句子。如图4中所示,句子 S1 “接地网的接地体锈蚀”对应的负样例 n1将“接地网”替换为“站用变”得到:站用变接地体锈蚀、n2将“接地体”替换为“断路器”得到:接地网的断路器锈蚀、n3将“锈蚀”变成“发热”得到接地网的接地体发热,这里n1、n2和n3均为构造的 hard negative,进而实现了负例自采样。
综上,在batch size为4的同一批次里,每条正例将构造 3 条强负例,共 12 条句子,其中正样例经过两次电力预训练语言模型 E-BERT + Drop out 层后,得到正样例对,如图4中的(S1_a, S1_b)。负样例经过一次电力预训练语言模型E-BERT + Drop out 层,得到S1_n1、S1_n2、S1_n3、S2_n1 …,他们分别与其对应的正例,组成训练使用的Easynegative,如(S1_a, S2_a),以及 Hardnegative ,如(S1_a, S1_n1)、(S1_a, S1_n2) …。
最终,正负样例的向量对使用 cosin (基于向量内积的算法)相似度计算,使用交叉熵作为损失函数进行训练。以正样例训练为例对使用交叉熵作为损失函数进行训练进行解释:
1. 构造训练样例对儿:
(变压器漏油,变压器漏油)
2. 输入 E-BERT 编码(用5维向量表示,实际是768维),得到:
((1,1,1,1,1),(1,1,1,1,1))
3. 输入Dropout层,得到:
((0,1,2,0,1),(1,1,0,0,1))
4. 计算两个向量的cosin相似度:
COS((0,1,2,0,1),(1,1,0,0,1))
5. 上一步的结果是一个 [-1, 1] 的数值,使用交叉熵作为损失函数计算上一步的结果与标签的差值,然后模型训练就是不断最小化这个差值。置信值是直接取模型预测时对两个向量的cosin相似度。
本申请使用损失函数表征模型预测值与标签(包括正样例和负样例)的差;
本申请中,正样例对的相似度标签是1,负样例对的相似度标签是0。两个句向量的相似度的范围是0到1。例:
正样例对中的两句话计算相似度为0.941,标签为1,所以交叉熵计算的是1与0.941之间的差值。
负样例对同上,两句话计算相似度为0.213,标签为0,所以交叉熵计算的是0与0.213之间的差值。
负样例也采用相同方法,这里不再赘述。
实施例8
基于同一种发明构思,本申请还提供了一种或多种计算机设备,这里的计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor、DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能,以分别或者集中实现上述实施例中一种负例采样方法、训练方法和缺陷定级方法的步骤。
实施例9
基于同一种发明构思,本申请还提供了一种或多种存储介质,该存储介质为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM 存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以分别或者统一实现上述实施例中一种负例采样方法、训练方法和缺陷定级方法的步骤。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本申请的实施例而已,并不用于限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本申请的权利要求范围之内。
Claims (15)
1.一种负例采样方法,其特征在于,包括:
获取电网主设备的多个历史标准缺陷描述和待采样的历史标准缺陷描述;
从所述多个历史标准缺陷描述中选择与所述待采样的历史标准缺陷描述不同的任意至少一个历史标准缺陷描述,将任意至少一个所述历史标准缺陷描述作为所述待采样的历史标准缺陷描述的简单负例;
替换所述待采样的历史标准缺陷描述的任意部分得到强负例;
基于所述待采样的历史标准缺陷描述、所述待采样的历史标准缺陷描述对应的简单负例和强负例得到所述待采样的历史标准缺陷描述的若干负样例对。
2.如权利要求1所述的方法,其特征在于,所述历史标准缺陷描述包括如下部分:设备名称、细节结构和缺陷描述;所述细节结构包括:部件名称和/或部位名称。
3.如权利要求2所述的方法,其特征在于,所述替换所述待采样的历史标准缺陷描述的任意部分得到强负例,包括:
将所述电网主设备的多个历史标准缺陷描述和待采样的历史标准缺陷描述进行正例解构得到各部分下的若干表述;
针对所述待采样的历史标准缺陷描述的任意一个或多个部分,从所述部分下的若干表述中选择与所述待采样的历史标准缺陷描述中对应部分不同的表述,组成多个强负例。
4.一种负例采样装置,其特征在于,包括:
获取模块:用于获取电网主设备的多个历史标准缺陷描述和待采样的历史标准缺陷描述;
简单负例确定模块:用于从所述多个历史标准缺陷描述中选择与所述待采样的历史标准缺陷描述不同的任意至少一个历史标准缺陷描述,将任意至少一个所述历史标准缺陷描述作为所述待采样的历史标准缺陷描述的简单负例;
强负例确定模块:用于替换所述待采样的历史标准缺陷描述的任意部分得到强负例;
负例采样模块,用于基于所述待采样的历史标准缺陷描述、所述待采样的历史标准缺陷描述对应的简单负例和强负例得到所述待采样的历史标准缺陷描述的若干负样例对。
5.一种语言模型的训练方法,其特征在于,包括:
获取电网主设备的多个历史标准缺陷描述并构建训练集;
基于所述训练集,以缺陷描述为输入、以缺陷编码为输出,采用交叉熵作为损失函数通过对编码器的迭代训练,构建语言模型缺陷编码;
其中,所述训练集包括标准缺陷描述的正样例和负样例,所述负样例利用权利要求1至3任一项所述的负例采样方法得到的所有负样例对确定。
6.如权利要求5所述的方法,其特征在于,所述构建训练集包括:
将所述历史标准缺陷描述作为两个正样例,构建所述历史标准缺陷描述对应的正样例对;
基于所述历史标准缺陷描述进行负例采样,得到所述历史标准缺陷描述对应的若干负样例;
以所述历史标准缺陷描述和对应的若干负样例分别确定多个负样例对;
基于所有的正样例对和负样例对确定训练集。
7.如权利要求6所述的方法,其特征在于,所述基于所述训练集,以缺陷描述为输入、以缺陷编码为输出,采用交叉熵作为损失函数通过对编码器的迭代训练,构建语言模型缺陷编码,包括:
S1、基于每个历史标准缺陷描述确定对应的正样例对和至少一个负样例对;
S2、基于每个样例对,通过编码器构建两个句向量;并计算两个句向量的相似度;
S3、使用交叉熵计算两个句向量的相似度与标签的差值,迭代执行步骤S2至S3,直到所述差值最小,得到训练好的编码器,执行步骤S4;
S4、基于所述历史标准缺陷描述和正样例对、各负样例对的对应的差值确定所述历史标准缺陷描述对应的缺陷编码;
其中所述标签取值为0或1,负样例对应的相似度标签是0;正样例对应的相似度标签是1。
8.如权利要求7所述的方法,其特征在于,所述基于所述历史标准缺陷描述和正样例对、各负样例对的对应的差值确定所述历史标准缺陷描述对应的缺陷编码,包括:
利用编码器得到历史标准缺陷描述对应的句向量;
基于所述句向量、正样例对、各负样例对的对应的差值确定所述历史标准缺陷描述对应的缺陷编码;
其中,所述缺陷编码至少为768维句向量。
9.一种语言模型的训练装置,其特征在于,包括:
训练集构件模块,用于获取电网主设备的多个历史标准缺陷描述并构建训练集;
学习模块,用于基于所述训练集,以缺陷描述为输入、以缺陷编码为输出,采用交叉熵作为损失函数通过对编码器的迭代训练,构建语言模型缺陷编码;
其中,所述训练集包括标准缺陷描述的正样例和负样例,所述负样例利用权利要求1至3任一项所述的负例采样方法确定。
10.一种设备缺陷的定级方法,其特征在于,包括:
利用预先训练好的语言模型为获取的缺陷描述生成缺陷编码;
基于所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度确定所述缺陷编码对应的标准缺陷描述和缺陷等级;
其中,所述语言模型基于权利要求5至8任一项语言模型的训练方法得到;所述知识库包括:标准缺陷描述、标准缺陷描述对应的标准缺陷编码和缺陷等级;所述标准缺陷编码利用所述语言模型对所述标准缺陷描述进行预先编码得到。
11.如权利要求10所述的方法,其特征在于,所述知识库的构建包括:
获取训练集中所有的正样例和负样例;
利用所述语言模型,为所有正样例和负样例对应的标准缺陷描述生成标准缺陷编码;
基于所有的标准缺陷描述、各标准缺陷描述对应的标准缺陷编码和缺陷等级构建知识库。
12.如权利要求10所述的方法,其特征在于,所述确定所述缺陷编码对应的标准缺陷描述和缺陷等级之后还包括:
以所述缺陷编码对应的标准缺陷描述和缺陷等级作为输出;
基于知识库对所述缺陷编码、所述缺陷编码对应的标准缺陷描述和缺陷等级进行溯源。
13.如权利要求10所述的方法,其特征在于,所述基于所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度确定所述缺陷编码对应的标准缺陷描述和缺陷等级,包括
以编码的取值范围作为阈值范围;
当所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度在所述阈值范围内时,以所述标准缺陷编码对应的标准缺陷描述和缺陷等级为所述缺陷编码对应的标准缺陷描述和缺陷等级。
14.如权利要求10所述的方法,其特征在于,所述缺陷等级包括:一般、严重、危急。
15.一种设备缺陷的定级装置,其特征在于,包括:
编码模块,用于利用预先训练好的语言模型为获取的缺陷描述生成缺陷编码;
定级模块,用于基于所述缺陷编码与预先构建的知识库中标准缺陷编码的相似度确定所述缺陷编码对应的标准缺陷描述和缺陷等级;
其中,所述语言模型基于权利要求5至8任一项语言模型的训练方法得到;所述知识库包括:标准缺陷描述、标准缺陷描述对应的标准缺陷编码和缺陷等级;所述标准缺陷编码利用所述语言模型对所述标准缺陷描述进行预先编码得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311026963.4A CN116756573B (zh) | 2023-08-16 | 2023-08-16 | 负例采样方法、训练方法、缺陷定级方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311026963.4A CN116756573B (zh) | 2023-08-16 | 2023-08-16 | 负例采样方法、训练方法、缺陷定级方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116756573A true CN116756573A (zh) | 2023-09-15 |
CN116756573B CN116756573B (zh) | 2024-01-16 |
Family
ID=87953558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311026963.4A Active CN116756573B (zh) | 2023-08-16 | 2023-08-16 | 负例采样方法、训练方法、缺陷定级方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756573B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019228014A1 (zh) * | 2018-06-01 | 2019-12-05 | 阿里巴巴集团控股有限公司 | 针对训练语料从词频表中进行负例采样的方法及装置 |
CN113408280A (zh) * | 2021-06-30 | 2021-09-17 | 北京百度网讯科技有限公司 | 负例构造方法、装置、设备和存储介质 |
CN114625923A (zh) * | 2022-03-18 | 2022-06-14 | 北京百度网讯科技有限公司 | 视频检索模型的训练方法、视频检索方法、装置以及设备 |
CN114692599A (zh) * | 2022-03-30 | 2022-07-01 | 云智慧(北京)科技有限公司 | 一种变电站设备缺陷案例的解构方法及其解构系统 |
CN115905474A (zh) * | 2022-12-26 | 2023-04-04 | 广东电网有限责任公司 | 基于历史缺陷文本信息的电力设备状态评价方法和装置 |
CN116521860A (zh) * | 2023-04-27 | 2023-08-01 | 齐鲁工业大学(山东省科学院) | 基于对比学习的医疗问题摘要生成方法和装置 |
-
2023
- 2023-08-16 CN CN202311026963.4A patent/CN116756573B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019228014A1 (zh) * | 2018-06-01 | 2019-12-05 | 阿里巴巴集团控股有限公司 | 针对训练语料从词频表中进行负例采样的方法及装置 |
CN113408280A (zh) * | 2021-06-30 | 2021-09-17 | 北京百度网讯科技有限公司 | 负例构造方法、装置、设备和存储介质 |
CN114625923A (zh) * | 2022-03-18 | 2022-06-14 | 北京百度网讯科技有限公司 | 视频检索模型的训练方法、视频检索方法、装置以及设备 |
CN114692599A (zh) * | 2022-03-30 | 2022-07-01 | 云智慧(北京)科技有限公司 | 一种变电站设备缺陷案例的解构方法及其解构系统 |
CN115905474A (zh) * | 2022-12-26 | 2023-04-04 | 广东电网有限责任公司 | 基于历史缺陷文本信息的电力设备状态评价方法和装置 |
CN116521860A (zh) * | 2023-04-27 | 2023-08-01 | 齐鲁工业大学(山东省科学院) | 基于对比学习的医疗问题摘要生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116756573B (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Self-supervised dialogue learning | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN114926150B (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN111966076A (zh) | 基于有限状态机和图神经网络的故障定位方法 | |
CN112560486A (zh) | 基于多层神经网络的电力实体识别方法、存储介质和设备 | |
CN114492460A (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
Althammer et al. | Linguistically informed masking for representation learning in the patent domain | |
CN116756573B (zh) | 负例采样方法、训练方法、缺陷定级方法、装置和系统 | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN117592563A (zh) | 一种领域知识增强的电力大模型训调方法 | |
Xue et al. | Deeper vs wider: A revisit of transformer configuration | |
CN111444328A (zh) | 一种带有解释生成的自然语言自动预测推断方法 | |
CN116975161A (zh) | 电力设备局放文本的实体关系联合抽取方法、设备、介质 | |
CN117009478A (zh) | 一种基于软件知识图谱问答问句解析过程的算法融合方法 | |
Huo et al. | Resource-efficient transfer learning from speech foundation model using hierarchical feature fusion | |
CN116029295A (zh) | 一种电力文本实体抽取方法、缺陷定位方法及故障诊断方法 | |
CN114064472A (zh) | 基于代码表示的软件缺陷自动修复加速方法 | |
CN111245631B (zh) | 网元操作结果审查方法及系统 | |
CN113849634A (zh) | 用于提升深度模型推荐方案可解释性的方法 | |
Gao et al. | Finding Justifications by Approximating Core for Large-scale Ontologies. | |
CN115114915B (zh) | 短语识别方法、装置、设备和介质 | |
Lin et al. | Knowledge Graph Completion for Power Grid Main Equipment Using Pretrained Language Models | |
CN111931498B (zh) | 基于复杂度分析的用户在线提问处理方法及系统 | |
CN112530414B (zh) | 迭代式大规模发音词典构建方法及装置 | |
Spilsbury et al. | Improved Compositional Generalization by Generating Demonstrations for Meta-Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |