CN117370574A - 提高电力主设备知识图谱嵌入模型性能的缺陷分析方法 - Google Patents
提高电力主设备知识图谱嵌入模型性能的缺陷分析方法 Download PDFInfo
- Publication number
- CN117370574A CN117370574A CN202311326352.1A CN202311326352A CN117370574A CN 117370574 A CN117370574 A CN 117370574A CN 202311326352 A CN202311326352 A CN 202311326352A CN 117370574 A CN117370574 A CN 117370574A
- Authority
- CN
- China
- Prior art keywords
- defect
- model
- knowledge graph
- analysis method
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 120
- 238000004458 analytical method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000012423 maintenance Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 13
- 238000000513 principal component analysis Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Business, Economics & Management (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,针对电力设备缺陷进行预测,采用基于BERT的微调和知识图谱嵌入模型KGEMs;首先,通过收集和整理电力主设备的缺陷信息,创建缺陷数据集;其次,定义本体并设计知识图谱;然后,利用预训练的BERT模型处理特定领域语料库,微调BERT以更好地理解句子语义并提取更有价值的特征;最后,通过结合KGEMs的训练和测试,实现更准确、有效的电力设备缺陷预测;本发明克服了直接使用BERT在专业领域词汇上的不足,并显著提高了预测任务的性能,可以实现对在有限资源环境下对电力主设备缺陷的高效准确识别与处理,提高知识图谱嵌入模型在电力主设备缺陷分析中的链接预测性能,进一步提高诊断准确率和维修效率。
Description
技术领域
本发明涉及电力认知智能技术领域,尤其是提高电力主设备知识图谱嵌入模型性能的缺陷分析方法。
背景技术
采用知识图谱链接预测技术对电力主设备缺陷进行分析,以更有结构化和全面的方式来表示缺陷事件、缺陷现象、缺陷属性及其关系。这种方法有助于确定缺陷的根本原因,从而进行有针对性的修复和维护。此外,链接预测能够显著提高电力主设备缺陷分析的效率和准确性,实现及时有效的维护,最终降低停机时间和成本。
为解决在分析电力主设备缺陷时使用基于嵌入的知识图谱嵌入模型(KGEMs)进行链接预测时遇到的性能低的问题,本发明使用了简单的PCA算法降低初始嵌入的维度,其效果良好。
本发明聚焦于电力主设备缺陷分析,为了更好地理解和分析电力主设备缺陷,我们提出了一种新颖的方法,该方法通过使用领域特定知识对BERT进行微调,提高了BERT理解领域特定知识的能力。这种方法的优势在于它可以利用从BERT中提取的特征信息作为初始嵌入,进而显著提高知识图谱嵌入模型(KGEMs)在链接预测性能方面的表现。此外,本发明还针对资源受限的环境进行了优化,只需很少的语料就能取得优异的结果。本发明的方法在只有少量专业领域语料和计算资源的情况下仍能取得满意的效果。
发明内容
本发明提出提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,可以实现对在有限资源环境下对电力主设备缺陷的高效准确识别与处理,提高知识图谱嵌入模型在电力主设备缺陷分析中的链接预测性能,进一步提高诊断准确率和维修效率。
本发明采用以下技术方案。
提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,用于知识图谱的链接预测,包括以下步骤;
步骤S1、缺陷数据集处理,数据集数据包括电力主设备的缺陷信息,通过手工收集和记录,整理成表格格式化数据;
步骤S2、构建知识图谱的本体定义;由表格结构化数据的表格表头模式设计知识图谱本体结构,根据本体设计将缺陷数据集转化为三元组;
步骤S3、通过为每个“头-尾”关系边添加“尾-头”关系边来创建逆边;
步骤S4、预训练数据集处理;收集电力缺陷相关的资料构建语料数据集;按照预设比例将语料数据集划分为训练集、验证集和测试集,训练集中使用双向边,验证集和测试集中使用单向边;
步骤S5、预训练用于处理电力缺陷相关领域语料库的BERT模型,通过微调来优化模型理解句子语义并提取有价值特征的功能;
其中,预训练的任务是掩码语言模型(Masked Language Model,MLM),MLM的目标是预测输入句子中被掩码的词。给定一个输入序列X=(x1,x2,...,xn),其中某些位置的词xi被掩码,目标是最大化对被掩码词的对数似然。这里我们的输入序列是电力缺陷相关领域语料库的句子。
给定一个训练样本(x,y),首先,我们将输入x传给BERT模型,得到输出
z=BERT(x;Θ)----(1)
其中Θ是模型参数。
然后,我们通过一个softmax函数将z转化为预测概率p=softmax(z)。
最后,微调的目标是最大化对y的对数似然。具体地说,我们希望最大化每个样本的对数似然之和,即最小化损失函数。L_fine-tune代表了微调阶段的损失函数。即:
L_fine-tune=Σ(i=1to N)logp(yi|xi;Θ)----(2)
等价于:
L_fine-tune=Σ(i=1to N)logp_i[yi]---(3)
其中N是训练样本的数量,p_i[yi]是第i个样本的真实标签yi的预测概率,Θ是模型参数。
步骤S6、结合知识图谱嵌入模型KGEMs对BERT模型进行训练和测试,利用主成分分析PCA算法对BERT的隐藏层输出降维,以减少计算和存储需求;
用主成分分析(PCA)对BERT的隐藏层输出进行降维处理。即
H=BERT_hidden(x';Θ)---(4)
H是BERT模型对输入x'的隐藏层输出,
H'=PCA(H)---(5)
H'是通过PCA降维后的输出。
将降维后的三元组特征向量作为训练过程链接预测任务的初始嵌入,将经过预训练语言模型处理并降维后的实体和关系表示输入到知识图谱嵌入模型KGEMs中;
步骤S7、采用已处理的已有知识图谱嵌入模型KGEMs来构建链接预测模型,链接预测模型包括损失函数、优化器和评估指标。
链接预测任务使用我们的嵌入模型来进行预测,我们需要将知识图谱中的实体和关系嵌入到低维空间。设h,t和r分别是头实体、尾实体和关系,我们可以通过嵌入函数E来获取他们的嵌入表示:
h_emb=E(h)---(6)
t_emb=E(t)---(7)
r_emb=E(r)---(8)
假设如果(h,r,t)在知识图谱中是一个正确的事实,那么h_emb+r_emb应该接近t_emb。
f(h,r,t)=||h_emb+r_emb-t_emb||---(9)
这里||.||是一个范数,我们使用了L1范数或L2范数。
链接预测模型的目标是最小化正确事实的分数,同时最大化错误事实(负样本)的分数。这可以通过如下的损失函数L来实现。
L=Σ[f(h,r,t)-f(h',r',t')+margin]_+---(10)
其中[x]_+是ReLU函数,表示如果x>0,则返回x,否则返回0。(h',r',t')是一个负样本,margin是一个超参数,用来控制正样本和负样本之间的间隔。
所述步骤S1中,收集电网领域文本数据,并对其进行数据清洗和预处理,以使其成为适合分析的结构化数据。
步骤S2中,一个三元组(Triple)是表示实体关系的方式,形式化地表示为(h,r,t),其中h是头实体(Head Entity),r是关系(Relation),t是尾实体(Tail Entity)。三元组的实体清单包括缺陷现象、电站/线路、电力/线路类型、电压等级、缺陷属性、缺陷位置、缺陷性质、缺陷描述、设备类型、缺陷设备、设备部件类型、设备部件;
三元组的关系清单包括的内容,以头到尾的形式表述为:电力/线路类型->电站/线路,电站/线路->电压等级,电站/线路->缺陷现象,缺陷属性->缺陷现象,缺陷位置->缺陷现象,缺陷位置->设备部件,设备部件->缺陷现象,缺陷位置->缺陷描述,缺陷描述->缺陷现象,设备类型->缺陷设备,缺陷设备->设备部件类型,设备部件类型->设备部件。
在步骤S3中,关系清单的各关系类型均创建对应的逆关系类型并加入关系清单中,即为每个“头到尾”的关系边添加“尾到头”的关系边来创建逆边,以关系清单中所有的关系类型和对应的逆关系类型进行模型训练。
步骤S4中,语料数据集包括变电站运行维护题库、变电站一次设备缺陷分类标准和配电网故障分析案例,语料数据集中,每个句子作为一个单独的行,按照8:1:1的比例将语料数据集划分为训练集、验证集和测试集。
步骤S5中,预训练微调过程使用领域特定长文本进行微调,冻结除最后一层外的所有层,使用HuggingFace提供的预训练工具,选择使用bert-Chinese-base作为预训练模型;将学习率设置为2e-5,train_batch_size设置为128,按语料库的长度分布,将最大序列长度max_seq_length设定为256,任何超过此长度的句子都将被截断,而过短的句子将被填充,训练周期的数量设置为40。
缺陷分析方法还包括步骤S8,即通过模型测试评估链接预测模型的hit@1、5、10,根据评估结果来使用不同的策略来获得更好的模型训练结果。
本发明提出了一种针对电力设备缺陷预测的方法,采用基于BERT的微调和知识图谱嵌入模型(KGEMs),在本发明中,首先,通过收集和整理电力主设备的缺陷信息,创建缺陷数据集;其次,定义本体并设计知识图谱;然后,利用预训练的BERT模型处理特定领域语料库,微调BERT以更好地理解句子语义并提取更有价值的特征;最后,通过结合KGEMs的训练和测试,实现了更准确、有效的电力设备缺陷预测。此方法克服了直接使用BERT在专业领域词汇上的不足,并显著提高了预测任务的性能。
本发明通过使用领域特定知识对BERT进行微调,提高了BERT理解领域特定知识的能力;本发明可以利用从BERT中提取的特征信息作为初始嵌入,进而显著提高知识图谱嵌入模型(KGEMs)在链接预测性能方面的表现。
本发明还针对资源受限的环境进行了优化,只需很少的语料就能取得优异的结果。本发明的方法在只有少量专业领域语料和计算资源的情况下仍能取得满意的效果。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
附图1是本发明的知识图谱本体示意图;
附图2是本发明所述方法的架构示意图;
附图3是本发明实施例中,在模型测试步骤的TranH的hit@k的实验结果示意图;
附图4是本发明实施例中,在模型测试步骤的DistMult的hit@k的实验结果示意图。
具体实施方式
如图所示,提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,用于知识图谱的链接预测,包括以下步骤;
步骤S1、缺陷数据集处理,数据集数据包括电力主设备的缺陷信息,通过手工收集和记录,整理成表格格式化数据;
步骤S2、构建知识图谱的本体定义;由表格结构化数据的表格表头模式设计知识图谱本体结构,根据本体设计将缺陷数据集转化为三元组;
步骤S3、通过为每个“头-尾”关系边添加“尾-头”关系边来创建逆边;
步骤S4、预训练数据集处理;收集电力缺陷相关的资料构建语料数据集;按照预设比例将语料数据集划分为训练集、验证集和测试集,训练集中使用双向边,验证集和测试集中使用单向边;
步骤S5、预训练用于处理电力缺陷相关领域语料库的BERT模型,通过微调来优化模型理解句子语义并提取有价值特征的功能;
步骤S6、结合知识图谱嵌入模型KGEMs对BERT模型进行训练和测试,利用主成分分析PCA算法对BERT的隐藏层输出降维,以减少计算和存储需求;将降维后的三元组特征向量作为训练过程链接预测任务的初始嵌入,将经过预训练语言模型处理并降维后的实体和关系表示输入到知识图谱嵌入模型KGEMs中;
步骤S7、采用已处理的已有知识图谱嵌入模型KGEMs来构建链接预测模型,链接预测模型包括损失函数、优化器和评估指标。
所述步骤S1中,收集电网领域文本数据,并对其进行数据清洗和预处理,以使其成为适合分析的结构化数据。
步骤S2中,三元组的实体清单包括缺陷现象、电站/线路、电力/线路类型、电压等级、缺陷属性、缺陷位置、缺陷性质、缺陷描述、设备类型、缺陷设备、设备部件类型、设备部件;
三元组的关系清单包括的内容,以头到尾的形式表述为:电力/线路类型->电站/线路,电站/线路->电压等级,电站/线路->缺陷现象,缺陷属性->缺陷现象,缺陷位置->缺陷现象,缺陷位置->设备部件,设备部件->缺陷现象,缺陷位置->缺陷描述,缺陷描述->缺陷现象,设备类型->缺陷设备,缺陷设备->设备部件类型,设备部件类型->设备部件。
在步骤S3中,关系清单的各关系类型均创建对应的逆关系类型并加入关系清单中,即为每个“头到尾”的关系边添加“尾到头”的关系边来创建逆边,以关系清单中所有的关系类型和对应的逆关系类型进行模型训练。
步骤S4中,语料数据集包括变电站运行维护题库、变电站一次设备缺陷分类标准和配电网故障分析案例,语料数据集中,每个句子作为一个单独的行,按照8:1:1的比例将语料数据集划分为训练集、验证集和测试集。
步骤S5中,预训练微调过程使用领域特定长文本进行微调,冻结除最后一层外的所有层,使用HuggingFace提供的预训练工具,选择使用bert-Chinese-base作为预训练模型;将学习率设置为2e-5,train_batch_size设置为128,按语料库的长度分布,将最大序列长度max_seq_length设定为256,任何超过此长度的句子都将被截断,而过短的句子将被填充,训练周期的数量设置为40。
缺陷分析方法还包括步骤S8,即通过模型测试评估链接预测模型的hit@1、5、10,根据评估结果来使用不同的策略来获得更好的模型训练结果。
实施例:
本例中,语料数据集规模远小于BERT等公开数据集的训练语料,仅为4.96M。
在模型训练中,使用TransH和DistMult作为本例的KGEMs,通过Pykeen实现,所有其他设置保持与原始实现一致。
图2的下半部分为本发明的模型训练图示。预测任务涉及在给定头实体和关系的情况下,从所有实体的候选池中选择最可能的候选实体。
为实现这一目标,本例计算每个候选实体被选中的概率。在本例的KGEMs训练设置中,将最大训练轮数设为300,评估轮数设为10,并启用提前停止功能,容差为5,相对增量为0.01。
为通过将PCA应用于将BERT的隐藏层输出从768降低到300维,本例调整了KGEMs的输入维度为300。
在本例的模型测试中,进行了三个测试实验。第一个实验直接使用KGEMs进行链接预测任务。第二个实验利用预训练模型的原始设置从知识图谱节点和边提取特征,用于链接预测任务中的初始KGEMs嵌入。第三个实验,本例提出的方法,涉及在特定领域语料库上对预训练模型进行微调,并重复第二个实验。
在评估过程中,针对性能指标:Hit@k,其中k设为1、5和10。为了减轻偶然因素的影响,本例进行了10次实验,并报告最大的hit@k值。
实验结果表明,本例提出的方法克服了直接使用BERT带来的性能损失,并提高了KGEMs的有效性。
BERT在通用语料库上进行训练,难以应对专业领域词汇,这包括俚语、缩写和行话。提取不准确的语义信息可能导致误导性的节点特征初始化,使嵌入效果不如随机嵌入。
本例在特定领域语料库上对BERT进行微调,使其能更好地理解句子语义并提取更有价值的特征,使其成为一种有效的特征提取器。TranH的hit@k实验结果如图3所示。DistMult的hit@k实验结果如图4所示。
Claims (7)
1.提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,用于知识图谱的链接预测,其特征在于:包括以下步骤;
步骤S1、缺陷数据集处理,数据集数据包括电力主设备的缺陷信息,通过手工收集和记录,整理成表格格式化数据;
步骤S2、构建知识图谱的本体定义;由表格结构化数据的表格表头模式设计知识图谱本体结构,根据本体设计将缺陷数据集转化为三元组;
步骤S3、通过为每个“头-尾”关系边添加“尾-头”关系边来创建逆边;
步骤S4、预训练数据集处理;收集电力缺陷相关的资料构建语料数据集;按照预设比例将语料数据集划分为训练集、验证集和测试集,训练集中使用双向边,验证集和测试集中使用单向边;
步骤S5、预训练用于处理电力缺陷相关领域语料库的BERT模型,通过微调来优化模型理解句子语义并提取有价值特征的功能;
步骤S6、结合知识图谱嵌入模型KGEMs对BERT模型进行训练和测试,利用主成分分析PCA算法对BERT的隐藏层输出降维,以减少计算和存储需求;将降维后的三元组特征向量作为训练过程链接预测任务的初始嵌入,将经过预训练语言模型处理并降维后的实体和关系表示输入到知识图谱嵌入模型KGEMs中;
步骤S7、采用已处理的已有知识图谱嵌入模型KGEMs来构建链接预测模型,链接预测模型包括损失函数、优化器和评估指标。
2.根据权利要求1所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,其特征在于:所述步骤S1中,收集电网领域文本数据,并对其进行数据清洗和预处理,以使其成为适合分析的结构化数据。
3.根据权利要求2所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,其特征在于:步骤S2中,三元组的实体清单包括缺陷现象、电站/线路、电力/线路类型、电压等级、缺陷属性、缺陷位置、缺陷性质、缺陷描述、设备类型、缺陷设备、设备部件类型、设备部件;
三元组的关系清单包括的内容,以头到尾的形式表述为:电力/线路类型->电站/线路,电站/线路->电压等级,电站/线路->缺陷现象,缺陷属性->缺陷现象,缺陷位置->缺陷现象,缺陷位置->设备部件,设备部件->缺陷现象,缺陷位置->缺陷描述,缺陷描述->缺陷现象,设备类型->缺陷设备,缺陷设备->设备部件类型,设备部件类型->设备部件。
4.根据权利要求3所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,其特征在于:在步骤S3中,关系清单的各关系类型均创建对应的逆关系类型并加入关系清单中,即为每个“头到尾”的关系边添加“尾到头”的关系边来创建逆边,以关系清单中所有的关系类型和对应的逆关系类型进行模型训练。
5.根据权利要求4所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,其特征在于:步骤S4中,语料数据集包括变电站运行维护题库、变电站一次设备缺陷分类标准和配电网故障分析案例,语料数据集中,每个句子作为一个单独的行,按照8:1:1的比例将语料数据集划分为训练集、验证集和测试集。
6.根据权利要求4所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,其特征在于:步骤S5中,预训练微调过程使用领域特定长文本进行微调,冻结除最后一层外的所有层,使用HuggingFace提供的预训练工具,选择使用bert-Chinese-base作为预训练模型;将学习率设置为2e-5,train_batch_size设置为128,按语料库的长度分布,将最大序列长度max_seq_length设定为256,任何超过此长度的句子都将被截断,而过短的句子将被填充,训练周期的数量设置为40。
7.根据权利要求6所述的提高电力主设备知识图谱嵌入模型性能的缺陷分析方法,其特征在于:缺陷分析方法还包括步骤S8,即通过模型测试评估链接预测模型的hit@1、5、10,根据评估结果来使用不同的策略来获得更好的模型训练结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311326352.1A CN117370574A (zh) | 2023-10-13 | 2023-10-13 | 提高电力主设备知识图谱嵌入模型性能的缺陷分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311326352.1A CN117370574A (zh) | 2023-10-13 | 2023-10-13 | 提高电力主设备知识图谱嵌入模型性能的缺陷分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117370574A true CN117370574A (zh) | 2024-01-09 |
Family
ID=89395847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311326352.1A Pending CN117370574A (zh) | 2023-10-13 | 2023-10-13 | 提高电力主设备知识图谱嵌入模型性能的缺陷分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117370574A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117911811A (zh) * | 2024-03-19 | 2024-04-19 | 南京认知物联网研究院有限公司 | 一种基于业务知识融合的工业视觉模型训练方法及装置 |
-
2023
- 2023-10-13 CN CN202311326352.1A patent/CN117370574A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117911811A (zh) * | 2024-03-19 | 2024-04-19 | 南京认知物联网研究院有限公司 | 一种基于业务知识融合的工业视觉模型训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11656298B2 (en) | Deep parallel fault diagnosis method and system for dissolved gas in transformer oil | |
CN112528676B (zh) | 文档级别的事件论元抽取方法 | |
CN105260356B (zh) | 基于多任务学习的中文交互文本情感与话题识别方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN107908716A (zh) | 基于词向量模型的95598工单文本挖掘方法和装置 | |
CN112364150A (zh) | 一种结合检索与生成的智能问答方法和系统 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN117370574A (zh) | 提高电力主设备知识图谱嵌入模型性能的缺陷分析方法 | |
CN111414770B (zh) | 一种基于协同训练的半监督蒙汉神经机器翻译方法 | |
CN111767398A (zh) | 基于卷积神经网络的二次设备故障短文本数据分类方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN116910633B (zh) | 一种基于多模态知识混合推理的电网故障预测方法 | |
CN110298044A (zh) | 一种实体关系识别方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN116663540A (zh) | 基于小样本的金融事件抽取方法 | |
CN112559741B (zh) | 核电设备缺陷记录文本分类方法、系统、介质及电子设备 | |
CN114492460A (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN112015760B (zh) | 基于候选答案集重排序的自动问答方法、装置和存储介质 | |
CN117592563A (zh) | 一种领域知识增强的电力大模型训调方法 | |
CN116579342A (zh) | 基于双特征联合提取的电力营销命名实体识别方法 | |
CN116432752A (zh) | 一种隐式篇章关系识别模型的构建方法及其应用 | |
Vilas et al. | Analyzing Vision Transformers for Image Classification in Class Embedding Space | |
CN115840884A (zh) | 样本选择方法、装置、设备及介质 | |
CN112579775B (zh) | 非结构化文本的分类方法及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |