CN116975161A - 电力设备局放文本的实体关系联合抽取方法、设备、介质 - Google Patents
电力设备局放文本的实体关系联合抽取方法、设备、介质 Download PDFInfo
- Publication number
- CN116975161A CN116975161A CN202310607679.XA CN202310607679A CN116975161A CN 116975161 A CN116975161 A CN 116975161A CN 202310607679 A CN202310607679 A CN 202310607679A CN 116975161 A CN116975161 A CN 116975161A
- Authority
- CN
- China
- Prior art keywords
- entity
- head
- partial discharge
- tail
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 18
- 108091026890 Coding region Proteins 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 abstract description 6
- 230000007547 defect Effects 0.000 description 13
- 238000003745 diagnosis Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000393496 Electra Species 0.000 description 1
- 241001596784 Pegasus Species 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Animal Behavior & Ethology (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种电力设备局放文本的实体关系联合抽取方法、设备、介质,包括:将局部放电文本句子输入编码模型中,得到各个字符对应的编码并按照文字顺序排列得到编码序列;将编码序列输入头实体编码器中,标记头实体的起止位置,基于头实体的起止位置对应字符的编码进行特征解析及语义提取,得到头实体语义向量;利用尾实体解码器,通过将头实体作为先验信息,匹配与预设的关系类型对应的尾实体的起止位置。通过将三元组抽取过程看作为两个实体的映射关系,首先抽取出头实体,作为先验信息,再针对每一种关系抽取对应的尾实体,从而实现头实体在特定关系类型下到尾实体的映射过程,使模型更加关注于关系相关的语义信息,减少冗余的抽取操作。
Description
技术领域
本发明涉及电网故障诊断领域,尤其是涉及一种电力设备局放文本的实体关系联合抽取方法、设备、介质。
背景技术
随着国内外研究人员对局部放电领域的深入研究和配电设备检测技术的日益成熟,局放检测近年来获得了广泛的现场应用,并由此积累了大量的电力设备局放检测文本。这些文本中详细记录了经由局放检测发现的设备缺陷数据、运行状态、缺陷产生过程与设备解体维护经过等重要信息,对电力设备运行状态评估、家族性缺陷识别等具有重要意义。然而该类文本往往具有非结构化数据占比大、多源异构性高等特点,难以直接从中提取有效知识并进行知识整合,因此亟需一种能够聚集文本知识、可视化程度高的工具对电力设备局放数据进行分析处理。随着图论相关理论的不断完善,知识图谱技术在海量数据组织管理、知识表达与智能问答领域展现出巨大潜力与优势。因此,我们可以借助知识图谱来对电力设备局放文本数据进行分析、录入、展示与推理等,从而有效地学习到有关电力设备的先验知识以及消缺案例,并在此基础上进行逻辑推理、智能匹配等,进一步为输变电设备状态评估、设备画像构建、检修决策提供重要参考。
在知识图谱的构建过程中,需要对自然语言文本数据进行一定处理,即抽取出其中的头尾实体与关系类型,形成知识三元组SPO(Subject,Predicate,Object)。目前广泛用于实体及关系抽取的方法有两种:分别是流水线式抽取方法与联合抽取方法。流水线式抽取方法是指将实体抽取与关系抽取分开,各个任务依次处理,即在进行命名实体识别(NameEntity Recognition,NER)之后,再对两两实体之间的关系进行预测分类(RelationExtraction,RE)。两个子任务之间的分离导致这类方法存在误差传递、冗余实体推断、子任务间缺少交互等问题,因此具有较大的局限性。联合抽取方法则将三元组抽取看作一个整体,通过建立统一的模型进行联合训练,使得不同的子任务彼此交互,从而充分利用子任务中的信息,进一步提升模型的性能,在近年来深受研究者青睐。
中国专利申请号CN202210248594.2提供一种基于BERT的电网故障诊断方法,将电网故障诊断转化为一个自然语言处理问题,其中包括:采集告警信息样本,对样本进行切词预处理;对告警信息文本嵌入语义特征、句特征以及位置特征,将三大特征相加构成模型输入向量;构建基于BERT的电网故障诊断模型,利用Transformer编码器中的注意力机制,自主学习告警信息文本中的故障特征,利用解码器输出故障诊断结果。
上述申请通过输入的告警信息文本直接输出有关故障特征的概要性描述文本,实现了端到端的电网故障诊断,但是,并未从实体及实体间的关系考虑语义的识别和抽取,抽取得到的概要性描述文本的准确性和简洁性有所欠缺。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种电力设备局放文本的实体关系联合抽取方法、设备、介质,通过将头实体作为先验信息,匹配与预设的关系类型对应的尾实体的起止位置,构建包括头实体、尾实体和关系类型的三元组,实现实体关系的联合抽取。
本发明的目的可以通过以下技术方案来实现:
本发明的一个方面,提供了一种电力设备局放文本的实体关系联合抽取方法,包括如下步骤:
获取局部放电文本句子并输入编码模型中,得到各个字符对应的编码并按照文字顺序排列得到编码序列;
将所述编码序列输入头实体编码器中,标记头实体的起止位置,基于所述头实体的起止位置对应字符的编码进行特征解析与语义信息提取,得到头实体语义向量;
将所述编码序列和所述头实体语义向量输入尾实体解码器中,通过将头实体作为先验信息,匹配与预设的关系类型对应的尾实体的起止位置,构建包括头实体、尾实体和关系类型的三元组,实现实体关系的联合抽取。
作为优选的技术方案,所述的编码模型预先经过预训练,预训练的过程包括如下步骤:
获取包括多个样例文本句子的训练数据,依次对所述编码模型进行掩藏语言模型训练和下一句预测训练。
作为优选的技术方案,针对所述的头实体编码器和所述的尾实体解码器中的任一个,均包括两个不同的二进制分类器,用于分别标记头实体或尾实体的开始位置和结束位置。
作为优选的技术方案,所述的头实体语义向量的获取过程包括如下步骤:
抽取出所述头实体的起止位置之间的所有字符对应的长度相同的编码向量,将其输入到双向长短期记忆网络模型中进行特征解析,选取该双向长短期记忆网络模型的最后一个位置输出的隐藏层向量作为所述的头实体语义向量。
作为优选的技术方案,所述的实体编码器和/或所述的尾实体解码器采用交叉熵损失函数进行训练。
作为优选的技术方案,所述的起止位置的标记过程为:标记结束位置以及与结束位置最接近且处于结束位置左侧的起始位置。
作为优选的技术方案,通过将头实体作为先验信息,匹配与预设的关系类型对应的尾实体的起止位置的过程包括如下步骤:
针对每个头实体,将句子中其他实体作为候选尾实体,通过判断是否能够根据预设的多种关系类型将句子中的候选尾实体与头实体相关联,确定包括头尾实体与关系类型的三元组。
作为优选的技术方案,所述的编码模型为BERT模型。
本发明的另一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行上述电力设备局放文本的实体关系联合抽取方法的指令。
本发明的另一个方面,提供了一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行上述电力设备局放文本的实体关系联合抽取方法的指令。
与现有技术相比,本发明具有以下优点:
(1)实现实体关系的准确抽取:将三元组抽取过程看作为两个实体的映射关系,即首先抽取出头实体,作为先验信息,再针对每一种关系抽取对应的尾实体,从而实现头实体在特定关系类型下到尾实体的映射过程,使模型更加关注于该关系相关的语义信息,减少冗余的抽取操作。
(2)应用范围广:本发明能够快速有效地识别出局放文本数据中各类实体以及其关系类型,进而构建大规模电力设备缺陷知识图谱,为输变电设备状态评估、设备画像构建、检修决策提供重要参考。
附图说明
图1为实施例中电力设备局放文本的实体关系联合抽取方法的示意图;
图2为实施例中头实体语义向量的获取操作示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例1
本发明提供了一种基于头实体导向机制的电力设备局部放电数据的实体关系联合抽取方法。该方法将三元组抽取过程看作为两个实体的映射关系,即首先抽取出头实体,作为先验信息,再针对每一种关系抽取对应的尾实体,从而实现头实体在特定关系类型下到尾实体的映射过程,使模型更加关注于该关系相关的语义信息,减少冗余的抽取操作。
本实施例在预训练语言模型BERT(Bidirectional Encoder Representationfrom Transformers)的基础上,通过共享编码层并以头实体为导向,对电力设备局部放电文本的知识三元组进行抽取,得到了一种准确率较高的中文电力设备局放文本的实体关系联合抽取模型,能够快速有效地识别出局放文本数据中各类实体以及其关系类型,用以构建大规模电力设备缺陷知识图谱。
本模型旨在识别出局放文本中所有可能存在的三元组,其中部分三元组可能存在重叠或嵌套问题。对此,本模型以头实体为导向,将三元组建模过程做如式(1)转换,即首先抽取出头实体,然后根据头实体的先验信息抽取出其在特定关系下对应的尾实体。
P(s,p,o|x)=P(s|x)P(p,o|s,x) (1)
其中,x是输入的句子;s为模型首先抽取出来的头实体,p是特定的关系类型,需要预先定义;o为句子中与头实体s存在关系p的尾实体。可见,本模型中三元组抽取过程被转化为两个子任务:一是从句子x中抽取出头实体s,二是将不同的头实体s作为先验特征,与句子x共同解码得出关系p与对应的尾实体o。由此,本模型实现了对整个三元组的联合建模,同时保证了模型对三元组重叠或嵌套问题的处理能力。
参见图1,本实施例针对电力设备局部放电文本数据,提出了一种基于共享BERT编码层的头实体导向制联合抽取模型,其中具体步骤如下:
(1)准备训练数据:输入电力设备局部放电文本句子,并标注出每一句中存在关系的两个实体及其关系类型,形成三元组。其中,预设的关系类型有表1所述几种:
表1电力设备局部放电文本预设关系类型
序号 | 关系类型 |
1 | 所属站点(场所)为 |
2 | 故障(缺陷)位置为 |
3 | 故障(缺陷)类型为 |
4 | 故障(缺陷)现象为 |
5 | 故障(缺陷)特征为 |
6 | 缺陷检测时间为 |
7 | 停电检修时间为 |
(2)预处理:对输入的电力设备局部放电文本句子进行分词,每个词之间用空格隔开。
(3)BERT编码:将预处理结果输入BERT模型,利用遮盖语言模型(Masked languagemodel,MLM)与预测后续序列(Next sequence prediction,NSP)两个任务进行预训练,从而将句子中的汉字符转化为计算机能够理解的连续向量,并将其按顺序排列形成一个向量序列,作为后续两个子任务的共享编码层。
(4)头实体解码器学习:将BERT编码结果输入头实体解码器中,对头实体的起始与终止位置进行标记。头实体解码器采用两个独立的dense层实现,其输出为两个具有句子长度且取值全为0/1的向量,分别用以表示各头实体的起始与终止位置。
(5)头实体语义信息提取:将识别出的头实体起止位置之间所有编码向量提取出,输入到双向长短期记忆网络模型进行特征解析,通过多个记忆单元对头实体片段序列信息进行保存、更新、衰减。最终选取该双向长短期记忆网络模型中最后一个位置对应的隐藏层输出作为头实体语义向量。
(6)尾实体解码器学习:将BERT编码与步骤(5)中得到的头实体语义向量整合,输入到尾实体解码器中,为各个关系类型标记对应尾实体的起始、结束位置。尾实体解码器同样采用两个独立的dense层实现,其输出为两个取值全为0/1的矩阵,大小为句子长度×关系类型数量,可认为是对每个关系类型单独标记尾实体的起始与终止位置。
优选的,电力设备局放文本的联合抽取步骤(1)的具体方法为:
输入电力设备局部放电文本句子,并标注出每一句中存在关系的两个实体及其关系类型,形成三元组。将文本句子与三元组整合,形成训练数据,其标注方法如表2所示。
表2电力设备局部放电文本标注方法
优选的,电力设备局放文本的联合抽取步骤(3)的方法为:
将电力设备局部放电文本输入到BERT模型中进行预训练。BERT是从Transformer中衍生出来的预训练语言模型,其基于注意力机制对文本数据进行建模。BERT模型采用12或24层双向Transformer编码结构,通过使用大规模未标注语料进行自监督训练,从而有效学习到文本的通用语言特征,获取深层次文本词向量表示,并得到适应下游任务的模型网络参数。
在预训练过程中,首先对BERT模型进行掩藏语言模型训练(masked languagemodel,MLM),将单条文本中的任意字或词用遮盖符号‘[MASK]’替换,然后依据上下文语义信息对随机掩盖的词进行预测,从而可以更好地学习上下文内容特征。其次对BERT模型进行下一句预测训练(next sentence predication,NSP),为每个句子的句首和句尾分别插入‘[CLS]’和‘[SEP]’标签,通过学习句子间的关系特征预测两个句子的位置是否相邻,从而充分学习到不同句子的语法、语义特点。
电力设备局放文本的联合抽取步骤(4)的具体方法为:
通过直接解码BERT编码器产生的向量序列来获取句中所有实体的位置。其中,分别采用两个独立的二进制分类器,通过对每个位置赋予0或1来判定其是否为某个实体的开始或结束位置,从而可识别出句子中所有可能的实体。二进制分类器采用dense层实现,具体如下:
其中,与/>分别代表输入序列中的第i个位置作为头实体的开始或结束位置的概率。如果概率超过某个阈值(设置为0.5),则为对应位置赋予标签1,否则赋予标签0。hi是输入序列中第i个位置对应的BERT编码,其中W(·)表示权重,b(·)表示偏差,σ表示sigmoid激活函数。
优选的,电力设备局放文本的联合抽取步骤(5)的方法为:
将步骤(4)中识别为头实体所对应的BERT编码片段进行特征解析与语义提取,提取出头实体的特征信息,形成头实体语义向量。这里采用最近-匹配策略,即每个结束位置匹配最接近且处于其左边的起始位置,共同表示一个实体的边界。头实体语义向量的获取过程参见图2,抽取出实体边界内所有的BERT编码序列,将头实体编码序列输入到双向长短期记忆网络模型进行特征解析,通过多个记忆单元对头实体片段序列信息进行保存、更新、衰减,并分别训练一个向前与向后的长短期记忆网络来捕获输入序列中各位置的双向语义特征,最终选取该双向长短期记忆网络模型中最后一个位置对应的隐藏层输出作为表征该头实体特征的语义向量。
电力设备局放文本的联合抽取步骤(6)的具体方法为:
与步骤(4)中头实体解码器不同,尾实体的解码过程不仅需要句子本身的输入,还需要考虑头实体的特征。因此,尾实体解码器的输入为:
其中,hN代表BERT编码层输出,表示步骤(5)中获得的第k个头实体的语义向量(0≤k≤n,n为步骤(4)中抽取获得的头实体个数),二者相加结果作为尾实体解码器的输入。在尾实体解码器中,通过对每个头实体,检查在所有可能的关系下,是否可以将句子中的候选尾实体与该头实体相关联,从而同时确定头尾实体与关系三元组。其中,尾实体解码器同样采用两个独立的二进制分类器,通过为每个位置在不同关系类型下赋予0/1,来判断该位置是否为某个头实体在特定关系下的尾实体的开始或终止位置,从而获取该头实体对应的所有尾实体及其之间的关系类型。其中二进制分类器采用dense层实现,具体如下:
其中,与/>分别代表输入序列中的第i个位置为尾实体的开始或结束位置的概率。如果概率超过某个阈值(设置为0.5),则为对应位置赋予标签1,否则赋予标签0。/>表示与第k个头实体对应的输入序列中第i个位置的向量。W(·)表示权重,b(·)表示偏差,σ表示sigmoid激活函数。
本发明提供一种电力设备局部放电文本的实体关系联合抽取方法。基于头实体导向机制,并通过共享BERT编码层,可以同时识别出电力设备局放文本中的不同实体与实体之间的关系类型,从而准确高效地从文本数据中抽取出知识三元组,是构建电力设备缺陷知识图谱中最为重要的步骤之一。
实施例2
与实施例1相比,本实施例中的编码模型可以采用BERT-wwm、XLNET、ALBERT、RoBERTa、ELECTRA、BART或PEGASUS等其他现有的编码模型实现。
实施例3
本实施例提供了一种电网故障诊断方法,首先利用基于实施例1提供的基于头实体导向机制的电力设备局部放电数据的实体关系联合抽取方法得到知识三元组SPO,利用知识三元组构建得到知识图谱。在设备发生故障后,利用实施例1提供的实体关系抽取模型完成对故障告警信息中关键内容的抽取,并提炼为SPO数据形式,再结合所建的知识图谱,通过Cypher语言或子图匹配等方式进行快速检索,返回与当前事件相似的案例记录,获取该类设备发生相似故障现象时对应的故障位置、原因等信息,完成故障的智能诊断。
实施例4
本实施例提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行如实施例1或2所述电力设备局放文本的实体关系联合抽取方法的指令。
实施例5
本发明提供了一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如实施例1或2所述电力设备局放文本的实体关系联合抽取方法的指令。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种电力设备局放文本的实体关系联合抽取方法,其特征在于,包括如下步骤:
获取局部放电文本句子并输入编码模型中,得到各个字符对应的编码并按照文字顺序排列得到编码序列;
将所述编码序列输入头实体编码器中,标记头实体的起止位置,基于所述头实体的起止位置对应字符的编码进行特征解析与语义信息提取,得到头实体语义向量;
将所述编码序列和所述头实体语义向量输入尾实体解码器中,通过将头实体作为先验信息,匹配与预设的关系类型对应的尾实体的起止位置,构建包括头实体、尾实体和关系类型的三元组,实现实体关系的联合抽取。
2.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法,其特征在于,所述的编码模型预先经过预训练,预训练的过程包括如下步骤:
获取包括多个样例文本句子的训练数据,依次对所述编码模型进行掩藏语言模型训练和下一句预测训练。
3.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法,其特征在于,针对所述的头实体编码器和所述的尾实体解码器中的任一个,均包括两个不同的二进制分类器,用于分别标记头实体或尾实体的开始位置和结束位置。
4.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法,其特征在于,所述的头实体语义向量的获取过程包括如下步骤:
抽取出所述头实体的起止位置之间的所有字符对应的长度相同的编码向量,将其输入到双向长短期记忆网络模型中进行特征解析,选取该双向长短期记忆网络模型的最后一个位置输出的隐藏层向量作为所述的头实体语义向量。
5.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法,其特征在于,所述的实体编码器和/或所述的尾实体解码器采用交叉熵损失函数进行训练。
6.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法,其特征在于,所述的起止位置的标记过程为:标记结束位置以及与结束位置最接近且处于结束位置左侧的起始位置。
7.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法,其特征在于,通过将头实体作为先验信息,匹配与预设的关系类型对应的尾实体的起止位置的过程包括如下步骤:
针对每个头实体,将句子中其他实体作为候选尾实体,通过判断是否能够根据预设的多种关系类型将句子中的候选尾实体与头实体相关联,确定包括头尾实体与关系类型的三元组。
8.根据权利要求1所述的一种电力设备局放文本的实体关系联合抽取方法,其特征在于,所述的编码模型为BERT模型。
9.一种电子设备,其特征在于,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述电力设备局放文本的实体关系联合抽取方法的指令。
10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述电力设备局放文本的实体关系联合抽取方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310607679.XA CN116975161A (zh) | 2023-05-26 | 2023-05-26 | 电力设备局放文本的实体关系联合抽取方法、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310607679.XA CN116975161A (zh) | 2023-05-26 | 2023-05-26 | 电力设备局放文本的实体关系联合抽取方法、设备、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975161A true CN116975161A (zh) | 2023-10-31 |
Family
ID=88480465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310607679.XA Pending CN116975161A (zh) | 2023-05-26 | 2023-05-26 | 电力设备局放文本的实体关系联合抽取方法、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975161A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494806A (zh) * | 2023-12-28 | 2024-02-02 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于知识图谱和大语言模型的关系抽取方法、系统及介质 |
-
2023
- 2023-05-26 CN CN202310607679.XA patent/CN116975161A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494806A (zh) * | 2023-12-28 | 2024-02-02 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于知识图谱和大语言模型的关系抽取方法、系统及介质 |
CN117494806B (zh) * | 2023-12-28 | 2024-03-08 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于知识图谱和大语言模型的关系抽取方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
CN112183064B (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN111709244B (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN111767398A (zh) | 基于卷积神经网络的二次设备故障短文本数据分类方法 | |
CN112560486A (zh) | 基于多层神经网络的电力实体识别方法、存储介质和设备 | |
CN114925157B (zh) | 一种基于预训练模型的核电站维修经验文本匹配方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
Wu et al. | Tdv2: A novel tree-structured decoder for offline mathematical expression recognition | |
CN114564950A (zh) | 一种结合字词序列的电力中文命名实体识别方法 | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN113868422A (zh) | 一种多标签稽查工单问题溯源识别方法及装置 | |
CN116975161A (zh) | 电力设备局放文本的实体关系联合抽取方法、设备、介质 | |
CN113378024B (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN118227790A (zh) | 基于多标签关联的文本分类方法、系统、设备及介质 | |
CN117933258A (zh) | 一种命名实体识别方法和系统 | |
CN114781356B (zh) | 一种基于输入共享的文本摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |