CN113392217A - 一种电力设备故障缺陷实体关系的抽取方法及装置 - Google Patents
一种电力设备故障缺陷实体关系的抽取方法及装置 Download PDFInfo
- Publication number
- CN113392217A CN113392217A CN202110700829.2A CN202110700829A CN113392217A CN 113392217 A CN113392217 A CN 113392217A CN 202110700829 A CN202110700829 A CN 202110700829A CN 113392217 A CN113392217 A CN 113392217A
- Authority
- CN
- China
- Prior art keywords
- entity
- relation
- defect
- classification model
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007547 defect Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 73
- 238000013145 classification model Methods 0.000 claims abstract description 54
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 238000010801 machine learning Methods 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000001419 dependent effect Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000002950 deficient Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种电力设备故障缺陷实体关系的抽取方法及装置,包括:获取电力设备的缺陷文本,并对所述缺陷文本进行预处理,得到标准化文本数据;根据语言技术平台工具,对所述标准化文本数据进行语义分析处理,获得第二标准化文本数据;构建实体对的关系特征向量,并根据所述关系特征向量,构建基于关系特征向量机器学习分类模型;将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型,训练得到实体对的关系分类模型;将预设的测试文本数据输入到所述关系分类模型,得到实体关系的抽取结果。本发明能够对电力设备的缺陷文本故障缺陷实体关系进行抽取,在提高提取效率的同时,还能减少无效信息的数据量。
Description
技术领域
本发明涉及机器学习技术领域,特别是涉及一种电力设备故障缺陷实体关系的抽取方法、装置、终端和存储介质。
背景技术
电力系统的不断扩容,时常伴随着各类故障现象的发生。电力系统的检修与维护积累了大量的故障案例,通常由电力巡路人员现场以文本形式记录,包括检修实验记录、设备故障问题描述、设备消缺案例和故障原因分析描述等,是一些与电力设备相关的半结构化和非结构化文本数据,在整个电力领域中占比高达80%以上。从文本数据抽取出故障缺陷实体关系,对于充分利用其中蕴含的丰富的故障问题描述、故障检修方法以及故障原因分析等关键故障特征具有重要意义,同时也对指导故障诊断和运行维护、检修工作大有裨益。
目前,在现有的抽取方法中,一般采用基于无监督学习的实体关系抽取方法。但是上述方法在处理较大数据时,由于数据集越大意味着其中的干扰数据也会越多,会造成抽取精度较低。
发明内容
本发明的目的是:提供一种电力设备故障缺陷实体关系的抽取方法及装置,能够对电力设备的缺陷文本故障缺陷实体关系进行抽取,在提高提取效率的同时,还能减少无效信息的数据量。
为了实现上述目的,本发明提供了一种电力设备故障缺陷实体关系的抽取方法,包括:
获取电力设备的缺陷文本,并对所述缺陷文本进行预处理,得到标准化文本数据;
根据语言技术平台工具,对所述标准化文本数据进行语义分析处理,获得第二标准化文本数据,其中,所述语义分析处理包括:基础特征构建、句法特征构建和语义特征构建;
构建实体对的关系特征向量,并根据所述关系特征向量,构建基于关系特征向量机器学习分类模型;
将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型,训练得到实体对的关系分类模型;
将预设的测试文本数据输入到所述关系分类模型,得到实体关系的抽取结果。
进一步地,所述获取电力设备的缺陷文本,并对所述缺陷文本进行预处理,得到标准化文本数据,包括:
根据预设的条件,剔除所述缺陷文本中没有实际含义的词;
采用正则表达式,剔除所述缺陷文本中的特殊符号,其中,所述特殊符号包括:标点符号、数字及特殊字符。
进一步地,所述句法特征构建,采用如下计算公式:
f(i)=(i,en_id,parent,parent_id,relate)
式中,i为实体,en_id为该实体在句中的位置编号,parent为实体在句中的依存对象,parent_id表示该依存对象在句中的位置编号,relate表示该实体与依存对象之间的依存关系;
所述语义特征构建,采用如下计算公式:
式中,N为语义角色标注的最大层数,E_Srli表示该实体在不同语义角色标注层中的结果。
进一步地,所述构建实体对的关系特征向量,并根据所述关系特征向量,构建基于关系特征向量机器学习分类模型,包括:
将基础特征、句法特征和语义特征进行融合,获得实体对的关系特征向量;
根据所述实体对的关系特征向量,构建基于关系特征向量机器学习分类模型。
进一步地,所述将基础特征、句法特征和语义特征进行融合,获得实体对的关系特征向量,采用如下计算公式:
V(i)=[C1i,C2i,C3i,C4i,f(i),g(i)]
式中,i表示实体,C1i表示该实体的类别,C2i表示实体内容,C3i表示该实体的词性,C4i表示实体的上下文;
所述根据所述实体对的关系特征向量,构建基于关系特征向量机器学习分类模型,采用如下计算公式:
式中,K(xi,xj)为核函数,σ为带宽,αi为超平面法向量的共轭矩阵,β为超平面截距的共轭矩阵。
本发明还提供一种电力设备故障缺陷实体关系的抽取装置,包括:预处理模块、语义处理模块、分类模型构建模块、训练模块和抽取模块,其中,
所述预处理模块,用于获取电力设备的缺陷文本,并所述缺陷文本进行预处理,得到标准化文本数据;
所述语义处理模块,用于根据语言技术平台工具,对对所述标准化文本数据进行语义分析处理,获得第二标准化文本数据,其中,所述语义分析处理包括:基础特征构建、句法特征构建和语义特征构建;
所述分类模型构建模块,用于构建实体对的关系特征向量,并根据所述关系特征向量,构建基于关系特征向量机器学习分类模型;
所述训练模块,用于将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型,训练得到实体对的关系分类模型;
所述抽取模块,用于将预设的测试文本数据输入到所述关系分类模型,得到实体关系的抽取结果。
进一步地,所述预处理模块,具体用于:
根据预设的条件,剔除所述缺陷文本中没有实际含义的词;
采用正则表达式,剔除所述缺陷文本中的特殊符号,其中,所述特殊符号包括:标点符号、数字及特殊字符。
进一步地,所述分类模型构建模块,具体用于:
将基础特征、句法特征和语义特征进行融合,获得实体对的关系特征向量;
根据所述实体对的关系特征向量,构建基于关系特征向量机器学习分类模型。
本发明还提供一种计算机终端设备,包括:一个或多个处理器;存储器,与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一项所述的电力设备故障缺陷实体关系的抽取方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的电力设备故障缺陷实体关系的抽取方法。
本发明实施例一种电力设备故障缺陷实体关系的抽取方法、装置、终端设备和计算机可读存储介质与现有技术相比,其有益效果在于:
本发明通过对于电力设备缺陷故障文本中蕴含的丰富的故障问题描述、故障检修方法以及故障原因分析等关键故障特征,提出一种电力设备故障缺陷实体关系的抽取方法,能够对电力设备的缺陷文本故障缺陷实体关系进行抽取,在提高提取效率的同时,还能减少无效信息的数据量。
附图说明
图1是本发明提供的一种电力设备故障缺陷实体关系的抽取方法的流程示意图;
图2是本发明提供的依存关系句法剖析示意图;
图3是本发明提供的语义角色标注结果示意图;
图4是本发明提供的一种电力设备故障缺陷实体关系的抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如图1所示,本发明实施例的一种电力设备故障缺陷实体关系的抽取方法,至少包括如下步骤:
S1、获取电力设备的缺陷文本,并对所述缺陷文本进行预处理,得到标准化文本数据;
具体地,首先停用词过滤,去掉文本中没有实际含义的词,比如“的”、“甚至”等;然后采用正则表达式进行标准化,在电力设备缺陷文本中,由于记录不规范会包含一些特殊符号,这些特殊符号在文本中无法表达文本的重要信息,需要除去电力设备缺陷文本中非文本部分,即删除标点符号、数字及其它特殊字符。处理的主要应用方法为正则表达式。
S2、根据语言技术平台工具,对所述标准化文本数据进行语义分析处理,获得第二标准化文本数据,其中,所述语义分析处理包括:基础特征构建、句法特征构建和语义特征构建;
具体地,本步骤包括:
S21、基础特征构建,基础特征从实体出发,兼顾实体的内容、词性和上下文等信息。主要包含实体种类(如设备名、线路名和厂家名等)、实体内容(实体所包含的内容,如若实体由多个词构成,则需要将这些词按顺序连接起来)、实体词性(实体的词性标注结果)、实体上下文(以实体为中心,包含其周围的两个词语)。
S22、句法特征构建,依存句法分析主张语句中的核心谓语动词是整句话的中心成分,负责支配其它句法成分,所有支配与受支配的句法成分间都存在着某种依存关系,通过分析各句法成分的依存关系,揭示语句的句法结构,将句子以树的形式呈现。
本发明以“此变压器由汇网电气有限公司于2009年11月14日生产”为例,其依存句法分析结果如图2所示。在图2中,带方向的箭头表示依存顺序,箭头上在文字表示依存关系,其中Root表示根节点,ATT表示定中关系,POB表示介宾关系,ADV表示状中结构,FOB表示前置宾语,HED表示核心关系。在这句话中存在“变压器”、“汇网电气有限公司”和“2009年11月14日”3个实体,其中“变压器”的依存对象为“生产”,依存关系为FOB;“汇网电气有限公司”的依存对象为“由”,依存关系为POB;“2009年11月14日”的依存对象为“于”,依存关系为POB。
实体的依存对象和依存关系往往代表了它在语句中的句法成分和地位,而这些句法成分和地位也在一定程度上体现了实体间的内在关系。通过电力设备故障缺陷文本的依存句法分析结果,可以获取每一个设备故障缺陷实体的依存对象及其依存关系,从而构建出实体的句法特征向量。其中,每个实体的句法特征f(i)可表示为
f(i)=(i,en_id,parent,parent_id,relate) (1)
式中,i为实体,en_id为该实体在句中的位置编号,parent为实体在句中的依存对象,parent_id表示该依存对象在句中的位置编号,relate表示该实体与依存对象之间的依存关系。
S23、语义特征构建,语义角色标注本质上是一种浅层语义分析技术,它以句子为单位,以句子中的谓语动词为核心,分析研究句子中各成分与谓语动词之间的关系,并用语义角色将其标注,如施事者、受事者以及附加角色等。语义角色标注是语义分析的一个重要环节,在信息抽取、机器翻译等领域起着核心的支撑作用。
与依存句法分析中的句法成分类似,语义角色标注结果也蕴含着实体的相关信息特征。本文以“此变压器是由汇网电气有限公司于2009年11月14日生产”为例,其语义角色标注结果如图3所示。
在图3中,A0表示施事者,A1表示受事者,TMP表示时间。本句共包含3个实体,围绕核心动词“生产”进行语义角色标注,其中施事者A0为“由汇网电气有限公司”,受事者A1为“变压器”,时间TMP为“于2009年11月14日”。因此“变压器”、“汇网电气有限公司”和“2009年11月14日”3个实体的语义角色标注结果分别为A1、A0和TMP。
实体的语义角色标注结果一般代表了实体在语句中的作用,在一定程度上揭示了实体间的语义关系。语义角色标注结果通常由句子中的谓语动词确定,如果一个句子中有多个谓语动词,那么语义角色也会有多层标注结果。因此,实体语义特征g(i)可表示为
式中,N为语义角色标注的最大层数,E_Srli表示该实体在不同语义角色标注层中的结果。
S3、构建实体对的关系特征向量,并根据所述关系特征向量,构建基于关系特征向量机器学习分类模型;
具体地,本步骤包括:
S31、特征融合,基础特征和句法语义特征进行融合,则每个实体的特征向量V(i)可表示为:
V(i)=[C1i,C2i,C3i,C4i,f(i),g(i)] (3)
式中,i表示实体,C1i表示该实体的类别,C2i表示实体内容,C3i表示该实体的词性,C4i表示实体的上下文。实体i与其实体j之间的关系特征向量E(i,j)可表示为
E(i,j)=[V(i),V(j)] (4)
S32、构建基于关系特征向量机器学习分类模型,在电力设备故障缺陷文本中,实体对的关系分类是一个非线性问题,因此在求解最优超平面时,需要将特征的样本点通过核函数映射到高维特征空间中,并通过核函数运算替换线性分类的中的内积运算,此时的目标函数为
式中,K(xi,xj)为核函数,本文选择在非线性分类中常用的高斯核函数,其计算公式为
式中,σ为带宽,用于控制核函数的作用范围。最终得到的实体关系分类函数为
式中,αi为超平面法向量的共轭矩阵,β为超平面截距的共轭矩阵。根据以上核函数和目标函数得到关系分类模型。
本发明实施例中,对已有电力设备缺陷文本进行故障实体关系抽取,针对电力设备故障缺陷文本中的“故障时间”、“生产时间”、“投运时间”、“类属关系”、“所属关系”、“生产厂家”、“位置关系”、“故障类型”、“故障等级”和“电压等级”10类实体关系,本文使用实体种类、实体内容、实体词性、实体上下文、依存句法和语义角色6类特征,进行实体关系的抽取。为了说明本方法的有效性,本文同时对比了只使用实体种类、实体内容、实体词性和实体上下文这4类基础特征的实体关系抽取结果,两种方法在这10类实体关系上的抽取结果如表1所示。
表1实体关系抽取结果
从表1中不难发现,与只使用基础特征相比,本发明提出的基础特征+句法语义特征的实体关系抽取方法在电力设备故障缺陷文本中的10类实体关系抽取上均有一定程度的提高。其中“故障时间”、“生产时间”、“投运时间”、“类属关系”、“所属关系”、“生产厂家”、“位置关系”、“故障类型”、“故障等级”和“电压等级”的F1值依次提高了2.96%、3.89%、3.56%、4.12%、0.8%、2.53%、4.07%、3.54%、3.01%和1.73%。
在所有的10类实体关系中,本发明采用的实体关系抽取方法在“生产厂家”上取得了最低的F1值79.16%,在“电压等级”上取得了最高的F1值93.11%。通过分析电力设备故障缺陷文本和实验结果得知,厂家名内容丰富多样,部分具有“生产厂家”关系的实体对被划分为“所属关系”、“类属关系”和“位置关系”,而且另外还有部分不具有“生产厂家”关系的实体对被错误划分为此类,导致在整个电力设备故障缺陷文本中,在“生产厂家”这类实体关系上的抽取结果最差。
而在“电压等级”的抽取效果最好,一方面是因为在本文使用的电力设备故障缺陷文本中,设备线路的电压只有10kV和20kV两种,内容较为单一,另一方面是因为电压等级与线路名这对实体之间的干扰项不多,所以大部分具有“电压等级”关系的实体对均被正确分类。
总的来说,本发明在电力设备故障缺陷文本中的10类实体抽取关系上,均优于基于基础特征的实体关系抽取方法。
S4、将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型,训练得到实体对的关系分类模型;
具体地,将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型,训练得到实体对的关系分类模型;
S5、将预设的测试文本数据输入到所述关系分类模型,得到实体关系的抽取结果。
具体地,将预设的测试文本数据输入到所述关系分类模型,得到实体关系的抽取结果。
在本发明的某一个实施例中,所述获取电力设备的缺陷文本,并所述缺陷文本进行预处理,得到标准化文本数据,包括:
根据预设的条件,剔除所述缺陷文本中没有实际含义的词;
采用正则表达式,剔除所述缺陷文本中的特殊符号,其中,所述特殊符号包括:标点符号、数字及特殊字符。
在本发明的某一个实施例中,所述句法特征构建,采用如下计算公式:
f(i)=(i,en_id,parent,parent_id,relate)
式中,i为实体,en_id为该实体在句中的位置编号,parent为实体在句中的依存对象,parent_id表示该依存对象在句中的位置编号,relate表示该实体与依存对象之间的依存关系;
所述语义特征构建,采用如下计算公式:
式中,N为语义角色标注的最大层数,E_Srli表示该实体在不同语义角色标注层中的结果。
在本发明的某一个实施例中,所述构建实体对的关系特征向量,并根据所述关系特征向量,构建基于关系特征向量机器学习分类模型,包括:
将基础特征、句法特征和语义特征进行融合,获得实体对的关系特征向量;
根据所述实体对的关系特征向量,构建基于关系特征向量机器学习分类模型。
在本发明的某一个实施例中,所述将基础特征、句法特征和语义特征进行融合,获得实体对的关系特征向量,采用如下计算公式:
V(i)=[C1i,C2i,C3i,C4i,f(i),g(i)]
式中,i表示实体,C1i表示该实体的类别,C2i表示实体内容,C3i表示该实体的词性,C4i表示实体的上下文;
所述根据所述实体对的关系特征向量,构建基于关系特征向量机器学习分类模型,采用如下计算公式:
式中,K(xi,xj)为核函数,σ为带宽,αi为超平面法向量的共轭矩阵,β为超平面截距的共轭矩阵。
本发明实施例一种电力设备故障缺陷实体关系的抽取方法、与现有技术相比,其有益效果在于:
本发明通过对于电力设备缺陷故障文本中蕴含的丰富的故障问题描述、故障检修方法以及故障原因分析等关键故障特征,提出一种电力设备故障缺陷实体关系的抽取方法,能够对电力设备的缺陷文本故障缺陷实体关系进行抽取,在提高提取效率的同时,还能减少无效信息的数据量。
如图4所示,本发明还提供一种电力设备故障缺陷实体关系的抽取装置200,包括:预处理模块201、语义处理模块202、分类模型构建模块203、训练模块204和抽取模块205,其中,
所述预处理模块201,用于获取电力设备的缺陷文本,并所述缺陷文本进行预处理,得到标准化文本数据;
所述语义处理模块202,用于根据语言技术平台工具,对所述标准化文本数据进行语义分析处理,获得第二标准化文本数据,其中,所述语义分析处理包括:基础特征构建、句法特征构建和语义特征构建;
所述分类模型构建模块203,用于构建实体对的关系特征向量,并根据所述关系特征向量,构建基于关系特征向量机器学习分类模型;
所述训练模块204,用于将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型,训练得到实体对的关系分类模型;
所述抽取模块205,用于将预设的测试文本数据输入到所述关系分类模型,得到实体关系的抽取结果。
在本发明的某一个实施例中,所述预处理模块,具体用于:
根据预设的条件,剔除所述缺陷文本中没有实际含义的词;
采用正则表达式,剔除所述缺陷文本中的特殊符号,其中,所述特殊符号包括:标点符号、数字及特殊字符。
在本发明的某一个实施例中,所述分类模型构建模块,具体用于:
将基础特征、句法特征和语义特征进行融合,获得实体对的关系特征向量;
根据所述实体对的关系特征向量,构建基于关系特征向量机器学习分类模型。
本发明还提供一种计算机终端设备,包括:一个或多个处理器;存储器,与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一项所述的电力设备故障缺陷实体关系的抽取方法。
需要说明的是,所述处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器也可以是任何常规的处理器,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(SmartMediaCard,SMC)、安全数字(SecureDigital,SD)卡和闪存卡(FlashCard)等,或所述存储器也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,上述终端设备仅仅是示例,并不构成对终端设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的电力设备故障缺陷实体关系的抽取方法。
需要说明的是,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序、计算机程序),所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种电力设备故障缺陷实体关系的抽取方法,其特征在于,包括:
获取电力设备的缺陷文本,并对所述缺陷文本进行预处理,得到标准化文本数据;
根据语言技术平台工具,对所述标准化文本数据进行语义分析处理,获得第二标准化文本数据,其中,所述语义分析处理包括:基础特征构建、句法特征构建和语义特征构建;
构建实体对的关系特征向量,并根据所述关系特征向量,构建基于关系特征向量机器学习分类模型;
将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型,训练得到实体对的关系分类模型;
将预设的测试文本数据输入到所述关系分类模型,得到实体关系的抽取结果。
2.根据权利要求1所述的电力设备故障缺陷实体关系的抽取方法,其特征在于,所述获取电力设备的缺陷文本,并对所述缺陷文本进行预处理,得到标准化文本数据,包括:
根据预设的条件,剔除所述缺陷文本中没有实际含义的词;
采用正则表达式,剔除所述缺陷文本中的特殊符号,其中,所述特殊符号包括:标点符号、数字及特殊字符。
4.根据权利要求1所述的电力设备故障缺陷实体关系的抽取方法,其特征在于,所述构建实体对的关系特征向量,并根据所述关系特征向量,构建基于关系特征向量机器学习分类模型,包括:
将基础特征、句法特征和语义特征进行融合,获得实体对的关系特征向量;
根据所述实体对的关系特征向量,构建基于关系特征向量机器学习分类模型。
6.一种电力设备故障缺陷实体关系的抽取装置,其特征在于,包括:预处理模块、语义处理模块、分类模型构建模块、训练模块和抽取模块,其中,
所述预处理模块,用于获取电力设备的缺陷文本,并对所述缺陷文本进行预处理,得到标准化文本数据;
所述语义处理模块,用于根据语言技术平台工具,对所述标准化文本数据进行语义分析处理,获得第二标准化文本数据,其中,所述语义分析处理包括:基础特征构建、句法特征构建和语义特征构建;
所述分类模型构建模块,用于构建实体对的关系特征向量,并根据所述关系特征向量,构建基于关系特征向量机器学习分类模型;
所述训练模块,用于将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型,训练得到实体对的关系分类模型;
所述抽取模块,用于将预设的测试文本数据输入到所述关系分类模型,得到实体关系的抽取结果。
7.根据权利要求6所述的电力设备故障缺陷实体关系的抽取装置,其特征在于,所述预处理模块,具体用于:
根据预设的条件,剔除所述缺陷文本中没有实际含义的词;
采用正则表达式,剔除所述缺陷文本中的特殊符号,其中,所述特殊符号包括:标点符号、数字及特殊字符。
8.根据权利要求6所述的电力设备故障缺陷实体关系的抽取装置,其特征在于,所述分类模型构建模块,具体用于:
将基础特征、句法特征和语义特征进行融合,获得实体对的关系特征向量;
根据所述实体对的关系特征向量,构建基于关系特征向量机器学习分类模型。
9.一种计算机终端设备,其特征在于,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5任一项所述的电力设备故障缺陷实体关系的抽取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的电力设备故障缺陷实体关系的抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110700829.2A CN113392217B (zh) | 2021-06-24 | 2021-06-24 | 一种电力设备故障缺陷实体关系的抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110700829.2A CN113392217B (zh) | 2021-06-24 | 2021-06-24 | 一种电力设备故障缺陷实体关系的抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392217A true CN113392217A (zh) | 2021-09-14 |
CN113392217B CN113392217B (zh) | 2022-06-10 |
Family
ID=77623631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110700829.2A Active CN113392217B (zh) | 2021-06-24 | 2021-06-24 | 一种电力设备故障缺陷实体关系的抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392217B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461735A (zh) * | 2022-04-13 | 2022-05-10 | 天津中新智冠信息技术有限公司 | 工矿数据分级分类方法、装置和计算机设备 |
RU2786934C1 (ru) * | 2021-12-24 | 2022-12-26 | Федеральное государственное бюджетное образовательное учреждение высшего образования "Поволжский государственный университет телекоммуникаций и информатики" | Способ предсказания выхода из строя оборудования сенсорных и беспроводных сетей на основе онтологии с применением машинного обучения |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
US20160148116A1 (en) * | 2014-11-21 | 2016-05-26 | International Business Machines Corporation | Extraction of semantic relations using distributional relation detection |
CN109492113A (zh) * | 2018-11-05 | 2019-03-19 | 扬州大学 | 一种面向软件缺陷知识的实体、关系联合抽取方法 |
CN110895565A (zh) * | 2019-11-29 | 2020-03-20 | 国网湖南省电力有限公司 | 一种电力设备故障缺陷文本分类方法与系统 |
CN111274394A (zh) * | 2020-01-16 | 2020-06-12 | 重庆邮电大学 | 一种实体关系的抽取方法、装置、设备及存储介质 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111522965A (zh) * | 2020-04-22 | 2020-08-11 | 重庆邮电大学 | 一种基于迁移学习的实体关系抽取的问答方法及系统 |
CN111737496A (zh) * | 2020-06-29 | 2020-10-02 | 东北电力大学 | 一种电力设备故障知识图谱构建方法 |
CN112948505A (zh) * | 2021-03-30 | 2021-06-11 | 太原理工大学 | 一种实体关系分类的模型构建方法、设备及存储介质 |
-
2021
- 2021-06-24 CN CN202110700829.2A patent/CN113392217B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160148116A1 (en) * | 2014-11-21 | 2016-05-26 | International Business Machines Corporation | Extraction of semantic relations using distributional relation detection |
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
CN109492113A (zh) * | 2018-11-05 | 2019-03-19 | 扬州大学 | 一种面向软件缺陷知识的实体、关系联合抽取方法 |
CN110895565A (zh) * | 2019-11-29 | 2020-03-20 | 国网湖南省电力有限公司 | 一种电力设备故障缺陷文本分类方法与系统 |
CN111274394A (zh) * | 2020-01-16 | 2020-06-12 | 重庆邮电大学 | 一种实体关系的抽取方法、装置、设备及存储介质 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111522965A (zh) * | 2020-04-22 | 2020-08-11 | 重庆邮电大学 | 一种基于迁移学习的实体关系抽取的问答方法及系统 |
CN111737496A (zh) * | 2020-06-29 | 2020-10-02 | 东北电力大学 | 一种电力设备故障知识图谱构建方法 |
CN112948505A (zh) * | 2021-03-30 | 2021-06-11 | 太原理工大学 | 一种实体关系分类的模型构建方法、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2786934C1 (ru) * | 2021-12-24 | 2022-12-26 | Федеральное государственное бюджетное образовательное учреждение высшего образования "Поволжский государственный университет телекоммуникаций и информатики" | Способ предсказания выхода из строя оборудования сенсорных и беспроводных сетей на основе онтологии с применением машинного обучения |
CN114461735A (zh) * | 2022-04-13 | 2022-05-10 | 天津中新智冠信息技术有限公司 | 工矿数据分级分类方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113392217B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A two-stage parsing method for text-level discourse analysis | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN109657230A (zh) | 融合词向量和词性向量的命名实体识别方法及装置 | |
CN110765235B (zh) | 训练数据的生成方法、装置、终端及可读介质 | |
US11562134B2 (en) | Method and system for advanced document redaction | |
CN113392217B (zh) | 一种电力设备故障缺陷实体关系的抽取方法及装置 | |
CN114860942B (zh) | 文本意图分类方法、装置、设备及存储介质 | |
CN103440315A (zh) | 一种基于主题的Web页面清洗方法 | |
CN113157860A (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN108241658A (zh) | 一种日志模式发现方法及系统 | |
CN110110326B (zh) | 一种基于主题信息的文本切割方法 | |
Meuschke et al. | A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents | |
CN110704638A (zh) | 一种基于聚类算法的电力文本词典构造方法 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
CN112101007A (zh) | 一种从非结构化文本数据中提取结构化数据的方法及系统 | |
CN112215012A (zh) | 基于条件随机场的配电网检修单安全措施语义解析方法 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN115146634A (zh) | 应急预案转化待办流程图的处理方法及相关装置 | |
Demilie et al. | Evaluation of part of speech tagger approaches for the amharic language: a review | |
CN113779200A (zh) | 目标行业词库的生成方法、处理器及装置 | |
You | Automatic summarization and keyword extraction from web page or text file | |
Kruengkrai et al. | Semantic relation extraction from a cultural database | |
Tammewar et al. | Can distributed word embeddings be an alternative to costly linguistic features: A study on parsing hindi | |
CN112529743A (zh) | 合同要素抽取方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |