CN114912435A - 基于频繁项集算法的电力文本知识发现方法及设备 - Google Patents
基于频繁项集算法的电力文本知识发现方法及设备 Download PDFInfo
- Publication number
- CN114912435A CN114912435A CN202210542291.1A CN202210542291A CN114912435A CN 114912435 A CN114912435 A CN 114912435A CN 202210542291 A CN202210542291 A CN 202210542291A CN 114912435 A CN114912435 A CN 114912435A
- Authority
- CN
- China
- Prior art keywords
- power
- frequent
- text
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 46
- 238000005065 mining Methods 0.000 claims abstract description 64
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 238000003745 diagnosis Methods 0.000 claims abstract description 32
- 238000003058 natural language processing Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000007547 defect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013138 pruning Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于频繁项集算法的电力文本知识发现方法及设备,属于电力设备运维技术领域。本发明的基于频繁项集算法的电力文本知识发现方法,构建自然语言处理与信息抽取模型,获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,使得电力文本分布规律、形式统一,形成电力数据文本。同时,本发明构建关联规则挖掘模型,利用频繁项集算法构建频繁模式树FP‑tree,识别出频繁出现的属性值集以及每个节点处的支持度;从而获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供更精准的辅助决策。
Description
技术领域
本发明涉及基于频繁项集算法的电力文本知识发现方法及设备,属于电力设备运维技术领域。
背景技术
由于核心电力设备和输电重要线路,其安全运行对整个电力系统的安全至关重要,尤其是运维管理要求高、安全运维责任重大,检修作业的专业化程度高,数据采集工作量也很大。目前针对输变电设备和线路运行数据的采集分析应用还处于初级阶段,前期梳理的设备故障知识库主要以非结构化的形式管理存储,应用较为困难,且尚未结合设备线路的相关规程和案例处置信息,无法实现智能信息检索和推荐,难以有效帮助设备和线路异常监测,以及故障诊断。
发明内容
针对现有技术的缺陷,本发明的目的一在于提供一种构建自然语言处理与信息抽取模型,获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,使得电力文本分布规律、形式统一,形成电力数据文本,进而能够整合提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库;同时,构建关联规则挖掘模型,利用频繁项集算法构建频繁模式树FP-tree,对电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息,进而识别出频繁出现的属性值集以及每个节点处的支持度;从而获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供更精准的辅助决策的电力文本知识发现方法。
本发明的目的二在于提供一种通过自然语言处理与信息抽取模块进行文本数据进行归集整合,从而提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库;同时利用关联规则挖掘模块利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,建立映射关系;进而利用FP-growth频繁项集挖掘的技术,解决了传统关联规则挖掘过程中连接较多、占用空间大、运算量大等问题的电力文本知识发现设备。
为实现上述目的之一,本发明的第一种技术方案为:
基于频繁项集算法的电力文本知识发现方法,
包括以下步骤:
步骤一,构建自然语言处理与信息抽取模型;
所述自然语言处理与信息抽取模型,用于获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理;
步骤二,对步骤一中的电力数据文本进行识别抽取,形成电力设备故障诊断数据库;
步骤三,构建关联规则挖掘模型;关联规则挖掘模型采用频繁项集算法构建频繁模式树FP-tree,对步骤二中的电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息;
步骤四,根据步骤三中的关联信息,将电力设备故障诊断数据库中的各数据项按照支持度排序,形成电力数据组;
步骤五,将步骤四中电力数据组中的每个数据项按降序或升序依次插入到频繁模式树FP-tree的节点中,识别出频繁出现的属性值集,同时每个节点处均记录该节点出现的支持度;
步骤六,根据步骤五中的属性值集以及支持度,获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则。
本发明经过不断探索以及试验,构建自然语言处理与信息抽取模型,获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,使得电力文本分布规律、形式统一,形成电力数据文本,进而能够整合提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库。
同时,本发明构建关联规则挖掘模型,利用频繁项集算法构建频繁模式树FP-tree,对电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息,进而识别出频繁出现的属性值集以及每个节点处的支持度;从而获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供更精准的辅助决策。
进一步,本发明利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系,将原有的知识结构从非结构化电力文本形式升级为以知识元组的形式进行结构化存储;同时基于FP-growth频繁项集挖掘的技术,解决了传统关联规则挖掘过程中连接较多、占用空间大、运算量大的问题。
更进一步,本发明特别适用于变电现场,用于辅助运检人员对电力设备运行状态进行辅助诊断与决策的系统,能够快速准确地判断出故障部位及原因,加快站内设备故障处理进度,有效提高基层人员作业效率;进一步本发明能有效结合设备线路的相关规程和案例处置信息,实现智能信息检索和推荐,可以有效的进行设备和线路的异常监测,以及故障诊断,方案科学、合理,切实可行。
作为优选技术措施:
所述实体识别包括以下内容:
步骤11,基于深度学习模型,构建神经网络模型并利用神经网络模型将文字符号特征表示为分布式特征信息;
步骤12,利用步骤11中的分布式特征信息,优化网络参数,训练网络模型;
步骤13,利用步骤12中的网络模型对电力文本中的语句实体进行识别。
作为优选技术措施:
所述深度学习模型基于双向长短时记忆网络Bi-LSTM以及条件随机场CRF进行构建;
所述双向长短时记忆网络Bi-LSTM包括输入门、遗忘门、输出门,其基于上一时刻的隐藏层信息和本时刻的输入信息计算三个门机制的值,再与上一时刻存储单元中的信息进行整合得到本时刻的单元输出,同时对隐藏层信息和存储单元信息进行更新作为下一时刻双向长短时记忆网络Bi-LSTM的输入;
双向长短时记忆网络Bi-LSTM的计算公式如下:
i=σ(xtUi+st-1Wi)
f=σ(xtUf+st-1Wf)
o=σ(xtUo+st-1Wo)
g=tanh(xtUg+st-1Wg)
ct=ct-1*f+g*i
st=tanh(ct)*o
其中xt表示t时刻网络输入值,st-1表示t-1时刻隐藏层神经元的激活值,C表示记忆单元,U、W分别表示模型参数,σ表示sigmoid激活函数,st表示t时刻LSTM隐藏层的激活值,i、f、o分别表示输入门、遗忘门、输出门。
作为优选技术措施:
所述条件随机场CRF基于隐马尔可夫模型和最大熵模型进行构建,其计算公式如下:
其中,x为输入电力文本序列,y为实体标注序列,P(y/x)为给定x条件下输出序列y的条件概率分布,sl(yi,x,i)为状态特征函数,tk(yi-1,yi,x,i),Z(x)为规范因子。
作为优选技术措施:
所述分词与词性标注,包括以下内容;
步骤21,根据收集整理好的若干份电力文本整理,得到的电力分词语料库;
步骤22,采用空格的方式,通过深度学习模型,将步骤21中的电力分词语料库的词一一分割出来,并对词进行词性标注;
所述词性为名词或动词或形容词或副词或量词;
所述新词发现基于序列标注方法与基于信息熵进行词挖掘。
作为优选技术措施:
所述事件单元抽取包括以下内容;
通过对电力文本进行离线挖掘,找出词与词的相近、同义关系,进行词的标准化;
通过分析语言单位内成分之间的依存关系,得到其句法结构;
建立实体/属性/值的链接模型,将电力文本中出现的术语或别名与知识库节点/词典中标准词建立对应关系;
建立属性值抽取模型、属性值推理模型,对给定输入设备的电力文本,识别出电力文本中目标命名实体对应的属性与对应值,抽取出标准化的实体、属性、值三元组,并作为输入信息输入至关联规则挖掘模型。
作为优选技术措施:
所述频繁项集算法的具体实现过程如下:
S1:构造频繁1项集模型,对电力文本数据集进行扫描并设定最小支持度,统计所有单个元素的支持度,删除不满足给定的最小支持度的元素,将频繁1项集放入项头表,并按照支持度降序排列;
S2:根据S1中的频繁1项集模型,对原始数据进行扫描,剔除非频繁1项集数据,并按照支持度降序排列,形成顺序数据集;
S3:将S2中的顺利数据集按照顺序输入到频繁模式树FP-tree中;
排序靠前的节点是祖先节点,而排序靠后的节点是子孙节点;
如果有共用的祖先,则对应的公用祖先节点计数加1;插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点;直到所有的数据都插入到频繁模式树FP-TREE后,频繁模式树FP-TREE在关联规则挖掘模型中建立完成;
S4:挖掘频繁项集,其包括以下内容:关联规则挖掘模型对频繁模式树FP-tree由叶子节点到根节点的顺序进行遍历,生成每个频繁元素节点的条件模式基,以所查找项为终点的路径集合,表示所查找项与树根节点间的所有路径;
在关联规则挖掘模型中生成其对应的条件模式树,生成所有的从根节点到叶子节点的路径,挖掘得到频繁模式与频繁项集。
作为优选技术措施:
关联规则挖掘模型的评估标准,包括支持度、置信度以及提升度;
所述支持度为几个关联的数据在数据集中出现的次数占总数据集的比重,其计算公式如下;
置信度的计算公式如下:
提升度的计算公式如下:
关联规则挖掘的任务在于挖掘出支持度和置信度分别大于或者等于最小支持度及其最小置信度的关联规则。
作为优选技术措施:
关联规则挖掘过程的核心部分是频繁项集的生成过程。
频繁项集的生成过程包括两个子步骤:连接步和剪枝步;
连接步包括以下内容:
为了产生频繁k项集的集合Lk,首先要找到候选k项集的集合Ck,该集合Ck通过频繁(k-1)项集的集合Lk-1与自身进行连接得到;
集合Lk-1包括l1和l2,
lj中的第i项用lj[i]来表示;
如果它们的前(k-2)个项均相同的话,即满足(l1[1]=l2[1]∧l1[2]=l2[2]∧···∧l1[k-2]=l2[k-2]∧l1[k-1]≠l2[k-1]);
连接l1、l2产生的结果项集即为候选k项集:Ck={l1[1]l1[2]···l1[k-1]l2[k-1]};
由于候选项集并不是所有的项集都是频繁的,因此需要利用剪枝步减小搜索空间。
剪枝步利用Apriori算法从集合Ck中去掉候选k项集的(k-1)项子集,其具体包括以下内容;
通过扫描数据库得到频繁1项集的集合,用频繁1项集生成候选2项集,再次扫描数据库,找出频繁2项集;按照该步骤进行,直至频繁k项集不能再被找到。
为实现上述目的之一,本发明的第二种技术方案为:
基于频繁项集算法的电力文本知识发现设备,
应用上述的基于频繁项集算法的电力文本知识发现方法;
包括电容式触摸屏、键盘、处理器、电源模块、设备内存、自然语言处理与信息抽取模块、关联规则挖掘模块,所述自然语言处理与信息抽取模块、关联规则挖掘模块存储在设备内存里;
所述自然语言处理与信息抽取模块,用于对文本数据进行归集整合,从而提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库;
所述关联规则挖掘模块,用于利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系;同时利用频繁项集算法构建频繁模式树FP-tree,识别出频繁出现的属性值集以及每个节点处的支持度,获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则。
本发明针对根据电力文本内容进行电力设备故障自动诊断问题,提供了一种基于频繁项集算法的电力文本知识发现系统,通过自然语言处理与信息抽取模块进行文本数据进行归集整合,从而提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库。
进一步,本发明关联规则挖掘模块利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系;进而利用FP-growth频繁项集挖掘的技术,解决了传统关联规则挖掘过程中连接较多、占用空间大、运算量大的问题。
更进一步,本发明特别适用于变电现场,用于辅助运检人员对电力设备运行状态进行辅助诊断与决策的系统,能够快速准确地判断出故障部位及原因,加快站内设备故障处理进度,有效提高基层人员作业效率;进一步本发明能有效结合设备线路的相关规程和案例处置信息,实现智能信息检索和推荐,可以有效的进行设备和线路的异常监测,以及故障诊断,方案科学、合理,切实可行。
与现有技术相比,本发明具有以下有益效果:
本发明经过不断探索以及试验,构建自然语言处理与信息抽取模型,获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,使得电力文本分布规律、形式统一,形成电力数据文本,进而能够整合提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库。
同时,本发明构建关联规则挖掘模型,利用频繁项集算法构建频繁模式树FP-tree,对电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息,进而识别出频繁出现的属性值集以及每个节点处的支持度;从而获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供更精准的辅助决策。
进一步,本发明利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系,将原有的知识结构从非结构化电力文本形式升级为以知识元组的形式进行结构化存储;同时基于FP-growth频繁项集挖掘的技术,解决了传统关联规则挖掘过程中连接较多、占用空间大、进而本发明能有效结合设备线路的相关规程和案例处置信息,实现智能信息检索和推荐,可以有效的进行设备和线路的异常监测,以及故障诊断,方案科学、合理,切实可行。
更进一步,本发明特别适用于变电现场,用于辅助运检人员对电力设备运行状态进行辅助诊断与决策的系统,能够快速准确地判断出故障部位及原因,加快站内设备故障处理进度,有效提高基层人员作业效率。
附图说明
图1为本发明关联规则挖掘模型运行流程图;
图2为本发明基于频繁项集算法的电力文本知识发现设备框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。
如图1所示,本发明基于频繁项集算法的电力文本知识发现方法的一种具体实施例:
基于频繁项集算法的电力文本知识发现方法,
步骤一,根据电力文件分布杂散、形式不统一的特点,构建自然语言处理与信息抽取模型;
所述自然语言处理与信息抽取模型,获取电力文本句法结构知识并构建本体字典,对电力文本进行分词与词性标注、实体识别、新词发现以及事件单元抽取处理,使得电力文本分布规律、形式统一,形成电力数据文本;
步骤二,对步骤一中的电力数据文本进行识别抽取,形成电力设备故障诊断数据库;
步骤三,构建关联规则挖掘模型;关联规则挖掘模型采用频繁项集算法构建频繁模式树FP-tree,对步骤二中的电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息;
步骤四,根据步骤三中的关联信息,将电力设备故障诊断数据库中的各数据项按照支持度排序,形成电力数据组;
步骤五,将步骤四中电力数据组中的每个数据项按降序或升序依次插入到频繁模式树FP-tree的节点中,识别出频繁出现的属性值集,同时每个节点处均记录该节点出现的支持度;
步骤六,根据步骤五中的属性值集以及支持度,获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供的辅助决策。
本发明自然语言处理与信息抽取模型的一种具体实施例:
电力文本中信息具有数据量巨大且数据类型众多的特点,但受限于数据分布杂散、形式不统一的问题,难以直接对电力文本信息开展机器学习,高效发现其中蕴含的丰富知识。因此收集整合数据对知识发现的开展具有重要意义。
自然语言处理与信息抽取模型首先对经过键盘、触屏或是USB录入的电力文本进行处理,获取文本句法结构知识并构建本体字典。这是电力文本知识发现的基础,自然语言处理与信息抽取模型处理电力文本主要分为四个步骤:实体识别、分词与词性标注、新词发现以及事件单元抽取。
实体识别包括以下内容:
首先,本发明设备基于深度学习的方法,设计和搭建神经网络模型并利用其将文字符号特征表示为分布式特征信息。接着,利用标注数据,优化网络参数,训练网络模型。最后利用训练好的模型对句子中的实体进行识别。本发明设备采用业界比较主流的Bi-LSTM+CRF的模型进行深度学习,LSTM单元包括输入门、遗忘门、输出门,是基于上一时刻的隐藏层信息和本时刻的输入信息计算三个门机制的值,再与上一时刻存储单元中的信息进行整合得到本时刻的单元输出,同时对隐藏层信息和存储单元信息进行更新作为下一时刻LSTM单元的输入。LSTM的计算过程如下:
i=σ(xtUi+st-1Wi)
f=σ(xtUf+st-1Wf)
o=σ(xtUo+st-1Wo)
g=tanh(xtUg+st-1Wg)
ct=ct-1*f+g*i
st=tanh(ct)*o
其中xt表示t时刻网络输入值,st-1表示t-1时刻隐藏层神经元的激活值,C表示记忆单元,U、W都是模型参数,σ表示sigmoid激活函数,st是t时刻LSTM隐藏层的激活值,i、f、o分别表示输入门、遗忘门、输出门。
CRF结合了隐马尔可夫模型和最大熵模型的特点,同时考虑了词语本身及上下文特征还加入了词典等外部特征,提升了模型的实体识别效果,一般采用线性链条件随机场,计算过程如下:
其中x为输入文本序列,y为实体标注序列,P(y|x)为给定x条件下输出序列y的条件概率分布,sl(yi,x,i)为状态特征函数,tk(yi-1,yi,x,i),Z(x)为规范因子。
分词与词性标注包括以下内容:
借助收集整理好的788份电力文本整理得到的电力分词语料库,采用空格的方式,借助深度学习算法,将短句中的词一个一个的分割出来,并对词进行词性标注,如:名词、动词、形容词、副词、量词等。
新词发现包括以下内容:
新词发现是词挖掘结果中去除已知的、不关心的词后,未能通过已有分词方法成功切分出来的词。比如:"烧坏选择器静触头"的分词结果为"烧坏选择器静触头"。其中,"静触头"应该被作为一个词,却被切成了多个词,失去了原有的语义。本发明设备采用基于序列标注方法与基于信息熵的新词发现算法解决此问题。
事件单元抽取包括以下内容:
首先,通过对大量文本进行离线挖掘,找出词与词的相近、同义关系,为词的标准化打下基础。其次,通过分析语言单位内成分之间的依存关系,揭示其句法结构。再次,建立实体/属性/值的链接模型,将文档中出现的术语或别名与知识库节点/词典中标准词建立对应关系。最后,建立属性值抽取模型、属性值推理模型,对给定输入设备的文本,识别出文本中目标命名实体对应的属性与对应值,抽取出标准化的实体、属性、值三元组,并作为输入信息输入至关联规则挖掘模块。
通过上述流程的处理,可以有效解决数据分布杂散、形式不统一的问题,实现电力文本信息的识别抽取,形成电力设备故障诊断数据库,存储于设备的主存储单元中。
本发明关联规则挖掘模型的一种具体实施例:
关联规则挖掘模型采用FP-growth算法进行构建,其实现流程为:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree)中,但保留频繁项集的关联信息。FP-tree将数据库中的各数据项按照支持度排序,把每个数据项按降序依次插入到树的节点中,同时每个结点处均记录有该结点出现的支持度。
FP-growth算法具体实现过程如下:
S1:对主存储单元中的电力文本数据集进行扫描并设定最小支持度(minsup),统计所有单个元素的支持度,删除不满足给定的最小支持度的元素,将1项频繁集放入项头表,并按照支持度降序排列,构造频繁1项集。
S2:将读到的原始数据剔除非频繁1项集,并按照支持度降序排列,实现数据的扫描。
S3:继续读入排序后的数据集,插入FP树,插入时按照排序后的顺序,插入FP树中,排序靠前的节点是祖先节点,而靠后的是子孙节点。如果有共用的祖先,则对应的公用祖先节点计数加1。插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP树后,FP树在模型中建立完成,完成FP-tree的构造。
S4:对频繁项集进行挖掘,其具体包括以下内容:
首先,对FP-tree由叶子节点到根节点的顺序进行遍历,生成每个频繁元素节点的条件模式基(以所查找项为终点的路径集合,表示所查找项与树根节点间的所有路径)。
接着,在设备中生成其对应的条件模式树,生成所有的从根节点到叶子节点的路径,挖掘得到频繁模式与频繁项集并将结果反馈回设备显示屏。
通过上述流程的处理,挖掘获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供更精准的辅助决策。
如图2所示,本发明基于频繁项集算法的电力文本知识发现设备的一种具体实施例:
基于频繁项集算法的电力文本知识发现设备
应用上述的基于频繁项集算法的电力文本知识发现方法;
包括触屏、键盘、USB输入、处理器、电源模块、主存储单元、自然语言处理与信息抽取模块、关联规则挖掘模块,所述自然语言处理与信息抽取模块、关联规则挖掘模块存储在设备内存里;
所述自然语言处理与信息抽取模块,用于对文本数据进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,从而提取出电力设备故障/缺陷文本中的有效数据,并将有效数据存储至主存储单元,形成了电力设备故障诊断数据库;
所述关联规则挖掘模块,用于利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系;同时利用频繁项集算法构造频繁1项集,然后扫描数据,构造FP-tree,再挖掘频繁项集,并将挖掘结果输送到显示屏上进行显示。
所述触屏为10.95英寸2560x1600分辨率的IPS电容式触摸屏;处理器为AMD Ryzen94900HS处理器;主存储单元的内存容量为6G,存储容量为256GB。
本发明提出一种对自然语言自动进行处理与关键信息抽取,最终频繁模式树增长算法的电力文本知识发现设备,方案科学合理、切实可行。
应用本发明方法的一种装置实施例:
一种计算机设备,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的基于频繁项集算法的电力文本知识发现方法。
本申请术语解释:
电力文本
指完整记录了电力设备故障现象、处理过程、解决措施等不同阶段设备故障信息的文本,蕴含了丰富的设备隐含质量问题信息及专家处理经验,在同类设备故障处理时具有较高参考价值。主要包含有:故障案例、处置方案、规范、导则、标准、科研论文等形式。
知识发现
指从数据库中提取出有用的信息,这些信息可能是有用的、容易被理解的、潜在的,并且剔除没有规律的、冗余的数据。其核心是将一个低级别的数据映射成其他形式,这些形式可能是更紧凑的、更有用的、更容易被人理解的。
频繁项集
指在数据集中识别出频繁出现的属性值集,可以为可能的决策提供支持。
关联规则
指是一种基于规则的机器学习方法,用于从某特定数据集中发现其中不同事件之间的隐含对应关系。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.基于频繁项集算法的电力文本知识发现方法,其特征在于,
包括以下步骤:
步骤一,建自然语言处理与信息抽取模型;
所述自然语言处理与信息抽取模型,用于获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,形成电力数据文本;
步骤二,对步骤一中的电力数据文本进行识别抽取,形成电力设备故障诊断数据库;
步骤三,构建关联规则挖掘模型;关联规则挖掘模型采用频繁项集算法构建频繁模式树FP-tree,对步骤二中的电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息;
步骤四,根据步骤三中的关联信息,将电力设备故障诊断数据库中的各数据项按照支持度排序,形成电力数据组;
步骤五,将步骤四中电力数据组中的每个数据项按降序或升序依次插入到频繁模式树FP-tree的节点中,识别出频繁出现的属性值集,同时每个节点处均记录该节点出现的支持度;
步骤六,根据步骤五中的属性值集以及支持度,获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则。
2.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述实体识别包括以下内容:
步骤11,基于深度学习模型,构建神经网络模型并利用神经网络模型将文字符号特征表示为分布式特征信息;
步骤12,利用步骤11中的分布式特征信息,优化网络参数,训练网络模型;
步骤13,利用步骤12中的网络模型对电力文本中的语句实体进行识别。
3.如权利要求2所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述深度学习模型基于双向长短时记忆网络Bi-LSTM以及条件随机场CRF进行构建;
所述双向长短时记忆网络Bi-LSTM包括输入门、遗忘门、输出门,其基于上一时刻的隐藏层信息和本时刻的输入信息计算三个门机制的值,再与上一时刻存储单元中的信息进行整合得到本时刻的单元输出,同时对隐藏层信息和存储单元信息进行更新作为下一时刻双向长短时记忆网络Bi-LSTM的输入;
双向长短时记忆网络Bi-LSTM的计算公式如下:
i=σ(xtUi+st-1Wi)
f=σ(xtUf+st-1Wf)
o=σ(xtUo+st-1Wo)
g=tanh(xtUg+st-1Wg)
ct=ct-1*f+g*i
st=tanh(ct)*o
其中xt表示t时刻网络输入值,st-1表示t-1时刻隐藏层神经元的激活值,C表示记忆单元,U、W分别表示模型参数,σ表示sigmoid激活函数,st表示t时刻LSTM隐藏层的激活值,i、f、o分别表示输入门、遗忘门、输出门。
5.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述分词与词性标注,包括以下内容;
步骤21,根据收集整理好的若干份电力文本整理,得到的电力分词语料库;
步骤22,采用空格的方式,通过深度学习模型,将步骤21中的电力分词语料库的词一一分割出来,并对词进行词性标注;
所述词性为名词或动词或形容词或副词或量词;
所述新词发现基于序列标注方法与基于信息熵进行词挖掘。
6.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述事件单元抽取包括以下内容;
通过对电力文本进行离线挖掘,找出词与词的相近、同义关系,进行词的标准化;
通过分析语言单位内成分之间的依存关系,得到其句法结构;
建立实体/属性/值的链接模型,将电力文本中出现的术语或别名与知识库节点/词典中标准词建立对应关系;
建立属性值抽取模型、属性值推理模型,对给定输入设备的电力文本,识别出电力文本中目标命名实体对应的属性与对应值,抽取出标准化的实体、属性、值三元组,并作为输入信息输入至关联规则挖掘模型。
7.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述频繁项集算法的具体实现过程如下:
S1:构造频繁1项集模型,对电力文本数据集进行扫描并设定最小支持度,统计所有单个元素的支持度,删除不满足给定的最小支持度的元素,将频繁1项集放入项头表,并按照支持度降序排列;
S2:根据S1中的频繁1项集模型,对原始数据进行扫描,剔除非频繁1项集数据,并按照支持度降序排列,形成顺序数据集;
S3:将S2中的顺利数据集按照顺序输入到频繁模式树FP-tree中;
排序靠前的节点是祖先节点,而排序靠后的节点是子孙节点;
如果有共用的祖先,则对应的公用祖先节点计数加1;插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点;直到所有的数据都插入到频繁模式树FP-TREE后,频繁模式树FP-TREE在关联规则挖掘模型中建立完成;
S4:挖掘频繁项集,其包括以下内容:
关联规则挖掘模型对频繁模式树FP-tree由叶子节点到根节点的顺序进行遍历,生成每个频繁元素节点的条件模式基,以所查找项为终点的路径集合,表示所查找项与树根节点间的所有路径;
在关联规则挖掘模型中生成其对应的条件模式树,生成所有的从根节点到叶子节点的路径,挖掘得到频繁模式与频繁项集。
9.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
频繁项集的生成过程包括两个子步骤:连接步和剪枝步;
连接步包括以下内容:
为了产生频繁k项集的集合Lk,首先要找到候选k项集的集合Ck,该集合Ck通过频繁(k-1)项集的集合Lk-1与自身进行连接得到;
集合Lk-1包括l1和l2,
lj中的第i项用lj[i]来表示;
如果它们的前(k-2)个项均相同的话,即满足(l1[1]=l2[1]∧l1[2]=l2[2]∧···∧l1[k-2]=l2[k-2]∧l1[k-1]≠l2[k-1]);
连接l1、l2产生的结果项集即为候选k项集:Ck={l1[1]l1[2]···l1[k-1]l2[k-1]};
剪枝步利用Apriori算法从集合Ck中去掉候选k项集的(k-1)项子集,其具体包括以下内容;
通过扫描数据库得到频繁1项集的集合;用频繁1项集生成候选2项集,再次扫描数据库,找出频繁2项集;按照该步骤进行,直至频繁k项集不能再被找到。
10.基于频繁项集算法的电力文本知识发现设备,其特征在于,
应用如权利要求1-9任一所述的基于频繁项集算法的电力文本知识发现方法;
包括电容式触摸屏、键盘、处理器、电源模块、设备内存、自然语言处理与信息抽取模块、关联规则挖掘模块,所述自然语言处理与信息抽取模块、关联规则挖掘模块存储在设备内存里;
所述自然语言处理与信息抽取模块,用于对文本数据进行归集整合,从而提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库;
所述关联规则挖掘模块,用于利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系;同时利用频繁项集算法构建频繁模式树FP-tree,识别出频繁出现的属性值集以及每个节点处的支持度,获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210542291.1A CN114912435A (zh) | 2022-05-17 | 2022-05-17 | 基于频繁项集算法的电力文本知识发现方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210542291.1A CN114912435A (zh) | 2022-05-17 | 2022-05-17 | 基于频繁项集算法的电力文本知识发现方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114912435A true CN114912435A (zh) | 2022-08-16 |
Family
ID=82768557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210542291.1A Pending CN114912435A (zh) | 2022-05-17 | 2022-05-17 | 基于频繁项集算法的电力文本知识发现方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114912435A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858635A (zh) * | 2023-02-27 | 2023-03-28 | 国网江西省电力有限公司电力科学研究院 | 一种基于自然语言处理的短路冲击自动诊断方法 |
CN116562260A (zh) * | 2023-07-07 | 2023-08-08 | 湖南视觉伟业智能科技有限公司 | 一种文本信息处理方法及处理系统 |
CN116882978A (zh) * | 2023-08-01 | 2023-10-13 | 中国船舶科学研究中心 | 一种基于产品信息框架的深海潜水器运维保障平台 |
CN118133065A (zh) * | 2024-05-07 | 2024-06-04 | 北京国网信通埃森哲信息技术有限公司 | 一种电力数据要素的关联处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159428A (zh) * | 2019-12-30 | 2020-05-15 | 智慧神州(北京)科技有限公司 | 经济领域知识图谱事件关系自动抽取的方法和装置 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN112732934A (zh) * | 2021-01-11 | 2021-04-30 | 国网山东省电力公司电力科学研究院 | 电网设备分词词典和故障案例库构建方法 |
CN114461784A (zh) * | 2022-01-18 | 2022-05-10 | 中国科学院大学 | 一种非结构化设备故障知识的分类及知识萃取方法 |
-
2022
- 2022-05-17 CN CN202210542291.1A patent/CN114912435A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159428A (zh) * | 2019-12-30 | 2020-05-15 | 智慧神州(北京)科技有限公司 | 经济领域知识图谱事件关系自动抽取的方法和装置 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN112732934A (zh) * | 2021-01-11 | 2021-04-30 | 国网山东省电力公司电力科学研究院 | 电网设备分词词典和故障案例库构建方法 |
CN114461784A (zh) * | 2022-01-18 | 2022-05-10 | 中国科学院大学 | 一种非结构化设备故障知识的分类及知识萃取方法 |
Non-Patent Citations (1)
Title |
---|
潘磊: "基于FP-Growth 的电力系统故障预测方法", 《软件导刊》, vol. 19, no. 10, 31 October 2020 (2020-10-31), pages 152 - 154 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858635A (zh) * | 2023-02-27 | 2023-03-28 | 国网江西省电力有限公司电力科学研究院 | 一种基于自然语言处理的短路冲击自动诊断方法 |
CN116562260A (zh) * | 2023-07-07 | 2023-08-08 | 湖南视觉伟业智能科技有限公司 | 一种文本信息处理方法及处理系统 |
CN116562260B (zh) * | 2023-07-07 | 2023-10-03 | 湖南视觉伟业智能科技有限公司 | 一种文本信息处理方法及处理系统 |
CN116882978A (zh) * | 2023-08-01 | 2023-10-13 | 中国船舶科学研究中心 | 一种基于产品信息框架的深海潜水器运维保障平台 |
CN116882978B (zh) * | 2023-08-01 | 2024-04-09 | 中国船舶科学研究中心 | 一种基于产品信息框架的深海潜水器运维保障系统 |
CN118133065A (zh) * | 2024-05-07 | 2024-06-04 | 北京国网信通埃森哲信息技术有限公司 | 一种电力数据要素的关联处理方法及装置 |
CN118133065B (zh) * | 2024-05-07 | 2024-07-16 | 北京国网信通埃森哲信息技术有限公司 | 一种电力数据要素的关联处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114912435A (zh) | 基于频繁项集算法的电力文本知识发现方法及设备 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108874878A (zh) | 一种知识图谱的构建系统及方法 | |
US20220004545A1 (en) | Method of searching patent documents | |
Jain et al. | Query2vec: An evaluation of NLP techniques for generalized workload analytics | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN110633366A (zh) | 一种短文本分类方法、装置和存储介质 | |
CN113779272A (zh) | 基于知识图谱的数据处理方法、装置、设备及存储介质 | |
US20210397790A1 (en) | Method of training a natural language search system, search system and corresponding use | |
CN113742493A (zh) | 一种病理知识图谱的构建方法及装置 | |
CN112347271A (zh) | 基于文字语义识别的配电物联网设备缺陷辅助录入方法 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN116108191A (zh) | 一种基于知识图谱的深度学习模型推荐方法 | |
Ribeiro et al. | Discovering IMRaD structure with different classifiers | |
CN113742396B (zh) | 一种对象学习行为模式的挖掘方法及装置 | |
CN117743593A (zh) | 基于知识图谱的设备在线辅助维修方法及系统 | |
CN113392183A (zh) | 一种儿童范畴图谱知识的表征与计算方法 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN116244277A (zh) | 一种nlp识别与知识库构建方法及系统 | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network | |
Zhu et al. | A Text Classification Algorithm for Power Equipment Defects Based on Random Forest | |
Rybak et al. | Machine learning-enhanced text mining as a support tool for research on climate change: theoretical and technical considerations | |
CN113326348A (zh) | 一种博客质量评估方法及工具 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |