CN114912435A - 基于频繁项集算法的电力文本知识发现方法及设备 - Google Patents

基于频繁项集算法的电力文本知识发现方法及设备 Download PDF

Info

Publication number
CN114912435A
CN114912435A CN202210542291.1A CN202210542291A CN114912435A CN 114912435 A CN114912435 A CN 114912435A CN 202210542291 A CN202210542291 A CN 202210542291A CN 114912435 A CN114912435 A CN 114912435A
Authority
CN
China
Prior art keywords
power
frequent
text
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210542291.1A
Other languages
English (en)
Inventor
梅冰笑
蔺家骏
王渊
李晨
王雅雯
陈珉
张强
马国明
邵先军
杨智
金凌峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Smart Grid Research Institute Co ltd
North China Electric Power University
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Smart Grid Research Institute Co ltd
North China Electric Power University
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Smart Grid Research Institute Co ltd, North China Electric Power University, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Smart Grid Research Institute Co ltd
Priority to CN202210542291.1A priority Critical patent/CN114912435A/zh
Publication of CN114912435A publication Critical patent/CN114912435A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于频繁项集算法的电力文本知识发现方法及设备,属于电力设备运维技术领域。本发明的基于频繁项集算法的电力文本知识发现方法,构建自然语言处理与信息抽取模型,获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,使得电力文本分布规律、形式统一,形成电力数据文本。同时,本发明构建关联规则挖掘模型,利用频繁项集算法构建频繁模式树FP‑tree,识别出频繁出现的属性值集以及每个节点处的支持度;从而获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供更精准的辅助决策。

Description

基于频繁项集算法的电力文本知识发现方法及设备
技术领域
本发明涉及基于频繁项集算法的电力文本知识发现方法及设备,属于电力设备运维技术领域。
背景技术
由于核心电力设备和输电重要线路,其安全运行对整个电力系统的安全至关重要,尤其是运维管理要求高、安全运维责任重大,检修作业的专业化程度高,数据采集工作量也很大。目前针对输变电设备和线路运行数据的采集分析应用还处于初级阶段,前期梳理的设备故障知识库主要以非结构化的形式管理存储,应用较为困难,且尚未结合设备线路的相关规程和案例处置信息,无法实现智能信息检索和推荐,难以有效帮助设备和线路异常监测,以及故障诊断。
发明内容
针对现有技术的缺陷,本发明的目的一在于提供一种构建自然语言处理与信息抽取模型,获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,使得电力文本分布规律、形式统一,形成电力数据文本,进而能够整合提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库;同时,构建关联规则挖掘模型,利用频繁项集算法构建频繁模式树FP-tree,对电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息,进而识别出频繁出现的属性值集以及每个节点处的支持度;从而获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供更精准的辅助决策的电力文本知识发现方法。
本发明的目的二在于提供一种通过自然语言处理与信息抽取模块进行文本数据进行归集整合,从而提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库;同时利用关联规则挖掘模块利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,建立映射关系;进而利用FP-growth频繁项集挖掘的技术,解决了传统关联规则挖掘过程中连接较多、占用空间大、运算量大等问题的电力文本知识发现设备。
为实现上述目的之一,本发明的第一种技术方案为:
基于频繁项集算法的电力文本知识发现方法,
包括以下步骤:
步骤一,构建自然语言处理与信息抽取模型;
所述自然语言处理与信息抽取模型,用于获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理;
步骤二,对步骤一中的电力数据文本进行识别抽取,形成电力设备故障诊断数据库;
步骤三,构建关联规则挖掘模型;关联规则挖掘模型采用频繁项集算法构建频繁模式树FP-tree,对步骤二中的电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息;
步骤四,根据步骤三中的关联信息,将电力设备故障诊断数据库中的各数据项按照支持度排序,形成电力数据组;
步骤五,将步骤四中电力数据组中的每个数据项按降序或升序依次插入到频繁模式树FP-tree的节点中,识别出频繁出现的属性值集,同时每个节点处均记录该节点出现的支持度;
步骤六,根据步骤五中的属性值集以及支持度,获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则。
本发明经过不断探索以及试验,构建自然语言处理与信息抽取模型,获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,使得电力文本分布规律、形式统一,形成电力数据文本,进而能够整合提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库。
同时,本发明构建关联规则挖掘模型,利用频繁项集算法构建频繁模式树FP-tree,对电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息,进而识别出频繁出现的属性值集以及每个节点处的支持度;从而获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供更精准的辅助决策。
进一步,本发明利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系,将原有的知识结构从非结构化电力文本形式升级为以知识元组的形式进行结构化存储;同时基于FP-growth频繁项集挖掘的技术,解决了传统关联规则挖掘过程中连接较多、占用空间大、运算量大的问题。
更进一步,本发明特别适用于变电现场,用于辅助运检人员对电力设备运行状态进行辅助诊断与决策的系统,能够快速准确地判断出故障部位及原因,加快站内设备故障处理进度,有效提高基层人员作业效率;进一步本发明能有效结合设备线路的相关规程和案例处置信息,实现智能信息检索和推荐,可以有效的进行设备和线路的异常监测,以及故障诊断,方案科学、合理,切实可行。
作为优选技术措施:
所述实体识别包括以下内容:
步骤11,基于深度学习模型,构建神经网络模型并利用神经网络模型将文字符号特征表示为分布式特征信息;
步骤12,利用步骤11中的分布式特征信息,优化网络参数,训练网络模型;
步骤13,利用步骤12中的网络模型对电力文本中的语句实体进行识别。
作为优选技术措施:
所述深度学习模型基于双向长短时记忆网络Bi-LSTM以及条件随机场CRF进行构建;
所述双向长短时记忆网络Bi-LSTM包括输入门、遗忘门、输出门,其基于上一时刻的隐藏层信息和本时刻的输入信息计算三个门机制的值,再与上一时刻存储单元中的信息进行整合得到本时刻的单元输出,同时对隐藏层信息和存储单元信息进行更新作为下一时刻双向长短时记忆网络Bi-LSTM的输入;
双向长短时记忆网络Bi-LSTM的计算公式如下:
i=σ(xtUi+st-1Wi)
f=σ(xtUf+st-1Wf)
o=σ(xtUo+st-1Wo)
g=tanh(xtUg+st-1Wg)
ct=ct-1*f+g*i
st=tanh(ct)*o
其中xt表示t时刻网络输入值,st-1表示t-1时刻隐藏层神经元的激活值,C表示记忆单元,U、W分别表示模型参数,σ表示sigmoid激活函数,st表示t时刻LSTM隐藏层的激活值,i、f、o分别表示输入门、遗忘门、输出门。
作为优选技术措施:
所述条件随机场CRF基于隐马尔可夫模型和最大熵模型进行构建,其计算公式如下:
Figure BDA0003648715200000031
Figure BDA0003648715200000032
其中,x为输入电力文本序列,y为实体标注序列,P(y/x)为给定x条件下输出序列y的条件概率分布,sl(yi,x,i)为状态特征函数,tk(yi-1,yi,x,i),Z(x)为规范因子。
作为优选技术措施:
所述分词与词性标注,包括以下内容;
步骤21,根据收集整理好的若干份电力文本整理,得到的电力分词语料库;
步骤22,采用空格的方式,通过深度学习模型,将步骤21中的电力分词语料库的词一一分割出来,并对词进行词性标注;
所述词性为名词或动词或形容词或副词或量词;
所述新词发现基于序列标注方法与基于信息熵进行词挖掘。
作为优选技术措施:
所述事件单元抽取包括以下内容;
通过对电力文本进行离线挖掘,找出词与词的相近、同义关系,进行词的标准化;
通过分析语言单位内成分之间的依存关系,得到其句法结构;
建立实体/属性/值的链接模型,将电力文本中出现的术语或别名与知识库节点/词典中标准词建立对应关系;
建立属性值抽取模型、属性值推理模型,对给定输入设备的电力文本,识别出电力文本中目标命名实体对应的属性与对应值,抽取出标准化的实体、属性、值三元组,并作为输入信息输入至关联规则挖掘模型。
作为优选技术措施:
所述频繁项集算法的具体实现过程如下:
S1:构造频繁1项集模型,对电力文本数据集进行扫描并设定最小支持度,统计所有单个元素的支持度,删除不满足给定的最小支持度的元素,将频繁1项集放入项头表,并按照支持度降序排列;
S2:根据S1中的频繁1项集模型,对原始数据进行扫描,剔除非频繁1项集数据,并按照支持度降序排列,形成顺序数据集;
S3:将S2中的顺利数据集按照顺序输入到频繁模式树FP-tree中;
排序靠前的节点是祖先节点,而排序靠后的节点是子孙节点;
如果有共用的祖先,则对应的公用祖先节点计数加1;插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点;直到所有的数据都插入到频繁模式树FP-TREE后,频繁模式树FP-TREE在关联规则挖掘模型中建立完成;
S4:挖掘频繁项集,其包括以下内容:关联规则挖掘模型对频繁模式树FP-tree由叶子节点到根节点的顺序进行遍历,生成每个频繁元素节点的条件模式基,以所查找项为终点的路径集合,表示所查找项与树根节点间的所有路径;
在关联规则挖掘模型中生成其对应的条件模式树,生成所有的从根节点到叶子节点的路径,挖掘得到频繁模式与频繁项集。
作为优选技术措施:
关联规则挖掘模型的评估标准,包括支持度、置信度以及提升度;
所述支持度为几个关联的数据在数据集中出现的次数占总数据集的比重,其计算公式如下;
Figure BDA0003648715200000051
置信度的计算公式如下:
Figure BDA0003648715200000052
提升度的计算公式如下:
Figure BDA0003648715200000053
关联规则挖掘的任务在于挖掘出支持度和置信度分别大于或者等于最小支持度及其最小置信度的关联规则。
作为优选技术措施:
关联规则挖掘过程的核心部分是频繁项集的生成过程。
频繁项集的生成过程包括两个子步骤:连接步和剪枝步;
连接步包括以下内容:
为了产生频繁k项集的集合Lk,首先要找到候选k项集的集合Ck,该集合Ck通过频繁(k-1)项集的集合Lk-1与自身进行连接得到;
集合Lk-1包括l1和l2
lj中的第i项用lj[i]来表示;
如果它们的前(k-2)个项均相同的话,即满足(l1[1]=l2[1]∧l1[2]=l2[2]∧···∧l1[k-2]=l2[k-2]∧l1[k-1]≠l2[k-1]);
连接l1、l2产生的结果项集即为候选k项集:Ck={l1[1]l1[2]···l1[k-1]l2[k-1]};
由于候选项集并不是所有的项集都是频繁的,因此需要利用剪枝步减小搜索空间。
剪枝步利用Apriori算法从集合Ck中去掉候选k项集的(k-1)项子集,其具体包括以下内容;
通过扫描数据库得到频繁1项集的集合,用频繁1项集生成候选2项集,再次扫描数据库,找出频繁2项集;按照该步骤进行,直至频繁k项集不能再被找到。
为实现上述目的之一,本发明的第二种技术方案为:
基于频繁项集算法的电力文本知识发现设备,
应用上述的基于频繁项集算法的电力文本知识发现方法;
包括电容式触摸屏、键盘、处理器、电源模块、设备内存、自然语言处理与信息抽取模块、关联规则挖掘模块,所述自然语言处理与信息抽取模块、关联规则挖掘模块存储在设备内存里;
所述自然语言处理与信息抽取模块,用于对文本数据进行归集整合,从而提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库;
所述关联规则挖掘模块,用于利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系;同时利用频繁项集算法构建频繁模式树FP-tree,识别出频繁出现的属性值集以及每个节点处的支持度,获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则。
本发明针对根据电力文本内容进行电力设备故障自动诊断问题,提供了一种基于频繁项集算法的电力文本知识发现系统,通过自然语言处理与信息抽取模块进行文本数据进行归集整合,从而提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库。
进一步,本发明关联规则挖掘模块利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系;进而利用FP-growth频繁项集挖掘的技术,解决了传统关联规则挖掘过程中连接较多、占用空间大、运算量大的问题。
更进一步,本发明特别适用于变电现场,用于辅助运检人员对电力设备运行状态进行辅助诊断与决策的系统,能够快速准确地判断出故障部位及原因,加快站内设备故障处理进度,有效提高基层人员作业效率;进一步本发明能有效结合设备线路的相关规程和案例处置信息,实现智能信息检索和推荐,可以有效的进行设备和线路的异常监测,以及故障诊断,方案科学、合理,切实可行。
与现有技术相比,本发明具有以下有益效果:
本发明经过不断探索以及试验,构建自然语言处理与信息抽取模型,获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,使得电力文本分布规律、形式统一,形成电力数据文本,进而能够整合提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库。
同时,本发明构建关联规则挖掘模型,利用频繁项集算法构建频繁模式树FP-tree,对电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息,进而识别出频繁出现的属性值集以及每个节点处的支持度;从而获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供更精准的辅助决策。
进一步,本发明利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系,将原有的知识结构从非结构化电力文本形式升级为以知识元组的形式进行结构化存储;同时基于FP-growth频繁项集挖掘的技术,解决了传统关联规则挖掘过程中连接较多、占用空间大、进而本发明能有效结合设备线路的相关规程和案例处置信息,实现智能信息检索和推荐,可以有效的进行设备和线路的异常监测,以及故障诊断,方案科学、合理,切实可行。
更进一步,本发明特别适用于变电现场,用于辅助运检人员对电力设备运行状态进行辅助诊断与决策的系统,能够快速准确地判断出故障部位及原因,加快站内设备故障处理进度,有效提高基层人员作业效率。
附图说明
图1为本发明关联规则挖掘模型运行流程图;
图2为本发明基于频繁项集算法的电力文本知识发现设备框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。
如图1所示,本发明基于频繁项集算法的电力文本知识发现方法的一种具体实施例:
基于频繁项集算法的电力文本知识发现方法,
步骤一,根据电力文件分布杂散、形式不统一的特点,构建自然语言处理与信息抽取模型;
所述自然语言处理与信息抽取模型,获取电力文本句法结构知识并构建本体字典,对电力文本进行分词与词性标注、实体识别、新词发现以及事件单元抽取处理,使得电力文本分布规律、形式统一,形成电力数据文本;
步骤二,对步骤一中的电力数据文本进行识别抽取,形成电力设备故障诊断数据库;
步骤三,构建关联规则挖掘模型;关联规则挖掘模型采用频繁项集算法构建频繁模式树FP-tree,对步骤二中的电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息;
步骤四,根据步骤三中的关联信息,将电力设备故障诊断数据库中的各数据项按照支持度排序,形成电力数据组;
步骤五,将步骤四中电力数据组中的每个数据项按降序或升序依次插入到频繁模式树FP-tree的节点中,识别出频繁出现的属性值集,同时每个节点处均记录该节点出现的支持度;
步骤六,根据步骤五中的属性值集以及支持度,获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供的辅助决策。
本发明自然语言处理与信息抽取模型的一种具体实施例:
电力文本中信息具有数据量巨大且数据类型众多的特点,但受限于数据分布杂散、形式不统一的问题,难以直接对电力文本信息开展机器学习,高效发现其中蕴含的丰富知识。因此收集整合数据对知识发现的开展具有重要意义。
自然语言处理与信息抽取模型首先对经过键盘、触屏或是USB录入的电力文本进行处理,获取文本句法结构知识并构建本体字典。这是电力文本知识发现的基础,自然语言处理与信息抽取模型处理电力文本主要分为四个步骤:实体识别、分词与词性标注、新词发现以及事件单元抽取。
实体识别包括以下内容:
首先,本发明设备基于深度学习的方法,设计和搭建神经网络模型并利用其将文字符号特征表示为分布式特征信息。接着,利用标注数据,优化网络参数,训练网络模型。最后利用训练好的模型对句子中的实体进行识别。本发明设备采用业界比较主流的Bi-LSTM+CRF的模型进行深度学习,LSTM单元包括输入门、遗忘门、输出门,是基于上一时刻的隐藏层信息和本时刻的输入信息计算三个门机制的值,再与上一时刻存储单元中的信息进行整合得到本时刻的单元输出,同时对隐藏层信息和存储单元信息进行更新作为下一时刻LSTM单元的输入。LSTM的计算过程如下:
i=σ(xtUi+st-1Wi)
f=σ(xtUf+st-1Wf)
o=σ(xtUo+st-1Wo)
g=tanh(xtUg+st-1Wg)
ct=ct-1*f+g*i
st=tanh(ct)*o
其中xt表示t时刻网络输入值,st-1表示t-1时刻隐藏层神经元的激活值,C表示记忆单元,U、W都是模型参数,σ表示sigmoid激活函数,st是t时刻LSTM隐藏层的激活值,i、f、o分别表示输入门、遗忘门、输出门。
CRF结合了隐马尔可夫模型和最大熵模型的特点,同时考虑了词语本身及上下文特征还加入了词典等外部特征,提升了模型的实体识别效果,一般采用线性链条件随机场,计算过程如下:
Figure BDA0003648715200000091
Figure BDA0003648715200000092
其中x为输入文本序列,y为实体标注序列,P(y|x)为给定x条件下输出序列y的条件概率分布,sl(yi,x,i)为状态特征函数,tk(yi-1,yi,x,i),Z(x)为规范因子。
分词与词性标注包括以下内容:
借助收集整理好的788份电力文本整理得到的电力分词语料库,采用空格的方式,借助深度学习算法,将短句中的词一个一个的分割出来,并对词进行词性标注,如:名词、动词、形容词、副词、量词等。
新词发现包括以下内容:
新词发现是词挖掘结果中去除已知的、不关心的词后,未能通过已有分词方法成功切分出来的词。比如:"烧坏选择器静触头"的分词结果为"烧坏选择器静触头"。其中,"静触头"应该被作为一个词,却被切成了多个词,失去了原有的语义。本发明设备采用基于序列标注方法与基于信息熵的新词发现算法解决此问题。
事件单元抽取包括以下内容:
首先,通过对大量文本进行离线挖掘,找出词与词的相近、同义关系,为词的标准化打下基础。其次,通过分析语言单位内成分之间的依存关系,揭示其句法结构。再次,建立实体/属性/值的链接模型,将文档中出现的术语或别名与知识库节点/词典中标准词建立对应关系。最后,建立属性值抽取模型、属性值推理模型,对给定输入设备的文本,识别出文本中目标命名实体对应的属性与对应值,抽取出标准化的实体、属性、值三元组,并作为输入信息输入至关联规则挖掘模块。
通过上述流程的处理,可以有效解决数据分布杂散、形式不统一的问题,实现电力文本信息的识别抽取,形成电力设备故障诊断数据库,存储于设备的主存储单元中。
本发明关联规则挖掘模型的一种具体实施例:
关联规则挖掘模型采用FP-growth算法进行构建,其实现流程为:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree)中,但保留频繁项集的关联信息。FP-tree将数据库中的各数据项按照支持度排序,把每个数据项按降序依次插入到树的节点中,同时每个结点处均记录有该结点出现的支持度。
FP-growth算法具体实现过程如下:
S1:对主存储单元中的电力文本数据集进行扫描并设定最小支持度(minsup),统计所有单个元素的支持度,删除不满足给定的最小支持度的元素,将1项频繁集放入项头表,并按照支持度降序排列,构造频繁1项集。
S2:将读到的原始数据剔除非频繁1项集,并按照支持度降序排列,实现数据的扫描。
S3:继续读入排序后的数据集,插入FP树,插入时按照排序后的顺序,插入FP树中,排序靠前的节点是祖先节点,而靠后的是子孙节点。如果有共用的祖先,则对应的公用祖先节点计数加1。插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP树后,FP树在模型中建立完成,完成FP-tree的构造。
S4:对频繁项集进行挖掘,其具体包括以下内容:
首先,对FP-tree由叶子节点到根节点的顺序进行遍历,生成每个频繁元素节点的条件模式基(以所查找项为终点的路径集合,表示所查找项与树根节点间的所有路径)。
接着,在设备中生成其对应的条件模式树,生成所有的从根节点到叶子节点的路径,挖掘得到频繁模式与频繁项集并将结果反馈回设备显示屏。
通过上述流程的处理,挖掘获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则,发现电力文本中蕴含的知识,为电力设备故障诊断提供更精准的辅助决策。
如图2所示,本发明基于频繁项集算法的电力文本知识发现设备的一种具体实施例:
基于频繁项集算法的电力文本知识发现设备
应用上述的基于频繁项集算法的电力文本知识发现方法;
包括触屏、键盘、USB输入、处理器、电源模块、主存储单元、自然语言处理与信息抽取模块、关联规则挖掘模块,所述自然语言处理与信息抽取模块、关联规则挖掘模块存储在设备内存里;
所述自然语言处理与信息抽取模块,用于对文本数据进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,从而提取出电力设备故障/缺陷文本中的有效数据,并将有效数据存储至主存储单元,形成了电力设备故障诊断数据库;
所述关联规则挖掘模块,用于利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系;同时利用频繁项集算法构造频繁1项集,然后扫描数据,构造FP-tree,再挖掘频繁项集,并将挖掘结果输送到显示屏上进行显示。
所述触屏为10.95英寸2560x1600分辨率的IPS电容式触摸屏;处理器为AMD Ryzen94900HS处理器;主存储单元的内存容量为6G,存储容量为256GB。
本发明提出一种对自然语言自动进行处理与关键信息抽取,最终频繁模式树增长算法的电力文本知识发现设备,方案科学合理、切实可行。
应用本发明方法的一种装置实施例:
一种计算机设备,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的基于频繁项集算法的电力文本知识发现方法。
本申请术语解释:
电力文本
指完整记录了电力设备故障现象、处理过程、解决措施等不同阶段设备故障信息的文本,蕴含了丰富的设备隐含质量问题信息及专家处理经验,在同类设备故障处理时具有较高参考价值。主要包含有:故障案例、处置方案、规范、导则、标准、科研论文等形式。
知识发现
指从数据库中提取出有用的信息,这些信息可能是有用的、容易被理解的、潜在的,并且剔除没有规律的、冗余的数据。其核心是将一个低级别的数据映射成其他形式,这些形式可能是更紧凑的、更有用的、更容易被人理解的。
频繁项集
指在数据集中识别出频繁出现的属性值集,可以为可能的决策提供支持。
关联规则
指是一种基于规则的机器学习方法,用于从某特定数据集中发现其中不同事件之间的隐含对应关系。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.基于频繁项集算法的电力文本知识发现方法,其特征在于,
包括以下步骤:
步骤一,建自然语言处理与信息抽取模型;
所述自然语言处理与信息抽取模型,用于获取电力文本句法结构知识并构建本体字典,对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理,形成电力数据文本;
步骤二,对步骤一中的电力数据文本进行识别抽取,形成电力设备故障诊断数据库;
步骤三,构建关联规则挖掘模型;关联规则挖掘模型采用频繁项集算法构建频繁模式树FP-tree,对步骤二中的电力设备故障诊断数据库进行压缩,并保留频繁项集的关联信息;
步骤四,根据步骤三中的关联信息,将电力设备故障诊断数据库中的各数据项按照支持度排序,形成电力数据组;
步骤五,将步骤四中电力数据组中的每个数据项按降序或升序依次插入到频繁模式树FP-tree的节点中,识别出频繁出现的属性值集,同时每个节点处均记录该节点出现的支持度;
步骤六,根据步骤五中的属性值集以及支持度,获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则。
2.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述实体识别包括以下内容:
步骤11,基于深度学习模型,构建神经网络模型并利用神经网络模型将文字符号特征表示为分布式特征信息;
步骤12,利用步骤11中的分布式特征信息,优化网络参数,训练网络模型;
步骤13,利用步骤12中的网络模型对电力文本中的语句实体进行识别。
3.如权利要求2所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述深度学习模型基于双向长短时记忆网络Bi-LSTM以及条件随机场CRF进行构建;
所述双向长短时记忆网络Bi-LSTM包括输入门、遗忘门、输出门,其基于上一时刻的隐藏层信息和本时刻的输入信息计算三个门机制的值,再与上一时刻存储单元中的信息进行整合得到本时刻的单元输出,同时对隐藏层信息和存储单元信息进行更新作为下一时刻双向长短时记忆网络Bi-LSTM的输入;
双向长短时记忆网络Bi-LSTM的计算公式如下:
i=σ(xtUi+st-1Wi)
f=σ(xtUf+st-1Wf)
o=σ(xtUo+st-1Wo)
g=tanh(xtUg+st-1Wg)
ct=ct-1*f+g*i
st=tanh(ct)*o
其中xt表示t时刻网络输入值,st-1表示t-1时刻隐藏层神经元的激活值,C表示记忆单元,U、W分别表示模型参数,σ表示sigmoid激活函数,st表示t时刻LSTM隐藏层的激活值,i、f、o分别表示输入门、遗忘门、输出门。
4.如权利要求3所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述条件随机场CRF基于隐马尔可夫模型和最大熵模型进行构建,其计算公式如下:
Figure FDA0003648715190000021
Figure FDA0003648715190000022
其中,x为输入电力文本序列,y为实体标注序列,P(y/x)为给定x条件下输出序列y的条件概率分布,si(yi,x,i)为状态特征函数,tk(yi-1,yi,x,i),Z(x)为规范因子。
5.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述分词与词性标注,包括以下内容;
步骤21,根据收集整理好的若干份电力文本整理,得到的电力分词语料库;
步骤22,采用空格的方式,通过深度学习模型,将步骤21中的电力分词语料库的词一一分割出来,并对词进行词性标注;
所述词性为名词或动词或形容词或副词或量词;
所述新词发现基于序列标注方法与基于信息熵进行词挖掘。
6.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述事件单元抽取包括以下内容;
通过对电力文本进行离线挖掘,找出词与词的相近、同义关系,进行词的标准化;
通过分析语言单位内成分之间的依存关系,得到其句法结构;
建立实体/属性/值的链接模型,将电力文本中出现的术语或别名与知识库节点/词典中标准词建立对应关系;
建立属性值抽取模型、属性值推理模型,对给定输入设备的电力文本,识别出电力文本中目标命名实体对应的属性与对应值,抽取出标准化的实体、属性、值三元组,并作为输入信息输入至关联规则挖掘模型。
7.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
所述频繁项集算法的具体实现过程如下:
S1:构造频繁1项集模型,对电力文本数据集进行扫描并设定最小支持度,统计所有单个元素的支持度,删除不满足给定的最小支持度的元素,将频繁1项集放入项头表,并按照支持度降序排列;
S2:根据S1中的频繁1项集模型,对原始数据进行扫描,剔除非频繁1项集数据,并按照支持度降序排列,形成顺序数据集;
S3:将S2中的顺利数据集按照顺序输入到频繁模式树FP-tree中;
排序靠前的节点是祖先节点,而排序靠后的节点是子孙节点;
如果有共用的祖先,则对应的公用祖先节点计数加1;插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点;直到所有的数据都插入到频繁模式树FP-TREE后,频繁模式树FP-TREE在关联规则挖掘模型中建立完成;
S4:挖掘频繁项集,其包括以下内容:
关联规则挖掘模型对频繁模式树FP-tree由叶子节点到根节点的顺序进行遍历,生成每个频繁元素节点的条件模式基,以所查找项为终点的路径集合,表示所查找项与树根节点间的所有路径;
在关联规则挖掘模型中生成其对应的条件模式树,生成所有的从根节点到叶子节点的路径,挖掘得到频繁模式与频繁项集。
8.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
关联规则挖掘模型的评估标准,包括支持度、置信度以及提升度;
所述支持度为几个关联的数据在数据集中出现的次数占总数据集的比重,其计算公式如下;
Figure FDA0003648715190000041
置信度的计算公式如下:
Figure FDA0003648715190000042
提升度的计算公式如下:
Figure FDA0003648715190000043
关联规则挖掘的任务在于挖掘出支持度和置信度分别大于或者等于最小支持度及其最小置信度的关联规则。
9.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法,其特征在于,
频繁项集的生成过程包括两个子步骤:连接步和剪枝步;
连接步包括以下内容:
为了产生频繁k项集的集合Lk,首先要找到候选k项集的集合Ck,该集合Ck通过频繁(k-1)项集的集合Lk-1与自身进行连接得到;
集合Lk-1包括l1和l2
lj中的第i项用lj[i]来表示;
如果它们的前(k-2)个项均相同的话,即满足(l1[1]=l2[1]∧l1[2]=l2[2]∧···∧l1[k-2]=l2[k-2]∧l1[k-1]≠l2[k-1]);
连接l1、l2产生的结果项集即为候选k项集:Ck={l1[1]l1[2]···l1[k-1]l2[k-1]};
剪枝步利用Apriori算法从集合Ck中去掉候选k项集的(k-1)项子集,其具体包括以下内容;
通过扫描数据库得到频繁1项集的集合;用频繁1项集生成候选2项集,再次扫描数据库,找出频繁2项集;按照该步骤进行,直至频繁k项集不能再被找到。
10.基于频繁项集算法的电力文本知识发现设备,其特征在于,
应用如权利要求1-9任一所述的基于频繁项集算法的电力文本知识发现方法;
包括电容式触摸屏、键盘、处理器、电源模块、设备内存、自然语言处理与信息抽取模块、关联规则挖掘模块,所述自然语言处理与信息抽取模块、关联规则挖掘模块存储在设备内存里;
所述自然语言处理与信息抽取模块,用于对文本数据进行归集整合,从而提取出电力设备故障/缺陷文本中的有效数据,形成了电力设备故障诊断数据库;
所述关联规则挖掘模块,用于利用关联规则挖掘知识发现技术实现对电力文本数据中文本信息进行有效归类,并建立映射关系;同时利用频繁项集算法构建频繁模式树FP-tree,识别出频繁出现的属性值集以及每个节点处的支持度,获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则。
CN202210542291.1A 2022-05-17 2022-05-17 基于频繁项集算法的电力文本知识发现方法及设备 Pending CN114912435A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210542291.1A CN114912435A (zh) 2022-05-17 2022-05-17 基于频繁项集算法的电力文本知识发现方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210542291.1A CN114912435A (zh) 2022-05-17 2022-05-17 基于频繁项集算法的电力文本知识发现方法及设备

Publications (1)

Publication Number Publication Date
CN114912435A true CN114912435A (zh) 2022-08-16

Family

ID=82768557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210542291.1A Pending CN114912435A (zh) 2022-05-17 2022-05-17 基于频繁项集算法的电力文本知识发现方法及设备

Country Status (1)

Country Link
CN (1) CN114912435A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858635A (zh) * 2023-02-27 2023-03-28 国网江西省电力有限公司电力科学研究院 一种基于自然语言处理的短路冲击自动诊断方法
CN116562260A (zh) * 2023-07-07 2023-08-08 湖南视觉伟业智能科技有限公司 一种文本信息处理方法及处理系统
CN116882978A (zh) * 2023-08-01 2023-10-13 中国船舶科学研究中心 一种基于产品信息框架的深海潜水器运维保障平台

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858635A (zh) * 2023-02-27 2023-03-28 国网江西省电力有限公司电力科学研究院 一种基于自然语言处理的短路冲击自动诊断方法
CN116562260A (zh) * 2023-07-07 2023-08-08 湖南视觉伟业智能科技有限公司 一种文本信息处理方法及处理系统
CN116562260B (zh) * 2023-07-07 2023-10-03 湖南视觉伟业智能科技有限公司 一种文本信息处理方法及处理系统
CN116882978A (zh) * 2023-08-01 2023-10-13 中国船舶科学研究中心 一种基于产品信息框架的深海潜水器运维保障平台
CN116882978B (zh) * 2023-08-01 2024-04-09 中国船舶科学研究中心 一种基于产品信息框架的深海潜水器运维保障系统

Similar Documents

Publication Publication Date Title
Aussenac-Gilles et al. The TERMINAE Method and Platform for Ontology Engineering from Texts.
US10366116B2 (en) Discrepancy curator for documents in a corpus of a cognitive computing system
CN114912435A (zh) 基于频繁项集算法的电力文本知识发现方法及设备
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN108874878A (zh) 一种知识图谱的构建系统及方法
US11074286B2 (en) Automated curation of documents in a corpus for a cognitive computing system
CN108121829A (zh) 面向软件缺陷的领域知识图谱自动化构建方法
US20220004545A1 (en) Method of searching patent documents
Jain et al. Query2vec: An evaluation of NLP techniques for generalized workload analytics
CN113196277A (zh) 用于检索自然语言文档的系统
CN113779272A (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
US20210397790A1 (en) Method of training a natural language search system, search system and corresponding use
CN113742493A (zh) 一种病理知识图谱的构建方法及装置
CN112347271A (zh) 基于文字语义识别的配电物联网设备缺陷辅助录入方法
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
Ribeiro et al. Discovering IMRaD structure with different classifiers
CN113742396B (zh) 一种对象学习行为模式的挖掘方法及装置
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
CN113326348A (zh) 一种博客质量评估方法及工具
CN113392183A (zh) 一种儿童范畴图谱知识的表征与计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination