CN109726246A - 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 - Google Patents
一种基于数据挖掘和可视化的电网事故关联原因回溯方法 Download PDFInfo
- Publication number
- CN109726246A CN109726246A CN201811527424.8A CN201811527424A CN109726246A CN 109726246 A CN109726246 A CN 109726246A CN 201811527424 A CN201811527424 A CN 201811527424A CN 109726246 A CN109726246 A CN 109726246A
- Authority
- CN
- China
- Prior art keywords
- thing
- people
- keyword
- system operation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000007418 data mining Methods 0.000 title claims abstract description 40
- 230000000007 visual effect Effects 0.000 title claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 238000012098 association analyses Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009472 formulation Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000009412 basement excavation Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 239000012141 concentrate Substances 0.000 claims 1
- 230000006855 networking Effects 0.000 claims 1
- 230000009471 action Effects 0.000 abstract description 2
- 238000011835 investigation Methods 0.000 abstract description 2
- 230000001681 protective effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于数据挖掘和可视化的电网事故关联原因回溯方法,属于智能检索领域。该方法包括以下步骤:S1:数据挖掘;S2:事故事件追溯检索;S3:结合词库关联规则展示追溯过程;本发明在电力系统处于运行状态时,如果系统出现问题,保护装置的动作信息就会把故障的有关信息传送给调度中心,通过将故障信息导入到智能分析系统中,建立故障数据挖掘算法,可以对故障的数据进行分析,提取故障特征,再收集历史事故事件数据,再根据这些元素相关联的其他运行信息,进行网状拓扑展示,辅助调度人员进行事故事件的调查,使之成为系统运行人员对电力系统故障进行快速判断和处理的依据。
Description
技术领域
本发明属于智能检索领域,涉及一种基于数据挖掘和可视化的电网事故关联原因回溯方法。
背景技术
目前电网调度运行工作过程中由于缺少具备运行操作指令辅助及对操作结果技术评估等闭环管控功能的支撑工具,不能提前预防故障问题的发生,且在出现设备操作问题,导致设备故障安全事故时,无法直观的对安全事故原因进行追溯,无法对下次同一设备下达指令的操作结果进行技术评估以提供改进措施。另外,在运行操作过程中,系统运行各专业的操作效率及完成的质量,没有量化的考核依据,电网控制和系统运行人员的操作效率不能满足电网快速发展的要求。
发明内容
有鉴于此,本发明的目的在于提供一种基于数据挖掘和可视化的电网事故关联原因回溯方法,通过对事故规律的研究,为事故事件产生的原因进行追踪回溯,为定位问题原因提供辅助,为安全事故定性定级做数据支撑,为安全事故后续处置方案提供参考依据,防止和减少电力事故的发生,不断提高电力安全监督和管理水平,有效持续的降低电网运行安全风险。
为达到上述目的,本发明提供如下技术方案:
一种基于数据挖掘和可视化的电网事故关联原因回溯方法,该方法包括以下步骤:
S1:数据挖掘;
S2:事故事件追溯检索;
S11:对大量的原始数据进行预处理,包括数据的选择和清理,以去除重复或者有冲突的信息;
S12:将对决策有用的数据从数据集中提取出来形成数据样本;
S13:利用数据挖掘的各种方法对数据样本进行挖掘,发现其中隐含的、对决策有用的数据或者数据间的相互关系;
其中,按照电网的业务数据特点和数据挖掘需求,在进行数据分析时采用两种算法模型,即关联和预测;数据挖掘是知识发现中必不可少的一步,知识发现是在这个过程中将原始数据转化为有用信息,由三个部分组成:数据整理、数据挖掘和解释评估;
数据挖掘分为包括六类功能:(1)自动预测趋势和行为;(2)关联分析;(3)分类;(4)聚类;(5)概念描述;(6)偏差检测;
S3:结合词库关联规则展示追溯过程;在电网事故发生后,通过录入相关系统运行设备等信息关键字,经过系统运行词库对相关的系统运行人、物、事,即系统运行操作人员、系统运行设备、系统运行操作动作及其他相关信息进行关联展示;结合图形展示技术以动态图形形式展示电网事故原因追溯过程。
进一步,所述步骤S2具体为:
从系统运行相关系统获取对应的系统运行数据;
从调度信息管理系统DMIS获取设备信息及历史事故信息;
从输配电生产管理系统PMS获取地理位置信息及输配电设备的详细参数;
结合数据挖掘对接收的最新事故信息进行处理、判断故障设备、通过调用典型事故预案并对其进行修正后形成决策方案;
允许调度员通过人机交互的方式干预决策过程,通过排除一些不确定因素来提高事故原因追溯的正确相应。
进一步,所述预处理包括以下步骤:
S111:系统运行内容提取:在得到系统运行文本以后利用基于文本块统计的提取算法获得系统运行文本的文字内容;
S112:分句:句子识别是进行关系抽取的最初步骤,以文本中出现的中英文句号、问号或叹号句子终结符作为句子的分隔符;
S113:分词和词性标注:在这一步中,需要对已分好句的文本进行分词、词性标注与命名实体识别;
S114:系统运行词典构建;在经过上一步的分词标注后,进行词典构建,形成初步的系统运行词典;
S115:语句选择:根据制定的相关规则,筛选出对后续处理可能有价值的句子,过滤掉无关语句,以提高处理效率。
进一步,在所述预处理后,得到标题数据中所有识别为系统运行人、物、事名的词,使用系统运行词典对识别出的系统运行人、物、事进行噪声过滤;对标题数据进行过滤后的系统运行人、物、事两两进行组合得到系统运行人、物、事;
统计所有标题数据中每个系统运行人、物、事的出现频率,系统运行人、物、事的出现频率越高说明在系统运行文本标题中共现的次数越多,两者存在关系的概率越高;通过这种方法过滤掉共现次数较少的无关系统运行人、物、事,减少后续处理的工作量;
对于剩下的共现次数较高的系统运行人、物、事,引人一种关联度计算方法,即上下文式关联;根据两个系统运行人、物、事同时出现在一个系统运行文本标题中作为系统运行人、物、事存在关联的依据,然后基于统计的方法来量化这种关联度,引入两个系统运行实体(pi,pj)的条件概率:
即pi,pj同时出现的标题数目除以pj出现的标题数目;如果系统运行人、物、事间计算出的条件概率较高说明系统运行人、物、事之间的依赖关系较强,将式(2)中的条件概率和系统运行人、物、事共现次数结合来衡量系统运行人、物、事关联度;
asso(Pi,Pj)=w1*P(Pi|Pj)+w2*coor(Pi,Pj) (3)
式(3)计算的系统运行人、物、事的关联度,叫w1和w2分别是式(2)中的条件概率和系统运行人、物、事共现次数所占的权重;最终,将系统运行人、物、事按照式(3)计算的关联度进行排序,取关联度最高的500个系统运行人、物、事用于后续系统运行人、物、事关系提取研究;
在得到可能具有关系系统运行人、物、事以后,需要确定系统运行人、物、事之间的具体关系名,需要挖掘与系统运行人、物、事有关的系统运行文本数据进行分析;本文以系统运行人、物、事pair=(pi,pj)为搜索条件,利用搜索引擎得到系统运行人、物、事的查询结果系统运行文本;将所有词语按照词频排序,词频统计结果表现为长尾特性,即大多数的词出现次数很少,少数的词出现的次数较高,此处过滤掉词频极低的可能是噪声的数据;
利用词频-逆向文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)算法来评估一个词语对于表征系统运行人、物、事关系的重要度;如果某个特征在某个系统运行人、物、事共现的句子中出现的词频较高,并且在其他系统运行人、物、事共现的句子集中很少出现,则认为这个词较能体现系统运行人、物、事的关系;词语对于系统运行人、物、事关系的重要性为wij,如式(4)所示:
wij=tftj×idfj=tfij×ln(N/nj) (4)
其中:tfij的指关键词tj在系统运行人、物、事dj共现的句子中出现的次数,idfi与词tj共现的系统运行人、物、事数量成反比,N表示总的系统运行人、物、事数,nj指与词tj共现的人、物、事数;将按词频过滤后的词语重新按式(4)重要性进行排序,每个人、物、事保留重要性最高的50个词语;
一个包含n个关键词的共现矩阵被定义为:
其中n是关键词的个数,式中C(wi,wj)表示关键词wi、wj的关联度;由式(5)进行计算:
其中:f(wi),f(wj)分别代表词语wi和wj的出现频数,f(wi,wj)代表wi和wj共同出现在一个窗口的次数;参数p是一个可调的参数并且它的值在实数范围内;取p=50,式(6)显示词语之间的关联度量是由词语的共现频率和单个的出现频率所决定的;
设M是得到的词语共现矩阵,关键词集合是W,Wi表示第i个关键理,M转化成对应的关键词关联网络图G的定义为:
G={V,E} (7)
其中:V表示图G的顶点集;Vi表示V中第i个顶点;V与W中元素一一对应,即Vi对应Wi;E表示图G的边集;如果2个顶点的关联度大于一定的阈值,则在这2个顶点之间添加一条无向边,即:
E={(Vi,Vj)|Vi,Vj∈V,Sim(Vi,Vj)>β}={(Vi,Vj)|Vi,Vj∈V,Wi,Wj∈W,Sim(Vi,Vj)>β} (8)
其中,0<β<1,β越大,词语之间的关联的要求越严格,则图G越稀疏;设置的β值为所有计算出的关键词关联度的中位数的T倍,将比较T值的选取对最终结果的影响;
关键词关联网络建立完成以后,需要对关联网络进行分析以发现系统运行人、物、事关系;表示系统运行人、物、事关系的关键词与系统运行人、物、事会存在频繁的共现关系,而且在关键词关联网络中处于核心的位置,通过图聚类的方式找到系统运行人、物、事关系;使用基于团clique的图聚类方法,检测出关联网络中所有固定大小的clique;每个clique中包含若干个关键词,这些关键词在关联网络中都有边相连;在关键词关联网络建立以后,使用复杂网络分析工具NetworkX中的find_cliques()函数查找关键词关联网络中的所有clique;
为利用识别出的clique挖掘系统运行人、物、事的关系词,构建clique之间的关联;关联网络中检测出的clique之间往往会存在共同的关键词;clique间的共同出现关键词组成集合V={w1,w2,……,wm},共包含m个关键词;以每个clique作为节点,clique之间的共现关键词为边的来建立clique关联图G;
在clique关联图G建立完成后,在关联图G上进行分析以挖掘在系统运行人、物、事关联上重要性最高的关键词;关键词k在clique关联图G中越多的边中出现,说明该关键词是关联图G很多clique都包含该关键词,则关键词k对于识别系统运行人、物、事关系重要性越高;
为识别系统运行人、物、事(pi,pj)之间的关系,对clique关联图G中所有边上的关键词统计每个关键词在图中出现的边数;假设集合V中的某个关键词k在图中边上出现的次数为fqk,TF-IDF(Term Frequency-lnverse Document Frequency)计算出的关键词权重wk.最终关键词k对于系统运行人、物、事的重要性为Weightk:
Weightk=wk×fqk (9)
对于集合V中的所有关键词按照式(9)计算的结果进行排序,最后取集合V中所有词语中计算结果最高的词语作为系统运行人、物、事的关系词。
本发明的有益效果在于:
(1)事故事件回溯分析方面:电力系统处于运行状态时,如果系统出现问题,保护装置的动作信息就会把故障的有关信息传送给调度中心,通过将故障信息导入到智能分析系统中,建立故障数据挖掘算法,可以对故障的数据进行分析,提取故障特征,再收集历史事故事件数据,结合PMS台帐信息、EMS的设备关联数据、组织人员结构、天气因素、故障信息、操作日志、操作票、工作票等信息,按照一定规则串联起来形成拓扑结构,根据某一个历史事故事件,追溯查找出相关设备、人员、自然因素等元素,再根据这些元素相关联的其他运行信息,进行网状拓扑展示,辅助调度人员进行事故事件的调查,使之成为系统运行人员对电力系统故障进行快速判断和处理的依据。
(2)设备运行状态预测方面:通过对电网设备的运行状态进行监测,收集状态信息进行分析预测,以便及时发现并且解决问题,从而提高设备的可靠性,降低设备维护成本。
(3)市场发展趋势研判方面:通过对电力用户的特征进行合理分析,将市场分为群组,分析用户的用电特征,能够有效预测短期内的市场需求,从而为市场发展趋势决策提供数据依据。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为历史事故故障原因追溯流程图;
图2为电力生产事故分析数据挖掘过程;
图3为横向拓扑图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
1数据挖掘技术
数据挖掘技术是一种新型的信息处理技术,它将数据的使用,由低层次的联机查询,提升到了一个新的高度,即分析预测、决策支持等高等应用。数据挖掘能够对数据进行微观、宏观的统计分析,并且对数据关系进行综合推理,寻找数据之间存在的关联性、发展趋势等。包含以下流程:
1)对大量的原始数据进行预处理,主要包括数据的选择和清理,以去除重复或者有冲突的信息。
2)将对决策有用的数据从数据集中提取出来形成数据样本。
3)利用数据挖掘的各种方法对数据样本进行挖掘,发现其中隐含的、对决策有用的数据或者数据间的相互关系。
1.2电网数据智能分析数据挖掘算法模型
按照电网的业务数据特点和数据挖掘需求,在进行数据分析时主要采用两种算法模型,即关联和预测。
数据挖掘是知识发现中必不可少的一步,知识发现是在这个过程中将原始数据转化为有用信息,由三个主要部分组成:数据整理、数据挖掘和解释评估。
1.3数据挖掘常用的功能
数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要可以分为六类功能:(1)自动预测趋势和行为;(2)关联分析;(3)分类;(4)聚类;(5)概念描述;(6)偏差检测。
2事故事件追溯检索原理解析
2.1电网调度事故追溯流程
事故事件的追溯流程如图1所示。通常,从系统运行相关系统获取对应的系统运行数据;从调度信息管理系统(DMIS)获取设备信息及历史事故信息;从输配电生产管理系统(PMS)获取地理位置信息及输配电设备的详细参数。结合数据挖掘技术对接收的最新事故信息进行处理、判断故障设备、通过调用典型事故预案并对其进行修正后形成决策方案。允许调度员通过人机交互的方式干预决策过程,通过排除一些不确定因素来提高事故原因追溯的正确相应。
2.2数据挖掘技术在事故追溯中的应用
采用数据挖掘技术建立故障模型的第一步,需要对典型故障和历史故障数据进行预处理。采用统计学和人工智能相结合的数据挖掘方法,在对大量的数据进行分析后可以从中找出一些对决策有帮助的数据来纠正错误的数据。此外,对于丢失的信息,我们可以通过调用知识库的相关知识进行回归分析,将遗失的数据挖掘出来。
提取电网故障信息的目的是为了确定当前的故障模型,然后根据特定的故障模型调用相应的专家知识进行分析,生成决策方案。数据挖掘中的归纳法则思想来分析电力生产事故得出的比较直观的规则,整个过程如图2所示。
2.3数据预处理
数据预处理主要包括:
1)系统运行内容提取。在得到系统运行文本以后利用基于文本块统计的提取算法获得系统运行文本的文字内容。
2)分句。句子识别是进行关系抽取的最初步骤,以文本中出现的中英文句号、问号、叹号等句子终结符作为句子的分隔符。
3)分词和词性标注。在这一步中,需要对已分好句的文本进行分词、词性标注与命名实体识别。
4)系统运行词典构建。在经过上一步的分词标注后,进行词典构建,形成初步的系统运行词典。
5)语句选择。根据制定的相关规则,筛选出对后续处理可能有价值的句子,过滤掉无关语句,提高处理效率。
2.4关联对抽取
在对数据进行预处理以后,可以得到标题数据中所有识别为系统运行人、物、事名的词,使用系统运行词典对识别出的系统运行人、物、事进行噪声过滤。对标题数据进行过滤后的系统运行人、物、事两两进行组合得到系统运行人、物、事。
统计所有标题数据中每个系统运行人、物、事的出现频率,系统运行人、物、事的出现频率越高说明在系统运行文本标题中共现的次数越多,两者存在关系的概率越高。通过这种方法过滤掉共现次数较少的无关系统运行人、物、事,减少后续处理的工作量。
对于剩下的共现次数较高的系统运行人、物、事,引人一种关联度计算方法——上下文式关联。根据两个系统运行人、物、事同时出现在一个系统运行文本标题中作为系统运行人、物、事存在关联的依据,然后基于统计的方法来量化这种关联度,这里引入两个系统运行实体(pi,pj)的条件概率:
即pi,pj同时出现的标题数目除以pj出现的标题数目。如果系统运行人、物、事间计算出的条件概率较高说明系统运行人、物、事之间的依赖关系较强,将式(2)中的条件概率和系统运行人、物、事共现次数结合来衡量系统运行人、物、事关联度。
asso(Pi,Pj)=w1*P(Pi|Pj)+w2*coor(Pi,Pj) (3)
式(3)计算的系统运行人、物、事的关联度,叫w1和w2分别是式(2)中的条件概率和系统运行人、物、事共现次数所占的权重。在实验中,调整w1和w2的取值,使关联系统运行人、物、事的识别效果最佳。最终,将系统运行人、物、事按照式(3)计算的关联度进行排序,取关联度最高的500个系统运行人、物、事用于后续系统运行人、物、事关系提取研究。
2.5关键词提取
在得到可能具有关系系统运行人、物、事以后,需要确定系统运行人、物、事之间的具体关系名,因此,需要挖掘与系统运行人、物、事有关的系统运行文本数据进行分析。本文以系统运行人、物、事pair=(pi,pj)为搜索条件,利用搜索引擎得到系统运行人、物、事的查询结果系统运行文本。本文将所有词语按照词频排序,词频统计结果表现为长尾特性,即大多数的词出现次数很少,少数的词出现的次数较高,此处过滤掉词频极低的可能是噪声的数据。
词频-逆向文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法在关键词提取中较常使用,它原用于评估一个字词对于一个文件集或者一个语料库其中一份文件的重要程度,本文将用它来评估一个词语对于表征系统运行人、物、事关系的重要度。其一般原理是:如果某个特征在某个系统运行人、物、事共现的句子中出现的词频较高,并且在其他系统运行人、物、事共现的句子集中很少出现,则认为这个词较能体现系统运行人、物、事的关系。本文中,词语对于系统运行人、物、事关系的重要性为wij,如式(4)所示:
wij=tftj×idfj=tfij×ln(N/nj) (4)
其中:tfij的指关键词tj在系统运行人、物、事dj共现的句子中出现的次数,idfi与词tj共现的系统运行人、物、事数量成反比,N表示总的系统运行人、物、事数,nj指与词tj共现的人、物、事数。将按词频过滤后的词语重新按式(4)重要性进行排序,每个人、物、事保留重要性最高的50个词语。
2.6词语关联度计算与关键词关联网络构建
词共现矩阵是词共现模型的量化,词共现模型是基于统计方法的自然语言处理领域的重要模型之一。它的基本假设的基础是:在大规模语料中,如果两个候选词经常共现在文档的同一窗口单元(如-句话、一个自然段等),则认为这两个词在意义上是相互关联的,并且共现的概率越高,其相互关联越紧密。
一个包含n个关键词的共现矩阵被定义为:
其中n是关键词的个数,式中C(wi,wj)表示关键词wi、wj的关联度。由式(5)进行计算:
其中:f(wi),f(wj)分别代表词语wi和wj的出现频数,f(wi,wj)代表wi和wj共同出现在一个窗口的次数。参数p是一个可调的参数并且它的值在实数范围内。取p=50,式(6)显示词语之间的关联度量是由词语的共现频率和单个的出现频率所决定的。
定义1设M是得到的词语共现矩阵,关键词集合是W,Wi表示第i个关键理,M转化成对应的关键词关联网络图G的定义为:
G={V,E} (7)
其中:V表示图G的顶点集;Vi表示V中第i个顶点;V与W中元素一一对应,即Vi对应Wi;E表示图G的边集。如果2个顶点的关联度大于一定的阈值,则在这2个顶点之间添加一条无向边,即:
E={(Vi,Vj)|Vi,Vj∈V,Sim(Vi,Vj)>β}={(Vi,Vj)|Vi,Vj∈V,Wi,Wj∈W,Sim(Vi,Vj)>β} (8)
其中,0<β<1,β越大,词语之间的关联的要求越严格,则图G越稀疏。本文设置的β值为所有计算出的关键词关联度的中位数的T倍,实验部分将比较T值的选取对最终结果的影响。
2.7基于图聚类的系统运行人、物、事关系提取
关键词关联网络建立完成以后,需要对关联网络进行分析以发现系统运行人、物、事关系。表示系统运行人、物、事关系的关键词与系统运行人、物、事会存在频繁的共现关系,而且在关键词关联网络中处于核心的位置,可以通过图聚类的方式找到系统运行人、物、事关系。本文使用基于团(clique)的图聚类方法,clique算法是基于密度和网格的一种聚类分析算法,对于大型高维空间数据的聚类分析具有很高的效率,能得到优质的聚类效果。
检测出关联网络中所有固定大小的clique,例如k-clique。每个clique中包含若干个关键词,这些关键词在关联网络中都有边相连,如3-clique和4-clique,分别包含3个关键词和4个关键词。在关键词关联网络建立以后,本文使用复杂网络分析工具NetworkX中的find_cliques()函数查找关键词关联网络中的所有clique。
为了利用识别出的clique挖掘系统运行人、物、事的关系词,本文构建clique之间的关联图。关联网络中检测出的clique之间往往会存在共同的关键词。例如,clique1={w1,w2,w3,w4},clique2={w1,w2,w3,w5}具有共同的关键词w1,w2,w3,则认为两个clique有关联关系。clique间的共同出现关键词组成集合V={w1,w2,……,wm},共包含m个关键词。以每个clique作为节点,clique之间的共现关键词为边的来建立clique关联图G。
在clique关联图G建立完成后,在关联图G上进行分析以挖掘在系统运行人、物、事关联上重要性最高的关键词。关键词k在clique关联图G中越多的边中出现,说明该关键词是关联图G很多clique都包含该关键词,则关键词k对于识别系统运行人、物、事关系重要性越高。
为了识别系统运行人、物、事(pi,pj)之间的关系,对clique关联图G中所有边上的关键词统计每个关键词在图中出现的边数。假设集合V中的某个关键词k在图中边上出现的次数为fqk,TF-IDF(Term Frequency-lnverse Document Frequency)计算出的关键词权重wk.最终关键词k对于系统运行人、物、事的重要性为Weightk:
Weightk=wk×fqk (9)
对于集合V中的所有关键词按照式(9)计算的结果进行排序,最后取集合V中所有词语中计算结果最高的词语作为系统运行人、物、事的关系词。
2.8结合词库关联规则展示追溯过程
经过上述步骤,在电网事故发生后,通过录入相关系统运行设备等信息关键字,可以经过系统运行词库对相关的系统运行人、物、事,即系统运行操作人员、系统运行设备、系统运行操作动作及其他相关信息进行关联展示。结合先进的图形展示技术以动态图形形式展示,如图3所示,电网事故原因追溯过程。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (4)
1.一种基于数据挖掘和可视化的电网事故关联原因回溯方法,其特征在于:该方法包括以下步骤:
S1:数据挖掘;
S2:事故事件追溯检索;
S11:对大量的原始数据进行预处理,包括数据的选择和清理,以去除重复或者有冲突的信息;
S12:将对决策有用的数据从数据集中提取出来形成数据样本;
S13:利用数据挖掘的各种方法对数据样本进行挖掘,发现其中隐含的、对决策有用的数据或者数据间的相互关系;
其中,按照电网的业务数据特点和数据挖掘需求,在进行数据分析时采用两种算法模型,即关联和预测;数据挖掘是知识发现中必不可少的一步,知识发现是在这个过程中将原始数据转化为有用信息,由三个部分组成:数据整理、数据挖掘和解释评估;
数据挖掘分为包括六类功能:(1)自动预测趋势和行为;(2)关联分析;(3)分类;(4)聚类;(5)概念描述;(6)偏差检测;
S3:结合词库关联规则展示追溯过程;在电网事故发生后,通过录入相关系统运行设备信息关键字,经过系统运行词库对相关的系统运行人、物、事,即系统运行操作人员、系统运行设备、系统运行操作动作及其他相关信息进行关联展示;结合图形展示技术以动态图形形式展示电网事故原因追溯过程。
2.根据权利要求1所述的一种基于数据挖掘和可视化的电网事故关联原因回溯方法,其特征在于:所述步骤S2具体为:
从系统运行相关系统获取对应的系统运行数据;
从调度信息管理系统DMIS获取设备信息及历史事故信息;
从输配电生产管理系统PMS获取地理位置信息及输配电设备的详细参数;
结合数据挖掘对接收的最新事故信息进行处理、判断故障设备、通过调用典型事故预案并对其进行修正后形成决策方案;
允许调度员通过人机交互的方式干预决策过程,通过排除一些不确定因素来提高事故原因追溯的正确相应。
3.根据权利要求1所述的一种基于数据挖掘和可视化的电网事故关联原因回溯方法,其特征在于:所述预处理包括以下步骤:
S111:系统运行内容提取:在得到系统运行文本以后利用基于文本块统计的提取算法获得系统运行文本的文字内容;
S112:分句:句子识别是进行关系抽取的最初步骤,以文本中出现的中英文句号、问号或叹号句子终结符作为句子的分隔符;
S113:分词和词性标注:在这一步中,需要对已分好句的文本进行分词、词性标注与命名实体识别;
S114:系统运行词典构建;在经过上一步的分词标注后,进行词典构建,形成初步的系统运行词典;
S115:语句选择:根据制定的相关规则,筛选出对后续处理可能有价值的句子,过滤掉无关语句,以提高处理效率。
4.根据权利要求3所述的一种基于数据挖掘和可视化的电网事故关联原因回溯方法,其特征在于:在所述预处理后,得到标题数据中所有识别为系统运行人、物、事名的词,使用系统运行词典对识别出的系统运行人、物、事进行噪声过滤;对标题数据进行过滤后的系统运行人、物、事两两进行组合得到系统运行人、物、事;
统计所有标题数据中每个系统运行人、物、事的出现频率,系统运行人、物、事的出现频率越高说明在系统运行文本标题中共现的次数越多,两者存在关系的概率越高;通过这种方法过滤掉共现次数较少的无关系统运行人、物、事,减少后续处理的工作量;
对于剩下的共现次数较高的系统运行人、物、事,引人一种关联度计算方法,即上下文式关联;根据两个系统运行人、物、事同时出现在一个系统运行文本标题中作为系统运行人、物、事存在关联的依据,然后基于统计的方法来量化这种关联度,引入两个系统运行实体(pi,pj)的条件概率:
即pi,pj同时出现的标题数目除以pj出现的标题数目;如果系统运行人、物、事间计算出的条件概率较高说明系统运行人、物、事之间的依赖关系较强,将式(2)中的条件概率和系统运行人、物、事共现次数结合来衡量系统运行人、物、事关联度;
asso(Pi,Pj)=w1*P(Pi|Pj)+w2*coor(Pi,Pj) (3)
式(3)计算的系统运行人、物、事的关联度,叫w1和w2分别是式(2)中的条件概率和系统运行人、物、事共现次数所占的权重;最终,将系统运行人、物、事按照式(3)计算的关联度进行排序,取关联度最高的500个系统运行人、物、事用于后续系统运行人、物、事关系提取研究;
在得到可能具有关系系统运行人、物、事以后,需要确定系统运行人、物、事之间的具体关系名,需要挖掘与系统运行人、物、事有关的系统运行文本数据进行分析;本文以系统运行人、物、事pair=(pi,pj)为搜索条件,利用搜索引擎得到系统运行人、物、事的查询结果系统运行文本;将所有词语按照词频排序,词频统计结果表现为长尾特性,即大多数的词出现次数很少,少数的词出现的次数较高,此处过滤掉词频极低的可能是噪声的数据;
利用词频-逆向文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法来评估一个词语对于表征系统运行人、物、事关系的重要度;如果某个特征在某个系统运行人、物、事共现的句子中出现的词频较高,并且在其他系统运行人、物、事共现的句子集中很少出现,则认为这个词较能体现系统运行人、物、事的关系;词语对于系统运行人、物、事关系的重要性为wij,如式(4)所示:
wij=tftj×idfj=tfij×ln(N/nj) (4)
其中:tfij的指关键词tj在系统运行人、物、事dj共现的句子中出现的次数,idfi与词tj共现的系统运行人、物、事数量成反比,N表示总的系统运行人、物、事数,nj指与词tj共现的人、物、事数;将按词频过滤后的词语重新按式(4)重要性进行排序,每个人、物、事保留重要性最高的50个词语;
一个包含n个关键词的共现矩阵被定义为:
其中n是关键词的个数,式中C(wi,wj)表示关键词wi、wj的关联度;由式(5)进行计算:
其中:f(wi),f(wj)分别代表词语wi和wj的出现频数,f(wi,wj)代表wi和wj共同出现在一个窗口的次数;参数p是一个可调的参数并且它的值在实数范围内;取p=50,式(6)显示词语之间的关联度量是由词语的共现频率和单个的出现频率所决定的;
设M是得到的词语共现矩阵,关键词集合是W,Wi表示第i个关键理,M转化成对应的关键词关联网络图G的定义为:
G={V,E} (7)
其中:V表示图G的顶点集;Vi表示V中第i个顶点;V与W中元素一一对应,即Vi对应Wi;E表示图G的边集;如果2个顶点的关联度大于一定的阈值,则在这2个顶点之间添加一条无向边,即:
E={(Vi,Vj)|Vi,Vj∈V,Sim(Vi,Vj)>β}={(Vi,Vj)|Vi,Vj∈V,Wi,Wj∈W,Sim(Vi,Vj)>β}(8)
其中,0<β<1,β越大,词语之间的关联的要求越严格,则图G越稀疏;设置的β值为所有计算出的关键词关联度的中位数的T倍,将比较T值的选取对最终结果的影响;
关键词关联网络建立完成以后,需要对关联网络进行分析以发现系统运行人、物、事关系;表示系统运行人、物、事关系的关键词与系统运行人、物、事会存在频繁的共现关系,而且在关键词关联网络中处于核心的位置,通过图聚类的方式找到系统运行人、物、事关系;使用基于团clique的图聚类方法,检测出关联网络中所有固定大小的clique;每个clique中包含若干个关键词,这些关键词在关联网络中都有边相连;在关键词关联网络建立以后,使用复杂网络分析工具NetworkX中的find_cliques()函数查找关键词关联网络中的所有clique;
为利用识别出的clique挖掘系统运行人、物、事的关系词,构建clique之间的关联;关联网络中检测出的clique之间往往会存在共同的关键词;clique间的共同出现关键词组成集合V={w1,w2,……,wm},共包含m个关键词;以每个clique作为节点,clique之间的共现关键词为边的来建立clique关联图G;
在clique关联图G建立完成后,在关联图G上进行分析以挖掘在系统运行人、物、事关联上重要性最高的关键词;关键词k在clique关联图G中越多的边中出现,说明该关键词是关联图G很多clique都包含该关键词,则关键词k对于识别系统运行人、物、事关系重要性越高;
为识别系统运行人、物、事(pi,pj)之间的关系,对clique关联图G中所有边上的关键词统计每个关键词在图中出现的边数;假设集合V中的某个关键词k在图中边上出现的次数为fqk,TF-IDF(Term Frequency-lnverse Document Frequency)计算出的关键词权重wk.最终关键词k对于系统运行人、物、事的重要性为Weightk:
Weightk=wk×fqk (9)
对于集合V中的所有关键词按照式(9)计算的结果进行排序,最后取集合V中所有词语中计算结果最高的词语作为系统运行人、物、事的关系词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811527424.8A CN109726246A (zh) | 2018-12-13 | 2018-12-13 | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811527424.8A CN109726246A (zh) | 2018-12-13 | 2018-12-13 | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109726246A true CN109726246A (zh) | 2019-05-07 |
Family
ID=66295933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811527424.8A Pending CN109726246A (zh) | 2018-12-13 | 2018-12-13 | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726246A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348005A (zh) * | 2019-05-27 | 2019-10-18 | 广州供电局有限公司 | 配网设备状态数据处理方法、装置、计算机设备及介质 |
CN110378585A (zh) * | 2019-07-08 | 2019-10-25 | 国电南瑞科技股份有限公司 | 电网故障处置计算任务编排调用方法、系统及存储介质 |
CN110427607A (zh) * | 2019-06-11 | 2019-11-08 | 贵州电网有限责任公司 | 一种基于智能机器人的电网事故事件分析方法及系统 |
CN110532298A (zh) * | 2019-08-07 | 2019-12-03 | 北京交通大学 | 多属性铁路事故致因权重分析方法 |
CN111144772A (zh) * | 2019-12-30 | 2020-05-12 | 交通运输部公路科学研究所 | 一种基于数据挖掘的道路运输安全风险实时评估方法 |
CN111581265A (zh) * | 2020-06-29 | 2020-08-25 | 杭州钧钥信息科技有限公司 | 一种基于数据挖掘和可视化的事故关联追溯方法 |
CN111680122A (zh) * | 2020-05-18 | 2020-09-18 | 国家基础地理信息中心 | 空间数据主动推荐方法、装置、存储介质及计算机设备 |
CN111897788A (zh) * | 2020-07-14 | 2020-11-06 | 中电福富信息科技有限公司 | 基于算法选择的日志检索分析及可视化挖掘方法 |
CN112348535A (zh) * | 2020-11-04 | 2021-02-09 | 新华中经信用管理有限公司 | 一种基于区块链技术的溯源应用方法及系统 |
CN112364627A (zh) * | 2020-10-23 | 2021-02-12 | 北京建筑大学 | 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 |
CN114363149A (zh) * | 2021-12-23 | 2022-04-15 | 上海哔哩哔哩科技有限公司 | 故障处理方法及装置 |
CN114398891A (zh) * | 2022-03-24 | 2022-04-26 | 三峡智控科技有限公司 | 基于日志关键词生成kpi曲线并标记波段特征的方法 |
CN114928532A (zh) * | 2022-05-17 | 2022-08-19 | 北京达佳互联信息技术有限公司 | 一种告警消息的生成方法、装置、设备及存储介质 |
CN116562714A (zh) * | 2023-07-07 | 2023-08-08 | 南通汤姆瑞斯工业智能科技有限公司 | 一种应用于机械加工的工件信息追溯系统及方法 |
CN116662412A (zh) * | 2023-07-24 | 2023-08-29 | 云南电网能源投资有限责任公司 | 一种电网配用电大数据的数据挖掘方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069690A (zh) * | 2015-06-11 | 2015-11-18 | 国家电网公司 | 一种电网运行数据处理方法 |
-
2018
- 2018-12-13 CN CN201811527424.8A patent/CN109726246A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069690A (zh) * | 2015-06-11 | 2015-11-18 | 国家电网公司 | 一种电网运行数据处理方法 |
Non-Patent Citations (4)
Title |
---|
刘锦文 等: "基于信息关联拓扑的互联网社交关系挖掘", 《计算机应用》 * |
孙才新: "影响我国电网安全运行的主要因素及态势分析", 《第五届输配电技术国际会议2 0 0 5》 * |
王鑫: "数据挖掘中聚类分析算法的研究", 《中国优秀博硕士学位论文全文数据库 (硕士)信息科技辑》 * |
顾黎强 等: "数据挖掘技术在电网调度事故决策中的应用", 《供用电》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348005B (zh) * | 2019-05-27 | 2022-02-01 | 广东电网有限责任公司广州供电局 | 配网设备状态数据处理方法、装置、计算机设备及介质 |
CN110348005A (zh) * | 2019-05-27 | 2019-10-18 | 广州供电局有限公司 | 配网设备状态数据处理方法、装置、计算机设备及介质 |
CN110427607A (zh) * | 2019-06-11 | 2019-11-08 | 贵州电网有限责任公司 | 一种基于智能机器人的电网事故事件分析方法及系统 |
CN110378585A (zh) * | 2019-07-08 | 2019-10-25 | 国电南瑞科技股份有限公司 | 电网故障处置计算任务编排调用方法、系统及存储介质 |
CN110378585B (zh) * | 2019-07-08 | 2022-09-02 | 国电南瑞科技股份有限公司 | 电网故障处置计算任务编排调用方法、系统及存储介质 |
CN110532298A (zh) * | 2019-08-07 | 2019-12-03 | 北京交通大学 | 多属性铁路事故致因权重分析方法 |
CN111144772A (zh) * | 2019-12-30 | 2020-05-12 | 交通运输部公路科学研究所 | 一种基于数据挖掘的道路运输安全风险实时评估方法 |
CN111144772B (zh) * | 2019-12-30 | 2023-11-21 | 交通运输部公路科学研究所 | 一种基于数据挖掘的道路运输安全风险实时评估方法 |
CN111680122A (zh) * | 2020-05-18 | 2020-09-18 | 国家基础地理信息中心 | 空间数据主动推荐方法、装置、存储介质及计算机设备 |
CN111680122B (zh) * | 2020-05-18 | 2023-04-07 | 国家基础地理信息中心 | 空间数据主动推荐方法、装置、存储介质及计算机设备 |
CN111581265A (zh) * | 2020-06-29 | 2020-08-25 | 杭州钧钥信息科技有限公司 | 一种基于数据挖掘和可视化的事故关联追溯方法 |
CN111897788A (zh) * | 2020-07-14 | 2020-11-06 | 中电福富信息科技有限公司 | 基于算法选择的日志检索分析及可视化挖掘方法 |
CN112364627A (zh) * | 2020-10-23 | 2021-02-12 | 北京建筑大学 | 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 |
CN112364627B (zh) * | 2020-10-23 | 2023-07-25 | 北京建筑大学 | 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质 |
CN112348535A (zh) * | 2020-11-04 | 2021-02-09 | 新华中经信用管理有限公司 | 一种基于区块链技术的溯源应用方法及系统 |
CN112348535B (zh) * | 2020-11-04 | 2023-09-12 | 新华中经信用管理有限公司 | 一种基于区块链技术的溯源应用方法及系统 |
CN114363149A (zh) * | 2021-12-23 | 2022-04-15 | 上海哔哩哔哩科技有限公司 | 故障处理方法及装置 |
CN114363149B (zh) * | 2021-12-23 | 2023-12-26 | 上海哔哩哔哩科技有限公司 | 故障处理方法及装置 |
CN114398891A (zh) * | 2022-03-24 | 2022-04-26 | 三峡智控科技有限公司 | 基于日志关键词生成kpi曲线并标记波段特征的方法 |
CN114928532B (zh) * | 2022-05-17 | 2023-12-12 | 北京达佳互联信息技术有限公司 | 一种告警消息的生成方法、装置、设备及存储介质 |
CN114928532A (zh) * | 2022-05-17 | 2022-08-19 | 北京达佳互联信息技术有限公司 | 一种告警消息的生成方法、装置、设备及存储介质 |
CN116562714A (zh) * | 2023-07-07 | 2023-08-08 | 南通汤姆瑞斯工业智能科技有限公司 | 一种应用于机械加工的工件信息追溯系统及方法 |
CN116562714B (zh) * | 2023-07-07 | 2023-12-08 | 南通汤姆瑞斯工业智能科技有限公司 | 一种应用于机械加工的工件信息追溯系统及方法 |
CN116662412A (zh) * | 2023-07-24 | 2023-08-29 | 云南电网能源投资有限责任公司 | 一种电网配用电大数据的数据挖掘方法 |
CN116662412B (zh) * | 2023-07-24 | 2023-10-03 | 云南电网能源投资有限责任公司 | 一种电网配用电大数据的数据挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726246A (zh) | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 | |
CN104616205B (zh) | 一种基于分布式日志分析的电力系统运行状态监视方法 | |
CN112612902A (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN103942340A (zh) | 一种基于文本挖掘的微博用户兴趣识别方法 | |
CN104765733A (zh) | 一种社交网络事件分析的方法和装置 | |
CN112699246A (zh) | 基于知识图谱的领域知识推送方法 | |
CN109635296A (zh) | 新词挖掘方法、装置计算机设备和存储介质 | |
CN112580831A (zh) | 一种基于知识图谱的电力通信网智能辅助运维方法及系统 | |
CN115330268B (zh) | 一种应对矿山灾难的综合性应急指挥方法及系统 | |
CN113239208A (zh) | 一种基于知识图谱的标注训练模型 | |
Alinezhad et al. | Early classification of industrial alarm floods based on semisupervised learning | |
CN112685459A (zh) | 一种基于K-means集群算法的攻击源特征识别方法 | |
CN111209472A (zh) | 一种铁路事故故障关联和事故故障原因分析方法及系统 | |
CN110175324A (zh) | 一种基于数据挖掘的电网运行操作指令校验方法及系统 | |
CN112084240B (zh) | 一种群租房智能识别、联动治理方法及系统 | |
CN112217674A (zh) | 基于因果网络挖掘和图注意力网络的告警根因识别方法 | |
CN108984514A (zh) | 词语的获取方法及装置、存储介质、处理器 | |
CN114281864A (zh) | 一种面向电力网络告警信息的关联分析方法 | |
CN106846170B (zh) | 一种发电机组跳闸监测方法及其监测装置 | |
CN115794798A (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN113674846A (zh) | 基于lstm网络的医院智慧服务舆情监控平台 | |
CN112395513A (zh) | 一种舆情传播力分析方法 | |
CN116865994A (zh) | 一种基于大数据的网络数据安全预测方法 | |
CN110796565A (zh) | 监理日志的分析方法及分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190507 |