CN105574165A - 一种基于聚类的电网运行监控信息辨识分类方法 - Google Patents

一种基于聚类的电网运行监控信息辨识分类方法 Download PDF

Info

Publication number
CN105574165A
CN105574165A CN201510947066.6A CN201510947066A CN105574165A CN 105574165 A CN105574165 A CN 105574165A CN 201510947066 A CN201510947066 A CN 201510947066A CN 105574165 A CN105574165 A CN 105574165A
Authority
CN
China
Prior art keywords
text
document
bunch
alarm signal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510947066.6A
Other languages
English (en)
Other versions
CN105574165B (zh
Inventor
舒征宇
刘庆国
胡为民
童华敏
黄文涛
何俊
王磊
向昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201510947066.6A priority Critical patent/CN105574165B/zh
Publication of CN105574165A publication Critical patent/CN105574165A/zh
Application granted granted Critical
Publication of CN105574165B publication Critical patent/CN105574165B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Water Supply & Treatment (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出的一种基于聚类的电网运行监控信息智能辨识分类方法。该方法将聚类分析引入到电网监控的研究中,在对历史存档的电网监控告警信号进行预处理的前提下,将其转化为有效的告警信号文档集合。并采用聚类分析的方法建立对应的空间特征向量,结合K-means算法计算得出典型的告警信号空间特征向量。有新的告警信息出现时可通过计算新增告警信息与典型告警信号空间特征向量的相似度对新增告警信号进行分类。从而实现电网监控信息自动分类,达到提高电网设备告警信号的辨识效率,防止信号的漏看和错误辨识的现象,保障电网安全稳定运行的目的。

Description

一种基于聚类的电网运行监控信息辨识分类方法
技术领域
本发明涉及电网调度监控的人工智能技术领域,更具体的说,涉及一种基于聚类的电网运行监控信息智能辨识分类方法。
背景技术
随着我国电力行业的发展,变电和输电设备的自动化改造不断深入,以往有人值守的运维模式逐渐在向无人值守、集中监控的模式进行转化。目前全国绝大部分110kV及以上电压等级的变电站都采用集中监控的模式进行管理,现场电力设备的异常和告警信号都通过通信设施直接传输到调控中心已文本的形式展示给电网监控人员。
目前,我国关于电网异常信号的监视主要采用人工监屏的方式,设正值一人、副职两人进行监屏。然而人工监屏受到外部影响因素较多,当电网正常操作和电网设备异常时都会发出大量的电气量信号、物理信号,这些异常信号的筛选和辨识会消耗监控人员大量时间,若不能及时判断故障发生情况则会影响事故处理的及时性。而一旦发生信号漏看或辨识错误的现象,则会对电网设备造成不可估量的损失。因此,研究一种适用于电网监控的文本自动辨识方法,独立于人工辨识以外提供辅助功能,是当前亟需解决的热点问题。可以有效减轻监控人员的负担、加快电网事故处理的流程、避免信号漏看导致的电网事故。
发明内容
本发明提出一种基于聚类的电网运行监控信息智能辨识分类方法,以调度监控收到的告警信号为样本,通过聚类分析的方法形成典型告警信号的特征向量,从而实现对告警信号的自动核对和辨识。最终达到提高电网设备告警信号的辨识效率,防止信号的漏看和错误辨识,保障电网安全稳定运行的目的。
为了实现上述目的,本发明的技术方案是:一种基于聚类的电网运行监控信息辨识分类方法,依次包括以下步骤:
数据样本的预处理;
建立文本的空间特征向量;
基于K-means算法的聚类分析;
告警信号的智能辨识。
所述数据样本的预处理,包括以下步骤:
步骤一:按告警信号发出时间划分形成文本,将历史告警信号输入,按时段划分告警信号,每隔3秒统计一次最近3秒内发出的监控信息个数;将电网监控告警信息表征为下式(1)形式:
S=[(t1,m1,c1),(t2,m2,c2)…(tn,mn,cn)](1)
式中S为按时段划分后得到的监控信息文档,t为时长为3秒的时段,m为对应时段中出现的告警信号个数,其中(tn,mn,cn)被称为一个数据项,表示tn时间段内接收到的告警信息条数mn,以及告警文本内容cn
步骤二:建立文本的信息熵模型,电网事故发生时,与事故相关的告警信号一般在10秒以内都会发出。为避免漏掉有效信号,本方法以30秒为时间跨度形成对应的告警信号文档S;并计算警信息文档S的信息熵。其计算公式如下式(2):
H ( S ) = - φ Σ k = 1 n - 1 P ( k ) l n P ( k ) - - - ( 2 )
其中φ为常数,n为预先划分的状态数,其数值大小为监控系统在3秒内接收到告警信号条数的最大值,P(k)为该种状态在文档S中出现的概率,其大小为:
P ( k ) = X k Σ k X k - - - ( 3 )
式(3)中Xk为30秒内的10个数据项中告警信号条数为mi=k的个数,为总的样本个数,该集合的监控信息熵越大,其无序程度越高;反之,监控信息文档S的无序程度越低;
步骤三:筛选掉信息熵值低于0.3的告警信息文档,以30秒为时间跨度,每隔10秒进行一次采样,计算对应的监控信息文档S的熵,将信息熵H(S)<0.3的监控信息文档筛选掉,即排除监控告警信号发出特别规律的时段;
步骤四:计算得出信息熵贡献值最大的数据项,针对剩下的有效告警信息文本,逐项删除文档S中的数据项,即(ti,mi,ci),并计算删除时间段后的信息熵H'(S),确定对文本文档信息熵贡献度最大的数据项,并将其作为文本文档的中心;
步骤五:删除数据项,直至信息熵信息熵H(S)降低,以文本文档信息熵贡献度最大的数据项作为中心,从文档时间尺度的边缘开始逐渐删除数据项,直至H(S')<H(S)。
所述建立文本的空间特征向量,包括以下步骤:
步骤一:计算文本中汉字X、Y的互现系数,统计所有告警信息文档中汉字的出现频率,并按照式(4)统计两个汉字的互现信息系数M:
M ( X , Y ) = l o g P ( X , Y ) P ( X ) P ( Y ) - - - ( 4 )
其中M(X,Y)为汉字X和Y的互现信息系数,P(X,Y)为X,Y相邻出现在文本中的几率,P(X)、P(Y)分别为汉字X、Y在文本中出现的几率,相邻的两个字同时出现的次数越多,其可信度越高,由汉字X、Y组成的词组也越有可能成为关键词;
步骤二:提取互现系数M(X,Y)>0的词条作为文本的关键词,形成关键词集合;
步骤三:在关键词中去除平凡词,筛选得到文本的特征项,电网监控告警信息中会存在大量诸如“的”、“了”的平凡词,该类汉字对于文本描述的内容无贡献,因此将这类词排除在外,最终形成文本的特征项集合:θ={δ123…δn},其中δ为筛选后得到的关键词;
步骤四:通过TF-IDF公式为文本的特征项赋予权重,其计算公式为:
w i ( d ) = f ( &delta; i , d ) &times; l o g ( N n i + 0.01 ) - - - ( 5 )
其中,f(δ1,d)为词条δ1在文档中出现频率,N为所有文档的个数,ni为含有词条δi的文档个数;由TF-IDF公式计算得到的权重系数表征了词条的特异性,若wi越大则表明词条δi的特异性越高,在不同文档中出现的比率越低,但在单个文档中出现的频次越高,那么词条δi用于表征文档d的可信度越高;
步骤五:建立文本的空间特征向量,通过上一步可以计算得到不同词条在文档中的权重;但是这样得到的权重没有进行归一化处理,归一化处理后的权重为:
W i = f ( &delta; i , d ) &times; l o g ( N n i + 0.01 ) &Sigma; i = 1 f ( &delta; i , d ) &times; log ( N n i + 0.01 ) - - - ( 6 )
因此任意文档可以表征为一个二维向量,其形式如下式(7)所示:
{[δ1,W1],[δ2,W2],…[δn,Wn]}(7)
如果将不同的词条看作一个坐标轴,那么该二维向量则可以看作是该空间中的一个向量。
所述基于K-means算法的聚类分析,包括以下步骤:
步骤一:随机抽取k个向量形成k个初始簇,即{Si…Si+k},这k个对象均可以表示成{[δ1,W1],[δ2,W2],…[δn,Wn]},一个二维的特征向量集合;
步骤二:从文本集合中逐个抽取文本,采用夹角余弦公式,计算新文本和不同簇的中心特征向量的相似度,夹角余弦公式为:
d ( S i , S j ) = c o s ( S i &RightArrow; , S j &RightArrow; ) = S i &RightArrow; &CenterDot; S j &RightArrow; | S i &RightArrow; | &CenterDot; | S j &RightArrow; | - - - ( 8 )
其中为告警信息文档Si、Sj在空间{δ12,…δn}中的特征向量,[Wi,1,Wi,2…Wi,n]和[Wj,1,Wj,2…Wj,n]。
步骤三:将新文本归入相似度最高的簇,根据计算得到的相似度,将新文本归类到最为相似的簇中,并重新计算该簇的平均值,其计算公式为:
S &RightArrow; = &lsqb; W i , 1 + aW j , 1 a + 1 , W i , 2 + aW j , 2 a + 1 ... W i , n + aW j , n a + 1 &rsqb; - - - ( 9 )
其中a为原簇中文本的个数,[Wj,1,Wj,2…Wj,n]为原簇的特征向量,[Wi,1,Wi,2…Wi,n]为新增文本的特征向量,通过式(9)计算将结果作为该簇新的空间特征向量;
步骤四:计算重新整合后的簇的评价函数,评价函数的计算公式为:
J = &Sigma; k = 1 K &Sigma; n = 1 Z k ( d ( x k &OverBar; , x n ) ) 2 - - - ( 10 )
式(10)中,J为评价函数,其大小为任意对象,即文本S,与各个簇特征向量的均方差之和;xn为文本文档Sn对应的特征向量,为第k个簇的特征向量,为文档Sn与第k个簇的相似度。Zk为第k个簇中含有的元素个数,K为所有簇的个数;
步骤五:重复上述步骤二、三、四,直至评价函数维持不变为止,此时得到的K个簇则基本处于正交形态,其特征向量可以代表不同的典型告警信号模板;
步骤六:人工干预辨识,对分类完成的簇进行识别。通过查看不同簇中的文本文档人工识别该簇代表的告警信号的现实意义。
所述告警信号的智能辨识,包括以下步骤:
步骤一:每隔10秒统计一次最近30秒的告警信号,形成新增文本S;
步骤二:根据聚类分析得到的特征词条{δ12,…δn}为依据,采用TF-IDF公式计算权重,形成空间特征向量:{[δ1,W1],[δ2,W2],…[δn,Wn]};
步骤三:将新增文本分类至最相似的簇,将新增告警信息文本的特征向量与训练得到的簇的中心特征向量进行相似度计算;将新增告警信息文本归入最相似的簇中,实现告警信息文本的分类;
步骤四:根据该簇代表的现实意义,辨识新增告警信息文本代表的现实意义。
从上述方法可以发现,本发明提出的一种基于聚类的电网运行监控信息智能辨识分类方法。该方法将聚类分析引入到电网监控的研究中,在对历史存档的电网监控告警信号进行预处理的前提下,将其转化为有效的告警信号文档集合。并采用聚类分析的方法建立对应的空间特征向量,结合K-means算法计算得出典型的告警信号空间特征向量。有新的告警信息出现时可通过计算新增告警信息与典型告警信号空间特征向量的相似度对新增告警信号进行分类。从而实现电网监控信息自动分类,达到提高电网设备告警信号的辨识效率,防止信号的漏看和错误辨识的现象,保障电网安全稳定运行的目的。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明数据样本的预处理流程;
图2为本发明建立文本的空间特征向量的流程;
图3为本发明基于K-means算法的聚类分析流程图;
图4为本发明告警信号的智能辨识流程图;
图5为本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1所示,所述数据样本的预处理,包括以下步骤:
S11:按告警信号发出时间划分形成文本,电网设备的告警信息是典型的触发式告警信息,即当有设备出现异常时发出告警信息。传递到电网监控后台机上的信息都是带有时间标签的离散信息,例如:2015-10-3021:56:21110kV某某线某某开关断开。为此,将历史告警信号输入,按时段划分告警信号,每隔3秒统计一次最近3秒内发出的监控信息个数;将电网监控告警信息表征为下式(1)形式:
S=[(t1,m1,c1),(t2,m2,c2)…(tn,mn,cn)](1)
式中S为按时段划分后得到的监控信息文档,t为时长为3秒的时段,m为对应时段中出现的告警信号个数,其中(tn,mn,cn)被称为一个数据项,表示tn时间段内接收到的告警信息条数mn,以及告警文本内容cn
S12:建立文本的信息熵模型,电网事故发生时,与事故相关的告警信号一般在10秒以内都会发出。为避免漏掉有效信号,本方法以30秒为时间跨度形成对应的告警信号文档S;并计算警信息文档S的信息熵。其计算公式如下式(2):
H ( S ) = - &phi; &Sigma; k = 1 n - 1 P ( k ) l n P ( k ) - - - ( 2 )
其中φ为常数,n为预先划分的状态数,其数值大小为监控系统在3秒内接收到告警信号条数的最大值,P(k)为该种状态在文档S中出现的概率,其大小为:
P ( k ) = X k &Sigma; k X k - - - ( 3 )
式(3)中Xk为30秒内的10个数据项中告警信号条数为mi=k的个数,为总的样本个数,该集合的监控信息熵越大,其无序程度越高;反之,监控信息文档S的无序程度越低;
S13:筛选掉信息熵值低于0.3的告警信息文档,在监控系统中单独的告警信息不能作为故障判断的依据,每当设备异常或电网故障时总是伴随着大量的一次设备的电气、物理信号和二次设备的动作信号;与之相对应单一出现的告警信号往往是电网辅助设备发出的告警信号,不能作为设备故障(或异常)的判断依据。因此,对应时段的监控信息熵越大,则该时段告警信号发出不会是规律的,其熵越大出现设备故障(或异常)的几率越高。为此,以30秒为时间跨度,每隔10秒进行一次采样,计算对应的监控信息文档S的熵,将信息熵H(S)<0.3的监控信息文档筛选掉,即排除监控告警信号发出特别规律的时段;
通过上述步骤可以筛选掉大部分监控信息集合加快辨识速度。剩余的监控信息文档都涵盖有30秒内的告警信息,而电网故障发生后相关联的监控信息一般在10秒以内传达到监控系统,即有效信息的时间跨度远没有30秒,因此需要对得到的监控信息文档S内的文本进行二次筛选。
S14:计算得出信息熵贡献值最大的数据项,针对剩下的有效告警信息文本,逐项删除文档S中的数据项,即(ti,mi,ci),并计算删除时间段后的信息熵H'(S),确定对文本文档信息熵贡献度最大的数据项,并将其作为文本文档的中心;
S15:删除数据项,直至信息熵信息熵H(S)降低,以文本文档信息熵贡献度最大的数据项作为中心,从文档时间尺度的边缘开始逐渐删除数据项,直至H(S')<H(S)。
由以上步骤可以得到任意监控系统在任意时段得到的监控信息文档集合{Si}。其中Si=[(t1,m1,c1),(t2,m2,c2)…(tn,mn,cn)]为含有有效告警信息的文档。
如图2所示,所述建立文本的空间特征向量,包括以下步骤:
S21:计算文本中汉字X、Y的互现系数,由于电网告警信息是由一次、二次设备发出的标准化信息,信息集合中文本对同一事物的描述方式都相对固定,因此可以采用基于统计的分词方法对文本进行分词处理和统计。统计所有告警信息文档中汉字的出现频率,并按照式(4)统计两个汉字的互现信息系数M:
M ( X , Y ) = l o g P ( X , Y ) P ( X ) P ( Y ) - - - ( 4 )
其中M(X,Y)为汉字X和Y的互现信息系数,P(X,Y)为X,Y相邻出现在文本中的几率,P(X)、P(Y)分别为汉字X、Y在文本中出现的几率,相邻的两个字同时出现的次数越多,其可信度越高,由汉字X、Y组成的词组也越有可能成为关键词;
S22:提取互现系数M(X,Y)>0的词条作为文本的关键词,形成关键词集合;
S23:在关键词中去除平凡词,筛选得到文本的特征项,电网监控告警信息中会存在大量诸如“的”、“了”的平凡词,该类汉字对于文本描述的内容无贡献,因此将这类词排除在外,最终形成文本的特征项集合:θ={δ123…δn},其中δ为筛选后得到的关键词;
S24:通过TF-IDF公式为文本的特征项赋予权重,其计算公式为:
w i ( d ) = f ( &delta; i , d ) &times; l o g ( N n i + 0.01 ) - - - ( 5 )
其中,f(δ1,d)为词条δ1在文档中出现频率,N为所有文档的个数,ni为含有词条δi的文档个数;由TF-IDF公式计算得到的权重系数表征了词条的特异性,若wi越大则表明词条δi的特异性越高,在不同文档中出现的比率越低,但在单个文档中出现的频次越高,那么词条δi用于表征文档d的可信度越高;
S25:建立文本的空间特征向量,通过上一步可以计算得到不同词条在文档中的权重;但是这样得到的权重没有进行归一化处理,归一化处理后的权重为:
W i = f ( &delta; i , d ) &times; l o g ( N n i + 0.01 ) &Sigma; i = 1 f ( &delta; i , d ) &times; log ( N n i + 0.01 ) - - - ( 6 )
因此任意文档可以表征为一个二维向量,其形式如下式(7)所示:
{[δ1,W1],[δ2,W2],…[δn,Wn]}(7)
如果将不同的词条看作一个坐标轴,那么该二维向量则可以看作是该空间中的一个向量。
如图3所示,所述基于K-means算法的聚类分析,包括以下步骤:
S31:随机抽取k个向量形成k个初始簇,即{Si…Si+k},这k个对象均可以表示成{[δ1,W1],[δ2,W2],…[δn,Wn]},一个二维的特征向量集合;
S32:从文本集合中逐个抽取文本,采用夹角余弦公式,计算新文本和不同簇的中心特征向量的相似度,夹角余弦公式为:
d ( S i , S j ) = c o s ( S i &RightArrow; , S j &RightArrow; ) = S i &RightArrow; &CenterDot; S j &RightArrow; | S i &RightArrow; | &CenterDot; | S j &RightArrow; | - - - ( 8 )
其中为告警信息文档Si、Sj在空间{δ12,…δn}中的特征向量,[Wi,1,Wi,2…Wi,n]和[Wj,1,Wj,2…Wj,n]。
S33:将新文本归入相似度最高的簇,根据计算得到的相似度,将新文本归类到最为相似的簇中,并重新计算该簇的平均值,其计算公式为:
S &RightArrow; = &lsqb; W i , 1 + aW j , 1 a + 1 , W i , 2 + aW j , 2 a + 1 ... W i , n + aW j , n a + 1 &rsqb; - - - ( 9 )
其中a为原簇中文本的个数,[Wj,1,Wj,2…Wj,n]为原簇的特征向量,[Wi,1,Wi,2…Wi,n]为新增文本的特征向量,通过式(9)计算将结果作为该簇新的空间特征向量;
S34:计算重新整合后的簇的评价函数,评价函数的计算公式为:
J = &Sigma; k = 1 K &Sigma; n = 1 Z k ( d ( x k &OverBar; , x n ) ) 2 - - - ( 10 )
式(10)中,J为评价函数,其大小为任意对象,即文本S,与各个簇特征向量的均方差之和;xn为文本文档Sn对应的特征向量,为第k个簇的特征向量,为文档Sn与第k个簇的相似度。Zk为第k个簇中含有的元素个数,K为所有簇的个数;
S35:重复上述步骤二、三、四,直至评价函数维持不变为止,此时得到的K个簇则基本处于正交形态,其特征向量可以代表不同的典型告警信号模板;
S36:人工干预辨识,对分类完成的簇进行识别。通过查看不同簇中的文本文档人工识别该簇代表的告警信号的现实意义。
综上所述,通过以上所有步骤可以对任意时间长度的告警信号进行聚类分析,将其转化为对应的k个典型特征向量(即k个典型故障告警文本模板)。
如图4所示,所述告警信号的智能辨识,包括以下步骤:
S41:每隔10秒统计一次最近30秒的告警信号,形成新增文本S;
S42:根据聚类分析得到的特征词条{δ12,…δn}为依据,采用TF-IDF公式计算权重,形成空间特征向量:{[δ1,W1],[δ2,W2],…[δn,Wn]};
S43:将新增文本分类至最相似的簇,将新增告警信息文本的特征向量与训练得到的簇的中心特征向量进行相似度计算;将新增告警信息文本归入最相似的簇中,实现告警信息文本的分类;
S44:根据该簇代表的现实意义,辨识新增告警信息文本代表的现实意义。
如图5所示,为本发明公开的一个实施例,本发明利用电网监控系统中的历史告警信息为数据样本,采用聚类的方法分析电网监控信息的聚类规则,得到电网告警信息的典型模板及其对应的空间特征向量。在电网发出新的告警信号时,通过相似度计算对其辨识和分类,实现电网监控告警信号的智能辨识和分类。该方法可以大幅降低电网调度监控人员的负担,辅助监控人员及时发现电网设备发出的告警信号,保持电网的安全稳定运行。

Claims (5)

1.一种基于聚类的电网运行监控信息辨识分类方法,其特征在于:依次包括以下步骤:
数据样本的预处理;
建立文本的空间特征向量;
基于K-means算法的聚类分析;
告警信号的智能辨识。
2.根据权利要求1所述一种基于聚类的电网运行监控信息辨识分类方法,其特征在于:
所述数据样本的预处理,包括以下步骤:
步骤一:按告警信号发出时间划分形成文本,将历史告警信号输入,按时段划分告警信号,每隔3秒统计一次最近3秒内发出的监控信息个数;将电网监控告警信息表征为下式(1)形式:
S=[(t1,m1,c1),(t2,m2,c2)…(tn,mn,cn)](1)
式中S为按时段划分后得到的监控信息文档,t为时长为3秒的时段,m为对应时段中出现的告警信号个数,其中(tn,mn,cn)被称为一个数据项,表示tn时间段内接收到的告警信息条数mn,以及告警文本内容cn
步骤二:建立文本的信息熵模型,电网事故发生时,与事故相关的告警信号一般在10秒以内都会发出。为避免漏掉有效信号,本方法以30秒为时间跨度形成对应的告警信号文档S;并计算警信息文档S的信息熵。其计算公式如下式(2):
H ( S ) = - &phi; &Sigma; k = 1 n - 1 P ( k ) ln P ( k ) - - - ( 2 )
其中φ为常数,n为预先划分的状态数,其数值大小为监控系统在3秒内接收到告警信号条数的最大值,P(k)为该种状态在文档S中出现的概率,其大小为:
P ( k ) = X k &Sigma; k X k - - - ( 3 )
式(3)中Xk为30秒内的10个数据项中告警信号条数为mi=k的个数,为总的样本个数,该集合的监控信息熵越大,其无序程度越高;反之,监控信息文档S的无序程度越低;
步骤三:筛选掉信息熵值低于0.3的告警信息文档,以30秒为时间跨度,每隔10秒进行一次采样,计算对应的监控信息文档S的熵,将信息熵H(S)<0.3的监控信息文档筛选掉,即排除监控告警信号发出特别规律的时段;
步骤四:计算得出信息熵贡献值最大的数据项,针对剩下的有效告警信息文本,逐项删除文档S中的数据项,即(ti,mi,ci),并计算删除时间段后的信息熵H′(S),确定对文本文档信息熵贡献度最大的数据项,并将其作为文本文档的中心;
步骤五:删除数据项,直至信息熵信息熵H(S)降低,以文本文档信息熵贡献度最大的数据项作为中心,从文档时间尺度的边缘开始逐渐删除数据项,直至H(S′)<H(S)。
3.根据权利要求1所述一种基于聚类的电网运行监控信息辨识分类方法,其特征在于:
所述建立文本的空间特征向量,包括以下步骤:
步骤一:计算文本中汉字X、Y的互现系数,统计所有告警信息文档中汉字的出现频率,并按照式(4)统计两个汉字的互现信息系数M:
M ( X , Y ) = l o g P ( X , Y ) P ( X ) P ( Y ) - - - ( 4 )
其中M(X,Y)为汉字X和Y的互现信息系数,P(X,Y)为X,Y相邻出现在文本中的几率,P(X)、P(Y)分别为汉字X、Y在文本中出现的几率,相邻的两个字同时出现的次数越多,其可信度越高,由汉字X、Y组成的词组也越有可能成为关键词;
步骤二:提取互现系数M(X,Y)>0的词条作为文本的关键词,形成关键词集合;
步骤三:在关键词中去除平凡词,筛选得到文本的特征项,电网监控告警信息中会存在大量诸如“的”、“了”的平凡词,该类汉字对于文本描述的内容无贡献,因此将这类词排除在外,最终形成文本的特征项集合:θ={δ1δ2,δ3··δn},其中δ为筛选后得到的关键词;
步骤四:通过TF-IDF公式为文本的特征项赋予权重,其计算公式为:
w i ( d ) = f ( &delta; i , d ) &times; l o g ( N n i + 0.01 ) - - - ( 5 )
其中,f(δ1,d)为词条δ1在文档中出现频率,N为所有文档的个数,ni为含有词条δi的文档个数;由TF-IDF公式计算得到的权重系数表征了词条的特异性,若wi越大则表明词条δi的特异性越高,在不同文档中出现的比率越低,但在单个文档中出现的频次越高,那么词条δi用于表征文档d的可信度越高;
步骤五:建立文本的空间特征向量,通过上一步可以计算得到不同词条在文档中的权重;但是这样得到的权重没有进行归一化处理,归一化处理后的权重为:
W i = f ( &delta; i , d ) &times; l o g ( N n i + 0.01 ) &Sigma; i = 1 f ( &delta; i , d ) &times; l o g ( N n i + 0.01 ) - - - ( 6 )
因此任意文档可以表征为一个二维向量,其形式如下式(7)所示:
{[δ1,W1],[δ2,W2],…[δn,Wn]}(7)
如果将不同的词条看作一个坐标轴,那么该二维向量则可以看作是该空间中的一个向量。
4.根据权利要求1所述一种基于聚类的电网运行监控信息辨识分类方法,其特征在于:所述基于K-means算法的聚类分析,包括以下步骤:
步骤一:随机抽取k个向量形成k个初始簇,即{Si…Si+k},这k个对象均可以表示成{[δ1,W1],[δ2,W2],…[δn,Wn]},一个二维的特征向量集合;
步骤二:从文本集合中逐个抽取文本,采用夹角余弦公式,计算新文本和不同簇的中心特征向量的相似度,夹角余弦公式为:
d ( S i , S j ) = c o s ( S i &RightArrow; , S j &RightArrow; ) = S i &RightArrow; &CenterDot; S j &RightArrow; | S i &RightArrow; | &CenterDot; | S j &RightArrow; | - - - ( 8 )
其中为告警信息文档Si、Sj在空间{δ1,δ2,…δn}中的特征向量,[Wi,1,Wi,2…Wi,n]和[Wj,1,Wj,2…Wj,n]。
步骤三:将新文本归入相似度最高的簇,根据计算得到的相似度,将新文本归类到最为相似的簇中,并重新计算该簇的平均值,其计算公式为:
S &RightArrow; = &lsqb; W i , 1 + aW j , 1 a + 1 , W i , 2 + aW j , 2 a + 1 ... W i , n + aW j , n a + 1 &rsqb; - - - ( 9 )
其中a为原簇中文本的个数,[Wj,1,Wj,2…Wj,n]为原簇的特征向量,[Wi,1,Wi,2…Wi,n]为新增文本的特征向量,通过式(9)计算将结果作为该簇新的空间特征向量;
步骤四:计算重新整合后的簇的评价函数,评价函数的计算公式为:
J = &Sigma; k = 1 K &Sigma; n = 1 Z k ( d ( x k &OverBar; , x n ) ) 2 - - - ( 10 )
式(10)中,J为评价函数,其大小为任意对象,即文本S,与各个簇特征向量的均方差之和;xn为文本文档Sn对应的特征向量,为第k个簇的特征向量,为文档Sn与第k个簇的相似度。Zk为第k个簇中含有的元素个数,K为所有簇的个数;
步骤五:重复上述步骤二、三、四,直至评价函数维持不变为止,此时得到的K个簇则基本处于正交形态,其特征向量可以代表不同的典型告警信号模板;
步骤六:人工干预辨识,对分类完成的簇进行识别。通过查看不同簇中的文本文档人工识别该簇代表的告警信号的现实意义。
5.根据权利要求1所述一种基于聚类的电网运行监控信息辨识分类方法,其特征在于:所述告警信号的智能辨识,包括以下步骤:
步骤一:每隔10秒统计一次最近30秒的告警信号,形成新增文本S;
步骤二:根据聚类分析得到的特征词条{δ1,δ2,…δn}为依据,采用TF-IDF公式计算权重,形成空间特征向量:{[δ1,W1],[δ2,W2],…[δn,Wn]};
步骤三:将新增文本分类至最相似的簇,将新增告警信息文本的特征向量与训练得到的簇的中心特征向量进行相似度计算;将新增告警信息文本归入最相似的簇中,实现告警信息文本的分类;
步骤四:根据该簇代表的现实意义,辨识新增告警信息文本代表的现实意义。
CN201510947066.6A 2015-12-17 2015-12-17 一种基于聚类的电网运行监控信息辨识分类方法 Expired - Fee Related CN105574165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510947066.6A CN105574165B (zh) 2015-12-17 2015-12-17 一种基于聚类的电网运行监控信息辨识分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510947066.6A CN105574165B (zh) 2015-12-17 2015-12-17 一种基于聚类的电网运行监控信息辨识分类方法

Publications (2)

Publication Number Publication Date
CN105574165A true CN105574165A (zh) 2016-05-11
CN105574165B CN105574165B (zh) 2019-11-26

Family

ID=55884296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510947066.6A Expired - Fee Related CN105574165B (zh) 2015-12-17 2015-12-17 一种基于聚类的电网运行监控信息辨识分类方法

Country Status (1)

Country Link
CN (1) CN105574165B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327356A (zh) * 2016-08-01 2017-01-11 国家电网公司 一种基于数据挖掘的配电网故障精准定位方法
CN106846170A (zh) * 2016-12-22 2017-06-13 国网上海市电力公司 一种发电机组跳闸监测方法及其监测装置
CN107315777A (zh) * 2017-05-31 2017-11-03 国家电网公司 一种基于k最近邻算法的电网监控信号的分类压缩方法
CN107340766A (zh) * 2017-07-10 2017-11-10 浙江大学 基于相似度的电力调度告警信号文本归类及故障诊断方法
CN107919664A (zh) * 2017-11-07 2018-04-17 国网安徽省电力公司 一种配网运行状态的特征标签定义方法
CN108804574A (zh) * 2018-05-23 2018-11-13 东软集团股份有限公司 告警提示方法、装置、计算机可读存储介质及电子设备
CN111539493A (zh) * 2020-07-08 2020-08-14 北京必示科技有限公司 一种告警预测方法、装置、电子设备及存储介质
CN115358647A (zh) * 2022-10-24 2022-11-18 齐鲁云商数字科技股份有限公司 基于大数据的氢能产业链风险监测系统及监测方法
CN117370790A (zh) * 2023-10-13 2024-01-09 江苏智谨创新能源科技有限公司 一种光伏发电组件故障自动报警方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN102426631A (zh) * 2011-11-01 2012-04-25 南京理工大学常熟研究院有限公司 一种基于高维空间映射的k调和均值聚类方法
CN103678274A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于改进互信息和熵的文本分类特征提取方法
US20140270526A1 (en) * 2013-03-14 2014-09-18 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images
US20150310086A1 (en) * 2014-04-28 2015-10-29 Moogsoft, Inc. System for decomposing clustering events from managed infrastructures coupled to a data extraction device
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN102426631A (zh) * 2011-11-01 2012-04-25 南京理工大学常熟研究院有限公司 一种基于高维空间映射的k调和均值聚类方法
US20140270526A1 (en) * 2013-03-14 2014-09-18 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images
CN103678274A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于改进互信息和熵的文本分类特征提取方法
US20150310086A1 (en) * 2014-04-28 2015-10-29 Moogsoft, Inc. System for decomposing clustering events from managed infrastructures coupled to a data extraction device
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卓金武: "《MATLAB在数学建模中的应用》", 30 September 2014 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327356A (zh) * 2016-08-01 2017-01-11 国家电网公司 一种基于数据挖掘的配电网故障精准定位方法
CN106327356B (zh) * 2016-08-01 2019-11-15 国家电网公司 一种基于数据挖掘的配电网故障精准定位方法
CN106846170A (zh) * 2016-12-22 2017-06-13 国网上海市电力公司 一种发电机组跳闸监测方法及其监测装置
CN107315777A (zh) * 2017-05-31 2017-11-03 国家电网公司 一种基于k最近邻算法的电网监控信号的分类压缩方法
CN107340766B (zh) * 2017-07-10 2019-04-12 浙江大学 基于相似度的电力调度告警信号文本归类及故障诊断方法
CN107340766A (zh) * 2017-07-10 2017-11-10 浙江大学 基于相似度的电力调度告警信号文本归类及故障诊断方法
CN107919664A (zh) * 2017-11-07 2018-04-17 国网安徽省电力公司 一种配网运行状态的特征标签定义方法
CN108804574A (zh) * 2018-05-23 2018-11-13 东软集团股份有限公司 告警提示方法、装置、计算机可读存储介质及电子设备
CN108804574B (zh) * 2018-05-23 2021-06-04 东软集团股份有限公司 告警提示方法、装置、计算机可读存储介质及电子设备
CN111539493A (zh) * 2020-07-08 2020-08-14 北京必示科技有限公司 一种告警预测方法、装置、电子设备及存储介质
CN111539493B (zh) * 2020-07-08 2020-11-27 北京必示科技有限公司 一种告警预测方法、装置、电子设备及存储介质
CN115358647A (zh) * 2022-10-24 2022-11-18 齐鲁云商数字科技股份有限公司 基于大数据的氢能产业链风险监测系统及监测方法
CN117370790A (zh) * 2023-10-13 2024-01-09 江苏智谨创新能源科技有限公司 一种光伏发电组件故障自动报警方法及系统

Also Published As

Publication number Publication date
CN105574165B (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN105574165A (zh) 一种基于聚类的电网运行监控信息辨识分类方法
CN108564254B (zh) 基于大数据的配电设备状态可视化平台
CN107340766B (zh) 基于相似度的电力调度告警信号文本归类及故障诊断方法
CN105787809A (zh) 一种基于数据挖掘的电网设备运行状态智能校验方法
CN109190950B (zh) 一种电表和水表档案贯通的用能异常识别方法
CN103426123A (zh) 基于粗糙集理论的配电网故障风险评估方法
CN110888973B (zh) 一种监控信息表自动结构化梳理的方法
CN117421687A (zh) 一种数字化电力环网柜运行状态监测方法
CN110349048B (zh) 变电站多维数据运行交互控制平台及故障处置方法
CN113268590A (zh) 一种基于设备画像和集成学习的电网设备运行状态评估方法
CN109491339B (zh) 一种基于大数据的变电站设备运行状态预警系统
CN107784393A (zh) 一种输电线路的缺陷预测方法及装置
CN104050377A (zh) 一种时变设备故障概率确定方法
CN113708350B (zh) 一种基于云边协同的配电台区重过载异常判断方法及系统
CN104657814A (zh) 基于ems系统的继电保护装置信号模板抽取定义方法
CN117110798B (zh) 智能配电网的故障检测方法和系统
CN104360194A (zh) 一种智能电网故障诊断方法
Cai et al. Feeder fault warning of distribution network based on XGBoost
Ren et al. Research on causes of transmission line fault based on decision tree classification
Zhanjun et al. A distribution network fault data analysis method based on association rule mining
Ma et al. A novel condition assessment method based on dissolved gas in transformer oil
Li et al. Power grid fault detection method based on cloud platform and improved isolated forest
Gong et al. State detection method of secondary equipment in smart substation based on deep belief network and trend prediction
Zhu et al. Independent and controllable security container substation equipment condition monitoring method based on cloud edge cooperation
Wang et al. Comprehensive monitoring cycle classification of centralized monitoring substations based on knowledge map and competitive neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191126

Termination date: 20201217

CF01 Termination of patent right due to non-payment of annual fee