CN105574165B - 一种基于聚类的电网运行监控信息辨识分类方法 - Google Patents
一种基于聚类的电网运行监控信息辨识分类方法 Download PDFInfo
- Publication number
- CN105574165B CN105574165B CN201510947066.6A CN201510947066A CN105574165B CN 105574165 B CN105574165 B CN 105574165B CN 201510947066 A CN201510947066 A CN 201510947066A CN 105574165 B CN105574165 B CN 105574165B
- Authority
- CN
- China
- Prior art keywords
- text
- document
- cluster
- alarm signal
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 9
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000007717 exclusion Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明提出的一种基于聚类的电网运行监控信息智能辨识分类方法。该方法将聚类分析引入到电网监控的研究中,在对历史存档的电网监控告警信号进行预处理的前提下,将其转化为有效的告警信号文档集合。并采用聚类分析的方法建立对应的空间特征向量,结合K‑means算法计算得出典型的告警信号空间特征向量。有新的告警信息出现时可通过计算新增告警信息与典型告警信号空间特征向量的相似度对新增告警信号进行分类。从而实现电网监控信息自动分类,达到提高电网设备告警信号的辨识效率,防止信号的漏看和错误辨识的现象,保障电网安全稳定运行的目的。
Description
技术领域
本发明涉及电网调度监控的人工智能技术领域,更具体的说,涉及一种基于聚类的电网运行监控信息智能辨识分类方法。
背景技术
随着我国电力行业的发展,变电和输电设备的自动化改造不断深入,以往有人值守的运维模式逐渐在向无人值守、集中监控的模式进行转化。目前全国绝大部分110kV及以上电压等级的变电站都采用集中监控的模式进行管理,现场电力设备的异常和告警信号都通过通信设施直接传输到调控中心已文本的形式展示给电网监控人员。
目前,我国关于电网异常信号的监视主要采用人工监屏的方式,设正值一人、副职两人进行监屏。然而人工监屏受到外部影响因素较多,当电网正常操作和电网设备异常时都会发出大量的电气量信号、物理信号,这些异常信号的筛选和辨识会消耗监控人员大量时间,若不能及时判断故障发生情况则会影响事故处理的及时性。而一旦发生信号漏看或辨识错误的现象,则会对电网设备造成不可估量的损失。因此,研究一种适用于电网监控的文本自动辨识方法,独立于人工辨识以外提供辅助功能,是当前亟需解决的热点问题。可以有效减轻监控人员的负担、加快电网事故处理的流程、避免信号漏看导致的电网事故。
发明内容
本发明提出一种基于聚类的电网运行监控信息智能辨识分类方法,以调度监控收到的告警信号为样本,通过聚类分析的方法形成典型告警信号的特征向量,从而实现对告警信号的自动核对和辨识。最终达到提高电网设备告警信号的辨识效率,防止信号的漏看和错误辨识,保障电网安全稳定运行的目的。
为了实现上述目的,本发明的技术方案是:一种基于聚类的电网运行监控信息辨识分类方法,依次包括以下步骤:
数据样本的预处理;
建立文本的空间特征向量;
基于K-means算法的聚类分析;
告警信号的智能辨识。
所述数据样本的预处理,包括以下步骤:
步骤一:按告警信号发出时间划分形成文本,将历史告警信号输入,按时段划分告警信号,每隔3秒统计一次最近3秒内发出的监控信息个数;将电网监控告警信息表征为下式(1)形式:
S=[(t1,m1,c1),(t2,m2,c2)…(tr,mr,cr)] (1)
式中S为按时段划分后得到的监控告警信息文档,th(h=1,2,…,r)表示第h个时长为3秒的时段,mh(h=1,2,…,r)表示第h个时段中出现的告警信号个数,其中(tr,mr,cr)被称为一个数据项,表示tr时间段内接收到的告警信息条数mr,以及告警文本内容cr;
步骤二:建立文本的信息熵模型,电网事故发生时,与事故相关的告警信号一般在10秒以内都会发出;为避免漏掉有效信号,本方法以30秒为时间跨度形成对应的监控告警信号文档S;并计算监控告警信息文档S的信息熵。其计算公式如下式(2):
其中φ为常数,l为预先划分的状态数,其数值大小为监控系统在3秒内接收到告警信号条数的最大值,P(q)为对应状态在文档S中出现的概率,其大小为:
式(3)中Xq为30秒内的10个数据项中告警信号条数为mh=q的个数,为总的样本个数,对应集合的监控信息熵越大,其无序程度越高;反之,监控告警信息文档S的无序程度越低;
步骤三:筛选掉信息熵值低于0.3的告警信息文档,以30秒为时间跨度,每隔10秒进行一次采样,计算对应的监控告警信息文档S的熵,将信息熵H(S)<0.3的监控信息文档筛选掉,即排除监控告警信号发出特别规律的时段;
步骤四:计算得出信息熵贡献值最大的数据项,针对剩下的有效告警信息文本,逐项删除文档S中的数据项,即(th,mh,ch),并计算删除时间段后的信息熵H'(S),确定对文本文档信息熵贡献度最大的数据项,并将其作为文本文档的中心;
步骤五:删除数据项,直至信息熵信息熵H(S)降低,以文本文档信息熵贡献度最大的数据项作为中心,从文档时间尺度的边缘开始逐渐删除数据项,直至H(S')<H(S)。
所述建立文本的空间特征向量,包括以下步骤:
步骤一:计算文本中汉字X、Y的互现系数,统计所有告警信息文档中汉字的出现频率,并按照式(4)统计两个汉字的互现信息系数M:
其中M(X,Y)为汉字X和Y的互现信息系数,P(X,Y)为X,Y相邻出现在文本中的几率,P(X)、P(Y)分别为汉字X、Y在文本中出现的几率,相邻的两个字同时出现的次数越多,其可信度越高,由汉字X、Y组成的词组也越有可能成为关键词;
步骤二:提取互现系数M(X,Y)>0的词条作为文本的关键词,形成关键词集合;
步骤三:在关键词中去除平凡词,筛选得到文本的特征项,电网监控告警信息中会存在大量含有“的”、“了”等的平凡词,上述平凡词对于文本描述的内容无贡献,因此将这类词排除在外,最终形成文本的特征项集合:θ={δ1,δ2,δ3…δn},其中δ为筛选后得到的关键词;
步骤四:通过TF-IDF公式为文本的特征项赋予权重,其计算公式为:
其中,f(δτ,d)为词条δτ在文档中出现频率,N为所有文档的个数,zτ为含有词条δτ的文档个数;由TF-IDF公式计算得到的权重系数表征了词条的特异性,若wτ越大则表明词条δτ的特异性越高,在不同文档中出现的比率越低,但在单个文档中出现的频次越高,那么词条δτ用于表征文档d的可信度越高;
步骤五:建立文本的空间特征向量,通过上一步可以计算得到不同词条在文档中的权重;但是这样得到的权重没有进行归一化处理,归一化处理后的权重为:
因此任意文档可以表征为一个二维向量,其形式如下式(7)所示:
{[δ1,W1],[δ2,W2],…[δn,Wn]} (7)
将不同的词条作为一个坐标轴,对应的二维向量则可以看作是该空间中的一个向量。
所述基于K-means算法的聚类分析,包括以下步骤:
步骤一:随机抽取k个向量形成k个初始簇,即{Si…Si+k}(其中i为自然数),这k个对象均可以表示成{[δ1,W1],[δ2,W2],…[δn,Wn]},一个二维的特征向量集合;
步骤二:从文本集合中逐个抽取文本,采用夹角余弦公式,计算新文本和不同簇的中心特征向量的相似度,夹角余弦公式为:
其中i,j为自然数,为告警信息文档Si、Sj在空间{δ1,δ2,…δn}中的特征向量,[Wi,1,Wi,2…Wi,n]和[Wj,1,Wj,2…Wj,n]。
步骤三:将新文本归入相似度最高的簇,根据计算得到的相似度,将新文本归类到最为相似的簇中,并重新计算该簇的平均值,其计算公式为:
其中a为原簇中文本的个数,[Wj,1,Wj,2…Wj,n]为原簇的特征向量,[Wi,1,Wi,2…Wi,n]为新增文本的特征向量,通过式(9)计算将结果作为该簇新的特征向量;
步骤四:计算重新整合后的簇的评价函数,评价函数的计算公式为:
式(10)中,J为评价函数,其大小为任意对象,即文本S与各个簇特征向量的相似度之和;xv为文本文档Sv对应的特征向量,为第k个簇的特征向量,为文档Sv与第k个簇的相似度。Zk为第k个簇中含有的元素个数,K为所有簇的个数;
步骤五:重复上述步骤二、三、四,直至评价函数维持不变为止,此时得到的K个簇则基本处于正交形态,其特征向量可以代表不同的典型告警信号模板;
步骤六:人工干预辨识,对分类完成的簇进行识别。通过查看不同簇中的文本文档人工识别该簇代表的告警信号的现实意义。
所述告警信号的智能辨识,包括以下步骤:
步骤一:每隔10秒统计一次最近30秒的告警信号,形成新增文本S;
步骤二:根据聚类分析得到的特征词条{δ1,δ2,…δn}为依据,采用TF-IDF公式计算权重,形成空间特征向量:{[δ1,W1],[δ2,W2],…[δn,Wn]};
步骤三:将新增文本分类至最相似的簇,将新增告警信息文本的特征向量与训练得到的簇的中心特征向量进行相似度计算;将新增告警信息文本归入最相似的簇中,实现告警信息文本的分类;
步骤四:根据该簇代表的现实意义,辨识新增告警信息文本代表的现实意义。
从上述方法可以发现,本发明提出的一种基于聚类的电网运行监控信息智能辨识分类方法。该方法将聚类分析引入到电网监控的研究中,在对历史存档的电网监控告警信号进行预处理的前提下,将其转化为有效的告警信号文档集合。并采用聚类分析的方法建立对应的空间特征向量,结合K-means算法计算得出典型的告警信号空间特征向量。有新的告警信息出现时可通过计算新增告警信息与典型告警信号空间特征向量的相似度对新增告警信号进行分类。从而实现电网监控信息自动分类,达到提高电网设备告警信号的辨识效率,防止信号的漏看和错误辨识的现象,保障电网安全稳定运行的目的。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明数据样本的预处理流程;
图2为本发明建立文本的空间特征向量的流程;
图3为本发明基于K-means算法的聚类分析流程图;
图4为本发明告警信号的智能辨识流程图;
图5为本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1所示,所述数据样本的预处理,包括以下步骤:
S11:按告警信号发出时间划分形成文本,电网设备的告警信息是典型的触发式告警信息,即当有设备出现异常时发出告警信息。传递到电网监控后台机上的信息都是带有时间标签的离散信息,例如:2015-10-30 21:56:21 110kV某某线某某开关断开。为此,将历史告警信号输入,按时段划分告警信号,每隔3秒统计一次最近3秒内发出的监控信息个数;将电网监控告警信息表征为下式(1)形式:
S=[(t1,m1,c1),(t2,m2,c2)…(tr,mr,cr)] (1)
式中S为按时段划分后得到的监控告警信息文档,th(h=1,2,…,r)表示第h个时长为3秒的时段,mh(h=1,2,…,r)表示第h个时段中出现的告警信号个数,其中(tr,mr,cr)被称为一个数据项,表示tr时间段内接收到的告警信息条数mr,以及告警文本内容cr;
S12:建立文本的信息熵模型,电网事故发生时,与事故相关的告警信号一般在10秒以内都会发出。为避免漏掉有效信号,本方法以30秒为时间跨度形成对应的监控告警信号文档S;并计算监控告警信息文档S的信息熵。其计算公式如下式(2):
其中φ为常数,l为预先划分的状态数,其数值大小为监控系统在3秒内接收到告警信号条数的最大值,P(q)为对应状态在文档S中出现的概率,其大小为:
式(3)中Xq为30秒内的10个数据项中告警信号条数为mh=q的个数,为总的样本个数,对应集合的监控信息熵越大,其无序程度越高;反之,监控告警信息文档S的无序程度越低;
S13:筛选掉信息熵值低于0.3的告警信息文档,在监控系统中单独的告警信息不能作为故障判断的依据,每当设备异常或电网故障时总是伴随着大量的一次设备的电气、物理信号和二次设备的动作信号;与之相对应单一出现的告警信号往往是电网辅助设备发出的告警信号,不能作为设备故障(或异常)的判断依据。因此,对应时段的监控信息熵越大,则该时段告警信号发出不会是规律的,其熵越大出现设备故障(或异常)的几率越高。为此,以30秒为时间跨度,每隔10秒进行一次采样,计算对应的监控告警信息文档S的熵,将信息熵H(S)<0.3的监控信息文档筛选掉,即排除监控告警信号发出特别规律的时段;
通过上述步骤可以筛选掉大部分监控信息集合加快辨识速度。剩余的监控信息文档都涵盖有30秒内的告警信息,而电网故障发生后相关联的监控信息一般在10秒以内传达到监控系统,即有效信息的时间跨度远没有30秒,因此需要对得到的监控信息文档S内的文本进行二次筛选。
S14:计算得出信息熵贡献值最大的数据项,针对剩下的有效告警信息文本,逐项删除文档S中的数据项,即(th,mh,ch),并计算删除时间段后的信息熵H'(S),确定对文本文档信息熵贡献度最大的数据项,并将其作为文本文档的中心;
S15:删除数据项,直至信息熵信息熵H(S)降低,以文本文档信息熵贡献度最大的数据项作为中心,从文档时间尺度的边缘开始逐渐删除数据项,直至H(S')<H(S)。
由以上步骤可以得到任意监控系统在任意时段得到的监控信息文档集合{Si}。其中Si=[(t1,m1,c1),(t2,m2,c2)…(tn,mn,cn)]为含有有效告警信息的文档。
如图2所示,所述建立文本的空间特征向量,包括以下步骤:
S21:计算文本中汉字X、Y的互现系数,由于电网告警信息是由一次、二次设备发出的标准化信息,信息集合中文本对同一事物的描述方式都相对固定,因此可以采用基于统计的分词方法对文本进行分词处理和统计。统计所有告警信息文档中汉字的出现频率,并按照式(4)统计两个汉字的互现信息系数M:
其中M(X,Y)为汉字X和Y的互现信息系数,P(X,Y)为X,Y相邻出现在文本中的几率,P(X)、P(Y)分别为汉字X、Y在文本中出现的几率,相邻的两个字同时出现的次数越多,其可信度越高,由汉字X、Y组成的词组也越有可能成为关键词;
S22:提取互现系数M(X,Y)>0的词条作为文本的关键词,形成关键词集合;
S23:在关键词中去除平凡词,筛选得到文本的特征项,电网监控告警信息中会存在大量含有“的”、“了”等的平凡词,上述平凡词对于文本描述的内容无贡献,因此将这类词排除在外,最终形成文本的特征项集合:θ={δ1,δ2,δ3…δn},其中δ为筛选后得到的关键词;
S24:通过TF-IDF公式为文本的特征项赋予权重,其计算公式为:
其中,f(δτ,d)为词条δτ在文档中出现频率,N为所有文档的个数,zτ为含有词条δτ的文档个数;由TF-IDF公式计算得到的权重系数表征了词条的特异性,若wτ越大则表明词条δτ的特异性越高,在不同文档中出现的比率越低,但在单个文档中出现的频次越高,那么词条δτ用于表征文档d的可信度越高;
S25:建立文本的空间特征向量,通过上一步可以计算得到不同词条在文档中的权重;但是这样得到的权重没有进行归一化处理,归一化处理后的权重为:
因此任意文档可以表征为一个二维向量,其形式如下式(7)所示:
{[δ1,W1],[δ2,W2],…[δn,Wn]} (7)
将不同的词条作为一个坐标轴,对应的二维向量则可以看作是该空间中的一个向量。
如图3所示,所述基于K-means算法的聚类分析,包括以下步骤:
S31:随机抽取k个向量形成k个初始簇,即{Si…Si+k}(其中i为自然数),这k个对象均可以表示成{[δ1,W1],[δ2,W2],…[δn,Wn]},一个二维的特征向量集合;
S32:从文本集合中逐个抽取文本,采用夹角余弦公式,计算新文本和不同簇的中心特征向量的相似度,夹角余弦公式为:
其中i,j为自然数,为告警信息文档Si、Sj在空间{δ1,δ2,…δn}中的特征向量,[Wi,1,Wi,2…Wi,n]和[Wj,1,Wj,2…Wj,n]。
S33:将新文本归入相似度最高的簇,根据计算得到的相似度,将新文本归类到最为相似的簇中,并重新计算该簇的平均值,其计算公式为:
其中a为原簇中文本的个数,[Wj,1,Wj,2…Wj,n]为原簇的特征向量,[Wi,1,Wi,2…Wi,n]为新增文本的特征向量,通过式(9)计算将结果作为该簇新的特征向量;
S34:计算重新整合后的簇的评价函数,评价函数的计算公式为:
式(10)中,J为评价函数,其大小为任意对象,即文本S与各个簇特征向量的相似度之和;xn文本文档Sv对应的特征向量,为第k个簇的特征向量,为文档Sv与第k个簇的相似度。Zk为第k个簇中含有的元素个数,K为所有簇的个数;
S35:重复上述步骤二、三、四,直至评价函数维持不变为止,此时得到的K个簇则基本处于正交形态,其特征向量可以代表不同的典型告警信号模板;
S36:人工干预辨识,对分类完成的簇进行识别。通过查看不同簇中的文本文档人工识别该簇代表的告警信号的现实意义。
综上所述,通过以上所有步骤可以对任意时间长度的告警信号进行聚类分析,将其转化为对应的k个典型特征向量(即k个典型故障告警文本模板)。
如图4所示,所述告警信号的智能辨识,包括以下步骤:
S41:每隔10秒统计一次最近30秒的告警信号,形成新增文本S;
S42:根据聚类分析得到的特征词条{δ1,δ2,…δn}为依据,采用TF-IDF公式计算权重,形成空间特征向量:{[δ1,W1],[δ2,W2],…[δn,Wn]};
S43:将新增文本分类至最相似的簇,将新增告警信息文本的特征向量与训练得到的簇的中心特征向量进行相似度计算;将新增告警信息文本归入最相似的簇中,实现告警信息文本的分类;
S44:根据该簇代表的现实意义,辨识新增告警信息文本代表的现实意义。
如图5所示,为本发明公开的一个实施例,本发明利用电网监控系统中的历史告警信息为数据样本,采用聚类的方法分析电网监控信息的聚类规则,得到电网告警信息的典型模板及其对应的空间特征向量。在电网发出新的告警信号时,通过相似度计算对其辨识和分类,实现电网监控告警信号的智能辨识和分类。该方法可以大幅降低电网调度监控人员的负担,辅助监控人员及时发现电网设备发出的告警信号,保持电网的安全稳定运行。
Claims (4)
1.一种基于聚类的电网运行监控信息辨识分类方法,其特征在于:依次包括以下步骤:
数据样本的预处理;
建立文本的空间特征向量;
基于K-means算法的聚类分析;
告警信号的智能辨识;
所述数据样本的预处理,包括以下步骤:
步骤一:按告警信号发出时间划分形成文本,将历史告警信号输入,按时段划分告警信号,每隔3秒统计一次最近3秒内发出的监控信息个数;将电网监控告警信息表征为下式(1)形式:
S=[(t1,m1,c1),(t2,m2,c2)…(tr,mr,cr)] (1)
式中S为按时段划分后得到的监控告警信息文档,th(h=1,2,…,r)表示第h个时长为3秒的时段,mh(h=1,2,…,r)表示第h个时段中出现的告警信号个数,其中(tr,mr,cr)被称为一个数据项,表示tr时间段内接收到的告警信息条数mr,以及告警文本内容cr;
步骤二:建立文本的信息熵模型,电网事故发生时,与事故相关的告警信号一般在10秒以内都会发出;为避免漏掉有效信号,本方法以30秒为时间跨度形成对应的监控告警信号文档S;并计算监控告警信息文档S的信息熵;其计算公式如下式(2):
其中φ为常数,l为预先划分的状态数,其数值大小为监控系统在3秒内接收到告警信号条数的最大值,P(q)为对应状态在文档S中出现的概率,其大小为:
式(3)中Xq为30秒内的10个数据项中告警信号条数为mh=q的个数,为总的样本个数,对应集合的监控信息熵越大,其无序程度越高;反之,监控告警信息文档S的无序程度越低;
步骤三:筛选掉信息熵值低于0.3的告警信息文档,以30秒为时间跨度,每隔10秒进行一次采样,计算对应的监控告警信息文档S的熵,将信息熵H(S)<0.3的监控信息文档筛选掉,即排除监控告警信号发出特别规律的时段;
步骤四:计算得出信息熵贡献值最大的数据项,针对剩下的有效告警信息文本,逐项删除文档S中的数据项,即(th,mh,ch),并计算删除时间段后的信息熵H'(S),确定对文本文档信息熵贡献度最大的数据项,并将其作为文本文档的中心;
步骤五:删除数据项,直至信息熵H(S)降低,以文本文档信息熵贡献度最大的数据项作为中心,从文档时间尺度的边缘开始逐渐删除数据项,直至H(S')<H(S)。
2.根据权利要求1所述一种基于聚类的电网运行监控信息辨识分类方法,其特征在于:所述建立文本的空间特征向量,包括以下步骤:
步骤一:计算文本中汉字X、Y的互现系数,统计所有告警信息文档中汉字的出现频率,并按照式(4)统计两个汉字的互现信息系数M:
其中M(X,Y)为汉字X和Y的互现信息系数,P(X,Y)为X,Y相邻出现在文本中的几率,P(X)、P(Y)分别为汉字X、Y在文本中出现的几率,相邻的两个字同时出现的次数越多,其可信度越高,由汉字X、Y组成的词组也越有可能成为关键词;
步骤二:提取互现系数M(X,Y)>0的词条作为文本的关键词,形成关键词集合;
步骤三:在关键词中去除平凡词,筛选得到文本的特征项,电网监控告警信息中会存在大量的平凡词,对于文本描述的内容无贡献,因此将这类词排除在外,最终形成文本的特征项集合:θ={δ1,δ2,δ3…δn},其中δ为筛选后得到的关键词;
步骤四:通过TF-IDF公式为文本的特征项赋予权重,其计算公式为:
其中,f(δτ,d)为词条δτ在文档中出现频率,N为所有文档的个数,zτ为含有词条δτ的文档个数;由TF-IDF公式计算得到的权重系数表征了词条的特异性,若wτ越大则表明词条δτ的特异性越高,在不同文档中出现的比率越低,但在单个文档中出现的频次越高,那么词条δτ用于表征文档d的可信度越高;
步骤五:建立文本的空间特征向量,通过上一步可以计算得到不同词条在文档中的权重;但是这样得到的权重没有进行归一化处理,归一化处理后的权重为:
因此任意文档可以表征为一个二维向量,其形式如下式(7)所示:
{[δ1,W1],[δ2,W2],…[δn,Wn]} (7)
3.根据权利要求1所述一种基于聚类的电网运行监控信息辨识分类方法,其特征在于:所述基于K-means算法的聚类分析,包括以下步骤:
步骤一:随机抽取k个向量形成k个初始簇,即{Si…Si+k},这k个对象均可以表示成{[δ1,W1],[δ2,W2],…[δn,Wn]},一个二维的特征向量集合;
步骤二:从文本集合中逐个抽取文本,采用夹角余弦公式,计算新文本和不同簇的中心特征向量的相似度,夹角余弦公式为:
为告警信息文档Si、Sj在空间{δ1,δ2,…δn}中的特征向量,[Wi,1,Wi,2…Wi,n]和[Wj,1,Wj,2…Wj,n];
步骤三:将新文本归入相似度最高的簇,根据计算得到的相似度,将新文本归类到最为相似的簇中,并重新计算该簇的平均值,其计算公式为:
其中a为原簇中文本的个数,[Wj,1,Wj,2…Wj,n]为原簇的特征向量,[Wi,1,Wi,2…Wi,n]为新增文本的特征向量,通过式(9)计算将结果作为该簇新的特征向量;
步骤四:计算重新整合后的簇的评价函数,评价函数的计算公式为:
式(10)中,J为评价函数,其大小为任意对象;xv本文档Sv对应的特征向量,为第k个簇的特征向量,为文档Sv与第k个簇的相似度;Zk为第k个簇中含有的元素个数,K为所有簇的个数;
步骤五:重复上述步骤二、三、四,直至评价函数维持不变为止,此时得到的K个簇处于正交形态,其特征向量代表不同的典型告警信号模板;
步骤六:人工干预辨识,对分类完成的簇进行识别;通过查看不同簇中的文本文档人工识别该簇代表的告警信号的现实意义。
4.根据权利要求1所述一种基于聚类的电网运行监控信息辨识分类方法,其特征在于:所述告警信号的智能辨识,包括以下步骤:
步骤一:每隔10秒统计一次最近30秒的告警信号,形成新增文本S;
步骤二:根据聚类分析得到的特征词条{δ1,δ2,…δn}为依据,采用TF-IDF公式计算权重,形成空间特征向量:{[δ1,W1],[δ2,W2],…[δn,Wn]};
步骤三:将新增文本分类至最相似的簇,将新增告警信息文本的特征向量与训练得到的簇的中心特征向量进行相似度计算;将新增告警信息文本归入最相似的簇中,实现告警信息文本的分类;
步骤四:根据该簇代表的现实意义,辨识新增告警信息文本代表的现实意义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510947066.6A CN105574165B (zh) | 2015-12-17 | 2015-12-17 | 一种基于聚类的电网运行监控信息辨识分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510947066.6A CN105574165B (zh) | 2015-12-17 | 2015-12-17 | 一种基于聚类的电网运行监控信息辨识分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105574165A CN105574165A (zh) | 2016-05-11 |
CN105574165B true CN105574165B (zh) | 2019-11-26 |
Family
ID=55884296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510947066.6A Expired - Fee Related CN105574165B (zh) | 2015-12-17 | 2015-12-17 | 一种基于聚类的电网运行监控信息辨识分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105574165B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106327356B (zh) * | 2016-08-01 | 2019-11-15 | 国家电网公司 | 一种基于数据挖掘的配电网故障精准定位方法 |
CN106846170B (zh) * | 2016-12-22 | 2020-12-25 | 国网上海市电力公司 | 一种发电机组跳闸监测方法及其监测装置 |
CN107315777A (zh) * | 2017-05-31 | 2017-11-03 | 国家电网公司 | 一种基于k最近邻算法的电网监控信号的分类压缩方法 |
CN107340766B (zh) * | 2017-07-10 | 2019-04-12 | 浙江大学 | 基于相似度的电力调度告警信号文本归类及故障诊断方法 |
CN107919664A (zh) * | 2017-11-07 | 2018-04-17 | 国网安徽省电力公司 | 一种配网运行状态的特征标签定义方法 |
CN108804574B (zh) * | 2018-05-23 | 2021-06-04 | 东软集团股份有限公司 | 告警提示方法、装置、计算机可读存储介质及电子设备 |
CN111539493B (zh) * | 2020-07-08 | 2020-11-27 | 北京必示科技有限公司 | 一种告警预测方法、装置、电子设备及存储介质 |
CN115358647A (zh) * | 2022-10-24 | 2022-11-18 | 齐鲁云商数字科技股份有限公司 | 基于大数据的氢能产业链风险监测系统及监测方法 |
CN117370790A (zh) * | 2023-10-13 | 2024-01-09 | 江苏智谨创新能源科技有限公司 | 一种光伏发电组件故障自动报警方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN102426631A (zh) * | 2011-11-01 | 2012-04-25 | 南京理工大学常熟研究院有限公司 | 一种基于高维空间映射的k调和均值聚类方法 |
CN103678274A (zh) * | 2013-04-15 | 2014-03-26 | 南京邮电大学 | 一种基于改进互信息和熵的文本分类特征提取方法 |
CN105022840A (zh) * | 2015-08-18 | 2015-11-04 | 新华网股份有限公司 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8965127B2 (en) * | 2013-03-14 | 2015-02-24 | Konica Minolta Laboratory U.S.A., Inc. | Method for segmenting text words in document images |
US10007716B2 (en) * | 2014-04-28 | 2018-06-26 | Moogsoft, Inc. | System for decomposing clustering events from managed infrastructures coupled to a data extraction device |
-
2015
- 2015-12-17 CN CN201510947066.6A patent/CN105574165B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN102426631A (zh) * | 2011-11-01 | 2012-04-25 | 南京理工大学常熟研究院有限公司 | 一种基于高维空间映射的k调和均值聚类方法 |
CN103678274A (zh) * | 2013-04-15 | 2014-03-26 | 南京邮电大学 | 一种基于改进互信息和熵的文本分类特征提取方法 |
CN105022840A (zh) * | 2015-08-18 | 2015-11-04 | 新华网股份有限公司 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105574165A (zh) | 2016-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105574165B (zh) | 一种基于聚类的电网运行监控信息辨识分类方法 | |
CN104363106B (zh) | 一种基于大数据技术的电力信息通信故障预警分析方法 | |
CN107492952A (zh) | 一种调控中心告警信号分析方法及基于它的智能告警系统 | |
CN109726246A (zh) | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 | |
CN106780115A (zh) | 异常用电监测与定位系统及方法 | |
CN109710647B (zh) | 一种基于关键字搜索的电网台账数据融合方法及装置 | |
CN110309884A (zh) | 基于泛在电力物联网体系的用电数据异常识别系统 | |
CN105426908A (zh) | 一种基于卷积神经网络的变电站属性分类方法 | |
CN112134871A (zh) | 一种能源互联网信息支撑网络的异常流量检测装置及方法 | |
CN111667108A (zh) | 一种配网抢修时长预测方法 | |
CN104484651B (zh) | 人像动态对比方法及系统 | |
CN111044845B (zh) | 基于Apriori算法的配电网事故识别方法及系统 | |
CN111163075B (zh) | 电力监控系统设备性能指标阈值动态调整方法 | |
CN114924518A (zh) | 一种智慧水务用信息处理系统及处理方法 | |
CN113708350B (zh) | 一种基于云边协同的配电台区重过载异常判断方法及系统 | |
CN111144472A (zh) | 基于gbdt算法的攻击识别方法及光伏并网接口装置 | |
CN107301516A (zh) | 一种电力工作现场安全管理的方法及系统 | |
CN104657814A (zh) | 基于ems系统的继电保护装置信号模板抽取定义方法 | |
CN105446242B (zh) | 一种智能设备自动识别系统 | |
CN107782954B (zh) | 一种基于大量过电压次数数据的变压器过电压预警方法 | |
CN106127602A (zh) | 一种基于约简离群点算法的窃电辨识方法及装置 | |
CN103390035A (zh) | 一种基于正则表达式的智能告警信号类型匹配方法 | |
CN102541909A (zh) | 仓库数据管理方法 | |
CN107315777A (zh) | 一种基于k最近邻算法的电网监控信号的分类压缩方法 | |
CN206322255U (zh) | 一种基于h264视频解码技术的门禁系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191126 Termination date: 20201217 |