CN105574165B

CN105574165B - 一种基于聚类的电网运行监控信息辨识分类方法

Info

Publication number: CN105574165B
Application number: CN201510947066.6A
Authority: CN
Inventors: 舒征宇; 刘庆国; 胡为民; 童华敏; 黄文涛; 何俊; 王磊; 向昆
Original assignee: State Grid Corp of China SGCC; Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2019-11-26
Anticipated expiration: 2035-12-17
Also published as: CN105574165A

Abstract

本发明提出的一种基于聚类的电网运行监控信息智能辨识分类方法。该方法将聚类分析引入到电网监控的研究中，在对历史存档的电网监控告警信号进行预处理的前提下，将其转化为有效的告警信号文档集合。并采用聚类分析的方法建立对应的空间特征向量，结合K‑means算法计算得出典型的告警信号空间特征向量。有新的告警信息出现时可通过计算新增告警信息与典型告警信号空间特征向量的相似度对新增告警信号进行分类。从而实现电网监控信息自动分类，达到提高电网设备告警信号的辨识效率，防止信号的漏看和错误辨识的现象，保障电网安全稳定运行的目的。

Description

一种基于聚类的电网运行监控信息辨识分类方法

技术领域

本发明涉及电网调度监控的人工智能技术领域，更具体的说，涉及一种基于聚类的电网运行监控信息智能辨识分类方法。

背景技术

随着我国电力行业的发展，变电和输电设备的自动化改造不断深入，以往有人值守的运维模式逐渐在向无人值守、集中监控的模式进行转化。目前全国绝大部分110kV及以上电压等级的变电站都采用集中监控的模式进行管理，现场电力设备的异常和告警信号都通过通信设施直接传输到调控中心已文本的形式展示给电网监控人员。

目前，我国关于电网异常信号的监视主要采用人工监屏的方式，设正值一人、副职两人进行监屏。然而人工监屏受到外部影响因素较多，当电网正常操作和电网设备异常时都会发出大量的电气量信号、物理信号，这些异常信号的筛选和辨识会消耗监控人员大量时间，若不能及时判断故障发生情况则会影响事故处理的及时性。而一旦发生信号漏看或辨识错误的现象，则会对电网设备造成不可估量的损失。因此，研究一种适用于电网监控的文本自动辨识方法，独立于人工辨识以外提供辅助功能，是当前亟需解决的热点问题。可以有效减轻监控人员的负担、加快电网事故处理的流程、避免信号漏看导致的电网事故。

发明内容

本发明提出一种基于聚类的电网运行监控信息智能辨识分类方法，以调度监控收到的告警信号为样本，通过聚类分析的方法形成典型告警信号的特征向量，从而实现对告警信号的自动核对和辨识。最终达到提高电网设备告警信号的辨识效率，防止信号的漏看和错误辨识，保障电网安全稳定运行的目的。

为了实现上述目的，本发明的技术方案是：一种基于聚类的电网运行监控信息辨识分类方法，依次包括以下步骤：

数据样本的预处理；

建立文本的空间特征向量；

基于K-means算法的聚类分析；

告警信号的智能辨识。

所述数据样本的预处理，包括以下步骤：

步骤一：按告警信号发出时间划分形成文本，将历史告警信号输入，按时段划分告警信号，每隔3秒统计一次最近3秒内发出的监控信息个数；将电网监控告警信息表征为下式(1)形式：

S＝[(t₁,m₁,c₁),(t₂,m₂,c₂)…(t_r,m_r,c_r)] (1)

式中S为按时段划分后得到的监控告警信息文档，t_h(h＝1,2,…,r)表示第h个时长为3秒的时段，m_h(h＝1,2,…,r)表示第h个时段中出现的告警信号个数，其中(t_r,m_r,c_r)被称为一个数据项，表示t_r时间段内接收到的告警信息条数m_r，以及告警文本内容c_r；

步骤二：建立文本的信息熵模型，电网事故发生时，与事故相关的告警信号一般在10秒以内都会发出；为避免漏掉有效信号，本方法以30秒为时间跨度形成对应的监控告警信号文档S；并计算监控告警信息文档S的信息熵。其计算公式如下式(2)：

其中φ为常数，l为预先划分的状态数，其数值大小为监控系统在3秒内接收到告警信号条数的最大值，P(q)为对应状态在文档S中出现的概率，其大小为：

式(3)中X_q为30秒内的10个数据项中告警信号条数为m_h＝q的个数，为总的样本个数，对应集合的监控信息熵越大，其无序程度越高；反之，监控告警信息文档S的无序程度越低；

步骤三：筛选掉信息熵值低于0.3的告警信息文档，以30秒为时间跨度，每隔10秒进行一次采样，计算对应的监控告警信息文档S的熵，将信息熵H(S)<0.3的监控信息文档筛选掉，即排除监控告警信号发出特别规律的时段；

步骤四：计算得出信息熵贡献值最大的数据项，针对剩下的有效告警信息文本，逐项删除文档S中的数据项，即(t_h,m_h,c_h)，并计算删除时间段后的信息熵H'(S)，确定对文本文档信息熵贡献度最大的数据项，并将其作为文本文档的中心；

步骤五：删除数据项，直至信息熵信息熵H(S)降低，以文本文档信息熵贡献度最大的数据项作为中心，从文档时间尺度的边缘开始逐渐删除数据项，直至H(S')<H(S)。

所述建立文本的空间特征向量，包括以下步骤：

步骤一：计算文本中汉字X、Y的互现系数，统计所有告警信息文档中汉字的出现频率，并按照式(4)统计两个汉字的互现信息系数M：

其中M(X,Y)为汉字X和Y的互现信息系数，P(X,Y)为X,Y相邻出现在文本中的几率，P(X)、P(Y)分别为汉字X、Y在文本中出现的几率，相邻的两个字同时出现的次数越多,其可信度越高，由汉字X、Y组成的词组也越有可能成为关键词；

步骤二：提取互现系数M(X,Y)>0的词条作为文本的关键词，形成关键词集合；

步骤三：在关键词中去除平凡词，筛选得到文本的特征项，电网监控告警信息中会存在大量含有“的”、“了”等的平凡词，上述平凡词对于文本描述的内容无贡献，因此将这类词排除在外，最终形成文本的特征项集合：θ＝{δ₁,δ₂,δ₃…δ_n}，其中δ为筛选后得到的关键词；

步骤四：通过TF-IDF公式为文本的特征项赋予权重，其计算公式为：

其中，f(δ_τ,d)为词条δ_τ在文档中出现频率，N为所有文档的个数，z_τ为含有词条δ_τ的文档个数；由TF-IDF公式计算得到的权重系数表征了词条的特异性，若w_τ越大则表明词条δ_τ的特异性越高，在不同文档中出现的比率越低，但在单个文档中出现的频次越高，那么词条δ_τ用于表征文档d的可信度越高；

步骤五：建立文本的空间特征向量，通过上一步可以计算得到不同词条在文档中的权重；但是这样得到的权重没有进行归一化处理，归一化处理后的权重为：

因此任意文档可以表征为一个二维向量，其形式如下式(7)所示：

{[δ₁,W₁],[δ₂,W₂],…[δ_n,W_n]} (7)

将不同的词条作为一个坐标轴，对应的二维向量则可以看作是该空间中的一个向量。

所述基于K-means算法的聚类分析，包括以下步骤：

步骤一：随机抽取k个向量形成k个初始簇，即{S_i…S_i+k}(其中i为自然数)，这k个对象均可以表示成{[δ₁,W₁],[δ₂,W₂],…[δ_n,W_n]}，一个二维的特征向量集合；

步骤二：从文本集合中逐个抽取文本，采用夹角余弦公式，计算新文本和不同簇的中心特征向量的相似度，夹角余弦公式为：

其中i，j为自然数，为告警信息文档S_i、S_j在空间{δ₁,δ₂,…δ_n}中的特征向量，[W_i,1,W_i,2…W_i,n]和[W_j,1,W_j,2…W_j,n]。

步骤三：将新文本归入相似度最高的簇，根据计算得到的相似度，将新文本归类到最为相似的簇中，并重新计算该簇的平均值，其计算公式为：

其中a为原簇中文本的个数，[W_j,1,W_j,2…W_j,n]为原簇的特征向量，[W_i,1,W_i,2…W_i,n]为新增文本的特征向量，通过式(9)计算将结果作为该簇新的特征向量；

步骤四：计算重新整合后的簇的评价函数，评价函数的计算公式为：

式(10)中，J为评价函数，其大小为任意对象，即文本S与各个簇特征向量的相似度之和；x_v为文本文档S_v对应的特征向量，为第k个簇的特征向量，为文档S_v与第k个簇的相似度。Z_k为第k个簇中含有的元素个数，K为所有簇的个数；

步骤五：重复上述步骤二、三、四，直至评价函数维持不变为止，此时得到的K个簇则基本处于正交形态，其特征向量可以代表不同的典型告警信号模板；

步骤六：人工干预辨识，对分类完成的簇进行识别。通过查看不同簇中的文本文档人工识别该簇代表的告警信号的现实意义。

所述告警信号的智能辨识，包括以下步骤：

步骤一：每隔10秒统计一次最近30秒的告警信号，形成新增文本S；

步骤二：根据聚类分析得到的特征词条{δ₁,δ₂,…δ_n}为依据，采用TF-IDF公式计算权重，形成空间特征向量：{[δ₁,W₁],[δ₂,W₂],…[δ_n,W_n]}；

步骤三：将新增文本分类至最相似的簇，将新增告警信息文本的特征向量与训练得到的簇的中心特征向量进行相似度计算；将新增告警信息文本归入最相似的簇中，实现告警信息文本的分类；

步骤四：根据该簇代表的现实意义，辨识新增告警信息文本代表的现实意义。

从上述方法可以发现，本发明提出的一种基于聚类的电网运行监控信息智能辨识分类方法。该方法将聚类分析引入到电网监控的研究中，在对历史存档的电网监控告警信号进行预处理的前提下，将其转化为有效的告警信号文档集合。并采用聚类分析的方法建立对应的空间特征向量，结合K-means算法计算得出典型的告警信号空间特征向量。有新的告警信息出现时可通过计算新增告警信息与典型告警信号空间特征向量的相似度对新增告警信号进行分类。从而实现电网监控信息自动分类，达到提高电网设备告警信号的辨识效率，防止信号的漏看和错误辨识的现象，保障电网安全稳定运行的目的。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为本发明数据样本的预处理流程；

图2为本发明建立文本的空间特征向量的流程；

图3为本发明基于K-means算法的聚类分析流程图；

图4为本发明告警信号的智能辨识流程图；

图5为本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示，所述数据样本的预处理，包括以下步骤：

S11：按告警信号发出时间划分形成文本，电网设备的告警信息是典型的触发式告警信息，即当有设备出现异常时发出告警信息。传递到电网监控后台机上的信息都是带有时间标签的离散信息，例如：2015-10-30 21:56:21 110kV某某线某某开关断开。为此,将历史告警信号输入，按时段划分告警信号，每隔3秒统计一次最近3秒内发出的监控信息个数；将电网监控告警信息表征为下式(1)形式：

S＝[(t₁,m₁,c₁),(t₂,m₂,c₂)…(t_r,m_r,c_r)] (1)

S12：建立文本的信息熵模型，电网事故发生时，与事故相关的告警信号一般在10秒以内都会发出。为避免漏掉有效信号，本方法以30秒为时间跨度形成对应的监控告警信号文档S；并计算监控告警信息文档S的信息熵。其计算公式如下式(2)：

S13：筛选掉信息熵值低于0.3的告警信息文档，在监控系统中单独的告警信息不能作为故障判断的依据，每当设备异常或电网故障时总是伴随着大量的一次设备的电气、物理信号和二次设备的动作信号；与之相对应单一出现的告警信号往往是电网辅助设备发出的告警信号，不能作为设备故障(或异常)的判断依据。因此，对应时段的监控信息熵越大，则该时段告警信号发出不会是规律的，其熵越大出现设备故障(或异常)的几率越高。为此，以30秒为时间跨度，每隔10秒进行一次采样，计算对应的监控告警信息文档S的熵，将信息熵H(S)<0.3的监控信息文档筛选掉，即排除监控告警信号发出特别规律的时段；

通过上述步骤可以筛选掉大部分监控信息集合加快辨识速度。剩余的监控信息文档都涵盖有30秒内的告警信息，而电网故障发生后相关联的监控信息一般在10秒以内传达到监控系统，即有效信息的时间跨度远没有30秒，因此需要对得到的监控信息文档S内的文本进行二次筛选。

S14：计算得出信息熵贡献值最大的数据项，针对剩下的有效告警信息文本，逐项删除文档S中的数据项，即(t_h,m_h,c_h)，并计算删除时间段后的信息熵H'(S)，确定对文本文档信息熵贡献度最大的数据项，并将其作为文本文档的中心；

S15：删除数据项，直至信息熵信息熵H(S)降低，以文本文档信息熵贡献度最大的数据项作为中心，从文档时间尺度的边缘开始逐渐删除数据项，直至H(S')<H(S)。

由以上步骤可以得到任意监控系统在任意时段得到的监控信息文档集合{S_i}。其中S_i＝[(t₁,m₁,c₁),(t₂,m₂,c₂)…(t_n,m_n,c_n)]为含有有效告警信息的文档。

如图2所示，所述建立文本的空间特征向量，包括以下步骤：

S21：计算文本中汉字X、Y的互现系数，由于电网告警信息是由一次、二次设备发出的标准化信息，信息集合中文本对同一事物的描述方式都相对固定，因此可以采用基于统计的分词方法对文本进行分词处理和统计。统计所有告警信息文档中汉字的出现频率，并按照式(4)统计两个汉字的互现信息系数M：

S22：提取互现系数M(X,Y)>0的词条作为文本的关键词，形成关键词集合；

S23：在关键词中去除平凡词，筛选得到文本的特征项，电网监控告警信息中会存在大量含有“的”、“了”等的平凡词，上述平凡词对于文本描述的内容无贡献，因此将这类词排除在外，最终形成文本的特征项集合：θ＝{δ₁,δ₂,δ₃…δ_n}，其中δ为筛选后得到的关键词；

S24：通过TF-IDF公式为文本的特征项赋予权重，其计算公式为：

S25：建立文本的空间特征向量，通过上一步可以计算得到不同词条在文档中的权重；但是这样得到的权重没有进行归一化处理，归一化处理后的权重为：

{[δ₁,W₁],[δ₂,W₂],…[δ_n,W_n]} (7)

如图3所示，所述基于K-means算法的聚类分析，包括以下步骤：

S31：随机抽取k个向量形成k个初始簇，即{S_i…S_i+k}(其中i为自然数)，这k个对象均可以表示成{[δ₁,W₁],[δ₂,W₂],…[δ_n,W_n]}，一个二维的特征向量集合；

S32：从文本集合中逐个抽取文本，采用夹角余弦公式，计算新文本和不同簇的中心特征向量的相似度，夹角余弦公式为：

S33：将新文本归入相似度最高的簇，根据计算得到的相似度，将新文本归类到最为相似的簇中，并重新计算该簇的平均值，其计算公式为：

S34：计算重新整合后的簇的评价函数，评价函数的计算公式为：

式(10)中，J为评价函数，其大小为任意对象，即文本S与各个簇特征向量的相似度之和；x_n文本文档S_v对应的特征向量，为第k个簇的特征向量，为文档S_v与第k个簇的相似度。Z_k为第k个簇中含有的元素个数，K为所有簇的个数；

S35：重复上述步骤二、三、四，直至评价函数维持不变为止，此时得到的K个簇则基本处于正交形态，其特征向量可以代表不同的典型告警信号模板；

S36：人工干预辨识，对分类完成的簇进行识别。通过查看不同簇中的文本文档人工识别该簇代表的告警信号的现实意义。

综上所述，通过以上所有步骤可以对任意时间长度的告警信号进行聚类分析，将其转化为对应的k个典型特征向量(即k个典型故障告警文本模板)。

如图4所示，所述告警信号的智能辨识，包括以下步骤：

S41：每隔10秒统计一次最近30秒的告警信号，形成新增文本S；

S42：根据聚类分析得到的特征词条{δ₁,δ₂,…δ_n}为依据，采用TF-IDF公式计算权重，形成空间特征向量：{[δ₁,W₁],[δ₂,W₂],…[δ_n,W_n]}；

S43：将新增文本分类至最相似的簇，将新增告警信息文本的特征向量与训练得到的簇的中心特征向量进行相似度计算；将新增告警信息文本归入最相似的簇中，实现告警信息文本的分类；

S44：根据该簇代表的现实意义，辨识新增告警信息文本代表的现实意义。

如图5所示，为本发明公开的一个实施例，本发明利用电网监控系统中的历史告警信息为数据样本，采用聚类的方法分析电网监控信息的聚类规则，得到电网告警信息的典型模板及其对应的空间特征向量。在电网发出新的告警信号时，通过相似度计算对其辨识和分类，实现电网监控告警信号的智能辨识和分类。该方法可以大幅降低电网调度监控人员的负担，辅助监控人员及时发现电网设备发出的告警信号，保持电网的安全稳定运行。

Claims

1.一种基于聚类的电网运行监控信息辨识分类方法，其特征在于：依次包括以下步骤：

数据样本的预处理；

建立文本的空间特征向量；

基于K-means算法的聚类分析；

告警信号的智能辨识；

所述数据样本的预处理，包括以下步骤：

S＝[(t₁,m₁,c₁),(t₂,m₂,c₂)…(t_r,m_r,c_r)] (1)

步骤二：建立文本的信息熵模型，电网事故发生时，与事故相关的告警信号一般在10秒以内都会发出；为避免漏掉有效信号，本方法以30秒为时间跨度形成对应的监控告警信号文档S；并计算监控告警信息文档S的信息熵；其计算公式如下式(2)：

步骤五：删除数据项，直至信息熵H(S)降低，以文本文档信息熵贡献度最大的数据项作为中心，从文档时间尺度的边缘开始逐渐删除数据项，直至H(S')<H(S)。

2.根据权利要求1所述一种基于聚类的电网运行监控信息辨识分类方法，其特征在于：所述建立文本的空间特征向量，包括以下步骤：

步骤三：在关键词中去除平凡词，筛选得到文本的特征项，电网监控告警信息中会存在大量的平凡词，对于文本描述的内容无贡献，因此将这类词排除在外，最终形成文本的特征项集合：θ＝{δ₁,δ₂,δ₃…δ_n}，其中δ为筛选后得到的关键词；

{[δ₁,W₁],[δ₂,W₂],…[δ_n,W_n]} (7)

3.根据权利要求1所述一种基于聚类的电网运行监控信息辨识分类方法，其特征在于：所述基于K-means算法的聚类分析，包括以下步骤：

步骤一：随机抽取k个向量形成k个初始簇，即{S_i…S_i+k}，这k个对象均可以表示成{[δ₁,W₁],[δ₂,W₂],…[δ_n,W_n]}，一个二维的特征向量集合；

为告警信息文档S_i、S_j在空间{δ₁,δ₂,…δ_n}中的特征向量，[W_i,1,W_i,2…W_i,n]和[W_j,1,W_j,2…W_j,n]；

式(10)中，J为评价函数，其大小为任意对象；x_v本文档S_v对应的特征向量，为第k个簇的特征向量，为文档S_v与第k个簇的相似度；Z_k为第k个簇中含有的元素个数，K为所有簇的个数；

步骤五：重复上述步骤二、三、四，直至评价函数维持不变为止，此时得到的K个簇处于正交形态，其特征向量代表不同的典型告警信号模板；

步骤六：人工干预辨识，对分类完成的簇进行识别；通过查看不同簇中的文本文档人工识别该簇代表的告警信号的现实意义。

4.根据权利要求1所述一种基于聚类的电网运行监控信息辨识分类方法，其特征在于：所述告警信号的智能辨识，包括以下步骤：