CN108156018A

CN108156018A - 电力网络设备拓扑识别方法、电子设备和计算机存储介质

Info

Publication number: CN108156018A
Application number: CN201711201440.3A
Authority: CN
Inventors: 王文君; 宋秋霞; 葛胜利; 路国正
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Global Energy Interconnection Research Institute
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-06-12
Anticipated expiration: 2037-11-27
Also published as: CN108156018B

Abstract

本申请提供了一种电力网络设备拓扑识别方法、电子设备和计算机存储介质，属于电力系统技术领域。所述方法包括：基于报文中的特征值，分别通过监督式的分类算法和无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别；对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果相同，则将相同的识别结果作为电力网络中任一电力设备的最终拓扑结果；对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果不相同，则通过无监督式的聚类算法对监督式的分类算法进行修正，得到电力网络中任一电力设备的最终拓扑结果，对于“三层两网”中的任一电力设备均可动态识别拓扑。

Description

电力网络设备拓扑识别方法、电子设备和计算机存储介质

技术领域

本申请涉及电力系统技术领域，尤其涉及电力网络设备拓扑识别方法、电子设备和计算机存储介质。

背景技术

智能变电站是以变电站一、二次设备为数字化对象，以高速网络通信平台为基础，通过对数字化信息进行标准化，实现信息共享和互操作，并以网络数据为基础，实现继电保护、数据管理等功能的新一代变电站。

依据IEC 61850，智能变电站(也可称为：数字化变电站)的结构可分为三个层次，分别为过程层、间隔层和站控层，其中：过程层是一次设备和二次设备的结合面，其主要用于实现数字采样和开关刀闸等信号的采集；间隔层主要实现作用于该间隔一次设备的功能，与各种远方输入/输出、传感器和控制器通信；站控层主要完成对间隔层、过程层设备的监视和控制。

为了更好地监控智能变电站中网络状态以及故障诊断、智能设备监控预警等需求，需要实现网络及智能设备状态的拓扑可视化，进而快速排查网络问题和故障定位，因此，急需一种电力网络设备拓扑的识别方法。

目前一种电力网络设备拓扑识别方法为基于介质访问控制(Medium AccessControl，mac)地址匹配的智能变电站网络设备拓扑动态识别方法。该方法以 mac地址为外键匹配交换机mac地址转发表、断面数据报文和智能变电站配置文件，实现了智能变电站交换机网络和智能电子设备的拓扑动态识别。

现有方法，只适用于二层交换网络，因为二层交换只与mac地址相关；IED 端口mac在变电站局域网中要满足唯一性约束且介入网络的IED端口必须向网络中发送应用数据。

发明内容

为了适应电力系统中“三层两网”的结构并且能够快速发现并定位智能变电站中未知设备的接入，本申请实施例提出了一种电力网络设备拓扑识别方法、电子设备和计算机存储介质。

第一方面，本申请实施例提供了一种电力网络设备拓扑识别方法，所述方法包括：

获取电力网络中的数据包，形成预设格式的报文；

从所述报文中提取特征值；

基于所述特征值，分别通过监督式的分类算法和无监督式的聚类算法对所述电力网络中各电力设备的拓扑进行识别；

对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果相同，则将相同的识别结果作为所述电力网络中任一电力设备的最终拓扑结果；

对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果不相同，则通过所述无监督式的聚类算法对所述监督式的分类算法进行修正，得到所述电力网络中任一电力设备的最终拓扑结果。

可选地，所述从所述报文中提取特征值，包括：

每条报文中的字段之间用逗号分隔；

各条报文之间用换行分隔；

将所有报文形成csv格式的文件；

从所述文件中提取特征值。

可选地，所述特征值包括通用特征值和个性化特征值；

所述个性化特征值包括：设备所涉及到的协议数量、设备所涉及到的报文数量、与设备发生报文交互的其他设备数量、设备发出的协议数量、设备收到的协议数量、设备发出的协议种类数量、设备收到的协议种类数量、设备发出的制造报文规范MMS报文数量、设备收到的MMS报文数量、设备发出的面向通用对象的变电站事件GOOSE报文数量、设备收到的GOOSE报文数量、设备发出的采样值SV报文数量、设备收到的SV报文数量和逻辑特征；

所述从所述文件中提取特征值，包括：

在所述文件中，对各条报文字段进行归约，提取归约后的字段为通用特征值；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的dmac，确定选择的dmac的protocal type种类，选择所述任一设备的出现mac地址的 smac，确定选择的smac的protocal type种类，将所述选择的dmac的protocal type 种类与所述选择的smac的protocal type种类中非重复种类的数量确定为所述任一设备所涉及到的协议数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的dmac，确定选择的dmac的数量n1，选择所述任一设备的出现mac地址的smac，确定选择的smac的数量n2，将n1+n2确定为所述任一设备所涉及到的报文数量；

对于所述文件中的任一设备，在所述任一设备的出现mac地址的dmac中，确定与所述任一设备发生报文交互的不同smac的数量m1，在所述任一设备的出现mac地址的smac中，确定与所述任一设备发生报文交互的不同dmac的数量m2，将m1+m2确定为与所述任一设备发生报文交互的其他设备数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的smac，将选择的smac发出报文的次数确定为所述任一设备发出的协议数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的dmac，将选择的dmac接收报文的次数确定为所述任一设备收到的协议数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的smac，将选择的smac发出的报文所属协议种类的数量确定为所述任一设备发出的协议种类数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的dmac，将选择的dmac接收的报文所属协议种类的数量确定为所述任一设备收到的协议种类数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的smac，将选择的smac中protocal type是MMS的报文数量确定为所述任一设备发出的 MMS报文数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的dmac，将选择的dmac中protocal type是MMS的报文数量确定为所述任一设备收到的 MMS报文数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的smac，将选择的smac中protocal type是GOOSE的报文数量确定为所述任一设备发出的GOOSE报文数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的dmac，将选择的dmac中protocal type是GOOSE的报文数量确定为所述任一设备收到的GOOSE报文数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的smac，将选择的smac中protocal type是SV的报文数量确定为所述任一设备发出的SV 报文数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的dmac，将选择的dmac中protocal type是SV的报文数量确定为所述任一设备收到的SV 报文数量；

在所述文件中，按如下方式确定所述逻辑特征：

在所述文件中，确定各条报文包含的设备名称；

确定所有设备名称中包括的不同字符；

统计各设备名称中出现所述不同字符的数量；

基于各设备名称中出现所述不同字符的数量进行聚类；

将每类中设备名称的特征确定为一个所述逻辑特征。

可选地，通过监督式的分类算法对所述电力网络中各电力设备的拓扑进行识别，包括：

获取已知变电站中的设备数据包交互信息，将其作为样本数据；

通过如下模型对所述电力网络中各电力设备的拓扑进行识别：

Require:

Sample X and Categories K，for allx∈X；

Probolity of x∈K：

Loss function：

Gradient descent：

其中，X为样本集，K为分类数量，F_k(x)为样本x的估计值，p_k(x)为x 属于类别k的概率，y_k为输入的样本数据的估计值，当x属于类别k时，y_k＝1，否则y_k＝0。

可选地，通过无监督式的聚类算法对所述电力网络中各电力设备的拓扑进行识别，包括：

5.1、选择K个初始中心点；

5.2、确定电力设备i与各中心点的距离，将所述电力设备i归于距离最小的中心点所在类；

5.3、对于中心点j所在类，计算c[j]＝{j所在类的所有电力设备之和}/j所在类的所有电力设备数量；

5.4、重复5.2和5.3直至连续两次执行的c[j]只差小于预设阈值；

5.5、确定当前各类的中心点，通过监督式的分类算法对将当前各类的中心点的拓扑进行识别；

5.6、将各类的中心点的识别结果作为各类中电力设备的拓扑结果。

可选地，所述通过所述无监督式的聚类算法对所述监督式的分类算法进行修正，得到所述电力网络中任一电力设备的最终拓扑结果，包括：

6.1、确定无监督式的聚类算法的第t类识别结果k_t在监督式的分类算法中对应的识别结果r_t；

6.2、确定diff(k_t，r_t)＝a_t+b_t，所述a_t为属于无监督式的聚类算法的第t类，但不属于监督式的分类算法对应的类的电力设备数量，b为属于监督式的分类算法对应的类，但不属于无监督式的聚类算法的第t类的电力设备数量；

6.3、计算各类diff的最大值max(diff)；

6.4、利用稀疏规则算子L1范数对max(diff)所在类进行规则化，重新通过无监督式的聚类算法对所述电力网络中各电力设备的拓扑进行识别，确定重新得到的无监督式的聚类算法的识别结果与监督式的分类算法的识别结果的相似度是否达到预设值，若达到，则将重新得到的无监督式的聚类算法的识别结果作为所述电力网络中任一电力设备的最终拓扑结果，若未达到，则重新执行 6.1至6.4直至重新得到的无监督式的聚类算法的识别结果与监督式的分类算法的识别结果的相似度达到预设值。

可选地，所述确定重新得到的无监督式的聚类算法的识别结果与监督式的分类算法的识别结果的相似度是否达到预设值，包括：

属于无监督式的聚类算法的各类，但不属于监督式的分类算法对应的类的电力设备数量的总和/电力设备总数量>预设值。

可选地，所述预设值为85％，K＝3。

第二方面，本申请实施例提供了一种电子设备，包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面的步骤。

第三方面，本申请实施例提供了一种计算机存储介质，其上存储有计算机程序所述程序被处理器执行时实现如上述第一方面的步骤。

有益效果如下：

本申请获取电力网络中的数据包，形成预设格式的报文；从报文中提取特征值；基于特征值，分别通过监督式的分类算法和无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别；对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果相同，则将相同的识别结果作为电力网络中任一电力设备的最终拓扑结果；对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果不相同，则通过无监督式的聚类算法对监督式的分类算法进行修正，得到电力网络中任一电力设备的最终拓扑结果，对于“三层两网”中的任一电力设备均可自动分层，实时动态识别拓扑。

附图说明

下面将参照附图描述本申请的具体实施例，其中：

图1示出了本申请一实施例提供的三层两网架构示意图；

图2示出了本申请一实施例提供的智能化变电站网络镜像口采集示意图；

图3示出了本申请一实施例提供的一种电力网络设备拓扑识别方法的流程示意图；

图4示出了本申请一实施例提供的一种Wireshark抓取的GOOSE数据包解析的示意图；

图5示出了本申请一实施例提供的一种CSV格式文件示意图；

图6示出了本申请一实施例提供的一种通过无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别的结果示意图；

图7示出了本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。

目前的电力网络设备拓扑识别方法以mac地址为外键匹配交换机mac地址转发表、断面数据报文和智能变电站配置文件，实现了智能变电站交换机网络和智能电子设备的拓扑动态识别。现有方法，只适用于二层交换网络。

本申请提出了一种电力网络设备拓扑识别方法，本申请获取电力网络中的数据包，形成预设格式的报文；从报文中提取特征值；基于特征值，分别通过监督式的分类算法和无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别；对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果相同，则将相同的识别结果作为电力网络中任一电力设备的最终拓扑结果；对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果不相同，则通过无监督式的聚类算法对监督式的分类算法进行修正，得到电力网络中任一电力设备的最终拓扑结果，对于“三层两网”中的任一电力设备均可自动分层，实时动态识别拓扑。

IEC61850标准提出的变电站的三层两网结构，如图1所示，其中，“三层”从底向上依次表示为过程层、间隔层以及站控层，“两网”从底向上依次表示为间隔层网络和站控层网络，这两层网络在物理上相互独立。

IEC 61850的三层两网结构中有如下规则：

·间隔层和站控层之间交换保护数据；

·间隔层内交换数据；

·过程层和间隔层之间交换瞬时采样数据；

·过程层和间隔层之间交换控制数据；

·间隔层和变电站层之间交换控制数据；

·间隔层之间交换数据。

如图2所示，在数字化变电站上的核心交换机镜像口接入数据采集平台，采集电力网络中的流量信息，并将和电力设备相关的通讯协议：如IEC-60870-5-104规约、IEC61850规约等工业控制系统通信协议进行解析后入库，主要涉及的协议有MMS(ManufacturingMessage Specification，制造报文规范)、GOOSE(Generic Object Oriented SubstationEvent，面向通用对象的变电站事件)、SV(Sampled Value，采样值)等，各个协议的特点与网络设备的分层紧密相关。

站控层网络设备包括站控层中心交换机和间隔交换机。站控层中心交换机连接数据通信网关机、监控主机、综合应用服务器、数据服务器等设备间隔交换机链接间隔内的保护、测控和其他智能电子设备。间隔交换机与中心交换机通过光纤连成同一物理网络。站控层和间隔层之间的网络通信协议采用MMS，故也称为MMS网。网络可通过划分虚拟局域网VLAN分割成不同的逻辑网段，也就是不同的通道。

过程层网络包括GOOSE网和SV网。GOOSE网用于间隔层和过程层设备之间的状态与控制数据交换。GOOSE网一般按电压等级配置，220kV以上电压等级采用双网，保护装置与本间隔的智能终端之间采用GOOSE点对点通信方式。SV网用于间隔层和过程层设备之间的采样值传输，保护装置与本间隔的合并单元之间也采用点对点的方式接入SV数据。

结合上述实施环境、IEC61850标准以及三层两网架构，参见图3所示的实施例，本实施例提供了一种电力网络设备拓扑识别方法，本实施例提供的方法流程具体如下：

301，获取电力网络中的数据包，形成预设格式的报文。

本步骤可以使用Wireshark对网络中的数据进行抓包分析，生成预设格式的报文。

如图4所示的Wireshark抓取的数据包列子，该数据包涉及的协议是GOOSE协议。在该数据包中，可以详细看到源设备和目的设备的、mac地址、数据包类型、发生数据包的时间，以及发出具体的明细数据。

302，从报文中提取特征值。

通过本步骤可以抽取电力“三层两网”中不同层级设备所收到和发出数据包的类型、频次以及协议的不同特征值。

本步骤的实现方式如下：

302-1，每条报文中的字段之间用逗号分隔。

302-2，各条报文之间用换行分隔。

302-3，将所有报文形成csv格式的文件。

执行302-1至302-3后可形成图5所示的报文，其部分字段表示的含义见表1。

表1

302-4，从文件中提取特征值。

其中，特征值包括通用特征值和个性化特征值。

1、通用特征值

按如下方法提取：在文件中，对各条报文字段进行归约，提取归约后的字段为通用特征值。

由于通过对原始报文进行整理和规约，可以降低后续拓扑识别时解析难度，因此，归约后的每个字段都可作为设备发出或收到的特征值，使得本提案提取归约后的所有字段均作为通用特征值。

2、个性化特征值

包括：设备所涉及到的协议数量、设备所涉及到的报文数量、与设备发生报文交互的其他设备数量、设备发出的协议数量、设备收到的协议数量、设备发出的协议种类数量、设备收到的协议种类数量、设备发出的MMS报文数量、设备收到的MMS报文数量、设备发出的GOOSE报文数量、设备收到的GOOSE 报文数量、设备发出的SV报文数量、设备收到的SV报文数量和逻辑特征。

各个性化特征值按如下方式提取：

(1)设备所涉及到的协议数量

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，确定选择的dmac的protocal type种类，选择任一设备的出现mac地址的smac，确定选择的smac的protocaltype种类，将选择的dmac的protocal type种类与选择的smac的protocal type种类中非重复种类的数量确定为任一设备所涉及到的协议数量。

(2)设备所涉及到的报文数量

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，确定选择的dmac的数量n1，选择任一设备的出现mac地址的smac，确定选择的smac 的数量n2，将n1+n2确定为任一设备所涉及到的报文数量。

(3)与设备发生报文交互的其他设备数量

对于文件中的任一设备，在任一设备的出现mac地址的dmac中，确定与任一设备发生报文交互的不同smac的数量m1，在任一设备的出现mac地址的 smac中，确定与任一设备发生报文交互的不同dmac的数量m2，将m1+m2确定为与任一设备发生报文交互的其他设备数量。

(4)设备发出的协议数量

对于文件中的任一设备，选择任一设备的出现mac地址的smac，将选择的smac发出报文的次数确定为任一设备发出的协议数量。

(5)设备收到的协议数量

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，将选择的dmac接收报文的次数确定为任一设备收到的协议数量。

(6)设备发出的协议种类数量

对于文件中的任一设备，选择任一设备的出现mac地址的smac，将选择的smac发出的报文所属协议种类的数量确定为任一设备发出的协议种类数量。

(7)设备收到的协议种类数量

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，将选择的dmac接收的报文所属协议种类的数量确定为任一设备收到的协议种类数量。

(8)设备发出的MMS报文数量

对于文件中的任一设备，选择任一设备的出现mac地址的smac，将选择的smac中protocal type是MMS的报文数量确定为任一设备发出的MMS报文数量。

(9)设备收到的MMS报文数量

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，将选择的dmac中protocal type是MMS的报文数量确定为任一设备收到的MMS报文数量。

(10)设备发出的GOOSE报文数量

对于文件中的任一设备，选择任一设备的出现mac地址的smac，将选择的smac中protocal type是GOOSE的报文数量确定为任一设备发出的GOOSE 报文数量。

(11)设备收到的GOOSE报文数量

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，将选择的dmac中protocal type是GOOSE的报文数量确定为任一设备收到的GOOSE 报文数量。

(12)设备发出的SV报文数量

对于文件中的任一设备，选择任一设备的出现mac地址的smac，将选择的smac中protocal type是SV的报文数量确定为任一设备发出的SV报文数量。

(13)设备收到的SV报文数量

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，将选择的dmac中protocal type是SV的报文数量确定为任一设备收到的SV报文数量。

例如，上述13个个性化特征值在实际应用中的提取方式如表2所示。

表2

(14)逻辑特征

本申请根据对报文的分析，结合业务逻辑，对报文中的某些特定字段进行数据挖掘提取设备的逻辑特征。

在文件中，按如下方式确定逻辑特征：

①在文件中，确定各条报文包含的设备名称。

在报文中存在有一个字段包含有设备的名称信息，本提案从该字段中确定各条报文包含的设备名称。

②确定所有设备名称中包括的不同字符。

③统计各设备名称中出现不同字符的数量。

如按照设备名称的字符出现的次数进行统计如表3所示：

表3

④基于各设备名称中出现不同字符的数量进行聚类。

如利用TFIDF算法进行计算，将设备名称映射到空间上的点，最后进行聚类，K′的取值可以根据经验值而定(如将K′确定为变电站设备大概有的类别数量)，假设取值为4类，K′＝4，则得到如表4所示的结果。

表4

⑤将每类中设备名称的特征确定为一个逻辑特征。

表4所示，K′₀类中设备名称的特征为设备名称含有“22”和“PIGO”； K′₁类中设备名称的特征为设备名称含有“PRIT”，K′₂类中设备名称的特征为字符串长度为9；K′₃类中设备名称的特征为设备名称含有“MM”和“MUGO”。将每类中设备名称的特征确定为一个逻辑特征，即本提案中的逻辑特征数量并不固定，而是与K′的值相同，该逻辑特征可以为后拓扑的识别提供支持。

303，基于特征值识别电力网络设备的拓扑。

本步骤实现电力网络设备的拓扑进行识别，确定其在电力网络中的层级。

本步骤以“分类指导聚类，聚类验证分类”的思想为主导，寻找一种最优化的方法做设备分层算法。具体的，使用了两种不同的算法模型(监督式的分类算法和无监督式的聚类算法)对电力网络设备的拓扑进行识别，即将三层两网变电站设备进行自动分层。

具体实现方案如下：

303-1，分别通过监督式的分类算法和无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别。

1、通过监督式的分类算法对电力网络中各电力设备的拓扑进行识别。

(1)获取已知变电站中的设备数据包交互信息，将其作为样本数据；

(2)通过如下模型对电力网络中各电力设备的拓扑进行识别：

Require:

Sample X and Categories K，for allx∈X；

Probolity of x∈K：

Loss function：

Gradient descent：

即，假设对于样本集X中的一个样本x，它可能属于K个分类，其估计值分别为F₁(x),…F_k(x)，Logistic变换如下(logistic变换是一个平滑且将数据规范化的过程，使得向量的长度为1)，其结果为属于类别k的概率p_k(x)。将logistic 变换的式子带入损失函数，并对其求导，可以得到L(损失函数Loss function 用L表示)的梯度Gradient。

例如，在提取设备特征后，采集已知变电站中的设备数据包交互情况，采用上述监督式的分类算法的模型进行训练并建立“三层两网设备分层”模型。

对于一个样本，最理想的梯度是越接近0的梯度。所以，本申请要能够让函数的估计值能够使得梯度往反方向移动(>0的维度上，往负方向移动；<0 的维度上，往正方向移动)最终使得梯度尽量＝0，表示估计得越精确。

通过监督式的分类算法对电力网络中各电力设备的拓扑进行识别，可以将电力设备分为K类，每一类中的电力设备所属同一层。

如，若K＝3，则通过监督式的分类算法对电力网络中各电力设备的拓扑进行识别，可以将电力设备分为3类，若记为r1、r2、r3，可分别表示各类中的电力设备所属站控层、间隔层或过程层。

2、通过无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别。

通过如下模型对电力网络中各电力设备的拓扑进行识别：

5.1、选择K个初始中心点。

5.2、确定电力设备i与各中心点的距离，将电力设备i归于距离最小的中心点所在类。

5.3、对于中心点j所在类，计算c[j]＝{j所在类的所有电力设备之和}/j所在类的所有电力设备数量。

5.4、重复5.2和5.3直至连续两次执行的c[j]只差小于预设阈值。

执行至此，可以实现自动根据每层设备间发生的数据交互特点进行聚类，且分成K类的效果。

例如，无监督式的聚类算法不需要采集已知变电站数据，设K＝3，将具有相同特征的设备放在一类。

输入：K，data[n]。

其中，data[n]表示第n个电力设备。

(1)选择K个初始中心点，例如c[0]＝data[0],…c[k-1]＝data[k-1]。

(2)对于data[0]，…，data[n]，分别与c[0]，…，c[k-1]比较，假定与c[i] 差值最少，就标记为i。

(3)对于所有标记为i的电力设备j，即对于所有标记为i的data[j]，计算c[i]＝{所有标记为i的data[j]之和}/标记为i的电力设备的个数。

(4)重复(2)，(3)直到所有c[i]值的变化小于预设阈值。

执行至此，仅知道通过无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别的结果分为图6所示的3类(假设K＝3)，如k1、k2、k3，但并不知道各类中的电力设备属于具体哪一层。

本申请使用分类指导聚类算法确定各类中的电力设备属于具体哪一层，具体详见步骤5.5和5.6。

5.5、确定当前各类的中心点，通过监督式的分类算法对将当前各类的中心点的拓扑进行识别。

如，取k1、k2、k3三大类的中心点，将其特征值带入监督式的分类算法进行识别，得出监督式的分类算法的分类结果，就将该类所有设备归为层级。

302-2；对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果相同，则将相同的识别结果作为电力网络中任一电力设备的最终拓扑结果。

303-3，对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果不相同，则通过无监督式的聚类算法对监督式的分类算法进行修正，得到电力网络中任一电力设备的最终拓扑结果。

对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果不相同时，本申请使用聚类验证分类的思想，通过不断迭代优化两个算法，得出最优情况为最终结果。

本步骤通过无监督式的聚类算法对监督式的分类算法进行修正，得到电力网络中任一电力设备的最终拓扑结果的具体实现方案如下：

6.2、确定diff(k_t，r_t)＝a_t+b_t，a_t为属于无监督式的聚类算法的第t类，但不属于监督式的分类算法对应的类的电力设备数量，b为属于监督式的分类算法对应的类，但不属于无监督式的聚类算法的第t类的电力设备数量；

6.3、计算各类diff的最大值max(diff)；

6.4、利用稀疏规则算子L1范数对max(diff)所在类进行规则化，重新通过无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别，确定重新得到的无监督式的聚类算法的识别结果与监督式的分类算法的识别结果的相似度是否达到预设值，若达到，则将重新得到的无监督式的聚类算法的识别结果作为电力网络中任一电力设备的最终拓扑结果，若未达到，则重新执行6.1至 6.4直至重新得到的无监督式的聚类算法的识别结果与监督式的分类算法的识别结果的相似度达到预设值。

其中，确定重新得到的无监督式的聚类算法的识别结果与监督式的分类算法的识别结果的相似度是否达到预设值的实现方案为：属于无监督式的聚类算法的各类，但不属于监督式的分类算法对应的类的电力设备数量的总和/电力设备总数量>预设值。

如预设值为85％。

例如，监督式的分类算法的样本数据s有u个：s1，s2，s3，s4，…，su；

特征值f有w个：f1，f2，f3，f4，…，fw；

303-1中通过监督式的分类算法对电力网络中各电力设备的拓扑进行识别的结果为r1、r2和r3，通过无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别的结果为k1、k2和k3。

迭代次数用x表示；

两个算法的差异用diff表示；

则303-3实现如下：

6.1、确定无监督式的聚类算法的第t类识别结果k_t在监督式的分类算法中对应的识别结果r_t。

如，将无监督式的聚类算法的聚类结果k1、k2、k3三大类的中心点带入监督式的分类算法后得出的对应分类结果，假设对应结果为r3、r1和r2。

6.2、确定diff(k_t，r_t)＝a_t+b_t。

如第x次迭代的diff(k_t，r_t)表示为diff(k_t，r_t)[x]，即表示在第x次迭代，监督式的分类算法在r3上和无监督式的聚类算法在k1上有多少个点不一致，总数加起来为diff。

如确定无监督式的聚类算法的第1类识别结果为k1，该类在监督式的分类算法中对应的识别结果为r3。

假设k1中有24个值，r3中有23个值，去除相同的点后，k1有5个值不在r3中，即a₁＝5，r3有4个值不在k1中，即b₁＝4。

所以diff(k1，r3)[i]＝a₁+b₁＝4+5＝9。

同理计算出第x次迭代，其他2类的diff。

6.3、计算各类diff的最大值max(diff)。

对于第x迭代，则计算max(diff[i])。

因为diff最大的那个分类一定存在某些特征值过于明显或者具有太强的趋向性，因此需要对特征进行规则化，具体规则化方案为6.4。

步骤6.4的规则化方案是结构风险最小化策略的实现，是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。

本申请采用L1范数“稀疏规则算子”来完成特征的自动筛选。一般来说， fi的大部分元素(也就是特征)都是和最终的输出yi没有关系或者不提供任何信息的，在最小化目标函数的时候考虑fi这些额外的特征，虽然可以获得更小的训练误差，但在预测新的样本时，这些没用的信息反而会被考虑，从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择，它会学习地去掉这些没有信息的特征，也就是把这些特征对应的权重置为0。

在利用稀疏规则算子L1范数进行规则化后，重新通过无监督式的聚类算法对监督式的分类算法进行识别，重复执行6.1至6.4进行迭代优化，直到无监督式的聚类算法的识别结果和监督式的分类算法的识别结果的匹配度达到 85％的一致性，即监督式的分类算法和无监督式的聚类算法在所有分类上的一致数量超过该分类总数量的85％。

通过步骤303的“分类指导聚类，聚类验证分类”的思想，可以得到一个找到最优监督式的分类算法，无监督式的聚类算法的方法，该方法可以适用于任何一个未知的“三层两网”变电站设备，最终都可以达到设备的自动分层。

在通过本申请所提供的电力网络设备拓扑识别方法得到各设备的拓扑后，即知道了三层两网中设备的层级后，可以使用如下规则为设备之间画连线形成拓扑关系图：

1、站控层与间隔层之间一般发送MMS报文居多，且MMS报文源mac 地址与目的mac地址一般为真实的设备；

2、间隔层与过程层之间一般发送GOOSE、SV报文，GOOSE报文一般为订阅-发布模式，会分配特定范围的组播地址，其范围从0120CCD201200200 到0120C2CD2012012FF。同样SV报文也是采用发布-订阅模式，一般源mac 地址对应组播地址。

结合智能变电站中“三层两网”以及MMS、GOOSE和SV报文的各个特点，在绘制拓扑图时，引入“网络层”的概念，用来表示组播地址。

另外，各个层级的设备我们相应引入不同的图标，最终结合设备层级以及设备间的连线即可绘制出智能变电站三层两网的拓扑图。

有益效果：

基于同一发明构思，本实施例提供了一种电子设备，参见图7，包括存储器701、处理器702、总线703以及存储在存储器701上并可在处理器702上运行的计算机程序，所述处理器702执行所述程序时实现如下步骤。

获取电力网络中的数据包，形成预设格式的报文；

从报文中提取特征值；

基于特征值，分别通过监督式的分类算法和无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别；

对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果相同，则将相同的识别结果作为电力网络中任一电力设备的最终拓扑结果；

对于电力网络中任一电力设备，若其监督式的分类算法的识别结果和无监督式的聚类算法的识别结果不相同，则通过无监督式的聚类算法对监督式的分类算法进行修正，得到电力网络中任一电力设备的最终拓扑结果。

可选地，从报文中提取特征值，包括：

每条报文中的字段之间用逗号分隔；

各条报文之间用换行分隔；

将所有报文形成csv格式的文件；

从文件中提取特征值。

可选地，特征值包括通用特征值和个性化特征值；

个性化特征值包括：设备所涉及到的协议数量、设备所涉及到的报文数量、与设备发生报文交互的其他设备数量、设备发出的协议数量、设备收到的协议数量、设备发出的协议种类数量、设备收到的协议种类数量、设备发出的制造报文规范MMS报文数量、设备收到的MMS报文数量、设备发出的面向通用对象的变电站事件GOOSE报文数量、设备收到的GOOSE报文数量、设备发出的采样值SV报文数量、设备收到的SV报文数量和逻辑特征；

从文件中提取特征值，包括：

在文件中，对各条报文字段进行归约，提取归约后的字段为通用特征值；

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，确定选择的dmac的protocal type种类，选择任一设备的出现mac地址的smac，确定选择的smac的protocaltype种类，将选择的dmac的protocal type种类与选择的smac的protocal type种类中非重复种类的数量确定为任一设备所涉及到的协议数量；

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，确定选择的dmac的数量n1，选择任一设备的出现mac地址的smac，确定选择的smac 的数量n2，将n1+n2确定为任一设备所涉及到的报文数量；

对于文件中的任一设备，在任一设备的出现mac地址的dmac中，确定与任一设备发生报文交互的不同smac的数量m1，在任一设备的出现mac地址的 smac中，确定与任一设备发生报文交互的不同dmac的数量m2，将m1+m2确定为与任一设备发生报文交互的其他设备数量；

对于文件中的任一设备，选择任一设备的出现mac地址的smac，将选择的smac发出报文的次数确定为任一设备发出的协议数量；

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，将选择的dmac接收报文的次数确定为任一设备收到的协议数量；

对于文件中的任一设备，选择任一设备的出现mac地址的smac，将选择的smac发出的报文所属协议种类的数量确定为任一设备发出的协议种类数量；

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，将选择的dmac接收的报文所属协议种类的数量确定为任一设备收到的协议种类数量；

对于文件中的任一设备，选择任一设备的出现mac地址的smac，将选择的smac中protocal type是MMS的报文数量确定为任一设备发出的MMS报文数量；

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，将选择的dmac中protocal type是MMS的报文数量确定为任一设备收到的MMS报文数量；

对于文件中的任一设备，选择任一设备的出现mac地址的smac，将选择的smac中protocal type是GOOSE的报文数量确定为任一设备发出的GOOSE 报文数量；

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，将选择的dmac中protocal type是GOOSE的报文数量确定为任一设备收到的GOOSE 报文数量；

对于文件中的任一设备，选择任一设备的出现mac地址的smac，将选择的smac中protocal type是SV的报文数量确定为任一设备发出的SV报文数量；

对于文件中的任一设备，选择任一设备的出现mac地址的dmac，将选择的dmac中protocal type是SV的报文数量确定为任一设备收到的SV报文数量；

在文件中，按如下方式确定逻辑特征：

在文件中，确定各条报文包含的设备名称；

确定所有设备名称中包括的不同字符；

统计各设备名称中出现不同字符的数量；

基于各设备名称中出现不同字符的数量进行聚类；

将每类中设备名称的特征确定为一个逻辑特征。

可选地，通过监督式的分类算法对电力网络中各电力设备的拓扑进行识别，包括：

通过如下模型对电力网络中各电力设备的拓扑进行识别：

Require:

Sample X and Categories K，for allx∈X；

Probolity of x∈K：

Loss function：

Gradient descent：

可选地，通过无监督式的聚类算法对电力网络中各电力设备的拓扑进行识别，包括：

通过如下模型对电力网络中各电力设备的拓扑进行识别：

5.1、选择K个初始中心点；

5.2、确定电力设备i与各中心点的距离，将电力设备i归于距离最小的中心点所在类；

5.4、重复5.2和5.3直至连续两次执行的c[j]只差小于预设阈值；

可选地，通过无监督式的聚类算法对监督式的分类算法进行修正，得到电力网络中任一电力设备的最终拓扑结果，包括：

6.3、计算各类diff的最大值max(diff)；

可选地，确定重新得到的无监督式的聚类算法的识别结果与监督式的分类算法的识别结果的相似度是否达到预设值，包括：

可选地，预设值为85％，K＝3。

有益效果如下：

基于同一发明构思，本实施例提供了一种计算机存储介质，其上存储有计算机程序所述程序被处理器执行时实现如下步骤。

获取电力网络中的数据包，形成预设格式的报文；

从报文中提取特征值；

可选地，从报文中提取特征值，包括：

每条报文中的字段之间用逗号分隔；

各条报文之间用换行分隔；

将所有报文形成csv格式的文件；

从文件中提取特征值。

可选地，特征值包括通用特征值和个性化特征值；

从文件中提取特征值，包括：

在文件中，按如下方式确定逻辑特征：

在文件中，确定各条报文包含的设备名称；

确定所有设备名称中包括的不同字符；

统计各设备名称中出现不同字符的数量；

基于各设备名称中出现不同字符的数量进行聚类；

将每类中设备名称的特征确定为一个逻辑特征。

通过如下模型对电力网络中各电力设备的拓扑进行识别：

Require:

Sample X and Categories K，for allx∈X；

Probolity of x∈K：

Loss function：

Gradient descent：

通过如下模型对电力网络中各电力设备的拓扑进行识别：

5.1、选择K个初始中心点；

5.4、重复5.2和5.3直至连续两次执行的c[j]只差小于预设阈值；

6.3、计算各类diff的最大值max(diff)；

可选地，预设值为85％，K＝3。

有益效果如下：

上述实施例中，均可以采用现有的功能元器件模块来实施。例如，处理模块可以采用现有的数据处理元器件，至少，现有定位技术中采用的定位服务器上便具备实现该功能元器件；至于接收模块，则是任意一个具备信号传输功能的设备都具备的元器件；同时，处理模块进行的A、n参数计算、强度调整等采用的都是现有的技术手段，本领域技术人员经过相应的设计开发即可实现。

为了描述的方便，以上所述装置的各部分以功能分为各种模块或单元分别描述。当然，在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种电力网络设备拓扑识别方法，其特征在于，所述方法包括：

获取电力网络中的数据包，形成预设格式的报文；

从所述报文中提取特征值；

2.根据权利要求1所述的方法，其特征在于，所述从所述报文中提取特征值，包括：

每条报文中的字段之间用逗号分隔；

各条报文之间用换行分隔；

将所有报文形成csv格式的文件；

从所述文件中提取特征值。

3.根据权利要求2所述的方法，其特征在于，所述特征值包括通用特征值和个性化特征值；

所述个性化特征值包括：设备所涉及到的协议数量、设备所涉及到的报文数量、与设备发生报文交互的其他设备数量、设备发出的协议数量、设备收到的协议数量、设备发出的协议种类数量、设备收到的协议种类数量、设备发出的制造报文规范MMS报文数量、设备收到的MMS报文数量、设备发出的GOOSE报文数量、设备收到的面向通用对象的变电站事件GOOSE报文数量、设备发出的采样值SV报文数量、设备收到的SV报文数量和逻辑特征；

所述从所述文件中提取特征值，包括：

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的dmac，确定选择的dmac的protocal type种类，选择所述任一设备的出现mac地址的smac，确定选择的smac的protocal type种类，将所述选择的dmac的protocal type种类与所述选择的smac的protocal type种类中非重复种类的数量确定为所述任一设备所涉及到的协议数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的smac，将选择的smac中protocal type是MMS的报文数量确定为所述任一设备发出的MMS报文数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的dmac，将选择的dmac中protocal type是MMS的报文数量确定为所述任一设备收到的MMS报文数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的smac，将选择的smac中protocal type是SV的报文数量确定为所述任一设备发出的SV报文数量；

对于所述文件中的任一设备，选择所述任一设备的出现mac地址的dmac，将选择的dmac中protocal type是SV的报文数量确定为所述任一设备收到的SV报文数量；

在所述文件中，按如下方式确定所述逻辑特征：

在所述文件中，确定各条报文包含的设备名称；

确定所有设备名称中包括的不同字符；

统计各设备名称中出现所述不同字符的数量；

基于各设备名称中出现所述不同字符的数量进行聚类；

将每类中设备名称的特征确定为一个所述逻辑特征。

4.根据权利要求1所述的方法，其特征在于，通过监督式的分类算法对所述电力网络中各电力设备的拓扑进行识别，包括：

Require:

Sample X and Categories K，for allx∈X；

Probolity of x∈K：

Loss function：

Gradient descent：

其中，X为样本集，K为分类数量，F_k(x)为样本x的估计值，p_k(x)为x属于类别k的概率，y_k为输入的样本数据的估计值，当x属于类别k时，y_k＝1，否则y_k＝0。

5.根据权利要求4所述的方法，其特征在于，通过无监督式的聚类算法对所述电力网络中各电力设备的拓扑进行识别，包括：

5.1、选择K个初始中心点；

5.4、重复5.2和5.3直至连续两次执行的c[j]只差小于预设阈值；

6.根据权利要求5所述的方法，其特征在于，所述通过所述无监督式的聚类算法对所述监督式的分类算法进行修正，得到所述电力网络中任一电力设备的最终拓扑结果，包括：

6.3、计算各类diff的最大值max(diff)；

6.4、利用稀疏规则算子L1范数对max(diff)所在类进行规则化，重新通过无监督式的聚类算法对所述电力网络中各电力设备的拓扑进行识别，确定重新得到的无监督式的聚类算法的识别结果与监督式的分类算法的识别结果的相似度是否达到预设值，若达到，则将重新得到的无监督式的聚类算法的识别结果作为所述电力网络中任一电力设备的最终拓扑结果，若未达到，则重新执行6.1至6.4直至重新得到的无监督式的聚类算法的识别结果与监督式的分类算法的识别结果的相似度达到预设值。

7.根据权利要求6所述的方法，其特征在于，所述确定重新得到的无监督式的聚类算法的识别结果与监督式的分类算法的识别结果的相似度是否达到预设值，包括：

8.根据权利要求7所述的方法，其特征在于，所述预设值为85％，K＝3。

9.一种电子设备，其特征在于，包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-8任意一项的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现如权利要求1-8任意一项的步骤。