CN107958020A

CN107958020A - 一种基于聚簇的电网数据处理和数据可视化方法

Info

Publication number: CN107958020A
Application number: CN201711002900.XA
Authority: CN
Inventors: 王奇; 张晗; 宋云海; 李妍红; 蔡延雷; 苏浩辉; 周震震
Original assignee: Maintenance and Test Center of Extra High Voltage Power Transmission Co
Current assignee: Maintenance and Test Center of Extra High Voltage Power Transmission Co
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2018-04-24

Abstract

一种基于聚簇的电网数据处理和数据可视化方法，具体步骤如下：1S.收集原始数据。2S.对原始数据中存在的异常点和空值进行清洗；对于异常点，采用过滤或者校正的办法，将异常值调整为最大或最小边界值；对于空值，采用平均值来填补空值的办法。优点是，第一，采用聚类方法增强关键特征的表达、抑制不相关细节的表达。第二，使用数据分析方法对数据进行抽象和重构，刻画复杂多维时序数据集的蕴含特征，生成紧凑的概述图像，方便索引和搜索，进而允许用户在交互分析过程中添加其他细节。第三，使用交互技术缓解有限的可视化空间和数据过载之间的矛盾，同时能让用户更好的参与对数据的理解和分析。

Description

一种基于聚簇的电网数据处理和数据可视化方法

技术领域

本发明涉及电力系统云间输变电专用技术领域，具体涉及一种基于聚簇的电网数据处理和数据可视化方法。

背景技术

中国南方电网超高压输电公司在南方电网公司的统一规划与指导下，先后建设了“6+1”系统、EMS、OMS、设备状态监测系统、雷电定位系统、气象信息系统等多套信息系统，各个系统分别从不同的业务角度，有力的支撑了公司的安全生产与运行管理工作。

随着信息化的不断发展，数据的采集和存储技术愈发成熟，但是各业务系统产生的大量随时间变化的数据中，有很多数据往往还有其他的属性维度，如电网设备的在线监测数据，包括在线监测时间、各类监测项目等属性，这类数据随时间的变化，有的会呈现出规律性或者周期性，有的则毫无规律可言。这不利于可视化展现电网数据之间的关系和探索数据属性随时间变化的规律。

现急需一种可将分散于不同信息系统的数据进行以电网设备安全管控为主线、面向大屏幕集中可视化的海量信息整合应用，针对不同层级管理人员重点关注的信息予以处理和分析，让其能更快捷的掌握该层级的绩效指标数据，并能自动对此类指标数据进行分析或溯源，以更好的实现生产指挥及决策，实现“提升电网设备状态管控能力、提升安全生产管理决策能力”的目标，提供直观、高效的决策信息支持的方法。

发明内容

本发明所要解决的技术问题是：一种基于聚簇的电网数据处理和数据可视化方法，针对电网大数据具有海量、多类、多维度、处理要求高等特点，通过信息处理与可视化分析的技术方法，快速地挖掘出高精度、具有时序性和多维性数据的潜在价值信息。

本发明是通过以下技术方案来实现的：

一种基于聚簇的电网数据处理和数据可视化方法，具体步骤如下：

1S.收集原始数据。

2S.对原始数据中存在的异常点和空值进行清洗。

3S.对通过步骤2的数据进行平行坐标可视化绘制，平行坐标是比较常用的多维数据可视化方法，但在实现上并没有开发好的工具可以直接使用，所以本系统使用可视化语言Processing在Web前端绘制平行坐标图。

Processing主要用来设计具有交互功能的电子艺术和可视化作品。使用Processing绘制平行坐标图，首先需要提供一块具有长宽的区域作为绘图区域。使用JQuery来动态设置绘图区域的长和宽，从而可以适应浏览器初始大小的变化。平行坐标图主要是由一系列相互平行的坐标轴以及若干条穿过所有坐标轴的折线构成的。对于坐标轴的绘制比较简单，只需根据数据属性维度的数量等间距的绘制出来，再标注上每个坐标轴表示的属性名称即可。对于平行坐标图中的折线通过公式(1)进行计算数据对象的各个维度的属性值在对应坐标轴上的位置：

其中，y_i表示数据对象在第i个坐标轴上的坐标位置，length表示坐标轴的长度，value_i，表示数据对象的第i个维度的属性值，max_i和min_i分别表示第i个坐标轴的上下界数值。

4S.进行聚簇可视化处理，通过能量函数来处理平行坐标图中的线段所处的状态并让线段弯曲形成簇，聚簇可视化算法用公式(2)表示：

E_total＝α_cE_curvature+(1-α_c)E_gravitation (2)

其中E_total表示整个系统的能量，E_curvature是曲率能量项，表示所有线段的弯曲程度，E_gravitation是引力能量项，表示所有相邻线段之间的引力，α_c和(1-α_c)分别是这两项的权重系数。

聚簇可视化算法，通过允许线条弯曲来调整线条之间的位置关系，从而解决线条密集与重叠覆盖问题。线条的变化会导致能量函数的变化，通过寻找能量函数的最小最优解，来使线条调整到合适的位置，实现算法的目的。因此，聚簇可视化算法，是寻找能量函数最小最优解的问题。

曲率能量项的作用是防止线条过度弯曲，曲率能量项的计算用公式(3)表示：

其中，n表示线段的数量，也是数据点的数量；m表示每条线段的控制点的个数，控制点是用来调整线段弯曲程度的点，通过线段的起始端点、终止端点以及控制点，P’_ij表示线段的控制点，P_ij表示与P’_ij相对应的位于线段上的关联点。

引力能量项用来描述线条之间的相互关系，它的作用是使相邻的线条看起来尽量平行，平行的线条尽量靠近聚拢在一起，从而减少由于线条交错引起的视觉混乱现象，引力能量项的计算用公式(4)表示：

其中，F_ij表示第i条线在第j个控制点处所受到的引力的合力，引力合力F_ij的计算用公式(5)表示：

其中，s表示与线段l_i有交互作用的线段数量，这里的交互包括与l_i相交的所有线段及与l_i起始端点、终止端点距离最近的若干条线段，表示线段l_i在第j个控制点处所受到的线段l_k的作用力；的计算可用公式(6)表示：

其中，是线段l_i与l_k之间的夹角，是线段l_i与l_k的第j个关联点之间的距离，q_α与q_d是分别用来控制角度与距离对引力计算影响能力的因子。

聚簇可视化算法通过寻找该能量函数的最小最优解，从而求解出对应的P’_ij的值，画出变形后的曲线；

上述算法实现的关键步骤，是线条间引力的计算。线条间的引力是根据原始平行坐标图的线条初始位置关系来计算的，它是一个静态值，是在线性规划求解之前计算出来的一个系数。

计算引力首先要找出与某一条线段有相互作用的线段。相互作用的线段包括两种情况：一是两条线段相交，注意不是直线的相交，而是要判断这两条线段在两个坐标轴之间是否有交点；二是距离某一目标线段的起始端点、终止端点最近的若干条线段，具体数量可以作为参数来调控，端点距离远近的判断需要对所有线段的端点进行排序。

引力计算过程中主要考虑两个方面，一是线条之间的角度，二是线条之间的距离。当角度很小时，会导致此时的引力值过大，从而影响整体的平衡性；当距离过小时，会干扰引力值的计算，因为我们选择的测距点较少，很可能只是此处距离较小。对于角度、距离的不同情况，本系统采用的处理方法如下：角度小、距离小的应防止计算出的作用力过大；角度小、距离大的增大角度的影响系数；角度大、距离小的增大角度的影响系数；角度大、距离大的不影响计算。

5S.对平行坐标图进行颜色与透明度的处理，为了加入颜色和透明度，首先需要计算线条所处位置的密度，之后建立密度与颜色、透明度的映射函数，线条的密度通过其控制点的密度决定；

6S.进行数据交互与动画化，通过在平行坐标图加入时间交互以展示多维数据的时效性，所述的动画化是指通过动画手法动态展示数据随时间变化的过程。

时间轴或时间坐标轴是展示数据时序性的常用交互方式，在很多成熟的可视化工具中都有应用。时间轴常常可以和不同形式的图表相搭配，比如折线图、柱状图、散点图等，一方面可以展示数据的时序性，另一方面也拓展了在有限的屏幕空间展示的数据范围。本文将时间轴与平行坐标图相搭配，以展示多维数据的时序性。

时间轴根据使用方式的不同，可以分为单点时间轴和双点时间轴。单点时间轴只有一个可以拖动或自动变化的浮标，通过改变这个浮标的位置以显示不同时间点的数据属性。双点时间轴有两个可以拖动变化的浮标，两个浮标的位置分别对应一个时间点，因而可以表示一个时间段，通过改变这两个浮标的位置就可以展示某个时间范围的数据属性。本系统使用基于这两种形式的时间轴的交互方式来展示数据的时序性。

单点时间轴组件的绘制比较简单，可以使用HTML5的Input Range对象来实现。双点时间轴组件则稍微复杂一些，因为它有两个可以变化的浮标，本系统使用jQuery UI的Range slider组件来实现。

时间轴组件绘制完成后，需要与数据的时间属性进行绑定或映射。完成绑定或映射之后，就是最重要的步骤：编写事件响应函数，即当时间轴变化时，平行坐标图也要发生相应的变化，这种变化主要是为了突出当前时间点或时间段对应数据的属性特征，并与其他数据进行比较，以发现数据的特征模式。

动画是另一种展示数据时序性的有效方法。通过动画手法，可以动态展示数据随时间变化的感觉和过程。动画有很多种方式，实现方法也不一样。本系统的时间动画使用JavaScript定时器实现，根据定时器设定的间隔来依次推进时间，并刷新显示平行坐标图，突出当前时问点对应数据的属性特征。

作为上述方案的改进，步骤2所述的清洗方式为，对于异常点，采用过滤或者校正的办法，将异常值调整为最大或最小边界值；对于空值，采用平均值来填补空值的办法。

作为上述方案的改进，步骤4通过求解器lp_solve来解决能量函数的最小化最优问题，使用Java API调用lp_solve求解器构建待求解问题的数学模型，数学模型主要包括所述的能量函数、待求解变量及约束条件，所述的待求解变量即每一条线段的控制点，所述的约束条件包括：每个控制点的上下界范围、对于不相交的线段，控制点之间要保持相对位置关系。

作为上述方案的改进，所述的对于不相交的线段，控制点之间要保持相对位置关系是通过对所有的关联点进行排序，记录下它们的相对位置关系，由于关联点是与控制点一一对应的，所以此位置关系即控制点的位置关系，之后再转换成线性规划模型中的约束条件。

作为上述方案的改进，步骤5所述的控制点的密度首先将同一列的控制点分到不同的箱子里，所述的箱子为虚拟划分区间并对控制点所处位置进行划分，用来统计处在某一区间的控制点的个数，从而计算出箱子的密度，然后通过高斯函数计算控制点所处位置的密度，某条线段所有控制点密度的平均值则为该线段的密度值，最后通过颜色、透明度与线条密度的映射函数，可以将不同密度的簇绘制成不同的颜色和透明度，以增强特定的模式，便于用户的认知。

本发明具有以下有益效果：

第一，采用聚类方法增强关键特征的表达、抑制不相关细节的表达。

第二，使用数据分析方法对数据进行抽象和重构，刻画复杂多维时序数据集的蕴含特征，生成紧凑的概述图像，方便索引和搜索，进而允许用户在交互分析过程中添加其他细节。

第三，使用交互技术缓解有限的可视化空间和数据过载之间的矛盾，同时能让用户更好的参与对数据的理解和分析。

附图说明

图1为实施例步骤3的带有时间轴的平行坐标图。

图2为实施例步骤4的平行坐标聚簇可视化后的效果图。

图3为实施例步骤6的动画播放过程中某一时刻的平行坐标图。

具体实施方式

实施例

1S.收集原始数据。

2S.对原始数据中存在的异常点和空值进行清洗；对于异常点，采用过滤或者校正的办法，将异常值调整为最大或最小边界值；对于空值，采用平均值来填补空值的办法。

3S.对通过步骤2的数据进行平行坐标可视化绘制，图1展示了带有时间轴的平行坐标图。图下方是具有交互功能的时间轴，通过拖动时间轴上的起点和终点，可以选择某一时间范围内的数据进行查看，同时平行坐标图也会做相应的变化，未选中的数据所对应的折线会淡化。对于平行坐标图中的折线通过公式(1)进行计算数据对象的各个维度的属性值在对应坐标轴上的位置：

4S.进行聚簇可视化处理，图2展示了平行坐标聚簇可视化后的结果。可以看到聚簇后数据的特征更加明显，相似的线条聚在了一起，减少了线条交叉、重叠覆盖的现象。同时根据簇的密度使用了不同的颜色和透明度，更加便于区分和识别。此外，图下方的时间轴会在生成聚簇可视化结果时重置，此时的时间范围是聚簇后的数据的完整时间范围。通过能量函数来处理平行坐标图中的线段所处的状态并让线段弯曲形成簇，聚簇可视化算法用公式(2)表示：

E_total＝α_cE_curvature+(1-α_c)E_gravitation (2)

通过求解器lp_solve来解决能量函数的最小化最优问题，使用Java API调用lp_solve求解器构建待求解问题的数学模型，数学模型主要包括所述的能量函数、待求解变量及约束条件，所述的待求解变量即每一条线段的控制点，所述的约束条件包括：每个控制点的上下界范围、对于不相交的线段，控制点之间要保持相对位置关系。所述的对于不相交的线段，控制点之间要保持相对位置关系是通过对所有的关联点进行排序，记录下它们的相对位置关系，由于关联点是与控制点一一对应的，所以此位置关系即控制点的位置关系，之后再转换成线性规划模型中的约束条件。

其中，n表示线段的数量，也是数据点的数量；m表示每条线段的控制点的个数，控制点是用来调整线段弯曲程度的点，通过线段的起始端点、终止端点以及控制点，P'_ij表示线段的控制点，P_ij表示与P'_ij相对应的位于线段上的关联点。

聚簇可视化算法通过寻找该能量函数的最小最优解，从而求解出对应的P’_ij的值，画出变形后的曲线。

5S.对平行坐标图进行颜色与透明度的处理，为了加入颜色和透明度，首先需要计算线条所处位置的密度，之后建立密度与颜色、透明度的映射函数，线条的密度通过其控制点的密度决定；控制点的密度首先将同一列的控制点分到不同的箱子里，所述的箱子为虚拟划分区间并对控制点所处位置进行划分，用来统计处在某一区间的控制点的个数，从而计算出箱子的密度，然后通过高斯函数计算控制点所处位置的密度，某条线段所有控制点密度的平均值则为该线段的密度值，最后通过颜色、透明度与线条密度的映射函数，可以将不同密度的簇绘制成不同的颜色和透明度，以增强特定的模式，便于用户的认知。

6S.进行数据交互与动画化，通过在平行坐标图加入时间交互以展示多维数据的时效性，所述的动画化是指通过动画手法动态展示数据随时间变化的过程。动画有很多种方式，实现方法也不一样。本系统的时间动画使用JavaScript定时器实现，根据定时器设定的间隔来依次推进时间，并刷新显示平行坐标图，突出当前时问点对应数据的属性特征。图3展示了动画播放过程中某一时刻的平行坐标图，其中黑色加粗的曲线是突出显示的数据属性。左侧区域的“时间动画”按钮提供了自动播放的功能，会根据数据的时间戳依次刷新显示右侧区域的平行坐标图，此时会突出显示与该时间戳对应的曲线，其他数据对应的曲线则会淡化。此外，左侧区域还提供了一些其他的交互功能，比如聚簇颜色设定和单点时间轴。聚簇颜色设定可以改变聚簇可视化中不同密度簇的颜色，并会实时触发右侧区域平行坐标图的刷新。单点时间轴提供了一个可以拖动的浮标，用来查看某一时间戳对应的数据属性，拖动浮标时也会实时触发右侧区域平行坐标图的刷新。

上列详细说明是针对本发明可行实施例的具体说明，该实施例并非用以限制本发明的专利范围，凡未脱离本发明所为的等效实施或变更，均应包含于本案的专利范围中。

Claims

1.一种基于聚簇的电网数据处理和数据可视化方法，其特征在于，具体步骤如下：

1S.收集原始数据；

2S.对原始数据中存在的异常点和空值进行清洗；

3S.对通过步骤2的数据进行平行坐标可视化绘制，对于平行坐标图中的折线通过公式(1)进行计算数据对象的各个维度的属性值在对应坐标轴上的位置：

<mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mo>*</mo> <mfrac> <mrow> <msub> <mi>value</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>min</mi> <mi>i</mi> </msub> </mrow> <mrow> <msub> <mi>max</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>min</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，y_i表示数据对象在第i个坐标轴上的坐标位置，length表示坐标轴的长度，value_i，表示数据对象的第i个维度的属性值，max_i和min_i分别表示第i个坐标轴的上下界数值；

E_total＝α_cE_curvature+(1-α_c)E_gravitation (2)

其中E_total表示整个系统的能量，E_curvature是曲率能量项，表示所有线段的弯曲程度，E_gravitation是引力能量项，表示所有相邻线段之间的引力，α_c和(1-α_c)分别是这两项的权重系数；

其中，n表示线段的数量，也是数据点的数量；m表示每条线段的控制点的个数，控制点是用来调整线段弯曲程度的点，通过线段的起始端点、终止端点以及控制点，P′_ij表示线段的控制点，P_ij表示与P′_ij相对应的位于线段上的关联点；

<mrow> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </msubsup> <msub> <mi>f</mi> <mrow> <mrow> <mo>(</mo> <mrow> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msubsup> <mi>&alpha;</mi> <mrow> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>k</mi> </msub> </mrow> <msub> <mi>q</mi> <mi>a</mi> </msub> </msubsup> </mfrac> <mfrac> <mn>1</mn> <msubsup> <mi>D</mi> <mrow> <mrow> <mo>(</mo> <mrow> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> <mi>j</mi> </mrow> <msub> <mi>q</mi> <mi>d</mi> </msub> </msubsup> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

其中，是线段l_i与l_k之间的夹角，是线段l_i与l_k的第j个关联点之间的距离，q_α与q_d是分别用来控制角度与距离对引力计算影响能力的因子；

聚簇可视化算法通过寻找该能量函数的最小最优解，从而求解出对应的P′_ij的值，画出变形后的曲线；

2.根据权利要求1所述的一种基于聚簇的电网数据处理和数据可视化方法，其特征在于，步骤2所述的清洗方式为，对于异常点，采用过滤或者校正的办法，将异常值调整为最大或最小边界值；对于空值，采用平均值来填补空值的办法。

3.根据权利要求1所述的一种基于聚簇的电网数据处理和数据可视化方法，其特征在于，步骤4通过求解器lp_solve来解决能量函数的最小化最优问题，使用Java API调用lp_solve求解器构建待求解问题的数学模型，数学模型主要包括所述的能量函数、待求解变量及约束条件，所述的待求解变量即每一条线段的控制点，所述的约束条件包括：每个控制点的上下界范围、对于不相交的线段，控制点之间要保持相对位置关系。

4.根据权利要求3所述的一种基于聚簇的电网数据处理和数据可视化方法，其特征在于，所述的对于不相交的线段，控制点之间要保持相对位置关系是通过对所有的关联点进行排序，记录下它们的相对位置关系，由于关联点是与控制点一一对应的，所以此位置关系即控制点的位置关系，之后再转换成线性规划模型中的约束条件。

5.根据权利要求1所述的一种基于聚簇的电网数据处理和数据可视化方法，其特征在于，步骤5所述的控制点的密度首先将同一列的控制点分到不同的箱子里，所述的箱子为虚拟划分区间并对控制点所处位置进行划分，用来统计处在某一区间的控制点的个数，从而计算出箱子的密度，然后通过高斯函数计算控制点所处位置的密度，某条线段所有控制点密度的平均值则为该线段的密度值，最后通过颜色、透明度与线条密度的映射函数，可以将不同密度的簇绘制成不同的颜色和透明度，以增强特定的模式，便于用户的认知。