CN107679133B

CN107679133B - 一种实用于海量实时pmu数据的挖掘方法

Info

Publication number: CN107679133B
Application number: CN201710865017.7A
Authority: CN
Inventors: 易建波; 黄琦; 井实; 李坚; 张真源; 董彬彬; 张国洲
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2020-01-17
Anticipated expiration: 2037-09-22
Also published as: CN107679133A

Abstract

本发明公开了一种实用于海量实时PMU数据的挖掘方法，先对数据量较小的PMU标识数据进行耗时的采样和挖掘表验证得到挖掘公式，随后对实时PMU数据流进行划分，通过轮转算法对各任务进行均衡分配，再结合挖掘公式采样挖掘，有运行时所占内存资源小，速度快，挖掘效果可随采样精度而提高的特点，对处理海量PMU数据具有良好的实时性和工程实用价值，同时本发明还解决了在PMU数据应用的相关领域因为数据规模庞大，多源，实时性强，分布式处理门槛高造成的数据接收与处理问题。

Description

一种实用于海量实时PMU数据的挖掘方法

技术领域

本发明属于光通信技术领域，更为具体地讲，涉及一种实用于海量实时PMU数据的挖掘方法。

背景技术

随着计算机技术、储存技术及互联网的快速发展，各行业都将数据库技术和人工智能算法应用到实际生产中。在电力行业，近些年来，数字化电力系统的趋势越来越明显：数据采集与监控系统、智能变电站、能量管理与监控系统、广域测量等方面都得到了长足的发展。

基于GPS和北斗导航的电力系统同步向量测量装置(Phasor Measurement Unit，PMU)是对电网进行同步向量的测量和输出以及进行动态记录的一种方法，基于此的广域测量系统可以获得电网在不同地点，任何时间的有功无功水平，母线电压、电流、相角等变化参数，且由于其数据具有同步性好、测量精度较高，数据传输快等优点，在量测装置的优化配置、电力系统的故障定位、故障诊断、市场预测、负荷参数辨识等方向均有优秀的研究和应用，为建设智能、坚强型电网奠定基础，为电力质量治理提供依据、为电力公司制定营销策略提供数据支撑。

在如此背景下，对于大规模海量PMU数据的挖掘、处理、分析显得尤为重要。目前，根据国家电网公司企业标准Q/GDW 1131-2014《电力系统实时动态监测系统技术规范》要求，数据采集装置动态数据最低数据记录不得低于100次/秒，暂态采样频率不宜低于1200点/秒，其通信速率不低于19.2kbps。主站之间的通道带宽不低于2Mbps，数据需要保存不少于30天。由此可以看出电力系统的数据增长十分惊人，如何用最短的时间、最简单的设备处理大规模数据已经成为电力系统行业所面临的一大问题。

数据挖掘是在海量的数据源中寻找对用户有价值的信息用于分析决策的技术。目前，数据挖掘在电力系统中的应用研究方向主要集中在对数据的云计算平台架构，挖掘算法，聚类、分类算法，并行框架，数据相关性分析等方面。其中绝大部分采用的是分布式处理框架，对硬件条件要求比较高，不利于对PMU数据研究的进行。并且，常规提取策略在脱离分布式的条件下对离线数据需要多次遍历，处理速度低下。

发明内容

本发明的目的在于克服现有技术的不足，提供一种实用于海量实时PMU数据的挖掘方法，基于轮转算法，采样单机多核并行处理方式，对海量实时PMU数据进行挖掘。

为实现上述发明目的，本发明一种实用于海量实时PMU数据的挖掘方法，其特征在于，包括以下步骤：

(1)、利用PMU标识数据生成数据挖掘表

(1.1)、将PMU标识数据载入至内存并进行解析，再通过检索PMU标识数据中不同设备的文本信息，将解析后的PMU标识数据以单个设备为一层进行划分，再将划分后的数据层依次压入二维数组中，其中，二维数组每行数据即为单个设备采集的不同数据属性，其行索引作为该数据层的标识；

(1.2)、在二维数组中，将用户需要设定或提取的数据在第一行中的位置进行记录，再将所有的记录位置组合成数据挖掘表；

(2)、生成多组群数据

在二维数组中，利用随机抽样的方法抽取N行连续的行数据，并标记为一组群数据；

按照上述方法，随机抽取多次，得到多组群数据；

(3)、校正数据挖掘表

(3.1)、在多组群数据中随机抽取一组群数据，并作为采样群数据；

(3.2)、在数据挖掘表中，找到最后一个数据属性在采样群数据中的位置索引T，其数据属性在数据挖掘表中的位置分别记录t；

(3.3)、验证T、t是否符合以下公式：

T＝t+N×m

其中，N为采样群内包含的行数减一，m为行中数据属性的个数；

若满足，则代表该组采样群数据中所有行数据的排列相同，适用于当前的数据挖掘表；

若不满足，则将该组采样群数据分为两小群，在将两小群按照上述方法分别再次验证，直到找到不满足上述公式的行数据，记录行的标号，解析该行设定数据属性的位置，设定出新的数据挖掘表，再返回步骤(3.1)；

(3.4)、通过上述循环迭代后，直到最终设定的数据挖掘表在所有的采样群数据中不符合的行数最少时，迭代结束，并记录不满足最终设定的数据挖掘表所在行的索引及符合它们的挖掘表，再结合这些数据挖掘表，得到后续挖掘算法的挖掘公式；

T'＝t'+N'×m

T'为数据属性在整个PMU标识数据中的位置索引，t'为数据属性在数据行对应的挖掘表中的位置记录，N'为挖掘过程中不断递增的行数，m为行中数据属性的个数；

(4)、实时PMU数据的划分

(4.1)、将环形内存缓冲区设置“空”、“未满”和“暂满”三个状态，其中，当环形内存缓冲区中无数据，则将其标记为“空”；当接收的实时PMU数据达到环形内存缓冲区大小上限时，本地文件系统自动创建一个溢出文件，并将环形内存缓冲区中的数据写入到该文件中，同时将环形内存缓冲区设为“暂满”；当环形内存缓冲区中有实时PMU数据但没有达到环形内存缓冲区大小上限时，则将环形内存缓冲区设置为“未满”；

(4.2)、环形内存缓冲区接收实时PMU数据，并将接收的实时PMU数据流以n帧为一组不断载入到一个环形的内存缓冲区中，并在第一组数据末尾处设立起始标识位，并在整个实时挖掘过程中实时更新环形内存缓冲区的状态信息和起始标识位；

(4.3)、利用轮转算法对接收的实时PMU数据进行多进程挖掘；

(4.3.1)、利用轮转算法对多进程任务进行分配；

(4.3.2)、判断环形内存缓冲区的状态信息；

(4.3.3)、如果环形内存缓冲区的状态信息为“未满”，则不断取环形内存缓冲区中的起始标识位之前的行数据，并结合步骤(3.4)中挖掘公式进行挖掘，得到挖掘结果；

(4.3.4)、如果环形内存缓冲区的状态信息为“暂满”，则将溢出文件载入到内存中，并结合步骤(3.4)中挖掘公式进行挖掘，得到挖掘结果；

(4.3.5)、如果环形内存缓冲区的状态信息为“空”，则让任务挂起一段时间等待实时PMU数据载入环形内存中，再执行步骤(4.3.2)；

(5)、存储挖掘结果

将步骤(4.3)得到的挖掘结果以数组的形式保存在内存中，当内存占用快满的时候，发出中断任务到任务队列中安排一个进程跳出挖掘循环，将挖掘过后的数据与挖掘表对应的数据变量关联存入磁盘。

本发明的发明目的是这样实现的：

本发明一种实用于海量实时PMU数据的挖掘方法，先对数据量较小的PMU标识数据进行耗时的采样和挖掘表验证得到挖掘公式，随后对实时PMU数据流进行划分，通过轮转算法对各任务进行均衡分配，再结合挖掘公式采样挖掘，有运行时所占内存资源小，速度快，挖掘效果可随采样精度而提高的特点，对处理海量PMU数据具有良好的实时性和工程实用价值，同时本发明还解决了在PMU数据应用的相关领域因为数据规模庞大，多源，实时性强，分布式处理门槛高造成的数据接收与处理问题。

同时，本发明一种实用于海量实时PMU数据的挖掘方法还具有以下有益效果：

(1)、本发明针对数据量较小的PMU标识数据进行解析得到挖掘公式，在随后的挖掘过程中依靠挖掘公式进行挖掘，减少了挖掘规则的冗余性，减轻了内存的负担，可以一次性装载进更多实时数据进内存处理，提高了挖掘效率；

(2)、基于采样思想来验证得到挖掘公式，避免了对整个实时数据集的遍历验证，在PMU数据帧结构的规律性下可以取得媲美其他通用型挖掘方案如：Disk Mine所取得的良好效果；

(3)、避免了分布式挖掘方案的复杂性和硬件成本，针对单机处理进行了多任务架构，极大程度利用了单机的性能。

附图说明

图1是本发明一种实用于海量实时PMU数据的挖掘方法流程图；

图2是离线PMU数据；

图3是挖掘后数据；

图4是验证策略原理图；

图5是环形数据缓冲区；

图6是轮转算法流程；

图7是算法各进程挖掘速率；

图8是算法运行时资源占用率。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种实用于海量实时PMU数据的挖掘方法流程图。

本次实施例中所有的挖掘工作都是在

Core^TMi3-6320 CPU@3.90GHz，RAM8.0GB(可用7.5G)，装有Windows 7操作系统并搭载4核处理器的机器上完成。通过对国网公司提供的700M的离线PMU数据，如图2所示，挖掘“正序电压幅值”，“正序电压角度”“正序电流幅值”，“正序电压角度”“A相电压幅值”，“A相电压角度”“A相电流”，“A想电流相角”“有功功率”，“无功功率”，“频率”属性数据，其处理后的数据结构如图3。

下面结合图1，对本发明一种实用于海量实时PMU数据的挖掘方法进行详细说明，具体包括以下步骤：

S1、利用PMU标识数据生成数据挖掘表

S1.1、PMU标识数据解析

在标识数据解析前，PMU数据组织结构是算法应用的关键，其大致结构如图2所示，PMU源数据将设备标识作为列名，每隔20ms，不同PMU测量装置的一个数据帧会存入对应位置。设备标识包括广域实时数据库系统中系统区域、采集的目标设备以及采集的物理量。这里称物理量为数据属性，绝大部分不同目标设备的属性按相同规律排列，如本实施例中其属性排列方式为：“正序电压幅值”、“正序电压角度”、“A相电压幅值”、“A相电压角度”、“B相电压幅值”、“B相电压角度”、“C相电压幅值”、“C相电压角度”、“正序电流模值”、“正序电流相角”、“A相电流值”、“A相电流相角”、“B相电流值”、“B相电流相角”、“C相电流值”、“C相电流相角”、“有功功率”、“无功功率”、“频率”、“频率变化率”。实施例中每个设备数据有20个属性。有少量数据缺少属性或命名略有差异；

PMU标识数据以帧结构形式载入至内存并进行解析，再通过检索PMU标识数据中不同设备的标识信息，将解析后的PMU标识数据以单个设备为一层进行划分，再将划分后的数据层依次压入二维数组中，并将二维数组的行索引作为该数据层的标识；如本实施例中生成了共1385行，20列的二维数组；

S1.2、生成数据挖掘表

在二维数组中，将用户需要设定或提取的数据在第一行中的位置进行记录，再将所有的记录位置组合成数据挖掘表；如：本实施例中针对上述所挖掘的数据属性生成的数据挖掘表为{1,2,3,4,9,10,11,12,17,18,19}。

S2、生成多组群数据

因为本发明针对PMU相同属性不同设备、区域的数据进行提取，所以在上述得到的二维数组中，利用随机抽样的方法抽取N行连续的行数据，并标记为一组群数据；

按照上述方法，随机抽取多次，得到多组群数据；

采样群的数目及其中包含层数越多，其挖掘表的准确度越高。本次实例中采样群数为50，每群包含10个数据层。

S3、校正数据挖掘表

S3.1、在多组群数据中随机抽取一组群数据，并作为采样群数据；

S3.2、在数据挖掘表中，找到最后一个数据属性在采样群数据中的位置索引T，其数据属性在数据挖掘表中的位置分别记录t；在实施例中挖掘表的最后一个数据属性“频率”位置为19。

S3.3、如图4，验证T、t是否符合以下公式：

T＝t+N×m

其中，T为采样群数据内设定数据属性的位置索引，t为数据属性在数据挖掘表中的位置记录，N为采样群内包含的行数减一，m为行中数据属性的个数；

在实施例中的50个采样群中，其中每群含有10行，每行20个数据属性。验证时，N＝9，m＝20，t＝19。则验证群中第199个位置上是否为对应挖掘表中19位置的数据属性“频率”，即可判断此群的数据属性排列是否适合设定的挖掘表。

S3.4、通过上述循环迭代后，直到最终设定的数据挖掘表在所有的采样群数据中不符合的行数最少时，迭代结束，记录不满足最终设定的数据挖掘表所在行的索引及符合它们的挖掘表，再结合所有的数据挖掘表，得到后续挖掘算法的挖掘公式；

T'＝t'+N'×m

在本次实施例中循环结束后，得到最终的挖掘表为{1,2,3,4,9,10,11,12,17,18,19}，并记录了不满足该挖掘表的85行及1215行的挖掘表为{1,2,3,4,9,10,11,12,17,18}。这说明以上两行缺少位置信息为19的数据属性，通过对比可知缺少的属性为“频率”。

S4、实时PMU数据划分

S4.1、将环形内存缓冲区设置“空”、“未满”和“暂满”三个状态，其中，当环形内存缓冲区中无数据，则将其标记为“空”；当接收的实时PMU数据达到环形内存缓冲区大小上限时，本地文件系统自动创建一个溢出文件，并将环形内存缓冲区中的数据写入到该文件中，同时将环形内存缓冲区设为“暂满”；当环形内存缓冲区中有实时PMU数据但没有达到环形内存缓冲区大小上限时，则将环形内存缓冲区设置为“未满”；

S4.2、如图5所示，环形内存缓冲区接收实时PMU数据，并将接收的实时PMU数据流以n帧为一组不断载入到一个环形的内存缓冲区中，并在第一组数据末尾处设立起始标识位，并在整个实时挖掘过程中实时更新环形内存缓冲区的状态信息和起始标识位；

S4.3、利用轮转算法对接收的实时PMU数据进行多进程挖掘；

S4.3.1、如图6所示，利用轮转算法对多进程任务进行分配。轮转算法将所有待运行的job按照FCFS策略放入一个队列，然后系统设置一定的时间片，每次给队首job分配时间片，轮流将每个job的tasks分配给tasktracker执行。如果job运行结束时间片还没用完，立即从作业中除去此job，并给下一个job分配新的时间片；如果job的时间片用完没有运行结束，则将此job重新加入就绪队列尾部等待调度。具体做法是：设定时间片大小，建立作业信息结构数据，设定其中输入标识，输入到达时间，输入服务时间，以及计算得到的运行时间。将作业按到达时间排序，保存为就绪队列。当作业运行完从就绪队列中移除，当结束时间加上时间片长度小于输入的服务时间长度代表时间片用完但任务没处理完，则将该任务移入队尾；

S4.3.2、挖掘作业先判断环形内存缓冲区的状态信息；

S4.3.3、如果环形内存缓冲区的状态信息为“未满”，则不断取环形内存缓冲区中的起始标识位之前的行数据，并结合步骤S3.4中挖掘公式进行挖掘，得到挖掘结果；

S4.3.4、如果环形内存缓冲区的状态信息为“暂满”，则将溢出文件载入到内存中，结合步骤S3.4中挖掘公式进行挖掘，得到挖掘结果；

S4.3.5、如果环形内存缓冲区的状态信息为“空”，则让任务挂起一段时间等待实时PMU数据载入环形内存中,再执行步骤S4.3.3；

其中，结合步骤S3.4中挖掘公式进行挖掘的方法为：不断递增挖掘公式中的N'，当N'增加到步骤S3.4中记录的不符合最终设定挖掘表的行数减一时，用符合该行的挖掘表，否则用最终设定的挖掘表，再计算得到T'，提取T'对应位置的数据暂存在内存中，直到N'达到步骤S1.1中的最大行索引时，该组实时PMU数据挖掘完成，再将起始标识位后移到下一组实时PMU数据末尾处，并移除已处理的数据组；

S5、存储挖掘结果

将步骤S4.3得到的挖掘结果以数组的形式保存在内存中，当内存占用快满的时候，发出中断任务到任务队列中安排一个进程跳出挖掘循环，将挖掘过后的数据与挖掘表对应的数据变量关联存入磁盘。

在本实施例中，挖掘结果还可以根据用户需求进行数据文件转换，即：在数据挖掘后，根据当前挖掘公式中的行数信息确定数据对应的系统区域、设备，再结合自定义命名的英文变量，合并后与数据关联输出。

由图7可以看出，各进程挖掘的数据量及挖掘效率相近，说明数据划分及轮转算法任务分配取得了较好的效果。由图8可以看出算法运行时内存占用率最低为17％，最高为69％，且算法一次将所有数据挖掘完成，并没有分几次装进内存。其CPU占用率最低为97％，最高为100％。整个算例在37s左右完成，则其实时处理效率可以达到19M/s，满足国家电网公司检测系统规范中实时性处理要求。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种实用于海量实时PMU数据的挖掘方法，其特征在于，包括以下步骤：

(1)、利用PMU标识数据生成数据挖掘表

(1.2)、在二维数组中，将用户需要设定或提取的数据属性在第一行中的位置进行记录，再将所有的记录位置组合成数据挖掘表；

(2)、生成多组群数据

按照上述方法，随机抽取多次，得到多组群数据；

(3)、校正数据挖掘表

(3.2)、在数据挖掘表中，找到最后一个数据属性在采样群数据中的位置索引T，其数据属性在数据挖掘表中的位置记录为t；

(3.3)、验证T、t是否符合以下公式：

T＝t+N×m

其中，N为采样群数据内包含的行数减一，m为行中数据属性的个数；

(3.4)、通过上述(3.1)～(3.3)的循环迭代后，直到最终设定的数据挖掘表在所有的采样群数据中不符合的行数最少时，迭代结束，并记录不满足最终设定的数据挖掘表所在行的索引及符合它们的挖掘表，再结合这些数据挖掘表，得到后续挖掘算法的挖掘公式；

T'＝t'+N'×m

(4)、实时PMU数据的划分

(4.3)、利用轮转算法对接收的实时PMU数据进行多进程挖掘；

(4.3.1)、利用轮转算法对多进程任务进行分配；

(4.3.2)、判断环形内存缓冲区的状态信息；

(5)、存储挖掘结果

2.根据权利要求1所述的一种实用于海量实时PMU数据的挖掘方法，其特征在于，所述步骤(4.3)中，结合步骤(3.4)中挖掘公式进行挖掘的方法为：不断递增挖掘公式中的N'，当N'增加到步骤(3.4)中记录的不符合最终设定挖掘表的行数减一时，用符合该行的挖掘表，否则用最终设定的挖掘表，再计算得到T'，提取T'对应位置的数据暂存在内存中，直到N'达到步骤(1.1)中的最大行索引时，该组实时PMU数据挖掘完成，再将起始标识位后移到下一组实时PMU数据末尾处，并移除已处理的数据组。

3.根据权利要求1所述的一种实用于海量实时PMU数据的挖掘方法，其特征在于，所述的挖掘结果还可以根据用户需求进行数据文件转换，即：在数据挖掘后，根据当前挖掘公式中的行数信息确定数据对应的系统区域、设备，再结合自定义命名的英文变量，合并后与数据关联输出。