CN116662412A

CN116662412A - 一种电网配用电大数据的数据挖掘方法

Info

Publication number: CN116662412A
Application number: CN202310906278.4A
Authority: CN
Inventors: 吴全才; 王天安; 黄炜; 张玎一
Original assignee: Yunnan Power Grid Energy Investment Co ltd
Current assignee: Yunnan Power Grid Energy Investment Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-08-29
Anticipated expiration: 2043-07-24
Also published as: CN116662412B

Abstract

本发明涉及能源数据分析技术领域，解决了针对配用电大数据进行数据挖掘过程中，所存在数据挖掘速率以及性能较低，同时易产生大量的结构连接数目的技术问题，尤其涉及一种电网配用电大数据的数据挖掘方法，该方法包括以下步骤：S1、基于电网大数据获取当地电网的配用电数据；S2、对配用电数据进行筛选并剔除其中与决策属性关联性小的数据集合得到决策数据集。本发明解决数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题，并快速生成相对应的挖掘目标，从而不仅减少了单个处理器需要处理的数据量，而且多个处理器同时运算，大大缩短了数据挖掘的耗时。

Description

一种电网配用电大数据的数据挖掘方法

技术领域

本发明涉及能源数据分析技术领域，尤其涉及一种电网配用电大数据的数据挖掘方法。

背景技术

大数据挖掘已经提出了许多基础的、通用的分析方法，包括分类、聚类、孤立点、预测、演变、关联、回归、决策树、神经网络、支持向量机、主成分分析、假设检验等。但是，对于配用电大数据态势感知和知识发现而言，现有的基础、通用的大数据挖掘分析方法并不完全适用。

随着电网规模扩大、量测手段和信息通信技术的不断完善，电网的基础运行数据逐渐呈现出数据量大、处理逻辑复杂、存储周期长等大数据特征，因此在配用电大数据的数据挖掘中，由于数据的类型以及体量较大，导致数据挖掘速率以及性能较低，同时单个处理器的数据处理负载较大，在数据挖掘搜索的过程中易产生大量的结构连接数目，这也为数据挖掘的可靠性带来严峻挑战。

发明内容

针对现有技术的不足，本发明提供了一种电网配用电大数据的数据挖掘方法，解决了针对配用电大数据进行数据挖掘过程中，所存在数据挖掘速率以及性能较低，同时易产生大量的结构连接数目的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：一种电网配用电大数据的数据挖掘方法，该方法包括以下步骤：

S1、基于电网大数据获取当地电网的配用电数据；

S2、对配用电数据进行筛选并剔除其中与决策属性关联性小的数据集合得到决策数据集；

S3、确定与决策数据集相关联的数据挖掘规则，并根据数据挖掘规则生成矩阵挖掘规则；

S4、将决策数据集进行路径分解生成若干个查询路径；

S5、计算若干个查询路径中的任意多个数据片段的威望度；

S6、根据威望度判断查询路径是否为最优的查询路径；

若是，则进入步骤S7；

若否，则返回步骤S4；

S7、采用最优的查询路径根据矩阵挖掘规则在决策数据集中进行数据挖掘。

进一步地，在步骤S2中，具体过程包括以下步骤：

S21、将配用电数据随机划分为若干个数据集合，/>，其中P为配用电数据，/>为随机划分的第i个数据集合；

S22、设任意数据集合中所对应的事件A、事件B为配用电数据P上的两个等价关系族，事件D为决策属性，并根据等价关系族确定事件A和事件B在配用电数据P上的概率分布；

S23、根据概率分布计算事件A的信息熵H（A）；

S24、根据信息熵H（A）计算相对于事件B的条件熵H（A|B）；

S25、判断决策属性事件D与事件A的关联性大小；

若事件D与事件A的关联性大，则保留事件D所对应的数据集合；

若事件D与事件A的关联性小，则剔除事件D所对应的数据集合；

S26、将剔除的数据集合合并构成决策数据集R。

进一步地，在步骤S23中，信息熵H（A）的计算公式为：

上式中，n、m均表示事件的数量，为事件A在配用电数据上的概率分布。

进一步地，在步骤S24中，条件熵H（A|B）的计算公式为：

上式中，n、m均表示事件的数量，为事件A在配用电数据P上的概率分布，为事件B在配用电数据P上的概率分布。

进一步地，在步骤S25中，通过计算决策属性事件D与事件A的关联度作为关联性大小的判断依据，具体过程包括以下步骤：

S251、计算决策属性事件D的信息熵H（D）；

S252、根据信息熵H（D）计算决策属性事件D相对事件A的条件熵H（D|A）；

S253、根据信息熵H（D）和条件熵H（D|A）计算决策属性事件D与事件A之间的关联度。

进一步地，在步骤S3中，具体过程包括以下步骤：

S31、定义与配用电数据相对应的项集为/>，事件矩阵为/>，其中，

上标T表示转置矩阵的符号；

S32、根据步骤S31计算与数据集合相对应项集/>的支持度/>；

S33、设处理器的数量为i个，将决策数据集R以数据长度L分割为i-1个数据块，且处理器/>根据数据块产生局部事件矩阵/>；

S34、处理器计算与局部事件矩阵/>对应的支持度/>；

S35、处理器删除支持度/>小于1的所对应的数据块，则完成矩阵挖掘规则的生成。

进一步地，在步骤S32中，支持度的计算公式为：

上式中通过统计求和计算得出与数据集合相对应项集/>的支持度/>。

进一步地，在步骤S4中，具体过程包括以下步骤：

S41、采用树的查找算法在决策数据集中给定一颗查询树，并从查询树R中的路径集合/>中筛选出简单路径，n为查询树R中路径的数量；

S42、判断路径集合中的路径/>是否为简单路径；

若，路径/>是路径/>的父亲节点，且路径集合/>中相邻两个节点之间的边/>不表示祖先-后代关系，且存在路径/>是查询树R中的分支节点或谓词节点，则路径/>为简单路径；

S43、根据简单路径在决策数据集进行路径分解生成若干个查询路径；

若路径集合中的路径/>为简单路径，且查询树R中的每一个节点至少包含在一条路径/>中，则路径/>为决策数据集中的一个路径分解，即为一个查询路径。

进一步地，在步骤S5中，数据片段的威望度的计算公式为：

上式中，表示片段数据i的入度，入度指在查询路径中所有经过片段数据i的边的和，I表示片段数据的总数量。

进一步地，在步骤S6中，具体为：

对查询路径中若干数据片段所对应的威望度求和并求解均值，若均值威望度大于等于阈值1，则该查询路径为最优的查询路径，若小于阈值1，则返回步骤S4。

借由上述技术方案，本发明提供了一种电网配用电大数据的数据挖掘方法，至少具备以下有益效果：

1、本发明解决数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题，并快速生成相对应的挖掘目标，从而不仅减少了单个处理器需要处理的数据量，而且多个处理器同时运算，大大缩短了数据挖掘的耗时。

2、本发明解决了数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题，利用矩阵挖掘规则快速生成相对应的挖掘目标，以矩阵挖掘规则的并行方式，不仅减少了单个处理器需要处理的数据量，而且多个处理器同时运算，大大缩短了数据挖掘的耗时。

3、本发明将决策数据集进行路径分解生成若干个查询路径，通过筛选出若干路径中的简单路径，并以简单路径为基础要求实现路径分解，即得到若干个查询路径，能够以目标节点为导向的路径查询处理框架，该方法充分利用基本操作的支持，增大了基本查询片段的粒度，从而减少了结构连接的数目，并且能够缩短在数据挖掘过程中的查询路径，提高了数据挖掘效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明能源数据挖掘方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

传统电力系统分析是基于模型的分析方法，其结果依赖于网络拓扑和模型参数的准确性。现行的无功电压运行准则和规定提出的电压和功率因数评估指标，难以分析无功补偿设备的配置是否合理，也难以帮助用户准确掌握电网的长期运行状态。随着电网规模扩大、量测手段和信息通信技术的不断完善，电网的基础运行数据逐渐呈现出数据量大、处理逻辑复杂、存储周期长等大数据特征。因此，有必要建立一些精细化的评价指标，从大量数据中挖掘电网实际运行过程中薄弱环节，并对新能源汇集站和新能源场站的无功配置提出合理建议，以提高电网运行的安全性和稳定性，降低网损，提高运行经济性。

基于上述数据挖掘在电网运行中的实际应用，本实施例提出了一种具体实施方式，以最优的查询路径和矩阵挖掘规则相结合，最优的查询路径能够给定一个查询路径最短的搜索路径，同时以目标节点为导向的路径查询处理框架，并减少结构连接的数目，而矩阵挖掘规则能够将关联算法和矩阵结合在一起，并提高矩阵运用到关联规则的可行性，解决数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题。

请参照图1，本实施例提出了一种电网配用电大数据的数据挖掘方法，该方法包括以下步骤：

S1、基于电网大数据获取当地电网的配用电数据，配用电数据指当地电网在任意一个周期内的配电数据以及用户端的用电数据等，这些数据均能够直接从电力中心的电网大数据中获取，并以配用电数据为数据基础从中进行数据挖掘。

S2、对配用电数据进行筛选并剔除其中与决策属性关联性小的数据集合得到决策数据集；在本实施例中，为了对步骤S2的实现方式进行说明，具体过程是通过以下步骤实现的，详细的实施方法如下：

S22、设任意数据集合中所对应的事件A、事件B为配用电数据P上的两个等价关系族，事件D为决策属性，并根据等价关系族确定事件A和事件B在配用电数据P上的概率分布，等价关系族即为数据挖掘的事件，也是通过数据挖掘所得到的最终结果，描述为某个事件；两个等价关系族的表达式为：

则，事件A和事件B在配用电数据P上的概率分布为：

其中，表示数据集合/>中的第n个事件的等价关系，/>表示数据集合/>中的第m个事件的等价关系，则概率分布为：

上式中，为数据集合的基数。

S23、根据概率分布计算事件A的信息熵H（A）；具体的，信息熵H（A）的计算公式为：

S24、根据信息熵H（A）计算相对于事件B的条件熵H（A|B）；具体的，条件熵H（A|B）的计算公式为：

通过上述内容可知，信息熵H（A）度量了事件A发生的不确定性，而条件熵H（A|B）则描述了在事件A发生的情况下，事件B发生的不确定性。

S25、判断决策属性事件D与事件A的关联性大小，具体为通过计算决策属性事件D与事件A的关联度作为关联性大小的判断依据；

S26、将剔除的数据集合合并构成决策数据集R。

在本实施例中，为了对步骤S25的实现方式进行说明，具体过程是通过以下步骤实现的，详细的实施方法如下：

S251、计算决策属性事件D的信息熵H（D）；

在该步骤中，对于事件D的信息熵H（D）的计算可参照信息熵H（A）的计算过程，两者采用同一个公式，因此，根据等价关系族的表达式为：

则，事件D在配电数据P上的概率分布为：

其中，表示与事件D相对应的数据集合/>中的第k个事件的等价关系，则概率分布为：

则，信息熵H（D）的计算公式为：

同样的，与事件D相对应事件A的条件熵H（D|A）与步骤S24的计算原理相同，为：

上式中，t、n均表示事件的数量，为事件D在配用电数据P上的概率分布，/>表示与事件D相对应的数据集合/>中的第k个事件的等价关系，/>与事件A相对应的数据集合/>中的第i个事件的等价关系。

具体的，关联度的计算公式为：

具体的，关联度的值越大，则表明事件D与事件A的关联性大，在本实施例中以数值0.6为界限，大于0.6则认为两个事件的关联性大，反之则关联性小。

在本实施例中，通过关联度作为判断各个事件之间的关联性大小的依据，以三个事件A、B、D来对应不同的数据集合/>，以事件A的信息熵H（A）和相对于事件B的条件熵H（A|B），能够得出事件A和事件B发生的确定性，同时以事件D作为决策属性来判断与事件A或B之间的关联性大小，并根据关联性的大小来决定事件D的保留或剔除，以此达到对配用电数据P中与数据挖掘不相关的事件进行筛选，由此缩小数据量，提高找到具有关联性大的事件的速率以及相关度。

对于关联度来说，记录每个数据集合/>中的每个事件对决策属性的关联度，将若干事件按照对决策属性的关联性大小进行排序，每次保留关联性排前60%的事件，这种事件筛选方法缩小了随机搜索范围，可以加快数据挖掘的收敛速度。

S3、确定与决策数据集相关联的数据挖掘规则，并根据数据挖掘规则生成矩阵挖掘规则；在本实施例中，为了对步骤S3的实现方式进行说明，具体过程是通过以下步骤实现的，详细的实施方法如下：

上标T表示转置矩阵的符号，在配用电数据中，每一个数据集合/>可对等的定义为一个项集/>，在数据挖掘中，项集指由一个或多个项组成的集合，比如说在数据集合/>中，项指的是配用电数据的类型名称，如工业配用电、居民配用电、公共设施配用电等，项集就是形成这些配用电类型的集合。

而事件矩阵则是根据传统的PM算法在数据挖掘中的应用所定义的，因此对于支持度/>的计算仅仅是针对与数据集合/>相对应项集/>，具体的，与事件矩阵/>相对应的则是数据块，数据块为将决策数据集R以数据长度L分割为i-1个数据块，分割得到的数据块的数据行数相同，每一行数据代表一个项集，因此，将与数据块相对应的事件矩阵/>与其自身的转置矩阵相乘产生局部事件矩阵/>。

S32、根据步骤S31计算与数据集合相对应项集/>的支持度/>；

具体的，支持度的计算公式为：

S33、设处理器的数量为i个，将决策数据集R以数据长度L分割为i-1个数据块，且处理器/>根据数据块产生局部事件矩阵/>，具体的，分割得到的数据块的数据行数相同，每一行数据代表一个项集，因此，将与数据块相对应的事件矩阵/>与其自身的转置矩阵相乘产生局部事件矩阵/>；事件矩阵/>中的每个元素，即事件，只有0和1两种值，代表某一事件是否存在有项集I中的某一项，因此将事件矩阵/>与其自身的转置矩阵相乘即得到局部事件矩阵/>。

S34、处理器计算与局部事件矩阵/>对应的支持度/>；

具体的，支持度的计算过程参见步骤S32即可，在此处不再详细赘述。

由于传统PM数据挖掘算法在进行关联规则挖掘时，事件所对应的数据库的增长将导致事件矩阵列数的增长，因此将事件矩阵分割成多个宽度相等的矩阵，即分割得到的n-1个数据块，每个分割矩阵宽度的目标是以保证矩阵的每个向量能够方便地放入计算节点的内存。

每个处理器将本地的局部事件矩阵转换为局部事件矩阵，然后通过计算每个数据块的支持度作为删除依据，将支持度/>小于1的数据块进行删除形成矩阵挖掘规则。

在本实施例中，通过确定与决策数据集相关联的数据挖掘规则并生成矩阵挖掘规则，能够将关联算法和矩阵结合在一起，并提高矩阵运用到关联规则的可行性，通过将决策数据集R进行分割，每个处理器仅处理一部分的数据块，解决了数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题，利用矩阵挖掘规则快速生成相对应的挖掘目标，以矩阵挖掘规则的并行方式，不仅减少了单个处理器需要处理的数据量，而且多个处理器同时运算，大大缩短了数据挖掘的耗时。

并且，利用矩阵计算直接生成局部事件矩阵，并通过以支持度为删除依据的矩阵挖掘规则，在很大程度上优化了整体的数据挖掘性能，能够直接定位局部事件矩阵中要搜索的列所对应的时间，从而减少了搜索过程中所耗费的时长，提高了数据挖掘的效率。

S4、将决策数据集进行路径分解生成若干个查询路径；在本实施例中，为了对步骤S4的实现方式进行说明，具体过程是通过以下步骤实现的，详细的实施方法如下：

S42、判断路径集合中的路径/>是否为简单路径；

本实施例通过在路径集合中筛选出简单路径，同时筛选条件定义为：查询树R中的简单路径不包括祖先-后代结构关系，分支节点和值谓词节点只能出现在路径末端的路径，因此它的计算可以直接通过路径索引的查询来完成，如此缩短了查询路径，提高了查询速率。

现有技术中，对于数据挖掘过程中的匹配路径查询的基本方式是对数据进行导航式的遍历，导航式的遍历简单、直接，但执行效率不能得到保证，尤其是在大数据量的情况下，导航式遍历方法的低效性促使了类似于关系数据库中“一次一集合”的路径查询计算策略的出现，目前被广泛接受的分解连接查询执行策略的基本思路是，首先定位路径查询树中每个节点的候选元素节点集合，然后通过结构连接操作组合这些中间结果来生成最后的结果，然而采用这种策略会产生大量的结构连接操作，目前，这方面的工作主要集中在高效的结构连接算法上，因此只针对没有分支的路径查询，而且大量的结构连接操作是该方法不可避免的。

基于上述所存在的问题，针对产生大量的结构连接操作这一现象，本实施例提出了一种方法，将决策数据集进行路径分解生成若干个查询路径，通过筛选出若干路径中的简单路径，并以简单路径为基础要求实现路径分解，即得到若干个查询路径，能够以目标节点为导向的路径查询处理框架，该方法充分利用基本操作的支持，增大了基本查询片段的粒度，从而减少了结构连接的数目，并且能够缩短在数据挖掘过程中的查询路径，提高了数据挖掘效率。

S5、计算若干个查询路径中的任意多个数据片段的威望度；

在该步骤中，一个查询路径中对应若干个数据片段，也为查询片段，因此在数据片段中，一个数据片段的威望度是指这个数据片段入度与所有数据片段的入度和的比值，因此数据片段的威望度的计算公式为：

因此，一个片段数据的威望度越高，则该片段数据代表的数据与数据挖掘中的关联次数就越多，而该片段数据与数据挖掘目标之间的关联度就越高。

S6、根据威望度判断查询路径是否为最优的查询路径；

若是，则进入步骤S7；

若否，则返回步骤S4。

在步骤S6中，对查询路径中若干数据片段所对应的威望度求和并求解均值，若均值威望度大于等于阈值1，则该查询路径为最优的查询路径，若小于阈值1，则返回步骤S4。

S7、采用最优的查询路径根据矩阵挖掘规则在决策数据集中进行数据挖掘；在该步骤中，以最优的查询路径和矩阵挖掘规则相结合，最优的查询路径能够给定一个查询路径最短的搜索路径，同时以目标节点为导向的路径查询处理框架，并减少结构连接的数目，而矩阵挖掘规则能够将关联算法和矩阵结合在一起，并提高矩阵运用到关联规则的可行性，解决数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题，并快速生成相对应的挖掘目标，从而不仅减少了单个处理器需要处理的数据量，而且多个处理器同时运算，大大缩短了数据挖掘的耗时。

以上实施方式对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种电网配用电大数据的数据挖掘方法，其特征在于，该方法包括以下步骤：

S1、基于电网大数据获取当地电网的配用电数据；

S4、将决策数据集进行路径分解生成若干个查询路径；

S5、计算若干个查询路径中的任意多个数据片段的威望度；

S6、根据威望度判断查询路径是否为最优的查询路径；

若是，则进入步骤S7；

若否，则返回步骤S4；

2.根据权利要求1所述的数据挖掘方法，其特征在于，在步骤S2中，具体过程包括以下步骤：

S23、根据概率分布计算事件A的信息熵H（A）；

S24、根据信息熵H（A）计算相对于事件B的条件熵H（A|B）；

S25、判断决策属性事件D与事件A的关联性大小；

S26、将剔除的数据集合合并构成决策数据集R。

3.根据权利要求2所述的数据挖掘方法，其特征在于，在步骤S23中，信息熵H（A）的计算公式为：

上式中，n、m均表示事件的数量，/>为事件A在配用电数据上的概率分布。

4.根据权利要求2所述的数据挖掘方法，其特征在于，在步骤S24中，条件熵H（A|B）的计算公式为：

上式中，n、m均表示事件的数量，为事件A在配用电数据P上的概率分布，/>为事件B在配用电数据P上的概率分布。

5.根据权利要求2所述的数据挖掘方法，其特征在于，在步骤S25中，通过计算决策属性事件D与事件A的关联度作为关联性大小的判断依据，具体过程包括以下步骤：

S251、计算决策属性事件D的信息熵H（D）；

6.根据权利要求1所述的数据挖掘方法，其特征在于，在步骤S3中，具体过程包括以下步骤：

上标T表示转置矩阵的符号；

S32、根据步骤S31计算与数据集合相对应项集/>的支持度/>；

S34、处理器计算与局部事件矩阵/>对应的支持度/>；

7.根据权利要求6所述的数据挖掘方法，其特征在于，在步骤S32中，支持度的计算公式为：

上式中通过统计求和计算得出与数据集合/>相对应项集/>的支持度/>。

8.根据权利要求1所述的数据挖掘方法，其特征在于，在步骤S4中，具体过程包括以下步骤：

S42、判断路径集合中的路径/>是否为简单路径；

9.根据权利要求1所述的数据挖掘方法，其特征在于，在步骤S5中，数据片段的威望度的计算公式为：

上式中，/>表示片段数据i的入度，入度指在查询路径中所有经过片段数据i的边的和，I表示片段数据的总数量。

10.根据权利要求1所述的数据挖掘方法，其特征在于，在步骤S6中，具体为：