CN106709822A - 一种行业用电数据关联关系挖掘方法及装置 - Google Patents
一种行业用电数据关联关系挖掘方法及装置 Download PDFInfo
- Publication number
- CN106709822A CN106709822A CN201710148583.6A CN201710148583A CN106709822A CN 106709822 A CN106709822 A CN 106709822A CN 201710148583 A CN201710148583 A CN 201710148583A CN 106709822 A CN106709822 A CN 106709822A
- Authority
- CN
- China
- Prior art keywords
- industry
- power consumption
- data
- normalized
- consumption data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005065 mining Methods 0.000 title abstract description 19
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims description 65
- 230000005611 electricity Effects 0.000 claims description 43
- 230000008859 change Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 10
- 241001269238 Data Species 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 18
- 238000007418 data mining Methods 0.000 abstract description 7
- 230000002596 correlated effect Effects 0.000 abstract 1
- 238000004519 manufacturing process Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 13
- 239000002184 metal Substances 0.000 description 11
- 229910052751 metal Inorganic materials 0.000 description 11
- CWYNVVGOOAEACU-UHFFFAOYSA-N Fe2+ Chemical compound [Fe+2] CWYNVVGOOAEACU-UHFFFAOYSA-N 0.000 description 9
- 241000208125 Nicotiana Species 0.000 description 7
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 7
- 239000003245 coal Substances 0.000 description 7
- 235000013305 food Nutrition 0.000 description 7
- 229940032021 tetramune Drugs 0.000 description 7
- 229910052500 inorganic mineral Inorganic materials 0.000 description 6
- 239000011707 mineral Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000009412 basement excavation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000003723 Smelting Methods 0.000 description 4
- 235000013361 beverage Nutrition 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 239000004033 plastic Substances 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 4
- 238000003490 calendering Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005272 metallurgy Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 241000288113 Gallirallus australis Species 0.000 description 2
- 239000013064 chemical raw material Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 239000002994 raw material Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种行业用电数据关联关系挖掘方法及装置,其中,方法包括:获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。本技术方案抽取用电信息采集系统中的行业用电量数据代替平均负荷,避免了负荷的瞬时特性可能对行业整体负荷分析造成的干扰,采用基于熵的离散化方法将行业用电量数据进行离散处理,通过Apriori算法进行数据开采分析,得出挖掘关联规则的频繁项集,实现对不同行业的用电量数据进行关联挖掘。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种行业用电数据关联关系挖掘方法及装置。
背景技术
智能电网作为解决未来能源输送问题的理想方案,成为电网发展的必然趋势。智能电网作为能源配置的绿色平台,是应对挑战、促进我国低碳发展的战略支点。伴随着智能电网的发展,关于负荷特性的有关研究也成为热点。基于智能电网的负荷分析目前还停留在区域性的或整体负荷分析,且因电网负荷是由众多用户负荷构成,不同用户的负荷受自身行业属性和生产特点影响,负荷规律也是千差万别,行业间的关联关系也对用户的用电行为产生一定影响。
国内对于负荷特性研究较多的是网、省级电网的负荷特性,对于行业负荷特性的分析较少涉及,这些研究主要是调研普查性质,对未来行业负荷、行业电量走势的预判未考虑行业间的关联关系,分析预测存在一定误差。
发明内容
为解决现有技术的问题,本发明提出一种行业用电数据关联关系挖掘方法及装置,对未来行业负荷、行业电量走势的预判考虑行业间的关联关系,为分析行业用电量趋势提供了依据。
为实现上述目的,本发明提供了一种行业用电数据关联关系挖掘方法,包括:
获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;
采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;
对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。
优选地,所述采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理的步骤包括:
根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的信息和对应行业的归一化处理后的月用电量数据;
确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;
如果划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。
优选地,所述期望信息需求的表达式为:
其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。
优选地,对所述月用电量数据进行归一化处理的表达式为:
其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。
优选地,所述获取每个用电行业的月用电量数据的步骤包括:
从用电信息采集系统中获取用电行业所有用户的日电量,空缺数值采用相似日均值进行填补;
按照用户、行业将所有日电量数据合并为用电行业的月用电量数据。
为实现上述目的,本发明还提出一种行业用电数据关联关系挖掘装置,包括:
归一化处理单元,用于获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;
离散化处理单元,用于采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;
挖掘单元,用于对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。
优选地,所述离散化处理单元包括:
初始化模块,用于根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的信息和对应行业的归一化处理后的月用电量数据;
分裂点确定模块,用于确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;
迭代划分模块,用于如果划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。
优选地,所述分裂点确定模块获得期望信息需求的表达式为:
其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。
优选地,所述归一化处理单元对所述月用电量数据进行归一化处理的表达式为:
其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。
优选地,所述归一化处理单元还包括:
日用电量获取模块,用于从用电信息采集系统中获取用电行业所有用户的日用电量,空缺数值采用相似日用电量均值进行填补;
月用电量获取模块,用于按照用户、行业将所有日电量数据合并为用电行业的月用电量数据。
上述技术方案具有如下有益效果:
本技术方案抽取用电信息采集系统中的行业用电量数据代替平均负荷,避免了负荷的瞬时特性可能对行业整体负荷分析造成的干扰,采用基于熵的离散化方法将行业用电量数据进行离散处理,通过Apriori算法进行数据开采分析,得出挖掘关联规则的频繁项集,实现对不同行业的用电量数据进行关联挖掘。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提出的一种行业用电数据关联关系挖掘方法流程图;
图2为本发明实施例提出的一种行业用电数据关联关系挖掘装置功能框图;
图3为本实施例离散化结果示意图;
图4为本实施例的关联行业用电趋势图之一;
图5为本实施例的关联行业用电趋势图之二;
图6为本实施例的关联行业用电趋势图之三;
图7为本实施例的关联行业用电趋势图之四。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本技术方案的工作原理为:从总量上分析负荷变化规律忽略了行业的用电规律,仅针对单一行业进行负荷分析忽略行业间关联关系,分析结果都存在一定偏颇。随着智能电表的普及,用采系统历史数据库中存储了大量的数据,这些数据的背后隐藏了可以提高用电管理的信息。因为不同行业的用电量数据之间必定存在或大或小的关联,如果可以从行业用电量数据中挖掘其关联规则,并对其进行量化,不仅可以提高地区用电量预测的准确度,更可以深度挖掘行业之间的线索。本文用基于关联规则的数据挖掘技术进行数据开采分析,通过使用Weka数据挖掘平台对不同行业的用电量数据进行关联挖掘,以求充分发挥大数据对电力生产的指导作用。
基于上述工作原理,本发明实施例提出的一种行业用电数据关联关系挖掘方法,如图1所示。包括:
步骤101):获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;
在本实施例中,本次所获取的数据为冀北地区不同行业之间的表底示数,首先要对其进行递减运算,得到每日实际用电量数据,对于空缺值采用相似日均值进行填补,以求获得较为准确的用电量数据。
Apriori算法的特点是只能处理分类变量,无法处理数值型变量;数据存储可以是交易数据格式(事务表),或者是事实表方式(表格数据),所以计算出的用电量数据无法直接使用。需要对其进行归一化处理,并对其处理结果进行离散化处理。
首先对数据进行归一化,其公式如下:
x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。归一化之后,将数据限定在[0,1]区间内,然后处理数据,进行行业用电量的关联挖掘分析。
步骤102):采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;
离散化结果的好坏可以从以下几方面来考虑:(1)区间的个数。这也是对模型简洁性的要求。理论上来说,离散得到的区间数越少越好,便于理解,但区间数的减少另一方面也会导致数据的可理解性变差;(2)离散化所导致的不一致性。离散化之后数据的不一致性不能比离散化之前更高。这一点是对模型一致性的要求。(3)预测准确性。即对模型准确性的要求。
对于标准化的数据,要基于实际情况采用合适的方法对其进行离散化处理。这里采用基于熵的离散化方法,其内容如下:
算法流程熵(Entropy)是最常用的离散化度量之一。基于熵的离散化是一种监督的、自顶向下的分裂技术。它在计算和确定分裂点时利用分布信息。例如,对于本实施例来说,根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的分类信息和对应行业的归一化处理后的月用电量数据。为了离散化数值区间A,该方法选择数值区间A的具有最小熵的值作为分裂点,并递归地划分结果区间,得到分层离散化。这种离散化形成数值区间A的概念分层。
基于熵的离散化基本方法如下:数值区间A的每个值都可以看作一个划分数值区间A的值域的潜在的区间边界或分裂点(记作split_point)。也就是说,数值区间A的分裂点可以将数据元组集D中的元组划分成分别满足条件A≦split_point和A≥split_point的两个子集,这样就创建了一个二元离散化。选择分裂点对数据元组集D进行划分的目的是为了将数据更清晰地分类。理想的状态下,我们希望每一个分类中的元组所属类别尽可能地少,即分类后各类中的元组的类别尽可能地一致,也就是说在数值区间A上按照split_point划分数据元组集D后为了得到完全的分类所需要的信息越少。为了度量某一划分之后得到完全的分类还需要信息,引入期望信息需求的概念,期望信息需求由下式给出:
其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。
这样在选择数值区间A的分裂点时,我们希望产生使得期望信息需求最小的数据点split_point作为分裂点,使用A≤split_point和A>split_point划分之后,且对元组完全分类需要的信息量最小。
如果划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。
步骤103):对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。
Apriori算法使用一种称作逐层搜索的迭代方法,即“K-1项集”用于搜索“K项集”。首先,找出频繁“1项集”的集合,该集合记作L1。用L1找频繁“2项集”的集合L2,再用L2找L3。如此下去,直到不能找到频繁“K项集”。每个频繁项集LK的寻找都需要一次数据库的扫描。核心思想是:连接步和剪枝步。连接步是自连接,原则是保证前k-2项相同,并按照字典顺序连接。剪枝步,是使任一个频繁项集的所有非空子集也必须是频繁的。反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从Ck中删除。Apriori寻找频繁项集的过程是一个不断迭代的过程,每次都是两个步骤,产生候选集Ck(可能成为频繁项集的项目组合);基于候选集Ck计算支持度,确定LK。Apriori的寻找策略就是从包含少量的项目开始逐渐向多个项目的项目集搜索。
在经典的Apriori中设置有类似置信度的度量来衡量规则的关联程度,同时也是本实施例使用软件weka的评判关联挖掘结果好坏的度量标准。它们分别是Lift,Leverage和Conviction。其含义分别如下:
Lift:P(A,B)/(P(A)P(B))
当Lift=1时表示A和B独立。这个数越大(>1),越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度。
Leverage:P(A,B)-P(A)P(B)
Leverage=0时A和B独立,Leverage越大A和B的关系越密切。
Conviction:P(A)P(!B)/P(A,!B)
Conviction也是用来衡量A和B的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大,A、B越关联。
本发明实施例还提供一种计算机可读程序,其中当在电子设备中执行所述程序时,所述程序使得计算机在所述电子设备中执行如图1所述的行业用电数据关联关系挖掘方法。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在电子设备中执行如图1所述的行业用电数据关联关系挖掘方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一般计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
如图2所示,为本发明实施例提出的一种行业用电数据关联关系挖掘装置功能框图。包括:
归一化处理单元201,用于获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;
离散化处理单元202,用于采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;
挖掘单元203,用于对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。
优选地,在本实施例中,所述离散化处理单元202包括:
初始化模块,用于根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的分类信息和对应行业的归一化处理后的月用电量数据;
分裂点确定模块,用于确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;
迭代划分模块,用于如果划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。
优选地,所述分裂点确定模块获得期望信息需求的表达式为:
其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。
优选地,所述归一化处理单元对所述月用电量数据进行归一化处理的表达式为:
其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。
本领域技术人员还可以了解到本发明实施例列出的各种功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,比如,本技术方案中的归一化处理单元201、离散化处理单元202、挖掘单元203均可以通过FPGA实现,但这种实现不应被理解为超出本发明实施例保护的范围。
此外,尽管在上文详细描述中提及了装置的若干单元,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。同样,上文描述的一个单元的特征和功能也可以进一步划分为由多个单元来具体化。
本技术方案综合考虑负荷的瞬时特性或对行业整体负荷分析造成干扰,抽取用电信息采集系统中的行业用电量数据代替平均负荷,采用基于熵的离散化方法对行业用电量进行离散化处理,通过Apriori算法进行数据开采分析,挖掘关联规则的频繁项集,使用Weka数据挖掘平台对不同行业的用电量数据进行关联挖掘。本文选取了冀北地区用电量排名前12位的行业作为研究对象,12个行业分别为煤炭开采和冼选业,黑色金属矿采选业,食品、饮料和烟草制造业,木材加工及制品和家具制品业,化学原料及化学制品制造业,橡胶和塑料制品业,非金属矿物制品业,黑色金属冶炼及压延加工业,有色金属冶炼及压延加工业,金属制品业,通用及专用设备制造业,交通运输、电气、电子设备制造业。抽取用电信息采集系统中2014年1月--2016年9月12个行业所有用户的日电量,空缺数值采用相似日均值进行填补,按照用户、行业将所有日电量数据合并为行业月用电量数据,进行归一化处理,将数值限定在区间[0,1]内。
采用基于熵的数据离散化方法,将归一化后的数据离散,离散区间的数量对挖掘结果影响较大。经验证,将归一化处理后的每个行业的所有月用电量数据离散为5个区间,一方面保证数据不会失真,保证有较好的理解性,另外也可以满足关联挖掘模型的需求,确保其准确性。结果如图3所示。a1-a12分别代表煤炭开采和冼选业,黑色金属矿采选业,食品、饮料和烟草制造业,木材加工及制品和家具制品业,化学原料及化学制品制造业,橡胶和塑料制品业,非金属矿物制品业,黑色金属冶炼及压延加工业,有色金属冶炼及压延加工业,金属制品业,通用及专用设备制造业,交通运输、电气、电子设备制造业。其中,每列代表样本离散的类,每列的长度代表离散后样本的数量,每列不同的颜色代表离散后,此类离散值在样本中连续出现的次数,根据离散结果可知:样本被离散最多为6类,共1个行业,离散类数最少为3类,共2个行业,被离散为5类的行业共计5个行业,被离散为四类行业共计3个行业。
对离散后的数据基于Apriori算法进行关联分析,设置全局关联,以支持度0.05幅度递减,寻找置信度大于0.9的频繁项集,对模型进行训练。遍历5轮数据库后,频繁项集为空,训练结束。得到关联度较高的4类结果,如图4、图5、图6、图7所示。
如图4所示,为本实施例的关联行业用电趋势图之一。食品、饮料和烟草制造业与木材加工及制品和家具制品业及橡胶和塑料制品业关联度最高、相关性最强。
通过分析其用电量及变化趋势可知:3个行业均属于用电量相对较小的制造业,全年用电量除每年2月到3月用电量受春节假期影响有明显下降外,变化幅度较小。经调研,此类行业多为流水线生产,受人员变动影响较大,春节前后会大部分生产线停产,导致用电量大幅度下降。其中,木材加工及家具制品和橡胶和塑料制品业相关性更高。
如图5所示,为本实施例的关联行业用电趋势图之二。非金属矿物制品和通用及专用设备制造业关联度其次,2个行业为上下游关系。通用及专用设备制造业包括:锅炉及原动机制造,矿山、冶金、建筑专用设备制造,化工、木材、非金属加工专用设备制造,其原材料多为非金属矿物制品,电量消耗占比较大的行业也多为非金属工艺生产,所以与非金属矿物制品业用电走势极为相似,且通用及专用设备制造业电量变化稍滞后于非金属矿物制品业。
如图6所示,为本实施例的关联行业用电趋势图之三。煤炭开采和冼选业及黑色金属冶炼及压延加工业关联度略低于以上2类,2个行业有较强的生产关系,煤炭开采和冼选业为黑色金属行业主供能源。分析2个行业的用电量走势:煤炭开采和冼选业易受到国家政策及新能源影响,受国家2015年政策影响,河北共计关闭64处矿井,煤矿数量被控制在200处以内,煤炭开采和冼选业用电量2015年有明显下降趋势。但趋于稳定后,其电量变化趋势与黑色金属冶炼及压延加工业走势基本一致,关联度极高。
如图7所示,为本实施例的关联行业用电趋势图之四。食品饮料和烟草制品业、非金属矿物制品和金属矿物制品业3个行业关联度略小于以上3类。调研可知,非金属矿物制品和金属矿物制品业都属于下游产业,为其他行业提供工具或原材料,在关联关系挖掘过程中发现,非金属矿物制品、金属矿物制品业、食品饮料和烟草制品业、交通运输、电气、电子设备制造业等行业性质类似的,具有较强的关联关系。
本技术方案采用基于熵的数据离散化方法,将用电量数据转化为离散数据,离散效果经实际检验合理后,运用Apriori关联挖掘算法有效挖掘出冀北地区12个行业间的关联关系,得出以下结论:
1、食品、饮料和烟草制造业与木材加工及制品和家具制品业及橡胶和塑料制品业,用电量对人力因素极为敏感,表现出极高的关联度;
2、通用及专用设备制造业为非金属矿物制品的下游产业,两者用电量变化趋势一致,且下游产业电量变化稍滞后于上游产业;
3、作为黑色金属冶炼及压延加工业的主供能源,剔除煤炭开采和冼选业用电量受政策因素影响后,两者关联度极高;
4、非金属矿物制品、金属矿物制品业、食品饮料和烟草制品业、交通运输、电气、电子设备制造业的行业性质类似的产业,具有较强的关联关系。
研究表明,Apriori关联挖掘算法可以有效地挖掘行业间的关联关系,对于电力行业用电特性分析和挖掘具有可行性和参考价值。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种行业用电数据关联关系挖掘方法,其特征在于,包括:
获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;
采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;
对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。
2.如权利要求1所述的方法,其特征在于,所述采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理的步骤包括:
根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的信息和对应行业的归一化处理后的月用电量数据;
确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;
如果划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。
3.如权利要求2所述的方法,其特征在于,所述期望信息需求的表达式为:
其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。
4.如权利要求1所述的方法,其特征在于,对所述月用电量数据进行归一化处理的表达式为:
其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。
5.如权利要求1所述的方法,其特征在于,所述获取每个用电行业的月用电量数据的步骤包括:
从用电信息采集系统中获取用电行业所有用户的日电量,空缺数值采用相似日均值进行填补;
按照用户、行业将所有日电量数据合并为用电行业的月用电量数据。
6.一种行业用电数据关联关系挖掘装置,其特征在于,包括:
归一化处理单元,用于获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;
离散化处理单元,用于采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;
挖掘单元,用于对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。
7.如权利要求6所述的装置,其特征在于,所述离散化处理单元包括:
初始化模块,用于根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的信息和对应行业的归一化处理后的月用电量数据;
分裂点确定模块,用于确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;
迭代划分模块,用于如果划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。
8.如权利要求7所述的装置,其特征在于,所述分裂点确定模块获得期望信息需求的表达式为:
其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。
9.如权利要求6所述的装置,其特征在于,所述归一化处理单元对所述月用电量数据进行归一化处理的表达式为:
其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。
10.如权利要求6所述的装置,其特征在于,所述归一化处理单元还包括:
日用电量获取模块,用于从用电信息采集系统中获取用电行业所有用户的日用电量,空缺数值采用相似日用电量均值进行填补;
月用电量获取模块,用于按照用户、行业将所有日电量数据合并为用电行业的月用电量数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710148583.6A CN106709822A (zh) | 2017-03-14 | 2017-03-14 | 一种行业用电数据关联关系挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710148583.6A CN106709822A (zh) | 2017-03-14 | 2017-03-14 | 一种行业用电数据关联关系挖掘方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106709822A true CN106709822A (zh) | 2017-05-24 |
Family
ID=58918183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710148583.6A Pending CN106709822A (zh) | 2017-03-14 | 2017-03-14 | 一种行业用电数据关联关系挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106709822A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783528A (zh) * | 2018-11-23 | 2019-05-21 | 国网江苏省电力有限公司电力科学研究院 | 一种用电模式提取方法和系统 |
CN110222094A (zh) * | 2019-06-14 | 2019-09-10 | 国网新疆电力有限公司电力科学研究院 | 基于改进Apriori算法的电能表风险分析方法及系统 |
CN112925821A (zh) * | 2021-02-07 | 2021-06-08 | 江西理工大学 | 基于MapReduce的并行频繁项集增量数据挖掘方法 |
CN115659845A (zh) * | 2022-12-08 | 2023-01-31 | 江苏擎天工业互联网有限公司 | 一种基于电力数据的碳排放计算方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260387A (zh) * | 2015-09-10 | 2016-01-20 | 江苏省邮电规划设计院有限责任公司 | 一种面向海量事务数据库的关联规则分析方法 |
CN105320655A (zh) * | 2014-05-29 | 2016-02-10 | 国家电网公司 | 一种输变电工程线路数据挖掘方法 |
CN105930375A (zh) * | 2016-04-13 | 2016-09-07 | 云南财经大学 | 一种基于xbrl文件的数据挖掘方法 |
CN106447206A (zh) * | 2016-10-09 | 2017-02-22 | 国网浙江省电力公司信息通信分公司 | 基于用电信息采集数据的用电分析方法 |
-
2017
- 2017-03-14 CN CN201710148583.6A patent/CN106709822A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320655A (zh) * | 2014-05-29 | 2016-02-10 | 国家电网公司 | 一种输变电工程线路数据挖掘方法 |
CN105260387A (zh) * | 2015-09-10 | 2016-01-20 | 江苏省邮电规划设计院有限责任公司 | 一种面向海量事务数据库的关联规则分析方法 |
CN105930375A (zh) * | 2016-04-13 | 2016-09-07 | 云南财经大学 | 一种基于xbrl文件的数据挖掘方法 |
CN106447206A (zh) * | 2016-10-09 | 2017-02-22 | 国网浙江省电力公司信息通信分公司 | 基于用电信息采集数据的用电分析方法 |
Non-Patent Citations (2)
Title |
---|
史月美,宗春梅著: "《关联规则挖掘研究》", 31 May 2016 * |
蔡振雄: "《第二届海洋工程与航海技术国际学术会议(OEMT2009)论文集》", 31 December 2009 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783528A (zh) * | 2018-11-23 | 2019-05-21 | 国网江苏省电力有限公司电力科学研究院 | 一种用电模式提取方法和系统 |
CN109783528B (zh) * | 2018-11-23 | 2019-09-10 | 国网江苏省电力有限公司电力科学研究院 | 一种用电模式提取方法和系统 |
CN110222094A (zh) * | 2019-06-14 | 2019-09-10 | 国网新疆电力有限公司电力科学研究院 | 基于改进Apriori算法的电能表风险分析方法及系统 |
CN112925821A (zh) * | 2021-02-07 | 2021-06-08 | 江西理工大学 | 基于MapReduce的并行频繁项集增量数据挖掘方法 |
CN115659845A (zh) * | 2022-12-08 | 2023-01-31 | 江苏擎天工业互联网有限公司 | 一种基于电力数据的碳排放计算方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674841B (zh) | 一种基于聚类算法的测井曲线识别方法 | |
Camacho et al. | Are European business cycles close enough to be just one? | |
Haaf et al. | An inter-comparison of similarity-based methods for organisation and classification of groundwater hydrographs | |
CN106709822A (zh) | 一种行业用电数据关联关系挖掘方法及装置 | |
CN104142918A (zh) | 基于tf-idf特征的短文本聚类以及热点主题提取方法 | |
CN108222925A (zh) | 页岩气储层分级综合评价方法 | |
Zhu et al. | Rapid identification of high-quality marine shale gas reservoirs based on the oversampling method and random forest algorithm | |
CN107038505A (zh) | 基于机器学习的找矿模型预测方法 | |
Li et al. | A new method of identification of complex lithologies and reservoirs: task-driven data mining | |
CN104101902A (zh) | 地震属性聚类方法及装置 | |
Huang | Seismic signal recognition by unsupervised machine learning | |
Wallet et al. | Unsupervised seismic facies using Gaussian mixture models | |
CN114240041A (zh) | 配网台区精益化线损分析方法及系统 | |
Bierlein et al. | Advanced methodologies for the analysis of databases of mineral deposits and major faults | |
CN110309578A (zh) | 一种基于计算机数据处理的经济数据拟合系统及方法 | |
Chatterjee et al. | Exploring the uncertainty of machine learning models and geostatistical mapping of rare earth element potential in Indiana coals, USA | |
Megala et al. | A novel datamining approach to determine the vanished agricultural land in Tamilnadu | |
Vijayakamal et al. | A Novel Approach for WEKA & Study On Data Mining Tools | |
Esmaeiloghli et al. | Optimizing the grade classification model of mineralized zones using a learning method based on harmony search algorithm | |
Ma et al. | Design and development of intelligent well logging interpretation system | |
Pan et al. | Decomposed and weighted characteristic analysis for the quantitative estimation of mineral resources | |
Kazemi et al. | Application of genetic and K-means algorithms in clustering Babakoohi Anticline joints north of Shiraz, Iran | |
Ninoria et al. | A survey on high utility itemsets mining | |
Guo et al. | A novel Mahalanobis distance method for predicting oil and gas resource spatial distribution | |
Wendel et al. | An evaluation of unsupervised and supervised learning algorithms for clustering landscape types in the United States |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170524 |