CN110322052B

CN110322052B - 一种电能替代方案预测中的特征关联与分簇方法及装置

Info

Publication number: CN110322052B
Application number: CN201910506278.9A
Authority: CN
Inventors: 缪庆庆; 林涛; 张善刚; 刘宗杰; 孙海彬; 周翔宇; 范先慎; 李静; 孔德营; 宋益瑞; 张冠军; 刘伟; 王文君; 孔庆迎
Original assignee: State Grid Corp of China SGCC; Jining Power Supply Co
Current assignee: State Grid Corp of China SGCC; Jining Power Supply Co
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2022-05-20
Anticipated expiration: 2039-06-12
Also published as: CN110322052A

Abstract

本发明公开了一种电能替代方案预测中的特征关联与分簇方法及装置，采集电力企业数据库中各类企业能源替代前后相关数据，并进行预处理，作为能源代替数据进行存储；根据能源代替数据筛选实施能源替代转换的各行业高能耗企业，并将其能源代替数据作为标杆企业样本；对标杆企业样本进行聚类，得到同类能源替代标杆企业样本集；识别同类能源替代标杆企业样本集的能源替代相关频繁项集，得到同类能源替代方案频繁项集；挖掘同类能源替代方案频繁项集中的关联规则；根据关联规则进行电能替代方案预测中的特征关联和分簇。

Description

一种电能替代方案预测中的特征关联与分簇方法及装置

技术领域

本公开属于能源替代的技术领域，涉及一种电能替代方案预测中的特征关联与分簇方法及装置。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着我国工业经济的快速发展，环境污染、资源耗散、气候变化等问题日益突出，为实现国民经济持续健康发展，需加快能耗转型，大力发展清洁能源。然而，能源待转型企业在进行设备安装、改造、升级等过程中，存在工程量大、盈利慢、改换成本高等问题，进行能源替代方案的推行，存在较大的阻力，因此需要根据能源市场各类动态信息、激励机制以及用户对能耗替代的需求作出各类能源替代方案的动态成本预测，并基于概率统计的理念，通过能源等价成本的对比，获取相对竞争优势的最高边界电价，从而为电力企业制定电价标准提供数据支撑，实现以电能消费为主体的电能替代方案预测。

然而，发明人在研发过程中发现，以往的电能替代方案预测方案采用的预测规则及属性存在混乱且复杂的缺陷，导致预测结果不够精确，因此，如何在电能替代方案预测过程中进行特征关联与分簇是当前急需研究的一个课题。

发明内容

针对现有技术中存在的不足，本公开的一个或多个实施例提供了一种电能替代方案预测中的特征关联与分簇方法及装置,采用特征关联与分簇研究方法有效地梳理与分析在电能替代方案预测中的属性因素，提高了电能预测方案中的精确度，能够快速有效地对电能替代方案预测中的特征关联与分簇进行提取，为电能替代方案预测提供了有效的数据支持。

根据本公开的一个或多个实施例的一个方面，提供一种电能替代方案预测中的特征关联与分簇方法。

一种电能替代方案预测中的特征关联与分簇方法，该方法包括：

采集电力企业数据库中各类企业能源替代前后相关数据，并进行预处理，作为能源代替数据进行存储；

根据能源代替数据筛选实施能源替代转换的各行业高能耗企业，并将其能源代替数据作为标杆企业样本；

对标杆企业样本进行聚类，得到同类能源替代标杆企业样本集；

识别同类能源替代标杆企业样本集的能源替代相关频繁项集，得到同类能源替代方案频繁项集；

挖掘同类能源替代方案频繁项集中的关联规则；根据关联规则进行电能替代方案预测中的特征关联和分簇。

进一步地，在该方法中，采用K均值聚类方法对标杆企业样本进行聚类，得到同类能源替代标杆企业样本集。

进一步地，在该方法中，所述采用K均值聚类方法对标杆企业样本进行聚类的具体步骤包括：

随机选取k个标杆企业样本作为初始聚类中心；

分别计算剩余标杆企业样本数据到初始聚类中心的距离；

根据距离最小原则，对标杆企业样本数据进行分类，所述分类规则为将每个企业分配给距离它最近的聚类中心；

依据类内平均距离最小原则，计算每个聚类中的新的聚类中心；返回计算剩余标杆企业样本数据到初始聚类中心的距离，直到聚类中心不发生变化。

进一步地，在该方法中，识别同类能源替代标杆企业样本集的能源替代相关频繁项集的具体步骤包括：

接收同类能源替代标杆企业样本集的属性集合；

根据属性集合中的不同属性，生成单项属性集的集合；

根据单项属性集的集合寻找频繁单项属性集；

执行频繁项集连接，将两个k-1项频繁项集连接生成新的k项集；

将新生成的k项集执行频繁项集剪枝，删除一定不是频繁的k项集；

扫描样本数据库；

判断所有的频繁k项集是否为空，若为空，输出当前找到的所有频繁项集，若不为空，则返回寻找频繁单项属性集；

进一步地，在该方法中，所述同类能源替代标杆企业样本集的属性集合包括标杆企业能源替代前后的相关用能因素、用能产出效益和环保效益。

进一步地，在该方法中，所述根据单项属性集的集合寻找频繁单项属性集的具体步骤包括：

接收设定的最小支持度计数阈值；

统计同类能源替代标杆企业样本集的单项属性集的集合中所有元素出现的次数，得到支持度计数，将支持度计数小于最小支持度计数阈值的项集筛除，得到频繁单项属性集。

进一步地，在该方法中，所述执行频繁项集连接的具体步骤包括：

判断两个k-1项频繁项集是否可连接；

如果两个k-1项频繁项集可连接，则二者生成一个新的k项集。

进一步地，在该方法中，所述挖掘同类能源替代方案频繁项集中的关联规则的具体步骤包括：

提取规则后件只含一个项的所有高置信度规则；

使用在频繁项集产生时计算的支持度计数确定每个规则的置信度；

使用当前的高置信度规则来产生新的候选规则，得到关联规则。

根据本公开的一个或多个实施例的一个方面，提供一种计算机可读存储介质。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种电能替代方案预测中的特征关联与分簇方法。

根据本公开的一个或多个实施例的一个方面，提供一种终端设备。

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种电能替代方案预测中的特征关联与分簇方法。

根据本公开的一个或多个实施例的一个方面，提供一种电能替代方案预测中的特征关联与分簇装置。

一种电能替代方案预测中的特征关联与分簇装置，基于所述的一种电能替代方案预测中的特征关联与分簇方法，包括：

数据采集模块，被配置为采集电力企业数据库中各类企业能源替代前后相关数据，并进行预处理，作为能源代替数据进行存储；

样本选取模块，被配置为根据能源代替数据筛选实施能源替代转换的各行业高能耗企业，并将其能源代替数据作为标杆企业样本；

聚类模块，被配置为对标杆企业样本进行聚类，得到同类能源替代标杆企业样本集；

频繁项集识别模块，被配置为识别同类能源替代标杆企业样本集的能源替代相关频繁项集，得到同类能源替代方案频繁项集；

特征关联和分簇模块，被配置为挖掘同类能源替代方案频繁项集中的关联规则；根据关联规则进行电能替代方案预测中的特征关联和分簇。

本公开的有益效果：

本公开提供的一种电能替代方案预测中的特征关联与分簇方法及装置，通过特征关联与分簇研究方法有效地梳理与分析在电能替代方案预测中的属性因素，解决了电能替代方案预测中，预测规则及属性存在混乱且复杂的缺陷，提高了预测精度，为能源替换提供了数据依据，响应了国家政策号召，改善了生态环境。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是根据一个或多个实施例的一种电能替代方案预测中的特征关联与分簇方法流程图；

图2是根据一个或多个实施例的识别频繁项集流程流程图。

具体实施方式：

下面将结合本公开的一个或多个实施例中的附图，对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本公开的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合，下面结合附图与实施例对本公开作进一步说明。

如图1所示，一种电能替代方案预测中的特征关联与分簇方法，该方法包括：

步骤S1:采集电力企业数据库中各类企业能源替代前后相关数据，并进行预处理，作为能源代替数据进行存储；

步骤S2:根据能源代替数据筛选实施能源替代转换的各行业高能耗企业，并将其能源代替数据作为标杆企业样本；

步骤S3:对标杆企业样本进行聚类，得到同类能源替代标杆企业样本集；

步骤S4:识别同类能源替代标杆企业样本集的能源替代相关频繁项集，得到同类能源替代方案频繁项集；

步骤S5:挖掘同类能源替代方案频繁项集中的关联规则；根据关联规则进行电能替代方案预测中的特征关联和分簇。

在本实施例的步骤S1中，各类企业能源替代前后相关数据抽取及预处理，基于电力企业所构建系统内的数据库，进行各类企业能源替代前后水、电、气、热等相关数据抽取，结合设备替换成本、用能产出效益等经济因素、环保效益等环境因素以及政府补贴等政策因素，作为能源替代采集数据，并进行数据预处理及存储。

在本实施例的步骤S2中，筛选能源替代标杆企业，基于能源替代数据筛选实施能源替代转换的各行业高能耗企业，并将其作为标杆企业样本。

在本实施例的步骤S3中，采用K均值聚类方法对标杆企业样本进行聚类，得到同类能源替代标杆企业样本集。

在该方法中，所述采用K均值聚类方法对标杆企业样本进行聚类的具体步骤包括：

步骤S301:随机选取k个标杆企业样本作为初始聚类中心；

步骤S302:分别计算剩余标杆企业样本数据到初始聚类中心的距离；

步骤S303:根据距离最小原则，对标杆企业样本数据进行分类，所述分类规则为将每个企业分配给距离它最近的聚类中心；

步骤S304:依据类内平均距离最小原则，计算每个聚类中的新的聚类中心；返回计算剩余标杆企业样本数据到初始聚类中心的距离，重复步骤S302-S304；直到聚类中心不发生变化。

在本实施例的步骤S4中，如图2所示，识别同类能源替代标杆企业样本集的能源替代相关频繁项集的具体步骤包括：

步骤S401:接收同类能源替代标杆企业样本集的属性集合；

步骤S402:根据属性集合中的不同属性，生成单项属性集的集合；

步骤S403:根据单项属性集的集合寻找频繁单项属性集；

步骤S404:执行频繁项集连接，将两个k-1项频繁项集连接生成新的k项集；

步骤S405:将新生成的k项集执行频繁项集剪枝，删除一定不是频繁的k项集；

步骤S406:扫描样本数据库；

步骤S407:判断所有的频繁k项集是否为空，若为空，输出当前找到的所有频繁项集，若不为空，则返回寻找频繁单项属性集；

步骤S408:输出当前找到的所有频繁项集。

在本实施例的步骤S401中，所述同类能源替代标杆企业样本集的属性集合包括标杆企业能源替代前后的相关用能因素、用能产出效益和环保效益。对标杆企业能源替代前后的用能量、设备替换成本等相关用能因素以及用能产出效益和环保效益进行搜集，从而获取基于标杆企业样本的包含h个属性的属性集合X＝[x₁,x₂,…,x_h]。

在本实施例的步骤S402中，生成单项属性集的集合Q1。将所有标杆企业中出现的各个属性组成一个集合，记为Q1，Q1可以看作是由所有的单项属性集组成的集合，即每个元素其实都是由一个属性构成的集合。

在本实施例的步骤S403中，所述根据单项属性集的集合寻找频繁单项属性集的具体步骤包括：

接收设定的最小支持度计数阈值minsup；

统计同类能源替代标杆企业样本集的单项属性集的集合中所有元素出现的次数，得到支持度计数与minsup比较，将支持度计数小于最小支持度计数阈值minsup的项集筛除，则剩余元素为频繁项集，上述频繁单项属性集组成的集合记为Q_k，此时k＝1，均为单项属性集合；

在本实施例的步骤S404中，进行频繁项集连接。令k＝k+1，将两个k-1项频繁项集，组成一个k项频繁项集，所述执行频繁项集连接的具体步骤包括：

判断两个k-1项频繁项集是否可连接；

如果两个k-1项频繁项集可连接，则二者生成一个新的k项集。如某一k-1项频繁项集

和另一个k-1项频繁项集

可连接，则这两个k-1项频繁项集生成的新的k项集为l^k[k]＝{l₁[1],l₁[2],…,l₁[k-2],l₁[k-1],l₂[k-1]}，如上所述只需找到所有的

个两两组合，挑出其中可连接的，就能生成所有可能是频繁项集的k项候选集，构成的集合记为Q_k。

在本实施例的步骤S405中，频繁项集剪枝。剪枝即初步筛选，频繁项集连接后，所有的频繁k项集的候选都存在于Q_k中，对于每个候选k项集，找出所有其k-1项子集，并检查其是否存在于L_k-1中，若存在任意一项不在L_k-1内，则该k项集一定不是频繁的，从而删除该k项集。

在本实施例的步骤S406中，扫描样本数据库。扫描样本数据库D，找到所有样本中的项集的所有子集，找出在现在的Q_k里面的子集，计数，从而统计出来Q_k当中的所有项集的频数，若某一项集频数小于min_sup，则删除该项集，得到频繁k项集组成的集合L_k。

在本实施例的步骤S407中，判断所有的频繁k项集Q_k是否为空，若为空，输出当前找到的所有频繁项集，若不为空，则跳转到步骤S404。

根据后期预测需求，首先对高置信度的小范围频繁项集制定关联标准，随后，基于各个小范围频繁项集计值对满足置信度的大范围频繁项集设定关联规则，以电窑炉替代燃煤窑炉的部分小范围频繁项集为例进行示例说明，如图1所示

表1电窑炉替代燃煤窑炉部分频繁项集

在本实施例的步骤S5中，所述挖掘同类能源替代方案频繁项集中的关联规则的具体步骤包括：

步骤S501：提取规则后件只含一个项的所有高置信度规则；

步骤S502：使用在频繁项集产生时计算的支持度计数确定每个规则的置信度；

步骤S503：使用当前的高置信度规则来产生新的候选规则，得到关联规则。

在本实施例的步骤S502中，与生成频繁项集的步骤S404原理相似，不同之处在于，在规则产生时，不是通过扫描数据集计算候选规则的置信度，而是使用在频繁项集产生时计算的支持度计数来确定每个规则的置信度，计算公式如下：

此外，如果上层分支的任意节点具有低置信度，则剪掉该节点生成的整个子图。

通过计算得到具有强关联规则的分簇特征属性与各类预测目标的关联，从而实现各类能源替代途径的标杆企业强关联特征的分簇。

这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。

在本实施例中，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开内容的各个方面。

应当注意，尽管在上文的详细描述中提及了设备的若干模块或子模块，但是这种划分仅仅是示例性而非强制性的。实际上，根据本公开的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本公开的有益效果：

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种电能替代方案预测中的特征关联与分簇方法，其特征在于，该方法包括：

挖掘同类能源替代方案频繁项集中的关联规则；

具体步骤为：提取规则后件只含一个项的所有高置信度规则；

使用在频繁项集产生时计算的支持度计数确定每个规则的置信度；计算公式如下：

使用当前的高置信度规则来产生新的候选规则，得到关联规则；

根据关联规则进行电能替代方案预测中的特征关联和分簇。

2.如权利要求1所述的一种电能替代方案预测中的特征关联与分簇方法，其特征在于，在该方法中，采用K均值聚类方法对标杆企业样本进行聚类，得到同类能源替代标杆企业样本集；

所述采用K均值聚类方法对标杆企业样本进行聚类的具体步骤包括：

随机选取k个标杆企业样本作为初始聚类中心；

分别计算剩余标杆企业样本数据到初始聚类中心的距离；

3.如权利要求1所述的一种电能替代方案预测中的特征关联与分簇方法，其特征在于，在该方法中，识别同类能源替代标杆企业样本集的能源替代相关频繁项集的具体步骤包括：

接收同类能源替代标杆企业样本集的属性集合；

根据属性集合中的不同属性，生成单项属性集的集合；

根据单项属性集的集合寻找频繁单项属性集；

扫描样本数据库；

判断所有的频繁k项集是否为空，若为空，输出当前找到的所有频繁项集，若不为空，则返回寻找频繁单项属性集。

4.如权利要求3所述的一种电能替代方案预测中的特征关联与分簇方法，其特征在于，在该方法中，所述同类能源替代标杆企业样本集的属性集合包括标杆企业能源替代前后的相关用能因素、用能产出效益和环保效益。

5.如权利要求3所述的一种电能替代方案预测中的特征关联与分簇方法，其特征在于，在该方法中，所述根据单项属性集的集合寻找频繁单项属性集的具体步骤包括：

接收设定的最小支持度计数阈值；

6.如权利要求3所述的一种电能替代方案预测中的特征关联与分簇方法，其特征在于，在该方法中，所述执行频繁项集连接的具体步骤包括：

判断两个k-1项频繁项集是否可连接；

如果两个k-1项频繁项集可连接，则二者生成一个新的k项集。

7.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1-6任一项所述的一种电能替代方案预测中的特征关联与分簇方法。

8.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1-6任一项所述的一种电能替代方案预测中的特征关联与分簇方法。

9.一种电能替代方案预测中的特征关联与分簇装置，其特征在于，基于如权利要求1-6任一项所述的一种电能替代方案预测中的特征关联与分簇方法，包括：