CN106383837A - 一种用能大数据获取关键价值抽取的方法 - Google Patents

一种用能大数据获取关键价值抽取的方法 Download PDF

Info

Publication number
CN106383837A
CN106383837A CN201610766160.6A CN201610766160A CN106383837A CN 106383837 A CN106383837 A CN 106383837A CN 201610766160 A CN201610766160 A CN 201610766160A CN 106383837 A CN106383837 A CN 106383837A
Authority
CN
China
Prior art keywords
data
energy
enterprise
big data
barycenter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610766160.6A
Other languages
English (en)
Inventor
张超
卢欣
石枫
万旭东
吴亮
隋淑慧
郭晓丹
杨延春
韩慎朝
于波
刘裕德
孙学文
温为民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Energy Saving Service Co Ltd
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
Tianjin Energy Saving Service Co Ltd
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Energy Saving Service Co Ltd, State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical Tianjin Energy Saving Service Co Ltd
Priority to CN201610766160.6A priority Critical patent/CN106383837A/zh
Publication of CN106383837A publication Critical patent/CN106383837A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Public Health (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Water Supply & Treatment (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种用能大数据获取关键价值抽取的方法,其主要技术特点是:确定业务目标及数据挖掘目标进行业务理解;进行数据理解;筛选出高价值数据;建立用能大数据评估模型;根据大数据评估模型对于用能企业整体用能情况评估分析;根据评估分析结果为企业整体用能规划发展提供合理的指导、决策建议。本发明设计合理,一方面通过典型数据收集对于电力企业盈利与控制水平有很好的利用价值,另一方面对用能企业能效评估及用能方式指导,通过环比及同比的数据支撑,提升企业整体运营水平。

Description

一种用能大数据获取关键价值抽取的方法
技术领域
本发明属于节能技术领域,尤其是一种用能大数据获取关键价值抽取的方法。
背景技术
随着数据库技术的飞速发展以及人们获取数据手段的多样化,人类所拥有的数据量急剧增加,企业对于电力需求侧的海量数据实时采集接入、在线计算处理和关联分析挖掘能力提出更高要求。传统用能数据库系统只能针对数据库中已有电量、功率因数等进行存取和简单的操作,而不能有效地得到企业合理用能关键价值及决策,更不能对其发展趋势进行预测。
发明内容
本发明的目的在于克服现有技术的不足,提供一种设计合理、准确可靠的用能大数据获取关键价值抽取的方法,其解决了测试效率低下、费时费力的问题。
本发明解决其技术问题是采取以下技术方案实现的:
一种用能大数据获取关键价值抽取的方法,其特征在于包括以下步骤:
步骤1、通过勘察企业,确定业务目标及数据挖掘目标进行业务理解;
步骤2、通过原始数据收集、数据描述、数据检索以及检验数据质量进行数据理解;
步骤3、通过选择数据、清洗数据、构建新数据、整合数据和格式化数据筛选出高价值数据;
步骤4、建立用能大数据评估模型;
步骤5、根据大数据评估模型对于用能企业整体用能情况评估分析;
步骤6、根据评估分析结果为企业整体用能规划发展提供合理的指导、决策建议。
所述步骤2原始数据收集包括企业用能数据、设备能效数据和设备运检数据,所述设备能效数据包括电量和功率因数,所述设备运检数据包括检修时间、检修情况。
所述步骤4用能大数据评估模型采用K-means算法实现,该K-means算法公式为:
V = Σ i = 1 k Σ x j ∈ S i ( x j - μ i ) 2
该K-means算法过程如下:
(1)从N个文档随机选取K个文档作为质心;
(2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类;
(3)重新计算已经得到的各个类的质心;
(4)迭代(2)~(3)步直至新的质心与原质心相等或小于指定阈值,算法结束。
本发明的优点和积极效果是:
本发明通过监测不同行业的企业用能情况,通过业务理解、数据理解、数据准备、建立关键模型、评估及规划部署过程,分析出企业高耗能设备同比环比系数,从而理顺设备最佳用能环节。本发明一方面通过典型数据收集对于电力企业盈利与控制水平有很好的利用价值,另一方面对用能企业能效评估及用能方式指导,通过环比及同比的数据支撑,提升企业整体运营水平。
具体实施方式
以下结合实施例对本发明做进一步详述:
一种用能大数据获取关键价值抽取的方法,包括以下步骤:
步骤1、业务理解:通过勘察企业,确定业务目标及数据挖掘目标进行业务理解。
步骤2、数据理解:通过原始数据收集、数据描述、数据检索以及检验数据质量,进行数据理解。
在本步骤中,构建构建开放的、多样化数据接口运用SNMP、FILE、API、WebService、ADBC/JDBC等多种技术手段,实现对企业用能数据和其他来源的设备能效数据(包括电量、功率因数)、运检数据(检修时间、检修情况)全面收集。根据计量能效大数据结构化与非结构化数据并存的特点,项目将采用传统FC SAN和并行存储系统分别对结构化和非结构化数据进行高效管理,实现对信息资源的统一更新、维护、管理、检索和服务。具体采集数据如下:
序号 数据项名称 曲线采样密度 数据单位
1 正向有功总电能 15分钟 kWh
2 正向无功总电能 15分钟 kWh
3 A相电压 15分钟 V
4 B相电压 15分钟 V
5 C相电压 15分钟 V
6 A相电流 15分钟 A
7 B相电流 15分钟 A
8 C相电流 15分钟 A
9 总有功功率 15分钟 kW
10 A相有功功率 15分钟 kW
11 B相有功功率 15分钟 kW
12 C相有功功率 15分钟 kW
13 总无功功率 15分钟 kW
14 A相无功功率 15分钟 kW
15 B相无功功率 15分钟 kW
16 C相无功功率 15分钟 kW
17 总功率因数 15分钟
18 A相功率因数 15分钟
19 B相功率因数 15分钟
20 C相功率因数 15分钟
步骤3、数据准备:通过选择数据、清洗数据、构建新数据、整合数据和格式化数据,筛选出高价值数据,实现数据归一化功能。
在本步骤中,需要对大数据抽取清洗:清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的记录先剔除出来,根据实际情况调整相应的清洗操作。数据加载主要是将经过转换和清洗的数据加载到数据仓库里面,即入库,可以通过数据文件直接加载和直连数据库的方式来进行数据加载,可以充分体现高效性。海量结构化和非结构化的数据收集完成后,通过数据整理全过程综合治理(数据检查->数据清洗->数据分类->格式转换->数据压缩->关联性强化->结构化治理->质量提升),最终形成质量水平高、可控能力强、价值外显的优良数据。
步骤4、建立大数据评估模型:通过选择建模技术、生成测试设计、构建模型以及评估模型。
本步骤需要建立关键技术模型。客户聚类是客户行为分析的一个重要分析手段,客户聚类是把大量的客户聚成不同的类,在每个分类里的客户拥有相似的属性,而不同类里的客户的属性则不同。细致而切实可行的客户聚类对指导企业用能有很大益处,基于群体智能的客户行为分析算法可采用K-MEANs快速分类为基础,分析客户行为的一种自组织聚类算法,此方法可使数据更容易可视化,它突显出引人兴趣的特征。聚类中心的个数从数据中自动产生。
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。
K-means算法公式:
V = Σ i = 1 k Σ x j ∈ S i ( x j - μ i ) 2
K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,J的值没有发生变化,说明算法已经收敛。
K-means算法过程如下:
1)从N个文档随机选取K个文档作为质心;
2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类;
3)重新计算已经得到的各个类的质心;
4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。
步骤5、根据大数据评估模型对于用能企业整体用能情况评估分析。
电力能效资产能效数据海量数据经过数据整理和数据分析两个环节处理后,其中蕴含的价值已经逐步显露,采取何种手段关键技术模型进行数据展现直接影响着数据价值体现的效果,实现多维度数据报表、自助查询统计、能效数据价值分析和能效库等方式实现大数据价值展现,项目将通过多种模拟数据进行试验,保证分析测算的准确度与精确度。基于企业能效大数据分析,建立有针对性的市场开拓模型,例如,有针对性地动员客户改煤、气为用电。不仅帮助客户测算初投资,测算不同季节不同叫段的运行费用,还根据客户使用的性质与时间段帮助选择合适的蓄冰制冷集中空调,同时还协助客户设计变压器的装接容量和合理使用电力的方式方法。
步骤6、大数据部署实现决策支撑,为企业整体用能规划发展提供合理的指导、决策建议。
电力需求侧能效大数据的应用价值一方面体现在对现有设备的全面细致掌握和有效管控,另一方面能够为专业管理水平提供有效的辅助决策支撑。将海量数据抽取分析以及海量数据挖掘技术与天津电力能效平台相结合,通过监测终端获取的电量、功率因数等数据,进行基于需求侧结合电网运行进行企业生产用电管理效率、电能替代可行性、以及节能服务拓展领域究。通过采用机器监督学习等智能算法,对不同类型客户的用能水平情况进行分析,对用户用能水平进行分类、评级,发现用户用能电量、负荷、电费等数据与客户属性(客户行业、客户类型)、客户用电习惯、客户交费习惯等因素之间的关联关系,全面挖掘用户用能各种影响因素,清晰界定客户用能的主观因素与客观因素,从而建立一套用能水平分类评级数学模型。并根据建立的分类评级模型,制定针对性、有效的用能管控措施,提升用户客户的能效利用水平。
监督学习,即在机械学习过程中提供对错指示。一般是在数据组中包含最终结果(0,1)。通过算法让机器自我减少误差。这一类学习主要应用于分类和预测(regression&classify)。监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。用能数据训练集中的目标是可采用多年积累的高用能用户数据形成数据样本,即学习集。再采用回归分析和统计分类进行评级。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (3)

1.一种用能大数据获取关键价值抽取的方法,其特征在于包括以下步骤:
步骤1、通过勘察企业,确定业务目标及数据挖掘目标进行业务理解;
步骤2、通过原始数据收集、数据描述、数据检索以及检验数据质量进行数据理解;
步骤3、通过选择数据、清洗数据、构建新数据、整合数据和格式化数据筛选出高价值数据;
步骤4、建立用能大数据评估模型;
步骤5、根据大数据评估模型对于用能企业整体用能情况评估分析;
步骤6、根据评估分析结果为企业整体用能规划发展提供合理的指导、决策建议。
2.根据权利要求1所述的一种用能大数据获取关键价值抽取的方法,其特征在于:所述步骤2原始数据收集包括企业用能数据、设备能效数据和设备运检数据,所述设备能效数据包括电量和功率因数,所述设备运检数据包括检修时间、检修情况。
3.根据权利要求1所述的一种用能大数据获取关键价值抽取的方法,其特征在于:所述步骤4用能大数据评估模型采用K-means算法实现,该K-means算法公式为:
V = Σ i = 1 k Σ x j ∈ S i ( x j - μ i ) 2
该K-means算法过程如下:
(1)从N个文档随机选取K个文档作为质心;
(2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类;
(3)重新计算已经得到的各个类的质心;
(4)迭代(2)~(3)步直至新的质心与原质心相等或小于指定阈值,算法结束。
CN201610766160.6A 2016-08-30 2016-08-30 一种用能大数据获取关键价值抽取的方法 Pending CN106383837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610766160.6A CN106383837A (zh) 2016-08-30 2016-08-30 一种用能大数据获取关键价值抽取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610766160.6A CN106383837A (zh) 2016-08-30 2016-08-30 一种用能大数据获取关键价值抽取的方法

Publications (1)

Publication Number Publication Date
CN106383837A true CN106383837A (zh) 2017-02-08

Family

ID=57938360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610766160.6A Pending CN106383837A (zh) 2016-08-30 2016-08-30 一种用能大数据获取关键价值抽取的方法

Country Status (1)

Country Link
CN (1) CN106383837A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122879A (zh) * 2017-03-03 2017-09-01 广东南方电力通信有限公司 一种基于大数据与设备状态异常跟踪的电网状态检修方法
CN107590225A (zh) * 2017-09-05 2018-01-16 江苏电力信息技术有限公司 一种基于分布式数据挖掘算法的可视化管理系统
CN109145035A (zh) * 2018-08-01 2019-01-04 国网湖南省电力有限公司 一种基于数据挖掘的电网数据处理方法
CN109829608A (zh) * 2018-12-19 2019-05-31 国网山西省电力公司长治供电公司 一种基于用户耗能相关数据的服务提供方法
CN110084493A (zh) * 2019-04-11 2019-08-02 企家有道网络技术(北京)有限公司 基于人工智能的企业诊断、预测方法及装置、服务器
CN114926204A (zh) * 2022-05-11 2022-08-19 北京大学 基于数据价值的数据处理装置及其方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212520A1 (en) * 2002-05-10 2003-11-13 Campos Marcos M. Enhanced K-means clustering
CN105678398A (zh) * 2015-12-24 2016-06-15 国家电网公司 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212520A1 (en) * 2002-05-10 2003-11-13 Campos Marcos M. Enhanced K-means clustering
CN105678398A (zh) * 2015-12-24 2016-06-15 国家电网公司 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122879A (zh) * 2017-03-03 2017-09-01 广东南方电力通信有限公司 一种基于大数据与设备状态异常跟踪的电网状态检修方法
CN107590225A (zh) * 2017-09-05 2018-01-16 江苏电力信息技术有限公司 一种基于分布式数据挖掘算法的可视化管理系统
CN109145035A (zh) * 2018-08-01 2019-01-04 国网湖南省电力有限公司 一种基于数据挖掘的电网数据处理方法
CN109145035B (zh) * 2018-08-01 2021-04-13 国网湖南省电力有限公司 一种基于数据挖掘的电网数据处理方法
CN109829608A (zh) * 2018-12-19 2019-05-31 国网山西省电力公司长治供电公司 一种基于用户耗能相关数据的服务提供方法
CN110084493A (zh) * 2019-04-11 2019-08-02 企家有道网络技术(北京)有限公司 基于人工智能的企业诊断、预测方法及装置、服务器
CN114926204A (zh) * 2022-05-11 2022-08-19 北京大学 基于数据价值的数据处理装置及其方法

Similar Documents

Publication Publication Date Title
CN106383837A (zh) 一种用能大数据获取关键价值抽取的方法
Wang et al. Modeling carbon emission trajectory of China, US and India
WO2021129509A1 (zh) 一种大中型企业技术标准体系化实施效益评价方法
Madhukumar et al. Regression model-based short-term load forecasting for university campus load
CN104809658B (zh) 一种低压配网台区线损的快速分析方法
KR100987168B1 (ko) 원격계측 전력 부하패턴의 분류 및 예측 방법
CN111738462B (zh) 电力计量装置故障抢修主动服务预警方法
CN109308571B (zh) 配电线路线变关系检测方法
CN105701596A (zh) 一种基于大数据技术的配网抢修精益化方法以及管理系统
CN110210681B (zh) 一种基于距离的监测站点pm2.5值的预测方法
CN112149873B (zh) 一种基于深度学习的低压台区线损合理区间预测方法
CN107067341B (zh) 一种基于多级熵权的rbfnn配电自动化系统状态操作评价方法
CN105300692A (zh) 一种基于扩展卡尔曼滤波算法的轴承故障诊断及预测方法
Jurado et al. Fuzzy inductive reasoning forecasting strategies able to cope with missing data: A smart grid application
CN114519514B (zh) 一种低压台区合理线损值测算方法、系统及计算机设备
CN108920609A (zh) 基于多维度分析的电力实验数据挖掘方法
CN110675020A (zh) 一种基于大数据的高价低接用户识别方法
Yucong et al. Research on ea-xgboost hybrid model for building energy prediction
Treiber et al. Aggregation of features for wind energy prediction with support vector regression and nearest neighbors
CN112256735B (zh) 一种用电监测方法、装置、计算机设备和存储介质
Sinitsyna et al. Some practical aspects of electric power consumption time series analysis
Dalimunthe et al. Study of C45 Algorithm In Predicting New Employee Acception
Keyan et al. Anomaly detection method of distribution network line loss based on hybrid clustering and LSTM
Liua et al. Detection of malfunctional smart electricity meters based on deep learning of electricity usage data
Diallo Prediction and Early Warning Model of Substation Project Cost Based on Data Mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170418

Address after: 300301 Tianjin City, Dongli District, Dongli Tourism Development Corporation building, room 233

Applicant after: Tianjin Energy Saving Service Co., Ltd.

Applicant after: State Grid Tianjin Electric Power Company

Applicant after: State Grid Corporation of China

Address before: 300010 Tianjin city Hebei District Wujing Road No. 39

Applicant before: State Grid Tianjin Electric Power Company

Applicant before: State Grid Corporation of China

Applicant before: Tianjin Energy Saving Service Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170208