CN111046026B - 一种基于约束优化的缺失能耗数据填补方法 - Google Patents
一种基于约束优化的缺失能耗数据填补方法 Download PDFInfo
- Publication number
- CN111046026B CN111046026B CN201911062535.0A CN201911062535A CN111046026B CN 111046026 B CN111046026 B CN 111046026B CN 201911062535 A CN201911062535 A CN 201911062535A CN 111046026 B CN111046026 B CN 111046026B
- Authority
- CN
- China
- Prior art keywords
- missing
- data
- filling
- energy consumption
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005265 energy consumption Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005457 optimization Methods 0.000 title claims abstract description 18
- 238000005259 measurement Methods 0.000 claims abstract description 4
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000005611 electricity Effects 0.000 claims 3
- 239000000126 substance Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Public Health (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于电力能源数据技术领域,具体是一种基于约束优化的缺失能耗数据填补方法。本发明利用KNN的思想,使用DTW作为相似性度量,在不等长时间序列集中,提取前K条与存在缺失数据时间序列相似的曲线;然后,通过最小化缺失区间填补值与K条相似曲线的欧式距离,同时以填补值总和等于固定值为约束,将问题转化为连续等式约束优化问题;最终通过拉个朗日乘数法求解,完成填补。本发明可有效填补缺失能耗数据,减少数据盲区,为决策人员提供有效的数据参考;填补的缺失能耗数据满足区间总和固定的约束,使填补数据更加精确合理。
Description
技术领域
本发明属于电力能源数据技术领域,具体涉及缺失能耗数据填补方法。
背景技术
目前,在电力系统中需要采集、传输的数据量非常庞大。由于以下几个原因,造成了能耗数据的缺失:1)网络中断造成数据中断;2)设备损坏以及维修期间造成能耗数据缺失;3)更换智能表具、更换数据采集器造成的异常数据被剔除;4)变更电力线路拓扑结构造成的异常数据被剔除。为了减少数据盲区,为节能决策提供更多数据参考,需要对这些缺失能耗数进行填补,尽量恢复能耗趋势。对传感器采集的存在缺失的数据进行填补的方法主要有均值插补、线性插补、基于K近邻插补和数值填补方面的方法等。数值填补主要有拉格朗日插值和三次样条插值。随着深度学习的兴起,神经网络算法也被运用到缺失数据填补中。缺失数据的填补方法多种多样,应该根据实际缺失场景进行选择。
由于各节能平台在数据存储模块存储数据的方式的不同,关于某个时间段内的能耗值的计算主要分为两种方法:1)单位能耗值累加。将采集上来的电表数据按照最小时间粒度预先处理好,在数据库中存储每个测量点单位时间内的能耗值,当需要统计某段时间内的能耗时,将这段时间内的单位时间能耗值累加。2)电表读数相减。数据库中存储每个电表各个时间点的读数,这些值随着时间的递增而递增。当需要统计某段时间内的能耗时,将结束时间点的电表读数减去起始时间点电表读数,从而得到该时间段的能耗。当采用第二种计算方法时,当发生能耗数据缺失时,缺失区间内的能耗总和是已知的,而目前现存的方法中并没有考虑这个约束。
发明内容
为了有效地填补缺失能耗数据,并且满足区间能耗总和固定的约束,本发明提出一种基于约束优化的缺失能耗数据填补方法。
本发明提出的基于约束优化的缺失能耗数据填补方法,利用KNN(K最近邻,CoverT M,Hart P E.Nearest Neighbor Pattern Classification[J].IEEE Transactions onInformation Theory,1967,13(1):21-27.)的思想;使用动态时间规整(DTW)作为相似性度量,在不等长时间序列集中,提取前K条与存在缺失数据时间序列相似的曲线;然后,通过最小化缺失区间填补值与K条相似曲线的欧式距离,同时以填补值总和等于固定值为约束,将问题转化为连续等式约束优化问题;最终通过拉个朗日乘数法求解,完成填补。
填补算法的具体步骤如下(参见图4所示)。
第一步,提取K个相似时间序列。采用DTW时间序列相似性度量,计算出与缺失时间序列前一周和后一周,最相似的K个时间序列,时间粒度为小时,即每小时一个数据点。由于在计算相似性时,前一周和后一周同样可能存在缺失数据,导致时间序列不等长,因此选择DTW时间序列相似性度量,避免对噪声数据敏感。
第二步,计算数据点占区间总和比例。计算K个时间序列中,每个序列缺失区间所对应的各个数据点,占区间能耗总和的比例。用xkn表示第k个时间序列,缺失区间第n个数据点占区间能耗总和的比例。
第三步,将问题转化为等式约束优化问题。用xmn表示缺失时间序列缺失区间中,第n个待求的缺失数据点占区间数据总和的比例。通过最小化缺失时间序列中,各个缺失数据点比例与K个时间序列对应的数据点比例的欧式距离,同时满足缺失数据点比例总和为1,来求得N个待求的缺失数据点占区间能耗总和的比例,具体表达式如下所示:
xmn∈(0,1)(3.3)
式中N表示缺失区间数据点的个数,K表示相似时间序列个数。此时,便将问题转化为典型的等式约束优化问题,可通过拉格朗日乘数法求解。
第四步,利用拉格朗日乘数法,求解等式约束优化问题。定义拉格朗日函数,通过加权,将(3.2)式中的约束引入目标函数(3.1)中:
对上式关于x和λ求偏导,可得:
其中,n∈[1,N],根据式(3.5)可得:
将式(3.7)带入式(3.6)中,可得:
化简式(3.8),可求得:
最后,将式(3.9)带回式(3.7)中,即可求得xmn。
在实际计算时,对缺失能耗数据进行填补前,需对缺失区间进行建模,缺失区间定义为:
Gap<ID,AnalogNo,StartTime,EndTime,Lvalue,Rvalue,Status>
ID为缺失区间的唯一标识,AnalogNo是模拟量编号,即测点编号,StartTime是缺失区间的起始时间,EndTime是缺失区间的结束时间,Lvalue是缺失区间的左边界电表读数,Rvalue是缺失区间的右边界电表读数,Status是缺失区间的填补状态,记录当前区间是否被填补过。将Rvalue和Lvalue进行相减就可以得到该缺失区间时间段内的能耗值。
此外,为使算法的有效进行,需设计缺失能耗区间填补工具系统,如图1所示,系统分为三层:定时器、缓存和数据库。
(1)定时器。包括检测定时器和填补定时器,启动之后的处理流程如图2和图3所示。检测定时器创建两个线程,一个用于预处理前三周能耗数据,另一个线程用于检测近24小时的缺失区间,以及缓存近24小时的能耗数据。填补定时器定时每周对上一周缺失数据进行填补,填补的前提是前三周能耗数据已经预处理完成,且当前没有在进行填补,若当前已经正在填补,一分钟之后重新进行填补条件判断。
(2)缓存。为了提高填补的效率,将填补时需要的部分数据,缓存到内存。根据算法需要,缓存所有测点近三周的小时能耗数据,以及测点间的拓扑结构等基本信息。
(3)数据库。主要用于存储历史能耗数据、缺失区间的填补状态和填补数据。数据库中有四张表:历史小时表、小时数据表、填补状态表、填补数据表。历史小时表存储每个测点的历史每个时间点的电表读数,小时数据表存储每个测点当前小时的电表读数,填补状态表存储每个测点各个缺失时间区间的填补状态,填补数据表存储填补之后每个测点各个时间点的电表读数。
关于K值的选取,使用基于约束优化的缺失数据填补算法,填补区间大小为24小时、4天和1周的缺失数据,并计算平均MAE(平均绝对误差)、MRE(平均相对误差)和MSE(均方差)。如图6所示,当K=12时,基于约束优化的缺失数据填补算法的误差最小,因此选取K为12对缺失能耗数据进行填补。
本发明的有益效果是
1、有效地填补了缺失能耗数据,减少数据盲区,为决策人员提供有效的数据参考;
2、填补的缺失能耗数据满足区间总和固定的约束,使填补数据更加精确合理。
附图说明
图1为缺失能耗数据填补系统整体架构。
图2为检测定时器处理流程。
图3为填补定时器处理流程。
图4为基于约束优化的缺失填补算法流程。
图5为缺失能耗数据填补工具系统实现技术架构。
图6为基于约束优化填补的精度随K的取值的变化。
具体实施方式
为了使本发明解决的问题和技术方案更加清楚明白,以下结合附图和实施实例进行详细说明,本实施实例的技术架构如图5所示。
使用C#语言在Microsoft.Net开发平台进行开发,以C/S作为开发架构,开发Windows窗体,采用多线程技术实现定时器,包含检测定时器和填补定时器。采用sqlserver数据库,新建数据库表用于存储填补信息和数据,使用linq to sql对象关系映射组件,对数据库进行操作。在定时器和数据库中间增加缓存层,使用Redis内存数据库对填补所需的预处理数据进行缓存,以提高填补效率。基于约束优化的缺失数据填补算法核心伪代码,见附录。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的原则和精神之内所作的任何修改、等同替换和改进等,均就包含在本发明的保护范围之内。
附录
Claims (3)
1.基于约束优化的缺失能耗数据填补方法,其特征在于,利用KNN的思想,使用DTW作为相似性度量,在不等长时间序列集中,提取前K条与存在缺失数据时间序列相似的曲线;然后,通过最小化缺失区间填补值与K条相似曲线的欧式距离,同时以填补值总和等于固定值为约束,将问题转化为连续等式约束优化问题;最终通过拉个朗日乘数法求解,完成填补;
具体步骤如下:
第一步,提取K个相似时间序列:采用DTW时间序列相似性度量,计算出与缺失时间序列前一周和后一周,最相似的K个时间序列,时间粒度为小时,即每小时一个数据点;
第二步,计算数据点占区间总和比例:计算K个时间序列中,每个序列缺失区间所对应的各个数据点,占区间能耗总和的比例;用xkn表示第k个时间序列,缺失区间第n个数据点占区间能耗总和的比例;
第三步,将问题转化为等式约束优化问题:用xmn表示缺失时间序列缺失区间中,第n个待求的缺失数据点占区间数据总和的比例;通过最小化缺失时间序列中,各个缺失数据点比例与K个时间序列对应的数据点比例的欧式距离,同时满足缺失数据点比例总和为1,求得N个待求的缺失数据点占区间能耗总和的比例,具体表达式如下:
xmn∈(0,1)(3.3)
式中,N表示缺失区间数据点的个数,K表示相似时间序列个数;
第四步,利用拉格朗日乘数法,求解上述等式约束优化问题:定义拉格朗日函数,通过加权,将(3.2)式中的约束引入目标函数(3.1)中:
对上式关于x和λ求偏导,经整理得xmn的表达式:
其中,
2.根据权利要求1所述的缺失能耗数据填补方法,其特征在于,对缺失能耗数据进行填补前,对缺失区间进行建模,缺失区间的定义如下:
Gap<ID,AnalogNo,StartTime,EndTime,Lvalue,Rvalue,Status>
ID为缺失区间的唯一标识,AnalogNo是模拟量编号,即测点编号,StartTime是缺失区间的起始时间,EndTime是缺失区间的结束时间,Lvalue是缺失区间的左边界电表读数,Rvalue是缺失区间的右边界电表读数,Status是缺失区间的填补状态,记录当前区间是否被填补过;将Rvalue和Lvalue进行相减就可以得到该缺失区间时间段内的能耗值。
3.根据权利要求1或2所述的缺失能耗数据填补方法,其特征在于,设计缺失能耗区间填补工具系统,系统分为三层:定时器、缓存和数据库;其中:
(1)定时器,包括检测定时器和填补定时器;检测定时器创建两个线程,一个用于预处理前三周能耗数据,另一个线程用于检测近24小时的缺失区间,以及缓存近24小时的能耗数据;填补定时器定时每周对上一周缺失数据进行填补,填补的前提是前三周能耗数据已经预处理完成,且当前没有在进行填补,若当前已经正在填补,一分钟之后重新进行填补条件判断;
(2)缓存,将填补时需要的部分数据,缓存到内存;根据算法需要,缓存所有测点近三周的小时能耗数据,以及测点间的拓扑结构;
(3)数据库,主要用于存储历史能耗数据、缺失区间的填补状态和填补数据;数据库中有四张表:历史小时表、小时数据表、填补状态表、填补数据表;历史小时表存储每个测点的历史每个时间点的电表读数,小时数据表存储每个测点当前小时的电表读数,填补状态表存储每个测点各个缺失时间区间的填补状态,填补数据表存储填补之后每个测点各个时间点的电表读数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911062535.0A CN111046026B (zh) | 2019-11-03 | 2019-11-03 | 一种基于约束优化的缺失能耗数据填补方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911062535.0A CN111046026B (zh) | 2019-11-03 | 2019-11-03 | 一种基于约束优化的缺失能耗数据填补方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046026A CN111046026A (zh) | 2020-04-21 |
CN111046026B true CN111046026B (zh) | 2023-04-07 |
Family
ID=70231964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911062535.0A Active CN111046026B (zh) | 2019-11-03 | 2019-11-03 | 一种基于约束优化的缺失能耗数据填补方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046026B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115025B (zh) * | 2020-09-07 | 2024-04-02 | 青岛聚好联科技有限公司 | 一种分布式设备的能耗确定方法及装置 |
CN113111270B (zh) * | 2021-03-03 | 2024-05-03 | 成理智源科技(成都)有限公司 | 基于物联网及3s技术的用于地质灾害预警的数据预处理方法 |
CN113447970B (zh) * | 2021-06-28 | 2023-05-23 | 潍柴动力股份有限公司 | 一种导航数据连续缺失数据填补方法、装置和导航系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4686510A (en) * | 1983-03-25 | 1987-08-11 | Baker Alan J | Method of averaging a plurality of measured modulo values |
CN109214429A (zh) * | 2018-08-14 | 2019-01-15 | 聚时科技(上海)有限公司 | 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7376639B2 (en) * | 2005-07-28 | 2008-05-20 | International Business Machines Corporation | Selectivity estimation for conjunctive predicates in the presence of partial knowledge about multivariate data distributions |
US20190147461A1 (en) * | 2017-11-14 | 2019-05-16 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate total audience population distributions |
-
2019
- 2019-11-03 CN CN201911062535.0A patent/CN111046026B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4686510A (en) * | 1983-03-25 | 1987-08-11 | Baker Alan J | Method of averaging a plurality of measured modulo values |
CN109214429A (zh) * | 2018-08-14 | 2019-01-15 | 聚时科技(上海)有限公司 | 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法 |
Non-Patent Citations (1)
Title |
---|
黄务兰.基于拥堵控制的轴辐式快递主干网规划.《系统工程》.2018,第36卷(第11期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111046026A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046026B (zh) | 一种基于约束优化的缺失能耗数据填补方法 | |
CN108508505A (zh) | 基于多尺度卷积神经网络的强降雨及雷暴预报方法和系统 | |
CN113128113B (zh) | 一种基于深度学习和迁移学习的贫乏信息建筑负荷预测方法 | |
CN110163429B (zh) | 一种基于相似日优化筛选的短期负荷预测方法 | |
CN109242169B (zh) | 一种面向电力大客户的短期负荷预测方法 | |
CN107895014B (zh) | 一种基于MapReduce框架的时间序列桥梁监测数据分析方法 | |
CN113554466A (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
CN112070322B (zh) | 基于长短期记忆网络的高压电缆线路运行状态预测方法 | |
CN116995653A (zh) | 一种基于ddtw距离的低压台区相户拓扑识别方法 | |
CN116308883A (zh) | 一种基于大数据的区域电网数据统筹管理系统 | |
CN115457403A (zh) | 一种基于多类型遥感图像的农作物智能识别方法 | |
CN116384583A (zh) | 一种基于多神经网络的光伏功率预测方法 | |
CN117708625B (zh) | 一种乏数据背景下大坝监测历史数据填补方法 | |
CN117407681B (zh) | 一种基于向量聚类的时序数据预测模型建立方法 | |
CN117520784A (zh) | 基于卷积注意力长短期神经网络的地下水位多步预测方法 | |
CN116777452B (zh) | 智能电表的预付费系统及其方法 | |
CN107944466A (zh) | 一种基于分段思想的降雨偏差纠正方法 | |
CN113632025B (zh) | 用于评估工业环境中的能量消耗的方法、系统和计算机程序产品 | |
CN111622274A (zh) | 山区巨粒土高填方地基基础沉降预测方法及系统 | |
CN109086940B (zh) | 一种基于分时段气象关联模型的接触网跳闸次数预测方法 | |
CN116894687A (zh) | 一种基于机器学习的用电量分析方法及系统、电子设备 | |
CN110298490A (zh) | 基于多元回归的时间序列电力负荷组合预测方法及计算机可读存储介质 | |
CN116226263A (zh) | 一种可再生能源可视化智能管控制方法及系统 | |
CN115169731A (zh) | 一种智慧校园能耗预测方法、装置、设备及介质 | |
CN111931798B (zh) | 进行冷头状态分类检测和寿命预测的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |