CN113822473A

CN113822473A - 一种基于多维数据的牵引力能耗合理区间预测方法

Info

Publication number: CN113822473A
Application number: CN202111033038.5A
Authority: CN
Inventors: 邓家璧; 徐腾云; 陈佳伟; 丁康; 何红宇; 施丽燕; 郑奇雨; 马灵玲
Original assignee: Zhejiang Supcon Information Technology Co ltd
Current assignee: Zhejiang Supcon Information Technology Co ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-12-21
Anticipated expiration: 2041-09-03
Also published as: CN113822473B

Abstract

本发明公开了一种基于多维数据的牵引力能耗合理区间预测方法，包括：数据采集，采集能源系统能耗的历史和实时的多维特征数据；数据拆分，按照数据类型的区别拆分成不同单项的多维数据；数据预处理，对各个单项的多维数据分别进行数据预处理；数据建模，针对每一个单项的多维数据都设计一个数据模型；数据训练，对建立的数据模型进行训练，优化数据模型；数据预测，将实时数据根据训练优化后的数据模型进行数据预测。本发明通过人工智能算法以及分布式框架结构对智慧城轨中多维度牵引力能耗数据进行区间预测，可根据历史数据以及实时数据的情况进行多步预测并为牵引力设备决策提供辅助指导。

Description

一种基于多维数据的牵引力能耗合理区间预测方法

技术领域

本发明涉及轨道交通能耗领域，尤其是涉及一种基于多维数据的牵引力能耗合理区间预测方法。

背景技术

电力节能行业是把各种类型的一次能源通过对应的各种发电设备转换成电能，向最终用户提供不同电压等级和不同可靠性要求的电能以及其他电力辅助服务的一个基础性的工业行业。我国是电力行业能源生产和消费大户，加强电力行业节能减排工作对实现全社会节能减排的总体目标具有重大意义。节能技术监督作为支撑节能减排工作的重要技术力量，其监督体系中却存在工作关口置后、降损措施实施不到位等一系列问题，因此必须加强电网节能技术监督的能力建设。轨道交通领域的节能减排是电力节能减排的必要一环，轨道交通能耗预测作为掌握交通运行特性的重要监督手段，对节能管理、能源利用率的提高都有积极意义。近年来大数据和人工智能技术的发展，为轨道交通能耗的预测提供了数据基础和建模分析的算法。

在中国专利文献中公开的“一种城市轨道交通既有线路能耗测算模型”，其公开号为CN106169103A，公开日期为2016-11-30，涉及一种城市轨道交通既有线路能耗测算模型，列车单耗主要由牵引电耗和辅助用电电耗组成，牵引单耗主要受满载率和操纵模式的影响，辅助用电主要由空调用电和照明组成，照明用电电耗较为固定，而空调用电受气温影响较大。利用该模型，确定输入参数即可得到该条线路的牵引能耗量，该模型已与实际线路运行过程以及现有解析方法进行了对比具有高可靠性与准确性，可以在不损失精度的前提下，更加快速、高效、准确的预测既有线路列车月均单耗，为减少城市轨道交通牵引能耗，提高城市轨道交通的绿色、节能提供可靠的数据支持。但是该技术只能根据离线数据进行数据拟合得到固定的数据模型计算月均能耗量，不具有实时性，同时在长时间运行后预测的准确性会随时间延长而降低。

发明内容

本发明是为了克服现有技术中能耗预测根据离线数据进行数据拟合得出规律性决策，不具有实时性和长时间运行的准确性的问题，提供了一种基于多维数据的牵引力能耗合理区间预测方法，利用人工智能算法以及分布式框架结构对智慧城轨中多维度牵引力能耗数据进行区间预测，可根据历史数据以及实时数据的情况进行多步预测并为牵引力设备决策提供辅助指导。

为了实现上述目的，本发明采用以下技术方案：

一种基于多维数据的牵引力能耗合理区间预测方法，包括：

S1、数据采集，采集能源系统能耗的历史和实时的多维特征数据；

S2、数据拆分，按照数据类型的区别拆分成不同单项的多维数据；

S3、数据预处理，对各个单项的多维数据分别进行数据预处理；

S4、数据建模，针对每一个单项的多维数据都设计一个数据模型；

S5、数据训练，对建立的数据模型进行训练，优化数据模型；

S6、数据预测，将实时数据根据训练优化后的数据模型进行数据预测。

本发明主要是为了通过采用人工智能预测技术解决城市大数据中智慧城轨能源管理系统中多维数据的牵引力能耗合理区间预测问题，同时能够针对多维因素数据进行数据处理与数据分析预测。首先本发明通过采用数据多维度拆分的方式以及数据聚类方式对多特征融合进行解耦，解决了数据多维度特征耦合的问题，将采集到的的所有多维特征数据拆分成相互独立的多个单项的多维数据，并对各个单项的多维数据进行数据建模、数据训练以及数据预测，将各个单项的多维数据的预测结果进行组合来解决多维数据的区间预测问题。

作为优选，所述多维数据的单位时间维度特征包括温度、湿度、风速、动力能耗、制冷设备能耗和其他设备能耗，所述多维数据的特征维度为六。

本发明根据实际情况选取具体的维度特征，温度、湿度和风速都是影响轨道交通牵引力能耗的因素，温度和湿度影响列车内部制冷设备的能耗，风速则通过列车的风阻影响牵引力，动力能耗能间接反应列车上的客流以及列车的速度情况，制冷设备能耗也能间接反应客流以及温度情况，其他设备能耗则反应其余不是主要影响因素的情况。这六个维度特征数据相对其余因素更容易测量得到，在实际过程中可以根据实际需要增加或替换。

作为优选，所述S2中，对多维特征数据进行数据典型日拆分，按照典型日日期类型拆分成工作日数据集合、一般休息日数据集合、各法定节假日数据集合、各特殊日期数据集合四个单项。

本发明将多维特征数据按照数据典型日进行拆分，是因为在不同类型的日期中轨道交通的能耗数据有较明显的差异，轨道交通的班次、间隔时间和运行里程等影响能耗的本征因素在不同的日期类型中是不同的，因此需要区分开来分别进行数据分析和处理，在设定本征因素相同的情况下考虑各个维度特征对能耗的影响。

作为优选，所述S3数据预处理中包括：

S31、数据填充，对单项的多维数据中存在缺失的数据进行填充；

S32、数据异常处理，对单项的多维数据中存在异常的数据进行处理；

S33、数据标准化，对单项的多维数据进行标准化处理，同一量纲和数量级。

本发明中对拆分后单项的多维数据进行预处理，通过插值法对缺失的数据进行填充；然后检测一个单项所有多维数据中明显数据异常的数据进行异常处理，在多维数据中，与均值的距离大于三倍标准差的数据可以认为是异常值；最后进行数据标准化，统一数据的量纲和数量级，便于后续的数据分析。

作为优选，所述数据异常处理的步骤包括：

S321、删除被判定为异常值的数据；

S322、将删除后的异常值视为缺失的数据进行数据填充处理；

S323、利用数据填充后的平均值对填充的数据进行修正。

本发明中将异常值的数据去除，然后按照缺失数据的方式填充数据代替异常值，同时将平均值和填充的数据对比，若不符合条件则用平均值代替异常值。

作为优选，所述S4数据建模中包括：

S41、对标准化后的数据按照设定的算法进行分解，得到若干数据簇的数据集合；

S42、对每个数据簇分别建立数据预测模型，得到若干独立的数据预测模型。

本发明中通过聚类分析将标准化后的数据分成不同的数据簇，将相似的数据归类到同一个数据集合中，对每一个含有相似数据的数据集合针对性地建立数据模型，从而使得建立的数据模型更贴合对应的数据集合。

作为优选，所述S5数据训练中根据实际数据和预测数据的差异调整数据模型的参数，在不断调整和优化的过程中使实际数据和预测数据的差异最小。

本发明中依据实际数据和预测数据之间的均方误差对建立的数据模型进行调整和优化，不断调整数据模型中的各项参数和权重使得最终的实际数据和预测数据之间的均方误差达到最小值或者均方误差的变化值小于设定的阈值。

作为优选，所述S6数据预测中包括：

S61、根据数据模型得到预测数据；

S62、将预测数据进行数据反标准化处理，并传输回能源系统；

S63、根据反标准化处理后的预测数据进行区间判断，给出区间预测结果。

本发明中由于数据模型是根据数据簇的数据集合建立的，因此一个单项的多维数据进过聚类后含有多少的数据簇，那么经过数据模型的预测后，这个单项的多维数据会有相同数量的预测数据输出值，取这些预测数据的最大值和最小值就是该单项的多维数据的区间预测数据。反标准化处理是为了还原预测数据的真实量纲，在传回能源系统后，在后续可以根据本次的预测数据和之后采集到的实际数据重复对区间预测算法和数据模型进行微调，保证实时性和准确性。

本发明具有如下有益效果：利用人工智能算法以及分布式框架结构对智慧城轨中多维度牵引力能耗数据进行区间预测，可根据历史数据以及实时数据的情况进行多步预测并为牵引力设备决策提供辅助指导；本发明对列车牵引力未来能耗值进行了区间预测，结合了温度、湿度、风速、动力能耗、制冷设备能耗、其他设备能耗等多特征属性以及多典型日类型属性，故而预测得到的能耗值与能耗区间更加准确并具有参考价值；本发明中的能耗值区间预测是基于牵引力能耗的历史能耗数据和实施能耗数据预测得到的，可以将此方法部署到列车系统，实时监控能耗值是否超出预测范围，便于对节能方案决策提供帮助。

附图说明

图1是本发明区间预测的整体流程图；

图2是本发明单位时间维度数据特征的示意图；

图3是本发明数据典型日拆分结构图；

图4是本发明单项的多维数据的区间预测流程图；

图5是本发明实施例中神经网络结构示意图。

具体实施方式

下面结合附图与具体实施方式对本发明做进一步的描述。

如图1所示，一种基于多维数据的牵引力能耗合理区间预测方法，包括：

如图2所示，多维数据的单位时间维度特征包括温度、湿度、风速、动力能耗、制冷设备能耗和其他设备能耗，多维数据的特征维度为六。

如图3所示，S2中对多维特征数据进行数据典型日拆分，按典型日日期类型拆分成工作日数据集合、一般休息日数据集合、各法定节假日数据集合、各特殊日期数据集合四个单项。S3、数据预处理，对各个单项的多维数据分别进行数据预处理；

在S3中数据预处理中包括以下步骤：

数据异常处理的步骤包括：

S321、删除被判定为异常值的数据；

S322、将删除后的异常值视为缺失的数据进行数据填充处理；

S323、利用数据填充后的平均值对填充的数据进行修正。

在S4中数据建模包括以下步骤：

在S5数据训练中根据实际数据和预测数据的差异调整数据模型的参数，在不断调整和优化的过程中使实际数据和预测数据的差异最小。

S6、数据预测，将实时数据根据训练优化后的数据模型进行数据预测；

在S6中数据预测包括以下步骤：

S61、根据数据模型得到预测数据；

如图5所示是本发明实施例中LSTM长短期记忆网络的结构示意图，该结构中有六个输入分别代表温度、湿度、风速、动力能耗、制冷设备能耗和其他设备能耗这六个维度特征数据，将这些特征数据喂入网络输入节点中。采取LSTM长短记忆神经网络结构，对输入的数据进行运算，在该部分中选用多个LSTM神经元，以四个LSTM神经元为例，每个神经元都对六个输入数据进行运算。经过LSTM神经元运算后的数据通过全连接层进行进一步的拟合，将全连接层的结果输出到预测输出节点实现了在该结构下的神经网络运算。这种设计结构可以挖掘时序相关的数据信息，有优异的预测相关性。依照该神经网络结构设计LSTM数据模型，然后对数据模型进行训练，完成训练后的数据模型并能够进行数据预测。

在本发明的实施例中可以使用GRU、BILSTM、BIGRU数据模型代替LSTM数据模型进行数据预测，GRU、BILSTM、BIGRU数据模型的建立方式、训练方法和预测方法与LSTM数据模型相同，GRU、BILSTM或BIGRU与LSTM同属于深度递归神经网络中的不同神经元，其机制类似，可以根据实际情况进行选择与替换。

在本发明实施例中对轨道交通进行牵引力能耗区间预测的过程中，首先采集采集整个能耗系统多维特征数据的历史数据和实时数据，为数据处理和区间预测做准备。由于轨道交通列车的发车班次、列车的间隔时间、列车的运行距离等轨道交通能够影响能耗的本征因素会随着不同类型日期而变动，如相同时间段内发车班次增多或列车的间隔时间缩短或列车的运行距离变长等都会增加能耗，相反的发车班次减少或列车的间隔时间增加或列车的运行距离变短等都会减少能耗。因此对于采集到的多维特征数据需要按数据典型日拆分成为多个单项的多维数据集合，如图3所示划分为工作日数据集合、一般休息日数据集合、各法定节假日数据集合和各特殊日期数据集合，同时按照实际需求可以增加划分的数据典型日类型。经过拆分后的同一个单项内影响能耗的本征因素是相同或相近的，以工作日数据集合为例，每个工作日中的发车班次、列车间隔时间、列车运行距离在正常情况下都是一致不变的。之后对于整个轨道交通牵引力能耗区间预测则拆分为对每一个单项的能耗多维数据的区间预测的组合，即工作日能耗预测、一般休息日能耗预测、各法定节假日能耗预测和各特殊日期能耗预测。

如图4所示是本发明一个单项的多维数据的区间预测流程图，下面以工作日数据集合这一个单项为例做进一步说明，其余一般休息日数据集合、各法定节假日数据集合和各特殊日期数据集合的区间预测流程与工作日数据集合的区间预测流程相同。

对于工作日数据集合中的多维数据进行预处理，按照时序采集排列的数据集合中首先查找是否有缺失数据，若有缺失则根据缺失位置前两个数据和后两个数据共四个数据的平均值作为填充数据填充到缺失处。然后查找数据集合中的异常值，计算工作日数据集合中所有数据的平均值μ和标准差σ，当其中有数据与平均值μ的差大于三倍的标准差σ时认定该数据为异常值，将此异常值去除后视为有缺失数据，以处理缺失数据的方式填充数据，然后继续以平均值μ判断填充的数据是否符合要求，若不符合要求则以平均值μ作为填充数据进行填充，若符合要求则完成异常值的处理。最终得到工作日数据集合X＝{X₁,X₂,X₃,…,X_n}，集合中的数据的平均值为μ，数据的标准差为σ，此时对数据进行标准化处理使得其量纲和数量级统一。标准化后的数据集合P＝{P₁,P₂,P₃,…,P_n}，其中P_i＝(X_i-μ)/σ为标准化的公式。

对标准化后的数据集合P＝{P₁,P₂,P₃,…,P_n}进行进一步的分析，集合中的每一个数据都包含有六个维度特征包括温度、湿度、风速、动力能耗、制冷设备能耗和其他设备能耗。需要将这些数据按照数据之间的相似性聚集到K个数据簇的数据集合中。首先在集合P中选出K个数据作为数据簇的中心{C₁,C₂,C₃,…,C_k}，其中k的范围是(1,n]，然后计算每一个数据到每一个数据簇中心的欧式距离，

式中P_i表示第i个数据，i的范围是[1,n]；C_j表示第j个数据簇的中心，j的范围是[1,k]；P_it表示第i个数据的第t个维度特征，t的范围是[1,6]；C_jt表示第j个数据簇中心的第t个维度特征。然后依次比较每一个数据P_i到数据簇中心C_j的欧式距离，将数据分配到欧氏距离最近的数据簇中心的类簇中。经过第一次分配后共有K个数据簇的数据集合，每个集合中含有若干个数据，此时对每个数据簇的数据求平均值，以计算得到的平均值作为该数据簇新的中心，得到K个新的数据簇中心。然后继续按照之前的计算方式计算每一个数据到每一个新的数据簇中新的欧氏距离，将数据分配到欧氏距离最近的新数据簇中心的类簇中，完成第二次分配。重复以上的分配过程，直到相邻的两次分配之后每个数据簇集合中的数据都不再变动，则说明完成了聚类分析，此时共得到k个聚集完成的数据簇{D₁,D₂,D₃,…,D_k}。

根据K个数据簇集合，针对每一个数据簇都建立一个数据模型，在本实施例中针对每一个数据簇都建立一个LSTM长短期记忆网络时序数据预测模型，则数据簇{D₁,D₂,D₃,…,D_k}对应有数据模型{M₁,M₂,M₃,…，M_k}。以数据簇D₁和对应的数据模型M₁为例做进一步的数据训练和数据预测说明，其余的数据簇和数据模型的数据训练、数据预测与数据簇D₁和对应的数据模型M₁相同。首先初始化数据模型M₁中的参数和权重，进行数据预测得到预测数据，计算数据簇D₁中的实际数据与预测数据的误差，在本实施例中以均方误差MSE作为误差判断依据，其计算方法是计算每个实际数据与预测数据的差值的平方然后求和计算平均值，

式中q表示数据簇D₁中一共分配有q个数据，P_i表示数据簇中的第i个实际数据，T_i表示与第i个实际数据对应的数据模型预测的第i个预测数据。计算得到的MSE反应了在当前参数和权重的数据模型下预测数据与实际数据的偏差。根据偏差的数值对数据模型中造成偏差的参数和权重进行调节和优化新生新的数据模型，进行新一轮的预测时候重复上述的均方误差的计算过程，不断进行迭代优化。当最终计算得到的MSE是最小值后则说明数据模型中的参数和权重处于最优状态，完成数据模型的建立和优化。对于实际操作过程中，当迭代较多轮数以后，每一轮计算得到的MSE其减小幅度会逐渐变小，即每一轮计算得到的MSE会逐渐趋向最小值，但是需要达到最小值时进行计算迭代的轮次过多会延长模型建立的时间以及花费大量的计算量，性价比不高，因此可以设定MSE的减小阈值，当相邻两轮得到的MSE的减小量小于设定的减小阈值时可以认定数据模型完成建立和优化。此时得到数据簇D₁对应的符合要求的数据预测模型M₁，同理在一个单项下可以得到k个数据簇所对应的k个数据预测模型。

在一个单项下由k个数据预测模型同时进行能耗预测，可以得到k个预测数据，这些预测数据是统一量纲和数量级的标准化数据，因此需要反标准化处理后还原成原始采集数据的量纲。设定k个预测数据集合P’＝{P’₁,P’₂,P’₃,…,P’_k}，反标准化后的最终预测数据集合为X’＝{X’₁,X’₂,X’₃,…,X’_k}，两者间可以通过公式X_i＝P_i·σ+μ得到，式中的σ和μ分别为之前标准化过程中计算得到的标准差和平均值。每个数据簇对应一个最终预测数据，该最终预测数据与对应数据簇内的数据具有相似性。因此可以知道在一个单项下得到的k个最终预测数据是在不同相似性因素下预测得到的结果，选取其中最小的最终预测数据和最大的最终预测数据作为数据区间的下限和上限，则可以得到该单项下的牵引力能耗区间预测结果。与此同时将所有预测得到的预测数据和最终预测数据传输回能源系统中，与后续采集得到的实际数据组合根据两者的均方误差实时地调节和优化数据预测模型，可以保证数据预测的实时性以及长时间运行预测的准确性。

依据每个单项下的区间预测组合以后就是对整个牵引力能耗区间预测，在实际需要进行能耗预测的过程中，对于工作日的能耗预测则选用工作日数据集合对应的数据预测模型进行预测；对于一般休息日的能耗预测则选用一般休息日数据集合对应的数据预测模型进行预测；对于各法定节假日的能耗预测则选用各法定节假日数据集合对应的数据预测模型进行预测；对于各特殊日期的能耗预测则选用各特殊日期数据集合对应的数据预测模型进行预测。

上述实施例是对本发明的进一步阐述和说明，以便于理解，并不是对本发明的任何限制，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多维数据的牵引力能耗合理区间预测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多维数据的牵引力能耗合理区间预测方法，其特征在于，所述多维数据的单位时间维度牵引力特征包括温度、湿度、风速、动力能耗、制冷设备能耗和其他设备能耗，所述多维数据的特征维度为六。

3.根据权利要求1所述的一种基于多维数据的牵引力能耗合理区间预测方法，其特征在于，所述S2中，对多维特征数据进行数据典型日拆分，按照典型日日期类型拆分成工作日数据集合、一般休息日数据集合、各法定节假日数据集合、各特殊日期数据集合四个单项。

4.根据权利要求1或2或3所述的一种基于多维数据的牵引力能耗合理区间预测方法，其特征在于，所述S3数据预处理中包括：

5.根据权利要求4所述的一种基于多维数据的牵引力能耗合理区间预测方法，其特征在于，所述数据异常处理的步骤包括：

S321、删除被判定为异常值的数据；

S322、将删除后的异常值视为缺失的数据进行数据填充处理；

S323、利用数据填充后的平均值对填充的数据进行修正。

6.根据权利要求4所述的一种基于多维数据的牵引力能耗合理区间预测方法，其特征在于，所述S4数据建模中包括：

7.根据权利要求1或5或6所述的一种基于多维数据的牵引力能耗合理区间预测方法，其特征在于，所述S5数据训练中根据实际数据和预测数据的差异调整数据模型的参数，在不断调整和优化的过程中使实际数据和预测数据的差异最小。

8.根据权利要求1或5或6所述的一种基于多维数据的牵引力能耗合理区间预测方法，其特征在于，所述S6数据预测中包括：

S61、根据数据模型得到预测数据；