CN112488392A - 一种基于机器学习的智慧水务日用水量预测方法 - Google Patents

一种基于机器学习的智慧水务日用水量预测方法 Download PDF

Info

Publication number
CN112488392A
CN112488392A CN202011381196.5A CN202011381196A CN112488392A CN 112488392 A CN112488392 A CN 112488392A CN 202011381196 A CN202011381196 A CN 202011381196A CN 112488392 A CN112488392 A CN 112488392A
Authority
CN
China
Prior art keywords
prediction
model
data
convolution
tcn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011381196.5A
Other languages
English (en)
Other versions
CN112488392B (zh
Inventor
雷建军
卢振辉
李佳朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhaoqing Heyi Network Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011381196.5A priority Critical patent/CN112488392B/zh
Publication of CN112488392A publication Critical patent/CN112488392A/zh
Application granted granted Critical
Publication of CN112488392B publication Critical patent/CN112488392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及机器学习中的大数据处理技术领域,具体涉及一种基于机器学习的智慧水务日用水量预测方法,包括:获取日期、气候数据和历史用水量数据,预处理;将预处理后的历史用水量数据输入TCN预测模型提取混沌信息和隐藏特征进行预测,得到TCN预测结果;通过日期和气候数据对TCN预测结果进行矫正,将日期、气候数据和TCN预测结果一同作为特征输入机器学习模型中进行训练和预测,得到矫正后的下一天用水量预测结果。本发明将机器学习与城市日需水量预测相结合,可以准确预测城市日需水量。

Description

一种基于机器学习的智慧水务日用水量预测方法
技术领域
本发明涉及机器学习中的大数据处理技术领域,具体涉及一种基于机器学习的智慧水务日用水量预测方法。
背景技术
随着世界人口的增长、气候变暖和城市规模的扩大,城市对水资源的需求日益增加。许多国家都面临着水资源短缺的问题,因此对水资源进行合理的规划和管理显得尤为重要。实现这一目标的前提是进行可靠的每日用水需求预测。日需水量预测在城市建设规划、配水系统优化调度中具有重要作用。此外,它可以帮助城市规划者更好地决定如何有效地分配水资源。日用水量取决于多种因素,如日期,气候、社会因素等。随着更严重的全球变暖的到来,气候因素变得越来越重要。随着人们生活水平的提高和人口流动性的加快,水需求也随着时间的变化而波动。传统的时间序列分析方法以日需水量时间序列作为模型的输入,只考虑日需水量波动的非平稳、非线性特征,预测精度仅依赖历史数据。因此,数据的质量往往决定了模型预测的准确性。
由于日用水量与外界因素息息相关,所以当前的模型普遍会存在以下一些技术问题:1.随着城市规模越来越大,需水量增长,影响城市需水量的因素复杂多变,建立城市需水量确定性和不确定性变量非常困难。2.如何合理的从城市日需水时间序列中提取出混沌特征。3.没有对城市日需水和它的影响因素系统的做特征工程。4.模型单一。没有对模型优化。
发明内容
为了解决上述问题,本发明提供一种基于机器学习的智慧水务日用水量预测方法。
一种基于机器学习的智慧水务日用水量预测方法,包括以下步骤:
S1、获取日期、气候数据和历史用水量数据,对数据进行预处理,得到预处理后的日期、气候数据和历史用水量数据;
S2、将预处理后的历史用水量数据输入时间卷积神经网络TCN预测模型提取城市日用水时间序列中的混沌信息和隐藏特征,并根据混沌信息和隐藏特征进行预测,得到TCN预测结果,即基于历史用水量数据的下一天用水量预测结果;
S3、通过日期和气候数据对TCN预测结果进行矫正:将TCN预测结果与日期、气候数据一同作为特征输入机器学习模型中进行再次训练,得到矫正后的下一天用水量预测结果。
进一步的,所述预处理包括:异常值处理:重新赋值/均值填充;
缺失值处理:均值插入/线性插值处理;
非数值数据处理:one-hot离散处理;
数值数据处理:归一化处理,归一化表达式如下:
Figure BDA0002809359010000021
其中,x′表示归一化之后的数据,σ表示数值型数据的标准差,
Figure BDA0002809359010000022
表示数值型数据的平均值。
进一步的,TCN预测模型采用时间卷积神经网络,TCN预测模型的结构包括输入层、4个隐藏层、输出层,各个隐藏层之间采用残差连接,每一个隐藏层中包含两个一维扩张因果卷积和一个1*1卷积。
进一步的,TCN预测模型的具体结构包括:使用一维因果卷积和扩张卷积作为标准卷积层,将每两个标准卷积层恒等映射封装为一个残差模块,由残差模块堆叠起深度网络,在最后几层使用全卷积层代替全连接层;最后一层为输出层,输出层用于将隐藏层最后一个维度的输出做一个线性回归,输出结果。
进一步的,TCN预测模型的中间处理过程包括:
S21、将预处理后的历史用水量数据直接作为模型的输入,经过时间卷积神经网络TCN预测模型的4个隐藏层,在每一个隐藏层中,输入数据首先经过两个一维扩张因果卷积,每个扩张因果卷积之后先使用WeightNorm对模型的权重进行权重正则化,其次使用ReLU非线性函数作为激活函数,再添加Dropout实现正则化;输入数据经过两次扩张因果卷积之后,得到扩张因果卷积后的结果,将输入数据输入一个1*1卷积,得到1*1卷积结果;将1*1卷积结果与扩张因果卷积后的结果相加,得到一个隐藏层提取的特征;在在一个隐藏层进行特征提取时,通过残差连接块把下层特征拿到高层增强准确率;
S22、在经过4个隐藏层之后,将隐藏层最后一层输出的最后一维做线性回归,得到下一天的日用水量预测结果,计算预测结果与真实数据的RMSE,若RMSE的值小于RMSE阈值,则说明TCN预测模型训练完毕,得到训练好的TCN预测模型。
进一步的,所述机器学习模型包括4个基模型,分别是:RandomForest、Xgboost、Lasso、LinearRegression。
进一步的,以3个基模型RandomForest、Xgboost、Lasso作为初级学习器,每个基模型RandomForest、Xgboost、Lasso之后连接平均模型AverageModel,平均模型AverageModel的作用是对基模型的多次预测结果求平均。
进一步的,LinearRegression模型为次级学习器,将RandomForest、Xgboost、Lasso通过学习后生成的新数据集,用于训练次级学习器LinearRegression,训练完毕后得到StackModel。
进一步的,机器学习模型的工作流程包括:
S31、将训练数据集分别输入每个初级学习器中,初级学习器根据训练数据分别进行多次预测,得到多次预测的结果,分别对每个初级学习器的多次预测的结果求平均,得到初级学习器的最终预测值;
S32、得到初级学习器的最终预测值后,将所有初级学习器的最终预测值进行拼接,并生成一个新的数据集输入次级学习器LinearRegression中进行数据拟合,得到次级学习器LinearRegression的输出结果;
S33、将三个初级学习器的输出结果和次级学习器LinearRegression的输出结果输入平均模型AverageModel求平均,得到的平均值作为平均模型AverageModel的最终输出值;
S34、通过LinearRegression对三个初级学习器的最终预测值进行融合处理,得到StackModel融合模型结果;
S35、通过融合层对RandomForest、Xgboost、AverageModel的输出以及StackModel融合模型结果再次进行融合,得到用于下一天日用水量预测的最终结果,融合公式如下:sum=0.25*RandomForest+0.25*Xgboost+0.25*StackModel+0.25*AverageModel。
本发明的有益效果:
本发明将机器学习与城市日需水量预测相结合,准确预测城市日需水量,促进水资源的更经济利用,保证供水系统的可持续性。本发明的一种基于机器学习的智慧水务预测日用水量,在考虑气候变量和每日耗水量的影响的基础上,建立了多模型融合的模型,能够较准确预测下一天的用水量,辅助城市用水的调度,发挥数据价值,给用户提供更加精准的服务。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1是本发明实施例提供的基于机器学习的智慧水务预测日用水量方法流程图;
图2是本发明实施例提供的TCN预测模型结构实例图;
图3是本发明实施例提供的TCN预测模型结构中的隐藏层示例图;
图4是本发明实施例提供的模型融合实例图;
图5是本发明实施例提供的模型平均实例图;
图6是本发明实施例提供的总体过程流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于机器学习的智慧水务日用水量预测方法,包括但不限于以下步骤:
S1、获取日期、气候数据和历史用水量数据,对数据进行预处理,得到预处理后的日期、气候数据和历史用水量数据。
所述预处理包括:异常值处理(重新赋值/均值填充)、缺失值处理(均值插入/线性插值)、非数值数据处理(one-hot离散处理)、数值数据处理(归一化处理),具体描述如下:
(1)异常值处理:针对数据中存在未知的异常值,如风力的等级一般都是1~9级,但是数据存在着一些数据为微风,小于3级,4~5级这种不规则数据,对于这种数据采用重新赋值,赋值为一个合理的范围。还有观察异常数据,发现在某几天,用水数据非常大,采用前一天和后一天的数据均值填充。
(2)缺失值处理:对于降雨量的缺失,根据当天的天气状态,取相同天气日降雨量均值插入。对于日用水量的缺失,采用线性插值的方法。还有小部分气候数据缺失均采用线性插值的方法。
(3)非数值数据处理:天气、风向、周末、月份变量进行one-hot离散处理。
(4)数值数据处理:对数值型数据进行归一化处理。
归一化处理的公式如下:
Figure BDA0002809359010000051
其中,x′表示归一化之后的数据,σ表示数值型数据的标准差,
Figure BDA0002809359010000052
表示数值型数据的平均值。
S2、将预处理后的历史用水量数据输入训练好的时间卷积神经网络TCN预测模型提取混沌信息和隐藏特征,并根据混沌信息和隐藏特征进行预测,得到TCN预测结果,即基于历史用水量数据的下一天用水量预测结果。
TCN预测模型如图2所示,TCN预测模型采用时间卷积神经网络,TCN预测模型包括输入层、4个隐藏层、输出层,各个隐藏层之间采用残差连接,每一个隐藏层中包含两个一维扩张因果卷积和一个1*1卷积。
在一个优选实施例中,TCN预测模型中的卷积层均采用一维卷积,channel size为25,TCN的结构中隐藏层的参数kernel size设置为3,dilations设置依次为[1,2,4,8],层数为4层,每个batch size设置为30,epochs为50,padding的依次为(Kernel size-1)*dilation。
TCN的卷积层结合了扩张卷积与因果卷积两种结构。
TCN的卷积和普通1D卷积最大的不同就是用了扩张卷积(dilatedconvolutions),越到上层,卷积窗口越大,而卷积窗口中的“空孔”越多,这样设置隐藏层参数的目的是为了让TCN预测模型的输入输出是同样大小的序列,例如网络输入x0,...,xT的时序数据,输出的预测结果也是一样大小的序列y0,...,yT。此外,扩张卷积可以做到每一层隐层都和输入序列大小一样,并且计算量降低,感受也足够大。使用因果卷积的目的是为了保证前面时间步的预测不会使用未来的信息,因为时间步t的输出只会根据t-1及之前时间步上的卷积运算得出。
为了提高准确率,TCN加入了残差卷积的跳层连接,以及1×1的卷积操作,TCN的残差模块内有两层扩张卷积和ReLU非线性函数,且卷积核的权重都经过了权重归一化。此外TCN在残差模块内的每个空洞卷积后都添加了Dropout以实现正则化。残差卷积把下层特征拿到高层增强准确率;1×1卷积用来降维。直接把较下层的特征图跳层连接到上层,对应的每个Cell的特征图数量(也就是通道数channel)不一致,导致不能直接做类似Resnet的跳层特征图加和操作,于是,为了两个层加和时特征图数量吻合,用1×1卷积做了一个降维的操作。总结来讲,TCN是:同时用到一维因果卷积和扩张卷积作为标准卷积层,并将每两个这样的标准卷积层恒等映射封装为一个残差模块(包含了relu函数),再由残差模块堆叠起深度网络,并在最后几层使用全卷积层代替全连接层;最后一层为输出层,输出层用于将隐藏层最后一个维度的输出通过一个线性回归,输出结果。
残差连接的实现方式包括:构建一个残差块(上述的残差模块)来代替一层的1×1的卷积。一个残差块包含两层的卷积和非线性映射,在每层中还加入了WeightNorm和Dropout来正则化网络。残差连接是训练深层网络的有效方法,它使得网络可以以跨层的方式传递信息。
TCN预测模型的输入采用的是当前日期前30天的日用水量,TCN预测模型的输出是基于历史用水量数据的下一天用水量预测结果。TCN预测模型的中间处理过程包括:
1、输入变量为与预测当天相关性较大的历史30天的用水量数据。网络产生与输入长度相同的输出,以及未来不会泄漏到过去的事实。为了完成第一点(输出与输入长度相同),TCN预测模型使用1D全卷积网络(FCN)架构,其中每个隐藏层的长度与输入层相同,并且添加长度(kernel size-1)零填充以保持后续层与前一层的长度相同。为了实现第二点(未来不会泄漏到过去的事实),TCN使用因果卷积,在这种卷积中,时间输出仅与前一层中的时间和更早的元素卷积。
2、一个简单的因果卷积只能回顾一个网络深度的线性规模的历史,这使得将上述因果卷积应用于序列任务,特别是那些需要较长历史的任务具有挑战性。本发明的解决方案是使用扩张卷积使感受野成倍增大,一个扩张的卷积可以简化为一个正则卷积。使用更大的扩容使顶层的输出能代表更大范围的输入,从而有效地扩展了卷积神经网络的接受域。因此,本发明可以采用两种增加TCN接受场的方法:选择更大的过滤器尺寸k或者增加膨胀系数d,其中一个这样的层的有效历史是(k-1)d。随着网络深度指数地增加d(即在网络的第i层d=O(2i)),确保了在有效历史记录中有一些过滤器能够获取每个输入,同时还允许使用深度网络生成非常大的有效历史记录,图2所示中提供了一个说明。
3、由于TCN的接受域依赖于网络深度n、滤波器大小k和扩张因子d,因此,更深更大的TCNs的稳定变得重要。每一层都包含多个用于特征提取的过滤器。因此,在通用TCN模型设计中使用通用残差模块来代替卷积层,TCN具有两层扩张的因果卷积和非线性,使用整流线性单元ReLU。对卷积滤波器应用权值归一化进行归一化。此外,在每次扩张卷积后都加入一个空间遗漏进行正则化:在每一步训练时,将整个通道归零。在TCN中,输入和输出可以有不同的宽度。为了考虑输入-输出宽度的差异,我们额外使用1x1卷积来确保元素加法⊕接收到相同形状的张量。
如图3所示,在TCN预测模型的每一个隐藏层中,输入数据首先经过两个一维扩张因果卷积,每个扩张因果卷积之后先使用WeightNorm对模型的权重进行权重正则化,其次使用ReLU非线性函数作为激活函数,再添加Dropout实现正则化;输入数据经过两次扩张因果卷积之后,得到扩张因果卷积后的结果,将输入数据输入一个1*1卷积,得到1*1卷积结果;将1*1卷积结果与扩张因果卷积后的结果相加,得到一个隐藏层提取的特征;在在一个隐藏层进行特征提取时,通过残差连接块把下层特征拿到高层增强准确率。
4.在经过4层隐藏层之后,将隐藏层最后一层输出的最后一维做线性回归,得到下一天的日用水量预测结果,计算预测结果与真实数据的RMSE(均方根误差),若RMSE的值小于RMSE阈值,则说明TCN预测模型训练完毕,得到训练好的TCN预测模型,否则继续训练TCN预测模型。
TCN直接利用卷积强大的特性跨时间步提取特征,通过TCN预测模型可以提取城市日用水时间序列中的混沌信息和隐藏特征,省去了手工提取特征的麻烦。
S3、结合日期和气候数据对TCN预测结果进行矫正,具体地,将TCN预测结果与日期、气候数据作为特征一同输入机器学习模型中进行再次训练,得到矫正后的下一天用水量预测结果。
在机器学习模型中,先用初级学习器对数据进行学习预测,然后根据初级学习器的预测结果生成新数据集输入到次级学习器中进行再次预测,得到次级学习器的预测结果,然后通过融合层对初级学习器的预测结果和次级学习器的预测结果进行融合,得到矫正后的预测结果。
所述机器学习模型包括:初级学习器、次级学习器以及融合层,具体描述如下:
初级学习器:以3个基模型RandomForest、Xgboost、Lasso作为初级学习器,每个基模型RandomForest、Xgboost、Lasso之后连接平均模型AverageModel;平均模型AverageModel的作用是对初级学习器的多次预测结果求平均,得到一个平均结果,因此连接在每个基模型之后。
次级学习器:采用LinearRegression模型。通过简单的LinearRegression对三个初级学习器的最终预测值和元模型的拟合结果进行融合处理,得到StackModel融合模型结果;
第三层:融合层:将初级学习器RandomForest、初级学习器Xgboost、平均模型AverageModel的输出以及StackModel融合模型结果进行融合,得到融合结果,所述融合结果即是矫正后的下一天日用水量预测的最终结果。
训练数据为TCN预测结果、日期以及气候数据,采用5折验证的方式划分训练数据,将80%数据作为训练集,20%数据作为测试集。以RMSE作为评判标准,计算表达式为:
Figure BDA0002809359010000091
yi为日用水量真实值,
Figure BDA0002809359010000092
为日用水量预测值,m为训练集中数据个数。真实数据减去预测数据。RMSE值越小,说明模型的预测效果越好。
在一个优选实施例中,通过多次试验结果分析得知,RMSE值在0.003-0.004之间该TCN预测模型能够实现准确的预测。
如图4所示,机器学习模型包括基模型和元模型,在一个优选实施例中,选用3个基模型RandomForest、Xgboost、Lasso作为初级学习器,选用基模型LinearRegression为元模型,LinearRegression也作为次级学习器。
在机器学习模型中,先用单模型对数据进行拟合,然后对单模型拟合进行融合,最后加权求和,得到矫正后的预测结果。具体地机器学习模型的工作流程包括:
1.每个初级学习器根据训练数据分别进行多次预测(每个初级学习器进行训练时采用完整训练集),得到多次预测的结果,分别对每个初级学习器的多次预测的结果求平均,得到各个初级学习器的输出结果(即各个初级学习器的最终预测值)。
在初级学习器中,将完整训练数据集分别输入RandomForest基模型、Xgboost基模型和Lasso基模型中,针对各个基模型分别进行5次训练,每次训练保留1/5的样本用作训练时的检验,训练完成后对测试数据进行预测,一个模型会对应5个预测结果,将这5个结果取平均,分别得到这三个初级学习器的最终预测值。
2.得到初级学习器的最终预测值后,将所有初级学习器的最终预测值进行拼接,并生成一个新的数据集输入元模型LinearRegression中进行数据拟合,得到元模型的拟合结果,即LinearRegression的输出结果。所述新数据集用于训练次级学习器LinearRegression,在这个新数据集中,初级学习器的输出被当作样例输入特征,而初始样本的标记仍被当作样例标记,如图6所示。
3.将三个初级学习器的输出结果和次级学习器LinearRegression的输出结果输入平均模型AverageModel求平均,得到的平均值作为平均模型AverageModel的最终输出值,如图5所示。
4.通过简单的LinearRegression对三个初级学习器的最终预测值和元模型的拟合结果进行融合处理,得到StackModel融合模型结果。
5.综上所述,共得到6个预测结果,分别是:4个单模型RandomForest、Xgboost、Lasso、LinearRegression的预测结果,平均模型AverageModel的结果和Stackmodel的结果。最后通过融合层对RandomForest、Xgboost、AverageModel、Stackmodel的预测结果再次进行融合,得到融合结果,该融合结果即用于下一天日用水量预测的最终结果。
融合公式如下:sum=0.25*RandomForest+0.25*Xgboost+0.25*StackModel+0.25*AverageModel。
将融合结果与真实的数据做对比,具体地,TCN预测模型采用RMSE(均方根误差)对预测结果进行评价,均方根误差计算表达式如下:
Figure BDA0002809359010000111
若RMSE值小于特定RMSE阈值,则输出预测结果,至此,已得到精确拟合数据的结果。
本发明提供的一种基于机器学习的智慧水务预测日用水量,首先通过TCN提起了历史日水量数据中的混沌特性,然后再用气候、日期数据对预测结果进行矫正,对矫正模型采用提升特征相关性的模型集成,从而保证模型的有效性,最终等到了一个比较好的预测效果,从而达到了预测城市未来用水量的结果,发挥了数据的价值,给城市规划的决策者提供了准确的信息。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于机器学习的智慧水务日用水量预测方法,其特征在于,包括以下步骤:
S1、获取日期、气候数据和历史用水量数据,对数据进行预处理,得到预处理后的日期、气候数据和历史用水量数据;
S2、将预处理后的历史用水量数据输入时间卷积神经网络TCN预测模型提取城市日用水时间序列中的混沌信息和隐藏特征,并根据混沌信息和隐藏特征进行预测,得到TCN预测结果,即基于历史用水量数据的下一天用水量预测结果;
S3、通过日期和气候数据对TCN预测结果进行矫正:将TCN预测结果与日期、气候数据一同作为特征输入机器学习模型中进行再次训练,得到矫正后的下一天用水量预测结果。
2.根据权利要求1所述的一种基于机器学习的智慧水务日用水量预测方法,其特征在于,所述预处理包括:异常值处理:重新赋值/均值填充;
缺失值处理:均值插入/线性插值处理;
非数值数据处理:one-hot离散处理;
数值数据处理:归一化处理,归一化表达式如下:
Figure FDA0002809357000000011
其中,x′表示归一化之后的数据,σ表示数值型数据的标准差,
Figure FDA0002809357000000012
表示数值型数据的平均值。
3.根据权利要求1所述的一种基于机器学习的智慧水务日用水量预测方法,其特征在于,TCN预测模型采用时间卷积神经网络,TCN预测模型的结构包括输入层、4个隐藏层、输出层,各个隐藏层之间采用残差连接,每一个隐藏层中包含两个一维扩张因果卷积和一个1*1卷积。
4.根据权利要求3所述的一种基于机器学习的智慧水务日用水量预测方法,其特征在于,TCN预测模型的具体结构包括:使用一维因果卷积和扩张卷积作为标准卷积层,将每两个标准卷积层恒等映射封装为一个残差模块,由残差模块堆叠起深度网络,在最后几层使用全卷积层代替全连接层;最后一层为输出层,输出层用于将隐藏层最后一个维度的输出做一个线性回归,输出结果。
5.根据权利要求3所述的一种基于机器学习的智慧水务日用水量预测方法,其特征在于,TCN预测模型的中间处理过程包括:
S21、将预处理后的历史用水量数据直接作为模型的输入,经过时间卷积神经网络TCN预测模型的4个隐藏层,在每一个隐藏层中,输入数据首先经过两个一维扩张因果卷积,每个扩张因果卷积之后先使用WeightNorm对模型的权重进行权重正则化,其次使用ReLU非线性函数作为激活函数,再添加Dropout实现正则化;输入数据经过两次扩张因果卷积之后,得到扩张因果卷积后的结果,将输入数据输入一个1*1卷积,得到1*1卷积结果;将1*1卷积结果与扩张因果卷积后的结果相加,得到一个隐藏层提取的特征;在在一个隐藏层进行特征提取时,通过残差连接块把下层特征拿到高层增强准确率;
S22、在经过4个隐藏层之后,将隐藏层最后一层输出的最后一维做线性回归,得到下一天的日用水量预测结果,计算预测结果与真实数据的RMSE,若RMSE的值小于RMSE阈值,则说明TCN预测模型训练完毕,得到训练好的TCN预测模型。
6.根据权利要求1所述的一种基于机器学习的智慧水务日用水量预测方法,其特征在于,所述机器学习模型包括4个基模型,分别是:RandomForest、Xgboost、Lasso、LinearRegression。
7.根据权利要求6所述的一种基于机器学习的智慧水务日用水量预测方法,其特征在于,以3个基模型RandomForest、Xgboost、Lasso作为初级学习器,每个基模型RandomForest、Xgboost、Lasso之后连接平均模型AverageModel,平均模型AverageModel的作用是对基模型的多次预测结果求平均。
8.根据权利要求6所述的一种基于机器学习的智慧水务日用水量预测方法,其特征在于,LinearRegression模型为次级学习器,将RandomForest、Xgboost、Lasso通过学习后生成的新数据集,用于训练次级学习器LinearRegression,训练完毕后得到StackModel。
9.根据权利要求6所述的一种基于机器学习的智慧水务日用水量预测方法,其特征在于,机器学习模型的工作流程包括:
S31、将训练数据集分别输入每个初级学习器中,初级学习器根据训练数据分别进行多次预测,得到多次预测的结果,分别对每个初级学习器的多次预测的结果求平均,得到初级学习器的最终预测值;
S32、得到初级学习器的最终预测值后,将所有初级学习器的最终预测值进行拼接,并生成一个新的数据集输入次级学习器LinearRegression中进行数据拟合,得到次级学习器LinearRegression的输出结果;
S33、将三个初级学习器的输出结果和次级学习器LinearRegression的输出结果输入平均模型AverageModel求平均,得到的平均值作为平均模型AverageModel的最终输出值;
S34、通过LinearRegression对三个初级学习器的最终预测值进行融合处理,得到StackModel融合模型结果;
S35、通过融合层对RandomForest、Xgboost、AverageModel的输出以及StackModel融合模型结果再次进行融合,得到用于下一天日用水量预测的最终结果,融合公式如下:sum=0.25*RandomForest+0.25*Xgboost+0.25*StackModel+0.25*AverageModel。
CN202011381196.5A 2020-12-01 2020-12-01 一种基于机器学习的智慧水务日用水量预测方法 Active CN112488392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011381196.5A CN112488392B (zh) 2020-12-01 2020-12-01 一种基于机器学习的智慧水务日用水量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011381196.5A CN112488392B (zh) 2020-12-01 2020-12-01 一种基于机器学习的智慧水务日用水量预测方法

Publications (2)

Publication Number Publication Date
CN112488392A true CN112488392A (zh) 2021-03-12
CN112488392B CN112488392B (zh) 2022-10-21

Family

ID=74938424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011381196.5A Active CN112488392B (zh) 2020-12-01 2020-12-01 一种基于机器学习的智慧水务日用水量预测方法

Country Status (1)

Country Link
CN (1) CN112488392B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051817A (zh) * 2021-03-19 2021-06-29 上海海洋大学 一种基于深度学习的海浪高度预测方法及其应用
CN113111471A (zh) * 2021-04-14 2021-07-13 武汉行健道信息技术有限公司 一种基于人工智能和物联网的城市智慧水务数字化智能管理系统
CN113240359A (zh) * 2021-03-30 2021-08-10 中国科学技术大学 一种应对外界重大变动的需求预测方法
CN113298286A (zh) * 2021-03-31 2021-08-24 捷佳润科技集团股份有限公司 一种基于机器学习的火龙果上市时间预测的方法
CN114372538A (zh) * 2022-03-22 2022-04-19 中国海洋大学 拖曳式传感器阵列中尺度涡时间序列卷积分类方法
CN114565149A (zh) * 2022-02-23 2022-05-31 重庆邮电大学 一种基于cga融合模型的时间序列数据预测方法、装置及计算机设备
CN114757589A (zh) * 2022-06-14 2022-07-15 深圳市拓安信计控仪表有限公司 数据处理方法、服务器及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160084977A1 (en) * 2013-04-29 2016-03-24 Westerngeco Llc Deghosting With Adaptive Operators
CN106652546A (zh) * 2015-10-30 2017-05-10 重庆邮电大学 车位导航方法、装置和系统及车位管理方法和装置
CN110378044A (zh) * 2019-07-23 2019-10-25 燕山大学 基于注意力机制的多时间尺度卷积神经网络软测量方法
CN111159149A (zh) * 2019-12-13 2020-05-15 国网浙江省电力有限公司紧水滩水力发电厂 一种基于三维卷积神经网络的河流流量预测方法
CN111210093A (zh) * 2020-03-05 2020-05-29 重庆森鑫炬科技有限公司 基于大数据的日用水量预测方法
CN111506835A (zh) * 2020-04-17 2020-08-07 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
US20200302224A1 (en) * 2019-03-21 2020-09-24 Illumina, Inc. Artificial Intelligence-Based Sequencing
CN111898809A (zh) * 2020-07-15 2020-11-06 闫慧强 一种基于tcn的汛期气候趋势预测系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160084977A1 (en) * 2013-04-29 2016-03-24 Westerngeco Llc Deghosting With Adaptive Operators
CN106652546A (zh) * 2015-10-30 2017-05-10 重庆邮电大学 车位导航方法、装置和系统及车位管理方法和装置
US20200302224A1 (en) * 2019-03-21 2020-09-24 Illumina, Inc. Artificial Intelligence-Based Sequencing
CN110378044A (zh) * 2019-07-23 2019-10-25 燕山大学 基于注意力机制的多时间尺度卷积神经网络软测量方法
CN111159149A (zh) * 2019-12-13 2020-05-15 国网浙江省电力有限公司紧水滩水力发电厂 一种基于三维卷积神经网络的河流流量预测方法
CN111210093A (zh) * 2020-03-05 2020-05-29 重庆森鑫炬科技有限公司 基于大数据的日用水量预测方法
CN111506835A (zh) * 2020-04-17 2020-08-07 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
CN111898809A (zh) * 2020-07-15 2020-11-06 闫慧强 一种基于tcn的汛期气候趋势预测系统

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
JIANJUN LEI ET AL.: "SDN-Based Centralized Downlink Scheduling with Multiple APs Cooperation in WLANs", 《WIRELESS COMMUNICATIONS AND MOBILE COMPUTING》 *
JIANJUN LEI ET AL.: "SDN-Based Centralized Downlink Scheduling with Multiple APs Cooperation in WLANs", 《WIRELESS COMMUNICATIONS AND MOBILE COMPUTING》, 27 December 2019 (2019-12-27), pages 1 - 19 *
PATRÍCIA DE OLIVEIRA E LUCAS ET AL.: "Reference evapotranspiration time series forecasting with ensemble of convolutional neural networks", 《COMPUTERS AND ELECTRONICS IN AGRICULTURE》 *
PATRÍCIA DE OLIVEIRA E LUCAS ET AL.: "Reference evapotranspiration time series forecasting with ensemble of convolutional neural networks", 《COMPUTERS AND ELECTRONICS IN AGRICULTURE》, vol. 177, 31 October 2020 (2020-10-31), pages 1 - 15 *
刘文杰等: "基于时域卷积网络精细化光伏发电功率预测", 《供用电》 *
刘文杰等: "基于时域卷积网络精细化光伏发电功率预测", 《供用电》, no. 10, 5 October 2020 (2020-10-05), pages 76 - 82 *
王晓辉: "基于主成分分析法评价湛江市中小型水库丰水期水质状况", 《广东水利水电》 *
王晓辉: "基于主成分分析法评价湛江市中小型水库丰水期水质状况", 《广东水利水电》, no. 10, 20 October 2016 (2016-10-20), pages 9 - 12 *
郑颖颖: "基于深度学习的时间序列预测研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》 *
郑颖颖: "基于深度学习的时间序列预测研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》, no. 3, 15 March 2020 (2020-03-15), pages 123 - 283 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051817A (zh) * 2021-03-19 2021-06-29 上海海洋大学 一种基于深度学习的海浪高度预测方法及其应用
CN113051817B (zh) * 2021-03-19 2024-04-12 上海海洋大学 一种基于深度学习的海浪高度预测方法及其应用
CN113240359A (zh) * 2021-03-30 2021-08-10 中国科学技术大学 一种应对外界重大变动的需求预测方法
CN113240359B (zh) * 2021-03-30 2024-02-23 中国科学技术大学 一种应对外界重大变动的需求预测方法
CN113298286A (zh) * 2021-03-31 2021-08-24 捷佳润科技集团股份有限公司 一种基于机器学习的火龙果上市时间预测的方法
CN113111471A (zh) * 2021-04-14 2021-07-13 武汉行健道信息技术有限公司 一种基于人工智能和物联网的城市智慧水务数字化智能管理系统
CN113111471B (zh) * 2021-04-14 2022-02-22 湖南华埔信息产业有限公司 基于人工智能和物联网的城市智慧水务数字化管理系统
CN114565149A (zh) * 2022-02-23 2022-05-31 重庆邮电大学 一种基于cga融合模型的时间序列数据预测方法、装置及计算机设备
CN114372538A (zh) * 2022-03-22 2022-04-19 中国海洋大学 拖曳式传感器阵列中尺度涡时间序列卷积分类方法
CN114757589A (zh) * 2022-06-14 2022-07-15 深圳市拓安信计控仪表有限公司 数据处理方法、服务器及存储介质
CN114757589B (zh) * 2022-06-14 2022-10-11 深圳市拓安信计控仪表有限公司 数据处理方法、服务器及存储介质

Also Published As

Publication number Publication date
CN112488392B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN112488392B (zh) 一种基于机器学习的智慧水务日用水量预测方法
CN111210093B (zh) 基于大数据的日用水量预测方法
Roman et al. Backpropagation and recurrent neural networks in financial analysis of multiple stock market returns
CN108009673A (zh) 基于深度学习的新型负荷预测方法和装置
CN106156809A (zh) 用于更新分类模型的方法及装置
CN107153874A (zh) 水质预测方法及系统
CN112054943B (zh) 一种移动网络基站流量预测方法
Tasche Bayesian estimation of probabilities of default for low default portfolios
Ayvaz et al. An integrated LSTM neural networks approach to sustainable balanced scorecard-based early warning system
Dong et al. A time series attention mechanism based model for tourism demand forecasting
CN109492863A (zh) 金融单证的自动生成方法及装置
Li et al. GMM-HMM-based medium-and long-term multi-wind farm correlated power output time series generation method
CN114648156A (zh) 一种基于卷积神经网络的时间序列负荷预测方法
KR101927898B1 (ko) 기후변화의 불확실성을 고려하여 실물옵션분석을 기반으로 한 의사결정나무 구축 방법
CN114338416B (zh) 一种时空多指标预测方法、装置和存储介质
CN109670582A (zh) 一种全定点化神经网络的设计方法
Shen On modeling and forecasting time series of smooth curves
Keating et al. Using decision analysis to determine the feasibility of a conservation translocation
CN115018190A (zh) 逾期行为预测方法及装置、存储介质及电子设备
Shojaei et al. Extending the Portfolio and Strategic Planning Horizon by Stochastic Forecasting of Unknown Future Projects
Siddiqui et al. Addressing an uncertain future using scenario analysis
Hassannezhad et al. Dynamic modelling of relationships in complex service design systems
Zaidi et al. Employment transitions and earnings dynamics in the SAGE model
Asih et al. Cost-volume-profit analysis for uncertain capacity planning: A case study paper
CN109800923A (zh) 一种分散式风力发电短期功率组合预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230724

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Dayu Chuangfu Technology Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230822

Address after: Room 602, Building 1, Agile Plaza Phase 1, No. 3 Xin'an Third Road, Duanzhou District, Zhaoqing City, Guangdong Province, 526040

Patentee after: Zhaoqing Heyi Network Technology Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou Dayu Chuangfu Technology Co.,Ltd.