CN111507507A - 基于大数据的月用水量预测方法 - Google Patents
基于大数据的月用水量预测方法 Download PDFInfo
- Publication number
- CN111507507A CN111507507A CN202010210793.5A CN202010210793A CN111507507A CN 111507507 A CN111507507 A CN 111507507A CN 202010210793 A CN202010210793 A CN 202010210793A CN 111507507 A CN111507507 A CN 111507507A
- Authority
- CN
- China
- Prior art keywords
- monthly
- prediction
- water
- test
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 171
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000012417 linear regression Methods 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 14
- 238000012706 support-vector machine Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 241000196324 Embryophyta Species 0.000 description 5
- 238000013439 planning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及大数据技术领域,公开了一种基于大数据的月用水量预测方法,包括步骤:S1:对月用水数据集进行预处理操作;S2:根据预处理操作后的月用水数据集的特征判断数据集类型,以提取满足月总水量类型的特征和月特征条件水量类型的特征的月用水数据集;S3:对满足步骤S2中条件的月用水数据集进行特征工程操作;S4:将步骤S3之后的月用水数据集划分成特征集x和标签集y,再将特征集划分成训练集x_train和测试集x_test;将标签集划分成训练集y_train和测试集y_test;S5:采用多个预设算法对步骤S4中划分后训练集和测试集进行建模并预测,再将多个预设算法结合y_test进行组合预测,以预测得到下一个月的用水量。本发明预测结果准确率较高,预测结果稳定。
Description
技术领域
本发明涉及大数据应用技术领域,特别涉及一种基于大数据的月用水量预 测方法。
背景技术
在任何短期或者长期的管理计划中,城市需水量预测都是至关重要的一个 环节。随着人口的增长、全球变暖,在经济快速发展的城市,对用水的需求变 大,并且现在水资源匮乏,因此现在许多国家都面临水资源断缺的问题,所以 水资源的规划和管理很重要。城市用水量预测在城市建设规划、输配水系统的 优化调度中具有重要的作用,气候、季节、长节假日、城市建设等对中长期用 水量影响比较大。水需求预测对于帮助决策者做出更好的决策并启发决策者进 行水资源分配以最大化长期价值和可用资源的可靠性所需的资本投资非常重 要。现阶段有很多月用水量预测的方法,主要分为两大类:直接推测和模型预测。
直接推测包括:
(1)单位人口综合用水量指标法:根据地区历年人均综合用水量的情况,并 参照同类城市人均用水量指标,确定本地区单位人口综合用水指标。
(2)单位用地面积综合用水量指标法:根据地区水资源和地区用水情况,确 定单位用地面积用水指标。
(3)分类用水定额指标法:根据《城市给水工程规划规范》及当地水资源状 况,确定用水标准。
直接推测法考虑的数据较少,一般为相似城市的用水状况或工程规划规范, 为一个固定参考值。但是不同城市的规模大小不同,用户性质不同,地域不同, 自然条件不同,用水习惯不同,用水量的差异也是较大的。所以直接推测法的 准确度较低,一般用于参考数据较少,适用于没有历史数据的新区规划用水量 预测。
模型预测包括:
随着大数据、机器学习、人工智能的发展,大家在模型预测用水量方面有 了较多的探索,比较常见的有以下几种方式:
(1)单算法预测:利用机器学习、人工智能中的某种算法单独的对用水量进 行预测,常用的算法有线性回归、灰色系统理论、贝叶斯、神经网络等。
(2)组合模型预测:现有的组合模型预测多是先用多种算法对用水量进行预 测,然后按照一定的权重对第一步预测结果进行加权平均,再得到最终结果。
单算法预测受限于训练数据的多少,预测结果不稳定,每种算法都有自身 的缺陷,准确度较低。加权平均的组合模型预测难以确认每种算法最优的权重。 预测结果也有较大误差。
总之,现有的预测方法存在预测准确度较低,稳定性低的问题。
发明内容
本发明提出一种基于大数据的月用水量预测方法,解决现有技术中存在的 上述技术问题。
本发明的一种基于大数据的月用水量预测方法,包括步骤:
S1:对月用水数据集进行预处理操作;
S2:根据预处理操作后的月用水数据集的特征判断数据集类型,以提取满 足月总水量类型的特征和月特征条件水量类型的特征的月用水数据集;
S3:对满足步骤S2中条件的月用水数据集进行特征工程操作;
S4:将步骤S3之后的月用水数据集划分成特征集x和标签集y,再将特征 集划分成训练集x_train和测试集x_test;将标签集划分成训练集y_train和测试 集y_test;
S5:采用多个预设算法对步骤S4中划分后训练集和测试集进行建模并预测, 且保证多次预测的预测结果的均方误差最小,并得到各个预测结果的相关系数 由小到大的排列顺序,再将多个预设算法按所述由小到大的顺序结合y_test进行 组合预测,以预测得到下一个月的用水量。
其中,所述步骤S1中预处理操作包括:异常值处理、缺失值处理、时间特 征提取及选取均匀数据。
其中,所述步骤S2包括:
判断水表口径特征是否存在于月用水数据集中;
若存在,则月用水数据集为满足月特征条件水量类型特征的数据集;
若不存在,则判断月用水数据集中是否有且仅有年和月的特征;
若有,则月用水数据集为满足月总水量类型特征的数据集,否则,报错, 提示检查导入月用水数据集类型是否正确。
其中,所述步骤S4中,训练集与测试集的比例为75%:25%。
其中,所述多个预设算法包括:KNN回归算法、线性回归算法、回归树算 法、支持向量机回归算法和BP神经网络算法。
其中,所述步骤S5包括步骤:
S501:采用KNN回归算法、线性回归算法、回归树算法、支持向量机回归 算法和BP神经网络算法分别针对所述训练集和测试集建立预测模型并预测,且 对于每个算法,多次预测的预测结果的均方误差最小时,得到各预测结果的相 关系数;
S502:将上述算法按相关系数由小到大排列为:线性回归算法、KNN回归 算法、支持向量机回归算法、BP神经网络算法和回归树算法;
S503:采用线性回归算法根据所述训练集和测试集构建预测模型并预测得 到第一预测结果;
S504:将第一预测结果与所述y_test求平均值,将该平均值作用新特征加 入当前的训练集和测试集;
S505:采用KNN回归算法根据步骤S504得到的训练集和测试集构建预测 模型并预测得到第二预测结果;
S506:将第二预测结果与所述y_test求平均值,将该平均值作用新特征加 入当前的训练集和测试集;
S507:采用支持向量机回归算法根据步骤S506得到的训练集和测试集构建 预测模型并预测得到第三预测结果;
S508:将第三预测结果与所述y_test求平均值,将该平均值作用新特征加 入当前的训练集和测试集;
S509:采用BP神经网络算法根据步骤S508得到的训练集和测试集构建预 测模型并预测得到第四预测结果;
S510:将第四预测结果与所述y_test求平均值,将该平均值作用新特征加 入当前的训练集和测试集;
S511:采用回归树算法根据步骤S510得到的训练集和测试集构建预测模型 并预测得到第五预测结果,所述第五预测结果即为所述下一个月的用水量。
其中,所述步骤S5之后还包括,对预测的下一个月的用水量进行反归一化 操作。
本发明的基于大数据的月用水量预测方法,对月用水数据集进行预处理, 增加相关特征,并将月用水数据集划分成训练集和测试集,采用多种算法单独 预测,且每个算法多次预测,保证多次预测结果的均分误差尽量小,并根据单 独预测的结果的相关系数按由小到大的顺序进行组合预测,通过训练集训练模 型,预测结果和测试集数据比较,能够得到较高准确率的组合预测模型,使得 预测结果准确率较高,误差更小,预测结果稳定。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种的基于大数据的月用水量预测方法流程图;
图2为本实施例的方法中数据预处理均匀获取数据的方案示例图;
图3为本实施例的方法中特征工程操作示例图;
图4为本实施例的方法中构建组合预测模型并预测的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例的基于大数据的月用水量预测方法如图1所示,包括:
步骤S1,对月用水数据集进行预处理操作,其中,月用水数据集中一行数 据包括:水表口径、用水性质、时间和月用水量等数据项。
步骤S2,根据预处理操作后的月用水数据集的特征判断数据集类型,以提 取满足月总水量类型的特征和月特征条件水量类型的特征的月用水数据集。
步骤S3,对满足步骤S2中条件的月用水数据集进行特征工程操作,增加与 月用水数据集相关的特征,能够提高预测的准确性。
步骤S4,将步骤S3之后的月用水数据集划分成特征集x和标签集y,再将 特征集划分成训练集x_train和测试集x_test;将标签集划分成训练集y_train和 测试集y_test。
步骤S5,采用多个预设算法对步骤S4中划分后训练集和测试集进行建模并 预测,且保证多次预测的预测结果的均方误差(Mean Square Error,MSE)最小, 并得到各个预测结果的相关系数(R-Square)由小到大的排列顺序,再将多个预 设算法按所述由小到大的顺序结合y_test进行组合预测,以预测得到下一个月的 用水量。MSE和R-Square是预测结果的评价指标,MSE越小,结果越准确。
本发明的基于大数据的月用水量预测方法,对月用水数据集进行预处理, 增加相关特征,并将月用水数据集划分成训练集和测试集,采用多种算法单独 预测,且每个算法多次预测,(通过调整算法参数进行多次训练并预测),保证 多次预测的预测结果的均分误差尽量小,并根据单独预测的结果的相关系数按 由小到大的顺序进行组合预测,通过训练集训练模型,预测结果和测试集数据 比较,能够得到较高准确率的组合预测模型,使得预测结果准确率较高,误差 更小,预测结果稳定。
步骤S1中,预处理操作包括以下步骤:
1)异常值处理:针对数据中存在的异常值(值为0或负数),采用删除异 常值所在的行的操作,由于本数据异常值较少,并不影响月用水数据集整体质 量,不会对月用水数据集和最终预测结果产生影响。
2)缺失值处理;对于缺失值,本实施例采取线性插值法对缺失值做插值处 理,即选取最近的两个正常值做线性平均后插入到空缺中。这么做的原因是因 为由于月用水数据集中的数据(即每一条用水量数据)按时间序列排序的,所 以相邻的月份有相似的用水量。
3)时间特征提取:将月用水数据集中的月份转换成时间格式并设为索引, 然后从索引中提取年和月等时间特征并加入月用水数据集形成新特征。原始的 月用水数据集中的时间格式为2020/02/10,把其中的年份和月份提取出来分别作 为一个特征。
4)选取均匀数据:由于月用水数据集中数量冗余且参差不齐,为了提升特 征相关性并简化数据,在不影响预测效果的前提下,本实施例提出一种新的数 据集精简方法,按时间顺序滑动的均匀取数据,再整合成新的数据集。
具体地,如图2所示,根据时间窗口(12个月)进行滑动,称之为主窗口。 其中,滑动到每一个主窗口时,每一个主窗口中还包含若干个次级窗口(在本 实施例中次级窗口为“水表口径”特征),每一个次级窗口又包含着若干个三级 窗口(在实施例中三级窗口为“用水性质”特征),其中每一级窗口代表着一个 特征,每一个子窗口代表着所在级数窗口的特征共有多少不同的类型,具体的, 当滑动到一个主窗口时,算法自动定位到次级窗口中的第一个子窗口,接着顺 延到三级窗口中的第一个子窗口,当算法检测到没有下一个n级窗口时,算法 开始从n-1级窗口横向滑动,滑动的方式可以自定义(在本实施例中设置为每一个子窗口取10条数据),当n-1级窗口全部滑动完成,就进行n-2级窗口的横向 滑动,以此类推,直到主窗口的横向滑动全部完成,以形成新的数据集,即预 处理操作后的月用水数据集。
步骤S2中,具体来说,在算法中添加一个条件,如果条件满足月总水量类 型的特征,那么就属于月总水量预测,如果条件满足月特征条件水量类型的特 征,那么就属于月特征条件水量预测,如果两者都不满足,则报错。
本实施例可以接受两种数据类型的数据集,第一种是水厂月总水量数据集, 原始特征为时间特征“年”和,“月”,标签为用水量;第二种是根据特征汇总 的月用水量数据集,原始特征为“水表口径”、“用水性质”、“年”和“月”,标 签为用水量。为了使水厂更全面的预测各种数据类型的数据,在本步骤中设计 了一个条件选项卡,一级判断条件为“水表口径”特征是否存在于数据集中, 如果存在,则数据集为第二种类型的数据集,即满足月特征条件水量类型的特 征,如不存在,进入二级判断条件,二级判断条件为数据集中是否有且仅有“年”, “月”特征,如果是,则数据集为第一种类型数据集,即满足月总水量类型的 特征,如果否,则报错,提示检查导入数据集类型是否正确。
步骤S3中,对数据集进行特征工程(Feature Engineer)操作,特征工程操 作内容如下:
1)用水性质特征离散处理:由于用水性质特征是字符串形式的,而算法不 能训练文本形式的特征,所以将用水性质特征进行One-Hot离散处理,处理成 稀疏矩阵的形式。具体采用Pandas包下的get_dummies()函数,该函数的思想是: 首先分出要处理的特征一共有多少个子类型,设子类型数量为n,从而稀疏成子 类型数量n×n的零矩阵,每一行数据的该特征属于哪个子特征类型,就将对应 的子特征类型所在的列的0改为1。
2)水表口径特征和水量强扭成相关:为了使水表口径与水量成相关,本实 施例在不影响预测效果的条件下,将水表口径与水量强扭成相关,具体地,将 “水表口径”特征和标签值“水量”进行数据集归一化,本实施例中可使用了 最大最小归一化或log归一化,计算公式分别如公式(1)和公式(2)所示,公 式(1)为最大最小归一化公式,公式(2)为log归一化公式。
XScaled=log10(X) (2)
式中XScaled为归一化后的值,X为当前水量值,Xmax和Xmin分别为特征X的 最大值与最小值。
3)构建新特征:由于原始月用水量数据集中特征数量较少,所以本实施例 利用原始数据特征来构建新特征,以增加数据集维数,从而提高预测准确性, 利用中位数,平均值等运算组合新的特征。具体地,如图3所示,根据原始月 用水量数据集的特征“用水性质”,“水表口径”,时间特征“月”进行新特征构 建,用到平均值,中位数这两个求值方法。该构建新特征的思想对这三个特征 互相组合,对剩下的特征做中位数和平均值的操作,以及也这三个特征不做组 合,即一个特征就是一个条件,分别求剩下的特征在这个条件下的中位数和平 均值。例如:在“用水性质”和“月”相同的条件下,求“水表口径”的中位 数,并作为一个新特征加入数据集。在“用水性质”和“月”相同的条件下, 求“水表口径”的平均值,并作为另一个新特征加入数据集;在“用水性质” 一定的条件下,求“水表口径”的中位数;在“用水性质”一定的条件下,求 “水表口径”的平均值。
步骤S4中,对数据集进行划分操作,将数据集按比例额75%:25%划分为 训练集与测试集,具体地,分两级划分数据集:第一级划分为划分出特征集x 和标签集y(即要预测的值),在第一级划分的基础上,第二级划分为划分出训 练集x_train和y_train,测试集x_test和y_test,即(x_train+y_train):(x_test+ y_test)=75%:25%,。
步骤S5中,构建最终的预测模型方案,根据历史月用水数据集来构建预测 模型,模型使用了KNN回归算法(k-Nearest Neighbor Regression),线性回归算 法(LinearRegression),回归树算法(Regression Tree),支持向量机回归算法 (Support VectorRegression)和BP神经网络算法(BP Neural Network)来预测 未来一段时间内的月用水量,其中KNN回归算法,线性回归算法和支持向量机 回归算法是传统的回归算法,回归树算法可以看作是树模型,而BP神经网络算 法是深度学习中的神经网络。受到集成学习的启发,本实施例改进了Stacking 方法,使用一种新的集成学习模型来预测月用水量。模型评价标准使用了 R-Square和MSE。具体地步骤如下:
S501:采用KNN回归算法、线性回归算法、回归树算法、支持向量机回归 算法和BP神经网络算法分别针对所述训练集和测试集建立预测模型并预测,且 对于每个算法,多次预测的预测结果的均方误差最小时,得到各预测结果的相 关系数;
S502:将上述算法按相关系数由小到大排列为:线性回归算法、KNN回归 算法、支持向量机回归算法、BP神经网络算法和回归树算法;
S503:采用线性回归算法根据所述训练集和测试集构建预测模型并预测得 到第一预测结果;
S504:将第一预测结果与所述y_test求平均值,将该平均值作用新特征加 入当前的训练集和测试集;
S505:采用KNN回归算法根据步骤S504得到的训练集和测试集构建预测 模型并预测得到第二预测结果;
S506:将第二预测结果与所述y_test求平均值,将该平均值作用新特征加 入当前的训练集和测试集;
S507:采用支持向量机回归算法根据步骤S506得到的训练集和测试集构建 预测模型并预测得到第三预测结果;
S508:将第三预测结果与所述y_test求平均值,将该平均值作用新特征加 入当前的训练集和测试集;
S509:采用BP神经网络算法根据步骤S508得到的训练集和测试集构建预 测模型并预测得到第四预测结果;
S510:将第四预测结果与所述y_test求平均值,将该平均值作用新特征加 入当前的训练集和测试集;
S511:采用回归树算法根据步骤S510得到的训练集和测试集构建预测模型 并预测得到第五预测结果,所述第五预测结果即为所述下一个月的用水量。
如图4所示,结合集成学习中的boosting方法,对集成学习中的stacking模 型做了改进。具体的,先用S4划分的训练集和测试集用算法1构建的预测模型 进行训练和预测,得到预测结果1,再将预测结果1与y_test求平均值,把得到 的平均值加入数据集当作新特征1,从而得到新数据集,再用算法2构建的预测 模型进行训练和预测,得到预测结果2,再将预测结果2与y_test求平均值,把 得到的平均值加入新数据集当作新特征2,如此循环,最后得出下一个月用水量 的预测结果。模型使用了KNN回归算法(k-Nearest NeighborRegression),线性 回归算法(Linear Regression),回归树算法(Regression Tree),支持向量机回归 算法(Support Vector Regression)和BP神经网络算法(BP Neural Network)来 预测未来一段时间内的月用水量。
本实施例中,先用以上这五个算法分别搭建预测模型,得出各自的评价标 准R-Square和MSE。将这五个算法的R-Square按从小到大排列,再用五种算法 的R-square从小到大的顺序为线性回归算法、KNN回归算法、支持向量机回归 算法、BP神经网络算法和回归树算法,这个顺序也就是图4中模型算法1到算 法5的顺序。这样做的目的是为了保证预测最准确的算法在最后一步,也就是 最终预测算法,使该模型的预测结果更加准确。
步骤S5之后还包括,对预测的下一个月的用水量进行反归一化操作,上述 步骤S5之后输出的值为归一化之后的预测用水量值,为了方便易懂,还需要反 归一化成正常值,计算公式如公式(3)所示,
式中,YScaled为预测得到的归一化过的值,Y为反归一化得到的值。通过采用 利用提升特征相关性的模型集成,从而保证模型的有效性,最终输出精准的预 测结果,从而达到水厂按预测合理调度水量,节省开销的目的,为水厂提供更 加精准的预测服务。
本发明提供的智慧水务场景下基于大数据的月用水预测方法,通过采用利 用提升特征相关性的模型集成,从而保证模型的有效性,最终输出精准的预测 结果,从而达到水厂按预测调度水量,节省开销的目的。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。
Claims (7)
1.一种基于大数据的月用水量预测方法,其特征在于,包括步骤:
S1:对月用水数据集进行预处理操作;
S2:根据预处理操作后的月用水数据集的特征判断数据集类型,以提取满足月总水量类型的特征和月特征条件水量类型的特征的月用水数据集;
S3:对满足步骤S2中条件的月用水数据集进行特征工程操作;
S4:将步骤S3之后的月用水数据集划分成特征集x和标签集y,再将特征集划分成训练集x_train和测试集x_test;将标签集划分成训练集y_train和测试集y_test;
S5:采用多个预设算法对步骤S4中划分后训练集和测试集进行建模并预测,且保证多次预测的预测结果的均方误差最小,并得到各个预测结果的相关系数由小到大的排列顺序,再将多个预设算法按所述由小到大的顺序结合y_test进行组合预测,以预测得到下一个月的用水量。
2.如权利要求1所述的基于大数据的月用水量预测方法,其特征在于,所述步骤S1中预处理操作包括:异常值处理、缺失值处理、时间特征提取及选取均匀数据。
3.如权利要求1所述的基于大数据的月用水量预测方法,其特征在于,所述步骤S2包括:
判断水表口径特征是否存在于月用水数据集中;
若存在,则月用水数据集为满足月特征条件水量类型特征的数据集;
若不存在,则判断月用水数据集中是否有且仅有年和月的特征;
若有,则月用水数据集为满足月总水量类型特征的数据集,否则,报错,提示检查导入月用水数据集类型是否正确。
4.如权利要求1所述的基于大数据的月用水量预测方法,其特征在于,所述步骤S4中,训练集与测试集的比例为75%:25%。
5.如权利要求1所述的基于大数据的月用水量预测方法,其特征在于,所述多个预设算法包括:KNN回归算法、线性回归算法、回归树算法、支持向量机回归算法和BP神经网络算法。
6.如权利要求5所述的基于大数据的月用水量预测方法,其特征在于,所述步骤S5包括步骤:
S501:采用KNN回归算法、线性回归算法、回归树算法、支持向量机回归算法和BP神经网络算法分别针对所述训练集和测试集建立预测模型并预测,且对于每个算法,多次预测的预测结果的均方误差最小时,得到各预测结果的相关系数;
S502:将上述算法按相关系数由小到大排列为:线性回归算法、KNN回归算法、支持向量机回归算法、BP神经网络算法和回归树算法;
S503:采用线性回归算法根据所述训练集和测试集构建预测模型并预测得到第一预测结果;
S504:将第一预测结果与所述y_test求平均值,将该平均值作用新特征加入当前的训练集和测试集;
S505:采用KNN回归算法根据步骤S504得到的训练集和测试集构建预测模型并预测得到第二预测结果;
S506:将第二预测结果与所述y_test求平均值,将该平均值作用新特征加入当前的训练集和测试集;
S507:采用支持向量机回归算法根据步骤S506得到的训练集和测试集构建预测模型并预测得到第三预测结果;
S508:将第三预测结果与所述y_test求平均值,将该平均值作用新特征加入当前的训练集和测试集;
S509:采用BP神经网络算法根据步骤S508得到的训练集和测试集构建预测模型并预测得到第四预测结果;
S510:将第四预测结果与所述y_test求平均值,将该平均值作用新特征加入当前的训练集和测试集;
S511:采用回归树算法根据步骤S510得到的训练集和测试集构建预测模型并预测得到第五预测结果,所述第五预测结果即为所述下一个月的用水量。
7.如权利要求1~6中任一项所述的基于大数据的月用水量预测方法,其特征在于,所述步骤S5之后还包括,对预测的下一个月的用水量进行反归一化操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010210793.5A CN111507507B (zh) | 2020-03-24 | 2020-03-24 | 基于大数据的月用水量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010210793.5A CN111507507B (zh) | 2020-03-24 | 2020-03-24 | 基于大数据的月用水量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507507A true CN111507507A (zh) | 2020-08-07 |
CN111507507B CN111507507B (zh) | 2023-04-18 |
Family
ID=71863896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010210793.5A Active CN111507507B (zh) | 2020-03-24 | 2020-03-24 | 基于大数据的月用水量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507507B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270614A (zh) * | 2020-09-29 | 2021-01-26 | 广东工业大学 | 一种面向制造企业全系统优化设计的设计资源大数据建模方法 |
CN115293464A (zh) * | 2022-10-09 | 2022-11-04 | 农业农村部环境保护科研监测所 | 一种奶牛场生产全过程水量预测方法 |
CN117094516A (zh) * | 2023-08-24 | 2023-11-21 | 中国水利水电科学研究院 | 一种基于固定效应模型的城市群月生活需水量预测方法 |
Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108601A (ja) * | 2001-09-26 | 2003-04-11 | Nec System Technologies Ltd | サブウィンドウ−マルチフレームによる効率的な段階的検索システムと方法 |
US20130318016A1 (en) * | 2012-05-23 | 2013-11-28 | King Fahd University Of Petroleum And Minerals | Method of predicting gas composition |
US20150269254A1 (en) * | 2014-03-21 | 2015-09-24 | Sap Ag | Simplified Hierarchy Definition for Multidimensional Data Analysis |
CN105447519A (zh) * | 2015-11-20 | 2016-03-30 | 携程计算机技术(上海)有限公司 | 基于特征选择的模型检测方法 |
CN106845731A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种基于多模型融合的潜在换机用户发现方法 |
CN106909933A (zh) * | 2017-01-18 | 2017-06-30 | 南京邮电大学 | 一种三阶段多视角特征融合的窃电分类预测方法 |
CN107301221A (zh) * | 2017-06-16 | 2017-10-27 | 华南理工大学 | 一种多特征维度堆融合的数据挖掘方法 |
CN108090832A (zh) * | 2017-12-19 | 2018-05-29 | 浙江氢创投资有限公司 | 一种基于网络分析和多模型融合的股市投资决策方法 |
CN108710905A (zh) * | 2018-05-10 | 2018-10-26 | 华中科技大学 | 一种基于多模型联合的备件数量预测方法和系统 |
CN109255505A (zh) * | 2018-11-20 | 2019-01-22 | 国网辽宁省电力有限公司经济技术研究院 | 一种多模型融合神经网络的短期负荷预测方法 |
CN109359674A (zh) * | 2018-09-27 | 2019-02-19 | 智庭(北京)智能科技有限公司 | 一种基于多模型blending的智能锁异常检测方法 |
CN109636007A (zh) * | 2018-11-20 | 2019-04-16 | 佛山科学技术学院 | 一种基于大数据的用水量预测方法及装置 |
US20190114509A1 (en) * | 2016-04-29 | 2019-04-18 | Microsoft Corporation | Ensemble predictor |
CN109741175A (zh) * | 2018-12-28 | 2019-05-10 | 上海点融信息科技有限责任公司 | 基于人工智能对分期购车用户的再授信评估方法和设备 |
CN109784561A (zh) * | 2019-01-15 | 2019-05-21 | 北京科技大学 | 一种基于集成学习的浓密机底流浓度预测方法 |
CN110222416A (zh) * | 2019-06-05 | 2019-09-10 | 重庆邮电大学 | 一种基于大数据的工业蒸汽量预测方法 |
US20190303795A1 (en) * | 2018-03-29 | 2019-10-03 | NEC Laboratories Europe GmbH | Method and system for model integration in ensemble learning |
CN110443420A (zh) * | 2019-08-05 | 2019-11-12 | 山东农业大学 | 一种基于机器学习的作物产量预测方法 |
CN110472778A (zh) * | 2019-07-29 | 2019-11-19 | 上海电力大学 | 一种基于Blending集成学习的短期负荷预测方法 |
CN110503251A (zh) * | 2019-08-12 | 2019-11-26 | 江苏方天电力技术有限公司 | 一种基于Stacking算法的非节假日负荷预测方法 |
CN110516818A (zh) * | 2019-05-13 | 2019-11-29 | 南京江行联加智能科技有限公司 | 一种基于集成学习技术的高维度数据预测方法 |
CN110555717A (zh) * | 2019-07-29 | 2019-12-10 | 华南理工大学 | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 |
-
2020
- 2020-03-24 CN CN202010210793.5A patent/CN111507507B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108601A (ja) * | 2001-09-26 | 2003-04-11 | Nec System Technologies Ltd | サブウィンドウ−マルチフレームによる効率的な段階的検索システムと方法 |
US20130318016A1 (en) * | 2012-05-23 | 2013-11-28 | King Fahd University Of Petroleum And Minerals | Method of predicting gas composition |
US20150269254A1 (en) * | 2014-03-21 | 2015-09-24 | Sap Ag | Simplified Hierarchy Definition for Multidimensional Data Analysis |
CN105447519A (zh) * | 2015-11-20 | 2016-03-30 | 携程计算机技术(上海)有限公司 | 基于特征选择的模型检测方法 |
US20190114509A1 (en) * | 2016-04-29 | 2019-04-18 | Microsoft Corporation | Ensemble predictor |
CN106909933A (zh) * | 2017-01-18 | 2017-06-30 | 南京邮电大学 | 一种三阶段多视角特征融合的窃电分类预测方法 |
CN106845731A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种基于多模型融合的潜在换机用户发现方法 |
CN107301221A (zh) * | 2017-06-16 | 2017-10-27 | 华南理工大学 | 一种多特征维度堆融合的数据挖掘方法 |
CN108090832A (zh) * | 2017-12-19 | 2018-05-29 | 浙江氢创投资有限公司 | 一种基于网络分析和多模型融合的股市投资决策方法 |
US20190303795A1 (en) * | 2018-03-29 | 2019-10-03 | NEC Laboratories Europe GmbH | Method and system for model integration in ensemble learning |
CN108710905A (zh) * | 2018-05-10 | 2018-10-26 | 华中科技大学 | 一种基于多模型联合的备件数量预测方法和系统 |
CN109359674A (zh) * | 2018-09-27 | 2019-02-19 | 智庭(北京)智能科技有限公司 | 一种基于多模型blending的智能锁异常检测方法 |
CN109636007A (zh) * | 2018-11-20 | 2019-04-16 | 佛山科学技术学院 | 一种基于大数据的用水量预测方法及装置 |
CN109255505A (zh) * | 2018-11-20 | 2019-01-22 | 国网辽宁省电力有限公司经济技术研究院 | 一种多模型融合神经网络的短期负荷预测方法 |
CN109741175A (zh) * | 2018-12-28 | 2019-05-10 | 上海点融信息科技有限责任公司 | 基于人工智能对分期购车用户的再授信评估方法和设备 |
CN109784561A (zh) * | 2019-01-15 | 2019-05-21 | 北京科技大学 | 一种基于集成学习的浓密机底流浓度预测方法 |
CN110516818A (zh) * | 2019-05-13 | 2019-11-29 | 南京江行联加智能科技有限公司 | 一种基于集成学习技术的高维度数据预测方法 |
CN110222416A (zh) * | 2019-06-05 | 2019-09-10 | 重庆邮电大学 | 一种基于大数据的工业蒸汽量预测方法 |
CN110472778A (zh) * | 2019-07-29 | 2019-11-19 | 上海电力大学 | 一种基于Blending集成学习的短期负荷预测方法 |
CN110555717A (zh) * | 2019-07-29 | 2019-12-10 | 华南理工大学 | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 |
CN110443420A (zh) * | 2019-08-05 | 2019-11-12 | 山东农业大学 | 一种基于机器学习的作物产量预测方法 |
CN110503251A (zh) * | 2019-08-12 | 2019-11-26 | 江苏方天电力技术有限公司 | 一种基于Stacking算法的非节假日负荷预测方法 |
Non-Patent Citations (6)
Title |
---|
周末;金敏;: "多算法多模型与在线第二次学习结合的短期电力负荷预测方法" * |
徐伟杰;武中臣;朱香平;张江;凌宗成;倪宇恒;郭恺琛;: "基于光谱融合的火星表面相关矿物分类方法研究" * |
李瑶琦;周鑫;高卫益;柏志安;耿娜;: "基于Stacking集成学习的急诊患者到达预测" * |
杨博文;曹布阳;: "基于集成学习的房价预测模型" * |
田德红;何建敏;张保强;: "基于NRS-SVM模型的航空弹药消耗预测研究" * |
贺波;马静;高赫余;: "基于多粒度特征和XGBoost模型的城市日供水量预测" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270614A (zh) * | 2020-09-29 | 2021-01-26 | 广东工业大学 | 一种面向制造企业全系统优化设计的设计资源大数据建模方法 |
CN112270614B (zh) * | 2020-09-29 | 2024-05-10 | 广东工业大学 | 一种面向制造企业全系统优化设计的设计资源大数据建模方法 |
CN115293464A (zh) * | 2022-10-09 | 2022-11-04 | 农业农村部环境保护科研监测所 | 一种奶牛场生产全过程水量预测方法 |
CN117094516A (zh) * | 2023-08-24 | 2023-11-21 | 中国水利水电科学研究院 | 一种基于固定效应模型的城市群月生活需水量预测方法 |
CN117094516B (zh) * | 2023-08-24 | 2024-02-23 | 中国水利水电科学研究院 | 一种基于固定效应模型的城市群月生活需水量预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111507507B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210093B (zh) | 基于大数据的日用水量预测方法 | |
CN111507507B (zh) | 基于大数据的月用水量预测方法 | |
CN105117810A (zh) | 一种阶梯电价机制下居民用电中期负载预测方法 | |
CN110705743A (zh) | 一种基于长短期记忆神经网络的新能源消纳电量预测方法 | |
CN113468811B (zh) | 含新能源机组的电网备用容量概率化动态评估方法及系统 | |
CN112149890A (zh) | 基于用户用能标签的综合能源负荷预测方法及系统 | |
CN111539844B (zh) | 一种基于k-l信息量和arima误差修正的月度电量预测方法 | |
CN111178957B (zh) | 一种用电客户电量突增预警的方法 | |
CN109598408A (zh) | 一种兼顾用水公平性和重要性的年水量调度计划编制方法 | |
Ciferri et al. | Integration and convergence in European electricity markets | |
Liu | FDI and employment by industry: A co-integration study | |
CN105224997A (zh) | 一种含有多种不确定性因素影响的规划负荷预测方法 | |
CN112465266A (zh) | 一种母线负荷预测准确率分析方法、装置及计算机设备 | |
CN101739614A (zh) | 层级组合预测通信业务的方法 | |
US20240256746A1 (en) | Scheduling method and system for operation of reservoirs to recharge freshwater for repelling saltwater intrusion under changing conditions | |
CN115456406A (zh) | 一种综合能源系统的评估方法、装置、设备以及存储介质 | |
CN110135652B (zh) | 一种长期汛期径流预测方法 | |
CN109919362B (zh) | 一种考虑水利工程调度影响的中长期径流预报方法 | |
CN112734274A (zh) | 一种低碳电网运营主导影响因素挖掘及综合评估方法 | |
CN110222879B (zh) | 一种考虑置信区间的系统-母线负荷预测协调方法及装置 | |
Ben Zaied et al. | Threshold effect in residential water demand: Evidence from smooth transition models | |
CN114091782B (zh) | 中长期电力负荷预测方法 | |
CN113705091B (zh) | 考虑变化环境和调度影响的非一致性设计洪水计算方法 | |
Xu et al. | Optimization and adjustment policy of two-echelon reservoir inventory management with forecast updates | |
Gizaw et al. | The nexus between foreign direct investment, domestic investment and economic growth: Evidence from Ethiopia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230906 Address after: Floor 13, No. 9 Shangqingsi Road, Yuzhong District, Chongqing, 400000 Patentee after: Chongqing Senxinju Intelligent Technology Co.,Ltd. Address before: Building 1, Hualian International Building, No. 88 Hongshi Road, Yubei District, Chongqing, 400000 Patentee before: CHONGQING SNT TECHNOLOGY Co.,Ltd. |