CN117828307A - 一种基于机器学习的给水厂全生命周期能耗预测方法 - Google Patents

一种基于机器学习的给水厂全生命周期能耗预测方法 Download PDF

Info

Publication number
CN117828307A
CN117828307A CN202410238512.5A CN202410238512A CN117828307A CN 117828307 A CN117828307 A CN 117828307A CN 202410238512 A CN202410238512 A CN 202410238512A CN 117828307 A CN117828307 A CN 117828307A
Authority
CN
China
Prior art keywords
energy consumption
life cycle
cycle energy
full life
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410238512.5A
Other languages
English (en)
Other versions
CN117828307B (zh
Inventor
王旭
王钊越
成慧宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202410238512.5A priority Critical patent/CN117828307B/zh
Publication of CN117828307A publication Critical patent/CN117828307A/zh
Application granted granted Critical
Publication of CN117828307B publication Critical patent/CN117828307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种基于机器学习的给水厂全生命周期能耗预测方法,所述方法包括:获取给水厂的历史进出水水量水质监测数据和运行参数,对历史进出水水量水质监测数据和运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集;获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型;获取当前进出水水量水质监测数据,并输入至所述最佳全生命周期能耗预测模型,输出全生命周期能耗的预测结果。本发明通过构建最佳全生命周期能耗预测模型大大提升了给水厂全生命周期能耗的预测效率。

Description

一种基于机器学习的给水厂全生命周期能耗预测方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于机器学习的给水厂全生命周期能耗预测方法、系统、终端及计算机可读存储介质。
背景技术
给水厂在处理原水(原水一般是指取自天然水体或蓄水水体,如河流、湖泊、池塘或地下蓄水层等,用作供水水源的水)的完整生命周期内中,需直接和间接消耗能源,这部分能源消耗被统称为全生命周期能耗。通常而言,全生命周期能耗不仅包括水处理过程中的直接能耗,还包括化学药剂(例如混凝剂、消毒剂)、耗材(例如膜组件)生产过程的间接能耗。为准确全面评估给水厂能耗,指导城市水处理部门节能降碳,需将水质净化过程的全生命周期能耗纳入给水厂效能综合评估体系。
但是,现有技术在计算城市给水厂全生命周期能耗时,需要通过实时监测的方式对不同处理阶段、不同生产环节的原始能耗数据进行充分收集,这涉及到大量的采集、检验工作,将耗费大量时间、金钱和人力成本,从而导致城市给水厂的全生命周期能耗计算效率低下,无法满足能耗预测需求。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的在于提供一种基于机器学习的给水厂全生命周期能耗预测方法、系统、终端及计算机可读存储介质,旨在解决现有技术中在计算城市给水厂的全生命周期能耗时,需要通过实时监测的方式对原始数据进行充分的收集以及大量的检验工作,从而导致城市给水厂的全生命周期能耗计算效率低下,无法满足能耗预测需求的问题。
为实现上述目的,本发明提供一种基于机器学习的给水厂全生命周期能耗预测方法,所述基于机器学习的给水厂全生命周期能耗预测方法包括如下步骤:
获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集;
获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型;
获取当前进出水水量水质监测数据,将所述当前进出水水量水质监测数据输入至所述最佳全生命周期能耗预测模型,输出所述给水厂的全生命周期能耗的预测结果。
可选地,所述的基于机器学习的给水厂全生命周期能耗预测方法,其中,所述历史进出水水量水质监测数据包括进水参数和出水参数;所述获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集,具体包括:
获取所述给水厂中预设时间范围内的进水参数、出水参数以及运行参数,并获取所述进水参数、所述出水参数以及所述运行参数各自对应的数据采集时间;
根据所述数据采集时间对所述进水参数、所述出水参数以及所述运行参数进行数据对齐处理,得到第一历史数据;
对所述第一历史数据进行降噪处理,得到第二历史数据;
将所述第二历史数据中每一个数据采集时间点对应的运行参数输入至生命周期评估模型中,得到每一个数据采集时间点对应的全生命周期能耗的历史消耗结果;
根据所述第二历史数据中的进水参数、出水参数以及所述历史消耗结果构建所述全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集。
可选地,所述的基于机器学习的给水厂全生命周期能耗预测方法,其中,所述根据所述数据采集时间对所述进水参数、所述出水参数以及所述运行参数进行数据对齐处理,得到第一历史数据,具体包括:
根据所述数据采集时间获取所述进水参数、所述出水参数以及所述运行参数各自对应的原始采集频率,并判断所述原始采集频率是否大于预设重采样频率;
若是,则将所述预设时间范围内的所述进水参数、所述出水参数以及所述运行参数进行求平均处理,直到所述进水参数、所述出水参数以及所述运行参数各自对应的重采样频率等于所述预设重采样频率,得到所述第一历史数据;
若所述原始采集频率小于所述预设重采样频率,则将所述进水参数、所述出水参数以及所述运行参数进行复制扩充处理,直到所述进水参数、所述出水参数以及所述运行参数各自对应的重采样频率等于所述预设重采样频率,得到所述第一历史数据。
可选地,所述的基于机器学习的给水厂全生命周期能耗预测方法,其中,所述对所述第一历史数据进行降噪处理,得到第二历史数据,具体包括:
当根据箱型图分析方法检测到所述第一历史数据中的噪声数据时,获取所述噪声数据对应的数据采集时间点;
将所述数据采集时间点对应的第一历史数据进行删除,得到所述第二历史数据。
可选地,所述的基于机器学习的给水厂全生命周期能耗预测方法,其中,所述获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型,具体包括:
采用相关性分析方法对所述全生命周期能耗历史训练集中的输入参数以及输出参数进行相关性分析处理,得到相关性分析结果;
根据所述相关性分析结果在模型算法库中进行查找,得到满足预设建模要求的多个第一候选模型;
根据所述全生命周期能耗历史训练集对多个所述第一候选模型进行训练,并计算多个所述第一候选模型在所述全生命周期能耗历史验证集上的第一预测结果;
计算多个所述第一预测结果的多个第一准确度,并根据多个所述第一准确度对多个所述第一候选模型进行筛选,得到多个第二候选模型;
获取所述全生命周期能耗历史训练集中的最优特征集合,并根据所述最优特征集合对多个所述第二候选模型进行训练,并计算多个所述第二候选模型在所述全生命周期能耗历史验证集上的第二预测结果;
计算多个所述第二预测结果的多个第二准确度,并根据多个所述第二准确度对多个所述第二候选模型进行筛选,得到多个第三候选模型;
获取多个所述第二候选模型训练过程中的时间消耗数据、能源消耗数据以及碳排放量数据,并根据所述时间消耗数据、所述能源消耗数据以及所述碳排放量数据在多个所述第三候选模型中提取最佳全生命周期能耗预测模型。
可选地,所述的基于机器学习的给水厂全生命周期能耗预测方法,其中,所述计算多个所述第一预测结果的多个第一准确度,并根据多个所述第一准确度对多个所述第一候选模型进行筛选,得到多个第二候选模型,具体包括:
根据评估函数计算所述第一预测结果与真实数据的差异度,根据所述差异度得到所述第一预测结果的第一准确度;
将多个所述第一候选模型中所述第一准确度低于预设阈值的第一候选模型进行剔除,得到多个所述第二候选模型。
可选地,所述的基于机器学习的给水厂全生命周期能耗预测方法,其中,所述获取所述全生命周期能耗历史训练集中的最优特征集合,具体包括:
采用递归特征消除方法对所述全生命周期能耗历史训练集进行特征筛选,得到所述最优特征集合。
此外,为实现上述目的,本发明还提供一种基于机器学习的给水厂全生命周期能耗预测系统,其中,所述基于机器学习的给水厂全生命周期能耗预测系统包括:
历史数据集构建模块,用于获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集;
能耗预测模型生成模块,用于获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型;
预测结果生成模块,用于获取当前进出水水量水质监测数据,将所述当前进出水水量水质监测数据输入至所述最佳全生命周期能耗预测模型,得到所述给水厂的全生命周期能耗的预测结果。
此外,为实现上述目的,本发明还提供一种终端,其中,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器学习的给水厂全生命周期能耗预测程序,所述基于机器学习的给水厂全生命周期能耗预测程序被所述处理器执行时实现如上所述的基于机器学习的给水厂全生命周期能耗预测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有基于机器学习的给水厂全生命周期能耗预测程序,所述基于机器学习的给水厂全生命周期能耗预测程序被处理器执行时实现如上所述的基于机器学习的给水厂全生命周期能耗预测方法的步骤。
本发明中,获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集;获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型;获取当前进出水水量水质监测数据,将所述当前进出水水量水质监测数据输入至所述最佳全生命周期能耗预测模型,输出所述给水厂的全生命周期能耗的预测结果。本发明通过获取给水厂的历史进出水水量水质监测数据和运行参数以此来构建训练集和验证集,并通过训练集对多个候选模型进行训练,并根据模型训练结果的准确度不断进行筛选,最终得到最佳全生命周期能耗预测模型;通过最佳全生命周期能耗预测模型能够快速且准确的利用当前进出水水量水质监测数据对全生命周期能耗进行预测,大大的提高了给水厂的全生命周期能耗评估效率。
附图说明
图1是本发明基于机器学习的给水厂全生命周期能耗预测方法的较佳实施例的流程图;
图2是本发明基于机器学习的给水厂全生命周期能耗预测系统的较佳实施例的结构图;
图3为本发明终端的较佳实施例的结构图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
给水厂在处理原水(原水一般是指取自天然水体或蓄水水体,如河流、湖泊、池塘或地下蓄水层等,用作供水水源的水)的完整生命周期内中,需直接和间接消耗能源,这部分能源消耗被统称为全生命周期能耗。通常而言,全生命周期能耗不仅包括水处理过程中的直接能耗,还包括化学药剂(例如混凝剂、消毒剂)、耗材(例如膜组件)生产过程的间接能耗。为准确全面评估给水厂能耗,指导城市水处理部门节能降碳,需将水质净化过程的全生命周期能耗纳入给水厂效能综合评估体系。
但是,现有技术在计算城市给水厂全生命周期能耗时,需要通过实时监测的方式对不同处理阶段、不同生产环节的原始能耗数据进行充分收集,这涉及到大量的采集、检验工作,将耗费大量时间、金钱和人力成本,从而导致城市给水厂的全生命周期能耗计算效率低下,无法满足能耗预测需求。
在对水质净化的研究过程中发现,进水参数、出水参数与全生命周期能耗之间存在密切关系,全生命周期能耗的多少往往取决于药剂投加量与处理程度,进而反馈于水质的动态波动。对于现有给水厂,常规监测体系通常包括进水参数、出水参数等,大量给水厂的历史监测已形成长期动态数据集。通过建立进水参数、出水参数与全生命周期能耗之间的非线性动态模型,基于该非线性动态模型,依赖常规历史进出水水量水质监测数据进行全生命周期能耗预测是提高全生命周期能耗评估效率的重要突破口。
本发明较佳实施例所述的基于机器学习的给水厂全生命周期能耗预测方法,如图1所示,所述基于机器学习的给水厂全生命周期能耗预测方法包括以下步骤:
步骤S10、获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集,其中,所述历史进出水水量水质监测数据包括进水参数和出水参数。
具体地,获取所述给水厂中预设时间范围内的进水参数、出水参数以及运行参数,并获取所述进水参数、所述出水参数以及所述运行参数各自对应的数据采集时间。
首先需要获取城市给水厂全生命周期能耗历史数据集,通过调用本地存储设备(本地存储设备中存储着历史进出水水量水质监测数据与运行参数),获取三年的水厂历史数据(即预设时间范围内的历史进出水水量水质监测数据与运行参数,水厂历史数据会以一定的时间为变化周期呈现一定的变化规律,这些水厂历史数据不仅有可预测的时序性特征,而且也具有波动性和随机性)。
其中,进水参数包括:进水量、进水水温、进水浊度、进水化学需氧量、进水氨氮以及进水pH;出水参数包括:产水量、出水浊度、出水化学需氧量、出水pH以及出水余氯;运行参数包括:混凝剂投加量、消毒剂投加量以及电耗。
根据所述数据采集时间获取所述进水参数、所述出水参数以及所述运行参数各自对应的原始采集频率,并判断所述原始采集频率是否大于预设重采样频率;若是,则将所述预设时间范围内的所述进水参数、所述出水参数以及所述运行参数进行求平均处理,直到所述进水参数、所述出水参数以及所述运行参数各自对应的重采样频率(这里所说的重采样频率即是指所述进水参数、所述出水参数以及所述运行参数进行求平均处理后对应的频率)等于所述预设重采样频率,得到所述第一历史数据;若所述原始采集频率小于所述预设重采样频率,则将所述进水参数、所述出水参数以及所述运行参数进行复制扩充处理,直到所述进水参数、所述出水参数以及所述运行参数各自对应的重采样频率(这里所说的重采样频率即是指所述进水参数、所述出水参数以及所述运行参数进行复制扩充处理后对应的频率)等于所述预设重采样频率,得到所述第一历史数据。
本发明中基于数据采集时间,对采集的历史进出水水量水质监测数据与运行参数进行数据对齐,其中,数据对齐是指对于每一组参数,都有一个时间戳,这个时间戳代表某个时间段内的进水、出水以及运行情况。然而,不同的参数对应的时间采集频率不一样,可能导致数据不能对齐的情况。
数据对齐处理的具体流程如下:由用户指定数据重采样频率(即预设重采样频率),遍历每一个参数的时间戳,若参数原始采集频率大于预设重采样频率,则对固定时间步长内的所有参数求平均。若小于预设重采样频率,则对原始数据进行复制和扩充,以满足数据重采样的需求。
当根据箱型图分析方法检测到所述第一历史数据中的噪声数据时,获取所述噪声数据对应的数据采集时间点;将所述数据采集时间点对应的第一历史数据进行删除,得到第二历史数据。
基于数据对齐处理后的第一历史数据,利用箱型图分析方法(箱形图-Box plot,又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理,快速识别异常值。箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗)对第一历史数据噪声数据进行删除操作。进一步的,当第一历史数据中某一个历史参数被判定为噪声,将需要直接删除该时间点搜集的其他历史参数,以保证数据的完整性与准确度。
将所述第二历史数据中每一个数据采集时间点对应的运行参数输入至生命周期评估模型中,得到每一个数据采集时间点对应的全生命周期能耗的历史消耗结果;根据所述第二历史数据中的进水参数、出水参数以及所述历史消耗结果构建所述全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集。
本发明将每一个采集时间点的运行参数输入生命周期评估模型中(生命周期评估模型包括ReCiPe 2016-生命周期影响评价软件等等),计算得到该时间点的水厂全生命周期能耗消耗数据。其中,所述水厂全生命周期能耗消耗数据的计算过程为:根据运行参数输入生命周期评估模型得到的运行结果,会得到一个转化因子,通过计算能耗*能耗转化因子+混凝剂投加量*混凝剂转化因子+消毒剂投加量*消毒剂转化因子,可以计算得到全生命周期能耗。
将进水参数、出水参数以及全生命周期能耗数据(相同时间点的参数与数据相互对应)保存到表格文档中,形成全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集存储至本地存储设备中。
当需要构建训练集和验证集时,调用本地存储设备,从本地存储设备中调取全生命周期能耗历史数据集,并将数据集划分为训练集和验证集(本发明中优选设置训练集占全生命周期能耗历史数据集比例的80%,验证集占全生命周期能耗历史数据集比例的20%)。
步骤S20、获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型。
本发明中基于本地存储设备中存储的全生命周期能耗历史数据集,利用水质净化综合评估架构来进行模型构建与优选,并形成与最优模型匹配的最优监测特征集。
其中,本发明中设置的水质净化综合评估架构包括模型构建模块、特征评估模块以及可持续评估模块。
具体的,模型构建模块:该模块收集现有开源预测模型,主要包括回归模型、分类模型等,并细分为线性模型与非线性模型。对所收集到的模型进行归档分类,形成调用API接口。其中,回归模型包括:线性回归、支持向量回归、随机森林以及LightGBM(LightGradient Boosting Machine,轻量级梯度提升机)或Xgboost(eXtreme GradientBoosting,极端梯度提升)等等。分类模型包括:KNN(K-Nearest Neighbor,K邻近算法)、朴素贝叶斯、决策树等等。另外,类似支持向量机、随机森林等等既可以是回归模型也可以是分类模型。
特征评估模块:该模块收集现有特征评估技术,主要包括过滤式特征选择方法、包裹式特征选择方法以及嵌入式特征选择方法,对所收集到的方法进行归档分类,形成调用API接口。
可持续评估模块:该模块主要包括模型构建过程中的时间消耗评估、能耗评估以及碳排评估,对所收集到的方法进行归档分类,形成调用API接口。
具体地,采用相关性分析方法对所述全生命周期能耗历史训练集中的输入参数以及输出参数进行相关性分析处理,得到相关性分析结果;根据所述相关性分析结果在模型算法库中进行查找,得到满足预设建模要求的多个第一候选模型。
因为全生命周期能耗预测问题可抽象为非线性回归问题求解,因而调用水质净化综合评估架构中的模型构建模块,对模块算法库中的算法进行遍历,挑选适用于非线性回归问题求解的候选算法(即本发明中的多个第一候选模型)。
其中,因为模型库中有着大量的模型,包括了回归模型、分类模型、线性模型以及非线性模型。可以对数据进行统计学分析,分析线性相关性强弱,并根据任务类型(例如判断是回归还是分类)从模型库中挑选几个可能的模型出来。
根据所述全生命周期能耗历史训练集对多个所述第一候选模型进行训练,并计算多个所述第一候选模型在所述全生命周期能耗历史验证集上的第一预测结果;根据评估函数计算所述第一预测结果与真实数据的差异度,根据所述差异度得到所述第一预测结果的第一准确度;将多个所述第一候选模型中所述第一准确度低于预设阈值的第一候选模型进行剔除,得到多个所述第二候选模型。
本发明基于全生命周期能耗历史训练集对多个所述第一候选模型进行训练,并计算多个所述第一候选模型在所述全生命周期能耗历史验证集上的第一预测结果;选择适用于回归性能评估的评估函数,通过评估函数比较预测结果(即多个第一预测结果)与真实值,计算得到多个所述第一候选模型的准确度。根据用户设置阈值a(预设阈值),剔除所述第一准确度低于预设阈值的第一候选模型,形成多个所述第二候选模型,其中,所述第二候选模型的数量少于所述第一候选模型的数量。
采用递归特征消除方法对所述全生命周期能耗历史训练集进行特征筛选,得到所述最优特征集合;根据所述最优特征集合对多个所述第二候选模型进行训练,并计算多个所述第二候选模型在所述全生命周期能耗历史验证集上的第二预测结果;计算多个所述第二预测结果的多个第二准确度,并根据多个所述第二准确度对多个所述第二候选模型进行筛选,得到多个第三候选模型。
本发明调用水质净化综合评估架构中的特征优选模块,基于多个所述第二候选模型,结合模型性能评估结果与特征冗余评估结果进行特征筛选(其中,特征冗余评估结果利用递归特征消除方法进行计算,递归特征消除方法的步骤如下:1、利用原始特征集来训练所选定的机器学习模型;2、根据所选定机器学习方法的内部特征重要性计算方法或与模型无关的特征重要性评估方法,例如SHAP方法等,计算出每一个特征的得分系数(权重)。3、剔除低得分的特征。4、重复1-3直到结束条件被触发,其中,结束条件可以是模型准确度小于某个阈值,或者保留的特征数量等于用户设定的阈值)。
进一步的,根据最优特征集合对多个所述第二候选模型进行再训练(比如原来用(a,b,c,d,e,f,g)总共七个参数或特征进行第一批训练,后面进行特征选择之后,只剩下了(a,b,c)三个参数,则利用这三个参数单独训练模型以得到最终的模型),通过计算多个所述第二候选模型的预测性能来进行进一步的筛选,以此得到多个第三候选模型。
获取多个所述第二候选模型训练过程中的时间消耗数据、能源消耗数据以及碳排放量数据,并根据所述时间消耗数据、所述能源消耗数据以及所述碳排放量数据在多个所述第三候选模型中提取最佳全生命周期能耗预测模型。
调用水质净化综合评估架构中的可持续评估模块,对多个所述第二候选模型构建过程中的时间消耗、能源消耗、碳排放量进行综合评估(以预测准确度为主要指标,如果两个模型的预测准确度差距小于用户定义的容忍系数,那么从时间消耗、能源消耗、碳排放量出发,选择一个时间消耗小、能源消耗小、碳排放量小的模型作为最终模型)。
步骤S30、获取当前进出水水量水质监测数据,将所述当前进出水水量水质监测数据输入至所述最佳全生命周期能耗预测模型,输出所述给水厂的全生命周期能耗的预测结果。
具体地,本发明在最佳全生命周期能耗预测模型构建完成后,则可通过最佳全生命周期能耗预测模型对当前采集的当前进出水水量水质监测数据进行全生命周期能耗预测,通过最佳全生命周期能耗预测模型强大的学习能力,能够快速对当前进出水水量水质监测数据进行分析,并输出当前进出水水量水质监测数据对应的能耗结果,十分快捷,且数据更加准确。相较于现有技术中通过采集数据,然后进行大量工作统计以及分析的过程,本发明通过构建最佳全生命周期能耗预测模型的方式大大提升了给水厂全生命周期能耗的预测效率。
另外,当通过最佳全生命周期能耗预测模型对当前进出水水量水质监测数据进行分析得到给水厂的全生命周期能耗的预测结果后,可以根据消耗结果制定多种调控方案,并采集实施多种所述调控方案的进出水水量水质监测数据,同样的,可以根据最佳全生命周期能耗预测模型继续利用进出水水量水质监测数据进行能耗结果分析,以此来对水质净化工作进行调节,有利于减少给水厂的全生命周期能耗。
进一步地,如图2所示,基于上述基于机器学习的给水厂全生命周期能耗预测方法,本发明还相应提供了一种基于机器学习的给水厂全生命周期能耗预测系统,其中,所述基于机器学习的给水厂全生命周期能耗预测系统包括:
历史数据集构建模块51,用于获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集;
能耗预测模型生成模块52,用于获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型;
预测结果生成模块53,用于获取当前进出水水量水质监测数据,将所述当前进出水水量水质监测数据输入至所述最佳全生命周期能耗预测模型,得到所述给水厂的全生命周期能耗的预测结果。
进一步地,如图3所示,基于上述基于机器学习的给水厂全生命周期能耗预测方法和系统,本发明还相应提供了一种终端,所述终端包括处理器10、存储器20及显示器30。图3仅示出了终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据,例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于机器学习的给水厂全生命周期能耗预测程序40,该基于机器学习的给水厂全生命周期能耗预测程序40可被处理器10所执行,从而实现本申请中基于机器学习的给水厂全生命周期能耗预测方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于机器学习的给水厂全生命周期能耗预测方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中基于机器学习的给水厂全生命周期能耗预测程序40时实现以下步骤:
获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集;
获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型;
获取当前进出水水量水质监测数据,将所述当前进出水水量水质监测数据输入至所述最佳全生命周期能耗预测模型,输出所述给水厂的全生命周期能耗的预测结果。
其中,所述历史进出水水量水质监测数据包括进水参数和出水参数;所述获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集,具体包括:
获取所述给水厂中预设时间范围内的进水参数、出水参数以及运行参数,并获取所述进水参数、所述出水参数以及所述运行参数各自对应的数据采集时间;
根据所述数据采集时间对所述进水参数、所述出水参数以及所述运行参数进行数据对齐处理,得到第一历史数据;
对所述第一历史数据进行降噪处理,得到第二历史数据;
将所述第二历史数据中每一个数据采集时间点对应的运行参数输入至生命周期评估模型中,得到每一个数据采集时间点对应的全生命周期能耗的历史消耗结果;
根据所述第二历史数据中的进水参数、出水参数以及所述历史消耗结果构建所述全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集。
其中,所述根据所述数据采集时间对所述进水参数、所述出水参数以及所述运行参数进行数据对齐处理,得到第一历史数据,具体包括:
根据所述数据采集时间获取所述进水参数、所述出水参数以及所述运行参数各自对应的原始采集频率,并判断所述原始采集频率是否大于预设重采样频率;
若是,则将所述预设时间范围内的所述进水参数、所述出水参数以及所述运行参数进行求平均处理,直到所述进水参数、所述出水参数以及所述运行参数各自对应的重采样频率等于所述预设重采样频率,得到所述第一历史数据;
若所述原始采集频率小于所述预设重采样频率,则将所述进水参数、所述出水参数以及所述运行参数进行复制扩充处理,直到所述进水参数、所述出水参数以及所述运行参数各自对应的重采样频率等于所述预设重采样频率,得到所述第一历史数据。
其中,所述对所述第一历史数据进行降噪处理,得到第二历史数据,具体包括:
当根据箱型图分析方法检测到所述第一历史数据中的噪声数据时,获取所述噪声数据对应的数据采集时间点;
将所述数据采集时间点对应的第一历史数据进行删除,得到所述第二历史数据。
其中,所述获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型,具体包括:
采用相关性分析方法对所述全生命周期能耗历史训练集中的输入参数以及输出参数进行相关性分析处理,得到相关性分析结果;
根据所述相关性分析结果在模型算法库中进行查找,得到满足预设建模要求的多个第一候选模型;
根据所述全生命周期能耗历史训练集对多个所述第一候选模型进行训练,并计算多个所述第一候选模型在所述全生命周期能耗历史验证集上的第一预测结果;
计算多个所述第一预测结果的多个第一准确度,并根据多个所述第一准确度对多个所述第一候选模型进行筛选,得到多个第二候选模型;
获取所述全生命周期能耗历史训练集中的最优特征集合,并根据所述最优特征集合对多个所述第二候选模型进行训练,并计算多个所述第二候选模型在所述全生命周期能耗历史验证集上的第二预测结果;
计算多个所述第二预测结果的多个第二准确度,并根据多个所述第二准确度对多个所述第二候选模型进行筛选,得到多个第三候选模型;
获取多个所述第二候选模型训练过程中的时间消耗数据、能源消耗数据以及碳排放量数据,并根据所述时间消耗数据、所述能源消耗数据以及所述碳排放量数据在多个所述第三候选模型中提取最佳全生命周期能耗预测模型。
其中,所述计算多个所述第一预测结果的多个第一准确度,并根据多个所述第一准确度对多个所述第一候选模型进行筛选,得到多个第二候选模型,具体包括:
根据评估函数计算所述第一预测结果与真实数据的差异度,根据所述差异度得到所述第一预测结果的第一准确度;
将多个所述第一候选模型中所述第一准确度低于预设阈值的第一候选模型进行剔除,得到多个所述第二候选模型。
其中,所述获取所述全生命周期能耗历史训练集中的最优特征集合,具体包括:
采用递归特征消除方法对所述全生命周期能耗历史训练集进行特征筛选,得到所述最优特征集合。
本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有基于机器学习的给水厂全生命周期能耗预测程序,所述基于机器学习的给水厂全生命周期能耗预测程序被处理器执行时实现如上所述的基于机器学习的给水厂全生命周期能耗预测方法的步骤。
综上所述,本发明提供一种基于机器学习的给水厂全生命周期能耗预测方法及相关设备,所述方法包括:获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集;获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型;获取当前进出水水量水质监测数据,将所述当前进出水水量水质监测数据输入至所述最佳全生命周期能耗预测模型,输出所述给水厂的全生命周期能耗的预测结果。本发明通过获取给水厂的历史进出水水量水质监测数据和运行参数以此来构建训练集和验证集,并通过训练集对多个候选模型进行训练,并根据模型训练结果的准确度不断进行筛选,最终得到最佳全生命周期能耗预测模型;通过最佳全生命周期能耗预测模型能够快速且准确的利用当前进出水水量水质监测数据对全生命周期能耗进行预测,大大的提高了给水厂的全生命周期能耗评估效率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的计算机可读存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于机器学习的给水厂全生命周期能耗预测方法,其特征在于,所述基于机器学习的给水厂全生命周期能耗预测方法包括:
获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集;
获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型;
获取当前进出水水量水质监测数据,将所述当前进出水水量水质监测数据输入至所述最佳全生命周期能耗预测模型,输出所述给水厂的全生命周期能耗的预测结果。
2.根据权利要求1所述的基于机器学习的给水厂全生命周期能耗预测方法,其特征在于,所述历史进出水水量水质监测数据包括进水参数和出水参数;所述获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集,具体包括:
获取所述给水厂中预设时间范围内的进水参数、出水参数以及运行参数,并获取所述进水参数、所述出水参数以及所述运行参数各自对应的数据采集时间;
根据所述数据采集时间对所述进水参数、所述出水参数以及所述运行参数进行数据对齐处理,得到第一历史数据;
对所述第一历史数据进行降噪处理,得到第二历史数据;
将所述第二历史数据中每一个数据采集时间点对应的运行参数输入至生命周期评估模型中,得到每一个数据采集时间点对应的全生命周期能耗的历史消耗结果;
根据所述第二历史数据中的进水参数、出水参数以及所述历史消耗结果构建所述全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集。
3.根据权利要求2所述的基于机器学习的给水厂全生命周期能耗预测方法,其特征在于,所述根据所述数据采集时间对所述进水参数、所述出水参数以及所述运行参数进行数据对齐处理,得到第一历史数据,具体包括:
根据所述数据采集时间获取所述进水参数、所述出水参数以及所述运行参数各自对应的原始采集频率,并判断所述原始采集频率是否大于预设重采样频率;
若是,则将所述预设时间范围内的所述进水参数、所述出水参数以及所述运行参数进行求平均处理,直到所述进水参数、所述出水参数以及所述运行参数各自对应的重采样频率等于所述预设重采样频率,得到所述第一历史数据;
若所述原始采集频率小于所述预设重采样频率,则将所述进水参数、所述出水参数以及所述运行参数进行复制扩充处理,直到所述进水参数、所述出水参数以及所述运行参数各自对应的重采样频率等于所述预设重采样频率,得到所述第一历史数据。
4.根据权利要求2或3所述的基于机器学习的给水厂全生命周期能耗预测方法,其特征在于,所述对所述第一历史数据进行降噪处理,得到第二历史数据,具体包括:
当根据箱型图分析方法检测到所述第一历史数据中的噪声数据时,获取所述噪声数据对应的数据采集时间点;
将所述数据采集时间点对应的第一历史数据进行删除,得到所述第二历史数据。
5.根据权利要求1所述的基于机器学习的给水厂全生命周期能耗预测方法,其特征在于,所述获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型,具体包括:
采用相关性分析方法对所述全生命周期能耗历史训练集中的输入参数以及输出参数进行相关性分析处理,得到相关性分析结果;
根据所述相关性分析结果在模型算法库中进行查找,得到满足预设建模要求的多个第一候选模型;
根据所述全生命周期能耗历史训练集对多个所述第一候选模型进行训练,并计算多个所述第一候选模型在所述全生命周期能耗历史验证集上的第一预测结果;
计算多个所述第一预测结果的多个第一准确度,并根据多个所述第一准确度对多个所述第一候选模型进行筛选,得到多个第二候选模型;
获取所述全生命周期能耗历史训练集中的最优特征集合,并根据所述最优特征集合对多个所述第二候选模型进行训练,并计算多个所述第二候选模型在所述全生命周期能耗历史验证集上的第二预测结果;
计算多个所述第二预测结果的多个第二准确度,并根据多个所述第二准确度对多个所述第二候选模型进行筛选,得到多个第三候选模型;
获取多个所述第二候选模型训练过程中的时间消耗数据、能源消耗数据以及碳排放量数据,并根据所述时间消耗数据、所述能源消耗数据以及所述碳排放量数据在多个所述第三候选模型中提取最佳全生命周期能耗预测模型。
6.根据权利要求5所述的基于机器学习的给水厂全生命周期能耗预测方法,其特征在于,所述计算多个所述第一预测结果的多个第一准确度,并根据多个所述第一准确度对多个所述第一候选模型进行筛选,得到多个第二候选模型,具体包括:
根据评估函数计算所述第一预测结果与真实数据的差异度,根据所述差异度得到所述第一预测结果的第一准确度;
将多个所述第一候选模型中所述第一准确度低于预设阈值的第一候选模型进行剔除,得到多个所述第二候选模型。
7.根据权利要求5所述的基于机器学习的给水厂全生命周期能耗预测方法,其特征在于,所述获取所述全生命周期能耗历史训练集中的最优特征集合,具体包括:
采用递归特征消除方法对所述全生命周期能耗历史训练集进行特征筛选,得到所述最优特征集合。
8.一种基于机器学习的给水厂全生命周期能耗预测系统,其特征在于,所述基于机器学习的给水厂全生命周期能耗预测系统包括:
历史数据集构建模块,用于获取给水厂的历史进出水水量水质监测数据和运行参数,对所述历史进出水水量水质监测数据和所述运行参数进行预处理,得到全生命周期能耗历史数据集,并将所述全生命周期能耗历史数据集划分为全生命周期能耗历史训练集和全生命周期能耗历史验证集;
能耗预测模型生成模块,用于获取多个候选模型,根据所述全生命周期能耗历史训练集对多个所述候选模型进行训练和筛选,得到最佳全生命周期能耗预测模型;
预测结果生成模块,用于获取当前进出水水量水质监测数据,将所述当前进出水水量水质监测数据输入至所述最佳全生命周期能耗预测模型,得到所述给水厂的全生命周期能耗的预测结果。
9.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器学习的给水厂全生命周期能耗预测程序,所述基于机器学习的给水厂全生命周期能耗预测程序被所述处理器执行时实现如权利要求1-7任一项所述的基于机器学习的给水厂全生命周期能耗预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于机器学习的给水厂全生命周期能耗预测程序,所述基于机器学习的给水厂全生命周期能耗预测程序被处理器执行时实现如权利要求1-7任一项所述的基于机器学习的给水厂全生命周期能耗预测方法的步骤。
CN202410238512.5A 2024-03-04 2024-03-04 一种基于机器学习的给水厂全生命周期能耗预测方法 Active CN117828307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410238512.5A CN117828307B (zh) 2024-03-04 2024-03-04 一种基于机器学习的给水厂全生命周期能耗预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410238512.5A CN117828307B (zh) 2024-03-04 2024-03-04 一种基于机器学习的给水厂全生命周期能耗预测方法

Publications (2)

Publication Number Publication Date
CN117828307A true CN117828307A (zh) 2024-04-05
CN117828307B CN117828307B (zh) 2024-05-28

Family

ID=90521235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410238512.5A Active CN117828307B (zh) 2024-03-04 2024-03-04 一种基于机器学习的给水厂全生命周期能耗预测方法

Country Status (1)

Country Link
CN (1) CN117828307B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109687447A (zh) * 2018-12-29 2019-04-26 华润电力技术研究院有限公司 一种电力能耗预测方法及装置
CN113918884A (zh) * 2020-07-09 2022-01-11 顺丰科技有限公司 业务量预测模型构建方法和业务量预测方法
CN113935557A (zh) * 2021-12-21 2022-01-14 中船重工(武汉)凌久高科有限公司 一种基于深度学习的相同模式能耗大数据预测方法
CN115759434A (zh) * 2022-11-24 2023-03-07 浙江凌骁能源科技有限公司 电池电量实时预测方法、系统、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109687447A (zh) * 2018-12-29 2019-04-26 华润电力技术研究院有限公司 一种电力能耗预测方法及装置
CN113918884A (zh) * 2020-07-09 2022-01-11 顺丰科技有限公司 业务量预测模型构建方法和业务量预测方法
CN113935557A (zh) * 2021-12-21 2022-01-14 中船重工(武汉)凌久高科有限公司 一种基于深度学习的相同模式能耗大数据预测方法
CN115759434A (zh) * 2022-11-24 2023-03-07 浙江凌骁能源科技有限公司 电池电量实时预测方法、系统、计算机设备和存储介质

Also Published As

Publication number Publication date
CN117828307B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
Fan et al. A review on data preprocessing techniques toward efficient and reliable knowledge discovery from building operational data
CN117132135B (zh) 基于数字孪生的城市信息化管理系统及方法
Karthik et al. Prognostic Kalman Filter Based Bayesian Learning Model for Data Accuracy Prediction.
Makedon et al. Enterprise multi-level energy efficiency management system development
Du et al. An integrated system for on-line intelligent monitoring and identifying process variability and its application
CN115358481A (zh) 一种企业外迁预警识别的方法、系统及装置
CN111767216A (zh) 一种可缓解类重叠问题的跨版本深度缺陷预测方法
CN117743870A (zh) 一种基于大数据的水利数据管理系统
CN117828307B (zh) 一种基于机器学习的给水厂全生命周期能耗预测方法
CN117175588A (zh) 基于时空相关性的用电负荷预测方法及装置
Elhishi et al. Unboxing machine learning models for concrete strength prediction using XAI
CN116865254A (zh) 一种电力负荷指标预测方法、系统、设备及介质
CN116011655A (zh) 基于两阶段智能特征工程的负荷超短期预测方法及系统
Mete et al. Predicting semantic building information (BIM) with Recurrent Neural Networks
CN116226748A (zh) 一种基于多标签共现网络判别的窃电类型检测方法及系统
Zhou et al. Data-driven solutions for building environmental impact assessment
CN111680572B (zh) 一种电网运行场景动态判定方法及系统
CN114168409A (zh) 一种业务系统运行状态监控预警方法与系统
Kang et al. Research on forecasting method for effluent ammonia nitrogen concentration based on GRA-TCN
CN110458383B (zh) 需求处理服务化的实现方法、装置及计算机设备、存储介质
CN114116843A (zh) 基于用电数据的村镇小型污水处理设施运行监测方法
Cheng et al. Chaotic load series forecasting based on MPMR
CN111276229A (zh) 一种基于深度置信网络的门诊量预测方法及系统
EP4339845A1 (en) Method, apparatus and electronic device for detecting data anomalies, and readable storage medium
Wibawa et al. Bidirectional Long Short-Term Memory (Bi-LSTM) Hourly Energy Forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant