CN114548535B - 一种污水处理过程参数长窗预测方法 - Google Patents

一种污水处理过程参数长窗预测方法 Download PDF

Info

Publication number
CN114548535B
CN114548535B CN202210134820.4A CN202210134820A CN114548535B CN 114548535 B CN114548535 B CN 114548535B CN 202210134820 A CN202210134820 A CN 202210134820A CN 114548535 B CN114548535 B CN 114548535B
Authority
CN
China
Prior art keywords
prediction
data
feature
parameter
treatment process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210134820.4A
Other languages
English (en)
Other versions
CN114548535A (zh
Inventor
张明
张儒
谢新民
孙自飞
甘雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tianfu Software Co ltd
Original Assignee
Nanjing Tianfu Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tianfu Software Co ltd filed Critical Nanjing Tianfu Software Co ltd
Priority to CN202210134820.4A priority Critical patent/CN114548535B/zh
Publication of CN114548535A publication Critical patent/CN114548535A/zh
Application granted granted Critical
Publication of CN114548535B publication Critical patent/CN114548535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W10/00Technologies for wastewater treatment
    • Y02W10/10Biological treatment of water, waste water, or sewage

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种污水处理过程参数长窗预测方法,包括:采集预测变量数据和特征参数数据,并基于所述预测变量数据和特征参数数据构造数据集;建立一个以上参数预测模型,分别输入数据集进行预测,并计算不同数据集和建模方案下预测变量的预测结果;使用R2和MAPE指标,对不同的参数预测模型得到的预测结果进行评价;从所述预测结果中选取预测精度最高的参数预测模型,得到预测数据。使用多套的建模流程对多类预测变量进行预测,实现对水处理过程中多类参数的精确预测,有利于工作人员制定合理的水处理设备清洗和维修计划,灵活的处理水处理过程参数预测中的各类情况,提高污水处理的效率。

Description

一种污水处理过程参数长窗预测方法
技术领域
本发明涉及污水处理的技术领域,尤其涉及一种污水处理过程参数长窗预测方法。
背景技术
污水处理是通过一系列生化过程对污水进行净化,使污水达到排入某一水体或再次使用的水质要求的过程,在建筑、农业、交通、能源、石化、环保、城市景观、医疗、餐饮等各个领域都有着广泛的应用。污水处理是实现水资源的重复循环利用的一个不可或缺的环节,对节约水资源和维持水资源的可持续发展都起到了非常重要的作用。
但是,污水处理过程不仅涉及一系列复杂的物理和化学过程,还需要多个机械化设备、电子设备和测量仪表等仪器相互配合,是一个复杂的工业系统。同时,为了保证出水水质满足特定的水质要求,则需要保证污水处理过程中的各个设备都保持正常运行的状态,这就需要对污水处理各个环节中的一系列参数进行在线测量,从而实时监测污水处理的情况。但是,由于测量系统通常存在一定的迟滞现象,并且由于污水处理过程中恶劣的工作环境,使水处理设备和测量仪表很难在这种环境下稳定、正常的运行,所以需要对污水处理中各个环节的参数进行提前预测,从而提前识别水处理设备污水净化能力的变化。
污水处理参数预测的难点在于:污水处理过程是一个外界干扰强烈、时变性强、耦合性强、非线性的复杂动态生物化学过程,对其难以建立精确的数学模型,现有的机理模型对污水处理过程是不太实际的,导致预测精度低,使得工作人员难以制定合理的水处理设备清洗和维修计划,污水处理的效率低下的问题。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:污水处理过程是一个外界干扰强烈、时变性强、耦合性强、非线性的复杂动态生物化学过程,对其难以建立精确的数学模型,现有的机理模型对污水处理过程是不太实际的,导致预测精度低,使得工作人员难以制定合理的水处理设备清洗和维修计划,污水处理的效率低。
为解决上述技术问题,本发明提供如下技术方案:一种污水处理过程参数长窗预测方法,包括:采集预测变量数据和特征参数数据,并基于所述预测变量数据和特征参数数据构造数据集;建立一个以上参数预测模型,分别输入数据集进行预测,并计算不同数据集和建模方案下预测变量的预测结果;使用R2和MAPE指标,对不同的参数预测模型得到的预测结果进行评价;从所述预测结果中选取预测精度最高的参数预测模型,得到预测数据。
作为本发明所述的污水处理过程参数长窗预测方法的一种优选方案,其中:基于数据集选择预测变量及其相关的特征参数,通过滑动窗口的方法构造多个长窗预测的数据集。
作为本发明所述的污水处理过程参数长窗预测方法的一种优选方案,其中:使用滑动窗口方法对时间序列分段处理,定义所述时间序列为{y1,y2...yn},其关系表达式为:
其中,n表示时间序列的长度,假设观测视界长度为5,预测视界长度为1,滑动窗口的方法可具体表示为前5列是输入特征的内因部分,第6列是输出数据。
作为本发明所述的污水处理过程参数长窗预测方法的一种优选方案,其中:在滑动窗口的处理过程中引入外部特征,定义所述外部特征序列为{f1,f2...fn},输出数据为{y6,y7...yn},引入外部特征的关系表达式为:
其中,n表示时间序列的长度,前5列表示输入特征的外因部分,第6列是输出数据,将所述内因和外因特征相组合,建立内因和外因特征集F与输出数据Y的映射关系,得到长度为n-5的预测时间序列
作为本发明所述的污水处理过程参数长窗预测方法的一种优选方案,其中:根据参数预测建模的流程,分别建立数据清洗、特征工程、数据降维和回归分析的算法库,以此制定多种参数预测模型。
作为本发明所述的污水处理过程参数长窗预测方法的一种优选方案,其中:对于长度为n的时间序列{y1...yn-1,yn},和个数为k,长度为n的特征序列{f1,f2...fn},建立参数预测模型步骤如下:
根据滑动窗口中观测视界的大小和预测视界大小,得到样本个数m为:
m=n-oh-fh
其中,n表示长度,oh表示观测视界的大小,fh表示预测视界大小,使用直接的多步长窗预测策略,基于长窗预测数据集构建方法,得到特征集F和输出数据Y;使用数据清洗算法,对回归问题的数据集中的异常值进行剔除;使用特征选择算法,剔除不相关或者冗余的特征,减少特征集F的个数,得到一个最优的特征子集F1;使用数据降维的方法,将高维空间中的数据通过某种映射函数投影到低维空间,降低特征子集F1的维数,得到新的特征集使用回归分析的相关算法,对特征集/>和输出数据Y进行训练与预测。
作为本发明所述的污水处理过程参数长窗预测方法的一种优选方案,其中:使用不同的数据清洗、特征选择、数据降维和回归分析算法组成一个算法库,以此搭建多种参数预测建模方案,一个建模流程中可包含a种数据清洗算法、b种特征选择算法、c种数据降维算法和d种回归分析算法,那么参数预测的建模方案一共有(a×b×c×d)种。
作为本发明所述的污水处理过程参数长窗预测方法的一种优选方案,其中:选择决定系数R2和平均绝对百分比误差MAPE作为评估模型性能的评价指标,其中,R2和MAPE的定义如下
其中,n表示测试集的样本个数,yi表示真实数据,表示预测值,/>表示真实数据的平均值,当R2越大,MAPE越小时,模型的精度越高。
本发明的有益效果:本发明使用数据驱动的方法解决了水处理过程中多参数长期预测的问题,基于直接的多步长窗预测策略,将时序统计问题转换为简单的回归问题,并使用内因和外因作为特征参数,使用多套的建模流程对多类预测变量进行预测,实现对水处理过程中多类参数的精确预测,有利于工作人员制定合理的水处理设备清洗和维修计划,灵活的处理水处理过程参数预测中的各类情况,提高污水处理的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种污水处理过程参数长窗预测方法的基本流程示意图。
图2为本发明一个实施例提供的一种污水处理过程参数长窗预测方法的使用的直接预测策略构造并划分训练集和测试集的示意图。
图3为本发明一个实施例提供的一种污水处理过程参数长窗预测方法参数预测模型建立的流程示意图。
图4为本发明一个实施例提供的一种污水处理过程参数长窗预测方法的反渗透一段压差在不同外因特征个数下预测结果的对比图。
图5为本发明一个实施例提供的一种污水处理过程参数长窗预测方法的反渗透入口电导率在不同外因特征个数下预测结果的对比图。
图6为本发明一个实施例提供的一种污水处理过程参数长窗预测方法的反渗透一段入口流量在不同外因特征个数下预测结果的对比图。
图7为本发明一个实施例提供的一种污水处理过程参数长窗预测方法的反渗透一段入口流量使用2个外因特征和OCSVM+MDI+KPCA+ExtraTrees预测方案的预测结果。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1-3,为本发明的一个实施例,提供了一种污水处理过程参数长窗预测方法,包括:
S1:采集预测变量数据和特征参数数据,并基于所述预测变量数据和特征参数数据构造数据集。
基于数据集选择预测变量及其相关的特征参数,通过滑动窗口的方法构造多个长窗预测的数据集。
使用数据降维的方法,将高维空间的数据通过某种映射函数投影到低维空间,降低特征子集的维数,得到新的特征集{F1,F2...Fp},其中p为特征集中的特征个数。
可以选取水处理系统中需要预测的过程量参数x与对预测参数存在影响的特征参数{f1,f2,f3...fm},其中m为特征参数的个数;以60s为采样周期,对预测参数x和特征参数{f1,f2,f3...fn}进行采样和预处理,构建时序序列,预处理后的时序矩阵形式如下:
其中,时序矩阵的维度为(m+1)×n,其中m表示特征个数,n表示预处理后的时间序列的长度。
对于长度为n的时间序列{y1...yn-1,yn},和个数为k,长度为n的特征序列{f1,f2...fn},建立参数预测模型步骤如下:
根据滑动窗口中观测视界的大小和预测视界大小,得到样本个数m为:
m=n-oh-fh
其中,n表示长度,oh表示观测视界的大小,fh表示预测视界大小,使用直接多步长窗预测策略,得到特征集F和输出数据Y;使用数据清洗算法,对回归问题的数据集中的异常值进行剔除;使用特征选择算法,剔除不相关或者冗余的特征,减少特征集F的个数,得到一个最优的特征子集F1;使用数据降维的方法,将高维空间中的数据通过某种映射函数投影到低维空间,降低特征子集F1的维数,得到新的特征集使用回归分析的相关算法,对特征集/>和输出数据Y进行训练与预测。
按照预测的时间长度H,设置预测视界的样本个数fh和观测视界的样本个数为oh;按照直接的多步预测策略,使用滑动窗口的方法,将时序预测问题转换为回归问题,得到回归问题所需的时间序列数据集,长度为k=n-fh-oh+1,其中第一个样本的形式如下:
[x1 x2...xoh f11 f12...f1,oh...fm1...fm,oh xoh+fh]
其中,单个样本的长度为(m+1)×oh+1,最后1列为需要预测的数据(输出数据)X,前(m+1)×oh列为重构后的特征数据集(输入数据)F。
使用滑动窗口方法对时间序列分段处理,定义所述时间序列为{y1,y2...yn},其关系表达式为:
其中,n表示时间序列的长度,假设观测视界长度为5,预测视界长度为1,滑动窗口的方法可具体表示为前5列是输入特征的内因部分,第6列是输出数据。
在滑动窗口的处理过程中引入外部特征,定义所述外部特征序列为{f1,f2...fn},输出数据为{y6,y7...yn},引入外部特征的关系表达式为:
其中,n表示时间序列的长度,前5列表示输入特征的外因部分,第6列是输出数据,将所述内因和外因特征相组合,建立内因和外因特征集F与输出数据Y的映射关系,得到长度为n-5的预测时间序列
S2:建立一个以上参数预测模型,分别输入数据集进行预测,并计算不同数据集和建模方案下预测变量的预测结果。
根据参数预测建模的流程,分别建立数据清洗、特征工程、数据降维和回归分析的算法库,以此制定多种参数预测模型。
进一步的,所述预测参数包括压差、浊度、流量和电导率等参数,特征参数是对预测参数有一定影响或者与预测参数变化模式相同的其他参数。
预处理操作包括数据清洗、重采样和归一化两个部分,其中数据清洗指的是根据参数的上下限阈值清理异常值;重采样指的是将原始时间序列按照一定的采样间隔重新采样,减小时间序列数据集的长度,减少数据的冗余;归一化方法采用了鲁棒的归一化方法(RobustScaler),这种归一化方法采用四分位距进行数据的缩放,规避了数据集中异常点的影响,其计算公式如下:
其中,xj和x′j分别表示归一化前后第j个时间点的参数值,xmedian表示时间序列中的中位数,IQR(InterQuartile Range)表示时间序列中的四分位距,其计算方式如下:
将原始数据集{x1,x2...xn}按顺序排列得到新的数据集
将数据集按顺序四等分,如下所示:
其中,表示数据集/>的中位数,/>和/>分别为数据集和/>的中位数。
那么,数据集的四分位距IQR为:
时间序列数据集构造过程中的参数设定,若将重采样的时间间隔freq设置为30分钟,预测时间长度H为2小时,观测视界的样本个数oh为2,那么预测视界的样本个数fh=H/freq=4。
滑动窗口方法是时间序列分析中构造时间相关序列数据组的基本方法。对于时间序列{x1,x2...xn},特征参数的个数为1,其时间序列可表示为{f1,f2...fn},那么时间序列数据集的形式如下:
其中,n表示时间序列的长度,前4列是回归问题的输入数据F,第5列是回归问题的输出数据X。其中,特征数据F中不仅包含了外部特征的历史数据,称为特征数据中的外因,还包含了预测参数的历史数据,称之为特征数据中的内因。
S3:使用R2和MAPE指标,对不同的参数预测模型得到的预测结果进行评价。
使用回归分析的相关算法,对特征集{F1,F2...Fp}和输出数据X进行训练与预测工作,从而得到水处理参数长窗预测的结果,并使用决定系数R2和平均绝对百分比误差MAPE(Mean Absolute Percentage Error)指标对预测结果进行评价,从中选择最佳的模型
使用数据清洗算法,对回归问题的数据集中的异常值进行剔除,将数据集长度减小到k1;使用特征选择算法,剔除不相关或者冗余的特征,减少特征的个数,得到一个最优的特征子集。
表示回归问题的参数预测模型流程,包含了数据清洗、特征选择、数据降维和回归分析四个部分。众所周知的是,参数预测的建模流程往往需要多种算法组成的算法库,以解决多类参数预测的建模问题。一个建模流程中可包含a种数据清洗算法、b种特征选择算法、c种数据降维算法和d种回归分析算法,那么参数预测的建模方案一共有(a×b×c×d)种。
数据清洗方法数据清洗方法包括通过人为设置预测参数的范围,用于提取水处理设备运行时的数据集;包括针对时间序列数据集,通过对数据集中各样本点的异常程度进行打分,从而进行异常点剔除的方法。
数据降维方法都可以降低特征集的维度。特征选择是一种通过计算数据集中每一个特征对目标变量的重要性,得出重要性评分,依据评分进行筛选特征子集的方法;而数据降维方法是一种根据特征与目标变量的映射关系,对特征进行重构的方法。
步骤六中的特征选择方法主要有过滤类方法、包装类方法和嵌入类方法三种,其原理都是通过评分进行特征的选择。其中,过滤类方法使用代理指标对特征集进行评分,包括互信息、相关性系数和敏感性分析等;包装类方法对每个特征子集都训练一个模型,再使用验证集对每个特征子集训练的模型进行评分,代表算法为Random Forest;嵌入类方法指的是在模型搭建过程中使用的特征选择技术,往往通过L1范数,使无关特征的评分趋向于零,代表算法为Lasso。
数据降维方法主要有线性降维和非线性降维两类,通过建立高维空间到低维空间的映射关系,从而减少特征集的维度。其中,线性降维方法主要包括主成分分析(PrincipalComponent Analysis)和基于核函数的主成分分析(Kernel Principal ComponentAnalysis),非线性降维方法主要包括局部线性嵌入(Locally linear embedding)和拉普拉斯特征映射(Laplacian Eigenmaps)。
回归分析方法主要包括线性和非线性两类。其中线性回归的方法主要包括Ridge、Lasso和SGD(Stochastic Gradient Descent);非线性回归的方法主要包括SVR(SupportVector Regression)、KNN(k-Nearest Neighbors)、GBDT(Gradient Boosting DecisionTree)和Random Forest。
选择决定系数R2和平均绝对百分比误差MAPE作为评估模型性能的评价指标。其中,R2和MAPE的定义如下
其中,n表示测试集的样本个数,yi表示真实数据,表示预测值,/>表示真实数据的平均值,当R2越大,MAPE越小时,模型的精度越高。
S4:从所述预测结果中选取预测精度最高的参数预测模型,得到预测数据。通过建立时序数据集的建模流程算法库,通过这些算法可以建立多个建模方案,以此适应不同的参数预测数据集,将时序统计问题转换为简单的回归问题,并使用内因和外因作为特征参数,使用多套的建模流程对多类预测变量进行预测,实现对水处理过程中多类参数的精确预测,有利于工作人员制定合理的水处理设备清洗和维修计划,灵活的处理水处理过程参数预测中的各类情况,提高污水处理的效率。
实施例2
参照图4-7,为本发明另一个实施例,该实施例不同于第一个实施例的是,提供了一种污水处理过程参数长窗预测方法,为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
基于不同的长窗预测数据集和数据建模方案,对水处理过程参数进行长期的时序预测。整个预测工作主要包含以下四个部分。
1)选择预测变量和特征参数并构造数据集:
预测变量来自三种水处理过程设备多介质过滤器、超滤装置和反渗透装置,包括入口流量、压差、浊度和电导率等32个参数。此外,水处理系统中的测量2参数还有液位、温度、压力等180个参数,这些参数都可选作预测变量的特征参数。通过分析特征参数对预测变量的作用关系,选取不同数量的特征参数。基于直接的多步预测策略,实施例中使用不同预测变量下不同数量的特征参数分别构造数据集(如图2所示),以此比较外因对长窗预测的影响,特征参数个数选取为0个、1个和2个。
2)建立参数预测的建模方案
根据参数预测建模的流程,分别建立数据清洗、特征选择、数据降维和回归分析的算法库:实施例中异常样本识别的算法有3种:OCSVM、dbscan、COF;特征选择算法有2种:MDA和MDI;数据降维算法有6种:线性的PCA、batch_PCA、KPCA以及非线性的isomap、LLE、LTSA;回归分析算法有4种:GBDT、Bagging、RandomForest和ExtraTrees。理论上说,使用当前的算法库至少能组成3×2×6×4=144种建模方案,如OCSVM+MDI+PCA+GBDT。
3)使用数据集和建模方案进行预测
使用步骤2中的建模方案,对步骤1中构造的数据集进行训练和测试,本实施例使用控制变量的方法,比较了3种数据集和6套建模方案对预测结果的影响,预测流程如图3所示,包括以下步骤:
内外因选取:确定需要预测的对象,再根据水处理系统的运行原理,选择对预测变量存在影响的特征参数,实施例中选择的特征参数个数设置为0个、1个和2个;
数据读取和清洗:以10min的采样间隔读取预测参数和特征参数数据,并对数据集根据参数的上下限阈值进行初步的数据清洗和Robust归一化操作;
以滑动窗口法构造样本集:基于直接的多步预测策略,使用滑动窗口的方法,构造时间相关序列数据集,其中观测视界长度设置为12,预测时长设置为12H,那么预测视界的长度为12H/10min=72;
使用建模方案进行训练和预测:基于数据清洗、特征选择、数据降维和回归分析的算法库,使用6套建模方案对数据集分别进行训练和预测,得到不同数据集、不同建模方案的预测结果。
对建模方案进行评价:使用R2和MAPE指标,对建模方案的测试结果进行评价,以此比较不同数据集搭建方法、不同建模方案的优劣性。
3)选择最佳的参数预测模型:
根据不同建模方案的评价结果,从中选取最佳的数据集搭建及其对应的建模流程,得到该预测参数对应的最佳参数预测模型。对于不同的预测变量,最优的组合方案也会随之改变。
结合12种建模方案对水处理系统中的反渗透装置的一段入口流量进行12h的长窗预测,以涿州某电厂水处理系统的数据集为例,其中包含了数个传感器测点位置的一段压差、一段浓水流量、出口电导率等20组传感器信息特征。
实验数据:
1)数据集说明:实验选取水处理系统中的反渗透装置中的一段压差、入口电导率和入口流量三个参数作为实验对象,预测参数以外的其他19组作为特征参数。同时,实验将采样间隔设置为10min,选取2020-01-18 00:00:00到2020-12-24 00:00:00共48960个连续时间点作为本实验的数据集。
2)实施例参数设置:为实现反渗透装置一段入口流量的长窗预测,本发明实现了对未来12h的一段入口流量预测模型。同时对于观测的时间长度设置为2h,即对于每一个维度特征的测点数据,取历史2h每隔10min采样一次共12个数据作为样本的输入。
预测结果:
1)外因对预测结果的影响。
特征参数的个数分别设置为0个、1个和2个,使用数据清洗算法OCSVM、特征选择算法MDI、数据降维算法PCA和回归分析算法Bagging对一段压差、入口电导率和入口流量三个参数进行建模,模型的预测结果如表1所示。
通过表1可以发现,对于反渗透装置一段压差,当特征个数为0时,R2指标已经达到了0.9367,MAPE指标达到了2.96%,而加入1个或2个特征对预测结果的影响较小。对反渗透装置入口电导率而言,通过加入反渗透入口ORP和反渗透进水母管温度,可以将预测的R2指标从0.7702提升到0.9785。对反渗透一段入口流量而言,加入反渗透一段压差作为外因特征,能使R2指标从0.5663提升到0.7994,MAPE指标从14.01%降低到8.29%,再加入反渗透一段浓水流量这一特征,能使R2指标进一步提升至0.8859,MAPE指标降低至5.97%。
表1:三种参数使用不同特征个数时的12h长窗预测结果表。
一段压差、入口电导率和入口流量三个参数在不同特征个数下预测精度的提升情况如表2所示。可以发现,加入一个外因能使模型预测性能提升(51.7%+40.2%)/2=46.0%;加入两个外因能使模型预测性能提升(64.3%+54.7%)/2=59.5%。所以,使用外因可以有效提高预测的准确性,是一种有效的方法。三类参数在不同外因特征个数下的预测结果如图4-图6所示。
表2不同特征个数对参数预测性能提升的情况表。
建模方案对预测结果的影响:
根据数据清洗、特征选择、数据降维和回归分析的顺序,建立长窗预测的建模流程,本实施例使用的6种建模方案如表3所示。其中,前三种方案区别是回归分析算法的差异,而后四种方案通过固定回归分析算法,分别使用不同的数据清洗、特征选择和数据降维算法,以此选择最优的方案。
表3:6套建模方案表。
方案1 方案2 方案3 方案4 方案5 方案6
数据清洗 OCSVM OCSVM OCSVM COF OCSVM OCSVM
特征选择 MDI MDI MDI MDI MDA MDI
数据降维 PCA PCA PCA PCA PCA KPCA
回归分析 GBDT Bagging ExtraTrees ExtraTrees ExtraTrees ExtraTrees
使用以上6种预测方案,选择反渗透一段压差和反渗透一段浓水流量这2个参数作为外因特征,对反渗透一段入口流量进行时间尺度为12h的长窗预测,预测结果如表4所示。可以发现,方案6(OCSVM+MDI+KPCA+ExtraTrees)对反渗透装置一段入口流量12h的长窗预测结果最好,其R2指标达到了0.9339,MAPE达到了4.39%,方案6的R2指标和MAPE指标均出现了明显的改善,其预测结果如图7所示。
表4:不同建模方案下反渗透装置一段入口流量12h的长窗预测结果表。
方案1 方案2 方案3 方案4 方案5 方案6
R2 0.6880 0.8859 0.9065 0.9034 0.8951 0.9339
MAPE 0.1196 0.0597 0.0557 0.0553 0.0590 0.0439
综上所述,使用外因和多种建模方案可以有效提高预测结果的准确性,而且,不同的模型适用于水处理系统中的不同参数。所以,通过本发明,可以实现对污水处理中的多类参数的高精度长窗预测(12H),从而实现对水处理设备状态的提前监测,从而制定合理的水处理设备清洗和维修计划,维持供需平衡,保证水处理的效率。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种污水处理过程参数长窗预测方法,其特征在于,包括:
采集预测变量数据和特征参数数据,并基于所述预测变量数据和特征参数数据,通过滑动窗口的方法构造多个长窗预测的数据集,使用滑动窗口方法对时间序列分段处理,定义所述时间序列为{y1,y2...yn},其关系表达式为:
其中,n表示时间序列的长度,前5列表示输入特征的内因部分,第6列是输出数据;
建立一个以上参数预测模型,分别输入数据集进行预测,并计算不同数据集和建模方案下预测变量的预测结果;
所述预测变量来自三种水处理过程设备多介质过滤器、超滤装置和反渗透装置,包括
入口流量、压差、浊度和电导率,水处理系统中的测量参数包括液位、温度、压力,作为预测变量的特征参数;通过分析特征参数对预测变量的作用关系,选取不同数量的特征参数;
使用R2和MAPE指标,对不同的参数预测模型得到的预测结果进行评价;
从所述预测结果中选取预测精度最高的参数预测模型,得到预测数据;
在滑动窗口的处理过程中引入外部特征,定义外部特征序列为{f1,f2...fn},输出数据为{y6,y7…yn}引入外部特征的关系表达式为:
其中,n表示时间序列的长度,前5列表示输入特征的外因部分即外部特征序列,第6列是输出数据,将所述内因和外因特征相组合,建立内因和外因特征集F与输出数据Y的映射关系,得到长度为n-5的预测时间序列
根据参数预测建模的流程,分别建立数据清洗、特征工程、数据降维和回归分析的算法库,以此制定多种参数预测模型;
对于长度为n的时间序列{y1...yn-1,yn},和个数为k,长度为n的特征序列{f1,f2…fn}建立参数预测模型步骤如下:
根据滑动窗口中观测视界的大小和预测视界大小,得到样本个数m为:
m=n-oh-fh
其中,n表示长度,oh表示观测视界的大小,fh表示预测视界大小,使用直接的多步长窗预测策略,基于长窗预测数据集构建方法,得到特征集F和输出数据Y;
使用数据清洗算法,对回归问题的数据集中的异常值进行剔除;
使用特征选择算法,剔除不相关或者冗余的特征,减少特征集F的个数,得到一个最优的特征子集F1
使用数据降维的方法,将高维空间中的数据通过某种映射函数投影到低维空间,降低特征子集F1的维数,得到新的特征集
使用回归分析的相关算法,对特征集和输出数据Y进行训练与预测;
使用不同的数据清洗、特征选择、数据降维和回归分析算法组成一个算法库,以此搭建多种参数预测建模方案,一个建模流程中可包含a种数据清洗算法、b种特征选择算法、c种数据降维算法和d种回归分析算法,那么参数预测的建模方案一共有(a×b×C×d)种;
选择决定系数R2和平均绝对百分比误差MAPE作为评估模型性能的评价指标,其中,R2和MAPE的定义如下:
其中,n表示测试集的样本个数,yi表示真实数据,表示预测值,/>表示真实数据的平均值,当R2越大,MAPE越小时,模型的精度越高。
CN202210134820.4A 2022-02-14 2022-02-14 一种污水处理过程参数长窗预测方法 Active CN114548535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210134820.4A CN114548535B (zh) 2022-02-14 2022-02-14 一种污水处理过程参数长窗预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210134820.4A CN114548535B (zh) 2022-02-14 2022-02-14 一种污水处理过程参数长窗预测方法

Publications (2)

Publication Number Publication Date
CN114548535A CN114548535A (zh) 2022-05-27
CN114548535B true CN114548535B (zh) 2023-10-31

Family

ID=81675370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210134820.4A Active CN114548535B (zh) 2022-02-14 2022-02-14 一种污水处理过程参数长窗预测方法

Country Status (1)

Country Link
CN (1) CN114548535B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160114211A (ko) * 2015-03-23 2016-10-05 대양엔바이오(주) 수 처리 시스템 및 방법
CN106845796A (zh) * 2016-12-28 2017-06-13 中南大学 一种加氢裂化流程产品质量在线预测方法
CN111291937A (zh) * 2020-02-25 2020-06-16 合肥学院 基于支持向量分类与gru神经网络联合的处理污水水质预测方法
CN113837356A (zh) * 2021-08-24 2021-12-24 华南师范大学 基于融合神经网络的污水处理智能预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160114211A (ko) * 2015-03-23 2016-10-05 대양엔바이오(주) 수 처리 시스템 및 방법
CN106845796A (zh) * 2016-12-28 2017-06-13 中南大学 一种加氢裂化流程产品质量在线预测方法
CN111291937A (zh) * 2020-02-25 2020-06-16 合肥学院 基于支持向量分类与gru神经网络联合的处理污水水质预测方法
CN113837356A (zh) * 2021-08-24 2021-12-24 华南师范大学 基于融合神经网络的污水处理智能预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
污水处理过程COD指标集成软测量模型;宋剑杰;《计算机工程与应用》;20110725(第17期);全文 *

Also Published As

Publication number Publication date
CN114548535A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
Ni et al. Deep learning for data anomaly detection and data compression of a long‐span suspension bridge
Le Son et al. Remaining useful lifetime estimation and noisy gamma deterioration process
Zhang et al. Improved multi-scale kernel principal component analysis and its application for fault detection
CN113837356B (zh) 基于融合神经网络的污水处理智能预测方法
US8090676B2 (en) Systems and methods for real time classification and performance monitoring of batch processes
CN111340110B (zh) 一种基于工业过程运行状态趋势分析的故障预警方法
WO2008157498A1 (en) Methods and systems for predicting equipment operation
CN117029968A (zh) 一种流量数据的诊断方法、系统、存储介质和电子设备
CN116542429A (zh) 一种融合时空特征的油藏生产指标机器学习预测方法
CN116736703A (zh) 污水处理的智能监测系统及其方法
Yang et al. Modified grey model predictor design using optimal fractional-order accumulation calculus
Tian et al. Fault detection and diagnosis for non-gaussian processes with periodic disturbance based on AMRA-ICA
Wang et al. Early warning of reciprocating compressor valve fault based on deep learning network and multi-source information fusion
CN114548535B (zh) 一种污水处理过程参数长窗预测方法
CN116779172A (zh) 一种基于集成学习的肺癌疾病负担风险预警方法
CN116825253A (zh) 基于特征选择的热轧带钢力学性能预测模型的建立方法
CN115600102B (zh) 基于船舶数据的异常点检测方法及装置、电子设备、介质
Karaoglan et al. A regression control chart for autocorrelated processes
Jiang et al. Joint probability density and double-weighted independent component analysis for multimode non-Gaussian process monitoring
JP7326872B2 (ja) 推定装置、推定方法及びプログラム
Wang et al. SPA‐Based Modified Local Reachability Density Ratio wSVDD for Nonlinear Multimode Process Monitoring
Said et al. Improved dynamic optimized kernel partial least squares for nonlinear process fault detection
Zhao et al. Adaptive moving window MPCA for online batch monitoring
JP2002108412A (ja) モデル構築方法およびモデル構築システム
CN112508320B (zh) 一种批生产的自动过程阶段划分工作流

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant