CN114563988A - 一种基于随机森林算法的水厂智能pac投加方法及系统 - Google Patents

一种基于随机森林算法的水厂智能pac投加方法及系统 Download PDF

Info

Publication number
CN114563988A
CN114563988A CN202210093342.7A CN202210093342A CN114563988A CN 114563988 A CN114563988 A CN 114563988A CN 202210093342 A CN202210093342 A CN 202210093342A CN 114563988 A CN114563988 A CN 114563988A
Authority
CN
China
Prior art keywords
pac
value
random forest
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210093342.7A
Other languages
English (en)
Inventor
柯智元
金红达
何琦枫
孙建彬
谢建勋
李梦茹
付炜炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Supcon Information Industry Co Ltd
Original Assignee
Zhejiang Supcon Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Supcon Information Industry Co Ltd filed Critical Zhejiang Supcon Information Industry Co Ltd
Priority to CN202210093342.7A priority Critical patent/CN114563988A/zh
Publication of CN114563988A publication Critical patent/CN114563988A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41885Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32339Object oriented modeling, design, analysis, implementation, simulation language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于随机森林算法的水厂智能PAC投加方法,克服了现有技术中PAC投加时没有实现添加多种加药方案,不能做到根据现场环境动态调节更为合适的加药算法的问题,方法包括下列步骤:S1:利用基于随机森林的机器学习算法,构建随机森林PAC投加预测模型;S2:根据模型测试正确率自动选择最优的随机森林PAC投加预测模型;S3:利用多种其他机器学习算法,构建多种算法下的PAC投加预测模型;S4:根据所设指标数据的变化动态调节使用优选的PAC投加预测模型进行PAC投加。还提供了一种基于随机森林算法的水厂智能PAC投加系统。利用大数据样本和多种机器学习算法构建多种训练模型,并能根据所设参数的变化动态调节使用优选的投加方案。

Description

一种基于随机森林算法的水厂智能PAC投加方法及系统
技术领域
本发明涉及水厂智能加药技术领域,特别涉及了一种基于随机森林算法的水厂智能PAC投加方法及系统。
背景技术
自来水作为生产生活不可缺少的一部分,每年都有着规模庞大的消耗量。水厂的净水处理过程中,PAC投加环节是净化工艺中的核心工艺,PAC是聚合氯化铝,是一种无机物,一种新兴净水材料、无机高分子混凝剂,简称聚铝。传统的水厂PAC投加量主要依赖工作人员的经验值判断,并且在药剂投放过程中存在非线性、大滞后、水质突变等情况,人为操作很难准确进行投加或应对现场突发情况。
如中国专利局2018年7月6日公开了一种名称为水厂智能加药控制系统及其控制方法的发明,其公开号为CN108255056A,该发明包括智能加药装置以及智能配药装置,还包括加药上位机、水厂上位机以及信号采集装置,智能加药装置包括加药控制柜,加药控制柜中集成有加药PAC控制器,通过人工神经网络不断学习,根据滤前水浊度设定值和实际值之间的差值,采用模糊控制的方法,精细微调投矾量,使滤前水浊度控制到设定值的附近。整个配药、加药过程可以实现全自动化,且控制精确。但是该发明所描述的系统主要是基于上/下位机和电控单元组成,且没有详细说明系统如何进行自学习。
中国专利局2021年9月24日公开了一种名称为一种基于数字孪生的净水厂智能加药控制系统及方法的发明,其公开号为CN113433910A,该发明建立加药间数字孪生体;通过数据采集设备采集物理加药间运行过程中的实时监测数据,并通过网络传输系统传输至管理平台;管理平台通过网络传输系统将实时监测数据传输至加药间数字孪生体;加药间数字孪生体动态映射所述物理加药间的生产状况;通过三维可视化系统对加药间数字孪生体进行三维可视化监控与展示;管理平台基于实时监测数据,利用LSTM神经网络进行加药量预测得到加药量预测信息,根据加药量预测信息和实时监测数据得到调整控制信息;物理加药间根据调整控制信息对加药量进行调整。能够解决水厂絮凝投药方式浪费严重的问题。但该发明没有实现添加多种加药方案,不能做到根据现场环境动态调节更为合适的加药算法,同时平台不支持查询PAC和其它变量参数的历史值查询以及一个趋势值的分析。因此通过智能化软件系统来自动预测分析和控制水厂的PAC投加,有着重要的现实意义。
发明内容
本发明的目的是克服现有技术中存在的问题,提供了一种基于随机森林算法的水厂智能PAC投加方法及系统,利用大数据样本和多种机器学习算法构建多种训练模型,并能根据所设参数的变化动态调节使用优选的投加方案,并且通过物联网平台一键智能下发,在web浏览器中还可以查看各个参数的实时值情况以及历史和趋势值。
为了实现上述目的,本发明采用以下技术方案:一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,它包括下列步骤:
S1:利用基于随机森林的机器学习算法,构建随机森林PAC投加预测模型;
S2:根据模型测试正确率自动选择最优的随机森林PAC投加预测模型;
S3:利用多种其他机器学习算法,构建多种算法下的PAC投加预测模型;
S4:根据所设指标数据的变化动态调节使用优选的PAC投加预测模型进行PAC投加。
随机森林模型是一种现有技术,是利用多棵树对样本进行训练并预测的一种分类器。决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。机器学习也是现有技术中常见的方法,能通过经验自动改进的计算机算法的研究,用数据或以往的经验,以此优化计算机程序的性能标准。机器学习算法包括线性回归、Logistic回归、线性判别分析以及朴素贝叶斯等算法,都是现有技术中京城出现的,利用这些机器学习算法进行建模,也是现有技术中有的。
本发明利用大数据样本和多种机器学习算法构建多种PAC投加预测模型模型,并能根据所设参数的变化动态调节使用优选的PAC投加预测模型,然后将选择的PAC投加预测模型得到的PAC投加预测值通过物联网平台下发,解决了用户PAC投加过程中需要手动控制加药参数不及时造成出厂水质的经常波动,甚至超出出水标准等情况。同时在解决准确控制加药量的基础上,也带来了一定的经济效益。
作为优选,所述的步骤S1的具体步骤为:
S1.1:从历史数据库中读取进水流量、出水流量、进水浊度、出水浊度、温度、PH、实际PAC投加量等指标数据,去除异常数据(0或空),建立数据样本,其中一部分作为训练样本,剩下的作为测试样本,一个样本包括一行完整的数据;
S1.2:假设训练样本行数为N行,对训练样本里面的样本进行N次重复抽样,得到含N个样本的训练子集(一行可能被多次选中),重复m次,得到m个含N个样本的训练子集;
S1.3:按照同样的方法构建决策树,直到决策树数目达到默认值a,完成随机森林PAC投加预测模型的创建;
S1.4:利用测试样本,对随机森林PAC投加预测模型进行验证并对测试结果进行评估,计算模型的预测正确率。
本发明中的随机森林算法能处理很高维度的数据(也就是很多特征的数据),并且不用做特征选择。在创建随机森林的时候,使用的是无偏估计,模型泛化能力比较强。训练速度快,容易做成并行化方法(训练时各个决策树之间是相互独立的)。
作为优选,所述的步骤S1.1中:
指标数据包括进水浊度、出水浊度、进水流量、出水流量、温度、PH以及实际PAC投加流量,其中实际PAC投加流量是我们预测的y变量/因变量,其余都是自变量或特征。一组完整的指标数据作为一个训练样本值,将所有样本数据读取到集合中,构建训练样本。以进水浊度、出水浊度、进水流量、出水流量、温度以及PH作为输入,训练得到PAC预测值,与实际PAC投加流量进行对比。浊度表示水的混浊程度。按照国际标准化组织ISO的定义,浊度是由于不溶性物质的存在而引起液体的透明度降低的一种量度。
作为优选所述的步骤S1.2中,进行N次重复抽样:
每一个训练样本值为一行,设训练样本行数为N(可由配置文件进行修改),从训练样本中随机取出一个样本放入采样集中,再把该样本放回原训练样本中,经过N次随机采样操作,得到含N个样本的采样集(一行可能被多次选中)。一个样本同样包含一组完整的指标数据。
作为优选,所述的步骤S1.3中,构建决策树:
A1:创建根节点,开始递归检查;
A2:判断创建的根节点是否是叶子节点,若是,则标记isLeaf为真,并用叶子的类标记Class,不会递归超过这一点;
A3:创建一个左右节点并将它们的引用保存在该节点的左右字段中,出于调试目的,还记录了生成编号,随机挑选出Ms个特征,本申请中为自变量进水浊度、出水浊度、进水流量、出水流量、温度、PH;
A4:对于所有Ms特征,首先按某一个特征对数据记录进行排序,然后从最低到最高查看数据记录中的值,若值i不等于值i+1,则在“indicesToCheck”列表中记录i,这加速了分裂,若列表indicesToCheck中的索引数量大于MIN_SIZE_TO_CHECK_EACH(默认值为10),则只检查每个INDEX_SKIP(2)索引的熵,否则检查所有的熵;
A5:如果e变量即熵值低于迄今为止的最小值,则将其设为最小值,依次计算每一个特征的总熵值,得到最小的总熵值,记录该特征,设为左右节点,总熵是通过获取分割点以下和分割点上方的子熵来计算的,子熵是首先通过得到这个子数据矩阵中每个类的比例来计算的,然后计算熵,然后对下子熵和上子熵进行加权平均以获得总熵;
A6:检查新生成的左右节点,若节点只有一条记录,将其标记为叶子并将其类设置为等于记录的类,如果它的记录少于MIN_NODE_SIZE(最小节点数5),那么我们将其标记为叶子并将其类设置为多数类(majority class);如果它有更多,那么我们对其数据样本进行手动检查,那么我们对其数据记录进行手动检查,如果所有记录都具有相同的类,则将其标记为叶子,如果没有,那么我们在该节点上继续递归检查。
通过特征的选择和历史数据的样本构建,训练出学习模型,从而实现PAC的智能预测。信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的生成过程中,就使用了熵来作为样本最优属性划分的判据。信息熵的值越小,则D的纯度越高,而决策树学习的关键在于如何选择最优的划分属性,所谓的最优划分属性,对于二元分类而言,就是尽量使划分的样本属于同一类别,即“纯度”最高的属性。
作为优选,所述的步骤S1.4中,验证测试数据:测试样本记录中的一个样本值根据每个节点表示的变量遍历其中一颗决策树,最终到达一个叶节点,基于该样本值结束的叶节点的值,该决策树被分配一个预测输出;同一个样本值经过所有的a个小决策树,并且每一个树都有一个预测输出;通过对这a棵小树的预测输出的多数投票得到该样本值的最终预测值。计算同一个样本数据经历每一个决策树后得到的预测输出,将所有预测输出根据多数投票得到最终预测输出,结果更加准确。
作为优选,所述的步骤S1.4中,对测试结果进行评估:
对于测试集为:
D={d1,d2,...,dλ},
设为:
C'={c1’,c2’,...,cL’},
将某个测试样本dμ的测试结果cμ和正确分类cμ’进行比对,相同则记为1,不同则记为0,得到测试集D的分类正确率为:
Figure BDA0003490065490000071
其中,dλ表示测试集中的第λ个样本,λ表示测试集中的样本数量,C’表示测试集中实际PAC投加量的集合,cL’表示第L个样本的实际PAC投加量,L=λ,cμ表示测试样本dμ经过随机森林PAC投加预测模型得到的预测值,cμ’表示测试样本dμ中实际PAC投加量。计算得到的随机森林PAC投加预测模型的预测准确率,便于之后再多个模型中选择最优模型。
作为优选,所述的步骤S2具体步骤为:
对随机森林PAC投加预测模型进行修正:采集指标数据的现场实时数据并存入历史数据库,定时利用新的历史数据库,构建更大数据量的训练样本,重复步骤S1.1-S1.4,训练得到新的随机森林PAC投加预测模型,并根据测试结果准确度自动选择使用新模型或者是保留旧模型,从而增加PAC预测的精确性。在使用过程中根据不断扩充的数据样本,构建新的学习训练模型,并通过测试数据的自我验证,来决定是否启用新的模型,增加了预测的精确程度。
作为优选,所述的步骤S4中,机器学习算法库中的不同算法会自动根据对应模型计算出PAC预测值,但是控制下发只能由其中一种方案进行。当用户开启“自动切换最优算法”功能时,后台自动监测相关指标,通过消息机制反馈给计算模块。具体表现为:
S4.1:若当前浊度大于用户设定值,遍历所有模型预测PAC值,得到若干PAC预测值,与当前所使用的的模型预测出的PAC预测值比较,得到所有大于当前PAC预测值的数值集合,并将数值由大到小进行排序;
S4.2:为了在降低投加成本和降低浊度之间做出一个平衡性的取舍,设集合中元素个数为N,N/2向上取整得到M,将M作为索引取到集合中的PAC预测值,作为最终PAC投加值进行持续投加;
S4.3:在以最终PAC投加值进行投加时开始计时,判断在此之后的t时间内,浊度是否低于设定值,若仍低于,则重复上述步骤,得到新的PAC预测值的数值集合,选择集合中最大的PAC预测值进行投加;在超过连续24小时内没有收到浊度超标提示时,系统根据各个方案PAC预测值,自动切换比当前模型得到的预测值小的模型进行控制,以在一定程度上节省加药成本。
选择浊度是因为一般认为,评估沉淀池过滤能力的指标主要是滤后浊度,出厂水浊度和出/入水流量,国标规定供水浊度应小于1NTU,但是每个自来水厂的浊度指标会更加严苛,通常在0.3NTU以下,为了使该值对各水厂更具参考意义,遂开放给用户进行手动设置。
一种基于随机森林算法的水厂智能PAC投加系统,其特征在于,包括:
物联智控数据服务平台:负责统一采集下位机PLC数据,屏蔽底层不同协议,并存入历史运行数据库和实时运行数据库,通过一定的清洗手段和异常处理,构建合适的训练样本,主要数据参数包括进水浊度、出水浊度、进水流量、出水流量、温度、PH、实际PAC投加流量等;
加药方案管理模块:多种算法对数据样本进行计算学习,得出不同的学习模型,通过方案管理模块添加至系统中,用户可选择其中一种方案以达到对关于PAC投加的下位机进行控制;
机器学习算法服务模块:多种算法对数据样本进行计算学习,得出不同的学习模型,接收数据参数所对应的实时运行数据反馈,不断修正学习模型;
预测结果统计模块:定时统计相关的实时和历史数据,构建仪表盘以展示在web页面。
根据不同的算法实现,预测出对应的PAC投加值,通过一定的计算手段动态切换下发控制值的算法。提供了提供一个基于web端的可视化可扩展的智能PAC投加系统,利用大数据样本和多种机器学习算法构建多种训练模型,并能根据所设参数的变化动态调节使用优选的投加方案,并且通过物联网平台一键智能下发。在web浏览器中还可以查看各个参数的实时值情况以及历史和趋势值,且后期可以对加药算法进行扩展。
因此,本发明具有如下有益效果:1、本发明结合了可视化统计分析技术,可扩展的算法方案,以及适时自动下发预测值联动,形成了一套自我学习,满足水厂智能PAC投加的闭环系统,解决了用户PAC投加过程中需要手动控制加药参数不及时造成出厂水质的经常波动,甚至超出出水标准等情况;2、本发明在解决准确控制加药量的基础上,提高了经济效益;3、利用大数据样本和多种机器学习算法构建多种训练模型,并能根据现场环境和实时浊度自动动态调节使用优选的投加方案,达到进一步优化PAC智能化投加,节约成本;4、本发明中的随机森林算法能处理很高维度的数据(也就是很多特征的数据),并且不用做特征选择;且在创建随机森林的时候,使用的是无偏估计,模型泛化能力比较强,训练速度快,容易做成并行化方法。
附图说明
图1为本发明方法的具体操作流程图;
图2为本发明系统结构示意图;
图3为本发明中随机森林PAC投加预测模型创建流程图;
图4为本发明中随机森林PAC投加预测模型测试流程图;
图5为本发明中训练样本数据表格;
图6为本发明决策树示例图;
图7为本发明测试结果评估流程图;
图中:1、物联智控数据服务平台;2、加药方案管理模块;3、机器学习算法服务模块;4、预测结果统计模块;5、web页面。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
如图1所示的实施例中,可以看到一种基于随机森林算法的水厂智能PAC投加方法,其操作流程为:步骤一,利用基于随机森林的机器学习算法,构建随机森林PAC投加预测模型;步骤二,根据模型测试正确率自动选择最优的随机森林PAC投加预测模型;步骤三,利用多种其他机器学习算法,构建多种算法下的PAC投加预测模型;步骤四,根据所设指标数据的变化动态调节使用优选的PAC投加预测模型进行PAC投加。
本发明根据不同的算法实现,预测出对应的PAC投加值,通过一定的计算手段动态切换下发控制值的算法。建模时,通过特征的选择和历史数据的样本构建,训练出学习模型,从而实现PAC的智能预测,并能在使用过程中根据不断扩充的数据样本,构建新的学习训练模型,并通过测试数据的自我验证,来决定是否启用新的模型,增加了预测的精确程度。设计了浊度、流量、PAC投加的一种关系模型,定时计算并自动切换最优控制方案,在投加精确性和经济效益之间达到较为平衡的水平。且本发明中的随机森林算法能处理很高维度的数据(也就是很多特征的数据),并且不用做特征选择。在创建随机森林的时候,使用的是无偏估计,模型泛化能力比较强。训练速度快,容易做成并行化方法(训练时各个决策树之间是相互独立的)。
如图2所示的实施例中,可以看到一种基于随机森林算法的水厂智能PAC投加系统,整个系统框架由物联智控数据服务平台1、加药方案管理模块2、机器学习算法服务模块3以及预测结果统计模块4个模块组成。其中物联智控数据服务平台负责统一采集下位机PLC数据,屏蔽底层不同协议,并存入历史运行数据库和实时运行数据库,通过一定的清洗手段和异常处理,构建合适的训练样本,主要数据参数包括进水浊度、出水浊度、进水流量、出水流量、温度、PH、实际PAC投加流量等;加药方案管理模块通过方案管理模块添加至系统中,用户可选择其中一种方案以达到对关于PAC投加的下位机进行控制;机器学习算法服务模块利用多种算法对数据样本进行计算学习,得出不同的学习模型,接收数据参数所对应的实时运行数据反馈,不断修正学习模型;预测结果统计模块负责定时统计相关的实时和历史数据,构建仪表盘以展示在web页面5。
根据不同的算法实现,预测出对应的PAC投加值,通过一定的计算手段动态切换下发控制值的算法。提供了提供一个基于web端的可视化可扩展的智能PAC投加系统,利用大数据样本和多种机器学习算法构建多种训练模型,并能根据所设参数的变化动态调节使用优选的投加方案,并且通过物联网平台一键智能下发。在web浏览器中还可以查看各个参数的实时值情况以及历史和趋势值,且后期可以对加药算法进行扩展。
下面继续通过具体的例子,进一步说明本发明的技术方案和技术效果,以下实例是对本发明的解释而本发明并不局限于以下实例。
第一步:利用基于随机森林的机器学习算法,构建随机森林PAC投加预测模型
如图3和图4所示,首先从历史数据库中读取进水流量、出水流量、进水浊度、出水浊度、温度、PH、实际PAC投加量等指标数据,其中实际PAC投加流量是我们预测的y变量/因变量,其余都是自变量或特征。一组完整的指标数据作为一个训练样本值,去除异常数据(0或空),将所有样本数据读取到集合中,构建训练样本,如图5所示。数据样本中的其中一部分作为训练样本,剩下的作为测试样本,一个样本包括一行完整的数据。
假设训练样本行数为N行(可由配置文件进行修改),对训练样本里面的样本进行N次重复抽样:从训练样本中随机取出一个样本放入采样集中,再把该样本放回原训练样本中,经过N次随机采样操作,得到含N个样本的训练子集(一行可能被多次选中)。重复m次,得到m个含N个样本的训练子集。
构建决策树:
A1:创建根节点,开始递归检查;
A2:判断创建的根节点是否是叶子节点,若是,则标记isLeaf为真,并用叶子的类标记Class,不会递归超过这一点;
A3:创建一个左右节点并将它们的引用保存在该节点的左右字段中,出于调试目的,还记录了生成编号,随机挑选出Ms个特征,本申请中为自变量进水浊度、出水浊度、进水流量、出水流量、温度、PH;
A4:对于所有Ms特征,首先按某一个特征对数据记录进行排序,然后从最低到最高查看数据记录中的值,若值i不等于值i+1,则在“indicesToCheck”列表中记录i,这加速了分裂,若列表indicesToCheck中的索引数量大于MIN_SIZE_TO_CHECK_EACH(默认值为10),则只检查每个INDEX_SKIP(2)索引的熵,否则检查所有的熵;
A5:如果e变量即熵值低于迄今为止的最小值,则将其设为最小值,依次计算每一个特征的总熵值,得到最小的总熵值,记录该特征,设为左右节点,总熵是通过获取分割点以下和分割点上方的子熵来计算的,子熵是首先通过得到这个子数据矩阵中每个类的比例来计算的,然后计算熵,然后对下子熵和上子熵进行加权平均以获得总熵;
A6:检查新生成的左右节点,若节点只有一条记录,将其标记为叶子并将其类设置为等于记录的类,如果它的记录少于MIN_NODE_SIZE(最小节点数5),那么我们将其标记为叶子并将其类设置为多数类(majority class);如果它有更多,那么我们对其数据样本进行手动检查,那么我们对其数据记录进行手动检查,如果所有记录都具有相同的类,则将其标记为叶子,如果没有,那么我们在该节点上继续递归检查。最终得到决策树如图6所示。
按照同样的方法构建决策树,直到决策树数目达到默认值100,完成随机森林PAC投加预测模型的创建;利用测试样本,对随机森林PAC投加预测模型进行验证并对测试结果进行评估,计算模型的预测正确率。
对测试结果进行验证:
测试样本记录中的一个样本值根据每个节点表示的变量遍历其中一颗决策树,最终到达一个叶节点,基于该样本值结束的叶节点的值,该决策树被分配一个预测输出;同一个样本值经过所有的a个小决策树,并且每一个树都有一个预测输出;通过对这a棵小树的预测输出的多数投票得到该样本值的最终预测值。计算同一个样本数据经历每一个决策树后得到的预测输出,将所有预测输出根据多数投票得到最终预测输出,结果更加准确。
对测试结果进行评估:
对于测试集为:
D={d1,d2,...,dλ},
设为:
C’={c1',c2',...,cL’},
将某个测试样本dμ的测试结果cμ和正确分类cμ'进行比对,相同则记为1,不同则记为0,得到测试集D的分类正确率为:
Figure BDA0003490065490000141
其中,dλ表示测试集中的第λ个样本,λ表示测试集中的样本数量,C'表示测试集中实际PAC投加量的集合,cL’表示第L个样本的实际PAC投加量,L=λ,cμ表示测试样本dμ经过随机森林PAC投加预测模型得到的预测值,cμ'表示测试样本dμ中实际PAC投加量。计算得到的随机森林PAC投加预测模型的预测准确率,便于之后再多个模型中选择最优模型。
第二步:根据模型测试正确率自动选择最优的随机森林PAC投加预测模型
对随机森林PAC投加预测模型进行修正:采集指标数据的现场实时数据并存入历史数据库,定时利用新的历史数据库,构建更大数据量的训练样本,重复步骤S1.1-S1.4,训练得到新的随机森林PAC投加预测模型,并根据测试结果准确度自动选择使用新模型或者是保留旧模型,从而增加PAC预测的精确性。在使用过程中根据不断扩充的数据样本,构建新的学习训练模型,并通过测试数据的自我验证,来决定是否启用新的模型,增加了预测的精确程度。
第三步:利用多种其他机器学习算法,构建多种算法下的PAC投加预测模型
根据不同的算法实现,预测出对应的PAC投加值,通过一定的计算手段动态切换下发控制值的算法。
第四步:根据所设指标数据的变化动态调节使用优选的PAC投加预测模型进行PAC投加
机器学习算法库中的不同算法会自动根据对应模型计算出PAC预测值,但是控制下发只能由其中一种方案进行。当用户开启“自动切换最优算法”功能时,后台自动监测相关指标,通过消息机制反馈给计算模块。
因为一般认为,评估沉淀池过滤能力的指标主要是滤后浊度,出厂水浊度和出/入水流量,国标规定供水浊度应小于1NTU,但是每个自来水厂的浊度指标会更加严苛,通常在0.3NTU以下,为了使该值对各水厂更具参考意义,遂开放给用户进行手动设置。
具体表现为:
若当前浊度大于用户设定值,遍历所有模型预测PAC值,得到若干PAC预测值,与当前所使用的的模型预测出的PAC预测值比较,得到所有大于当前PAC预测值的数值集合,并将数值由大到小进行排序;为了在降低投加成本和降低浊度之间做出一个平衡性的取舍,设集合中元素个数为N,N/2向上取整得到M,将M作为索引取到集合中的PAC预测值,作为最终PAC投加值进行持续投加;在以最终PAC投加值进行投加时开始计时,判断在此之后的2小时内,浊度是否低于设定值,若仍低于,则重复上述步骤,得到新的PAC预测值的数值集合,选择集合中最大的PAC预测值进行投加;在超过连续24小时内没有收到浊度超标提示时,系统根据各个方案PAC预测值,自动切换比当前模型得到的预测值小的模型进行控制,以在一定程度上节省加药成本。
本发明利用大数据样本和多种机器学习算法构建多种PAC投加预测模型模型,并能根据所设参数的变化动态调节使用优选的PAC投加预测模型,然后将选择的PAC投加预测模型得到的PAC投加预测值通过物联网平台下发,解决了用户PAC投加过程中需要手动控制加药参数不及时造成出厂水质的经常波动,甚至超出出水标准等情况。同时在解决准确控制加药量的基础上,也带来了一定的经济效益。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (10)

1.一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,它包括下列步骤:
S1:利用基于随机森林的机器学习算法,构建随机森林PAC投加预测模型;
S2:根据模型测试正确率自动选择最优的随机森林PAC投加预测模型;
S3:利用多种其他机器学习算法,构建多种算法下的PAC投加预测模型;
S4:根据所设指标数据的变化动态调节使用优选的PAC投加预测模型进行PAC投加。
2.根据权利要求1所述的一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,所述的步骤S1的具体步骤为:
S1.1:从历史数据库中读取指标数据,去除异常数据,建立数据样本,其中一部分作为训练样本,剩下的作为测试样本;
S1.2:对为N行的训练样本里面的样本进行N次重复抽样,得到含N个样本的训练子集,重复m次,得到m个含N个样本的训练子集;
S1.3:构建决策树,直到决策树数目达到默认值a,完成随机森林PAC投加预测模型的创建;
S1.4:利用测试样本,对随机森林PAC投加预测模型进行验证并对测试结果进行评估,计算模型的预测正确率。
3.根据权利要求3所述的一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,所述的步骤S1.1中:
指标数据包括:自变量和因变量,自变量包括进水浊度、出水浊度、进水流量、出水流量、温度以及PH,因变量包括实际PAC投加流量。
4.根据权利要求3或4所述的一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,所述的步骤S1.2中,进行N次重复抽样:
从行数为N的训练样本中随机取出一个样本放入采样集中,再把该样本放回训练样本中,经过N次随机采样操作,得到含N个样本的采样集。
5.根据权利要求3或4所述的一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,所述的步骤S1.3中,构建决策树:
A1:创建根节点,开始递归检查;
A2:判断创建的根节点是否是叶子节点,若是,则标记为真,并用叶子的类标记Class;
A3:创建一个左右节点并将它们的引用保存在该节点的左右字段中,随机挑选出Ms个特征;
A4:对于所有Ms特征,首先按某一个特征对数据记录进行排序,然后从最低到最高查看数据记录中的值,若值i不等于值i+1,则在列表中记录i,若列表中的索引数量大于默认值,则只检查每个索引的熵,否则检查所有的熵;
A5:如果总熵值低于迄今为止的最小值,则将其设为最小值,依次计算每一个特征的总熵值,得到最小的总熵值,记录该特征,设为左右节点;
A6:检查新生成的左右节点,若节点只有一条记录,将其标记为叶子并将其类设置为等于记录的类,如果它的记录少于最小节点数,那么我们将其标记为叶子并将其类设置为多数类;如果它有更多,那么我们对其数据样本进行手动检查,如果所有记录都具有相同的类,则将其标记为叶子,如果没有,那么我们在该节点上继续递归检查。
6.根据权利要求1所述的一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,所述的步骤S1.4中,验证测试数据:测试样本记录中的一个样本值根据每个节点表示的变量遍历其中一颗决策树,最终到达一个叶节点,基于该样本值结束的叶节点的值,该决策树被分配一个预测输出;同一个样本值经过所有的a个小决策树,并且每一个树都有一个预测输出;通过对这a棵小树的预测输出的多数投票得到该样本值的最终预测值。
7.根据权利要求8所述的一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,所述的步骤S1.4中,对测试结果进行评估:
将测试集:
D={d1,d2,…,dλ},
设为:
C’={c1’,c2’,…,cL’},
将某个测试样本dμ的测试结果cμ和正确分类cμ’进行比对,相同则记为1,不同则记为0,得到测试集D的分类正确率为:
Figure FDA0003490065480000031
其中,dλ表示测试集中的第λ个样本,λ表示测试集中的样本数量,C’表示测试集中实际PAC投加量的集合,cL’表示第L个样本的实际PAC投加量,L=λ,cμ表示测试样本dμ经过随机森林PAC投加预测模型得到的预测值,cμ’表示测试样本dμ中实际PAC投加量。
8.根据权利要求2所述的一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,所述的步骤S2中进一步表示为:采集指标数据的现场实时数据并存入历史数据库,构建更大数据量的数据样本,重复步骤S1.1-S1.4,训练新的随机森林PAC投加预测模型,并根据测试结果准确度自动选择使用新模型或者是保留旧模型。
9.根据权利要求2所述的一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,所述的步骤S4进一步表示为:
S4.1:若当前浊度大于用户设定值,遍历所有模型预测PAC值,与当前所使用的的模型预测出的PAC预测值比较,得到大于当前PAC预测值的数值集合,并将数值由大到小进行排序;
S4.2:设集合中元素个数为N,N/2向上取整得到M,将M作为索引取到集合中的PAC预测值,作为最终PAC投加值;
S4.3:在以最终PAC投加值进行投加时开始计时,判断在此之后的t时间内,浊度是否低于设定值,若仍低于,则重复步骤S4.1,得到新的PAC预测值的数值集合,选择集合中最大的PAC预测值进行投加;若连续24小时内都未收到浊度超标提示时,自动切换比当前模型得到的预测值小的模型进行PAC投加。
10.一种基于随机森林算法的水厂智能PAC投加系统,应用于用权利要求1-9中任意一项权利要求所述的一种基于随机森林算法的水厂智能PAC投加方法,其特征在于,包括:
物联智控数据服务平台:采集实时指标数据,并存入历史运行数据库和实时运行数据库,通过一定的清洗手段和异常处理,构建合适的训练样本;
加药方案管理模块:将不同的学习模型添加至物联智控数据服务平台;
机器学习算法服务模块:多种算法对数据样本进行计算学习,得出不同的学习模型;
预测结果统计模块:定时统计相关的实时和历史数据,构建仪表盘以展示在web页面。
CN202210093342.7A 2022-01-26 2022-01-26 一种基于随机森林算法的水厂智能pac投加方法及系统 Pending CN114563988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210093342.7A CN114563988A (zh) 2022-01-26 2022-01-26 一种基于随机森林算法的水厂智能pac投加方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210093342.7A CN114563988A (zh) 2022-01-26 2022-01-26 一种基于随机森林算法的水厂智能pac投加方法及系统

Publications (1)

Publication Number Publication Date
CN114563988A true CN114563988A (zh) 2022-05-31

Family

ID=81714788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210093342.7A Pending CN114563988A (zh) 2022-01-26 2022-01-26 一种基于随机森林算法的水厂智能pac投加方法及系统

Country Status (1)

Country Link
CN (1) CN114563988A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115108595A (zh) * 2022-06-27 2022-09-27 重庆远通电子技术开发有限公司 基于机器学习的净水剂智能投加方法
CN115329661A (zh) * 2022-07-22 2022-11-11 上海环保(集团)有限公司 一种智能投药模型建模、智能投药体系创建、投药方法
CN115718466A (zh) * 2022-11-21 2023-02-28 广东工业大学 基于随机森林和层次分析法的数字孪生车间故障预测方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1464346A (zh) * 2002-06-03 2003-12-31 深圳市清泉水系统工程设备有限公司 自适应控制投药设备及其方法
JP2008279412A (ja) * 2007-05-14 2008-11-20 Kurita Water Ind Ltd 薬注制御方法
KR20100115852A (ko) * 2009-04-21 2010-10-29 (주)대우건설 기계적 지도학습법에 의해 산출된 상대적 막오염지수와 이를 반영한 응집기작에 따른 응집제 주입량 자동 제어 시스템 및 방법
CN103011356A (zh) * 2012-08-15 2013-04-03 重庆水务集团股份有限公司 一种高浊度水系自动投药控制方法
CN106168759A (zh) * 2016-07-12 2016-11-30 武汉长江仪器自动化研究所有限公司 一种基于人工神经网络算法的混凝投药控制方法和系统
CN110308705A (zh) * 2019-06-19 2019-10-08 上海华高汇元工程服务有限公司 一种基于大数据和人工智能水质预测的设备控制方法
CN111320246A (zh) * 2020-03-12 2020-06-23 青岛道斯康环保科技有限公司 一种基于多变量控制的混凝剂智能精确投加控制系统
CN111718028A (zh) * 2020-06-24 2020-09-29 南京邮电大学 一种基于大数据分析的净水厂混凝剂投加智能化建模方法
CN111777217A (zh) * 2020-06-24 2020-10-16 南京邮电大学 一种基于前馈-反馈复合控制的水厂加矾控制方法
CN112419095A (zh) * 2020-12-01 2021-02-26 山东锋士信息技术有限公司 一种基于历史数据和实时数据反馈实现的精准加药方法
CN112456621A (zh) * 2020-11-24 2021-03-09 四川齐力绿源水处理科技有限公司 一种絮凝智能加药控制系统及控制方法
CN113281229A (zh) * 2021-02-09 2021-08-20 北京工业大学 一种基于小样本下多模型自适应大气pm2.5浓度预测方法
CN113433910A (zh) * 2021-06-30 2021-09-24 武汉理工大学 一种基于数字孪生的净水厂智能加药控制系统及方法
CN113643061A (zh) * 2021-08-12 2021-11-12 广州迈量科技有限公司 一种基于大数据机器学习智能投放系统
CN113687040A (zh) * 2021-07-28 2021-11-23 广州杰赛科技股份有限公司 基于决策树算法的水厂实时投药量预测方法、装置及介质
CN113683169A (zh) * 2021-09-18 2021-11-23 深圳市科荣软件股份有限公司 一种净水厂智能混凝投药方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1464346A (zh) * 2002-06-03 2003-12-31 深圳市清泉水系统工程设备有限公司 自适应控制投药设备及其方法
JP2008279412A (ja) * 2007-05-14 2008-11-20 Kurita Water Ind Ltd 薬注制御方法
KR20100115852A (ko) * 2009-04-21 2010-10-29 (주)대우건설 기계적 지도학습법에 의해 산출된 상대적 막오염지수와 이를 반영한 응집기작에 따른 응집제 주입량 자동 제어 시스템 및 방법
CN103011356A (zh) * 2012-08-15 2013-04-03 重庆水务集团股份有限公司 一种高浊度水系自动投药控制方法
CN106168759A (zh) * 2016-07-12 2016-11-30 武汉长江仪器自动化研究所有限公司 一种基于人工神经网络算法的混凝投药控制方法和系统
CN110308705A (zh) * 2019-06-19 2019-10-08 上海华高汇元工程服务有限公司 一种基于大数据和人工智能水质预测的设备控制方法
CN111320246A (zh) * 2020-03-12 2020-06-23 青岛道斯康环保科技有限公司 一种基于多变量控制的混凝剂智能精确投加控制系统
CN111777217A (zh) * 2020-06-24 2020-10-16 南京邮电大学 一种基于前馈-反馈复合控制的水厂加矾控制方法
CN111718028A (zh) * 2020-06-24 2020-09-29 南京邮电大学 一种基于大数据分析的净水厂混凝剂投加智能化建模方法
CN112456621A (zh) * 2020-11-24 2021-03-09 四川齐力绿源水处理科技有限公司 一种絮凝智能加药控制系统及控制方法
CN112419095A (zh) * 2020-12-01 2021-02-26 山东锋士信息技术有限公司 一种基于历史数据和实时数据反馈实现的精准加药方法
CN113281229A (zh) * 2021-02-09 2021-08-20 北京工业大学 一种基于小样本下多模型自适应大气pm2.5浓度预测方法
CN113433910A (zh) * 2021-06-30 2021-09-24 武汉理工大学 一种基于数字孪生的净水厂智能加药控制系统及方法
CN113687040A (zh) * 2021-07-28 2021-11-23 广州杰赛科技股份有限公司 基于决策树算法的水厂实时投药量预测方法、装置及介质
CN113643061A (zh) * 2021-08-12 2021-11-12 广州迈量科技有限公司 一种基于大数据机器学习智能投放系统
CN113683169A (zh) * 2021-09-18 2021-11-23 深圳市科荣软件股份有限公司 一种净水厂智能混凝投药方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩梅: "基于水厂大数据的混凝投药系统智能模型的构建", 净水技术, pages 40 - 47 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115108595A (zh) * 2022-06-27 2022-09-27 重庆远通电子技术开发有限公司 基于机器学习的净水剂智能投加方法
CN115329661A (zh) * 2022-07-22 2022-11-11 上海环保(集团)有限公司 一种智能投药模型建模、智能投药体系创建、投药方法
CN115718466A (zh) * 2022-11-21 2023-02-28 广东工业大学 基于随机森林和层次分析法的数字孪生车间故障预测方法
CN115718466B (zh) * 2022-11-21 2024-05-14 广东工业大学 基于随机森林和层次分析法的数字孪生车间故障预测方法

Similar Documents

Publication Publication Date Title
CN114563988A (zh) 一种基于随机森林算法的水厂智能pac投加方法及系统
CN108133391A (zh) 销量预测方法以及服务器
CN110046743A (zh) 基于ga-ann的公共建筑能耗预测方法和系统
CN108920324A (zh) It设备存储容量趋势分析和预警的方法、系统及电子装置
CN102130783A (zh) 神经网络的智能化告警监控方法
CN107862022A (zh) 文化资源推荐系统
CN113205203A (zh) 基于cnn-lstm的建筑能耗预测方法和系统
CN102681438B (zh) 作物温室栽培专家控制系统及作物病症诊断方法
CN114064623A (zh) 一种智能投加模型的生成系统及方法
Parfenova et al. Forecasting models of agricultural process based on fuzzy time series
CN110378586B (zh) 基于动态闭环知识管理的变电设备缺陷预警方法及系统
CN115611393A (zh) 一种多端协同的多水厂混凝剂投放方法和系统
CN111985728A (zh) 一种建立有机高粱产量预测模型的方法
CN114139446A (zh) 一种用于特殊精馏过程组分在线检测软测量方法
CN114021829A (zh) 考虑非点源污染控制的土地利用格局预测和优化方法
CN105785951B (zh) 利用统计建模技术实现污水的处理自动化运行系统
CN116956155A (zh) 一种基于人工智能的污水处理智能加药方法及系统
CN116956156A (zh) 一种基于人工智能的污水处理智能曝气方法及系统
CN109829115B (zh) 搜索引擎关键词优化方法
CN103488089B (zh) 自适应的农药废液焚烧炉有害物排放达标控制系统及方法
CN114149076B (zh) 一种厌氧氨氧化污水处理系统的智能调试系统
US20220374920A1 (en) Statistical analysis method for research conducted after product launch
CN114779731A (zh) 一种面向智能制造的生产数据动态监测分析系统及方法
Boton-Fern et al. Learning algorithm for human activity detection in smart environments
CN115858606A (zh) 时序数据的异常检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination