CN113778028A

CN113778028A - 基于边云协同与双增量的智能混凝算法

Info

Publication number: CN113778028A
Application number: CN202110926715.XA
Authority: CN
Inventors: 梁瑛瑛; 赵鹏; 杨树森; 王艺蒙; 郭思言; 黄婧
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-12-10
Anticipated expiration: 2041-08-12
Also published as: CN113778028B

Abstract

本发明公开了一种基于边云协同与双增量的智能混凝算法，提出了确定水处理厂混凝过程中最优pac添加的边云协同解决方案。通过pac预测与pac调优两步确定最优pac添加量，有效降低出水中残余铝的含量，同时为水厂节约了成本；通过边云协同的架构，使得模型推理在更接近传感器设备的边缘端进行，降低了网络传输的延迟，同时云端基于蒙德里安森林进行双增量学习，可以在原有模型的基础上，利用新到达的数据不断对模型进行更新，提高精度，降低模型重新训练的成本，实现了一套完善的边云协同训练与推理方案。

Description

基于边云协同与双增量的智能混凝算法

技术领域

本发明属于人工智能领域，具体涉及一种基于边云协同与双增量的智能混凝算法。

背景技术

随着互联网、人工智能、云计算等技术的快速发展，物联网以及工业4.0时代的到来，智慧水务应运而生。智慧水务是一种更加精细化、动态化、智能化的水资源管理模式，对于加强资源整合共享，实现节能减排，促进智慧城市建设具有重要意义。智能净水是智慧水务的关键任务之一，饮用水的质量直接关系到人们的身体健康。水处理厂通常采用的净水工艺为混凝/絮凝—沉淀—过滤。混凝作为最重要的一步，其最佳投加量的确定至关重要，投加量不足会导致处理后水质不达标。另一方面，剂量过高会导致高成本和高残留铝(明矾通常用作凝固剂)，高残留铝会对人们的身体健康产生影响。然而，混凝过程复杂，涉及化学反应和物理混合过程，受原水流速、浊度和pH值等诸多因素的影响。传统的方法是采用罐实验来确定最佳剂量。但是，这既昂贵又耗时，而且无法实时响应原水水质的变化。为了克服这些局限性，许多研究者提出了基于操作者经验的人工智能方法，如机器学习和深度学习等方法。然而，这些研究方法都把操作者的经验作为基本事实。实际上，在许多水处理厂(如本文研究的水处理厂)中，通常会投放超过最佳剂量的絮凝剂来保证水质，从而导致成本高昂甚至健康问题。因此，我们的重点是在保证水质达标的情况下尽量减少水中的残余铝含量。此外，面对实时增加的传感器数据，如何利用这些不断到达的新数据对原有模型进行更新，同时不影响原模型的性能也是我们需要考虑的问题，另外，模型更新这样繁重的任务，需要性能更强的云端服务器来进行，无法在边端实现。

发明内容

本发明的目的在于克服上述现有问题，提供一种基于边云协同与双增量的智能混凝算法，该算法主要包括以下三点内容：

①通过pac预测与pac调优，确定最优pac添加量。

②提出基于蒙德里安森林的双增量学习方法实现模型在线更新并一定程度提高精度。

③采用边云协同架构，降低延迟。

为达到上述目的，本发明采用如下技术方案来实现的：

基于边云协同与双增量的智能混凝算法，通过pac预测与pac调优确定pac最优添加量；基于蒙德里安森林的双增量学习方法实现模型在线更新；利用边云协同，降低延迟，具体包括以下五个步骤：

1)端的各种传感器设备采集原水的温度，pH，浊度等信息，发送给边；

2)边端利用部署的pac预测模型进行pac的预测；

3)根据预测的pac以及传感器数据进行出水浊度预测，通过出水浊度进行pac迭代直到获得最优pac，将最优pac作为结果返回给端设备进行实际的pac添加；

4)将实际出水浊度以及传感器数据存储到数据库中，并发送给云端进行模型在线更新；

5)云端利用到达的数据流采用双增量学习的方法对模型进行在线更新，并将更新后的模型重新部署到边端；

步骤1)的具体操作为：当污水进入沉淀池中时，传感器会立刻采集到原水在当前时刻的浊度、pH、温度以及流量数据并发送给边缘设备。

步骤2)的具体操作为：边端接收到传感器发送的原水的浊度、pH、温度、流量数据，将这些数据作为Breiman随机森林的输入，进行pac的预测。

步骤3)的具体操作为：将预测的pac添加量与传感器数据一起送入蒙德里安森林中进行出水浊度预测，如果出水浊度oturb_i＜α，则水质达标，α为标准值，否则进行pac的迭代；

基于以上的描述，将絮凝剂添加问题定义为以下优化问题

s.t.pac_i＝f(turb_i，ph_i，temp_i，flow_i) (2)

oturb_i＝f(turb_i，ph_i，temp_i，flow_i，pac_i) (3)

e_i＝α-oturb_i (4)

e_i≥0 (5)

优化目标(1)是最小化整体的出水浊度误差E，约束条件(2)说明pac添加量由原水的四个特征决定，约束条件(3)说明出水浊度由原水的四个特征以及pac添加量决定，约束(4)和约束(5)确保误差等于出水浊度标准值与预测出水浊度的差值，并且出水浊度标准值大于等于预测出水浊度。

步骤4)的具体操作为：通过pac预测与pac调优确定的最优pac作为实际的pac添加量，投放到沉淀池中，一段时间后得到实际的出水浊度，将实际的出水浊度与进水浊度、进水pH、进水温度、流量以及最优pac一起存入边端数据库中，并上传到云端。

步骤5)的具体操作为：边端上传的数据以流的形式到达云端，在原有模型的基础上对数据进行预测，利用ECDD算法计算概念漂移点确定自适应batch的样本数，在原有模型的基础上进行增量学习，每一个batch对应一个更新后的模型IRF_i，所有IRF的预测值作为新的特征值输入xgboost进行集成学习训练，并利用xgboost的特征选择功能，得到最佳的top_m个模型，将更新后的模型部署到边端。

本发明的进一步改进在于，提出了基于自适应batch的增量学习方法，采用ECDD算法来检测概念漂移，并根据概念漂移点的位置确定训练的样本数。ECDD算法由Gordon J等人在2012年提出，已经在真实数据集上被证明能够有效检测概念漂移的发生。ECDD算法检测概念漂移的过程如下：

数据以流的形式到达，并输入模型得到预测结果，如果预测的误差小于设定阈值，则在当前时间点定义xt＝0，否则，xt＝1。使用xt更新p_0，t，σ_xt，σ_zt，使用一个多项式来计算控制极限Lt的值，该值给出了p₀的当前估计值所需的ARL₀。更新Z_t，判断Z_t＞p_0，t+Ltσ_zt是否成立，如果成立，则认为概念漂移已经发生。

本发明的进一步改进在于，提出了基于蒙德里安森林的双增量学习方法，利用ECDD算法确定自适应batch的样本数，在原有模型的基础上进行进行增量学习，每一个batch对应一个更新后的模型IRF_i，所有IRF的预测值作为新的特征值输入xgboost进行集成学习训练，并利用xgboost的特征选择功能，得到最佳的top_m个模型。

Arrived Data D(samples 1......N)

1.For each sample f_t

Execute ECDD(f_t)until Flag for concept drift

Return t

2.Set batch＝t

3.Train IRF_prewith samples(index from 1 to t)

4.Update IRF_preand store all IRF

5.Repeat from 1 to 5until all samples have been trained

6.For each IRF_i(i 1......M)

Add IRF_i(D)as one XGBOOST feature

7.Train XGBOOST with reshaped D(dimension M)

8.Select top m IRF according to XGBOOST feature importance

本发明具有如下有益的技术效果：

本发明提供的一种基于边云协同与双增量的智能混凝算法。端由各种传感器构成，实时监测原水的浊度、温度、pH以及流量信息，并将数据发送给边缘设备；在边缘节点上，利用部署的pac预测与pac调优模型进行最优pac的确定，可以降低成本同时减少水中的残留铝含量，同时将实际出水浊度以及传感器数据存储到数据库中，并发送给云端进行模型在线更新；云端利用到达的新数据流采用双增量学习的方法对模型进行在线学习与更新，可以不断地在原有模型的基础上对新数据进行拟合，且训练过程在云端完成，推理过程在边端进行，可以降低延迟，合理分配计算资源。

附图说明

图1为边云协同过程整体框架及流程示意图；

图2为pac预测模型输入输出变量的相关性分析图；

图3为pac预测的各个模型实验结果对比；

图4为pac调优过程示意图；

图5为ERT固定batch的RMSE变化图

图6为BRF固定batch的RMSE变化图

图7为蒙德里安森林固定batch的RMSE变化图

图8为不同m值的I2RF与RF的RMSE对比

具体实施方式

下面结合附图对本发明作进一步详细描述。

参考图1，考虑模型需要利用不断增加的传感器数据进行训练，且边缘设备的计算能力有限，提出基于边云协同与双增量的智能混凝算法。该算法主要包括以下三点内容：

①通过pac预测与pac调优，确定最优pac添加量。

③采用边云协同架构，降低延迟。

具体包括以下五个步骤：

2)边端利用部署的pac预测模型进行pac的预测；

参考图1，我们的方法整体采用端-边-云的架构，端指的是各种传感器设备，边负责模型推理与数据存储，云主要进行模型的在线学习与更新，下面对端边云的功能进行具体描述。

端由各种传感器构成，可以实时监测浊度、温度、pH等指标，端的功能主要有三个，一是将传感器数据上传到边端进行pac预测；二是根据边端的预测结果进行pac的添加；三是将实际出水浊度与传感器数据以及pac添加量一起，上传到边端并存储在数据库里。

边由具有一定计算能力的边缘设备构成，上面部署了我们进行pac预测以及pac调优的模型，主要功能有三个，一是接收端发送的传感器数据，进行pac预测；二是根据预测的pac以及传感器数据进行出水浊度预测，通过出水浊度进行pac迭代直到获得最优pac，将最优pac作为结果返回给端设备进行实际的pac添加；三是接收端发送的实际出水浊度并与传感器数据一起存储到数据库中，发送给云端进行模型在线更新。

云端负责接收边端上传的数据，数据以流的形式到达，云端利用到达的新数据流进行基于双增量学习的模型在线更新，并将更新后的模型重新部署到边端。

参考图2，我们的数据集来自某水务公司2019年5月1日至2020年10月11期间水处理过程中的真实监测数据，这些数据按照时间顺序排列，每条数据之间的时间间隔为5分钟，记录的指标包括进水pH(influent Water pH)，进水浊度(influent WaterTurbidity),进水温度(influent Water Temperature)，进水流量(influent WaterFlow)，出水浊度(effluent Water Turbidity),絮凝剂添加量(PAC)，沉淀池编号，时间。

通过分析絮凝剂投加量与进水pH、进水浊度、进水温度、进水流量之间的皮尔森相关性，确定最终的输入变量，各个变量与pac添加量之间的相关性如图2所示。

参考图3，我们采用回归模型、集成学习模型、时序模型对pac进行了预测，对比各个模型在均方误差、平均绝对百分比误差、WI一致性指数以及平均绝对误差上的表现，实验结果如所示图2所示。

其中，darnn，seq2seq+attention、AA-LSTM、LSTM属于时序模型，利用历史时刻数据中的信息对当前时刻的pac进行预测；lasso、rigde、mlr属于回归模型，通过一系列参数来构建自变量和隐变量之间的关系，并采用优化算法拟合最优参数；xgboost、lightgbm、random_forest属于集成学习模型，通过组合多个弱监督模型以期得到一个更好更全面的强监督模型，此外，还选择了多层感知机mlp作为对比模型。

从实验结果中可以看出，random_forest模型的效果最好，各个指标都优于其他所有模型；回归模型的效果最差，原因可能是自变量和因变量之间的关系较复杂，难以用简单的参数回归来建模；时序模型的效果要优于回归模型，但是与xgboost和random_forest相比还是差一些，原因可能是数据本身并不具有很强的时序关系。综上所述，我们认为random_forest最适合作为pac预测的最终模型。

参考图4，pac调优的过程共分为5步：

开始时，首先需要确定出水浊度阈值∝，表示满足要求的最高出水浊度，以及pac迭代步长Δ，当出水浊度小于∝时，需要按照步长Δ减小pac值。

①获取当前时刻的进水pH、进水浊度、进水温度以及进水流量，输入Breiman随机森林中进行pac预测；

②获得Breiman随机森林输出的pac值；

③将Breiman随机森林预测得到的pac，与进水pH、进水浊度、进水温度、进水流量一起输入蒙德里安森林中，预测出水浊度turb；

④判断turb是否小于阈值∝，如果等于∝，则此时的pac为最优pac；否则，按照步长Δ减小pac；

⑤更新后的pac重新与进水pH、进水浊度、进水温度、进水流量一起送入蒙德里安森林，进行出水浊度的预测，直到出水浊度等于∝。

参考图5，图6，图7，为了验证蒙德里安森林对流数据进行在线学习的优势，我们采用ERT与Breiman随机森林作为对比，将训练样本分为不同的批次，分别是batch数为10，20，40，60，80和100，每训练完一个batch的数据，保存模型，进行下一个batch的训练时，加载之前的模型，在之前模型的基础上继续训练。训练过程中的RMSE均方误差损失变化情况图3所示。

从固定batch的实验结果中可以看出，蒙德里安森林对于batch的大小并不敏感，且RMSE保持在0.6以下，整体呈下降趋势；而ERT与Breiman随机森林的RMSE在0.4与1之间波动，趋势性较差，这与我们的预期一致，ERT与Breiman随机森林模型在新增样本时，会对原有模型的性能产生影响，蒙德里安森林可以较好的保持原有模型的性能，并在此基础上对新的数据样本进行拟合。

参考图8，采用自适应batch的方法，我们共得到12个模型IRF_base～IRF₁₁,在训练的过程中，我们以模型在测试集上的RMSE为评价指标，当RMSE＞0.4时，每降低0.03保存一次模型；当RMSE<0.4时，每降低0.01保存一次模型，最终这12个模型的RMSE，MAPE，WI，MAE以及新增样本数情况如下：

在此基础上，我们对这12个模型进行集成学习训练，将IRF模型的预测值作为新的特征值输入xgboost进行训练，由于这些模型是利用不同的训练数据进行增量学习得到的，因此，每个模型对不同的数据具有不同的预测能力，通过集成学习的方式，可以一定程度提高模型的精度。

通过xgboost的特征选择功能，我们选取top_m个模型，得到不同m值情况下的模型在测试集上的RMSE、MAPE、WI、MAE评价指标。训练的过程中，每次都是用之前选出的top_m个模型与当前的IRF模型进行集成，重新选出得分最高的m个模型作为新的top_m个模型。在实际的场景中，数据是以流的形式到达，IRF模型是相继生成，每生成一个IRF进行一次集成，得到一个I2RF模型，不同m值对应的I2RF与IRF的RMSE对比图如图6所示。

从双增量的实验结果中可以看出，当模型的训练样本较少，性能还没有达到最优时，集成学习的方法可以一定程度提高模型的性能，但是，m的值不能取的过小，当m＝2时，模型的性能最差。最优的m值为5，在I2RF9之前，I2RF模型的RMSE均小于IRF模型；随着训练样本的增加，模型的性能逐渐接近最优，此时，通过集成学习的方法会一定程度降低模型的精度，实际应用中，我们可以根据IRF与I2RF的结果动态选择最优模型。

Claims

1.基于边云协同与双增量的智能混凝算法，其特征在于，通过pac预测与pac调优确定pac最优添加量；基于蒙德里安森林的双增量学习方法实现模型在线更新；利用边云协同，降低延迟，包括以下五个步骤：

2)边端利用部署的pac预测模型进行pac的预测；

5)云端利用到达的数据流采用双增量学习的方法对模型进行在线更新，并将更新后的模型重新部署到边端。

2.根据权利要求1所述的基于边云协同与双增量的智能混凝算法，其特征在于，步骤1)的具体操作为：当污水进入沉淀池中时，传感器会立刻采集到原水在当前时刻的浊度、pH、温度以及流量数据并发送给边缘设备。

3.根据权利要求1所述的基于边云协同与双增量的智能混凝算法，其特征在于，步骤2)的具体操作为：边端接收到传感器发送的原水的浊度、pH、温度、流量数据，将这些数据作为Breiman随机森林的输入，进行pac的预测。

4.根据权利要求1所述的基于边云协同与双增量的智能混凝算法，其特征在于，步骤3)的具体操作为：将预测的pac添加量与传感器数据一起送入蒙德里安森林中进行出水浊度预测，如果出水浊度oturb_i<α，则水质达标，α为标准值，否则进行pac的迭代；

基于以上的描述，将絮凝剂添加问题定义为以下优化问题

s.t. pac_i＝f(turb_i，ph_i，temp_i，flow_i) (2)

oturb_i＝f(turb_i，ph_i，temp_i，flow_i，pac_i) (3)

e_i＝α-oturb_i (4)

e_i≥0 (5)

5.根据权利要求1所述的基于边云协同与双增量的智能混凝算法，其特征在于，步骤4)的具体操作为：通过pac预测与pac调优确定的最优pac作为实际的pac添加量，投放到沉淀池中，一段时间后得到实际的出水浊度，将实际的出水浊度与进水浊度、进水pH、进水温度、流量以及最优pac一起存入边端数据库中，并上传到云端。

6.根据权利要求1所述的基于边云协同与双增量的智能混凝算法，其特征在于，步骤5)的具体操作为：边端上传的数据以流的形式到达云端，在原有模型的基础上对数据进行预测，利用ECDD算法计算概念漂移点确定自适应batch的样本数，在原有模型的基础上进行增量学习，每一个batch对应一个更新后的模型IRF_i，所有IRF的预测值作为新的特征值输入xgboost进行集成学习训练，并利用xgboost的特征选择功能，得到最佳的top_m个模型，将更新后的模型部署到边端。