CN102207928A

CN102207928A - 基于强化学习的多Agent污水处理决策支持系统

Info

Publication number: CN102207928A
Application number: CN201110147186XA
Authority: CN
Inventors: 倪建军; 刘明华; 马华伟; 谭宪军
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2011-06-02
Filing date: 2011-06-02
Publication date: 2011-10-05
Anticipated expiration: 2031-06-02
Also published as: CN102207928B

Abstract

本发明公开了一种基于强化学习的多Agent污水处理决策支持系统，将水污染源附近的污水处理厂抽象成具有一定属性的Agent主体，将强化学习与Agent概念相结合，定义强化学习的状态集、动作集；初始化强化学习中Q学习的参数，包括学习速率、折扣因子、Q值；各个Agent通过感知模块获得当前状态，并根据动作选择策略选择当前状态下最优动作；根据Q学习中的Q值公式进行Q值的计算与更新；一次学习过程结束，等待或者马上进入下一个学习过程，直到Q值收敛，得到最优决策。本发明从整个污水处理系统的全局出发，宏观调配污水处理厂的使用情况，具有较高的灵活性与自适应能力，并且可扩展性也非常高，具有较高的实用价值。

Description

基于强化学习的多Agent污水处理决策支持系统

技术领域

本发明涉及一种强化学习算法应用到污水处理的多Agent决策支持系统，是智能决策支持系统中的一种应用，属于人工智能技术领域。

背景技术

随着城市化、工业化的加速，水资源的需求缺口也日益增大，在这样的背景下，污水处理行业成为新兴产业。目前，污水处理厂的控制系统基本都采用集散型控制系统体系结构。其中上层(监管层)采用工业控制计算机，主要完成设定值的输入操作，各工艺参数、电气参数及主要设备运行状态信息的管理，并以趋势图、表格形式显示，给出各种临界提示及错误、越限报警；下层(控制层)由PLC实现数据的采集、控制算法的实现、控制命令的下发以及工艺过程的连锁等功能。智能控制主要集中在底层针对某参数或环节的智能控制器的研究上，因此，如何利用人工智能(Artificial Intelligence，缩写AI)技术对整个污水处理过程进行系统地、有效地监控、管理是应进一步展开的工作。

决策支持系统是支持决策者解决半结构化决策问题的具有智能作用的人机系统，该系统能够为决策者迅速而准确地提供决定所需的数据、信息和背景材料，帮助决策者明确目标，建立或修改决策模型提供各种备选方案，对各种方案进行评价和优选，为正确决策提供有力支持。Agent是一类在特定环境下能感知环境，并能自治地运行以代表其设计者或使用者实现一系列目标计算实体或程序。MAS(Multi-Agent System)是由多个Agent组成的分布式自主系统，它在Agent理论的基础上重点研究Agent的互操作性及Agent间的协商和协作等。MA S不仅改善了每个Agent的基本能力，而且可以从Agent的通讯、合作、互解、协调、调度、管理及控制来表达系统的结构、功能及行为特性，进一步理解系统的社会行为，已经成功地应用于智能机器人、智能交通系统软件开发、移动通讯及网络浏览等众多领域。强化学习是无监督学习方法，目前已被广泛应用于预测、智能控制、决策支持等诸多领域。

发明内容

本发明的目的是：提供一个较智能的污水处理决策支持系统，通过计算污水处理的成本效益来决策是否需要不同的污水处理厂协作处理污水，污水处理厂Agent根据自身的属性决定是否需要加入此次污水处理过程，从而保证在较低的经济成本下最有效地处理污水，改善水环境。

为了达到上述目的，本发明采取的技术方案是：基于强化学习的多Agent污水处理决策支持系统，其特征是：包括以下步骤：

a、从整个污水处理系统全局出发，在污水处理的管理层上对污水处理厂进行控制、调配，判定是否选择该处理厂加入污水处理行列。将水污染源附近的污水处理厂抽象成具有一定属性的Agent主体，每个Agent主要包括污水处理厂的处理能力C，污水处理厂与污染源的距离D，主要针对处理的污染物质E，单位距离污水运输的费用P1，单位体积污水处理的费用P2；

将每个Agent赋予一定的属性，不仅可以有效处理Agent间的协商与协作关系，也增强了系统的可扩展性。

b、将强化学习与Agent概念相结合，定义强化学习的状态集S＝{C，D，E，P1，P2}，动作集A＝{a1，a2}，其中，a1表示该Agent加入污水处理系统，a2表示该Agent不加入污水处理系统；

污水处理厂被抽象成具有一定属性的Agent参数，Agent参数通过与外界环境即水污染状况交互，获得状态S，执行动作A，并获得回报值r(奖励或惩罚)。

强化学习把学习看成一个试探评价的过程，如果污水处理厂Agent的某个行为策略如加入或不加入污水处理行列导致外界环境包括环境效益和经济效益的综合效益反馈正的回报值即r＞0，那么Agent产生这个行为策略的趋势将会加强；如果Agent的某个行为策略导致环境反馈负的回报值，那么Agent产生这个行为策略的趋势将会减弱，多Agent系统中强化学习就是Agent从环境(同时包括其他Agent行为产生的影响)到行为映射的学习，以使奖励回报值最大。

c、初始化强化学习中Q学习的参数，包括学习速率、折扣因子、Q值；

d、各个污水处理厂Agent通过感知模块获得当前状态s，s∈S，并根据动作选择策略选择当前状态s下最优动作；

e、每个污水处理厂Agent根据一定的策略选择动作，策略可看成状态空间到行为空间的映射，即污水处理厂Agent在特定的状态下(如污水处理厂的处理能力为c，污水处理厂与污染源的距离d，主要针对处理的污染物质e，单位距离污水运输的费用p1，单位体积污水处理的费用p2)时如何选择特定的行为(加入或者不加入此次污水处理过程)。

动作选择策略采用Boltzmann策略，通过执行动作a得到新的状态s′，同时从外界环境得到回报值r，Boltzmann动作选择策略公式为：

P (a | s, Q) = \frac{e^{Q (s, a) / τ}}{\underset{a^{'} &Element; A}{Σ} e^{Q (s, a^{'}) / τ}} - - - (1)

其中a为所选择的最佳动作，a′为在s状态下可选择的所有动作。Q为行为的值函数，根据式(1)可以看出，行为的选择取决于该状态-行为对的Q值函数和参数τ，其中，τ是一个正的参数，称为退火温度，用它来控制搜索率。大的退火温度参数使得各个行为有着近似相等的概率，小的退火温度参数就使得较大的Q值函数有较大的选择概率。

f、根据Q学习中的Q值公式进行Q值的计算与更新，

Q学习是强化学习算法中最重要的一种学习算法，它无需建立环境模型，可以看作是马尔可夫决策过程的一种变化形式，直接优化一个可迭代计算的Q函数：

Q (s_{t}, a_{t}) = r_{t + 1} + γ \max_{a_{t + 1} &Element; A (s_{t + 1})} Q (s_{t + 1}, a_{t + 1}) - - - (2)

Q学习通过使用Q值为每个状态动作对存储期望折扣报酬，由于式(2)两边存在差值，在学习过程中，Q学习采用以下的更新规则，即Q值公式为：

Q (s_{t}, a_{t}) = Q (s_{t}, a_{t}) + α (r_{t + 1} + γ \max_{a_{t + 1} &Element; A (s_{t + 1})} Q (s_{t + 1}, a_{t + 1}) - Q (s_{t}, a_{t})) - - - (3)

其中α∈(0，1)是学习速率，γ∈(0，1)是折扣系数，A(s_t+1)是状态s_t+1对应的动作集。Agent在状态s_t采用动作a_t，将会使状态变为s_t+1，同时收到立即奖励r_t+1。Q学习中，每个(状态s_t-动作a_t)对对应一个相应的Q(s_t，a_t)值，同理，(状态s_t+1-动作a_t+1)对对应相应的Q(s_t+1，a_t+1)值。为了获得每个状态动作对的最优Q值，Agent需要反复尝试每个状态动作对以获得每个状态动作对的最优Q值。

g、一次学习过程结束，等待或者马上进入下一个学习过程，直到Q值收敛，得到最优决策，选择最佳的一个(或多个)污水处理厂Agent加入此次污水处理过程。

本发明的有益效果：与现有技术相比，本发明具有如下优点：

(1)本发明将人工智能应用到污水处理系统，对污水处理过程进行系统地、有效地监控、管理，从整个污水处理系统的全局出发，宏观调配污水处理厂的使用情况，并将多Agent思想应用到决策支持系统中，使系统的灵活性与自适应能力增强；

(2)本发明应用强化学习改进各个Agent间的协调机制，大大提高了系统的智能性；

(3)本发明根据成本效益来判断是否需要多个污水处理厂协作处理污水，可以使整个污水处理系统在取得环境效益的同时也获得一定的经济效益；

(4)本发明对地区没有特殊要求，可扩展性强。

本发明的基于强化学习的多Agent污水处理决策支持系统从污水处理系统的管理层出发，将人工智能领域中Agent技术与强化学习算法相结合，建立一个较智能的决策支持系统。与传统的污水处理系统相比，基于强化学习的多Agent污水处理系统是从监管层对各个污水处理厂进行控制、调配，而不是集中在一个污水处理厂的控制，具有更重要的理论意义与实际应用价值。并且系统能够有效协调污水处理经济成本与利益的关系，智能性更强，地区局限性小，具有较高的可扩展性。

附图说明

图1为本发明应用背景示意图；

图2为强化学习总体结构图；

图3为基于强化学习的多Agent污水处理决策支持系统框架图；

图4为基于强化学习的多Agent污水处理决策支持系统流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，在水资源(河流)附近，不仅存在着企业、农业、居民以及其他可能造成水环境污染的污染源，同时也建造了一些污水处理厂，这些污水处理厂处理污水的能力不同，处理污水所花费的费用不同，并且对特定的污染指标处理程度也不尽相同，因此，合理控制、调配污水处理厂进行污水处理可以有效改善水环境，节约经济成本。

如图2所示，为本发明的基于强化学习的多Agent污水处理决策支持系统所涉及的强化学习算法的总体结构图，污水处理厂被抽象成具有一定属性的Agent参数，Agent参数通过与外界环境即水污染状况交互，获得状态S，执行动作A，并获得回报值r(奖励或惩罚)。

强化学习把学习看成一个试探评价的过程，如果污水处理厂Agent的某个行为策略(加入或不加入污水处理行列)导致外界环境(包括环境效益和经济效益的综合效益)反馈正的回报值(r＞0)，那么Agent产生这个行为策略的趋势将会加强；如果Agent的某个行为策略导致环境反馈负的回报值，那么Agent产生这个行为策略的趋势将会减弱，多Agent系统中强化学习就是Agent从环境(同时包括其他Agent行为产生的影响)到行为映射的学习，以使奖励回报值最大。

本发明将基于强化学习的多Agent污水处理决策支持系统划分为多个模块，如图3所示，Agent通过感知模块从外部环境得到有用信息，将信息抽象成学习模块中的状态s_t，Agent根据动作选择策略获得最佳动作a，得到下一时刻状态s_t+1，并得到环境的反馈即回报值r，根据状态s、动作a、回报值r三个要素即可计算(或更新)Q值，将得到的Q值输入决策模块中，使系统做出最优决策。

基于强化学习的多Agent污水处理决策支持系统具体流程如图4所示，包括如下步骤：

a、根据水环境的污染状况，进行污染源判定，根据污染源进行污水处理厂选择，将污水处理厂抽象成具有一定属性的Agent，n个污水处理厂分别抽象成Agent1，…，Agentn。

b、通过状态数据管理，分析各个Agent的属性参数，并实例化Agent状态集。

c、通过强化学习，学习最佳决策，具体学习过程为：

c1、从整个污水处理系统全局出发，在污水处理的管理层上对污水处理厂进行控制、调配，判定是否选择该处理厂加入污水处理行列。将水污染源附近的污水处理厂抽象成具有一定属性的Agent主体，每个Agent包括污水处理厂的处理能力C，污水处理厂与污染源的距离D，主要针对处理的污染物质E，单位距离污水运输的费用P1，单位体积污水处理的费用P2；

c2、将强化学习与Agent概念相结合，定义强化学习的状态集S＝{C，D，E，P1，P2}，动作集A＝{a1，a2}，a1表示加入污水处理系统，a2表示不加入污水处理系统；

c3、初始化强化学习中Q学习的参数，包括学习速率、折扣因子、Q值；

c4、各个Agent通过感知模块获得当前状态s，s∈S，并根据动作选择策略选择当前状态s下最优动作；

c5、动作选择策略采用Boltzmann策略，通过执行动作a得到新的状态s′，同时从外界环境得到回报值r，Boltzmann动作选择策略公式为：

P (a | s, Q) = \frac{e^{Q (s, a) / τ}}{\underset{a^{'} &Element; A}{Σ} e^{Q (s, a^{'}) / τ}};

其中，其中a为所选择的最佳动作，a′为在s状态下可选择的所有动作。Q为行为的值函数，τ是一个正的参数，用它来控制搜索率。大的退火温度参数使得各个行为有着近似相等的概率，小的退火温度参数就使得较大的Q值函数有较大的选择概率。

c6、根据Q学习中的Q值公式进行Q值的计算与更新，Q值公式为：

Q (s_{t}, a_{t}) = Q (s_{t}, a_{t}) + α (r_{t + 1} + γ \max_{a_{t + 1} &Element; A (s_{t + 1})} Q (s_{t + 1}, a_{t + 1}) - Q (s_{t}, a_{t}));

其中α∈(0，1)是学习速率，γ∈(0，1)是折扣系数。Agent在状态s_t采用动作a_t，将会使状态变为s_t+1，同时收到立即奖励r_t+1。Agent需要反复尝试每个状态动作对以获得每个状态动作对的最优Q值。

c7、一次学习过程结束，等待或者马上进入下一个学习过程，直到Q值收敛，得到最优决策。

d、将决策作用到污水处理厂的选定，以达到合理控制、调配水污染处理厂，改善水环境的同时节约了经济成本。

通过外部环境(水质污染状况)与其他污水处理厂Agent行为产生的影响实例化状态集S，根据Boltzmann动作选择策略公式选择该状态下最佳动作，得到下一时刻状态，并获得从环境(水环境效益和经济效益的综合效益)得到的反馈值r，利用Q值公式不断对Q值进行更新，最终得到最优决策，从而决定是否需要该污水处理厂Agent加入此次污水处理过程，最佳调配污水处理厂的污水处理工作，以保证在获得最高环境效益的情况下，使经济成本降到最低。

本发明具有灵活性、适应性、可扩展性高的优点，通过将污水处理厂抽象成具有一定属性的Agent，并利用强化学习增强系统的智能性，建立基于强化学习的多Agent决策支持系统，用于合理控制、调配水污染处理厂，从而达到改善水环境、提高成本效益的目的，具有广泛的应用价值。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于强化学习的多Agent污水处理决策支持系统，其特征是，包括以下步骤：

a、将水污染源附近的n个污水处理厂分别抽象成具有一定属性的Agent主体，每个Agent包括污水处理厂的处理能力C、污水处理厂与污染源的距离D、主要针对处理的污染物质E、单位距离污水运输的费用P1、单位体积污水处理的费用P2；

b、将强化学习与Agent相结合，定义强化学习的状态集S＝{C，D，E，P1，P2}，动作集A＝{a1，a2}，其中，a1表示该Agent加入污水处理系统，a2表示该Agent不加入污水处理系统；

e、动作选择策略采用Boltzmann策略，通过执行动作a得到新的状态s′，同时从外界环境得到回报值r；

f、对Q学习中的Q值进行Q值的计算与更新；

g、一次学习过程结束，等待或者马上进入下一个学习过程，直到Q值收敛，得到最优决策，选择最佳的一个或多个污水处理厂Agent加入此次污水处理过程。

2.根据权利要求1所述的基于强化学习的多Agent污水处理决策支持系统，其特征是，所述Boltzmann动作选择策略公式为：

P (a | s, Q) = \frac{e^{Q (s, a) / τ}}{\underset{a^{'} &Element; A}{Σ} e^{Q (s, a^{'}) / τ}}

其中，a为所选择的最佳动作，a′为在s状态下可选择的所有动作，Q为行为的值函数，τ是一个正的参数，称为退火温度，用它来控制搜索率，行为的选择取决于该状态-行为对的Q值函数和参数τ。

3.根据权利要求1所述的基于强化学习的多Agent污水处理决策支持系统，其特征是，根据Q学习中的Q值公式进行Q值的计算与更新，Q值公式为：

Q (s_{t}, a_{t}) = Q (s_{t}, a_{t}) + α (r_{t + 1} + γ \max_{a_{t + 1} &Element; A (s_{t + 1})} Q (s_{t + 1}, a_{t + 1}) - Q (s_{t}, a_{t}))

其中α∈(0，1)是学习速率，γ∈(0，1)是折扣系数，A(s_t+1)是状态s_t+1对应的动作集，Agent在状态s_t采用动作a_t，使状态变为s_t+1，同时收到立即奖励r_t+1，Q学习中，每个(状态s_t-动作a_t)对对应一个相应的Q(s_t，a_t)值。

4.根据权利要求1所述的基于强化学习的多Agent污水处理决策支持系统，其特征是，所述强化学习把学习看成一个试探评价的过程，如果污水处理厂Agent的某个行为策略如加入或不加入污水处理行列导致外界环境包括环境效益和经济效益的综合效益反馈正的回报值即r＞0，那么Agent产生这个行为策略的趋势将会加强；如果Agent的某个行为策略导致环境反馈负的回报值，那么Agent产生这个行为策略的趋势将会减弱。