CN102207928A - 基于强化学习的多Agent污水处理决策支持系统 - Google Patents

基于强化学习的多Agent污水处理决策支持系统 Download PDF

Info

Publication number
CN102207928A
CN102207928A CN201110147186XA CN201110147186A CN102207928A CN 102207928 A CN102207928 A CN 102207928A CN 201110147186X A CN201110147186X A CN 201110147186XA CN 201110147186 A CN201110147186 A CN 201110147186A CN 102207928 A CN102207928 A CN 102207928A
Authority
CN
China
Prior art keywords
agent
value
learning
sewage treatment
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110147186XA
Other languages
English (en)
Other versions
CN102207928B (zh
Inventor
倪建军
刘明华
马华伟
谭宪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN 201110147186 priority Critical patent/CN102207928B/zh
Publication of CN102207928A publication Critical patent/CN102207928A/zh
Application granted granted Critical
Publication of CN102207928B publication Critical patent/CN102207928B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Of Solid Wastes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习的多Agent污水处理决策支持系统,将水污染源附近的污水处理厂抽象成具有一定属性的Agent主体,将强化学习与Agent概念相结合,定义强化学习的状态集、动作集;初始化强化学习中Q学习的参数,包括学习速率、折扣因子、Q值;各个Agent通过感知模块获得当前状态,并根据动作选择策略选择当前状态下最优动作;根据Q学习中的Q值公式进行Q值的计算与更新;一次学习过程结束,等待或者马上进入下一个学习过程,直到Q值收敛,得到最优决策。本发明从整个污水处理系统的全局出发,宏观调配污水处理厂的使用情况,具有较高的灵活性与自适应能力,并且可扩展性也非常高,具有较高的实用价值。

Description

基于强化学习的多Agent污水处理决策支持系统
技术领域
本发明涉及一种强化学习算法应用到污水处理的多Agent决策支持系统,是智能决策支持系统中的一种应用,属于人工智能技术领域。
背景技术
随着城市化、工业化的加速,水资源的需求缺口也日益增大,在这样的背景下,污水处理行业成为新兴产业。目前,污水处理厂的控制系统基本都采用集散型控制系统体系结构。其中上层(监管层)采用工业控制计算机,主要完成设定值的输入操作,各工艺参数、电气参数及主要设备运行状态信息的管理,并以趋势图、表格形式显示,给出各种临界提示及错误、越限报警;下层(控制层)由PLC实现数据的采集、控制算法的实现、控制命令的下发以及工艺过程的连锁等功能。智能控制主要集中在底层针对某参数或环节的智能控制器的研究上,因此,如何利用人工智能(Artificial Intelligence,缩写AI)技术对整个污水处理过程进行系统地、有效地监控、管理是应进一步展开的工作。
决策支持系统是支持决策者解决半结构化决策问题的具有智能作用的人机系统,该系统能够为决策者迅速而准确地提供决定所需的数据、信息和背景材料,帮助决策者明确目标,建立或修改决策模型提供各种备选方案,对各种方案进行评价和优选,为正确决策提供有力支持。Agent是一类在特定环境下能感知环境,并能自治地运行以代表其设计者或使用者实现一系列目标计算实体或程序。MAS(Multi-Agent System)是由多个Agent组成的分布式自主系统,它在Agent理论的基础上重点研究Agent的互操作性及Agent间的协商和协作等。MA S不仅改善了每个Agent的基本能力,而且可以从Agent的通讯、合作、互解、协调、调度、管理及控制来表达系统的结构、功能及行为特性,进一步理解系统的社会行为,已经成功地应用于智能机器人、智能交通系统软件开发、移动通讯及网络浏览等众多领域。强化学习是无监督学习方法,目前已被广泛应用于预测、智能控制、决策支持等诸多领域。
发明内容
本发明的目的是:提供一个较智能的污水处理决策支持系统,通过计算污水处理的成本效益来决策是否需要不同的污水处理厂协作处理污水,污水处理厂Agent根据自身的属性决定是否需要加入此次污水处理过程,从而保证在较低的经济成本下最有效地处理污水,改善水环境。
为了达到上述目的,本发明采取的技术方案是:基于强化学习的多Agent污水处理决策支持系统,其特征是:包括以下步骤:
a、从整个污水处理系统全局出发,在污水处理的管理层上对污水处理厂进行控制、调配,判定是否选择该处理厂加入污水处理行列。将水污染源附近的污水处理厂抽象成具有一定属性的Agent主体,每个Agent主要包括污水处理厂的处理能力C,污水处理厂与污染源的距离D,主要针对处理的污染物质E,单位距离污水运输的费用P1,单位体积污水处理的费用P2;
将每个Agent赋予一定的属性,不仅可以有效处理Agent间的协商与协作关系,也增强了系统的可扩展性。
b、将强化学习与Agent概念相结合,定义强化学习的状态集S={C,D,E,P1,P2},动作集A={a1,a2},其中,a1表示该Agent加入污水处理系统,a2表示该Agent不加入污水处理系统;
污水处理厂被抽象成具有一定属性的Agent参数,Agent参数通过与外界环境即水污染状况交互,获得状态S,执行动作A,并获得回报值r(奖励或惩罚)。
强化学习把学习看成一个试探评价的过程,如果污水处理厂Agent的某个行为策略如加入或不加入污水处理行列导致外界环境包括环境效益和经济效益的综合效益反馈正的回报值即r>0,那么Agent产生这个行为策略的趋势将会加强;如果Agent的某个行为策略导致环境反馈负的回报值,那么Agent产生这个行为策略的趋势将会减弱,多Agent系统中强化学习就是Agent从环境(同时包括其他Agent行为产生的影响)到行为映射的学习,以使奖励回报值最大。
c、初始化强化学习中Q学习的参数,包括学习速率、折扣因子、Q值;
d、各个污水处理厂Agent通过感知模块获得当前状态s,s∈S,并根据动作选择策略选择当前状态s下最优动作;
e、每个污水处理厂Agent根据一定的策略选择动作,策略可看成状态空间到行为空间的映射,即污水处理厂Agent在特定的状态下(如污水处理厂的处理能力为c,污水处理厂与污染源的距离d,主要针对处理的污染物质e,单位距离污水运输的费用p1,单位体积污水处理的费用p2)时如何选择特定的行为(加入或者不加入此次污水处理过程)。
动作选择策略采用Boltzmann策略,通过执行动作a得到新的状态s′,同时从外界环境得到回报值r,Boltzmann动作选择策略公式为:
P ( a | s , Q ) = e Q ( s , a ) / τ Σ a ′ ∈ A e Q ( s , a ′ ) / τ - - - ( 1 )
其中a为所选择的最佳动作,a′为在s状态下可选择的所有动作。Q为行为的值函数,根据式(1)可以看出,行为的选择取决于该状态-行为对的Q值函数和参数τ,其中,τ是一个正的参数,称为退火温度,用它来控制搜索率。大的退火温度参数使得各个行为有着近似相等的概率,小的退火温度参数就使得较大的Q值函数有较大的选择概率。
f、根据Q学习中的Q值公式进行Q值的计算与更新,
Q学习是强化学习算法中最重要的一种学习算法,它无需建立环境模型,可以看作是马尔可夫决策过程的一种变化形式,直接优化一个可迭代计算的Q函数:
Q ( s t , a t ) = r t + 1 + γ max a t + 1 ∈ A ( s t + 1 ) Q ( s t + 1 , a t + 1 ) - - - ( 2 )
Q学习通过使用Q值为每个状态动作对存储期望折扣报酬,由于式(2)两边存在差值,在学习过程中,Q学习采用以下的更新规则,即Q值公式为:
Q ( s t , a t ) = Q ( s t , a t ) + α ( r t + 1 + γ max a t + 1 ∈ A ( s t + 1 ) Q ( s t + 1 , a t + 1 ) - Q ( s t , a t ) ) - - - ( 3 )
其中α∈(0,1)是学习速率,γ∈(0,1)是折扣系数,A(st+1)是状态st+1对应的动作集。Agent在状态st采用动作at,将会使状态变为st+1,同时收到立即奖励rt+1。Q学习中,每个(状态st-动作at)对对应一个相应的Q(st,at)值,同理,(状态st+1-动作at+1)对对应相应的Q(st+1,at+1)值。为了获得每个状态动作对的最优Q值,Agent需要反复尝试每个状态动作对以获得每个状态动作对的最优Q值。
g、一次学习过程结束,等待或者马上进入下一个学习过程,直到Q值收敛,得到最优决策,选择最佳的一个(或多个)污水处理厂Agent加入此次污水处理过程。
本发明的有益效果:与现有技术相比,本发明具有如下优点:
(1)本发明将人工智能应用到污水处理系统,对污水处理过程进行系统地、有效地监控、管理,从整个污水处理系统的全局出发,宏观调配污水处理厂的使用情况,并将多Agent思想应用到决策支持系统中,使系统的灵活性与自适应能力增强;
(2)本发明应用强化学习改进各个Agent间的协调机制,大大提高了系统的智能性;
(3)本发明根据成本效益来判断是否需要多个污水处理厂协作处理污水,可以使整个污水处理系统在取得环境效益的同时也获得一定的经济效益;
(4)本发明对地区没有特殊要求,可扩展性强。
本发明的基于强化学习的多Agent污水处理决策支持系统从污水处理系统的管理层出发,将人工智能领域中Agent技术与强化学习算法相结合,建立一个较智能的决策支持系统。与传统的污水处理系统相比,基于强化学习的多Agent污水处理系统是从监管层对各个污水处理厂进行控制、调配,而不是集中在一个污水处理厂的控制,具有更重要的理论意义与实际应用价值。并且系统能够有效协调污水处理经济成本与利益的关系,智能性更强,地区局限性小,具有较高的可扩展性。
附图说明
图1为本发明应用背景示意图;
图2为强化学习总体结构图;
图3为基于强化学习的多Agent污水处理决策支持系统框架图;
图4为基于强化学习的多Agent污水处理决策支持系统流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,在水资源(河流)附近,不仅存在着企业、农业、居民以及其他可能造成水环境污染的污染源,同时也建造了一些污水处理厂,这些污水处理厂处理污水的能力不同,处理污水所花费的费用不同,并且对特定的污染指标处理程度也不尽相同,因此,合理控制、调配污水处理厂进行污水处理可以有效改善水环境,节约经济成本。
如图2所示,为本发明的基于强化学习的多Agent污水处理决策支持系统所涉及的强化学习算法的总体结构图,污水处理厂被抽象成具有一定属性的Agent参数,Agent参数通过与外界环境即水污染状况交互,获得状态S,执行动作A,并获得回报值r(奖励或惩罚)。
强化学习把学习看成一个试探评价的过程,如果污水处理厂Agent的某个行为策略(加入或不加入污水处理行列)导致外界环境(包括环境效益和经济效益的综合效益)反馈正的回报值(r>0),那么Agent产生这个行为策略的趋势将会加强;如果Agent的某个行为策略导致环境反馈负的回报值,那么Agent产生这个行为策略的趋势将会减弱,多Agent系统中强化学习就是Agent从环境(同时包括其他Agent行为产生的影响)到行为映射的学习,以使奖励回报值最大。
本发明将基于强化学习的多Agent污水处理决策支持系统划分为多个模块,如图3所示,Agent通过感知模块从外部环境得到有用信息,将信息抽象成学习模块中的状态st,Agent根据动作选择策略获得最佳动作a,得到下一时刻状态st+1,并得到环境的反馈即回报值r,根据状态s、动作a、回报值r三个要素即可计算(或更新)Q值,将得到的Q值输入决策模块中,使系统做出最优决策。
基于强化学习的多Agent污水处理决策支持系统具体流程如图4所示,包括如下步骤:
a、根据水环境的污染状况,进行污染源判定,根据污染源进行污水处理厂选择,将污水处理厂抽象成具有一定属性的Agent,n个污水处理厂分别抽象成Agent1,…,Agentn。
b、通过状态数据管理,分析各个Agent的属性参数,并实例化Agent状态集。
c、通过强化学习,学习最佳决策,具体学习过程为:
c1、从整个污水处理系统全局出发,在污水处理的管理层上对污水处理厂进行控制、调配,判定是否选择该处理厂加入污水处理行列。将水污染源附近的污水处理厂抽象成具有一定属性的Agent主体,每个Agent包括污水处理厂的处理能力C,污水处理厂与污染源的距离D,主要针对处理的污染物质E,单位距离污水运输的费用P1,单位体积污水处理的费用P2;
c2、将强化学习与Agent概念相结合,定义强化学习的状态集S={C,D,E,P1,P2},动作集A={a1,a2},a1表示加入污水处理系统,a2表示不加入污水处理系统;
c3、初始化强化学习中Q学习的参数,包括学习速率、折扣因子、Q值;
c4、各个Agent通过感知模块获得当前状态s,s∈S,并根据动作选择策略选择当前状态s下最优动作;
c5、动作选择策略采用Boltzmann策略,通过执行动作a得到新的状态s′,同时从外界环境得到回报值r,Boltzmann动作选择策略公式为:
P ( a | s , Q ) = e Q ( s , a ) / τ Σ a ′ ∈ A e Q ( s , a ′ ) / τ ;
其中,其中a为所选择的最佳动作,a′为在s状态下可选择的所有动作。Q为行为的值函数,τ是一个正的参数,用它来控制搜索率。大的退火温度参数使得各个行为有着近似相等的概率,小的退火温度参数就使得较大的Q值函数有较大的选择概率。
c6、根据Q学习中的Q值公式进行Q值的计算与更新,Q值公式为:
Q ( s t , a t ) = Q ( s t , a t ) + α ( r t + 1 + γ max a t + 1 ∈ A ( s t + 1 ) Q ( s t + 1 , a t + 1 ) - Q ( s t , a t ) ) ;
其中α∈(0,1)是学习速率,γ∈(0,1)是折扣系数。Agent在状态st采用动作at,将会使状态变为st+1,同时收到立即奖励rt+1。Agent需要反复尝试每个状态动作对以获得每个状态动作对的最优Q值。
c7、一次学习过程结束,等待或者马上进入下一个学习过程,直到Q值收敛,得到最优决策。
d、将决策作用到污水处理厂的选定,以达到合理控制、调配水污染处理厂,改善水环境的同时节约了经济成本。
通过外部环境(水质污染状况)与其他污水处理厂Agent行为产生的影响实例化状态集S,根据Boltzmann动作选择策略公式选择该状态下最佳动作,得到下一时刻状态,并获得从环境(水环境效益和经济效益的综合效益)得到的反馈值r,利用Q值公式不断对Q值进行更新,最终得到最优决策,从而决定是否需要该污水处理厂Agent加入此次污水处理过程,最佳调配污水处理厂的污水处理工作,以保证在获得最高环境效益的情况下,使经济成本降到最低。
本发明具有灵活性、适应性、可扩展性高的优点,通过将污水处理厂抽象成具有一定属性的Agent,并利用强化学习增强系统的智能性,建立基于强化学习的多Agent决策支持系统,用于合理控制、调配水污染处理厂,从而达到改善水环境、提高成本效益的目的,具有广泛的应用价值。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (4)

1.一种基于强化学习的多Agent污水处理决策支持系统,其特征是,包括以下步骤:
a、将水污染源附近的n个污水处理厂分别抽象成具有一定属性的Agent主体,每个Agent包括污水处理厂的处理能力C、污水处理厂与污染源的距离D、主要针对处理的污染物质E、单位距离污水运输的费用P1、单位体积污水处理的费用P2;
b、将强化学习与Agent相结合,定义强化学习的状态集S={C,D,E,P1,P2},动作集A={a1,a2},其中,a1表示该Agent加入污水处理系统,a2表示该Agent不加入污水处理系统;
c、初始化强化学习中Q学习的参数,包括学习速率、折扣因子、Q值;
d、各个污水处理厂Agent通过感知模块获得当前状态s,s∈S,并根据动作选择策略选择当前状态s下最优动作;
e、动作选择策略采用Boltzmann策略,通过执行动作a得到新的状态s′,同时从外界环境得到回报值r;
f、对Q学习中的Q值进行Q值的计算与更新;
g、一次学习过程结束,等待或者马上进入下一个学习过程,直到Q值收敛,得到最优决策,选择最佳的一个或多个污水处理厂Agent加入此次污水处理过程。
2.根据权利要求1所述的基于强化学习的多Agent污水处理决策支持系统,其特征是,所述Boltzmann动作选择策略公式为:
P ( a | s , Q ) = e Q ( s , a ) / τ Σ a ′ ∈ A e Q ( s , a ′ ) / τ
其中,a为所选择的最佳动作,a′为在s状态下可选择的所有动作,Q为行为的值函数,τ是一个正的参数,称为退火温度,用它来控制搜索率,行为的选择取决于该状态-行为对的Q值函数和参数τ。
3.根据权利要求1所述的基于强化学习的多Agent污水处理决策支持系统,其特征是,根据Q学习中的Q值公式进行Q值的计算与更新,Q值公式为:
Q ( s t , a t ) = Q ( s t , a t ) + α ( r t + 1 + γ max a t + 1 ∈ A ( s t + 1 ) Q ( s t + 1 , a t + 1 ) - Q ( s t , a t ) )
其中α∈(0,1)是学习速率,γ∈(0,1)是折扣系数,A(st+1)是状态st+1对应的动作集,Agent在状态st采用动作at,使状态变为st+1,同时收到立即奖励rt+1,Q学习中,每个(状态st-动作at)对对应一个相应的Q(st,at)值。
4.根据权利要求1所述的基于强化学习的多Agent污水处理决策支持系统,其特征是,所述强化学习把学习看成一个试探评价的过程,如果污水处理厂Agent的某个行为策略如加入或不加入污水处理行列导致外界环境包括环境效益和经济效益的综合效益反馈正的回报值即r>0,那么Agent产生这个行为策略的趋势将会加强;如果Agent的某个行为策略导致环境反馈负的回报值,那么Agent产生这个行为策略的趋势将会减弱。
CN 201110147186 2011-06-02 2011-06-02 基于强化学习的多Agent污水处理决策支持系统 Expired - Fee Related CN102207928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110147186 CN102207928B (zh) 2011-06-02 2011-06-02 基于强化学习的多Agent污水处理决策支持系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110147186 CN102207928B (zh) 2011-06-02 2011-06-02 基于强化学习的多Agent污水处理决策支持系统

Publications (2)

Publication Number Publication Date
CN102207928A true CN102207928A (zh) 2011-10-05
CN102207928B CN102207928B (zh) 2013-04-24

Family

ID=44696767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110147186 Expired - Fee Related CN102207928B (zh) 2011-06-02 2011-06-02 基于强化学习的多Agent污水处理决策支持系统

Country Status (1)

Country Link
CN (1) CN102207928B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102868972A (zh) * 2012-09-05 2013-01-09 河海大学常州校区 基于改进q学习算法的物联网错误传感器节点定位方法
CN103248693A (zh) * 2013-05-03 2013-08-14 东南大学 基于多智能体强化学习的大规模服务组合优化方法
CN103914560A (zh) * 2014-04-16 2014-07-09 中国科学院合肥物质科学研究院 一种用于农资电子商务的基于Q学习的多agent主动推荐方法
CN105119733A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 人工智能系统及其状态跳转方法、服务器、通信系统
CN107156020A (zh) * 2017-06-21 2017-09-15 重庆大学 一种基于强化学习的智能鱼缸水质调节方法
CN108021028A (zh) * 2017-12-22 2018-05-11 重庆邮电大学 一种基于相关冗余变换与增强学习的多维度协同控制方法
CN108027897A (zh) * 2015-07-24 2018-05-11 渊慧科技有限公司 利用深度强化学习的连续控制
CN108604314A (zh) * 2015-12-01 2018-09-28 渊慧科技有限公司 使用强化学习选择动作名单
CN109001981A (zh) * 2018-09-04 2018-12-14 南宁学院 一种污水处理的强化学习控制方法
CN109032038A (zh) * 2018-09-04 2018-12-18 南宁学院 一种基于强化学习的污水处理控制系统
CN109086550A (zh) * 2018-08-27 2018-12-25 山东师范大学 基于多Agent共享Q学习的疏散仿真方法及系统
CN109117998A (zh) * 2018-08-03 2019-01-01 中山大学 一种多智能体配置方法
CN109154798A (zh) * 2016-05-09 2019-01-04 1Qb信息技术公司 用于改进随机控制问题的策略的方法和系统
CN109324508A (zh) * 2018-09-04 2019-02-12 南宁学院 一种基于强化学习的污水处理控制方法
CN109870992A (zh) * 2019-03-26 2019-06-11 合肥工业大学 一种不考虑延时等待的csps系统控制方法
CN109934753A (zh) * 2019-03-11 2019-06-25 南京大学 一种基于JADE和强化学习的多Agent应急行动方法
CN110033191A (zh) * 2019-04-16 2019-07-19 北京殷塞信息技术有限公司 一种商业人工智能的分析方法及系统
CN110262218A (zh) * 2019-05-20 2019-09-20 北京航空航天大学 机器鱼的控制方法、装置、设备及存储介质
CN111290275A (zh) * 2020-02-23 2020-06-16 浙江科技学院 基于强化学习粒子群算法的污水处理优化控制方法
US10977551B2 (en) 2016-12-14 2021-04-13 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
WO2021147192A1 (zh) * 2020-01-21 2021-07-29 厦门邑通软件科技有限公司 操作行为记录管理的机器试探式学习方法、系统和设备
CN114047720A (zh) * 2021-11-04 2022-02-15 海宸大智(南京)信息科技有限责任公司 用于介质处理的控制方法、装置以及设备
US11449016B2 (en) 2017-12-22 2022-09-20 Huawei Technologies Co., Ltd. Action control method and apparatus
US11481267B2 (en) 2020-05-28 2022-10-25 International Business Machines Corporation Reinforcement learning approach to root cause analysis

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615265A (zh) * 2009-08-11 2009-12-30 路军 一种基于多Agent技术的智能决策仿真实验系统
CN101908172A (zh) * 2010-07-29 2010-12-08 中国电力科学研究院 一种采用多种智能代理算法的电力市场混合仿真方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615265A (zh) * 2009-08-11 2009-12-30 路军 一种基于多Agent技术的智能决策仿真实验系统
CN101908172A (zh) * 2010-07-29 2010-12-08 中国电力科学研究院 一种采用多种智能代理算法的电力市场混合仿真方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102868972A (zh) * 2012-09-05 2013-01-09 河海大学常州校区 基于改进q学习算法的物联网错误传感器节点定位方法
CN102868972B (zh) * 2012-09-05 2016-04-27 河海大学常州校区 基于改进q学习算法的物联网错误传感器节点定位方法
CN103248693A (zh) * 2013-05-03 2013-08-14 东南大学 基于多智能体强化学习的大规模服务组合优化方法
CN103914560A (zh) * 2014-04-16 2014-07-09 中国科学院合肥物质科学研究院 一种用于农资电子商务的基于Q学习的多agent主动推荐方法
CN103914560B (zh) * 2014-04-16 2017-01-18 中国科学院合肥物质科学研究院 一种用于农资电子商务的基于Q学习的多agent主动推荐方法
CN105119733A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 人工智能系统及其状态跳转方法、服务器、通信系统
CN105119733B (zh) * 2015-07-06 2019-01-15 百度在线网络技术(北京)有限公司 人工智能系统及其状态跳转方法、服务器、通信系统
US11803750B2 (en) 2015-07-24 2023-10-31 Deepmind Technologies Limited Continuous control with deep reinforcement learning
CN108027897A (zh) * 2015-07-24 2018-05-11 渊慧科技有限公司 利用深度强化学习的连续控制
CN108027897B (zh) * 2015-07-24 2022-04-12 渊慧科技有限公司 利用深度强化学习的连续控制
CN108604314A (zh) * 2015-12-01 2018-09-28 渊慧科技有限公司 使用强化学习选择动作名单
CN108604314B (zh) * 2015-12-01 2022-08-19 渊慧科技有限公司 使用强化学习选择动作名单
CN109154798A (zh) * 2016-05-09 2019-01-04 1Qb信息技术公司 用于改进随机控制问题的策略的方法和系统
US10977551B2 (en) 2016-12-14 2021-04-13 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN107156020A (zh) * 2017-06-21 2017-09-15 重庆大学 一种基于强化学习的智能鱼缸水质调节方法
CN107156020B (zh) * 2017-06-21 2019-09-13 重庆大学 一种基于强化学习的智能鱼缸水质调节方法
CN108021028B (zh) * 2017-12-22 2019-04-09 重庆邮电大学 一种基于相关冗余变换与增强学习的多维度协同控制方法
US11449016B2 (en) 2017-12-22 2022-09-20 Huawei Technologies Co., Ltd. Action control method and apparatus
CN108021028A (zh) * 2017-12-22 2018-05-11 重庆邮电大学 一种基于相关冗余变换与增强学习的多维度协同控制方法
CN109117998B (zh) * 2018-08-03 2021-06-25 中山大学 一种多智能体配置方法
CN109117998A (zh) * 2018-08-03 2019-01-01 中山大学 一种多智能体配置方法
CN109086550A (zh) * 2018-08-27 2018-12-25 山东师范大学 基于多Agent共享Q学习的疏散仿真方法及系统
CN109001981A (zh) * 2018-09-04 2018-12-14 南宁学院 一种污水处理的强化学习控制方法
CN109032038A (zh) * 2018-09-04 2018-12-18 南宁学院 一种基于强化学习的污水处理控制系统
CN109324508B (zh) * 2018-09-04 2021-06-08 南宁学院 一种基于强化学习的污水处理控制方法
CN109324508A (zh) * 2018-09-04 2019-02-12 南宁学院 一种基于强化学习的污水处理控制方法
CN109934753A (zh) * 2019-03-11 2019-06-25 南京大学 一种基于JADE和强化学习的多Agent应急行动方法
CN109870992A (zh) * 2019-03-26 2019-06-11 合肥工业大学 一种不考虑延时等待的csps系统控制方法
CN110033191A (zh) * 2019-04-16 2019-07-19 北京殷塞信息技术有限公司 一种商业人工智能的分析方法及系统
CN110262218A (zh) * 2019-05-20 2019-09-20 北京航空航天大学 机器鱼的控制方法、装置、设备及存储介质
WO2021147192A1 (zh) * 2020-01-21 2021-07-29 厦门邑通软件科技有限公司 操作行为记录管理的机器试探式学习方法、系统和设备
CN111290275A (zh) * 2020-02-23 2020-06-16 浙江科技学院 基于强化学习粒子群算法的污水处理优化控制方法
US11481267B2 (en) 2020-05-28 2022-10-25 International Business Machines Corporation Reinforcement learning approach to root cause analysis
CN114047720A (zh) * 2021-11-04 2022-02-15 海宸大智(南京)信息科技有限责任公司 用于介质处理的控制方法、装置以及设备

Also Published As

Publication number Publication date
CN102207928B (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN102207928B (zh) 基于强化学习的多Agent污水处理决策支持系统
Li et al. A reinforcement learning based RMOEA/D for bi-objective fuzzy flexible job shop scheduling
Chen et al. A two-layer nonlinear combination method for short-term wind speed prediction based on ELM, ENN, and LSTM
Zhang et al. A Pareto improved artificial fish swarm algorithm for solving a multi-objective fuzzy disassembly line balancing problem
Chen et al. Wind speed forecasting using nonlinear-learning ensemble of deep learning time series prediction and extremal optimization
Negi et al. GWO: a review and applications
Cai et al. A multi-objective chaotic ant swarm optimization for environmental/economic dispatch
Wei et al. Discrete-time self-learning parallel control
Wu et al. Couple-based particle swarm optimization for short-term hydrothermal scheduling
Chen et al. Enforcing policy feasibility constraints through differentiable projection for energy optimization
Liao et al. An adaptive artificial bee colony algorithm for long-term economic dispatch in cascaded hydropower systems
Vidhate et al. Cooperative machine learning with information fusion for dynamic decision making in diagnostic applications
Guo et al. Multi-agent coalition formation by an efficient genetic algorithm with heuristic initialization and repair strategy
CN110288160A (zh) 一种基于平行仿真的态势动态预测方法
CN103279075A (zh) 一种间歇化工生产过程及其控制方法
Hu et al. Short-term hydropower generation scheduling using an improved cloud adaptive quantum-inspired binary social spider optimization algorithm
Qin et al. Multiobjective Multiverse Optimizer for Multirobotic U-Shaped Disassembly Line Balancing Problems
Leithon et al. Task scheduling strategies for utility maximization in a renewable-powered IoT node
Saxena et al. Optimizing Electric Vehicle Energy Management Systems with a Hybrid LSTM-CNN Architecture
Hossain et al. Impact Assessment of Machine Learning Algorithms On Resource Efficiency And Management In Urban Developments
Barkat Ullah et al. AMA: a new approach for solving constrained real-valued optimization problems
Chiang et al. Multi-processor tasks with resource and timing constraints using particle swarm optimization
Gupta et al. The impact of artificial intelligence on renewable energy systems
Chen et al. Volumn Content
Xing et al. Improved cuckoo optimization algorithm for human-machine collaborative disassembly line balancing problem

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130424