CN110782011A - 一种基于强化学习的网络化多智能体系统分布式优化控制方法 - Google Patents
一种基于强化学习的网络化多智能体系统分布式优化控制方法 Download PDFInfo
- Publication number
- CN110782011A CN110782011A CN201910997409.8A CN201910997409A CN110782011A CN 110782011 A CN110782011 A CN 110782011A CN 201910997409 A CN201910997409 A CN 201910997409A CN 110782011 A CN110782011 A CN 110782011A
- Authority
- CN
- China
- Prior art keywords
- control
- policy
- agent
- strategy
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000005457 optimization Methods 0.000 title claims abstract description 57
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 238000011217 control strategy Methods 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000002474 experimental method Methods 0.000 claims abstract description 11
- 238000004088 simulation Methods 0.000 claims abstract description 11
- 238000013461 design Methods 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 23
- 230000006399 behavior Effects 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 10
- 238000011478 gradient descent method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000007418 data mining Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 4
- 238000013178 mathematical model Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013524 data verification Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 208000011231 Crohn disease Diseases 0.000 claims description 2
- 230000001360 synchronised effect Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41835—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by programme execution
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41885—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Manufacturing & Machinery (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于强化学习的网络化多智能体系统分布式优化控制方法,属于系统控制方法技术领域,所述方法为积分强化学习(IRL)给出具有积分器的Bellman方程,非策略(Off‑policy)方法应用不同控制策略作用控制系统,增加数据探究,通过迭代学习得到最优控制策略,再将图博弈与Off‑policy和IRL融合,给出系统模型完全未知情况下,保证网络化多智能体一致性;具体步骤如下:(1)基于IRL和Off‑policy的优化控制问题求解,(2)基于近似策略迭代分布式近似最优控制策略设计;(3)采用仿真软件和多机械手控制系统物理实验平台,根据仿真和物理实验结果,对理论方法和控制技术做相应调整。
Description
技术领域
本发明属于系统控制方法技术领域,具体涉及一种基于强化学习的网络化多智能体系统分布式优化控制方法,将图博弈(Graphical games)与非策略(Off-policy)和积分强化学习(IRL)融合,给出系统模型完全未知情况下,保证网络化多智能体一致性和性能最优控制优化问题求解方案。
背景技术
实际应用领域,由于大规模复杂加工技术和程序,系统模型复杂,系统辨识精度低且代价高,甚至系统无法辨识。在系统模型完全未知的情况下,现有的完全模型依赖和部分模型依赖优化控制方法,在实际应用中无法实现。目前对基于强化学习的网络化多智能体分布式优化控制研究还处于初级阶段,尚不具备一套完整的理论体系来支持相关技术的发展,急需提出基于强化学习的网络化多智能体系统分布式优化控制方法。本发明针对网络化多智能体,开展无模型一致性最优控制、分布式自适应优化控制等问题,以无模型多智能体系统为对象、以近似策略迭代学习为基本方法、以分布式控制为基本手段、以性能优化和一致性为根本目标,建立强化学习的网络化多智能体分布式优化控制的理论和方法体系。
发明内容
本发明涉及一种基于强化学习的网络化多智能体系统分布式优化控制方法,积分强化学习(IRL)给出具有积分器的Bellman方程。非策略(Off-policy)方法,不利用设计的控制策略评估性能,而是应用各种不同控制策略作用控制系统,增加数据探究,通过迭代学习得到最优控制策略。再将图博弈(Graphical games)与Off-policy和IRL融合,给出系统模型完全未知情况下,保证网络化多智能体一致性,是一种性能最优控制优化问题求解方案。
本发明的目的是通过以下技术方案实现的:
一种基于强化学习的网络化多智能体系统分布式优化控制方法,所述方法为积分强化学习(IRL)给出具有积分器的Bellman方程,非策略(Off-policy)方法应用不同控制策略作用控制系统,增加数据探究,通过迭代学习得到最优控制策略,再将图博弈(Graphicalgames)与Off-policy和IRL融合,给出系统模型完全未知情况下,保证网络化多智能体一致性;具体步骤如下:(1)基于IRL和Off-policy的优化控制问题求解,针对有领导者和无领导者两种情况,涉及网络化多智能体系统模型完全未知的优化控制问题求解算法,将IRL技术和off-policy策略迭代加强学习方法融合,并扩展应用到系统模型完全未知的多智能体系统的最优一致性控制中;(2)基于近似策略迭代分布式近似最优控制策略设计;(3)采用仿真软件和多机械手控制系统物理实验平台,联合验证理论方法和结果的有效性,根据仿真和物理实验结果,对理论方法和控制技术做相应调整。
进一步地,所述步骤(1)分为三个阶段:1)优化问题建模、2)优化问题求解、3)无模型最优控制协议算法设计;
所述步骤1)优化问题建模具体为:首先,根据智能体之间的信息交互,构建通信拓扑图,得到图拉普拉斯矩阵;其次,根据智能体与邻居智能体(包括领导者)之间的相对状态偏差,建模相对状态偏差动态;根据相对状态偏差、控制输入和邻居智能体控制输入,定义二次性能指标函数;最后,构建以相对状态偏差动态为约束,以最优化性能指标和实现一致性(同步)为目标的优化问题数学模型。
所述步骤2)优化问题求解具体为:求解第一阶段构建的优化控制问题,首先,基于动态规划算法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman (HJB)方程;然后基于图论、李雅普诺夫(Lyapunov)稳定性理论、牛顿-莱布尼兹公式,以及Nash均衡理论,证明求解耦合协同博弈HJB方程得到的控制策略,使智能体实现全局Nash均衡,并且保证系统一致或与领导者同步。
所述步骤3)基于第二阶段获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中。
进一步地,所述步骤3)中具体为:①、IRL方法与策略迭代算法融合,给出不包含智能体模型信息的关于值函数和控制策略的迭代方程;②、证明Off-policy Bellman方程与耦合协同博弈HJB方程解的等价性;③、根据1)中得到的迭代方程设计Off-policy IRL算法,分析算法的收敛性。
进一步地,所述步骤(2)具体为:1)值函数和控制协议估计:采用多环Actor-Critic神经网络框架结构,估计值函数和最优控制协议,在用NNs估计值函数和控制协议时,限定它们的激活函数是智能体相对状态偏差的函数;基于批最小二乘法,估计神经网络权,综合前两步,给出近似策略迭代算法,估计最优一致性协议;
2)分析算法的收敛性:基于无模型策略迭代算法,利用维尔斯特拉斯高阶逼近定理,提出Actor-Critic神经网络框架结构;讨论通信拓扑图的连通性,基于矩阵的克罗内克积性质、图拉普拉斯矩阵特征和李雅普诺夫稳定性理论,讨论实现网络化多智能体系统一致性以及性能全局近似最优性或纳什均衡的条件;最后,利用加权残差法和梯形数值积分法,估计Actor和Critic神经网络权,获得近似最优控制律;
3)自适应控制协议设计:网络化多智能体系统自适应近似最优控制,采用梯度下降法执行三重指标迭代策略。
进一步地,所述步骤3)具体步骤如下:
①基于梯度下降法的神经网络权递归方程建模:
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络权(Actor和Critic的神经网络权)的递归方程,此神经网络权有三重指标,包括近似策略迭代步骤指标,神经网络权递归方程步骤指标和时间指标(为正整数,为第次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性;
②基于三重指标迭代的自适应近似最优控制:
首先,固定步骤指标,固定控制输入,执行步骤指标和时间指标双重迭代,基于数据仓库估计和调整神经网络权;其次,计算新的控制输入,更新数据仓库,增加步骤指标,产生新的神经网络权估计值;最后如此循环,直到神经网络权收敛,得到最优控制行为估计;
③仿真软件和多机械手控制系统物理实验验证。
进一步地,所述数据仓库包括多智能体状态和控制行为、领导者状态、邻居智能体状态和控制行为。
进一步地,所述步骤③具体步骤如下:
I、应用Java软件编程,设计多智能体模块、通信网络模块、数据处理模块和仿真器模块,构建基于数据挖掘的网络化多智能体系统仿真平台;
Ⅱ、在仿真平台上进行数据挖掘和优化控制算法的验证;
Ⅲ、应用多机械手控制系统,对所提出的理论和方法进行全面验证。
本发明的优点与效果是:
目前对基于强化学习和近似策略迭代的网络化多智能体分布式优化控制研究还处于初级阶段,尚不具备一套完整的理论体系来支持相关技术的发展,急需基于强化学习的网络化多智能体系统分布式优化控制方法的提出。本发明给出系统模型完全未知情况下,保证网络化多智能体一致性,是一种性能最优控制优化问题求解方案。网络化多智能体系统应用领域,环境、通信、任务等都具有动态性。设计近似最优一致性控制策略与动态环境和系统变化适应,这使得所设计的控制策略在网络化多智能体系统应用领域更具有实用性。本发明不仅为网络化多智能体分布式优化问题提供新的控制技术方法,也为复杂大规模系统系统优化控制提供技术支持,在数据驱动下的“中国智能制造”中协同控制、智能控制中发挥重要作用。
附图说明
图1 基于无模型近似策略迭代算法的优化控制总体方案;
图2 网络化多智能体系统自适应近似最优控制总体方案;
图3 基于梯度下降法的自适应近似最优控制方案;
图4 基于数据挖掘的网络化多智能体系统仿真平台。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
实施例1
本发明采用如下技术方案:
(1)基于IRL和Off-policy的优化控制问题求解,在此部分,我们拟针对有领导者和无领导者两种情况,涉及网络化多智能体系统模型完全未知的优化控制问题求解算法。 基于前期研究成果,将IRL技术和off-policy策略迭代加强学习方法融合,并扩展应用到系统模型完全未知的多智能体系统的最优一致性控制中。注意到,现有的基于IRL 和off-policy策略迭代加强学习方法优化控制问题,对象为系统模型完全未知的单一系统,而多智能体系统中智能体之间互相耦合,并存在分布式的特征,因此,这种扩展并不是直接、简单的延伸,在这过程中有很多需要解决的科学难题。包括a)如何构建网络化多智能体系统优化控制问题数学模型,以便实现多智能体系统一致性(同步)和性能指标最优化双重目标;b) 如何设计算法求解a) 中优化控制问题;c) 如何消除最优一致性算法对系统模型的依赖。如图1所示,这一部分分为以下三个阶段。
(2)基于近似策略迭代分布式近似最优控制策略设计,此部分重点解决两个科学难题,包括a) 分布式最优一致性控制协议估计;b) 与动态环境和系统变化相适应的自适应控制协议设计。将动作-批判者(Actor-Critic)神经网络框架架构应用到此部分中。分为三个阶段。
(3)采用仿真软件和多机械手控制系统物理实验平台,联合验证理论方法和结果的有效性。根据仿真和物理实验结果,对理论方法和控制技术做相应调整。
本发明方法原理描述:
基于IRL和Off-policy本项目将针对网络化多智能体,开展无模型一致性最优控制、分布式自适应优化控制等问题,以无模型多智能体系统为对象、以近似策略迭代学习为基本方法、以分布式控制为基本手段、以性能优化和一致性为根本目标,建立强化学习的网络化多智能体分布式优化控制的理论和方法体系。
(1)基于IRL和Off-policy的优化控制问题求解,分为三个阶段:
优化问题建模:首先,根据智能体之间的信息交互,构建通信拓扑图,得到图拉普
拉斯矩阵;其次,根据智能体与邻居智能体(包括领导者)之间的相对状态偏差,建模相对状
态偏差动态。根据相对状态偏差、控制输入和邻居智能体控制输入,定义二次性能指标函
数;最后,构建以相对状态偏差动态为约束,以最优化性能指标和实现一致性(同步)为目标
的优化问题数学模型。此第一阶段用于解决科学难题a)。
优化问题求解:为求解第一阶段构建的优化控制问题,首先,基于动态规划算
法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman (HJB)方程;然后,基于
图论、李雅普诺夫(Lyapunov)稳定性理论、牛顿-莱布尼兹公式,以及Nash均衡理论,证明求
解耦合协同博弈HJB方程得到的控制策略,使智能体实现全局Nash均衡,并且保证系统一致
或与领导者同步。此第一阶段用于解决科学难题b)。
无模型最优控制协议算法设计:基于第二阶段获得的耦合协同博弈HJB方程,
将项目组前期研究成果扩展到系统模型完全未知的优化控制问题中。在这一阶段,我们需
要解决以下问题:1)IRL方法与策略迭代算法有机融合,给出不包含智能体模型信息的关于
值函数和控制策略的迭代方程;2) 证明Off-policy Bellman方程与耦合协同博弈HJB方程
解的等价性;3) 根据1) 中得到的迭代方程设计Off-policy IRL算法,分析算法的收敛性。
利用此算法收敛于耦合协同博弈HJB方程的解,为在系统模型完全未知的情况,设计控制协
议,实现多智能体系统一致性和性能最优性提供可行途径。此第一阶段用于解决科学难题
c)。
(2)基于近似策略迭代的分布式近似最优控制策略设计,分为三个阶段:
采用多环Actor-Critic神经网络框架结构,估计值函数和最优控制协议。鉴于网络化多智能体系统的分布式特征,为保证基于内容(2)中Off-policy IRL算法得到的控制协议是分布式的。在用NNs估计值函数和控制协议时,我们限定它们的激活函数是智能体相对状态偏差的函数;然后,基于批最小二乘法,估计神经网络权。最后,综合前两步,给出近似策略迭代算法,估计最优一致性协议。
然后提出首先,基于无模型策略迭代算法,利用维尔斯特拉斯高阶逼近定理,提出Actor-Critic神经网络框架结构,目的为估计性能函数和最优控制行为;其次,讨论通信拓扑图的连通性,基于矩阵的克罗内克积性质、图拉普拉斯矩阵特征和李雅普诺夫稳定性理论,讨论实现网络化多智能体系统一致性以及性能全局近似最优性或纳什均衡的条件;最后,利用加权残差法和梯形数值积分法,估计Actor和Critic神经网络权,获得近似最优控制律。
此部分解决网络化多智能体系统自适应近似最优控制问题,总体方案如图2所示。采用梯度下降法,如图3所示。执行三重指标迭代策略,目的与外界环境动态和系统变化适应,以自适应控制方式优化网络化多智能体系统性能。
具体步骤如下:
1) 基于梯度下降法的神经网络权递归方程建模
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络权(Actor和Critic的神经网络权)的递归方程。此神经网络权有三重指标,包括近似策略迭代步骤指标,神经网络权递归方程步骤指标和时间指标(为正整数,为第次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性。
2) 基于三重指标迭代的自适应近似最优控制
首先,固定步骤指标,固定控制输入,执行步骤指标和时间指标双重迭代,基于数据仓库(包括多智能体状态和控制行为、领导者状态、邻居智能体状态和控制行为),估计和调整神经网络权;其次,计算新的控制输入(利用“基于无模型近似策略迭代算法的优化控制”此部分方法),更新数据仓库。增加步骤指标,产生新的神经网络权估计值;最后,如此循环,直到神经网络权收敛,得到最优控制行为估计。
(3)仿真软件和多机械手控制系统物理实验验证
具体步骤如下:
应用多机械手控制系统,对所提出的理论和方法进行全面验证。
Claims (7)
1.一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述方法为积分强化学习(IRL)给出具有积分器的Bellman方程,非策略(Off-policy)方法应用不同控制策略作用控制系统,增加数据探究,通过迭代学习得到最优控制策略,再将图博弈(Graphical games)与Off-policy和IRL融合,给出系统模型完全未知情况下,保证网络化多智能体一致性;具体步骤如下:(1)基于IRL和Off-policy的优化控制问题求解,针对有领导者和无领导者两种情况,涉及网络化多智能体系统模型完全未知的优化控制问题求解算法,将IRL技术和off-policy策略迭代加强学习方法融合,并扩展应用到系统模型完全未知的多智能体系统的最优一致性控制中;(2)基于近似策略迭代分布式近似最优控制策略设计;(3)采用仿真软件和多机械手控制系统物理实验平台,联合验证理论方法和结果的有效性,根据仿真和物理实验结果,对理论方法和控制技术做相应调整。
2.根据权利要求1所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述步骤(1)分为三个阶段:1)优化问题建模、2)优化问题求解、3)无模型最优控制协议算法设计;
所述步骤1)优化问题建模具体为:首先,根据智能体之间的信息交互,构建通信拓扑图,得到图拉普拉斯矩阵;其次,根据智能体与邻居智能体(包括领导者)之间的相对状态偏差,建模相对状态偏差动态;根据相对状态偏差、控制输入和邻居智能体控制输入,定义二次性能指标函数;最后,构建以相对状态偏差动态为约束,以最优化性能指标和实现一致性(同步)为目标的优化问题数学模型;
所述步骤2)优化问题求解具体为:求解第一阶段构建的优化控制问题,首先,基于动态规划算法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman (HJB)方程;然后基于图论、李雅普诺夫(Lyapunov)稳定性理论、牛顿-莱布尼兹公式,以及Nash均衡理论,证明求解耦合协同博弈HJB方程得到的控制策略,使智能体实现全局Nash均衡,并且保证系统一致或与领导者同步;
所述步骤3)基于第二阶段获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中。
3.根据权利要求2所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述步骤3)中具体为:①、IRL方法与策略迭代算法融合,给出不包含智能体模型信息的关于值函数和控制策略的迭代方程;②、证明Off-policy Bellman方程与耦合协同博弈HJB方程解的等价性;③、根据1)中得到的迭代方程设计Off-policy IRL算法,分析算法的收敛性。
4.根据权利要求1所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述步骤(2)具体为:1)值函数和控制协议估计:采用多环Actor-Critic神经网络框架结构,估计值函数和最优控制协议,在用NNs估计值函数和控制协议时,限定它们的激活函数是智能体相对状态偏差的函数;基于批最小二乘法,估计神经网络权,综合前两步,给出近似策略迭代算法,估计最优一致性协议;
2)分析算法的收敛性:基于无模型策略迭代算法,利用维尔斯特拉斯高阶逼近定理,提出Actor-Critic神经网络框架结构;讨论通信拓扑图的连通性,基于矩阵的克罗内克积性质、图拉普拉斯矩阵特征和李雅普诺夫稳定性理论,讨论实现网络化多智能体系统一致性以及性能全局近似最优性或纳什均衡的条件;最后,利用加权残差法和梯形数值积分法,估计Actor和Critic神经网络权,获得近似最优控制律;
3)自适应控制协议设计:网络化多智能体系统自适应近似最优控制,采用梯度下降法执行三重指标迭代策略。
5.根据权利要求4所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述步骤3)具体步骤如下:
①基于梯度下降法的神经网络权递归方程建模:
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络权(Actor和Critic的神经网络权)的递归方程,此神经网络权有三重指标,包括近似策略迭代步骤指标,神经网络权递归方程步骤指标和时间指标(为正整数,为第次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性;
②基于三重指标迭代的自适应近似最优控制:
首先,固定步骤指标,固定控制输入,执行步骤指标和时间指标双重迭代,基于数据仓库估计和调整神经网络权;其次,计算新的控制输入,更新数据仓库,增加步骤指标,产生新的神经网络权估计值;最后如此循环,直到神经网络权收敛,得到最优控制行为估计;
③仿真软件和多机械手控制系统物理实验验证。
6.根据权利要求5所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述数据仓库包括多智能体状态和控制行为、领导者状态、邻居智能体状态和控制行为。
7.根据权利要求5所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法,其特征在于:所述步骤③具体步骤如下:
I、应用Java软件编程,设计多智能体模块、通信网络模块、数据处理模块和仿真器模块,构建基于数据挖掘的网络化多智能体系统仿真平台;
Ⅱ、在仿真平台上进行数据挖掘和优化控制算法的验证;
Ⅲ、应用多机械手控制系统,对所提出的理论和方法进行全面验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910997409.8A CN110782011B (zh) | 2019-10-21 | 2019-10-21 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910997409.8A CN110782011B (zh) | 2019-10-21 | 2019-10-21 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110782011A true CN110782011A (zh) | 2020-02-11 |
CN110782011B CN110782011B (zh) | 2023-11-24 |
Family
ID=69385995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910997409.8A Active CN110782011B (zh) | 2019-10-21 | 2019-10-21 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110782011B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111880414A (zh) * | 2020-08-20 | 2020-11-03 | 辽宁石油化工大学 | 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 |
CN111882101A (zh) * | 2020-05-25 | 2020-11-03 | 北京信息科技大学 | 一种基于切换拓扑下供应链系统一致性问题的控制方法 |
CN112180730A (zh) * | 2020-10-10 | 2021-01-05 | 中国科学技术大学 | 一种多智能体系统分层最优一致性控制方法和装置 |
CN112650290A (zh) * | 2020-12-24 | 2021-04-13 | 广东工业大学 | 带有扰动补偿的高层消防无人机编队优化控制方法及系统 |
CN112714165A (zh) * | 2020-12-22 | 2021-04-27 | 声耕智能科技(西安)研究院有限公司 | 一种基于组合机制的分布式网络协作策略优化方法和装置 |
CN112947078A (zh) * | 2021-02-03 | 2021-06-11 | 浙江工业大学 | 一种基于值迭代的伺服电机智能优化控制方法 |
CN112947084A (zh) * | 2021-02-08 | 2021-06-11 | 重庆大学 | 一种基于强化学习的模型未知多智能体一致性控制方法 |
CN113050412A (zh) * | 2021-03-09 | 2021-06-29 | 厦门大学 | 一种基于迭代学习控制的批次反应釜控制方法的生成方法 |
CN113134187A (zh) * | 2021-04-19 | 2021-07-20 | 重庆大学 | 基于积分强化学习的多消防巡检协作机器人系统 |
CN113159331A (zh) * | 2021-05-24 | 2021-07-23 | 同济大学 | 一种网络化机器学习系统的自适应稀疏度量化方法 |
CN113641100A (zh) * | 2021-07-14 | 2021-11-12 | 苏州国科医工科技发展(集团)有限公司 | 针对未知非线性系统的通用辩识方法 |
CN113885330A (zh) * | 2021-10-26 | 2022-01-04 | 哈尔滨工业大学 | 一种基于深度强化学习的信息物理系统安全控制方法 |
CN114063438A (zh) * | 2021-11-12 | 2022-02-18 | 辽宁石油化工大学 | 一种数据驱动的多智能体系统pid控制协议自学习方法 |
CN114200830A (zh) * | 2021-11-11 | 2022-03-18 | 辽宁石油化工大学 | 一种多智能体一致性强化学习控制方法 |
CN115134269A (zh) * | 2022-06-28 | 2022-09-30 | 北京邮电大学 | 多智能体系统连通性的检测方法和装置 |
CN115185189A (zh) * | 2022-09-06 | 2022-10-14 | 人工智能与数字经济广东省实验室(广州) | 带隐私保护的一致性最优控制方法、系统、设备和介质 |
WO2022246625A1 (zh) * | 2021-05-24 | 2022-12-01 | 同济大学 | 一种网络化机器学习系统的自适应通信方法 |
CN115657463A (zh) * | 2022-05-27 | 2023-01-31 | 安徽大学 | 一种基于能量差异的多机器人分布式最优协同控制算法 |
CN116305268A (zh) * | 2023-03-14 | 2023-06-23 | 中国医学科学院北京协和医院 | 一种基于有限状态机和多目标学习的数据发布方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803349A (zh) * | 2018-08-13 | 2018-11-13 | 中国地质大学(武汉) | 非线性多智能体系统的最优一致性控制方法及系统 |
CN109932905A (zh) * | 2019-03-08 | 2019-06-25 | 辽宁石油化工大学 | 一种基于非策略的观测器状态反馈的优化控制方法 |
CN110083063A (zh) * | 2019-04-29 | 2019-08-02 | 辽宁石油化工大学 | 一种基于非策略q学习的多个体优化控制方法 |
CN110083064A (zh) * | 2019-04-29 | 2019-08-02 | 辽宁石油化工大学 | 一种基于非策略q-学习的网络最优跟踪控制方法 |
-
2019
- 2019-10-21 CN CN201910997409.8A patent/CN110782011B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803349A (zh) * | 2018-08-13 | 2018-11-13 | 中国地质大学(武汉) | 非线性多智能体系统的最优一致性控制方法及系统 |
CN109932905A (zh) * | 2019-03-08 | 2019-06-25 | 辽宁石油化工大学 | 一种基于非策略的观测器状态反馈的优化控制方法 |
CN110083063A (zh) * | 2019-04-29 | 2019-08-02 | 辽宁石油化工大学 | 一种基于非策略q学习的多个体优化控制方法 |
CN110083064A (zh) * | 2019-04-29 | 2019-08-02 | 辽宁石油化工大学 | 一种基于非策略q-学习的网络最优跟踪控制方法 |
Non-Patent Citations (2)
Title |
---|
JINNA LI 等: "H∞ Control for Discrete-time Linear Systems by Integrating Off-policy Q-learning and Zero-sum Game" * |
徐昕,贺汉根: "神经网络增强学习的梯度算法研究" * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882101A (zh) * | 2020-05-25 | 2020-11-03 | 北京信息科技大学 | 一种基于切换拓扑下供应链系统一致性问题的控制方法 |
CN111880414A (zh) * | 2020-08-20 | 2020-11-03 | 辽宁石油化工大学 | 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 |
CN112180730B (zh) * | 2020-10-10 | 2022-03-01 | 中国科学技术大学 | 一种多智能体系统分层最优一致性控制方法和装置 |
CN112180730A (zh) * | 2020-10-10 | 2021-01-05 | 中国科学技术大学 | 一种多智能体系统分层最优一致性控制方法和装置 |
CN112714165A (zh) * | 2020-12-22 | 2021-04-27 | 声耕智能科技(西安)研究院有限公司 | 一种基于组合机制的分布式网络协作策略优化方法和装置 |
CN112650290B (zh) * | 2020-12-24 | 2023-12-08 | 广东工业大学 | 带有扰动补偿的高层消防无人机编队优化控制方法及系统 |
CN112650290A (zh) * | 2020-12-24 | 2021-04-13 | 广东工业大学 | 带有扰动补偿的高层消防无人机编队优化控制方法及系统 |
CN112947078A (zh) * | 2021-02-03 | 2021-06-11 | 浙江工业大学 | 一种基于值迭代的伺服电机智能优化控制方法 |
CN112947084A (zh) * | 2021-02-08 | 2021-06-11 | 重庆大学 | 一种基于强化学习的模型未知多智能体一致性控制方法 |
CN112947084B (zh) * | 2021-02-08 | 2022-09-23 | 重庆大学 | 一种基于强化学习的模型未知多智能体一致性控制方法 |
CN113050412A (zh) * | 2021-03-09 | 2021-06-29 | 厦门大学 | 一种基于迭代学习控制的批次反应釜控制方法的生成方法 |
CN113134187A (zh) * | 2021-04-19 | 2021-07-20 | 重庆大学 | 基于积分强化学习的多消防巡检协作机器人系统 |
CN113134187B (zh) * | 2021-04-19 | 2022-04-29 | 重庆大学 | 基于积分强化学习的多消防巡检协作机器人系统 |
CN113159331A (zh) * | 2021-05-24 | 2021-07-23 | 同济大学 | 一种网络化机器学习系统的自适应稀疏度量化方法 |
WO2022246625A1 (zh) * | 2021-05-24 | 2022-12-01 | 同济大学 | 一种网络化机器学习系统的自适应通信方法 |
CN113641100A (zh) * | 2021-07-14 | 2021-11-12 | 苏州国科医工科技发展(集团)有限公司 | 针对未知非线性系统的通用辩识方法 |
CN113641100B (zh) * | 2021-07-14 | 2023-11-28 | 苏州国科医工科技发展(集团)有限公司 | 针对未知非线性系统的通用辩识方法 |
CN113885330A (zh) * | 2021-10-26 | 2022-01-04 | 哈尔滨工业大学 | 一种基于深度强化学习的信息物理系统安全控制方法 |
CN114200830A (zh) * | 2021-11-11 | 2022-03-18 | 辽宁石油化工大学 | 一种多智能体一致性强化学习控制方法 |
CN114200830B (zh) * | 2021-11-11 | 2023-09-22 | 辽宁石油化工大学 | 一种多智能体一致性强化学习控制方法 |
CN114063438B (zh) * | 2021-11-12 | 2023-09-22 | 辽宁石油化工大学 | 一种数据驱动的多智能体系统pid控制协议自学习方法 |
CN114063438A (zh) * | 2021-11-12 | 2022-02-18 | 辽宁石油化工大学 | 一种数据驱动的多智能体系统pid控制协议自学习方法 |
CN115657463A (zh) * | 2022-05-27 | 2023-01-31 | 安徽大学 | 一种基于能量差异的多机器人分布式最优协同控制算法 |
CN115657463B (zh) * | 2022-05-27 | 2023-10-13 | 安徽大学 | 一种基于能量差异的多机器人分布式最优协同控制算法 |
CN115134269B (zh) * | 2022-06-28 | 2023-08-25 | 北京邮电大学 | 多智能体系统连通性的检测方法和装置 |
CN115134269A (zh) * | 2022-06-28 | 2022-09-30 | 北京邮电大学 | 多智能体系统连通性的检测方法和装置 |
CN115185189A (zh) * | 2022-09-06 | 2022-10-14 | 人工智能与数字经济广东省实验室(广州) | 带隐私保护的一致性最优控制方法、系统、设备和介质 |
CN115185189B (zh) * | 2022-09-06 | 2023-09-05 | 人工智能与数字经济广东省实验室(广州) | 带隐私保护的一致性最优控制方法、系统、设备和介质 |
CN116305268A (zh) * | 2023-03-14 | 2023-06-23 | 中国医学科学院北京协和医院 | 一种基于有限状态机和多目标学习的数据发布方法及系统 |
CN116305268B (zh) * | 2023-03-14 | 2024-01-05 | 中国医学科学院北京协和医院 | 一种基于有限状态机和多目标学习的数据发布方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110782011B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782011A (zh) | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 | |
CN104408518B (zh) | 基于粒子群优化算法的神经网络学习优化方法 | |
CN113900380B (zh) | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 | |
CN113268083B (zh) | 基于动态事件触发的多无人机系统编队跟踪控制方法 | |
CN109818792B (zh) | 一种基于二阶线性系统时变耦合复杂动态网络模型的控制器 | |
Long et al. | Game-based backstepping design for strict-feedback nonlinear multi-agent systems based on reinforcement learning | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
CN112180730B (zh) | 一种多智能体系统分层最优一致性控制方法和装置 | |
CN115085202A (zh) | 电网多区域智能功率协同优化方法、装置、设备及介质 | |
CN114851198A (zh) | 一种多单连杆式机械臂的一致跟踪固定时间稳定控制方法 | |
Gand et al. | A Fuzzy Controller for Self-adaptive Lightweight Edge Container Orchestration. | |
CN111798494A (zh) | 广义相关熵准则下的机动目标鲁棒跟踪方法 | |
Liu et al. | Learning multi-agent behaviors from distributed and streaming demonstrations | |
Liu et al. | Data‐based robust optimal control of discrete‐time systems with uncertainties via adaptive dynamic programming | |
Kosmatopoulos et al. | Local4Global adaptive optimization and control for system-of-systems | |
Qiu et al. | Iterative learning control for multi‐agent systems with noninstantaneous impulsive consensus tracking | |
Dong et al. | Multi-target dynamic hunting strategy based on improved k-means and auction algorithm | |
CN114063438B (zh) | 一种数据驱动的多智能体系统pid控制协议自学习方法 | |
CN104537224B (zh) | 基于自适应学习算法的多状态系统可靠性分析方法及系统 | |
Corso et al. | Transfer learning for efficient iterative safety validation | |
CN116500893B (zh) | 一种高阶多智能体的强化学习优化控制器构建方法及系统 | |
CN112364992A (zh) | 一种场景约束的智能网络搜索的模型剪枝方法 | |
CN114488802B (zh) | 组内决策一致多群组博弈的纳什均衡指定时间搜索方法 | |
CN111817298A (zh) | 含随机风能的多调度区间分布式能源调度方法及系统 | |
CN112633559B (zh) | 一种基于动态图卷积神经网络的社交关系预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |