CN104376382B

CN104376382B - 面向大规模多Agent系统的非对称分布式约束优化算法及系统

Info

Publication number: CN104376382B
Application number: CN201410668722.4A
Authority: CN
Inventors: 陈自郁; 陈民铀; 张程; 石美凤; 李英豪
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2014-11-18
Filing date: 2014-11-18
Publication date: 2017-10-24
Anticipated expiration: 2034-11-18
Also published as: CN104376382A

Abstract

本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法及系统，包括以下步骤：S1，构造约束图；S2，每个Agent随机选择状态信息s_i,t并发送到其邻居Agent；S3，每个Agent计算初始最佳响应状态s′_i,t+1后再计算增益信息GI_i,t并将所述增益信息GI_i,t发送到其邻居Agent；S4，每个Agent计算最佳响应s′_i,t+1，计算最佳响应s′_i,t+1的预测概率P并产生一个随机概率P_m，如果P_m＜P，则s′_i,t+1＝s′_i,t+1；否则s_i,t+1＝s_i,t；S5，每个Agent计算状态信息s_i,t+1的状态出现频率如果则采用随机调度方法；否则采用确定性调度，执行Agent的状态改变；发送s_i,t+1，令t＝t+1；S6，当t＞t_max，结束算法，否则返回步骤S3。本发明适用于大规模多Agent的协调优化问题，解决有用户偏好以及不确定环境下多Agent系统的优化控制。

Description

面向大规模多Agent系统的非对称分布式约束优化算法及系统

技术领域

本发明涉及Agent系统的非对称分布式约束优化问题的求解，特别是涉及一种面向大规模多Agent系统的非对称分布式约束优化算法及系统，适用于电力发电优化策略计算，尤其是微网配置问题的求解。

背景技术

分布式约束优化问题(Distributed Constraint Optimization Problems,DCOPs)是解决多Agent系统问题的一个基本框架。DCOPs常用来作为多Agent协作问题的重要而有用的抽象，可对多Agent领域许多真实问题建模。DCOPs强调利用本地的局部交互获得全局的最优性，是协调多个Agent解决分布式问题的有效技术，已成为分布式人工智能领域的研究热点。目前已逐步运用于任务调度、资源分配、传感器网络、交通管理、微网配置等实际应用中。但是，当前在这些应用领域中，对于多Agent系统仍然使用的是“对称性”特性，即认为各Agent对与其有约束关系的其他Agent的特征、取值(策略)空间及代价(收益)函数有准确的信息，每个Agent没有个人的偏好信息和隐私性，进而简化了其求解的过程。

但是，在实际问题中，大多数的多Agent系统都具有非对称特征，即每个个体具有自己的偏好且不希望与其他个体共享。例如，在微网控制中，每个分布式电源(DG)由于各自的特性不同(如风能或水电站电源等等)，彼此之间的影响是不同的，在相同网络配置下相邻DG的收益也不相同，而每个DG并不清楚其他DG的收益情况。因此，现实情况使得在此类多Agent系统中，需要充分考虑其非对称性特征。

非对称分布式约束优化问题(Asymmetric Distributed ConstraintOptimization Problems，ADCOPs)是在分布式约束优化问题(DCOPs)的基础上增加了非对称特性的新模型，具有更强的建模能力和更好的工程应用前景。ADCOPs由多元组＜A,X,D,C＞构成。其中A＝{A₁,A₂,...,A_m}表示m个Agent的集合，Agent负责给变量集合X中的变量选择赋值；X＝{x₁,x₂,...,x_n}表示n个变量；D＝{D₁,D₂,...,D_n}是一组离散而有限的值域集合，D_i表示x_i的值域；C表示各变量之间的约束关系集合。C中的约束关系描述如下：

u称为代价函数或收益函数。以二元关系为例，对于ADCOPs求解目标是：

其中u_i(j),u_(i)j:D_i×D_j→R₊,u_i(j),u_(i)j∈u_ij。

公式(2)中u_i(j)和u_(i)j分别表示在x_i与x_j取相同赋值下，Agent和邻居Agent得到的代价或收益，并且u_i(j)和u_(i)j是Agent和邻居Agent的私有信息，彼此不共享。由于ADCOPs多用于多Agent系统的决策优化中，因此在实际应用中，决策集合S＝{S₁,S₂,...,S_n}取代D作为实际值域集合。从上述公式可见，ADCOPs中具有非对称关系的各Agent，虽然彼此影响，但各自的影响情况(代价或收益)是不同的，并且该情况彼此不共享。很多有非对称关系的多Agent系统能较方便地用ADCOPs建模，然而对ADCOPs的求解较困难。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种面向大规模多Agent系统的非对称分布式约束优化算法及系统。

为了实现本发明的上述目的，本发明提供了一种面向大规模多Agent系统的非对称分布式约束优化算法，包括以下步骤：

S1，根据具有非对称关系的Agent构造约束图，令t＝0，所述t为时刻；

S2，每个Agent随机选择状态信息s_i,t，根据约束图向邻居Agent发送所述状态信息s_i,t，其中，i为Agent的序号，在本实施方式中，每个Agent随机选择状态信息s_i,t是指：每个Agent的状态信息具有一个设定的取值范围，从这个取值范围内随机选择一个状态信息s_i,t。

S3，每个Agent接收到邻居Agent的状态信息s_j,t后，所述每个Agent计算初始最佳响应状态s”_i,t+1后再计算增益信息GI_i,t并将所述增益信息GI_i,t发送到其邻居Agent；

S4，每个Agent接收到所有邻居Agent的增益信息GI_j,t及所有邻居Agent的的状态信息s_i,t后，计算最佳响应s'_i,t+1，计算最佳响应s'_i,t+1的预测概率P并产生一个随机概率P_m，如果P_m＜P，则s_i,t+1＝s'_i,t+1；否则s_i,t+1＝s_i,t；

在分布式控制问题中，每个Agent与邻居Agent交换信息，然后自主地进行优化决策，因此对其算法的设计主要在信息交换机制和各Agent的内部处理上。本发明采用同步的信息交换机制，即各Agent发送完t时刻的个人决策信息后，只有接收到全部邻居Agent在t时刻的个人决策信息后才进行内部新的决策处理。

S5，计算状态信息s_i,t+1的状态出现频率如果则采用随机调度；否则采用确定性调度，执行Agent的状态改变；发送s_i,t+1，令t＝t+1；

S6，当t＞t_max，结束算法，所述t_max为允许的最大时刻；否则返回步骤S3。

本发明适用于大规模多Agent的协调优化问题，可以解决有用户偏好以及不确定环境下多Agent系统的优化控制。Agent通过网络连接，交换信息，相互协作完成共同的任务。单独Agent只与有连接关系的Agent(邻居Agent)之间进行信息共享，且个体Agent能根据自身的周围环境以及目标自主做出决策，而不受其他Agent的限制。Agent与Agent之间存在竞争和合作关系，通过自身协调来解决目标与行为之间的冲突。

在本发明的一种优选实施方式中，在步骤S3中，所述Agent i只接收邻居Agent的状态信息s_j,t，所述初始最佳响应s”_i,t+1的计算方法为：

其中，ξ_j为η_j、0或1，所述η_j表示邻居Agent j在系统中的影响程度，u_i(j)表示Agent的私有信息，S_i表示Agent的状态信息集合，s_i是S_i中的一个状态信息，s_j,t表示在t时刻邻居Agent j的状态信息，j表示Agent i的邻居Agent的序号，v(i)表示Agent i的邻居集合。

在本发明的一种优选实施方式中，所述增益信息GI_i,t的计算方法为：

其中，u_i(j)表示Agent的私有信息，s”_i,t+1表示初始最佳响应或最佳响应，s_j,t表示在t时刻邻居Agent j的状态信息,s_i,t表示在t时刻Agent的状态信息，j表示Agent i的邻居Agent的序号，v(i)表Agent i的邻居集合。

本发明引入增益信息GI_i,t能够有效地对决策进行预测。具有预测能力的ADCOP近似算法新框架和相应算法，较好的解决Agent不完全信息的响应、双向代价求解和个体收益的私密性等问题。

在本发明的一种优选实施方式中，所述最佳响应s’_i,t+1的计算方法为：

其中，ξ_j为η_j、0或1，所述η_j表示邻居Agent j在系统中的影响程度，A^i,j为转移矩阵，S_i是Agent的状态信息集合，s_i是S_i中的一个状态信息，s_i,t是t时刻Agent i的状态信息，s_j,t是t时刻邻居Agent j的状态信息，IF_i,t是影响因子，是状态出现频率。

在本发明的一种优选实施方式中，所述影响因子IF_i,t的计算方法为：

其中，j表示Agent i的邻居Agent的序号，v(i)表示Agent i的邻居集合，GI_j,t是邻居Agent j的增益信息。

在本发明的一种优选实施方式中，所述状态出现频率的计算方法为：

是agent i在0到t-1时刻出现过的状态信息，

如果采用随机调度，否则采用确定性调度。

在本发明的一种优选实施方式中，所述随机调度的方法：

当P＞P_p时，Agent i执行最佳策略,其中，P_p为并发概率，P_p＝t/t_max；否则保持原来的策略。

在本发明的一种优选实施方式中，所述确定性调度的方法：

当GI_i,t＞GI_j,t时，Agent i执行最佳策略；否则保持原来的策略。

在本发明的一种优选实施方式中，所述预测概率P的计算方法：

N＝{1,2,…,n}为Agent集合，对于有约束关系的Agent对，定义元组CM＝<S^i,j,GIⁱ ^,j,A^i,j,Λ^i,j>，具体元素为：

S^i,j＝{＜s_i,s_j＞|s_i∈S_i,s_j∈S_j}是Agent i与j相关的状态对集合；

GI^i,j＝{＜GI_i,GI_j＞}是状态对S^i,j对应的增益对；

在时刻t，设＜s_i,s_j＞状态下出现观测增益对P(O_t＝＜GI_i,GI_j＞|Q_t＝＜s_i,s_j＞)服从student-t分布

其中，为观测增益对的样本均值，S为观测增益对的样本方差，由样本均值及样本方差S构造变量x，x服从分布：

其中，A^i,j是转移矩阵，A^i,j＝[a_lk]，

Λ^i,j是初始状态概率，Λ^i,j＝[λ^i,j]，λ^i,j＝P(Q_t＝＜s_i,s_j＞)，

根据马尔可夫序列跳转至不同候选状态的预测概率：

每个Agent i将根据该联合概率给出的预测结果来决定自己在t+1时刻的策略。

此外，由于增益对＜GI_i,GI_j＞的优劣是可知的，因此转移矩阵A^i,j的跳转方向(系统变好或变坏)及跳转概率都可以确定，将A^i,j的跳转方向及概率大小反馈到环境认知特征的构建中，能更准确地刻画当前环境下各状态的影响情况，从而使系统状态不断地往好的方向前进。

对于该模型的参数求解，本发明利用Baum-Welch算法使模型和给定的观测序列更加匹配。Baum-Welch算法采用递归的思想，使P(θ|O)达到局部极大，最后得到模型参数。Baum-Welch算法思想类似EM算法，它可以从非完整数据集中对参数进行最大似然估计，是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据、截尾数据、带有噪声等不完全数据(incomplete data)。除此之外，本发明中的观测数据序列较少，进一步减少了算法进行参数估计的时间，提高模型求参的效率。

本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法的系统，包括状态评估模块、决策选择模块、协调控制模块及Agent视野模块，所述决策选择模块包括预测模型模块及策略生成模块；所述预测模型模块的输出端与所述策略生成模块的输入端相连，所述预测模型模块用于对所述Agent视野模块进行最佳响应状态预估并引导Agent做出最佳选择，所述策略生成模块用于选出最佳响应状态的最佳策略；所述Agent视野模块的输入端接收邻居Agent的通信信息I(t)，所述Agent视野模块的输出端与所述状态评估模块的输入端相连，所述状态评估模块的输出端与所述决策选择模块的输入端相连，所述决策选择模块的输出端与所述协调控制模块的输出端相连，所述协调控制模块的输出端发送通信信息I(t+1)；所述Agent视野模块包括个体当前利益模块及环境认知特征模块，所述个体当前利益模块用于对Agent及邻居Agent的状态信息s_i,t及与Agent相关的转移矩阵A的采集，所述环境认知特征模块用于对影响因子IF_i,t及状态出现频率的采集；所述状态评估模块用于对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合，所述协调控制模块用于协调邻居Agent之间的行为，决定Agent是否要执行最佳策略或如何传递最佳策略。

综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明适用于大规模多Agent的协调优化问题，可以解决有用户偏好以及不确定环境下多Agent系统的优化控制并解决了Agent不完全信息的响应、双向代价求解和个体收益的私密性等问题。

附图说明

图1是本发明Agent结构示意图。

图2是本发明Agent算法框架示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法的系统，如图1所示，包括状态评估模块、决策选择模块、协调控制模块及Agent视野模块，决策选择模块包括预测模型模块及策略生成模块；预测模型模块的输出端与策略生成模块的输入端相连，预测模型模块用于对Agent视野模块进行最佳响应状态预估并引导Agent做出最佳选择，策略生成模块用于选出最佳响应状态的最佳策略；

Agent视野模块的输入端接收邻居Agent的通信信息I(t)，Agent视野模块的输出端与状态评估模块的输入端相连，状态评估模块的输出端与决策选择模块的输入端相连，决策选择模块的输出端与协调控制模块的输出端相连，协调控制模块的输出端发送通信信息I(t+1)；

Agent视野模块包括个体当前利益模块及环境认知特征模块，个体当前利益模块用于对Agent及邻居Agent的状态信息s_i,t及与Agent相关的转移矩阵A的采集，环境认知特征模块用于对影响因子IF_i,t及状态出现频率的采集；状态评估模块用于对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合，协调控制模块用于协调邻居Agent之间的行为，决定Agent是否要执行最佳策略或如何传递最佳策略。

图1中状态评估模块是对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合(Agent的邻居可能有1个或多个)；决策选择模块负责选出最佳策略；协调控制模块用于协调邻居Agent之间的行为，决定Agent是否要执行最佳策略或如何传递最佳策略。为了解决ADCOPs的不完全信息响应，兼顾个人利益和全局利益，本发明增加了Agent视野模块和预测模型模块。Agent视野模块是Agent对自己和邻居的认知，在本发明中包括Agent当前状态、Agent收集到的自己和邻居的历史信息，Agent的收益函数等。Agent视野模块是Agent感知的外部世界，会随着信息的不断收集而变化。预测模型模块基于Agent视野预估最佳响应执行对其它Agent的影响，引导Agent做出最佳选择。图1中I表示Agent之间的通信信息，它影响着系统的稳定性和私密性。对于ADCOPs，通信信息不能包含或推算出Agent的私有收益函数(矩阵)。预测模型随着变化的Agent视野不断更新。Agent i预测模型PM描述如下：

PM(View_i,t,s'_i,t+1):View_i,t→(s'_i,t+1→[0,1])

其中，View_i,t是Agent i在t时刻的视野，s'_i,t+1表示状态评估后的最佳响应状态，即下一时刻可能的最佳策略。

Agent视野包含个体当前利益和环境认知特征两类信息；个体当前利益主要包括当前状态s_i,t、邻居Agent状态s_j,t、与自己相关的约束收益函数(矩阵)。环境认知特征表示Agent对全局利益的认知。由于全局信息是不可知的，因此该特征只能通过邻居利益、邻居行为以及系统运行的可能规律来不断地感知可能的全局特征；从历史和全局的角度，对Agent的每个状态做合理的评估。本发明采用影响因子IF_i,t、状态出现频率和预测选择中的转移矩阵A^i,j来表征环境认知特征。

本发明提供了一种面向大规模多Agent系统的非对称分布式约束优化算法，如图2所示，其包括以下步骤：

S1，根据具有非对称关系的Agent构造约束图，令t＝0，t为时刻；

S2，每个Agent随机选择状态信息s_i,t，根据约束图向邻居Agent发送状态信息s_i,t，i为Agent的序号。需要说明的是，Agent i为待计算Agent，其邻居Agent为Agent j，其中，i，j均为正整数。

S3，每个Agent i接收到邻居Agent j的t时刻的状态信息s_j,t后，每个Agent i计算初始最佳响应状态s”_i,t+1后再计算增益信息GI_i,t并将增益信息GI_i,t发送到其邻居Agent；在本实施方式中，初始最佳响应状态s”_i,t+1的计算方法为：

增益信息GI_i,t的计算方法为：

其中，ξ_j为η_j、0或1，η_j表示邻居Agent j在系统中的影响程度，u_i(j)表示Agent的私有信息，S_i表示Agent的状态信息集合，s_i是S_i中的一个状态信息，s_i,t表示在t时刻Agent i的状态信息，s_j,t表示在t时刻邻居Agent j的状态信息，j表示Agent i的邻居Agent的序号，v(i)表示Agent i的邻居集合，s”_i,t+1表示初始最佳响应，u_i(j)(s_i,s_j,t)为Agent i和邻居Agent j的收益，f(s_i)为Agent i的初始响应状态。

S4，每个Agent接收到所有邻居Agent的增益信息GI_j,t及所有邻居Agent的的t时刻的状态信息s_j,t后，计算最佳响应s'_i,t+1，计算最佳响应s’_i,t+1的预测概率P并产生一个随机概率P_m，如果P_m＜P，则s_i,t+1＝s'_i,t+1；否则s_i,t+1＝s_i,t；在实施方式中，最佳响应s’_i,t+1的计算方法为：

影响因子IF_i,t的计算方法为：

状态出现频率的计算方法为：

其中，A^i,j为转移矩阵，是agent i在0到t-1时刻出现过的状态信息。

S5，计算t+1时刻的状态信息s_i,t+1的状态出现频率如果则采用随机调度；否则采用确定性调度，执行Agent的状态改变；发送s_i,t+1，令t＝t+1；在实施方式中，状态出现频率的计算方法为：

其中，是agent i在0到t-1时刻出现过的状态信息，

在本实施方式中，随机调度方法为：当P＞P_p时，Agent i执行最佳策略,其中，P_p为并发概率，P_p＝t/t_max；否则保持原来的策略；确定性调度的方法：当GI_i,t＞GI_j,t时，Agent i执行最佳策略；否则保持原来的策略。

S6，当t＞t_max，结束算法，t_max为允许的最大时刻；否则返回步骤S3。

本发明不仅可以用于ADCOPs，也可用于DCOPs以及动态环境下的DCOPs。

在本发明的一种优选实施方式中，预测概率P的计算方法：

GI^i,j＝{＜GI_i,GI_j＞}是状态对S^i,j对应的增益对集合；

其中，为观测增益对的样本均值，S为观测增益对的样本方差，μ为观测增益对的样本期望值，n为样本数，由样本均值及样本方差S构造变量x，x服从分布：

其中，A^i,j是转移矩阵，A^i,j＝[a_lk]，

根据马尔可夫序列跳转至不同候选状态的预测概率：

其中，S_i表示Agent的状态信息集合，s_i是S_i中的一个状态信息，S_j表示Agent j的状态信息集合，s_j是S_j中的一个状态信息，GI_i为Agent i的增益信息，GI_j为Agent j的增益信息，Q_t为t时刻Agent i与j相关的状态对，O_t为t时刻状态对Q_t对应的增益对，Q_t+1为t+1时刻Agent i与j相关的状态对，是Agent i与j相关的第k个状态对，是Agent i与j相关的第l个状态对，v(i)表示Agent i的邻居集合,表示Agent i与其邻居agent j相关的状态对。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，包括以下步骤：

S2，每个Agent随机选择t时刻的状态信息s_i,t，根据约束图向邻居Agent发送所述t时刻的状态信息s_i,t，所述i为Agent的序号；

S3，每个Agent接收到邻居Agent的状态信息s_j,t后，所述每个Agent计算初始最佳响应状态s”_i,t+1，计算增益信息GI_i,t并将所述增益信息GI_i,t发送到其邻居Agent；

所述Agent i只接收邻居Agent的状态信息s_j,t，所述初始最佳响应状态s”_i,t+1的计算方法为：

<mrow> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mo>&prime;</mo> <mo>&prime;</mo> </mrow> </msubsup> <mo>=</mo> <mi>arg</mi> <mi> </mi> <msub> <mi>max</mi> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> </mrow> </msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <mi>v</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </munder> <msub> <mi>&xi;</mi> <mi>j</mi> </msub> <mo>&times;</mo> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，ξ_j为η_j、0或1，所述η_j表示邻居Agent j在系统中的影响程度，u_i(j)表示Agent的私有信息，S_i表示Agent的状态信息集合，s_i是S_i中的一个状态信息，s_j,t表示在t时刻邻居Agent j的状态信息，j表示Agent i的邻居Agent的序号，v(i)表示Agent i的邻居集合，u_i(j)(s_i,s_j,t)为Agent i和邻居Agent j的收益，f(s_i)为Agent i的初始响应状态；

S4，每个Agent接收到所有邻居Agent的增益信息GI_j,t及所有邻居Agent的的状态信息s_j,t后，计算最佳响应状态s'_i,t+1，计算最佳响应状态s′_i,t+1的预测概率P并产生一个随机概率P_m，如果P_m＜P，则s_i,t+1＝s'_i,t+1；否则s_i,t+1＝s_i,t；

S5，计算t+1时刻的状态信息s_i,t+1的状态出现频率如果则采用随机调度；否则采用确定性调度，执行Agent的状态改变；发送s_i,t+1，令t＝t+1；

2.根据权利要求1所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述增益信息GI_i,t的计算方法为：

<mrow> <msub> <mi>GI</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mo>&prime;</mo> <mo>&prime;</mo> </mrow> </msubsup> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mi>v</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，u_i(j)表示Agent的私有信息，s″_i,t+1表示初始最佳响应，s_j,t表示在t时刻邻居Agent j的状态信息,s_i,t表示在t时刻Agent的状态信息，j表示Agent i的邻居Agent的序号，v(i)表Agent i的邻居集合。

3.根据权利要求1所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述最佳响应s′_i,t+1的计算方法为：

<mrow> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mi>arg</mi> <mi> </mi> <msub> <mi>max</mi> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> </mrow> </msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>&Element;</mo> <mi>v</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </munder> <msub> <mi>&xi;</mi> <mi>j</mi> </msub> <mo>&times;</mo> <msup> <mi>A</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mo><</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>></mo> <mo>,</mo> <mo><</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>></mo> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>IF</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>&times;</mo> <msubsup> <mi>F</mi> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mi>t</mi> </msubsup> <mo>,</mo> </mrow>

4.根据权利要求3所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述影响因子IF_i,t的计算方法为：

<mrow> <msub> <mi>IF</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <mi>v</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>&eta;</mi> <mi>j</mi> </msub> <mo>&times;</mo> <msub> <mi>GI</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

5.根据权利要求1或3所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述状态出现频率的计算方法为：

<mrow> <msubsup> <mi>F</mi> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mi>t</mi> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mi>t</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>&tau;</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>E</mi> <mo>{</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msubsup> <mi>s</mi> <mi>i</mi> <mi>&tau;</mi> </msubsup> <mo>}</mo> <mo>,</mo> </mrow>

<mrow> <mi>E</mi> <mo>{</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msubsup> <mi>s</mi> <mi>i</mi> <mi>&tau;</mi> </msubsup> <mo>}</mo> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mi>f</mi> <mi> </mi> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msubsup> <mi>s</mi> <mi>i</mi> <mi>&tau;</mi> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> <mi>i</mi> <mi>f</mi> <mi> </mi> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>&NotEqual;</mo> <msubsup> <mi>s</mi> <mi>i</mi> <mi>&tau;</mi> </msubsup> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

是agent i在0到t-1时刻出现过的状态信息，

如果采用随机调度，否则采用确定性调度。

6.根据权利要求5所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述随机调度的方法：

7.根据权利要求5所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述确定性调度的方法：

8.根据权利要求1所述的面向大规模多Agent系统的非对称分布式约束优化算法，其特征在于，所述预测概率P的计算方法：

N＝{1,2,…,n}为Agent集合，对于有约束关系的Agent对，定义元组CM＝＜S^i,j,GI^i,j,A^i,j,Λ^i,j＞，具体元素为：

GI^i,j＝{＜GI_i,GI_j＞}是状态对S^i,j对应的增益对集合；

<mrow> <mi>T</mi> <mo>=</mo> <mfrac> <mrow> <mover> <mi>O</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>&mu;</mi> </mrow> <mrow> <mi>S</mi> <mo>/</mo> <msqrt> <mi>n</mi> </msqrt> </mrow> </mfrac> <mo>,</mo> </mrow>

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>&Gamma;</mi> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <mo><</mo> <msub> <mi>GI</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>GI</mi> <mi>j</mi> </msub> <mo>></mo> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>/</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <mo><</mo> <msub> <mi>GI</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>GI</mi> <mi>j</mi> </msub> <mo>></mo> <mi>&pi;</mi> </mrow> </msqrt> <mi>&Gamma;</mi> <mrow> <mo>(</mo> <mo><</mo> <msub> <mi>GI</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>GI</mi> <mi>j</mi> </msub> <mo>></mo> <mo>/</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mi>x</mi> <mn>2</mn> </msup> <mo>/</mo> <mo><</mo> <msub> <mi>GI</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>GI</mi> <mi>j</mi> </msub> <mo>></mo> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <mo><</mo> <msub> <mi>GI</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>GI</mi> <mi>j</mi> </msub> <mo>></mo> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>2</mn> </mrow> </msup> <mo>,</mo> </mrow>

其中，A^i,j是转移矩阵，A^i,j＝[a_lk]，

根据马尔可夫序列跳转至不同候选状态的预测概率：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>Q</mi> <mrow> <mi>t</mi> <mo>+</mo> <mo>!</mo> </mrow> </msub> <mo>|</mo> <msub> <mi>O</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>Q</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Pi;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <mi>v</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>Q</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msubsup> <mi>Q</mi> <mi>t</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，S_i表示Agent的状态信息集合，s_i是S_i中的一个状态信息，S_j表示Agent j的状态信息集合，s_j是S_j中的一个状态信息，GI_i为Agent i的增益信息，GI_j为Agent j的增益信息，Q_t为t时刻Agent i与j相关的状态对，O_t为t时刻状态对Q_t对应的增益对，Q_t+1为t+1时刻Agenti与j相关的状态对，是Agent i与j相关的第k个状态对，是Agent i与j相关的第l个状态对，v(i)表示Agent i的邻居集合,表示Agent i与其邻居agent j相关的状态对。

9.一种利用权利要求1所述面向大规模多Agent系统的非对称分布式约束优化算法的系统，其特征在于，包括状态评估模块、决策选择模块、协调控制模块及Agent视野模块，所述决策选择模块包括预测模型模块及策略生成模块；所述预测模型模块的输出端与所述策略生成模块的输入端相连，所述预测模型模块用于对所述Agent视野模块进行最佳响应状态预估并引导Agent做出最佳选择，所述策略生成模块用于选出最佳响应状态的最佳策略；

所述Agent视野模块的输入端接收邻居Agent的通信信息I(t)，所述Agent视野模块的输出端与所述状态评估模块的输入端相连，所述状态评估模块的输出端与所述决策选择模块的输入端相连，所述决策选择模块的输出端与所述协调控制模块的输出端相连，所述协调控制模块的输出端发送通信信息I(t+1)；

所述Agent视野模块包括个体当前利益模块及环境认知特征模块，所述个体当前利益模块用于对Agent及邻居Agent的t时刻的状态信息s_i,t及与Agent相关的转移矩阵A的采集，所述环境认知特征模块用于对影响因子IF_i,t及状态出现频率的采集；所述状态评估模块用于对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合，所述协调控制模块用于协调邻居Agent之间的行为，决定Agent是否要执行最佳策略或如何传递最佳策略。