CN104376382B - 面向大规模多Agent系统的非对称分布式约束优化算法及系统 - Google Patents
面向大规模多Agent系统的非对称分布式约束优化算法及系统 Download PDFInfo
- Publication number
- CN104376382B CN104376382B CN201410668722.4A CN201410668722A CN104376382B CN 104376382 B CN104376382 B CN 104376382B CN 201410668722 A CN201410668722 A CN 201410668722A CN 104376382 B CN104376382 B CN 104376382B
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- agent
- neighbours
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000005457 optimization Methods 0.000 title claims abstract description 28
- 238000009826 distribution Methods 0.000 title claims abstract description 24
- 230000004044 response Effects 0.000 claims abstract description 34
- 230000008859 change Effects 0.000 claims abstract description 7
- 230000000007 visual effect Effects 0.000 claims description 21
- 238000000205 computational method Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 7
- 230000019771 cognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法及系统,包括以下步骤:S1,构造约束图;S2,每个Agent随机选择状态信息si,t并发送到其邻居Agent;S3,每个Agent计算初始最佳响应状态s′i,t+1后再计算增益信息GIi,t并将所述增益信息GIi,t发送到其邻居Agent;S4,每个Agent计算最佳响应s′i,t+1,计算最佳响应s′i,t+1的预测概率P并产生一个随机概率Pm,如果Pm<P,则s′i,t+1=s′i,t+1;否则si,t+1=si,t;S5,每个Agent计算状态信息si,t+1的状态出现频率如果则采用随机调度方法;否则采用确定性调度,执行Agent的状态改变;发送si,t+1,令t=t+1;S6,当t>tmax,结束算法,否则返回步骤S3。本发明适用于大规模多Agent的协调优化问题,解决有用户偏好以及不确定环境下多Agent系统的优化控制。
Description
技术领域
本发明涉及Agent系统的非对称分布式约束优化问题的求解,特别是涉及一种面向大规模多Agent系统的非对称分布式约束优化算法及系统,适用于电力发电优化策略计算,尤其是微网配置问题的求解。
背景技术
分布式约束优化问题(Distributed Constraint Optimization Problems,DCOPs)是解决多Agent系统问题的一个基本框架。DCOPs常用来作为多Agent协作问题的重要而有用的抽象,可对多Agent领域许多真实问题建模。DCOPs强调利用本地的局部交互获得全局的最优性,是协调多个Agent解决分布式问题的有效技术,已成为分布式人工智能领域的研究热点。目前已逐步运用于任务调度、资源分配、传感器网络、交通管理、微网配置等实际应用中。但是,当前在这些应用领域中,对于多Agent系统仍然使用的是“对称性”特性,即认为各Agent对与其有约束关系的其他Agent的特征、取值(策略)空间及代价(收益)函数有准确的信息,每个Agent没有个人的偏好信息和隐私性,进而简化了其求解的过程。
但是,在实际问题中,大多数的多Agent系统都具有非对称特征,即每个个体具有自己的偏好且不希望与其他个体共享。例如,在微网控制中,每个分布式电源(DG)由于各自的特性不同(如风能或水电站电源等等),彼此之间的影响是不同的,在相同网络配置下相邻DG的收益也不相同,而每个DG并不清楚其他DG的收益情况。因此,现实情况使得在此类多Agent系统中,需要充分考虑其非对称性特征。
非对称分布式约束优化问题(Asymmetric Distributed ConstraintOptimization Problems,ADCOPs)是在分布式约束优化问题(DCOPs)的基础上增加了非对称特性的新模型,具有更强的建模能力和更好的工程应用前景。ADCOPs由多元组<A,X,D,C>构成。其中A={A1,A2,...,Am}表示m个Agent的集合,Agent负责给变量集合X中的变量选择赋值;X={x1,x2,...,xn}表示n个变量;D={D1,D2,...,Dn}是一组离散而有限的值域集合,Di表示xi的值域;C表示各变量之间的约束关系集合。C中的约束关系描述如下:
u称为代价函数或收益函数。以二元关系为例,对于ADCOPs求解目标是:
其中ui(j),u(i)j:Di×Dj→R+,ui(j),u(i)j∈uij。
公式(2)中ui(j)和u(i)j分别表示在xi与xj取相同赋值下,Agent和邻居Agent得到的代价或收益,并且ui(j)和u(i)j是Agent和邻居Agent的私有信息,彼此不共享。由于ADCOPs多用于多Agent系统的决策优化中,因此在实际应用中,决策集合S={S1,S2,...,Sn}取代D作为实际值域集合。从上述公式可见,ADCOPs中具有非对称关系的各Agent,虽然彼此影响,但各自的影响情况(代价或收益)是不同的,并且该情况彼此不共享。很多有非对称关系的多Agent系统能较方便地用ADCOPs建模,然而对ADCOPs的求解较困难。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种面向大规模多Agent系统的非对称分布式约束优化算法及系统。
为了实现本发明的上述目的,本发明提供了一种面向大规模多Agent系统的非对称分布式约束优化算法,包括以下步骤:
S1,根据具有非对称关系的Agent构造约束图,令t=0,所述t为时刻;
S2,每个Agent随机选择状态信息si,t,根据约束图向邻居Agent发送所述状态信息si,t,其中,i为Agent的序号,在本实施方式中,每个Agent随机选择状态信息si,t是指:每个Agent的状态信息具有一个设定的取值范围,从这个取值范围内随机选择一个状态信息si,t。
S3,每个Agent接收到邻居Agent的状态信息sj,t后,所述每个Agent计算初始最佳响应状态s”i,t+1后再计算增益信息GIi,t并将所述增益信息GIi,t发送到其邻居Agent;
S4,每个Agent接收到所有邻居Agent的增益信息GIj,t及所有邻居Agent的的状态信息si,t后,计算最佳响应s'i,t+1,计算最佳响应s'i,t+1的预测概率P并产生一个随机概率Pm,如果Pm<P,则si,t+1=s'i,t+1;否则si,t+1=si,t;
在分布式控制问题中,每个Agent与邻居Agent交换信息,然后自主地进行优化决策,因此对其算法的设计主要在信息交换机制和各Agent的内部处理上。本发明采用同步的信息交换机制,即各Agent发送完t时刻的个人决策信息后,只有接收到全部邻居Agent在t时刻的个人决策信息后才进行内部新的决策处理。
S5,计算状态信息si,t+1的状态出现频率如果则采用随机调度;否则采用确定性调度,执行Agent的状态改变;发送si,t+1,令t=t+1;
S6,当t>tmax,结束算法,所述tmax为允许的最大时刻;否则返回步骤S3。
本发明适用于大规模多Agent的协调优化问题,可以解决有用户偏好以及不确定环境下多Agent系统的优化控制。Agent通过网络连接,交换信息,相互协作完成共同的任务。单独Agent只与有连接关系的Agent(邻居Agent)之间进行信息共享,且个体Agent能根据自身的周围环境以及目标自主做出决策,而不受其他Agent的限制。Agent与Agent之间存在竞争和合作关系,通过自身协调来解决目标与行为之间的冲突。
在本发明的一种优选实施方式中,在步骤S3中,所述Agent i只接收邻居Agent的状态信息sj,t,所述初始最佳响应s”i,t+1的计算方法为:
其中,ξj为ηj、0或1,所述ηj表示邻居Agent j在系统中的影响程度,ui(j)表示Agent的私有信息,Si表示Agent的状态信息集合,si是Si中的一个状态信息,sj,t表示在t时刻邻居Agent j的状态信息,j表示Agent i的邻居Agent的序号,v(i)表示Agent i的邻居集合。
在本发明的一种优选实施方式中,所述增益信息GIi,t的计算方法为:
其中,ui(j)表示Agent的私有信息,s”i,t+1表示初始最佳响应或最佳响应,sj,t表示在t时刻邻居Agent j的状态信息,si,t表示在t时刻Agent的状态信息,j表示Agent i的邻居Agent的序号,v(i)表Agent i的邻居集合。
本发明引入增益信息GIi,t能够有效地对决策进行预测。具有预测能力的ADCOP近似算法新框架和相应算法,较好的解决Agent不完全信息的响应、双向代价求解和个体收益的私密性等问题。
在本发明的一种优选实施方式中,所述最佳响应s’i,t+1的计算方法为:
其中,ξj为ηj、0或1,所述ηj表示邻居Agent j在系统中的影响程度,Ai,j为转移矩阵,Si是Agent的状态信息集合,si是Si中的一个状态信息,si,t是t时刻Agent i的状态信息,sj,t是t时刻邻居Agent j的状态信息,IFi,t是影响因子,是状态出现频率。
在本发明的一种优选实施方式中,所述影响因子IFi,t的计算方法为:
其中,j表示Agent i的邻居Agent的序号,v(i)表示Agent i的邻居集合,GIj,t是邻居Agent j的增益信息。
在本发明的一种优选实施方式中,所述状态出现频率的计算方法为:
是agent i在0到t-1时刻出现过的状态信息,
如果采用随机调度,否则采用确定性调度。
在本发明的一种优选实施方式中,所述随机调度的方法:
当P>Pp时,Agent i执行最佳策略,其中,Pp为并发概率,Pp=t/tmax;否则保持原来的策略。
在本发明的一种优选实施方式中,所述确定性调度的方法:
当GIi,t>GIj,t时,Agent i执行最佳策略;否则保持原来的策略。
在本发明的一种优选实施方式中,所述预测概率P的计算方法:
N={1,2,…,n}为Agent集合,对于有约束关系的Agent对,定义元组CM=<Si,j,GIi ,j,Ai,j,Λi,j>,具体元素为:
Si,j={<si,sj>|si∈Si,sj∈Sj}是Agent i与j相关的状态对集合;
GIi,j={<GIi,GIj>}是状态对Si,j对应的增益对;
在时刻t,设<si,sj>状态下出现观测增益对P(Ot=<GIi,GIj>|Qt=<si,sj>)服从student-t分布
其中,为观测增益对的样本均值,S为观测增益对的样本方差,由样本均值及样本方差S构造变量x,x服从分布:
其中,Ai,j是转移矩阵,Ai,j=[alk],
Λi,j是初始状态概率,Λi,j=[λi,j],λi,j=P(Qt=<si,sj>),
根据马尔可夫序列跳转至不同候选状态的预测概率:
每个Agent i将根据该联合概率给出的预测结果来决定自己在t+1时刻的策略。
此外,由于增益对<GIi,GIj>的优劣是可知的,因此转移矩阵Ai,j的跳转方向(系统变好或变坏)及跳转概率都可以确定,将Ai,j的跳转方向及概率大小反馈到环境认知特征的构建中,能更准确地刻画当前环境下各状态的影响情况,从而使系统状态不断地往好的方向前进。
对于该模型的参数求解,本发明利用Baum-Welch算法使模型和给定的观测序列更加匹配。Baum-Welch算法采用递归的思想,使P(θ|O)达到局部极大,最后得到模型参数。Baum-Welch算法思想类似EM算法,它可以从非完整数据集中对参数进行最大似然估计,是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据、截尾数据、带有噪声等不完全数据(incomplete data)。除此之外,本发明中的观测数据序列较少,进一步减少了算法进行参数估计的时间,提高模型求参的效率。
本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法的系统,包括状态评估模块、决策选择模块、协调控制模块及Agent视野模块,所述决策选择模块包括预测模型模块及策略生成模块;所述预测模型模块的输出端与所述策略生成模块的输入端相连,所述预测模型模块用于对所述Agent视野模块进行最佳响应状态预估并引导Agent做出最佳选择,所述策略生成模块用于选出最佳响应状态的最佳策略;所述Agent视野模块的输入端接收邻居Agent的通信信息I(t),所述Agent视野模块的输出端与所述状态评估模块的输入端相连,所述状态评估模块的输出端与所述决策选择模块的输入端相连,所述决策选择模块的输出端与所述协调控制模块的输出端相连,所述协调控制模块的输出端发送通信信息I(t+1);所述Agent视野模块包括个体当前利益模块及环境认知特征模块,所述个体当前利益模块用于对Agent及邻居Agent的状态信息si,t及与Agent相关的转移矩阵A的采集,所述环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集;所述状态评估模块用于对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合,所述协调控制模块用于协调邻居Agent之间的行为,决定Agent是否要执行最佳策略或如何传递最佳策略。
综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明适用于大规模多Agent的协调优化问题,可以解决有用户偏好以及不确定环境下多Agent系统的优化控制并解决了Agent不完全信息的响应、双向代价求解和个体收益的私密性等问题。
附图说明
图1是本发明Agent结构示意图。
图2是本发明Agent算法框架示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法的系统,如图1所示,包括状态评估模块、决策选择模块、协调控制模块及Agent视野模块,决策选择模块包括预测模型模块及策略生成模块;预测模型模块的输出端与策略生成模块的输入端相连,预测模型模块用于对Agent视野模块进行最佳响应状态预估并引导Agent做出最佳选择,策略生成模块用于选出最佳响应状态的最佳策略;
Agent视野模块的输入端接收邻居Agent的通信信息I(t),Agent视野模块的输出端与状态评估模块的输入端相连,状态评估模块的输出端与决策选择模块的输入端相连,决策选择模块的输出端与协调控制模块的输出端相连,协调控制模块的输出端发送通信信息I(t+1);
Agent视野模块包括个体当前利益模块及环境认知特征模块,个体当前利益模块用于对Agent及邻居Agent的状态信息si,t及与Agent相关的转移矩阵A的采集,环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集;状态评估模块用于对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合,协调控制模块用于协调邻居Agent之间的行为,决定Agent是否要执行最佳策略或如何传递最佳策略。
图1中状态评估模块是对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合(Agent的邻居可能有1个或多个);决策选择模块负责选出最佳策略;协调控制模块用于协调邻居Agent之间的行为,决定Agent是否要执行最佳策略或如何传递最佳策略。为了解决ADCOPs的不完全信息响应,兼顾个人利益和全局利益,本发明增加了Agent视野模块和预测模型模块。Agent视野模块是Agent对自己和邻居的认知,在本发明中包括Agent当前状态、Agent收集到的自己和邻居的历史信息,Agent的收益函数等。Agent视野模块是Agent感知的外部世界,会随着信息的不断收集而变化。预测模型模块基于Agent视野预估最佳响应执行对其它Agent的影响,引导Agent做出最佳选择。图1中I表示Agent之间的通信信息,它影响着系统的稳定性和私密性。对于ADCOPs,通信信息不能包含或推算出Agent的私有收益函数(矩阵)。预测模型随着变化的Agent视野不断更新。Agent i预测模型PM描述如下:
PM(Viewi,t,s'i,t+1):Viewi,t→(s'i,t+1→[0,1])
其中,Viewi,t是Agent i在t时刻的视野,s'i,t+1表示状态评估后的最佳响应状态,即下一时刻可能的最佳策略。
Agent视野包含个体当前利益和环境认知特征两类信息;个体当前利益主要包括当前状态si,t、邻居Agent状态sj,t、与自己相关的约束收益函数(矩阵)。环境认知特征表示Agent对全局利益的认知。由于全局信息是不可知的,因此该特征只能通过邻居利益、邻居行为以及系统运行的可能规律来不断地感知可能的全局特征;从历史和全局的角度,对Agent的每个状态做合理的评估。本发明采用影响因子IFi,t、状态出现频率和预测选择中的转移矩阵Ai,j来表征环境认知特征。
本发明提供了一种面向大规模多Agent系统的非对称分布式约束优化算法,如图2所示,其包括以下步骤:
S1,根据具有非对称关系的Agent构造约束图,令t=0,t为时刻;
S2,每个Agent随机选择状态信息si,t,根据约束图向邻居Agent发送状态信息si,t,i为Agent的序号。需要说明的是,Agent i为待计算Agent,其邻居Agent为Agent j,其中,i,j均为正整数。
S3,每个Agent i接收到邻居Agent j的t时刻的状态信息sj,t后,每个Agent i计算初始最佳响应状态s”i,t+1后再计算增益信息GIi,t并将增益信息GIi,t发送到其邻居Agent;在本实施方式中,初始最佳响应状态s”i,t+1的计算方法为:
增益信息GIi,t的计算方法为:
其中,ξj为ηj、0或1,ηj表示邻居Agent j在系统中的影响程度,ui(j)表示Agent的私有信息,Si表示Agent的状态信息集合,si是Si中的一个状态信息,si,t表示在t时刻Agent i的状态信息,sj,t表示在t时刻邻居Agent j的状态信息,j表示Agent i的邻居Agent的序号,v(i)表示Agent i的邻居集合,s”i,t+1表示初始最佳响应,ui(j)(si,sj,t)为Agent i和邻居Agent j的收益,f(si)为Agent i的初始响应状态。
S4,每个Agent接收到所有邻居Agent的增益信息GIj,t及所有邻居Agent的的t时刻的状态信息sj,t后,计算最佳响应s'i,t+1,计算最佳响应s’i,t+1的预测概率P并产生一个随机概率Pm,如果Pm<P,则si,t+1=s'i,t+1;否则si,t+1=si,t;在实施方式中,最佳响应s’i,t+1的计算方法为:
影响因子IFi,t的计算方法为:
状态出现频率的计算方法为:
其中,Ai,j为转移矩阵,是agent i在0到t-1时刻出现过的状态信息。
S5,计算t+1时刻的状态信息si,t+1的状态出现频率如果则采用随机调度;否则采用确定性调度,执行Agent的状态改变;发送si,t+1,令t=t+1;在实施方式中,状态出现频率的计算方法为:
其中,是agent i在0到t-1时刻出现过的状态信息,
在本实施方式中,随机调度方法为:当P>Pp时,Agent i执行最佳策略,其中,Pp为并发概率,Pp=t/tmax;否则保持原来的策略;确定性调度的方法:当GIi,t>GIj,t时,Agent i执行最佳策略;否则保持原来的策略。
S6,当t>tmax,结束算法,tmax为允许的最大时刻;否则返回步骤S3。
本发明不仅可以用于ADCOPs,也可用于DCOPs以及动态环境下的DCOPs。
在本发明的一种优选实施方式中,预测概率P的计算方法:
N={1,2,…,n}为Agent集合,对于有约束关系的Agent对,定义元组CM=<Si,j,GIi ,j,Ai,j,Λi,j>,具体元素为:
Si,j={<si,sj>|si∈Si,sj∈Sj}是Agent i与j相关的状态对集合;
GIi,j={<GIi,GIj>}是状态对Si,j对应的增益对集合;
在时刻t,设<si,sj>状态下出现观测增益对P(Ot=<GIi,GIj>|Qt=<si,sj>)服从student-t分布
其中,为观测增益对的样本均值,S为观测增益对的样本方差,μ为观测增益对的样本期望值,n为样本数,由样本均值及样本方差S构造变量x,x服从分布:
其中,Ai,j是转移矩阵,Ai,j=[alk],
Λi,j是初始状态概率,Λi,j=[λi,j],λi,j=P(Qt=<si,sj>),
根据马尔可夫序列跳转至不同候选状态的预测概率:
其中,Si表示Agent的状态信息集合,si是Si中的一个状态信息,Sj表示Agent j的状态信息集合,sj是Sj中的一个状态信息,GIi为Agent i的增益信息,GIj为Agent j的增益信息,Qt为t时刻Agent i与j相关的状态对,Ot为t时刻状态对Qt对应的增益对,Qt+1为t+1时刻Agent i与j相关的状态对,是Agent i与j相关的第k个状态对,是Agent i与j相关的第l个状态对,v(i)表示Agent i的邻居集合,表示Agent i与其邻居agent j相关的状态对。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (9)
1.一种面向大规模多Agent系统的非对称分布式约束优化算法,其特征在于,包括以下步骤:
S1,根据具有非对称关系的Agent构造约束图,令t=0,所述t为时刻;
S2,每个Agent随机选择t时刻的状态信息si,t,根据约束图向邻居Agent发送所述t时刻的状态信息si,t,所述i为Agent的序号;
S3,每个Agent接收到邻居Agent的状态信息sj,t后,所述每个Agent计算初始最佳响应状态s”i,t+1,计算增益信息GIi,t并将所述增益信息GIi,t发送到其邻居Agent;
所述Agent i只接收邻居Agent的状态信息sj,t,所述初始最佳响应状态s”i,t+1的计算方法为:
<mrow>
<msubsup>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mrow>
<mo>&prime;</mo>
<mo>&prime;</mo>
</mrow>
</msubsup>
<mo>=</mo>
<mi>arg</mi>
<mi> </mi>
<msub>
<mi>max</mi>
<mrow>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
</mrow>
</msub>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>&Element;</mo>
<mi>v</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>&xi;</mi>
<mi>j</mi>
</msub>
<mo>&times;</mo>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,ξj为ηj、0或1,所述ηj表示邻居Agent j在系统中的影响程度,ui(j)表示Agent的私有信息,Si表示Agent的状态信息集合,si是Si中的一个状态信息,sj,t表示在t时刻邻居Agent j的状态信息,j表示Agent i的邻居Agent的序号,v(i)表示Agent i的邻居集合,ui(j)(si,sj,t)为Agent i和邻居Agent j的收益,f(si)为Agent i的初始响应状态;
S4,每个Agent接收到所有邻居Agent的增益信息GIj,t及所有邻居Agent的的状态信息sj,t后,计算最佳响应状态s'i,t+1,计算最佳响应状态s′i,t+1的预测概率P并产生一个随机概率Pm,如果Pm<P,则si,t+1=s'i,t+1;否则si,t+1=si,t;
S5,计算t+1时刻的状态信息si,t+1的状态出现频率如果则采用随机调度;否则采用确定性调度,执行Agent的状态改变;发送si,t+1,令t=t+1;
S6,当t>tmax,结束算法,所述tmax为允许的最大时刻;否则返回步骤S3。
2.根据权利要求1所述的面向大规模多Agent系统的非对称分布式约束优化算法,其特征在于,所述增益信息GIi,t的计算方法为:
<mrow>
<msub>
<mi>GI</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mrow>
<mo>&prime;</mo>
<mo>&prime;</mo>
</mrow>
</msubsup>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mi>j</mi>
<mo>&Element;</mo>
<mi>v</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,ui(j)表示Agent的私有信息,s″i,t+1表示初始最佳响应,sj,t表示在t时刻邻居Agent j的状态信息,si,t表示在t时刻Agent的状态信息,j表示Agent i的邻居Agent的序号,v(i)表Agent i的邻居集合。
3.根据权利要求1所述的面向大规模多Agent系统的非对称分布式约束优化算法,其特征在于,所述最佳响应s′i,t+1的计算方法为:
<mrow>
<msubsup>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mo>=</mo>
<mi>arg</mi>
<mi> </mi>
<msub>
<mi>max</mi>
<mrow>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
</mrow>
</msub>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>&Element;</mo>
<mi>v</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>&xi;</mi>
<mi>j</mi>
</msub>
<mo>&times;</mo>
<msup>
<mi>A</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msup>
<mrow>
<mo>(</mo>
<mo><</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>></mo>
<mo>,</mo>
<mo><</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>></mo>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<msub>
<mi>IF</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>&times;</mo>
<msubsup>
<mi>F</mi>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mi>t</mi>
</msubsup>
<mo>,</mo>
</mrow>
其中,ξj为ηj、0或1,所述ηj表示邻居Agent j在系统中的影响程度,Ai,j为转移矩阵,Si是Agent的状态信息集合,si是Si中的一个状态信息,si,t是t时刻Agent i的状态信息,sj,t是t时刻邻居Agent j的状态信息,IFi,t是影响因子,是状态出现频率。
4.根据权利要求3所述的面向大规模多Agent系统的非对称分布式约束优化算法,其特征在于,所述影响因子IFi,t的计算方法为:
<mrow>
<msub>
<mi>IF</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>&Element;</mo>
<mi>v</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mrow>
<mo>(</mo>
<msub>
<mi>&eta;</mi>
<mi>j</mi>
</msub>
<mo>&times;</mo>
<msub>
<mi>GI</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,j表示Agent i的邻居Agent的序号,v(i)表示Agent i的邻居集合,GIj,t是邻居Agent j的增益信息。
5.根据权利要求1或3所述的面向大规模多Agent系统的非对称分布式约束优化算法,其特征在于,所述状态出现频率的计算方法为:
<mrow>
<msubsup>
<mi>F</mi>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mi>t</mi>
</msubsup>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>t</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>&tau;</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</munderover>
<mi>E</mi>
<mo>{</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>s</mi>
<mi>i</mi>
<mi>&tau;</mi>
</msubsup>
<mo>}</mo>
<mo>,</mo>
</mrow>
<mrow>
<mi>E</mi>
<mo>{</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>s</mi>
<mi>i</mi>
<mi>&tau;</mi>
</msubsup>
<mo>}</mo>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>i</mi>
<mi>f</mi>
<mi> </mi>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>s</mi>
<mi>i</mi>
<mi>&tau;</mi>
</msubsup>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
<mi>i</mi>
<mi>f</mi>
<mi> </mi>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>&NotEqual;</mo>
<msubsup>
<mi>s</mi>
<mi>i</mi>
<mi>&tau;</mi>
</msubsup>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
是agent i在0到t-1时刻出现过的状态信息,
如果采用随机调度,否则采用确定性调度。
6.根据权利要求5所述的面向大规模多Agent系统的非对称分布式约束优化算法,其特征在于,所述随机调度的方法:
当P>Pp时,Agent i执行最佳策略,其中,Pp为并发概率,Pp=t/tmax;否则保持原来的策略。
7.根据权利要求5所述的面向大规模多Agent系统的非对称分布式约束优化算法,其特征在于,所述确定性调度的方法:
当GIi,t>GIj,t时,Agent i执行最佳策略;否则保持原来的策略。
8.根据权利要求1所述的面向大规模多Agent系统的非对称分布式约束优化算法,其特征在于,所述预测概率P的计算方法:
N={1,2,…,n}为Agent集合,对于有约束关系的Agent对,定义元组CM=<Si,j,GIi,j,Ai,j,Λi,j>,具体元素为:
Si,j={<si,sj>|si∈Si,sj∈Sj}是Agent i与j相关的状态对集合;
GIi,j={<GIi,GIj>}是状态对Si,j对应的增益对集合;
在时刻t,设<si,sj>状态下出现观测增益对P(Ot=<GIi,GIj>|Qt=<si,sj>)服从student-t分布
<mrow>
<mi>T</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mover>
<mi>O</mi>
<mo>&OverBar;</mo>
</mover>
<mo>-</mo>
<mi>&mu;</mi>
</mrow>
<mrow>
<mi>S</mi>
<mo>/</mo>
<msqrt>
<mi>n</mi>
</msqrt>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
其中,为观测增益对的样本均值,S为观测增益对的样本方差,μ为观测增益对的样本期望值,n为样本数,由样本均值及样本方差S构造变量x,x服从分布:
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>&Gamma;</mi>
<mrow>
<mo>(</mo>
<mo>(</mo>
<mrow>
<mo><</mo>
<msub>
<mi>GI</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>GI</mi>
<mi>j</mi>
</msub>
<mo>></mo>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
<mo>/</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msqrt>
<mrow>
<mo><</mo>
<msub>
<mi>GI</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>GI</mi>
<mi>j</mi>
</msub>
<mo>></mo>
<mi>&pi;</mi>
</mrow>
</msqrt>
<mi>&Gamma;</mi>
<mrow>
<mo>(</mo>
<mo><</mo>
<msub>
<mi>GI</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>GI</mi>
<mi>j</mi>
</msub>
<mo>></mo>
<mo>/</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<msup>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>x</mi>
<mn>2</mn>
</msup>
<mo>/</mo>
<mo><</mo>
<msub>
<mi>GI</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>GI</mi>
<mi>j</mi>
</msub>
<mo>></mo>
<mo>)</mo>
</mrow>
<mrow>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mo><</mo>
<msub>
<mi>GI</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>GI</mi>
<mi>j</mi>
</msub>
<mo>></mo>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
<mo>,</mo>
</mrow>
其中,Ai,j是转移矩阵,Ai,j=[alk],
Λi,j是初始状态概率,Λi,j=[λi,j],λi,j=P(Qt=<si,sj>),
根据马尔可夫序列跳转至不同候选状态的预测概率:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>Q</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mo>!</mo>
</mrow>
</msub>
<mo>|</mo>
<msub>
<mi>O</mi>
<mi>t</mi>
</msub>
<mo>,</mo>
<msub>
<mi>Q</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Pi;</mo>
<mrow>
<mi>j</mi>
<mo>&Element;</mo>
<mi>v</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>Q</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>|</mo>
<msubsup>
<mi>Q</mi>
<mi>t</mi>
<mi>j</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,Si表示Agent的状态信息集合,si是Si中的一个状态信息,Sj表示Agent j的状态信息集合,sj是Sj中的一个状态信息,GIi为Agent i的增益信息,GIj为Agent j的增益信息,Qt为t时刻Agent i与j相关的状态对,Ot为t时刻状态对Qt对应的增益对,Qt+1为t+1时刻Agenti与j相关的状态对,是Agent i与j相关的第k个状态对,是Agent i与j相关的第l个状态对,v(i)表示Agent i的邻居集合,表示Agent i与其邻居agent j相关的状态对。
9.一种利用权利要求1所述面向大规模多Agent系统的非对称分布式约束优化算法的系统,其特征在于,包括状态评估模块、决策选择模块、协调控制模块及Agent视野模块,所述决策选择模块包括预测模型模块及策略生成模块;所述预测模型模块的输出端与所述策略生成模块的输入端相连,所述预测模型模块用于对所述Agent视野模块进行最佳响应状态预估并引导Agent做出最佳选择,所述策略生成模块用于选出最佳响应状态的最佳策略;
所述Agent视野模块的输入端接收邻居Agent的通信信息I(t),所述Agent视野模块的输出端与所述状态评估模块的输入端相连,所述状态评估模块的输出端与所述决策选择模块的输入端相连,所述决策选择模块的输出端与所述协调控制模块的输出端相连,所述协调控制模块的输出端发送通信信息I(t+1);
所述Agent视野模块包括个体当前利益模块及环境认知特征模块,所述个体当前利益模块用于对Agent及邻居Agent的t时刻的状态信息si,t及与Agent相关的转移矩阵A的采集,所述环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集;所述状态评估模块用于对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合,所述协调控制模块用于协调邻居Agent之间的行为,决定Agent是否要执行最佳策略或如何传递最佳策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410668722.4A CN104376382B (zh) | 2014-11-18 | 2014-11-18 | 面向大规模多Agent系统的非对称分布式约束优化算法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410668722.4A CN104376382B (zh) | 2014-11-18 | 2014-11-18 | 面向大规模多Agent系统的非对称分布式约束优化算法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104376382A CN104376382A (zh) | 2015-02-25 |
CN104376382B true CN104376382B (zh) | 2017-10-24 |
Family
ID=52555277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410668722.4A Active CN104376382B (zh) | 2014-11-18 | 2014-11-18 | 面向大规模多Agent系统的非对称分布式约束优化算法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104376382B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760219B (zh) * | 2016-01-29 | 2019-02-12 | 中国人民解放军信息工程大学 | 基于多Agent分布式调度的并行符号执行系统 |
CN111709474A (zh) * | 2020-06-16 | 2020-09-25 | 重庆大学 | 一种融合拓扑结构和节点属性的图嵌入链路预测方法 |
CN112308195B (zh) * | 2020-11-02 | 2023-12-05 | 重庆理工大学 | 模拟局部代价来求解DCOPs的方法 |
CN113093673B (zh) * | 2021-03-31 | 2022-03-29 | 南京大学 | 一种使用平均场动作价值学习优化车间作业排程的方法 |
CN113408823B (zh) * | 2021-07-13 | 2022-12-13 | 重庆理工大学 | 一种城市突发事件紧急救援方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103995750A (zh) * | 2014-06-04 | 2014-08-20 | 重庆大学 | 一种多Agent系统非对称分布式约束优化方法 |
-
2014
- 2014-11-18 CN CN201410668722.4A patent/CN104376382B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103995750A (zh) * | 2014-06-04 | 2014-08-20 | 重庆大学 | 一种多Agent系统非对称分布式约束优化方法 |
Non-Patent Citations (3)
Title |
---|
Alon Grubshtein 等.Asymmetric Distributed Constraint Optimization.《Journal of Artificial Intelligence Research》.2014, * |
Asymmetric Distributed Constraint Optimization Problems;Tal Grinshpoun 等;《Journal of Artificial Intelligence Research》;20130731;第613,616,627,630-632页 * |
丑超弘.多Agent系统中分布式约束优化问题.《系统仿真学报》.2011,第23卷第171-176页. * |
Also Published As
Publication number | Publication date |
---|---|
CN104376382A (zh) | 2015-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | A two-layer nonlinear combination method for short-term wind speed prediction based on ELM, ENN, and LSTM | |
CN104376382B (zh) | 面向大规模多Agent系统的非对称分布式约束优化算法及系统 | |
Zhang et al. | Deep reinforcement learning for power system applications: An overview | |
Liang et al. | Multi-attribute group decision making method based on prospect theory under hesitant probabilistic fuzzy environment | |
Pousinho et al. | Short-term electricity prices forecasting in a competitive market by a hybrid PSO–ANFIS approach | |
Rivaz et al. | Minimax regret solution to multiobjective linear programming problems with interval objective functions coefficients | |
CN107944602A (zh) | 基于信任模型的云制造服务评价与匹配方法 | |
Zhang et al. | Multi-agent deep reinforcement learning based distributed control architecture for interconnected multi-energy microgrid energy management and optimization | |
Tong et al. | A two-layer social network model for manufacturing service composition based on synergy: A case study on an aircraft structural part | |
CN104009993B (zh) | 一种基于模糊过滤的信任评估方法 | |
El Bourakadi et al. | Multi-agent system based sequential energy management strategy for Micro-Grid using optimal weighted regularized extreme learning machine and decision tree | |
Li et al. | Deep reinforcement learning for smart grid operations: Algorithms, applications, and prospects | |
CN116862551A (zh) | 一种考虑用户隐私保护的新能源消纳电价决策方法 | |
Zhao et al. | A cooperative whale optimization algorithm for energy-efficient scheduling of the distributed blocking flow-shop with sequence-dependent setup time | |
CN104112035A (zh) | 基于效用和模糊理论的产品设计协同决策方法 | |
Geng et al. | Human-machine collaboration for smart decision making: current trends and future opportunities | |
CN111259315B (zh) | 一种多主体协调定价模式的去中心化调度方法 | |
Fu et al. | Group consensus based on evidential reasoning approach using interval-valued belief structures | |
Asan et al. | Analysis of critical factors in energy service contracting using fuzzy cognitive mapping | |
Lu et al. | A network traffic prediction model based on reinforced staged feature interaction and fusion | |
Le et al. | Applications of Distributed Machine Learning for the Internet-of-Things: A Comprehensive Survey | |
CN108292122A (zh) | 数据和能源存储互联网架构内的分布式信息代理间的通信 | |
Saxena et al. | Fuzzy delphi hierarchy process and its application to improve indian telemedical services | |
Kondaiah et al. | Short-Term Load Forecasting with Deep Learning | |
Mnkandla | A Theoretical Artificial Intelligence Framework for Electricity Generation Life Cycle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |