CN111695690A - 基于合作式强化学习与迁移学习的多智能体对抗决策方法 - Google Patents

基于合作式强化学习与迁移学习的多智能体对抗决策方法 Download PDF

Info

Publication number
CN111695690A
CN111695690A CN202010748266.XA CN202010748266A CN111695690A CN 111695690 A CN111695690 A CN 111695690A CN 202010748266 A CN202010748266 A CN 202010748266A CN 111695690 A CN111695690 A CN 111695690A
Authority
CN
China
Prior art keywords
action
agent
state
learning
value function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010748266.XA
Other languages
English (en)
Other versions
CN111695690B (zh
Inventor
冷立雄
马占国
宫业国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Ouhua Information Technology Co ltd
Original Assignee
Aerospace Ouhua Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Ouhua Information Technology Co ltd filed Critical Aerospace Ouhua Information Technology Co ltd
Priority to CN202010748266.XA priority Critical patent/CN111695690B/zh
Publication of CN111695690A publication Critical patent/CN111695690A/zh
Application granted granted Critical
Publication of CN111695690B publication Critical patent/CN111695690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提出一种基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于,包括如下步骤:定义智能体的状态空间S={s1,s2,...,sn};设定其动作空间Α={a1,a2,...,an};设定智能体强化学习模型的值函数矩阵;使用动作评估器计算当前状态st对应的值函数序列
Figure DDA0002609129330000011
通过基于模拟退火与softmax策略的动作选择器选择相应的动作at;同时,智能体的状态发生变化,转移到下一状态st+1。在执行动作at后,智能体从环境中获得奖励信号rt;通过权重共享的方式可以降低经验存储的损耗,提高对抗决策效率。通过基于衰减函数的迁移学习方法使得智能体以逐渐递减的概率复用先前经验,迁移学习将先前训练得到的动作评估器权重迁移到更多的对抗决策场景,提高了学习模型的泛化性。

Description

基于合作式强化学习与迁移学习的多智能体对抗决策方法
技术领域
本发明属于机器学习与智能计算领域,具体涉及一种基于合作式强化学习与迁移学习的多智能体对抗决策方法。
背景技术
随着人工智能与智能控制技术的不断发展,机器学习已经被广泛应用于智能机器人、无人驾驶、工业物联网以及边缘计算等众多研究领域,并发挥着重要作用。多智能体对抗决策是智能计算领域当前的研究热点,常见的多智能体对抗决策有机器人足球,水中机器人博弈等。但是,由于多智能体对抗决策环境愈加趋向复杂化,模糊化,所处的任务环境也具有更多的不确定性,因此经典的多智能体对抗决策方法已经无法适应当前复杂任务的需要。
强化学习要求智能体主动对未知环境进行探测,并接受环境对试探动作的评价,这个回报可以是正反馈也可是负反馈,从而获取经验知识,改进并优化解决方案以完成既定的任务。传统的强化学习提供了一种可以为任何学习任务提供解决方案,但是随着任务的改变,学习的过程必须从新开始,甚至在新的场景中学习新的解决方案可能需要大量的样本或是专家经验。Q学习算法是经典的基于值函数的强化学习算法,但是传统的基于Q学习的多智能体对抗决策方法无法解决智能体高维状态空间的问题。基于分层强化学习的多智能体对抗决策方法将策略分解,将分解后的策略分配给多智能体并行执行,这种方式在一定程度上可以降低智能体决策算法的计算复杂度,提高决策效率。但是在该场景下,对手是不会变化的,尽管机器人足球对抗看起来更加复杂,并且也没有对强化学习的所积累的经验进行有效利用。SARSA学习算法是一种在线的强化学习方法,提高了智能体的场景适应能力,但是查表式的强化学习方法面对状态空间或是动作空间较大的情境下常常显得无能为力。
多智能体对抗决策具有更多的随机特征,随机对抗决策的场景是未知的、动态变化的。即使在机器人足球这样的动态场景下,对手一般也是固定不变的,如何应对对手不断变化的场景是一个值得研究的问题。智能体具有决策与记忆的特性,在随机对抗决策场景下构建具有强大的决策与记忆功能的智能体一直是学者们普遍关注的研究热点。在智能体对抗决策场景中,在智能体状态-动作空间较大时如何有效地克服查表式强化学习的弊端,如何在与一个新的对手战斗时利用与以往对手战斗的经验一直是待解决的难题。强化学习和迁移学习相结合的方法为解决随机任务场景下的多智能体对抗决策问题提供了一种新思路、新方法。
发明内容
基于背景技术中所提及的问题,本发明提出一种基于合作式强化学习与迁移学习的多智能体对抗决策方法,克服传统方法中收敛速度慢、场景适应性不强,难以高效地完成预定任务的缺陷;其具体技术内容如下:
一种基于合作式强化学习与迁移学习的多智能体对抗决策方法,其包括如下步骤:
步骤1,利用智能体的感知设备获取当前的环境信息,从而定义智能体的状态空间,并且所述状态空间记为离散化序列S={s1,s2,...,sn};
步骤2,根据智能体的动作类型及动作范围设定其动作空间Α={a1,a2,...,an};
步骤3,设定智能体强化学习模型的值函数矩阵,其中,对应于状态-动作对<st,at>的值函数为Q(st,at);
步骤4,在通过步骤1,2和3获得智能体强化学习模型的状态空间、动作空间以及值函数矩阵之后,使用动作评估器计算当前状态st对应的值函数序列
Figure BDA0002609129310000031
通过基于模拟退火与softmax策略的动作选择器选择相应的动作at;同时,智能体的状态发生变化,转移到下一状态st+1。在执行动作at后,智能体从环境中获得奖励信号rt
步骤5,在通过步骤4得到的下一时刻状态st+1以及奖励信号rt之后,将下一时刻状态st+1与动作空间中的所有动作Α={a1,a2,...,an}输入到动作评估器中,计算得到对应的值函数序列
Figure BDA0002609129310000032
然后,使用基于模拟退火策略的动作选择器选择下一时刻的动作at+1以及对应的值函数Q(st+1,at+1),将当前状态st,当前值函数Q(st,at),当前奖励rt存入记忆池;
步骤6,在通过步骤5得到下一状态-动作对<st+1,at+1>的值函数Q(st+1,at+1)之后,使用下一个状态-动作对<st+1,at+1>的值函数Q(st+1,at+1)通过时间差分方法更新为当前状态-动作值函数Q(st,at);
步骤7,在通过步骤6得到更新后的当前状态-动作对<st,at>的值函数Q(st,at)之后,计算当前值函数Q(st,at)与下一时刻值函数Q(st+1,at+1)的差分误差作为动作评估器的损失函数,通过反向传播方式更新动作评估器的权重;在完成动作评估器的更新之后,对于智能体的下一状态st+1,将st+1,at+1,Q(st+1,at+1)以及获得的奖励存储在记忆池中替换原先状态st的学习样本;
步骤8,在多次执行步骤7得到更新完成的动作评估器之后,通过带有衰减函数的迁移学习方法将先前的学习经验扩展到当前的对抗任务场景。
于本发明的一个或多个实施例当中,在步骤1当中,如果当前的状态空间是连续的,则对状态空间通过线性分割方式进行离散化,获得离散化序列S={s1,s2,...,sn}。
于本发明的一个或多个实施例当中,在步骤4当中,通过基于模拟退火与softmax策略的动作选择器实现控制动作选择的随机性,该策略依据各个动作的平均奖赏来选择动作,对于动作at,如果该动作产生的平均奖赏高于其他动作产生的平均奖赏,则该动作被选择的概率也就越高;Softmax算法中动作的概率分布是基于Boltzmann分布,如公式(1)所示:
Figure BDA0002609129310000041
其中,pi代表选择动作ai概率,动作总个数为K;
在softmax算法中添加模拟退火的方法,动作ai被选择的概率如公式(2)所示:
Figure BDA0002609129310000042
其中,Tt是温度参数,Tt越小平均奖赏高的动作被选择的概率越高;
模拟退火方法的温度值按照公式(3)来调节:
Figure BDA0002609129310000043
其中,η为退火因子,取值范围0≤η≤1。
于本发明的一个或多个实施例当中,在步骤5当中,动作选择器使用公式(4)计算动作at+1的分布概率并选择合适的动作:
Figure BDA0002609129310000044
在确定下一时刻动作at+1之后,选择对应状态st+1与动作at+1的值函数Q(st+1,at+1),将当前状态st,当前值函数Q(st,at),当前奖励rt存入记忆池;记忆池中的学习样本使用四元组表示model(st,at,rt,Q(st,at))。
于本发明的一个或多个实施例当中,在步骤6当中,采用如下公式(5):
Q*(st,at)=Q(st,at)+α[rt+γQ(st+1,at+1)-Q(st,at)] (5)
更新当前状态-动作值函数Q(st,at)。
于本发明的一个或多个实施例当中,在步骤7当中,动作评估器的损失函数如公式(6)所示:
Figure BDA0002609129310000051
智能体在每次学习过程中,记忆池会暂时存储at,st,Q(at,st),rt,而记忆池中存储的值函数就是Q(st,at);在计算得到Q*(st,at)之后,通过记忆池获得Q(st,at),通过反向传播更新动作评估器的权重,记忆池为计算动作评估器的神经网络的误差而提供Q(st,at);
在完成动作评估器的更新之后,对于智能体的下一状态st+1,将st+1,at+1,Q(st+1,at+1)以及获得的奖励存储在记忆池中替换原先状态st的学习样本;多智能体共享动作评估器的权重。
于本发明的一个或多个实施例当中,在步骤8当中,原任务与目标任务具有相同的状态与动作空间,使用一组映射
Figure BDA0002609129310000052
来适配源任务与目标任务,如公式(7)所示:
Figure BDA0002609129310000053
在迁移学习的过程中,设置了衰减函数以逐渐递减的概率去利用先前的经验,最后在探索新的经验与利用以往经验之间达到一种稳态;在使用合作式强化学习的基础上引入衰减函数,设定ε表示阈值,如果随机数rand>ε则利用以往的经验,反之则使用动作选择器选择动作,阈值ε随着时间t发生变化,满足公式(8):
Figure BDA0002609129310000061
其中,k表示衰减系数,t0表示初始时刻,阈值ε随着时间不断减少,表示在学习的前期阶段会更高概率的利用以往的经验,而这种概率逐渐减少,最后趋于稳定。
本发明相比之传统技术,其优越性体现在:
1)合作式强化学习通过动作选择器根据模拟退火策略选择合适的动作,通过基于神经网络的动作评估器计算值函数,动作选择器与动作评估器相互合作,共同完成强化学习过程。合作式强化学习利用记忆池技术,通过经验回放得到先前的值函数然后计算值函数误差并通过反向传播更新动作评估器权值。合作式强化学习通过两个模块的协同合作,提高了智能体的学习效率。同时,多智能体共享动作评估器的权重,降低了经验存储的损耗。
2)在强化学习的后期阶段,模拟退火算法的动作选择器可以使得智能体倾向于利用先前学习经验选择动作,避免了动作选择的随机性。
3)通过基于神经网络的动作评估器存储强化学习值函数,克服了因为状态-动作空间过大而导致的维数灾难问题,神经网络的使用提高了学习效率。
4)使用迁移学习的方法将所训练的强化学习模型扩展到更加复杂的对抗决策场景,同时,借鉴牛顿冷却定律设计了一种衰减函数,该衰减度函数最终可以在利用迁移策略与探索新策略之间最终达到一种平衡。通过该衰减函数以逐渐递减的概率复用先前经验,减少了先前学习经验中的干扰信息。
附图说明
图1为本发明的执行流程图。
具体实施方式
如下结合附图1,对本申请方案作进一步描述:
本发明提出一种基于合作式强化学习与迁移学习的多智能体对抗决策方法,分为合作式强化学习与迁移学习两方面,包括以下步骤:
步骤1.利用智能体的视觉感知设备获取当前的环境信息,使用当前的任务环境信息定义智能体的状态空间。如果当前的状态空间是连续的,需要对状态空间进行离散化。使用线性分割的方法将连续的状态空间离散化为离散的状态空间,记为S={s1,s2,...,sn}。
步骤2.在通过步骤1获得外界环境的感知信息后,设置智能体的动作空间。在复杂的实时控制环境中,智能体的动作空间往往是根据其可执行的动作类型以及动作范围设定。状态空间与动作空间过大会给强化学习模型的计算带来较大的计算损耗。设定智能体的动作空间为:Α={a1,a2,...,an}。
步骤3.在通过步骤2获取智能体的动作空间之后,设定智能体强化学习模型的值函数矩阵。通过收集智能体在执行任务过程中获得的累积奖励并计算得到累积奖励的期望值。设定对应状态-动作对<st,at>的值函数为Q(st,at)。
步骤4.在通过步骤1,2,3获得智能体强化学习模型的状态空间、动作空间以及值函数之后,根据当前的状态st,将当前状态st与动作空间Α={a1,a2,...,an}输入到动作评估器,使用动作评估器计算当前状态st对应的值函数序列
Figure BDA0002609129310000071
通过基于模拟退火与softmax策略的动作选择器选择相应的动作at。同时,智能体的状态发生变化,转移到下一状态st+1。智能体获得奖励信号rt。基于模拟退火与softmax策略的动作选择器可以控制动作选择的随机性。该策略依据各个动作的平均奖赏来选择动作,对于动作at,如果该动作产生的平均奖赏高于其他动作产生的平均奖赏,则该动作被选择的概率也就越高。Softmax算法中动作的概率分布是基于Boltzmann分布,如公式所示:
Figure BDA0002609129310000081
其中,pi代表选择动作ai概率,动作总个数为K。
使用基于Boltzmann分布的动作选择策略可以确保学习开始时动作选择的随机性较大,为了控制动作选择的随机程度,提高学习速度,在softmax算法中添加模拟退火的方法,动作ai被选择的概率如公式所示:
Figure BDA0002609129310000082
其中,Tt是温度参数,Tt越小平均奖赏高的动作被选择的概率越高。模拟退火方法的温度值按照式(3)来调节:
Figure BDA0002609129310000083
其中,η为退火因子,取值范围0≤η≤1。
步骤5.在通过步骤4得到的下一时刻状态st+1以及奖励信号之后rt。,将下一时刻状态st+1与动作空间中的所有动作Α={a1,a2,...,an}输入到动作评估器中,计算得到对应的值函数序列
Figure BDA0002609129310000084
然后,使用基于模拟退火策略的动作选择器使用式(4)计算动作at+1的分布概率并选择合适的动作。
Figure BDA0002609129310000091
在确定下一时刻动作at+1之后,选择对应状态st+1与动作at+1的值函数Q(st+1,at+1),将当前状态st,当前值函数Q(st,at),当前奖励rt存入记忆池。记忆池中的学习样本使用四元组表示model(st,at,rt,Q(st,at))。
步骤6.在通过步骤5得到下一状态-动作对的值函数Q(st+1,at+1)之后,使用下一状态-动作对的值函数通过时间差分方法更新当前状态-动作值函数Q(st,at),更新方式如式(5)所示。
Q*(st,at)=Q(st,at)+α[rt+γQ(st+1,at+1)-Q(st,at)] (5)
步骤7.在通过步骤6得到更新后的当前状态-动作值函数Q*(st,at)之后,计算当前值函数Q(st,at)与更新后的值函数Q*(st,at)的差分误差作为动作评估器的损失函数,通过反向传播方式更新动作评估器的权重。动作评估器的损失函数如式(6)所示。
Figure BDA0002609129310000092
智能体在每次学习过程中,记忆池会暂时存储at,st,Q(at,st),rt,而记忆池中存储的值函数就是Q(st,at)。在计算得到Q*(st,at)之后,通过记忆池获得Q(st,at),通过反向传播更新动作评估器的权重。记忆池的作用是为了计算动作评估器的神经网络的误差而提供Q(st,at)。
在完成动作评估器的更新之后,对于智能体的下一状态st+1,将st+1,at+1,Q(st+1,at+1)以及获得的奖励存储在记忆池中替换原先状态st的学习样本。多智能体共享动作评估器的权重。
步骤8.在多次执行步骤7得到更新完成的动作评估器之后,通过带有衰减函数的迁移学习方法将先前的学习经验扩展到更多的对抗任务场景。原任务与目标任务具有相同的状态与动作空间,使用一组映射
Figure BDA0002609129310000101
来适配源任务与目标任务,如公式(7)所示,
Figure BDA0002609129310000102
在迁移学习的过程中,存在着许多的干扰信息,借鉴了牛顿冷却定律的基本思想,设置了一种衰减函数,该衰减函数可以使得智能体以逐渐递减的概率去利用先前的经验,最后在探索新的经验与利用以往经验之间达到一种稳态。在使用合作式强化学习的基础上引入衰减函数,设定ε表示阈值,如果随机数rand>ε则利用以往的经验,反之则使用动作选择器选择动作,阈值ε随着时间t发生变化,满足公式(8):
Figure BDA0002609129310000103
其中,k表示衰减系数,t0表示初始时刻,阈值ε随着时间不断减少,表示在学习的前期阶段会更高概率的利用以往的经验,而这种概率逐渐减少,最后趋于稳定。
本发明提出了一种基于合作式强化学习与迁移学习的多智能体对抗决策方法。合作式强化学习包括动作产生器与动作评估器两部分。在具体的多智能体对抗决策场景中,智能体通过视觉感知得到当前的状态,然后根据智能体可执行的动作类型与范围设定动作空间,进而根据状态空间与动作空间设定强化学习值函数。设置动作评估器与动作产生器,通过动作评估器计算得到当前状态对应的值函数序列,将值函数序列输入到动作产生器得到当前执行的动作,执行当前动作得到下一状态与当前奖励。输入下一状态到动作评估器得到下一状态对应的值函数序列,再次通过动作产生器输出得到下一动作。使用时间差分方法更新当前值函数,计算动作评估器的损失函数,通过反向传播方法更新动作评估器的权重。多智能体共享动作评估器的网络权重,通过权重共享的方式可以降低经验存储的损耗,提高对抗决策效率。最后,借鉴牛顿冷却定律设计一种衰减函数,通过基于衰减函数的迁移学习方法使得智能体以逐渐递减的概率复用先前经验,迁移学习将先前训练得到的动作评估器权重迁移到更多的对抗决策场景,提高了学习模型的泛化性。
上述优选实施方式应视为本申请方案实施方式的举例说明,凡与本申请方案雷同、近似或以此为基础作出的技术推演、替换、改进等,均应视为本专利的保护范围。

Claims (7)

1.一种基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于,包括如下步骤:
步骤1,利用智能体的感知设备获取当前的环境信息,从而定义智能体的状态空间,并且所述状态空间记为离散化序列S={s1,s2,...,sn};
步骤2,根据智能体的动作类型及动作范围设定其动作空间Α={a1,a2,...,an};
步骤3,设定智能体强化学习模型的值函数矩阵,其中,对应于状态-动作对<st,at>的值函数为Q(st,at);
步骤4,在通过步骤1,2和3获得智能体强化学习模型的状态空间、动作空间以及值函数矩阵之后,使用动作评估器计算当前状态st对应的值函数序列
Figure FDA0002609129300000011
通过基于模拟退火与softmax策略的动作选择器选择相应的动作at;同时,智能体的状态发生变化,转移到下一状态st+1。在执行动作at后,智能体从环境中获得奖励信号rt
步骤5,在通过步骤4得到的下一时刻状态st+1以及奖励信号rt之后,将下一时刻状态st+1与动作空间中的所有动作Α={a1,a2,...,an}输入到动作评估器中,计算得到对应的值函数序列
Figure FDA0002609129300000012
然后,使用基于模拟退火策略的动作选择器选择下一时刻的动作at+1以及对应的值函数Q(st+1,at+1),将当前状态st,当前值函数Q(st,at),当前奖励rt存入记忆池;
步骤6,在通过步骤5得到下一状态-动作对<st+1,at+1>的值函数Q(st+1,at+1)之后,使用下一个状态-动作对<st+1,at+1>的值函数Q(st+1,at+1)通过时间差分方法更新为当前状态-动作值函数Q(st,at);
步骤7,在通过步骤6得到更新后的当前状态-动作对<st,at>的值函数Q(st,at)之后,计算当前值函数Q(st,at)与下一时刻值函数Q(st+1,at+1)的差分误差作为动作评估器的损失函数,通过反向传播方式更新动作评估器的权重;在完成动作评估器的更新之后,对于智能体的下一状态st+1,将st+1,at+1,Q(st+1,at+1)以及获得的奖励存储在记忆池中替换原先状态st的学习样本;
步骤8,在多次执行步骤7得到更新完成的动作评估器之后,通过带有衰减函数的迁移学习方法将先前的学习经验扩展到当前的对抗任务场景。
2.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于:在步骤1当中,如果当前的状态空间是连续的,则对状态空间通过线性分割方式进行离散化,获得离散化序列S={s1,s2,...,sn}。
3.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于:在步骤4当中,通过基于模拟退火与softmax策略的动作选择器实现控制动作选择的随机性,该策略依据各个动作的平均奖赏来选择动作,对于动作at,如果该动作产生的平均奖赏高于其他动作产生的平均奖赏,则该动作被选择的概率也就越高;Softmax算法中动作的概率分布是基于Boltzmann分布,如公式(1)所示:
Figure FDA0002609129300000021
其中,pi代表选择动作ai概率,动作总个数为K;
在softmax算法中添加模拟退火的方法,动作ai被选择的概率如公式(2)所示:
Figure FDA0002609129300000022
其中,Tt是温度参数,Tt越小平均奖赏高的动作被选择的概率越高;
模拟退火方法的温度值按照公式(3)来调节:
Figure FDA0002609129300000031
其中,η为退火因子,取值范围0≤η≤1。
4.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于:在步骤5当中,动作选择器使用公式(4)计算动作at+1的分布概率并选择合适的动作:
Figure FDA0002609129300000032
在确定下一时刻动作at+1之后,选择对应状态st+1与动作at+1的值函数Q(st+1,at+1),将当前状态st,当前值函数Q(st,at),当前奖励rt存入记忆池;记忆池中的学习样本使用四元组表示model(st,at,rt,Q(st,at))。
5.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于:在步骤6当中,采用如下公式(5):
Q*(st,at)=Q(st,at)+α[rt+γQ(st+1,at+1)-Q(st,at)] (5)
更新当前状态-动作值函数Q(st,at)。
6.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于:在步骤7当中,动作评估器的损失函数如公式(6)所示:
Figure FDA0002609129300000033
智能体在每次学习过程中,记忆池会暂时存储at,st,Q(at,st),rt,而记忆池中存储的值函数就是Q(st,at);在计算得到Q*(st,at)之后,通过记忆池获得Q(st,at),通过反向传播更新动作评估器的权重,记忆池为计算动作评估器的神经网络的误差而提供Q(st,at);
在完成动作评估器的更新之后,对于智能体的下一状态st+1,将st+1,at+1,Q(st+1,at+1)以及获得的奖励存储在记忆池中替换原先状态st的学习样本;多智能体共享动作评估器的权重。
7.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于:在步骤8当中,原任务与目标任务具有相同的状态与动作空间,使用一组映射
Figure FDA0002609129300000041
来适配源任务与目标任务,如公式(7)所示:
Figure FDA0002609129300000042
在迁移学习的过程中,设置了衰减函数以逐渐递减的概率去利用先前的经验,最后在探索新的经验与利用以往经验之间达到一种稳态;在使用合作式强化学习的基础上引入衰减函数,设定ε表示阈值,如果随机数rand>ε则利用以往的经验,反之则使用动作选择器选择动作,阈值ε随着时间t发生变化,满足公式(8):
Figure FDA0002609129300000043
其中,k表示衰减系数,t0表示初始时刻,阈值ε随着时间不断减少,表示在学习的前期阶段会更高概率的利用以往的经验,而这种概率逐渐减少,最后趋于稳定。
CN202010748266.XA 2020-07-30 2020-07-30 基于合作式强化学习与迁移学习的多智能体对抗决策方法 Active CN111695690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010748266.XA CN111695690B (zh) 2020-07-30 2020-07-30 基于合作式强化学习与迁移学习的多智能体对抗决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010748266.XA CN111695690B (zh) 2020-07-30 2020-07-30 基于合作式强化学习与迁移学习的多智能体对抗决策方法

Publications (2)

Publication Number Publication Date
CN111695690A true CN111695690A (zh) 2020-09-22
CN111695690B CN111695690B (zh) 2023-04-18

Family

ID=72487064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010748266.XA Active CN111695690B (zh) 2020-07-30 2020-07-30 基于合作式强化学习与迁移学习的多智能体对抗决策方法

Country Status (1)

Country Link
CN (1) CN111695690B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348285A (zh) * 2020-11-27 2021-02-09 中国科学院空天信息创新研究院 一种基于深度强化学习的动态环境下人群疏散模拟方法
CN112364500A (zh) * 2020-11-09 2021-02-12 中国科学院自动化研究所 面向强化学习训练与评估的多并发实时对抗系统
CN113163479A (zh) * 2021-02-05 2021-07-23 北京中电飞华通信有限公司 一种蜂窝物联网上行资源分配方法及电子设备
CN113159341A (zh) * 2021-04-23 2021-07-23 中国电力科学研究院有限公司 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN113283574A (zh) * 2021-07-22 2021-08-20 中国科学院自动化研究所 群体对抗中智能体控制方法、装置、电子设备及存储介质
CN113281999A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于强化学习和迁移学习的无人机自主飞行训练方法
CN113377655A (zh) * 2021-06-16 2021-09-10 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN114463997A (zh) * 2022-02-14 2022-05-10 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
CN114785693A (zh) * 2022-06-24 2022-07-22 中国科学技术大学 基于分层强化学习的虚拟网络功能迁移方法及装置
CN115062871A (zh) * 2022-08-11 2022-09-16 山西虚拟现实产业技术研究院有限公司 基于多智能体强化学习的智能电表状态评估方法
CN115107948A (zh) * 2022-06-24 2022-09-27 大连海事大学 一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法
CN115396157A (zh) * 2022-07-29 2022-11-25 中国人民解放军国防科技大学 一种基于反馈式的物联网设备自动探测方案生成方法及系统
CN117636900A (zh) * 2023-12-04 2024-03-01 广东新裕信息科技有限公司 一种基于音频特征形状匹配的乐器演奏质量评价方法
CN118095401A (zh) * 2024-04-29 2024-05-28 南京邮电大学 仓库收纳的后状态离轨策略强化学习训练加速方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111241952A (zh) * 2020-01-03 2020-06-05 广东工业大学 一种离散制造场景中的强化学习奖励自学习方法
CN111339690A (zh) * 2019-04-26 2020-06-26 成都蓉奥科技有限公司 一种基于期望值函数的深度强化学习训练加速方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339690A (zh) * 2019-04-26 2020-06-26 成都蓉奥科技有限公司 一种基于期望值函数的深度强化学习训练加速方法
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111241952A (zh) * 2020-01-03 2020-06-05 广东工业大学 一种离散制造场景中的强化学习奖励自学习方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364500A (zh) * 2020-11-09 2021-02-12 中国科学院自动化研究所 面向强化学习训练与评估的多并发实时对抗系统
CN112348285A (zh) * 2020-11-27 2021-02-09 中国科学院空天信息创新研究院 一种基于深度强化学习的动态环境下人群疏散模拟方法
CN113163479A (zh) * 2021-02-05 2021-07-23 北京中电飞华通信有限公司 一种蜂窝物联网上行资源分配方法及电子设备
CN113159341A (zh) * 2021-04-23 2021-07-23 中国电力科学研究院有限公司 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN113281999A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于强化学习和迁移学习的无人机自主飞行训练方法
CN113377655B (zh) * 2021-06-16 2023-06-20 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN113377655A (zh) * 2021-06-16 2021-09-10 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN113283574A (zh) * 2021-07-22 2021-08-20 中国科学院自动化研究所 群体对抗中智能体控制方法、装置、电子设备及存储介质
CN114463997A (zh) * 2022-02-14 2022-05-10 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
CN114785693A (zh) * 2022-06-24 2022-07-22 中国科学技术大学 基于分层强化学习的虚拟网络功能迁移方法及装置
CN115107948A (zh) * 2022-06-24 2022-09-27 大连海事大学 一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法
CN114785693B (zh) * 2022-06-24 2022-09-30 中国科学技术大学 基于分层强化学习的虚拟网络功能迁移方法及装置
CN115107948B (zh) * 2022-06-24 2023-08-25 大连海事大学 一种高效强化学习自主船舶避碰方法
CN115396157A (zh) * 2022-07-29 2022-11-25 中国人民解放军国防科技大学 一种基于反馈式的物联网设备自动探测方案生成方法及系统
CN115396157B (zh) * 2022-07-29 2024-06-04 中国人民解放军国防科技大学 一种基于反馈式的物联网设备自动探测方案生成方法及系统
CN115062871A (zh) * 2022-08-11 2022-09-16 山西虚拟现实产业技术研究院有限公司 基于多智能体强化学习的智能电表状态评估方法
CN117636900A (zh) * 2023-12-04 2024-03-01 广东新裕信息科技有限公司 一种基于音频特征形状匹配的乐器演奏质量评价方法
CN117636900B (zh) * 2023-12-04 2024-05-07 广东新裕信息科技有限公司 一种基于音频特征形状匹配的乐器演奏质量评价方法
CN118095401A (zh) * 2024-04-29 2024-05-28 南京邮电大学 仓库收纳的后状态离轨策略强化学习训练加速方法

Also Published As

Publication number Publication date
CN111695690B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111695690B (zh) 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN108762281A (zh) 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN112329948A (zh) 一种多智能体策略预测方法及装置
CN114083539B (zh) 一种基于多智能体强化学习的机械臂抗干扰运动规划方法
CN112613608A (zh) 一种强化学习方法及相关装置
Jin et al. A game-theoretic reinforcement learning approach for adaptive interaction at intersections
CN116128060A (zh) 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法
CN113467481B (zh) 一种基于改进Sarsa算法的路径规划方法
Wang et al. Experience sharing based memetic transfer learning for multiagent reinforcement learning
Pan et al. A dynamically adaptive approach to reducing strategic interference for multiagent systems
CN115906673B (zh) 作战实体行为模型一体化建模方法及系统
CN116167415A (zh) 一种多智能体协同及对抗中的策略决策方法
Shi et al. Efficient hierarchical policy network with fuzzy rules
Xu et al. Reward-based exploration: Adaptive control for deep reinforcement learning
Kumar et al. A Novel Algorithm for Optimal Trajectory Generation Using Q Learning
Prakash et al. Learning optimal parameterized policy for high level strategies in a game setting
CN116842761B (zh) 基于自博弈的蓝军智能体模型构建方法和装置
CN114489035B (zh) 一种基于累积迹强化学习的多机器人协同搜索方法
Zhu et al. Learning of Quadruped Robot Motor Skills Based on Policy Constrained TD3
Lötzsch et al. Training a deep policy gradient-based neural network with asynchronous learners on a simulated robotic problem
Showalter et al. The Behavioural and Topological Effects of Measurement Noise on Evolutionary Neurocontrollers
Yasutomi Deep Reinforcement Learning Adapted to Real-World Training Data Limitations
Hajforoosh et al. Exploration and exploitation tradeoff in fuzzy reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant