CN111695690A

CN111695690A - 基于合作式强化学习与迁移学习的多智能体对抗决策方法

Info

Publication number: CN111695690A
Application number: CN202010748266.XA
Authority: CN
Inventors: 冷立雄; 马占国; 宫业国
Original assignee: Aerospace Ouhua Information Technology Co ltd
Current assignee: Aerospace Ouhua Information Technology Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-09-22
Anticipated expiration: 2040-07-30
Also published as: CN111695690B

Abstract

本发明提出一种基于合作式强化学习与迁移学习的多智能体对抗决策方法，其特征在于，包括如下步骤：定义智能体的状态空间S＝{s₁,s₂,...,s_n}；设定其动作空间Α＝{a₁,a₂,...,a_n}；设定智能体强化学习模型的值函数矩阵；使用动作评估器计算当前状态s_t对应的值函数序列

通过基于模拟退火与softmax策略的动作选择器选择相应的动作a_t；同时，智能体的状态发生变化，转移到下一状态s_t+1。在执行动作a_t后，智能体从环境中获得奖励信号r_t；通过权重共享的方式可以降低经验存储的损耗，提高对抗决策效率。通过基于衰减函数的迁移学习方法使得智能体以逐渐递减的概率复用先前经验，迁移学习将先前训练得到的动作评估器权重迁移到更多的对抗决策场景，提高了学习模型的泛化性。

Description

基于合作式强化学习与迁移学习的多智能体对抗决策方法

技术领域

本发明属于机器学习与智能计算领域，具体涉及一种基于合作式强化学习与迁移学习的多智能体对抗决策方法。

背景技术

随着人工智能与智能控制技术的不断发展，机器学习已经被广泛应用于智能机器人、无人驾驶、工业物联网以及边缘计算等众多研究领域，并发挥着重要作用。多智能体对抗决策是智能计算领域当前的研究热点，常见的多智能体对抗决策有机器人足球，水中机器人博弈等。但是，由于多智能体对抗决策环境愈加趋向复杂化，模糊化，所处的任务环境也具有更多的不确定性，因此经典的多智能体对抗决策方法已经无法适应当前复杂任务的需要。

强化学习要求智能体主动对未知环境进行探测，并接受环境对试探动作的评价，这个回报可以是正反馈也可是负反馈，从而获取经验知识，改进并优化解决方案以完成既定的任务。传统的强化学习提供了一种可以为任何学习任务提供解决方案，但是随着任务的改变，学习的过程必须从新开始，甚至在新的场景中学习新的解决方案可能需要大量的样本或是专家经验。Q学习算法是经典的基于值函数的强化学习算法，但是传统的基于Q学习的多智能体对抗决策方法无法解决智能体高维状态空间的问题。基于分层强化学习的多智能体对抗决策方法将策略分解，将分解后的策略分配给多智能体并行执行，这种方式在一定程度上可以降低智能体决策算法的计算复杂度，提高决策效率。但是在该场景下，对手是不会变化的，尽管机器人足球对抗看起来更加复杂，并且也没有对强化学习的所积累的经验进行有效利用。SARSA学习算法是一种在线的强化学习方法，提高了智能体的场景适应能力，但是查表式的强化学习方法面对状态空间或是动作空间较大的情境下常常显得无能为力。

多智能体对抗决策具有更多的随机特征，随机对抗决策的场景是未知的、动态变化的。即使在机器人足球这样的动态场景下，对手一般也是固定不变的，如何应对对手不断变化的场景是一个值得研究的问题。智能体具有决策与记忆的特性，在随机对抗决策场景下构建具有强大的决策与记忆功能的智能体一直是学者们普遍关注的研究热点。在智能体对抗决策场景中，在智能体状态-动作空间较大时如何有效地克服查表式强化学习的弊端，如何在与一个新的对手战斗时利用与以往对手战斗的经验一直是待解决的难题。强化学习和迁移学习相结合的方法为解决随机任务场景下的多智能体对抗决策问题提供了一种新思路、新方法。

发明内容

基于背景技术中所提及的问题，本发明提出一种基于合作式强化学习与迁移学习的多智能体对抗决策方法，克服传统方法中收敛速度慢、场景适应性不强，难以高效地完成预定任务的缺陷；其具体技术内容如下：

一种基于合作式强化学习与迁移学习的多智能体对抗决策方法，其包括如下步骤：

步骤1，利用智能体的感知设备获取当前的环境信息，从而定义智能体的状态空间，并且所述状态空间记为离散化序列S＝{s₁,s₂,...,s_n}；

步骤2，根据智能体的动作类型及动作范围设定其动作空间Α＝{a₁,a₂,...,a_n}；

步骤3，设定智能体强化学习模型的值函数矩阵，其中，对应于状态-动作对<s_t,a_t>的值函数为Q(s_t,a_t)；

步骤4，在通过步骤1，2和3获得智能体强化学习模型的状态空间、动作空间以及值函数矩阵之后，使用动作评估器计算当前状态s_t对应的值函数序列

通过基于模拟退火与softmax策略的动作选择器选择相应的动作a_t；同时，智能体的状态发生变化，转移到下一状态s_t+1。在执行动作a_t后，智能体从环境中获得奖励信号r_t；

步骤5，在通过步骤4得到的下一时刻状态s_t+1以及奖励信号r_t之后，将下一时刻状态s_t+1与动作空间中的所有动作Α＝{a₁,a₂,...,a_n}输入到动作评估器中，计算得到对应的值函数序列

然后，使用基于模拟退火策略的动作选择器选择下一时刻的动作a_t+1以及对应的值函数Q(s_t+1,a_t+1)，将当前状态s_t，当前值函数Q(s_t,a_t)，当前奖励r_t存入记忆池；

步骤6，在通过步骤5得到下一状态-动作对<s_t+1,a_t+1>的值函数Q(s_t+1,a_t+1)之后，使用下一个状态-动作对<s_t+1,a_t+1>的值函数Q(s_t+1,a_t+1)通过时间差分方法更新为当前状态-动作值函数Q(s_t,a_t)；

步骤7，在通过步骤6得到更新后的当前状态-动作对<s_t,a_t>的值函数Q(s_t,a_t)之后，计算当前值函数Q(s_t,a_t)与下一时刻值函数Q(s_t+1,a_t+1)的差分误差作为动作评估器的损失函数，通过反向传播方式更新动作评估器的权重；在完成动作评估器的更新之后，对于智能体的下一状态s_t+1，将s_t+1,a_t+1,Q(s_t+1,a_t+1)以及获得的奖励存储在记忆池中替换原先状态s_t的学习样本；

步骤8，在多次执行步骤7得到更新完成的动作评估器之后，通过带有衰减函数的迁移学习方法将先前的学习经验扩展到当前的对抗任务场景。

于本发明的一个或多个实施例当中，在步骤1当中，如果当前的状态空间是连续的，则对状态空间通过线性分割方式进行离散化，获得离散化序列S＝{s₁,s₂,...,s_n}。

于本发明的一个或多个实施例当中，在步骤4当中，通过基于模拟退火与softmax策略的动作选择器实现控制动作选择的随机性，该策略依据各个动作的平均奖赏来选择动作，对于动作a_t，如果该动作产生的平均奖赏高于其他动作产生的平均奖赏，则该动作被选择的概率也就越高；Softmax算法中动作的概率分布是基于Boltzmann分布，如公式(1)所示：

其中，p_i代表选择动作a_i概率，动作总个数为K；

在softmax算法中添加模拟退火的方法，动作a_i被选择的概率如公式(2)所示：

其中，T_t是温度参数，T_t越小平均奖赏高的动作被选择的概率越高；

模拟退火方法的温度值按照公式(3)来调节：

其中，η为退火因子，取值范围0≤η≤1。

于本发明的一个或多个实施例当中，在步骤5当中，动作选择器使用公式(4)计算动作a_t+1的分布概率并选择合适的动作：

在确定下一时刻动作a_t+1之后，选择对应状态s_t+1与动作a_t+1的值函数Q(s_t+1,a_t+1)，将当前状态s_t，当前值函数Q(s_t,a_t)，当前奖励r_t存入记忆池；记忆池中的学习样本使用四元组表示model(s_t,a_t,r_t,Q(s_t,a_t))。

于本发明的一个或多个实施例当中，在步骤6当中，采用如下公式(5)：

Q^*(s_t,a_t)＝Q(s_t,a_t)+α[r_t+γQ(s_t+1,a_t+1)-Q(s_t,a_t)] (5)

更新当前状态-动作值函数Q(s_t,a_t)。

于本发明的一个或多个实施例当中，在步骤7当中，动作评估器的损失函数如公式(6)所示：

智能体在每次学习过程中，记忆池会暂时存储a_t,s_t,Q(a_t,s_t),r_t，而记忆池中存储的值函数就是Q(s_t,a_t)；在计算得到Q^*(s_t,a_t)之后，通过记忆池获得Q(s_t,a_t)，通过反向传播更新动作评估器的权重，记忆池为计算动作评估器的神经网络的误差而提供Q(s_t,a_t)；

在完成动作评估器的更新之后，对于智能体的下一状态s_t+1，将s_t+1,a_t+1,Q(s_t+1,a_t+1)以及获得的奖励存储在记忆池中替换原先状态s_t的学习样本；多智能体共享动作评估器的权重。

于本发明的一个或多个实施例当中，在步骤8当中，原任务与目标任务具有相同的状态与动作空间，使用一组映射

来适配源任务与目标任务，如公式(7)所示：

在迁移学习的过程中，设置了衰减函数以逐渐递减的概率去利用先前的经验，最后在探索新的经验与利用以往经验之间达到一种稳态；在使用合作式强化学习的基础上引入衰减函数，设定ε表示阈值，如果随机数rand＞ε则利用以往的经验，反之则使用动作选择器选择动作，阈值ε随着时间t发生变化，满足公式(8)：

其中，k表示衰减系数，t₀表示初始时刻，阈值ε随着时间不断减少，表示在学习的前期阶段会更高概率的利用以往的经验，而这种概率逐渐减少，最后趋于稳定。

本发明相比之传统技术，其优越性体现在：

1)合作式强化学习通过动作选择器根据模拟退火策略选择合适的动作，通过基于神经网络的动作评估器计算值函数，动作选择器与动作评估器相互合作，共同完成强化学习过程。合作式强化学习利用记忆池技术，通过经验回放得到先前的值函数然后计算值函数误差并通过反向传播更新动作评估器权值。合作式强化学习通过两个模块的协同合作，提高了智能体的学习效率。同时，多智能体共享动作评估器的权重，降低了经验存储的损耗。

2)在强化学习的后期阶段，模拟退火算法的动作选择器可以使得智能体倾向于利用先前学习经验选择动作，避免了动作选择的随机性。

3)通过基于神经网络的动作评估器存储强化学习值函数，克服了因为状态-动作空间过大而导致的维数灾难问题，神经网络的使用提高了学习效率。

4)使用迁移学习的方法将所训练的强化学习模型扩展到更加复杂的对抗决策场景，同时，借鉴牛顿冷却定律设计了一种衰减函数，该衰减度函数最终可以在利用迁移策略与探索新策略之间最终达到一种平衡。通过该衰减函数以逐渐递减的概率复用先前经验，减少了先前学习经验中的干扰信息。

附图说明

图1为本发明的执行流程图。

具体实施方式

如下结合附图1，对本申请方案作进一步描述：

本发明提出一种基于合作式强化学习与迁移学习的多智能体对抗决策方法，分为合作式强化学习与迁移学习两方面，包括以下步骤：

步骤1.利用智能体的视觉感知设备获取当前的环境信息，使用当前的任务环境信息定义智能体的状态空间。如果当前的状态空间是连续的，需要对状态空间进行离散化。使用线性分割的方法将连续的状态空间离散化为离散的状态空间，记为S＝{s₁,s₂,...,s_n}。

步骤2.在通过步骤1获得外界环境的感知信息后，设置智能体的动作空间。在复杂的实时控制环境中，智能体的动作空间往往是根据其可执行的动作类型以及动作范围设定。状态空间与动作空间过大会给强化学习模型的计算带来较大的计算损耗。设定智能体的动作空间为：Α＝{a₁,a₂,...,a_n}。

步骤3.在通过步骤2获取智能体的动作空间之后，设定智能体强化学习模型的值函数矩阵。通过收集智能体在执行任务过程中获得的累积奖励并计算得到累积奖励的期望值。设定对应状态-动作对<s_t,a_t>的值函数为Q(s_t,a_t)。

步骤4.在通过步骤1,2，3获得智能体强化学习模型的状态空间、动作空间以及值函数之后，根据当前的状态s_t，将当前状态s_t与动作空间Α＝{a₁,a₂,...,a_n}输入到动作评估器，使用动作评估器计算当前状态s_t对应的值函数序列

通过基于模拟退火与softmax策略的动作选择器选择相应的动作a_t。同时，智能体的状态发生变化，转移到下一状态s_t+1。智能体获得奖励信号r_t。基于模拟退火与softmax策略的动作选择器可以控制动作选择的随机性。该策略依据各个动作的平均奖赏来选择动作，对于动作a_t，如果该动作产生的平均奖赏高于其他动作产生的平均奖赏，则该动作被选择的概率也就越高。Softmax算法中动作的概率分布是基于Boltzmann分布，如公式所示：

其中，p_i代表选择动作a_i概率，动作总个数为K。

使用基于Boltzmann分布的动作选择策略可以确保学习开始时动作选择的随机性较大，为了控制动作选择的随机程度，提高学习速度，在softmax算法中添加模拟退火的方法，动作a_i被选择的概率如公式所示：

其中，T_t是温度参数，T_t越小平均奖赏高的动作被选择的概率越高。模拟退火方法的温度值按照式(3)来调节：

其中，η为退火因子，取值范围0≤η≤1。

步骤5.在通过步骤4得到的下一时刻状态s_t+1以及奖励信号之后r_t。，将下一时刻状态s_t+1与动作空间中的所有动作Α＝{a₁,a₂,...,a_n}输入到动作评估器中，计算得到对应的值函数序列

然后，使用基于模拟退火策略的动作选择器使用式(4)计算动作a_t+1的分布概率并选择合适的动作。

在确定下一时刻动作a_t+1之后，选择对应状态s_t+1与动作a_t+1的值函数Q(s_t+1,a_t+1)，将当前状态s_t，当前值函数Q(s_t,a_t)，当前奖励r_t存入记忆池。记忆池中的学习样本使用四元组表示model(s_t,a_t,r_t,Q(s_t,a_t))。

步骤6.在通过步骤5得到下一状态-动作对的值函数Q(s_t+1,a_t+1)之后，使用下一状态-动作对的值函数通过时间差分方法更新当前状态-动作值函数Q(s_t,a_t)，更新方式如式(5)所示。

Q^*(s_t,a_t)＝Q(s_t,a_t)+α[r_t+γQ(s_t+1,a_t+1)-Q(s_t,a_t)] (5)

步骤7.在通过步骤6得到更新后的当前状态-动作值函数Q^*(s_t,a_t)之后，计算当前值函数Q(s_t,a_t)与更新后的值函数Q^*(s_t,a_t)的差分误差作为动作评估器的损失函数，通过反向传播方式更新动作评估器的权重。动作评估器的损失函数如式(6)所示。

智能体在每次学习过程中，记忆池会暂时存储a_t,s_t,Q(a_t,s_t),r_t，而记忆池中存储的值函数就是Q(s_t,a_t)。在计算得到Q^*(s_t,a_t)之后，通过记忆池获得Q(s_t,a_t)，通过反向传播更新动作评估器的权重。记忆池的作用是为了计算动作评估器的神经网络的误差而提供Q(s_t,a_t)。

在完成动作评估器的更新之后，对于智能体的下一状态s_t+1，将s_t+1,a_t+1,Q(s_t+1,a_t+1)以及获得的奖励存储在记忆池中替换原先状态s_t的学习样本。多智能体共享动作评估器的权重。

步骤8.在多次执行步骤7得到更新完成的动作评估器之后，通过带有衰减函数的迁移学习方法将先前的学习经验扩展到更多的对抗任务场景。原任务与目标任务具有相同的状态与动作空间，使用一组映射

来适配源任务与目标任务，如公式(7)所示，

在迁移学习的过程中，存在着许多的干扰信息，借鉴了牛顿冷却定律的基本思想，设置了一种衰减函数，该衰减函数可以使得智能体以逐渐递减的概率去利用先前的经验，最后在探索新的经验与利用以往经验之间达到一种稳态。在使用合作式强化学习的基础上引入衰减函数，设定ε表示阈值，如果随机数rand＞ε则利用以往的经验，反之则使用动作选择器选择动作，阈值ε随着时间t发生变化，满足公式(8)：

本发明提出了一种基于合作式强化学习与迁移学习的多智能体对抗决策方法。合作式强化学习包括动作产生器与动作评估器两部分。在具体的多智能体对抗决策场景中，智能体通过视觉感知得到当前的状态，然后根据智能体可执行的动作类型与范围设定动作空间，进而根据状态空间与动作空间设定强化学习值函数。设置动作评估器与动作产生器，通过动作评估器计算得到当前状态对应的值函数序列，将值函数序列输入到动作产生器得到当前执行的动作，执行当前动作得到下一状态与当前奖励。输入下一状态到动作评估器得到下一状态对应的值函数序列，再次通过动作产生器输出得到下一动作。使用时间差分方法更新当前值函数，计算动作评估器的损失函数，通过反向传播方法更新动作评估器的权重。多智能体共享动作评估器的网络权重，通过权重共享的方式可以降低经验存储的损耗，提高对抗决策效率。最后，借鉴牛顿冷却定律设计一种衰减函数，通过基于衰减函数的迁移学习方法使得智能体以逐渐递减的概率复用先前经验，迁移学习将先前训练得到的动作评估器权重迁移到更多的对抗决策场景，提高了学习模型的泛化性。

上述优选实施方式应视为本申请方案实施方式的举例说明，凡与本申请方案雷同、近似或以此为基础作出的技术推演、替换、改进等，均应视为本专利的保护范围。

Claims

1.一种基于合作式强化学习与迁移学习的多智能体对抗决策方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法，其特征在于：在步骤1当中，如果当前的状态空间是连续的，则对状态空间通过线性分割方式进行离散化，获得离散化序列S＝{s₁,s₂,...,s_n}。

3.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法，其特征在于：在步骤4当中，通过基于模拟退火与softmax策略的动作选择器实现控制动作选择的随机性，该策略依据各个动作的平均奖赏来选择动作，对于动作a_t，如果该动作产生的平均奖赏高于其他动作产生的平均奖赏，则该动作被选择的概率也就越高；Softmax算法中动作的概率分布是基于Boltzmann分布，如公式(1)所示：

其中，p_i代表选择动作a_i概率，动作总个数为K；

模拟退火方法的温度值按照公式(3)来调节：

其中，η为退火因子，取值范围0≤η≤1。

4.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法，其特征在于：在步骤5当中，动作选择器使用公式(4)计算动作a_t+1的分布概率并选择合适的动作：

5.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法，其特征在于：在步骤6当中，采用如下公式(5)：

Q^*(s_t,a_t)＝Q(s_t,a_t)+α[r_t+γQ(s_t+1,a_t+1)-Q(s_t,a_t)] (5)

更新当前状态-动作值函数Q(s_t,a_t)。

6.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法，其特征在于：在步骤7当中，动作评估器的损失函数如公式(6)所示：

7.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法，其特征在于：在步骤8当中，原任务与目标任务具有相同的状态与动作空间，使用一组映射

来适配源任务与目标任务，如公式(7)所示：