CN112462613B

CN112462613B - 一种基于贝叶斯概率的强化学习智能体控制优化方法

Info

Publication number: CN112462613B
Application number: CN202011420174.5A
Authority: CN
Inventors: 周世海
Original assignee: Individual
Current assignee: Zhejiang Xingyao Shuzhi Information Technology Co.,Ltd.
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2022-09-23
Anticipated expiration: 2040-12-08
Also published as: CN112462613A

Abstract

本发明公开了一种基于贝叶斯概率的强化学习智能体控制优化方法，该方法通过贝叶斯概率，将策略空间向量化，使得使用者能够较好的测定当前深度强化学习智能体已经探索的策略空间，更有利于使用者调整训练方法，探索未知的策略空间。

Description

一种基于贝叶斯概率的强化学习智能体控制优化方法

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种基于贝叶斯概率的强化学习智能体控制优化方法。

背景技术

深度强化学习作为当下人工智能的决策算法之一，拥有着广泛的应用领域，包括无人驾驶，无人机，机器人控制等等，然而在使用深度强化学习作为机器控制的决策算法时，通常都需要长时间的环境探索与训练，而在这一过程中，则容易出现局部最优的问题，使得花费了巨大的训练成本后，机器人仍然无法很好的执行指定任务。同时，强化学习往往要结合业务目标设计繁琐的奖励函数，这也需要耗费大量的时间精力对业务问题进行人工量化，这导致深度强化学习这一控制算法目前在工业领域仍然无法很好的推广。

另外，由于深度学习的参数量巨大，且常规情况下权重不具有上下限，因此很难以较为简洁准确的形式将当前深度强化学习智能体的策略表示出来。

发明内容

本发明所要解决的技术问题是提供一种能够将策略空间向量化，能进行全方位策略探索，且不需要设计繁琐的奖励函数的一种基于贝叶斯概率的强化学习智能体控制优化方法。

本发明所采用的技术方案是，一种基于贝叶斯概率的强化学习智能体控制优化方法，包括：

S1、构建一个包括N个节点的策略网络，所述策略网络的激活函数为线性整流函数；

S2、构建策略网络所要执行任务的奖励目标，所述奖励目标至少包括正奖励目标和无奖励目标或负奖励目标与无奖励目标；

S3、根据贝叶斯概率公式，计算策略网络每一个节点在任一奖励目标下，被线性整流函数激活的概率；

S4、使用基于奖励目标构建的奖励函数进行探索与训练，当智能体执行任务陷入局部最优问题时，根据每个节点在对应奖励目标下的概率构建策略探索奖励函数，对策略网络进行优化。

本发明的有益效果是：使用贝叶斯概率来计算每一个节点在对应任务目标下的激活概率，使得在同一策略下，该策略能够通过每个节点的激活概率这一形式存在，将数量巨大的权重参数转化为了数量较小的节点参数，且范围有限，能够较好的用向量表示当前策略，有利于当前策略的定位以及全方位的策略探索

作为优先，所述S3包括：

S31、在当前策略中，统计每一步动作执行后，得到的目标奖励，计算得到在该回合中，正奖励目标或负奖励目标或无奖励目标的概率P(X)，X表示得到目标奖励这一事件；

S32、在当前策略中，统计每个节点每一次亮起时，每一个奖励目标对应的概率P(X|θ)，θ表示节点激活这一事件；

S33、在当前策略中，统计每一个节点激活的概率P(θ)；

S34、计算得到，在当前策略中，每个节点在奖励目标下激活的概率

上述方法，能够通过贝叶斯概率公式，得到每一个节点在对应任务目标下激活的概率。

作为优先，所述S4包括：

A1、当所述策略网络优化收敛后陷入局部最优时，计算优化过程中每一条策略的每个节点在相应奖励目标下的概率表示，并归一化，得到每一条策略在对应奖励目标下的向量表示；

A2、在A1得到的归一化向量基础上，构建超球面，定义一个最小近似面积，作为每一个策略向量的点在超球面上占用的近似面积，每一个奖励目标各自对应一个超球面；

A3、累积计算当前已有策略所占用的面积，将正奖励目标下，已占有的超球面面积作为奖励函数的正奖励，将负奖励目标下策略占用面积作为奖励函数的负奖励；

A4、在基于奖励目标构建的奖励函数基础上，继续训练策略网络，同时将A3的得到的奖励作为每一条策略的最后一步时的奖励，鼓励智能体扩大策略搜索空间，上述方法能够将策略定位在维度较小的超球面上，容易计算定位策略所在位置和已探索策略分布情况，且通过节点激活概率作为策略衡量机制，能够更贴近当前的策略信息。

作为优先，所述S4包括：

B1、在得到多条策略的向量表示的基础上，计算策略在超球面上的分布密度，选择分布密度稀疏区域的策略向量对应的策略网络，作为训练起始策略进行鼓励策略探索训练；

B2、多次随机得到策略网络的多组随机策略，计算随机策略在超球面上的位置，若与最近的策略在超球面上的点的距离都大于已有策略在超球面上的点之间的最大球面距离或欧式距离，则保留该随机策略，并将该随机策略作为训练起始策略之一；通过上述方法可以比较全面的覆盖所有策略，使得大多数策略都能被智能体探索到。

作为优先，所述B1和B2的训练为构建多个智能体进行并行化探索与训练，使用多个智能体并行化探索与训练，能够加快每个节点概率的测定速度，在整体上加快策略空间的探索速度。

作为优先，所述S4包括：

C1、定义基础权重修正值Δω和基础偏置修正值Δb；

C2、当当前策略的概率测定完成时，对策略网络中的权重和偏置进行更新，所述策略网络中每一个权重和偏置都对应前后两个节点node1和node2，将node1和node2在正奖励目标下的概率相乘得到针对Δω和Δb的加权参数γ；将node1和node2在负奖励目标下的概率相乘得到针对Δω和Δb的加权参数μ；

C3、令ω₀为原权重参数，ω为新权重参数，则ω＝F(ω₀，γ，Δω，μ)；令b₀为原偏置参数，b为新偏置参数，则b＝G(b₀，γ，Δb，μ)；

C4、测定新得到的策略在超球面的表示位置，转入方法B1或B2。

上述方法，能够将权重的更新与节点概率联系起来，能够根据节点激活的概率大小来增加或减少权重和偏置。

作为优先，所述S4包括：

D1、定义一最小概率P_min，若存在一节点，在任一奖励目标下的概率皆小于最小概率，则将该节点标记为未探索节点，将提高该节点在正奖励目标下的概率作为策略探索奖励函数的正奖励之一，该方法能够鼓励增加激活低激活概率的节点，从而使得智能体能够更容易探索没有探索过的且在奖励贡献上趋于未知的策略。

作为优先，所述C3的更新公式为，

其中，a，b，c，d，e，f为限定Δω与Δb范围的超参数。

上述超参数的设定使得存在一指定参数，当γ接近指定参数时，权重更新幅度增加，当γ远离指定参数时，权重更新幅度降低，且幅度不会趋向于无穷大，μ同理，该设置能够在以正奖励增大为目标时，能够较好的推动智能体向高奖励的节点权重连接进行变动，且通过设置e和b以及倒数的形式，使得权重和偏置能够在一个较为准确合理的状态下进行大幅度变动，而不是在极端概率情况下发生大幅度变动。

具体实施方式

实施例：

在本实施例中，以无人驾驶停车为例，正奖励为，无人车将车辆停在指定位置，负奖励包括，无人车远离指定位置一定范围，在停车时未将车辆停在指定位置，车辆停放不正，撞车导致车辆损毁。共计1个正奖励目标和4个负奖励目标。

在初始探索阶段，将正奖励定为奖励值1，负奖励分别定为-1，进行初始探索训练。

当初始探索训练收敛时，由于深度强化学习的不稳定性，以及奖励函数定义与实际情况存在不符合的问题，收敛结果往往不是最佳策略，实际表现也不佳，此时测定每个节点在五个奖励目标下的激活概率。

在一个优化方案中，从起始训练起就开始对每个节点的激活概率进行测定，直到收敛后，选取从起始到收敛，激活概率在任一奖励目标下都很低的节点，在后续的训练中，将选定节点在正奖励目标下，激活概率增加作为正奖励，放大后在一回合结束时加入到奖励函数中，作为终点奖励，使得车辆在探索策略时，能够往从未探索过且针对任务目标奖励未知的策略方向探索，当选定节点在正奖励目标下的激活概率大于一定值时，取消该节点作为正奖励之一的资格。

在一个优化方案中，将收敛时测定的一组节点的概率值归一化，得到策略的向量表示，然后随机得到多组策略，进行概率测定，得到多组策略的向量表示，在多组随机策略中，选定奖励累积较高的策略，计算每个高奖励随机策略与收敛策略的距离，选择距离较远的高奖励随机策略作为训练探索起始策略，为每个选定的起始策略构建智能体，进行并行化仿真探索与训练。当已探索策略数量达到一定程度时，构建超球面，定义每个已探索策略占用的最小近似面积，然后计算超球面的总面积，将近似面积总面积在超球面总面积中的占比作为正奖励，放大后加入到回合结束时的终点奖励，鼓励智能体进一步探索未知策略空间，当超球面的任一局部策略密度低于一定程度时，选择奖励最高的策略作为最终策略。

在一个优化方案中，在测定得到收敛策略的概率后，使用权重连接的两个节点的概率对权重和偏置进行更新，每次更新后都重新进行一次测定，测定时，以每个节点的概率不再发生大幅度变化作为节点测定完成标志。在本实施例中，权重和偏置的更新公式可以为

其中，γ为正奖励目标下，权重连接的两个节点的概率乘积，μ1，μ2，μ3，μ4则分别代表四个负奖励目标下，权重连接的两个节点的概率乘积。

在本实施例中，三种优化方案皆可以交替或者综合进行，通过上述优化方案，使得智能体能够以提高正奖励目标下的节点激活概率为目标，更容易探索到具有较高价值的策略，并且通过概率的形式能够将策略空间向量化，通过分析其分布密度，也较容易选择没有探索过的策略空间。

Claims

1.一种基于贝叶斯概率的强化学习智能体控制优化方法，其特征在于，包括：

S4、使用基于奖励目标构建的奖励函数进行探索与训练，当智能体执行任务陷入局部最优问题时，根据每个节点在对应奖励目标下的概率构建策略探索奖励函数，对策略网络进行优化；

其中，所述S4具体包括如下步骤：

A4、在基于奖励目标构建的奖励函数基础上，继续训练策略网络，同时将A3的得到的奖励作为每一条策略的最后一步时的奖励，鼓励智能体扩大策略搜索空间；

或者，所述S4具体包括如下步骤：

B2、多次随机得到策略网络的多组随机策略，计算随机策略在超球面上的位置，若与最近的策略在超球面上的点的距离都大于已有策略在超球面上的点之间的最大球面距离或欧式距离，则保留该随机策略，并将该随机策略作为训练起始策略之一；

或者，所述S4具体包括如下步骤：

C1、定义基础权重修正值Δω和基础偏置修正值Δb；

C3、令ω0为原权重参数，ω为新权重参数，则ω＝F(ω0，γ，Δω，μ)；令b0为原偏置参数，b为新偏置参数，则b＝G(b0，γ，Δb，μ)；

2.根据权利要求1所述的一种基于贝叶斯概率的强化学习智能体控制优化方法，其特征在于，所述S3包括：

S33、在当前策略中，统计每一个节点激活的概率P(θ)；

。

3.根据权利要求1所述的一种基于贝叶斯概率的强化学习智能体控制优化方法，其特征在于，所述B1和B2的训练为构建多个智能体进行并行化探索与训练。

4.根据权利要求1所述的一种基于贝叶斯概率的强化学习智能体控制优化方法，其特征在于，所述C3的更新公式为，

其中，a，b，c，d，e，f为限定Δω与Δb范围的超参数。