CN112462613A - 一种基于贝叶斯概率的强化学习智能体控制优化方法 - Google Patents

一种基于贝叶斯概率的强化学习智能体控制优化方法 Download PDF

Info

Publication number
CN112462613A
CN112462613A CN202011420174.5A CN202011420174A CN112462613A CN 112462613 A CN112462613 A CN 112462613A CN 202011420174 A CN202011420174 A CN 202011420174A CN 112462613 A CN112462613 A CN 112462613A
Authority
CN
China
Prior art keywords
reward
strategy
probability
target
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011420174.5A
Other languages
English (en)
Other versions
CN112462613B (zh
Inventor
周世海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011420174.5A priority Critical patent/CN112462613B/zh
Publication of CN112462613A publication Critical patent/CN112462613A/zh
Application granted granted Critical
Publication of CN112462613B publication Critical patent/CN112462613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于贝叶斯概率的强化学习智能体控制优化方法,该方法通过贝叶斯概率,将策略空间向量化,使得使用者能够较好的测定当前深度强化学习智能体已经探索的策略空间,更有利于使用者调整训练方法,探索未知的策略空间。

Description

一种基于贝叶斯概率的强化学习智能体控制优化方法
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种基于贝叶斯概率的强化学习智能体控制优化方法。
背景技术
深度强化学习作为当下人工智能的决策算法之一,拥有着广泛的应用领域,包括无人驾驶,无人机,机器人控制等等,然而在使用深度强化学习作为机器控制的决策算法时,通常都需要长时间的环境探索与训练,而在这一过程中,则容易出现局部最优的问题,使得花费了巨大的训练成本后,机器人仍然无法很好的执行指定任务。同时,强化学习往往要结合业务目标设计繁琐的奖励函数,这也需要耗费大量的时间精力对业务问题进行人工量化,这导致深度强化学习这一控制算法目前在工业领域仍然无法很好的推广。
另外,由于深度学习的参数量巨大,且常规情况下权重不具有上下限,因此很难以较为简洁准确的形式将当前深度强化学习智能体的策略表示出来。
发明内容
本发明所要解决的技术问题是提供一种能够将策略空间向量化,能进行全方位策略探索,且不需要设计繁琐的奖励函数的一种基于贝叶斯概率的强化学习智能体控制优化方法。
本发明所采用的技术方案是,一种基于贝叶斯概率的强化学习智能体控制优化方法,包括:
S1、构建一个包括N个节点的策略网络,所述策略网络的激活函数为线性整流函数;
S2、构建策略网络所要执行任务的奖励目标,所述奖励目标至少包括正奖励目标和无奖励目标或负奖励目标与无奖励目标;
S3、根据贝叶斯概率公式,计算策略网络每一个节点在任一奖励目标下,被线性整流函数激活的概率;
S4、使用基于奖励目标构建的奖励函数进行探索与训练,当智能体执行任务陷入局部最优问题时,根据每个节点在对应奖励目标下的概率构建策略探索奖励函数,对策略网络进行优化。
本发明的有益效果是:使用贝叶斯概率来计算每一个节点在对应任务目标下的激活概率,使得在同一策略下,该策略能够通过每个节点的激活概率这一形式存在,将数量巨大的权重参数转化为了数量较小的节点参数,且范围有限,能够较好的用向量表示当前策略,有利于当前策略的定位以及全方位的策略探索
作为优先,所述S3包括:
S31、在当前策略中,统计每一步动作执行后,得到的目标奖励,计算得到在该回合中,正奖励目标或负奖励目标或无奖励目标的概率P(X),X表示得到目标奖励这一事件;
S32、在当前策略中,统计每个节点每一次亮起时,每一个奖励目标对应的概率P(X|θ),θ表示节点激活这一事件;
S33、在当前策略中,统计每一个节点激活的概率P(θ);
S34、计算得到,在当前策略中,每个节点在奖励目标下激活的概率
Figure BDA0002821902930000031
上述方法,能够通过贝叶斯概率公式,得到每一个节点在对应任务目标下激活的概率。
作为优先,所述S4包括:
A1、当所述策略网络优化收敛后陷入局部最优时,计算优化过程中每一条策略的每个节点在相应奖励目标下的概率表示,并归一化,得到每一条策略在对应奖励目标下的向量表示;
A2、在A1得到的归一化向量基础上,构建超球面,定义一个最小近似面积,作为每一个策略向量的点在超球面上占用的近似面积,每一个奖励目标各自对应一个超球面;
A3、累积计算当前已有策略所占用的面积,将正奖励目标下,已占有的超球面面积作为奖励函数的正奖励,将负奖励目标下策略占用面积作为奖励函数的负奖励;
A4、在基于奖励目标构建的奖励函数基础上,继续训练策略网络,同时将A3的得到的奖励作为每一条策略的最后一步时的奖励,鼓励智能体扩大策略搜索空间,上述方法能够将策略定位在维度较小的超球面上,容易计算定位策略所在位置和已探索策略分布情况,且通过节点激活概率作为策略衡量机制,能够更贴近当前的策略信息。
作为优先,所述S4包括:
B1、在得到多条策略的向量表示的基础上,计算策略在超球面上的分布密度,选择分布密度稀疏区域的策略向量对应的策略网络,作为训练起始策略进行鼓励策略探索训练;
B2、多次随机得到策略网络的多组随机策略,计算随机策略在超球面上的位置,若与最近的策略在超球面上的点的距离都大于已有策略在超球面上的点之间的最大球面距离或欧式距离,则保留该随机策略,并将该随机策略作为训练起始策略之一;通过上述方法可以比较全面的覆盖所有策略,使得大多数策略都能被智能体探索到。
作为优先,所述B1和B2的训练为构建多个智能体进行并行化探索与训练,使用多个智能体并行化探索与训练,能够加快每个节点概率的测定速度,在整体上加快策略空间的探索速度。
作为优先,所述S4包括:
C1、定义基础权重修正值Δω和基础偏置修正值Δb;
C2、当当前策略的概率测定完成时,对策略网络中的权重和偏置进行更新,所述策略网络中每一个权重和偏置都对应前后两个节点node1和node2,将node1和node2在正奖励目标下的概率相乘得到针对Δω和Δb的加权参数γ;将node1和node2在负奖励目标下的概率相乘得到针对Δω和Δb的加权参数μ;
C3、令ω0为原权重参数,ω为新权重参数,则ω=F(ω0,γ,Δω,μ);令b0为原偏置参数,b为新偏置参数,则b=G(b0,γ,Δb,μ);
C4、测定新得到的策略在超球面的表示位置,转入方法B1或B2。
上述方法,能够将权重的更新与节点概率联系起来,能够根据节点激活的概率大小来增加或减少权重和偏置。
作为优先,所述S4包括:
D1、定义一最小概率Pmin,若存在一节点,在任一奖励目标下的概率皆小于最小概率,则将该节点标记为未探索节点,将提高该节点在正奖励目标下的概率作为策略探索奖励函数的正奖励之一,该方法能够鼓励增加激活低激活概率的节点,从而使得智能体能够更容易探索没有探索过的且在奖励贡献上趋于未知的策略。
作为优先,所述C3的更新公式为,
Figure BDA0002821902930000051
Figure BDA0002821902930000052
其中,a,b,c,d,e,f为限定Δω与Δb范围的超参数。
上述超参数的设定使得存在一指定参数,当γ接近指定参数时,权重更新幅度增加,当γ远离指定参数时,权重更新幅度降低,且幅度不会趋向于无穷大,μ同理,该设置能够在以正奖励增大为目标时,能够较好的推动智能体向高奖励的节点权重连接进行变动,且通过设置e和b以及倒数的形式,使得权重和偏置能够在一个较为准确合理的状态下进行大幅度变动,而不是在极端概率情况下发生大幅度变动。
具体实施方式
实施例:
在本实施例中,以无人驾驶停车为例,正奖励为,无人车将车辆停在指定位置,负奖励包括,无人车远离指定位置一定范围,在停车时未将车辆停在指定位置,车辆停放不正,撞车导致车辆损毁。共计1个正奖励目标和4个负奖励目标。
在初始探索阶段,将正奖励定为奖励值1,负奖励分别定为-1,进行初始探索训练。
当初始探索训练收敛时,由于深度强化学习的不稳定性,以及奖励函数定义与实际情况存在不符合的问题,收敛结果往往不是最佳策略,实际表现也不佳,此时测定每个节点在五个奖励目标下的激活概率。
在一个优化方案中,从起始训练起就开始对每个节点的激活概率进行测定,直到收敛后,选取从起始到收敛,激活概率在任一奖励目标下都很低的节点,在后续的训练中,将选定节点在正奖励目标下,激活概率增加作为正奖励,放大后在一回合结束时加入到奖励函数中,作为终点奖励,使得车辆在探索策略时,能够往从未探索过且针对任务目标奖励未知的策略方向探索,当选定节点在正奖励目标下的激活概率大于一定值时,取消该节点作为正奖励之一的资格。
在一个优化方案中,将收敛时测定的一组节点的概率值归一化,得到策略的向量表示,然后随机得到多组策略,进行概率测定,得到多组策略的向量表示,在多组随机策略中,选定奖励累积较高的策略,计算每个高奖励随机策略与收敛策略的距离,选择距离较远的高奖励随机策略作为训练探索起始策略,为每个选定的起始策略构建智能体,进行并行化仿真探索与训练。当已探索策略数量达到一定程度时,构建超球面,定义每个已探索策略占用的最小近似面积,然后计算超球面的总面积,将近似面积总面积在超球面总面积中的占比作为正奖励,放大后加入到回合结束时的终点奖励,鼓励智能体进一步探索未知策略空间,当超球面的任一局部策略密度低于一定程度时,选择奖励最高的策略作为最终策略。
在一个优化方案中,在测定得到收敛策略的概率后,使用权重连接的两个节点的概率对权重和偏置进行更新,每次更新后都重新进行一次测定,测定时,以每个节点的概率不再发生大幅度变化作为节点测定完成标志。在本实施例中,权重和偏置的更新公式可以为
Figure BDA0002821902930000071
Figure BDA0002821902930000072
其中,γ为正奖励目标下,权重连接的两个节点的概率乘积,μ1,μ2,μ3,μ4则分别代表四个负奖励目标下,权重连接的两个节点的概率乘积。
在本实施例中,三种优化方案皆可以交替或者综合进行,通过上述优化方案,使得智能体能够以提高正奖励目标下的节点激活概率为目标,更容易探索到具有较高价值的策略,并且通过概率的形式能够将策略空间向量化,通过分析其分布密度,也较容易选择没有探索过的策略空间。

Claims (8)

1.一种基于贝叶斯概率的强化学习智能体控制优化方法,其特征在于,包括:
S1、构建一个包括N个节点的策略网络,所述策略网络的激活函数为线性整流函数;
S2、构建策略网络所要执行任务的奖励目标,所述奖励目标至少包括正奖励目标和无奖励目标或负奖励目标与无奖励目标;
S3、根据贝叶斯概率公式,计算策略网络每一个节点在任一奖励目标下,被线性整流函数激活的概率;
S4、使用基于奖励目标构建的奖励函数进行探索与训练,当智能体执行任务陷入局部最优问题时,根据每个节点在对应奖励目标下的概率构建策略探索奖励函数,对策略网络进行优化。
2.根据权利要求1所述的一种基于贝叶斯概率的强化学习智能体控制优化方法,其特征在于,所述S3包括:
S31、在当前策略中,统计每一步动作执行后,得到的目标奖励,计算得到在该回合中,正奖励目标或负奖励目标或无奖励目标的概率P(X),X表示得到目标奖励这一事件;
S32、在当前策略中,统计每个节点每一次亮起时,每一个奖励目标对应的概率P(X|θ),θ表示节点激活这一事件;
S33、在当前策略中,统计每一个节点激活的概率P(θ);
S34、计算得到,在当前策略中,每个节点在奖励目标下激活的概率
Figure RE-FDA0002926067780000011
3.根据权利要求2所述的一种基于贝叶斯概率的强化学习智能体控制优化方法,其特征在于,所述S4包括:
A1、当所述策略网络优化收敛后陷入局部最优时,计算优化过程中每一条策略的每个节点在相应奖励目标下的概率表示,并归一化,得到每一条策略在对应奖励目标下的向量表示;
A2、在A1得到的归一化向量基础上,构建超球面,定义一个最小近似面积,作为每一个策略向量的点在超球面上占用的近似面积,每一个奖励目标各自对应一个超球面;
A3、累积计算当前已有策略所占用的面积,将正奖励目标下,已占有的超球面面积作为奖励函数的正奖励,将负奖励目标下策略占用面积作为奖励函数的负奖励;
A4、在基于奖励目标构建的奖励函数基础上,继续训练策略网络,同时将A3的得到的奖励作为每一条策略的最后一步时的奖励,鼓励智能体扩大策略搜索空间。
4.根据权利要求3所述的一种基于贝叶斯概率的强化学习智能体控制优化方法,其特征在于,所述S4包括:
B1、在得到多条策略的向量表示的基础上,计算策略在超球面上的分布密度,选择分布密度稀疏区域的策略向量对应的策略网络,作为训练起始策略进行鼓励策略探索训练;
B2、多次随机得到策略网络的多组随机策略,计算随机策略在超球面上的位置,若与最近的策略在超球面上的点的距离都大于已有策略在超球面上的点之间的最大球面距离或欧式距离,则保留该随机策略,并将该随机策略作为训练起始策略之一。
5.根据权利要求4所述的一种基于贝叶斯概率的强化学习智能体控制优化方法,其特征在于,所述B1和B2的训练为构建多个智能体进行并行化探索与训练。
6.根据权利要求4所述的一种基于贝叶斯概率的强化学习智能体控制优化方法,其特征在于,所述S4包括:
C1、定义基础权重修正值Δω和基础偏置修正值Δb;
C2、当当前策略的概率测定完成时,对策略网络中的权重和偏置进行更新,所述策略网络中每一个权重和偏置都对应前后两个节点node1和node2,将node1和node2在正奖励目标下的概率相乘得到针对Δω和Δb的加权参数γ;将node1和node2在负奖励目标下的概率相乘得到针对Δω和Δb的加权参数μ;
C3、令ω0为原权重参数,ω为新权重参数,则ω=F(ω0,γ,Δω,μ);令b0为原偏置参数,b为新偏置参数,则b=G(b0,γ,Δb,μ);
C4、测定新得到的策略在超球面的表示位置,转入方法B1或B2。
7.根据权利要求1所述的一种基于贝叶斯概率的强化学习智能体控制优化方法,其特征在于,所述S4包括:
D1、定义一最小概率Pmin,若存在一节点,在任一奖励目标下的概率皆小于最小概率,则将该节点标记为未探索节点,将提高该节点在正奖励目标下的概率作为策略探索奖励函数的正奖励之一。
8.根据权利要求6所述的一种基于贝叶斯概率的强化学习智能体控制优化方法,其特征在于,所述C3的更新公式为,
Figure RE-FDA0002926067780000041
Figure RE-FDA0002926067780000042
其中,a,b,c,d,e,f为限定Δω与Δb范围的超参数。
CN202011420174.5A 2020-12-08 2020-12-08 一种基于贝叶斯概率的强化学习智能体控制优化方法 Active CN112462613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011420174.5A CN112462613B (zh) 2020-12-08 2020-12-08 一种基于贝叶斯概率的强化学习智能体控制优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011420174.5A CN112462613B (zh) 2020-12-08 2020-12-08 一种基于贝叶斯概率的强化学习智能体控制优化方法

Publications (2)

Publication Number Publication Date
CN112462613A true CN112462613A (zh) 2021-03-09
CN112462613B CN112462613B (zh) 2022-09-23

Family

ID=74800808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011420174.5A Active CN112462613B (zh) 2020-12-08 2020-12-08 一种基于贝叶斯概率的强化学习智能体控制优化方法

Country Status (1)

Country Link
CN (1) CN112462613B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995468A (zh) * 2022-06-06 2022-09-02 南通大学 一种基于贝叶斯深度强化学习的水下机器人智能控制方法
CN116430860A (zh) * 2023-03-28 2023-07-14 兰州大学 一种基于离线强化学习的机甲车自动行驶训练与控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978012A (zh) * 2019-03-05 2019-07-05 北京工业大学 一种基于结合反馈的改进贝叶斯逆强化学习方法
CN110390399A (zh) * 2019-06-24 2019-10-29 浙江大学 一种强化学习的高效探索方法
US20200218999A1 (en) * 2017-10-04 2020-07-09 Prowler.Io Limited Machine learning system
CN111612126A (zh) * 2020-04-18 2020-09-01 华为技术有限公司 强化学习的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200218999A1 (en) * 2017-10-04 2020-07-09 Prowler.Io Limited Machine learning system
CN109978012A (zh) * 2019-03-05 2019-07-05 北京工业大学 一种基于结合反馈的改进贝叶斯逆强化学习方法
CN110390399A (zh) * 2019-06-24 2019-10-29 浙江大学 一种强化学习的高效探索方法
CN111612126A (zh) * 2020-04-18 2020-09-01 华为技术有限公司 强化学习的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HADI FIROUZI 等: "Interactive Learning in Continuous Multimodal Space: A Bayesian Approach to Action-Based Soft Partitioning and Learning", 《IEEE TRANSACTIONS ON AUTONOMOUS MENTAL DEVELOPMENT》 *
杨珉 等: "解决深度探索问题的贝叶斯深度强化学习算法", 《计算机科学与探索》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995468A (zh) * 2022-06-06 2022-09-02 南通大学 一种基于贝叶斯深度强化学习的水下机器人智能控制方法
CN116430860A (zh) * 2023-03-28 2023-07-14 兰州大学 一种基于离线强化学习的机甲车自动行驶训练与控制方法

Also Published As

Publication number Publication date
CN112462613B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN110470301B (zh) 多动态任务目标点下的无人机路径规划方法
CN110378439B (zh) 基于Q-Learning算法的单机器人路径规划方法
CN108133258B (zh) 一种混合全局优化方法
CN112462613B (zh) 一种基于贝叶斯概率的强化学习智能体控制优化方法
CN110062390B (zh) 基于改进狼群算法的无线传感器网络节点优化部署方法
CN103971160B (zh) 基于复杂网络的粒子群优化方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN113110509A (zh) 一种基于深度强化学习的仓储系统多机器人路径规划方法
CN113110490A (zh) 基于改进的樽海鞘群算法的机器人多目标路径规划
CN111553469A (zh) 一种无线传感器网络数据融合方法、装置和存储介质
CN113485451A (zh) 一种基于改进的蜉蝣优化算法的机器人多目标路径规划
CN114167865B (zh) 一种基于对抗生成网络与蚁群算法的机器人路径规划方法
CN115983130A (zh) 一种基于改进粒子群优化算法的全局最优解搜索方法
CN112859855A (zh) 一种基于蝗虫优化算法的机器人多目标路径规划
CN111768028A (zh) 一种基于深度强化学习的gwlf模型参数调节方法
CN115169517A (zh) 一种改进的灰狼优化算法的方法
Jaafra et al. Context-aware autonomous driving using meta-reinforcement learning
CN112770256B (zh) 一种无人机自组织网络中的节点轨迹预测方法
CN111294922B (zh) 一种分级快速的无线传感器网络节点精准定位方法及装置
CN113341696A (zh) 一种运载火箭姿态控制参数智能整定方法
Chatterjee Differential evolution tuned fuzzy supervisor adapted extended Kalman filtering for SLAM problems in mobile robots
CN117350175A (zh) 人工智能生态因子空气环境质量监测方法及系统
CN117471919A (zh) 一种基于改进鹈鹕优化算法的机器人路径规划方法
CN111967199A (zh) 一种强化学习多代理合作任务下的代理贡献分配的方法
CN113858200B (zh) 黏菌觅食行为启发的改进多元宇宙的群体机器人控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant