CN113792846A - 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 - Google Patents

一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 Download PDF

Info

Publication number
CN113792846A
CN113792846A CN202111035843.1A CN202111035843A CN113792846A CN 113792846 A CN113792846 A CN 113792846A CN 202111035843 A CN202111035843 A CN 202111035843A CN 113792846 A CN113792846 A CN 113792846A
Authority
CN
China
Prior art keywords
space
state
environment
policy
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111035843.1A
Other languages
English (en)
Inventor
徐博
张文圣
张鸿铭
王燕娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111035843.1A priority Critical patent/CN113792846A/zh
Publication of CN113792846A publication Critical patent/CN113792846A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种强化学习中超高精度探索环境下的状态空间处理方法,系统及电子设备,涉及超高精度环境状态空间处理方法、系统及电子设备领域。本发明利用环境引擎对所述智能体在环境中对于威胁物和目标点的相关物理量进行采集,通过空间状态处理模块建立倒空间物理量规范,将原始空间相关物理量进行倒空间状态处理,放大所述智能体在相邻时刻间的动作上物理特征差异。再通过策略分析和策略执行结构对所述物理特征进行分析和智能体动作执行,执行的结果经环境引擎处理输入条件,输入至内部Reward函数,根据Reward函数输出结果对智能体动作制定强化学习策略,保证了智能体可在环境序列间状态差异相对自身差异数量级过小的情况下进行有效的学习训练。

Description

一种强化学习中超高精度探索环境下的状态空间处理方法、 系统及电子设备
技术领域
本发明涉及机器学习领域,特别是超高精度环境状态空间处理方法、系统及电子设备领域。
背景技术
随着机器学习中强化学习的理念不断升级,市场针对agent(智能体)的学习能力提出了更高的要求。现阶段强化学习中常时使用transition结构进行状态的输入输出和存储,所谓transition结构是指有限马尔可夫决策过程中,将各个时刻的状态、动作、奖惩等作为一组数据结构。随着神经网络的引入强化学习系统,标准的强化学习会将各个时刻的状态输入网络进行对应时刻的动作求解,网络会根据不同的状态输出不同的动作。在范围远超智能体本身尺寸的超大尺寸环境中,由于环境和智能体自身的物理限制,导致智能体的状态空间维度大,为了躲避威胁物,智能体在躲避前后执行不同动作时对应的状态差距小。因此对比网络接收到的输入状态的数量级而言,执行有效动作对应的状态与相邻时刻的状态间的差异远远小于状态自身数量级,进而网络面临空间序列区分度不足导致因反馈智能体信息准确性和准时行不足引起智能体的动作不准确和不及时的问题。
因此,在不改变现有强化学习所用MDP(马尔可夫决策过程,Markov DecisionProcess)模型的前提下,寻求一种可应对超大环境中实现高精度环境探索的智能体学习方式显得尤为重要。
发明内容
本发明实施例提供一种强化学习中超高精度探索环境下的状态空间处理方法,可以在不改变现有马尔可夫决策模型的前提下,实现智能体在范围远超智能体尺寸的环境内准确并及时的进行信息处理和动作执行。
为了解决上述问题,本发明的第一方面提出了一种超大高精度探索环境下状态空间处理方法,包括步骤:
S1:智能体接收原始环境状态;
S2:将原始环境状态进行倒空间结构处理;
S3:处理结果传递至运行网络架构;
S4:运行结果分别传递智能体终端进行动作执行;
S5:环境引擎收集动作执行后对环境影响;
S6:环境引擎反馈信息至原有状态空间信息收集模块;
S7:原有状态空间信息收集模块将信息分别传送至Reward(奖励)函数和倒空间处理结构;
S8:倒空间处理结构接收信息后作为新动作模量处理,处理流程返回S2继续执行并循环此过程;
S9:状态空间处理信息输入Reward函数判定结果;
S10:Reward函数输出结果进行网络学习,学习结果同步干预动作执行;
S11:策略执行模块依据倒空间模块输入信息和Reward函数学习结果进行动作执行和校正;
S12:智能体依照策略执行模块指令完成动作。
在一些实施例中,所述运行网络架构包含:策略执行模块以及策略分析模块。
在一些实施例中,所述测策略执行模块以及策略分析模块至少分别含有一个优化模块。
在一些实施例中,所述策略执行模块以及策略分析模块,同自身所带优化模块具备同时运作的能力。
在一些实施例中,所述策略执行模块接收来自倒空间状态处理结构的输出结果以及策略分析模块的输出结果。
在一些实施例中,所述策略执行模块依据策略分析模块输出结果进行动作修正。
在一些实施例中,所述策略分析模块自身具备自我迭代更新的能力。
在一些实施例中,所述策略分析模块和所述策略执行模块具备同时运行的能力。
在一些实施例中,所述策略分析模块接收来自Reward函数输出结果,自身分析结果以及策略执行模块后输出结果。
在一些实施例中,所述Reward函数设计状态至少包括:威胁物躲避前,威胁物躲避后,智能体动作终止时。
在一些实施例中,所述奖励可设置为正向奖励和负向奖励,正向奖励量级大于负向奖励量级,完成对威胁物的躲避且达到与目标间距离的精度要求时,给予一个明显的正向奖励(+2000),否则给予一个中等的负向奖励(-100)。
在一些实施例中,经倒空间结构处理前的环境状态均定义为原始环境状态。
在一些实施例中,所述方法S2倒空间处理算法流程包括:
1:提取所述原始环境相关物理量返回的状态空间;
2:依据倒空间基矢公式建立原始状态空间的倒空间规范:
Figure 661676DEST_PATH_IMAGE001
=
Figure 440276DEST_PATH_IMAGE002
其中,Si表示原空间物理量模值,Si′表示倒空间物理量模值,min_val为极小值,用于防止出现除0操作,k为实际环境选取的常数系数;
3:依据建立的倒空间规范进行倒空间状态转换,形成新的状态特征;
4:依据原空间状态进行Reward(奖励)函数设计,将转换后的倒空间状态输入到强化学习的神经网络中进行训练。
在一些实施例中,所述倒空间处理算法1中所述相关物理量至少包括:智能体位置、智能体速度、威胁物位置、威胁物速度和目标点位置。
在一些实施例中,所述处理方法还包括Actor-Critic强化学习模型,所述学习模型组成至少包括:Actor(策略生成函数)网络结构和 Critic(策略评价函数)两大结构。
在一些实施例中,所述处理方法还包括网络训练结构,所述网络训练结构包括:Reward(奖励)函数和目标函数组成。
在一些实施例中,所述Reward函数中所述威胁物躲避前设计原则包括:
1:负向:智能体当前距目标点距离与初始时距目标点距离的比值;
2:正向:智能体当前距威胁物距离与初始时距威胁物距离的比值;
3:负向:智能体当前与威胁物相对速度与初始时与威胁物相对速度的比值。
所述正向和负向表示奖励与设定指标之间的正反比关系。
在一些实施例中,所述Reward函数中所述威胁物躲避之后设计原则包括:
1:负向:智能体距目标点距离与初始时距离目标点距离的比值比上个步骤距目标点距离更大,则收到两个步骤下各自的相对距离比之差;
2:正向:智能体当前距目标点距离与初始时距离目标点距离的比值比上个步骤距离目标点距离更小,则收到两个步骤下各自的相对距离比之差;
3:正向:当前智能体距离目标点的距离小于M(M为设定点)时,增加一个正向奖励,奖励公式为(distance-M)·pow(2)*pl,其中distance为当前智能体距离目标距离,M、pl为根据实际环境而定的可调节系数。
上述的正向和负向表示奖励与设定的指标之间的正反比例关系,当智能体距离目标点很近时,(距离小于M)则额外增加正向的奖励。
在一些实施例中,所述方法还包括至少一个目标函数,所述目标函数类型为累计期望函数。利用目标函数累计期望值判定策略实际执行效果和期望的拟合程度,所述目标函数类型为累计期望回报函数,公式表示为:
Figure 104476DEST_PATH_IMAGE003
其中L t (θ)表示累计的期望回报值,
采用off-policy(离线策略学习)的学习方式,即学习和采样不是一个策略,其中rt定义为新策略和旧策略的重要性权重,具体如下:
Figure 626724DEST_PATH_IMAGE004
Figure 59979DEST_PATH_IMAGE005
则为优势估计函数:
Figure 9481DEST_PATH_IMAGE006
Figure 895397DEST_PATH_IMAGE007
是一个固定系数,取值范围通常为0<
Figure 221336DEST_PATH_IMAGE007
<1。clip是裁剪操作,通过clip处理将
Figure 512028DEST_PATH_IMAGE008
约束在
Figure 632431DEST_PATH_IMAGE009
Figure 412168DEST_PATH_IMAGE010
之间,也就是:
Figure 400852DEST_PATH_IMAGE011
Min操作是取两者中较小的值,也就是选择
Figure 418487DEST_PATH_IMAGE012
中的较小值。
在一些实施例中,所述处理方法的网络学习结构是基于PPO(基于深度增强学习,Proximal Policy Optimization)等算法进行学习训练,步骤包括:
1:接收策略θ,
Figure 100004DEST_PATH_IMAGE013
,其中θ表示:策略近似函数的更新后参数,
Figure 101458DEST_PATH_IMAGE013
表示策略近似函数的更新前参数;
2: 初始化策略参数θ,
Figure 362675DEST_PATH_IMAGE013
3:重复动作循环
2.1:重复每个Actor,收集数据:重复T次,每次使用
Figure 765975DEST_PATH_IMAGE013
进行决策,计算每一步中优势估计
Figure 618393DEST_PATH_IMAGE014
2.2:迭代K次,训练网络,每次使用小批量数据求解累计期望回报函数的策略梯度。
4:依据策略参数求解结果更新策略参数至
Figure 575985DEST_PATH_IMAGE013
上述训练过程中,在每轮更新并完成数据获取后,将会用获取数据更新策略参数,致使累计期望回报的目标函数值达到期望。本发明第二方面提出了一种强化学习中超大高精度探索环境下状态空间处理系统,其特征在于,所述系统逻辑构成采用权利要求1~22提及任一方法构成。
本发明第三方面提出了一种应用于超高精度环境探索的电子设备,其特征在于,所述电子设备的状态空间处理方式包括权利要求1~22提及状态空间的处理方式。
本发明的实施例提供了一种超大高精度探索环境下状态空间处理方法,将原空间智能体运动关键物理因素进行倒空间状态处理,放大处理后前后相邻动作状态差异,实现不改变现有马尔可夫模型的而基础上对智能体训练的及时性和准确性的提升。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。
图1-a为根据本发明一实施方式的应用场景示意图;
图1-b为根据本发明一实施方式的智能体在应用场景撞击威胁物的示意图;
图1-c为根据本发明一实施方式的智能体在应用场景抵达目标点的示意图;
图2为根据本发明一实施方式的智能体学习方案流程图;
图3-a为根据本发明一实施方式的Actor网络结构示意图;
图3-b为根据本发明一实施方式的Critic网络结构示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本领域技术人员可以理解,本申请中的“第一”、“第二”等术语仅用于区别不同设备、模块或参数等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
如图1-a和1-b所示,所述处理方式应用在环境范围远大于agent自身尺寸的高精度要求探索背景下,其探索内容包括智能体当前所在位置1,威胁物位置2,目标点位置3,威胁物范围4,前往威胁物范围路径5,前往目标点路径6以及智能体起始位置7。智能体在出发前首先对原空间进行预处理,将状态空间的所述智能体当前位置1,所述威胁物位置2,所述目标点位置3以及所述威胁物范围4等转换为原空间下的相对位置,将原空间下的相对状态转换到倒空间中,作为MDP过程中每个时刻下的网格输入。
在本申请的一个实施例中,为实现在大环境下可准确的对所前往威胁物范围路径5进行调整规避,使所述智能体路线无限拟合于所述前往目标点路径6,如图2所示,学习系统中需要存在至少一个环境引擎对智能体所处环境原空间的位置类和速度类物理量进行捕捉,所述环境引擎捕捉位置类物理量包括但不限于:所述智能体当前时刻位置,所述威胁物位置,所述目标点位置及其各自相对位置。所述环境引擎捕捉速度类物理量包括但不限于:所述智能体运行速度,所述威胁物运行速度及其各自相对速度。所述环境引擎将所述捕捉到的智能体相关物理量传递至空间转换模块,为MDP过程网络输入做准备。
在本申请的一个实施例中,提出了一种强化学习中超高精度探索环境下的状态空间处理方法,包括步骤:
S1:智能体接收原始环境状态;
S2:将原始环境状态进行倒空间结构处理;
S3:处理结果传递至运行网络架构;
S4:运行结果分别传递智能体终端进行动作执行,和运行网络进行分析;
S5:环境引擎收集动作执行后对环境影响;
S6:环境引擎反馈信息至原有状态空间信息收集模块;
S7:原有状态空间信息收集模块将信息分别传送至Reward函数和倒空间处理结构;
S8:倒空间处理结构接收信息后作为新动作模量处理,处理流程返回S2继续执行并循环此过程;
S9:状态空间处理信息输入Reward函数判定结果;
S10:Reward函数输出结果进行网络学习,学习结果同步干预动作执行;
S11:策略执行模块依据倒空间模块输入信息和Reward函数学习结果进行动作执行和校正;
S12:智能体依照策略执行模块指令完成动作。
其中,所述网络架构主要由Actor(执行)和Critic(分析)两部分组成,两部分具体流程如图3-a和3-b所示,如图2所示,智能体根据经过倒空间结构处理过的输入物理量进行策略执行,并将动作对环境的影响的模值输入Reward函数进行目标拟合,拟合结果转换为奖励结果输入至Critic结构进行决策分析学习,以此实现智能体在超大环境下高精度的空间探索。
在本申请的一个实施例中,智能体其倒空间算法流程如下:
1)提取所述原始环境返回的状态空间,将状态空间中的所述智能体位置、速度,所述威胁物的位置、速度以及所述目标点的位置,通过计算所述智能体与所述威胁物的相对位置、相对速度等物理量的方式转化为所述原空间下的相对位置、相对速度。
2)建立所述原始状态空间的倒空间规范,根据倒空间基矢的模的计算公式:
Figure 172051DEST_PATH_IMAGE001
=
Figure 492174DEST_PATH_IMAGE015
完成所述原有状态空间
Figure 125281DEST_PATH_IMAGE016
向倒空间
Figure 960382DEST_PATH_IMAGE017
的转化,其中Si表示原空间物理量模值,Si′表示倒空间物理量模值,min_val为极小值,k为实际环境选取的常数系数。
3)根据建立的倒空间的规范,进行原始状态到倒空间状态的转换,形成新的状态特征。
4)根据所述原有空间状态进行Reward函数设计,并将转换后的倒空间状态输入到强化学习的神经网络中进行训练。
可选的,k值选取需使倒空间中对应原空间中的重要决策趋于的状态数值范围介于0.5~10之间。
可选的,满足倒空间中不同策略轨迹下相同时刻状态区分度不低于倒空间状态数值的数量级的10%,用以保证神经网络在训练过程中能够接收到具有足够区分度的状态值。
在本申请的一个实施例中,所述处理方法内部结构还包括至少一个Reward函数结构,奖励应用场景至少包括如下方面:
1)针对所述智能体躲避所述威胁物之前;
2)针对所述智能体躲避所述威胁物之后;
3)针对所述智能体完成运动动作之后。
可选的,针对所述智能体躲避多数威胁物之前,Reward函数设计原则包括如下方面:
负向:智能体当前距目标点距离与初始时距离目标点距离的比值,当后一时刻所述比值小于前一时刻所述比值时,证明所述智能体处于接近目标点运动状态;
正向:智能体当前距威胁物距离与初始时距威胁物距离的比值,当后一时刻所述比值小于前一时刻所述比值时,证明所述智能体处于远离威胁物运动状态;
负向:智能体当前同威胁物相对速度与初始时刻智能体同威胁物相对速度的比值,当所述比值为负值时,证明所述智能体运动速度方向同威胁物运动速度方向相反。
可选的,上述的正向和负向表示奖励与设定的指标之间的正反比关系,实际设定需综合上述方向进行系数调整。
更优选的,所述智能体完成威胁物躲避前Reward函数可保持为负值。
可选的,针对所述智能体躲避所述威胁物之后,Reward函数设计原则包括如下方面:
负向:智能体当前距目标点距离与初始时距离目标点距离的比值比上个step(行动步骤)距目标点距离更大,则收到两个step下各自的相对距离比之差(前时刻相对距离比-后时刻相对距离比);
正向:智能体当前距目标点距离与初始时距离目标点距离的比值比上个step距目标点距离更小,则收到两个step下各自的相对距离比只差(前时刻相对距离比-后时刻相对距离比);
正向:智能体当前距离目标点的距离小于M时(M为路径之间设定的参考点),增设算法(distance-M)·pow(2)*pl,其中M、pl为根据实际环境而定的可调节系数。
可选的,上述的正向和负向表示奖励与设定的指标之间的正反比关系,实际需综合以上方面进行相应系数调整。
更优选的,所述智能体完成威胁物躲避前Reward函数可保持为正值。
更优选的,所述智能体运动状态处于接近目标点(距离小于M)时可额外进行正向Reward。
可选的,针对所述智能体完成运动动作之后,Reward函数设计原则包括如下方面:
正向:运动结果判定完成对威胁物的躲避且与目标点距离误差满足期望精度时,给予正向Reward;
负向:运动结果判定未完成威胁物的躲避或与目标点距离误差大于期望精度时,给予负向Reward。
可选的,上述正向和负向表示奖励与设定的指标之间的关系,实际需综合以上方面进行相应匹配设定。
更有选的,所述智能体所受的正向R eward程度量级设定可大于所受负向Reward程度量级设定,在本实施例中可参考设定正向Reward(+2000),负向Reward(-100)。
在本申请的实施例中,所述处理方法还包括至少一个目标函数,用以规范智能体策略执行结果和策略分析结果。
所述目标函数的设计原则包括:可直接以优化策略函数为目标,计算累计期望回报的策略梯度,从而求解出使得回报的策略参数。
可选的,定义累计期望回报的目标函数为:
Figure 235505DEST_PATH_IMAGE018
采用off-policy的学习方式,即学习和采样不是一个策略,其中rt定义为新策略和旧策略的重要性权重,具体如下:
Figure 955941DEST_PATH_IMAGE019
可选的,则
Figure 291108DEST_PATH_IMAGE021
为优势估计函数:
Figure 347925DEST_PATH_IMAGE006
Figure 161161DEST_PATH_IMAGE007
是一个固定系数,取值范围通常为0<
Figure 252613DEST_PATH_IMAGE007
<1。clip是裁剪操作,通过clip处理将
Figure 493102DEST_PATH_IMAGE022
约束在
Figure 178161DEST_PATH_IMAGE009
Figure 654142DEST_PATH_IMAGE010
之间,也就是:
Figure 475467DEST_PATH_IMAGE011
Min操作是取两者中较小的值,也就是选择
Figure 745912DEST_PATH_IMAGE012
中的较小值。
优选的,本实施
Figure 918267DEST_PATH_IMAGE007
例取值选取为0.15。
在本发明更优选的实施方式中,所述处理方法还包括网络训练结构。智能体将收集到的信息输入到网络中输出一个行动策略,根据Reward和目标函数进行学习优化,利用PPO等算法进行学习,具体实施步骤如下:
1)接收策略参数θ,
Figure 197939DEST_PATH_IMAGE013
2)初始化策略参数θ,
Figure 873771DEST_PATH_IMAGE013
3)重复动作循环;
4)依据策略参数求解结果更新参数至
Figure 580696DEST_PATH_IMAGE013
其中,算法中θ,
Figure 974768DEST_PATH_IMAGE013
分别指策略近似函数的新参数和旧参数(或相关物理量),即策略执行后更新策略函数和策略执行前的策略函数,所述旧参数基础数据来源依据为所述智能体结构中环境引擎收集,所述新参数来源依据为所述智能体策略执行后返还至环境引擎的结果。
可选的,所述重复动作循环步骤包括:
1)动作重复执行,收集数据,比对优势估计;
2)小量样本迭代,求解策略梯度,依据结果更新策略参数θ。
其中动作重复执行过程,需要对每个动作对应优势估计
Figure 933496DEST_PATH_IMAGE014
进行求解,后对所有求解结果进行比较,挑选满足需求结果。对于挑选结果,后续进行小批量数据迭代,判断累计期望回报函数策略梯度,依据策略梯度更新θ策略参数。
可选的,对于动作执行过程函数结果出现损失(如撞击威胁物或距离目标点偏差大于预期精度等),可定义惩罚方法,包括但不限于无裁剪惩罚或带裁剪惩罚等。
本发明实施例提供了一种强化学习中超高精度探索环境下的状态空间处理方法,本发放通过环境引擎对所述智能体在环境中对于威胁物和目标点的相关物理量进行采集,通过空间状态处理模块建立倒空间物理量规范,将原始空间相关物理量进行倒空间状态处理,以此放大所述智能体在相邻时刻间的动作上物理特征的差异。再通过策略分析和策略执行结构对所述物理特征进行分析和智能体动作执行,动作执行的结果对环境经环境引擎处理为输入条件,输入至内部Reward函数,根据Reward函数输出结果对智能体动作制定相应强化学习策略,保证了智能体可在环境序列间状态差异相对状态自身差异数量级过小的情况下进行有效且准确的学习训练。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (24)

1.一种强化学习中超大高精度探索环境下状态空间处理方法,其特征在于,所述方法包括:
S1:智能体接收原始环境状态;
S2:将原始环境状态进行倒空间结构处理;
S3:处理结果传递至运行网络架构;
S4:运行结果分别传递智能体终端进行动作执行;
S5:环境引擎收集动作执行后对环境影响;
S6:环境引擎反馈信息至原有状态空间信息收集模块;
S7:原有状态空间信息收集模块将信息分别传送至Reward函数和倒空间处理结构;
S8:倒空间处理结构接收信息后作为新动作模量处理,处理流程返回S2继续执行并循环此过程;
S9:状态空间处理信息输入Reward函数判定结果;
S10:Reward函数输出结果进行网络学习,学习结果同步干预动作执行;
S11:策略执行模块依据倒空间模块输入信息和Reward函数学习结果进行动作执行和校正;
S12:智能体依照策略执行模块指令完成动作。
2.根据权利要求1所述的方法,其特征在于,所述运行网络架构包含:策略执行模块以及策略分析模块。
3.根据权利要求2所述的方法,其特征在于,所述策略执行模块以及策略分析模块至少分别含有一个优化模块。
4.根据权利要求2所述的方法,其特征在于,所述策略执行模块以及策略分析模块,同自身所带优化模块具备同时运作的能力。
5.根据权利要求2所述的方法,其特征在于,所述策略执行模块接收来自倒空间状态处理结构的输出结果以及策略分析模块的输出结果。
6.根据权利要求2所述的方法,其特征在于,所述策略执行模块依据策略分析模块输出结果进行动作修正。
7.根据权利要求2所述的方法,其特征在于,所述策略分析模块自身具备自我迭代更新的能力。
8.根据权利要求2所述的方法,其特征在于,所述策略分析模块和所述策略执行模块具备同时运行的能力。
9.根据权利要求2所述的方法,其特征在于,所述策略分析模块接收来自Reward函数输出结果,自身分析结果以及策略执行模块后输出结果。
10.根据权利要求9所述的方法,其特征在于,所述Reward函数设计状态至少包括:威胁物躲避前,威胁物躲避后,智能体动作终止时。
11.根据权利要求9所述的方法,其特征在于,所述Reward函数中,奖励可设置为正向奖励和负向奖励,正向奖励量级大于负向奖励量级。
12.根据权利要求1所述的方法,其特征在于,经倒空间结构处理前的环境状态均定义为原始环境状态。
13.根据权利要求1所述的方法,其特征在于,所述倒空间处理算法流程包括:
提取所述原始环境相关物理量返回的状态空间;
依据倒空间基矢公式建立原始状态空间的倒空间规范:
Figure 746046DEST_PATH_IMAGE001
=
Figure 623872DEST_PATH_IMAGE002
其中,Si表示原空间物理量模值,Si′表示倒空间物理量模值,min_val为极小值,用于防止出现除0操作,k为实际环境选取的常数系数;
依据建立的倒空间规范进行倒空间状态转换,形成新的状态特征;
依据原空间状态进行Reward函数设计,将转换后的倒空间状态输入到强化学习的神经网络中进行训练。
14.根据权利要求1所述的方法,其特征在于,所述原始环境相关物理量包括:智能体位置、智能体速度、威胁物位置、威胁物速度和目标点位置。
15.根据权利要求1所述的方法,其特征在于,所述处理方法中,还包括Actor-Critic强化学习模型,所述学习模型组成至少包括:Actor网络结构和 Critic两大结构。
16.根据权利要求1所述的方法,其特征在于,所述方法还包括:网络训练结构,所述网络训练结构至少包括:Reward函数和目标函数组成。
17.根据权利要求1所述的方法,其特征在于,所述方法还包括至少一个目标函数。
18.根据权利要求17所述的方法,其特征在于,所述目标函数类型为累计期望函数。
19.根据权利要求18所述的方法,其特征在于,所述函数表达式为:
Figure 239662DEST_PATH_IMAGE003
其中L t (θ)表示累计的期望回报值,
Figure 861136DEST_PATH_IMAGE004
是一个固定系数,取值范围通常为0<
Figure 511560DEST_PATH_IMAGE004
<1;
clip是裁剪操作,通过clip处理将
Figure 560287DEST_PATH_IMAGE005
约束在
Figure 928952DEST_PATH_IMAGE006
Figure 354117DEST_PATH_IMAGE007
之间,也就是:
Figure 859048DEST_PATH_IMAGE008
采用off-policy(离线策略学习)的学习方式,即学习和采样不是一个策略,其中rt定义为新策略和旧策略的重要性权重,具体如下:
Figure 78676DEST_PATH_IMAGE009
Figure 669058DEST_PATH_IMAGE010
则为优势估计函数:
Figure 773280DEST_PATH_IMAGE011
20.根据权利要求1所述的方法,其特征在于,所述方法内部至少包含一个网络学习结构。
21.根据权利要求20所述的方法,其特征在于,所述网络学习结构为基于PPO模式进行学习训练。
22.根据权利要求20所述的网络学习结构,其特征在于,所述结构包括步骤:
接收策略θ,
Figure 522930DEST_PATH_IMAGE012
;,
初始化策略参数θ,
Figure 788826DEST_PATH_IMAGE012
重复动作循环;
依据策略参数求解结果更新策略参数至
Figure 256717DEST_PATH_IMAGE013
23.一种强化学习中超大高精度探索环境下状态空间处理系统,其特征在于,所述状态空间处理系统逻辑构成采用权利要求1~22提及任一方法构成。
24.一种应用与超高精度环境探索的电子设备,其特征在于,所述电子设备的状态空间处理方式包括权利要求1~22提及状态空间处理方式。
CN202111035843.1A 2021-09-06 2021-09-06 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 Pending CN113792846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111035843.1A CN113792846A (zh) 2021-09-06 2021-09-06 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111035843.1A CN113792846A (zh) 2021-09-06 2021-09-06 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN113792846A true CN113792846A (zh) 2021-12-14

Family

ID=79182765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111035843.1A Pending CN113792846A (zh) 2021-09-06 2021-09-06 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN113792846A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114053712A (zh) * 2022-01-17 2022-02-18 中国科学院自动化研究所 一种虚拟对象的动作生成方法、装置及设备
CN114626836A (zh) * 2022-05-17 2022-06-14 浙江大学 基于多智能体强化学习的急救后送决策系统及方法
CN114706381A (zh) * 2022-03-04 2022-07-05 达闼机器人股份有限公司 智能体的训练方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
US20200380401A1 (en) * 2019-05-29 2020-12-03 United States Of America As Represented By The Secretary Of The Navy Method for Performing Multi-Agent Reinforcement Learning in the Presence of Unreliable Communications Via Distributed Consensus
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
US20210200923A1 (en) * 2019-12-31 2021-07-01 Electronics And Telecommunications Research Institute Device and method for providing a simulation environment for training ai agent
CN113255890A (zh) * 2021-05-27 2021-08-13 中国人民解放军军事科学院评估论证研究中心 一种基于ppo算法的强化学习智能体训练方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
US20200380401A1 (en) * 2019-05-29 2020-12-03 United States Of America As Represented By The Secretary Of The Navy Method for Performing Multi-Agent Reinforcement Learning in the Presence of Unreliable Communications Via Distributed Consensus
US20210200923A1 (en) * 2019-12-31 2021-07-01 Electronics And Telecommunications Research Institute Device and method for providing a simulation environment for training ai agent
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113255890A (zh) * 2021-05-27 2021-08-13 中国人民解放军军事科学院评估论证研究中心 一种基于ppo算法的强化学习智能体训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANCHNEG LONG ET AL: "Iterative Update and Unified Representation for Multi-Agent Reinforcement Learning", 《ARXIV》, 16 August 2019 (2019-08-16), pages 1 - 7 *
刘强: "基于深度强化学习的群体对抗策略研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》, vol. 2021, no. 02, 15 February 2021 (2021-02-15) *
程玉虎等: "一种自适应强化学习算法在状态空间构建中的应用", 《系统仿真学报》, vol. 18, no. 1, 31 January 2006 (2006-01-31), pages 188 - 191 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114053712A (zh) * 2022-01-17 2022-02-18 中国科学院自动化研究所 一种虚拟对象的动作生成方法、装置及设备
CN114706381A (zh) * 2022-03-04 2022-07-05 达闼机器人股份有限公司 智能体的训练方法、装置、存储介质及电子设备
CN114626836A (zh) * 2022-05-17 2022-06-14 浙江大学 基于多智能体强化学习的急救后送决策系统及方法

Similar Documents

Publication Publication Date Title
CN113792846A (zh) 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备
Liang et al. A deep reinforcement learning network for traffic light cycle control
CN106599368B (zh) 基于改进粒子提议分布和自适应粒子重采样的FastSLAM方法
CN106054170B (zh) 一种约束条件下的机动目标跟踪方法
CN107292344B (zh) 一种基于环境交互的机器人实时控制方法
CN111178385A (zh) 一种鲁棒在线多传感器融合的目标跟踪方法
CN107084714A (zh) 一种基于RoboCup3D的多机器人协作目标定位方法
CN105389807A (zh) 一种融合梯度特征和自适应模板的粒子滤波红外跟踪方法
CN108871365B (zh) 一种航向约束下的状态估计方法及系统
Alsadi et al. Intelligent estimation: A review of theory, applications, and recent advances
CN114743273B (zh) 基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统
CN116630376A (zh) 基于ByteTrack的无人机多目标跟踪方法
Hwang et al. Pheromone-based planning strategies in Dyna-Q learning
CN117711181A (zh) 车联网环境下的交通状况智能监测系统及方法
CN113051983A (zh) 训练大田作物病害识别模型及大田作物病害识别的方法
CN114241006A (zh) 基于机器学习的精子跟踪与自动提取方法
CN112200831B (zh) 一种基于动态模板的密集连接孪生神经网络目标跟踪方法
CN116400639B (zh) 一种plc采集数据智能清洗方法及系统
Abdulkadir et al. Analysis of recurrent neural networks for henon simulated time-series forecasting
CN116437290A (zh) 一种基于csi指纹定位的模型融合方法
CN113920156B (zh) 基于视频目标跟踪的加速度估计方法、系统、设备及介质
CN113030945B (zh) 一种基于线性序贯滤波的相控阵雷达目标跟踪方法
CN115859626A (zh) 针对周期运动目标的自适应无迹卡尔曼滤波器设计方法
Xu et al. TrafficEKF: A learning based traffic aware extended Kalman filter
CN107330468A (zh) 基于切尔诺夫融合准则的多传感器分布式数据融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211214

RJ01 Rejection of invention patent application after publication