CN113792846A - 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 - Google Patents
一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 Download PDFInfo
- Publication number
- CN113792846A CN113792846A CN202111035843.1A CN202111035843A CN113792846A CN 113792846 A CN113792846 A CN 113792846A CN 202111035843 A CN202111035843 A CN 202111035843A CN 113792846 A CN113792846 A CN 113792846A
- Authority
- CN
- China
- Prior art keywords
- space
- state
- environment
- policy
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 65
- 230000009471 action Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 11
- 239000003795 chemical substances by application Substances 0.000 claims description 96
- 238000013461 design Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000386 athletic effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种强化学习中超高精度探索环境下的状态空间处理方法,系统及电子设备,涉及超高精度环境状态空间处理方法、系统及电子设备领域。本发明利用环境引擎对所述智能体在环境中对于威胁物和目标点的相关物理量进行采集,通过空间状态处理模块建立倒空间物理量规范,将原始空间相关物理量进行倒空间状态处理,放大所述智能体在相邻时刻间的动作上物理特征差异。再通过策略分析和策略执行结构对所述物理特征进行分析和智能体动作执行,执行的结果经环境引擎处理输入条件,输入至内部Reward函数,根据Reward函数输出结果对智能体动作制定强化学习策略,保证了智能体可在环境序列间状态差异相对自身差异数量级过小的情况下进行有效的学习训练。
Description
技术领域
本发明涉及机器学习领域,特别是超高精度环境状态空间处理方法、系统及电子设备领域。
背景技术
随着机器学习中强化学习的理念不断升级,市场针对agent(智能体)的学习能力提出了更高的要求。现阶段强化学习中常时使用transition结构进行状态的输入输出和存储,所谓transition结构是指有限马尔可夫决策过程中,将各个时刻的状态、动作、奖惩等作为一组数据结构。随着神经网络的引入强化学习系统,标准的强化学习会将各个时刻的状态输入网络进行对应时刻的动作求解,网络会根据不同的状态输出不同的动作。在范围远超智能体本身尺寸的超大尺寸环境中,由于环境和智能体自身的物理限制,导致智能体的状态空间维度大,为了躲避威胁物,智能体在躲避前后执行不同动作时对应的状态差距小。因此对比网络接收到的输入状态的数量级而言,执行有效动作对应的状态与相邻时刻的状态间的差异远远小于状态自身数量级,进而网络面临空间序列区分度不足导致因反馈智能体信息准确性和准时行不足引起智能体的动作不准确和不及时的问题。
因此,在不改变现有强化学习所用MDP(马尔可夫决策过程,Markov DecisionProcess)模型的前提下,寻求一种可应对超大环境中实现高精度环境探索的智能体学习方式显得尤为重要。
发明内容
本发明实施例提供一种强化学习中超高精度探索环境下的状态空间处理方法,可以在不改变现有马尔可夫决策模型的前提下,实现智能体在范围远超智能体尺寸的环境内准确并及时的进行信息处理和动作执行。
为了解决上述问题,本发明的第一方面提出了一种超大高精度探索环境下状态空间处理方法,包括步骤:
S1:智能体接收原始环境状态;
S2:将原始环境状态进行倒空间结构处理;
S3:处理结果传递至运行网络架构;
S4:运行结果分别传递智能体终端进行动作执行;
S5:环境引擎收集动作执行后对环境影响;
S6:环境引擎反馈信息至原有状态空间信息收集模块;
S7:原有状态空间信息收集模块将信息分别传送至Reward(奖励)函数和倒空间处理结构;
S8:倒空间处理结构接收信息后作为新动作模量处理,处理流程返回S2继续执行并循环此过程;
S9:状态空间处理信息输入Reward函数判定结果;
S10:Reward函数输出结果进行网络学习,学习结果同步干预动作执行;
S11:策略执行模块依据倒空间模块输入信息和Reward函数学习结果进行动作执行和校正;
S12:智能体依照策略执行模块指令完成动作。
在一些实施例中,所述运行网络架构包含:策略执行模块以及策略分析模块。
在一些实施例中,所述测策略执行模块以及策略分析模块至少分别含有一个优化模块。
在一些实施例中,所述策略执行模块以及策略分析模块,同自身所带优化模块具备同时运作的能力。
在一些实施例中,所述策略执行模块接收来自倒空间状态处理结构的输出结果以及策略分析模块的输出结果。
在一些实施例中,所述策略执行模块依据策略分析模块输出结果进行动作修正。
在一些实施例中,所述策略分析模块自身具备自我迭代更新的能力。
在一些实施例中,所述策略分析模块和所述策略执行模块具备同时运行的能力。
在一些实施例中,所述策略分析模块接收来自Reward函数输出结果,自身分析结果以及策略执行模块后输出结果。
在一些实施例中,所述Reward函数设计状态至少包括:威胁物躲避前,威胁物躲避后,智能体动作终止时。
在一些实施例中,所述奖励可设置为正向奖励和负向奖励,正向奖励量级大于负向奖励量级,完成对威胁物的躲避且达到与目标间距离的精度要求时,给予一个明显的正向奖励(+2000),否则给予一个中等的负向奖励(-100)。
在一些实施例中,经倒空间结构处理前的环境状态均定义为原始环境状态。
在一些实施例中,所述方法S2倒空间处理算法流程包括:
1:提取所述原始环境相关物理量返回的状态空间;
3:依据建立的倒空间规范进行倒空间状态转换,形成新的状态特征;
4:依据原空间状态进行Reward(奖励)函数设计,将转换后的倒空间状态输入到强化学习的神经网络中进行训练。
在一些实施例中,所述倒空间处理算法1中所述相关物理量至少包括:智能体位置、智能体速度、威胁物位置、威胁物速度和目标点位置。
在一些实施例中,所述处理方法还包括Actor-Critic强化学习模型,所述学习模型组成至少包括:Actor(策略生成函数)网络结构和 Critic(策略评价函数)两大结构。
在一些实施例中,所述处理方法还包括网络训练结构,所述网络训练结构包括:Reward(奖励)函数和目标函数组成。
在一些实施例中,所述Reward函数中所述威胁物躲避前设计原则包括:
1:负向:智能体当前距目标点距离与初始时距目标点距离的比值;
2:正向:智能体当前距威胁物距离与初始时距威胁物距离的比值;
3:负向:智能体当前与威胁物相对速度与初始时与威胁物相对速度的比值。
所述正向和负向表示奖励与设定指标之间的正反比关系。
在一些实施例中,所述Reward函数中所述威胁物躲避之后设计原则包括:
1:负向:智能体距目标点距离与初始时距离目标点距离的比值比上个步骤距目标点距离更大,则收到两个步骤下各自的相对距离比之差;
2:正向:智能体当前距目标点距离与初始时距离目标点距离的比值比上个步骤距离目标点距离更小,则收到两个步骤下各自的相对距离比之差;
3:正向:当前智能体距离目标点的距离小于M(M为设定点)时,增加一个正向奖励,奖励公式为(distance-M)·pow(2)*pl,其中distance为当前智能体距离目标距离,M、pl为根据实际环境而定的可调节系数。
上述的正向和负向表示奖励与设定的指标之间的正反比例关系,当智能体距离目标点很近时,(距离小于M)则额外增加正向的奖励。
在一些实施例中,所述方法还包括至少一个目标函数,所述目标函数类型为累计期望函数。利用目标函数累计期望值判定策略实际执行效果和期望的拟合程度,所述目标函数类型为累计期望回报函数,公式表示为:
其中L t (θ)表示累计的期望回报值,
采用off-policy(离线策略学习)的学习方式,即学习和采样不是一个策略,其中rt定义为新策略和旧策略的重要性权重,具体如下:
中的较小值。
在一些实施例中,所述处理方法的网络学习结构是基于PPO(基于深度增强学习,Proximal Policy Optimization)等算法进行学习训练,步骤包括:
3:重复动作循环
2.2:迭代K次,训练网络,每次使用小批量数据求解累计期望回报函数的策略梯度。
上述训练过程中,在每轮更新并完成数据获取后,将会用获取数据更新策略参数,致使累计期望回报的目标函数值达到期望。本发明第二方面提出了一种强化学习中超大高精度探索环境下状态空间处理系统,其特征在于,所述系统逻辑构成采用权利要求1~22提及任一方法构成。
本发明第三方面提出了一种应用于超高精度环境探索的电子设备,其特征在于,所述电子设备的状态空间处理方式包括权利要求1~22提及状态空间的处理方式。
本发明的实施例提供了一种超大高精度探索环境下状态空间处理方法,将原空间智能体运动关键物理因素进行倒空间状态处理,放大处理后前后相邻动作状态差异,实现不改变现有马尔可夫模型的而基础上对智能体训练的及时性和准确性的提升。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。
图1-a为根据本发明一实施方式的应用场景示意图;
图1-b为根据本发明一实施方式的智能体在应用场景撞击威胁物的示意图;
图1-c为根据本发明一实施方式的智能体在应用场景抵达目标点的示意图;
图2为根据本发明一实施方式的智能体学习方案流程图;
图3-a为根据本发明一实施方式的Actor网络结构示意图;
图3-b为根据本发明一实施方式的Critic网络结构示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本领域技术人员可以理解,本申请中的“第一”、“第二”等术语仅用于区别不同设备、模块或参数等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
如图1-a和1-b所示,所述处理方式应用在环境范围远大于agent自身尺寸的高精度要求探索背景下,其探索内容包括智能体当前所在位置1,威胁物位置2,目标点位置3,威胁物范围4,前往威胁物范围路径5,前往目标点路径6以及智能体起始位置7。智能体在出发前首先对原空间进行预处理,将状态空间的所述智能体当前位置1,所述威胁物位置2,所述目标点位置3以及所述威胁物范围4等转换为原空间下的相对位置,将原空间下的相对状态转换到倒空间中,作为MDP过程中每个时刻下的网格输入。
在本申请的一个实施例中,为实现在大环境下可准确的对所前往威胁物范围路径5进行调整规避,使所述智能体路线无限拟合于所述前往目标点路径6,如图2所示,学习系统中需要存在至少一个环境引擎对智能体所处环境原空间的位置类和速度类物理量进行捕捉,所述环境引擎捕捉位置类物理量包括但不限于:所述智能体当前时刻位置,所述威胁物位置,所述目标点位置及其各自相对位置。所述环境引擎捕捉速度类物理量包括但不限于:所述智能体运行速度,所述威胁物运行速度及其各自相对速度。所述环境引擎将所述捕捉到的智能体相关物理量传递至空间转换模块,为MDP过程网络输入做准备。
在本申请的一个实施例中,提出了一种强化学习中超高精度探索环境下的状态空间处理方法,包括步骤:
S1:智能体接收原始环境状态;
S2:将原始环境状态进行倒空间结构处理;
S3:处理结果传递至运行网络架构;
S4:运行结果分别传递智能体终端进行动作执行,和运行网络进行分析;
S5:环境引擎收集动作执行后对环境影响;
S6:环境引擎反馈信息至原有状态空间信息收集模块;
S7:原有状态空间信息收集模块将信息分别传送至Reward函数和倒空间处理结构;
S8:倒空间处理结构接收信息后作为新动作模量处理,处理流程返回S2继续执行并循环此过程;
S9:状态空间处理信息输入Reward函数判定结果;
S10:Reward函数输出结果进行网络学习,学习结果同步干预动作执行;
S11:策略执行模块依据倒空间模块输入信息和Reward函数学习结果进行动作执行和校正;
S12:智能体依照策略执行模块指令完成动作。
其中,所述网络架构主要由Actor(执行)和Critic(分析)两部分组成,两部分具体流程如图3-a和3-b所示,如图2所示,智能体根据经过倒空间结构处理过的输入物理量进行策略执行,并将动作对环境的影响的模值输入Reward函数进行目标拟合,拟合结果转换为奖励结果输入至Critic结构进行决策分析学习,以此实现智能体在超大环境下高精度的空间探索。
在本申请的一个实施例中,智能体其倒空间算法流程如下:
1)提取所述原始环境返回的状态空间,将状态空间中的所述智能体位置、速度,所述威胁物的位置、速度以及所述目标点的位置,通过计算所述智能体与所述威胁物的相对位置、相对速度等物理量的方式转化为所述原空间下的相对位置、相对速度。
2)建立所述原始状态空间的倒空间规范,根据倒空间基矢的模的计算公式:
3)根据建立的倒空间的规范,进行原始状态到倒空间状态的转换,形成新的状态特征。
4)根据所述原有空间状态进行Reward函数设计,并将转换后的倒空间状态输入到强化学习的神经网络中进行训练。
可选的,k值选取需使倒空间中对应原空间中的重要决策趋于的状态数值范围介于0.5~10之间。
可选的,满足倒空间中不同策略轨迹下相同时刻状态区分度不低于倒空间状态数值的数量级的10%,用以保证神经网络在训练过程中能够接收到具有足够区分度的状态值。
在本申请的一个实施例中,所述处理方法内部结构还包括至少一个Reward函数结构,奖励应用场景至少包括如下方面:
1)针对所述智能体躲避所述威胁物之前;
2)针对所述智能体躲避所述威胁物之后;
3)针对所述智能体完成运动动作之后。
可选的,针对所述智能体躲避多数威胁物之前,Reward函数设计原则包括如下方面:
负向:智能体当前距目标点距离与初始时距离目标点距离的比值,当后一时刻所述比值小于前一时刻所述比值时,证明所述智能体处于接近目标点运动状态;
正向:智能体当前距威胁物距离与初始时距威胁物距离的比值,当后一时刻所述比值小于前一时刻所述比值时,证明所述智能体处于远离威胁物运动状态;
负向:智能体当前同威胁物相对速度与初始时刻智能体同威胁物相对速度的比值,当所述比值为负值时,证明所述智能体运动速度方向同威胁物运动速度方向相反。
可选的,上述的正向和负向表示奖励与设定的指标之间的正反比关系,实际设定需综合上述方向进行系数调整。
更优选的,所述智能体完成威胁物躲避前Reward函数可保持为负值。
可选的,针对所述智能体躲避所述威胁物之后,Reward函数设计原则包括如下方面:
负向:智能体当前距目标点距离与初始时距离目标点距离的比值比上个step(行动步骤)距目标点距离更大,则收到两个step下各自的相对距离比之差(前时刻相对距离比-后时刻相对距离比);
正向:智能体当前距目标点距离与初始时距离目标点距离的比值比上个step距目标点距离更小,则收到两个step下各自的相对距离比只差(前时刻相对距离比-后时刻相对距离比);
正向:智能体当前距离目标点的距离小于M时(M为路径之间设定的参考点),增设算法(distance-M)·pow(2)*pl,其中M、pl为根据实际环境而定的可调节系数。
可选的,上述的正向和负向表示奖励与设定的指标之间的正反比关系,实际需综合以上方面进行相应系数调整。
更优选的,所述智能体完成威胁物躲避前Reward函数可保持为正值。
更优选的,所述智能体运动状态处于接近目标点(距离小于M)时可额外进行正向Reward。
可选的,针对所述智能体完成运动动作之后,Reward函数设计原则包括如下方面:
正向:运动结果判定完成对威胁物的躲避且与目标点距离误差满足期望精度时,给予正向Reward;
负向:运动结果判定未完成威胁物的躲避或与目标点距离误差大于期望精度时,给予负向Reward。
可选的,上述正向和负向表示奖励与设定的指标之间的关系,实际需综合以上方面进行相应匹配设定。
更有选的,所述智能体所受的正向R eward程度量级设定可大于所受负向Reward程度量级设定,在本实施例中可参考设定正向Reward(+2000),负向Reward(-100)。
在本申请的实施例中,所述处理方法还包括至少一个目标函数,用以规范智能体策略执行结果和策略分析结果。
所述目标函数的设计原则包括:可直接以优化策略函数为目标,计算累计期望回报的策略梯度,从而求解出使得回报的策略参数。
采用off-policy的学习方式,即学习和采样不是一个策略,其中rt定义为新策略和旧策略的重要性权重,具体如下:
在本发明更优选的实施方式中,所述处理方法还包括网络训练结构。智能体将收集到的信息输入到网络中输出一个行动策略,根据Reward和目标函数进行学习优化,利用PPO等算法进行学习,具体实施步骤如下:
3)重复动作循环;
其中,算法中θ, 分别指策略近似函数的新参数和旧参数(或相关物理量),即策略执行后更新策略函数和策略执行前的策略函数,所述旧参数基础数据来源依据为所述智能体结构中环境引擎收集,所述新参数来源依据为所述智能体策略执行后返还至环境引擎的结果。
可选的,所述重复动作循环步骤包括:
1)动作重复执行,收集数据,比对优势估计;
2)小量样本迭代,求解策略梯度,依据结果更新策略参数θ。
可选的,对于动作执行过程函数结果出现损失(如撞击威胁物或距离目标点偏差大于预期精度等),可定义惩罚方法,包括但不限于无裁剪惩罚或带裁剪惩罚等。
本发明实施例提供了一种强化学习中超高精度探索环境下的状态空间处理方法,本发放通过环境引擎对所述智能体在环境中对于威胁物和目标点的相关物理量进行采集,通过空间状态处理模块建立倒空间物理量规范,将原始空间相关物理量进行倒空间状态处理,以此放大所述智能体在相邻时刻间的动作上物理特征的差异。再通过策略分析和策略执行结构对所述物理特征进行分析和智能体动作执行,动作执行的结果对环境经环境引擎处理为输入条件,输入至内部Reward函数,根据Reward函数输出结果对智能体动作制定相应强化学习策略,保证了智能体可在环境序列间状态差异相对状态自身差异数量级过小的情况下进行有效且准确的学习训练。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (24)
1.一种强化学习中超大高精度探索环境下状态空间处理方法,其特征在于,所述方法包括:
S1:智能体接收原始环境状态;
S2:将原始环境状态进行倒空间结构处理;
S3:处理结果传递至运行网络架构;
S4:运行结果分别传递智能体终端进行动作执行;
S5:环境引擎收集动作执行后对环境影响;
S6:环境引擎反馈信息至原有状态空间信息收集模块;
S7:原有状态空间信息收集模块将信息分别传送至Reward函数和倒空间处理结构;
S8:倒空间处理结构接收信息后作为新动作模量处理,处理流程返回S2继续执行并循环此过程;
S9:状态空间处理信息输入Reward函数判定结果;
S10:Reward函数输出结果进行网络学习,学习结果同步干预动作执行;
S11:策略执行模块依据倒空间模块输入信息和Reward函数学习结果进行动作执行和校正;
S12:智能体依照策略执行模块指令完成动作。
2.根据权利要求1所述的方法,其特征在于,所述运行网络架构包含:策略执行模块以及策略分析模块。
3.根据权利要求2所述的方法,其特征在于,所述策略执行模块以及策略分析模块至少分别含有一个优化模块。
4.根据权利要求2所述的方法,其特征在于,所述策略执行模块以及策略分析模块,同自身所带优化模块具备同时运作的能力。
5.根据权利要求2所述的方法,其特征在于,所述策略执行模块接收来自倒空间状态处理结构的输出结果以及策略分析模块的输出结果。
6.根据权利要求2所述的方法,其特征在于,所述策略执行模块依据策略分析模块输出结果进行动作修正。
7.根据权利要求2所述的方法,其特征在于,所述策略分析模块自身具备自我迭代更新的能力。
8.根据权利要求2所述的方法,其特征在于,所述策略分析模块和所述策略执行模块具备同时运行的能力。
9.根据权利要求2所述的方法,其特征在于,所述策略分析模块接收来自Reward函数输出结果,自身分析结果以及策略执行模块后输出结果。
10.根据权利要求9所述的方法,其特征在于,所述Reward函数设计状态至少包括:威胁物躲避前,威胁物躲避后,智能体动作终止时。
11.根据权利要求9所述的方法,其特征在于,所述Reward函数中,奖励可设置为正向奖励和负向奖励,正向奖励量级大于负向奖励量级。
12.根据权利要求1所述的方法,其特征在于,经倒空间结构处理前的环境状态均定义为原始环境状态。
14.根据权利要求1所述的方法,其特征在于,所述原始环境相关物理量包括:智能体位置、智能体速度、威胁物位置、威胁物速度和目标点位置。
15.根据权利要求1所述的方法,其特征在于,所述处理方法中,还包括Actor-Critic强化学习模型,所述学习模型组成至少包括:Actor网络结构和 Critic两大结构。
16.根据权利要求1所述的方法,其特征在于,所述方法还包括:网络训练结构,所述网络训练结构至少包括:Reward函数和目标函数组成。
17.根据权利要求1所述的方法,其特征在于,所述方法还包括至少一个目标函数。
18.根据权利要求17所述的方法,其特征在于,所述目标函数类型为累计期望函数。
20.根据权利要求1所述的方法,其特征在于,所述方法内部至少包含一个网络学习结构。
21.根据权利要求20所述的方法,其特征在于,所述网络学习结构为基于PPO模式进行学习训练。
23.一种强化学习中超大高精度探索环境下状态空间处理系统,其特征在于,所述状态空间处理系统逻辑构成采用权利要求1~22提及任一方法构成。
24.一种应用与超高精度环境探索的电子设备,其特征在于,所述电子设备的状态空间处理方式包括权利要求1~22提及状态空间处理方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111035843.1A CN113792846A (zh) | 2021-09-06 | 2021-09-06 | 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111035843.1A CN113792846A (zh) | 2021-09-06 | 2021-09-06 | 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113792846A true CN113792846A (zh) | 2021-12-14 |
Family
ID=79182765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111035843.1A Pending CN113792846A (zh) | 2021-09-06 | 2021-09-06 | 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792846A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114053712A (zh) * | 2022-01-17 | 2022-02-18 | 中国科学院自动化研究所 | 一种虚拟对象的动作生成方法、装置及设备 |
CN114626836A (zh) * | 2022-05-17 | 2022-06-14 | 浙江大学 | 基于多智能体强化学习的急救后送决策系统及方法 |
CN114706381A (zh) * | 2022-03-04 | 2022-07-05 | 达闼机器人股份有限公司 | 智能体的训练方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
US20200380401A1 (en) * | 2019-05-29 | 2020-12-03 | United States Of America As Represented By The Secretary Of The Navy | Method for Performing Multi-Agent Reinforcement Learning in the Presence of Unreliable Communications Via Distributed Consensus |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
US20210200923A1 (en) * | 2019-12-31 | 2021-07-01 | Electronics And Telecommunications Research Institute | Device and method for providing a simulation environment for training ai agent |
CN113255890A (zh) * | 2021-05-27 | 2021-08-13 | 中国人民解放军军事科学院评估论证研究中心 | 一种基于ppo算法的强化学习智能体训练方法 |
-
2021
- 2021-09-06 CN CN202111035843.1A patent/CN113792846A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
US20200380401A1 (en) * | 2019-05-29 | 2020-12-03 | United States Of America As Represented By The Secretary Of The Navy | Method for Performing Multi-Agent Reinforcement Learning in the Presence of Unreliable Communications Via Distributed Consensus |
US20210200923A1 (en) * | 2019-12-31 | 2021-07-01 | Electronics And Telecommunications Research Institute | Device and method for providing a simulation environment for training ai agent |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113255890A (zh) * | 2021-05-27 | 2021-08-13 | 中国人民解放军军事科学院评估论证研究中心 | 一种基于ppo算法的强化学习智能体训练方法 |
Non-Patent Citations (3)
Title |
---|
JIANCHNEG LONG ET AL: "Iterative Update and Unified Representation for Multi-Agent Reinforcement Learning", 《ARXIV》, 16 August 2019 (2019-08-16), pages 1 - 7 * |
刘强: "基于深度强化学习的群体对抗策略研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》, vol. 2021, no. 02, 15 February 2021 (2021-02-15) * |
程玉虎等: "一种自适应强化学习算法在状态空间构建中的应用", 《系统仿真学报》, vol. 18, no. 1, 31 January 2006 (2006-01-31), pages 188 - 191 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114053712A (zh) * | 2022-01-17 | 2022-02-18 | 中国科学院自动化研究所 | 一种虚拟对象的动作生成方法、装置及设备 |
CN114706381A (zh) * | 2022-03-04 | 2022-07-05 | 达闼机器人股份有限公司 | 智能体的训练方法、装置、存储介质及电子设备 |
CN114626836A (zh) * | 2022-05-17 | 2022-06-14 | 浙江大学 | 基于多智能体强化学习的急救后送决策系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113792846A (zh) | 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 | |
Liang et al. | A deep reinforcement learning network for traffic light cycle control | |
CN106599368B (zh) | 基于改进粒子提议分布和自适应粒子重采样的FastSLAM方法 | |
CN106054170B (zh) | 一种约束条件下的机动目标跟踪方法 | |
CN107292344B (zh) | 一种基于环境交互的机器人实时控制方法 | |
CN111178385A (zh) | 一种鲁棒在线多传感器融合的目标跟踪方法 | |
CN107084714A (zh) | 一种基于RoboCup3D的多机器人协作目标定位方法 | |
CN105389807A (zh) | 一种融合梯度特征和自适应模板的粒子滤波红外跟踪方法 | |
CN108871365B (zh) | 一种航向约束下的状态估计方法及系统 | |
Alsadi et al. | Intelligent estimation: A review of theory, applications, and recent advances | |
CN114743273B (zh) | 基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统 | |
CN116630376A (zh) | 基于ByteTrack的无人机多目标跟踪方法 | |
Hwang et al. | Pheromone-based planning strategies in Dyna-Q learning | |
CN117711181A (zh) | 车联网环境下的交通状况智能监测系统及方法 | |
CN113051983A (zh) | 训练大田作物病害识别模型及大田作物病害识别的方法 | |
CN114241006A (zh) | 基于机器学习的精子跟踪与自动提取方法 | |
CN112200831B (zh) | 一种基于动态模板的密集连接孪生神经网络目标跟踪方法 | |
CN116400639B (zh) | 一种plc采集数据智能清洗方法及系统 | |
Abdulkadir et al. | Analysis of recurrent neural networks for henon simulated time-series forecasting | |
CN116437290A (zh) | 一种基于csi指纹定位的模型融合方法 | |
CN113920156B (zh) | 基于视频目标跟踪的加速度估计方法、系统、设备及介质 | |
CN113030945B (zh) | 一种基于线性序贯滤波的相控阵雷达目标跟踪方法 | |
CN115859626A (zh) | 针对周期运动目标的自适应无迹卡尔曼滤波器设计方法 | |
Xu et al. | TrafficEKF: A learning based traffic aware extended Kalman filter | |
CN107330468A (zh) | 基于切尔诺夫融合准则的多传感器分布式数据融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211214 |
|
RJ01 | Rejection of invention patent application after publication |