CN116384469B - 一种智能体策略生成方法、装置、计算机设备和存储介质 - Google Patents
一种智能体策略生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116384469B CN116384469B CN202310652725.8A CN202310652725A CN116384469B CN 116384469 B CN116384469 B CN 116384469B CN 202310652725 A CN202310652725 A CN 202310652725A CN 116384469 B CN116384469 B CN 116384469B
- Authority
- CN
- China
- Prior art keywords
- track
- cache module
- value
- expert
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000003993 interaction Effects 0.000 claims description 90
- 238000012549 training Methods 0.000 claims description 48
- 230000007613 environmental effect Effects 0.000 claims description 42
- 239000003795 chemical substances by application Substances 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 14
- 230000006399 behavior Effects 0.000 claims description 12
- 230000000737 periodic effect Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 239000003550 marker Substances 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 7
- 238000002372 labelling Methods 0.000 abstract description 3
- 230000001419 dependent effect Effects 0.000 abstract 1
- 238000005070 sampling Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000002787 reinforcement Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本申请涉及一种智能体策略生成方法、装置、计算机设备和存储介质,构建了专家缓存模块和在线缓存模块,分别用于存储次优示例样本和次优示例以外的样本;在仅利用单条次优示例轨迹的基础上,还将探索过程中采集到的较好的示例轨迹加入专家缓存模块中,以充分挖掘智能体自身生成的较好历史轨迹,不仅充分利用了次优示例轨迹,而且随着较好历史轨迹的加入,还能摆脱次优示例的性能限制,使得策略网络能从专家缓存模块中学习到更好的策略参数。此外,在将示例轨迹加入专家缓存模块之前进行奖励重标记,赋予次优示例和较优示例以正奖励,通过结合采样奖励重标记以及基于预测模型的探索方法来避免后期过多依赖历史轨迹,而陷入局部次优。
Description
技术领域
本申请涉及智能体技术领域,特别是涉及一种智能体策略生成方法、装置、计算机设备和存储介质。
背景技术
在强化学习问题中,智能体通常会不断与环境进行交互,并以最大化环境反馈的累积奖励为目标,更新自身的行为策略。然而,在许多复杂情况下,环境往往很少会反馈奖励,进而导致智能体无法获取到有效的信息来更新自身行为策略,这种很难直接从环境中获取到奖励的问题即为稀疏奖励问题。
在奖励通常是延迟且稀疏的现实世界应用时,难以通过随机探索方法获得包含有效奖励信息的状态-动作样本,导致需要通过昂贵代价来产生大量交互数据,且甚至会出现无法学习到有效策略的情况。为提高采样效率,相关工作尝试在深度强化学习(DRL)的学习过程中引入监督学习的方式基于大量专家示例轨迹数据模仿专家策略来加速其学习过程,但是其受限于专家示例的性能表现,此外现实世界应用难以提供大量的专家示例轨迹,仅能提供少量次优的轨迹数据。
有相关工作采用生成对抗模型学习(GAIL)的方法来利用专家示例来解决奖励稀疏的现实应用问题;但是其奖励函数和策略是交替进行学习的,这种双循环学习的架构,存在较大的不稳定性和脆弱性,且需要大量的交互数据。有相关工作在GAIL的架构基础上采用固定奖励函数的方式,将奖励学习和强化学习的交替循环简化为了强化学习的单循环,避免了双循环学习的架构带来的不稳定性,大大提高了训练效率,但是其和GAIL一样受限于专家示例的性能,无法有效应对次优示例的情况。
有相关工作采用自模仿学习的思路来解决稀疏奖励的现实应用问题,具体来说,存储在交互过程中发现的较优的历史轨迹,并从中进行学习,但是该类算法易受历史轨迹的影响,陷入局部次优。
有相关工作在DRL算法的基础上考虑改造缓存模块来利用最优示例数据或者次优示例数据,但是为了避免次优示例的影响,仅仅将其简单地用于特征学习阶段,除了存在需要大量示例的缺点,还难以应对复杂的难探索环境。
发明内容
基于此,有必要针对上述技术问题,提供一种智能体策略生成方法、装置、计算机设备和存储介质。
一种智能体策略生成方法,所述方法包括:
根据初始交互轨迹对预先构建的在线缓存模块进行初始化;所述初始交互轨迹是指未经训练的策略网络直接与环境进行交互产生的交互轨迹;
获取单条次优示例轨迹,对所述次优示例轨迹进行奖励重标记,根据得到的重标记示例轨迹对预先构建的专家缓存模块进行初始化;其中,奖励重标记的步骤包括:将示例轨迹中的前(N-1)个样本的环境奖励值替换为对应的更新奖励值;其中,前(N-1)个样本中每一样本的更新奖励值一致且小于最后一个样本的环境奖励值;N为专家缓存模块中周期奖励值排名前m的示例轨迹的平均长度,m为预设的超参数;
在指定的预训练步数下,从初始化在线缓存模块和初始化专家缓存模块中抽取样本,完成策略网络的预训练;
当训练步数大于指定的预训练步数时,智能体采用策略网络与环境进行交互,得到交互轨迹;
当所述交互轨迹的周期奖励值不小于设定值时,对所述交互轨迹进行奖励重标记,得到重标记交互轨迹并存入专家缓存模块;其中,所述周期奖励值为交互轨迹中所有样本的环境奖励值之和;
当所述交互轨迹的周期奖励值小于设定值时,将所述交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块;
从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,利用更新好的策略网络生成智能体的行为策略。
一种智能体策略生成装置,所述装置包括:
在线缓存模块初始化模块,用于根据初始交互轨迹对预先构建的在线缓存模块进行初始化;所述初始交互轨迹是指未经训练的策略网络直接与环境进行交互产生的交互轨迹;
专家缓存模块初始化模块,用于获取单条次优示例轨迹,对所述次优示例轨迹进行奖励重标记,根据得到的重标记示例轨迹对预先构建的专家缓存模块进行初始化;其中,奖励重标记的步骤包括:将示例轨迹中的状态-动作序列中的前(N-1)个样本的环境奖励值替换为对应的更新奖励值;其中,前(N-1)个样本中每一样本的更新奖励值一致且小于最后一个样本的环境奖励值;所述更新奖励值是根据样本原本的环境奖励值得到的;N为专家缓存模块中周期奖励值排名前m的示例轨迹的平均长度,m为预设的超参数;
策略网络预训练模块,用于在指定的预训练步数下,从初始化在线缓存模块和初始化专家缓存模块中抽取样本,完成策略网络的预训练;
交互模块,用于当训练步数大于指定的预训练步数时,智能体采用策略网络与环境进行交互,得到交互轨迹;
专家缓存模块更新模块,用于当所述交互轨迹的周期奖励值不小于设定值时,对所述交互轨迹进行奖励重标记,得到重标记交互轨迹并存入专家缓存模块;其中,所述周期奖励值为交互轨迹中所有样本的环境奖励值之和;
在线缓存模块更新模块,用于当所述交互轨迹的周期奖励值小于设定值时,将所述交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块;
行为策略生成模块,用于从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,利用更新好的策略网络生成智能体的行为策略。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法中的步骤。
上述智能体策略生成方法、装置、计算机设备和存储介质,构建了专家缓存模块和在线缓存模块,分别用于存储次优示例样本和次优示例以外的样本;由于现实世界应用仅能提供少量次优的示例轨迹数据,本方案在仅利用单条次优示例轨迹的基础上,还将探索过程中采集到的较好的示例轨迹加入专家缓存模块中,以充分挖掘智能体自身生成的较好历史轨迹,不仅充分利用了次优示例轨迹,而且随着较好历史轨迹的加入,还能摆脱次优示例的性能限制,使得策略网络能从专家缓存模块中学习到更好的策略参数。此外,本方案在将示例轨迹加入专家缓存模块之前进行奖励重标记,赋予次优示例和较优示例以正奖励,可以有效应对极度稀疏奖励的环境;鲁棒性强,可以应对不同等级性能表现的次优示例;能够有效利用次优示例,提高采样效率。此外,本发明结合采样奖励重标记以及基于预测模型的探索方法来避免后期过多依赖历史轨迹,而陷入局部次优。
附图说明
图1为一个实施例中智能体策略生成方法的流程示意图;
图2为一个实施例中本方法的整体框架示意图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种智能体策略生成方法,包括以下步骤:
步骤102,根据初始交互轨迹对预先构建的在线缓存模块进行初始化。
其中,初始交互轨迹是指未经训练的策略网络直接与环境进行交互产生的交互轨迹。
步骤104,获取单条次优示例轨迹,对次优示例轨迹进行奖励重标记,根据得到的重标记示例轨迹对预先构建的专家缓存模块进行初始化。
次优示例轨迹是指次优策略下采集到智能体与环境进行交互而形成的状态-动作序列,次优策略是指性能未达到最优的策略。智能体通过不断地与环境进行交互来收集经验,并从经验中进行学习,对于一个给定的状态s,智能体采取动作a后,环境将跳转到下一个状态s′,并返回一个奖励r,这样就得到了一条经验数据。智能体与环境交互过程中的全部状态和动作的序列共同构成了此次交互的一条轨迹,可以表示为{(s1,a1,r1,s2),(s2,a2,r2,s3),...,(sn,an,rn,sn)。其中,s表示状态信息,a表示动作信息,r表示动作的环境奖励值。
其中,奖励重标记的步骤包括:将示例轨迹中的状态-动作序列中的前(N-1)个样本的环境奖励值替换为对应的更新奖励值。其中,前(N-1)个样本中每一样本的更新奖励值小于最后一个样本的环境奖励值,更新奖励值是根据样本原本的环境奖励值得到的;N为专家缓存模块中周期奖励值排名前m的示例轨迹的平均长度,m为预设的超参数。只对前(N-1)个样本进行修改,主要是考虑到轨迹过长,会有一些无意义的样本,无须对其进行奖励修正。维持最后一个样本原奖励,是因为最后一个样本的奖励反映了整条轨迹的性能表现,无需修正。
值得说明的是,假设m为10,那么在最开始,由于专家缓存模块中仅包含一条由重标记示例轨迹,那么此时的N为该示例轨迹中的样本数,随着专家缓存模块中示例轨迹数量的增加,N随之变化,当专家缓存模块中的示例轨迹数达到10条以上之后,N可能还会随着示例轨迹的加入和删除而变化。
因此,将示例轨迹中的前N-1个样本的环境奖励值替换为对应的更新奖励值,不是指示例轨迹中最后一个样本以外的其他样本的环境奖励值进行修改,而是根据专家缓存模块当前存储的示例轨迹的周期奖励值的分布情况先动态调整N值,进而划定当前将要加入专家缓存模块的较优示例轨迹中需要修改奖励值的样本的范围,这样做的好处是:1)可以有效应对极度稀疏奖励的环境;2)鲁棒性强,可以应对不同等级性能表现的次优示例;3)能够有效利用次优示例,提高采样效率。
本方案考虑根据当前场景来动态调整奖励值。本发明涉及的是次优样本,不同样本的性能表现是不一致的,应对根据其性能表现来调整奖励值,以保证其学习的样本的一致性。
步骤106,在指定的预训练步数下,从初始化在线缓存模块和初始化专家缓存模块中抽取样本,完成策略网络的预训练。
除了DRL更新的1-step损失函数以外,为应对稀疏奖励,可以在Critic网络更新中增加N-step损失;为防止远离示例状态,在Actor网络更新中行为克隆损失。
具体是分别从初始化在线缓存模块和初始化专家缓存模块中抽取等量样本,在步骤106中,策略网络完成第一阶段的训练。
步骤108,当训练步数大于指定的预训练步数时,智能体采用策略网络与环境进行交互,得到交互轨迹。
步骤110,当交互轨迹的周期奖励值不小于设定值时,对交互轨迹进行奖励重标记,得到重标记交互轨迹并存入专家缓存模块。
其中,周期奖励值为交互轨迹中所有样本的环境奖励值之和。
当交互轨迹的周期奖励值不小于设定值时,说明挖掘到了智能体自身生成的较好历史示例轨迹。在训练步数大于指定的预训练步数之后,策略网络继续从不断更新的两个缓存模块中抽取样本进行学习,且随着较好历史轨迹的加入,逐渐摆脱了次优示例的性能限制,使得策略网络能从专家缓存模块中学习得到更好的策略参数。通过利用自身的成功轨迹,可以有效应对次优示例过少的问题。
步骤112,当交互轨迹的周期奖励值小于设定值时,将交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块。
当交互轨迹的周期奖励值小于设定值时,说明智能体在朝着次优示例以外的区域进行探索,为鼓励智能体向外探索从而进一步摆脱次优示例的性能限制,本方案采用内在的探索奖励值来修正样本的奖励值,进一步增强在稀疏奖励环境下的探索能力。
步骤114,从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,利用更新好的策略网络生成智能体的行为策略。
至此,策略网络完成第二阶段的训练。
为了解决策略-奖励双循环学习带来的不稳定性,可以采用基于固定奖励函数的机制,来避免奖励函数的学习。
在一个实施例中,更新奖励值的计算步骤包括:
根据示例轨迹的最后一个样本的环境奖励值,以及当前策略下获取的预设数量示例轨迹的平均周期奖励值,计算得到示例轨迹中前(N-1)个样本的更新奖励值:
,
其中为更新奖励值,/>为示例轨迹的最后一个样本的环境奖励值,/>为预设数量示例轨迹的平均周期奖励值。
在一个实施例中,设定值是专家缓存模块中的最低周期奖励值。
在一个实施例中,探索模块包括编码器、环境模型和反向动作预测模型,探索模块和策略网络共用一个环境模型,环境模型是通过专家缓存模块中的样本训练的。可以知道,在第一阶段中,环境模型也参与了预训练,在第二阶段中策略网络和探索模块一并参与训练。
将交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块包括:
通过编码器将交互轨迹中的状态-动作样本进行编码,得到编码后的当前状态-动作特征,将编码后的当前状态-动作特征输入环境模型,得到下一时刻的预测状态特征;将预测状态特征和对应的编码后的当前状态特征输入反向动作预测模型,得到预测的当前动作特征;
根据预测的当前动作特征和编码后的当前动作特征的差异调整环境模型的网络参数,以及将下一时刻的预测状态特征和真实状态特征的差异的2范数平方作为探索奖励值,即通过对于状态的预测误差来构建内在奖励以驱动智能体探索;
根据探索奖励值与对应样本的环境奖励值加权求和得到样本的重构奖励值,以此得到重构交互轨迹并存入在线缓存模块。
设置反向动作预测模型的目的在于验证环境模型的预测效果,用于避免无关样本的干扰以辅助提高环境模型的训练效果。为加速探索模块的环境模型训练,用次优示例轨迹和较优示例轨迹来训练环境模型,此外,为了充分利用环境动力学模型,可以采用Model-based的深度学习方法来复用该模型。
在此实施例中,探索模块用于将周期奖励值低于设定值即性能表现相对较差的交互轨迹赋予内在奖励再存入在线缓存模块,进而策略网络再从更新的两个缓存模块中抽取样本进行训练更新,直至损失函数值满足预设条件以此结束策略网络的训练,如此构成一个循环,能够有效提高采集的示例轨迹的利用率。同时为了更充分的探索专家缓存模块中样本分布以外的区域,会从专家缓存中抽取样本训练策略网络和探索模块共用的环境模型。
在一个实施例中,在从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,得到更新好的策略网络之后,还包括:
仅从更新后的专家缓存模块中抽取样本训练探索模块,直到环境模型收敛,说明探索模块的训练完成。
也就是说,本方案可分为三个阶段:
第一阶段:预训练,从用随机交互数据初始化的在线缓存模块,以及用单条次优示例轨迹初始化的专家缓存模块中抽取数据,进行策略网络的预训练;
第二阶段:模仿和探索并重,同时从专家缓存模块和在线缓存模块中抽取样本对策略网络和探索模块进行训练;其中,探索模块的训练样本在第二阶段仅来自专家缓存模块;
第三阶段:以探索为主,慢慢变成仅从在线缓存模块中抽取样本对探索模块进行训练。
第三阶段是也是从在线缓存模块和专家缓存模块中抽取样本,不过采样比例控制模块将逐渐降低从专家缓存模块中抽取的比例,使得慢慢变成了仅从在线缓存模块中抽取;
第三阶段同样也会对环境模型进行训练,因为只要有样本喂给策略网络,梯度就会传递给环境模型。
在一个实施例中,当将重标记交互轨迹存入专家缓存模块时,若专家缓存模块中的示例轨迹所占容量超过预设值,删除专家缓存模块中周期奖励值最低的示例轨迹。
具体来说将探索过程中收集到的性能超过某个阈值的轨迹数据加入到专家缓存模块中,同时由于专家缓存模块的容量是有限的,所以性能较差的轨迹数据将会被删除。且随着学到的策略性能逐渐逼近专家缓存模块中示例的性能表现,将逐渐降低从专家缓存模块中抽取示例的比例。
如图2所示,提供本方法的整体框架示意图。
提供本方法的算法伪代码,如下所示:
,
其中,expert buffer为专家缓存模块,Online buffer为在线缓存模块。其中,预训练阶段,也可以同时训练探索模块和策略网络。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种智能体策略生成装置,包括:
在线缓存模块初始化模块,用于根据初始交互轨迹对预先构建的在线缓存模块进行初始化;初始交互轨迹是指未经训练的策略网络直接与环境进行交互产生的交互轨迹;
专家缓存模块初始化模块,用于获取单条次优示例轨迹,对次优示例轨迹进行奖励重标记,根据得到的重标记示例轨迹对预先构建的专家缓存模块进行初始化;其中,奖励重标记的步骤包括:将示例轨迹中的状态-动作序列中的前(N-1)个样本的环境奖励值替换为对应的更新奖励值;其中,前(N-1)个样本中每一样本的更新奖励值一致且小于最后一个样本的环境奖励值;更新奖励值是根据样本原本的环境奖励值得到的;N为专家缓存模块中周期奖励值排名前m的示例轨迹的平均长度,m为预设的超参数;
策略网络预训练模块,用于在指定的预训练步数下,从初始化在线缓存模块和初始化专家缓存模块中抽取样本,完成策略网络的预训练;
交互模块,用于当训练步数大于指定的预训练步数时,智能体采用策略网络与环境进行交互,得到交互轨迹;
专家缓存模块更新模块,用于当交互轨迹的周期奖励值不小于设定值时,对交互轨迹进行奖励重标记,得到重标记交互轨迹并存入专家缓存模块;其中,周期奖励值为交互轨迹中所有样本的环境奖励值之和;
在线缓存模块更新模块,用于当交互轨迹的周期奖励值小于设定值时,将交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块;
行为策略生成模块,用于从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,利用更新好的策略网络生成智能体的行为策略。
关于智能体策略生成装置的具体限定可以参见上文中对于智能体策略生成方法的限定,在此不再赘述。上述智能体策略生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储轨迹数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种智能体策略生成方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种智能体策略生成方法,其特征在于,所述方法包括:
根据初始交互轨迹对预先构建的在线缓存模块进行初始化;所述初始交互轨迹是指未经训练的策略网络直接与环境进行交互产生的交互轨迹;
获取单条次优示例轨迹,对所述次优示例轨迹进行奖励重标记,根据得到的重标记示例轨迹对预先构建的专家缓存模块进行初始化;其中,奖励重标记的步骤包括:将示例轨迹中的前(N-1)个样本的环境奖励值替换为对应的更新奖励值;其中,前(N-1)个样本中每一样本的更新奖励值一致且小于最后一个样本的环境奖励值;N为专家缓存模块中周期奖励值排名前m的示例轨迹的平均长度,m为预设的超参数;
在指定的预训练步数下,从初始化在线缓存模块和初始化专家缓存模块中抽取样本,完成策略网络的预训练;
当训练步数大于指定的预训练步数时,智能体采用策略网络与环境进行交互,得到交互轨迹;
当所述交互轨迹的周期奖励值不小于设定值时,对所述交互轨迹进行奖励重标记,得到重标记交互轨迹并存入专家缓存模块;其中,所述周期奖励值为交互轨迹中所有样本的环境奖励值之和;
当所述交互轨迹的周期奖励值小于设定值时,将所述交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块;
从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,利用更新好的策略网络生成智能体的行为策略。
2.根据权利要求1所述的方法,其特征在于,所述更新奖励值的计算步骤包括:
根据示例轨迹的最后一个样本的环境奖励值,以及当前策略下获取的预设数量示例轨迹的平均周期奖励值,计算得到示例轨迹中前(N-1)个样本的更新奖励值:
,
其中为更新奖励值,/>为示例轨迹的最后一个样本的环境奖励值,/>为预设数量示例轨迹的平均周期奖励值。
3.根据权利要求1所述的方法,其特征在于,所述设定值是专家缓存模块中的最低周期奖励值。
4.根据权利要求1所述的方法,其特征在于,所述探索模块包括编码器、环境模型和反向动作预测模型;所述探索模块和所述策略网络共用一个环境模型;所述环境模型是通过专家缓存模块中的样本训练的;
将所述交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块包括:
通过编码器将所述交互轨迹中的状态-动作样本进行编码,得到编码后的当前状态-动作特征;
将所述编码后的当前状态-动作特征输入环境模型,得到下一时刻的预测状态特征;
将所述预测状态特征和对应的编码后的当前状态特征输入反向动作预测模型,得到预测的当前动作特征;
根据预测的当前动作特征和编码后的当前动作特征的差异调整环境模型的网络参数,以及将下一时刻的预测状态特征和真实状态特征的差异的2范数平方作为探索奖励值;
根据所述探索奖励值与对应样本的环境奖励值加权求和得到样本的重构奖励值,以此得到重构交互轨迹并存入在线缓存模块。
5.根据权利要求1所述的方法,其特征在于,在从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,得到更新好的策略网络之后,还包括:
仅从更新后的专家缓存模块中抽取样本训练探索模块,直到环境模型收敛。
6.根据权利要求1所述的方法,其特征在于,当将重标记交互轨迹存入专家缓存模块时,若所述专家缓存模块中的示例轨迹所占容量超过预设值,删除所述专家缓存模块中周期奖励值最低的示例轨迹。
7.一种智能体策略生成装置,其特征在于,所述装置包括:
在线缓存模块初始化模块,用于根据初始交互轨迹对预先构建的在线缓存模块进行初始化;所述初始交互轨迹是指未经训练的策略网络直接与环境进行交互产生的交互轨迹;
专家缓存模块初始化模块,用于获取单条次优示例轨迹,对所述次优示例轨迹进行奖励重标记,根据得到的重标记示例轨迹对预先构建的专家缓存模块进行初始化;其中,奖励重标记的步骤包括:将示例轨迹中的状态-动作序列中的前(N-1)个样本的环境奖励值替换为对应的更新奖励值;其中,前(N-1)个样本中每一样本的更新奖励值一致且小于最后一个样本的环境奖励值;所述更新奖励值是根据样本原本的环境奖励值得到的;N为专家缓存模块中周期奖励值排名前m的示例轨迹的平均长度,m为预设的超参数;
策略网络预训练模块,用于在指定的预训练步数下,从初始化在线缓存模块和初始化专家缓存模块中抽取样本,完成策略网络的预训练;
交互模块,用于当训练步数大于指定的预训练步数时,智能体采用策略网络与环境进行交互,得到交互轨迹;
专家缓存模块更新模块,用于当所述交互轨迹的周期奖励值不小于设定值时,对所述交互轨迹进行奖励重标记,得到重标记交互轨迹并存入专家缓存模块;其中,所述周期奖励值为交互轨迹中所有样本的环境奖励值之和;
在线缓存模块更新模块,用于当所述交互轨迹的周期奖励值小于设定值时,将所述交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块;
行为策略生成模块,用于从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,利用更新好的策略网络生成智能体的行为策略。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310652725.8A CN116384469B (zh) | 2023-06-05 | 2023-06-05 | 一种智能体策略生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310652725.8A CN116384469B (zh) | 2023-06-05 | 2023-06-05 | 一种智能体策略生成方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116384469A CN116384469A (zh) | 2023-07-04 |
CN116384469B true CN116384469B (zh) | 2023-08-08 |
Family
ID=86971558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310652725.8A Active CN116384469B (zh) | 2023-06-05 | 2023-06-05 | 一种智能体策略生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116384469B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN109670596A (zh) * | 2018-12-14 | 2019-04-23 | 启元世界(北京)信息技术服务有限公司 | 非完全信息环境下的博弈决策方法、系统和智能体 |
CN110882542A (zh) * | 2019-11-13 | 2020-03-17 | 广州多益网络股份有限公司 | 游戏智能体的训练方法、装置、设备及存储介质 |
CN111260040A (zh) * | 2020-05-06 | 2020-06-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于内在奖励的视频游戏决策方法 |
CN112313044A (zh) * | 2018-06-15 | 2021-02-02 | 谷歌有限责任公司 | 用于机器人操纵的深度强化学习 |
CN112507622A (zh) * | 2020-12-16 | 2021-03-16 | 中国人民解放军国防科技大学 | 一种基于强化学习的反无人机任务分配方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113885329A (zh) * | 2021-10-20 | 2022-01-04 | 沈阳化工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN114911969A (zh) * | 2022-05-18 | 2022-08-16 | 南京大学 | 一种基于用户行为模型的推荐策略优化方法和系统 |
CN115965879A (zh) * | 2022-12-12 | 2023-04-14 | 四川观想科技股份有限公司 | 一种稀疏高维状态下不完全信息场景的无人驾驶训练方法 |
CN116187438A (zh) * | 2023-03-07 | 2023-05-30 | 北京航空航天大学 | 智能体探索策略的确定方法、装置、智能体及存储介质 |
CN116187777A (zh) * | 2022-12-28 | 2023-05-30 | 中国航空研究院 | 一种基于sac算法和联盟训练的无人机空战自主决策方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020056299A1 (en) * | 2018-09-14 | 2020-03-19 | Google Llc | Deep reinforcement learning-based techniques for end to end robot navigation |
CA3060900A1 (en) * | 2018-11-05 | 2020-05-05 | Royal Bank Of Canada | System and method for deep reinforcement learning |
-
2023
- 2023-06-05 CN CN202310652725.8A patent/CN116384469B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN112313044A (zh) * | 2018-06-15 | 2021-02-02 | 谷歌有限责任公司 | 用于机器人操纵的深度强化学习 |
CN109670596A (zh) * | 2018-12-14 | 2019-04-23 | 启元世界(北京)信息技术服务有限公司 | 非完全信息环境下的博弈决策方法、系统和智能体 |
CN110882542A (zh) * | 2019-11-13 | 2020-03-17 | 广州多益网络股份有限公司 | 游戏智能体的训练方法、装置、设备及存储介质 |
CN111260040A (zh) * | 2020-05-06 | 2020-06-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于内在奖励的视频游戏决策方法 |
CN112507622A (zh) * | 2020-12-16 | 2021-03-16 | 中国人民解放军国防科技大学 | 一种基于强化学习的反无人机任务分配方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113885329A (zh) * | 2021-10-20 | 2022-01-04 | 沈阳化工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN114911969A (zh) * | 2022-05-18 | 2022-08-16 | 南京大学 | 一种基于用户行为模型的推荐策略优化方法和系统 |
CN115965879A (zh) * | 2022-12-12 | 2023-04-14 | 四川观想科技股份有限公司 | 一种稀疏高维状态下不完全信息场景的无人驾驶训练方法 |
CN116187777A (zh) * | 2022-12-28 | 2023-05-30 | 中国航空研究院 | 一种基于sac算法和联盟训练的无人机空战自主决策方法 |
CN116187438A (zh) * | 2023-03-07 | 2023-05-30 | 北京航空航天大学 | 智能体探索策略的确定方法、装置、智能体及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于强化学习的移动机器人导航研究;陈浩强;《中国优秀硕士学位论文全文数据库 信息科技辑》;I140-918 * |
Also Published As
Publication number | Publication date |
---|---|
CN116384469A (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Variational temporal abstraction | |
Kumar et al. | A hybrid multi-agent based particle swarm optimization algorithm for economic power dispatch | |
CN111401557B (zh) | 智能体决策制定方法、ai模型训练方法、服务器及介质 | |
JP7493554B2 (ja) | Few-shot模倣のためのデモンストレーション条件付き強化学習 | |
JP2022504739A (ja) | 時間的価値移送を使用した長いタイムスケールにわたるエージェントの制御 | |
Jeeveswaran et al. | Birt: Bio-inspired replay in vision transformers for continual learning | |
Chen et al. | Gama: Graph attention multi-agent reinforcement learning algorithm for cooperation | |
Wang et al. | A proactive decision support method based on deep reinforcement learning and state partition | |
CN116643499A (zh) | 一种基于模型强化学习的智能体路径规划方法及系统 | |
Mu et al. | Model-based reinforcement learning via imagination with derived memory | |
Faccio et al. | General policy evaluation and improvement by learning to identify few but crucial states | |
Hu et al. | A contrastive learning based universal representation for time series forecasting | |
EP4309091A1 (en) | A computer implemented method for real time quantum compiling based on artificial intelligence | |
CN116384469B (zh) | 一种智能体策略生成方法、装置、计算机设备和存储介质 | |
Greydanus et al. | Piecewise-constant neural ODEs | |
EP4246375A1 (en) | Model processing method and related device | |
CN115212549A (zh) | 一种对抗场景下的对手模型构建方法及存储介质 | |
CN114595641A (zh) | 组合优化问题的求解方法和系统 | |
CN114169240A (zh) | 基于条件生成式对抗网络的mmp预测方法及装置 | |
Li et al. | Fast scenario reduction for power systems by deep learning | |
Dai et al. | Quantum Machine Learning Architecture Search via Deep Reinforcement Learning | |
Ye et al. | Task-Free Continual Generation and Representation Learning via Dynamic Expansionable Memory Cluster | |
CN115392444B (zh) | 基于强化学习的无人机知识模型组合的参数寻优方法 | |
CN117953351B (zh) | 一种基于模型强化学习的决策方法 | |
Pourshamsaei et al. | Using Weighted Mixture Policy Prior Achieving Individual Optimal Policies in Nonstationary Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |