CN110390398A - 在线学习方法 - Google Patents

在线学习方法 Download PDF

Info

Publication number
CN110390398A
CN110390398A CN201810330517.5A CN201810330517A CN110390398A CN 110390398 A CN110390398 A CN 110390398A CN 201810330517 A CN201810330517 A CN 201810330517A CN 110390398 A CN110390398 A CN 110390398A
Authority
CN
China
Prior art keywords
network
original
reviewer
movement
data cached
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810330517.5A
Other languages
English (en)
Other versions
CN110390398B (zh
Inventor
张德兆
王肖
李晓飞
张放
霍舒豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Idriverplus Technologies Co Ltd
Original Assignee
Beijing Idriverplus Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Idriverplus Technologies Co Ltd filed Critical Beijing Idriverplus Technologies Co Ltd
Priority to CN201810330517.5A priority Critical patent/CN110390398B/zh
Publication of CN110390398A publication Critical patent/CN110390398A/zh
Application granted granted Critical
Publication of CN110390398B publication Critical patent/CN110390398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了一种在线学习方法,包括:计算第一动作的第一评价指标;计算第二动作的第二评价指标;当第一评价指标大于第二评价指标时,将场景状态信息和第一动作作为第一缓存数据进行存储;当第一评价指标小于第二评价指标时,将场景状态信息和第一动作、以及第二动作作为第二缓存数据进行存储;第一缓存数据和第二缓存数据构成缓存数据;当缓存数据的数据量大于预设阈值时,从缓存数据中获取采样数据;当采样数据来源于第一缓存数据时,利用强化学习算法对第一系统进行训练;当采样数据来源于第二缓存数据时,利用监督式强化学习算法对第一系统进行训练,提升了决策系统的决策能力和鲁棒性。

Description

在线学习方法
技术领域
本发明涉及人工智能领域,尤其涉及一种基于规则监督的在线学习方法。
背景技术
随着人工智能的兴起,机器学习被应用到各个领域,而机器学习在自动驾驶领域的应用则是自动驾驶的可靠性和安全性的保障。自动驾驶技术的核心之一在于一个完备的决策系统。这个决策系统需要保证无人驾驶车辆的安全性,同时应该符合人类驾驶员的驾驶习惯和舒适性需求。
常用的机器学习方法通常是采集大量的训练数据,离线的对深度神经网络进行训练,而在实际使用的过程中不再对神经网络进行更新,这种方式完全依赖于神经网络效果的泛化性,在处理复杂的应用环境时存在着较大的安全隐患。
当前机器学习在自动驾驶领域的应用主要依赖于深度强化学习(DeepReinforcement Learning,DRL)。理想情况下,经过充分训练的深度神经网络可以应对不同道路状况,做出相对合理的驾驶决策。与传统机器学习过程相似,基于深度强化学习的决策系统需要大量训练数据训练神经网络,然而有限的模拟仿真和实际道路训练不能包含所有未知的实际道路情况,因此考虑到神经网络的泛化性有限,在实际使用中车辆遇到某些未知场景时驾驶系统很可能做出不安全的决策动作。
现有深度神经网络在训练时仅仅能够在奖励值函数的约束下进行优化,然而奖励值函数往往并不能完全符合人类驾驶员对车辆运行的所有定义。因此在车辆实际运行过程中,需要对不合理的动作进行监督,然而目前并未有结合监督与强化学习的训练方法。
发明内容
本发明实施例的目的是提供一种在线学习方法,以解决现有技术中存在的不能完全符合车辆运行的所有情况的问题。
为解决上述问题,本发明提供了一种在线学习方法,所述方法包括:
第一系统根据获取的场景状态信息,生成第一动作,并计算第一动作的第一评价指标;
第二系统根据获取的场景状态信息,生成第二动作,并计算第二动作的第二评价指标;
比较所述第一评价指标和所述第二评价指标,当所述第一评价指标大于所述第二评价指标时,将所述场景状态信息和所述第一动作作为第一缓存数据进行存储;当所述第一评价指标小于所述第二评价指标时,将所述场景状态信息和所述第一动作、以及所述第二动作作为第二缓存数据进行存储;所述第一缓存数据和所述第二缓存数据构成缓存数据;
当所述缓存数据的数据量大于预设阈值时,从所述缓存数据中获取采样数据;
判断所述采样数据的来源,当所述采样数据来源于第一缓存数据时,利用强化学习算法对所述第一系统进行训练;当所述采样数据来源于第二缓存数据时,利用监督式强化学习算法对所述第一系统进行训练。
优选的,利用公式计算第一动作的第一评价指标;其中,s为场景状态信息;g为第一动作;rt为第t次迭代中,执行当前动作获得的奖励值大小,γ为折扣率。
优选的,所述当所述采样数据来源于第一缓存数据时,利用强化学习算法对所述第一系统进行训练,包括:
当所述采样数据来源于第一缓存数据时,构建原始演员-评论家网络;其中,所述原始演员-评论家网络包括原始演员网络和原始评论家网络,所述原始演员网络的输入为场景状态信息s、原始演员网络的输出为第一动作a,原始评论家网络的输入为场景状态信息和第一动作(s,a),原始评论家网络的输出为第一评价指标;
确定原始演员网络的损失函数梯度;
确定原始评论家网络的损失函数和梯度;
根据所述原始演员网络的损失函数梯度、所述原始评论家网络的损失函数和所述原始评论家网络的梯度,更新所述原始演员网络的网络参数和所述原始评论家网络的网络参数,生成目标演员-评论家网络。
优选的,所述确定原始演员网络的损失函数梯度,包括:
利用公式确定原始演员网络的损失函数梯度;其中,原始演员网络的输出为μ(s),原始演员网络的网络参数为θμ;N为采样数据量大小。
优选的,确定原始评论家网络的损失函数和梯度,包括:
利用公式计算原始评论家网络的损失函数;其中,原始评论家网络的输出为Q(s,a),原始评论家网络的网络参数为θQ
利用贝尔曼方程训练所述原始评论家网络;
利用公式计算原始评论家网络的梯度;其中,i表示训练的回合数,δi被定义为时序差分误差,形式如下:
δi=ri+γQ'(si+1,μ'(si+1μ')|θQ')-Q(si,aiQ)。
优选的,所述根据所述原始演员网络的损失函数梯度、所述原始评论家网络的损失函数和所述原始评论家网络的梯度,更新所述原始演员网络的网络参数和所述原始评论家网络的网络参数,生成目标演员-评论家网络,包括:
利用公式更新原始评论家网络的网络参数,其中,所述为目标评论家网络的网络参数;
利用公式更新原始演员网络的网络参数,其中,为目标演员网络的网络参数。
优选的,所述当所述采样数据来源于第二缓存数据时,利用监督式强化学习算法对所述第一系统进行训练包括:
利用公式|μ(s)-μE(s)|<ε判断当前场景状态信息s对应的第二动作a与规范监督动作aE的差距,μ表示当前演员网络输出策略、μE表示当前演员网络规则监督策略,ε为预设阈值;
利用公式
计算当前评论家网络的损失函数;其中,θμ为当前演员网络的网络参数,θQ为当前评论家网络的网络参数;DRule为采集的第二缓存数据;(sE,aE)为第二缓存数据中的一组状态-动作对;N为处理运算中一批数据的数量;H(μE(sE),μ(sE))为关于动作误差的函数,定义为
其中,η为一个正常值,该动作误差的函数可以保证非规则监督动作产生的损失至少要比规则监督动作大一个边界值η;
利用合成损失函数Jcom=JQ+λJsup对评论家网络进行更新,其中,λ是一个人为设置的量,用来调整当前评论家网络损失函数与下一评论家网络损失函数之间的权重比例;
利用公式δS=H(aE,μ(sEμ))+Q(sE,μ(sEμ)|θQ)-Q(sE,aEQ)定义监督误差;
利用公式计算更新后评论家网络的网络参数;
利用公式计算更新后演员网络的网络参数;其中,为第i次更新中,评论家网络的网络参数,为第i+1次更新中,评论家网络的网络参数,为第i次更新中,评论家网络的网络参数,为评论家网络的学习率,为第i次更新中,演员网络的网络参数,为第i+1次更新中,演员网络的网络参数,为演员网络的学习率。
由此,通过应用本发明实施例提供的在线学习方法,提升了系统的决策能力和鲁棒性。
附图说明
图1为本发明实施例提供的在线学习方法流程示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
在应用本发明实施例提供的在线学习方法时,先要训练出第一系统(在下文中,系统也可以被称为网络),下面对如何训练第一系统,进行描述。
首先,获取第一原始场景状态信息,然后,根据所述第一原始场景状态信息,生成第一原始动作集,所述第一原始动作集包括至少一个原始动作。接着,根据所述第一原始场景状态信息和所述第一原始动作集,计算所述第一原始动作集中的每个原始动作对应的第一原始评价指标,获得第一原始评价指标集。接着,将所述第一原始评价指标集中数值最大的一个确定为目标第一原始评价指标,该目标第一原始评价指标对应的原始动作为目标第一原始动作。接着,根据所述目标第一原始动作,获得第二原始场景状态信息。接着,根据所述第二原始场景状态信息和所述第一原始动作集,计算所述第一原始动作集中的每个原始动作对应的第二原始评价指标,获得第二原始评价指标集。接着,将所述第二原始评价指标集中数值最大的一个确定为目标第二原始评价指标,该目标第二原始评价指标对应的原始动作作为目标第二原始动作。最后,根据所述目标第二原始动作,获得第三原始场景状态信息;迭代优化,直至得到的评价指标最大,此时,训练出第一系统。
其中,第一、第二仅起区分作用,没有其它含义。
下面,结合具体例子,对如何建立第一系统,进行详细的说明。
在第一系统的训练过程中,针对每一个场景状态信息s,假设有四个动作a1,a2,a3,a4可以选择(例如:上下左右四个动作),那么深度Q学习算法,会针对这四个动作,分别计算其评价指标Q(评价指标),即Q(s,a1)、Q(s,a2)、Q(s,a3)和Q(s,a4)。然后选择评价指标最优的(也就是Q值最大的)那个动作作为最终的输出动作。接着,利用这个动作与环境交互,会得到新的场景状态信息s',然后和之前一样,求这四个动作在新场景状态信息s'下对应的新的评价指标,即Q(s',a1)....Q(s',a4),继续选择最优的评价指标对应的动作与环境交互,周而复始,迭代优化,最终能够得到一个合理的网络,即第一系统。
图1为本发明实施例提供的在线学习方法流程示意图。该方法的应用场景为无人驾驶车辆。如图1所示,该方法包括以下步骤:
步骤110,第一系统根据获取的场景状态信息,生成第一动作,并计算第一动作的第一评价指标。
在无人驾驶车辆中,通过摄像头、激光雷达等感知模块,识别出障碍物(比如,其它车辆和行人等)信息、预测模块预测出动态障碍物预测轨迹和道路信息(比如,车道线和交通灯等),将这些复杂的交通环境构建为一个简化的交通模拟环境,取这些交通环境中的一个或者多个,组成场景状态信息s。
其中,第一系统可以是分层强化学习决策系统,第一系统可以包括上层决策框架和下层决策框架,上层决策框架的输入为场景状态信息输出为第一动作,第一动作可以是换道、跟随、超车等。
该第一动作作为下层决策框架的输入,示例而非限定,下层决策框架可以通过下面公式计算第一动作对应的第一评价指标:
其中,s为场景状态信息;g为第一动作;rt为第t次迭代中,执行当前动作获得的奖励值大小,γ为折扣率,也可称为折扣因子。其中,rt一般根据s设定,或者根据s和g设定,本申请对此并不限定。
后续,可以将第一动作记为aDRL
步骤120,第二系统根据获取的场景状态信息,生成第二动作,并计算第二动作的第二评价指标。
其中,第二系统可以是规则约束决策系统,该规则约束决策系统是预先训练好的,它可以进行一些判断,比如:“场景状态信息是前方车辆距离自身10m,左侧车道50m内无车辆,则第二动作aRule为[油门0.9,转向-0.5,刹车0.0]”;“前方车辆距离自身10m,左侧、右侧车道50m内均有车辆,则aRule为[油门0.0,转向0.0,刹车0.5]”。
得到第二动作后,可以利用和计算第一评价指标时的公式一样,计算出第二动作的评价指标。
可以理解的,在应用上述公式计算第二评价指标时,仅需将第一动作替换为第二动作即可。
步骤130,比较所述第一评价指标和所述第二评价指标,当所述第一评价指标大于所述第二评价指标时,将所述场景状态信息和所述第一动作作为第一缓存数据进行存储;当所述第一评价指标小于所述第二评价指标时,将所述场景状态信息和所述第一动作、以及所述第二动作作为第二缓存数据进行存储;所述第一缓存数据和所述第二缓存数据构成缓存数据。
具体而言,在无人车辆实际运行过程中,将t时刻的场景状态信息st输入到本发明设计的决策框架中,分别通过上述基于分层强化学习的决策系统与基于规则约束的决策系统,得到第一动作与第二动作使用策略评价函数Q获得第一动作aDRL的第一评价指标与第二动作aRule的第二评价指标,将第一评价指标和第二评价指标进行比较。
数据缓存区域是用来存储待训练的数据,通常是由“状态-动作”数据组成。
在t时刻,若第一评价指标大于第二评价指标,则aDRL更优,则最终输出aFinal即为同时将st组成“状态-动作”对作为第一缓存数据,存储在数据缓存区域。反之,若第一评价指标小于第二评价指标,则aRule更优,则最终输出aFinal即为作为第二缓存数据,同时存储在另外的数据缓存区域。
在一个示例中,将第一缓存数据存储在第一缓存区域,将第二缓存数据存储在第二缓存区域。第一缓存区域和第二缓存区域可以根据指针和地址进行区分。
在另一个示例中,可以将第一缓存数据和第二缓存数据放在同一区域中,通过数据的表头进行区分。
步骤140,当所述缓存数据的数据量大于预设阈值时,从所述缓存数据中获取采样数据。
其中,预设阈值可以是根据实际需要设定的数值,一般通常设置为2的整数次幂,与批处理的“数量大小”一致。经典值为32或64,本申请对于其具体的数值并不限定。
步骤150,判断所述采样数据的来源,当所述采样数据来源于第一缓存数据时,利用强化学习算法对所述第一系统进行训练;当所述采样数据来源于第二缓存数据时,利用监督式强化学习算法对所述第一系统进行训练。
由此,通过利用第一评价指标和第二评价指标进行比较,从而得出决策的方法,解决了现有的决策方法拟人性不佳、灵活性较差以及增加新逻辑时所造成的维护困难的问题。本申请具有拟人性佳、灵活性好,增加新逻辑时维护简单。本发明在车辆实时运行的过程中,系统会记录车辆与环境实时交互的数据(状态)以及决策框架输出的控制动作,将这些“状态-动作”对储存在数据缓存中,通过在线的以批处理(mini-batch)的方式采样训练数据并进行网络的优化训练,更新学习网络的权值,使得决策网络随着使用变得更加智能与人性化。
其中,所述当所述采样数据来源于第一缓存数据时,利用强化学习算法对所述第一系统进行训练,包括:
当所述采样数据来源于第一缓存数据时,构建原始演员-评论家网络;其中,所述原始演员-评论家网络包括原始演员网络和原始评论家网络,所述原始演员网络的输入为场景状态信息s、原始演员网络的输出为第一动作a,原始评论家网络的输入为场景状态信息和第一动作(s,a),原始评论家网络的输出为第一评价指标;
确定原始演员网络的损失函数梯度;
确定原始评论家网络的损失函数和梯度;
根据所述原始演员网络的损失函数梯度、所述原始评论家网络的损失函数和所述原始评论家网络的梯度,更新所述原始演员网络的网络参数和所述原始评论家网络的网络参数,生成目标演员-评论家网络。
下面,将对当所述采样数据来源于第一缓存数据时,利用强化学习算法对所述第一系统进行训练进行具体的描述。
对第一系统进行在线学习时,可以将第一系统分为原始网络和目标网络,其中,由于在线学习的次数是不限的,该原始网络和目标网络具有相对性,比如,在第一次训练时,由原始网络训练出目标网络,在第二次训练时,该目标网络作为第二次训练的原始网络,接着再训练出目标网络,以此类推,直至训练出的次数符合要求。
下面,以演员-评论家网络为例,对在线学习进行具体的描述。
原始网络和目标网络各自包含一个演员网络和一个评论家网络,两个演员网络结构完全一致,两个评论家网络结构也完全一致,但目标网络的权值更新相比于原始网络存在着比例τ的延迟以保证收敛性。为了进行区分,可以将原始网络的演员网络称为原始演员网络,原始网络的评论家网络称为原始评论家网络。将目标网络的演员网络称为目标演员网络,将目标网络的评论家网络称为目标评论家网络。
其中,原始演员网络输入为状态s,输出为动作a;原始评论家网络输入为状态与动作(s,a),输出为折扣累积奖励值Q。s',a'分别表示在网络训练过程中和环境交互得到的下一时刻状态与动作,即目标演员网络输入和输出。通常在网络的训练过程中需要四个网络同时工作,交替更新权值,但在实际使用过程中仅需关注演员网络自身即可。
假设原始评论家网络输出为Q(s,a)、网络参数为θQ;原始演员网络的输出为μ(s),网络参数为θμ。目标评论家网络的输出为Q'(s,a),网络参数为θQ',目标演员网络的输出为μ'(s),网络参数为θμ',则演员网络策略梯度在执行策略分布ρβ下的定义为:
利用梯度公式链式法则可以得到:
因此,利用采样的方式可以得到原始演员网络的损失函数梯度方程:
其中,N为采样数据量大小,同样的,原始评论家网络损失函数的定义为:
因此评论家网络可以通过贝尔曼方程进行训练:
其中,ri为第i组数据的奖励值大小。
进而可以得到原始评论家网络的梯度:
其中i表示训练的回合数,δi被定义为时序差分误差(TD-error),形式如下:
δi=ri+γQ'(si+1,μ'(si+1μ')|θQ')-Q(si,aiQ) (8)
因此,可以利用下面的公式对原始评论家网络的网络参数和原始演员网络的网络参数在梯度方向进行更新:
其中,所述为目标评论家网络的网络参数,为目标演员网络的网络参数,更新程度对于一般没有明确的判定标准,但是可以通过训练回合进行限制,例如训练2000回合即停止。
下面,将对当所述采样数据来源于第二缓存数据时,利用监督式强化学习算法对所述第一系统进行训练进行描述。
在下文中,为了和上文中的原始网络、目标网络进行区分,可以将该演员网络和评论家网络采用当前和下一次进行区分。
首先,使用下式判断当前状态s下网络的动作输出a与规则监督动作aE的差距:
|μ(s)-μE(s)|<ε (11)
其中,μ、μE分别表示当前演员网络输出策略以及规则监督策略。ε为一个给定阈值,意味着若动作误差在该阈值内,则认为两动作足够相似。这样处理可以使得即便规则监督动作不是最优动作的情况下,智能体也能够学得比规则监督策略更优的策略,受到规则的安全监督。通过上式判断动作误差后,尝试将这一差距体现在更新评论家网络的时序差分误差中:
其中,θμ,θQ分别表示当前演员网络、当前评论家网络的网络参数;DRule表示采集的规则监督数据缓存;(sE,aE)表示从该缓存中采集的一组状态-动作对;N表示批处理运算中一批数据的数量;H(μE(sE),μ(sE))为关于动作误差的函数,定义如下:
其中,η为一个正常值,该函数可以保证非规则监督动作产生的损失至少要比规则监督动作大一个边界值η。考虑到原始深度确定性策略梯度(Deep Deterministic PolicyGradient,DDPG)的评论家网络损失函数:
使用合成损失函数对评论家网络进行更新:
Jcom=JQ+λJsup (15)
这里,λ是一个人为设置的量,用来调整两个损失之间的权重比例。
定义监督误差为:
δS=H(aE,μ(sEμ))+Q(sE,μ(sEμ)|θQ)-Q(sE,aEQ) (16)
对于最终的结果,定义第i次更新时合成的误差如下:
其中,λ为人为选取的比例权重,(sE,aE)为规则监督数据中的状态-动作对。因此,本发明在采样数据来源于时,评论家网络、演员网络每一步的参数更新过程分别如下:
其中,分别表示第i次更新中,评论家网络和演员网络的参数。分别表示评论家网络与演员网络的学习率,为第i+1次更新中,评论家网络的网络参数,为第i+1次更新中,演员网络的网络参数,更新程度对于一般没有明确的判定标准,但是可以通过训练回合进行限制,例如训练2000回合即停止。
这种网络更新方式保证了决策框架的在线学习能力,并且能够在当前网络输出结果不佳的情况下,受到规则约束的决策监督,使得整体决策系统能够在安全约束的限制内随着使用而不断提升决策能力,整个决策体系更加健壮,增强了决策体系的鲁棒性。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种在线学习方法,其特征在于,所述方法包括:
第一系统根据获取的场景状态信息,生成第一动作,并计算第一动作的第一评价指标;
第二系统根据获取的场景状态信息,生成第二动作,并计算第二动作的第二评价指标;
比较所述第一评价指标和所述第二评价指标,当所述第一评价指标大于所述第二评价指标时,将所述场景状态信息和所述第一动作作为第一缓存数据进行存储;当所述第一评价指标小于所述第二评价指标时,将所述场景状态信息和所述第一动作、以及所述第二动作作为第二缓存数据进行存储;所述第一缓存数据和所述第二缓存数据构成缓存数据;
当所述缓存数据的数据量大于预设阈值时,从所述缓存数据中获取采样数据;
判断所述采样数据的来源,当所述采样数据来源于第一缓存数据时,利用强化学习算法对所述第一系统进行训练;当所述采样数据来源于第二缓存数据时,利用监督式强化学习算法对所述第一系统进行训练。
2.根据权利要求1所述的在线学习方法,其特征在于,
利用公式计算第一动作的第一评价指标;其中,s为场景状态信息;g为第一动作;rt为第t次迭代中,执行当前动作获得的奖励值大小,γ为折扣率。
3.根据权利要求1所述的在线学习方法,其特征在于,所述当所述采样数据来源于第一缓存数据时,利用强化学习算法对所述第一系统进行训练,包括:
当所述采样数据来源于第一缓存数据时,构建原始演员-评论家网络;其中,所述原始演员-评论家网络包括原始演员网络和原始评论家网络,所述原始演员网络的输入为场景状态信息s、原始演员网络的输出为第一动作a,原始评论家网络的输入为场景状态信息和第一动作(s,a),原始评论家网络的输出为第一评价指标;
确定原始演员网络的损失函数梯度;
确定原始评论家网络的损失函数和梯度;
根据所述原始演员网络的损失函数梯度、所述原始评论家网络的损失函数和所述原始评论家网络的梯度,更新所述原始演员网络的网络参数和所述原始评论家网络的网络参数,生成目标演员-评论家网络。
4.根据权利要求3所述的在线学习方法,其特征在于,所述确定原始演员网络的损失函数梯度,包括:
利用公式确定原始演员网络的损失函数梯度;其中,原始演员网络的输出为μ(s),原始演员网络的网络参数为θμ;N为采样数据量大小。
5.根据权利要求3所述的在线学习方法,其特征在于,确定原始评论家网络的损失函数和梯度,包括:
利用公式计算原始评论家网络的损失函数;其中,原始评论家网络的输出为Q(s,a),原始评论家网络的网络参数为θQ
利用贝尔曼方程训练所述原始评论家网络;
利用公式计算原始评论家网络的梯度;其中,i表示训练的回合数,δi被定义为时序差分误差(TD-error),形式如下:
δi=ri+γQ'(si+1,μ'(si+1μ')|θQ')-Q(si,aiQ)。
6.根据权利要求3-5任一项所述的在线学习方法,其特征在于,所述根据所述原始演员网络的损失函数梯度、所述原始评论家网络的损失函数和所述原始评论家网络的梯度,更新所述原始演员网络的网络参数和所述原始评论家网络的网络参数,生成目标演员-评论家网络,包括:
利用公式更新原始评论家网络的网络参数,其中,所述为目标评论家网络的网络参数;
利用公式更新原始演员网络的网络参数,其中,为目标演员网络的网络参数。
7.根据权利要求1所述的在线学习方法,其特征在于,所述当所述采样数据来源于第二缓存数据时,利用监督式强化学习算法对所述第一系统进行训练包括:
利用公式|μ(s)-μE(s)|<ε判断当前场景状态信息s对应的第二动作a与规范监督动作aE的差距,μ表示当前演员网络输出策略、μE表示当前演员网络规则监督策略,ε为预设阈值;
利用公式
计算当前评论家网络的损失函数;其中,θμ为当前演员网络的网络参数,θQ为当前评论家网络的网络参数;DRule为采集的第二缓存数据;(sE,aE)为第二缓存数据中的一组状态-动作对;N为处理运算中一批数据的数量;H(μE(sE),μ(sE))为关于动作误差的函数,定义为
其中,η为一个正常值,该动作误差的函数可以保证非规则监督动作产生的损失至少要比规则监督动作大一个边界值η;
利用合成损失函数Jcom=JQ+λJsup对评论家网络进行更新,其中,λ是一个人为设置的量,用来调整当前评论家网络损失函数与下一评论家网络损失函数之间的权重比例;
利用公式δS=H(aE,μ(sEμ))+Q(sE,μ(sEμ)|θQ)-Q(sE,aEQ)定义监督误差;
利用公式计算更新后评论家网络的网络参数;
利用公式计算更新后演员网络的网络参数;其中,为第i次更新中,评论家网络的网络参数,为第i+1次更新中,评论家网络的网络参数,为第i次更新中,评论家网络的网络参数,αθQ为评论家网络的学习率,为第i次更新中,演员网络的网络参数,为第i+1次更新中,演员网络的网络参数,αθμ为演员网络的学习率。
CN201810330517.5A 2018-04-13 2018-04-13 在线学习方法 Active CN110390398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810330517.5A CN110390398B (zh) 2018-04-13 2018-04-13 在线学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810330517.5A CN110390398B (zh) 2018-04-13 2018-04-13 在线学习方法

Publications (2)

Publication Number Publication Date
CN110390398A true CN110390398A (zh) 2019-10-29
CN110390398B CN110390398B (zh) 2021-09-10

Family

ID=68283714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810330517.5A Active CN110390398B (zh) 2018-04-13 2018-04-13 在线学习方法

Country Status (1)

Country Link
CN (1) CN110390398B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112264995A (zh) * 2020-10-16 2021-01-26 清华大学 一种基于层级强化学习的机器人双轴孔装配方法
CN112580801A (zh) * 2020-12-09 2021-03-30 广州优策科技有限公司 一种强化学习训练方法及基于强化学习的决策方法
CN113239634A (zh) * 2021-06-11 2021-08-10 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260628A (zh) * 2014-06-03 2016-01-20 腾讯科技(深圳)有限公司 分类器训练方法和装置、身份验证方法和系统
CN105912814A (zh) * 2016-05-05 2016-08-31 苏州京坤达汽车电子科技有限公司 智能驾驶车辆换道决策模型
CN106154834A (zh) * 2016-07-20 2016-11-23 百度在线网络技术(北京)有限公司 用于控制无人驾驶车辆的方法和装置
CN106842925A (zh) * 2017-01-20 2017-06-13 清华大学 一种基于深度强化学习的机车智能操纵方法与系统
WO2017120336A2 (en) * 2016-01-05 2017-07-13 Mobileye Vision Technologies Ltd. Trained navigational system with imposed constraints
CN107342078A (zh) * 2017-06-23 2017-11-10 上海交通大学 对话策略优化的冷启动系统和方法
CN107577231A (zh) * 2017-08-28 2018-01-12 驭势科技(北京)有限公司 车辆的控制决策的制定方法、装置和无人驾驶车辆
CN107862346A (zh) * 2017-12-01 2018-03-30 驭势科技(北京)有限公司 一种进行驾驶策略模型训练的方法与设备
CN107895501A (zh) * 2017-09-29 2018-04-10 大圣科技股份有限公司 基于海量驾驶视频数据训练的无人汽车驾驶决策方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260628A (zh) * 2014-06-03 2016-01-20 腾讯科技(深圳)有限公司 分类器训练方法和装置、身份验证方法和系统
WO2017120336A2 (en) * 2016-01-05 2017-07-13 Mobileye Vision Technologies Ltd. Trained navigational system with imposed constraints
CN105912814A (zh) * 2016-05-05 2016-08-31 苏州京坤达汽车电子科技有限公司 智能驾驶车辆换道决策模型
CN106154834A (zh) * 2016-07-20 2016-11-23 百度在线网络技术(北京)有限公司 用于控制无人驾驶车辆的方法和装置
CN106842925A (zh) * 2017-01-20 2017-06-13 清华大学 一种基于深度强化学习的机车智能操纵方法与系统
CN107342078A (zh) * 2017-06-23 2017-11-10 上海交通大学 对话策略优化的冷启动系统和方法
CN107577231A (zh) * 2017-08-28 2018-01-12 驭势科技(北京)有限公司 车辆的控制决策的制定方法、装置和无人驾驶车辆
CN107895501A (zh) * 2017-09-29 2018-04-10 大圣科技股份有限公司 基于海量驾驶视频数据训练的无人汽车驾驶决策方法
CN107862346A (zh) * 2017-12-01 2018-03-30 驭势科技(北京)有限公司 一种进行驾驶策略模型训练的方法与设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIN LI等: ""Reinforcement learning based overtaking decision-making for highway autonomous driving"", 《2015 SIXTH INTERNATIONAL CONFERENCE ON INTELLIGENT CONTROL AND INFORMATION PROCESSING (ICICIP)》 *
田赓: ""复杂动态城市环境下无人驾驶车辆仿生换道决策模型研究"", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112264995A (zh) * 2020-10-16 2021-01-26 清华大学 一种基于层级强化学习的机器人双轴孔装配方法
CN112264995B (zh) * 2020-10-16 2021-11-16 清华大学 一种基于层级强化学习的机器人双轴孔装配方法
CN112580801A (zh) * 2020-12-09 2021-03-30 广州优策科技有限公司 一种强化学习训练方法及基于强化学习的决策方法
CN113239634A (zh) * 2021-06-11 2021-08-10 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法
CN113239634B (zh) * 2021-06-11 2022-11-04 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法

Also Published As

Publication number Publication date
CN110390398B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
US11914376B2 (en) USV formation path-following method based on deep reinforcement learning
CN111081065B (zh) 路段混行条件下的智能车辆协同换道决策模型
CN108762281A (zh) 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN110390398A (zh) 在线学习方法
CN107577234B (zh) 一种驾驶员在环的汽车燃油经济性控制方法
CN108520155B (zh) 基于神经网络的车辆行为模拟方法
Cardamone et al. Learning drivers for TORCS through imitation using supervised methods
CN102592093B (zh) 一种基于生物免疫机制的主机入侵检测方法
CN112949933B (zh) 一种基于多智能体强化学习的交通组织方案优化方法
CN108897313A (zh) 一种分层式端到端车辆自动驾驶系统构建方法
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
Tagliaferri et al. A real-time strategy-decision program for sailing yacht races
Peng et al. DRL-GAT-SA: Deep reinforcement learning for autonomous driving planning based on graph attention networks and simplex architecture
Li et al. Simulation on vessel intelligent collision avoidance based on artificial fish swarm algorithm
CN109318897A (zh) 基于自动推理机制的接管巡航方法及系统
Jin et al. A game-theoretic reinforcement learning approach for adaptive interaction at intersections
CN110378460A (zh) 决策方法
CN116758767A (zh) 基于多策略强化学习的交通信号灯控制方法
CN116935671A (zh) 一种基于投影式约束策略优化的自动道路交叉口管理方法
CN113741464B (zh) 一种基于时空数据强化学习的自动驾驶速度控制框架
Ren et al. Integrated strategy for automatic lane-changing decision and trajectory planning in dynamic scenario
CN116167415A (zh) 一种多智能体协同及对抗中的策略决策方法
CN112835362B (zh) 一种自动变道规划方法及装置、电子设备和存储介质
Kalapos et al. Vision-based reinforcement learning for lane-tracking control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: B4-006, maker Plaza, 338 East Street, Huilongguan town, Changping District, Beijing 100096

Patentee after: Beijing Idriverplus Technology Co.,Ltd.

Address before: B4-006, maker Plaza, 338 East Street, Huilongguan town, Changping District, Beijing 100096

Patentee before: Beijing Idriverplus Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder