CN110390398A

CN110390398A - 在线学习方法

Info

Publication number: CN110390398A
Application number: CN201810330517.5A
Authority: CN
Inventors: 张德兆; 王肖; 李晓飞; 张放; 霍舒豪
Original assignee: Beijing Idriverplus Technologies Co Ltd
Current assignee: Beijing Idriverplus Technologies Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2019-10-29
Anticipated expiration: 2038-04-13
Also published as: CN110390398B

Abstract

本发明提供了一种在线学习方法，包括：计算第一动作的第一评价指标；计算第二动作的第二评价指标；当第一评价指标大于第二评价指标时，将场景状态信息和第一动作作为第一缓存数据进行存储；当第一评价指标小于第二评价指标时，将场景状态信息和第一动作、以及第二动作作为第二缓存数据进行存储；第一缓存数据和第二缓存数据构成缓存数据；当缓存数据的数据量大于预设阈值时，从缓存数据中获取采样数据；当采样数据来源于第一缓存数据时，利用强化学习算法对第一系统进行训练；当采样数据来源于第二缓存数据时，利用监督式强化学习算法对第一系统进行训练，提升了决策系统的决策能力和鲁棒性。

Description

在线学习方法

技术领域

本发明涉及人工智能领域，尤其涉及一种基于规则监督的在线学习方法。

背景技术

随着人工智能的兴起，机器学习被应用到各个领域，而机器学习在自动驾驶领域的应用则是自动驾驶的可靠性和安全性的保障。自动驾驶技术的核心之一在于一个完备的决策系统。这个决策系统需要保证无人驾驶车辆的安全性，同时应该符合人类驾驶员的驾驶习惯和舒适性需求。

常用的机器学习方法通常是采集大量的训练数据，离线的对深度神经网络进行训练，而在实际使用的过程中不再对神经网络进行更新，这种方式完全依赖于神经网络效果的泛化性，在处理复杂的应用环境时存在着较大的安全隐患。

当前机器学习在自动驾驶领域的应用主要依赖于深度强化学习(DeepReinforcement Learning,DRL)。理想情况下，经过充分训练的深度神经网络可以应对不同道路状况，做出相对合理的驾驶决策。与传统机器学习过程相似，基于深度强化学习的决策系统需要大量训练数据训练神经网络，然而有限的模拟仿真和实际道路训练不能包含所有未知的实际道路情况，因此考虑到神经网络的泛化性有限，在实际使用中车辆遇到某些未知场景时驾驶系统很可能做出不安全的决策动作。

现有深度神经网络在训练时仅仅能够在奖励值函数的约束下进行优化，然而奖励值函数往往并不能完全符合人类驾驶员对车辆运行的所有定义。因此在车辆实际运行过程中，需要对不合理的动作进行监督，然而目前并未有结合监督与强化学习的训练方法。

发明内容

本发明实施例的目的是提供一种在线学习方法，以解决现有技术中存在的不能完全符合车辆运行的所有情况的问题。

为解决上述问题，本发明提供了一种在线学习方法，所述方法包括：

第一系统根据获取的场景状态信息，生成第一动作，并计算第一动作的第一评价指标；

第二系统根据获取的场景状态信息，生成第二动作，并计算第二动作的第二评价指标；

比较所述第一评价指标和所述第二评价指标，当所述第一评价指标大于所述第二评价指标时，将所述场景状态信息和所述第一动作作为第一缓存数据进行存储；当所述第一评价指标小于所述第二评价指标时，将所述场景状态信息和所述第一动作、以及所述第二动作作为第二缓存数据进行存储；所述第一缓存数据和所述第二缓存数据构成缓存数据；

当所述缓存数据的数据量大于预设阈值时，从所述缓存数据中获取采样数据；

判断所述采样数据的来源，当所述采样数据来源于第一缓存数据时，利用强化学习算法对所述第一系统进行训练；当所述采样数据来源于第二缓存数据时，利用监督式强化学习算法对所述第一系统进行训练。

优选的，利用公式计算第一动作的第一评价指标；其中，s为场景状态信息；g为第一动作；r_t为第t次迭代中，执行当前动作获得的奖励值大小，γ为折扣率。

优选的，所述当所述采样数据来源于第一缓存数据时，利用强化学习算法对所述第一系统进行训练，包括：

当所述采样数据来源于第一缓存数据时，构建原始演员-评论家网络；其中，所述原始演员-评论家网络包括原始演员网络和原始评论家网络，所述原始演员网络的输入为场景状态信息s、原始演员网络的输出为第一动作a，原始评论家网络的输入为场景状态信息和第一动作(s,a)，原始评论家网络的输出为第一评价指标；

确定原始演员网络的损失函数梯度；

确定原始评论家网络的损失函数和梯度；

根据所述原始演员网络的损失函数梯度、所述原始评论家网络的损失函数和所述原始评论家网络的梯度，更新所述原始演员网络的网络参数和所述原始评论家网络的网络参数，生成目标演员-评论家网络。

优选的，所述确定原始演员网络的损失函数梯度，包括：

利用公式确定原始演员网络的损失函数梯度；其中，原始演员网络的输出为μ(s)，原始演员网络的网络参数为θ^μ；N为采样数据量大小。

优选的，确定原始评论家网络的损失函数和梯度，包括：

利用公式计算原始评论家网络的损失函数；其中，原始评论家网络的输出为Q(s,a)，原始评论家网络的网络参数为θ^Q；

利用贝尔曼方程训练所述原始评论家网络；

利用公式计算原始评论家网络的梯度；其中，i表示训练的回合数，δ_i被定义为时序差分误差，形式如下：

δ_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')|θ^Q')-Q(s_i,a_i|θ^Q)。

优选的，所述根据所述原始演员网络的损失函数梯度、所述原始评论家网络的损失函数和所述原始评论家网络的梯度，更新所述原始演员网络的网络参数和所述原始评论家网络的网络参数，生成目标演员-评论家网络，包括：

利用公式更新原始评论家网络的网络参数，其中，所述为目标评论家网络的网络参数；

利用公式更新原始演员网络的网络参数，其中，为目标演员网络的网络参数。

优选的，所述当所述采样数据来源于第二缓存数据时，利用监督式强化学习算法对所述第一系统进行训练包括：

利用公式|μ(s)-μ_E(s)|＜ε判断当前场景状态信息s对应的第二动作a与规范监督动作a_E的差距，μ表示当前演员网络输出策略、μ_E表示当前演员网络规则监督策略，ε为预设阈值；

利用公式

计算当前评论家网络的损失函数；其中，θ^μ为当前演员网络的网络参数，θ^Q为当前评论家网络的网络参数；D^Rule为采集的第二缓存数据；(s_E,a_E)为第二缓存数据中的一组状态-动作对；N为处理运算中一批数据的数量；H(μ_E(s_E),μ(s_E))为关于动作误差的函数，定义为

其中，η为一个正常值，该动作误差的函数可以保证非规则监督动作产生的损失至少要比规则监督动作大一个边界值η；

利用合成损失函数J_com＝J_Q+λJ_sup对评论家网络进行更新，其中，λ是一个人为设置的量，用来调整当前评论家网络损失函数与下一评论家网络损失函数之间的权重比例；

利用公式δ^S＝H(a_E,μ(s_E|θ^μ))+Q(s_E,μ(s_E|θ^μ)|θ^Q)-Q(s_E,a_E|θ^Q)定义监督误差；

利用公式计算更新后评论家网络的网络参数；

利用公式计算更新后演员网络的网络参数；其中，为第i次更新中，评论家网络的网络参数，为第i+1次更新中，评论家网络的网络参数，为第i次更新中，评论家网络的网络参数，为评论家网络的学习率，为第i次更新中，演员网络的网络参数，为第i+1次更新中，演员网络的网络参数，为演员网络的学习率。

由此，通过应用本发明实施例提供的在线学习方法，提升了系统的决策能力和鲁棒性。

附图说明

图1为本发明实施例提供的在线学习方法流程示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

在应用本发明实施例提供的在线学习方法时，先要训练出第一系统(在下文中，系统也可以被称为网络)，下面对如何训练第一系统，进行描述。

首先，获取第一原始场景状态信息，然后，根据所述第一原始场景状态信息，生成第一原始动作集，所述第一原始动作集包括至少一个原始动作。接着，根据所述第一原始场景状态信息和所述第一原始动作集，计算所述第一原始动作集中的每个原始动作对应的第一原始评价指标，获得第一原始评价指标集。接着，将所述第一原始评价指标集中数值最大的一个确定为目标第一原始评价指标，该目标第一原始评价指标对应的原始动作为目标第一原始动作。接着，根据所述目标第一原始动作，获得第二原始场景状态信息。接着，根据所述第二原始场景状态信息和所述第一原始动作集，计算所述第一原始动作集中的每个原始动作对应的第二原始评价指标，获得第二原始评价指标集。接着，将所述第二原始评价指标集中数值最大的一个确定为目标第二原始评价指标，该目标第二原始评价指标对应的原始动作作为目标第二原始动作。最后，根据所述目标第二原始动作，获得第三原始场景状态信息；迭代优化，直至得到的评价指标最大，此时，训练出第一系统。

其中，第一、第二仅起区分作用，没有其它含义。

下面，结合具体例子，对如何建立第一系统，进行详细的说明。

在第一系统的训练过程中，针对每一个场景状态信息s，假设有四个动作a1,a2,a3,a4可以选择(例如：上下左右四个动作)，那么深度Q学习算法，会针对这四个动作，分别计算其评价指标Q(评价指标)，即Q(s,a1)、Q(s,a2)、Q(s,a3)和Q(s,a4)。然后选择评价指标最优的(也就是Q值最大的)那个动作作为最终的输出动作。接着，利用这个动作与环境交互，会得到新的场景状态信息s'，然后和之前一样，求这四个动作在新场景状态信息s'下对应的新的评价指标，即Q(s',a1)....Q(s',a4)，继续选择最优的评价指标对应的动作与环境交互，周而复始，迭代优化，最终能够得到一个合理的网络，即第一系统。

图1为本发明实施例提供的在线学习方法流程示意图。该方法的应用场景为无人驾驶车辆。如图1所示，该方法包括以下步骤：

步骤110，第一系统根据获取的场景状态信息，生成第一动作，并计算第一动作的第一评价指标。

在无人驾驶车辆中，通过摄像头、激光雷达等感知模块，识别出障碍物(比如，其它车辆和行人等)信息、预测模块预测出动态障碍物预测轨迹和道路信息(比如，车道线和交通灯等)，将这些复杂的交通环境构建为一个简化的交通模拟环境，取这些交通环境中的一个或者多个，组成场景状态信息s。

其中，第一系统可以是分层强化学习决策系统，第一系统可以包括上层决策框架和下层决策框架，上层决策框架的输入为场景状态信息输出为第一动作，第一动作可以是换道、跟随、超车等。

该第一动作作为下层决策框架的输入，示例而非限定，下层决策框架可以通过下面公式计算第一动作对应的第一评价指标：

其中，s为场景状态信息；g为第一动作；r_t为第t次迭代中，执行当前动作获得的奖励值大小，γ为折扣率，也可称为折扣因子。其中，r_t一般根据s设定，或者根据s和g设定,本申请对此并不限定。

后续，可以将第一动作记为a_DRL。

步骤120，第二系统根据获取的场景状态信息，生成第二动作，并计算第二动作的第二评价指标。

其中，第二系统可以是规则约束决策系统，该规则约束决策系统是预先训练好的，它可以进行一些判断，比如：“场景状态信息是前方车辆距离自身10m，左侧车道50m内无车辆，则第二动作a_Rule为[油门0.9，转向-0.5，刹车0.0]”；“前方车辆距离自身10m，左侧、右侧车道50m内均有车辆，则a_Rule为[油门0.0，转向0.0，刹车0.5]”。

得到第二动作后，可以利用和计算第一评价指标时的公式一样，计算出第二动作的评价指标。

可以理解的，在应用上述公式计算第二评价指标时，仅需将第一动作替换为第二动作即可。

步骤130，比较所述第一评价指标和所述第二评价指标，当所述第一评价指标大于所述第二评价指标时，将所述场景状态信息和所述第一动作作为第一缓存数据进行存储；当所述第一评价指标小于所述第二评价指标时，将所述场景状态信息和所述第一动作、以及所述第二动作作为第二缓存数据进行存储；所述第一缓存数据和所述第二缓存数据构成缓存数据。

具体而言，在无人车辆实际运行过程中，将t时刻的场景状态信息s_t输入到本发明设计的决策框架中，分别通过上述基于分层强化学习的决策系统与基于规则约束的决策系统，得到第一动作与第二动作使用策略评价函数Q获得第一动作a_DRL的第一评价指标与第二动作a_Rule的第二评价指标，将第一评价指标和第二评价指标进行比较。

数据缓存区域是用来存储待训练的数据，通常是由“状态-动作”数据组成。

在t时刻，若第一评价指标大于第二评价指标，则a_DRL更优，则最终输出a_Final即为同时将s_t与组成“状态-动作”对作为第一缓存数据，存储在数据缓存区域。反之，若第一评价指标小于第二评价指标，则a_Rule更优，则最终输出a_Final即为将作为第二缓存数据，同时存储在另外的数据缓存区域。

在一个示例中，将第一缓存数据存储在第一缓存区域，将第二缓存数据存储在第二缓存区域。第一缓存区域和第二缓存区域可以根据指针和地址进行区分。

在另一个示例中，可以将第一缓存数据和第二缓存数据放在同一区域中，通过数据的表头进行区分。

步骤140，当所述缓存数据的数据量大于预设阈值时，从所述缓存数据中获取采样数据。

其中，预设阈值可以是根据实际需要设定的数值，一般通常设置为2的整数次幂，与批处理的“数量大小”一致。经典值为32或64，本申请对于其具体的数值并不限定。

步骤150，判断所述采样数据的来源，当所述采样数据来源于第一缓存数据时，利用强化学习算法对所述第一系统进行训练；当所述采样数据来源于第二缓存数据时，利用监督式强化学习算法对所述第一系统进行训练。

由此，通过利用第一评价指标和第二评价指标进行比较，从而得出决策的方法，解决了现有的决策方法拟人性不佳、灵活性较差以及增加新逻辑时所造成的维护困难的问题。本申请具有拟人性佳、灵活性好，增加新逻辑时维护简单。本发明在车辆实时运行的过程中，系统会记录车辆与环境实时交互的数据(状态)以及决策框架输出的控制动作，将这些“状态-动作”对储存在数据缓存中，通过在线的以批处理(mini-batch)的方式采样训练数据并进行网络的优化训练，更新学习网络的权值，使得决策网络随着使用变得更加智能与人性化。

其中，所述当所述采样数据来源于第一缓存数据时，利用强化学习算法对所述第一系统进行训练，包括：

确定原始演员网络的损失函数梯度；

确定原始评论家网络的损失函数和梯度；

下面，将对当所述采样数据来源于第一缓存数据时，利用强化学习算法对所述第一系统进行训练进行具体的描述。

对第一系统进行在线学习时，可以将第一系统分为原始网络和目标网络，其中，由于在线学习的次数是不限的，该原始网络和目标网络具有相对性，比如，在第一次训练时，由原始网络训练出目标网络，在第二次训练时，该目标网络作为第二次训练的原始网络，接着再训练出目标网络，以此类推，直至训练出的次数符合要求。

下面，以演员-评论家网络为例，对在线学习进行具体的描述。

原始网络和目标网络各自包含一个演员网络和一个评论家网络，两个演员网络结构完全一致，两个评论家网络结构也完全一致，但目标网络的权值更新相比于原始网络存在着比例τ的延迟以保证收敛性。为了进行区分，可以将原始网络的演员网络称为原始演员网络，原始网络的评论家网络称为原始评论家网络。将目标网络的演员网络称为目标演员网络，将目标网络的评论家网络称为目标评论家网络。

其中，原始演员网络输入为状态s，输出为动作a；原始评论家网络输入为状态与动作(s,a)，输出为折扣累积奖励值Q。s'，a'分别表示在网络训练过程中和环境交互得到的下一时刻状态与动作，即目标演员网络输入和输出。通常在网络的训练过程中需要四个网络同时工作，交替更新权值，但在实际使用过程中仅需关注演员网络自身即可。

假设原始评论家网络输出为Q(s,a)、网络参数为θ^Q；原始演员网络的输出为μ(s)，网络参数为θ^μ。目标评论家网络的输出为Q'(s,a)，网络参数为θ^Q'，目标演员网络的输出为μ'(s)，网络参数为θ^μ'，则演员网络策略梯度在执行策略分布ρ^β下的定义为：

利用梯度公式链式法则可以得到：

因此，利用采样的方式可以得到原始演员网络的损失函数梯度方程：

其中，N为采样数据量大小，同样的，原始评论家网络损失函数的定义为：

因此评论家网络可以通过贝尔曼方程进行训练：

其中，r_i为第i组数据的奖励值大小。

进而可以得到原始评论家网络的梯度：

其中i表示训练的回合数，δ_i被定义为时序差分误差(TD-error)，形式如下：

δ_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')|θ^Q')-Q(s_i,a_i|θ^Q) (8)

因此，可以利用下面的公式对原始评论家网络的网络参数和原始演员网络的网络参数在梯度方向进行更新：

其中，所述为目标评论家网络的网络参数，为目标演员网络的网络参数，更新程度对于一般没有明确的判定标准，但是可以通过训练回合进行限制，例如训练2000回合即停止。

下面，将对当所述采样数据来源于第二缓存数据时，利用监督式强化学习算法对所述第一系统进行训练进行描述。

在下文中，为了和上文中的原始网络、目标网络进行区分，可以将该演员网络和评论家网络采用当前和下一次进行区分。

首先，使用下式判断当前状态s下网络的动作输出a与规则监督动作a_E的差距：

|μ(s)-μ_E(s)|＜ε (11)

其中，μ、μ_E分别表示当前演员网络输出策略以及规则监督策略。ε为一个给定阈值，意味着若动作误差在该阈值内，则认为两动作足够相似。这样处理可以使得即便规则监督动作不是最优动作的情况下，智能体也能够学得比规则监督策略更优的策略，受到规则的安全监督。通过上式判断动作误差后，尝试将这一差距体现在更新评论家网络的时序差分误差中：

其中，θ^μ，θ^Q分别表示当前演员网络、当前评论家网络的网络参数；D^Rule表示采集的规则监督数据缓存；(s_E,a_E)表示从该缓存中采集的一组状态-动作对；N表示批处理运算中一批数据的数量；H(μ_E(s_E),μ(s_E))为关于动作误差的函数，定义如下：

其中，η为一个正常值，该函数可以保证非规则监督动作产生的损失至少要比规则监督动作大一个边界值η。考虑到原始深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)的评论家网络损失函数：

使用合成损失函数对评论家网络进行更新：

J_com＝J_Q+λJ_sup (15)

这里，λ是一个人为设置的量，用来调整两个损失之间的权重比例。

定义监督误差为：

δ^S＝H(a_E,μ(s_E|θ^μ))+Q(s_E,μ(s_E|θ^μ)|θ^Q)-Q(s_E,a_E|θ^Q) (16)

对于最终的结果，定义第i次更新时合成的误差如下：

其中，λ为人为选取的比例权重，(s_E,a_E)为规则监督数据中的状态-动作对。因此，本发明在采样数据来源于与时，评论家网络、演员网络每一步的参数更新过程分别如下：

其中，与分别表示第i次更新中，评论家网络和演员网络的参数。与分别表示评论家网络与演员网络的学习率，为第i+1次更新中，评论家网络的网络参数，为第i+1次更新中，演员网络的网络参数，更新程度对于一般没有明确的判定标准，但是可以通过训练回合进行限制，例如训练2000回合即停止。

这种网络更新方式保证了决策框架的在线学习能力，并且能够在当前网络输出结果不佳的情况下，受到规则约束的决策监督，使得整体决策系统能够在安全约束的限制内随着使用而不断提升决策能力，整个决策体系更加健壮，增强了决策体系的鲁棒性。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在线学习方法，其特征在于，所述方法包括：

2.根据权利要求1所述的在线学习方法，其特征在于，

利用公式计算第一动作的第一评价指标；其中，s为场景状态信息；g为第一动作；r_t为第t次迭代中，执行当前动作获得的奖励值大小，γ为折扣率。

3.根据权利要求1所述的在线学习方法，其特征在于，所述当所述采样数据来源于第一缓存数据时，利用强化学习算法对所述第一系统进行训练，包括：

确定原始演员网络的损失函数梯度；

确定原始评论家网络的损失函数和梯度；

4.根据权利要求3所述的在线学习方法，其特征在于，所述确定原始演员网络的损失函数梯度，包括：

5.根据权利要求3所述的在线学习方法，其特征在于，确定原始评论家网络的损失函数和梯度，包括：

利用贝尔曼方程训练所述原始评论家网络；

利用公式计算原始评论家网络的梯度；其中，i表示训练的回合数，δ_i被定义为时序差分误差(TD-error)，形式如下：

δ_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')|θ^Q')-Q(s_i,a_i|θ^Q)。

6.根据权利要求3-5任一项所述的在线学习方法，其特征在于，所述根据所述原始演员网络的损失函数梯度、所述原始评论家网络的损失函数和所述原始评论家网络的梯度，更新所述原始演员网络的网络参数和所述原始评论家网络的网络参数，生成目标演员-评论家网络，包括：

7.根据权利要求1所述的在线学习方法，其特征在于，所述当所述采样数据来源于第二缓存数据时，利用监督式强化学习算法对所述第一系统进行训练包括：

利用公式

利用公式计算更新后评论家网络的网络参数；

利用公式计算更新后演员网络的网络参数；其中，为第i次更新中，评论家网络的网络参数，为第i+1次更新中，评论家网络的网络参数，为第i次更新中，评论家网络的网络参数，α_θQ为评论家网络的学习率，为第i次更新中，演员网络的网络参数，为第i+1次更新中，演员网络的网络参数，α_θμ为演员网络的学习率。