CN112906868A

CN112906868A - 一种面向行为克隆的示范主动采样方法

Info

Publication number: CN112906868A
Application number: CN202110248762.3A
Authority: CN
Inventors: 黄圣君; 黄文宇
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-06-04

Abstract

本发明公开了一种面向行为克隆的示范主动采样方法。行为克隆是一类典型的模仿学习算法，该算法在自动驾驶领域得到了广泛的关注。现有的行为克隆算法为了训练有效的策略，需要专家提供大量的示范。然而在实际任务中，提供示范的代价是高昂的，高昂的代价限制了行为克隆方法的应用。主动学习通过挑选最有价值的样本进行标注可以有效的减少标注代价。本发明利用主动学习，从状态候选集中挑选最具价值的状态作为起始状态，然后让专家从起始状态开始做示范，并返回固定长度的轨迹，可以使得示范的价值最大，从而有效的减少示范的代价。

Description

一种面向行为克隆的示范主动采样方法

技术领域

本发明属于机器学习领域，具体涉及一种面向行为克隆的示范主动采样方法。

背景技术

深度强化学习是近年来非常热门的机器学习技术，在围棋、游戏、商业领域都取得了重要的进展。但是当任务的状态空间庞大时，深度强化学习的环境探索效率比较低下，导致训练策略的时间太久。模仿学习通过从专家的示范中学习策略，可以有效的解决这一问题。行为克隆是一类经典的模仿学习算法，该方法将专家的示范构成训练集，然后直接用监督学习从中学得策略。目前，行为克隆方法在自动驾驶领域得到了广泛的关注，无论是电动汽车公司特斯拉还是自动驾驶公司Waymo，都在尝试用行为克隆训练自动驾驶的智能体。然而，行为克隆算法通常假设可以获得大量的专家示范，但是在实际任务中，获得专家示范的代价通常是比较高昂的。以自动驾驶为例，专家在提供驾驶数据时，不仅要付出时间上的代价，还要面临安全上的风险。主动学习中通过挑选最具价值的样本向专家查询可以有效的降低标注的代价。而现有的基于主动学习的模仿学习算法都是挑选一个状态，然后让专家示范一个动作，这种查询方式在现实任务中不够实用，更实用的查询方式是让专家以提供的状态为起始状态，提供固定长度的示范轨迹。

发明内容

发明目的：为了克服现实任务中应用行为克隆时，获取示范代价高昂的问题，本发明提供一种面向行为克隆的示范主动采样方法。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种面向行为克隆的示范主动采样方法，其特征在于：包括以下步骤：

(一)要求专家提供少量示范轨迹，以初始化示范集合D。

(二)从示范集合D中用行为克隆算法训练策略。

(三)如果训练得到的策略达到要求则结束，否则转向步骤(四)。

(四)利用训练得到的策略计算状态候选集每个状态的贡献值，挑选出贡献值最大的状态。

(五)将(四)所得到的状态向专家查询，专家以提供的状态作为起始状态，提供固定长度的示范轨迹。

(六)将示范轨迹加入示范集合中，转向步骤(二)。

进一步的，所述步骤(一)初始化示范集合的具体方法：

首先随机从状态空间中挑选少量的状态构成状态集合，然后专家以状态集合中的每一个状态作为起始状态，分别提供固定长度的示范轨迹。具体地说，假设状态集中有m个状态，每次从状态集中取出一个状态，并标记为初始状态s₁，轨迹的长度设定为L，那么专家从s₁开始决策，并返回一条形如{(s₁，a₁)，(s₂，a₂)，...，(s_L，a_L)}的示范轨迹，其中a_i为专家在状态s_i所提供的动作，s_i+1为s_i的下一状态。将所有示范轨迹中的所有状态-动作对用作对示范集合D的初始化，即示范集合是由状态-动作对构成的集合。

进一步的，所述步骤(二)用行为克隆算法训练策略的具体方法为：

设示范集合D由n_l个状态-动作对构成，

所述行为克隆算法的目标函数定义为：

其中a_i是对于状态s_i专家所作出的动作，而π(s_i)则是智能体所作出的动作，而l(.)则是损失函数。对于动作是多维连续向量的情况，常用2-范数的平方作为损失函数，则目标函数为：

通过最小化目标函数即可学得策略π。

进一步的，所述步骤(四)计算每个状态的贡献值的具体方法为：

以下分别基于不确定性和不相似性计算贡献值：

1)基于不确定性的计算方法

该方法以当前智能体的策略对某状态的不确定度作为该状态的贡献值，若不确定度越大，则视为贡献值越大。此用动作的分布的标准差衡量不确定度，即：

uncertainty(s)＝std(π(.|s))

其中π(.|s)表示智能体对于状态s，所做动作的概率分布。

2)基于不相似性的计算方法：

该方法以某状态与示范集合中所有状态的不相似度作为该状态的贡献值，若不相似度越高，则视为贡献值越大。用动作的相似度作为状态相似度的度量，则状态s的不相似度按如下方式计算：

其中，n表示示范集合中状态的数量，而π(.|s_i)，π(.|s)分别表示智能体对于状态s_i和s所做动作的概率分布，W₂表示2-Wasserstein距离。

有益效果：本发明提供的面向行为克隆的示范主动采样方法，充分考虑了候选集中每个状态对学习策略的贡献值，通过挑选贡献值最大的状态向专家查询示范轨迹，可以获得最有价值的示范，从而可以以更少的示范学得一个有效的策略，有效地降低示范代价。具体的，本发明提出了两种计算状态贡献值的方法：一是基于不确定性的方法，该方法以决策的不确定度作为贡献值的度量，其中不确定性以动作分布的标准差来衡量。二是基于不相似性的方法，该方法以与示范集合中状态的不相似度作为贡献值的度量，其中两个状态的不相似度以两个状态的动作分布的差异来衡量，本发明提出用2-Wasserstein距离来衡量分布间的差异。本发明提出的方法不仅可以有效的降低示范的代价，同时对于专家而言，提供轨迹的方式也更为便利，因而在实际任务中更加实用。

附图说明

图1是面向行为克隆的示范主动采样方法的工作流程图；

图2是基于不确定性计算状态贡献值的工作流程图；

图3是基于不相似性计算状态贡献值的工作流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示为面向行为克隆的示范主动采样方法的工作流程图。首先，从专家处收集m(m＝5)条示范轨迹，每条示范轨迹长度为L，用作示范集合D的初始化。在每一轮的迭代中：都从示范集合中用行为克隆学得智能体的策略π；依次计算状态候选集S_u中每个状态的贡献值，挑选出贡献值最大的状态向专家查询；专家以提供的状态为起始状态，提供长度为L′(L′＞＞L)的示范轨迹；将示范轨迹加入到示范集合中。当训练的策略性能达到要求时则流程结束。

图2所示为基于不确定性计算状态贡献值的流程图。设智能体的动作a为n_a维的向量，即动作由n_a个元素构成，每个动作元素a_i均服从正态分布，即a_i～N(μ_i，σ_i)，其中μ_i，σ_i分别表示分布的均值和标准差。策略π用一个3层神经网络的表示，每层均为全连接层，激活函数为tanh，输入层输入状态向量，输出层含2n_a个神经元，其中一半的神经元输出每个动作元素的均值，另一半的神经元输出每个动作元素的标准差。计算贡献值时每次都从候选集S_u中取出一个状态s，将其输入至模型中，得到每个动作元素a_i的分布的标准差σ_i，将σ_i进行求和作为该状态的不确定度：

当候选集为空时则流程结束。

图3所示为基于不相似性计算状态贡献值的流程图。设智能体的动作同样为n_a维的向量，且每个动作元素a_i均服从正态分布a_i～N(μ_i，σ_i)，并且动作元素之间的协方差为0。策略π也用一个神经网络表示，其结构与上面的设定一致。示范集合D中包含n_l个状态动作对。计算贡献值时每次都从候选集S_u中取出一个状态s，需要分别计算该状态与候选集合中每一个状态s_i的不相似性，然后求和并平均作为该状态的贡献值：

计算s与s_i的不相似性时，需要计算W₂(π(.|s_i)，π(.|s))，先将s输入至网络中，输出所有动作元素的均值与标准差，然后计算得到动作分布的均值μ₁与协方差∑₁，其中μ₁的每个元素对应每个动作元素的均值，而协方差矩阵∑₁的对角线上，每个元素对应每个动作元素的标准差的平方，矩阵中其余元素均为0。同理，将s_i输入至策略模型中，基于网络的输出计算得到对应动作分布的均值μ₂与协方差∑₂。

两个多元正态分布之间的2-Wasserstein距离按如下方式计算：

其中x～N(μ_x，∑_x)并且y～N(μ_y，∑_y)，μ是均值向量，∑是协方差矩阵，tr(.)是矩阵的迹；将μ₁，μ₂代入μ_x，μ_y，将∑₁，∑₂代入∑_x，∑_y，可得到：

当候选集为空时则流程结束。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向行为克隆的示范主动采样方法，其特征在于：包括以下步骤：

步骤1：专家提供若干个的示范轨迹，用作对示范集合D的初始化；

步骤2：从示范集合D中用行为克隆算法训练策略；

步骤3：如果策略的性能达到要求则结束，否则转向步骤4；

步骤4：计算状态候选集每个状态的贡献值，挑选出贡献值最大的状态；

步骤5：将步骤4所得到的贡献值最大的状态向专家查询，专家以提供的状态作为起始状态，提供固定长度的示范轨迹，将示范轨迹加入示范集合D中，转向步骤2。

2.根据权利要求1所述一种面向行为克隆的示范主动采样方法，其特征在于：所述步骤1初始化示范集合的具体方法：

首先随机从状态空间中挑选m个状态构成状态集合，然后专家以集合中的每一个状态作为初始状态s₁，分别提供固定长度为L的示范轨迹{(s₁，a₁)，(s₂，a₂)，...，(s_L，a_L)}，其中a_i为专家在状态s_i所做出的动作，s_i+1为s_i的下一状态，i＝1，…，L；将所有示范轨迹中的所有状态-动作对用作对示范集合D的初始化，即示范集合D是由状态-动作对构成的集合。

3.根据权利要求1所述一种面向行为克隆的示范主动采样方法，其特征在于：所述步骤2用行为克隆算法训练策略的具体方法为：

设示范集合D由n_l个状态-动作对构成，

所述行为克隆算法的目标函数定义为：

其中a_i是对于状态s_i专家所做出的动作，π(s_i)是智能体所做出的动作，l(.)是损失函数；通过最小化目标函数即可学得策略π。

4.根据权利要求1所述一种面向行为克隆的示范主动采样方法，其特征在于：所述步骤4计算每个状态的贡献值的具体方法为：

以当前智能体的策略对某状态的不确定度作为该状态的贡献值，若不确定度越大，则视为贡献值越大；此用动作分布的标准差衡量不确定度，即：

uncertainty(s)＝std(π(.|s))

其中π(.|s)表示智能体对于状态s，所做动作的概率分布。

5.根据权利要求1所述一种面向行为克隆的示范主动采样方法，其特征在于：所述步骤4计算每个状态的贡献值的具体方法为：

以某状态与示范集合中所有状态的不相似度作为该状态的贡献值，若不相似度越高，则视为贡献值越大；用动作的相似度作为状态相似度的度量，则状态s的不相似度按如下方式计算：

其中，n_l表示示范集合中状态的数量，π(.|s_i)，π(.|s)分别表示智能体对于状态s_i和s所做动作的概率分布，W₂表示2-Wasserstein距离。