CN112734030B

CN112734030B - 用状态相似性进行经验回放采样的无人平台决策学习方法

Info

Publication number: CN112734030B
Application number: CN202011623599.6A
Authority: CN
Inventors: 庄连生; 张淦霖; 李厚强
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-09-02
Anticipated expiration: 2040-12-31
Also published as: CN112734030A

Abstract

本发明公开了一种用状态相似性进行经验回放采样的无人平台决策学习方法，输入为从经验回放池中采样得到的历史样本数据，之后计算每个历史样本数据与无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度，基于状态和动作相似度来判定赋予历史样本数据不同的训练权重，根据历史样本数据的训练权重不同更新无人平台的决策神经网络模型。通过限制使用与当前策略差异较大的数据的更新幅度，来缓解利用深度强化学习更新无人平台策略时经验回放池中数据分布与当前策略对应数据分布不一致的问题，能够更好的利用经验回放池中历史数据，提高训练数据利用率和稳定性，使得无人平台能够学得更好更稳定的策略。

Description

用状态相似性进行经验回放采样的无人平台决策学习方法

技术领域

本发明涉及无人控制领域，尤其涉及一种用状态相似性进行经验回放采样的无人平台自主决策学习方法。

背景技术

近些年，利用深度强化学习在无人平台控制领域取得了突破性成果。无人平台通过一边与环境交互收集轨迹数据，一边用收集到的轨迹数据更新无人平台的决策神经网络模型。为了提高数据利用率和消除训练数据的相关性，强化学习会设置经验回放池，将每次无人平台与环境交互收集的样本数据放入经验回放池中，训练时从中随机采样得到训练样本数据，用于训练无人平台的决策神经网络。但是这种方法会带来一个问题：用于训练的样本数据有很多是从无人平台的历史策略采样得到的，而随着决策神经网络模型的更新，当前策略与历史策略差异很大，对应二者采样的样本数据分布也会差异很大，用与当前策略不相符的过于老旧的样本数据来训练当前策略会导致无人平台训练不稳定，甚至导致无法学到有效的策略。

关于哪些数据应当存放在经验回放池以及如何使用回放池中数据这两个问题一直是利用强化学习训练无人平台中的热点问题。在基于优先级采样的DQN方法中(DQN withprioritized sampling)，根据奖励值的正负，对正奖励值的数据赋予更大的权重。在优先经验回放(Prioritized experience replay)方法中，根据样本的单步时间差分误差的大小赋予不同的优先级。上述这两种方法并没有考虑样本数据与无人平台当前策略不一致的问题。在记忆遗忘回放方法(Remember and forget experience replay)中，只使用与当前策略相似的样本数据训练无人平台决策神经网络，同时利用KL散度限制当前策略必须与历史策略相似。这种方法只通过动作选择的相似程度，一方面是无法准确计算整个样本数据与当前策略的相似程度，另一方面加入了额外的约束，会导致无人平台的决策可能会收敛到次优解。

因此，如何评估历史数据陈旧程度以及如何缓解从中采样的训练数据与当前策略不匹配依然是无人平台自主决策学习中的重要问题。

发明内容

基于现有技术所存在的问题，本发明的目的是提供一种用状态相似性进行经验回放采样的无人平台决策学习方法，能解决现有用于无人平台控制的自主决策学习中，因不能准确评估历史数据陈旧程度，使得从中采样的训练数据与当前策略不匹配，导致数据利用率低和稳定性差的问题。

本发明的目的是通过以下技术方案实现的：

本发明实施方式提供一种用状态相似性进行经验回放采样的无人平台决策学习方法，包括以下步骤：

步骤1，每一时刻，将无人平台与环境交互得到的轨迹数据放入经验回放池中；

步骤2，在更新无人平台的决策神经网络模型时，从所述经验回放池中采样得到一批历史样本数据；

步骤3，用所述步骤2中采样得到的历史样本数据通过对比学习训练图像编码器；

步骤4，计算所述步骤2中历史样本数据与所述无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度，所述状态相似度利用所述步骤3中训练得到的图像编码器计算；

步骤5，利用所述步骤4计算得出的所述状态相似度和动作相似度，确定历史样本数据与所述无人平台的当前策略的一致性程度，根据确定的一致性程度对不同的历史样本数据赋予不同的训练权重，根据历史样本数据的训练权重不同更新无人平台的决策神经网络模型。

由上述本发明提供的技术方案可以看出，本发明实施例提供的用状态相似性进行经验回放采样的无人平台决策学习方法，其有益效果为：

通过将状态相似度与动作相似度相结合，确定训练样本数据与当前策略的一致性程度，按一致性程度的高低对应赋予训练样本数据不同的权重，在不影响收敛结果的前提下，很好的缓解了无人平台决策学习中，训练数据与当前策略不匹配，导致的数据利用率低和稳定性差的问题，能提高无人平台决策学习训练的稳定性和数据利用率，进而实现无人平台决策提升。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的无人平台决策学习方法流程图；

图2为本发明实施例提供的学习图像编码器的对比学习示意图；

图3为本发明实施例提供的对比学习训练图像编码器的示意图。

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

参见图1，本发明实施例提供一种用状态相似性进行经验回放采样的无人平台决策学习方法，包括以下步骤：

步骤4，计算所述步骤2中历史样本数据与无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度，所述状态相似度利用所述步骤3中训练得到的图像编码器计算；

步骤5，利用所述步骤4计算得出的所述状态相似度和动作相似度，确定历史样本数据与无人平台的当前策略的一致性程度，根据确定的一致性程度对不同的历史样本数据赋予不同的训练权重，根据历史样本数据的训练权重不同更新无人平台的决策神经网络模型。

上述方法中的无人平台指：设有决策神经网络模型和各种传感器的能通过自主学习进行无人参与而进行自动控制的无人化平台，如无人驾驶平台、无人加工平台、无人机平台等，如可以是实体机器人、控制用机器人等

上述方法中的无人平台包括：无人平台的决策神经网络模型为：用于无人平台策略决策的神经网络模型。

上述方法的步骤2在更新无人平台的决策神经网络模型开始前，还包括：

判断所述经验回放池中数据的数量是否大于预设值，若是，则进行更新无人平台的决策神经网络模型；

若否，则继续执行所述步骤1，直至所述经验回放池中数据的数量大于预设值。

上述方法的步骤5后，还包括：

步骤6，判断当前对决策神经网络模型更新的次数是否大于预设的总次数，若达到，则停止训练，若未达到，则返回所述步骤1。

上述方法的步骤1中，所述轨迹数据表示为s_t，a_t，r_t，s_t+1，其中，s_t为无人平台当前时刻状态；a_t为当前时刻无人平台的决策神经网络模型选择的执行动作；r_t为在状态s_t下执行a_t得到的奖励值；s_t+1为无人平台到达的下一状态。

上述方法的步骤3中，所述图像编码器的损失函数为：

所述损失函数中，

为编码器网络参数；f为余弦相似性函数；c为原始数据；s₊为正样本数据；s为N个历史样本数据，包含一个正历史样本数据和N-1个负历史样本数据。此步骤中，通过将历史样本数据分别与正样本和负样本在特征空间进行对比学习训练图像编码器，去除图像中背景信息并学习到样本的有效表示。

上述方法的步骤4中，

所述状态相似度的计算公式为：

该状态相似度的计算公式中，s_on为当前策略π与环境交互采样得到的状态；s_off为所述步骤2中历史样本数据中的状态；K为核函数；

所述动作相似度为当前策略π与历史策略μ对历史样本数据中动作选择的概率之比，其计算公式为：

上述的状态相似度的计算公式中，核函数K采用高斯函数，为：

其中，x和x′分别为历史状态和当前状态，σ为超参数。

上述方法的步骤5中，按确定的一致性程度的高低赋予历史样本数据对应的权重，即一致性程度高的历史样本数据，则赋予高的训练权重，一致性程度低的历史样本数据，则赋予低的训练权重。

上述方法中，通过采用对比学习，在计算状态相似程度时，用基于对比学习的损失函数学习得到的图像编码器，解决了提取图像中有效特征的问题，使得之后评估状态相似度更准确。

本发明提供的利用状态相似性进行经验回放采样的无人平台决策学习方法，根据从经验回放池中采样得到的历史样本数据与当前策略下数据分布的相似程度，赋予历史样本数据不同的权重，用于更新策略神经网络，该方法通过将状态相似度与动作相似度相结合，确定训练样本数据与当前策略的一致性程度，按一致性程度的高低对应赋予训练样本数据不同的权重，在不影响算法收敛结果的前提下，很好的缓解了无人平台决策学习中，训练数据与当前策略不匹配的问题，能提高学习训练的稳定性和数据利用率。在无人平台控制中，无人平台与现实环境交互收集数据的过程通常占处理的主要成本，本发明的方法可以提高数据的利用率，从而减少交互收集数据的使用，降低成本。

下面对本发明实施例具体作进一步地详细描述。

如图2所示，本发明实施例提供一种利用状态相似性进行经验回放采样的无人平台决策学习方法，输入为从经验回放池中采样得到的历史样本数据，之后计算每个历史样本数据与当前策略的状态相似度与动作相似度，最后基于状态和动作相似度来判定赋予历史样本数据不同的训练权重，再根据训练权重不同更新无人平台的决策神经网络模型。该方法实现了通过限制使用与当前策略差异较大的数据的更新幅度，来缓解利用深度强化学习训练无人平台决策神经网络的经验回放池中数据分布与当前策略对应数据分布不一致的问题，能够更好的利用经验回放池中历史样本，提高训练的数据利用率和稳定性。

如图1、3所示，本发明的方法，主要涉及如何评估历史数据匹配程度和在计算状态相似度时如何提取有效图像特征，具体包括以下步骤：

步骤1，每一时刻，将无人平台与环境交互得到的轨迹数据s_t，a_t，r_t，s_t+1放入经验回放池中用于后续训练无人平台的决策神经网络模型；所述轨迹数据中，s_t为当前时刻状态，a_t为当前时刻决策神经网络模型选择的执行动作，r_t为在状态s_t下执行a_t得到的奖励值，s_t+1为无人平台到达的下一状态；

步骤2，在训练初始阶段，由于经验回放池中数据过少，所以预设训练开始条件为：经验回放池中的数据数量要大于1000；若满足该训练开始条件则开始更新无人平台的决策神经网络模型，否则继续执行所述步骤1，直至满足训练开始条件；在更新无人平台的决策神经网络模型时，从经验回放池中随机采样得到一批N个历史样本数据，这里回放池中每个数据被采样得到的概率是相同的；

步骤3，利用上述步骤2中采样得到的历史样本数据作为训练数据基于对比学习训练图像编码器，图像编码器的损失函数(即采样对比学习的训练误差)为：

上述损失函数中，正样本用同一数据中的当前时刻状态和下一时刻状态组成，负样本为不同数据中的状态组成；所以对于每个样本有一个正样本和N-1个负样本；这样学到的图像编码器可以将相似的图像压缩映射到相似的隐状态空间同时最大化不相似图像在隐空间的距离，这里的f为余弦相似性函数；

步骤4，计算所述步骤2中历史样本数据与当前策略π的状态相似度与动作相似度；

利用上述步骤3中训练得到的图像编码器来计算所述步骤2中历史样本数据的状态相似度，计算公式为

具体为：先利用当前策略π与环境交互得到当前策略下的状态分布的采样s_on，然后将s_on与历史样本数据中的状态s_off都通过编码器中得到对应的隐状态，之后利用核函数K来计算二者的相似程度。在实现时采用高斯核函数：

其中，x和x′分别为历史状态和当前状态，σ为超参数。

用以下公式计算所述步骤2中历史样本数据的动作相似程度：

直接计算当前策略和历史策略在样本状态s_t下选择样本动作a_t的概率之比；

步骤5，利用所述步骤4和步骤5中计算出的状态相似度和动作相似度，确定历史样本数据与当前策略的一致性程度，在策略更新时赋予对应的权重，即一致性程度越高的样本赋予的权重越高；

步骤6，判断当前对决策神经网络模型更新的次数是否大于预设的总次数，若达到了预设次数停止训练，否则返回步骤1。

本发明的方法通过评估历史数据的陈旧程度，通过对不同陈旧程度的历史数据对应赋予不同的权重，保证了训练样本与当前策略分布一致，有效的维护了无人平台决策神经网络模型运行的稳定性。并且，该方法还利用了自监督对比学习来学习图像的隐状态，能够更好地提取出输入图像的有效信息，帮助决策网络进行更好的策略选择。本发明方法是对训练数据加权，所以实现简单，也避免了加入额外的约束影响收敛到次优结果的问题，提高了神经网络模型的性能。本发明方法很好的解决了无人平台控制决策学习时，训练决策神经网络模型的重采样的历史样本数据分布不一致问题，保证了无人平台决策神经网络模型训练的稳定性和高效性。

本发明与现有技术相比的优点在于：由于考虑到了历史数据可能出现过时性的问题，通过有效评估与当前策略的匹配程度来缓解这种数据分布偏移的问题，并且，由于没有加入额外的约束，也不会影响最终结果的准确性。同时，本发明主要是通过计算加权改变了样本分布，对策略更新过程没有过多的限制，因此可在几乎相同时间复杂度下运用到绝大多数强化学习模型当中，提高它们的稳定性。

本发明在实际场景中有着重要意义。比如在用无人平台控制汽车自动驾驶上，为了能够让自动驾驶汽车适应各种情况，在收集数据时要求数据具有多样性，这也会导致数据收集成本变高，而本发明方法由于可以提升控制自动驾驶无人平台已获取的历史数据的利用率，减少获取新数据量的需求，进而降低数据收集的成本；另外，如果自动驾驶算法稳定性差，可能导致出现错误指令，造成严重的事故，而本发明方法在稳定性上也有明显的提升，可以缓解上述问题的出现。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种用状态相似性进行经验回放采样的无人平台决策学习方法，其特征在于，包括以下步骤：

步骤2，在更新所述无人平台的决策神经网络模型时，从所述经验回放池中采样得到一批历史样本数据；

2.根据权利要求1所述的用状态相似性进行经验回放采样的无人平台决策学习方法，其特征在于，所述步骤2在更新无人平台的决策神经网络模型开始前，还包括：

3.根据权利要求1所述的用状态相似性进行经验回放采样的无人平台决策学习方法，其特征在于，所述步骤5后，还包括：

4.根据权利要求1至3任一项所述的用状态相似性进行经验回放采样的无人平台决策学习方法，其特征在于，所述步骤1中，所述轨迹数据表示为s_t，a_t，r_t，s_t+1，其中，s_t为无人平台当前时刻状态；a_t为当前时刻无人平台的决策神经网络模型选择的执行动作；r_t为在状态s_t下执行a_t得到的奖励值；s_t+1为无人平台到达的下一状态。

5.根据权利要求1至3任一项所述的用状态相似性进行经验回放采样的无人平台决策学习方法，其特征在于，所述步骤3中，所述图像编码器的损失函数为：

所述损失函数中，

为编码器网络参数；f为余弦相似性函数；c为原始数据；s₊为正样本数据；s为N个历史样本数据，包含一个正历史样本数据和N-1个负历史样本数据。

6.根据权利要求1至3任一项所述的用状态相似性进行经验回放采样的无人平台决策学习方法，其特征在于，所述步骤4中，

所述状态相似度的计算公式为：

7.根据权利要求6所述的用状态相似性进行经验回放采样的无人平台决策学习方法，其特征在于，所述状态相似度的计算公式中，核函数K采用高斯函数，为：

其中，x和x′分别为历史状态和当前状态，σ为超参数。