CN116859755B

CN116859755B - 无人车驾驶控制的最小化协方差强化学习训练加速方法

Info

Publication number: CN116859755B
Application number: CN202311092025.4A
Authority: CN
Inventors: 陈兴国; 巩宇
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-12-08
Anticipated expiration: 2043-08-29
Also published as: CN116859755A

Abstract

本发明提供了一种无人车驾驶控制的最小化协方差强化学习训练加速方法，包括以下步骤：将工程问题建立成强化学习环境模型，利用坡度传感器、地面湿度传感器以及定位器等传感器获取丘陵地段的地形、天气信息以及无人车自身信息；然后，通过已训练好的神经网络将这些(状态信息‑动作)转化为特征；接着利用最小化协方差算法进行强化学习训练，通过不断的训练，可以得到无人车在山丘地形中驾驶控制的最优策略。本发明的方法通过强化学习提高丘陵地形中无人车驾驶控制的训练速度，更快学到最优控制策略，提高无人车丘陵地形驾驶的准确性和效率，有效的解决了现有技术中无人车在丘陵地形驾驶控制存在的问题，具有较好的使用价值和经济效益。

Description

无人车驾驶控制的最小化协方差强化学习训练加速方法

技术领域

本发明涉及智能军事技术领域，尤其是指一种丘陵地形无人车驾驶控制的最小化协方差强化学习训练加速方法。

背景技术

随着无人车技术的发展，军事领域中的无人车在后勤保障和战场物资运输等方面扮演着越来越重要的角色。在复杂的丘陵地形中，无人车面临着诸多挑战，例如道路起伏、天气变化等因素，这些挑战不仅给无人车的运行带来了巨大的风险，同时也限制了其在这些环境下的运输能力。为了克服这些挑战，研究人员致力于发展适应丘陵地形的无人车驾驶控制算法。

本发明提供了一种新的无人车驾驶控制算法，该算法能够更快地学习无人车在丘陵地形中的最优行动策略。该算法能够更好地应对丘陵中的复杂环境和地形变化。本发明可应用于军事领域的无人车丘陵地形的运输，能够提高无人车在复杂地形中的行驶效率和运输能力，有望成为未来无人车驾驶控制算法的重要发展方向。

发明内容

本发明目的在于提供一种能够更快学到最优控制策略，提高驾驶控制的准确性和效率的最小化协方差强化学习训练加速方法。

为实现上述目的，本发明提供了一种无人车驾驶控制的最小化协方差强化学习训练加速方法，用于对丘陵地形无人车驾驶控制的训练过程进行加速，包括以下步骤：

步骤1、针对丘陵地形无人车的作业要求建立强化学习环境模型，实例化已训练好的神经网络模型；

步骤2、获取无人车当前的状态信息；

步骤3、将所有所述状态信息及无人车可选动作输入到所述神经网络模型中，得到对应的特征向量，结合线性方法，通过/>方法选择动作/>，保存对应的特征向量/>；

步骤4、执行动作，获得奖励，进入下一个状态/>，利用所述步骤3，获得状态/>对应的/>和/>；

步骤5、无人车利用最小化协方差方法对参数进行更新，从而更新了当前策略；

步骤6、重复所述步骤2-步骤5，直到无人车到达目的地或达到最大迭代更新次数。

作为本发明的进一步改进，所述步骤1具体包括：根据丘陵地形无人车的作业要求建立强化学习环境模型；将所有所述状态信息及无人车可选动作依次输入到已训练好的所述神经网络模型，获取相应的特征，所述神经网络模型已通过打好状态特征标签的数据集训练完成。

作为本发明的进一步改进，所述步骤2中，所述无人车当前的状态信息s至少包括由地形坡度、路面潮湿情况、无人车距终点距离、无人车当前速度、无人车车损情况。

作为本发明的进一步改进，所述步骤3中具体包括：

步骤31、获取无人车当前所有可选择的动作，将所有可选的所述状态信息及无人车动作依次输入到已训练好的所述神经网络模型中，获得所有可选的特征向量，其中/>为无人车当前的状态信息，A为无人车可选动作，/>为当前状态s下采取动作/>的特征；

步骤32、通过线性的方法，求得所有可选择的，即/>，其中，/>为特征权重参数向量，/>为向量转置符号，通过/>方法选择动作/>，保存对应的特征向量/>。

作为本发明的进一步改进，步骤4具体包括：无人车执行了动作，获取了即时奖励，进入了下一个状态/>，此时无人车通过坡度传感器、路面湿度传感器、定位器等传感器获取状态信息，同时获取无人车当前所有可选择的动作，将所有可选的所述状态信息及无人车动作依次输入到已训练好的所述神经网络模型中，获得所有可选的特征向量/>，/>表示可选动作；通过线性的方法，求得所有可选择的/>，即，其中，/>为特征权重参数向量，/>为向量转置符号，通过方法选择动作/>，保存对应的特征向量/>。

作为本发明的进一步改进，无人车获得即时奖励分别为h，j，k，具体奖励形式如下：

；

其中h为地形坡度时的奖励，j为路面潮湿情况时的奖励，k为无人车距离终点距离时的奖励，地形坡度、路面潮湿情况、无人车距终点位置分别由坡度传感器、地面湿度传感器以及定位器获得，且最终奖励为上述所述h、j、k加权之和。

作为本发明的进一步改进，所述步骤5具体包括：

步骤51、无人车利用强化学习训练加速方法对参数进行更新，该方法的优化过程是最小化，其中/>表示误差，/>，/>为奖励，/>表示误差的期望，因为期望项/>不容易求解，因此定义/>来表示/>的估计近似，利用随机梯度下降方法，分别对/>进行更新，最终的更新公式如下所示：

；

其中，表示特征权重参数向量；/>表示/>的近似；表示误差；/>和/>分别是/>和/>的学习率。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明能够加速无人车在丘陵地形中的驾驶控制的训练速度，更快学到最优控制策略，提高驾驶控制的准确性和效率，有效的解决了现有技术中驾驶控制存在的问题，具有较好的使用价值和经济效益。

附图说明

图1 为该方法的流程图示意图。

图2为该方法的一具体实施例的示意图。

图3是本发明的方法与传统训练方法进行对比的结果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

另外，还需要说明的是，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

如图1至图2所示，本发明提出了一种丘陵地形无人车驾驶控制的最小化协方差强化学习训练加速方法，通过利用最小化协方差算法，能够加快收敛到最优策略的速度，提高驾驶控制的准确性和效率，有效的解决了现有技术中驾驶控制存在的问题，具有较好的使用价值和经济效益，主要包括以下步骤：

步骤2、利用坡度传感器、地面湿度传感器、速度传感器以及定位器等传感器获取无人车当前状态信息，包括丘陵地段的地形、路面潮湿情况以及无人车自身信息等；

步骤3、将所有可选(状态信息-无人车动作)输入到神经网络中，得到对应的特征向量，结合线性方法，求得对应的/>值，即/>，其中，/>为特征权重参数向量，/>为向量转置符号，并通过/>方法选择动作/>，保存对应的特征向量/>；

步骤4、执行动作，获得奖励，进入下一个状态/>，利用步骤3，获得状态/>对应的和/>；

步骤6、重复步骤2-5，直到无人车到达目的地或达到最大迭代更新次数。

以下将对步骤1-6进行具体说明。

步骤1中，根据丘陵地形无人车的作业要求建立强化学习环境模型；由于本文中的最小化协方差强化学习训练加速方法采用线性近似动作值函数，即，/>为无人车可选动作，/>为当前状态下采取动作/>的特征向量，/>为特征权重参数向量，/>为向量转置符号；将所有可选择的(状态信息-无人车动作)依次输入到已训练好的神经网络，获取相应的特征，该神经网络已通过打好状态特征标签的数据集训练完成。

步骤2中，无人车当前的状态s具体包括由地形坡度、、无人车距终点距离、无人车当前速度、无人车车损情况，无人车通过坡度传感器、地面湿度传感器、速度传感器以及定位器等获取这些状态信息。

步骤3中，获取无人车当前所有可选择的动作，将所有可选的(状态信息，无人车动作)依次输入到已训练好的神经网络中，获得所有对应的特征向量，/>表示可选动作；通过线性的方法，求得所有对应的/>，即/>，其中，/>为特征权重参数向量，/>为向量转置符号，通过/>方法选择动作/>，即无人车有/>概率随机选取可选动作，有/>的概率选取让/>值最大的动作，并保存对应的特征向量/>。

步骤4中，无人车执行了动作，获取了即时奖励，进入了下一个状态/>，此时无人车通过坡度传感器、路面湿度传感器、定位器等传感器获取状态信息，同时获取无人车当前所有可选择的动作，将所有可选的(状态信息，无人车动作)依次输入到已训练好的神经网络中，获得所有对应的特征向量/>，/>表示可选动作；通过线性的方法，求得所有对应的/>，即/>，其中，/>为特征权重参数向量，/>为向量转置符号，通过/>方法选择动作/>，保存对应的特征向量/>。

步骤4中，无人车获得即时奖励分别为h(地形坡度)，j()，k(无人车距终点位置)。具体奖励形式如下：

；

地形坡度、路面潮湿情况、无人车距终点位置分别由坡度传感器、地面湿度传感器以及定位器获得，最终奖励为上述奖励的加权之和。

步骤5中，无人车利用强化学习训练加速方法对参数进行更新，该方法的优化过程是最小化，其中/>表示误差，/>为奖励，又因为期望项/>不容易求解，因此/>来表示/>的估计近似，利用随机梯度下降方法，分别对/>进行更新。因此最终的更新公式如下所示：

；

步骤6中，无人车将会判断是否到达终点或者判断是否达到最大训练迭代次数，若是则结束该轮训练；若不是，则继续重复步骤2-5。

以下将结合具体实施例进行说明。

这里讨论的实际问题设置为：考虑丘陵地形军工无人车航迹运行控制训练上采用最小化协方差强化学习的训练加速，此处具体操作步骤如下：

S1、根据实际作业要求搭建强化学习模型环境，考虑当前作业需求如下：军用无人车在丘陵地段勘察地形或者运输物品。由于处于丘陵地段，会相当频繁的翻阅小山丘，动力过小会导致无人车翻越不了山丘，而动力过大则可能导致无人车翻车。强化学习环境搭建如图2所示，军用无人车则是我们需要训练的智能体，军用无人车可以采取向前施加动力、向后施加动力、不施加动力三个动作；状态信息包括地形坡度、、无人车距终点距离、无人车当前速度、无人车车损情况；奖励包括r(地形坡度)，r(路面潮湿情况)，r(无人车距终点位置)，不同的奖励的设定为：

；

地形坡度、路面潮湿情况和无人车距终点距离分别由坡度传感器、潮湿传感器以及定位器获得。最终奖励由上述三种奖励，采用不同的权重进行线性累加，为；实例化已训练好的神经网络，通过将所有可选择的(状态信息，无人车动作)输入到神经网络，可以得到对应的特征，倘若没有训练好的神经网络模型，也可以采用tile coding编码器(状态信息，无人车动作)进行编码，输出特征。

S2、无人车通过坡度传感器、地面湿度传感器、速度传感器以及定位器等传感器获取当前的状态s，具体包括地形坡度、、无人车距终点距离、无人车当前速度、无人车车损情况。

S3、获取无人车当前所有可选择的动作，将所有可选的(状态信息，无人车动作)依次输入到已训练好的神经网络中，获得所有对应的特征向量，/>表示可选动作；通过线性的方法，求得所有对应的/>，即/>，其中，/>为特征权重参数向量，/>为向量转置符号，通过/>方法选择动作/>，即无人车有/>概率随机选取可选动作，有/>的概率选取让/>值最大的动作，并保存对应的特征向量/>，其中在实验过程中，我们将/>设置为0.01。

S4、无人车执行了动作，获取了最终奖励，进入了下一个状态/>，此时无人车通过坡度传感器、路面湿度传感器、定位器等传感器获取状态信息，同时获取无人车当前所有可选择的动作，将所有可选的(状态信息，无人车动作)依次输入到已训练好的神经网络中，获得所有对应的特征向量/>，/>表示可选动作；通过线性的方法，求得所有对应的，即/>，其中，/>为特征权重参数向量，/>为向量转置符号，通过/>方法选择动作/>，保存对应的特征向量/>。

S5、无人车利用强化学习训练加速方法对参数进行更新，该方法的优化过程是最小化，其中/>表示误差，/>为奖励，又因为期望项/>不容易求解，因此/>来表示/>的估计近似，利用随机梯度下降方法，分别对/>进行更新。因此最终的更新公式如下所示：

；

其中，表示特征权重参数向量，初始化为/>维/>向量，/>也对应特征向量的维度；/>表示/>的近似，初始化为0；/>表示误差；/>和/>分别是/>和/>的学习率，分别设置为0.01和0.0001

S6、无人车将会判断是否到达终点或者判断是否达到最大训练迭代次数，其中，最大迭代次数为2000次，若是则结束该轮训练；若不是，则继续重复步骤S2-S5。

将本文提出的方法与传统训练方法进行对比，结果统计如图3所示，在图3中，本文所提出的最小化协方差强化学习训练加速方法(图3中用英文minimize covariance表示)收敛速度显著大于传统的时序差分控制算法Sarsa。

综上所述，本发明方法能够通过最小化协方差强化学习方法提高丘陵地形中无人车驾驶控制的训练速度，更快学到最优控制策略，提高驾驶控制的准确性和效率，有效的解决了现有技术中驾驶控制存在的问题，具有较好的使用价值和经济效益。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种无人车驾驶控制的最小化协方差强化学习训练加速方法，用于对丘陵地形无人车驾驶控制的训练过程进行加速，其特征在于，包括以下步骤：

步骤2、获取无人车当前的状态信息，所述无人车当前的状态信息至少包括由地形坡度、路面潮湿情况、无人车距终点距离、无人车当前速度、无人车车损情况；

步骤3、获取无人车当前所有可选择的动作，将所有可选的所述状态信息及无人车动作依次输入到已训练好的所述神经网络模型中，获得所有可选的特征向量，其中/>为无人车当前的状态信息，A为无人车可选动作，/>为当前状态s下采取动作/>的特征向量；通过线性的方法，求得所有可选择的/>，即/>，其中，/>为特征权重参数向量，/>为向量转置符号，通过/>方法选择动作/>，保存对应的特征向量/>；

步骤4、无人车执行了动作，获取了即时奖励，进入了下一个状态/>，此时无人车通过坡度传感器、路面湿度传感器、定位器获取状态信息，同时获取无人车当前所有可选择的动作，将所有可选的所述状态信息及无人车动作依次输入到已训练好的所述神经网络模型中，获得所有可选的特征向量/>，/>表示可选动作；通过线性的方法，求得所有可选择的/>，即/>，其中，/>为特征权重参数向量，/>为向量转置符号，通过/>方法选择动作/>，保存对应的特征向量/>；无人车获得即时奖励分别为h，j，k，具体奖励形式如下：

；

其中h为地形坡度时的奖励，j为路面潮湿情况时的奖励，k为无人车距离终点距离时的奖励，地形坡度、路面潮湿情况、无人车距终点位置分别由坡度传感器、地面湿度传感器以及定位器获得，且最终奖励为上述所述h、j、k加权之和；

步骤5、无人车利用强化学习训练加速方法对参数进行更新，该方法的优化过程是最小化，其中/>表示误差，/>，/>为奖励，/>表示误差的期望，因为期望项/>不容易求解，因此定义/>来表示对/>的估计近似，利用随机梯度下降方法，分别对/>进行更新，最终的更新公式如下所示：

；

其中，表示特征权重参数向量；/>表示/>的估计近似；表示误差；/>和/>分别是/>和/>的学习率；

2.根据权利要求1所述的无人车驾驶控制的最小化协方差强化学习训练加速方法，其特征在于，所述步骤1具体包括：根据丘陵地形无人车的作业要求建立强化学习环境模型；将所有所述状态信息及无人车可选动作依次输入到已训练好的所述神经网络模型，获取相应的特征，所述神经网络模型已通过打好状态特征标签的数据集训练完成。