CN110472738A

CN110472738A - 一种基于深度强化学习的无人艇实时避障算法

Info

Publication number: CN110472738A
Application number: CN201910756983.4A
Authority: CN
Inventors: 周治国
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology; Beijing Institute of Technology BIT
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-11-19

Abstract

本发明公开了一种基于深度强化学习的无人艇实时避障算法，涉及无人艇技术领域；本发明采用深度学习方法获取图像信息，在A3C算法的基础上，优化网络结构，丰富避障信息，根据规划路径、躲避障碍、探索适应环境的三项需求，重新规范智能体的动作空间，选择三类环境进行训练；与GPU平台相结合，将预训练数据整合到深度神经网络上，提高训练效率，保证算法的实时性。结果表明，本方法在满足单次处理速度要求的同时，训练时间缩短59.3％，效率提高71.7％以上，算法模型在未知环境中的表现得到有效提升，优于现有方案。

Description

一种基于深度强化学习的无人艇实时避障算法

技术领域

本发明涉及无人艇技术领域，具体是一种基于深度强化学习的无人艇实时避障算法。

背景技术

水面无人艇作为一种自主的水面无人航行器，凭借着小体积、高智能化、能够自主完成任务的特性，在军事与民用领域有着广泛的应用前景。无人艇的局部避障技术作为衡量其智能化程度的重要标准之一，要求无人艇在一定的范围内，对周围未知与已知的环境进行感知判断，并能够迅速避开障碍物，最终安全到达指定位置。无人艇通常采用红外、摄像头、超声以及激光传感器作为信息获取源，随着硬件技术以及制造能力的进步，各类传感器的精度都在不断提升，能够较好地满足无人艇避障对于数据精确性的要求。即便如此，在面对潜在的未知危险时，无人艇做出合理准确的局部路径规划，除了依赖高精度传感器的数据，更多的依赖于算法的运算能力，因为传感器仅仅提供了用于辅助判断的检测信息，真正做出决策的是算法本身，如航行的角度、方位、速度等，都取决于算法。局部避障算法的效率高低与反应快慢，都会影响到无人艇避障效果。因此，在已知或未知的复杂水域中有效运行的避障算法对于无人艇是十分有必要的。近几年，对无人艇局部避障的研究越来越看重算法的自主能力，即如何通过不断与环境互动实现自我学习，达到适应不同环境的效果。强化学习是一种在主动交互试错中自主学习策略的一种人工智能方法，在路径规划中，能够帮助智能体(Agent)寻找到一条合理的无碰路径。而与深度学习的结合，使深度强化学习方法在应对大规模数据时的处理能力得到提升。如Markus Wulfmeier等提出了MEDIRL算法，采用大型代价函数以应对大规模复杂环境，并成功应用到高尔夫球车自动驾驶平台上；夏伟利用经验池回放技术与聚类状态空间再采样，在TORCS自动驾驶仿真平台上进行测试，将训练时间缩短了90％以上，稳定性提高超过30％。

不同于陆地环境的行驶过程，无人艇航行的水面环境具有一定的特殊性，在水面进行局部路径规划任务时，通常面临以下两种挑战：

(1)环境信息复杂且动态性强，无人艇在水面航行时，会受到风、浪、流等自然环境的干扰，这些干扰动态性较强，难以预测；此外，复杂的环境信息还包括行进过程中可能遇到的浮标、信号灯等静态障碍物以及其他船舶等动态障碍，因此，无人艇的局部路径规划需要考虑多重环境因素，从复杂多变的环境中快速提取出有效信息，及时做出应对；

(2)水面运动特性与航行规则的约束，在实际航行过程中，受环境干扰以及惯性的影响，无人艇的运动模型以及航速控制往往表现为非线性，这一特性增加了控制与决策的不确定性；在不同的水域航行时，还需要根据当前环境的实时状态，采取不同的避障策略，而面对完全陌生的新环境时，需要局部避障系统能够利用获取的信息，根据自身的经验判断做出最优决策。因此，在无人艇局部避障系统的设计上还应当保证算法能够自我学习以适应不同的环境与规则。

发明内容

本发明的目的在于提供一种基于深度强化学习的无人艇实时避障算法，以解决上述问题。

为实现上述目的，本发明提供如下技术方案：

一种基于深度强化学习的无人艇实时避障算法，包括以下步骤：

1)在深度神经网络CNN的基础上增加两个长短期记忆(Long Short-Term Memory，LSTM)网络，第一个网络(LSTM1)包含64个隐藏单元，输入为图像信息与上一次的奖赏信息；第二个网络(LSTM2)包含256个隐藏单元，输入为图像信息、LSTM1的输出价值、当前的速度以及上一次的动作；在每一次迭代过后，网络保留了之前的图像信息it、采取的动作a_t-1以及该动作的回报r_t-1，为下一次的学习提供参考；

2)在A3C算法中增加深度检测与回环检测两项辅助任务，丰富导航信息；

3)将网络与GPU平台结合，处理训练与预测的数据；多个并行的Agent与环境产生的数据先经过训练队列被放入到训练器进行批处理，再输入到GPU网络中进行训练；

4)以智能体代表无人艇，规范其动作空间：针对无人艇探索—避障—适应动态环境的需求，用三类环境模型来共同模拟无人艇的实际航行环境，将算法在其中进行训练迭代，训练完成后，在不同环境中验证，智能体将视觉信息输入到深度强化学习网络中，得到避障决策。

在进一步的方案中：所述步骤2)包括：

2-1)添加深度检测网络GD，生成深度信息，GD由一个全连接层与softmax函数组成，通过深度缓冲区将RGB图像量化为8个灰度色阶，保证8个色阶均匀分布，输出深度信息D，在减少数据维度的同时，将深度检测转化为分类任务；

2-2)添加回环检测网络GL，生成回环信息，GL由一个全连接层与sigmoid函数组成，输出回环信息L，将回环检测转化为二元分类任务，判断智能体在训练过程中是否到到达过同一位置。

在进一步的方案中：Agent的输出策略同样经过预测队列被放入到预测器中，经过处理后被传递给GPU网络中进行计算与决策。

在进一步的方案中：所述深度神经网络包括卷积神经网络CNN与长短期记忆网络LSTM1，LSTM2，其模型目标优化函数为：

在进一步的方案中：所述深度检测网络位于卷积层与LSTM2之前，灰度色阶量化值为{0,0.05,0.175,0.3,0.425,0.55,0.675,0.8,1}，回环检测网络在LSTM2中。

在进一步的方案中：所述融合网络采用熵正则化方法对动作损失进行修正，并在训练过程中采用RMSProp算法进行梯度优化。

在进一步的方案中：所述无人艇动作空间规范为：向前(forward)，向左(strafe_left)，向右(strafe_right)，向左看(原地左转)(look_left，-60°～0°)，向右看(原地右转)(look_right，0°～60°)，在步骤4)之前，将视觉信息输入到深度强化学习网络中进行训练，以迭代时间与得分为评价标准，在验证阶段，直接利用之前的学习经验为参考，进行实时判断与决策。

相较于现有技术，本发明的有益效果如下：

本发明采用深度学习方法获取图像信息，在A3C算法的基础上，优化网络结构，丰富避障信息，根据规划路径、躲避障碍、探索适应环境的三项需求，重新规范智能体的动作空间，选择三类环境进行训练；与GPU平台相结合，将预训练数据整合到深度神经网络上，提高训练效率，保证算法的实时性。

结果表明，本方法在满足单次处理速度要求(33FPS)的前提下,在训练时间方面，直接采用A3C算法训练，在三张地图上分别用12.35h，4.24h，10.20h达到收敛，平均每完成一次训练的耗时约为6.43s。经过GPU网络改进后，收敛时间得到了显著缩短，分别为4.50h，1.50h，5.00h，单次训练时间为2.64s左右。通过比较，本方法的训练时间降低了大约59.3％；在获得最优路径的时间方面，本方法分别为2.25h，0.60h，1.00h，而A3C则分别需要8.65h，2.12h，7.14h，训练效率提高了71.7％以上。同时算法模型在未知环境中的表现得到有效提升，优于现有方案。

附图说明

图1为本发明的改进网络示意图。

图2为本发明的融合示意图。

图3为本发明的算法的训练环境。

图4为本发明的算法的验证环境。

图5为仿真环境示意图。

具体实施方式

以下实施例会结合附图对本发明进行详述。本发明所列举的各实施例仅用以说明本发明，并非用以限制本发明的范围。对本发明所作的任何显而易知的修饰或变更都不脱离本发明的精神与范围。

实施例1

本发明实施例中，一种基于深度强化学习的无人艇实时避障算法，包括以下步骤：

S10、在深度神经网络CNN的基础上增加两个长短期记忆(Long Short-TermMemory，LSTM)网络，第一个网络(LSTM1)包含64个隐藏单元，输入为图像信息与上一次的奖赏信息；第二个网络(LSTM2)包含256个隐藏单元，输入为图像信息、LSTM1的输出价值、当前的速度以及上一次的动作；在每一次迭代过后，网络保留了之前的图像信息i_t、采取的动作a_t-1以及该动作的回报r_t-1，为下一次的学习提供参考。

S20、在A3C算法中增加深度检测与回环检测两项辅助任务，丰富导航信息。

具体来说，步骤S20包括：

S201、添加深度检测网络GD，生成深度信息，GD由一个全连接层与softmax函数组成，通过深度缓冲区将RGB图像量化为8个灰度色阶，保证8个色阶均匀分布，输出深度信息D，在减少数据维度的同时，将深度检测转化为分类任务；

S202、添加回环检测网络GL，生成回环信息，GL由一个全连接层与sigmoid函数组成，输出回环信息L，将回环检测转化为二元分类任务，判断智能体在训练过程中是否到到达过同一位置。

S30、将网络与GPU平台结合，处理训练与预测的数据；多个并行的Agent与环境产生的数据先经过训练队列被放入到训练器进行批处理，再输入到GPU网络中进行训练。

S40、以智能体代表无人艇，规范其动作空间：针对无人艇探索—避障—适应动态环境的需求，用三类环境模型来共同模拟无人艇的实际航行环境，将算法在其中进行训练迭代，训练完成后，在不同环境中验证，智能体将视觉信息输入到深度强化学习网络中，得到避障决策。

进一步的，Agent的输出策略同样经过预测队列被放入到预测器中，经过处理后被传递给GPU网络中进行计算与决策。

进一步的，所述深度神经网络包括卷积神经网络CNN与长短期记忆网络LSTM1，LSTM2，其模型目标优化函数为：

进一步的，所述深度检测网络位于卷积层与LSTM2之前，灰度色阶量化值为{0,0.05,0.175,0.3,0.425,0.55,0.675,0.8,1}，回环检测网络在LSTM2中。

进一步的，所述融合网络采用熵正则化方法对动作损失进行修正，并在训练过程中采用RMSProp算法进行梯度优化。

进一步的，所述无人艇动作空间规范为：向前(forward)，向左(strafe_left)，向右(strafe_right)，向左看(原地左转)(look_left，-60°～0°)，向右看(原地右转)(look_right，0°～60°)，在步骤4)之前，将视觉信息输入到深度强化学习网络中进行训练，以迭代时间与得分为评价标准，在验证阶段，直接利用之前的学习经验为参考，进行实时判断与决策。

实施例2

本发明实施例中将结合附图对实施例1所述的方法进行补充说明：

请参阅1，在本发明的优化网络中，CNN由2个全卷积层与1个全连接层组成，将输入的图像i_t解码后输出图像信息与深度信息D，LSTM2的输出为策略π、价值V以及回环信息L。

请参阅图2，本发明利用异步训练方法，执行多个agent同时采样，主网络的参数直接赋予agent中的子网络，而各个agent中的梯度可以对主网络的参数进行更新。主网络直接利用获取到的样本进行训练，训练队列与预测队列经过批处理后输入到GPU网络中。考虑到GPU并行计算的特点，过多的训练器和训练器虽然加快了队列请求处理，但是减少了单次传递给GPU的数据量从而降低了效率，而Agent的数量会受到CPU核心数的制约，因此需要平衡Agent、训练器、预测器的数目，经过实际测试后，最终设置了8个Agent，2个训练器与2个预测器。

在训练阶段，以智能体代表无人艇，置于图3的三种环境中，分别训练本发明算法探索、避障、适应动态环境的能力。M1由静态的障碍环境组成，要求智能体在限定的时间内寻找到到达目标点的路径，规划结果与路径好坏用得分来评判，主要考察智能体在静态的环境中环境探索与规划的能力；M2由开阔的静态空间及其中的障碍物表示，要求智能体在短时间内到达地图中的多个指定位置，同时避开障碍物，在训练迭代过程中，到达指定位置得1分，碰到障碍物得-1分，得分高低反映了智能体避障能力的好坏；M3的训练过程与评判标准与M1类似，但是其中的地形障碍由系统随机生成且不断发生变化，智能体的每一次探索都可能遇到不同的地形环境，需要智能体在不断的探索中积累经验，提升得分，主要考察了智能体适应动态环境的能力。以收敛速度与平均处理速度为标准，将本发明算法与现有方法进行比较。

在验证阶段，将训练模型置于图4的测试环境(M4、M5)中，验证本发明算法对全新环境的适应能力，无论是环境地图规模还是环境复杂程度，测试环境均明显复杂于训练环境。最终的得到避障决策信息如图5所示，其中，动作选择从上到下依次是左转、右转、向左、向右、前进、针对不同的障碍物，智能体可以获取到相应的深度信息，对障碍物的位置和距离做出判断，算法计算出策略的价值之后，从图中可以看出，智能体选择了概率最大的动作，采取了正确的策略避开障碍物。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度强化学习的无人艇实时避障算法，其特征在于，包括以下步骤：

1)在深度神经网络CNN的基础上增加两个LSTM网络，LSTM1包含64个隐藏单元，输入为图像信息与上一次的奖赏信息；LSTM2包含256个隐藏单元，输入为图像信息、LSTM1的输出价值、当前的速度以及上一次的动作；在每一次迭代过后，网络保留了之前的图像信息i_t、采取的动作a_t-1以及该动作的回报r_t-1，为下一次的学习提供参考；

2.根据权利要求1所述的基于深度强化学习的无人艇实时避障算法，其特征在于，所述步骤2)包括：

3.根据权利要求2所述的基于深度强化学习的无人艇实时避障算法，其特征在于，Agent的输出策略同样经过预测队列被放入到预测器中，经过处理后被传递给GPU网络中进行计算与决策。

4.根据权利要求3所述的基于深度强化学习的无人艇实时避障算法，其特征在于，所述深度神经网络包括卷积神经网络CNN与长短期记忆网络LSTM1，LSTM2，其模型目标优化函数为：

5.根据权利要求4所述的基于深度强化学习的无人艇实时避障算法，其特征在于，所述深度检测网络位于卷积层与LSTM2之前，灰度色阶量化值为{0,0.05,0.175,0.3,0.425,0.55,0.675,0.8,1}，回环检测网络在LSTM2中。

6.根据权利要求5所述的基于深度强化学习的无人艇实时避障算法，其特征在于，所述融合网络采用熵正则化方法对动作损失进行修正，并在训练过程中采用RMSProp算法进行梯度优化。

7.根据权利要求6所述的基于深度强化学习的无人艇实时避障算法，其特征在于，所述无人艇动作空间规范为：forward，strafe_left，strafe_right，look_left，-60°～0°，look_right，0°～60°，在步骤4)之前，将视觉信息输入到深度强化学习网络中进行训练，以迭代时间与得分为评价标准，在验证阶段，直接利用之前的学习经验为参考，进行实时判断与决策。