CN109765916A

CN109765916A - 一种水面无人艇路径跟踪控制器设计方法

Info

Publication number: CN109765916A
Application number: CN201910232797.0A
Authority: CN
Inventors: 马勇; 甘浪雄; 赵玉蛟; 何德林
Original assignee: Wuhan Xin Hai Long Voyage Technology R & D Co Ltd
Current assignee: Wuhan Xin Hai Long Voyage Technology R & D Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-05-17

Abstract

本发明公开了一种水面无人艇路径跟踪控制器设计方法，本发明涉及无人艇路径跟踪技术领域。本发明具体包括以下步骤：S1、根据水面无人艇路径跟踪任务需求，首先设计决策网络，可通过训练使决策网络获取决策能力，再设计探索函数，探索水面无人艇路径跟踪状态，S2、设计奖励函数，通过状态观测方法获取水面无人艇运动状态，该水面无人艇路径跟踪控制器设计方法，可实现通过采用深度强化学习算法训练出深度卷积神经网络作为水面无人艇路径跟踪控制器，简化了水面无人艇路径跟踪控制器的设计过程，很好的达到了以神经网络逼近的形式替代数学推导，并且由程序自动训练控制器，不需要人工干预，计算简单、可移植性高。

Description

一种水面无人艇路径跟踪控制器设计方法

技术领域

本发明涉及无人艇路径跟踪技术领域，具体为一种水面无人艇路径跟踪控制器设计方法。

背景技术

随着水面无人艇智能化程度不断加深，水面无人艇路径跟踪控制器显得愈加重要，传统的路径跟踪控制器设计方法是建立在数学推算分析的基础上，在理论上可以证明算法的有效性，也可以推算出高效的控制器参数。但是数学算法也有其固有的局限性，比如计算复杂、可移植性差、受环境影响严重等，与此同时，强化学习技术在人工智能、机器学习和自动控制等领域中得到了广泛的研究和应用，并被认为是设计智能系统的核心技术之一，在这样的背景下，将具有感知能力的深度学习和具有决策能力的强化学习紧密结合在一起的深度强化学习算法为无人艇路径跟踪控制器的设计提供了便捷的解决方案。

本发明的目的在于提供一种水面无人艇路径跟踪控制器设计方法，它采用深度强化学习算法训练出深度卷积神经网络作为水面无人艇路径跟踪控制器，简化了水面无人艇路径跟踪控制器的设计过程，本发明提出的方法以神经网络逼近的形式替代数学推导，并且由程序自动训练控制器，不需要人工干预。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种水面无人艇路径跟踪控制器设计方法，解决了现有水面无人艇路径跟踪控制器的数学算法具有局限性，计算复杂、可移植性差和受环境影响严重，不能实现深度强化学习算法训练出深度卷积神经网络作为水面无人艇路径跟踪控制器，无法达到简化水面无人艇路径跟踪控制器设计过程的目的，且需要人工进行干预的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种水面无人艇路径跟踪控制器设计方法，具体包括以下步骤：

S1、根据水面无人艇路径跟踪任务需求，首先设计决策网络，可通过训练使决策网络获取决策能力，再设计探索函数，探索水面无人艇路径跟踪状态；

S2、设计奖励函数，通过状态观测方法获取水面无人艇运动状态，使用奖励函数获取状态和动作奖励值；

S3、将状态和动作奖励值与水面无人艇运动状态存储到经验池；

S4、利用经验选取方法选取经验训练决策网络；

S5、通过测试数据集对训练结果进行评估，得到评估结果；

S6、根据评估结果确定是否结束训练过程，若评估不达标，则继续探索和训练。

优选的，所述该设计方法的设计需要设计决策网络、决策网络训练算法和水面无人艇运动模型，所述决策网络由1个卷积层和3个全连接层组成，所述决策网络根据水面无人艇运动状态选择动作，所述决策网络训练算法包括深度Q学习算法、奖励函数、探索函数、状态观测、经验池和经验选取，所述决策网络训练算法可训练决策网络，使决策网络选择正确的动作，所述水面无人艇运动模型将水面无人艇控制输入划分为6个控制动作，方便决策网络的训练，最终使决策网络可以根据水面无人艇运动状态选择正确的动作，即可完成路径跟踪。

优选的，所述决策网络通过所述决策网络训练算法进行训练，且决策网络可直接选取动作，无需进行复杂的数学计算及推导，所述决策网络包括输入层、卷积层、隐藏层和输出层，且卷积层与隐藏层之间、隐藏层和输出层之间均通过激活函数连接。

优选的，所述决策网络中的卷积层，通过卷积核降低输入特征的维度，且决策网络中全连接层的激活函数均为Relu函数。

优选的，所述决策网络训练算法中的奖励函数采用对数指数形式，针对水面无人艇路径跟踪任务设计，需考虑路径跟踪距离误差、方向误差和速度误差，所述决策网络训练算法中的探索函数是按概率决定是否对未知状态探索，该概率初始值为0.9，最小值为0.01，并且该概率随训练过程减小，所述决策网络训练算法中的状态观测方法观测到的状态包括水面无人艇与预设路径的位置偏差、方向偏差，与预设速度的偏差。

优选的，所述决策网络训练算法中的经验池中存储50000条不同时刻的状态、该时刻选择的动作、奖励值、是否终止训练周期和下一时刻的状态组成的记录，且决策网络训练算法中的经验选取策略每次训练时在经验池中以满足正态分布的概率随机选取1000条经验。

优选的，所述水面无人艇运动模型采用3自由度欠驱动船舶运动模型，船舶操作被离散化为“向前加速”、“向前减速”、“向左加速”、“向左减速”、“向右加速”和“向右减速”6个动作。

优选的，所述决策网络通过梯度下降法更新网络参数，学习率为0.01，且决策网络训练算法中的长期奖励折扣因子为0.9。

优选的，所述决策网络参数在训练完成后通过Tensorflow框架保存，在使用控制器时通过Tensorflow框架读取。

优选的，所述评估结果是通过计算所述训练集的准确率与所述测试集准确率的差而得出。

(三)有益效果

本发明提供了一种水面无人艇路径跟踪控制器设计方法。与现有技术相比具备以下有益效果：该水面无人艇路径跟踪控制器设计方法，具体包括以下步骤：S1、根据水面无人艇路径跟踪任务需求，首先设计决策网络，可通过训练使决策网络获取决策能力，再设计探索函数，探索水面无人艇路径跟踪状态，S2、设计奖励函数，通过状态观测方法获取水面无人艇运动状态，使用奖励函数获取状态和动作奖励值，S3、将状态和动作奖励值与水面无人艇运动状态存储到经验池，S4、利用经验选取方法选取经验训练决策网络，S5、通过测试数据集对训练结果进行评估，得到评估结果，S6、根据评估结果确定是否结束训练过程，若评估不达标，则继续探索和训练，可实现通过采用深度强化学习算法训练出深度卷积神经网络作为水面无人艇路径跟踪控制器，简化了水面无人艇路径跟踪控制器的设计过程，很好的达到了以神经网络逼近的形式替代数学推导，并且由程序自动训练控制器，不需要人工干预，计算简单、可移植性高。

附图说明

图1为本发明网络结构的结构示意图；

图2为本发明无人艇路径跟踪控制器的设计流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明实施例提供一种技术方案：一种水面无人艇路径跟踪控制器设计方法，具体包括以下步骤：

S4、利用经验选取方法选取经验训练决策网络；

S5、通过测试数据集对训练结果进行评估，得到评估结果；

本发明中，该设计方法的设计需要设计决策网络、决策网络训练算法和水面无人艇运动模型，决策网络由1个卷积层和3个全连接层组成，决策网络根据水面无人艇运动状态选择动作，决策网络训练算法包括深度Q学习算法、奖励函数、探索函数、状态观测、经验池和经验选取，决策网络训练算法可训练决策网络，使决策网络选择正确的动作，水面无人艇运动模型将水面无人艇控制输入划分为6个控制动作，方便决策网络的训练，最终使决策网络可以根据水面无人艇运动状态选择正确的动作，即可完成路径跟踪。

本发明中，决策网络通过决策网络训练算法进行训练，且决策网络可直接选取动作，无需进行复杂的数学计算及推导，决策网络包括输入层、卷积层、隐藏层和输出层，且卷积层与隐藏层之间、隐藏层和输出层之间均通过激活函数连接。

本发明中，决策网络中的卷积层，通过卷积核降低输入特征的维度，且决策网络中全连接层的激活函数均为Relu函数。

本发明中，决策网络训练算法中的奖励函数采用对数指数形式，针对水面无人艇路径跟踪任务设计，需考虑路径跟踪距离误差、方向误差和速度误差，决策网络训练算法中的探索函数是按概率决定是否对未知状态探索，该概率初始值为0.9，最小值为0.01，并且该概率随训练过程减小，决策网络训练算法中的状态观测方法观测到的状态包括水面无人艇与预设路径的位置偏差、方向偏差，与预设速度的偏差。

本发明中，决策网络训练算法中的经验池中存储50000条不同时刻的状态、该时刻选择的动作、奖励值、是否终止训练周期和下一时刻的状态组成的记录，且决策网络训练算法中的经验选取策略每次训练时在经验池中以满足正态分布的概率随机选取1000条经验。

本发明中，水面无人艇运动模型采用3自由度欠驱动船舶运动模型，船舶操作被离散化为“向前加速”、“向前减速”、“向左加速”、“向左减速”、“向右加速”和“向右减速”6个动作。

本发明中，决策网络通过梯度下降法更新网络参数，学习率为0.01，且决策网络训练算法中的长期奖励折扣因子为0.9。

本发明中，决策网络参数在训练完成后通过Tensorflow框架保存，在使用控制器时通过Tensorflow框架读取。

本发明中，评估结果是通过计算训练集的准确率与测试集准确率的差而得出。

结合实施例对本发明进行描述，首先，初始化最大训练周期、每周期训练步数、测试间隔、学习率、初始探索率、最小探索率、探索率下降步长、奖励值折扣因子、经验池大小、训练数据集大小。例如，初始化最大训练周期为2000，每周期训练步数为1000，测试间隔为200，学习率为0.01，初始探索率为0.7，最小探索率为0.01，探索率下降步长为0.1％，奖励值折扣因子为0.9，经验池大小为500000，训练数据集大小为1000，探索函数表示为：

其中，πa代表随机选取一个动作的策略，pc代表动作选取概率，πt代表利用决策网络选择一个动作的策略，st表示决策网络输入的状态，wt表示决策网络的参数。

如图2所示，在训练开始后，程序先对状态空间进行探索，程序在区间[0,1]内产生一个随机数，如果随机数小于探索率，则在“向前加速”、“向前减速”、“向左加速”、“向左减速”、“向右加速”和“向右减速”6个动作中随机选取一个动作并执行，如果产生的随机数不小于探索率，则将当前状态作为特征输入决策网络，由决策网络对当前状态进行分析，输出在当前状态下选取每个动作对应的Q值，然后选取所对应的Q值最大的一个动作执行，奖励函数设计为：

首先，为了驱动无人艇向前航行，定义航行奖励值r_M为关于路径参数θ的函数，当无人艇向前航行时，θ是递增的，r_M∈[0,k_M],k_M∈(0,1]：

其次，为了缩小无人艇与预设路径之间的误差距离，使无人艇沿预设路径航行，需要设计误差奖励值r_E，r_E是关于无人艇的当前位置(x,y)与预设路径P(θ_t)之间的距离的函数，r_E∈(0,1]：

为了增强奖励函数的作用，本文将距离误差奖励与航向角误差奖励综合利用，通过对无人艇的误差距离和误差航向角加权求和，可以使无人艇在偏离预设路径时朝预设路径接近的动作决策得到奖励，这样不但减小了无人艇路径跟踪的误差，而且加强了路径跟踪控制器的抗干扰能力，重新设计r_E为：

为了确保任务完成时间以及安全情况，设计了速度奖励r_V：r_V＝k_V1(u-u(θ_t))+k_V2(υ-υ(θ_t))。

上述每一个奖励值都会对路径跟踪控制器的训练产生一定影响，通过策略将上述奖励值综合利用，可以使得训练好的路径跟踪控制器具有更全面的能力。

动作执行完成后，获取动作执行完成后的状态，由奖励函数对上一状态下选取的动作进行评价，得到奖励值，将动作执行前状态、执行的动作、执行的动作的奖励值以及动作执行完后的状态组成一条经验，并将该经验存储到经验池中。

当经验池中的经验数量达到5000条后，采用经验选取策略对经验池中的经验进行采样，选取1000条经验组成训练数据集，然后对决策网络的副本采用梯度下降法进行训练，每隔500次训练，将决策网络副本中的参数同步到决策网络中。

当决策网络训练了200个周期后，对决策网络进行一次测试集测试，并计算训练集的准确率与测试集的准确率的差，然后判断训练集的准确率与测试集的准确率的差是否大于0.001％，如果大于，则重复上述过程，直到训练集的准确率与测试集的准确率的差小于0.001％，最后将当前的决策网络参数保存到本地。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种水面无人艇路径跟踪控制器设计方法，其特征在于：具体包括以下步骤：

S4、利用经验选取方法选取经验训练决策网络；

S5、通过测试数据集对训练结果进行评估，得到评估结果；

2.根据权利要求1所述的一种水面无人艇路径跟踪控制器设计方法，其特征在于：所述该设计方法的设计需要设计决策网络、决策网络训练算法和水面无人艇运动模型，所述决策网络由1个卷积层和3个全连接层组成，所述决策网络根据水面无人艇运动状态选择动作，所述决策网络训练算法包括深度Q学习算法、奖励函数、探索函数、状态观测、经验池和经验选取，所述决策网络训练算法可训练决策网络，使决策网络选择正确的动作，所述水面无人艇运动模型将水面无人艇控制输入划分为6个控制动作，方便决策网络的训练，最终使决策网络可以根据水面无人艇运动状态选择正确的动作，即可完成路径跟踪。

3.根据权利要求1所述的一种水面无人艇路径跟踪控制器设计方法，其特征在于：所述决策网络通过所述决策网络训练算法进行训练，且决策网络可直接选取动作，无需进行复杂的数学计算及推导，所述决策网络包括输入层、卷积层、隐藏层和输出层，且卷积层与隐藏层之间、隐藏层和输出层之间均通过激活函数连接。

4.根据权利要求1或3所述的一种水面无人艇路径跟踪控制器设计方法，其特征在于：所述决策网络中的卷积层，通过卷积核降低输入特征的维度，且决策网络中全连接层的激活函数均为Relu函数。

5.根据权利要求1或2所述的一种水面无人艇路径跟踪控制器设计方法，其特征在于：所述决策网络训练算法中的奖励函数采用对数指数形式，针对水面无人艇路径跟踪任务设计，需考虑路径跟踪距离误差、方向误差和速度误差，所述决策网络训练算法中的探索函数是按概率决定是否对未知状态探索，该概率初始值为0.9，最小值为0.01，并且该概率随训练过程减小，所述决策网络训练算法中的状态观测方法观测到的状态包括水面无人艇与预设路径的位置偏差、方向偏差，与预设速度的偏差。

6.根据权利要求1或2所述的一种水面无人艇路径跟踪控制器设计方法，其特征在于：所述决策网络训练算法中的经验池中存储50000条不同时刻的状态、该时刻选择的动作、奖励值、是否终止训练周期和下一时刻的状态组成的记录，且决策网络训练算法中的经验选取策略每次训练时在经验池中以满足正态分布的概率随机选取1000条经验。

7.根据权利要求1或2所述的一种水面无人艇路径跟踪控制器设计方法，其特征在于：所述水面无人艇运动模型采用3自由度欠驱动船舶运动模型，船舶操作被离散化为“向前加速”、“向前减速”、“向左加速”、“向左减速”、“向右加速”和“向右减速”6个动作。

8.根据权利要求1或2所述的一种水面无人艇路径跟踪控制器设计方法，其特征在于：所述决策网络通过梯度下降法更新网络参数，学习率为0.01，且决策网络训练算法中的长期奖励折扣因子为0.9。

9.根据权利要求1或2所述的一种水面无人艇路径跟踪控制器设计方法，其特征在于：所述决策网络参数在训练完成后通过Tensorflow框架保存，在使用控制器时通过Tensorflow框架读取。

10.根据权利要求1或2所述的一种水面无人艇路径跟踪控制器设计方法，其特征在于：所述评估结果是通过计算所述训练集的准确率与所述测试集准确率的差而得出。