CN108444481B

CN108444481B - 一种基于辅助决策系统的水下潜器路径规划方法

Info

Publication number: CN108444481B
Application number: CN201810248836.1A
Authority: CN
Inventors: 孙玉山; 程俊涵; 张国成; 焦文龙; 冉祥瑞; 王力锋; 吴凡宇; 王子楷; 封飞翔
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-03-25
Filing date: 2018-03-25
Publication date: 2019-08-06
Anticipated expiration: 2038-03-25
Also published as: CN108444481A

Abstract

本发明提供了一种基于辅助决策系统的水下潜器路径规划方法，属于水下潜器路径规划领域。本发明提供的方法包括：根据海图信息以及已知声呐信息确定规划空间；对已知声呐性能建模，确定水下潜器安全虚拟外壳；利用Q学习算法进行全局路径规划；采集传感器信息，判断是否需要采用辅助决策系统，若需要则启动辅助决策系统进行躲避声呐或障碍物；判断是否到达目标点。本发明将水下潜器的声隐身性能作为影响因素引入路径规划中，并与辅助决策系统相结合，使水下潜器可以在复杂环境中保持声隐身状态下同时进行自主路径规划，提高了水下潜器的自主能力、实用性以及安全性。

Description

一种基于辅助决策系统的水下潜器路径规划方法

技术领域

本发明属于水下潜器路径规划、人工智能等领域，具体涉及一种基于辅助决策系统的水下潜器路径规划方法。

背景技术

水下潜器在海洋科学研究、海洋开发、水下工程以及军事等方面都有广泛的应用前景。

路径规划指找到一条从起始点到目标点之间的安全无碰路径，是机器人导航研究中的重要课题，随着计算机智能技术的发展，使智能机器人具有自学习能力成为各领域广泛研究的热点。其关键技术就是设计学习方法增强机器人的智能，也就是通过学习训练让机器人获得自己解决问题的能力。在目前的多种学习方法中，Q学习被认为是比较适合于在未知的动态环境下进行机器人避障和路径规划的学习方法。

计算机辅助决策系统能够高效地处理相关信息，提高水下机器人的智能程度并提高安全性能。辅助决策系统通常包括态势评估、方案生成、仿真推演、评估优选。当前，国内研究成果多限于对潜艇隐身态势的评估，对隐身辅助决策中的方案自动生成、仿真推演的研究较少，不能提供更为直观的辅助决策信息，仍需人为根据态势做出决策。

发明内容

本发明提供了一种基于辅助决策系统的水下潜器路径规划方法，包括以下步骤：

步骤1.提取海图信息，确定规划空间，确定障碍物与已知声呐位置，对规划空间进行环境建模；

步骤2.对已知声呐进行性能建模，建立水下潜器隐身安全虚拟外壳；

步骤3.根据规划空间进行全局路径规划，水下潜器按照初始路径移动；

步骤4.将水下潜器的感知区域视为滚动窗口，刷新滚动窗口内信息，水下潜器每走一个步长，就刷新一次窗口内信息，并判断是否需要启动辅助决策系统，若需要执行辅助决策系统，执行步骤5，否则执行步骤6；

步骤5.对当前状态进行态势评估，根据评估态势执行辅助决策系统，水下潜器执行决策策略；

步骤6.判断水下潜器是否到达目标点，若未到达执行步骤4，若到达目标，任务完成。

本发明将躲避声呐侦测作为目标之一引入路径规划中，采用声呐方程对声纳性能进行建模，计算探测概率，推导出水下潜器安全虚拟外壳。探测概率P_d为：

其中，P_fa为虚警率，根据需求自行设置，一般设定为50％；R_arr为会被探测到时的信噪比值。

取P_d＝P_T时的R_arr，根据公式

R_arr＝10^{SL-TL-NL+DI/10}

计算声传播损失TL。其中SL为声源级，TL为传播损失，NL为背景噪声，DT为检测阈值。根据TL值可参考传播损失图表获得声呐探测距离R_s，即水下潜器安全距离R_s，根据安全距离建立水下潜器安全虚拟外壳。

本发明采用Q学习算法进行全局路径规划，利用如下公式训练Q值矩阵：

式中，r(s_t,a)为当前状态所对应动作的奖励值，Q(s_t,a)为当前状态所对应动作的累计强化值，γ为学习率(根据情况其值在0到1之间取值，如果γ接近0，机器人趋于考虑即时奖励；如果γ接近1，机器人会更加考虑未来的累计奖励；为了使机器人更快抵达目标点，在本例中可将γ设为0.8)，为下一状态所对应动作的Q值。

本发明使用一个包含输入层，隐含层以及输出层的三层人工神经网络推理机建立辅助决策系统，采用梯度下降的反向传播算法训练人工神经网络，采用如下公式训练参数：

其中w^l表示第(l-1)层连接到第l层的权重；b^l表示第l层的偏置；x表示输入的样本，δ^l为第l层的误差。

与现有技术相比，本发明的优势在于：

1.将躲避声呐作为约束目标加入到水下潜器路径规划方法中，提高了路径规划方法的适用性；

2.采用Q学习方法进行水下潜器全局路径规划，能够适应复杂的海洋环境，在运行过程中能够不断学习经验方案，不断提高方案的适用性；

3.水下潜器采用辅助决策系统进行躲避障碍物以及声呐，使水下潜器更具智能，提高了水下潜器的自主能力。

附图说明

图1为本发明的流程图；

图2为声呐探测概率、安全半径计算流程图；

图3为Q学习的全局路径规划流程图；

图4为辅助决策系统示意图。

具体实施方式

下面结合附图对本发明提供的方法作更详细的描述：

首先根据海图信息以及已知声呐位置对环境进行建模。本发明考虑频率范围0Hz—8000Hz范围内的窄带噪声，分为28个频率处理带宽分别计算出的声源级。输入声呐的坐标(x_i,y_i,z_i)并通过传播损失TL模块得到TL值。根据声呐水听器的工作频率范围，通过SL模块计算得到的对应方位的且在接收频率范围内的声源级，计算与传播损失差值SL-TL值带入声呐方程。

被动声呐接收到的宽带信号大于检测阈值即信号余量SE大于0时即认为进入声呐探测范围。方案引入探测概率值P_d作为评估威胁程度的参数，即声呐对水下潜器在相对位置上的探测概率值。这里假设噪声和信号都服从瑞利分布，建立被动声呐方程：

SL-TL-NL+DI＝DT

其中，SL为声源级，表示水下潜器的噪声辐射；TL为传播损失，表示水下潜器噪声到声呐之间传递由于海洋水文环境等因素产生损失；NL为背景噪声；DI为指向性指数，表示表示水听器阵增益，DI＝10log(2Δx/λ)；DT为检测阈值，过滤接受到的水下声信号，根据探测概率阈值P_T和虚警率P_fa得到。其中P_T取值范围为0.1至0.9，P_fa取值范围为0.001至0.00001。根据公式得到信噪比：

根据公式计算得到检测阈值DT：

DT＝10logR_T

引入信号余量SE模型，SE表示信噪比超过检测阈值的量。

SE＝10logR_arr-DT

SE＝SL-TL-NL+DI-DT

上式为声呐方程另一种表达方式，这里假设噪声和信号幅度都服从瑞利分布，则探测概率P_d和指定探测概率P_T存在以下关系

通过联立上述公式即可得到声呐探测概率P_d的表达式

R_arr＝10^{SL-TL-NL+DI/10}

利用探测概率计算中的满足探测概率阈值P_T的SL-TL值，在水平面上取36个等分点，每个点取SL模块已算好的值，再利用传播损失TL模块循环代入不同方向上的不同坐标点取得满足信号余量SE为零的坐标点，将36个坐标点连线即得到探测范围包络面，为方便探测范围模型建立，做出垂直于竖直方向的不同深度下的探测范围包络线。根据探测范围包络线建立水下潜器隐身安全虚拟外壳。

根据建立完成的规划空间模型进行采用Q学习算法全局路径规划，详细过程如下：

步骤1.设计参数γ的值，建立环境奖励值R矩阵；

步骤2.初始化Q值矩阵为0；

步骤3.设置初始位置为当前状态，目标位置为目标状态；

步骤4.若当前状态为目标状态，转步骤8，若当前状态不是目标状态，转步骤5；

步骤5.对当前状态的所有可能动作中，随机选择一个动作，到达下一个状态；

步骤6.对下一个状态，基于所有可能的动作，获得最大的Q值，计算公式：

步骤7.设置下一个状态为当前状态，转步骤4；

步骤8.判断Q值是否收敛，若是，结束，否则，转步骤3。

基于训练好的Q值矩阵，选择当前状态所对应的最大Q值的动作进行全局规划得到全局最优路径。

潜器按全局最优路径移动，并更新传感器信息，判断是否需要进行辅助决策。当出现障碍物或未知声呐时，启用辅助决策系统。

辅助决策系统基于神经网络建立。辅助决策由一个包含输入层，隐含层以及输出层构成的三层人工神经网络推理机构成。其中输入层包含2个节点，分别是探测概率、潜器和声呐之间的相对运动趋势；隐含层包含3个节点，储存规则；输出层包含i+2个节点，分别是i种设备状态以及潜器的深度和速度。

选取探测概率的隶属度中心为0.5、0.75、1；选取相对运动趋势的隶属度中心为0、1。输入层接收态势评估结果中的探测概率和相对运动趋势，并采用sigmoid函数进行归一化运算。隐含层采用高斯函数进行模糊化，计算探测概率和相对运动趋势对相应隶属度中心的隶属度，并对隶属度进行归一化运算。

采用反向传播算法训练人工网络的过程如下：

步骤1.输入训练集；

步骤2.对于训练集中的每个样本x，设置输入层对应的激活值；

步骤3.将训练集数据输入到ANN的输入层，经过隐藏层，最后达到输出层并输出结果：

z^l＝w^la^l-1+b^l

a^l＝σ(z^l)

步骤4.计算输出层误差：

步骤5.计算反向传播误差：

δ^l＝((w^l+1)^Tδ^l-1)⊙σ'(z^l)

步骤6.使用梯度下降，训练参数：

其中，表示第(l-1)层的第k个神经元连接到第l层的第j个神经元的权重；b_j ^l表示第l层的第i个神经元的偏置；表示第l层第j个神经元的输入；表示第l层的第j个神经元的输出；σ表示激活函数；x表示输入的样本；⊙表示Hadamard乘积。

输出层中利用sigmoid函数进行归一化，并设定i种设备的开关阈值为0.5，推进电机的四种工况阈值为0.2、0.4、0.6、0.8，参考速度为最大航速与归一化速度输出值的乘积，参考深度为最大潜深与归一化深度输出值的乘积。

通过执行辅助决策系统的输出，包括开关设备、调节推进器大小以及变向，水下潜器完成基于辅助决策系统的躲避声呐或障碍物的规划，继续前进。

当潜器到达目标点时，路径规划完成。

Claims

1.一种基于辅助决策系统的水下潜器路径规划方法，其特征在于：包括以下步骤：

步骤4.将水下潜器的感知区域视为滚动窗口，刷新滚动窗口内信息，水下潜器每走一个步长，就刷新一次窗口内信息，并判断是否需要执行辅助决策系统，若需要执行辅助决策系统，执行步骤5，否则执行步骤6；

步骤5.对当前状态进行态势评估，根据评估态势执行辅助决策系统，水下潜器完成基于辅助决策系统的躲避声呐或障碍物的路径规划；

步骤6.判断水下潜器是否到达目标，若未到达执行步骤4，若到达目标，任务完成；

所述的建立水下潜器隐身安全虚拟外壳过程为：

当被动声呐接收到的宽带信号大于检测阈值即信号余量SE大于0时即认为进入声呐探测范围，引入探测概率P_d作为评估威胁程度的参数，即声呐对水下潜器在相对位置上的探测概率值，设噪声和宽带信号都服从瑞利分布，建立被动声呐方程：

SL-TL-NL+DI＝DT

其中，SL为声源级，表示水下潜器的噪声辐射；TL为传播损失，表示水下潜器噪声到声呐之间传递由于海洋水文环境等因素产生损失；NL为背景噪声；DI为指向性指数，表示被动声呐阵增益，DI＝10log(2Δx/λ)；DT为检测阈值，过滤接收到的水下声信号，根据探测概率阈值P_T和虚警率P_fa得到信噪比，其中P_T取值范围为0.1至0.9，P_fa取值范围为0.001至0.00001，根据公式得到信噪比：

根据公式计算得到检测阈值DT：

DT＝10logR_T

引入信号余量SE模型，SE表示信噪比超过检测阈值的量，

SE＝10logR_arr-DT

SE＝SL-TL-NL+DI-DT

上式为声呐方程另一种表达方式，设噪声和宽带信号幅度都服从瑞利分布，则探测概率P_d和探测概率阈值P_T存在以下关系

通过联立上述公式即可得到声呐探测概率P_d的表达式

R_arr＝10^{SL-TL-NL+DI/10}

利用探测概率计算中的满足探测概率阈值P_T的SL-TL值，在水平面上取36个等分点，每个点取SL模块已算好的值，再利用传播损失TL模块循环代入不同方向上的不同坐标点取得满足信号余量SE为零的坐标点，将36个坐标点连线即得到探测范围包络面，为方便探测范围模型建立，做出垂直于竖直方向的不同深度下的探测范围包络线，根据探测范围包络线建立水下潜器隐身安全虚拟外壳。

2.根据权利要求1所述的一种基于辅助决策系统的水下潜器路径规划方法，其特征在于：所述的全局路径规划采用Q学习算法根据建立完成的规划空间模型进行，具体过程如下：

步骤1.设计参数γ的值，建立环境奖励值R矩阵；

步骤2.初始化Q值矩阵为零矩阵；

步骤3.设置初始位置为当前状态，目标位置为目标状态；

步骤5.在当前状态的所有可能动作中，随机选择一个动作，到达下一个状态；

步骤7.设置下一个状态为当前状态，转步骤4；

步骤8.判断Q值是否收敛，若是，结束，否则，转步骤3；

3.根据权利要求1所述的一种基于辅助决策系统的水下潜器路径规划方法，其特征在于：所述的辅助决策系统基于神经网络建立，辅助决策系统由一个包含输入层，隐含层以及输出层的三层人工神经网络推理机构成；其中输入层包含2个节点，分别是探测概率、潜器和声呐之间的相对运动趋势；隐含层包含3个节点，储存规则；输出层包含i+2个节点，分别是i种设备状态以及潜器的深度和速度。

4.根据权利要求3所述的一种基于辅助决策系统的水下潜器路径规划方法，其特征在于：所述的辅助决策系统的运算方式如下：选取探测概率的隶属度中心为0.5、0.75、1；选取相对运动趋势的隶属度中心为0、1，输入层接收态势评估结果中的探测概率和相对运动趋势，并采用sigmoid函数进行归一化运算，隐含层采用高斯函数进行模糊化，计算探测概率和相对运动趋势对相应隶属度中心的隶属度，并对隶属度进行归一化运算。