CN112347961A

CN112347961A - 水流体内无人平台智能目标捕获方法及系统

Info

Publication number: CN112347961A
Application number: CN202011276516.0A
Authority: CN
Inventors: 李玉庆; 陈智超; 王日新; 江飞龙; 黄胜全; 杨金鸿; 陈卓; 徐敏强
Original assignee: Harbin Institute of Technology Shenzhen; CSSC Systems Engineering Research Institute
Current assignee: Harbin Institute of Technology Shenzhen; CSSC Systems Engineering Research Institute
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-09
Anticipated expiration: 2040-11-16
Also published as: CN112347961B

Abstract

本发明涉及一种水流体内无人平台智能目标捕获方法及系统，所述方法包括如下步骤：步骤一、构建水流体内无人平台决策模型：构建水流体内探测信号模拟模型，完成水流体内探测信号的重叠判定，然后构建水流体内运动学模型以及导引模型；步骤二、构建线导式自航行体追踪捕获场景模型：场景包括场景设定、决策内容和环境设置；步骤三、在线导式自航行体追踪捕获场景模型中，应用强化学习方法，最终实现水流体内无人平台的智能目标捕获。在不同的场景下，能够分别采取合适的线导式自航行体的导引方法‑速度组合策略，并且捕获命中率均可达到80％以上，均优于单一策略综合命中率。

Description

水流体内无人平台智能目标捕获方法及系统

技术领域

本发明属于水流体内无人平台技术领域，具体涉及一种水流体内无人平台智能目标捕获方法及系统。

背景技术

水流体内无人平台搭载有可以发射并具备驱动能力的自航行体功能性载荷，可用于对目标的捕获，其捕获追踪能力由导引方式的先进程度决定，导引方式基本上可归纳为线导式与自导式两大类，相比自导式，线导式自航行体具有反应速度快，对目标运动要素的依赖性小，对目标机动有较好的适应能力，抗干扰能力强等特点。线导式自航行体虽然在发射条件上降低了要求，但在发射之后，仍与无人平台保持线导联系，决策系统需要实时对线导式自航行体进行遥控导引。同时，导引方法的多样化(如现在方位法，前置点法、未来方位法等)，也给线导式自航行体的使用带来更大的难度及复杂性。

现有的关于水流体内无人平台使用线导式自航行体追踪捕获目标的研究，大多着手于提出各种改进的导引方法，但在整个追踪捕获过程中，各阶段的情况并不相同，只是使用单一的线导导引方法不能发挥自航行体的最大效能。目前关于线导导引方法组合策略的研究很少，并且只以规则的形式表达了导引方法的切换策略，只能应用于特定的场景，灵活性不足，方法泛化性能差。另外，目前也缺少对于自航行体引导方法和速度进行共同决策的研究，所以目前急需一种新的水流体内无人平台智能目标捕获决策方法。

发明内容

本发明为解决目前线导导引方法组合策略灵活性不足，方法泛化性能差，并且缺少自航行体引导方法和速度共同决策方法的问题，提出一种新的水流体内无人平台智能目标捕获决策方法。

本发明涉及一种水流体内无人平台智能目标捕获方法，包括如下步骤：

步骤一、构建水流体内无人平台决策模型：构建水流体内探测信号模拟模型，完成水流体内探测信号的重叠判定，然后构建水流体内运动学模型以及导引模型；

步骤二、构建线导式自航行体追踪捕获场景模型：场景包括场景设定、决策内容和环境设置；

步骤三、在线导式自航行体追踪捕获场景模型中，应用强化学习方法，最终实现水流体内无人平台的智能目标捕获。

所述步骤一中，所述水流体内探测信号模拟模型的构建方法如下：将水流体内探测信号以采样点的形式进行模拟表达，水流体内探测信号表示为-180deg～+180deg上多个离散的信号值；

依据环境扰动程度的不同，增加水流体内探测器信号背景噪声，以正态随机信号的形式添加到离散信号值上，信号平均值与环境扰动程度成正比；

对于每个信号目标，以呈正态分布的信号峰进行模拟表达，波峰位置μ为目标方位角，波峰宽度2σ与目标距离成反比，波峰强度与目标速度成正比；

对于多个信号目标的信号峰有重叠的情况，在重叠位置上取多个信号之中的最大值。

所述步骤一中，水流体内探测信号的重叠判定方法如下：

对原始探测信号使用Savitzky-Golay平滑滤波方法过滤信号噪声；

使用波峰检测算法对所有的信号峰进行识别并标定其对应方位值；

根据方位值差以及检测到的波峰数量判定信号峰是否重叠。

所述步骤二中，场景设定为：目标使用不同机动方式，无人平台使用线导式自航行体对其进行追踪捕获。无人平台需要根据态势信息进行决策。

决策内容包括线导式自航行体引导方法及速度设定：引导方法包括现在方位法、修正方位法、前置点法；速度设定包括高速、低速；

环境设置包括场景地图和初始态势。

所述步骤二中，场景地图包含地图大小及环境扰动：地图大小根据需要动态调整，设置环境扰动程度。初始态势包含目标、无人平台和线导式自航行体的初始状态：目标初始态势包括初始位置、航速、航向，无人平台初始态势包括初始位置、航速、航向，线导式自航行体初始态势包括初始瞄准角度和速度。

所述步骤三中，强化学习方法中的Double-DQN算法中包含了两个结构相同的神经网络，分别为目标网络θ^-和评估网络θ；利用评估网络θ和目标网络θ^-的输出差异来构建损失函数，损失函数定义为：

L(θ)＝(y-Q(s,a；θ))²

其中y为由目标网络计算的目标值函数：

值函数评估网络参数θ的更新过程为：

其中α为学习速率，决定神经网络参数更新速度；

评估网络θ根据误差反向传播进行实时更新，目标网络θ^-的参数虽继承于评估网络θ，但其更新方式为周期更新，即在评估网络θ训练多轮次后再继承其网络参数，更新过程为：

θ^-←τθ+(1-τ)θ^-

其中，τ为参数更新速率，决定更新时目标网络参数的替换程度。

在训练过程中，Double-DQN采用经验回放来强化学习过程，将智能体在环境中交互所产生的的数据存放到记忆库中，在训练时采用随机采样方法从记忆库中抽取部分数据，然后用于训练，以此来打乱每一轮训练所采集数据之间的相关性，强化训练效果。

所述步骤三中，使用事后经验回放HER方法改进样本回放缓冲区，丰富有效奖励样本：

对非优指令序列进行采样，获得多段片段式的中间指令序列以及对应的状态转化过程，并将这些指令序列和对应的始末状态存储到样本回放缓冲区中；

将各个末状态(G_i)设定为其对应指令序列的目标状态，并依据奖励机制对各段指令序列给予奖励；

通过原始目标状态与中间末态之间的关联关系，利用的奖励指导智能体达到状态的学习目标。

本发明还涉及一种水流体内无人平台智能目标捕获系统，所述系统包括数据仿真系统、数据分析系统以及数据结果输出系统；数据分析系统包括无人平台目标追踪捕获系统、线导式自航行体追踪捕获场景构建系统以及应用强化学习系统。

本发明构建了完整的水流体内无人平台智能目标捕获决策模型，在考虑线导式自航行体导引策略以及目标探测信号被自航行体干扰的情况下，构建了水流体内探测信号模拟模型和探测信号重叠判定方法；然后构建了水流体内运动学和引导方法模型，定义了线导式自航行体追踪捕获问题模型。应用强化学习方法对线导式自航行体的导引方法-速度组合策略决策问题进行求解，在多种场景下与单一导引方法-速度策略相比较，验证了强化学习算法在无人平台目标追踪捕获决策问题中的有效性与可泛化性。

附图说明

图1为本发明目标水流体内探测信号示意图；

图2为本发明探测信号重叠时波形图；

图3为本发明HER方法原理流程图；

图4为本发明机动模式下目标运动轨迹图。

具体实施方式

本发明涉及一种水流体内无人平台智能目标捕获方法及系统，包括如下步骤：

步骤一、建水流体内无人平台决策模型：构建水流体内探测信号模拟模型，完成水流体内探测信号的重叠判定，然后构建水流体内运动学模型以及导引模型；

水流体内探测信号模拟模型的构建方法如下：将水流体内探测信号以采样点的形式进行模拟表达，水流体内探测信号表示为-180deg～+180deg上多个离散的信号值；依据环境扰动程度的不同，增加水流体内探测信号背景噪声，以正态随机信号的形式添加到离散信号值上；对于每个信号目标，以呈正态分布的信号峰进行模拟表达，波峰位置μ为目标方位角，波峰宽度2σ与目标距离成反比，波峰强度与目标速度成正比；对于多个信号目标的信号峰有重叠的情况，在重叠位置上取多个信号之中的最大值。

可视化成果如图1所示。参照状况目标航速6节，相对方位90°，距离3000海里。

水流体内探测信号的重叠判定方法如下：

对原始水流体内探测信号使用Savitzky-Golay平滑滤波方法过滤信号噪声；使用波峰检测算法对所有的信号峰进行识别并标定其对应方位值；根据方位值差以及检测到的波峰数量判定信号峰是否重叠。声纳信号发生重叠时，声纳信号图及单元相对位置如图2a至2c所示。

建立带约束的水流体内运动学模型，约束条件包括法向极限过载及切向极限过载，极速等。约束条件如表1所示。

然后构建引导方法模型，对现在方位法、修正方位法、前置点法等三种引导方法进行数学建模。

表1

场景设定为：目标使用不同机动方式，无人平台使用线导式自航行体对其进行追踪捕获。无人平台需要根据态势信息进行决策。具体设置如下表2所示。

表2

对抗环境包括场景地图和初始态势。场景地图包含地图大小及环境扰动：地图大小根据需要动态调整，设置环境扰动程度。初始态势包含目标、无人平台和线导式自航行体的初始状态：目标初始态势包括初始位置、航速、航向，无人平台初始态势包括初始位置、航速、航向，线导式自航行体初始态势包括初始瞄准角度和速度。对抗环境具体设置如下表3所示。

表3

强化学习方法中的Double-DQN算法中包含了两个结构相同的神经网络，分别为目标网络θ^-和评估网络θ；利用评估网络θ和目标网络θ^-的输出差异来构建损失函数，损失函数定义为：

L(θ)＝(y-Q(s,a；θ))²

其中y为由目标网络计算的目标值函数：

值函数评估网络参数θ的更新过程为：

其中α为学习速率，决定神经网络参数更新速度；

θ^-←τθ+(1-τ)θ^-

使用事后经验回放HER方法改进样本回放缓冲区，丰富有效奖励样本：

改进的Double-DQN方法的流程图3所示。改进的Double-DQN方法的伪代码如下：

验证结果：

为验证深度强化学习算法在水流体内无人平台智能目标捕获决策中的有效性。在水流体内目标追踪捕获场景中，使用强化学习算法进行训练并分析学习效果。通过对比分析最终的捕获命中率验证算法的可行性。

为避免偶然性，为目标设计了蛇形加速运动、直航转弯运动以及蛇形加环形运动三种机动方式。三种机动模式下目标运动轨迹如图4所示。

决策的输入项包括了目标信息、无人平台信息、自航行体信息和特征信息，如下表4 所示。

表4

决策的输出项包括了自航行体线导跟踪方式及自航行体高低速。

为验证算法的有效性，提供对比依据，在三种机动模式中分别使用单一导引方法单一速度进行打靶试验，打靶次数为50次，统计6种导引方法-速度组合模式的打靶命中率，结果如下表5所示。

表5

针对三种机动模式，使用深度强化学习算法对智能体进行训练，并给出网络收敛时智能体采用的导引方法-速度组合模式以及综合命中率。如下表6所示：

表6

可以看出：强化学习算法智能体经过训练后，能够分别在三种不同的场景下采取合适的线导式自航行体的导引方法-速度组合策略，并且命中率均可达到80％以上，均优于单一策略综合命中率，验证了强化学习算法在无人平台目标追踪捕获决策问题中的有效性与可泛化性。

Claims

1.一种水流体内无人平台智能目标捕获方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的水流体内无人平台智能目标捕获方法，其特征在于，所述步骤一中，所述水流体内探测信号模拟模型的构建方法如下：将水流体内探测信号以采样点的形式进行模拟表达，水流体内探测信号表示为-180deg～+180deg上多个离散的信号值；

依据海况程度的不同，增加水流体内探测信号背景噪声，以正态随机信号的形式添加到离散信号值上；

3.根据权利要求1所述的水流体内无人平台智能目标捕获方法，其特征在于，所述步骤一中，水流体内探测信号的重叠判定方法如下：

对原始水流体内探测信号使用Savitzky-Golay平滑滤波方法过滤信号噪声；

根据方位值差以及检测到的波峰数量判定信号峰是否重叠。

4.根据权利要求1所述的水流体内无人平台智能目标捕获方法，其特征在于，所述步骤二中，场景设定中设置如下内容：目标使用不同机动方式，无人平台使用线导式自航行体对其进行追踪捕获。无人平台需要根据态势信息进行决策；

对抗环境包括场景地图和初始态势。

5.根据权利要求1所述的水流体内无人平台智能目标捕获方法，其特征在于，所述步骤二中，场景地图包含地图大小及海况：地图大小根据需要动态调整，设置环境扰动程度。

6.根据权利要求1所述的水流体内无人平台智能目标捕获方法，其特征在于，所述步骤三中，强化学习方法中的Double-DQN算法中包含了两个结构相同的神经网络，分别为目标网络θ^-和评估网络θ；利用评估网络θ和目标网络θ^-的输出差异来构建损失函数，损失函数定义为：

L(θ)＝(y-Q(s,a；θ))²

其中y为由目标网络计算的目标值函数：

值函数评估网络参数θ的更新过程为：

其中α为学习速率，决定神经网络参数更新速度；

θ^-←τθ+(1-τ)θ^-

7.根据权利要求1所述的水流体内无人平台智能目标捕获方法，其特征在于，所述步骤三中，使用事后经验回放HER方法改进样本回放缓冲区，丰富有效奖励样本：

8.一种包括上述权利要求1至7任一项所述方法的水流体内无人平台智能目标捕获系统，其特征在于，所述系统包括数据仿真系统、数据分析系统以及数据结果输出系统；数据分析系统包括无人平台目标追踪捕获系统、线导式自航行体追踪捕获场景构建系统以及应用强化学习系统。