CN116700276B

CN116700276B - 一种基于ai强化学习的无人艇对抗辅助方法及系统

Info

Publication number: CN116700276B
Application number: CN202310790202.XA
Authority: CN
Inventors: 叶刚; 刘云平; 倪宏宇; 杨薛; 葛愿
Original assignee: Suzhou Youshida Intelligent Technology Co ltd
Current assignee: Suzhou Youshida Intelligent Technology Co ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-11-07
Anticipated expiration: 2043-06-30
Also published as: CN116700276A

Abstract

本发明提供了一种基于AI强化学习的无人艇对抗辅助方法及系统，涉及数据处理技术领域，通过根据被动目标实时和主动目标的位置参数和移动参数对主动目标进行控制生成N个控制域，在控制域内对主动目标进行控制方案寻优，以获得最优控制方案对主动目标进行辅助控制。解决了现有技术中存在对抗围捕过程中，攻击无人艇的位移参数调节控制的及时性和准确度不足，导致对抗围捕效率较低且成功率较低的技术问题。达到了获得能够快速逼近被动目标无人艇的主动目标移动参数控制方案，提高对被动目标进行对抗围捕过程中主动目标无人艇移动控制参数调整优化的智能性和有效性，间接实现了提高对被动目标进行围捕的效率和成功率的技术效果。

Description

一种基于AI强化学习的无人艇对抗辅助方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于AI强化学习的无人艇对抗辅助方法及系统。

背景技术

无人艇对抗模拟对于许多作业有着重要的参考意义，其中包括对抗围捕的问题，攻击无人艇的位移参数调节控制是对抗围捕的一个非常关键的环节。

对于攻击无人艇的位移参数调节控制的准确性较为重要，且时间是非常紧迫的。然而，现有阶段在控制器设计、数据传输以及运算分析等方面还存在不足，导致控制反应速度慢，控制效果差，常常会错失攻击时机。

现有技术中存在对抗围捕过程中，攻击无人艇的位移参数调节控制的准确度和及时性不足，导致对抗围捕效率较低且成功率较低的技术问题。

发明内容

本申请提供了一种基于AI强化学习的无人艇对抗辅助方法及系统，用于针对解决现有技术中存在对抗围捕过程中，攻击无人艇的位移参数调节控制的及时性和准确度不足，导致对抗围捕效率较低且成功率较低的技术问题。

鉴于上述问题，本申请提供了一种基于AI强化学习的无人艇对抗辅助方法及系统。

本申请的第一个方面，提供了一种基于AI强化学习的无人艇对抗辅助方法，所述方法包括：获取待围捕的被动目标实时的被动位置参数以及被动移动参数；获取对所述被动目标进行对抗围捕的N个主动目标实时的N个主动位置参数和N个主动移动参数，N为大于1的整数，所述被动目标和主动目标均为无人艇；根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，对所述N个主动目标进行控制，生成N个控制域；在所述N个控制域内，进行对所述N个主动目标进行控制的控制方案的寻优，其中，通过基于马尔科夫决策模型和对抗评价函数对每个控制方案的适应度进行评价计算，且寻优过程中每个控制方案迭代产生的控制方案的数量与适应度正相关，所述对抗评价函数包括围捕评价函数和位置评价函数；基于寻优获得的最优控制方案，对所述N个主动目标进行辅助控制。

本申请的第二个方面，提供了一种基于AI强化学习的无人艇对抗辅助系统，所述系统包括：实时参数获取模块，用于获取待围捕的被动目标实时的被动位置参数以及被动移动参数；移动参数采集模块，用于获取对所述被动目标进行对抗围捕的N个主动目标实时的N个主动位置参数和N个主动移动参数，N为大于1的整数，所述被动目标和主动目标均为无人艇；目标控制执行模块，用于根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，对所述N个主动目标进行控制，生成N个控制域；控制方案寻优模块，用于在所述N个控制域内，进行对所述N个主动目标进行控制的控制方案的寻优，其中，通过基于马尔科夫决策模型和对抗评价函数对每个控制方案的适应度进行评价计算，且寻优过程中每个控制方案迭代产生的控制方案的数量与适应度正相关，所述对抗评价函数包括围捕评价函数和位置评价函数；辅助控制执行模块，用于基于寻优获得的最优控制方案，对所述N个主动目标进行辅助控制。

本申请中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请实施例提供的方法通过获取待围捕的被动目标实时的被动位置参数以及被动移动参数；获取对所述被动目标进行对抗围捕的N个主动目标实时的N个主动位置参数和N个主动移动参数，N为大于1的整数，所述被动目标和主动目标均为无人艇；根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，对所述N个主动目标进行控制，生成N个控制域；在所述N个控制域内，进行对所述N个主动目标进行控制的控制方案的寻优，其中，通过基于马尔科夫决策模型和对抗评价函数对每个控制方案的适应度进行评价计算，且寻优过程中每个控制方案迭代产生的控制方案的数量与适应度正相关，所述对抗评价函数包括围捕评价函数和位置评价函数；基于寻优获得的最优控制方案，对所述N个主动目标进行辅助控制。达到了获得能够快速逼近被动目标无人艇的主动目标移动参数控制方案，提高对被动目标进行对抗围捕过程中主动目标无人艇移动控制参数调整优化的智能性和有效性，间接实现了提高对被动目标进行围捕的效率和成功率的技术效果。

附图说明

图1为本申请提供的一种基于AI强化学习的无人艇对抗辅助方法流程示意图；

图2为本申请提供的一种基于AI强化学习的无人艇对抗辅助方法中获得被动参数信息的流程示意图；

图3为本申请提供的一种基于AI强化学习的无人艇对抗辅助方法中生成N个控制域的流程示意图；

图4为本申请提供的一种基于AI强化学习的无人艇对抗辅助系统的结构示意图。

附图标记说明：实时参数获取模块1，移动参数采集模块2，目标控制执行模块3，控制方案寻优模块4，辅助控制执行模块5。

具体实施方式

本申请提供了一种基于AI强化学习的无人艇对抗辅助方法及系统，用于针对解决现有技术中存在对抗围捕过程中，攻击无人艇的位移参数调节控制的及时性和准确度不足，导致对抗围捕效率较低且成功率较低的技术问题。达到了获得能够快速逼近被动目标无人艇的主动目标移动参数控制方案，提高对被动目标进行对抗围捕过程中主动目标无人艇移动控制参数调整优化的智能性和有效性，间接实现了提高对被动目标进行围捕的效率和成功率的技术效果。

本发明技术方案中对数据的获取、存储、使用、处理等均符合相关规定。

下面，将参考附图对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部。

实施例一

如图1所示，本申请提供了一种基于AI强化学习的无人艇对抗辅助方法，所述方法包括：

S100:获取待围捕的被动目标实时的被动位置参数以及被动移动参数；

在一个实施例中，如图2所示，获取待围捕的被动目标实时的被动位置参数以及被动移动参数，本申请提供的方法步骤S100还包括：

S110:对目标区域进行坐标化处理，所述目标区域为所述被动目标和N个主动目标进行对抗的区域；

S120:基于所述坐标化处理的结果，获取所述被动目标当前实时的坐标数据，获得所述被动位置参数；

S130:获取所述被动目标当前实时的移动速度、移动加速度、艏向角、角速度、角加速度，作为所述被动移动参数。

具体而言，无人艇（UnmannedSurfaceVehicle，简称USV）是一种没有人员操作的船艇，可以自主地完成一系列任务，比如测绘水下地形、进行海洋科学研究、巡逻监视等。无人艇通常由计算机系统控制，配备多种传感器和设备，可以对环境进行实时监测和数据采集。无人艇广泛应用于海洋科学、海洋勘探、海事安全、港口管理等领域。

在本实施例中，所述被动目标为被围猎捕捉的无人艇，所述主动目标为作为围猎一方的无人艇，所述主动目标为N个，N为正整数且在实际无人艇对抗围捕中，攻击无人艇的数量取决于围猎任务的复杂程度和所需的围猎效率，攻击无人艇的数量可能只有一个，也可能会有多个协同作战。

所述目标区域为所述目标区域为所述被动目标和N个主动目标进行围猎对抗的区域（水域），将所述目标区域的水域作为二维平面，在所述目标区域中设定坐标原点和正方向，建立XY轴的二维坐标系以对目标区域进行坐标化处理。

所述被动位置参数为所述被动目标在目标区域中的位置坐标，获得方法为基于所述坐标化处理的结果的二维坐标系，直接获取所述被动目标当前实时的坐标数据，作为所述被动位置参数。

所述被动移动参数反映了所述被动目标在所述目标区域中的动态变化情况，所述被动移动参数由所述被动目标当前实时的移动速度、移动加速度、艏向角、角速度、角加速度构成。其中，艏向角（headingangle）是指无人艇前进方向与正北方向之间的夹角，通常以度数或弧度表示。艏向角是控制无人艇航向方向的重要参数。

示例性的，所述被动移动参数可通过对布设于所述被动目标上的GPS、惯性导航系统、罗盘、陀螺仪等设备进行数据采集和简单计算获得，例如，在获得当前时刻和前一时刻的移动速度即可计算获得被动目标的移动加速度。

本实施例通过获得所述被动移动参数，为后续进行N个主动目标的控制提供有效参考数据的技术效果。

S200:获取对所述被动目标进行对抗围捕的N个主动目标实时的N个主动位置参数和N个主动移动参数，N为大于1的整数，所述被动目标和主动目标均为无人艇；

具体而言，在本实施例中，所述主动位置参数为所述主动目标在目标区域中的位置坐标，所述主动移动参数反映了所述主动目标在所述目标区域中的动态变化情况。所述主动位置参数和所述被动位置参数含义一致，所述主动移动参数和所述被动移动参数含义一致，指代对象都为无人艇，因而本实施例采用步骤S100获得所述被动位置参数以及被动移动参数相同方法，获取对所述被动目标进行对抗围捕的N个主动目标实时的N个主动位置参数和N个主动移动参数。

S300:根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，对所述N个主动目标进行控制，生成N个控制域；

在一个实施例中，如图3所示，根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，对所述N个主动目标进行控制，生成N个控制域，本申请提供的方法步骤S200还包括：

S310:根据所述被动位置参数和被动移动参数，进行所述被动目标在下一个时间窗口的移动预测，获得目标移动位置；

S320:基于所述N个主动位置参数和N个主动移动参数，获取所述N个主动目标进行在下一个时间窗口可达到的区域，作为所述N个控制域。

具体而言，在本实施例中，所述时间窗口（TimeWindow）指的是周期性的时间节点，例如间隔3秒进行时间窗口的数据预测或采集，基于时间窗口周期性预测或采集所述被动目标和所述主动目标在目标区域中运动速度、方向、位置等信息。

应理解的，所述被动目标在目标区域的运动情况不受控制或受对抗方控制，本申请实施例基于被动目标的移动情况，采用多次进行主动目标控制调整方法进行被动目标围猎的现实策略，本实施例假定所述被动目标在相邻两个时间窗口的间隔时间周期内，所述被动移动参数保持不变。

所述目标移动位置为所述被动目标在下一个时间窗口时在目标区域中所处位置坐标。本实施例将所述被动位置参数和被动移动参数，输入预构建的移动预测模型，基于所述移动预测模型，进行所述被动目标在下一个时间窗口的移动预测，获得所述目标移动位置。

所述移动预测模型的构建方法如下：

采集获得目标区域中与所述目标型号信息完全一致的K个样本目标的航行轨迹，并基于相邻两个时间窗口的间隔时间周期进行获得的K个航行轨迹分割，获得K×H个样本位置参数，进一步基于历史航行数据获得K×H个样本位置参数的K×H个样本移动参数。

应理解的，在航行轨迹上，不人为调整前一时间节点无人艇的移动参数时，无人艇在前一时间节点的移动参数和位置参数与后一时间节点的移动参数和位置参数存在规律性的数值关系。

因而本实施例基于K个航行轨迹获得K×H个样本位置参数-K×H个样本移动参数的时序关系，从而将K×H个样本位置参数-K×H个样本移动参数标识划分为训练集、测试集和验证集。

基于BP神经网络构建所述移动预测模型，所述移动预测模型的输入数据为当前时间节点无人艇的位置参数和移动参数，输出结果为下一时间窗口的位置参数和移动参数。

基于所述训练集和测试进行所述移动预测模型的训练和测试，基于验证集进行移动预测模型输出准确性验证，直至所述移动预测模型输出准确率连续且稳定高于90%时，认为移动预测模型训练成功。

将所述被动位置参数和被动移动参数输入训练完成的移动预测模型进行所述被动目标在下一个时间窗口的移动预测，获得移动预测结果，基于所述移动预测结果提取位置参数作为所述目标移动位置。

基于所述N个主动位置参数和N个主动移动参数，随机提取获得对应于同一主动目标的第一主动位置参数和第一主动移动参数。

根据所述主动目标对应无人艇的型号信息，获得所述主动目标的角加速度和角速度限制阈值、移动速度和移动加速度限制阈值。在限制阈值内，进行角加速度和角速度、移动速度和移动加速度数值的随机排列组合，获得若干组角加速度-角速度-移动速度-移动加速度并输入移动预测模型进行所述主动目标在下一个时间窗口在所述目标区域中的移动位置坐标预测，获得若干个主动移动位置预测结果。

在目标区域内获得可完整圈定该若干个移动位置预测结果的轮廓图像，作为所述第一主动目标进行在下一个时间窗口可达到的区域，作为第一控制域。采用获得第一控制域相同方法，获得N个主动目标的所述N个控制域。

本实施例通过对被动目标在下一时间窗口的目标移动位置进行预测，以及对主动目标在下一时间窗口可抵达位置的区域进行预测获得N个控制域，实现了为后续基于N个控制域寻优确定N个主动目标的控制方案提供高可靠性参考信息的技术效果。

S400:在所述N个控制域内，进行对所述N个主动目标进行控制的控制方案的寻优，其中，通过基于马尔科夫决策模型和对抗评价函数对每个控制方案的适应度进行评价计算，且寻优过程中每个控制方案迭代产生的控制方案的数量与适应度正相关，所述对抗评价函数包括围捕评价函数和位置评价函数；

在一个实施例中，在所述N个控制域内，进行对所述N个主动目标进行控制的控制方案的寻优，本申请提供的方法步骤S400还包括：

S410:在所述N个控制域内，随机生成第一控制方案，其中，所述第一控制方案包括对所述N个主动目标进行控制，在下一个时间窗口达到N个第一位置；

S420:按照预设迭代数量M，基于所述第一控制方案，在所述N个控制域内进行迭代，获得M个第二控制方案；

S430:基于马尔科夫决策模型和对抗评价函数对所述M个第二控制方案进行适应度评价，获得M个适应度；

S440:基于所述M个适应度，获取M个调整迭代数量；

S450:所述M个第二控制方案基于所述M个调整迭代数量，分别迭代产生M个调整迭代数量的第三控制方案，进行迭代寻优；

S460:继续寻优达到预设寻优条件，将寻优过程中适应度最大的控制方案输出，获得所述最优控制方案。

在一个实施例中，基于所述M个适应度，获取M个调整迭代数量，本申请提供的方法步骤S440还包括：

S441:获取所述M个适应度的期望值；

S442:分别根据所述M个适应度与所述期望值的比值，对所述预设迭代数量M进行计算调整，获得所述M个调整迭代数量。

具体而言，在本实施例中，所述控制方案用于对所述主动目标的移动速度、移动加速度、艏向角、角速度、角加速度的参数进行调节，以使所述主动目标快速朝向所述被动目标位移。

在所述N个控制域内进行随机选点，获得N个第一位置，所述第一位置为在某个主动目标的控制域内，该主动目标在下一个时间窗口达到的位置参数（位置坐标），所述N个第一位置构成所述第一控制方案。

预设迭代数量为单次迭代在一个控制域内获得M个第二位置，按照预设迭代数量M，基于所述第一控制方案，在所述N个控制域内进行M轮随机选点，具体在第一控制方案内的N个第一位置的附近区域进行位置的随机选择，获得M个第二控制方案，每个第二控制方案为N个第二位置。可选的，设置预设迭代区域范围，在第一控制方案内的N个点附近的预设迭代区域范围内进行第二控制方案内第二位置的随机选择，该预设迭代区域范围可基于本领域技术人员进行设置，例如为以第一位置为圆心而形成的半径为20米的圆。

基于马尔科夫决策模型和对抗评价函数对所述M个第二控制方案进行适应度评价，获得M个适应度，所述适应度数值化基于M个第二控制方案对所述N个主动目标进行控制，在下一个时间窗口达到的M组N个第一位置所形成的区域，对于所述被动目标的围捕作用效果。

计算所述M个适应度的期望值，分别计算获得所述M个适应度与所述期望值的比值，将M个比值分别对应与所述预设迭代数量M进行乘法计算，获得所述M个调整迭代数量。本实施例通过调整迭代数量实现了避免进行无效迭代寻优造成的系统算力资源浪费，以及适应度较大的控制方案可迭代获得更多的控制方案，达到提升寻优准确性的技术效果。

所述M个第二控制方案基于所述M个调整迭代数量，分别迭代产生M个调整迭代数量的第三控制方案，基于马尔科夫决策模型和对抗评价函数对所述第三控制方案进行适应度评价，获得第三控制方案对应的适应度，以此类推继续寻优。

继续寻优达到预设寻优条件，例如预设寻优条件为寻优10次，在达到预设寻优条件后，对寻优产生的适应度数据进行序列化处理，以获得寻优过程中适应度最大的控制方案输出，作为所述最优控制方案。

本实施例通过寻优实现了获得了能够快速高效进行被动目标围捕的最优控制方案的技术效果。

S500:基于寻优获得的最优控制方案，对所述N个主动目标进行辅助控制。

具体而言，在本实施例中，所述辅助控制为调整主动目标的主动移动参数；所述最优控制方案包括N个主动目标的最优控制方案，基于所述最优控制方案进行所述N个主动目标的辅助控制，以使所述N个主动目标朝向所述被动目标快速移动。

本实施例通过根据被动目标无人艇的位置参数和移动参数，进行主动目标无人艇移动控制参数的寻优，实现了获得能够快速逼近被动目标无人艇的主动目标移动参数控制方案，达到了降低对被动目标进行对抗围捕过程中，主动目标无人艇移动控制参数调整优化的智能性和有效性，间接实现了提高对被动目标进行围捕的效率和成功率的技术效果。

在一个实施例中，基于马尔科夫决策模型和对抗评价函数对所述M个第二控制方案进行适应度评价，获得M个适应度，本申请提供的方法步骤S430还包括:

S431:基于历史时间内的无人艇对抗数据，获取样本第一围捕状态、样本第一控制方案、样本第二围捕状态和样本第一控制评分；

S432:基于所述样本第二围捕状态，获取样本第二控制方案、样本第三围捕状态和样本第二控制评分；

S433:直到获得样本第P-1围捕状态、样本第P-1控制方案、样本第P围捕状态和样本第P-1控制评分，构建所述样本第P围捕状态和样本第P-1控制方案的映射关系，获得所述马尔科夫决策模型；

S434:根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，生成实时围捕状态，分别结合所述M个第二控制方案，输入所述马尔科夫决策模型，获得M个第一子适应度；

S435:分别构建所述围捕评价函数和位置评价函数，作为所述对抗评价函数，对所述M个第二控制方案进行评价，获得M个第二子适应度和M个第三子适应度；

S436:对所述M个第一子适应度、M个第二子适应度和M个第三子适应度进行加权计算，获得所述M个适应度。

在一个实施例中，分别构建所述围捕评价函数和位置评价函数，作为所述对抗评价函数，对所述M个第二控制方案进行评价，获得M个第二子适应度和M个第三子适应度，本申请提供的方法步骤S435还包括：

S435-1:构建所述围捕评价函数，如下：；其中，/>为第i个第二控制方案的第二子适应度，/>为所述目标移动位置，/>为第i个第二控制方案控制下N个主动目标在下一个时间窗口达到的N个第二位置形成的区域的中心点，/>为/>与/>的距离；

S435-2:构建所述位置评价函数，如下式：；其中，/>为第i个第二控制方案的第三子适应度，/>为i个第二控制方案控制下第j个主动目标在下一个时间窗口达到的第二位置，/>为/>和/>的距离；

S435-3:基于所述围捕评价函数和位置评价函数，获得所述对抗评价函数，对所述M个第二控制方案进行评价。

具体而言，本实施例是步骤S400的细化，同时也是基于马尔科夫决策模型和对抗评价函数对第二控制方案进行适应度评价的最优实施例。应理解的，本实施例进行被动目标和N个主动目标的围捕对抗目的在于将所述被动目标驱赶进入在N个主动目标围成区域的中心点。

在本实施例中，构建所述马尔科夫决策模型的优选方法如下：

基于历史时间内的无人艇对抗数据，所述无人艇对抗数据为不特定数量个样本主动目标（例如N个）对一个样本被动目标进行对抗围捕过程中的记录数据。

基于所述无人艇对抗数据获取样本第一围捕状态、样本第一控制方案、样本第二围捕状态和样本第一控制评分。所述样本第一围捕状态包括样本第一时间窗口下样本被动目标与N个样本主动目标的距离数据、样本第一时间窗口下样本被动目标与N个样本主动目标围成区域中心点的距离数据，样本第一时间窗口下的样本主动移动参数。所述样本第一控制方案为对N个样本主动目标进行控制，在下一个时间窗口达到N个第一位置。所述第二围捕状态为基于所述样本第一控制方案控制下，在样本第二时间窗口时N个第一位置上N个样本主动目标对于样本被动目标的围捕状态，与所述第一围捕状态意思一致，包括样本第二时间窗口下样本被动目标与N个样本主动目标的距离数据、样本第二时间窗口下样本被动目标与目标区域中心点的距离数据。

比对样本第一围捕状态与样本第二围捕状态获得样本第一控制评分，所述样本第一控制评分表征所述样本第一控制方案对于围捕的优化效果，所述样本第一控制评分可通过获得多位领域内专家的高专业度评分后，对多个评分进行均值计算确定。

采用获得第一样本控制评分相同方法，基于所述样本第二围捕状态，获取样本第二控制方案、样本第三围捕状态和样本第二控制评分，直到获得样本第P-1围捕状态、样本第P-1控制方案、样本第P围捕状态和样本第P-1控制评分，构建所述样本第P围捕状态和样本第P-1控制方案的映射关系，完成所述马尔科夫决策模型的构建。

根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，生成实时围捕状态，分别结合所述M个第二控制方案，输入所述马尔科夫决策模型，获得M个第一子适应度，所述第一子适应度为控制评分分析值，所述第一自适应度数值化所述M个第二控制方案中，随机一个第二控制方案对于围捕的优化效果。

构建所述围捕评价函数，具体函数公式如下：；/>为第i个第二控制方案的第二子适应度，/>为所述目标移动位置，/>为第i个第二控制方案控制下N个主动目标在下一个时间窗口达到的N个第二位置形成的区域的中心点，/>为/>与/>的距离。

构建所述位置评价函数，具体函数公式如下：；/>为第i个第二控制方案的第三子适应度，/>为i个第二控制方案控制下第j个主动目标在下一个时间窗口达到的第二位置，/>为/>和/>的距离。

所述围捕评价函数和位置评价函数统称所述对抗评价函数，用于对所述M个第二控制方案中每个第二控制方案对于围捕的优化效果进行另一维度的评价。

基于用户需求和实际目标区域的场景环境等因素设定第一子适应度、第一子适应度、第一子适应度的权重值，对所述M个第一子适应度、M个第二子适应度和M个第三子适应度进行加权计算，获得所述M个适应度。

本实施例通过基于机器学习中的强化学习，结合马尔科夫决策模型和对抗评价函数对第二控制方案进行适应度评价，实现了量化评价第二控制方案对于主动目标围捕被动目标的围捕效果，如此进行控制方案的迭代寻优，进而为获得最优控制方案提供有效的比对参考数据的技术效果。

实施例二

基于与前述实施例中一种基于AI强化学习的无人艇对抗辅助方法相同的发明构思，如图4所示，本申请提供了一种基于AI强化学习的无人艇对抗辅助系统，其中，所述系统包括：

实时参数获取模块1，用于获取待围捕的被动目标实时的被动位置参数以及被动移动参数；

移动参数采集模块2，用于获取对所述被动目标进行对抗围捕的N个主动目标实时的N个主动位置参数和N个主动移动参数，N为大于1的整数，所述被动目标和主动目标均为无人艇；

目标控制执行模块3，用于根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，对所述N个主动目标进行控制，生成N个控制域；

控制方案寻优模块4，用于在所述N个控制域内，进行对所述N个主动目标进行控制的控制方案的寻优，其中，通过基于马尔科夫决策模型和对抗评价函数对每个控制方案的适应度进行评价计算，且寻优过程中每个控制方案迭代产生的控制方案的数量与适应度正相关，所述对抗评价函数包括围捕评价函数和位置评价函数；

辅助控制执行模块5，用于基于寻优获得的最优控制方案，对所述N个主动目标进行辅助控制。

在一个实施例中，所述系统还包括：

目标区域坐标化单元，用于对目标区域进行坐标化处理，所述目标区域为所述被动目标和N个主动目标进行对抗的区域；

位置参数获得单元，用于基于所述坐标化处理的结果，获取所述被动目标当前实时的坐标数据，获得所述被动位置参数；

移动参数获得单元，用于获取所述被动目标当前实时的移动速度、移动加速度、艏向角、角速度、角加速度，作为所述被动移动参数。

在一个实施例中，所述系统还包括：

移动预测执行单元，用于所述被动位置参数和被动移动参数，进行所述被动目标在下一个时间窗口的移动预测，获得目标移动位置；

控制域获取单元，用于基于所述N个主动位置参数和N个主动移动参数，获取所述N个主动目标进行在下一个时间窗口可达到的区域，作为所述N个控制域。

在一个实施例中，所述系统还包括：

控制方案生成单元，用于在所述N个控制域内，随机生成第一控制方案，其中，所述第一控制方案包括对所述N个主动目标进行控制，在下一个时间窗口达到N个第一位置；

控制方案迭代单元，用于按照预设迭代数量M，基于所述第一控制方案，在所述N个控制域内进行迭代，获得M个第二控制方案；

适应度评价执行单元，用于基于马尔科夫决策模型和对抗评价函数对所述M个第二控制方案进行适应度评价，获得M个适应度；

迭代数量获取单元，用于基于所述M个适应度，获取M个调整迭代数量；

迭代寻优执行单元，用于所述M个第二控制方案基于所述M个调整迭代数量，分别迭代产生M个调整迭代数量的第三控制方案，进行迭代寻优；

最优方案生成单元，用于继续寻优达到预设寻优条件，将寻优过程中适应度最大的控制方案输出，获得所述最优控制方案。

在一个实施例中，所述系统还包括：

历史数据评分单元，用于基于历史时间内的无人艇对抗数据，获取样本第一围捕状态、样本第一控制方案、样本第二围捕状态和样本第一控制评分；

样本数据评分单元，用于基于所述样本第二围捕状态，获取样本第二控制方案、样本第三围捕状态和样本第二控制评分；

决策模型构建单元，用于直到获得样本第P-1围捕状态、样本第P-1控制方案、样本第P围捕状态和样本第P-1控制评分，构建所述样本第P围捕状态和样本第P-1控制方案的映射关系，获得所述马尔科夫决策模型；

决策模型分析单元，用于根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，生成实时围捕状态，分别结合所述M个第二控制方案，输入所述马尔科夫决策模型，获得M个第一子适应度；

评价函数构建单元，用于分别构建所述围捕评价函数和位置评价函数，作为所述对抗评价函数，对所述M个第二控制方案进行评价，获得M个第二子适应度和M个第三子适应度；

加权计算执行单元，用于对所述M个第一子适应度、M个第二子适应度和M个第三子适应度进行加权计算，获得所述M个适应度。

在一个实施例中，所述系统还包括：

评价函数构建单元，用于构建所述围捕评价函数，如下：；其中，/>为第i个第二控制方案的第二子适应度，/>为所述目标移动位置，/>为第i个第二控制方案控制下N个主动目标在下一个时间窗口达到的N个第二位置形成的区域的中心点，/>为/>与/>的距离；

评价函数建立单元，用于构建所述位置评价函数，如下式：；其中，/>为第i个第二控制方案的第三子适应度，/>为i个第二控制方案控制下第j个主动目标在下一个时间窗口达到的第二位置，/>为/>和/>的距离；

评价函数整合单元，用于基于所述围捕评价函数和位置评价函数，获得所述对抗评价函数，对所述M个第二控制方案进行评价。

在一个实施例中，所述系统还包括：

期望值获取单元，用于获取所述M个适应度的期望值；

迭代数量调整单元，用于分别根据所述M个适应度与所述期望值的比值，对所述预设迭代数量M进行计算调整，获得所述M个调整迭代数量。

综上所述的任意一项方法或者步骤可作为计算机指令或程序存储在各种不限类型的计算机存储器中，通过各种不限类型的计算机处理器识别计算机指令或程序，进而实现上述任一项方法或者步骤。

基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所作的任何改进和修饰，皆应落入本发明的专利保护范围。

Claims

1.一种基于AI强化学习的无人艇对抗辅助方法，其特征在于，所述方法包括：

获取待围捕的被动目标实时的被动位置参数以及被动移动参数；

获取对所述被动目标进行对抗围捕的N个主动目标实时的N个主动位置参数和N个主动移动参数，N为大于1的整数，所述被动目标和主动目标均为无人艇；

根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，对所述N个主动目标进行控制，生成N个控制域；

在所述N个控制域内，进行对所述N个主动目标进行控制的控制方案的寻优，其中，通过基于马尔科夫决策模型和对抗评价函数对每个控制方案的适应度进行评价计算，且寻优过程中每个控制方案迭代产生的控制方案的数量与适应度正相关，所述对抗评价函数包括围捕评价函数和位置评价函数；

基于寻优获得的最优控制方案，对所述N个主动目标进行辅助控制。

2.根据权利要求1所述的方法，其特征在于，获取待围捕的被动目标实时的被动位置参数以及被动移动参数，包括：

对目标区域进行坐标化处理，所述目标区域为所述被动目标和N个主动目标进行对抗的区域；

基于所述坐标化处理的结果，获取所述被动目标当前实时的坐标数据，获得所述被动位置参数；

获取所述被动目标当前实时的移动速度、移动加速度、艏向角、角速度、角加速度，作为所述被动移动参数。

3.根据权利要求1所述的方法，其特征在于，根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，对所述N个主动目标进行控制，生成N个控制域，包括：

根据所述被动位置参数和被动移动参数，进行所述被动目标在下一个时间窗口的移动预测，获得目标移动位置；

基于所述N个主动位置参数和N个主动移动参数，获取所述N个主动目标进行在下一个时间窗口可达到的区域，作为所述N个控制域。

4.根据权利要求3所述的方法，其特征在于，在所述N个控制域内，进行对所述N个主动目标进行控制的控制方案的寻优，包括：

在所述N个控制域内，随机生成第一控制方案，其中，所述第一控制方案包括对所述N个主动目标进行控制，在下一个时间窗口达到N个第一位置；

按照预设迭代数量M，基于所述第一控制方案，在所述N个控制域内进行迭代，获得M个第二控制方案；

基于马尔科夫决策模型和对抗评价函数对所述M个第二控制方案进行适应度评价，获得M个适应度；

基于所述M个适应度，获取M个调整迭代数量；

所述M个第二控制方案基于所述M个调整迭代数量，分别迭代产生M个调整迭代数量的第三控制方案，进行迭代寻优；

继续寻优达到预设寻优条件，将寻优过程中适应度最大的控制方案输出，获得所述最优控制方案。

5.根据权利要求4所述的方法，其特征在于，基于马尔科夫决策模型和对抗评价函数对所述M个第二控制方案进行适应度评价，获得M个适应度，包括:

基于历史时间内的无人艇对抗数据，获取样本第一围捕状态、样本第一控制方案、样本第二围捕状态和样本第一控制评分；

基于所述样本第二围捕状态，获取样本第二控制方案、样本第三围捕状态和样本第二控制评分；

直到获得样本第P-1围捕状态、样本第P-1控制方案、样本第P围捕状态和样本第P-1控制评分，构建所述样本第P围捕状态和样本第P-1控制方案的映射关系，获得所述马尔科夫决策模型；

根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，生成实时围捕状态，分别结合所述M个第二控制方案，输入所述马尔科夫决策模型，获得M个第一子适应度；

分别构建所述围捕评价函数和位置评价函数，作为所述对抗评价函数，对所述M个第二控制方案进行评价，获得M个第二子适应度和M个第三子适应度；

对所述M个第一子适应度、M个第二子适应度和M个第三子适应度进行加权计算，获得所述M个适应度。

6.根据权利要求5所述的方法，其特征在于，分别构建所述围捕评价函数和位置评价函数，作为所述对抗评价函数，对所述M个第二控制方案进行评价，获得M个第二子适应度和M个第三子适应度，包括：

构建所述围捕评价函数，如下：；其中，/>为第i个第二控制方案的第二子适应度，/>为所述目标移动位置，/>为第i个第二控制方案控制下N个主动目标在下一个时间窗口达到的N个第二位置形成的区域的中心点，/>为/>与/>的距离；

构建所述位置评价函数，如下式：；其中，/>为第i个第二控制方案的第三子适应度，/>为i个第二控制方案控制下第j个主动目标在下一个时间窗口达到的第二位置，/>为/>和/>的距离；

基于所述围捕评价函数和位置评价函数，获得所述对抗评价函数，对所述M个第二控制方案进行评价。

7.根据权利要求4所述的方法，其特征在于，基于所述M个适应度，获取M个调整迭代数量，包括：

获取所述M个适应度的期望值；

分别根据所述M个适应度与所述期望值的比值，对所述预设迭代数量M进行计算调整，获得所述M个调整迭代数量。

8.一种基于AI强化学习的无人艇对抗辅助系统，其特征在于，所述系统包括：

实时参数获取模块，用于获取待围捕的被动目标实时的被动位置参数以及被动移动参数；

移动参数采集模块，用于获取对所述被动目标进行对抗围捕的N个主动目标实时的N个主动位置参数和N个主动移动参数，N为大于1的整数，所述被动目标和主动目标均为无人艇；

目标控制执行模块，用于根据所述被动位置参数、被动移动参数、N个主动位置参数和N个主动移动参数，对所述N个主动目标进行控制，生成N个控制域；

控制方案寻优模块，用于在所述N个控制域内，进行对所述N个主动目标进行控制的控制方案的寻优，其中，通过基于马尔科夫决策模型和对抗评价函数对每个控制方案的适应度进行评价计算，且寻优过程中每个控制方案迭代产生的控制方案的数量与适应度正相关，所述对抗评价函数包括围捕评价函数和位置评价函数；

辅助控制执行模块，用于基于寻优获得的最优控制方案，对所述N个主动目标进行辅助控制。