CN112817318A - 一种多无人艇协同搜索控制方法及系统 - Google Patents
一种多无人艇协同搜索控制方法及系统 Download PDFInfo
- Publication number
- CN112817318A CN112817318A CN202110012855.6A CN202110012855A CN112817318A CN 112817318 A CN112817318 A CN 112817318A CN 202110012855 A CN202110012855 A CN 202110012855A CN 112817318 A CN112817318 A CN 112817318A
- Authority
- CN
- China
- Prior art keywords
- unmanned ship
- unmanned
- information
- task
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/0206—Control of position or course in two dimensions specially adapted to water vehicles
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B63—SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
- B63B—SHIPS OR OTHER WATERBORNE VESSELS; EQUIPMENT FOR SHIPPING
- B63B79/00—Monitoring properties or operating parameters of vessels in operation
- B63B79/10—Monitoring properties or operating parameters of vessels in operation using sensors, e.g. pressure sensors, strain gauges or accelerometers
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B63—SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
- B63B—SHIPS OR OTHER WATERBORNE VESSELS; EQUIPMENT FOR SHIPPING
- B63B79/00—Monitoring properties or operating parameters of vessels in operation
- B63B79/40—Monitoring properties or operating parameters of vessels in operation for controlling the operation of vessels, e.g. monitoring their speed, routing or maintenance schedules
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/0011—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot associated with a remote control arrangement
- G05D1/0027—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot associated with a remote control arrangement involving a plurality of vehicles, e.g. fleet or convoy travelling
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/0088—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G3/00—Traffic control systems for marine craft
- G08G3/02—Anti-collision systems
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B63—SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
- B63B—SHIPS OR OTHER WATERBORNE VESSELS; EQUIPMENT FOR SHIPPING
- B63B35/00—Vessels or similar floating structures specially adapted for specific purposes and not otherwise provided for
- B63B2035/006—Unmanned surface vessels, e.g. remotely controlled
- B63B2035/007—Unmanned surface vessels, e.g. remotely controlled autonomously operating
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B63—SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
- B63B—SHIPS OR OTHER WATERBORNE VESSELS; EQUIPMENT FOR SHIPPING
- B63B79/00—Monitoring properties or operating parameters of vessels in operation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/043—Distributed expert systems; Blackboards
Abstract
本发明涉及一种多无人艇协同搜索控制方法及系统,涉及海洋智能无人艇协同作业领域,包括确定无人艇团队的任务区域;根据任务区域和概率图方式,确定当前时刻每个无人艇对应的环境感知信息;将当前时刻每个无人艇对应的环境感知信息分别输入到相应的目标搜索策略输出模型中以获取下一个时刻每个无人艇的执行动作;将下一个时刻每个无人艇的执行动作发送至对应的无人艇执行结构中以对任务区域内的水下目标进行搜索。其中,目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的。本发明能够解决在搜索任务中,无人艇效率低、精确度不高、任务分配不明确等问题。
Description
技术领域
本发明涉及海洋智能无人艇协同作业领域,特别是涉及一种多无人艇协同搜索控制方法及系统。
背景技术
无人艇是一种具有自主计划、驾驶功能和导航功能的机器人系统,它可以通过岸上运输或大型船只携带部署在任务区域,以独立完成任务。其中,任务包括环境监测、采样、搜索、通信、港口保护和巡逻等。在这些任务中,搜索任务是最适合无人艇的任务之一。
一般而言,需要根据任务要求和环境条件(例如风,流和障碍物)对任务区域进行监管。任务区域通常很大,需要很长时间才能搜索整个任务区域,因此工作人员需要长时间工作在船上。众所周知,长期的海上作业是非常困难的,工作不便且对工作人员存在危险。
由于无人艇自身的特点,可以在任务区域内长时间自主执行搜索任务,而无需人工干预,这不仅大大提高了搜索效率,而且大大降低了工作强度和工作风险。然而,由于大多数无人艇都比正常船舶空间小,故不能配备一些大功率观测传感器,因此,无人艇的感应范围有限,这就意味着无人艇每单位时间的搜索效率低。此外,一旦无人艇在执行任务过程中发生意外事故(设备故障,不可避免的障碍、强烈电磁干扰等),则必须暂停执行任务,这对某些紧急情况(例如寻找受害者)具有负面影响。尽管提高无人艇的性能可以在一定程度上解决上述问题,但是无论如何提高无人艇的性能,单个无人艇的搜索效率远低于实际需求。
发明内容
本发明的目的是提供一种多无人艇协同搜索控制方法及系统,旨在解决在搜索任务中,无人艇效率低、精确度不高、任务分配不明确等问题,使无人艇团队充分发挥无人艇协同作业优势。
为实现上述目的,本发明提供了如下方案:
一种多无人艇协同搜索控制方法,包括:
确定无人艇团队的任务区域;所述无人艇团队包括多个无人艇;一个所述无人艇对应一个目标搜索策略输出模型;所述目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的;
根据所述任务区域和概率图方式,确定当前时刻每个所述无人艇对应的环境感知信息;所述环境感知信息包括目标信息、协作信息、障碍物观察信息以及避免碰撞信息;
将当前时刻每个所述无人艇对应的环境感知信息分别输入到相应的所述目标搜索策略输出模型中以获取下一个时刻每个所述无人艇的执行动作;
将下一个时刻每个所述无人艇的执行动作发送至对应的无人艇执行结构中以对所述任务区域内的水下目标进行搜索。
可选的,所述根据所述任务区域和概率图方式,确定当前时刻每个所述无人艇对应的环境感知信息,具体包括:
根据所述任务区域和所述无人艇团队内无人艇的个数,计算每个所述无人艇对应的任务子区域;
基于概率图方式,确定当前时刻每个无人艇在对应的任务子区域内采集到的环境感知信息。
可选的,所述目标信息的确定过程为:
以所述任务子区域的一个角点为原点建立xy坐标系;
对所述任务子区域进行分割,得到多个大小相同的单元格,并基于所述xy坐标系计算每个所述单元格的中心位置坐标;
确定每个单元格目标存在概率;
以每个所述单元格目标存在概率为基础,采用伯努利分布概率算法,对每个所述单元格建模,得到每个所述单元格对应的目标存在概率模型;
确定当前时刻所述无人艇的感应区域;
根据每个所述单元格的中心位置坐标、每个所述单元格对应的目标存在概率模型以及当前时刻所述无人艇的感应区域,计算当前时刻所述无人艇对应的目标存在概率图;
根据当前时刻所述无人艇对应的目标存在概率图,确定当前时刻所述无人艇对应的目标信息。
可选的,所述协作信息的确定过程为:
根据公式Ci,k={ci,k,j∈R:||g-ai,k||≤Rc}确定当前时刻所述无人艇对应的协作信息;
其中,Ci,k表示第i个无人艇在第k时刻的协同信息,ci,k,j表示第k时刻第i个无人艇在第j个单元格中的协作信息,R表示任务子区域的半径,ai,k表示第i个无人艇在第k时刻的位置,g表示第j个单元格的位置,Rc表示通信半径。
可选的,所述障碍物观察信息的确定过程为:
根据公式Oi,k={oi,k,j∈R:||ai,k-Obstacle||≤Ro}确定当前时刻所述无人艇对应的障碍物观察信息;
其中,Oi,k表示第i个无人艇在第k时刻的障碍物观察信息,oi,k,j表示第k时刻第i个无人艇在第j个单元格中的障碍物观察信息,R表示任务子区域的半径,ai,k表示第i个无人艇在第k时刻的位置,Obstacle表示障碍物的位置,Ro表示避障半径。
可选的,所述避免碰撞信息的确定过程为:
根据公式di,k={di,k,j∈R:||g-ai,k||≤Rd}确定当前时刻所述无人艇对应的避免碰撞信息;
其中,di,k表示第i个无人艇在第k时刻的避免碰撞信息,di,k,j表示第k时刻第i个无人艇在第j个单元格中的避免碰撞信息,R表示任务子区域的半径,ai,k表示第i个无人艇在第k时刻的位置,g表示第j个单元格的位置,Rd表示碰撞半径。
可选的,所述目标搜索策略输出模型的构建过程为:
确定第i个无人艇的训练样本;所述训练样本为具有时间连续性的数据集;所述数据集包括多个样本集合;每个所述样本集合包括多个元素,分别为当前时刻环境感知信息,当前时刻执行动作,当前时刻奖励以及下一时刻环境感知信息;
构建DDQN网络结构;
将第i个所述无人艇的训练样本输入到所述DDQN网络结构中以对所述DDQN网络结构进行训练,进而得到第i个无人艇对应的目标搜索策略输出模型,进而得到每个无人艇对应的目标搜索策略输出模型。
一种多无人艇协同搜索控制系统,包括:
任务区域确定模块,用于确定无人艇团队的任务区域;所述无人艇团队包括多个无人艇;一个所述无人艇对应一个目标搜索策略输出模型;所述目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的;
环境感知信息确定模块,用于根据所述任务区域和概率图方式,确定当前时刻每个所述无人艇对应的环境感知信息;所述环境感知信息包括目标信息、协作信息、障碍物观察信息以及避免碰撞信息;
执行动作获取模块,用于将当前时刻每个所述无人艇对应的环境感知信息分别输入到相应的所述目标搜索策略输出模型中以获取下一个时刻每个所述无人艇的执行动作;
目标搜索模块,用于将下一个时刻每个所述无人艇的执行动作发送至对应的无人艇执行结构中以对所述任务区域内的水下目标进行搜索。
可选的,所述环境感知信息确定模块,具体包括:
任务区域划分单元,用于根据所述任务区域和所述无人艇团队内无人艇的个数,计算每个所述无人艇对应的任务子区域;
环境感知信息确定单元,用于基于概率图方式,确定当前时刻每个无人艇在对应的任务子区域内采集到的环境感知信息。
可选的,还包括:目标搜索策略输出模型构建模块;所述目标搜索策略输出模型构建模块,具体包括:
训练样本确定单元,用于确定第i个无人艇的训练样本;所述训练样本为具有时间连续性的数据集;所述数据集包括多个样本集合;每个所述样本集合包括多个元素,分别为当前时刻环境感知信息,当前时刻执行动作,当前时刻奖励以及下一时刻环境感知信息;
DDQN网络结构构建单元,用于构建DDQN网络结构;
目标搜索策略输出模型构建单元,用于将第i个所述无人艇的训练样本输入到所述DDQN网络结构中以对所述DDQN网络结构进行训练,进而得到第i个无人艇对应的目标搜索策略输出模型,进而得到每个无人艇对应的目标搜索策略输出模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明通过概率图方式和DDQN算法实时确定每个无人艇的目标搜索策略,进而实现多个无人艇协同搜索水下目标的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种多无人艇协同搜索控制方法的流程示意图;
图2为本发明一种多无人艇协同搜索控制系统的结构示意图;
图3为本发明目标信息示意图;
图4为本发明一种多无人艇协同搜索控制方法的操作示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种多无人艇协同搜索控制方法及系统,旨在解决在搜索任务中,无人艇效率低、精确度不高、任务分配不明确等问题,使无人艇团队充分发挥无人艇协同作业优势。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
多无人飞行器系统可以增强无人飞行器的鲁棒性和可靠性,并为各种类型的任务提供不同的执行策略。基于此,无人艇团队内每艘无人艇都能够相互传输信息,并可以根据任务需求随时调整任务计划,一旦其中一艘无人艇不能继续工作,其他无人艇可以迅速替换故障无人艇,以确保执行期间任务不会中断。在现阶段,无人艇团队的控制仍面临许多挑战,因此,无人艇团队需要更先进的控制方法来增强无人艇的协作能力。
近年来,强化学习方法的不断发展为解决目标搜索问题提供了新的选择。强化学习的本质是从代理与环境之间的交互中学习策略。本发明提供了一种基于强化学习方法和概率图方法的多无人艇协同搜索控制方法及系统,并将其应用在多无人艇协同搜索多个静止水下目标的搜索任务中。本发明由环境感知步骤和策略生成步骤组成,这两个步骤由基于“分而治之”策略的体系结构组织。环境感知步骤专注于提供环境感测值。策略生成步骤着重于如何学习最佳策略。在本发明提供的方法或系统中,对任务环境进行建模,并设计相应的奖励功能,以有效地探索任务环境和学习策略。
实施例一
如图1所示,本实施例提供的一种多无人艇协同搜索控制方法,包括如下步骤。
步骤101:确定无人艇团队的任务区域;所述无人艇团队包括多个无人艇;一个所述无人艇对应一个目标搜索策略输出模型;所述目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的。
步骤102:根据所述任务区域和概率图方式,确定当前时刻每个所述无人艇对应的环境感知信息;所述环境感知信息包括目标信息、协作信息、障碍物观察信息以及避免碰撞信息。
步骤103:将当前时刻每个所述无人艇对应的环境感知信息分别输入到相应的所述目标搜索策略输出模型中以获取下一个时刻每个所述无人艇的执行动作。
步骤104:将下一个时刻每个所述无人艇的执行动作发送至对应的无人艇执行结构中以对所述任务区域内的水下目标进行搜索。
作为一种优选的具体实施方式,本实施例提供的步骤102具体包括:
根据所述任务区域和所述无人艇团队内无人艇的个数,计算每个所述无人艇对应的任务子区域。
基于概率图方式,确定当前时刻每个无人艇在对应的任务子区域内采集到的环境感知信息。
所述目标信息的确定过程为:
以所述任务子区域的一个角点为原点建立xy坐标系。
对所述任务子区域进行分割,得到多个大小相同的单元格,并基于所述xy坐标系计算每个所述单元格的中心位置坐标。
确定每个单元格目标存在概率。
以每个所述单元格目标存在概率为基础,采用伯努利分布概率算法,对每个所述单元格建模,得到每个所述单元格对应的目标存在概率模型。
确定当前时刻所述无人艇的感应区域。
根据每个所述单元格的中心位置坐标、每个所述单元格对应的目标存在概率模型以及当前时刻所述无人艇的感应区域,计算当前时刻所述无人艇对应的目标存在概率图。
根据当前时刻所述无人艇对应的目标存在概率图,确定当前时刻所述无人艇对应的目标信息。
所述协作信息的确定过程为:
根据公式Ci,k={ci,k,j∈R:||g-ai,k||≤Rc}确定当前时刻所述无人艇对应的协作信息;其中,Ci,k表示第i个无人艇在第k时刻的协同信息,ci,k,j表示第k时刻第i个无人艇在第j个单元格中的协作信息,R表示任务子区域的半径,ai,k表示第i个无人艇在第k时刻的位置,g表示第j个单元格的位置,Rc表示通信半径。
所述障碍物观察信息的确定过程为:
根据公式Oi,k={oi,k,j∈R:||ai,k-Obstacle||≤Ro}确定当前时刻所述无人艇对应的障碍物观察信息;其中,Oi,k表示第i个无人艇在第k时刻的障碍物观察信息,oi,k,j表示第k时刻第i个无人艇在第j个单元格中的障碍物观察信息,R表示任务子区域的半径,ai,k表示第i个无人艇在第k时刻的位置,Obstacle表示障碍物的位置,Ro表示避障半径。
所述避免碰撞信息的确定过程为:
根据公式di,k={di,k,j∈R:||g-ai,k||≤Rd}确定当前时刻所述无人艇对应的避免碰撞信息;其中,di,k表示第i个无人艇在第k时刻的避免碰撞信息,di,k,j表示第k时刻第i个无人艇在第j个单元格中的避免碰撞信息,R表示任务子区域的半径,ai,k表示第i个无人艇在第k时刻的位置,g表示第j个单元格的位置,Rd表示碰撞半径。
作为一种优选的具体实施方式,本实施例提供的所述目标搜索策略输出模型的构建过程为:
确定第i个无人艇的训练样本;所述训练样本为具有时间连续性的数据集;所述数据集包括多个样本集合;每个所述样本集合包括多个元素,分别为当前时刻环境感知信息,当前时刻执行动作,当前时刻奖励以及下一时刻环境感知信息。
构建DDQN网络结构。
将第i个所述无人艇的训练样本输入到所述DDQN网络结构中以对所述DDQN网络结构进行训练,进而得到第i个无人艇对应的目标搜索策略输出模型,进而得到每个无人艇对应的目标搜索策略输出模型。
实施例二
如图2所示,本实施例提供了一种多无人艇协同搜索控制系统,包括:
任务区域确定模块201,用于确定无人艇团队的任务区域;所述无人艇团队包括多个无人艇;一个所述无人艇对应一个目标搜索策略输出模型;所述目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的。
环境感知信息确定模块202,用于根据所述任务区域和概率图方式,确定当前时刻每个所述无人艇对应的环境感知信息;所述环境感知信息包括目标信息、协作信息、障碍物观察信息以及避免碰撞信息。
执行动作获取模块203,用于将当前时刻每个所述无人艇对应的环境感知信息分别输入到相应的所述目标搜索策略输出模型中以获取下一个时刻每个所述无人艇的执行动作。
目标搜索模块204,用于将下一个时刻每个所述无人艇的执行动作发送至对应的无人艇执行结构中以对所述任务区域内的水下目标进行搜索。
作为一种优选的具体实施方式,本实施例提供的所述环境感知信息确定模块202,具体包括:
任务区域划分单元,用于根据所述任务区域和所述无人艇团队内无人艇的个数,计算每个所述无人艇对应的任务子区域。
环境感知信息确定单元,用于基于概率图方式,确定当前时刻每个无人艇在对应的任务子区域内采集到的环境感知信息。
作为一种优选的具体实施方式,本实施例提供的系统还包括:目标搜索策略输出模型构建模块;所述目标搜索策略输出模型构建模块,具体包括:
训练样本确定单元,用于确定第i个无人艇的训练样本;所述训练样本为具有时间连续性的数据集;所述数据集包括多个样本集合;每个所述样本集合包括多个元素,分别为当前时刻环境感知信息,当前时刻执行动作,当前时刻奖励以及下一时刻环境感知信息。
DDQN网络结构构建单元,用于构建DDQN网络结构。
目标搜索策略输出模型构建单元,用于将第i个所述无人艇的训练样本输入到所述DDQN网络结构中以对所述DDQN网络结构进行训练,进而得到第i个无人艇对应的目标搜索策略输出模型,进而得到每个无人艇对应的目标搜索策略输出模型。
实施例三
本实施例提供的多无人艇协同搜索控制方法,包括以下步骤。
步骤1:利用每个无人艇上搭载的传感器来确定在k时刻的环境感知值。环境感知值直接影响策略生成步骤是否可以学习有效的执行策略。每个环境感知值都由四个部分组成,包括目标信息,协作信息,障碍物观察信息和避免碰撞信息。
上述四个信息的计算过程如下:
(1)目标信息
假设无人艇团队中有N个无人艇,每个无人艇在任务区域A∈R2中移动,该任务区域是长为L,宽为W的矩形区域。
如图3所示,以任务区域A的左上角为原点创建xy坐标系,然后将任务区域A分割成若干个单元格。每个单元格的中心位置的坐标表示为g=(x,y),x∈{1,2,...,Lx},y∈{1,2,...,Wy},单元格总数为Lx×Wy,j∈{1,2,...,Lx×Wy}。θj=1和θj=0分别表示第j个单元格中存在目标和未存在目标。在k时刻,任务区域A中第i个无人艇的坐标可以描述为ai,k。以伯努利分布概率方法对每个单元格建模,即以概率P(θj=1)为θj=1和以概率1-P(θj=1)为θj=0的形式对每个单元格进行建模。
由于无人艇的观测能力有限,在第k时刻第i个无人艇只能在由感应半径Rs定义的感应区域si,k中采样;其中,si,k={g∈A:||g-ai,k||≤Rs},||*||表示矢量的2范数。
当单元格的中心位置的坐标位于感应区域si,k时,被认为该单元格完全在感应区域si,k内。第i个无人艇在第k时刻对感应区域si,k的采样结果由zi,j,k表示,zi,j,k=1表示检测到目标,zi,j,k=0表示未检测到目标。因此,P(zi,j,k=1|θj=1)=d(检测概率)和P(zi,j,k=1|θj=0)=f(虚警概率)用于对无人艇数据采样过程进行建模。
基于贝叶斯规则,测量更新每个无人艇的概率图;其测量更新公式由下式给出。Pi,j,k初始值设置为0.5,表示没有信息,Pi,j,k在搜索过程中进行实时更新。
(2)协作信息
协作信息的目的是使无人艇根据其他无人艇的位置调整搜索区域,以避免多个无人艇重复搜索同一区域。协作信息由c-map表示,协作信息是将通信范围内的邻居坐标映射到大小为2Rc×2Rc的矩阵上,Rc是通信半径。第i个无人艇在第k时刻的协同信息映射表示为Ci,k={ci,k,j∈R:||g-ai,k||≤Rc},其中,ci,k,j是以邻居的坐标为中心的高斯分布的叠加。
(3)障碍物观察信息
障碍物观察信息是为了使无人艇在执行任务时避开局部障碍物(不包括其他无人艇)。障碍物观察信息由障碍物图表示,该障碍物图将无人艇避障范围内的障碍物坐标映射到大小为2Ro×2Ro的矩阵中,Ro是避障半径。第i个无人艇在第k时刻的障碍物图表示为Oi,k={oi,k,j∈R:||ai,k-Obstacle||≤Ro}。
(4)避免碰撞信息
避免碰撞信息是为了使无人艇在执行任务时避开其他无人艇。避免碰撞信息由防撞图表示,该防撞图将无人艇防撞范围内的无人艇坐标映射到大小为2Rd×2Rd的矩阵中,Rd是碰撞半径。第i个无人艇在第k时刻的碰撞图表示为di,k={di,k,j∈R:||g-ai,k||≤Rd}。
步骤2:将步骤1采集到的环境感知值传递给策略生成步骤。策略生成步骤的职责是学习最佳策略。在搜索任务中,在确保无人艇导航安全的基础上,找出可以提高目标搜索效率和无人艇团队准确性的执行策略,如图4所示。
在策略生成步骤中使用DDQN算法。DDQN算法是一种经典的强化学习算法,该算法是基于价值的方法,可以轻松地集成到环境中。将采集到的环境感知值输入到DDQN算法中,生成大量样本数据并将其存储在DDQN算法的重播缓冲区中。当重播缓冲区中积累了足够的样本数据时,DDQN算法会从重播缓冲区中随机抽取样本,这些样本数据用于学习策略,进而得到训练后的DDQN算法。
步骤3:获取第k时刻第i个无人艇采集到环境感知值Ei,k,并将此值输入到训练后的DDQN算法中,就可以反馈给第i个无人艇相应的动作值,然后根据此执行动作控制该无人艇进行搜索。
相比于现有协同搜索算法,本发明专利具有以下有益效果:
(1)本发明可以使无人艇团队学习到有效的搜索策略,在任务范围内快速定位目标的同时,保证无人艇在任务执行过程中的航行安全。(2)与传统的搜索算法相比,本发明搜索的精确度和效率更高。(3)本发明具有实时在线学习能力,可以根据不同的任务情况学习到不同的搜索策略,大大提高了无人艇团队的任务能力。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种多无人艇协同搜索控制方法,其特征在于,包括:
确定无人艇团队的任务区域;所述无人艇团队包括多个无人艇;一个所述无人艇对应一个目标搜索策略输出模型;所述目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的;
根据所述任务区域和概率图方式,确定当前时刻每个所述无人艇对应的环境感知信息;所述环境感知信息包括目标信息、协作信息、障碍物观察信息以及避免碰撞信息;
将当前时刻每个所述无人艇对应的环境感知信息分别输入到相应的所述目标搜索策略输出模型中以获取下一个时刻每个所述无人艇的执行动作;
将下一个时刻每个所述无人艇的执行动作发送至对应的无人艇执行结构中以对所述任务区域内的水下目标进行搜索。
2.根据权利要求1所述的一种多无人艇协同搜索控制方法,其特征在于,所述根据所述任务区域和概率图方式,确定当前时刻每个所述无人艇对应的环境感知信息,具体包括:
根据所述任务区域和所述无人艇团队内无人艇的个数,计算每个所述无人艇对应的任务子区域;
基于概率图方式,确定当前时刻每个无人艇在对应的任务子区域内采集到的环境感知信息。
3.根据权利要求2所述的一种多无人艇协同搜索控制方法,其特征在于,所述目标信息的确定过程为:
以所述任务子区域的一个角点为原点建立xy坐标系;
对所述任务子区域进行分割,得到多个大小相同的单元格,并基于所述xy坐标系计算每个所述单元格的中心位置坐标;
确定每个单元格目标存在概率;
以每个所述单元格目标存在概率为基础,采用伯努利分布概率算法,对每个所述单元格建模,得到每个所述单元格对应的目标存在概率模型;
确定当前时刻所述无人艇的感应区域;
根据每个所述单元格的中心位置坐标、每个所述单元格对应的目标存在概率模型以及当前时刻所述无人艇的感应区域,计算当前时刻所述无人艇对应的目标存在概率图;
根据当前时刻所述无人艇对应的目标存在概率图,确定当前时刻所述无人艇对应的目标信息。
4.根据权利要求3所述的一种多无人艇协同搜索控制方法,其特征在于,所述协作信息的确定过程为:
根据公式Ci,k={ci,k,j∈R:||g-ai,k||≤Rc}确定当前时刻所述无人艇对应的协作信息;
其中,Ci,k表示第i个无人艇在第k时刻的协同信息,ci,k,j表示第k时刻第i个无人艇在第j个单元格中的协作信息,R表示任务子区域的半径,ai,k表示第i个无人艇在第k时刻的位置,g表示第j个单元格的位置,Rc表示通信半径。
5.根据权利要求3所述的一种多无人艇协同搜索控制方法,其特征在于,所述障碍物观察信息的确定过程为:
根据公式Oi,k={oi,k,j∈R:||ai,k-Obstacle||≤Ro}确定当前时刻所述无人艇对应的障碍物观察信息;
其中,Oi,k表示第i个无人艇在第k时刻的障碍物观察信息,oi,k,j表示第k时刻第i个无人艇在第j个单元格中的障碍物观察信息,R表示任务子区域的半径,ai,k表示第i个无人艇在第k时刻的位置,Obstacle表示障碍物的位置,Ro表示避障半径。
6.根据权利要求3所述的一种多无人艇协同搜索控制方法,其特征在于,所述避免碰撞信息的确定过程为:
根据公式di,k={di,k,j∈R:||g-ai,k||≤Rd}确定当前时刻所述无人艇对应的避免碰撞信息;
其中,di,k表示第i个无人艇在第k时刻的避免碰撞信息,di,k,j表示第k时刻第i个无人艇在第j个单元格中的避免碰撞信息,R表示任务子区域的半径,ai,k表示第i个无人艇在第k时刻的位置,g表示第j个单元格的位置,Rd表示碰撞半径。
7.根据权利要求1所述的一种多无人艇协同搜索控制方法,其特征在于,所述目标搜索策略输出模型的构建过程为:
确定第i个无人艇的训练样本;所述训练样本为具有时间连续性的数据集;所述数据集包括多个样本集合;每个所述样本集合包括多个元素,分别为当前时刻环境感知信息,当前时刻执行动作,当前时刻奖励以及下一时刻环境感知信息;
构建DDQN网络结构;
将第i个所述无人艇的训练样本输入到所述DDQN网络结构中以对所述DDQN网络结构进行训练,进而得到第i个无人艇对应的目标搜索策略输出模型,进而得到每个无人艇对应的目标搜索策略输出模型。
8.一种多无人艇协同搜索控制系统,其特征在于,包括:
任务区域确定模块,用于确定无人艇团队的任务区域;所述无人艇团队包括多个无人艇;一个所述无人艇对应一个目标搜索策略输出模型;所述目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的;
环境感知信息确定模块,用于根据所述任务区域和概率图方式,确定当前时刻每个所述无人艇对应的环境感知信息;所述环境感知信息包括目标信息、协作信息、障碍物观察信息以及避免碰撞信息;
执行动作获取模块,用于将当前时刻每个所述无人艇对应的环境感知信息分别输入到相应的所述目标搜索策略输出模型中以获取下一个时刻每个所述无人艇的执行动作;
目标搜索模块,用于将下一个时刻每个所述无人艇的执行动作发送至对应的无人艇执行结构中以对所述任务区域内的水下目标进行搜索。
9.根据权利要求8所述的一种多无人艇协同搜索控制系统,其特征在于,所述环境感知信息确定模块,具体包括:
任务区域划分单元,用于根据所述任务区域和所述无人艇团队内无人艇的个数,计算每个所述无人艇对应的任务子区域;
环境感知信息确定单元,用于基于概率图方式,确定当前时刻每个无人艇在对应的任务子区域内采集到的环境感知信息。
10.根据权利要求8所述的一种多无人艇协同搜索控制系统,其特征在于,还包括:目标搜索策略输出模型构建模块;所述目标搜索策略输出模型构建模块,具体包括:
训练样本确定单元,用于确定第i个无人艇的训练样本;所述训练样本为具有时间连续性的数据集;所述数据集包括多个样本集合;每个所述样本集合包括多个元素,分别为当前时刻环境感知信息,当前时刻执行动作,当前时刻奖励以及下一时刻环境感知信息;
DDQN网络结构构建单元,用于构建DDQN网络结构;
目标搜索策略输出模型构建单元,用于将第i个所述无人艇的训练样本输入到所述DDQN网络结构中以对所述DDQN网络结构进行训练,进而得到第i个无人艇对应的目标搜索策略输出模型,进而得到每个无人艇对应的目标搜索策略输出模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110012855.6A CN112817318B (zh) | 2021-01-06 | 2021-01-06 | 一种多无人艇协同搜索控制方法及系统 |
US17/469,155 US20220214688A1 (en) | 2021-01-06 | 2021-09-08 | Method and system for controlling multi-unmanned surface vessel collaborative search |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110012855.6A CN112817318B (zh) | 2021-01-06 | 2021-01-06 | 一种多无人艇协同搜索控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112817318A true CN112817318A (zh) | 2021-05-18 |
CN112817318B CN112817318B (zh) | 2022-02-11 |
Family
ID=75857847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110012855.6A Active CN112817318B (zh) | 2021-01-06 | 2021-01-06 | 一种多无人艇协同搜索控制方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220214688A1 (zh) |
CN (1) | CN112817318B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114815797A (zh) * | 2021-12-04 | 2022-07-29 | 中国船舶工业系统工程研究院 | 基于概率图融合的多无人艇任务处理方法及装置 |
CN114942643A (zh) * | 2022-06-17 | 2022-08-26 | 华中科技大学 | 一种usv无人艇路径规划模型的构建方法及应用 |
CN114942643B (zh) * | 2022-06-17 | 2024-05-14 | 华中科技大学 | 一种usv无人艇路径规划模型的构建方法及应用 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108445884A (zh) * | 2018-04-11 | 2018-08-24 | 上海大学 | 一种基于多无人艇协同的巡逻系统及方法 |
CN108873894A (zh) * | 2018-06-11 | 2018-11-23 | 上海大学 | 一种基于多无人艇的目标跟踪协同控制系统和方法 |
CN110262494A (zh) * | 2019-06-26 | 2019-09-20 | 华南理工大学 | 一种同构多无人艇系统的协同学习与编队控制方法 |
CN111176281A (zh) * | 2019-12-31 | 2020-05-19 | 大连民族大学 | 基于象限法的多水面无人艇覆盖式协同搜索方法及系统 |
CN111976920A (zh) * | 2020-07-24 | 2020-11-24 | 深圳市云洲创新科技有限公司 | 一种人员搜救方法、搜救船艇和人员搜救系统 |
-
2021
- 2021-01-06 CN CN202110012855.6A patent/CN112817318B/zh active Active
- 2021-09-08 US US17/469,155 patent/US20220214688A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108445884A (zh) * | 2018-04-11 | 2018-08-24 | 上海大学 | 一种基于多无人艇协同的巡逻系统及方法 |
CN108873894A (zh) * | 2018-06-11 | 2018-11-23 | 上海大学 | 一种基于多无人艇的目标跟踪协同控制系统和方法 |
CN110262494A (zh) * | 2019-06-26 | 2019-09-20 | 华南理工大学 | 一种同构多无人艇系统的协同学习与编队控制方法 |
CN111176281A (zh) * | 2019-12-31 | 2020-05-19 | 大连民族大学 | 基于象限法的多水面无人艇覆盖式协同搜索方法及系统 |
CN111976920A (zh) * | 2020-07-24 | 2020-11-24 | 深圳市云洲创新科技有限公司 | 一种人员搜救方法、搜救船艇和人员搜救系统 |
Non-Patent Citations (4)
Title |
---|
ZHANG RUI等: "Ship Collision Avoidance Using Constrained Deep Reinforcement Learning", 《2018 5TH INTERNATIONAL CONFERENCE ON BEHAVIORAL, ECONOMIC, AND SOCIO-CULTURAL COMPUTING (BESC)》 * |
侯瑞超等: "水面无人艇智能化技术的发展现状和趋势", 《中国造船》 * |
钱正芳等: "浅析深度学习在未来水面无人艇平台的应用", 《中国造船》 * |
马向峰等: "水面无人艇任务规划系统分析", 《舰船科学技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114815797A (zh) * | 2021-12-04 | 2022-07-29 | 中国船舶工业系统工程研究院 | 基于概率图融合的多无人艇任务处理方法及装置 |
CN114942643A (zh) * | 2022-06-17 | 2022-08-26 | 华中科技大学 | 一种usv无人艇路径规划模型的构建方法及应用 |
CN114942643B (zh) * | 2022-06-17 | 2024-05-14 | 华中科技大学 | 一种usv无人艇路径规划模型的构建方法及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN112817318B (zh) | 2022-02-11 |
US20220214688A1 (en) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Collision-avoidance navigation systems for Maritime Autonomous Surface Ships: A state of the art survey | |
CN108681321B (zh) | 一种无人船协同编队的水下探测方法 | |
CN106970648A (zh) | 城市低空环境下无人机多目标路径规划联合搜索方法 | |
CN107422736A (zh) | 一种无人船自主返航系统及其工作方法 | |
CN109784201B (zh) | 基于四维风险评估的auv动态避障方法 | |
Suresh et al. | Active SLAM using 3D submap saliency for underwater volumetric exploration | |
CN111898285B (zh) | 一种水下无人自主航行器集群作业效能评估方法 | |
Zheng et al. | A decision-making method for ship collision avoidance based on improved cultural particle swarm | |
CN108320051B (zh) | 一种基于gru网络模型的移动机器人动态避碰规划方法 | |
CN111781922B (zh) | 一种基于深度强化学习的多机器人协同导航方法 | |
CN113010958A (zh) | 自航船舶的模拟系统及其运作方法 | |
CN112817318B (zh) | 一种多无人艇协同搜索控制方法及系统 | |
CN112330915A (zh) | 无人机森林防火预警方法、系统、电子设备和存储介质 | |
Xinchi et al. | A research on intelligent obstacle avoidance for unmanned surface vehicles | |
CN114387822B (zh) | 船舶避碰方法 | |
Campos et al. | Diius-distributed perception for inspection of aquatic structures | |
Vagale et al. | Evaluation of path planning algorithms of autonomous surface vehicles based on safety and collision risk assessment | |
Wu et al. | An overview of developments and challenges for unmanned surface vehicle autonomous berthing | |
Wang et al. | Research on autonomous planning method based on improved quantum Particle Swarm Optimization for Autonomous Underwater Vehicle | |
CN115373383A (zh) | 一种垃圾回收无人艇的自主避障方法、装置及相关设备 | |
CN113885533B (zh) | 一种无人艇的无人驾驶方法及系统 | |
Nelson et al. | Decentralized H∞ filtering in a multi-agent system | |
Liu et al. | Intelligent Ship-Shore Cooperation for USV: A Brief Survey and Suggested Scheme | |
Du et al. | Hierarchical path planning and obstacle avoidance control for unmanned surface vehicle | |
WO2023065494A1 (zh) | 一种意图驱动的强化学习路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |