CN112149354A - 一种用于uuv集群的强化学习算法研究平台 - Google Patents

一种用于uuv集群的强化学习算法研究平台 Download PDF

Info

Publication number
CN112149354A
CN112149354A CN202011015816.3A CN202011015816A CN112149354A CN 112149354 A CN112149354 A CN 112149354A CN 202011015816 A CN202011015816 A CN 202011015816A CN 112149354 A CN112149354 A CN 112149354A
Authority
CN
China
Prior art keywords
uuv
module
reinforcement learning
cluster
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011015816.3A
Other languages
English (en)
Inventor
徐健
黄飞
邢文
张耕实
李娟�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202011015816.3A priority Critical patent/CN112149354A/zh
Publication of CN112149354A publication Critical patent/CN112149354A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于UUV集群研究技术领域,具体涉及一种用于UUV集群的强化学习算法研究平台。本发明解决了在研究用于UUV集群决策控制的强化学习算法时,需要对所研究的强化学习算法进行训练和结果验证的问题。本发明不仅可以快速对所研究的强化学习算法进行训练,而且还能对其决策控制效果进行验证,避免了直接进行UUV集群水下实验所耗费的大量时间和可能产生的未知风险,满足了算法研究人员对实验的需求。本发明能方便的对UUV集群强化学习算法进行训练和验证,从而极大的提高UUV集群的强化学习算法研发效率。本发明采用模块化设计,具有较好的扩展性,便于定制化。

Description

一种用于UUV集群的强化学习算法研究平台
技术领域
本发明属于UUV集群研究技术领域,具体涉及一种用于UUV集群的强化学习算法研究平台。
背景技术
UUV集群的决策控制是UUV研究邻域的一个重要研究方向,是UUV集群完成任务目标的关键技术,应用强化学习技术来解决UUV集群的决策控制问题是一种有效的方法,然而针对UUV集群的强化学习算法需要大量的数据对算法进行训练,这就导致需要进行大量的实验来获取这些数据,如果直接使用UUV进行水下实验,不仅效率低,而且风险极高,很容易对UUV造成不可逆的伤害。为了满足算法研究人员对实验的需求,一种用于UUV集群的强化学习算法研究平台必须具备以下条件:在软件层面,能对UUV集群及其作业环境进行仿真;能与强化学习算法进行交互,提供算法所需的训练数据并执行算法的输出;能简单的进行算法的更改或替换,在硬件层面,能对UUV集群的规模进行简单方便的扩展;能根据实际需求进行定制化设计。
发明内容
本发明的目的在于克服UUV集群强化学习算法的训练以及验证困难的问题,提供一种用于UUV集群的强化学习算法研究平台。
本发明的目的通过如下技术方案来实现:包括UUV集群仿真模块、水下环境仿真模块和强化学习模块;
所述的UUV集群仿真模块由UUV集群中每一个单体UUV的仿真模块构成;所述的单体UUV的仿真模块包括任务处理模块、运动控制模块和动力学模型模块;所述的任务处理模块接收UUV的任务指令,将任务指令解析为UUV具体的航向指令、速度指令以及深度指令,并将解析后的指令传输到运动控制模块;所述的运动控制模块根据接收到的航向指令、速度指令以及深度指令计算每个执行机构的控制指令,并将每个执行机构的控制指令传输到动力学模型模块;所述的动力学模型模块将接收到的执行机构控制指令作用于UUV,计算得到下一个时间步长中UUV的状态信息,并将UUV的状态信息传输到水下环境仿真模块;
所述的水下环境仿真模块生成环境地图,在环境地图中加入障碍物、海深和海流信息特征;所述的水下环境仿真模块接收UUV集群仿真模块中每个单体UUV的动力学模型模块传输的当前时刻该UUV的状态信息,将UUV集群中所有单体UUV加入到环境地图中,得到当前环境状态特征,并将当前环境状态特征传输到强化学习模块;
所述的强化学习模块读取水下环境仿真模块传输的当前环境状态特征,采用强化学习算法进行训练,得到UUV集群的联合动作;所述的强化学习模块将计算得到的UUV集群的联合动作分解为单体UUV的任务指令,并传输给UV集群中每一个单体UUV的任务处理模块。
本发明的有益效果在于:
本发明解决了在研究用于UUV集群决策控制的强化学习算法时,需要对所研究的强化学习算法进行训练和结果验证的问题。本发明不仅可以快速对所研究的强化学习算法进行训练,而且还能对其决策控制效果进行验证,避免了直接进行UUV集群水下实验所耗费的大量时间和可能产生的未知风险,满足了算法研究人员对实验的需求。本发明能方便的对UUV集群强化学习算法进行训练和验证,从而极大的提高UUV集群的强化学习算法研发效率。本发明采用模块化设计,具有较好的扩展性,便于定制化。
附图说明
图1为一种用于UUV集群的强化学习算法研究平台的模块连接图。
图2为一种用于UUV集群的强化学习算法研究平台的硬件层面架构图。
图3为一种用于UUV集群的强化学习算法研究平台的软件层面架构及模块流程图。
图4为一种用于UUV集群的强化学习算法研究平台的运行流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明属于UUV集群研究邻域,具体涉及在研究用于UUV集群决策控制的强化学习算法时,需要对所研究的强化学习算法进行训练和结果验证的问题,通过在此平台上对所研究的算法进行实验,不仅可以快速对所研究的强化学习算法进行训练,而且还能对其决策控制效果进行验证,避免了直接进行UUV集群水下实验所耗费的大量时间和可能产生的未知风险,满足了算法研究人员对实验的需求。
本发明的目的是为克服UUV集群强化学习算法的训练以及验证困难,为此方向的研究人员提供了一种用于UUV集群的强化学习算法研究平台,可以高效的完成算法的训练以及结果验证实验。
本发明的目的是这样实现的:仿真平台的模块连接图如图1所示,用于UUV集群的强化学习算法研究平台在结构体系方面采用模块化的设计,由UUV集群仿真模块、水下环境仿真模块和强化学习模块组成,在通信体系方面结合UDP网络通信和进程间通信,实现了三个模块之间的通信。该平台主要实现的功能有:对用于UUV集群的强化学习算法进行训练并对其结果进行验证。
UUV集群仿真模块在硬件层面是由多台计算机组成,每台计算机即相当于一个单独的UUV,把它们组合起来即可实现对UUV集群的仿真。在软件层面,此处我们通过三个方面实现对单个UUV的仿真,其一,通过运行一个虚拟的QNX系统并在此系统上运行我们已经编译完成的UUV任务处理程序,以实现对UUV内部任务计算机的仿真,其作用是接收UUV的任务指令(由经纬度点集和深度点集组成),并将任务指令解析为UUV具体的航向指令,速度指令以及深度指令,然后通过进程间通信将其发送给UUV控制器程序;其二,通过运行一个虚拟的QNX系统并在此系统上运行我们已经编译完成的UUV控制器程序,以实现对UUV内部运动控制计算机的仿真,其作用是接收来自任务计算机的航向指令,速度指令以及深度指令,并根据接收到的指令信息对单体UUV的航向,速度以及深度进行控制,最后由控制器输出每个执行机构的控制指令,并将这些指令通过进程间通信发送给UUV动力学模型程序;其三是通过编写好的UUV动力学模型程序实现对UUV的动力学特性进行仿真,其作用是接收来自UUV控制器程序得到的执行机构控制指令,并将其作用于UUV,从而计算得到下一个时间步UUV的状态信息(包括UUV的经纬度、速度、深度、航向以及纵倾、横倾等),最后将这些信息通过网络通信发送给水下环境仿真模块,部分信息流如图3所示。
水下环境仿真模块主要是通过软件层面实现对UUV集群作业环境的简化仿真,在硬件层面,考虑到模块化的设计和以后更改的便利性,此程序运行在另一台计算机上。在软件层面,该程序的设计方法如下:由于水下环境为三维环境,故我们首先需要对其建立三维坐标系,为了与实际距离成比例,我们定义了一个实际距离到三维坐标系中距离的映射,然后根据此映射在三维坐标系中自定义一个单位距离,用此单位距离产生的单位立方体对整个坐标空间进行网格化,以此生成环境地图,最后在此地图的基础上加入障碍物,海深,海流等信息特征,以实现对UUV集群水下作业环境的仿真,其作用是首先接收UUV集群中每个UUV动力学模型发来的UUV当前时刻状态信息,将其作用于当前水下环境中,并进行边界判断,三维位置合理性判断,得到融合后的环境状态,由于我们对水下环境空间进行了网格化,故我们采用One-Hot编码对环境状态信息进行编码,以得到强化学习模块所需的当前环境状态特征,最后将其输出到共享内存中保存,以便强化学习模块随时提取,部分信息流如图3所示。
强化学习模块也主要是通过软件层面实现,该程序和水下环境仿真程序运行在同一台计算机上,以便简化平台设计。其主要由输入数据预处理程序、输出预处理程序和强化学习算法程序组成,并且是整个仿真平台运行的起始处。其作用是对水下环境仿真模块进行初始化并开启其相应的线程,读取水下环境仿真模块保存在共享内存中的环境状态特征,然后交由强化学习算法(强化学习算法的输入是状态特征,输出是动作,并可根据输出动作的好坏更新UUV执行动作的策略,以使策略达到局部最优)进行训练(即更新策略)并得到UUV集群的联合动作,最后通过输出预处理程序将得到的联合动作分解为单体UUV的任务指令,并通过网络通信发送给每个UUV的任务计算机,部分信息流如图3所示。
通信方面,UUV集群仿真模块和水下仿真环境仿真模块使用UDP网络进行通信,由于两个模块在多个不同的计算机上,所以在硬件层面上使用网线连接;强化学习模块和水下环境仿真模块进行通信,由于两模块在同一台计算机上运行,故我们直接在软件层面上采用进程间的通信;强化学习模块和UUV集群仿真模块使用UDP网络通信,在硬件层面是采用网线连接。
与现有技术相比,本发明的有益效果是:能方便的对UUV集群强化学习算法进行训练和验证,从而极大的提高UUV集群的强化学习算法研发效率。对于学术研究者,能减少研究者在实验上所花费的时间,从而把更多的精力投入到算法的创新上面;对于工程应用人员,能降低产品的研发周期,从而降低成本。由于本发明是模块化设计,故具有较好的扩展性和方便的定制化设计。
结合图1,用于UUV集群的强化学习算法研究平台的模块组成及其连接如下:
首先通过网线将环境仿真模块加强化学习模块的计算机和路由器连接在一起,然后再将UUV集群仿真模块每个计算机都通过网线连接到路由器上,使得UUV集群仿真模块能和环境仿真模块进行相互间的网络通信,最后环境仿真模块和强化学习模块的通信部分,在程序内部使用进程间通信实现。
结合图2,介绍用于UUV集群的强化学习算法研究平台硬件层面的详细架构如下:
水下仿真环境模块和强化学习模块共用一台计算机,UUV集群模块中每个UUV使用一台计算机,所有UUV仿真计算机都通过路由器与水下仿真环境模块和强化学习模块计算机组成局域网,相互间使用网线进行通信。
结合图3,介绍用于UUV集群的强化学习算法研究平台软件层面的详细架构如下:
水下环境仿真模块中,我们通过网络通信接收来自UUV集群中每个UUV的动力学模型所提供的UUV状态信息,将UUV集群的状态信息应用于水下环境中,并将UUV集群的状态信息与水下环境信息进行信息融合,然后通过提取程序得到融合信息,并将其打包保存到共享内存(通过共享内存实现两模块间的通信)中。强化学习模块中,我们读取水下环境仿真模块保存在共享内存中的融合状态信息,随后通过数据处理程序,将融合状态信息处理成张量数据(以便神经网络的训练),为了达到更快的训练速度,我们将其从CPU内存转到GPU内存中,使用GPU进行运算和训练,每个时间步,我们都输出控制UUV集群的指令,并将指令打包通过网络通信发送给UUV集群中的每个UUV,每个UUV则根据自己接收到的指令行动,并产生下一个时间步的状态,如此循环往复训练直到结束。
结合图4,通过一个具体的实验流程,介绍用于UUV集群的强化学习算法研究平台的运行流程:
步骤1通过强化学习模块主函数开启整个平台,初始化环境仿真模块和UUV集群模块;
步骤2开启全部程序线程,训练开始;
步骤3UUV集群仿真模块的每个UUV将自己的状态信息发送给环境仿真模块,环境仿真模块将所有信息整合后一起发给强化学习模块,供其进行训练;
步骤4暂停环境仿真模块和UUV集群模块的线程,等待强化学习模块训练完成;
步骤5训练完成,开始被暂停的线程,强化学习模块输出联合动作指令到环境仿真模块,环境仿真模块对其进行处理后发送给UUV集群仿真模块的每一个UUV,UUV执行动作指令并产生新的状态。
步骤6判断训练是否完成,若完成,关闭所有线程,实验结束,否则回到步骤3。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种用于UUV集群的强化学习算法研究平台,其特征在于:包括UUV集群仿真模块、水下环境仿真模块和强化学习模块;
所述的UUV集群仿真模块由UUV集群中每一个单体UUV的仿真模块构成;所述的单体UUV的仿真模块包括任务处理模块、运动控制模块和动力学模型模块;所述的任务处理模块接收UUV的任务指令,将任务指令解析为UUV具体的航向指令、速度指令以及深度指令,并将解析后的指令传输到运动控制模块;所述的运动控制模块根据接收到的航向指令、速度指令以及深度指令计算每个执行机构的控制指令,并将每个执行机构的控制指令传输到动力学模型模块;所述的动力学模型模块将接收到的执行机构控制指令作用于UUV,计算得到下一个时间步长中UUV的状态信息,并将UUV的状态信息传输到水下环境仿真模块;
所述的水下环境仿真模块生成环境地图,在环境地图中加入障碍物、海深和海流信息特征;所述的水下环境仿真模块接收UUV集群仿真模块中每个单体UUV的动力学模型模块传输的当前时刻该UUV的状态信息,将UUV集群中所有单体UUV加入到环境地图中,得到当前环境状态特征,并将当前环境状态特征传输到强化学习模块;
所述的强化学习模块读取水下环境仿真模块传输的当前环境状态特征,采用强化学习算法进行训练,得到UUV集群的联合动作;所述的强化学习模块将计算得到的UUV集群的联合动作分解为单体UUV的任务指令,并传输给UV集群中每一个单体UUV的任务处理模块。
CN202011015816.3A 2020-09-24 2020-09-24 一种用于uuv集群的强化学习算法研究平台 Pending CN112149354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011015816.3A CN112149354A (zh) 2020-09-24 2020-09-24 一种用于uuv集群的强化学习算法研究平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011015816.3A CN112149354A (zh) 2020-09-24 2020-09-24 一种用于uuv集群的强化学习算法研究平台

Publications (1)

Publication Number Publication Date
CN112149354A true CN112149354A (zh) 2020-12-29

Family

ID=73896614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011015816.3A Pending CN112149354A (zh) 2020-09-24 2020-09-24 一种用于uuv集群的强化学习算法研究平台

Country Status (1)

Country Link
CN (1) CN112149354A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113016682A (zh) * 2021-03-12 2021-06-25 湖北海洋工程装备研究院有限公司 深水网箱监控系统
CN114840928A (zh) * 2022-05-07 2022-08-02 西北工业大学 一种基于深度学习的水下航行器集群运动仿真方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104076800A (zh) * 2014-07-10 2014-10-01 哈尔滨工程大学 无人水下航行器群体任务协调系统及方法
CN105739323A (zh) * 2014-12-08 2016-07-06 哈尔滨米米米业科技有限公司 水下无人航行器4d同步推演系统
CN106600666A (zh) * 2016-12-19 2017-04-26 河海大学常州校区 一种水下机器人仿真展示系统及仿真方法
WO2018195307A1 (en) * 2017-04-19 2018-10-25 Aibrain, Inc. Scalable framework for autonomous artificial intelligence characters
CN109241552A (zh) * 2018-07-12 2019-01-18 哈尔滨工程大学 一种基于多约束目标的水下机器人运动规划方法
CN110008630A (zh) * 2019-04-18 2019-07-12 哈尔滨工程大学 水下无人航行器集群仿真平台
CN110794855A (zh) * 2019-11-26 2020-02-14 南方电网调峰调频发电有限公司 一种水下机器人综合控制系统及其方法
CN111340868A (zh) * 2020-02-26 2020-06-26 大连海事大学 基于视觉深度估计的无人水下航行器自主决策控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104076800A (zh) * 2014-07-10 2014-10-01 哈尔滨工程大学 无人水下航行器群体任务协调系统及方法
CN105739323A (zh) * 2014-12-08 2016-07-06 哈尔滨米米米业科技有限公司 水下无人航行器4d同步推演系统
CN106600666A (zh) * 2016-12-19 2017-04-26 河海大学常州校区 一种水下机器人仿真展示系统及仿真方法
WO2018195307A1 (en) * 2017-04-19 2018-10-25 Aibrain, Inc. Scalable framework for autonomous artificial intelligence characters
CN109241552A (zh) * 2018-07-12 2019-01-18 哈尔滨工程大学 一种基于多约束目标的水下机器人运动规划方法
CN110008630A (zh) * 2019-04-18 2019-07-12 哈尔滨工程大学 水下无人航行器集群仿真平台
CN110794855A (zh) * 2019-11-26 2020-02-14 南方电网调峰调频发电有限公司 一种水下机器人综合控制系统及其方法
CN111340868A (zh) * 2020-02-26 2020-06-26 大连海事大学 基于视觉深度估计的无人水下航行器自主决策控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张伟等: "水下无人潜航器集群发展现状及关键技术综述", 《哈尔滨工程大学学报》 *
王宏健: "《自主式水下潜器虚拟仿真系统研究》", 《系统仿真学报》 *
秦政: "《自主式水下潜器导航仿真系统研究》", 《系统仿真学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113016682A (zh) * 2021-03-12 2021-06-25 湖北海洋工程装备研究院有限公司 深水网箱监控系统
CN114840928A (zh) * 2022-05-07 2022-08-02 西北工业大学 一种基于深度学习的水下航行器集群运动仿真方法
CN114840928B (zh) * 2022-05-07 2023-04-18 西北工业大学 一种基于深度学习的水下航行器集群运动仿真方法

Similar Documents

Publication Publication Date Title
CN112149354A (zh) 一种用于uuv集群的强化学习算法研究平台
CN107942720A (zh) 一种便携式地面在线飞行仿真系统
CN104685516A (zh) 用于在尖峰神经元网络中实现基于事件的更新的装置和方法
CN101986318A (zh) 飞行控制系统概念样机设计方法
US20140330763A1 (en) Apparatus and methods for developing parallel networks using a general purpose programming language
Lan et al. Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning
CN113264043A (zh) 基于深度强化学习的无人驾驶分层运动决策控制方法
CN102592025A (zh) 一种无人潜航器任务规划系统的虚拟试验平台及试验方法
Pérez-Hurtado et al. Simulation of rapidly-exploring random trees in membrane computing with P-lingua and automatic programming
CN106528171A (zh) 一种异构计算平台子系统间的接口设计方法、装置及系统
Di Maio et al. Closed-loop systems engineering (close): Integrating experimentable digital twins with the model-driven engineering process
CN103473426A (zh) 基于嵌入式系统框架的星载相控阵信号处理架构设计方法
Liu et al. Mtd-gpt: A multi-task decision-making gpt model for autonomous driving at unsignalized intersections
Zhang et al. DSiV: Data science for intelligent vehicles
Ren et al. Numerical investigation on the swimming mode and stable spacing with two self-propelled fish arranged in tandem
Liu et al. Cooperative Decision-Making for CAVs at Unsignalized Intersections: A MARL Approach with Attention and Hierarchical Game Priors
Palnitkar et al. Chatsim: Underwater simulation with natural language prompting
CN114882759B (zh) 虚实混合一体化仿真的智能船多通道交互模拟系统和方法
CN114167748B (zh) 一种飞行控制算法一体化训练平台
CN116481532A (zh) 基于模仿学习的单体无人机自主运动规划方法
CN112991744B (zh) 一种适用于长距离城市道路的自动驾驶决策方法及系统
CN115576317A (zh) 一种基于神经网络的多预瞄点路径跟踪控制方法及系统
CN117494775A (zh) 训练神经网络模型的方法、电子设备、云端、集群及介质
Luo et al. UML-based design of intelligent vehicles virtual reality platform
CN110135572B (zh) 一种基于soc的可训练柔性cnn系统设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201229