CN112381237A - 基于岸海协同的水面无人系统的持续自主学习架构系统 - Google Patents
基于岸海协同的水面无人系统的持续自主学习架构系统 Download PDFInfo
- Publication number
- CN112381237A CN112381237A CN202011426516.4A CN202011426516A CN112381237A CN 112381237 A CN112381237 A CN 112381237A CN 202011426516 A CN202011426516 A CN 202011426516A CN 112381237 A CN112381237 A CN 112381237A
- Authority
- CN
- China
- Prior art keywords
- task
- model
- learning
- knowledge
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Feedback Control In General (AREA)
Abstract
本发明实施例公开了一种基于岸海协同的水面无人系统的持续自主学习架构系统,包括:任务管理器、混合迁移学习器、自动机器学习器、模型中心、应用中心和知识中心。本发明实施例以水面无人系统自主学习需求为牵引,瞄准提升智能模型对环境变化和相似任务变化的适应能力为目标,通过将持续自主学习范式应用于水面无人系统,构建水面无人系统的持续自主学习能力,为水面无人系统向高级自主的强智能无人装备迈进提供有力支撑。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种基于岸海协同的水面无人系统持续自主学习架构系统。
背景技术
随着智能技术的快速发展,以深度学习为代表的新一代人工智能技术,虽然与传统机器学习方法相比,在图像识别、语音识别、语义理解、棋类博弈和游戏对战等方面取得了引人瞩目的成就。然而,包括深度学习、强化学习在内,以大数据和仿真环境为基础的传统机器学习范式严重依赖于大量人工标注的高质量标签数据,或者高质量仿真环境。
但在工程应用领域,由于数据严重缺乏,这些智能模型往往难以取得应用成效。例如水面无人系统的智能技术在应用普遍受限于海上环境复杂多变、实际数据和仿真模型缺乏等问题,导致在环境感知、自主控制等任务中普遍表现不佳,甚至不如传统方法有效。
发明内容
基于现有方法中存在的上述问题,本发明实施例提出一种基于岸海协同的水面无人系统的持续自主学习架构系统。
具体地,本发明实施例提供了以下技术方案:
本发明实施例提供了一种基于岸海协同的水面无人系统的持续自主学习架构系统,包括:任务管理器、混合迁移学习器、自动机器学习器、模型中心、应用中心和知识中心;
所述任务管理器,用于接收和管理海面控制任务,并以持续学习的方式向混合迁移学习器呈现新任务;
所述混合迁移学习器,用于使用所述知识中心的先验知识学习新任务;
所述自动机器学习器,用于根据新任务的要求,自主进行算法模型的设计与训练学习;
所述模型中心,用于存储所述自动机器学习器生成的模型,包括监督学习中的预测模型或分类器,以及,无监督学习中的聚类或强化学习中的策略;
所述应用中心,用于进行模型的实际应用,并在模型应用中继续从模型结果数据中学习新知识,发现要学习的新任务,向所述混合迁移学习器提供反馈以进行模型的优化;
所述知识中心,用于进行数据集的收集和存储,所述数据集用于供所述混合迁移学习器和所述自动机器学习器进行自主学习;
其中,自主学习的过程包括收集环境数据、收集任务数据、模型学习训练、模型应用部署的闭环全流程。
进一步地,所述知识中心包括历史信息库和元知识挖掘器;
其中,所述历史信息库,用于存储先前任务中学习到的知识,存储形式包括数据、模型以及规则;
所述元知识挖掘器,用于利用知识图谱和数据挖掘工具,对知识进行挖掘形成元知识进行存储。
进一步地,所述知识中心还包括:元知识库和知识推理器;所述元知识库存储有每个历史任务中使用的原始数据、来自每个历史任务的中间结果、每个历史任务学习的最终模型或模式;所述知识推理器用于按照预设知识推理算法进对元数据库中存储的数据进行知识推理。
进一步地,所述持续自主学习架构系统基于应用实践阶段、具体经验阶段、反思性观察阶段和抽象化概念阶段的闭环循环处理完成持续自主学习;
其中,所述应用实践阶段,用于利用模型在任务场景中的应用,验证效果并收集新的反馈数据;
所述具体经验阶段,用于获得反馈的任务数据、装备数据、环境数据和效能评估数据;
所述反思性观察阶段,用于基于数据进行学习样本构建;
所述抽象化概念阶段,用于利用智能算法模型对样本进行学习,生成新的模型。
进一步地,所述持续自主学习架构系统的训练过程包括感知、推理、决策和控制四个环节;
智能模型学习训练包括对抗空间表示与建模、态势评估与推理、策略生成与优化、行动协同与控制;通过对抗态势判读理解、认知预测、策略决策和行动实施,局部整体不断循环迭代处理;
其中,所述持续自主学习架构系统的训练过程基于数据、模型和任务三要素;数据是打通任务到模型的枢纽,以数据流为桥梁实现具体数据到学习样本,学习样本要模型结构和参数的映射,以实现模型能力针对任务要求的改进;模型是执行任务的核心要素,模型根据输入的任务场景感知信息,通过模型内部计算,输出执行任务的控制信息,使得任务执行效果符合预期要求;任务是自主学习所有活动的发起点和终结点,模型的设计和训练要求来自于任务要求,模型训练的数据来自于任务执行过程,模型训练效果的验证取决于任务执行结果。
进一步地,所述持续自主学习架构系统中的真实试验和虚拟试验基于一致的试验场。
进一步地,所述持续自主学习架构系统基于硬件系统实现,所述硬件系统包括计算集群、存储集群、应用集群、测试服务器、计算机以及交换机。
进一步地,所述测试服务器为GPU测试服务器。
进一步地,所述硬件系统具备可扩展性,提供统一的接口标准。
进一步地,所述持续自主学习架构系统还包括:基于航行控制任务的仿真验证系统,所述基于航行控制任务的仿真验证系统使得所述持续自主学习架构系统在采用机器学习算法与水面无人系统任务相结合的方式获得处理结果后能够基于航行控制任务的仿真验证系统进行验证。
由上述技术方案可知,本发明实施例提供的基于岸海协同的水面无人系统的持续自主学习架构系统,包括:任务管理器、混合迁移学习器、自动机器学习器、模型中心、应用中心和知识中心;所述任务管理器,用于接收和管理海面控制任务,并以持续学习的方式向混合迁移学习器呈现新任务;所述混合迁移学习器,用于使用所述知识中心的先验知识学习新任务;所述自动机器学习器,用于根据新任务的要求,自主进行算法模型的设计与训练学习;所述模型中心,用于存储所述自动机器学习器生成的模型,包括监督学习中的预测模型或分类器,以及,无监督学习中的聚类或强化学习中的策略;所述应用中心,用于进行模型的实际应用,并在模型应用中继续从模型结果数据中学习新知识,发现要学习的新任务,向所述混合迁移学习器提供反馈以进行模型的优化;所述知识中心,用于进行数据集的收集和存储,所述数据集用于供所述混合迁移学习器和所述自动机器学习器进行自主学习;其中,自主学习的过程包括收集环境数据、收集任务数据、模型学习训练、模型应用部署的闭环全流程。由此可见,本发明实施例以水面无人系统自主学习需求为牵引,瞄准提升智能模型对环境变化和相似任务变化的适应能力为目标,通过将持续自主学习范式应用于水面无人系统,构建水面无人系统的持续自主学习能力。瞄准水面无人系统全寿期自主执行任务能力的持续提升,针对海上环境高复杂性特点,以闭环数据流为枢纽构,以岸上系统持续学习能力为核心,建立一站式水面无人系统持续自主学习模式,形成智能化程度高、拓展能力强、成长能力好的水面无人系统智脑,实现水面无人系统有效经验共享、自主学习训练、技术状态管理及保障能力的生成,为水面无人系统向高级自主的强智能无人装备迈进提供有力支撑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明一实施例提供的基于岸海协同的水面无人系统的持续自主学习架构系统的结构示意图;
图2是本发明一实施例提供的基于岸海协同的水面无人系统持续自主学习概念示意图;
图3是本发明一实施例提供的基于岸海协同的水面无人系统持续自主学习技术架构图;
图4是本发明一实施例提供的基于岸海协同的水面无人系统持续自主学习逻辑架构图;
图5是本发明一实施例提供的基于岸海协同的水面无人系统持续自主学习硬件架构图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
随着智能技术的快速发展,以深度学习为代表的新一代人工智能技术,虽然与传统机器学习方法相比,在图像识别、语音识别、语义理解、棋类博弈和游戏对战等方面取得了引人瞩目的成就。然而,包括深度学习、强化学习在内,以大数据和仿真环境为基础的传统机器学习范式严重依赖于大量人工标注的高质量标签数据,或者高质量仿真环境。
但在工程应用领域,由于数据严重缺乏,这些智能模型往往难以取得应用成效,亟需发展借鉴生物智能持续自主学习机理,开发能在实际应用环境中持续自主学习并改善性能的技术,使人工智能像生物一样根据经验进行决策,提高行动的自主性和环境适应能力,实现弱人工智能向强人工智能的迈进,提高水面无人系统在开放式的实际环境中对典型任务、典型场景的自适应能力。
目前主流的机器学习范式是在一组给定的数据集上运行机器学习算法以生成一个模型,然后将这个模型应用到真实环境的任务中,监督学习和无监督学习都是如此,这种学习范式称为“孤立学习(Isolated Learning)”,因为这种范式不考虑其他相关的信息和以前学过的知识。这种孤立学习的主要问题在于,它不保留和积累以前学习的知识,无法在未来的学习中使用这些知识,这与人类等生物的学习过程存在鲜明的对比。人类从来都不会孤立地或者从零开始学习,始终保留过去已经学到的知识,并将其用于帮助未来的学习和解决问题。久而久之,人类学到的东西越来越多,变得越来越有知识,学习效率越来越高,这种学习范式称之为“持续自主学习 (Lifelong Learning)”。将持续自主学习应用到机器学习领域则是持续自主机器学习(Lifelong Learning Machines,L2M)。如果孤立学习称之为机器学习范式1.0的话,持续自主机器学习可以认为是机器学习范式2.0。持续自主机器学习的目标就是模拟人类等生物智能系统的学习过程和学习能力,这种类型的学习方式是相当自然的,因为周边的事物都是密切相关且相关连通的。了解某些学科的知识有助于理解和学习其他学科。
图1示出了本发明一实施例提供的基于岸海协同的水面无人系统的持续自主学习架构系统的结构示意图,如图1所示,本发明实施例提供的基于岸海协同的水面无人系统的持续自主学习架构系统,具体包括如下内容:任务管理器11、混合迁移学习器12、自动机器学习器13、模型中心14、应用中心15和知识中心16;
所述任务管理器11,用于接收和管理海面控制任务,并以持续学习的方式向混合迁移学习器呈现新任务;
所述混合迁移学习器12,用于使用所述知识中心的先验知识学习新任务;
所述自动机器学习器13,用于根据新任务的要求,自主进行算法模型的设计与训练学习;
所述模型中心14,用于存储所述自动机器学习器生成的模型,包括监督学习中的预测模型或分类器,以及,无监督学习中的聚类或强化学习中的策略;需要说明的是,这里的监督学习算法及模型和无监督学习算法和模型可以采用现有的算法或模型,本实施例对此不作限定;
所述应用中心15,用于进行模型的实际应用,并在模型应用中继续从模型结果数据中学习新知识,发现要学习的新任务,向所述混合迁移学习器提供反馈以进行模型的优化;
所述知识中心16,用于进行数据集的收集和存储,所述数据集用于供所述混合迁移学习器和所述自动机器学习器进行自主学习;
其中,自主学习的过程包括收集环境数据、收集任务数据、模型学习训练、模型应用部署的闭环全流程。
在本实施例中,需要说明的是,本实施例提出一种岸海协同的水面无人系统持续自主学习系统架构,以水面无人系统自主学习需求为牵引,瞄准提升智能模型对环境变化和相似任务变化的适应能力为目标,通过将持续自主学习范式应用于水面无人系统,构建水面无人系统的持续自主学习能力。瞄准水面无人系统全寿期自主执行任务能力的持续提升,针对海上环境高复杂性特点,以闭环数据流为枢纽构,以岸上系统持续学习能力为核心,建立一站式水面无人系统持续自主学习模式,形成智能化程度高、拓展能力强、成长能力好的水面无人系统智脑,实现水面无人系统有效经验共享、自主学习训练、技术状态管理及保障能力的生成,为水面无人系统向高级自主的强智能无人装备迈进提供有力支撑。
需要说明的是,关于无人系统持续自主学习能力目前还没有统一的定义,参考相关研究工作,定义如下:假设在任一时间点,系统已经学习了N 个任务(含环境、平台等约束),在遇到第N+1个任务时,系统能够在尽量不依赖于人或不依赖于大量数据的情况下,主动利用前N个任务中学到的知识来帮助学习第N+1个任务,尽量降低在N+1任务中的泛化误差。
为了更好的描述持续自主技术带来的效益,本实施例给出一种水面无人系统自主等级的定义方法,在给定任务T的规则及要求时,从设计运行条件和任务执行主体两个维度将任务自主执行等级划分为L1-L4级,如下表1 所示,持续自主学习技术突破能够带来的提升是,当水面无人系统在任务T 中已经达到L3级时,通过持续自主学习能力,可以将有限制的设计运行条件扩大到无限制,从而将水面无人系统在任务T的自主等级由L3提升到L4。
表1水面无人系统在任务T要求下的自主等级划分表
等级 | 设计运行条件 | 任务执行主体 |
L1 | 有限制 | 人 |
L2 | 有限制 | 人+机器 |
L3 | 有限制 | 机器 |
L4 | 无限制 | 机器 |
图2是基于岸海协同的水面无人系统持续自主学习概念示意图,如图2 所示,自主学习是一个“收集环境数据-收集任务数据-模型学习训练-模型应用部署”的闭环全流程,该流程以任务数据流为枢纽,保证模型效果持续提升,实现无人系统的持续学习和升级完善。
具体地,如图2所示,所述持续自主学习架构系统基于应用实践阶段、具体经验阶段、反思性观察阶段和抽象化概念阶段的闭环循环处理完成持续自主学习;
其中,所述应用实践阶段,用于利用模型在任务场景中的应用,验证效果并收集新的反馈数据;
所述具体经验阶段,用于获得反馈的任务数据、装备数据、环境数据和效能评估数据;
所述反思性观察阶段,用于基于数据进行学习样本构建;
所述抽象化概念阶段,用于利用智能算法模型对样本进行学习,生成新的模型。
由此可见,本实施例提供的基于岸海协同的水面无人系统持续自主学习框架系统,基于应用实践阶段、具体经验阶段、反思性观察阶段和抽象化概念阶段的闭环循环处理完成持续自主学习,该持续自主学习方式的突破使得水面无人系统从技术本质上发生了根本变化,可以有效解决现有技术中水面无人系统的智能技术在应用普遍受限于海上环境复杂多变、实际数据和仿真模型缺乏等而导致的在环境感知、自主控制等任务中普遍表现不佳的问题。本发明实施例大幅提升水面无人系统的环境适应性、任务适应性和自动化学习水平,让无人系统具有不依赖于人的成长能力,从而承担更加复杂、严苛和重要的使命任务,显著提升无人系统的自主执行任务能力。
由上述技术方案可知,本发明实施例提供的基于岸海协同的水面无人系统的持续自主学习架构系统,包括:任务管理器、混合迁移学习器、自动机器学习器、模型中心、应用中心和知识中心;所述任务管理器,用于接收和管理海面控制任务,并以持续学习的方式向混合迁移学习器呈现新任务;所述混合迁移学习器,用于使用所述知识中心的先验知识学习新任务;所述自动机器学习器,用于根据新任务的要求,自主进行算法模型的设计与训练学习;所述模型中心,用于存储所述自动机器学习器生成的模型,包括监督学习中的预测模型或分类器,以及,无监督学习中的聚类或强化学习中的策略;所述应用中心,用于进行模型的实际应用,并在模型应用中继续从模型结果数据中学习新知识,发现要学习的新任务,向所述混合迁移学习器提供反馈以进行模型的优化;所述知识中心,用于进行数据集的收集和存储,所述数据集用于供所述混合迁移学习器和所述自动机器学习器进行自主学习;其中,自主学习的过程包括收集环境数据、收集任务数据、模型学习训练、模型应用部署的闭环全流程。由此可见,本发明实施例以水面无人系统自主学习需求为牵引,瞄准提升智能模型对环境变化和相似任务变化的适应能力为目标,通过将持续自主学习范式应用于水面无人系统,构建水面无人系统的持续自主学习能力。瞄准水面无人系统全寿期自主执行任务能力的持续提升,针对海上环境高复杂性特点,以闭环数据流为枢纽构,以岸上系统持续学习能力为核心,建立一站式水面无人系统持续自主学习模式,形成智能化程度高、拓展能力强、成长能力好的水面无人系统智脑,实现水面无人系统有效经验共享、自主学习训练、技术状态管理及保障能力的生成,为水面无人系统向高级自主的强智能无人装备迈进提供有力支撑。
基于上述实施例的内容,在本实施例中,所述持续自主学习架构系统的训练过程包括感知、推理、决策和控制四个环节;
智能模型学习训练包括对抗空间表示与建模、态势评估与推理、策略生成与优化、行动协同与控制;通过对抗态势判读理解、认知预测、策略决策和行动实施,局部整体不断循环迭代处理;
其中,所述持续自主学习架构系统的训练过程基于数据、模型和任务三要素;数据是打通任务到模型的枢纽,以数据流为桥梁实现具体数据到学习样本,学习样本要模型结构和参数的映射,以实现模型能力针对任务要求的改进;模型是执行任务的核心要素,模型根据输入的任务场景感知信息,通过模型内部计算,输出执行任务的控制信息,使得任务执行效果符合预期要求;任务是自主学习所有活动的发起点和终结点,模型的设计和训练要求来自于任务要求,模型训练的数据来自于任务执行过程,模型训练效果的验证取决于任务执行结果。
下面结合图3对本实施例提供的内容进行详细说明。图3是基于岸海协同的水面无人系统持续自主学习技术架构图,智能模型学习训练的核心关键环节是认知决策建模。整个训练过程可归纳为感知、推理、决策和控制四个环节。智能模型学习训练的关键技术可归纳为对抗空间表示与建模、态势评估与推理、策略生成与优化、行动协同与控制等。通过对抗态势判读理解、认知预测、策略决策和行动实施,局部整体不断循环迭代增强,自主提升对抗能力。基于以上流程和框架可以发现,自主学习训练的核心要素有三个方面:数据、模型和任务。数据是打通任务到模型的枢纽,以数据流为桥梁实现具体数据到学习样本,学习样本要模型结构和参数的映射,从而实现模型能力针对任务要求的改进。模型是执行任务的核心要素,能够根据输入的任务场景感知信息,通过模型的复杂计算,输出执行任务的控制信息,使得任务执行效果符合预期要求。任务是自主学习所有活动的发起点和终结点,即模型的设计和训练要求来自于任务要求,模型训练的数据来自于任务执行过程,模型训练效果的验证取决于任务执行结果。
如图3所示,所述持续自主学习架构系统中的真实试验和虚拟试验基于一致的试验场,这样可以保证真实试验的结果对虚拟试验有帮助,同时也能保证虚拟试验的结果对真实试验有借鉴或参考意义。
基于上述实施例的内容,在本实施例中,所述知识中心包括历史信息库和元知识挖掘器;
其中,所述历史信息库,用于存储先前任务中学习到的知识,存储形式包括数据、模型以及规则;
所述元知识挖掘器,用于利用知识图谱和数据挖掘工具,对知识进行挖掘形成元知识进行存储。
其中,所述知识中心还包括:元知识库和知识推理器;所述元知识库存储有每个历史任务中使用的原始数据、来自每个历史任务的中间结果、每个历史任务学习的最终模型或模式;所述知识推理器用于按照预设知识推理算法进对元数据库中存储的数据进行知识推理。
在本实施例中,结合图4对本实施例的内容进行详细说明。图4是基于岸海协同的水面无人系统持续自主学习逻辑架构图,根据持续自主学习智能系统的逻辑框架,系统的关键组件包括知识中心、混合迁移学习器、自动机器学习器、模型、应用和任务管理器等。
组件1:知识中心,知识中心主要包括历史信息库、元知识挖掘器、元知识库、知识推理器等。
组件2:历史信息库,主要用于存储先前任务中学习到的知识,存储形式包括数据、模型、规则等,可能包括的知识子库,例如:a、每个历史任务中使用的原始数据;b、来自每个历史任务的中间结果;c.每个历史任务学习的最终模型或模式。至于应该保留哪些新信息或知识,取决于学习任务和学习算法。
组件3:元知识挖掘器,利用知识图谱、数据挖掘等工具,对知识进行挖掘形成元知识进行存储,这里可以使用多种知识提取算法来产生不同类型的结果。
组件4:混合迁移学习器,混合迁移学习器可以使用知识中心的先验知识学习新任务。
组件5:自动机器学习器,自动机器学习器可以根据新的任务要求,自主进行算法模型的设计与训练学习。
组件6:模型,通过学习生存的模型,可以是监督学习中的预测模型或分类器,也可以是无监督学习中的聚类或主题、强化学习中的策略等。
组件7:应用,这是模型的实际应用。重要的是在模型应用中,系统仍然可以学习新知识(即“结果中的知识”),并且可能发现要学习的新任务。应用还可以向混合迁移学习器提供反馈以便进行模型优化。
组件8:任务管理器,接收和管理到达系统的任务,处理任务转变,并以持续学习的方式向混合迁移学习器呈现新的学习任务。
基于上述实施例的内容,在本实施例中,所述持续自主学习架构系统基于硬件系统实现,所述硬件系统包括计算集群、存储集群、应用集群、测试服务器、计算机以及交换机。优选地,所述测试服务器为GPU测试服务器,由于GPU测试服务器性能好,并行处理能力强,故所述测试服务器优选采用GPU测试服务器。
基于上述实施例的内容,在本实施例中,所述硬件系统具备可扩展性,提供统一的接口标准。
基于上述实施例的内容,在本实施例中,所述持续自主学习架构系统还包括:基于航行控制任务的仿真验证系统,所述基于航行控制任务的仿真验证系统使得所述持续自主学习架构系统在采用机器学习算法与水面无人系统任务相结合的方式获得处理结果后能够基于航行控制任务的仿真验证系统进行验证。
下面结合图5对上述实施例进行解释和说明。图5基于岸海协同的水面无人系统持续自主学习硬件架构图,如图5所示,水面无人系统持续自主学习平台原理样机的硬件由计算集群、存储集群、应用集群、测试服务器、计算机、交换机组成。
本实施例通过创新的持续自主学习范式颠覆了传统的强监督学习方式,充分借鉴了生物智能中对知识的共享和利用,提出以知识提取、存储、共享和利用为核心的学习流程,建立符合水面无人系统持续自主学习需求的智能系统架构,为水面无人系统的自主能力成长提供了科学的框架基础。
可以理解的是,传统的学习技术普遍基于依赖于人的强监督学习,且对于知识的迁移能力大都偏于理论。本项目以水面无人系统为具体应用对象,开展生物智能启发下的持续自主学习技术,依托实艇平台及数据,构建自主学习环境,针对水面态势感知、水面航路规划、水面航行控制、水面障碍规避等典型任务,综合考虑海上复杂环境因素和任务变化等实际约束,兼具技术创新性和装备实用性。
基于岸海协同构建了水面无人系统持续自主学习平台和智能算法集的搭建,平台具备高性能的计算和存储能力,可以实现各种基于深度学习、增强学习等框架智能算法的训练、验证及更新,平台具备可扩展性,提供统一的接口标准,可以实现各种智能算法的集成与应用。
本实施例还提供多种数据集,可以为多种算法提供数据基础。自主学习平台采用机器学习算法与水面无人系统任务相结合的方式,具备基于航行控制任务的仿真验证系统,有效提高水面无人系统自主执行任务能力快速生成的能力。
需要说明的是,水面无人系统的智能技术在应用普遍受限于海上环境复杂多变、实际数据和仿真模型缺乏等问题,导致在环境感知、自主控制等任务中普遍表现不佳,甚至不如传统方法有效。持续自主学习技术的突破可以使水面无人系统从技术本质上改变这个现状,大幅提升水面无人系统的环境适应性、任务适应性和自动化学习水平,让无人系统具有不依赖于人的成长能力,从而承担更加复杂、严苛和重要的使命任务,显著提升无人系统的自主执行任务能力。
此外,在本发明中,诸如“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于岸海协同的水面无人系统的持续自主学习架构系统,其特征在于,包括:任务管理器、混合迁移学习器、自动机器学习器、模型中心、应用中心和知识中心;
所述任务管理器,用于接收和管理海面控制任务,并以持续学习的方式向混合迁移学习器呈现新任务;
所述混合迁移学习器,用于使用所述知识中心的先验知识学习新任务;
所述自动机器学习器,用于根据新任务的要求,自主进行算法模型的设计与训练学习;
所述模型中心,用于存储所述自动机器学习器生成的模型,包括监督学习中的预测模型或分类器,以及,无监督学习中的聚类或强化学习中的策略;
所述应用中心,用于进行模型的实际应用,并在模型应用中继续从模型结果数据中学习新知识,发现要学习的新任务,向所述混合迁移学习器提供反馈以进行模型的优化;
所述知识中心,用于进行数据集的收集和存储,所述数据集用于供所述混合迁移学习器和所述自动机器学习器进行自主学习;
其中,自主学习的过程包括收集环境数据、收集任务数据、模型学习训练、模型应用部署的闭环全流程。
2.根据权利要求1所述的基于岸海协同的水面无人系统的持续自主学习架构系统,其特征在于,所述知识中心包括历史信息库和元知识挖掘器;
其中,所述历史信息库,用于存储先前任务中学习到的知识,存储形式包括数据、模型以及规则;
所述元知识挖掘器,用于利用知识图谱和数据挖掘工具,对知识进行挖掘形成元知识进行存储。
3.根据权利要求2所述的基于岸海协同的水面无人系统的持续自主学习架构系统,其特征在于,所述知识中心还包括:元知识库和知识推理器;所述元知识库存储有每个历史任务中使用的原始数据、来自每个历史任务的中间结果、每个历史任务学习的最终模型或模式;所述知识推理器用于按照预设知识推理算法进对元数据库中存储的数据进行知识推理。
4.根据权利要求1~3任一项所述的基于岸海协同的水面无人系统的持续自主学习架构系统,其特征在于,所述持续自主学习架构系统基于应用实践阶段、具体经验阶段、反思性观察阶段和抽象化概念阶段的闭环循环处理完成持续自主学习;
其中,所述应用实践阶段,用于利用模型在任务场景中的应用,验证效果并收集新的反馈数据;
所述具体经验阶段,用于获得反馈的任务数据、装备数据、环境数据和效能评估数据;
所述反思性观察阶段,用于基于数据进行学习样本构建;
所述抽象化概念阶段,用于利用智能算法模型对样本进行学习,生成新的模型。
5.根据权利要求4所述的基于岸海协同的水面无人系统的持续自主学习架构系统,其特征在于,所述持续自主学习架构系统的训练过程包括感知、推理、决策和控制四个环节;
智能模型学习训练包括对抗空间表示与建模、态势评估与推理、策略生成与优化、行动协同与控制;通过对抗态势判读理解、认知预测、策略决策和行动实施,局部整体不断循环迭代处理;
其中,所述持续自主学习架构系统的训练过程基于数据、模型和任务三要素;数据是打通任务到模型的枢纽,以数据流为桥梁实现具体数据到学习样本,学习样本要模型结构和参数的映射,以实现模型能力针对任务要求的改进;模型是执行任务的核心要素,模型根据输入的任务场景感知信息,通过模型内部计算,输出执行任务的控制信息,使得任务执行效果符合预期要求;任务是自主学习所有活动的发起点和终结点,模型的设计和训练要求来自于任务要求,模型训练的数据来自于任务执行过程,模型训练效果的验证取决于任务执行结果。
6.根据权利要求5所述的基于岸海协同的水面无人系统的持续自主学习架构系统,其特征在于,所述持续自主学习架构系统中的真实试验和虚拟试验基于一致的试验场。
7.根据权利要求5所述的基于岸海协同的水面无人系统的持续自主学习架构系统,其特征在于,所述持续自主学习架构系统基于硬件系统实现,所述硬件系统包括计算集群、存储集群、应用集群、测试服务器、计算机以及交换机。
8.根据权利要求7所述的基于岸海协同的水面无人系统的持续自主学习架构系统,其特征在于,所述测试服务器为GPU测试服务器。
9.根据权利要求7所述的基于岸海协同的水面无人系统的持续自主学习架构系统,其特征在于,所述硬件系统具备可扩展性,提供统一的接口标准。
10.根据权利要求5所述的基于岸海协同的水面无人系统的持续自主学习架构系统,其特征在于,所述持续自主学习架构系统还包括:基于航行控制任务的仿真验证系统,所述基于航行控制任务的仿真验证系统使得所述持续自主学习架构系统在采用机器学习算法与水面无人系统任务相结合的方式获得处理结果后能够基于航行控制任务的仿真验证系统进行验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011426516.4A CN112381237B (zh) | 2020-12-09 | 2020-12-09 | 基于岸海协同的水面无人系统的持续自主学习架构系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011426516.4A CN112381237B (zh) | 2020-12-09 | 2020-12-09 | 基于岸海协同的水面无人系统的持续自主学习架构系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112381237A true CN112381237A (zh) | 2021-02-19 |
CN112381237B CN112381237B (zh) | 2022-04-22 |
Family
ID=74589880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011426516.4A Active CN112381237B (zh) | 2020-12-09 | 2020-12-09 | 基于岸海协同的水面无人系统的持续自主学习架构系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112381237B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095646A (zh) * | 2021-03-31 | 2021-07-09 | 天津大学 | 一种页岩气开采梯级水循环利用智能系统 |
CN113705102A (zh) * | 2021-08-31 | 2021-11-26 | 湖南苍树航天科技有限公司 | 海空集群对抗的推演仿真系统及方法、设备、存储介质 |
CN115167404A (zh) * | 2022-06-24 | 2022-10-11 | 大连海事大学 | 一种基于迁移强化学习的海上自主水面船舶避碰决策方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229685A (zh) * | 2016-12-14 | 2018-06-29 | 中国航空工业集团公司西安航空计算技术研究所 | 一种空地一体的无人智能决策方法 |
CN109636699A (zh) * | 2018-11-06 | 2019-04-16 | 中国电子科技集团公司第五十二研究所 | 一种基于深度强化学习的无监督智能作战推演系统 |
CN109858574A (zh) * | 2018-12-14 | 2019-06-07 | 启元世界(北京)信息技术服务有限公司 | 面向人机协同工作的智能体的自主学习方法和系统 |
CN110083155A (zh) * | 2019-04-19 | 2019-08-02 | 集美大学 | 一种实现船舶拟人智能避碰决策的机器学习方法 |
CN110705690A (zh) * | 2019-09-23 | 2020-01-17 | 清华大学 | 基于生成模型和元学习优化方法的连续学习方法及系统 |
CN111160562A (zh) * | 2019-11-18 | 2020-05-15 | 清华大学 | 基于元学习优化方法的连续学习方法及装置 |
CN111753464A (zh) * | 2020-05-29 | 2020-10-09 | 中国科学技术大学 | 一种无人直升机模型在线学习方法及系统 |
-
2020
- 2020-12-09 CN CN202011426516.4A patent/CN112381237B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229685A (zh) * | 2016-12-14 | 2018-06-29 | 中国航空工业集团公司西安航空计算技术研究所 | 一种空地一体的无人智能决策方法 |
CN109636699A (zh) * | 2018-11-06 | 2019-04-16 | 中国电子科技集团公司第五十二研究所 | 一种基于深度强化学习的无监督智能作战推演系统 |
CN109858574A (zh) * | 2018-12-14 | 2019-06-07 | 启元世界(北京)信息技术服务有限公司 | 面向人机协同工作的智能体的自主学习方法和系统 |
CN110083155A (zh) * | 2019-04-19 | 2019-08-02 | 集美大学 | 一种实现船舶拟人智能避碰决策的机器学习方法 |
CN110705690A (zh) * | 2019-09-23 | 2020-01-17 | 清华大学 | 基于生成模型和元学习优化方法的连续学习方法及系统 |
CN111160562A (zh) * | 2019-11-18 | 2020-05-15 | 清华大学 | 基于元学习优化方法的连续学习方法及装置 |
CN111753464A (zh) * | 2020-05-29 | 2020-10-09 | 中国科学技术大学 | 一种无人直升机模型在线学习方法及系统 |
Non-Patent Citations (1)
Title |
---|
马向峰 等: "水面无人艇任务规划系统分析", 《舰船科学技术》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095646A (zh) * | 2021-03-31 | 2021-07-09 | 天津大学 | 一种页岩气开采梯级水循环利用智能系统 |
CN113705102A (zh) * | 2021-08-31 | 2021-11-26 | 湖南苍树航天科技有限公司 | 海空集群对抗的推演仿真系统及方法、设备、存储介质 |
CN113705102B (zh) * | 2021-08-31 | 2024-05-10 | 湖南苍树航天科技有限公司 | 海空集群对抗的推演仿真系统及方法、设备、存储介质 |
CN115167404A (zh) * | 2022-06-24 | 2022-10-11 | 大连海事大学 | 一种基于迁移强化学习的海上自主水面船舶避碰决策方法 |
CN115167404B (zh) * | 2022-06-24 | 2024-04-19 | 大连海事大学 | 一种基于迁移强化学习的海上自主水面船舶避碰决策方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112381237B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112381237B (zh) | 基于岸海协同的水面无人系统的持续自主学习架构系统 | |
Hospedales et al. | Meta-learning in neural networks: A survey | |
CN109711529B (zh) | 一种基于值迭代网络的跨领域联邦学习模型及方法 | |
Liu et al. | Parallel reinforcement learning: A framework and case study | |
Ding et al. | Challenges of reinforcement learning | |
Song et al. | New chaotic PSO-based neural network predictive control for nonlinear process | |
Werbos | Neural networks for control and system identification | |
US20180357543A1 (en) | Artificial intelligence system configured to measure performance of artificial intelligence over time | |
US10606898B2 (en) | Interpreting human-robot instructions | |
CN111898728A (zh) | 一种基于多Agent强化学习的团队机器人决策方法 | |
Delhaisse et al. | Transfer learning of shared latent spaces between robots with similar kinematic structure | |
CN117454926A (zh) | 仿生行为范式驱动的无人集群系统演化与反馈进化方法 | |
Ding et al. | An improved reinforcement learning algorithm based on knowledge transfer and applications in autonomous vehicles | |
Etemad et al. | Using deep reinforcement learning methods for autonomous vessels in 2d environments | |
Li et al. | SADRL: Merging human experience with machine intelligence via supervised assisted deep reinforcement learning | |
CN116757460A (zh) | 基于深度学习的应急指挥调度平台构建方法及系统 | |
Khoobjou et al. | On hybrid intelligence-based control approach with its application to flexible robot system | |
Blamah et al. | MAPSOFT: a multi-agent based particle swarm optimization framework for travelling salesman problem | |
CN112861332B (zh) | 一种基于图网络的集群动力学预测方法 | |
CN111950690A (zh) | 一种具有自适应能力的高效强化学习策略模型 | |
Moy et al. | Recent advances in artificial intelligence and their impact on defence | |
Sener et al. | Partitioning sensorimotor space by predictability principle in intrinsic motivation systems | |
Yang et al. | An algorithm of complete coverage path planning based on improved DQN | |
Wu et al. | Research of Improved TD3 in Robotic Arm Control | |
Du et al. | A new cloud robots training method using cooperative learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |