CN114115342B - 一种基于冲突处理的无人集群多域协同系统及方法 - Google Patents

一种基于冲突处理的无人集群多域协同系统及方法 Download PDF

Info

Publication number
CN114115342B
CN114115342B CN202111376244.6A CN202111376244A CN114115342B CN 114115342 B CN114115342 B CN 114115342B CN 202111376244 A CN202111376244 A CN 202111376244A CN 114115342 B CN114115342 B CN 114115342B
Authority
CN
China
Prior art keywords
conflict
space
sub
target
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111376244.6A
Other languages
English (en)
Other versions
CN114115342A (zh
Inventor
刘海颖
谢远龙
黄魁华
程光权
罗曼
李志豪
刘奇辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202111376244.6A priority Critical patent/CN114115342B/zh
Publication of CN114115342A publication Critical patent/CN114115342A/zh
Application granted granted Critical
Publication of CN114115342B publication Critical patent/CN114115342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于冲突处理的无人集群多域协同系统及方法,系统包括携带车载控制系统,RTK接收机地面端等多种传感器,无线数传、图传传输模块的地面智能系统;携带机载控制系统,RTK接收机天空端、多种传感器,无线数传、图传传输模块的空中智能体系统。基于无监督分层改进强化学习算法,通过集群与环境的交互学习实现复杂空间最优解的搜索;基于证据推理和多任务优化算法通过时间、空间的智能量化构建冲突模型,检测并消解系统冲突问题。本发明对放置于复杂环境下的跨域多智能体系统进行多任务规划、冲突检测与消解,解决了现有技术中面对多智能体系统置于无先验信息复杂环境下规划效率低下、容易产生时空冲突等问题,提升系统性能。

Description

一种基于冲突处理的无人集群多域协同系统及方法
技术领域
本发明涉及无人集群多域协同任务规划及其冲突检测与消解技术领域,具体 为一种基于冲突处理的无人集群多域协同系统及方法。
背景技术
多智能体系统多域协同是指在不同空间内运行、具有显著功能差异性的多种 智能体组成的有机整体,其相互间通过信息共享与融合、行为交互与协调、任务 协同与合作实现功能互补、能效倍增,进而提升面对复杂环境和使命的应对能力。 跨域协同中的任务规划问题是指在一定的性能指标下,考虑执行能力、任务种类 和目标特性等约束,协调任务和执行者之间的匹配关系,将多个任务最优地分配 到一个或多个执行者上。
面对日益多样化的复杂任务和高度复杂的执行环境,受限于当前多智能体自 主平台能力和传感器等任务载荷条件的限制,多智能体系统跨平台协同特点能够 很好地应对挑战,即指派多个智能体系统共同执行指定任务,通过彼此能力互补 和行动协调,实现单个智能体系统任务能力扩展以及编队系统整体效能提升。跨 域协同是无人系统发展的高级阶段,是应对日益复杂的环境任务的重要技术途径 与应用手段。随着人工智能等相关技术的快速发展,跨域协同势必将为无人系统 的发展带来更多契机。跨域任务规划技术是跨域多智能体系统能够广泛部署的前 提保证,能够提高系统整体效能,发挥跨域多智能体协同应用的优势。
冲突检测与消解技术是保证任务规划结果有效的重要一环,即处理复杂任务 中时间、空间约束条件之间存在的冲突问题,使规划结果能够更精确地表达计划。 任务规划是一个复杂、多样、动态的变化过程,每一种冲突检测方法都有其适用 性和局限性,针对问题选择合适的方法才是最合理、最理想的方法。时间是协同 任务规划考虑的关键因素,各任务行动单元需要通过时间上的紧密配合、协调一 致的行动,才能实现总体任务目标。时间冲突描述模型是冲突检测与消解的基础, 不同的时间描述模型对应不同的冲突处理方法。空间冲突是指多智能体在飞行航 线或者地面轨迹的重合,对空间冲突的处理在飞行器空域冲突处理方面的研究很 多,大多指碰撞冲突。有解决多智能体系统规划中的时空冲突问题,是系统高质 量运行的有效保证。
一种有效的协同策略进行任务规划,通过检测与消解算法解决跨域多任务规 划过程中的冲突问题,则能够带来更好的任务执行力,并且实现系统资源利用的 最大费效比。
发明内容
针对上述问题,本发明提供一种基于冲突处理的无人集群空地协同系统及方 法,解决现有技术中面对多智能体系统置于无先验信息的复杂环境下多任务规划 效率低下、容易产生时空冲突等问题。
本发明为解决上述技术问题采用以下技术方案:
一种基于冲突处理的无人集群空地协同系统,包括无人车搭载的地面智能系 统和无人机搭载的空中智能系统,地面智能系统包括车载电脑控制系统及与其电 信连接环境模块、姿态模块和RTK接收机地面端;中智能系统包括机载电脑控 制系统及与其电信连接环境模块、姿态模块和RTK接收机天空端;地面智能系 统搭载VT图传模块地面端和Xbee无线数传地面端;空中智能系统搭载VT图 传模块天空端和Xbee无线数传天空端;Xbee无线数传地面端与Xbee无线数传 天空端组成网络一,互传姿态模块采集的信息;所述VT图传模块地面与端VT 图传模块天空端组成网络二,互传环境模块采集的信息;RTK接收机地面端与 RTK接收机天空端通过无线通信组成高精度定位网络。
作为优选,车载电脑控制系统包括车辆主控制器和车载微电脑,该车辆主控 制器与姿态模块电信连接,该车载微电脑与环境模块电信连接;机载电脑控制系 统包括飞行主控制器和机载微电脑,该飞行主控制器与姿态模块电信连接,该机 载微电脑与环境模块电信连接。
作为优选,空中智能系统的姿态模块包括惯导,用于实时采集无人机的航向 和姿态信息;地面智能系统的姿态模块包括惯导,用于实时采集无人车的方向、 速度和位置信息。
作为优选,环境模块包括深度相机和激光雷达,该深度相机采集无人机/无 人车工作区域时间连续的视频信号,对该视频信号进行预处理后传输至控制系 统,以提供无人机/无人车所处环境的环境数据;该激光雷达用于扫描无人机/无 人车周围的障碍物,基于点云分类算法对其进行分割和分类,并输出给车载/机 载电脑控制系统,控制系统根据不同的障碍物做出不同的行为策略;空中智能系 统的环境模块还包括气压定高计,用于提供无人机高度信息。
作为优选,RTK接收机地面端作为地面基站,获取卫星定位与真实位置对 比,得到GPS的定位误差,并将当前定位误差发送给RTK接收机天空端,RTK 接收机天空端基于收到的定位误差纠正从卫星获得的定位,任意RTK接收机天 空端从地面任意RTK接收机地面端获取数据,形成高精度定位网络,以提升系 统定位精度。
本发明还公开了一种基于冲突处理的无人集群空地协同方法,包括基于无人 机与无人车的多智能体系统,还包括以下步骤:步骤1,多智能体系统在未知环 境执行多目标任务,通过环境模块获取环境信息和智能体实时状态,建立环境实 况图;
步骤2,基于空地智能规划方法,根据任务需求构建集群简化模型,利用基 于无监督分层改进强化学习算法对多智能体系统所处复杂空间进行搜索,完成图 像搜集;
步骤3,步骤3,采用基于证据推理和多任务优化的时空冲突检测算法检测 冲突,若检测到冲突,则通过时空冲突消解算法解决冲突,重新规划路径;
步骤4,结合实时环境信息与步骤3的重新规划的路径生成任务指令发送至 执行机构,使多智能从当前位置更新为新位置;通过Xbee无线数传将位置数据 共享至各个多智能体,构建出所处区域环境模型;多智能体系统以“试错”的方式 进行学习,通过与环境进行交互获得的奖赏来指导行为,实现系统分布式空地协 同工作。。
作为优选,步骤2中无监督分层改进强化学习算法采用三级策略层次结构, 包括顶层策略、子层策略和底层策略;顶层策略将当前状态和任务提供的目标状 态作为当前策略,分解为处理时间很短的子任务集,输出子目标状态;子层策略 将顶层策略的子目标状态作为策略声明进行训练,输出子目标状态;底层策略根 据子层策略输出的子目标状态输出动作,并与环境进行交互,通过奖赏反馈到各 级策略层。
作为优选,步骤2.1,采用三级策略层次结构,包括顶层策略、子层策略和 底层策略,设置系统层次结构为3,最大的子目标层3,目标测试频率γ,训练 参数和奖励参数π0,...,πk-1,Q0,...,Qk-1,其中训练函数具体为:奖励函数具体为:其中i为当前循环次数,k为完成任务总循 环次数,s为状态,g为目标,s'为动作执行状态;任务集抽象为M集矩阵, 设置初始状态s0和任务目标gn;步骤2.2,顶层策略根据当前状态si、任务目标 gn和当前奖励函数/>进行强化训练,再下发子目标1gi1到子层策 略(车群和机群);步骤2.3,子层策略(车群)根据当前状态sic、子目标1gi1和当前奖励函数/>进行强化训练,再下发子目标2gi2到底层策略 (车群);子层策略(机群)根据当前状态sij、子目标1gi1和当前奖励函数 />进行强化训练,再下发子目标3gi3到底层策略(机群);步骤 2.4,底层策略(车群)根据当前状态sidc、子目标2gi2和当前奖励函数 />进行强化训练,再下发动作到环境;底层策略(机群)根据当 前状态sdji、子目标3gi3和当前奖励函数/>进行强化训练,再下发 训练动作到环境;步骤2.5.,环境依据动作产生奖励/>并行输出反馈回顶层策略、子层策略和底层策略;步骤2.6,判断任务水平是否达到任 务目标集M,若判断为是则报告任务结果,任务结束;未达到则返回步骤2.2。
作为优选,确定训练子目标gi和当前层次状态si,使用子目标gi训练层次 i+1,若子目标与当前状态一致,则执行原始的行动,观察下一个状态;若子目标 与当前状态不一致,则对当前层次进行训练,当训练达到子目标gi时,更新当前 状态为:s=si,a=ai,r=Ri,s'=s'i,g=gi,γ=0,否则更新原始的动作与动作执 行状态,利用当前目标和状态反馈训练为: s=si,a=ai,r∈{0,Ri},s'=s'i,g=gi,γ∈{1,0},其中s为状态,a为训练函数,r为 状态奖励,R为奖励函数,s'为动作执行状态,g为目标,γ为目标测试频率, 下标i为当前循环次数。
作为优选,步骤3具体为:步骤3.1,从时间、空间两个维度在任务方案中 提取相关约束信息构建任务约束网络框架;步骤3.2,基于证据理论利用冲突度 参数智能量化将时间、空间抽象为统一参数,利用MCN时空冲突检测算法对冲 突进行精准检测,若检测到冲突则报告冲突负环路径并进入步骤3.3;步骤3.3, 面向时、空单个任务利用基于多任务优化的冲突消解算法进行单维度消解,产生 满足约束条件的可行解。
作为优选,基于MCN的时空冲突检测算法为:步骤3.2.1,利用冲突度参数 智能量化出来的时空参数构建MCN距离图;步骤3.2.1,按递增顺序,控制途径 节点编号的最大值,计算、比较、更新任意节点间可达路径的最大长度;步骤 3.2.3,记录并更新路径,并判断是否有负环,若判断为有则追溯负环路径并报告 冲突负环路径;否则进入步骤3.2.4;步骤3.2.4,循环判断途径节点编号是否达 到最大值,若判断为是则报告冲突结果,跳出循环;否则返回步骤3.2.1。
作为优选,时空冲突消解算法为:
步骤3.3.1,标识发生时空冲突的负环路径:获取负环路径的负环节点序列 T1,T2,…Tn,T1,相邻节点的有向边权值ui,节点序列Ti到节点序列Ti+1的权值ui有 向图表达为i=1,…,n,Tn+1=T1,回路路径值d为/>
步骤3.3.2,根据任务奖励值调整优先级:对于每条约束i,设置一个不同的 重要程度奖励值RFi,定义k>0,其中K为调整因子,表达调 整优先权随着调整次数n的增加而减少;步骤3.3.3,如果/>RFi=0, 返回步骤3.3.2,否则进入步骤3.3.4;步骤3.3.4,选择重要程度奖励值RFi,设 置i=I,I为调整参考值;步骤3.3.5,定义灵活度因子ε>0,若满足uI>0或者 uI≤d-ε,则更新回路权值为unew:=uI-d+ε,此时负环总长度更新为d=ε, 并转入步骤3.3.7;否则更新回路权值ui为:/>此时更新负环总长度为:/>并转入步骤3.3.6; 步骤3.3.6,判断是否满足dnew≥0,若判断为是,转步骤3.3.7;否则,设置RFi=0, 转步骤3.3.4检测是否存在别的负环;步骤3.3.7,时间冲突检测与消解结束。
本发明与现有技术相比,具有以下有益效果:
1、本发明优化了多智能体系统规划方法,从空地协同规划入手,搭建了分 布式协同的空地智能规划系统,能够有效应用于无人系统超视距执行任务。
2、本发明改进了分层强化学习算法,提出一种无监督分层强化学习算法 (UHRL),将多智能体的协作能力与强化学习的决策能力相结合,并通过将复 杂的强化学习问题分解成若干个子问题并分别解决,可以有效解决空间维数灾难 问题。
3、本发明提出基于证据推理和多任务优化算法,包括时空冲突度参数智能 量化技术、基于MCN的时空冲突检测技术和基于多任务优化时空冲突消解技术, 检测并消解规划过程中的冲突问题,提升系统规划效率和有效性。
附图说明
图1是本发明一个实施例的基于分布式协同的空地智能规划系统的硬件架 构示意图;
图2是本发明一个实施例的多层结构无监督分层强化学习算法流程图;
图3是本发明一个实施例的冲突度参数智能量化空域资源示意图;
图4是本发明一个实施例的基于MCN的时空冲突检测技术流程图;
图5是本发明一个实施例的基于多任务优化的时空冲突消解技术流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面 通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对 本发明的限制。
本发明公开了一种基于冲突处理的无人集群空地协同系统,可应用于多个领 域,如图1所示,以多个空中智能体和地面智能体为例,该系统包括基于地面无 人车上的地面智能系统和基于每个多旋翼无人机上的空中智能系统。其中,地面 智能系统包括车载电脑控制系统、Xbee无线数传地面端和VT图传模块地面端 两种无线传输模块。车载电脑控制系统包括车辆主控制器和车载电脑。车辆主控 制器电信连接RTK接收机地面端和惯导,车载电脑电信连接深度相机和激光雷 达多种车载传感器。
空中智能系统包括机载电脑控制系统、Xbee无线数传天空端和VT图传模 块天空端两种无线传输模块。机载电脑控制系统系统包括飞行主控制器和机载电 脑。飞行主控制器电信连接RTK接收机天空端、惯导和气压定高计,机载电脑 电信连接深度相机和激光雷达多种机载传感器。
RTK接收机天空端和RTK接收机地面端之间无线通信组成高精度定位网 络,RTK接收机地面端作为一个地面基站,获取卫星定位与真实位置(由于基 站固定,所以位置是绝对的)对比,计算出GPS的定位误差,并通过GPRS把 当前误差发送给RTK接收机天空端,RTK接收机天空端会利用这个误差纠正从 卫星获得的定位。任意RTK接收机天空端从地面任意RTK接收机地面端获取数 据,形成高精度定位网络。本实施例优选RTK接收机地面端所采用的芯片型号 为RTK GPS M8P Base,RTK天空端接收机所采用的芯片型号为RTK GPS M8PRover Lite。
Xbee无线数传天空端和Xbee无线数传地面端之间无线通信,每个无人机上 的Xbee无线数传天空端与其他无人机上的Xbee无线数传天空端之间无线通信 组成通讯网络一;VT无线图传天空端和VT无线图传地面端之间无线通信组成 通讯网络二。
本实施例优选Xbee无线数传地面端、Xbee无线数传天空端所采用的芯片型 号均为XBee S3B 900HP,Xbee无线数传地面端和Xbee无线数传天空端在同一 通讯地址内通过XBee S3B 900HP无线数传802.15.4协议进行通讯组网、广播数 据互传。本实施例优选VT无线图传地面端、VT无线图传天空端所采用的芯片 型号均为VT 5804,VT无线图传地面端和VT无线图传天空端在同一通讯地址 内通过无线图传协议进行通讯。
车辆主控制器用于接收处理RTK GPS、惯导数据信息获取无人车方向、速 度和位置信息,通过其他Xbee无线数传天空端实现多设备之间数据共享;jetson nano车载电脑用于对激光雷达和深度相机处理后的数据进行估计,得到无人车 环境信息,并且根据无人车方向、速度和位置信息以及空地智能规划方法生成任 务规划指令,并发送至车辆主控制器,无人车接收到上述指令后进行相应的动作。
飞行主控制器用于接收处理RTK GPS、气压定高计、惯导数据信息获取无 人机航向、姿态、速度和位置信息,通过其他Xbee无线数传天空端实现多设备 之间数据共享;jetson nano机载电脑用于对激光雷达和深度相机处理后的数据进 行估计,得到无人机环境信息,并且根据无人机航向、姿态、速度和位置信息以 及空地智能规划方法生成任务分配指令和航迹规划指令,并发送至飞行主控制 器,无人机接收到上述指令后进行相应的动作。
本实施例优选车辆和飞行主控制器采用的型号为STM32F765,车载和机载 微电脑为Jetson Nano(B01/4G);惯导采用的芯片型号为MPU6020;气压定高 计所采用的芯片型号为MS5611。
结合图2至图5,本发明还公开了一种基于冲突处理的无人集群空地协同方 法,包括以下步骤:
步骤1,多智能体系统包括无人机与无人车在未知环境执行多目标任务,通 过环境模块获取环境信息和智能体实时状态,建立环境实况图。
步骤2,基于空地智能规划方法,根据任务需求构建集群简化模型,利用基 于无监督分层改进强化学习算法对多智能体系统所处复杂空间进行搜索,完成图 像搜集。
如图2所示为多层结构无监督分层强化学习算法流程图。多层结构无监督分 层强化学习算法具体为:多智能体系统分层结构将任务分解为处理时间很短的子 任务集,与非层次结构相比具有解决顺序策略任务的潜力,具有更高的样本效率。 为了提升学习效率,多智能体需要并行地学习其多个层级的策略同时解决若干简 单的子问题。因此搭建一种新的分层强化学习框架,无监督分层强化学习 (Unsupervised HierarchicalReinforcement Learning,UHRL),可以有效解决智能 体联合学习时出现的不稳定性问题。UHRL的主要思路是训练每个层级的智能 体,通过对每个层级进行训练,并且将当时训练层视为较低层级,以此类推,从 而独立于较低层级策略已经是最优的。
框架主要由两部分组成:特定的嵌套层次结构和并行学习的多个层级的策 略。具有稀疏的奖励UHRL生成的层次结构由一组嵌套的目标组成,使用状态 空间作为将任务分解为子任务机制的条件策略,嵌套策略的层次结构如图2所 示。顶层策略将输入任务提供的目标状态和当前状态作为当前策略,并输出子目 标状态。此状态用作目标在子层策略(车群和集群)的策略声明,子层策略(车 群和集群)是根据当前状态和顶层策略提供的目标状态进行训练,并为底层策略 输出自己的子目标状态。底层策略则视为输入子层策略(车群和集群)提供的当 前状态和目标状态,并输出动作与环境交互,通过奖赏反馈到各级策略层,优化 系统学习能力。此外,每个层级都有一定数量的“试错”来实现其目标状态,当“试错”次数用尽或达到其目标状态时,该层级的执行将停止,并且向下一层级 输出子目标状态。
图中显示了多智能体系统使用其三级策略层次结构(顶层策略、子层策略、 底层策略)通过UHRL训练来探索空间达到目标。顶层策略属于多智能体系统, 子层策略分别属于无人机系统和无人车系统,底层策略属于机载智能设备。首先, 系统的顶层策略将当前状态作为输入,该状态是包含智能体位置的向量和速度及 其目标状态。顶层策略输出一个子目标状态,子层策略(即车群和机群)依据当 前状态与该子目标状态作为策略生成的依据,实现该层的学习依据以及策略优 化。子层策略将当前状态及其参数作为输入目标状态,底层策略将当前状态和由 目标状态作为输入,并输出动作。在这种情况下底层策略输出具有固定数量的子 目标动作与环境进行交互,通过奖赏反馈到各级策略层,使得系统可以在顶层策 略输出新的子目标之前将智能体移动到目标位置。
具体的,无监督分层强化学习算法具体为:
①设置系统层次结构为k,最大的子目标层H,目标测试频率γ,训练参数和奖励参数π0,...,πk-1,Q0,...,Qk-1,其中训练函数具体为:奖励函数 具体为:k为完成任务总循环次数,s为状态,g为目标。 本专利方法中,采用三级策略层次结构,设置系统层次结构k=3,最大的子 目标层H=3。
②系统抽象为M集矩阵,设置初始状态s0和任务目标gn,状态和目标水平在 达到最大子目标层H或者k<3时,任务持续进行,其中i为当前循环次数, k为完成任务总循环次数,s为状态,g为目标,s'为动作执行状态。
③顶层策略根据当前状态si、任务目标gn和当前奖励函数进 行强化训练,再下发子目标1gi1到车群子层策略和机群子层策略。
④车群子层策略根据当前状态sic、子目标1gi1和当前奖励函数 进行强化训练,再下发子目标2gi2到车群底层策略;子机 群层策略根据当前状态sij、子目标1gi1和当前奖励函数/>进 行强化训练,再下发子目标3gi3到机群底层策略。
⑤车群底层策略根据当前状态sidc、子目标2gi2和当前奖励函数 进行强化训练,再下发动作到环境;机群底层策略根据当 前状态sdji、子目标3gi3和当前奖励函数/>进行强化训练,再 下发训练动作到环境。
⑥环境依据车群底层策略机群底层策略输出的动作产生奖励 并行输出反馈回顶层策略、子层策略和底层策略。
⑦判断任务水平是否达到任务目标集M,若判断为是则报告任务结果,任务结 束;否则返回步骤③
上述任意层次的训练,如果i>0确定训练子目标gi和当前层次状态si,使用 子目标gi训练层次i+1,子目标与当前状态一致,则执行原始的行动,观察下一个 状态。
达到子目标gi时,更新当前状态为:
s=si,a=ai,r=Ri,s'=s'i,g=gi,γ=0
否则更新原始的动作与动作执行状态,利用当前目标和状态反馈训练为:
s=si,a=ai,r∈{0,Ri},s'=s'i,g=gi,γ∈{1,0}
步骤3,从时间、空间两个维度在任务方案中提取相关约束信息并规范化存 储表示,构建任务约束网络(Mission Constraint Network,MCN)框架;在此基 础上,基于证据理论利用冲突度参数智能量化将时间、空间抽象为同意参数,利 用基于MCN时间、空间冲突检测算法对冲突进行精准检测;最后,面向时、空 单个任务利用最小代价的冲突消解模型进行单维度消解,产生满足约束条件的可 行解。具体包括:
步骤3.1,从时间、空间两个维度在任务方案中提取相关约束信息构建任务 约束网络框架。
如图3所示,为冲突度参数智能量化空域资源示意图。冲突度参数智能量化 中给定行动方案的空间区域K,若将行动空间区域进行划分成m个小空域格 A={a0,a1,…,am},将每个空域格交通密度限量值看成该空域块资源的容量Rj, 对给定行动方案P={Pi,i=1,2,…,n},各行动Pi对a1的占用量为Qij(T),T为占 用时间。即每个空域格都满足:
考虑空地智能体分布特点,并近似认为海、地域为二维平面,空域为三维空 间,通过空域格模型可实现空域资源描述及行动空间的占用描述,地、海域可类 似二维平面方式描述。一般可认为任务空间在使用上具有独占性,即不同任务智 能体不能在同一时间占用同一块空间,足够的任务空间间隔是保障各类任务得以 有效开展一个最为基本的物质条件。因此,可将任务空域定义为一种资源,即空 域资源。如图3所示,选取某以一点O作为原点,建立通用地理直角坐标系 O-XYZ,OX轴沿水平方向指东,OY轴沿水平方向指北,OZ轴垂直水平面指 向天顶。用垂直于坐标轴的平面将WW空间均等划分为长宽高为a、b、c的矩 体空间。
为便于表述,将划分成的正四面体空间称为空域格。不难得出,对于任务空 间中的任意一个空域格,其几何中心点的直角坐标都可表示:
其中i,j,k∈Z。因此,若给定原点位置和尺度参数a,b,c(a、b称为水平 尺度,c称为垂直尺度)就可以用一个三元有序数组[i,j,k]对任务空间内的每个 空域格进行区分和定位。这里将这个三元有序数组[i,j,k]称为空域格的坐标,中 标示的空域格G可用坐标G(-2,1,1)表示。
按照上述方法完成对任务空间的划分后,即实现了对任务空域资源的建模, 任意空间都可由相应的一个或多个空域格进行表示。空域格实现对空域资源的量 化描述,为空域资源的占用检测提供了最基本的单位。
步骤3.2,基于证据理论利用冲突度参数智能量化将时间、空间抽象为统一 参数,利用MCN时空冲突检测算法对冲突进行精准检测,若检测到冲突则报告 冲突负环路径并进入步骤3.3。
如图4所示为基于MCN的时空冲突检测技术流程图。基于MCN的时空冲 突检测技术具体为:从时间、空间两个维度在任务方案中提取相关约束信息并规 范化存储表示,构建任务约束网络(Mission Constraint Network,MCN)框架; 在此基础上,基于证据理论利用冲突度参数智能量化将时间、空间抽象为统一参 数,利用基于MCN时间、空间冲突检测算法对冲突进行精准检测;最后,面向 时、空单个任务利用基于多任务优化的冲突消解算法进行单维度消解,产生满足 约束条件的可行解。
利用冲突度参数智能量化出来的时空参数构建MCN距离图,其中 D=(V,A),节点集记为V={1,2,…,n},有向弧(i,j)=cij(i≠j),如果节点之间 没有有向弧直接相连,则cij(i≠j)=+∞,假定弧长cij(i≠j)可正可负,规定 cii=0。
假设从某一节点开始,按箭头指向走过的节点为T1,T2,T3,…Tn,其中,是从Ti到Ti+1的有向弧,i=1,…,n-1。有向弧/>的权重记为ai,i+1,意为 Ti+1-Ti≤ai,i+1
T2-T1≤a12
T3-T2≤a23
Tn-Tn-1≤an-1,n
累加以上不等式,得到这类不等式表示一种潜在的约束, 只是没有明确指出而已。当Tn=T1时,不等式就变为/>如果不等式 成立,说明在所涉及的约束是协调一致的;如果/>时,就会得出负数 大于0的悖论,这表明这些约束自相矛盾,也就意味着行动方案在时间上有冲突。
MCN距离图中,Ti,i=0,1,…n,Ti≠Tj(i≠j),表示互不相同的时间变量节 点,表示从节点Ti出发到Ti+1节点终止的有向弧(或弧),节点与有向弧的 交错序列为简单回路。
时空冲突检测技术,通过检测在有向图是否存在简单负环回路,只要发现一 个就足以说明有冲突存在,就结束检测;当任意节点都不会形成简单负环回路, 就一定没有负环回路,检测结束。
步骤3.3,面向时、空单个任务利用基于多任务优化的冲突消解算法进行单 维度消解,产生满足约束条件的可行解。
如图5所示,为基于多任务优化的时空冲突消解技术流程图。基于多任务优 化的时空冲突消解技术具体为:提出基于冲突消解的奖励制度,对于每条约束i, 设置一个不同的重要程度奖励值RFi。RFi越大表示约束越应该优先调整,反之 RFi越小表示约束越不应该调整,RFi表示约束不调整。由于同一条约束可能不 止被调整一次,为了表示调整次数对调整优先级的影响,可设置 RFi n+1=RFi n-Kn,k>0,其中K为调整因子,表达调整优先权随着调整次数n的 增加而减少。
具体为:
步骤3.3.1,标识发生时空冲突的负环路径:获取负环路径的负环节点序列 T1,T2,…Tn,T1,相邻节点的有向边权值ui,节点序列Ti到节点序列Ti+1的权值ui有 向图表达为i=1,…,n,Tn+1=T1,回路路径总长度d为/>
步骤3.3.2,根据任务奖励值调整优先级:对于每条约束i,设置一个不同的 重要程度奖励值RFi,定义RFi n+1=RFi n-Kn,k>0,其中K为调整因子,表达调 整优先权随着调整次数n的增加而减少。
步骤3.3.3,如果RFi=0,返回步骤3.3.2,否则进入步骤3.3.4。
步骤3.3.4,选择重要程度奖励值RFi,设置i=I,I为调整参考值。
步骤3.3.5,定义灵活度因子ε>0,如果满足uI>0或者uI≤d-ε,则更新 回路权值为unew:=uI-d+ε,给出修改提示,并在MCN距离图上体现,此时, 负环总长度更新为d=ε,转步骤3.3.7;否则更新回路权值ui为:
给出修改提示,并在MCN图上体现,此时,环路总长度d更新为:
并转入步骤3.3.6。
步骤3.3.6,判断dnew是否大于等于0,若判断为是,则表示不存在负环, 转步骤3.3.7;否则,为存在负环,设置RFi=0,转步骤3.3.4。
消解冲突时,对权重为-d(d大于0)的负环,不仅仅将它上面的约束权重 增加d,而是增加d+ε,其中ε>0代表着灵活度因子。因为从调整灵活性方面 考虑,单纯地将负环的权重调整为0会丧失MCN的调整灵活性。
步骤3.3.7,当前负环消解结束,检测并判断是否存在别的负环,如果已没 有任何负环,时间冲突检测与消解结束。
步骤4,结合实时环境信息与步骤3的重新规划的路径生成任务指令发送至 执行机构,使多智能从当前位置更新为新位置;通过Xbee无线数传将位置数据 共享至各个多智能体,构建出所处区域环境模型;多智能体系统以“试错”的方 式进行学习,通过与环境进行交互获得的奖赏来指导行为,实现系统分布式空地 协同工作。当作出正确的行为时获得奖励,不同的行为对应不同程度的奖励,以 奖励值得大小来诱导系统做出更适应于任务的行为。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围, 凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本 发明保护范围之内。

Claims (7)

1.一种基于冲突处理的无人集群空地协同方法,包括基于无人机与无人车的多智能体系统,其特征在于,还包括以下步骤:
步骤1,多智能体系统在未知环境执行多目标任务,通过环境模块获取环境信息和智能体实时状态,建立环境实况图;
步骤2,基于空地智能规划方法,根据任务需求构建集群简化模型,利用基于无监督分层改进强化学习算法对多智能体系统所处复杂空间进行搜索,完成图像搜集;
步骤3,采用基于证据推理和多任务优化的时空冲突检测算法检测冲突,若检测到冲突,则通过时空冲突消解算法解决冲突,重新规划路径,具体的,
步骤3.1,从时间、空间两个维度在任务方案中提取相关约束信息构建任务约束网络框架;
步骤3.2,基于证据理论利用冲突度参数智能量化将时间、空间抽象为统一参数,基于MCN时空冲突检测算法对冲突进行精准检测,若检测到冲突,则报告冲突负环路径并进入步骤3.3;其中基于MCN时空冲突检测算法为:
步骤3.2.1,利用冲突度参数智能量化出来的时空参数构建MCN距离图;
步骤3.2.1,按递增顺序,控制途径节点编号的最大值,计算、比较、更新任意节点间可达路径的最大长度;
步骤3.2.3,记录并更新路径,并判断是否有负环,若判断为有负环,则追溯负环路径并报告;否则进入步骤3.2.4;
步骤3.2.4,循环判断途径节点编号是否达到最大值,若判断为是则报告冲突结果,跳出循环;否则返回步骤3.2.1;
步骤3.3,面向时、空单个任务利用基于多任务优化的冲突消解算法进行单维度消解,产生满足约束条件的可行解,其中所述时空冲突消解算法为:
步骤3.3.1,标识发生时空冲突的负环路径:获取负环路径的负环节点序列T1,T2,…Tn,T1,相邻节点的有向边权值uλ,节点序列Tλ到节点序列Tλ+1的权值uλ有向图表达为回路路径总长度d为/>
步骤3.3.2,根据任务奖励值调整优先级:对于每条约束λ,设置一个不同的重要程度奖励值RFλ,定义其中K为调整因子,表达调整优先权随着调整次数n的增加而减少;
步骤3.3.3,如果返回步骤3.3.2,否则进入步骤3.3.4;
步骤3.3.4,选择重要程度奖励值RFλ,设置λ=I,I为调整参考值;
步骤3.3.5,定义灵活度因子ε>0,若满足uI>0或者uI≤d-ε,则更新回路权值为unew=uI-d+ε,此时负环总长度更新为dnew=ε,并转入步骤3.3.7;否则更新回路权值uλ为:此时更新负环总长度为:/>并转入步骤3.3.6;
步骤3.3.6,判断是否满足dnew≥0,若判断为是,转步骤3.3.7;否则,设置RFλ=0,转步骤3.3.4检测是否存在别的负环;步骤3.3.7,时间冲突检测与消解结束;
步骤4,结合实时环境信息与步骤3重新规划的路径生成任务指令发送至执行机构,使多智能体从当前位置更新为新位置;通过Xbee无线数传将位置数据共享至各个多智能体,构建出所处区域环境模型;多智能体系统以“试错”的方式进行学习,通过与环境进行交互获得的奖赏来指导行为,实现系统分布式空地协同工作。
2.根据权利要求1所述的基于冲突处理的无人集群空地协同方法,其特征在于,步骤2中无监督分层改进强化学习算法具体为:
步骤2.1,采用三级策略层次结构,包括顶层策略、子层策略和底层策略,设置系统层次结构为3,最大的子目标层3,训练参数和奖励参数π0,...,πk-1,Q0,...,Qk-1,其中训练函数具体为:奖励函数具体为:/>其中i为当前循环次数,k为完成任务总循环次数,s为状态,g为目标;任务集抽象为M集矩阵,设置初始状态s0和任务目标gn
步骤2.2,顶层策略根据当前状态si、任务目标gn和当前奖励函数进行强化训练,再下发子目标1gi1到车群子层策略和机群子层策略;
步骤2.3,车群子层策略根据当前状态Sic、子目标1gi1和当前奖励函数进行强化训练,再下发子目标2gi2到车群底层策略;子机群层策略根据当前状态sij、子目标1gi1和当前奖励函数/>进行强化训练,再下发子目标3gi3到机群底层策略;
步骤2.4,车群底层策略根据当前状态sidc、子目标2gi2和当前奖励函数进行强化训练,再下发动作到环境;机群底层策略根据当前状态sdji、子目标3gi3和当前奖励函数/>进行强化训练,再下发训练动作到环境;
步骤2.5,环境依据车群底层策略机群底层策略输出的动作产生奖励并行输出反馈回顶层策略、子层策略和底层策略;
步骤2.6,判断任务水平是否达到任务目标集M,若判断为是则报告任务结果,任务结束;否则返回步骤2.2。
3.根据权利要求2所述的基于冲突处理的无人集群空地协同方法,其特征在于,层次强化训练方法具体为:确定训练子目标gi和当前层次状态si,使用子目标gi训练层次i+1,若子目标与当前状态一致,则执行原始的行动,观察下一个状态;若子目标与当前状态不一致,则对当前层次进行训练,当训练达到子目标gi时,更新当前状态为:s=si,a=ai,r=Ri,s'=s′i,g=gi,γ=0,否则更新原始的动作与动作执行状态,利用当前目标和状态反馈训练为:s=si,a=ai,r∈{0,Ri},s'=s′i,g=gi,γ∈{1,0},其中s为状态,a为训练函数,r为状态奖励,R为奖励函数,s'为动作执行状态,g为目标,γ为目标测试频率,下标i为当前循环次数。
4.一种基于冲突处理的无人集群空地协同系统,其特征在于,基于权利要求1-3任意一项所述的基于冲突处理的无人集群空地协同方法,所述无人集群空地协同系统还包括无人车搭载的地面智能系统和无人机搭载的空中智能系统,
所述地面智能系统包括车载电脑控制系统及与其电信连接环境模块一、姿态模块一和RTK接收机地面端;所述空中智能系统包括机载电脑控制系统及与其电信连接环境模块二、姿态模块二和RTK接收机天空端;
所述地面智能系统搭载VT图传模块地面端和Xbee无线数传地面端;空中智能系统搭载VT图传模块天空端和Xbee无线数传天空端;
所述Xbee无线数传地面端与Xbee无线数传天空端组成网络一,互传两个姿态模块采集的信息;所述VT图传模块地面与端VT图传模块天空端组成网络二,互传两个环境模块采集的信息;所述RTK接收机地面端与RTK接收机天空端通过无线通信组成高精度定位网络。
5.根据权利要求4所述基于冲突处理的无人集群空地协同系统,其特征在于,所述车载电脑控制系统包括车辆主控制器和车载微电脑,该车辆主控制器与姿态模块一电信连接,该车载微电脑与环境模块一电信连接;所述机载电脑控制系统包括飞行主控制器和机载微电脑,该飞行主控制器与姿态模块二电信连接,该机载微电脑与环境模块二电信连接。
6.根据权利要求5所述基于冲突处理的无人集群空地协同系统,其特征在于,所述姿态模块一、姿态模块二均包括惯导,分别用于实时采集无人车的方向、速度和位置信息以及实时采集无人机的航向和姿态信息;所述环境模块一、环境模块二均包括深度相机和激光雷达,该深度相机分别采集无人车、无人机工作区域时间连续的视频信号,对该视频信号进行预处理后传输至控制系统,以分别提供无人机、无人车所处环境的环境数据;该激光雷达分别用于扫描无人机、无人车周围的障碍物,基于点云分类算法对其进行分割和分类,并分别输出给车载、机载电脑控制系统;所述空中智能系统的环境模块二还包括气压定高计,用于提供无人机高度信息。
7.根据权利要求6所述基于冲突处理的无人集群空地协同系统,其特征在于,所述RTK接收机地面端作为地面基站,获取卫星定位与真实位置对比,得到GPS的定位误差,并将当前定位误差发送给RTK接收机天空端,RTK接收机天空端基于收到的定位误差纠正从卫星获得的定位,任意RTK接收机天空端从地面任意RTK接收机地面端获取数据,形成高精度定位网络,以提升系统定位精度。
CN202111376244.6A 2021-11-19 2021-11-19 一种基于冲突处理的无人集群多域协同系统及方法 Active CN114115342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111376244.6A CN114115342B (zh) 2021-11-19 2021-11-19 一种基于冲突处理的无人集群多域协同系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111376244.6A CN114115342B (zh) 2021-11-19 2021-11-19 一种基于冲突处理的无人集群多域协同系统及方法

Publications (2)

Publication Number Publication Date
CN114115342A CN114115342A (zh) 2022-03-01
CN114115342B true CN114115342B (zh) 2023-12-19

Family

ID=80398017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111376244.6A Active CN114115342B (zh) 2021-11-19 2021-11-19 一种基于冲突处理的无人集群多域协同系统及方法

Country Status (1)

Country Link
CN (1) CN114115342B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115102705B (zh) * 2022-04-02 2023-11-03 中国人民解放军国防科技大学 一种基于深度强化学习的自动化网络安全检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法
CN112817330A (zh) * 2021-01-05 2021-05-18 北京联合大学 一种多无人机四维航迹协同规划方法及系统
CN113271357A (zh) * 2021-05-17 2021-08-17 南京邮电大学 一种地空协同组网系统及控制方法
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538673B2 (en) * 2008-10-31 2013-09-17 Czech Technical University In Prague System and method for planning/replanning collision free flight plans in real or accelerated time

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法
CN112817330A (zh) * 2021-01-05 2021-05-18 北京联合大学 一种多无人机四维航迹协同规划方法及系统
CN113271357A (zh) * 2021-05-17 2021-08-17 南京邮电大学 一种地空协同组网系统及控制方法
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Path Planning of Multiple AGVs Using a Time-space Network Model;Shanling Yin 等;2019 34rd Youth Academic Annual Conference of Chinese Association of Automation (YAC);全文 *
双层优化的多无人机合作式冲突探测与解脱;付其喜 等;哈尔滨工业大学学报;第52卷(第4期);全文 *

Also Published As

Publication number Publication date
CN114115342A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN111831008B (zh) 一种基于分布式架构的无人机编队协同控制系统及其方法
He et al. Scheduling multiple agile earth observation satellites with an edge computing framework and a constructive heuristic algorithm
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
Mansouri et al. Distributed model predictive control for unmanned aerial vehicles
Wang et al. Monitoring trajectory optimization for unmanned surface vessel in sailboat race
CN114115342B (zh) 一种基于冲突处理的无人集群多域协同系统及方法
CN114355900A (zh) 一种无人机与无人车结合的协同作业方法
Hua et al. Research on many-to-many target assignment for unmanned aerial vehicle swarm in three-dimensional scenarios
Sai et al. A comprehensive survey on artificial intelligence for unmanned aerial vehicles
Xiang et al. An effective memetic algorithm for UAV routing and orientation under uncertain navigation environments
Wu et al. Survey on autonomous task scheduling technology for Earth observation satellites
Chen High dimensional reachability analysis: Addressing the curse of dimensionality in formal verification
CN116795138A (zh) 一种面向数据采集的多无人机智能航迹规划方法
Šišlák et al. AgentFly: Scalable, High‐Fidelity Framework for Simulation, Planning and Collision Avoidance of Multiple UAVs
Stephenson et al. Intent Sharing For Emergent Collaboration In Autonomous Earth Observing Constellations
CN113220425A (zh) 一种基于马赛克拼接的分布式可重构卫星系统组织方法
Zhang et al. The Application of Multiple Ant Colony Algorithm to Cooperative Task Allocation in UUVs Swarm
Araújo et al. Cooperative observation of malicious targets in a 3d urban traffic environment using uavs
CN116882142B (zh) 基于松耦合的对地观测多层级规划策略方法、设备及介质
Yue et al. Improving Cooperative Multi-Target Tracking Control for UAV Swarm Using Multi-Agent Reinforcement Learning
Williamson et al. Autonomy Levels for Small Satellite Clusters
CN118280168B (zh) 基于通感一体的低空空域管理方法及系统
CN118075871B (zh) 基于记忆优化框架的集群动态自主协同导航系统及方法
Liu et al. Complex task planning method of space-aeronautics cooperative observation based on multi-layer interaction
CN110543676B (zh) 一种基于代理模型的卫星集群构形重构规划方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant