CN114578860A - 一种基于深度强化学习的大规模无人机集群飞行方法 - Google Patents

一种基于深度强化学习的大规模无人机集群飞行方法 Download PDF

Info

Publication number
CN114578860A
CN114578860A CN202210310624.8A CN202210310624A CN114578860A CN 114578860 A CN114578860 A CN 114578860A CN 202210310624 A CN202210310624 A CN 202210310624A CN 114578860 A CN114578860 A CN 114578860A
Authority
CN
China
Prior art keywords
network
course
unmanned aerial
aerial vehicle
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210310624.8A
Other languages
English (en)
Inventor
王菖
闫超
相晓嘉
李�杰
周晗
唐邓清
赖俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210310624.8A priority Critical patent/CN114578860A/zh
Publication of CN114578860A publication Critical patent/CN114578860A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于深度强化学习的大规模无人机集群飞行方法,该方法将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;构建基于执行器网络和评价器网络组成的课程强化学习框架,并在课程强化学习框架中设置基于注意力机制的群体恒定网络;根据课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;根据当前课程的前一个课程中的每一架无人机的经验数据,更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。本发明能够有效提高大规模无人机的学习和训练效率,有效避免大规模无人机集群飞行时发生碰撞,并具有强大的泛化能力。

Description

一种基于深度强化学习的大规模无人机集群飞行方法
技术领域
本发明涉及无人机技术领域,具体涉及一种基于深度强化学习的大规模无人机集群飞行方法。
背景技术
近年来,随着机器人技术、机器学习技术以及智能控制技术的不断发展,无人机自主控制技术取得了长足的进步。固定翼无人机具有飞行速度快、续航能力强和有效载荷大等特点,在区域侦察、灾难搜救、边境管控等任务中得到了广泛的应用。上述任务通常需要通过多架无人机的协同配合来提高任务完成效率。然而,无人机群自主飞行与避障行为的获取难度与无人机的数量、任务复杂度都密切相关,仍然是一个极具挑战的理论难题。
传统的控制方法通常依赖于无人机平台和外界扰动的精确模型。但由于上述的精确模型具有复杂、时变和非线性的特点,并且受传感器误差、环境扰动等因素的影响,使得传统控制方法难以解决大规模无人机集群的控制问题。
近年来,强化学习方法在集群的自主控制问题中得到了初步应用。但是,由于固定翼无人机集群在实际应用中存在规模大、动态性强、训练时间长等挑战,现有的强化学习方法难以解决集群规模动态变化、任务复杂度不断提升的无人机集群防撞飞行控制问题。
发明内容
为解决现有技术中存在的问题,本发明提供一种基于深度强化学习的大规模无人机集群飞行方法,能够解决集群规模动态变化、任务复杂度不断提升的无人机集群防撞飞行控制问题,有效提高大规模无人机的学习和训练效率。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行方法,包括步骤:
将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;
构建基于执行器网络和评价器网络组成的课程强化学习框架,并在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,所述基于注意力机制的群体恒定网络用于对输入所述执行器网络和所述评价器网络的多种不同维度的无人机状态参数进行聚合;
根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新所述当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
与现有技术相比,本发明第一方面具有以下有益效果:
本方法将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;使用课程强化学习框架依次对每个课程进行策略学习,该课程强化学习框架基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,并在当前课程的前一个课程中学习所得控制策略的基础上,继续更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。本方法通过基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,能够对输入向量维度进行自适应动态调整以及允许加载之前的网络,通过课程强化学习框架有效提高大规模无人机的学习和训练效率,有效避免大规模无人机集群飞行时发生碰撞,并具有强大的泛化能力。
进一步,所述在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,包括:
在所述执行器网络中,使用僚机i的观测向量
Figure BDA0003568050220000031
作为输入,动作
Figure BDA0003568050220000032
是僚机i的观测向量
Figure BDA0003568050220000033
的函数,其中,所述
Figure BDA0003568050220000034
表示僚机i的状态,所述
Figure BDA0003568050220000035
表示所述僚机i的邻居僚机j的状态,所述
Figure BDA0003568050220000036
表示长机的状态;
对所述僚机i的状态、所述邻居僚机j的状态和所述长机的状态进行编码,编码公式为:
Figure BDA0003568050220000037
Figure BDA0003568050220000038
Figure BDA0003568050220000039
其中,所述FC(·)表示由整流线性单元激活的一层全连接网络实现的嵌入函数,所述ei表示僚机i的嵌入,所述ej表示所述僚机i的邻居僚机j的嵌入,所述el表示长机的嵌入;
设计注意力嵌入模块,根据所述注意力嵌入模块将所有邻居僚机j的状态聚合成一个固定长度的向量ci,所述ci的计算公式为:
Figure BDA00035680502200000310
其中,所述Νi表示僚机i的邻居僚机的集合,所述ωij表示邻居僚机j对于以自我为中心的僚机i的重要性,所述ωij的计算公式为:
Figure BDA00035680502200000311
其中,所述Soft max(·)表示归一化指数函数,所述Wq表示需要学习的参数,所述
Figure BDA0003568050220000041
表示ej的维数;
通过如下公式获得无人机的动作:
ai=MLP(ei||ci||el)
所述MLP(·)表示由整流线性单元和双曲正切函数激活的两层感知器,所述||表示级联操作符;
在所述评价器网络中,使用以自我为中心的状态
Figure BDA0003568050220000042
和联合动作a作为输入,计算僚机i的Q值为:
Figure BDA0003568050220000043
其中,所述
Figure BDA0003568050220000044
所述ci=∑j∈I,j≠iωijej,所述
Figure BDA0003568050220000045
所述
Figure BDA0003568050220000046
所述ai表示僚机i的动作,所述
Figure BDA0003568050220000047
表示僚机j的状态,所述aj表示僚机j的动作,所述al表示长机的动作。
进一步,所述根据每一架无人机的经验数据,更新执行器网络参数和评价器网络参数,包括:
计算所有无人机的平均梯度,用于更新所述执行器网络μ的参数θμ,所述平均梯度计算公式为:
Figure BDA0003568050220000048
其中,所述μ表示所述执行器网络,所述执行器网络的参数为θμ,所述Q表示所述评价器网络,所述评价器网络的参数为θQ,所述s表示系统状态向量,所述o表示观测向量,所述a表示联合动作,所述D表示所有无人机的经验回放缓存池,所述I表示所有无人机的集合,所述
Figure BDA0003568050220000049
表示以自我为中心的观测向量,所述
Figure BDA0003568050220000051
表示以自我为中心的状态,所述a=(a1,...,an)表示所有无人机的联合动作;
从所述经验回放缓存池中随机采样经验数据,用于更新所述评价器网络Q的参数θQ,所述评价器网络的计算公式为:
Figure BDA0003568050220000052
其中,目标Q值yi的计算公式为
Figure BDA0003568050220000053
所述r表示所有无人机的回报值,所述s'表示下一时刻的系统状态向量,所述μ-表示目标执行器网络,所述目标执行器网络的参数为
Figure BDA0003568050220000054
所述Q-表示目标评价器网络,所述目标评价器网络的参数为
Figure BDA0003568050220000055
所述
Figure BDA0003568050220000056
表示目标评价器网络中以自我为中心的状态,所述a=(a1',...,a'n)表示目标评价器网络中所有无人机的联合动作。
进一步,通过如下公式更新所述目标执行器网络的参数和所述目标评价器网络的参数:
Figure BDA0003568050220000057
进一步,通过如下方式建立所述以自我为中心的状态和所述自我为中心的观测向量:
建立僚机i以自我为中心的状态公式:
Figure BDA0003568050220000058
其中,所述P(·)表示变换函数,所述变换函数将僚机i的系统状态向量s从全局坐标系中变换到以自我为中心的状态坐标系中,所述ξj:=(xj,yjjj,vj)表示僚机j在全局坐标系中的状态,所述
Figure BDA0003568050220000059
表示僚机i的自我状态,僚机j在僚机i的坐标系中的坐标为
Figure BDA0003568050220000061
所述(xj,yj)表示僚机j的平面坐标,所述ψj表示僚机j的航向角,所述φj表示僚机j的滚转角,所述vj表示僚机j的速度,所述
Figure BDA0003568050220000062
表示僚机j以自我为中心的状态系中的平面坐标,所述
Figure BDA0003568050220000063
表示僚机j以自我为中心的状态系中的航向,所述
Figure BDA0003568050220000064
表示僚机i以自我为中心的平面坐标,所述
Figure BDA0003568050220000065
表示僚机i以自我为中心的航向角;
建立僚机i以自我为中心的观测向量公式:
Figure BDA0003568050220000066
其中,所述oi表示僚机i的观测向量。
进一步,所述根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略,包括如下步骤:
初始化K个课程,并随机初始化所述执行器网络的参数θμ和所述评价器网络的参数θQ
确定课程编号k=1,2,...,K的取值,从课程1到课程K,进行如下操作:
针对课程k,k>1,从课程k-1中初始化模型参数如下:
Figure BDA0003568050220000067
清空容量为N的经验回放缓存池D;
增加僚机的数量;
确定训练回合数e=1,2,...,M,从训练回合数1到训练回合数M,进行如下操作:
随机初始化系统状态向量s←(ξlf);
获取初始观测向量o;
针对每个回合e,设定总时间步长Ns,从时间步长1到时间步长Ns,进行如下操作:
计算获得僚机i以自我为中心的观测向量
Figure BDA0003568050220000071
采用当前执行器网络μ和高斯随机探索策略Ν(0,σ2),选择僚机i的动作值如下:
Figure BDA0003568050220000072
计算下一时刻僚机i的滚转角度值
Figure BDA0003568050220000073
和速度值
Figure BDA0003568050220000074
如下:
Figure BDA0003568050220000075
Figure BDA0003568050220000076
其中,所述
Figure BDA0003568050220000077
表示僚机i的滚动动作,所述
Figure BDA0003568050220000078
表示僚机i的速度动作,所述φi表示僚机i的当前滚转角,所述vi表示僚机i的当前速度,所述[-rbd,rbd]表示下一时刻僚机i的滚转角的范围,所述vmax表示最大速度,所述vmin表示最小速度;
根据无人机动力学模型计算下一时刻的系统状态向量s';
计算僚机i的即时回报值ri,所述ri计算公式为:
Figure BDA0003568050220000079
其中,所述
Figure BDA0003568050220000081
表示凝聚奖励,计算公式为
Figure BDA0003568050220000082
所述
Figure BDA0003568050220000083
表示分离奖励,计算公式为
Figure BDA0003568050220000084
所述ρi表示长机和僚机i之间的距离,所述Ra表示僚机i的警戒半径,所述Δψi表示长机和僚机i之间的航向差,所述ω1和ω2表示调谐参数,所述Dij表示从僚机i到所述僚机i的第j个邻居的距离,常数P>>0,所述Rs表示僚机i的最小安全距离;
获取下一时刻的观测向量o';
将经验数据以(s,o,a,r,o',s')的形式存储至经验回放缓存池D;
若所述经验回放缓存池容量不足,则删除最旧的经验数据;
更新所述系统状态向量和所述观测向量的时间标签:s←s',o←o';
从所述经验回放缓存池D中选取数量为Nb的经验数据,根据数量为Nb的经验数据更新所述执行器网络的参数
Figure BDA0003568050220000085
和所述评价器网络的参数
Figure BDA0003568050220000086
其中,所述目标执行器网络的参数
Figure BDA0003568050220000087
和所述目标评价器网络的参数
Figure BDA0003568050220000088
每经过c时间步长更新一次;
在所有课程学习完后,获得每一架无人机的飞行策略。
进一步,通过如下公式构建无人机动力学模型:
Figure BDA0003568050220000091
其中,所述(x,y)表示无人机的平面坐标,所述ψ表示航向角,所述φ表示滚转角,所述v表示无人机的速度,所述αg表示重力加速度,干扰项ηx来自正态分布
Figure BDA0003568050220000092
干扰项ηy来自正态分布
Figure BDA0003568050220000093
干扰项ηψ来自正态分布
Figure BDA0003568050220000094
所述fφ(φ,φref)表示滚转动力学,所述fv(v,vref)表示速度动力学。
第二方面,本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行系统,包括:
课程划分单元,用于将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;
学习框架构建单元,用于构建基于执行器网络和评价器网络组成的课程强化学习框架,并在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,所述基于注意力机制的群体恒定网络用于对输入所述执行器网络和所述评价器网络的多种不同维度的无人机状态参数进行聚合;
飞行策略计算单元,用于根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新所述当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
与现有技术相比,本发明第二方面具有以下有益效果:
本系统通过多个课程划分单元将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;通过课程强化学习框架构建单元构建基于执行器网络和评价器网络组成的课程强化学习框架,并在课程强化学习框架中设置基于注意力机制的群体恒定网络,基于注意力机制的群体恒定网络用于对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合;通过飞行策略获取单元根据课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并在当前课程的前一个课程中学习所得控制策略的基础上,继续更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。本系统通过基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,能够对输入向量维度进行自适应动态调整以及允许加载之前的网络,通过课程强化学习框架有效提高大规模无人机的学习和训练效率,有效避免大规模无人机集群飞行时发生碰撞,并具有强大的泛化能力。
第三方面,本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上所述的一种基于深度强化学习的大规模无人机集群飞行方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的一种基于深度强化学习的大规模无人机集群飞行方法。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例提供的一种基于深度强化学习的大规模无人机集群飞行方法的流程图;
图2为本发明一个实施例提供的课程迁移学习框架示意图;
图3为本发明一个实施例提供的基于注意力机制的群体恒定网络的结构图;
图4为本发明一个实施例提供的一种基于深度强化学习的大规模无人机集群飞行系统的结构图。
具体实施方式
下面将结合附图,对本公开实施例的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。需要说明的是,在不冲突的情况下,本公开实施例及实施例中的特征可以相互组合。另外,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本公开的每个技术特征和整体技术方案,但其不能理解为对本公开保护范围的限制。
在本发明的描述中,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
近年来,强化学习方法在集群的自主控制问题中得到了初步应用。但是,由于固定翼无人机集群在实际应用中存在规模大、动态性强、训练时间长等挑战,现有的强化学习方法难以解决集群规模动态变化、任务复杂度不断提升的无人机集群避障飞行控制问题。
为解决上述问题,通过基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,能够对输入向量维度进行自适应动态调整以及允许加载之前的网络,通过课程强化学习框架有效提高大规模无人机的学习和训练效率,有效避免大规模无人机集群飞行时发生碰撞,并具有强大的泛化能力。
参照图1至图3,本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行方法,包括步骤:
步骤S100、将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模。
具体的,将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模,通过不断增加无人机数量扩大无人机集群规模。
步骤S200、构建基于执行器网络和评价器网络组成的课程强化学习框架,并在课程强化学习框架中设置基于注意力机制的群体恒定网络,基于注意力机制的群体恒定网络用于对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合。
具体的,首先,建立以自我为中心的表征,具体如下:
建立僚机i以自我为中心的状态公式:
Figure BDA0003568050220000131
其中,P(·)表示变换函数,变换函数将僚机i的系统状态向量s从全局坐标系中变换到以自我为中心的状态坐标系中,ξj:=(xj,yjjj,vj)表示僚机j在全局坐标系中的状态,
Figure BDA0003568050220000132
表示僚机i的自我状态,僚机j在僚机i的坐标系中的坐标为
Figure BDA0003568050220000133
表示僚机j的平面坐标,ψj表示僚机j的航向角,φj表示僚机j的滚转角,vj表示僚机j的速度,
Figure BDA0003568050220000134
表示僚机j以自我为中心的状态系中的平面坐标,
Figure BDA0003568050220000135
表示僚机j以自我为中心的状态系中的航向,
Figure BDA0003568050220000136
表示僚机i以自我为中心的平面坐标,
Figure BDA0003568050220000137
表示僚机i以自我为中心的航向角;
建立僚机i以自我为中心的观测向量公式:
Figure BDA0003568050220000138
其中,oi表示僚机i的观测向量。在执行器网络中,使用僚机i的观测向量
Figure BDA0003568050220000139
作为输入,动作
Figure BDA00035680502200001310
是僚机i的观测向量
Figure BDA00035680502200001311
的函数,其中,
Figure BDA00035680502200001312
表示僚机i的状态,
Figure BDA00035680502200001313
表示僚机i的邻居僚机j的状态,
Figure BDA00035680502200001314
表示长机的状态;
然后,构建基于注意力机制的群体恒定网络,具体如下:
在执行器网络中,使用僚机i的观测向量
Figure BDA00035680502200001315
作为输入,动作
Figure BDA00035680502200001316
是僚机i的观测向量
Figure BDA00035680502200001317
的函数,其中,
Figure BDA00035680502200001318
表示僚机i的状态,
Figure BDA00035680502200001319
表示僚机i的邻居僚机j的状态,
Figure BDA00035680502200001320
表示长机的状态;
对僚机i的状态、邻居僚机j的状态和长机的状态进行编码,编码公式为:
Figure BDA0003568050220000141
Figure BDA0003568050220000142
Figure BDA0003568050220000143
其中,FC(·)表示由整流线性单元激活的一层全连接网络实现的嵌入函数,ei表示僚机i的嵌入,ej表示僚机i的邻居僚机j的嵌入,el表示长机的嵌入;
设计注意力嵌入模块,根据注意力嵌入模块将所有邻居僚机j的状态聚合成一个固定长度的向量ci,ci的计算公式为:
Figure BDA0003568050220000144
其中,Νi表示僚机i的邻居僚机的集合,ωij表示邻居僚机j对于以自我为中心的僚机i的重要性,ωij的计算公式为:
Figure BDA0003568050220000145
其中,Softmax(·)表示归一化指数函数,Wq表示需要学习的参数,
Figure BDA0003568050220000146
表示ej的维数;
通过如下公式获得无人机的动作:
ai=MLP(ei||ci||el)
MLP(·)表示由整流线性单元和双曲正切函数激活的两层感知器,||表示级联操作符;
在评价器网络中,使用以自我为中心的状态
Figure BDA0003568050220000147
和联合动作a作为输入,计算僚机i的Q值为:
Figure BDA0003568050220000148
其中,
Figure BDA0003568050220000151
ci=∑j∈I,j≠iωijej
Figure BDA0003568050220000152
ai表示僚机i的动作,
Figure BDA0003568050220000153
表示僚机j的状态,aj表示僚机j的动作,al表示长机的动作。
本实施例中,图2中的APINet表示基于注意力机制的群体恒定网络,图3中DotProduct表示向量点积,Softmax表示归一化指数函数,Scaled-Dot Product表示缩放点积,Ego-Centric Representation表示以自我为中心的表征,Roll表示输出僚机i的滚动,Speed表示输出僚机i的速度,Attention表示注意力嵌入模块,Q-values表示输出僚机i的Q值,本实施例通过注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,能够对输入向量维度进行自适应动态调整以及允许加载之前的网络。
步骤S300、根据课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
具体的,根据每一架无人机的经验数据,更新执行器网络参数和评价器网络参数,更新过程为:
计算所有无人机的平均梯度,用于更新执行器网络μ的参数θμ,平均梯度计算公式为:
Figure BDA0003568050220000154
其中,μ表示执行器网络,执行器网络的参数为θμ,Q表示评价器网络,评价器网络的参数为θQ,s表示系统状态向量,o表示观测向量,a表示联合动作,D表示所有无人机的经验回放缓存池,I表示所有无人机的集合,
Figure BDA0003568050220000155
表示以自我为中心的观测向量,
Figure BDA0003568050220000161
表示以自我为中心的状态,a=(a1,...,an)表示所有无人机的联合动作;
从经验回放缓存池中随机采样经验数据,用于更新评价器网络Q的参数θQ,评价器网络的计算公式为:
Figure BDA0003568050220000162
其中,目标Q值yi的计算公式为
Figure BDA0003568050220000163
r表示所有无人机的回报值,s'表示下一时刻的系统状态向量,μ-表示目标执行器网络,目标执行器网络的参数为
Figure BDA0003568050220000164
Q-表示目标评价器网络,目标评价器网络的参数为
Figure BDA0003568050220000165
表示目标评价器网络中以自我为中心的状态,a=(a1',...,a'n)表示目标评价器网络中所有无人机的联合动作。
通过如下公式更新目标执行器网络的参数和目标评价器网络的参数:
Figure BDA0003568050220000166
基于上述参数的更新方式,根据课程强化学习框架依次对每个课程进行策略学习和训练,得到每一架无人机的飞行策略,学习和训练过程包括步骤:
初始化K个课程,并随机初始化执行器网络的参数θμ和评价器网络的参数θQ
确定课程编号k=1,2,...,K的取值,从课程1到课程K,进行知识迁移操作:
针对课程k,k>1,从课程k-1中初始化模型参数如下:
Figure BDA0003568050220000167
清空容量为N的经验回放缓存池D;
增加僚机的数量;
确定训练回合数e=1,2,...,M,从训练回合数1到训练回合数M,进行策略学习操作:
随机初始化系统状态向量s←(ξlf);
获取初始观测向量o;
针对每个回合e,设定总时间步长Ns,从时间步长1到时间步长Ns,进行如下操作:
计算获得僚机i以自我为中心的观测向量
Figure BDA0003568050220000171
采用当前执行器网络μ和高斯随机探索策略Ν(0,σ2),选择僚机i的动作值如下:
Figure BDA0003568050220000172
计算下一时刻僚机i的滚转角度值
Figure BDA0003568050220000173
和速度值
Figure BDA0003568050220000174
如下:
Figure BDA0003568050220000175
Figure BDA0003568050220000176
其中,
Figure BDA0003568050220000177
表示僚机i的滚动动作,
Figure BDA0003568050220000178
表示僚机i的速度动作,φi表示僚机i的当前滚转角,vi表示僚机i的当前速度,[-rbd,rbd]表示下一时刻僚机i的滚转角的范围,vmax表示最大速度,vmin表示最小速度;
根据无人机动力学模型计算下一时刻的系统状态向量s';
计算僚机i的即时回报值ri,ri计算公式为:
Figure BDA0003568050220000181
其中,
Figure BDA0003568050220000182
表示凝聚奖励,计算公式为
Figure BDA0003568050220000183
Figure BDA0003568050220000184
表示分离奖励,计算公式为
Figure BDA0003568050220000185
ρi表示长机和僚机i之间的距离,Ra表示僚机i的警戒半径,Δψi表示长机和僚机i之间的航向差,ω1和ω2表示调谐参数,Dij表示从僚机i到僚机i的第j个邻居的距离,常数P>>0,Rs表示僚机i的最小安全距离;
获取下一时刻的观测向量o';
将经验数据以(s,o,a,r,o',s')的形式存储至经验回放缓存池D;
若经验回放缓存池容量不足,则删除最旧的经验数据;
更新系统状态向量和观测向量的时间标签:s←s',o←o';
从经验回放缓存池D中选取数量为Nb的经验数据,根据数量为Nb的经验数据更新执行器网络的参数
Figure BDA0003568050220000186
和评价器网络的参数
Figure BDA0003568050220000187
其中,目标执行器网络的参数
Figure BDA0003568050220000188
和目标评价器网络的参数
Figure BDA0003568050220000189
每经过c时间步长更新一次;
在所有课程学习完后,获得每一架无人机的飞行策略。
需要说明的是,N表示经验回放缓存池D的容量,Nb和c可以根据所需设定值,但Nb取值不会大于经验回放缓存池D的容量,c取值不会大于总时间步长。
在本发明实施例中,通过注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,能够对输入向量维度进行自适应动态调整以及允许加载之前的网络,通过课程强化学习框架有效提高大规模无人机的学习和训练效率,有效避免大规模无人机集群飞行时发生碰撞,并具有强大的泛化能力。
参照图4,本发明实施例还提供了一种基于深度强化学习的大规模无人机集群飞行系统,包括:
课程划分单元,用于将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;
学习框架构建单元,用于构建基于执行器网络和评价器网络组成的课程强化学习框架,并在课程强化学习框架中设置基于注意力机制的群体恒定网络,基于注意力机制的群体恒定网络用于对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合;
飞行策略计算单元,用于根据课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
需要说明的是,由于本实施例中的一种基于深度强化学习的大规模无人机集群飞行系统与上述的一种基于深度强化学习的大规模无人机集群飞行方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本系统实施例,此处不再详述。
本发明实施例还提供了一种基于深度强化学习的大规模无人机集群飞行设备,包括:至少一个控制处理器和用于与至少一个控制处理器通信连接的存储器。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的一种基于深度强化学习的大规模无人机集群飞行方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的一种基于深度强化学习的大规模无人机集群飞行方法,例如,执行以上描述的图1中的方法步骤S100至步骤S300。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,可使得上述一个或多个控制处理器执行上述方法实施例中的一种基于深度强化学习的大规模无人机集群飞行方法,例如,执行以上描述的图1中的方法步骤S100至S300的功能。
通过以上的实施方式的描述,本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims (10)

1.一种基于深度强化学习的大规模无人机集群飞行方法,其特征在于,包括步骤:
将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;
构建基于执行器网络和评价器网络组成的课程强化学习框架,并在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,所述基于注意力机制的群体恒定网络用于对输入所述执行器网络和所述评价器网络的多种不同维度的无人机状态参数进行聚合;
根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新所述当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
2.根据权利要求1所述的基于深度强化学习的大规模无人机集群飞行方法,其特征在于,所述在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,包括:
在所述执行器网络中,使用僚机i的观测向量
Figure FDA0003568050210000011
作为输入,动作
Figure FDA0003568050210000012
是僚机i的观测向量
Figure FDA0003568050210000013
的函数,其中,所述
Figure FDA0003568050210000014
表示僚机i的状态,所述
Figure FDA0003568050210000015
表示所述僚机i的邻居僚机j的状态,所述
Figure FDA0003568050210000016
表示长机的状态;
对所述僚机i的状态、所述邻居僚机j的状态和所述长机的状态进行编码,编码公式为:
Figure FDA0003568050210000017
Figure FDA0003568050210000018
Figure FDA0003568050210000021
其中,所述FC(·)表示由整流线性单元激活的一层全连接网络实现的嵌入函数,所述ei表示僚机i的嵌入,所述ej表示所述僚机i的邻居僚机j的嵌入,所述el表示长机的嵌入;
设计注意力嵌入模块,根据所述注意力嵌入模块将所有邻居僚机j的状态聚合成一个固定长度的向量ci,所述ci的计算公式为:
Figure FDA0003568050210000022
其中,所述Νi表示僚机i的邻居僚机的集合,所述ωij表示邻居僚机j对于以自我为中心的僚机i的重要性,所述ωij的计算公式为:
Figure FDA0003568050210000023
其中,所述Softmax(·)表示归一化指数函数,所述Wq表示需要学习的参数,所述
Figure FDA0003568050210000024
表示ej的维数;
通过如下公式获得无人机的动作:
ai=MLP(ei||ci||el)
所述MLP(·)表示由整流线性单元和双曲正切函数激活的两层感知器,所述||表示级联操作符;
在所述评价器网络中,使用以自我为中心的状态
Figure FDA0003568050210000025
和联合动作a作为输入,计算僚机i的Q值为:
Figure FDA0003568050210000026
其中,所述
Figure FDA0003568050210000027
所述ci=∑j∈I,j≠iωijej,所述
Figure FDA0003568050210000028
所述
Figure FDA0003568050210000029
所述ai表示僚机i的动作,所述
Figure FDA00035680502100000210
表示僚机j的状态,所述aj表示僚机j的动作,所述al表示长机的动作。
3.根据权利要求2所述的基于深度强化学习的大规模无人机集群飞行方法,其特征在于,所述根据每一架无人机的经验数据,更新执行器网络参数和评价器网络参数,包括:
计算所有无人机的平均梯度,用于更新所述执行器网络μ的参数θμ,所述平均梯度计算公式为:
Figure FDA0003568050210000031
其中,所述μ表示所述执行器网络,所述执行器网络的参数为θμ,所述Q表示所述评价器网络,所述评价器网络的参数为θQ,所述s表示系统状态向量,所述o表示观测向量,所述a表示联合动作,所述D表示所有无人机的经验回放缓存池,所述I表示所有无人机的集合,所述
Figure FDA0003568050210000032
表示以自我为中心的观测向量,所述s~i表示以自我为中心的状态,所述a=(a1,...,an)表示所有无人机的联合动作;
从所述经验回放缓存池中随机采样经验数据,用于更新所述评价器网络Q的参数θQ,所述评价器网络的计算公式为:
Figure FDA0003568050210000033
其中,目标Q值yi的计算公式为
Figure FDA0003568050210000034
所述r表示所有无人机的回报值,所述s'表示下一时刻的系统状态向量,所述μ-表示目标执行器网络,所述目标执行器网络的参数为
Figure FDA0003568050210000035
所述Q-表示目标评价器网络,所述目标评价器网络的参数为
Figure FDA0003568050210000036
所述
Figure FDA0003568050210000037
表示目标评价器网络中以自我为中心的状态,所述a=(a'1,...,a'n)表示目标评价器网络中所有无人机的联合动作。
4.根据权利要求3所述的基于深度强化学习的大规模无人机集群飞行方法,其特征在于,通过如下公式更新所述目标执行器网络的参数和所述目标评价器网络的参数:
Figure FDA0003568050210000041
5.根据权利要求4所述的基于深度强化学习的大规模无人机集群飞行方法,其特征在于,通过如下方式建立所述以自我为中心的状态和所述自我为中心的观测向量:
建立僚机i以自我为中心的状态公式:
Figure FDA0003568050210000042
其中,所述P(·)表示变换函数,所述变换函数将僚机i的系统状态向量s从全局坐标系中变换到以自我为中心的状态坐标系中,所述ξj:=(xj,yjjj,vj)表示僚机j在全局坐标系中的状态,所述
Figure FDA0003568050210000043
表示僚机i的自我状态,僚机j在僚机i的坐标系中的坐标为
Figure FDA0003568050210000044
所述(xj,yj)表示僚机j的平面坐标,所述ψj表示僚机j的航向角,所述φj表示僚机j的滚转角,所述vj表示僚机j的速度,所述
Figure FDA0003568050210000045
表示僚机j以自我为中心的状态系中的平面坐标,所述
Figure FDA0003568050210000046
表示僚机j以自我为中心的状态系中的航向,所述
Figure FDA0003568050210000047
表示僚机i以自我为中心的平面坐标,所述
Figure FDA0003568050210000048
表示僚机i以自我为中心的航向角;
建立僚机i以自我为中心的观测向量公式:
Figure FDA0003568050210000049
其中,所述oi表示僚机i的观测向量。
6.根据权利要求5所述的基于深度强化学习的大规模无人机集群飞行方法,其特征在于,所述根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略,包括如下步骤:
初始化K个课程,并随机初始化所述执行器网络的参数θμ和所述评价器网络的参数θQ
确定课程编号k=1,2,...,K的取值,从课程1到课程K,进行如下操作:
针对课程k,k>1,从课程k-1中初始化模型参数如下:
Figure FDA0003568050210000051
清空容量为N的经验回放缓存池D;
增加僚机的数量;
确定训练回合数e=1,2,...,M,从训练回合数1到训练回合数M,进行如下操作:
随机初始化系统状态向量s←(ξlf);
获取初始观测向量o;
针对每个回合e,设定总时间步长Ns,从时间步长1到时间步长Ns,进行如下操作:
计算获得僚机i以自我为中心的观测向量
Figure FDA0003568050210000052
采用当前执行器网络μ和高斯随机探索策略Ν(0,σ2),选择僚机i的动作值如下:
Figure FDA0003568050210000053
计算下一时刻僚机i的滚转角度值
Figure FDA0003568050210000054
和速度值
Figure FDA0003568050210000055
如下:
Figure FDA0003568050210000061
Figure FDA0003568050210000062
其中,所述
Figure FDA0003568050210000063
表示僚机i的滚动动作,所述
Figure FDA0003568050210000064
表示僚机i的速度动作,所述φi表示僚机i的当前滚转角,所述vi表示僚机i的当前速度,所述[-rbd,rbd]表示下一时刻僚机i的滚转角的范围,所述vmax表示最大速度,所述vmin表示最小速度;
根据无人机动力学模型计算下一时刻的系统状态向量s';
计算僚机i的即时回报值ri,所述ri计算公式为:
Figure FDA0003568050210000065
其中,所述
Figure FDA0003568050210000066
表示凝聚奖励,计算公式为
Figure FDA0003568050210000067
所述
Figure FDA0003568050210000068
表示分离奖励,计算公式为
Figure FDA0003568050210000069
所述ρi表示长机和僚机i之间的距离,所述Ra表示僚机i的警戒半径,所述Δψi表示长机和僚机i之间的航向差,所述ω1和ω2表示调谐参数,所述Dij表示从僚机i到所述僚机i的第j个邻居的距离,常数P>>0,所述Rs表示僚机i的最小安全距离;
获取下一时刻的观测向量o';
将经验数据以(s,o,a,r,o',s')的形式存储至经验回放缓存池D;
若所述经验回放缓存池容量不足,则删除最旧的经验数据;
更新所述系统状态向量和所述观测向量的时间标签:s←s',o←o';
从所述经验回放缓存池D中选取数量为Nb的经验数据,根据数量为Nb的经验数据更新所述执行器网络的参数
Figure FDA0003568050210000071
和所述评价器网络的参数
Figure FDA0003568050210000072
其中,所述目标执行器网络的参数
Figure FDA0003568050210000073
和所述目标评价器网络的参数
Figure FDA0003568050210000074
每经过c时间步长更新一次;
在所有课程学习完后,获得每一架无人机的飞行策略。
7.根据权利要求6所述的基于深度强化学习的大规模无人机集群飞行方法,其特征在于,通过如下公式构建无人机动力学模型:
Figure FDA0003568050210000075
其中,所述(x,y)表示无人机的平面坐标,所述ψ表示航向角,所述φ表示滚转角,所述v表示无人机的速度,所述αg表示重力加速度,干扰项ηx来自正态分布
Figure FDA0003568050210000076
干扰项ηy来自正态分布
Figure FDA0003568050210000077
干扰项ηψ来自正态分布
Figure FDA0003568050210000078
所述fφ(φ,φref)表示滚转动力学,所述fv(v,vref)表示速度动力学。
8.一种基于深度强化学习的大规模无人机集群飞行系统,其特征在于,包括:
课程划分单元,用于将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;
学习框架构建单元,用于构建基于执行器网络和评价器网络组成的课程强化学习框架,并在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,所述基于注意力机制的群体恒定网络用于对输入所述执行器网络和所述评价器网络的多种不同维度的无人机状态参数进行聚合;
飞行策略计算单元,用于根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新所述当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
9.一种基于深度强化学习的大规模无人机集群飞行设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的一种基于深度强化学习的大规模无人机集群飞行方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的一种基于深度强化学习的大规模无人机集群飞行方法。
CN202210310624.8A 2022-03-28 2022-03-28 一种基于深度强化学习的大规模无人机集群飞行方法 Pending CN114578860A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210310624.8A CN114578860A (zh) 2022-03-28 2022-03-28 一种基于深度强化学习的大规模无人机集群飞行方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210310624.8A CN114578860A (zh) 2022-03-28 2022-03-28 一种基于深度强化学习的大规模无人机集群飞行方法

Publications (1)

Publication Number Publication Date
CN114578860A true CN114578860A (zh) 2022-06-03

Family

ID=81777498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210310624.8A Pending CN114578860A (zh) 2022-03-28 2022-03-28 一种基于深度强化学习的大规模无人机集群飞行方法

Country Status (1)

Country Link
CN (1) CN114578860A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115507852A (zh) * 2022-09-07 2022-12-23 广东工业大学 一种基于区块链和强化注意力学习的多无人机路径规划方法
CN117826867A (zh) * 2024-03-04 2024-04-05 之江实验室 无人机集群路径规划方法、装置和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115507852A (zh) * 2022-09-07 2022-12-23 广东工业大学 一种基于区块链和强化注意力学习的多无人机路径规划方法
CN115507852B (zh) * 2022-09-07 2023-11-03 广东工业大学 一种基于区块链和强化注意力学习的多无人机路径规划方法
CN117826867A (zh) * 2024-03-04 2024-04-05 之江实验室 无人机集群路径规划方法、装置和存储介质

Similar Documents

Publication Publication Date Title
JP7066546B2 (ja) 航空機を自律的に操縦する方法及びシステム
Wang et al. A reinforcement learning approach for UAV target searching and tracking
CN112015174B (zh) 一种多agv运动规划方法、装置和系统
CN114578860A (zh) 一种基于深度强化学习的大规模无人机集群飞行方法
CN108594858B (zh) 马尔科夫运动目标的无人机搜索方法及装置
JP2021515724A (ja) 自動運転車において3dcnnネットワークを用いてソリューション推断を行うlidar測位
CN111142557A (zh) 无人机路径规划方法、系统、计算机设备及可读存储介质
CN112711271B (zh) 基于深度强化学习的自主导航无人机功率优化方法
Behjat et al. Learning reciprocal actions for cooperative collision avoidance in quadrotor unmanned aerial vehicles
CN111414006B (zh) 基于分布式顺次分配的无人机集群侦察任务规划方法
Yang et al. Fault tolerant control using Gaussian processes and model predictive control
Pandey et al. Aerial path planning using meta-heuristics: A survey
CN113110546A (zh) 一种基于离线强化学习的无人机自主飞行控制方法
Long et al. A multi-subpopulation bacterial foraging optimisation algorithm with deletion and immigration strategies for unmanned surface vehicle path planning
CN116679751A (zh) 考虑飞行约束的多飞行器协同搜索方法
Xue et al. Multi-agent deep reinforcement learning for uavs navigation in unknown complex environment
Barták et al. Using machine learning to identify activities of a flying drone from sensor readings
CN109003329A (zh) 一种目标货物堆监控设备及存储介质
US20210398014A1 (en) Reinforcement learning based control of imitative policies for autonomous driving
Khamis et al. Deep learning for unmanned autonomous vehicles: A comprehensive review
Brunskill et al. Provably efficient learning with typed parametric models
Lee et al. Autopilot design for unmanned combat aerial vehicles (UCAVs) via learning-based approach
Hensel et al. Object Detection and Mapping with Unmanned Aerial Vehicles Using Convolutional Neural Networks
CN110536266B (zh) 无人机编队通信能耗的周期性在线均衡方法和装置
Khaleghi et al. Analysis of uav/ugv control strategies in a dddams-based surveillance system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination