CN116360504B - 无人机集群任务的确定方法、装置、电子设备及存储介质 - Google Patents
无人机集群任务的确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116360504B CN116360504B CN202310628463.1A CN202310628463A CN116360504B CN 116360504 B CN116360504 B CN 116360504B CN 202310628463 A CN202310628463 A CN 202310628463A CN 116360504 B CN116360504 B CN 116360504B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- function
- control strategy
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000006870 function Effects 0.000 claims abstract description 348
- 238000011217 control strategy Methods 0.000 claims abstract description 166
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 230000002787 reinforcement Effects 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims description 163
- 238000010276 construction Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 101100001674 Emericella variicolor andI gene Proteins 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 16
- 230000007704 transition Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
Abstract
本申请提供了一种无人机集群任务的确定方法、装置、电子设备及存储介质,涉及无人机技术领域,基于无人机集群的飞行状态量,构建预测无人机集群的至少一个网络参数;结合无人机集群的飞行状态量和至少一个网络参数,拟合得到无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数;参考强化学习算法,基于预先构建的无人机集群的目标价值函数,结合飞行状态量、执行代价函数、控制策略函数以及等效扰动参数函数,构建无人机集群的贝尔曼方程;通过转换贝尔曼方程,确定无人机集群的权值求解函数;迭代求解权值求解函数,确定每个无人机的目标任务控制策略。这样,可以实现无人机集群任务控制策略的准确预测,可以提高预测结果的准确性。
Description
技术领域
本申请涉及无人机技术领域,尤其是涉及一种无人机集群任务的确定方法、装置、电子设备及存储介质。
背景技术
一般而言,无人集群在执行复杂任务时,由于其机群规模庞大、个体优势区间不同,要求构建合理的任务分配算法提高机群任务执行效率,实现资源的合理配置。无人机集群任务分配算法的一般流程是:根据任务环境的不同,构建评价集群总体任务执行情况的指标,同时将各项约束转化为数学模型,引入优化算法求解在指标参数取极值时的分配方案。
目前,由于,无人机集群的规模效应以及个体资源的不对称性,加上无人机模型的高度非线性、外界扰动带来的模型参数不确定性,导致现有算法难以求解最优的控制策略和任务执行代价,因此难以实现指标最优性。
发明内容
有鉴于此,本申请的目的在于提供一种无人机集群任务的确定方法、装置、电子设备及存储介质,通过构建无人机集群权值求解函数,可以在不依赖于函数所涉及参数的前提下,实现无人机集群任务控制策略的准确预测,有助于提高预测结果的准确性。
本申请实施例提供了一种无人机集群任务的确定方法,所述确定方法包括:
参考获取到的无人机集群的飞行状态量,构建用于确定所述无人机集群的目标任务控制策略的至少一个网络参数;其中,所述飞行状态量包括每个无人机的当前飞行状态量以及期望飞行状态量;
利用所述至少一个网络参数和所述飞行状态量,分别拟合确定所述无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数 ;
参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程;
利用克罗内克积分,对所述贝尔曼方程进行转换,并通过重构所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数所涉及的至少一个权值矩阵,确定所述无人机集群的权值求解函数 ;
基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值;
基于所述至少一个权值矩阵的目标矩阵值、所述飞行状态量以及所述至少一个网络参数的目标参数值,确定所述无人机集群的最优控制策略集;其中,所述最优控制策略集中包括每个无人机的至少一个候选任务控制策略以及每个候选任务控制策略对应的任务执行代价;
基于每个候选任务控制策略对应的任务执行代价,从每个无人机的至少一个候选任务控制策略中确定出该无人机满足预定条件的目标任务控制策略。
在一种可能的实施方式中,所述参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程,包括:
将所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,代入所述无人机集群的目标价值函数,并通过对所述目标价值函数进行积分,得到所述无人机集群的贝尔曼方程。
在一种可能的实施方式中,通过以下步骤构建所述无人机集群的目标价值函数:
参考最优传输理论,在考虑外界环境对所述无人机集群造成的扰动干扰的情况下,构建用于评价无人机追及任务过程的初始价值函数;
基于强化学习算法,定义所述初始价值函数中的用于表征所述扰动干扰的惩罚函数;
基于所述惩罚函数和所述初始价值函数,构建所述无人机集群对应的哈密顿函数;
确定满足所述哈密顿函数的最优价值函数;
通过对所述最优价值函数求偏导 ,确定所述无人机集群的目标价值函数。
在一种可能的实施方式中,所述通过对所述最优价值函数求偏导,确定所述无人机集群的目标价值函数,包括:
对所述哈密顿函数进行求解,确定所述无人机集群的最优控制策略函数 ;
将转变形式后的所述最优控制策略函数代入求偏导后的所述最优价值函数,确定所述无人机集群的目标价值函数。
在一种可能的实施方式中,所述基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值,包括:
基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,直至此次迭代得到的所述至少一个权值矩阵中每个元素的矩阵值,与上次迭代得到的矩阵值之间的差值小于或等于预设阈值为止,停止迭代求解;
将此次迭代得到的所述至少一个权值矩阵中每个元素的矩阵值以及所述至少一个网络参数中每个参数的参数值,确定为所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值。
在一种可能的实施方式中,所述确定方法还包括:
针对于所述无人机集群中的每个无人机,基于该无人机的目标任务控制策略,根据所述目标任务控制策略与该无人机的三轴姿态角之间的对应关系,确定该无人机的目标姿态角;其中,所述目标姿态角至少包括滚转角、俯仰角以及偏航角。
在一种可能的实施方式中,所述确定方法还包括:
参考无人机动力学模型,确定该无人机每个螺旋桨的桨叶转速与所述目标姿态角之间的转换关系;
基于该无人机的目标姿态角,依据所述转换关系,确定该无人机每个螺旋桨的桨叶转速;
基于每个螺旋桨的螺旋桨转速,确定该无人机的外部推力及桨叶扭转力矩矩阵。
本申请实施例还提供了一种无人机集群任务的确定装置,所述确定装置包括:
参数构建模块,用于参考获取到的无人机集群的飞行状态量,构建用于确定所述无人机集群的目标任务控制策略的至少一个网络参数;其中,所述飞行状态量包括每个无人机的当前飞行状态量以及期望飞行状态量;
函数拟合模块,用于利用所述至少一个网络参数和所述飞行状态量,分别拟合确定所述无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数 ;
方程构建模块,用于参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程;
函数确定模块,用于利用克罗内克积分,对所述贝尔曼方程进行转换,并通过重构所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数所涉及的至少一个权值矩阵,确定所述无人机集群的权值求解函数 ;
参数求解模块,用于基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值;
策略集确定模块,用于基于所述至少一个权值矩阵的目标矩阵值、所述飞行状态量以及所述至少一个网络参数的目标参数值,确定所述无人机集群的最优控制策略集;其中,所述最优控制策略集中包括每个无人机的至少一个候选任务控制策略以及每个候选任务控制策略对应的任务执行代价;
目标策略确定模块,用于基于每个候选任务控制策略对应的任务执行代价,从每个无人机的至少一个候选任务控制策略中确定出该无人机满足预定条件的目标任务控制策略。
在一种可能的实施方式中,所述方程构建模块在用于参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程时,所述方程构建模块用于:
将所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,代入所述无人机集群的目标价值函数,并通过对所述目标价值函数进行积分,得到所述无人机集群的贝尔曼方程。
在一种可能的实施方式中,所述确定装置还包括价值函数构建模块,所述价值函数构建模块用于通过以下步骤构建所述无人机集群的目标价值函数:
参考最优传输理论,在考虑外界环境对所述无人机集群造成的扰动干扰的情况下,构建用于评价无人机追及任务过程的初始价值函数;
基于强化学习算法,定义所述初始价值函数中的用于表征所述扰动干扰的惩罚函数;
基于所述惩罚函数和所述初始价值函数,构建所述无人机集群对应的哈密顿函数;
确定满足所述哈密顿函数的最优价值函数;
通过对所述最优价值函数求偏导,确定所述无人机集群的目标价值函数。
在一种可能的实施方式中,所述价值函数构建模块在用于通过对所述最优价值函数求偏导,确定所述无人机集群的目标价值函数时,所述价值函数构建模块用于:
对所述哈密顿函数进行求解,确定所述无人机集群的最优控制策略函数 ;
将转变形式后的所述最优控制策略函数代入求偏导后的所述最优价值函数,确定所述无人机集群的目标价值函数。
在一种可能的实施方式中,所述参数求解模块在用于基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值时,所述参数求解模块用于:
基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,直至此次迭代得到的所述至少一个权值矩阵中每个元素的矩阵值,与上次迭代得到的矩阵值之间的差值小于或等于预设阈值为止,停止迭代求解;
将此次迭代得到的所述至少一个权值矩阵中每个元素的矩阵值以及所述至少一个网络参数中每个参数的参数值,确定为所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值。
在一种可能的实施方式中,所述确定装置还包括姿态角确定模块,所述姿态角确定模块用于:
针对于所述无人机集群中的每个无人机,基于该无人机的目标任务控制策略,根据所述目标任务控制策略与该无人机的三轴姿态角之间的对应关系,确定该无人机的目标姿态角;其中,所述目标姿态角至少包括滚转角、俯仰角以及偏航角。
在一种可能的实施方式中,所述确定装置还包括无人机参数确定模块,所述无人机参数确定模块用于:
参考无人机动力学模型,确定该无人机每个螺旋桨的桨叶转速与所述目标姿态角之间的转换关系;
基于该无人机的目标姿态角,依据所述转换关系,确定该无人机每个螺旋桨的桨叶转速;
基于每个螺旋桨的螺旋桨转速,确定该无人机的外部推力及桨叶扭转力矩矩阵。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的无人机集群任务的确定方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的无人机集群任务的确定方法的步骤。
本申请实施例提供的无人机集群任务的确定方法、装置、电子设备及存储介质,参考获取到的无人机集群的飞行状态量,构建用于确定所述无人机集群的目标任务控制策略的至少一个网络参数;利用所述至少一个网络参数和所述飞行状态量,分别拟合确定所述无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数;参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程;利用克罗内克积分,对所述贝尔曼方程进行转换,并通过重构所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数所涉及的至少一个权值矩阵,确定所述无人机集群的权值求解函数;基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值;基于所述至少一个权值矩阵的目标矩阵值、所述飞行状态量以及所述至少一个网络参数的目标参数值,确定所述无人机集群的最优控制策略集;基于每个候选任务控制策略对应的任务执行代价,从每个无人机的至少一个候选任务控制策略中确定出该无人机满足预定条件的目标任务控制策略。这样,便可以通过构建无人机集群权值求解函数,可以在不依赖于函数所涉及参数的前提下,实现无人机集群任务控制策略的准确预测,有助于提高预测结果的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种无人机集群任务的确定方法的流程图;
图2为本申请实施例所提供的一种参数收敛示意图;
图3为本申请实施例所提供的一种无人机集群的三维轨迹示意图;
图4为本申请实施例所提供的一种无人机任务执行代价随时间变化示意图;
图5为本申请实施例所提供的一种无人机集群位置误差随时间变化示意图;
图6为本申请实施例所提供的一种无人机集群姿态误差随时间变化示意图;
图7为本申请实施例所提供的一种无人机集群任务的确定装置的结构示意图之一;
图8为本申请实施例所提供的一种无人机集群任务的确定装置的结构示意图之二;
图9为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
经研究发现,目前,由于,无人机集群的规模效应以及个体资源的不对称性,加上无人机模型的高度非线性、外界扰动带来的模型参数不确定性,导致现有算法难以求解最优的控制策略和任务执行代价,因此难以实现指标最优性。
基于此,本申请实施例提供了一种无人机集群任务的确定方法,可以提高无人机集群的任务控制策略预测结果的准确性,以辅助无人机集群中的无人机及时地转换为期望状态。
请参阅图1,图1为本申请实施例所提供的一种无人机集群任务的确定方法的流程图。如图1中所示,本申请实施例提供的无人机集群任务的确定方法,包括:
S101、参考获取到的无人机集群的飞行状态量,构建用于确定所述无人机集群的目标任务控制策略的至少一个网络参数。
S102、利用所述至少一个网络参数和所述飞行状态量,分别拟合确定所述无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数。
S103、参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程。
S104、利用克罗内克积分,对所述贝尔曼方程进行转换,并通过重构所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数所涉及的至少一个权值矩阵,确定所述无人机集群的权值求解函数。
S105、基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值。
S106、基于所述至少一个权值矩阵的目标矩阵值、所述飞行状态量以及所述至少一个网络参数的目标参数值,确定所述无人机集群的最优控制策略集。
S107、基于每个候选任务控制策略对应的任务执行代价,从每个无人机的至少一个候选任务控制策略中确定出该无人机满足预定条件的目标任务控制策略。
本申请实施例所提供的一种无人机集群任务的确定方法,基于获取到的无人机集群的飞行状态量,构建预测无人机集群的目标任务控制策略所需的至少一个网络参数,并赋予每个网络参数相应的初始值;结合无人机集群的飞行状态量和至少一个网络参数,拟合得到无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数,以在预测无人机控制策略的过程中,对无人机集群所受到的外界扰动量加以考虑;并参考强化学习算法,基于预先构建的无人机集群的目标价值函数,并结合飞行状态量、执行代价函数、控制策略函数以及等效扰动参数函数,构建无人机集群的贝尔曼方程;通过转换无人机集群的贝尔曼方程,确定所述无人机集群的权值求解函数;进而,可以通过迭代求解权值求解函数,以确定出每个无人机的至少一个候选任务控制策略以及每个候选任务控制策略对应的任务执行代价;并结合每个候选任务控制策略对应的任务执行代价,确定出每个无人机的目标任务控制策略。这样,便可以通过构建无人机集群权值求解函数,可以在不依赖于函数所涉及参数的前提下,实现无人机集群任务控制策略的准确预测,有助于提高预测结果的准确性。
在步骤S101中,为了对无人机集群的目标任务控制策略进行预估,首先,获取无人机集群的飞行状态向量;这里,为无人机i的期望飞行状态量,x pi为无人机i的当前飞行状态量。
其次,参考于获取到的无人机集群的飞行状态量,构建后续强化学习算法所需要依赖的网络参数;即,构建用于确定无人机集群的目标任务控制策略的至少一个网络参数;其中,至少一个网络参数包括第一网络参数、第二网络参数πxx以及第三网络参数。
假设:
;
其中,表示下文所提及的矩阵中第行第列的参数,为飞行状态量中各项组合而成的多项式方程。
在步骤S102中,利用预先构建的至少一个网络参数和所述飞行状态量,通过构造神经网络,利用状态多项式x(t)实现对无人机集群所涉及各个参数(执行代价、控制策略以及等效扰动参数等)的拟合,分别拟合确定无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数。
具体的,执行代价函数、控制策略函数以及等效扰动参数函数分别为:
;
其中,x(t)为飞行状态量中各项组成的行向量,和均为飞行状态量中各项组合而成的多项式方程,且、以及为权值矩阵。
这里,基于强化学习算法所构建得到的无人机集群的目标价值函数,依赖于函数本身所涉及的一些参数,这些,参数需通过大量的实验来确定,由于,函数的高度非线性以及函数参数的不确定性,导致无法直接利用构建的目标价值函数实现无人机集群最优控制策略的确定;因此,为了能够快速地确定无人机集群的最优控制策略集,还需进一步地对目标价值函数进行处理,以构建一种不依赖函数参数的求解方法。
在步骤S103中,参考强化学习算法,利用飞行状态量、执行代价函数、控制策略函数以及等效扰动参数函数,对无人机集群的目标价值函数进行处理,构建得到无人机集群的贝尔曼方程。
在一种实施方式中,步骤S103包括:将所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,代入所述无人机集群的目标价值函数,并通过对所述目标价值函数进行积分,得到所述无人机集群的贝尔曼方程。
该步骤中,将预先构建的飞行状态量、执行代价函数、控制策略函数以及等效扰动参数函数,代入无人机集群的目标价值函数中,并在目标价值函数的两侧同乘系数“”后,通过对目标价值函数进行积分,得到无人机集群的贝尔曼方程。
具体的,无人机集群的贝尔曼方程为:
;
在一种实施方式中,通过以下步骤构建所述无人机集群的目标价值函数:
步骤1、参考最优传输理论,在考虑外界环境对所述无人机集群造成的扰动干扰的情况下,构建用于评价无人机追及任务过程的初始价值函数。
该步骤中,无人机集群层面的追及任务分配可以结合最优传输理论建模。该理论定义了为一个具有单纯形权重的概率单纯形,即:
;
基于无人机个体的位置信息定义离散测度以及单纯形权重,则离散测度可表示为:
;
其中,是无人机位置信息的狄拉克量。
进一步的,定义表示无人机集群评价指标的测度从无人机集群中每个无人机的当前飞行状态(即N状态)至期望飞行状态(即M状态)进行表示:和,其中,,为各无人机的加权系数,则在DOT理论中,蒙戈问题就是求解映射关系,即求解无人机从N状态转变至M状态,需满足:
;
在无人机集群任务分配问题中,求解集群层面上的最优策略等价于求解蒙戈问题的映射关系。对于上述步骤中所描述的无人机系统以及位置控制器形式,若以描述其状态空间,以表示其满足的动力学模型约束,对应蒙戈问题求解的映射关系,则可以确定反馈控制律实现完成任务需要的状态转移,所确定的控制律可描述为:
;
其中,为观测方程的映射关系,它代表着经过时间,无人机在满足动力学方程的约束下,实现状态的转移,此过程可确定状态转移所需的控制策略。
若以无人机集群的总任务代价为评价标准,在此基础上,额外考虑无人机状态的转移所需要的控制量最小,则可以将无人机的最优控制策略表示为:
;
上述最优控制策略公式表示的是无人机执行最优控制策略满足状态转移任务的前提下控制量最小,以表示任务全过程时间,无人机集群的总任务执行代价可定义为:
;
以此,可将无人机集群任务分配问题转化为在强非线性、外界扰动导致的参数不确定性影响下求解u i *和V *。
参考适用于无人机的最优传输理论,在构建评价无人机追及任务过程的函数时,进一步地对无人机集群所处的外界环境对无人机集群造成的扰动干扰加以考虑,构建得到用于评价无人机追及任务过程的初始价值函数。
具体的,无人机集群的初始价值函数为:
;
其中,为收敛速度控制参数,为扰动干扰对应的惩罚函数,τ为。
步骤2、基于强化学习算法,定义所述初始价值函数中的用于表征所述扰动干扰的惩罚函数。
该步骤中,参考与强化学习算法,对无人机集群的初始价值函数中所涉及的惩罚函数进行定义;具体的,惩罚函数定义为:
;
其中,为期望状态下无人机的状态偏差量,为无人机的任务控制策略,为无人机受到的外界扰动干扰参数。
步骤3、基于所述惩罚函数和所述初始价值函数,构建所述无人机集群对应的哈密顿函数。
该步骤中,在明确了无人机的初始价值函数和惩罚函数后,利用惩罚函数和初始价值函数,构建无人机集群对应的哈密顿函数;具体的,哈密顿函数为:
;
步骤4、确定满足所述哈密顿函数的最优价值函数。
该步骤中,在哈密顿函数中,可以确定满足哈密顿函数的最优价值函数V pi *;具体的,最优价值函数为:
;
这里,在不存在不确定参数(例如,外界扰动干扰参数等)时,则可以根据最优价值函数确定出无人机的最优控制策略为:
;
由于,高度非线性以及参数的不确定性的问题,导致最优控制策略是无法确定的,因此,无法直接求解和,进而,可以通过引入强化学习算法,对上述最优价值函数进行处理,构建一种不依赖函数参数的求解方法。
步骤5、通过对所述最优价值函数求偏导,确定所述无人机集群的目标价值函数。
该步骤中,通过对最优价值函数求偏导,将函数中所涉及的不确定参数,通过求偏导的方式进行处理,之后的转化过程用神经网络代替,以此,确定无人机集群的目标价值函数,之后再重新通过积分的形式转化回来。
在一种实施方式中,步骤5包括:
步骤51、对所述哈密顿函数进行求解,确定在所述无人机集群的最优控制策略函数;将转变形式后的所述最优控制策略函数代入求偏导后的所述最优价值函数,确定所述无人机集群的目标价值函数。
该步骤中,首先,对最优价值函数求偏导,可得:
;
进一步的,考虑到,对求偏导后的最优价值函数进行简化,可得如下形式:
;
对哈密顿方程进行求解,确定无人机集群的最优控制策略函数,并转变最优控制策略函数的形式,得到转变形式后的最优控制策略函数:
;
将转变形式后的最优控制策略函数代入求偏导后的最优价值函数,确定无人机集群的目标价值函数:
;
在步骤S104中,利用克罗内克积分,对已构建的无人机集群的贝尔曼方程进行转换,并通过重构执行代价函数、控制策略函数以及等效扰动参数函数所涉及的至少一个权值矩阵,确定无人机集群的权值求解函数。
具体的,利用克罗内克积分将贝尔曼方程进行如下转换:
;
同时,重构执行代价函数、控制策略函数以及等效扰动参数函数中所涉及的至少一个权值矩阵,得到重构后的权值矩阵为:
;
基于重构后的权值矩阵和转换后的贝尔曼方程,确定无人机集群的权值求解函数:
;
在步骤S105中,为每个权值矩阵中的每个元素随机赋予初始值,得到每个权值矩阵的初始矩阵值;基于至少一个权值矩阵所具有的初始矩阵值,迭代求解权值求解函数,确定出至少一个权值矩阵所具有的目标矩阵值以及至少一个网络参数所具有的目标参数值。
在一种实施方式中,步骤S105包括:
S1051、基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,直至此次迭代得到的所述至少一个权值矩阵中每个元素的矩阵值,与上次迭代得到的矩阵值之间的差值小于或等于预设阈值为止,停止迭代求解。
该步骤中,在考虑无人机集群位置干扰扰动的影响下,给定无人机一个包含随机探索量的控制策略,针对于无人机需追击的每个目标,分别进行一次初始化;同时,采集更新无人机的飞行状态量、控制策略和等效扰动参数。
基于采集到的无人机的飞行状态量、控制策略、等效扰动参数、至少一个权值矩阵的初始矩阵值,迭代求解权值求解函数,在迭代求解过程中持续更新激励函数、控制策略以及等效扰动参数。
对于采集的控制策略以及等效扰动,利用强化学习迭代方程进行逼近求解,并同时求解激励函数、新的控制策略以及等效扰动参数。若且(为给定的正实数),则停止算法运行(如图2所示,图2为本申请实施例所提供的一种参数收敛示意图),并返回新的控制量以及等效扰动。
直至此次迭代得到的控制量以及等效扰动区域稳定为止,保证至少一个权值矩阵P n和K u中每个元素的矩阵值,与上次迭代得到的矩阵值之间的差值小于或等于预设阈值为止,停止迭代求解。
S1052、将此次迭代得到的所述至少一个权值矩阵中每个元素的矩阵值以及所述至少一个网络参数中每个参数的参数值,确定为所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值。
在步骤S106中,基于至少一个权值矩阵中的P n和K u的目标矩阵值、飞行状态量X pi以及至少一个网络参数中x(t)的目标参数值,确定无人机集群的最优控制策略集;其中,为第i架无人机追击目标j可执行的候选任务控制策略,为第i架无人机追击目标j执行候选任务控制策略所产生的任务执行代价。
具体的,通过以下公式求解候选任务控制策略和任务执行代价:
;
其中,、K u n+1为迭代得到的目标矩阵值,x(t)为迭代得到的目标参数值。
在步骤S107中,基于每个候选任务控制策略对应的任务执行代价,从每个无人机的至少一个候选任务控制策略中确定出该无人机满足预定条件的目标任务控制策略,以利用目标任务控制策略控制无人机对追击目标进行追击(如图3所示,图3为本申请实施例所提供的一种无人机集群的三维轨迹示意图)。
在一种实施方式中,所述确定方法还包括:针对于所述无人机集群中的每个无人机,基于该无人机的目标任务控制策略,根据所述目标任务控制策略与该无人机的三轴姿态角之间的对应关系,确定该无人机的目标姿态角。
这里,目标任务控制策对应的控制输入(即,目标姿态角)为:
;
其中,,,则无人机动力学模型可转化为如下形式:
;
进一步的,控制输入,等效扰动参数整合为。根据上式形式,构建无人机的位置控制器形式如下:
;
其中,为状态转移矩阵,为期望状态,为连续控制量,具体参数设置为强化学习算法待求。增广无人机i状态量为,则动力学方程可抽象为:
;
其中,,,,,。
一旦无人机的目标任务控制策略被确定,则可以根据目标任务控制策略与该无人机的目标姿态角之间的对应关系,计算得到该无人机的目标姿态角。
具体的,无人机的目标任务控制策略与三轴姿态角之间的对应关系为:
;
其中,所述目标姿态角至少包括滚转角、俯仰角以及偏航角,偏航角为定值。
在一种实施方式中,所述确定方法还包括:
步骤a、参考无人机动力学模型,确定该无人机每个螺旋桨的桨叶转速与所述目标姿态角之间的转换关系。
该步骤中,参考无人机动力学模型,通过重构无人机动力学模型,引入反馈控制律设计,目标任务控制策略所对应的控制输入量(即目标姿态角,滚转角、俯仰角以及偏航角)与无人机每个螺旋桨的桨叶转速,构成如下关系:
;
步骤b、基于该无人机的目标姿态角,依据所述转换关系,确定该无人机每个螺旋桨的桨叶转速。
步骤c、基于每个螺旋桨的螺旋桨转速,确定该无人机的外部推力及桨叶扭转力矩矩阵。
该步骤中,考虑地球固定惯性坐标系为,无人机惯性坐标系为。代表地球固定惯性坐标系下的无人机位置向量,表示目标姿态角,分别为滚转角、俯仰角以及偏航角。无人机i的动力学模型可建模如下:
其中,M i表示第i架无人机的质量,代表惯性矩阵,为对阵的正定矩阵,为从本体坐标系到地球固定惯性坐标系的转换矩阵,为科氏项。在无人机本体坐标系下,推力,分别为外部推力和桨叶的扭转力矩。为定义在下作用于位姿方程的外部扰动,为定义在下作用于姿态方程的外部扰动。将无人机所受外力、外力矩整合,则和具体定义如下:
其中,表示重力系数,为无人机的螺旋桨转速,l ti,以及为无人机i的比例因子。
示例性的,对4个无人机个体组成的集群系统进行仿真试验,以验证所开发任务分配方法的有效性,设系统内各编号为各无人机的非线性模型已被详细介绍,各无人机i的质量、重力常量和惯性参数被设为:,,,;,,,,。
为了模拟参数不确定性引起的外部动态扰动,构造虚拟环境:和。动力学模型中的姿态输入矩阵定义为,位置输入矩阵定义为。在位置控制器中,,是强化学习算法中作为的固定控制策略。权重矩阵被设计为,和。时间间隔T定义为。位置控制器的形式是一个标准的比例导数(PD)控制器,利用四旋翼的位置和速度,当前状态和目标状态。探测噪声信号选取为多个正弦信号的叠加。
定义一组5个待跟踪目标,目标的动态为规则的螺旋线。目标设置随机的初始位置和m,m,m,m。目标的初始速度都设置为,初始欧拉角为和。各无人机随机的初始位置定义为m,m,m,m,其他初始条件与目标相一致(请参阅图4至图6,图4为本申请实施例所提供的一种无人机任务执行代价随时间变化示意图;图5为本申请实施例所提供的一种无人机集群位置误差随时间变化示意图;图6为本申请实施例所提供的一种无人机集群姿态误差随时间变化示意图。
本申请实施例提供的无人机集群任务的确定方法,参考获取到的无人机集群的飞行状态量,构建用于确定所述无人机集群的目标任务控制策略的至少一个网络参数;利用所述至少一个网络参数和所述飞行状态量,分别拟合确定所述无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数;参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程;利用克罗内克积分,对所述贝尔曼方程进行转换,并通过重构所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数所涉及的至少一个权值矩阵,确定所述无人机集群的权值求解函数;基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值;基于所述至少一个权值矩阵的目标矩阵值、所述飞行状态量以及所述至少一个网络参数的目标参数值,确定所述无人机集群的最优控制策略集;基于每个候选任务控制策略对应的任务执行代价,从每个无人机的至少一个候选任务控制策略中确定出该无人机满足预定条件的目标任务控制策略。这样,便可以通过构建无人机集群权值求解函数,可以在不依赖于函数所涉及参数的前提下,实现无人机集群任务控制策略的准确预测,有助于提高预测结果的准确性。
请参阅图7、图8,图7为本申请实施例所提供的一种无人机集群任务的确定装置的结构示意图之一,图8为本申请实施例所提供的一种无人机集群任务的确定装置的结构示意图之二。如图7中所示,所述确定装置700包括:
参数构建模块701,用于参考获取到的无人机集群的飞行状态量,构建用于确定所述无人机集群的目标任务控制策略的至少一个网络参数;其中,所述飞行状态量包括每个无人机的当前飞行状态量以及期望飞行状态量;
函数拟合模块702,用于利用所述至少一个网络参数和所述飞行状态量,分别拟合确定所述无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数;
方程构建模块703,用于参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程;
函数确定模块704,用于利用克罗内克积分,对所述贝尔曼方程进行转换,并通过重构所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数所涉及的至少一个权值矩阵,确定所述无人机集群的权值求解函数 ;
参数求解模块705,用于基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值;
策略集确定模块706,用于基于所述至少一个权值矩阵的目标矩阵值、所述飞行状态量以及所述至少一个网络参数的目标参数值,确定所述无人机集群的最优控制策略集;其中,所述最优控制策略集中包括每个无人机的至少一个候选任务控制策略以及每个候选任务控制策略对应的任务执行代价;
目标策略确定模块707,用于基于每个候选任务控制策略对应的任务执行代价,从每个无人机的至少一个候选任务控制策略中确定出该无人机满足预定条件的目标任务控制策略。
进一步的,所述方程构建模块703在用于参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程时,所述方程构建模块703用于:
将所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,代入所述无人机集群的目标价值函数,并通过对所述目标价值函数进行积分,得到所述无人机集群的贝尔曼方程。
进一步的,如图8所示,所述确定装置700还包括价值函数构建模块708,所述价值函数构建模块708用于通过以下步骤构建所述无人机集群的目标价值函数:
参考最优传输理论,在考虑外界环境对所述无人机集群造成的扰动干扰的情况下,构建用于评价无人机追及任务过程的初始价值函数;
基于强化学习算法,定义所述初始价值函数中的用于表征所述扰动干扰的惩罚函数;
基于所述惩罚函数和所述初始价值函数,构建所述无人机集群对应的哈密顿函数;
确定满足所述哈密顿函数的最优价值函数;
通过对所述最优价值函数求偏导,确定所述无人机集群的目标价值函数。
进一步的,所述价值函数构建模块708在用于通过对所述最优价值函数求偏导,确定所述无人机集群的目标价值函数时,所述价值函数构建模块708用于:
对所述哈密顿函数进行求解,确定所述无人机集群的最优控制策略函数 ;
将转变形式后的所述最优控制策略函数代入求偏导后的所述最优价值函数,确定所述无人机集群的目标价值函数。
进一步的,所述参数求解模块705在用于基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值时,所述参数求解模块705用于:
基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,直至此次迭代得到的所述至少一个权值矩阵中每个元素的矩阵值,与上次迭代得到的矩阵值之间的差值小于或等于预设阈值为止,停止迭代求解;
将此次迭代得到的所述至少一个权值矩阵中每个元素的矩阵值以及所述至少一个网络参数中每个参数的参数值,确定为所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值。
进一步的,如图8所示,所述确定装置700还包括姿态角确定模块709,所述姿态角确定模块709用于:
针对于所述无人机集群中的每个无人机,基于该无人机的目标任务控制策略,根据所述目标任务控制策略与该无人机的三轴姿态角之间的对应关系,确定该无人机的目标姿态角;其中,所述目标姿态角至少包括滚转角、俯仰角以及偏航角。
进一步的,如图8所示,所述确定装置700还包括无人机参数确定模块710,所述无人机参数确定模块710用于:
参考无人机动力学模型,确定该无人机每个螺旋桨的桨叶转速与所述目标姿态角之间的转换关系;
基于该无人机的目标姿态角,依据所述转换关系,确定该无人机每个螺旋桨的桨叶转速;
基于每个螺旋桨的螺旋桨转速,确定该无人机的外部推力及桨叶扭转力矩矩阵。
本申请实施例提供的无人机集群任务的确定装置,参考获取到的无人机集群的飞行状态量,构建用于确定所述无人机集群的目标任务控制策略的至少一个网络参数;利用所述至少一个网络参数和所述飞行状态量,分别拟合确定所述无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数;参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程;利用克罗内克积分,对所述贝尔曼方程进行转换,并通过重构所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数所涉及的至少一个权值矩阵,确定所述无人机集群的权值求解函数;基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值;基于所述至少一个权值矩阵的目标矩阵值、所述飞行状态量以及所述至少一个网络参数的目标参数值,确定所述无人机集群的最优控制策略集;基于每个候选任务控制策略对应的任务执行代价,从每个无人机的至少一个候选任务控制策略中确定出该无人机满足预定条件的目标任务控制策略。这样,便可以通过构建无人机集群权值求解函数,可以在不依赖于函数所涉及参数的前提下,实现无人机集群任务控制策略的准确预测,有助于提高预测结果的准确性。
请参阅图9,图9为本申请实施例所提供的一种电子设备的结构示意图。如图9中所示,所述电子设备900包括处理器910、存储器920和总线930。
所述存储器920存储有所述处理器910可执行的机器可读指令,当电子设备900运行时,所述处理器910与所述存储器920之间通过总线930通信,所述机器可读指令被所述处理器910执行时,可以执行如上述图1所示方法实施例中的无人机集群任务的确定方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的无人机集群任务的确定方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种无人机集群任务的确定方法,其特征在于,所述确定方法包括:
参考获取到的无人机集群的飞行状态量,构建用于确定所述无人机集群的目标任务控制策略的至少一个网络参数;其中,所述飞行状态量包括每个无人机的当前飞行状态量以及期望飞行状态量;
利用所述至少一个网络参数和所述飞行状态量,分别拟合确定所述无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数;
参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程;
利用克罗内克积分,对所述贝尔曼方程进行转换,并通过重构所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数所涉及的至少一个权值矩阵,确定所述无人机集群的权值求解函数;
基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值;
基于所述至少一个权值矩阵的目标矩阵值、所述飞行状态量以及所述至少一个网络参数的目标参数值,确定所述无人机集群的最优控制策略集;其中,所述最优控制策略集中包括每个无人机的至少一个候选任务控制策略以及每个候选任务控制策略对应的任务执行代价;
基于每个候选任务控制策略对应的任务执行代价,从每个无人机的至少一个候选任务控制策略中确定出该无人机满足预定条件的目标任务控制策略;
执行代价函数、控制策略函数以及等效扰动参数函数分别为:
;
其中,为无人机i的当前飞行状态量,、以及为权值矩阵;
无人机集群的目标价值函数为:
;
其中,为期望状态下无人机的状态偏差量,为无人机的任务控制策略,为无人机受到的外界扰动干扰参数;
无人机集群的权值求解函数:
;
其中,πxx为第二网络参数,、K u n+1为迭代得到的目标矩阵值,Q u以及Q Δ为重构后的权值矩阵。
2.根据权利要求1所述的确定方法,其特征在于,所述参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程,包括:
将所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,代入所述无人机集群的目标价值函数,并通过对所述目标价值函数进行积分,得到所述无人机集群的贝尔曼方程。
3.根据权利要求1或2所述的确定方法,其特征在于,通过以下步骤构建所述无人机集群的目标价值函数:
参考最优传输理论,在考虑外界环境对所述无人机集群造成的扰动干扰的情况下,构建用于评价无人机追及任务过程的初始价值函数;
基于强化学习算法,定义所述初始价值函数中的用于表征所述扰动干扰的惩罚函数;
基于所述惩罚函数和所述初始价值函数,构建所述无人机集群对应的哈密顿函数;
确定满足所述哈密顿函数的最优价值函数;
通过对所述最优价值函数求偏导,确定所述无人机集群的目标价值函数。
4.根据权利要求3所述的确定方法,其特征在于,所述通过对所述最优价值函数求偏导,确定所述无人机集群的目标价值函数,包括:
对所述哈密顿函数进行求解,确定所述无人机集群的最优控制策略函数;
将转变形式后的所述最优控制策略函数代入求偏导后的所述最优价值函数,确定所述无人机集群的目标价值函数。
5.根据权利要求1所述的确定方法,其特征在于,所述基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值,包括:
基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,直至此次迭代得到的所述至少一个权值矩阵中每个元素的矩阵值,与上次迭代得到的矩阵值之间的差值小于或等于预设阈值为止,停止迭代求解;
将此次迭代得到的所述至少一个权值矩阵中每个元素的矩阵值以及所述至少一个网络参数中每个参数的参数值,确定为所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值。
6.根据权利要求1所述的确定方法,其特征在于,所述确定方法还包括:
针对于所述无人机集群中的每个无人机,基于该无人机的目标任务控制策略,根据所述目标任务控制策略与该无人机的三轴姿态角之间的对应关系,确定该无人机的目标姿态角;其中,所述目标姿态角至少包括滚转角、俯仰角以及偏航角。
7.根据权利要求6所述的确定方法,其特征在于,所述确定方法还包括:
参考无人机动力学模型,确定该无人机每个螺旋桨的桨叶转速与所述目标姿态角之间的转换关系;
基于该无人机的目标姿态角,依据所述转换关系,确定该无人机每个螺旋桨的桨叶转速;
基于每个螺旋桨的螺旋桨转速,确定该无人机的外部推力及桨叶扭转力矩矩阵。
8.一种无人机集群任务的确定装置,其特征在于,所述确定装置包括:
参数构建模块,用于参考获取到的无人机集群的飞行状态量,构建用于确定所述无人机集群的目标任务控制策略的至少一个网络参数;其中,所述飞行状态量包括每个无人机的当前飞行状态量以及期望飞行状态量;
函数拟合模块,用于利用所述至少一个网络参数和所述飞行状态量,分别拟合确定所述无人机集群的执行代价函数、控制策略函数以及等效扰动参数函数 ;
方程构建模块,用于参考强化学习算法,基于所述无人机集群的目标价值函数,利用所述飞行状态量、所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数,构建所述无人机集群的贝尔曼方程;
函数确定模块,用于利用克罗内克积分,对所述贝尔曼方程进行转换,并通过重构所述执行代价函数、所述控制策略函数以及所述等效扰动参数函数所涉及的至少一个权值矩阵,确定所述无人机集群的权值求解函数 ;
参数求解模块,用于基于所述至少一个权值矩阵的初始矩阵值,迭代求解所述权值求解函数,确定所述至少一个权值矩阵的目标矩阵值以及所述至少一个网络参数的目标参数值;
策略集确定模块,用于基于所述至少一个权值矩阵的目标矩阵值、所述飞行状态量以及所述至少一个网络参数的目标参数值,确定所述无人机集群的最优控制策略集;其中,所述最优控制策略集中包括每个无人机的至少一个候选任务控制策略以及每个候选任务控制策略对应的任务执行代价;
目标策略确定模块,用于基于每个候选任务控制策略对应的任务执行代价,从每个无人机的至少一个候选任务控制策略中确定出该无人机满足预定条件的目标任务控制策略;
执行代价函数、控制策略函数以及等效扰动参数函数分别为:
;
其中,为无人机i的当前飞行状态量,、以及为权值矩阵;
无人机集群的目标价值函数为:
;
其中,为期望状态下无人机的状态偏差量,为无人机的任务控制策略,为无人机受到的外界扰动干扰参数;
无人机集群的权值求解函数:
;
其中,πxx为第二网络参数,、K u n+1为迭代得到的目标矩阵值,Q u以及Q Δ为重构后的权值矩阵。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的无人机集群任务的确定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的无人机集群任务的确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310628463.1A CN116360504B (zh) | 2023-05-31 | 2023-05-31 | 无人机集群任务的确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310628463.1A CN116360504B (zh) | 2023-05-31 | 2023-05-31 | 无人机集群任务的确定方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116360504A CN116360504A (zh) | 2023-06-30 |
CN116360504B true CN116360504B (zh) | 2023-10-27 |
Family
ID=86923324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310628463.1A Active CN116360504B (zh) | 2023-05-31 | 2023-05-31 | 无人机集群任务的确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116360504B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117826860B (zh) * | 2024-03-04 | 2024-06-21 | 北京航空航天大学 | 一种基于强化学习的固定翼无人机控制策略的确定方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109445456A (zh) * | 2018-10-15 | 2019-03-08 | 清华大学 | 一种多无人机集群导航方法 |
CN110514206A (zh) * | 2019-08-02 | 2019-11-29 | 中国航空无线电电子研究所 | 一种基于深度学习的无人机飞行路径预测方法 |
CN111625019A (zh) * | 2020-05-18 | 2020-09-04 | 天津大学 | 基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法 |
CN113485344A (zh) * | 2021-07-15 | 2021-10-08 | 北京航空航天大学 | 一种多智能体输出编队跟踪控制方法及系统 |
CN115826594A (zh) * | 2023-02-23 | 2023-03-21 | 北京航空航天大学 | 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法 |
CN115903901A (zh) * | 2022-11-25 | 2023-04-04 | 重庆邮电大学 | 内部状态未知的无人集群系统输出同步优化控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694365B (zh) * | 2020-07-01 | 2021-04-20 | 武汉理工大学 | 一种基于深度强化学习的无人船艇编队路径跟踪方法 |
-
2023
- 2023-05-31 CN CN202310628463.1A patent/CN116360504B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109445456A (zh) * | 2018-10-15 | 2019-03-08 | 清华大学 | 一种多无人机集群导航方法 |
CN110514206A (zh) * | 2019-08-02 | 2019-11-29 | 中国航空无线电电子研究所 | 一种基于深度学习的无人机飞行路径预测方法 |
CN111625019A (zh) * | 2020-05-18 | 2020-09-04 | 天津大学 | 基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法 |
CN113485344A (zh) * | 2021-07-15 | 2021-10-08 | 北京航空航天大学 | 一种多智能体输出编队跟踪控制方法及系统 |
CN115903901A (zh) * | 2022-11-25 | 2023-04-04 | 重庆邮电大学 | 内部状态未知的无人集群系统输出同步优化控制方法 |
CN115826594A (zh) * | 2023-02-23 | 2023-03-21 | 北京航空航天大学 | 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法 |
Non-Patent Citations (2)
Title |
---|
Guangyan Xu 等.UAV Multi-target Surveillance Cruise Trajectory Planning Based on DQN Algorithm.2022 China Automation Congress (CAC).2022,全文. * |
郑钰鹏 等.基于细菌避障策略的无人艇集群自主巡航方法.指挥控制与仿真.2023,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116360504A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2763058B1 (en) | Optimizing the design of physical structures/objects | |
CN116360504B (zh) | 无人机集群任务的确定方法、装置、电子设备及存储介质 | |
JP2005310114A (ja) | ソフト演算最適化装置を用いた自動二輪車のためのインテリジェントロバスト制御システム | |
CN111880412B (zh) | 基于单评判网络的可重构机器人零和神经最优控制方法 | |
Guo et al. | UAV flight control sensing enhancement with a data-driven adaptive fusion model | |
JP2020144484A (ja) | 強化学習方法、強化学習プログラム、および強化学習システム | |
CN115826594B (zh) | 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法 | |
Zhang et al. | An adaptive prognostic approach incorporating inspection influence for deteriorating systems | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
CN106546261A (zh) | 一种基于虚拟现实设备的角度数据补偿方法及装置 | |
CN114802817A (zh) | 一种基于多飞轮阵列的卫星姿态控制的方法以及装置 | |
CN108388229A (zh) | 基于健康度的四旋翼随机混杂系统健康评估方法 | |
Sisson et al. | Digital twin for component health-and stress-aware rotorcraft flight control | |
CN114083543A (zh) | 一种空间机械臂主动故障诊断方法 | |
CN117648548A (zh) | 基于离线-在线混合强化学习的智能决策方法和装置 | |
Yan et al. | Reinforcement learning-based integrated active fault diagnosis and tracking control | |
Agarwal et al. | Improving energy efficiency in UAV attitude control using deep reinforcement learning | |
Dong et al. | Global wavelet-integrated residual frequency attention regularized network for hypersonic flight vehicle fault diagnosis with imbalanced data | |
JP7188194B2 (ja) | 方策改善方法、方策改善プログラム、および方策改善装置 | |
Peng et al. | Chance-constrained sneaking trajectory planning for reconnaissance robots | |
CN116560401A (zh) | 一种无人机编队中僚机控制指令的确定方法及终端设备 | |
CN114020018B (zh) | 导弹控制策略的确定方法、装置、存储介质及电子设备 | |
He et al. | Multi-objective efficient global optimization of expensive simulation-based problem in presence of simulation failures | |
CN114935944A (zh) | 一种基于输出反馈q学习的固定翼无人机纵向控制方法 | |
Singh et al. | Randomized probabilistic approach for parametric uncertainties in unmanned helicopters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |