CN116301042A - 一种基于vgg16和虚拟博弈的无人机群自主控制方法 - Google Patents

一种基于vgg16和虚拟博弈的无人机群自主控制方法 Download PDF

Info

Publication number
CN116301042A
CN116301042A CN202310257728.1A CN202310257728A CN116301042A CN 116301042 A CN116301042 A CN 116301042A CN 202310257728 A CN202310257728 A CN 202310257728A CN 116301042 A CN116301042 A CN 116301042A
Authority
CN
China
Prior art keywords
unmanned aerial
game
aerial vehicle
action
expressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310257728.1A
Other languages
English (en)
Inventor
张海宾
靳咏雷
孙文
李晓军
王海涛
黄相喆
贾志娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310257728.1A priority Critical patent/CN116301042A/zh
Publication of CN116301042A publication Critical patent/CN116301042A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于VGG16和虚拟博弈的无人机群自主控制方法,无人机利用预先训练好的姿态识别模型识别博弈对手的历史移动信息,根据历史移动信息计算前一时刻博弈对手的策略倾向;之后无人机从待选动作集选择待选动作,根据博弈过程公式计算博弈对手选择该动作的策略倾向和策略概率;设计奖励函数,无人机基于得到的博弈对手的策略概率用最佳响应决策规则选择一个自身动作进行移动,并观察博弈对手的动作变化,直至整个无人机群趋于稳定状态,如此实现对周围多台无人机的分析和博弈。采用本发明的技术方案在遭遇信号干扰时,可以使部分无人机单元失控的情况下,自身无人机可以自行调整移动姿态,使系统集群整体保持相对稳定。

Description

一种基于VGG16和虚拟博弈的无人机群自主控制方法
技术领域
本发明属于无人机技术领域,具体涉及一种基于VGG16和虚拟博弈的无人机群自主控制方法。
背景技术
近年来,由于无人机技术的不断发展,无人机被用于合作执行各种复杂的任务,包括搜索、救援、安全巡逻等,无人机群被广泛应用于军事、抗洪抢险、抗震救灾和日常生活等场景中。但是,随着无人机群的广泛应用,也带来了无人机群控制难题。一方面,因为无人机被越来越多的应用于恶劣且复杂的场景中,在这些场景中,信号往往不稳定。另一方面,不法分子仅仅通过局部的信号干扰就可以致使部分无人机失去控制,从而使无人机出现失控炸机的现象。为避免该情况的发生,这就需要无人机在遇到短暂信号干扰而失去控制的条件下仍能自主控制飞行。
现如今,针对无人机的安全防御技术局限于单一领域的无人机安全防控,即无人机群通过安全防御技术能够有效检测和预防无人机的某种异常行为,但是面对致使无人机出现的异常行为的各种各样的手段,单一的安全防御已无法保证无人机群的正常运行。这就需要无人机在发生行为异常后,无人机群仍能保持正常运行。因此,将安全防御和无人机群自主控制技术相结合,使无人机群在面对信号干扰或异常行为时仍能够自主控制。但是,传统的无人机群控制技术反馈缓慢,无法及时响应无人机群任务的需求。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于VGG16和虚拟博弈的无人机群自主控制方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于VGG16和虚拟博弈的无人机群自主控制方法,应用于无人机群,无人机群中的任一无人机为博弈者,其他无人机为博弈对手,一种基于VGG16和虚拟博弈的无人机群自主控制方法包括:
步骤1,任一博弈者获取前一时刻博弈对手的运动图像;
步骤2,将运动图像预处理后送入训练好的姿态识别模型中,从而识别博弈对手在前一时刻的移动方向;
步骤3,获取预先设计的无人机的待选动作集;
步骤4,根据博弈对手在前一时刻的所有待选动作的策略倾向以及移动方向,计算博弈对手在当前时刻所有待选动作的策略倾向;
步骤5,根据每个博弈对象在当前时刻所有待选动作的策略倾向,计算当前时刻所有博弈对手选择某一待选动作的联合概率,并将所述联合概率转化为所有博弈对手在当前时刻最大可能的执行动作;
步骤6,设计奖励函数,基于所有博弈对手在当前时刻最大可能的执行动作选择使得奖励函数最大化的自身执行动作;
步骤7,博弈者按照自身执行动作飞行,继续观察博弈对手的动作变化;
步骤8,重复步骤1至步骤7,直至无人机群趋于稳定状态。
本发明的有益效果:
(1)本发明针对无人机信号不稳定的恶劣场景和信号干扰的攻击手段,在无人机群失去控制后可自主飞行,同时每个无人机都能够进行独立的计算和决策,具有良好的自主性,同时保护了个体隐私。
(2)本发明采用VGG16网络作为姿态识别模型,具有识别局限性小、迁移性好、占用计算资源低,可实现较大规模的无人机姿态的实时识别,这为在无人机基于扩展卡尔曼滤波器虚拟博弈的自主飞行控制模块中较快选取行动提供了基础。并且数据集采用的是多场景下的无人机飞行姿态,所以基于VGG16网络的飞行姿态识别模型在众多场景下具有较好的识别准确率。
(3)本发明的方法使得无人机能实时观察博弈对手的移动状态,不断迭代模型,所以在信号干扰情况下,无人机通过自主控制模块能够做出快速动态调整。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明提供的无人机自主飞行控制模型框架示意图;
图2是本发明提供的一种基于VGG16和虚拟博弈的无人机群自主控制方法的流程示意图;
图3是本发明提供的模拟30台无人机遭遇干扰后自主控制飞行场景示意图;
图4是本发明提供的VGG16网络的损失函数的示意图;
图5是本发明提供的VGG16网络的准确率的示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
本发明预先收集众多场景下的无人机姿态数据集,并在VGG16网络中进行模型训练。无人机飞行过程中通过无人机的摄像头收集集群中周围其他无人机姿态的数据集,将收集的数据集预处理后送入VGG16网络进行无人机姿态的识别;将识别的结果传输到无人机的自主飞行控制模块中,基于对周围多台无人机的分析和博弈,使无人机集群在遭遇信号干扰使部分无人机单元失控的情况下,该异常单元可以自行调整移动姿态,使系统集群整体保持相对稳定。
本发明主要分为基于VGG16网络的无人机群姿态识别模块和基于扩展卡尔曼滤波器虚拟博弈的无人机群自主飞行控制模块两部分,其中无人机群姿态识别模块负责信息的采集和识别,无人机自主飞行控制模块负责遭遇干扰或攻击后无人机的自主控制。无人机自主飞行模型框架如图1所示。
实施例一
本发明提供了一种基于VGG16和虚拟博弈的无人机群自主控制方法,应用于无人机群,无人机群中的任一无人机为博弈者,其他邻近无人机为博弈对手,包括:
步骤1,任一博弈者获取前一时刻博弈对手的运动图像;
步骤2,将运动图像预处理后送入训练好的姿态识别模型中,从而识别博弈对手在前一时刻的移动方向;
本发明将前一时刻的移动方向作为历史移动信息,预处理为对比度变换,将对比度变换之后的运动图像送入姿态识别模型。
本发明的步骤1至步骤2是由基于VGG16网络的无人机群姿态识别模块完成。无人机i在移动过程中记录其博弈对手j,即邻近无人机的移动方向并保存。
步骤3,获取预先设计的无人机的待选动作集;
步骤4,根据博弈对手在前一时刻的所有待选动作的策略倾向以及移动方向,计算博弈对手在当前时刻所有待选动作的策略倾向;
步骤5,根据每个博弈对象在当前时刻所有待选动作的策略倾向,计算当前时刻所有博弈对手选择某一待选动作的联合概率,并将所述联合概率转化为所有博弈对手在当前时刻最大可能的执行动作;
步骤6,设计奖励函数,基于所有博弈对手在当前时刻最大可能的执行动作选择使得奖励函数最大化的自身执行动作;
步骤7,博弈者按照自身执行动作飞行,继续观察博弈对手的动作变化;
步骤8,重复步骤1至步骤7,直至无人机群趋于稳定状态。
本发明中博弈者i重复步骤1-7直至无人机群趋于稳定状态,得到当前时刻所有博弈对手的所有可选动作策略倾向分布。
本发明步骤3至步骤8由基于扩展卡尔曼滤波器虚拟博弈的无人机群自主飞行控制模块完成。如图3所示,该模块利用Repast-Simphony模拟仿真软件构建二维平面上的30台无人机,测试并实现基于扩展卡尔曼滤波器虚拟博弈的无人机群自主飞行控制模块。
本发明提供了一种基于VGG16和虚拟博弈的无人机群自主控制方法,无人机利用预先训练好的姿态识别模型识别博弈对手的历史移动信息,根据历史移动信息计算前一时刻博弈对手的策略倾向;之后无人机从待选动作集选择待选动作,根据博弈过程公式计算博弈对手选择该动作的策略倾向和策略概率;设计奖励函数,无人机基于得到的博弈对手的策略概率用最佳响应决策规则选择一个自身动作进行移动,并观察博弈对手的动作变化,直至整个无人机群趋于稳定状态,如此实现对周围多台无人机的分析和博弈。采用本发明的技术方案在遭遇信号干扰时,可以使部分无人机单元失控的情况下,自身无人机可以自行调整移动姿态,使系统集群整体保持相对稳定。
实施例二
本发明基于VGG16网络的无人机群姿态识别模块去收集、预处理和数据分类过程。
所述姿态识别模型的训练过程为:
(1)预先采集无人机在多个场景下的历史运动视频,并对历史运动视频进行预处理;
数据收集:拍摄无人机在城市、草地、沙漠、戈壁、海洋等多个场景下的运动视频,将拍摄的无人机运动视频根据无人机的运动方向分类为“前”“后”“左”“右”“悬停”“左前”“左后”“右前”“右后”9种运动姿态。9种姿态不同场景的部分数据集。
数据集预处理:将拍摄的无人机运动视频转化为一帧一帧的静态图片,通过直方图均衡化方法对静态图片进行对比度变换,公式可表示为:
Figure BDA0004130213120000051
其中,n表示图像总像素个数,ni表示图像中灰度级为i的像素个数,k表示图像灰度级的级数。
(2)将预处理之后的运动视频分为训练数据集以及测试数据集;
本发明将预处理后的无人机的运动姿态数据集打乱顺序并分为训练数据集和校验数据集两类。
(3)获取预先构建的VGG16网络,并将该VGG16网络作为姿态识别模型;
所述VGG16网络其由13个卷积层、3个全连接层和5个池化层所组成;VGG16网络对数据集进行模型训练的损失率如图4所示,准确率如图5所示。
其中VGG16网络由13个卷积层、3个全连接层和5个池化层所组成。首先经过两次由64个3*3大小的卷积核组成的卷积层,步长为1,然后经过一次2*2大小的最大池化层,步长为2;再经过两次由128个3*3大小的卷积核组成的卷积层,步长为1,然后经过一次2*2大小的最大池化层,步长为2;再经过三次由256个3*3大小的卷积核组成的卷积层,步长为1,然后经过一次2*2大小的最大池化层,步长为2;再经过三次512个3*3卷积核大小的卷积层,步长为1,然后经过一次2*2大小的最大池化层,步长为2;再经过三次512个3*3卷积核大小的卷积层,步长为1,然后经过一次2*2大小的最大池化层,步长为2;之后经过3个全连接层;最后通过SoftMax回归分类器输出分类结果。
1)卷积层:实现局部连接和权值共享两个功能,极大减小了卷积过程中的参数量,卷积过程用公式可表示为:
f(x)=ω·x+b,
其中,x表示输入参数,ω表示权值参数,b表示偏置量,权值参数ω和偏置量b由反向传播算法不断迭代更新,至参数变化达到阈值停止;
2)池化层:将卷积层得到的特征矩阵通过max pooling的方法进行最大池化操作,然后经过ReLU激活函数输出,得到的输出结果作为下一层的输入;ReLU函数公式可表示为:
σ(x)=max(0,x),
其中,x表示为经过上一层得到的输出参数,ReLU函数的目的是避免参数中有负值;
3)全连接层:将经过13个卷积层和5个池化层得到的特征矩阵输入全连接层,全连接层进行全连接操作,表示为:
Figure BDA0004130213120000061
其中,xi表示经过卷积和池化操作后得到的第i个特征向量,ωji表示为第j个神经元在第i个特征参数上的权重,bj表示第j个神经元的偏置量;
4)SoftMax回归分类:将经过全连接层得到的特征向量送入分类器,由分类器进行无人机姿态类型的分类判断操作,经过SoftMax回归分类器得到的概率分布p输出,可用公式表示为:
Figure BDA0004130213120000071
其中,X表示为由全连接层得到的特征向量,ωj表示为模型的权重参数,
Figure BDA0004130213120000072
表示为概率分布P的归一化系数,j表示为全连接层对应的输出类型;
5)迭代优化:反向传播中使用交叉熵计算损失函数,采用Adam梯度下降优化算法进行权重参数ω和偏置量b的迭代优化:
损失函数f(ω)表示为:
Figure BDA0004130213120000073
其中,P表示为预测值的概率分布,Q表示目标值的概率分布,pj为P的子项,qj为Q的子项;
Adam梯度下降优化算法按照下述公式进行优化:
Figure BDA0004130213120000074
其中,t表示为迭代次数,ω表示为待优化参数,f(ω)表示为损失函数,α表示为学习率,gt表示损失函数的梯度值,mt表示一阶动量,β1表示一阶动量参数,Vt表示为二阶动量,β2表示为二阶动量参数,ηt表示为当前时刻的梯度。
(4)将训练数据集送入所述VGG16网络中进行姿态识别模型的训练,根据损失函数迭代优化训练过程;
(5)将所述测试数据集送入VGG16网络中进行模型校验,比较识别结果与实际标签从而确定所述VGG16网络的准确率;
将测试数据集送入VGG16网络中进行模型校验,比较识别结果与实际标签,测试通过VGG16训练得到的无人机飞行姿态识别模型的准确率能够达到99.83%。
(6)重复步骤4至步骤5的过程,直至VGG16网络达到准确率标准,获得训练好的VGG16网络。
实施例三
作为本发明一种可选的实施方式,步骤4包括:
步骤41,博弈者迭代计算博弈对手在前一时刻采取所有动作的策略倾向;
在当前时刻t,博弈者i基于连续玻尔兹曼方程的自回归模型迭代计算截至t-1时刻博弈对手j所有动作的策略倾向:
Figure BDA0004130213120000081
其中,i∈N,N={1,2,…,i,…,n},N表示无人机群的集合,n表示无人机的数量,
Figure BDA0004130213120000082
表示t-1时刻博弈者i的博弈对手j所有动作的策略倾向,αh表示h时刻的相关系数,ε(t-1)表示随机误差项。
步骤42,选择任一动作作为待选动作;
步骤43,根据前一时刻的移动方向以及策略倾向计算博弈对手在当前时刻选择所述待选动作的策略倾向。
步骤43包括:
博弈者i基于扩展卡尔曼滤波器计算t时刻博弈对手j选择某一待选动作a~的策略倾向
Figure BDA0004130213120000083
Figure BDA0004130213120000084
其中,
Figure BDA0004130213120000085
是博弈者i在t时刻的博弈过程中博弈对手j所有动作的策略倾向;/>
Figure BDA0004130213120000086
表示包含姿态信息的策略倾向噪声(即干扰因素);
博弈者与博弈对手的博弈过程用状态空间模型表示为:
Figure BDA0004130213120000091
其中,G为博弈过程,h为连续玻尔兹曼分量,
Figure BDA0004130213120000092
是均值为零的指示函数观察j倾向的误差,ζt服从N(0,P)分布,P为协方差矩阵。
实施例四
在一种具体的实施例中,步骤5包括:
步骤51,基于策略倾向
Figure BDA0004130213120000093
博弈者i通过连续玻尔兹曼分量/>
Figure BDA0004130213120000094
估计博弈对手j在t时刻选择某一待选动作/>
Figure BDA0004130213120000095
的策略概率/>
Figure BDA0004130213120000096
公式可表示为:
Figure BDA0004130213120000097
其中,τ表示连续玻尔兹曼方程中的熵值参数,Aj表示博弈者j的可选动作集合,数学描述为Aj={a1,a2,…,ai,…,aq},q表示博弈者j的可选动作数量,ai表示某一待选动作;Sj表示博弈者j在可选动作集合上的策略概率集合,数学描述为Sj={s1,s2,…,sj(ai),…sn(aq)},sj(ai)表示博弈者j选择动作ai的概率;
步骤52,计算无人机i所有博弈对手t时刻选择动作
Figure BDA0004130213120000098
的联合概率/>
Figure BDA0004130213120000099
公式可表示为:
Figure BDA00041302131200000910
其中,动作
Figure BDA00041302131200000911
包括:“前”“后”“左”“右”“悬停”“左前”“左后”“右前”“右后”9种待选动作。
步骤53,针对博弈对手j的每个待选动作均执行计算联合概率的过程,得到博弈对手j所有待选动作的联合概率;
步骤54,选择联合概率
Figure BDA00041302131200000912
最大的待选动作/>
Figure BDA00041302131200000913
作为博弈对手在当前时刻最大可能选择的执行动作/>
Figure BDA00041302131200000914
从而使得联合概率/>
Figure BDA00041302131200000915
转换为纯策略,可表示为如下公式:
Figure BDA00041302131200000916
其中,A为无人机单元的可选动作集,
Figure BDA00041302131200000917
为A中的任意可选动作。该转换方式有利于无人系统集群更大的概率选择相同的行动策略。
实施例五
作为本发明一种可选的实施例,步骤6包括:
设计博弈者i的奖励函数ri(si,s-i):
Figure BDA0004130213120000101
其中,
Figure BDA0004130213120000102
表示博弈者i动作集合Ai的待选动作,c表示惩罚系数,/>
Figure BDA0004130213120000103
表示博弈者i在选择动作/>
Figure BDA0004130213120000104
博弈对手选择动作/>
Figure BDA0004130213120000105
时的博弈收益,/>
Figure BDA0004130213120000106
表示博弈者i选择动作/>
Figure BDA0004130213120000107
的取值函数,当博弈者倾向于选择相同行动时,/>
Figure BDA0004130213120000108
博弈者倾向于选择不同行动时,/>
Figure BDA0004130213120000109
实施例六
作为本发明一种可选的实施例,步骤7包括:
步骤71:博弈者i应用最佳响应决策规则选择一个自身动作
Figure BDA00041302131200001010
最佳响应决策公式表示为:
Figure BDA00041302131200001011
步骤72:基于奖励函数和所述最佳响应决策公式,通过Adam梯度下降算法得到最优决策:
Figure BDA00041302131200001012
步骤73:按照最优决策所对应的动作
Figure BDA00041302131200001013
执行,并继续观察博弈对手的动作变化。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于VGG16和虚拟博弈的无人机群自主控制方法,应用于无人机群,无人机群中的任一无人机为博弈者,其他无人机为博弈对手,其特征在于,包括:
步骤1,任一博弈者获取前一时刻博弈对手的运动图像;
步骤2,将运动图像预处理后送入训练好的姿态识别模型中,从而识别博弈对手在前一时刻的移动方向;
步骤3,获取预先设计的无人机的待选动作集;
步骤4,根据博弈对手在前一时刻的所有待选动作的策略倾向以及移动方向,计算博弈对手在当前时刻所有待选动作的策略倾向;
步骤5,根据每个博弈对象在当前时刻所有待选动作的策略倾向,计算当前时刻所有博弈对手选择某一待选动作的联合概率,并将所述联合概率转化为所有博弈对手在当前时刻最大可能的执行动作;
步骤6,设计奖励函数,基于所有博弈对手在当前时刻最大可能的执行动作选择使得奖励函数最大化的自身执行动作;
步骤7,博弈者按照自身执行动作飞行,继续观察博弈对手的动作变化;
步骤8,重复步骤1至步骤7,直至无人机群趋于稳定状态。
2.根据权利要求1所述的基于VGG16和虚拟博弈的无人机群自主控制方法,其特征在于,所述姿态识别模型的训练过程为:
(1)预先采集无人机在多个场景下的历史运动视频,并对历史运动视频进行预处理;
(2)将预处理之后的运动视频分为训练数据集以及测试数据集;
(3)获取预先构建的VGG16网络,并将该VGG16网络作为姿态识别模型;
(4)将训练数据集送入所述VGG16网络中进行姿态识别模型的训练,根据损失函数迭代优化训练过程;
(5)将所述测试数据集送入VGG16网络中进行模型校验,比较识别结果与实际标签从而确定所述VGG16网络的准确率;
(6)重复步骤4至步骤5的过程,直至VGG16网络达到准确率标准,获得训练好的VGG16网络。
3.根据权利要求2所述的基于VGG16和虚拟博弈的无人机群自主控制方法,其特征在于,所述VGG16网络其由13个卷积层、3个全连接层和5个池化层所组成;
(1)卷积层:实现局部连接和权值共享两个功能,极大减小了卷积过程中的参数量,卷积过程用公式可表示为:
f(x)=ω·x+b,
其中,x表示输入参数,ω表示权值参数,b表示偏置量,权值参数ω和偏置量b由反向传播算法不断迭代更新,至参数变化达到阈值停止;
(2)池化层:将卷积层得到的特征矩阵通过max pooling的方法进行最大池化操作,然后经过ReLU激活函数输出,得到的输出结果作为下一层的输入;ReLU函数公式可表示为:
σ(x)=max(0,x),
其中,x表示为经过上一层得到的输出参数,ReLU函数的目的是避免参数中有负值;
(3)全连接层:将经过13个卷积层和5个池化层得到的特征矩阵输入全连接层,全连接层进行全连接操作,表示为:
Figure FDA0004130213110000021
其中,xi表示经过卷积和池化操作后得到的第i个特征向量,ωji表示为第j个神经元在第i个特征参数上的权重,bj表示第j个神经元的偏置量;
(4)SoftMax回归分类:将经过全连接层得到的特征向量送入分类器,由分类器进行无人机姿态类型的分类判断操作,经过SoftMax回归分类器得到的概率分布p输出,可用公式表示为:
Figure FDA0004130213110000031
其中,X表示为由全连接层得到的特征向量,ωj表示为模型的权重参数,
Figure FDA0004130213110000032
表示为概率分布P的归一化系数,j表示为全连接层对应的输出类型;
(4)迭代优化:反向传播中使用交叉熵计算损失函数,采用Adam梯度下降优化算法进行权重参数ω和偏置量b的迭代优化:
损失函数f(ω)表示为:
Figure FDA0004130213110000033
其中,P表示为预测值的概率分布,Q表示目标值的概率分布,pj为P的子项,qj为Q的子项;
Adam梯度下降优化算法按照下述公式进行优化:
Figure FDA0004130213110000034
其中,t表示为迭代次数,ω表示为待优化参数,f(ω)表示为损失函数,α表示为学习率,gt表示损失函数的梯度值,mt表示一阶动量,β1表示一阶动量参数,Vt表示为二阶动量,β2表示为二阶动量参数,ηt表示为当前时刻的梯度。
4.根据权利要求1所述的基于VGG16和虚拟博弈的无人机群自主控制方法,步骤4包括:
步骤41,博弈者迭代计算博弈对手在前一时刻采取所有动作的策略倾向;
步骤42,选择任一动作作为待选动作;
步骤43,根据前一时刻移动方向以及策略倾向计算博弈对手选择所述待选动作的策略倾向。
5.根据权利要求4所述的基于VGG16和虚拟博弈的无人机群自主控制方法,步骤41包括:
在当前时刻t,博弈者i基于连续玻尔兹曼方程的自回归模型迭代计算截至t-1时刻博弈对手j所有动作的策略倾向:
Figure FDA0004130213110000041
其中,i∈N,N={1,2,…,i,…,n},N表示无人机群的集合,n表示无人机的数量,
Figure FDA0004130213110000042
表示t-1时刻博弈者i的博弈对手j所有动作的策略倾向,αh表示h时刻的相关系数,ε(t-1)表示随机误差项。
6.根据权利要求5所述的基于VGG16和虚拟博弈的无人机群自主控制方法,步骤43包括:
博弈者i基于扩展卡尔曼滤波器计算t时刻博弈对手j选择某一待选动作a~的策略倾向
Figure FDA0004130213110000043
Figure FDA0004130213110000044
其中,
Figure FDA0004130213110000045
是博弈者i在t时刻的博弈过程中博弈对手j所有动作的策略倾向;/>
Figure FDA0004130213110000046
表示包含姿态信息的策略倾向噪声;
博弈者与博弈对手的博弈过程用状态空间模型表示为:
Figure FDA0004130213110000047
其中,G为博弈过程,h为连续玻尔兹曼分量,
Figure FDA0004130213110000048
是均值为零的指示函数观察j倾向的误差,ζt服从N(0,P)分布,P为协方差矩阵。
7.根据权利要求6所述的基于VGG16和虚拟博弈的无人机群自主控制方法,步骤5包括:
步骤51,基于策略倾向
Figure FDA0004130213110000049
博弈者i通过连续玻尔兹曼分量/>
Figure FDA00041302131100000410
估计博弈对手j在t时刻选择某一待选动作/>
Figure FDA00041302131100000411
的策略概率/>
Figure FDA00041302131100000412
公式可表示为:
Figure FDA00041302131100000413
其中,τ表示连续玻尔兹曼方程中的熵值参数,Aj表示博弈者j的可选动作集合,数学描述为Aj={a1,a2,…,ai,…,aq},q表示博弈者j的可选动作数量,ai表示某一待选动作;Sj表示博弈者j在可选动作集合上的策略概率集合,数学描述为Sj={s1,s2,…,sj(ai),…sn(aq)},sj(ai)表示博弈者j选择动作ai的概率;
步骤52,计算无人机i所有博弈对手t时刻选择动作
Figure FDA0004130213110000051
的联合概率/>
Figure FDA0004130213110000052
公式可表示为:
Figure FDA0004130213110000053
步骤53,针对博弈对手j的每个待选动作均执行计算联合概率的过程,得到博弈对手j所有待选动作的联合概率;
步骤54,选择联合概率
Figure FDA0004130213110000054
最大的待选动作,作为博弈对手在当前时刻最大可能选择的执行动作/>
Figure FDA0004130213110000055
从而使得联合概率/>
Figure FDA0004130213110000056
转换为纯策略,可表示为如下公式:
Figure FDA0004130213110000057
其中,A为无人机单元的可选动作集,
Figure FDA0004130213110000058
为A中的任意可选动作。该转换方式有利于无人系统集群更大的概率选择相同的行动策略。
8.根据权利要求7所述的基于VGG16和虚拟博弈的无人机群自主控制方法,步骤6包括:
设计博弈者i的奖励函数ri(si,s-i):
Figure FDA0004130213110000059
其中,
Figure FDA00041302131100000510
表示博弈者i动作集合Ai的待选动作,c表示惩罚系数,/>
Figure FDA00041302131100000511
表示博弈者i在选择动作/>
Figure FDA00041302131100000512
博弈对手选择动作a时的博弈收益,/>
Figure FDA00041302131100000513
表示博弈者i选择动作/>
Figure FDA00041302131100000514
的取值函数,当博弈者倾向于选择相同行动时,/>
Figure FDA00041302131100000515
博弈者倾向于选择不同行动时,
Figure FDA00041302131100000516
9.根据权利要求8所述的基于VGG16和虚拟博弈的无人机群自主控制方法,步骤7包括:
步骤71:博弈者i应用最佳响应决策规则选择一个自身动作
Figure FDA0004130213110000061
最佳响应决策公式表示为:
Figure FDA0004130213110000062
步骤72:基于奖励函数和所述最佳响应决策公式,通过Adam梯度下降算法得到最优决策:
Figure FDA0004130213110000063
步骤73:按照最优决策所对应的动作
Figure FDA0004130213110000064
执行,并继续观察博弈对手的动作变化。
10.根据权利要求9所述的基于VGG16和虚拟博弈的无人机群自主控制方法,步骤8包括:
博弈者i重复步骤1-7直至无人机群趋于稳定状态,得到当前时刻所有博弈对手的所有可选动作策略倾向分布。
CN202310257728.1A 2023-03-16 2023-03-16 一种基于vgg16和虚拟博弈的无人机群自主控制方法 Pending CN116301042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310257728.1A CN116301042A (zh) 2023-03-16 2023-03-16 一种基于vgg16和虚拟博弈的无人机群自主控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310257728.1A CN116301042A (zh) 2023-03-16 2023-03-16 一种基于vgg16和虚拟博弈的无人机群自主控制方法

Publications (1)

Publication Number Publication Date
CN116301042A true CN116301042A (zh) 2023-06-23

Family

ID=86830139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310257728.1A Pending CN116301042A (zh) 2023-03-16 2023-03-16 一种基于vgg16和虚拟博弈的无人机群自主控制方法

Country Status (1)

Country Link
CN (1) CN116301042A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116772811A (zh) * 2023-06-25 2023-09-19 爱生无人机试验测试靖边有限公司 一种基于无人机网络拓扑优化的测绘方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116772811A (zh) * 2023-06-25 2023-09-19 爱生无人机试验测试靖边有限公司 一种基于无人机网络拓扑优化的测绘方法
CN116772811B (zh) * 2023-06-25 2024-03-26 爱生无人机试验测试靖边有限公司 一种基于无人机网络拓扑优化的测绘方法

Similar Documents

Publication Publication Date Title
CN106127120B (zh) 姿势估计方法和装置、计算机系统
CN113449864B (zh) 用于图像数据分类的反馈型脉冲神经网络模型训练方法
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
Leibfried et al. A deep learning approach for joint video frame and reward prediction in atari games
US20140143183A1 (en) Hierarchical model for human activity recognition
CN115661943B (zh) 一种基于轻量级姿态评估网络的跌倒检测方法
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
CN110826453A (zh) 一种通过提取人体关节点坐标的行为识别方法
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN116301042A (zh) 一种基于vgg16和虚拟博弈的无人机群自主控制方法
Dao et al. Deep reinforcement learning monitor for snapshot recording
Dhatterwal et al. Machine learning and deep learning algorithms for IoD
Du et al. Autonomous landing scene recognition based on transfer learning for drones
CN107220589A (zh) 一种基于elm与hmm的序列飞机目标识别方法
Xiao et al. Collaborative target search with a visual drone swarm: An adaptive curriculum embedded multistage reinforcement learning approach
US20210245005A1 (en) Implementation of machine learning for skill-improvement through cloud computing and method therefor
Omidshafiei et al. Hierarchical bayesian noise inference for robust real-time probabilistic object classification
CN107038450A (zh) 基于深度学习的无人机警察系统
CN116029604B (zh) 一种基于健康舒适度的笼养肉鸭养殖环境调控方法
CN112926739A (zh) 一种基于神经网络模型的网络对抗效能评估方法
CN112801403A (zh) 基于ssa-bp的空中目标潜在威胁度预测方法及系统
CN115909027B (zh) 一种态势估计方法及装置
CN115456173A (zh) 一种通用化的人工神经网络无监督本地学习方法、系统及应用
Hakim et al. Optimization of the Backpropagation Method with Nguyen-widrow in Face Image Classification
CN111414846A (zh) 基于关键时空信息驱动和组群共现性结构化分析的组群行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination