CN116127848A - 一种基于深度强化学习的多无人机协同追踪方法 - Google Patents
一种基于深度强化学习的多无人机协同追踪方法 Download PDFInfo
- Publication number
- CN116127848A CN116127848A CN202310169927.7A CN202310169927A CN116127848A CN 116127848 A CN116127848 A CN 116127848A CN 202310169927 A CN202310169927 A CN 202310169927A CN 116127848 A CN116127848 A CN 116127848A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- enemy
- missile
- unmanned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于深度强化学习的多无人机协同追踪方法,属于多智能体控制领域。该方法首先在无人机对战仿真平台上对多无人机作战系统进行建模;随后,设置多无人机协同作战的固定规则动作以及多无人机的初始位置和追踪条件;接着,设置无人机智能体强化学习的状态、动作和奖励函数;最后,在面对不同对手的情况下,使用QMIX算法对无人机智能体进行训练,并根据训练效果调整超参数,实现无人机协同追踪的目的。
Description
技术领域
本发明涉及一种基于深度强化学习的多无人机协同追踪方法,该方法通过控制方法和强化学习的结合,实现多无人机的协同追踪,属于多智能体控制领域。
背景技术
无人机由于具有重量轻、尺寸小、机动性高、隐蔽性好、适应能力强、可操作性好等特点,在民用和军用领域受到广泛关注。近几年,无人机在情报侦察、目标搜索和跟踪以及目标攻击等各种任务中占据关键位置,取得了相当好的战果。
但是,随着无人机所面临的战场环境变得越来越复杂,在复杂多变的信息化战场环境下,单个无人机执行侦察或攻击等任务时面临侦察角度和范围、杀伤半径和摧毁能力等诸多方面的限制,制约了作战效能的发挥,单个无人机完成任务的难度也变得越来越大。
而由于多无人机系统既能形成协调有序的集体运动模式,又能快速、一致地应对外界刺激,具有自组织性强、协调性高、稳定性强等优点,且对环境具有较强的适应能力。因此,越来越多的人们开始了对多无人机的协同作战的研究。
然而多无人机的协同作战问题较为复杂,仅仅依靠设计者的经验和知识,很难获得多无人机在复杂环境下的良好适应性。因此,强化学习算法作为实现多无人机复杂环境下良好适应性的一条可行技术路线,已经成为当前多无人机协同作战领域的一个研究热点。
在多智能体深度强化学习领域中完全合作环境MARL中常见的方法有COMA算法、VDN算法、QMIX算法等等。在QMIX算法的基础上,通过设置合适的规则并根据规则设置恰当的奖励,实现多无人机协同追踪的策略,具有一定的应用前景与意义。
发明内容
技术问题:
基于深度强化学习的多无人机协同作战策略主要研究多无人机在复杂环境下通过强化学习的训练不断完善自身与系统的策略,并通过一定的策略进行协同作战的问题。本发明专利实现了多无人机系统在一定条件下的协同作战,主要使用深度强化学习中的QMIX算法,通过对动作空间、状态空间和奖励函数的设置,实现了多无人机的协同追踪。
技术方案:
一种基于深度强化学习的多无人机协同追踪方法,其特征在于,包括以下步骤:
步骤1:在无人机对战仿真平台上建立多无人机作战的模型;
步骤2:设置多无人机协同作战的固定规则动作;
步骤3:设置多无人机的初始位置和追踪条件;
步骤4:设置无人机智能体强化学习的状态、动作和奖励函数;
步骤5:使用QMIX算法对无人机智能体进行训练,并根据训练结果调整超参数;
步骤6:在面对不同对手的情况下,重复步骤5,实现多无人机协同追踪的目标。
进一步地,步骤1所述在无人机对战仿真平台上建立的多无人机作战的模型具体如下:
步骤1.1建立二维绝对坐标系
以当前选择的作战地图的左下角为坐标系原点,水平方向为坐标系x轴,垂直方向为坐标系y轴,建立二维绝对坐标系。
步骤1.2建立多无人机作战系统
建立含有n架无人机的多无人机作战系统,设每架无人机智能体(agent)用A表示,则该多无人机作战系统可以用集合D={A1,A2,...,An}表示。
步骤1.3建立无人机智能体模型
对于多无人机系统D中的每架无人机A,其在时间步t时选择的动作(action)由移动、探测、干扰和攻击四个模块组成:
对于移动模块,无人机选择二维平面坐标系内0-359°中的一个方向,并按此方向在单位时间里移动单位步长,无人机在时间步t时选择的方向可记为F1t(Ai);
对于探测模块,设雷达频点总数为m,无人机选择雷达频点表中的任意一个雷达频点后,固定向以其朝向为轴、左右各60°、距离为d1的扇形范围内探测是否有敌方无人机,并将探测到的敌方无人机记录到探测列表Li中,无人机在时间步t时选择的雷达频点可记为F2t(Ai);
对于干扰模块,无人机选择雷达频点表中的任意一个频点后,固定向以其朝向为轴、左右各15°、距离为d1的扇形范围内干扰敌方无人机选择对应频点的雷达,使其失去探测能力;无人机也可以选择开启阻塞干扰,固定向以其朝向为轴、左右各1°、距离为d1的扇形范围内干扰敌方无人机所有频点的雷达,设无人机在时间步t时选择的干扰频点为F3t(Ai),则有:
对于攻击模块,无人机向敌方无人机探测列表中的一架敌方无人机发射短距离导弹(距离为d2)或长距离导弹(距离为d3),设该无人机选择攻击的敌方无人机为探测列表中的Li(1≤i≤n),该无人机选择发射的导弹种类为p,(当p=0时,无人机不发射导弹,当p=1时,无人机发射短距离导弹;当p=2时,无人机发射长距离导弹),该无人机是否还有该种类的导弹为w(p),(当w(p)=0时,无人机没有该类型的导弹;当w(p)=1时,无人机有该类型的导弹;默认w(0)=0),设无人机在时间步t时选择的攻击动作为F4t(Ai),则有:
F4t(Ai)=w(p)×((p-1)×n+Li)
由此,无人机智能体在时间步t时的动作空间可由集合{F1(Ai),F2(Ai),F3(Ai),F4(Ai)}表示。
对于多无人机系统D中的每架无人机A,其在时间步t时的状态(state)表示如下:
无人机Ai在当前时间步t时的位置信息(xit,yit);无人机Ai在当前时间步t时探测到的敌方无人机探测列表Lit,多无人机系统汇总每架无人机的探测列表得到的敌方无人机探测列表LDt(LDt=L1t∪L2t∪...∪Lnt);无人机Ai在当前时间步t时剩余的短距离导弹wit1和长距离导弹数量wit2。
由此,无人机智能体在时间步t时的状态空间可由集合{xit,yit,Lit,wit1,wit2}表示。
由此便构建了多无人机作战的模型。
进一步地,步骤2所述的设置多无人机协同作战的固定规则动作具体如下:
步骤2.1设置探测模块的固定规则动作
对于探测模块,由于敌方无人机在连续步长内干扰到我方无人机随机变化的雷达频点的概率较低,且探测模块的效能更多取决于移动模块中无人机方向的选择,因此在每个时间步时,使用随机数生成雷达频点。
设无人机的雷达频点总数为m,则无人机在时间步t时选择的雷达频点可表示为:
F2t(Ai)=random(1,m)
步骤2.2设置干扰模块的固定规则动作
对于干扰模块,引入条件判断,如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机,则对其使用全频道干扰,避免其探测到我方无人机;如果我方无人机未探测到敌方无人机或未连续探测到敌方无人机,则使用随机数生成干扰频点。
因此无人机在时间步t时选择的干扰频点可表示为:
步骤2.3设置攻击模块的固定规则动作
对于攻击模块,引入条件判断,如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机,则发射选择发射导弹,设当前时刻我方无人机和敌方无人机的位置分别为(x1t,y1t)和(x2t,y2t),则我方无人机与敌方无人机间的距离为
若距离d在短距离导弹射程范围内,且短距离导弹有剩余,则发射短距离导弹;若距离d在长距离导弹射程范围内,且长距离导弹有剩余,则发射长距离导弹;否则不发射导弹。
设短距离导弹射程范围为d2,长距离导弹射程范围为d3,则无人机在时间步t时选择的攻击动作可表示为:
由此便设置了多无人机协同作战的固定规则动作。
进一步地,步骤3所述的设置多无人机的初始位置和追踪条件具体如下:
步骤3.1开局初始位置调整
开局时,设我方无人机均处于地图左侧,敌方无人机均处于地图右侧,且双方无人机均一字排开,且无人机间的距离为常数,即:
x10=x20=...=xn0
y20-y10=y30-y20=...=yn0-y(n-1)0
为了使无人机系统在对局中能在开局占得先机,因此在开局时需要对无人机系统中每架无人机的初始位置进行调整,在t1个时间步长内,将多无人机系统的阵型调整为雁形,从而在与敌方无人机碰面时取得一定优势。
设多无人机系统中的所有无人机的速度相同均为v,则领队向右侧移动的距离为:
其在t1时刻的位置为:
设将无人机系统调整为雁形时两侧无人机与x轴的夹角为θ,两两相邻无人机间的距离相等为d4,则此时无人机Ai的位置为:
此时无人机Ai的位置为:
由此,便将多无人机系统的阵型调整为了雁形。
步骤3.2协同追踪条件判断
当多无人机系统完成阵型调整后,其开始探索地图并通过当前时间步的探测信息进行协同追踪条件判断。即多无人机系统在t1后的每个时间步t进行条件判断,如果存在某架无人机Ai探测到敌方无人机,且该无人机Ai周围半径为r的圆内的友方无人机数目(包含自身)与这些友方无人机探测到的敌方无人机数目之比大于等于2,则协同追踪条件通过,否则不通过。
设协同追踪条件为f(t,i),则有
其中,⊙为以无人机Ai当前位置为圆心,r为半径的单位圆,LK为敌方无人机探测列表LDt在t时刻中所有满足k∈⊙条件的敌方无人机k所组成的列表。
由此,便完成了对协同追踪条件的设置,无人机可以通过协同追踪条件进行判断并依此选择移动模块的动作。
进一步地,步骤4所述的设置无人机智能体强化学习的状态、动作和奖励函数具体如下:
对于多无人机系统中的每架无人机智能体Ai,其通过强化学习的方法寻找在状态S下的最优动作a,通过与环境的交互以求取得最大化的奖励R。
其中,状态S包括无人机智能体Ai在当前时间步t时的位置信息(xit,yit);无人机智能体Ai在当前时间步t时探测到的敌方无人机探测列表Lit;无人机智能体Ai在当前时间步t时剩余的短距离导弹wit1和长距离导弹数量wit2以及当前时刻无人机智能体Ai的追踪条件f(t,i)。
动作a为无人机智能体Ai在时间步t时选择的方向F1t(Ai),由于F1t(Ai)的取值为0-359°中的任意一个方向,训练维度过大,收敛难度较高,因此设置F1t(Ai)为15°的整数倍共24种取值,这样在不妨碍无人机转向的同时大大减小了训练的维度。
奖励R包括了以下几个部分:
(1)无人机探测到敌方无人机的奖励r1
(2)无人机发射导弹并击中敌方无人机的奖励r2和我方无人机被敌方无人机导弹击中的惩罚r2’
(3)无人机正确使用协同追踪条件的奖励r3、r4
若无人机智能体Ai在f(t,i)=1时,对探测列表中发现的敌方无人机进行协同追踪,即无人机Ai和在该无人机Ai周围半径为r的圆内的友方无人机同时向敌方无人机所在位置移动,则获得奖励r3;若无人机智能体Ai在f(t,i)=0时,无人机Ai随机选择向最近的友方无人机汇合或是向自身与该敌方无人机连线夹角大于等于90°的方向进行探索,则获得奖励r4。
(4)避免无人机原地不动的惩罚r5
由于当无人机选择在原地转圈不动时,依然有较大的概率得到奖励r4,从而在训练的过程中陷入原地转圈不动的局部最优情况,因此必须引入惩罚措施,计算无人机在连续τ个时间步内的位移,并根据位移的大小给予无人机智能体相应的惩罚。
设无人机系统D中的某架无人机为Ai,其在连续的τ个时间步内的位置分别为{(x1,y1),(x2,y2),...,(xτ,yτ)},则其在τ个时间步长上的位移为:
若无人机在τ个时间步内原地转圈不动,则其位移Δ较小;若无人机正常追踪敌方无人机或搜索地图,则其位移Δ必然大于某特定值。因此,该无人机Ai在τ个时间步长上的位移Δ与惩罚r5可近似用反比例函数描述,并通过适当的修正使其能满足所有情况。
设置惩罚函数如下:
其中,Ct为比例系数,可适用于不同的场景下修改训练;δ为一个和位移相比可以忽略的小量,防止当Δ恰好为0时,函数值为无穷大;ε为奖励补偿,使无人机在τ个时间步长上的位移Δ大于某特定值时,不会进行距离奖励值的衰减;max函数为激活函数,使得当Δ大于某特定值,即时,惩罚函数r5的值为0。
由此,便完成了对无人机智能体强化学习的状态、动作和奖励函数的设置。
有益效果:
1.本发明专利提出了一种基于深度强化学习QMIX算法的多无人机协同追踪方法。通过对多无人机作战系统的建模,并在开源的多无人机作战平台MaCA平台上进行训练和测试,实现了多无人机的协同追踪。
2.本发明专利在深度强化学习QMIX算法的基础上,通过对奖励函数的设计,使其能更好解决强化学习中由于维数过大而导致的稀疏奖励的问题,同时,通过对追踪条件的设计,并将其作为状态空间的一部分使用强化学习算法进行训练,可以有效的提高胜率。
3.本发明专利在开局时对无人机的初始位置进行了调整,采取了雁形阵,该阵型是一种横向展开,左右两翼向后梯次排列的战斗队形,具有很好的稳定性和高效性,有助于提高多无人机作战的协同性和胜率。
4.本发明专利所建立的多无人机系统协同作战模型不仅可以用于多无人机的协同作战,也可用于其他场景,如海上作战、地面作战单元等。
附图说明
图1为本发明专利总体框架图;
图2为本发明专利的整体程序流程图;
图3为多无人机系统的二维绝对坐标系;
图4为无人机探测模块范围示意图;
图5为无人机干扰模块范围示意图;
图6为无人机攻击模块范围示意图;
图7为多无人机系统进行初始位置调整的示意图;
图8为无人机进行追踪条件判断的示意图;
图9为训练后的多无人机进行协同追踪的效果图;
具体实施方式
下面对本发明方法和系统进行详细的阐述。
本发明专利是一种基于深度强化学习的多无人机协同追踪方法,其特征在于,包括以下步骤:
步骤1:在无人机对战仿真平台上建立的多无人机作战的模型。包括建立多无人机作战系统和绝对坐标系和系统中各个无人机智能体的数学模型。
(1)建立二维绝对坐标系
以当前选择的作战地图的左下角为坐标系原点,水平方向为坐标系x轴,垂直方向为坐标系y轴,建立二维绝对坐标系如图3所示。
(2)建立多无人机作战系统
建立含有n架无人机的多无人机作战系统,设每架无人机智能体(agent)用A表示,则该多无人机作战系统可以用集合D={A1,A2,...,An}表示。
(3)建立无人机智能体模型
对于多无人机系统D中的每架无人机A,其在时间步t时选择的动作(action)由移动、探测、干扰和攻击四个模块组成:
对于移动模块,无人机选择二维平面坐标系内0-359°中的一个方向,并按此方向在单位时间里移动单位步长,无人机在时间步t时选择的方向可记为F1t(Ai);
对于探测模块,设雷达频点总数为m,无人机选择雷达频点表中的任意一个雷达频点后,固定向以其朝向为轴、左右各60°、距离为d1的扇形范围内探测是否有敌方无人机,并将探测到的敌方无人机记录到探测列表Li中,无人机在时间步t时选择的雷达频点可记为F2t(Ai),探测模块的具体范围如图4所示;
对于干扰模块,无人机选择雷达频点表中的任意一个频点后,固定向以其朝向为轴、左右各15°、距离为d1的扇形范围内干扰敌方无人机选择对应频点的雷达,使其失去探测能力;无人机也可以选择开启阻塞干扰,固定向以其朝向为轴、左右各1°、距离为d1的扇形范围内干扰敌方无人机所有频点的雷达,干扰模块的具体范围如图5所示,设无人机在时间步t时选择的干扰频点为F3t(Ai),则有:
对于攻击模块,无人机向敌方无人机探测列表中的一架敌方无人机发射短距离导弹(距离为d2)或长距离导弹(距离为d3),攻击模块的具体范围如图6所示,设该无人机选择攻击的敌方无人机为探测列表中的Li(1≤i≤n),该无人机选择发射的导弹种类为p,(当p=0时,无人机不发射导弹,当p=1时,无人机发射短距离导弹;当p=2时,无人机发射长距离导弹),该无人机是否还有该种类的导弹为w(p),(当w(p)=0时,无人机没有该类型的导弹;当w(p)=1时,无人机有该类型的导弹;默认w(0)=0),设无人机在时间步t时选择的攻击动作为F4t(Ai),则有:
F4t(Ai)=w(p)×((p-1)×n+Li)
由此,无人机智能体在时间步t时的动作空间可由集合{F1(Ai),F2(Ai),F3(Ai),F4(Ai)}表示。
对于多无人机系统D中的每架无人机A,其在时间步t时的状态(state)表示如下:
无人机Ai在当前时间步t时的位置信息(xit,yit);无人机Ai在当前时间步t时探测到的敌方无人机探测列表Lit,多无人机系统汇总每架无人机的探测列表得到的敌方无人机探测列表LDt(LDt=L1t∪L2t∪...∪Lnt);无人机Ai在当前时间步t时剩余的短距离导弹wit1和长距离导弹数量wit2。
由此,无人机智能体在时间步t时的状态空间可由集合{xit,yit,Lit,wit1,wit2}表示。
由此便构建了多无人机作战的模型。
步骤2:设置多无人机协同作战的固定规则动作
(1)设置探测模块的固定规则动作
对于探测模块,由于敌方无人机在连续步长内干扰到我方无人机随机变化的雷达频点的概率较低,且探测模块的效能更多取决于移动模块中无人机方向的选择,因此在每个时间步时,使用随机数生成雷达频点。
设无人机的雷达频点总数为m,则无人机在时间步t时选择的雷达频点可表示为:
F2t(Ai)=random(1,m)
(2)设置干扰模块的固定规则动作
对于干扰模块,引入条件判断,如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机,则对其使用全频道干扰,避免其探测到我方无人机;如果我方无人机未探测到敌方无人机或未连续探测到敌方无人机,则使用随机数生成干扰频点。
因此无人机在时间步t时选择的干扰频点可表示为:
(3)设置攻击模块的固定规则动作
对于攻击模块,引入条件判断,如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机,则发射选择发射导弹,设当前时刻我方无人机和敌方无人机的位置分别为(x1t,y1t)和(x2t,y2t),则我方无人机与敌方无人机间的距离为
若距离d在短距离导弹射程范围内,且短距离导弹有剩余,则发射短距离导弹;若距离d在长距离导弹射程范围内,且长距离导弹有剩余,则发射长距离导弹;否则不发射导弹。
设短距离导弹射程范围为d2,长距离导弹射程范围为d3,则无人机在时间步t时选择的攻击动作可表示为:
由此便设置了多无人机协同作战的固定规则动作。
步骤3:设置多无人机的初始位置和追踪条件
(1)开局初始位置调整
开局时,设我方无人机均处于地图左侧,敌方无人机均处于地图右侧,且双方无人机均一字排开,且无人机间的距离为常数,即:
x10=x20=...=xn0
y20-y10=y30-y20=...=yn0-y(n-1)0
为了使无人机系统在对局中能在开局占得先机,因此在开局时需要对无人机系统中每架无人机的初始位置进行调整,在t1个时间步长内,将多无人机系统的阵型调整为雁形,从而在与敌方无人机碰面时取得一定优势。
设多无人机系统中的所有无人机的速度相同均为v,则领队向右侧移动的距离为:
其在t1时刻的位置为:
设将无人机系统调整为雁形时两侧无人机与x轴的夹角为θ,两两相邻无人机间的距离相等为d4,则此时无人机Ai的位置为:
此时无人机Ai的位置为:
由此,便将多无人机系统的阵型调整为了雁形,具体过程如图7所示。
(2)协同追踪条件判断
当多无人机系统完成阵型调整后,其开始探索地图并通过当前时间步的探测信息进行协同追踪条件判断。即多无人机系统在t1后的每个时间步t进行条件判断,如果存在某架无人机Ai探测到敌方无人机,且该无人机Ai周围半径为r的圆内的友方无人机数目(包含自身)与这些友方无人机探测到的敌方无人机数目之比大于等于2,则协同追踪条件通过,否则不通过。
设协同追踪条件为f(t,i),则有
其中,⊙为以无人机Ai当前位置为圆心,r为半径的单位圆,LK为敌方无人机探测列表LDt在t时刻中所有满足k∈⊙条件的敌方无人机k所组成的列表,具体判断情况如图8所示。
由此,便完成了对协同追踪条件的设置,无人机可以通过协同追踪条件进行判断并依此选择移动模块的动作。
步骤4:设置无人机智能体强化学习的状态、动作和奖励函数
对于多无人机系统中的每架无人机智能体Ai,其通过强化学习的方法寻找在状态S下的最优动作a,通过与环境的交互以求取得最大化的奖励R。
其中,状态S包括无人机智能体Ai在当前时间步t时的位置信息(xit,yit);无人机智能体Ai在当前时间步t时探测到的敌方无人机探测列表Lit;无人机智能体Ai在当前时间步t时剩余的短距离导弹wit1和长距离导弹数量wit2以及当前时刻无人机智能体Ai的追踪条件f(t,i)。
动作a为无人机智能体Ai在时间步t时选择的方向F1t(Ai),由于F1t(Ai)的取值为0-359°中的任意一个方向,训练维度过大,收敛难度较高,因此设置F1t(Ai)为15°的整数倍共24种取值,这样在不妨碍无人机转向的同时大大减小了训练的维度。
奖励R包括了以下几个部分:
(1)无人机探测到敌方无人机的奖励r1
(2)无人机发射导弹并击中敌方无人机的奖励r2和我方无人机被敌方无人机导弹击中的惩罚r2’
(3)无人机正确使用协同追踪条件的奖励r3、r4
若无人机智能体Ai在f(t,i)=1时,对探测列表中发现的敌方无人机进行协同追踪,即无人机Ai和在该无人机Ai周围半径为r的圆内的友方无人机同时向敌方无人机所在位置移动,则获得奖励r3;若无人机智能体Ai在f(t,i)=0时,无人机Ai随机选择向最近的友方无人机汇合或是向自身与该敌方无人机连线夹角大于等于90°的方向进行探索,则获得奖励r4。
(4)避免无人机原地不动的惩罚r5
由于当无人机选择在原地转圈不动时,依然有较大的概率得到奖励r4,从而在训练的过程中陷入原地转圈不动的局部最优情况,因此必须引入惩罚措施,计算无人机在连续τ个时间步内的位移,并根据位移的大小给予无人机智能体相应的惩罚。
设无人机系统D中的某架无人机为Ai,其在连续的τ个时间步内的位置分别为{(x1,y1),(x2,y2),...,(xτ,yτ)},则其在τ个时间步长上的位移为:
若无人机在τ个时间步内原地转圈不动,则其位移Δ较小;若无人机正常追踪敌方无人机或搜索地图,则其位移Δ必然大于某特定值。因此,该无人机Ai在τ个时间步长上的位移Δ与惩罚r5可近似用反比例函数描述,并通过适当的修正使其能满足所有情况。
设置惩罚函数如下:
其中,Ct为比例系数,可适用于不同的场景下修改训练;δ为一个和位移相比可以忽略的小量,防止当Δ恰好为0时,函数值为无穷大;ε为奖励补偿,使无人机在τ个时间步长上的位移Δ大于某特定值时,不会进行距离奖励值的衰减;max函数为激活函数,使得当Δ大于某特定值,即时,惩罚函数r5的值为0。
由此,便完成了对无人机智能体强化学习的状态、动作和奖励函数的设置
步骤5:使用QMIX算法对无人机智能体进行训练,分别训练n个无人机智能体来拟合在状态S下的最佳动作a和1个源控制器来拟合最佳的多智能体间的奖励分配,并根据训练结果调整超参数,设置的部分超参数如下表所示;
超参数 | 值 |
Buffer size | 320 |
Batch size | 32 |
Learning rate | 0.01 |
Epsilon | 0.9 |
Gamma | 0.9 |
Target update frequency | 100 |
训练后的多无人机系统能在一定程度上较好的完成协同追踪的任务,具体效果如图9所示。
步骤6:在面对不同对手的情况下,重复步骤5,实现多无人机协同追踪的目标。
Claims (5)
1.一种基于深度强化学习的多无人机协同追踪方法,其特征在于,包括以下步骤:
步骤1:在无人机对战仿真平台上建立多无人机作战的模型;
步骤2:设置多无人机协同作战的固定规则动作;
步骤3:设置多无人机的初始位置和追踪条件;
步骤4:设置无人机智能体强化学习的状态、动作和奖励函数;
步骤5:使用QMIX算法对无人机智能体进行训练,并根据训练结果调整超参数;
步骤6:在面对不同对手的情况下,重复步骤5,实现多无人机协同追踪的目标。
2.根据权利要求1所述的一种基于深度强化学习的多无人机协同追踪方法,其特征在于,步骤1所述在无人机对战仿真平台上建立的多无人机作战的模型具体如下:
步骤1.1建立二维绝对坐标系
以当前选择的作战地图的左下角为坐标系原点,水平方向为坐标系x轴,垂直方向为坐标系y轴,建立二维绝对坐标系;
步骤1.2建立多无人机作战系统
建立含有n架无人机的多无人机作战系统,设每架无人机智能体用A表示,则该多无人机作战系统可以用集合D={A1,A2,...,An}表示;
步骤1.3建立无人机智能体模型
对于多无人机系统D中的每架无人机A,其在时间步t时选择的动作由移动、探测、干扰和攻击四个模块组成:
对于移动模块,无人机选择二维平面坐标系内0-359°中的一个方向,并按此方向在单位时间里移动单位步长,无人机在时间步t时选择的方向可记为F1t(Ai);
对于探测模块,设雷达频点总数为m,无人机选择雷达频点表中的任意一个雷达频点后,固定向以其朝向为轴、左右各60°、距离为d1的扇形范围内探测是否有敌方无人机,并将探测到的敌方无人机记录到探测列表Li中,无人机在时间步t时选择的雷达频点可记为F2t(Ai);
对于干扰模块,无人机选择雷达频点表中的任意一个频点后,固定向以其朝向为轴、左右各15°、距离为d1的扇形范围内干扰敌方无人机选择对应频点的雷达,使其失去探测能力;无人机也可以选择开启阻塞干扰,固定向以其朝向为轴、左右各1°、距离为d1的扇形范围内干扰敌方无人机所有频点的雷达,设无人机在时间步t时选择的干扰频点为F3t(Ai),则有:
对于攻击模块,无人机向敌方无人机探测列表中的一架敌方无人机发射短距离导弹,距离为d2或长距离导弹,距离为d3,设该无人机选择攻击的敌方无人机为探测列表中的Li(1≤i≤n),该无人机选择发射的导弹种类为p,当p=0时,无人机不发射导弹,当p=1时,无人机发射短距离导弹;当p=2时,无人机发射长距离导弹,该无人机是否还有该种类的导弹为w(p),当w(p)=0时,无人机没有该类型的导弹;当w(p)=1时,无人机有该类型的导弹;默认w(0)=0,设无人机在时间步t时选择的攻击动作为F4t(Ai),则有:
F4t(Ai)=w(p)×((p-1)×n+Li)
由此,无人机智能体在时间步t时的动作空间可由集合{F1(Ai),F2(Ai),F3(Ai),F4(Ai)}表示;
对于多无人机系统D中的每架无人机A,其在时间步t时的状态表示如下:
无人机Ai在当前时间步t时的位置信息(xit,yit);无人机Ai在当前时间步t时探测到的敌方无人机探测列表Lit,多无人机系统汇总每架无人机的探测列表得到的敌方无人机探测列表LDt(LDt=L1t∪L2t∪...∪Lnt);无人机Ai在当前时间步t时剩余的短距离导弹wit1和长距离导弹数量wit2;
由此,无人机智能体在时间步t时的状态空间可由集合{xit,yit,Lit,wit1,wit2}表示;
由此便构建了多无人机作战的模型。
3.根据权利要求1所述的一种基于深度强化学习的多无人机协同追踪方法,其特征在于,步骤2所述的设置多无人机协同作战的固定规则动作具体如下:
步骤2.1设置探测模块的固定规则动作
对于探测模块,由于敌方无人机在连续步长内干扰到我方无人机随机变化的雷达频点的概率较低,且探测模块的效能更多取决于移动模块中无人机方向的选择,因此在每个时间步时,使用随机数生成雷达频点;
设无人机的雷达频点总数为m,则无人机在时间步t时选择的雷达频点表示为:
F2t(Ai)=random(1,m)
步骤2.2设置干扰模块的固定规则动作
对于干扰模块,引入条件判断,如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机,则对其使用全频道干扰,避免其探测到我方无人机;如果我方无人机未探测到敌方无人机或未连续探测到敌方无人机,则使用随机数生成干扰频点;
因此无人机在时间步t时选择的干扰频点可表示为:
步骤2.3设置攻击模块的固定规则动作
对于攻击模块,引入条件判断,如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机,则发射选择发射导弹,设当前时刻我方无人机和敌方无人机的位置分别为(x1t,y1t)和(x2t,y2t),则我方无人机与敌方无人机间的距离为
若距离d在短距离导弹射程范围内,且短距离导弹有剩余,则发射短距离导弹;若距离d在长距离导弹射程范围内,且长距离导弹有剩余,则发射长距离导弹;否则不发射导弹;
设短距离导弹射程范围为d2,长距离导弹射程范围为d3,则无人机在时间步t时选择的攻击动作可表示为:
由此便设置了多无人机协同作战的固定规则动作。
4.根据权利要求1所述的一种基于深度强化学习的多无人机协同追踪方法,其特征在于,步骤3所述的设置多无人机的初始位置和追踪条件具体如下:
步骤3.1开局初始位置调整
开局时,设我方无人机均处于地图左侧,敌方无人机均处于地图右侧,且双方无人机均一字排开,且无人机间的距离为常数,即:
x10=x20=...=xn0
y20-y10=y30-y20=...=yn0-y(n-1)0
为了使无人机系统在对局中能在开局占得先机,因此在开局时需要对无人机系统中每架无人机的初始位置进行调整,在t1个时间步长内,将多无人机系统的阵型调整为雁形,从而在与敌方无人机碰面时取得一定优势;
设多无人机系统中的所有无人机的速度相同均为v,则领队向右侧移动的距离为:
其在t1时刻的位置为:
设将无人机系统调整为雁形时两侧无人机与x轴的夹角为θ,两两相邻无人机间的距离相等为d4,则此时无人机Ai的位置为:
此时无人机Ai的位置为:
由此,便将多无人机系统的阵型调整为了雁形;
步骤3.2协同追踪条件判断
当多无人机系统完成阵型调整后,其开始探索地图并通过当前时间步的探测信息进行协同追踪条件判断,即多无人机系统在t1后的每个时间步t进行条件判断,如果存在某架无人机Ai探测到敌方无人机,且该无人机Ai周围半径为r的圆内的友方无人机数目(包含自身)与这些友方无人机探测到的敌方无人机数目之比大于等于2,则协同追踪条件通过,否则不通过;
设协同追踪条件为f(t,i),则有
其中,⊙为以无人机Ai当前位置为圆心,r为半径的单位圆,LK为敌方无人机探测列表LDt在t时刻中所有满足k∈⊙条件的敌方无人机k所组成的列表;
由此,便完成了对协同追踪条件的设置,无人机可以通过协同追踪条件进行判断并依此选择移动模块的动作。
5.根据权利要求1所述的一种基于深度强化学习的多无人机协同追踪方法,其特征在于,步骤4所述的设置无人机智能体强化学习的状态、动作和奖励函数具体如下:
对于多无人机系统中的每架无人机智能体Ai,其通过强化学习的方法寻找在状态S下的最优动作a,通过与环境的交互以求取得最大化的奖励R;
其中,状态S包括无人机智能体Ai在当前时间步t时的位置信息(xit,yit);无人机智能体Ai在当前时间步t时探测到的敌方无人机探测列表Lit;无人机智能体Ai在当前时间步t时剩余的短距离导弹wit1和长距离导弹数量wit2以及当前时刻无人机智能体Ai的追踪条件f(t,i);
动作a为无人机智能体Ai在时间步t时选择的方向F1t(Ai),由于F1t(Ai)的取值为0-359°中的任意一个方向,训练维度过大,收敛难度较高,因此设置F1t(Ai)为15°的整数倍共24种取值,这样在不妨碍无人机转向的同时大大减小了训练的维度;
奖励R包括了以下几个部分:
(1)无人机探测到敌方无人机的奖励r1;
(2)无人机发射导弹并击中敌方无人机的奖励r2和我方无人机被敌方无人机导弹击中的惩罚r2’;
(3)无人机正确使用协同追踪条件的奖励r3、r4;
若无人机智能体Ai在f(t,i)=1时,对探测列表中发现的敌方无人机进行协同追踪,即无人机Ai和在该无人机Ai周围半径为r的圆内的友方无人机同时向敌方无人机所在位置移动,则获得奖励r3;若无人机智能体Ai在f(t,i)=0时,无人机Ai随机选择向最近的友方无人机汇合或是向自身与该敌方无人机连线夹角大于等于90°的方向进行探索,则获得奖励r4;
(4)避免无人机原地不动的惩罚r5
由于当无人机选择在原地转圈不动时,依然有较大的概率得到奖励r4,从而在训练的过程中陷入原地转圈不动的局部最优情况,因此必须引入惩罚措施,计算无人机在连续τ个时间步内的位移,并根据位移的大小给予无人机智能体相应的惩罚;
设无人机系统D中的某架无人机为Ai,其在连续的τ个时间步内的位置分别为{(x1,y1),(x2,y2),...,(xτ,yτ)},则其在τ个时间步长上的位移为:
若无人机在τ个时间步内原地转圈不动,则其位移Δ较小;若无人机正常追踪敌方无人机或搜索地图,则其位移Δ必然大于某特定值,因此,该无人机Ai在τ个时间步长上的位移Δ与惩罚r5可近似用反比例函数描述,并通过适当的修正使其能满足所有情况;
设置惩罚函数如下:
其中,Ct为比例系数,可适用于不同的场景下修改训练;δ为一个和位移相比可以忽略的小量,防止当Δ恰好为0时,函数值为无穷大;ε为奖励补偿,使无人机在τ个时间步长上的位移Δ大于某特定值时,不会进行距离奖励值的衰减;max函数为激活函数,使得当Δ大于某特定值,即时,惩罚函数r5的值为0;
由此,便完成了对无人机智能体强化学习的状态、动作和奖励函数的设置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310169927.7A CN116127848A (zh) | 2023-02-27 | 2023-02-27 | 一种基于深度强化学习的多无人机协同追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310169927.7A CN116127848A (zh) | 2023-02-27 | 2023-02-27 | 一种基于深度强化学习的多无人机协同追踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127848A true CN116127848A (zh) | 2023-05-16 |
Family
ID=86301079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310169927.7A Pending CN116127848A (zh) | 2023-02-27 | 2023-02-27 | 一种基于深度强化学习的多无人机协同追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127848A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116600265A (zh) * | 2023-06-02 | 2023-08-15 | 东南大学 | 一种基于多智能体qmix算法的无人艇自组网路由方法 |
CN116739077A (zh) * | 2023-08-16 | 2023-09-12 | 西南交通大学 | 一种基于课程学习的多智能体深度强化学习方法和装置 |
-
2023
- 2023-02-27 CN CN202310169927.7A patent/CN116127848A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116600265A (zh) * | 2023-06-02 | 2023-08-15 | 东南大学 | 一种基于多智能体qmix算法的无人艇自组网路由方法 |
CN116600265B (zh) * | 2023-06-02 | 2024-04-05 | 东南大学 | 一种基于多智能体qmix算法的无人艇自组网路由方法 |
CN116739077A (zh) * | 2023-08-16 | 2023-09-12 | 西南交通大学 | 一种基于课程学习的多智能体深度强化学习方法和装置 |
CN116739077B (zh) * | 2023-08-16 | 2023-10-31 | 西南交通大学 | 一种基于课程学习的多智能体深度强化学习方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116127848A (zh) | 一种基于深度强化学习的多无人机协同追踪方法 | |
CN108680063B (zh) | 一种针对大规模无人机集群动态对抗的决策方法 | |
CN111260031B (zh) | 一种基于深度强化学习的无人机集群目标防卫方法 | |
CN113095481B (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN113093802B (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
CN113741525B (zh) | 基于策略集合maddpg多无人机协同攻防对抗方法 | |
CN112269396A (zh) | 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法 | |
CN113420326B (zh) | 面向深度强化学习的模型隐私保护方法和系统 | |
CN112783209A (zh) | 一种基于鸽群智能竞争学习的无人机集群对抗控制方法 | |
CN114460959A (zh) | 一种基于多体博弈的无人机群协同自主决策方法及装置 | |
CN113159266B (zh) | 基于麻雀搜索神经网络的空战机动决策方法 | |
CN114063644B (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
CN112306070A (zh) | 基于区间信息博弈的多auv动态机动决策方法 | |
CN115688268A (zh) | 一种飞行器近距空战态势评估自适应权重设计方法 | |
CN115525058B (zh) | 一种基于深度强化学习的无人潜航器集群协同对抗方法 | |
CN116128095B (zh) | 一种地空无人平台作战效能评估方法 | |
CN113221444A (zh) | 一种面向空中智能博弈的行为模仿训练方法 | |
CN113741186A (zh) | 一种基于近端策略优化的双机空战决策方法 | |
CN117313561A (zh) | 无人机智能决策模型训练方法及无人机智能决策方法 | |
CN116432030A (zh) | 一种基于深度强化学习的空战多意图策略自主生成方法 | |
CN116225065A (zh) | 多智能体强化学习的多自由度模型的无人机协同追捕方法 | |
Yang et al. | Decomposed and Prioritized Experience Replay-based MADDPG Algorithm for Multi-UAV Confrontation | |
Zuo | A deep reinforcement learning methods based on deterministic policy gradient for multi-agent cooperative competition | |
CN117171984A (zh) | 一种基于深度强化学习的空战机动决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |