CN113207128A

CN113207128A - 强化学习下的无人机集群雷达通信一体化资源分配方法

Info

Publication number: CN113207128A
Application number: CN202110492856.5A
Authority: CN
Inventors: 陈鹏; 汪敏; 杨子晗
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-08-03
Anticipated expiration: 2041-05-07
Also published as: CN113207128B

Abstract

本发明公开了一种强化学习下的无人机集群雷达通信一体化资源分配方法。涉及的资源主要包括波束、频谱、功率等资源。所述内容包括以下步骤：对无人机集群雷达通信系统进行搭建，分为无人机集群和探测目标群体；构建总性能表征指标，总性能表征指标分别由通信和雷达表征指标按比重合成，通信表征指标是通信率，雷达表征指标是互信息；构建强化学习和深度强化学习；构建相应强化学习和深度强化学习算法；对单个资源进行有效分配，对双资源进行有效分配，对多资源进行有效的分配。本发明提供的方法，能更有效的对无人机集群雷达通信一体化系统进行合理的资源分配，提高资源利用率。

Description

强化学习下的无人机集群雷达通信一体化资源分配方法

技术领域

本发明属于雷达与信号处理技术和人工智能技术领域，尤其涉及一种基于强化学习下的无人机集群雷达通信一体化资源分配方法。

背景技术

近年来，由于单个无人机的作战能力不能完全支持任务的成功完成以及民用商业和军事任务的复杂性和多样化日益加重,再加上任务的类型复杂化和效率要求的提高都促使无人机集群处理任务出现和发展。因此，无人机的应用领域被广泛采用，可应用于民用领域的物流配送、农业植物保护等方面，可用于军事领域的侦察突袭、电子对抗和通信导航。

雷达和通信是无人机的两个主要方向。前者主要用于无人机的协同定位与导航。后者主要指无人机与辅助现有通信之间的通信，如电力应急通信中的无人机通信、基于LTE网络模型的无人机通信、基于模块化能量动态聚类的无人机高效辅助通信。因此，也牵扯到两者任务资源问题。现阶段主要针对雷达任务相对应的资源进行有效的分配，或者对通信任务所对应的资源进行合理的分配。

但是雷达-通信一体化已经列入议程，这两个任务往往需要一起完成。现阶段主要从雷达-通信集成的信息理论、雷达-通信集成的信号处理、雷达-通信集成协议及系统架构设计、分时、空域共享、频谱共享等方面进行研究。雷达-通信综合信息理论主要探讨了雷达通信原有指标的统一，可以更好地衡量感知和通信质量。雷达通信综合信号处理包括综合波形设计、联合发射波束形成和联合信号接收，可以有效地节约频谱资源，但它们的性能会相互影响。雷达通信集成协议和系统架构的设计是为了实现雷达与通信功能之间的不干扰甚至协同传输，设计一种新的传输协议和系统架构。分时是指在不同的时间完成不同的任务，在执行雷达任务时停止通信任务，在执行通信任务时停止雷达任务。该方法虽然设计简单，但适用性较差。空时共享是指使用子波束方法，其中阵列表面因不同目的发生局部故障，包括雷达、通信。适用性较强，但对相互性能影响较大。从频谱共享的角度，根据单目标划分频段，分别建立新的信号模型和性能指标。并且可以解决无线通信设备数量随着5G时代的到来呈爆炸性增长趋势，全球通信行业对无线频谱的需求被迫削减和探索。

现有技术主要针对雷达通信一体化信号的设计,将数字化的通信信息经串并转换分配给各个子载波，用于调制各个子载波上相位编码编码序列相对于原始序列的移位情况。系统采用综合射频前端，雷达和通信信号采用不同的信号处理系统，完成相应的功能。用通信数据控制子载波相位编码移位，以软扩频的方式实现高效的通信传输，通过周期自相关性良好的相位编码序列的随机移位来保证较好的雷达探测性能。虽然提高了频谱利用率，但是雷达和通信之间存在很大的干扰。或者如在传统的OFDM通信雷达一体化方案上提出的一种基于CEOFDM的可提高有效数据传输速率和解决OFDM信号PAPR过高问题的通过通信信息补偿的超分辨雷达通信一体化方案。主要针对通信率的提高而进行频谱资源的合理分配，无法灵活的调控对通信或者雷达任务的侧重。

发明内容

本发明目的在于提供一种强化学习下的无人机集群雷达通信一体化资源分配方法,以解决上述的技术问题。以上的技术问题主要分为两种，第一种是针对雷达通信一体化信号的设计，雷达通信一体化信号的设计既需要满足通信的要求又需要满足雷达的实现。系统采用综合射频前端，雷达和通信信号采用不同的信号处理系统，完成相应的功能。用通信数据控制子载波相位编码移位，以软扩频的方式实现高效的通信传输，通过周期自相关性良好的相位编码序列的随机移位来保证较好的雷达探测性能。虽然提高了频谱利用率，但是雷达和通信之间存在很大的干扰。第二种主要就是分时处理：

不同时间处理不同任务。虽然有效抑制了通信雷达之间的干扰，但极大的降低了资源利用率。

本发明的具体技术方案如下：

一种强化学习下的无人机集群雷达通信一体化资源分配方法，包括以下步骤：

步骤1、对无人机集群雷达通信系统进行搭建，包括在无人机集群内部进行通信交流和对目标群体进行探测；

步骤2、构建总性能表征指标，总性能表征指标由通信表征指标和雷达表征指标按比重合成，通信表征指标是通信率，雷达表征指标是互信息；

步骤3、构建强化学习和深度强化学习的环境模型；

步骤4、构建相应强化学习和深度强化学习算法；

步骤5、实现对单资源、双资源以及多资源的有效分配。

进一步的，步骤2中所述总性能表征指标T_reward的最大值为：

m,m'∈(1,2,…N₃)

n,n'∈(1,2,…N₄)

l,l'∈(1,2,…N₅)

其中，s.t.表示约束条件，λ是通信表征指标所对应的比重，(1-λ)是雷达表征指标所对应的比重，N₁是无人机集群的个体数量，N₂是探测目标的群体数量，N₃是波束的数量，N₄是每个波束下所对应的信道数量，N₅是可选择的功率数量，m表示无人机集群个体被分配的波束序号，m'表示目标群体的个体被分配的波束序号，(1,2,…N₃)表示波束集合，存储的是波束序号；

n表示被分配的信道序号，n'表示目标群体的个体被分配的信道序号，(1,2,…N₄)表示信道集合，存储的是信道序号；l表示无人机集群的个体被分配的功率序号，l'表示目标群体个体被分配的波束序号，(1,2,…N₅)表示功率集合，存储的是功率序号；

表示无人机集群中的个体i分配到的在波束m下的信道n,若没有被分到波束，则为0；

表示探测目标群体中的个体j分配到的在波束m下的信道n,若没有被分到波束，则为0；

表示指定波束情况下对应信道；

表示存放指定功率序号的功率，若没有被分配到功率，则为0；

表示无人机集群的个体i的通信率，

表示探测目标群体的个体j的互信息；

进一步的，步骤2中所述通信表征指标表示如下：

其中，s.t.表示约束条件，ξ_com表示针对无人机集群的个体进行整体归一化，

表示无人机集群的个体i的信道损耗，

表示无人机集群的个体i'的信道损耗，而个体i'的范围是除了个体i外的所有无人机集群个体，

表示探测目标群体的个体j的信道损耗，

表示无人机集群的个体i'被分配的功率，γ_com表示无人机集群的个体i受到的来自无人机集群其他个体和探测目标群体的干扰，κ为玻尔兹曼常数，T₀为系统噪声温度。

进一步的，步骤2中所述雷达表征指标具体如下：

其中，

表示子信道的信道微元,

表示探测目标群体中的个体j分配到的在波束m'下的信道n',若没有被分到波束，则为0。ξ_radar表示归一化，

为第j探测目标的脉冲宽度，

表示

的傅里叶变换；

为探测目标雷达基带信号j；

表示i目标响应的傅里叶变换的方差；

表示n'(t)的傅里叶变换，γ_radar为无人机集群共享信息检测目标引起的干扰。

进一步的，步骤3中所述构建强化学习和深度强化学习的环境模型包括状态模型、行为模型和奖励模型；

所述状态模型：由无人机集群个体和探测目标群体的个体所分配的资源情况以及分配结束后所产生的总回报值共同组合而成；

所述行为模型：根据上一时刻状态模型产生需要的行为模型；行为模型涉及到单波束下单信道分配，单功率分配，多波束下多信道分配，多波束下多信道多功率分配；

所述奖励模型：根据所述的总表征指标设定奖励模型。

进一步的，步骤3中所述的强化学习是SARSA和Q-Learning算法；步骤3中所述的深度强化学习算法是DQN和Dueling DQN算法。

本发明的一种强化学习下的无人机集群雷达通信一体化资源分配方法，具有以下优点：

1、本发明克服了雷达通信一体化信号设计造成的雷达和通信之间存在的干扰；

2、本发明提高了雷达通信一体化分时所造成的时间上的资源分配效率，灵活的调控对通信或者雷达任务的侧重；

3、本发明能够进行多种类资源联合分配，达到更加有效的资源分配，推动雷达通信任务的实现。

附图说明

图1为本发明的强化学习下的无人机集群雷达通信一体化资源分配方法流程图；

图2(a)为本发明Q-Learning频谱分配算法收敛曲线；

图2(b)为本发明SARSA频谱资源分配算法收敛曲线；

图3为本发明的频谱资源分配在不同比重下不同算法的总回报对比图；

图4(a)为本发明Q-Learning波束频谱资源分配算法收敛曲线；

图4(b)为本发明SARSA波束频谱资源分配算法收敛曲线；

图4(c)为本发明DQN波束频谱资源分配算法收敛曲线；

图5为本发明的波束频谱资源分配在不同比重下不同算法的总回报对比图；

图6为本发明DQN波束频谱资源分配算法损失曲线；

图7(a)为本发明DQN多资源分配算法收敛曲线；

图7(b)为本发明Dueling DQN多资源分配算法收敛曲线；

图7(c)为本发明Q-Learning多资源分配算法收敛曲线；

图7(d)为本发明SARSA多资源分配算法收敛曲线；

图8(a)为本发明Dueling DQN多资源分配算法损失收敛曲线；

图8(b)为本发明DQN多资源分配算法损失收敛曲线；

图9为本发明的多资源分配在不同比重下不同算法的总回报对比图；

图10为本发明在不同波束下资源分配所得总奖励图；

图11为本发明在不同功率等级下资源分配所得总奖励图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种强化学习下的无人机集群雷达通信一体化资源分配方法做进一步详细的描述。

如图1所示，本发明具体流程如下：

1)对无人机集群雷达通信系统进行搭建，分为无人机集群和探测目标群体，无人机集群内部通信交流和对目标群体进行有效的探测。N₁是无人机集群的个体数量，N₂是探测目标的群体数量。

2)构建总性能表征指标，总性能表征指标由通信表征指标和雷达表征指标按比重合成，通信表征指标是通信率，雷达表征指标是互信息；

总性能表征指标T_reward的最大值为:

m,m'∈(1,2,…N₃)

n,n'∈(1,2,…N₄)

l,l'∈(1,2,…N₅)

其中，s.t.表示约束条件，λ是通信表征指标所对应的比重，(1-λ)是雷达表征指标所对应的比重，N₁是无人机集群的个体数量，N₂是探测目标的群体数量，N₃是波束的数量，N₄是每个波束下所对应的信道数量，N₅是可选择的功率数量，m表示无人机集群个体被分配的波束序号，m'表示目标群体个体被分配的波束序号，(1,2,…N₃)表示波束集合，存储的是波束序号。

n表示被分配的信道序号，n'表示目标群体的个体被分配的信道序号，(1,2,…N₄)表示信道集合，存储的是信道序号。l表示无人机集群的个体被分配的功率序号，l'表示目标群体个体被分配的波束序号，(1,2,…N₅)表示功率集合，存储的是功率序号。

表示无人机集群中的个体i分配到的在波束m下的信道n,如果没有被分到波束，则为0。

表示探测目标群体中的个体j分配到的在波束m下的信道n,如果没有被分到波束，则为0。

表示指定波束情况下对应信道。

表示存放指定功率序号的功率，如果没有被分配到功率，则为0。

表示无人机集群的个体i的通信率，

表示探测目标群体的个体j的互信息。

将通信速率作为通信性能的评价指标。通信速率可以代表通信链路的性能。通信速率越大，该通道在单位时间内可以传输的最大比特数就越大，性能就越好。通信表征指标具体表示如下：

其中，ξ_com表示针对无人机集群的个体进行整体归一化，

表示无人机集群的个体i的信道损耗，

表示探测目标群体的个体j的信道损耗，

根据信息论，雷达探测目标可以看作是一个非合作通信问题，即被探测目标不愿意向雷达发送信息。提出了一种性能指标互信息来衡量雷达获取目标信息的能力。雷达表征指标具体如下：

其中,

表示子信道的信道微元,

为第j探测目标的脉冲宽度，

表示

的傅里叶变换。

为探测目标雷达基带信号j。

表示i目标响应的傅里叶变换的方差。

表示n'(t)的傅里叶变换，γ_radar为无人机集群共享信息等相关检测目标引起的干扰。

3)构建强化学习和深度强化学习所需要的环境；环境主要分为环境状态，行为，奖励组成。

环境状态的设计非常有意义，因为状态是环境的映射和表示，也是智能体agent采取行动的基础。本发明环境状态Z是由无人机集群个体和探测目标群体的个体所分配的资源情况以及分配结束后所产生的总回报值共同组合而成。具体如下：

Z＝(C₁,D₂,R₃,R₄)

其中，

分别表示无人机集群各个个体和探测群体的各个个体所使用的资源。

分别表示无人机集群各个个体和探测群体的各个个体对资源分配的奖励。其中，N₁为无人机集群数量，N₂为探测群体数量。c_i＝(g_j|g_j∈G)表示无人机集群个体i采用g_j资源，d(j)＝(g_j|g_j∈G)表示探测群体个体i采用g_j资源，G表示资源池。

智能体行动的设计：

行动也是agent输出和环境输入的重要组成部分，在本文的资源分配问题中，无人机需要根据其所处的环境分配相应的资源。因此，行动A可以定义为：

A＝(a|a∈A_total)

其中，A_total为资源的总集合，表示状态s下可用资源的集合。a表示在状态s的位置上要选择的资源。

奖励收入的设计：

奖励是指智能体根据一定的环境状态对环境采取行动后，环境给予的反馈。它是一种行为在某种状态下执行后的计算。该值是否合理，与智能体所能获得的收益密切相关，也与动态资源分配算法的性能有关。在动态资源分配的无人机集群雷达通信一体化系统中，需要给一定的奖励去学习最优资源分配策略，根据使用无人机集群资源用户的情况和检测系统的目标和行动来优化目标的表示标准。此外，考虑到资源选择和资源干扰的可重复性，本文的设计具有终止状态(系统中没有可用资源时所达到的状态)。因此，该资源分配的总评价奖励将在到达终端状态S_terminal给予，中间状态S_normal和S_abnormal转换时的即时奖励可分别设置为0和-1。即时奖励为0意味着中间状态S_normal传输过程是通道不重复的，而即时奖励为-1则意味着中间状态S_abnormal通道重复。整体的奖励评价应该与需要优化的目标函数一致，所以奖励回报可以设计为:

4)构建相应强化学习和深度强化学习算法。本发明主要涉及到强化学习算法有Q-Learning算法和SARSA算法。本发明主要涉及到强化学习算法有DQN算法和Dueling DQN算法。

Q-Learning和SARSA的核心原理是通过下一个状态的Q值来更新当前Q值，下一个状态根据TD来估计一个动作的Q值。它们之间唯一的区别是Q值会随着下一个状态或其他东西的动作而更新。前者选择产生最大Q值的动作，后者选择同一策略在此状态下产生的动作。所以前者风险更大，后者更保守。

将深度学习(DL)和强化学习(RL)相结合就是深度强化学习(DRL)算法，主要有DQN、Policy Gradient、Actor critical等算法。利用神经网络较强的表示能力，拟合Q表或采用直接拟合策略来解决状态-动作空间过大或状态-动作空间连续的问题。本发明主要涉及到强化学习算法有DQN算法和Dueling DQN算法。

DQN在Q-Learning的基础上进行了三个方面的修改:使用DL逼近值函数，使用经验回放训练RL的学习过程，分别独立建立目标网络处理时差算法中的TD偏差。这极大地解决了过多移动空间的问题，打破了体验之间的相关性。与DQN的基于值的方法相比，策略梯度是一种基于策略进行梯度下降的方法。最大的优点是可以在连续的时间间隔内选择动作，从而解决了状态-动作空间过大的问题。基于价值的方法，比如Q-Learning，可以在无数的行为中计算价值来选择行为。行动者批评算法是基于价值和基于政策的算法的混合体。该算法通过引入评价机制来解决高方差问题。

Dueling DQN可直接学习哪些状态是有价值的。这个特性非常重要，因为智能体在与环境做互动的过程中，有些状态对应的动作对环境没任何影响。Dueling DQN从Qfunction中剥离出state function和advantage function，state function只用于预测状态state的好坏，而advantage function只用于预测在该状态state下每个action的重要性，这样一来，各个分支各司其职，预测效果更好。因此，相比于DQN而言预测效果和收敛效果都更好些。

5)对单个资源进行有效分配，对双资源进行有效分配，对多资源进行有效的分配。本发明中对单个资源进行分配主要针对频谱资源进行分配。针对频谱资源进行分配时，将波束数量定位单个，雷达通信功率分别设置为固定值。最后与固定资源分配算法进行比较。

具体参数如表1和表2所示。无人机集群数目N₁为5，探测群体目标个体数目N₂为5，信道总数N₄为5，针对探测群体目标个体j的脉冲宽度为

ε_init表示初始化贪婪度ε_gap表示每一回合贪婪度的增加量，ε_end表示最终贪婪度。采用的算法是Q-Learning和SARSA算法。

表1.仿真参数

表2频谱资源分配算法参数

具体结果如图2(a),图2(b)和图3所示，从图2(a)和图2(b)中可以清楚的看出Q-Learning和SARSA算法在早期学习的总奖励值并不高。随着迭代次数的增加，总奖励值趋于最高，并达到一个稳定值。其次，Q-Learning算法收敛所需要的迭代次数远远大于SARSA所需要的迭代次数。Q-Learning收敛于6000个回合左右，而SARSA收敛于1500个回合。SARSA具有更好的收敛性能。主要原因是SARSA与Q-Learning相比是一种风险规避算法。

如图3所示，有三种信道分配方式，即Q-Learning信道分配、SARSA信道分配和固定信道分配。固定信道分配是固定资源分配的一种方式，它是按照预置的分配方式固定的，不改变。固定资源分配包括固定波束分配、固定信道分配、固定功率分配等。从图中可以明显看出Q-Learning和SARSA信道分配算法优于固定信道分配算法。然而，Q-Learning和SARSA的信道分配算法并没有太大的区别。

双资源分配主要针对波束和频谱资源，此时，无人机集群各个个体以及探测群体各个个体所对应的功率值分别固定不变。最后与固定资源分配算法进行比较。具体参数除了表1之外，还加上了波束数量N₃。无人机集群数目N₁为5，探测群体目标个体数目N₂为5，每个波束下信道总数N₄为2。采用的算法是Q-Learning，SARSA和DQN算法。三种算法具体参数如表3：

表3双资源分配算法参数

其中，DQN算法属于深度强化学习算法，所以含神经网络框架结构，主要包含神经网络输入层，隐藏层和输出层。Linear表示线性函数，用于输入层和输出层线性函数。而为了打破线性，可以采用激活函数。激活函数用来增加非线性因素的，提高模型拟合能力。如果不存在激活函数，神经网络的每一层的输入都是对前面输入的线性变化，就算把网络加到很深也无法去拟合任意函数的。ReLU就是激活函数。输入层维度是状态S的维度，隐藏层采用10个神经元，输出层是对应的行为A维度。

具体结果收敛如图4(a),图4(b),图4(c)和图5所示，Q-Learning和SARSA分别在迭代5800和6000回合就收敛了，而DQN其实已经在迭代2000回合的时候就已经收敛了。而DQN的loss函数也在迭代2000回合时收敛趋近于0。相对于Q-Learning和SARSA算法，DQN就是在Q-Learning的基础上进行了三个方面的修改:使用DL逼近值函数，使用经验回放训练RL的学习过程，分别独立建立目标网络处理时差算法中的TD偏差。这极大地解决了过多移动空间的问题，打破了体验之间的相关性。

如图6所示，有4种波束与信道的分配方式，即Q-Learning，SARSA，DQN和固定波束与信道资源分配。从图中可以明显看出Q-Learning，SARSA和DQN波束与信道分配算法优于固定信道分配算法。然而，Q-Learning和SARSA的波束与信道分配算法并没有太大的区别。但是DQN波束与信道分配算法优于Q-Learning和SARSA的波束与信道分配算法。

多资源分配是指波束，频谱，功率非固定不变，皆可变。最后与固定资源分配算法进行比较。具体参数除了表1之外，还加上了波束数量N₃为2，功率数量N₅为2。无人机集群数目N₁为5，探测群体目标个体数目N₂为5，每个波束下信道总数N₄为2。采用的算法是Q-Learning，SARSA，DQN和Dueling DQN算法。四种算法具体参数如表4：

其中，DQN和Dueling DQN算法属于深度强化学习算法，所以含神经网络框架结构，主要包含神经网络输入层，隐藏层和输出层。Linear表示线性函数，用于输入层和输出层线性函数。ReLU就是激活函数,用于打破线性。输入层维度是状态S的维度，隐藏层的维度是20，前者输出层是对应的行为A维度，后者输出层主要对应的是维度1和维度A。

具体结果收敛如图7(a),图7(b),图7(c),图7(d),图8(a)和图8(b)所示，Q-Learning和SARSA分别在迭代2500和1800回合就收敛了，而DQN和Dueling DQN分别在迭代2100回合和2000回合的时候就已经收敛了。虽然Dueling DQN的loss函数已经趋于0，而DQN的loss函数一直趋于平坦方式。相对于Q-Learning和SARSA算法，DQN和Dueling DQN所达到的回报值更好一些。

如图9所示，有5种资源分配方式，即Q-Learning，SARSA，DQN，Dueling DQN和固定资源分配算法。从图中可以明显看出Q-Learning，SARSA，DQN和Dueling DQN资源分配算法优于固定信道分配算法。然而，Q-Learning和SARSA的资源分配算法并没有太大的区别。但是DQN和Dueling DQN资源分配算法优于Q-Learning和SARSA的资源分配算法。而DuelingDQN资源分配算法最优。

如图10所示，是在不同波束下进行波束，频谱和功率资源的合理分配。波束取值范围是1～8，每个波束下对应信道是2个，对应功率等级为2。无人机集群数量是10，探测集群个体目标数量也是10。这里主要采用了DQN和Dueling DQN算法在无人机集群雷达通信一体化中进行资源的合理分配。主要由于DQN和Dueling DQN所能容忍的数据集远远大于Q-Learning和SARAS算法。从图中明显可以看出，两种算法所获得的总回报远远大于固定资源分配算法。

如图11所示，是在不同功率等级的情况下进行波束，频谱和功率资源的合理分配。功率等级取值范围是2～8，对应的波束数量为2，每个波束下对应的信道也是2个。无人机集群数量是10，探测集群个体目标数量也是10。这里主要采用了DQN和Dueling DQN算法在无人机集群雷达通信一体化中进行资源的合理分配。从图中明显可以看出，两种算法所获得的总回报远远大于固定资源分配算法。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。