CN113207128A - 强化学习下的无人机集群雷达通信一体化资源分配方法 - Google Patents

强化学习下的无人机集群雷达通信一体化资源分配方法 Download PDF

Info

Publication number
CN113207128A
CN113207128A CN202110492856.5A CN202110492856A CN113207128A CN 113207128 A CN113207128 A CN 113207128A CN 202110492856 A CN202110492856 A CN 202110492856A CN 113207128 A CN113207128 A CN 113207128A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
radar
individual
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110492856.5A
Other languages
English (en)
Other versions
CN113207128B (zh
Inventor
陈鹏
汪敏
杨子晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110492856.5A priority Critical patent/CN113207128B/zh
Publication of CN113207128A publication Critical patent/CN113207128A/zh
Application granted granted Critical
Publication of CN113207128B publication Critical patent/CN113207128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • H04W16/28Cell structures using beam steering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种强化学习下的无人机集群雷达通信一体化资源分配方法。涉及的资源主要包括波束、频谱、功率等资源。所述内容包括以下步骤:对无人机集群雷达通信系统进行搭建,分为无人机集群和探测目标群体;构建总性能表征指标,总性能表征指标分别由通信和雷达表征指标按比重合成,通信表征指标是通信率,雷达表征指标是互信息;构建强化学习和深度强化学习;构建相应强化学习和深度强化学习算法;对单个资源进行有效分配,对双资源进行有效分配,对多资源进行有效的分配。本发明提供的方法,能更有效的对无人机集群雷达通信一体化系统进行合理的资源分配,提高资源利用率。

Description

强化学习下的无人机集群雷达通信一体化资源分配方法
技术领域
本发明属于雷达与信号处理技术和人工智能技术领域,尤其涉及一种基于强化学习下的无人机集群雷达通信一体化资源分配方法。
背景技术
近年来,由于单个无人机的作战能力不能完全支持任务的成功完成以及民用商业和军事任务的复杂性和多样化日益加重,再加上任务的类型复杂化和效率要求的提高都促使无人机集群处理任务出现和发展。因此,无人机的应用领域被广泛采用,可应用于民用领域的物流配送、农业植物保护等方面,可用于军事领域的侦察突袭、电子对抗和通信导航。
雷达和通信是无人机的两个主要方向。前者主要用于无人机的协同定位与导航。后者主要指无人机与辅助现有通信之间的通信,如电力应急通信中的无人机通信、基于LTE网络模型的无人机通信、基于模块化能量动态聚类的无人机高效辅助通信。因此,也牵扯到两者任务资源问题。现阶段主要针对雷达任务相对应的资源进行有效的分配,或者对通信任务所对应的资源进行合理的分配。
但是雷达-通信一体化已经列入议程,这两个任务往往需要一起完成。现阶段主要从雷达-通信集成的信息理论、雷达-通信集成的信号处理、雷达-通信集成协议及系统架构设计、分时、空域共享、频谱共享等方面进行研究。雷达-通信综合信息理论主要探讨了雷达通信原有指标的统一,可以更好地衡量感知和通信质量。雷达通信综合信号处理包括综合波形设计、联合发射波束形成和联合信号接收,可以有效地节约频谱资源,但它们的性能会相互影响。雷达通信集成协议和系统架构的设计是为了实现雷达与通信功能之间的不干扰甚至协同传输,设计一种新的传输协议和系统架构。分时是指在不同的时间完成不同的任务,在执行雷达任务时停止通信任务,在执行通信任务时停止雷达任务。该方法虽然设计简单,但适用性较差。空时共享是指使用子波束方法,其中阵列表面因不同目的发生局部故障,包括雷达、通信。适用性较强,但对相互性能影响较大。从频谱共享的角度,根据单目标划分频段,分别建立新的信号模型和性能指标。并且可以解决无线通信设备数量随着5G时代的到来呈爆炸性增长趋势,全球通信行业对无线频谱的需求被迫削减和探索。
现有技术主要针对雷达通信一体化信号的设计,将数字化的通信信息经串并转换分配给各个子载波,用于调制各个子载波上相位编码编码序列相对于原始序列的移位情况。系统采用综合射频前端,雷达和通信信号采用不同的信号处理系统,完成相应的功能。用通信数据控制子载波相位编码移位,以软扩频的方式实现高效的通信传输,通过周期自相关性良好的相位编码序列的随机移位来保证较好的雷达探测性能。虽然提高了频谱利用率,但是雷达和通信之间存在很大的干扰。或者如在传统的OFDM通信雷达一体化方案上提出的一种基于CEOFDM的可提高有效数据传输速率和解决OFDM信号PAPR过高问题的通过通信信息补偿的超分辨雷达通信一体化方案。主要针对通信率的提高而进行频谱资源的合理分配,无法灵活的调控对通信或者雷达任务的侧重。
发明内容
本发明目的在于提供一种强化学习下的无人机集群雷达通信一体化资源分配方法,以解决上述的技术问题。以上的技术问题主要分为两种,第一种是针对雷达通信一体化信号的设计,雷达通信一体化信号的设计既需要满足通信的要求又需要满足雷达的实现。系统采用综合射频前端,雷达和通信信号采用不同的信号处理系统,完成相应的功能。用通信数据控制子载波相位编码移位,以软扩频的方式实现高效的通信传输,通过周期自相关性良好的相位编码序列的随机移位来保证较好的雷达探测性能。虽然提高了频谱利用率,但是雷达和通信之间存在很大的干扰。第二种主要就是分时处理:
不同时间处理不同任务。虽然有效抑制了通信雷达之间的干扰,但极大的降低了资源利用率。
本发明的具体技术方案如下:
一种强化学习下的无人机集群雷达通信一体化资源分配方法,包括以下步骤:
步骤1、对无人机集群雷达通信系统进行搭建,包括在无人机集群内部进行通信交流和对目标群体进行探测;
步骤2、构建总性能表征指标,总性能表征指标由通信表征指标和雷达表征指标按比重合成,通信表征指标是通信率,雷达表征指标是互信息;
步骤3、构建强化学习和深度强化学习的环境模型;
步骤4、构建相应强化学习和深度强化学习算法;
步骤5、实现对单资源、双资源以及多资源的有效分配。
进一步的,步骤2中所述总性能表征指标Treward的最大值为:
Figure BDA0003053074930000031
Figure BDA0003053074930000032
Figure BDA0003053074930000033
m,m'∈(1,2,…N3)
n,n'∈(1,2,…N4)
l,l'∈(1,2,…N5)
其中,s.t.表示约束条件,λ是通信表征指标所对应的比重,(1-λ)是雷达表征指标所对应的比重,N1是无人机集群的个体数量,N2是探测目标的群体数量,N3是波束的数量,N4是每个波束下所对应的信道数量,N5是可选择的功率数量,m表示无人机集群个体被分配的波束序号,m'表示目标群体的个体被分配的波束序号,(1,2,…N3)表示波束集合,存储的是波束序号;
n表示被分配的信道序号,n'表示目标群体的个体被分配的信道序号,(1,2,…N4)表示信道集合,存储的是信道序号;l表示无人机集群的个体被分配的功率序号,l'表示目标群体个体被分配的波束序号,(1,2,…N5)表示功率集合,存储的是功率序号;
Figure BDA0003053074930000041
表示无人机集群中的个体i分配到的在波束m下的信道n,若没有被分到波束,则为0;
Figure BDA0003053074930000042
表示探测目标群体中的个体j分配到的在波束m下的信道n,若没有被分到波束,则为0;
Figure BDA0003053074930000043
表示指定波束情况下对应信道;
Figure BDA0003053074930000044
表示存放指定功率序号的功率,若没有被分配到功率,则为0;
Figure BDA0003053074930000045
表示无人机集群的个体i的通信率,
Figure BDA0003053074930000046
表示探测目标群体的个体j的互信息;
进一步的,步骤2中所述通信表征指标表示如下:
Figure BDA0003053074930000047
Figure BDA0003053074930000048
其中,s.t.表示约束条件,ξcom表示针对无人机集群的个体进行整体归一化,
Figure BDA0003053074930000051
表示无人机集群的个体i的信道损耗,
Figure BDA0003053074930000052
表示无人机集群的个体i'的信道损耗,而个体i'的范围是除了个体i外的所有无人机集群个体,
Figure BDA0003053074930000053
表示探测目标群体的个体j的信道损耗,
Figure BDA0003053074930000054
表示无人机集群的个体i'被分配的功率,γcom表示无人机集群的个体i受到的来自无人机集群其他个体和探测目标群体的干扰,κ为玻尔兹曼常数,T0为系统噪声温度。
进一步的,步骤2中所述雷达表征指标具体如下:
Figure BDA0003053074930000055
其中,
Figure BDA0003053074930000056
表示子信道的信道微元,
Figure BDA0003053074930000057
表示探测目标群体中的个体j分配到的在波束m'下的信道n',若没有被分到波束,则为0。ξradar表示归一化,
Figure BDA0003053074930000058
为第j探测目标的脉冲宽度,
Figure BDA0003053074930000059
表示
Figure BDA00030530749300000510
的傅里叶变换;
Figure BDA00030530749300000511
为探测目标雷达基带信号j;
Figure BDA00030530749300000512
表示i目标响应的傅里叶变换的方差;
Figure BDA00030530749300000513
表示n'(t)的傅里叶变换,γradar为无人机集群共享信息检测目标引起的干扰。
进一步的,步骤3中所述构建强化学习和深度强化学习的环境模型包括状态模型、行为模型和奖励模型;
所述状态模型:由无人机集群个体和探测目标群体的个体所分配的资源情况以及分配结束后所产生的总回报值共同组合而成;
所述行为模型:根据上一时刻状态模型产生需要的行为模型;行为模型涉及到单波束下单信道分配,单功率分配,多波束下多信道分配,多波束下多信道多功率分配;
所述奖励模型:根据所述的总表征指标设定奖励模型。
进一步的,步骤3中所述的强化学习是SARSA和Q-Learning算法;步骤3中所述的深度强化学习算法是DQN和Dueling DQN算法。
本发明的一种强化学习下的无人机集群雷达通信一体化资源分配方法,具有以下优点:
1、本发明克服了雷达通信一体化信号设计造成的雷达和通信之间存在的干扰;
2、本发明提高了雷达通信一体化分时所造成的时间上的资源分配效率,灵活的调控对通信或者雷达任务的侧重;
3、本发明能够进行多种类资源联合分配,达到更加有效的资源分配,推动雷达通信任务的实现。
附图说明
图1为本发明的强化学习下的无人机集群雷达通信一体化资源分配方法流程图;
图2(a)为本发明Q-Learning频谱分配算法收敛曲线;
图2(b)为本发明SARSA频谱资源分配算法收敛曲线;
图3为本发明的频谱资源分配在不同比重下不同算法的总回报对比图;
图4(a)为本发明Q-Learning波束频谱资源分配算法收敛曲线;
图4(b)为本发明SARSA波束频谱资源分配算法收敛曲线;
图4(c)为本发明DQN波束频谱资源分配算法收敛曲线;
图5为本发明的波束频谱资源分配在不同比重下不同算法的总回报对比图;
图6为本发明DQN波束频谱资源分配算法损失曲线;
图7(a)为本发明DQN多资源分配算法收敛曲线;
图7(b)为本发明Dueling DQN多资源分配算法收敛曲线;
图7(c)为本发明Q-Learning多资源分配算法收敛曲线;
图7(d)为本发明SARSA多资源分配算法收敛曲线;
图8(a)为本发明Dueling DQN多资源分配算法损失收敛曲线;
图8(b)为本发明DQN多资源分配算法损失收敛曲线;
图9为本发明的多资源分配在不同比重下不同算法的总回报对比图;
图10为本发明在不同波束下资源分配所得总奖励图;
图11为本发明在不同功率等级下资源分配所得总奖励图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种强化学习下的无人机集群雷达通信一体化资源分配方法做进一步详细的描述。
如图1所示,本发明具体流程如下:
1)对无人机集群雷达通信系统进行搭建,分为无人机集群和探测目标群体,无人机集群内部通信交流和对目标群体进行有效的探测。N1是无人机集群的个体数量,N2是探测目标的群体数量。
2)构建总性能表征指标,总性能表征指标由通信表征指标和雷达表征指标按比重合成,通信表征指标是通信率,雷达表征指标是互信息;
总性能表征指标Treward的最大值为:
Figure BDA0003053074930000071
Figure BDA0003053074930000081
Figure BDA0003053074930000082
m,m'∈(1,2,…N3)
n,n'∈(1,2,…N4)
l,l'∈(1,2,…N5)
其中,s.t.表示约束条件,λ是通信表征指标所对应的比重,(1-λ)是雷达表征指标所对应的比重,N1是无人机集群的个体数量,N2是探测目标的群体数量,N3是波束的数量,N4是每个波束下所对应的信道数量,N5是可选择的功率数量,m表示无人机集群个体被分配的波束序号,m'表示目标群体个体被分配的波束序号,(1,2,…N3)表示波束集合,存储的是波束序号。
n表示被分配的信道序号,n'表示目标群体的个体被分配的信道序号,(1,2,…N4)表示信道集合,存储的是信道序号。l表示无人机集群的个体被分配的功率序号,l'表示目标群体个体被分配的波束序号,(1,2,…N5)表示功率集合,存储的是功率序号。
Figure BDA0003053074930000083
表示无人机集群中的个体i分配到的在波束m下的信道n,如果没有被分到波束,则为0。
Figure BDA0003053074930000084
表示探测目标群体中的个体j分配到的在波束m下的信道n,如果没有被分到波束,则为0。
Figure BDA0003053074930000085
表示指定波束情况下对应信道。
Figure BDA0003053074930000086
表示存放指定功率序号的功率,如果没有被分配到功率,则为0。
Figure BDA0003053074930000087
表示无人机集群的个体i的通信率,
Figure BDA0003053074930000088
表示探测目标群体的个体j的互信息。
将通信速率作为通信性能的评价指标。通信速率可以代表通信链路的性能。通信速率越大,该通道在单位时间内可以传输的最大比特数就越大,性能就越好。通信表征指标具体表示如下:
Figure BDA0003053074930000091
Figure BDA0003053074930000092
其中,ξcom表示针对无人机集群的个体进行整体归一化,
Figure BDA0003053074930000093
表示无人机集群的个体i的信道损耗,
Figure BDA0003053074930000094
表示无人机集群的个体i'的信道损耗,而个体i'的范围是除了个体i外的所有无人机集群个体,
Figure BDA0003053074930000095
表示探测目标群体的个体j的信道损耗,
Figure BDA0003053074930000096
表示无人机集群的个体i'被分配的功率,γcom表示无人机集群的个体i受到的来自无人机集群其他个体和探测目标群体的干扰,κ为玻尔兹曼常数,T0为系统噪声温度。
根据信息论,雷达探测目标可以看作是一个非合作通信问题,即被探测目标不愿意向雷达发送信息。提出了一种性能指标互信息来衡量雷达获取目标信息的能力。雷达表征指标具体如下:
Figure BDA0003053074930000097
其中,
Figure BDA0003053074930000098
表示子信道的信道微元,
Figure BDA0003053074930000099
表示探测目标群体中的个体j分配到的在波束m'下的信道n',若没有被分到波束,则为0。ξradar表示归一化,
Figure BDA00030530749300000911
为第j探测目标的脉冲宽度,
Figure BDA00030530749300000912
表示
Figure BDA00030530749300000913
的傅里叶变换。
Figure BDA00030530749300000914
为探测目标雷达基带信号j。
Figure BDA00030530749300000915
表示i目标响应的傅里叶变换的方差。
Figure BDA00030530749300000916
表示n'(t)的傅里叶变换,γradar为无人机集群共享信息等相关检测目标引起的干扰。
3)构建强化学习和深度强化学习所需要的环境;环境主要分为环境状态,行为,奖励组成。
环境状态的设计非常有意义,因为状态是环境的映射和表示,也是智能体agent采取行动的基础。本发明环境状态Z是由无人机集群个体和探测目标群体的个体所分配的资源情况以及分配结束后所产生的总回报值共同组合而成。具体如下:
Z=(C1,D2,R3,R4)
其中,
Figure BDA0003053074930000101
分别表示无人机集群各个个体和探测群体的各个个体所使用的资源。
Figure BDA0003053074930000102
Figure BDA0003053074930000103
分别表示无人机集群各个个体和探测群体的各个个体对资源分配的奖励。其中,N1为无人机集群数量,N2为探测群体数量。ci=(gj|gj∈G)表示无人机集群个体i采用gj资源,d(j)=(gj|gj∈G)表示探测群体个体i采用gj资源,G表示资源池。
智能体行动的设计:
行动也是agent输出和环境输入的重要组成部分,在本文的资源分配问题中,无人机需要根据其所处的环境分配相应的资源。因此,行动A可以定义为:
A=(a|a∈Atotal)
其中,Atotal为资源的总集合,表示状态s下可用资源的集合。a表示在状态s的位置上要选择的资源。
奖励收入的设计:
奖励是指智能体根据一定的环境状态对环境采取行动后,环境给予的反馈。它是一种行为在某种状态下执行后的计算。该值是否合理,与智能体所能获得的收益密切相关,也与动态资源分配算法的性能有关。在动态资源分配的无人机集群雷达通信一体化系统中,需要给一定的奖励去学习最优资源分配策略,根据使用无人机集群资源用户的情况和检测系统的目标和行动来优化目标的表示标准。此外,考虑到资源选择和资源干扰的可重复性,本文的设计具有终止状态(系统中没有可用资源时所达到的状态)。因此,该资源分配的总评价奖励将在到达终端状态Sterminal给予,中间状态Snormal和Sabnormal转换时的即时奖励可分别设置为0和-1。即时奖励为0意味着中间状态Snormal传输过程是通道不重复的,而即时奖励为-1则意味着中间状态Sabnormal通道重复。整体的奖励评价应该与需要优化的目标函数一致,所以奖励回报可以设计为:
Figure BDA0003053074930000111
4)构建相应强化学习和深度强化学习算法。本发明主要涉及到强化学习算法有Q-Learning算法和SARSA算法。本发明主要涉及到强化学习算法有DQN算法和Dueling DQN算法。
Q-Learning和SARSA的核心原理是通过下一个状态的Q值来更新当前Q值,下一个状态根据TD来估计一个动作的Q值。它们之间唯一的区别是Q值会随着下一个状态或其他东西的动作而更新。前者选择产生最大Q值的动作,后者选择同一策略在此状态下产生的动作。所以前者风险更大,后者更保守。
将深度学习(DL)和强化学习(RL)相结合就是深度强化学习(DRL)算法,主要有DQN、Policy Gradient、Actor critical等算法。利用神经网络较强的表示能力,拟合Q表或采用直接拟合策略来解决状态-动作空间过大或状态-动作空间连续的问题。本发明主要涉及到强化学习算法有DQN算法和Dueling DQN算法。
DQN在Q-Learning的基础上进行了三个方面的修改:使用DL逼近值函数,使用经验回放训练RL的学习过程,分别独立建立目标网络处理时差算法中的TD偏差。这极大地解决了过多移动空间的问题,打破了体验之间的相关性。与DQN的基于值的方法相比,策略梯度是一种基于策略进行梯度下降的方法。最大的优点是可以在连续的时间间隔内选择动作,从而解决了状态-动作空间过大的问题。基于价值的方法,比如Q-Learning,可以在无数的行为中计算价值来选择行为。行动者批评算法是基于价值和基于政策的算法的混合体。该算法通过引入评价机制来解决高方差问题。
Dueling DQN可直接学习哪些状态是有价值的。这个特性非常重要,因为智能体在与环境做互动的过程中,有些状态对应的动作对环境没任何影响。Dueling DQN从Qfunction中剥离出state function和advantage function,state function只用于预测状态state的好坏,而advantage function只用于预测在该状态state下每个action的重要性,这样一来,各个分支各司其职,预测效果更好。因此,相比于DQN而言预测效果和收敛效果都更好些。
5)对单个资源进行有效分配,对双资源进行有效分配,对多资源进行有效的分配。本发明中对单个资源进行分配主要针对频谱资源进行分配。针对频谱资源进行分配时,将波束数量定位单个,雷达通信功率分别设置为固定值。最后与固定资源分配算法进行比较。
具体参数如表1和表2所示。无人机集群数目N1为5,探测群体目标个体数目N2为5,信道总数N4为5,针对探测群体目标个体j的脉冲宽度为
Figure BDA0003053074930000121
εinit表示初始化贪婪度εgap表示每一回合贪婪度的增加量,εend表示最终贪婪度。采用的算法是Q-Learning和SARSA算法。
表1.仿真参数
Figure BDA0003053074930000122
Figure BDA0003053074930000131
表2频谱资源分配算法参数
Figure BDA0003053074930000132
具体结果如图2(a),图2(b)和图3所示,从图2(a)和图2(b)中可以清楚的看出Q-Learning和SARSA算法在早期学习的总奖励值并不高。随着迭代次数的增加,总奖励值趋于最高,并达到一个稳定值。其次,Q-Learning算法收敛所需要的迭代次数远远大于SARSA所需要的迭代次数。Q-Learning收敛于6000个回合左右,而SARSA收敛于1500个回合。SARSA具有更好的收敛性能。主要原因是SARSA与Q-Learning相比是一种风险规避算法。
如图3所示,有三种信道分配方式,即Q-Learning信道分配、SARSA信道分配和固定信道分配。固定信道分配是固定资源分配的一种方式,它是按照预置的分配方式固定的,不改变。固定资源分配包括固定波束分配、固定信道分配、固定功率分配等。从图中可以明显看出Q-Learning和SARSA信道分配算法优于固定信道分配算法。然而,Q-Learning和SARSA的信道分配算法并没有太大的区别。
双资源分配主要针对波束和频谱资源,此时,无人机集群各个个体以及探测群体各个个体所对应的功率值分别固定不变。最后与固定资源分配算法进行比较。具体参数除了表1之外,还加上了波束数量N3。无人机集群数目N1为5,探测群体目标个体数目N2为5,每个波束下信道总数N4为2。采用的算法是Q-Learning,SARSA和DQN算法。三种算法具体参数如表3:
表3双资源分配算法参数
Figure BDA0003053074930000141
其中,DQN算法属于深度强化学习算法,所以含神经网络框架结构,主要包含神经网络输入层,隐藏层和输出层。Linear表示线性函数,用于输入层和输出层线性函数。而为了打破线性,可以采用激活函数。激活函数用来增加非线性因素的,提高模型拟合能力。如果不存在激活函数,神经网络的每一层的输入都是对前面输入的线性变化,就算把网络加到很深也无法去拟合任意函数的。ReLU就是激活函数。输入层维度是状态S的维度,隐藏层采用10个神经元,输出层是对应的行为A维度。
具体结果收敛如图4(a),图4(b),图4(c)和图5所示,Q-Learning和SARSA分别在迭代5800和6000回合就收敛了,而DQN其实已经在迭代2000回合的时候就已经收敛了。而DQN的loss函数也在迭代2000回合时收敛趋近于0。相对于Q-Learning和SARSA算法,DQN就是在Q-Learning的基础上进行了三个方面的修改:使用DL逼近值函数,使用经验回放训练RL的学习过程,分别独立建立目标网络处理时差算法中的TD偏差。这极大地解决了过多移动空间的问题,打破了体验之间的相关性。
如图6所示,有4种波束与信道的分配方式,即Q-Learning,SARSA,DQN和固定波束与信道资源分配。从图中可以明显看出Q-Learning,SARSA和DQN波束与信道分配算法优于固定信道分配算法。然而,Q-Learning和SARSA的波束与信道分配算法并没有太大的区别。但是DQN波束与信道分配算法优于Q-Learning和SARSA的波束与信道分配算法。
多资源分配是指波束,频谱,功率非固定不变,皆可变。最后与固定资源分配算法进行比较。具体参数除了表1之外,还加上了波束数量N3为2,功率数量N5为2。无人机集群数目N1为5,探测群体目标个体数目N2为5,每个波束下信道总数N4为2。采用的算法是Q-Learning,SARSA,DQN和Dueling DQN算法。四种算法具体参数如表4:
Figure BDA0003053074930000151
Figure BDA0003053074930000161
其中,DQN和Dueling DQN算法属于深度强化学习算法,所以含神经网络框架结构,主要包含神经网络输入层,隐藏层和输出层。Linear表示线性函数,用于输入层和输出层线性函数。ReLU就是激活函数,用于打破线性。输入层维度是状态S的维度,隐藏层的维度是20,前者输出层是对应的行为A维度,后者输出层主要对应的是维度1和维度A。
具体结果收敛如图7(a),图7(b),图7(c),图7(d),图8(a)和图8(b)所示,Q-Learning和SARSA分别在迭代2500和1800回合就收敛了,而DQN和Dueling DQN分别在迭代2100回合和2000回合的时候就已经收敛了。虽然Dueling DQN的loss函数已经趋于0,而DQN的loss函数一直趋于平坦方式。相对于Q-Learning和SARSA算法,DQN和Dueling DQN所达到的回报值更好一些。
如图9所示,有5种资源分配方式,即Q-Learning,SARSA,DQN,Dueling DQN和固定资源分配算法。从图中可以明显看出Q-Learning,SARSA,DQN和Dueling DQN资源分配算法优于固定信道分配算法。然而,Q-Learning和SARSA的资源分配算法并没有太大的区别。但是DQN和Dueling DQN资源分配算法优于Q-Learning和SARSA的资源分配算法。而DuelingDQN资源分配算法最优。
如图10所示,是在不同波束下进行波束,频谱和功率资源的合理分配。波束取值范围是1~8,每个波束下对应信道是2个,对应功率等级为2。无人机集群数量是10,探测集群个体目标数量也是10。这里主要采用了DQN和Dueling DQN算法在无人机集群雷达通信一体化中进行资源的合理分配。主要由于DQN和Dueling DQN所能容忍的数据集远远大于Q-Learning和SARAS算法。从图中明显可以看出,两种算法所获得的总回报远远大于固定资源分配算法。
如图11所示,是在不同功率等级的情况下进行波束,频谱和功率资源的合理分配。功率等级取值范围是2~8,对应的波束数量为2,每个波束下对应的信道也是2个。无人机集群数量是10,探测集群个体目标数量也是10。这里主要采用了DQN和Dueling DQN算法在无人机集群雷达通信一体化中进行资源的合理分配。从图中明显可以看出,两种算法所获得的总回报远远大于固定资源分配算法。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (6)

1.一种强化学习下的无人机集群雷达通信一体化资源分配方法,其特征在于,包括以下步骤:
步骤1、对无人机集群雷达通信系统进行搭建,包括在无人机集群内部进行通信交流和对目标群体进行探测;
步骤2、构建总性能表征指标,总性能表征指标由通信表征指标和雷达表征指标按比重合成,通信表征指标是通信率,雷达表征指标是互信息;
步骤3、构建强化学习和深度强化学习的环境模型;
步骤4、构建相应强化学习和深度强化学习算法;
步骤5、实现对单资源、双资源以及多资源的有效分配。
2.根据权利要求1所述的强化学习下的无人机集群雷达通信一体化资源分配方法,其特征在于,步骤2中所述总性能表征指标Treward的最大值为:
Figure FDA0003053074920000011
Figure FDA0003053074920000012
Figure FDA0003053074920000013
m,m′∈(1,2,…N3)
n,n′∈(1,2,…N4)
l,l′∈(1,2,…N5)
其中,s.t.表示约束条件,λ是通信表征指标所对应的比重,(1-λ)是雷达表征指标所对应的比重,N1是无人机集群的个体数量,N2是探测目标的群体数量,N3是波束的数量,N4是每个波束下所对应的信道数量,N5是可选择的功率数量,m表示无人机集群个体被分配的波束序号,m'表示目标群体的个体被分配的波束序号,(1,2,…N3)表示波束集合,存储的是波束序号;
n表示被分配的信道序号,n'表示目标群体的个体被分配的信道序号,(1,2,…N4)表示信道集合,存储的是信道序号;l表示无人机集群的个体被分配的功率序号,l'表示目标群体个体被分配的波束序号,(1,2,…N5)表示功率集合,存储的是功率序号;
Figure FDA0003053074920000021
表示无人机集群中的个体i分配到的在波束m下的信道n,若没有被分到波束,则为0;
Figure FDA0003053074920000022
表示探测目标群体中的个体j分配到的在波束m下的信道n,若没有被分到波束,则为0;
Figure FDA0003053074920000023
表示指定波束情况下对应信道;
Figure FDA0003053074920000024
表示存放指定功率序号的功率,若没有被分配到功率,则为0;
Figure FDA0003053074920000025
表示无人机集群的个体i的通信率,
Figure FDA0003053074920000026
表示探测目标群体的个体j的互信息。
3.根据权利要求2所述的强化学习下的无人机集群雷达通信一体化资源分配方法,其特征在于,步骤2中所述通信表征指标表示如下:
Figure FDA0003053074920000027
Figure FDA0003053074920000028
其中,s.t.表示约束条件,ξcom表示针对无人机集群的个体进行整体归一化,
Figure FDA0003053074920000029
表示无人机集群的个体i的信道损耗,
Figure FDA00030530749200000210
表示无人机集群的个体i'的信道损耗,而个体i'的范围是除了个体i外的所有无人机集群个体,
Figure FDA00030530749200000211
表示探测目标群体的个体j的信道损耗,
Figure FDA00030530749200000212
表示无人机集群的个体i'被分配的功率,γcom表示无人机集群的个体i受到的来自无人机集群其他个体和探测目标群体的干扰,κ为玻尔兹曼常数,T0为系统噪声温度。
4.根据权利要求3所述的强化学习下的无人机集群雷达通信一体化资源分配方法,其特征在于,步骤2中所述雷达表征指标具体如下:
Figure FDA0003053074920000031
其中,
Figure FDA0003053074920000032
表示子信道的信道微元,
Figure FDA0003053074920000033
表示探测目标群体中的个体j分配到的在波束m'下的信道n',若没有被分到波束,则为0。ξradar表示归一化,
Figure FDA0003053074920000034
为第j探测目标的脉冲宽度,
Figure FDA0003053074920000035
表示
Figure FDA0003053074920000036
的傅里叶变换;
Figure FDA0003053074920000037
为探测目标雷达基带信号j;
Figure FDA0003053074920000038
表示i目标响应的傅里叶变换的方差;
Figure FDA0003053074920000039
表示n'(t)的傅里叶变换,γradar为无人机集群共享信息检测目标引起的干扰。
5.根据权利要求4所述的强化学习下的无人机集群雷达通信一体化资源分配方法,其特征在于,步骤3中所述构建强化学习和深度强化学习的环境模型包括状态模型、行为模型和奖励模型;
所述状态模型:由无人机集群个体和探测目标群体的个体所分配的资源情况以及分配结束后所产生的总回报值共同组合而成;
所述行为模型:根据上一时刻状态模型产生需要的行为模型;行为模型涉及到单波束下单信道分配,单功率分配,多波束下多信道分配,多波束下多信道多功率分配;
所述奖励模型:根据所述的总表征指标设定奖励模型。
6.根据权利要求5所述的强化学习下的无人机集群雷达通信一体化资源分配方法,其特征在于,步骤3中所述的强化学习是SARSA和Q-Learning算法;步骤3中所述的深度强化学习算法是DQN和Dueling DQN算法。
CN202110492856.5A 2021-05-07 2021-05-07 强化学习下的无人机集群雷达通信一体化资源分配方法 Active CN113207128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110492856.5A CN113207128B (zh) 2021-05-07 2021-05-07 强化学习下的无人机集群雷达通信一体化资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110492856.5A CN113207128B (zh) 2021-05-07 2021-05-07 强化学习下的无人机集群雷达通信一体化资源分配方法

Publications (2)

Publication Number Publication Date
CN113207128A true CN113207128A (zh) 2021-08-03
CN113207128B CN113207128B (zh) 2022-12-06

Family

ID=77029108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110492856.5A Active CN113207128B (zh) 2021-05-07 2021-05-07 强化学习下的无人机集群雷达通信一体化资源分配方法

Country Status (1)

Country Link
CN (1) CN113207128B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114679729A (zh) * 2022-03-31 2022-06-28 中国电子科技集团公司第二十八研究所 一种雷达通信一体化的无人机协同多目标探测方法
CN114710200A (zh) * 2022-04-07 2022-07-05 中国科学院计算机网络信息中心 一种基于强化学习的卫星网络资源编排方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111132335A (zh) * 2019-12-16 2020-05-08 南京航空航天大学 雷达通信一体化系统子载波聚类与功率联合分配方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111132335A (zh) * 2019-12-16 2020-05-08 南京航空航天大学 雷达通信一体化系统子载波聚类与功率联合分配方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114679729A (zh) * 2022-03-31 2022-06-28 中国电子科技集团公司第二十八研究所 一种雷达通信一体化的无人机协同多目标探测方法
CN114679729B (zh) * 2022-03-31 2024-04-30 中国电子科技集团公司第二十八研究所 一种雷达通信一体化的无人机协同多目标探测方法
CN114710200A (zh) * 2022-04-07 2022-07-05 中国科学院计算机网络信息中心 一种基于强化学习的卫星网络资源编排方法及系统

Also Published As

Publication number Publication date
CN113207128B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN108632831B (zh) 一种基于动态航迹的无人机群频谱资源分配方法
CN111093203B (zh) 一种基于环境感知的服务功能链低成本智能部署方法
CN110730031B (zh) 一种用于多载波通信的无人机轨迹与资源分配联合优化方法
CN113207128B (zh) 强化学习下的无人机集群雷达通信一体化资源分配方法
CN110286694B (zh) 一种多领导者的无人机编队协同控制方法
CN101534510B (zh) 用于分布式频谱共享的方法及系统
CN104620643B (zh) 用于无线网络中的下行功率控制和调度的系统和方法
CN112020001B (zh) 无人机多站多机系统时隙资源分配方法
CN113490219A (zh) 一种面向超密集组网的动态资源分配方法
CN114885422A (zh) 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法
Xu et al. A discrete-time mean field game in multi-UAV wireless communication systems
CN117833997B (zh) 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法
CN110677858B (zh) 基于物联网任务迁移周期的传输功率与计算资源分配方法
CN113541768B (zh) 一种基于noma的leo卫星通信系统频点分配方法
Cui et al. Joint computation offloading and resource management for usvs cluster of fog-cloud computing architecture
CN114879195A (zh) 基于资源调度的无人机集群雷达通信一体化方法
CN111917444B (zh) 一种适用于毫米波mimo-noma系统的资源分配方法
CN109768839A (zh) 基于改进混沌粒子群算法的认知无线电频谱分配方法
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN115765826A (zh) 一种面向按需服务的无人机网络拓扑重构方法
CN116471694A (zh) 一种无线通信系统的调度控制方法及装置
CN113395757A (zh) 基于改进回报函数的深度强化学习认知网络功率控制方法
Chen et al. Learning-aided multi-UAV online trajectory coordination and resource allocation for mobile WSNs
CN114125700B (zh) 一种基于车联网的雷达通信一体化功率控制方法
CN117241300B (zh) 一种无人机辅助的通感算网络融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant