CN113657016A - 基于深度强化学习的优先级无人机编队动态信道分配方法及其系统 - Google Patents
基于深度强化学习的优先级无人机编队动态信道分配方法及其系统 Download PDFInfo
- Publication number
- CN113657016A CN113657016A CN202010397272.5A CN202010397272A CN113657016A CN 113657016 A CN113657016 A CN 113657016A CN 202010397272 A CN202010397272 A CN 202010397272A CN 113657016 A CN113657016 A CN 113657016A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- network
- aerial vehicle
- reinforcement learning
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000002787 reinforcement Effects 0.000 title claims abstract description 61
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 51
- 230000009471 action Effects 0.000 claims abstract description 70
- 230000006870 function Effects 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000015654 memory Effects 0.000 claims description 72
- 230000007613 environmental effect Effects 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
- H04B7/18506—Communications with or from aircraft, i.e. aeronautical mobile service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Astronomy & Astrophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Mobile Radio Communication Systems (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种基于深度强化学习的优先级无人机编队动态信道分配方法及其系统,该方法包括:对无人机编队信道的动态分配过程建立模型,并在模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,无人机的业务具有优先级;将LSTM加入到DQN中形成改进型深度强化学习网络模型;利用模型对改进型深度强化学习网络模型进行训练;以及利用训练后的改进型深度强化学习网络模型对无人机编队动态分配信道。根据本申请,改善了有优先级的网络下的无人机群网络用频自主决策。通过对无人机编队信道的动态分配过程进行建模来评估无人机因为等待所造成的丢包影响,并且通过将LSTM引入到中加快了DQN训练的收敛速度。
Description
技术领域
本发明属于无线通信技术领域,特别涉及一种基于深度强化学习的优先级无人机编队动态信道分配方法及其系统。
背景技术
无人机单机飞行往往会导致信息获取不全面,鲁棒性差等缺点,而且无人机受限于配重,每架无人机不能安装需要完成任务的所有的传感器,这时必须通过无人机编队中的每个个体进行协同方可完成任务。因此研究无人机飞行编队的方向势在必行,多架无人机的编队相互配合、互相合作的方式,可以在一定程度上提高单架无人机执行任务的成功概率。在军事侦察、目标打击、通信中继、电子对抗、战场评估、灾难评估、测绘等方面,无人机编队飞行都可以提高单无人机的工作效率。
无人机可用频带有限,但无人机传输数据所用的带宽比较大,如果不能有效的分配无人机所使用的信道,就会造成无人机干扰其他频段用户的通信行为,而且如果无人机编队不能进行合理的运用分配有限的资源,就会导致无人机之间进行信道冲突,会使无人机群的通信受到严重的障碍,最终导致任务的失败。这样一来无人机群需要具备临机协同用频的能力,需要在远离控制台的地区实现自主决策,自主分配信道的使用,在保证不干扰其他用户用频的情况下,无人机群内部也可以有条不紊的使用有限的频段,保证任务的成功。
需要提供一种无人机编队动态信道分配方法,用以解决在无人机灾难评估、航拍测绘场景下无人机设备繁多,可供无人机使用的频带有限,从而造成无人机群信道资源不够用的情况。
发明内容
为了解决上述问题,本发明提供一种基于深度强化学习的优先级无人机编队动态信道分配方法,该分配方法能够改善高优先级无人机的延迟情况,满足无人机群任务的轻重缓急,给感知重要信息的无人机提供更多共享的机会,提高任务的成功率。
为了实现上述目的,提供一种基于深度强化学习的优先级无人机编队动态信道分配方法,所述分配方法包括:对无人机编队信道的动态分配过程建立模型,并在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,所述无人机的业务具有优先级;将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型;利用所述模型对所述改进型深度强化学习网络模型进行训练;以及利用训练后的所述改进型深度强化学习网络模型对无人机编队动态分配信道。
进一步地,所述环境状态包括与信道相关的信息,所述动作集合包括无人机的动作,通过切换所述动作集合中的无人机的动作获得所述环境状态的反馈以及奖赏值,所述优先级设置成与通信频率正相关。
进一步地,所述环境状态用于评价无人机在做出动作之后对环境状态所造成的影响,并且,所述环境状态包括信道的容量、无人机通信之间的碰撞情况以及无人机之间对信道的利用率。
进一步地,所述动作集合包括无人机要接入信道以及无人机不接入信道。
进一步地,在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,包括如下步骤:
定义所述环境状态为St={s1,s2,……,sn};
定义所述动作集合为A={a1,a2,……,an},其中,ai∈{0,……,C};
其中,ai表示的是第i个无人机的动作,C表示信道的数目;ai=0,表示这架无人机不接入信道;TPER表示总丢包率,所述奖赏函数与所述总丢包率负关,所述总丢包率通过所述环境状态的无人机通信之间的碰撞情况以及无人机通信频率获得。
进一步地,将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型,包括如下步骤:
S201:将所述环境状态St输入到深度Q网络(DQN)中,输出动作at和奖励值rt以及下一环境状态St+1;
S202:将从深度Q网络(DQN)中获得的(st,at,rt,st+1)输入到长短时记忆网路(LSTM)中,通过长短时记忆网路(LSTM)对(st,at,rt,st+1)进行存储和处理;
S203:将经过长短时记忆网路(LSTM)存储和处理的(st,at,rt,st+1)存入深度Q网络(DQN);以及
S204:深度Q网络(DQN)从经过长短时记忆网路(LSTM)存储和处理的(st,at,rt,st+1)中选取样本,输出最优策略。
进一步地,将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型,包括如下步骤:
S301:初始化深度Q网络(DQN)中的经验回放记忆单元、动作函数值网络的Q值网络、目标值网络以及所述长短时记忆网路(LSTM);
S302:判断回合数是否小于设定值,如果回合数小于设定值,则初始化无人机的所述环境状态的序列St={s1,……,sn},并进行步骤S303,否则,结束;
S303:判断时隙是否小于设定值,如果时隙小于设定值,无人机按照动作选择策略选择动作,并执行所选动作at,获得奖励值rt,并接收下一环境状态的序列St+1,并进行步骤S304,否则,结束;
S304:将环境状态、动作、所获得的奖励值以及所述下一环境状态的序列以动作状态对的形式(st,at,rt,st+1)存入所述长短时记忆网络(LSTM)中;
S305:将从所述长短时记忆网络(LSTM)输出的动作状态对(st,at,rt,st+1)存入所述经验回放记忆单元中,并将所述长短时记忆网络(LSTM)预测的动作状态对(st,at,rt,st+1)存入所述经验回放记忆单元中;
S306:从所述经验回放记忆单元中随机采样,计算获得的奖励值,输出最优策略。
进一步地,在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数包括:通过计算所述环境状态中的剩余信道的数量来确定所述无人机通信之间的碰撞情况。
根据本申请的另一方面,提供一种基于深度强化学习的优先级无人机编队动态信道分配系统,该分配系统包括:信道分配模型建模模块,该信道分配模型建模模块对无人机编队信道的动态分配过程建立模型,并在模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,无人机的业务具有优先级;网络模型建模模块,网络模型建模模块将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型;训练模块,训练模块利用模型对改进型深度强化学习网络模型进行训练;以及信道分配控制器,所述信道分配控制器利用训练后的改进型深度强化学习网络模型对无人机编队动态分配信道。
根据本申请的又一方面,提供一种计算机设备,包括存储器及处理器,所述存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于深度强化学习的优先级无人机编队动态信道分配方法的步骤。
根据本申请的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于深度强化学习的优先级无人机编队动态信道分配方法的步骤。
根据本申请,改善了有优先级的网络下的无人机群网络用频自主决策。通过对无人机编队信道的动态分配过程进行建模来评估无人机因为等待所造成的丢包影响,并且通过将长短时记忆网络(LSTM)引入到深度Q网络(DQN)中加快了训练的收敛速度。并且,本申请采用深度强化学习算法在无人机群没有先验知识的情况下进行自主学习,在通过与环境的不断交互过程中获得最优的策略以进行动态信道分配,从而不需要庞大的数据量,节约成本。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本申请一优选实施例的基于深度强化学习的优先级无人机编队动态信道分配方法的流程图;
图2示出了根据本申请一优选实施例构建的无人机业务具有优先级的网络下动态信道分配模型的示意图;
图3示出了根据本申请一优选实施例将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中的流程图;
图4示出了根据图3所示流程图的一具体实施例;
图5示出了动态信道分配的时隙模型;
图6示出了使用根据本申请的信道分配方法与其他方法获得的无人机业务具有优先级的网络下的动态信道分配的平均碰撞概率曲线比较图;
图7示出了使用根据本申请的信道分配方法与其他方法获得的无人机业务具有优先级的网络下的动态信道分配的平均得分意见曲线比较图;
图8示出了使用根据本申请的信道分配方法与其他方法获得的无人机业务具有优先级的网络下的动态信道分配的信道利用率曲线比较图;
图9示出了使用根据本申请的信道分配方法与其他方法获得的无人机业务具有优先级的网络下的动态信道分配的各无人机时延曲线;
图10示出了根据本申请一优选实施例的基于深度强化学习的优先级无人机编队动态信道分配系统。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
根据本申请,提供一种基于深度强化学习的优先级无人机编队动态信道分配方法,所述分配方法包括:S101:对无人机编队信道的动态分配过程建立模型,并在模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,无人机的业务具有优先级;S102:将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型;S103:利用所述模型对所述改进型深度强化学习网络模型进行训练;以及S104:利用训练后的所述改进型深度强化学习网络模型对无人机编队动态分配信道。
根据本申请的动态信道分配方法能够改善高优先级无人机的延迟情况,满足无人机群任务的轻重缓急,给感知重要信息的无人机提供更多共享的机会,提高任务的成功率。
根据本申请,改善了有优先级的网络下的无人机群网络用频自主决策。通过对无人机编队信道的动态分配过程进行建模来评估无人机因为等待所造成的丢包影响,并且通过将长短时记忆网络(LSTM)引入到深度Q网络(DQN)中,加快了训练的收敛速度。并且,本申请采用深度强化学习算法在无人机群没有先验知识的情况下进行自主学习,在通过与环境的不断交互过程中获得最优的策略以进行动态信道分配,从而不需要庞大的数据量,节约成本。
图1示出了根据本申请一优选实施例的基于深度强化学习的优先级无人机编队动态信道分配方法的流程图。
如图1所示,基于深度强化学习的优先级无人机编队动态信道分配方法包括如下步骤:
S101:对无人机编队信道的动态分配过程建立模型,并在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,其中,无人机的业务具有优先级。
无人机的业务具有优先级,与公平竞争网络不同的是,在有优先级的网络中加入了具有优先级机制的排队模型,无人机之间便划分出了等级关系,在选取接入方案时,必须要考虑竞争者之间的轻重缓急。
图2示出了根据本申请一优选实施例构建的无人机业务具有优先级的网络下动态信道分配模型的示意图。
图2展示了两个信道之间的一个接入方式,这只是一部分的示意图,展示了无人机之间频谱的一种交互方式。如图中所示信道C′是当前时隙下发生冲突的信道,当前时刻UAVi j(优先级为j的第i架无人机)正在占用此信道进行信息的传输,此时优先级为1的无人机要抢占这条信道,由于该无人机由最高优先级,所以UAVi j必须对信道做出让步,它可以有3种选择:停止交互并退出、退回优先级为j的队列等待直到这条信道没有比自己优先级高的无人机抢占、抢占另一条信道(占用该信道的无人机比自己的优先级低)。
信道的动态分配强调的是无人机群之间的匹配情况,本申请中,将无人机群网络的环境状态设为S,动作集合设为A,即时回报奖赏(即,奖赏函数)设为R。在环境中设置无人机的数量为N,信道的数量为C。为了可以将强化学习算法成功地应用于无人机群网络环境,需要对环境进行映射。
环境状态包括与信道相关的信息,环境状态主要是为了评价无人机在做出动作之后对环境状态所造成的影响,这包括积极的影响也包括负面的影响,根据环境状态的变化方便对后面奖赏函数进行设计。本申请中,定义环境状态为St={s1,s2,……,sn}。
环境状态包括环境中状态的集合。在动态信道分配的情况下,环境状态包括信道的容量、无人机通信之间的碰撞情况、以及无人机之间对信道的利用率。
本申请中,通过计算剩余信道的剩余个数来确认无人机通信之间的碰撞情况。根据无人机通信之间的碰撞情况推算或统计出无人机接入的次数。信道的剩余是指在无人机采取信息交换动作之后,成功进行通信的信道便是被占用的信道,剩余的信道便是信道剩余的个数。因此,可以通过剩余的信道剩余的个数便知晓有几架无人机发生了碰撞,也就是说有几架无人机没能成功地进行数据传输。从而,通过剩余的信道的个数也可以计算信道的利用率。
强化学习另外一个十分重要的要素就是动作。动作是无人机与环境交互的必要条件,通过不停的切换动作获得环境的反馈以及奖赏值的参考,无人机便可以尽快地知晓采取什么样的动作才能最大化环境利益。
本申请中,动作集合包括无人机的动作,通过切换动作集合中的无人机的动作获得环境状态的反馈以及奖赏值。将动作集合定义为:
A={a1,a2,……,an}
ai∈{0,……,C}
其中,ai表示的是第i个无人机的动作,也就是说该时隙下,无人机i要接入信道,C代表信道的数目。a1=0,表示这架无人机不接入信道。
根据本申请的一实施例,动作集合包括无人机要接入信道以及无人机不接入信道。
奖赏函数的作用就是用来引导无人机朝着对环境有益的方向执行动作的一个限制条件,一般奖赏函数是根据环境的特点来设定的。根据本申请的一优选实施例,奖赏函数设置成与无人机的优先级相关的函数,优先级设置成与通信频率正相关。在有优先级的网络环境下,将奖赏函数定义如下:
其中TPER代表总丢包率(Total packet error rate,TPER)。总的丢包率越低,无人机所获得的函数值就会越大。总丢包率与奖赏函数负相关。并且,根据本申请,通过环境状态获得总丢包率,具体地,通过环境状态的无人机通信之间的碰撞情况以及无人机通信频率获得。无人机接入信道的次数可以通过环境状态中的无人机通信之间的碰撞情况计算或统计出。根据本申请,无人机通信频率越高其优先级就越高,从而,如果优先级高的无人机接入信道的次数少,那么造成丢包的概率就大,丢包率就比较高。
S102:将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型。
LSTM主要用于保存历史观测数据以及用来预测。具体而言,LSTM用于解决循环神经网络处理长期记忆信息的能力较弱的问题。在强化学习的过程中,更多的历史信息可以帮助无人机更快地了解环境的特征。LSTM网络还可以预测未来无人机行动的环境反馈,从而加快算法的收敛速度。
本申请中,如图3所示,可以通过如下步骤将LSTM加入到DQN中,从而形成改进型深度强化学习网络模型。
S201:将环境状态St输入到深度Q网络DQN中,输出动作at和奖励值rt以及下一环境状态St+1;
S202:将从深度Q网络DQN中获得的(st,at,rt,st+1)输入到长短时记忆网路LSTM中,通过长短时记忆网路LSTM对(st,at,rt,st+1)进行存储和处理;
S203:将经过长短时记忆网路LSTM存储和处理的(st,at,rt,st+1)存入深度Q网络DQN;以及
S204:深度Q网络DQN从经过长短时记忆网路LSTM存储和处理的(st,at,rt,st+1)中选取样本,输出最优策略。
可以在通过深度Q网络获得(st,at,rt,st+1)之后,将所获得的(st,at,rt,st+1)存入长短时记忆网路LSTM中,也就是说,在获得的数据输入到深度Q网络DQN中之前,先经过长短时记忆网路LSTM进行存储和处理。
更具体地,将长短时记忆网路LSTM加入到深度Q网络DQN中形成改进型深度强化学习网络模型可以通过图4所示的流程图实现。
S301:初始化经验回放记忆单元、动作函数值网络的Q值网络、目标值网络以及长短时记忆网路。
在该步骤中,初始化经验回放记忆单元D,将其容量设置为N;初始化动作值函数的Q值网络,并生成一个随机的权重ω;初始化目标值网络Target-net,设置权重为ω;并初始化长短时记忆网路。
S302:判断回合数是否小于设定值,如果回合数小于设定值,则初始化无人机的所述环境状态的序列St={s1,……,sn},并进行步骤S303,否则,结束。
该步骤中,判断回合数是否小于设定值M,其中,M为根据经验值获得的大于等于1的整数。如果回合数小于该设定值M,则初始化无人机的所述环境状态的序列St={s1,……,sn},并进行步骤S303,否则,结束该流程。
S303:判断时隙是否小于设定值,如果时隙小于设定值,无人机按照动作选择策略选择动作,并执行所选动作at,获得奖励值rt,并接收下一环境状态的序列St+1,并进行步骤S304,否则,结束。
判断时隙t是否小于设定值T,其中,T为根据经验设置的大于等于1的整数。
如果时隙t小于设定值T,每架无人机以概率ε选择一个随机的动作at;如果不满足这个概率,选择at=argmaxaQ(φ(st),a;ω);执行at并观察奖励rt和下一状态St+1;并设置St+1={st,at},并进行步骤S304。
如果时隙t大于设定值T,则结束该流程。
S304:将环境状态、动作、所获得的奖励值以及所述下一环境状态的序列以动作状态对的形式(st,at,rt,st+1)存入所述长短时记忆网络(LSTM)中;
该步骤中,将通过步骤S303获得的(st,at,rt,st+1)存入长短时记忆网络中。
S305:将从所述长短时记忆网络(LSTM)输出的动作状态对(st,at,rt,st+1)存入所述经验回放记忆单元中,并将所述长短时记忆网络(LSTM)预测的动作状态对(st,at,rt,st+1)存入所述经验回放记忆单元中。
该步骤中,将长短时记忆网络的输出(st,at,rt,st+1)存入经验回放单元D中;将长短时记忆网络的预测(st,at,rt,st+1)存入经验回放单元D中。
S306:从经验回放记忆单元中随机采样,计算获得的奖励值,输出最优策略。
该步骤中,从经验存放记忆单元D中随机采样一组样本(sj,aj,rj,sj+1);如果回合数在j+1步终止的话,则设定yi=ri;否则的话,设定yi=ri+γmaxa′Q[c](St+1,a′;ω-),并对[yj-Q(St,aj;ω-)]2关于ω使用梯度下降法进行更新;更新网络的权重ω;每隔C步设置Q[C]=Q,并重复执行步骤S301至S306,直至获得最优策略。
通过上述方法,通过将长短时记忆网路LSTM加入到深度Q网络DQN中能够加速最优策略的获得。
图4示出了动态信道分配的时隙模型。通过该图可以了解通过本申请的方法在不同时隙分配信道的情况。
如图4所示,用来发送的无人机时隙模型中,在每个时隙,首先在时隙开始的时间T内进行信道的分配。之后选取好方案进行信息数据的交互,在时隙中间的时间段Tc内进行数据发送。最后的一段时间Tl,无人机获得环境状态的反馈和奖赏值,这一奖赏值是属于立即奖赏,所以可以进行策略的更新和学习。用来接收的无人机时隙模型中,在每个时隙,首先在时隙开始的时间T内进行信道的接入,在时隙中间的时间段Tc内进行数据接收,采用的是不同小时隙内接收不同信道的信息。最后的一段时间Tl,进行策略的更新和学习。
为了说明本申请的效果,选取了3种算法进行对比,分别是结合长短时记忆网络(LSTM)的深度Q网络(DQN+LSTM),改进的深度Q网络(DQN+RC)和深度Q网络(DQN)。本申请中,尽量做到3种算法的参数保持一致,实验环境统一,具体参数设置如表1所示。并且,每200个训练步数对各评价指标进行统计。
假定每个信道的最大传输速率为5MHz,根据不同无人机服务的延迟要求,为不同无人机设置了不同的优先级顺序(最高为1,最低为5)以及延迟约束,见表2所示。
表1优先级无人机群网络算法及环境参数
表2优先级设定
为了评估这三种算法的性能,在每200次迭代过程之后对数据进行统计,以计算平均碰撞率(Average Collision Rate,ACR)、平均意见得分(Mean Opinion Score,MOS)、信道利用率(Channel Utilization Rate,CUR)。
从图6可以看出,三种算法的ACR在开始时并没有太大差异。这是因为当算法与环境交互时,从环境获得的智能体反馈不足。随着训练次数的增加,无人机从环境中收集的信息越来越多。从图中可以看出,本申请提出的DQN+LSTM方法在6000个时隙后收敛,这是三种方案中最快的收敛速度。其它两种算法分别在8000个时隙和9000个时隙之后开始收敛。与传统算法相比,本申请的方法的收敛速度比其他的两个快接近2000步。这是因为LSTM网络保留了更多的历史信息,从而使DQN神经网络可以更好地预测最佳通道访问策略。达到收敛后,该方法的平均碰撞率在10%左右波动,而其它两种算法的碰撞率分别为12%和16%。
图7显示MOS值指示获得的分配策略是否为最佳策略。根据图7的结果,本申请提出的DQN+LSTM方法获得了最高的MOS。收敛后,它比DQN+RC算法高出13%。此外,DQN方法的最大可能性比其他两种算法低约20%。这是因为前两个算法具有用于学习历史信息的内存库,这有助于找到最佳策略。由于LSTM可以长时间存储历史信息,因此它的MOS收敛速度比其他两种算法快2000步。
图8是信道利用率的仿真结果,从曲线可以看出,本申请的方法的信道利用率比DQN+RC高7%,比DQN高14%。
图9是收敛之后3种算法的不同优先级的无人机的时延曲线。因为延迟测量了优先级机制的作用,所以不同的优先级代表着不同的重要任务。优先级越高,在编队中执行的任务就越重要。因此,原则上,这些模块收集的信息不会丢失。相反,最低优先级模块收集的信息被用作整个编队任务。辅助信息可能会导致数据包丢失,这不会对任务的成功产生严重影响。从图中可以看出,加入优先级之后3种算法都能很好地改善高优先级无人机的服务延时,其中对于最高优先级的无人机,三种算法分别对无优先级的情况下延时降低了83%、73%和67%。
通过上述比较可以看出,本申请的方法表现了优异的性能,其碰撞概率要比其它两种强化学习算法(DQN+RC和DQN)低2%和6%,平均奖赏值高13%和20%,信道利用率高7%和14%,且收敛速度分别快2000和3000步,但运行时间分别增长了9%和11%。并且,本申请的方法对延迟的改善比较明显,最高优先级的无人机延迟降低了83%,极大地改善了无人机群网络的性能。
根据本申请的另一方面,提供一种基于深度强化学习的优先级无人机编队动态信道分配系统,如图10所示,该分配系统包括:信道分配模型建模模块100,该信道分配模型建模模块对无人机编队信道的动态分配过程建立模型,并在模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,其中,无人机的业务具有优先级;网络模型建模模块200,网络模型建模模块将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型;训练模块300,训练模块利用模型对改进型深度强化学习网络模型进行训练;以及信道分配控制器400,所述信道分配控制器利用训练后的改进型深度强化学习网络模型对无人机编队动态分配信道。
根据本申请的一实施例,提供一种计算机设备,包括存储器及处理器,存储器上存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于深度强化学习的优先级无人机编队动态信道分配方法的步骤。
根据本申请的另一实施例,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述基于深度强化学习的优先级无人机编队动态信道分配方法的步骤。
根据本申请,通过建立无人机编队信道的动态分配过程的模型来解决无人机群之间的优先级排队问题,通过排队模型来衡量无人机的信息传输延迟及丢包问题,并且,采用深度强化学习算法在无人机群没有先验知识的情况下进行自主学习,在通过与环境的不断交互过程中获得最优的策略进行动态信道分配,节约了成本。而且,本申请中采用将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中所形成的改进型深度强化学习网络模型,从而加快了收敛速度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述分配方法包括:
S101:对无人机编队信道的动态分配过程建立模型,并在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,所述无人机的业务具有优先级;
S102:将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型;
S103:利用所述模型对所述改进型深度强化学习网络模型进行训练;以及
S104:利用训练后的所述改进型深度强化学习网络模型对无人机编队动态分配信道。
2.根据权利要求1所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述环境状态包括与信道相关的信息,所述动作集合包括无人机的动作,通过切换所述动作集合中的无人机的动作获得所述环境状态的反馈以及奖赏值,所述优先级设置成与通信频率正相关。
3.根据权利要求2所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述环境状态用于评价无人机在做出动作之后对环境状态所造成的影响,并且,所述环境状态包括信道的容量、无人机通信之间的碰撞情况以及无人机之间对信道的利用率。
4.根据权利要求3所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述动作集合包括无人机要接入信道以及无人机不接入信道。
6.根据权利要求5所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型,包括如下步骤:
S201:将所述环境状态St输入到深度Q网络(DQN)中,输出动作at和奖励值rt以及下一环境状态St+1;
S202:将从深度Q网络(DQN)中获得的(st,at,rt,st+1)输入到长短时记忆网路(LSTM)中,通过长短时记忆网路(LSTM)对(st,at,rt,st+1)进行存储和处理;
S203:将经过长短时记忆网路(LSTM)存储和处理的(st,at,rt,st+1)存入深度Q网络(DQN);以及
S204:深度Q网络(DQN)从经过长短时记忆网路(LSTM)存储和处理的(st,at,rt,st+1)中选取样本,输出最优策略。
7.根据权利要求1所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型,包括如下步骤:
S301:初始化深度Q网络(DQN)中的经验回放记忆单元、动作函数值网络的Q值网络、目标值网络以及所述长短时记忆网路(LSTM);
S302:判断回合数是否小于设定值,如果回合数小于设定值,则初始化无人机的所述环境状态的序列St={s1,……,sn},并进行步骤S303,否则,结束;
S303:判断时隙是否小于设定值,如果时隙小于设定值,无人机按照动作选择策略选择动作,并执行所选动作at,获得奖励值rt,并接收下一环境状态的序列St+1,并进行步骤S304,否则,结束;
S304:将环境状态、动作、所获得的奖励值以及所述下一环境状态的序列以动作状态对的形式(st,at,rt,st+1)存入所述长短时记忆网络(LSTM)中;
S305:将从所述长短时记忆网络(LSTM)输出的动作状态对(st,at,rt,st+1)存入所述经验回放记忆单元中,并将所述长短时记忆网络(LSTM)预测的动作状态对(st,at,rt,st+1)存入所述经验回放记忆单元中;
S306:从所述经验回放记忆单元中随机采样,计算获得的奖励值,输出最优策略。
8.根据权利要求3所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数包括:通过计算所述环境状态中的剩余信道的数量来确定所述无人机通信之间的碰撞情况。
9.一种基于深度强化学习的优先级无人机编队动态信道分配系统,其特征在于,所述分配系统包括:
信道分配模型建模模块,所述信道分配模型建模模块对无人机编队信道的动态分配过程建立模型,并在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数;
网络模型建模模块,所述网络模型建模模块将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型;
训练模块,所述训练模块利用所述模型对所述改进型深度强化学习网络模型进行训练;以及
信道分配控制器,所述信道分配控制器利用训练后的所述改进型深度强化学习网络模型对无人机编队动态分配信道。
10.一种计算机设备,包括存储器及处理器,所述存储器上存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的基于深度强化学习的优先级无人机编队动态信道分配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010397272.5A CN113657016B (zh) | 2020-05-12 | 2020-05-12 | 基于深度强化学习的优先级无人机编队动态信道分配方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010397272.5A CN113657016B (zh) | 2020-05-12 | 2020-05-12 | 基于深度强化学习的优先级无人机编队动态信道分配方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657016A true CN113657016A (zh) | 2021-11-16 |
CN113657016B CN113657016B (zh) | 2024-07-05 |
Family
ID=78488701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010397272.5A Active CN113657016B (zh) | 2020-05-12 | 2020-05-12 | 基于深度强化学习的优先级无人机编队动态信道分配方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657016B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069023A (zh) * | 2022-12-20 | 2023-05-05 | 南京航空航天大学 | 一种基于深度强化学习的多无人车编队控制方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193360A1 (en) * | 2015-12-30 | 2017-07-06 | Microsoft Technology Licensing, Llc | Multi-model controller |
CN111123963A (zh) * | 2019-12-19 | 2020-05-08 | 南京航空航天大学 | 基于强化学习的未知环境自主导航系统及方法 |
-
2020
- 2020-05-12 CN CN202010397272.5A patent/CN113657016B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193360A1 (en) * | 2015-12-30 | 2017-07-06 | Microsoft Technology Licensing, Llc | Multi-model controller |
CN111123963A (zh) * | 2019-12-19 | 2020-05-08 | 南京航空航天大学 | 基于强化学习的未知环境自主导航系统及方法 |
Non-Patent Citations (1)
Title |
---|
谭俊杰;梁应敞;: "面向智能通信的深度强化学习方法", 电子科技大学学报, no. 02, 30 March 2020 (2020-03-30) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069023A (zh) * | 2022-12-20 | 2023-05-05 | 南京航空航天大学 | 一种基于深度强化学习的多无人车编队控制方法和系统 |
CN116069023B (zh) * | 2022-12-20 | 2024-02-23 | 南京航空航天大学 | 一种基于深度强化学习的多无人车编队控制方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113657016B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110839184B (zh) | 基于流量预测的移动前传光网络带宽调整方法及装置 | |
CN111867139B (zh) | 基于q学习的深度神经网络自适应退避策略实现方法及系统 | |
CN112055329B (zh) | 一种适用于rsu覆盖切换的边缘车联网任务卸载方法 | |
CN109104373B (zh) | 网络拥塞的处理方法、装置及系统 | |
CN111711666A (zh) | 一种基于强化学习的车联网云计算资源优化方法 | |
Li et al. | Predictive pre-allocation for low-latency uplink access in industrial wireless networks | |
US11523411B2 (en) | Method and system for radio-resource scheduling in telecommunication-network | |
CN111278052B (zh) | 一种基于5g切片的工业现场数据多优先级调度方法 | |
EP3491793B1 (en) | System and method for resource-aware and time-critical iot frameworks | |
CN108684046A (zh) | 一种基于随机学习的接入网服务功能链部署方法 | |
Alghamdi et al. | On the optimality of task offloading in mobile edge computing environments | |
CN113365283A (zh) | 一种基于流量预测的无人机自组网信道接入控制方法 | |
WO2021246925A1 (en) | Dynamic spectrum sharing based on machine learning | |
CN115484205A (zh) | 确定性网络路由与队列调度方法及装置 | |
CN114980339A (zh) | 基于可变时隙调度的c-v2x多业务下行资源分配方法 | |
CN113657016A (zh) | 基于深度强化学习的优先级无人机编队动态信道分配方法及其系统 | |
US10554368B2 (en) | Wireless data-acknowledgement communication using frame aggregation | |
JP7385869B2 (ja) | 無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム | |
CN115379508A (zh) | 载波管理方法、资源分配方法及相关设备 | |
CN111611063B (zh) | 基于802.11p的云感知移动雾计算系统任务卸载方法 | |
US11388623B2 (en) | Method, device and apparatus for controlling congestion window in internet of vehicles | |
Lee et al. | Multi-agent reinforcement learning for a random access game | |
KR20120055947A (ko) | 가입자 인지 플로우별 QoS 제공 방법 및 장치 | |
CN111885720B (zh) | 基于深度强化学习的多用户子载波功率分配方法 | |
Redondo et al. | Coverage-Aware and Reinforcement Learning Using Multi-Agent Approach for HD Map QoS in a Realistic Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |