发明内容
有鉴于此,本发明的目的在于提供一种多无人机动态部署方法,利用融合注意力机制的ConvLSTM深度时空神经网络模型(A-ConvLSTM模型)预测蜂窝基站流量与用户的时空分布,并利用混合网络结构的多智能体确定性策略深度强化学习算法(MADDPG算法),求解在各种资源限制下,最大化用户满意度并最小化无人机能耗的最佳轨迹控制、用户关联和功率分配策略。
为达到上述目的,本发明提供如下技术方案:
一种多无人机动态部署方法,具体包括以下步骤:
S1:对于一个固定区域,将区域离散地划分为大小相等的兴趣区域(AoI),在任意时隙开始时刻,利用A-ConvLSTM模型预测该区域未来流量与用户分布情况;
S2:基于区域未来流量与用户分布的预测结果,在无人机为区域内用户提供下行信道接入的场景下,将单个无人机视作智能体,将多无人机的轨迹规划与资源分配建模为部分可观测马尔科夫博弈;优化多无人机的轨迹、用户选择和功率分配,以最大化区域整体的用户满意度和最小化无人机能耗为优化目标;
S3:构建具有混合网络结构的多智能体深度强化学习算法,利用集中式训练-分布式执行的机制学习部分可观测马尔科夫博弈的最佳策略,使得单个智能体只需要观测本地状态并执行最优本地决策,实现与动态环境匹配的最佳无人机部署。
进一步,步骤S1中,所述A-ConvLSTM模型将目标区域均匀离散地划分为若干个单元即AoI,每个单元具有唯一标识,单个单元内的所有用户及其产生的流量作为该单元用户数与流量值,并将所有单元所有时隙用户与流量数据组成时空三维张量,以此为样本完成网络模型的训练和预测。
进一步,步骤S1中,所述A-ConvLSTM模型由输入层、ConvLSTM层、注意力层、批量归一化层和输出层构成;输入层输入为流量历史时空序列,输出层输出为下一时刻流量预测矩。
进一步,步骤S1中,ConvLSTM层的每个时间单元都有一个记忆单元Ct以积累状态信息,Ct通过三个具有参数的控制门进行访问和修改,即输入门it、忘记门ft和输出门ot;当一个时间步数据输入到ConvLSTM层时,如果输入门it被激活,它所携带的信息存储到Ct;如果忘记门ft被激活,表示忘记过去的单元状态;最终隐藏状态Ht由输出门ot控制,它决定单元的输出Ct是否传播到最终状态;各个门及Ct、Ht的运算规则如下:
其中,“*”表示卷积运算,表示哈达玛积,σ表示sigmoid激活函数,tanh表示双曲正激活函;ConvLSTM在输入到状态、状态到状态的转换中将LSTM的全连接网络替换为卷积运算,/>是t时刻固定区域的流量矩阵;Ct、Ht、it、ft、ot均是三维张量,前两个维度是空间维度,后一维度是通道;w、b代表可学习的卷积核参数,wdi、wxi、wci、wdf、whf、wcf、wdc、wxc、wdo、who、wco及bi、bf、bc、bo表示各个门的卷积核参数。
进一步,步骤S1中,所述A-ConvLSTM模型是在ConvLSTM网络基础上融合注意力机制,以学习整体网络对不同时刻的隐藏状态Ht的关注程度;其中注意力机制具体为:
首先,通过卷积神经网络完成ConvLSTM的各个时间步的三阶张量隐藏状态到特征向量的转换,具体为通过多层卷积及池化的操作完成隐藏状态的空间特征提取和降维,然后重塑为特征向量;
其次,将特征向量通过多层感知机及softmax函数映射为注意力权重;
最后,将注意力权重与隐藏状态相乘并通过激活函数得到单步预测输出。该注意力机制能够实现网络关注权重随着输出的改变而改变,更多地关注具有重要信息的特征。
进一步,步骤S2中,基于每个单元的流量与用户预测数值,定义用户总体满意度来刻画用户的预测接入速率和既得接入速率之间的差异及公平性,通过优化多无人机的轨迹、用户选择和功率分配,以实现最大化区域整体的用户满意度和最小化无人机能耗的优化目标;
所述用户总体满意度为:
其中,Vn(t)表示AoI n的用户总体满意度,表示t时隙利用A-ConvLSTM网络预测到的AoIn的用户数,/>表示AoIn内的用户预期速率,Rn(t)表示AoIn内用户得到的下行接入速率;
所述优化目标为:
其中,λ和β分别表示无人机单位移动功耗相对系数和发射功耗相对系数;表示无人机m对AoIn的发射功耗;umn(t)={0,1}表示无人机m与AoIn之间的关联情况,umn(t)=1表示无人机m与AoIn关联,反之则不关联;Pmn(t)为无人机m为AoIn内的用户提供的发射功率,dm(t)表示无人机m在二维欧式空间中于时隙t的飞行距离,δm(t)表示飞行方位用;无人机集群表示为/>M为无人机数量;AoI集合表示为N表示AoI数量;时隙集合/>T表示无人机飞行时间;[xm(t),ym(t)]表示t时隙无人机m的坐标;/>表示t时隙利用A-ConvLSTM模型预测到的AoIn的流量值;
约束条件(b)表示任意AoI最多只与一架无人机关联,该限制条件保证了无人机之间的覆盖区域的不重叠;条件(c)表示无人机时隙间移动距离不得超过最大距离dmax;条件(e)表示无人机地理位置不得超过区域条件(f)表示无人机为关联AoI内提供的发射功率不得超过其最大功率限制Pmax;条件(g)和(h)中f1、f2表示/>和/>的状态转移函数,分别用两个A-ConvLSTM模型去捕捉该种函数映射。
进一步,步骤S3中,将优化多无人机的轨迹、用户选择和功率分配,以最大化区域整体的用户满意度和最小化无人机能耗问题建模为部分可观测马尔科夫博弈(即POMG),并利用具有混合网络结构的多智能体深度确定性策略强化学习算法(即MADDPG算法)求解每个智能体的最佳策略,在集中式训练-分布式执行机制下实现多无人机的最佳动态部署。
进一步,步骤S3中,在一个存在POMG环境中,每个智能体具有一个本地Actor网络和Critic网络,采用MADDPG算法求解POMG最佳决策。
进一步,步骤S3中,采用集中式训练-分布式执行的方式训练并执行MADDPG算法,具体包括:在训练阶段,为避免无人机之间的信令开销,考虑在一个边缘服务器上执行训练所有智能体Actor网络和Critic网络,该边缘服务器能够与无人机集群中至少一个无人机通信,并通过无人机之间的集群路由获取训练信息;在执行阶段,每个无人机下载训练好的Actor网络模型,根据自身观测状态做出最优决策,即调整飞行位置、用户关联和功率分配。
本发明的有益效果在于:本发明优化了多无人机的动态部署,使得无人机能够智能地根据环境自适应调整部署策略,满足用户接入需求并尽可能降低功耗。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,图1为本发明提供的多无人机动态部署方法,如图1所示,该方法具体包括以下步骤:
S1:对于一个固定区域,将区域离散地划分为大小相等的AoI,在任意时隙开始时刻,利用结合注意力机制的深度时空网络模型(A-ConvLSTM模型),对该区域未来的流量与用户做出预测;
S2:基于区域未来流量与用户分布的预测结果,在无人机为区域内用户提供下行信道接入的场景下,将单个无人机视作智能体,将多无人机的轨迹规划与资源分配建模为部分可观测马尔科夫博弈;优化多无人机的轨迹、用户选择和功率分配,以最大化区域整体的用户满意度并最小化无人机能耗。
S3:提出一种具有混合网络结构的多智能体深度确定性策略强化学习算法(即MADDPG算法),利用集中式训练-分布式执行的机制学习部分可观测马尔科夫博弈(即POMG)的最佳策略,使得单个智能体只需要观测本地状态并执行最优本地决策,实现与动态环境匹配的最佳无人机部署。
下面将结合附图,对本发明的关键步骤S1-S3中涉及的方法进行清楚、完整地描述。
(1)在步骤S1中,考虑集合为的无人机集群覆盖于区域上空,采用频分多址的接入方式并使用波束成形技术为AoI集合为/>的AoI中用户提供下行接入的服务。时隙集合用/>表示。简便起见,考虑所有无人机均处于某一固定高度h,t时隙无人机m的地理位置用wm(t)=[xm(t),ym(t),h]表示。则无人机m与AoIn之间的距离为
路径损耗为:
其中,fc为载波频率,c为光速,ξmn是对自由空间传播损失的平均额外损失,当无人机m与AoI n存在LoS环境时,若为非视距传播(NLoS)环境时,无人机m与AoIn之间存在LoS链路的概率为:
其中,a、b是环境常量,θmn=sin-1(h/dmn(t))为AoIn对无人机m的仰角。AoIn的下行链路损耗为:
将区域A离散地划分成大L×W的大小相等的兴趣区域(AoI),并将单位时间间隔内位于同一AoI内的所有基站流量之和作为该AoI的流量值,所有无人机关联用户数之和作为该AoI的用户数。该区域在T个时间间隔内的流量时空序列可表示为三维张量:
其中,是t时刻区域A的流量矩阵,即有
其中,表示坐标为(w,l)的AoI流量值。提出一种结合注意力机制的卷积长短期记忆深度时空网络(A-ConvLSTM)实现中过去T个时刻的流量矩阵D到未来流量矩阵Dt的映射。A-ConvLSTM的网络结构如图2所示,其由输入层、ConvLSTM层、注意力层、批量归一化(Batch Normalization,BN)层,输出构成。输入层为流量历史时空序列D,输出为下一时刻流量预测矩/>
ConvLSTM每个时间单元都有一个记忆单元Ct以积累状态信息。Ct可以通过三个具有参数的控制门进行访问和修改,即输入门it、忘记门ft和输出门ot。当一个时间步数据输入到ConvLSTM单元时,如果输入门it被激活,它所携带的信息可以存储到Ct;如果忘记门ft被激活,表示忘记过去的单元状态。最终隐藏状态Ht由输出门ot控制,它决定单元的输出Ct是否应该传播到最终状态。各个门及Ct、Ht的运算规则如下:
其中,“*”表示卷积运算,表示哈达玛积,σ表示sigmoid激活函数,tanh表示双曲正激活函。ConvLSTM在输入到状态、状态到状态的转换中将LSTM的全连接网络替换为卷积运算,因此,Ct、Ht、it、ft、ot均是三维张量,前两个维度是空间维度,后一维度是通道,w、b代表了可学习的卷积核参数。
在ConvLSTM基础上加入时间层面的注意力机制,以学习整体网络对不同时刻的隐藏状态Ht的关注程度。注意力层的结构如图3所示。鉴于隐藏层状态Ht是三维张量,要实现其到注意力权重的映射,首先对其使用单核卷积以实现通道维度的压缩,即有:
其中,p是卷积步长。
之后,利用若干层卷积神经网络实现对Ht更深层次的空间特征提取与降维(最后一层采用单核卷积使其通道维度重归为1),包括卷积(conv)和池化(pooling)的操作,有:
其中,C为通道个数。
之后,将重塑(reshape)为一阶特征向量/>并利用多层感知机(MLP)实现特征向量/>到注意力得分st的映射,有
其中st、VT、w4、b′是可学习参数。
之后,将st通过softmax函数进行归一化处理,得到at的注意力权重et,将其与相乘求和并通过激活函数最终的得到单步预测输出/>即单步预测的下一时刻地区流量矩阵。即有
(2)在步骤S2中,用分别表示t时隙利用A-ConvLSTM网络预测到的AoIn的流量值和与用户数,则AoIn内的用户预期速率需求为/>设每个无人机为其关联AoI下的用户平均分配总带宽B,则每个用户带宽分得的带宽为:
其中,Cm(t)表示无人机m关联的AoI集合。设无人机m为AoIn内的用户提供的发射功率为Pmn(t),则AoIn内用户得到的下行接入速率为
其中,G为天线增益,N0为噪声功率谱密度。
为满足用户的不同的速率需求,本发明定义了AoI n的用户总体满意度为:
以刻画用户需求与既得服务之间的差别,当其为越大时,表明AoI内用户所得到的接入速率越接近预期速率,其满意度也就越高。由于每个时隙每个AoI内的用于速率需求不尽相同,该种满意度实际上也表征了用户所得服务的公平性。
此外,用关联指示变量umn(t)={0,1}表示无人机m与AoIn之间的关联情况:umn(t)=1表示无人机m与AoIn关联;反之则不关联。无人机m在二维欧式空间中于时隙t的飞行距离用dm(t)表示,飞行方位用δm(t)表示。
综合考虑通过优化无人机集群的轨迹、覆盖分区和功率分配,实现最大化区域整体用户满意度和最小化移动及发射能耗的加权多目标,该优化目标可以表述为:
其中,约束条件(b)表示了任意AoI最多只与一架无人机关联,该限制条件保证了无人机之间的覆盖区域的不重叠;条件(c)表示无人机时隙间移动距离不得超过最大距离dmax;条件(e)表示无人机地理位置不得超过区域;条件(f)表示无人机为关联AoI内提供的发射功率不得超过其最大功率限制;条件(g)和(h)中f1、f2表示和/>的状态转移函数,分别用两个A-ConvLSTM网络去捕捉该种函数映射。λ和β分别代表无人机单位移动功耗相对系数和发射功耗相对系数,/>表示无人机m对AoIn的发射功耗。
在一个存在多个智能体可观测马尔科夫博弈(POMG)环境中,每个智能体的决策都会受到其他智能体的联合动作的影响。由于智能体之间交互的受限性,每个智能体无法观测到其余智能体的状态,只能观测到部分环境状态,因而在每一个决策时刻,其根据自身观测的状态,学习最优策略以做出最大化长期回报的的动作。一个POMG可用一个与之匹配的元组来描述,其中集合/>代表所有智能体可能所处的状态;/>代表智能体自身观察的状态组成的集合,om表示智能体m的观测态;/>代表智能体的联合动作,am表示智能体m的动作,另用a-m表示除m之外的智能体的联合动作;/>为状态转移概率,/>表示智能体采取联合动作am×a-m后状态由s(t)跳变至s(t+1)的概率;/>表示智能体的奖励;γ表示奖励的折扣因子。
在POMG中,每个智能体拥有自己的随机策略函数πm:om(t)→am(t),在决策时刻t,基于自身的观测om(t)执行动作am(t),即πm(om(t)),最大化自己长期奖励的期望值 是时刻t执行动作后得到的即时奖励。
当智能体m采取动作am(t)和其他智能体采取联合动作a-m(t)时,智能体m可能获得奖励定义联合策略(πm,π-m)为POMG的可行解。当在任意s(t)下,均有以下不等式满足时,可以在该博弈中可以实现纳什均衡(NE)状态:
其中表示智能体m在该POMG下的最优策略。在NE状态下,每个智能体的动作都可以看做是对其他智能体动作的最佳反应,所有智能体都无法从单侧偏差(UD)中获益。
多智能体强化学习中的一个常见问题是由于智能体策略的变化而导致的环境的非平稳性。为了获得更加稳定的策略并契合POMG的周期性,在训练时,每一回合(episode)中所有智能体选择一个随机的子策略,并从环境中获得累积奖励;在episode结束后重置环境状态。如此训练若干个回合,通过整合不同子策略,以达到提升策略稳定性、提高策略泛化能力的目的。
在本文所研究的无人机通信场景下,将每个无人机视作单个智能体,在每个决策时刻每个无人机基于自己的观测并决定飞行距离和方位、AoI关联、功率分配以最大化自己长期折扣奖励。具体的POMG元组如下文所述。首先定义一个二元组表示AoI n的状态。
观测态对于无人机m的在t时刻的观测态om(t)定义为自身的地理位置[xm(t),ym(t)]和所有AoI的状态/>的集合,则有:om(t)={xm(t),ym(t),Z1(t),Z2(t),...,Zn(t)}。
全局状态全局状态应囊括所有无人机观测态的信息,包括所有无人机的地理位置和所有AoI的状态,因此定义s(t)={[x1(t),y1(t)],...,[xM(t),yM(t)],z1(t),...,zN(t)}。
动作定义无人机m在t时刻的动作am={dm(t),δm(t),xm(t),ym(t),um1(t),um2(t),...,umN(t),pm1(t),pm2(t),...,pmN(t)},其中{um1(t),um2(t),...,umN(t)}部分代表无人机m对AoI集合的关联指示变量,{pm1(t),pm2(t),...,pmN(t)}部分代表无人机m对AoI集合提供的发射功率。需要注意的是:若umn(t)=1,则pmn(t)为某一连续值;若umn(t)=0,则pmn(t)=0。
奖励首先用/>表示区域/>的所有用户之和。定义无人机m在t时刻的即时奖励为:
即时奖励由四部分构成,首先是:该部分是目标函数的直接表达,表示用户满意度和功耗之间的差值;此外,为保证问题(1)的约束条件的成立,即时奖励中引入了三种惩罚,惩罚项/>刻画了无人机对区域用户覆盖程度,/>表示了未覆盖地区的用户总和,η1是覆盖惩罚系数(η1>0),若无人机系统整体覆盖区域的用户数越多,则惩罚越小;此外,惩罚项/>代表了无人机之间的重叠惩罚,η2是覆盖惩罚系数(η2>0),表示与多个无人机重复关联的AoI的个数,若无人机之间无重复关联AoI,则惩罚为0;惩罚项η3表示无人机飞离区域的惩罚。
(3)在步骤S3中,为求解以上POMG,解决无人机动态部署问题,提出了一种具有混合结构的MADDPG算法。算法的框架如图4所示,多个无人机作为智能体存在同一环境中与环境进行交互,每个无人机基于自己的观测态om(t)做出动作am(t),基于联合动作(am(t),a-m(t))环境反馈给每个智能体不同的奖励,由此环境整体状态由S(t)跳转到S(t+1)。
如图4所示,每个UAV具有Actor网络和Critic网络,其中Actor网络实现策略函数π的映射,即网络输入为观测o,输出为动作a,将其网络参数表示为θ;Critic网络负责评估所有UAV联合动作及全局状态的动作价值函数,即网络输入为全局状态s和联合动作(am,a-m),输出为对应奖励期望值Qm,将其网络参数表示为ω。
UAVm的动作价值函数Qm的定义为:当前全局状态s(t)下,UAV做出动作am(t),其余智能体做出动作a-m(t)而UAVm所获的奖励期望,即有:
根据贝尔曼方程可以得到:
为了网络训练的稳定性,消除过度估计的问题,引入双网络的技巧:UAVm具有两个Actor网络和两个Critic网络,即在线Actor、目标Actor网络、在线Critic网络、目标Critic网络,分别用πm、π′m、Qm、Q′m表示。
①Critic网络训练
由于Critic网络部分可以通过智能体之间的交互得到所有智能体的动作和状态信息,因此使用经验池来避免经验数据的相关性问题。Q′m用于估计目标Q值,用ym表示。可以得到:
通过最小化损失函数以更新Qm的参数ωm来消除Qm与Q′m之间的误差,定义损失函数Loss为:
L(ωm)=(ym-Qm(s(t),am(t),a-m(t)))2
采用批次梯度下降的方式更新ωm参数。另外采用软更新的方式更新目标Critic网络参数,即在一个episode后,将ωm参数的值部分传递给ω’m:
w′m←τwm+(1-τ)w′m
其中τ是更新系数,一般取的比较小。
②Actor网络训练
每一个智能体通过最大化自己的动作价值函数期望来更新πm(om(t))参数θm,动作价值函数期望表达式为:
采用梯度上升的方法使J(θm)的值最大化以更新参数θm,利用策略梯度理论可以得到J(θm)的梯度为:
因为智能体动作包含离散和连续两部分,因此将策略重参数化表示其中添加输入噪声ε(t)以获得较低的方差估计。因此,策略梯度可以被重写为/>
同样采用软更新的方式更新目标Actor网络参数:θ′m←τθm+(1-τ)θ′m。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。