发明内容
有鉴于此,本发明的目的在于提供一种无人机数据收集方法,针对包含一个UAV以及多个SN的UAV辅助的物联网数据收集系统,建模网络效用函数为SN发送能耗及UAV收集数据所需能耗的相反数,以最大化网络效用为目标,实现UAV轨迹及用户关联策略的联合优化。
为达到上述目的,本发明提供如下技术方案:
一种无人机数据收集方法,包括以下步骤:
S1:建模UAV模型;
S2:建模SN模型;
S3:建模信道模型;
S4:基于亲和力传播算法确定SN聚类策略;
S5:建模网络效用函数;
S6:建模资源调度、带宽分配限制条件;
S7:建模系统状态、动作和输出奖励;
S8:建模并训练双时延深度确定性策略梯度网络;
S9:基于双时延深度确定性策略梯度算法确定UAV数据收集策略。
进一步,步骤S1中所述建模UAV模型具体包括:将系统时间划分为大小相等的时隙,令T表示时隙总数,τ表示时隙长度,并假设在一个时隙内UAV的位置固定不变;UAV从初始位置出发对所有SN进行数据收集后返回初始位置,令H为UAV的飞行高度,UAV在时隙t的位置为
UAV的最大速度为v
max;v
t∈[0,v
max]表示UAV在时隙t的飞行速度;令B
0表示UAV的可用带宽。
进一步,步骤S2中所述建模SN模型具体包括:SN
m表示第m个SN,χ
m表示SN
m的数据包大小,SN
m的位置为
1≤m≤M,M为SN数量,SNs从环境中采集数据并通过正交频分多址技术传输至UAV,时隙t内,最多可支持m
0个SN同时上传数据至UAV。
进一步,步骤S3中所述建模信道模型具体包括:建模时隙t,SN
m与UAV之间信道模型,具体为:
其中a为路径损耗系数,ρ
0为距离为1m时的参考信道增益,
表示时隙t,UAV与SN
m之间的距离;
建模为高斯随机变量,e∈{LoS,NLoS}为传播参数。
进一步,步骤S4中所述基于亲和力传播算法确定SN聚类策略,具体包括:利用SN之间的相似性将其划分为K个簇;令二元指标矩阵ρ=[ρm,k]M×M,其中ρm,k∈{0,1},若ρm,k=1,表示SNk为SNm的聚类中心,反之,ρm,k=0;
基于优化问题
对聚类中心进行优化,其中
κ是非负常数,表示节点作为聚类中心的能力;
建模SNs成簇限制条件为:
令S=(sm,k)M×M为相似度矩阵,其中sm,k表示SNm和SNk之间的相似性,建模为:
令Ψ=(ψ
m,k)
M×M为吸引度矩阵,其中ψ
m,k表示SN
k成为覆盖SN
m的聚类中心的适合度;令
为归属度矩阵,其中
为SN
m选择SN
k作为其聚类中心的适合度;给定SN
k,初始化ψ
m,k=0,
假设n是当前迭代次数,
分别为ψ
m,k,
的第n次迭代值,则ψ
m,k及
的更新公式如下:
重复执行更新步骤直至算法收敛,得到聚类中心,集合
进而确定SN的聚类策略为:
进一步,在步骤S5中所述建模网络效用函数为:
其中ζ和ω分别为SN传输能耗和UAV推进能耗的权重系数;
为SN在时隙t的传输能耗,E
m,t表示SN
m在时隙t的能耗,计算公式为:E
m,t=α
m,tp
m,tD
m,t,其中α
m,t∈{0,1},若α
m,t=1,表示SN
m在时隙t上传数据至UAV,反之,α
m,t=0;p
m,t表示SN
m在时隙t的传输功率,D
m,t表示上传数据的时延,建模为:
R
m,t表示SN
m在时隙t内的传输速率,建模为
其中B
m,t为SN
m在时隙t分配的带宽,σ
2为噪声功率;
表示UAV在时隙t的能量消耗,建模为
其中l
0为给定门限值,
为UAV的悬停能耗,建模为
其中P
h为悬停能耗;
表示UAV在时隙t飞行时的能耗,计算公式为:
其中P0和Pi为常数,分别表示叶片剖面功率和悬停状态下的感应功率,Utip为转子叶片的叶尖速度,v0为UAV悬停时平均转子诱导速度,d0和s分别为机身阻力比和转子可靠性,ρ和Λ分别为空气密度和转子盘面积。
进一步,在步骤S6中所述建模资源调度、带宽分配限制条件,具体包括:
进一步,在步骤S7中所述建模系统状态、动作和输出奖励,具体包括:建模系统在时隙t的状态
其中h
t={h
1,t,h
2,t,...,h
M,t}表示UAV与SN之间信道增益的集合;建模时隙t,动作a
t=<θ
t,v
t,B
t,C
t>,其中θ
t∈(0,2π]为UAV的飞行方向,B
t={B
1,t,B
2,t,…,B
M,t},C
t={α
1,t,α
2,t,…,α
M,t};建模时隙t,UAV的输出奖励
进一步,在步骤S8中所述建模并训练双时延深度确定性策略梯度网络,具体包括:初始化折扣因子γ,更新率υ;演员网络和两个评论网络的在线策略网络参数为
θ
1和θ
2,将在线策略网络参数复制给目标网络,参数为
θ′
1和θ′
2;初始化经验回放缓冲区
初始化小样本集
并对系统状态s
t进行初始化;对于U,根据策略
将动作a
t施加于系统环境,得到奖励值r
t(s
t,a
t)和下一时刻的状态s
t+1,并将(s
t,a
t,r
t,s
t+1)存入经验回放缓冲区
从
中抽取一批样本
通过
计算出s
t+1状态下对应的动作的值
目标值为
基于损失函数最小化
更新评论网络;利用策略梯度更新公式
更新其演员网络;通过软更新算法更新在线策略网络和目标网络的参数,具体为:
θ′
i←υθ
i,t+(1-υ)θ′
i,t,i=1,2。
进一步,在步骤S9中所述基于双时延深度确定性策略梯度算法确定UAV数据收集策略,具体包括:将环境观测值输入网络,根据在线策略网络的输出确定UAV飞行轨迹、SN的带宽分配及资源调度策略。
本发明的有益效果在于:本发明在综合考虑SN的带宽分配及资源调度限制的情况下,联合优化无人机轨迹及传感器节点关联策略,实现网络效用最大化。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图2,图1为无人机数据收集场景示意图,如图1所示,网络中存在一架无人机,多个传感器节点,传感器节点收集环境信息,通过无人机进行数据收集,同时,无人机根据网络效用最大化联合优化轨迹及节点关联策略。
图2为本发明无人机数据收集方法的流程图,如图2所示,该方法具体包括以下步骤:
1)建模UAV模型
将系统时间划分为大小相等的时隙,令T表示时隙总数,τ表示时隙长度,并假设在一个时隙内UAV的位置固定不变;UAV从初始位置出发对所有SN进行数据收集后返回初始位置,令H为UAV的飞行高度,UAV在时隙t的位置为
UAV的最大速度为v
max;v
t∈[0,v
max]表示UAV在时隙t的飞行速度;令B
0表示UAV的可用带宽。
2)建模SN模型
SN
m表示第m个SN,χ
m表示SN
m的数据包大小,SN
m的位置为
1≤m≤M,M为SN数量,SNs从环境中采集数据并通过正交频分多址技术传输至UAV,时隙t内,最多可支持m
0个SN同时上传数据至UAV。
3)建模信道模型
建模时隙t,SN
m与UAV之间信道模型,具体为:
其中a为路径损耗系数,ρ
0为距离为1m时的参考信道增益,
表示时隙t,UAV与SN
m之间的距离;
建模为高斯随机变量,e∈{LoS,NLoS}为传播参数。
4)基于亲和力传播算法确定SN聚类策略
利用SN之间的相似性将其划分为K个簇;令二元指标矩阵ρ=[ρm,k]M×M,其中ρm,k∈{0,1},若ρm,k=1,表示SNk为SNm的聚类中心,反之,ρm,k=0;
基于优化问题
对聚类中心进行优化,其中
κ是非负常数,表示节点作为聚类中心的能力;
建模SNs成簇限制条件为:
令S=(sm,k)M×M为相似度矩阵,其中sm,k表示SNm和SNk之间的相似性,建模为:
令Ψ=(ψ
m,k)
M×M为吸引度矩阵,其中ψ
m,k表示SN
k成为覆盖SN
m的聚类中心的适合度;令
为归属度矩阵,其中
是SN
m选择SN
k作为其聚类中心的适合度;给定SN
k,初始化ψ
m,k=0,
假设n是当前迭代次数,
分别为ψ
m,k,
的第n次迭代值,则ψ
m,k及
的更新公式如下:
重复执行上述更新步骤直至算法收敛,得到聚类中心,集合
进而确定SN的聚类策略为:
5)建模网络效用函数
网络效用
其中ζ和ω分别为SN传输能耗和UAV推进能耗的权重系数;
其中
为SN在时隙t的传输能耗,E
m,t表示SN
m在时隙t的能耗,计算公式为:E
m,t=α
m,tp
m,tD
m,t,其中α
m,t∈{0,1},若α
m,t=1,表示SN
m在时隙t上传数据至UAV,反之,α
m,t=0;p
m,t表示SN
m在时隙t的传输功率,D
m,t表示上传数据的时延,建模为:
R
m,t表示SN
m在时隙t内的传输速率,建模为
其中B
m,t为SN
m在时隙t分配的带宽,σ
2为噪声功率;
表示UAV在时隙t的能量消耗,建模为
其中l
0为给定门限值,
为UAV的悬停能耗,建模为
其中P
h为悬停能耗;
表示UAV在时隙t飞行时的能耗,计算公式为:
其中P
0和P
i为常数,分别表示叶片剖面功率和悬停状态下的感应功率,U
tip为转子叶片的叶尖速度,v
0为UAV悬停时平均转子诱导速度,d
0和s分别为机身阻力比和转子可靠性,ρ和Λ分别为空气密度和转子盘面积。
6)建模资源调度、带宽分配限制条件
7)建模系统状态、动作和输出奖励
建模系统在时隙t的状态
其中h
t={h
1,t,h
2,t,...,h
M,t}表示UAV与SN之间信道增益的集合;建模时隙t,动作a
t=<θ
t,v
t,B
t,C
t>,其中θ
t∈(0,2π]为UAV的飞行方向,B
t={B
1,t,B
2,t,…,B
M,t},C
t={α
1,t,α
2,t,…,α
M,t};建模时隙t,UAV的输出奖励
8)建模并训练双时延深度确定性策略梯度网络
初始化折扣因子γ,更新率υ;演员网络和两个评论网络的在线策略网络参数为
θ
1和θ
2,将在线策略网络参数复制给目标网络,参数为
θ′
1和θ′
2;初始化经验回放缓冲区
初始化小样本集
并对系统状态s
t进行初始化;对于U,根据策略
将动作a
t施加于系统环境,得到奖励值r
t(s
t,a
t)和下一时刻的状态s
t+1,并将(s
t,a
t,r
t,s
t+1)存入经验回放缓冲区
从
中抽取一批样本
通过
计算出s
t+1状态下对应的动作的值
目标值为
基于损失函数最小化
更新评论网络;利用策略梯度更新公式
更新其演员网络;通过软更新算法更新在线策略网络和目标网络的参数,具体为:
θ′
i←υθ
i,t+(1-υ)θ′
i,t,i=1,2。
9)将环境观测值输入网络,根据在线策略网络的输出确定UAV飞行轨迹、SN的带宽分配及资源调度策略。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。