CN114727323A - 无人机基站控制方法及装置、模型训练方法及装置 - Google Patents

无人机基站控制方法及装置、模型训练方法及装置 Download PDF

Info

Publication number
CN114727323A
CN114727323A CN202210243338.4A CN202210243338A CN114727323A CN 114727323 A CN114727323 A CN 114727323A CN 202210243338 A CN202210243338 A CN 202210243338A CN 114727323 A CN114727323 A CN 114727323A
Authority
CN
China
Prior art keywords
neural network
aerial vehicle
unmanned aerial
base station
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210243338.4A
Other languages
English (en)
Inventor
徐齐钱
陈海军
何春龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yizheng Communication Technology Co ltd
Original Assignee
Zhejiang Yizheng Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Yizheng Communication Technology Co ltd filed Critical Zhejiang Yizheng Communication Technology Co ltd
Priority to CN202210243338.4A priority Critical patent/CN114727323A/zh
Publication of CN114727323A publication Critical patent/CN114727323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Astronomy & Astrophysics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请涉及一种无人机基站控制方法及装置、模型训练方法及装置。无人机基站控制方法包括:确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、俯仰角、通信完成量;利用预先训练好的飞行轨迹优化模型,根据状态信息,确定下一时隙的调整动作;调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使无人机基站根据调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。

Description

无人机基站控制方法及装置、模型训练方法及装置
技术领域
本申请涉及通信技术领域,尤其是涉及一种无人机基站控制方法及装置、模型训练方法及装置。
背景技术
无人机基站能够快速组网,不仅可以用于增强5G无线通信系统的信号、扩大信号覆盖范围,还可以用于提供应急通信。
但是,由于无人机的电池续航技术没有突破性的进展,无人机的飞行时间受限,无人机基站在有限的时间和能量下能够服务的用户数量也是有限的。所以,如何通过设计无人机的飞行轨迹,让无人机基站能够在有限的时间和能量下服务更多的用户,是无人机基站能否广泛应用的关键之一。
目前,一般采用基于快速坐标下降和连续凸逼近算法来解决无人机基站的飞行轨迹优化问题。但是,无人机通信系统对控制算法的实时性有着很高要求。而基于快坐标下降和连续凸逼近算法的复杂度高,导致基于该算法的实时性低,真正被应用在实际的无人机通信系统中时,轨迹优化效率较低。
发明内容
本申请提供一种无人机基站控制方法及装置、模型训练方法及装置,以提高无人机控制的实时性,提高轨迹优化效率。
第一方面,本申请提供一种无人机基站控制方法,包括:
确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量;
利用预先训练好的飞行轨迹优化模型,根据所述状态信息,确定下一时隙的调整动作;所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使所述无人机基站根据所述调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。
可选的,所述飞行轨迹优化模型包括:采样策略神经网络、目标策略神经网络和评论家神经网络;
所述方法还包括:
初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;
循环执行如下训练过程,直至达到预设训练次数:
基于所述采样策略神经网络,生成若干组训练样本;
根据所述训练样本,确定所述目标策略神经网络的梯度;
基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;
根据所述训练样本,确定所述评论家神经网络的损失;
基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;
根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。
可选的,所述基于所述采样策略神经网络,生成若干组训练样本,包括:
初始化所述无人机基站的状态信息,随机生成若干待通信设备的地理位置,初始化时间t=0;
在达到最大时间tmax之前,循环执行如下步骤生成样本:
确定所述无人机基站的状态信息st
基于所述采样策略神经网络,选择调整动作at
根据所述调整动作at,确定所述无人机基站在下一时隙的位置、所述无人机基站在下一时隙对应的状态信息st+1
根据预先设定的奖励函数,确定调整动作at对应的奖励值rt
将st、at、rt、st+1生成一组新样本[st,at,rt,st+1],放入经验回放池;
更新时间t。
可选的,所述根据所述训练样本,确定所述目标策略神经网络的梯度,包括:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定优势函数;
根据所述优势函数,确定所述目标策略神经网络的梯度。
可选的,所述基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数,包括:
基于梯度上升法,根据所述目标策略神经网络的学习率和所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数。
可选的,所述根据所述训练样本,确定所述评论家神经网络的损失,包括:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定所述评论家神经网络的损失。
第二方面,本申请提供一种模型训练方法,用于对飞行轨迹优化模型进行训练,所述飞行轨迹优化模型包括采样策略神经网络、目标策略神经网络和评论家神经网络;所述方法包括:
初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;
循环执行如下训练过程,直至达到预设训练次数:
基于所述采样策略神经网络,生成若干组训练样本;
根据所述训练样本,确定所述目标策略神经网络的梯度;
基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;
根据所述训练样本,确定所述评论家神经网络的损失;
基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;
根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。
可选的,所述基于所述采样策略神经网络,生成若干组训练样本,包括:
初始化所述无人机基站的状态信息,随机生成若干待通信设备的地理位置,初始化时间t=0;在达到最大时间tmax之前,循环执行如下步骤生成样本:
确定所述无人机基站的状态信息st
基于所述采样策略神经网络,选择调整动作at
根据所述调整动作at,确定所述无人机基站在下一时隙的位置、所述无人机基站在下一时隙对应的状态信息st+1
根据预先设定的奖励函数,确定调整动作at对应的奖励值rt
将st、at、rt、st+1生成一组新样本[st,at,rt,st+1],放入经验回放池;
更新时间t。
可选的,所述根据所述训练样本,确定所述目标策略神经网络的梯度,包括:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定优势函数;
根据所述优势函数,确定所述目标策略神经网络的梯度。
可选的,所述基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数,包括:
基于梯度上升法,根据所述目标策略神经网络的学习率和所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数。
可选的,所述根据所述训练样本,确定所述评论家神经网络的损失,包括:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定所述评论家神经网络的损失。
第三方面,本申请提供一种无人机基站控制装置,包括:
信息确定模块,用于确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量;
调整动作确定模块,用于利用预先训练好的飞行轨迹优化模型,根据所述状态信息,确定下一时隙的调整动作;所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使所述无人机基站根据所述调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。
可选的,所述飞行轨迹优化模型包括:采样策略神经网络、目标策略神经网络和评论家神经网络;
所述装置还包括模型训练模块,用于:
初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;
循环执行如下训练过程,直至达到预设训练次数:
基于所述采样策略神经网络,生成若干组训练样本;
根据所述训练样本,确定所述目标策略神经网络的梯度;
基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;根据所述训练样本,确定所述评论家神经网络的损失;
基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;
根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。
可选的,所述模型训练模块在基于所述采样策略神经网络,生成若干组训练样本时,具体用于:
初始化所述无人机基站的状态信息,随机生成若干待通信设备的地理位置,初始化时间t=0;在达到最大时间tmax之前,循环执行如下步骤生成样本:
确定所述无人机基站的状态信息st
基于所述采样策略神经网络,选择调整动作at
根据所述调整动作at,确定所述无人机基站在下一时隙的位置、所述无人机基站在下一时隙对应的状态信息st+1
根据预先设定的奖励函数,确定调整动作at对应的奖励值rt
将st、at、rt、st+1生成一组新样本[st,at,rt,st+1],放入经验回放池;
更新时间t。
可选的,所述模型训练模块在根据所述训练样本,确定所述目标策略神经网络的梯度时,具体用于:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定优势函数;根据所述优势函数,确定所述目标策略神经网络的梯度。
可选的,所述模型训练模块在基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数时,具体用于:
基于梯度上升法,根据所述目标策略神经网络的学习率和所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数。
可选的,所述模型训练模块在根据所述训练样本,确定所述评论家神经网络的损失时,具体用于:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定所述评论家神经网络的损失。
第四方面,本申请提供一种模型训练装置,包括:
初始化模块,用于初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;
训练模块,用于循环执行如下训练过程,直至达到预设训练次数:基于所述采样策略神经网络,生成若干组训练样本;根据所述训练样本,确定所述目标策略神经网络的梯度;基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;根据所述训练样本,确定所述评论家神经网络的损失;基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。
可选的,所述训练模块在基于所述采样策略神经网络,生成若干组训练样本时,具体用于:
初始化所述无人机基站的状态信息,随机生成若干待通信设备的地理位置,初始化时间t=0;在达到最大时间tmax之前,循环执行如下步骤生成样本:
确定所述无人机基站的状态信息st
基于所述采样策略神经网络,选择调整动作at
根据所述调整动作at,确定所述无人机基站在下一时隙的位置、所述无人机基站在下一时隙对应的状态信息st+1
根据预先设定的奖励函数,确定调整动作at对应的奖励值rt
将st、at、rt、st+1生成一组新样本[st,at,rt,st+1],放入经验回放池;
更新时间t。
可选的,所述训练模块在根据所述训练样本,确定所述目标策略神经网络的梯度时,具体用于:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定优势函数;
根据所述优势函数,确定所述目标策略神经网络的梯度。
可选的,所述训练模块在基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数时,具体用于:
基于梯度上升法,根据所述目标策略神经网络的学习率和所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数。
可选的,所述训练模块在根据所述训练样本,确定所述评论家神经网络的损失时,具体用于:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定所述评论家神经网络的损失。
第五方面,本申请提供一种电子设备,包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用并执行所述存储器中的程序指令,执行如第一方面任一项或第二方面任一项所述的方法。
第六方面,本申请提供一种计算机可读存储介质,存储有能够被处理器加载并执行第一方面任一项或第二方面任一项的方法的计算机程序。
本申请提供了一种无人机基站控制方法及装置、模型训练方法及装置。其中,无人机基站控制方法包括:确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量;利用预先训练好的飞行轨迹优化模型,根据所述状态信息,确定下一时隙的调整动作;所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使所述无人机基站根据所述调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。通过预先的训练,可以使飞行轨迹优化模型达到轨迹优化的效果。在无人机基站控制时,通过确定待通信设备的相关信息和无人机基站的相关信息,并输入到飞行轨迹优化模型中,即可输出对应的调整动作。无人机执行调整动作,即可到达下一位置点并进行通信。遵循飞行轨迹优化模型的轨迹指导,可以实时调整无人机的飞行轨迹,以提高无人机控制的实时性,提高轨迹优化效率。同时可以在最短的时间内完成与若干待通信设备的通信。
附图说明
图1为本申请一实施例提供的一种应用场景示意图;
图2为本申请一实施例提供的一种无人机基站控制方法的流程图;
图3为本申请一实施例提供的另一种应用场景的示意图;
图4为本申请一实施例提供的一种基于深度强化学习PPO算法的无人机基站轨迹优化模型算法的系统框架的示意图;
图5为本申请一实施例提供的一种无人机基站控制装置的结构示意图;
图6为本申请一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本申请实施例作进一步详细描述。
目前,无人机基站已成为人们研究的重点之一。它具有成本低廉、移动性强、灵活性高、易于布置以及拥有大概率的视距通信。这些优点一直是传统基站所无法达到的。所以无人机基站在未来5G通信系统中被广泛应用起来。第一,增强无线蜂窝网络的5G覆盖范围和容量。第二,满足动态变化的移动网络流量需求。第三,实现应急通信。第四,采集物联网设备信息。
但是无人机基站电池技术发展比较慢,无人机基站不可能无限增加电池数量。因为随着电池数量增加,无人机载重也随之增加,无人机能量消耗也随之增加。
因此,本申请集中于设计一个用于无人机基站的飞行轨迹、用户调度和功率分配的算法,该算法能够让无人机能够根据用户地理位置信息,自动调整自己的飞行轨迹,进行用户调度和功率分配,从而在完成飞行任务和通信任务的前提下,最小化无人机基站的飞行时间和能量消耗。
目前,关于无人机基站轨迹优化的算法一般包括传统凸优化算法,如块坐标下降和连续凸逼近算法等。但是基于块坐标下降和连续凸逼近算法的复杂度高、实时性低。无人机通信系统对控制算法的实时性有着很高要求。所以,目前研究的算法的实用性很低,很难真正被应用在实际通信系统中。
基于此,本申请提供一种无人机基站控制方法及装置、模型训练方法及装置,以提高无人机控制的实时性,提高轨迹优化效率。
图1为本申请提供的一种应用场景示意图。如图1所示的,有若干个待通信设备随机分布在一定区域范围内,一个无人机基站(UAV-BS)负责与该区域内的这些待通信设备(在本场景中,待通信设备为物联网设备Internet of Device Thing,IoDT)进行通信。其中,虚线所示为其中一条下行通信链路。在通信过程中,无人机基站采用本申请提供的方法进行飞行动作调节,可以使无人机基站与各物联网设备的通信效率达到最大,尽快完成在该区域范围内的通信任务。
在另一些场景中,还可以由另一控制设备基于本申请提供的方法对无人机基站进行飞行姿态调节。
无人机基站进行飞行姿态调节的具体实现过程可以参考以下实施例。
图2为本申请一实施例提供的一种无人机基站控制方法的流程图,本实施例的方法可以应用于以上场景中的无人机基站或控制设备,本实施例的方法包括:
S201、确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量。
其中,待通信设备可以通过自身配备的GPS定位模块进行定位,并将定位信息发送给无人机基站。相对应的,无人机基站则可以获取并确定各待通信设备的位置信息。
通信完成量信息指截止到执行本方法的时刻,每一待通信设备累计的通信量。
在一些实现方式中,可以通过从无人机基站设备的飞行控制系统中获取当前时隙的状态信息。其中,无人机基站的位置信息可以由无人机基站设备上设置的GPS定位模块确定,并传输到无人机基站设备的飞行控制系统中;速度信息、加速度信息、航向角信息、俯仰角信息则可以通过无人机基站设备上设置的IMU惯性测量单元来确定,并传输到无人机基站设备的飞行控制系统中;无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角,可以在确定待通信设备的位置信息和无人机基站的位置信息后计算得到;无人机基站与任一通信设备之间的通信完成量信息可以通过无人机基站设备上设置的通信单元来确定,并传输到无人机基站设备的飞行控制系统中。
S202、利用预先训练好的飞行轨迹优化模型,根据所述状态信息,确定下一时隙的调整动作;所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使所述无人机基站根据所述调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。
本实施例中的飞行轨迹优化模型通过训练,具备了根据待通信设备的位置信息和无人机基站当前时隙的状态信息,确定下一时隙调整动作的能力。在本实施例中,调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个。无论输出调整动作是什么,其均为飞行轨迹优化模型为保证整体通信耗时最小而所确定的动作。
因此,在确定了待通信设备的位置信息和无人机基站当前时隙的状态信息后,即可将这些数据输入预先训练好的飞行轨迹优化模型。模型通过算法处理,可以输出一个与当前状态对应的下一时隙可以执行的飞行动作调整量、下一时隙进行通信的设备、下一时隙通信功率的调整量中的至少一个。无人机基站可以根据飞行动作调整量调整飞行动作;根据通信功率调整量调整通信功率;根据进行通信的设备,与对应的待通信设备建立通信连接。无论是否调整飞行动作,无人机基站在下一时隙都会到达新的轨迹点,在新轨迹点上,与待通信设备进行通信。若输出的调整动作中包括进行通信的设备,则在新轨迹点上与对应的待通信设备进行通信;若输出的调整动作中包括通信功率调整量,则在新轨迹点上以调整后的通信功率待通信设备进行通信。
对应于不同的执行主体,本实施例的方案的执行过程有细微的差别。
当本方法的执行主体为无人机基站时,无人机基站可以获取若干待通信设备的位置信息和自身的状态信息,并输入到飞行轨迹优化模型中。再根据飞行轨迹优化模型的输出结果做出相应的调整。
当本方法的执行主体为控制设备时,控制设备可以获取若干待通信设备的位置信息和从无人机基站处获取无人机基站的状态信息,并输入到飞行轨迹优化模型中。再根据行轨迹优化模型的输出结果控制无人机基站做出相应的调整。
本实施例提供的无人机基站控制方法包括:确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量;利用预先训练好的飞行轨迹优化模型,根据所述状态信息,确定下一时隙的调整动作;所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使所述无人机基站根据所述调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。通过预先的训练,可以使飞行轨迹优化模型达到轨迹优化的效果。在无人机基站控制时,通过确定待通信设备的相关信息和无人机基站的相关信息,并输入到飞行轨迹优化模型中,即可输出对应的调整动作。无人机执行调整动作,即可到达下一位置点并进行通信。遵循飞行轨迹优化模型的轨迹指导,可以实时调整无人机的飞行轨迹,以提高无人机控制的实时性,提高轨迹优化效率。同时可以在最短的时间内完成与若干待通信设备的通信。
在一些实施例中,上述的飞行轨迹优化模型可以包括:采样策略神经网络、目标策略神经网络和评论家神经网络。相对应的,上述方法还可以包括飞行轨迹优化模型的训练过程:初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;循环执行如下训练过程,直至达到预设训练次数:基于所述采样策略神经网络,生成若干组训练样本;根据所述训练样本,确定所述目标策略神经网络的梯度;基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;根据所述训练样本,确定所述评论家神经网络的损失;基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。
基于提高无人机基站控制实时性的目的,本申请提出基于深度强化学习PPO算法的飞行轨迹优化模型。该模型可以由三个网络构成,采样策略神经网络、目标策略神经网络和评论家神经网络。
模型涉及三个主要的函数,状态信息函数、调整动作函数、奖励函数。其中,状态信息函数主要与无人机基站的通信场景相关,根据场景中若干待通信设备的位置信息、无人机基站的位置、速度、加速度、航向,无人机基站与待通信设备的距离、俯仰角、通信量等信息,可以确定状态信息函数;调整动作函数主要与无人机基站的可调控的飞行动作相关,根据无人机基站的实际型号及其可控飞行动作,可以确定调整动作函数,可以包括速度、加速度、航向等动作;奖励函数则与通信总时长最小的优化目标相关,鉴于缩短通信时长的目标,可以将奖励函数设置为与通信时长正相关的函数。
以图1对应场景为例说明模型构建过程。为便于描述,在该场景中建立如图3所示的坐标系来对无人机基站和物联网设备的位置进行描述。
在此场景中,有一个无人机基站和随机分布的N个物联网设备。该无人机的任务就是从一个补给点(起飞点)起飞,然后在其工作范围内飞行并执行通信任务。在每个时隙中,无人机从通信信号覆盖范围内所有物联网设备中选择未完成通信任务的物联网设备进行通信,被选择的物联网设备发送其基本信息到无人机。无人机收集到工作范围内所有物联网设备的最低数据容量需求之后,飞行返回到降落点(补给点)。为了更加节省无人机基站的飞行时间,这个模型的优化目标就是最小化无人机与物联网设备的通信时间和飞行时间。
其中,(xD[t],yD[t],zD[t])代表无人机在第t个时隙的飞行坐标,(xi,yi,zi)代表第i个物联网设备的坐标。无人机的补给点的坐标可以表示为
Figure BDA0003543716290000111
图中未示出。因为需要确保无人机处于安全的飞行范围以免无人机碰撞到建筑物,并且需要确保无人机与控制塔保持连接,所以限制无人机的飞行高度处于一定的范围之内,可以表示为:
Figure BDA0003543716290000112
其中,
Figure BDA0003543716290000113
代表无人机的飞行高度zD[t]的最小值,其补给点的高度
Figure BDA0003543716290000114
为不同参数。不过,在实际场景中,为了方便计算可以设定为相同数值,此数值可以设定为0或其它数值。
同时,物联网设备的高度也处于一个范围之间,可以表示为:
Figure BDA0003543716290000115
另外,为了简化模型,可以规定无人机的飞行高度比物联网设备高,可以表示为:
Figure BDA0003543716290000116
在无人机执行任务的第t时隙中,无人机与第i个物联网设备之间的空对地视距概率可以表示为:
Figure BDA0003543716290000121
Figure BDA0003543716290000122
Figure BDA0003543716290000123
其中,a和b为常数,与场景对应的实际环境相关;ri[t]代表无人机与第i个物联网设备在第t个时隙的水平距离;hi[t]代表无人机与第i个物联网设备在第t个时隙的垂直距离;PLoS(hi[t],ri[t])表示无人机与第i个物联网设备在第t个时隙通信时属于视距概率通信的概率。
那么,无人机与第i个物联网设备在第t个时隙通信时属于非视距概率通信的概率可以表示为:
Figure BDA0003543716290000124
除了自由空间传播损失外,无线电信号还会由于城市环境的遮蔽和散射而遭受损失。因此LoS链路和NLoS链路的路径损耗模型如下:
Figure BDA0003543716290000125
Figure BDA0003543716290000126
Figure BDA0003543716290000127
其中,fc代表载波频率;c代表光速;di[t]代表无人机与第i个物联网设备在第t个时隙的实际距离。
所以,无人机与第i个物联网设备之间在第t个时隙的平均路径损耗可以表示为:
Figure BDA0003543716290000128
综合上式(4)-(10)可以得到:
Figure BDA0003543716290000129
A=ηLoSNLoS
Figure BDA00035437162900001210
Figure BDA0003543716290000131
其中,θi[t]代表无人机在第t个时隙与第i个物联网设备通信的俯仰角,范围可以表示为0≤θi[t]<90°。
第i个物联网设备在第t个时隙接收到的功率可以表示为:
Figure BDA0003543716290000132
其中,PD[t]代表无人机在第t时隙的发射功率。
为了保证无人机与第i个物联网设备的通信质量,必须保证第i个物联网设备接收到的功率超过阈值Pmin。换言之,当第i个物联网设备接收到的功率Pi r[t]大于等于Pmin,则可认为第i个物联网设备在第t个时隙处于无人机的覆盖范围中,这个条件属于优化问题的限制条件之一。
Figure BDA0003543716290000133
无人机选择物联网设备的策略如下:无人机与覆盖范围内的所有没有完成通信任务的物联网设备进行通信。无人机是否与物联网设备进行通信可以表示为:
Figure BDA0003543716290000134
其中,ci[t]=0代表无人机决定在第t个时隙中与第i个物联网设备不进行通信;ci[t]=1代表无人机决定在第t个时隙中与第i个物联网设备进行通信。
无人机的飞行坐标可以表示为:
Figure BDA0003543716290000135
其中,tend代表无人机完成通信任务之后返回补给点的时隙。
无人机从补给点起飞又回到补给点,因此有:
C3:q[1]=q[tend] (18)
另外,考虑到无人机的电池能量和飞行时间有限的问题,无人机在收集完物联网设备的信息之后,应当在限制的飞行时间内飞回起飞点(补给点),否则视为任务失败。则tend需满足:
C4:tend≤tmax (19)
无人机第t+1时隙的运动方程可以表示为:
Figure BDA0003543716290000136
其中,φ[t]代表无人机在第t时隙的航向角;
Figure BDA0003543716290000141
代表无人机在第t时隙的俯仰角;V[t]代表无人机在第t时隙的速度。
无人机可调的航向角、俯仰角、速度都是有极限的,因此,φ[t]、
Figure BDA0003543716290000142
V[t]有一定的范围限制,可以通过如下公式表示:
Figure BDA0003543716290000143
Figure BDA0003543716290000144
Figure BDA0003543716290000145
其中,Vmax代表无人机最大的飞行速度。
同时,无人机在两个时隙之间的移动距离也是有限的,具体可以表示为:
Figure BDA0003543716290000146
其中,Smax代表无人机在第t时隙内可飞行的最远距离,可以通过以下公式计算:
Figure BDA0003543716290000147
另外,无人机在第t时隙的速度变化可以表示为:
Figure BDA0003543716290000148
其中,aD[t]代表无人机在第t时隙的加速度。无人机的加速度与无人机的性能相关,因此,aD[t]也有一定的范围限制。同时,无人机的加速度具有方向性,加速度为正,则加速;加速度为负,则减速。aD[t]的取值可以通过如下公式表示:
Figure BDA0003543716290000149
其中,
Figure BDA00035437162900001410
代表无人机的最大飞行加速度。
在这个场景中,无人机与第i个物联网设备在第t个时隙通信的信噪比可以表示为:
Figure BDA00035437162900001411
其中,σ2代表高斯加性白噪声;Pi r[t]代表第i个物联网设备在第t时隙中接收到的功率。因为环境中存在各种衰落系数,所以物联网设备收到的功率小于最大的无人机发射功率Pmax,可以表示为:
Figure BDA00035437162900001412
如果第i个物联网设备在第t时隙处于无人机的覆盖范围内,并且还没有完成数据传输任务,那么第i个物联网设备就会在第t时隙给无人机发送数据。无人机在第t个时隙与第i个物联网设备之间的通信速率可以表示为:
Figure BDA0003543716290000151
其中,B代表通信的带宽。
无人机的飞行任务可以分为两部分,第一部分就是完成所有物联网设备的通信任务(即对每个物联网设备收集足够的数据),第二部分就是自主飞回补给点(起飞点/降落点)。
对于第一部分的任务,从第i个物联网设备收集的数据可以表示为:
Figure BDA0003543716290000152
其中,ηmin代表每个物联网设备必须发送的最少信息容量。
这个场景下的优化目标就是最小化无人机执行任务的飞行时间,具体可以表示为:
Figure BDA0003543716290000153
策略函数可以用来描述智能体在状态st下采取动作at的概率,在深度神经网络中,就是使用一个神经网络来拟合这个策略函数。由于PPO是属于演说家-评论家结构和异策略的深度强化学习算法,所以PPO中的策略函数通常有两个函数。一个用来采集学习样本,被称为采样策略函数;另外一个作为时刻更新的参数,叫目标策略函数。两者都是通过神经网络拟合得到的,分别称为采样策略神经网络和目标策略神经网络。目标策略神经网络和采样策略神经网络的参数可以分别表示为θ和θ',目标策略神经网络和采样策略神经网络可以通过数学式分别表示为πθ(at|st)和πθ'(at|st)。另外,对于深度强化学习PPO算法,还需要一个评论家函数。其实评论家函数就是一个状态值函数,用来评判当前出现这个状态的价值。同样也可以使用一个神经网络来拟合这个状态值函数,这个神经网络可以被称为状态值函数网络,也可以被称为评论家神经网络,这个神经网络可以表示为Vω(st),这个神经网络的参数可以表示为ω。
上述的根据所述训练样本,确定所述目标策略神经网络的梯度,具体可以包括:根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定优势函数;根据所述优势函数,确定所述目标策略神经网络的梯度。基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数,具体可以包括:基于梯度上升法,根据所述目标策略神经网络的学习率和所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数。根据所述训练样本,确定所述评论家神经网络的损失,具体可以包括:根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定所述评论家神经网络的损失。
深度强化学习PPO算法的演说家神经网络(目标策略神经网络)的梯度计算公式可以表示为:
Figure BDA0003543716290000161
其中,Aθ′(st,at)代表优势函数,指的是,在状态st下,动作at相对于平均而言的优势,可以通过以下公式计算:
Aθ′(st,at)=δt+βδt+1+…+(β)T-tδT (34)
其中,β代表折扣因子,δt可以通过以下公式计算:
δt=R(st,at|θ')+βVω(st+1)-Vω(st) (35)
其中,R(st,at|θ')代表奖励函数。
目标策略神经网络的参数更新公式可以表示为:
Figure BDA0003543716290000162
其中,o为目标策略神经网络的学习率,
Figure BDA0003543716290000163
即为目标策略神经网络的梯度
Figure BDA0003543716290000164
评论家神经网络(状态值函数网络)参数的损失函数可以表示为:
Figure BDA0003543716290000165
评论家神经网络参数ω的更新公式为:
Figure BDA0003543716290000166
其中,w代表评论家神经网络的学习率。
综上,基于深度强化学习PPO算法的无人机基站轨迹优化算法的系统框架可以如图4所示。
在一些实施例中,上述的基于所述采样策略神经网络,生成若干组训练样本,包括:初始化所述无人机基站的状态信息,随机生成若干待通信设备的地理位置,初始化时间t=0;在达到最大时间tmax之前,循环执行如下步骤生成样本:确定所述无人机基站的状态信息st;基于所述采样策略神经网络,选择调整动作at;根据所述调整动作at,确定所述无人机基站在下一时隙的位置、所述无人机基站在下一时隙对应的状态信息st+1;根据预先设定的奖励函数,确定调整动作at对应的奖励值rt;将st、at、rt、st+1生成一组新样本[st,at,rt,st+1],放入经验回放池;更新时间t。
由于无人机的问题属于多维的连续动作空间问题,所以本申请的方案选择使用深度强化学习PPO(Proximal Policy Optimization)算法来解决上述优化问题。
如何使用深度强化学习PPO算法来解决无人机基站环境下的轨迹优化问题是本申请的关键。深度强化学习最重要的三个部分分别是状态空间设计、动作空间设计和奖励函数设计。
状态空间设计。在上述的无人机基站场景中,状态向量应该包含这个环境里面的所有信息。那么无人机基站在第t时隙从环境中所观察到的状态st可以表示为:
Figure BDA0003543716290000171
其中,(xD[t],yD[t],zD[t])代表无人机在第t时隙的位置;V[t]代表无人机在第t时隙的飞行速度;φ[t]代表无人机的航向角;
Figure BDA0003543716290000172
代表无人机的俯仰角;(xi,yi,zi)代表第i物联网设备的坐标;θi[t]代表无人机与第i个物联网设备之间的俯仰角;di[t]代表无人机与第i个物联网设备之间的真实距离;ηi[t]代表第i个物联网设备已经完成的通信任务;Nf代表无人机已经完成通信任务的物联网设备数量;N代表无人机工作范围里的总用户数量;t代表无人机飞行在第t工作时隙;tmax代表无人机的最大飞行时间。
状态st中所有的特征在输入神经网络之前都会被归一化到[-1,1]。整个状态向量st包含了6+7N+4维度。
动作空间设计。动作向量的设计决定无人机(智能体)的飞行动作,所以动作空间应该包括智能体在环境中可能采取的所有操作。对于本申请的场景,动作空间at可以表示为:
Figure BDA0003543716290000173
其中,aD[t]代表无人机在第t时隙的加速度;
Figure BDA0003543716290000174
代表无人机在第t时隙的航向角转角;
Figure BDA0003543716290000175
代表无人机在第t时隙的俯仰角转角;
Figure BDA0003543716290000176
代表无人机的传输功率。每个向量的值都处于不同的范围,分别可以表示为:
aD[t]∈[-1,1] (40)
Figure BDA0003543716290000177
Figure BDA0003543716290000178
Figure BDA0003543716290000179
通过简单的映射函数,把动作空间映射到实际的无人机操作中,四个元素对应的映射和作用到动作空间的函数分别可以表示为:
Figure BDA0003543716290000181
Figure BDA0003543716290000182
Figure BDA0003543716290000183
Figure BDA0003543716290000184
其中,(x)mod(y)代表x对y取余。
奖励函数设计。奖励函数的设计对于神经网络的训练起着至关重要的作用。因为奖励函数的设计直接影响智能体学习到在某个状态下应该执行某个动作,所以奖励函数的设计可能直接影响整个神经网络的训练情况。在本申请中,为了让无人机通过训练,能够按照要求完成指定的飞行任务,所以奖励函数设计的比较复杂,分别由五个部分组成。奖励函数详细的设计过程如下所示。
首先,第一项奖励值的设置如下:
Figure BDA0003543716290000185
其中,reward1表示无人机完成了与所有用户的通信任务之后,飞回补给点结束整个飞行任务所得到的奖励;rb代表一个常数;tend代表无人机结束飞行任务的时间。
所以,整个reward1奖励项代表的是,一个无人机越早完成通信任务和飞行任务,得到的奖励就越多。无人机基于这个奖励项进行训练学习后,能够学会越早完成通信任务和飞行任务就能得到越多的奖励。
reward1属于稀疏奖励。只有稀疏奖励,智能体很难通过训练得到奖励,也就很难学习到正确的方法。所以还需要增加中间奖励。
Figure BDA0003543716290000186
其中,rfc代表一个常数;Nfc[t]代表第t时隙完成通信任务的物联网设备的数量;Nfc[t-1]代表第t-1时隙完成通信任务的物联网设备的数量。
reward2代表越早完成一个物联网设备的通信任务就能够得到更多的奖励。
除此之外,还设计了一个reward3奖励项。这个奖励项代表无人机越早完成与所有物联网设备的通信任务就能获得越多奖励值。
Figure BDA0003543716290000187
其中,tfc代表无人机完成通信任务的时隙。
当无人机基站完成了通信任务之后,需要执行回到起飞点的任务。也要对应设置一个中间过程的奖励,这个中间奖励的设计理念就是离起飞点越近受到的惩罚就越少。
Figure BDA0003543716290000191
Figure BDA0003543716290000192
其中,Dp代表无人机离起飞点(补给点)的距离。
当无人机在最大飞行时间之内没有完成所有用户的通信任务,则视为任务失败,给予相应的惩罚。
Figure BDA0003543716290000193
Figure BDA0003543716290000194
其中,ηi代表物联网设备与无人机已完成的通信量。
reward=reward1+reward2+reward3+reward4+reward5 (52)
本申请基于深度强化学习PPO算法的无人机轨迹规划训练过程算法如下表所示。
Figure BDA0003543716290000195
Figure BDA0003543716290000201
从上表可以看出来,基于深度强化学习PPO算法的无人机路径规划算法的训练过程如下。
首先,在算法开始阶段,用参数ω初始化评论家神经网络Vω(s),用参数θ初始化目标策略神经网络πθ(a|s)。然后,用目标策略神经网络πθ(a|s)的参数θ初始化采样策略神经网络πθ'(a|s)的参数θ'。完成初始化后,即可进入训练过程。
在每次训练过程开始,都要初始化无人机的环境、无人机的初始位置、物联网设备的位置。接着初始化短期记忆回放池B。无人机从环境中观察到st,进入无人机飞行任务的循环。
根据采样策略神经网络πθ'(a|s)选择动作at,并执行动作at改变无人机的动作。具体的,若at为加速度,则根据式(41)改变无人机的加速度aD[t]和速度V[t];若at为航向角,则根据式(42)改变无人机的航向角φ[t];若at为俯仰角,则根据式(43)改变无人机的俯仰角
Figure BDA0003543716290000211
若at为发送功率,则根据式(44)改变无人机的发送功率PD[t]。改变动作后,确定无人机在第t个时隙的运动状态,执行对应的飞行动作,改变无人机的坐标。通过计算无人机在新坐标的通信覆盖范围,选择处于通信覆盖范围内并且没有完成通信任务的物联网设备进行通信。计算这些物联网设备与无人机的通信速率,然后根据奖励函数得到rt,储存序列(st,at,rt,st+1)到记忆回放池中。
重复循环过程,直至无人机飞行时隙t等于tmax或者无人机已经完成所有飞行任务,结束这次训练。然后,通过式(33)来计算目标策略神经网络的梯度,并且使用梯度上升的方式去更新参数。同样地,通过式(37)来计算评论家神经网络的梯度,并且使用梯度下降的方式去更新参数。然后,使用目标策略神经网络的参数θ来更新采样策略神经网络的参数θ'。至此完成一次完整的训练。
不断地重复以上步骤,直至训练次数达到预设的次数M次。
本申请的方案,同时考虑了无人机基站飞行轨迹、用户选择策略、功率分配策略、无人机覆盖范围、无人机基站飞行高度等问题,制定了无人机基站的飞行时间优化问题。同时,采用深度强化学习PPO算法实现了轨迹优化。
在实际情况中,由于用户设备的地理位置是随机产生的,如果无人机基站轨迹优化算法要真正地被应用在实际操作系统中,那么对无人机基站的轨迹优化算法的实时性和算法复杂度有着很高的要求。传统凸优化算法中的块坐标下降和连续凸逼近算法复杂度高,导致无人机基站轨迹优化算法很难被真正地应用起来。而机器学习,特别是神经网络已经在很多领域被广泛应用起来,如自动驾驶等。神经网络能够被看作成一个函数拟合器,神经网络通过训练,可以有很好的拟合性能,并且具有很低的时间复杂度。因此,通过深度强化学习PPO算法能够训练出一个神经网络,这个神经网络也能被称为策略函数。无人机基站能够根据这个神经网络和用户地理位置信息实时地、自适应地调整自身的飞行轨迹、用户选择和资源分配策略。使得无人机基站的轨迹优化算法能够真正地被应用在实际的无人机通信系统中,保证无人机基站在完成基本任务的同时,能够最小化无人机基站的飞行时间,从而最小化无人机基站的能量消耗。
图5为本申请一实施例提供的一种无人机基站控制装置的结构示意图,如图5所示的,本实施例的无人机基站控制装置500包括:信息确定模块501、调整动作确定模块502。
信息确定模块501,用于确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量;
调整动作确定模块502,用于利用预先训练好的飞行轨迹优化模型,根据所述状态信息,确定下一时隙的调整动作;所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使所述无人机基站根据所述调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。
可选的,所述飞行轨迹优化模型包括:采样策略神经网络、目标策略神经网络和评论家神经网络;
所述装置还包括模型训练模块503,用于:
初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;
循环执行如下训练过程,直至达到预设训练次数:
基于所述采样策略神经网络,生成若干组训练样本;
根据所述训练样本,确定所述目标策略神经网络的梯度;
基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;
根据所述训练样本,确定所述评论家神经网络的损失;
基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;
根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。
可选的,所述模型训练模块503在基于所述采样策略神经网络,生成若干组训练样本时,具体用于:
初始化所述无人机基站的状态信息,随机生成若干待通信设备的地理位置,初始化时间t=0;在达到最大时间tmax之前,循环执行如下步骤生成样本:
确定所述无人机基站的状态信息st
基于所述采样策略神经网络,选择调整动作at
根据所述调整动作at,确定所述无人机基站在下一时隙的位置、所述无人机基站在下一时隙对应的状态信息st+1
根据预先设定的奖励函数,确定调整动作at对应的奖励值rt
将st、at、rt、st+1生成一组新样本[st,at,rt,st+1],放入经验回放池;
更新时间t。
可选的,所述模型训练模块503在根据所述训练样本,确定所述目标策略神经网络的梯度时,具体用于:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定优势函数;
根据所述优势函数,确定所述目标策略神经网络的梯度。
可选的,所述模型训练模块503在基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数时,具体用于:
基于梯度上升法,根据所述目标策略神经网络的学习率和所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数。
可选的,所述模型训练模块503在根据所述训练样本,确定所述评论家神经网络的损失时,具体用于:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定所述评论家神经网络的损失。
本实施例的装置,可以用于执行上述任一实施例的方法,其实现原理和技术效果类似,此处不再赘述。
图6为本申请一实施例提供的一种电子设备的结构示意图,如图6所示,本实施例的电子设备600可以包括:存储器601和处理器602。
存储器601上存储有能够被处理器602加载并执行上述实施例中方法的计算机程序。
其中,处理器602和存储器601相连,如通过总线相连。
可选地,电子设备600还可以包括收发器。需要说明的是,实际应用中收发器不限于一个,该电子设备600的结构并不构成对本申请实施例的限定。
处理器602可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器602也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线可包括一通路,在上述组件之间传送信息。总线可以是PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器601可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器601用于存储执行本申请方案的应用程序代码,并由处理器602来控制执行。处理器602用于执行存储器601中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本实施例的电子设备,可以用于执行上述任一实施例的方法,其实现原理和技术效果类似,此处不再赘述。
本申请还提供一种计算机可读存储介质,存储有能够被处理器加载并执行如上实施例中的方法的计算机程序。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种无人机基站控制方法,其特征在于,包括:
确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量;
利用预先训练好的飞行轨迹优化模型,根据所述状态信息,确定下一时隙的调整动作;所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使所述无人机基站根据所述调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。
2.根据权利要求1所述的方法,其特征在于,所述飞行轨迹优化模型包括:采样策略神经网络、目标策略神经网络和评论家神经网络;
所述方法还包括:
初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;
循环执行如下训练过程,直至达到预设训练次数:
基于所述采样策略神经网络,生成若干组训练样本;
根据所述训练样本,确定所述目标策略神经网络的梯度;
基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;
根据所述训练样本,确定所述评论家神经网络的损失;
基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;
根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述采样策略神经网络,生成若干组训练样本,包括:
初始化所述无人机基站的状态信息,随机生成若干待通信设备的地理位置,初始化时间t=0;在达到最大时间tmax之前,循环执行如下步骤生成样本:
确定所述无人机基站的状态信息st
基于所述采样策略神经网络,选择调整动作at
根据所述调整动作at,确定所述无人机基站在下一时隙的位置、所述无人机基站在下一时隙对应的状态信息st+1
根据预先设定的奖励函数,确定调整动作at对应的奖励值rt
将st、at、rt、st+1生成一组新样本[st,at,rt,st+1],放入经验回放池;
更新时间t。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述训练样本,确定所述目标策略神经网络的梯度,包括:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定优势函数;
根据所述优势函数,确定所述目标策略神经网络的梯度。
5.根据权利要求2或3所述的方法,其特征在于,所述基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数,包括:
基于梯度上升法,根据所述目标策略神经网络的学习率和所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数。
6.根据权利要求2或3所述的方法,其特征在于,所述根据所述训练样本,确定所述评论家神经网络的损失,包括:
根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定所述评论家神经网络的损失。
7.一种模型训练方法,其特征在于,用于对飞行轨迹优化模型进行训练,所述飞行轨迹优化模型包括采样策略神经网络、目标策略神经网络和评论家神经网络;所述方法包括:
初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;
循环执行如下训练过程,直至达到预设训练次数:
基于所述采样策略神经网络,生成若干组训练样本;
根据所述训练样本,确定所述目标策略神经网络的梯度;
基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;
根据所述训练样本,确定所述评论家神经网络的损失;
基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;
根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。
8.一种无人机基站控制装置,其特征在于,包括:
信息确定模块,用于确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量;
调整动作确定模块,用于利用预先训练好的飞行轨迹优化模型,根据所述状态信息,确定下一时隙的调整动作;所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使所述无人机基站根据所述调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。
9.一种模型训练装置,其特征在于,包括:
初始化模块,用于初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;
训练模块,用于循环执行如下训练过程,直至达到预设训练次数:基于所述采样策略神经网络,生成若干组训练样本;根据所述训练样本,确定所述目标策略神经网络的梯度;基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;根据所述训练样本,确定所述评论家神经网络的损失;基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。
10.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用并执行所述存储器中的程序指令,执行如权利要求1-7任一项所述的方法。
CN202210243338.4A 2022-03-11 2022-03-11 无人机基站控制方法及装置、模型训练方法及装置 Pending CN114727323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210243338.4A CN114727323A (zh) 2022-03-11 2022-03-11 无人机基站控制方法及装置、模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210243338.4A CN114727323A (zh) 2022-03-11 2022-03-11 无人机基站控制方法及装置、模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN114727323A true CN114727323A (zh) 2022-07-08

Family

ID=82238281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210243338.4A Pending CN114727323A (zh) 2022-03-11 2022-03-11 无人机基站控制方法及装置、模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN114727323A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116723470A (zh) * 2023-08-10 2023-09-08 中国电信股份有限公司 空中基站的移动轨迹预测模型的确定方法、装置和设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108616303A (zh) * 2018-05-03 2018-10-02 广东工业大学 无人机基站通信系统的控制方法、系统、装置及存储介质
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN112511250A (zh) * 2020-12-03 2021-03-16 中国人民解放军火箭军工程大学 一种基于drl的多无人机空中基站动态部署方法及系统
US11046430B1 (en) * 2017-04-17 2021-06-29 United States Of America As Represented By The Administrator Of Nasa Intelligent trajectory adviser system for unmanned aerial vehicles in complex environments
CN113190039A (zh) * 2021-04-27 2021-07-30 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法
EP3886017A1 (en) * 2020-03-27 2021-09-29 Sony Group Corporation Configuring a system for delivery of goods by unmanned aerial vehicles
CN113467515A (zh) * 2021-07-22 2021-10-01 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN113721645A (zh) * 2021-08-07 2021-11-30 中国航空工业集团公司沈阳飞机设计研究所 一种基于分布式强化学习的无人机连续机动控制方法
CN113885549A (zh) * 2021-11-23 2022-01-04 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11046430B1 (en) * 2017-04-17 2021-06-29 United States Of America As Represented By The Administrator Of Nasa Intelligent trajectory adviser system for unmanned aerial vehicles in complex environments
CN108616303A (zh) * 2018-05-03 2018-10-02 广东工业大学 无人机基站通信系统的控制方法、系统、装置及存储介质
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
EP3886017A1 (en) * 2020-03-27 2021-09-29 Sony Group Corporation Configuring a system for delivery of goods by unmanned aerial vehicles
CN112511250A (zh) * 2020-12-03 2021-03-16 中国人民解放军火箭军工程大学 一种基于drl的多无人机空中基站动态部署方法及系统
CN113190039A (zh) * 2021-04-27 2021-07-30 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法
CN113467515A (zh) * 2021-07-22 2021-10-01 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN113721645A (zh) * 2021-08-07 2021-11-30 中国航空工业集团公司沈阳飞机设计研究所 一种基于分布式强化学习的无人机连续机动控制方法
CN113885549A (zh) * 2021-11-23 2022-01-04 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕忠昊: "基于强化学习的无人机通信系统容量优化研究", 《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》, 15 August 2021 (2021-08-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116723470A (zh) * 2023-08-10 2023-09-08 中国电信股份有限公司 空中基站的移动轨迹预测模型的确定方法、装置和设备
CN116723470B (zh) * 2023-08-10 2023-11-07 中国电信股份有限公司 空中基站的移动轨迹预测模型的确定方法、装置和设备

Similar Documents

Publication Publication Date Title
US11703853B2 (en) Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same
Zhang et al. Energy-efficient trajectory optimization for UAV-assisted IoT networks
Bayerlein et al. Trajectory optimization for autonomous flying base station via reinforcement learning
Chen et al. Deep reinforcement learning based resource allocation in multi-UAV-aided MEC networks
CN113395654A (zh) 一种边缘计算系统的多无人机任务卸载和资源分配的方法
CN114785397B (zh) 无人机基站控制方法、飞行轨迹优化模型构建、训练方法
KR20210069549A (ko) 다중 무인항공기 네비게이션 최적화 방법 및 그를 이용한 무인항공항 시스템
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN115640131A (zh) 一种基于深度确定性策略梯度的无人机辅助计算迁移方法
Zhang et al. Learning to be proactive: Self-regulation of UAV based networks with UAV and user dynamics
CN116546559B (zh) 分布式多目标空地联合轨迹规划和卸载调度方法及系统
CN117499867A (zh) 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法
Parvaresh et al. A continuous actor–critic deep Q-learning-enabled deployment of UAV base stations: Toward 6G small cells in the skies of smart cities
CN113919483A (zh) 一种无线通信网络中无线电地图的构造和定位方法及其系统
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN117858015A (zh) 基于深度强化学习的空中边缘计算数据安全传输及资源分配方法
CN114727323A (zh) 无人机基站控制方法及装置、模型训练方法及装置
Shi et al. Age of information optimization with heterogeneous uavs based on deep reinforcement learning
CN116737391A (zh) 一种联邦模式下基于混合策略的边缘计算协作方法
CN113727278A (zh) 一种路径规划方法、接入网设备及飞行控制设备
Zhang et al. AoI-minimal power and trajectory optimization for UAV-assisted wireless networks
CN116249202A (zh) 一种物联网设备的联合定位与计算支持方法
Gu et al. UAV-enabled mobile radiation source tracking with deep reinforcement learning
CN114513814A (zh) 基于无人机辅助节点的边缘网络计算资源动态优化方法
Cui et al. UAV-enabled MEC system: Locations and coverage optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination