CN117241300A

CN117241300A - 一种无人机辅助的通感算网络融合方法

Info

Publication number: CN117241300A
Application number: CN202311526749.5A
Authority: CN
Inventors: 沈立; 李斌; 董洪康; 王新星
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2023-12-15
Anticipated expiration: 2043-11-16
Also published as: CN117241300B

Abstract

本申请涉及一种无人机辅助的通感算网络融合方法。该方法包括：无人机通过通感一体化信号对环境状态进行感知，获得当前的环境状态，在每个决策时刻t时，获取各无人机当前的坐标、各用户当前的坐标、各边缘基站当前的坐标、无人机当前的剩余能量、无人机的处理速率、卸载速率和当前的环境状态，输入至训练好的策略优化网络模型进行分析，确定无人机下一时刻最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略，在下一时刻时，无人机根据最优的无人机的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略执行动作，从而提高了无人机的通信和感知性能。

Description

一种无人机辅助的通感算网络融合方法

技术领域

本申请涉及通信技术领域，特别是涉及一种无人机辅助的通感算网络融合方法。

背景技术

通感算一体化即通信-感知-计算一体化，是6G的一个关键技术，旨在实现更高级别的智能化和全方位的连接。传统的通信、感知、计算分立的方案，会造成设计复杂、波段干扰、资源浪费等现象。通感算融合能够减少设备冗杂度并降低生产及使用成本，保证准确感知、灵活决策、互联互通，从而达到协同计算的目的，对发展6G技术有着重要的作用。无人机（Unmanned Aerial Vehicle，UAV）作为空中平台可以灵活部署在任何区域，以其高机动性、灵活部署和广泛覆盖受到广泛关注。无人机可以为地面用户提供通信和感知能力，并融合计算以达到最优分配，给地面用户提供有效服务。

然而，现有的研究仅对通信和感知性能边界进行了探讨，且信息理论大多从单一维度对通信、感知、计算的性能进行评价，对通感算一体化融合方法研究、指标评价以及性能优化等方面仍不足，因此，目前的无人机的通信和感知性能较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高无人机的通信和感知性能的无人机辅助的通感算网络融合方法。

一种无人机辅助的通感算网络融合方法，应用于无人机通感一体化传输与感知系统的环境中，所述环境中至少包括个用户、个边缘基站以及飞行在用户的上空的架无人机，所述无人机辅助的通感算网络融合方法包括：

无人机通过周期性的发出通感一体化信号对环境状态进行感知，以获得回波信号；

根据所述回波信号中的信息进行提取，获得当前的环境状态；

所述无人机在每个决策时刻t时，获取各无人机当前的坐标、各用户当前的坐标、各边缘基站当前的坐标、无人机当前的剩余能量、无人机的处理速率、卸载速率和当前的环境状态，输入至采用基于SAC算法训练好的策略优化网络模型，通过所述策略优化网络模型对所述无人机下一时刻的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略进行分析，确定无人机下一时刻最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略；

在下一时刻时，所述无人机根据所述最优的无人机的轨迹规划进行移动，所述无人机根据所述最优的无人机和用户关联决策与所述环境中的用户进行通信连接，所述无人机根据最优的目标感知选择确定感知的目标，所述无人机根据所述最优的发射波束形成策略调整发出通感一体化信号的通信功率加权系数和感知功率加权系数，所述无人机根据所述最优的资源分配策略对任务计算资源进行分配。

在其中一个实施例中，所述通感一体化信号的表达式为：

；

其中，F为无人机发出的通感一体化信号，表示感知分量，表示通信分量，为通信功率加权系数，为感知功率加权系数。

在其中一个实施例中，所述回波信号的表达式为：

；

其中，为回波信号，为雷达路径损耗，为自然常数，f _s为目标移动造成的频偏，为虚数单位，用于表示复数，为噪声干扰。

在其中一个实施例中，所述策略优化网络模型包括Critic网络和Actor网络，所述Critic网络对上一时刻输出最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略进行评价，输出评价结果至所述Actor网络，所述Actor网络根据所述Critic网络的评价结果和各无人机当前的坐标、各用户当前的坐标、各边缘基站当前的坐标、无人机当前的剩余能量、无人机的处理速率、卸载速率和当前的环境状态，输出无人机下一时刻最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略。

在其中一个实施例中，所述采用基于SAC算法训练策略优化网络模型的步骤包括：

模拟无人机通感一体化传输与感知系统的环境中进行信息传递与波束感知，获得每个时刻的各无人机的坐标样本、各用户的坐标样本、各边缘基站的坐标样本、无人机的剩余能量样本、无人机的处理速率样本、卸载速率样本和当前的环境状态样本，作为样本数据；

基于SAC算法，将样本数据作为待训练的策略优化网络模型的当前状态，输入待训练的策略优化网络模型的Critic网络，所述Critic网络根据上一时刻的状态、获得的回报和熵，对输入的当前状态的样本数据进行分析，以最大限度的提升无人机的加权频谱效率为所述待训练的策略优化网络模型的优化目标进行优化，由所述的Actor网络输出包括无人机的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略的动作，Critic网络从环境中获得回报，其中，熵根据公式进行自适应优化，表示求偏导，为熵参数，为熵函数，用于熵参数的更新；

将每个时刻的当前状态、动作、回报以及下一状态作为经验元组存入经验池中，随着基于SAC算法的迭代，经验池中的经验元组的数量逐渐增加，在达到预设数量时，使用当前收集的经验元组多个epoch执行小批量训练，优化Actor网络的网络参数，以及对Critic网络中的主Critic网络和目标Critic网络进行更新；

其中，通过对Actor网络的网络参数进行优化，主Critic网络更新方法为，目标Critic网络更新方法为，其中，为Actor网络的网络参数，为Actor网络参数的更新函数，为软更新参数，为主Critic网络的网络参数，为目标Critic网络的网络参数，为主Critic网络参数的更新函数。

在其中一个实施例中，所述待训练的策略优化网络模型的优化目标的表达式为：

，

s.t. ，

，

；

其中，为时刻无人机的加权频谱效率，为无人机在时刻的水平位置，为无人机在时刻的水平位置，为无人机在一个时隙T内的最大行驶距离，为无人机集合，为用户集合，为其他无人机在时刻的水平位置，为在同一时刻无人机与其他无人机之间的最小间隔距离，为无人机在时刻的海拔高度，为用户m在时刻的海拔高度，为用户m在时刻的水平位置，为无人机到第m个用户的最大关联距离，为无人机允许飞行的最小高度，为无人机允许飞行的最大高度。

在其中一个实施例中，所述时刻无人机的加权频谱效率的表达式为：

，

；

其中，为通信功率加权系数，为感知功率加权系数，为时刻无人机实现的通信频谱效率，为时刻无人机的感知频谱效率，为时刻无人机与用户m之间的关联情况，为时刻无人机与用户m之间信道功率增益，为时刻无人机的信号发射功率，为时刻其他无人机与用户m之间信道功率增益，为时刻其他无人机的信号发射功率，为接收信号处的高斯白噪声功率，为发射增益，为接收增益，为用户m的雷达截面平均值，为载波收发机的波长，为时刻无人机与用户m的距离，为时刻无人机对用户m的通道功率增益，为时刻其他无人机对用户m的通道功率增益，为相距距离1米时的信道功率。

上述无人机辅助的通感算网络融合方法，无人机通过周期性的发出通感一体化信号对环境状态进行感知，以获得回波信号，避免了传统通感信号存在峰均比较高，包络不恒定，旁瓣功率高等缺点，或是传输速率有限、感知性能下降的弊端，使得波既具备通信能力也具备雷达感知能力，提升了信号的利用率，节省发射端的开销，根据回波信号中的信息进行提取，获得当前的环境状态，无人机在每个决策时刻t时，获取各无人机当前的坐标、各用户当前的坐标、各边缘基站当前的坐标、无人机当前的剩余能量、无人机的处理速率、卸载速率和当前的环境状态，输入至采用基于SAC算法训练好的策略优化网络模型，通过策略优化网络模型对无人机下一时刻的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略进行分析，确定无人机下一时刻最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略，在下一时刻时，无人机根据最优的无人机的轨迹规划进行移动，无人机根据最优的无人机和用户关联决策与环境中的用户进行通信连接，无人机根据最优的目标感知选择确定感知的目标，无人机根据最优的发射波束形成策略调整发出通感一体化信号的通信功率加权系数和感知功率加权系数，无人机根据最优的资源分配策略对任务计算资源进行分配，从而提高了无人机的通信和感知性能。

附图说明

图1为一个实施例中无人机辅助的通感算网络融合方法的应用场景示意图；

图2为一个实施例中无人机辅助的通感算网络融合方法的流程示意图；

图3为一个实施例中策略优化网络模型的训练框架示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的一种无人机辅助的通感算网络融合方法，应用于如图1所示的无人机通感一体化传输与感知系统的环境中，无人机通感一体化传输与感知系统的环境中至少包括个用户、个边缘基站以及飞行在用户的上空的架无人机，无人机集合表示为，用户集合表示为，边缘基站集合表示为。采用笛卡尔坐标系，无人机在时刻的水平位置记为，无人机的海拔高度为，其中，和分别表示时刻中无人机的x轴和y轴坐标；用户m在时刻中的水平位置为，用户m的海拔高度为，其中，和分别表示时刻中用户m的x轴和y轴坐标；边缘基站s在时刻中的水平位置为，，边缘基站s的海拔高度为，其中，和分别表示第个时隙基站s的x轴和y轴坐标。

其中，边缘基站和无人机均作为无人机通感一体化传输与感知系统的环境中的计算平台；用户集合中的用户可以是智能手机、平板电脑、智能穿戴设备等。同一时刻，每台无人机能够为多个目标用户提供服务，每个目标用户仅由一台无人机提供服务；无人机作为空中平台，辅助目标用户进行通信。

其中，在同一时刻，无人机可以与地面上多个用户通信，每个用户最多只能与一架无人机通信，因此给出关联变量，表示时刻无人机与用户m 之间的关联。当时表示用户m 在时刻中由无人机服务；当时表示无人机在时刻中未给用户m 提供服务，即用户m 和无人机没有建立通信连接。同理，无人机和边缘基站间的关联表示为，其中表示无人机在时刻中与边缘基站s连接，否则为。

其中，所有无人机飞行在一定的高度范围，并且所有的无人机都在目标区域内保持悬停或水平飞行；终端用户在地面随机分布，由于每个决策时隙很短，所以假设在每一个时隙内目标用户的位置保持不变；此外，每台无人机能够为多个目标用户提供服务，每个目标用户仅由一个无人机提供服务。无人机通过周期性的发出通感一体化信号对环境状态进行感知以获得回波信号，进而对无人机自身的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略进行优化，采用无人机通信、边缘基站辅助计算的方法为目标用户提高通信服务。在该环境下，采用SAC算法，将性能优化问题转变为顺序决策问题，自适应调整熵值，寻找调整优化目标可行且最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略。

在一个实施例中，如图2所示，提供了一种无人机辅助的通感算网络融合方法，包括以下步骤：

步骤S220，无人机通过周期性的发出通感一体化信号对环境状态进行感知，以获得回波信号。

其中，通感一体化信号可以采用非正交多址接入（Non-Orthogonal MultipleAccess，NOMA）体制对信号进行设计，建立通信OFDM（Orthogonal Frequency DivisionMultiplexing）信号与感知LFM（Linear Frequency Modulation）信号非正交功率加权叠加的通感一体信号模型，实现无人机发出通感一体化信号，综合考虑通信性能与感知性能，保证了任务的执行效率。

在一个实施例中，通感一体化信号的表达式为：

；

其中，感知采用LFM信号，当子载波个数较大时，对于感知系统而言，通信信号在这里可以视作为高斯白噪声。

应理解，通感一体化信号采用了NOMA技术对OFDM信号和LFM信号进行叠加，可以提高频谱效率和接入量，具备低延时、低信令花费、高鲁棒性的优势。

在一个实施例中，回波信号的表达式为：

；

应理解，无人机发送通感一体化信号后，可以接收到回波信号，并获取感知信息，达到感知的能力。在该无人机通感一体化传输与感知系统的环境下，通感一体化信号既具备高速的通信能力又具有高效的感知能力，做到了通信和感知的物理融合。采用了通信信号与感知信号非正交叠加的方法，建立了一种通信OFDM信号与感知LFM信号非正交功率加权叠加的通感一体信号模型，可以实现比传统通感一体信号更好的性能。

应理解，无人机飞行在用户的上空，周期性地进行感知活动，地面上的用户产生通信需求，也可以向无人机发出通信信号，信号通过上行链路信道请求将通信任务发送到与用户关联无人机上，或进一步卸载到边缘基站上进行处理，无人机或者边缘基站处理完通信或计算任务后，将信息通过下行链路返回给相应的用户。

其中，地面上的用户产生通信需求，向无人机发出通信信号时，无人机接收到的信号为：

；

其中，为路径损耗系数，为系统子载波个数，为第个子载波上的调制信号，是虚数单位，用于表示复数，为自然常数，为干扰消除后感知信号的残留干扰，为高斯白噪声。

其中，用户将任务卸载到无人机的可达的通信传输速率为：

；

其中，为通信带宽，为信号的平均功率，为噪声功率，为干扰功率。

步骤S240，根据回波信号中的信息进行提取，获得当前的环境状态。

其中，当前的环境状态可以包括环境中的天气和突发事件等信息，还可以包括通信信道相关的信息，还可以包括环境中的用户相关信息等等。

步骤S260，无人机在每个决策时刻t时，获取各无人机当前的坐标、各用户当前的坐标、各边缘基站当前的坐标、无人机当前的剩余能量、无人机的处理速率、卸载速率和当前的环境状态，输入至采用基于SAC算法训练好的策略优化网络模型，通过策略优化网络模型对无人机下一时刻的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略进行分析，确定无人机下一时刻最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略。

其中，轨迹规划在决策时刻t，无人机k将采取静止不动或者水平移动的策略，无人机的运行轨迹将会不断优化，使得无人机往更优位置移动。

其中，目标感知选择，可以是确定无人机对环境中的哪些用户或者某个区域进行感知。可以基于在不同时间或情境下，某些目标可能用于灾害救援、如天气变化、灾害等等情况，或者某些可能需要处理多个目标，而其他情境下只需处理一个目标或空闲等情况下，优化无人机的目标感知选择。

其中，发射波束形成策略可以是确定通感一体化信号的通信功率加权系数和感知功率加权系数，以优化通感一体化信号的通信能力和感知能力。

其中，无人机和用户关联决策可以包括下一时刻t时，无人机k和用户m 以及边缘基站s的关联情况。其中，决策时刻t时，无人机将对关联决策进行调整，以优化无人机、用户、边缘基站之间的关联决策。

其中，在任务卸载过程中，无人机k到基站s的可实现卸载速率表示为：

；

其中，表示地面信道，和分别表示无人机和用于传递信息承载符号的预编码，是边缘基站处的噪声功率。

其中，资源分配策略可以是无人机处理任务的计算资源的分配策略，确定无人机对任务进行处理还是卸载至边缘基站进行处理。可以结合无人机剩余能量、无人机的处理速率、无人机到边缘基站的可实现卸载速率和待处理任务的类型等考虑资源分配策略。

在一个实施例中，策略优化网络模型包括Critic网络和Actor网络，Critic网络对上一时刻输出最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略进行评价，输出评价结果至Actor网络，Actor网络根据Critic网络的评价结果和各无人机当前的坐标、各用户当前的坐标、各边缘基站当前的坐标、无人机当前的剩余能量、无人机的处理速率、卸载速率和当前的环境状态，输出无人机下一时刻最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略。

其中，Critic网络是模拟智能体的软Q-function（也称状态动作分布）。Critic网络的输入包括所有无人机的状态向量和动作向量。同时，为了缓减对软Q-function的高估情况，在Critic网络中设计了两个主Critic网络和两个目标Critic网络。

其中，Actor网络进行策略产生。Actor网络是一个随机策略网络，可以根据输入的状态生成动作。对于输入的状态，可以通过Actor网络直接输出动作。

其中，策略优化网络模型采用基于SAC算法的最大熵深度强化学习方法来完成顺序决策、优化目标的等价变化相关问题，从而优化无人机的通信和感知性能。

如图3所示，在一个实施例中，采用基于SAC算法训练策略优化网络模型的步骤包括：

基于SAC算法，将样本数据作为待训练的策略优化网络模型的当前状态，输入待训练的策略优化网络模型的Critic网络，所述Critic网络根据上一时刻的状态、获得的回报和熵，对输入的当前状态的样本数据进行分析，以最大限度的提升无人机的加权频谱效率为待训练的策略优化网络模型的优化目标进行优化，由所述的Actor网络输出包括无人机的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略的动作，Critic网络从环境中获得回报，其中，熵根据公式进行自适应优化，表示求偏导，为熵参数，为熵函数，用于熵参数的更新；

其中，采用了SAC算法，使用了离线的更新方式，采用经验池储存历史样本来多次学习，大大提高了样本利用率，同时采取了随机策略，相比确定性策略具有一定的优势，能够有效做到避免过高估计，同时能够加快学习和收敛速度，面对干扰的时候也能更容易做出调整。

应理解，为了优化无人机发射的信号感知和通信能力，采用一种SAC算法来最大限度地提高无人机的加权频谱效率，从而使策略优化网络模型分析出最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略，进而无人机根据最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略为用户提高通行服务，从而优化了无人机通感一体化传输与感知系统的性能。

在一个实施例中，待训练的策略优化网络模型的优化目标的表达式为：

，

s.t. ，

，

；

其中，考虑到无人机的水平运行速度以及无人机之间的碰撞风险，给出无人机的约束条件。假设表示无人机在一个时隙T内的最大行驶距离，为在同一时刻无人机与其他无人机之间的最小间隔距离，即避碰距离，给出如下约束以及。假设表示无人机到第m个用户的最大关联距离，有如下约束。对于无人机飞行高度给出如下约束。和分别是无人机允许飞行的最小和最大高度。

在一个实施例中，时刻无人机的加权频谱效率的表达式为：

，

；

步骤S280，在下一时刻时，无人机根据最优的无人机的轨迹规划进行移动，无人机根据最优的无人机和用户关联决策与环境中的用户进行通信连接，无人机根据最优的目标感知选择确定感知的目标，无人机根据最优的发射波束形成策略调整发出通感一体化信号的通信功率加权系数和感知功率加权系数，无人机根据最优的资源分配策略对任务计算资源进行分配。

其中，在决策时隙处理回波信号，获得环境状态，在下一时刻，使得无人机获得更合适的移动轨迹，取得更高效的用户关联，根据最优的发射波束形成策略使用更佳的信号频谱，从而能够平衡通信和感知性能与功率；通过无人机的智能化管理与网络化感知，实现辅助系统自主决策。

应理解，在每个决策时刻t通过对回波信号的处理，结合各无人机当前的坐标、各用户当前的坐标、各边缘基站当前的坐标、无人机当前的剩余能量、无人机的处理速率、卸载速率和当前的环境状态进行分析，确定最优策略，即：最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略，无人机根据确定的策略进行动作的开展。从而提高了无人机通感一体化传输与感知系统的性能提升。

上述无人机辅助的通感算网络融合方法，无人机通过周期性的发出通感一体化信号对环境状态进行感知，以获得回波信号，避免了传统通感信号存在峰均比较高，包络不恒定，旁瓣功率高等缺点，或是传输速率有限、感知性能下降的弊端，使得波既具备通信能力也具备雷达感知能力，提升了信号的利用率，节省发射端的开销，根据回波信号中的信息进行提取，获得当前的环境状态，无人机在每个决策时刻t时，获取各无人机当前的坐标、各用户当前的坐标、各边缘基站当前的坐标、无人机当前的剩余能量、无人机的处理速率、卸载速率和当前的环境状态，输入至采用基于SAC算法训练好的策略优化网络模型，通过策略优化网络模型对无人机下一时刻的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略进行分析，确定无人机下一时刻最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略，在下一时刻，无人机根据最优的无人机的轨迹规划进行移动，无人机根据最优的无人机和用户关联决策与环境中的用户进行通信连接，无人机根据最优的目标感知选择确定感知的目标，无人机根据最优的发射波束形成策略调整发出通感一体化信号的通信功率加权系数和感知功率加权系数，无人机根据最优的资源分配策略对任务计算资源进行分配，从而提高了无人机的通信和感知性能。

进一步的，通过飞行在用户上空的架无人机提供的高性能的空中通信服务平台，实现精准感知和灵活的决策分析，并联合边缘基站来减缓无人机平台的计算压力，从而达到准确、快速的互联互通，达到分布式协同计算的目的；此外，通感资源的智能调配以及无人机轨迹的智能规划，使得研究场景更符合现实情况。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种无人机辅助的通感算网络融合方法，应用于无人机通感一体化传输与感知系统的环境中，其特征在于，所述环境中至少包括个用户、个边缘基站以及飞行在用户的上空的架无人机，所述无人机辅助的通感算网络融合方法包括：

2.根据权利要求1所述的无人机辅助的通感算网络融合方法，其特征在于，所述通感一体化信号的表达式为：

；

3.根据权利要求2所述的无人机辅助的通感算网络融合方法，其特征在于，所述回波信号的表达式为：

；

4.根据权利要求1所述的无人机辅助的通感算网络融合方法，其特征在于，所述策略优化网络模型包括Critic网络和Actor网络，所述Critic网络对上一时刻输出最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略进行评价，输出评价结果至所述Actor网络，所述Actor网络根据所述Critic网络的评价结果和各无人机当前的坐标、各用户当前的坐标、各边缘基站当前的坐标、无人机当前的剩余能量、无人机的处理速率、卸载速率和当前的环境状态，输出无人机下一时刻最优的轨迹规划、无人机和用户关联决策、目标感知选择、发射波束形成策略和资源分配策略。

5.根据权利要求1所述的无人机辅助的通感算网络融合方法，其特征在于，所述采用基于SAC算法训练策略优化网络模型的步骤包括：

6.根据权利要求5所述的无人机辅助的通感算网络融合方法，其特征在于，所述待训练的策略优化网络模型的优化目标的表达式为：

，

s.t. ，

，

；

7.根据权利要求6所述的无人机辅助的通感算网络融合方法，其特征在于，所述时刻无人机的加权频谱效率的表达式为：

，

；