CN113395674B

CN113395674B - 带宽分配方法、带宽分配装置、多波束卫星及存储介质

Info

Publication number: CN113395674B
Application number: CN202110523886.8A
Authority: CN
Inventors: 贺颖; 王宇航; 周进; 吉君恺
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-04-19
Anticipated expiration: 2041-05-13
Also published as: CN113395674A

Abstract

本申请适用于智能交通技术领域，提供了一种带宽分配方法、带宽分配装置、多波束卫星及存储介质，带宽分配方法应用于多波束卫星，多波束卫星发出的波束数量为N，N为大于1的整数，N个波束各自对应一个已训练的actor网络，N个波束对应地面上的不同区域，带宽分配方法包括：获取多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度等信息；将这些信息输入至目标波束对应的已训练的actor网络，得到目标车辆需分配的带宽，并将该带宽分配给目标车辆。本申请可解决现有地面网络的覆盖范围有限，容易出现带宽不足、带宽分配不均等问题。

Description

带宽分配方法、带宽分配装置、多波束卫星及存储介质

技术领域

本申请属于智能交通技术领域，尤其涉及一种带宽分配方法、带宽分配装置、多波束卫星及存储介质。

背景技术

目前的智能交通系统，得益于无线通信和信息技术的快速发展，其可靠性和可用性越来越高，覆盖范围越来越广，能够保障越来越多的车辆享受到便利的无线车载应用服务。但是在一些特殊地区，比如农村、偏远山区以及海上等，地面网络依然无法全部覆盖。另外，随着各种车载应用的爆炸式增长以及对低延迟、高接入速率等通信需求的不断增长，容易出现带宽不足、带宽分配不均等问题。

发明内容

本申请实施例提供了一种带宽分配方法、带宽分配装置、多波束卫星及存储介质，以解决现有地面网络的覆盖范围有限，容易出现带宽不足、带宽分配不均等问题。

第一方面，本申请实施例提供了一种带宽分配方法，应用于多波束卫星，所述多波束卫星发出的波束数量为N，N为大于1的整数，N个波束各自对应一个已训练的actor网络，所述N个波束对应地面上的不同区域，所述带宽分配方法包括：

获取所述多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、所述多波束卫星与所述目标车辆之间的信道效率以及所述目标波束与所述目标车辆之间的角度，所述目标波束是指所述目标车辆所在区域对应的波束；

将所述多波束卫星的当前可分配带宽、所述目标波束对应区域的标识信息、所述目标车辆的请求延迟、所述多波束卫星与所述目标车辆之间的信道效率以及所述目标波束与所述目标车辆之间的角度输入至所述目标波束对应的已训练的actor网络，得到所述目标车辆需分配的带宽；

将所述目标车辆需分配的带宽分配给所述目标车辆。

第二方面，本申请实施例提供了一种带宽分配装置，应用于多波束卫星，所述多波束卫星发出的波束数量为N，N为大于1的整数，N个波束各自对应一个已训练的actor网络，所述N个波束对应地面上的不同区域，所述带宽分配装置包括：

状态获取模块，用于获取所述多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、所述多波束卫星与所述目标车辆之间的信道效率以及所述目标波束与所述目标车辆之间的角度，所述目标波束是指所述目标车辆所在区域对应的波束；

状态输入模块，用于将所述多波束卫星的当前可分配带宽、所述目标波束对应区域的标识信息、所述目标车辆的请求延迟、所述多波束卫星与所述目标车辆之间的信道效率以及所述目标波束与所述目标车辆之间的角度输入至所述目标波束对应的已训练的actor网络，得到所述目标车辆需分配的带宽；

带宽分配模块，用于将所述目标车辆需分配的带宽分配给所述目标车辆。

第三方面，本申请实施例提供了一种多波束卫星，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述带宽分配方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述带宽分配方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，当所述计算机程序产品在多波束卫星上运行时，使得所述多波束卫星执行如上述第一方面所述带宽分配方法的步骤。

由上可见，本方案通过引入多波束卫星，建立多波束卫星与地面上车辆之间的多波束星地网络，能够扩大地面网络的覆盖范围，解决现有地面网络的覆盖范围有限，带宽不足等问题，通过将多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度等信息输入至对应的已训练的actor网络，能够得到目标车辆需分配的带宽。由于目标车辆需分配的带宽是基于多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度等信息得到的，故通过将这些信息输入至已训练的actor网络，能够根据目标车辆的实际需求为其分配带宽，解决现有地面网络带宽分配不均的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的带宽分配方法的实现流程示意图；

图2是本申请实施例二提供的带宽分配方法的实现流程示意图；

图3是actor-critic网络的训练示例图；

图4是本申请实施例三提供的带宽分配装置的结构示意图；

图5是本申请实施例四提供的多波束卫星的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

应理解，本实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请实施例提供的带宽分配方法可以应用于多波束卫星。多波束卫星是指星上天线能在其覆盖范围内产生多个相互隔离的波束的卫星。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

参见图1，是本申请实施例一提供的带宽分配方法的实现流程示意图，该带宽分配方法应用于多波束卫星，该多波束卫星发出的波束数量为N，N为大于1的整数，N个波束各自对应一个已训练的actor网络，N个波束对应地面上的不同区域。如图1所示，该带宽分配方法可以包括以下步骤：

步骤101，获取多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度。

其中，目标波束是指目标车辆所在区域对应的波束。

多波束卫星的当前可分配带宽可以是指多波束卫星当前能够分配的带宽或者未被占用的带宽。

在本实施例中，可以将多波束卫星的当前可分配带宽平均分成多个带宽块，为目标车辆分配一定数量的带宽块，满足目标车辆对带宽的需求。

根据地面基站的覆盖范围，可以将地面划分为不同的区域，例如将地面划分为城市地区、农村地区、偏远地区等不同区域，城市地区的标识信息为0，农村地区的标识信息为1，偏远地区的标识信息为2。地面包括的城市地区数量可以为零个或者至少一个。地面包括的农村地区数量可以为零个或者至少一个。地面包括的偏远地区数量可以为零个或者至少一个。

多波束卫星的N个波束各自负责一个区域，不同波束负责的区域不同，由于每个波束负责的区域较小，故多波束卫星能够更加准确且高效地为每个区域内的车辆分配带宽。

需要说明的是，随着多波束卫星绕地球的运动，各个波束负责的区域通常会发生变化。

上述目标车辆的请求延迟可以是指目标车辆的最大容忍时延。为了使得为目标车辆分配的带宽能够满足目标车辆的请求延迟，故在为目标车辆分配带宽时需要考虑目标车辆的请求延迟。将多波束卫星的波束负责的区域划分为城市地区、农村地区以及偏远地区。城市地区由于车辆拥挤程度高，故城市地区内的车辆对请求延迟容忍程度较小，延迟较低。相比之下，农村地区内的车辆对请求延迟容忍程度较高。偏远地区内的车辆对请求延迟的容忍程度则更高。

在本实施例中，可以将一个波束作为一个智能体，一个波束对应一个已训练的actor网络，通过将一个波束的当前环境状态输入至该波束对应的已训练的actor网络，能够根据该波束负责的区域内的车辆的实际需求为其分配带宽，解决现有地面网络带宽分配不均的问题。

多波束卫星与目标车辆之间的信道效率可以是指多波束卫星与目标车辆之间的信道利用率。由于天气或者其他条件的影响，多波束卫星与目标车辆之间的信道效率会发生变化，故在为目标车辆分配带宽时考虑信道效率，能够提高带宽分配的准确性。

目标波束的波束角通常是由两个方向构成的，两个方向之间的夹角为波束角度，那么目标波束与目标车辆之间的角度可以是指上述两个方向中任一方向与多波束卫星指向目标车辆的方向之间的夹角。

由于目标波束与目标车辆之间的角度影响多波束卫星与目标车辆之间的距离，导致多波束卫星与地面的传播时延不同，因此目标波束与目标车辆之间的角度也是为目标车辆分配带宽时的一个重要的参考因素。

作为一可选实施例，多波束卫星可以在接收到目标车辆发送的带宽分配请求时，获取多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度，从而根据多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率和目标波束与目标车辆之间的角度等信息确定目标车辆分配所需的带宽。多波束卫星可以根据目标车辆的位置信息确定目标车辆所在区域，根据目标车辆所在区域可以确定与其对应的目标波束。

在本实施例中，通过引入多波束卫星，能够缓解地面基站的压力，解决地面基站覆盖范围有限、建造及维护成本高昂等问题，以及解决一些地区网络条件差甚至还未覆盖网络等问题。通过多波束卫星的波束空间隔离、频率复用等特点能够解决星地网络带宽受限等问题。

步骤102，将多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度输入至目标波束对应的已训练的actor网络，得到目标车辆需分配的带宽。

目标波束对应的已训练的actor网络能够根据输入的多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率和目标波束与目标车辆之间的角度等信息，输出目标车辆需分配的带宽。

步骤103，将目标车辆需分配的带宽分配给目标车辆。

多波束卫星将目标车辆需分配的带宽分配给目标车辆之后，目标车辆能够使用该带宽完成相应的请求内容，例如观看视频、播放音乐、使用导航等无线车载应用服务。

目标车辆在使用所分配的带宽时，该带宽处于被占用状态，多波束卫星不能再将该带宽分配给其他车辆使用，以避免影响目标车辆的网络速度。目标车辆在完成请求内容之后，可以释放该带宽，以便于多波束卫星将该带宽分配给其他车辆，提高该带宽的使用效率。

本申请实施例通过引入多波束卫星，建立多波束卫星与地面上车辆之间的多波束星地网络，能够扩大地面网络的覆盖范围，解决现有地面网络的覆盖范围有限，带宽不足等问题，通过将多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度等信息输入至对应的已训练的actor网络，能够得到目标车辆需分配的带宽。由于目标车辆需分配的带宽是基于多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度等信息得到的，故通过将这些信息输入至已训练的actor网络，能够根据目标车辆的实际需求为其分配带宽，解决现有地面网络带宽分配不均的问题。

参见图2，是本申请实施例二提供的带宽分配方法的实现流程示意图，该带宽分配方法应用于多波束卫星。如图2所示，该带宽分配方法可以包括以下步骤：

步骤201，获取测试卫星的M个波束的当前环境状态。

其中，上述测试卫星可以是使用仿真模拟软件构建的虚拟多波束卫星，用于训练目标波束对应的actor网络。

上述测试卫星发出的波束数量为M，M为大于1的整数，M个波束各自对应一个actor-critic网络，M个波束对应测试区域上的不同区域，M个波束包括目标波束。其中，上述测试区域可以是使用仿真模拟软件构建的虚拟地面，用于训练actor网络。

步骤202，将目标波束的当前环境状态输入至目标波束对应的actor网络，得到在目标波束的当前环境状态下测试车辆需分配的所有带宽的产生概率，并从该需分配的所有带宽中确定在目标波束的当前环境状态下测试车辆需分配的候选带宽。

其中，目标波束的当前环境状态包括测试卫星的当前可分配带宽、目标波束对应区域的标识信息、测试车辆的请求延迟、测试卫星与测试车辆之间的信道效率以及目标波束与测试车辆之间的角度。测试车辆可以是使用仿真模拟软件构建的虚拟车辆。多波束卫星在检测到测试车辆向测试卫星发送带宽分配请求时，获取M个波束的当前环境状态。测试车辆位于目标波束对应的区域内。M个波束的当前环境状态和目标波束的当前环境状态可以表示如下：

S＝{{F_r，Area₁，C₁，W₁，delay_v1}，

{F_r，Area₂，C₂，W₂，delay_v2}，

…

{F_r，Area_M，C_M，W_M，delay_vM}}

S_m＝{F_r，Area_m，C_m，W_m，delay_vm}

其中，S表示M个波束的当前环境状态；S_m表示目标波束的当前环境状态，m∈{1，2，…，M}；F_r表示测试卫星的当前可分配带宽；Area表示目标波束对应区域的标识信息；C表示测试卫星与测试车辆之间的信道效率；W表示目标波束与测试车辆之间的角度；delay_v表示测试车辆的请求延迟。M个波束的当前环境状态可以理解为全局信息，目标波束的当前环境状态可以理解为局部信息。

在本实施例中，可以将测试卫星的当前可分配带宽平均分成多个带宽块，由于带宽有限，可以对带宽块的最大数量进行限制，每个带宽分配请求可以分配的最大带宽块数量为ch，则将目标波束的当前环境状态输入至目标波束对应的actor网络之后，actor输出测试车辆需分配的所有带宽的产生概率，可以从测试车辆需分配的所有带宽中采样一个带宽作为候选带宽，将候选带宽与目标波束所处环境进行交互。

在目标波束的当前环境状态下测试车辆需分配的所有带宽可以表示如下：

A”＝{0，1，2，…，ch}，ch≤F_r

那么在目标波束的当前环境状态下测试车辆需分配的候选带宽可以表示如下：

A_m∈{0，1，2，…，ch}

步骤203，将M个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽输入至注意力机制层，得到剩余波束的编码值的加权和。

剩余波束是指M个波束中除目标波束之外的波束。

注意力机制层用于对每个波束的当前环境状态和在该当前环境下测试车辆需分配的候选带宽进行编码，得到每个波束的编码值，并根据M个波束各自的编码值确定剩余波束的编码值的加权和。

需要说明的是，M个波束各自对应一个测试车辆，不同波束对应的测试车辆不同，例如测试卫星发出三个波束，分别为第一波束、第二波束和第三波束，第二波束为目标波束，那么第一波束在其当前环境状态下的测试车辆可以为测试车辆1，第二波束在其当前环境状态下的测试车辆可以为测试车辆2，第三波束在其当前环境状态下的测试车辆可以为测试车辆3。

作为一可选实施例，上述将M个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽输入至注意力机制层，得到剩余波束的编码值的加权和包括：

将M个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽输入至注意力机制层，在注意力机制层中对每个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽进行编码，得到该波束的编码值；

根据M个波束的编码值，确定剩余波束的权重；

根据剩余波束的权重和编码值，确定加权和。

注意力机制层可以使用嵌入函数对M个波束中每个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽进行编码。

剩余波束包括至少一个波束，计算剩余波束中每个波束的权重和其编码值的乘积，得到该波束对应的乘积，将剩余波束中所有波束对应的乘积进行相加，相加后所得值即为剩余波束的编码值的加权和。

剩余波束的编码值的加权和的计算公式如下：

其中，x_m表示剩余波束的编码值的加权和；β_g表示第g个波束的权重；V_g表示第g个波束的编码值；g≠m表示第g个波束为M个波束中除目标波束之外的波束，即g＝{1,2,…,m-1,m+1,…,M}。

第g个波束的编码值的计算公式如下：

V_g＝L(Yp_g(S_g,A_g))

其中，Y表示共享矩阵，用于线性变换，相当于神经网络的liner函数；L(·)表示非线性变换函数，相当于神经网络的激活函数，比如ReLU激活函数；S_g表示第g个波束的当前环境状态；A_g表示在第g个波束的当前环境状态下测试车辆需分配的候选带宽；p_g(S_g,A_g)表示第g个波束对应的嵌入函数，是对第g个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽进行编码的函数。

作为一可选实施例，上述根据M个波束的编码值，确定剩余波束的权重包括：

计算剩余波束的编码值与目标波束的编码值的相似度；

根据相似度，确定剩余波束的权重。

在计算剩余波束的编码值与目标波束的编码值的相似度时，可以将剩余波束的编码值和目标波束的编码值输入至注意力机制层中的相似度层，相似度层输出剩余波束的编码值与目标波束的编码值的相似度。其中，相似度层可以是一个神经网络，具体的相似度计算方法在此不做限定。

在本实施例中，可以将剩余波束的编码值与目标波束的编码值的相似度作为剩余波束的权重，也可以先将相似度通过softmax层进行归一化，确定归一化后的相似度为剩余波束的权重。将归一化后的相似度作为剩余波束的权重，可以减少数据计算量。

步骤204，将加权和、目标波束的当前环境状态和在目标波束的当前环境状态下测试车辆需分配的候选带宽输入至目标波束对应的critic网络，得到在目标波束的当前环境状态下测试车辆需分配的候选带宽的预估值。

目标波束对应的critic网络可以包括嵌入函数和一个两层的感知器，将加权和、目标波束的当前环境状态和在目标波束的当前环境状态下测试车辆需分配的候选带宽输入至目标波束对应的critic网络之后，在critic网络中可以先使用嵌入函数对目标波束的当前环境状态和在目标波束的当前环境状态下测试车辆需分配的候选带宽进行编码，再将得到的编码值以及加权和输入至两层的感知器，可以得到在目标波束的当前环境状态下测试车辆需分配的候选带宽的预估值。

在目标波束的当前环境状态下测试车辆需分配的候选带宽的预估值的计算公式如下：

Q_θm(S,A)＝l_g(p_m(S_m,A_m),x_m)

其中，Q_θm(S,A)表示在目标波束的当前环境状态下测试车辆需分配的候选带宽的预估值；p_m(S_m,A_m)表示目标波束对应的嵌入函数，用于对目标波束的当前环境状态和在目标波束的当前环境状态下测试车辆需分配的候选带宽进行编码；A表示在M个波束的当前环境状态下测试车辆需分配的候选带宽，包括在剩余波束的当前环境状态下测试车辆需分配的候选带宽和在目标波束的当前环境状态下测试车辆需分配的候选带宽，即每个波束各自对应一个候选带宽；l_g表示一个两层的感知器。

作为一可选实施例，多波束卫星在训练目标波束对应的actor网络时，还训练目标波束对应的critic网络。目标波束对应的critic网络的训练过程如下：

根据在目标波束的当前环境状态下测试车辆需分配的候选带宽，确定通信奖励值和目标波束的下一个环境状态；

获取测试卫星的计算能力、测试车辆请求内容的大小、测试车辆完成请求内容所需的处理器周期数、测试车辆完成请求内容所消耗的带宽、测试车辆完成请求内容所消耗的带宽的成本和测试车辆执行一个处理器周期所消耗的能量；

根据测试卫星的计算能力、测试车辆请求内容的大小、测试车辆完成请求内容所需的处理器周期数、测试车辆完成请求内容所消耗的带宽、测试车辆完成请求内容所消耗的带宽的成本和测试车辆执行一个处理器周期所消耗的能量，确定计算资源的奖励值；

获取在目标波束的下一个环境状态下测试车辆需分配的候选带宽的产生概率和预估值；

根据通信奖励值、计算资源的奖励值、在目标波束的当前环境状态下测试车辆需分配的候选带宽的预估值、在目标波束的下一个环境状态下测试车辆需分配的候选带宽的产生概率和预估值，确定目标波束对应的critic网络的损失函数；

根据目标波束对应的critic网络的损失函数，训练目标波束对应的critic网络。

在本实施例中，将在目标波束的当前环境状态下测试车辆需分配的候选带宽与目标波束所处环境进行交互，可以确定通信奖励值和目标波束的下一个环境状态。

其中，通信奖励值可以是指对候选带宽的奖励值。

在获取通信奖励值时，可以先获取在目标波束的当前环境状态下测试车辆需分配的目标带宽，比较目标带宽和候选带宽，根据比较情况确定通信奖励值。其中，上述目标带宽可以是预先设置的，也可以是根据测试卫星的当前可分配带宽、测试车辆的请求延迟、测试卫星与测试车辆之间的信道效率和目标波束与测试车辆之间的角度、测试卫星的计算能力等多个信息经过数学推导计算得到，在此不做限定。上述目标带宽能够满足测试车辆的延迟要求，且带宽消耗较小。

当候选带宽大于或者等于目标带宽，且候选带宽与目标带宽的差值小于或等于带宽阈值时，说明候选带宽既满足测试车辆的延迟要求，又可以使得带宽的消耗较小，此种情况可以获得最大的效益，通信奖励值的计算公式如下：

当候选带宽大于目标带宽，且候选带宽与目标带宽的差值大于带宽阈值时，说明候选带宽可以满足测试车辆的延迟要求，但增加了带宽消耗，此种情况可以按照比例获取奖励，通信奖励值的计算公式如下：

当候选带宽小于目标带宽时，说明候选带宽过少，无法满足测试车辆的延迟要求，此种情况应该受到惩罚，通信奖励值的计算公式如下：

当测试卫星的当前可分配带宽为零时，无法当前请求多么紧急，均不会有空闲的带宽可供分配，也不会获得任何好处，为了防止出现这种情况，当测试卫星的当前可分配带宽为零时，应该给予较大惩罚，通信奖励值的计算公式如下：

在上述通信奖励值的计算公式中，R_c表示通信奖励值；α表示奖励的比例系数；τ表示收获的单位带宽价格；δ表示需支付的单位带宽价格；B表示总可用带宽，即测试卫星的当前可分配带宽；F表示总可用带宽的带宽块数量；g_c表示目标带宽；b表示候选带宽。

计算资源的奖励值的计算公式如下：

R_m＝((c_oo_v/n_v)ρ)/μn_vH

其中，R_m表示计算资源的奖励值；c_o表示测试卫星的计算能力；o_v表示测试车辆请求内容的大小；n_v表示测试车辆完成请求内容所需的处理器周期数；ρ表示收获的单位计算资源价格；μ表示需支付的单位计算资源价格；H表示测试车辆执行一个处理器周期所消耗的能量。

需要说明的是，在目标波束的下一个环境状态下测试车辆需分配的候选带宽的产生概率和预估值的获取方式，可以参考在目标波束的当前环境状态下测试车辆需分配的候选带宽的产生概率和预估值的获取方式，在此不做赘述。

多波束卫星根据在目标波束的下一个环境状态下测试车辆需分配的候选带宽的产生概率和预估值，可以确定在目标波束的当前环境状态下测试车辆需分配的候选带宽的奖励值；根据在目标波束的当前环境状态下测试车辆需分配的候选带宽的奖励值和在目标波束的当前环境状态下测试车辆需分配的候选带宽的预估值，确定目标波束对应的critic网络的损失函数。

在目标波束的当前环境状态下测试车辆需分配的候选带宽的奖励值的计算公式如下：

其中，γ表示衰减因子；S'表示M个波束的下一个环境状态；A'表示在M个波束的下一个环境状态下测试车辆需分配的候选带宽；S'_m表示目标波束的下一个环境状态；A'_m表示在目标波束的下一个环境状态下测试车辆需分配的候选带宽；

表示在目标波束的下一个环境状态下测试车辆需分配的候选带宽的产生概率；

表示在目标波束的下一个环境状态下测试车辆需分配的候选带宽的预估值；β表示用于平衡最大熵以及奖励值的参数。

目标波束对应的critic网络的损失函数的计算公式如下：

其中，LQ(θ)表示目标波束对应的critic网络的损失函数；r表示通信奖励值与计算资源的奖励值之和。

通过critic网络的损失函数可以优化critic网络的参数，从而完成对critic网络的训练。

步骤205，根据在目标波束的当前环境状态下测试车辆需分配的剩余带宽的产生概率，以及在目标波束的当前环境状态下测试车辆需分配的剩余带宽的预估值，确定M个波束的基准。

M个波束的基准的计算公式如下：

其中，

表示在目标波束的当前环境状态下测试车辆需分配的剩余带宽的产生概率；

表示在目标波束的当前环境状态下测试车辆需分配的剩余带宽的预估值；A_\m表示在目标波束的当前环境状态下测试车辆需分配的所有带宽中除候选带宽之外的带宽(即剩余带宽)。

需要说明的是，在目标波束的当前环境状态下测试车辆需分配的剩余带宽的预估值的获取方式，可以参考在目标波束的当前环境状态下测试车辆需分配的候选带宽的预估值的获取方式，在此不再赘述。

步骤206，根据M个波束的基准，以及在目标波束的当前环境状态下测试车辆需分配的候选带宽的产生概率和预估值，训练目标波束对应的actor网络。

多波束卫星根据M个波束的基准，以及在目标波束的当前环境状态下测试车辆需分配的候选带宽的产生概率和预估值，可以更新actor网络的参数，从而完成对actor网络的训练。

作为一可选实施例，上述根据M个波束的基准，以及在目标波束的当前环境状态下测试车辆需分配的候选带宽的产生概率和预估值，训练目标波束对应的actor网络包括：

根据M个波束的基准，以及在目标波束的当前环境状态下测试车辆需分配的候选带宽的产生概率和预估值，确定目标波束对应的actor网络的梯度；

根据目标波束对应的actor网络的梯度，训练目标波束对应的actor网络。

目标波束对应的actor网络的梯度的计算公式如下：

其中，

表示目标波束对应的actor网络的梯度；

表示在目标波束的当前环境状态下测试车辆需分配的候选带宽的产生概率。

在目标波束对应的actor网络的训练过程中，本实施例将测试卫星的各个波束之间的协作带宽分配问题建模为多智能体系统合作场景，一个波束是一个智能体，各波束共享带宽协同工作，为带宽分配请求分配带宽。

每个智能体都是一个actor-critic网络，其中actor网络负责接收智能体的当前环境状态并产生带宽的概率分布(该概率分布包括所有带宽的产生概率)，critic网络负责评价候选带宽并产生预估值。

每个智能体采用中心化训练分布式执行的方式，智能体的actor网络只能观察到自身的当前环境状态并根据自身的当前环境状态产生带宽，而智能体的critic网络可以观察到所有智能体的当前环境状态，并通过注意力机制层关注其他智能体的当前环境状态以及产生的带宽，从而更好地优化actor-critic网络。

在本实施例中，使用多智能体强化学习训练测试卫星的各个波束，每个波束能够独立地负责一个区域的带宽分配，提高了多波束星地网络中带宽分配的高效性和准确性。

为了使得波束之间可以更好地协作，本实施例加入了注意力机制，每个波束在考虑自身的当前环境状态的同时，也参考其他波束的当前环境状态，且通过注意力机制可以判断其他波束与目标波束的相似程度，通过借鉴与自身情况相似的波束做出的带宽分配策略，更准确高效地优化自身的带宽分配策略。

本实施例通过对actor-critic网络中的参数进行不断的优化更新，使得已训练的actor网络输出的带宽能够满足车辆的请求延迟，并减少带宽损耗。

如图3所示是actor-critic网络的训练示例图。图3中的A₁表示在波束1的当前环境状态下测试车辆需分配的候选带宽，S₁表示波束1的当前环境状态，A₂表示在波束2的当前环境状态下测试车辆需分配的候选带宽，S₂表示波束2的当前环境状态，A₃表示在波束3的当前环境状态下测试车辆需分配的候选带宽，S₃表示波束3的当前环境状态，A_M表示在波束M的当前环境状态下测试车辆需分配的候选带宽，S_M表示波束M的当前环境状态。图3中的ψ₁表示波束1对应的actor网络的参数，θ₁表示波束1对应的critic网络的参数，ψ₂表示波束2对应的actor网络的参数，θ₂表示波束2对应的critic网络的参数，ψ₃表示波束3对应的actor网络的参数，θ₃表示波束3对应的critic网络的参数，ψ_M表示波束M对应的actor网络的参数，θ_M表示波束M对应的critic网络的参数。

步骤207，获取多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率和目标波束与目标车辆之间的角度。

该步骤与步骤101相同，具体可参见步骤101的相关描述，在此不再赘述。

步骤208，将多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率和目标波束与目标车辆之间的角度输入至目标波束对应的已训练的actor网络，得到目标车辆需分配的带宽。

该步骤与步骤102相同，具体可参见步骤102的相关描述，在此不再赘述。

步骤209，将目标车辆需分配的带宽分配给目标车辆。

该步骤与步骤103相同，具体可参见步骤103的相关描述，在此不再赘述。

本申请实施例通过注意力机制层和critic网络，能够使得多波束卫星在训练目标波束对应的actor网络的过程中，不仅关注目标波束的当前环境状态，还关注其他波束的当前环境状态，从而学习其他波束的带宽分配策略，更好地优化自身的带宽分配策略。

参见图4，是本申请实施例三提供的带宽分配装置的结构示意图，该带宽分配装置应用于多波束卫星。多波束卫星发出的波束数量为N，N为大于1的整数，N个波束各自对应一个已训练的actor网络，N个波束对应地面上的不同区域。为了便于说明，仅示出了与本申请实施例相关的部分。

带宽分配装置包括：

状态获取模块41，用于获取多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度，目标波束是指目标车辆所在区域对应的波束；

带宽获取模块42，用于将多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度输入至目标波束对应的已训练的actor网络，得到目标车辆需分配的带宽；

带宽分配模块43，用于将目标车辆需分配的带宽分配给目标车辆。

作为一可选实施例，测试卫星发出的波束数量为M，M为大于1的整数，M个波束各自对应一个actor-critic网络，M个波束对应测试区域上的不同区域，M个波束包括目标波束，上述带宽分配装置还包括：

环境获取模块，用于获取测试卫星的M个波束的当前环境状态；

概率获取模块，用于将目标波束的当前环境状态输入至目标波束对应的actor网络，得到在目标波束的当前环境状态下测试车辆需分配的所有带宽的产生概率，并从该需分配的所有带宽中确定在目标波束的当前环境状态下测试车辆需分配的候选带宽，目标波束的当前环境状态包括测试卫星的当前可分配带宽、目标波束对应区域的标识信息、测试车辆的请求延迟、测试卫星与测试车辆之间的信道效率以及目标波束与测试车辆之间的角度；

加权和获取模块，用于将M个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽输入至注意力机制层，得到剩余波束的编码值的加权和，剩余波束是指M个波束中除目标波束之外的波束；

预估值获取模块，用于将加权和、目标波束的当前环境状态和在目标波束的当前环境状态下测试车辆需分配的候选带宽输入至目标波束对应的critic网络，得到在目标波束的当前环境状态下测试车辆需分配的候选带宽的预估值；

基准确定模块，用于根据在目标波束的当前环境状态下测试车辆需分配的剩余带宽的产生概率，以及在目标波束的当前环境状态下测试车辆需分配的剩余带宽的预估值，确定M个波束的基准；

第一训练模块，用于根据M个波束的基准，以及在目标波束的当前环境状态下测试车辆需分配的候选带宽的产生概率和预估值，训练目标波束对应的actor网络。

作为一可选实施例，上述第一训练模块具体用于：

作为一可选实施例，上述加权和获取模块包括：

信息编码单元，用于将M个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽输入至注意力机制层，在注意力机制层中对每个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽进行编码，得到该波束的编码值；

权重确定单元，用于根据M个波束的编码值，确定剩余波束的权重；

权重和确定单元，用于根据剩余波束的权重和编码值，确定加权和。

作为一可选实施例，上述权重确定单元具体用于：

计算剩余波束的编码值与目标波束的编码值的相似度；

根据相似度，确定剩余波束的权重。

作为一可选实施例，上述带宽分配装置还包括：

奖励值确定模块，用于根据在目标波束的当前环境状态下测试车辆需分配的候选带宽，确定通信奖励值和目标波束的下一个环境状态；

参数获取模块，用于获取测试卫星的计算能力、测试车辆请求内容的大小、测试车辆完成请求内容所需的处理器周期数、测试车辆完成请求内容所消耗的带宽、测试车辆完成请求内容所消耗的带宽的成本和测试车辆执行一个处理器周期所消耗的能量；

资源确定模块，用于根据测试卫星的计算能力、测试车辆请求内容的大小、测试车辆完成请求内容所需的处理器周期数、测试车辆完成请求内容所消耗的带宽、测试车辆完成请求内容所消耗的带宽的成本和测试车辆执行一个处理器周期所消耗的能量，确定计算资源的奖励值；

信息获取模块，用于获取在目标波束的下一个环境状态下测试车辆需分配的候选带宽的产生概率和预估值；

损失确定模块，用于根据通信奖励值、计算资源的奖励值、在目标波束的下一个环境状态下测试车辆需分配的候选带宽的产生概率和预估值，确定目标波束对应的critic网络的损失函数；

第二训练模块，用于根据目标波束对应的critic网络的损失函数，训练目标波束对应的critic网络。

作为一可选实施例，上述状态获取模块41具体用于：

在接收到目标车辆发送的带宽分配请求时，获取多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、多波束卫星与目标车辆之间的信道效率以及目标波束与目标车辆之间的角度。

本申请实施例提供的带宽分配装置可以应用在前述方法实施例一和实施例二中，详情参见上述方法实施例一和实施例二的描述，在此不再赘述。

图5是本申请实施例四提供的多波束卫星的结构示意图。如图5所示，该实施例的多波束卫星5包括：一个或多个处理器50(图中仅示出一个)、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个带宽分配方法实施例中的步骤

所述多波束卫星5可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是多波束卫星5的示例，并不构成对多波束卫星5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述多波束卫星还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述多波束卫星5的内部存储单元，例如多波束卫星5的硬盘或内存。所述存储器51也可以是所述多波束卫星5的外部存储设备，例如所述多波束卫星5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述多波束卫星5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述多波束卫星所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/多波束卫星和方法，可以通过其它的方式实现。例如，以上所描述的装置/多波束卫星实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本申请实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当所述计算机程序产品在多波束卫星上运行时，使得所述多波束卫星执行时实现可实现上述各个方法实施例中的步骤。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种带宽分配方法，其特征在于，应用于多波束卫星，所述多波束卫星发出的波束数量为N，N为大于1的整数，N个波束各自对应一个已训练的actor网络，所述N个波束对应地面上的不同区域，所述带宽分配方法包括：

将所述目标车辆需分配的带宽分配给所述目标车辆。

2.如权利要求1所述的带宽分配方法，其特征在于，测试卫星发出的波束数量为M，M为大于1的整数，M个波束各自对应一个actor-critic网络，所述M个波束对应测试区域上的不同区域，所述M个波束包括所述目标波束，所述actor网络的训练过程包括：

获取测试卫星的M个波束的当前环境状态；

将所述目标波束的当前环境状态输入至所述目标波束对应的actor网络，得到在所述目标波束的当前环境状态下测试车辆需分配的所有带宽的产生概率，并从该需分配的所有带宽中确定在所述目标波束的当前环境状态下测试车辆需分配的候选带宽，所述目标波束的当前环境状态包括所述测试卫星的当前可分配带宽、所述目标波束对应区域的标识信息、所述测试车辆的请求延迟、所述测试卫星与所述测试车辆之间的信道效率以及所述目标波束与所述测试车辆之间的角度；

将所述M个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽输入至注意力机制层，得到剩余波束的编码值的加权和，所述剩余波束是指所述M个波束中除所述目标波束之外的波束；

将所述加权和、所述目标波束的当前环境状态和在所述目标波束的当前环境状态下测试车辆需分配的候选带宽输入至所述目标波束对应的critic网络，得到在所述目标波束的当前环境状态下测试车辆需分配的候选带宽的预估值；

根据在所述目标波束的当前环境状态下测试车辆需分配的剩余带宽的产生概率，以及在所述目标波束的当前环境状态下测试车辆需分配的剩余带宽的预估值，确定所述M个波束的基准；

根据所述M个波束的基准，以及在所述目标波束的当前环境状态下测试车辆需分配的候选带宽的产生概率和预估值，训练所述目标波束对应的actor网络。

3.如权利要求2所述的带宽分配方法，其特征在于，所述根据所述M个波束的基准，以及在所述目标波束的当前环境状态下测试车辆需分配的候选带宽的产生概率和预估值，训练所述目标波束对应的actor网络包括：

根据所述M个波束的基准，以及在所述目标波束的当前环境状态下测试车辆需分配的候选带宽的产生概率和预估值，确定所述目标波束对应的actor网络的梯度；

根据所述目标波束对应的actor网络的梯度，训练所述目标波束对应的actor网络。

4.如权利要求2所述的带宽分配方法，其特征在于，所述将所述M个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽输入至注意力机制层，得到剩余波束的编码值的加权和包括：

将所述M个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽输入至注意力机制层，在所述注意力机制层中对每个波束的当前环境状态和在该当前环境状态下测试车辆需分配的候选带宽进行编码，得到该波束的编码值；

根据所述M个波束的编码值，确定所述剩余波束的权重；

根据所述剩余波束的权重和编码值，确定所述加权和。

5.如权利要求4所述的带宽分配方法，其特征在于，所述根据所述M个波束的编码值，确定所述剩余波束的权重包括：

计算所述剩余波束的编码值与所述目标波束的编码值的相似度；

根据所述相似度，确定所述剩余波束的权重。

6.如权利要求2所述的带宽分配方法，其特征在于，所述带宽分配方法还包括：

根据在所述目标波束的当前环境状态下测试车辆需分配的候选带宽，确定通信奖励值和所述目标波束的下一个环境状态；

获取所述测试卫星的计算能力、所述测试车辆请求内容的大小、所述测试车辆完成所述请求内容所需的处理器周期数、所述测试车辆完成所述请求内容所消耗的带宽、所述测试车辆完成所述请求内容所消耗的带宽的成本和所述测试车辆执行一个处理器周期所消耗的能量；

根据所述测试卫星的计算能力、所述测试车辆请求内容的大小、所述测试车辆完成所述请求内容所需的处理器周期数、所述测试车辆完成所述请求内容所消耗的带宽、所述测试车辆完成所述请求内容所消耗的带宽的成本和所述测试车辆执行一个处理器周期所消耗的能量，确定计算资源的奖励值；

获取在所述目标波束的下一个环境状态下测试车辆需分配的候选带宽的产生概率和预估值；

根据所述通信奖励值、所述计算资源的奖励值、在所述目标波束的下一个环境状态下测试车辆需分配的候选带宽的产生概率和预估值，确定所述目标波束对应的critic网络的损失函数；

根据所述目标波束对应的critic网络的损失函数，训练所述目标波束对应的critic网络。

7.如权利要求1至6任一项所述的带宽分配方法，其特征在于，所述获取所述多波束卫星的当前可分配带宽、目标波束对应区域的标识信息、目标车辆的请求延迟、所述多波束卫星与所述目标车辆之间的信道效率以及所述目标波束与所述目标车辆之间的角度包括：

在接收到所述目标车辆发送的带宽分配请求时，获取所述多波束卫星的当前可分配带宽、所述目标波束对应区域的标识信息、所述目标车辆的请求延迟、所述多波束卫星与所述目标车辆之间的信道效率以及所述目标波束与所述目标车辆之间的角度。

8.一种带宽分配装置，其特征在于，应用于多波束卫星，所述多波束卫星发出的波束数量为N，N为大于1的整数，N个波束各自对应一个已训练的actor网络，所述N个波束对应地面上的不同区域，所述带宽分配装置包括：

9.一种多波束卫星，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述带宽分配方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述带宽分配方法的步骤。