CN110636523A

CN110636523A - 一种基于q学习的毫米波移动回程链路能量效率稳定方案

Info

Publication number: CN110636523A
Application number: CN201910892969.7A
Authority: CN
Inventors: 桂劲松; 戴湘文
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2019-12-31
Anticipated expiration: 2039-09-20
Also published as: CN110636523B

Abstract

本发明公开了一种基于Q学习的毫米波移动回程链路能量效率稳定方案，属于毫米波无线回程网络技术领域，本发明合理利用毫米波回程系统中的各个设备进行协作工作，包括访问控制器AC，宏基站MBS，微基站SBS与车载访问节点VMAP。AC在其中合理调配使得VMAP尽可能地可以直接或间接地与SBS连接形成回程链路，再加上Q学习决策对网络参数进行调整使得网络的能量效率尽可能稳定在一定范围内。结合Q学习方法与D2D中继策略构建一种回程网络参数调整方案，通过车载访问节点、微基站、宏基站与访问控制器之间的信息交互与协作，实现网络参数的优化调整，从而提高毫米波无线回程链路能量效率的稳定性。

Description

一种基于Q学习的毫米波移动回程链路能量效率稳定方案

技术领域

本发明属于毫米波无线回程网络技术领域，涉及一种合理调度网络资源以提高网络能量效率的方法，特别涉及结合Q学习方法与D2D中继策略构建一种回程网络参数调整方案，通过车载访问节点、微基站、宏基站与访问控制器之间的信息交互与协作，实现网络参数的优化调整，从而提高毫米波无线回程链路能量效率的稳定性。

背景技术

在下一代无线网络中，将会出现数据密集型与多媒体丰富型的无线网络应用(例如，增强现实、高清视频传输、在线游戏等)。这些应用都需要高速率与可靠稳定的无线连接。为了满足这些需求，第五代移动通信技术的目标是通过额外增加车载访问节点(例如，安装在车辆、地铁等移动实体上的无线接入点)与大量应用毫米波频段来增加网络密度与提高网络速率。然而，由于车载访问节点的移动性，无法为其部署诸如光纤之类的有线回程。另一方面，由于低频段的频谱带宽非常有限，低频段的无线回程无法满足高容量要求。因此，毫米波频段无线回程成为了最有希望解决回程网络容量问题的一种方法。但是使用毫米波频段也会遇到一系列的问题(例如，容易受到阻挡的影响、较大的路径消耗、较高的大气吸收率)，从而产生即使使用毫米波频段也无法达到期望的信道容量。

通过使用信号定向传输与加大网络基站部署密度两种方案可在一定程度上解决上述问题，但是使用这两种方案也会导致新的问题。例如，信号定向传输需要复杂的波束选择管理机制的辅助，而信号全向传输则不需要。同样，密集的网络基站部署会导致更频繁的跨区切换，而现有的跨区切换方案更多考虑的是关联基站的转换与更新，并未考虑网络参数的优化调整。当没有发生跨区切换时，网络参数的调整更不会发生，从而使得毫米波回程链路的信道容量或能量效率处在较低的水平。

如今，机器学习的应用越来越广泛，而Q学习作为强化学习的一种，在计算机网络领域的应用非常之广泛。原因在于Q学习能够根据环境获得相应回报，有很好的适应性，非常适合环境条件不确定的动态网络。进行Q学习的训练与决策需要计算单元，而由于车辆的智能化需求，这类计算单元出现在车辆上并不稀奇。通过车辆已有的计算单元进行Q学习的相关计算与决策就可以适当对网络参数进行优化调整。而在部分场景之下，D2D中继策略的应用将会更好地提升网络稳定性与网络能量效率。事实上，在5G网络中，D2D通信的应用很广泛。作为5G关键技术的一环，D2D通信技术在很多场景下都有其应用(例如，社交、本地数据传输、应急通信)。在回程网络中，应用D2D技术能够有效地利用空闲的频谱，并且为因链路遭受阻挡而无法连接的设备提供可靠的间接链路。

在使用Q学习方法之前，先要对所处的网络进行状态、空间与回报的定义，并进行一定程度的训练以便获得可以用于决策的Q表。Q表的后续更新可以在车载访问节点上反复进行(只要有足够的计算资源)。这样便能充分利用空闲资源来保证Q表的决策性能。文献[1]提出了一种单状态Q学习的算法来提高毫米波非视距小蜂窝回程网络系统的性能，但是仍存在一些问题。由于文献[1]中的状态-行动组合并不反映操作环境的全局性，因此很难判断由这样的Q学习方案获得的结果是否满足实际应用要求。另外，文献[1]中，固定衍射点方法的使用具有局限性，在没有衍射点的地方，终端设备将无法使用衍射方法来连通基站。

发明内容

本发明的目的在于提供一种基于Q学习的毫米波无线回程网络参数调整方案，使用Q学习方法对所处环境进行识别并通过Q表进行决策，从而对网络参数进行调整使得网络能量效率能够稳定在一定的范围之内，再辅以D2D通信技术解决因高阻挡导致链路无法连接的问题，从而进一步提高毫米波回程网络的能量效率与稳定性。

本发明提供的这种基于Q学习的毫米波移动回程链路能量效率稳定方案，采用基于集成毫米波与低频段波的蜂窝系统，该蜂窝系统包括一个宏基站(Macro Base Station,MBS)，m个微基站(Small Base Station,SBS)，n个的车载访问节点(Vehicle-mountedAccess Point,VMAP)，其中，m≥1，n≥1；

所述宏基站坐落在蜂窝覆盖区域的中心，同时拥有毫米波与低频段波接口，可通过有线光纤与核心网连接；

所述微基站被安装在城市道路旁的路灯柱上，仅拥有毫米波接口，可通过有线光纤与核心网连接，也可通过有线光纤或者无线回程链路与宏基站连接，再通过宏基站与核心网间接相连；

所述车载访问节点随机地在蜂窝覆盖区域内移动，并可选择与宏基站或者微基站相连，在无法直接与基站连接的时候，也可以选择与其他的车载访问节点相连从而间接地与微基站相连；

所述蜂窝系统还包括访问控制器(Access Controller,AC)，通过车载访问节点、微基站、宏基站与访问控制器周期性地进行交互协作，车载访问节点将自身的移动速度与位置通过宏基站发送给访问控制器，微基站将能够感应到的来自车载访问节点的接收信号强度指示(Received Signal Strength Indicator,RSSI)并通过宏基站发送给访问控制器，综合这两个信息，访问控制器可以计算出在当前时刻车载访问节点应该连接哪一个微基站，并将此信息反馈给车载访问节点并进行关联；

若访问控制器判断车载访问节点没有可以连接微基站，则它会反馈给车载访问节点一个D2D中继候选集合，该集合包括与这个车载访问节点相邻的所有车载访问节点编号，之后该车载访问节点可通过广播方式选取中继并建立新的两跳通信连接到微基站。

在一个具体实施方式中，AC通过从VMAP和SBS收集信息来判断VMAP当前和未来的位置以及可以连接的微基站编号，并最终反馈给VMAP；SBS通过有线光纤或者无线回程链路报告信息发送给AC；VMAP通过SBS或者MBS报告信息发送给AC；

对于每个SBS来说，要报告的信息主要为它能接收到的所有VMAP的接收信号强度指示(RSSI)的值；对每个VMAP而言，要报告的信息为它的位置坐标与移动速度；AC根据这些信息，能够判断出每个VMAP在当前时段内可以连接的SBS并将编号反馈给VMAP；若没有可供连接的SBS，AC会根据VMAP的位置，选出能够充当其中继的候选VMAP，并将这个中继的集合反馈给对应的VMAP，之后VMAP自行通过广播方式寻找最优的中继并连接。

在一个具体实施方式中，蜂窝系统的运行时间分成了若干个相等的时间片，长度为T_L，每个时间片都包含四个阶段：信息报告阶段，等待反馈阶段，学习与决策阶段和数据传输阶段；

在信息报告阶段，每个VMAP会将自己的位置坐标和移动速度报告给AC，同样每个SBS也会将它所能接收到的RSSI值报告给AC；

在等待反馈阶段，每个VMAP都需要等待AC根据它所接收到的信息进行计算与决策的结果；AC会计算出每个VMAP在当前时间片内应该连接的SBS，并通过VMAP所报告的移动速度，计算出VMAP在下个时间片开始时会到达的位置与应该连接的SBS，之后将当前应该连接的SBS编号与未来应该连接的SBS编号一起反馈给对应的VMAP；如果在这个时间片内，VMAP没有可以连接的SBS，那么AC就会将与此VMAP相邻的VMAP编号放入一个集合之中，并将这个集合反馈给对应VMAP；

在学习与决策阶段，如果VMAP接收到的反馈信息是SBS的编号，那么VMAP会根据自身的状态信息与所连接的SBS进行基于Q表的决策，之后根据决策的结果对自身的网络参数进行调整；然而，如果VMAP接收到的反馈信息是一个VMAP集合，那么它会根据事先制定好的策略进行中继选择，并根据自身的状态信息与中继编号进行网络参数调整；

在数据传输阶段，每个VMAP会使用调整后的参数进行数据传输；对于以上的四个阶段而言，由于单个时间片的长度是一定的，所以当前三个阶段所花费的时间越短的时候，第四个阶段所拥有的时间就会越长，也就意味着在当前时间片内可传输的数据也就越多。

在一个具体实施方式中，在学习与决策阶段，对于每一个VMAP，在与SBS连接之后，都需要进行基于Q表的决策，从而对自己的网络参数进行调整来保持连接的稳定与能量利用的高效，Q学习模型架构定义如下：

对于每个VMAP i(i∈{1，…，n})来说，它的状态空间被定义为S_i＝{S_i，j|j∈{1，…，m}}，其中S_i，j表示编号为i的VMAP与编号为j的SBS相连的毫米波链路的状态空间，并且S_i，j的表示如下：

S_i，j＝{f_d(D_i，j)}×{f_p(P_i，j)}×{f_g(G_i，j)} (1)

其中，D_i，j表示编号为i的VMAP与编号为j的SBS的距离，被定义为：

为了方便表示，我们定义了一种映射关系来简化距离在集合中的表示：

在公式(3)中，d_max是VMAP的最大覆盖距离，同样，我们可以定义编号为i的VMAP向编号为j的SBS传输时的发射功率P_i，j：

P_i，j＝{p_i，j，k_p|1≤k_p≤K_p} (4)

编号为i的VMAP向编号为j的SBS(或MBS)传输时的波束宽度G_i，j被定义如下：

G_i，j＝{g_i，j，k_g|1≤k_g≤K_g} (6)

在公式(5)中，p_max表示VMAP的最大传输功率；在公式(7)中，g_max表示VMAP的最大传输波束宽度，类似于状态空间，对于每个VMAP i来说，行动空间被定义为A_i＝{A_i，j|j∈{1，…，m}}；其中A_i，j表示编号为i的VMAP与编号为j的SBS相连的毫米波链路的行动空间，并且A_i，j的表示如下：

A_i，j＝{f_p(P_i，j)}×{f_g(G_i，j)} (8)

在行动空间不考虑距离是因为距离是VMAP无法主动进行改变的因子，而发射功率与波束宽度都可以进行主动调整，故行动空间为发射功率与波束宽度的映射的集合；

每当一个行动结束之后，执行行动的VMAP都会获得一个回报，这个回报值的大小与VMAP所处状态的网络参数有关；我们用来表示编号为i的VMAP与编号为j的SBS的毫米波回程链路在t时刻的能量效率，也即回报值：

在(9)中，bw是毫米波链路带宽；σ²是毫米波链路中的接收端的环境噪声功率；表示此回程链路的信道衰减系数，可从接收端测量或者根据经验方程推导，经验方程可根据文献[2]中的毫米波信道传输模型建立；表示t时刻编号为i的VMAP向编号为j的SBS传输的发射功率；表示t时刻的接收功率增强系数，它的定义如下：

在公式(10)中，表示t时刻编号为i的VMAP向编号为j的SBS传输的波束宽度；

在Q学习中，不同的状态下采取不同的行动获得的回报值也是不同的，这些回报值被存储在一个回报值表(Reward Table)的集合中，简称R表集合，其中每个R表都是一个二维矩阵，矩阵的每一行表示一个状态，每一列表示一个行动，矩阵中的值表示具体的回报值；回报值根据公式(9)进行计算，计算中所涉及的参数参考当前状态的参数值；而由于不同的VMAP与不同的SBS连接时，这些参数会有所不同，所以在这个方案中，每一个VMAP都要存储与所有SBS相关的R表，以对应不同的SBS(也即系统中总共有m×n个R表)；

与R表类似，Q表也是一个二维矩阵，其中每一行表示一个状态，每一列表示一个行动，矩阵中的值称作Q值；Q值代表智能体在不同的环境中获取到“知识”的程度；当回报值获取完毕后，会根据Q表更新公式，对对应的Q值进行更新；公式如下所示：

在公式(11)中，表示编号为i的VMAP对应于编号为j的SBS的Q表在t时刻对应坐标为的Q值，而与分别表示t时刻下状态和行动对应的编号；α称为学习因子并且α∈[0，1]，α值越大表示现在所学习到的“知识”比先前学习到的“知识”越重要；β称为折扣因子并且β∈[0，1)，β值越大表示对未来回报值更加重视；

Q学习的最终目的是得到一个收敛的Q表，也即无论再怎么进行学习，Q表中的值都不会再被改变；但是在实际应用的过程中，由于状态空间与行动空间较大，导致Q表需要很长的训练时间才会达到收敛，故常将Q表训练一定时间后就直接使用，然后在使用的过程中再对Q表进行更新，使Q表中的Q值能够在一次又一次的更新中不断地接近收敛值。

在一个具体实施过程的数据传输阶段，对于接收到中继候选集合的VMAP来说，需要从集合中选择合适的中继进行数据传输；首先VMAP需要对集合中所有的VMAP进行广播，然后检测所有接收到广播的候选者的RSSI值，之后VMAP会选择RSSI最大的候选者当作它的中继(前提是该候选者有剩余带宽可供充当中继)；选定好中继之后，VMAP会根据一定的规则调整自己的网络参数，将数据传输给中继，中继再将数据转发给SBS；

在AC接收到VMAP报告的信息之后，它已经知道VMAP现在所处的位置与速度，进而可以选出距离该VMAP最近的SBS；然而AC所要做的工作不仅如此，它还需要估计出在下一个时间片开始时VMAP的位置，相关估算公式如下：

在公式(12)中，表示t时刻编号为i的VMAP在x方向上的移动速度；表示t时刻编号为i的VMAP在y方向上的移动速度；与分别表示经过第t个时间片到达t+1时刻时，编号为i的VMAP分别在x方向和y方向所经过的距离。和分别表示t时刻编号为i的VMAP的x坐标和y坐标；和分别表示t+1时刻编号为i的VMAP的x坐标和y坐标；

在估计出和后，AC会计算出在t+1时刻，这个VMAP应该连接的SBS；因此会有两个SBS的编号反馈给VMAP，一个是现在应该连接的SBS编号，一个是下个时间片应该连接的SBS编号；

VMAP根据反馈得到的这两个编号的相同情况，将会进行不同的操作：

若两个编号相同，那么VMAP会根据两次的位置坐标，进行两次Q学习决策，分别得到t时刻和t+1时刻应该调整的发射功率和再根据(13)式进行最终的发射功率调整；

在公式(13)中，p_i，j表示在当前时间片内VMAP应该使用的发射功率值；若两个编号不相同，那么为了避免在跨区切换过程中连接断开，则会采用最大发射功率；

至于在当前时间片内没有SBS可以连接的情况，AC会反馈一组由VMAP编号组成的中继候选集合；接收到反馈的VMAP需要根据候选集选出RSSI最大的候选者当作自己的中继；

根据文献[3]和文献[4]我们得到了自由空间的路径损耗计算公式(15)与非视距情况下的路径损耗计算公式(16)；

FSPL＝20·log₁₀(d)+20·log₁₀(f_c)+32.45 (15)

在公式(15)和(16)中，FSPL表示自由空间的路径损耗值；PL表示非视距情况下的路径损耗值；d表示传输距离，单位为m；f_c为载波频率，单位为GHz，在本方案中取73GHz；η和χ分别是测量距离(从30到200米)的最佳拟合浮动截距和斜率；ω²，η和χ在载波频率为73GHz的毫米波频段中分别取值8，86.6和2.45；

我们再假定接收端的比特误码率(Bit Error Rate，BER)已知，那么相应的候选者的接收功率阈值也可以通过公式(17)计算；

在公式(17)中，是编号为i`的VMAP的接收功率阈值；σ²是环境噪声功率，在这个公式中的单位是Watt；BE_th是从编号为i的VMAP与编号i`的VMAP的链路上的比特误码率阈值，在本发明中取10^-10；根据接收功率阈值与路径损耗值，我们可以估计出接收功率，如公式(18)所示：

在公式(18)中，和分别表示在t时刻和t+1时刻编号为i的VMAP向编号为i`的VMAP的发射功率；和分别表示在t时刻和t+1时刻编号为i的VMAP和编号为i`的VMAP链路的路径损耗；p_i，i`表示在这个时间片内编号为i的VMAP向编号为i`的VMAP传输的发射功率；表示发射功率的最大值；

为了计算和需要获得编号为i的VMAP与编号为i`的VMAP分别在t时刻和t+1时刻的距离；

根据公式(19)，可计算出相应的距离。其中，和分别表示在t时刻和t+1时刻编号为i的VMAP与编号为i`的VMAP的距离；和分别表示在t时刻编号为i的VMAP与编号为i`的VMAP的x坐标；和分别表示在t时刻编号为i的VMAP与编号为i`的VMAP的y坐标；和分别表示在t+1时刻编号为i的VMAP与编号为i`的VMAP的x坐标；和分别表示在t+1时刻编号为i的VMAP与编号为i`的VMAP的y坐标。

本发明还提供一种基于Q学习的毫米波移动回程链路能量效率稳定方法，包括以下步骤：

(1)每个VMAP初始化Q学习所需的参数(例如，R表，学习因子α，折扣因子β，Q表)，并对每个VMAP的Q表实施一定程度的训练后，再以规定时间片为单位反复执行如下步骤；

(2)在信息报告阶段，每个VMAP报告自己的位置坐标和以及速度和给AC；同时，每个SBS也会报告可接收到的RSSI值给AC；

(3)在等待反馈阶段，AC会从收到的报告信息中，为每个VMAP选择最近的SBS；若该SBS接收到的关于此VMAP的RSSI值大于一个阈值(也称为RSSI可接受值)，则判断该VMAP可以连接到SBS，再根据公式(12)对该VMAP的下一个时间片位置进行估计，并计算出在下一个时间片开始时离该VMAP最近的SBS，将这两个SBS的编号填入反馈信息，并将反馈信息的类型设置为基站编号类型，发送给此VMAP；若在当前时间片，离此VMAP最近的SBS无法接收到该VMAP的RSSI值，或此RSSI值很小，则判断该VMAP没有可连接的SBS。进而将该VMAP的一定范围内(相邻)的VMAP编号填入集合，该集合称为中继候选集，将此候选集填入反馈信息中，并将反馈信息类型设置为中继候选集类型并发送给此VMAP；

(4)VMAP接收到反馈之后，进入学习与决策阶段。此阶段会根据接收到的反馈内容进行不同后续操作：

4.1)若接收到的反馈是基站编号类型，判断两个编号是否相同。若相同，则根据自身在相距一个时间片的两个时刻的位置信息，分别计算出自身与SBS之间的距离，并进行两次基于Q表的决策，得到两个发射功率和再根据公式(13)确定此时间片内应该使用的发射功率值。若编号不同，则直接根据公式(14)调整此时间片内应该使用的发射功率值；

4.2)若接收到的反馈是中继候选集类型，此VMAP需要给这个集合中的所有VMAP发送广播，并检测接收到广播的候选者的RSSI值；此VMAP选择RSSI最大的候选者成为自己的中继VMAP；之后再根据公式(19)调整此时间片内自己对中继传输的发射功率；

(5)在网络参数调整之后，进入数据传输阶段，每个VMAP会使用调整好的网络参数进行数据传输。

进一步，每个VMAP的初始化工作包括针对它的每一张R表进行初始化赋值(为方便，简称为算法1)，具体步骤如下：

步骤1.1：对于编号为i的VMAP且相应编号为j的SBS的R表r_i，j，先将其对应的状态空间S_i，j与行动空间A_i，j初始化为空集，进入步骤1.2；

步骤1.2：设置一个变量k_p为1；设置一个变量k_g为1；设置一个变量k_d为1；进入步骤1.3；

步骤1.3：判断k_p是否不大于参数K_p，如果是则进入步骤1.4，否则进入步骤1.10；

步骤1.4：判断k_g是否不大于参数K_g，如果是则进入步骤1.5，否则进入步骤1.9；

步骤1.5：将集合{(k_p，k_g)}与集合A_i，j的并集赋给A_i，j，进入步骤1.6；

步骤1.6：判断k_d是否不大于参数K_d，如果是则进入步骤1.7，否则进入步骤1.8；

步骤1.7：将集合{(k_d，k_p，k_g)}与集合S_i，j的并集赋给S_i，j，k_d自身加1并返回步骤1.6；

步骤1.8：k_d重置为1，k_g自身加1，返回步骤1.4；

步骤1.9：k_g重置为1，k_p自身加1，返回步骤1.3；

步骤1.10：按顺序将R表中的每行当作状态空间S_i，j中相应序号的状态s_i，j，每列当作行动空间A_i，j中相应序号的行动α_i，j；R表中的每个R值就代表一对状态-行动对(s_i，j，a_i，j)的回报值，按顺序对每个R值都执行步骤1.11；

步骤1.11：根据对应状态s_i，j与对应行动a_i，j的参数g_i，j，p_i，j和先根据公式(10)计算出对应的再根据公式(9)计算出对应的r_i，j(s_i，j，α_i，j)；当所有R值都计算完毕时，算法结束。

进一步，每个VMAP的每张Q表在投入使用之前，需要进行一定时间的训练(为方便，简称算法2)，具体步骤如下：

步骤2.1：对于编号为i的VMAP且相应编号为j的SBS的Q表Q_i，j，将Q_i，j中所有Q值置为0，调用算法1对状态空间S_i，j，行动空间A_i，j与R表的每个表项r_i，j完成了初始化赋值；进入步骤2.2；

步骤2.2：设置一个变量flag为1，进入步骤2.3；

步骤2.3：判断flag是否不大于最大事件值N(N是在算法2开始之前已经赋值的参数)，如果是则进入步骤2.4，否则算法结束；

步骤2.4：设置一个变量Q_max为0；设置一个变量a_max为-1；从状态空间S_i，j中随机选择一个状态s_i，j；进入步骤2.5；

步骤2.5：在状态s_i，j下，从行动空间A_i，j中按顺序选取行动a_i，j，并根据公式(11)计算对应的Q_i，j(s_i，j，a_i，j)(其中α与β是在算法2开始之前已经赋值的参数)；进入步骤2.6；

步骤2.6：判断在步骤2.5计算的Q_i，j(s_i，j，a_i，j))是否大于Q_max，如果是，将Q_i，j(s_i，j，a_i，j)值赋给Q_max，并将a_i，j值赋给a_max，进入步骤2.7；否则直接进入步骤2.7；

步骤2.7：判断行动空间A_i，j中的行动是否被全部遍历，如果是，进入步骤2.8；否则返回步骤2.5；

步骤2.8：随机生成一个0至1之间(不包括0和1)的小数ε，判断ε是否大于∈(∈是在算法2开始之前已经赋值的参数)，如果是，进入步骤2.9；否则进入步骤2.11；

步骤2.9：判断行动a_max是否可以使状态s_i，j转移到另一个状态如果可以，进入步骤2.10；否则进入步骤2.14；

步骤2.10：执行行动a_max将状态转移到并将值赋给s_i，j；flag自身加1，返回步骤2.3；

步骤2.11：随机从行动空间A_i，j中选择一个非a_max的行动a_i，j，进入步骤2.12；

步骤2.12：判断行动a_i，j是否可以使状态s_i，j转移到另一个状态如果可以，进入步骤2.13；否则进入步骤2.14；

步骤2.13：执行行动a_i，j将状态转移到并将值赋给s_i，j；flag自身加1，返回步骤2.3；

步骤2.14：从状态空间S_i，j中随机选择一个状态s_i，j；flag自身加1，返回步骤2.3。

进一步，每个VMAP在与SBS连接后，需要进行基于Q表的决策，并同步更新Q表(为方便，简称算法3)，具体步骤如下：

步骤3.1：根据公式(9)计算目前状态下的能量效率值r_i，j，判断r_i，j是否小于能量效率阈值r_th(r_th在算法3开始前已经赋值)，如果是进入步骤3.2；否则算法结束输出状态

步骤3.2：设置一个变量对其赋值为设置一个变量V_i，j并赋值为0；设置一个变量并赋值为0；进入步骤3.3；

步骤3.3：在状态下，按顺序选取行动空间A_i，j中的行动a_i，j，并根据算法2中训练的Q表获取相应的Q值进入步骤3.4；

步骤3.4：判断是否大于V_i，j，如果是，将赋给V_i，j，并将a_i，j赋给进入步骤3.5；否则直接进入步骤3.5；

步骤3.5：判断行动空间A_i，j中的行动是否被全部遍历，如果是，进入步骤3.6；否则返回步骤3.3；

步骤3.6：根据公式(9)计算回报值判断是否小于r_th，如果是，进入步骤3.7；否则算法结束并输出状态

步骤3.7：判断行动是否可以使状态转移到另一个状态如果可以，进入步骤3.8；否则算法结束并输出状态

步骤3.8：执行行动将状态转移到并将值赋给根据公式(11)更新对应Q表中的Q值；返回步骤3.3。

进一步，VMAP报告信息给AC并在接收到来自AC的反馈之后，对自己的发射功率做出调整(为方便，简称算法4)，具体步骤如下：

步骤4.1：将当前的位置坐标信息和速度信息报告给AC，进入步骤4.2；

步骤4.2：设置一个时间变量t_Δ，进入步骤4.3；

步骤4.3：接收到来自AC的反馈信息后，判断信息类型，如果是两个SBS编号类型，则进入步骤4.4；如果是一个VMAP编号集合，则进入步骤4.9；

步骤4.4：判断两个SBS编号是否相同；如果相同，则进入步骤4.5，否则进入步骤4.8；

步骤4.5：根据当前状态调用算法3进行基于Q表的决策得到目标状态并根据目标状态得到当前时刻应该使用的发射功率值进入步骤4.6；

步骤4.6：根据公式(12)估计下一个时间片开始时自己的位置，计算出此时离此SBS的距离，并对此时的状态进行估计，并记为调用算法3进行基于Q表的决策得到目标状态并根据目标状态得到此时应该使用的发射功率值进入步骤4.7；

步骤4.7：根据公式(13)决定当前时间片内应该使用的发射功率值；进入步骤4.13；

步骤4.8：根据公式(14)决定当前时间片内应该使用的发射功率值；进入步骤4.13；

步骤4.9：VMAP对候选集中的所有VMAP发送一个广播包，进入步骤4.10；

步骤4.10：检测所有接收到广播的候选者的RSSI值，进入步骤4.11；

步骤4.11：VMAP选择RSSI值最大的候选者当作自己的中继，对该候选者发送自己的中继请求的确认包，并根据公式(19)调整自己的发送功率，进入步骤4.12；

步骤4.12：若接收到其它VMAP的中继请求，则自身作为候选者以最大功率值发送一个回复包，表示同意成为它的中继；进入步骤4.13；

步骤4.13：如果时间t_Δ耗尽，算法结束，否则等待时间耗尽。

进一步，AC接收到来自VMAP和SBS的报告后，做出决定的算法(为方便，简称算法5)，具体步骤如下：

步骤5.1：更新已经存储的VMAP报告的位置信息和速度信息，更新SBS报告的RSSI信息，进入步骤5.2；

步骤5.2：根据各VMAP坐标和SBS坐标，选择出离每个VMAP最近的SBS，进入步骤5.3；

步骤5.3：如果这个SBS接收到的来自这个VMAP的RSSI值大于一个阈值(即RSSI值可接受值)，则判断该VMAP可以与这个SBS连通，进入步骤5.4；否则进入步骤5.6；

步骤5.4：根据公式(12)对该VMAP在下一个时间片开始时的位置进行估计，并根据估计的位置选择下一个时间片开始时离该VMAP最近的SBS，进入步骤5.5；

步骤5.5：将两个SBS的编号填入反馈信息中，反馈信息的类型设置为基站编号类型，将反馈信息发送给该VMAP；算法结束；

步骤5.6：根据该VMAP的位置，选择相邻的VMAP，并将它们的编号填入一个集合中，进入步骤5.7；

步骤5.7：将该集合填入反馈信息中，并将反馈信息的类型设置为中继候选集类型，将反馈信息发送给该VMAP；算法结束。

本发明合理利用毫米波回程系统中的各个设备进行协作工作，包括访问控制器AC，宏基站MBS，微基站SBS与车载访问节点VMAP。AC在其中合理调配使得VMAP尽可能地可以直接或间接地与SBS连接形成回程链路，再加上Q学习决策对网络参数进行调整使得网络的能量效率尽可能稳定在一定范围内。从车载访问节点的角度来说，移动速度与位置信息的数据非常小，即使在传输过程中增加这两项信息对网络通信也不会造成负担。通过信息的交互与反馈，自身计算单元的Q学习计算，能够使得自身保持稳定通信的同时提高通信过程中的能量效率。

从微基站角度来说，信号接收强度指示的估算在很短的时间内便可以完成。与车载访问节点相同，信号接收强度指示值的数据也非常小，即使在传输包中增加这项信息也不会对网络通信造成负担。

从访问控制器的角度来说，将车载访问节点与微基站的信息汇总，能够有效减少车载访问节点与微基站之间的信息交互量。

本发明综合考虑了状态-行动组合的全局性来保证Q学习方法的效果。同时使用D2D中继策略，使得设备对基站的间接连接方式能够更加的灵活。

本发明的有益技术效果为：

1)本发明使用访问控制器AC来帮助VMAP进行关联微基站的选择。AC只需收到来自VMAP的位置坐标与速度信息和来自SBS的RSSI值信息即可，并不需要接收另外的信息。在接收到信息之后，AC所做的SBS选择只有距离的判断，这样的计算非常简单并不需要花费太多时间，因此在网络畅通的情况下VMAP从报告信息到接收到反馈并不会需要很多时间。

2)本发明使用Q学习方法来将能量效率稳定在一个确定的范围内。Q学习的训练和实施都在每个VMAP上进行，并且由于Q表训练与更新可以在任意的时间进行，因此可以充分利用计算资源，并且能够得到一个训练得比较好的Q表。由于Q表的训练与决策都是独立在每个VMAP中完成，能够缓解由于集中执行Q表训练与决策所造成的性能瓶颈。在VMAP接收到两个不同编号的基站编号类型的反馈信息之后，在固定的时间内使用基于Q表的决策，从而得到自己应该使用的网络参数。使用基于Q表的决策，能够一次性获得最终应使用的网络参数，从而避免了为了过分追求最好的能量效率而频繁地对网络参数进行调整。

3)本发明使用D2D中继策略来帮助VMAP避开遮挡从而实现视距连接。在VMAP与最近SBS的链路因为某种原因被阻挡的时候，可以通过D2D中继策略，选择一个中继进行来与SBS进行间接连接。是否使用D2D中继策略由AC决定，因为AC存储有所有VMAP和SBS的位置坐标，所以进行判断时非常方便，选取相邻VMAP当作候选者时也同样不会需要过多资源与时间开销。当VMAP在从候选者中进行中继选择的时候，只需对候选集中所有编号的VMAP发送一个广播即可。这样减少了VMAP在选择中继时需要进行的计算与选择，大大节省了时间成本。

附图说明

图1集成毫米波与低频段波的蜂窝系统的示意图。

图2随着VMAP数量变化的连接率变化趋势。

图3随着VMAP数量变化的平均能量效率变化趋势。

图4随着SBS间隔距离变化的连接率变化趋势。

图5随着SBS间隔距离变化的平均能量效率变化趋势。

具体实施方式

下面结合具体实施例和附图对本发明进行进一步说明：

如图1所示，我们应用曼哈顿模型模拟城市道路区域，在区域中设置了五块居民区，区域中心有一个MBS，围绕区域每隔110m布置一个SBS，区域外围布置10个SBS。为保证SBS覆盖全范围，在MBS两边布置了2个SBS，总共布置了12个SBS。在区域内可行驶的道路上，随机投放了至多100个VMAP。每个VMAP有30％的概率保持静止，70％的概率进行移动并且移动只能在自己所在的道路上进行。移动的速度在5m/s到9m/s之间随机选择，而当移动至路口时有50％的概率直行，25％的概率左拐，25％的概率右拐。

表1:仿真参数

采用OMNeT++4.6网络仿真器得到图2至图5所示结果。在仿真过程中，我们使用了三种方案来与本发明所提出的方案进行对比。这三种方案分别是：发射功率与波束宽度保持最大值的1/3不变(简称对比方案一)、发射功率与波束宽度保持最大值的2/3不变(简称对比方案二)，以及发射功率与波束宽度保持最大值不变(简称对比方案三)。

结合图2和图3，我们可以发现，随着区域中的VMAP数量逐渐增加，本发明所提出方案的毫米波无线回程链路的连接率逐渐增加，平均能量效率也逐渐增加。而其余三种方案的连接率与平均能量效率则没有明显的变化。

对于本发明所提出的方案而言，连接率逐渐增加的原因是：随着VMAP的数量不断增加，区域内VMAP的密度会不断增加，从而在链路被阻挡而需要进行中继选择的时候，可供选择的中继会变多，因此连不上基站的VMAP会变少，连接率会不断提高。

对于本发明所提出的方案而言，平均能量效率逐渐增加的原因是：VMAP使用D2D中继策略与基站进行间接连接的方法，相比于没有D2D中继策略能够更好地利用网络资源，提高VMAP的能量效率，所以整个网络的平均能量效率也会有所提升。

对于其他三个方案而言，连接率与平均能量效率都没有明显变化的原因是：由于其他三个方案的发射功率与波束宽度都保持一个定值，并且并没有使用D2D中继策略，所以得到连接率并不会因为VMAP的数量改变而发生变化，同样也不会使平均能量效率发生变化。不仅如此，由于其他三个方案没有使用Q学习方法对网络参数进行调整，从图2和图3中可以明显看出本发明所提出的方案无论在连接率还是平均能量效率上都胜过了其他三个方案。

结合图4和图5，我们可以发现，随着相邻的SBS之间的间隔距离不断增加，本发明所提出方案的毫米波无线链路回程系统的连接率会逐渐降低，但是平均能量效率在逐渐增加。而其余三种方案的连接率与平均能量效率都在逐渐降低。

对于本发明所提出的方案而言，连接率逐渐降低的原因是：随着相邻的SBS之间的间隔距离不断增加，SBS的信号覆盖质量会越来越差。当间隔距离较小的时候，即使是在两个SBS的交界处依然会有很好的信号质量，所以对应VMAP的RSSI值也会相对较大。而当间隔距离较大的时候，处在两个SBS边缘的VMAP会难以找到合适的SBS进行连接，从而需要依赖D2D中继策略。所以当间隔距离越来越大时，连接率会逐渐下降。

对于本发明所提出的方案而言，平均能量效率逐渐增加的原因是：因为相邻的SBS之间的间隔距离不断增加而导致的SBS的信号覆盖质量变差，所以使用D2D中继策略进行间接连接的VMAP会越来越多，使用D2D中继策略让无法直接连接的VMAP进行间接连接能够更好地利用网络资源，因此平均能量效率会逐渐增加。

对于其他三个方案而言，连接率与平均能量效率都逐渐降低的原因是：相比较本发明所提出的方案而言，这三个方案没有使用Q学习方法与D2D中继策略。所以在相邻的SBS之间的间隔距离增加的时候，随着信号覆盖质量的减弱，会有越来越多的VMAP无法找到合适的SBS进行连接，连接率会越来越低。并且由于缺少D2D中继策略，对网络资源的利用也会大打折扣，所以平均能量也会逐渐降低。不仅如此，这三个方案的连接率与平均能量效率都会比本发明所提出的方案要差。

参考文献

[1]B.Malila,O.Falowo,and N.Ventura,―Intelligent NLOS Backhaul for 5GSmall Cells,”IEEE Communications Letters,vol.22,no.1,pp.189–192,Jan.2018.

[2]TS Rappaport et al.,Overview of Millimeter Wave Communications forFifth-Generation(5G)Wireless Networks—With a Focus on PropagationModels.IEEE Transactions on Antennas and Propagation,vol.65,no.12,pp.6213–6230,2017.

[3]T S Rappaport,Wireless Communications:Principles and Practice,2nded.Upper Saddle River,NJ:Prentice Hall,2002.

[4]MR Akdeniz,YP Liu,MK Samimi,S Sun,S Rangan,TS Rappaport,E Erkip,―Millimeter Wave Channel Modeling and Cellular Capacity Evaluation,”IEEEJournal on Selected Areas in Communications,vol.32,no.6,pp.1164–1179,2014.

Claims

1.一种基于Q学习的毫米波移动回程链路能量效率稳定方案，其特征在于，采用基于集成毫米波与低频段波的蜂窝系统，该蜂窝系统包括一个宏基站(MBS)，m个微基站(SBS)，n个的车载访问节点(VMAP)，其中，m≥1，n≥1；

所述蜂窝系统还包括访问控制器(AC)，通过车载访问节点、微基站、宏基站与访问控制器周期性地进行交互协作，车载访问节点将自身的移动速度与位置通过宏基站发送给访问控制器，微基站将能够感应到的来自车载访问节点的接收信号强度指示(RSSI)并通过宏基站发送给访问控制器，综合这两个信息，访问控制器可以计算出在当前时刻车载访问节点应该连接哪一个微基站，并将此信息反馈给车载访问节点并进行关联；

2.根据权利要求1所述的基于Q学习的毫米波移动回程链路能量效率稳定方案，其特征在于，AC通过从VMAP和SBS收集信息来判断VMAP当前和未来的位置以及可以连接的微基站编号，并最终反馈给VMAP；SBS通过有线光纤或者无线回程链路报告信息发送给AC；VMAP通过SBS或者MBS报告信息发送给AC；

3.根据权利要求1所述的基于Q学习的毫米波移动回程链路能量效率稳定方案，其特征在于，蜂窝系统的运行时间分成了若干个相等的时间片，长度为T_L，每个时间片都包含四个阶段：信息报告阶段，等待反馈阶段，学习与决策阶段和数据传输阶段；

4.根据权利要求3所述的基于Q学习的毫米波移动回程链路能量效率稳定方案，其特征在于，在学习与决策阶段，对于每一个VMAP，在与SBS连接之后，都需要进行基于Q表的决策，从而对自己的网络参数进行调整来保持连接的稳定与能量利用的高效，Q学习模型架构定义如下：

对于每个VMAP i(i∈{1，…，n})来说，它的状态空间被定义为S_i＝{S_i，j|j∈{1，…，m}}，其中S_i,j表示编号为i的VMAP与编号为j的SBS相连的毫米波链路的状态空间，并且S_i,j的表示如下：

S_i，j＝{f_d(D_i，j)}×{f_p(P_i，j)}×{f_g(G_i，j)} (1)

A_i，j＝{f_p(P_i，j)}×{f_g(G_i，j)} (8)

5.一种基于Q学习的毫米波移动回程链路能量效率稳定方法，其特征在于，包括以下步骤：

(3)在等待反馈阶段，AC会从收到的报告信息中，为每个VMAP选择最近的SBS；若该SBS接收到的关于此VMAP的RSSI值大于一个阈值(也称为RSSI可接受值)，则判断该VMAP可以连接到SBS，再根据公式(12)对该VMAP的下一个时间片位置进行估计，并计算出在下一个时间片开始时离该VMAP最近的SBS，将这两个SBS的编号填入反馈信息，并将反馈信息的类型设置为基站编号类型，发送给此VMAP；若在当前时间片，离此VMAP最近的SBS无法接收到该VMAP的RSSI值，或此RSSI值很小，则判断该VMAP没有可连接的SBS，进而将该VMAP的一定范围内(相邻)的VMAP编号填入集合，该集合称为中继候选集，将此候选集填入反馈信息中，并将反馈信息类型设置为中继候选集类型并发送给此VMAP；

(4)VMAP接收到反馈之后，进入学习与决策阶段，此阶段会根据接收到的反馈内容进行不同后续操作：

4.1)若接收到的反馈是基站编号类型，判断两个编号是否相同；若相同，则根据自身在相距一个时间片的两个时刻的位置信息，分别计算出自身与SBS之间的距离，并进行两次基于Q表的决策，得到两个发射功率和再根据公式(13)确定此时间片内应该使用的发射功率值；若编号不同，则直接根据公式(14)调整此时间片内应该使用的发射功率值；

6.根据权利要求5所述的基于Q学习的毫米波移动回程链路能量效率稳定方法，其特征在于，每个VMAP的初始化工作包括针对它的每一张R表进行初始化赋值，具体步骤如下：

步骤1.7：将集合{(k_d，k_p，k_g))与集合S_i，j的并集赋给S_i，j，k_d自身加1并返回步骤1.6；

步骤1.8：k_d重置为1，k_g自身加1，返回步骤1.4；

步骤1.9：k_g重置为1，k_p自身加1，返回步骤1.3；

步骤1.10：按顺序将R表中的每行当作状态空间S_i，j中相应序号的状态s_i，j，每列当作行动空间A_i，j中相应序号的行动α_i，j；R表中的每个R值就代表一对状态-行动对(s_i，j，α_i，j)的回报值，按顺序对每个R值都执行步骤1.11；

步骤1.11：根据对应状态s_i，j与对应行动α_i，j的参数g_i，j，p_i，j和先根据公式(10)计算出对应的再根据公式(9)计算出对应的r_i，j(s_i，j，α_i，j)；当所有R值都计算完毕时，算法结束。

7.根据权利要求5所述的基于Q学习的毫米波移动回程链路能量效率稳定方法，其特征在于，每个VMAP的每张Q表在投入使用之前，需要进行一定时间的训练，具体步骤如下：

步骤2.2：设置一个变量flag为1，进入步骤2.3；

步骤2.4：设置一个变量Q_max为0；设置一个变量α_max为-1；从状态空间S_i，j中随机选择一个状态s_i，j；进入步骤2.5；

步骤2.5：在状态s_i，j下，从行动空间A_i，j中按顺序选取行动α_i，j，并根据公式(11)计算对应的Q_i，j(s_i，j，α_i，j)(其中α与β是在算法2开始之前已经赋值的参数)；进入步骤2.6；

步骤2.6：判断在步骤2.5计算的Q_i，j(s_i，j，α_i，j)是否大于Q_max，如果是，将Q_i，j(s_i，j，α_i，j)值赋给Q_max，并将α_i，j值赋给α_max，进入步骤2.7；否则直接进入步骤2.7；

步骤2.9：判断行动α_max是否可以使状态s_i，j转移到另一个状态如果可以，进入步骤2.10；否则进入步骤2.14；

步骤2.10：执行行动α_max将状态转移到并将值赋给s_i，j；flag自身加1，返回步骤2.3；

步骤2.11：随机从行动空间A_i，j中选择一个非α_max的行动α_i，j，进入步骤2.12；

步骤2.12：判断行动α_i，j是否可以使状态s_i，j转移到另一个状态如果可以，进入步骤2.13；否则进入步骤2.14；

步骤2.13：执行行动α_i，j将状态转移到并将值赋给s_i，j；flag自身加1，返回步骤2.3；

8.根据权利要求5所述的基于Q学习的毫米波移动回程链路能量效率稳定方法，其特征在于，每个VMAP在与SBS连接后，需要进行基于Q表的决策，并同步更新Q表，具体步骤如下：

步骤3.3：在状态下，按顺序选取行动空间A_i，j中的行动α_i，j，并根据算法2中训练的Q表获取相应的Q值进入步骤3.4；

步骤3.4：判断是否大于V_i，j，如果是，将赋给V_i，j，并将α_i，j赋给进入步骤3.5；否则直接进入步骤3.5；

9.根据权利要求5所述的基于Q学习的毫米波移动回程链路能量效率稳定方法，其特征在于，VMAP报告信息给AC并在接收到来自AC的反馈之后，对自己的发射功率做出调整，具体步骤如下：

步骤4.2：设置一个时间变量t_Δ，进入步骤4.3；

10.根据权利要求5所述的基于Q学习的毫米波移动回程链路能量效率稳定方法，其特征在于，AC接收到来自VMAP和SBS的报告后，做出决定的算法，具体步骤如下：