CN107509220A

CN107509220A - 一种基于历史强化学习的车联网负载均衡接入方法

Info

Publication number: CN107509220A
Application number: CN201710537715.4A
Authority: CN
Inventors: 蒋昌俊; 李重; 李德敏; 任佳杰; 齐诚嗣
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2017-12-22
Anticipated expiration: 2037-07-04
Also published as: CN107509220B

Abstract

本发明提供了一种基于历史强化学习的车联网负载均衡接入方法，首先通过初始强化学习模块获得车辆的接入基站分配模式，并不断地积累于接入模式积累库中；经过学习积累，令历史强化学习模块代替初始强化学习模块持续在系统中驻留运行，当基站再次遇到网络变化时，历史强化学习模块调用接入模式积累库中的历史记录，自适应地学习出新的车辆接入分配模式，并记录，形成一个自适应处理网络动态变化的运行环，从而在动态变化的车联网环境中，保证车辆接入的网络负载均衡。本发明利用交通流的时空分布潜在规律性，从与环境迭代反馈中，学习和利用历史负载均衡的车辆接入时空经验，从而在动态环境中持续获得能保证网络负载均衡的车辆接入基站分配方案。

Description

一种基于历史强化学习的车联网负载均衡接入方法

技术领域

本发明涉及车联网网络负载均衡技术领域，尤其涉及一种基于历史强化学习的车联网负载均衡接入方法。

背景技术

随着车联网的发展，越来越多的车辆在网络中需要接入异构基站，这些异构基站在发射功率、物理尺寸和建设成本上均有不同。在一个城市中，这些接入需求有很大差异，如在交通密集区域，车辆接入基站的需求比交通稀疏区域的需求要大很多。在传统的最大SINR(Signal to Interference plus Noise Ratio)方案下，功率较强的基站可以吸引更多的车辆接入，即使在交通密集区域部署了很多功率低的基站，大多数车辆仍然从功率较强基站接收到强的下行链路信号，这便会导致功率较强的基站负载过重，而功率较小的基站基本空闲。同样对于车辆而言，即使他们接入功率较强的基站，所能得到的服务速率也会很差，因为强基站服务了太多的接入车辆。因此，车联网需要一个负载均衡的接入方法。

但是，目前流行的优化技术，如梯度下降、拉格朗日乘子法等只适用于移动用户流量稳定的场景下，他们假设信道质量是稳定的，这些方法通常采用均匀泊松点过程(PPP)对系统中的用户，即车辆，的位置进行建模。PPP模型的确简化了系统分析，然而，在许多情况下，均匀PPP模型是不现实的。在车联网中，车流量变化是不稳定，以上的不合理假设将导致无效的车辆接入，负载不均衡。即使将他们应用于未知的动态环境，缺少来自环境的反馈信号将导致梯度下降失去正确的方向。此外，一旦网络场景改变，这些方法必须在整个网络中重新运行，导致高成本开销。

面向异构基站、未知复杂的车联网环境、车辆高动态性变化的情况，现有的车联网接入方法无法保证车辆接入基站时网络的负载均衡。

发明内容

本发明要解决的技术问题是面向异构基站、未知复杂的车联网环境、车辆高动态性变化的情况，如何保证车辆接入基站时网络的负载均衡。

为了解决上述技术问题，本发明的技术方案是提供一种基于历史强化学习的车联网负载均衡接入方法，其特征在于步骤为：

步骤1：首先，通过初始强化学习模块获得车辆的接入基站分配模式，所述接入基站分配模式随着时间推移，作为经验，不断的积累于每个基站的接入模式积累库中；

步骤2：经过设定时间的学习积累，令历史强化学习模块代替初始强化学习模块持续在系统中驻留运行，当基站再次遇到网络变化时，历史强化学习模块调用所述接入模式积累库中的历史记录，自适应地学习出新的车辆接入分配模式；

步骤3：新的车辆接入分配模式在每个基站的接入模式积累库中再次被记录，形成一个自适应处理网络动态变化的运行环，从而在动态变化的车联网环境中，保证车辆接入的网络负载均衡。

优选地，所述初始强化学习模块，在系统运行一开始，通过基于价格和奖励的动态迭代调整网络负载均衡，得出接入基站分配模式。

优选地，所述历史强化学习模块，在初始强化学习模块运行设定时间并有经验积累后，直接利用积累的历史经验，学习相似性，发掘接入特征，并按接入特征学得匹配的车辆接入分配模式。

优选地，所述初始强化学习模块依据资源供求差来计算接入基站的价格，并以此来得出决策值；通过与环境的不断交互、学习、接收奖励反馈，来强化迭代出合适的接入决策；并以车辆号、基站号、供求价格、接入标识符、接入车辆的可达速率来存储接入决策。

优选地，所述初始强化学习模块的具体流程如下：

步骤1：定义基站的编号/标号为j，车辆的编号/标号为i；每个基站j，根据当前其所能提供的资源K_j(t)和需要接入基站的车辆所需求的资源D_j(t)，计算出每个基站当前的价格μ_j(t)＝D_j(t)-K_j(t)；

步骤2：每个基站计算一个决策值d_ij(t)，决策值为当前车辆i连接基站j的可达速率c_ij(t)与价格μ_j(t)的差值；每个基站将决策值广播至所有车辆；

步骤3：每辆车选择最佳决策值argmax_jd_ij(t)，即选出一个基站，并把该拟接入的决定通知该基站；

步骤4：基于步骤3，每个基站可收集到想与之接入的车辆集合，由此计算该基站所能获得的即刻奖励r_j(t)，即刻奖励定义为：所有用户的服务速率与平均服务速率偏差的倒数；

步骤5：根据步骤4，每个基站计算长期平均累计奖励反馈Q_j(t)；

步骤6：每个基站调整价格值，调整依据如下：

如果当前基站j的即刻奖励r_j(t)高于所有基站的平均即刻奖励，那么保持价格不变，即μ_j(t+1)＝μ_j(t)；

否则，如果该基站所能提供的平均整体服务速率高于网络平均水平，则降低价格值为μ_j(t+1)＝(1-δ(t))·μ_j(t)；其中，δ(t)∈[0，1)是一个动态步长；如果该基站所能提供的平均整体服务速率低于网络平均水平，则将价格值增加为μ_j(t+1)＝(1+δ(t))·μ_j(t)；

步骤7：当|Q_j(t)-Q_j(t-1)|＜∈，∈为设定的阈值，即完成收敛，迭代结束；基站根据在步骤4中所获得的想与之接入的车辆，向这些车辆发出接入许可的通知；否则，回到步骤1继续迭代直至收敛。

优选地，所述历史强化学习模块中，每个基站具有一组历史记录p的集合，对于当前情况p’，即车辆当前可达速率、基站当前价格，计算其和每个历史记录p之间的相似性；如果最大相似性低于阈值，便转向初始强化学习的阶段，这意味着历史经验不具备能力来解决当前的接入问题；否则，发掘接入特征，按接入特征进行相似匹配接入，强化学习出与当前情况最相似的历史记录，然后依据此历史记录进行车辆接入分配。

优选地，计算当前情况p’和历史记录p之间的相似性时，定义当前情况p’与历史记录p之间的相似度为：在一定价格分布下，可达速率c_ij的分布接近度；

对于基站，首先，使用Pearson距离来计算可达速率c_ij在历史记录p和当前情况p’之间的分布相似度；然后，使用Kullback-Leibler距离来计算历史记录p和当前情况p’在需求比率和价格比率之间的分布相似度；最终，给Pearson距离和Kullback-Leibler距离分别设置相应的权重α和β，从而求和算出最终相似度结果。

优选地，所述发掘接入特征、按接入特征进行相似匹配接入的方法为：

首先，根据历史价格下分配的接入车辆数目，使用按比例原则，得出当前基站供求价格下，可允许接入车辆的数目；

其次，

如果目前可允许接入车辆的数目小于相似的历史分配的接入车辆数目，则使用二分逼近法来找出历史接入特征，并按特征进行相似的匹配接入；

否则，若目前可允许接入车辆的数目大于相似的历史分配的接入车辆数目，那么使用多点扩散法来依据历史、按特征进行相似的匹配接入。

优选地，所述使用二分逼近法来找出历史接入特征，并按特征进行相似的匹配接入的具体过程为：二分逼近法不断划分排序后的历史可达速率向量，找到历史接入车辆的特征分布，使用与历史记录相同的特征分布，来在排序后的当前可达速率向量中，挑选出接入车辆。

优选地，所述使用多点扩散法来找出历史接入特征，并按特征进行相似的匹配接入的具体过程为：使用多点扩散法在历史接入车辆数量的基础上扩大当前允许接入车辆的数量，并找到合适的允许接入的车辆；首先，从当前情况p’中选择与历史记录p相等数量，且当前车辆对基站可达速率排序位置与历史可达速率排序位置相同的车辆；将这些被选车辆对应的当前可达速率向量中的元素看作基准点，在当前可达速率向量中依次选择与这些基准点最近的非零元素，直到选完可允许接入车辆的数目为止。

本发明利用交通流的时空分布潜在规律性，从与环境迭代反馈中，学习和利用历史负载均衡的车辆接入时空经验，从而在动态环境中持续获得能保证网络负载均衡的车辆接入基站分配方案。本发明设计了初始强化学习和历史强化学习相结合的系统架构，能够保证在快速收敛的前提下，应对网络动态变化，能够在异构基站、未知、复杂、动态的车联网环境中保证车辆接入的网络负载均衡，提高车辆所能获得的服务速率，给用户以良好的网络服务体验。

附图说明

图1为本实施例提供的基于历史强化学习的车联网负载均衡接入方法整体系统架构图；

图2为初始强化学习模块流程图；

图3为历史强化学习模块流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。

强化学习关注的是一个智能体，即基站，如何在环境中采取一系列行动，从而获得最大的累积回报。试错和延迟奖励是强化学习十分显著的两个特点。通过持续与未知环境交互，一个智能体应知道在什么状态下应该采取什么行动。

本实施例提供的基于历史强化学习的车联网负载均衡接入方法由初始强化学习模块、历史强化学习模块两大个部分组成，如图1所示。

在图1所述的系统架构中，首先通过初始强化学习模块获得车辆的接入基站分配模式。这些接入基站分配模式随着时间推移，作为经验，不断的积累于每个基站上。经过一段时间的学习积累，当基站再次遇到网络变化时，基站便启动历史强化学习模块，基站可以使用历史记录自适应地学习出新的车辆接入分配模式。之后新获得的接入分配结果将在每个基站中再次记录。本发明令初始化强化学习模块在系统中运行一段时间后，便令历史强化学习模块代替其持续在系统中驻留运行。在图1中，可以看到接入模式积累库、历史强化学习模块、接入决策结果，这三者形成一个自适应处理网络动态变化的环。可以在异构基站、未知、复杂、动态的车联网环境中，保证车辆接入的网络负载均衡。

布置于每个基站上的初始强化学习模块，是负责每个基站接入供求价格的计算、计算决策值并收集拟接入车辆标号、接受当前网络负载反馈、迭代调整决策、发送接入信号给车辆等功能。

布置于每个基站上的历史强化学习模块，是负责每个基站强化学习出当前状态与历史状态的相似性、发掘接入特征、按特征进行相似性匹配接入决策、发送接入信号给车辆等功能。

结合图2，初始强化学习模块中，包含基站接入供求价格的计算(具体见下文步骤1)、计算决策值并收集拟接入车辆标号(步骤2-3)、基站接受当前网络负载反馈(步骤4-5)、迭代调整决策(步骤6)、发送接入信号给车辆(步骤7)这五部分功能。其思想是，根据供求状况和网络负载状况(由服务速率反映)，动态调整基站价格，使得价格低的基站可以接收更多车辆的接入，而价格高的基站则减少车辆的接入，具体如下：

步骤1：定义基站的编号/标号为j，车辆的编号/标号为i。每个基站j，根据当前其所能提供的资源K_j(t)和需要接入基站的车辆所需求的资源D_j(t)，计算出每个基站当前的价格μ_j(t)＝D_j(t)-K_j(t)。

步骤2：每个基站计算一个决策值d_ij(t)，决策值为当前车辆i连接基站j的可达速率c_ij(t)与价格μ_j(t)的差值。每个基站将决策值广播至所有车辆。

步骤3：每辆车选择最佳决策值argmax_jd_ij(t)，即选出一个基站，并把该拟接入的决定通知该基站。

步骤4：基于步骤3，每个基站可收集到想与之接入的车辆集合，由此计算该基站所能获得的即刻奖励r_j(t)，即刻奖励定义为：所有用户的服务速率与平均服务速率偏差的倒数。

步骤5：根据步骤4，每个基站计算长期平均累计奖励反馈Q_j(t)。

步骤6：每个基站调整价格值，调整依据如下：

(1)如果当前基站j的即刻奖励r_j(t)高于所有基站的平均即刻奖励，那么保持价格不变，即μ_j(t+1)＝μ_j(t)。

(2)否则，如果该基站所能提供的平均整体服务速率高于网络平均水平，则降低价格值为μ_j(t+1)＝(1-δ(t))·μ_j(t)。其中，δ(t)∈[0，1)是一个动态步长。如果该基站所能提供的平均整体服务速率低于网络平均水平，则将价格值增加为μ_j(t+1)＝(1+δ(t))·μ_j(t)。

步骤7：当|Q_j(t)-Q_j(t-1)|＜∈(∈是一个很小的正数)，即完成收敛，迭代结束。基站根据在步骤4中所获得的想与之接入的车辆，向这些车辆发出接入许可的通知。否则，回到步骤1继续迭代直至收敛。

结合图1，接入模式积累库，其作用是每个基站把车辆接入基站的结果进行记录。基站记录的内容为车辆号、基站号、供求价格、接入标识符(0，1)、接入车辆的可达速率，从而在存储时，形成了接入标识矩阵、可达速率矩阵。

结合图3，历史强化学习模块中，包含学习相似性、发掘接入特征、按特征进行相似性匹配接入决策、发送接入信号给车辆这四部分功能。具体的，在基于历史的强化学习模块中，每个基站具有一组历史记录集合P。对于当前情况p’，即车辆当前可达速率、基站当前价格，计算其和每个历史记录p之间的相似性。如果最大相似性低于阈值，那么便转向初始强化学习的阶段，这意味着历史经验不具备能力来解决当前的接入问题。否则，通过ε贪婪方法强化学习出与当前状况相似的历史接入记录，随后依据此历史记录进行车辆接入分配。

1)对于计算相似性的功能，本发明定义当前情况p’与历史记录p之间的相似度为，在一定价格分布下，可达速率c_ij的分布接近度。对于基站，首先使用Pearson距离，来计算可达速率c_ij在历史记录p和当前情况p’之间的分布相似度。Pearson距离可以用于测算不同的数量级或评估标准的相似度。然后，使用Kullback-Leibler距离来计算历史记录p和当前情况p’在需求比率和价格比率之间的分布相似度。Kullback-Leibler距离是用于测量两个分布之间的相似度。最终，给Pearson距离和Kullback-Leibler距离分别设置相应的权重α和β，α＝β＝0.5，从而求和算出最终相似度结果。

2)对于发掘接入特征、按特征进行相似匹配接入的功能，首先根据历史价格下分配的接入车辆数目，使用按比例原则，得出当前基站供求价格下，可允许接入车辆的数目。其次，如果目前可允许接入车辆的数目小于相似的历史分配的接入车辆数目，则使用二分逼近法来找出历史接入特征，并按特征进行相似的匹配接入。否则，若目前可允许接入车辆的数目大于相似的历史分配的接入车辆数目，那么使用多点扩散法来依据历史，按特征进行相似的匹配接入。

其中，对于前者，二分逼近法不断划分排序后的历史可达速率向量，找到历史接入车辆的特征分布，使用与历史记录相同的特征分布，来在排序后的当前可达速率向量中，挑选出接入车辆。

其中，对于后者，使用多点扩散法在历史接入车辆数量的基础上扩大当前允许接入车辆的数量，并找到合适的允许接入的车辆。首先，从当前情况p’中选择与历史记录p相等数量，且当前车辆对基站可达速率排序位置与历史可达速率排序位置相同的车辆，这也遵循着按照历史接入车辆的分布特征来在当前情况下选择可允许接入车辆的选择准则。将这些被选车辆对应的当前可达速率向量中的元素看作基准点，在向量中依次选择与这些基准点最近的非零元素，直到选完可允许接入车辆的数目为止。

试验表明，本发明提供的方法能够在异构基站、未知、复杂、动态的车联网环境中保证车辆接入的网络负载均衡，提高车辆所能获得的服务速率，给用户以良好的网络服务体验。

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

Claims

1.一种基于历史强化学习的车联网负载均衡接入方法，其特征在于，步骤为：

2.如权利要求1所述的一种基于历史强化学习的车联网负载均衡接入方法，其特征在于：所述初始强化学习模块，在系统运行一开始，通过基于价格和奖励的动态迭代调整网络负载均衡，得出接入基站分配模式。

3.如权利要求1所述的一种基于历史强化学习的车联网负载均衡接入方法，其特征在于：所述历史强化学习模块，在初始强化学习模块运行设定时间并有经验积累后，直接利用积累的历史经验，学习相似性，发掘接入特征，并按接入特征学得匹配的车辆接入分配模式。

4.如权利要求2所述的一种基于历史强化学习的车联网负载均衡接入方法，其特征在于：所述初始强化学习模块依据资源供求差来计算接入基站的价格，并以此来得出决策值；通过与环境的不断交互、学习、接收奖励反馈，来强化迭代出合适的接入决策；并以车辆号、基站号、供求价格、接入标识符、接入车辆的可达速率来存储接入决策。

5.如权利要求4所述的一种基于历史强化学习的车联网负载均衡接入方法，其特征在于：所述初始强化学习模块的具体流程如下：

步骤6：每个基站调整价格值，调整依据如下：

6.如权利要求3所述的一种基于历史强化学习的车联网负载均衡接入方法，其特征在于：所述历史强化学习模块中，每个基站具有一组历史记录p的集合，对于当前情况p’，即车辆当前可达速率、基站当前价格，计算其和每个历史记录p之间的相似性；如果最大相似性低于阈值，便转向初始强化学习的阶段，这意味着历史经验不具备能力来解决当前的接入问题；否则，发掘接入特征，按接入特征进行相似匹配接入，强化学习出与当前情况最相似的历史记录，然后依据此历史记录进行车辆接入分配。

7.如权利要求6所述的一种基于历史强化学习的车联网负载均衡接入方法，其特征在于：计算当前情况p’和历史记录p之间的相似性时，定义当前情况p’与历史记录p之间的相似度为：在一定价格分布下，可达速率c_ij的分布接近度；

8.如权利要求6所述的一种基于历史强化学习的车联网负载均衡接入方法，其特征在于：所述发掘接入特征、按接入特征进行相似匹配接入的方法为：

其次，

9.如权利要求8所述的一种基于历史强化学习的车联网负载均衡接入方法，其特征在于：所述使用二分逼近法来找出历史接入特征，并按特征进行相似的匹配接入的具体过程为：二分逼近法不断划分排序后的历史可达速率向量，找到历史接入车辆的特征分布，使用与历史记录相同的特征分布，来在排序后的当前可达速率向量中，挑选出接入车辆。

10.如权利要求8所述的一种基于历史强化学习的车联网负载均衡接入方法，其特征在于：所述使用多点扩散法来依据历史、按特征进行相似的匹配接入的具体过程为：使用多点扩散法在历史接入车辆数量的基础上扩大当前允许接入车辆的数量，并找到合适的允许接入的车辆；首先，从当前情况p’中选择与历史记录p相等数量，且当前车辆对基站可达速率排序位置与历史可达速率排序位置相同的车辆；将这些被选车辆对应的当前可达速率向量中的元素看作基准点，在当前可达速率向量中依次选择与这些基准点最近的非零元素，直到选完可允许接入车辆的数目为止。