CN109451462A

CN109451462A - 一种基于半马尔科夫链的车载网络频谱资源分配方法

Info

Publication number: CN109451462A
Application number: CN201811367528.7A
Authority: CN
Inventors: 肖竹; 倪雪纯; 曾凡仔; 蒋洪波; 王东
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-03-08
Anticipated expiration: 2038-11-16
Also published as: CN109451462B

Abstract

本发明公开了一种基于半马尔科夫链的车载网络频谱资源分配方法，其提出一种基于激励机制频谱复用策略，以鼓励宏用户与车辆用户共享可用频谱资源。其中路边单元配备有认知设备，可以感知到周围环境中未被使用的空闲频段，并针对宏用户和车辆用户之间动态频谱接入策略，建立了半马尔科夫链模型，同时利用数值迭代算法求解最优策略。本发明所述方法可以更加充分利用空闲的频谱资源，同时使得系统长期收益回报最大。

Description

一种基于半马尔科夫链的车载网络频谱资源分配方法

技术领域

本发明属于车载网络技术领域，具体涉及一种基于半马尔科夫链的车载网络频谱资源分配方法。

背景技术

目前，在车载网络中，依然存在许多通信技术上的问题亟待解决。首先，是如何解决车载环境中频谱资源短缺的问题。为满足人们对于车辆通信、娱乐等方面的需求，需要将一定的频谱的资源分配给车载网络，为车辆提供相关的车载服务。尽管美国联邦通信委员会(Federal Communications Commission，FCC)已经将5.9GHz频带中的75MHz带宽分配给的专用短程通(Dedicated Short Range Communications，DSRC)使用，以支持V2I(车辆到基础设施通信)和V2V(车辆到车辆通信)，随着车辆的需求日益增加，目前有限的频谱资源已经无法满足通信设备对于通信服务的巨大需求。频谱资源短缺的情况督促人们继续探索新的可用频谱资源，包括授权频段和非授权段在内的频谱资源，并且有效地提高频谱在车载网络中的利用率。

目前的无线网络采用固定频谱分配机制，其中包括授权频段(LFB)和非授权频段(UFB)。频谱资源匮乏现象日益突出，授权频段的使用变得越来越紧张，承受着不可避免的干扰。另外，频谱资源利用率太低，在一定程度上也造成这种结果，比如说在一定区域内，有大量的无线频段没有被充分的利用。为此，提出了各种可行的解决方案，例如通过采用先进的无线通信理论和技术，例如链路自适应技术、多天线技术等可以提高频谱效率，频分复用和蜂窝小区等传统技术。这些传统的方案能够在一定程度上能够缓解频谱危机，但是研究表明造成频谱短缺的主要原因不是物理频谱不足，而是频谱管理和分配制度不合理。为了解决这个问题，近年来有人提出将认知无线电技术(Cognitive Radio，CR)引入车载网络中，CR技术能够感知在特定时间以及特定地点不同频段中未被占用或者未充分利用的无线频谱，以此来拓宽可用的带宽，其中包括具有更好传播特性的超高频电视频段。

将认知无线电技术应用于异构车载网络中，可以为车辆提供额外的可用频谱资源。在具有认知功能的车载网络中，相关通信设备拥有认知的功能。通过CR技术，车载网络中具有检测功能的设备可以感知周围环境中存在的空闲频谱，再将其反馈给MBS，车载网络中的车辆可以临时使用未被占用的授权频段来扩展其带宽，而不会干扰授权用户。这样，拥有认知功能的异构车载网络结构不仅可以减轻宏蜂窝基站的通信负担，可以在高用户密度的情况下提高吞吐量并支持更多的用户接入，同时还能通过获取空闲频谱资源为频谱短缺的问题提供一种有效的解决方法。然而基于认知无线电技术检测的空闲频谱如何对用户请求作出决策是下一步需要考虑的。

现有的分配方法包括完全共享方案(Complete Sharing，CS)和预留频谱方案(Reserved Spectrum，RS)，其中，CS中的MBS不区分用户请求类型，当用户发出通信服务请求时，系统MBS将根据此时的可用频谱资源作出决策。因此该方案只有当车载网络环境中可用频谱资源已经分配完毕的时候，MBS才会拒绝用户的服务请求，但是也将导致每当频谱资源不足时，宏用户和车辆用户的通信服务请求就均难以满足，因此CS前期不拒绝用户请求也导致较容易就出现频谱资源不足的情况，不利于系统的稳定运行；RS则将预留一部分的带宽供宏用户使用，保证宏用户的通信，而该频段车辆是无权接入，但是车载网络具有随机性和高动态性，实际上宏用户也是实时动态变化的，因此RS的预留方式无法动态适应网络同时其优先宏用户一定程度上无法满足车辆通信需求，未能充分利用空闲频谱资源。

发明内容

针对上述现有技术的问题，本发明的目的是提供一种基于半马尔科夫链的车载网络频谱资源分配方法，其区分业务类型，根据业务类型分别进行处理，以及根据当前系统状态对当前的请求进行决策，其决策结果与当前系统状况更加吻合，进而实时有效控制接入MBS的用户数量，避免较快出现CS中频谱资源不足时无法满足用户需求的极端情况，系统更加稳定，同时相较于RS方式也更适用于车载动态网络，更能充分利用空闲频谱资源。其中，对当前请求作出决策具体是引入半马尔科夫链决策模型构建出一个兼顾宏基站和用户整体回报的移动变化系统资源收益决策，不仅考虑当前的系统收益回报，更考虑到系统长期收益回报，以最大化系统长期收益回报为目标来作出决策，在尽可能接纳新用户的请求下使得系统长期收益最大，从而达到总体的服务质量良好以及得到更优的决策结果。通过仿真也验证了本发明可以有效提高频谱利用率，并在用户阻塞的情况下，有效地控制用户接入，满足用户的通信需求。

本发明提供的一种基于半马尔科夫链的车载网络频谱资源分配方法，包括如下步骤：

S1：每个宏基站管辖范围内的每个路边单元利用认知无线电技术实时检测空闲频谱，并将检测结果反馈给对应的宏基站；

S2：若宏基站监测到管辖范围内车辆用户或宏用户的业务事件，则获取宏基站的当前系统状态；

宏基站的当前系统状态s表示为：s＝<N_m,N_v,e>，e∈{A_m,A_v,D_m,D_v}，其中，N_m为当前接入所述宏基站的宏用户数量，N_v表示当前接入所述宏基站的车辆用户的数量，e表示当前监测的业务服务事件，A_m、D_m分别表示宏用户请求接入业务、脱离业务；A_v、D_v分别表示车辆请求接入业务、脱离业务；

S3：获取宏基站当前监测到的业务服务事件对应可选择的行为决策，所述业务服务事件与相匹配的行为决策对应关系如下：

式中，a表示宏基站当前系统状态对应的行为决策，a为0表示拒绝接入业务请求，a为1表示同意接入业务请求，a为-1表示宏用户或车辆脱离宏基站的管辖；

其中，若行为决策a等于0或者1，则执行步骤S4；若行为决策a等于-1，则更新宏基站的当前频谱资源并返回步骤1，更新如下：

若e＝D_m，则N_m＝N_m-1；

若e＝D_v，N_v＝N_v-1；

S4：基于半马尔科夫决策过程计算可选择的不同行为决策下的下一系统状态的收益回报，然后再基于半马尔科夫链决策模型中收益模型计算可选择的在不同行为决策下的系统长期收益回报并得到最大系统长期收益回报；

w＝λ_m+λ_v+N_a(u_m+u_v)

式中，表示最大系统长期收益回报，表示当前系统状态s在行为决策a下的回报函数变换式，表示在选择行为策略a时当前系统状态s到下一系统状态s₁的状态转移概率p(s₁|s,a)的变换式，表示下一系统状态s₁的收益回报，λ_m、λ_v分别为宏用户和车辆的服务请求遵循的到达率；u_m、u_v分别为宏用户和车辆平均服务时间的倒数，α为折扣因子，S表示系统状态，N_a为宏基站当前时刻允许使用的频谱总数；

S5：根据最大系统长期收益回报对应的行为决策做出决策，其中，若决策为同意接入业务请求，宏基站根据空闲频谱分配可信通道给对应宏用户或车辆。

进一步优选，S4中计算可选择的不同行为决策下的下一系统状态的收益回报的过程如下：

a：从可选择的行为决策中选择一类行为决策，以及初始化迭代次数i＝0，并设置初始化收益回报

b：基于当前系统状态以及行为决策依据如下每类业务服务事件的收益回报公式计算出收益回报再计算的绝对值并判断是否大于预设阈值ε，若大于，i＝i+1，并重复步骤b；若小于或等于，则跳出循环，执行步骤c；

c：将迭代过程中计算出的收益回报均作为步骤a中选择的一类行为决策下的下一个状态的收益回报的取值，1≤j≤i；

其中，每类业务服务事件的收益回报公式如下：

当e∈{D_m}时，下一个迭代的收益回报

其中，β(s,a)为在当前系统状态s下采取行为决策a后所有可能发生的事件总的变化率，c(s,a)是当前系统状态s下采取行为决策a时的预期系统成本；μ_m、μ_v分别为宏用户和车辆的服务率；

当e∈{D_v}时，下一个迭代的收益回报

当e＝{A_m}时，下一个迭代的收益回报

当e＝{A_v}时，下一个迭代的收益回报

进一步优选，表示当前系统状态s在行为决策a下的回报函数变换式的公式如下：

式中，β(s,a)为在当前系统状态s下采取行为决策a后所有可能发生的事件总的变化率；其中，r'(s,a)为的当前系统状态s在行为决策a下的预期折扣回报，其公式如下：

式中，k(s,a)表示在当前系统状态s下选择行为决策a获得的总体收益，其表示为如下：

式中，E_m和E_v分别为接收宏用户和车辆请求接入的收益。

进一步优选，在选择行为策略a时当前系统状态s到下一系统状态s₁的状态转移概率的变换式与状态转移概率p(s₁|s,a)的关系如下：

式中，β(s,a)为在当前系统状态s下采取行为决策a后所有可能发生的事件总的变化率，其中，状态转移概率p(s₁|s,a)的计算公式如下：

当系统状态为s＝<N_m,N_v,e>，e＝{A_m,A_v}，且a＝0时，状态转移概率p(s₁|(s,a))表示为

当系统状态s＝<N_m,N_v,A_m>，且a＝1时，状态转移概率p(s₁|(s,a))表示为：

当系统状态s＝<N_m,N_v,A_v>，且a＝1时，状态转移概率p(s₁|(s,a))表示为：

进一步优选，在当前系统状态s下采取行为决策a后所有可能发生的事件总的变化率β(s,a)的公式如下：

式中，τ(s,a)表示两个连续的决策之间的期望时间间隔。

进一步优选，每个宏基站当前时刻允许使用的频谱总数N_a满足：N_a＝ρN_W，0＜ρ＜1，ρ为感知精度，N_W为宏基站管辖范围内所有路边单元感知的可用频谱总数。

进一步优选，所述频谱资源为正交频分多址的资源块，在同一路边单元覆盖范围内的两个或以上车辆不能同时使用同一个资源块，不同路边单元覆盖范围内的两个或以上车辆能同时使用同一资源块。

有益效果

1、本发明针对车辆用户、宏用户及其行为进行了区分，引入半马尔科夫决策算法，针对车辆用户、宏用户的请求分别进行相关计算，实时对车辆用户、宏用户的接入请求进行决策判断并以最大系统收益为目标，实时有效控制接入MBS的数量，避免出现CS中频谱资源不足时无法满足用户需求的情况，同时本发明是基于当前系统状态进行决策判断的，因此更适用于动态的车载网络，决策结果是与实际情况更加吻合，可以更加充分利用空闲的频谱资源。

2、针对决策过程，本发明引入半马尔科夫决策算法，策略目标考虑了系统的长期收益，使用了半马尔科夫决策过程的四元组：状态空间、行为空间、状态转移概率和收益函数，从多个角度多个指标来考虑综合得到系统的长期收益，最后依据最大的系统长期收益回报来确定请求是否同意，保证了可以有效地控制车辆的接入，尽可能接纳新用户的请求，满足车载通信服务需求，使得整个车联网系统长期收益最大。因此从收益角度考虑，在车载网络中引入半马尔科夫决策算法相较于引入其他决策算法更佳，譬如博弈论、结合CDMA的网络功率控制、排队论CAC策略、遗传算法等方式，这是由于这些决策算法的接纳控制策略目标设计单一，主要在于宽带、容量或者公平性等性能参数，导致模型获取的收益也仅仅是局部的、单一的，进而达不到总体服务质量良好，无法满足车载网络的需求。

3、马尔科夫决策过程是马尔科夫过程与确定性的动态规划相结合的产物，而车载网络具有随机性和高动态性，对于车辆的交互和服务需要保障实时性，车辆发出请求的决策时刻随机发生在离散分布的时间内，决策时间是随机的，所以马尔科夫决策过程不适用于车载网，而半马尔科夫决策时刻不是确定的，因此其与车载网更加吻合，基于半马尔科夫决策过程推导出了整个车载网控制接入决策策略，降低了决策过程的计算量和复杂度，更能保障通信服务的实时性。

附图说明

图1为本发明整体流程示意图；

图2为两层异构车载网络中的通信链路示意图；

图3为不同车辆到达率下的系统回报示意图；

图4为不同车辆到达率下的阻塞概率示意图；

图5为不同车辆到达率下的频谱利用率示意图；

具体实施方式

下面将结合实施例对本发明做进一步的说明。

随着用户不断的增加，，传统的单一网络负载过大，促使车载网络往异构体方向发展，即异构车载网络HVN(Heterogeneous Vehicular Networks)。HVN是指在原有区域内，增加新型的覆盖范围小的网络，例如路边单元RSU，不同类型的网络相互堆叠，以达到用户卸载、提高系统整体性能等目的。与传统的车载网络相比，异构车载网络结构是技术上一项重大的突破，不仅能够为大规模范围内更多的车辆提供广域覆盖的网络，还支持实时安全信息传输，以实现减少交通事故，并且在多层网络之间可以共享同一频段的资源，同时能够为宏蜂窝网络分担主要通信的服务需求。

如图2所示，本发明提供一种基于半马尔科夫链的车载网络频谱资源分配方法中模型就是一个具有认知功能的两层异构车载网络模型，其包括宏蜂窝(Macrocell)和路边单元(RSU)。为了便于管理，在每个交叉路口部署路边单元，且路边单元都处于宏基站(MBS)的管辖范围之内。该两层异构车载网络模型能够将一部分车载服务卸载到路边单元。那么，在MBS范围内，可实现分区域的对车辆进行管理。除此之外，HVN结构能够有效地实现减轻MBS承担的车载网络用户的无线和移动业务。在具有网格状街道布局的城市场景下,有N_r个RSU处于一个MBS的覆盖范围。部署在道路交叉点附近的路边单元的覆盖半径为R_rsu。为能够有效地提高频谱的利用率，异构车载网络中引入无线电技术，其中RSU具有认知功能。也就是说，RSU能够检测周围环境中的空闲频段。然后，在将检测信息发送给MBS，再由MBS作出决策。长期演进技术(Long Term Evolution，LTE)支持MBS和RSU之间的链路连接和信息变化。

基于上述两层异构车载网络模型，本发明提供的一种基于半马尔科夫链的车载网络频谱资源分配方法的决策过程主要是引入半马尔科夫决策，将其与车载网络相结合，下面将先描述本发明在构建的异构车联网中建立的半马尔科夫链决策模型。如图1所示，本发明建立半马尔科夫链决策模型，主要由以下元组组成：状态空间、行为空间、收益函数和状态转移概率。

1、状态空间：

本发明考虑的是参与请求频谱接入的宏用户和车辆用户，因此将半马尔科夫链决策模型的系统状态定义为每个决策时刻接入的宏用户和车辆数量以及覆盖范围内的业务事件，系统状态S描述为：

S＝{s|s＝<N_m,N_v,e>} (1)

其中，s＝<N_m,N_v,e>表示一个MBS在一个决策时刻的系统状态，N_m表示允许接入的宏用户的数量，N_v表示允许接入MBS的车辆的数量，e表示业务服务事件。

此外，需要关注宏用户和车辆用户的空间分布。用户驶入或者离开MBS的覆盖范围，或者是终止用户的相关服务都会对状态转移造成一定的影响。本发明中A_m、A_v、D_m、D_v分别表示宏用户和车辆的业务服务事件，A_m、D_m分别表示宏用户请求接入业务、脱离业务；A_v、D_v分别表示车辆请求接入业务、脱离业务，因此任何业务服务事件e都可以用集合e∈{A_m,A_v,D_m,D_v}来表示系统业务服务事件的状态。因此，任意一个宏基站监测到管辖范围内的车辆或宏用户的业务事件时，其宏基站的当前系统状态均可表示为：s＝<N_m,N_v,e>，e∈{A_m,A_v,D_m,D_v}。

2、行为空间：

一旦MBS收到车辆或宏用户发出的服务请求时，有两个行为可以被选择，接受接入请求或者拒绝接入请求。MBS将根据当前系统状态s采取相应的行为a∈{0,1}。a＝1表示接受接入，a＝0表示拒绝接入。

当e＝{A_m}时，表示一个宏用户向MBS发起一个服务请求。如果MBS接受宏用户的请求，那么a＝1；否则，a＝0。当e＝{A_v}时，表示车辆驶入MBS覆盖范围内，同时向MBS发送服务请求。如果此时MBS检测到有空闲频谱可用，那么MBS将允许车辆接入，实施行为a＝1；否则，表示为a＝0。当e＝{D_m}时，表示宏用户的请求的业务已经完成或者离开MBS覆盖范围时。当e＝{D_v}时，表示移动用户已经离开MBS的覆盖范围进入另外一个区域或者MBS完成车辆的通信服务时。e＝{D_m}和e＝{D_v}两种情况下，MBS将不会再为其提供任何通信服务请求，并且释放该车所占用的频谱资源。如果用户有服务请求，将需要向目前所处的范围内的MBS发出接入请求。此时，原先所在的MBS中所服务的用户数量将会减少一个，被该用户所占用的频谱资源也将变为空闲频谱资源，可以被其他驶入该MBS范围内其他用户所使用，当前可用频谱资源变化将对整个MBS的服务率和服务的用户数量产生影响。此时MBS只需要更新MBS中可用频谱的状态信息，不会实施任何行为，a＝-1。更新如下：

若e＝D_m，则N_m＝N_m-1；

若e＝D_v，N_v＝N_v-1。

需要说明的是，车辆的流动性远高于宏用户，因此区分业务类型并更新空闲频谱空间是很有必要的。

3、状态转移概率

系统处于状态s到下一个系统状态s₁之间的连续时间段间隔服从指数分布。给定当前状态s并且选择行为决策a，那么两个连续的决策之间的期望时间间隔用为τ(s,a)。因此，在半马尔可夫决策过程中，β(s,a)表示在系统状态s下通过采取行为决策a后所有可能发生的事件总的变化率。β(s,a)可表示为：

其中，μ_m,μ_v分别表示对于宏用户和车辆的服务率，λ_m、λ_v分别为宏用户和车辆的服务请求遵循的到达率，其中，由于城市环境的不断变化和车辆的快速移动，本发明应用泊松过程来刻画异构车载网络中用户的位置分布行为。定义宏用户服务请求遵循到达率为λ_m的泊松过程，车辆的服务请求也服从到达率为λ_v的泊松过程，宏用户的服务时间是1/u_m，而车辆平均服务时间为1/u_v。

进一步考虑到相比于宏蜂窝区用户，车辆具有更高的移动性。因此在一定的时间内，MBS内的车辆的位置和数量都将产生变化。由于车辆行驶轨迹会对宏用户和车辆之间频谱资源分配产生一定的影响，因此需要进一步分析车辆在MBS覆盖范围内的行驶时间。本发明假定车辆在距离为d_s的两交叉路口之间的路段上以速度v(其行驶的速度是遵循机动车城市行驶速度的相关规定)行驶在城市道路上，其行驶的时间是t_s。车辆在交叉路口之间的路段行驶的时间t_s服从参数为v/d_s的指数分布

考虑到异构车载网络是一个动态系统，在任意一个决策时间段的系统状态以及做出的决策是变化的。对于任意时刻的系统状态s，可能的采取的行为集合a是有限的。由马尔可夫属性可知，如果处于系统状态s下在决策时刻选择行为a，那么下一个决策时间段的系统状态只取决于目前的系统状态和随后选择的行为a，而独立于系统之前的系统状态以及其决策。因此，可以得到在选择行为a时从状态s转移到状态s₁的转移概率p(s₁|(s,a))。

当系统状态为s＝<N_m,N_v,e>，e＝{A_m,A_v}，且a＝0时，那么p(s₁|(s,a))可表示为：

当系统状态s＝<N_m,N_v,A_m>，且a＝1时，那么p(s₁|(s,a))可表示为：

当系统状态s＝<N_m,N_v,A_v>，且a＝1时，那么p(s₁|(s,a))可表示为：

4、收益函数

基于系统状态和采取的相关行为，系统会得到一定的收益。回报函数取决于当前系统状态下选出的策略。根据系统的状态和对应的行为，可以预估一个异构车载网络中采取行为之后获得的收益，在系统处于状态s并采取行为a时，回报函数r(s,a)可表示为：

r(s,a)＝k(s,a)-c(s,a) (7)

其中k(s,a)表示在系统状态s下选择行为决策a获得的总体收益，其可表示为：

其中E_m和E_v分别为接收宏用户和车辆请求接入的收益。而c(s,a)是系统处于状态s并采取行为a时的预期系统成本，c(s,a)可以由所占频谱数量确定，即可表示为：

c(s,a)＝-(N_v+N_m) (9)

在公式(7)提供的回报函数的基础上推导得到折扣回报模型，在τ(s,a)期间，预期折扣回报r'(s,a)为：

其中，α为折扣因子。因此，根据状态转移概率和回报函数,可以得到最大长期折扣回报：

其中，p(s₁|s,a)表示在系统状态s下选择行为决策a后，系统转移到状态j的状态转移概率，v(s₁)表示状态s₁的长期回报。

为实现统一的预期回报，引入参数w＝λ_m+λ_v+N_a(u_m+u_v)，有

那么经过归一化处理后，回报函数可表示为

根据公式(11)、公式(12)和公式(13)，系统长期收益回报(最大长期回报)可表示为:

其中，而A_s为可选的行为决策集合。基于公式(14)可以得到可选的不同行为决策下系统长期收益回报，其中，公式(14)中表示下一系统状态s₁的收益回报是依据下述公式迭代运算得到：

当e∈{D_m}时，下一个迭代的收益回报

当e∈{D_v}时，下一个迭代的收益回报

当e＝{A_m}时，下一个迭代的收益回报

当e＝{A_v}时，下一个迭代的收益回报

其中i为迭代次数。因本发明提出的SMDP模型的状态和行为空间是有限的，所以，本发明应用数值迭代算法对此进行求解，算法具体实现步骤如下：

b：基于当前系统状态以及行为决策依据如下每类业务服务事件的收益回报公式(公式(15)-公式(18))计算出收益回报再计算的绝对值并判断是否大于预设阈值ε，若大于，i＝i+1，并重复步骤b；若小于或等于，则跳出循环，执行步骤c；

譬如，当前系统状态为S＝{N_m,N_v,A_v}表示有一车辆请求接入，可知其可选择的行为策略a∈{0,1}，若针对行为策略a＝0，迭代了3次，第4次则不满足循环条件时，即得到了行为策略a＝0的若针对行为策略a＝1，迭代了2次，第3次则不满足循环条件时，即得到了行为策略a＝1的即到的5个下一状态的收益回报，将其分别代入公式(14)计算出系统长期收益回报，并从中选择出最大系统长期收益回报。即本发明提出的半马尔科夫链决策模型的决策过程SMDP是从可选的不同行为决策下的系统长期收益回报中选择出最大的系统长期收益回报，根据选择出的最大的系统长期收益回报来确定行为决策。即根据公式选择出使得折扣回报最大的行为作为此时决策时刻的策略。系统将获得相应的行为策略并做出响应。

基于上述描述的本发明构建的异构车联网中建立的半马尔科夫链决策模型，将其用于频谱资源分配中，本发明提供的一种基于半马尔科夫链的车载网络频谱资源分配方法，包括如下步骤：

S1：每个宏基站管辖范围内的每个路边单元利用认知无线电技术实时检测空闲频谱，并将检测结果反馈给对应的宏基站。

其中，虽然目前有很多的方法致力于提高认知无线电技术感知的精确度，但是不可避免的缺点依然存在，例如恶意节点。因此，本发明通过RSU感知得到的空闲频谱并不会全部用于MBS范围内设备的通信业务。假定MBS范围内所有的RSUs感知得到的可用频谱总数为N_W，其中感知精确度设定为ρ(0＜ρ＜1)。对于一个MBS范围内的车辆用户和宏区用户来说，只有N_a个可用频谱，N_a＝ρN_W。

S2：若宏基站监测到管辖范围内车辆或宏用户的业务事件，则获取宏基站的当前系统状态。

宏基站的当前系统状态s表示为：s＝<N_m,N_v,e>，e∈{A_m,A_v,D_m,D_v}。

S3：获取宏基站当前监测到的业务服务事件对应可选择的行为决策。

若e∈{A_m,A_v}，对应可选择的行为决策a∈{0,1}；若e∈{D_m,D_v}，，对应可选择的行为决策a为-1。

其中，若行为决策a等于0或者1，则执行步骤S4；若行为决策a等于-1，则更新宏基站的当前频谱资源并返回步骤1；

S4：基于半马尔科夫决策过程计算可选择的不同行为决策下的下一系统状态的收益回报，然后再基于半马尔科夫链决策模型中收益模型计算可选择的在不同行为决策下的系统长期收益回报并得到最大系统长期收益回报。

基于原则选择出行为决策。简述而言，MBS收到接入请求后，基于本发明提供的半马尔科夫决策过程再根据当前的系统状态选择出回报最大的行为，即允许接入或拒绝接入。

其中，当接受移动用户的请求时，分析空洞，估计频谱参数，根据当前请求业务的Qos的需求，决定数据速率、可接受的错误率、时延上限、等重要参数，结合已有的频谱资源，为移动用户选择最佳的可用信道提供服务。当移动用户工作在授权频段时，RSUs需要检测授权用户的出现，授权用户出现时腾空信道，或者当前信道状态变得很差时，需要通过频谱切换跳转到另一个信道上继续通信。

本发明提供的半马尔科夫模型是动态频谱接入(Dynamic Spectrum Access,DSA)半马尔科夫模型，频谱资源是正交频分多址的资源块(Resource Block，RB)。此外，与传统的固定发射功率的情况相比，为了减少相邻频谱和信道共享的干扰，提高能量效率，本发明考虑动态调整发射功率。

为了验证本发明，本发明仿真场景为城市地区异构车载网络。假定在一个MBS范围内有可用频谱资源块为N_a。宏用户的到达率λ_m和服务率μ_m分别为2,3。车辆的服务率μ_v设置为2。E_v和E_m设置为3和2。折扣因子α＝0.1和精确度ε＝10^-3。迭代次数为10次。

为了评估本发明的性能，将本发明与CS和RS技术进行了比对。如图3所示，图3给出了不同车辆到达率下的系统回报的变化情况，随着车辆到达率不断地增大，系统回报趋于减少。当用户服务请求已经趋近系统容量的时候，那么将导致更多的服务请求将不被MBS接受，这样，系统回报也将减少。与其它两种方案相比，SMDP能够增加接入MBS车辆比例。因为，CS是尽可能满足用户的服务请求，但也会造成当可用频谱资源不足时，用户的通信服务请求也难以得到满足。而RS则是优先考虑宏用户的通信。本发明提出的解决方案可以区分业务类型，并且其不仅考虑当前的系统回报，更多的关注长期的系统回报。另外，还考察可用频谱资源块为5和6时的系统回报，从图3和4可知，可用频谱资源越多，系统回报也会增加，同时也会满足更多用户的通信。

图4给出不同车辆到达率情况下车辆服务请求阻塞的情况。通过定义车辆阻塞概率来评估本发明的性能。阻塞是当用户到达MBS覆盖范围内的时候，异构车载网络中没有空闲频段可供用户使用。那么，用户的请求将得不到MBS的响应。当有足够的资源提供给用户使用的时，阻塞概率会相应的减少。从仿真结果可知，本发明提出的方案能够很好的控制用户接入MBS数量，满足用户的通信需求。为进一步评估本发明所提方案的性能，本文考察可用频谱资源块为5时频谱资源利用率，频谱资源利用率是用来测量车辆和宏用户使用的频谱资源块数量占系统总的可用频谱资源块数量的比例。

图5给出了不同车辆到达率下的频谱利用率的变化情况，图中显示，频谱资源利用率在车辆到达率比较低的时不高。在MBS所服务的用户数量不多的时，频谱资源未得到充分的利用，也就导致频谱利用率不高。实验结果表明本发明提出的方案更优。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围的情况下，都可利用上述揭示的技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于半马尔科夫链的车载网络频谱资源分配方法，其特征在于：包括如下步骤：

宏基站的当前系统状态s表示为：s＝<N_m,N_v,e>，e∈{A_m,A_v,D_m,D_v}，其中，N_m为当前接入所述宏基站的宏用户数量，N_v表示当前接入所述宏基站的车辆用户的数量，e表示当前监测的业务服务事件，A_m、D_m分别表示宏用户请求接入业务、脱离业务；A_v、D_v分别表示车辆用户请求接入业务、脱离业务；

式中，a表示宏基站当前系统状态对应的行为决策，a为0表示拒绝接入业务请求，a为1表示同意接入业务请求，a为-1表示宏用户或车辆用户脱离宏基站的管辖；

若e＝D_m，则N_m＝N_m-1；

若e＝D_v，N_v＝N_v-1；

w＝λ_m+λ_v+N_a(u_m+u_v)

式中，表示最大系统长期收益回报，表示当前系统状态s在行为决策a下的回报函数变换式，表示在选择行为策略a时当前系统状态s到下一系统状态s₁的状态转移概率p(s₁|s,a)的变换式，表示下一系统状态s₁的收益回报，λ_m、λ_v分别为宏用户和车辆用户的服务请求遵循的到达率；u_m、u_v分别为宏用户和车辆用户平均服务时间的倒数，α为折扣因子，S表示系统状态，N_a为宏基站当前时刻允许使用的频谱总数；

2.根据权利要求1所述的方法，其特征在于：S4中计算可选择的不同行为决策下的下一系统状态的收益回报的过程如下：

其中，每类业务服务事件的收益回报公式如下：

当e∈{D_m}时，下一个迭代的收益回报

当e∈{D_v}时，下一个迭代的收益回报

当e＝{A_m}时，下一个迭代的收益回报

当e＝{A_v}时，下一个迭代的收益回报

3.根据权利要求1所述的方法，其特征在于：表示当前系统状态s在行为决策a下的回报函数变换式的公式如下：

式中，E_m和E_v分别为接收宏用户和车辆请求接入的收益。

4.根据权利要求1所述的方法，其特征在于：在选择行为策略a时当前系统状态s到下一系统状态s₁的状态转移概率的变换式与状态转移概率p(s₁|s,a)的关系如下：

5.根据权利要求2-4任一项所述的方法，其特征在于：在当前系统状态s下采取行为决策a后所有可能发生的事件总的变化率β(s,a)的公式如下：

式中，τ(s,a)表示两个连续的决策之间的期望时间间隔。

6.根据权利要求1所述的方法，其特征在于：每个宏基站当前时刻允许使用的频谱总数N_a满足：N_a＝ρN_W，0＜ρ＜1，ρ为感知精度，N_W为宏基站管辖范围内所有路边单元感知的可用频谱总数。

7.根据权利要求1所述的方法，其特征在于：所述频谱资源为正交频分多址的资源块，在同一路边单元覆盖范围内的两个或以上车辆不能同时使用同一个资源块，不同路边单元覆盖范围内的两个或以上车辆能同时使用同一资源块。