发明内容
本发明所要解决的技术问题在于,提供一种车联网的频谱管理方法,能够得到使得V2I容量和V2V传输时延可靠性最优的频谱分配策略。
为了解决上述技术问题,本发明第一方面公开了一种车联网的频谱管理方法,所述方法包括:根据车联网的目标部署环境的环境模拟生成频谱预分配策略;基于当前车联网的部署环境和所述频谱预分配策略迭代生成频谱分配策略;基于所述频谱分配策略实现当前车联网的部署环境下的频谱管理。
在一些实施方式中,所述根据车辆网的目标部署环境的环境模拟生成频谱预分配策略,包括:获取车联网的目标部署环境的先验知识并确定所述先验知识的关键传播参数;根据所述先验知识的关键传播参数模拟生成特定的车联网环境;对所述特定的车联网环境进行元强化学习,离线生成频谱预分配策略;其中,所述先验知识的关键传播参数至少包括平均车速、V2V链路传输数据包容量、V2I链路和V2V链路的快衰模型。
在一些实施方式中,基于当前车联网的部署环境和所述频谱预分配策略迭代生成频谱分配策略,包括:根据所述频谱预分配策略和当前车联网的部署环境在线生成频谱分配策略;获取所述频谱分配策略下的网络性能和环境测量反馈信息;通过所述网络性能和环境测量反馈信息迭代更新所述频谱分配策略。
在一些实施方式中,通过所述网络性能和环境测量反馈信息迭代更新所述频谱分配策略包括:将所述网络性能和环境测量反馈信息作为PPO算法的循环参数;利用所述循环参数迭代更新所述频谱分配策略。
在一些实施方式中,该方法还包括:获取迭代更新输出的多个频谱分配策略中的最优频谱分配策略,基于所述最优频谱分配策略实现当前车联网的部署环境下的频谱管理。
本发明第二方面公开了一种车联网的频谱管理系统,所述系统包括:频谱预分配处理单元,用于根据车联网的目标部署环境的环境模拟生成频谱预分配策略;频谱分配处理单元,用于基于当前车联网的部署环境和所述频谱预分配策略迭代生成频谱分配策略;所述车联网的频谱管理系统基于所述频谱分配策略实现当前车联网的部署环境下的对固定基础设施和/或终端车辆的频谱管理。
在一些实施方式中,频谱预分配处理单元,包括:环境模拟模块,用于获取车联网的目标部署环境的先验知识并确定所述先验知识的关键传播参数,根据所述先验知识的关键传播参数模拟生成特定的车联网环境;离线学习算法模块,用于对所述特定的车联网环境进行元强化学习,离线生成频谱预分配策略;其中,所述先验知识的关键传播参数至少包括平均车速、V2V链路传输数据包容量、V2I链路和V2V链路的快衰模型。
在一些实施方式中,所述频谱分配处理单元包括在线学习模块,所述在线学习模块,用于根据所述频谱预分配策略和当前车联网的部署环境在线生成频谱分配策略,获取所述频谱分配策略下的网络性能和环境测量反馈信息,通过所述网络性能和环境测量反馈信息迭代更新所述频谱分配策略。
在一些实施方式中,所述在线学习模块中,通过所述网络性能和环境测量反馈信息迭代更新所述频谱分配策略包括:将所述网络性能和环境测量反馈信息作为PPO算法的循环参数;利用所述循环参数迭代更新所述频谱分配策略。
在一些实施方式中,所述频谱分配处理单元还实现为:获取迭代更新输出的多个频谱分配策略中的最优频谱分配策略,基于所述最优频谱分配策略实现当前车联网的部署环境下的频谱管理。
与现有技术相比,本发明的有益效果在于:
实施本发明能够基于元学习与强化学习的结合,采用离线学习与在线学习相结合的方法实现车联网中的频谱管理与分配,以离线学习结果为基础进行在线学习,能够极大改善在线运行阶段优化频谱分配策略的收敛速度。快速收敛的频谱分配优化方案不仅能够更好适应车联网高动态的环境变化,同时也能有效减少在线学习阶段的学习开销。得到使得V2I容量和V2V传输时延可靠性最优的频谱分配策略。
具体实施方式
为了更好地理解和实施,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。
由于车联网环境的高动态性难以表征为传统模型,机器学习类方法因其所具有的自动学习和适应能力而成为车联网频谱分配技术中的有力工具。然而在实际部署中应用机器学习类方法,受到具体算法实现架构的约束,常常产生各种问题,使得其所能获得的实际性能增益大打折扣。为了运行机器学习算法,通常采用模拟环境数据,或者在线学习的方式。如果采用模拟环境数据,主要问题在于模拟环境与真实环境的差异,将降低学习的性能。如果采用在线学习的方式,主要问题包括:集中式处理架构在学习过程中的收敛速度慢、迭代学习交互开销大,分布式处理架构的交互开销通常相比集中式架构更少,但仍存在收敛速度慢的问题。因此现有技术中的机器学习方法都难以适应车联网环境的高动态性。
本发明实施例公开了一种车联网的频谱管理的方法及系统,能够基于元学习与强化学习的结合,采用离线学习与在线学习相结合的方法实现车联网中的频谱管理与分配,以离线学习结果为基础进行在线学习,能够极大改善在线运行阶段优化频谱分配策略的收敛速度。快速收敛的频谱分配优化方案不仅能够更好适应车联网高动态的环境变化,同时也能有效减少在线学习阶段的学习开销。得到使得V2I容量和V2V传输时延可靠性最优的频谱分配策略。
在本发明中,所考虑的基于蜂窝网络的车联网系统中,存在条V2I链路和条V2V链路,两种链路的集合可以被分别表示为和/>车辆终端在进行V2I链路上行传输的过程中,同时存在V2V链路传输,其中V2V的频谱为复用V2I的频谱,通过选择合适的频谱和发射功率,保证不干扰V2I传输的同时,完成V2V传输。一般地,每条V2I链路提前分配了一个与其它频谱正交的频谱,并让V2I链路以最大的发射功率传输数据。V2V链路对V2I链路的频谱进行复用,从而提高系统的频谱效率。
请参阅图1,图1为本发明实施例公开的一种车联网的频谱管理的方法的流程示意图。其中,该车联网的频谱管理的方法可以应用在车联网系统、物联网系统等其他涉及频谱交互管理的系统,对于该方法的应用系统本发明实施例不做限制。如图1所示,该车联网的频谱管理的方法可以包括以下操作:
101、根据车联网的目标部署环境的环境模拟生成频谱预分配策略。
由于真实环境具有随机不确定性和不可预知性,无法精确地表征,一般通过关键因素的参数取值来表征真实环境的统计特性。由此,先获取车联网的目标部署环境的先验知识,获取的方式可以基于机器学习对当前车联网的目标部署环境进行学习。根据先验知识的关键传播参数模拟生成特定的车联网环境,在此,主要考虑环境中的四个关键传播参数的不同,包括平均车速、V2V链路传输数据包容量的大小、V2I链路和V2V链路的快衰模型等,可以由此产生不同的车联网环境。然而,即使通过关键传播参数的统计特性表征环境,也无法遍历所有可能的统计特性取值。所以,就需要对特定的车联网环境进行元强化学习,离线生成频谱预分配策略。基于元学习(Meta learning)机制,首先在若干典型环境下的进行学习优化,然后通过特定方式融合这些典型环境下的优化结果,可以获得某种具有代表性的优化结果。通过以上4个因素的不同取值组合确定不同的典型环境,然后在每个典型环境中进行强化学习,最后将不同典型环境下的学习结果进行融合。本实例中,不同典型环境下的学习结果融合方法为元学习算法Reptile算法。可以根据频谱预分配策略和当前车联网的部署环境在线生成频谱分配策略,获取频谱分配策略下的网络性能和环境测量反馈信息,通过网络性能和环境测量反馈信息迭代更新频谱分配策略。
具体地:第j条V2V链路到第k条V2V链路在第m个子带上的信道增益可以写为:gj,k[m]=αj,khj,k[m],其中αj,k是与载波频率无关的大尺度衰落的部分,包括路径损耗和阴影衰落部分。hj,k[m]表示小尺度衰落的部分。类似地定义第m条V2I链路到基站的信道增益为第k条V2V链路在第m个子带上的信道增益为gk[m]。第k条V2V链路在第m个子带上对基站造成的干扰信道的增益为gk,B[m],而第m条V2I链路对第k条V2V链路造成的干扰增益为/>因此,可以分别求出V2I链路和V2V链路的信干噪比:
其中,代表干扰功率。σ2代表噪声功率,/>代表第k条V2V链路在第m个子带上的发射功率。ρk[m]∈{0,1}是子带选择因子,当ρk[m]=1时,代表第k条V2V链路接入了第m个子带,否则就等于0。假设每个时隙每条V2V链路只能选择一个子带接入,即∑mρk[m]≤1。
于此,需要最大化V2I链路的和速率,因为V2I链路是为用户提供高数据速率的服务的,将和速率表示为∑mCm[m],其中 而V2V链路则关注安全信息的可靠传输,需要提高它们成功传输的概率,可以把它建模为:
其中代表第k条V2V链路在第m个子带在第t个时隙的信道容量。B代表V2V链路传输数据包的大小(单位是bit),ΔT代表信道的相干时间,也就是每个时隙的长度。
这里的资源分配问题可以表述为:对于每个时隙,设计V2V链路的频谱分配策略,即决定ρk[m],以及V2V链路的发射功率对于所有/>从而同时最大化V2I链路的和速率以及所有V2V链路的传输成功率。
由此可见,这种频谱资源分配问题可以被建模为一个马尔可夫决策过程的问题,比较适合用深度强化学习的方法解决。算法可以分为两个阶段:内部循环和外部循环。其中内部循环目的是为特定的一种车联网环境中为策略网络寻找一个好的参数,而外部循环则是通过结合多个内部循环的更新结果,寻找一个更优的元参数。
内部循环实际就是解决一个标准的强化学习问题。将每个V2V链路视为一个智能体,利用单智能体方法,所有V2V链路共享同一个策略网络,轮流采取动作避免环境不稳定性。第k条V2V链路的观测状态由本地的信道信息、其它链路造成的干扰功率、剩余的传输数据量以及剩余可传输的时间构成。网络状态定义为:
其中
发射功率选择在这里限制为4个离散值,即[23,15,5,-100]dBm,所以每个动作的维度为4×M,其中每一个动作都代表一种特定的发射功率和频谱选择的组合。奖励函数设计为V2I链路和V2V链路速率的加权和的形式:
其中λi和λv是用于平衡两个目标的权重值。Rk(t)是在时隙t一种与V2V链路速率相关的奖励,可以被设置为:
其中β是一个比可能出现的最大的V2V链路速率更大的值,可以通过运行几个片段选取其中最大的传输速率来近似地获得。
进一步地,利用近端策略优化(PPO算法)来解决这个强化学习问题。PPO算法依照演员-评判家(actor-critic)结构,有一个actor网络用于选择动作,另一个critic网络用于衡量当前状态的价值。用于训练actor网络的目标函数可以表示为:
其中修剪函数是用于限制梯度更新的幅度,从而稳定训练过程,ε是修剪常数。rt(θ)=πθ(at|st)/πθold(at|st)是采样策略与目标策略的比值,是重要性采样的关键组成部分。是泛化优势估计函数:
其中γ是折扣率,λ是泛化优势估计常数,δt是时序差分误差,可以被写为:
δt=rt+γV(st+1)-V(st), (9)
其中V(st)是当前状态st的价值函数,可以被critic网络进行衡量。Critic的目标函数可以写为:
外部循环的目标在于结合多个内部循环的结果,为所有类似的任务寻找一个好的初始值。首先根据比较流行的元强化学习算法MAML,定义外部循环梯度更新所用的目标函数:
其中θ是外部循环需要更新的元参数,也会被用在第k个内部循环用作初始值。/>代表第k个任务,/>是学习任务的分布。很多研究表明利用MAML可以获得很好的结果,但它的计算复杂度较高,因为它要求额外的数据采集和反向传播的过程。因此在这里选择了另一种更为简单的元学习算法Reptile,有研究表明使用Reptile时,当内部循环的梯度更新次数够多时,可以和MAML方法取得类似的性能。利用Reptile方法时元参数的更新公式可以写为:
其中NT是采样任务的数量(内部循环的数量),∈是外部循环的学习速率,α是内部循环的学习速率。
综上所述,整个算法在具体实现的步骤可以参见如下:
102、基于当前车联网的部署环境和频谱预分配策略迭代生成频谱分配策略。
在步骤101中,通过离线学习的方式,产生了频谱预分配策略,频谱预分配策略确定了特定网络状态下采用特定动作(频谱分配策略)的概率,其中为网络状态,为动作(频谱分配策略)。在本步骤中,以频谱预分配策略为基础,根据当前环境产生频谱分配策略,并根据该频谱分配策略下的环境和网络性能,迭代更新频谱分配策略。其中,迭代的内循环所采用为PPO算法,可以对应上述步骤101中的算法:基于元强化学习的资源分配算法中的步骤(9)~(15),其中的采样轨迹对应为算法与特定真实环境交互过程中的实际轨迹。
103、基于频谱分配策略实现当前车联网的部署环境下的频谱管理。
由此,就可以通过得到的频谱分配策略进行对当前车联网的部署环境下的频谱管理。频谱管理的对象包括固定基础设施和终端车辆。固定基础设备可以实现为固定部署于地面的、并于车辆进行数据通信的设施,主要包括基站、各种路边智能设备等。固定基础设施根据网络分配的频谱进行无线信号传输,并测量当前的传输环境,例如,信道增益、干扰等。终端车辆根据网络分配的频谱进行无线信号传输,并测量当前的传输环境,例如,信道增益、干扰等。
在其他优选实施方式中,还获取迭代更新输出的多个频谱分配策略中的最优频谱分配策略,基于最优频谱分配策略实现当前车联网的部署环境下的频谱管理。可以重复上述步骤102生成多个迭代更新的频谱分配策略,最终将其收敛时即为最优频谱分配策略,根据最优频谱分配策略在当前网络环境下产生的频谱分配策略,即为使V2I容量和V2V传输时延可靠性最优的频谱分配策略。
由此,根据本实施例的基于元学习与强化学习相结合的机制,采用离线学习生成频谱预分配策略,在线学习以频谱预分配策略为基础,从而显著提高了在线学习的效率和收敛速度,不仅可以有效适应车联网环境高度动态化的特点,也能有效降低机器学习与环境的交互数量、以及承载这些交互数据的空口资源。
请参阅图2,图2为一种应用了车联网的频谱管理方法的效果示意图,如图2所示,为了显示本实施例方法的效果,图2表示了某场景下,经过上述方法的离线学习步骤后产生了频谱预分配策略之后,在线部署运行时的收敛性能,从图2中可以看到,基于频谱预分配策略的在线学习只需要不足10次迭代即可收敛到最优性能,相对比地,相同场景下传统的机器学习算法需要上千次的迭代才能收敛。另一方面,由于本发明的方案和算法所需的迭代次数较少,相比于现有技术将显著减少机器学习与环境的交互数量、以及承载这些交互数据的空口资源。
请参阅图3,图3为一种车联网的频谱管理系统示意图,该系统包括:频谱预分配处理单元31和频谱分配处理单元32。频谱预分配处理单元31用于根据车联网的目标部署环境的环境模拟生成频谱预分配策略;频谱分配处理单元32,用于基于当前车联网的部署环境和所述频谱预分配策略迭代生成频谱分配策略;该车联网的频谱管理系统基于所述频谱分配策略实现当前车联网的部署环境下的对固定基础设施和/或终端车辆的频谱管理。
其中,频谱预分配处理单元31包括环境模拟模块311和离线学习算法模块312。环境模拟模块311用于获取车联网的目标部署环境的先验知识并确定先验知识的关键传播参数,根据先验知识的关键传播参数模拟生成特定的车联网环境。离线学习算法模块312用于对特定的车联网环境进行元强化学习,离线生成频谱预分配策略。其中,先验知识的关键传播参数至少包括平均车速、V2V链路传输数据包容量、V2I链路和V2V链路的快衰模型。由于真实环境具有随机不确定性和不可预知性,无法精确地表征,一般通过关键因素的参数取值来表征真实环境的统计特性。由此,先获取车联网的目标部署环境的先验知识,获取的方式可以基于机器学习对当前车联网的目标部署环境进行学习。根据先验知识的关键传播参数模拟生成特定的车联网环境,在此,主要考虑环境中的四个关键传播参数的不同,包括平均车速、V2V链路传输数据包容量的大小、V2I链路和V2V链路的快衰模型等,可以由此产生不同的车联网环境。对于如何利用上述关键传播参数进行车联网的目标部署环境的环境模拟生成频谱预分配策略的方式可以参照上述方法部分的描述,在此不进行赘述。
频谱分配处理单元32包括在线学习模块321,在线学习模块321用于根据频谱预分配策略和当前车联网的部署环境在线生成频谱分配策略,获取频谱分配策略下的网络性能和环境测量反馈信息,通过网络性能和环境测量反馈信息迭代更新所述频谱分配策略。在线学习模块中,通过网络性能和环境测量反馈信息迭代更新频谱分配策略包括:将网络性能和环境测量反馈信息作为PPO算法的循环参数,利用循环参数迭代更新频谱分配策略。通过离线学习的方式,产生了频谱预分配策略,频谱预分配策略确定了特定网络状态下采用特定动作(频谱分配策略)的概率,其中为网络状态,为动作(频谱分配策略)。在本步骤中,以频谱预分配策略为基础,根据当前环境产生频谱分配策略,并根据该频谱分配策略下的环境和网络性能,迭代更新频谱分配策略。其中,迭代的内循环所采用为PPO算法,可以对应上述方法部分描述的步骤101中的算法:基于元强化学习的资源分配算法中的步骤(9)~(15),其中的采样轨迹对应为算法与特定真实环境交互过程中的实际轨迹。
由此,就可以通过得到的频谱分配策略进行对当前车联网的部署环境下的频谱管理。频谱管理的对象包括固定基础设施和终端车辆。固定基础设备可以实现为固定部署于地面的、并于车辆进行数据通信的设施,主要包括基站、各种路边智能设备等。固定基础设施根据网络分配的频谱进行无线信号传输,并测量当前的传输环境,例如,信道增益、干扰等。终端车辆根据网络分配的频谱进行无线信号传输,并测量当前的传输环境,例如,信道增益、干扰等。
频谱分配处理单元32还实现为:获取迭代更新输出的多个频谱分配策略中的最优频谱分配策略,基于最优频谱分配策略实现当前车联网的部署环境下的频谱管理。可以重复上述方法部分的步骤102生成多个迭代更新的频谱分配策略,最终将其收敛时即为最优频谱分配策略,根据最优频谱分配策略在当前网络环境下产生的频谱分配策略,即为使V2I容量和V2V传输时延可靠性最优的频谱分配策略。
请参阅图4,图4是本发明实施例公开的一种车联网的频谱管理装置的结构示意图。如图4所示,该装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器01中存储的可执行程序代码,用于执行所描述的车联网的频谱管理方法。
本发明实施例公开了一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,该计算机程序使得计算机执行所描述的车联网的频谱管理方法。
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行所描述的车联网的频谱管理方法。
以上所描述的实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种车联网的频谱管理方法及系统所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。