CN110753319A - 异构车联网中面向异质业务的分布式资源分配方法及系统 - Google Patents

异构车联网中面向异质业务的分布式资源分配方法及系统 Download PDF

Info

Publication number
CN110753319A
CN110753319A CN201910968516.8A CN201910968516A CN110753319A CN 110753319 A CN110753319 A CN 110753319A CN 201910968516 A CN201910968516 A CN 201910968516A CN 110753319 A CN110753319 A CN 110753319A
Authority
CN
China
Prior art keywords
user
network
heterogeneous
users
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910968516.8A
Other languages
English (en)
Other versions
CN110753319B (zh
Inventor
田杰
刘倩倩
刘爽
支媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201910968516.8A priority Critical patent/CN110753319B/zh
Publication of CN110753319A publication Critical patent/CN110753319A/zh
Application granted granted Critical
Publication of CN110753319B publication Critical patent/CN110753319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0215Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本公开提供了一种异构车联网中面向异质业务的分布式资源分配方法及系统,获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息;采用时延违约概率和归一化的吞吐量,构建V2V用户时延敏感业务的效用函数和时延容忍业务的效用函数,得到V2V用户异质业务的混合效用函数;建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数;利用MADDPG算法集中训练分布执行的思想,根据训练好的Actor网络,输入每个V2V用户当前观测到的状态信息,得到通信信道和发射功率的最佳动作,进而得到最佳的资源分配方式;本公开能够更加智能和高效地配置网络中的有限资源来满足具有异质业务类型的V2V用户通信的需求,提升了资源的利用效率。

Description

异构车联网中面向异质业务的分布式资源分配方法及系统
技术领域
本公开涉及无线通信技术领域,特别涉及一种异构车联网中面向异质业务的分布式资源分配方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
随着5G移动通信的到来,为车联网提供一个新兴的平台的同时,也为其提出了更高的要求,如无处不在的连接、低时延、高可靠和高速率的支持各种应用等。然而不可忽视的是5G时代的网络资源也是十分有限的,特别是频谱资源。因此如何智能高效地分配资源、提高有限资源的利用率、减少资源的浪费成为车联网中一个重要的研究课题和急需解决的问题。
目前已有车联网中的资源分配问题一般具有两种解决的方式,一种是集中式,另一种是分布式。集中式的解决方法是以一个中央控制器收集全部用户的信息后,经全面的综合、分析、处理之后做出一个全局最优的决策。虽然做出的决策全局最优,但集中式的算法复杂度较高且需综合全部用户的信息,这对中央控制器的计算能力要求较高,因而不适合于具有巨大接入量且实时变化的车联网应用场景。而分布式的解决方式,可以使用户独立的做出决策,最大化自己的效用函数,通常收敛于局部最优解,但因其具有更快的决策速度和较低的算法复杂度而被大家欢迎。考虑到异构车联网的网络特征,分布式的资源分配方法更加适合车联网的应用场景。同时资源分配问题具有非凸性和组合性,一般很难用传统的分配方法得到一个全局最优解。并且最近研究的解决方法如博弈论、线性规划算法、马尔可夫近似策略等都需要一个精准完备的交互信息才能有效的解决联合资源分配问题,然而通常情况是很难在实时变化的环境中获得完备的交互信息,因此亟需探寻更加智能有效的资源分配方法。人工智能为解决上述问题提供了一种潜在的解决途径,其中强化学习算法可以通过实时的与环境进行交互从而获得最优策略来解决智能决策问题。
本公开发明人发现,现有的强化学习算法如Q-learning方法虽然提供了一种很好解决思路,但现有的研究中会因为状态和动作空间的增大,从而使Q值表变得巨大,导致收敛变慢。为解决此问题,大多数文献采用了DQN强化学习的算法,用神经网络(NN)来代替Q-learning中巨大的Q表,但由于车联网是一种多用户的应用场景,在这种情况的情况下多个用户同时做出决策会导致环境的不稳定,因此违反了Q-leaning的收敛条件以及不能使用经验重放的方法来加快学习速率而且Q-learning算法的状态和动作空间只适用于离散的情况,无法应用于连续的状态观测和动作估计,因而不适合于车联网场景下巨大的接入量和时变环境下连续做出决策的情况。
发明内容
为了解决现有技术的不足,本公开提供了一种异构车联网中面向异质业务的分布式资源分配方法及系统,能够更加智能和高效地配置网络中的有限资源来满足具有异质业务类型的车辆对车辆(V2V,Vehicle-to-Vehicle)用户业务需求,提升了资源的利用效率。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种异构车联网中面向异质业务的分布式资源分配方法。
一种异构车联网中面向异质业务的分布式资源分配方法,步骤如下:
获取异构蜂窝车联网系统内的蜂窝用户、通信信道和基于D2D(Device-to-Device)通信的V2V用户信息;
采用时延违约概率和归一化的吞吐量,构建V2V用户时延敏感业务的效用函数和时延容忍业务的效用函数,得到V2V用户异质业务的混合效用函数;
建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数,确定动作空间为通信信道的选择和发射功率的选择,并以混合效用最大化为目标,确定回报函数;
通过采用MADDPG算法,集中训练actor和critic网络,每个agent分布执行训练好的Actor网络,根据每个V2V用户当前观测到的状态信息,以每一个V2V用户获得最高的回报为目标,得到通信信道和发射功率的最佳动作,进而得到最佳的资源分配方式。
作为可能的一些实现方式,异构的蜂窝车联网系统内,包括多个蜂窝用户和多对基于D2D的V2V用户,所述蜂窝用户使用相互正交的蜂窝链路与相连基站进行通信,所述V2V用户复用蜂窝用户的上行链路,且多个V2V用户能够复用一个信道但每一个V2V用户最多占用一个信道。
作为可能的一些实现方式,所述时延敏感业务的效用函数直接采用基于时延违约概率的丢包率获取,具体为:
其中,
Figure BDA0002231303300000032
为第k个用户的时延敏感类的效用函数,Pdly为超过时延要求的丢包率,Tth表示时延要求的阙值,Tk为队列中等待的时间;
所述时延容忍类业务采用整个传输过程中归一化的吞吐量来反映通信质量的总体的情况,所述时延容忍类业务的效用函数具体为:
Figure BDA0002231303300000041
其中,
Figure BDA0002231303300000042
表示第K个用户时延容忍类业务的效用函数,Wth为V2V用户传输时延容忍类业务所需的物理吞吐量,Wk为V2V用户实时的吞吐量。
当V2V用户具有时延敏感和时延容忍两类异质业务时,建模为混合效用函数:
Figure BDA0002231303300000043
其中,bk为业务类型标识因子,bk=1表示为时延敏感类业务,bk=0表示时延容忍类业务。
作为可能的一些实现方式,建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数;
所述状态空间包含V2V用户的信道的接入情况、发射功率、业务的类型和干扰情况,sk表示第k个用户的状态;
所述动作空间为每个V2V用户的当前动作,所述当前动作为V2V用户的信道选择和发射功率选择,ak表示第k个V2V用户的当前动作;
所述回报函数为当第k个V2V在状态sk时,采取了动作ak就会获得一个立即回报r。
作为进一步的限定,采用MADDPG的算法,Critic网络采用DQN强化学习算法思想,经过贝尔曼方程的递归计算得到累积回报函数Q:
作为可能的一些实现方式,利用MADDPG算法,集中训练Actor网络和Critic网络,分布执行Actor网络决策,得到最佳的资源分配方式,具体为:
(9-1)初始化蜂窝用户和V2V用户数、学习速率、迭代次数、Critic网络和Actor网络的参数,reply buffer D=0;
(9-2)第一次迭代开始,每一个V2V用户从环境中得到一个初始的状态S;
(9-3)每一个V2V用户根据Actor网络确定性策略由初始状态,选择一个动作ai,并得到一个立即回报r,更新到下一个状态S’,将集合(S,a,r,S'),存入到reply buffer D中;
在MADDPG算法中,集中训练表示为,每一个V2V用户使用经验回放方法,观测到其他用户的信息,其中经验缓存区D具体表示为一个集合:
D={s1,s2……sK,a1,a2……aK,r1,r2……rK,s1',s2'……sK'};
(9-4)Critic网络的构建和更新:对于每一个V2V用户,从D集合中选取一部分数据,训练一个集中的动作值函数,输入网络中所有V2V用户的状态和动作信息,输出此用户此状态下每一个动作的输出Q值,再利用最小化loss函数,更新Critic网络;
(9-5)Actor网络的构建和更新:对于每一个V2V用户,从D中选取一部分数据,根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值,输出此状态下选择最佳的动作,利用确定性策略梯度下降方法,更新Actor网路;
(9-6)重复步骤(9-3)、(9-4)和(9-5)到设定得次数,第一迭代结束;再迭代到设定的次数,更新Actor和Critic的网络参数,并返回训练好的在线Actor网络;
(9-7)利用训练好的Actor网络,输入每个V2V用户当前观测到的状态信息,得到关于通信信道和发射功率选择的最佳动作,进而得到最佳的资源分配方式。
作为可能的一些实现方式,所述步骤(9-4)中,Critic网络包括两个神经网络,分别为Critic目标网络和在线的估计网络,两者具有相同的网络参数,两个网络用于实现通过每个V2V用户输入的状态和动作,输出相应的Q值,通过最小化loss函数,即最小化传回的目标Q值减去估计Q值,进行网络参数的更新;
作为可能的一些实现方式,所述步骤(9-5)中,Actor的网络包括两个神经网络,分别为Actor目标网络和在线的策略估计网络,两者具有相同的网络参数,根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值决定输出动作,通过确定性策略梯度下降方法更新网路参数。
本公开第二方面提供了一种异构车联网中面向异质业务的分布式资源分配系统。
一种异构车联网中面向异质业务的分布式资源分配系统,包括:
数据采集模块,被配置为:获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息;
数据预处理模块,被配置为:采用时延违约概率和归一化的吞吐量,构建V2V用户的时延敏感业务的效用函数和时延容忍业务的效用函数,得到V2V用户异质业务的混合效用函数;
数据处理模块,被配置为:建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数,确定动作空间为通信信道的选择和发射功率的选择,并以混合效用最大化为目标,确定回报函数;
资源分配模块,被配置为:通过采用MADDPG算法训练好的Actor网络,根据每个V2V用户当前观测到的状态信息,以每一个V2V用户获得最高的回报为目标,得到关于通信信道和发射功率选择的最佳动作,进而得到最佳的资源分配方式。
本公开第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现本公开所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。
本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现本公开所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。
与现有技术相比,本公开的有益效果是:
本公开能够对异构蜂窝车联网中的V2V用户异质的业务类型进行智能、精准的资源分配,能够更好的满足V2V用户在不同时刻执行不同业务的通信要求即可以同时满足时延敏感业务的低时延的要求和满足时延容忍类业务整体通信质量的要求。
本公开通过利用深度强化学习的MADDPG算法,每一个V2V用户可以在集中训练网络时,结合系统内所有用户的状态和动作信息做出一个近似逼近全局最优解的决策,即具有集中式的优点具有全局观。
本公开所述的内容,当网络训练好在分布执行时,可以只根据自身观测到的状态信息就做出一个近似全局最优解的决策,即具有分布式的优点更快的决策速度。
通过本公开所述的方法,可以对异构蜂窝车联网中的V2V用户异质的业务类型进行高效、精准的资源分配,具有更高的智能性。
本公开吸取了集中式方法中全局意识的思想,解决了完全分布式方法中因自私的最大化自己效用函数而导致收敛于局部最优解的问题。
本公开所述的MADDPG算法因吸取了DQN和DDPG算法的优点,解决了其他强化学习算法在车联网场景下因接入量巨大而导致决策收敛速度慢和环境不稳定的问题。
附图说明
图1为本公开实施例1中基于MADDPG算法实现资源分配的流程示意图。
图2为本公开实施例1中MADDPG算法集中训练和分布执行的结构示意图。
图3为本公开实施例1中包括基站、蜂窝用户和V2V用户的场景部署的应用架构示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1:
如图1-3所示,本公开实施例1提供了一种异构车联网中面向异质业务的分布式智能资源分配方法;
步骤一、设定异构的蜂窝车联网系统内,有M个蜂窝用户,序列为M={1,2,3......m},其使用相互正交的蜂窝链路与相连基站进行通信,信道序列为F={1,2,3......F},|F|=|M|,K对基于D2D的V2V用户,序列为K={1,2,3......k},其复用蜂窝用户的上行链路,具有时延敏感和时延容忍两种业务类型;
步骤二、采用时延违约概率和归一化的吞吐量,构建V2V用户时延敏感和时延容忍业务的效用函数;
为提高信道的利用率,V2V用户复用蜂窝用户的上行链路,且多个V2V用户可以复用一个信道但每一个V2V用户最多占用一个信道:
Figure BDA0002231303300000091
其中,
Figure BDA0002231303300000092
表示第i个V2V用户的信道接入因子;
任一V2V用户k,在第f个信道上的信干噪比为:
Figure BDA0002231303300000093
其中,
Figure BDA0002231303300000094
表示第k个V2V用户在信道f上的信道增益,
Figure BDA0002231303300000095
表示在第m个蜂窝用户在信道f上的信道增益;
Figure BDA0002231303300000096
示第k个V2V用户在信道f上的传输功率,
Figure BDA0002231303300000097
表示第m个蜂窝用户在信道f的传输功率,σ2表示高斯白噪声,d为非奇异信道传输模型的路径损耗:
Figure BDA0002231303300000098
其中,l为用户之间的距离,α为路径损耗因子;
中断概率表示为当信道的信干噪比小于一定的阈值时,在接受方信号将不能正确解码,因此造成信号传输的中断,此处的信道采用服从瑞利分布的信道,用此概率来表示数据包的在传输过程中的因传输错误的丢包概率:
Figure BDA0002231303300000101
其中,
Figure BDA0002231303300000102
γth表示时延的门限值,
Figure BDA0002231303300000106
是瑞利分布的参数,g代表此时信道增益;
端到端时延包括排队时延和传输时延,采用M/M/1的排队模型,在队列中等待的时间为:
Figure BDA0002231303300000103
其中,λ为业务包到达的平均速率,lk表示平均数据包长,Ck表示数据的传输速率,利用香浓公式计算得:
Figure BDA0002231303300000104
其中,W表示为总的频带宽度,|F|表示正交信道的数目;
在队列中等待的时间大于时延要求的阙值后即被丢弃,用此概率来表示超过时延要求的丢包率:
其中,Tth表示时延要求的阙值,时延敏感类业务较时延容忍类业务的时延阙值要小一些;
时延敏感类业务,对时延要求较高,因此直接采用基于时延违约概率的丢包率,可以更直接反映时延敏感类业务的要求:
时延容忍类业务,采用整个传输过程中归一化的吞吐量来反映通信质量的总体的情况:
Figure BDA0002231303300000112
其中,Wth为V2V用户传输时延容忍类业务所需的物理吞吐量,Wk为V2V用户实时的吞吐量:
Wk=λ*(1-ploss)≈λ*(1-pdly-perr) (10)
当V2V用户具有时延敏感和时延容忍两类异质业务时,建模为混合效用函数:
Figure BDA0002231303300000113
其中,,Rk(t),为k用户在t时刻的混合效用函数,bk为业务类型标识因子,bk=1表示为时延敏感类业务,bk=0表示时延容忍类业务,
Figure BDA0002231303300000114
表示第k个用户的时延敏感类的效用函数,
Figure BDA0002231303300000115
表示第k个用户时延容忍类业务的效用函数;
步骤三、确立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数,其具体为:
状态空间S:sk表示第k个用户的状态,其中包括信道的接入情况、业务的类型、发射功率和干扰情况。
Figure BDA0002231303300000121
状态空间s=(s1,s2,s3……sk);
Figure BDA0002231303300000122
表示,在V2V用户的接受端所监测到的干扰值,bk表示业务的类型,bk=1表示时延敏感类业务,bk=0为时延容忍类的业务。
动作空间A:ak表示第k个V2V用户的当前动作,包含了V2V用户信道的选择和发射功率的选择,我们将功率离散化分成3个等级,p∈Ω,Ω={1Δ,2Δ,3Δ};
Figure BDA0002231303300000123
因此动作空间a=(a1,a2,a3……ak)
由于采用MADDPG算法,其中actor网络采用确定性策略梯度方法,所以
式中,
Figure BDA0002231303300000125
表示actor网络的参数,
Figure BDA0002231303300000126
表示为在
Figure BDA0002231303300000127
的网络参数下确定性策略下选择的动作;
回报函数r:当第k个V2V用户在状态sk时,采取了动作ak就会获得一个立即回报r:
采用MADDPG的算法,累积回报函数是由Critic网络,采用DQN强化学习算法思想获得,同时经过贝尔曼方程的递归计算得到:
Figure BDA0002231303300000129
式中,γ为折扣因子;
因此,通过这样的回报函数的设置,每一个V2V用户为了获得更高的回报,面对两类异质业务,就会精准地选择更加合适的信道和发射功率。
步骤四、利用MADDPG算法,集中训练Actor和Critic网络,分布执行Actor决策网络,得到最佳的资源分配方式,其具体步骤是:
第一步:初始化V2V用户和蜂窝用户数,学习速率,迭代次数,Critic network Q(a,s|θQ)的网络参数,Actor network u(s|θu)的网络参数,reply buffer D=0;
有K对V2V用户,其中θu’表示为Actor的网络参数,θQ’为Critic网络的参数,所有用户网络参数表示为:
Figure BDA0002231303300000131
第二步:第一次迭代开始,每一个V2V用户从环境中得到一个初始的状态S;
第三步:每一个V2V用户根据Actor网络的确定性策略由初始状态,选择一个动作
Figure BDA0002231303300000132
并得到一个立即的回报r,更新到下一个状态S’,将集合(S,a,r,S')存入到reply buffer D中;
在MADDPG算法中,集中训练表示为,每一个V2V用户使用经验回放方法,观测到其他用户的信息,其中经验缓存区D具体表示为一个集合:
D={s1,s2……sK,a1,a2……aK,r1,r2……rK,s1',s2'……sK'} (14)
第四步:Critic网络的构建和更新,对于每一个V2V用户,从D中选取一部分数据,训练一个集中的动作值函数,输入网络中所有V2V用户的状态和动作信息,输出此用户此状态下每一个动作的输出值,再利用最小化loss函数,更新Critic网络;
Critic网络有两个结构相似的神经网络,一个在线的估计网络,一个是目标网络,具有相同的网络参数θu’,两个网络用于实现通过每个用户输入的状态和动作,输出相应的Q值,然后根据最小化loss函数,即传回的TD error目标Q值减去估计Q值,进行网络参数的更新,输出y表示由目标网络输出的Q值:
其中,
Figure BDA0002231303300000134
表示集中动作值函数,其输入是所有用户的动作和所有用户的状态,输出的是每一个用户的Q值,ri表示i个用户的立即回报,然后是aj'=uj'(sj')|θu表示根据Actor网络确定性策略输出的动作,表示每一个用户的确定性策略。
Critic网络的θQ’由最小化loss函数,即传回的TD error目标Q值减去估计Q值,,来更新网络参数:
Figure BDA0002231303300000142
式中,θQ’为critic的网络参数;
第五步:Actor网络的构建和更新,对于每一个V2V用户,从D中选取一部分数据,根据自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值,输出此状态下选择的最佳动作,再根据确定性策略梯度下降方法,更新Actor网路;
Actor的网络由两个结构相似的神经网络组成,一个是在线的策略估计网络,一个是目标网络,具有相同的网络参数θu',采用DDPG算法,a=u(si)是对于每一个状态根据确定性策略产生一个确定的动作,Actor网络实现的功能是,根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值决定输出动作,网络更新的方式是确定性策略梯度下降的方法更新网路参数θu’
表示为从Critic网络传来的集中的状态-动作Q函数在这个方向上的梯度;
Figure BDA0002231303300000145
是Actor网络,状态到动作映射的确定性策略的梯度;
Actor有这两部分的梯度,就可以更新网络参数θu’,从而可以更好的由状态确定相应的动作;
第六步:重复上述步骤第三步、第四步和第五步到设定得次数,第一迭代结束;再迭代到设定的次数,更新Actor和Critic的网络参数,并返回训练好的在线Actor网络;
平滑的更新两个网络的参数:
Figure BDA0002231303300000152
式中,τ为网络参数的平滑更新因子;
返回在线的Actor网络:
在线Actor网络具体为:
第七步:利用训练好的Actor网络,输入每个V2V用户当前观测到的状态信息,就可得到的关于信道和功率选择的最佳动作,即得到最佳的资源分配方式。
实施例2
本公开实施例2提供了一种异构车联网中面向异质业务的分布式资源分配系统,包括:
数据采集模块,被配置为:获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息;
数据预处理模块,被配置为:采用时延违约概率和归一化的吞吐量,构建V2V用户时延敏感业务的效用函数和时延容忍业务的效用函数,得到V2V用户异质业务的混合效用函数;
数据处理模块,被配置为:建立多用户的马尔可夫决策模型,确定V2V用户的动作空间为通信信道的选择和发射功率的选择;
资源分配模块,被配置为:利用MADDPG算法中,训练好的Actor网络,根据每个V2V用户当前观测到的状态信息,以混合效用最大化为目标,得到通信信道和发射功率的最佳动作,进而得到最佳的资源分配方式。
本实施例所述的系统利用实施例1中的异构车联网中面向异质业务的分布式资源分配的具体方法进行资源分配。
实施例3:
本公开实施例3提供了一种介质,其上存储有程序,该程序被处理器执行时实现本公开实施例1所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。
实施例4:
本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现本公开实施例1所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种异构车联网中面向异质业务的分布式资源分配方法,其特征在于,步骤如下:
获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息;
采用时延违约概率和归一化的吞吐量,构建V2V用户时延敏感业务的效用函数和时延容忍业务的效用函数,得到V2V用户异质业务的混合效用函数;
建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数,确定动作空间为通信信道的选择和发射功率的选择,并以混合效用最大化为目标,确定回报函数;
通过采用MADDPG算法训练好的Actor网络,根据每个V2V用户当前观测到的状态信息,以每一个V2V用户获得最高的回报为目标,得到关于通信信道和发射功率选择的最佳动作,进而得到最佳的资源分配方式。
2.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,异构的蜂窝车联网系统内,包括多个蜂窝用户和多对基于D2D的V2V用户,所述蜂窝用户使用相互正交的蜂窝链路与相连基站进行通信,所述V2V用户复用蜂窝用户的上行链路,且多个V2V用户能够复用一个信道但每一个V2V用户最多占用一个信道。
3.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,所述时延敏感业务的效用函数直接采用基于时延违约概率的丢包率获取,具体为:
Figure FDA0002231303290000011
其中,
Figure FDA0002231303290000012
为第k个用户的时延敏感类的效用函数,Pdly为超过时延要求的丢包率,Tth表示时延要求的阙值,Tk为队列中等待的时间;
所述时延容忍类业务采用整个传输过程中归一化的吞吐量来反映通信质量的总体的情况,所述时延容忍类业务的效用函数具体为:
Figure FDA0002231303290000021
其中,
Figure FDA0002231303290000022
表示第k个用户时延容忍类业务的效用函数,Wth为V2V用户传输时延容忍类业务所需的物理吞吐量,Wk为V2V用户实时的吞吐量。
当V2V用户具有时延敏感和时延容忍两类异质业务时,建模为混合效用函数:
Figure FDA0002231303290000023
其中,Rk(t),为k用户在t时刻的混合效用函数,bk为业务类型标识因子,bk=1表示为时延敏感类业务,bk=0表示时延容忍类业务。
4.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数;
所述状态空间包含V2V用户的信道接入情况、发射功率、业务类型和干扰情况,sk表示第k个用户的状态;
所述动作空间为每个V2V用户的当前动作,所述当前动作为V2V用户的信道选择和发射功率选择,ak表示第k个V2V用户的当前动作;
所述回报函数为当第k个V2V在状态sk时,采取了动作ak就会获得一个立即回报r。
5.如权利要求4所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,利用MADDPG算法,Critic网络采用DQN强化学习算法思想,经过贝尔曼方程的递归计算得到累积回报函数。
6.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,利用MADDPG算法,集中训练Actor网络和Critic网络,分布执行Actor决策网络,得到最佳的资源分配方式,具体为:
(9-1)初始化蜂窝用户和V2V用户数、学习速率、迭代次数、Critic网络和Actor网络的参数,reply buffer D=0;
(9-2)第一次迭代开始,每一个V2V用户从环境中得到一个初始的状态S;
(9-3)每一个V2V用户根据Actor网络的确定性策略由初始状态,选择一个动作ai,并得到一个立即回报r,更新到下一个状态S’,将集合(S,a,r,S'),存入到reply buffer D中;
在MADDPG算法中,集中训练表示为,每一个V2V用户使用经验回放方法,观测到其他用户的信息,其中经验缓存区D具体表示为一个所有用户此时的状态,选择动作,获得立即回报,下一时刻状态的集合:
D={s1,s2……sK,a1,a2……aK,r1,r2……rK,s1',s2'……sK'};
(9-4)Critic网络的构建和更新:对于每一个V2V用户,从D中选取一部分数据,训练一个集中的动作值函数,输入网络中所有V2V用户的状态和动作信息,输出此用户此状态下每一个动作的输出Q值,再利用最小化loss函数,更新Critic网络;
(9-5)Actor网络的构建和更新:对于每一个V2V用户,从D中选取一部分数据,根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值,输出此状态下最佳的动作,利用确定性策略梯度下降方法,更新Actor网路;
(9-6)重复步骤(9-3)、(9-4)和(9-5)到设定得次数,第一迭代结束;再迭代到设定的次数,更新Actor和Critic的网络参数,并返回训练好的在线Actor网络;
(9-7)利用训练好的Actor网络,输入每个V2V用户当前观测到的状态信息,得到关于通信信道和发射功率选择的最佳动作,进而得到最佳的资源分配方式。
7.如权利要求6所述的异构车联网中面向异质业务的分布式资源分配方法,其特征在于,所述步骤(9-4)中,Critic网络包括两个神经网络,分别为Critic目标网络和在线的估计网络,两者具有相同的网络参数,两个网络用于实现通过每个V2V用户输入的状态和动作,输出相应的Q值,根据最小化loss函数,即传回的TD error目标Q值减去估计Q值,进行网络参数的更新;
或,所述步骤(9-5)中,Actor的网络包括两个神经网络,分别为Actor目标网络和在线的策略估计网络,两者具有相同的网络参数,根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值决定输出动作,通过确定性策略梯度下降方法更新网路参数。
8.一种异构车联网中面向异质业务的分布式资源分配系统,其特征在于,包括:
数据采集模块,被配置为:获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息;
数据预处理模块,被配置为:采用时延违约概率和归一化的吞吐量,构建V2V用户的时延敏感业务的效用函数和时延容忍业务的效用函数,得到V2V用户异质业务的混合效用函数;
数据处理模块,被配置为:建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数,确定动作空间为通信信道的选择和发射功率的选择,并以混合效用最大化为目标,确定回报函数;
资源分配模块,被配置为:通过采用MADDPG算法训练好的Actor网络,根据每个V2V用户当前观测到的状态信息,以每一个V2V用户获得最高的回报为目标,得到关于通信信道和发射功率选择的最佳动作,进而得到最佳的资源分配方式。
9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。
CN201910968516.8A 2019-10-12 2019-10-12 异构车联网中面向异质业务的分布式资源分配方法及系统 Active CN110753319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910968516.8A CN110753319B (zh) 2019-10-12 2019-10-12 异构车联网中面向异质业务的分布式资源分配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910968516.8A CN110753319B (zh) 2019-10-12 2019-10-12 异构车联网中面向异质业务的分布式资源分配方法及系统

Publications (2)

Publication Number Publication Date
CN110753319A true CN110753319A (zh) 2020-02-04
CN110753319B CN110753319B (zh) 2022-10-18

Family

ID=69278072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910968516.8A Active CN110753319B (zh) 2019-10-12 2019-10-12 异构车联网中面向异质业务的分布式资源分配方法及系统

Country Status (1)

Country Link
CN (1) CN110753319B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112272410A (zh) * 2020-10-22 2021-01-26 北京邮电大学 Noma网络中用户关联与资源分配的模型训练方法
CN112512013A (zh) * 2020-11-27 2021-03-16 山东师范大学 基于学习剪枝的车联网移动边缘计算任务卸载方法及系统
CN112689296A (zh) * 2020-12-14 2021-04-20 山东师范大学 一种异构IoT网络中的边缘计算与缓存方法及系统
CN112954651A (zh) * 2021-03-12 2021-06-11 南京航空航天大学 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN112995951A (zh) * 2021-03-12 2021-06-18 南京航空航天大学 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN115002721A (zh) * 2022-06-06 2022-09-02 南京大学 一种面向b5g/6g全解耦蜂窝车联网的随机优化资源分配方法
CN116367332A (zh) * 2023-05-31 2023-06-30 华信咨询设计研究院有限公司 一种5g系统下基于分级控制的d2d资源分配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080219145A1 (en) * 2007-03-08 2008-09-11 Nec Laboratories America, Inc. Method for Scheduling Heterogeneous Traffic in B3G/4G Cellular Networks with Multiple Channels
CN103298076A (zh) * 2013-06-21 2013-09-11 西安邮电大学 一种异构网络中的接入网络选择的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080219145A1 (en) * 2007-03-08 2008-09-11 Nec Laboratories America, Inc. Method for Scheduling Heterogeneous Traffic in B3G/4G Cellular Networks with Multiple Channels
CN103298076A (zh) * 2013-06-21 2013-09-11 西安邮电大学 一种异构网络中的接入网络选择的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ABEGAZ MOHAMMED SEID: "Multi-Agent_DRL_for_Task_Offloading_and_Resource_Allocation_in_Multi-UAV_Enabled_IoT_Edge_Network", 《IEEE TRANSACTIONS ON NETWORK AND SERVICE MANAGEMENT》 *
JIE TIAN: "Multiagent_Deep-Reinforcement-Learning-Based_Resource_Allocation_for_Heterogeneous_QoS_Guarantees_for_Vehicular_Networks", 《IEEE INTERNET OF THINGS JOURNAL》 *
YUJIE LIU: "Q-Learning_Based_Content_Placement_Method_for_Dynamic_Cloud_Content_Delivery_Networks", 《IEEE ACCESS》 *
张悦: "多智能体深度强化学习方法及应用研究", 《中国优秀博士学位论文》 *
方维维: "基于多智能体深度强化学习的车联网通信资源分配优化", 《北京交通大学学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112272410A (zh) * 2020-10-22 2021-01-26 北京邮电大学 Noma网络中用户关联与资源分配的模型训练方法
CN112272410B (zh) * 2020-10-22 2022-04-19 北京邮电大学 Noma网络中用户关联与资源分配的模型训练方法
CN112512013A (zh) * 2020-11-27 2021-03-16 山东师范大学 基于学习剪枝的车联网移动边缘计算任务卸载方法及系统
CN112512013B (zh) * 2020-11-27 2022-06-24 山东师范大学 基于学习剪枝的车联网移动边缘计算任务卸载方法及系统
CN112689296A (zh) * 2020-12-14 2021-04-20 山东师范大学 一种异构IoT网络中的边缘计算与缓存方法及系统
CN112689296B (zh) * 2020-12-14 2022-06-24 山东师范大学 一种异构IoT网络中的边缘计算与缓存方法及系统
CN112954651A (zh) * 2021-03-12 2021-06-11 南京航空航天大学 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN112995951A (zh) * 2021-03-12 2021-06-18 南京航空航天大学 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN112995951B (zh) * 2021-03-12 2022-04-08 南京航空航天大学 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN115002721A (zh) * 2022-06-06 2022-09-02 南京大学 一种面向b5g/6g全解耦蜂窝车联网的随机优化资源分配方法
CN116367332A (zh) * 2023-05-31 2023-06-30 华信咨询设计研究院有限公司 一种5g系统下基于分级控制的d2d资源分配方法
CN116367332B (zh) * 2023-05-31 2023-09-15 华信咨询设计研究院有限公司 一种5g系统下基于分级控制的d2d资源分配方法

Also Published As

Publication number Publication date
CN110753319B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN110753319B (zh) 异构车联网中面向异质业务的分布式资源分配方法及系统
WO2021233053A1 (zh) 计算卸载的方法和通信装置
CN110505099B (zh) 一种基于迁移a-c学习的服务功能链部署方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
Chen et al. Deep-learning-based intelligent intervehicle distance control for 6G-enabled cooperative autonomous driving
CN111711666B (zh) 一种基于强化学习的车联网云计算资源优化方法
CN114138373B (zh) 一种基于强化学习的边缘计算任务卸载方法
CN113630893B (zh) 基于无线信道信息的5g与tsn联合调度方法
Chen et al. Minimizing age-of-information for fog computing-supported vehicular networks with deep Q-learning
Qiu et al. Maintaining links in the highly dynamic fanet using deep reinforcement learning
CN116390125A (zh) 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法
Tam et al. Intelligent massive traffic handling scheme in 5G bottleneck backhaul networks
Gao et al. A dynamic priority packet scheduling scheme for post-disaster UAV-assisted mobile ad hoc network
CN114189937A (zh) 基于深度强化学习的实时集中式无线网络调度方法和设备
Bagaa et al. On using Deep Reinforcement Learning to dynamically derive 5G New Radio TDD pattern
Waqas et al. A novel duplex deep reinforcement learning based RRM framework for next-generation V2X communication networks
Khuntia et al. An actor-critic reinforcement learning for device-to-device communication underlaying cellular network
Cordeschi et al. Fairness-constrained optimized time-window controllers for secondary-users with primary-user reliability guarantees
Tshilongamulenzhe et al. Traffic-based Congestion Management algorithm for Wireless Sensor networks
CN115484205A (zh) 确定性网络路由与队列调度方法及装置
Song et al. Adaptive Generalized Proportional Fair Scheduling with Deep Reinforcement Learning
Şahin et al. Scheduling Out-of-Coverage Vehicular Communications Using Reinforcement Learning
Falahatraftar et al. A multiple linear regression model for predicting congestion in heterogeneous vehicular networks
Ouferhat et al. A QoS scheduler packets for wireless sensor networks
Luan et al. A Scheme for flexible-hybrid subtask offloading in a two-tier UAV-assisted MEC network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant