CN110753319A

CN110753319A - 异构车联网中面向异质业务的分布式资源分配方法及系统

Info

Publication number: CN110753319A
Application number: CN201910968516.8A
Authority: CN
Inventors: 田杰; 刘倩倩; 刘爽; 支媛
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-02-04
Anticipated expiration: 2039-10-12
Also published as: CN110753319B

Abstract

本公开提供了一种异构车联网中面向异质业务的分布式资源分配方法及系统，获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息；采用时延违约概率和归一化的吞吐量，构建V2V用户时延敏感业务的效用函数和时延容忍业务的效用函数，得到V2V用户异质业务的混合效用函数；建立多用户的马尔可夫决策模型，确定状态空间、动作空间和回报函数；利用MADDPG算法集中训练分布执行的思想，根据训练好的Actor网络，输入每个V2V用户当前观测到的状态信息，得到通信信道和发射功率的最佳动作，进而得到最佳的资源分配方式；本公开能够更加智能和高效地配置网络中的有限资源来满足具有异质业务类型的V2V用户通信的需求，提升了资源的利用效率。

Description

异构车联网中面向异质业务的分布式资源分配方法及系统

技术领域

本公开涉及无线通信技术领域，特别涉及一种异构车联网中面向异质业务的分布式资源分配方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

随着5G移动通信的到来，为车联网提供一个新兴的平台的同时，也为其提出了更高的要求，如无处不在的连接、低时延、高可靠和高速率的支持各种应用等。然而不可忽视的是5G时代的网络资源也是十分有限的，特别是频谱资源。因此如何智能高效地分配资源、提高有限资源的利用率、减少资源的浪费成为车联网中一个重要的研究课题和急需解决的问题。

目前已有车联网中的资源分配问题一般具有两种解决的方式，一种是集中式，另一种是分布式。集中式的解决方法是以一个中央控制器收集全部用户的信息后，经全面的综合、分析、处理之后做出一个全局最优的决策。虽然做出的决策全局最优，但集中式的算法复杂度较高且需综合全部用户的信息，这对中央控制器的计算能力要求较高，因而不适合于具有巨大接入量且实时变化的车联网应用场景。而分布式的解决方式，可以使用户独立的做出决策，最大化自己的效用函数，通常收敛于局部最优解，但因其具有更快的决策速度和较低的算法复杂度而被大家欢迎。考虑到异构车联网的网络特征，分布式的资源分配方法更加适合车联网的应用场景。同时资源分配问题具有非凸性和组合性，一般很难用传统的分配方法得到一个全局最优解。并且最近研究的解决方法如博弈论、线性规划算法、马尔可夫近似策略等都需要一个精准完备的交互信息才能有效的解决联合资源分配问题，然而通常情况是很难在实时变化的环境中获得完备的交互信息，因此亟需探寻更加智能有效的资源分配方法。人工智能为解决上述问题提供了一种潜在的解决途径，其中强化学习算法可以通过实时的与环境进行交互从而获得最优策略来解决智能决策问题。

本公开发明人发现，现有的强化学习算法如Q-learning方法虽然提供了一种很好解决思路，但现有的研究中会因为状态和动作空间的增大，从而使Q值表变得巨大，导致收敛变慢。为解决此问题，大多数文献采用了DQN强化学习的算法，用神经网络(NN)来代替Q-learning中巨大的Q表，但由于车联网是一种多用户的应用场景，在这种情况的情况下多个用户同时做出决策会导致环境的不稳定，因此违反了Q-leaning的收敛条件以及不能使用经验重放的方法来加快学习速率而且Q-learning算法的状态和动作空间只适用于离散的情况，无法应用于连续的状态观测和动作估计，因而不适合于车联网场景下巨大的接入量和时变环境下连续做出决策的情况。

发明内容

为了解决现有技术的不足，本公开提供了一种异构车联网中面向异质业务的分布式资源分配方法及系统，能够更加智能和高效地配置网络中的有限资源来满足具有异质业务类型的车辆对车辆(V2V，Vehicle-to-Vehicle)用户业务需求，提升了资源的利用效率。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种异构车联网中面向异质业务的分布式资源分配方法。

一种异构车联网中面向异质业务的分布式资源分配方法，步骤如下：

获取异构蜂窝车联网系统内的蜂窝用户、通信信道和基于D2D(Device-to-Device)通信的V2V用户信息；

采用时延违约概率和归一化的吞吐量，构建V2V用户时延敏感业务的效用函数和时延容忍业务的效用函数，得到V2V用户异质业务的混合效用函数；

建立多用户的马尔可夫决策模型，确定状态空间、动作空间和回报函数，确定动作空间为通信信道的选择和发射功率的选择，并以混合效用最大化为目标，确定回报函数；

通过采用MADDPG算法，集中训练actor和critic网络，每个agent分布执行训练好的Actor网络，根据每个V2V用户当前观测到的状态信息，以每一个V2V用户获得最高的回报为目标，得到通信信道和发射功率的最佳动作，进而得到最佳的资源分配方式。

作为可能的一些实现方式，异构的蜂窝车联网系统内，包括多个蜂窝用户和多对基于D2D的V2V用户，所述蜂窝用户使用相互正交的蜂窝链路与相连基站进行通信，所述V2V用户复用蜂窝用户的上行链路，且多个V2V用户能够复用一个信道但每一个V2V用户最多占用一个信道。

作为可能的一些实现方式，所述时延敏感业务的效用函数直接采用基于时延违约概率的丢包率获取，具体为：

其中，

为第k个用户的时延敏感类的效用函数，P^dly为超过时延要求的丢包率，T_th表示时延要求的阙值，T_k为队列中等待的时间；

所述时延容忍类业务采用整个传输过程中归一化的吞吐量来反映通信质量的总体的情况，所述时延容忍类业务的效用函数具体为：

其中，

表示第K个用户时延容忍类业务的效用函数，W^th为V2V用户传输时延容忍类业务所需的物理吞吐量，W_k为V2V用户实时的吞吐量。

当V2V用户具有时延敏感和时延容忍两类异质业务时，建模为混合效用函数：

其中，b_k为业务类型标识因子，b_k＝1表示为时延敏感类业务，b_k＝0表示时延容忍类业务。

作为可能的一些实现方式，建立多用户的马尔可夫决策模型，确定状态空间、动作空间和回报函数；

所述状态空间包含V2V用户的信道的接入情况、发射功率、业务的类型和干扰情况，s_k表示第k个用户的状态；

所述动作空间为每个V2V用户的当前动作，所述当前动作为V2V用户的信道选择和发射功率选择，a_k表示第k个V2V用户的当前动作；

所述回报函数为当第k个V2V在状态s_k时，采取了动作a_k就会获得一个立即回报r。

作为进一步的限定，采用MADDPG的算法，Critic网络采用DQN强化学习算法思想，经过贝尔曼方程的递归计算得到累积回报函数Q：

作为可能的一些实现方式，利用MADDPG算法，集中训练Actor网络和Critic网络，分布执行Actor网络决策，得到最佳的资源分配方式，具体为：

(9-1)初始化蜂窝用户和V2V用户数、学习速率、迭代次数、Critic网络和Actor网络的参数，reply buffer D＝0；

(9-2)第一次迭代开始，每一个V2V用户从环境中得到一个初始的状态S；

(9-3)每一个V2V用户根据Actor网络确定性策略由初始状态，选择一个动作a_i，并得到一个立即回报r，更新到下一个状态S’，将集合(S,a,r,S')，存入到reply buffer D中；

在MADDPG算法中，集中训练表示为，每一个V2V用户使用经验回放方法，观测到其他用户的信息，其中经验缓存区D具体表示为一个集合：

D＝{s₁,s₂……s_K,a₁,a₂……a_K,r₁,r₂……r_K,s₁',s₂'……s_K'}；

(9-4)Critic网络的构建和更新：对于每一个V2V用户，从D集合中选取一部分数据，训练一个集中的动作值函数，输入网络中所有V2V用户的状态和动作信息，输出此用户此状态下每一个动作的输出Q值，再利用最小化loss函数，更新Critic网络；

(9-5)Actor网络的构建和更新：对于每一个V2V用户，从D中选取一部分数据，根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值，输出此状态下选择最佳的动作，利用确定性策略梯度下降方法，更新Actor网路；

(9-6)重复步骤(9-3)、(9-4)和(9-5)到设定得次数，第一迭代结束；再迭代到设定的次数，更新Actor和Critic的网络参数，并返回训练好的在线Actor网络；

(9-7)利用训练好的Actor网络，输入每个V2V用户当前观测到的状态信息，得到关于通信信道和发射功率选择的最佳动作，进而得到最佳的资源分配方式。

作为可能的一些实现方式，所述步骤(9-4)中，Critic网络包括两个神经网络，分别为Critic目标网络和在线的估计网络，两者具有相同的网络参数，两个网络用于实现通过每个V2V用户输入的状态和动作，输出相应的Q值，通过最小化loss函数，即最小化传回的目标Q值减去估计Q值，进行网络参数的更新；

作为可能的一些实现方式，所述步骤(9-5)中，Actor的网络包括两个神经网络，分别为Actor目标网络和在线的策略估计网络，两者具有相同的网络参数，根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值决定输出动作，通过确定性策略梯度下降方法更新网路参数。

本公开第二方面提供了一种异构车联网中面向异质业务的分布式资源分配系统。

一种异构车联网中面向异质业务的分布式资源分配系统，包括：

数据采集模块，被配置为：获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息；

数据预处理模块，被配置为：采用时延违约概率和归一化的吞吐量，构建V2V用户的时延敏感业务的效用函数和时延容忍业务的效用函数，得到V2V用户异质业务的混合效用函数；

数据处理模块，被配置为：建立多用户的马尔可夫决策模型，确定状态空间、动作空间和回报函数，确定动作空间为通信信道的选择和发射功率的选择，并以混合效用最大化为目标，确定回报函数；

资源分配模块，被配置为：通过采用MADDPG算法训练好的Actor网络，根据每个V2V用户当前观测到的状态信息，以每一个V2V用户获得最高的回报为目标，得到关于通信信道和发射功率选择的最佳动作，进而得到最佳的资源分配方式。

本公开第三方面提供了一种介质，其上存储有程序，该程序被处理器执行时实现本公开所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现本公开所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。

与现有技术相比，本公开的有益效果是：

本公开能够对异构蜂窝车联网中的V2V用户异质的业务类型进行智能、精准的资源分配，能够更好的满足V2V用户在不同时刻执行不同业务的通信要求即可以同时满足时延敏感业务的低时延的要求和满足时延容忍类业务整体通信质量的要求。

本公开通过利用深度强化学习的MADDPG算法，每一个V2V用户可以在集中训练网络时，结合系统内所有用户的状态和动作信息做出一个近似逼近全局最优解的决策，即具有集中式的优点具有全局观。

本公开所述的内容，当网络训练好在分布执行时，可以只根据自身观测到的状态信息就做出一个近似全局最优解的决策，即具有分布式的优点更快的决策速度。

通过本公开所述的方法，可以对异构蜂窝车联网中的V2V用户异质的业务类型进行高效、精准的资源分配，具有更高的智能性。

本公开吸取了集中式方法中全局意识的思想，解决了完全分布式方法中因自私的最大化自己效用函数而导致收敛于局部最优解的问题。

本公开所述的MADDPG算法因吸取了DQN和DDPG算法的优点，解决了其他强化学习算法在车联网场景下因接入量巨大而导致决策收敛速度慢和环境不稳定的问题。

附图说明

图1为本公开实施例1中基于MADDPG算法实现资源分配的流程示意图。

图2为本公开实施例1中MADDPG算法集中训练和分布执行的结构示意图。

图3为本公开实施例1中包括基站、蜂窝用户和V2V用户的场景部署的应用架构示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1：

如图1-3所示，本公开实施例1提供了一种异构车联网中面向异质业务的分布式智能资源分配方法；

步骤一、设定异构的蜂窝车联网系统内，有M个蜂窝用户，序列为M＝{1,2,3......m}，其使用相互正交的蜂窝链路与相连基站进行通信，信道序列为F＝{1,2,3......F},|F|＝|M|，K对基于D2D的V2V用户，序列为K＝{1,2,3......k}，其复用蜂窝用户的上行链路，具有时延敏感和时延容忍两种业务类型；

步骤二、采用时延违约概率和归一化的吞吐量，构建V2V用户时延敏感和时延容忍业务的效用函数；

为提高信道的利用率，V2V用户复用蜂窝用户的上行链路，且多个V2V用户可以复用一个信道但每一个V2V用户最多占用一个信道：

其中，

表示第i个V2V用户的信道接入因子；

任一V2V用户k，在第f个信道上的信干噪比为：

其中，

表示第k个V2V用户在信道f上的信道增益，

表示在第m个蜂窝用户在信道f上的信道增益；

示第k个V2V用户在信道f上的传输功率，

表示第m个蜂窝用户在信道f的传输功率，σ²表示高斯白噪声，d为非奇异信道传输模型的路径损耗：

其中，l为用户之间的距离，α为路径损耗因子；

中断概率表示为当信道的信干噪比小于一定的阈值时，在接受方信号将不能正确解码，因此造成信号传输的中断，此处的信道采用服从瑞利分布的信道，用此概率来表示数据包的在传输过程中的因传输错误的丢包概率：

其中，

γ_th表示时延的门限值，

是瑞利分布的参数，g代表此时信道增益；

端到端时延包括排队时延和传输时延，采用M/M/1的排队模型，在队列中等待的时间为：

其中，λ为业务包到达的平均速率，l_k表示平均数据包长，C_k表示数据的传输速率，利用香浓公式计算得：

其中，W表示为总的频带宽度，|F|表示正交信道的数目；

在队列中等待的时间大于时延要求的阙值后即被丢弃，用此概率来表示超过时延要求的丢包率：

其中，T_th表示时延要求的阙值，时延敏感类业务较时延容忍类业务的时延阙值要小一些；

时延敏感类业务，对时延要求较高，因此直接采用基于时延违约概率的丢包率，可以更直接反映时延敏感类业务的要求：

时延容忍类业务，采用整个传输过程中归一化的吞吐量来反映通信质量的总体的情况：

其中，W^th为V2V用户传输时延容忍类业务所需的物理吞吐量，W_k为V2V用户实时的吞吐量：

W_k＝λ^*(1-p^loss)≈λ^*(1-p^dly-p^err) (10)

其中，，R_k(t)，为k用户在t时刻的混合效用函数，b_k为业务类型标识因子，b_k＝1表示为时延敏感类业务，b_k＝0表示时延容忍类业务，

表示第k个用户的时延敏感类的效用函数，

表示第k个用户时延容忍类业务的效用函数；

步骤三、确立多用户的马尔可夫决策模型，确定状态空间、动作空间和回报函数，其具体为：

状态空间S:s_k表示第k个用户的状态，其中包括信道的接入情况、业务的类型、发射功率和干扰情况。

状态空间s＝(s₁,s₂,s₃……s_k)；

表示，在V2V用户的接受端所监测到的干扰值，b_k表示业务的类型，b_k＝1表示时延敏感类业务，b_k＝0为时延容忍类的业务。

动作空间A：a_k表示第k个V2V用户的当前动作，包含了V2V用户信道的选择和发射功率的选择，我们将功率离散化分成3个等级，p∈Ω,Ω＝{1Δ,2Δ,3Δ}；

因此动作空间a＝(a₁,a₂,a₃……a_k)

由于采用MADDPG算法，其中actor网络采用确定性策略梯度方法，所以

式中，

表示actor网络的参数，

表示为在

的网络参数下确定性策略下选择的动作；

回报函数r:当第k个V2V用户在状态s_k时，采取了动作a_k就会获得一个立即回报r：

采用MADDPG的算法，累积回报函数是由Critic网络，采用DQN强化学习算法思想获得，同时经过贝尔曼方程的递归计算得到：

式中，γ为折扣因子；

因此，通过这样的回报函数的设置，每一个V2V用户为了获得更高的回报，面对两类异质业务，就会精准地选择更加合适的信道和发射功率。

步骤四、利用MADDPG算法，集中训练Actor和Critic网络，分布执行Actor决策网络，得到最佳的资源分配方式，其具体步骤是：

第一步：初始化V2V用户和蜂窝用户数,学习速率，迭代次数，Critic network Q(a,s|θ^Q)的网络参数，Actor network u(s|θ^u)的网络参数，reply buffer D＝0；

有K对V2V用户，其中θ^u’表示为Actor的网络参数，θ^Q’为Critic网络的参数，所有用户网络参数表示为：

第二步：第一次迭代开始，每一个V2V用户从环境中得到一个初始的状态S；

第三步：每一个V2V用户根据Actor网络的确定性策略由初始状态，选择一个动作

并得到一个立即的回报r，更新到下一个状态S’，将集合(S,a,r,S')存入到reply buffer D中；

D＝{s₁,s₂……s_K,a₁,a₂……a_K,r₁,r₂……r_K,s₁',s₂'……s_K'} (14)

第四步：Critic网络的构建和更新，对于每一个V2V用户，从D中选取一部分数据，训练一个集中的动作值函数，输入网络中所有V2V用户的状态和动作信息，输出此用户此状态下每一个动作的输出值，再利用最小化loss函数，更新Critic网络；

Critic网络有两个结构相似的神经网络，一个在线的估计网络，一个是目标网络，具有相同的网络参数θ^u’，两个网络用于实现通过每个用户输入的状态和动作，输出相应的Q值，然后根据最小化loss函数，即传回的TD error目标Q值减去估计Q值，进行网络参数的更新，输出y表示由目标网络输出的Q值：

其中，

表示集中动作值函数，其输入是所有用户的动作和所有用户的状态，输出的是每一个用户的Q值，r_i表示i个用户的立即回报，然后是a_j'＝u_j'(s_j')|θ^u表示根据Actor网络确定性策略输出的动作，表示每一个用户的确定性策略。

Critic网络的θ^Q’由最小化loss函数，即传回的TD error目标Q值减去估计Q值，，来更新网络参数：

式中，θ^Q’为critic的网络参数；

第五步：Actor网络的构建和更新，对于每一个V2V用户，从D中选取一部分数据，根据自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值，输出此状态下选择的最佳动作，再根据确定性策略梯度下降方法，更新Actor网路；

Actor的网络由两个结构相似的神经网络组成，一个是在线的策略估计网络，一个是目标网络，具有相同的网络参数θ^u'，采用DDPG算法，a＝u(s_i)是对于每一个状态根据确定性策略产生一个确定的动作，Actor网络实现的功能是，根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值决定输出动作，网络更新的方式是确定性策略梯度下降的方法更新网路参数θ^u’；

表示为从Critic网络传来的集中的状态-动作Q函数在这个方向上的梯度；

是Actor网络，状态到动作映射的确定性策略的梯度；

Actor有这两部分的梯度，就可以更新网络参数θ^u’，从而可以更好的由状态确定相应的动作；

第六步：重复上述步骤第三步、第四步和第五步到设定得次数，第一迭代结束；再迭代到设定的次数，更新Actor和Critic的网络参数，并返回训练好的在线Actor网络；

平滑的更新两个网络的参数：

式中，τ为网络参数的平滑更新因子；

返回在线的Actor网络：

在线Actor网络具体为：

第七步：利用训练好的Actor网络，输入每个V2V用户当前观测到的状态信息，就可得到的关于信道和功率选择的最佳动作，即得到最佳的资源分配方式。

实施例2

本公开实施例2提供了一种异构车联网中面向异质业务的分布式资源分配系统，包括：

数据预处理模块，被配置为：采用时延违约概率和归一化的吞吐量，构建V2V用户时延敏感业务的效用函数和时延容忍业务的效用函数，得到V2V用户异质业务的混合效用函数；

数据处理模块，被配置为：建立多用户的马尔可夫决策模型，确定V2V用户的动作空间为通信信道的选择和发射功率的选择；

资源分配模块，被配置为：利用MADDPG算法中，训练好的Actor网络，根据每个V2V用户当前观测到的状态信息，以混合效用最大化为目标，得到通信信道和发射功率的最佳动作，进而得到最佳的资源分配方式。

本实施例所述的系统利用实施例1中的异构车联网中面向异质业务的分布式资源分配的具体方法进行资源分配。

实施例3：

本公开实施例3提供了一种介质，其上存储有程序，该程序被处理器执行时实现本公开实施例1所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现本公开实施例1所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种异构车联网中面向异质业务的分布式资源分配方法，其特征在于，步骤如下：

获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息；

通过采用MADDPG算法训练好的Actor网络，根据每个V2V用户当前观测到的状态信息，以每一个V2V用户获得最高的回报为目标，得到关于通信信道和发射功率选择的最佳动作，进而得到最佳的资源分配方式。

2.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法，其特征在于，异构的蜂窝车联网系统内，包括多个蜂窝用户和多对基于D2D的V2V用户，所述蜂窝用户使用相互正交的蜂窝链路与相连基站进行通信，所述V2V用户复用蜂窝用户的上行链路，且多个V2V用户能够复用一个信道但每一个V2V用户最多占用一个信道。

3.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法，其特征在于，所述时延敏感业务的效用函数直接采用基于时延违约概率的丢包率获取，具体为：

其中，

其中，

其中，R_k(t)，为k用户在t时刻的混合效用函数，b_k为业务类型标识因子，b_k＝1表示为时延敏感类业务，b_k＝0表示时延容忍类业务。

4.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法，其特征在于，建立多用户的马尔可夫决策模型，确定状态空间、动作空间和回报函数；

所述状态空间包含V2V用户的信道接入情况、发射功率、业务类型和干扰情况，s_k表示第k个用户的状态；

5.如权利要求4所述的异构车联网中面向异质业务的分布式资源分配方法，其特征在于，利用MADDPG算法，Critic网络采用DQN强化学习算法思想，经过贝尔曼方程的递归计算得到累积回报函数。

6.如权利要求1所述的异构车联网中面向异质业务的分布式资源分配方法，其特征在于，利用MADDPG算法，集中训练Actor网络和Critic网络，分布执行Actor决策网络，得到最佳的资源分配方式，具体为：

(9-3)每一个V2V用户根据Actor网络的确定性策略由初始状态，选择一个动作a_i，并得到一个立即回报r，更新到下一个状态S’，将集合(S,a,r,S')，存入到reply buffer D中；

在MADDPG算法中，集中训练表示为，每一个V2V用户使用经验回放方法，观测到其他用户的信息，其中经验缓存区D具体表示为一个所有用户此时的状态，选择动作，获得立即回报，下一时刻状态的集合：

(9-4)Critic网络的构建和更新：对于每一个V2V用户，从D中选取一部分数据，训练一个集中的动作值函数，输入网络中所有V2V用户的状态和动作信息，输出此用户此状态下每一个动作的输出Q值，再利用最小化loss函数，更新Critic网络；

(9-5)Actor网络的构建和更新：对于每一个V2V用户，从D中选取一部分数据，根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值，输出此状态下最佳的动作，利用确定性策略梯度下降方法，更新Actor网路；

7.如权利要求6所述的异构车联网中面向异质业务的分布式资源分配方法，其特征在于，所述步骤(9-4)中，Critic网络包括两个神经网络，分别为Critic目标网络和在线的估计网络，两者具有相同的网络参数，两个网络用于实现通过每个V2V用户输入的状态和动作，输出相应的Q值，根据最小化loss函数，即传回的TD error目标Q值减去估计Q值，进行网络参数的更新；

或，所述步骤(9-5)中，Actor的网络包括两个神经网络，分别为Actor目标网络和在线的策略估计网络，两者具有相同的网络参数，根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值决定输出动作，通过确定性策略梯度下降方法更新网路参数。

8.一种异构车联网中面向异质业务的分布式资源分配系统，其特征在于，包括：

9.一种介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的异构车联网中面向异质业务的分布式资源分配方法中的步骤。