CN109068391B - 基于边缘计算和Actor-Critic算法的车联网通信优化算法 - Google Patents

基于边缘计算和Actor-Critic算法的车联网通信优化算法 Download PDF

Info

Publication number
CN109068391B
CN109068391B CN201811131357.8A CN201811131357A CN109068391B CN 109068391 B CN109068391 B CN 109068391B CN 201811131357 A CN201811131357 A CN 201811131357A CN 109068391 B CN109068391 B CN 109068391B
Authority
CN
China
Prior art keywords
user
internet
channel
actor
vehicles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811131357.8A
Other languages
English (en)
Other versions
CN109068391A (zh
Inventor
李卓珩
韩双双
王晓
王飞跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Academy Of Intelligent Industries
Original Assignee
Qingdao Academy Of Intelligent Industries
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Academy Of Intelligent Industries filed Critical Qingdao Academy Of Intelligent Industries
Priority to CN201811131357.8A priority Critical patent/CN109068391B/zh
Publication of CN109068391A publication Critical patent/CN109068391A/zh
Application granted granted Critical
Publication of CN109068391B publication Critical patent/CN109068391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明涉及一种基于边缘计算和Actor‑Critic算法的车联网通信优化算法,其具体步骤为:设定车联网通信系统内,用户序列为{1,2,...,k,...,K},共有K个用户;子信道序列为{1,2,...,n,...,N},共有N条子信道;雾接入节点序列{1,2,...,m,...M},共有M个接入节点,节入节点的计算能力序列{1,2,...cm,...,cM};用户上传的任务序列{1,2,...tk,...,tK},共有tK个任务;采用非正交多址接入NOMA方式将用户接入车联网通信系统;用户上传的任务进行边缘计算并将计算结果返回至用户;利用Actor‑Critic算法优化资源分配方式,得到最佳资源分配方式。本发明将非正交多址接入、边缘计算和强化学习进行结合,有效地解决了车联网中存在的接入量巨大的问题,同时降低整个通信过程中的时延,并在不同环境下得到最佳的资源分配方式,提高了能源利用效率。

Description

基于边缘计算和Actor-Critic算法的车联网通信优化算法
技术领域
本发明属于车联网技术领域,涉及车联网通信技术,具体地说,涉及了一种车联网通信优化算法。
背景技术
当前汽车技术的发展,新能源汽车和车联网技术的普及应用是两大发展趋势。车联网(英文:Internet of Vehicles)是由车辆位置、速度和路线等信息构成的巨大交互网络。车联网融合传感器技术、移动通信技术、大数据处理技术等多种技术于一体,总体而言,可以分为“云”、“管”、“端”三部分。“云”主要包括数据管理、多业务支持的车联网平台;“管”主要包括V2X(英文:vehicle to everything,即车对外界的信息交换)通信以及移动蜂窝通信技术;“端”包括车载传感器、车载电脑等终端设备。虽然上述技术均有所突破,但面对车联网巨大的用户接入数量,原有的网络难以应对并提高质量的服务,随着巨大的用户接入量而来的问题是保障低时延困难和更高的能耗。
面对巨大的用户接入量,现有传统的正交接入方式,如频分多址(简称:FDMA)、码分多址(简称:CDMA)和时分多址(简称:TDMA)均已经无法满足如此之大的接入量。另一方面,目前现有的频率资源在应对超大容量也有些捉襟见肘,而针对更高频率的通信的研究还没有完全成熟,因此,如何更加高效地利用现有频谱资源是一个非常重要的问题。
在车联网中,处于对安全问题的考虑,车联网通信系统对车辆操作的控制要做到通信的时延尽可能低,在一个完整的控制过程中,通信的时延是一个非常重要的因素。车联网中,边缘计算被认为是一种解决时延问题的有效办法,由于采用边缘计算,用户的计算任务下不需要穿过整个网络到达网络中心进行计算,相反地,网络只需要用户将任务上传至网络边缘的计算节点上就可以完成计算,这样就减少了信息跨越的层数,也就节约了时间。现有的边缘计算主要是通过设计分布式计算算法,合理的拆分用户的请求数据,使得各个边缘节点能互相协作,在保障不超过时延要求的同时,使得各个节点的利用率得到提高。但目前的各类基于边缘计算的方法中,在利用边缘计算解决时延问题的同时却并未考虑能源利用率的问题。而在面对大量接入用户的车联网中,若分配带宽和功率不合理,则整个通信系统能耗将会及其惊人。据统计,信息与通信行业的能量损耗问题日趋严重,预计在2020年能量损耗将达到1430吨,占全球能源损耗的10%左右。因此,提升通信系统中的能源利用率问题就显得格外重要。
此外,因为车联网的特殊性,即车辆的移动性,车辆和基站之间的信道情况是一直在变化的,而且网络的拓扑结构不断变化。这使得传统的利用凸优化的方法来实现网络优化难以实行,因为凸优化需要设置一个固定的目标函数,因此并不适用于优化信道状况和网络拓扑不断变化的车辆网。
发明内容
本发明针对现有技术存在的保障低时延困难、能耗高等上述问题,提供一种基于边缘计算和Actor-Critic算法的车联网通信优化算法,该优化算法能够解决车辆网中资源分配和低延时问题,提高能源利用率。
为了达到上述目的,本发明提供了一种基于边缘计算和Actor-Critic算法的车联网通信优化算法,其具体步骤为:
设定车联网通信系统内,用户序列为{1,2,...k,...,K},共有K个用户;子信道序列为{1,2,...,n,...,N},共有N条子信道;雾接入节点序列{1,2,...,m,...M},共有M个接入节点,节入节点的计算能力序列{1,2,...cm,...,cM};用户上传的任务序列{1,2,,...tk,...,tK},共有tK个任务;
采用非正交多址接入NOMA方式将用户接入车联网通信系统;
用户上传的任务进行边缘计算并将计算结果返回至用户;
利用Actor-Critic算法优化资源分配方式,得到最佳资源分配方式。
优选的,采用非正交多址接入NOMA方式将用户接入车联网通信系统时,每个用户至少分配一条子信道,对于子信道n,信道内传输的信号为所有在该信道内传输信号的叠加,即子信道内传输的信号为:
Figure BDA0001813648180000031
式中,Mn表示在第n条子信道上的用户数;pi,n表示第i个用户的信号在子信道n的传输功率,若用户i并不占用子信道n,则pi,n=0;si表示传送给用户i的符号;
在车联网通信系统接收端,任一用户k在子信道n的接收信号为:
Figure BDA0001813648180000032
式中,hk,n为瑞利信道增益与基站到用户之间路径损耗的乘积,zk,n为均值0、方差为
Figure BDA0001813648180000033
的加性高斯白噪声;
定义
Figure BDA0001813648180000034
为对噪声功率归一化的信道响应CRNN,假设用户的信道响应CRNN大小与用户编号相对应,则对第n条子信道的信道响应CRNN进行排序如下:
Figure BDA0001813648180000035
按照上述信道响应CRNN排序的顺序,对任一用户k,消除信道响应CRNN比用户k的信道响应CRNN小的用户的信号,利用连续干扰消除SIC对用户k先进行解码,成功解码后,将第n条子信道的所有信道响应CRNN的用户信号减去用户解码成功的用户k的信号,然后继续按照上述方法解码,解码后得到信噪比公式为:
Figure BDA0001813648180000041
利用香农公式求得非正交多址接入NOMA方式下第k个用户在子信道n上的最大信息速率为:
Figure BDA0001813648180000042
则,车联网通信系统的最大信息速率为:
Figure BDA0001813648180000043
优选的,用户上传的任务进行边缘计算并将计算结果返回至用户,其具体步骤为:
用户k将任务tk上传至主接入节点,主接入节点将任务tk拆分成若干个子任务,用tk,m表示主接入节点将任务tk拆分后分配给雾接入节点m的子任务,则雾接入节点m计算子任务tk,m所需要的时延lk,m为:
Figure BDA0001813648180000044
若时延lk,m低于设定的最高时延阈值τ,则选中该雾接入节点m为辅助节点,继续上述操作直至
Figure BDA0001813648180000045
即用户k的计算任务全部分配完毕;
辅助节点计算完成后将计算结果返回至主接入节点,主接入节点将计算结果返回至用户。
优选的,利用Actor-Critic算法优化资源分配方式,得到最佳资源分配方式的具体步骤为:
初始化各参数,动作空间A,状态空间S,Actor在时刻t做出的动作at为:
at=(pk,i(t),bk(t)) (8)
式中,动作at包含两个参数,分别是分配给k用户的第i个子信道的功率pk,i(t)以及分配给用户k的子信道数bk(t);
用各个用户的信干噪比表示车联网通信系统的状态为:
st=(γ1(t),γ2(t),…,γM(t)) (9)
式中,γM(t)为第M个用户的信干噪比,表示第M个用户接收的信号功率除以噪声功率和其他用户的干扰功率之和;
Actor按照策略π采取动作,策略π为在不同状态s时选择不同动作a的条件概率,所以策略π写为
π(a|s)=Pr(at=a|st=s) (10)
对于策略π,选择正态分布;
按照策略π采取动作后,动作对环境产生影响,并产生相应奖励值Rt,该奖励值Rt为车联网通信系统总能量利用效率与总时延的比值,能量利用效率定义为车联网通信系统的总传输速率除以总功率;则有:
Figure BDA0001813648180000051
式中,rsum(t)为所有用户的总传输速率,delayk(t)为所有用户的总时延;
车联网通信系统观测到环境变化,并将变化后的状态返回到Actor和Critic两个部分,同时奖励值Rt也返回Critic中;
根据返回奖励值Rt的不同值,Critic对Actor做出的对应动作进行判断,在不断地迭代过程中,使迭代过程的累加奖励值之和最大,利用马尔科夫过程描述该过程,则设置的奖励值函数Qπ为:
Figure BDA0001813648180000052
式中,Eσ表示为在沿着路径σ行进的所能获得的奖励值的期望值,β表示对做出的动作之后的可预见程度,σ表示一条路径;
将上述奖励值函数Qπ用Bellman方程的形式表示为:
Qπ(s,a)=E{Rt+βQπ(st+1,at+1)} (13)
式中,E表示为{}中迭代方程的期望值;
对奖励值函数Qπ求期望,得到目标函数J(π)为:
J(π)=Eπ{Qπ(s,a)} (14)
用向量θ=(θ1,θ2,…,θM)构建策略π,通过不断修正策略π,使得按照策略π选择的动作使得目标函数J(π)最大;
对目标函数J(π)进行求导,并沿着梯度下降的方向修改向量θ,有:
Figure BDA0001813648180000061
更新θ,有:
Figure BDA0001813648180000062
式中,α为学习速率,是为了不让θ变化的太快以至于产生震荡而无法收敛;
通过上述方法不断迭代直至策略π收敛,得到最佳资源分配方式。
与现有技术相比,本发明的有益效果在于:
(1)本发明将非正交多址接入、边缘计算和强化学习进行结合,有效地解决了车联网中存在的接入量巨大的问题,同时降低整个通信过程中的时延,并在不同环境下得到最佳的资源分配方式,提高了能源利用效率。
(2)本发明采用非正交多址接入方式将用户接入车辆网通信系统,可以连接更多的用户同时保证用户的QoS,提高频谱利用率和提高车联网通信系统吞吐量,降低运营商的运营成本。
(3)本发明采用边缘计算进行计算,拉近了用户与计算单元的距离,使用户的数据不用穿过多层的网络就能到达计算单元,减少了用户数据上传的时间。同时利用任务拆分的方法利用各个网络边缘接入节点的计算单元共同完成计算任务,减小计算时延,降低了整个通信过程的时延,有效解决了车联网时延问题。
(4)本发明采用强化学习的Actor-Critic算法优化资源分配方式,解决资源分配问题,在未知信道的情况下采用不断尝试不同的资源分配方法,再从环境中得到反馈,不断修正自己的资源分配方法,直到收敛的方式时十分适合在车联网中应用的,能在不同的环境下得到最佳的分配方式,提高能源的利用率,减少能耗,节约能源成本。
附图说明
图1为本发明边缘计算的网络结构图。
图2为本发明采用Actor-Critic算法优化资源分配方式的流程框图。
图中,1、核心网,2、云端,3、前传链路,4、雾接入端。
具体实施方式
下面,通过示例性的实施方式对本发明进行具体描述。然而应当理解,在没有进一步叙述的情况下,一个实施方式中的元件、结构和特征也可以有益地结合到其他实施方式中。
本发明揭示了一种基于边缘计算和Actor-Critic算法的车联网通信优化算法,其具体步骤为:
步骤一、设定车联网通信系统内,用户序列为{1,2,...,k,...,K},共有K个用户;子信道序列为{1,2,...,n,...,N},共有N条子信道;雾接入节点序列{1,2,...,m,...M},共有M个接入节点,节入节点的计算能力序列{1,2,...cm,...,cM};用户上传的任务序列{1,2,,...tk,...,tK},共有tK个任务。
步骤二、采用非正交多址接入NOMA方式将用户接入车联网通信系统;每个用户至少分配一条子信道,对于子信道n,信道内传输的信号为所有在该信道内传输信号的叠加,即子信道内传输的信号为:
Figure BDA0001813648180000081
式中,Mn表示在第n条子信道上的用户数;pi,n表示第i个用户的信号在子信道n的传输功率,若用户i并不占用子信道n,则pi,n=0;si表示传送给用户i的符号;
在车联网通信系统接收端,任一用户k在子信道n的接收信号为:
Figure BDA0001813648180000082
式中,hk,n为瑞利信道增益与基站到用户之间路径损耗的乘积,zk,n为均值0、方差为
Figure BDA0001813648180000083
的加性高斯白噪声;
定义
Figure BDA0001813648180000084
为对噪声功率归一化的信道响应CRNN,假设用户的信道响应CRNN大小与用户编号相对应,则对第n条子信道的信道响应CRNN进行排序如下:
Figure BDA0001813648180000085
按照上述信道响应CRNN排序的顺序,对任一用户k,消除信道响应CRNN比用户k的信道响应CRNN小的用户的信号,利用连续干扰消除SIC对用户k先进行解码,成功解码后,将第n条子信道的所有信道响应CRNN的用户信号减去用户解码成功的用户k的信号,然后继续按照上述方法解码,解码后得到信噪比公式为:
Figure BDA0001813648180000086
利用香农公式求得非正交多址接入NOMA方式下第k个用户在子信道n上的最大信息速率为:
Figure BDA0001813648180000091
则,车联网通信系统的最大信息速率为:
Figure BDA0001813648180000092
步骤三、用户上传的任务进行边缘计算并将计算结果返回至用户,边缘计算网络的结构图参见图1;其具体步骤为:
用户k将任务tk上传至主接入节点,主接入节点将任务tk拆分成若干个子任务,用tk,m表示主接入节点将任务tk拆分后分配给雾接入节点m的子任务,则雾接入节点m计算子任务tk,m所需要的时延lk,m为:
Figure BDA0001813648180000093
若时延lk,m低于设定的最高时延阈值τ,则选中该雾接入节点m为辅助节点,继续上述操作直至
Figure BDA0001813648180000094
即用户k的计算任务全部分配完毕;
辅助节点计算完成后将计算结果返回至主接入节点,主接入节点将计算结果返回至用户。
步骤四、利用Actor-Critic算法优化资源分配方式,得到最佳资源分配方式;参见图2,其具体步骤为:
初始化各参数,动作空间A,状态空间S,Actor在时刻t做出的动作at为:
αt=(pk,i(t),bk(t)) (8)
式中,动作αt包含两个参数,分别是分配给k用户的第i个子信道的功率pk,i(t)以及分配给用户k的子信道数bk(t);
用各个用户的信干噪比表示车联网通信系统的状态为:
st=(γ1(t),γ2(t),…,γM(t)) (9)
式中,γM(t)为第M个用户的信干噪比,表示第M个用户接收的信号功率除以噪声功率和其他用户的干扰功率之和;
Actor按照策略π采取动作,策略π为在不同状态s时选择不同动作a的条件概率,所以策略π写为
π(a|s)=Pr(at=a|st=s) (10)
对于策略π,选择正态分布;
按照策略π采取动作后,动作对环境产生影响,并产生相应奖励值Rt,该奖励值Rt为车联网通信系统总能量利用效率与总时延的比值,能量利用效率定义为车联网通信系统的总传输速率除以总功率;则有:
Figure BDA0001813648180000101
式中,rsum(t)为所有用户的总传输速率,delayk(t)为所有用户的总时延;
车联网通信系统观测到环境变化,并将变化后的状态返回到Actor和Critic两个部分,同时奖励值Rt也返回Critic中;
根据返回奖励值Rt的不同值,Critic对Actor做出的对应动作进行判断,在不断地迭代过程中,使迭代过程的累加奖励值之和最大,利用马尔科夫过程描述该过程,则设置的奖励值函数Qπ为:
Figure BDA0001813648180000102
式中,Eσ表示为在沿着路径σ行进的所能获得的奖励值的期望值,β表示对做出的动作之后的可预见程度,σ表示一条路径;
将上述奖励值函数Qπ用Bellman方程的形式表示为:
Qπ(s,a)=E{Rt+βQπ(st+1,at+1)} (13)
式中,E表示为{}中迭代方程的期望值;
对奖励值函数Qπ求期望,得到目标函数为:
J(π)=Eπ{Qπ(s,a)} (14)
用向量θ=(θ1,θ2,…,θM)构建策略π,通过不断修正策略π,使得按照策略π选择的动作使得目标函数J(π)最大;
对目标函数J(π)进行求导,并沿着梯度下降的方向修改向量θ,有:
Figure BDA0001813648180000111
更新θ,有:
Figure BDA0001813648180000112
式中,α为学习速率,是为了不让θ变化的太快以至于产生震荡而无法收敛;
通过上述方法不断迭代直至策略π收敛,得到最佳资源分配方式。
上述方法中,步骤二和步骤三的顺序可以互换,不分先后。
本发明上述方法将非正交多址接入、边缘计算和强化学习进行结合,有效地解决了车联网中存在的接入量巨大的问题,同时降低整个通信过程中的时延,并在不同环境下得到最佳的资源分配方式,提高了能源利用效率。
下面以一个具体的实施例对本发明上述方法做出进行一步说明。
实施例:车辆网通信系统内,假设共有20个用户,10条子信道,用i表示用户编号,n表示子信道编号。将10条信道按照随机分配方式分配给20个用户,保证每个用户至少分配一条子信道。针对于子信道,信道内传输的信号为所有在该子信道内传输信号的叠加。所以,子信道n内传输的信号
Figure BDA0001813648180000113
其中pi,n表示第i个用户的信号在子信道n的传输功率,若用户i并不占用子信道n,则pi,n=0。si表示传送给用户i的符号。
在车联网通信系统的接收端,针对任一用户k在子信道n的接收信号为:
Figure BDA0001813648180000121
式中,hk,n为瑞利信道增益与基站到用户之间路径损耗的乘积,zk,n是均值0、方差为
Figure BDA0001813648180000126
的加性高斯白噪声。
定义
Figure BDA0001813648180000122
为对噪声功率归一化的信道响应CRNN,对CRNN进行排序,对于第n条子信道,信道响应CRNN进行排序如下:
|H1,n|≥|H2,n|≥…≥|Hk,n|≥|Hk+1,n|≥…≥|H20,n| (18)
按照这个信道响应CRNN的顺序,对任一用户k,消除信道响应CRNN比用户k的信道响应CRNN小的用户的信号,利用连续干扰消除SIC对用户k先进行解码,成功解码后,将第n条子信道的所有信道响应CRNN的用户信号减去用户解码成功的用户k的信号,然后继续按照上述方法解码,解码后得到信噪比为:
Figure BDA0001813648180000123
利用香农公式求得非正交多址接入NOMA方式下第k个用户在子信道n上的最大信息速率,
Figure BDA0001813648180000124
则整个车联网通信系统的总最大信息速率为
Figure BDA0001813648180000125
假设共有5个雾接入节点,第m个节点的计算能力用cm表示,第k用户上传的任务量用tk表示。用户将任务上传至它的主接入节点后,主接入节点从剩下的4个接入节点中寻找辅助节点协同完成计算。用tk,m表示主节点将用户k的计算任务量tk拆分后分配给辅助节点m的任务量。则辅助节点m计算tk,m过程所需要的时延
Figure BDA0001813648180000131
如果lk,m低于预设时延阈值τ,则选中这个接入节点作为辅助节点。
Figure BDA0001813648180000132
时,表示用户k的任务还没有分配完毕。继续上述操作直到
Figure BDA0001813648180000133
即用户k的计算任务全部分配完毕。之后由主接入节点将计算结果返回至用户。
强化学习Actor-Critic算法优化资源分配方式中,初始化各参数,动作空间A,状态空间S,Actor在时刻t做出的动作
at=(pk,i(t),bk(t)) (8)
式中,动作at包含两个参数,分别是分配给k用户的第i个子信道的功率pk,i(t)以及分配给用户k的子信道数bk(t)。
用各个用户的信干噪比来表示车联网通信系统的状态为:
st1(t),γ2(t),…,γM(t)) (9)
式中,γM(t)为第M个用户的信干噪比,表示第M个用户接收的信号功率除以噪声功率和其他用户的干扰功率之和。
Actor按照策略π采取动作,策略π为在不同状态s时选择不同动作a的条件概率,所以策略π写为:
π(a|s)=Pr(at=a|st=s) (10)
对于策略π,选择正态分布。
按照策略π采取动作后,动作对环境产生影响,并产生相应奖励值Rt,因为本发明的目的是在保障时延的同时能够提高能源的利用效率,所以本发明中奖励值Rt为车联网通信系统总能量利用效率与总时延的比值,能量利用效率的定义为车联网通信系统的总传输速率除以总功率。则有:
Figure BDA0001813648180000141
式中,rsum(t)为所有用户的总传输速率,delayk(t)为所有用户的总时延。
智能体观测到环境变换,并将变化后的状态返回到Actor和Critic两个部分。同时,奖励值Rt也会返回到Critic中。
根据返回奖励值的不同值,Critic会对Actor做出的对应的动作进行判断,因为在不断地迭代过程中,我们的目标是使迭代过程的累加奖励值之和最大。利用马尔科夫过程描述该过程,则设置的奖励值函数Qπ为:
Figure BDA0001813648180000142
式中,Eσ表示为在沿着路径σ行进的所能获得的奖励值的期望值,β表示对做出的动作之后的可预见程度,σ表示一条路径。
这个奖励值函数Qπ能够评估在状态s时做出的动作a的好坏程度。将上述的奖励值函数Qπ用Bellman方程的形式写出来,表示为:
Qπ(s,a)=E{Rt+βQπ(st+1,at+1)} (13)
式中,E表示为{}中迭代方程的期望值。
Bellman方程体现是一种迭代的过程。因为奖励值函数Qπ表示的是沿着某条路径σ所获得的奖励值之和的期望,所以如果想要得到针对策略π的奖励值之和的期望就要对奖励值函数Qπ求期望,也得到目标函数J(π)为:
J(π)=Eπ{Qπ(s,a)} (14)
用向量θ=(θ1,θ2,…θ20)来构建策略π,所以为了使目标函数J(π)最大,我们的方法是通过不断修正策略π,使得按照策略π选择的动作可以使得目标函数最大。所以,对目标函数进行求导,并沿着梯度下降的方向来修改向量θ,有:
Figure BDA0001813648180000143
之后,更新θ,
Figure BDA0001813648180000151
式中,α为学习速率,是为了不让θ变化的太快以至于产生震荡而无法收敛;
通过上述方法不断迭代直到策略π收敛,得到最佳的资源分配方式。
以上所举实施例仅用为方便举例说明本发明,并非对本发明保护范围的限制,在本发明所述技术方案范畴,所属技术领域的技术人员所作各种简单变形与修饰,均应包含在以上申请专利范围中。

Claims (3)

1.一种基于边缘计算和Actor-Critic算法的车联网通信优化算法,其特征在于,其具体步骤为:
设定车联网通信系统内,用户序列为{1,2,...,k,...,K},共有K个用户;子信道序列为{1,2,...,n,...,N},共有N条子信道;雾接入节点序列{1,2,...,m,...M},共有M个接入节点,接入节点的计算能力序列{1,2,...cm,...,cM};用户上传的任务序列{1,2,,...tk,...,tK},共有tK个任务;
采用非正交多址接入NOMA方式将用户接入车联网通信系统;
用户上传的任务进行边缘计算并将计算结果返回至用户;
利用Actor-Critic算法优化资源分配方式,得到最佳资源分配方式,其具体步骤为:
初始化各参数,动作空间A,状态空间S,Actor在时刻t做出的动作at为:
at=(pk,i(t),bk(t)) (8)
式中,动作at包含两个参数,分别是分配给k用户的第i个子信道的功率pk,i(t)以及分配给用户k的子信道数bk(t);
用各个用户的信干噪比表示车联网通信系统的状态为:
st=(γ1(t),γ2(t),…,γM(t)) (9)
式中,γM(t)为第M个用户的信干噪比,表示第M个用户接收的信号功率除以噪声功率和其他用户的干扰功率之和;
Actor按照策略π采取动作,策略π为在不同状态s时选择不同动作a的条件概率,所以策略π写为:
π(a|s)=Pr(at=a|st=s) (10)
对于策略π,选择正态分布;
按照策略π采取动作后,动作对环境产生影响,并产生相应奖励值Rt,该奖励值Rt为车联网通信系统总能量利用效率与总时延的比值,能量利用效率定义为车联网通信系统的总传输速率除以总功率;则有:
Figure FDA0003900263670000021
式中,rsum(t)为所有用户的总传输速率,delayk(t)为所有用户的总时延;
车联网通信系统观测到环境变化,并将变化后的状态返回到Actor和Critic两个部分,同时奖励值Rt也返回Critic中;
根据返回奖励值Rt的不同值,Critic对Actor做出的对应动作进行判断,在不断地迭代过程中,使迭代过程的累加奖励值之和最大,利用马尔科夫过程描述该过程,则设置的奖励值函数Qπ为:
Figure FDA0003900263670000022
式中,Eσ表示为在沿着路径σ行进的所能获得的奖励值的期望值,β表示对做出的动作之后的可预见程度,σ表示一条路径;
将上述奖励值函数Qπ用Bellman方程的形式表示为:
Qπ(s,a)=E{Rt+βQπ(st+1,at+1)} (13)
式中,E表示为{}中迭代方程的期望值;
对奖励值函数Qπ求期望,得到目标函数J(π)为:
J(π)=Eπ{Qπ(s,a)} (14)
用向量θ=(θ1,θ2,…,θM)构建策略π,通过不断修正策略π,使得按照策略π选择的动作使得目标函数J(π)最大;
对目标函数J(π)进行求导,并沿着梯度下降的方向修改向量θ,有:
Figure FDA0003900263670000023
更新θ,有:
Figure FDA0003900263670000031
式中,α为学习速率;
通过不断迭代直至策略π收敛,得到最佳资源分配方式。
2.如权利要求1所述的基于边缘计算和Actor-Critic算法的车联网通信优化算法,其特征在于,采用非正交多址接入NOMA方式将用户接入车联网通信系统时,每个用户至少分配一条子信道,对于子信道n,信道内传输的信号为所有在该信道内传输信号的叠加,即子信道内传输的信号为:
Figure FDA0003900263670000032
式中,Mn表示在第n条子信道上的用户数;pi,n表示第i个用户的信号在子信道n的传输功率,若用户i并不占用子信道n,则pi,n=0;si表示传送给用户i的符号;
在车联网通信系统接收端,任一用户k在子信道n的接收信号为:
Figure FDA0003900263670000033
式中,hk,n为瑞利信道增益与基站到用户之间路径损耗的乘积,zk,n为均值0、方差为
Figure FDA0003900263670000034
的加性高斯白噪声;
定义
Figure FDA0003900263670000035
为对噪声功率归一化的信道响应CRNN,假设用户的信道响应CRNN大小与用户编号相对应,则对第n条子信道的信道响应CRNN进行排序如下:
|H1,n|≥|H2,n|≥...≥|Hk,n|≥|Hk+1,n|≥...≥|HMn,n| (3)
按照上述信道响应CRNN排序的顺序,对任一用户k,消除信道响应CRNN比用户k的信道响应CRNN小的用户的信号,利用连续干扰消除SIC对用户k的信号进行解码,成功解码后,将第n条子信道的所有信道响应CRNN的用户信号减去用户解码成功的用户k的信号,然后继续按照解码方法解码,解码后得到信噪比公式为:
Figure FDA0003900263670000041
利用香农公式求得非正交多址接入NOMA方式下第k个用户在子信道n上的最大信息速率为:
Figure FDA0003900263670000042
则,车联网通信系统的最大信息速率为:
Figure FDA0003900263670000043
3.如权利要求2所述的基于边缘计算和Actor-Critic算法的车联网通信优化算法,其特征在于,用户上传的任务进行边缘计算并将计算结果返回至用户,其具体步骤为:
用户k将任务tk上传至主接入节点,主接入节点将任务tk拆分成若干个子任务,用tk,m表示主接入节点将任务tk拆分后分配给雾接入节点m的子任务,则雾接入节点m计算子任务tk,m所需要的时延lk,m为:
Figure FDA0003900263670000044
若时延lk,m低于设定的最高时延阈值τ,则选中该雾接入节点m为辅助节点,继续辅助节点选择操作直至
Figure FDA0003900263670000045
即用户k的计算任务全部分配完毕;
辅助节点计算完成后将计算结果返回至主接入节点,主接入节点将计算结果返回至用户。
CN201811131357.8A 2018-09-27 2018-09-27 基于边缘计算和Actor-Critic算法的车联网通信优化算法 Active CN109068391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811131357.8A CN109068391B (zh) 2018-09-27 2018-09-27 基于边缘计算和Actor-Critic算法的车联网通信优化算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811131357.8A CN109068391B (zh) 2018-09-27 2018-09-27 基于边缘计算和Actor-Critic算法的车联网通信优化算法

Publications (2)

Publication Number Publication Date
CN109068391A CN109068391A (zh) 2018-12-21
CN109068391B true CN109068391B (zh) 2022-12-30

Family

ID=64766001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811131357.8A Active CN109068391B (zh) 2018-09-27 2018-09-27 基于边缘计算和Actor-Critic算法的车联网通信优化算法

Country Status (1)

Country Link
CN (1) CN109068391B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020133098A1 (zh) * 2018-12-27 2020-07-02 驭势科技(北京)有限公司 一种分布式计算网络系统与方法
CN109905918B (zh) * 2019-02-25 2022-04-01 重庆邮电大学 一种基于能效的noma蜂窝车联网动态资源调度方法
CN110049315B (zh) * 2019-04-26 2020-04-24 山西大学 一种提高直播视频系统用户体验质量的方法
CN110213796B (zh) * 2019-05-28 2021-08-06 大连理工大学 一种车联网中的智能资源分配方法
CN112071388A (zh) * 2019-06-10 2020-12-11 郑州大学第一附属医院 一种基于深度学习的智能配药制药方法
CN111079936B (zh) * 2019-11-06 2023-03-14 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
CN110880313B (zh) * 2019-12-06 2022-12-13 徐工集团工程机械股份有限公司道路机械分公司 一种基于降噪反馈输出当前环境对抗噪声的控制方法及系统
CN111212108B (zh) * 2019-12-12 2021-08-06 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 基于非正交多址接入和移动边缘计算多用户并行迁移方法
CN112367132B (zh) * 2020-10-27 2021-12-24 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112911613A (zh) * 2020-11-26 2021-06-04 北邮感知技术研究院(江苏)有限公司 一种用于noma-mec网络的基于drl的流量卸载算法及实现装置
CN112969141B (zh) * 2021-02-26 2022-10-25 北京邮电大学 一种通信感知一体化非正交多址随机接入通信方法及装置
CN113743605A (zh) * 2021-06-16 2021-12-03 温州大学 基于进化方法搜索烟、火检测网络架构的方法
CN114375066B (zh) * 2022-01-08 2024-03-15 山东大学 一种基于多智能体强化学习的分布式信道竞争方法
CN115348560B (zh) * 2022-10-18 2023-04-28 合肥本源物联网科技有限公司 车联网场景下基于noma通信的任务处理方法
CN117376032B (zh) * 2023-12-06 2024-04-16 华润数字科技有限公司 安全服务调度方法和系统、电子设备、存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6394348B2 (ja) * 2014-12-11 2018-09-26 ソニー株式会社 通信制御装置、無線通信装置、通信制御方法、無線通信方法及びプログラム
WO2016195177A1 (ko) * 2015-05-29 2016-12-08 엘지전자(주) 무선 통신 시스템에서 데이터 송수신 방법 및 이를 위한 장치
JP6756047B2 (ja) * 2016-12-23 2020-09-16 エルジー エレクトロニクス インコーポレイティド 無線通信システムにおけるv2x通信を行う方法及びこのための装置
CN108513314A (zh) * 2017-02-28 2018-09-07 大唐高鸿信息通信研究院(义乌)有限公司 5g网络的非正交多址接入跨层功率分配优化方法
CN108462996A (zh) * 2018-03-07 2018-08-28 北京科技大学 一种非正交多址网络资源分配方法
CN108512585B (zh) * 2018-04-04 2020-07-24 哈尔滨工业大学 基于功率域非正交多址接入技术的动态协作中继传输方法

Also Published As

Publication number Publication date
CN109068391A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109068391B (zh) 基于边缘计算和Actor-Critic算法的车联网通信优化算法
CN109391681B (zh) 基于mec的v2x移动性预测与内容缓存卸载方案
CN111010684B (zh) 一种基于mec缓存服务的车联网资源分配方法
CN111132074B (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN110753319B (zh) 异构车联网中面向异质业务的分布式资源分配方法及系统
CN110650457B (zh) 一种车联网中任务卸载计算成本与时延的联合优化方法
CN111711666B (zh) 一种基于强化学习的车联网云计算资源优化方法
CN114138373B (zh) 一种基于强化学习的边缘计算任务卸载方法
CN111132083B (zh) 一种车辆编队模式下基于noma的分布式资源分配方法
CN113645273B (zh) 基于业务优先级的车联网任务卸载方法
CN113727306B (zh) 一种基于深度强化学习的解耦c-v2x网络切片方法
CN113687875B (zh) 一种车联网中车辆任务卸载方法及装置
CN115297171B (zh) 一种蜂窝车联网分级决策的边缘计算卸载方法及系统
CN112566261A (zh) 一种基于深度强化学习的上行noma资源分配方法
CN114885420A (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN116566838A (zh) 一种区块链与边缘计算协同的车联网任务卸载和内容缓存方法
Mafuta et al. Decentralized resource allocation-based multiagent deep learning in vehicular network
CN111132298B (zh) 一种功率分配方法和装置
Meng et al. Intelligent routing orchestration for ultra-low latency transport networks
Ju et al. DRL-based beam allocation in relay-aided multi-user mmWave vehicular networks
Wang et al. Joint offloading decision and resource allocation in vehicular edge computing networks
Li et al. Deep reinforcement learning for collaborative computation offloading on internet of vehicles
CN116112897A (zh) 基于深度强化学习的空陆协作实时交通数据收集方法
CN116405569A (zh) 基于车辆和边缘计算服务器的任务卸载匹配方法及系统
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant