CN112433843B - 一种基于深度强化学习的计算分流优化方法 - Google Patents

一种基于深度强化学习的计算分流优化方法 Download PDF

Info

Publication number
CN112433843B
CN112433843B CN202011133101.8A CN202011133101A CN112433843B CN 112433843 B CN112433843 B CN 112433843B CN 202011133101 A CN202011133101 A CN 202011133101A CN 112433843 B CN112433843 B CN 112433843B
Authority
CN
China
Prior art keywords
task
user
node
fog
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011133101.8A
Other languages
English (en)
Other versions
CN112433843A (zh
Inventor
陈柏平
胡春静
赵中原
高慧慧
骆雪婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011133101.8A priority Critical patent/CN112433843B/zh
Publication of CN112433843A publication Critical patent/CN112433843A/zh
Application granted granted Critical
Publication of CN112433843B publication Critical patent/CN112433843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于深度强化学习的计算分流优化方法,所述方法包括以下步骤:步骤1,用户端进行计算分流前,用户端向雾节点发送自身状态信息,自身状态信息包括信道增益、任务大小、CPU处理频率;步骤2,雾节点集中接收系统中的用户状态信息,并将这些信息输入神经网络,输出系统的计算分流决策和资源分配方案;步骤3,雾节点反馈计算分流决策和资源分配方案给系统中的用户等;本发明的优越效果在于利用深度强化学习的自主学习能力和决策能力来完成系统计算分流决策的制定,解决传统方法因算法复杂度过高而无法应用于实时场景的问题。

Description

一种基于深度强化学习的计算分流优化方法
技术领域
本发明涉及人工智能领域,具体涉及一种基于深度强化学习的计算分流优化方法。
技术背景
当今时代,人工智能领域的长足发展使得各种人工智能应用如雨后春笋般不断出现。诸如人脸识别、自动驾驶、语音识别等相关应用层出不穷。这些任务普遍存在计算任务量大、计算时延要求严格的特点,而要达到这些计算任务要求,就需要大量的计算资源来支撑。但是对于一般的终端设备来说,它所拥有的计算资源是有限的,根本不足以同时支撑大量智能任务对计算资源的需求,这种对计算资源的需求也是限制提升智能应用用户体验的一个关键点。
为了解决终端设备计算资源不足的问题,学界和工业界提出计算分流的优化方案。根据该方案的设计,当本地计算资源不足时,将计算任务分流到远程计算中心进行处理,再将处理结果反馈回本地。通过这种远程协助的方式,从而满足计算任务对计算资源的需求。
基于雾无线接入网络的计算分流网络架构是一种具有良好前景的网络架构,该架构中,系统由用户、雾节点和云节点三层结构组成。而对于系统中用户的计算任务来说,都存在三种处理方案:将计算任务留在本地处理、将计算任务分流到雾节点进行处理、将计算任务分流到云节点进行处理。由于系统中的计算任务的性能要求是不同的,如有些对时延敏感、有些任务则数据量很大。因此,如何快速为系统中的计算任务制定合理的分流决策方案,实现最大化的满足各个不同的任务对计算资源和处理时延的要求且最优化系统资源配置,则是提高用户体验和系统效率的关键点所在。
在实际应用场景中实现用户计算任务的高效分流,至少需要解决两个方面的问题。其一,快速为系统中的计算任务做出合理的分流决策;其二,基于第一步做出的分流决策方案,对系统中的资源进行合理的分配。然而,系统中用户计算分流决策方案的优化是一个整型规划问题,并且非线性非凸。该类问题的算法复杂度随用户数呈指数增长,这极大地增加了实时应用场景中计算分流问题的优化难度。
在现有专利公开的专利文献中,例如专利申请号为201810342371.6公开了一种基于半监督学习的移动边缘计算分流决策方法,包括以下步骤:1)在一个由多个用户组成,并且每个用户都有多个独立的任务的移动通信系统中,计算出在给出分流决策下系统中所有的能量损耗;2)计算总的时间损耗考虑为所有时间消耗的总和;3)所有用户的分流决策将通过他们的发送数据DOnm和接收数据DInm的大小决定,半监督学习的作用则是将它们作为半监督学习中神经网络的输入,然后生成一个能使整个系统的能量损耗总和最小的分流决策。该发明仍然未能解决分流决策方案,对系统中的资源进行合理的分配。
发明内容
基于现有技术中存在的缺陷或不足之处,本发明提出一种基于深度强化学习的计算分流优化方法。
本发明所述方法具体步骤如下:
步骤1,用户端进行计算分流前,用户端向雾节点发送自身状态信息,自身状态信息包括信道增益、任务大小、CPU处理频率;
步骤2,雾节点集中接收系统中的用户状态信息,并将这些信息输入神经网络,输出系统的计算分流决策和资源分配方案;
步骤3,雾节点反馈计算分流决策和资源分配方案给系统中的用户;
步骤4,雾节点通过反向传播的方式更新神经网络参数;
步骤5,用户端根据步骤3中雾节点反馈的计算分流决策,分别将计算任务留在本地执行、分流到雾节点执行、分流到云端执行;
步骤6,云节点与雾节点分别处理接收到的计算任务,并将处理结果通过回程链路和无线链路反馈给用户。
进一步的,步骤1所述用户端向雾节点发送自身状态信息为:在一个有雾节点和云节点组成的计算分流系统中,存在着K个用户,分别用U1,...,UK表示,在用户开始进行任务分流前,用户会将包括用户与雾节点之间的信道增益hk(t)、计算任务的大小Lk以及用户自身的cpu处理速率wk在内的信息将通过无线信道传输到雾节点端。
进一步的,步骤2所述雾节点接收用户信息,并通过神经网络得到系统的计算分流决策及资源分配解,包括如下步骤:
步骤2.1,用户端的信息将通过平坦衰落信道向雾节点发送自身状态相关的信息rk(t),雾节点接收到用户信息可表示为下式(1):
yk(t)=hk(t)rk(t)+n0 ……(1),
上式(1)中,hk(t)表示用户Uk与雾节点之间的平台信道衰落,n0表示加性高斯白噪声;
步骤2.2,雾节点接收到用户状态信息之后,将雾节点与各个用户之间的信道增益向量 hk(t)输入深度神经网络NET(h;θ,b),然后从深度神经网络的输出端得到系统最优的计算分流决策和资源分配方案;其中雾节点将用户的信道状态向量h(t)={h1(t),...,hK(t)}输入神经网络NET(h;θ,b)后,首先会通过神经网络DNN1,神经网络DNN1的输出即为系统的最优计算分流解
Figure RE-GDA0002871965170000031
最优计算分流解表示如下式(2):
Figure RE-GDA0002871965170000032
鉴于神经网络的输出值为[0,1]之间的连续值,需要通过一个映射模块将连续值映射到{0,1}二值域内,映射模块首先随机生成M0个可行解,表示为f1,f2,...,fM0,且fi=(fi 1,fi 2,...,fi K),再计算这M0个可行解与DNN1的输出之间的相似度,取相似度最大的前M个解作为系统最优计算分流决策解的备选解:
Figure RE-GDA0002871965170000033
相似度函数定义为下式(3):
Figure RE-GDA0002871965170000034
上式(3)中,fi表示第i个可行的计算分流决策解,
Figure RE-GDA0002871965170000035
表示DNN1输出的计算分流决策解;
步骤2.3,将得到的可行解
Figure RE-GDA0002871965170000036
与用户的信道状态向量 h(t)={h1(t),...,hK(t)}一起输入神经网络DNN2,进行系统的资源分配,DNN2的输出可表示如下式(4):
Figure RE-GDA0002871965170000037
上式(4)中,
Figure RE-GDA0002871965170000038
表示在分流决策为
Figure RE-GDA0002871965170000039
的条件下,系统的最优资源分配方案;
步骤2.4,在得到DNN2的输出之后,同样需要经过一个映射模块,将得到的解重构成可行解域内的解,并取其中最佳的一个解作为系统的计算分流决策与资源分配解,定义如下式(5):
Figure RE-GDA0002871965170000041
上式(5)中,x*(t)表示最终确定的最优分流决策解,r*(t)表示系统的最优资源分配方案。
进一步的,步骤3所述雾节点反馈计算分流决策及资源分配解为:雾节点会将计算分流优化算法求解得到的计算分配策略以及资源分配方案通过无线链路反馈给系统中的各个用户。
进一步的,步骤4所述雾节点通过反向传播的方式更新神经网络参数,具体步骤如下:
步骤4.1,雾节点得到系统的最优分流决策和资源分配方案(x*(t),r*(t))之后,将数据 (h(t),x*(t))保存到memery进行学习并更新神经网络中的权重和偏差(θ,b),神经网络更新的原则为使神经网络的输出结果与预期最优解的均方误差最小,深度神经网络DNN参数更新如下式(6)所示:
Figure RE-GDA0002871965170000042
上式(6)中,φ表示从神经网络memery中随机取出的一组数据
Figure RE-GDA0002871965170000043
其中
Figure RE-GDA0002871965170000044
则均方误差函数F(θ,b;φ)定义如下:
Figure RE-GDA0002871965170000045
上式(7)中,|*|表示取出的数据集的基数,
Figure RE-GDA0002871965170000046
表示输入第i组数据时神经网络的输出。
进一步的,步骤5所述用户根据雾节点反馈的计算分流决策进行计算任务的分流,包括如下步骤:
步骤5.1,对于雾节点反馈的分流决策,如分流决策xk(t)=[1,0,0],则用户Uk将计算任务留在本地处理,如果分流决策xk(t)=[0,1,0],则用户Uk将计算任务分流到雾节点进行处理,如果分流决策xk(t)=[0,0,1],则用户Uk将计算任务分流到云节点进行处理;
步骤5.2,当用户要将计算任务分流到雾节点时,通过与雾节点之间的无线链路进行数据传输,而当用户需要将计算任务分流到云节点时,首先要通过无线链路将任务传输到雾节点,然后再通过雾节点与云节点之间的回程链路传输到云节点,传输过程表示如下式(8):
yk=Tkαbh+σ ……(8),
上式(8)中,Tk表示计算任务,αbh表示回程链路衰减,σ表示回程链路的噪声。
进一步的,步骤6所述计算任务在各个节点被处理,并最近反馈到用户端,具体步骤如下:
步骤6.1,当计算任务在本地处理时,任务处理的模型表示为下式(9):
Figure RE-GDA0002871965170000051
上式(9)中,
Figure RE-GDA0002871965170000052
表示任务处理的时延,μk表示用户k每处理1比特数据需要的CPU时钟数,wk表示用户k的CPU时钟数,Lk表示任务Tk总的比特数;
步骤6.2,当任务到达雾节点时,雾节点服务器会为计算任务分配计算资源并开始处理,任务处理模型表示为下式(10):
Figure RE-GDA0002871965170000053
上式(10)中,
Figure RE-GDA0002871965170000054
表示任务处理耗费的时间,μF,k表示雾节点每处理1比特数据需要的CPU时钟数,wF,k表示雾节点分配给任务Tk的CPU时钟数,Lk表示任务Tk总的比特数;
步骤6.3,当任务到达云节点时,云节点服务器会为计算任务分配计算资源并开始处理,任务处理模型表示如下式(11):
Figure RE-GDA0002871965170000055
上式(11)中,
Figure RE-GDA0002871965170000056
表示任务处理耗费的时间,μC,k表示云节点每处理1比特数据需要的CPU时钟数,wC,k表示云节点分配给任务Tk的CPU时钟数,Lk表示任务Tk总的比特数。
本发明所述方法与现有技术相比较,具有以下优越的技术效果:
1,本发明所述方法,利用深度强化学习的自主学习能力和决策能力来完成系统计算分流决策的制定,解决了传统方法因算法复杂度过高而无法应用于实时场景的问题。
2,本发明所述方法,结合云节点和雾节点各自的优势,能够同时满足系统中用户对计算资源和处理时延的要求。
3,本发明所述方法,采用了一种取次优解的方式,通过取M个可行解中相对最优解,加快了整体神经网络的收敛速度,提供了系统的执行效率。
附图说明
图1是本发明所述方法流程示意图。
图2是本发明所述方法的两个深度神经网络的训练效果测试结果图。
图3是本发明所述方法的整体决策与资源分配执行时间与系统中用户数的关系曲线图。
图4是本发明所述方法的整体的能量消耗与系统中用户数的关系曲线图。
具体实施方式
现结合说明书附图1~4详细描述本发明所述方法的具体实施例。
如图1所示,本发明所述方法包括以下步骤:
步骤1,用户端进行计算分流前,用户端向雾节点发送自身状态信息,包括信道增益、任务大小、CPU处理频率;
步骤2,雾节点集中接收系统中的用户状态信息,并将这些信息输入神经网络,输出系统的计算分流决策和资源分配方案;
步骤3,雾节点反馈计算分流决策和资源分配方案给系统中的用户;
步骤4,雾节点通过反向传播的方式更新神经网络参数;
步骤5,用户端根据步骤3中雾节点反馈的计算分流决策,分别将计算任务留在本地执行、分流到雾节点执行、分流到云端执行;
步骤6,云节点与雾节点分别处理接收到的计算任务,并将处理结果通过回程链路和无线链路反馈给用户。
进一步的,步骤1中所述用户端向雾节点发送自身状态信息为:在一个有雾节点和云节点组成的计算分流系统中,存在着K个用户,分别用U1,...,UK表示。在用户开始进行任务分流前,用户会将包括用户与雾节点之间的信道增益hk(t)、计算任务的大小Lk以及用户自身的cpu处理速率wk在内的信息将通过无线信道传输到雾节点端。
进一步的,步骤2所述雾节点接收用户信息,并通过神经网络得到系统的计算分流决策及资源分配解,包括如下步骤:
步骤2.1,用户端的信息将通过平坦衰落信道向雾节点发送自身状态相关的信息rk(t),雾节点接收到用户信息可表示为下式(1):
yk(t)=hk(t)rk(t)+n0 ……(1),
上式(1)中,hk(t)表示用户Uk与雾节点之间的平台信道衰落,n0表示加性高斯白噪声;
步骤2.2,雾节点接收到用户状态信息之后,将雾节点与各个用户之间的信道增益向量 hk(t)输入深度神经网络NET(h;θ,b),然后从深度神经网络的输出端得到系统最优的计算分流决策和资源分配方案;其中雾节点将用户的信道状态向量h(t)={h1(t),...,hK(t)}输入神经网络NET(h;θ,b)后,首先会通过神经网络DNN1,神经网络DNN1的输出即为系统的最优计算分流解
Figure RE-GDA0002871965170000071
最优计算分流解表示如下式(2):
Figure RE-GDA0002871965170000072
鉴于神经网络的输出值为[0,1]之间的连续值,需要通过一个映射模块将连续值映射到{0,1}二值域内,映射模块首先随机生成M0个可行解,表示为f1,f2,...,fM0,且fi=(fi 1,fi 2,...,fi K),再计算这M0个可行解与DNN1的输出之间的相似度,取相似度最大的前M个解作为系统最优计算分流决策解的备选解:
Figure RE-GDA0002871965170000073
相似度函数定义为下式(3):
Figure RE-GDA0002871965170000074
上式(3)中,fi表示第i个可行的计算分流决策解,
Figure RE-GDA0002871965170000075
表示DNN1输出的计算分流决策解;
步骤2.3,将得到的可行解
Figure RE-GDA0002871965170000076
与用户的信道状态向量 h(t)={h1(t),...,hK(t)}一起输入神经网络DNN2,进行系统的资源分配,DNN2的输出表示为下式(4):
Figure RE-GDA0002871965170000077
上式(4)中,
Figure RE-GDA0002871965170000078
表示在分流决策为
Figure RE-GDA0002871965170000079
的条件下,系统的最优资源分配方案;
步骤2.4,在得到DNN2的输出之后,同样需要经过一个映射模块,将得到的解重构成可行解域内的解,并取其中最佳的一个解作为系统的计算分流决策与资源分配解,定义如下式(5):
Figure RE-GDA00028719651700000710
上式(5)中,x*(t)表示最终确定的最优分流决策解,r*(t)表示系统的最优资源分配方案。
进一步的,步骤3所述雾节点反馈计算分流决策及资源分配解为:雾节点会将计算分流优化算法求解得到的计算分配策略及资源分配方案通过无线链路反馈给系统中的各个用户;
进一步的,步骤4所述雾节点通过反向传播的方式更新神经网络参数,具体步骤如下:
步骤4.1,雾节点得到系统的最优分流决策和资源分配方案(x*(t),r*(t))之后,将该数据 (h(t),x*(t))保存到memery进行学习并更新神经网络中的权重和偏差(θ,b),神经网络更新的原则为使神经网络的输出结果与预期最优解的均方误差最小,深度神经网络DNN参数更新如下式(6)所示:
Figure RE-GDA0002871965170000081
上式(6)中,φ表示从神经网络memery中随机取出的一组数据
Figure RE-GDA0002871965170000082
其中
Figure RE-GDA0002871965170000083
则均方误差函数F(θ,b;φ)定义如下:
Figure RE-GDA0002871965170000084
上式(7)中,|*|表示取出的数据集的基数,
Figure RE-GDA0002871965170000085
表示输入第i组数据时神经网络的输出。
进一步的,步骤5所述用户根据雾节点反馈的计算分流决策进行计算任务的分流,包括如下步骤:
步骤5.1,对于雾节点反馈的分流决策,如分流决策xk(t)=[1,0,0],则用户Uk将计算任务留在本地处理,如果分流决策xk(t)=[0,1,0],则用户Uk将计算任务分流到雾节点进行处理,如果分流决策xk(t)=[0,0,1],则用户Uk将计算任务分流到云节点进行处理;
步骤5.2,当用户要将计算任务分流到雾节点时,通过与雾节点之间的无线链路进行数据传输,而当用户需要将计算任务分流到云节点时,首先通过无线链路将任务传输到雾节点,然后再通过雾节点与云节点之间的回程链路传输到云节点,传输过程表示如下式(8):
yk=Tkαbh+σ ……(8),
上式(8)中,Tk表示计算任务,αbh表示回程链路衰减,σ表示回程链路的噪声。
进一步的,步骤6中所述计算任务在各个节点被处理,并最近反馈到用户端,具体步骤如下:
步骤6.1,当计算任务在本地处理时,任务处理的模型表示为下式(9):
Figure RE-GDA0002871965170000086
上式(9)中,
Figure RE-GDA0002871965170000087
表示任务处理的时延,μk表示用户k每处理1比特数据需要的CPU时钟数,wk表示用户k的CPU时钟数,Lk表示任务Tk总的比特数;
步骤6.2,当任务到达雾节点时,雾节点服务器为计算任务分配计算资源并开始处理,任务处理模型表示如下式(10):
Figure RE-GDA0002871965170000088
上式(10)中,
Figure RE-GDA0002871965170000091
表示任务处理耗费的时间,μF,k表示雾节点每处理1比特数据需要的CPU时钟数,wF,k表示雾节点分配给任务Tk的CPU时钟数,Lk表示任务Tk总的比特数;
步骤6.3,当任务到达云节点时,云节点服务器会为计算任务分配计算资源并开始处理,任务处理模型表示如下式(11):
Figure RE-GDA0002871965170000092
上式(11)中,
Figure RE-GDA0002871965170000093
表示任务处理耗费的时间,μC,k表示云节点每处理1比特数据需要的CPU时钟数,wC,k表示云节点分配给任务Tk的CPU时钟数,Lk表示任务Tk总的比特数。
如图2所示,根据得到的仿真结果图,以DNN1网络为例来进行说明,在使用训练数据集和使用验证数据集两个不同的数据集时,输出结果非常接近,表明该网络已得到了良好的训练。
如图3所示,所述方法的执行时间随着用户数的增加而提升,但是这种提升基本上为一种线性增长的关系。此外,当系统中用户数在10个以内时,本发明所述方法的执行时间仅为 10-2s级,这表明所述方法的执行效率高,完全能够应用于实时应用场景中。
如图4所示,从仿真结果曲线图中反应的关系可以看出,随着用户数的增长,系统的整体功耗基本呈线性增长的趋势,且当系统中的用户数为10个以内时,系统的整体功耗维持在 0.02J以内,整体维持在一个较低的水准。
综上表明,本发明所述方法在执行时间和能耗方面与系统中的用户数皆为线性相关的关系,且两个参数的具体数值也维持在一个较优的水平,表明本发明所述方法是切实可行的,并且具有良好的优化效果。
本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims (6)

1.一种基于深度强化学习的计算分流优化方法,其特征在于,包括以下步骤:
步骤1,用户端进行计算分流前,用户端向雾节点发送自身状态信息,自身状态信息包括信道增益、任务大小、CPU处理频率;
步骤2,雾节点集中接收系统中的用户状态信息,并将这些信息输入神经网络,输出系统的计算分流决策和资源分配方案:
步骤2.1,用户端的信息将通过平坦衰落信道向雾节点发送自身状态相关的信息rk(t),雾节点接收到用户信息可表示为下式(1):
yk(t)=hk(t)rk(t)+n0……(1),
上式(1)中,hk(t)表示用户Uk与雾节点之间的平台信道衰落,n0表示加性高斯白噪声;
步骤2.2,雾节点接收到用户状态信息之后,将雾节点与各个用户之间的信道增益向量hk(t)输入深度神经网络NET(h;θ,b),然后从深度神经网络的输出端得到系统最优的计算分流决策和资源分配方案;其中雾节点将用户的信道状态向量h(t)={h1(t),...,hK(t)}输入神经网络NET(h;θ,b)后,首先通过神经网络DNN1,神经网络DNN1的输出即为系统的最优计算分流解
Figure FDA0003643292900000011
最优计算分流解表示如下式(2):
Figure FDA0003643292900000012
鉴于神经网络的输出值为[0,1]之间的连续值,需要通过一个映射模块将连续值映射到{0,1}二值域内,映射模块首先随机生成M0个可行解,表示为
Figure FDA0003643292900000018
Figure FDA0003643292900000013
再计算这M0个可行解与DNN1的输出之间的相似度,取相似度最大的前M个解作为系统最优计算分流决策解的备选解:
Figure FDA0003643292900000014
相似度函数定义为下式(3):
Figure FDA0003643292900000015
上式(3)中,fi表示第i个计算分流决策解,
Figure FDA0003643292900000016
表示DNN1输出的计算分流决策解;
步骤2.3,将得到的可行解
Figure FDA0003643292900000017
与用户的信道状态向量h(t)={h1(t),...,hK(t)}一起输入神经网络DNN2,进行系统的资源分配,DNN2的输出表示如下式(4):
Figure FDA0003643292900000021
上式(4)中,
Figure FDA0003643292900000022
表示在分流决策为
Figure FDA0003643292900000023
的条件下,系统的最优资源分配方案;
步骤2.4,在得到DNN2的输出之后,同样需要经过一个映射模块,将得到的解重构成可行解域内的解,并取其中最佳的一个解作为系统的计算分流决策与资源分配解,定义如下式(5):
Figure FDA0003643292900000024
上式(5)中,x*(t)表示最终确定的最优分流决策解,r*(t)表示系统的最优资源分配方案;
步骤3,雾节点反馈计算分流决策和资源分配方案给系统中的用户;
步骤4,雾节点通过反向传播的方式更新神经网络参数;
步骤5,用户端根据步骤3中雾节点反馈的计算分流决策,分别将计算任务留在本地执行、分流到雾节点执行、分流到云端执行;
步骤6,云节点与雾节点分别处理接收到的计算任务,并将处理结果通过回程链路和无线链路反馈给用户。
2.按照权利要求1所述基于深度强化学习的计算分流优化方法,其特征在于,步骤1所述用户端向雾节点发送自身状态信息为:在一个有雾节点和云节点组成的计算分流系统中,存在着K个用户,分别用U1,...,UK表示,在用户开始进行任务分流前,用户将包括用户与雾节点之间的信道增益hk(t)、计算任务的大小Lk,以及用户自身的cpu处理速率wk在内的信息将通过无线信道传输到雾节点端。
3.按照权利要求1所述基于深度强化学习的计算分流优化方法,其特征在于,步骤3所述雾节点反馈计算分流决策及资源分配解为:
雾节点会将计算分流优化算法求解得到的计算分配策略以及资源分配方案通过无线链路反馈给系统中的各个用户。
4.按照权利要求1所述基于深度强化学习的计算分流优化方法,其特征在于,步骤4所述雾节点通过反向传播的方式更新神经网络参数,具体步骤如下:
步骤4.1,雾节点得到系统的最优分流决策和资源分配方案(x*(t),r*(t))之后,将该数据(h(t),x*(t))保存到memery进行学习并更新神经网络中的权重和偏差(θ,b),神经网络DNN参数更新如下式(6)所示:
Figure FDA0003643292900000031
上式(6)中,φ表示从神经网络memery中随机取出的一组数据
Figure FDA0003643292900000032
其中
Figure FDA0003643292900000033
则均方误差函数F(θ,b;φ)定义如下:
Figure FDA0003643292900000034
上式(7)中,|*|表示取出的数据集的基数,
Figure FDA0003643292900000035
表示输入第i组数据时神经网络的输出。
5.按照权利要求1所述基于深度强化学习的计算分流优化方法,其特征在于,步骤5所述用户根据雾节点反馈的计算分流决策进行计算任务的分流,包括如下步骤:
步骤5.1,对于雾节点反馈的分流决策,如分流决策xk(t)=[1,0,0],则用户Uk将计算任务留在本地处理,当分流决策xk(t)=[0,1,0],则用户Uk将计算任务分流到雾节点进行处理,当分流决策xk(t)=[0,0,1],则用户Uk将计算任务分流到云节点进行处理;
步骤5.2,当用户要将计算任务分流到雾节点时,通过与雾节点之间的无线链路进行数据传输,而当用户需要将计算任务分流到云节点时,首先通过无线链路将任务传输到雾节点,然后再通过雾节点与云节点之间的回程链路传输到云节点,传输过程表示为下式(8):
yk=Tkαbh+σ……(8),
上式(8)中,Tk表示计算任务,αbh表示回程链路衰减,σ表示回程链路的噪声。
6.按照权利要求1所述基于深度强化学习的计算分流优化方法,其特征在于,步骤6所述计算任务在各个节点被处理,并最近反馈到用户端,具体步骤如下:
步骤6.1,当计算到达云节点时,云节点服务器会为计算任务分配计算资源并开始处理,任务处理模型表示如下式(11):任务在本地处理时,任务处理的模型表示为下式(9):
Figure FDA0003643292900000036
上式(9)中,
Figure FDA0003643292900000037
表示任务处理的时延,μk表示用户k每处理1比特数据需要的CPU时钟数,wk表示用户k的CPU时钟数,Lk表示任务Tk总的比特数;
步骤6.2,当任务到达雾节点时,雾节点服务器会为计算任务分配计算资源并开始处理,任务处理模型表示为下式(10):
Figure FDA0003643292900000041
上式(10)中,
Figure FDA0003643292900000042
表示任务处理耗费的时间,μF,k表示雾节点每处理1比特数据需要的CPU时钟数,wF,k表示雾节点分配给任务Tk的CPU时钟数,Lk表示任务Tk总的比特数;
步骤6.3,当任务到达云节点时,云节点服务器会为计算任务分配计算资源并开始处理,任务处理的模型表示如下式(11):
Figure FDA0003643292900000043
上式(11)中,
Figure FDA0003643292900000044
表示任务处理耗费的时间,μC,k表示云节点每处理1比特数据需要的CPU时钟数,wC,k表示云节点分配给任务Tk的CPU时钟数,Lk表示任务Tk总的比特数。
CN202011133101.8A 2020-10-21 2020-10-21 一种基于深度强化学习的计算分流优化方法 Active CN112433843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011133101.8A CN112433843B (zh) 2020-10-21 2020-10-21 一种基于深度强化学习的计算分流优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011133101.8A CN112433843B (zh) 2020-10-21 2020-10-21 一种基于深度强化学习的计算分流优化方法

Publications (2)

Publication Number Publication Date
CN112433843A CN112433843A (zh) 2021-03-02
CN112433843B true CN112433843B (zh) 2022-07-08

Family

ID=74695792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011133101.8A Active CN112433843B (zh) 2020-10-21 2020-10-21 一种基于深度强化学习的计算分流优化方法

Country Status (1)

Country Link
CN (1) CN112433843B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019179471A1 (zh) * 2018-03-21 2019-09-26 南京邮电大学 一种物联网环境下的雾计算体系架构
CN111158912A (zh) * 2019-12-30 2020-05-15 天津大学 云雾协同计算环境下一种基于深度学习的任务卸载决策方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019179471A1 (zh) * 2018-03-21 2019-09-26 南京邮电大学 一种物联网环境下的雾计算体系架构
CN111158912A (zh) * 2019-12-30 2020-05-15 天津大学 云雾协同计算环境下一种基于深度学习的任务卸载决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于云雾混合计算的车联网联合资源分配算法;唐伦等;《电子与信息学报》;20200815(第08期);第1-8页 *

Also Published As

Publication number Publication date
CN112433843A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
Tang et al. Computational intelligence and deep learning for next-generation edge-enabled industrial IoT
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
US20220217792A1 (en) Industrial 5g dynamic multi-priority multi-access method based on deep reinforcement learning
CN109814951A (zh) 移动边缘计算网络中任务卸载及资源分配的联合优化方法
CN113296845A (zh) 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法
CN113590279B (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
Elbir et al. A hybrid architecture for federated and centralized learning
CN114710439B (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
CN114885420A (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
Yang et al. Training efficiency of federated learning: A wireless communication perspective
CN112433843B (zh) 一种基于深度强化学习的计算分流优化方法
Jiang et al. An optimal stopping approach for iterative training in federated learning
CN113038612A (zh) 基于深度学习的认知无线电功率控制方法
CN114745386B (zh) 一种多用户边缘智能场景下的神经网络分割及卸载方法
CN116761218A (zh) 一种云边端协同系统中的联合优化方法、系统及存储介质
CN113507712B (zh) 一种基于交替方向乘子的资源分配与计算任务卸载方法
CN114880046B (zh) 联合卸载决策和带宽分配的低轨卫星边缘计算卸载方法
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN112910716B (zh) 一种基于分布式dnn的移动雾计算损耗联合优化系统和方法
CN115756873A (zh) 一种基于联邦强化学习的移动边缘计算卸载方法和平台
CN115914230A (zh) 一种自适应移动边缘计算卸载和资源分配方法
CN114219074A (zh) 一种按需动态调整的无线通信网络资源分配算法
CN110163249B (zh) 基于用户参数特征的基站分类识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant