CN112533237B - 工业互联网中支持大规模设备通信的网络容量优化方法 - Google Patents

工业互联网中支持大规模设备通信的网络容量优化方法 Download PDF

Info

Publication number
CN112533237B
CN112533237B CN202011281988.5A CN202011281988A CN112533237B CN 112533237 B CN112533237 B CN 112533237B CN 202011281988 A CN202011281988 A CN 202011281988A CN 112533237 B CN112533237 B CN 112533237B
Authority
CN
China
Prior art keywords
network
action
equipment
capacity
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011281988.5A
Other languages
English (en)
Other versions
CN112533237A (zh
Inventor
张海君
王雪彤
隆克平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202011281988.5A priority Critical patent/CN112533237B/zh
Publication of CN112533237A publication Critical patent/CN112533237A/zh
Application granted granted Critical
Publication of CN112533237B publication Critical patent/CN112533237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/26TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
    • H04W52/265TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the quality of service QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种工业互联网中支持大规模设备通信的网络容量优化方法,包括:构建工业互联网中支持大规模设备通信的网络场景模型;其中,在该网络场景中,设备最多只能重用一个网络用户的子信道资源块;将该网络场景的容量优化问题建模为马尔可夫决策模型;以最大化系统容量为目标,基于深度强化学习网络,获取设备最优发射功率,以在保证网络用户和设备服务质量的同时,最大化系统总容量。本发明可以减少支持大规模设备通信的无线网络系统的干扰,提高频谱资源利用率,在保证服务质量的同时,最大化系统总容量。

Description

工业互联网中支持大规模设备通信的网络容量优化方法
技术领域
本发明涉及无线通信技术领域,特别涉及一种工业互联网中支持大规模设备通信的网络容量优化方法。
背景技术
大规模设备通信技术将在未来工业互联网应用中扮演重要角色。通过其核心技术优势,用户借助大规模设备通信技术无需通过基站中转,因此减轻了移动通信基站的负载。此外,连接到设备的用户可以共享移动通信网络资源,从而提高资源利用率。在支持大规模设备通信的移动通信网络中,设备网络与用户通过共用的频谱资源进行通信。而共用频谱资源造成的干扰可以通过限制重用网络用户的子信道资源块来进行缓解,并对设备发送端的发射功率进行控制来提高系统的资源利用率,以保证系统中网络用户的服务质量。但,目前,在工业互联网中,针对支持大规模设备通信的网络系统的干扰管理和系统容量优化,依然缺乏有效的解决方案,是目前一个亟待解决的技术问题。
发明内容
本发明提供了一种工业互联网中支持大规模设备通信的网络容量优化方法,针对面向工业互联网支持大规模设备通信的无线网络通信系统中的干扰管理和系统容量两个方面进行优化,将大规模设备通信技术应用于无线移动通信网络中。同时基于actor-critic框架,并采用异步训练结合优势函数的算法,使设备发射端更优选择功率控制的动作,从而提高整个系统的总容量。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种工业互联网中支持大规模设备通信的网络容量优化方法,该工业互联网中支持大规模设备通信的网络容量优化方法包括:
构建工业互联网中支持大规模设备通信的网络系统场景模型;其中,在所述网络系统场景中,设备最多只能重用一个网络用户的子信道资源块;
将所述网络系统场景的容量优化问题建模为马尔可夫决策模型;
以最大化系统容量为目标,基于深度强化学习网络,获取设备最优发射功率,以在保证网络用户和设备的服务质量要求的同时,最大化系统总容量。
进一步地,所述马尔可夫决策模型为一阶马尔可夫决策模型。
进一步地,基于深度强化学习网络,获取设备最优发射功率,包括:
基于actor-critic框架并采用异步训练结合优势函数的算法,使设备发射端更优选择功率控制的动作,从而获取设备最优发射功率,提高整个系统的总容量。
进一步地,所述基于actor-critic框架并采用异步训练结合优势函数的算法,使设备发射端更优选择功率控制的动作,包括:
S1,初始化所述网络场景的网络参数和神经网络的参数,同时初始化系统的观测空间、动作空间和经验池;
S2,更新时间序列,并重置actor网络和critic网络的梯度更新量,从全局网络更新参数到各个线程;
S3,基于策略选择动作,执行动作后与环境进行交互,获得当前动作的奖励和下一时刻的状态,并将其存储到经验池中;
S4,当存储够预设数量的经验后,采用基于异步优势的actor-critic网络开始进行深度强化学习;其中,深度强化学习的目标是达到长期奖励函数最大化,即在保证用户服务质量的前提下,达到系统的容量最大化;
S5,当算法趋于收敛,即网络总的奖励函数维持在预设范围内不再增长时,终止优化进程,使设备发射端更优选择功率控制的动作。
进一步地,所述初始化所述网络场景的网络参数和神经网络的参数,同时初始化网络的观测空间、动作空间和经验池,包括:
初始化所述网络场景的信道增益和设备发送端的功率等级;
初始化深度神经网络的全局网络的参数、各个线程的参数;
初始化系统的观测空间、动作空间和经验池。
进一步地,在所述S3中,基于策略选择动作,包括:
先基于actor网络的策略做出动作的选择,再通过critic网络来评价动作的好坏;其中,全局网络和各个线程网络的结构相同,参数不同。
进一步地,在所述S3中,获得当前动作的奖励需要满足下述两个条件:
1)网络用户的信噪比符合系统建模的要求;
2)设备发送端的功率小于最大发射功率等级;
即刻奖励如下:
Figure BDA0002781089910000031
其中,R表示系统的总的奖励函数,ci表示第i个用户,dj表示第j个设备,
Figure BDA0002781089910000032
表示第i个用户的信噪比,
Figure BDA0002781089910000033
表示第j个设备的信噪比。
进一步地,所述优势函数的表达式如下:
A(st,a,t)=Q(st,a)-V(st)
其中,st表示状态,a表示动作,t表示时间,A(st,a,t)表示关于当前状态、动作和时间的优势函数,Q(st,a)表示关于状态和动作的Q值,V(st)表示值函数。
进一步地,所述actor-critic网络当达到最终时间状态序列或者经验值满足条件时,计算Q值,其表达式为:
Figure BDA0002781089910000034
其中,Q(st,t)表示目标Q值,st表示最后一个时间序列位置的状态,θv'表示所更新的梯度。
进一步地,所述S4中,在actor-critic网络训练过程中,计算每个时刻的Q值并进行奖励值函数的更新,对actor网络和critic网络进行梯度更新,进一步更新全局神经网络的模型参数,直到算法结束。
另一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明在充分考虑支持大规模设备通信的无线网络通信系统中各种干扰的情况下,基于actor-critic框架,并采用异步训练结合优势函数的算法,以最大化系统容量为目标,提出一种基于深度强化学习的功率控制方法,使设备发射端可以更优选择发射功率的动作,通过调整设备发送端的功率等级,在保证网络用户和大规模设备通信的服务质量需求的同时,实现了整个系统的容量最大化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为工业互联网中支持大规模设备通信的网络架构图;
图2为本发明实施例提供的采用深度强化学习进行功率控制来提高频谱资源利用率的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例的主要思想是,通过调整设备发送端的功率等级,并采用深度强化学习完成功率控制的资源分配方案,从而达到保证用户服务质量的前提下,减少大规模设备通信带来的干扰,最终达到系统容量的最大化。基于此,本实施例提供了一种工业互联网中支持大规模设备通信的网络容量优化方法,该方法可以由电子设备实现,该电子设备可以是终端或者服务器。
本实施例的网络容量优化方法主要通过结合大规模设备间通信和深度强化学习两种技术,基于actor-critic框架并采用异步训练结合优势函数的算法,实现设备发送端的功率控制,以降低系统干扰,并获得系统的最大容量。
其中,深度学习具有较强的感知能力且强化学习具有较好的决策能力,结合这两种优势,越来越多的无线网络资源分配问题可通过深度强化学习来解决。同样在面向工业互联网支持大规模设备通信的网络场景中,深度强化学习可以拥有很好的性能。在考虑大规模设备通信造成的各种干扰的基础上,将该网络场景的容量优化问题建模为马尔可夫决策模型,利用actor-critic框架,采用异步训练的思想,并结合优势函数来评估动作,使得设备的发送端可以有效地做出动作选择、进行功率控制和更新系统的网络状态,使得系统具有更好的性能。两种技术的结合可以在保证网络用户的服务质量的基础上最大整个系统的容量。
基于上述,本实施例的网络容量优化方法,包括以下步骤:
构建工业互联网中支持大规模设备通信的网络系统场景模型,如图1所示;
其中,网络用户和大规模设备分布在宏基站周围,考虑上行链路通信过程中产生的干扰信号。在上述网络系统场景中,设备最多只能重用一个网络用户的子信道资源块,以此来减少干扰;
将上述网络系统场景的容量优化问题建模为马尔可夫决策模型;
其中,考虑到真实环境下系统状态的动态变化,将系统状态建模为有限状态的一阶马尔可夫决策模型。同时该状态在同一时刻不会发生变化,在下一状态依据状态转移概率进行变化。
以最大化系统容量为目标,基于深度强化学习网络,获取设备最优发射功率,以在保证网络用户和设备的服务质量要求的同时,最大化系统总容量。
其中,由于系统的状态空间和动作空间较大,本实施例采用基于异步优势的actor-critic算法,目标是最大化系统的容量,具体为:本实施例基于actor-critic框架并采用异步训练结合优势函数的算法,使设备发射端更优选择功率控制的动作,从而进行功率控制来提高频谱资源利用率,进而提高整个系统的总容量。
进一步地,所述基于actor-critic框架并采用异步训练结合优势函数的算法,使设备发射端更优选择功率控制的动作的执行流程如图1所示,包括以下步骤:
S1,初始化网络场景的网络参数和神经网络的参数,同时初始化系统的观测空间、动作空间和经验池;包括:初始化网络场景的信道增益和设备发送端的功率等级;初始化深度神经网络的全局网络的参数、各个线程的参数;同时初始化系统的观测空间、动作空间和经验池。
S2,更新时间序列,并重置actor网络和critic网络的梯度更新量,从全局网络更新参数到各个线程;
S3,基于策略选择动作,执行动作后与环境进行交互,获得当前动作的奖励和下一时刻的状态,并将其存储到经验池中;
其中,动作的选取需要借助构建的深度神经网络,该神经网络为actor-critic网络。先基于actor网络的策略做出动作的选择,再通过critic网络来评价动作的好坏。全局网络和各个线程网络的结构相同,参数不同。
选择出的动作是依据以下策略:
π(at|st;θv)=maxQt(st,at)
获得即刻奖励需要满足下述两个条件:1)网络用户的信噪比是否符合系统建模的要求;2)设备发送端的功率是否小于最大发射功率等级。
当这两个条件满足后才可以获得即刻奖励,即刻奖励如下:
Figure BDA0002781089910000061
其中,R表示系统的总的奖励函数,ci表示第i个用户,dj表示第j个设备,
Figure BDA0002781089910000062
表示第i个用户的信噪比,
Figure BDA0002781089910000063
表示第j个设备的信噪比。
S4,当存储够预设数量的经验后,采用基于异步优势的actor-critic网络开始进行深度强化学习;
其中,深度强化学习的目标是达到长期奖励函数最大化,即在保证用户服务质量的前提下,达到系统的容量最大化;在训练过程中,计算每个时刻的Q值并进行奖励值函数的更新,对actor网络和critic网络进行梯度更新,进一步更新全局神经网络的模型参数。直到算法结束。优势函数的表达式如下:
A(st,a,t)=Q(st,a)-V(st)
其中,st表示状态,a表示动作,t表示时间,A(st,a,t)表示关于当前状态、动作和时间的优势函数,Q(st,a)表示关于状态和动作的Q值,V(st)表示值函数。
该算法建立在深度神经网络的结构上,当达到最终时间状态序列或者经验值满足条件时,计算最后一个时间序列位置的Q值,其表达式为:
Figure BDA0002781089910000064
其中,Q(st,t)表示目标Q值,st表示最后一个时间序列位置的状态,θv'表示所更新的梯度。
采用基于异步优势actor-critic的深度强化学习算法,该算法结合异步训练,并使用优势函数来评估动作的好坏,使得算法的性能更优。
S5,当算法趋于收敛,即网络总的奖励函数维持在预设范围内不再增长时,表示神经网络的参数已经训练完毕,可达到最优的功率控制;此时终止进程。
综上,本实施例在充分考虑支持大规模设备通信的无线网络通信系统中各种干扰的情况下,基于actor-critic框架并采用异步训练结合优势函数的算法,以最大化系统容量为目标,提出一种基于深度强化学习的功率控制方法,使设备发射端可更优选择发射功率的动作,通过调整设备发送端的功率等级,在保证网络用户和大规模设备通信的服务质量的同时,实现了整个系统的容量最大化。
第二实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行上述方法。
第三实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述第一实施例的方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (3)

1.一种工业互联网中支持大规模设备通信的网络容量优化方法,其特征在于,所述工业互联网中支持大规模设备通信的网络容量优化方法包括:
构建工业互联网中支持大规模设备通信的网络系统场景模型;其中,在所述网络系统场景中,设备最多只能重用一个网络用户的子信道资源块;
将所述网络系统场景的容量优化问题建模为马尔可夫决策模型;
以最大化系统容量为目标,基于深度强化学习网络,获取设备最优发射功率,以在保证网络用户和设备的服务质量要求的同时,最大化系统总容量;
基于深度强化学习网络,获取设备最优发射功率,包括:
基于actor-critic框架并采用异步训练结合优势函数的算法,使设备发射端更优选择功率控制的动作,从而获取设备最优发射功率,提高整个系统的总容量;
所述基于actor-critic框架并采用异步训练结合优势函数的算法,使设备发射端更优选择功率控制的动作,包括:
S1,初始化所述网络系统场景的网络参数和神经网络的参数,同时初始化系统的观测空间、动作空间和经验池;
S2,更新时间序列,并重置actor网络和critic网络的梯度更新量,从全局网络更新参数到各个线程;
S3,基于策略选择动作,执行动作后与环境进行交互,获得当前动作的奖励和下一时刻的状态,并将其存储到经验池中;
S4,当存储够预设数量的经验后,采用基于异步优势的actor-critic网络开始进行深度强化学习;其中,深度强化学习的目标是达到长期奖励函数最大化,即在保证用户服务质量的前提下,达到系统的容量最大化;
S5,当算法趋于收敛,即网络总的奖励函数维持在预设范围内不再增长时,终止优化进程,使设备发射端更优选择功率控制的动作;
其中,在所述S3中,动作的选取需要借助构建的深度神经网络,该神经网络为actor-critic网络;基于策略选择动作,包括:
先基于actor网络的策略做出动作的选择,再通过critic网络来评价动作的好坏;其中,全局网络和各个线程网络的结构相同,参数不同;
选择出的动作是依据以下策略:
π(at|st;θv)=max Qt(st,at)
获得当前动作的奖励需要满足下述两个条件:
1)网络用户的信噪比符合系统建模的要求;
2)设备发送端的功率小于最大发射功率等级;
当这两个条件满足后才可以获得即刻奖励,即刻奖励如下:
Figure FDA0003447442840000021
其中,R表示系统的总的奖励函数,ci表示第i个用户,dj表示第j个设备,
Figure FDA0003447442840000022
表示第i个用户的信噪比,
Figure FDA0003447442840000023
表示第j个设备的信噪比;
所述S4中,在actor-critic网络训练过程中,计算每个时刻的Q值并进行奖励值函数的更新,对actor网络和critic网络进行梯度更新,进一步更新全局神经网络的模型参数,直到算法结束;所述优势函数的表达式如下:
A(st,a,t)=Q(st,a)-V(st)
其中,st表示状态,a表示动作,t表示时间,A(st,a,t)表示关于当前状态、动作和时间的优势函数,Q(st,a)表示关于状态和动作的Q值,V(st)表示值函数;
该算法建立在深度神经网络的结构上,当达到最终时间状态序列或者经验值满足条件时,计算最后一个时间序列位置的Q值,其表达式为:
Figure FDA0003447442840000024
其中,Q(st,t)表示目标Q值,st为最后一个时间序列位置的状态,θv'表示所更新的梯度。
2.如权利要求1所述的工业互联网中支持大规模设备通信的网络容量优化方法,其特征在于,所述马尔可夫决策模型为一阶马尔可夫决策模型。
3.如权利要求1所述的工业互联网中支持大规模设备通信的网络容量优化方法,其特征在于,所述初始化所述网络系统场景的网络参数和神经网络的参数,同时初始化网络的观测空间、动作空间和经验池,包括:
初始化所述网络系统场景的信道增益和设备发送端的功率等级;
初始化深度神经网络的全局网络的参数、各个线程的参数;
初始化系统的观测空间、动作空间和经验池。
CN202011281988.5A 2020-11-16 2020-11-16 工业互联网中支持大规模设备通信的网络容量优化方法 Active CN112533237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011281988.5A CN112533237B (zh) 2020-11-16 2020-11-16 工业互联网中支持大规模设备通信的网络容量优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011281988.5A CN112533237B (zh) 2020-11-16 2020-11-16 工业互联网中支持大规模设备通信的网络容量优化方法

Publications (2)

Publication Number Publication Date
CN112533237A CN112533237A (zh) 2021-03-19
CN112533237B true CN112533237B (zh) 2022-03-04

Family

ID=74980902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011281988.5A Active CN112533237B (zh) 2020-11-16 2020-11-16 工业互联网中支持大规模设备通信的网络容量优化方法

Country Status (1)

Country Link
CN (1) CN112533237B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113543156B (zh) * 2021-06-24 2022-05-06 中国科学院沈阳自动化研究所 基于多智能体深度强化学习的工业无线网络资源分配方法
CN113747450B (zh) * 2021-07-27 2022-12-09 清华大学 一种移动网络中业务部署方法、装置及电子设备
CN113891289B (zh) * 2021-11-02 2023-05-02 中国联合网络通信集团有限公司 功率调整方法、服务器和终端
CN114553714B (zh) * 2021-12-30 2024-05-14 北京天成通链科技有限公司 一种解决区块链网络测试不确定性的模拟方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007057857A1 (en) * 2005-11-16 2007-05-24 Koninklijke Philips Electronics, N.V. Adaptive, distributed solution for enhanced co-existence and qos for multimedia traffic over rlans
CN109451569A (zh) * 2018-12-14 2019-03-08 北京工业大学 一种无线携能异构网络中的资源分配方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN109982437A (zh) * 2018-12-21 2019-07-05 北京邮电大学 一种基于位置感知加权图的d2d通信频谱分配方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109391988B (zh) * 2017-08-11 2021-11-09 华为技术有限公司 信息指示的方法和装置
CN107919931A (zh) * 2017-11-21 2018-04-17 重庆邮电大学 认知网中一种基于隐马尔可夫的多信道功率控制机制
CN109348532B (zh) * 2018-10-26 2021-07-09 南京航空航天大学 一种基于不对称中继传输的认知车联网高效联合的资源分配方法
CN109862610B (zh) * 2019-01-08 2020-07-10 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
US11844100B2 (en) * 2019-03-12 2023-12-12 Nec Corporation Virtual radio access network control

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007057857A1 (en) * 2005-11-16 2007-05-24 Koninklijke Philips Electronics, N.V. Adaptive, distributed solution for enhanced co-existence and qos for multimedia traffic over rlans
CN109451569A (zh) * 2018-12-14 2019-03-08 北京工业大学 一种无线携能异构网络中的资源分配方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN109982437A (zh) * 2018-12-21 2019-07-05 北京邮电大学 一种基于位置感知加权图的d2d通信频谱分配方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《Deep Reinforcement Learning Based Power Allocation for D2D Network》;Zhengran Bi,Wenan Zhou;《2020 IEEE 91st Vehicular Technology Conference (VTC2020-Spring)》;20200630;正文第1-3节,摘要 *
一种基于信道态势的混合频谱接入研究方法;程东海等;《数码世界》;20170301(第03期);全文 *
基于强化学习的无线网络自组织性研究;王超等;《中国科学技术大学学报》;20181215(第12期);全文 *
大规模MIMO系统中基于溢出概率的鲁棒协作波束设计;李新民等;《电子与信息学报》;20150415(第04期);全文 *
异构无线网络资源分配算法研究综述;徐勇军等;《重庆邮电大学学报(自然科学版)》;20180615(第03期);全文 *

Also Published As

Publication number Publication date
CN112533237A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112533237B (zh) 工业互联网中支持大规模设备通信的网络容量优化方法
CN111556461B (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN112543049B (zh) 一种集成地面卫星网络的能效优化方法及装置
CN113573324A (zh) 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN113543342B (zh) 基于noma-mec强化学习资源分配与任务卸载方法
CN113645637B (zh) 超密集网络任务卸载方法、装置、计算机设备和存储介质
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN112312299A (zh) 服务卸载方法、装置及系统
CN113590279A (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
CN116321434A (zh) 一种模型训练、上行资源占用方法、装置、设备及介质
CN114116061B (zh) 一种移动边缘计算环境下的工作流任务卸载方法及系统
CN116112981A (zh) 一种基于边缘计算的无人机任务卸载方法
CN114090239B (zh) 一种基于模型的强化学习的边缘资源调度方法和装置
CN118467127A (zh) 基于多智能体协作的移动边缘计算任务调度卸载方法
CN117669741A (zh) 基于遗传算法的无人机集群大小模型动态协同推理方法
CN117119486B (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
CN114513814A (zh) 基于无人机辅助节点的边缘网络计算资源动态优化方法
CN113157344A (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN115696405B (zh) 一种兼顾公平性的计算任务卸载优化方法及系统
CN113360203B (zh) 一种电力物联网的任务卸载方法及装置
Jiang et al. Asynchronous Advantage Actor-Critic Algorithm Based Cooperative Caching Strategy for Fog Radio Access Networks
CN116828542A (zh) 电力负荷终端接入响应方法、系统、管理系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant