CN112533237B

CN112533237B - 工业互联网中支持大规模设备通信的网络容量优化方法

Info

Publication number: CN112533237B
Application number: CN202011281988.5A
Authority: CN
Inventors: 张海君; 王雪彤; 隆克平
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2022-03-04
Anticipated expiration: 2040-11-16
Also published as: CN112533237A

Abstract

本发明公开了一种工业互联网中支持大规模设备通信的网络容量优化方法，包括：构建工业互联网中支持大规模设备通信的网络场景模型；其中，在该网络场景中，设备最多只能重用一个网络用户的子信道资源块；将该网络场景的容量优化问题建模为马尔可夫决策模型；以最大化系统容量为目标，基于深度强化学习网络，获取设备最优发射功率，以在保证网络用户和设备服务质量的同时，最大化系统总容量。本发明可以减少支持大规模设备通信的无线网络系统的干扰，提高频谱资源利用率，在保证服务质量的同时，最大化系统总容量。

Description

工业互联网中支持大规模设备通信的网络容量优化方法

技术领域

本发明涉及无线通信技术领域，特别涉及一种工业互联网中支持大规模设备通信的网络容量优化方法。

背景技术

大规模设备通信技术将在未来工业互联网应用中扮演重要角色。通过其核心技术优势，用户借助大规模设备通信技术无需通过基站中转，因此减轻了移动通信基站的负载。此外，连接到设备的用户可以共享移动通信网络资源，从而提高资源利用率。在支持大规模设备通信的移动通信网络中，设备网络与用户通过共用的频谱资源进行通信。而共用频谱资源造成的干扰可以通过限制重用网络用户的子信道资源块来进行缓解，并对设备发送端的发射功率进行控制来提高系统的资源利用率，以保证系统中网络用户的服务质量。但，目前，在工业互联网中，针对支持大规模设备通信的网络系统的干扰管理和系统容量优化，依然缺乏有效的解决方案，是目前一个亟待解决的技术问题。

发明内容

本发明提供了一种工业互联网中支持大规模设备通信的网络容量优化方法，针对面向工业互联网支持大规模设备通信的无线网络通信系统中的干扰管理和系统容量两个方面进行优化，将大规模设备通信技术应用于无线移动通信网络中。同时基于actor-critic框架，并采用异步训练结合优势函数的算法，使设备发射端更优选择功率控制的动作，从而提高整个系统的总容量。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种工业互联网中支持大规模设备通信的网络容量优化方法，该工业互联网中支持大规模设备通信的网络容量优化方法包括：

构建工业互联网中支持大规模设备通信的网络系统场景模型；其中，在所述网络系统场景中，设备最多只能重用一个网络用户的子信道资源块；

将所述网络系统场景的容量优化问题建模为马尔可夫决策模型；

以最大化系统容量为目标，基于深度强化学习网络，获取设备最优发射功率，以在保证网络用户和设备的服务质量要求的同时，最大化系统总容量。

进一步地，所述马尔可夫决策模型为一阶马尔可夫决策模型。

进一步地，基于深度强化学习网络，获取设备最优发射功率，包括：

基于actor-critic框架并采用异步训练结合优势函数的算法，使设备发射端更优选择功率控制的动作，从而获取设备最优发射功率，提高整个系统的总容量。

进一步地，所述基于actor-critic框架并采用异步训练结合优势函数的算法，使设备发射端更优选择功率控制的动作，包括：

S1，初始化所述网络场景的网络参数和神经网络的参数，同时初始化系统的观测空间、动作空间和经验池；

S2，更新时间序列，并重置actor网络和critic网络的梯度更新量，从全局网络更新参数到各个线程；

S3，基于策略选择动作，执行动作后与环境进行交互，获得当前动作的奖励和下一时刻的状态，并将其存储到经验池中；

S4，当存储够预设数量的经验后，采用基于异步优势的actor-critic网络开始进行深度强化学习；其中，深度强化学习的目标是达到长期奖励函数最大化，即在保证用户服务质量的前提下，达到系统的容量最大化；

S5，当算法趋于收敛，即网络总的奖励函数维持在预设范围内不再增长时，终止优化进程，使设备发射端更优选择功率控制的动作。

进一步地，所述初始化所述网络场景的网络参数和神经网络的参数，同时初始化网络的观测空间、动作空间和经验池，包括：

初始化所述网络场景的信道增益和设备发送端的功率等级；

初始化深度神经网络的全局网络的参数、各个线程的参数；

初始化系统的观测空间、动作空间和经验池。

进一步地，在所述S3中，基于策略选择动作，包括：

先基于actor网络的策略做出动作的选择，再通过critic网络来评价动作的好坏；其中，全局网络和各个线程网络的结构相同，参数不同。

进一步地，在所述S3中，获得当前动作的奖励需要满足下述两个条件：

1)网络用户的信噪比符合系统建模的要求；

2)设备发送端的功率小于最大发射功率等级；

即刻奖励如下：

其中，R表示系统的总的奖励函数，c_i表示第i个用户，d_j表示第j个设备，

表示第i个用户的信噪比，

表示第j个设备的信噪比。

进一步地，所述优势函数的表达式如下：

A(s_t,a,t)＝Q(s_t,a)-V(s_t)

其中，s_t表示状态，a表示动作，t表示时间，A(s_t,a,t)表示关于当前状态、动作和时间的优势函数，Q(s_t,a)表示关于状态和动作的Q值，V(s_t)表示值函数。

进一步地，所述actor-critic网络当达到最终时间状态序列或者经验值满足条件时，计算Q值，其表达式为：

其中，Q(s_t,t)表示目标Q值，s_t表示最后一个时间序列位置的状态，θ_v'表示所更新的梯度。

进一步地，所述S4中，在actor-critic网络训练过程中，计算每个时刻的Q值并进行奖励值函数的更新，对actor网络和critic网络进行梯度更新，进一步更新全局神经网络的模型参数，直到算法结束。

另一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明在充分考虑支持大规模设备通信的无线网络通信系统中各种干扰的情况下，基于actor-critic框架，并采用异步训练结合优势函数的算法，以最大化系统容量为目标，提出一种基于深度强化学习的功率控制方法，使设备发射端可以更优选择发射功率的动作，通过调整设备发送端的功率等级，在保证网络用户和大规模设备通信的服务质量需求的同时，实现了整个系统的容量最大化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为工业互联网中支持大规模设备通信的网络架构图；

图2为本发明实施例提供的采用深度强化学习进行功率控制来提高频谱资源利用率的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例的主要思想是，通过调整设备发送端的功率等级，并采用深度强化学习完成功率控制的资源分配方案，从而达到保证用户服务质量的前提下，减少大规模设备通信带来的干扰，最终达到系统容量的最大化。基于此，本实施例提供了一种工业互联网中支持大规模设备通信的网络容量优化方法，该方法可以由电子设备实现，该电子设备可以是终端或者服务器。

本实施例的网络容量优化方法主要通过结合大规模设备间通信和深度强化学习两种技术，基于actor-critic框架并采用异步训练结合优势函数的算法，实现设备发送端的功率控制，以降低系统干扰，并获得系统的最大容量。

其中，深度学习具有较强的感知能力且强化学习具有较好的决策能力，结合这两种优势，越来越多的无线网络资源分配问题可通过深度强化学习来解决。同样在面向工业互联网支持大规模设备通信的网络场景中，深度强化学习可以拥有很好的性能。在考虑大规模设备通信造成的各种干扰的基础上，将该网络场景的容量优化问题建模为马尔可夫决策模型，利用actor-critic框架，采用异步训练的思想，并结合优势函数来评估动作，使得设备的发送端可以有效地做出动作选择、进行功率控制和更新系统的网络状态，使得系统具有更好的性能。两种技术的结合可以在保证网络用户的服务质量的基础上最大整个系统的容量。

基于上述，本实施例的网络容量优化方法，包括以下步骤：

构建工业互联网中支持大规模设备通信的网络系统场景模型，如图1所示；

其中，网络用户和大规模设备分布在宏基站周围，考虑上行链路通信过程中产生的干扰信号。在上述网络系统场景中，设备最多只能重用一个网络用户的子信道资源块，以此来减少干扰；

将上述网络系统场景的容量优化问题建模为马尔可夫决策模型；

其中，考虑到真实环境下系统状态的动态变化，将系统状态建模为有限状态的一阶马尔可夫决策模型。同时该状态在同一时刻不会发生变化，在下一状态依据状态转移概率进行变化。

其中，由于系统的状态空间和动作空间较大，本实施例采用基于异步优势的actor-critic算法，目标是最大化系统的容量，具体为：本实施例基于actor-critic框架并采用异步训练结合优势函数的算法，使设备发射端更优选择功率控制的动作，从而进行功率控制来提高频谱资源利用率，进而提高整个系统的总容量。

进一步地，所述基于actor-critic框架并采用异步训练结合优势函数的算法，使设备发射端更优选择功率控制的动作的执行流程如图1所示，包括以下步骤：

S1，初始化网络场景的网络参数和神经网络的参数，同时初始化系统的观测空间、动作空间和经验池；包括：初始化网络场景的信道增益和设备发送端的功率等级；初始化深度神经网络的全局网络的参数、各个线程的参数；同时初始化系统的观测空间、动作空间和经验池。

其中，动作的选取需要借助构建的深度神经网络，该神经网络为actor-critic网络。先基于actor网络的策略做出动作的选择，再通过critic网络来评价动作的好坏。全局网络和各个线程网络的结构相同，参数不同。

选择出的动作是依据以下策略：

π(a_t|s_t；θ_v)＝maxQ_t(s_t,a_t)

获得即刻奖励需要满足下述两个条件：1)网络用户的信噪比是否符合系统建模的要求；2)设备发送端的功率是否小于最大发射功率等级。

当这两个条件满足后才可以获得即刻奖励，即刻奖励如下：

表示第i个用户的信噪比，

表示第j个设备的信噪比。

S4，当存储够预设数量的经验后，采用基于异步优势的actor-critic网络开始进行深度强化学习；

其中，深度强化学习的目标是达到长期奖励函数最大化，即在保证用户服务质量的前提下，达到系统的容量最大化；在训练过程中，计算每个时刻的Q值并进行奖励值函数的更新，对actor网络和critic网络进行梯度更新，进一步更新全局神经网络的模型参数。直到算法结束。优势函数的表达式如下：

A(s_t,a,t)＝Q(s_t,a)-V(s_t)

该算法建立在深度神经网络的结构上，当达到最终时间状态序列或者经验值满足条件时，计算最后一个时间序列位置的Q值，其表达式为：

采用基于异步优势actor-critic的深度强化学习算法，该算法结合异步训练，并使用优势函数来评估动作的好坏，使得算法的性能更优。

S5，当算法趋于收敛，即网络总的奖励函数维持在预设范围内不再增长时，表示神经网络的参数已经训练完毕，可达到最优的功率控制；此时终止进程。

综上，本实施例在充分考虑支持大规模设备通信的无线网络通信系统中各种干扰的情况下，基于actor-critic框架并采用异步训练结合优势函数的算法，以最大化系统容量为目标，提出一种基于深度强化学习的功率控制方法，使设备发射端可更优选择发射功率的动作，通过调整设备发送端的功率等级，在保证网络用户和大规模设备通信的服务质量的同时，实现了整个系统的容量最大化。

第二实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第三实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种工业互联网中支持大规模设备通信的网络容量优化方法，其特征在于，所述工业互联网中支持大规模设备通信的网络容量优化方法包括：

以最大化系统容量为目标，基于深度强化学习网络，获取设备最优发射功率，以在保证网络用户和设备的服务质量要求的同时，最大化系统总容量；

基于深度强化学习网络，获取设备最优发射功率，包括：

基于actor-critic框架并采用异步训练结合优势函数的算法，使设备发射端更优选择功率控制的动作，从而获取设备最优发射功率，提高整个系统的总容量；

所述基于actor-critic框架并采用异步训练结合优势函数的算法，使设备发射端更优选择功率控制的动作，包括：

S1，初始化所述网络系统场景的网络参数和神经网络的参数，同时初始化系统的观测空间、动作空间和经验池；

S5，当算法趋于收敛，即网络总的奖励函数维持在预设范围内不再增长时，终止优化进程，使设备发射端更优选择功率控制的动作；

其中，在所述S3中，动作的选取需要借助构建的深度神经网络，该神经网络为actor-critic网络；基于策略选择动作，包括：

先基于actor网络的策略做出动作的选择，再通过critic网络来评价动作的好坏；其中，全局网络和各个线程网络的结构相同，参数不同；

选择出的动作是依据以下策略：

π(a_t|s_t；θ_v)＝max Q_t(s_t,a_t)

获得当前动作的奖励需要满足下述两个条件：

1)网络用户的信噪比符合系统建模的要求；

2)设备发送端的功率小于最大发射功率等级；

当这两个条件满足后才可以获得即刻奖励，即刻奖励如下：

表示第i个用户的信噪比，

表示第j个设备的信噪比；

所述S4中，在actor-critic网络训练过程中，计算每个时刻的Q值并进行奖励值函数的更新，对actor网络和critic网络进行梯度更新，进一步更新全局神经网络的模型参数，直到算法结束；所述优势函数的表达式如下：

A(s_t,a,t)＝Q(s_t,a)-V(s_t)

其中，s_t表示状态，a表示动作，t表示时间，A(s_t,a,t)表示关于当前状态、动作和时间的优势函数，Q(s_t,a)表示关于状态和动作的Q值，V(s_t)表示值函数；

其中，Q(s_t,t)表示目标Q值，s_t为最后一个时间序列位置的状态，θ_v'表示所更新的梯度。

2.如权利要求1所述的工业互联网中支持大规模设备通信的网络容量优化方法，其特征在于，所述马尔可夫决策模型为一阶马尔可夫决策模型。

3.如权利要求1所述的工业互联网中支持大规模设备通信的网络容量优化方法，其特征在于，所述初始化所述网络系统场景的网络参数和神经网络的参数，同时初始化网络的观测空间、动作空间和经验池，包括：

初始化所述网络系统场景的信道增益和设备发送端的功率等级；

初始化深度神经网络的全局网络的参数、各个线程的参数；

初始化系统的观测空间、动作空间和经验池。