CN113543225A

CN113543225A - 一种电力无线专网安全动态资源分配的方法和系统

Info

Publication number: CN113543225A
Application number: CN202010294058.7A
Authority: CN
Inventors: 费稼轩; 张小建; 李伟; 黄秀丽; 黄进; 缪巍巍; 高先周; 杨如侠; 曾锃; 高鹏; 王传君; 沈文; 张震; 喻鹏; 戴勇; 亓峰; 樊进; 杨墨
Original assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; State Grid Jiangsu Electric Power Co Ltd; Global Energy Interconnection Research Institute; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; State Grid Jiangsu Electric Power Co Ltd; Global Energy Interconnection Research Institute; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2021-10-22

Abstract

本发明涉及一种电力无线专网安全动态资源分配的方法和系统，包括：对预先构建的电力无线专网动态高能效资源分配模型中的各连接关系，采用凸优化方法得到所述各连接关系对应的最小传输能量；并将所述各连接关系、连接关系中的数据流信息以及所述最小传输能量存入设定的记忆池中；从所述记忆池中选择样本数据，进行训练得到最佳连接关系、最佳功率分配值和最优能效值；其中，所述电力无线专网动态高能效资源分配模型基于电力无线专网中每个基站与各用户设备之间的服务关系构建。建立了电力无线专网的动态高能效资源分配模型，并找到了最优的资源分配框架。

Description

一种电力无线专网安全动态资源分配的方法和系统

技术领域

本发明涉及电力通信领域，具体涉及一种电力无线专网安全动态资源分配的方法和系统。

背景技术

近年来作为未来网络以及电网的关键组成部分，电力无线专网是专门针对电力需求而建的。这就要求技术与业务进行深度捆绑，即根据需求进行定制化开发，要求这张专网必须精益求精。更由于电力无线专网中计算资源受限以及于出于对生态环境以及经济成本的考虑，如何在满足用户设备需求的同时更加动态节能有效的分配带宽以及功率等资源成为重要的问题。

强化学习与神经网络的融合己经有很长的历史。受益于大数据、计算能力的提升以及新的算法技术，深度学习取得了一系列令人振奋的成就，特别是深度学习与强化学习的结合，即深度强化学习。DQN(deep Q learning)对QL进行了改进：利用深度卷积神经网络逼近值函数Q，取代Q表；利用了经验回放对强化学习的学习过程进行训练，打破数据间关联，使神经网络的训练收敛且稳定；用梯度下降法更新网络参数，单独设置了目标网络来处理时间差分算法中的TD偏差，避免训练不稳定。尽管深度强化学习(DRL)已经被应用于许多与电力无线专网相关的工作，但在动态高能效资源分配的方面还未涉及。

在本文中我们面向电力无线专网的资源分配问题，针对如何更动态高能效节能有效的进行资源分配，以满足每个用户设备的功率和SINR约束为目标。

为了解现有针对电力无线专网的资源分配方法，对已有的论文和专利进行了检索、比较和分析，筛选出如下与本发明相关度比较高的技术信息：

技术方法1：专利公开号为CN110062026A的《移动边缘计算网络中资源分配和计算卸载联合优化方案》专利，公开了移动边缘计算网络中无线带宽和计算资源联合分配方案,属于无线通信和移动边缘计算领域,解决了异构无线网络中多用户设备多移动边缘服务器部署场景下的资源竞争和负载均衡问题。方案具体包括：宏基站控制器收集本时隙内所有用户设备端发送的计算卸载请求信息,并通知其管辖区域内所有MEC服务器报告当前资源剩余情况；根据所获取的信息,宏基站控制器将用户设备计算任务和MEC服务器资源进行首次匹配；制定MEC服务器中无线带宽和计算资源分配规则；建立合作博弈模型输出最终匹配策略集。本发明兼顾了每个用户设备的特性,有效地降低了计算卸载的费用开销,节约了移动用户设备端能耗。在相同数量MEC服务器部署情况下,本发明方案能够接纳更多的计算卸载任务,平衡了服务器之间的通信和计算负载,提升了系统的任务执行效率。

技术方法2：专利公开号为CN110248206A的《一种用于电力无线专网系统的资源分配方法、装置及电子设备》专利，公开实施了一种用于电力无线专网系统的资源分配方法、装置及电子设备,所述方法包括获取缓存方案,所述缓存方案包括每个片段在所述第一基站的缓存情况,基于所述缓存方案,确定传输时延集合,所述传输时延集合包括每个终端设备获取每个片段时的传输时延,基于所述缓存方案和所述传输时延集合,确定推荐方案,以使综合时延最小,其中,所述推荐方案包括对于每个终端设备的推荐内容,所述推荐内容包括所述F个视频文件中的至少一个,所述综合时延为所述U个终端设备的时延期望值之和,基于所述传输时延集合和所述推荐方案,确定所述缓存方案的更新方案,以使综合时延最小。该技术方案能够减轻通信链路的传输压力。

技术方案3：专利公开号为CN109814951A的《移动边缘计算网络中任务卸载及资源分配的联合优化方法》，公开了移动边缘计算网络中任务卸载及资源分配的联合优化方法,包括以下步骤：步骤一：建立一个基于OFDMA的多MEC基站、多用户设备的场景模型,其中MEC基站支持多用户设备接入；步骤二：引入卸载决策机制；同时构建本地计算模型和远端计算模型,选出需要进行计算卸载的用户设备,根据上述条件建立满足时延约束情况下基于最小能耗的计算任务卸载和资源分配方案；步骤三：通过对卸载决策变量、无线资源分配变量及计算资源分配变量三个相互约束的优化变量进行变量融合,使问题简化；步骤四：通过分支定界算法获得使MEC系统中用户设备总能耗最低的卸载决策及资源分配结果。本发明具有在保证严格时延限制的前提下，能有效降低系统能耗的优点。

相关技术中的上述方案都存在一定的缺陷：

方案1宏基站控制器收集本时隙内所有用户设备端发送的计算卸载请求信息然后根据所获取的信息将用户设备计算任务和MEC服务器资源进行首次匹配；制定MEC服务器中无线带宽和计算资源分配规则；建立合作博弈模型输出最终匹配策略集。但是此方案的学习效率较低，当有新的请求来临时的分配速度较慢。

方案2设计了一种缓存方案，每个片段在所述第一基站的缓存情况,基于所述缓存方案,确定传输时延集合,所述传输时延集合包括每个终端设备获取每个片段时的传输时延,基于所述缓存方案和所述传输时延集合,确定推荐方案,以使综合时延最小。但是此方案对于能耗方面的考虑有所欠缺，重点放在了时延的控制上。

方案3建立一个基于OFDMA的多MEC基站、多用户设备的场景模型，引入卸载决策机制；同时构建本地计算模型和远端计算模型,选出需要进行计算卸载的用户设备,再过分支定界算法获得使MEC系统中用户设备总能耗最低的卸载决策及资源分配结果。但这样的过程整体耗时长，速度慢，此方法考虑并不完善。

发明内容

针对现有技术的不足，本发明提出一种电力无线专网安全动态资源分配的方法，包括：

对预先构建的电力无线专网动态高能效资源分配模型中的各连接关系，采用凸优化方法得到所述各连接关系对应的最小传输能量；并将所述各连接关系、连接关系中的数据流信息以及所述最小传输能量存入设定的记忆池中；

从所述记忆池中选择样本数据，进行训练得到最佳连接关系、最佳功率分配值和最优能效值；

其中，所述电力无线专网动态高能效资源分配模型基于电力无线专网中每个基站与各用户设备之间的服务关系构建。

优选的，所述每个基站与各用户设备之间的连接关系，包括：

基于基站与用户设备之间的链路承载的流的数据速率，通过使用香农界限，确定无线链路的频谱效率；

基于所述无线链路的频谱效率确定无线链路实现的数据速率容量；

其中，所述基站集合和核心网通过有线回程链路连接，所述用户设备与基站之间通过无线链路进行数据传输。

优选的，所述采用凸优化方法得到所述各连接关系对应的最小无线传输能量；并将所述各连接关系、连接关系中的数据流信息以及所述最小无线传输能量存入设定的记忆池中，包括：

1)基于连接关系设定状态空间；从所述状态空间中随机初始化一个状态、初始化记忆池、设置观察的步数，并将所述观察的步数设为观察值；

2)在当前状态的基础上，选择一个动作，获取相应的奖励值，以及动作结束后的状态，并将当前状态、动作、奖励值和动作结束后的状态保存到记忆池中；

3)判断记忆池中存放数据数量是否超过观察值，如果不够，转到4)；否则结束；

4)判断是否达到设定的最大查找步数，若达到最大查找步数，则随机重置一个状态；否则，将动作结束后的状态设置为当前状态s，返回步骤2)。

优选的，所述基于连接关系设定状态空间包括：

基于所有用户设备分别与各个基站的连接的排列组合情况构建数组M，M＝{s₁，s₂，…，s_k}；其中，k为用户设备个数，s₁，s₂，…，s_k为用户设备{1,2,…,k}与各基站的连接关系；

基于所有基站构建的数组组成的连接关系构建状态空间S，S＝{M₁，M₂，…，M_N}；其中，N为总的连接关系数，N＝H^k，H为基站的数量。

优选的，所述在当前状态的基础上，选择一个动作，获取相应的奖励值，以及动作结束后的状态，包括：

根据连接关系数设定动作空间为A，A＝{1，2，…，N}，其中数字代表在当前状态中的位置，N代表总的连接关系数；

通过对凸优化方法所得到的当前状态下的最小无线传输能量，并结合贪婪策略在动作空间A中的数字；

基于所述数字在当前状态中的位置确定动作结束后的状态；

同时设定奖励为E_max-E，其中E_max表示当前基站可以提供的最大能量消耗值，E表示在采取所述动作后的能量消耗值。

优选的，所述动作后的能量消耗值的计算式如下：

其中，E^T为动作后的能量消耗值，P_ij为基站i给用户设备j的分配功率；S_ij为基站i服务用户设备j时具有连接关系，t₀为操作时间，I为所有基站的集合，J为所有用户设备的集合。

优选的，所述数据流信息如下式：

其中，

是基站i与用户设备j上所承载的流f的数据速率,

为基站i与某用户设备j上所承载的流具有所需的数据包大小为，t_0ij为基站i到某用户设备j上操作时间。

优选的，所述无线链路实现的数据速率容量如下式：

r_ij＝x_ijB_iΥ_ij

其中，r_ij表示用户设备j被基站i服务的数据速率，x_ij表示基站i给用户设备j的分配比率，B_i表示基站i的总可用频谱带宽，γ_ij表示用户j被基站i服务的无线链路的频谱效应。

优选的，所述从所述记忆池中选择样本数据，进行训练得到最佳连接关系、最佳功率分配值和最优能效值，包括：

从所述记忆池中选择样本数据；

基于每个样本数据，利用凸优化方法对预先设定的目标函数和约束条件进行计算，得到所述样本数据中当前状态s对应的连接关系下的最优功率分配解和对应的Q值表，以及所述Q值表对应的targetQ值；

使用Q值表与targetQ值训练神经网络得到最佳连接关系、最佳功率分配值和最优能效值。

优选的，所述Q值表对应的targetQ值按下式计算：

Q(s,A)＝R+γmax[Q(s’,all_actions)]；

其中，s’为下一状态，γ为奖励性衰变系数，all_actions为所有动作。

优选的，所述目标函数的计算式如下：

其中，t₀是操作时间，E^C(s_ij)为节点操作能量，

为固定功耗，P^C为消耗功率，s_ij为基站i服务用户设备j时具有连接关系，r^f为所需的数据速率，I为基站的集合，J为用户设备的集合，F为包含所有在网络链路上的流的集合。

优选的，所述约束条件，包括：

每个用户设备只能被一个基站服务；

无线链路所承载的流大小不能超过所述流实现的数据速率容量；

总共的发射功率以及分配带宽不超过所述总共的发射功率以及分配带宽提供的总功率及总带宽；

用户设备的接收功率约束与信噪比值的约束。

优选的，所述基于优化目标函数，计算得到最优解之后，还包括：基于所述最优解，进行动态带宽和功率资源分配。

基于同一发明构思，本发明还提出一种电力无线专网安全动态资源分配的系统，包括：构建模块和学习模块；

所述构建模块：对预先构建的电力无线专网动态高能效资源分配模型中的各连接关系，采用凸优化方法得到所述各连接关系对应的最小传输能量；并将所述各连接关系、连接关系中的数据流信息以及所述最小传输能量存入设定的记忆池中；

所述学习模块：从所述记忆池中选择样本数据，进行训练得到最佳连接关系、最佳功率分配值和最优能效值；

优选的，所述学习模块，包括：选择单元、计算单元和训练单元；

所述选择单元，用于从所述记忆池中选择样本数据；

所述计算单元，用于基于每个样本数据，利用凸优化方法对预先设定的目标函数和约束条件进行计算，得到所述样本数据中当前状态s对应的连接关系下的最优功率分配解和对应的Q值表，以及所述Q值表对应的targetQ值；

所述训练单元，用于使用Q值表与targetQ值训练神经网络得到最佳连接关系、最佳功率分配值和最优能效值。

本发明具有的有益效果：

本发明提出了一种电力无线专网安全动态资源分配的方法和系统，包括：对预先构建的电力无线专网动态高能效资源分配模型中的各连接关系，采用凸优化方法得到所述各连接关系对应的最小传输能量；并将所述各连接关系、连接关系中的数据流信息以及所述最小传输能量存入设定的记忆池中；从所述记忆池中选择样本数据，采用基于深度强化学习DRL神经网络模型进行训练得到最佳连接关系、最佳功率分配值和最优能效值；其中，所述电力无线专网动态高能效资源分配模型基于电力无线专网中每个基站与各用户设备之间的服务关系构建；

本发明提供的技术方案建立了电力无线专网的动态高能效资源分配模型，并找到了最优的资源分配框架；以最小能效消耗和满足用户设备的需求为目标，利用深度强化学习的方法，为所有用户设备分配功率；最后通过仿真实验，验证了算法的有效性，最终达到在较短的时间内即可寻找到相对理想的资源分配方式，既可以保证整体能效最低，又可以保证用户设备的基本需求，保障了电力无线专网的健康、安全、可靠、高效运行；

本发明利用深度强化学习的方法，首先研究了电力无线专网的运行场景和需求；其次分析了电力无线专网中功率分配和带宽分配方法，并对全网的规划方案建立了网络优化模型；

本发明提出的基于深度强化学习(DRL)的框架来实现电力无线专网安全动态资源分配的方法，在某一特定连接关系下，先利用凸优化方法来求得最小无线传输能量，然后用DQN进行迭代，在凸优化结果的基础上，寻找最佳连接关系与最佳功率分配值，以计算出最优的能效值；仿真结果显示我们得到了该算法收敛并趋于平稳时的能效值，与距离最近策略和用户设备分簇的策略对比来看七值为最低；验证了基于DRL框架的效率，以及其满足用户设备要求和实现动态高能效资源分配的有效性。

附图说明

图1为本发明提供的一种电力无线专网安全动态资源分配的方法流程图；

图2为本发明提供的一种电力无线专网安全动态资源分配的方法资源分配图；

图3为本发明提供的一种电力无线专网安全动态资源分配的方法资源分配算法步骤流程图；

图4为本发明提供的一种DRL策略下不同用户设备数量的奖励对比图；

图5为本发明提供的一种DRL策略下不同用户设备数量的损失对比图；

图6为本发明提供的一种DRL策略下不同用户设备数量的能效对比图；

图7为本发明提供的一种在三种不同策略下的能效值效果对比图；

图8为本发明提供的一种在三种不同策略下的功率消耗值效果对比图；

图9为本发明提供的一种在三种不同策略下的用户设备接受功率效果对比图；

图10为本发明提供的一种SINR的累积概率分布图；

图11为本发明提供的一种电力无线专网安全动态资源分配的系统结构图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

本发明提供了一种电力无线专网安全动态资源分配的方法，如图1所示，包括：

步骤1：对预先构建的电力无线专网动态高能效资源分配模型中的各连接关系，采用凸优化方法得到所述各连接关系对应的最小传输能量；并将所述各连接关系、连接关系中的数据流信息以及所述最小传输能量存入设定的记忆池中；

步骤2：从所述记忆池中选择样本数据，进行训练得到最佳连接关系、最佳功率分配值和最优能效值；

1.本发明的电力无线专网动态高能效资源分配模型

(1)电力无线专网动态高能效资源分配模型

考虑在支持SDN的异构网络(HetNet)中的下行链路传输情况，其包括一组BS集合I：＝{1,…,i,，，,I}和一组用户设备集合J：＝{1,…,j,，，,J}以及核心网N组成。BS集合I和核心网(核心路由器)N通过有线回程链路连接。用户设备J与BS集合I之间通过无线链路进行传输。

流的集合F＝{1,…,f,，，,F}在所考虑的网络中运行，其中每个流具有所需的数据包大小为m^f，所需的数据速率r^f，传输时间为t₀。

我们假设多个流可以到达一个用户设备(多个服务)，而一个链路支撑一个流。是某个BS和i与某个用户设备j上所承载的流f的数据速率。

数据流信息如下式：

其中，

是基站i与用户设备j上所承载的流f的数据速率,

无线链路的容量取决于网络分配给该链路的无线电资源的比率。因此，通过使用香农界限，无线链路的频谱效率被定义为

其中g_ij是大规模信道增益，其包括传输节点i(无线链路的源)和接收节点j(无线链路的目的地)之间的路径损耗和阴影。P_ij(瓦特)是无线链路上的传输功率。N₀是噪声功率谱密度(PSD)，B_i是基站i的总可用频谱带宽。x_ij∈[0,1]是基站i给用户设备j的分配比率。因此，无线链路的可实现的数据速率容量是

r_ij＝x_ijB_iΥ_ij

我们假设节点i∈I配备有缓存功能并存储Si流行内容。如图2所示，在该提议的方案中，总S内容文件存储在内容服务器(云中心或因特网源)，并且每个内容具有标准化大小1.这个假设是合理的，因为我们可以将内容切片成具有相同长度的块。由于移动网络中的节点仅具有有限的存储能力，因此Si远小于云中心

其中，r_ij表示用户设备j被基站i服务的数据速率，x_ij表示基站i给用户设备j的分配比率，B_i表示源节点i的总可用频谱带宽，γ_ij表示用户j被基站i服务的无线链路的频谱效应。

我们假设BS和i处的最大调度CPU计算频率是c_i。要处理位信息，需要c_i，CPU周期，这意味着c_ir^f(周期/秒)是支持流f从BS i开始的最低要求。基站i和用户设备j的连接关系表示为S_ij∈{0,1}，其中S_ij＝1表示基站i服务用户设备j有连接关系，S_ij＝0表示用户设备j与基站i没有连接关系。

(2)目标函数

在网络中支持F流的消耗能量包括两个主要部分，即节点操作能量和传输能量。下面示出的节点操作能量E^C(s_ij)取决于固定功耗

(例如，电路，控制信号，内容高速缓存)和计算消耗功率p^C(瓦特/周期)，J表示用户设备的集合，I表示基站的集合。

其中t₀是操作时间(秒)。此外，我们忽略内容服务器使用的能量，因为我们的目的是最小化所考虑系统的能效，t₀是操作时间，E^C(s_ij)为节点操作能量，s_ij为基站i服务用户设备j时具有连接关系，r^f为所需的数据速率，I为基站的集合，J为用户设备的集合，F为包含所有在网络链路上的流的集合。

传输能量取决于无线传输能量以及回程传输能量。无线传输功率设置为p_ij，p_ij是指BS i所分配给用户设备j的功率。回程传输功率表示为P_w。

其中，无线传输能量为：

其中，回程传输能量为：

因此，总能量消耗是

η_EE＝(E^C(s_ij)+E^T(s_ij，p_ij)+E^B)

因此，能效为

联合节能问题可以在数学上表示为min_S，PE_b

被限制于：

约束(a-b)中，s_ij∈{0，1}是二进制决策变量，用于表示用户设备j与某个BS i是否相连接，每个用户设备只能被一个基站服务。

约束(c)反映了无线链路所承载的流大小不能超过其可实现的数据速率容量。

约束(d-e)反映了对于任意一个BS来说，其总共的发射功率以及分配带宽不能超过其可以提供的总功率及总带宽。

约束(f-g)反映了用户设备的接收功率约束与SINR的约束。其中，ω＝-110dBm为最小接受功率，φ＝-3dB为SINR限制。

上述模型综合考虑了电力无线专网节点的计算和缓存能力，以能效最低为目标寻求动态高能效资源分配框架。一些方法中中利用Q-Learning以电力无线专网的能量消耗值最小化为目标进行资源分配，然而并未考虑能效的大小而且相比于Q学习，DRL的训练速度更快，对于大型动作空间更适用。相比于启发式算法，DRL可以避免陷入局部最优，从而获得全局最优解。因此我们选择用DRL来解决该优化问题。

2.基于深度强化学习的动态高能效资源分配策略

(1)算法实现

DRL由代理以及外界环境两部分组成。外界环境状态的改变是通过代理采取不同的动作来实现的，然后代理会接收到来自外界环境所反馈的一个奖励。寻找最优的策略来最大化奖励的值是DRL的目的。

在本实施例中，我们提出了基于DRL的电力无线专网动态高能效资源分配框架。其目标是最小化电力无线专网能效的同时也能满足每个用户设备的需求以及不超出每个基站的最大功率和带宽承载量。为了减小框架的状态空间大小，在某一特定连接关系下，我们先利用凸优化方法来求得最小无线传输能量，然后用DQN进行迭代，在凸优化结果的基础上，寻找最佳连接关系与最佳功率分配值，以计算出最优的能效值。

状态空间：由上面的定义可知，我们用0代表某用户设备没有被某基站所服务，用1表示此用户设备被某基站所服务。本实施例中假设有三个基站，也就是基站数量H＝3，因此对于任何一个用户设备来说与基站的连接关系有三种分别是：u₁＝[1，0，0]，u₂＝[0，1，0]，u₃＝[0，0，1]。u₁表示此用户设备被一号基站服务，u₂表示此用户设备被二号基站服务，u₃表示此用户设备被三号基站服务。所以我们的状态空间为所有用户设备的三种连接关系的排列组合。具体来说,假设用户设备个数为K，则可以用M＝{s₁，s₂，…，s_k}来表示所有用户设备与基站的某一种连接关系，其中s₁，s₂，…，s_k是u₀，u₁，u₂中的某个值。因此我们的状态空间可以表示为S＝{M₁，M₂，…，M_N}，其中N＝3^k表示总的连接关系数。基于连接关系设定状态空间，包括：基于所有用户设备分别与各个基站的连接的排列组合情况构建数组M，M＝{s₁，s₂，…，s_k}；其中，k为用户设备个数，s₁，s₂，…，s_k为用户设备{1,2,…,k}与各基站的连接关系；

动作空间：动作是DRL代理根据训练结果利用动作空间来指示下一状态。我们定义动作空间为A＝{1，2，…，N}。DRL代理通过对凸优化方法所得到的当前状态下的最小无线传输能量E_t进行分析，来选择下一个状态，即利用动作空间A中的数字来指示状态空间中下一状态所在位置从而得到下一状态。

奖励：奖励用来表示与框架目标的符合度，奖励越大代表越符合优化目标。在此框架中，我们的目标是在满足约束的同时最小化能效值。所以当所消耗能量越低时，奖励值越大。我们规定即时奖励为E_max-E，其中E_max表示基站可以提供的最大能量消耗值，E表示在采取此动作后的能量消耗值。动作后的能量消耗值的计算式如下：E^T(p_ij，s_ij)＝∑_j∈J∑_i∈ _It₀p_ijs_ij

DRL包括两个阶段：离线构造网络阶段和在线深度Q学习阶段。利用CNN获得状态-动作对(s，a)和值函数Q(s，a)之间的相互关系是离线阶段的主要任务，其中值函数为在状态s下执行动作a时的累积折扣奖励。其中s′为下一状态，a′为下一动作。

Q(s，a)＝r(s，a，s′)+λQ(s′，a′)

其中λ表示discounted parameter，r(s，a，s′)表通过执行动作a所获得的奖励。离线构造需要累积足够的值估计和对应(s，a)的样本，并使用记忆回放以平稳训练过程。离线DNN需要构造累积足够的值估计样本和相应的(s，a)来使DNN足够精确。

深度Q学习在基于离线构建的DNN基础上进行在线动态控制。在线学习过程中，在每个时段，DRL代理利用CNN得到估计Q值，用∈贪婪策略选择动作a，其中有∈的概率随机选择动作，有1-∈的概率选择有最大估计Q值的动作。在选择了动作后，可以得到某一种确定的连接关系，凸优化框架利用这种连接关系用来计算下述无线传输能量的最小值。

具体来说，确定的连接关系将作为已知输入到凸优化方法中，在这基础上，凸优化方法可以根据目标函数和约束条件找到最优的各个基站对各个用户设备的分配功率大小，即可以得到某种确定连接关系下的最小无线传输能量。而后计算出总的能量消耗，然后在与环境交互中观察到立即奖励r和下一状态s′。将状态转换(s，a，r，s′)存入记忆内存，之后，DQN会随机从从记忆池中抽取一部分数据迭代估值更新网络的参数。同时，每经过一定步数，估值网络的参数会被同步到目标网络中。由于选择不同的动作所得奖励不同，网络参数趋于最优。

(2)算法流程

基于深度强化学习的动态高能效资源分配算法步骤如下：

1)对电力无线专网随机初始化一个状态s，s∈S，初始化记忆池，并设置观察值(样本训练之前观察的步数)；

2)在当前状态s的基础上，选择一个动作a，a∈A，获取相应的奖励值r，r∈R，以及动作结束后的状态s’，

根据连接关系数设定动作空间为A，A＝{1，2，…，N}，其中数字代表在当前状态中的位置，N代表总的连接关系数；通过对凸优化方法所得到的当前状态下的最小无线传输能量，并结合贪婪策略在动作空间A中的数字；基于所述数字在状态空间S中的位置确定动作结束后的状态；同时设定奖励为E_max-E，其中E_max表示当前基站可以提供的最大能量消耗值，E表示在采取所述动作后的能量消耗值。

并将相关参数s,a,r,s’保存到记忆池中；

3)判断记忆池中存放数据数量是否超过观察值，如果不够，转到4)，如果数据足够，执行步骤5)；

4)判断查找过程结束与否(查找之前设置最大查找步数)

①若达到最大查找步数，给s随机重置一个状态；

②若查找未达到最大步数，将当前状态s更新为s’；

返回步骤2)

5)开始训练：

①从记忆池中随机选取一定比例的数据作为样本进行训练；

②将随机取出的样本状态s’作为训练样本，利用凸优化方法计算出此样本当前状态下的最优功率分配解，得到对应状态下的Q值表；

③根据公式计算出Q值表对应的targetQ值；公式为：

Q(s,A)＝R+γmax[Q(s’,all_actions)]

其中，s’为下一状态，γ为奖励性衰变系数，all_actions为所有的动作，即整体的动作空间，可换做A表示；

6)使用Q值表与targetQ值训练神经网络。

7)结束

基于深度强化学习的业务通道优化算法步骤流程图，如图3如下：

最优的资源分配框架。本发明首先研究了电力无线专网的运行场景和需求；其次分析了电力无线专网中功率分配和带宽分配方法，并对全网的规划方案建立了网络优化模型，以最小能效消耗和满足用户设备的需求为目标，利用深度强化学习的方法，为所有用户设备分配功率；最后通过仿真实验，验证了算法的有效性，最终达到在较短的时间内即可寻找到相对理想的资源分配方式，既可以保证整体能效最低，又可以保证用户设备的基本需求，保障了电力无线专网的健康、安全、可靠、高效运行。

实施例2：

本发明中，我们分别选取了三个用户设备，四个用户设备，五个用户设备以及六个用户设备四种情况，图4表示了四种情况下的奖励对比图，图5表示了四种情况下的损失对比图，图6表示了四种情况下的能效对比图。

四种情况下收敛时近似的步数值以及结果值如下表所示：

表1:收敛时近似值

由以上可知，图6中由上至下四条线分别表示六个用户设备的情况，五个用户设备的情况，四个用户设备的情况，三个用户设备的情况，用户设备数量越多时，收敛时的所需步数越大即收敛的越慢，因为用户设备数量越多，DRL的状态空间与动作空间都会增大导致训练的收敛步数增大。另外，能效值也随着用户设备数量的增多而增长。

接下来我们选取了六个用户设备的情况，对比了三种不同策略下的能效值以及功率消耗值。其中DA表示用户设备选取距离最近的基站接受服务，DRL表示本文提到的基于DRL的电力无线专网动态高能效资源分配框架收敛时的取值，UC表示任意两个用户设备聚类并分配给其中一个基站进行服务。DRL收敛时的能效值以及功率消耗值为最低，其次为选取距离最近(DA)的策略，而任意两个用户设备聚类(UC)的方法的能效值以及功率消耗值最高。如图7，图8所示。

再接下来我们对比了这三种不同策略下的用户设备接受功率，如图9所示。以及SINR的累积概率分布，如图10所示。UC表示任意两个用户设备聚类的策略，DA表示选取距离最近的策略，DRL表示采用基于DRL的电力无线专网动态高能效资源分配框架。在图9中，由上至下三条线虚线分别代表UC,DA,DRL策略。通过用户设备接受功率的累计概率分布图可知，用户设备接受功率在-50dBm到-20dBm之间的概率变化为DRL的方法最大，其次为DA的方法，最后是UC的方法。即DRL的策略可以相对最大化用户设备的接受功率。在图10中，SINR的累计概率分布中，SINR在2dB到4bB之间的概率变化为最大，其次为DA的策略，最后是UC的策略。即DRL的方法可以相对最小化SINR的值。这都说明了DRL方法表现最好。

实施例3：

如图11所示。基于同一发明构思，本发明还提供了一种电力无线专网安全动态资源分配的系统，包括：

构建模块和学习模块；

所述选择单元，用于从所述记忆池中选择样本数据；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种电力无线专网安全动态资源分配的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述每个基站与各用户设备之间的连接关系，包括：

3.根据权利要求1所述的方法，其特征在于，所述采用凸优化方法得到所述各连接关系对应的最小无线传输能量；并将所述各连接关系、连接关系中的数据流信息以及所述最小无线传输能量存入设定的记忆池中，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于连接关系设定状态空间包括：

基于所有用户设备分别与各个基站的连接的排列组合情况构建数组M，M＝{s₁,s₂,…,s_k}；其中，k为用户设备个数，s₁,s₂,…,s_k为用户设备{1,2,…,k}与各基站的连接关系；

基于所有基站构建的数组组成的连接关系构建状态空间S，S＝{M₁,M₂,…,M_N}；其中，N为总的连接关系数，N＝H^k，H为基站的数量。

5.根据权利要求3所述的方法，其特征在于，所述在当前状态的基础上，选择一个动作，获取相应的奖励值，以及动作结束后的状态，包括：

根据连接关系数设定动作空间为A，A＝{1,2,…,N}，其中数字代表在当前状态中的位置，N代表总的连接关系数；

基于所述数字在当前状态中的位置确定动作结束后的状态；

6.根据权利要求5所述的方法，其特征在于，所述动作后的能量消耗值的计算式如下：

其中，E^T为动作后的能量消耗值，P_ij为基站i给用户设备j的分配功率；S_ij为基站i服务用户设备j时具有连接关系，t₀为操作时间,I为所有基站的集合，J为所有用户设备的集合。

7.根据权利要求3所述的方法，其特征在于，所述数据流信息如下式：

其中，

是基站i与用户设备j上所承载的流f的数据速率,

8.根据权利要求2所述的方法，其特征在于，所述无线链路实现的数据速率容量如下式：

r_ij＝x_ijB_iΥ_ij

9.根据权利要求1所述的方法，其特征在于，所述从所述记忆池中选择样本数据，进行训练得到最佳连接关系、最佳功率分配值和最优能效值，包括：

从所述记忆池中选择样本数据；

10.根据权利要求9所述的方法，其特征在于，所述Q值表对应的targetQ值按下式计算：

Q(s,A)＝R+γmax[Q(s’,all_actions)]；

其中，s’为下一状态，γ为奖励性衰变系数，all_actions为所有的动作。

11.如权利要求9所述的方法，其特征在于，所述目标函数的计算式如下：

其中，t₀是操作时间，E^C(s_ij)为节点操作能量，

12.如权利要求9所述的方法，其特征在于，所述约束条件，包括：

每个用户设备只能被一个基站服务；

用户设备的接收功率约束与信噪比值的约束。

13.如权利要求9所述的方法，其特征在于，所述基于优化目标函数，计算得到最优解之后，还包括：基于所述最优解，进行动态带宽和功率资源分配。

14.一种电力无线专网安全动态资源分配的系统，其特征在于，包括：构建模块和学习模块；

其中，所述电力无线专网动态高能效资源分配模型基于电力无线专网中每个基站与各用户设备之间的服务关系构建；所述最佳连接关系与最佳功率分配值满足。

15.根据权力要求14所述的系统，所述学习模块，包括：选择单元、计算单元和训练单元；

所述选择单元，用于从所述记忆池中选择样本数据；