CN115442812A

CN115442812A - 一种基于深度强化学习的物联网频谱分配优化方法及系统

Info

Publication number: CN115442812A
Application number: CN202211388554.4A
Authority: CN
Inventors: 王家烨; 金波; 张凤莲; 武明虎; 赵楠; 王茹; 杜万银; 孙萌; 杨成健; 郭乐铭
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2022-12-06
Anticipated expiration: 2042-11-08
Also published as: CN115442812B

Abstract

本发明属于工业物联网频谱管理技术领域，具体涉及一种基于深度强化学习的物联网频谱分配优化方法及系统。考虑到全局信道信息未知的情况下，提出一种基于多智能体深度强化学习的工业物联网频谱分配优化方法。首先，构造多个设备对设备通信链路的系统模型。其次，构建优化问题，结合频谱子带和传输功率等约束条件以优化物联网网络综合效率。接着，将优化问题描述为马尔可夫决策过程。最后，针对上述优化问题具有较大的状态空间和动作空间，提出了多智能体深度Q网络算法。借助于经验回放机制和目标网络策略，以实现最优的频谱子带选择和传输功率分配策略。

Description

一种基于深度强化学习的物联网频谱分配优化方法及系统

技术领域

本发明属于工业物联网频谱资源管理技术领域，具体涉及一种基于深度强化学习的物联网频谱分配优化方法及系统。

背景技术

随着信息时代的快速发展，工业物联网得到了蓬勃的发展。然而，随着工业物联网中无线设备的增加，加剧了对有限频谱资源和设备通信需求之间的矛盾。为了缓解这一现象，许多研究人员都提出了优化方法来应对。但是，在实际情况中，需要获取全局信道状态信息是非常困难的且计算复杂度高，现有的优化方法难以得到最优策略。因此，提出了一种多智能体深度强化学习方法来获得与蜂窝通信链路共享频谱的最优策略，并使工业物联网网络综合效率最大化。

发明内容

为了克服现有技术的存在的不足，本发明的目的旨在提出一种基于深度强化学习的频谱分配优化方法。

为了达到上述目的，本发明采用的技术方案是：

一种基于深度强化学习的物联网频谱分配优化方法，其特征在于，包括：

构造多个设备对设备通信链路的系统模型；

基于构造的系统模型采集系统相关参数，包括蜂窝通信链路的信噪比和在频谱子带上的传输速率，也包括设备对设备通信链路的信噪比、所选择的频谱子带及其传输功率；

构建优化目标函数以及约束条件；

将采集的相关参数输入至优化目标函数以及约束条件，基于马尔可夫决策采用多智能体深度Q网络算法对目标函数进行求解，输出最优的频谱子带选择和传输功率分配策略，包括蜂窝通信链路效率、多个设备对设备通信链路效率以及最后所考虑的工业物联网网络效率。

在上述的一种基于深度强化学习的物联网频谱分配优化方法，多个设备对设备通信链路的系统模型包括：

一个基站；

个蜂窝通信链路；

个设备对设备通信链路；

其中，蜂窝通信链路用于获取高数据速率的服务，多个设备对设备通信链路用于设备之间的双向通信；假设蜂窝通信链路的频谱被分成

个正交频谱子带，且每个频谱子带带宽为

。

在上述的一种基于深度强化学习的物联网频谱分配优化方法，多个设备对设备通信链路可能有不同的频谱子带选择，二元频谱分配向量被定义为

，并且，

当设备对设备通信链路

复用蜂窝通信链路的频谱子带时，

；

当

时，设备对设备通信链路未复用蜂窝通信链路的频谱子带；

定义每个设备对设备通信链路最多只能复用一个频谱子带，即：

。

在上述的一种基于深度强化学习的物联网频谱分配优化方法，

蜂窝通信链路在频谱子带

上的信噪比：

蜂窝通信链路在频谱子带

上数据的传输速率可以表示为：

设备对设备通信链路

在频谱子带

上的信噪比：

干扰功率

可以表示为：

设备对设备通信链路

在频谱子带

上的传输速率为：

其中，蜂窝通信链路在频谱子带

上到基站的信道增益被表示为

；将

表示为频谱子带

上蜂窝通信链路

的传输功率；

是噪声功率，

为二元频谱分配向量，

表示频谱子带

上设备对设备通信链路

的传输功率，

是设备对设备通信链路

在频谱子带

上到基站的干扰信道增益；

为频谱子带带宽，

是蜂窝通信链路在频谱子带

上信噪比；

是频谱子带

上的设备对设备通信链路

在频谱子带

的信道功率增益，

是设备对设备通信链路

在频谱子带

上的接收到的干扰功率；

为二元频谱分配向量，

是蜂窝通信链路

到设备对设备通信链路

的干扰信道增益，

是设备对设备通信链路

到设备对设备通信链路

的干扰信道增益。

在上述的一种基于深度强化学习的物联网频谱分配优化方法，将蜂窝通信链路效率

和设备对设备通信链路效率

加权和定义为工业物联网网络效率：

其中，

和

是平衡蜂窝通信链路和设备对设备通信链路效率的权重；

蜂窝通信链路效率表示为：

设备对设备通信链路的效率表示为：

其中，其中，

和

分别为蜂窝通信链路的传输功率和电路功耗，

为频谱子带带宽；类似地，结合设备对设备通信链路的传输速率

，

为频谱子带带宽，

和

分别为设备对设备通信链路的传输功率和电路功耗。

在上述的一种基于深度强化学习的物联网频谱分配优化方法，约束条件表示为

其中，

和

都表示设备对设备通信链路频谱选择的限制条件，设备对设备通信链路的传输功率

不能超过其最大传输功率

。

在上述的一种基于深度强化学习的物联网频谱分配优化方法，对目标函数进行求解时：

训练开始之前对经验重放的经验回放池

初始化，并随机对多个智能体的Q网络初始化；在每个训练回合开始时，更新工业物联网中设备的位置和大规模衰落系数，同时对设备与设备链路之间的剩余传输负载

和剩余传输时间

进行重置；

在训练的每个时间间隙

中，设备对设备链路作为智能体探索环境并获取环境状态和剩余传输负载

和剩余传输时间

；

设备对设备链路

根据

-greedy策略从环境状态

中选择行动

，获得环境所反馈的奖励回报

和更新信道小规模衰落系数；

环境状态转换到下一环境状态

，同时采取经验重放策略，将

存储到经验回放池中

；

设备对设备链路

随机的从中抽取小批量的经验进行训练，同时，设备对设备通信链路

可以通过最小化损失函数

来优化Q网络和学习目标之间的误差：

其中，

为动作值函数，

和

分别是设备对设备通信链路

在时间间隙

时的状态空间和动作空间，

为主网络权重；

表示目标网络的输出，

和

分别是设备对设备通信链路

在下一个环境状态时的状态空间和动作空间，

为主网络权重，

为

折扣贴现率；

每个训练回合在设备对设备链路做出合理的频谱子带和传输功率分配之后结束，当训练回合数达到最大时，训练停止。

在上述的一种基于深度强化学习的物联网频谱分配优化方法，环境状态

包括：

,

,

和

分别是蜂窝通信链路和设备对设备通信链路

的信道状态，

是设备对设备通信链路

在频谱子带

上的接收到的干扰功率；此外，设备对设备链路

所获得的环境状态

定义为：

。

一种工业物联网频谱分配优化系统，其特征在于，包括：

第一模块：被配置为用于构造多个设备对设备通信链路的系统模型；

第二模块：被配置为用于基于构造的系统模型采集系统相关参数，包括蜂窝通信链路的信噪比和在频谱子带上的传输速率，也包括设备对设备通信链路的信噪比、所选择的频谱子带及其传输功率；

第三模块：被配置为用于构建优化目标函数以及约束条件；

第四模块：被配置为用于将采集的相关参数输入至优化目标函数以及约束条件，基于马尔可夫决策采用多智能体深度Q网络算法对目标函数进行求解，输出最优的频谱子带选择和传输功率分配策略，包括蜂窝通信链路效率、多个设备对设备通信链路效率以及最后所考虑的工业物联网网络效率。

本发明的优点如下：1. 在频谱优化方面，提升了设备对设备链路的频谱资源利用率，并与蜂窝通信链路共享频谱，对工业物联网络的频谱效率有一定的提升作用。2. 通过深度强化学习算法，优化了设备对设备链路之间的传输功率分配，提升其链路的能量效率。3. 综合考虑蜂窝通信链路、设备对设备链路的频谱效率和能量效率，设立目标函数，提高工业物联网的网络效率。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

本实例是利用多智能体深度强化学习对工业物联网的频谱资源进行分配与优化。考虑到在实际情况中，需要获取全局信道状态信息是非常困难的且计算复杂度高，现有的优化方法难以得到最优策略。于是，提出多智能体深度强化学习方法来应对这一挑战。首先，构造多个设备对设备通信链路的系统模型。其次，构建优化问题，结合频谱子带和传输功率等约束条件以优化工业物联网网络综合效率。接着，将优化问题描述为马尔可夫决策过程。最后，针对上述优化问题具有较大的状态空间和动作空间，提出了多智能体深度Q网络算法。借助于经验回放机制和目标网络策略，以实现最优的频谱子带选择和传输功率分配策略。

考虑的多个设备对设备通信链路的工业物联网网络中，其主要组成部分如下：一个基站、

个蜂窝通信链路和

个设备对设备通信链路，其中，蜂窝通信链路用于获取高数据速率的服务，设备对设备通信链路用于设备之间的双向通信。假设蜂窝通信链路的频谱被分成

个正交频谱子带，且每个频谱子带带宽为

。

考虑到多个设备对设备通信链路可能有不同的频谱子带选择，二元频谱分配向量被定义为

。当设备对设备通信链路

复用蜂窝通信链路的频谱子带时，

；当

时，设备对设备通信链路未复用蜂窝通信链路的频谱子带。假设每个设备对设备通信链路最多只能复用一个频谱子带，即：

蜂窝通信链路采用上行链路通信，蜂窝通信链路在频谱子带

上到BS的信道增益被表示为

。将

表示为频谱子带

上蜂窝通信链路

的传输功率。于是，可以得出蜂窝通信链路在频谱子带

上的信噪比：

其中，

是噪声功率，

为二元频谱分配向量，

表示频谱子带

上设备对设备通信链路

的传输功率，

是设备对设备通信链路

在频谱子带

上到基站的干扰信道增益。

蜂窝通信链路在频谱子带

上数据的传输速率可以表示为：

其中，

为频谱子带带宽，

是蜂窝通信链路在频谱子带

上信噪比。

此外，根据频谱子带

上设备对设备通信链路

的传输功率

，可以求出设备对设备通信链路

在频谱子带

上的信噪比：

其中，

是噪声功率，

是频谱子带

上的设备对设备通信链路

在频谱子带

的信道功率增益，

是设备对设备通信链路

在频谱子带

上的接收到的干扰功率。

根据蜂窝通信链路的传输功率

和干扰设备对设备通信链路

的传输功率

，干扰功率

可以表示为：

其中，

为二元频谱分配向量，

是蜂窝通信链路

到设备对设备通信链路

的干扰信道增益，

是设备对设备通信链路

到设备对设备通信链路

的干扰信道增益。

接着，设备对设备通信链路

在频谱子带

上的传输速率为：

为了同时考虑频谱效率和能量效率，将其确定为一个目标函数。将蜂窝通信链路和设备对设备通信链路的效率定义为频谱效率与总功耗之比。根据蜂窝通信链路的传输速率

，蜂窝通信链路效率可以表示为：

其中，

和

分别为蜂窝通信链路的传输功率和电路功耗，

为频谱子带带宽。类似地，结合设备对设备通信链路的传输速率

，设备对设备通信链路的效率也可以表示为：

其中，

和

分别为设备对设备通信链路的传输功率和电路功耗。

因此，综合考虑了蜂窝通信链路效率和设备对设备通信链路效率，将蜂窝通信链路效率

和设备对设备通信链路效率

加权和定义为工业物联网网络效率：

其中，

和

是平衡蜂窝通信链路和设备对设备通信链路效率的权重。

在构建的多个设备对设备通信链路的工业物联网网络中，结合多个设备对设备通信链路复用频谱和设备对设备通信链路传输功率等约束条件，通过多个设备对设备通信链路与环境交互，进行频谱子带和传输功率选择。于是，优化问题就是通过优化频谱子带选择和设备对设备通信链路传输功率，使得工业物联网网络效率

最大化，可表示为：

其中，

和

不能超过其最大传输功率

。

由于优化问题具有非凸性和组合性，所以其优化问题难以解决。穷举算法可能会找到最优解，但计算复杂度高，且工业物联网内通信链路的信道状态信息很难获得，使得现有的优化方法难以获得最优近似解。因此，提出一个多智能体深度强化学习的解决方案，以找到多个设备对设备通信链路最优的频谱子带选择和传输功率分配策略。

在工业物联网网络中，假设每个设备对设备通信链路根据当前的环境状态和其它设备对设备通信链路动作自主决定频谱子带和传输功率以最大化工业物联网网络效率

。然后，根据之前的环境状态和选择的动作，环境状态转变为新的状态。于是，优化问题被建模为马尔可夫决策过程

，其中

是状态空间，

代表动作空间，

是奖励函数，

代表状态转移概率。设备对设备通信链路充当智能体，探索车辆环境，并指导自身的频谱子带

和传输功率

选择策略。

假设设备对设备通信链路

在时间

内对传输负载

进行传输，然后根据设备对设备通信链路

的传输速率

，剩余的传输负载

可以通过以下公式得出：

对于每个设备对设备通信链路，状态空间

由时间预算

中的七个部分组成：前四个

,

,

和

分别是蜂窝通信链路和设备对设备通信链路

的信道状态，

是设备对设备通信链路

在频谱子带

上的接收到的干扰功率。此外，还考虑了剩余传输负载

和剩余传输时间

。因此，设备对设备通信链路

的状态空间

定义为:

设备对设备通信链路通过不断地探索环境，以找到最优的频谱子带

和传输功率

进行传输，并且将设备对设备通信链路的传输功率分为

个等级，其中

。于是，设备对设备通信链路

的动作空间

定义为：

为了验证传输负载

是否成功传输，在奖励功能中考虑了成功或失败两种情况。如果传输失败，则将设备对设备通信链路在频谱子带选择

有效传输速率

作为奖励系数。否则，将给出常数

。因此，在时间间隙

的奖励函数

可以写为:

其中，

是物联网网络综合效率，

是剩余传输负载。

Q学习算法在求解小规模和离散空间等问题方面是有效的，但是当处理的问题具有很大的状态空间和动作空间，将导致其Q表非常大，这将为搜索和存储带来大量的时间和空间。因此，提出了多智能体深度Q网络算法来解决这个问题多智能体深度Q网络算法采用深度神经网络模型实现设备对设备通信链路的状态估计。为了有效地训练和更新Q网络，多智能体深度Q网络算法有两个重要的策略。一方面，采用经验回放的方法来保留历史经验，保证了训练数据的相对独立性，避免发散。另一方面，多智能体深度Q网络算法由结构相同但权重不同的主网络（权重

）和目标网络（权重

）组成。

经验重放将过去的经验存储到重放内存，并从池中随机抽取小批样本来训练深度神经网络，从而避免智能体只关注当前网络正在做的事情。在每个时间间隙

中，设备对设备通信链路

观察自己的状态，然后根据建立的动作值函数

执行联合频谱子带和传输功率选择。因此，动作值函数

被定义为:

其中，

和

分别是设备对设备通信链路在时间间隙

时的状态空间和动作空间，

为主网络权重，

为折扣贴现率，

为在时间间隙

获得的奖励。

然后，根据设备对设备通信链路

采取的动作

，环境转移到一个新的状态

，设备对设备通信链路

从环境中获得

的奖励。基于上述元素，每个设备对设备通信链路采用相同的方式计算即时奖励。于是，得到奖励

和新状态

，设备对设备通信链路

可以通过最小化损失函数

来更新深度Q网络的权重，该函数可以表示为:

其中，

和

分别是设备对设备通信链路在时间间隙

时的状态空间和动作空间，

为主网络权重，

是表示目标网络优化对象输出的目标值，可通过以下公式得出：

其中，

表示目标网络的输出。在每一步

中，目标网络中的权重

用来保持Q值稳定和训练过程平稳。

和

分别是设备对设备通信链路在下一个环境状态时的状态空间和动作空间，

为主网络权重，

为折扣贴现率。

即最小化损失函数

为：

具体的算法流程如下：

初始化经验回放池

；

随机初始化智能体Q网络；

每个回合开始：

更新车辆位置和大规模衰落系数；

重置V2V链路的剩余传输负载

和剩余传输时间

；

在每个时间间隙

中；

V2V链路

作为智能体；

观察并获取环境状态

；

V2V链路根据

-greedy策略从环境状态

中选择行动

；

V2V链路采取行动并获得奖励回报

；

更新信道小规模衰落系数；

对于V2V链路

；

观察环境，环境状态转换到下一个状态

；

将

存储到经验回放池

中；

对于V2V链路

；

从经验回放池

中随机地抽取小批量的经验来训练；

使用最小化损失函数

优化Q网络和学习目标之间误差，如果V2V链路能够做出合理的频谱子带和传输功率分配，则当前回合结束。训练在回合数达到最大时停止。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的物联网频谱分配优化方法，其特征在于，包括：

构造多个设备对设备通信链路的系统模型；

构建优化目标函数以及约束条件；

2.根据权利要求1所述的一种基于深度强化学习的物联网频谱分配优化方法，其特征在于，多个设备对设备通信链路的系统模型包括：

一个基站；

个蜂窝通信链路；

个设备对设备通信链路；

个正交频谱子带，且每个频谱子带带宽为

。

3.根据权利要求2所述的一种基于深度强化学习的物联网频谱分配优化方法，其特征在于：多个设备对设备通信链路可能有不同的频谱子带选择，二元频谱分配向量被定义为

，并且，

当设备对设备通信链路

复用蜂窝通信链路的频谱子带时，

；

当

时，设备对设备通信链路未复用蜂窝通信链路的频谱子带；

。

4.根据权利要求3所述的一种基于深度强化学习的物联网频谱分配优化方法，其特征在于：

蜂窝通信链路在频谱子带

上的信噪比：

蜂窝通信链路在频谱子带

上数据的传输速率可以表示为：

设备对设备通信链路

在频谱子带

上的信噪比：

干扰功率

可以表示为：

设备对设备通信链路

在频谱子带

上的传输速率为：

其中，蜂窝通信链路在频谱子带

上到基站的信道增益被表示为

；将

表示为频谱子带

上蜂窝通信链路

的传输功率；

是噪声功率，

为二元频谱分配向量，

表示频谱子带

上设备对设备通信链路

的传输功率，

是设备对设备通信链路

在频谱子带

上到基站的干扰信道增益；

为频谱子带带宽，

是蜂窝通信链路在频谱子带

上信噪比；

是频谱子带

上的设备对设备通信链路

在频谱子带

的信道功率增益，

是设备对设备通信链路

在频谱子带

上的接收到的干扰功率；

为二元频谱分配向量，

是蜂窝通信链路

到设备对设备通信链路

的干扰信道增益，

是设备对设备通信链路

到设备对设备通信链路

的干扰信道增益。

5.根据权利要求4所述的一种基于深度强化学习的物联网频谱分配优化方法，其特征在于：将蜂窝通信链路效率

和设备对设备通信链路效率

加权和定义为工业物联网网络效率：

其中，

和

是平衡蜂窝通信链路和设备对设备通信链路效率的权重；

蜂窝通信链路效率表示为：

设备对设备通信链路的效率表示为：

其中，其中，

和

分别为蜂窝通信链路的传输功率和电路功耗，

，

为频谱子带带宽，

和

分别为设备对设备通信链路的传输功率和电路功耗。

6.根据权利要求5所述的一种基于深度强化学习的物联网频谱分配优化方法，其特征在于：约束条件表示为

其中，

和

不能超过其最大传输功率

。

7.根据权利要求6所述的一种基于深度强化学习的物联网频谱分配优化方法，其特征在于：对目标函数进行求解时：

训练开始之前对经验重放的经验回放池

和剩余传输时间

进行重置；

在训练的每个时间间隙

和剩余传输时间

；

设备对设备链路

根据

-greedy策略从环境状态

中选择行动

，获得环境所反馈的奖励回报

和更新信道小规模衰落系数；

环境状态转换到下一环境状态

，同时采取经验重放策略，将

存储到经验回放池中

；

设备对设备链路

可以通过最小化损失函数

来优化Q网络和学习目标之间的误差：

其中，

为动作值函数，

和

分别是设备对设备通信链路

在时间间隙

时的状态空间和动作空间，

为主网络权重；

表示目标网络的输出，

和

分别是设备对设备通信链路

在下一个环境状态时的状态空间和动作空间，

为主网络权重，

为

折扣贴现率；

8.根据权利要求7所述的一种基于深度强化学习的物联网频谱分配优化方法，其特征在于：环境状态

包括：

,

,

和

分别是蜂窝通信链路和设备对设备通信链路

的信道状态，

是设备对设备通信链路

在频谱子带

上的接收到的干扰功率；此外，设备对设备链路

所获得的环境状态

定义为：

。

9.一种工业物联网频谱分配优化系统，其特征在于，包括：

第三模块：被配置为用于构建优化目标函数以及约束条件；