CN116321005A

CN116321005A - 一种基于强化学习的分布式物联网系统无线传输方法

Info

Publication number: CN116321005A
Application number: CN202310297090.4A
Authority: CN
Inventors: 刘楠; 许宪哲; 潘志文
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-23

Abstract

本发明公开了一种基于强化学习的分布式物联网系统无线传输方法。使用了Age of information(AoI)和能量消耗作为衡量指标，每一个设备都是独立的，它们去监测车辆的位置信息并将其传输给基站，而由于有限的无线资源，只有部分设备可以传输，所以使用了强化学习IPPO算法用于决策哪些设备可以传输，IPPO算法可以实现对采样到的样本进行多次利用，解决了样本利用率低的问题，降低了计算时间复杂度，提高了设备传输的效率。

Description

一种基于强化学习的分布式物联网系统无线传输方法

技术领域

本发明涉及无线通信技术领域，使用了强化学习的方法来解决分布式物联网系统无线传输问题。

背景技术

随着科技的进步，各种软硬件的发展，智能驾驶概念被炒的越来越火，造车新势力不断崛起，不论是传统车企还是互联网公司都从不同方面着手发展智能驾驶技术。目前业内一般将智能驾驶根据SAE分级方式，分为6个级别(Level0-Level5)，所属级别数字越大表明越智能。Level0可以说是没有任何的智能化功能，完全依靠驾驶员；Level1就是常说的基本驾驶辅助，系统能够完成一些简单场景的驾驶辅助，比如车道偏离预警、前向碰撞预警；Level2算是部分自动化，也是目前车企智能驾驶技术落地的主要级别，此时的系统可以完成自动跟车、自动刹车等任务；Level3算是智能驾驶的分界点，这个级别的系统完全可以自主完成所有场景的驾驶任务，但是需要驾驶员坐在驾驶位上随时准备接手系统，以应对不可预知的风险；Level4是目前业内普遍认为最有希望落地的智能化程度，即在外界不固定因素几乎可控的场景中实现高度自动化的驾驶，比如在园区这种固定的巡逻路段等场景无需驾驶员干预，系统完全自主完成所有驾驶操作；Level5是真正意义的无人驾驶，这是智能驾驶公司追求的最高目标，目前还没有任何一家公司可以达到，甚至像谷歌这样在智能驾驶领域深耕几十年的企业也只是停留在测试阶段。

追踪是计算机视觉领域一个经典的问题，车辆追踪在智能驾驶场景中具有重要意义，不仅能够弥补单纯视觉检测带来的漏检而且可以描绘出目标的运动轨迹，同时随着5G技术的发展以及多样化业务的不断涌现，对现有的通信网络提出了多种多样的服务质量需求。5G作为数字经济时代的关键使能技术和基础设施，服务的对象已经从单纯的移动通信扩展为无处不在的连接和场景应用。远程控制技术作为生产生活中一种非常重要的技术已经逐渐被人们所重视。在现代企业的生产中，生产现场的很多参数都需要进行实时检测和监督，即需要远程控制。目前的远程控制主要有两种类型：一种是现场监控和远程监控并存，另外一种是生产现场没有监控系统，将数据采集后送到远程计算机进行处理。上述提及的两种远程控制技术都需要控制设备和被控现场直接的信息传输。信息传输的方式分为有线传输和无线传输两种传输方式，无线传输是指利用无线技术进行数据传输的一种方式，无线传输和有线传输是对应的，相比于有线传输，无线传输省去了繁琐的布线过程，拥有较强的扩展性和较低的成本。随着无线技术的日益发展，无线传输技术应用越来越被各行各业所接受。将车辆追踪和无线传输技术相结合已经成为了目前研究的热门话题。本发明提出了一种基于强化学习的分布式物联网系统无线传输研究方法。

发明内容

技术问题：本发明所要解决的技术问题在于，提出了一种基于强化学习的分布式物联网系统无线传输研究方法。使用了age of information(AoI)和能量消耗作为衡量指标，每一个设备都是独立的，它们去监测车辆的位置信息并将其传输给基站，而由于有限的无线资源，只有部分设备可以传输，所以使用了强化学习IPPO算法用于决策哪些设备可以传输。

技术方案：本发明采用的技术方案如下：

(1)首先建立分布式物联网系统无线传输问题所对应的数学模型。

(2)根据设备传输数学模型搭建对应的仿真环境，以及初始化该环境中用的的各项参数。包括设备s的AoI，设备s与基站的信道增益集合，设备s最多能储存的能量，设备能采样的最大频率，设备s采样所消耗的能量，设备s上行传输所消耗的能量，设备s下行传输所接收的能量。

(3)在设备侧，先根据所研究问题的特点将其转化为一个马尔可夫决策过程(MDP)：(S,A,R)，其中S表示状态空间，A表示动作空间，R表示奖励函数。

(4)最后采用强化学习IPPO算法训练智能体，用于决策满足各项约束并且使得AoI和能量消耗最少的传输方案。

优选的，步骤(1)包括如下步骤：

(11)所述分布式物联网系统包括N个单天线物联网设备和一个具有M个天线的基站，其中每个物联网设备都需要向基站传输实时的数据包；物联网设备是分布式的，即各个物联网设备不能相互通信，而基站只知道当前时隙的无线信道信息，而对后面时隙的信道只知道统计的信息；

(12)引入AoI来衡量信息传输的及时性；在基站方面，AoI定义为自上次成功接收到最新数据包以来经过的时隙数，在物联网设备方面，AoI定义为自上次成功采样以来经过的时隙数；设置一个最大值M_a来限制AoI的上限值，当AoI达到最大值M_a后，信息可以被认为是没有意义的；

(13)基站有一个固定的能量源，每一个物联网设备都有一个射频能量采集电路，用于接受基站所发出的射频信号的能量，然后储存在自己的电池中，能量最多可以储存B_max焦耳，接受的决定在设备处，设备可以通过控制信道把决定告诉基站；基站只要有至少一个设备需要充电，基站就发射；

(14)在物联网设备采样方面，设备s在时刻t可以决定采样相应物理过程的间隔，而采样的最大间隔为Δ_s，t，当距离最近一次采样的时间δ_s，t小于Δ_s，t时，满足奈奎斯特-香农采样理论，此时，采样的信息可以精确代表物理过程的变化，反之，则不能精确代表物理过程的变化；用s_s，t＝1来表示采样，用s_s，t＝0来表示没有采样，采样消耗的能量为E_s，1；在无线信道传输方面，使用正交频分多址用于采样信息的传输，用u_s，t＝1来表示上行传输，此时设备向基站传输更新数据包，需要消耗电量E_s，2，用u_s，t＝0来表示下行传输，此时基站广播射频信号给设备用于充电，充电的能量为E_s，3，用u_s，t＝2来表示设备s保持空闲；

(15)所述数学模型的优化目标是使得基站侧的AoI和能量消耗的加权最小。基站侧的AoI与设备侧的AoI有关，如果在某一时刻进行了从设备到基站的上行传输，则基站侧的AoI变为从设备到基站的传输时延，否则加1；基站的能量消耗与设备是否需要从基站侧到设备侧的下行传输进行充电有关，只要有一个设备需要充电，则基站需要在这一时刻发射能量，从而导致能量消耗。

优选的，步骤(3)包括如下步骤：

(31)首先为每个设备设定一个智能体，分别编号为：{1，2，...，N}，其中N表示设备总数；

(32)状态空间S的设定：对于智能体s，其状态空间S^s定义为：S^s＝(A_s，G_s，E_s，F_s，E_s，1，E_s，2，E_s，3)，其中A_s表示设备s的AoI，G_s表示设备s与基站的上行信道增益和下行信道增益的集合，F_s表示设备s能采样的最大频率，E_s，1表示设备s采样所消耗的能量，E_s，2表示设备s上行传输所消耗的能量，E_s，3表示设备s下行传输所接收的能量；因此总的状态空间S表示为：S＝{S¹，S²，...，S^N}；

(33)动作空间A的设定：对于智能体s，其动作空间A^s定义为：A^s＝{0，1}²，其中2代表了采样和传输两个动作；上述行动空间本质上表示设备是传输还是采样的具体方案集合，也可表示为行向量形式：A^s＝{x₁，x₂}；其中，如果x₁＝1，表示设备s在这个时刻进行了采样，如果x₂＝1，表示设备s在这个时刻进行了上行传输；每个智能体负责决策其是否采样和传输，因此总的动作空间表示为所有设备动作空间A^s的笛卡尔积：A＝A¹×A²×...×A^N；

(34)奖励函数R的设定：当设备的AoI较小的时候就采样，则给一个负的奖励，当设备的AoI较大的时候就上行传输，则给予一个正的奖励，当某一时刻传输的设备数超过了一个值M，则给予一个负的奖励。

优选的，步骤(4)包括如下步骤：

(41)首先初始化IPPO算法中各个智能体的策略网络参数

以及价值网络参数/>

(42)每个智能体观测当前环境状态，并根据当前策略从动作空间A^s中选择一个动作a^s；

(43)所有智能体的动作构成一个联合动作：{a¹,a²,...,a^S}；

(44)联合动作作用于当前状态，并将当前的状态从s更新为s^′，同时得到即时奖励R；

(45)之后，奖励将作为反馈给予所有的智能体，更新其策略神经网络参数以及价值神经网络参数；

(46)不断重复步骤(42-45)，直到获得的奖励R收敛。

有益效果：本发明提出了一种基于强化学习的分布式物联网系统无线传输研究方法，使用了age of information(AoI)和能量消耗作为衡量指标，每一个设备都是独立的，它们去监测车辆的位置信息并将其传输给基站，而由于有限的无线资源，只有部分设备可以传输，所以使用了强化学习IPPO算法用于决策哪些设备可以传输，IPPO算法对采样到的样本进行多次利用，解决了样本利用率低的问题，降低了计算时间复杂度，提高了设备传输的效率。

附图说明

图1为强化学习算法训练示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但本发明的保护范围不局限于所述实施实例。

本发明提出了一种基于强化学习的分布式物联网系统无线传输研究方法。

下面给出一种实施实例：

其中所述步骤(1)具体如下：

(11)考虑由N个单天线物联网设备和一个具有M个天线的基站组成的网络，其中每个物联网设备都需要向基站传输实时的数据包。假设物联网设备是分布式的，即各个物联网设备不能相互通信，而基站只知道当前时隙的无线信道信息，而对后面时隙的信道只知道统计的信息。

(12)引入AoI来衡量信息传输的及时性。在基站方面，AoI定义为自上次成功接收到最新数据包以来经过的时隙数，在物联网设备方面，AoI定义为自上次成功采样以来经过的时隙数。可以设置一个最大值M_a来限制AoI的上限值，当AoI达到最大值M_a后，信息可以被认为是没有意义的。

(13)假设基站有一个固定的能量源，每一个物联网设备都有一个射频能量采集电路，用于接受基站所发出的射频信号的能量，然后储存在自己的电池中，能量最多可以储存B_ma焦耳，接受的决定在设备处，设备可以通过控制信道把决定告诉基站。基站只要有至少一个设备需要充电，基站就发射。

(14)在物联网设备采样方面，假设设备s在时刻t可以决定采样相应物理过程的间隔，而采样的最大间隔为Δ_s，t，当距离最近一次采样的时间δ_s，t小于Δ_s，t时，满足奈奎斯特-香农采样理论，此时，采样的信息可以精确代表物理过程的变化，反之，则不能精确代表物理过程的变化。用s_s，t＝1来表示采样，用s_s，t＝0来表示没有采样，采样消耗的能量为E_s，1。在无线信道传输方面，使用正交频分多址(OFDMA)用于采样信息的传输，用u_s，t＝1来表示上行传输，此时设备向基站传输更新数据包，需要消耗电量E_s，2，用u_s，t＝0来表示下行传输，此时基站广播射频信号给设备用于充电，充电的能量为E_s，3，用u_s，t＝2来表示设备s保持空闲。

其中所述步骤(3)具体如下：

(31)首先为每个设备设定一个智能体，分别编号为：{1，2，...，N}，其中N表示设备总数。

(32)状态空间S的设定：对于智能体s，其状态空间S^s定义为：S^s＝(A_s，G_s，E_s，F_s，E_s，1，E_s，2，E_s，3)，其中A_s表示设备s的AoI，G_s表示设备s与基站的信道增益集合，E_s表示设备s最多能储存的能量，F_s表示设备s能采样的最大频率，E_s，1表示设备s采样所消耗的能量，E_s，2表示设备s上行传输所消耗的能量，E_s，3表示设备s下行传输所接收的能量。因此总的状态空间S表示为：S＝{S¹，S²，...，S^s}。

(33)动作空间A的设定：对于智能体s，其动作空间A^s定义为：A^s＝{0，1}²，其中2代表了采样和传输两个动作。上述行动空间本质上表示设备是传输还是采样的具体方案集合，也可表示为行向量形式：A^s＝{x₁，x₂}。其中，如果x₁＝1，表示设备s在这个时刻进行了采样，如果x₂＝1，表示设备s在这个时刻进行了上行传输。每个智能体负责决策其是否采样和传输，因此总的动作空间可以表示为所有设备动作空间A^s的笛卡尔积：A＝A¹×A²×...×A^N。

其中所述步骤(4)具体如下：

(41)首先初始化IPPO算法中各个智能体的策略网络参数

以及价值网络参数/>

(42)每个智能体观测当前环境状态，并根据当前策略从动作空间A^s中选择一个动作a^s。

(43)所有智能体的动作构成一个联合动作：{a¹，a²，...，a^S}。

(44)联合动作作用于当前状态，并将当前的状态从s更新为s′，同时得到即时奖励R。

(45)之后，奖励将作为反馈给予所有的智能体，更新其策略神经网络参数以及价值神经网络参数。

(46)不断重复步骤(42-45)，直到获得的奖励R收敛，整个过程如图1所示。

Claims

1.一种基于强化学习的分布式物联网系统无线传输方法，其特征在于，包括如下步骤：

建立分布式物联网系统无线传输问题所对应的数学模型；

根据所述数学模型搭建对应的仿真环境，以及初始化该环境中用的各项参数，包括所述分布式物联网系统中设备s的AoI，设备s与基站的信道增益集合，设备s最多能储存的能量，设备s能采样的最大频率，设备s采样所消耗的能量，设备s上行传输所消耗的能量，设备s下行传输所接收的能量；

在设备侧，为每个设备设定一个智能体，将所述数学模型转化为一个马尔可夫决策过程：(S，A，R)，其中S表示状态空间，A表示动作空间，R表示奖励函数；

采用强化学习IPPO算法训练智能体，用于决策满足各项约束并且使得AoI和能量消耗最少的传输方案。

2.如权利要求1所述的基于强化学习的分布式物联网系统无线传输方法，其特征在于，所述数学模型包括如下内容：

所述分布式物联网系统包括N个单天线物联网设备和一个具有M个天线的基站，其中每个物联网设备都需要向基站传输实时的数据包；物联网设备是分布式的，即各个物联网设备不能相互通信，而基站只知道当前时隙的无线信道信息，而对后面时隙的信道只知道统计的信息；

引入AoI来衡量信息传输的及时性；在基站方面，AoI定义为自上次成功接收到最新数据包以来经过的时隙数，在物联网设备方面，AoI定义为自上次成功采样以来经过的时隙数；设置一个最大值M_a来限制AoI的上限值，当AoI达到最大值M_a后，信息可以被认为是没有意义的；

基站有一个固定的能量源，每一个物联网设备都有一个射频能量采集电路，用于接受基站所发出的射频信号的能量，然后储存在自己的电池中，能量最多可以储存B_max焦耳，接受的决定在设备处，设备通过控制信道把决定告诉基站；基站只要有至少一个设备需要充电，基站就发射；

在物联网设备采样方面，设备s在时刻t决定采样相应物理过程的间隔，而采样的最大间隔为Δ_s，t，当距离最近一次采样的时间δ_s，t小于Δ_s，t时，满足奈奎斯特-香农采样理论，此时，采样的信息精确代表物理过程的变化，反之，则不能精确代表物理过程的变化；用s_s，t＝1来表示采样，用s_s，t＝0来表示没有采样，采样消耗的能量为E_s，1；在无线信道传输方面，使用正交频分多址用于采样信息的传输，用u_s，t＝1来表示上行传输，此时设备向基站传输更新数据包，需要消耗电量E_s，2，用u_s，t＝0来表示下行传输，此时基站广播射频信号给设备用于充电，充电的能量为E_s，3，用u_s，t＝2来表示设备s保持空闲。

3.如权利要求1所述的基于强化学习的分布式物联网系统无线传输方法，其特征在于，在设备侧将所述数学模型转化为一个马尔可夫决策过程：(S，A，R)，包括如下内容：

每个智能体分别编号为：{1，2，...，N}，其中N表示设备总数；

状态空间S的设定：对于智能体s，其状态空间S^s定义为：S^s＝(A_s，G_s，E_s，F_s，E_s，1，E_s，2，E_s，3)，其中A_s表示设备s的AoI，G_s表示设备s与基站的上行信道增益和下行信道增益的集合，F_s表示设备s能采样的最大频率，E_s，1表示设备s采样所消耗的能量，E_s，2表示设备s上行传输所消耗的能量，E_s，3表示设备s下行传输所接收的能量；因此总的状态空间S表示为：S＝{S¹，S²，...，S^N}；

动作空间A的设定：对于智能体s，其动作空间A^s定义为：A^s＝{0，1}²，其中2代表了采样和传输两个动作；上述行动空间本质上表示设备是传输还是采样的具体方案集合，也可表示为行向量形式：A^s＝{x₁，x₂}；其中，如果x₁＝1，表示设备s在这个时刻进行了采样，如果x₂＝1，表示设备s在这个时刻进行了上行传输；每个智能体负责决策其是否采样和传输，因此总的动作空间表示为所有设备动作空间A^s的笛卡尔积：A＝A¹×A²×...×A^N；

奖励函数R的设定：当设备的AoI小的时候就采样，则给一个负的奖励，当设备的AoI大的时候就上行传输，则给予一个正的奖励，当某一时刻传输的设备数超过了一个值M，则给予一个负的奖励。

4.如权利要求1所述的基于强化学习的分布式物联网系统无线传输方法，其特征在于，采用强化学习IPPO算法训练智能体，包括如下步骤：

初始化IPPO算法中各个智能体的策略网络参数

以及价值网络参数/>

每个智能体观测当前环境状态，并根据当前策略从动作空间A^s中选择一个动作a^s；

所有智能体的动作构成一个联合动作：{a¹，a²，...，a^S}；

联合动作作用于当前状态，并将当前的状态从s更新为s′，同时得到即时奖励R；

奖励将作为反馈给予所有的智能体，更新其策略神经网络参数以及价值神经网络参数；

不断重复上述步骤，直到获得的奖励R收敛。

5.如权利要求2所述的基于强化学习的分布式物联网系统无线传输方法，其特征在于，所述数学模型的优化目标是使得基站侧的AoI和能量消耗的加权最小。

6.如权利要求5所述的基于强化学习的分布式物联网系统无线传输方法，其特征在于，基站侧的AoI与设备侧的AoI有关，如果在某一时刻进行了从设备到基站的上行传输，则基站侧的AoI变为从设备到基站的传输时延，否则加1；基站的能量消耗与设备是否需要从基站侧到设备侧的下行传输进行充电有关，只要有一个设备需要充电，则基站需要在这一时刻发射能量，从而导致能量消耗。