CN116321005A - 一种基于强化学习的分布式物联网系统无线传输方法 - Google Patents
一种基于强化学习的分布式物联网系统无线传输方法 Download PDFInfo
- Publication number
- CN116321005A CN116321005A CN202310297090.4A CN202310297090A CN116321005A CN 116321005 A CN116321005 A CN 116321005A CN 202310297090 A CN202310297090 A CN 202310297090A CN 116321005 A CN116321005 A CN 116321005A
- Authority
- CN
- China
- Prior art keywords
- base station
- aoi
- energy
- internet
- transmission
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 238000005265 energy consumption Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 239000003795 chemical substances by application Substances 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 26
- 238000013178 mathematical model Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000009916 joint effect Effects 0.000 claims description 5
- 238000004088 simulation Methods 0.000 claims description 3
- 238000011144 upstream manufacturing Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 11
- 238000011160 research Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y10/00—Economic sectors
- G16Y10/75—Information technology; Communication
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/10—Detection; Monitoring
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/60—Positioning; Navigation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0203—Power saving arrangements in the radio access network or backbone network of wireless communication networks
- H04W52/0206—Power saving arrangements in the radio access network or backbone network of wireless communication networks in access points, e.g. base stations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W64/00—Locating users or terminals or network equipment for network management purposes, e.g. mobility management
- H04W64/006—Locating users or terminals or network equipment for network management purposes, e.g. mobility management with additional information processing, e.g. for direction or speed determination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于强化学习的分布式物联网系统无线传输方法。使用了Age of information(AoI)和能量消耗作为衡量指标,每一个设备都是独立的,它们去监测车辆的位置信息并将其传输给基站,而由于有限的无线资源,只有部分设备可以传输,所以使用了强化学习IPPO算法用于决策哪些设备可以传输,IPPO算法可以实现对采样到的样本进行多次利用,解决了样本利用率低的问题,降低了计算时间复杂度,提高了设备传输的效率。
Description
技术领域
本发明涉及无线通信技术领域,使用了强化学习的方法来解决分布式物联网系统无线传输问题。
背景技术
随着科技的进步,各种软硬件的发展,智能驾驶概念被炒的越来越火,造车新势力不断崛起,不论是传统车企还是互联网公司都从不同方面着手发展智能驾驶技术。目前业内一般将智能驾驶根据SAE分级方式,分为6个级别(Level0-Level5),所属级别数字越大表明越智能。Level0可以说是没有任何的智能化功能,完全依靠驾驶员;Level1就是常说的基本驾驶辅助,系统能够完成一些简单场景的驾驶辅助,比如车道偏离预警、前向碰撞预警;Level2算是部分自动化,也是目前车企智能驾驶技术落地的主要级别,此时的系统可以完成自动跟车、自动刹车等任务;Level3算是智能驾驶的分界点,这个级别的系统完全可以自主完成所有场景的驾驶任务,但是需要驾驶员坐在驾驶位上随时准备接手系统,以应对不可预知的风险;Level4是目前业内普遍认为最有希望落地的智能化程度,即在外界不固定因素几乎可控的场景中实现高度自动化的驾驶,比如在园区这种固定的巡逻路段等场景无需驾驶员干预,系统完全自主完成所有驾驶操作;Level5是真正意义的无人驾驶,这是智能驾驶公司追求的最高目标,目前还没有任何一家公司可以达到,甚至像谷歌这样在智能驾驶领域深耕几十年的企业也只是停留在测试阶段。
追踪是计算机视觉领域一个经典的问题,车辆追踪在智能驾驶场景中具有重要意义,不仅能够弥补单纯视觉检测带来的漏检而且可以描绘出目标的运动轨迹,同时随着5G技术的发展以及多样化业务的不断涌现,对现有的通信网络提出了多种多样的服务质量需求。5G作为数字经济时代的关键使能技术和基础设施,服务的对象已经从单纯的移动通信扩展为无处不在的连接和场景应用。远程控制技术作为生产生活中一种非常重要的技术已经逐渐被人们所重视。在现代企业的生产中,生产现场的很多参数都需要进行实时检测和监督,即需要远程控制。目前的远程控制主要有两种类型:一种是现场监控和远程监控并存,另外一种是生产现场没有监控系统,将数据采集后送到远程计算机进行处理。上述提及的两种远程控制技术都需要控制设备和被控现场直接的信息传输。信息传输的方式分为有线传输和无线传输两种传输方式,无线传输是指利用无线技术进行数据传输的一种方式,无线传输和有线传输是对应的,相比于有线传输,无线传输省去了繁琐的布线过程,拥有较强的扩展性和较低的成本。随着无线技术的日益发展,无线传输技术应用越来越被各行各业所接受。将车辆追踪和无线传输技术相结合已经成为了目前研究的热门话题。本发明提出了一种基于强化学习的分布式物联网系统无线传输研究方法。
发明内容
技术问题:本发明所要解决的技术问题在于,提出了一种基于强化学习的分布式物联网系统无线传输研究方法。使用了age of information(AoI)和能量消耗作为衡量指标,每一个设备都是独立的,它们去监测车辆的位置信息并将其传输给基站,而由于有限的无线资源,只有部分设备可以传输,所以使用了强化学习IPPO算法用于决策哪些设备可以传输。
技术方案:本发明采用的技术方案如下:
(1)首先建立分布式物联网系统无线传输问题所对应的数学模型。
(2)根据设备传输数学模型搭建对应的仿真环境,以及初始化该环境中用的的各项参数。包括设备s的AoI,设备s与基站的信道增益集合,设备s最多能储存的能量,设备能采样的最大频率,设备s采样所消耗的能量,设备s上行传输所消耗的能量,设备s下行传输所接收的能量。
(3)在设备侧,先根据所研究问题的特点将其转化为一个马尔可夫决策过程(MDP):(S,A,R),其中S表示状态空间,A表示动作空间,R表示奖励函数。
(4)最后采用强化学习IPPO算法训练智能体,用于决策满足各项约束并且使得AoI和能量消耗最少的传输方案。
优选的,步骤(1)包括如下步骤:
(11)所述分布式物联网系统包括N个单天线物联网设备和一个具有M个天线的基站,其中每个物联网设备都需要向基站传输实时的数据包;物联网设备是分布式的,即各个物联网设备不能相互通信,而基站只知道当前时隙的无线信道信息,而对后面时隙的信道只知道统计的信息;
(12)引入AoI来衡量信息传输的及时性;在基站方面,AoI定义为自上次成功接收到最新数据包以来经过的时隙数,在物联网设备方面,AoI定义为自上次成功采样以来经过的时隙数;设置一个最大值Ma来限制AoI的上限值,当AoI达到最大值Ma后,信息可以被认为是没有意义的;
(13)基站有一个固定的能量源,每一个物联网设备都有一个射频能量采集电路,用于接受基站所发出的射频信号的能量,然后储存在自己的电池中,能量最多可以储存Bmax焦耳,接受的决定在设备处,设备可以通过控制信道把决定告诉基站;基站只要有至少一个设备需要充电,基站就发射;
(14)在物联网设备采样方面,设备s在时刻t可以决定采样相应物理过程的间隔,而采样的最大间隔为Δs,t,当距离最近一次采样的时间δs,t小于Δs,t时,满足奈奎斯特-香农采样理论,此时,采样的信息可以精确代表物理过程的变化,反之,则不能精确代表物理过程的变化;用ss,t=1来表示采样,用ss,t=0来表示没有采样,采样消耗的能量为Es,1;在无线信道传输方面,使用正交频分多址用于采样信息的传输,用us,t=1来表示上行传输,此时设备向基站传输更新数据包,需要消耗电量Es,2,用us,t=0来表示下行传输,此时基站广播射频信号给设备用于充电,充电的能量为Es,3,用us,t=2来表示设备s保持空闲;
(15)所述数学模型的优化目标是使得基站侧的AoI和能量消耗的加权最小。基站侧的AoI与设备侧的AoI有关,如果在某一时刻进行了从设备到基站的上行传输,则基站侧的AoI变为从设备到基站的传输时延,否则加1;基站的能量消耗与设备是否需要从基站侧到设备侧的下行传输进行充电有关,只要有一个设备需要充电,则基站需要在这一时刻发射能量,从而导致能量消耗。
优选的,步骤(3)包括如下步骤:
(31)首先为每个设备设定一个智能体,分别编号为:{1,2,...,N},其中N表示设备总数;
(32)状态空间S的设定:对于智能体s,其状态空间Ss定义为:Ss=(As,Gs,Es,Fs,Es,1,Es,2,Es,3),其中As表示设备s的AoI,Gs表示设备s与基站的上行信道增益和下行信道增益的集合,Fs表示设备s能采样的最大频率,Es,1表示设备s采样所消耗的能量,Es,2表示设备s上行传输所消耗的能量,Es,3表示设备s下行传输所接收的能量;因此总的状态空间S表示为:S={S1,S2,...,SN};
(33)动作空间A的设定:对于智能体s,其动作空间As定义为:As={0,1}2,其中2代表了采样和传输两个动作;上述行动空间本质上表示设备是传输还是采样的具体方案集合,也可表示为行向量形式:As={x1,x2};其中,如果x1=1,表示设备s在这个时刻进行了采样,如果x2=1,表示设备s在这个时刻进行了上行传输;每个智能体负责决策其是否采样和传输,因此总的动作空间表示为所有设备动作空间As的笛卡尔积:A=A1×A2×...×AN;
(34)奖励函数R的设定:当设备的AoI较小的时候就采样,则给一个负的奖励,当设备的AoI较大的时候就上行传输,则给予一个正的奖励,当某一时刻传输的设备数超过了一个值M,则给予一个负的奖励。
优选的,步骤(4)包括如下步骤:
(42)每个智能体观测当前环境状态,并根据当前策略从动作空间As中选择一个动作as;
(43)所有智能体的动作构成一个联合动作:{a1,a2,...,aS};
(44)联合动作作用于当前状态,并将当前的状态从s更新为s′,同时得到即时奖励R;
(45)之后,奖励将作为反馈给予所有的智能体,更新其策略神经网络参数以及价值神经网络参数;
(46)不断重复步骤(42-45),直到获得的奖励R收敛。
有益效果:本发明提出了一种基于强化学习的分布式物联网系统无线传输研究方法,使用了age of information(AoI)和能量消耗作为衡量指标,每一个设备都是独立的,它们去监测车辆的位置信息并将其传输给基站,而由于有限的无线资源,只有部分设备可以传输,所以使用了强化学习IPPO算法用于决策哪些设备可以传输,IPPO算法对采样到的样本进行多次利用,解决了样本利用率低的问题,降低了计算时间复杂度,提高了设备传输的效率。
附图说明
图1为强化学习算法训练示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但本发明的保护范围不局限于所述实施实例。
本发明提出了一种基于强化学习的分布式物联网系统无线传输研究方法。
下面给出一种实施实例:
(1)首先建立分布式物联网系统无线传输问题所对应的数学模型。
(2)根据设备传输数学模型搭建对应的仿真环境,以及初始化该环境中用的的各项参数。包括设备s的AoI,设备s与基站的信道增益集合,设备s最多能储存的能量,设备能采样的最大频率,设备s采样所消耗的能量,设备s上行传输所消耗的能量,设备s下行传输所接收的能量。
(3)在设备侧,先根据所研究问题的特点将其转化为一个马尔可夫决策过程(MDP):(S,A,R),其中S表示状态空间,A表示动作空间,R表示奖励函数。
(4)最后采用强化学习IPPO算法训练智能体,用于决策满足各项约束并且使得AoI和能量消耗最少的传输方案。
其中所述步骤(1)具体如下:
(11)考虑由N个单天线物联网设备和一个具有M个天线的基站组成的网络,其中每个物联网设备都需要向基站传输实时的数据包。假设物联网设备是分布式的,即各个物联网设备不能相互通信,而基站只知道当前时隙的无线信道信息,而对后面时隙的信道只知道统计的信息。
(12)引入AoI来衡量信息传输的及时性。在基站方面,AoI定义为自上次成功接收到最新数据包以来经过的时隙数,在物联网设备方面,AoI定义为自上次成功采样以来经过的时隙数。可以设置一个最大值Ma来限制AoI的上限值,当AoI达到最大值Ma后,信息可以被认为是没有意义的。
(13)假设基站有一个固定的能量源,每一个物联网设备都有一个射频能量采集电路,用于接受基站所发出的射频信号的能量,然后储存在自己的电池中,能量最多可以储存Bma焦耳,接受的决定在设备处,设备可以通过控制信道把决定告诉基站。基站只要有至少一个设备需要充电,基站就发射。
(14)在物联网设备采样方面,假设设备s在时刻t可以决定采样相应物理过程的间隔,而采样的最大间隔为Δs,t,当距离最近一次采样的时间δs,t小于Δs,t时,满足奈奎斯特-香农采样理论,此时,采样的信息可以精确代表物理过程的变化,反之,则不能精确代表物理过程的变化。用ss,t=1来表示采样,用ss,t=0来表示没有采样,采样消耗的能量为Es,1。在无线信道传输方面,使用正交频分多址(OFDMA)用于采样信息的传输,用us,t=1来表示上行传输,此时设备向基站传输更新数据包,需要消耗电量Es,2,用us,t=0来表示下行传输,此时基站广播射频信号给设备用于充电,充电的能量为Es,3,用us,t=2来表示设备s保持空闲。
(15)所述数学模型的优化目标是使得基站侧的AoI和能量消耗的加权最小。基站侧的AoI与设备侧的AoI有关,如果在某一时刻进行了从设备到基站的上行传输,则基站侧的AoI变为从设备到基站的传输时延,否则加1;基站的能量消耗与设备是否需要从基站侧到设备侧的下行传输进行充电有关,只要有一个设备需要充电,则基站需要在这一时刻发射能量,从而导致能量消耗。
其中所述步骤(3)具体如下:
(31)首先为每个设备设定一个智能体,分别编号为:{1,2,...,N},其中N表示设备总数。
(32)状态空间S的设定:对于智能体s,其状态空间Ss定义为:Ss=(As,Gs,Es,Fs,Es,1,Es,2,Es,3),其中As表示设备s的AoI,Gs表示设备s与基站的信道增益集合,Es表示设备s最多能储存的能量,Fs表示设备s能采样的最大频率,Es,1表示设备s采样所消耗的能量,Es,2表示设备s上行传输所消耗的能量,Es,3表示设备s下行传输所接收的能量。因此总的状态空间S表示为:S={S1,S2,...,Ss}。
(33)动作空间A的设定:对于智能体s,其动作空间As定义为:As={0,1}2,其中2代表了采样和传输两个动作。上述行动空间本质上表示设备是传输还是采样的具体方案集合,也可表示为行向量形式:As={x1,x2}。其中,如果x1=1,表示设备s在这个时刻进行了采样,如果x2=1,表示设备s在这个时刻进行了上行传输。每个智能体负责决策其是否采样和传输,因此总的动作空间可以表示为所有设备动作空间As的笛卡尔积:A=A1×A2×...×AN。
(34)奖励函数R的设定:当设备的AoI较小的时候就采样,则给一个负的奖励,当设备的AoI较大的时候就上行传输,则给予一个正的奖励,当某一时刻传输的设备数超过了一个值M,则给予一个负的奖励。
其中所述步骤(4)具体如下:
(42)每个智能体观测当前环境状态,并根据当前策略从动作空间As中选择一个动作as。
(43)所有智能体的动作构成一个联合动作:{a1,a2,...,aS}。
(44)联合动作作用于当前状态,并将当前的状态从s更新为s′,同时得到即时奖励R。
(45)之后,奖励将作为反馈给予所有的智能体,更新其策略神经网络参数以及价值神经网络参数。
(46)不断重复步骤(42-45),直到获得的奖励R收敛,整个过程如图1所示。
Claims (6)
1.一种基于强化学习的分布式物联网系统无线传输方法,其特征在于,包括如下步骤:
建立分布式物联网系统无线传输问题所对应的数学模型;
根据所述数学模型搭建对应的仿真环境,以及初始化该环境中用的各项参数,包括所述分布式物联网系统中设备s的AoI,设备s与基站的信道增益集合,设备s最多能储存的能量,设备s能采样的最大频率,设备s采样所消耗的能量,设备s上行传输所消耗的能量,设备s下行传输所接收的能量;
在设备侧,为每个设备设定一个智能体,将所述数学模型转化为一个马尔可夫决策过程:(S,A,R),其中S表示状态空间,A表示动作空间,R表示奖励函数;
采用强化学习IPPO算法训练智能体,用于决策满足各项约束并且使得AoI和能量消耗最少的传输方案。
2.如权利要求1所述的基于强化学习的分布式物联网系统无线传输方法,其特征在于,所述数学模型包括如下内容:
所述分布式物联网系统包括N个单天线物联网设备和一个具有M个天线的基站,其中每个物联网设备都需要向基站传输实时的数据包;物联网设备是分布式的,即各个物联网设备不能相互通信,而基站只知道当前时隙的无线信道信息,而对后面时隙的信道只知道统计的信息;
引入AoI来衡量信息传输的及时性;在基站方面,AoI定义为自上次成功接收到最新数据包以来经过的时隙数,在物联网设备方面,AoI定义为自上次成功采样以来经过的时隙数;设置一个最大值Ma来限制AoI的上限值,当AoI达到最大值Ma后,信息可以被认为是没有意义的;
基站有一个固定的能量源,每一个物联网设备都有一个射频能量采集电路,用于接受基站所发出的射频信号的能量,然后储存在自己的电池中,能量最多可以储存Bmax焦耳,接受的决定在设备处,设备通过控制信道把决定告诉基站;基站只要有至少一个设备需要充电,基站就发射;
在物联网设备采样方面,设备s在时刻t决定采样相应物理过程的间隔,而采样的最大间隔为Δs,t,当距离最近一次采样的时间δs,t小于Δs,t时,满足奈奎斯特-香农采样理论,此时,采样的信息精确代表物理过程的变化,反之,则不能精确代表物理过程的变化;用ss,t=1来表示采样,用ss,t=0来表示没有采样,采样消耗的能量为Es,1;在无线信道传输方面,使用正交频分多址用于采样信息的传输,用us,t=1来表示上行传输,此时设备向基站传输更新数据包,需要消耗电量Es,2,用us,t=0来表示下行传输,此时基站广播射频信号给设备用于充电,充电的能量为Es,3,用us,t=2来表示设备s保持空闲。
3.如权利要求1所述的基于强化学习的分布式物联网系统无线传输方法,其特征在于,在设备侧将所述数学模型转化为一个马尔可夫决策过程:(S,A,R),包括如下内容:
每个智能体分别编号为:{1,2,...,N},其中N表示设备总数;
状态空间S的设定:对于智能体s,其状态空间Ss定义为:Ss=(As,Gs,Es,Fs,Es,1,Es,2,Es,3),其中As表示设备s的AoI,Gs表示设备s与基站的上行信道增益和下行信道增益的集合,Fs表示设备s能采样的最大频率,Es,1表示设备s采样所消耗的能量,Es,2表示设备s上行传输所消耗的能量,Es,3表示设备s下行传输所接收的能量;因此总的状态空间S表示为:S={S1,S2,...,SN};
动作空间A的设定:对于智能体s,其动作空间As定义为:As={0,1}2,其中2代表了采样和传输两个动作;上述行动空间本质上表示设备是传输还是采样的具体方案集合,也可表示为行向量形式:As={x1,x2};其中,如果x1=1,表示设备s在这个时刻进行了采样,如果x2=1,表示设备s在这个时刻进行了上行传输;每个智能体负责决策其是否采样和传输,因此总的动作空间表示为所有设备动作空间As的笛卡尔积:A=A1×A2×...×AN;
奖励函数R的设定:当设备的AoI小的时候就采样,则给一个负的奖励,当设备的AoI大的时候就上行传输,则给予一个正的奖励,当某一时刻传输的设备数超过了一个值M,则给予一个负的奖励。
5.如权利要求2所述的基于强化学习的分布式物联网系统无线传输方法,其特征在于,所述数学模型的优化目标是使得基站侧的AoI和能量消耗的加权最小。
6.如权利要求5所述的基于强化学习的分布式物联网系统无线传输方法,其特征在于,基站侧的AoI与设备侧的AoI有关,如果在某一时刻进行了从设备到基站的上行传输,则基站侧的AoI变为从设备到基站的传输时延,否则加1;基站的能量消耗与设备是否需要从基站侧到设备侧的下行传输进行充电有关,只要有一个设备需要充电,则基站需要在这一时刻发射能量,从而导致能量消耗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310297090.4A CN116321005A (zh) | 2023-03-24 | 2023-03-24 | 一种基于强化学习的分布式物联网系统无线传输方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310297090.4A CN116321005A (zh) | 2023-03-24 | 2023-03-24 | 一种基于强化学习的分布式物联网系统无线传输方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116321005A true CN116321005A (zh) | 2023-06-23 |
Family
ID=86832223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310297090.4A Pending CN116321005A (zh) | 2023-03-24 | 2023-03-24 | 一种基于强化学习的分布式物联网系统无线传输方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116321005A (zh) |
-
2023
- 2023-03-24 CN CN202310297090.4A patent/CN116321005A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Deep reinforcement learning for UAV navigation through massive MIMO technique | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
CN113537514B (zh) | 一种高能效的基于数字孪生的联邦学习框架 | |
US12035380B2 (en) | Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning | |
CN112954651B (zh) | 一种基于深度强化学习的低时延高可靠性v2v资源分配方法 | |
CN112383922A (zh) | 一种基于优先经验重放的深度强化学习频谱共享方法 | |
CN112738849B (zh) | 应用于多跳环境反向散射无线网络的负载均衡调控方法 | |
US20230196119A1 (en) | Self-powered integrated sensing and communication interactive method of high-speed railway based on hierarchical deep reinforcement learning | |
CN115696211A (zh) | 一种基于信息年龄的无人机轨迹自适应优化方法 | |
CN114449482B (zh) | 基于多智能体深度强化学习的异构车联网用户关联方法 | |
CN115622603A (zh) | 一种辅助传输信息年龄最小化优化方法 | |
CN114885340B (zh) | 一种基于深度迁移学习的超密集无线网络功率分配方法 | |
Chen et al. | Energy-aware path planning for obtaining fresh updates in UAV-IoT MEC systems | |
CN114630299B (zh) | 一种基于深度强化学习的信息年龄可感知资源分配方法 | |
CN116702635A (zh) | 基于深度强化学习的多智能体移动充电调度方法及装置 | |
Xue et al. | Deep learning based channel prediction for massive MIMO systems in high-speed railway scenarios | |
CN113115355B (zh) | 一种d2d系统中基于深度强化学习的功率分配方法 | |
Huang et al. | Delay-oriented knowledge-driven resource allocation in sagin-based vehicular networks | |
CN114051252A (zh) | 无线接入网中多用户智能发射功率控制方法 | |
CN116321005A (zh) | 一种基于强化学习的分布式物联网系统无线传输方法 | |
CN116867025A (zh) | 无线传感器网络中传感器节点分簇方法及装置 | |
Zhang et al. | Robust transmission power management for remote state estimation with wireless energy harvesting | |
CN116882270A (zh) | 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统 | |
Zhuang et al. | GA-MADDPG: A Demand-Aware UAV Network Adaptation Method for Joint Communication and Positioning in Emergency Scenarios | |
Yuan et al. | Deep Reinforcement Learning-Based Energy Consumption Optimization for Peer-to-Peer (P2P) Communication in Wireless Sensor Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |