CN116321005A - 一种基于强化学习的分布式物联网系统无线传输方法 - Google Patents

一种基于强化学习的分布式物联网系统无线传输方法 Download PDF

Info

Publication number
CN116321005A
CN116321005A CN202310297090.4A CN202310297090A CN116321005A CN 116321005 A CN116321005 A CN 116321005A CN 202310297090 A CN202310297090 A CN 202310297090A CN 116321005 A CN116321005 A CN 116321005A
Authority
CN
China
Prior art keywords
base station
aoi
energy
internet
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310297090.4A
Other languages
English (en)
Inventor
刘楠
许宪哲
潘志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202310297090.4A priority Critical patent/CN116321005A/zh
Publication of CN116321005A publication Critical patent/CN116321005A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y10/00Economic sectors
    • G16Y10/75Information technology; Communication
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/10Detection; Monitoring
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/60Positioning; Navigation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0203Power saving arrangements in the radio access network or backbone network of wireless communication networks
    • H04W52/0206Power saving arrangements in the radio access network or backbone network of wireless communication networks in access points, e.g. base stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W64/00Locating users or terminals or network equipment for network management purposes, e.g. mobility management
    • H04W64/006Locating users or terminals or network equipment for network management purposes, e.g. mobility management with additional information processing, e.g. for direction or speed determination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于强化学习的分布式物联网系统无线传输方法。使用了Age of information(AoI)和能量消耗作为衡量指标,每一个设备都是独立的,它们去监测车辆的位置信息并将其传输给基站,而由于有限的无线资源,只有部分设备可以传输,所以使用了强化学习IPPO算法用于决策哪些设备可以传输,IPPO算法可以实现对采样到的样本进行多次利用,解决了样本利用率低的问题,降低了计算时间复杂度,提高了设备传输的效率。

Description

一种基于强化学习的分布式物联网系统无线传输方法
技术领域
本发明涉及无线通信技术领域,使用了强化学习的方法来解决分布式物联网系统无线传输问题。
背景技术
随着科技的进步,各种软硬件的发展,智能驾驶概念被炒的越来越火,造车新势力不断崛起,不论是传统车企还是互联网公司都从不同方面着手发展智能驾驶技术。目前业内一般将智能驾驶根据SAE分级方式,分为6个级别(Level0-Level5),所属级别数字越大表明越智能。Level0可以说是没有任何的智能化功能,完全依靠驾驶员;Level1就是常说的基本驾驶辅助,系统能够完成一些简单场景的驾驶辅助,比如车道偏离预警、前向碰撞预警;Level2算是部分自动化,也是目前车企智能驾驶技术落地的主要级别,此时的系统可以完成自动跟车、自动刹车等任务;Level3算是智能驾驶的分界点,这个级别的系统完全可以自主完成所有场景的驾驶任务,但是需要驾驶员坐在驾驶位上随时准备接手系统,以应对不可预知的风险;Level4是目前业内普遍认为最有希望落地的智能化程度,即在外界不固定因素几乎可控的场景中实现高度自动化的驾驶,比如在园区这种固定的巡逻路段等场景无需驾驶员干预,系统完全自主完成所有驾驶操作;Level5是真正意义的无人驾驶,这是智能驾驶公司追求的最高目标,目前还没有任何一家公司可以达到,甚至像谷歌这样在智能驾驶领域深耕几十年的企业也只是停留在测试阶段。
追踪是计算机视觉领域一个经典的问题,车辆追踪在智能驾驶场景中具有重要意义,不仅能够弥补单纯视觉检测带来的漏检而且可以描绘出目标的运动轨迹,同时随着5G技术的发展以及多样化业务的不断涌现,对现有的通信网络提出了多种多样的服务质量需求。5G作为数字经济时代的关键使能技术和基础设施,服务的对象已经从单纯的移动通信扩展为无处不在的连接和场景应用。远程控制技术作为生产生活中一种非常重要的技术已经逐渐被人们所重视。在现代企业的生产中,生产现场的很多参数都需要进行实时检测和监督,即需要远程控制。目前的远程控制主要有两种类型:一种是现场监控和远程监控并存,另外一种是生产现场没有监控系统,将数据采集后送到远程计算机进行处理。上述提及的两种远程控制技术都需要控制设备和被控现场直接的信息传输。信息传输的方式分为有线传输和无线传输两种传输方式,无线传输是指利用无线技术进行数据传输的一种方式,无线传输和有线传输是对应的,相比于有线传输,无线传输省去了繁琐的布线过程,拥有较强的扩展性和较低的成本。随着无线技术的日益发展,无线传输技术应用越来越被各行各业所接受。将车辆追踪和无线传输技术相结合已经成为了目前研究的热门话题。本发明提出了一种基于强化学习的分布式物联网系统无线传输研究方法。
发明内容
技术问题:本发明所要解决的技术问题在于,提出了一种基于强化学习的分布式物联网系统无线传输研究方法。使用了age of information(AoI)和能量消耗作为衡量指标,每一个设备都是独立的,它们去监测车辆的位置信息并将其传输给基站,而由于有限的无线资源,只有部分设备可以传输,所以使用了强化学习IPPO算法用于决策哪些设备可以传输。
技术方案:本发明采用的技术方案如下:
(1)首先建立分布式物联网系统无线传输问题所对应的数学模型。
(2)根据设备传输数学模型搭建对应的仿真环境,以及初始化该环境中用的的各项参数。包括设备s的AoI,设备s与基站的信道增益集合,设备s最多能储存的能量,设备能采样的最大频率,设备s采样所消耗的能量,设备s上行传输所消耗的能量,设备s下行传输所接收的能量。
(3)在设备侧,先根据所研究问题的特点将其转化为一个马尔可夫决策过程(MDP):(S,A,R),其中S表示状态空间,A表示动作空间,R表示奖励函数。
(4)最后采用强化学习IPPO算法训练智能体,用于决策满足各项约束并且使得AoI和能量消耗最少的传输方案。
优选的,步骤(1)包括如下步骤:
(11)所述分布式物联网系统包括N个单天线物联网设备和一个具有M个天线的基站,其中每个物联网设备都需要向基站传输实时的数据包;物联网设备是分布式的,即各个物联网设备不能相互通信,而基站只知道当前时隙的无线信道信息,而对后面时隙的信道只知道统计的信息;
(12)引入AoI来衡量信息传输的及时性;在基站方面,AoI定义为自上次成功接收到最新数据包以来经过的时隙数,在物联网设备方面,AoI定义为自上次成功采样以来经过的时隙数;设置一个最大值Ma来限制AoI的上限值,当AoI达到最大值Ma后,信息可以被认为是没有意义的;
(13)基站有一个固定的能量源,每一个物联网设备都有一个射频能量采集电路,用于接受基站所发出的射频信号的能量,然后储存在自己的电池中,能量最多可以储存Bmax焦耳,接受的决定在设备处,设备可以通过控制信道把决定告诉基站;基站只要有至少一个设备需要充电,基站就发射;
(14)在物联网设备采样方面,设备s在时刻t可以决定采样相应物理过程的间隔,而采样的最大间隔为Δs,t,当距离最近一次采样的时间δs,t小于Δs,t时,满足奈奎斯特-香农采样理论,此时,采样的信息可以精确代表物理过程的变化,反之,则不能精确代表物理过程的变化;用ss,t=1来表示采样,用ss,t=0来表示没有采样,采样消耗的能量为Es,1;在无线信道传输方面,使用正交频分多址用于采样信息的传输,用us,t=1来表示上行传输,此时设备向基站传输更新数据包,需要消耗电量Es,2,用us,t=0来表示下行传输,此时基站广播射频信号给设备用于充电,充电的能量为Es,3,用us,t=2来表示设备s保持空闲;
(15)所述数学模型的优化目标是使得基站侧的AoI和能量消耗的加权最小。基站侧的AoI与设备侧的AoI有关,如果在某一时刻进行了从设备到基站的上行传输,则基站侧的AoI变为从设备到基站的传输时延,否则加1;基站的能量消耗与设备是否需要从基站侧到设备侧的下行传输进行充电有关,只要有一个设备需要充电,则基站需要在这一时刻发射能量,从而导致能量消耗。
优选的,步骤(3)包括如下步骤:
(31)首先为每个设备设定一个智能体,分别编号为:{1,2,...,N},其中N表示设备总数;
(32)状态空间S的设定:对于智能体s,其状态空间Ss定义为:Ss=(As,Gs,Es,Fs,Es,1,Es,2,Es,3),其中As表示设备s的AoI,Gs表示设备s与基站的上行信道增益和下行信道增益的集合,Fs表示设备s能采样的最大频率,Es,1表示设备s采样所消耗的能量,Es,2表示设备s上行传输所消耗的能量,Es,3表示设备s下行传输所接收的能量;因此总的状态空间S表示为:S={S1,S2,...,SN};
(33)动作空间A的设定:对于智能体s,其动作空间As定义为:As={0,1}2,其中2代表了采样和传输两个动作;上述行动空间本质上表示设备是传输还是采样的具体方案集合,也可表示为行向量形式:As={x1,x2};其中,如果x1=1,表示设备s在这个时刻进行了采样,如果x2=1,表示设备s在这个时刻进行了上行传输;每个智能体负责决策其是否采样和传输,因此总的动作空间表示为所有设备动作空间As的笛卡尔积:A=A1×A2×...×AN
(34)奖励函数R的设定:当设备的AoI较小的时候就采样,则给一个负的奖励,当设备的AoI较大的时候就上行传输,则给予一个正的奖励,当某一时刻传输的设备数超过了一个值M,则给予一个负的奖励。
优选的,步骤(4)包括如下步骤:
(41)首先初始化IPPO算法中各个智能体的策略网络参数
Figure BDA0004143501040000041
以及价值网络参数/>
Figure BDA0004143501040000042
(42)每个智能体观测当前环境状态,并根据当前策略从动作空间As中选择一个动作as
(43)所有智能体的动作构成一个联合动作:{a1,a2,...,aS};
(44)联合动作作用于当前状态,并将当前的状态从s更新为s,同时得到即时奖励R;
(45)之后,奖励将作为反馈给予所有的智能体,更新其策略神经网络参数以及价值神经网络参数;
(46)不断重复步骤(42-45),直到获得的奖励R收敛。
有益效果:本发明提出了一种基于强化学习的分布式物联网系统无线传输研究方法,使用了age of information(AoI)和能量消耗作为衡量指标,每一个设备都是独立的,它们去监测车辆的位置信息并将其传输给基站,而由于有限的无线资源,只有部分设备可以传输,所以使用了强化学习IPPO算法用于决策哪些设备可以传输,IPPO算法对采样到的样本进行多次利用,解决了样本利用率低的问题,降低了计算时间复杂度,提高了设备传输的效率。
附图说明
图1为强化学习算法训练示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但本发明的保护范围不局限于所述实施实例。
本发明提出了一种基于强化学习的分布式物联网系统无线传输研究方法。
下面给出一种实施实例:
(1)首先建立分布式物联网系统无线传输问题所对应的数学模型。
(2)根据设备传输数学模型搭建对应的仿真环境,以及初始化该环境中用的的各项参数。包括设备s的AoI,设备s与基站的信道增益集合,设备s最多能储存的能量,设备能采样的最大频率,设备s采样所消耗的能量,设备s上行传输所消耗的能量,设备s下行传输所接收的能量。
(3)在设备侧,先根据所研究问题的特点将其转化为一个马尔可夫决策过程(MDP):(S,A,R),其中S表示状态空间,A表示动作空间,R表示奖励函数。
(4)最后采用强化学习IPPO算法训练智能体,用于决策满足各项约束并且使得AoI和能量消耗最少的传输方案。
其中所述步骤(1)具体如下:
(11)考虑由N个单天线物联网设备和一个具有M个天线的基站组成的网络,其中每个物联网设备都需要向基站传输实时的数据包。假设物联网设备是分布式的,即各个物联网设备不能相互通信,而基站只知道当前时隙的无线信道信息,而对后面时隙的信道只知道统计的信息。
(12)引入AoI来衡量信息传输的及时性。在基站方面,AoI定义为自上次成功接收到最新数据包以来经过的时隙数,在物联网设备方面,AoI定义为自上次成功采样以来经过的时隙数。可以设置一个最大值Ma来限制AoI的上限值,当AoI达到最大值Ma后,信息可以被认为是没有意义的。
(13)假设基站有一个固定的能量源,每一个物联网设备都有一个射频能量采集电路,用于接受基站所发出的射频信号的能量,然后储存在自己的电池中,能量最多可以储存Bma焦耳,接受的决定在设备处,设备可以通过控制信道把决定告诉基站。基站只要有至少一个设备需要充电,基站就发射。
(14)在物联网设备采样方面,假设设备s在时刻t可以决定采样相应物理过程的间隔,而采样的最大间隔为Δs,t,当距离最近一次采样的时间δs,t小于Δs,t时,满足奈奎斯特-香农采样理论,此时,采样的信息可以精确代表物理过程的变化,反之,则不能精确代表物理过程的变化。用ss,t=1来表示采样,用ss,t=0来表示没有采样,采样消耗的能量为Es,1。在无线信道传输方面,使用正交频分多址(OFDMA)用于采样信息的传输,用us,t=1来表示上行传输,此时设备向基站传输更新数据包,需要消耗电量Es,2,用us,t=0来表示下行传输,此时基站广播射频信号给设备用于充电,充电的能量为Es,3,用us,t=2来表示设备s保持空闲。
(15)所述数学模型的优化目标是使得基站侧的AoI和能量消耗的加权最小。基站侧的AoI与设备侧的AoI有关,如果在某一时刻进行了从设备到基站的上行传输,则基站侧的AoI变为从设备到基站的传输时延,否则加1;基站的能量消耗与设备是否需要从基站侧到设备侧的下行传输进行充电有关,只要有一个设备需要充电,则基站需要在这一时刻发射能量,从而导致能量消耗。
其中所述步骤(3)具体如下:
(31)首先为每个设备设定一个智能体,分别编号为:{1,2,...,N},其中N表示设备总数。
(32)状态空间S的设定:对于智能体s,其状态空间Ss定义为:Ss=(As,Gs,Es,Fs,Es,1,Es,2,Es,3),其中As表示设备s的AoI,Gs表示设备s与基站的信道增益集合,Es表示设备s最多能储存的能量,Fs表示设备s能采样的最大频率,Es,1表示设备s采样所消耗的能量,Es,2表示设备s上行传输所消耗的能量,Es,3表示设备s下行传输所接收的能量。因此总的状态空间S表示为:S={S1,S2,...,Ss}。
(33)动作空间A的设定:对于智能体s,其动作空间As定义为:As={0,1}2,其中2代表了采样和传输两个动作。上述行动空间本质上表示设备是传输还是采样的具体方案集合,也可表示为行向量形式:As={x1,x2}。其中,如果x1=1,表示设备s在这个时刻进行了采样,如果x2=1,表示设备s在这个时刻进行了上行传输。每个智能体负责决策其是否采样和传输,因此总的动作空间可以表示为所有设备动作空间As的笛卡尔积:A=A1×A2×...×AN
(34)奖励函数R的设定:当设备的AoI较小的时候就采样,则给一个负的奖励,当设备的AoI较大的时候就上行传输,则给予一个正的奖励,当某一时刻传输的设备数超过了一个值M,则给予一个负的奖励。
其中所述步骤(4)具体如下:
(41)首先初始化IPPO算法中各个智能体的策略网络参数
Figure BDA0004143501040000062
以及价值网络参数/>
Figure BDA0004143501040000061
(42)每个智能体观测当前环境状态,并根据当前策略从动作空间As中选择一个动作as
(43)所有智能体的动作构成一个联合动作:{a1,a2,...,aS}。
(44)联合动作作用于当前状态,并将当前的状态从s更新为s′,同时得到即时奖励R。
(45)之后,奖励将作为反馈给予所有的智能体,更新其策略神经网络参数以及价值神经网络参数。
(46)不断重复步骤(42-45),直到获得的奖励R收敛,整个过程如图1所示。

Claims (6)

1.一种基于强化学习的分布式物联网系统无线传输方法,其特征在于,包括如下步骤:
建立分布式物联网系统无线传输问题所对应的数学模型;
根据所述数学模型搭建对应的仿真环境,以及初始化该环境中用的各项参数,包括所述分布式物联网系统中设备s的AoI,设备s与基站的信道增益集合,设备s最多能储存的能量,设备s能采样的最大频率,设备s采样所消耗的能量,设备s上行传输所消耗的能量,设备s下行传输所接收的能量;
在设备侧,为每个设备设定一个智能体,将所述数学模型转化为一个马尔可夫决策过程:(S,A,R),其中S表示状态空间,A表示动作空间,R表示奖励函数;
采用强化学习IPPO算法训练智能体,用于决策满足各项约束并且使得AoI和能量消耗最少的传输方案。
2.如权利要求1所述的基于强化学习的分布式物联网系统无线传输方法,其特征在于,所述数学模型包括如下内容:
所述分布式物联网系统包括N个单天线物联网设备和一个具有M个天线的基站,其中每个物联网设备都需要向基站传输实时的数据包;物联网设备是分布式的,即各个物联网设备不能相互通信,而基站只知道当前时隙的无线信道信息,而对后面时隙的信道只知道统计的信息;
引入AoI来衡量信息传输的及时性;在基站方面,AoI定义为自上次成功接收到最新数据包以来经过的时隙数,在物联网设备方面,AoI定义为自上次成功采样以来经过的时隙数;设置一个最大值Ma来限制AoI的上限值,当AoI达到最大值Ma后,信息可以被认为是没有意义的;
基站有一个固定的能量源,每一个物联网设备都有一个射频能量采集电路,用于接受基站所发出的射频信号的能量,然后储存在自己的电池中,能量最多可以储存Bmax焦耳,接受的决定在设备处,设备通过控制信道把决定告诉基站;基站只要有至少一个设备需要充电,基站就发射;
在物联网设备采样方面,设备s在时刻t决定采样相应物理过程的间隔,而采样的最大间隔为Δs,t,当距离最近一次采样的时间δs,t小于Δs,t时,满足奈奎斯特-香农采样理论,此时,采样的信息精确代表物理过程的变化,反之,则不能精确代表物理过程的变化;用ss,t=1来表示采样,用ss,t=0来表示没有采样,采样消耗的能量为Es,1;在无线信道传输方面,使用正交频分多址用于采样信息的传输,用us,t=1来表示上行传输,此时设备向基站传输更新数据包,需要消耗电量Es,2,用us,t=0来表示下行传输,此时基站广播射频信号给设备用于充电,充电的能量为Es,3,用us,t=2来表示设备s保持空闲。
3.如权利要求1所述的基于强化学习的分布式物联网系统无线传输方法,其特征在于,在设备侧将所述数学模型转化为一个马尔可夫决策过程:(S,A,R),包括如下内容:
每个智能体分别编号为:{1,2,...,N},其中N表示设备总数;
状态空间S的设定:对于智能体s,其状态空间Ss定义为:Ss=(As,Gs,Es,Fs,Es,1,Es,2,Es,3),其中As表示设备s的AoI,Gs表示设备s与基站的上行信道增益和下行信道增益的集合,Fs表示设备s能采样的最大频率,Es,1表示设备s采样所消耗的能量,Es,2表示设备s上行传输所消耗的能量,Es,3表示设备s下行传输所接收的能量;因此总的状态空间S表示为:S={S1,S2,...,SN};
动作空间A的设定:对于智能体s,其动作空间As定义为:As={0,1}2,其中2代表了采样和传输两个动作;上述行动空间本质上表示设备是传输还是采样的具体方案集合,也可表示为行向量形式:As={x1,x2};其中,如果x1=1,表示设备s在这个时刻进行了采样,如果x2=1,表示设备s在这个时刻进行了上行传输;每个智能体负责决策其是否采样和传输,因此总的动作空间表示为所有设备动作空间As的笛卡尔积:A=A1×A2×...×AN
奖励函数R的设定:当设备的AoI小的时候就采样,则给一个负的奖励,当设备的AoI大的时候就上行传输,则给予一个正的奖励,当某一时刻传输的设备数超过了一个值M,则给予一个负的奖励。
4.如权利要求1所述的基于强化学习的分布式物联网系统无线传输方法,其特征在于,采用强化学习IPPO算法训练智能体,包括如下步骤:
初始化IPPO算法中各个智能体的策略网络参数
Figure FDA0004143501030000021
以及价值网络参数/>
Figure FDA0004143501030000022
每个智能体观测当前环境状态,并根据当前策略从动作空间As中选择一个动作as
所有智能体的动作构成一个联合动作:{a1,a2,...,aS};
联合动作作用于当前状态,并将当前的状态从s更新为s′,同时得到即时奖励R;
奖励将作为反馈给予所有的智能体,更新其策略神经网络参数以及价值神经网络参数;
不断重复上述步骤,直到获得的奖励R收敛。
5.如权利要求2所述的基于强化学习的分布式物联网系统无线传输方法,其特征在于,所述数学模型的优化目标是使得基站侧的AoI和能量消耗的加权最小。
6.如权利要求5所述的基于强化学习的分布式物联网系统无线传输方法,其特征在于,基站侧的AoI与设备侧的AoI有关,如果在某一时刻进行了从设备到基站的上行传输,则基站侧的AoI变为从设备到基站的传输时延,否则加1;基站的能量消耗与设备是否需要从基站侧到设备侧的下行传输进行充电有关,只要有一个设备需要充电,则基站需要在这一时刻发射能量,从而导致能量消耗。
CN202310297090.4A 2023-03-24 2023-03-24 一种基于强化学习的分布式物联网系统无线传输方法 Pending CN116321005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310297090.4A CN116321005A (zh) 2023-03-24 2023-03-24 一种基于强化学习的分布式物联网系统无线传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310297090.4A CN116321005A (zh) 2023-03-24 2023-03-24 一种基于强化学习的分布式物联网系统无线传输方法

Publications (1)

Publication Number Publication Date
CN116321005A true CN116321005A (zh) 2023-06-23

Family

ID=86832223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310297090.4A Pending CN116321005A (zh) 2023-03-24 2023-03-24 一种基于强化学习的分布式物联网系统无线传输方法

Country Status (1)

Country Link
CN (1) CN116321005A (zh)

Similar Documents

Publication Publication Date Title
Huang et al. Deep reinforcement learning for UAV navigation through massive MIMO technique
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN113537514B (zh) 一种高能效的基于数字孪生的联邦学习框架
US12035380B2 (en) Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning
CN112954651B (zh) 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN112383922A (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
CN112738849B (zh) 应用于多跳环境反向散射无线网络的负载均衡调控方法
US20230196119A1 (en) Self-powered integrated sensing and communication interactive method of high-speed railway based on hierarchical deep reinforcement learning
CN115696211A (zh) 一种基于信息年龄的无人机轨迹自适应优化方法
CN114449482B (zh) 基于多智能体深度强化学习的异构车联网用户关联方法
CN115622603A (zh) 一种辅助传输信息年龄最小化优化方法
CN114885340B (zh) 一种基于深度迁移学习的超密集无线网络功率分配方法
Chen et al. Energy-aware path planning for obtaining fresh updates in UAV-IoT MEC systems
CN114630299B (zh) 一种基于深度强化学习的信息年龄可感知资源分配方法
CN116702635A (zh) 基于深度强化学习的多智能体移动充电调度方法及装置
Xue et al. Deep learning based channel prediction for massive MIMO systems in high-speed railway scenarios
CN113115355B (zh) 一种d2d系统中基于深度强化学习的功率分配方法
Huang et al. Delay-oriented knowledge-driven resource allocation in sagin-based vehicular networks
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
CN116321005A (zh) 一种基于强化学习的分布式物联网系统无线传输方法
CN116867025A (zh) 无线传感器网络中传感器节点分簇方法及装置
Zhang et al. Robust transmission power management for remote state estimation with wireless energy harvesting
CN116882270A (zh) 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统
Zhuang et al. GA-MADDPG: A Demand-Aware UAV Network Adaptation Method for Joint Communication and Positioning in Emergency Scenarios
Yuan et al. Deep Reinforcement Learning-Based Energy Consumption Optimization for Peer-to-Peer (P2P) Communication in Wireless Sensor Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination