CN115190079B - 基于分层强化学习的高铁自供电感知通信一体化交互方法 - Google Patents
基于分层强化学习的高铁自供电感知通信一体化交互方法 Download PDFInfo
- Publication number
- CN115190079B CN115190079B CN202210792408.1A CN202210792408A CN115190079B CN 115190079 B CN115190079 B CN 115190079B CN 202210792408 A CN202210792408 A CN 202210792408A CN 115190079 B CN115190079 B CN 115190079B
- Authority
- CN
- China
- Prior art keywords
- access node
- communication
- options
- reinforcement learning
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000002787 reinforcement Effects 0.000 title claims abstract description 41
- 230000003993 interaction Effects 0.000 title claims abstract description 19
- 230000008447 perception Effects 0.000 claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 31
- 239000000203 mixture Substances 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 49
- 230000009471 action Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001149 cognitive effect Effects 0.000 claims 2
- 238000011161 development Methods 0.000 abstract description 5
- 230000010354 integration Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 8
- 210000002569 neuron Anatomy 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 4
- SAZUGELZHZOXHB-UHFFFAOYSA-N acecarbromal Chemical compound CCC(Br)(CC)C(=O)NC(=O)NC(C)=O SAZUGELZHZOXHB-UHFFFAOYSA-N 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/22—Scatter propagation systems, e.g. ionospheric, tropospheric or meteor scatter
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2475—Traffic characterised by specific attributes, e.g. priority or QoS for supporting traffic characterised by the type of applications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L15/00—Indicators provided on the vehicle or train for signalling purposes
- B61L15/0018—Communication with or on the vehicle or train
- B61L15/0027—Radio-based, e.g. using GSM-R
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L15/00—Indicators provided on the vehicle or train for signalling purposes
- B61L15/0058—On-board optimisation of vehicle or vehicle train operation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L27/00—Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
- B61L27/70—Details of trackside communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/80—Actions related to the user profile or the type of traffic
- H04L47/803—Application aware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mechanical Engineering (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种基于分层强化学习的高铁自供电感知通信一体化交互方法,包括:构建高速轨道客车无源感知通信一体化系统架构,无源传感器从接入节点收集无线射频能量用于收集列车状态数据,接入节点感知列车状态信息;在接入节点与基站进行远程通信过程中,依据高斯混合模型聚类方法获得参考切换节点,完成高速轨道客车通信越区切换;提出基于选项的分层强化学习算法训练高速轨道客车实现数据感知和远程通信自主切换来保证任务完成时间最短,同时保证感知设备能及时充电,提升感知和通信一体化的性能。本发明将无源感知和远程通信相融合,有效提升了系统性能,满足未来高速轨道客车智能化、轻量化发展需求,具有很强的实用性。
Description
技术领域
本发明涉及高铁自供电感知通信技术领域,具体涉及一种基于分层强化学习的高速轨道客车无源感知通信一体化交互方法。
背景技术
目前,行业内提出运用前沿无线技术研制全新一代高速轨道客车通信系统,进一步推动高速轨道客车智能化、轻量化发展。
在高速轨道客车从“有线”到“无线”轻量化转变过程中,无线感知设备持续增多。能量持续供应问题成为无线感知网络发展的瓶颈,限制了传感器的大规模部署。融合无源感知的数据采集技术催生了无源传感器的发展应用,无源传感器无需自带电池,而是从接入节点下行射频信号中收集能量用于自身计算与感知,并利用反射通信技术将感知信息传输到接入节点。该类传感器摆脱了电池等有源器件的束缚,降低了部署成本和能耗(可达数微瓦),支持全方位、全周期、可持续的列车状态监测,具有更长的使用寿命、易于维护、更易轻量化。正因为如此,该技术受到了国内外学术界和工业界的广泛关注。
当高速轨道客车驶离当前基站所在通信区域或在高动态复杂信道环境下突然面临通信中断时,需要重新连接到最近的通信基站进行通信。通信切换技术保证高速轨道客车与基站远程通信不中断,提高系统的有效性和可靠性。传统的通信切换技术方案基于服务基站和目标基站之间接收信号强度差值决定是否切换。然而,已有研究人员证明在触发切换前,接收信号强度差值较大可能会提高链路故障的概率,这将降低切换性能。因此,远程通信切换技术已成为高速轨道客车通信系统智能化发展的核心要素。
目前,感知通信一体化技术是指在硬件架构和算法设计层面融合感知和通信思想,实现感知和通信联合设计。相关研究工作主要集中于车联网、智能交通和工业网络系统,重点解决信息融合和资源协同相关问题,提升系统在感知和通信方面的整体性能。然而,在高速(时速400km以上)铁路运行场景中系统感知通信联合设计的研究尚处于起步阶段,围绕构建轻量化和智能化的感知通信一体化高速轨道客车网络,如何将无源感知和远程通信相融合,实现高动态移动性场景下感知与通信的交互耦合,成为高铁通信系统亟待突破的难题之一。
发明内容
有鉴于此,本发明提出了一种基于分层强化学习的高速轨道客车无源感知通信一体化方法,融合信息感知和远程通信,最小化任务完成时间。
为了实现上述目的,本发明采用如下技术方案:
本发明公开了一种基于分层强化学习的高铁自供电感知通信一体化交互方法,包括如下步骤:
构建高速轨道客车无源感知通信一体化系统架构:所述系统架构包括与高速轨道客车远程通信的基站和高速轨道客车车厢,所述高速轨道客车车厢内包括接入节点和无源传感器;所述无源传感器从接入节点收集无线射频能量并向所述接入节点发送感知的列车状态信息;所述接入节点接收列车状态信息,并与所述基站进行远程通信;
构建信息感知和远程通信模型:包括无源传感器射频能量收集模型、列车接入节点信息感知模型,以及接入节点与基站远程通信模型,利用高斯混合模型聚类方法进行远程通信切换区域划分,并获得参考切换节点,高速轨道客车运行过程中在所述参考切换节点切换与所述接入节点通信的基站;
构建总体优化问题:以任务完成时间最小化为目标函数,建立联合优化模型,基于选项的分层强化学习算法训练所述联合优化模型,求解所述系统架构最优配置,获得满足目标函数下的最优交互策略;所述任务完成时间包括:无源传感器节点收集能量的时间、接入节点感知信息的时间,以及接入节点与远程基站的通信时间,所述联合优化模型包括对高速轨道客车能量传输、信息感知与远程通信动态自主切换过程的表征。
优选的,所述无源传感器非线性能量收集模型的构建包括:
基于接入节点以给定发射功率将给定单位功率射频信号发送到无源传感器节点的过程,构建无源传感器节点接收到的能量信号模型;
无源传感器节点接收到射频信号之后,射频能量用于自身电路充电,进而构建无源传感器非线性能量收集模型;
所述列车接入节点信息感知模型的构建包括:
当无源传感器完成数据采集后,接入节点利用反射通信方法对无源传感器节点采集的数据进行信息感知,构建接入节点接收到的感知信息信号模型以及接入节点接收到感知信息信号的通信速率模型。
优选的,所述接入节点与基站远程通信模型的构建包括:
构建基站从接入节点接收信号时的通信速率模型;
所有的基站接收信号通信速率由给定参数的多个高斯分布混合向量组成,形成高斯混合模型,用于描述参考切换点概率分布情况,依据混合高斯分量聚类结果划分接入节点与基站通信越区切换的范围;
通过拟合通信速率、速度和时间之间的关系,以获得参考切换点预测值及其分布,当前参考切换点预测值作为下次更新计算的先验信息;每个通信切换区域中心的位置由通信速率高斯分布混合向量的均值向量决定,预测值的可靠性由通信切换区域的形状和大小所代表的通信速率高斯分布混合向量的协方差向量决定。
优选的,所述基于选项的分层强化学习算法使用半马尔可夫决策过程模拟高速轨道客车感知和通信场景,包括状态集合、动作集合、选项集合、转换概率、总体奖励和奖励折扣因子;高速轨道客车接入节点作为一个单智能体,依据选项学习策略,在任务开始时,根据自己的初始状态选择选项,接入节点依据选项内的策略执行动作,在选项结束的时刻,到达该选项的总体奖励,再次根据状态信息,依据选项策略选择需要执行的选项,如此循环直到任务结束。
优选的,高速轨道客车接入节点的状态集合包括:远程通信连接概率、高速轨道客车位置、传感器节点的剩余能量和接入节点从传感器节点感知信息百分比;动作集合包括三个动作:接入节点为传感器节点传输能量、接入节点感知信息和接入节点与基站进行远程通信;选项集合包含感知信息、传输能量以及远程通信三种选项;选项的总体奖励分为能量剩余奖励、感知信息奖励和远程通信奖励。
优选的,高速轨道客车接入节点在每个选项的结束时刻得到该选项的总体奖励,总体奖励是选项初始状态和选项动作的函数;其中,能量剩余奖励用于惩罚在执行该选项过程中电量不足的工况,感知信息奖励用于惩罚接入节点重复选择已经完成采集的无源传感器,远程通信奖励用于惩罚接入节点重复选择已经完成通信切换的基站。
优选的,基于选项的分层强化学习算法首先将当前状态信息输入到值函数神经网络中,对应的输出为选择选项的概率;然后通过比较随机选择和贪心算法得到的数值索引找到最优选项;最后根据已选定的选项对应的策略和终止条件,输出相应的动作。
优选的,基于选项的分层强化学习算法的值函数神经网络由输入层、隐藏层和输出层组成,输入层为状态信息和选项奖励,隐藏层由五个全连接层构成,激活函数采用修正线性单元,输出层采用softmax归一化指数函数得到选择选项的概率。
优选的,采用经验随机抽取和经验回放的方式训练基于选项的分层强化学习算法的值函数神经网络,通过对损失函数求梯度的方式更新值函数神经网络参数,完成值函数神经网络参数的更新。
经由上述的技术方案可知,与现有技术相比,本发明的有益效果包括:
本发明构建了一种轻量化和智能化的感知通信一体化高速轨道客车网络,最小化任务完成时间,与传统方法不同的是:
通过建立高速轨道客车无源感知通信一体化系统架构,使信息感知和远程通信集成在同一应用终端,将无源感知和远程通信深入融合;
通过拟合通信速率、速度和时间之间的关系,以获得远程通信参考切换点预测值及其分布,依据高斯混合模型聚类方法获得远程通信参考切换区域,辅助高速轨道客车完成通信越区切换;
提出基于选项的分层强化学习算法训练高速轨道客车实现数据感知和远程通信自主切换来保证任务完成时间最短,同时保证感知设备能及时充电,获得满足目标函数下的智能体与环境最优交互策略,完成高速轨道客车能量传输、信息感知与远程通信动态自主切换过程,实现高动态移动性场景下感知与通信的交互耦合,提升感知和通信一体化的性能。
本发明能够应对复杂的高速轨道客车通信场景变化,同时感知过程实现高可靠绿色通信,本发明可广泛应用于确定典型高速铁路场景(如高架桥、路堑、长隧道等),具有明显的实际应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图;
图1为本发明实施例所提供的一种基于分层强化学习的高速轨道客车无源感知通信一体化方法的流程示意图;
图2为本发明实施例所提供的一种基于分层强化学习的高速轨道客车无源感知通信一体化系统架构示意图;
图3为本发明实施例所提供的基于选项的分层强化学习算法和传统DQN算法的周期回报对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于分层强化学习的高铁自供电感知通信一体化交互方法,如图1所示,具体步骤如下:
S1、构建高速轨道客车无源感知通信一体化系统架构:所述系统架构包括与高速轨道客车远程通信的基站和高速轨道客车车厢,所述高速轨道客车车厢内包括接入节点和无源传感器;所述无源传感器从接入节点收集无线射频能量并向所述接入节点发送感知的列车状态信息;所述接入节点接收列车状态信息,并与所述基站进行远程通信;
S2、构建信息感知和远程通信模型:包括无源传感器射频能量收集模型、列车接入节点信息感知模型,以及接入节点与基站远程通信模型,利用高斯混合模型聚类方法进行远程通信切换区域划分,并获得参考切换节点,高速轨道客车运行过程中在所述参考切换节点切换与所述接入节点通信的基站;
S3、构建总体优化问题:以任务完成时间最小化为目标函数,建立联合优化模型,基于选项的分层强化学习算法训练所述联合优化模型,求解所述系统架构最优配置,获得满足目标函数下的最优交互策略;所述任务完成时间包括:无源传感器节点收集能量的时间、接入节点感知信息的时间,以及接入节点与远程基站的通信时间,所述联合优化模型包括对高速轨道客车能量传输、信息感知与远程通信动态自主切换过程的表征。
在一个实施例中,S1中,构建高速轨道客车无源感知通信一体化系统架构,所述系统架构包括K个与列车远程通信的基站和N节高速轨道客车车厢,高速轨道客车车厢内包括一个用于发射射频能量、感知信息和与基站通信的接入节点和M个不配备电池的无源传感器。每个传感器首先从接入节点收集无线射频能量,然后接入节点通过低功率反向通信技术感知列车状态信息。在接入节点与基站进行远程通信过程中,依据高斯混合模型聚类方法获得参考切换节点,完成高速轨道客车运行过程中通信切换。本发明所假设的场景具有实际的参考价值。
在一个实施例中,S2中,建立信息感知和远程通信模型,包括:
1)信息感知模型
接入节点以发射功率pm将单位功率射频信号em发送到传感器节点,传感器节点Sm接收到的能量信号为:
其中,hm是接入节点到传感器节点的下行链路信道增益,nS是传感器节点噪声,噪声功率噪声服从圆对称复数高斯分布。
当传感器节点接收到射频信号之后,射频能量用于自身电路充电,收集传感器数据。在高速轨道客车中,无源传感器非线性能量收集模型表示为:
其中,PH,m表示非线性能量收集模型的功率,辅助变量辅助函数a和b表示电路参数,Pmax表示接入节点最大传输功率。
当传感器完成数据采集后,接入节点利用反射通信技术对传感器节点采集的数据进行信息感知,接入节点接收到的感知信息信号为:
其中,αm表示反射比率,xm表示传感器节点数据信号,gm表示传感器节点到接入节点的上行链路信道增益,nA表示电路噪声,服从圆对称复数高斯分布,噪声功率为与之相比,传感器节点噪声nS由于过小被忽略。接入节点接收到传感器感知信息信号的通信速率为:
其中,B表示信道带宽。pm|hm|2表示来自其他链路的干扰。
2)远程通信模型
高速轨道客车运行过程中,接入节点需要与基站保持通信,基站接收到的通信信号为:
其中,zn表示接入节点发送的单位功率信息信号,pn表示接入节点发送信号的功率,nB表示基站噪声,服从圆对称复数高斯分布,噪声功率为ln表示高铁通信场景下接入节点到基站的信道增益,该信道增益表示为:
ln=ξexp(-j2πfcτLOS) (6)
其中,ξ表示信道大尺度衰落因子,fc表示载频,τLOS=||DTx-DRx||/c表示通信信号视距链路的到达时间,||g||表示2范数函数,DTx和DRx表示接入节点与基站实时位置信息,c表示光速。接入节点位置信息DTx与高速轨道客车初始位置,运行速度和运行时间有关。
为了有效评估高速轨道客车接入节点与基站的通信情况,需要研究基站从接入节点接收信号时的通信速率:
在高速轨道客车运行过程中,为了满足高质量的无线通信服务要求,本发明提出利用高斯混合模型分析通信切换区域,提前得到参考切换点。高斯混合模型由多个高斯模型组合而成,用于描述参考切换点概率分布情况。假设所有的基站接收信号通信速率由给定参数的K个高斯分布混合向量ri组成,i表示位置的索引。高斯混合概率密度函数表示为:
其中,高斯密度函数Θ={μk,Σk,ζk}表示位置数据和模型参数,ζk表示权重向量,/>μk和Σk表示通信速率高斯分布混合向量ri的均值向量和方差向量。
假设采样得到的训练信号集合为R={r1,r2,...,ri,...,rI},训练信号的对数似然函数为:
对于给定的训练信号集合和通信区域数量,通过使用期望最大化算法使对数似然函数最大化来估计参数Θ={μk,Σk,ζk},依据集合中的混合高斯分量聚类结果划分接入节点与基站通信越区切换的范围,本发明将列车起点的位置设定为算法更新的初始值。通过拟合通信速率、速度和时间之间的关系,以获得预测值及其分布。在更新过程中,列车报告一组数据速率,然后计算出一个参考切换点结果并更新其分布。最后,该结果可以作为下次更新计算的先验信息。每个通信切换区域中心的位置由参数μk决定。预测值的可靠性由通信切换区域的形状和大小所代表的协方差Σk决定。
在一个实施例中,S3中,基于所述高速轨道客车无源感知通信一体化系统架构,结合传感器节点收集能量的时间接入节点感知信息的时间/>和接入节点与远程基站的通信时间/>建立联合优化模型,求解系统最优配置,获得最优传输策略,在满足接入节点感知信息速率、接入节点远程通信速率、接入节点能量以及传感器能量消耗等多重约束条件下,将任务完成时间最小化;
其中,C1、C2、C3和C4均为约束条件,C1表示接入节点感知信息速率约束,保证接入节点成功感知列车状态信息,rA,m为接入节点感知信息的速率,rA,min为接入节点感知信息速率的下界;C2表示接入节点远程通信速率约束,保证接入节点与基站进行远程通信,rB,m为接入节点远程通信速率,rB,min为远程通信速率的下界;C3表示接入节点能量约束,保证接入节点正常工作,为接入节点电源的总能量,ET,n为接入节点向传感器节点充电消耗的能量,EC,n为远程通信过程中接入节点消耗的能量;C4表示传感器能量消耗约束,传感器收集的能量要保证传感器正常工作,EH,m为无源传感器收集的能量,EC,m为数据采集过程中无源传感器消耗的能量。
在一个实施例中,S3中,基于选项的分层强化学习算法使用半马尔可夫决策过程模拟高速轨道客车感知和通信场景,包括状态集合、动作集合、选项集合、转换概率、总体奖励和奖励折扣因子;高速轨道客车接入节点作为一个单智能体,依据选项学习策略,在任务开始时,根据自己的初始状态选择选项,接入节点依据选项内的策略执行动作,在选项结束的时刻,到达该选项的总体奖励,再次根据状态信息,依据选项策略选择需要执行的选项,如此循环直到任务结束。
需要说明的是,在传统的马尔可夫决策过程中,当系统状态发生变化时,系统需要选择行动。然而,在基于选项的分层强化学习中,状态在两个决策时刻之间可能会发生多次变化,而只有决策时刻的状态与系统相关。
区别于传统马尔可夫决策过程,本发明实施例使用半马尔可夫决策过程模拟高速轨道客车感知和通信场景,半马尔可夫决策过程包含六个元组<S,A,O,P,R,γ>,其中S、A和O分别代表状态集合、动作集合和选项集合,P代表转换概率,R代表总体奖励,γ代表奖励折扣因子。高速轨道客车接入节点可以看作一个单智能体,依据选项学习策略ω,在任务开始时,根据自己的初始状态s0选择选项o0,接入节点依据选项o0内的策略π执行动作,在选项o0结束的时刻t,到达该选项的总体奖励Rt,再次根据状态信息st,依据选项策略ω选择需要执行的选项ot,如此循环直到任务结束。
在一个实施例中,高速轨道客车接入节点的状态由四部分组成S@{S1,S2,S3,S4},其中S1表示远程通信连接概率,远程通信连接概率向量B={B1,...,Bn,...,BN}∈S1,Bn∈[0,1]表示与对应基站的连接情况;S2表示高速轨道客车位置,与远程通信链路的二维坐标有关;S3表示传感器节点的剩余能量;S4表示接入节点从传感器节点m感知信息情况,D={D1,...,Dm,...,DM}∈S4,Dm∈[0,1]表示数据收集百分比。
在一个实施例中,高速轨道客车接入节点动作空间A包括三个动作:接入节点为传感器节点传输能量Ac,接入节点感知信息Ad和接入节点与基站进行远程通信Ar。
在一个实施例中,高速轨道客车接入节点执行的选项集合O包含感知信息od、传输能量oc以及远程通信or三种选项,即O={or,od,oc},其中od={o1,...,om,...oM}表示接入节点从传感器节点m感知信息;oc表示接入节点为传感器节点传输能量;or={o1,...,on,...oN}接入节点与基站n进行远程通信。每个选项可以看作是一系列动作的概括,均为一个三元组<I,π,β>,高速轨道客车接入节点在任意一个状态可选择的选项集合在选项集合O内,即I=S。在本发明中每个选项内部的策略π均设定为固定策略,每个选项的终止条件β均为执行完其所有动作。
具体地,对于接入节点感知信息的选项od,其策略为从传感器节点利用反射通信收集该节点的数据,直到收集完毕退出当前选项;对于传输能量的选项oc,其策略为接入节点通过广播的形式利用射频信号为传感器节点进行充电,直到电量充满退出选项;对于远程通信的选项or,其策略为接入节点与基站进行远程通信,通信区域切换完成退出选项。在仿真时,每个选项内部的策略不用进行训练。
高速轨道客车接入节点在每个选项的结束时刻t得到该选项的总体奖励Rt,Rt是选项初始状态st和选项动作ot的函数。假设选项的总体奖励分为能量剩余奖励RE、感知信息奖励RD和远程通信奖励RT。能量剩余奖励主要用于惩罚系统在执行该选项过程中电量不足的情况,即
其中,表示一个负常数,Er表示剩余能量。感知信息奖励RD用于惩罚接入节点重复选择已经完成采集的传感器,即
其中,表示一个负常数,远程通信奖励RT用于惩罚接入节点重复选择已经完成通信切换的基站
最终,智能体经历一个选项得到的即时奖励Rt为上面三种奖励的和,即Rt=RE+RD+RT。
在一个实施例中,在Deep Q-Network(DQN)框架基础上,采用基于选项的分层强化学习算法来训练高速轨道客车,找到最优的策略来解决通信感知一体化问题。高速轨道客车与环境的交互过程中从前一个选项ot-1退出,获得该选项的奖励Rt-1以及下一步的状态信息st。将当前状态信息st输入到值函数神经网络中,该网络由输入层、隐藏层和输出层组成,其中隐藏层由五个全连接层构成,第一个全连接网络包含1024个神经元,其激活函数采用修正线性单元(Rectified Linear Unit,简称ReLU),第一层网络的输出为:
其中,W1是第一层神经网络的权重参数,b1是其偏差参数。第二层隐藏层的输入是第一层隐藏层的输出,第二层隐藏层由512个神经元构成,其激活函数与上一层相同,也采用ReLU函数,这一层的输出为:
其中,W2是第二层神经网络的权重参数,b2是其偏差参数。第三层隐藏层的输入是第二层隐藏层的输出,第三层隐藏层由256个神经元构成,其激活函数与上一层相同,也采用ReLU函数,这一层的输出为:
其中,W3是第三层神经网络的权重参数,b3是其偏差参数。第四层隐藏层的输入是第三层隐藏层的输出,第四层隐藏层由128个神经元构成,其激活函数与上一层相同,也采用ReLU函数,这一层的输出为:
其中,W4是第四层神经网络的权重参数,b4是其偏差参数。第五层隐藏层的输入是第四层隐藏层的输出,第五层隐藏层由64个神经元构成,其激活函数与上一层相同,也采用ReLU函数,这一层的输出为:
其中,W5是第五层神经网络的权重参数,b5是其偏差参数。输出层接受第五层网络的输出X5并利用softmax激活函数输出|O|维向量o:
其中,W6和b6分别是输出层的权重参数和偏差参数,softmax是归一化指数函数。值函数神经网络网络的输出o是选择选项的概率,即
通过使用ε-greedy算法来找到最优选项。ε是0到1之间的一个较小的值,每次以ε的概率进行随机选择,以1-ε的概率用贪心算法进行选择,即选择选项中最大数值的索引作为要选择的选项ot,贪心算法表示为:
在选项集合中选择ot对应的策略π和终止条件β输出相应的动作,继续与环境进行交互。
在训练基于选项的分层强化学习算法时,设置高速轨道客车经验存储集合D={st,ot,Rt,st+1},st表示当前状态,ot表示根据当前算法得到的选项动作,Rt表示总体即时反馈,st+1表示经过转换概率P系统转移到的下一个状态。采用经验回放和经验随机抽取的方式训练值函数神经网络Qoption。算法中值函数神经网络Qoption又称为评估网络,设置目标网络Qtarget用于近似表示最优评估网络评估网络的损失函数表示为:
上式中E表示在经验存储集合D的期望函数,θ表示值函数神经网络Qoption中所有参数,其更新规则为:
θnew=θold-κ▽θLoss(θ) (22)
其中,κ为学习速率,θnew和θold分别表示评估网络更新后的参数和更新前的参数,损失函数的梯度▽θLoss(θ)表示为:
▽θLoss(θ)=E[2(argmaxQtarget(st+1)+Rt-Qoption(st,ot;θ))×▽θQoption(st,ot;θ)] (23)
每隔一定的周期后,利用原有目标网络和当前估计网络的参数综合对目标网络进行更新,其更新规则为:
其中,ρ为更新速率,且ρ∈[0,1],和/>分别表示目标网络Qtarget更新后的参数和更新前的参数。
图3示出了本实施例提供的基于选项的分层强化学习算法的训练周期回报仿真结果。所提的基于选项的分层强化学习算法和传统DQN算法相比,基于选项的分层强化学习算法的周期回报上涨更为迅速,并且能够快速收敛,而传统DQN算法的周期回报则收敛速度较慢且波动较大,其最终的周期回报明显低于前者。说明所提的基于选项的分层强化学习算法利用直接学习策略的方式,相比传统DQN算法能更快学习到场景的含义,因此更适用于高速轨道客车高动态变化场景;而传统DQN算法每次只选择基本的动作,缺乏对高动态变化场景的整体考虑。
以上对本发明所提供的基于分层强化学习的高铁自供电感知通信一体化交互方法进行了详细介绍,本实施例中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本实施例中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本实施例所示的这些实施例,而是要符合与本实施例所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于分层强化学习的高铁自供电感知通信一体化交互方法,其特征在于,包括如下步骤:
构建高速轨道客车无源感知通信一体化系统架构:所述系统架构包括与高速轨道客车远程通信的基站和高速轨道客车车厢,所述高速轨道客车车厢内包括接入节点和无源传感器;所述无源传感器从接入节点收集无线射频能量并向所述接入节点发送感知的列车状态信息;所述接入节点接收列车状态信息,并与所述基站进行远程通信;
构建信息感知和远程通信模型:包括无源传感器射频能量收集模型、列车接入节点信息感知模型,以及接入节点与基站远程通信模型,利用高斯混合模型聚类方法进行远程通信切换区域划分,并获得参考切换节点,高速轨道客车运行过程中在所述参考切换节点切换与所述接入节点通信的基站;
构建总体优化问题:以任务完成时间最小化为目标函数,建立联合优化模型,基于选项的分层强化学习算法训练所述联合优化模型,求解所述系统架构最优配置,获得满足目标函数下的最优交互策略;所述任务完成时间包括:无源传感器节点收集能量的时间、接入节点感知信息的时间,以及接入节点与远程基站的通信时间,所述联合优化模型包括对高速轨道客车能量传输、信息感知与远程通信动态自主切换过程的表征。
2.根据权利要求1所述的基于分层强化学习的高铁自供电感知通信一体化交互方法,其特征在于,所述无源传感器非线性能量收集模型的构建包括:
基于接入节点以给定发射功率将给定单位功率射频信号发送到无源传感器节点的过程,构建无源传感器节点接收到的能量信号模型;
无源传感器节点接收到射频信号之后,射频能量用于自身电路充电,进而构建无源传感器非线性能量收集模型;
所述列车接入节点信息感知模型的构建包括:
当无源传感器完成数据采集后,接入节点利用反射通信方法对无源传感器节点采集的数据进行信息感知,构建接入节点接收到的感知信息信号模型以及接入节点接收到感知信息信号的通信速率模型。
3.根据权利要求1所述的基于分层强化学习的高铁自供电感知通信一体化交互方法,其特征在于,所述接入节点与基站远程通信模型的构建包括:
构建基站从接入节点接收信号时的通信速率模型;
所有的基站接收信号通信速率由给定参数的多个高斯分布混合向量组成,形成高斯混合模型,用于描述参考切换点概率分布情况,依据混合高斯分量聚类结果划分接入节点与基站通信越区切换的范围;
通过拟合通信速率、速度和时间之间的关系,以获得参考切换点预测值及其分布,当前参考切换点预测值作为下次更新计算的先验信息;每个通信切换区域中心的位置由通信速率高斯分布混合向量的均值向量决定,预测值的可靠性由通信切换区域的形状和大小所代表的通信速率高斯分布混合向量的协方差向量决定。
4.根据权利要求1所述的基于分层强化学习的高铁自供电感知通信一体化交互方法,其特征在于,所述基于选项的分层强化学习算法使用半马尔可夫决策过程模拟高速轨道客车感知和通信场景,包括状态集合、动作集合、选项集合、转换概率、总体奖励和奖励折扣因子;高速轨道客车接入节点作为一个单智能体,依据选项学习策略,在任务开始时,根据自己的初始状态选择选项,接入节点依据选项内的策略执行动作,在选项结束的时刻,到达该选项的总体奖励,再次根据状态信息,依据选项策略选择需要执行的选项,如此循环直到任务结束。
5.根据权利要求4所述的基于分层强化学习的高铁自供电感知通信一体化交互方法,其特征在于,高速轨道客车接入节点的状态集合包括:远程通信连接概率、高速轨道客车位置、传感器节点的剩余能量和接入节点从传感器节点感知信息百分比;动作集合包括三个动作:接入节点为传感器节点传输能量、接入节点感知信息和接入节点与基站进行远程通信;选项集合包含感知信息、传输能量以及远程通信三种选项;选项的总体奖励分为能量剩余奖励、感知信息奖励和远程通信奖励。
6.根据权利要求4所述的基于分层强化学习的高铁自供电感知通信一体化交互方法,其特征在于,高速轨道客车接入节点在每个选项的结束时刻得到该选项的总体奖励,总体奖励是选项初始状态和选项动作的函数;其中,能量剩余奖励用于惩罚在执行该选项过程中电量不足的工况,感知信息奖励用于惩罚接入节点重复选择已经完成采集的无源传感器,远程通信奖励用于惩罚接入节点重复选择已经完成通信切换的基站。
7.根据权利要求4所述的基于分层强化学习的高铁自供电感知通信一体化交互方法,其特征在于,基于选项的分层强化学习算法首先将当前状态信息输入到值函数神经网络中,对应的输出为选择选项的概率;然后通过比较随机选择和贪心算法得到的数值索引找到最优选项;最后根据已选定的选项对应的策略和终止条件,输出相应的动作。
8.根据权利要求7所述的基于分层强化学习的高铁自供电感知通信一体化交互方法,其特征在于,基于选项的分层强化学习算法的值函数神经网络由输入层、隐藏层和输出层组成,输入层为状态信息和选项奖励,隐藏层由五个全连接层构成,激活函数采用修正线性单元,输出层采用softmax归一化指数函数得到选择选项的概率。
9.根据权利要求7所述的基于分层强化学习的高铁自供电感知通信一体化交互方法,其特征在于,采用经验随机抽取和经验回放的方式训练基于选项的分层强化学习算法的值函数神经网络,通过对损失函数求梯度的方式更新值函数神经网络参数,完成值函数神经网络参数的更新。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210792408.1A CN115190079B (zh) | 2022-07-05 | 2022-07-05 | 基于分层强化学习的高铁自供电感知通信一体化交互方法 |
US18/083,586 US20230196119A1 (en) | 2022-07-05 | 2022-12-19 | Self-powered integrated sensing and communication interactive method of high-speed railway based on hierarchical deep reinforcement learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210792408.1A CN115190079B (zh) | 2022-07-05 | 2022-07-05 | 基于分层强化学习的高铁自供电感知通信一体化交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115190079A CN115190079A (zh) | 2022-10-14 |
CN115190079B true CN115190079B (zh) | 2023-09-15 |
Family
ID=83517993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210792408.1A Active CN115190079B (zh) | 2022-07-05 | 2022-07-05 | 基于分层强化学习的高铁自供电感知通信一体化交互方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230196119A1 (zh) |
CN (1) | CN115190079B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4166419A1 (en) * | 2021-10-18 | 2023-04-19 | Tata Consultancy Services Limited | System and method for railway network access planning |
CN116073850A (zh) * | 2022-10-27 | 2023-05-05 | 南方科技大学 | 集中式无线通信系统、无线通信方法、设备和存储介质 |
CN117863948B (zh) * | 2024-01-17 | 2024-06-11 | 广东工业大学 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN109599940A (zh) * | 2018-11-16 | 2019-04-09 | 国网江苏省电力有限公司盐城供电分公司 | 一种基于lpwan的配变状态远程监测系统及其方法 |
CN113190039A (zh) * | 2021-04-27 | 2021-07-30 | 大连理工大学 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
CN113207127A (zh) * | 2021-04-27 | 2021-08-03 | 重庆邮电大学 | 一种noma系统中基于分层深度强化学习的动态频谱接入方法 |
-
2022
- 2022-07-05 CN CN202210792408.1A patent/CN115190079B/zh active Active
- 2022-12-19 US US18/083,586 patent/US20230196119A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN109599940A (zh) * | 2018-11-16 | 2019-04-09 | 国网江苏省电力有限公司盐城供电分公司 | 一种基于lpwan的配变状态远程监测系统及其方法 |
CN113190039A (zh) * | 2021-04-27 | 2021-07-30 | 大连理工大学 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
CN113207127A (zh) * | 2021-04-27 | 2021-08-03 | 重庆邮电大学 | 一种noma系统中基于分层深度强化学习的动态频谱接入方法 |
Non-Patent Citations (1)
Title |
---|
基于深度强化学习的无人机数据采集和路径规划研究;牟治宇;张煜;范典;刘君;高飞飞;;物联网学报(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20230196119A1 (en) | 2023-06-22 |
CN115190079A (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115190079B (zh) | 基于分层强化学习的高铁自供电感知通信一体化交互方法 | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
Li et al. | Downlink transmit power control in ultra-dense UAV network based on mean field game and deep reinforcement learning | |
Çalhan et al. | Artificial neural network based vertical handoff algorithm for reducing handoff latency | |
CN111132192B (zh) | 一种无人机基站在线轨迹优化方法 | |
CN112327907B (zh) | 一种无人机路径规划方法 | |
CN114554459B (zh) | 一种近端策略优化辅助的车联网联邦学习客户端选择方法 | |
CN113453358B (zh) | 一种无线携能d2d网络的联合资源分配方法 | |
Paul et al. | A fuzzy AHP-based relay node selection protocol for wireless body area networks (WBAN) | |
Ji et al. | Multi-agent reinforcement learning resources allocation method using dueling double deep Q-network in vehicular networks | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN108243479A (zh) | 基于停车场内车辆辅助的多中继协作系统及通信方法 | |
CN114205769A (zh) | 基于无人机数据采集系统的联合轨迹优化与带宽分配方法 | |
CN114449482A (zh) | 基于多智能体深度强化学习的异构车联网用户关联方法 | |
CN115065678A (zh) | 一种基于深度强化学习的多智能设备任务卸载决策方法 | |
CN116113025A (zh) | 一种无人机协能通信网络中轨迹设计和功率分配方法 | |
CN114630299A (zh) | 一种基于深度强化学习的信息年龄可感知资源分配方法 | |
Yacheur et al. | DRL-based RAT Selection in a Hybrid Vehicular Communication Network | |
CN116896777A (zh) | 基于强化学习的无人机群通感一体能耗优化方法 | |
Yuhua et al. | A research on age of information minimization scheme of wireless sensor network assisted by UAV | |
CN116009590A (zh) | 无人机网络分布式轨迹规划方法、系统、设备及介质 | |
CN115988543A (zh) | 一种基于数字孪生的无人机数能计算联合资源分配方法 | |
CN106712813B (zh) | 基于网络生命周期门限选择天线的mimo中继选择方法 | |
CN115580885A (zh) | 一种无人机通信系统的智能决策方法及架构 | |
CN113869523A (zh) | 基于b-m2m的机器学习方法、系统、基站及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |