CN115086915A - 一种高速轨道客车无线感知系统信息传输方法 - Google Patents

一种高速轨道客车无线感知系统信息传输方法 Download PDF

Info

Publication number
CN115086915A
CN115086915A CN202210611231.0A CN202210611231A CN115086915A CN 115086915 A CN115086915 A CN 115086915A CN 202210611231 A CN202210611231 A CN 202210611231A CN 115086915 A CN115086915 A CN 115086915A
Authority
CN
China
Prior art keywords
access node
wireless sensor
transmission
information
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210611231.0A
Other languages
English (en)
Inventor
胡封晔
刘坦炟
凌壮
李海龙
李志军
那顺乌力吉
王华伟
张艳明
李聪
关吉瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202210611231.0A priority Critical patent/CN115086915A/zh
Publication of CN115086915A publication Critical patent/CN115086915A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/42Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for mass transport vehicles, e.g. buses, trains or aircraft
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or train for signalling purposes
    • B61L15/0018Communication with or on the vehicle or train
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or train for signalling purposes
    • B61L15/0018Communication with or on the vehicle or train
    • B61L15/0027Radio-based, e.g. using GSM-R
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/70Details of trackside communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种高速轨道客车无线感知系统信息传输方法,包括:构建多接入节点的无线感知系统架构,系统中每个车厢包含一个接入节点与多个无线传感器,各传感器与接入节点建立连接实现能量收集与信息传输,各接入节点接收到来自传感器的数据后进行远端通信将数据传输至隧道内所设射频拉远单元;设计了基于强化学习的系统能量与信息传输协议,求解系统最优配置,获得最优传输策略,最小化整体传输时间。本发明针对高铁隧道场景下单接入节点传输系统中效率低下、远端通信损耗严重等现状,首次提出多接入节点自主协同传输条件下的传输策略,同时为强化学习方法设计联合深度神经网络,提供了可靠的优化方法。

Description

一种高速轨道客车无线感知系统信息传输方法
技术领域
本发明涉及高速轨道客车感知通信技术领域,更具体的说是涉及一种高速轨道客车的无线感知系统信息传输方法。
背景技术
近年来高速铁路技术的高速发展,离不开先进的通信技术的支持。随着物联网众多新业务的蓬勃发展,实时通信需求和数据传输量呈现爆炸式增长,高铁通信逐渐走向智能化,未来列车的监测系统、控制系统、动力系统都会存在大量运行数据的传输需求。无线传感器网络是由大量散乱且独立的传感器节点通过一定的无线通信协议而构成的一个分布式网络,这些传感器节点大多分布在无人值守的监测区域,用以感知、采集和处理部署环境中某些对象的物理信息,并把这些信息加工处理后传输给终端。目前,无线传感器网络已被广泛应用于经济、军事、民生等领域。针对高速列车运行状态监测的实时性需求,无线传感器网络是一种有效的监测手段。
无线传感器的小型化和轻量化需求使其电池容量通常受限,无线能量传输(WPT,Wireless Power Transmission)技术相较于传统的太阳能转换、机械能转换等能量获取方式,具有传输功率、信号波形和时频资源分配等高度可控的特点,具有显著优越性。由于射频信号能够同时传输信息和能量,R.Zhang等提出的无线能量信息同传(SWIPT,Simultaneous Wireless Information andPower Transfer)方法基于接收电路能同时从信号中进行信息解码和能量传输的特点,迅速成为近年来研究热点,且设计了基于时间切换与功率分割协议的接收机结构从而证明SWIPT无论是理论上还是实际上均是可行的。
当高铁在沿铁轨分布的小区间穿行时,系统通信性能会随列车与基站间的距离变化而产生波动,为在高速移动状态下保证列车与基站间的通信连接不中断需频繁地进行越区切换。先进的越区切换技术可以保障通信系统的高效可靠,维护高铁行车安全,提高乘客舒适度,对推动高铁经济可持续发展具有重要意义。由于高铁的轨迹行驶易于追踪与预测,因此其越区切换触发位置信息也有可预知性,可以借助于地理位置、速度等参数帮助优化切换性能,然而此切换方案对全球定位系统(GPS,GlobalPositioning System)具有较强的依赖,会受到地理环境因素如隧道场景下的影响,导致GPS设备与卫星间的通信连接发生中断重连。因此高铁可以基于参考信号接收功率(RSRP,Reference Signal ReceivingPower)作为切换判决标准,该参数可直观反应来自基站的参考信号的强度,通过对源基站与目的基站的RSPP值的大小进行比较来判断是否触发切换。
然而,传统的单跳网络中用户或无线传感器将直接与基站进行连接通信,因高铁金属密闭车厢的原因将会为无线信号带来大量的穿透损耗,严重影响通信与切换性能。解决此问题的有效方法是基于车载中继实现两跳无线通信,即在高铁车厢顶部装载中继站与基站进行连接,乘客或传感器通过无线接入节点连接至车载中继与基站进行通信,提升整体通信性能。目前国内外未见在高速铁路隧道场景下的无线传感器网络通信进行联合设计,提升无线感知系统整体通信性能的研究,同时高铁无线感知系统在实际使用场景中存在高移动性与高损耗等特点,影响通信性能。
因此,如何提升高铁无线感知系统在实际实用场景中的通信性能是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种高速轨道客车无线感知系统信息传输方法,包括:构建多接入节点的无线感知系统架构,系统中每个车厢包含一个接入节点与多个无线传感器,各传感器与接入节点建立连接实现能量收集与信息传输,各接入节点接收到来自传感器的数据后进行远端通信将数据传输至隧道内所设射频拉远单元;设计了基于强化学习的系统能量与信息传输协议,求解系统最优配置,获得最优传输策略,最小化整体传输时间。本发明针对高铁隧道场景下单接入节点传输系统中效率低下、远端通信损耗严重等现状,首次提出多接入节点自主协同传输条件下的传输策略,同时为强化学习方法设计联合深度神经网络,提供了可靠的优化方法。
为了实现上述目的,本发明采用如下技术方案:
一种高速轨道客车无线感知系统信息传输方法,包括以下具体步骤:
步骤1:构建高铁隧道场景下无线感知系统,确定接入节点与无线传感器节点组网分布,以及能量与信息传输协议;
步骤2:根据接入节点与无线传感器节点组网分布构建列车内部信息收集信道模型和远端传输信道模型,获得各无线传感器节点能量接收性能与各接入节点信息收发性能;根据接入节点与传感器节点组网分布获得列车环境相关常数、接入节点与无线传感器节点距离等;
步骤3:根据各无线传感器节点能量接收性能和各接入节点信息收发性能构建系统信息传输优化模型,并利用强化学习方法求解,获得最小传输时间下的最优传输策略;
步骤4:无线感知系统采用最优传输策略传输能量与信息。
优选的,所述无线感知系统包括N个预先布置在车厢处的接入节点与K个布置在整辆列车上的无线传感器节点;接入节点与无线传感器节点构成感知网络,每个感知网络包括一个接入节点与M+Ma个无线传感器节点,其中M为车厢内部固定区域所含无线传感器节点数量,Ma为车厢邻接处无线传感器节点数量,每个感知网络包含的无线传感器节点可连接邻接车厢的任一接入节点进行充电、信息收集与传输任务。
优选的,所述无线感知系统进行充电、信息收集与传输任务的过程为:当需要进行感知时,各车厢所设接入节点首先依据调度策略进行无线传感器节点选择,对选中的无线传感器节点进行无线能量传输与无线信息传输,无线传感器节点利用接收到的信号进行充电与信息感知;无线传感器节点将感知信息回传至所属车厢的接入节点,接入节点将收集到的感知信息利用隧道内部泄漏电缆远端传输至射频拉远单元。每一节车厢设置一个接入节点和多个传感器节点,每个接入节点同时只可与一个传感器节点进行交互。接入节点负责接收传感器节点回传的信息,并将此信息传输至远端射频拉远单元。
优选的,由于高铁列车内部信号信道参数主要受传播损耗、阴影效应与多径反射的影响,因此采用视距与非视距结合的路径损耗模型作为信息收集信道模型,表达式为:
Figure BDA0003672048110000041
其中,
Figure BDA0003672048110000042
为空间传播损耗;ηLoS、ηNLoS、a和b为与列车环境相关的常数;fnm为发射信号中心频率;c为光速;dnm为接入节点与所选无线传感器节点的距离;θn,m为立体角度差;
dnm与θn,m分别表示为:
Figure BDA0003672048110000043
Figure BDA0003672048110000044
其中,(xn,yn,zn)为接入节点三维坐标,(xm,ym,zm)为无线传感器节点三维坐标,因此列车内信号传输下行链路信道增益为:
Figure BDA0003672048110000045
优选的,列车内部信号通过安装在隧道内部的泄露电缆传输至射频拉远单元,其中射频拉远单元设置在隧道内部的洞室内,所述洞室间隔固定距离设置,所述洞室内还设置有基带处理单元与接口,基带处理单元完成基带信号的调制和解调,利用光纤传输至射频拉远单元实现射频信号和数字信号转换以及宽带信号的接入处理,再利用光纤传输至接口,接口可以对不同无线通信系统的下行信号进行整合,也可以对不同无线通信系统的上行信号进行分路且可有效避免频带干扰;
泄漏电缆覆盖方式为2发送2接收(2T2R)方式,即隧道内铺盖泄漏电缆各2条分别用于接收与发送信号。本发明在此基础上利用泄漏电缆实现信息远端传输,采用路径损耗模型作为远端传输信道模型,表达式为:
Figure BDA0003672048110000046
其中,
Figure BDA0003672048110000047
为接口插入损耗,该损耗主要包含电桥和多频合路器等物理设备带来的损耗;
Figure BDA0003672048110000048
为泄漏电缆传输损耗,该损耗与信号频率、漏缆尺寸与传输距离相关;
Figure BDA0003672048110000049
为为泄漏电缆耦合损耗,由于泄漏电缆在隧道内铺设距列车约为2米距离,该损耗为电缆中传输的能量在距离漏缆2米处所产生的损耗;
Figure BDA0003672048110000051
为宽度因子,该损耗为对于垂直距离漏缆超过2米处位置的电平损耗补偿;
Figure BDA0003672048110000052
为快衰落余量,为对抗隧道壁反射产生的多径效应和高速行驶产生的多普勒频移引起的快衰落,需设置一定的快衰落余量;远端传输信道增益为:
Figure BDA0003672048110000053
优选的,根据列车内信号传输下行链路信道增益进行无线传感器节点能量收集量分析:
无线传感器节点接收到来自接入节点的能量信号后开始为自身充电并进行感知工作,采用无线传感器节点自身的线性能量收集模型实现无线传感器节点能量收集,则在单位时间无线传感器节点收集的功率表示为
Figure BDA0003672048110000054
其中,ξm∈(0,1]为转换系数;pn,m为接入节点发射信号功率;hn,m为列车内信号传输下行链路信道增益;Pth为可被无线传感器节点的能量收集系统收集的功率峰值,在本发明中为特定值,当可接收功率小于峰值时,按接收功率进行能量补充,大于峰值时,按峰值进行能量补充。
优选的,根据列车内信号传输下行链路信道增益进行接入节点信息收集速率分析:
在接入节点信息收集阶段,接入节点发射信号激活所选无线传感器节点进行感知工作,并利用收集到能量对感知信息进行回传至接入节点,由于在信息收集阶段每个接入节点同时只可与一个无线传感器节点交互,所以彼此间不会产生干扰,无线传感器节点上行链路回传信号表示为:
Figure BDA0003672048110000055
其中,ym,n为接入节点接收信号;αm∈(0,1)为传输比率,在无线传感器节点接收到的功率中,部分功率αmPH,m用于信号回传,剩余功率留存,用于电路损耗等消耗;hm,n为列车内信号传输上行链路信道增益,由于无线传感器节点与接入节点相对静止,所以信道增益可视为恒定且hm,n=hn,m;xm为无线传感器节点回传携带感知信息的信号;nm,n为服从复高斯分布
Figure BDA0003672048110000056
的噪声;考虑信号能量信息同传问题,所以信息收集速率引入能量信号干扰进行分析,基于香农信息公式可得上行链路信息传输速率为:
Figure BDA0003672048110000061
其中,B为信道带宽,
Figure BDA0003672048110000062
为接入节点接收信号信干噪比。
优选的,根据远端传输信道增益进行远端通信信息传输速率分析:
在接入节点接收到来自无线传感器节点传输的感知信息后与远端射频拉远单元建立链路,将感知信息利用泄漏电缆上行链路进行传输,由于泄漏电缆上下行链路采用不同漏缆进行传输,且不同车厢的接入节点利用不同时隙进行数据传输,所以彼此间不会产生干扰,射频拉远单元接收信号表示为:
Figure BDA0003672048110000063
其中,yn,s为远端射频拉远单元接收信号;pn,s为接入节点远端传输发射功率;hn,s为远端传输信道增益,该增益与漏缆型号、发射信号频率与传输距离相关;xn为接入节点远端传输携带感知信息的信号;nn,s为服从复高斯分布
Figure BDA0003672048110000064
的噪声;基于香农信息公式可得远端传输信息传输速率为:
Figure BDA0003672048110000065
其中,B为信道带宽;
Figure BDA0003672048110000066
为接收端射频拉远单元接收信号信噪比。
优选的,基于所述高铁隧道场景下无线感知系统,求解系统最优配置,获得最优传输策略,在保证接入节点数据收集与远程数据传输吞吐量的约束下,利用强化学习方法对整体传输时间进行优化,以获得系统整体最小传输时间;
系统信息传输优化模型为:
Figure BDA0003672048110000071
Figure BDA0003672048110000072
Figure BDA0003672048110000073
Figure BDA0003672048110000074
Figure BDA0003672048110000075
Figure BDA0003672048110000076
Figure BDA0003672048110000077
其中,N为列车内接入节点数量;Mn为一接入节点覆盖区域内无线传感器节点数量;
Figure BDA0003672048110000078
为选中无线传感器节点向接入节点传输数据时间;
Figure BDA0003672048110000079
为接入节点为无线传感器节点充电时间;
Figure BDA00036720481100000710
为选中无线传感器节点的感知信息经由接入节点向远端射频拉远单元传输时间;C1、C2、C3、C4、C5和C6均为约束条件,C1为无线传感器节点向接入节点信息速率约束,B为传输带宽,αm为功率消耗比率0<αm<1,代表无线传感器节点收集到的能量部分用于感知信息回传,剩下部分用于自身损耗需要,PH,m为无线传感器节点单位时间接收到的功率,hm,n为无线传感器节点的感知信息向接入节点传输时的列车内信号传输上行链路信道增益,因考虑能量信息同传,所以引入下行信号作为干扰信号,pn,m为接入节点向无线传感器节点发射信号功率,hn,m为列车内信号传输下行链路信道增益,
Figure BDA00036720481100000711
为噪声功率,RA,min为最小速率约束;C2为接入节点远端传输信息速率约束,pn,s为接入节点发送信号的远端传输发射功率,hn,s为远端传输信道增益,
Figure BDA00036720481100000712
为噪声功率;C3为无线传感器节点能量约束,
Figure BDA00036720481100000713
为无线传感器节点所获能量,
Figure BDA00036720481100000714
为数据回传所需能量,
Figure BDA00036720481100000715
为自身电路所需能量;C4为接入节点工作限制,即接入节点最多同时只可与某一无线传感器节点交互,当接入节点与第m个无线传感器节点交互时,ψn,m∈{0,1}为1;C5为无线传感器节点工作限制,即任意无线传感器节点至多只可进行一次完整的数据传输工作,当第m个无线传感器节点完成工作时,
Figure BDA0003672048110000081
为1;C6为传输数据限制,即远程传输数据比率
Figure BDA0003672048110000082
不可超过接入节点数据收集比率
Figure BDA0003672048110000083
优选的,利用强化学习方法求解系统信息传输优化模型的具体过程为:
步骤31:采用分层强化学习方法将复杂任务分解为若干子任务,每个子任务对应作为一个接入节点任务,每个接入节点有其对应的联合深度神经网络与存储单元,利用马尔可夫决策过程构建各接入节点的状态集{Sn}n∈N、动作集{An}n∈N、奖励函数{Rn}n∈N与奖励折扣因子λ,以及构建基于联合深度神经网络的Double深度Q网络算法中的主网络与目标网络;
步骤32:根据各接入节点的状态集、动作集、奖励函数和奖励折扣因此进行状态更新,构建元组并存储至所述存储单元,利用所述元组对每个接入节点的联合深度神经网络进行训练,计算出损失函数对主网络参数进行更新,并采用软更新方法周期性利用主网络参数对目标网络参数更新;
步骤321:将当前接入节点的状态集中当前时刻状态与其余接入节点的状态集中当前时刻状态构成的状态集合输入至联合深度神经网络,利用ε-greedy算法对当前接入节点的动作集进行动作选择;
步骤322:当前接入节点依据所选动作进行状态更新,获得下一时刻状态,及根据奖励函数和奖励折扣因子计算状态转移所产生的奖励值;
步骤323:当所有接入节点状态更新完成后,将当前接入节点的当前时刻状态、下一时刻状态、对应动作、奖励值与其余接入节点的当前时刻状态、下一时刻状态合并成元组并送入存储单元进行经验存储,若存储单元已满,则利用最新存储的元组代替最早存储的元组;
步骤324:当存储单元已满,从存储单元随机选取若干元组利用Double深度Q网络算法进行联合深度神经网络训练,计算损失函数对主网络参数进行更新,并周期性利用主网络参数采用软更新方法对目标网络参数进行更新;Double深度Q网络算法主要包含两个网络,其一为主网络,其二为目标网络,这两个网络结构、初始参数完全相同,在每一轮更新训练中,该算法的两个网络将存储的元组中的不同元素作为输入,将输出进行计算形成损失值,并依据损失值对主网络的参数进行更新;主网络的参数在每一轮训练中都会更新,而目标网络的参数会隔特定训练轮次进行更新;
步骤33:重复步骤32过程,直至所有子任务对应的联合深度神经网络收敛,获得整体传输时间最小化的最优传输策略。
优选的,所述步骤31中利用马尔可夫决策过程构建接入节点状态集、动作集和奖励函数的各部分详情如下,
(1)状态集由5部分组成
Figure BDA0003672048110000091
其中,
S1为接入节点数据收集率:
Figure BDA0003672048110000092
其中,M为接入节点覆盖车厢固定区域内无线传感器节点数量;Ma为接入节点覆盖车辆邻接区域内无线传感器节点数量;
Figure BDA0003672048110000093
为当前时刻每个无线传感器节点的数据收集率,当该节点全部数据收集完毕时为1;
S2为各无线传感器节点剩余能量:
Figure BDA0003672048110000094
当无线传感器节点剩余能量无法支持感知与数据回传工作时,接入节点需要暂停当前任务对无线传感器节点进行充电;
Figure BDA0003672048110000095
为各无线传感器节点剩余能量情况;
S3为接入节点远端数据传输率:
Figure BDA0003672048110000096
其中,
Figure BDA0003672048110000097
为当前时刻每个无线传感器节点信息的数据远端传输率,当所选无线传感器节点数据全部远端传输完成时为1;
S4为距离最近的射频拉远单元的归一化距离:
Figure BDA0003672048110000098
其中,
Figure BDA0003672048110000099
为距离最近的三个射频拉远单元的归一化距离,接入节点每次越区切换都会选取距离最近的射频拉远单元作为远端传输目的节点以最大化传输速率而降低传输所需时间;
S5为状态控制位:
Figure BDA00036720481100000910
其中,
Figure BDA0003672048110000101
为无线传感器节点能量补充控制位,当无线传感器节点剩余能量无法支撑其完成感知工作与感知信息回传时
Figure BDA0003672048110000102
为1,接入节点暂停当前任务为无线传感器节点传输能量信号进行充电,其余情况
Figure BDA0003672048110000103
为0;
Figure BDA0003672048110000104
为接入节点越区切换控制位,当接入节点下一时刻与当前时刻距离最近的射频拉远单元不同时
Figure BDA0003672048110000105
为1,接入节点需先进行越区切换选取距离最近射频拉远单元后可继续信息传输,其余情况
Figure BDA0003672048110000106
为0;
Figure BDA0003672048110000107
为接入节点所选无线传感器节点完成数据收集与远端传输任务,当需要选择一个新的无线传感器节点执行任务时
Figure BDA0003672048110000108
为1,其余情况为0;
(2)动作集由4部分组成
Figure BDA0003672048110000109
需要说明的是接入节点每次只能选择一个动作执行,即动作集中只可有一位为1,其余为0,其中,
A1为接入节点数据收集动作:
Figure BDA00036720481100001010
其中,
Figure BDA00036720481100001011
为1时代表对应无线传感器节点被选择进行数据收集任务;
A2为接入节点数据远端传输动作:
Figure BDA00036720481100001012
其中,
Figure BDA00036720481100001013
为1时代表对应无线传感器节点的感知信息被选择进行远端传输,需要说明的是由于信息收集阶段传输速率相对固定,而远端传输速率在传输信号选定时与传输距离相关,且远端传输比率不可超过信息收集比率,则会出现接入节点仍留有所选无线传感器节点剩余收集信息存储状况,在远端传输速率大于信息收集速率时,可额外传输接入节点存储信息,进一步需要说明的是只有当接入节点完成数据收集且留有剩余存储信息情况下远端传输动作才可被选中执行;
A3∈{0,1}为接入节点为无线传感器节点充电动作,当无线传感器节点需要进行能量补充时A3为1;
Figure BDA00036720481100001014
为接入节点越区切换动作,其中
Figure BDA00036720481100001015
当需要进行越区切换时,3个距离最近的射频拉远单元作为候选目标,当被选中用于远端传输时为1。
(3)奖励集由5部分组成
Figure BDA0003672048110000111
在第n个接入节点执行完动作后的整体奖励可表示为:
Figure BDA0003672048110000112
其中,
Figure BDA0003672048110000113
为能量奖励,即无线传感器节点能量不足时予以惩罚,
Figure BDA0003672048110000114
为惩罚因子,当被选中的第m个无线传感器节点能量不足时为1,其余情况为0,
Figure BDA0003672048110000115
为负值常量;
Figure BDA0003672048110000116
为数据收集奖励,即所选无线传感器节点完成数据收集后被重复选中收集数据时予以惩罚,
Figure BDA0003672048110000117
为惩罚因子,当被选中的第m个无线传感器节点已经完成数据收集任务时为1,其余情况为0,
Figure BDA0003672048110000118
为负值常量;
Figure BDA0003672048110000119
为数据远端传输奖励,即所选无线传感器节点的感知信息完成远端传输后被重复选中数据远端传输时予以惩罚,
Figure BDA00036720481100001110
为惩罚因子,当被选中的第m个无线传感器节点已经完成远端传输任务时为1,其余情况为0,
Figure BDA00036720481100001111
为负值常量;
Figure BDA00036720481100001112
为越区切换奖励,即第n个接入节点需越区切换而未进行越区切换任务时予以惩罚,
Figure BDA00036720481100001113
为惩罚因子,当第n个接入节点需越区切换而未进行越区切换任务时为1,其余情况为0,
Figure BDA00036720481100001114
为负值常量;Rtime为时间奖励,即所有接入节点完成任务时将整体运行时间作为惩罚值加入,当整体任务完成时
Figure BDA00036720481100001115
为1;
时间奖励Rtime可表示为:
Figure BDA00036720481100001116
其中,ψtime为负值常量,ttotal,n为每个接入节点完成任务的时间。
优选的,构建的联合深度神经网络可同时将对应的当前接入节点与其余接入节点的当前状态作为状态集合共同输入进行动作选择;该网络分为两部分,第一部分以神经网络为基础设计联合神经网络,将该网络所属接入节点当前状态作为主要输入,经神经元数量为64,激活函数采用ReLU函数隐藏层后输出;同时将其余接入节点作为辅输入,分别经过相同结构隐藏层后输出,进行加权求和,表示为:
Figure BDA00036720481100001117
其中,ht为其余接入节点当前状态输入至各自联合深度神经网络进行加权求和后所得输出,即其余接入节点的当前状态输入各自联合深度神经网络中后获得各自输出,将各自输出依据k值进行加权求和,并经过激活函数后获得ht;f(·)为ReLU激活函数,
Figure BDA0003672048110000121
为各状态神经网络对应权重;bj为偏置量;
Figure BDA0003672048110000122
为输入状态;
Figure BDA0003672048110000123
为各接入节点状态比率,可表示为:
Figure BDA0003672048110000124
其中,ln、lj、lm代表各接入节点所在位置;exp(·)为e指数函数,因此
Figure BDA00036720481100001214
与各接入节点相对距离相关,将所属接入节点网络输出与其余接入节点网络输出合并后作为整体输出;
第二部分采用深度神经网络,以第一部分输出作为输入层,经神经元数量分别为256,512,1024,512,256,128,64,激活函数采用ReLU函数的隐藏层后由输出层输出动作集维度的向量。
优选的,所述步骤323的网络训练,由于采用分层强化学习且各接入节点所包含无线传感器节点数量不同,其输入状态空间维度与输出动作空间维度皆不同,所以每个接入节点包含各自所属主网络与目标网络,网络训练过程采用Double深度Q网络算法进行训练,其损失函数具体内容包括:
Figure BDA0003672048110000125
其中,Rn为第n个接入节点执行完动作后获得的奖励值;λ为奖励值折扣因子;
Figure BDA0003672048110000126
代表目标网络输出的Q值;
Figure BDA0003672048110000127
代表主网络输出的Q值;
Figure BDA0003672048110000128
为输入到网络中的状态集合,包括第n个接入节点执行动作前状态、上一时刻状态与其余接入节点的当前动作状态与上一时刻状态;
Figure BDA0003672048110000129
为第n个接入节点所执行的动作;ωn为第n个接入节点主网络参数;ωn'为第n个接入节点目标网络参数;在求得损失函数后可对主网络参数进行更新,则有
Figure BDA00036720481100001210
其中,
Figure BDA00036720481100001211
为更新后主网络参数;
Figure BDA00036720481100001212
为更新前主网络参数;η为学习率,
Figure BDA00036720481100001213
为损失函数梯度;
依据软更新方法周期性对目标网络参数进行更新,则有
Figure BDA0003672048110000131
其中,
Figure BDA0003672048110000132
为更新后目标网络参数;μ∈[0,1]为更新比率;
Figure BDA0003672048110000133
为更新前目标网络参数;ωn为主网络参数。
基于强化学习的高铁隧道场景下无线感知系统信息传输过程为:
步骤1:接入节点向无线传感器节点传输能量和信息,无线传感器节点接收到能量信号后被唤醒,进行信息感知工作,将感知数据利用所获能量回传至接入节点;
在车厢固定区域内无线传感器节点由管辖该区域的接入节点固定传输,而邻接区域的无线传感器节点可由相邻车厢的任一接入节点进行传输,故为最小化整体传输时间,每一接入节点会依据信道状态、信息传输速率等因素进行无线传感器节点选择,形成最优传输策略;
步骤2:接入节点接收到感知数据后利用隧道内铺设泄漏电缆开始进行远端数据传输至射频拉远单元,且实时注意越区切换选取距离最近射频拉远单元进行数据传输;
邻接区域无线传感器节点状态可被邻接车厢接入节点信息共享,且各接入节点采用时分复用方式进行远端传输,彼此间不会产生干扰,即在整体时间内各接入节点进行信息收集,在各自时隙内将收集信息进行远端传输。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种高速轨道客车的无线感知系统信息传输方法,针对高铁隧道场景下单接入节点传输系统中效率低下、远端通信损耗严重等问题,提出了强化学习方法利用多接入节点对无线传感器节点进行合理调度分配,提出固定区域与邻接区域网络覆盖方式,提高整体系统传输效率,降低传输时间。本发明充分考虑了高铁隧道场景下的车内与远端传输因素,所构建的系统模型更加准确。此外,本发明充分利用接入节点射频信号的能量为无线传感器节点充电,最大限度地提高了网络能量效率。本发明所述技术可广泛应用于高速铁路隧道运行场景下,具有较强的实际应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种高速轨道客车的无线感知系统信息传输示意图;
图2为本发明提供的高铁隧道场景下无线感知系统信息传输示意图;
图3为本发明提供的高铁隧道场景下无线感知系统无线传感器节点分布示意图;
图4为本发明提供的高铁隧道场景下无线感知系统传输协议示意图;
图5为本发明提供的联合深度神经网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种高速轨道客车的无线感知系统信息传输方法,如图1所示,包括以下具体内容:
1、构建高铁隧道场景下无线感知系统架构,设计接入节点与传感器组网分布以及系统能量与信息传输协议;高铁隧道场景下无线感知系统如图2所示;传感器组网分布如图3所示;
2、对列车内部无线信息传输与远端无线信息传输过程进行数学表述,分析各传感器节点能量接收性能与各接入节点信息收发性能;
3、针对高铁隧道场景下无线感知系统信息传输进行优化问题设计,利用强化学习方法进行求解,获得最小传输时间下的最优传输策略。
本发明步骤1主要内容:
(1)组网过程
N个接入节点预先布置在各个车厢处,列车整体共包含K个无线传感器,每个感知网络包括一个接入节点与M+Ma个无线传感器节点,其中M为车厢内部固定区域所含无线传感器节点数量,Ma为车厢邻接处无线传感器节点数量,这些传感器可被邻接车厢的任一接入节点进行充电、信息收集与传输任务;各个接入节点根据信道状态对传感器节点实现调度,利用能量信号激活传感器节点且为其补充能量,传感器节点利用捕获能量回传感知信息数据,接入节点接收到数据后利用隧道内铺设泄漏电缆远端传输至射频拉远单元。
(2)时隙分配
在信息收集阶段,每个接入节点在非分配时隙内发射能量信号至传感器节点对其激活与补充能量,之后传感器节点利用捕获能量将感知信息数据回传至接入节点,由于每个感知网络至多同时只可进行一个传感器信息传输工作,所以各个网络内间不会产生干扰。在远端传输节点,每个接入节点在各自分配时隙内将所接收的感知信息数据远端传输至射频拉远单元。
本发明步骤2主要内容:
(1)信息收集信道模型
参考基于传播损耗、阴影效应与多径反射的视距与非视距路径损耗模型,车厢内部传输的信道增益可表述为:
Figure BDA0003672048110000151
(2)远端传输信道模型
参考基于高铁隧道内泄漏电缆的路径损耗模型,远端传输的信道增益可表述为:
Figure BDA0003672048110000152
(3)传感器能量收集量分析
能量收集模型可表示为线性函数,由于噪声功率较小,在能量收集中不做考虑,能量收集门限由传感器电路结构而定,则单位时间内无线传感器节点收集到的功率为:
Figure BDA0003672048110000153
(4)接入节点信息收集速率分析
在接入节点信息收集阶段,无线传感器节点依据接入节点发射信号功率进行能量收集后,利用部分收集能量回传感知信息数据,由于引入能量信息同传技术,所以信息收集速率引入能量信号干扰与噪声进行分析,基于香农信息公式可得上行链路信息传输速率为
Figure BDA0003672048110000161
(5)远端通信信息传输速率分析
在远端通信信息传输阶段,接入节点利用隧道内铺设泄漏电缆将感知信息数据传输至远端射频拉远单元,由于采用2T2R线缆配置模型且利用不同时隙对不同接入节点进行传输,所以彼此间不会产生干扰,则基于香农信息公式可得远端传输上行链路信息传输速率为
Figure BDA0003672048110000162
本发明步骤3主要内容:
(1)总体优化问题构建
在保证接入节点数据收集与远程数据传输吞吐量的约束下,且保证传感器节点能量充足,单网络内同时至多只可进行一个无线传感器节点的传输时,利用强化学习方法对整体传输时间进行优化,以获得系统整体最小传输时间,可构建总体优化问题为:
Figure BDA0003672048110000163
Figure BDA0003672048110000164
Figure BDA0003672048110000165
Figure BDA0003672048110000166
Figure BDA0003672048110000167
Figure BDA0003672048110000168
Figure BDA0003672048110000169
(2)马尔可夫决策过程问题构建
马尔可夫决策过程构建接入节点状态集、动作集、奖励值各部分详情如下,状态集由接入节点数据收集率S1、传感器节点剩余能量S2、接入节点远端数据传输率S3、射频拉远单元的归一化距离S4和状态控制位S5共5部分组成
Figure BDA0003672048110000171
动作集由接入节点数据收集动作A1、接入节点数据远端传输动作A2、传感器充电动作A3与接入节点越区切换动作A4共4部分组成
Figure BDA0003672048110000172
奖励集由能量收集奖励RE、数据收集奖励RC、数据远端传输奖励RT、越区切换奖励RP和时间奖励Rtime共5部分组成
Figure BDA0003672048110000173
Figure BDA0003672048110000174
(3)联合神经网络构建
设计的联合深度神经网络同时将当前接入节点与其余接入节点的当前状态作为状态集合共同输入进行动作选择;该网络分为两部分,第一部分以神经网络为基础设计联合神经网络,将该网络所属接入节点当前状态作为主要输入,经神经元数量为64,激活函数采用ReLU函数隐藏层后输出;同时将其余接入节点作为辅输入,分别经过相同结构隐藏层后输出,进行加权求和,并将所属接入节点网络输出与其余接入节点网络输出合并后作为整体输出。第二部分结构以第一部分输出作为输入层,经神经元数量分别为256,512,1024,512,256,128,64,激活函数采用ReLU函数的隐藏层后由输出层输出动作集维度的向量。
(4)分层强化学习网络训练过程构建
分层强化学习将复杂任务分解为若干子任务,每个接入节点负责完成一个子任务且每个接入节点拥有各自的网络模型,网络训练过程采用Double深度Q网络算法进行训练,其损失函数为
Figure BDA0003672048110000175
在求得损失函数后可对主网络参数进行更新,则有
Figure BDA0003672048110000176
且依据软更新方法周期性对目标网络参数进行更新,则有
Figure BDA0003672048110000177
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种高速轨道客车无线感知系统信息传输方法,其特征在于,包括以下具体步骤:
步骤1:构建高铁隧道场景下无线感知系统,确定接入节点与无线传感器节点组网分布,以及能量与信息传输协议;
步骤2:根据接入节点与无线传感器节点组网分布构建列车内部信息收集信道模型和远端传输信道模型,获得各无线传感器节点能量接收性能与各接入节点信息收发性能;
步骤3:根据各无线传感器节点能量接收性能和各接入节点信息收发性能构建系统信息传输优化模型,并利用强化学习方法求解,获得最小传输时间下的最优传输策略;
步骤4:无线感知系统采用最优传输策略传输能量与信息。
2.根据权利要求1所述的一种高速轨道客车无线感知系统信息传输方法,其特征在于,所述无线感知系统进行充电、信息收集与传输任务的过程为:当需要进行感知时,各车厢所设接入节点首先依据调度策略进行无线传感器节点选择,对选中的无线传感器节点进行无线能量传输与无线信息传输,无线传感器节点利用接收到的信号进行充电与信息感知;无线传感器节点将感知信息回传至所属车厢的接入节点,接入节点将收集到的感知信息利用隧道内部泄漏电缆远端传输至射频拉远单元。
3.根据权利要求1所述的一种高速轨道客车的无线感知系统信息传输方法,其特征在于,采用视距与非视距结合的路径损耗模型作为信息收集信道模型,表达式为:
Figure FDA0003672048100000011
其中,
Figure FDA0003672048100000012
为空间传播损耗;ηLoS、ηNLoS、a和b为与列车环境相关的常数;fnm为发射信号中心频率;c为光速;dnm为接入节点与所选无线传感器节点的距离;θn,m为立体角度差;
dnm与θn,m分别表示为:
Figure FDA0003672048100000013
Figure FDA0003672048100000014
其中,(xn,yn,zn)为接入节点三维坐标,(xm,ym,zm)为无线传感器节点三维坐标,因此列车内信号传输下行链路信道增益为:
Figure FDA0003672048100000021
4.根据权利要求3所述的一种高速轨道客车的无线感知系统信息传输方法,其特征在于,利用泄漏电缆实现信息远端传输,采用路径损耗模型作为远端传输信道模型,表达式为:
Figure FDA0003672048100000022
其中,
Figure FDA0003672048100000023
为接口插入损耗;
Figure FDA0003672048100000024
为泄漏电缆传输损耗,该损耗与信号频率、漏缆尺寸与传输距离相关;
Figure FDA0003672048100000025
为为泄漏电缆耦合损耗;
Figure FDA0003672048100000026
为宽度因子;
Figure FDA0003672048100000027
为快衰落余量;远端传输信道增益为:
Figure FDA0003672048100000028
5.根据权利要求4所述的一种高速轨道客车的无线感知系统信息传输方法,其特征在于,根据列车内信号传输下行链路信道增益计算无线传感器节点能量收集量,具体过程为:
无线传感器节点接收到来自接入节点的能量信号后开始为自身充电并进行感知工作,采用无线传感器节点自身的线性能量收集模型实现无线传感器节点能量收集,则在单位时间无线传感器节点收集的功率表示为
Figure FDA0003672048100000029
其中,ξm∈(0,1]为转换系数;pn,m为接入节点发射信号功率;hn,m为列车内信号传输下行链路信道增益;Pth为可被无线传感器节点能量收集的功率峰值,当可接收功率小于峰值时,按接收功率进行能量补充,大于峰值时,按峰值进行能量补充;
根据列车内信号传输下行链路信道增益计算接入节点信息收集速率分析,具体过程为:
在接入节点信息收集阶段,接入节点发射信号激活所选无线传感器节点进行感知工作,并利用收集到能量对感知信息进行回传至接入节点,由于在信息收集阶段每个接入节点同时只可与一个无线传感器节点交互,无线传感器节点上行链路回传信号表示为:
Figure FDA00036720481000000210
其中,ym,n为接入节点接收信号;αm∈(0,1)为传输比率,在无线传感器节点接收到的功率中,部分功率αmPH,m用于信号回传,剩余功率留存,用于电路损耗;hm,n为列车内信号传输上行链路信道增益,由于无线传感器节点与接入节点相对静止,所以信道增益视为恒定且hm,n=hn,m;xm为无线传感器节点回传携带感知信息的信号;nm,n为服从复高斯分布
Figure FDA0003672048100000037
的噪声;信息收集速率引入能量信号干扰进行分析,基于香农信息公式可得上行链路信息传输速率为:
Figure FDA0003672048100000031
其中,B为信道带宽,
Figure FDA0003672048100000032
为接入节点接收信号信干噪比;
根据远端传输信道增益计算远端通信信息传输速率,具体过程为:
在接入节点接收到来自无线传感器节点传输的感知信息后与远端射频拉远单元建立链路,将感知信息利用泄漏电缆上行链路进行传输,由于泄漏电缆上下行链路采用不同漏缆进行传输,且不同车厢的接入节点利用不同时隙进行数据传输,射频拉远单元接收信号表示为:
Figure FDA0003672048100000033
其中,yn,s为远端射频拉远单元接收信号;pn,s为接入节点远端传输发射功率;hn,s为远端传输信道增益;xn为接入节点远端传输携带感知信息的信号;nn,s为服从复高斯分布
Figure FDA0003672048100000034
的噪声;
基于香农信息公式得到远端传输信息传输速率为:
Figure FDA0003672048100000035
其中,B为信道带宽;
Figure FDA0003672048100000036
为接收端射频拉远单元接收信号信噪比。
6.根据权利要求5所述的一种高速轨道客车的无线感知系统信息传输方法,其特征在于,系统信息传输优化模型为:
Figure FDA0003672048100000041
Figure FDA0003672048100000042
Figure FDA0003672048100000043
Figure FDA0003672048100000044
Figure FDA0003672048100000045
Figure FDA0003672048100000046
Figure FDA0003672048100000047
其中,N为列车内接入节点数量;Mn为一个接入节点覆盖区域内无线传感器节点数量;
Figure FDA0003672048100000048
为选中无线传感器节点向接入节点传输数据时间;
Figure FDA0003672048100000049
为接入节点为无线传感器节点充电时间;
Figure FDA00036720481000000410
为选中无线传感器节点的感知信息经由接入节点向远端射频拉远单元传输时间;C1、C2、C3、C4、C5和C6均为约束条件,C1为无线传感器节点向接入节点信息速率约束,B为传输带宽,αm为功率消耗比率0<αm<1,代表无线传感器节点收集到的能量部分用于感知信息回传,剩下部分用于自身损耗需要,PH,m为无线传感器节点单位时间接收到的功率,hm,n为无线传感器节点的感知信息向接入节点传输时的列车内信号传输上行链路信道增益,考虑能量信息同传,引入下行信号作为干扰信号,pn,m为接入节点向无线传感器节点发射信号功率,hn,m为列车内信号传输下行链路信道增益,
Figure FDA00036720481000000411
为噪声功率,RA,min为最小速率约束;C2为接入节点远端传输信息速率约束,pn,s为接入节点远端传输发射功率,hn,s为远端传输信道增益,
Figure FDA00036720481000000412
为噪声功率;C3为无线传感器节点能量约束,
Figure FDA00036720481000000413
为无线传感器节点所获能量,
Figure FDA00036720481000000414
为数据回传所需能量,
Figure FDA00036720481000000415
为自身电路所需能量;C4为接入节点工作限制,即接入节点最多同时只可与一个无线传感器节点交互,当接入节点与第m个无线传感器节点交互时,ψn,m∈{0,1}为1;C5为无线传感器节点工作限制,即任意无线传感器节点至多只可进行一次完整的数据传输工作,当第m个无线传感器节点完成工作时,
Figure FDA00036720481000000416
为1;C6为传输数据限制,即远程传输数据比率
Figure FDA0003672048100000051
不可超过接入节点数据收集比率
Figure FDA0003672048100000052
7.根据权利要求1所述的一种高速轨道客车的无线感知系统信息传输方法,其特征在于,利用强化学习方法求解系统信息传输优化模型的具体过程为:
步骤31:采用分层强化学习方法将复杂任务分解为若干子任务,每个子任务对应作为一个接入节点任务,每个接入节点有其对应的联合深度神经网络与存储单元,利用马尔可夫决策过程构建各接入节点的状态集{Sn}n∈N、动作集{An}n∈N、奖励函数{Rn}n∈N与奖励折扣因子λ,以及构建基于联合深度神经网络的Double深度Q网络算法中的主网络与目标网络;
步骤32:根据各接入节点的状态集、动作集、奖励函数和奖励折扣因此进行状态更新,构建元组并存储至所述存储单元,利用所述元组对每个接入节点的联合深度神经网络进行训练,计算出损失函数对主网络参数进行更新,并采用软更新方法周期性利用主网络参数对目标网络参数更新;
步骤321:将当前接入节点的状态集中当前时刻状态与其余接入节点的状态集中当前时刻状态构成的状态集合输入至联合深度神经网络,利用ε-greedy算法对当前接入节点的动作集进行动作选择;
步骤322:当前接入节点依据所选动作进行状态更新,获得下一时刻状态,及根据奖励函数和奖励折扣因子计算状态转移所产生的奖励值;
步骤323:当所有接入节点状态更新完成后,将当前接入节点的当前时刻状态、下一时刻状态、对应动作、奖励值与其余接入节点的当前时刻状态、下一时刻状态合并成元组并送入存储单元进行经验存储,若存储单元已满,则利用最新存储的元组代替最早存储的元组;
步骤324:当存储单元已满,从存储单元随机选取若干元组利用Double深度Q网络算法进行联合深度神经网络训练,计算损失函数对主网络参数进行更新,并周期性利用主网络参数采用软更新方法对目标网络参数进行更新;
步骤33:重复步骤32过程,直至所有子任务对应的联合深度神经网络收敛,获得整体传输时间最小化的最优传输策略。
8.根据权利要求7所述的一种高速轨道客车的无线感知系统信息传输方法,其特征在于,所述步骤31中利用马尔可夫决策过程构建接入节点状态集、动作集和奖励函数的具体过程为:
状态集由5部分组成
Figure FDA0003672048100000061
其中,
S1为接入节点数据收集率:
Figure FDA0003672048100000062
其中,M为接入节点覆盖车厢固定区域内无线传感器节点数量;Ma为接入节点覆盖车辆邻接区域内无线传感器节点数量;
Figure FDA0003672048100000063
为当前时刻每个无线传感器节点的数据收集率,当该无线传感器节点全部数据收集完毕时为1;
S2为各无线传感器节点剩余能量:
Figure FDA0003672048100000064
当无线传感器节点剩余能量无法支持感知与数据回传工作时,接入节点需要暂停当前任务对无线传感器节点进行充电;
Figure FDA0003672048100000065
为各无线传感器节点剩余能量情况;
S3为接入节点远端数据传输率:
Figure FDA0003672048100000066
其中,
Figure FDA0003672048100000067
为当前时刻每个无线传感器节点信息的数据远端传输率,当所选无线传感器节点数据全部远端传输完成时为1;
S4为距离最近的射频拉远单元的归一化距离:
Figure FDA0003672048100000068
其中,
Figure FDA0003672048100000069
为距离最近的三个射频拉远单元的归一化距离,接入节点每次越区切换都会选取距离最近的射频拉远单元作为远端传输目的节点以最大化传输速率而降低传输所需时间;
S5为状态控制位:
Figure FDA00036720481000000610
其中,
Figure FDA00036720481000000611
为无线传感器节点能量补充控制位,当无线传感器节点剩余能量无法支撑其完成感知工作与感知信息回传时
Figure FDA00036720481000000612
为1,接入节点暂停当前任务为无线传感器节点传输能量信号进行充电,其余情况
Figure FDA00036720481000000613
为0;
Figure FDA00036720481000000614
为接入节点越区切换控制位,当接入节点下一时刻与当前时刻距离最近的射频拉远单元不同时
Figure FDA0003672048100000071
为1,接入节点需先进行越区切换选取距离最近射频拉远单元后继续信息传输,其余情况
Figure FDA0003672048100000072
为0;
Figure FDA0003672048100000073
为接入节点所选无线传感器节点完成数据收集与远端传输任务,当需要选择一个新的无线传感器节点执行任务时
Figure FDA0003672048100000074
为1,其余情况为0;
动作集由4部分组成
Figure FDA0003672048100000075
需要说明的是接入节点每次只能选择一个动作执行,即动作集中只可有一位为1,其余为0,其中,
A1为接入节点数据收集动作:
Figure FDA0003672048100000076
其中,
Figure FDA0003672048100000077
为1时代表对应无线传感器节点被选择进行数据收集任务;
A2为接入节点数据远端传输动作:
Figure FDA0003672048100000078
其中,
Figure FDA0003672048100000079
为1时代表对应无线传感器节点的感知信息被选择进行远端传输,在远端传输速率大于信息收集速率时,额外传输接入节点存储信息,只有当接入节点完成数据收集且留有剩余存储信息情况下远端传输动作才被选中执行;
A3∈{0,1}为接入节点为无线传感器节点充电动作,当无线传感器节点需要进行能量补充时A3为1;
Figure FDA00036720481000000710
为接入节点越区切换动作,其中
Figure FDA00036720481000000711
当需要进行越区切换时,3个距离最近的射频拉远单元作为候选目标,当被选中用于远端传输时为1。
奖励集由5部分组成
Figure FDA00036720481000000712
在第n个接入节点执行完动作后的整体奖励可表示为:
Figure FDA00036720481000000713
其中,
Figure FDA00036720481000000714
为能量奖励,即无线传感器节点能量不足时予以惩罚,
Figure FDA00036720481000000715
为惩罚因子,当被选中的第m个无线传感器节点能量不足时为1,其余情况为0,
Figure FDA00036720481000000716
为负值常量;
Figure FDA00036720481000000717
为数据收集奖励,即所选无线传感器节点完成数据收集后被重复选中收集数据时予以惩罚,
Figure FDA00036720481000000718
为惩罚因子,当被选中的第m个无线传感器节点已经完成数据收集任务时为1,其余情况为0,
Figure FDA0003672048100000081
为负值常量;
Figure FDA0003672048100000082
为数据远端传输奖励,即所选无线传感器节点的感知信息完成远端传输后被重复选中数据远端传输时予以惩罚,
Figure FDA0003672048100000083
为惩罚因子,当被选中的第m个无线传感器节点已经完成远端传输任务时为1,其余情况为0,
Figure FDA0003672048100000084
为负值常量;
Figure FDA0003672048100000085
为越区切换奖励,即第n个接入节点需越区切换而未进行越区切换任务时予以惩罚,
Figure FDA0003672048100000086
为惩罚因子,当第n个接入节点需越区切换而未进行越区切换任务时为1,其余情况为0,
Figure FDA0003672048100000087
为负值常量;Rtime为时间奖励,即所有接入节点完成任务时将整体运行时间作为惩罚值加入,当整体任务完成时
Figure FDA0003672048100000088
为1;
时间奖励Rtime表示为:
Figure FDA0003672048100000089
其中,ψtime为负值常量,ttotal,n为每个接入节点完成任务的时间。
9.根据权利要求7所述的一种高速轨道客车的无线感知系统信息传输方法,其特征在于,构建的联合深度神经网络同时将对应的当前接入节点与其余接入节点的当前状态作为状态集合共同输入进行动作选择;联合深度神经网络分为两部分,第一部分以神经网络为基础构建联合神经网络,将联合深度神经网络所属接入节点当前状态作为主要输入,经神经元数量为64,激活函数采用ReLU函数隐藏层后输出;同时将其余接入节点作为辅输入,分别经过相同结构隐藏层后输出,进行加权求和,表示为:
Figure FDA00036720481000000810
其中,ht为其余接入节点当前状态输入至各自联合深度神经网络进行加权求和后所得输出;f(·)为ReLU激活函数,
Figure FDA00036720481000000811
为各状态神经网络对应权重;bj为偏置量;
Figure FDA00036720481000000812
为输入状态;
Figure FDA00036720481000000813
为各接入节点状态比率,表示为:
Figure FDA00036720481000000814
其中,ln、lj、lm代表各接入节点所在位置;exp(·)为e指数函数,因此
Figure FDA0003672048100000091
与各接入节点相对距离相关,将所属接入节点网络输出与其余接入节点网络输出合并后作为整体输出;
第二部分采用深度神经网络,以第一部分输出作为输入层,经神经元数量分别为256,512,1024,512,256,128,64,激活函数采用ReLU函数的隐藏层后由输出层输出动作集维度的向量。
10.根据权利要求7所述的一种高速轨道客车的无线感知系统信息传输方法,其特征在于,所述步骤323的网络训练过程中,由于采用分层强化学习且各接入节点所包含无线传感器节点数量不同,其输入状态空间维度与输出动作空间维度皆不同,所以每个接入节点包含各自所属主网络与目标网络,网络训练过程采用Double深度Q网络算法进行训练,其损失函数具体内容包括:
Figure FDA0003672048100000092
其中,Rn为第n个接入节点执行完动作后获得的奖励值;λ为奖励值折扣因子;
Figure FDA0003672048100000093
代表目标网络输出的Q值;
Figure FDA0003672048100000094
代表主网络输出的Q值;
Figure FDA0003672048100000095
为输入到网络中的状态集合,包括第n个接入节点执行动作前状态、上一时刻状态与其余接入节点的当前动作状态与上一时刻状态;
Figure FDA0003672048100000096
为第n个接入节点所执行的动作;ωn为第n个接入节点主网络参数;ωn′为第n个接入节点目标网络参数;在求得损失函数后对主网络参数进行更新,则有
Figure FDA0003672048100000097
其中,
Figure FDA0003672048100000098
为更新后主网络参数;
Figure FDA0003672048100000099
为更新前主网络参数;η为学习率,
Figure FDA00036720481000000910
为损失函数梯度;
依据软更新方法周期性对目标网络参数进行更新,则有
Figure FDA00036720481000000911
其中,
Figure FDA00036720481000000912
为更新后目标网络参数;μ∈[0,1]为更新比率;
Figure FDA00036720481000000913
为更新前目标网络参数;ωn为主网络参数。
CN202210611231.0A 2022-05-31 2022-05-31 一种高速轨道客车无线感知系统信息传输方法 Pending CN115086915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210611231.0A CN115086915A (zh) 2022-05-31 2022-05-31 一种高速轨道客车无线感知系统信息传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210611231.0A CN115086915A (zh) 2022-05-31 2022-05-31 一种高速轨道客车无线感知系统信息传输方法

Publications (1)

Publication Number Publication Date
CN115086915A true CN115086915A (zh) 2022-09-20

Family

ID=83248834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210611231.0A Pending CN115086915A (zh) 2022-05-31 2022-05-31 一种高速轨道客车无线感知系统信息传输方法

Country Status (1)

Country Link
CN (1) CN115086915A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116800545A (zh) * 2023-08-24 2023-09-22 天津致新轨道交通运营有限公司 一种地铁通讯数据传输方法及系统
CN117119588A (zh) * 2023-10-18 2023-11-24 湖南承希科技有限公司 一种基于Wi-Fi6技术实现车辆在轨道停车场内的定位方法
WO2024092821A1 (zh) * 2022-11-04 2024-05-10 北京小米移动软件有限公司 终端设备的发现激活方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024092821A1 (zh) * 2022-11-04 2024-05-10 北京小米移动软件有限公司 终端设备的发现激活方法和装置
CN116800545A (zh) * 2023-08-24 2023-09-22 天津致新轨道交通运营有限公司 一种地铁通讯数据传输方法及系统
CN116800545B (zh) * 2023-08-24 2023-10-20 天津致新轨道交通运营有限公司 一种地铁通讯数据传输方法及系统
CN117119588A (zh) * 2023-10-18 2023-11-24 湖南承希科技有限公司 一种基于Wi-Fi6技术实现车辆在轨道停车场内的定位方法
CN117119588B (zh) * 2023-10-18 2024-01-12 湖南承希科技有限公司 一种基于Wi-Fi6技术实现车辆在轨道停车场内的定位方法

Similar Documents

Publication Publication Date Title
CN115086915A (zh) 一种高速轨道客车无线感知系统信息传输方法
CN109803344B (zh) 一种无人机网络拓扑及路由联合构建方法
Hua et al. 3D UAV trajectory and communication design for simultaneous uplink and downlink transmission
Hu et al. Reinforcement learning for decentralized trajectory design in cellular UAV networks with sense-and-send protocol
Zhang et al. RIS-aided next-generation high-speed train communications: Challenges, solutions, and future directions
CN113543074B (zh) 一种基于车路云协同的联合计算迁移和资源分配方法
CN112383922B (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
Wang et al. Cell-less communications in 5G vehicular networks based on vehicle-installed access points
CN104734372A (zh) WRSNs中联合地理位置路由的能量自适应充电方法
CN110636523B (zh) 一种基于q学习的毫米波移动回程链路能量效率稳定方案
CN104539374A (zh) 基于水面传感网-水声传感网的混合组网方法
Shi et al. Multi-agent deep reinforcement learning for massive access in 5G and beyond ultra-dense NOMA system
Zhao et al. Intelligent resource allocation for train-to-train communication: A multi-agent deep reinforcement learning approach
Muralidharan et al. Energy optimal distributed beamforming using unmanned vehicles
CN113453358B (zh) 一种无线携能d2d网络的联合资源分配方法
US20230196119A1 (en) Self-powered integrated sensing and communication interactive method of high-speed railway based on hierarchical deep reinforcement learning
CN111526499B (zh) 基于在线学习和毫米波束选择的车载终端通信方法
CN105490795A (zh) 基于协作传输技术的移动式无线网络节点一维部署方法
CN113612557B (zh) 无人机蜂群多微蜂窝频谱资源管理方法
Dai et al. Multi-objective intelligent handover in satellite-terrestrial integrated networks
CN114205769A (zh) 基于无人机数据采集系统的联合轨迹优化与带宽分配方法
Su et al. Cooperative relaying and power control for UAV-assisted vehicular networks with deep Q-network
CN117460034A (zh) 一种智能反射面中继辅助的车联网功率分配和用户调度方法、系统、设备及介质
CN116980028A (zh) 一种基于星地融合网络的用户终端网络切换接入方法
CN116321197B (zh) 一种应用于偏远环境密集监测网络的能量自维持调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination