CN115086915A

CN115086915A - 一种高速轨道客车无线感知系统信息传输方法

Info

Publication number: CN115086915A
Application number: CN202210611231.0A
Authority: CN
Inventors: 胡封晔; 刘坦炟; 凌壮; 李海龙; 李志军; 那顺乌力吉; 王华伟; 张艳明; 李聪; 关吉瑞
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-20

Abstract

本发明公开了一种高速轨道客车无线感知系统信息传输方法，包括：构建多接入节点的无线感知系统架构，系统中每个车厢包含一个接入节点与多个无线传感器，各传感器与接入节点建立连接实现能量收集与信息传输，各接入节点接收到来自传感器的数据后进行远端通信将数据传输至隧道内所设射频拉远单元；设计了基于强化学习的系统能量与信息传输协议，求解系统最优配置，获得最优传输策略，最小化整体传输时间。本发明针对高铁隧道场景下单接入节点传输系统中效率低下、远端通信损耗严重等现状，首次提出多接入节点自主协同传输条件下的传输策略，同时为强化学习方法设计联合深度神经网络，提供了可靠的优化方法。

Description

一种高速轨道客车无线感知系统信息传输方法

技术领域

本发明涉及高速轨道客车感知通信技术领域，更具体的说是涉及一种高速轨道客车的无线感知系统信息传输方法。

背景技术

近年来高速铁路技术的高速发展，离不开先进的通信技术的支持。随着物联网众多新业务的蓬勃发展，实时通信需求和数据传输量呈现爆炸式增长，高铁通信逐渐走向智能化，未来列车的监测系统、控制系统、动力系统都会存在大量运行数据的传输需求。无线传感器网络是由大量散乱且独立的传感器节点通过一定的无线通信协议而构成的一个分布式网络，这些传感器节点大多分布在无人值守的监测区域，用以感知、采集和处理部署环境中某些对象的物理信息，并把这些信息加工处理后传输给终端。目前，无线传感器网络已被广泛应用于经济、军事、民生等领域。针对高速列车运行状态监测的实时性需求，无线传感器网络是一种有效的监测手段。

无线传感器的小型化和轻量化需求使其电池容量通常受限，无线能量传输(WPT，Wireless Power Transmission)技术相较于传统的太阳能转换、机械能转换等能量获取方式，具有传输功率、信号波形和时频资源分配等高度可控的特点，具有显著优越性。由于射频信号能够同时传输信息和能量，R.Zhang等提出的无线能量信息同传(SWIPT，Simultaneous Wireless Information andPower Transfer)方法基于接收电路能同时从信号中进行信息解码和能量传输的特点，迅速成为近年来研究热点，且设计了基于时间切换与功率分割协议的接收机结构从而证明SWIPT无论是理论上还是实际上均是可行的。

当高铁在沿铁轨分布的小区间穿行时，系统通信性能会随列车与基站间的距离变化而产生波动，为在高速移动状态下保证列车与基站间的通信连接不中断需频繁地进行越区切换。先进的越区切换技术可以保障通信系统的高效可靠，维护高铁行车安全，提高乘客舒适度，对推动高铁经济可持续发展具有重要意义。由于高铁的轨迹行驶易于追踪与预测，因此其越区切换触发位置信息也有可预知性，可以借助于地理位置、速度等参数帮助优化切换性能，然而此切换方案对全球定位系统(GPS，GlobalPositioning System)具有较强的依赖，会受到地理环境因素如隧道场景下的影响，导致GPS设备与卫星间的通信连接发生中断重连。因此高铁可以基于参考信号接收功率(RSRP，Reference Signal ReceivingPower)作为切换判决标准，该参数可直观反应来自基站的参考信号的强度，通过对源基站与目的基站的RSPP值的大小进行比较来判断是否触发切换。

然而，传统的单跳网络中用户或无线传感器将直接与基站进行连接通信，因高铁金属密闭车厢的原因将会为无线信号带来大量的穿透损耗，严重影响通信与切换性能。解决此问题的有效方法是基于车载中继实现两跳无线通信，即在高铁车厢顶部装载中继站与基站进行连接，乘客或传感器通过无线接入节点连接至车载中继与基站进行通信，提升整体通信性能。目前国内外未见在高速铁路隧道场景下的无线传感器网络通信进行联合设计，提升无线感知系统整体通信性能的研究，同时高铁无线感知系统在实际使用场景中存在高移动性与高损耗等特点，影响通信性能。

因此，如何提升高铁无线感知系统在实际实用场景中的通信性能是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种高速轨道客车无线感知系统信息传输方法，包括：构建多接入节点的无线感知系统架构，系统中每个车厢包含一个接入节点与多个无线传感器，各传感器与接入节点建立连接实现能量收集与信息传输，各接入节点接收到来自传感器的数据后进行远端通信将数据传输至隧道内所设射频拉远单元；设计了基于强化学习的系统能量与信息传输协议，求解系统最优配置，获得最优传输策略，最小化整体传输时间。本发明针对高铁隧道场景下单接入节点传输系统中效率低下、远端通信损耗严重等现状，首次提出多接入节点自主协同传输条件下的传输策略，同时为强化学习方法设计联合深度神经网络，提供了可靠的优化方法。

为了实现上述目的，本发明采用如下技术方案：

一种高速轨道客车无线感知系统信息传输方法，包括以下具体步骤：

步骤1：构建高铁隧道场景下无线感知系统，确定接入节点与无线传感器节点组网分布，以及能量与信息传输协议；

步骤2：根据接入节点与无线传感器节点组网分布构建列车内部信息收集信道模型和远端传输信道模型，获得各无线传感器节点能量接收性能与各接入节点信息收发性能；根据接入节点与传感器节点组网分布获得列车环境相关常数、接入节点与无线传感器节点距离等；

步骤3：根据各无线传感器节点能量接收性能和各接入节点信息收发性能构建系统信息传输优化模型，并利用强化学习方法求解，获得最小传输时间下的最优传输策略；

步骤4：无线感知系统采用最优传输策略传输能量与信息。

优选的，所述无线感知系统包括N个预先布置在车厢处的接入节点与K个布置在整辆列车上的无线传感器节点；接入节点与无线传感器节点构成感知网络，每个感知网络包括一个接入节点与M+M_a个无线传感器节点，其中M为车厢内部固定区域所含无线传感器节点数量，M_a为车厢邻接处无线传感器节点数量，每个感知网络包含的无线传感器节点可连接邻接车厢的任一接入节点进行充电、信息收集与传输任务。

优选的，所述无线感知系统进行充电、信息收集与传输任务的过程为：当需要进行感知时，各车厢所设接入节点首先依据调度策略进行无线传感器节点选择，对选中的无线传感器节点进行无线能量传输与无线信息传输，无线传感器节点利用接收到的信号进行充电与信息感知；无线传感器节点将感知信息回传至所属车厢的接入节点，接入节点将收集到的感知信息利用隧道内部泄漏电缆远端传输至射频拉远单元。每一节车厢设置一个接入节点和多个传感器节点，每个接入节点同时只可与一个传感器节点进行交互。接入节点负责接收传感器节点回传的信息，并将此信息传输至远端射频拉远单元。

优选的，由于高铁列车内部信号信道参数主要受传播损耗、阴影效应与多径反射的影响，因此采用视距与非视距结合的路径损耗模型作为信息收集信道模型，表达式为：

其中，

为空间传播损耗；η_LoS、η_NLoS、a和b为与列车环境相关的常数；f_nm为发射信号中心频率；c为光速；d_nm为接入节点与所选无线传感器节点的距离；θ_n,m为立体角度差；

d_nm与θ_n,m分别表示为：

其中，(x_n,yn,z_n)为接入节点三维坐标，(x_m,y_m,z_m)为无线传感器节点三维坐标，因此列车内信号传输下行链路信道增益为：

优选的，列车内部信号通过安装在隧道内部的泄露电缆传输至射频拉远单元，其中射频拉远单元设置在隧道内部的洞室内，所述洞室间隔固定距离设置，所述洞室内还设置有基带处理单元与接口，基带处理单元完成基带信号的调制和解调，利用光纤传输至射频拉远单元实现射频信号和数字信号转换以及宽带信号的接入处理，再利用光纤传输至接口，接口可以对不同无线通信系统的下行信号进行整合，也可以对不同无线通信系统的上行信号进行分路且可有效避免频带干扰；

泄漏电缆覆盖方式为2发送2接收(2T2R)方式，即隧道内铺盖泄漏电缆各2条分别用于接收与发送信号。本发明在此基础上利用泄漏电缆实现信息远端传输，采用路径损耗模型作为远端传输信道模型，表达式为：

其中，

为接口插入损耗，该损耗主要包含电桥和多频合路器等物理设备带来的损耗；

为泄漏电缆传输损耗，该损耗与信号频率、漏缆尺寸与传输距离相关；

为为泄漏电缆耦合损耗，由于泄漏电缆在隧道内铺设距列车约为2米距离，该损耗为电缆中传输的能量在距离漏缆2米处所产生的损耗；

为宽度因子，该损耗为对于垂直距离漏缆超过2米处位置的电平损耗补偿；

为快衰落余量，为对抗隧道壁反射产生的多径效应和高速行驶产生的多普勒频移引起的快衰落，需设置一定的快衰落余量；远端传输信道增益为：

优选的，根据列车内信号传输下行链路信道增益进行无线传感器节点能量收集量分析：

无线传感器节点接收到来自接入节点的能量信号后开始为自身充电并进行感知工作，采用无线传感器节点自身的线性能量收集模型实现无线传感器节点能量收集，则在单位时间无线传感器节点收集的功率表示为

其中，ξ_m∈(0,1]为转换系数；p_n,m为接入节点发射信号功率；h_n,m为列车内信号传输下行链路信道增益；P_th为可被无线传感器节点的能量收集系统收集的功率峰值，在本发明中为特定值，当可接收功率小于峰值时，按接收功率进行能量补充，大于峰值时，按峰值进行能量补充。

优选的，根据列车内信号传输下行链路信道增益进行接入节点信息收集速率分析：

在接入节点信息收集阶段，接入节点发射信号激活所选无线传感器节点进行感知工作，并利用收集到能量对感知信息进行回传至接入节点，由于在信息收集阶段每个接入节点同时只可与一个无线传感器节点交互，所以彼此间不会产生干扰，无线传感器节点上行链路回传信号表示为：

其中，y_m,n为接入节点接收信号；α_m∈(0,1)为传输比率，在无线传感器节点接收到的功率中，部分功率α_mP_H,m用于信号回传，剩余功率留存，用于电路损耗等消耗；h_m,n为列车内信号传输上行链路信道增益，由于无线传感器节点与接入节点相对静止，所以信道增益可视为恒定且h_m,n＝h_n,m；x_m为无线传感器节点回传携带感知信息的信号；n_m,n为服从复高斯分布

的噪声；考虑信号能量信息同传问题，所以信息收集速率引入能量信号干扰进行分析，基于香农信息公式可得上行链路信息传输速率为：

其中，B为信道带宽，

为接入节点接收信号信干噪比。

优选的，根据远端传输信道增益进行远端通信信息传输速率分析：

在接入节点接收到来自无线传感器节点传输的感知信息后与远端射频拉远单元建立链路，将感知信息利用泄漏电缆上行链路进行传输，由于泄漏电缆上下行链路采用不同漏缆进行传输，且不同车厢的接入节点利用不同时隙进行数据传输，所以彼此间不会产生干扰，射频拉远单元接收信号表示为：

其中，y_n,s为远端射频拉远单元接收信号；p_n,s为接入节点远端传输发射功率；h_n,s为远端传输信道增益，该增益与漏缆型号、发射信号频率与传输距离相关；x_n为接入节点远端传输携带感知信息的信号；n_n,s为服从复高斯分布

的噪声；基于香农信息公式可得远端传输信息传输速率为：

其中，B为信道带宽；

为接收端射频拉远单元接收信号信噪比。

优选的，基于所述高铁隧道场景下无线感知系统，求解系统最优配置，获得最优传输策略，在保证接入节点数据收集与远程数据传输吞吐量的约束下，利用强化学习方法对整体传输时间进行优化，以获得系统整体最小传输时间；

系统信息传输优化模型为：

其中，N为列车内接入节点数量；M_n为一接入节点覆盖区域内无线传感器节点数量；

为选中无线传感器节点向接入节点传输数据时间；

为接入节点为无线传感器节点充电时间；

为选中无线传感器节点的感知信息经由接入节点向远端射频拉远单元传输时间；C1、C2、C3、C4、C5和C6均为约束条件，C1为无线传感器节点向接入节点信息速率约束，B为传输带宽，α_m为功率消耗比率0<α_m<1，代表无线传感器节点收集到的能量部分用于感知信息回传，剩下部分用于自身损耗需要，P_H,m为无线传感器节点单位时间接收到的功率，h_m,n为无线传感器节点的感知信息向接入节点传输时的列车内信号传输上行链路信道增益，因考虑能量信息同传，所以引入下行信号作为干扰信号，p_n,m为接入节点向无线传感器节点发射信号功率，h_n,m为列车内信号传输下行链路信道增益，

为噪声功率，R_A,min为最小速率约束；C2为接入节点远端传输信息速率约束，p_n,s为接入节点发送信号的远端传输发射功率，h_n,s为远端传输信道增益，

为噪声功率；C3为无线传感器节点能量约束，

为无线传感器节点所获能量，

为数据回传所需能量，

为自身电路所需能量；C4为接入节点工作限制，即接入节点最多同时只可与某一无线传感器节点交互，当接入节点与第m个无线传感器节点交互时，ψ_n,m∈{0,1}为1；C5为无线传感器节点工作限制，即任意无线传感器节点至多只可进行一次完整的数据传输工作，当第m个无线传感器节点完成工作时，

为1；C6为传输数据限制，即远程传输数据比率

不可超过接入节点数据收集比率

优选的，利用强化学习方法求解系统信息传输优化模型的具体过程为：

步骤31：采用分层强化学习方法将复杂任务分解为若干子任务，每个子任务对应作为一个接入节点任务，每个接入节点有其对应的联合深度神经网络与存储单元，利用马尔可夫决策过程构建各接入节点的状态集{S_n}_n∈N、动作集{A_n}_n∈N、奖励函数{R_n}_n∈N与奖励折扣因子λ，以及构建基于联合深度神经网络的Double深度Q网络算法中的主网络与目标网络；

步骤32：根据各接入节点的状态集、动作集、奖励函数和奖励折扣因此进行状态更新，构建元组并存储至所述存储单元，利用所述元组对每个接入节点的联合深度神经网络进行训练，计算出损失函数对主网络参数进行更新，并采用软更新方法周期性利用主网络参数对目标网络参数更新；

步骤321：将当前接入节点的状态集中当前时刻状态与其余接入节点的状态集中当前时刻状态构成的状态集合输入至联合深度神经网络，利用ε-greedy算法对当前接入节点的动作集进行动作选择；

步骤322：当前接入节点依据所选动作进行状态更新，获得下一时刻状态，及根据奖励函数和奖励折扣因子计算状态转移所产生的奖励值；

步骤323：当所有接入节点状态更新完成后，将当前接入节点的当前时刻状态、下一时刻状态、对应动作、奖励值与其余接入节点的当前时刻状态、下一时刻状态合并成元组并送入存储单元进行经验存储，若存储单元已满，则利用最新存储的元组代替最早存储的元组；

步骤324：当存储单元已满，从存储单元随机选取若干元组利用Double深度Q网络算法进行联合深度神经网络训练，计算损失函数对主网络参数进行更新，并周期性利用主网络参数采用软更新方法对目标网络参数进行更新；Double深度Q网络算法主要包含两个网络，其一为主网络，其二为目标网络，这两个网络结构、初始参数完全相同，在每一轮更新训练中，该算法的两个网络将存储的元组中的不同元素作为输入，将输出进行计算形成损失值，并依据损失值对主网络的参数进行更新；主网络的参数在每一轮训练中都会更新，而目标网络的参数会隔特定训练轮次进行更新；

步骤33：重复步骤32过程，直至所有子任务对应的联合深度神经网络收敛，获得整体传输时间最小化的最优传输策略。

优选的，所述步骤31中利用马尔可夫决策过程构建接入节点状态集、动作集和奖励函数的各部分详情如下，

(1)状态集由5部分组成

其中，

S₁为接入节点数据收集率：

其中，M为接入节点覆盖车厢固定区域内无线传感器节点数量；M_a为接入节点覆盖车辆邻接区域内无线传感器节点数量；

为当前时刻每个无线传感器节点的数据收集率，当该节点全部数据收集完毕时为1；

S₂为各无线传感器节点剩余能量：

当无线传感器节点剩余能量无法支持感知与数据回传工作时，接入节点需要暂停当前任务对无线传感器节点进行充电；

为各无线传感器节点剩余能量情况；

S₃为接入节点远端数据传输率：

其中，

为当前时刻每个无线传感器节点信息的数据远端传输率，当所选无线传感器节点数据全部远端传输完成时为1；

S₄为距离最近的射频拉远单元的归一化距离：

其中，

为距离最近的三个射频拉远单元的归一化距离，接入节点每次越区切换都会选取距离最近的射频拉远单元作为远端传输目的节点以最大化传输速率而降低传输所需时间；

S₅为状态控制位：

其中，

为无线传感器节点能量补充控制位，当无线传感器节点剩余能量无法支撑其完成感知工作与感知信息回传时

为1，接入节点暂停当前任务为无线传感器节点传输能量信号进行充电，其余情况

为0；

为接入节点越区切换控制位，当接入节点下一时刻与当前时刻距离最近的射频拉远单元不同时

为1，接入节点需先进行越区切换选取距离最近射频拉远单元后可继续信息传输，其余情况

为0；

为接入节点所选无线传感器节点完成数据收集与远端传输任务，当需要选择一个新的无线传感器节点执行任务时

为1，其余情况为0；

(2)动作集由4部分组成

需要说明的是接入节点每次只能选择一个动作执行，即动作集中只可有一位为1，其余为0，其中，

A₁为接入节点数据收集动作：

其中，

为1时代表对应无线传感器节点被选择进行数据收集任务；

A₂为接入节点数据远端传输动作：

其中，

为1时代表对应无线传感器节点的感知信息被选择进行远端传输，需要说明的是由于信息收集阶段传输速率相对固定，而远端传输速率在传输信号选定时与传输距离相关，且远端传输比率不可超过信息收集比率，则会出现接入节点仍留有所选无线传感器节点剩余收集信息存储状况，在远端传输速率大于信息收集速率时，可额外传输接入节点存储信息，进一步需要说明的是只有当接入节点完成数据收集且留有剩余存储信息情况下远端传输动作才可被选中执行；

A₃∈{0,1}为接入节点为无线传感器节点充电动作，当无线传感器节点需要进行能量补充时A₃为1；

为接入节点越区切换动作，其中

当需要进行越区切换时，3个距离最近的射频拉远单元作为候选目标，当被选中用于远端传输时为1。

(3)奖励集由5部分组成

在第n个接入节点执行完动作后的整体奖励可表示为：

其中，

为能量奖励，即无线传感器节点能量不足时予以惩罚，

为惩罚因子，当被选中的第m个无线传感器节点能量不足时为1，其余情况为0，

为负值常量；

为数据收集奖励，即所选无线传感器节点完成数据收集后被重复选中收集数据时予以惩罚，

为惩罚因子，当被选中的第m个无线传感器节点已经完成数据收集任务时为1，其余情况为0，

为负值常量；

为数据远端传输奖励，即所选无线传感器节点的感知信息完成远端传输后被重复选中数据远端传输时予以惩罚，

为惩罚因子，当被选中的第m个无线传感器节点已经完成远端传输任务时为1，其余情况为0，

为负值常量；

为越区切换奖励，即第n个接入节点需越区切换而未进行越区切换任务时予以惩罚，

为惩罚因子，当第n个接入节点需越区切换而未进行越区切换任务时为1，其余情况为0，

为负值常量；R_time为时间奖励，即所有接入节点完成任务时将整体运行时间作为惩罚值加入，当整体任务完成时

为1；

时间奖励R_time可表示为：

其中，ψ_time为负值常量，t_total,n为每个接入节点完成任务的时间。

优选的，构建的联合深度神经网络可同时将对应的当前接入节点与其余接入节点的当前状态作为状态集合共同输入进行动作选择；该网络分为两部分，第一部分以神经网络为基础设计联合神经网络，将该网络所属接入节点当前状态作为主要输入，经神经元数量为64，激活函数采用ReLU函数隐藏层后输出；同时将其余接入节点作为辅输入，分别经过相同结构隐藏层后输出，进行加权求和，表示为：

其中，h_t为其余接入节点当前状态输入至各自联合深度神经网络进行加权求和后所得输出，即其余接入节点的当前状态输入各自联合深度神经网络中后获得各自输出，将各自输出依据k值进行加权求和，并经过激活函数后获得h_t；f(·)为ReLU激活函数，

为各状态神经网络对应权重；b^j为偏置量；

为输入状态；

为各接入节点状态比率，可表示为：

其中，l_n、l_j、l_m代表各接入节点所在位置；exp(·)为e指数函数，因此

与各接入节点相对距离相关，将所属接入节点网络输出与其余接入节点网络输出合并后作为整体输出；

第二部分采用深度神经网络，以第一部分输出作为输入层，经神经元数量分别为256，512，1024，512，256，128，64，激活函数采用ReLU函数的隐藏层后由输出层输出动作集维度的向量。

优选的，所述步骤323的网络训练，由于采用分层强化学习且各接入节点所包含无线传感器节点数量不同，其输入状态空间维度与输出动作空间维度皆不同，所以每个接入节点包含各自所属主网络与目标网络，网络训练过程采用Double深度Q网络算法进行训练，其损失函数具体内容包括：

其中，Rⁿ为第n个接入节点执行完动作后获得的奖励值；λ为奖励值折扣因子；

代表目标网络输出的Q值；

代表主网络输出的Q值；

为输入到网络中的状态集合，包括第n个接入节点执行动作前状态、上一时刻状态与其余接入节点的当前动作状态与上一时刻状态；

为第n个接入节点所执行的动作；ωⁿ为第n个接入节点主网络参数；ω^n'为第n个接入节点目标网络参数；在求得损失函数后可对主网络参数进行更新，则有

其中，

为更新后主网络参数；

为更新前主网络参数；η为学习率，

为损失函数梯度；

依据软更新方法周期性对目标网络参数进行更新，则有

其中，

为更新后目标网络参数；μ∈[0,1]为更新比率；

为更新前目标网络参数；ωⁿ为主网络参数。

基于强化学习的高铁隧道场景下无线感知系统信息传输过程为：

步骤1：接入节点向无线传感器节点传输能量和信息，无线传感器节点接收到能量信号后被唤醒，进行信息感知工作，将感知数据利用所获能量回传至接入节点；

在车厢固定区域内无线传感器节点由管辖该区域的接入节点固定传输，而邻接区域的无线传感器节点可由相邻车厢的任一接入节点进行传输，故为最小化整体传输时间，每一接入节点会依据信道状态、信息传输速率等因素进行无线传感器节点选择，形成最优传输策略；

步骤2：接入节点接收到感知数据后利用隧道内铺设泄漏电缆开始进行远端数据传输至射频拉远单元，且实时注意越区切换选取距离最近射频拉远单元进行数据传输；

邻接区域无线传感器节点状态可被邻接车厢接入节点信息共享，且各接入节点采用时分复用方式进行远端传输，彼此间不会产生干扰，即在整体时间内各接入节点进行信息收集，在各自时隙内将收集信息进行远端传输。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种高速轨道客车的无线感知系统信息传输方法，针对高铁隧道场景下单接入节点传输系统中效率低下、远端通信损耗严重等问题，提出了强化学习方法利用多接入节点对无线传感器节点进行合理调度分配，提出固定区域与邻接区域网络覆盖方式，提高整体系统传输效率，降低传输时间。本发明充分考虑了高铁隧道场景下的车内与远端传输因素，所构建的系统模型更加准确。此外，本发明充分利用接入节点射频信号的能量为无线传感器节点充电，最大限度地提高了网络能量效率。本发明所述技术可广泛应用于高速铁路隧道运行场景下，具有较强的实际应用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种高速轨道客车的无线感知系统信息传输示意图；

图2为本发明提供的高铁隧道场景下无线感知系统信息传输示意图；

图3为本发明提供的高铁隧道场景下无线感知系统无线传感器节点分布示意图；

图4为本发明提供的高铁隧道场景下无线感知系统传输协议示意图；

图5为本发明提供的联合深度神经网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种高速轨道客车的无线感知系统信息传输方法，如图1所示，包括以下具体内容：

1、构建高铁隧道场景下无线感知系统架构，设计接入节点与传感器组网分布以及系统能量与信息传输协议；高铁隧道场景下无线感知系统如图2所示；传感器组网分布如图3所示；

2、对列车内部无线信息传输与远端无线信息传输过程进行数学表述，分析各传感器节点能量接收性能与各接入节点信息收发性能；

3、针对高铁隧道场景下无线感知系统信息传输进行优化问题设计，利用强化学习方法进行求解，获得最小传输时间下的最优传输策略。

本发明步骤1主要内容：

(1)组网过程

N个接入节点预先布置在各个车厢处，列车整体共包含K个无线传感器，每个感知网络包括一个接入节点与M+M_a个无线传感器节点，其中M为车厢内部固定区域所含无线传感器节点数量，M_a为车厢邻接处无线传感器节点数量，这些传感器可被邻接车厢的任一接入节点进行充电、信息收集与传输任务；各个接入节点根据信道状态对传感器节点实现调度，利用能量信号激活传感器节点且为其补充能量，传感器节点利用捕获能量回传感知信息数据，接入节点接收到数据后利用隧道内铺设泄漏电缆远端传输至射频拉远单元。

(2)时隙分配

在信息收集阶段，每个接入节点在非分配时隙内发射能量信号至传感器节点对其激活与补充能量，之后传感器节点利用捕获能量将感知信息数据回传至接入节点，由于每个感知网络至多同时只可进行一个传感器信息传输工作，所以各个网络内间不会产生干扰。在远端传输节点，每个接入节点在各自分配时隙内将所接收的感知信息数据远端传输至射频拉远单元。

本发明步骤2主要内容：

(1)信息收集信道模型

参考基于传播损耗、阴影效应与多径反射的视距与非视距路径损耗模型，车厢内部传输的信道增益可表述为：

(2)远端传输信道模型

参考基于高铁隧道内泄漏电缆的路径损耗模型，远端传输的信道增益可表述为：

(3)传感器能量收集量分析

能量收集模型可表示为线性函数，由于噪声功率较小，在能量收集中不做考虑，能量收集门限由传感器电路结构而定，则单位时间内无线传感器节点收集到的功率为：

(4)接入节点信息收集速率分析

在接入节点信息收集阶段，无线传感器节点依据接入节点发射信号功率进行能量收集后，利用部分收集能量回传感知信息数据，由于引入能量信息同传技术，所以信息收集速率引入能量信号干扰与噪声进行分析，基于香农信息公式可得上行链路信息传输速率为

(5)远端通信信息传输速率分析

在远端通信信息传输阶段，接入节点利用隧道内铺设泄漏电缆将感知信息数据传输至远端射频拉远单元，由于采用2T2R线缆配置模型且利用不同时隙对不同接入节点进行传输，所以彼此间不会产生干扰，则基于香农信息公式可得远端传输上行链路信息传输速率为

本发明步骤3主要内容：

(1)总体优化问题构建

在保证接入节点数据收集与远程数据传输吞吐量的约束下，且保证传感器节点能量充足，单网络内同时至多只可进行一个无线传感器节点的传输时，利用强化学习方法对整体传输时间进行优化，以获得系统整体最小传输时间，可构建总体优化问题为：

(2)马尔可夫决策过程问题构建

马尔可夫决策过程构建接入节点状态集、动作集、奖励值各部分详情如下，状态集由接入节点数据收集率S₁、传感器节点剩余能量S₂、接入节点远端数据传输率S₃、射频拉远单元的归一化距离S₄和状态控制位S₅共5部分组成

动作集由接入节点数据收集动作A₁、接入节点数据远端传输动作A₂、传感器充电动作A₃与接入节点越区切换动作A₄共4部分组成

奖励集由能量收集奖励R_E、数据收集奖励R_C、数据远端传输奖励R_T、越区切换奖励R_P和时间奖励R_time共5部分组成

(3)联合神经网络构建

设计的联合深度神经网络同时将当前接入节点与其余接入节点的当前状态作为状态集合共同输入进行动作选择；该网络分为两部分，第一部分以神经网络为基础设计联合神经网络，将该网络所属接入节点当前状态作为主要输入，经神经元数量为64，激活函数采用ReLU函数隐藏层后输出；同时将其余接入节点作为辅输入，分别经过相同结构隐藏层后输出，进行加权求和，并将所属接入节点网络输出与其余接入节点网络输出合并后作为整体输出。第二部分结构以第一部分输出作为输入层，经神经元数量分别为256，512，1024，512，256，128，64，激活函数采用ReLU函数的隐藏层后由输出层输出动作集维度的向量。

(4)分层强化学习网络训练过程构建

分层强化学习将复杂任务分解为若干子任务，每个接入节点负责完成一个子任务且每个接入节点拥有各自的网络模型，网络训练过程采用Double深度Q网络算法进行训练，其损失函数为

在求得损失函数后可对主网络参数进行更新，则有

且依据软更新方法周期性对目标网络参数进行更新，则有

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种高速轨道客车无线感知系统信息传输方法，其特征在于，包括以下具体步骤：

步骤2：根据接入节点与无线传感器节点组网分布构建列车内部信息收集信道模型和远端传输信道模型，获得各无线传感器节点能量接收性能与各接入节点信息收发性能；

步骤4：无线感知系统采用最优传输策略传输能量与信息。

2.根据权利要求1所述的一种高速轨道客车无线感知系统信息传输方法，其特征在于，所述无线感知系统进行充电、信息收集与传输任务的过程为：当需要进行感知时，各车厢所设接入节点首先依据调度策略进行无线传感器节点选择，对选中的无线传感器节点进行无线能量传输与无线信息传输，无线传感器节点利用接收到的信号进行充电与信息感知；无线传感器节点将感知信息回传至所属车厢的接入节点，接入节点将收集到的感知信息利用隧道内部泄漏电缆远端传输至射频拉远单元。

3.根据权利要求1所述的一种高速轨道客车的无线感知系统信息传输方法，其特征在于，采用视距与非视距结合的路径损耗模型作为信息收集信道模型，表达式为：

其中，

d_nm与θ_n,m分别表示为：

其中，(x_n,y_n,z_n)为接入节点三维坐标，(x_m,y_m,z_m)为无线传感器节点三维坐标，因此列车内信号传输下行链路信道增益为：

4.根据权利要求3所述的一种高速轨道客车的无线感知系统信息传输方法，其特征在于，利用泄漏电缆实现信息远端传输，采用路径损耗模型作为远端传输信道模型，表达式为：

其中，

为接口插入损耗；

为为泄漏电缆耦合损耗；

为宽度因子；

为快衰落余量；远端传输信道增益为：

5.根据权利要求4所述的一种高速轨道客车的无线感知系统信息传输方法，其特征在于，根据列车内信号传输下行链路信道增益计算无线传感器节点能量收集量，具体过程为：

其中，ξ_m∈(0,1]为转换系数；p_n,m为接入节点发射信号功率；h_n,m为列车内信号传输下行链路信道增益；P_th为可被无线传感器节点能量收集的功率峰值，当可接收功率小于峰值时，按接收功率进行能量补充，大于峰值时，按峰值进行能量补充；

根据列车内信号传输下行链路信道增益计算接入节点信息收集速率分析，具体过程为：

在接入节点信息收集阶段，接入节点发射信号激活所选无线传感器节点进行感知工作，并利用收集到能量对感知信息进行回传至接入节点，由于在信息收集阶段每个接入节点同时只可与一个无线传感器节点交互，无线传感器节点上行链路回传信号表示为：

其中，y_m,n为接入节点接收信号；α_m∈(0,1)为传输比率，在无线传感器节点接收到的功率中，部分功率α_mP_H,m用于信号回传，剩余功率留存，用于电路损耗；h_m,n为列车内信号传输上行链路信道增益，由于无线传感器节点与接入节点相对静止，所以信道增益视为恒定且h_m,n＝h_n,m；x_m为无线传感器节点回传携带感知信息的信号；n_m,n为服从复高斯分布

的噪声；信息收集速率引入能量信号干扰进行分析，基于香农信息公式可得上行链路信息传输速率为：

其中，B为信道带宽，

为接入节点接收信号信干噪比；

根据远端传输信道增益计算远端通信信息传输速率，具体过程为：

在接入节点接收到来自无线传感器节点传输的感知信息后与远端射频拉远单元建立链路，将感知信息利用泄漏电缆上行链路进行传输，由于泄漏电缆上下行链路采用不同漏缆进行传输，且不同车厢的接入节点利用不同时隙进行数据传输，射频拉远单元接收信号表示为：

其中，y_n,s为远端射频拉远单元接收信号；p_n,s为接入节点远端传输发射功率；h_n,s为远端传输信道增益；x_n为接入节点远端传输携带感知信息的信号；n_n,s为服从复高斯分布

的噪声；

基于香农信息公式得到远端传输信息传输速率为：

其中，B为信道带宽；

为接收端射频拉远单元接收信号信噪比。

6.根据权利要求5所述的一种高速轨道客车的无线感知系统信息传输方法，其特征在于，系统信息传输优化模型为：

其中，N为列车内接入节点数量；M_n为一个接入节点覆盖区域内无线传感器节点数量；

为选中无线传感器节点向接入节点传输数据时间；

为接入节点为无线传感器节点充电时间；

为选中无线传感器节点的感知信息经由接入节点向远端射频拉远单元传输时间；C1、C2、C3、C4、C5和C6均为约束条件，C1为无线传感器节点向接入节点信息速率约束，B为传输带宽，α_m为功率消耗比率0<α_m<1，代表无线传感器节点收集到的能量部分用于感知信息回传，剩下部分用于自身损耗需要，P_H,m为无线传感器节点单位时间接收到的功率，h_m,n为无线传感器节点的感知信息向接入节点传输时的列车内信号传输上行链路信道增益，考虑能量信息同传，引入下行信号作为干扰信号，p_n,m为接入节点向无线传感器节点发射信号功率，h_n,m为列车内信号传输下行链路信道增益，

为噪声功率，R_A,min为最小速率约束；C2为接入节点远端传输信息速率约束，p_n,s为接入节点远端传输发射功率，h_n,s为远端传输信道增益，

为噪声功率；C3为无线传感器节点能量约束，

为无线传感器节点所获能量，

为数据回传所需能量，

为自身电路所需能量；C4为接入节点工作限制，即接入节点最多同时只可与一个无线传感器节点交互，当接入节点与第m个无线传感器节点交互时，ψ_n,m∈{0,1}为1；C5为无线传感器节点工作限制，即任意无线传感器节点至多只可进行一次完整的数据传输工作，当第m个无线传感器节点完成工作时，

为1；C6为传输数据限制，即远程传输数据比率

不可超过接入节点数据收集比率

7.根据权利要求1所述的一种高速轨道客车的无线感知系统信息传输方法，其特征在于，利用强化学习方法求解系统信息传输优化模型的具体过程为：

步骤324：当存储单元已满，从存储单元随机选取若干元组利用Double深度Q网络算法进行联合深度神经网络训练，计算损失函数对主网络参数进行更新，并周期性利用主网络参数采用软更新方法对目标网络参数进行更新；

8.根据权利要求7所述的一种高速轨道客车的无线感知系统信息传输方法，其特征在于，所述步骤31中利用马尔可夫决策过程构建接入节点状态集、动作集和奖励函数的具体过程为：

状态集由5部分组成

其中，

S₁为接入节点数据收集率：

为当前时刻每个无线传感器节点的数据收集率，当该无线传感器节点全部数据收集完毕时为1；

S₂为各无线传感器节点剩余能量：

为各无线传感器节点剩余能量情况；

S₃为接入节点远端数据传输率：

其中，

S₄为距离最近的射频拉远单元的归一化距离：

其中，

S₅为状态控制位：

其中，

为0；

为1，接入节点需先进行越区切换选取距离最近射频拉远单元后继续信息传输，其余情况

为0；

为1，其余情况为0；

动作集由4部分组成

A₁为接入节点数据收集动作：

其中，

为1时代表对应无线传感器节点被选择进行数据收集任务；

A₂为接入节点数据远端传输动作：

其中，

为1时代表对应无线传感器节点的感知信息被选择进行远端传输，在远端传输速率大于信息收集速率时，额外传输接入节点存储信息，只有当接入节点完成数据收集且留有剩余存储信息情况下远端传输动作才被选中执行；

为接入节点越区切换动作，其中

奖励集由5部分组成

在第n个接入节点执行完动作后的整体奖励可表示为：

其中，

为能量奖励，即无线传感器节点能量不足时予以惩罚，

为负值常量；

为负值常量；

为负值常量；

为1；

时间奖励R_time表示为：

9.根据权利要求7所述的一种高速轨道客车的无线感知系统信息传输方法，其特征在于，构建的联合深度神经网络同时将对应的当前接入节点与其余接入节点的当前状态作为状态集合共同输入进行动作选择；联合深度神经网络分为两部分，第一部分以神经网络为基础构建联合神经网络，将联合深度神经网络所属接入节点当前状态作为主要输入，经神经元数量为64，激活函数采用ReLU函数隐藏层后输出；同时将其余接入节点作为辅输入，分别经过相同结构隐藏层后输出，进行加权求和，表示为：

其中，h_t为其余接入节点当前状态输入至各自联合深度神经网络进行加权求和后所得输出；f(·)为ReLU激活函数，

为各状态神经网络对应权重；b^j为偏置量；

为输入状态；

为各接入节点状态比率，表示为：

10.根据权利要求7所述的一种高速轨道客车的无线感知系统信息传输方法，其特征在于，所述步骤323的网络训练过程中，由于采用分层强化学习且各接入节点所包含无线传感器节点数量不同，其输入状态空间维度与输出动作空间维度皆不同，所以每个接入节点包含各自所属主网络与目标网络，网络训练过程采用Double深度Q网络算法进行训练，其损失函数具体内容包括：