CN115190079B

CN115190079B - 基于分层强化学习的高铁自供电感知通信一体化交互方法

Info

Publication number: CN115190079B
Application number: CN202210792408.1A
Authority: CN
Inventors: 胡封晔; 凌壮; 刘坦炟; 李海龙; 李志军; 那顺乌力吉; 贾涤非; 孙大洋; 吕龙; 李强
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2023-09-15
Anticipated expiration: 2042-07-05
Also published as: US20230196119A1; CN115190079A

Abstract

本发明提供了一种基于分层强化学习的高铁自供电感知通信一体化交互方法，包括：构建高速轨道客车无源感知通信一体化系统架构，无源传感器从接入节点收集无线射频能量用于收集列车状态数据，接入节点感知列车状态信息；在接入节点与基站进行远程通信过程中，依据高斯混合模型聚类方法获得参考切换节点，完成高速轨道客车通信越区切换；提出基于选项的分层强化学习算法训练高速轨道客车实现数据感知和远程通信自主切换来保证任务完成时间最短，同时保证感知设备能及时充电，提升感知和通信一体化的性能。本发明将无源感知和远程通信相融合，有效提升了系统性能，满足未来高速轨道客车智能化、轻量化发展需求，具有很强的实用性。

Description

基于分层强化学习的高铁自供电感知通信一体化交互方法

技术领域

本发明涉及高铁自供电感知通信技术领域，具体涉及一种基于分层强化学习的高速轨道客车无源感知通信一体化交互方法。

背景技术

目前，行业内提出运用前沿无线技术研制全新一代高速轨道客车通信系统，进一步推动高速轨道客车智能化、轻量化发展。

在高速轨道客车从“有线”到“无线”轻量化转变过程中，无线感知设备持续增多。能量持续供应问题成为无线感知网络发展的瓶颈，限制了传感器的大规模部署。融合无源感知的数据采集技术催生了无源传感器的发展应用，无源传感器无需自带电池，而是从接入节点下行射频信号中收集能量用于自身计算与感知，并利用反射通信技术将感知信息传输到接入节点。该类传感器摆脱了电池等有源器件的束缚，降低了部署成本和能耗(可达数微瓦)，支持全方位、全周期、可持续的列车状态监测，具有更长的使用寿命、易于维护、更易轻量化。正因为如此，该技术受到了国内外学术界和工业界的广泛关注。

当高速轨道客车驶离当前基站所在通信区域或在高动态复杂信道环境下突然面临通信中断时，需要重新连接到最近的通信基站进行通信。通信切换技术保证高速轨道客车与基站远程通信不中断，提高系统的有效性和可靠性。传统的通信切换技术方案基于服务基站和目标基站之间接收信号强度差值决定是否切换。然而，已有研究人员证明在触发切换前，接收信号强度差值较大可能会提高链路故障的概率，这将降低切换性能。因此，远程通信切换技术已成为高速轨道客车通信系统智能化发展的核心要素。

目前，感知通信一体化技术是指在硬件架构和算法设计层面融合感知和通信思想，实现感知和通信联合设计。相关研究工作主要集中于车联网、智能交通和工业网络系统，重点解决信息融合和资源协同相关问题，提升系统在感知和通信方面的整体性能。然而，在高速(时速400km以上)铁路运行场景中系统感知通信联合设计的研究尚处于起步阶段，围绕构建轻量化和智能化的感知通信一体化高速轨道客车网络，如何将无源感知和远程通信相融合，实现高动态移动性场景下感知与通信的交互耦合，成为高铁通信系统亟待突破的难题之一。

发明内容

有鉴于此，本发明提出了一种基于分层强化学习的高速轨道客车无源感知通信一体化方法，融合信息感知和远程通信，最小化任务完成时间。

为了实现上述目的，本发明采用如下技术方案：

本发明公开了一种基于分层强化学习的高铁自供电感知通信一体化交互方法，包括如下步骤：

构建高速轨道客车无源感知通信一体化系统架构：所述系统架构包括与高速轨道客车远程通信的基站和高速轨道客车车厢，所述高速轨道客车车厢内包括接入节点和无源传感器；所述无源传感器从接入节点收集无线射频能量并向所述接入节点发送感知的列车状态信息；所述接入节点接收列车状态信息，并与所述基站进行远程通信；

构建信息感知和远程通信模型：包括无源传感器射频能量收集模型、列车接入节点信息感知模型，以及接入节点与基站远程通信模型，利用高斯混合模型聚类方法进行远程通信切换区域划分，并获得参考切换节点，高速轨道客车运行过程中在所述参考切换节点切换与所述接入节点通信的基站；

构建总体优化问题：以任务完成时间最小化为目标函数，建立联合优化模型，基于选项的分层强化学习算法训练所述联合优化模型，求解所述系统架构最优配置，获得满足目标函数下的最优交互策略；所述任务完成时间包括：无源传感器节点收集能量的时间、接入节点感知信息的时间，以及接入节点与远程基站的通信时间，所述联合优化模型包括对高速轨道客车能量传输、信息感知与远程通信动态自主切换过程的表征。

优选的，所述无源传感器非线性能量收集模型的构建包括：

基于接入节点以给定发射功率将给定单位功率射频信号发送到无源传感器节点的过程，构建无源传感器节点接收到的能量信号模型；

无源传感器节点接收到射频信号之后，射频能量用于自身电路充电，进而构建无源传感器非线性能量收集模型；

所述列车接入节点信息感知模型的构建包括：

当无源传感器完成数据采集后，接入节点利用反射通信方法对无源传感器节点采集的数据进行信息感知，构建接入节点接收到的感知信息信号模型以及接入节点接收到感知信息信号的通信速率模型。

优选的，所述接入节点与基站远程通信模型的构建包括：

构建基站从接入节点接收信号时的通信速率模型；

所有的基站接收信号通信速率由给定参数的多个高斯分布混合向量组成，形成高斯混合模型，用于描述参考切换点概率分布情况，依据混合高斯分量聚类结果划分接入节点与基站通信越区切换的范围；

通过拟合通信速率、速度和时间之间的关系，以获得参考切换点预测值及其分布，当前参考切换点预测值作为下次更新计算的先验信息；每个通信切换区域中心的位置由通信速率高斯分布混合向量的均值向量决定，预测值的可靠性由通信切换区域的形状和大小所代表的通信速率高斯分布混合向量的协方差向量决定。

优选的，所述基于选项的分层强化学习算法使用半马尔可夫决策过程模拟高速轨道客车感知和通信场景，包括状态集合、动作集合、选项集合、转换概率、总体奖励和奖励折扣因子；高速轨道客车接入节点作为一个单智能体，依据选项学习策略，在任务开始时，根据自己的初始状态选择选项，接入节点依据选项内的策略执行动作，在选项结束的时刻，到达该选项的总体奖励，再次根据状态信息，依据选项策略选择需要执行的选项，如此循环直到任务结束。

优选的，高速轨道客车接入节点的状态集合包括：远程通信连接概率、高速轨道客车位置、传感器节点的剩余能量和接入节点从传感器节点感知信息百分比；动作集合包括三个动作：接入节点为传感器节点传输能量、接入节点感知信息和接入节点与基站进行远程通信；选项集合包含感知信息、传输能量以及远程通信三种选项；选项的总体奖励分为能量剩余奖励、感知信息奖励和远程通信奖励。

优选的，高速轨道客车接入节点在每个选项的结束时刻得到该选项的总体奖励，总体奖励是选项初始状态和选项动作的函数；其中，能量剩余奖励用于惩罚在执行该选项过程中电量不足的工况，感知信息奖励用于惩罚接入节点重复选择已经完成采集的无源传感器，远程通信奖励用于惩罚接入节点重复选择已经完成通信切换的基站。

优选的，基于选项的分层强化学习算法首先将当前状态信息输入到值函数神经网络中，对应的输出为选择选项的概率；然后通过比较随机选择和贪心算法得到的数值索引找到最优选项；最后根据已选定的选项对应的策略和终止条件，输出相应的动作。

优选的，基于选项的分层强化学习算法的值函数神经网络由输入层、隐藏层和输出层组成，输入层为状态信息和选项奖励，隐藏层由五个全连接层构成，激活函数采用修正线性单元，输出层采用softmax归一化指数函数得到选择选项的概率。

优选的，采用经验随机抽取和经验回放的方式训练基于选项的分层强化学习算法的值函数神经网络，通过对损失函数求梯度的方式更新值函数神经网络参数，完成值函数神经网络参数的更新。

经由上述的技术方案可知，与现有技术相比，本发明的有益效果包括：

本发明构建了一种轻量化和智能化的感知通信一体化高速轨道客车网络，最小化任务完成时间，与传统方法不同的是：

通过建立高速轨道客车无源感知通信一体化系统架构，使信息感知和远程通信集成在同一应用终端，将无源感知和远程通信深入融合；

通过拟合通信速率、速度和时间之间的关系，以获得远程通信参考切换点预测值及其分布，依据高斯混合模型聚类方法获得远程通信参考切换区域，辅助高速轨道客车完成通信越区切换；

提出基于选项的分层强化学习算法训练高速轨道客车实现数据感知和远程通信自主切换来保证任务完成时间最短，同时保证感知设备能及时充电，获得满足目标函数下的智能体与环境最优交互策略，完成高速轨道客车能量传输、信息感知与远程通信动态自主切换过程，实现高动态移动性场景下感知与通信的交互耦合，提升感知和通信一体化的性能。

本发明能够应对复杂的高速轨道客车通信场景变化，同时感知过程实现高可靠绿色通信，本发明可广泛应用于确定典型高速铁路场景(如高架桥、路堑、长隧道等)，具有明显的实际应用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图；

图1为本发明实施例所提供的一种基于分层强化学习的高速轨道客车无源感知通信一体化方法的流程示意图；

图2为本发明实施例所提供的一种基于分层强化学习的高速轨道客车无源感知通信一体化系统架构示意图；

图3为本发明实施例所提供的基于选项的分层强化学习算法和传统DQN算法的周期回报对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于分层强化学习的高铁自供电感知通信一体化交互方法，如图1所示，具体步骤如下：

S1、构建高速轨道客车无源感知通信一体化系统架构：所述系统架构包括与高速轨道客车远程通信的基站和高速轨道客车车厢，所述高速轨道客车车厢内包括接入节点和无源传感器；所述无源传感器从接入节点收集无线射频能量并向所述接入节点发送感知的列车状态信息；所述接入节点接收列车状态信息，并与所述基站进行远程通信；

S2、构建信息感知和远程通信模型：包括无源传感器射频能量收集模型、列车接入节点信息感知模型，以及接入节点与基站远程通信模型，利用高斯混合模型聚类方法进行远程通信切换区域划分，并获得参考切换节点，高速轨道客车运行过程中在所述参考切换节点切换与所述接入节点通信的基站；

S3、构建总体优化问题：以任务完成时间最小化为目标函数，建立联合优化模型，基于选项的分层强化学习算法训练所述联合优化模型，求解所述系统架构最优配置，获得满足目标函数下的最优交互策略；所述任务完成时间包括：无源传感器节点收集能量的时间、接入节点感知信息的时间，以及接入节点与远程基站的通信时间，所述联合优化模型包括对高速轨道客车能量传输、信息感知与远程通信动态自主切换过程的表征。

在一个实施例中，S1中，构建高速轨道客车无源感知通信一体化系统架构，所述系统架构包括K个与列车远程通信的基站和N节高速轨道客车车厢，高速轨道客车车厢内包括一个用于发射射频能量、感知信息和与基站通信的接入节点和M个不配备电池的无源传感器。每个传感器首先从接入节点收集无线射频能量，然后接入节点通过低功率反向通信技术感知列车状态信息。在接入节点与基站进行远程通信过程中，依据高斯混合模型聚类方法获得参考切换节点，完成高速轨道客车运行过程中通信切换。本发明所假设的场景具有实际的参考价值。

在一个实施例中，S2中，建立信息感知和远程通信模型，包括：

1)信息感知模型

接入节点以发射功率p_m将单位功率射频信号e_m发送到传感器节点，传感器节点S_m接收到的能量信号为：

其中，h_m是接入节点到传感器节点的下行链路信道增益，n_S是传感器节点噪声，噪声功率噪声服从圆对称复数高斯分布。

当传感器节点接收到射频信号之后，射频能量用于自身电路充电，收集传感器数据。在高速轨道客车中，无源传感器非线性能量收集模型表示为：

其中，P_H,m表示非线性能量收集模型的功率，辅助变量辅助函数a和b表示电路参数，P_max表示接入节点最大传输功率。

当传感器完成数据采集后，接入节点利用反射通信技术对传感器节点采集的数据进行信息感知，接入节点接收到的感知信息信号为：

其中，α_m表示反射比率，x_m表示传感器节点数据信号，g_m表示传感器节点到接入节点的上行链路信道增益，n_A表示电路噪声，服从圆对称复数高斯分布，噪声功率为与之相比，传感器节点噪声n_S由于过小被忽略。接入节点接收到传感器感知信息信号的通信速率为：

其中，B表示信道带宽。p_m|h_m|²表示来自其他链路的干扰。

2)远程通信模型

高速轨道客车运行过程中，接入节点需要与基站保持通信，基站接收到的通信信号为：

其中，z_n表示接入节点发送的单位功率信息信号，p_n表示接入节点发送信号的功率，n_B表示基站噪声，服从圆对称复数高斯分布，噪声功率为l_n表示高铁通信场景下接入节点到基站的信道增益，该信道增益表示为：

l_n＝ξexp(-j2πf_cτ_LOS) (6)

其中，ξ表示信道大尺度衰落因子，f_c表示载频，τ_LOS＝||D_Tx-D_Rx||/c表示通信信号视距链路的到达时间，||g||表示2范数函数，D_Tx和D_Rx表示接入节点与基站实时位置信息，c表示光速。接入节点位置信息D_Tx与高速轨道客车初始位置，运行速度和运行时间有关。

为了有效评估高速轨道客车接入节点与基站的通信情况，需要研究基站从接入节点接收信号时的通信速率:

在高速轨道客车运行过程中，为了满足高质量的无线通信服务要求，本发明提出利用高斯混合模型分析通信切换区域，提前得到参考切换点。高斯混合模型由多个高斯模型组合而成，用于描述参考切换点概率分布情况。假设所有的基站接收信号通信速率由给定参数的K个高斯分布混合向量r_i组成，i表示位置的索引。高斯混合概率密度函数表示为：

其中，高斯密度函数Θ＝{μ_k,Σ_k,ζ_k}表示位置数据和模型参数，ζ_k表示权重向量，/>μ_k和Σ_k表示通信速率高斯分布混合向量r_i的均值向量和方差向量。

假设采样得到的训练信号集合为R＝{r₁,r₂,...,r_i,...,r_I}，训练信号的对数似然函数为：

对于给定的训练信号集合和通信区域数量，通过使用期望最大化算法使对数似然函数最大化来估计参数Θ＝{μ_k,Σ_k,ζ_k}，依据集合中的混合高斯分量聚类结果划分接入节点与基站通信越区切换的范围，本发明将列车起点的位置设定为算法更新的初始值。通过拟合通信速率、速度和时间之间的关系，以获得预测值及其分布。在更新过程中，列车报告一组数据速率，然后计算出一个参考切换点结果并更新其分布。最后，该结果可以作为下次更新计算的先验信息。每个通信切换区域中心的位置由参数μ_k决定。预测值的可靠性由通信切换区域的形状和大小所代表的协方差Σ_k决定。

在一个实施例中，S3中，基于所述高速轨道客车无源感知通信一体化系统架构，结合传感器节点收集能量的时间接入节点感知信息的时间/>和接入节点与远程基站的通信时间/>建立联合优化模型，求解系统最优配置，获得最优传输策略，在满足接入节点感知信息速率、接入节点远程通信速率、接入节点能量以及传感器能量消耗等多重约束条件下，将任务完成时间最小化；

其中，C1、C2、C3和C4均为约束条件，C1表示接入节点感知信息速率约束，保证接入节点成功感知列车状态信息，r_A,m为接入节点感知信息的速率，r_A,min为接入节点感知信息速率的下界；C2表示接入节点远程通信速率约束，保证接入节点与基站进行远程通信，r_B,m为接入节点远程通信速率，r_B,min为远程通信速率的下界；C3表示接入节点能量约束，保证接入节点正常工作，为接入节点电源的总能量，E_T,n为接入节点向传感器节点充电消耗的能量，E_C,n为远程通信过程中接入节点消耗的能量；C4表示传感器能量消耗约束，传感器收集的能量要保证传感器正常工作，E_H,m为无源传感器收集的能量，E_C,m为数据采集过程中无源传感器消耗的能量。

在一个实施例中，S3中，基于选项的分层强化学习算法使用半马尔可夫决策过程模拟高速轨道客车感知和通信场景，包括状态集合、动作集合、选项集合、转换概率、总体奖励和奖励折扣因子；高速轨道客车接入节点作为一个单智能体，依据选项学习策略，在任务开始时，根据自己的初始状态选择选项，接入节点依据选项内的策略执行动作，在选项结束的时刻，到达该选项的总体奖励，再次根据状态信息，依据选项策略选择需要执行的选项，如此循环直到任务结束。

需要说明的是，在传统的马尔可夫决策过程中，当系统状态发生变化时，系统需要选择行动。然而，在基于选项的分层强化学习中，状态在两个决策时刻之间可能会发生多次变化，而只有决策时刻的状态与系统相关。

区别于传统马尔可夫决策过程，本发明实施例使用半马尔可夫决策过程模拟高速轨道客车感知和通信场景，半马尔可夫决策过程包含六个元组＜S,A,O,P,R,γ＞，其中S、A和O分别代表状态集合、动作集合和选项集合，P代表转换概率，R代表总体奖励，γ代表奖励折扣因子。高速轨道客车接入节点可以看作一个单智能体，依据选项学习策略ω，在任务开始时，根据自己的初始状态s₀选择选项o₀，接入节点依据选项o₀内的策略π执行动作，在选项o₀结束的时刻t，到达该选项的总体奖励R_t，再次根据状态信息s_t，依据选项策略ω选择需要执行的选项o_t，如此循环直到任务结束。

在一个实施例中，高速轨道客车接入节点的状态由四部分组成S@{S₁,S₂,S₃,S₄}，其中S₁表示远程通信连接概率，远程通信连接概率向量B＝{B₁,...,B_n,...,B_N}∈S₁，B_n∈[0,1]表示与对应基站的连接情况；S₂表示高速轨道客车位置，与远程通信链路的二维坐标有关；S₃表示传感器节点的剩余能量；S₄表示接入节点从传感器节点m感知信息情况，D＝{D₁,...,D_m,...,D_M}∈S₄，D_m∈[0,1]表示数据收集百分比。

在一个实施例中，高速轨道客车接入节点动作空间A包括三个动作：接入节点为传感器节点传输能量A_c，接入节点感知信息A_d和接入节点与基站进行远程通信A_r。

在一个实施例中，高速轨道客车接入节点执行的选项集合O包含感知信息o_d、传输能量o_c以及远程通信o_r三种选项，即O＝{o_r,o_d,o_c}，其中o_d＝{o₁,...,o_m,...o_M}表示接入节点从传感器节点m感知信息；o_c表示接入节点为传感器节点传输能量；o_r＝{o₁,...,o_n,...o_N}接入节点与基站n进行远程通信。每个选项可以看作是一系列动作的概括，均为一个三元组＜I,π,β＞，高速轨道客车接入节点在任意一个状态可选择的选项集合在选项集合O内，即I＝S。在本发明中每个选项内部的策略π均设定为固定策略，每个选项的终止条件β均为执行完其所有动作。

具体地，对于接入节点感知信息的选项o_d，其策略为从传感器节点利用反射通信收集该节点的数据，直到收集完毕退出当前选项；对于传输能量的选项o_c，其策略为接入节点通过广播的形式利用射频信号为传感器节点进行充电，直到电量充满退出选项；对于远程通信的选项o_r，其策略为接入节点与基站进行远程通信，通信区域切换完成退出选项。在仿真时，每个选项内部的策略不用进行训练。

高速轨道客车接入节点在每个选项的结束时刻t得到该选项的总体奖励R_t，R_t是选项初始状态s_t和选项动作o_t的函数。假设选项的总体奖励分为能量剩余奖励R_E、感知信息奖励R_D和远程通信奖励R_T。能量剩余奖励主要用于惩罚系统在执行该选项过程中电量不足的情况，即

其中，表示一个负常数，E_r表示剩余能量。感知信息奖励R_D用于惩罚接入节点重复选择已经完成采集的传感器，即

其中，表示一个负常数，远程通信奖励R_T用于惩罚接入节点重复选择已经完成通信切换的基站

最终，智能体经历一个选项得到的即时奖励R_t为上面三种奖励的和，即R_t＝R_E+R_D+R_T。

在一个实施例中，在Deep Q-Network(DQN)框架基础上，采用基于选项的分层强化学习算法来训练高速轨道客车，找到最优的策略来解决通信感知一体化问题。高速轨道客车与环境的交互过程中从前一个选项o_t-1退出，获得该选项的奖励R_t-1以及下一步的状态信息s_t。将当前状态信息s_t输入到值函数神经网络中，该网络由输入层、隐藏层和输出层组成，其中隐藏层由五个全连接层构成，第一个全连接网络包含1024个神经元，其激活函数采用修正线性单元(Rectified Linear Unit，简称ReLU)，第一层网络的输出为：

其中，W₁是第一层神经网络的权重参数，b₁是其偏差参数。第二层隐藏层的输入是第一层隐藏层的输出，第二层隐藏层由512个神经元构成，其激活函数与上一层相同，也采用ReLU函数，这一层的输出为：

其中，W₂是第二层神经网络的权重参数，b₂是其偏差参数。第三层隐藏层的输入是第二层隐藏层的输出，第三层隐藏层由256个神经元构成，其激活函数与上一层相同，也采用ReLU函数，这一层的输出为：

其中，W₃是第三层神经网络的权重参数，b₃是其偏差参数。第四层隐藏层的输入是第三层隐藏层的输出，第四层隐藏层由128个神经元构成，其激活函数与上一层相同，也采用ReLU函数，这一层的输出为：

其中，W₄是第四层神经网络的权重参数，b₄是其偏差参数。第五层隐藏层的输入是第四层隐藏层的输出，第五层隐藏层由64个神经元构成，其激活函数与上一层相同，也采用ReLU函数，这一层的输出为：

其中，W₅是第五层神经网络的权重参数，b₅是其偏差参数。输出层接受第五层网络的输出X₅并利用softmax激活函数输出|O|维向量o：

其中，W₆和b₆分别是输出层的权重参数和偏差参数，softmax是归一化指数函数。值函数神经网络网络的输出o是选择选项的概率，即

通过使用ε-greedy算法来找到最优选项。ε是0到1之间的一个较小的值，每次以ε的概率进行随机选择，以1-ε的概率用贪心算法进行选择，即选择选项中最大数值的索引作为要选择的选项o_t，贪心算法表示为：

在选项集合中选择o_t对应的策略π和终止条件β输出相应的动作，继续与环境进行交互。

在训练基于选项的分层强化学习算法时，设置高速轨道客车经验存储集合D＝{s_t,o_t,R_t,s_t+1}，s_t表示当前状态，o_t表示根据当前算法得到的选项动作，R_t表示总体即时反馈，s_t+1表示经过转换概率P系统转移到的下一个状态。采用经验回放和经验随机抽取的方式训练值函数神经网络Q^option。算法中值函数神经网络Q^option又称为评估网络，设置目标网络Q^target用于近似表示最优评估网络评估网络的损失函数表示为：

上式中E表示在经验存储集合D的期望函数，θ表示值函数神经网络Q^option中所有参数，其更新规则为：

θ_new＝θ_old-κ▽_θLoss(θ) (22)

其中，κ为学习速率，θ_new和θ_old分别表示评估网络更新后的参数和更新前的参数，损失函数的梯度▽_θLoss(θ)表示为：

▽_θLoss(θ)＝E[2(argmaxQ^target(s_t+1)+R_t-Q^option(s_t,o_t；θ))×▽_θQ^option(s_t,o_t；θ)] (23)

每隔一定的周期后，利用原有目标网络和当前估计网络的参数综合对目标网络进行更新，其更新规则为：

其中，ρ为更新速率，且ρ∈[0,1]，和/>分别表示目标网络Q^target更新后的参数和更新前的参数。

图3示出了本实施例提供的基于选项的分层强化学习算法的训练周期回报仿真结果。所提的基于选项的分层强化学习算法和传统DQN算法相比，基于选项的分层强化学习算法的周期回报上涨更为迅速，并且能够快速收敛，而传统DQN算法的周期回报则收敛速度较慢且波动较大，其最终的周期回报明显低于前者。说明所提的基于选项的分层强化学习算法利用直接学习策略的方式，相比传统DQN算法能更快学习到场景的含义，因此更适用于高速轨道客车高动态变化场景；而传统DQN算法每次只选择基本的动作，缺乏对高动态变化场景的整体考虑。

以上对本发明所提供的基于分层强化学习的高铁自供电感知通信一体化交互方法进行了详细介绍，本实施例中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本实施例中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本实施例所示的这些实施例，而是要符合与本实施例所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于分层强化学习的高铁自供电感知通信一体化交互方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于分层强化学习的高铁自供电感知通信一体化交互方法，其特征在于，所述无源传感器非线性能量收集模型的构建包括：

所述列车接入节点信息感知模型的构建包括：

3.根据权利要求1所述的基于分层强化学习的高铁自供电感知通信一体化交互方法，其特征在于，所述接入节点与基站远程通信模型的构建包括：

构建基站从接入节点接收信号时的通信速率模型；

4.根据权利要求1所述的基于分层强化学习的高铁自供电感知通信一体化交互方法，其特征在于，所述基于选项的分层强化学习算法使用半马尔可夫决策过程模拟高速轨道客车感知和通信场景，包括状态集合、动作集合、选项集合、转换概率、总体奖励和奖励折扣因子；高速轨道客车接入节点作为一个单智能体，依据选项学习策略，在任务开始时，根据自己的初始状态选择选项，接入节点依据选项内的策略执行动作，在选项结束的时刻，到达该选项的总体奖励，再次根据状态信息，依据选项策略选择需要执行的选项，如此循环直到任务结束。

5.根据权利要求4所述的基于分层强化学习的高铁自供电感知通信一体化交互方法，其特征在于，高速轨道客车接入节点的状态集合包括：远程通信连接概率、高速轨道客车位置、传感器节点的剩余能量和接入节点从传感器节点感知信息百分比；动作集合包括三个动作：接入节点为传感器节点传输能量、接入节点感知信息和接入节点与基站进行远程通信；选项集合包含感知信息、传输能量以及远程通信三种选项；选项的总体奖励分为能量剩余奖励、感知信息奖励和远程通信奖励。

6.根据权利要求4所述的基于分层强化学习的高铁自供电感知通信一体化交互方法，其特征在于，高速轨道客车接入节点在每个选项的结束时刻得到该选项的总体奖励，总体奖励是选项初始状态和选项动作的函数；其中，能量剩余奖励用于惩罚在执行该选项过程中电量不足的工况，感知信息奖励用于惩罚接入节点重复选择已经完成采集的无源传感器，远程通信奖励用于惩罚接入节点重复选择已经完成通信切换的基站。

7.根据权利要求4所述的基于分层强化学习的高铁自供电感知通信一体化交互方法，其特征在于，基于选项的分层强化学习算法首先将当前状态信息输入到值函数神经网络中，对应的输出为选择选项的概率；然后通过比较随机选择和贪心算法得到的数值索引找到最优选项；最后根据已选定的选项对应的策略和终止条件，输出相应的动作。

8.根据权利要求7所述的基于分层强化学习的高铁自供电感知通信一体化交互方法，其特征在于，基于选项的分层强化学习算法的值函数神经网络由输入层、隐藏层和输出层组成，输入层为状态信息和选项奖励，隐藏层由五个全连接层构成，激活函数采用修正线性单元，输出层采用softmax归一化指数函数得到选择选项的概率。

9.根据权利要求7所述的基于分层强化学习的高铁自供电感知通信一体化交互方法，其特征在于，采用经验随机抽取和经验回放的方式训练基于选项的分层强化学习算法的值函数神经网络，通过对损失函数求梯度的方式更新值函数神经网络参数，完成值函数神经网络参数的更新。