CN114338497B

CN114338497B - 基于在线强化学习的列车车队数据路由系统及方法

Info

Publication number: CN114338497B
Application number: CN202111598690.1A
Authority: CN
Inventors: 彭军; 王成龙; 李烁; 杨迎泽; 高凯; 黄志武; 刘伟荣; 张晓勇; 李恒; 陈彬; 张瑞; 荣介奇
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-10-11
Anticipated expiration: 2041-12-24
Also published as: CN114338497A

Abstract

本发明公开了一种基于在线强化学习的列车车队数据路由系统及方法，其中系统包括设置于列车车队中各列车成员内的列车通信装置和路由决策模块，以及设置于列车车队中头车内的训练模块；列车通信装置用于构建车队和进行组网；路由决策模块包括状态数据收集模块和神经网络路由决策模块，状态数据收集模块用于采集对应列车的通信状态信息和行驶状态信息；神经网络路由决策模块用于根据采集的数据进行路由决策，并将决策经验发送到头车；训练模块用于利用获取的决策经验对路由策略选择神经网络进行训练，并将训练完成后的路由策略选择神经网络参数反馈到各列车成员进行参数更新。本发明实现能够根据环境自适应调整的在线强化学习路由决策。

Description

基于在线强化学习的列车车队数据路由系统及方法

技术领域

本发明涉及数据路由技术领域，尤其涉及一种基于在线强化学习的列车车队数据路由系统、方法。

背景技术

随着轨道交通及其相关行业的不断发展，数据的交互变得愈发重要，尤其是在列车内部的数据交互对列车的行车安全至关重要。然而，日益增长的交互数据量和更加频繁的数据交互频率加剧了列车间通信冲突的概率，降低了通信的质量。为保证信息的有效可靠传递和避免通信冲突的发生，列车需要组成车队进行车队内部通信。但目前车队通信的相关研究和发明专利都是针对于机动车，对于列车车队通信的相关内容较少，因此本发明针对车队数据路由的方法设计展开。

发明内容

针对现有技术的不足，本发明提供了一种基于在线强化学习的列车车队数据路由系统及方法，能够自适应的根据列车行驶的状态信息和通信状态信息选择数据路由路线。

第一方面，提供了一种基于在线强化学习的列车车队数据路由系统，包括设置于列车车队中各列车成员内的列车通信装置和路由决策模块，以及设置于列车车队中头车内的训练模块；

所述列车通信装置用于构建车队和进行组网；

所述路由决策模块包括状态数据收集模块和神经网络路由决策模块，所述状态数据收集模块用于采集对应列车的通信状态信息和行驶状态信息；所述神经网络路由决策模块用于根据采集的通信状态信息和行驶状态信息进行路由决策，并将决策经验通过所述列车通信装置发送到所述头车；

所述训练模块用于利用获取的列车车队中各列车成员的决策经验对路由策略选择神经网络进行训练，并将训练完成后的路由策略选择神经网络参数通过列车通信装置反馈到各列车成员的神经网络路由决策模块进行参数更新。

进一步地，所述神经网络路由决策模块采用ε-贪婪算法进行路由列车节点选择，以ε的概率随机选择一个通信范围内的列车节点进行路由，以1-ε的概率以贪心思想计算神经网络路由决策模块当前路由策略选择神经网络Q值，选择一个信噪比最低且信道未被占用的列车节点进行路由，路由策略选择神经网络Q值计算公式如下：

其中，X表示列车的通信状态信息和行驶状态信息，X₀表示当前列车的通信状态信息和行驶状态信息，a表示选择路由的列车节点编号，a₀代表当前选择路由的列车节点编号，γ表示折扣因子，U_t表示路由的总时间；π表示从0到当前时刻p所选择的策略，E表示策略π下的总期望。

进一步地，头车中的训练模块包括路由策略选择神经网络和策略评估神经网络，训练模块训练过程包括：

随机抽取预设数量的决策经验作为训练集；

对于每个决策经验(X_t,a_t,U_t,X_t+1)，将(X_t,a_t)作为路由策略选择神经网络的输入，X_t+1作为策略评估神经网络的输入，其中X_t表示t时刻的对应列车的通信状态信息和行驶状态信息，a_t代表t时刻路由选择的列车节点编号，X_t+1表示执行路由选择后的通信状态信息和行驶状态信息，U_t表示路由的总时间；

利用训练集对路由策略选择神经网络和策略评估神经网络进行训练：

通过下式计算路由策略选择神经网络的Q值Q_π(X,a；θ)和策略评估神经网络的Q值Q_π(X,a；θ^—)：

其中，θ是路由策略选择神经网络的参数，θ^-策略评估神经网络的参数；

再通过下式计算损失函数L_loss：

其中，M表示训练集；

得到损失函数后，通过下式更新下一次训练周期路由策略选择神经网络参数：

其中，j和j+1分别表示训练周期j和下一训练周期j+1，η表示学习率；

重复上述步骤直到训练集中的决策经验全部完成训练。

进一步地，头车接收各列车成员的决策经验统一存放至决策经验池中，每次存放按顺序存放，超过最大容量后把存放最久的决策经验覆盖。

进一步地，所述列车通信装置包括数据包生成模块、数据发送模块、数据接收模块、收发转换器、数据控制模块和访问控制模块；所述数据包生成模块、数据发送模块、收发转换器依次连接，所述收发转换器、数据接收模块、访问控制模块、数据控制模块依次连接，所述数据控制模块还与所述数据发送模块、收发转换器连接。

进一步地，所述数据包生成模块用于周期性获取对应列车的通信状态信息和行驶状态信息，并根据获取的数据生成数据包和ACK帧，以等待发送使能信号进行发送传输；

其中，ACK帧包括增益控制信息、同步信息、数据长度信息和帧头CRC信息，数据包包括帧类型信息、神经网络路由决策模型信息、发送地址、接收地址、序列号、发送时间、通信状态信息、行驶状态信息和数据包CRC信息。

进一步地，数据包发送过程包括：

步骤1：数据包生成模块获取对应列车的通信状态信息和行驶状态信息完成后，数据包生成模块生成ACK帧准备向神经网络路由决策模块选择的列车成员发送；

步骤2：数据控制模块向数据发送模块传输发送使能信号，并将收发转换器工作状态调整至发送状态，由数据发送模块将ACK帧内容调制并发送；

步骤3：ACK帧发送完成后，数据控制模块将收发转换器工作状态调至接收状态以等待回复；收到回复的数据包通过数据接收模块进行解调，根据回复等待时间按下列情况进行下一步操作：

a:未收到ACK帧发送成功的回复或回复超时，则当前选择的列车成员不可用，回到步骤1，等待下一次传输；

b：收到ACK帧发送成功的回复，则将ACK帧发送成功信号传输至访问控制模块，等待访问控制模块确定退避时间。

进一步地，数据包接收过程包括：

数据接收模块将接收的数据包进行解调，解调后根据帧头CRC信息和数据包CRC信息进行校验，根据ACK帧和数据包内容输出ACK帧传输成功信号、数据包传输成功信号、或传输失败信号；

控制访问模块使用CSMA/CA协议根据数据接收模块所接收的结果进行访问控制，当接收到ACK帧传输成功信号时，判断数据包是否需要转发，如需转发，开始监听选择的列车成员的信道确定退避时间；

在退避时间倒计时结束后再次监听信道，如果信道闲则转发，如信道忙，则根据上述过程再次确定退避时间。

进一步地，数据控制模块和访问控制模块基于CSMA/CA协议进行访问控制，过程包括：

访问控制模块预设最大退避时隙数和最小退避时隙数；

监听神经网络路由决策模块选择的列车成员的信道，根据下述情况确定和完成退避时间：

A:若信道空闲且数据没有进行过重传时，将当前退避时隙数设置为最小退避时隙，退避时间从0到最小退避时隙数中随机选择一个数作为退避的时隙数,退避完成后发送数据；若信道忙且没有进行过退避时，退避时间从0到最小退避时隙数中随机选择一个数作为退避的时隙数，退避完成后再次重复退避时间确定过程；

B：在不满足A的情况下，且当前没有到达最大退避时隙数，翻倍当前退避时隙数，退避时间从0到当前时隙数中随机选择一个数作为退避的时隙数；

C：在不满足B的情况下，将当前退避时隙数设为最大退避时隙，退避时间从0到最大退避时隙数中随机选择一个数作为退避的时隙数；

D：在不满足C的情况下，不进行退避，检测信道是否空闲，若信道空闲则控制数据包生成模块发送数据包；若信道忙则发送数据传输失败信号，回到步骤1准备重传。

第二方面，提供了一种基于在线强化学习的列车车队数据路由方法，包括：

在列车车队中各列车成员内部署路由策略选择神经网络模型；

每个列车成员获取其通信状态信息和行驶状态信息，其内部署的路由策略选择神经网络模型根据获取的通信状态信息和行驶状态信息进行路由决策；

每个列车成员均将其决策经验发送到列车车队的头车中；

头车中部署训练模块，利用获取的各列车成员的决策经验对路由策略选择神经网络模型进行训练，并将训练完成后的路由策略选择神经网络模型参数反馈到各列车成员，以进行路由策略选择神经网络模型参数更新。

有益效果

本发明提出了一种基于在线强化学习的列车车队数据路由系统及方法，能够很好的解决列车车队通信的路由困难问题，能够自适应的根据自身通信环境选择路由节点。带来了以下几项优点：

(1)能够弥补当前相关列车数据路由研究领域的技术空缺，确保了列车车队内部信息的可靠信息交互；

(2)本发明能够根据通信状态信息和列车行驶状态信息，自适应的根据训练的路由策略选择神经网络调制路由路线和节点选择，保证数据的有效和可靠传输，提高了由于列车行驶过程中由于通信环境复杂且不可控带来的数据传输性能退化的问题；

(3)本发明提出的在线强化学习将强化学习的训练过程与路由决策过程分离，让头车承载相对较为耗时的训练过程的同时，其他列车可以根据当前的路由策略选择神经网络进行路由决策，使两个过程可以同时进行，能够根据车队内的列车通信状态，周围的通信环境动态的确定路由决策，有效的提升了路由决策的实时性和有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的列车车队数据路由系统结构示意图；

图2是本发明实施例提供的列车通信装置结构示意图；

图3是本发明实施例提供的头车的神经网络训练过程示意图；

图4是本发明实施例提供的列车成员的路由决策和参数更新过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

实施例1

如图1所示，本实施例提供了一种基于在线强化学习的列车车队数据路由系统，列车车队由多个列车通信装置组网构建而成，列车车队中包括列车成员的数量根据实际情况进行选择。该系统包括设置于列车车队中各列车成员内的列车通信装置和路由决策模块，以及设置于列车车队中头车内的训练模块；所述列车通信装置用于各列车成员间数据通信；

所述训练模块用于利用获取的列车车队中各列车成员的决策经验对路由策略选择神经网络(即深度强化学习神经网络DQN)进行训练，并将训练完成后的路由策略选择神经网络参数通过列车通信装置反馈到各列车成员的神经网络路由决策模块进行参数更新，实现能够根据环境自适应调整的在线强化学习路由决策。

如图2所示，所述列车通信装置包括数据包生成模块、数据发送模块、数据接收模块、收发转换器、数据控制模块和访问控制模块；所述数据包生成模块、数据发送模块、收发转换器依次连接，所述收发转换器、数据接收模块、访问控制模块、数据控制模块依次连接，所述数据控制模块还与所述数据发送模块、收发转换器连接。

各列车成员的状态数据收集模块周期性(如每50ms，也可选择其他时间间隔)采集列车的行使状态信息(如列车经纬度信息、列车行驶速度信息)和通信状态信息(如可用无线通信频段信息、通信范围内的其他列车通信装置的通信状态信息)，并将这些信息作为数据状态信息传输到数据包生成模块以备发送。

所述数据包生成模块用于周期性获取对应列车的通信状态信息和行驶状态信息，并根据获取的数据生成数据包和ACK帧，以等待发送使能信号进行发送传输；其中，ACK帧包括增益控制信息、同步信息、数据长度信息和帧头CRC信息，数据包包括帧类型信息、神经网络路由决策模型信息、发送地址、接收地址、序列号、发送时间、数据状态信息和数据包CRC信息。

数据发送模块、数据接收模块和收发转换器能够控制数据的收发切换。包括数据发送和接收两个部分。

(1)数据包发送与数据状态信息传输

当有数据包需要传输，列车通信装置根据选择的路由列车节点建立传输信道并开始监听，等待数据控制模块的发送使能信号。数据控制模块用于确定数据包发送的间隔，输入为ACK成功发送信号，当ACK帧成功发送时将发送使能信号置为1，传输到物理层的数据发送模块，控制数据包的发送。当ACK帧未成功发送时，将发送使能信号置为0，并将信号传输到访问控制模块进行回传。

数据发送模块同时也与数据控制模块相连，由数据控制模块控制数据包和ACK帧是否发送；数据发送模块与数据包生成模块和收发转换器相连，由数据包生成模块提供数据包和ACK帧，在模块内部通过QPSK调制方法调制成待发送信号，由该模块输出。同时数据包生成模块，接到ACK帧时会输出发送数据控制信号到收发转换器中，使收发转换器工作在发送状态。具体步骤如下

步骤1：获取状态信息发送ACK帧

数据包生成模块获取对应列车的通信状态信息和行驶状态信息完成后，数据包生成模块生成ACK帧准备向神经网络路由决策模块选择的列车成员发送；

步骤2：数据控制模块控制ACK帧发送

数据控制模块将传输至数据发送模块的发送使能信号置为1，并将收发转换器工作状态调整至发送状态，由数据发送模块将ACK帧内容调制并发送；

步骤3：等待传输成员回复

ACK帧发送完成后，数据控制模块将收发转换器工作状态调至接收状态以等待回复；收到回复的数据包通过数据接收模块进行解调，根据回复等待时间按下列情况进行下一步操作：

(2)数据包接收与数据状态信息中转

数据接收模块与收发转换器相连，将接收的数据包进行解调，解调后根据所述数据包中的帧头CRC信息和数据包CRC信息进行校验。之后根据ACK帧和数据包内容输出ACK帧传输成功信号、数据包传输成功信号或传输失败信号到数据链路层中。

控制访问模块与物理层数据和数据控制模块相连，使用CSMA/CA协议根据数据接收模块所接收的结构进行访问控制；当接收到ACK帧传输成功信号后，判断数据包是否需要转发，如需转发，开始监听选择的列车成员的信道确定退避时间；

更具体地，数据控制模块和访问控制模块基于CSMA/CA协议进行访问控制，过程包括：

访问控制模块预设最大退避时隙数和最小退避时隙数；本实施例中，分别为64个时隙和8个时隙；

本实施例中，所述神经网络路由决策模块采用ε-贪婪算法进行路由列车节点选择，以ε的概率随机选择一个通信范围内的列车节点进行路由，以1-ε的概率以贪心思想计算神经网络路由决策模块当前路由策略选择神经网络Q值，选择一个信噪比最低且信道未被占用的列车节点进行路由，路由策略选择神经网络Q值计算公式如下：

本实施例中，由头车中的训练模块完成路由策略选择神经网络的训练，头车接收各列车成员的决策经验统一存放至决策经验池中，每次存放按顺序存放，超过最大容量(如50000条决策数据，也可根据需要设置其他的最大容量值)后把存放最久的决策经验覆盖。

具体的，如图3所示，训练模块包括路由策略选择神经网络和策略评估神经网络，训练模块训练过程包括：

周期性(如每600s，也可根据需要设置其他的时间间隔)随机抽取预设数量(如500，也可根据需要设置其他的预设数量)的决策经验作为训练集；

再通过下式计算损失函数L_loss：

其中，M表示训练集；

重复上述步骤直到训练集中的决策经验全部完成训练；

记录路由时间和路线，将该信息和训练完成的路由策略选择神经网络参数信息通过列车通信装置发送到各列车成员以进行路由策略选择神经网络参数更新；同时收集后续的列车决策经验等待下一次训练过程。

图4所示是列车成员的路由决策和参数更新过程示意图，列车成员的神经网络路由决策模块根据当前的列车行驶状态信息和通信状态信息进行路由决策和建立通信信道，执行决策后将决策经验(X_t,a_t,U_t,X_t+1)封装为数据包发送到头车提供训练数据。同时根据头车训练的路由策略选择神经网络参数不断更新路由决策的神经网络，实现自适应的路由选择。

实施例2

本实施例提供了一种基于在线强化学习的列车车队数据路由方法，包括：

每个列车成员均将其决策经验发送到列车车队的头车中；

本实施例提供的基于在线强化学习的列车车队数据路由方法可基于实施例1提供的数据路由系统实现，其他具体实现方案可参见实施例1，在此不再进行赘述。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于在线强化学习的列车车队数据路由系统，其特征在于，包括设置于列车车队中各列车成员内的列车通信装置和路由决策模块，以及设置于列车车队中头车内的训练模块；

所述列车通信装置用于构建车队和进行组网；

所述训练模块用于利用获取的列车车队中各列车成员的决策经验对路由策略选择神经网络进行训练，并将训练完成后的路由策略选择神经网络参数通过列车通信装置反馈到各列车成员的神经网络路由决策模块进行参数更新；

所述神经网络路由决策模块采用ε-贪婪算法进行路由列车节点选择，以ε的概率随机选择一个通信范围内的列车节点进行路由，以1-ε的概率以贪心思想计算神经网络路由决策模块当前路由策略选择神经网络Q值，选择一个信噪比最低且信道未被占用的列车节点进行路由，路由策略选择神经网络Q值计算公式如下：

其中，X表示列车的通信状态信息和行驶状态信息，X₀表示当前列车的通信状态信息和行驶状态信息，a表示选择路由的列车节点编号，a₀代表当前选择路由的列车节点编号，γ表示折扣因子，U_t表示路由的总时间；π表示从0到当前时刻p所选择的策略，E表示策略π下的总期望；

头车中的训练模块包括路由策略选择神经网络和策略评估神经网络，训练模块训练过程包括：

随机抽取预设数量的决策经验作为训练集；

再通过下式计算损失函数L_loss：

其中，M表示训练集；

重复上述步骤直到训练集中的决策经验全部完成训练。

2.根据权利要求1所述的基于在线强化学习的列车车队数据路由系统，其特征在于，头车接收各列车成员的决策经验统一存放至决策经验池中，每次存放按顺序存放，超过最大容量后把存放最久的决策经验覆盖。

3.根据权利要求1所述的基于在线强化学习的列车车队数据路由系统，其特征在于，所述列车通信装置包括数据包生成模块、数据发送模块、数据接收模块、收发转换器、数据控制模块和访问控制模块；所述数据包生成模块、数据发送模块、收发转换器依次连接，所述收发转换器、数据接收模块、访问控制模块、数据控制模块依次连接，所述数据控制模块还与所述数据发送模块、收发转换器连接。

4.根据权利要求3所述的基于在线强化学习的列车车队数据路由系统，其特征在于，所述数据包生成模块用于周期性获取对应列车的通信状态信息和行驶状态信息，并根据获取的数据生成数据包和ACK帧，以等待发送使能信号进行发送传输；

5.根据权利要求4所述的基于在线强化学习的列车车队数据路由系统，其特征在于，数据包发送过程包括：

6.根据权利要求5所述的基于在线强化学习的列车车队数据路由系统，其特征在于，数据包接收过程包括：

7.根据权利要求5所述的基于在线强化学习的列车车队数据路由系统，其特征在于，数据控制模块和访问控制模块基于CSMA/CA协议进行访问控制，过程包括：

访问控制模块预设最大退避时隙数和最小退避时隙数；

8.一种基于在线强化学习的列车车队数据路由方法，其特征在于，包括：

每个列车成员均将其决策经验发送到列车车队的头车中；

头车中部署训练模块，利用获取的各列车成员的决策经验对路由策略选择神经网络模型进行训练，并将训练完成后的路由策略选择神经网络模型参数反馈到各列车成员，以进行路由策略选择神经网络模型参数更新；

随机抽取预设数量的决策经验作为训练集；

再通过下式计算损失函数L_loss：

其中，M表示训练集；

重复上述步骤直到训练集中的决策经验全部完成训练。