CN114338497A - 基于在线强化学习的列车车队数据路由系统及方法 - Google Patents

基于在线强化学习的列车车队数据路由系统及方法 Download PDF

Info

Publication number
CN114338497A
CN114338497A CN202111598690.1A CN202111598690A CN114338497A CN 114338497 A CN114338497 A CN 114338497A CN 202111598690 A CN202111598690 A CN 202111598690A CN 114338497 A CN114338497 A CN 114338497A
Authority
CN
China
Prior art keywords
train
module
data
routing
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111598690.1A
Other languages
English (en)
Other versions
CN114338497B (zh
Inventor
彭军
王成龙
李烁
杨迎泽
高凯
黄志武
刘伟荣
张晓勇
李恒
陈彬
张瑞
荣介奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202111598690.1A priority Critical patent/CN114338497B/zh
Publication of CN114338497A publication Critical patent/CN114338497A/zh
Application granted granted Critical
Publication of CN114338497B publication Critical patent/CN114338497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于在线强化学习的列车车队数据路由系统及方法,其中系统包括设置于列车车队中各列车成员内的列车通信装置和路由决策模块,以及设置于列车车队中头车内的训练模块;列车通信装置用于构建车队和进行组网;路由决策模块包括状态数据收集模块和神经网络路由决策模块,状态数据收集模块用于采集对应列车的通信状态信息和行驶状态信息;神经网络路由决策模块用于根据采集的数据进行路由决策,并将决策经验发送到头车;训练模块用于利用获取的决策经验对路由策略选择神经网络进行训练,并将训练完成后的路由策略选择神经网络参数反馈到各列车成员进行参数更新。本发明实现能够根据环境自适应调整的在线强化学习路由决策。

Description

基于在线强化学习的列车车队数据路由系统及方法
技术领域
本发明涉及数据路由技术领域,尤其涉及一种基于在线强化学习的列车车队数据路由系统、方法。
背景技术
随着轨道交通及其相关行业的不断发展,数据的交互变得愈发重要,尤其是在列车内部的数据交互对列车的行车安全至关重要。然而,日益增长的交互数据量和更加频繁的数据交互频率加剧了列车间通信冲突的概率,降低了通信的质量。为保证信息的有效可靠传递和避免通信冲突的发生,列车需要组成车队进行车队内部通信。但目前车队通信的相关研究和发明专利都是针对于机动车,对于列车车队通信的相关内容较少,因此本发明针对车队数据路由的方法设计展开。
发明内容
针对现有技术的不足,本发明提供了一种基于在线强化学习的列车车队数据路由系统及方法,能够自适应的根据列车行驶的状态信息和通信状态信息选择数据路由路线。
第一方面,提供了一种基于在线强化学习的列车车队数据路由系统,包括设置于列车车队中各列车成员内的列车通信装置和路由决策模块,以及设置于列车车队中头车内的训练模块;
所述列车通信装置用于构建车队和进行组网;
所述路由决策模块包括状态数据收集模块和神经网络路由决策模块,所述状态数据收集模块用于采集对应列车的通信状态信息和行驶状态信息;所述神经网络路由决策模块用于根据采集的通信状态信息和行驶状态信息进行路由决策,并将决策经验通过所述列车通信装置发送到所述头车;
所述训练模块用于利用获取的列车车队中各列车成员的决策经验对路由策略选择神经网络进行训练,并将训练完成后的路由策略选择神经网络参数通过列车通信装置反馈到各列车成员的神经网络路由决策模块进行参数更新。
进一步地,所述神经网络路由决策模块采用ε-贪婪算法进行路由列车节点选择,以ε的概率随机选择一个通信范围内的列车节点进行路由,以1-ε的概率以贪心思想计算神经网络路由决策模块当前路由策略选择神经网络Q值,选择一个信噪比最低且信道未被占用的列车节点进行路由,路由策略选择神经网络Q值计算公式如下:
Figure BDA0003431092610000021
其中,X表示列车的通信状态信息和行驶状态信息,X0表示当前列车的通信状态信息和行驶状态信息,a表示选择路由的列车节点编号,a0代表当前选择路由的列车节点编号,γ表示折扣因子,Ut表示路由的总时间;π表示从0到当前时刻p所选择的策略,E表示策略π下的总期望。
进一步地,头车中的训练模块包括路由策略选择神经网络和策略评估神经网络,训练模块训练过程包括:
随机抽取预设数量的决策经验作为训练集;
对于每个决策经验(Xt,at,Ut,Xt+1),将(Xt,at)作为路由策略选择神经网络的输入,Xt+1作为策略评估神经网络的输入,其中Xt表示t时刻的对应列车的通信状态信息和行驶状态信息,at代表t时刻路由选择的列车节点编号,Xt+1表示执行路由选择后的通信状态信息和行驶状态信息,Ut表示路由的总时间;
利用训练集对路由策略选择神经网络和策略评估神经网络进行训练:
通过下式计算路由策略选择神经网络的Q值Qπ(X,a;θ)和策略评估神经网络的Q值Qπ(X,a;θ):
Figure BDA0003431092610000022
其中,θ是路由策略选择神经网络的参数,θ-策略评估神经网络的参数;
再通过下式计算损失函数Lloss
Figure BDA0003431092610000023
其中,M表示训练集;
得到损失函数后,通过下式更新下一次训练周期路由策略选择神经网络参数:
Figure BDA0003431092610000024
其中,j和j+1分别表示训练周期j和下一训练周期j+1,η表示学习率;
重复上述步骤直到训练集中的决策经验全部完成训练。
进一步地,头车接收各列车成员的决策经验统一存放至决策经验池中,每次存放按顺序存放,超过最大容量后把存放最久的决策经验覆盖。
进一步地,所述列车通信装置包括数据包生成模块、数据发送模块、数据接收模块、收发转换器、数据控制模块和访问控制模块;所述数据包生成模块、数据发送模块、收发转换器依次连接,所述收发转换器、数据接收模块、访问控制模块、数据控制模块依次连接,所述数据控制模块还与所述数据发送模块、收发转换器连接。
进一步地,所述数据包生成模块用于周期性获取对应列车的通信状态信息和行驶状态信息,并根据获取的数据生成数据包和ACK帧,以等待发送使能信号进行发送传输;
其中,ACK帧包括增益控制信息、同步信息、数据长度信息和帧头CRC信息,数据包包括帧类型信息、神经网络路由决策模型信息、发送地址、接收地址、序列号、发送时间、通信状态信息、行驶状态信息和数据包CRC信息。
进一步地,数据包发送过程包括:
步骤1:数据包生成模块获取对应列车的通信状态信息和行驶状态信息完成后,数据包生成模块生成ACK帧准备向神经网络路由决策模块选择的列车成员发送;
步骤2:数据控制模块向数据发送模块传输发送使能信号,并将收发转换器工作状态调整至发送状态,由数据发送模块将ACK帧内容调制并发送;
步骤3:ACK帧发送完成后,数据控制模块将收发转换器工作状态调至接收状态以等待回复;收到回复的数据包通过数据接收模块进行解调,根据回复等待时间按下列情况进行下一步操作:
a:未收到ACK帧发送成功的回复或回复超时,则当前选择的列车成员不可用,回到步骤1,等待下一次传输;
b:收到ACK帧发送成功的回复,则将ACK帧发送成功信号传输至访问控制模块,等待访问控制模块确定退避时间。
进一步地,数据包接收过程包括:
数据接收模块将接收的数据包进行解调,解调后根据帧头CRC信息和数据包CRC信息进行校验,根据ACK帧和数据包内容输出ACK帧传输成功信号、数据包传输成功信号、或传输失败信号;
控制访问模块使用CSMA/CA协议根据数据接收模块所接收的结果进行访问控制,当接收到ACK帧传输成功信号时,判断数据包是否需要转发,如需转发,开始监听选择的列车成员的信道确定退避时间;
在退避时间倒计时结束后再次监听信道,如果信道闲则转发,如信道忙,则根据上述过程再次确定退避时间。
进一步地,数据控制模块和访问控制模块基于CSMA/CA协议进行访问控制,过程包括:
访问控制模块预设最大退避时隙数和最小退避时隙数;
监听神经网络路由决策模块选择的列车成员的信道,根据下述情况确定和完成退避时间:
A:若信道空闲且数据没有进行过重传时,将当前退避时隙数设置为最小退避时隙,退避时间从0到最小退避时隙数中随机选择一个数作为退避的时隙数,退避完成后发送数据;若信道忙且没有进行过退避时,退避时间从0到最小退避时隙数中随机选择一个数作为退避的时隙数,退避完成后再次重复退避时间确定过程;
B:在不满足A的情况下,且当前没有到达最大退避时隙数,翻倍当前退避时隙数,退避时间从0到当前时隙数中随机选择一个数作为退避的时隙数;
C:在不满足B的情况下,将当前退避时隙数设为最大退避时隙,退避时间从0到最大退避时隙数中随机选择一个数作为退避的时隙数;
D:在不满足C的情况下,不进行退避,检测信道是否空闲,若信道空闲则控制数据包生成模块发送数据包;若信道忙则发送数据传输失败信号,回到步骤1准备重传。
第二方面,提供了一种基于在线强化学习的列车车队数据路由方法,包括:
在列车车队中各列车成员内部署路由策略选择神经网络模型;
每个列车成员获取其通信状态信息和行驶状态信息,其内部署的路由策略选择神经网络模型根据获取的通信状态信息和行驶状态信息进行路由决策;
每个列车成员均将其决策经验发送到列车车队的头车中;
头车中部署训练模块,利用获取的各列车成员的决策经验对路由策略选择神经网络模型进行训练,并将训练完成后的路由策略选择神经网络模型参数反馈到各列车成员,以进行路由策略选择神经网络模型参数更新。
有益效果
本发明提出了一种基于在线强化学习的列车车队数据路由系统及方法,能够很好的解决列车车队通信的路由困难问题,能够自适应的根据自身通信环境选择路由节点。带来了以下几项优点:
(1)能够弥补当前相关列车数据路由研究领域的技术空缺,确保了列车车队内部信息的可靠信息交互;
(2)本发明能够根据通信状态信息和列车行驶状态信息,自适应的根据训练的路由策略选择神经网络调制路由路线和节点选择,保证数据的有效和可靠传输,提高了由于列车行驶过程中由于通信环境复杂且不可控带来的数据传输性能退化的问题;
(3)本发明提出的在线强化学习将强化学习的训练过程与路由决策过程分离,让头车承载相对较为耗时的训练过程的同时,其他列车可以根据当前的路由策略选择神经网络进行路由决策,使两个过程可以同时进行,能够根据车队内的列车通信状态,周围的通信环境动态的确定路由决策,有效的提升了路由决策的实时性和有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的列车车队数据路由系统结构示意图;
图2是本发明实施例提供的列车通信装置结构示意图;
图3是本发明实施例提供的头车的神经网络训练过程示意图;
图4是本发明实施例提供的列车成员的路由决策和参数更新过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
实施例1
如图1所示,本实施例提供了一种基于在线强化学习的列车车队数据路由系统,列车车队由多个列车通信装置组网构建而成,列车车队中包括列车成员的数量根据实际情况进行选择。该系统包括设置于列车车队中各列车成员内的列车通信装置和路由决策模块,以及设置于列车车队中头车内的训练模块;所述列车通信装置用于各列车成员间数据通信;
所述路由决策模块包括状态数据收集模块和神经网络路由决策模块,所述状态数据收集模块用于采集对应列车的通信状态信息和行驶状态信息;所述神经网络路由决策模块用于根据采集的通信状态信息和行驶状态信息进行路由决策,并将决策经验通过所述列车通信装置发送到所述头车;
所述训练模块用于利用获取的列车车队中各列车成员的决策经验对路由策略选择神经网络(即深度强化学习神经网络DQN)进行训练,并将训练完成后的路由策略选择神经网络参数通过列车通信装置反馈到各列车成员的神经网络路由决策模块进行参数更新,实现能够根据环境自适应调整的在线强化学习路由决策。
如图2所示,所述列车通信装置包括数据包生成模块、数据发送模块、数据接收模块、收发转换器、数据控制模块和访问控制模块;所述数据包生成模块、数据发送模块、收发转换器依次连接,所述收发转换器、数据接收模块、访问控制模块、数据控制模块依次连接,所述数据控制模块还与所述数据发送模块、收发转换器连接。
各列车成员的状态数据收集模块周期性(如每50ms,也可选择其他时间间隔)采集列车的行使状态信息(如列车经纬度信息、列车行驶速度信息)和通信状态信息(如可用无线通信频段信息、通信范围内的其他列车通信装置的通信状态信息),并将这些信息作为数据状态信息传输到数据包生成模块以备发送。
所述数据包生成模块用于周期性获取对应列车的通信状态信息和行驶状态信息,并根据获取的数据生成数据包和ACK帧,以等待发送使能信号进行发送传输;其中,ACK帧包括增益控制信息、同步信息、数据长度信息和帧头CRC信息,数据包包括帧类型信息、神经网络路由决策模型信息、发送地址、接收地址、序列号、发送时间、数据状态信息和数据包CRC信息。
数据发送模块、数据接收模块和收发转换器能够控制数据的收发切换。包括数据发送和接收两个部分。
(1)数据包发送与数据状态信息传输
当有数据包需要传输,列车通信装置根据选择的路由列车节点建立传输信道并开始监听,等待数据控制模块的发送使能信号。数据控制模块用于确定数据包发送的间隔,输入为ACK成功发送信号,当ACK帧成功发送时将发送使能信号置为1,传输到物理层的数据发送模块,控制数据包的发送。当ACK帧未成功发送时,将发送使能信号置为0,并将信号传输到访问控制模块进行回传。
数据发送模块同时也与数据控制模块相连,由数据控制模块控制数据包和ACK帧是否发送;数据发送模块与数据包生成模块和收发转换器相连,由数据包生成模块提供数据包和ACK帧,在模块内部通过QPSK调制方法调制成待发送信号,由该模块输出。同时数据包生成模块,接到ACK帧时会输出发送数据控制信号到收发转换器中,使收发转换器工作在发送状态。具体步骤如下
步骤1:获取状态信息发送ACK帧
数据包生成模块获取对应列车的通信状态信息和行驶状态信息完成后,数据包生成模块生成ACK帧准备向神经网络路由决策模块选择的列车成员发送;
步骤2:数据控制模块控制ACK帧发送
数据控制模块将传输至数据发送模块的发送使能信号置为1,并将收发转换器工作状态调整至发送状态,由数据发送模块将ACK帧内容调制并发送;
步骤3:等待传输成员回复
ACK帧发送完成后,数据控制模块将收发转换器工作状态调至接收状态以等待回复;收到回复的数据包通过数据接收模块进行解调,根据回复等待时间按下列情况进行下一步操作:
a:未收到ACK帧发送成功的回复或回复超时,则当前选择的列车成员不可用,回到步骤1,等待下一次传输;
b:收到ACK帧发送成功的回复,则将ACK帧发送成功信号传输至访问控制模块,等待访问控制模块确定退避时间。
(2)数据包接收与数据状态信息中转
数据接收模块与收发转换器相连,将接收的数据包进行解调,解调后根据所述数据包中的帧头CRC信息和数据包CRC信息进行校验。之后根据ACK帧和数据包内容输出ACK帧传输成功信号、数据包传输成功信号或传输失败信号到数据链路层中。
控制访问模块与物理层数据和数据控制模块相连,使用CSMA/CA协议根据数据接收模块所接收的结构进行访问控制;当接收到ACK帧传输成功信号后,判断数据包是否需要转发,如需转发,开始监听选择的列车成员的信道确定退避时间;
在退避时间倒计时结束后再次监听信道,如果信道闲则转发,如信道忙,则根据上述过程再次确定退避时间。
更具体地,数据控制模块和访问控制模块基于CSMA/CA协议进行访问控制,过程包括:
访问控制模块预设最大退避时隙数和最小退避时隙数;本实施例中,分别为64个时隙和8个时隙;
监听神经网络路由决策模块选择的列车成员的信道,根据下述情况确定和完成退避时间:
A:若信道空闲且数据没有进行过重传时,将当前退避时隙数设置为最小退避时隙,退避时间从0到最小退避时隙数中随机选择一个数作为退避的时隙数,退避完成后发送数据;若信道忙且没有进行过退避时,退避时间从0到最小退避时隙数中随机选择一个数作为退避的时隙数,退避完成后再次重复退避时间确定过程;
B:在不满足A的情况下,且当前没有到达最大退避时隙数,翻倍当前退避时隙数,退避时间从0到当前时隙数中随机选择一个数作为退避的时隙数;
C:在不满足B的情况下,将当前退避时隙数设为最大退避时隙,退避时间从0到最大退避时隙数中随机选择一个数作为退避的时隙数;
D:在不满足C的情况下,不进行退避,检测信道是否空闲,若信道空闲则控制数据包生成模块发送数据包;若信道忙则发送数据传输失败信号,回到步骤1准备重传。
本实施例中,所述神经网络路由决策模块采用ε-贪婪算法进行路由列车节点选择,以ε的概率随机选择一个通信范围内的列车节点进行路由,以1-ε的概率以贪心思想计算神经网络路由决策模块当前路由策略选择神经网络Q值,选择一个信噪比最低且信道未被占用的列车节点进行路由,路由策略选择神经网络Q值计算公式如下:
Figure BDA0003431092610000081
其中,X表示列车的通信状态信息和行驶状态信息,X0表示当前列车的通信状态信息和行驶状态信息,a表示选择路由的列车节点编号,a0代表当前选择路由的列车节点编号,γ表示折扣因子,Ut表示路由的总时间;π表示从0到当前时刻p所选择的策略,E表示策略π下的总期望。
本实施例中,由头车中的训练模块完成路由策略选择神经网络的训练,头车接收各列车成员的决策经验统一存放至决策经验池中,每次存放按顺序存放,超过最大容量(如50000条决策数据,也可根据需要设置其他的最大容量值)后把存放最久的决策经验覆盖。
具体的,如图3所示,训练模块包括路由策略选择神经网络和策略评估神经网络,训练模块训练过程包括:
周期性(如每600s,也可根据需要设置其他的时间间隔)随机抽取预设数量(如500,也可根据需要设置其他的预设数量)的决策经验作为训练集;
对于每个决策经验(Xt,at,Ut,Xt+1),将(Xt,at)作为路由策略选择神经网络的输入,Xt+1作为策略评估神经网络的输入,其中Xt表示t时刻的对应列车的通信状态信息和行驶状态信息,at代表t时刻路由选择的列车节点编号,Xt+1表示执行路由选择后的通信状态信息和行驶状态信息,Ut表示路由的总时间;
利用训练集对路由策略选择神经网络和策略评估神经网络进行训练:
通过下式计算路由策略选择神经网络的Q值Qπ(X,a;θ)和策略评估神经网络的Q值Qπ(X,a;θ):
Figure BDA0003431092610000082
其中,θ是路由策略选择神经网络的参数,θ-策略评估神经网络的参数;
再通过下式计算损失函数Lloss
Figure BDA0003431092610000091
其中,M表示训练集;
得到损失函数后,通过下式更新下一次训练周期路由策略选择神经网络参数:
Figure BDA0003431092610000092
其中,j和j+1分别表示训练周期j和下一训练周期j+1,η表示学习率;
重复上述步骤直到训练集中的决策经验全部完成训练;
记录路由时间和路线,将该信息和训练完成的路由策略选择神经网络参数信息通过列车通信装置发送到各列车成员以进行路由策略选择神经网络参数更新;同时收集后续的列车决策经验等待下一次训练过程。
图4所示是列车成员的路由决策和参数更新过程示意图,列车成员的神经网络路由决策模块根据当前的列车行驶状态信息和通信状态信息进行路由决策和建立通信信道,执行决策后将决策经验(Xt,at,Ut,Xt+1)封装为数据包发送到头车提供训练数据。同时根据头车训练的路由策略选择神经网络参数不断更新路由决策的神经网络,实现自适应的路由选择。
实施例2
本实施例提供了一种基于在线强化学习的列车车队数据路由方法,包括:
在列车车队中各列车成员内部署路由策略选择神经网络模型;
每个列车成员获取其通信状态信息和行驶状态信息,其内部署的路由策略选择神经网络模型根据获取的通信状态信息和行驶状态信息进行路由决策;
每个列车成员均将其决策经验发送到列车车队的头车中;
头车中部署训练模块,利用获取的各列车成员的决策经验对路由策略选择神经网络模型进行训练,并将训练完成后的路由策略选择神经网络模型参数反馈到各列车成员,以进行路由策略选择神经网络模型参数更新。
本实施例提供的基于在线强化学习的列车车队数据路由方法可基于实施例1提供的数据路由系统实现,其他具体实现方案可参见实施例1,在此不再进行赘述。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于在线强化学习的列车车队数据路由系统,其特征在于,包括设置于列车车队中各列车成员内的列车通信装置和路由决策模块,以及设置于列车车队中头车内的训练模块;
所述列车通信装置用于构建车队和进行组网;
所述路由决策模块包括状态数据收集模块和神经网络路由决策模块,所述状态数据收集模块用于采集对应列车的通信状态信息和行驶状态信息;所述神经网络路由决策模块用于根据采集的通信状态信息和行驶状态信息进行路由决策,并将决策经验通过所述列车通信装置发送到所述头车;
所述训练模块用于利用获取的列车车队中各列车成员的决策经验对路由策略选择神经网络进行训练,并将训练完成后的路由策略选择神经网络参数通过列车通信装置反馈到各列车成员的神经网络路由决策模块进行参数更新。
2.根据权利要求1所述的基于在线强化学习的列车车队数据路由系统,其特征在于,所述神经网络路由决策模块采用ε-贪婪算法进行路由列车节点选择,以ε的概率随机选择一个通信范围内的列车节点进行路由,以1-ε的概率以贪心思想计算神经网络路由决策模块当前路由策略选择神经网络Q值,选择一个信噪比最低且信道未被占用的列车节点进行路由,路由策略选择神经网络Q值计算公式如下:
Figure FDA0003431092600000011
其中,X表示列车的通信状态信息和行驶状态信息,X0表示当前列车的通信状态信息和行驶状态信息,a表示选择路由的列车节点编号,a0代表当前选择路由的列车节点编号,γ表示折扣因子,Ut表示路由的总时间;π表示从0到当前时刻p所选择的策略,E表示策略π下的总期望。
3.根据权利要求2所述的基于在线强化学习的列车车队数据路由系统,其特征在于,头车中的训练模块包括路由策略选择神经网络和策略评估神经网络,训练模块训练过程包括:
随机抽取预设数量的决策经验作为训练集;
对于每个决策经验(Xt,at,Ut,Xt+1),将(Xt,at)作为路由策略选择神经网络的输入,Xt+1作为策略评估神经网络的输入,其中Xt表示t时刻的对应列车的通信状态信息和行驶状态信息,at代表t时刻路由选择的列车节点编号,Xt+1表示执行路由选择后的通信状态信息和行驶状态信息,Ut表示路由的总时间;
利用训练集对路由策略选择神经网络和策略评估神经网络进行训练:
通过下式计算路由策略选择神经网络的Q值Qπ(X,a;θ)和策略评估神经网络的Q值Qπ(X,a;θ):
Figure FDA0003431092600000021
其中,θ是路由策略选择神经网络的参数,θ-策略评估神经网络的参数;
再通过下式计算损失函数Lloss
Figure FDA0003431092600000022
其中,M表示训练集;
得到损失函数后,通过下式更新下一次训练周期路由策略选择神经网络参数:
Figure FDA0003431092600000023
其中,j和j+1分别表示训练周期j和下一训练周期j+1,η表示学习率;
重复上述步骤直到训练集中的决策经验全部完成训练。
4.根据权利要求1所述的基于在线强化学习的列车车队数据路由系统,其特征在于,头车接收各列车成员的决策经验统一存放至决策经验池中,每次存放按顺序存放,超过最大容量后把存放最久的决策经验覆盖。
5.根据权利要求1所述的基于在线强化学习的列车车队数据路由系统,其特征在于,所述列车通信装置包括数据包生成模块、数据发送模块、数据接收模块、收发转换器、数据控制模块和访问控制模块;所述数据包生成模块、数据发送模块、收发转换器依次连接,所述收发转换器、数据接收模块、访问控制模块、数据控制模块依次连接,所述数据控制模块还与所述数据发送模块、收发转换器连接。
6.根据权利要求5所述的基于在线强化学习的列车车队数据路由系统,其特征在于,所述数据包生成模块用于周期性获取对应列车的通信状态信息和行驶状态信息,并根据获取的数据生成数据包和ACK帧,以等待发送使能信号进行发送传输;
其中,ACK帧包括增益控制信息、同步信息、数据长度信息和帧头CRC信息,数据包包括帧类型信息、神经网络路由决策模型信息、发送地址、接收地址、序列号、发送时间、通信状态信息、行驶状态信息和数据包CRC信息。
7.根据权利要求6所述的基于在线强化学习的列车车队数据路由系统,其特征在于,数据包发送过程包括:
步骤1:数据包生成模块获取对应列车的通信状态信息和行驶状态信息完成后,数据包生成模块生成ACK帧准备向神经网络路由决策模块选择的列车成员发送;
步骤2:数据控制模块向数据发送模块传输发送使能信号,并将收发转换器工作状态调整至发送状态,由数据发送模块将ACK帧内容调制并发送;
步骤3:ACK帧发送完成后,数据控制模块将收发转换器工作状态调至接收状态以等待回复;收到回复的数据包通过数据接收模块进行解调,根据回复等待时间按下列情况进行下一步操作:
a:未收到ACK帧发送成功的回复或回复超时,则当前选择的列车成员不可用,回到步骤1,等待下一次传输;
b:收到ACK帧发送成功的回复,则将ACK帧发送成功信号传输至访问控制模块,等待访问控制模块确定退避时间。
8.根据权利要求7所述的基于在线强化学习的列车车队数据路由系统,其特征在于,数据包接收过程包括:
数据接收模块将接收的数据包进行解调,解调后根据帧头CRC信息和数据包CRC信息进行校验,根据ACK帧和数据包内容输出ACK帧传输成功信号、数据包传输成功信号、或传输失败信号;
控制访问模块使用CSMA/CA协议根据数据接收模块所接收的结果进行访问控制,当接收到ACK帧传输成功信号时,判断数据包是否需要转发,如需转发,开始监听选择的列车成员的信道确定退避时间;
在退避时间倒计时结束后再次监听信道,如果信道闲则转发,如信道忙,则根据上述过程再次确定退避时间。
9.根据权利要求7所述的基于在线强化学习的列车车队数据路由系统,其特征在于,数据控制模块和访问控制模块基于CSMA/CA协议进行访问控制,过程包括:
访问控制模块预设最大退避时隙数和最小退避时隙数;
监听神经网络路由决策模块选择的列车成员的信道,根据下述情况确定和完成退避时间:
A:若信道空闲且数据没有进行过重传时,将当前退避时隙数设置为最小退避时隙,退避时间从0到最小退避时隙数中随机选择一个数作为退避的时隙数,退避完成后发送数据;若信道忙且没有进行过退避时,退避时间从0到最小退避时隙数中随机选择一个数作为退避的时隙数,退避完成后再次重复退避时间确定过程;
B:在不满足A的情况下,且当前没有到达最大退避时隙数,翻倍当前退避时隙数,退避时间从0到当前时隙数中随机选择一个数作为退避的时隙数;
C:在不满足B的情况下,将当前退避时隙数设为最大退避时隙,退避时间从0到最大退避时隙数中随机选择一个数作为退避的时隙数;
D:在不满足C的情况下,不进行退避,检测信道是否空闲,若信道空闲则控制数据包生成模块发送数据包;若信道忙则发送数据传输失败信号,回到步骤1准备重传。
10.一种基于在线强化学习的列车车队数据路由方法,其特征在于,包括:
在列车车队中各列车成员内部署路由策略选择神经网络模型;
每个列车成员获取其通信状态信息和行驶状态信息,其内部署的路由策略选择神经网络模型根据获取的通信状态信息和行驶状态信息进行路由决策;
每个列车成员均将其决策经验发送到列车车队的头车中;
头车中部署训练模块,利用获取的各列车成员的决策经验对路由策略选择神经网络模型进行训练,并将训练完成后的路由策略选择神经网络模型参数反馈到各列车成员,以进行路由策略选择神经网络模型参数更新。
CN202111598690.1A 2021-12-24 2021-12-24 基于在线强化学习的列车车队数据路由系统及方法 Active CN114338497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111598690.1A CN114338497B (zh) 2021-12-24 2021-12-24 基于在线强化学习的列车车队数据路由系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111598690.1A CN114338497B (zh) 2021-12-24 2021-12-24 基于在线强化学习的列车车队数据路由系统及方法

Publications (2)

Publication Number Publication Date
CN114338497A true CN114338497A (zh) 2022-04-12
CN114338497B CN114338497B (zh) 2022-10-11

Family

ID=81013931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111598690.1A Active CN114338497B (zh) 2021-12-24 2021-12-24 基于在线强化学习的列车车队数据路由系统及方法

Country Status (1)

Country Link
CN (1) CN114338497B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017218447A1 (en) * 2016-06-13 2017-12-21 Siemens Industry, Inc. System and method for train route optimization including machine learning system
CN110611619A (zh) * 2019-09-12 2019-12-24 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
US20200125955A1 (en) * 2018-10-23 2020-04-23 International Business Machines Corporation Efficiently learning from highly-diverse data sets
CN111369181A (zh) * 2020-06-01 2020-07-03 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和模块
CN111416771A (zh) * 2020-03-20 2020-07-14 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
US20200241921A1 (en) * 2019-01-28 2020-07-30 EMC IP Holding Company LLC Building neural networks for resource allocation for iterative workloads using reinforcement learning
CN112202848A (zh) * 2020-09-15 2021-01-08 中国科学院计算技术研究所 基于深度强化学习的无人系统网络自适应路由方法和系统
CN113824641A (zh) * 2021-10-13 2021-12-21 武汉理工大学 车联网路由方法、系统、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017218447A1 (en) * 2016-06-13 2017-12-21 Siemens Industry, Inc. System and method for train route optimization including machine learning system
US20200125955A1 (en) * 2018-10-23 2020-04-23 International Business Machines Corporation Efficiently learning from highly-diverse data sets
US20200241921A1 (en) * 2019-01-28 2020-07-30 EMC IP Holding Company LLC Building neural networks for resource allocation for iterative workloads using reinforcement learning
CN110611619A (zh) * 2019-09-12 2019-12-24 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN111416771A (zh) * 2020-03-20 2020-07-14 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
CN111369181A (zh) * 2020-06-01 2020-07-03 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和模块
CN112202848A (zh) * 2020-09-15 2021-01-08 中国科学院计算技术研究所 基于深度强化学习的无人系统网络自适应路由方法和系统
CN113824641A (zh) * 2021-10-13 2021-12-21 武汉理工大学 车联网路由方法、系统、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENGLONG WANG;JUN PENG;FU JIANG;XIAOYONG ZHANG;WEIRONG LIU;XIN: "An Adaptive Deep Q-learning Service Migration Decision Framework for Connected Vehicles", 《2020 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND CYBERNETICS (SMC)》 *
彭军等: "一种车载服务的快速深度Q学习网络边云迁移策略", 《电子与信息学报》 *
彭军等: "基于LTE D2D技术的车联网通信架构与数据分发策略研究", 《通信学报》 *

Also Published As

Publication number Publication date
CN114338497B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
EP3289799B1 (en) Method for managing in an adaptive and joint way the routing policy and the retransmission policy of a node in an underwater network
CN105657777B (zh) 基于链路质量和节点转发能力的路由协议设计方法
Bharati et al. CAH-MAC: cooperative ADHOC MAC for vehicular networks
Wu et al. VANET broadcast protocol based on fuzzy logic and lightweight retransmission mechanism
CN102387559B (zh) 无线Mesh网络的跨层路由优化的方法及装置
WO2006073038A1 (ja) 無線通信装置
EP2339880B1 (en) Communicating device and method of controlling said communicating device
Pressas et al. Contention-based learning MAC protocol for broadcast vehicle-to-vehicle communication
US7746837B2 (en) Overhear-based transmitting control system in WLANS
Pressas et al. A Q-learning approach with collective contention estimation for bandwidth-efficient and fair access control in IEEE 802.11 p vehicular networks
Lin et al. Distributed multi-channel MAC protocol for VANET: An adaptive frame structure scheme
WO2008145816A1 (en) Transmission resource reservation management in wireless network
CN104754746A (zh) 车载自组织网络中基于簇的多信道协作mac协议实现方法
CN108616952B (zh) 一种车联网中基于邻居节点协作通信的mac层数据传输方法
Mosavat-Jahromi et al. NC–MAC: A distributed MAC protocol for reliable beacon broadcasting in V2X
CN114338497B (zh) 基于在线强化学习的列车车队数据路由系统及方法
CN112822751B (zh) 一种混合式无线网络路由方法
JP4767062B2 (ja) 無線アクセスポイント及びこの無線アクセスポイントを管理する制御装置
Yackoski et al. Networking with cooperative communications: Holistic design and realistic evaluation
CN111601278A (zh) 一种软件定义的异构车联网接入管理与优化方法
Shirazi et al. Markov decision process frameworks for cooperative retransmission in wireless networks
CN103986563B (zh) 瑞利信道下基于etx值的多包反馈机会路由的数据传输方法
CN106162736A (zh) 面向车联网的自适应的介质访问控制方法
CN103441827B (zh) 基于物理层信道质量估计约束的避退方法
CN113411779B (zh) 一种保证可靠性的车联网用户容量最大化设计方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant