CN117485410B - 一种列车运行控制系统的数据通信系统及方法 - Google Patents

一种列车运行控制系统的数据通信系统及方法 Download PDF

Info

Publication number
CN117485410B
CN117485410B CN202410000926.4A CN202410000926A CN117485410B CN 117485410 B CN117485410 B CN 117485410B CN 202410000926 A CN202410000926 A CN 202410000926A CN 117485410 B CN117485410 B CN 117485410B
Authority
CN
China
Prior art keywords
data
value
network
train
access point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410000926.4A
Other languages
English (en)
Other versions
CN117485410A (zh
Inventor
蔡方凯
付宁
赵婧
陈思利
詹伟艺
王桥梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Technological University CDTU
Original Assignee
Chengdu Technological University CDTU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Technological University CDTU filed Critical Chengdu Technological University CDTU
Priority to CN202410000926.4A priority Critical patent/CN117485410B/zh
Publication of CN117485410A publication Critical patent/CN117485410A/zh
Application granted granted Critical
Publication of CN117485410B publication Critical patent/CN117485410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/70Details of trackside communication
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L25/00Recording or indicating positions or identities of vehicles or vehicle trains or setting of track apparatus
    • B61L25/02Indicating or recording positions or identities of vehicles or vehicle trains
    • B61L25/021Measuring and recording of train speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L25/00Recording or indicating positions or identities of vehicles or vehicle trains or setting of track apparatus
    • B61L25/02Indicating or recording positions or identities of vehicles or vehicle trains
    • B61L25/025Absolute localisation, e.g. providing geodetic coordinates
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L25/00Recording or indicating positions or identities of vehicles or vehicle trains or setting of track apparatus
    • B61L25/02Indicating or recording positions or identities of vehicles or vehicle trains
    • B61L25/028Determination of vehicle position and orientation within a train consist, e.g. serialisation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/20Trackside control of safe travel of vehicle or vehicle train, e.g. braking curve calculation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/42Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for mass transport vehicles, e.g. buses, trains or aircraft
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/20Selecting an access point
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于列车数据通信技术领域,本发明公开了一种列车运行控制系统的数据通信系统及方法;收集无线接入点历史连接数据;构建连接四元组集合;利用连接四元组集合训练联合深度强化学习模型;获取列车当前时刻的状态数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据;将列车应用所述实时预测选择动作数据,使用价值网络评估当前选择动作数据的价值;预设策略价值阈值;若所述价值网络输出的当前时刻的价值低于策略价值阈值,则触发策略网络重新预测实时选择动作数据,当前时刻的价值大于或等于策略价值阈值停止预测实时选择动作数据。

Description

一种列车运行控制系统的数据通信系统及方法
技术领域
本发明涉及列车数据通信技术领域,更具体地说,本发明涉及一种列车运行控制系统的数据通信系统及方法。
背景技术
申请公开号为CN106809253A的专利公开了一种基于通信的分布式列车运行控制系统,结合目前高速发展的计算机控制技术和数字通信技术,满足日益增长的高密度、长线路的运力需求。其技术方案为:由列车自动监督系统(ATS)、轨旁终端控制器(TDC)、车载ATC设备和数据通信系统组成,可实现列车路径的计算以及列车运行路径危险障碍物的防护。
申请公开号为CN112678034A的专利公开了一种兼容CTCS-2和CBTC的列车运行控制系统。包括:CTCS-2车载设备、兼容CTCS-2和CBTC的车载设备和基于CTCS-2叠加CBTC的地面设备,CTCS-2车载设备安装在CTCS-2列车上,兼容CTCS-2和CBTC的车载设备安装在CBTC列车上;基于CTCS-2叠加CBTC的地面设备包括区域控制器ZC和数据通信系统DCS,ZC通过DCS实现与CBTC列车之间的无线通信,CBTC列车向ZC汇报其实时位置和运行状态信息,ZC向CBTC列车发送指导其运行的移动授权MA信息。本发明能够实现CTCS-2列车和CBTC列车在CTCS-2线路上的共线运行,既保证CTCS-2列车车载设备及其运行方式保持不变,也可实现CBTC列车移动闭塞运行,从而可充分利用CTCS-2线路的富裕运力,达到在城际铁路线路上增开高密度、公交化运行市域列车的目的。
在现有高速铁路无线数据通信技术中,由于无法实时感知和响应运营环境的变化,常面临信号处于弱覆盖区导致的严重丢包和网络延时问题;这主要体现在高铁进入隧道、桥梁这类对信号产生衰减和干扰的复杂场景;同时,在多基站覆盖的情况下,没有智能化的网络选择策略,连接的基站信号质量往往不能得到有效保障;严重影响了列车控制和运营信息的传输质量,存在安全隐患;根据中国铁路总公司的统计数据,过去5年发生在无线盲区的铁路事故达到30起,严重影响了铁路运营安全。
鉴于此,本发明提出一种列车运行控制系统的数据通信系统及方法以解决上述问题。
发明内容
为了克服现有技术的上述缺陷,为实现上述目的,本发明提供如下技术方案:一种列车运行控制系统的数据通信方法,包括:
S1、收集无线接入点历史连接数据;根据所述无线接入点历史连接数据构建连接四元组集合;
S2、利用连接四元组集合训练联合深度强化学习模型,联合深度强化学习模型包括策略网络和价值网络;
S3、获取列车当前时刻的状态数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据;
S4、将列车应用所述实时预测选择动作数据,并使用价值网络评估当前选择动作数据在当前时刻的价值;
S5、预设策略价值阈值;若所述价值网络输出的当前时刻的价值低于策略价值阈值,则触发策略网络重新预测实时选择动作数据,直至当前时刻的价值大于或等于策略价值阈值后停止重新预测实时选择动作数据。
进一步地,所述无线接入点历史连接数据包括初始状态数据、选择动作数据、多维奖励数据和结果状态数据;
所述初始状态数据包括列车在时刻t的位置状态数据、速度状态数据、环境状态数据;
所述选择动作数据为列车选择连接的无线接入点数据和无线接入点数据对应的接入时间;
所述多维奖励数据包括连接质量系数、安全性系数和延迟性能系数;
所述结果状态数据包括列车在时刻t+1的位置状态数据、速度状态数据和环境状态数据。
进一步地,位置状态数据为列车在运行过程中所处的经纬度坐标,通过列车安装的GPS系统实时获取;
速度状态数据为列车在运行过程中变化的速度;通过在列车上设置速度传感器获取;
环境状态数据的获取方式包括:
预训练出用于分析图像的所属环境类型的目标检测模型;
预训练过程包括:
收集n组含有目标的图像;使用图像标注工具,在每个图像上标注出目标的边界框,并标注出目标类别;删除错误标注或质量差的图像;标注好的图像组成图像数据集,将图像数据集划分为训练集、验证集和测试集;
将Faster R-CNN或YOLO作为目标检测模型的基础架构,并使用预训练权重初始化目标检测模型;
定义并使用SGD优化器,且目标检测模型的损失函数选用交叉熵损失函数;
对于单个样本的交叉熵损失函数
其中,是实际标注的概率分布向量;/>是模型预测的概率分布向量;
表示图像内的所有目标类别;
对于所有样本的交叉熵损失函数
其中,为训练集中的图像数量;/>表示对训练集单个样本的交叉熵损失函数进行求和;
目标检测模型的评价指标选择平均精度,即反映检测的准确率;得到初始目标检测模型;
将训练集内的图像分为j个批次,将训练集内的图像按批次的输入初始目标检测模型,前向传播并计算损失函数;反向传播计算初始目标检测模型的每个参数的梯度;
SGD优化器利用梯度更新初始目标检测模型的参数,即为完成一次迭代;
每训练完一个批次,则使用当前的初始目标检测模型对验证集的图像进行预测类别,并计算平均精度;将本次的平均精度与历史最大的平均精度进行比较;
若本次的平均精度大于历史最大的平均精度,则保存当前初始目标检测模型为最佳模型;
计算测试集内图像的平均精度,将最大平均精度的作为最终平均精度;应用于最佳模型上,得到最终的目标检测模型;
在列车头部列车顶安装高清摄像机,用于拍摄列车到前方固定范围内的铁路环境;高清摄像机以k帧/秒的速度获取图像并传输到列车载计算机;列车载计算机使用目标检测模型分析每个图像并识别出每个图像的所属环境类型;
将图像上检测出的目标赋予对应的数字编码;将图像中所有的目标的编码按照检测到的顺序连接成一个编码序列;将固定时间段内获取的所有图像的编码序列连接成一个长编码序列作为数字特征向量;将数字特征向量进行向量切分和缩放的格式化处理,作为环境状态数据。
进一步地,所述无线接入点数据和无线接入点数据对应的接入时间的获取方式包括:
查询历史列车运行通信过程中的数据交换包,获取无线接入点的唯一网络标识符;作为无线接入点数据;记录网络标识符对应的无线接入点的接入时间;即为无线接入点数据对应的接入时间;
连接质量系数的获取过程包括:
通过网络测速工具获取无线接入点的无线连接的实际吞吐量;通过信号检测设备采集无线接入点的无线信道的背景噪声功率;通过网络测试工具获取包延迟和丢包率;调用第三方天气API获取无线接入点时的天气数据;天气数据包括天平均温度、天平均湿度和天平均风速/>;根据天气数据获取天气系数/>
式中,为自然对数的底;
通过抓包分析接入点的运行时间戳获取无线通信运行时间;
连接质量系数
式中,为实际吞吐量;/>为背景噪声功率;/>为包延迟;/>为丢包率;/>为无线通信运行时间。
进一步地,安全性系数的获取方式包括:
定义安全指标,安全指标包括安全设置得分和流量安全性得分;
使用开源无线扫描工具Kismet对无线接入点进行被动扫描,获取其安全配置信息;安全配置信息包括加密方式和认证机制;根据安全配置信息,参照无线安全标准得分表对加密方式和认证机制进行打分;
将加密方式得分和认证机制得分进行加权平均,得到安全设置得分S1;
使用网络协议分析工具Wireshark在无线接入点所在网络内获取流量包;根据流量包分析出流量特征,检查是否存在恶意连接、异常扫描和弱口令破解的流量特征;计算获取流量风险程度;
根据流量风险程度,参照流量安全风险等级表对流量安全性进行打分;风险越高,得分越低;进行k次抽样打分,并计算平均值;平均值即为流量安全性得分S2;
安全性系数APS=w1×S1+w2×S2;其中,w1和w2为权重系数,且w1+w2=1;
延迟性能系数的获取方式包括:
在列车上设置发送时间戳ts,无线接入点发送测试数据包到接入点APi;接入点APi收到数据包,并打上接收时间戳tr;接入点APi将数据包发送回列车,列车收到数据包,并记录回传时间戳ts';则该测试数据包的RTT=ts'-ts;对发送到该接入点APi的m个测试数据包,计算m个测试数据包的RTT;求取m个测试数据包的RTT的平均值,作为该接入点的平均RTT;
计算测试数据包的传输时间=tr-ts;计算接入点的m个测试数据包的平均传输时间;延迟性能系数=平均RTT/平均传输时间;
所述结果状态数据的获取过程和初始状态数据的获取方式相同;
所述连接四元组集合的构建方式包括:
定义连接数据集C={c1,c2,...cf},包括f组无线接入点历史连接数据;初始化空的连接四元组集合D;遍历连接数据集C;从无线接入点历史连接数据ci中提取初始状态si、选择动作数据ai、多维奖励数据ri和结果状态数据s'i;构建连接四元组集合〔si,ai,ri,s'i〕。
进一步地,所述步骤S2,包括:
S201、使用卷积神经网络或者全连接网络作为基础框架;构建包括策略网络π和价值网络u的联合深度强化学习模型;初始化策略网络π的网络参数θπ;初始化价值网络u的网络参数θu;
S202、将连接四元组集合分出b个批次;其中b为大于等于1的整数;随机采样一个批次作为输入样本;
将输入样本中的初始状态si输入策略网络π,根据当前参数θπ生成可选动作的概率分布π(ai|si;θπ);从π(ai|si;θπ)中采样一个动作â,作为当前预测的选择动作数据;
S203、计算当前样本的优势函数A=ri+γ×u(s'i;θu)-u(si;θu);即为策略的价值;
其中,u(si;θu)表示在连接前状态si下,根据当前价值网络的参数θu,输出对这个状态价值的估计;u(s'i;θu)表示在连接后的状态s'i下,基于同样的参数θu,输出对这个后续状态的价值估计;γ为预设的折扣因子;
使用策略梯度法更新策略网络的参数,更新公式为:下一代θπ=θπ+απ×∇×π(ai|si;θπ)A;
其中,απ为策略网络的学习率;
使用均方误差更新价值网络的参数,更新公式为下一代θu=θu-αu×∇(ri+γ×u(s'i;θu)-u(si;θu))2
其中,αu为价值网络的学习率;∇表示损失函数或者模型输出相对于模型参数的梯度;
S204、重复步骤S203,直到策略网络π和价值网络u均收敛为止;获取最终的联合深度强化学习模型。
进一步地,所述步骤S3,包括:
状态数据包括位置状态数据pt、速度状态数据vt和环境状态数据et;
定义初始状态特征向量的维度为x;获取当前时刻t的位置状态数据pt,将位置状态数据pt采用one-hot编码,映射为长度为m1的位置0-1向量;获取当前时刻的速度状态数据vt,将速度状态数据vt进行归一化处理,映射为一个实数;获取当前时刻的环境状态数据et,将环境状态数据et采用one-hot编码,映射为长度为m2的环境0-1向量;
构建初始状态特征向量xt=[pt,vt,et],其维度为x=m1+1+m2;
将xt输入联合深度强化学习模型;联合深度强化学习模型利用策略网络π,通过卷积层和全连接层的前向计算,输出维度为a的向量π(xt;θπ);
对π(xt;θπ)应用softmax函数,获得a个无线接入点的选择概率分布π(a|xt;θπ);从π(a|xt;θπ)中采样1次,获得预测的无线接入点索引ât;根据索引ât,获取当前选择动作数据;
进一步地,所述步骤S4,包括:
列车通信系统根据当前选择动作数据获取无线接入点AP_ât,并向无线接入点AP_ât发送连接请求建立连接;获取当前连接的时间戳tt;
构建时刻tt+1的状态特征向量st+1=[pt+1,vt+1,et+1];
将初始状态特征向量xt输入价值网络u,通过前向计算得到u(xt);将st+1输入价值网络u,通过前向计算得到u(st+1);
获取列车在当前时刻tt和时刻tt+1的实时多维奖励数据;根据选择动作价值公式计算时刻tt的选择动作价值;
选择动作价值公式At=(qt+1)+(bt+1)+(lt+1)+γ×u(st+1)-u(st);
式中,qt+1为连接质量系数,bt+1为安全性系数,lt+1为延迟性能系数;γ为预先设置的折扣因子;At即为当前选择动作数据的价值。
进一步地,所述策略价值阈值的预设方式包括:
获取历史无线通信连接数据,历史无线通信连接数据包括选择的无线接入点和无线接入点连接过程的多维奖励数据;
将历史无线通信连接数据进行预处理,预处理包括清洗掉错误及异常数据,检查并删除缺失值;
预处理后的历史无线通信连接数据构成历史连接数据集;
在历史连接数据集上,统计接入每一个无线接入点的平均即时奖励/>;计算每一个连接动作/>的平均即时奖励的方差/>
根据每一个无线接入点的平均奖励和方差获取其对应的单体策略价值阈值;式中,/>为经验系数;
计算连接训练集内所有无线接入点的单体策略价值阈值的均值作为策略价值阈值。
一种列车运行控制系统的数据通信系统,其基于所述的一种列车运行控制系统的数据通信方法实现,包括:
连接四元组构建模块,用于收集无线接入点历史连接数据;根据所述无线接入点历史连接数据构建连接四元组集合;
强化学习模块,用于利用连接四元组集合训练联合深度强化学习模型,联合深度强化学习模型包括策略网络和价值网络;
动作选择模块,用于获取列车当前时刻的状态数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据;
动作价值评估模块,用于将列车应用所述实时预测选择动作数据,并使用价值网络评估当前选择动作数据在当前时刻的价值;
实时调控模块,用于预设策略价值阈值;若所述价值网络输出的当前时刻的价值低于策略价值阈值,则触发策略网络重新预测实时选择动作数据,直至当前时刻的价值大于或等于策略价值阈值后停止重新预测实时选择动作数据。
本发明一种列车运行控制系统的数据通信系统及方法的技术效果和优点:
本发明全面考虑了高铁复杂多变的运行环境对无线通信质量的影响,构建了包含位置、速度、环境多源异构数据的智能感知体系,基于深度强化学习算法实现了对无线接入点选择策略的主动优化和调整;充分利用高铁运行全过程产生的海量数据,通过联合深度强化学习框架的策略网络和价值网络相互作用,实现智能体与外界环境的交互学习,不断提升选择最优无线接入点的策略;同时,设计了连接质量、通信安全性和时延综合评估的多目标奖励机制,可以动态调整和指导选择策略的更新;全面提高了高速铁路无线通信的可靠性、安全性、稳定性和实时性,确保列车控制和运营信息的高效准确传输,为驾驶员提供稳定可靠的指令和控制支撑,大幅减少通信中断或不可靠导致事故的风险,有效保障高速列车的安全运行。
附图说明
图1为本发明的一种列车运行控制系统的数据通信方法示意图;
图2为本发明的一种列车运行控制系统的数据通信系统示意图;
图3为本发明的电子设备示意图;
图4为本发明的存储介质示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1所示,本实施例所述一种列车运行控制系统的数据通信方法,包括:
S1、收集无线接入点历史连接数据;根据所述无线接入点历史连接数据构建连接四元组集合;
S2、利用连接四元组集合训练联合深度强化学习模型,联合深度强化学习模型包括策略网络和价值网络;
S3、获取列车当前时刻的状态数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据;
S4、将列车应用所述实时预测选择动作数据,并使用价值网络评估当前选择动作数据在当前时刻的价值;
S5、预设策略价值阈值;若所述价值网络输出的当前时刻的价值低于策略价值阈值,则触发策略网络重新预测实时选择动作数据,直至当前时刻的价值大于或等于策略价值阈值后停止重新预测实时选择动作数据;
进一步的,所述无线接入点历史连接数据包括初始状态数据、选择动作数据、多维奖励数据和结果状态数据;
所述初始状态数据包括列车在时刻t的位置状态数据、速度状态数据、环境状态数据;
所述选择动作数据为列车选择连接的无线接入点数据和无线接入点数据对应的接入时间;
所述多维奖励数据包括连接质量系数、安全性系数和延迟性能系数;
所述结果状态数据包括列车在时刻t+1的位置状态数据、速度状态数据和环境状态数据;
位置状态数据为列车在运行过程中所处的经纬度坐标,通过列车安装的GPS系统实时获取;
速度状态数据为列车在运行过程中变化的速度;通过在列车上设置速度传感器获取;
环境状态数据的获取方式包括:
预训练出用于分析图像的所属环境类型的目标检测模型;
预训练过程包括:
收集n组含有目标的图像,例如,有路基、电线杆、隧道口等目标的铁路场景图像;
使用图像标注工具,在每个图像上标注出目标的边界框,并标注出目标类别;删除错误标注或质量差的图像;标注好的图像组成图像数据集,将图像数据集划分为训练集、验证集和测试集;例如,图像数据集的70%为训练集,图像数据集的20%为验证集,图像数据集的10%为测试集;
将Faster R-CNN或YOLO作为目标检测模型的基础架构,并使用预训练权重初始化目标检测模型;
定义并使用SGD优化器,例如,学习率初始为0.01,动量为0.9;且目标检测模型的损失函数选用交叉熵损失函数;
对于单个样本的交叉熵损失函数
其中,是实际标注的概率分布向量;/>是模型预测的概率分布向量;
表示图像内的所有目标类别;
对于所有样本的交叉熵损失函数
其中,为训练集中的图像数量;/>表示对训练集单个样本的交叉熵损失函数进行求和;
目标检测模型的评价指标选择平均精度,即反映检测的准确率;得到初始目标检测模型;
将训练集内的图像分为j个批次,将训练集内的图像按批次的输入初始目标检测模型,前向传播并计算损失函数;反向传播计算初始目标检测模型的每个参数的梯度;
SGD优化器利用梯度更新初始目标检测模型的参数,即为完成一次迭代;
每训练完一个批次,则使用当前的初始目标检测模型对验证集的图像进行预测类别,并计算平均精度;将本次的平均精度与历史最大的平均精度进行比较;
若本次的平均精度大于历史最大的平均精度,则保存当前初始目标检测模型为最佳模型;
计算测试集内图像的平均精度,将最大平均精度的作为最终平均精度;应用于最佳模型上,得到最终的目标检测模型;
在列车头部列车顶安装高清摄像机,用于拍摄列车到前方固定范围内的铁路环境;高清摄像机以k帧/秒的速度获取图像并传输到列车载计算机;列车载计算机使用目标检测模型分析每个图像并识别出每个图像的所属环境类型;例如,所属类型包括路基、电线杆和隧道口等类型;
将图像上检测出的目标赋予对应的数字编码;例如,隧道口对应的编码是1001;将图像中所有的目标的编码按照检测到的顺序连接成一个编码序列;例如,图像中检测到[路基,电线杆,隧道口],则编码序列为[1,2,1001];将固定时间段内获取的所有图像的编码序列连接成一个长编码序列作为数字特征向量,例如,[1,2,1001, 3,1,0,2,1001,0,1,2,1];将数字特征向量进行向量切分和缩放的格式化处理,作为环境状态数据;
需要说明的是,预训练权重的过程,可以通过官方模型库或相关论文作者的发布的权重下载适用于选择的基础架构的预训练权重;利用深度学习框架的加载权重功能,将下载的预训练权重加载到目标检测模型的相应层和参数中;
考虑到数字特征向量较长,因此需要对向量进行切分;将数字特征向量等分成若干子向量;可以按照固定子向量长度b进行分割,最后一个子向量长度可不足b;选取切分分割点,并将数字特征向量分割成多条子特征向量;例如[1,2,1001,3,1,0,2]可以分割成[1,2,1001]和[3,1,0,2];所有子特征向量聚合成批次,形成特征矩阵作为网络输入;
对切分后的所有子特征向量进行缩放标准化,例如通过减均值除方差法,将向量数值映射到[0,1]区间内;这有利于加速网络训练优化;
将切分、填充和缩放后的特征向量组织成矩阵形式;
所述无线接入点数据和无线接入点数据对应的接入时间的获取方式包括:
查询历史列车运行通信过程中的数据交换包,获取无线接入点的唯一网络标识符;作为无线接入点数据;记录网络标识符对应的无线接入点的接入时间;即为无线接入点数据对应的接入时间;
连接质量系数的获取过程包括:
通过网络测速工具获取无线接入点的无线连接的实际吞吐量;通过信号检测设备采集无线接入点的无线信道的背景噪声功率;通过网络测试工具获取包延迟和丢包率;调用第三方天气API获取无线接入点时的天气数据;天气数据包括天平均温度、天平均湿度和天平均风速/>;根据天气数据获取天气系数/>
式中,为自然对数的底;
通过抓包分析接入点的运行时间戳获取无线通信运行时间;
连接质量系数
式中,为实际吞吐量;/>为背景噪声功率;/>为包延迟;/>为丢包率;/>为无线通信运行时间;
需要说明的是,实际吞吐量越大,说明网络带宽资源更加充裕,吞吐量对连接质量系数的影响是正向的;背景噪声功率越高,会对无线信号产生更严重的干扰,降低信噪比,从而导致连接质量下降;背景噪声功率对连接质量系数的影响是负向的;包延迟和丢包率指标越高,网络性能越差,连接质量也越差。所以对连接质量系数的影响也是负向的;恶劣天气条件(温度过低/过高,湿度大,风力强等)会对无线电波产生衰减和干扰;所以恶劣天气条件对连接质量的影响是负向的;
抓包分析指的是使用抓包工具拦截和获取通过网络传输的数据包,并可以查看和分析这些数据包的内容;抓包工具包括Wireshark、tcpdump等;可以拦截网络接口上发送接收的数据包;
安全性系数的获取方式包括:
定义安全指标,安全指标包括安全设置得分和流量安全性得分;
使用开源无线扫描工具Kismet对无线接入点进行被动扫描,获取其安全配置信息;安全配置信息包括加密方式和认证机制;根据安全配置信息,参照无线安全标准得分表对加密方式和认证机制进行打分;
将加密方式得分和认证机制得分进行加权平均,得到安全设置得分S1;
使用网络协议分析工具Wireshark在无线接入点所在网络内获取流量包;根据流量包分析出流量特征,检查是否存在恶意连接、异常扫描和弱口令破解的流量特征;计算获取流量风险程度;
根据流量风险程度,参照流量安全风险等级表对流量安全性进行打分;风险越高,得分越低;进行k次抽样打分,并计算平均值;平均值即为流量安全性得分S2;
安全性系数APS=w1×S1+w2×S2;其中,w1和w2为权重系数,且w1+w2=1;
需要说明的是,w1和w2的获取方式为收集大量测试数据;通过多元回归分析确定w1和w2对安全性的贡献程度;设定目标函数为最小化评价结果与实际安全性的均方差;使用数值优化算法迭代求解参数组合,使目标函数最小;
无线安全标准得分表参考IEEE和国内外相关安全标准,列出无线网络的主要安全机制,例如WPA2、WEP、MAC地址过滤;对每种安全机制,根据安全强度指标、密钥强度、认证复杂度的要素评定其安全性分数;综合多个标准,制定的打分规则;例如WPA2加密100分,WEP加密50分;
根据流量包分析出流量特征的方式包括:
使用流量分析工具(如Wireshark)加载流量包数据;提取传输层协议特征,判断是否存在异常协议;分析会话流,检查是否有扫描连接、暴力破解的异常行为模式;提取数据内容特征字串,匹配已知的攻击恶意代码;
流量安全风险等级表为查阅网络安全领域的标准,例如ISO 27001、NIST CSF等,参考典型的网络环境和攻击模式,设定适合无线网络场景的风险类别,例如拒绝服务、数据泄露和弱口令攻击;对每种风险类别,根据发生可能性和安全影响严重程度,定义出低、中、高3个等级;在无线网络环境中,通过安全测试工具模拟不同等级的攻击,获取对应的流量包;借助流量分析工具,基于流量包提取风险特征,确定区分不同风险等级的规则;汇总形成无线网络流量安全风险等级表;
延迟性能系数的获取方式包括:
在列车上设置发送时间戳ts,无线接入点发送测试数据包到接入点APi;接入点APi收到数据包,并打上接收时间戳tr;接入点APi将数据包发送回列车,列车收到数据包,并记录回传时间戳ts';则该测试数据包的RTT=ts'-ts;对发送到该接入点APi的m个测试数据包,计算m个测试数据包的RTT;求取m个测试数据包的RTT的平均值,作为该接入点的平均RTT=(RTT1+RTT2+...+RTTm)/m;
计算测试数据包的传输时间=tr-ts;对接入点的m个测试数据包,计算平均传输时间=(传输时间1+传输时间2+...+传输时间m)/m;
延迟性能系数=平均RTT/平均传输时间;
所述结果状态数据的获取过程和初始状态数据的获取方式相同,在此不做过多的赘述;
需要说明的是,RTT是指从发送数据到接收到对应的确认或响应所经历的时间;具体来说,RTT是在网络通信中测量往返时延的一个重要指标;往返时延是指数据从发送端到接收端再返回发送端所经历的总时间;
进一步的,所述连接四元组集合的构建方式包括:
定义连接数据集C={c1,c2,...cf},包括f条无线接入点历史连接数据;初始化空的连接四元组集合D;遍历连接数据集C,从i=1至i=f;从无线接入点历史连接数据ci中提取初始状态si、选择动作数据ai、多维奖励数据ri和结果状态数据s'i;构建连接四元组集合(si,ai,ri,s'i);
需要说明的是,构建连接四元组集合包括丰富的无线网络动态变化信息;连接四元组包括的结果状态反映了环境的转移态势;多维奖励信号组合考虑了连接质量、安全性和时延多目标,可更加明确地训练联合深度强化学习模型;一个连接四元组可以衍生出多个训练样本,提高了有限的历史连接数据的利用率;
进一步的,所述步骤S2,包括:
S201、使用卷积神经网络或者全连接网络作为基础框架;构建包括策略网络π和价值网络u的联合深度强化学习模型;初始化策略网络π的网络参数θπ;初始化价值网络u的网络参数θu;
需要说明的是,所述初始化的过程包括:
定义策略网络π的结构,使用多层全连接网络或者卷积神经网络;
初始化策略网络π的网络参数θπ,对于全连接层,初始化权重矩阵W,采用正态分布或均匀分布随机初始化;对于卷积层,初始化卷积核K,同样随机初始化;初始化偏置项b为全0或很小的常数;
同初始化策略网络π的网络参数θπ的方式一样,初始化价值网络u的网络参数θu;定义价值网络u为包含q个全连接层的多层感知机,输入维度为s,输出为一个实数;
S202、将连接四元组集合分出b个批次;其中b为大于等于1的整数;随机采样一个批次作为输入样本;
将输入样本中的初始状态si输入策略网络π,根据当前参数θπ生成可选动作的概率分布π(ai|si;θπ);从π(ai|si;θπ)中采样一个动作â,作为当前预测的选择动作数据;
需要说明的是,为了更好的理解从π(ai|si;θπ),中采样一个动作â,作为当前预测的选择动作数据,i为大于或等于1的整数;例如,假设可选的动作有3个,即a1,a2,a3;策略网络输出的概率分布为π(a1|si;θπ)=0.3;π(a2|si;θπ)=0.5;π(a3|si;θπ)=0.2;可以根据这个概率分布采样出一个动作;生成一个[0,1]区间内的随机数rand;若rand<0.3,则选择动作a1;若0.3≤rand<0.8,则选择动作a2;若rand≥0.8,则选择动作a3;
S203、计算当前样本的优势函数A=ri+γ×u(s'i;θu)-u(si;θu);即为策略的价值;
其中,u(si;θu)表示在连接前状态si下,根据当前价值网络的参数θu,输出对这个状态价值的估计;u(s'i;θu)表示在连接后的状态s'i下,基于同样的参数θu,输出对这个后续状态的价值估计;γ为预设的折扣因子;
使用策略梯度法更新策略网络的参数,策略梯度法更新公式为:
下一代θπ=θπ+απ×∇×π(ai|si;θπ)A;
其中,απ为策略网络的学习率;
使用均方误差更新价值网络的参数,均方误差更新公式为:
下一代θu=θu-αu×∇(ri+γ×u(s'i;θu)-u(si;θu))2
其中,αu为价值网络的学习率;∇表示损失函数或者模型输出相对于模型参数的梯度;
S204、重复步骤S203,直到策略网络π和价值网络u均收敛为止;获取最终的联合深度强化学习模型;
需要说明的是,策略梯度法主要应用于策略网络的更新优化;通过采样和模拟等与环境交互获取奖励信号;构建策略网络的参数化策略π(a|s;θ),输出动作概率;建立π的参数θ与期望累积奖励J(θ)之间的关系;通过梯度上升的方法,更新参数θ,以最大化累积奖励J(θ);
所述使用均方误差更新价值网络的参数,具体的,
均方误差
是价值网络根据当前参数,对状态/>的价值预测;/>是对应的即时奖励;是对后续状态/>的预测;/>是价值折扣因子;
折扣因子γ和价值折扣因子表示未来奖励的折现比重,量化了短期奖励和长期奖励的权衡;在一个优选的实施例中,折扣因子γ的值一般取0.8-0.99;价值折扣因子的值一般取0.75-0.8;
最小化该均方误差,可提高价值网络u对状态价值的估计准确度,从而更好地评估策略π的综合效果,指导策略网络π的更新优化;
进一步的,所述步骤S3,包括:
状态数据包括位置状态数据pt、速度状态数据vt和环境状态数据et;
定义初始状态特征向量的维度为x,即长度为x向量;获取当前时刻t的位置状态数据pt,采用one-hot编码,映射为长度为m1的0-1向量;获取当前时刻的速度状态数据vt,进行归一化处理,映射为一个实数;获取当前时刻的环境状态数据et,采用one-hot编码,映射为长度为m2的0-1向量;
构建初始状态特征向量xt=[pt,vt,et],其维度为x=m1+1+m2;
将xt输入联合深度强化学习模型;联合深度强化学习模型利用策略网络π,通过卷积层和全连接层的前向计算,输出维度为a的向量π(xt;θπ);
对π(xt;θπ)应用softmax函数,获得a个无线接入点的选择概率分布π(a|xt;θπ);从π(a|xt;θπ)中采样1次,获得预测的无线接入点索引ât;根据索引ât,获取当前选择动作数据;
进一步的,所述步骤S4,包括:
列车通信系统根据当前选择动作数据获取无线接入点AP_ât,并向无线接入点AP_ât发送连接请求建立连接;获取当前连接的时间戳tt;
构建时刻tt+1的状态特征向量st+1=[pt+1,vt+1,et+1];
将初始状态特征向量xt输入价值网络u,通过前向计算得到u(xt);将st+1输入价值网络u,通过前向计算得到u(st+1);
获取列车在当前时刻tt和时刻tt+1的实时多维奖励数据;根据选择动作价值公式计算时刻tt的选择动作价值;
选择动作价值公式At=(qt+1)+(bt+1)+(lt+1)+γ×u(st+1)-u(st);
式中,qt+1为连接质量系数,bt+1为安全性系数,lt+1为延迟性能系数;γ为预先设置的折扣因子;At即为当前选择动作数据的价值;
进一步的,所述策略价值阈值的预设方式包括:
获取历史无线通信连接数据,历史无线通信连接数据包括选择的无线接入点和无线接入点连接过程的多维奖励数据;
将历史无线通信连接数据进行预处理,预处理包括清洗掉错误及异常数据,检查并删除缺失值;
预处理后的历史无线通信连接数据构成历史连接数据集;
在历史连接数据集上,统计接入每一个无线接入点的平均即时奖励/>;计算每一个连接动作/>的平均即时奖励的方差/>
根据每一个无线接入点的平均奖励和方差获取其对应的单体策略价值阈值;式中,/>为经验系数;在一个优选的实施例中/>取值为1-3的效果较好;
计算连接训练集内所有无线接入点的单体策略价值阈值的均值作为策略价值阈值;
需要说明的是,即时奖励指在强化学习中,智能体进行一个动作后从环境获得的一个标量反馈;在本方法中,即时奖励具体指的是在列车进行一次无线网络连接后,会根据该次连接的性能指标计算出一个复合的奖励值;该复合奖励值综合考虑了连接质量、安全性和延迟3个维度;
例如,奖励计算公式为:
其中、/>和/>为权重系数;/>为连接质量系数;/>为安全性系数;为延迟性能系数;则/>是本次连接完成后的一个即时奖励;
权重系数的获取可以是通过回归分析和最小二乘法来拟合实验数据实现的;
需要说明的是,使用最小二乘法进行拟合数据;最小二乘法的目标是最小化模型预测值与实际观测值之间的差异的平方和;可以使用数学软件或编程语言来执行这个拟合;在上述过程中,不断调整、/>和/>的值,直到找到最小误差;最小二乘法可以使用统计软件或编程语言,如PyThon的SciTy库或MATLAB等,来执行拟合操作;
本实施例,全面考虑了高铁复杂多变的运行环境对无线通信质量的影响,构建了包含位置、速度、环境多源异构数据的智能感知体系,基于深度强化学习算法实现了对无线接入点选择策略的主动优化和调整;充分利用高铁运行全过程产生的海量数据,通过联合深度强化学习框架的策略网络和价值网络相互作用,实现智能体与外界环境的交互学习,不断提升选择最优无线接入点的策略;同时,设计了连接质量、通信安全性和时延综合评估的多目标奖励机制,可以动态调整和指导选择策略的更新;全面提高了高速铁路无线通信的可靠性、安全性、稳定性和实时性,确保列车控制和运营信息的高效准确传输,为驾驶员提供稳定可靠的指令和控制支撑,大幅减少通信中断或不可靠导致事故的风险,有效保障高速列车的安全运行。
实施例2
请参阅图2所示,本实施例未详细叙述部分见实施例1描述内容,提供一种列车运行控制系统的数据通信系统,包括:
连接四元组构建模块,用于收集无线接入点历史连接数据;根据所述无线接入点历史连接数据构建连接四元组集合;
强化学习模块,用于利用连接四元组集合训练联合深度强化学习模型,联合深度强化学习模型包括策略网络和价值网络;
动作选择模块,用于获取列车当前时刻的状态数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据;
动作价值评估模块,用于将列车应用所述实时预测选择动作数据,并使用价值网络评估当前选择动作数据在当前时刻的价值;
实时调控模块,用于预设策略价值阈值;若所述价值网络输出的当前时刻的价值低于策略价值阈值,则触发策略网络重新预测实时选择动作数据,直至当前时刻的价值大于或等于策略价值阈值后停止重新预测实时选择动作数据;各个模块之间通过有线和/或无线的方式进行连接,实现模块间的数据传输。
实施例3
请参阅图3所示,根据本申请的又一方面还提供了电子设备。该电子设备可包括一个或多个处理器以及一个或多个存储器。其中,存储器中存储有计算机可读代码,计算机可读代码当由一个或多个处理器运行时,可以执行如上所述的一种列车运行控制系统的数据通信方法。
根据本申请实施方式的方法或系统也可以借助于图3所示的电子设备的架构来实现。如图3所示,电子设备可包括输入设备、一个或多个运算器、一个或多个存储器、一个或多个控制器和输出设备等。电子设备中的存储器,例如ROM503或硬盘507可存储本申请提供的一种列车运行控制系统的数据通信方法。当然,图3所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图3示出的电子设备中的一个或多个组件。
实施例4
请参阅图4所示,是根据本申请一个实施方式的计算机可读存储介质。计算机可读存储介质600上存储有计算机可读指令。当计算机可读指令由处理器运行时,可执行参照以上附图描述的根据本申请实施方式的一种列车运行控制系统的数据通信方法。存储介质600包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可包括随机存取存储器(RAM)和高速缓冲存储器(cache)等。非易失性存储器例如可包括只读存储器(ROM)、硬盘、闪存等。
另外,根据本申请的实施方式,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请提供了非暂时性机器可读存储介质,所述非暂时性机器可读存储介质存储有机器可读指令,所述机器可读指令能够由处理器运行以执行与本申请提供的方法步骤对应的指令,一种列车运行控制系统的数据通信方法。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能;
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数以及阈值选取由本领域的技术人员根据实际情况进行设置。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线网络或无线网络方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
本领域普通技术人员可以意识到,结合本发明中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一 种,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种列车运行控制系统的数据通信方法,其特征在于,包括:S1、收集无线接入点历史连接数据;根据所述无线接入点历史连接数据构建连接四元组集合;
S2、利用连接四元组集合训练联合深度强化学习模型,联合深度强化学习模型包括策略网络和价值网络;
S3、获取列车当前时刻的状态数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据;
S4、将列车应用所述实时预测选择动作数据,并使用价值网络评估当前选择动作数据在当前时刻的价值;
S5、预设策略价值阈值;若所述价值网络输出的当前时刻的价值低于策略价值阈值,则触发策略网络重新预测实时选择动作数据,直至当前时刻的价值大于或等于策略价值阈值后停止重新预测实时选择动作数据;
根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据的方式包括:
从无线接入点历史连接数据ci中提取初始状态si、选择动作数据ai、多维奖励数据ri和结果状态数据s'i;构建连接四元组集合〔si,ai,ri,s'i〕;
S201、使用卷积神经网络或者全连接网络作为基础框架;构建包括策略网络π和价值网络u的联合深度强化学习模型;初始化策略网络π的网络参数θπ;初始化价值网络u的网络参数θu;
S202、将连接四元组集合分出b个批次;其中b为大于等于1的整数;随机采样一个批次作为输入样本;
将输入样本中的初始状态si输入策略网络π,根据当前参数θπ生成可选动作的概率分布π(ai|si;θπ);从π(ai|si;θπ)中采样一个动作â,作为当前预测的选择动作数据;
S203、计算当前样本的优势函数A=ri+γ×u(s'i;θu)-u(si;θu);即为策略的价值;
其中,u(si;θu)表示在连接前状态si下,根据当前价值网络的参数θu,输出对这个状态价值的估计;u(s'i;θu)表示在连接后的状态s'i下,基于同样的参数θu,输出对这个后续状态的价值估计;γ为预设的折扣因子;
使用策略梯度法更新策略网络的参数,策略梯度法更新公式为:
下一代θπ=θπ+απ××π(ai|si;θπ)A;
其中,απ为策略网络的学习率;
使用均方误差更新价值网络的参数,均方误差更新公式为:
下一代θu=θu-αu×(ri+γ×u(s'i;θu)-u(si;θu))2
其中,αu为价值网络的学习率;表示损失函数或者模型输出相对于模型参数的梯度;
S204、重复步骤S203,直到策略网络π和价值网络u均收敛为止;获取最终的联合深度强化学习模型;
状态数据包括位置状态数据pt、速度状态数据vt和环境状态数据et;
定义初始状态特征向量的维度为x;获取当前时刻t的位置状态数据pt,将位置状态数据pt采用one-hot编码,映射为长度为m1的位置0-1向量;获取当前时刻的速度状态数据vt,将速度状态数据vt进行归一化处理,映射为一个实数;获取当前时刻的环境状态数据et,将环境状态数据et采用one-hot编码,映射为长度为m2的环境0-1向量;
构建初始状态特征向量xt=[pt,vt,et],其维度为x=m1+1+m2;
将xt输入联合深度强化学习模型;联合深度强化学习模型利用策略网络π,通过卷积层和全连接层的前向计算,输出维度为a的向量π(xt;θπ);
对π(xt;θπ)应用softmax函数,获得a个无线接入点的选择概率分布π(a|xt;θπ);从π(a|xt;θπ)中采样1次,获得预测的无线接入点索引ât;根据索引ât,获取当前选择动作数据。
2.根据权利要求1所述的一种列车运行控制系统的数据通信方法,其特征在于,所述无线接入点历史连接数据包括初始状态数据、选择动作数据、多维奖励数据和结果状态数据;
所述初始状态数据包括列车在时刻t的位置状态数据、速度状态数据、环境状态数据;
所述选择动作数据为列车选择连接的无线接入点数据和无线接入点数据对应的接入时间;
所述多维奖励数据包括连接质量系数、安全性系数和延迟性能系数;
所述结果状态数据包括列车在时刻t+1的位置状态数据、速度状态数据和环境状态数据。
3.根据权利要求2所述的一种列车运行控制系统的数据通信方法,其特征在于,位置状态数据为列车在运行过程中所处的经纬度坐标,通过列车安装的GPS系统实时获取;
速度状态数据为列车在运行过程中变化的速度;通过在列车上设置速度传感器获取;
环境状态数据的获取方式包括:
预训练出用于分析图像的所属环境类型的目标检测模型;
预训练过程包括:
收集n组含有目标的图像;使用图像标注工具,在每个图像上标注出目标的边界框,并标注出目标类别;删除错误标注或质量差的图像;标注好的图像组成图像数据集,将图像数据集划分为训练集、验证集和测试集;
将Faster R-CNN或YOLO作为目标检测模型的基础架构,并使用预训练权重初始化目标检测模型;
定义并使用SGD优化器,且目标检测模型的损失函数选用交叉熵损失函数;
对于单个样本的交叉熵损失函数
其中,是实际标注的概率分布向量;/>是模型预测的概率分布向量;
表示图像内的所有目标类别;
对于所有样本的交叉熵损失函数
其中,为训练集中的图像数量;/>表示对训练集单个样本的交叉熵损失函数进行求和;
目标检测模型的评价指标选择平均精度,即反映检测的准确率;得到初始目标检测模型;
将训练集内的图像分为j个批次,将训练集内的图像按批次的输入初始目标检测模型,前向传播并计算损失函数;反向传播计算初始目标检测模型的每个参数的梯度;
SGD优化器利用梯度更新初始目标检测模型的参数,即为完成一次迭代;
每训练完一个批次,则使用当前的初始目标检测模型对验证集的图像进行预测类别,并计算平均精度;将本次的平均精度与历史最大的平均精度进行比较;
若本次的平均精度大于历史最大的平均精度,则保存当前初始目标检测模型为最佳模型;
计算测试集内图像的平均精度,将最大平均精度的作为最终平均精度;应用于最佳模型上,得到最终的目标检测模型;
在列车头部列车顶安装高清摄像机,用于拍摄列车到前方固定范围内的铁路环境;高清摄像机以k帧/秒的速度获取图像并传输到列车载计算机;列车载计算机使用目标检测模型分析每个图像并识别出每个图像的所属环境类型;
将图像上检测出的目标赋予对应的数字编码;将图像中所有的目标的编码按照检测到的顺序连接成一个编码序列;将固定时间段内获取的所有图像的编码序列连接成一个长编码序列作为数字特征向量;将数字特征向量进行向量切分和缩放的格式化处理,作为环境状态数据。
4.根据权利要求3所述的一种列车运行控制系统的数据通信方法,其特征在于,所述无线接入点数据和无线接入点数据对应的接入时间的获取方式包括:
查询历史列车运行通信过程中的数据交换包,获取无线接入点的唯一网络标识符;作为无线接入点数据;记录网络标识符对应的无线接入点的接入时间;即为无线接入点数据对应的接入时间;
连接质量系数的获取过程包括:
通过网络测速工具获取无线接入点的无线连接的实际吞吐量;通过信号检测设备采集无线接入点的无线信道的背景噪声功率;通过网络测试工具获取包延迟和丢包率;调用第三方天气API获取无线接入点时的天气数据;天气数据包括天平均温度、天平均湿度/>和天平均风速/>
根据天气数据获取天气系数
;式中,/>为自然对数的底;
通过抓包分析接入点的运行时间戳获取无线通信运行时间;
连接质量系数
式中,为实际吞吐量;/>为背景噪声功率;/>为包延迟;/>为丢包率;/>为无线通信运行时间。
5.根据权利要求4所述的一种列车运行控制系统的数据通信方法,其特征在于,安全性系数的获取方式包括:
定义安全指标,安全指标包括安全设置得分和流量安全性得分;
使用开源无线扫描工具Kismet对无线接入点进行被动扫描,获取其安全配置信息;安全配置信息包括加密方式和认证机制;根据安全配置信息,参照无线安全标准得分表对加密方式和认证机制进行打分;
将加密方式得分和认证机制得分进行加权平均,得到安全设置得分S1;
使用网络协议分析工具Wireshark在无线接入点所在网络内获取流量包;根据流量包分析出流量特征,检查是否存在恶意连接、异常扫描和弱口令破解的流量特征;计算获取流量风险程度;
根据流量风险程度,参照流量安全风险等级表对流量安全性进行打分;风险越高,得分越低;进行k次抽样打分,并计算平均值;平均值即为流量安全性得分S2;
安全性系数APS=w1×S1+w2×S2;其中,w1和w2为权重系数,且w1+w2=1;
延迟性能系数的获取方式包括:
在列车上设置发送时间戳ts,无线接入点发送测试数据包到接入点APi;接入点APi收到数据包,并打上接收时间戳tr;接入点APi将数据包发送回列车,列车收到数据包,并记录回传时间戳ts';则该测试数据包的RTT=ts'-ts;对发送到该接入点APi的m个测试数据包,计算m个测试数据包的RTT;求取m个测试数据包的RTT的平均值,作为该接入点的平均RTT;
计算测试数据包的传输时间=tr-ts;计算接入点的m个测试数据包的平均传输时间;延迟性能系数=平均RTT/平均传输时间;
所述结果状态数据的获取过程和初始状态数据的获取方式相同;
所述连接四元组集合的构建方式包括:
定义连接数据集C={c1,c2,...cf},包括f组无线接入点历史连接数据;初始化空的连接四元组集合D;遍历连接数据集C。
6.根据权利要求5所述的一种列车运行控制系统的数据通信方法,其特征在于,所述步骤S4,包括:
列车通信系统根据当前选择动作数据获取无线接入点AP_ât,并向无线接入点AP_ât发送连接请求建立连接;获取当前连接的时间戳tt;
构建时刻tt+1的状态特征向量st+1=[pt+1,vt+1,et+1];
将初始状态特征向量xt输入价值网络u,通过前向计算得到u(xt);将st+1输入价值网络u,通过前向计算得到u(st+1);
获取列车在当前时刻tt和时刻tt+1的实时多维奖励数据;根据选择动作价值公式计算时刻tt的选择动作价值;
选择动作价值公式At=(qt+1)+(bt+1)+(lt+1)+γ×u(st+1)-u(st);
式中,qt+1为连接质量系数,bt+1为安全性系数,lt+1为延迟性能系数;γ为预先设置的折扣因子;At即为当前选择动作数据的价值。
7.根据权利要求6所述的一种列车运行控制系统的数据通信方法,其特征在于,所述策略价值阈值的预设方式包括:
获取历史无线通信连接数据,历史无线通信连接数据包括选择的无线接入点和无线接入点连接过程的多维奖励数据;
将历史无线通信连接数据进行预处理,预处理包括清洗掉错误及异常数据,检查并删除缺失值;
预处理后的历史无线通信连接数据构成历史连接数据集;
在历史连接数据集上,统计接入每一个无线接入点的平均即时奖励/>;计算每一个连接动作/>的平均即时奖励的方差/>
根据每一个无线接入点的平均奖励和方差获取其对应的单体策略价值阈值;式中,/>为经验系数;
计算连接训练集内所有无线接入点的单体策略价值阈值的均值作为策略价值阈值。
8.一种列车运行控制系统的数据通信系统,其基于权利要求1至7中任一项所述的一种列车运行控制系统的数据通信方法实现,其特征在于,包括:连接四元组构建模块,用于收集无线接入点历史连接数据;根据所述无线接入点历史连接数据构建连接四元组集合;
强化学习模块,用于利用连接四元组集合训练联合深度强化学习模型,联合深度强化学习模型包括策略网络和价值网络;
动作选择模块,用于获取列车当前时刻的状态数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据;
动作价值评估模块,用于将列车应用所述实时预测选择动作数据,并使用价值网络评估当前选择动作数据在当前时刻的价值;
实时调控模块,用于预设策略价值阈值;若所述价值网络输出的当前时刻的价值低于策略价值阈值,则触发策略网络重新预测实时选择动作数据,直至当前时刻的价值大于或等于策略价值阈值后停止重新预测实时选择动作数据。
CN202410000926.4A 2024-01-02 2024-01-02 一种列车运行控制系统的数据通信系统及方法 Active CN117485410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410000926.4A CN117485410B (zh) 2024-01-02 2024-01-02 一种列车运行控制系统的数据通信系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410000926.4A CN117485410B (zh) 2024-01-02 2024-01-02 一种列车运行控制系统的数据通信系统及方法

Publications (2)

Publication Number Publication Date
CN117485410A CN117485410A (zh) 2024-02-02
CN117485410B true CN117485410B (zh) 2024-04-02

Family

ID=89683361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410000926.4A Active CN117485410B (zh) 2024-01-02 2024-01-02 一种列车运行控制系统的数据通信系统及方法

Country Status (1)

Country Link
CN (1) CN117485410B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394563A (zh) * 2014-11-11 2015-03-04 大连海天兴业科技有限公司 一种面向地铁/高铁的车载wlan快速切换方法
CN112406956A (zh) * 2020-11-10 2021-02-26 交控科技股份有限公司 基于无线传输的列车通信系统
CN112492656A (zh) * 2020-11-25 2021-03-12 重庆邮电大学 一种基于强化学习的无线网络接入点切换方法
CN113347675A (zh) * 2021-05-14 2021-09-03 华中科技大学 一种网络切换方法和网络切换装置
CN114283607A (zh) * 2020-12-21 2022-04-05 北京邮电大学 一种基于分布式群智学习的多车协同规划方法
CN115038155A (zh) * 2022-05-23 2022-09-09 香港中文大学(深圳) 一种超密集多接入点的动态协同传输方法
WO2022218516A1 (en) * 2021-04-14 2022-10-20 Huawei Technologies Co., Ltd. Devices and methods for collaborative learning of a transmission policy in wireless networks
CN116017285A (zh) * 2022-12-02 2023-04-25 温州大学 一种无线接入点部署位置和工作状态联合优化的方法
CN116513273A (zh) * 2023-01-03 2023-08-01 南京工业大学 基于深度强化学习的列车运行调度优化方法
CN116600267A (zh) * 2023-04-19 2023-08-15 东南大学 一种高铁无蜂窝系统中基于深度强化学习的抗多普勒方法
CN116600324A (zh) * 2023-07-12 2023-08-15 厦门大学 一种信道绑定WiFi网络的信道分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11510136B2 (en) * 2018-01-12 2022-11-22 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for roaming between wireless communications networks

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394563A (zh) * 2014-11-11 2015-03-04 大连海天兴业科技有限公司 一种面向地铁/高铁的车载wlan快速切换方法
CN112406956A (zh) * 2020-11-10 2021-02-26 交控科技股份有限公司 基于无线传输的列车通信系统
CN112492656A (zh) * 2020-11-25 2021-03-12 重庆邮电大学 一种基于强化学习的无线网络接入点切换方法
CN114283607A (zh) * 2020-12-21 2022-04-05 北京邮电大学 一种基于分布式群智学习的多车协同规划方法
WO2022218516A1 (en) * 2021-04-14 2022-10-20 Huawei Technologies Co., Ltd. Devices and methods for collaborative learning of a transmission policy in wireless networks
CN113347675A (zh) * 2021-05-14 2021-09-03 华中科技大学 一种网络切换方法和网络切换装置
CN115038155A (zh) * 2022-05-23 2022-09-09 香港中文大学(深圳) 一种超密集多接入点的动态协同传输方法
CN116017285A (zh) * 2022-12-02 2023-04-25 温州大学 一种无线接入点部署位置和工作状态联合优化的方法
CN116513273A (zh) * 2023-01-03 2023-08-01 南京工业大学 基于深度强化学习的列车运行调度优化方法
CN116600267A (zh) * 2023-04-19 2023-08-15 东南大学 一种高铁无蜂窝系统中基于深度强化学习的抗多普勒方法
CN116600324A (zh) * 2023-07-12 2023-08-15 厦门大学 一种信道绑定WiFi网络的信道分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于WLAN的城市轨道交通越区切换算法优化研究;王冶力;《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》;20230215(第2期);C033-908 *
超密边缘计算中移动性管理研究;王榕;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20210515(第5期);I139-199 *

Also Published As

Publication number Publication date
CN117485410A (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN108513251B (zh) 一种基于mr数据的定位方法及系统
CN108156626B (zh) 轨道交通无线网络质量评估方法、装置及介质
CN108731691B (zh) 导航设备的偏航点的确定方法和装置
CN106209862A (zh) 一种盗号防御实现方法及装置
US20200391766A1 (en) Multi-mode communication method for autonomous transport system of mining vehicle and apparatus thereof
CN106604228A (zh) 一种基于lte信令数据的指纹定位方法
CN103686818A (zh) 一种仿真测试方法及设备
CN107819631A (zh) 一种设备异常检测方法、装置及设备
CN113711540B (zh) 用于预测与蜂窝网络的连接质量的方法和装置
CN106792617A (zh) 一种边境用户确定方法、计费方法及装置
CN105227689A (zh) 基于局部时延分布相似性度量的目标ip定位算法
CN115665665A (zh) 移动路径识别方法、识别装置、电子设备和可读存储介质
CN117485410B (zh) 一种列车运行控制系统的数据通信系统及方法
CN110876112B (zh) 高速用户的识别方法、装置和计算机可读存储介质
CN113645182B (zh) 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法
CN111586632A (zh) 基于通信传感异步数据融合的协作邻居车辆定位方法
CN112733170B (zh) 一种基于证据序列提取的主动信任评估方法
CN110572356B (zh) 基于边缘网关数据质量评价的计算能力迁移方法及系统
CN111212376B (zh) 关联实时位置及语音质量结果的方法、装置、设备及介质
CN110198288A (zh) 一种异常节点的处理方法及设备
CN114827951A (zh) 一种基于车辆终端的车辆网络质量分析方法、系统及存储介质
Lyubchenko et al. An Approach to Data Transmission Process Modelling in Automated Power Accounting Systems
CN115734264A (zh) 5g网络覆盖评估方法、装置、计算机可读介质及电子设备
CN111107552B (zh) 一种识别伪基站的方法及系统
CN109600751B (zh) 一种基于网络侧用户数据的伪基站检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant