CN107195020A - 一种面向列车自动驾驶模式学习的列车运行记录数据处理方法 - Google Patents
一种面向列车自动驾驶模式学习的列车运行记录数据处理方法 Download PDFInfo
- Publication number
- CN107195020A CN107195020A CN201710378150.XA CN201710378150A CN107195020A CN 107195020 A CN107195020 A CN 107195020A CN 201710378150 A CN201710378150 A CN 201710378150A CN 107195020 A CN107195020 A CN 107195020A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- feature
- train
- pretreatment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C5/00—Registering or indicating the working of vehicles
- G07C5/08—Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
- G07C5/0841—Registering performance data
Abstract
本发明涉及一种面向列车自动驾驶模式学习的列车运行记录数据处理方法,具体包括以下步骤:步骤1、原始数据的收集与预处理,得到标准的数据集,为后续的步骤准备数据的输入;步骤2、利用步骤1中得到的标准数据集进行数据不均衡处理;步骤3、利用特征选择的算法对步骤2中的SMOTE算法处理之后的数据集进行特征的选择,将无效特征和噪声特征去除,得到最合适的特征,并将经过特征选择之后的数据集重新保存为新的数据集,存储在文本文件中。该技术方案对线路数据进行分段操作,并将司机操作日志数据与线路分段数据进行映射;同时使用SMOTE算法解决了数据的不平衡问题;使用CFS进行数据集的特征选择,得到数据集的最佳特征,对数据进行了有效降维。
Description
技术领域
本申请涉及一种数据处理技术,尤其涉及一种面向列车自动驾驶模式学习的列车运行记录数据处理方法。
背景技术
轨道列车自动驾驶(ATO)是为了能够在一定的牵引列车、车辆、线路等硬件环境和既定的运行图、列车编组计划等运营管理状况下,来得到列车的操作档位序列来控制列车自动运行,在自动驾驶的过程中往往也需要列车档位操纵序列满足一定的约束条件,如准点、安全、平稳、节能等。现在越来越多国内外科研人员使用机器学习的手段来解决列车自动驾驶的问题,通过从优秀司机驾驶列车运行过程中的记录日志数据来挖掘出他们的驾驶模式的方式来构建列车自动驾驶过程中的操纵档位序列,这类解决列车自动驾驶问题的方式是以数据为驱动的,使用机器学习的方法从优秀司机的驾驶日志数据中学习优秀司机的驾驶模式,从而达到列车自动驾驶的目的。数据是机器学习中最重要的部分之一,任何机器学习算法都不能脱离数据单独存在,要想算法有好的表现,就必须保证输入数据集的质量,好的数据集不仅能够训练出更好的预测模型还能够减少计算时间、简化问题,因此获取合适的训练数据集是我们解决列车自动驾驶模式学习首先要解决的问题。本发明提出一种面向列车自动驾驶模式学习的列车运行记录数据处理的方法,此方法包括原始历史数据的获取与处理、训练数据不均衡处理、训练数据特征选择处理三个方面。
发明内容
本发明的目的是提出一种面向列车自动驾驶模式学习的列车运行记录数据处理的方法,最终得到可以用于列车自动驾驶模式学习的合适的训练数据集,通过这些数据集来进行列车自动驾驶模式的学习。
本发明的技术方案是提供一种面向列车自动驾驶模式学习的列车运行记录数据处理方法,具体包括以下步骤:
步骤1、原始数据的收集与预处理,得到标准的数据集,为后续的步骤准备数据的输入;该步骤分为数据的收集和预处理两个步骤,数据收集是从列车上相关的监控记录设备上获取原始数据,数据的预处理是针对从记录仪器上获取的原始数据进行数据的预处理。预处理之后得到供后续步骤使用的标准数据集合。将预处理之后的数据集结果存储在文本文件中;
步骤2、利用步骤1中得到的标准数据集进行数据不均衡处理,并使用SMOTE算法进行数据过采样处理,对样本数据量小的类别进行样本数据补充;
步骤3、利用特征选择的算法对步骤2中的SMOTE算法处理之后的数据集进行特征的选择,将无效特征和噪声特征去除,得到最合适的特征,并将经过特征选择之后的数据集重新保存为新的数据集,存储在文本文件中。
进一步地,步骤1包括:步骤1.1、原始数据的收集,原始数据包括从列车监控装置、列车控制和管理系统获取包含运行的线路数据和机车操纵日志数据;步骤1.2、对运行的线路数据和机车操纵日志数据进行预处理操作,处理后得到标准的数据集。
进一步地,步骤3中,采用BestFirst搜索方法遍历特征集合空间来搜索好的特征子集,这个过程中使用CFS算法作为特征子集评估器来衡量特征的好坏,整个搜索过程直至达到了终止条件才结束,算法的输入为步骤2中数据集,算法的输出为CFS和BestFirst算法搜索出的最佳特征列表,完成特征选择操作后,剔除步骤2数据集中的不在最佳特征列表中的特征,得到新的筛选特征后的数据集,将这些数据存储在新的文本文件中。
本发明的有益效果在于:对线路数据进行分段操作,并将司机操作日志数据与线路分段数据进行映射,减小问题分析难度;同时使用SMOTE算法解决了数据的不平衡问题;使用CFS进行数据集的特征选择,得到数据集的最佳特征,对数据进行了有效降维。
附图说明
图1是一种面向列车自动驾驶模式学习的列车运行记录数据处理方法的流程图;
具体实施方式
以下结合附图1对本发明的技术方案进行详细说明。
如图1所示,该实施例提供了一种面向列车自动驾驶模式学习的列车运行记录数据处理方法,具体包括以下步骤:
步骤1、原始数据的收集与预处理,得到标准的数据集,为后续的步骤准备数据的输入;该步骤分为数据的收集和预处理两个步骤,数据收集是从列车上相关的监控记录设备上获取原始数据,数据的预处理是针对从记录仪器上获取的原始数据进行数据的预处理。预处理之后得到供后续步骤使用的标准数据集合。将预处理之后的数据集结果存储在文本文件中。
步骤1.1、原始数据的收集,原始数据包括从列车监控装置(简称LKJ)、列车控制和管理系统(简称TCMS)获取包含运行的线路数据和机车操纵日志数据;
从一般现代轨道列车在运行中都会有相关的设备记录机车的整个运行过程中的状态。如列车监控装置(简称LKJ)、列车控制和管理系统(简称TCMS)等,LKJ装置中主要记录线路、时刻表、运行调度等日志数据,从中可以获得线路的基本信息和机车运行公里标、速度等;TCMS装置中主要记录了机车运行的操纵日志数据,从中可以获得机车运行的档位。该实施例中所提出的数据收集,主要是指从LKJ、TCMS等装置或系统中得到相关的日志数据。原始样本数据包括线路数据、机车参数数据、机车操纵日志数据等。
步骤1.2、对运行的线路数据和机车操纵日志数据进行预处理操作,处理后得到标准的数据集。
这里的原始数据预处理操作主要是根据自动驾驶模式学习的具体业务与数据集需求来处理。最后得到预处理后标准的线路数据和所有列车操纵日志数据标准数据集合,并将这些数据以一种结构化的表征形式存储在文本文件中。
步骤2、利用步骤1中得到的标准数据集进行数据不均衡处理,并使用SMOTE算法进行数据过采样处理,对样本数据量小的类别进行样本数据补充。
数据不均衡是指在机器学习分类任务中训练数据集存在某个或某几个类别的样本量远大于另一些类别的样本量,简而言之就是训练数据集中不同类别样本数量差别很大,数据不均衡是机器学习应用中很普遍的现象:电力盗窃、恶性肿瘤检测、网络入侵、诈骗识别等都存在样本分布极不均横的现象。对于列车自动驾驶模式的学习,由于线路情况复杂多变,一些特殊路段列车运行数据很少,这样就会造成原始数据往往会存在某些类别的数据过少,数据就会出现不均衡。使用这些不均衡的训练数据会造成在大样本量的类别上预测效果很好,而在小样本量的类别上预测效果很差,严重的情况下会造成分类器无效,这样就会造成我们的预测结果出现偏差。
SMOTE(Synthetic Minority Oversampling Technique)合成少数过采样技术,2002年由Chawla和Bowyer等人提出,相对于简单随机复制样本数据的随机过采样,SMOTE可以合成小样本的数据而不是复制已有小样本数据的副本,方法会构造原始数据集中没有的新数据,这样一定程度上可以避免训练模型的过度拟合问题,可以加大训练模型的泛化能力。
针对数据集中样本数最少的若干个类别进行SMOTE上采样操作,SMOTE算法会合成新的小样本数据,这些数据将会被保存在文本文件中。
步骤3、利用特征选择的算法对步骤2中的SMOTE算法处理之后的数据集进行特征的选择,将无效特征和噪声特征去除,得到最合适的特征,并将经过特征选择之后的数据集重新保存为新的数据集,存储在文本文件中。
通过步骤2的数据处理得到了均衡的标准数据集,这些数据集都是若干特征加上类别或实值的形式,将作为机器学习的训练数据输入,列车自动驾驶问题是一个多约束、高非线性的复杂操纵序列优化问题,数据集的特征会有很多。在机器学习过程中一个重要的过程就是特征选择,特征选择的主要作用就是降维,降低计算的复杂性,摒弃那些可能存在的无效特征和噪声特征,这些无效特征和噪声特征除了增加计算量也有可能对机器学习模型训练算法造成干扰,影响训练精度。
本发明使用CFS(Correlation based Feature Selection)算法结合BestFirst(最佳优先)搜索算法进行特征选择。CFS算法根据特征子集中每一个特征的预测能力以及它们之间的关联性进行评估,评估每个特征的预测能力以及相互之间的冗余度,倾向于选择与类别特征相关度高,但是相互之间相关度低的那些特征。
BestFirst是一种贪心的搜索策略,搜索时使用宽度优先搜索的扩展,基本思想是将节点按照距离目标的距离进行排序,再以节点的估计距离为标准选择待扩展的节点。
该步骤中,采用BestFirst搜索方法遍历特征集合空间来搜索好的特征子集,这个过程中使用CFS算法作为特征子集评估器来衡量特征的好坏,整个搜索过程直至达到了终止条件才结束,算法的输入为步骤2中数据集,算法的输出为CFS和BestFirst算法搜索出的最佳特征列表。
完成特征选择操作后,剔除步骤2数据集中的不在最佳特征列表中的特征,得到新的筛选特征后的数据集,将这些数据存储在新的文本文件中。
虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述,本领域技术人员应该理解,上述实施例仅仅是对本发明的示意性实现方式的解释,并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制,在不背离本发明的精神和范围的情况下,任何基于本发明技术方案的等效变换、简单替换等显而易见的改变,均落在本发明保护范围之内。
Claims (3)
1.一种面向列车自动驾驶模式学习的列车运行记录数据处理方法,具体包括以下包括以下步骤:
步骤1、通过原始数据的收集与预处理,得到标准的数据集,为后续的步骤准备数据的输入;该步骤分为数据的收集和预处理两个步骤,数据收集是从列车上相关的监控记录设备上获取原始数据,数据的预处理是针对从记录仪器上获取的原始数据进行数据的预处理;预处理之后得到供后续步骤使用的标准数据集合;将预处理之后的数据集结果存储在文本文件中;
步骤2、利用步骤1中得到的标准数据集进行数据不均衡处理,并使用SMOTE算法进行数据过采样处理,对样本数据量小的类别进行样本数据补充;
步骤3、利用特征选择的算法对步骤2中的SMOTE算法处理之后的数据集进行特征的选择,将无效特征和噪声特征去除,得到最合适的特征,并将经过特征选择之后的数据集重新保存为新的数据集,存储在文本文件中。
2.根据权利要求1所述的一种面向列车自动驾驶模式学习的列车运行记录数据处理方法,其特征在于:步骤1包括:
步骤1.1、原始数据的收集,原始数据包括从列车监控装置、列车控制和管理系统获取包含运行的线路数据和机车操纵日志数据;
步骤1.2、对运行的线路数据和机车操纵日志数据进行预处理操作,处理后得到标准的数据集。
3.根据权利要求1所述的一种面向列车自动驾驶模式学习的列车运行记录数据处理方法,其特征在于:步骤3中,采用BestFirst搜索方法遍历特征集合空间来搜索好的特征子集,这个过程中使用CFS算法作为特征子集评估器来衡量特征的好坏,整个搜索过程直至达到了终止条件才结束,算法的输入为步骤2中数据集,算法的输出为CFS和BestFirst算法搜索出的最佳特征列表,完成特征选择操作后,剔除步骤2数据集中的不在最佳特征列表中的特征,得到新的筛选特征后的数据集,将这些数据存储在新的文本文件中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710378150.XA CN107195020A (zh) | 2017-05-25 | 2017-05-25 | 一种面向列车自动驾驶模式学习的列车运行记录数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710378150.XA CN107195020A (zh) | 2017-05-25 | 2017-05-25 | 一种面向列车自动驾驶模式学习的列车运行记录数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107195020A true CN107195020A (zh) | 2017-09-22 |
Family
ID=59874348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710378150.XA Pending CN107195020A (zh) | 2017-05-25 | 2017-05-25 | 一种面向列车自动驾驶模式学习的列车运行记录数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107195020A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109669461A (zh) * | 2019-01-08 | 2019-04-23 | 南京航空航天大学 | 一种复杂工况下自动驾驶车辆决策系统及其轨迹规划方法 |
CN112183758A (zh) * | 2019-07-04 | 2021-01-05 | 华为技术有限公司 | 用于实现模型训练的方法及装置、计算机存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102307123A (zh) * | 2011-09-06 | 2012-01-04 | 电子科技大学 | 基于传输层流量特征的nat流量识别方法 |
JP2013058228A (ja) * | 2012-11-01 | 2013-03-28 | Nihon Univ | 保安処理装置 |
CN103034691A (zh) * | 2012-11-30 | 2013-04-10 | 南京航空航天大学 | 一种基于支持向量机的专家系统知识获取方法 |
CN103847749A (zh) * | 2014-03-27 | 2014-06-11 | 北京清软英泰信息技术有限公司 | 一种双层多目标优化铁路机车操纵序列生成方法 |
CN103879414A (zh) * | 2014-03-26 | 2014-06-25 | 北京清软英泰信息技术有限公司 | 一种基于自适应A-Star算法的铁路机车优化操纵方法 |
CN104766098A (zh) * | 2015-04-30 | 2015-07-08 | 哈尔滨工业大学 | 一种分类器的构建方法 |
CN105389480A (zh) * | 2015-12-14 | 2016-03-09 | 深圳大学 | 多类不平衡基因组学数据迭代集成特征选择方法及系统 |
CN106314438A (zh) * | 2016-08-15 | 2017-01-11 | 西北工业大学 | 一种司机驾驶轨迹中异常轨迹的检测方法和系统 |
WO2017065959A3 (en) * | 2015-09-25 | 2017-05-18 | Veracyte, Inc. | Methods and compositions that utilize transcriptome sequencing data in machine learning-based classification |
-
2017
- 2017-05-25 CN CN201710378150.XA patent/CN107195020A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102307123A (zh) * | 2011-09-06 | 2012-01-04 | 电子科技大学 | 基于传输层流量特征的nat流量识别方法 |
JP2013058228A (ja) * | 2012-11-01 | 2013-03-28 | Nihon Univ | 保安処理装置 |
CN103034691A (zh) * | 2012-11-30 | 2013-04-10 | 南京航空航天大学 | 一种基于支持向量机的专家系统知识获取方法 |
CN103879414A (zh) * | 2014-03-26 | 2014-06-25 | 北京清软英泰信息技术有限公司 | 一种基于自适应A-Star算法的铁路机车优化操纵方法 |
CN103847749A (zh) * | 2014-03-27 | 2014-06-11 | 北京清软英泰信息技术有限公司 | 一种双层多目标优化铁路机车操纵序列生成方法 |
CN104766098A (zh) * | 2015-04-30 | 2015-07-08 | 哈尔滨工业大学 | 一种分类器的构建方法 |
WO2017065959A3 (en) * | 2015-09-25 | 2017-05-18 | Veracyte, Inc. | Methods and compositions that utilize transcriptome sequencing data in machine learning-based classification |
CN105389480A (zh) * | 2015-12-14 | 2016-03-09 | 深圳大学 | 多类不平衡基因组学数据迭代集成特征选择方法及系统 |
CN106314438A (zh) * | 2016-08-15 | 2017-01-11 | 西北工业大学 | 一种司机驾驶轨迹中异常轨迹的检测方法和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109669461A (zh) * | 2019-01-08 | 2019-04-23 | 南京航空航天大学 | 一种复杂工况下自动驾驶车辆决策系统及其轨迹规划方法 |
CN109669461B (zh) * | 2019-01-08 | 2020-07-28 | 南京航空航天大学 | 一种复杂工况下自动驾驶车辆决策系统及其轨迹规划方法 |
CN112183758A (zh) * | 2019-07-04 | 2021-01-05 | 华为技术有限公司 | 用于实现模型训练的方法及装置、计算机存储介质 |
WO2021000958A1 (zh) * | 2019-07-04 | 2021-01-07 | 华为技术有限公司 | 用于实现模型训练的方法及装置、计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102765643B (zh) | 基于数据驱动的电梯故障诊断与预警方法 | |
CN102496280B (zh) | 一种路况信息实时获取方法 | |
CN108764375B (zh) | 高速公路货运车辆跨省匹配方法及装置 | |
Chen et al. | Position computation models for high-speed train based on support vector machine approach | |
CN106250442A (zh) | 一种网络安全数据的特征选择方法及系统 | |
CN104050361A (zh) | 一种监狱服刑人员危险性倾向的智能分析预警方法 | |
CN112732905B (zh) | 一种基于知识图谱的交通事故分析与防控方法及系统 | |
CN107195020A (zh) | 一种面向列车自动驾驶模式学习的列车运行记录数据处理方法 | |
Zou et al. | The method of dynamic identification of the maximum speed limit of expressway based on electronic toll collection data | |
Li | Predicting short-term traffic flow in urban based on multivariate linear regression model | |
Reich et al. | Survey of ETA prediction methods in public transport networks | |
CN107423761A (zh) | 基于特征选择和机器学习的轨道机车节能优化操纵方法 | |
JP6201040B2 (ja) | 交通システム最適化装置 | |
CN106844621A (zh) | 一种轨道机车节能操纵实时优化控制策略库构建方法 | |
CN106281431A (zh) | 一种加氢裂化装置反应深度的实时预测方法及装置 | |
CN108710967A (zh) | 基于数据融合和支持向量机的高速路交通事故严重度预测方法 | |
Carrillo et al. | Design of efficient deep learning models for determining road surface condition from roadside camera images and weather data | |
Haikola et al. | The modern railway and the Swedish state–competing storylines about state capacity, modernisation and material dependencies in the Swedish high-speed rail discourse, 1995–2020 | |
Lv et al. | Soft computing for overflow particle size in grinding process based on hybrid case based reasoning | |
CN102880881A (zh) | 一种基于二类支持向量机和遗传算法的轿车车型识别方法 | |
Gellrich et al. | Feature selection based on visual analytics for quality prediction in aluminium die casting | |
CN114528679A (zh) | 数控系统多模态故障预警方法及系统 | |
Zhou et al. | Refined taxi demand prediction with ST-Vec | |
CN103886007A (zh) | 一种基于相互约束的模糊数据分类方法 | |
Liu et al. | Learning to route via theory-guided residual network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170922 |