CN111612260B - 基于集成学习模型的轨道交通车载数据预测方法 - Google Patents

基于集成学习模型的轨道交通车载数据预测方法 Download PDF

Info

Publication number
CN111612260B
CN111612260B CN202010460659.0A CN202010460659A CN111612260B CN 111612260 B CN111612260 B CN 111612260B CN 202010460659 A CN202010460659 A CN 202010460659A CN 111612260 B CN111612260 B CN 111612260B
Authority
CN
China
Prior art keywords
vehicle
base
mounted data
models
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010460659.0A
Other languages
English (en)
Other versions
CN111612260A (zh
Inventor
王晓玲
李欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010460659.0A priority Critical patent/CN111612260B/zh
Publication of CN111612260A publication Critical patent/CN111612260A/zh
Application granted granted Critical
Publication of CN111612260B publication Critical patent/CN111612260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于集成学习模型的轨道交通车载数据预测方法,首先收集轨道交通车载数据,并分为训练集和测试集,确定若干备选基模型,分别采用训练集进行训练,然后采用测试集进行测试,通过准确度和差异度进行备选基模型筛选,对保留的备选基模型再进行联合筛选,将最终筛选得到的基模型集成得到集成学习模型,采集轨道交通实际运行过程中的车载数据输入集成学习模型,得到停车距离的预测结果。本发明通过筛选出适宜的基模型集成得到集成学习模型,提高对停车距离的预测精度。

Description

基于集成学习模型的轨道交通车载数据预测方法
技术领域
本发明属于轨道交通技术领域,更为具体地讲,涉及一种基于集成学习模型的轨道交通车载数据预测方法。
背景技术
轨道交通出行日益成为城市生活必不可少的一部分,列车以及线路上分布着成百上千个传感器来监测列车运行中的各项数据,这些数据单纯靠人工分析来判断列车出现故障、列车车门与屏蔽门间隔距离较大的原因工作量巨大。特别是列车停车间隔距离,若车门与外面屏蔽门之间的距离过大,轻则影响乘客乘车体验,严重的会导致乘客无法轻松地进入车厢,列车需要重新制动进行调整。
现有很多基于集成学习方法的轨道交通数据分析的案例很多,集成学习的基本思想是“三个臭皮匠赛过诸葛亮”,将若干个弱学习器(下文均称为基模型)集成在一起从而取得比单个模型更好的预测效果。集成学习主要分为两个阶段:基模型的质量评估和模型集成策略。
模型质量的评估不仅仅需要考虑模型预测精准度,各个基模型之间的差异性也必须考虑进去,这是因为如果所有模型之间没有任何差异性,那么将这些模型集成在一起没有任何意义。这就像在就某个问题就像讨论一样,如果在场的所有人意见高度的一致,那就没有任何研究的意义了,因此也需要设计相关策略来衡量各个基模型之间的差异性。模型的集成策略对于分类问题而言大多采取投票的方式,票数最多的分类即为样本最终的类别;对于回归问题来说,现有的方法大多基于取平均的方式。这样做的缺点是并没有考虑基模型之间的重要性不同,对于比较重要的基模型其对应的权重应该大于其他基模型的权重。因此,也应该设计更加合理的模型集成策略,使得“相对重要”的基模型有更有“决定权”。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于集成学习模型的轨道交通车载数据预测方法,筛选出适宜的基模型集成得到集成学习模型,提高对停车距离的预测精度。
为了实现上述发明目的,本发明基于集成学习模型的轨道交通车载数据预测方法包括以下步骤:
S1:根据实际需要设置M个轨道交通的车载数据特征,在轨道交通实际运行过程中收集N次停车时M个车载数据特征的值,将每次停车时所得到的M个车载数据特征构建为一条车载数据,同时记录停车完成时列车车门与屏蔽门之间的距离,将其作为对应车载数据的标签,每条车载数据及其标签作为一个样本;
S2:将步骤S1所得到的N个样本划分为两个集合,分别作为训练集和测试集;
S3:根据实际需要确定P个备选基模型,将车载数据作为输入,停车距离作为输出,采用S2中所得到的训练集分别对每个备选基模型进行训练,在车载数据输入时,需要将车载数据转化为备选基模型规定的输入格式,将训练完毕的P个备选基模型构成基模型候选集;
S4:分别采用步骤S2中测试集对每个备选基模型进行测试,统计每个备选基模型的准确度,将准确度低于预设准确度阈值的备选基模型从基模型候选集中删除,然后两两计算备选基模型之间的差异度,当两个备选基模型的差异度小于预设阈值时,从基模型候选集中删除其中准确度较低的备选基模型,否则不作任何操作;
S5:从步骤S4得到的基模型候选集提取所有基模型组合,每个基模型组合中包含Q个基模型,然后计算每个基模型组合评价指标,选择评价指标最小的基模型组合作为最优基模型组合,每个基模型组合的评价指标L的计算公式如下:
Figure GDA0003500011910000021
其中,Aq表示该基模型组合中第q个基模型的准确度,R表示该基模型组合中Q个基模型综合差异度,α表示权重参数;
S6:对于步骤S5得到的最优基模型组合中的每个基模型,分别判断第q个基模型是否满足以下公式:
Figure GDA0003500011910000031
其中,Corij表示第i个基模型和第j个基模型在车载数据分布上的相关性,Coriq表示第i个基模型和第q个基模型在车载数据分布上的相关性,eq表示第q个基模型在车载数据分布上的误差;
如果不满足,则不作任何操作,如果满足则将第q个基模型剔除出最优基模型组合,记优化后最优基模型组合中的基模型数量为K;
S7:根据需要分别设置K个基模型的权重ωk,将步骤S6得到的K个基模型集成得到集成学习模型;
S8:在轨道交通运行过程中,采集当前M个车载数据特征的值,将其输入集成学习模型,得到停车距离的预测结果。
本发明基于集成学习模型的轨道交通车载数据预测方法,首先收集轨道交通车载数据,并分为训练集和测试集,确定若干备选基模型,分别采用训练集进行训练,然后采用测试集进行测试,通过准确度和差异度进行备选基模型筛选,对保留的备选基模型再进行联合筛选,将最终筛选得到的基模型集成得到集成学习模型,采集轨道交通实际运行过程中的车载数据输入集成学习模型,得到停车距离的预测结果。
本发明综合考虑基模型的准确度和差异度进行基模型的初步筛选,进一步通过基模型构建集成学习模型的效果进行基模型的联合筛选,从而使得到的集成学习模型更加合理,并且可以通过所提出的基模型权重设置方法,进一步提高集成学习模型的性能,从而提高对停车距离的预测精度。
附图说明
图1是本发明基于集成学习模型的轨道交通车载数据预测方法的具体实施方式流程图;
图2是本实施例中模型准确度随权重参数变化的曲线图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述α中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于集成学习模型的轨道交通车载数据预测方法的具体实施方式流程图。如图1所示,本发明基于集成学习模型的轨道交通车载数据预测方法的具体步骤包括:
S101:收集轨道交通车载数据:
根据实际需要设置M个轨道交通的车载数据特征,在轨道交通实际运行过程中收集N次停车时M个车载数据特征的值,将每次停车时所得到的M个车载数据特征构建为一条车载数据,同时记录停车完成时列车车门与屏蔽门之间的距离,将其作为对应车载数据的标签,每条车载数据及其标签作为一个样本。
可见,在本发明中轨道交通的每条车载数据包含M维特征,每条车载数据标明了对应时刻列车的状态,而标签是列车车门与屏蔽门之间的距离,是该条车载数据所带来的结果。表1是本实施例中车载数据示例。
Figure GDA0003500011910000041
表1
其中,时间列表示对应车载数据收集的时间,也表示列车完成停车的时间。
S102:样本集划分:
将步骤S101所得到的N个样本划分为两个集合,分别作为训练集和测试集。一般来说,训练集中的样本数量会大于测试集的样本数量。
S103:确定备选基模型:
根据实际需要确定P个备选基模型,将车载数据作为输入,停车距离作为输出,采用S102中所得到的训练集分别对每个备选基模型进行训练,在车载数据输入时,需要将车载数据转化为备选基模型规定的输入格式,将训练完毕的P个备选基模型构成基模型候选集。实际应用中备选基模型可以包括线性回归模型、支持向量回归模型、Lasso、岭回归等等。
S104:基模型预筛选:
在本发明中,为了使最终得到的集成学习模型更适应于轨道交通的实际应用场景,需要对备选基模型进行筛选,首先根据准确度和差异度两个指标进行预筛选,其具体方法为:
分别采用步骤S102中测试集对每个备选基模型进行测试,统计每个备选基模型的准确度,将准确度低于预设准确度阈值的备选基模型从基模型候选集中删除,然后两两计算备选基模型之间的差异度,当两个备选基模型的差异度小于预设阈值时,从基模型候选集中删除其中准确度较低的备选基模型,否则不作任何操作。
就准确度和差异度而言,由于本发明中轨道交通车载数据预测方法的实质针对的是轨道交通列车停车时车门与屏蔽门之间的距离,是一个连续型变量,因此该数据预测问题是一个回归任务,对于回归问题的模型准确度主要是基于均方误差及其相关变体进行衡量的,本实施例中采用均方误差作为准确度的衡量指标,均方误差MSE越小,准确度越高。均方误差MSE的计算公式如下:
Figure GDA0003500011910000051
其中,yn′表示测试集第n′个样本中真实的停车距离值,f(xn′)表示基模型根据测试集第n′个样本的车载数据预测得到的停车距离值,n′=1,2,…,N′,N′表示测试集中的样本数量。可见,该公式表示预测值与真实值之间的误差。本实施例中准确度采用
Figure GDA0003500011910000052
本实施例中差异度采用组内相关系数ICC作为衡量指标,它是衡量和评价观察者间信度和复测信度的信度系数指标,组内相关系数ICC越小,两个基模型之间的差异度越高。组内相关系数ICC的计算公式如下:
Figure GDA0003500011910000061
其中,f1(xn′)、f2(xn′)分别表示2个观察者,即基模型1、2对测试集中第n′条车载数据预测得到的停车距离值。
Figure GDA0003500011910000062
表示两个基模型对测试集中每一条车载数据预测得到的停车距离值的平均值,即联合均值,计算公式如下:
Figure GDA0003500011910000063
s2表示两个基模型对测试集中每一条车载数据预测得到的停车距离值的联合方差,计算公式如下:
Figure GDA0003500011910000064
由于ICC是每个基模型所预测得到的停车距离值都减去联合均值,加和之后再除以联合方差,因此其计算结果反应的是组内的相关系数,且ICC的值越大则表明基模型之间的相似度越高。本实施例中两个基模型的差异度为1-ICC。
S105:筛选最优基模型组合:
从步骤S103预筛选得到的基模型候选集中,筛选出最优基模型组合,使该基模型组合兼顾准确度和差异度,其具体方法为:
从步骤S104得到的基模型候选集提取所有基模型组合,每个基模型组合中包含Q个基模型,然后计算每个基模型组合评价指标,选择评价指标最小的基模型组合作为最优基模型组合,每个基模型组合的评价指标L的计算公式如下:
Figure GDA0003500011910000065
其中,Aq表示该基模型组合中第q个基模型的准确度,R表示该基模型组合中Q个基模型综合差异度,α表示权重参数,用来衡量模型在准确度和差异度之间的选择度,取值范围在[0,1]。通常来说,α应该设置一个较大的数,因为集成学习模型最终的目的是使得停车距离预测准确度尽量高。
在本实施例中,
Figure GDA0003500011910000071
MSEq表示该基模型组合中第q个基模型的均方误差。
基模型综合差异度R=1-ICC′,其中ICC′的计算公式如下:
Figure GDA0003500011910000072
其中,fq(xn′)表示第q个基模型对测试集中第n′条车载数据预测得到的停车距离值。
Figure GDA0003500011910000073
表示Q个基模型对测试集中每一条车载数据预测得到的停车距离值的平均值,即联合均值,计算公式如下:
Figure GDA0003500011910000074
s′2表示Q个基模型对测试集中每一条车载数据预测得到的停车距离值的联合方差,计算公式如下:
Figure GDA0003500011910000075
S106:基模型组合优化:
对于步骤S105得到的最优基模型组合,还需要进一步进行优化。
在本发明的轨道交通车载数据预测的场景中,每个基模型都只有一个输出(即对停车距离的预测),因此每个基模型都可以形式化函数f:RM→R。假设车载数据服从一个分布p(x),而N条车载数据都是从这个分布中采样出来的,列车真实的停车距离可以表示为y(x)。假设第i个基模型对于车载数据x的预测结果表示为fi(x),则通过对Q个基模型集成后的模型F(x)可以表示为:
Figure GDA0003500011910000076
其中,ωi表示每个基模型的权重,通常采取取平均方法,即ωi=1/Q。
对于第i个基模型,集成后的集成模型在当前车载数据x上的误差可以分别表示为:
Figure GDA0003500011910000077
对于第i个基模型,集成后的集成模型在车载数据分布p(x)上的误差可以分别表示为:
Figure GDA0003500011910000081
那么两个基模型在车载数据分布p(x)上的相关性Corij可以表示为:
Corij=∫p(x)(fi(x)-y(x))(fj(x)-y(x))dx (12)
其中,i,j=1,2,…,Q。
显然Corij=Corji,且Corii=ei
可以从公式(9)(10)中得到如下公式:
Figure GDA0003500011910000082
可以从(11)、(12)、(13)得到如下公式:
Figure GDA0003500011910000083
在联合筛选阶段,假设Q个基模型的权重相同,则公式(14)可以表示为:
Figure GDA0003500011910000084
假设第q个基模型被从候选基模型中剔除,则公式(15)可以表示为:
Figure GDA0003500011910000085
可以从公式(15)、(16)中很容易看得出E大于E′。因此如果公式(17)满足,最终集成得到的集成学习模型包含第q个基模型比没有包含第q个基模型效果差,此时应该将第q个基模型剔除出基模型候选集。
Figure GDA0003500011910000086
综合考虑公式(14)、公式(17),可以得到如下约束:
Figure GDA0003500011910000087
其中,Corij表示第i个基模型和第j个基模型在车载数据分布上的相关性,Coriq表示第i个基模型和第q个基模型在车载数据分布上的相关性,eq表示第q个基模型在车载数据分布上的误差。
对于步骤S105得到的最优基模型组合中的每个基模型,根据公式(19)对第q个基模型进行判断,如果公式(19)不满足,则不作任何操作,如果满足则将第q个基模型剔除出最优基模型组合,记优化后最优基模型组合中的基模型数量为K。
S107:基模型集成:
根据需要分别设置K个基模型的权重ωk,k=1,2,…,K,将步骤S106得到的K个基模型集成得到集成学习模型。
在基模型联合筛选时,默认各基模型的权重相同,现有的一般方案中也是这样设置的。为了提高车载数据预测性能,本实施例中基于最小二乘法进行基模型权重设置,其具体方法为:
对于K个基模型中的第k个基模型,将其对停车距离的预测输出记为
Figure GDA0003500011910000091
可以表示为:
Figure GDA0003500011910000092
其中,Xk表示样本集中所有车载数据转化为第k个基模型规定的输入格式后所构成的大小为N×M的输入矩阵,Xk′为输入矩阵Xk的转置矩阵,上标“-1”表示求取逆矩阵,Y表示测试集所有停车距离所构成的N维向量。
记K个基模型所构成的集成学习模型对停车距离的预测值为
Figure GDA0003500011910000093
可以表示为:
Figure GDA0003500011910000094
其中,Hk=Xk(X'kXk)-1Xk,
Figure GDA0003500011910000095
是对应的投影矩阵,ω=(ω12,…,ωK),0<ωk<1。
本实施例中使用“留一”法对K个基模型的权重进行确定。“留一法”是指对一个基模型而言,对包含N条数据的整个数据集进行N次训练和预测,第一次使用2~N条数据对基模型进行训练,对使用第1条数据作为测试集;第二次使用除了第2条数据之外的所有数据进行模型训练,并使用第2条数据作为测试集,如此类推下去。假设N维向量
Figure GDA0003500011910000096
表示第k个基模型采用“留一法”训练后对数据的预测结果。其中
Figure GDA0003500011910000101
表示第k个基模型使用除了第n条车载数据之外的所有数据进行训练得到的结果,其他项表达的含义可以以此类推,且
Figure GDA0003500011910000102
可以表示为
Figure GDA0003500011910000103
其中
Figure GDA0003500011910000104
为松弛矩阵,可以表示为
Figure GDA0003500011910000105
其中Dk为N×N的对角矩阵,且其第i个对角元素等于(1-hkn)-1,hkn是Hk的第n个对角元素,I为单位矩阵,则采用“留一法”得到的模型可以表示为:
Figure GDA0003500011910000106
其中,
Figure GDA0003500011910000107
留一交叉验证的标准是使用残差平方和cross_V(ω)来计算的:
Figure GDA0003500011910000108
求解令留一交叉验证的残差平方和cross_V(ω)最小的权重组合
Figure GDA0003500011910000109
将其作为基模型的权重,其表达式如下:
Figure GDA00035000119100001010
S107:停车距离预测:
在轨道交通运行过程中,采集当前M个车载数据特征的值,将其输入集成学习模型,得到停车距离的预测结果。
为了更好地说明本发明的技术效果,采用一个具体实例对本发明进行实验验证,测试时共计采用476条测试样本。表2是本实施例中部分停车距离预测值和真实值的对比表。
Figure GDA00035000119100001011
Figure GDA0003500011910000111
表2
如表2所示,采用本发明所得到的停车距离预测值和真实值非常接近,经统计,测试样本的平均误差为0.07587mm,完全可以满足实际应用的需求。
表3是本实施例中本发明和其他13种现有模型的实验结果对比表。
Figure GDA0003500011910000112
Figure GDA0003500011910000121
表3
如表3所示,本实施例中通过Adjusted R-Square(校正决定系数)、MSE(均方误差)两个指标来衡量停车距离预测精度,可以看出本发明在预测精确度上远远优于其他现有的模型。
对于公式(5)中的权重参数α,用于调节集成学习模型的准确度和各个基模型之间差异度,其取值对于最终的模型准确度具有较大影响。图2是本实施例中模型准确度随权重参数α变化的曲线图。如图2可以看出当该权重参数α设置为0.8时,集成学习模型的均方误差MSE最低,预测度越高。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种基于集成学习模型的轨道交通车载数据预测方法,其特征在于,包括以下步骤:
S1:根据实际需要设置M个轨道交通的车载数据特征,在轨道交通实际运行过程中收集N次停车时M个车载数据特征的值,将每次停车时所得到的M个车载数据特征构建为一条车载数据,同时记录停车完成时列车车门与屏蔽门之间的距离,将其作为对应车载数据的标签,每条车载数据及其标签作为一个样本;
S2:将步骤S1所得到的N个样本划分为两个集合,分别作为训练集和测试集;
S3:根据实际需要确定P个备选基模型,将车载数据作为输入,停车距离作为输出,采用S2中所得到的训练集分别对每个备选基模型进行训练,在车载数据输入时,需要将车载数据转化为备选基模型规定的输入格式,将训练完毕的P个备选基模型构成基模型候选集;
S4:分别采用步骤S2中测试集对每个备选基模型进行测试,统计每个备选基模型的准确度,将准确度低于预设准确度阈值的备选基模型从基模型候选集中删除,然后两两计算备选基模型之间的差异度,当两个备选基模型的差异度小于预设阈值时,从基模型候选集中删除其中准确度较低的备选基模型,否则不作任何操作;
S5:从步骤S4得到的基模型候选集提取所有基模型组合,每个基模型组合中包含Q个基模型,然后计算每个基模型组合评价指标,选择评价指标最小的基模型组合作为最优基模型组合,每个基模型组合的评价指标L的计算公式如下:
Figure FDA0003500011900000011
其中,Aq表示该基模型组合中第q个基模型的准确度,R表示该基模型组合中Q个基模型综合差异度;
S6:对于步骤S5得到的最优基模型组合中的每个基模型,分别判断第q个基模型是否满足以下公式:
Figure FDA0003500011900000021
其中,Corij表示第i个基模型和第j个基模型在车载数据分布上的相关性,Coriq表示第i个基模型和第q个基模型在车载数据分布上的相关性,eq表示第q个基模型在车载数据分布上的误差;
如果不满足,则不作任何操作,如果满足则将第q个基模型剔除出最优基模型组合,记优化后最优基模型组合中的基模型数量为K;
S7:根据需要分别设置K个基模型的权重ωk,将步骤S6得到的K个基模型集成得到集成学习模型;
S8:在轨道交通运行过程中,采集当前M个车载数据特征的值,将其输入集成学习模型,得到停车距离的预测结果。
2.根据权利要求1所述的轨道交通车载数据预测方法,其特征在于,所述步骤S4中备选模型的准确度采用均方误差MSE作为衡量指标,均方误差MSE越小,准确度越高,均方误差MSE的计算公式为:
Figure FDA0003500011900000022
其中,yn′表示测试集第n′个样本中真实的停车距离值,f(xn′)表示基模型根据测试集第n′个样本的车载数据预测得到的停车距离值,n′=1,2,…,N′,N′表示测试集中的样本数量。
3.根据权利要求1所述的轨道交通车载数据预测方法,其特征在于,所述步骤S4中两个备选模型的差异度采用组内相关系数ICC作为衡量指标,组内相关系数ICC越小,两个基模型之间的差异度越高,组内相关系数ICC的计算公式如下:
Figure FDA0003500011900000023
其中,f1(xn′)、f2(xn′)分别表示基模型1、2根据测试集第n′个样本的车载数据预测得到的停车距离值;
Figure FDA0003500011900000024
表示两个基模型对N条车载数据中每一条车载数据预测得到的停车距离值的平均值,即联合均值,计算公式如下:
Figure FDA0003500011900000031
s2表示两个基模型对N条车载数据中每一条车载数据预测得到的停车距离值的联合方差,计算公式如下:
Figure FDA0003500011900000032
4.根据权利要求1所述的的轨道交通车载数据预测方法,其特征在于,所述步骤S5中准确度
Figure FDA0003500011900000033
MSEq表示该基模型组合中第q个基模型的均方误差;
基模型综合差异度R=1-ICC′,其中ICC′的计算公式如下:
Figure FDA0003500011900000034
其中,fq(xn′)表示第q个基模型对测试集中第n′条车载数据预测得到的停车距离值;
Figure FDA0003500011900000035
表示Q个基模型对测试集中每一条车载数据预测得到的停车距离值的平均值,即联合均值,计算公式如下:
Figure FDA0003500011900000036
s′2表示Q个基模型对测试集中每一条车载数据预测得到的停车距离值的联合方差,计算公式如下:
Figure FDA0003500011900000037
5.根据权利要求1所述的轨道交通车载数据预测方法,其特征在于,所述步骤S7中的权重ωk基于留一法确定,其具体方法为:
求解令留一交叉验证的残差平方和cross_V(ω)最小的权重组合
Figure FDA0003500011900000038
其表达式如下:
Figure FDA0003500011900000039
其中,ω=(ω12,…,ωK),0<ωk<1,残差平方和cross_V(ω)的计算公式如下:
Figure FDA00035000119000000310
其中,
Figure FDA0003500011900000041
Dk为N×N的对角矩阵,且其第i个对角元素等于(1-hkn)-1,hkn是矩阵Hk的第n个对角元素,I为单位矩阵,矩阵Hk=Xk(X'kXk)-1Xk,Xk表示样本集中所有车载数据转化为第k个基模型规定的输入格式后所构成的大小为N×M的输入矩阵,X′k为输入矩阵Xk的转置矩阵,上标“-1”表示求取逆矩阵。
CN202010460659.0A 2020-05-27 2020-05-27 基于集成学习模型的轨道交通车载数据预测方法 Active CN111612260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010460659.0A CN111612260B (zh) 2020-05-27 2020-05-27 基于集成学习模型的轨道交通车载数据预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010460659.0A CN111612260B (zh) 2020-05-27 2020-05-27 基于集成学习模型的轨道交通车载数据预测方法

Publications (2)

Publication Number Publication Date
CN111612260A CN111612260A (zh) 2020-09-01
CN111612260B true CN111612260B (zh) 2022-03-25

Family

ID=72201348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010460659.0A Active CN111612260B (zh) 2020-05-27 2020-05-27 基于集成学习模型的轨道交通车载数据预测方法

Country Status (1)

Country Link
CN (1) CN111612260B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508301B (zh) * 2020-12-21 2024-05-17 北京梧桐车联科技有限责任公司 电动车辆的充电负荷预测方法、装置及存储介质
CN113743662B (zh) * 2021-08-31 2024-04-16 中山大学 一种基于机器学习的船舶关键技术参数预测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365997A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种基于集成学习的观点挖掘方法
CN110428109A (zh) * 2019-08-07 2019-11-08 佳都新太科技股份有限公司 地铁屏蔽门故障间隔时间预测模型建立及预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365997A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种基于集成学习的观点挖掘方法
CN110428109A (zh) * 2019-08-07 2019-11-08 佳都新太科技股份有限公司 地铁屏蔽门故障间隔时间预测模型建立及预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A comprehensive prediction model for vehicle/track/soil dynamic response due to wheel flats";Georgios Alexandrou 等;《Proceedings of the Istitution of Mechanical Engeneers Part F Journal of Rail and Rapid Transit》;20160531;全文 *
"基于SVM-AdaBoost算法的轨道交通列车滚动轴承故障诊断";冯帅;《城市公共交通》;20171231;全文 *

Also Published As

Publication number Publication date
CN111612260A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN110097755B (zh) 基于深度神经网络的高速公路交通流量状态识别方法
CN111832225B (zh) 一种构建汽车行驶工况的方法
CN109117987B (zh) 一种基于深度学习的个性化交通事故风险预测推荐方法
CN111126680A (zh) 一种基于时间卷积神经网络的道路断面交通流量预测方法
CN105740991B (zh) 基于改进bp神经网络拟合多种气候模式的气候变化预测方法及系统
CN109033332B (zh) 驾驶行为分析方法、介质及系统
CN111612260B (zh) 基于集成学习模型的轨道交通车载数据预测方法
CN111489008B (zh) 一种交通事故影响因素空间效应分析方法及其应用
CN106250613A (zh) 一种车轮服役状态安全域估计及故障诊断方法
CN112668809B (zh) 建立自闭症儿童康复效果预测模型的方法
CN111784017A (zh) 一种基于路况因素回归分析的公路交通事故数量预测方法
CN111667204A (zh) 自动驾驶开放测试道路环境风险度确定、分级方法及系统
CN113468670B (zh) 一种自动驾驶车辆整车级别的性能评价方法
CN110674858A (zh) 一种基于时空关联与大数据挖掘的交通拥堵检测方法
CN111880242B (zh) 一种高铁沿线大风监测点布设方法
CN114755357A (zh) 一种色谱质谱自动积分方法、系统、设备、介质
CN116049668A (zh) 一种基于机器学习的自动驾驶事故严重程度预测方法
CN109583741B (zh) 行驶轨迹风险评估方法和系统
CN113642114A (zh) 可犯错的拟人化随机跟车驾驶行为建模方法
CN117033891A (zh) 基于单车交通事故数据库的交通事故严重程度评估方法
CN117436653A (zh) 一种网约车出行需求的预测模型构建方法和预测方法
CN116946183A (zh) 一种考虑驾驶能力的商用车驾驶行为预测方法及车用设备
CN115204755B (zh) 服务区入区率测算方法、装置、电子设备及可读存储介质
CN116778435A (zh) 一种基于计算机视觉技术的车辆轴重分布识别方法
CN111626508B (zh) 基于xgboost模型的轨道交通车载数据预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant