基于数据驱动支持向量机的高速列车车轴温度预测方法
技术领域
本发明属于高速列车相关数据分析技术领域,涉及一种基于数据驱动支持向量机的高速列车车轴温度预测方法。
背景技术
近年来,高速列车凭借着其运能大、安全舒适、环境友好等优势在国内外得到了大规模的发展,并且受到了广泛的应用。但随着高速列车运行速度不断提升,运营里程不断增长,列车复杂化程度和自动化水平的日益提高,列车安全运行面临巨大考验。
列车车轴作为影响列车安全运行的重要部件,在行驶过程中,几乎承担列车的所有负重以及由振动引起的冲击,这也使得车轴成为列车最易受损的部件之一。车轴温度的变化情况是车轴运行状况最直接的反映,当车轴发生异常升温时,会导致车轴与轴承活动状况变差,磨擦磨损加重,光滑质量下降等工况,这会致使车轴与轴承断裂变形,更加严重时会造成列车热切轴、燃轴等现象,如不及时处理,则可能引起行车故障。因此,对车轴温度的变化进行研究与预测对保障列车的安全运行起着重要的作用。
目前,车轴温度相关的研究工作主要集中在轴温检测、轴温监测与轴温报警系统的优化设计方面。轴温报警系统是通过实时监测车轴当前温度,来判断车轴的工作状态,一旦车轴温度超过阈值,通过传感器向乘务员报告。但是,轴温报警系统存在一定缺陷,其易受外界因素的干扰,从而导致报警系统出现误报或者错报的情况。因此,采用一种高精度的轴温预测方法,分析轴温的变化趋势,可以为轴温报警器工作的提供理论支持,同时对保障列车的安全运行具有非常重要的意义。
发明内容
本发明的目的是提供一种基于数据驱动支持向量机的高速列车车轴温度预测方法,实现对车轴温度的预测,为车辆的轴温报警器提供理论支持,保障列车的安全行驶;解决了现有方法容易受外界因素的影响,从而不能准确提供车轴轴温的问题。
本发明所采用的技术方案是,基于数据驱动支持向量机的高速列车车轴温度预测方法,具体操作过程包括如下步骤:
步骤1.通过传感器采集车轴温度与影响车轴温度变化的因素,并对采集到的实时数据进行数据预处理;
步骤2.利用互信息和皮尔逊相关系数得到车轴温度与其他影响车轴温度变化的因素的相关性,筛选出与车轴温度变化相关性大的因素以及相关性小的因素;
步骤3.利用支持向量回归机,选择用于车轴温度预测模型的核函数,根据步骤2筛选出来的与车轴温度变化相关性大的因素建立车轴温度预测模型;
步骤4.将待测数据分别代入步骤3中建立的车轴温度预测模型中,得到车轴温度的预测值。
本发明的其他特点还在于,
步骤1中数据的预处理过程如下:
步骤1.1将采集到的实时数据进行空缺值处理,具体如下:
令车轴温度数据Y(i)与可能影响车轴温度变化的数据Xj(i),共有n行数据样本,其中,i为第i行数据,j为可能影响车轴温度变化的因素,选择临近平均插值法,分为以下两种情况:
1)当i=1或i=n,Y(i)或Xj(i)出现空缺值时,Y(i=1)=Y(i=2),Y(i=n)=Y(i=n-1),Xj(i=1)=Xj(i=2),Xj(i=n)=Xj(i=n-1);
2)当i不等于1或者n,Y(i)或Xj(i)出现空缺值时,利用Y(i-1)与Y(i+1)或Xj(i-1)与Xj(i+1)的平均值来填补空缺值;
步骤1.2空缺值处理完成后,根据转化公式:对数据进行归一化,归一化到区间[0-1]之间;其中,y为车轴温度或影响车轴温度变化因素归一化后的值,Xj为实际值,为(Xj)max-(Xj)min。
步骤2的具体过程如下:
步骤2.1计算车轴温度与影响车轴温度变化的因素之间的互信息值和互信息系数;互信息值I(Xj,Y)通过公式(1)计算得到:
其中,p(xj)和p(y)为xj和y各自的边缘概率分布,p(xj,y)为xj和y的联合概率分布;
互信息系数的通过公式(2)计算:
保留Lambda>0.85的因素作为第一次筛选后保留的对车轴温度变化影响显著的因素;
步骤2.2对第一次筛选出来的因素进行二次筛选,避免数据冗余,计算第一次筛选出来的对车轴温度变化影响显著的m个因素之间的皮尔逊相关系数,如公式(3)所示,
其中,j和k的区间都是[1,m];若存在第j个因素与第k个因素之间的皮尔逊相关系数的绝对值大于0.85,则比较这两个因素与车轴温度之间的互信息系数,去掉互信息值较小的因素,依次完成对待选因素的第二次筛选,经过两次筛选之后,剩余的因素为保留下来的对车轴温度影响显著的因素,也就是车轴温度预测的因变量。
步骤3的具体过程如下:
步骤3.1利用步骤2筛选得到的m个影响车轴温度变化的因素作为特征量,建立车轴温度预测模型,如公式(4)所示:
y=f(x1,x2,...,xm) (4)
其中,y为待预测的车轴温度,x1,x2,...,xm为特征因素;令x=[x1,x2,...,xm],则上式表示为y=f(x);
步骤3.2将y=f(x)进行线性回归得到公式(5):
f(x)=ωT·Φ(x)+b (5)
其中,ω为权系数向量,Φ(x)为对输入变量进行某种非线性映射的结果,b为常数项,表示偏置;
对公式(5)进行优化,优化函数如公式(6)所示:
其中,|f(xi)-yi|为损失函数,为了避免拟合精度的误差超出预定范围,同时使得||ω||2最小,加入松弛因子ξi和将优化问题转化为约束最小化问题,化简后得到公式(7):
约束条件为:引入拉格朗日乘子αi,βi,构建拉格朗日方程对拉格朗日方程分别求ω,b,ξi,的偏导,将求得的偏导分别代入拉格朗日方程中,经过变换,得到公式(8):
其中,K(xi,x)=Φ(xi)TΦ(x)是支持向量回归机的内积核函数,xi为训练样本,x为测试样本;选用常用的径向基核函数K(xi,x)=exp(-γ||xi-x||2)与多项式核函数其中,γ为核函数的半径,d为多项式的阶,r为偏执系数,选取不敏感损失函数为0.01,利用步骤2筛选得到的对车轴温度变化影响显著的因素与车轴温度的数据寻找精度最高的惩罚因子C和核函数参数g;最后,支持向量回归算法中的核函数分别选用径向基核函数与多项式核函数,根据公式(8)可以分别得到基于径向基核函数的影响车轴温度变化因素与车轴温度的车轴温度预测模型如公式(9)所示,基于多项式核函数的影响车轴温度变化因素与车轴温度的车轴温度预测模型如公式(10)所示:
步骤4的具体过程如下:
将待测数据分别代入步骤3中得到的车轴温度预测模型公式(9)和公式(10)中,分别得到预测的车轴温度y'和y”,对比两个模型预测结果的平均绝对误差与均方根误差,平均绝对误差的计算公式为其中,n为预测的轴温数据,ypre为预测车轴温度,ytest为实际车轴温度;均方根误差的计算公式为
最后,将平方根误差与均方根误差较小的预测模型确定为最佳的车轴温度预测模型,从而得到车轴温度的最佳预测值。
本发明的有益效果是,基于数据驱动支持向量机的高速列车车轴温度预测方法,实现对车轴温度的预测,为车辆的轴温报警器提供理论支持,保障列车的安全行驶;解决了现有方法容易受外界因素的影响,从而不能准确提供车轴轴温的问题。相比于现有方法具有以下优势:
(1)本发明实现了对高速列车运行过程中影响车轴温度变化的相关因素之间相关性的分析,同时筛选出了对车轴温度变化影响显著的若干因素,通过特征选择解决了后续对车轴温度预测模型建立中的数据冗余问题。
(2)本发明提供了一种基于支持向量回归机的高速列车车轴温度预测方法,通过选择不同的核函数建立不同的预测模型,筛选出效果最好的车轴温度预测模型。
(3)本发明通过对车轴温度以及影响车轴温度变化的因素建立车轴温度预测模型,可以较好的反映出各因素与车轴温度之间的关系,同时对车轴温度进行预测,可以为轴温报警器的工作提供理论支持,保障列车的安全运行。
附图说明
图1是本发明基于支持向量回归机的高速列车车轴温度预测方法的流程图;
图2是本发明基于支持向量回归机的高速列车车轴温度预测方法中对车轴温度与影响车轴温度变化数据的数据预处理流程图;
图3是本发明基于支持向量回归机的高速列车车轴温度预测方法的利用径向基核函数和多项式核函数建立的车轴温度预测模型的预测值与实际值的对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明的基于数据驱动支持向量机的高速列车车轴温度预测方法,如图1所示,具体操作过程包括如下步骤:
步骤1.通过传感器采集车轴温度与影响车轴温度变化的因素,并对采集到的实时数据进行数据预处理;
步骤1中数据的预处理过程如下,如图2所示:
步骤1.1将采集到的实时数据进行空缺值处理,具体如下:
由于传感器易受外部因素的影响,采集到的实时数据需要进行数据预处理,考虑到原始数据中可能存在空缺值,因此,令车轴温度数据Y(i)与可能影响车轴温度变化的数据Xj(i),共有n行数据样本,其中,i为第i行数据,j为可能影响车轴温度变化的因素,考虑到采样频率的间隔时间为1s,选择临近平均插值法,分为以下两种情况:
1)当i=1或i=n,Y(i)或Xj(i)出现空缺值时,Y(i=1)=Y(i=2),Y(i=n)=Y(i=n-1),Xj(i=1)=Xj(i=2),Xj(i=n)=Xj(i=n-1);
2)当i不等于1或者n,Y(i)或Xj(i)出现空缺值时,利用Y(i-1)与Y(i+1)或Xj(i-1)与Xj(i+1)的平均值来填补空缺值;
步骤1.2空缺值处理完成后,根据转化公式:对数据进行归一化,归一化到区间[0-1]之间;其中,y为车轴温度或影响车轴温度变化因素归一化后的值,Xj为实际值,Δ为(Xj)max-(Xj)min。
步骤2.利用互信息和皮尔逊相关系数得到车轴温度与其他影响车轴温度变化的因素的相关性,筛选出与车轴温度变化相关性大的因素以及相关性小的因素;
步骤2的具体过程如下:
步骤2.1计算车轴温度与影响车轴温度变化的因素之间的互信息值和互信息系数;互信息值I(Xj,Y)通过公式(1)计算得到:
其中,p(xj)和p(y)为xj和y各自的边缘概率分布,p(xj,y)为xj和y的联合概率分布;
互信息系数即是将求得的互信息值归一化到区间[0,1],用来观察两个因素之间的相互影响程度的大小,互信息系数的通过公式(2)计算:
保留Lambda>0.85的因素作为第一次筛选后保留的对车轴温度变化影响显著的因素;
步骤2.2对第一次筛选出来的因素进行二次筛选,避免数据冗余。计算第一次筛选出来的对车轴温度变化影响显著的m个因素之间的皮尔逊相关系数,如公式(3)所示,
其中,j和k的区间都是[1,m];若存在第j个因素与第k个因素之间的皮尔逊相关系数的绝对值大于0.85,则比较这两个因素与车轴温度之间的互信息系数,去掉互信息值较小的因素,依次完成对对待选因素的第二次筛选,经过两次筛选之后,剩余的因素为保留下来的对车轴温度影响显著的因素,也就是车轴温度预测的因变量。
步骤3.利用支持向量回归机,选择用于车轴温度预测模型的核函数,根据步骤2筛选出来的与车轴温度变化相关性大的因素建立车轴温度预测模型;
步骤3的具体过程如下:
步骤3.1利用步骤2筛选得到的m个影响车轴温度变化的因素作为特征量,建立车轴温度预测模型,如公式(4)所示:
y=f(x1,x2,...,xm) (4)
其中,y为待预测的车轴温度,x1,x2,...,xm为特征因素;令x=[x1,x2,...,xm],则上式表示为y=f(x);
步骤3.2考虑到支持向量回归机是将输入变量映射到一个高维的特征空间,然后在此空间进行线性回归,由此可知,将y=f(x)进行线性回归得到公式(5):
f(x)=ωT·Φ(x)+b (5)
其中,ω为权系数向量,Φ(x)为对输入变量进行某种非线性映射的结果,b为常数项,表示偏置;
因此,回归问题便转化为了优化问题,对公式(5)进行优化,优化函数如公式(6)所示:
其中,|f(xi)-yi|为损失函数,为了避免拟合精度的误差超出预定范围,同时使得||ω||2最小,加入松弛因子ξi和将优化问题转化为约束最小化问题,化简后得到公式(7):
约束条件为:引入拉格朗日乘子αi,βi,构建拉格朗日方程对拉格朗日方程分别求ω,b,ξi,的偏导,将求得的偏导分别代入拉格朗日方程中,经过变换,得到公式(8):
其中,K(xi,x)=Φ(xi)TΦ(x)支持向量回归机的内积核函数,xi为训练样本,x为测试样本;核函数的选择对支持向量回归的精度有重要的影响,选用常用的径向基核函数K(xi,x)=exp(-γ||xi-x||2)与多项式核函数其中,γ为核函数的半径,d为多项式的阶,r为偏执系数。不敏感损失函数为0.01,利用步骤2筛选得到的对车轴温度变化影响显著的因素与车轴温度的数据寻找精度最高的惩罚因子C和核函数参数g;最后,支持向量回归算法中的核函数分别选用径向基核函数与多项式核函数,根据公式(8)分别得到基于径向基核函数的影响车轴温度变化因素与车轴温度的车轴温度预测模型如公式(9)所示,基于多项式核函数的影响车轴温度变化因素与车轴温度的车轴温度预测模型如公式(10)所示:
步骤4.将待测数据分别代入步骤3中建立的车轴温度预测模型中,确得到车轴温度的预测值。
步骤4的具体过程如下:
将待测数据分别代入步骤3中得到的车轴温度预测模型公式(9)和公式(10)中,分别得到预测的车轴温度y'和y”,对比两个模型预测结果的平均绝对误差与均方根误差,平均绝对误差的计算公式为其中,n为预测的轴温数据,ypre为预测车轴温度,ytest为实际车轴温度;均方根误差的计算公式为
最后,将平方根误差与均方根误差较小的预测模型确定为最佳的车轴温度预测模型,从而得到车轴温度的最佳预测值。
实施例
现有某一列车运行过程中采集的实时数据,其中包括车轴温度、环境温度、速度、轴速、转速、风管压力等历史数据。
为避免空缺值以及量纲对实验结果的影响,对历史数据进行空缺值处理与数据归一化。完成数据预处理后,利用互信息计算车轴温度与可能影响车轴温度变化的因素之间的互信息值和互信息系数。计算结果分别如表1和表2所示:
根据表1与表2的结果,互信息系数小于0.85的因素被剔除,即去除牵引力变流器功率这一因素,剩余因素作为第一次筛选后保留的对车轴温度变化影响显著的因素。然后,对第一次筛选出来的因素进行二次筛选,避免数据冗余。计算第一次筛选出来的对车轴温度变化影响显著的因素之间的皮尔逊相关系数,计算结果如表3所示:
表1车轴温度与可能影响车轴温度变化的因素之间的互信息值
表2车轴温度与可能影响车轴温度变化的因素之间的互信息系数
表3皮尔逊相关系数计算结果
|
F1 |
F2 |
F3 |
F4 |
F5 |
F6 |
F7 |
F8 |
F9 |
F10 |
F11 |
F12 |
F13 |
F1 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
F2 |
0.815 |
1 |
|
|
|
|
|
|
|
|
|
|
|
F3 |
0.823 |
0.997 |
1 |
|
|
|
|
|
|
|
|
|
|
F4 |
0.820 |
0.988 |
0.996 |
1 |
|
|
|
|
|
|
|
|
|
F5 |
1.000 |
0.828 |
0.836 |
0.833 |
1 |
|
|
|
|
|
|
|
|
F6 |
0.808 |
0.993 |
0.989 |
0.977 |
0.822 |
1 |
|
|
|
|
|
|
|
F7 |
0.813 |
1.000 |
0.997 |
0.988 |
0.827 |
0.993 |
1 |
|
|
|
|
|
|
F8 |
0.717 |
0.805 |
0.845 |
0.888 |
0.725 |
0.785 |
0.806 |
1. |
|
|
|
|
|
F9 |
1.000 |
0.828 |
0.836 |
0.833 |
1.000 |
0.822 |
0.827 |
0.725 |
1 |
|
|
|
|
F10 |
0.433 |
0.697 |
0.731 |
0.770 |
0.447 |
0.675 |
0.698 |
0.868 |
0.447 |
1 |
|
|
|
F11 |
0.819 |
0.999 |
1.000 |
0.994 |
0.833 |
0.991 |
0.999 |
0.834 |
0.833 |
0.722 |
1 |
|
|
F12 |
0.819 |
0.999 |
0.999 |
0.992 |
0.833 |
0.992 |
0.999 |
0.823 |
0.833 |
0.711 |
1.000 |
1 |
|
F13 |
0.542 |
0.561 |
0.617 |
0.684 |
0.547 |
0.537 |
0.563 |
0.942 |
0.547 |
0.817 |
0.602 |
0.586 |
1 |
表3中,F1~F13分别表示为速度、加速度、环境温度、电气柜温度、车轴速度、牵引力、网流、电池电压、车轴转速、空气制动力、风管压力、制动管压力、重量。根据表3所示的相关性分析结果,速度与车轴速度和车轴转速的相关性较高,加速度与环境温度、牵引力、网流、制动管压力、风管压力的相关性较高,环境温度与电气柜温度相关性较高,环境温度、牵引力、网流都与制动管压力、风管压力的相关性较高,因此根据表2所示车轴温度与影响车轴温度变化的因素之间的互信息系数,第二次因素筛选剔除加速度、电气柜温度、车轴速度、牵引力、网流、车轴转速、风管压力、制动管压力。最终,经过两次因素筛选,保留速度、环境温度、电池电压、空气制动力、重量这五个因素。
利用车轴温度数据与速度、环境温度、电池电压、空气制动力、重量这五个因素的数据作为训练数据,采用支持向量回归机进行训练,支持向量回归机的内积核函数选择径向基核函数和多项式核函数;其次,支持向量回归算法中的参数的确定,不敏感损失函数为0.01,惩罚因子C与核函数参数g通过交叉验证法,寻找精度最高的C和g。
采用训练好的支持向量回归模型进行预测,预测结果如图3所示,结果评价如表4所示:
表4车轴温度预测结果评价
根据表4所示,进行因素筛选后,进行因素筛选后基于径向基核函数的支持向量回归模型的预测精度高于基于多项式核函数的支持向量回归模型的精度。该实例证明,本设计提出的预测方法能够实现对高速列车车轴温度进行高精度预测。