CN115700494B - 一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统 - Google Patents

一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统 Download PDF

Info

Publication number
CN115700494B
CN115700494B CN202211127267.8A CN202211127267A CN115700494B CN 115700494 B CN115700494 B CN 115700494B CN 202211127267 A CN202211127267 A CN 202211127267A CN 115700494 B CN115700494 B CN 115700494B
Authority
CN
China
Prior art keywords
data
data set
probability
abnormal
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211127267.8A
Other languages
English (en)
Other versions
CN115700494A (zh
Inventor
孙立
李秋义
李琦
朱彬
黄永
张政
林超
李路遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
China Railway Siyuan Survey and Design Group Co Ltd
China Railway Construction Corp Ltd CRCC
Original Assignee
Harbin Institute of Technology
China Railway Siyuan Survey and Design Group Co Ltd
China Railway Construction Corp Ltd CRCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, China Railway Siyuan Survey and Design Group Co Ltd, China Railway Construction Corp Ltd CRCC filed Critical Harbin Institute of Technology
Priority to CN202211127267.8A priority Critical patent/CN115700494B/zh
Publication of CN115700494A publication Critical patent/CN115700494A/zh
Application granted granted Critical
Publication of CN115700494B publication Critical patent/CN115700494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统。所述方法包括稀疏贝叶斯极限学习机模型的训练、根据模型划分数据集实现异常概率的计算、异常值的迭代求解识别等。本发明所述方法通过训练好的稀疏贝叶斯极限学习机模型为基准,并通过计算数据点的预测误差划分规律数据集和可疑数据集,进而计算可疑数据集中数据点的异常概率来更新数据集,最终不断迭代识别异常值。本发明所述方法通过计算数据点的异常概率,可以做到量化数据点的异常程度,通过循环往复不断迭代从而达到数据清洗的目的,能够为轨道交通结构健康监测领域提供一种有效的数据预处理手段。

Description

一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统
技术领域
本发明属于结构健康监测技术领域,特别是涉及一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统。
背景技术
数据清洗是轨道交通结构健康监测数据预处理很重要的内容之一。在轨道交通结构健康监测实际应用中,经常会出现由于布置的传感器故障或者数据传输问题而导致监测数据中存在隐含错误信息的异常值。由于异常值的存在可能会导致错误的结构识别结果,对结构的健康状态产生误判,严重影响轨道结构健康监测系统的正常运营,因此对监测数据进行数据清洗去掉其中的异常值在轨道交通健康监测领域中至关重要。
高速铁路监测数据不同于传统的桥梁结构健康监测,对于桥梁而言所受的荷载通常是车辆荷载、风荷载以及温度荷载的耦合;而高速铁路除了车辆短期荷载外长期荷载通常只与温度有关,因此轨道交通健康监测系统往往布置温度、应变和位移传感器采集数据,且采样频率较低,轨道交通监测数据采集频率以本发明方法采用的示例数据为例为10分钟一次。因此轨道交通监测数据量相对桥梁监测数据量较少,且每个时刻采样点的数据都比较重要,异常数据清洗算法应尽量避免误剔除。考虑轨道交通结构健康监测系统的独特性,现行其他结构健康监测中数据处理方法并不适用,因此亟需建立针对轨道交通健康监测数据的数据清洗方法。
发明内容
本发明目的是为了解决现有技术中轨道交通监测数据清洗的问题,提出了一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统。
本发明是通过以下技术方案实现的,本发明提出一种基于贝叶斯推理的轨道交通监测数据清洗方法,具体包括以下步骤:
步骤一、基于极限学习机神经网络模型,输入部分轨道交通温度和应变监测数据作为训练数据,利用稀疏贝叶斯学习方法求解极限学习机神经网络模型输出层的权重参数,进而得到轨道交通监测数据中温度与结构应变响应之间非线性回归关系;
步骤二、以通过训练得到的稀疏贝叶斯极限学习机温度与结构应变响应之间非线性回归关系为基准,按预测误差绝对值大小将温度和应变监测数据组成的轨道交通联合监测数据划分成规律数据集和可疑数据集,通过贝叶斯推理得到轨道交通监测可疑数据集各数据点异常概率的计算结果;
步骤三、选择数据异常概率的阈值,将异常概率小于该阈值的数据点重新划分到规律数据集中,大于该阈值的数据点作为识别出来的异常值放入数据集S中,将更新后的规律数据集重新作为训练数据训练极限学习机非线性回归模型,重复步骤一和二,往复迭代,直至可疑数据集中每一个数据点的概率均小于该阈值,此时数据集S中的数据点即为识别出来的异常值;
步骤四、对于步骤三选取不同的阈值,对比最终的识别结果,根据识别结果的差异选取出最合理的数据异常概率的阈值,最后将识别的异常数据在监测数据中剔除,实现数据的清洗。
进一步地,所述步骤一具体为:
步骤1.1、以轨道交通监测温度数据
Figure BDA0003849366220000021
为输入,以监测应变数据/>
Figure BDA0003849366220000022
为输出,从均匀分布[-1,1]中随机生成输入层权重βi和偏置bi,选取激活函数/>
Figure BDA0003849366220000023
计算矩阵H0
Figure BDA0003849366220000024
其中N为数据点个数,M为设置的隐含层节点数,将偏置向量与输出矩阵进行列合并,则隐含层输出矩阵H=[E;H0],其中E=[1,…,1]T为长度为N且元素全为1的列向量;
步骤1.2、对于输出层权值w,通过层次贝叶斯求解后验分布,解得后验分布服从均值为μ,方差为∑的高斯分布;其中:
∑=(σ-2HTH+AMP)-1
Figure BDA0003849366220000025
AMP=diag(αMP,0,…,αMP,M)
其中αMP,i为输出层权值w先验分布中的超参数元素的最可能值,
Figure BDA0003849366220000026
ui为向量μ中的第i个元素,∑ii为矩阵∑中第i个对角线元素,αi为迭代更新前的值;
Figure BDA0003849366220000027
为预测误差的方差参数的后验概率极大值,选取输出层权值后验概率高斯分布中的均值作为输出层权值的最可能值。
进一步地,所述预测误差的方差参数的后验概率极大值具体计算公式为:
Figure BDA0003849366220000028
进一步地,所述步骤二具体为:
步骤2.1、将需要检测的数据集输入稀疏贝叶斯极限学习机非线性回归模型,得到相应的训练模型,以该模型为基准计算各个数据点的预测误差ε:
εi=ti-Hiω
其中ω为输出层权值,由稀疏贝叶斯极限学习机训练模型得到,Hi为隐含层输出矩阵H中的第i行,为输入xi经极限学习机在高维空间映射后的值;
步骤2.2、按预测误差的绝对值进行升序排列,将预测误差较大的后30%作为可疑数据集DS,预测误差较小的前70%作为规律数据集DR;对于可疑数据集DS中的每一个数据点
Figure BDA0003849366220000031
采用实际模拟近似求解异常概率为:
Figure BDA0003849366220000032
其中Ns为模拟样本数,
Figure BDA0003849366220000033
为从高斯分布/>
Figure BDA0003849366220000034
随机生成的随机数,Φ(·)为标准正态分布函数。
进一步地,所述步骤三具体为:
步骤3.1、对于步骤二中计算出的可疑数据点的异常概率,选取一个异常概率的阈值,根据异常概率的大小重新划分规律数据集和可疑数据集,将异常概率小于该阈值的数据点重新划分到规律数据集DR中,异常概率大于该阈值的数据点则作为识别出来的异常值放入S中;
步骤3.2、对于更新后的规律数据集DR,作为全新的数据集重复步骤一和二,往复迭代,直到划分出来的可疑数据集中所有的数据点的异常概率均大于选择的阈值,则最终的可疑数据集S中的数据点即为识别出来的异常值。
进一步地,所述步骤四具体为:
步骤4.1、分别选取0.5,0.6,0.7,0.8,0.9作为数据异常概率的阈值,重复步骤三,计算数据点的异常概率并划分不同的数据集,求解数据集S;
步骤4.2、对不同阈值下求解出的数据集S进行稀疏贝叶斯极限学习机训练并对比模型的预测精度,最终选取合适的数据异常概率的阈值,最后将识别的异常数据在监测数据中剔除,实现轨道交通监测数据的清洗。
本发明提出一种基于贝叶斯推理的轨道交通监测数据清洗系统,所系统具体包括:
非线性回归关系求解模块:基于极限学习机神经网络模型,输入部分轨道交通温度和应变监测数据作为训练数据,利用稀疏贝叶斯学习方法求解极限学习机神经网络模型输出层的权重参数,进而得到轨道交通监测数据中温度与结构应变响应之间非线性回归关系;
计算模块:以通过训练得到的稀疏贝叶斯极限学习机温度与结构应变响应之间非线性回归关系为基准,按预测误差绝对值大小将温度和应变监测数据组成的轨道交通联合监测数据划分成规律数据集和可疑数据集,通过贝叶斯推理得到轨道交通监测可疑数据集各数据点异常概率的计算结果;
识别模块:选择数据异常概率的阈值,将异常概率小于该阈值的数据点重新划分到规律数据集中,大于该阈值的数据点作为识别出来的异常值放入数据集S中,将更新后的规律数据集重新作为训练数据训练极限学习机非线性回归模型,重复步骤一和二,往复迭代,直至可疑数据集中每一个数据点的概率均小于该阈值,此时数据集S中的数据点即为识别出来的异常值;
清洗模块:对于步骤三选取不同的阈值,对比最终的识别结果,根据识别结果的差异选取出最合理的数据异常概率的阈值,最后将识别的异常数据在监测数据中剔除,实现数据的清洗。
进一步地,所述非线性回归关系求解模块具体包括:
矩阵计算模块:以轨道交通监测温度数据
Figure BDA0003849366220000041
为输入,以监测应变数据/>
Figure BDA0003849366220000042
为输出,从均匀分布[-1,1]中随机生成输入层权重βi和偏置bi,选取激活函数/>
Figure BDA0003849366220000043
计算矩阵H0
Figure BDA0003849366220000044
其中N为数据点个数,M为设置的隐含层节点数,将偏置向量与输出矩阵进行列合并,则隐含层输出矩阵H=[E;H0],其中E=[1,…,1]T为长度为N且元素全为1的列向量;
后验分布求解模块:对于输出层权值w,通过层次贝叶斯求解后验分布,解得后验分布服从均值为μ,方差为∑的高斯分布;其中:
∑=(σ-2HTH+AMP)-1
Figure BDA0003849366220000045
AMP=diag(αMP,0,…,αMP,M)
其中αMP,i为输出层权值w先验分布中的超参数元素的最可能值,
Figure BDA0003849366220000046
ui为向量μ中的第i个元素,∑ii为矩阵∑中第i个对角线元素,αi为迭代更新前的值;
Figure BDA0003849366220000047
为预测误差的方差参数的后验概率极大值,选取输出层权值后验概率高斯分布中的均值作为输出层权值的最可能值。
本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述一种基于贝叶斯推理的轨道交通监测数据清洗方法的步骤。
本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述一种基于贝叶斯推理的轨道交通监测数据清洗方法的步骤。
本发明的有益效果为:
本发明通过稀疏贝叶斯极限学习机模型能够学习到结构温度与应变非线性回归关系,作为基准模型通过贝叶斯概率手段量化每个数据点的异常概率,能够实现较精细的轨道交通监测数据异常值识别和数据清洗,误清洗较少。
附图说明
图1为本发明所述基于贝叶斯推理的轨道交通监测数据清洗方法流程图;
图2为本发明中稀疏贝叶斯极限学习机模型示意图;
图3为本发明中针对监测数据进行数据清洗的结果示意图;其中,(a)为2017年3月数据结果示意图,(b)为2017年5月数据结果示意图;
图4为本发明中选取不同阈值清洗后的结果示意图;其中(a)为阈值为0.5的结果示意图,(b)为阈值为0.6的结果示意图,(c)为阈值为0.7的结果示意图,(d)为阈值为0.8的结果示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是为了解决现有轨道交通监测数据预处理方法的不足而提出的一种基于贝叶斯推理的轨道交通监测数据清洗方法。本发明所述方法可以通过量化数据点的异常程度来识别可能的异常值,可应用于轨道交通健康监测领域对监测数据进行数据清洗。
结合图1,本发明提出一种基于贝叶斯推理的轨道交通监测数据清洗方法,具体包括以下步骤:
步骤一、引入极限学习机神经网络模型,输入部分轨道交通温度和应变监测数据作为训练数据,利用稀疏贝叶斯学习方法求解极限学习机模型输出层的权重参数,进而得到轨道交通监测数据中温度与结构应变响应之间非线性回归关系。
步骤二、以通过训练得到的稀疏贝叶斯极限学习机温度与结构应变响应之间非线性回归关系为基准,按预测误差绝对值大小将温度和应变监测数据组成的轨道交通联合监测数据划分成规律数据集和可疑数据集,通过贝叶斯推理得到轨道交通监测可疑数据集各数据点异常概率的计算结果。
步骤三、选择数据异常概率的阈值,将异常概率小于该阈值的数据点重新划分到规律数据集中,大于该阈值的数据点作为识别出来的异常值放入数据集S中,将更新后的规律数据集重新作为训练数据训练极限学习机非线性回归模型,重复步骤一和二,往复迭代,直至可疑数据集中每一个数据点的概率均小于该阈值,此时数据集S中的数据点即为识别出来的异常值。
步骤四、研究合理的数据异常概率的阈值选择方法,对于步骤三选取不同的阈值,对比最终的识别结果,根据识别结果的差异选取出最合理的数据异常概率的阈值。最后将识别的异常数据在监测数据中剔除,实现数据的清洗。
所述步骤一具体为:
步骤1.1、以轨道交通监测温度数据
Figure BDA0003849366220000061
为输入,以监测应变数据/>
Figure BDA0003849366220000062
为输出,从均匀分布[-1,1]中随机生成输入层权重βi和偏置bi,选取激活函数/>
Figure BDA0003849366220000063
计算矩阵H0
Figure BDA0003849366220000064
其中N为数据点个数,M为设置的隐含层节点数。将偏置向量与输出矩阵进行列合并,则隐含层输出矩阵H=[E;H0],其中E=[1,…,1]T为长度为N且元素全为1的列向量。
步骤1.2、对于输出层权值w,通过层次贝叶斯求解后验分布,解得后验分布服从均值为μ,方差为∑的高斯分布。其中:
∑=(σ-2HTH+AMP)-1
Figure BDA0003849366220000065
AMP=diag(αMP,0,…,αMP,M)
其中αMP,i为输出层权值w先验分布中的超参数元素的最可能值,
Figure BDA0003849366220000066
ui为均值向量μ中的第i个元素,∑ii为方差矩阵∑中第i个对角线元素,αi为迭代更新前的值。
Figure BDA0003849366220000067
为预测误差的方差参数的后验概率极大值/>
Figure BDA0003849366220000068
选取输出层权值后验概率高斯分布中的均值作为输出层权值的最可能值。
所述步骤二具体为:
步骤2.1、将需要检测的数据集输入稀疏贝叶斯极限学习机模型,得到相应的训练模型,以此模型为基准计算各个数据点的预测误差ε:
εi=ti-Hiω
其中ω为输出层权值,由稀疏贝叶斯极限学习机训练模型得到,Hi为隐含层输出矩阵H中的第i行,为输入xi经极限学习机在高维空间映射后的值。
步骤2.2、按预测误差的绝对值进行升序排列,将预测误差较大的后30%作为可疑数据集DS,预测误差较小的前70%作为规律数据集DR。对于可疑数据集DS中的每一个数据点
Figure BDA0003849366220000071
采用实际模拟近似求解异常概率为:
Figure BDA0003849366220000072
其中Ns为模拟样本数,εR为规律数据集中所有数据点的预测误差构成的误差列向量,
Figure BDA0003849366220000073
为从高斯分布/>
Figure BDA0003849366220000074
随机生成的随机数,Φ(·)为标准正态分布函数。
所述步骤三具体为:
步骤3.1、对于步骤二中计算出的可疑数据点的异常概率,选取一个异常概率的阈值,根据异常概率的大小重新划分规律数据集和可疑数据集,将异常概率小于该阈值的数据点重新划分到规律数据集DR中,异常概率大于该阈值的数据点则作为识别出来的异常值放入S中。
步骤3.2、对于更新后的规律数据集DR,作为全新的数据集重复步骤一和二,往复迭代,直到划分出来的可疑数据集中所有的数据点的异常概率均大于选择的阈值,则最终的可疑数据集S中的数据点即为识别出来的异常值。
所述步骤四具体为:
步骤4.1、分别选取0.5,0.6,0.7,0.8,0.9作为数据异常概率的阈值,重复步骤三,计算数据点的异常概率并划分不同的数据集,求解数据集S。
步骤4.2、对不同阈值下求解出的数据集S进行稀疏贝叶斯极限学习机训练并对比模型的预测精度,最终选取合适的数据异常概率的阈值。最后将识别的异常数据在监测数据中剔除,实现轨道交通监测数据的清洗。
本发明提出一种基于贝叶斯推理的轨道交通监测数据清洗系统,所系统具体包括:
非线性回归关系求解模块:基于极限学习机神经网络模型,输入部分轨道交通温度和应变监测数据作为训练数据,利用稀疏贝叶斯学习方法求解极限学习机神经网络模型输出层的权重参数,进而得到轨道交通监测数据中温度与结构应变响应之间非线性回归关系;
计算模块:以通过训练得到的稀疏贝叶斯极限学习机温度与结构应变响应之间非线性回归关系为基准,按预测误差绝对值大小将温度和应变监测数据组成的轨道交通联合监测数据划分成规律数据集和可疑数据集,通过贝叶斯推理得到轨道交通监测可疑数据集各数据点异常概率的计算结果;
识别模块:选择数据异常概率的阈值,将异常概率小于该阈值的数据点重新划分到规律数据集中,大于该阈值的数据点作为识别出来的异常值放入数据集S中,将更新后的规律数据集重新作为训练数据训练极限学习机非线性回归模型,重复步骤一和二,往复迭代,直至可疑数据集中每一个数据点的概率均小于该阈值,此时数据集S中的数据点即为识别出来的异常值;
清洗模块:对于步骤三选取不同的阈值,对比最终的识别结果,根据识别结果的差异选取出最合理的数据异常概率的阈值,最后将识别的异常数据在监测数据中剔除,实现数据的清洗。
所述非线性回归关系求解模块具体包括:
矩阵计算模块:以轨道交通监测温度数据
Figure BDA0003849366220000081
为输入,以监测应变数据/>
Figure BDA0003849366220000082
为输出,从均匀分布[-1,1]中随机生成输入层权重βi和偏置bi,选取激活函数/>
Figure BDA0003849366220000083
计算矩阵H0
Figure BDA0003849366220000084
其中N为数据点个数,M为设置的隐含层节点数,将偏置向量与输出矩阵进行列合并,则隐含层输出矩阵H=[E;H0],其中E=[1,…,1]T为长度为N且元素全为1的列向量;
后验分布求解模块:对于输出层权值w,通过层次贝叶斯求解后验分布,解得后验分布服从均值为μ,方差为∑的高斯分布;其中:
∑=(σ-2HTH+AMP)-1
Figure BDA0003849366220000085
AMP=diag(αMP,0,…,αMP,M)
其中αMP,i为输出层权值w先验分布中的超参数元素的最可能值,
Figure BDA0003849366220000086
ui为向量μ中的第i个元素,∑ii为矩阵∑中第i个对角线元素,αi为迭代更新前的值;
Figure BDA0003849366220000087
为预测误差的方差参数的后验概率极大值,选取输出层权值后验概率高斯分布中的均值作为输出层权值的最可能值。
实施例
图2给出了本发明中稀疏贝叶斯极限学习机的神经网络架构和求解模式,图3和图4给出了实际数据集中本发明的应用效果。针对某无砟轨道监测数据库,以轨道温度监测数据为输入,应变数据为输出,对轨道交通监测数据进行数据清洗,具体的操作步骤如下:
所述步骤一具体为:将某轨道交通监测数据库中的五个温度数据作为输入,测点的应变数据作为输出,设置单隐含层神经元个数为100,输入层权值和隐含层偏置均由(-1,1)的均匀分布中随机生成,带入公式计算构建隐含层输出矩阵。使用稀疏贝叶斯学习求解极限学习机中的输出层权值w,推断出超参数αj(j=0…M,M为隐含层神经元个数,这里为100),并得到输出层权值w的后验概率分布,选取后验概率最大处的值作为输出层权值。
所述步骤二具体为:根据稀疏贝叶斯极限学习机训练得到的温度——应变模型,计算各个数据点的预测误差,按预测误差大小划分规律数据集DR和可疑数据集DS,计算可疑数据集中数据点的异常概率。
所述步骤三具体为:选择数据异常概率的阈值如0.5,将异常概率小于该阈值的数据点重新划分到规律数据集DR中,大于该阈值的数据点作为识别出来的异常值划分到数据集S中,将更新后的规律数据集重新作为训练数据训练极限学习机神经网络模型,重复步骤一和二,往复迭代,直至可疑数据集中每一个数据点的概率均小于该阈值,则此时数据集S中的数据即为识别出来的异常值。在图3中带有五角星标注的数据点即为识别出的异常值,颜色越深则代表该数据点为异常值的可能性越大。
所述步骤四具体为:对于步骤三选取不同的阈值,分别选取0.5,0.6,0.7,0.8,对比最终清洗后保留的数据点,如图4所示,不同阈值下数据清洗后的结果相似,稀疏贝叶斯极限学习机模型的预测结果也类似,数据清洗过程是稳定的,最终选取0.5作为阈值。
本发明还提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述一种基于贝叶斯推理的轨道交通监测数据清洗方法的步骤。
本发明还提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述一种基于贝叶斯推理的轨道交通监测数据清洗方法的步骤。
本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambusRAM,DR RAM)。应注意,本发明描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,DVD))、或者半导体介质(例如,固态硬盘(solid state disc,SSD))等。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
以上对本发明所提出的一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于贝叶斯推理的轨道交通监测数据清洗方法,其特征在于,具体包括以下步骤:
步骤一、基于极限学习机神经网络模型,输入部分轨道温度和应变监测数据作为训练数据,利用稀疏贝叶斯学习方法求解极限学习机神经网络模型输出层的权重参数,进而得到轨道交通监测数据中温度与结构应变响应之间非线性回归关系;
步骤二、以通过训练得到的稀疏贝叶斯极限学习机温度与结构应变响应之间非线性回归关系为基准,按预测误差绝对值大小将温度和应变监测数据组成的轨道交通联合监测数据划分成规律数据集和可疑数据集,通过贝叶斯推理得到轨道交通监测可疑数据集各数据点异常概率的计算结果;
步骤三、选择数据异常概率的阈值,将异常概率小于该阈值的数据点重新划分到规律数据集中,大于该阈值的数据点作为识别出来的异常值放入数据集S中,将更新后的规律数据集重新作为训练数据训练极限学习机非线性回归模型,重复步骤一和二,往复迭代,直至可疑数据集中每一个数据点的概率均小于该阈值,此时数据集S中的数据点即为识别出来的异常值;
步骤四、对于步骤三选取不同的阈值,对比最终的识别结果,根据识别结果的差异选取出最合理的数据异常概率的阈值,最后将识别的异常数据在监测数据中剔除,实现数据的清洗。
2.根据权利要求1所述的方法,其特征在于,所述步骤一具体为:
步骤1.1、以轨道交通监测温度数据
Figure FDA0004190655670000011
为输入,以监测应变数据/>
Figure FDA0004190655670000012
为输出,从均匀分布[-1,1]中随机生成输入层权重βi和偏置bi,选取激活函数/>
Figure FDA0004190655670000013
计算矩阵H0
Figure FDA0004190655670000014
其中N为数据点个数,M为设置的隐含层节点数,将偏置向量与输出矩阵进行列合并,则隐含层输出矩阵H=[E;H0],其中E=[1,…,1]T为长度为N且元素全为1的列向量;
步骤1.2、对于输出层权值ω,通过层次贝叶斯求解后验分布,解得后验分布服从均值为μ,方差为Σ的高斯分布;其中:
∑=(σ-2HTH+AMP)-1
Figure FDA0004190655670000015
AMP=diag(αMP,0,…,αMP,M)
其中αMP,i为输出层权值ω先验分布中的超参数元素的最可能值,
Figure FDA0004190655670000021
μi为向量μ中的第i个元素,∑ii为矩阵∑中第i个对角线元素,αi为迭代更新前的值;
Figure FDA0004190655670000022
为预测误差的方差参数的后验概率极大值,选取输出层权值后验概率高斯分布中的均值作为输出层权值的最可能值。
3.根据权利要求2所述的方法,其特征在于,所述预测误差的方差参数的后验概率极大值具体计算公式为:
Figure FDA0004190655670000023
4.根据权利要求3所述的方法,其特征在于,所述步骤二具体为:
步骤2.1、将需要检测的数据集输入稀疏贝叶斯极限学习机非线性回归模型,得到相应的训练模型,以该模型为基准计算各个数据点的预测误差ε:
εi=ti-Hi0
其中ω为输出层权值,由稀疏贝叶斯极限学习机训练模型得到,Hi为隐含层输出矩阵H中的第i行,为输入xi经极限学习机在高维空间映射后的值;
步骤2.2、按预测误差的绝对值进行升序排列,将预测误差较大的后30%作为可疑数据集DS,预测误差较小的前70%作为规律数据集DR;对于可疑数据集DS中的每一个数据点
Figure FDA0004190655670000024
采用实际模拟近似求解异常概率为:
Figure FDA0004190655670000025
其中Ns为模拟样本数,
Figure FDA0004190655670000026
为从高斯分布/>
Figure FDA0004190655670000027
随机生成的随机数,Φ(·)为标准正态分布函数。
5.根据权利要求4所述的方法,其特征在于,所述步骤三具体为:
步骤3.1、对于步骤二中计算出的可疑数据点的异常概率,选取一个异常概率的阈值,根据异常概率的大小重新划分规律数据集和可疑数据集,将异常概率小于该阈值的数据点重新划分到规律数据集DR中,异常概率大于该阈值的数据点则作为识别出来的异常值放入S中;
步骤3.2、对于更新后的规律数据集DR,作为全新的数据集重复步骤一和二,往复迭代,直到划分出来的可疑数据集中所有的数据点的异常概率均大于选择的阈值,则最终的可疑数据集S中的数据点即为识别出来的异常值。
6.根据权利要求5所述的方法,其特征在于,所述步骤四具体为:
步骤4.1、分别选取0.5,0.6,0.7,0.8,0.9作为数据异常概率的阈值,重复步骤三,计算数据点的异常概率并划分不同的数据集,求解数据集S;
步骤4.2、对不同阈值下求解出的数据集S进行稀疏贝叶斯极限学习机训练并对比模型的预测精度,最终选取合适的数据异常概率的阈值,最后将识别的异常数据在监测数据中剔除,实现轨道交通监测数据的清洗。
7.一种基于贝叶斯推理的轨道交通监测数据清洗系统,其特征在于,所系统具体包括:
非线性回归关系求解模块:基于极限学习机神经网络模型,输入部分轨道交通温度和应变监测数据作为训练数据,利用稀疏贝叶斯学习方法求解极限学习机神经网络模型输出层的权重参数,进而得到轨道交通监测数据中温度与结构应变响应之间非线性回归关系;
计算模块:以通过训练得到的稀疏贝叶斯极限学习机温度与结构应变响应之间非线性回归关系为基准,按预测误差绝对值大小将温度和应变监测数据组成的轨道交通联合监测数据划分成规律数据集和可疑数据集,通过贝叶斯推理得到轨道交通监测可疑数据集各数据点异常概率的计算结果;
识别模块:选择数据异常概率的阈值,将异常概率小于该阈值的数据点重新划分到规律数据集中,大于该阈值的数据点作为识别出来的异常值放入数据集S中,将更新后的规律数据集重新作为训练数据训练极限学习机非线性回归模型,重复步骤一和二,往复迭代,直至可疑数据集中每一个数据点的概率均小于该阈值,此时数据集S中的数据点即为识别出来的异常值;
清洗模块:对于步骤三选取不同的阈值,对比最终的识别结果,根据识别结果的差异选取出最合理的数据异常概率的阈值,最后将识别的异常数据在监测数据中剔除,实现数据的清洗。
8.根据权利要求7所述的系统,其特征在于,所述非线性回归关系求解模块具体包括:
矩阵计算模块:以轨道交通监测温度数据
Figure FDA0004190655670000031
为输入,以监测应变数据/>
Figure FDA0004190655670000032
为输出,从均匀分布[-1,1]中随机生成输入层权重βi和偏置bi,选取激活函数/>
Figure FDA0004190655670000033
计算矩阵H0
Figure FDA0004190655670000041
其中N为数据点个数,M为设置的隐含层节点数,将偏置向量与输出矩阵进行列合并,则隐含层输出矩阵H=[E;H0],其中E=[1,…,1]T为长度为N且元素全为1的列向量;
后验分布求解模块:对于输出层权值ω,通过层次贝叶斯求解后验分布,解得后验分布服从均值为μ,方差为∑的高斯分布;其中:
∑=(o-2HTH+AMP)-1
Figure FDA0004190655670000042
AMP=diag(αMP,0,…,αMP,M)
其中αMP,i为输出层权值ω先验分布中的超参数元素的最可能值,
Figure FDA0004190655670000043
ui为向量μ中的第i个元素,Σii为矩阵Σ中第i个对角线元素,αi为迭代更新前的值;
Figure FDA0004190655670000044
为预测误差的方差参数的后验概率极大值,选取输出层权值后验概率高斯分布中的均值作为输出层权值的最可能值。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6任一项所述方法的步骤。
10.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-6任一项所述方法的步骤。
CN202211127267.8A 2022-09-16 2022-09-16 一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统 Active CN115700494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211127267.8A CN115700494B (zh) 2022-09-16 2022-09-16 一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211127267.8A CN115700494B (zh) 2022-09-16 2022-09-16 一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统

Publications (2)

Publication Number Publication Date
CN115700494A CN115700494A (zh) 2023-02-07
CN115700494B true CN115700494B (zh) 2023-06-30

Family

ID=85120561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211127267.8A Active CN115700494B (zh) 2022-09-16 2022-09-16 一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统

Country Status (1)

Country Link
CN (1) CN115700494B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116165274B (zh) * 2023-02-17 2023-11-14 哈尔滨工业大学 基于贝叶斯全局稀疏概率主成分分析的城市轨道损伤识别方法
CN117150225B (zh) * 2023-10-30 2024-01-19 中国标准化研究院 一种基于贝叶斯算法的工业数据的清洗方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114563353A (zh) * 2022-01-21 2022-05-31 河海大学 一种基于多源卫星遥感数据土壤热通量预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190076031A1 (en) * 2013-12-12 2019-03-14 Alivecor, Inc. Continuous monitoring of a user's health with a mobile device
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11379970B2 (en) * 2018-02-23 2022-07-05 Asml Netherlands B.V. Deep learning for semantic segmentation of pattern
CN108985313A (zh) * 2018-05-23 2018-12-11 上海电力学院 基于大数据与贝叶斯神经网络的agc系统辨识方法
CN112101669B (zh) * 2020-09-21 2022-09-06 国网福建省电力有限公司泉州供电公司 一种基于改进极限学习机与分位数回归的光伏功率区间预测方法
CN113297790B (zh) * 2021-05-19 2022-05-10 哈尔滨工业大学 一种基于稀疏贝叶斯宽度学习的高铁轨道响应预测方法
CN114201911A (zh) * 2021-11-16 2022-03-18 华南理工大学 一种基于极限学习机的橡胶材料疲劳寿命预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114563353A (zh) * 2022-01-21 2022-05-31 河海大学 一种基于多源卫星遥感数据土壤热通量预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小样本贫信息条件下高炉冶炼烧结终点组合预测法;王爱民;宋强;李华;张运素;徐蕾;;重庆大学学报(第05期);全文 *

Also Published As

Publication number Publication date
CN115700494A (zh) 2023-02-07

Similar Documents

Publication Publication Date Title
CN115700494B (zh) 一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统
Nadarajah et al. A generalized Lindley distribution
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
CN113702895B (zh) 一种电压互感器误差状态在线定量评估方法
CN110610035A (zh) 一种基于gru神经网络的滚动轴承剩余寿命预测方法
CN108399434B (zh) 基于特征提取的高维时间序列数据的分析预测方法
Gligorijevic et al. Uncertainty propagation in long-term structured regression on evolving networks
CN115618273A (zh) 一种基于并行图卷积神经网络的铁路轨道状态评估方法及系统
CN115409091A (zh) 基于tdrae的无监督卫星异常检测方法、装置、设备及介质
Li et al. Separation identification approach for the Hammerstein‐Wiener nonlinear systems with process noise using correlation analysis
Sun et al. Remaining useful life prediction for bivariate deteriorating systems under dynamic operational conditions
CN116665798A (zh) 一种空气污染趋势预警方法及相关装置
Yang et al. Rolling‐Element Bearing Fault Data Automatic Clustering Based on Wavelet and Deep Neural Network
Francq et al. Large sample properties of parameter least squares estimates for time‐varying arma models
CN115713670A (zh) 基于图预测网络和自动编码器的异常检测方法及系统
US20220138552A1 (en) Adapting ai models from one domain to another
CN115359297A (zh) 一种基于高阶脑网络的分类方法、系统、电子设备及介质
Yang et al. Based on soft competition ART neural network ensemble and its application to the fault diagnosis of bearing
Roj Estimation of the artificial neural network uncertainty used for measurand reconstruction in a sampling transducer
Niyogi A novel method combines moving fronts, data decomposition and deep learning to forecast intricate time series
Huynh et al. A Physics-informed Latent Variables of Corrosion Growth in Oil and Gas Pipelines
Zhou et al. Bearing life prediction method based on parallel multichannel recurrent convolutional neural network
Ji et al. Data preprocessing method and fault diagnosis based on evaluation function of information contribution degree
CN116051155B (zh) 用户识别方法、装置、设备、存储介质和程序产品
Jakubiec et al. Error model application in neural reconstruction of nonlinear sensor input signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant