CN111538708B - 地铁隧道全时全域振动监测历史数据的清洗压缩方法 - Google Patents

地铁隧道全时全域振动监测历史数据的清洗压缩方法 Download PDF

Info

Publication number
CN111538708B
CN111538708B CN202010652658.6A CN202010652658A CN111538708B CN 111538708 B CN111538708 B CN 111538708B CN 202010652658 A CN202010652658 A CN 202010652658A CN 111538708 B CN111538708 B CN 111538708B
Authority
CN
China
Prior art keywords
data
cleaning
time
vibration
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010652658.6A
Other languages
English (en)
Other versions
CN111538708A (zh
Inventor
王永皎
王刚
闻益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Zhihui Subway Tech Co ltd
Original Assignee
Wuhan Zhihui Subway Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Zhihui Subway Tech Co ltd filed Critical Wuhan Zhihui Subway Tech Co ltd
Priority to CN202010652658.6A priority Critical patent/CN111538708B/zh
Publication of CN111538708A publication Critical patent/CN111538708A/zh
Application granted granted Critical
Publication of CN111538708B publication Critical patent/CN111538708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

本发明的地铁隧道全时全域振动监测历史数据的清洗压缩方法,读取地铁全时全域的振动检测文件,以传感器数量m为行,以时序数n为列,构建(m,n)形状的矩阵,其中,第i行表示第i个传感器所采集的时间数据序列;对每一个时间数据序列按时长w划分为若干片段;对片段计算振动能量,以获取每个所述片段的振动能量的一个能量值序列;导入K均值模型和清洗填充值,对能量值序列执行模型对象的预测方法,得到对应的标注序列;对其中最小的标注子集,反向对应到数据文件中相应的片段,写入清洗填充值,得到清洗后的文件。本发明利用了地铁隧道的振动监测数据的特点和用途进行数据清洗,从而大幅提高了压缩比例,节省了数据存储空间。

Description

地铁隧道全时全域振动监测历史数据的清洗压缩方法
技术领域
本发明涉及地铁隧道监控技术领域,更具体地,涉及地铁隧道全时全域振动监测历史数据的清洗压缩方法。
背景技术
在地铁隧道全时全域振动监测中,往往会在隧道、轨道等不同部分敷设多条光纤,光纤上每隔一定的距离会设有振动传感器。隧道、轨道不同部位所受到的振动是有较大差异的,如交通繁忙地段下的隧道壁上的传感器会收到很多路面车辆的振动信号,而湖底隧道则几乎只会受到地铁列车行车带来的振动。
为了确保地铁运动的安全性,通常需要对地铁隧道全时全域振动监测,而在实际监控应用中,我们通常需要积累大量的历史数据,用于分析隧道长生命周期的一些变化趋势,以便发现相关的变化规律,从而帮助改进地铁隧道的维护和预防性维修,保障隧道功能和安全。长周期大数据量的采集和保存,势必消耗大量的磁盘存储空间,提升存储开销。若能够根据这些历史数据的用途,将分析中用不到的数据片段清洗掉,同时又不改变数据格式和布局,从而不影响上层分析应用,将极大缓解地铁隧道全时全域振动监测长时期数据存储开销的矛盾。
在通过对地铁隧道振动数据的特点和用途作分析,我们发现,有用途的数据主要源自列车驶经监测点时,以及有其他较大能量冲击事件产生时(如隧道附近地面的重型土建施工设备作业、地震传导等)产生的,在其他时段,传感器采集到的是微弱的振动信号,对于应用分析是可以舍弃的,因此属于我们可以清洗掉的数据,
因此,如何实现对微弱振动信号的冲洗,是降低存储空间的关键,故急需发明一种地铁隧道全时全域振动监测历史数据的清洗压缩方法,以达到上述目的。
发明内容
本发明提供一种地铁隧道全时全域振动监测历史数据的清洗压缩方法,根据地铁隧道振动数据的特点和用途,在保留有用信息、保护数据格式和布局的前提下,对数据作清洗,再使用现有压缩技术进行压缩时具有比未作上述处理时更高的压缩比例,从而占用更少的存储空间,有效缓解地铁隧道全时全域振动监测长时期数据存储开销的矛盾。
根据本发明的一个方面,提供了地铁隧道全时全域振动监测历史数据的清洗压缩方法,包括以下步骤:
步骤A1,读取地铁全时全域的振动检测文件,以传感器数量m为行,以时序数n为列,构建(m,n)形状的矩阵,其中,该矩阵中的第i行表示第i个传感器所采集的时间数据序列为Si;
步骤A2,对每一个时间数据序列Si按时长w划分为若干片段,且0.5s<w≤1s;
步骤A3,对上述的片段计算振动能量,以获取每个所述片段的振动能量,而得到一个能量值序列P(w)j,j为自然数;
步骤A4,导入K均值模型和清洗填充值,对步骤A3中的能量值序列P(w)j,执行模型对象的预测方法,得到对应的标注序列;
步骤A5,对其中最小的标注子集,反向对应到数据文件中相应的片段,写入清洗填充值,得到清洗后的文件;
步骤A6,使用压缩软件pigz压缩清洗后的文件,再以压缩文件替代源数据文件。
在上述方案基础上优选,步骤A3中计算振动能量的公式为:
Figure GDA0002646942990000021
其中,P代表时长为w的数据片段的振动能量,w代表数据片段的时长,f代表采样频率,ai代表此片段中第i个数据点的振动幅度,i为自然数。
在上述方案基础上优选,步骤A4中的K均值模型采用机器学习中的k-means聚类方法以获取,且5≤K≤8。
在上述方案基础上优选,步骤A4中的清洗填充值获取方法为:基于K均值模型中最小标签对应的能量值序列,再对应到源数据片段的一部分,计算对应能量值序列的振动能量均值,作为清洗填充值,存入NoSQL库。
在上述方案基础上优选,所述步骤A4中的模型训练采用以下方法:
步骤A41,在历史数据中,按文件产生的季度,从中随机选择n天,且n≥3天,再从n天中各自随机选择x个工作时间段的n段时间的数据,按照所述步骤A1至步骤A3进行处理,使用机器学习中k-means聚类方法训练模型,以得到每个传感器的本季度的K均值模型;
步骤A42,再对待处理的历史数据文件,逐一对数据片段计算振动能量值,使用步骤A41得到的分类模型执行分类预测得到分类标签。
本发明的地铁隧道全时全域振动监测历史数据的清洗压缩方法,利用了地铁隧道的振动监测数据的特点和用途进行数据清洗,从而大幅提高了压缩比例,节省了数据存储空间。
附图说明
图1为本发明的地铁隧道全时全域振动监测历史数据的清洗压缩方法的流程框图;
图2为本发明的某一时段监测历史数据的光纤传感器与数据片段能量值波动图;
图3为本发明的另一时段监测历史数据的光纤传感器与数据片段能量值波动图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
请参阅图1所示,本发明一种地铁隧道全时全域振动监测历史数据的清洗压缩方法,其具体包括两层,第一层通过导入按季度随机选取的地铁全时全域的几段振动监控数据文件,以获取基于K均值的清洗模型训练得到K均值模型和填充值,第二层,导入待处理的振动文件,并读取第一步得到的K均值模型和填充值,进行清洗压缩。
以下将详细说明第二步的过程:
步骤A1,读取地铁全时全域的振动检测文件,以传感器数量m为行,以时序数n为列,构建(m,n)形状的矩阵,其中,该矩阵中的第i行表示第i个传感器所采集的时间数据序列为Si;
步骤A2,对每一个时间数据序列Si按时长w划分为若干片段,且0.5s<w≤1s;对于采样频率为f赫兹的数据,片段对应的数据点数为f*w之积。除第0片段外,下一片段从上一片段的中间点开始计算,因此相邻片段是有一半重叠的。划分后,可能出现最后一个片段时长不足的情况,这样的尾部片段不参与计算和处理,在最终结果中保留。
步骤A3,对上述的片段计算振动能量,以获取每个所述片段的振动能量,得到一个能量值序列P(w)j;如图2所示为某实验段2019年5月5日19时的监测历史数据,横坐标表示光纤传感器序号,纵坐标表示使用k均值算法将数据片段能量值分类后,各分类的中心值。C1,C2,C3,C4,C5表示各传感器所采样数据片段能量值的从低到高的5个分类的中心值。图3为某实验段2019年7月21日18时的监测历史数据,横坐标表示光纤传感器序号,纵坐标表示使用k均值算法将数据片段能量值分类后,各分类的中心值。C1,C2,C3,C4,C5表示各传感器所采样数据片段能量值的从低到高的5个分类的中心值。
其中,计算振动能量的公式为:
Figure GDA0002646942990000041
其中,P代表时长为w的数据片段的振动能量,w代表数据片段的时长,f代表采样频率,ai代表此片段中第i个数据点的振动幅度。
步骤A4,根据第一步获得到的K均值模型和清洗填充值,导入所述K均值模型和清洗填充值,对步骤A3中的能量值序列P(w)j,执行模型对象的预测方法,得到对应的标注序列;
步骤A5,对其中最小的标注子集,反向对应到数据文件中相应的片段,写入清洗填充值,得到清洗后的文件;
步骤A6,使用压缩软件pigz压缩清洗后的文件,再以压缩文件替代源数据文件。
在第一步中,K均值模型采用机器学习中的k-means聚类方法以获取,且5≤K≤8,K表示分类参数。对于地铁隧道振动数据,当分类参数小于5的分类太粗,区分度不够,无法完全清洗掉其中无效数据;而当分类参数大于8的分类太细,难以与业务场景建立对应关系。
且本发明的步骤A4中的模型训练采用以下方法:
步骤A41,在历史数据中,按文件产生的季度,从中随机选择n天,且n≥3天,再从n天中各自随机选择x个工作时间段的n段时间的数据,按照所述步骤A1至步骤A3进行处理,使用机器学习中k-means聚类方法训练模型,以得到每个传感器的本季度的K均值模型;
步骤A42,再对待处理的历史数据文件,逐一对数据片段计算振动能量值,使用步骤A41得到的分类模型M执行分类预测得到分类标签。
本发明采用的K均值模型的预测方法具体为,K均值模型中记录了K个分类的中心值{C1,C2,...,Ck},其对应的标记为{0,1,2,...,k-1};对于输入序列{P(w)0,P(w)1,...,P(w)j}中的每一个元素,计算它与K个分类中心值的距离,计算方法为先算差值再取绝对值,选取距离最小的分类中心值,将其所对应的标记,写入输出序列中,从而得到对应的标注序列。
其中,步骤A5详细步骤为,对其中标记值最小的标注子集(标记值为0)中的每一个元素,根据其对应能量值序列中的位置,结合步骤A2中的时间数据序列分片方法,得到其在时间数据序列Si中的片段,并写入清洗填充值,从而得到清洗后的Si。对步骤A1中的矩阵每一行均使用此过程,得到清洗后的矩阵,再根据步骤A1中由振动监测文件构造矩阵的过程,反向将矩阵中的数据转换为原文件格式写入,从而得到清洗后的文件。
值得说明的是,本发明的K均值模型对象以键值对的方式保存在NoSQL数据库(如Redis)中,其键的模式为<Sensor-UID>:<Year-Quarter>:Model。其中,<Sensor-UID>是传感器的唯一识别号,可用<地铁线路>+<解调器识别号>+<光纤通道编号>+<传感器编号>表示;<Year-Quarter>表示年份和季度;Model代表模型。
为了保护数据布局和时序连贯性,对可以清洗的数据时点不是删除,而是用一个合适的清洗填充值填充。此清洗填充值是在上述模型对象中,最小标记所对应的能量值子序列的一部分,再追溯到源数据文件中片段中数据点的算术平均值。也就是说,本发明步骤A4中的清洗填充值获取方法为:基于K均值模型中最小标签对应的能量值序列,再对应到源数据片段的一部分,计算对应能量值序列的振动能量均值,作为清洗填充值,存入NoSQL库。
其中,清洗填充值以键值对的方式保存在NoSQL数据库(如Redis)中,其键的模式为<Sensor-UID>:<Year-Quarter>:Fill。其中,Fill代表填充值。
为了验证本发明的技术效果,下面以某地铁隧道实验段采集的振动监测历史数据的清洗和压缩为例进行说明。该实验段一个监测光纤通道含有527个传感器,采样频率为1000赫兹,传感器测得的振动值类型为32位浮点数,代表了振动强度。把大约每分钟的数据写入一个数据文件,则文件内容大小为527*60*1000*4字节,约126MB(兆字节)。采用不经过清洗就直接使用pigz或gzip等压缩工具进行压缩,与采用本发明的地铁隧道全时全域振动监测历史数据的清洗压缩方法后,其压缩效果对比如下:
压缩效果对比
统计对比项 现有方法压缩后 使用本方法压缩后
平均值 0.937470 0.234006
标准差 0.003278 0.278633
中位数 0.937000 0.074000
最大数 0.948000 0.948000
压缩效果值=压缩后文件大小/原文件大小。此值越小,代表压缩后文件越小,即压缩效果越好。
从上表可知,现有方法对地铁隧道全时全域振动监测数据文件压缩后仍接近原文件大小,压缩比很低;而本方法对此类数据文件压缩的平均压缩后文件只有原文件大小的约1/4,平均压缩比达到了75%以上。由于本方法是结合了地铁隧道振动来源的特点和应用而设计的,为保留有用数据,对于较大振动较多的时段的数据文件,这种情况下未清除任何数据段,因此其压缩后最大值仍与现有方法相同。
本发明的地铁隧道全时全域振动监测历史数据的清洗压缩方法,利用了地铁隧道的振动监测数据的特点和用途进行数据清洗,从而大幅提高了压缩比例,节省了数据存储空间。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.地铁隧道全时全域振动监测历史数据的清洗压缩方法,其特征在于,包括以下步骤:
步骤A1,读取地铁全时全域的振动检测文件,以传感器数量m为行,以时序数n为列,构建(m,n)形状的矩阵,其中,该矩阵中的第i行表示第i个传感器所采集的时间数据序列为Si;
步骤A2,对每一个时间数据序列Si按时长w划分为若干片段,且0.5s<w≤1s;
步骤A3,对上述的片段计算振动能量,以获取每个所述片段的振动能量,而得到一个能量值序列P(w)j,j为自然数;
步骤A4,导入K均值模型和清洗填充值,对步骤A3中的能量值序列P(w)j,执行K均值模型对象的预测(predict)方法,得到对应的标注序列;
步骤A5,对步骤A4中得到的标注序列按照能量值由低到高排列,并对其中最小的标注子集,反向对应到数据文件中相应的片段,写入清洗填充值,得到清洗后的文件,且所述清洗填充值为基于K均值模型中最小标签对应的能量序列,再对应到源数据片段的一部分,计算对应能量序列的振动能量均值;
步骤A6,使用压缩软件pigz压缩清洗后的文件,再以压缩文件替代源数据文件。
2.如权利要求1所述的地铁隧道全时全域振动监测历史数据的清洗压缩方法,其特征在于,步骤A3中计算振动能量的公式为:
Figure FDA0002646942980000011
其中,P代表时长为w的数据片段的振动能量,w代表数据片段的时长,f代表采样频率,ai代表此片段中第i个数据点的振动幅度,i为自然数。
3.如权利要求1所述的地铁隧道全时全域振动监测历史数据的清洗压缩方法,其特征在于,步骤A4中的K均值模型采用机器学习中的k-means聚类方法以获取,且5≤K≤8。
4.如权利要求1所述的地铁隧道全时全域振动监测历史数据的清洗压缩方法,其特征在于,步骤A4中的清洗填充值获取方法为:基于K均值模型中最小标签对应的能量值序列,再对应到源数据片段的一部分,计算对应能量值序列的振动能量均值,作为清洗填充值,存入NoSQL库。
5.如权利要求3所述的地铁隧道全时全域振动监测历史数据的清洗压缩方法,其特征在于,所述步骤A4中的模型训练采用以下方法:
步骤A41,在历史数据中,按文件产生的季度,从中随机选择n天,且n≥3天,再从n天中各自随机选择x个工作时间段的n段时间的数据,按照所述步骤A1至步骤A3进行处理,使用机器学习中k-means聚类方法训练模型,以得到每个传感器的本季度的K均值模型;
步骤A42,再对待处理的历史数据文件,逐一对数据片段计算振动能量值,使用步骤A41得到的分类模型执行分类预测得到分类标签。
CN202010652658.6A 2020-07-08 2020-07-08 地铁隧道全时全域振动监测历史数据的清洗压缩方法 Active CN111538708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010652658.6A CN111538708B (zh) 2020-07-08 2020-07-08 地铁隧道全时全域振动监测历史数据的清洗压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010652658.6A CN111538708B (zh) 2020-07-08 2020-07-08 地铁隧道全时全域振动监测历史数据的清洗压缩方法

Publications (2)

Publication Number Publication Date
CN111538708A CN111538708A (zh) 2020-08-14
CN111538708B true CN111538708B (zh) 2020-10-13

Family

ID=71979728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010652658.6A Active CN111538708B (zh) 2020-07-08 2020-07-08 地铁隧道全时全域振动监测历史数据的清洗压缩方法

Country Status (1)

Country Link
CN (1) CN111538708B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723486B (zh) * 2021-08-23 2022-07-29 水利部交通运输部国家能源局南京水利科学研究院 一种离心泵多模态监测数据清洗及特征融合提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101289948B1 (ko) * 2012-06-11 2013-07-26 인제대학교 산학협력단 분자 진동수 패턴을 이용한 리간드 분류 방법 및 장치
CN106990763B (zh) * 2017-04-20 2017-12-29 浙江大学 一种基于数据挖掘的立磨运行调控系统及方法
CN110285877B (zh) * 2019-06-06 2020-02-18 武汉理工大学 基于Spark Streaming的列车实时定位跟踪与速度计算方法

Also Published As

Publication number Publication date
CN111538708A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
US20210150445A1 (en) Roadway maintenance condition detection and analysis
CN107527067A (zh) 一种基于探地雷达的铁路路基病害智能识别方法
CN111538708B (zh) 地铁隧道全时全域振动监测历史数据的清洗压缩方法
CN101051334A (zh) 结构健康监测和信息管理系统及其方法
ATE543184T1 (de) Einmalig beschreibbares aufzeichnungsmedium, aufzeichnungsvorrichtung und -verfahren für das einmalig beschreibbare aufzeichnungsmedium sowie wiedergabevorrichtung und -verfahren für das einmalig beschreibbare aufzeichnungsmedium
CN103761229B (zh) 数据处理方法及装置
CN104850748A (zh) 一种铁路钢轨折断故障分析预警方法及系统
CN113640380B (zh) 钢轨伤损检测多级分类方法及系统
CN115080638B (zh) 微观仿真的多源数据融合分析方法、电子设备及存储介质
CN104805742B (zh) 铁路道岔状态动态检测方法及装置
CN113221455A (zh) 一种设备的健康状态检测方法和装置
CN108182286A (zh) 一种基于物联网的公路养护检测与可视化交互方法
CN110567662A (zh) 一种基于工程比拟的桥梁短期监测评估方法
Ghofrani et al. Rail breaks arrival rate prediction: A physics-informed data-driven analysis for railway tracks
CN107229716B (zh) 一种生成铁路线路经纬度坐标的方法和系统
CN102622302A (zh) 碎片数据类型的识别方法
CN114169370B (zh) 基于光栅阵列构建道路时空荷载谱系的方法及系统
Zhang et al. Dispersion heterogeneous recurrence analysis and its use on fault detection
CN111143343B (zh) 一种基于源端重删的数据高效删除方法及系统
CN110334170B (zh) 一种时空轨迹压缩方法
US20230347948A1 (en) Rail corrugation recognition method and apparatus based on support vector machine, device, and medium
US20240182089A9 (en) Rail corrugation recognition method and apparatus based on support vector machine, device, and medium
CN117115665B (zh) 一种基于路面裂缝分析方法的静态影响参数分析方法
CN117094703B (zh) 一种面向道路裂缝的路网养护维修顺序确定方法
CN113516258B (zh) 公路养护智能决策分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant