CN111078505A - 一种监测数据处理方法、装置和计算设备 - Google Patents

一种监测数据处理方法、装置和计算设备 Download PDF

Info

Publication number
CN111078505A
CN111078505A CN201911369475.7A CN201911369475A CN111078505A CN 111078505 A CN111078505 A CN 111078505A CN 201911369475 A CN201911369475 A CN 201911369475A CN 111078505 A CN111078505 A CN 111078505A
Authority
CN
China
Prior art keywords
sequence
data
monitoring
points
characteristic index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911369475.7A
Other languages
English (en)
Other versions
CN111078505B (zh
Inventor
王勇
黄涛
朱非白
汪湘湘
贾维银
宋海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Ronds Science & Technology Inc Co
Original Assignee
Anhui Ronds Science & Technology Inc Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Ronds Science & Technology Inc Co filed Critical Anhui Ronds Science & Technology Inc Co
Priority to CN201911369475.7A priority Critical patent/CN111078505B/zh
Publication of CN111078505A publication Critical patent/CN111078505A/zh
Application granted granted Critical
Publication of CN111078505B publication Critical patent/CN111078505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种监测数据处理方法,在计算设备中执行,包括步骤:分别从各监测点在预定时段内的m个原始波形中提取一个n维特征指标集,得到每个监测点的m个特征指标集构成特征指标序列;将多个监测点的特征指标序列进行时间对齐后,得到每个监测点的包括p个特征指标集的新特征指标序列,p≥m;将每个监测点的p个特征指标集分别映射为n维特征空间中的p个数据点,并分别计算该p个数据点的离群因子,构成该监测点的离群因子序列;将各监测点的离群因子序列按照离群因子的大小划分为第一序列和第二序列,并分别采用不同的数据保留策略对该两种序列进行数据保留。本发明还一并公开了对应的监测数据处理装置和计算设备。

Description

一种监测数据处理方法、装置和计算设备
技术领域
本发明数据处理领域,尤其涉及一种监测数据处理方法、装置和计算设备。
背景技术
设备状态监测技术,即通过传感器和采集站采集设备运行过程中产生的物理数据,对这些原始信息数据进行处理,从而实现对设备状态的监控。采集过程中会采集大量的原始波形数据,对于上规模的状态监测数据中心,每天会进行TB级别的数据采集,对磁盘空间的存储产生了一定的压力,单纯的增大磁盘空间并不能解决磁盘空间存储的问题,同时也增加了企业在数据存储方面的成本。除此之外,大量的数据采集和存储,也对设备状态监测的算法仿真带来了挑战。整个算法模型的指标计算过程中,原始波形点的数量越多,仿真的效率越低,大量正常点的数据实际上并未对状态监测算法起到优化作用。
针对设备状态监测大数据的存储和仿真问题,产生了对原始采集的波形信息进行数据稀释的需求。在设备状态监测领域,主要稀释策略包括:
1)存储一定年限之内的数据,如除案例设备数据之外,只存储两年之内的其它非案例设备数据。但是,大量非案例设备中存在设备异常信息,这些异常信息对于设备状态监测企业来说是宝贵的财富,直接进行丢弃无疑是一种数据资源的损失。同时,只保存一定年限的数据对于设备的健康档案建立也是不利的。
2)根据大量设备指标数据的统计分布进行数据的筛选。该方法的主要问题在于其通常要求数据满足一定的分布,如正态假设等,而对于特定的设备而言,其运行状态与数据特征并非完全的理想状态,针对整体的统计阈值未必适合用于单台的特定设备。
3)根据指标的阈值进行数据稀释,但该方法难以控制数据稀释比例,多工况稀释较为困难,同时多指标的阈值设置与调参的工作量十分繁复,不利于实际部署。
4)根据特征工程后指标的变动量进行数据稀释,即计算不同指标的变换,计算当前信号特征与之前保留信号的差异性,差异性较大则保留当前数据。但该方法变动量的变化率阈值仍然需要人工设置,多工况的稀释仍然较为困难。
因此,需要提供一种新的数据稀释方法,能够尽可能的稀释正常数据的同时保留异常状态数据,同时避免繁复的人工调参。
发明内容
鉴于上述问题,本发明提出了一种监测数据处理方法、装置和计算设备,以力图解决或者至少解决上面存在的问题。
根据本发明的一个方面,提供了一种监测数据处理方法,适于对从监测设备的多个监测点中采集到的数据进行处理,在计算设备中执行,该方法包括步骤:分别从各监测点在预定时段内的m个原始波形中提取一个n维特征指标集,得到每个监测点的m个特征指标集构成特征指标序列;将多个监测点的特征指标序列进行时间对齐后,得到各监测点的新特征指标序列,所述新特征指标序列包括p个特征指标集,p≥m,且多个监测点的新特征指标序列均对应同一时刻序列T;将每个监测点的p个特征指标集分别映射为n维特征空间中的p个数据点,并分别计算该p个数据点的离群因子,构成该监测点的离群因子序列;将各监测点的离群因子序列按照离群因子的大小划分为第一序列和第二序列,并分别采用不同的数据保留策略对该两种序列进行数据保留。
可选地,在根据本发明的监测数据处理方法中,第一序列为离群因子序列中离群因子前c%大的点所组成的序列,该第一序列的数据保留策略为全部保留;第二序列为除第一序列之外的数据点所组成的序列,该第二序列的数据保留策略是每d个数据点保留一个数据点。
可选地,在根据本发明的监测数据处理方法中,监测设备包括多个监测部位,每个监测部位具有至少一个监测点,分别采用不同的数据保留策略对该两种序列进行数据保留的步骤包括:对于属于同一监测部位的多个监测点,同时保留该多个监测点在同时刻下的所有数据点。
可选地,在根据本发明的监测数据处理方法中,分别采用不同的数据保留策略对该两种序列进行数据保留的步骤包括:对于属于同一监测部位的多个监测点,按照第一序列的数据保留策略,分别对该多个监测点的第一序列进行数据点保留;以及将所有保留数据点所对应的时刻取并集,作为第一序列所对应的第一时刻序列;保留该第一时刻序列内每个时刻下的所有监测点的数据,以完成第一序列的数据点保留。
可选地,在根据本发明的监测数据处理方法中,在完成第一序列的数据点保留之后,还包括步骤:从时刻序列T中去除第一时刻序列,得到第二时刻序列;在该第二时刻序列中,每d个时刻确定一个时刻点,并保留该时刻点下所有监测点的数据,以完成第二序列的数据点保留。
可选地,在根据本发明的监测数据处理方法中,还包括步骤:确定各监测点的保留数据点所对应的特征指标集和/或原始波形,以进行特征指标集和/或原始波形的数据保留。
可选地,在根据本发明的监测数据处理方法中,确定各监测点的保留数据点所对应的特征指标集和/或原始波形的步骤包括:将第一时刻序列和在第二时刻序列中所确定的各时刻点取并集,并查找该并集内每个时刻下的各监测点的特征指标集和/或原始波形。
可选地,在根据本发明的监测数据处理方法中,特征指标包括速度有效值、低频加速度有效值、高频加速度有效值、波形冲击比表征指标和波形频谱能量表征指标中的至少一种。
可选地,在根据本发明的监测数据处理方法中,将每个监测点的p个特征指标集分别映射为n维特征空间中的p个数据点的步骤包括:将每个特征指标集经过标准化处理后转换为特征向量,得到每个监测点的p个特征向量,并将该p个特征向量映射为n维特征空间中的p个数据点。
可选地,在根据本发明的监测数据处理方法中,c=1/(2N),d=2N,N为预设的压缩比;离群因子为局部离群因子LOF;标准化处理方法为z-score方法或分段线性映射方法。
根据本发明的另一个方面,提供了一种监测数据处理装置,适于对从监测设备的多个监测点中采集到的数据进行处理,驻留在计算设备中,该装置包括:特征提取模块,适于分别从各监测点在预定时段内的m个原始波形中提取一个n维特征指标集,得到每个监测点的m个特征指标集构成特征指标序列;特征更新模块,适于将多个监测点的特征指标序列进行时间对齐后,得到每个监测点的新特征指标序列,该新特征指标序列包括p个特征指标集,p≥m,且多个监测点的新特征指标序列均对应同一时刻序列T;LOF计算模块,适于将每个监测点的p个特征指标集分别映射为n维特征空间中的p个数据点,并分别计算该p个数据点的离群因子,构成该监测点的离群因子序列;以及数据稀释模块,适于将各监测点的离群因子序列按照离群因子的大小划分为第一序列和第二序列,并分别采用不同的数据保留策略对该两种序列进行数据保留。
根据本发明的又一方面,提供一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,该一个或多个程序被处理器执行时实现如上所述的监测数据处理方法的步骤。
根据本发明的又一方面,提供一种存储一个或多个程序的可读存储介质,该一个或多个程序包括指令,所述指令当由计算设备执行时实现如上所述的监测数据处理方法的步骤。
根据本发明的技术方案,通过特征工程来从原始波形数据中提取特征指标数据。通过对多个测点的特征数据进行数据对齐后,计算各测点的LOF序列,并根据预设策略来稀释数据。例如,将LOF序列按照LOF值降序排序后,前10%大的LOF数值保留,剩下90%的数据点,每12个保留一个。这样,本发明在保留了有效异常数据信息的前提下,稀释了正常数据的存储量,从而达到了节省硬盘存储空间和提高仿真效率的目的。而且,本发明还保留了多测点的同时刻数据,便于日后的数据分析对比。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的结构框图;
图2示出了根据本发明一个实施例的监测数据处理方法200的流程图;
图3示出了根据本发明一些实施例的某二维特征空间中离群点和正常点的示意图;
图4示出了根据本发明一些实施例的离群点和正常点的稀释效果示意图;
图5示出了根据本发明一个实施例的监测数据处理装置500的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令,在根据本发明的计算设备100中,程序数据124包含用于执行监测数据处理方法200的指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备100被配置为执行监测数据处理方法200。
图2示出了根据本发明一个实施例的监测数据处理方法200的流程图。方法200在计算设备中执行,如在计算设备100中执行,以便从监测设备的多个监测点中采集到的数据进行处理。其中,该监测设备可以有多个监测部位,每个监测部位有至少一个监测点。
如图2所示,该方法始于步骤S210。在步骤S210中,分别从各监测点在预定时段内的m个原始波形中提取一个n维特征指标集,得到每个监测点的m个特征指标集构成特征指标序列。这里,每个监测点的特征指标序列分别对应一个时刻序列,该时刻序列也就是每个监测点的m个波形所对应的时刻序列。例如,监测点A的时刻序列为TA,监测点B的时刻序列为TB,监测点C的时刻序列为TC,这三个时刻序列之间不一定相同。
对于上述三个监测点,分别采集这三个监测点在某时段内的原始波形数据,每个波形代表一个采集时段,如每3s采集一个波形,并记载有对应的采集时刻。波形1~m分别对应采集时刻t1~tm。每个波形中可提取一个n维特征指标集I,该指标集I中共有n种特征指标a1~an。其中第i个波形的特征指标集Ii=(a1,a2,……,an),第i个波形对应的时刻是ti。假设监测点A采集了m个波形,则可对应生成m个特征指标集I1~Im,这m个特征指标集构成了监测点A的特征指标序列LA=(I1,I2,……,Im),且这m个特征指标集所对应的采集时刻t1~tm构成了时刻序列TA
应当理解的是,不同的监测点可以取不同的m值,这样预定时段内每个监测点采集到的原始波形数目可以相同,也可以不相同,本发明对此不作限制。例如监测点A采集100个波形,TA中有100个时刻;监测点B采集105个波形,TB中有105个时刻。
根据一个实施例,特征指标包括速度有效值、低频加速度有效值、高频加速度有效值、波形冲击比表征指标和波形频谱能量表征指标中的至少一种。其中,有效值可认为是均方根值RMS,也就是每个原始波形中的速度RMS值和加速度RMS值,即一组统计数据的平方和的平均值的平方根。当然该有效值也可以是均值、方差、标准差值等,本发明对此不作限制。波形冲击比表征指标例如峭度、峰值、偏斜度等,波形频谱能量表征指标例如某频段频谱能量和等。
随后,在步骤S220中,将多个监测点的特征指标序列进行时间对齐补齐后,得到每个监测点的新特征指标序列,该新特征指标序列包括p个特征指标集,p≥m,且多个监测点的新特征指标序列均对应同一时刻序列T。
如前文所述,每个监测点都有一个时刻序列,因此需要对该多个监测点的特征指标序列进行时间对齐,使各监测点具有同一时刻序列T,在时间轴上对齐,方便进行后续处理。新的时间序列T中相较于原时间序列可能多了一些时刻,相应的新特征指标序列中的特征指标集的数目也会多于原特征指标序列中的特征指标集数目。这里,在对时间对齐之后,还可进行缺省值补齐,如用Null值填充空白值。
应当理解的是,存在多种时间对齐和缺省值补齐的方法,如matlab方法对齐、空值补齐等,本发明不受限于具体的形式,所有能够将多个时刻序列的时间对齐和补齐的方法,均在本发明的保护范围之内,本发明对比不作限制。
随后,在步骤S230中,将每个监测点的p个特征指标集分别映射为n维特征空间中的p个数据点,并分别计算该p个数据点的离群因子,构成该监测点的离群因子序列。其中,监测点A的离群因子序列可表示为{LOF1,LOF2,…,LOFp}A,其中LOFp代表第p个特征指标集(或者第p个特征向量)所对应的离群因子。
根据一个实施例,在进行空间数据点的映射时,可以将每个特征指标集经过标准化处理后转换为特征向量,得到每个监测点的p个特征向量,并将该p个特征向量映射为n维特征空间中的p个数据点。其中,标准化处理方法为z-score方法或分段线性映射方法,从而将每个特征值处理为[0,1]区间内的数值。优选z-score方法,但对于少数指标分布不满足z-score方法的指标,可采用分段线性映射的方法。
根据另一个实施例,离群因子为局部离群因子LOF(Local Outlier Factor),其计算过程可采用目前LOF算法的常用方法,具体如下:
1)定义点P的第k距离distance_k:即离P点第k远的点的距离。这里的距离度量可表示为特征向量之间的马氏距离、欧几里得距离或者汉明距离等,本发明对此不作限制。
2)定义点P的第k距离邻域Nk(p),即P的第k距离以内的所有点。
3)定义点Q到点P的第k可达距离distance_re,即点Q到点P的第k可达距离,为Q的第k距离和Q、P间真实距离的最大值:distance_rek(Q,P)=max{distance_k(Q),d(P,Q)}
4)点P的局部可达密度lof_density表示为点P的第k邻域Nk(p)内所有数据点到P的平均可达距离mean(distance_k(p))的倒数。
5)定义点P的局部离群因子LOFP为:P的邻域点Nk(P)的局部可达密度与点P的局部可达密度之比的平均数。
基于此,可判断数据点是否为离群点。一般而言,若LOF>>1,数据点为离群点;若LOF≤1,该数据点为正常数据点。
随后,在步骤S240中,将各监测点的离群因子序列按照离群因子的大小划分为第一序列和第二序列,并分别采用不同的数据保留策略对该两种序列进行数据保留。
其中,第一序列为离群因子序列中离群因子前c%大的点所组成的序列,该第一序列的数据保留策略为全部保留。第二序列为除第一序列之外的数据点所组成的序列,该第二序列的数据保留策略是每d个数据点保留一个数据点。c和d可以取任意数值,本发明对此不作限制。根据一个实施例,c=1/(2N),d=2N,其中N为预设的压缩比,可以为预设为任意数值(如5或6),本发明对此不作限制。
这里,并未按照传统意义上LOF判断出的离群点和正常点来划分序列,而是将LOF降序排序后从数量上来划分。假设共有100个LOF值,则前10个LOF点构成第一序列,这10个点一般都会是离群点;剩下的90个LOF点为第二序列,这90个数据点中依然还可以有离群点。因此在对这90个点中,每10个点保留一个数据点的过程中,既保留了部分离群点,也保留了正常点的规律。
另外,本发明可以对每个监测点的离群因子序列分别进行数据点保留,多个监测点所保留的数据互不相干。当然,为了便于后续对比分析同时刻的数据,本发明也可以对多个监测点的同时刻数据进行同时保留。某时刻下,只要有一个监测点的数据点被保留,则同时保留该时刻下所有监测点的数据点。例如,若保留了监测点A在时刻t3的数据点,则t3时刻下点B和点C的数据点也都一并保留。
在一种实现方式中,可以先分别对各监测点进行数据点保留。每个监测点的数据都保留完成后,对多个监测点的离群因子序列进行对比,保留该并集内同时刻的监测点数据。一般地,可以将所有保留的数据点的时刻取并集,保留该并集内每个时刻下的监测点数据。这种方式能够在保留各监测点的独立数据的前提下,又额外存储了同时刻的数据点,存储数据更详细,便于后续数据分析。另外,在单个监测点的数据点保留时,如果按正常算法要保留的数据点是一个通过缺省值补齐的空值,则可以跳过该空值而保留下一个不是空值的数据点,提高数据保留和存储的价值。
在另一种实现方式中,可以先分别对各监测点的第一序列进行保留,然后对第一序列的时刻取并集后,再将剩下的序列作为第二序列,统一对第二序列进行数据点保留。这种方式优化了第二序列的数据存储量,进一步降低内存占用空间。
具体而言,对于属于同一监测部位的多个监测点,按照第一序列的数据保留策略,分别对该多个监测点的第一序列进行数据点保留。将所有保留数据点所对应的时刻取并集,作为第一序列所对应的第一时刻序列。之后,保留该第一时刻序列内每个时刻下的所有监测点的数据,以完成第一序列的数据点保留。在完成第一序列的数据点保留之后,还可以从新特征指标序列所对应的时刻序列T中去除第一时刻序列,得到第二时刻序列。在该第二时刻序列中,每d个时刻确定一个时刻点,并保留该时刻点下所有监测点的数据,以完成第二序列的数据点保留。其中,第二时刻序列中所确定的各时刻点可认为共同构成第三时刻序列。
Figure BDA0002339294680000111
假设三个监测点A、B、C的LOF序列值分别如上表所示,其对应的时刻序列T在最后一列显示。在第二种实现方式中,若按照离群点的数据保留策略,各点需要保留的异常点用灰色区域标注。假设监测点A中需要保留的离群点有LOFA1和LOFA3,监测点B需要保留的离群点有LOFB2和LOFB6,监测点C需要保留的离群点有LOFC1和LOFC6。这几个离群点对应的第一时刻序列包括t1、t2、t3和t6。那么在进行数据保留时,将四个时刻下的三个监测点的数据都进行保留(同一行的都一并保留),也就是LOFA1、LOFB1、LOFC1、LOFA2、LOFB2、LOFC2、LOFA3、LOFB3、LOFC3、LOFA6、LOFB6、LOFC6这12个数据点,便于后续对同时刻的数据进行对比分析。
第一序列数据保留完毕之后,统一进行第二序列的稀释数据。从时刻序列T中去除第一时刻序列中的t1、t2、t3和t6,得到第二时刻序列。在该第二时刻序列中,按照时刻顺序,每d个时刻点确定一个时刻点。假设t8为确定的一个时刻点,则同时保留该t8时刻三个监测点的数据点,也就是LOFA8、LOFB8、LOFC8
需要说明的是,对于多监测点的数据同时刻保留,可以只对同一监测部位的多个监测点进行,也可以将单台设备的所有监测点都同时刻保留,本发明对此不作限制。
另外,在步骤S240中,方法200还可以确定各监测点的保留数据点所对应的特征指标集和/或原始波形,以进行特征指标集和/或原始波形的数据保留。具体而言,可以将第一时刻序列和在第二时刻序列所确定的各时刻点(也就是第三时刻序列)取并集,并查找该并集内每个时刻下的各监测点的特征指标集和/或原始波形进行保留。之后,可对保留后的特征指标集和/或原始波形进行存储。根据一个实施例,如果保留的数据点对应的是一个缺省值补齐的空值,则为了避免存储过多不必要的数据,则可以不去查找其对应的特征指标集和原始波形进行保留。
以石化行业某设备为例,首先对采集到的数据进行预处理,通过特征工程获取特征值,进行数据预处理后得到两个特征的马氏距离分布图如图3所示。图3中只展现了速度有效值VelRms和加速度有效值HaRms两个特征,其中在外围分散的多有离群点。图4示出了对离群点和正常点进行稀释后的效果示意图,可以看出经过数据稀释后保留了变化起伏较大的部分,各尖锐峰中都保留了多个离群点,从而在尽量保留离群点的前提下,降低了正常数据点的数据存储量。本发明对稀释后的数据在160台案例机组上进行效果验证,试验结果证实在压缩比大于5的情况下对设备状态监测的报警没有造成明显影响。另外,本发明还对风力发电机行业设备进行了数据稀释,在约450个案例上进行了仿真测试。测试结果显示,在总体压缩比达到6时,稀释前后报警结果一致,无额外漏报案例,说明本发明的数据稀释方案并未影响设备状态的报警监测。
图5示出了根据本发明一个实施例的监测数据处理装置500的结构框图,该装置500可以驻留在计算设备中,如驻留在计算设备100中。如图5所示,装置500包括:特征提取模块510、特征更新模块520、LOF计算模块530和数据稀释模块540。
特征提取模块510分别从各监测点在预定时段内的m个原始波形中提取一个n维特征指标集,得到每个监测点的m个特征指标集构成特征指标序列,其中每个监测点的特征指标序列分别对应一个时刻序列。特征提取模块510可以进行与上面在步骤S210中描述的处理相对应的处理,这里不再展开赘述。
特征更新模块520将多个监测点的特征指标序列进行时间对齐后,得到每个监测点的新特征指标序列,所述新特征指标序列包括p个特征指标集,p≥m,且多个监测点的新特征指标序列均对应同一时刻序列T。特征更新模块520可以进行与上面在步骤S220中描述的处理相对应的处理,这里不再展开赘述。
LOF计算模块530将每个监测点的p个特征指标集分别映射为n维特征空间中的p个数据点,并分别计算该p个数据点的离群因子,构成该监测点的离群因子序列。LOF计算模块530可以进行与上面在步骤S230中描述的处理相对应的处理,这里不再展开赘述。
数据稀释模块540将各监测点的离群因子序列按照离群因子的大小划分为第一序列和第二序列,并分别采用不同的数据保留策略对该两种序列进行数据保留。
根据一个实施例,对于属于同一监测部位的多个监测点,数据稀释模块540同时保留该多个监测点在同时刻下的所有数据点。具体地,数据稀释模块540按照第一序列的数据保留策略,分别对该多个监测点的第一序列进行数据点保留后,将所有保留数据点所对应的时刻取并集,作为第一序列所对应的第一时刻序列。之后,保留该第一时刻序列内每个时刻下的所有监测点的数据,以完成第一序列的数据点保留。数据稀释模块540还可以从时刻序列T中去除第一时刻序列,得到第二时刻序列;之后,在该第二时刻序列中,每d个时刻确定一个时刻点,并保留该时刻点下所有监测点的数据,以完成第二序列的数据点保留。
根据另一个实施例,数据稀释模块540还可以确定各监测点的保留数据点所对应的特征指标集和/或原始波形,以进行特征指标集和/或原始波形的数据保留。具体地,数据稀释模块540可以将第一时刻序列和第二时刻序列取并集,并查找该并集内每个时刻下的各监测点的特征指标集和/或原始波形,以对查找到的结果进行数据存储。数据稀释模块540可以进行与上面在步骤S240中描述的处理相对应的处理,这里不再展开赘述。
根据本发明的技术方案,在保留有效异常数据信息的前提下,稀释正常数据的存储量,从而达到节省硬盘存储空间和提高仿真效率的目的,保证设备状态的正常报警监测。本发明不需要繁复的人工调参,只要设定好压缩比,就可以自动的进行数据的稀释;能够有效的保留异常信息数据,可以调整阈值来增加异常点的保留程度,适用于多工况条件下的数据稀释;压缩比可控,在识别正常数据点的基础上,实现了数据稀释压缩比可控;适用范围广,可应用于不同行业领域的设备监测数据,如风电、石化、钢铁等行业领域。
A8、如A1-A7中任一项所述的方法,其中,所述特征指标包括速度有效值、低频加速度有效值、高频加速度有效值、波形冲击比表征指标和波形频谱能量表征指标中的至少一种。A9、如A1-A8中任一项所述的方法,其中,所述将每个监测点的p个特征指标集分别映射为n维特征空间中的p个数据点的步骤包括:将每个特征指标集经过标准化处理后转换为特征向量,得到每个监测点的p个特征向量,并将该p个特征向量映射为n维特征空间中的p个数据点。A10、如A11所述的方法,其中,c=1/(2N),d=2N,N为预设的压缩比;所述离群因子为局部离群因子LOF;所述标准化处理方法为z-score方法或分段线性映射方法。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的监测数据处理方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种监测数据处理方法,适于对从监测设备的多个监测点中采集到的数据进行处理,在计算设备中执行,所述方法包括步骤:
分别从各监测点在预定时段内的m个原始波形中提取一个n维特征指标集,得到每个监测点的m个特征指标集构成特征指标序列;
将多个监测点的特征指标序列进行时间对齐后,得到各监测点的新特征指标序列,所述新特征指标序列包括p个特征指标集,p≥m,且多个监测点的新特征指标序列均对应同一时刻序列A;
将每个监测点的p个特征指标集分别映射为n维特征空间中的p个数据点,并分别计算该p个数据点的离群因子,构成该监测点的离群因子序列;
将各监测点的离群因子序列按照离群因子的大小划分为第一序列和第二序列,并分别采用不同的数据保留策略对该两种序列进行数据保留。
2.如权利要求1所述的方法,其中,
所述第一序列为离群因子序列中离群因子前c%大的点所组成的序列,该第一序列的数据保留策略为全部保留;
所述第二序列为除第一序列之外的数据点所组成的序列,该第二序列的数据保留策略是每d个数据点保留一个数据点。
3.如权利要求1所述的方法,其中,所述监测设备包括多个监测部位,每个监测部位具有至少一个监测点,所述分别采用不同的数据保留策略对该两种序列进行数据保留的步骤包括:
对于属于同一监测部位的多个监测点,同时保留该多个监测点在同时刻下的所有数据点。
4.如权利要求1-3中任一项所述的方法,其中,所述分别采用不同的数据保留策略对该两种序列进行数据保留的步骤包括:
对于属于同一监测部位的多个监测点,按照第一序列的数据保留策略,分别对该多个监测点的第一序列进行数据点保留;以及
将所有保留数据点所对应的时刻取并集,作为第一序列所对应的第一时刻序列;
保留该第一时刻序列内每个时刻下的所有监测点的数据,以完成第一序列的数据点保留。
5.如权利要求4所述的方法,其中,在完成第一序列的数据点保留之后,还包括步骤:
从所述时刻序列T中去除所述第一时刻序列,得到第二时刻序列;
在该第二时刻序列中,每d个时刻确定一个时刻点,并保留该时刻点下所有监测点的数据,以完成第二序列的数据点保留。
6.如权利要求1-5中任一项所述的方法,还包括步骤:
确定各监测点的保留数据点所对应的特征指标集和/或原始波形,以进行特征指标集和/或原始波形的数据保留。
7.如权利要求6所述的方法,其中,所述确定各监测点的保留数据点所对应的特征指标集和/或原始波形的步骤包括:
将所述第一时刻序列和在所述第二时刻序列中所确定的各时刻点取并集,并查找该并集内每个时刻下的各监测点的特征指标集和/或原始波形。
8.一种监测数据处理装置,适于对从监测设备的多个监测点中采集到的数据进行处理,驻留在计算设备中,所述装置包括:
特征提取模块,适于分别从各监测点在预定时段内的m个原始波形中提取一个n维特征指标集,得到每个监测点的m个特征指标集构成特征指标序列;
特征更新模块,适于将多个监测点的特征指标序列进行时间对齐和缺省值补齐后,得到每个监测点的新特征指标序列,所述新特征指标序列包括p个特征指标集,p≥m,且多个监测点的新特征指标序列均对应同一时刻序列A;
LOF计算模块,适于将每个监测点的p个特征指标集分别映射为n维特征空间中的p个数据点,并分别计算该p个数据点的离群因子,构成该监测点的离群因子序列;以及
数据稀释模块,适于将各监测点的离群因子序列按照离群因子的大小划分为第一序列和第二序列,并分别采用不同的数据保留策略对该两种序列进行数据保留。
9.一种计算设备,包括:
存储器;
一个或多个处理器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-7所述方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法。
CN201911369475.7A 2019-12-26 2019-12-26 一种监测数据处理方法、装置和计算设备 Active CN111078505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911369475.7A CN111078505B (zh) 2019-12-26 2019-12-26 一种监测数据处理方法、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911369475.7A CN111078505B (zh) 2019-12-26 2019-12-26 一种监测数据处理方法、装置和计算设备

Publications (2)

Publication Number Publication Date
CN111078505A true CN111078505A (zh) 2020-04-28
CN111078505B CN111078505B (zh) 2022-09-30

Family

ID=70318273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911369475.7A Active CN111078505B (zh) 2019-12-26 2019-12-26 一种监测数据处理方法、装置和计算设备

Country Status (1)

Country Link
CN (1) CN111078505B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112362156A (zh) * 2020-10-30 2021-02-12 安徽容知日新科技股份有限公司 数据采集系统及方法
CN112815994A (zh) * 2021-01-04 2021-05-18 安徽容知日新科技股份有限公司 基于边缘计算的有线数据采集方法及系统
CN113486302A (zh) * 2021-07-12 2021-10-08 浙江网商银行股份有限公司 数据处理方法及装置
CN115462801A (zh) * 2022-08-22 2022-12-13 广州达美智能科技有限公司 波形数据处理方法、装置、终端设备与介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110153603A1 (en) * 2009-12-17 2011-06-23 Yahoo! Inc. Time series storage for large-scale monitoring system
CN105426123A (zh) * 2015-11-06 2016-03-23 安徽容知日新信息技术有限公司 数据管理方法、采集站及设备监测系统
CN106095655A (zh) * 2016-05-31 2016-11-09 北京蓝海讯通科技股份有限公司 一种异常检测方法、应用和监控设备
CN108229181A (zh) * 2016-12-21 2018-06-29 Sap欧洲公司 非交互式模型中的差分隐私和孤立点检测
CN108703741A (zh) * 2018-03-30 2018-10-26 西安交通大学 一种多策略的nirs干扰检测和去除方法
CN109684320A (zh) * 2018-12-25 2019-04-26 清华大学 监测数据在线清洗的方法和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110153603A1 (en) * 2009-12-17 2011-06-23 Yahoo! Inc. Time series storage for large-scale monitoring system
CN105426123A (zh) * 2015-11-06 2016-03-23 安徽容知日新信息技术有限公司 数据管理方法、采集站及设备监测系统
CN106095655A (zh) * 2016-05-31 2016-11-09 北京蓝海讯通科技股份有限公司 一种异常检测方法、应用和监控设备
CN108229181A (zh) * 2016-12-21 2018-06-29 Sap欧洲公司 非交互式模型中的差分隐私和孤立点检测
CN108703741A (zh) * 2018-03-30 2018-10-26 西安交通大学 一种多策略的nirs干扰检测和去除方法
CN109684320A (zh) * 2018-12-25 2019-04-26 清华大学 监测数据在线清洗的方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DALE. A. CARNEGIE等: "Strategies to improve engineering retention", 《PROCEEDINGS OF THE 2012 IEEE GLOBAL ENGINEERING EDUCATION CONFERENCE 》 *
江楠: "一种多数据流聚类异常检测算法", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
薛安荣等: "离群点挖掘方法综述", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112362156A (zh) * 2020-10-30 2021-02-12 安徽容知日新科技股份有限公司 数据采集系统及方法
CN112815994A (zh) * 2021-01-04 2021-05-18 安徽容知日新科技股份有限公司 基于边缘计算的有线数据采集方法及系统
CN112815994B (zh) * 2021-01-04 2023-08-15 安徽容知日新科技股份有限公司 基于边缘计算的有线数据采集方法及系统
CN113486302A (zh) * 2021-07-12 2021-10-08 浙江网商银行股份有限公司 数据处理方法及装置
CN115462801A (zh) * 2022-08-22 2022-12-13 广州达美智能科技有限公司 波形数据处理方法、装置、终端设备与介质

Also Published As

Publication number Publication date
CN111078505B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN111078505B (zh) 一种监测数据处理方法、装置和计算设备
WO2023241406A1 (zh) 一种小扰动火电机组一次调频控制系统
WO2021253709A1 (zh) 心电图心搏分类方法、装置、电子设备和介质
CN109934301B (zh) 一种电力负荷聚类分析方法、装置和设备
CN110826803A (zh) 一种电力现货市场的电价预测方法及装置
WO2020108159A1 (zh) 一种网络故障根因检测方法、系统及存储介质
CN111626360B (zh) 用于检测锅炉故障类型的方法、装置、设备和存储介质
CN113591400B (zh) 一种基于特征相关性分区回归的电力调度监控数据异常检测方法
CN111210022B (zh) 向后模型选择方法、设备及可读存储介质
CN111563556A (zh) 一种基于颜色梯度权重的变电站箱柜设备异常识别方法及系统
CN117150359A (zh) 基于模型无关元学习的小样本故障诊断方法、系统、装置及介质
CN111414354A (zh) 一种风电场数据的处理方法、装置及计算机可读存储介质
CN112446307B (zh) 基于局部约束的非负矩阵分解的心电身份识别方法及系统
CN116842330B (zh) 一种可对比历史记录的保健信息处理方法及装置
CN109933680A (zh) 图像数据筛选方法、装置、计算机设备及其存储介质
CN111506624B (zh) 一种电力缺失数据辨识方法和相关装置
CN115836849A (zh) 一种基于对比测试时间适应的心率失常分类方法
JP2024525992A (ja) 生体信号分析モデルの学習データを管理するための方法、システムおよび非一過性のコンピュータ読み取り可能な記録媒体
CN116051268A (zh) 个人信用评价方法、系统、可读存储介质及计算机设备
CN115526882A (zh) 一种医学图像的分类方法、装置、设备及存储介质
CN114617562A (zh) 心拍信号的分类方法、装置、设备及存储介质
CN114723043A (zh) 基于超图模型谱聚类的卷积神经网络卷积核剪枝方法
CN113705626A (zh) 异常生活保障申请家庭的识别方法、装置及电子设备
CN109086207B (zh) 页面响应故障分析方法、计算机可读存储介质及终端设备
CN113743448A (zh) 模型训练数据获取方法、模型训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant