CN112800041B - 一种基于邻域查询的机械监测标签数据质量保障方法 - Google Patents
一种基于邻域查询的机械监测标签数据质量保障方法 Download PDFInfo
- Publication number
- CN112800041B CN112800041B CN202110095846.8A CN202110095846A CN112800041B CN 112800041 B CN112800041 B CN 112800041B CN 202110095846 A CN202110095846 A CN 202110095846A CN 112800041 B CN112800041 B CN 112800041B
- Authority
- CN
- China
- Prior art keywords
- data
- neighborhood
- quality
- sample
- minpts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Manufacturing & Machinery (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Automatic Analysis And Handling Materials Therefor (AREA)
Abstract
本发明提供一种基于邻域查询的机械监测标签数据质量保障方法,通过提取不同故障标签样本数据时域、时频特征,转换为样本的特征指标集合,然后基于以上特征,通过查询未标记样本数据的邻域中对象个数,与Minpts进行比对,实现了该样本数据是否为噪点数据的检测,同时计算样本数据邻域对象的邻域中样本对象数量,若数量大于Minpts则为高质量监测数据;对未标记样本数据重复执行查找邻域和比对过程,实现了噪点数据的检测,并将噪点数据清洗。
Description
技术领域
本发明属于机械监测及故障诊断领域,具体涉及一种基于邻域查询的机械监测标签数据质量保障方法。
背景技术
机械设备状态的准确诊断对于防止重大事故、提高设备生产经济效益具有十分重要的意义。特别是近年来,由于大量监测测点的设置,传感器采样频率的提高,积累了海量数据。基于深度学习的机械故障诊断技术对于海量监测数据的快速处理并完成故障诊断发挥了重要作用,被广泛应用于了设备的监测及诊断。
然而,设备运行的工业现场,环境嘈杂,采集的监测数据夹杂大量的噪点数据,导致监测数据质量的降低,使得监测大数据价值密度降低,难以从中挖掘出有用的监测信息。深度学习算法具有“垃圾进,垃圾出”的缺点,面对低质量监测数据,会学到错误的监测信息,最终训练获得错误的诊断模型,导致诊断准确率降低。由此可见,检测出原始监测数据中的噪点样本数据,并将其清洗,获得高质量的监测数据是深度学习准确诊断模型获得的前提和基础。此外,用于深度学习模型训练的不同标签数据间存在一定差异性,也进一步加大了噪点样本数据被准确检测的难度。
发明内容
本发明的目的在于克服现有技术中存在的不足,提供一种基于邻域查询的机械监测标签数据质量保障方法,能够检测并清除噪点样本数据,从而完成了监测数据质量的保障。本发明采用的技术方案是:
一种基于邻域查询的机械监测标签数据质量保障方法,包括以下步骤:
1)获得机械设备多种健康状态的标签样本数据,标签类别数量记为S;标签样本数记为N;
2)对每样本数据提取时域特征和时频域特征,组成特征指标集合D{Xij},D{Xij}中Xij表示第i个样本数据的第j个特征指标向量;
3)将样本数据的特征指标集合D{Xij}中所有对象标记为未处理状态;
4)初始化ε以及Minpts的值;ε作为给定对象邻域的寻找半径;
5)从特征指标集合D{Xij}中取出Xi样本,,初始计算时i=1;
6)判断Xi是否完成标记,若标记则执行后面步骤,否则i=i+1,并执行步骤5);
7)计算Xi的ε邻域Nε(Xi);
8)计算邻域Nε(Xi)内对象的个数(不包括Xi本身),判断是否大于Minpts,若不大于则标记Xi为噪点数据样本,i=i+1,并执行步骤5);
9)否则,将Xi标记为高质量监测数据,并建立簇C,将Xi及邻域Nε(Xi)内对象都归入簇C;
10)将邻域Nε(Xi)内对象的邻域内对象数量大于Minpts的未标记样本归入簇C;
11)i=i+1,重复执行步骤5)及其以后步骤,直至i>N时结束;
12)将检测为噪点的样本数据清除,剩余数据为高质量监测数据。
进一步地,步骤1)中获得的标签数据包含正常标签数据和故障标签数据。
进一步地,步骤4)中,
其中median(·)表示数据的中位数;
Minpts=S+1 (2)。
进一步地,步骤7)中,计算Xi的ε邻域Nε(Xi),表示如下:
Nε(Xi)={q|q∈D且distance(Xi,q)≤ε} (3)
其中distance(·)表示计算欧式距离。
本发明的有益效果在于:本发明通过提取不同故障标签样本数据时域、时频特征,转换为样本的特征指标集合,然后基于以上特征,通过查询未标记样本数据的ε邻域中对象个数,与Minpts进行比对,实现了该样本数据是否为噪点数据的检测,同时计算样本数据邻域对象的邻域中样本对象数量,若数量大于Minpts则为高质量监测数据;对未标记样本数据重复执行查找邻域和比对过程,实现了噪点数据的检测,并将噪点数据清洗,从而完成了监测数据质量的保障。
附图说明
图1为本发明实施例中的流程图。
图2为本发明实施例中Xi的ε邻域示意图。
图3为实施例不同标签数据时域波形图,(a)正常状态时域波形,(b)内圈故障时域波形,(c)外圈故障时域波形,(d)滚动体故障时域波形。
图4为本发明实施例中仿真生成的噪点样本数据时域波形。
图5位本发明实施例中经邻域搜索方法识别噪点数据的结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例提出一种基于邻域查询的机械监测标签数据质量保障方法,包括以下步骤:
1)获得机械设备多种健康状态的标签样本数据,其中包含正常标签数据和故障标签数据;标签类别数量记为S;标签样本数记为N;
2)对每样本数据提取时域特征和时频域特征,组成特征指标集合D{Xij},D{Xij}中Xij表示第i个样本数据的第j个特征指标向量;
特征指标包括均值、最大值、最小值、峰峰值、方差、峭度、均方根、波形因子、峰值因子、脉冲因子、方根幅值、裕度因子、偏斜度、小波能量组分比;
3)将样本数据的特征指标集合D{Xij}中所有对象标记为未处理状态;
4)初始化ε以及Minpts的值;ε作为给定对象邻域的寻找半径;
其中median(·)表示数据的中位数;
Minpts=S+1 (2)
5)从特征指标集合D{Xij}中取出Xi样本,,初始计算时i=1;
6)判断Xi是否完成标记,若标记则执行后面步骤,否则i=i+1,并执行步骤5);
7)计算Xi的ε邻域Nε(Xi),表示如下:
Nε(Xi)={q|q∈D且distance(Xi,q)≤ε} (3)
其中distance(·)表示计算欧式距离;
8)计算邻域Nε(Xi)内对象的个数(不包括Xi本身),判断是否大于Minpts,若不大于则标记Xi为噪点数据样本,i=i+1,并执行步骤5);
9)否则,将Xi标记为高质量监测数据,并建立簇C,将Xi及邻域Nε(Xi)内对象都归入簇C;
10)将邻域Nε(Xi)内对象的邻域内对象数量大于Minpts的未标记样本归入簇C;
11)i=i+1,重复执行步骤5)及其以后步骤,直至i>N时结束;
12)将检测为噪点的样本数据清除,剩余数据为高质量监测数据,从而完成了机械标签监测数据的质量保障。
在以下的一个具体实施例中,采用美国凯斯西储大学某实验室监测获得的不同轴承故障下振动监测标签数据以对本发明方法进行验证;
轴承是旋转机械装备的一种重要零部件,故障频发,常见故障包括轴承外圈故障、轴承内圈故障、滚动体故障。实验室监测获得的某时刻轴承正常状态标签数据的时域波形如图3(a)所示,轴承外圈故障标签数据的时域波形如图3(b)所示,轴承内圈故障标签数据的时域波形如图3(c)所示,轴承滚动体故障标签数据的时域波形如图3(d)所示,以上数据采样频率为12kHz,可以看到,不同故障状态的标签数据之间存在一定差异性。此外,使用高斯白噪声模拟4个噪点样本数据,这些样本数据中不包含任何有用的轴承监测信息,质量低,其中一个噪点样本数据时域波形如图4所示,此类数据不包含任何有用的故障信息,降低了数据质量,会误导诊断模型的建立,需将其清除;
使用本发明方法对噪点进行检测,获得的4组标签数据样本共160个,其中正常标签数据样本、外圈故障标签数据样本、内圈故障标签数据样本、滚动体故障标签数据样本均为40个,并加入4个噪点样本数据,即S=4,N=164;首先提取每个数据样本的时域、时频域特征,构成了包含164个样本的特征指标集合D{Xij},每个样本的特征指标能够使用时域、时频域特征所描述。之后,初始化ε和Minpts;经计算,ε=3.2188,Minpts=5;接着,以ε为半径,循环查询未标记样本标签数据ε邻域,判断邻域对象个数是否小于等于Minpts,将小于等于Minpts且未标记的识别为噪点数据;否则,将其及邻域内对象都归为高质量标签数据,邻域内对象的邻域内对象数量若也大于Minpts,则也归为高质量监测数据,且为同类;最终检测结果如图5所示,从图中可以看到,标签数据被归为三大簇,此三大簇被检测为高质量监测数据;虽然不同标签数据间存在一定差异,但是各标签样本数据特征聚集性较好,而4组噪点数据远离簇中心,聚集性较差,被识别出,从而能对其清洗,进一步提高监测数据质量;说明本发明方法实现了机械监测数据的质量保障;因此,采用本发明方法的机械监测数据质量保障的效果较为理想。;
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于邻域查询的机械监测标签数据质量保障方法,其特征在于,包括以下步骤:
1)获得机械设备多种健康状态的标签样本数据,标签类别数量记为S;标签样本数记为N;
2)对每样本数据提取时域特征和时频域特征,组成特征指标集合D{Xij},D{Xij}中Xij表示第i个样本数据的第j个特征指标向量;
3)将样本数据的特征指标集合D{Xij}中所有对象标记为未处理状态;
4)初始化ε以及Minpts的值;ε作为给定对象邻域的寻找半径;
5)从特征指标集合D{Xij}中取出Xi样本,初始计算时i=1;
6)判断Xi是否完成标记,若标记则执行后面步骤,否则i=i+1,并执行步骤5);
7)计算Xi的ε邻域Nε(Xi);
8)计算邻域Nε(Xi)内对象的个数(不包括Xi本身),判断是否大于Minpts,若不大于则标记Xi为噪点数据样本,i=i+1,并执行步骤5);
9)否则,将Xi标记为高质量监测数据,并建立簇C,将Xi及邻域Nε(Xi)内对象都归入簇C;
10)将邻域Nε(Xi)内对象的邻域内对象数量大于Minpts的未标记样本归入簇C;
11)i=i+1,重复执行步骤5)及其以后步骤,直至i>N时结束;
12)将检测为噪点的样本数据清除,剩余数据为高质量监测数据。
2.如权利要求1所述的基于邻域查询的机械监测标签数据质量保障方法,其特征在于,
步骤1)中获得的标签数据包含正常标签数据和故障标签数据。
4.如权利要求3所述的基于邻域查询的机械监测标签数据质量保障方法,其特征在于,
步骤7)中,计算Xi的ε邻域Nε(Xi),表示如下:
Nε(Xi)={q|q∈D且distance(Xi,q)≤ε} (3)
其中distance(·)表示计算欧式距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110095846.8A CN112800041B (zh) | 2021-01-25 | 2021-01-25 | 一种基于邻域查询的机械监测标签数据质量保障方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110095846.8A CN112800041B (zh) | 2021-01-25 | 2021-01-25 | 一种基于邻域查询的机械监测标签数据质量保障方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800041A CN112800041A (zh) | 2021-05-14 |
CN112800041B true CN112800041B (zh) | 2023-06-13 |
Family
ID=75811571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110095846.8A Active CN112800041B (zh) | 2021-01-25 | 2021-01-25 | 一种基于邻域查询的机械监测标签数据质量保障方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800041B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535697A (zh) * | 2021-07-07 | 2021-10-22 | 广州三叠纪元智能科技有限公司 | 爬架数据清理方法、爬架控制装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103234767A (zh) * | 2013-04-21 | 2013-08-07 | 蒋全胜 | 基于半监督流形学习的非线性故障检测方法 |
CN109190598A (zh) * | 2018-09-29 | 2019-01-11 | 西安交通大学 | 一种基于ses-lof的旋转机械监测数据噪点检测方法 |
CN112101174A (zh) * | 2020-09-09 | 2020-12-18 | 洛阳师范学院 | 一种基于LOF-Kurtogram的机械故障诊断方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120290293A1 (en) * | 2011-05-13 | 2012-11-15 | Microsoft Corporation | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding |
-
2021
- 2021-01-25 CN CN202110095846.8A patent/CN112800041B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103234767A (zh) * | 2013-04-21 | 2013-08-07 | 蒋全胜 | 基于半监督流形学习的非线性故障检测方法 |
CN109190598A (zh) * | 2018-09-29 | 2019-01-11 | 西安交通大学 | 一种基于ses-lof的旋转机械监测数据噪点检测方法 |
CN112101174A (zh) * | 2020-09-09 | 2020-12-18 | 洛阳师范学院 | 一种基于LOF-Kurtogram的机械故障诊断方法 |
Non-Patent Citations (1)
Title |
---|
数据特征选择与分类在机械故障诊断中的应用;李帅位;张栋良;黄昕宇;陈璞;;振动与冲击(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800041A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yiakopoulos et al. | Rolling element bearing fault detection in industrial environments based on a K-means clustering approach | |
Sohaib et al. | Fault diagnosis of rotary machine bearings under inconsistent working conditions | |
CN108398268B (zh) | 一种轴承性能退化评估方法 | |
CN111191740B (zh) | 一种滚动轴承故障诊断方法 | |
US11393142B2 (en) | Graphical processing method for characteristic data and use thereof | |
CN112800041B (zh) | 一种基于邻域查询的机械监测标签数据质量保障方法 | |
CN111275108A (zh) | 基于生成对抗网络对局部放电数据进行样本扩展的方法 | |
CN114700587B (zh) | 一种基于模糊推理和边缘计算的漏焊缺陷实时检测方法及系统 | |
CN111753877B (zh) | 一种基于深度神经网络迁移学习的产品质量检测方法 | |
CN112395382A (zh) | 基于变分自编码器的船舶异常航迹数据检测方法和装置 | |
CN115600150A (zh) | 一种基于深度迁移学习的多模态齿轮箱故障诊断方法 | |
CN104038792A (zh) | 用于iptv监管的视频内容分析方法及设备 | |
CN107403618B (zh) | 基于堆叠基稀疏表示的音频事件分类方法及计算机设备 | |
Wang et al. | An effective two-stage clustering method for mixing matrix estimation in instantaneous underdetermined blind source separation and its application in fault diagnosis | |
CN111310719A (zh) | 一种未知辐射源个体识别及检测的方法 | |
CN113076920B (zh) | 一种基于非对称域对抗自适应模型的智能故障诊断方法 | |
CN114487129A (zh) | 基于声发射技术的柔性材料的损伤识别方法 | |
Pang et al. | Clustering group-sparse mode decomposition and its application in rolling bearing fault diagnosis | |
Lyu et al. | A novel multiview sampling-based meta self-paced learning approach for class-imbalanced intelligent fault diagnosis | |
CN113758708B (zh) | 一种基于l1范数与组范数约束的滚动轴承信号的频域故障诊断方法 | |
CN112561306B (zh) | 一种基于Hankel矩阵的滚动轴承健康状态评价方法 | |
CN111076933B (zh) | 一种机床主轴轴承敏感特征集构建与健康状态识别方法 | |
CN113158878B (zh) | 一种基于子空间的异构迁移故障诊断方法、系统和模型 | |
CN109506936B (zh) | 基于流向图和非朴素贝叶斯推理的轴承故障程度识别方法 | |
Liu et al. | Noisy labels co-detection and co-relabeling twin prototype networks for fault diagnosis of wind turbine gearboxes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |