CN107330092A - 一种生产业务噪声数据检测和分离方法 - Google Patents
一种生产业务噪声数据检测和分离方法 Download PDFInfo
- Publication number
- CN107330092A CN107330092A CN201710539579.2A CN201710539579A CN107330092A CN 107330092 A CN107330092 A CN 107330092A CN 201710539579 A CN201710539579 A CN 201710539579A CN 107330092 A CN107330092 A CN 107330092A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- noise
- production business
- noise data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种生产业务噪声数据检测和分离方法,包括以下步骤:(1)利用数据自身分布特征检测出单维度数据集中的噪声数据,形成新数据组;(2)利用箱型图的方法在所述新数据组中识别并剔除离群值和异常值,得到目标数据;(3)利用基于欧几里德距离的聚类方法来识别并分离多维数据集中的噪声数据,得到目标数据。使用本发明的方法可以有效识别并剔除生产业务噪声数据,从而在提高数据质量的同时,也减少后期数据质量治理的工作量和难度,提升数据的利用效率。
Description
技术领域
本发明涉及信息处理技术领域,特别是涉及到一种生产业务噪声数据检测和分离方法。
背景技术
数据质量的提高有利于对数据价值信息的挖掘,并构建新的知识模型支持生产决策和预判,能够提升设备的安全性,降低设备的故障,减少由于缺陷和故障导致的经济损失,同时提升设备的利用效率,减少重复投资和浪费,延长设备使用寿命,降低资产的报废净值率。
在生产过程中不可避免会引进一些生产业务噪声数据,这些噪声数据的存在,大大降低了数据的质量。因此,有必要对这种生产业务噪声数据进行检测并剔除。
发明内容
为了克服现有技术中的不足,本发明提出了一种生产业务噪声数据检测和分离方法,目的在于识别并剔除生产业务噪声数据,提高数据质量。本发明采用的技术方案为:
一种生产业务噪声数据检测和分离方法,包括以下步骤:
S1:利用数据自身分布特征检测出单维度数据集中的噪声数据,形成新数据组;
S2:利用箱型图方法在所述新数据组中识别并剔除离群值和异常值,得到目标数据;
S3:利用基于欧几里德距离的聚类方法来识别并分离多维数据集中的噪声数据,得到目标数据。
优选的,所述步骤S1的具体方法为:
假设有一组数据如下:
序号 1 2 3 4 … n
数据 E_1 E_2 E_3 E_4 … E_n
(1)将数据集切等分成αn个区间(α可取1,10,100,1000),区间大小为
θ=(Max{E_1,E_2,…,E_n }-Min{E_1,E_2,…,E_n})/αn;
(2)截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组E。
优选的,所述步骤S2的具体方法为:
利用箱型图方法,对所述新数据组剔除离群值,得到非离群数据组[ Q_1-3IQR, Q_3+3IQR],再取非异常数据组[Q_1-1.5IQR, Q_3+1.5IQR],得到目标数据;
其中:Q_1为第一分位数,Q_3为第三分位数,IQR为四分位间距IQR=Q_3-Q_1。
优选的,所述步骤S3的具体方法为:
(1)利用基于欧几里德距离的聚类方法将数据集分为多个簇;
(2)识别不能归并到任何一簇中的数据,这些数据即为孤立点或奇异点;
(3)将所述孤立点或奇异点进行剔除处理。
优选的,所述步骤S3中的聚类方法为回归分析方法。
本发明的有益效果是:使用本发明的方法可以有效识别并剔除生产业务噪声数据,从而在提高数据质量的同时,也减少后期数据质量治理的工作量和难度,提升数据的利用效率。
附图说明
图1 是本发明的流程图。
图2 是本发明利用数据分布特征检测单维度数据集中噪声数据的示意图。
图3 是本发明利用箱型图识别并剔除离群值和异常值的示意图,其中:1为异常值,2为上边缘,3为上四分位数,4为中位数,5为下四分位数,6为下边缘。
图4 是本发明利用回归方法识别多维数据集中噪声数据的示意图,其中:1为类别1,2为类别2,3为孤立点。
具体实施方式
一种生产业务噪声数据检测和分离方法,如图1所示,包括以下步骤:
S1:利用数据自身分布特征检测出单维度数据集中的噪声数据,形成新数据组,如图2所示。噪声是指被测变量的一个随机错误和变化。一般情况下,对于离散程度并非非常大的数据源来说,数据自身分布将会集中在某一区域之内,所以利用数据自身分布特征来识别噪声数据,再根据箱型图的方法在数据集中域中识别离群值及异常值。其具体方法为:
假设有一组数据如下:
序号 1 2 3 4 … n
数据 E_1 E_2 E_3 E_4 … E_n
(1)将数据集切等分成αn个区间(α可取1,10,100,1000),区间大小为
θ=(Max{E_1,E_2,…,E_n }-Min{E_1,E_2,…,E_n})/αn;
(2)截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组E。
S2:利用箱型图方法在所述新数据组中识别并剔除离群值和异常值,得到目标数据。如图3所示,其具体方法为:
利用箱型图方法,对所述新数据组剔除离群值1,得到非离群数据组[ Q_1-3IQR, Q_3+3IQR],再取非异常数据组[Q_1-1.5IQR, Q_3+1.5IQR],得到目标数据;
其中:Q_1为第一分位数,Q_3为第三分位数,IQR为四分位间距IQR=Q_3-Q_1。
S3:利用基于欧几里德距离的聚类方法来识别并分离多维数据集中的噪声数据,得到目标数据。
一般情况下,利用数据分布特征或业务理解来识别单维数据集中噪声数据是快捷有效的,但对于聚合程度高,彼此相关的多维数据而言,通过数据分布特征或业务理解来识别异常的方法便显得无能为力。面对这种窘迫的情况,聚类方法提供了识别多维数据集中噪声数据的方法。
在很多情况下,把整个记录空间聚类,能发现在字段级检查未被发现的孤立点。聚类就是将数据集分组为多个类或簇,如图4中的1、2所示。在同一个簇中的数据对象(记录)之间具有较高的相似度,而不同簇中的对象的差别就比较大。散落在外,不能归并到任何一类中的数据称为孤立点3或奇异点。对于孤立或是奇异的噪声数据(异常值)进行剔除处理,如图4所示。
可以利用拟合函数对数据进行平滑。比如借助线性回归方法,包括多变量回归方法,就可以获得的多个变量之间的中个数属性值一个拟合关系,从而达到利用一个(或一组)变量值来帮助预测另一个变量取值的目的。利用回归分析方法所获得的拟合函数,能够帮助平滑数据及除去其中的噪声。
Claims (5)
1.一种生产业务噪声数据检测和分离方法,其特征在于,包括以下步骤:
S1:利用数据自身分布特征检测出单维度数据集中的噪声数据,形成新数据组;
S2:利用箱型图方法在所述新数据组中识别并剔除离群值和异常值,得到目标数据;
S3:利用基于欧几里德距离的聚类方法来识别并分离多维数据集中的噪声数据,得到目标数据。
2.根据权利要求1所述的一种生产业务噪声数据检测和分离方法,其特征在于,所述步骤S1的具体方法为:
假设有一组数据如下:
序号 1 2 3 4 … n
数据 E_1 E_2 E_3 E_4 … E_n
(1)将数据集切等分成αn个区间(α可取1,10,100,1000),区间大小为
θ=(Max{E_1,E_2,…,E_n }-Min{E_1,E_2,…,E_n})/αn;
(2)截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组E。
3.根据权利要求1所述的一种生产业务噪声数据检测和分离方法,其特征在于,所述步骤S2的具体方法为:
利用箱型图方法,对所述新数据组剔除离群值,得到非离群数据组[ Q_1-3IQR, Q_3+3IQR],再取非异常数据组[Q_1-1.5IQR, Q_3+1.5IQR],得到目标数据;
其中:Q_1为第一分位数,Q_3为第三分位数,IQR为四分位间距IQR=Q_3-Q_1。
4.根据权利要求1所述的一种生产业务噪声数据检测和分离方法,其特征在于,所述步骤S3的具体方法为:
(1)利用基于欧几里德距离的聚类方法将数据集分为多个簇;
(2)识别不能归并到任何一簇中的数据,这些数据即为孤立点或奇异点;
(3)将所述孤立点或奇异点进行剔除处理。
5.根据权利要求1所述的一种生产业务噪声数据检测和分离方法,其特征在于,所述步骤S3中的聚类方法为回归分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710539579.2A CN107330092A (zh) | 2017-07-04 | 2017-07-04 | 一种生产业务噪声数据检测和分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710539579.2A CN107330092A (zh) | 2017-07-04 | 2017-07-04 | 一种生产业务噪声数据检测和分离方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107330092A true CN107330092A (zh) | 2017-11-07 |
Family
ID=60195948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710539579.2A Pending CN107330092A (zh) | 2017-07-04 | 2017-07-04 | 一种生产业务噪声数据检测和分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330092A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582741A (zh) * | 2018-11-15 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 特征数据处理方法和装置 |
CN112651539A (zh) * | 2019-10-12 | 2021-04-13 | 富士通株式会社 | 信息处理装置和信息处理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070239636A1 (en) * | 2006-03-15 | 2007-10-11 | Microsoft Corporation | Transform for outlier detection in extract, transfer, load environment |
CN102135995A (zh) * | 2011-03-17 | 2011-07-27 | 新太科技股份有限公司 | 一种etl数据清洗设计方法 |
CN102158365A (zh) * | 2011-05-20 | 2011-08-17 | 北京邮电大学 | 一种网络日志挖掘中的用户聚类方法及系统 |
CN103902742A (zh) * | 2014-04-25 | 2014-07-02 | 中国科学院信息工程研究所 | 一种基于大数据的访问控制判定引擎优化系统及方法 |
CN105307121A (zh) * | 2015-10-16 | 2016-02-03 | 上海晶赞科技发展有限公司 | 一种信息处理方法及装置 |
CN106874709A (zh) * | 2015-12-12 | 2017-06-20 | 北京大学 | 测序结果中序列数据错误的检测和校正方法 |
-
2017
- 2017-07-04 CN CN201710539579.2A patent/CN107330092A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070239636A1 (en) * | 2006-03-15 | 2007-10-11 | Microsoft Corporation | Transform for outlier detection in extract, transfer, load environment |
CN102135995A (zh) * | 2011-03-17 | 2011-07-27 | 新太科技股份有限公司 | 一种etl数据清洗设计方法 |
CN102158365A (zh) * | 2011-05-20 | 2011-08-17 | 北京邮电大学 | 一种网络日志挖掘中的用户聚类方法及系统 |
CN103902742A (zh) * | 2014-04-25 | 2014-07-02 | 中国科学院信息工程研究所 | 一种基于大数据的访问控制判定引擎优化系统及方法 |
CN105307121A (zh) * | 2015-10-16 | 2016-02-03 | 上海晶赞科技发展有限公司 | 一种信息处理方法及装置 |
CN106874709A (zh) * | 2015-12-12 | 2017-06-20 | 北京大学 | 测序结果中序列数据错误的检测和校正方法 |
Non-Patent Citations (2)
Title |
---|
周丰等: "基于最小最大模块化集成特征选择的改进", 《计算机技术与发展》 * |
苗润华: "基于聚类和孤立点检测的数据预处理方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582741A (zh) * | 2018-11-15 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 特征数据处理方法和装置 |
CN109582741B (zh) * | 2018-11-15 | 2023-09-05 | 创新先进技术有限公司 | 特征数据处理方法和装置 |
CN112651539A (zh) * | 2019-10-12 | 2021-04-13 | 富士通株式会社 | 信息处理装置和信息处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101329734B (zh) | 基于k-l变换和ls-svm的车牌字符识别方法 | |
JP2019023937A5 (zh) | ||
CN102269736B (zh) | 罐底腐蚀声发射检测中声源分布区域的自动识别方法 | |
CN113537321B (zh) | 一种基于孤立森林和x均值的网络流量异常检测方法 | |
CN101751666A (zh) | 基于谱聚类的半监督多光谱遥感图像分割方法 | |
CN102156887A (zh) | 一种基于局部特征学习的人脸识别方法 | |
CN107391616A (zh) | 一种生产业务噪声数据检测和分离系统 | |
CN110837874B (zh) | 基于时间序列分类的业务数据异常检测方法 | |
CN103177266A (zh) | 储藏物害虫智能识别系统 | |
CN103593695A (zh) | 一种dpm二维码区域定位的方法 | |
CN107679453A (zh) | 基于支持向量机的天气雷达电磁干扰回波识别方法 | |
CN101251896B (zh) | 一种基于多分类器的物体检测系统及方法 | |
CN107330092A (zh) | 一种生产业务噪声数据检测和分离方法 | |
CN101777140A (zh) | 一种显微图像的复杂粘连细胞个数统计方法 | |
Chang et al. | Development pattern recognition model for the classification of circuit probe wafer maps on semiconductors | |
CN103679207A (zh) | 一种手写体数字识别方法及系统 | |
CN106023159A (zh) | 设施蔬菜叶部病斑图像分割方法及系统 | |
Solak et al. | A new method for classifying nuts using image processing and k‐means++ clustering | |
CN103246877A (zh) | 基于图像轮廓的人脸识别新方法 | |
CN115272305A (zh) | 一种纽扣孔洞缺陷检测方法 | |
CN102622761A (zh) | 基于相似性相互作用机理的图像分割方法 | |
Jian et al. | Research on inspection and classification of leather surface defects based on neural network and decision tree | |
CN102945238A (zh) | 一种基于模糊isodata的特征选取方法 | |
Zhang et al. | A new outlier detection algorithm based on fast density peak clustering outlier factor. | |
CN105550646B (zh) | 基于对数梯度直方图的广义光照不变人脸特征描述方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171107 |
|
RJ01 | Rejection of invention patent application after publication |