CN104715160B - 基于kmdb的软测量建模数据异常点检测方法 - Google Patents
基于kmdb的软测量建模数据异常点检测方法 Download PDFInfo
- Publication number
- CN104715160B CN104715160B CN201510157690.6A CN201510157690A CN104715160B CN 104715160 B CN104715160 B CN 104715160B CN 201510157690 A CN201510157690 A CN 201510157690A CN 104715160 B CN104715160 B CN 104715160B
- Authority
- CN
- China
- Prior art keywords
- data
- modeling
- sample
- error
- kmdb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种基于KMDB(K‑means与DBSCAN相结合的算法)的软测量建模数据异常点检测方法,其特征在于包括下列步骤:(1)设定异常点比例p0与误差比较系数t。(2)对确定的样本数据集进行软测量建模,计算建模测试误差e0(选取相对误差)。(3)用建模误差指导K值的选择,将数据集划分为K类。(4)对每一类用DBSCAN算法进行异常点检测。(5)用异常数据样本占总样本的比例p调整DBSCAN算法中Eps和MinPts的选择。(6)将删除异常点的数据进行软测量建模,得到误差e。比较e与te0判断算法是否有效。(7)判断在迭代次数范围内算法是否达到设定条件,若未达到需返回(1)重新选择p0与t;否则,算法结束。KMDB算法有效地提高了聚类算法的精度及软测量模型的稳定性。
Description
技术领域
本发明——基于KMDB(K-means与DBSCAN聚类算法相结合的算法)的软测量建模数据异常点检测方法,是针对复杂工业过程中建模数据异常点检测的特殊性提出的,本发明属于软测量建模领域。
背景技术
随着人工智能的发展,软测量技术在复杂工业过程中已经得到了广泛的应用。软测量技术的核心是建立工业对象的精确可靠的模型。无论采用何种方法建立软测量模型,都需要一定的建模数据,并且软测量模型的性能在很大程度上依赖于所获建模数据的准确性和有效性。然而,由于各种原因在现场采集的数据中不可避免地有异常点的存在。为了保障软测量模型的测量精度,必须在建立软测量模型之前将真实信号从含异常点的混合信号中分离出来,才能用于软测量建模。这个过程被称为复杂工业过程中异常点检测。长期以来,人们十分关注复杂工业过程中的异常数据,发现异常点并减少异常点对数据分析的影响是一项很有意义的研究。
聚类是数据挖掘中的一种重要技术,是分析数据并从中发现有用信息的一种有效手段。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。其中基于密度的算法由于可以发现任意形状的簇且能够较好地处理噪声数据,受到越来越广泛的关注。DBSCAN(Density-based spatial clustering ofapplications with noise)算法是应用最为广泛的密度聚类算法之一。该算法利用基于密度的聚类概念,即要求聚类空间中的一定区域内所包含对象(点或其它空间对象)的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快,且能够有效处理异常点和发现任意形状的空间聚类。但是,由于它直接对整个数据库进行操作,且进行聚类时使用了一个全局性的表征密度的参数,因此也具有一个比较明显的弱点:当空间聚类的密度不均匀,聚类间距离相差很大时,聚类质量较差。虽然已经有一些改进的DBSCAN算法被提出,但是对于复杂工业过程建模数据异常点检测的特殊性,这些算法都具有一定的不足。
针对上述问题和复杂工业过程中建模数据异常点检测的特殊性,同时考虑到单纯使用聚类思想的不足,本文提出了一种改进的基于K-means算法的DBSCAN聚类分析方法,即KMDB算法。K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。首先,该方法用K-means算法对DBSCAN算法改进,弥补了传统DBSCAN算法的不足。再次,该方法将异常点检测与软测量建模相结合,用建模误差对异常点检测过程进行指导,这样既保证了异常点检测的质量,同时完成了软测量模型的建立。用该方法进行异常点检测时能更有效的检测出异常点。
发明内容
针对上述问题和复杂工业过程中建模数据异常点检测的特殊性,同时考虑到单纯使用聚类思想的不足,本文提出了一种改进的基于K-means算法的DBSCAN聚类分析方法,即KMDB算法。首先,该方法用K-means算法对DBSCAN算法改进,弥补了传统DBSCAN算法的不足。再次,该方法将异常点检测与软测量建模相结合,用建模误差对异常点检测过程进行指导,这样既保证了异常点检测的质量,同时完成了软测量模型的建立。用该方法进行异常点检测时能更有效的检测出异常点。
本发明的基于KMDB的软测量建模数据异常点检测的方法具体步骤如下:
(1)设定异常点比例p0与误差比较系数t。
(2)确定样本数据集,计算用该数据集进行软测量建模的建模测试误差e0。
(3)根据误差使用公式(1)计算K值并对数据集聚类,将数据集划分为K类。
式中:K0=1,为向上取整符号,为向下取整符号,e为相对误差。
(4)调节Eps和MinPts,用DBSCAN算法进行局部聚类,不属于任何簇的点即为异常点。这里MinPts和Eps的初值根据不同的数据集依赖经验设定。
(5)合并各局部聚类结果,判断异常样本占总样本的比例p是否小于设定值p0。
若p<p0,进行下一步;
若p≥p0,依据异常样本占总样本的比例值p,调整MinPts和Eps的大小:
返回步骤(4)。
(6)将删除异常点以后的数据划为正确数据,将正确数据作为建模数据进行软测量建模,得到建模测试误差e。比较e与te0的大小。
若e≤te0,则认为此次异常点检测是有效的,将去除异常点后的数据作为样本数据;
若e>te0,则此次检测为无效,返回步骤(3)。
(7)设定算法迭代次数为5000次,若在迭代次数范围内设定条件未达到,需重新选择p0与t。若在迭代次数范围内能达到设定条件,异常点检测结束。
附图说明
图1KMDB算法流程图
图2KMDB算法的异常点检测结果图
图3使用KMDB算法前后建模测试误差对比图
具体实施方案:
取宝钢300吨LF炉2012年6-11月249炉生产数据进行试验,采用KMDB聚类算法对此249组建模数据进行异常点检测,同时建立软测量模型。
算法开始设定p0取20%,t取0.6。取宝钢数据进行异常点检测,检测结果为异常数据的个数是44个,即检测出的异常点比例为17.67%。图2为KMDB算法的异常点检测结果,其中红色的圆点为检测出的异常点,蓝色的圆点为正确数据样本。结果表明KMDB算法能有效准确的检测出数据样本中的异常点。
对比原数据样本和检测后的数据样本的建模测试误差大小,从图3可知使用该方法后的建模误差有明显减小,有效地验证了KMDB算法异常点检测的有效性和实用性。
Claims (1)
1.一种基于KMDB的软测量建模数据异常点检测方法,其特征在于包含有以下步骤:
(1)设定异常点比例p0与误差比较系数t;
(2)确定样本数据集,计算用该数据集进行软测量建模的建模测试误差e0;
(3)根据误差使用公式(1)计算K值并对数据集聚类,将数据集划分为K类:
式中:K0=1,为向上取整符号,为向下取整符号,e为相对误差,i=0,1,2,....,N,N为迭代次数;
(4)调节Eps和MinPts,用DBSCAN算法进行局部聚类,不属于任何簇的点即为异常点;这里MinPts和Eps的初值根据不同的数据集依赖经验设定;
(5)合并各局部聚类结果,判断异常样本占总样本的比例p是否小于设定值p0:
若p<p0,进行下一步,
若p≥p0,依据异常样本占总样本的比例值p,调整MinPts和Eps的大小:
返回步骤(4),式中j=1,2,....;
(6)将删除异常点以后的数据划为正确数据,将正确数据作为建模数据进行软测量建模,得到建模测试误差e,比较e与te0的大小:
若e≤te0,则认为此次异常点检测是有效的,将去除异常点后的数据作为样本数据,
若e>te0,则此次检测为无效,返回步骤(3);
(7)设定算法迭代次数为5000次,若在迭代次数范围内设定条件未达到,需重新选择p0与t,若在迭代次数范围内能达到设定条件,异常点检测结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510157690.6A CN104715160B (zh) | 2015-04-03 | 2015-04-03 | 基于kmdb的软测量建模数据异常点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510157690.6A CN104715160B (zh) | 2015-04-03 | 2015-04-03 | 基于kmdb的软测量建模数据异常点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104715160A CN104715160A (zh) | 2015-06-17 |
CN104715160B true CN104715160B (zh) | 2017-12-12 |
Family
ID=53414483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510157690.6A Expired - Fee Related CN104715160B (zh) | 2015-04-03 | 2015-04-03 | 基于kmdb的软测量建模数据异常点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104715160B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709503B (zh) * | 2016-11-23 | 2020-07-07 | 广西中烟工业有限责任公司 | 一种基于密度的大型空间数据聚类算法k-dbscan |
CN107977531B (zh) * | 2017-12-20 | 2019-11-22 | 云南电网有限责任公司文山供电局 | 一种基于图像处理和数学模型的接地电阻软测量方法 |
CN109919186A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 异常点比例优化方法、装置、计算机设备及存储介质 |
CN110046419B (zh) * | 2019-04-11 | 2023-04-18 | 天津工业大学 | 一种基于ctma-dl算法的动设备故障类型在线诊断方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050089923A9 (en) * | 2000-01-07 | 2005-04-28 | Levinson Douglas A. | Method and system for planning, performing, and assessing high-throughput screening of multicomponent chemical compositions and solid forms of compounds |
CN103034783A (zh) * | 2012-12-10 | 2013-04-10 | 天津工业大学 | 一种与软测量建模相结合的过失误差侦破 |
CN104462850A (zh) * | 2014-12-25 | 2015-03-25 | 江南大学 | 基于模糊高斯混合模型的多阶段间歇过程软测量方法 |
-
2015
- 2015-04-03 CN CN201510157690.6A patent/CN104715160B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN104715160A (zh) | 2015-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106572493B (zh) | Lte网络中的异常值检测方法及系统 | |
CN104715160B (zh) | 基于kmdb的软测量建模数据异常点检测方法 | |
JP6612196B2 (ja) | 岩盤強度判定装置、岩盤強度判定方法、及び岩盤強度判定プログラム | |
WO2019233189A1 (zh) | 一种传感网络异常数据检测方法 | |
Miao et al. | A semi-automatic method for road centerline extraction from VHR images | |
CN105243388B (zh) | 基于动态时间规整和划分算法的波形分类方法 | |
CN102982534B (zh) | 基于弦线切线法的Canny边缘检测双阈值获取方法 | |
CN106355188A (zh) | 图像检测方法及装置 | |
CN113838054B (zh) | 基于人工智能的机械零件表面损伤检测方法 | |
US9443129B2 (en) | Methods and apparatus for image analysis using threshold compactness features | |
TW201710989A (zh) | 疑似侵權產品圖片的檢測方法及裝置 | |
CN113516228B (zh) | 一种基于深度神经网络的网络异常检测方法 | |
CN107204183A (zh) | 一种音频文件检测方法及装置 | |
CN109521725A (zh) | 检测异常数据的方法、装置和设备以及机器可读介质 | |
CN110288624A (zh) | 一种图像中直线段的检测方法、装置及相关设备 | |
CN114091606A (zh) | 一种隧道爆破炮孔半眼痕识别和损伤平整度评价分类方法 | |
CN112787984B (zh) | 一种基于相关分析的车载网络异常检测方法及系统 | |
CN105631871A (zh) | 基于四元数指数矩的彩色图像复制篡改检测方法 | |
CN108764264A (zh) | 烟雾检测方法、烟雾检测系统及计算机装置 | |
CN106935038A (zh) | 一种停车检测系统及检测方法 | |
CN111079783A (zh) | 一种基于多核集成学习识别地层岩性参数的方法 | |
CN103678709B (zh) | 一种基于时序数据的推荐系统攻击检测方法 | |
CN108376266A (zh) | 基于样本边缘点内部点的单类支持向量机核参数优化方法 | |
CN107422373B (zh) | 一种基于特征漂移的煤矿冲击地压灾害在线预警方法 | |
CN116026487B (zh) | 液面温度测量方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171212 Termination date: 20200403 |