CN106203519A - 基于分类聚类的故障预警算法 - Google Patents

基于分类聚类的故障预警算法 Download PDF

Info

Publication number
CN106203519A
CN106203519A CN201610560638.XA CN201610560638A CN106203519A CN 106203519 A CN106203519 A CN 106203519A CN 201610560638 A CN201610560638 A CN 201610560638A CN 106203519 A CN106203519 A CN 106203519A
Authority
CN
China
Prior art keywords
data
fault
alarming
fault pre
carries out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610560638.XA
Other languages
English (en)
Inventor
刘贵全
叶剑鸣
印金汝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Bi Song Data Technology Co Ltd
Original Assignee
Hefei Bi Song Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Bi Song Data Technology Co Ltd filed Critical Hefei Bi Song Data Technology Co Ltd
Priority to CN201610560638.XA priority Critical patent/CN106203519A/zh
Publication of CN106203519A publication Critical patent/CN106203519A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于分类聚类的故障预警算法,包括以下步骤:S1:监督的异常检测,用分类模型将网站数据训练出有故障数据和无故障数据两类;S2:非监督的异常检测,将故障数据聚为多个数据集,进行故障的分析与检测;S3:半监督的异常检测,用部分的置信度高的标识样本来处理其余为标记样本的信息;S4:不均衡数据集的处理,采用抽样方法将数据集进行均衡化,显著异常数据的特征,完成故障预警。本发明使用分类与聚类的方法进行挖掘,充分考虑了异常点的数据对象内部的联系,试图训练出异常数据的特征模型,引入了不均衡数据的挖掘方法,强化故障数据的特征,以达到较好的分类与聚类的效果,方法简单,效率高。

Description

基于分类聚类的故障预警算法
技术领域
本发明涉及故障预警算法技术领域,尤其涉及一种基于分类聚类的故障预警算法。
背景技术
网站故障数据是面向的网站数据,这些数据包括文本信息(用户提问与反馈信息)、网站的链接信息(场景id)、访问记录(PV,UV等);网站故障的事件数据是相对罕见的,但是这并不表示它们是绝对没有规律的,某个数据对象不同于其他数据对象(即异常),可能是因为它属于一个不同的类型或类;异常往往是源于某种我们考虑到的或者我们没有考虑到的异常源,而数据集中可能有多种异常源,他们底层的原因常常是未知的,故障预警技术对于这些异常源的原因是透明的,致力于发现显著不同于其他对象的对象。
现有的故障预警技术大多是进行异常点检测,但异常点检测不考虑异常点之间的联系,将异常点数据作为离群点或者突变点进行检测,认为密度低的、变化显著的数据对象即为异常对象,这类算法并不需要事先进行统计的数据模型的训练,挖掘的方法相对简单、粗糙,虽然效率较高但是预警效果差强人意。
发明内容
基于背景技术存在的技术问题,本发明提出了基于分类聚类的故障预警算法。
本发明提出的基于分类聚类的故障预警算法,包括以下步骤:
S1:监督的异常检测,用分类模型将网站数据训练出有故障数据和无故障数据两类;
S2:非监督的异常检测,将故障数据聚为多个数据集,进行故障的分析与检测;
S3:半监督的异常检测,用部分的置信度高的标识样本来处理其余为标记样本的信息;
S4:不均衡数据集的处理,采用抽样方法将数据集进行均衡化,显著异常数据的特征,完成故障预警。
优选地,所述S1中,用支持向量机算法得到最优的分类效果。
优选地,所述S2中,用X-Means方法将故障数据聚为多个数据集,进行故障的分析与检测。
优选地,所述S4中,用KRNN数据清理和SMOTE抽样方法进行抽样处理,将数据集进行均衡化,显著异常数据的特征,完成故障预警。
本发明中,所述基于分类聚类的故障预警算法能够不需要事先了解用户数据的统计模型,不需要考虑异常点的建模,数据变化的敏感度高,并且能够指出是哪个属性出现了问题;故障预警覆盖率高,充分考虑了网站业务的逻辑的复杂性与故障数据的模型特征;试图对故障数据进行建模预测;适合用于对文本数据的处理,展示故障原因,提高客户体验;降低预警的误报率,提高准确度,对不均衡数据进行抽样处理,对样本特征优化,进行特征放大,可以更好的获得少数类的挖掘效果,在保证准确度的前提下,提高故障预警的覆盖率,本发明使用分类与聚类的方法进行挖掘,充分考虑了异常点的数据对象内部的联系,试图训练出异常数据的特征模型,引入了不均衡数据的挖掘方法,强化故障数据的特征,以达到较好的分类与聚类的效果,方法简单,效率高。
具体实施方式
下面结合具体实施例对本发明作进一步解说。
实施例
本实施例提出了基于分类聚类的故障预警算法,包括以下步骤:
S1:监督的异常检测,用分类模型将网站数据训练出有故障数据和无故障数据两类;
S2:非监督的异常检测,将故障数据聚为多个数据集,进行故障的分析与检测;
S3:半监督的异常检测,用部分的置信度高的标识样本来处理其余为标记样本的信息;
S4:不均衡数据集的处理,采用抽样方法将数据集进行均衡化,显著异常数据的特征,完成故障预警。
本实施例中,S1中,用支持向量机算法得到最优的分类效果,S2中,用X-Means方法将故障数据聚为多个数据集,进行故障的分析与检测,S4中,用KRNN数据清理和SMOTE抽样方法进行抽样处理,将数据集进行均衡化,显著异常数据的特征,完成故障预警,基于分类聚类的故障预警算法能够不需要事先了解用户数据的统计模型,不需要考虑异常点的建模,数据变化的敏感度高,并且能够指出是哪个属性出现了问题;故障预警覆盖率高,充分考虑了网站业务的逻辑的复杂性与故障数据的模型特征;试图对故障数据进行建模预测;适合用于对文本数据的处理,展示故障原因,提高客户体验;降低预警的误报率,提高准确度,对不均衡数据进行抽样处理,对样本特征优化,进行特征放大,可以更好的获得少数类的挖掘效果,在保证准确度的前提下,提高故障预警的覆盖率,本发明使用分类与聚类的方法进行挖掘,充分考虑了异常点的数据对象内部的联系,试图训练出异常数据的特征模型,引入了不均衡数据的挖掘方法,强化故障数据的特征,以达到较好的分类与聚类的效果,方法简单,效率高。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.基于分类聚类的故障预警算法,其特征在于,包括以下步骤:
S1:监督的异常检测,用分类模型将网站数据训练出有故障数据和无故障数据两类;
S2:非监督的异常检测,将故障数据聚为多个数据集,进行故障的分析与检测;
S3:半监督的异常检测,用部分的置信度高的标识样本来处理其余为标记样本的信息;
S4:不均衡数据集的处理,采用抽样方法将数据集进行均衡化,显著异常数据的特征,完成故障预警。
2.根据权利要求1所述的基于分类聚类的故障预警算法,其特征在于,所述S1中,用支持向量机算法得到最优的分类效果。
3.根据权利要求1所述的基于分类聚类的故障预警算法,其特征在于,所述S2中,用X-Means方法将故障数据聚为多个数据集,进行故障的分析与检测。
4.根据权利要求1所述的基于分类聚类的故障预警算法,其特征在于,所述S4中,用KRNN数据清理和SMOTE抽样方法进行抽样处理,将数据集进行均衡化,显著异常数据的特征,完成故障预警。
CN201610560638.XA 2016-07-17 2016-07-17 基于分类聚类的故障预警算法 Pending CN106203519A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610560638.XA CN106203519A (zh) 2016-07-17 2016-07-17 基于分类聚类的故障预警算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610560638.XA CN106203519A (zh) 2016-07-17 2016-07-17 基于分类聚类的故障预警算法

Publications (1)

Publication Number Publication Date
CN106203519A true CN106203519A (zh) 2016-12-07

Family

ID=57475715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610560638.XA Pending CN106203519A (zh) 2016-07-17 2016-07-17 基于分类聚类的故障预警算法

Country Status (1)

Country Link
CN (1) CN106203519A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341239A (zh) * 2017-07-05 2017-11-10 广东工业大学 一种集群数据分析方法及装置
CN107423156A (zh) * 2017-07-29 2017-12-01 合肥千奴信息科技有限公司 基于分类聚类的故障预警算法
CN107918379A (zh) * 2017-11-29 2018-04-17 东北大学 基于图半监督代价敏感的工业大数据早期故障检测方法
CN108228687A (zh) * 2017-06-20 2018-06-29 上海吉贝克信息技术有限公司 大数据知识挖掘及精准跟踪方法与系统
CN111183402A (zh) * 2017-10-25 2020-05-19 株式会社日立制作所 发电厂的运转辅助装置和运转辅助方法
CN111275198A (zh) * 2020-01-16 2020-06-12 北京理工大学 一种轴承异常检测方法及系统
CN111638427A (zh) * 2020-06-03 2020-09-08 西南交通大学 一种基于核胶囊神经元覆盖的变压器故障检测方法
CN113138875A (zh) * 2021-04-22 2021-07-20 深圳感臻科技有限公司 一种故障检测方法、终端以及计算机存储介质
US12008022B2 (en) 2020-01-30 2024-06-11 SCREEN Holdings Co., Ltd. Data processing method, data processing device, and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399672A (zh) * 2008-10-17 2009-04-01 章毅 一种多神经网络融合的入侵检测方法
CN101980480A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 半监督异常入侵检测方法
CN105373606A (zh) * 2015-11-11 2016-03-02 重庆邮电大学 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399672A (zh) * 2008-10-17 2009-04-01 章毅 一种多神经网络融合的入侵检测方法
CN101980480A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 半监督异常入侵检测方法
CN105373606A (zh) * 2015-11-11 2016-03-02 重庆邮电大学 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HYEONG-IL KIM ET AL.: "k-Nearest Neighbor Query Processing Algorithms for a Query Region in Road Networks", 《JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY》 *
孟博: "基于半监督学习的入侵检测研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
肖进: "《面向数据特点的客户价值区分集成模型研究》", 31 May 2012, 四川大学出版社 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228687A (zh) * 2017-06-20 2018-06-29 上海吉贝克信息技术有限公司 大数据知识挖掘及精准跟踪方法与系统
CN107341239B (zh) * 2017-07-05 2020-08-07 广东工业大学 一种集群数据分析方法及装置
CN107341239A (zh) * 2017-07-05 2017-11-10 广东工业大学 一种集群数据分析方法及装置
CN107423156A (zh) * 2017-07-29 2017-12-01 合肥千奴信息科技有限公司 基于分类聚类的故障预警算法
CN111183402A (zh) * 2017-10-25 2020-05-19 株式会社日立制作所 发电厂的运转辅助装置和运转辅助方法
CN107918379A (zh) * 2017-11-29 2018-04-17 东北大学 基于图半监督代价敏感的工业大数据早期故障检测方法
CN107918379B (zh) * 2017-11-29 2020-03-31 东北大学 基于图半监督代价敏感的工业大数据早期故障检测方法
CN111275198A (zh) * 2020-01-16 2020-06-12 北京理工大学 一种轴承异常检测方法及系统
CN111275198B (zh) * 2020-01-16 2023-10-24 北京理工大学 一种轴承异常检测方法及系统
US12008022B2 (en) 2020-01-30 2024-06-11 SCREEN Holdings Co., Ltd. Data processing method, data processing device, and storage medium
CN111638427A (zh) * 2020-06-03 2020-09-08 西南交通大学 一种基于核胶囊神经元覆盖的变压器故障检测方法
CN111638427B (zh) * 2020-06-03 2021-05-28 西南交通大学 一种基于核胶囊神经元覆盖的变压器故障检测方法
CN113138875A (zh) * 2021-04-22 2021-07-20 深圳感臻科技有限公司 一种故障检测方法、终端以及计算机存储介质

Similar Documents

Publication Publication Date Title
CN106203519A (zh) 基于分类聚类的故障预警算法
CN105279365B (zh) 用于学习异常检测的样本的方法
CN106296435B (zh) 一种矿井瓦斯监测异常数据识别方法
CN110958136A (zh) 一种基于深度学习的日志分析预警方法
CN108809745A (zh) 一种用户异常行为检测方法、装置及系统
Vodenčarević et al. Identifying behavior models for process plants
CN107438052A (zh) 一种面向未知工业通信协议规约的异常行为检测方法
CN106888205A (zh) 一种非侵入式基于功耗分析的plc异常检测方法
CN104994056B (zh) 一种电力信息网络中流量识别模型的动态更新方法
Wang et al. A data similarity based analysis to consequential alarms of industrial processes
CN107423156A (zh) 基于分类聚类的故障预警算法
CA2931624A1 (en) Systems and methods for event detection and diagnosis
CN114201374B (zh) 基于混合机器学习的运维时序数据异常检测方法及系统
CN113011763B (zh) 一种基于时空图卷积注意力的桥梁损伤识别方法
CN107016298B (zh) 一种网页篡改监测方法及装置
CN111949480A (zh) 一种基于组件感知的日志异常检测方法
CN104318435A (zh) 电子交易过程用户行为模式检测的免疫方法
CN116708038B (zh) 基于资产测绘的工业互联网企业网络安全威胁识别方法
Wagh et al. Effective intrusion detection system using semi-supervised learning
CN108266219A (zh) 基于风量特征的矿井通风系统阻变型单故障源诊断方法
US20200183805A1 (en) Log analysis method, system, and program
CN106330535A (zh) 一种车地通信数据处理方法及装置
CN104618175A (zh) 网络异常检测方法
CN113899987A (zh) 基于深度金字塔卷积神经网络的电网故障诊断方法
CN106230613A (zh) 一种基于异类挖掘的故障预警算法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication