CN104516808B - 数据预处理装置及方法 - Google Patents

数据预处理装置及方法 Download PDF

Info

Publication number
CN104516808B
CN104516808B CN201410521651.5A CN201410521651A CN104516808B CN 104516808 B CN104516808 B CN 104516808B CN 201410521651 A CN201410521651 A CN 201410521651A CN 104516808 B CN104516808 B CN 104516808B
Authority
CN
China
Prior art keywords
data
objective system
unit
collection cycle
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410521651.5A
Other languages
English (en)
Other versions
CN104516808A (zh
Inventor
南宫荣桓
李在英
郑雅英
金达云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung SDS Co Ltd
Original Assignee
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung SDS Co Ltd filed Critical Samsung SDS Co Ltd
Publication of CN104516808A publication Critical patent/CN104516808A/zh
Application granted granted Critical
Publication of CN104516808B publication Critical patent/CN104516808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)

Abstract

本发明公开了一种数据预处理装置及方法。根据本发明的一个实施例的数据预处理装置,包括:风险度分析单元,利用对象系统的故障历史信息及所述对象系统的特性信息来计算所述对象系统的故障风险度;采集周期设定单元,根据计算出的所述故障风险度,确定从所述对象系统采集数据的数据采集周期;预处理单元,根据所述数据采集周期,对从所述对象系统采集的数据执行预处理。

Description

数据预处理装置及方法
技术领域
本发明的实施例涉及一种数据预处理装置及方法。
背景技术
近年来,随着企业或公共机关的业务的电子化,构筑专门的数据中心的事例越来越多。对于数据中心而言,一般被构成为包括用于分别执行所分配的工作的多个服务器及用于监控各个服务器及检测故障的专门的监控设备。
由于包括在数据中心的服务器与其他驱动服务器一起被驱动的情况多于各自独立地被驱动,因此即便仅一部分网络服务器出现障碍,稍有不慎也会影响整体业务。因此,迅速检测出各个服务器的故障而应对,在运营数据中心时非常重要。但是构成数据中心的各个服务器的设备构成部件(中央处理器、存储器、磁盘、文件系统等)、各个构成部件的测定周期、采集的数据的种类等非常多样。因此,为了对在各自不同的服务器中采集的数据进行准确分析,针对所采集的原始数据的预处理工作是必需的。
【现有技术文献】
【专利文献】
第2012-0179658号美国公开专利公报(2012.07.12.)
第2010-0257145号美国公开专利公报(2010.10.07.)
发明内容
本发明的实施例旨在提供一种针对从由多种规格(specification)构成的服务器获得的数据的有效的预处理手段。
根据本发明的一方面,提供了一种数据预处理装置,包括:风险度分析单元,利用对象系统的故障历史信息及所述对象系统的特性信息来计算所述对象系统的故障风险度;采集周期设定单元,根据计算出的所述故障风险度,确定从所述对象系统采集数据的数据采集周期;预处理单元,根据所述数据采集周期,对从所述对象系统采集的数据执行预处理。
所述风险度分析单元可基于所述故障历史信息来生成包括回归分析模型、机器学习模型或者基于规则的模型中的一种以上的风险度分析模型,并将所述对象系统的特性信息或者所述对象系统的状态信息应用到生成的所述风险度分析模型而计算出所述对象系统的故障风险度。
所述采集周期设定单元可以以计算出的所述故障风险度越高所述数据采集周期就越短的方式确定从所述对象系统采集数据的数据采集周期。
所述采集周期设定单元可利用计算出的所述故障风险度及已设定的系统负载时间段信息来确定从所述对象系统采集数据的数据采集周期。
所述采集周期设定单元可将所述系统负载时间段内的数据采集周期设定为短于除所述系统负载时间段外的数据采集周期。
所述数据预处理装置还可包括:计算区间设定单元,根据所述对象系统的状态来设定用于所述预处理单元的数据预处理的计算区间(time window)。
所述计算区间设定单元可将所述计算区间设定为,所述对象系统的中央处理器使用率或者辅助存储装置使用率越高,所述计算区间就越短。
所述对象系统的特性信息可包括:所述对象系统的硬件规格(specification)、操作系统(Operation System)信息、系统设定信息及正在执行的软件信息中的一种以上。
所述数据的预处理可包括:从所述对象系统采集的数据的归一化(normalization)、插值(interpolation)、填补(imputation)、主成分分析(principalcomponent analysis)或者统计分析中的一种以上。
所述对象的系统状态信息可包括:所述对象系统的中央处理器(CPU)使用率或者辅助存储装置使用率中的一种以上。
此外,根据本发明的另一方面,提供了一种数据预处理方法,包括如下步骤:在风险度分析单元中,利用对象系统的故障历史信息及所述对象系统的特性信息来计算所述对象系统的故障风险度;在采集周期设定单元中,根据计算出的所述故障风险度,确定从所述对象系统采集数据的数据采集周期;在预处理单元中,根据所述数据采集周期,对从所述对象系统采集的数据执行预处理。
分析所述风险度的步骤还可包括如下步骤:可基于所述故障历史信息来生成包括回归分析模型、机器学习模型或者基于规则的模型中的一种以上的风险度分析模型;将所述对象系统的特性信息或者所述对象系统的状态信息应用到生成的所述风险度分析模型而计算出所述对象系统的故障风险度。
在确定所述数据采集周期的步骤中,可以以计算出的所述故障风险度越高所述数据采集周期就越短的方式确定从所述对象系统采集数据的数据采集周期。
确定所述数据采集周期的步骤可被构成为,利用计算出的所述故障风险度及已设定的系统负载时间段信息来确定从所述对象系统采集数据的数据采集周期。
确定所述数据采集周期的步骤可被构成为,将所述系统负载时间段内的数据采集周期设定为短于除所述系统负载时间段外的数据采集周期。
所述数据预处理方法还可包括如下步骤:在所述执行预处理的步骤之前,在计算区间设定单元中,根据所述对象系统的状态来设定用于所述预处理单元的数据预处理的计算区间(time window)。
设定所述计算区间的步骤可被构成为,所述对象系统的中央处理器使用率或者辅助存储装置使用率越高,所述计算区间就越短。
所述对象系统的特性信息可包括:所述对象系统的硬件规格(specification)、操作系统(Operation System)信息、系统设定信息及正在执行的软件信息中的一种以上。
所述数据的预处理可包括:从所述对象系统采集的数据的归一化(normalization)、插值(interpolation)、填补(imputation)、主成分分析(principalcomponent analysis)或者统计分析中的一种以上。
所述对象的系统状态信息可包括:所述对象系统的中央处理器(CPU)使用率或者辅助存储装置使用率中的一种以上。
根据本发明的实施例,可使得根据多种采集周期从彼此不同种类的服务器采集的多种形态的数据变换为具有统一性及一致性的信息。
此外,根据本发明的实施例,基于各个服务器的特性及状态、已设定的混杂时间段信息等动态地改变各个服务器的数据采集周期,从而可在减轻各个服务器的负荷(load)的同时,维持采集到的数据的容量也能够最佳状态。
而且,根据本发明的实施例,考虑各个服务器的当前状态来适应性地调整用于预处理的计算区间(time window),从而可有效地掌握各个服务器的状态变化及异常与否。
附图说明
图1是用于说明根据本发明的一个实施例的数据采集系统100的框图。
图2是用于说明根据本发明的一个实施例的数据预处理装置104的详细构成的框图。
图3是用于说明根据本发明的一个实施例的计算区间设定单元208中的计算区间的改变所带来的效果的曲线图。
图4是用于说明根据本发明的一个实施例的数据预处理方法400的流程图。
符号说明:
100:数据采集系统
102;服务器
104;数据预处理装置
202:风险度分析单元
204:采集周期设定单元
206;预处理单元
208:计算区间设定单元
具体实施方式
以下,将参照附图对本发明的具体实施方式进行描述。然而,这只不过是示例,并且本发明不限于此。
在对本发明进行描述时,在对与本发明相关的公知技术的具体描述被认为是会使本发明的主旨不清楚的情况下,省略其详细描述。并且,后述的术语作为考虑本发明中的功能而定义的术语,可根据使用者、运用者的意图或者惯例等而不同。因此,其定义应基于贯穿整个本说明书的内容而做出。
本发明的技术构思由权利要求书确定,并且以下的实施例只是用于高效地将本发明的技术思想解释给本发明所属的技术领域中具有普通的知识的技术人员的一种方式而已。
图1是用于说明根据本发明的一个实施例的数据采集系统100的框图。根据本发明的一个实施例的数据采集系统100是指如下的一种系统:从一个以上的服务器采集能够掌握各个服务器的性能或当前状态的数据,并基于采集的数据来监控各个服务器的状态。如图所示,本发明的一个实施例的数据采集系统100包括一个以上的服务器102及数据预处理装置104。
服务器102是具备中央处理器(CPU)及辅助存储装置(存储器)等的计算机系统,例如可以是包含于企业等的数据中心的一群计算机装置。只是,在本发明的实施例中,服务器102的种类没有特别的限制,并且可包括具有与通用计算机相同或相似的构造且执行被分配的工作的所有种类的计算机装置。
数据预处理装置104从一个以上的服务器102周期性地采集数据。数据预处理装置104从服务器102采集的信息可包括通常为了掌握计算机装置的状态而能够从相关计算机装置采集到的所有种类的信息,例如,中央处理器使用率、中央处理器运行队列(runqueue)、存储器使用率、系统温度等。
此外,数据预处理装置104可对采集的数据执行预处理(preprocessing)以对采集的数据进行分析。通常,构成数据中心等的各个服务器102具有多种硬件构成(例如,中央处理器、存储器、磁盘、文件系统)。此外,可按硬件分别进行测量的项目也非常多样且被细分,并且其测量方式在很多情况下也不同。例如,仅以中央处理器为例,会根据中央处理器使用率、待机时间、运行队列(run queue)等多种属性来采集性能测量数据。从而,在直接利用采集的数据的情况下,无法准确比较具有彼此不同的硬件的服务器的状态,因此数据预处理装置104转换所采集的数据,以通过对采集的数据的适当的预处理过程来在相同的标准下对各个数据进行比较。与数据的预处理过程相关的详细说明将后续阐述。以下,为了与预处理的数据进行区分,将从服务器102采集的数据(即,预处理前的数据)称为“原始数据(RawData)”。
图2是用于说明根据本发明的一个实施例的数据预处理装置104的详细构成的框图。如图所示,根据本发明的一个实施例的数据预处理装置104包括风险度分析单元202、采集周期设定单元204及预处理单元206,根据需要还可包括计算区间设定单元208。
风险度分析单元202利用一个以上的服务器102中的每个的故障历史信息及各个服务器102的特性信息来计算各个服务器102的故障风险度。首先,风险度分析单元202基于从各个服务器102采集的已往的故障历史信息来生成每个服务器102的风险度分析模型。在本发明的实施例中,服务器的故障风险度是指将在相关服务器中实际发生故障的可能性数值化的值。为了分析所述故障风险度,虽然可利用回归分析模型、机器学习模型或者基于规则的模型等多种分析方法,但是本发明的实施例不限于特定的分析模型或方法,并且可利用包括本领域公知的方法的多种分析模型来计算出每个服务器的故障危险度。
在一个实施例中,风险度分析单元202可由多个规则(rule)构成所述风险度分析模块。例如,风险度分析单元202可生成对于将特定硬件规格或特定服务器状态作为条件时的风险度进行定义的多个规则,并且可根据相关规则来计算出各个服务器102的风险度。除此之外,风险度分析单元202可被构成为利用考虑服务器102的特性及被分配的工作的特性等的多种风险度分析模型及标准来计算出各个服务器102的故障风险度。
若如上所述地生成风险度分析模型,则风险度分析单元202可将相关服务器102的系统特性信息或当前状态信息应用到所生成的所述风险度分析模型来计算出服务器102的故障风险度。此时,系统特性信息可以是硬件规格(specification)、操作系统(OperationSystem)信息、系统设定信息及正在运行的软件信息等。例如,根据所述风险度分析,对于具有特定硬件的服务器102,可以导出所述特定硬件的温度和相关服务器102的故障发生之间的相关关系密切的结果。在此情况下,风险度分析单元202可基于测量的温度信息从所述特定硬件计算出相关服务器102的故障风险度。
采集周期设定单元204根据在风险度分析单元202中计算出的所述故障风险度来确定各个服务器102的数据采集周期。在一个实施例中,采集周期设定单元204可以以计算出的所述故障风险度越高所述数据采集周期就越短的方式确定数据采集周期。其理由在于,感测到系统异常征兆时,只有时时刻刻迅速掌握变化的情况,才有可能进行完备的事前应对。
此外,除故障风险度以外,采集周期设定单元204还可利用已设定的系统负载时间段来确定各个服务器102的数据采集周期。例如,风险度分析单元202可通过时间序列分析方法等来对已往采集的数据进行分析以掌握各个服务器102的系统负载高的时间段。据此,采集周期设定单元204可通过在处于各个服务器102的系统负载高的时间段的情况下,将数据采集周期设定为相对较短,从而以更短的周期采集各个服务器102的状态。即,在本发明的实施例中采集周期设定单元204可考虑各个服务器102的故障风险度及各个服务器102的负载时间段信息中的一种以上的信息来确定各个服务器102的数据采集周期。此外,采集周期设定单元204在各个服务器102的故障风险度已改变或要改变的情况下,可通过反映该情况来适应性地改变已设定的数据采集周期。
预处理单元206根据在采集周期设定单元204中确定的数据采集周期对从各个服务器102采集的数据执行预处理。在本发明的实施例中,对从各个服务器102采集的原始数据进行的预处理可包括:从所述原始数据的归一化(normalization)、插值(interpolation)、填补(imputation)、主成分分析(principal component analysis)或者统计分析中的一种以上。
在一个实施例中,预处理单元206可对从各个服务器102采集的原始数据执行一种归一化。为了利用从各个服务器102采集的数据来事先感测各个服务器102的异常征兆,需要进行所采集的数据之间的相互关联性分析。然而,所采集的多种数据根据各个测量项目,基于单位及数值的范围等都不相同。因此,预处理单元206基于按各个数据项目的最大值/最小值获知数据的范围(range)之后,基于此范围对数据进行归一化(Normalization),使得各个数据在同一个标准下被分析。
此外,在执行预处理操作时,预处理单元206可在对采集的各个数据进行预处理之前留有延迟时间(例如,大致1分钟)。这是因为,虽然为了对采集的各个数据进行准确的分析,需要在同一时间内进行所采集的数据之间的比较,但是一部分数据因网络延迟等而有可能导致发送推迟。
在预处理单元206中执行的预处理可包括例如如下过程。
1.数据清理(cleaning)及转换(transformation)
-缺失值(missing value)代替:忽视相关元组、基于规则(Rule)的测量值计算、借助专家进行的处理
-修匀(smoothing):将脱离整体趋势的数据变换为符合趋势以消除噪声数据
-归一化(normalization):作为对数据赋予整体的统一性的过程,包括最大/最小(min/max)归一化、Z值(z-score)、十进制(decimal scaling)等
-聚合(aggregation):归纳数据并生成多维数据集(cube)(主要用于数据仓库(data warehouse))
-异常值确认及去除(outlier detection and removal):从数据集分类及去除呈现出与大部分的其他数据不同的特征的数据
-主要方法:聚类、统计测量方法(例:Grubb’s test)等
2.数据集成(integration)及不一致性的解决
-多种日志文件(log file)/数据库的整合、转换为具有一致性的数据形态
-主要问题及解决方法
1)重复性问题:是指相同内容的数据以不同的名称被存储的状态,通过关联关系分析等检测重复性数据
2)一致性问题:是指能够通过计算/统计获得的值为错误的情况,通过专门的计算来验证已计算出的值
3)表现上的相异性问题:因计量/计测单位不同引起的缺乏数据统一性的情况,通过表现的一致化过程来解决
4)通过数据之间的相关性分析的问题的发现及解决:分析结果值越是接近0,越是判断为彼此无关
3.数据缩小(reduction)或表现特征提取
-获得即便少量也很好地代表全体数据集合的数据的过程
-为了提高大规模数据的分析操作时的效率,是必要的
-次元缩小方法:通过消除重复属性、与分析无关的属性来寻找最小集合的过程(stepwise forward selection,stepwise backward elimination)
-数据编码,通过转换来减小存储大小;利用损失或无损失压缩方法
-离散小波变换(DWT:discrete wavelet transformation):作为线性信号处理技术,将采集数据变换为个数不同而长度却相同的矢量(小波系数(wa velet coefficient))之后,从多个矢量中选择最有影响力的矢量来消除其他的矢量
-主成分分析(PCA:Principal Component Analysis):选择并组合最能表现数据的直角坐标系上的数据矢量,通过寻找其他的小集合的方法进行压缩。计算的过程简单且也可处理没有被排列的属性,并且可处理稀疏的数据或者统一的数据
-通常PAC对稀疏的数据处理有用,DWT对高次数据处理有用
接下来,计算区间设定单元208设定用于执行从各个服务器102采集的数据的预处理的计算区间(time window)。在本发明的实施例中,计算区域是指用于数据的预处理的原始数据的区间。例如,假设预处理单元206执行计算特定数据的平均值的预处理。在这种情况下,如果设定的计算区间为1分钟,则利用从计算时间点起到1分钟之前的数据来计算平均值,如果设定的计算区间为5分钟,则利用从计算时间点起到5分钟之前的数据来计算平均值。
在本发明的实施例中,计算区间设定单元208可根据各个服务器102的当前状态来弹性地设定用于所述预处理的计算区间。例如,在各个服务器102的中央处理器(CPU)使用率或者辅助存储装置(例如,存储器)的使用率中的任意一个增加到标准值以上时,计算区间设定单元208判断为系统故障风险度升高,从而可将所述计算区间设定为短。此外,计算区间设定单元208可基于在风险度分析单元202中计算的每个服务器102的故障风险度来掌握各个服务器102的当前状态,并据此适应性地变更所述计算区间。这样,在计算区间变短的情况下,由于与原始数据的采集周期相比能够更加密集地生成预处理结果,因此带来弥补因相对长的采集周期而导致的信息丢失的效果。与此相反,在服务器102的闲置状态持续的情况下,换句话说在CPU或存储器使用率为特征值以下的情况下,计算区间设定单元208可将计算区间设定为长,在此情况下,整体的预处理计算结果与原始日志数据(log data)相比,表现为相对精简的结果(比起散漫性更具有一般性)。
图3是用于说明根据本发明的一个实施例的计算区间设定单元208中的计算区间的改变所带来的效果的曲线图。在图示的实施例中,示出了利用线性插值法(linearinterpolation)来对原始数据进行插值的示例。线性插值法时指当在直角坐标系上存在任意两点时用直线连接该两点的方法。在图示的示例中,折线表示实际数据,波浪线表示在计算区间窄时被插值的数据,直线表示在计算区间宽时被插值的数据。如图所示,可得知计算区间窄的情况与计算区间宽的情况相比,与实际数据的相似度更高。
此外,根据本发明的一个实施例的数据预处理装置104还可包括数据库(未示出)。所述数据库不仅恶意存储及管理预处理单元206中执行的原始数据的预处理结果,同时还可以对各个服务器102的数据采集周期、计算区间、已往故障历史、各个服务器102的硬件规格等的信息进行存储及管理。存储的信息将来可作为用于每个服务器102的风险度分析、采集周期设定及计算区间设定的参考资料来使用。
图4是用于说明根据本发明的一个实施例的数据预处理方法400的流程图。在所示的流程图中,虽然示出为各个步骤具有时间上的先后关系,但是这只是示例性的,应留意至少一部分的步骤可与前后的步骤同时被执行或在还可改变顺序而执行。
在步骤402中,风险度分析单元202利用各个服务器102的故障历史信息及各个服务器102的特性信息来计算各个服务器102的故障风险度。此时,在步骤402中,还可包括如下步骤:基于故障历史信息来生成包括回归分析模型、机器学习模型或者基于规则的模型中的一种以上的风险度分析模型;将各个服务器102的特性信息或者状态信息应用到生成的风险度分析模型而计算出各个服务器102的故障风险度。各个服务器102的特性信息可包括:各个服务器102的硬件规格(specification)、操作系统(Operation System)信息、系统设定信息及正在执行的软件信息中的一种以上。
在步骤404中,采集周期设定单元204根据计算出的故障风险度来确定各个服务器102的数据采集周期。在一个实施例中,所述步骤404中可以以在所述步骤402中计算出的所述故障风险度越高所述数据采集周期就越短的方式来确定从各个服务器102采集数据的数据采集周期。
此外,所述步骤404可被构成为,利用计算出的所述故障风险度及已设定的系统负载时间段信息来确定从各个服务器102采集数据的数据采集周期,在此情况下,可将系统负载时间段内的数据采集周期设定为短于除所述系统负载时间段外的数据采集周期。
在步骤406中,预处理单元206根据在所述步骤404中确定的数据采集周期来执行对从各个服务器102采集的数据的预处理。所述数据预处理过程的详细组成如前所述。
此外,在执行所述步骤406之前,可添加如下步骤:在计算区间设定单元208中,根据各个服务器102的状态来设定用于预处理单元206的数据预处理的计算区间(timewindow)。所述状态信息可包括:各个服务器102的中央处理器(CPU)使用率或者辅助存储装置使用率中的一种以上。此外,在此情况下,计算区间设定单元208可以将各个服务器102的计算区间设定为,各个服务器102的中央处理器使用率或者辅助存储装置使用率越高,与相关服务器102对应的计算区间就越短。
此外,本发明的实施例可包括记录有用于在计算机上执行本说明书中记载的方法的程序的计算机可读记录介质。所述计算机可读记录介质可单独地包括程序命令、本地数据文件、本地数据结构等,或者包括它们的组合。所述介质可以是为本发明而专门设计并构成的介质,或者可以是计算机软件领域的普通技术人员所公知而可以使用的介质。所述计算机可读记录介质的示例包括为了存储并执行程序命令而专门构成的硬件装置:诸如硬盘、软盘及磁带的磁介质、诸如CD-ROM、DVD的光记录介质、诸如软盘的磁光介质及ROM、RAM、闪存等。程序命令的示例可包括:由编译器编写的机器语言代码以及使用解释器等而由计算机来执行的高级语言代码。
虽然已通过代表性实施例对本发明进行了详细描述,但本发明所属的技术领域中具有公知常识的技术人员应该理解在不脱离本发明的范围的情况下可以对上述实施例进行各种变形。
因此,本发明的权利范围不应局限于所描述的实施例而确定,而是应当由权利要求书及其等同物来确定。

Claims (20)

1.一种数据预处理装置,包括:
风险度分析单元,利用对象系统的故障历史信息及所述对象系统的特性信息来计算所述对象系统的故障风险度;
采集周期设定单元,根据计算出的所述故障风险度,确定从所述对象系统采集数据的数据采集周期;
预处理单元,根据所述数据采集周期,对从所述对象系统采集的数据执行预处理,
其中,所述故障风险度指示在所述对象系统实际发生故障的可能性的数值化的值。
2.根据权利要求1所述的数据预处理装置,其中,
所述风险度分析单元基于所述故障历史信息来生成包括回归分析模型、机器学习模型或者基于规则的模型中的一种以上的风险度分析模型,
将所述对象系统的特性信息或者所述对象系统的状态信息应用到所生成的所述风险度分析模型而计算出所述对象系统的故障风险度。
3.根据权利要求1所述的数据预处理装置,其中,
所述采集周期设定单元以计算出的所述故障风险度越高所述数据采集周期就越短的方式确定从所述对象系统采集数据的数据采集周期。
4.根据权利要求1所述的数据预处理装置,其中,
所述采集周期设定单元利用计算出的所述故障风险度及已设定的系统负载时间段信息来确定从所述对象系统采集数据的数据采集周期。
5.根据权利要求4所述的数据预处理装置,其中,
所述采集周期设定单元将所述系统负载时间段内的数据采集周期设定为短于除所述系统负载时间段外的数据采集周期。
6.根据权利要求1所述的数据预处理装置,还包括:
计算区间设定单元,根据所述对象系统的状态来设定用于所述预处理单元的数据预处理的计算区间。
7.根据权利要求6所述的数据预处理装置,其中,
所述计算区间设定单元将所述计算区间设定为所述对象系统的中央处理器使用率或者辅助存储装置使用率越高,所述计算区间就越短。
8.根据权利要求2所述的数据预处理装置,其中,
所述对象系统的特性信息包括:所述对象系统的硬件规格、操作系统信息、系统设定信息及正在执行的软件信息中的一种以上。
9.根据权利要求1所述的数据预处理装置,其中,
所述数据的预处理包括:从所述对象系统采集的数据的归一化、插值、填补、主成分分析或者统计分析中的一种以上。
10.根据权利要求2所述的数据预处理装置,其中,
所述对象系统的状态信息包括:所述对象系统的中央处理器使用率或者辅助存储装置使用率中的一种以上。
11.一种数据预处理方法,包括如下步骤:
在风险度分析单元中,利用对象系统的故障历史信息及所述对象系统的特性信息来计算所述对象系统的故障风险度;
在采集周期设定单元中,根据计算出的所述故障风险度,确定从所述对象系统采集数据的数据采集周期;
在预处理单元中,根据所述数据采集周期,对从所述对象系统采集的数据执行预处理,
其中,所述故障风险度指示在所述对象系统实际发生故障的可能性的数值化的值。
12.根据权利要求11所述的数据预处理方法,其中,
分析所述风险度的步骤还包括如下步骤:
基于所述故障历史信息来生成包括回归分析模型、机器学习模型或者基于规则的模型中的一种以上的风险度分析模型;
将所述对象系统的特性信息或者所述对象系统的状态信息应用到生成的所述风险度分析模型而计算出所述对象系统的故障风险度。
13.根据权利要求11所述的数据预处理方法,其中,
在确定所述数据采集周期的步骤中,以计算出的所述故障风险度越高所述数据采集周期就越短的方式确定从所述对象系统采集数据的数据采集周期。
14.根据权利要求11所述的数据预处理方法,其中,
确定所述数据采集周期的步骤被构成为,利用计算出的所述故障风险度及已设定的系统负载时间段信息来确定从所述对象系统采集数据的数据采集周期。
15.根据权利要求14所述的数据预处理方法,其中,
确定所述数据采集周期的步骤被构成为,将所述系统负载时间段内的数据采集周期设定为短于除所述系统负载时间段外的数据采集周期。
16.根据权利要求11所述的数据预处理方法,还包括如下步骤:
所述执行预处理的步骤之前,在计算区间设定单元中,根据所述对象系统的状态来设定用于所述预处理单元的数据预处理的计算区间。
17.根据权利要求16所述的数据预处理方法,其中,
设定所述计算区间的步骤被构成为,所述对象系统的中央处理器使用率或者辅助存储装置使用率越高,所述计算区间就越短。
18.根据权利要求12所述的数据预处理方法,其中,
所述对象系统的特性信息包括:所述对象系统的硬件规格、操作系统信息、系统设定信息及正在执行的软件信息中的一种以上。
19.根据权利要求11所述的数据预处理方法,其中,
所述数据的预处理包括:从所述对象系统采集的数据的归一化、插值、填补、主成分分析或者统计分析中的一种以上。
20.根据权利要求12所述的数据预处理方法,其中,
所述对象系统的状态信息包括:所述对象系统的中央处理器使用率或者辅助存储装置使用率中的一种以上。
CN201410521651.5A 2013-10-01 2014-09-30 数据预处理装置及方法 Active CN104516808B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0117263 2013-10-01
KR1020130117263A KR102117637B1 (ko) 2013-10-01 2013-10-01 데이터 전처리 장치 및 방법

Publications (2)

Publication Number Publication Date
CN104516808A CN104516808A (zh) 2015-04-15
CN104516808B true CN104516808B (zh) 2018-01-12

Family

ID=52741388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410521651.5A Active CN104516808B (zh) 2013-10-01 2014-09-30 数据预处理装置及方法

Country Status (3)

Country Link
US (1) US9588832B2 (zh)
KR (1) KR102117637B1 (zh)
CN (1) CN104516808B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9612897B1 (en) * 2014-12-12 2017-04-04 State Farm Mutual Automobile Insurance Company Method and system for detecting system outages using application event logs
US9407656B1 (en) * 2015-01-09 2016-08-02 International Business Machines Corporation Determining a risk level for server health check processing
JP5875726B1 (ja) * 2015-06-22 2016-03-02 株式会社日立パワーソリューションズ 異常予兆診断装置のプリプロセッサ及びその処理方法
CN106952106A (zh) * 2016-01-06 2017-07-14 阿里巴巴集团控股有限公司 一种数据的监控方法及装置
KR102561702B1 (ko) * 2016-03-17 2023-08-01 한국전자통신연구원 시스템 장애 모니터링 방법 및 장치
CN106292611B (zh) * 2016-10-10 2018-10-30 南京新立讯科技股份有限公司 一种基于云计算的智慧农业控制系统
CN107341202B (zh) * 2017-06-21 2018-06-08 平安科技(深圳)有限公司 业务数据表修正危险度的评估方法、装置及存储介质
US10904282B2 (en) * 2017-08-08 2021-01-26 American International Group, Inc. System and method for assessing cybersecurity risk of computer network
CN107993696B (zh) * 2017-12-25 2020-11-17 东软集团股份有限公司 一种数据采集方法、装置、客户端及系统
KR102009454B1 (ko) * 2017-12-26 2019-08-09 경희대학교 산학협력단 분산 클라우드 환경에서 실시간 데이터 처리의 지연 시간 최소화를 위한 지능적 데이터 전처리 시스템 및 방법
KR101856543B1 (ko) * 2018-02-26 2018-05-11 주식회사 리앙커뮤니케이션즈 인공지능 기반의 장애 예측 시스템
KR102593981B1 (ko) 2022-11-10 2023-10-25 주식회사 이노와이어리스 네트워크 로그 데이터의 결측치 처리 및 이를 통한 통신 결함 근원 분류 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281486A (zh) * 2007-04-04 2008-10-08 英业达股份有限公司 系统环境的监控方法
US7975175B2 (en) * 2008-07-09 2011-07-05 Oracle America, Inc. Risk indices for enhanced throughput in computing systems
CN102262579A (zh) * 2011-08-05 2011-11-30 浪潮(北京)电子信息产业有限公司 一种计算机监控方法及系统
CN102929773A (zh) * 2012-11-07 2013-02-13 曙光云计算技术有限公司 信息采集方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4446899B2 (ja) * 2005-01-21 2010-04-07 富士通株式会社 端末情報収集システム、端末情報収集方法、中央装置及びコンピュータプログラム
US7502971B2 (en) * 2005-10-12 2009-03-10 Hewlett-Packard Development Company, L.P. Determining a recurrent problem of a computer resource using signatures
US7484132B2 (en) * 2005-10-28 2009-01-27 International Business Machines Corporation Clustering process for software server failure prediction
KR100840129B1 (ko) * 2006-11-16 2008-06-20 삼성에스디에스 주식회사 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법
US9084937B2 (en) * 2008-11-18 2015-07-21 Gtech Canada Ulc Faults and performance issue prediction
US8150814B2 (en) 2009-04-07 2012-04-03 Business Objects Software Ltd. System and method of data cleansing using rule based formatting
US20120203536A1 (en) * 2009-10-21 2012-08-09 International Business Machines Corporation Method and system for software behaviour management
US20120150825A1 (en) 2010-12-13 2012-06-14 International Business Machines Corporation Cleansing a Database System to Improve Data Quality
US10558544B2 (en) * 2011-02-14 2020-02-11 International Business Machines Corporation Multiple modeling paradigm for predictive analytics
US8694835B2 (en) * 2011-09-21 2014-04-08 International Business Machines Corporation System health monitoring

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281486A (zh) * 2007-04-04 2008-10-08 英业达股份有限公司 系统环境的监控方法
US7975175B2 (en) * 2008-07-09 2011-07-05 Oracle America, Inc. Risk indices for enhanced throughput in computing systems
CN102262579A (zh) * 2011-08-05 2011-11-30 浪潮(北京)电子信息产业有限公司 一种计算机监控方法及系统
CN102929773A (zh) * 2012-11-07 2013-02-13 曙光云计算技术有限公司 信息采集方法和装置

Also Published As

Publication number Publication date
US20150095719A1 (en) 2015-04-02
KR20150038905A (ko) 2015-04-09
CN104516808A (zh) 2015-04-15
US9588832B2 (en) 2017-03-07
KR102117637B1 (ko) 2020-06-01

Similar Documents

Publication Publication Date Title
CN104516808B (zh) 数据预处理装置及方法
US11748227B2 (en) Proactive information technology infrastructure management
US20180300338A1 (en) Distributed high-cardinality data transformation system
JP2020518938A (ja) ニューラルネットワークを用いたシーケンスデータの分析
US8930736B2 (en) Inferred electrical power consumption of computing devices
Toledano et al. Real-time anomaly detection system for time series at scale
US20150186907A1 (en) Data mining
CN112633421A (zh) 一种用户异常用电行为检测方法及装置
KR20170060031A (ko) 머신 러닝을 이용한 비-기술적인 손실의 식별
US11854022B2 (en) Proactively predicting transaction dates based on sparse transaction data
CN109934301B (zh) 一种电力负荷聚类分析方法、装置和设备
WO2023103527A1 (zh) 一种访问频次的预测方法及装置
CN114266289A (zh) 一种复杂装备健康状态评估方法
CN113554128B (zh) 一种非常规异常检测方法、系统及存储介质
Egri et al. Cross-correlation based clustering and dimension reduction of multivariate time series
CN113835947A (zh) 一种基于异常识别结果确定异常原因的方法和系统
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN107590747A (zh) 基于综合能源大数据分析的电网资产周转率计算方法
US20110078102A1 (en) System and method for detecting system relationships by correlating system workload activity levels
Bey-Temsamani et al. A practical approach to combine data mining and prognostics for improved predictive maintenance
CN111612302A (zh) 一种集团级数据管理方法和设备
JP2016045853A (ja) 異常診断装置及び異常診断方法
CN115170166B (zh) 一种用于判断垄断行为的大数据感知方法及系统
CN113806495B (zh) 一种离群机器检测方法和装置
Maitra A Data Mining-Based Dynamical Anomaly Detection Method for Integrating with an Advance Metering System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant