CN104598500A - 数据分类装置及方法和利用该装置及方法的数据收集系统 - Google Patents

数据分类装置及方法和利用该装置及方法的数据收集系统 Download PDF

Info

Publication number
CN104598500A
CN104598500A CN201310693281.9A CN201310693281A CN104598500A CN 104598500 A CN104598500 A CN 104598500A CN 201310693281 A CN201310693281 A CN 201310693281A CN 104598500 A CN104598500 A CN 104598500A
Authority
CN
China
Prior art keywords
data
classification
belonging
class
disaggregated model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310693281.9A
Other languages
English (en)
Other versions
CN104598500B (zh
Inventor
申东民
李在英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung SDS Co Ltd
Original Assignee
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung SDS Co Ltd filed Critical Samsung SDS Co Ltd
Publication of CN104598500A publication Critical patent/CN104598500A/zh
Application granted granted Critical
Publication of CN104598500B publication Critical patent/CN104598500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Abstract

本发明公开数据分类装置及方法和利用该装置及方法的数据收集系统。根据本发明的一实施例的数据分类方法包括如下的步骤:针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映类所属度而对向量进行群集化;根据被群集化的结果对多个分类对象数据进行标记;以及利用被标记的分类对象数据生成分类模型。

Description

数据分类装置及方法和利用该装置及方法的数据收集系统
技术领域
本发明涉及一种数据分类技术,尤其涉及一种数据分类装置以及方法和利用该装置及方法的数据收集系统。
背景技术
为了对某些数据进行分类,需要明确该数据的标签。因此,当数据的标签(label)不太明确且仅由类(class)所属度来表示时,难以对数据进行分类。例如,如下面的表1所示,当针对服务器的性能数据,用类所属度表示与服务器的故障的关联性程度时,难以确定将该性能数据分类为异常(Abnormal:A)还是正常(Normal:N)。
表1
标识符 类所属度 CPU使用率 内存使用率 CPU待机时间
AAA 30.55 70.10 4.5 430.1
BBB 79.11 4.32 97.12 96.3
CCC 5.15 18.07 3.2 4.2
在此,即使以类所属度的已设定的值作为基准而对性能数据进行标记(例如,将类所属度的值60作为基准,其以上的值标记为异常A,未达到该基准的值标记为正常N),用类所属度进行标记的结果的可靠性较低,因此仍然存在分类结果的可靠性较低的问题。
现有技术文献
韩国授权专利公报第10-1247307号(2013.03.26)
发明内容
本发明的实施例提供一种能够提高数据分类性能的数据分类装置及方法和利用该装置及方法的数据收集系统。
本发明的实施例提供一种可分类标签不明确的数据的数据分类装置及方法和该装置及方法的数据收集系统。
根据本发明一实施例的数据分类装置包括:群集化单元,针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化;以及分类模型生成单元,根据被群集化的结果对所述多个分类对象数据进行标记,利用被标记的所述分类对象数据生成分类模型。
所述数据分类装置还包括群集参数确定单元,该群集参数确定单元对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化,所述群集化单元可利用所述群集参数值以及所述类所属度,对所述分类对象数据的向量进行再群集化。
所述群集参数确定单元根据群集内所述向量的相似度是否超过已设定的值且群集之间的距离是否超过已设定的值来可最优化所述群集参数值。
所述群集化单元可通过下面的数学式对所述多个分类对象数据的向量进行再群集化,
数学式
PDF′=PDF×等级所属度n
其中,PDF为该群集方法的概率密度函数,n为类所属度的影响度,PDF′为反映了该分类对象数据的类所属度的新的概率密度函数。
所述分类模型生成单元能够以各分类对象数据是否包含在群集来进行二元分类而对各分类对象数据进行标记。
所述数据分类装置还可包括验证被生成的所述分类模型的准确度的验证单元。
所述验证单元可利用测试数据的类所属度值来对多个测试数据进行标记,并且将被标记的所述测试数据代入到所述分类模型,从而计算所述分类模型的准确度。
当所述分类模型的准确度未到达目标性能时,所述群集化单元可调整所述类所属度的反映程度,对多个分类对象数据的向量进行再群集化。
所述验证单元可根据所述测试数据的基于标记的分类结果和所述测试数据的基于所述分类模型的分类结果的一致程度,计算所述分类模型的准确度。
所述数据分类装置还可包括通信单元,所述通信单元从数据收集单元接收输入数据,根据将所接收的输入数据代入到所述分类模型而进行分类的结果,将数据收集周期变更信号传输至所述数据收集单元。
所述类所属度为,可基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算。
所述类所属度可通过下面的数学式计算,
数学式
f ( x ) = 1 - 1 1 + e - a ( x - b )
其中,x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a以及b为补偿系数。
根据本发明一实施例的数据分类方法包括如下的步骤:针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化;根据被群集化的结果对所述多个分类对象数据进行标记;以及利用被标记的所述分类对象数据生成分类模型。
进行所述群集化的步骤可包括:对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化;以及利用所述群集参数值以及所述类所属度,对所述分类对象数据的向量进行再群集化。
在最优化所述群集参数值的步骤中,可根据群集内所述向量的相似度是否超过已设定的值且群集之间的距离是否超过已设定的值。
在进行所述再群集化的步骤中,通过下面的数学式对所述多个分类对象数据的向量进行再群集化,
数学式
PDF′=PDF×等级所属度n
其中,PDF为该群集方法的概率密度函数,n为类所属度的影响度,PDF′为反映了该分类对象数据的类所属度的新的概率密度函数。
在对所述多个分类对象数据进行标记的步骤中,能够以各分类对象数据是否包含在群集来进行二元分类而对各分类对象数据进行标记。
在生成所述分类模型的步骤之后,还可包括验证所生成的所述分类模型的准确度的步骤。
验证所述分类模型的准确度的步骤可包括:利用测试数据的类所属度值来对多个测试数据进行标记;以及将被标记的所述测试数据代入到所述分类模型,从而计算所述分类模型的准确度。
在计算所述分类模型的准确度的步骤之后,还可包括如下的步骤:当所述分类模型的准确度未到达目标性能时,调整所述类所属度的反映程度,对多个分类对象数据的向量进行再群集化。
在计算所述分类模型的准确度的步骤中,可根据所述测试数据的基于标记的分类结果和所述测试数据的基于所述分类模型的分类结果的一致程度,计算所述分类模型的准确度。
在生成所述分类模型的步骤之后,还可包括如下的步骤:从数据收集单元接收输入数据;以及根据将所接收的输入数据代入到所述分类模型而进行分类的结果,将数据收集周期变更信号传输至所述数据收集单元。
所述类所属度可基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算。
所述类所属度可通过下面的数学式计算,
数学式
f ( x ) = 1 - 1 1 + e - a ( x - b )
其中,x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a以及b为补偿系数。
根据本发明的一实施例的数据收集系统包括:数据分类装置,针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化,根据被群集化的结果对所述多个分类对象数据进行标记,利用被标记的分类对象数据生成分类模型;以及数据收集装置,以预定周期收集数据进而传输至所述数据分类装置,其中,所述数据收集装置根据被收集的数据基于所述分类模型被分类的结果,来变更数据的收集周期。
当被收集的数据被分类为故障时,所述数据收集装置可缩短所述数据的收集周期。
所述类所属度可基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算。
所述类所属度可通过下面的数学式计算,
数学式
f ( x ) = 1 - 1 1 + e - a ( x - b )
其中,x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a以及b为补偿系数。
根据本发明的实施例,反映训练数据所包含的类所属度来对训练数据进行群集化,根据群集化的结果标记训练数据,被标记的训练数据作为输入数据而生成分类模型,因此即使具备可靠性低的类所属度的训练数据,也可以提高数据的分类性能。并且,输入的数据根据被群集化的结果来标记然后分类,因此在标签不太明确的数据的情况下,也可有效地进行分类。并且,分类模型的准确度未及目标值时,可调整类所属度的反映程度,以此最优化分类模型的性能。
附图说明
图1是示出根据本发明一实施例的数据分类装置的构成的图。
图2是示出在数学式1中将a以及b设定为2时的类所属度函数f(x)的图。
图3是示出未考虑类所属度的时候和考虑了类所属度的时候的群集结果的图。
图4是示出根据本发明一实施例的数据分类方法的流程图。
图5是示出利用根据本发明一实施例的数据分类装置的故障预测系统的图。
主要符号说明
100:数据分类装置
102:群集参数确定单元  104:群集化单元
106:分类模型生成单元  108:验证单元
200:故障预测系统
202:训练服务器        204:对象服务器
206:故障预测服务器    208:管理者终端
211:数据分类装置      214:故障预测装置
具体实施方式
以下,参照附图1至5来说明本发明数据分类装置及方法和利用该装置及方法的数据收集系统的具体实施例。但是,其仅仅为示例性实施例,并且本发明不限于此。
在说明本发明时,若判断为针对与本发明相关的公知技术的具体说明会不必要地影响本发明的主旨,则省略对其详细的说明。并且,后述的用语为考虑到在本发明的功能而定义的用语,其可根据用户、运营商的意图或者惯例而变得不同。因此,其定义应该根据本说明书整体的内容来解释。
本发明的技术思想由权利要求书来确定,以下的实施例只是为了向本发明所属技术领域中具有通常的知识的技术人员有效率地说明具有进步的本发明的技术思想而举出的一示例。
图1是示出根据本发明一实施例的数据分类装置的构成的图。
参照图1,数据分类装置100包括群集参数确定单元102、群集化单元104、分类模型生成单元106以及验证单元108。
群集参数确定单元102确定,在对输入的多个训练数据进行一次群集化(或者群组化)时可最优化群集结果的群集参数值为何值。即,群集参数确定单元102起到最优化多个训练数据的群集参数值的作用。群集参数确定单元102能够确定,在对多个训练数据进行一次群集化时能够导出满足已设定条件的最优的群集结果的群集参数值为何值。例如,群集参数确定单元102可确定,在基于k-means(K-均值)群集方法对多个训练数据进行一次群集化时能够满足条件1)和2)而导出最优的群集结果的群集参数值,其中条件1)为群集内训练数据的相似度超过已设定的值,条件2)为群集之间的距离超过已设定的值。在此,对多个训练数据进行一次群集化时,各个群集方法需要最优化的群集参数可能会不同。群集参数确定单元102在对多个训练数据进行一次群集化时可根据群集方法而选择需要最优化的群集参数,然后对选择的群集参数的值进行最优化。即使相同的群集方法,根据训练数据的种类以及特性,最优化之后的群集参数的值可能会不同。对相同的训练数据,群集参数确定单元102在变更群集参数的值的同时比较群集结果,以此可确定表示最优的群集结果的群集参数值。群集方法的选择、基于各个群集方法的群集参数的最优化方法、群集结果的评价指标等不属于本发明的范畴,因此省略对其的详细说明。
另外,所述训练数据包括固有标识信息、类所属度以及属性(Attribute)值。下面的表2表示根据本发明一实施例的训练数据。在此,作为训练数据的一实施例示出了服务器的状态值,但是训练数据不限于此。
表2
在此,固有标识信息意指可使该训练数据区别于其他训练数据的信息。类所属度表示该训练数据与特定事件的关联性程度。例如,类所属度可表示该训练数据与服务器故障的关联性程度。属性值表示训练数据所包含的各属性的值。例如,针对属性值而言,在预定时间测量服务器(或者装置)的各性能数值、操作数值、周围环境(温度、湿度、压力等)的值可成为属性值。但是,不限于此,属性值根据训练数据包含何种属性而可成为各种类型的值。在上述表2中,作为属性值有CPU使用率、CPU执行队列、CPU待机时间、内存使用率、内存页出、内存使用量(例如,除了文件缓存之外的实际使用区域的使用量)、交换分区(Swap)使用量、文件系统使用率等。训练数据包括至少一个属性值,各属性值的集合可用向量(Vector)来表示。群集参数确定单元102将确定用于在对多个训练数据的各向量进行一次群集化时导出最优的群集结果的群集参数值。
当在训练数据中未包含类所属度的情形下,训练数据被输入至数据分类装置100时,数据分类装置100可用基于该训练数据的发生时刻和特定事件的发生时刻之间的差的关联度,计算出该训练数据的类所属度。即,可以根据发生训练数据之后何时发生了特定事件的要素,计算出该训练数据的与特定事件的关联性程度(类所属度)。此时,所述特定事件可包括由管理者定义的各种形式的服务器发生故障的事件,例如软件出错、操作系统出错、硬件受损、服务器重启等。为了计算出预定训练数据的类所属度,数据分类装置100可利用如下数学式1的逻辑函数。
数学式1
f ( x ) = 1 - 1 1 + e - a ( x - b )
在此,x表示训练数据的发生时刻和特定事件的发生时刻之间的差。a以及b表示根据训练数据的特性来设定的补偿系数。
图2是示出在数学式1中将a以及b设定为2时的类所属度函数f(x)的图。参照图2可知,若在训练数据的发生时刻往后20分钟时发生服务器故障(即,特定事件),则该训练数据的类所属度为0.992769。可以看出,若在训练数据的发生时刻往后1小时15分钟时发生服务器故障,则该训练数据的类所属度为0.832548。还可看出,若在训练数据的发生时刻往后2小时30分钟时发生服务器故障,则该训练数据的类所属度为0.273867。根据图2可知,自训练数据的发生时刻起,发生服务器故障的时刻越晚,则该训练数据的类所属度越小。至此,使用类所属度函数f(x)时,可计算出该训练数据的类所属度。
群集化单元104利用由群集参数确定单元102所确定的群集参数值,对多个训练数据进行二次群集化(再群集化)。例如,群集化单元104使用k-means群集或者狄利克雷(dirichlet)群集等群集方法,对具有相似性的训练数据之间进行群集化。但是,群集化单元104不限于此,可使用除此之外的各种群集方法。群集化单元104利用上述被确定的群集参数值,对多个训练数据(即,多个训练数据的各向量)进行再群集化,此时可反映各训练数据所包含的类所属度而对多个训练数据进行再群集化。
即,一般的群集方法是用该群集方法所设定的概率密度函数(ProbabilityDensity Function:PDF)来确定该训练数据是否包含于特定群集,但是群集化单元104在概率密度函数(PDF)中反映各训练数据的类所属度而确定是否包含在特定群集。具体地,群集化单元104通过下面数学式2记载的群集函数来对多个训练数据进行再群集化。
数学式2
PDF′=PDF×等级所属度n
在此,PDF表示该群集方法的概率密度函数,n表示类所属度的影响度。即,n>1时,在群集化过程中类所属度的影响相对变大,n<1时,在群集化过程中类所属度的影响相对变小。类所属度的影响度n可根据在对多个训练数据进行再群集化时以何种程度反映类所属度(即,赋予多大的加权值)来进行确定。PDF′表示反映了该训练数据的类所属度的新的概率密度函数。
例如,当群集化单元104使用k-means方法来针对多个训练数据进行再群集化时,群集化单元104可通过数学式3所记载的群集函数,对多个训练数据进行再群集化。
数学式3
在此,dist表示该群集的中心和该训练数据之间的距离。并且,特定群集的中心可由包含在该特定群集的各向量的平均值来确定,群集的中心和特定训练数据之间的距离可由该中心和该特定训练数据之间的欧几里得距离来确定。
根据数学式3,1)类所属度较高且与群集的中心之间的距离较短的训练数据将属于该群集;2)即使类所属度较高,但与群集的中心之间的距离较远(即,该群的代表性较弱)的训练数据不属于该群集。不过,即使该群集的代表性较弱,但类所属度足够高时也有可能属于该群组。3)当类所属度的大小趋于中间或较低时,与群集的中心之间的距离可成为判断是否属于该群集的基准。即,即使类所属度不太高,但是与群集的中心之间的距离较短的训练数据也可属于该群集。
图3是示出未考虑类所属度的情形和考虑了类所属度的情形的群集结果的图。在此,示出了用k-means方法进行群集化的情形。图3中所示的点表示投影到二维欧几里得平面的训练数据。点的颜色的深浅表示类所属度,点的颜色越深表示类所属度越高。
参照图3的(a)可知,当不考虑类所属度时,依据训练数据的密集程度出现三个群集。在此,可以看出,仅通过群集的中心和各训练数据之间的距离,可确定该训练数据是否包含在群集。
参照图3的(b)可知,当考虑类所属度时,相比图3的(a),群集的数量减少到两个,群集的结果也不同。当反映类所属度而进行群集化时,可以看出在图3的(a)中类所属度较低的训练数据所属的群集消失不见,在依旧存在的群集中也可以看出,根据类所属度,训练数据是否包含在群集的结果也不同。
分类模型生成单元106根据再群集化的结果对多个训练数据进行标记,并且利用被标记的训练数据生成分类模型。根据再群集化的结果,分类模型生成单元106可将各训练数据标记为两种分类(即,二元分类)。例如,根据再群集化的结果,分类模型生成单元106可将属于预定群集的训练数据标记为异常A(Abnormal),可将不属于任何群集的训练数据标记为正常N(Normal)。分类模型生成单元106可将以二元分类方式进行标记的训练数据作为输入数据,以此生成分类模型。分类模型生成单元106例如可使用朴素贝叶斯(Naive Bayesian)、随机森林(Random Forest)、支持向量机(SVM)等的分类方法来生成分类模型,但是分类方法不限于此,也可使用除此之外的各种分类方法。
验证单元108可验证由分类模型生成单元106生成的分类模型的准确度。此时,验证单元108可利用与训练数据相同形态的测试数据,来验证上述分类模型的准确度。与训练数据相同地,测试数据包括固有标识信息、类所属度以及属性值。具体地,验证单元108可利用所输入的测试数据中所包括的类所属度值,对各测试数据进行标记。此时,针对验证单元108而言,当类所属度在已设定的值以上时,可将该测试数据分类为异常A,当类所属度未达到已设定的值时,可将该测试数据分类为正常N。其次,验证单元108可将被标记的测试数据输入到分类模型生成单元106所生成的分类模型中,然后确认分类的结果从而计算所述分类模型的准确度。
表3
标记N 标记A
分类N 2300319 280211
分类A 4606 3809
表3是示出用于验证由分类模型生成单元106所生成的分类模型的准确度的一实施例的表。参照表3,使用了总共2588945个测试数据。此时,将被标记为正常N的2304925个测试数据代入到上述分类模型的结果,2300319个被分类为正常N,4606个被分类为异常A。将被标记为异常A的284020个测试数据代入到上述分类模型的结果,280211个被分类为正常N,3809个被分类为异常A。通过表3所示的分类结果,分类模型的准确度以及出错率如下。
另外,当数据分类装置100自以预定收集周期收集数据的数据收集单元(未图示)接收输入数据时,根据将输入数据代入到分类模型而进行分类的结果,将数据收集周期变更信号传输至数据收集单元(未图示)。例如,当将由数据收集单元(未图示)收集的输入数据代入到分类模型的结果,被分类为故障(Abnormal)时,数据分类装置100可将令数据的收集周期缩短的内容的数据收集周期变更信号传输至数据收集单元(未图示)。
根据本发明的实施例,反映训练数据所包含的类所属度来对训练数据进行群集化,并且根据群集化的结果对训练数据进行标记,被标记的训练数据作为输入数据而生成分类模型,因此即使是具备可靠性低的类所属度的训练数据,也可以提高数据的分类性能。并且,输入的数据根据被群集化的结果来标记然后分类,因此在标签不太明确的数据的情况下,也可有效地进行分类。并且,分类模型的准确度未及目标值时,可调整类所属度的反映程度,以此最优化分类模型的性能。
*比较例
(1)对照群:将未经过群集过程的训练数据直接带入到分类器从而生成分类模型。
(2)实验群:将反映类所属度来经过群集过程的训练数据带入到分类器从而生成分类模型。
(3)实验环境:分析包-mahout v0.7,群集算法-k-means clustering(K-均值聚类),分类器算法-朴素贝叶斯分类器(naive bayes classifier)。
(4)数据构成:作为根据特定时间间隔来监测的服务器性能数据,使用了6,378,481个训练数据,2,588,945个测试数据。
(5)实验结果
1)对照群的情形
表4
标记N 标记A
分类N 218355 396975
分类A 3735 4680
2)实验群的情形
表5
标记N 标记A
分类N 2402863 177667
分类A 5511 2904
如上表可知,当未经过群集过程并将训练数据直接代入而生成分类模型的情况下,准确度为35.8%,当将反映类所属度来经过群集过程的训练数据代入到分类器而生成分类模型的情况下,准确度为92.9%。即,实验群相比对照群,其准确度可提高至对照群的大约2.6倍。这是因为,反映了类所属度的群集过程提高了针对具备可靠性低的类所属度的训练数据的分类性能。
图4是示出根据本发明一实施例的数据分类方法的流程图。
参照图4,数据分类装置100对所输入的多个训练数据进行一次群集化(S101)。例如,数据分类装置100可使用k-means群集或者狄利克雷群集等群集方法,对具有相似性的训练数据的向量之间进行一次群集化。数据分类装置100可根据群集方法选择群集参数,并利用预定的群集参数值,对多个训练数据的各个向量进行一次群集化。
其次,数据分类装置100确认一次群集化的群集结果是否为最优(S103)。数据分类装置100可确认一次群集化的群集结果是否满足已设定的条件而表示最优的群集结果。例如,数据分类装置100在依据k-means群集方法对多个训练数据进行一次群集化时,可根据是否满足条件1)和2)来确认是否为最优的群集结果,其中条件1)为群集内训练数据的相似度超过已设定的值,条件2)群集之间的距离超过已设定的值。
当步骤S103的确认结果,一次群集化的群集结果不是最优时,数据分类装置100调整群集参数的值,再次执行一次群集化(S105)。数据分类装置100再次确认基于所调整的群集参数值的群集结果是否为最优,并且直到得出最优的群集结果为止反复进行这种过程。
当步骤S103的确认结果,一次群集化的群集结果为最优时,数据分类装置100利用表示最优的群集结果的群集参数值以及各训练数据的类所属度,对多个训练数据的各向量进行再群集化(S107)。数据分类装置100可利用上述数学式2对多个训练数据的各向量进行再群集化。
其次,数据分类装置100根据再群集化的结果来对多个训练数据进行标记(S109)。例如,根据再群集化的结果,数据分类装置100可将属于预定群集的训练数据标记为异常A(Abnormal),可将不属于任何群集的训练数据标记为正常N(Normal)。
接着,数据分类装置100将被标记的训练数据作为输入数据而生成分类模型(S111)。数据分类装置100例如可使用朴素贝叶斯(Naive Bayesian)、随机森林(Random Forest)、支持向量机(SVM)等的分类方法来生成分类模型,但是分类方法不限于此,也可使用除此之外的各种分类方法。
接着,数据分类装置100验证分类模型的准确度(S113)。数据分类装置100可利用被输入的测试数据所包含的类所属度值来对各测试数据进行标记,并且将被标记的测试数据输入到上述分类模型,然后确认分类的结果,以此验证上述分类模型的准确度。
接着,数据分类装置100确认分类模型的准确度是否已到达目标值(S115)。当步骤S115的确认结果,分类模型的准确度未到达目标值时,数据分类装置100调整类所属度的影响度值之后对多个训练数据的各向量进行再群集化(S117)。即,分类模型的准确度未到达目标值时,数据分类装置100可在数学式2中调整类所属度的影响度n值,进而对多个训练数据的各向量进行再群集化。此后,数据分类装置100根据再群集化的结果,对多个训练数据进行标记,利用被标记的训练数据来再生成分类模型,并且直到再生成的分类模型的准确度到达目标值为止反复这种过程。
图5是示出利用根据本发明一实施例的数据分类装置的故障预测系统的图。
参照图5,故障预测系统200包括训练服务器202、对象服务器204、故障预测服务器206以及管理者终端208。
训练服务器202为执行与对象服务器204的操作相同或者相似的操作(或者功能)的服务器。训练服务器202可以是与对象服务器204的种类相同的服务器。训练服务器202将测量了训练服务器202的性能、操作数值以及周围环境等的数据传输至故障预测服务器206。在故障预测服务器206,由训练服务器202传输的数据可被划分为训练数据和测试数据而使用。
对象服务器204为成为由故障预测系统200欲预测故障与否的对象的服务器。对象服务器204将测量了对象服务器204的性能、操作数值以及周围环境等的数据传输至故障预测服务器206。对象服务器204可实时地(或者周期性地)向故障预测服务器206传输上述测量的数据。
故障预测服务器206包括数据分类装置211以及故障预测装置214。数据分类装置211可对由训练服务器202传输的数据标记故障关联度(即,类所属度),然后划分为训练数据和测试数据。数据分类装置211可反映训练数据的故障关联度来对训练数据进行群集化,根据群集结果标记训练数据,并且将被标记的训练数据作为输入数据来生成分类模型。数据分类装置211能够利用测试数据来验证分类模型的性能。针对数据分类装置211的构成以及操作已在上面进行了说明,因此省略对其的详细说明。当自对象服务器204接收数据时,故障预测装置214将该数据代入到上述分类模型,预测对象服务器204的故障。当故障发生可能性超过已设定的临界值时,故障预测装置214可向管理者终端208告知对象服务器204的故障发生可能性。在此,针对故障发生可能性的临界值可根据上述分类模型的性能来确定。并且,故障预测装置214可根据将从对象服务器204接收的数据代入到上述分类模型进行分类的结果,向对象服务器204传输数据收集周期变更信号。例如,将从对象服务器214所接收的数据代入到分类模型的结果,被分类为故障(Abnormal)时,故障预测装置214可将令数据的收集周期缩短的内容的数据收集周期变更信号传输至对象服务器204。在此,以数据分类装置211以及故障预测装置214单独实现的方式进行了图示,但是本发明不限于此,数据分类装置211以及故障预测装置214可实现一体化。
当从故障预测服务器206告知对象服务器204的故障发生可能性时,管理者终端208可产生报警声或者报警灯,以此提醒管理者。
另外,在本发明的实施例可包括计算机可读记录介质,该计算机可读记录介质包括用于在计算机上执行由本说明书记载的方法的程序。上述计算机可读记录介质可单独或者组合地包括程序命令、本地数据文件、本地数据结构等。上述记录介质可以是为了本发明而特别设计并构成的构件,或者还可以是在计算机软件领域中通常会使用的构件。作为计算机可读记录介质的示例可包括存储并执行程序命令而特别构成的硬件装置,该硬件装置包括:诸如硬盘、软盘以及磁带的磁性介质;诸如CD-ROM、DVD的光记录介质;诸如光磁碟的磁光介质;以及只读存储器、随机存储器、闪速存储器等。作为程序命令的示例,不仅包括由编译器生成的机械语言代码,还可包括使用解释器等而可通过计算机执行的高级代码。
以上,通过典型的实施例来详细地说明了本发明,但是于本领域所属技术领域中具有通常知识的技术人员应该知道,在不超过本发明的范围的情况下能够进行各种变形。因此,本发明的权利范围不限于已说明的实施例,应该由前面的权利要求书以及与权利要求书相等的范围来确定。

Claims (28)

1.一种数据分类装置,其中,包括:
群集化单元,针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化;以及
分类模型生成单元,根据被群集化的结果对所述多个分类对象数据进行标记,利用被标记的所述分类对象数据生成分类模型。
2.根据权利要求1所述的数据分类装置,其中,所述数据分类装置还包括群集参数确定单元,该群集参数确定单元对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化,
所述群集化单元利用所述群集参数值以及所述类所属度,对所述分类对象数据的向量进行再群集化。
3.根据权利要求2所述的数据分类装置,其中,所述群集参数确定单元根据群集内所述向量的相似度是否超过已设定的值且群集之间的距离是否超过已设定的值来最优化所述群集参数值。
4.根据权利要求2所述的数据分类装置,其中,所述群集化单元通过下面的数学式对所述多个分类对象数据的向量进行再群集化,
数学式
PDF′=PDF×等级所属度n
其中,PDF为该群集方法的概率密度函数,n为类所属度的影响度,PDF′为反映了该分类对象数据的类所属度的新的概率密度函数。
5.根据权利要求1所述的数据分类装置,其中,所述分类模型生成单元以各分类对象数据是否包含在群集来进行二元分类而对各分类对象数据进行标记。
6.根据权利要求1所述的数据分类装置,其中,所述数据分类装置还包括验证所生成的所述分类模型的准确度的验证单元。
7.根据权利要求6所述的数据分类装置,其中,所述验证单元利用测试数据的类所属度值来对多个测试数据进行标记,并且将被标记的所述测试数据代入到所述分类模型,从而计算所述分类模型的准确度。
8.根据权利要求7所述的数据分类装置,其中,当所述分类模型的准确度未到达目标性能时,所述群集化单元调整所述类所属度的反映程度,对多个分类对象数据的向量进行再群集化。
9.根据权利要求7所述的数据分类装置,其中,所述验证单元根据所述测试数据的基于标记的分类结果和所述测试数据的基于所述分类模型的分类结果的一致程度,计算所述分类模型的准确度。
10.根据权利要求1所述的数据分类装置,其中,所述数据分类装置还包括通信单元,所述通信单元从数据收集单元接收输入数据,根据将所接收的输入数据代入到所述分类模型而进行分类的结果,将数据收集周期变更信号传输至所述数据收集单元。
11.根据权利要求1所述的数据分类装置,其中,基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算所述类所属度。
12.根据权利要求1所述的数据分类装置,其中,所述类所属度通过下面的数学式计算,
数学式
f ( x ) = 1 - 1 1 + e - a ( x - b )
其中,x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a以及b为补偿系数。
13.一种数据分类方法,其中,包括如下的步骤:
针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化;
根据被群集化的结果对所述多个分类对象数据进行标记;以及
利用被标记的所述分类对象数据生成分类模型。
14.根据权利要求13所述的数据分类方法,其中,进行所述群集化的步骤包括:
对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化;以及
利用所述群集参数值以及所述类所属度,对所述分类对象数据的向量进行再群集化。
15.根据权利要求14所述的数据分类方法,其中,在最优化所述群集参数值的步骤中,根据群集内所述向量的相似度是否超过已设定的值且群集之间的距离是否超过已设定的值来最优化所述群集参数值。
16.根据权利要求14所述的数据分类方法,其中,在进行所述再群集化的步骤中,通过下面的数学式对所述多个分类对象数据的向量进行再群集化,
数学式
PDF′=PDF×等级所属度n
其中,PDF为该群集方法的概率密度函数,n为类所属度的影响度,PDF′为反映了该分类对象数据的类所属度的新的概率密度函数。
17.根据权利要求13所述的数据分类方法,其中,在对所述多个分类对象数据进行标记的步骤中,以各分类对象数据是否包含在群集来进行二元分类而对各分类对象数据进行标记。
18.根据权利要求13所述的数据分类方法,其中,在生成所述分类模型的步骤之后,还包括验证所生成的所述分类模型的准确度的步骤。
19.根据权利要求18所述的数据分类方法,其中,验证所述分类模型的准确度的步骤包括:
利用测试数据的类所属度值来对多个测试数据进行标记;以及
将被标记的所述测试数据代入到所述分类模型,从而计算所述分类模型的准确度。
20.根据权利要求19所述的数据分类方法,其中,在计算所述分类模型的准确度的步骤之后,还包括如下的步骤:当所述分类模型的准确度未到达目标性能时,调整所述类所属度的反映程度,对多个分类对象数据的向量进行再群集化。
21.根据权利要求19所述的数据分类方法,其中,在计算所述分类模型的准确度的步骤中,根据所述测试数据的基于标记的分类结果和所述测试数据的基于所述分类模型的分类结果的一致程度,计算所述分类模型的准确度。
22.根据权利要求13所述的数据分类方法,其中,在生成所述分类模型的步骤之后,还包括如下的步骤:
从数据收集单元接收输入数据;以及
根据将所接收的输入数据代入到所述分类模型而进行分类的结果,将数据收集周期变更信号传输至所述数据收集单元。
23.根据权利要求13所述的数据分类方法,其中,基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算所述类所属度。
24.根据权利要求13所述的数据分类方法,其中,所述类所属度通过下面的数学式计算,
数学式
f ( x ) = 1 - 1 1 + e - a ( x - b )
其中,x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a以及b为补偿系数。
25.一种数据收集系统,其中,包括:
数据分类装置,针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化,根据被群集化的结果对所述多个分类对象数据进行标记,利用被标记的分类对象数据生成分类模型;以及
数据收集装置,以预定周期收集数据进而传输至所述数据分类装置,
其中,所述数据收集装置根据被收集的数据基于所述分类模型被分类的结果,来变更数据的收集周期。
26.根据权利要求25所述的数据收集系统,其中,当被收集的数据被分类为故障时,所述数据收集装置缩短所述数据的收集周期。
27.根据权利要求25所述的数据收集系统,其中,基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算所述类所属度。
28.根据权利要求25所述的数据收集系统,其中,所述类所属度通过下面的数学式计算,
数学式
f ( x ) = 1 - 1 1 + e - a ( x - b )
其中,x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a以及b为补偿系数。
CN201310693281.9A 2013-10-30 2013-12-17 数据分类装置及方法和利用该装置及方法的数据收集系统 Active CN104598500B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130130180A KR101768438B1 (ko) 2013-10-30 2013-10-30 데이터 분류 장치 및 방법과 이를 이용한 데이터 수집 시스템
KR10-2013-0130180 2013-10-30

Publications (2)

Publication Number Publication Date
CN104598500A true CN104598500A (zh) 2015-05-06
CN104598500B CN104598500B (zh) 2018-06-08

Family

ID=52996596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310693281.9A Active CN104598500B (zh) 2013-10-30 2013-12-17 数据分类装置及方法和利用该装置及方法的数据收集系统

Country Status (4)

Country Link
US (1) US9582736B2 (zh)
KR (1) KR101768438B1 (zh)
CN (1) CN104598500B (zh)
WO (1) WO2015064829A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108352339A (zh) * 2015-09-18 2018-07-31 科磊股份有限公司 自适应自动缺陷分类
CN109993233A (zh) * 2016-06-13 2019-07-09 第四范式(北京)技术有限公司 基于机器学习来预测数据审核目标的方法及系统

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3115959B1 (en) * 2014-03-07 2020-06-03 Hitachi, Ltd. Data analysis system and method
JP6460765B2 (ja) * 2014-12-09 2019-01-30 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、プログラム
US11461368B2 (en) * 2015-06-23 2022-10-04 Micro Focus Llc Recommending analytic tasks based on similarity of datasets
DE102016008987B4 (de) * 2015-07-31 2021-09-16 Fanuc Corporation Maschinenlernverfahren und Maschinenlernvorrichtung zum Lernen von Fehlerbedingungen, und Fehlervorhersagevorrichtung und Fehlervorhersagesystem, das die Maschinenlernvorrichtung einschließt
US9923912B2 (en) * 2015-08-28 2018-03-20 Cisco Technology, Inc. Learning detector of malicious network traffic from weak labels
CN105183612B (zh) * 2015-09-25 2017-11-21 携程计算机技术(上海)有限公司 服务器可用内存异常增长及运行状况的评估方法
KR101722871B1 (ko) * 2016-03-21 2017-04-04 울산대학교 산학협력단 서포트 벡터 머신의 최적 파라미터 선택 장치 및 방법
CN106940803B (zh) * 2017-02-17 2018-04-17 平安科技(深圳)有限公司 相关变量识别方法和装置
CN107229733B (zh) * 2017-06-12 2020-01-14 上海智臻智能网络科技股份有限公司 扩展问评价方法及装置
JP7027070B2 (ja) * 2017-08-31 2022-03-01 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
US10628475B2 (en) * 2017-10-03 2020-04-21 International Business Machines Corporation Runtime control of automation accuracy using adjustable thresholds
JP6477943B1 (ja) * 2018-02-27 2019-03-06 オムロン株式会社 メタデータ生成装置、メタデータ生成方法及びプログラム
CN109501241B (zh) * 2018-11-05 2020-12-04 北京工业大学 立体视觉监视的高强度多方向fdm 3d打印方法
KR102281431B1 (ko) * 2019-10-01 2021-07-27 주식회사 아이옵스테크놀러지 장애 예측 및 장애 예측 모델링 관리 시스템
JP7276488B2 (ja) * 2019-10-23 2023-05-18 富士通株式会社 推定プログラム、推定方法、情報処理装置、再学習プログラムおよび再学習方法
KR102433598B1 (ko) * 2020-11-26 2022-08-18 (주)심플랫폼 데이터 경계 도출 시스템 및 방법
KR102314848B1 (ko) * 2021-03-30 2021-10-19 주식회사 솔리드웨어 해석이 용이한 모델생성방법 및 그 장치와, 이를 이용하여 생성된 모델을 이용한 데이터분류방법 및 그 장치
WO2023119456A1 (ja) * 2021-12-21 2023-06-29 富士通株式会社 検知プログラム、検知装置、および検知方法
KR102484218B1 (ko) * 2022-06-20 2023-01-04 주식회사 애자일소다 유사도 기반의 분류 모델 결과 검증 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030065535A1 (en) * 2001-05-01 2003-04-03 Structural Bioinformatics, Inc. Diagnosing inapparent diseases from common clinical tests using bayesian analysis
US20060111644A1 (en) * 2004-05-27 2006-05-25 Children's Medical Center Corporation Patient-specific seizure onset detection system
CN101512556A (zh) * 2006-08-31 2009-08-19 国际壳牌研究有限公司 解释分配给n维解释空间中多个位置的多个m维属性向量
US20110029250A1 (en) * 2005-06-17 2011-02-03 Venture Gain LLC Non-Parametric Modeling Apparatus and Method for Classification, Especially of Activity State
US20130191107A1 (en) * 2010-12-24 2013-07-25 Nec Corporation Monitoring data analyzing apparatus, monitoring data analyzing method, and monitoring data analyzing program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9800427D0 (en) * 1998-01-10 1998-03-04 Ibm Probabilistic data clustering
KR100987168B1 (ko) * 2008-10-31 2010-10-11 한국전력공사 원격계측 전력 부하패턴의 분류 및 예측 방법
JP5692493B2 (ja) * 2009-02-05 2015-04-01 セイコーエプソン株式会社 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
KR20110080246A (ko) * 2010-01-05 2011-07-13 중앙대학교 산학협력단 분산과 사전확률을 고려한 데이터 분류 장치 및 방법
US8311973B1 (en) * 2011-09-24 2012-11-13 Zadeh Lotfi A Methods and systems for applications for Z-numbers
KR101300247B1 (ko) * 2011-11-11 2013-08-26 경희대학교 산학협력단 마르코프 연쇄 은닉 조건부 랜덤 필드 모델 기반의 패턴 인식 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030065535A1 (en) * 2001-05-01 2003-04-03 Structural Bioinformatics, Inc. Diagnosing inapparent diseases from common clinical tests using bayesian analysis
US20060111644A1 (en) * 2004-05-27 2006-05-25 Children's Medical Center Corporation Patient-specific seizure onset detection system
US20110029250A1 (en) * 2005-06-17 2011-02-03 Venture Gain LLC Non-Parametric Modeling Apparatus and Method for Classification, Especially of Activity State
US8478542B2 (en) * 2005-06-17 2013-07-02 Venture Gain L.L.C. Non-parametric modeling apparatus and method for classification, especially of activity state
CN101512556A (zh) * 2006-08-31 2009-08-19 国际壳牌研究有限公司 解释分配给n维解释空间中多个位置的多个m维属性向量
US20100017354A1 (en) * 2006-08-31 2010-01-21 Chung-King Chan Interpreting a plurality of m-dimensional attribute vectors assigned to a plurality of locations in an n-dimensional interpretation space
US20130191107A1 (en) * 2010-12-24 2013-07-25 Nec Corporation Monitoring data analyzing apparatus, monitoring data analyzing method, and monitoring data analyzing program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108352339A (zh) * 2015-09-18 2018-07-31 科磊股份有限公司 自适应自动缺陷分类
CN108352339B (zh) * 2015-09-18 2022-11-08 科磊股份有限公司 自适应自动缺陷分类
CN109993233A (zh) * 2016-06-13 2019-07-09 第四范式(北京)技术有限公司 基于机器学习来预测数据审核目标的方法及系统
CN109993233B (zh) * 2016-06-13 2022-11-01 第四范式(北京)技术有限公司 基于机器学习来预测数据审核目标的方法及系统

Also Published As

Publication number Publication date
CN104598500B (zh) 2018-06-08
WO2015064829A1 (ko) 2015-05-07
US9582736B2 (en) 2017-02-28
KR101768438B1 (ko) 2017-08-16
KR20150049511A (ko) 2015-05-08
US20150120639A1 (en) 2015-04-30

Similar Documents

Publication Publication Date Title
CN104598500A (zh) 数据分类装置及方法和利用该装置及方法的数据收集系统
EP2859418B1 (en) Generalized pattern recognition for fault diagnosis in machine condition monitoring
CN103119582B (zh) 降低第一多变量数据组和第二多变量数据组之间的不相似度
US20200034749A1 (en) Training corpus refinement and incremental updating
CN108052528A (zh) 一种存储设备时序分类预警方法
US20200226503A1 (en) Predictive issue detection
CN107357902A (zh) 一种基于关联规则的数据表分类系统与方法
CN104956373A (zh) 确定异常网络行为的可疑根本原因
CN102375452A (zh) 改善故障代码设定和隔离故障的事件驱动的数据挖掘方法
WO2019125532A1 (en) Programmatic ally identifying a personality of an autonomous vehicle
CN113688042A (zh) 测试场景的确定方法、装置、电子设备及可读存储介质
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
CN107403311B (zh) 账户用途的识别方法及装置
CN114638234B (zh) 应用于线上业务办理的大数据挖掘方法及系统
CN111401785A (zh) 一种基于模糊关联规则的电力系统设备故障预警方法
CN113468520A (zh) 应用于区块链业务的数据入侵检测方法及大数据服务器
CN112596964A (zh) 磁盘故障的预测方法及装置
Levy et al. RoMA: A method for neural network robustness measurement and assessment
CN108960220B (zh) 基于状态机模型的信号系统通信数据可靠性分析方法
Wu et al. A Bayesian network model for real-time crash prediction based on selected variables by random forest
Sun et al. Reliable location of automatic vehicle identification sensors to recognize origin-destination demands considering sensor failure
JP5684084B2 (ja) 誤分類検出装置、方法、及びプログラム
CN112966778A (zh) 针对不平衡样本数据的数据处理方法及装置
Grimme et al. Lost in transformation: Rediscovering llm-generated campaigns in social media
CN116228312A (zh) 大额积分兑换行为的处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant