CN116881752A - 数据的聚类方法和装置、存储介质及电子设备 - Google Patents
数据的聚类方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116881752A CN116881752A CN202310718145.4A CN202310718145A CN116881752A CN 116881752 A CN116881752 A CN 116881752A CN 202310718145 A CN202310718145 A CN 202310718145A CN 116881752 A CN116881752 A CN 116881752A
- Authority
- CN
- China
- Prior art keywords
- abnormal data
- determining
- clustering
- data
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000002159 abnormal effect Effects 0.000 claims abstract description 310
- 230000001186 cumulative effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本申请公开了一种数据的聚类方法和装置、存储介质及电子设备,涉及智慧家庭技术领域,该数据的聚类方法包括:获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据。
Description
技术领域
本申请涉及智慧家庭技术领域,具体而言,涉及一种数据的聚类方法和装置、存储介质及电子设备。
背景技术
对于一个软件平台来说,由于受各种不确定性因素的耦合影响,会产生各种系统异常问题,在软件开发工程师修复解决这些问题之前,一般会由IT管理工程师对这些问题进行分析和分类处理。对于这些无标签的异常问题,该如何实现自动化分类处理,减少IT管理工程师的工作量,是一件有意义的事情。
软件应用平台在日常运转过程中,后台会自动捕捉到一些系统异常问题并记录在日志中,也有些问题是通过用户使用反馈得到,由于同一类异常问题可能由相同的原因造成,后期我们就需要对这些无标签异常问题进行分类后再解决,提高修复的工作效率。这些异常问题具有无标签性,如果数量繁多,使用人工进行分类的方式会消耗大量人力资源,增加工作成本。因此,相关技术中通过训练一个分类器来对这些异常问题进行快速分类。然而,分类器学习一般属于监督学习范畴,需要大量历史数据来进行学习,在数据积累有限的情况下,这种解决方案是不可行的。
针对相关技术中,缺少机器自动化处理异常数据等问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据的聚类方法和装置、存储介质及电子设备,以至少解决相关技术中,缺少机器自动化处理异常数据等问题。
根据本申请实施例的一个实施例,提供了一种数据的聚类方法,包括:获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据。
在一个示例性实施例中,获取异常数据集合中的每个异常数据与初始聚类中心的第一距离,包括:确定任一异常数据在多个错误类型维度中分别对应的第一特征权重,以及确定所述初始聚类中心对应的第二特征权重;根据所述第一特征权重和所述第二特征权重计算所述任一异常数据与初始聚类中心的第一距离。
在一个示例性实施例中,确定任一异常数据在多个错误类型维度中分别对应的第一特征权重,包括:建立异常数据特征参考表,其中,所述异常数据特征参考表中包括:异常数据对应的异常问题,以及所述异常问题对应的特征权重;根据所述任一异常数据的目标异常问题在异常数据特征参考表中查找到对应的特征权重;确定所述目标异常问题对应的错误类型维度,并根据所述目标异常问题的特征权重确定所述每个错误类型维度的特征权重;根据所述每个错误类型维度的特征权重确定任一异常数据在多个错误类型维度中的第一特征权重。
在一个示例性实施例中,根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,包括:确定多个所述第一距离的和值,并确定每个异常数据对应的第一距离和所述和值的商值;确定所述商值为所述每个异常数据允许作为聚类中心的概率;根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,包括以下之一:根据所述概率确定所述每个异常数据的累积概率;根据所述累积概率的大小对所述每个异常数据进行排序;基于排序结果确定第一个大于随机数的累积概率,并确定所述第一个大于随机数的累积概率对应的异常数据为所述第一聚类中心。
在一个示例性实施例中,根据所述第二距离对所述剩余异常数据进行聚类之后,所述方法还包括:确定每个聚类分组中的异常数据,并确定所述每个聚类分组中的异常数据的第一特征权重均值,其中,一个聚类分组对应一个第一聚类中心;确定所述第一特征权重均值与所述第一聚类中心的特征权重是否一致;根据所述第一特征权重均值与所述第一聚类中心的特征权重是否一致确定是否对所述每个异常数据进行重聚类。
在一个示例性实施例中,根据所述第一特征权重均值与所述第一聚类中心的特征权重是否一致确定是否对所述每个异常数据进行重聚类,包括:在所述第一特征权重均值与所述第一聚类中心的特征权重不一致的情况下,确定多个所述第一特征权重均值为所述异常数据集合中的多个第二聚类中心;确定每个异常数据与每个第二聚类中心的第三距离,并根据所述第三距离对所述每个异常数据进行重聚类;在所述第一特征权重均值与所述第一聚类中心的特征权重一致的情况下,确定所述每个异常数据的聚类结果为目标聚类结果。
在一个示例性实施例中,获取异常数据集合中的每个异常数据与初始聚类中心的第一距离之前,所述方法还包括以下之一:在所述异常数据集合中随机确定任一异常数据为所述初始聚类中心;确定所述异常数据集合的第二特征权重均值,将所述第二特征权重均值对应的数据作为所述初始聚类中心;确定所述异常数据集合的第二特征权重均值,以及确定每个异常数据与所述第二特征权重均值的第四距离,将最小第四距离对应的异常数据作为所述初始聚类中心。
根据本申请实施例的另一个实施例,还提供了一种数据的聚类装置,包括:获取模块,用于获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;确定模块,用于根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;聚类模块,用于确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述数据的聚类方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的数据的聚类方法。
在本申请实施例中,获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据;本发明实施例通过上述技术方案对异常数据进行快速准聚类,使系统异常数据聚类处理自动化,减少工程师的工作量,提高异常数据修复的效率,为软件应用平台的正常运转提供有力保障,进而采用上述技术方案,解决了缺少机器自动化处理异常数据等问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例的一种数据的聚类方法的硬件环境示意图;
图2是根据本申请实施例的数据的聚类方法的流程图;
图3是根据本申请实施例的数据的聚类方法的示意图;
图4是根据本申请实施例的数据的聚类方法的效果图;
图5是根据本申请实施例的一种数据的聚类装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种数据的聚类方法。该数据的聚类方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述数据的聚类方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
在本实施例中提供了一种数据的聚类方法,应用于上述终端设备或者计算机设备,图2是根据本申请实施例的数据的聚类方法的流程图,该流程包括如下步骤:
步骤S202,获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;
需要说明的是,上述第一距离包括但不限于:欧氏距离、曼哈顿距离、闵可夫斯基距离切比雪夫距离、余弦相似性。
上述异常数据是软件应用平台在日常运转过程中,后台自动捕捉到的系统异常问题对应的数据,或者是用户使用反馈的数据。
可选地,上述初始聚类中心的确定方式包括但不限于:1)在所述异常数据集合中随机确定任一异常数据为所述初始聚类中心;2)确定所述异常数据集合的第二特征权重均值,将所述第二特征权重均值对应的数据作为所述初始聚类中心;3)确定所述异常数据集合的第二特征权重均值,以及确定每个异常数据与所述第二特征权重均值的第四距离,将最小第四距离对应的异常数据作为所述初始聚类中心。
可以理解的是,上述初始聚类中心可以是随机确定的,也可以是根据异常数据的特征权重均值确定的;在根据异常数据的特征权重均值确定时,还可以通过以下两种方式确定,即直接将特征权重均值对应的特征数据作为初始聚类中心,或者,将距离所述特征权重均值最近的异常数据作为所述初始聚类中心。
步骤S204,根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;
需要说明的是,允许作为聚类中心的概率可以理解为:异常数据可以作为聚类中心的概率。
步骤S206,确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据。
需要说明的是,上述第一距离和上述第二距离可以为同一类型的距离,也可以为不同类型的距离,上述第二距离包括但不限于:欧氏距离、曼哈顿距离、闵可夫斯基距离切比雪夫距离、余弦相似性。
通过上述步骤,获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据,本发明实施例通过上述技术方案对异常数据进行快速准聚类,使系统异常数据聚类处理自动化,减少工程师的工作量,提高异常数据修复的效率,为软件应用平台的正常运转提供有力保障,进而采用上述技术方案,解决了缺少机器自动化处理异常数据等问题。
可选地,上述步骤S202可以通过以下方式确定:确定任一异常数据在多个错误类型维度中分别对应的第一特征权重,以及确定所述初始聚类中心对应的第二特征权重;根据所述第一特征权重和所述第二特征权重计算所述任一异常数据与初始聚类中心的第一距离。
需要说明的是,一个特征数据分别对应一个第一特征权重,第一特征权重可以为一个特征向量,进而根据每个特征数据的特征向量和初始聚类中心对应的特征向量计算所述每个异常数据与初始聚类中心的第一距离。
具体地,通过以下方式确定任一异常数据在多个错误类型维度中分别对应的第一特征权重:建立异常数据特征参考表,其中,所述异常数据特征参考表中包括:异常数据对应的异常问题,以及所述异常问题对应的特征权重;根据所述任一异常数据的目标异常问题在异常数据特征参考表中查找到对应的特征权重;确定所述目标异常问题对应的错误类型维度,并根据所述目标异常问题的特征权重确定所述每个错误类型维度的特征权重;根据所述每个错误类型维度的特征权重确定任一异常数据在多个错误类型维度中的第一特征权重。
可以理解的是,在确定任一异常数据在多个错误类型维度中分别对应的第一特征权重之前,需要建立异常数据特征参考表(例如,表1),根据异常数据特征参考表对异常数据进行数据特征分析,根据以上数据结构进行预处理每个异常数据在多个错误类型维度中分别对应的第一特征权重。
表1
举例来讲,在一个异常数据对应的异常问题为无法正常退出、用户功能缺失、操作界面错误、数据页面加载慢或操作卡顿、界面存在文字错误的情况下,所述异常数据对应的维度1的特征权重为4、维度2的特征权重2、维度3的特征权重5、维度4的特征权重1.5;异常数据对应的第一特征权重为[4,2,5,1.5]。
可选地,根据所述第一特征权重和所述第二特征权重计算所述任一异常数据与初始聚类中心的第一距离,包括:
其中,pi (1)、pi (2)、pi (3)、pi (4)为第一特征权重;/>为第二特征权重。
可选地,上述步骤S204可以通过以下方式实现:确定多个所述第一距离的和值,并确定每个异常数据对应的第一距离和所述和值的商值;确定所述商值为所述每个异常数据允许作为聚类中心的概率。
举例来讲,在第一距离为1、2、3、4的情况下,第一距离为1的异常数据允许作为聚类中心的概率为0.1;第一距离为1的异常数据允许作为聚类中心的概率为0.1;第一距离为2的异常数据允许作为聚类中心的概率为0.2;第一距离为3的异常数据允许作为聚类中心的概率为0.3;第一距离为4的异常数据允许作为聚类中心的概率为0.4。
可选地,上述步骤S204还可以通过以下方式之一实现:根据所述概率确定所述每个异常数据的累积概率;根据所述累积概率的大小对所述每个异常数据进行排序;基于排序结果确定第一个大于随机数的累积概率,并确定所述第一个大于随机数的累积概率对应的异常数据为所述第一聚类中心。
举例来讲,在上述概率为0.1、0.2、0.3、0.4的情况下,0.1对应的累积概率为0.1、0.2对应的累积概率为0.3、0.3对应的累积概率为0.6、0.4对应的累积概率为1;在确定随机数为0.5的情况下,确定0.4对应的异常数据为第一聚类中心。
可选地,根据所述第二距离对所述剩余异常数据进行聚类之后,还包括:确定每个聚类分组中的异常数据,并确定所述每个聚类分组中的异常数据的第一特征权重均值,其中,一个聚类分组对应一个第一聚类中心;确定所述第一特征权重均值与所述第一聚类中心的特征权重是否一致;根据所述第一特征权重均值与所述第一聚类中心的特征权重是否一致确定是否对所述每个异常数据进行重聚类。
需要说明的是,针对每一个聚类分组中的异常数据以求平均值的方法分别更新其聚类中心的特征权重;并根据更新后的聚类中心的特征权重与所述第一聚类中心的特征权重是否一致确定是否对所述每个异常数据进行重聚类。
具体地:
在所述第一特征权重均值与所述第一聚类中心的特征权重不一致的情况下,确定多个所述第一特征权重均值为所述异常数据集合中的多个第二聚类中心;确定每个异常数据与每个第二聚类中心的第三距离,并根据所述第三距离对所述每个异常数据进行重聚类;
在所述第一特征权重均值与所述第一聚类中心的特征权重一致的情况下,确定所述每个异常数据的聚类结果为目标聚类结果。
为了更好的理解上述数据的聚类方法的过程,以下再结合可选实施例对上述数据的聚类的实现方法流程进行说明,但不用于限定本申请实施例的技术方案。
在本实施例中提供了一种数据的聚类方法,图3是根据本申请实施例的数据的聚类方法的示意图,如图3所示,具体如下步骤:
步骤S301:创建异常数据特征参考表;
本发明实施例,建立一个通用的异常数据特征参考表,将异常数据对应的异常问题具有的特征赋予特征权重(需要说明的是,描述项和权重可根据需求调整),数据结构示例如下表2。可见,本数据级为一个4维数据,具有维度低的特点,极大地降低了数据处理的复杂度。
表2
步骤S302:数据预处理;
对收集到的数据进行数据特征分析,根据以上数据结构进行预处理得到一条待分类异常数据,如果同一维度异常问题同时具有多条描述项,其权值大小取为总权值的平均值。
例如,一个异常数据具有以下特征,如表3所示:
表3
此时该异常数据预处理如表4所示:
表4
编号 | 维度1 | 维度2 | 维度3 | 维度4 |
1 | 34/3 | 8 | 2 | 0 |
步骤S303:根据轮盘赌算法依次选出k个聚类中心;
具体地:从预处理的数据集中随机选取一个异常数据作为初始聚类中心,记作分别计算每个异常数据与p0的欧几里德距离:
然后计算每个异常数据被选为下一个聚类中心的概率,公式如下:
最后根据轮盘赌算法依次选出k个聚类中心。
步骤S304:计算每个异常数据到k个聚类中心的欧几里德距离,将其划分到距离最近的聚类中心所属的类中;
步骤S305:针对每一个类别Cj,j=1,2,…,k,以求平均值的方法分别更新其聚类中心坐标;
新的聚类中心坐标为记作/>
步骤S306:确定聚类中心是否收敛,在聚类中心未收敛的情况下,执行步骤S304-S305;在聚类中心收敛的情况下,执行步骤S307;
步骤S307:完成聚类,每一个簇代表一个异常分类集。聚类结果如图4所示。
本发明通过K-means++聚类算法对软件平台出现的异常问题进行聚类,采用异常问题的特征量化后采用K-means++聚类算法对问题进行聚类处理,可以实现准确的分类效果;可以大大降低了人工分类时产生的大量成本开支,有效提高异常修复的工作效率,适合应用到实际开发维护工作中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
图5是根据本申请实施例的一种数据的聚类装置的结构框图;如图5所示,包括:
获取模块52,用于获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;
确定模块54,用于根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;
聚类模块56,用于确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据。
通过上述装置,获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据,本发明实施例通过上述技术方案对异常数据进行快速准聚类,使系统异常数据聚类处理自动化,减少工程师的工作量,提高异常数据修复的效率,为软件应用平台的正常运转提供有力保障,进而采用上述技术方案,解决了缺少机器自动化处理异常数据等问题。
在一个示例性实施例中,获取模块52,用于确定任一异常数据在多个错误类型维度中分别对应的第一特征权重,以及确定所述初始聚类中心对应的第二特征权重;根据所述第一特征权重和所述第二特征权重计算所述任一异常数据与初始聚类中心的第一距离。
在一个示例性实施例中,确定模块54,用于建立异常数据特征参考表,其中,所述异常数据特征参考表中包括:异常数据对应的异常问题,以及所述异常问题对应的特征权重;根据所述任一异常数据的目标异常问题在异常数据特征参考表中查找到对应的特征权重;确定所述目标异常问题对应的错误类型维度,并根据所述目标异常问题的特征权重确定所述每个错误类型维度的特征权重;根据所述每个错误类型维度的特征权重确定任一异常数据在多个错误类型维度中的第一特征权重。
在一个示例性实施例中,确定模块54,用于确定多个所述第一距离的和值,并确定每个异常数据对应的第一距离和所述和值的商值;确定所述商值为所述每个异常数据允许作为聚类中心的概率;根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,包括以下之一:根据所述概率确定所述每个异常数据的累积概率;根据所述累积概率的大小对所述每个异常数据进行排序;基于排序结果确定第一个大于随机数的累积概率,并确定所述第一个大于随机数的累积概率对应的异常数据为所述第一聚类中心。
在一个示例性实施例中,确定模块54,用于确定每个聚类分组中的异常数据,并确定所述每个聚类分组中的异常数据的第一特征权重均值,其中,一个聚类分组对应一个第一聚类中心;确定所述第一特征权重均值与所述第一聚类中心的特征权重是否一致;根据所述第一特征权重均值与所述第一聚类中心的特征权重是否一致确定是否对所述每个异常数据进行重聚类。
在一个示例性实施例中,聚类模块56,用于在所述第一特征权重均值与所述第一聚类中心的特征权重不一致的情况下,确定多个所述第一特征权重均值为所述异常数据集合中的多个第二聚类中心;确定每个异常数据与每个第二聚类中心的第三距离,并根据所述第三距离对所述每个异常数据进行重聚类;在所述第一特征权重均值与所述第一聚类中心的特征权重一致的情况下,确定所述每个异常数据的聚类结果为目标聚类结果。
在一个示例性实施例中,获取模块52,用于在所述异常数据集合中随机确定任一异常数据为所述初始聚类中心;确定所述异常数据集合的第二特征权重均值,将所述第二特征权重均值对应的数据作为所述初始聚类中心;确定所述异常数据集合的第二特征权重均值,以及确定每个异常数据与所述第二特征权重均值的第四距离,将最小第四距离对应的异常数据作为所述初始聚类中心。
本申请的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;
S2,根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;
S3,确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;
S2,根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;
S3,确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种数据的聚类方法,其特征在于,包括:
获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;
根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;
确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据。
2.根据权利要求1所述的数据的聚类方法,其特征在于,获取异常数据集合中的每个异常数据与初始聚类中心的第一距离,包括以下之一:
确定任一异常数据在多个错误类型维度中分别对应的第一特征权重,以及确定所述初始聚类中心对应的第二特征权重;
根据所述第一特征权重和所述第二特征权重计算所述任一异常数据与初始聚类中心的第一距离。
3.根据权利要求2所述的数据的聚类方法,其特征在于,确定任一异常数据在多个错误类型维度中分别对应的第一特征权重,包括:
建立异常数据特征参考表,其中,所述异常数据特征参考表中包括:异常数据对应的异常问题,以及所述异常问题对应的特征权重;
根据所述任一异常数据的目标异常问题在异常数据特征参考表中查找到对应的特征权重;
确定所述目标异常问题对应的错误类型维度,并根据所述目标异常问题的特征权重确定每个错误类型维度的特征权重;
根据每个错误类型维度的特征权重确定任一异常数据在多个错误类型维度中的第一特征权重。
4.根据权利要求1所述的数据的聚类方法,其特征在于,根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,包括:
确定多个所述第一距离的和值,并确定每个异常数据对应的第一距离和所述和值的商值;确定所述商值为所述每个异常数据允许作为聚类中心的概率;根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,包括以下之一:
根据所述概率确定所述每个异常数据的累积概率;根据所述累积概率的大小对所述每个异常数据进行排序;基于排序结果确定第一个大于随机数的累积概率,并确定所述第一个大于随机数的累积概率对应的异常数据为所述第一聚类中心。
5.根据权利要求1所述的数据的聚类方法,其特征在于,根据所述第二距离对所述剩余异常数据进行聚类之后,所述方法还包括:
确定每个聚类分组中的异常数据,并确定所述每个聚类分组中的异常数据的第一特征权重均值,其中,一个聚类分组对应一个第一聚类中心;
确定所述第一特征权重均值与所述第一聚类中心的特征权重是否一致;
根据所述第一特征权重均值与所述第一聚类中心的特征权重是否一致确定是否对所述每个异常数据进行重聚类。
6.根据权利要求5所述的数据的聚类方法,其特征在于,根据所述第一特征权重均值与所述第一聚类中心的特征权重是否一致确定是否对所述每个异常数据进行重聚类,包括:
在所述第一特征权重均值与所述第一聚类中心的特征权重不一致的情况下,确定多个所述第一特征权重均值为所述异常数据集合中的多个第二聚类中心;确定每个异常数据与每个第二聚类中心的第三距离,并根据所述第三距离对所述每个异常数据进行重聚类;
在所述第一特征权重均值与所述第一聚类中心的特征权重一致的情况下,确定所述每个异常数据的聚类结果为目标聚类结果。
7.根据权利要求1所述的数据的聚类方法,其特征在于,获取异常数据集合中的每个异常数据与初始聚类中心的第一距离之前,所述方法还包括以下之一:在所述异常数据集合中随机确定任一异常数据为所述初始聚类中心;
确定所述异常数据集合的第二特征权重均值,将所述第二特征权重均值对应的数据作为所述初始聚类中心;
确定所述异常数据集合的第二特征权重均值,以及确定每个异常数据与所述第二特征权重均值的第四距离,将最小第四距离对应的异常数据作为所述初始聚类中心。
8.一种数据的聚类装置,其特征在于,包括:
获取模块,用于获取异常数据集合中的每个异常数据与初始聚类中心的第一距离;
确定模块,用于根据所述第一距离确定所述每个异常数据允许作为聚类中心的概率,并根据所述概率确定多个目标异常数据为所述异常数据集合中的第一聚类中心,其中,所述异常数据集合包括:所述多个目标异常数据;
聚类模块,用于确定剩余异常数据与每个第一聚类中心的第二距离,并根据所述第二距离对所述剩余异常数据进行聚类,其中,所述剩余异常数据为所述异常数据集合中除所述多个目标异常数据之外的数据。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310718145.4A CN116881752A (zh) | 2023-06-15 | 2023-06-15 | 数据的聚类方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310718145.4A CN116881752A (zh) | 2023-06-15 | 2023-06-15 | 数据的聚类方法和装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116881752A true CN116881752A (zh) | 2023-10-13 |
Family
ID=88270699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310718145.4A Pending CN116881752A (zh) | 2023-06-15 | 2023-06-15 | 数据的聚类方法和装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881752A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117632937A (zh) * | 2023-12-06 | 2024-03-01 | 北京开元泰达净化设备有限公司 | 一种工业互联网大数据平台及数据处理方法 |
-
2023
- 2023-06-15 CN CN202310718145.4A patent/CN116881752A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117632937A (zh) * | 2023-12-06 | 2024-03-01 | 北京开元泰达净化设备有限公司 | 一种工业互联网大数据平台及数据处理方法 |
CN117632937B (zh) * | 2023-12-06 | 2024-04-30 | 北京开元泰达净化设备有限公司 | 一种工业互联网大数据平台及数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108205570B (zh) | 一种数据检测方法和装置 | |
Hamid et al. | Structure from statistics-unsupervised activity analysis using suffix trees | |
CN116881752A (zh) | 数据的聚类方法和装置、存储介质及电子设备 | |
US20200204431A1 (en) | Automated machine-learning-based ticket resolution for system recovery | |
CN111860667A (zh) | 设备故障的确定方法及装置、存储介质、电子装置 | |
CN111506635A (zh) | 一种基于自回归和朴素贝叶斯算法的居民用电行为分析的系统及方法 | |
CN111930526A (zh) | 负载预测方法、装置、计算机设备和存储介质 | |
CN115130847A (zh) | 一种设备画像建模方法及系统 | |
Mostafavi et al. | An unsupervised approach in learning load patterns for non-intrusive load monitoring | |
CN111694957B (zh) | 基于图神经网络的问题单分类方法、设备及存储介质 | |
CN117216702A (zh) | 变电设备参数处理方法、装置及电子设备 | |
CN109902196B (zh) | 一种商标类别推荐方法、装置、计算机设备及存储介质 | |
US20220230028A1 (en) | Determination method, non-transitory computer-readable storage medium, and information processing device | |
CN111723872B (zh) | 行人属性识别方法及装置、存储介质、电子装置 | |
CN115129356A (zh) | 目标事件看板生成方法、存储介质及电子装置 | |
Mijumbi et al. | MAYOR: machine learning and analytics for automated operations and recovery | |
CN113342518A (zh) | 任务处理方法和装置 | |
CN113657475A (zh) | 基于分类的用电量预测方法 | |
CN116910245A (zh) | 类别确定方法和装置、存储介质及电子装置 | |
Wei et al. | An integrated quality assessment for IPTV operation and maintenance | |
CN116451134A (zh) | 漏洞信息的分类方法、装置和存储介质及电子设备 | |
CN115795335B (zh) | 物流网点异常识别方法、装置及电子设备 | |
CN117573803B (zh) | 基于知识图谱的新客识别方法和装置 | |
CN117726908B (zh) | 图片生成模型的训练方法及装置、存储介质、电子装置 | |
CN117555501B (zh) | 基于边缘计算的云打印机运维数据处理方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |