CN107358268A - 用于数据聚类分组的方法、装置、电子设备及可读介质 - Google Patents
用于数据聚类分组的方法、装置、电子设备及可读介质 Download PDFInfo
- Publication number
- CN107358268A CN107358268A CN201710598005.2A CN201710598005A CN107358268A CN 107358268 A CN107358268 A CN 107358268A CN 201710598005 A CN201710598005 A CN 201710598005A CN 107358268 A CN107358268 A CN 107358268A
- Authority
- CN
- China
- Prior art keywords
- data
- clusters
- historical
- distributed
- normal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种用于数据聚类分组的方法、装置、电子设备及可读介质。该方法包括:获取标准数据,所述标准数据包括时间信息;根据所述时间信息、历史数据分布簇数确定当前数据分布簇数;根据所述当前数据分布簇数对所述标准数据进行聚类运算获取中心点;以及根据所述中心点将所述标准数据进行分组。本申请公开的用于数据聚类分组的方法、装置、电子设备及可读介质,能够提高数据聚类分组的效率。
Description
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种用于数据聚类分组的方法、装置、电子设备及计算机可读介质。
背景技术
数据聚类是数据挖掘中一种常规的技术,而且聚类的数据簇数往往和业务的粘合性很高。k-means:是最为经典的基于划分的聚类方法,属于硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。K-means算法基本思想是以空间k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
但常规的k-means使用了静态的K值进行数据聚类,使得更本无法满足实际的业务需求。首先,k值为静态,但业务应用的业务数据往往为动态,随时间会有变化,所以导致聚类效果很差,严重的影响线上使用其次,如果每次聚类前都进行k值的优化判断,会导致线上的效率很差,影响业务应用。
因此,需要一种新的用于数据聚类分组的方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种用于数据聚类分组的方法、装置、电子设备及计算机可读介质,能够提高数据聚类分组的效率。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提出一种用于数据聚类分组的方法,该方法包括:获取标准数据,标准数据包括时间信息;根据所述时间信息,历史数据分布簇数确定当前数据分布簇数;根据当前数据分布簇数对标准数据进行聚类运算获取中心点;以及根据中心点将标准数据进行分组。
在本公开的一种示例性实施例中,还包括:通过历史标准数据获取历史数据分布簇数。
在本公开的一种示例性实施例中,通过历史标准数据获取历史数据分布簇数,包括:按照预定的数据分布簇数对历史标准数据进行预聚类处理;通过预聚类处理获取轮廓系数;以及通过轮廓系数与预定规则获取历史数据分布簇数。
在本公开的一种示例性实施例中,通过轮廓系数与预定规则获取历史数据分布簇数,包括:获取轮廓系数中的预定个极大值;将满足预定条件的预定个极大值之一作为第一轮廓系数;以及通过第一轮廓系数与预定规则获取历史数据分布簇数。
在本公开的一种示例性实施例中,通过轮廓系数与预定规则获取历史数据分布簇数,包括:按照时间信息将历史数据进行排序处理;通过轮廓系数与预定规则,分别获取各个历史时间内历史数据分布簇数。
在本公开的一种示例性实施例中,获取标准数据,包括:确定指标和指标值;根据指标和指标值获取原始数据;以及将原始数据进行数据处理获取标准数据。
在本公开的一种示例性实施例中,将原始数据进行数据处理获取标准数据,包括:对原始数据进行离群点处理以获取第一数据;对第一数据进行空值处理以获取第二数据;以及对第二数据进行标准化数据以获取标准数据。
在本公开的一种示例性实施例中,对第二数据进行标准化数据以获取标准数据,包括如下公式:
其中,A为标准化数据,A1为第二数据,Ap为第二数据的均值,AE为第二数据的方差值。
在本公开的一种示例性实施例中,根据所述时间信息,历史数据分布簇数确定当前数据分布簇数,包括:按照时间序列,通过历史数据分布簇数确定当前数据分布簇数。
在本公开的一种示例性实施例中,根据所述时间信息,历史数据分布簇数确定当前数据分布簇数,包括以下至少一者:通过均值法处理历史数据分布簇数确定当前数据分布簇数;以及通过加权平均法处理历史数据分布簇数确定当前数据分布簇数。
根据本发明的一方面,提出一种用于数据聚类分组的装置,该装置包括:数据模块,用于获取标准数据,标准数据包括时间信息;确值模块,用于根据时间信息,通过历史数据分布簇数确定当前数据分布簇数;聚类模块,用于根据当前数据分布簇数对标准数据进行聚类运算获取中心点;以及分组模块,用于根据中心点将标准数据进行分组。
在本公开的一种示例性实施例中,还包括:储值模块,用于通过历史标准数据获取历史数据分布簇数。
根据本发明的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本发明的一方面,提出一种计算机可读介质,其上存储有计算机程序,其特征在于,程序被处理器执行时实现如上文中的方法。
根据本发明的用于数据聚类分组的方法、装置、电子设备及计算机可读介质,能够提高数据聚类分组的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用于数据聚类分组的方法的流程图。
图2是根据另一示例性实施例示出的一种用于数据聚类分组的方法的流程图。
图3是根据一示例性实施例示出的一种用于数据聚类分组的装置的框图。
图4是根据另一示例性实施例示出的一种用于数据聚类分组的装置的框图。
图5是根据另一示例性实施例示出的一种电子设备的框图。
具体实施例
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的,因此不能用于限制本发明的保护范围。
下面结合附图对本公开示例实施方式进行详细说明。
图1是根据一示例性实施例示出的一种用于数据聚类分组的方法的流程图。
如图1所示,在S102中,获取标准数据,标准数据包括时间信息。标准数据可例如,通过将原始数据经过数据清洗获取。可例如,首先通过SQL语句WHERE限定获取业务相关的条件,再获取需要的目标数据。还可例如,将数据清洗后的数据经过数据整理,可例如,去除空值数据、去除明显不符合常理的数据进而获取标准数据等等。本发明不以此为限。
在S104中,根据时间信息,历史数据分布簇数确定当前数据分布簇数。可例如,通过历史标准数据获取历史数据分布簇数。还可例如,通过人工经验设定,获取历史分布簇数。可例如,根据当前的时间,获取历史簇数中,相似时间中的分布簇数数据,通过相似时间中的分布簇数数据确定当前数据分布簇数。可例如,通过均值法处理历史数据分布簇数确定当前数据分布簇数,即为选择距离当前时间最近的N个数据时期内的分布簇数数据,进行平均计算,获取当前簇数数据。还可例如,通过加权平均法处理历史数据分布簇数确定当前数据分布簇数,即为选取历史时期中N个数据期间内的分布簇数,分别设置各个时期的权重,对其进行加权平均,获取当前分布簇数。本发明不以此为限。
在S106中,根据当前数据分布簇数对标准数据进行聚类运算获取中心点。在确定当前分布簇数之后,对标准数据进行聚类运算,获取标准数据中的数个中心点。
在S108中,根据中心点将标准数据进行分组。将标准数据按照中心点进行分组,可例如,根据数据与中心点之间的距离,将标准数据进行分组。
根据本发明的用于数据聚类分组的方法,通过时间信息与历史分布簇数信息,确定当前分布簇数数据,进而根据确定好的当前簇数进行聚类运算并分组的方式,能够节约当前数据聚类中分布簇数的计算时间,提高数据聚类分组的效率。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
在本公开的一种示例性实施例中,还包括:通过历史标准数据获取历史数据分布簇数。包括:按照预定的数据分布簇数对历史标准数据进行预聚类处理;通过预聚类处理获取轮廓系数;以及通过轮廓系数与预定规则获取历史数据分布簇数。
在本公开的一种示例性实施例中,通过轮廓系数与预定规则获取历史数据分布簇数,包括:获取轮廓系数中的预定个极大值;将满足预定条件的预定个极大值之一作为第一轮廓系数;以及通过第一轮廓系数与预定规则获取历史数据分布簇数。
在本公开的一种示例性实施例中,通过轮廓系数与预定规则获取历史数据分布簇数,包括:按照时间信息将历史数据进行排序处理;通过轮廓系数与预定规则,分别获取各个历史时间内历史数据分布簇数。
在本发明实施例中,分布簇数用K进行标识。计算获取历史K值可例如通过如下步骤。
1.分别计算历史区间上各个数据K值,返回的结果为分析[期间,K]数据对。该步骤的详细计算过程可例如:
1)按照各个预定聚类个数分别对业务数据进行预聚类,计算每个预定聚类个数对应的预聚类结果的轮廓系数。
设参与聚类的业务数据总数为n。当采用n作为预定聚类个数时,聚类结果的轮廓系数为f(n),聚类结果中第i个数据点的轮廓系数为Si,聚类结果和数据i点的轮廓系数的计算方法分别如公式(1)和公式(2)所示:
其中,ai为第i个业务数据到类内每个业务数据的距离的平均值;对于bi,可例如,首先求第i个业务数据到不包含该业务数据的各个类中每个业务数据的距离的平均值,将各个平均值的最小值作为bi。
2)按照预定聚类个数递增的顺序排列相应的轮廓系数,获取轮廓系数中的若干极大值,并确定其中的最大值;上述步骤可以通过坐标系较为直观地表述出来。当横坐标为预定聚类个数,纵坐标为轮廓系数时,将各个聚类结果对应的数据点依次连接,纵坐标大于相邻两点的数据点对应的轮廓系数即为极大值,各个极大值中的最大值也是所有数据点中的极大值。
3)将首次出现的符合预设条件的极大值对应的预聚类个数作为实际聚类个数,预设条件为极大值与最大值的差值小于预设值。
轮廓系数用于衡量聚类结果中各个类本身的凝聚度以及不同类之间的分离度,因此通常将轮廓系数的最大值对应的聚类个数作为实际聚类个数。然而,对于业务上的分类,在满足了轮廓系数较大的情况下,还需要使聚类个数较小,以免聚类个数过多不利于业务分类结果的呈现。可例如,选取在特定阈值以上的若干极大值,例如大于最大值减去0.1后所得值的极大值,再将符合上述条件的若干极大值所对应的最小的聚类个数作为实际聚类个数。
根据一些实施例,确定实际聚类个数的可例如:首先判断第一个极大值是否为最大值,如果是,则将最大值对应的聚类个数作为实际聚类个数;如果第一个极大值不是最大值,则将首次出现的与所述最大值的差距小于预设值的极大值对应的聚类个数作为实际聚类个数。
4)通过步骤1)2)3),分别计算历史期间中的各个K值,将上述的K值和数据期间分别存储。
值得一提的是,在本发明实施例中,数据具有如下特征:1,数据期间的间隔是一致的,比如都是每天,每周,每月,每年或者每小时等等,符合时间序列特性。2,数据存储需要按照数据期间先后顺序存储。
根据本发明的用于数据聚类分组的方法,根据轮廓系数与预定规则获取历史数据分布簇数的方式,能够快速有效的确定历史数据中的分布簇数。
在本公开的一种示例性实施例中,获取标准数据,包括:确定指标和指标值;根据指标和指标值获取原始数据;以及将原始数据进行数据处理获取标准数据。
可例如,根据实际使用中的情况为出发点,定义需要聚类的各个指标和指标值,存储为一个数据集,还可例如对指标选择性添加标识信息。因为每个聚类应用出发点不同,所以拿来进行聚类的数据指标也不同,在这里进行定义的数据指标集也是一个动态的结果集。实现步骤描述可例如:
1、计算指标数据加工
指标计算可以通过ETL技术加工处理。首先通过SQL语句WHERE限定业务指标的条件,再将计算指标结果插入到目标表结构中。通过这种方式,分别计算各个指标固定维度的数值。
2、数据结果弹性集
通过SQL结果集合并,可例如,提供如下数据格式的表数据信息。数据表格中的信息包含数据时间信息。
ID | 指标1 | 指标2 | 指标3 | …… | 指标n | 数据日期 |
1 | Val1 | Val2 | Val3 | … | Valn | 2016-12-31 |
2 | Val1 | Val2 | Val3 | … | Valn | 2016-12-30 |
在本公开的一种示例性实施例中,将原始数据进行数据处理获取标准数据,包括:对原始数据进行离群点处理以获取第一数据;对第一数据进行空值处理以获取第二数据;以及对第二数据进行标准化数据以获取标准数据。
常规下,空值的处理需要按照整体数据分布进行填充,但离群点的存在,严重性的影响数据趋势,所以可例如,先对数据进行离群点处理,再进行补空。可以尽可能处理提高数据质量。
大部分的聚类算法都是以距离进行测算两点之间的距离进行处理,离群点的存在,会扩大距离,从而使的聚类功能模型产生误差。
统计学中利用均值、加减样本方差、进行区间估计,在本发明实施例中,依赖该原理进行改进处理。常规的离群点处理简单赋予均值,这样造成过多的数据趋势丢失。通过判断指标值过小或者过大造成的数据离群,尽可能保留数据趋势丢失造成的误差。
处理步骤可例如:
1)踢除指标空值。
2)分别计算的指标均值、方差,25分位数,75分位数。
3)筛选不在区间【均值-方差,均值+方差】的指标值。
4)如果指标值小于均值-方差,则赋予25分位数;如果指标值大于均值+方差,则赋予75分位数。
5)通过步骤1)2)3)4)循环处理每个指标。
进行数据空处理实现步骤可例如:
1)筛选经过离群处理之后,可例如为第一数据的指标数据空值。
2)重新计算离群处理之后,可例如为第一数据的指标均值。
3)将均值赋予空值。
4)通过步骤1)2)3)循环处理每个指标。
还可例如,对以上数据进行标准化或者规范化,消除由于数据大小不一导致聚类效果差异问题,从而达到聚类各个属性等权重、等作用的效果。数据标准化也就是统计数据的指数化,主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。在本公开的一种示例性实施例中,对第二数据进行标准化数据以获取标准数据,包括如下公式:
其中,A为标准化数据,A1为第二数据,Ap为第二数据的均值,AE为第二数据的方差值。
根据本发明的用于数据聚类分组的方法,通过数据离群点处理、空值处理以及标准化等数据处理的方式,对原始数据进行加工,能够消除由于数据大小不一导致聚类效果差异问题,从而达到聚类各个属性等权重、等作用的效果。
在本公开的一种示例性实施例中,根据时间信息,通过历史数据分布簇数确定当前数据分布簇数,包括:按照时间序列,通过历史数据分布簇数确定当前数据分布簇数。
在本公开的一种示例性实施例中,根据时间信息,通过历史数据分布簇数确定当前数据分布簇数,包括以下至少一者:通过均值法处理历史数据分布簇数确定当前数据分布簇数;以及通过加权平均法处理历史数据分布簇数确定当前数据分布簇数。
时间序列算法:是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。
在本发明实施例中,通过时间序列模型预测下一个期间K值,做为本次聚类的簇数。计算方法有多种,常用的方法如下,可以选择其中一种:
均值法:每次选择距今最近的N个(N为大于等于2的整数)数据期间的K值,然后对其进行计算均值,最后可例如,通过四舍五入求整数后,将改值作为当前k值。
加权平均法:选取历史N个(N为大于等于2的整数)数据期间的K值,然后设置各个期间的权重,对其进行加权平均,最后可例如,通过四舍五入求整数后,将改值作为当前k值。
其他方法:还可例如套用时间序列分析的更多方法进行当前K值的预测,比如ARIMA,回归等等方法,本发明不以此为限。
图2是根据另一示例性实施例示出的一种用于数据聚类分组的方法的流程图。
如图2所示,在S202中,进行指标计算。
在S204中,离群点处理。
在S206中,标准化处理。
在S208中,确定k值。
在S210中,聚类运算。
在S212中,数据聚类分组。
通过以上的流程,可例实现本发明实施例中的方法。其中,在聚类运算中,可例如通过如下方法实现:目前业务应用范围最广的为k-means,本发明实施例中,采用k-means的算法原理进行计算,当然也可以根据业务的场景的特殊性进行调整使用其他的聚类算法。
k-means算法描述如下:1)通过上文所述的方法获取本次计算的K值,同时随机抽样K个数据点做为中心点。
2)对所有数据点,计算其到k个中心的距离,将该数据点归到距离最近的中心点所在分组。
3)按照该组中所有点的平均值做为新的中心点。
4)判断该中心点和上一个中心点的差异性,如果差异大,则返回到2)。
3)步骤进行继续迭代,如果差异很小,则停止迭代,该聚类中心为最优聚类中心。
5)返回最终的K个聚类中心点,同时对每个点进行编码。
计算标准数据中的数据与返回列表各个中点的距离,把标准数据中的点归属到到中心点距最小分组中。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图3是根据一示例性实施例示出的一种用于数据聚类分组的装置的框图。
其中,数据模块302用于获取标准数据,标准数据包括时间信息。
确值模块304用于通过历史数据分布簇数确定当前数据分布簇数。
聚类模块306用于根据当前数据分布簇数对标准数据进行聚类运算获取中心点。
分组模块308用于根据中心点将标准数据进行分组。
在本公开的一种示例性实施例中,还包括:储值模块(图中未示出)用于通过历史标准数据获取历史数据分布簇数。
根据本发明的用于数据聚类分组的装置,通过时间信息与历史分布簇数信息,确定当前分布簇数数据,进而根据确定好的当前簇数进行聚类运算并分组的方式,能够节约当前数据聚类中分布簇数的计算时间,提高数据聚类分组的效率。
图4是根据另一示例性实施例示出的一种用于数据聚类分组的装置的框图。
指标计算装置402,用户对原始数据中的指标进行计算,以获取待计算的相关数据。
离群点处理装置404,用于对数据进行离群点处理。
标准化处理装置406,用于对数据进行标准化处理。
聚类K值确定装置408,用于通过历史数据,确定当前计算的k值。
聚类装置410,用于对数据进行聚类运算。
数据聚类分组装置412,用于对数据进行聚类分组。
图5是根据另一示例性实施例示出的一种电子设备的框图。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备50的结构示意图。图5示出的电子设设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统50包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统50操作所需的各种程序和数据。CPU501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取标准数据,标准数据包括时间信息;通过历史数据分布簇数确定当前数据分布簇数;根据当前数据分布簇数对标准数据进行聚类运算获取中心点;以及根据中心点将标准数据进行分组。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。
通过以上的详细描述,本领域的技术人员易于理解,根据本发明实施例的用于数据聚类分组的方法、装置、电子设备及计算机可读介质具有以下优点中的一个或多个。
根据一些实施例,本发明的用于数据聚类分组的装置,通过时间信息与历史分布簇数信息,确定当前分布簇数数据,进而根据确定好的当前簇数进行聚类运算并分组的方式,能够节约当前数据聚类中分布簇数的计算时间,提高数据聚类分组的效率。
根据另一些实施例,本发明的用于数据聚类分组的方法,根据轮廓系数与预定规则获取历史数据分布簇数的方式,能够快速有效的确定历史数据中的分布簇数。
根据再一些实施例,本发明的用于数据聚类分组的方法,通过数据离群点处理、空值处理以及标准化等数据处理的方式,对原始数据进行加工,能够消除由于数据大小不一导致聚类效果差异问题,从而达到聚类各个属性等权重、等作用的效果。
以上具体地示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本发明可实施的范畴。
Claims (14)
1.一种用于数据聚类分组的方法,其特征在于,包括:
获取标准数据,所述标准数据包括时间信息;
根据所述时间信息,历史数据分布簇数确定当前数据分布簇数;
根据所述当前数据分布簇数对所述标准数据进行聚类运算获取中心点;以及
根据所述中心点将所述标准数据进行分组。
2.如权利要求1所述的方法,其特征在于,还包括:
通过历史标准数据获取所述历史数据分布簇数。
3.如权利要求2所述的方法,其特征在于,所述通过历史标准数据获取所述历史数据分布簇数,包括:
按照预定的数据分布簇数对所述历史标准数据进行预聚类处理;
通过所述预聚类处理获取轮廓系数;以及
通过所述轮廓系数与预定规则获取所述历史数据分布簇数。
4.如权利要求3所述的方法,其特征在于,所述通过所述轮廓系数与预定规则获取所述历史数据分布簇数,包括:
获取所述轮廓系数中的预定个极大值;
将满足预定条件的所述预定个极大值之一作为第一轮廓系数;以及
通过第一轮廓系数与预定规则获取所述历史数据分布簇数。
5.如权利要求4所述的方法,其特征在于,所述通过所述轮廓系数与预定规则获取所述历史数据分布簇数,包括:
按照时间信息将所述历史数据进行排序处理;
通过所述轮廓系数与预定规则,分别获取各个历史时间内所述历史数据分布簇数。
6.如权利要求1所述的方法,其特征在于,所述获取标准数据,包括:
确定指标和指标值;
根据所述指标和指标值获取原始数据;以及
将所述原始数据进行数据处理获取标准数据。
7.如权利要求6所述的方法,其特征在于,所述将所述原始数据进行数据处理获取标准数据,包括:
对所述原始数据进行离群点处理以获取第一数据;
对所述第一数据进行空值处理以获取第二数据;以及
对所述第二数据进行标准化数据以获取标准数据。
8.如权利要求7所述的方法,其特征在于,所述对所述第二数据进行标准化数据以获取标准数据,包括如下公式:
<mrow>
<mi>A</mi>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>A</mi>
<mn>1</mn>
</msub>
<mo>-</mo>
<msub>
<mi>A</mi>
<mi>p</mi>
</msub>
</mrow>
<msub>
<mi>A</mi>
<mi>E</mi>
</msub>
</mfrac>
<mo>;</mo>
</mrow>
其中,A为所述标准化数据,A1为所述第二数据,Ap为所述第二数据的均值,AE为所述第二数据的方差值。
9.如权利要求1所述的方法,其特征在于,所述根据所述时间信息,历史数据分布簇数确定当前数据分布簇数,包括:
按照时间序列法,通过历史数据分布簇数确定当前数据分布簇数。
10.如权利要求1所述的方法,其特征在于,所述根据所述时间信息,历史数据分布簇数确定当前数据分布簇数,包括以下至少一者:
通过均值法处理历史数据分布簇数确定当前数据分布簇数;以及
通过加权平均法处理历史数据分布簇数确定当前数据分布簇数。
11.一种用于数据聚类分组的装置,其特征在于,包括:
数据模块,用于获取标准数据,所述标准数据包括时间信息;
确值模块,用于根据所述时间信息,历史数据分布簇数确定当前数据分布簇数;
聚类模块,用于根据所述当前数据分布簇数对所述标准数据进行聚类运算获取中心点;以及
分组模块,用于根据所述中心点将所述标准数据进行分组。
12.如权利要求11所述的装置,其特征在于,还包括:
储值模块,用于通过历史标准数据获取所述历史数据分布簇数。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710598005.2A CN107358268A (zh) | 2017-07-20 | 2017-07-20 | 用于数据聚类分组的方法、装置、电子设备及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710598005.2A CN107358268A (zh) | 2017-07-20 | 2017-07-20 | 用于数据聚类分组的方法、装置、电子设备及可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107358268A true CN107358268A (zh) | 2017-11-17 |
Family
ID=60284590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710598005.2A Pending CN107358268A (zh) | 2017-07-20 | 2017-07-20 | 用于数据聚类分组的方法、装置、电子设备及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107358268A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472455A (zh) * | 2018-10-12 | 2019-03-15 | 中国平安人寿保险股份有限公司 | 活动评估方法、装置、电子设备及存储介质 |
CN110442142A (zh) * | 2018-05-02 | 2019-11-12 | 北京京东尚科信息技术有限公司 | 速度数据处理方法、装置、电子设备及计算机可读介质 |
CN110493026A (zh) * | 2018-05-15 | 2019-11-22 | 中国移动通信集团浙江有限公司 | 无线通信网络来电投诉处理方法及装置 |
CN110796164A (zh) * | 2019-09-20 | 2020-02-14 | 北京海益同展信息科技有限公司 | 数据聚类的簇数确定方法、系统、电子设备及存储介质 |
CN111382754A (zh) * | 2018-12-27 | 2020-07-07 | 中国移动通信集团山西有限公司 | 用户聚类方法、装置、设备和介质 |
CN111738319A (zh) * | 2020-06-11 | 2020-10-02 | 佳都新太科技股份有限公司 | 一种基于大规模样本的聚类结果评价方法及装置 |
CN111784069A (zh) * | 2020-07-09 | 2020-10-16 | 平安国际智慧城市科技股份有限公司 | 用户偏好预测方法、装置、设备及存储介质 |
CN112204544A (zh) * | 2018-06-28 | 2021-01-08 | 亚马逊技术股份有限公司 | 动态分布式数据聚类 |
CN112771510A (zh) * | 2018-11-16 | 2021-05-07 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN114996331A (zh) * | 2022-06-10 | 2022-09-02 | 北京柏睿数据技术股份有限公司 | 一种数据挖掘控制方法和系统 |
-
2017
- 2017-07-20 CN CN201710598005.2A patent/CN107358268A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442142B (zh) * | 2018-05-02 | 2022-12-27 | 北京京东尚科信息技术有限公司 | 速度数据处理方法、装置、电子设备及计算机可读介质 |
CN110442142A (zh) * | 2018-05-02 | 2019-11-12 | 北京京东尚科信息技术有限公司 | 速度数据处理方法、装置、电子设备及计算机可读介质 |
CN110493026A (zh) * | 2018-05-15 | 2019-11-22 | 中国移动通信集团浙江有限公司 | 无线通信网络来电投诉处理方法及装置 |
CN110493026B (zh) * | 2018-05-15 | 2022-05-06 | 中国移动通信集团浙江有限公司 | 无线通信网络来电投诉处理方法及装置 |
CN112204544A (zh) * | 2018-06-28 | 2021-01-08 | 亚马逊技术股份有限公司 | 动态分布式数据聚类 |
CN109472455A (zh) * | 2018-10-12 | 2019-03-15 | 中国平安人寿保险股份有限公司 | 活动评估方法、装置、电子设备及存储介质 |
CN109472455B (zh) * | 2018-10-12 | 2023-11-28 | 中国平安人寿保险股份有限公司 | 活动评估方法、装置、电子设备及存储介质 |
CN112771510A (zh) * | 2018-11-16 | 2021-05-07 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN111382754A (zh) * | 2018-12-27 | 2020-07-07 | 中国移动通信集团山西有限公司 | 用户聚类方法、装置、设备和介质 |
CN111382754B (zh) * | 2018-12-27 | 2024-03-01 | 中国移动通信集团山西有限公司 | 用户聚类方法、装置、设备和介质 |
CN110796164A (zh) * | 2019-09-20 | 2020-02-14 | 北京海益同展信息科技有限公司 | 数据聚类的簇数确定方法、系统、电子设备及存储介质 |
CN111738319A (zh) * | 2020-06-11 | 2020-10-02 | 佳都新太科技股份有限公司 | 一种基于大规模样本的聚类结果评价方法及装置 |
CN111784069B (zh) * | 2020-07-09 | 2023-11-14 | 平安国际智慧城市科技股份有限公司 | 用户偏好预测方法、装置、设备及存储介质 |
CN111784069A (zh) * | 2020-07-09 | 2020-10-16 | 平安国际智慧城市科技股份有限公司 | 用户偏好预测方法、装置、设备及存储介质 |
CN114996331A (zh) * | 2022-06-10 | 2022-09-02 | 北京柏睿数据技术股份有限公司 | 一种数据挖掘控制方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107358268A (zh) | 用于数据聚类分组的方法、装置、电子设备及可读介质 | |
CN110474808B (zh) | 一种流量预测方法及装置 | |
CN107480187A (zh) | 基于聚类分析的用户价值分类方法和装置 | |
JP2002543538A (ja) | 実験データの分布状階層的発展型モデリングと可視化の方法 | |
US20090006176A1 (en) | Methods and systems of organizing vendors of production print services by ratings | |
CN111435463A (zh) | 数据处理方法及相关设备、系统 | |
CN107886241A (zh) | 资源分析方法、装置、介质和电子设备 | |
CN110796159A (zh) | 基于k-means算法的电力数据分类方法及系统 | |
CN115422788B (zh) | 一种配电网线损分析管理方法、装置、存储介质及系统 | |
CN110097302A (zh) | 分配订单的方法和装置 | |
CN114066073A (zh) | 电网负荷预测方法 | |
CN111047406B (zh) | 一种电信套餐推荐方法、装置、存储介质和设备 | |
CN113657678A (zh) | 一种基于信息新鲜度的电网电力数据预测方法 | |
Akşin et al. | Modeling a phone center: Analysis of a multichannel, multiresource processor shared loss system | |
CN109447103A (zh) | 一种基于硬聚类算法的大数据分类方法、装置及设备 | |
CN110503117A (zh) | 数据聚类的方法和装置 | |
CN113268321A (zh) | 用于边缘计算的数据处理调配方法 | |
CN110599281A (zh) | 一种确定目标店铺的方法和装置 | |
CN111506624A (zh) | 一种电力缺失数据辨识方法和相关装置 | |
CN111209105A (zh) | 扩容处理方法、装置、设备及可读存储介质 | |
CN115049429A (zh) | 增益预测方法、装置和计算机设备 | |
CN113935407A (zh) | 一种异常行为识别模型确定方法及装置 | |
CN108898264B (zh) | 一种重叠社区集合质量度量指标的计算方法及装置 | |
CN107862412A (zh) | 一种数据处理方法及装置 | |
CN114862188A (zh) | 一种农产品电商数据的分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171117 |
|
RJ01 | Rejection of invention patent application after publication |