CN112580676A - 聚类方法、聚类装置、计算机可读介质及电子设备 - Google Patents

聚类方法、聚类装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN112580676A
CN112580676A CN201910935828.9A CN201910935828A CN112580676A CN 112580676 A CN112580676 A CN 112580676A CN 201910935828 A CN201910935828 A CN 201910935828A CN 112580676 A CN112580676 A CN 112580676A
Authority
CN
China
Prior art keywords
sample data
coding
difference
probability
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910935828.9A
Other languages
English (en)
Inventor
李伟伟
姜婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Zhenshi Information Technology Co Ltd filed Critical Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority to CN201910935828.9A priority Critical patent/CN112580676A/zh
Publication of CN112580676A publication Critical patent/CN112580676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例提供了一种聚类方法、聚类装置、计算机可读介质及电子设备,涉及数据挖掘技术领域。该聚类方法包括:计算各样本数据之间的差异度;对所述差异度进行哈夫曼编码,得到编码特征;利用所述编码特征确定所述样本数据之间的相似概率,将所述相似概率满足预设要求的样本数据划分为同一类。本公开实施例的技术方案能够提供一种新的数据聚类方法,为数据分析提供新的方向。

Description

聚类方法、聚类装置、计算机可读介质及电子设备
技术领域
本公开涉及数据挖掘技术领域,具体而言,涉及一种聚类方法、聚类装置、计算机可读介质及电子设备。
背景技术
随着信息技术的进步,数据收集变得越来越容易,导致数据量级越来越大,复杂性越来越高。聚类是指将物理或抽象对象的集合分组为由类似的对象组成的多个类,从而分析数据的特征。作为分析数据特征的有力手段,聚类被广泛应用于各种领域,例如市场分析、信息安全、金融、娱乐等。
目前,聚类算法有很多,例如k-Means、k-Means++、DBSCAN,层次聚类,SMO,k-prototypes等等。不同的聚类算法各有优缺点,根据实际应用场景的需要可以灵活地选择对应的算法,以得到想要的结果。因此,新的聚类算法不仅能够提供更多的选择、也能提供新的研究方向。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明人发现,常用的聚类算法主要有K-means、层次聚类算法、SOM聚类算法、FCM聚类算法。这四种聚类算法各有优缺点,例如K-means算法需要设定希望得到的聚类数K,初始点随机选取容易造成聚类结果的不稳定;层次聚类虽然不需要确定分类数,但是一旦一个分裂或者合并被执行就不能修正,聚类质量受限制;FCM对初始聚类中心敏感,需要人为确定聚类数,容易陷入局部最优解;SOM处理时间较长,不适合数据维度较大场景。
本公开实施例的目的在于提供一种聚类方法、聚类装置、计算机可读介质及电子设备,进而以一种新的聚类算法,至少在一定程度上克服上述问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的第一方面,提供了一种聚类方法,包括:计算各样本数据之间的差异度;对所述差异度进行哈夫曼编码,得到编码特征;利用所述编码特征确定所述样本数据之间的相似概率,将所述相似概率满足预设要求的样本数据划分为同一类。
在本公开的一种示例性实施例中,所述计算各样本数据之间的差异度,包括:对所述样本数据进行标准化;计算所述标准化之后各样本数据之间的欧式距离,获得各所述样本数据之间的差异度。
在本公开的一种示例性实施例中,所述对所述差异度进行哈夫曼编码之前,还包括:按照样本数据的总数量对所述差异度的精确度进行处理。
在本公开的一种示例性实施例中,所述对所述差异度进行哈夫曼编码,得到编码特征,包括:提取第一样本数据与其他各样本数据之间的差异度,获得第一样本数据的差异度集合;利用所述差异度集合中的差异度,生成所述第一样本数据对应的哈夫曼树;基于所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的编码特征。
在本公开的一种示例性实施例中,所述基于所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的编码特征,包括:根据所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的哈夫曼编码;确定所述哈夫曼编码的长度为所述其他各样本数据与所述第一样本数据之间的编码特征。
在本公开的一种示例性实施例中,所述利用所述编码特征确定所述样本数据之间的相似概率,包括:提取出第一样本数据与其他各样本数据之间的编码特征为第一特征集合;提取出第二样本数据与其他各样本数据之间的编码特征为第二特征集合;从所述第一特征集合与所述第二特征集合中,统计编码特征相同的样本数据的数量;利用所述数量计算所述编码特征相同的样本数据的概率,获得所述第一样本数据与所述第二样本数据之间的相似概率。
在本公开的一种示例性实施例中,所述利用所述编码特征确定各所述样本数据之间的相似概率,将所述相似概率满足预设要求的样本数据划分为同一类,包括:利用所述编码特征计算各所述样本数据之间的相似概率,获取概率图;确定所述概率图中所述相似概率超过预设值的样本数据之间连通,获取连通子图,以得到分类结果。
根据本公开实施例的第二方面,提供了一种聚类装置,包括差异计算单元,用于计算各样本数据之间的差异度;差异编码单元,用于对所述差异度进行哈夫曼编码,得到编码特征;分类确定单元,用于利用所述编码特征确定所述样本数据之间的相似概率,将所述相似概率满足预设要求的样本数据划分为同一类。
在本公开的一种示例性实施例中,差异计算单元包括:数据标准化单元,用于对所述样本数据进行标准化;距离计算单元,用于计算所述标准化之后各样本数据之间的欧式距离,获得各所述样本数据之间的差异度。
在本公开的一种示例性实施例中,所述聚类装置还可以包括:精确度处理单元,用于按照样本数据的总数量对所述差异度的精确度进行处理。
在本公开的一种示例性实施例中,差异编码单元可以具体包括:数据提取单元,用于提取第一样本数据与其他各样本数据之间的差异度,获得第一样本数据的差异度集合;哈夫曼树生成单元,用于利用所述差异度集合中的差异度,生成所述第一样本数据对应的哈夫曼树;编码确定单元,用于基于所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的编码特征。
在本公开的一种示例性实施例中,编码确定单元可以具体用于根据所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的哈夫曼编码;确定所述哈夫曼编码的长度为所述其他各样本数据与所述第一样本数据之间的编码特征。
在本公开的一种示例性实施例中,分类确定单元包括:数据提取第一单元,用于提取出第一样本数据与其他各样本数据之间的编码特征为第一特征集合;数据提取第二单元,用于提取出第二样本数据与其他各样本数据之间的编码特征为第二特征集合;统计单元,用于从所述第一特征集合与所述第二特征集合中,统计编码特征相同的样本数据的数量;概率计算单元,用于利用所述数量计算所述编码特征相同的样本数据的概率,获得所述第一样本数据与所述第二样本数据之间的相似概率。
在本公开的一种示例性实施例中,分类确定单元可以具体用于:利用所述编码特征计算各所述样本数据之间的相似概率,获取概率图;以及,确定所述概率图中所述相似概率超过预设值的样本数据之间连通,获取连通子图,以得到分类结果。
根据本公开实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的聚类方法。
根据本公开实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的聚类方法。
本公开实施例提供的技术方案可以包括以下有益效果:
在本公开的一些实施例所提供的技术方案中,一方面,通过计算各样本数据之间的差异度,对差异度进行哈夫曼编码得到编码特征,利用编码特征确定各样本数据之间的相似概率,从而实现对数据进行分类,提供了一种新的聚类算法,为数据分析提供了新的方向。另一方面,利用样本数据之间的差异的编码特征对样本数据进行分类,从而更加客观准确地衡量数据之间的差异,提高分类的准确性;并且,无需设定分类数,能够自主地对数据进行分类,从而提高分类的灵活性。再一方面,相似概率的计算以及分类确定过程均可以实现并行,能够降低复杂度;并且,在数据量级比较大的场景中,能够有效缩短计算时间,提高效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了用于实现本公开的实施例的聚类方法的系统架构图;
图2示意性示出了根据本公开的实施例的聚类方法的流程图;
图3示意性示出了根据本公开的另一实施例的聚类方法的流程图;
图4示意性示出了根据本公开的实施例的编码效果示意图;
图5示意性示出了根据本公开的又一实施例的聚类方法的流程图;
图6示意性示出了根据本公开的实施例的聚类装置的框图;
图7示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本公开的示例性实施例中首先提供一种用于实现聚类方法的系统架构。参考图1所示,该系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送请求指令等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本公开实施方式所提供的聚类方法一般由服务器105执行,相应地,聚类装置一般设置于终端设备101中。
基于上述系统架构100,本公开示例性实施例中提供一种聚类方法,如图2所示,该聚类方法可以包括以下步骤:
S210.计算各样本数据之间的差异度;
S220.对所述差异度进行哈夫曼编码,得到编码特征;
S230.利用所述编码特征确定各所述样本数据之间的相似概率,将所述相似概率满足预设要求的样本数据划分为同一类。
在本示例性实施方式提供的技术方案中,一方面,通过计算各样本数据之间的差异度,对差异度进行哈夫曼编码得到编码特征,利用编码特征确定各样本数据之间的相似概率,从而实现对数据进行分类,提供了一种新的聚类算法,为数据分析提供了新的方向。另一方面,利用样本数据之间的差异的编码特征对样本数据进行分类,从而更加客观准确地衡量数据之间的差异,提高分类的准确性;并且,无需设定分类数,能够自主地对数据进行分类,从而提高分类的灵活性。再一方面,相似概率的计算以及分类确定过程均可以实现并行,能够降低复杂度;并且,在数据量级比较大的场景中,能够有效缩短计算时间,提高效率。
下面,对本示例性实施方式中的各个步骤进行详细描述。
首先,在步骤S210中,计算各样本数据之间的差异度。
差异度可以指数据间的差异的大小或者相似的程度,通过距离算法或相似度算法可以计算样本数据之间的差异度。距离算法可以包括欧几里得距离、明可夫斯基距离、曼哈顿距离等,相似度算法可以包括余弦相似度、皮尔逊相关系数、杰卡德相似系数等。然而,样本数据之间的差异度可以灵活地选择各种计算算法。根据不同的场景,样本数据可以分为多种类型,例如市场产品数据、金融数据、图像数据等,因此根据实际的样本数据的特点可以灵活地选择算法,例如,样本数据为连续性变量,可以选择欧式距离、马氏距离等,样本数据为离散型变量可以选择海明威距离等,本示例性实施方式对此不做特殊限定。
示例性的,通过欧式距离可以计算样本数据两两之间的差异度,计算公式可以为:
Figure BDA0002221561110000072
x与y为两条样本数据,n为样本数据的维度。通过上述计算公式可以计算得出每一样本数据与其他样本数据之间的差异度。假设样本数据的数量为n,则需要进行n×n次计算,从而可以得到n×n个差异度,因此计算出的差异度可以形成矩阵。
并且,在计算样本数据之间的差异度之前还可以对样本数据进行标准化,从而避免不同度量指标对差异度造成较大的影响。因此,首先可以对样本数据进行标准化;进而,计算标准化之后的样本数据之间的距离,获得各样本数据的差异度。
由于各种数据的评价指标不同,通常具有不同的量纲和数量级,因此,对样本数据进行标准化可以指将样本数据转换为无量纲化的值,即,样本数据的各个值均处在同一数量级别。示例性的,可以通过标准差标准化方法对样本数据进行标准化。转化函数为:
Figure BDA0002221561110000071
方其中,x为样本数据,μ为所有样本数据的均值,σ为所有样本数据的标准差。然而,也可以通过其他方式对样本数据进行标准化,例如,最小值最大值标准化,其转化函数为:
Figure BDA0002221561110000081
其中,min为样本数据中的最小值,max为样本数据中的最大值,通过该方式可以将样本数据线性变化,使得样本数据落在0-1区间内。
可选的实施方式中,计算得到样本数据之间的差异度之后,还可以对差异度进行归一化处理,从而简化差异数据,提高运算速度。示例性的,归一化处理函数可以为:
Figure BDA0002221561110000082
以两样本数据之间的差异度为分子,以所有样本数据之间的差异度之和为分母,从而将这两个样本数据之间的差异度进行归一化。
在步骤S220中,对差异度进行哈夫曼编码,得到样本数据的编码特征。
其中,编码特征可以表示两个样本数据之间具有的特征,即,一样本数据相对于另一样本数据的编码特征。同一样本数据相对不同的另一样本数据,其编码特征可以是不同的,例如样本数据A相对样本数据B的编码特征为n,样本数据A相对样本数据C的编码特征为m等。样本数据两两之间可以得到一差异度,因此,总数量为n的样本数据可以计算得到n×n个差异度。对差异度进行哈夫曼编码,可以先以某一样本数据为中心,对该样本数据相关的所有差异度进行编码,从而获得该样本数据与其他样本数据之间的编码特征。因此,分别以每一样本数据为中心,可以得到样本数据两两之间的编码特征。
具体的,如图3所示,对差异度进行哈夫曼编码,得到编码特征可以具体包括以下步骤:
S301.提取第一样本数据与其他各样本数据之间的差异度,获得第一样本数据的差异度集合;
S302.利用所述差异度集合中的差异度,生成所述第一样本数据对应的哈夫曼树;
S303.基于所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的编码特征。
首先,从计算得到的样本数据两两之间的差异度中,提取出第一样本数据相关的差异度,即,第一样本数据与其他各样本数据之间的差异度。如果样本数据的数量为n,则分别计算样本数据两两之间的差异度之后,可以得到一n×n的矩阵,那么该矩阵中与第一样本数据相关的一行或者一列数据可以为第一样本数据的差异度集合。从而,可以针对每一样本数据分别获取到对应的差异度集合。
对差异度集合中的差异度进行哈夫曼编码,生成第一样本数据对应的哈夫曼树。从而,分别对每一差异度集合进行编码,可以生成每一样本数据对应的哈夫曼树。具体的,在差异度集合中首先寻找相等或者最接近的两个差异度分别作为左右叶节点,这两个叶节点的根节点为这两个叶节点的和,然后在查找与该根节点相等或者相近的差异度,与该根节点组成新的左右节点,以此类推,直至集合中的所有差异度在一棵二叉树中,得到的二叉树为样本数据对应的哈夫曼树。
得到哈夫曼树后,对该哈夫曼树进行编码,获得每一叶节点的编码值。在哈夫曼树中左分支可以表示0,右分支可以代表1,则从根节点都叶子节点经过的路径所组成的0和1的序列可以为叶子节点的编码值。如图4所示,(a)树可以为样本数据A的哈夫曼树,在该树中样本数据d的编码值为00,样本数据b的编码值为01。在不同的哈夫曼树中,样本数据的编码值可以不同,例如,在样本数据A对应的哈夫曼树中,d的编码可以为00,而在B对应的哈夫曼树中,d的编码可以为000。
进而,可以将两个样本之间的编码值的长度确定为该两个样本的编码特征。在哈夫曼树中,每一层的两个节点为差异度相同或接近的数据点,因此如果编码值的长度相同,则可以数据点在哈夫曼树中的同一层。如图4中所示,如果(a)与(b)分别为样本数据A和样本数据B的哈夫曼树,则c在样本数据A与样本数据B中的编码长度均为1,可以说明样本数据c与样本数据A的距离,和与样本数据B的距离相似。
示例性实施方式中,在对差异度进行编码之前还可以对差异度的精确度进行处理,从而更加快速地构建哈夫曼树。根据样本数据的总数量对差异度保留相应的位数,例如精确到百分位等。举例而言,如果样本数量为1000,则可以将差异度精确到千分位,样本数据为10000,则将差异度精确到小数点后四位。对差异度的精确度进行处理可以加速数据的收敛,从而使得哈夫曼树更快地生成。
在步骤S230中,利用编码特征确定各样本数据之间的相似概率,从而将相似概率满足预设要求的样本数据划分到同一类中。
对第一样本数据来说,其他样本数据相对于该第一样本数据的编码特征中可能隐含着该第一样本数据的某些特征,则通过这些隐含的特征可以确定两个样本数据之间的相似概率。例如,对于样本数据S和样本数据N,其他所有的样本数据相对于这两个样本数据的编码特征均相同,则可以说明这两个样本数据具有较高的相似性;如果其他所有的样本数据中只有一个样本数据B对样本数据S的编码特征与对样本数据N的编码特征相同,则样本数据S与N之间具有较小的相似性。在本实施方式中,确定两个样本数据之间的相似概率,可以通过其他样本与这两个样本的差异来确定,由于编码特征为两个样本之间的特征,因此通过编码特征确定样本之间的相似概率,能够在数据量越大时,确定的准确性越高。
如图5所示,利用编码特征确定样本数据之间的相似概率具体可以包括以下步骤:
S501.提取出第一样本数据与其他各样本数据之间的编码特征为第一特征集合;
S502.提取出第二样本数据与其他各样本数据之间的编码特征为第二特征集合;
S503.从所述第一特征集合与所述第二特征集合中,统计编码特征相同的样本数据的数量;
S504.利用所述数量计算所述编码特征相同的样本数据的概率,获得所述第一样本数据与所述第二样本数据之间的相似概率。
首先,提取出第一样本数据与其他各样本数据之间的编码特征,存入第一特征集合。同样地,将第二样本相关的编码特征放入第二特征集合。示例性的,如果第一特征集合为A,则ai可以表示A中的第i个元素,即,ai等于第一样本数据与第i样本数据之间的编码特征的值。第二特征集合为B,则bi等于第二样本数据与第i样本数据之间的编码特征的值。对于这两个特征集合A和B中的元素进行一次遍历,统计出编码特征相同的样本的数量,如果a3=b3,则第三个样本数据与第一个样本数据之间的编码特征和与第二个样本数据之间的编码特征相同,则可以进行一次计数,从而统计出样本数据中与第一样本数据以及第二样本数据的编码特征均相同的样本数据的数量。并且,通过所有样本数据的总数量计算出相对于第一样本数据与第二样本数据编码特征相同的样本数据的概率,得出的概率可以为第一样本数据与第二样本数据之间的相似概率。
以表1为例,如果样本数据包括A、B、C、D、E,则第一行为相对于A,A、B、C、D、E的编码特征,第一列为相对于A、B、C、D、E,A的编码特征。计算A和B之间的相似概率时,需要统计A、B、C、D、E分别相对A与相对B时编码特征相等的次数。从表中可以看出,C对于A的编码特征与对于B的编码特征相同,则A与B的相似概率为1/5。
表1
A B C D E
A 0 1 1 2 0
B 2 0 1 1 2
C 2 1 0 2 2
D 2 2 1 0 1
E 0 0 1 1 0
相似概率超过预设阈值的样本数据可以划分为同一类。其中,预设阈值可以包括0.5、0.6等,也可以包括其他概率值,例如0.4、07等,本实施方式对此不做特殊限定,根据实际需求可以分别确定多个预设阈值,从而得到多次划分结果,根据不同阈值的划分结果可以选择最优的阈值,以获得最好的分类结果。
在一示例性实施方式中,在步骤S210中,计算各样本数据之间的差异度之后,可以得到一差异度矩阵。下面,以5个样本数据为例进行描述。计算样本之间的差异度之后,可以获得5×5的矩阵A,Aij可以表示矩阵第i行,第j列的元素,则A1j可以为第一个样本与其他各个样本之间的差异度。则对A1j进行哈夫曼编码,可以得到第一个样本对应的哈夫曼树,并得到每一A1j对应编码特征。同理地,对Aij的每一行元素进行编码,可以得到每一样本与其他各个样本之间的编码特征,从而获得编码特征矩阵B,Bij可以表示第i个样本数据与第j个样本数据之间的编码特征。
利用Bij计算样本数据两两之间的相似概率。首先,计算第一个样本与第二个样本之间的相似概率,则遍历B1j和B2j,计算对应位置处的元素相等的情况出现的概率。分别判断B11和B21、B12和B22、B13和B23、B14和B24以及B15和B25是否相等,计算相等次数的概率。如果其中B14和B24相等、B15和B25相等,则相等次数的概率为0.4。同理地,计算第一个样本与第三样本的相似概率、第一个样本与第四个样本的相似概率、第一个样本与第五个样本的相似概率、从而得到第一个样本与其他各样本之间的相似概率。从而,依次计算出每两样本之间的相似概率。
得到的相似概率也可以包括矩阵,将该矩阵中的每一相似概率作为边,将样本数据为顶点,可以获得一概率图,将概率图可以为一无向图。然后,将相似概率超过预设值的顶点间的边连通,从而得到概率图的连通子图,在同一连通子图中的样本为同一类。
示例性的,从相似概率矩阵c中筛选出所有点之间连通的边,然后选择一个尚未被划分的点v,加入集合s,以v为起点,根据矩阵c找出所有与v连通的点加入集合s,并将v进行标记,然后依次遍历集合s中未标记的点,将与未标记的点连通并且不在集合s的点加入集合s。如果集合s中元素不再增加,则s中的点划分为同一类中。清空集合s,并重新选择一个尚未划分的点加入集合s,重复上述过程,直至所有点均已被划分,从而得到所有点的分类结果。
在本示例性实施方式中,通过数据之间的差异挖掘数据之间的联系,对差异进行编码从而减少了对数据本身的学习成本,对于数据本身比较复杂、数据维度较多的分类场景,能够有效地提高分类效率;并且不需要设定分类数,可以自动进行分类,从而减少适用场景的限制,提高分类的灵活性。
进一步地,本公开的示例性实施方式还提供一种聚类装置,可以用于执行本公开上述的聚类方法。
如图6所示,该聚类装置600可以包括差异计算单元610、差异编码单元620和分类确定单元630。具体地,差异计算单元610可以用于计算各样本数据之间的差异度;差异编码单元620可以用于对所述差异度进行哈夫曼编码,得到编码特征;分类确定单元630可以用于利用所述编码特征确定所述样本数据之间的相似概率,将所述相似概率满足预设要求的样本数据划分为同一类。
在本公开的一种示例性实施例中,差异计算单元610可以包括数据标准化单元和距离计算单元。其中,数据标准化单元可以用于对所述样本数据进行标准化;距离计算单元可以用于计算所述标准化之后各样本数据之间的欧式距离,获得各所述样本数据之间的差异度。
在本公开的一种示例性实施例中,所述聚类装置600还可以包括精确度处理单元。该精确度处理单元可以用于按照样本数据的总数量对所述差异度的精确度进行处理。
在本公开的一种示例性实施例中,差异编码单元620可以具体包括数据提取单元、哈夫曼树生成单元和编码确定单元。其中,数据提取单元可以用于提取第一样本数据与其他各样本数据之间的差异度,获得第一样本数据的差异度集合;哈夫曼树生成单元可以用于利用所述差异度集合中的差异度,生成所述第一样本数据对应的哈夫曼树;编码确定单元可以用于基于所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的编码特征。
在本公开的一种示例性实施例中,编码确定单元可以具体用于根据所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的哈夫曼编码;确定所述哈夫曼编码的长度为所述其他各样本数据与所述第一样本数据之间的编码特征。
在本公开的一种示例性实施例中,分类确定单元630可以具体包括数据提取第一单元、数据提取第二单元、统计单元和概率计算单元。其中,数据提取第一单元可以用于提取出第一样本数据与其他各样本数据之间的编码特征为第一特征集合;数据提取第二单元可以用于提取出第二样本数据与其他各样本数据之间的编码特征为第二特征集合;统计单元可以用于从所述第一特征集合与所述第二特征集合中,统计编码特征相同的样本数据的数量;概率计算单元可以用于利用所述数量计算所述编码特征相同的样本数据的概率,获得所述第一样本数据与所述第二样本数据之间的相似概率。
在本公开的一种示例性实施例中,分类确定单元630可以具体用于利用所述编码特征计算各所述样本数据之间的相似概率,获取概率图;以及,确定所述概率图中所述相似概率超过预设值的样本数据之间连通,获取连通子图,以得到分类结果。
由于本公开的示例实施例的聚类装置的各个功能模块与上述聚类方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的聚类方法的实施例。
下面参考图7,其示出了适于用来实现本公开实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备的计算机系统700仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的聚类方法。
例如,所述的电子设备可以实现如图1中所示的:步骤S210,计算各样本数据之间的差异度;步骤S220,对所述差异度进行哈夫曼编码,得到编码特征;步骤S230,利用所述编码特征确定所述样本数据之间的相似概率,将所述相似概率满足预设要求的样本数据划分为同一类。
又如,所述的电子设备可以实现如图3所示的各个步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种聚类方法,其特征在于,包括:
计算各样本数据之间的差异度;
对所述差异度进行哈夫曼编码,得到编码特征;
利用所述编码特征确定所述样本数据之间的相似概率,将所述相似概率满足预设要求的样本数据划分为同一类。
2.根据权利要求1所述的聚类方法,其特征在于,所述计算各样本数据之间的差异度,包括:
对所述样本数据进行标准化;
计算所述标准化之后各样本数据之间的欧式距离,获得各所述样本数据之间的差异度。
3.根据权利要求1所述的方法,其特征在于,所述对所述差异度进行哈夫曼编码之前,还包括:
按照样本数据的总数量对所述差异度的精确度进行处理。
4.根据权利要求1所述的方法,其特征在于,所述对所述差异度进行哈夫曼编码,得到编码特征,包括:
提取第一样本数据与其他各样本数据之间的差异度,获得第一样本数据的差异度集合;
利用所述差异度集合中的差异度,生成所述第一样本数据对应的哈夫曼树;
基于所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的编码特征。
5.根据权利要求4所述的方法,其特征在于,所述基于所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的编码特征,包括:
根据所述哈夫曼树,确定所述其他各样本数据相对所述第一样本数据的哈夫曼编码;
确定所述哈夫曼编码的长度为所述其他各样本数据与所述第一样本数据之间的编码特征。
6.根据权利要求1所述的方法,其特征在于,所述利用所述编码特征确定所述样本数据之间的相似概率,包括:
提取出第一样本数据与其他各样本数据之间的编码特征为第一特征集合;
提取出第二样本数据与其他各样本数据之间的编码特征为第二特征集合;
从所述第一特征集合与所述第二特征集合中,统计编码特征相同的样本数据的数量;
利用所述数量计算所述编码特征相同的样本数据的概率,获得所述第一样本数据与所述第二样本数据之间的相似概率。
7.根据权利要求1所述的方法,其特征在于,所述利用所述编码特征确定各所述样本数据之间的相似概率,将所述相似概率满足预设要求的样本数据划分为同一类,包括:
利用所述编码特征计算各所述样本数据之间的相似概率,获取概率图;
确定所述概率图中所述相似概率超过预设值的样本数据之间连通,获取连通子图,以得到分类结果。
8.一种聚类装置,其特征在于,包括:
差异计算单元,用于计算各样本数据之间的差异度;
差异编码单元,用于对所述差异度进行哈夫曼编码,得到编码特征;
分类确定单元,用于利用所述编码特征确定所述样本数据之间的相似概率,将所述相似概率满足预设要求的样本数据划分为同一类。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的聚类方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的聚类方法。
CN201910935828.9A 2019-09-29 2019-09-29 聚类方法、聚类装置、计算机可读介质及电子设备 Pending CN112580676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910935828.9A CN112580676A (zh) 2019-09-29 2019-09-29 聚类方法、聚类装置、计算机可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910935828.9A CN112580676A (zh) 2019-09-29 2019-09-29 聚类方法、聚类装置、计算机可读介质及电子设备

Publications (1)

Publication Number Publication Date
CN112580676A true CN112580676A (zh) 2021-03-30

Family

ID=75111231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910935828.9A Pending CN112580676A (zh) 2019-09-29 2019-09-29 聚类方法、聚类装置、计算机可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN112580676A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068350A (zh) * 2007-06-04 2007-11-07 北京派瑞根科技开发有限公司 一种基于像素统计特征和视觉特征的图像编解码处理方法
US9209833B1 (en) * 2015-06-25 2015-12-08 Emc Corporation Methods and apparatus for rational compression and decompression of numbers
WO2017193685A1 (zh) * 2016-05-11 2017-11-16 华为技术有限公司 社交网络中数据的处理方法和装置
CN109388707A (zh) * 2017-08-11 2019-02-26 腾讯科技(深圳)有限公司 短文本分类方法及装置
CN109697451A (zh) * 2017-10-23 2019-04-30 北京京东尚科信息技术有限公司 相似图像聚类方法及装置、存储介质、电子设备
CN110008192A (zh) * 2019-04-12 2019-07-12 苏州浪潮智能科技有限公司 一种数据文件压缩方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068350A (zh) * 2007-06-04 2007-11-07 北京派瑞根科技开发有限公司 一种基于像素统计特征和视觉特征的图像编解码处理方法
US9209833B1 (en) * 2015-06-25 2015-12-08 Emc Corporation Methods and apparatus for rational compression and decompression of numbers
WO2017193685A1 (zh) * 2016-05-11 2017-11-16 华为技术有限公司 社交网络中数据的处理方法和装置
CN109388707A (zh) * 2017-08-11 2019-02-26 腾讯科技(深圳)有限公司 短文本分类方法及装置
CN109697451A (zh) * 2017-10-23 2019-04-30 北京京东尚科信息技术有限公司 相似图像聚类方法及装置、存储介质、电子设备
CN110008192A (zh) * 2019-04-12 2019-07-12 苏州浪潮智能科技有限公司 一种数据文件压缩方法、装置、设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RAMEZ MOH. ELASKARY.ET AL: "Hybrid DCT/Quantized Huffman compression for electroencephalography data", IEEE, 5 March 2018 (2018-03-05) *
卢志刚;解婉婷;: "基于片段的企业信任网络演化图聚类算法", 计算机应用, no. 01, 10 January 2018 (2018-01-10) *
彭永供;邱桃荣;林于渊;黄海泉;: "基于哈夫曼树的雷电数据采样算法", 计算机工程, no. 05, 15 May 2013 (2013-05-15) *

Similar Documents

Publication Publication Date Title
US11062089B2 (en) Method and apparatus for generating information
CN108229419B (zh) 用于聚类图像的方法和装置
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN113610239B (zh) 针对机器学习的特征处理方法及特征处理系统
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
CN109726391B (zh) 对文本进行情感分类的方法、装置及终端
KR101850993B1 (ko) 클러스터 기반 키워드 산출 방법 및 장치
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN115098556A (zh) 用户需求匹配方法、装置、电子设备及存储介质
CN104699660A (zh) 概述非线性回归问题中的结构化矩阵
CN111723192A (zh) 代码推荐方法和装置
CN110390011B (zh) 数据分类的方法和装置
CN110019193B (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN111581499B (zh) 一种数据归一化方法、装置、设备及可读存储介质
CN115049446A (zh) 商户识别方法、装置、电子设备及计算机可读介质
CN110264311B (zh) 一种基于深度学习的商业推广信息精准推荐方法及系统
CN111667018A (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
CN111190967A (zh) 用户多维度数据处理方法、装置及电子设备
CN112580676A (zh) 聚类方法、聚类装置、计算机可读介质及电子设备
CN111444319B (zh) 文本匹配方法、装置和电子设备
CN111783572B (zh) 一种文本检测方法和装置
CN113468604A (zh) 基于人工智能的大数据隐私信息解析方法及系统
CN113627514A (zh) 知识图谱的数据处理方法、装置、电子设备和存储介质
CN113420699A (zh) 一种人脸匹配方法、装置及电子设备
CN107368597B (zh) 信息输出方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination