CN114548276A - 对数据进行聚类的方法、装置、电子设备及存储介质 - Google Patents

对数据进行聚类的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114548276A
CN114548276A CN202210163273.2A CN202210163273A CN114548276A CN 114548276 A CN114548276 A CN 114548276A CN 202210163273 A CN202210163273 A CN 202210163273A CN 114548276 A CN114548276 A CN 114548276A
Authority
CN
China
Prior art keywords
clustering
data
clustered
membership
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210163273.2A
Other languages
English (en)
Inventor
潘启灏
张鼎
黄飞
徐红艳
李永超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202210163273.2A priority Critical patent/CN114548276A/zh
Publication of CN114548276A publication Critical patent/CN114548276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种对数据进行聚类的方法、装置、电子设备及存储介质,属于数据处理技术领域。该方法包括:获取目标聚类事件的多个待聚类数据;通过多种聚类算法分别对多个待聚类数据进行聚类,得到多个第一聚类结果;对于每个第一聚类结果,确定第一聚类结果下多个待聚类数据的隶属度矩阵,隶属度矩阵表示在第一聚类结果下每个待聚类数据相对于第一聚类结果的每个聚簇的隶属度;基于多个隶属度矩阵,对多个待聚类数据进行聚类,得到目标聚类事件的第二聚类结果,以确定多个待聚类数据的类别。这样基于融合了待聚类数据的多种划分信息的隶属度矩阵对多个待聚类数据再次进行聚类,保留了更多的划分信息,避免了单个聚类算法对数据结构不适应的问题。

Description

对数据进行聚类的方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及数据处理技术领域,特别涉及一种对数据进行聚类的方法、装置、电子设备及存储介质。
背景技术
随着数据处理技术的发展,数据收集手段逐渐成熟,收集到的数据大量增加。随着收集的数据大量增加,从收集到的数据中提取有用的信息来解释这些数据成为了最困难的问题。而对数据进行聚类能够揭示数据和特征之间的内部关系,在提取信息的过程中发挥着重要作用。
相关技术中,已经开发了许多聚类算法来处理不同的问题。例如,划分式聚类、密度聚类或层次聚类等。这些聚类算法使用不同的距离或相似性作为度量参数,使用不同的目标函数进行衡量。不同的聚类算法对于同一数据集会产生不同的聚类结果,且对于有着不同数据结构的数据集往往表现出不同的性能。因此,在对数据进行聚类时,需要选择对应的聚类方法进行聚类。
上述相关技术中,一旦聚类算法选定,初始化参数对聚类结果有重大影响。因此,在聚类过程中选择合适的聚类算法以及各种参数是困难的。因此,亟需一种新的聚类方法。
发明内容
本申请实施例提供了一种对数据进行聚类的方法、装置、电子设备及存储介质,避免了单个聚类算法对数据结构不适应的问题。所述技术方案如下:
一方面,提供了一种对数据进行聚类的方法,所述方法包括:
获取目标聚类事件的多个待聚类数据;
通过多种聚类算法分别对所述多个待聚类数据进行聚类,得到多个第一聚类结果;
对于每个第一聚类结果,确定所述第一聚类结果下所述多个待聚类数据的隶属度矩阵,所述隶属度矩阵表示在所述第一聚类结果下每个待聚类数据相对于所述第一聚类结果的每个聚簇的隶属度;
基于多个隶属度矩阵,对所述多个待聚类数据进行聚类,得到所述目标聚类事件的第二聚类结果,以确定所述多个待聚类数据的类别。
另一方面,提供了一种对数据进行聚类的装置,所述装置包括:
获取模块,用于获取目标聚类事件的多个待聚类数据;
第一聚类模块,用于通过多种聚类算法分别对所述多个待聚类数据进行聚类,得到多个第一聚类结果;
确定模块,用于对于每个第一聚类结果,确定所述第一聚类结果下所述多个待聚类数据的隶属度矩阵,所述隶属度矩阵表示在所述第一聚类结果下每个待聚类数据相对于所述第一聚类结果的每个聚簇的隶属度;
第二聚类模块,用于基于多个隶属度矩阵,对所述多个待聚类数据进行聚类,得到所述目标聚类事件的第二聚类结果,以确定所述多个待聚类数据的类别。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器;所述存储器存储有至少一条程序代码,所述至少一条程序代码用于被所述处理器执行以实现如上述方面所述的对数据进行聚类的方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行以实现如上述方面所述的对数据进行聚类的方法。
另一方面,提供了一种计算机程序产品,所述计算机程序产品存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行以实现如上述方面所述的对数据进行聚类的方法。
在本申请实施例中,通过多种聚类算法进行聚类得到多个聚类结果,基于该多个聚类结果确定多个待聚类数据在不同聚簇下的隶属度,这样通过多个隶属度矩阵表示多个待聚类数据的划分信息,从而再次聚类过程中,基于融合了待聚类数据的多种划分信息的隶属度矩阵对多个待聚类数据进行聚类,保留了更多的划分信息,避免了单个聚类算法对数据结构不适应的问题。
附图说明
图1示出了本申请一个示例性实施例所提供的终端的结构示意图;
图2示出了本申请一个示例性实施例所提供的服务器的结构示意图;
图3示出了本申请一个示例性实施例示出的对数据进行数据聚类的方法的流程图;
图4示出了本申请一个示例性实施例示出的对数据进行数据聚类的方法的流程图;
图5示出了本申请一个实施例提供的对数据进行数据聚类装置的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的待聚类数据都是在充分授权的情况下获取的。
在本申请实施例中,该电子设备可以提供为终端或者服务器。在该电子设备提供为终端的情况下,请参考图1,其示出了本申请一个示例性实施例提供的终端100的结构方框图。终端100可以是智能手机、平板电脑等具有数据处理功能的终端。本申请中的终端100可以包括一个或多个如下部件:处理器110、存储器120。
可选地,处理器110包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行终端100的各种功能和处理数据。可选地,处理器110采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)、神经网络处理器(Neural-network Processing Unit,NPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏130所需要显示的内容的渲染和绘制;NPU用于实现人工智能(Artificial Intelligence,AI)功能;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块芯片进行实现。
可选地,存储器120包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等;存储数据区可存储根据终端100的使用所创建的数据(比如音频数据、电话本)等。
在一些实施例中,终端100还包括显示屏。显示屏是用于显示用户界面的显示组件。可选的,该显示屏为具有触控功能的显示屏,通过触控功能,用户可以使用手指、触摸笔等任何适合的物体在显示屏130上进行触控操作。
显示屏通常设置在终端100的前面板。显示屏可被设计成为全面屏、曲面屏、异型屏、双面屏或折叠屏。显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合等,本实施例对此不加以限定。
除此之外,本领域技术人员可以理解,上述附图所示出的终端100的结构并不构成对终端100的限定,终端100可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端100中还包括麦克风、扬声器、射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity,Wi-Fi)模块、电源、蓝牙模块等部件,在此不再赘述。
在该电子设备提供为服务器的情况下,请参考图2,其示出了本申请一个示例性实施例提供的服务器200的结构方框图。该服务器200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)210和一个或一个以上的存储器220,其中,所述存储器220中存储有至少一条指令,所述至少一条指令由所述处理器210加载并执行以实现上述各个方法实施例提供的对数据进行聚类的方法。当然,该服务器200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器200还可以包括其他用于实现设备功能的部件,在此不做赘述。
下面对本方案的应用场景进行介绍。
聚类是研究自动查找类别的无监督学习技术,它将未标记的多个数据划分为具有相似特征的组(聚簇)。属于同一个聚簇的数据比不属于同一个聚簇的数据更相似。在一些实施例中,对数据集X进行聚类指找到k个聚簇,各聚簇内的数据尽可能相似,不同的聚簇的数据尽可能不同,其中,数据集X包括多个待聚类数据。聚类已经成功应用于不同领域。例如,在市场细分中,通过聚类找到具有相似行为或属性的客户;或者,在图像处理中,通过聚类将相似的图像区域划分在一起;或者,在文档管理中,通过聚类将相同主题的文档进行分类。
随着数据处理技术的成熟,出现了大量的聚类算法。不同的聚类算法能够基于不同的依据对数据进行聚类,从而能够分为多种聚类方式。例如,基于划分进行聚类、基于层次进行聚类、基于密度进行聚类、基于模型进行聚类、基于模糊进行聚类等。这些不同的聚类算法有不用的原理及适应性。例如,k-means划分式聚类算法对噪声和离群值比较敏感,但不能解决非凸数据;基于模型的聚类算法无法处理不规则分布的数据;模糊聚类算法在满足正态分布的数据上效果很好,但对孤立点敏感。
另外,对于聚类算法选择不同的参数以及初始化也会对聚类算法产生很大的影响。例如,含噪声应用的基于密度的空间聚类(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)算法,虽对噪声不敏感,并能发现任一形状的聚类,但当聚类的稀疏程度不同时,用固定参数识别会破坏聚类的自然结构;模糊聚类算法的性能依赖于初始聚类中心。
因此,没有任何聚类算法能够普遍用于解决多种问题。在对数据进行聚类时,选取合适的聚类算法以及初始化参数是困难的。本申请实施例提出了一种聚类组合方法,将多种聚类算法的聚类结果进行组合,得到合适的聚类结果。
请参考图3,其示出了本申请一个示例性实施例示出的对数据进行聚类的方法的流程图。该方法包括:
步骤S301:电子设备获取目标聚类事件的多个待聚类数据。
目标聚类事件为任一需要对数据进行分类的事件。该多个待聚类数据为该目标事件对应的数据。在一些实施例中,该目标聚类事件为用户行为分析事件,则待聚类数据为用户行为数据。例如,在通过分析用户行为确定目标应用程序的使用人群的特征的情况下,需要对用户行为数据进行聚类,则该待聚类数据包括用户的年龄、性别、使用目标应用程序的时间段中的至少一种数据。再例如,在通过分析用户行为确定用户的视频观看兴趣的情况下,该待聚类数据包括用户历史观看的视频数据。在一些实施例中,该目标聚类事件为多媒体数据分析事件,则待聚类数据为多媒体数据。例如,在对图像进行分割的情况下,需要对图像数据进行聚类,则该待聚类数据包括图像数据。再例如,在对视频进行分类的情况下,需要对视频数据进行聚类,则该待聚类数据包括图像数据。
在一些实施例中,电子设备接收用户输入的待聚类数据。例如,电子设备接收用户输入的图像数据。在一些实施例中,电子设备从数据库中读取多个待聚类数据。例如,在对某一用户的行为进行分析的情况下,响应于接收到聚类指示,从数据库中读取该聚类指示指示的用户对应的用户行为数据。或者,在通过对多个用户的行为数据进行分析,获取该多个用户的行为特征的情况下,可以获取指定时间段内产生的用户行为数据。相应地,响应于接收到聚类指示,从数据库中读取该聚类指示对应的时间段内产生的用户行为数据。
步骤S302:电子设备通过多种聚类算法分别对多个待聚类数据进行聚类,得到多个第一聚类结果。
该多种聚类算法为基于不同依据进行聚类的算法。该第一聚类结果为基于任一聚类算法对多个待聚类数据进行聚类得到的聚类结果。每个第一聚类结果包括多个聚簇,每个聚簇包括至少一个待聚类数据。
在一些实施例中,电子设备分别通过不同的聚类算法,对多个待聚类数据进行聚类,得到每种聚类算法对应的第一聚类结果。例如,在通过分析用户行为确定目标应用程序的使用人群的特征的情况下,分别通过k-means划分式聚类算法,对用户行为数据进行聚类,得到不同用户特征下的多个用户数据的分组。再例如,在进行图像分割时,通过基于模型的聚类算法,将相同像素特征的像素点划分至同一图像区域,从而将图像划分为多个图像区域。在本申请实施例中,使用不同类型的聚类算法进行聚类,从而充分识别和探索多个待聚类数据的各种数据结构,得到了丰富的聚类结果。
在一些实施例中,对于每种聚类算法,电子设备确定不同的初始参数,基于不同的初始参数进行聚类,得到每种聚类算法在不同的初始参数下的第一聚类结果。相应地,电子设备基于该多个待聚类数据,确定该多种聚类算法的初始参数;基于该初始参数,通过该多个聚类算法,分别对该多个待聚类数据进行聚类,得到该多个第一聚类结果。例如,在通过分析用户行为确定目标应用程序的使用人群的特征的情况下,分别使用不同的初始参数,对用户行为数据进行聚类,得到不同用户特征下的多个用户数据的分组。在本申请实施例中,通过调整不同的初始参数对多个待聚类数据进行聚类,使得能够得到差异较大但均存在合理性的聚类结果,通过对聚类结果的组合,缓解聚类算法在参数上的不确定性,使得聚类结果更加合理且丰富,从而使聚类结果适应性更强。
需要说明的一点是,在本申请实施例中,对待聚类数据的数量以及聚类算法的数量均不作具体限定。
步骤S303:对于每个第一聚类结果,电子设备确定该第一聚类结果下该多个待聚类数据的隶属度矩阵,该隶属度矩阵表示在该第一聚类结果下每个待聚类数据相对于该第一聚类结果的每个聚簇的隶属度。
在本步骤中,电子设备分别确定每个待聚类数据在每个第一聚类结果下的隶属度矩阵。
步骤S304:电子设备基于多个隶属度矩阵,对该多个待聚类数据进行聚类,得到该目标聚类事件的第二聚类结果,以确定该多个待聚类数据的类别。
在本步骤中,电子设备基于目标聚类事件,将多个隶属度矩阵作为聚类参数,对多个待聚类数据进行聚类。其中,电子设备基于该目标聚类事件,确定与该目标聚类事件匹配的目标聚类算法,通过该目标聚类算法,基于该多个隶属度矩阵继续对多个待聚类数据进行聚类,得到第二聚类结果。在本申请实施例中,对再聚类时使用的聚类算法不作具体限定,例如,再聚类过程使用的算法为K-means划分式聚类算法或欧氏距离算法。
通过多个隶属度矩阵表示多个待聚类数据在多个第一聚类结果中的划分信息,以及多个聚簇在多个第一聚类结果中的相似度。例如,两个距离较远的聚簇,同一待聚类数据对应的隶属度差异总体较大,距离较近的聚簇,同一待聚类数据对应的隶属度差异总体较小。举例:聚簇A、B和C,A和B临近且远离C,构建的隶属度矩阵中代表A和B的隶属度值差异较小,而与代表C的隶属度值差异较大,这样通过隶属度矩阵表示多种第一聚类结果之间的联系,从而在对待聚类数据进行聚类时,能够结合不同的聚类算法对应的聚类结果。
例如,在通过分析用户行为确定目标应用程序的使用人群的特征的情况下,基于多个用户数据的多个隶属度矩阵,确定隶属度矩阵中对应的用户行为数据的隶属度,若不同的隶属度矩阵中该用户行为数据的隶属度相似,则将该用户数据所在的聚簇的特征参数强化,对强化了特征参数的用户行为数据再次进行聚类,得到不同用户特征下的多个用户数据的分组。
在一些实施例中,电子设备在对多个隶属度矩阵再次进行聚类之前,还将多个隶属度矩阵进行融合。相应地,电子设备基于每个第一聚类结果中聚簇的数量,将该多个第一聚类结果下的隶属度矩阵进行融合,得到融合矩阵;基于该融合矩阵,对该多个待聚类数据进行聚类,得到该第二聚类结果。在一些实施例中,电子设备将多个第一聚类结果下的隶属度矩阵进行融合的方式为:电子设备将该多个第一聚类结果下的隶属度矩阵横向拼接。
在本申请实施例中,电子设备将多个第一聚类结果下的隶属度矩阵进行横向拼接,构成大小为
Figure BDA0003515616180000081
的隶属度矩阵。其中,z为第一聚类结果的数量,k为每个第一聚类结果对应的聚簇的数量,当每次聚类结果的聚簇数都为k时,横向拼接指的是拼接成一个长为m,宽为k*z的矩阵。当每次聚类结果不同时,横向拼接指的是拼接成一个长为m,宽为
Figure BDA0003515616180000091
的矩阵,其中kn是第n次聚类结果的聚簇数。例如,使用100台设备采集的信息进行了K-means聚类,得到5个聚簇,还进行了DBSCAN聚类得到10个聚簇,分别构建长为100宽为5、长为100宽为10的隶属度矩阵,拼接后的矩阵长为100宽为15。
在本申请实施例中,通过将多个第一聚类结果对应的隶属度矩阵拼接为一个隶属度矩阵,使得拼接得到的隶属度矩阵包含多个聚类算法对应的聚类信息,以及,多种聚类结果之间的相似性关系,从而在进行再聚类时,能够对融合了数据的多种特征的隶属度矩阵进行融合,保留了更多的聚类信息,避免了单个聚类算法对某写数据结构不适应的问题。
在一些实施例中,电子设备基于该目标事件,确定该多个隶属度矩阵的权重。相应地,基于每个第一聚类结果中聚簇的数量,将该多个第一聚类结果下的隶属度矩阵进行融合,得到融合矩阵,包括:基于该多个隶属度矩阵的权重和每个第一聚类结果中聚簇的数量,将该多个第一聚类结果下的隶属度矩阵进行融合,得到融合矩阵。
在一些实施例中,该隶属度矩阵的权重为基于目标事件对应的先验经验确定的。例如,基于待聚类数据的形状、维度、样本量中的至少一项确定该先验经验。相应地,如某些聚类算法在当前的多个待聚类数据上表现较好,某些初始化方法或参数具有较好的鲁棒性,则将这些聚类算法或这些初始化方法或采纳数对应的聚类算法设置较高的权重。
在本申请实施例中,根据目标事件来确定不同的隶属度矩阵的权重,以此来体现不同的隶属度矩阵的重要性,使得对隶属度矩阵进行再聚类时,能够符合目标事件,从而使聚类结果具有更高的质量。
在本申请实施例中,通过多种聚类算法进行聚类得到多个聚类结果,基于该多个聚类结果确定多个待聚类数据在不同聚簇下的隶属度,这样通过多个隶属度矩阵表示多个待聚类数据的划分信息,从而再次聚类过程中,基于融合了待聚类数据的多种划分信息的隶属度矩阵对多个待聚类数据进行聚类,保留了更多的划分信息,避免了单个聚类算法对数据结构不适应的问题。
请参考图4,其示出了本申请一个示例性实施例示出的对数据进行聚类的方法的流程图。该方法包括:
步骤S401:电子设备获取目标聚类事件的多个待聚类数据。
本步骤与步骤S301的原理相同,在此不再赘述。
步骤S402:电子设备通过多种聚类算法分别对多个待聚类数据进行聚类,得到多个第一聚类结果。
本步骤与步骤S302的原理相同,在此不再赘述。
步骤S403:对于每个该第一聚类结果,电子设备确定该第一聚类结果的每个聚簇的簇中心。
在本步骤中,对于每个聚簇,电子设备将该聚簇中数据的平均值确定为该聚簇的簇中心。参见公式一:
公式一:
Figure BDA0003515616180000101
其中,j表示第一聚类结果中聚簇的标识,cj表示第一聚类结果中聚簇j的簇中心,N为第一聚类结果中聚簇j中数据的数量,xi表示第i个数据。
步骤S404:电子设备基于每个待聚类数据到多个簇中心的距离,确定该待聚类数据相对于每个聚簇的隶属度。
隶属度表示数据与各聚簇之间的近似程度。一个数据属于第一聚类结果的所有聚簇的隶属度之和为1。
在一些实施例中,对于每个数据,电子设备基于第一距离和第二距离的比值,确定该数据相对于目标聚簇的隶属度,该第一距离为该数据与该目标聚簇的簇中心的距离,该第二距离为该数据分别与该第一聚类结果的多个聚簇的簇中心的距离,该目标聚簇为该第一聚类结果的任一聚簇。
相应地,在本步骤中,电子设备分别确定每个数据与各聚簇的簇中心cj的距离。在一些实施例中,该距离通过数据与簇中心的差值确定。例如,数据xi与簇中心cj的距离为:||xi-cj||。其中,||·||表示取模值,cj表示聚簇j的簇中心,xi表示第i个数据。对于任一数据,该数据相对于任一目标聚簇的隶属度,通过该数据与该目标聚簇的距离和该数据与其他聚簇的距离的比值之和确定。参见公式二:
公式二:
Figure BDA0003515616180000111
其中,cj表示目标聚簇j的簇中心,xi表示第i个数据,uij表示数据xi相对于聚簇cj的隶属度,C表示聚类数,即第一聚类结果中聚簇的数量,ck表示其他聚簇k的簇中心,m为隶属度的因子,其取值根据需要进行设置,例如,该隶属度因子为2。
步骤S405:电子设备基于每个待聚类数据相对于每个聚簇的隶属度,构建该多个待聚类数据在该第一聚类结果下的隶属度矩阵。
在本步骤中,将隶属度作为各数据的特征,构建大小为M*k的隶属度矩阵。其中,M为样本数,k为第一聚类结果的聚簇数,隶属度特征矩阵u中的uij表示为多个待聚类数中任一待聚类数据xi相对于聚簇cj的隶属度,uij的取值范围为[0,1],且
Figure BDA0003515616180000112
即每行的数据和为1。
重复执行步骤S404-S405,得到多个第一聚类结果对应的多个隶属度矩阵。
在本申请实施例中,通过数据与聚簇的距离,确定数据相对于每个聚簇的相似度,从而表示该数据相对于每个聚簇的隶属度,这样通过隶属度矩阵保留了每个数据相对于不同的聚簇的相似信息,从而丰富了聚类信息。
步骤S406:电子设备基于多个隶属度矩阵,对该多个待聚类数据进行聚类,得到该目标聚类事件的第二聚类结果,以确定该多个待聚类数据的类别。
本步骤与步骤S303的原理相同,在此不再赘述。
在本申请实施例中,通过多种聚类算法进行聚类得到多个聚类结果,基于该多个聚类结果确定多个待聚类数据在不同聚簇下的隶属度,这样通过多个隶属度矩阵表示多个待聚类数据的划分信息,从而再次聚类过程中,基于融合了待聚类数据的多种划分信息的隶属度矩阵对多个待聚类数据进行聚类,保留了更多的划分信息,避免了单个聚类算法对数据结构不适应的问题。
请参考图5,其示出了本申请一个实施例提供的对数据进行聚类的装置的结构框图。该对数据进行聚类的装置可以通过软件、硬件或者两者的结合实现成为处理器的全部或一部分。该装置包括:
获取模块501,用于获取目标聚类事件的多个待聚类数据;
第一聚类模块502,用于通过多种聚类算法分别对该多个待聚类数据进行聚类,得到多个第一聚类结果;
确定模块503,用于对于每个第一聚类结果,确定该第一聚类结果下该多个待聚类数据的隶属度矩阵,该隶属度矩阵表示在该第一聚类结果下每个待聚类数据相对于该第一聚类结果的每个聚簇的隶属度;
第二聚类模块504,用于基于多个隶属度矩阵,对该多个待聚类数据进行聚类,得到该目标聚类事件的第二聚类结果,以确定该多个待聚类数据的类别。
在一些实施例中,该确定模块503,包括:
第一确定单元,用于对于每个该第一聚类结果,确定该第一聚类结果的每个聚簇的簇中心;
第二确定单元,用于基于每个待聚类数据到多个簇中心的距离,确定该待聚类数据相对于每个聚簇的隶属度;
构建单元,用于基于每个待聚类数据相对于每个聚簇的隶属度,构建该多个待聚类数据在该第一聚类结果下的隶属度矩阵。
在一些实施例中,该第二确定单元,用于对于每个待聚类数据,分别确定第一距离与多个第二距离的比值,该第一距离为该待聚类数据与任一聚簇的簇中心的距离,该第二距离为该待聚类数据与该第一聚类结果的多个聚簇的簇中心的距离;基于该第一距离与多个第二距离的比值之和与隶属度因子,确定该待聚类数据相对于该任一聚簇的隶属度。
在一些实施例中,该第一确定单元,用于对于每个聚簇,基于该聚簇中的待聚类数据的平均值,确定该聚簇的簇中心。
在一些实施例中,该第一聚类模块502,包括:
第三确定单元,用于基于该多个待聚类数据,确定该多种聚类算法的初始参数;
第一聚类单元,用于基于该初始参数,通过该多个聚类算法,分别对该多个待聚类数据进行聚类,得到该多个第一聚类结果。
在一些实施例中,该第二聚类模块504,包括:
融合单元,用于基于每个第一聚类结果中聚簇的数量,将该多个第一聚类结果下的隶属度矩阵进行融合,得到融合矩阵;
第二聚类单元,用于基于该融合矩阵,对该多个待聚类数据进行聚类,得到该第二聚类结果。
在一些实施例中,该装置还包括:
第四确定单元,用于基于该目标事件,确定该多个隶属度矩阵的权重;
该融合单元,用于基于该多个隶属度矩阵的权重和每个第一聚类结果中聚簇的数量,将该多个第一聚类结果下的隶属度矩阵进行融合,得到融合矩阵。
在本申请实施例中,通过多种聚类算法进行聚类得到多个聚类结果,基于该多个聚类结果确定多个待聚类数据在不同聚簇下的隶属度,这样通过多个隶属度矩阵表示多个待聚类数据的划分信息,从而再次聚类过程中,基于融合了待聚类数据的多种划分信息的隶属度矩阵对多个待聚类数据进行聚类,保留了更多的划分信息,避免了单个聚类算法对数据结构不适应的问题。
本申请实施例还提供了一种计算机可读介质,该计算机可读介质存储有至少一条指令,该至少一条指令由该处理器加载并执行以实现如上各个实施例示出的对数据进行聚类的方法。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,该至少一条指令由该处理器加载并执行以实现如上各个实施例示出的对数据进行聚类的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种对数据进行聚类的方法,其特征在于,所述方法包括:
获取目标聚类事件的多个待聚类数据;
通过多种聚类算法分别对所述多个待聚类数据进行聚类,得到多个第一聚类结果;
对于每个第一聚类结果,确定所述第一聚类结果下所述多个待聚类数据的隶属度矩阵,所述隶属度矩阵表示在所述第一聚类结果下每个待聚类数据相对于所述第一聚类结果的每个聚簇的隶属度;
基于多个隶属度矩阵,对所述多个待聚类数据进行聚类,得到所述目标聚类事件的第二聚类结果,以确定所述多个待聚类数据的类别。
2.根据权利要求1所述的方法,其特征在于,所述对于每个第一聚类结果,确定所述第一聚类结果下所述多个待聚类数据的隶属度矩阵,包括:
对于每个所述第一聚类结果,确定所述第一聚类结果的每个聚簇的簇中心;
基于每个待聚类数据到多个簇中心的距离,确定所述待聚类数据相对于每个聚簇的隶属度;
基于每个待聚类数据相对于每个聚簇的隶属度,构建所述多个待聚类数据在所述第一聚类结果下的隶属度矩阵。
3.根据权利要求2所述的方法,其特征在于,所述基于每个待聚类数据到多个簇中心的距离,确定所述待聚类数据相对于每个聚簇的隶属度,包括:
对于每个待聚类数据,分别确定第一距离与多个第二距离的比值,所述第一距离为所述待聚类数据与任一聚簇的簇中心的距离,所述第二距离为所述待聚类数据与所述第一聚类结果的多个聚簇的簇中心的距离;
基于所述第一距离与多个第二距离的比值之和与隶属度因子,确定所述待聚类数据相对于所述任一聚簇的隶属度。
4.根据权利要求2所述的方法,其特征在于,所述对于每个所述第一聚类结果,确定所述第一聚类结果的每个聚簇的簇中心,包括:
对于每个聚簇,基于所述聚簇中的待聚类数据的平均值,确定所述聚簇的簇中心。
5.根据权利要求1所述的方法,其特征在于,所述通过多种聚类算法分别对所述多个待聚类数据进行聚类,得到多个第一聚类结果,包括:
基于所述多个待聚类数据,确定所述多种聚类算法的初始参数;
基于所述初始参数,通过所述多个聚类算法,分别对所述多个待聚类数据进行聚类,得到所述多个第一聚类结果。
6.根据权利要求1所述的方法,其特征在于,所述基于多个隶属度矩阵,对所述多个待聚类数据进行聚类,包括:
基于每个第一聚类结果中聚簇的数量,将所述多个第一聚类结果下的隶属度矩阵进行融合,得到融合矩阵;
基于所述融合矩阵,对所述多个待聚类数据进行聚类,得到所述第二聚类结果。
7.根据权利要求6所述的方法,其特征在于,所述基于多个隶属度矩阵,对所述多个待聚类数据进行聚类之前,所述方法还包括:
基于所述目标事件,确定所述多个隶属度矩阵的权重;
所述基于每个第一聚类结果中聚簇的数量,将所述多个第一聚类结果下的隶属度矩阵进行融合,得到融合矩阵,包括:
基于所述多个隶属度矩阵的权重和每个第一聚类结果中聚簇的数量,将所述多个第一聚类结果下的隶属度矩阵进行融合,得到融合矩阵。
8.一种对数据进行聚类的装置,其特征在于,所述装置包括:
获取模块,用于获取目标聚类事件的多个待聚类数据;
第一聚类模块,用于通过多种聚类算法分别对所述多个待聚类数据进行聚类,得到多个第一聚类结果;
确定模块,用于对于每个第一聚类结果,确定所述第一聚类结果下所述多个待聚类数据的隶属度矩阵,所述隶属度矩阵表示在所述第一聚类结果下每个待聚类数据相对于所述第一聚类结果的每个聚簇的隶属度;
第二聚类模块,用于基于多个隶属度矩阵,对所述多个待聚类数据进行聚类,得到所述目标聚类事件的第二聚类结果,以确定所述多个待聚类数据的类别。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;所述存储器存储有至少一条程序代码,所述至少一条程序代码用于被所述处理器执行以实现如权利要求1至7任一项所述的对数据进行聚类的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行以实现如权利要求1至7任一项所述的对数据进行聚类的方法。
CN202210163273.2A 2022-02-22 2022-02-22 对数据进行聚类的方法、装置、电子设备及存储介质 Pending CN114548276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210163273.2A CN114548276A (zh) 2022-02-22 2022-02-22 对数据进行聚类的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210163273.2A CN114548276A (zh) 2022-02-22 2022-02-22 对数据进行聚类的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114548276A true CN114548276A (zh) 2022-05-27

Family

ID=81676709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210163273.2A Pending CN114548276A (zh) 2022-02-22 2022-02-22 对数据进行聚类的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114548276A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708003A (zh) * 2022-04-27 2022-07-05 西南交通大学 一种异常数据检测方法、装置、设备及可读存储介质
CN117708627A (zh) * 2024-02-06 2024-03-15 中科院南京耐尔思光电仪器有限公司 一种全天域望远镜圆顶智能调节方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708003A (zh) * 2022-04-27 2022-07-05 西南交通大学 一种异常数据检测方法、装置、设备及可读存储介质
CN117708627A (zh) * 2024-02-06 2024-03-15 中科院南京耐尔思光电仪器有限公司 一种全天域望远镜圆顶智能调节方法及系统
CN117708627B (zh) * 2024-02-06 2024-04-12 中科院南京耐尔思光电仪器有限公司 一种全天域望远镜圆顶智能调节方法及系统

Similar Documents

Publication Publication Date Title
CN109189950B (zh) 多媒体资源分类方法、装置、计算机设备及存储介质
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN112052387B (zh) 一种内容推荐方法、装置和计算机可读存储介质
CN108875797B (zh) 一种确定图像相似度的方法、相册管理方法及相关设备
CN114548276A (zh) 对数据进行聚类的方法、装置、电子设备及存储介质
US20220350842A1 (en) Video tag determination method, terminal, and storage medium
CN110909222B (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
CN113051317B (zh) 一种数据挖掘模型更新方法、系统、计算机设备及可读介质
CN110942046B (zh) 图像检索方法、装置、设备及存储介质
WO2023016087A1 (zh) 图像聚类方法、装置、计算机设备及存储介质
CN112241789A (zh) 用于轻量化神经网络的结构化剪枝方法、装置、介质及设备
CN110909817B (zh) 分布式聚类方法及系统、处理器、电子设备及存储介质
CN111062431A (zh) 图像聚类方法、图像聚类装置、电子设备及存储介质
CN111178455B (zh) 图像聚类方法、系统、设备及介质
CN114625918A (zh) 视频推荐方法、装置、设备、存储介质及程序产品
CN116775915A (zh) 资源推荐方法、推荐预测模型训练方法、装置及设备
CN111859893A (zh) 图文排版方法、装置、设备及介质
CN111310834A (zh) 数据处理方法及装置、处理器、电子设备、存储介质
CN111275683B (zh) 图像质量评分处理方法、系统、设备及介质
CN111709473A (zh) 对象特征的聚类方法及装置
CN114492761B (zh) 编码模型的获取方法、聚类方法、装置、设备及介质
CN110569447A (zh) 一种网络资源的推荐方法、装置及存储介质
CN111428767B (zh) 数据处理方法及装置、处理器、电子设备及存储介质
CN114398960A (zh) 目标用户确定方法及装置、电子设备及存储介质
CN114416786A (zh) 流数据的处理方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination