CN112800253B - 数据聚类方法、相关设备及存储介质 - Google Patents

数据聚类方法、相关设备及存储介质 Download PDF

Info

Publication number
CN112800253B
CN112800253B CN202110382245.5A CN202110382245A CN112800253B CN 112800253 B CN112800253 B CN 112800253B CN 202110382245 A CN202110382245 A CN 202110382245A CN 112800253 B CN112800253 B CN 112800253B
Authority
CN
China
Prior art keywords
clustering
center
target
data
centers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110382245.5A
Other languages
English (en)
Other versions
CN112800253A (zh
Inventor
郭卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110382245.5A priority Critical patent/CN112800253B/zh
Publication of CN112800253A publication Critical patent/CN112800253A/zh
Application granted granted Critical
Publication of CN112800253B publication Critical patent/CN112800253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据聚类方法、相关设备及存储介质,方法包括:在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心;采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心;基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果;并根据所述聚类结果优化所述目标模型的模型参数;迭代上述过程,直至所述目标模型达到收敛;将所述目标模型达到收敛时的聚类结果,作为所述目标数据集的目标聚类结果。本申请实施例可以更好地进行聚类处理,提升聚类结果的准确性。

Description

数据聚类方法、相关设备及存储介质
技术领域
本申请涉及互联网技术领域,具体涉及计算机技术领域,尤其涉及一种数据聚类方法、一种数据聚类装置、一种计算机设备及一种计算机存储介质。
背景技术
聚类是指:将物理或抽象对象的集合分成由类似的对象组成的多个类(类又可称为“簇”)的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的其他对象彼此相似,与其他簇中的其他对象彼此相异。目前,如何更好地对大量的多媒体数据进行聚类成为了研究热点。
发明内容
本申请实施例提供了一种数据聚类方法、装置、计算机设备及存储介质,可以更好地进行聚类处理,提升聚类结果的准确性。
一方面,本申请实施例提供了一种数据聚类方法,所述方法包括:
在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心,P为正整数;
采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心;所述历史聚类中心是:在所述P个候选聚类中心之前所产生的聚类中心;
基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果;并根据所述聚类结果优化所述目标模型的模型参数;
迭代上述过程,直至所述目标模型达到收敛;将所述目标模型达到收敛时的聚类结果,作为所述目标数据集的目标聚类结果。
另一方面,本申请实施例提供了一种数据聚类装置,所述装置包括:
聚类单元,用于在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心,P为正整数;
所述聚类单元,还用于采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心;所述历史聚类中心是:在所述P个候选聚类中心之前所产生的聚类中心;
所述聚类单元,还用于基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果;
所述聚类单元,还用于根据所述聚类结果优化所述目标模型的模型参数;所述聚类单元被迭代调用,直至所述目标模型达到收敛;
处理单元,用于将所述目标模型达到收敛时的聚类结果,作为所述目标数据集的目标聚类结果。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括输入接口和输出接口,所述计算机设备还包括:
处理器,适于实现一条或多条计算机程序;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行如下步骤:
在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心,P为正整数;
采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心;所述历史聚类中心是:在所述P个候选聚类中心之前所产生的聚类中心;
基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果;并根据所述聚类结果优化所述目标模型的模型参数;
迭代上述过程,直至所述目标模型达到收敛;将所述目标模型达到收敛时的聚类结果,作为所述目标数据集的目标聚类结果。
再一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行如下步骤:
在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心,P为正整数;
采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心;所述历史聚类中心是:在所述P个候选聚类中心之前所产生的聚类中心;
基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果;并根据所述聚类结果优化所述目标模型的模型参数;
迭代上述过程,直至所述目标模型达到收敛;将所述目标模型达到收敛时的聚类结果,作为所述目标数据集的目标聚类结果。
再一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据聚类方法。
本申请实施在对目标数据集进行聚类时,可借助目标模型来获取目标数据集新产生的P个候选聚类中心;然后采用P个候选聚类中心对多个历史聚类中心进行更新,并利用更新得到的多个目标聚类中心,对目标数据集进行聚类处理。通过聚类结果设定目标模型的学习任务,使得目标模型可基于该聚类结果进行参数学习,从而优化目标模型的模型参数,实现目标模型的自监督学习。在优化目标模型后,可基于上述过程,迭代进行聚类中心更新和模型参数更新的操作,直至目标模型达到收敛,从而可将目标模型达到收敛时的聚类结果作为目标数据集的目标聚类结果。本申请实施例通过迭代地交替进行模型学习和记忆的聚类中心的更新,可使得目标模型在优化学习过程中,获取更多监督信息而避免陷入不佳的局部解中,从而提升目标模型的准确性和鲁棒性,进而可使得目标模型所提取的数据特征更加准确可靠;通过借助准确可靠的特征分布可使得确定出的目标聚类中心稳定可靠,从而可实现基于目标聚类中心对目标数据集进行更好的聚类处理,提升聚类结果的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种终端和服务器之间的交互示意图;
图1b是本申请实施例提供的一种数据聚类方案的方案示意图;
图2是本申请实施例提供的一种数据聚类方法的流程示意图;
图3a是本申请实施例提供的一种聚类原型和聚类质心的示意图;
图3b是本申请实施例提供的一种对P个候选聚类中心和多个历史聚类中心进行对齐处理的示意图;
图3c是本申请实施例提供的一种更新历史聚类中心的示意图;
图3d是本申请实施例提供的一种对历史聚类中心进行动量更新的示意图;
图3e是本申请实施例提供的一种区块链的示意图;
图4是本申请另一实施例提供的一种数据聚类方法的流程示意图;
图5是本申请另一实施例提供的一种数据聚类方法的流程示意图;
图6a是本申请实施例提供的一种数据聚类方法的应用流程意图;
图6b是本申请实施例提供的一种数据聚类方法的应用场景图;
图7是本申请实施例提供的一种数据聚类装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
随着互联网技术的不断发展,人工智能(Artificial Intelligence,AI)技术也随之得到更好的发展。所谓的人工智能技术是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术;其主要通过了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器,使得智能机器具有感知、推理与决策等多种功能。相应的,AI技术是一门综合学科,其主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(MachineLearning,ML)/深度学习等几大方向。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机设备具有智能的根据途径;所谓的机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;其专门研究计算机设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。而深度学习则是一种利用深层神经网络系统,进行机器学习的技术;机器学习/深度学习通常可包括人工神经网络、强化学习(Reinforcement Learning,RL)、有监督学习、无监督学习等多种技术;所谓的有监督学习是指采用类别已知(具有标注类别)的训练样本进行模型优化训练的处理方式,无监督学习是指采用类别未知(没有被标记)的训练样本进行模型优化训练的处理方式。
基于AI技术中的机器学习/深度学习技术,本申请实施例提出了一种基于记忆中心与模型交替学习的无监督的数据聚类方案,以实现更好地进行数据聚类处理,提升聚类结果的准确性。在具体实现中,该数据聚类方案可由一个计算机设备执行,该计算机设备可以是终端或者服务器;其中,此处所提及的终端可包括但不限于:智能手机、平板电脑、笔记本电脑、台式计算机、智能电视等;终端内可运行各式各样的客户端(application,APP),如多媒体播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端,等等。此处所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
应理解的是,若计算机设备为服务器,则当任一用户存在数据聚类需求时,可通过任一终端将待聚类的大量多媒体数据(如M个多媒体数据,M为大于1的正整数)上传至计算机设备(即服务器),使得计算机设备采用该数据聚类方案对该大量多媒体数据进行聚类处理,从而得到聚类结果,如图1a所示。或者,若计算机设备是终端,则计算机设备在获取到大量多媒体数据后,也可将大量多媒体数据上传至服务器,由服务器进行聚类处理,如图1a所示。另外,还需说明的是:本申请实施例所提及的计算机设备可以位于区块链网络外,也可以位于区块链网络内,对此不作限定;所谓的区块链网络是一种由点对点网络(P2P网络)和区块链所构成的网络,而区块链则是指一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,其本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块(或称为区块)。
在具体实现中,本申请实施例所提出的数据聚类方案的大致原理如下:可预先构建一个目标模型,该目标模型可至少包括:用于特征提取的卷积层,以及用于预测数据类别的聚类层;也就是说,该目标模型本质上是一个可对任一多媒体数据进行特征提取,并基于提取出的数据特征预测该任一多媒体数据的类别的聚类模型。在获取到待聚类的M个多媒体数据后,可将该M个多媒体数据划分成多个数据集(batch),并遍历该多个数据集。参见图1b所示:针对当前遍历的目标数据集,计算机设备可借助目标模型中的卷积层提取该目标数据集中的各个多媒体数据的数据特征,并根据提取出的数据特征学习得到该目标数据集新产生的P个候选聚类中心,P为正整数。若在该P个候选聚类中心之前,已产生多个聚类中心(可称为历史聚类中心),则计算机设备可采用该P个候选聚类中心更新该多个历史聚类中心,得到多个目标聚类中心,从而基于该目标聚类中心产生目标模型的聚类任务;若在该P个候选聚类中心之前未产生聚类中心,则计算机设备可直接将该P个候选聚类中心作为多个目标聚类中心,以产生目标模型的聚类任务。其中,目标模型的聚类任务可包括基于目标聚类中心对目标数据集进行聚类处理,所得到的目标数据集中的各个多媒体数据的类别标注标签。
另外,计算机设备还可将提取出的数据特征输入至目标模型的聚类层,使得聚类层输出聚类预测结果,该聚类预测结果可包括目标数据集中的各个多媒体数据的类别预测标签。然后,计算机设备可根据该聚类任务和聚类预测结果计算目标模型的损失值,并基于计算出的损失值更新优化目标模型的模型参数。在优化了目标模型后,计算机设备可迭代执行图1b所示的流程,从而实现聚类中心和模型参数的交替更新,直至目标模型达到收敛。在通过目标数据集使得目标模型达到收敛后,可将目标模型达到收敛时的目标聚类中心作为目标数据集的最终的聚类中心,并将基于该最终的聚类中心对目标数据集进行聚类处理所得到的聚类结果作为目标数据集的目标聚类结果。在多个数据集中的最后一个数据集被遍历后,便可得到M个多媒体数据的最终聚类结果(或称为全局聚类结果)。
经实践表明,本申请实施例提出的数据聚类方案可至少具有如下有益效果:①可以对海量的多媒体数据进行聚类处理:当待聚类的多媒体数据的数量较多时,通过每批次(每个数据集)内的聚类中心更新来设定目标模型的聚类任务,并借助深度学习无监督聚类手段通过该聚类任务指导目标模型进行参数学习;通过聚类中心更新与模型参数更新交替进行,可学习到性能较好的目标模型,从而实现海量数据的聚类。并且,通过分批次处理以及类中心合并的方式,可逐步实现大聚类中心、大聚类样本量的聚类效果,可有效避免每个数据集(batch)的数量必须大于聚类中心的数量的情况,以及有效避免必须一次性把将待聚类的所有多媒体数据加载到内存的情况。②可以避免分批次学习所得到的聚类结果偏离全局聚类结果的情况:通过更新历史聚类中心,并根据更新后所得到的目标聚类中心产生聚类任务来指导目标模型学习,可以使得目标模型在优化学习过程中,获取更多监督信息而避免陷入不佳的局部解中,从而提升目标模型的准确性和鲁棒性,进而可使得目标模型所提取的数据特征更加准确可靠;通过借助准确可靠的特征分布可使得确定出的目标聚类中心稳定可靠,从而可实现基于目标聚类中心所得到的聚类结果与全局聚类结果靠近,提升聚类结果的准确性。
基于上述数据聚类方案的相关描述,下面对该数据聚类方案中所提及的目标模型作进一步的详细阐述:
1)网络结构:该目标模型可以是基于深度学习的聚类模型,其具体可包括表1所示的特征提取模块,表2所示的聚类模块,以及表3所示的聚类中心管理模块:
表1
Figure 626446DEST_PATH_IMAGE001
参见上述表1所示,目标模型中的特征提取模块可以采用ResNet-101(一种残差网络)这种基础特征网络作为embedding网络(特征提取网络,embedding是一种低微稠密向量),采用其输出的结果为数据特征;也就是说,特征提取模块可至少包括多层卷积层(conv)。表1中的“Layer name”表示网络层名称,“Output size”表示网络层的输出结果的大小(或称为尺寸),“stride”表示步长,“max pool”表示最大池化,一个block表示3个卷积层。
表2
Layer name Output size Layer
Pool_cr 1×2048 max pool
Fc_cluster 1×N full connetction
参见表2所示,聚类模块可至少包括聚类层(Fc_cluser)和池化层(pool_cr)。其中,表2中的 Fc_cluster层的参数为2048*N的矩阵,用于学习目标模型的聚类任务的多个聚类中心;且Fc_cluster层的输出结果为1×N大小的数据;“full connetction”表示全连接层。
表3
Module name Shape Layer
中心存储层 2048×N full connetction
参见表3所示,聚类中心管理模块可至少包括中心存储层(Memory Bank,MB),该中心存储层可用于存储历史聚类中心,其大小为2048×N,本质上可理解成是一个全连接层。
2)特征提取:特征提取时可采用embedding作为数据特征,这里的embedding即为用来做相似度计算、数据检索的数据特征。
3)待学习的模型参数:表1中的各个卷积层可采用预先训练好的网络参数,以减少后续模型优化时的计算量;在此情况下,对于已经训练好的网络参数(如表1中的各个卷积层的网络参数),可根据需求决定是否需要再次优化这些网络参数。但对于表2中的聚类层的网络参数,则需要进行迭代优化,即学习的目标是获得恰当的Fc_cluster。也就是说,待学习的模型参数可至少包括聚类层的网络参数;可选的,还可包括卷积层以及其他网络层的网络参数。
4)目标模型的训练优化过程,具体可包括如下步骤a-步骤c:
a参数初始化:Conv1-Conv5采用特征预训练好的网络参数(如imagenet(一种大型通用物体识别的开源数据集)预训练的分类参数,或用于训练检索特征得到的参数等),而针对目标模型中的新添加的网络层(如Fc_cluster层、中心存储层等)而言,则可采用方差为0.01,均值为0的高斯分布进行初始化。
b模型前向:把目标模型的所有模型参数或部分模型参数设为需学习的状态,模型优化训练时,目标模型对输入的多媒体数据进行前向计算得到类别预测结果,把类别预测结果(Fc_cluster的输出结果)与指派的类别标注标签进行对比。以计算目标模型的损失值(classification loss),并将该损失至作为聚类的损失。
c模型参数优化:采用损失值进行梯度后向计算,得到需学习的各个模型参数的更新值,并采用该更新值更新优化目标模型的模型参数。
需要说明的是,本申请实施例只是示例性地阐述了目标模型的模型结构,并不对目标模型的具体结构进行限定;例如,上述所提及的特征提取模块是采用ResNet-101作为embedding网络进行特征提取的,但在其他实施例中,特征提取模块还可使用其他不同的结构网络以及不同的预训练模型权重作为基础特征提取的embedding网络,如深度残差网络、ResNet-18、ResNet-50,等等。
基于上述数据聚类方案的相关描述,本申请实施例提出一种数据聚类方法,该数据聚类方法可以由上述所提及的计算机设备执行,该计算机设备可以是终端或者服务器;或者,该数据聚类方法可由终端和服务器共同执行。为便于阐述,后续均以计算机设备执行该数据聚类方法为例进行说明;请参见图2,该数据聚类方法可包括以下步骤S201-S205:
S201,在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据每个多媒体数据的数据特征,确定目标数据集新产生的P个候选聚类中心,P为正整数。
在具体实现中,计算机设备可先获取待聚类的M个多媒体数据,M为大于1的正整数。所谓的多媒体是指多种媒体的综合,一般包括文本,声音和图像等多种媒体形式;相应的,本申请实施例所提及的多媒体数据可以是以下任一媒体形式的数据:视频形式、图像形式、音频形式、文本形式,等等。在获取到M个多媒体数据后,可根据M个多媒体数据确定目标数据集;具体的:若M个取值较小(即待聚类的多媒体数据的数量较少),则计算机设备可直接对该M个多媒体数据进行聚类处理;在此情况下,目标数据集可以是该M个多媒体数据所构成的数据集。若M的取值较大(即待聚类的多媒体数据的数量较多),则计算机设备可将M个多媒体数据划分成多个数据集,并依次对每个数据集进行聚类处理;在此情况下,目标数据集可以是多个数据集中的任一数据集,如第一个数据集、最后一个数据集,等等。为便于阐述,后续均以M的取值较大,即目标数据集为多个数据集中的其中一个数据集为例进行说明。在确定目标数据集后,计算机设备可调用目标模型对目标数据集中的每个多媒体数据进行特征提取,得到目标数据集中的每个多媒体数据的数据特征。然后,可根据每个多媒体数据的数据特征,确定目标数据集新产生的P个候选聚类中心。
需要说明的是,本申请实施例所提及的任一聚类中心(如候选聚类中心、历史聚类中心、目标聚类中心),本质上可以是聚类原型(或称为密度聚类中心、特征密度原型(prototype),也可以是聚类质心,对此不作限定。其中,聚类原型是指可表示目标数据集的密度中心的多媒体数据,一个密度中心对应目标数据集中的一个数据簇;然而,聚类质心则是指目标数据集中的任一数据簇中的所有多媒体数据的平均坐标。例如,采用小圆圈代表目标数据集中的多媒体数据,那么聚类原型可以是图3a中的黑色小圆圈,而聚类质心则可以是图3a中的黑色×;通过对比可知,聚类质心不一定在某个多媒体数据上,但聚类原型则必然在某个多媒体数据上,其是数据分布中最集中的那个多媒体数据。为便于阐述,后续均以聚类中心为聚类原型为例进行说明,即后续所提及的一个候选聚类中心为一个候选聚类原型。
基于上述描述,计算机设备在根据每个多媒体数据的数据特征,确定目标数据集新产生的P个候选聚类中心时,可根据每个多媒体数据的数据特征计算各个多媒体数据之间的距离,并采用距离计数作为密度的衡量,从而基于目标数据集中的各个多媒体数据的密度分布情况对目标数据集进行原型抽取,得到P个候选聚类中心;通过特征密度抽取聚类原型不仅可保证初始化的聚类中心的位置更可靠稳定,还可通过聚类密度约束后续的模型学习以使得聚类中心居于目标数据集的密集处。具体的,原型抽取原理如下:先确定目标数据集所对应的密度距离阈值,并可根据每个多媒体数据的数据特征,计算每个多媒体数据在密度距离阈值内的相似样本的样本数量;取样本数量最多或者样本数量大于数量阈值的那些多媒体数据作为候选聚类中心。在本申请实施例中,任意两个多媒体数据之间的距离可通过根据该任意两个多媒体数据的数据特征所计算得到的数据相似度进行反映,且距离和数据相似度成负相关;即任意两个多媒体数据之间的距离越大,则表明该任意两个多媒体数据之间的数据相似度越小。基于此,每个多媒体数据在密度距离阈值内的相似样本,可理解成是与该任一多媒体数据之间的数据相似度大于目标阈值的样本(多媒体数据)。
应理解的是,计算机设备除了采用距离计数作为密度的衡量,也可采用其他数据分布方法从目标数据集中抽取得到P个候选聚类中心;例如,可采用关系链的方法自底而上合并数据,以得到P和候选聚类中心。具体的,可通过步骤①将目标数据集中的每个多媒体数据均看作一个候选聚类中心,则有X个候选聚类中心(X的取值等于目标数据集中的多媒体数据的数量)。其次,可通过步骤②找到最近的两个候选聚类中心,将找到的两个候选聚类中心合并成一个聚类中心(如从两个候选聚类中心中随机选取一个候选聚类中心作为合并后的候选聚类中心),以合并后的候选聚类中心代替该两个多媒体数据(即找到的两个候选聚类中心),则有X-1个候选聚类中心。然后,可重复步骤②,直至剩下P个候选聚类中心。
S202,采用P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心。
其中,历史聚类中心是指:在P个候选聚类中心之前所产生的聚类中心;具体的,该多个历史聚类中心可包括:在最近一次通过步骤S201确定P个候选聚类中心之前,由目标数据集中所产生的聚类中心。进一步的,当目标数据集是多个数据集中的除第一个数据集以外的任一数据集时,若目标模型被依次采用各个数据集进行迭代训练优化,且每次迭代训练优化时,历史聚类中心均会被更新,则该多个历史聚类中心还可以包括:由多个数据集中位于目标数据集之前的数据集产生的聚类中心。为便于理解,下面结合几个具体例子对历史聚类中心作进一步阐述:
例1:假设目标数据集是第一个被用于对目标模型进行训练优化的数据集,且在当前执行步骤S201-S204时,已经执行过一次步骤S201-S204,即当前是第二次基于目标数据集执行步骤S201-S204;并假设计算机设备在第一次执行步骤S201-S204的过程中,得到的多个目标聚类中心包括:聚类中心A和聚类中心B。那么,在此次(即第二次)执行步骤S201-S202时,通过第一次执行步骤S201-S204所得到的聚类中心A和聚类中心B,便均被作为历史聚类中心,即此次执行步骤S202时所提及的多个历史聚类中心可包括:聚类中心A和聚类中心B。
例2:假设目标数据集是第二个被用于对目标模型进行训练优化的数据集,且当前是第一次基于目标数据集执行步骤S201-S204;并假设计算机设备在此次执行步骤S201-S204前,已经基于第一个数据集迭代执行了多次聚类中心和模型参数的交替更新,使得目标模型达到收敛,且目标模型通过第一个数据集达到收敛时,所得到的多个目标聚类中心包括:聚类中心u和聚类中心i。那么,在此次执行步骤S201-S202时,通过第一个数据集所得到的聚类中心u和聚类中心i,便均被作为历史聚类中心,即此次执行步骤S202时所提及的多个历史聚类中心可包括:聚类中心u和聚类中心i。
例3:假设目标数据集是第二个被用于对目标模型进行训练优化的数据集,且当前是第二次基于目标数据集执行步骤S201-S204。如果计算机设备在基于第一个数据集迭代执行多次聚类中心和模型参数的交替更新,使得目标模型达到收敛时,所得到的目标聚类中心包括:聚类中心u和聚类中心i;并且计算机设备在第一次基于目标数据集执行步骤S201-S204的过程中,对第一个数据集最终所产生的聚类中心u和聚类中心i进行更新,所得到的多个目标聚类中心包括:聚类中心u、聚类中心i以及聚类中心A。那么,在此次(即第二次)执行步骤S201-S202时,通过第一次执行步骤S201-S204所得到的聚类中心u、聚类中心i以及聚类中心A,便均被作为历史聚类中心,即此次执行步骤S202时所提及的多个历史聚类中心可包括:聚类中心u、聚类中心i以及聚类中心A。
在具体实现中,计算机设备在确定出P个候选聚类中心后,可在存储空间中查找多个历史聚类中心,以检测是否存在多个历史聚类中心。若查找成功,则表明存在多个历史聚类中心,此时可执行步骤S202,并在通过步骤S202得到多个目标聚类中心后,执行步骤S203。若查找失败,则表明不存在多个历史聚类中心,此时将P个候选聚类中心作为多个目标聚类中心,并执行步骤S203。其中,步骤S202的一种实施方式可以是:直接合并P个候选聚类中心和多个历史聚类中心,得到合并中心集;在合并中心集中删除重复的聚类中心,从而将合并中心集中剩余的聚类中心均作为目标聚类中心。例如,P个候选聚类中心包括:聚类中心a和聚类中心b,多个历史聚类中心包括:聚类中心a、聚类中心e和聚类中心f聚类;那么,通过此实施方式所得到的多个目标聚类中心可包括:聚类中心a、聚类中心b和聚类中心e和聚类中心f。
或者,步骤S202的另一种实施方式可以是:对P个候选聚类中心和多个历史聚类中心进行对齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心;一个对齐后的候选聚类中心对应一个对齐后的历史聚类中心,S大于或等于P。其中,对齐处理的原理是:通过查找各个候选聚类中心和各个历史聚类中心之间的匹配关系,以在具有匹配关系的候选聚类中心和历史聚类中心之间建立对应关系;任意两个聚类中心是否匹配,可通过该任意两个聚类中心之间的中心相似度进行衡量;中心相似度越大,则表明越匹配。针对未找到匹配关系的候选聚类中心,则可新增一个无效聚类中心作为历史聚类中心,以在该新增的无效聚类中心和该候选聚类中心之间建立对应关系;所谓的无效聚类中心是指数据特征为无效特征的聚类中心,无效特征可以是0向量所指示的特征。同理,针对未找到匹配关系的历史聚类中心,则可新增一个无效聚类中心作为候选聚类中心,以在该新增的无效聚类中心和该历史聚类中心之间建立对应关系。例如参见图3b中的上图所示,设总共有4个历史聚类中心:P1、P2、P3和P4,且总共有3个候选聚类中心:Pnew1、Pnew2和Pnew3;若只有P3和Pnew1之间具有匹配关系,则可在P3和Pnew1之间建立对应关系,新增3个无效聚类中心作为候选聚类中心,以与P1、P2和P4分别建立对应关系,以及可新增2个无效聚类中心作为历史聚类中心,以与Pnew2和Pnew3分别建立对应关系,如图3b中的下图所示。
由此可见,当存在未找到匹配关系的历史聚类中心,或存在未找到匹配关系的候选聚类中心时,由于计算机设备在执行对齐处理时,会新增无效聚类中心作为候选聚类中心或历史聚类中心,因此最终得到的对齐后的候选聚类中心(或对齐后的历史聚类中心)的数量S大于P。当不存在未找到匹配关系的历史聚类中心,且不存在未找到匹配关系的候选聚类中心时,即当P个候选聚类中心和各个历史聚类中心是一一匹配时;由于计算机设备在执行对齐处理时,无需新增无效聚类中心,因此最终得到的对齐后的候选聚类中心(或对齐后的历史聚类中心)的数量S等于P。例如,上述图3b所示的例子,由于4个历史聚类中心和3(即P=3)个候选聚类中心中,存在未找到匹配关系的历史聚类中心P1、P2和P4,且存在未找到匹配关系的候选聚类中心Pnew2和Pnew3;因此通过对齐处理得到了6个对齐后的候选聚类中心以及6个对齐后的历史聚类中心,即S=6,S大于P。但如果总共有4个候选聚类中心:Pnew1、Pnew2、Pnew3和Pnew4,且P1和Pnew2之间具有匹配关系、P2和Pnew3之间具有匹配关系、P3和Pnew1之间具有匹配关系,以及P4和Pnew4之间具有匹配关系,那么此情况下,只需分别在具有匹配关系的历史聚类中心和候选聚类中心之间建立对应关系即可,无需新增无效聚类中心,从而得到4个对齐后的候选聚类中心以及4个对齐后的历史聚类中心,即S=4,S等于P。
然后,可采用S个对齐后的候选聚类中心对S个对齐后的历史聚类中心进行动量更新,得到多个目标聚类中心。其中,动量更新的原理是:通过动量系数采用该任一对齐后的候选聚类中心的数据特征,对其所对应的对齐后的历史聚类中心的数据特征进行特征融合,得到融合特征;然后,采用目标数据集中与融合特征相匹配的数据特征所对应的多媒体数据替换该对齐后的历史聚类中心,以实现历史聚类中心的更新。应理解的是:由于对于不存在匹配关系的候选聚类中心而言,其所对应的对齐后的历史聚类中心为无效聚类中心,因此在通过动量更新方式对其所对应的对齐后的历史聚类中心进行更新时,本质上是将该候选聚类中心直接作为目标聚类中心。而对于存在匹配关系的候选聚类中心而言,由于通过动量更新的方式对其所对应的对齐后的历史聚类中心进行更新时,会导致数据特征发生变化,因此可能会使得更新所得到的目标聚类中心和该对齐后的历史聚类中心相同,也可能不同。
例如承接图3b所示的对应关系,假设某个对齐后的候选聚类中心为Pnew1,其数据特征为[1,2,3,4],Pnew1所对应的对齐后的历史聚类中心P3的数据特征为[4,3,6,8],通过动量系数采用该数据特征[1,2,3,4]对数据特征[4,3,6,8]进行特征融合,所得到的融合特征为[2,3,3,4]。若目标数据集中存在某个多媒体数据A的数据特征为[2,3,3,4],则采用该多媒体数据A替换对齐后的历史聚类中心P3;若目标数据集中不存在数据特征为[2,3,3,4]的多媒体数据,则可查找与该融合特征[2,3,3,4]最匹配的数据特征所对应的多媒体数据以替换历史聚类中心P3,如图3c所示。应理解的是,查找到的与融合特征最匹配的数据特征可能是数据特征[4,3,6,8],也可能是其他数据特征;当查找到的数据特征为[4,3,6,8]时,可理解成历史聚类中心P3未被替换更新。又如,假设某个对齐后的候选聚类中心为Pnew2,其数据特征为[9,8,0,4],Pnew2所对应的对齐后的历史聚类中心的数据特征为[0,0,0,0],那么通过动量系数采用该数据特征[9,8,0,4]对数据特征[0,0,0,0]进行特征融合,所得到的融合特征仍为[9,8,0,4]。由于目标数据集中存在Pnew2的数据特征为[9,8,0,4],因此采用Pnew2更新对齐后的历史聚类中心,所得到的目标聚类中心仍为Pnew2。
由此可见,通过对齐处理和动量更新的方式对多个历史聚类中心进行更新,所得到的目标聚类中心的数量应该小于或等于历史聚类中心和候选聚类中心的总数量。具体的,当各个候选聚类中心和各个历史聚类中心之间均不存在匹配关系时,目标聚类中心的数量等于历史聚类中心和候选聚类中心的总数量;例如,历史聚类中心的数量为100个,候选聚类中心的数量为10个,则目标聚类中心的数量为110个。当存在至少一个候选聚类中心和历史聚类中心之间存在匹配关系时,目标聚类中心的数量小于历史聚类中心和候选聚类中心的总数量;例如,历史聚类中心的数量为100个,候选聚类中心的数量为10个,且存在2个候选聚类中心与历史聚类中心之间匹配关系,则目标聚类中心的数量为108个,如图3d所示。
S203,基于每个多媒体数据和每个目标聚类中心之间的关联性,对目标数据集进行聚类处理,得到聚类结果。
在具体实现中,关联性采用数据相似度进行表示;也就是说,每个多媒体数据和每个目标聚类中心之间的关联性,可以采用每个多媒体数据和每个目标聚类中心之间的数据相似度进行表示。基于此,步骤S203的具体实施方式可以是:遍历目标数据集中的各个多媒体数据,并确定当前遍历的当前多媒体数据。根据当前多媒体数据和每个目标聚类中心的数据相似度,选取与当前多媒体数据的数据相似度最大的目标聚类中心,作为当前多媒体数据的关联聚类中心;然后,可将当前多媒体数据划分至关联聚类中心所在的数据簇,以得到聚类结果。当目标数据集中的各个多媒体数据均被遍历,则可得到聚类结果,该聚类结果包括多个数据簇,一个数据簇对应一个目标聚类中心,且一个数据簇包括目标数据集中的一个或多个多媒体数据。
S204,根据聚类结果优化目标模型的模型参数。
由前述可知,聚类结果包括多个数据簇,一个数据簇包括目标数据集中的一个或多个多媒体数据;那么计算机设备根据聚类结果优化目标模型的模型参数的具体实施方式可以是:按照同一个数据簇中的各多媒体数据的标签相同原则,为每个多媒体数据分配类别标注标签。其次,可调用目标模型对目标数据集中的各个多媒体数据进行类别预测,得到每个多媒体数据的类别预测标签。然后,可根据每个多媒体数据的类别预测标签和对应的类别标注标签之间的差异,计算目标模型的损失值。最后,可按照减小损失值的方向,优化目标模型的模型参数。具体的,可按照减小该损失值的方向,采用梯度下降算法根据该损失值进行梯度后向计算,得到目标模型的模型参数的更新值,将目标模型的模型参数更新成该更新值,以优化目标模型;此处的梯度下降算法可包括但不限于:SGD(StochasticGradient Descent,随机梯度下降)算法、GD(Gradient Dropping,梯度下降)算法、BGD(Batch Gradient Descent,批量梯度下降法),等等。其中,本申请实施例所提及的“按照减小损失值的方向”是指:以最小化损失值为目标的模型优化方向;通过此方向进行模型优化,使得目标模型在每次优化后所再次产生的损失值,需小于目标模型在优化前所产生的损失值。例如,本次计算得到的目标模型的损失值为0.85,那么通过按照减小损失值的方向优化目标模型后,通过优化目标模型所产生的损失值应小于0.85。
需说明的是,为每个多媒体数据分配的类别标注标签并不用于表示多媒体数据的实际类别,其只是一个用于区分不同数据簇中的多媒体数据的标识;例如,多媒体数据a的实际类别为小狗图像,而为多媒体数据a标注的类别标注标签可以为类别1;若多媒体数据b的类别标注标签也为类别1,则表明多媒体数据a和多媒体数据b属于同一个数据簇;若多媒体数据b的类别标注标签为类别2,则表明多媒体数据a和多媒体数据b属于不同的数据簇。由此可见,本申请实施例在为同一个数据簇中的多媒体数据标注相同的类别标注标签时,并不关注于多媒体数据的实际类别,可随机选取一个类别信息对同一个数据簇中的各多媒体数据进行类别标注标签的标注,这样可在实现数据聚类效果的同时,降低多媒体数据的类别标注标签的标注难度,提高标注效率。
S205,迭代上述过程,直至目标模型达到收敛;将目标模型达到收敛时的聚类结果,作为目标数据集的目标聚类结果。
其中,迭代上述过程是指:迭代执行步骤S201-步骤204;也就是说,一次迭代过程可包括:通过步骤S201-S202所实现的历史聚类中心的更新,以及通过步骤S202-S203所实现的模型参数的优化更新。在每次迭代过程中,通过步骤S201-S203获取聚类结果后,可根据聚类结果检测目标模型是否达到收敛;若达到收敛,则停止迭代,并将目标模型达到收敛时的聚类结果,作为目标数据集的目标聚类结果;若未达到收敛,则可执行步骤S204,并在通过步骤S204更新目标模型的模型参数后,进入下一次迭代过程,即再次执行步骤S201-S204。
其中,目标模型达到收敛是指:目标模型的模型参数不再发生变化,或模型参数的变化幅度小于阈值;或者目标模型达到收敛是指:目标模型的损失值不再减小,或目标模型的损失值的减小幅度小于阈值。那么相应的,根据聚类结果检测目标模型是否达到收敛的一种实施方式可以是:根据聚类结果计算目标模型的损失值,若计算出的损失值与前一次的损失值相同,或者计算出的损失值与前一次的损失值之间的差值小于差值阈值,则确定目标模型达到收敛;否则,则确定目标模型未达到收敛。
可选的,在得到目标数据集的目标聚类结果后,还可将该目标聚类结果上传存储至区块链网络的区块链中,以防止目标聚类结果被恶意篡改。其中,区块链由多个区块组成,如图3e所示;创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。基于此,将目标聚类结果存储至区块链网络的区块链中的具体实施方式可以是:
若计算机设备是区块链网络中的节点,则先可将目标聚类结果添加至目标区块的区块主体中,并对区块主体中的目标聚类结果进行哈希运算,得到默克尔哈希值。其次,可采用随机算法生成一个随机数,并采用计算得到的默克尔哈希值、随机数、版本号、上一区块哈希值、当前时间戳以及当前难度值组成目标区块的区块头部。其中,版本号是指区块链中相关区块协议的版本信息;上一区块哈希值是指上一区块的区块头部的特征值;当前时间戳是指组成区块头部时的系统时间;当前难度值是指计算的难度值,该难度值在固定时间段内为定值,并在超出固定时间段后再次进行确定。然后,可采用特征值算法(如SHA256算法)对区块头部所包含的内容进行一次或多次哈希运算,得到目标区块的区块头部的特征值;此处的哈希运算的次数可根据计算难度确定,计算难度越大,哈希运算的次数越多。在基于上述步骤得到目标区块后,可将该目标区块广播给区块链网络中的各个共识节点进行共识处理;在通过共识处理后,将目标区块添加至区块链上。应理解的是,若计算机设备是区块链网络外的设备,则可将目标聚类结果发送给区块链网络中的任一共识节点,由该任一共识节点执行上述步骤,以将目标聚类结果存储至区块链中。
本申请实施在对目标数据集进行聚类时,可借助目标模型来获取目标数据集新产生的P个候选聚类中心;然后采用P个候选聚类中心对多个历史聚类中心进行更新,并利用更新得到的多个目标聚类中心,对目标数据集进行聚类处理。通过聚类结果设定目标模型的学习任务,使得目标模型可基于该聚类结果进行参数学习,从而优化目标模型的模型参数,实现目标模型的自监督学习。在优化目标模型后,可基于上述过程,迭代进行聚类中心更新和模型参数更新的操作,直至目标模型达到收敛,从而可将目标模型达到收敛时的聚类结果作为目标数据集的目标聚类结果。本申请实施例通过迭代地交替进行模型学习和记忆的聚类中心的更新,可使得目标模型在优化学习过程中,获取更多监督信息而避免陷入不佳的局部解中,从而提升目标模型的准确性和鲁棒性,进而可使得目标模型所提取的数据特征更加准确可靠;通过借助准确可靠的特征分布可使得确定出的目标聚类中心稳定可靠,从而可实现基于目标聚类中心对目标数据集进行更好的聚类处理,提升聚类结果的准确性。
请参见图4,是本申请实施例提供的另一种数据聚类方法的流程示意图。该数据聚类方法可以由上述所提及的计算机设备执行,该计算机设备可以是终端或者服务器;或者,该数据聚类方法可由终端和服务器共同执行。为便于阐述,后续均以计算机设备执行该数据聚类方法为例进行说明;请参见图4,该数据聚类方法可包括以下步骤S401-S408:
S401,在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据每个多媒体数据的数据特征,确定目标数据集新产生的P个候选聚类中心,P为正整数。
在具体实现中,计算机设备可先根据每个多媒体数据的数据特征,计算各个多媒体数据之间的数据相似度,得到计算结果。具体的,每个多媒体数据的数据特征可采用特征向量进行表示,那么计算机设备可采用相似度算法(如cosine-similarity(余弦相似度)算法、欧式距离算法等),根据每个多媒体数据的数据特征和各个多媒体数据的数据特征进行相似度计算,得到每个多媒体数据和各个多媒体数据的数据相似度,从而得到计算结果。其中,该计算结果中包括每个多媒体数据和各个多媒体数据的数据相似度;可理解的是,任一多媒体数据和自己之间的数据相似度可等于1;任意两个多媒体数据之间的数据相似度越大,则表明该任意两个多媒体数据越相似,且该任意两个多媒体数据之间的距离越近。为便于后续的计算,该计算结果可采用X*X的相似度矩阵进行表示;其中,X表示目标数据集中的多媒体数据的数量,相似度矩阵中的第x行第y列的元素值表示第x个多媒体数据和第y个多媒体数据之间的数据相似度,x和y均∈[1,X]。
其次,可根据计算结果,在目标数据集中确定每个多媒体数据的相似样本;其中,任一多媒体数据的相似样本是指:与任一多媒体数据的数据相似度大于目标阈值的多媒体数据。此处的目标阈值可以是根据经验值或者业务需求所预先设置的固定阈值,也可以是一个基于计算结果所确定的动态阈值,对此不作限制。当目标阈值为动态阈值时,计算机设备可通过如下步骤得到目标阈值:将计算结果中的各个数据相似度进行升序排列,得到相似度序列;并将相似度序列中位于目标排列位置处的数据相似度作为目标阈值,该目标排列位置可根据业务需求或者经验值设置,如top 40%(即前40%)的位置。例如,对于0.1,0.2…0.9,1共10个值,top 40%的位置是指按照从小到大的顺序对10个值进行排列后的第4位,即top 40%的位置(目标排列位置)是指0.4所处的排列位置,那么目标阈值便可为0.4。或者,也可将计算结果中的各个数据相似度进行降序排列,得到相似度序列,并将相似度序列中位于目标排列位置处的数据相似度作为目标阈值。再或者,还可计算计算结果中的各个数据相似度的均值,将计算得到的均值作为目标阈值,等等。
然后,可根据每个多媒体数据的相似样本的样本数量,确定每个多媒体数据的密度中心概率;此处所提及的目标数据集中的任一多媒体数据的密度中心概率是指:任一多媒体数据被视为目标数据集的密度中心的概率。在一种实施方式中,可直接将每个多媒体数据的相似样本的样本数量,作为每个多媒体数据的密度中心概率;再一种实施方式中,可对每个多媒体数据的相似样本的样本数量进行归一化处理,得到每个多媒体数据的密度中心概率;再一种实施方式中,还可按照预设的样本数量和密度中心概率之间的对应关系,根据每个多媒体数据的相似样本的样本数量,确定每个多媒体数据的密度中心概率。需说明的是,本申请实施例只是示例性地列举了几种根据样本数量确定密度中心概率的方式,并非穷举;即还可采用其他实施方式根据样本数量确定密度中心概率,只需满足样本数量和密度中心概率成正相关即可。
最后,可基于每个多媒体数据的密度中心概率,在目标数据集中选取P个候选聚类原型。在一种实施方式中,可基于每个多媒体数据的密度中心概率,在目标数据集中选取P个密度中心概率大于概率阈值的多媒体数据,作为P个候选聚类原型。再一种实施方式中,也可对每个多媒体数据的密度中心概率进行降序或者升序排列,从而根据排列结果,按照从大到小的选取顺序,依次选取P个密度中心概率所对应的多媒体数据,作为目标数据集此次所新产生的P个候选聚类中心。
其中,上述所提及的候选聚类中心的数量P的取值可以是预先根据经验值或者业务需求所设置的固定值;当目标数据集是对M个多媒体数据进行数据划分所得到的多个数据集中的任一数据集时,若该M个多媒体数据被设定了需产生K个聚类中心,则该P的取值也可根据数据集的数量以及K的取值计算得到。在此情况下,P=K/(M/X);其中,X表示每个数据集(如目标数据集)中的多媒体数据的数量,(M/X)表示对M个多媒体数据进行数据划分所得到的数据集的数量。需说明的是,若K/(M/X)的计算结果不是整数,则可对K/(M/X)的计算结果进行向上取整处理或向下取整处理,使得P的取值为整数。
S402,对P个候选聚类中心和多个历史聚类中心进行对齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心;一个对齐后的候选聚类中心对应一个对齐后的历史聚类中心,S大于或等于P。
在具体实现中,根据多个历史聚类中心的数量,构建第一矩阵表以及第二矩阵表,并将多个历史聚类中心依次填充至第一矩阵表中。然后,可在多个历史聚类中心中,检测与第p个候选聚类中心相匹配的匹配聚类中心,p∈[1,P]。具体的,可计算第p个候选聚类中心和各个历史聚类中心之间的中心相似度;任一候选聚类中心和任一历史聚类中心之间的中心相似度可通过采用相似度算法(如cosine-similarity算法),根据任一候选聚类中心的数据特征和任一历史聚类中心的数据特征计算得到。然后,可选取最大中心相似度对应的历史聚类中心,以及次大中心相似度对应的历史聚类中心,作为第p个候选聚类中心的两个相似中心。若次大中心相似度小于或等于两个相似中心之间的中心相似度,则将最大中心相似度对应的历史聚类中心,作为与第p个候选聚类中心相匹配的匹配聚类中心;否则,则确定未检测到匹配聚类中心。
若检测到匹配聚类中心,则可确定匹配聚类中心在第一矩阵表中所处的目标存储位置,并将第p个候选聚类中心添加至第二矩阵表中的目标存储位置处;若未检测到匹配聚类中心,则可在第二矩阵表中新增一个存储位置,并将第p个候选聚类中心填充至第二矩阵表中新增的存储位置处。在各个候选聚类中心均被填充至第二矩阵表后,若第一矩阵表和第二矩阵表中的任一矩阵表存在空白位置(即未存储聚类中心的存储位置),则采用无效聚类中心对空白位置进行补齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心。
基于上述描述,下面采用一个完整流程对步骤S402的实施原理作进一步详细阐述:
(0)设置历史原型矩阵Mhist(即第一矩阵表,该Mhist为K1*2048的矩阵,K1是历史聚类中心的数量),以及用于存储P个候选聚类中心(记为Pnew)的新原型矩阵Mnew(即第二矩阵表);
(1)采用cosine-similarity计算历史聚类中心之间的中心相似度,即对于K1个历史聚类中心,可得到K1*K1相似度矩阵;
(2)对第p个候选聚类中心,计算其与各个历史聚类中心之间的中心相似度,从而确定与最相似的历史聚类中心r之间的中心相似度Spr,与次相似的历史聚类中心t之间的中心相似度Spt,以及对应的历史聚类中心r和历史聚类中心t在K1个历史聚类中心的序号IDr,IDt(其中IDr和IDt均为1…K1之间的值,意味着r是K1个历史聚类中心中的第IDr位的历史聚类中心,以及意味着t是K1个历史聚类中心中的第IDt位的历史聚类中心);
(3)在K1*K1相似度矩阵查找历史聚类中心r和历史聚类中心t之间的中心相似度Srt;
(4)当min(Spr,Spt)>Srt时,可确定第p个候选聚类中心为新聚类中心,此时可将第p个候选聚类中心记录到Mnew中;否则,则确定第p个候选聚类中心在历史聚类中心r的附近,此时可确定历史聚类中心r在Mhist中的目标存储位置(第IDr的位置),并将第p个候选聚类中心填充至Mnew中的第IDr的位置;
(5)补齐新原型矩阵Mnew:用无效聚类中心(如0向量指示的聚类中心)在Mnew中补全未找到匹配关系的空白位置,如前述所提及的图3b所示;
(6)补齐历史原型矩阵Mhist:用无效聚类中心(如0向量指示的聚类中心),在Mhist中补齐没有找到对应的候选聚类中心的空白位置(即1…K1范围内,没有被步骤(4)找到的位置)。
需说明的是,若通过全量数据迭代之后,已找到大量的聚类中心,使得Mnew和Mhist中不存在空白位置,则无需执行矩阵表的补齐操作。
S403,采用S个对齐后的候选聚类中心对S个对齐后的历史聚类中心进行动量更新,得到多个目标聚类中心。
首先,可获取动量系数。此处所提及的动量系数可以是预先根据经验值或者业务需求所设置的固定值,如0.9;在此实施方式下,计算机设备可从存储空间中直接读取该动量系数。或者,该动量系数也可以是根据目标数据集中的多媒体数据的数量所计算得到的动态值;在此实施方式下,计算机设备可通过下述公式1.1计算得到动量系数:
Figure 74745DEST_PATH_IMAGE003
式1.1
其中,X表示目标数据集中的多媒体数据的数量,M表示待聚类的多媒体数据的总数量,g表示一个参考值,g的取值可根据经验值或者业务需求设置,如设置g=0.9。举例说明,若X等于10万,M等于1亿,则m为0.999。
其次,可根据动量系数采用第s个对齐后的候选聚类中心,更新第s个对齐后的历史聚类中心,以得到多个目标聚类中心;其中,s∈[1,S]。在一种实施方式中,可将动量系数作为第s个对齐后的历史聚类中心的第一权重值,并根据动量系数计算第s个对齐后的候选聚类中心的第二权重值;然后,可采用第一权重值和第二权重值,对第s个对齐后的历史聚类中心的数据特征以及第s个对齐后的候选聚类中心的数据特征进行加权融合,得到融合特征(如下述公式1.2所示);最后,可在目标数据集中的各个多媒体数据的数据特征中,查找与融合特征相匹配的数据特征,并采用查找到的数据特征对应的多媒体数据替换第s个对齐后的历史聚类中心。
Figure 25121DEST_PATH_IMAGE005
式1.2
其中,
Figure 154751DEST_PATH_IMAGE006
表示第s个对齐后的历史聚类中心的数据特征,
Figure 500282DEST_PATH_IMAGE007
表示第s个对齐后的候选聚类中心的数据特征,
Figure 994848DEST_PATH_IMAGE008
表示第二权重值。通过公式1.2可知,本申请实施例是采用新的
Figure 203761DEST_PATH_IMAGE007
通过动量系数m调节到
Figure 340344DEST_PATH_IMAGE006
中从而更新
Figure 494376DEST_PATH_IMAGE006
,得到融合特征的;在模型学习过程中,由于
Figure 628685DEST_PATH_IMAGE007
会产生梯度回传到目标模型中,因此可采用较大m以平滑由于批次随机抽样产生的样本分布震荡和对中心干扰。
S404,基于每个多媒体数据和每个目标聚类中心之间的关联性,对目标数据集进行聚类处理,得到聚类结果;并根据聚类结果优化目标模型的模型参数,被优化的模型参数可至少包括目标模型的聚类层的模型参数,可选的,还可包括卷积层以及池化层等其他网络层的模型参数。
S405,迭代上述过程,直至目标模型达到收敛;将目标模型达到收敛时的聚类结果,作为目标数据集的目标聚类结果。
其中,步骤S405的具体实施方式可以参见上述实施例中的步骤S205的具体实施方式,在此不再赘述。可选的,若目标模型被按序依次采用多个数据集中的各个数据集进行优化,且目标模型在通过每个数据集进行优化的过程中均达到收敛;其中,多个数据集是通过对待聚类的M个多媒体数据进行数据划分得到的,目标数据集是多个数据集中的任一个数据集。则考虑到在第一轮全量数据迭代中,每次历史聚类中心的更新可能存在中心合并的情况,那么当完成M个多媒体数据的历史聚类中心的批次动量更新后,所得到的基准聚类中心的数量有可能达不到M个多媒体数据所需的目标数量K。因此,本申请实施例还可对聚类中心进行分裂矫正处理,以得到K个基准聚类中心,具体实施过程可参见下述步骤S406-S408的相关描述。
S406,根据目标模型在通过最后一个数据集达到收敛时的各个目标聚类中心,获取M个多媒体数据的Q个基准聚类中心,Q为大于1的正整数。
在具体实施过程中,若在依次采用每个数据集对目标模型进行模型更新的过程中,每个数据集中的聚类中心是相互独立的,即第一个数据集的目标聚类中心未被作为第二个数据集的历史聚类中心,第二个数据集的目标聚类中心未被作为第三个数据集的历史聚类中心,以此类推;则在此情况下,步骤S406的具体实施方式可以是:将目标模型在通过每个数据集达到收敛时的各个目标聚类中心进行合并,得到M个多媒体数据的Q个基准聚类中心。若在依次采用每个数据集对目标模型进行模型更新的过程中,每个数据集中的聚类中心是迭代更新的,即第一个数据集的目标聚类中心被作为第二个数据集的历史聚类中心,并在第二个数据集的模型训练过程中进行了更新,第二个数据集的目标聚类中心被作为第三个数据集的历史聚类中心,并在第三个数据集的模型训练过程中进行了更新,以此类推;则在此情况下,步骤S406的具体实施方式可以是:将目标模型在通过最后一个数据集达到收敛时的各个目标聚类中心,作为M个多媒体数据的Q个基准聚类中心。
S407,统计Q个基准聚类中心的中心数量。
S408,若中心数量小于目标数量,则对Q个基准聚类中心进行分裂矫正处理。
在具体实现中,若中心数量小于目标数量,则可根据M个多媒体数据中各多媒体数据与每个基准聚类中心之间的数据相似度,将M个多媒体数据聚类成多个数据组,一个数据组对应一个基准聚类中心。其次,可按照中心矫正选取策略,从Q个基准聚类中心中选取一个待分裂矫正的基准聚类中心;在一种实施方式中,可从Q个基准聚类中心中随机选取一个待分裂矫正的基准聚类中心。再一种实施方式中,可将M个多媒体数据中与第q个基准聚类中心属于同一数据组的各个多媒体数据,作为第q个基准聚类中心的关联多媒体数据,q∈[1,Q];根据第q个基准聚类中心和各个关联多媒体数据之间的距离值,计算第q个基准聚类中心对应的平均距离值。由于平均距离值可在一定程度上反应基准聚类中心所处的数据组的数据紧密程度,平均距离值越小,则表明基准聚类中心所处的数据组的数据紧密程度越高,从而可表明该基准聚类中心越能代表其所处的数据组的密度中心。因此,在得到各个基准聚类中心对应的平均距离值后,计算机设备可选取最大平均距离值对应的基准聚类中心作为待分裂矫正的基准聚类中心。
然后,可将被选取的基准聚类中心所属的数据组作为基准数据组,并计算基准数据组中的各个多媒体数据的密度中心概率;此处所提及的基准数据组中的任一多媒体数据的密度中心概率是指:任一多媒体数据被视为基准数据组的密度中心的概率。需说明的是,基准数据组中的各个多媒体数据的密度中心概率的计算方式,可参见上述实施例所提及的目标数据集中的每个多媒体数据的密度中心概率的计算方式,在此不再赘述。最后,可按照密度中心概率从大到小的选取顺序,从基准数据组中选取至少两个多媒体数据作为新聚类中心,以替换被选取的基准聚类中心。
基于上述步骤S408的相关描述,下面采用一个完整流程对分裂矫正处理的具体实施原理作进一步详细阐述:
1)基于Q个基准聚类中心,对M个多媒体数据中的每个多媒体数据记录信息INFO,该信息INFO包括:多媒体数据的数据标识(如数据序号),对应的基准聚类中心的中心标识,以及与对应的基准聚类中心之间的距离值。需说明的是,此处所提及的中心标识可由目标模型推断分配,并且该中心标识也是多媒体数据所对应的类别标注标签。
2)基于上述信息,对每个基准聚类中心q,确定该基准聚类中心所属的数据组{x},并获得该数据组中的各个多媒体数据与该基准聚类中心q之间的所有距离值Dq={dx};其中x为属于基准聚类中心q所属的数据组的多媒体数据。根据Dq计算平均距离Mdx,并对于基准聚类中心q,记录信息C_INFO(Mdx,Dq,{x})。
3)获得最大平均距离所对应的基准聚类中心,作为待分裂的基准聚类中心(设为基准聚类中心Y)。
4)对基准聚类中心Y的数据组{x},确定拥有最大的2个密度中心概率的多媒体数据y1和y2,采用多媒体数据y1和y2作为新聚类中心,以替换基准聚类中心Y,从而将基准聚类中心Y分裂成2个y1和y2。
5)信息更新:对于{x}中的各个多媒体数据,分别计算其与y1和y2的聚类中心信息(样本序号i,聚类中心序号c,距离d),INFO和C_INFO中用y1的信息替代Y,并增加y2;把(1,2,…,p,…,K1)基准聚类中心中的基准聚类中心Y拆分为y1和y2后,可得到(1,2,…,y1,…,K1,y2),新聚类数量K1=K1+1。
6)当K1<K,重复步骤2)-步骤5),直到最终得到K个基准聚类中心为止。
本申请实施在海量数据处理上,可通过数据分批次输入到目标模型,实现海量数据以及海量聚类中心的逐批次处理。整体的模型学习上,可通过梯度回传与历史聚类中心更新交替优化聚类中心,实现目标模型推断与数据特征推断的共同监督效果。另外在聚类中心更新上,通过设计逐batch更新的方法实现即使当批次样本数量低于聚类中心时,也可产生聚类任务,并降低由初始化造成的聚类效果不佳的影响。
基于上述描述,本申请实施例还提供另一种如图5所示的数据聚类方法的流程示意图。该数据聚类方法可以由上述所提及的计算机设备执行,该计算机设备可以是终端或者服务器;或者,该数据聚类方法可由终端和服务器共同执行。为便于阐述,后续均以计算机设备执行该数据聚类方法为例进行说明;请参见图5,该数据聚类方法可包括以下步骤S501-S511:
S501,获取待聚类的M个多媒体数据,并将M个多媒体数据划分成多个数据集。
S502,依次遍历多个数据集,将当前遍历的数据集作为目标数据集。
S503,调用目标模型提取目标数据集中每个多媒体数据的数据特征,并根据每个多媒体数据的数据特征,确定目标数据集新产生的P个候选聚类中心,P为正整数。
S504,采用P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心。
S505,基于每个多媒体数据和每个目标聚类中心之间的关联性,对目标数据集进行聚类处理,得到聚类结果。
S506,判断目标模型是否达到收敛;若未达到收敛,则通过步骤S507根据聚类结果优化目标模型的模型参数,并迭代执行步骤S503-S506;若达到收敛,则执行步骤S508。
S507,根据聚类结果优化目标模型的模型参数。
S508,将目标模型达到收敛时的聚类结果,作为目标数据集的目标聚类结果。
需要说明的是,本申请实施例中的步骤S503-S508的具体实施方式可参见上述图2或图4所示的方法实施例中的相关描述,在此不再赘述。在通过步骤S508得到目标数据集的目标聚类结果后,可继续执行步骤S509。
S509,判断目标数据集是否为多个数据集中的最后一个数据集;若是,则执行步骤S510-S511;若否,则跳转至步骤S502以重新选取目标数据集,并接着执行步骤S503。
S510,根据目标模型在通过最后一个数据集达到收敛时的各个目标聚类中心,获取M个多媒体数据的Q个基准聚类中心,Q为大于1的正整数;
S511,统计Q个基准聚类中心的中心数量,若中心数量小于目标数量,则对Q个基准聚类中心进行分裂矫正处理。
应理解的是,上述步骤S501-S511,描述的是一次采用全量数据(即M个多媒体数据)对目标模型进行批次迭代学习的过程。为了进一步提升目标模型的鲁棒性,本申请实施例还可基于上述描述,多次采用全量数据(即M个多媒体数据)对目标模型进行批次迭代学习,使得目标模型的聚类层具备较好的聚类能力;也就是说,计算机设备在执行完步骤S511后,还可跳转至步骤S501以开启新一轮的基于全量数据的模型迭代学习。另外,本申请实施例在通过全量数据使得目标模型达到收敛后,还可存储该收敛的目标模型,以在后续需要对其他类似的海量多媒体数据进行聚类时,直接调用该目标模型对该类似的海量多媒体数据进行聚类处理,提升聚类效率。
本申请实施例可以在有限资源下实现大规模数据样本进行大规模中心聚类的任务,通过分批次进行聚类任务的预测与分批次学习聚类层使得大规模样本以及中心聚类得以实现。基于密度的聚类原型产生使得聚类任务建立的过程更合理,避免随机初始化聚类中心的问题。交替进行聚类模型学习与记忆的类别原型的更新,使得自监督聚类模型获得更多监督信息而避免陷入不佳的局部解中,从而提升目标模型的准确性和鲁棒性,进而可使得目标模型所提取的数据特征更加准确可靠;通过借助准确可靠的特征分布可使得确定出的聚类中心稳定可靠,从而提升聚类结果的准确性。
基于上述数据聚类方法的相关描述,本申请实施例还可根据实际需求将该数据聚类方法运用到各式各样的分桶检索场景中,如基于分桶的图像检索场景、基于分桶的视频检索场景、基于分桶的歌曲检索场景,等等。所谓的分桶检索是指:把原始大量数据先分成多个不重叠的数据子集(或称为数据簇、数据组等),每个数据子集属于一个分桶,检索时只要从与带检索的目标数据最匹配的桶中寻找匹配样本即可,故分桶检索可提升检索效率。下面以将基于分桶的图像检索场景(即多媒体数据为图像),且计算机设备为终端为例,对本申请实施例所提出的数据聚类方法的具体应用过程进行阐述:
参见图6a所示:首先,针对图像库中的大量图像,计算机设备可采用图2、图4或者图5所示的数据聚类方法对该大量图像中的各个图像进行特征提取,从而根据提取到的数据特征对大量图像进行聚类,得到多个基准聚类中心,以及每个基准聚类中心的数据特征。
当某用户想要检索某个查询图像时,可通过终端上传该查询图像;相应的,终端在接收到该查询图像后,可提取该查询图像的数据特征。然后,可基于该查询图像的数据特征对查询图像进行聚类中心的投影处理,以从多个基准聚类中心中确定查询图像所对应的召回聚类中心;具体的,可根据该查询图像的数据特征和各个基准聚类中心的数据特征,计算查询图像和各个基准聚类中心之间的匹配度(即数据相似度),选取最大匹配度对应的基准聚类中心作为查询图像所对应的召回聚类中心。然后,可采用查询图像的数据特征分别与召回聚类中心所在的数据组中的各个图像的数据特征进行特征比对,找到最匹配的数据特征,从而将最匹配的数据特征所对应的图像作为与查询图像相关联的关联图像,进而输出该关联图像。例如,用户上传的查询图像为小牛图像,终端找到的最匹配的关联图像为相似的小牛图像,则终端可在终端屏幕中显示该相似的小牛图像,如图6b所示。
基于上述描述可知,通过分桶检索可有效提升检索效率,节省处理资源;通过将本申请实施例所提出的数据聚类方法应用到分桶检索场景中,可有效提升分桶结果(即聚类结果)的准确性,从而保证分桶检索的准确性。
基于上述数据聚类方法的相关实施例的描述,本申请实施例还提出了一种数据聚类装置,该数据聚类装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)。该数据聚类装置可以执行图2、图4以及图5所示的数据聚类方法;请参见图7,所述数据聚类装置可以运行如下单元:
聚类单元701,用于在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心,P为正整数;
所述聚类单元701,还用于采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心;所述历史聚类中心是:在所述P个候选聚类中心之前所产生的聚类中心;
所述聚类单元701,还用于基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果;
所述聚类单元701,还用于根据所述聚类结果优化所述目标模型的模型参数;所述聚类单元701被迭代调用,直至所述目标模型达到收敛;
处理单元702,用于将所述目标模型达到收敛时的聚类结果,作为所述目标数据集的目标聚类结果。
在一种实施方式中,一个候选聚类中心为一个候选聚类原型,聚类原型是指表示所述目标数据集的密度中心的多媒体数据;相应的,聚类单元701在根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心时,可具体用于:
根据所述每个多媒体数据的数据特征,计算各个多媒体数据之间的数据相似度,得到计算结果;
根据所述计算结果,在所述目标数据集中确定所述每个多媒体数据的相似样本;任一多媒体数据的相似样本是指:与所述任一多媒体数据的数据相似度大于目标阈值的多媒体数据;
根据所述每个多媒体数据的相似样本的样本数量,确定所述每个多媒体数据的密度中心概率;所述目标数据集中的任一多媒体数据的密度中心概率是指:所述任一多媒体数据被视为所述目标数据集的密度中心的概率;
基于所述每个多媒体数据的密度中心概率,在所述目标数据集中选取P个候选聚类原型。
再一种实施方式中,聚类单元701还可用于:
将所述计算结果中的各个数据相似度进行升序排列,得到相似度序列;并将所述相似度序列中位于目标排列位置处的数据相似度作为所述目标阈值;
或者,计算所述计算结果中的各个数据相似度的均值,将计算得到的均值作为所述目标阈值。
再一种实施方式中,所述关联性采用数据相似度进行表示;相应的,聚类单元701在用于基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果时,可具体用于:
遍历所述目标数据集中的各个多媒体数据,并确定当前遍历的当前多媒体数据;
根据所述当前多媒体数据和每个目标聚类中心的数据相似度,选取与所述当前多媒体数据的数据相似度最大的目标聚类中心,作为所述当前多媒体数据的关联聚类中心;
将所述当前多媒体数据划分至所述关联聚类中心所在的数据簇,以得到聚类结果。
再一种实施方式中,所述聚类结果包括多个数据簇,一个数据簇包括所述目标数据集中的一个或多个多媒体数据;相应的,聚类单元701在用于根据所述聚类结果优化所述目标模型的模型参数时,可具体用于:
按照同一个数据簇中的各多媒体数据的标签相同原则,为所述每个多媒体数据分配类别标注标签;
调用所述目标模型对所述目标数据集中的各个多媒体数据进行类别预测,得到所述每个多媒体数据的类别预测标签;
根据所述每个多媒体数据的类别预测标签和对应的类别标注标签之间的差异,计算所述目标模型的损失值;
按照减小所述损失值的方向,优化目标模型的模型参数。
再一种实施方式中,聚类单元701在用于采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心时,可具体用于:
对所述P个候选聚类中心和多个历史聚类中心进行对齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心;一个对齐后的候选聚类中心对应一个对齐后的历史聚类中心,S大于或等于P;
采用所述S个对齐后的候选聚类中心对所述S个对齐后的历史聚类中心进行动量更新,得到多个目标聚类中心。
再一种实施方式中,聚类单元701在用于对所述P个候选聚类中心和多个历史聚类中心进行对齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心时,可具体用于:
根据多个历史聚类中心的数量,构建第一矩阵表以及第二矩阵表,并将所述多个历史聚类中心依次填充至所述第一矩阵表中;
在所述多个历史聚类中心中,检测与第p个候选聚类中心相匹配的匹配聚类中心,p∈[1,P];
若检测到所述匹配聚类中心,则确定所述匹配聚类中心在所述第一矩阵表中所处的目标存储位置,并将所述第p个候选聚类中心添加至所述第二矩阵表中的所述目标存储位置处;
若未检测到所述匹配聚类中心,则在所述第二矩阵表中新增一个存储位置,并将所述第p个候选聚类中心填充至所述第二矩阵表中新增的存储位置处;
在各个候选聚类中心均被填充至所述第二矩阵表后,若所述第一矩阵表和所述第二矩阵表中的任一矩阵表存在空白位置,则采用无效聚类中心对所述空白位置进行补齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心。
再一种实施方式中,聚类单元701在用于在所述多个历史聚类中心中,检测与第p个候选聚类中心相匹配的匹配聚类中心时,可具体用于:
计算第p个候选聚类中心和各个历史聚类中心之间的中心相似度;
选取最大中心相似度对应的历史聚类中心,以及次大中心相似度对应的历史聚类中心,作为所述第p个候选聚类中心的两个相似中心;
若所述次大中心相似度小于或等于所述两个相似中心之间的中心相似度,则将所述最大中心相似度对应的历史聚类中心,作为与所述第p个候选聚类中心相匹配的匹配聚类中心;否则,则确定未检测到所述匹配聚类中心。
再一种实施方式中,聚类单元701在用于采用所述S个对齐后的候选聚类中心对所述S个对齐后的历史聚类中心进行动量更新,得到多个目标聚类中心时,可具体用于:
获取动量系数;
根据所述动量系数采用第s个对齐后的候选聚类中心,更新第s个对齐后的历史聚类中心,以得到多个目标聚类中心;其中,s∈[1,S]。
再一种实施方式中,聚类单元701在用于根据所述动量系数采用第s个对齐后的候选聚类中心,更新第s个对齐后的历史聚类中心时,可具体用于:
将所述动量系数作为第s个对齐后的历史聚类中心的第一权重值,并根据所述动量系数计算第s个对齐后的候选聚类中心的第二权重值;
采用所述第一权重值和所述第二权重值,对所述第s个对齐后的历史聚类中心的数据特征以及所述第s个对齐后的候选聚类中心的数据特征进行加权融合,得到融合特征;
在所述目标数据集中的各个多媒体数据的数据特征中,查找与所述融合特征相匹配的数据特征,并采用查找到的数据特征对应的多媒体数据替换所述第s个对齐后的历史聚类中心。
再一种实施方式中,所述目标模型被按序依次采用多个数据集中的各个数据集进行优化,且所述目标模型在通过每个数据集进行优化的过程中均达到收敛;其中,所述多个数据集是通过对待聚类的M个多媒体数据进行数据划分得到的,所述目标数据集是所述多个数据集中的任一个数据集,M为大于1的正整数;相应的,聚类单元701还可用于:
根据所述目标模型在通过最后一个数据集达到收敛时的各个目标聚类中心,获取所述M个多媒体数据的Q个基准聚类中心,Q为大于1的正整数;
统计所述Q个基准聚类中心的中心数量;
若所述中心数量小于目标数量,则对所述Q个基准聚类中心进行分裂矫正处理。
再一种实施方式中,聚类单元701在用于若所述中心数量小于目标数量,则对所述Q个基准聚类中心进行分裂矫正处理时,可具体用于:
若所述中心数量小于目标数量,则根据所述M个多媒体数据中各多媒体数据与每个基准聚类中心之间的数据相似度,将所述M个多媒体数据聚类成多个数据组,一个数据组对应一个基准聚类中心;
按照中心矫正选取策略,从所述Q个基准聚类中心中选取一个待分裂矫正的基准聚类中心;
将被选取的基准聚类中心所属的数据组作为基准数据组,并计算所述基准数据组中的各个多媒体数据的密度中心概率;
按照密度中心概率从大到小的选取顺序,从所述基准数据组中选取至少两个多媒体数据作为新聚类中心,以替换所述被选取的基准聚类中心。
再一种实施方式中,聚类单元701在用于按照中心矫正选取策略,从所述Q个基准聚类中心中选取一个待分裂矫正的基准聚类中心时,可具体用于:
将所述M个多媒体数据中与第q个基准聚类中心属于同一数据组的各个多媒体数据,作为所述第q个基准聚类中心的关联多媒体数据,q∈[1,Q];
根据所述第q个基准聚类中心和各个关联多媒体数据之间的距离值,计算所述第q个基准聚类中心对应的平均距离值;
在得到各个基准聚类中心对应的平均距离值后,选取最大平均距离值对应的基准聚类中心作为待分裂矫正的基准聚类中心。
再一种实施方式中,聚类单元701还可用于:
在存储空间中查找多个历史聚类中心;
若查找成功,则执行采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心的步骤;
若查找失败,则将所述P个候选聚类中心作为多个目标聚类中心,并执行基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果的步骤。
根据本申请的一个实施例,图2、图4以及图5所示的方法所涉及的各个步骤均可以是由图7所示的数据聚类装置中的各个单元来执行的。例如,图2中所示的步骤S201-步骤S204这一步骤均可由图7中所示的聚类单元701执行,步骤S205中的“将目标模型达到收敛时的聚类结果,作为目标数据集的目标聚类结果”这一步骤可由图7中所示的处理单元702执行。又如,图4中所示的步骤S401-步骤S404,以及步骤S406-S408均可由图7中所示的聚类单元701执行,步骤S405中的“将目标模型达到收敛时的聚类结果,作为目标数据集的目标聚类结果”这一步骤可由图7中所示的处理单元702执行。再如,图5中所示的步骤S501-步骤S205以及步骤S509-S511均可由图7中所示的聚类单元701执行,步骤S508可由图7中所示的处理单元702执行,等等。
根据本申请的另一个实施例,图7所示的数据聚类装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于数据聚类装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图4或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的数据聚类装置设备,以及来实现本申请实施例的数据聚类方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施在对目标数据集进行聚类时,可借助目标模型来获取目标数据集新产生的P个候选聚类中心;然后采用P个候选聚类中心对多个历史聚类中心进行更新,并利用更新得到的多个目标聚类中心,对目标数据集进行聚类处理。通过聚类结果设定目标模型的学习任务,使得目标模型可基于该聚类结果进行参数学习,从而优化目标模型的模型参数,实现目标模型的自监督学习。在优化目标模型后,可基于上述过程,迭代进行聚类中心更新和模型参数更新的操作,直至目标模型达到收敛,从而可将目标模型达到收敛时的聚类结果作为目标数据集的目标聚类结果。本申请实施例通过迭代地交替进行模型学习和记忆的聚类中心的更新,可使得目标模型在优化学习过程中,获取更多监督信息而避免陷入不佳的局部解中,从而提升目标模型的准确性和鲁棒性,进而可使得目标模型所提取的数据特征更加准确可靠;通过借助准确可靠的特征分布可使得确定出的目标聚类中心稳定可靠,从而可实现基于目标聚类中心对目标数据集进行更好的聚类处理,提升聚类结果的准确性。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种计算机设备。请参见图8,该计算机设备至少包括处理器801、输入接口802、输出接口803以及计算机存储介质804。其中,计算机设备内的处理器801、输入接口802、输出接口803以及计算机存储介质804可通过总线或其他方式连接。
计算机存储介质804可以存储在计算机设备的存储器中,所述计算机存储介质804用于存储计算机程序,所述计算机程序包括程序指令,所述处理器801 用于执行所述计算机存储介质804存储的程序指令。处理器801(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能;在一个实施例中,本申请实施例所述的处理器801可以用于进行一系列的数据聚类处理,具体包括:在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心,P为正整数;采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心;所述历史聚类中心是:在所述P个候选聚类中心之前所产生的聚类中心;基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果;并根据所述聚类结果优化所述目标模型的模型参数;迭代上述过程,直至所述目标模型达到收敛;将所述目标模型达到收敛时的聚类结果,作为所述目标数据集的目标聚类结果,等等。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机存储介质。在一个实施例中,可由处理器801加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2、图4或图5所示的数据聚类方法的实施例中的各个方法步骤。
本申请实施在对目标数据集进行聚类时,可借助目标模型来获取目标数据集新产生的P个候选聚类中心;然后采用P个候选聚类中心对多个历史聚类中心进行更新,并利用更新得到的多个目标聚类中心,对目标数据集进行聚类处理。通过聚类结果设定目标模型的学习任务,使得目标模型可基于该聚类结果进行参数学习,从而优化目标模型的模型参数,实现目标模型的自监督学习。在优化目标模型后,可基于上述过程,迭代进行聚类中心更新和模型参数更新的操作,直至目标模型达到收敛,从而可将目标模型达到收敛时的聚类结果作为目标数据集的目标聚类结果。本申请实施例通过迭代地交替进行模型学习和记忆的聚类中心的更新,可使得目标模型在优化学习过程中,获取更多监督信息而避免陷入不佳的局部解中,从而提升目标模型的准确性和鲁棒性,进而可使得目标模型所提取的数据特征更加准确可靠;通过借助准确可靠的特征分布可使得确定出的目标聚类中心稳定可靠,从而可实现基于目标聚类中心对目标数据集进行更好的聚类处理,提升聚类结果的准确性。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2、图4或图5所示的数据聚类方法实施例方面的各种可选方式中提供的方法。
并且,应理解的是,以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (20)

1.一种数据聚类方法,其特征在于,包括:
在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心,P为正整数;一个候选聚类中心为一个候选聚类原型,聚类原型是指表示所述目标数据集的密度中心的多媒体数据;
采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心;所述历史聚类中心是:在所述P个候选聚类中心之前所产生的聚类中心;
基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果;并根据所述聚类结果优化所述目标模型的模型参数;
迭代上述过程,直至所述目标模型达到收敛;将所述目标模型达到收敛时的聚类结果,作为所述目标数据集的目标聚类结果。
2.如权利要求1所述的方法,其特征在于,所述根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心,包括:
根据所述每个多媒体数据的数据特征,计算各个多媒体数据之间的数据相似度,得到计算结果;
根据所述计算结果,在所述目标数据集中确定所述每个多媒体数据的相似样本;任一多媒体数据的相似样本是指:与所述任一多媒体数据的数据相似度大于目标阈值的多媒体数据;
根据所述每个多媒体数据的相似样本的样本数量,确定所述每个多媒体数据的密度中心概率;所述目标数据集中的任一多媒体数据的密度中心概率是指:所述任一多媒体数据被视为所述目标数据集的密度中心的概率;
基于所述每个多媒体数据的密度中心概率,在所述目标数据集中选取P个候选聚类原型。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
将所述计算结果中的各个数据相似度进行升序排列,得到相似度序列;并将所述相似度序列中位于目标排列位置处的数据相似度作为所述目标阈值;
或者,计算所述计算结果中的各个数据相似度的均值,将计算得到的均值作为所述目标阈值。
4.如权利要求1-3任一项所述的方法,其特征在于,所述关联性采用数据相似度进行表示;所述基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果,包括:
遍历所述目标数据集中的各个多媒体数据,并确定当前遍历的当前多媒体数据;
根据所述当前多媒体数据和每个目标聚类中心的数据相似度,选取与所述当前多媒体数据的数据相似度最大的目标聚类中心,作为所述当前多媒体数据的关联聚类中心;
将所述当前多媒体数据划分至所述关联聚类中心所在的数据簇,以得到聚类结果。
5.如权利要求1-3任一项所述的方法,其特征在于,所述聚类结果包括多个数据簇,一个数据簇包括所述目标数据集中的一个或多个多媒体数据;所述根据所述聚类结果优化所述目标模型的模型参数,包括:
按照同一个数据簇中的各多媒体数据的标签相同原则,为所述每个多媒体数据分配类别标注标签;
调用所述目标模型对所述目标数据集中的各个多媒体数据进行类别预测,得到所述每个多媒体数据的类别预测标签;
根据所述每个多媒体数据的类别预测标签和对应的类别标注标签之间的差异,计算所述目标模型的损失值;
按照减小所述损失值的方向,优化目标模型的模型参数。
6.如权利要求1-3任一项所述的方法,其特征在于,所述采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心,包括:
对所述P个候选聚类中心和多个历史聚类中心进行对齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心;一个对齐后的候选聚类中心对应一个对齐后的历史聚类中心,S大于或等于P;
采用所述S个对齐后的候选聚类中心对所述S个对齐后的历史聚类中心进行动量更新,得到多个目标聚类中心。
7.如权利要求6所述的方法,其特征在于,所述对所述P个候选聚类中心和多个历史聚类中心进行对齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心,包括:
根据多个历史聚类中心的数量,构建第一矩阵表以及第二矩阵表,并将所述多个历史聚类中心依次填充至所述第一矩阵表中;
在所述多个历史聚类中心中,检测与第p个候选聚类中心相匹配的匹配聚类中心,p∈[1,P];
若检测到所述匹配聚类中心,则确定所述匹配聚类中心在所述第一矩阵表中所处的目标存储位置,并将所述第p个候选聚类中心添加至所述第二矩阵表中的所述目标存储位置处;
若未检测到所述匹配聚类中心,则在所述第二矩阵表中新增一个存储位置,并将所述第p个候选聚类中心填充至所述第二矩阵表中新增的存储位置处;
在各个候选聚类中心均被填充至所述第二矩阵表后,若所述第一矩阵表和所述第二矩阵表中的任一矩阵表存在空白位置,则采用无效聚类中心对所述空白位置进行补齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心。
8.如权利要求7所述的方法,其特征在于,所述在所述多个历史聚类中心中,检测与第p个候选聚类中心相匹配的匹配聚类中心,包括:
计算第p个候选聚类中心和各个历史聚类中心之间的中心相似度;
选取最大中心相似度对应的历史聚类中心,以及次大中心相似度对应的历史聚类中心,作为所述第p个候选聚类中心的两个相似中心;
若所述次大中心相似度小于或等于所述两个相似中心之间的中心相似度,则将所述最大中心相似度对应的历史聚类中心,作为与所述第p个候选聚类中心相匹配的匹配聚类中心;否则,则确定未检测到所述匹配聚类中心。
9.如权利要求6所述的方法,其特征在于,所述采用所述S个对齐后的候选聚类中心对所述S个对齐后的历史聚类中心进行动量更新,得到多个目标聚类中心,包括:
获取动量系数;
根据所述动量系数采用第s个对齐后的候选聚类中心,更新第s个对齐后的历史聚类中心,以得到多个目标聚类中心;其中,s∈[1,S]。
10.如权利要求9所述的方法,其特征在于,所述根据所述动量系数采用第s个对齐后的候选聚类中心,更新第s个对齐后的历史聚类中心,包括:
将所述动量系数作为第s个对齐后的历史聚类中心的第一权重值,并根据所述动量系数计算第s个对齐后的候选聚类中心的第二权重值;
采用所述第一权重值和所述第二权重值,对所述第s个对齐后的历史聚类中心的数据特征以及所述第s个对齐后的候选聚类中心的数据特征进行加权融合,得到融合特征;
在所述目标数据集中的各个多媒体数据的数据特征中,查找与所述融合特征相匹配的数据特征,并采用查找到的数据特征对应的多媒体数据替换所述第s个对齐后的历史聚类中心。
11.如权利要求1所述的方法,其特征在于,所述目标模型被按序依次采用多个数据集中的各个数据集进行优化,且所述目标模型在通过每个数据集进行优化的过程中均达到收敛;其中,所述多个数据集是通过对待聚类的M个多媒体数据进行数据划分得到的,所述目标数据集是所述多个数据集中的任一个数据集,M为大于1的正整数;
所述方法还包括:
根据所述目标模型在通过最后一个数据集达到收敛时的各个目标聚类中心,获取所述M个多媒体数据的Q个基准聚类中心,Q为大于1的正整数;
统计所述Q个基准聚类中心的中心数量;
若所述中心数量小于目标数量,则对所述Q个基准聚类中心进行分裂矫正处理。
12.如权利要求11所述的方法,其特征在于,所述若所述中心数量小于目标数量,则对所述Q个基准聚类中心进行分裂矫正处理,包括:
若所述中心数量小于目标数量,则根据所述M个多媒体数据中各多媒体数据与每个基准聚类中心之间的数据相似度,将所述M个多媒体数据聚类成多个数据组,一个数据组对应一个基准聚类中心;
按照中心矫正选取策略,从所述Q个基准聚类中心中选取一个待分裂矫正的基准聚类中心;
将被选取的基准聚类中心所属的数据组作为基准数据组,并计算所述基准数据组中的各个多媒体数据的密度中心概率;
按照密度中心概率从大到小的选取顺序,从所述基准数据组中选取至少两个多媒体数据作为新聚类中心,以替换所述被选取的基准聚类中心。
13.如权利要求12所述的方法,其特征在于,所述按照中心矫正选取策略,从所述Q个基准聚类中心中选取一个待分裂矫正的基准聚类中心,包括:
将所述M个多媒体数据中与第q个基准聚类中心属于同一数据组的各个多媒体数据,作为所述第q个基准聚类中心的关联多媒体数据,q∈[1,Q];
根据所述第q个基准聚类中心和各个关联多媒体数据之间的距离值,计算所述第q个基准聚类中心对应的平均距离值;
在得到各个基准聚类中心对应的平均距离值后,选取最大平均距离值对应的基准聚类中心作为待分裂矫正的基准聚类中心。
14.如权利要求1所述的方法,其特征在于,所述方法还包括:
在存储空间中查找多个历史聚类中心;
若查找成功,则执行采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心的步骤;
若查找失败,则将所述P个候选聚类中心作为多个目标聚类中心,并执行基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果的步骤。
15.一种数据聚类装置,其特征在于,包括:
聚类单元,用于在调用目标模型提取目标数据集中每个多媒体数据的数据特征后,根据所述每个多媒体数据的数据特征,确定所述目标数据集新产生的P个候选聚类中心,P为正整数;一个候选聚类中心为一个候选聚类原型,聚类原型是指表示所述目标数据集的密度中心的多媒体数据;
所述聚类单元,还用于采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心;所述历史聚类中心是:在所述P个候选聚类中心之前所产生的聚类中心;
所述聚类单元,还用于基于所述每个多媒体数据和每个目标聚类中心之间的关联性,对所述目标数据集进行聚类处理,得到聚类结果;
所述聚类单元,还用于根据所述聚类结果优化所述目标模型的模型参数;所述聚类单元被迭代调用,直至所述目标模型达到收敛;
处理单元,用于将所述目标模型达到收敛时的聚类结果,作为所述目标数据集的目标聚类结果。
16.如权利要求15所述的装置,其特征在于,所述聚类单元在用于采用所述P个候选聚类中心对多个历史聚类中心进行更新,得到多个目标聚类中心时,具体用于:
对所述P个候选聚类中心和多个历史聚类中心进行对齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心;一个对齐后的候选聚类中心对应一个对齐后的历史聚类中心,S大于或等于P;
采用所述S个对齐后的候选聚类中心对所述S个对齐后的历史聚类中心进行动量更新,得到多个目标聚类中心。
17.如权利要求16所述的装置,其特征在于,所述聚类单元在用于对所述P个候选聚类中心和多个历史聚类中心进行对齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心时,具体用于:
根据多个历史聚类中心的数量,构建第一矩阵表以及第二矩阵表,并将所述多个历史聚类中心依次填充至所述第一矩阵表中;
在所述多个历史聚类中心中,检测与第p个候选聚类中心相匹配的匹配聚类中心,p∈[1,P];
若检测到所述匹配聚类中心,则确定所述匹配聚类中心在所述第一矩阵表中所处的目标存储位置,并将所述第p个候选聚类中心添加至所述第二矩阵表中的所述目标存储位置处;
若未检测到所述匹配聚类中心,则在所述第二矩阵表中新增一个存储位置,并将所述第p个候选聚类中心填充至所述第二矩阵表中新增的存储位置处;
在各个候选聚类中心均被填充至所述第二矩阵表后,若所述第一矩阵表和所述第二矩阵表中的任一矩阵表存在空白位置,则采用无效聚类中心对所述空白位置进行补齐处理,得到S个对齐后的候选聚类中心,以及S个对齐后的历史聚类中心。
18.如权利要求17所述的装置,其特征在于,所述聚类单元在用于在所述多个历史聚类中心中,检测与第p个候选聚类中心相匹配的匹配聚类中心时,具体用于:
计算第p个候选聚类中心和各个历史聚类中心之间的中心相似度;
选取最大中心相似度对应的历史聚类中心,以及次大中心相似度对应的历史聚类中心,作为所述第p个候选聚类中心的两个相似中心;
若所述次大中心相似度小于或等于所述两个相似中心之间的中心相似度,则将所述最大中心相似度对应的历史聚类中心,作为与所述第p个候选聚类中心相匹配的匹配聚类中心;否则,则确定未检测到所述匹配聚类中心。
19.一种计算机设备,包括输入接口和输出接口,其特征在于,所述计算机设备还包括:
处理器,适于实现一条或多条计算机程序;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-14任一项所述的数据聚类方法。
20.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-14任一项所述的数据聚类方法。
CN202110382245.5A 2021-04-09 2021-04-09 数据聚类方法、相关设备及存储介质 Active CN112800253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110382245.5A CN112800253B (zh) 2021-04-09 2021-04-09 数据聚类方法、相关设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110382245.5A CN112800253B (zh) 2021-04-09 2021-04-09 数据聚类方法、相关设备及存储介质

Publications (2)

Publication Number Publication Date
CN112800253A CN112800253A (zh) 2021-05-14
CN112800253B true CN112800253B (zh) 2021-07-06

Family

ID=75816677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110382245.5A Active CN112800253B (zh) 2021-04-09 2021-04-09 数据聚类方法、相关设备及存储介质

Country Status (1)

Country Link
CN (1) CN112800253B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822130A (zh) * 2021-07-05 2021-12-21 腾讯科技(深圳)有限公司 模型训练方法、场景识别方法、计算设备和介质
CN115019078B (zh) * 2022-08-09 2023-01-24 阿里巴巴(中国)有限公司 车辆图像处理方法、计算设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469114A (zh) * 2015-11-25 2016-04-06 大连理工大学 一种提高K-means收敛速度的方法
CN105930860A (zh) * 2016-04-13 2016-09-07 闽江学院 智能建筑中温度传感大数据的分类优化模型仿真分析方法
CN109670037A (zh) * 2018-11-08 2019-04-23 太原理工大学 基于主题模型和粗糙集的K-means文本聚类方法
CN111368077A (zh) * 2020-02-28 2020-07-03 大连大学 一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254020A (zh) * 2011-07-22 2011-11-23 西安电子科技大学 基于特征权重的全局k-均值聚类方法
EP2883368B1 (en) * 2012-06-22 2019-06-05 Google LLC Labeling visited locations based on contact information
CN104951505A (zh) * 2015-05-20 2015-09-30 中国科学院信息工程研究所 一种基于图计算技术的大规模数据聚类方法
WO2017176145A1 (en) * 2016-04-05 2017-10-12 Huawei Technologies Co., Ltd. Accelerated k-means clustering
CN106547899B (zh) * 2016-11-07 2020-05-19 北京化工大学 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法
CN107515890A (zh) * 2017-07-04 2017-12-26 深圳市金立通信设备有限公司 一种识别常驻点的方法及终端
CN108732931B (zh) * 2018-05-17 2021-03-26 北京化工大学 一种基于jit-rvm的多模态间歇过程建模方法
CN109598296A (zh) * 2018-11-26 2019-04-09 长安大学 一种基于改进飞蛾扑火k均值聚类方法
CN109710728B (zh) * 2018-11-26 2022-05-17 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN110619231B (zh) * 2019-08-26 2021-06-18 北京航空航天大学 一种基于MapReduce的差分可辨性k原型聚类方法
CN111401412B (zh) * 2020-02-29 2022-06-14 同济大学 一种基于平均共识算法的物联网环境下分布式软聚类方法
CN111414868B (zh) * 2020-03-24 2023-05-16 北京旷视科技有限公司 时序动作片段的确定方法、动作检测方法及装置
CN112529031B (zh) * 2020-07-28 2022-11-11 新汶矿业集团有限责任公司 一种基于改进K-means的微震信号聚类方法及装置
CN111898073B (zh) * 2020-07-31 2022-03-15 西安科技大学 一种对传接球网络行为的分析方法
CN112148902A (zh) * 2020-10-23 2020-12-29 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469114A (zh) * 2015-11-25 2016-04-06 大连理工大学 一种提高K-means收敛速度的方法
CN105930860A (zh) * 2016-04-13 2016-09-07 闽江学院 智能建筑中温度传感大数据的分类优化模型仿真分析方法
CN109670037A (zh) * 2018-11-08 2019-04-23 太原理工大学 基于主题模型和粗糙集的K-means文本聚类方法
CN111368077A (zh) * 2020-02-28 2020-07-03 大连大学 一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法

Also Published As

Publication number Publication date
CN112800253A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN109919316B (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
Li et al. Deep unsupervised image hashing by maximizing bit entropy
Thar et al. DeepMEC: Mobile edge caching using deep learning
CN111382868B (zh) 神经网络结构搜索方法和神经网络结构搜索装置
CN110728317A (zh) 决策树模型的训练方法、系统、存储介质及预测方法
US8645298B2 (en) Topic models
EP3724785A1 (en) Fast indexing with graphs and compact regression codes on online social networks
CN112800253B (zh) 数据聚类方法、相关设备及存储介质
CN111382190B (zh) 一种基于智能的对象推荐方法、装置和存储介质
CN113158554B (zh) 模型优化方法、装置、计算机设备及存储介质
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN110647904A (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
Feng et al. Reinforcement routing on proximity graph for efficient recommendation
CN114329028A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN112990387B (zh) 模型优化方法、相关设备及存储介质
CN114329029A (zh) 对象检索方法、装置、设备及计算机存储介质
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN115577283A (zh) 一种实体分类方法、装置、电子设备及存储介质
CN114332550A (zh) 一种模型训练方法、系统及存储介质和终端设备
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN111459990B (zh) 对象处理方法、系统及计算机可读存储介质和计算机设备
CN113822130A (zh) 模型训练方法、场景识别方法、计算设备和介质
CN116991986B (zh) 一种语言模型轻量化方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40043909

Country of ref document: HK