CN117150055A

CN117150055A - 多媒体数据聚类处理方法、装置、计算机设备和存储介质

Info

Publication number: CN117150055A
Application number: CN202311084871.1A
Authority: CN
Inventors: 袁有根; 胡鹏飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-12-01

Abstract

本申请涉及一种多媒体数据聚类处理方法、装置、计算机设备、存储介质和程序产品。所述方法涉及人工智能，包括：接收各多媒体数据处理请求，获取各多媒体数据处理请求对应的待处理多媒体数据，若检测到历史聚类类别，依次确定各待处理多媒体数据和每一历史聚类类别之间的特征匹配度，特征匹配度的层次包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种，以基于所确定出特征匹配度，确定各待处理多媒体数据所属的目标聚类类别。采用本方法能够基于所确定的特征匹配度，准确确定出各待处理多媒体数据所属的目标聚类类别，实现对各待处理多媒体数据的全面识别、匹配和筛选，提升对待处理多媒体数据进行聚类处理的覆盖率、以及聚类效果。

Description

多媒体数据聚类处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种多媒体数据聚类处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能技术的发展，以及多媒体数据在不同领域的广泛应用，在不同应用领域中，对于海量多媒体数据的处理需求日益提升。其中，由于各类智能设备的计算资源有限，无法实现同时对海量多媒体数据进行全面处理，因此需要对海量多媒体数据预先进行聚类处理，以按照不同的聚类类别分批次处理各类别下的多媒体数据，提升对海量多媒体数据的处理效率。

传统上，通常采用LSH(即Local Sensitive Hashing，理解为局部敏感哈希)方法，实现对海量多媒体数据的聚类处理。具体来说，采用LSH方法，将多媒体数据特征压缩成固定维度的哈希值，即将多媒体数据特征转化为一串比特位(即比特串)，并利用哈希函数对该比特串进行哈希处理，获得对应的哈希值，从而将哈希值相同的各多媒体数据划分为同一聚类类别，实现对海量多媒体数据的聚类处理。

然而，传统的LSH方法，主要用于实现将相似度非常高的数据以较高的概率映射到同一个哈希值，即可用于召回相同特征的多媒体文件。但只要多媒体数据特征存在部分不一致，都会导致最后生成的哈希值不同，而由于将多媒体数据特征压缩成哈希值的过程不可逆，也就无法通过哈希值确定原始多媒体特征，再进行二次比对。因此，利用传统的LSH方法进行多媒体数据聚类处理，仍然存在覆盖率较低，导致的聚类效果较差的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升聚类处理覆盖率以及聚类效果的多媒体数据聚类处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种多媒体数据聚类处理方法。所述方法包括：

接收各多媒体数据处理请求，并获取各所述多媒体数据处理请求对应的待处理多媒体数据；

若检测到历史聚类类别，依次确定各所述待处理多媒体数据和每一所述历史聚类类别之间的特征匹配度；所述特征匹配度的层次包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种；

基于所述特征匹配度，确定各所述待处理多媒体数据所属的目标聚类类别。

在其中一个实施例中，若未检测到所述历史聚类类别，所述方法还包括：

基于各所述待处理多媒体数据分别创建对应的第五目标聚类类别，并将所述第五目标聚类类别作为历史聚类类别存储至数据库中。

在其中一个实施例中，所述初始多媒体特征包括初始浮点型多媒体特征、以及初始二进制型多媒体特征；其中，与所述初始浮点型多媒体特征对应的特征提取方式包括：频谱特征提取方式、频带能量特征提取方式以及特征点特征提取方式；与所述初始二进制型多媒体特征对应的特征提取方式包括：信息摘要特征提取方式和二元特征提取方式。

在其中一个实施例中，若所述子多媒体特征属于所述初始浮点型多媒体特征，所述分别确定每一所述子多媒体特征和各所述历史聚类类别之间的子特征匹配度，包括：

获取各所述历史聚类类别对应的类别特征；

计算每一所述子多媒体特征和各所述类别特征之间的余弦相似度，确定为对应的子特征匹配度；或计算每一所述子多媒体特征和各所述类别特征之间的欧式距离，确定为对应的子特征匹配度。

在其中一个实施例中，若所述子多媒体特征属于所述初始二进制型多媒体特征，所述分别确定每一所述子多媒体特征和各所述历史聚类类别之间的子特征匹配度，还包括：计算每一所述子多媒体特征和各所述类别特征之间的汉明距离，确定为对应的子特征匹配度。

在其中一个实施例中，若所述初始多媒体特征为所述初始浮点型多媒体特征，所述确定各所述初始多媒体特征和所述候选全特征之间的全特征匹配度，包括：

计算每一所述初始多媒体特征和各所述候选全特征之间的余弦相似度，确定为对应的全特征匹配度；或计算每一所述初始多媒体特征和各所述候选全特征之间的欧式距离，确定为对应的全特征匹配度。

在其中一个实施例中，若所述初始多媒体特征为所述初始二进制型多媒体特征，所述确定各所述初始多媒体特征和所述候选全特征之间的全特征匹配度，还包括：计算每一所述初始多媒体特征和各所述候选全特征之间的汉明距离，确定为对应的全特征匹配度。

在其中一个实施例中，若所述第一中间多媒体特征为所述初始浮点型多媒体特征，确定所述第一中间多媒体特征和各所述聚类中心全特征之间的聚类中心匹配度，包括：

计算每一所述第一中间多媒体特征和各所述聚类中心全特征之间的余弦相似度，确定为对应的聚类中心匹配度；或计算每一所述第一中间多媒体特征和各所述聚类中心全特征之间的欧氏距离，确定为对应的聚类中心匹配度。

在其中一个实施例中，若所述第一中间多媒体特征为初始二进制型多媒体特征，确定所述第一中间多媒体特征和各所述聚类中心全特征之间的聚类中心匹配度，包括：计算每一所述第一中间多媒体特征和各所述聚类中心全特征之间的汉明距离，确定为对应的聚类中心匹配度。

第二方面，本申请还提供了一种多媒体数据聚类处理装置。所述装置包括：

待处理多媒体数据获取模块，用于接收各多媒体数据处理请求，并获取各所述多媒体数据处理请求对应的待处理多媒体数据；

特征匹配度确定模块，用于若检测到历史聚类类别，依次确定各所述待处理多媒体数据和每一所述历史聚类类别之间的特征匹配度；所述特征匹配度的层次包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种；

目标聚类类别确定模块，用于基于所述特征匹配度，确定各所述待处理多媒体数据所属的目标聚类类别。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述多媒体数据聚类处理方法、装置、计算机设备、存储介质和计算机程序产品中，通过接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据，以实现对海量多媒体数据的实时聚类处理。若检测到历史聚类类别，则依次确定各待处理多媒体数据和每一历史聚类类别之间的特征匹配度，特征匹配度的层次具体包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种，从而可基于所确定出的特征匹配度，来准确确定出各待处理多媒体数据所属的目标聚类类别。进一步地，通过利用不同层次的特征匹配度进行多层筛选，可实现对各待处理多媒体数据的全面识别、匹配和筛选，减少无法进行聚类处理的无效多媒体数据，提升对待处理多媒体数据进行聚类处理的覆盖率、以及聚类效果。

附图说明

图1为一个实施例中多媒体数据聚类处理方法的应用环境图；

图2为一个实施例中多媒体数据聚类处理方法的流程示意图；

图3为另一个实施例中多媒体数据聚类处理方法的流程示意图；

图4为再一个实施例中多媒体数据聚类处理方法的流程示意图；

图5为又一个实施例多媒体数据聚类处理方法的流程示意图；

图6为一个实施例中确定与各历史聚类类别对应的聚类中心全特征的流程示意图；

图7为一个实施例中多媒体数据聚类处理方法的完整流程示意图；

图8为一个实施例中基于音频数据的动态聚类流程示意图；

图9为一个实施例中多媒体数据聚类处理装置的结构框图；

图10为另一个实施例中多媒体数据聚类处理装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的多媒体数据聚类处理方法，具体涉及人工智能技术，可应用于云技术、人工智能、智慧交通、网络媒体以及辅助驾驶等各种场景。其中，人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。同时，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术，人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、以及机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。具体来说，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音技术(Speech Technology)的关键技术包括自动语音识别技术(ASR)、语音合成技术(TTS)、以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。其中，大模型技术为语音技术发展带来变革，WavLM,UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性，可以优秀完成各方向的语音处理任务。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(即AIGC)、对话式交互、智能医疗、智能客服、以及游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的多媒体数据聚类处理方法，具体涉及人工智能技术中的语音技术，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独设置，可以集成在服务器104上，也可以放在云上或其他网络播控服务器上。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备、便携式可穿戴设备以及飞行器等，物联网设备可为智能音箱、智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理播控服务器，也可以是多个物理播控服务器构成的播控服务器集群，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云播控服务器，终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不对此进行限制。

其中，终端102和服务器104均可单独用于执行本申请实施例中提供的多媒体数据聚类处理方法，终端102和服务器104也可以协同执行本申请实施例提供的多媒体数据聚类处理方法。举例来说，以终端102和服务器104协同执行本申请实施例提供的多媒体数据聚类处理方法为例，服务器104通过接收基于终端102触发的各多媒体数据处理请求，并依次获取各多媒体数据处理请求对应的待处理多媒体数据。其中，若服务器104检测到数据库中存在历史聚类类别，则依次确定各待处理多媒体数据和每一历史聚类类别之间的特征匹配度，特征匹配度的层次具体包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种，以基于所确定出的特征匹配度，确定出各待处理多媒体数据所属的目标聚类类别。其中，服务器104还可将确定出的目标聚类类别发送至终端102，以根据所确定出待处理多媒体数据所属的目标聚类类别，对相应多媒体数据进行后续的进一步的分析、识别等处理。

在一个实施例中，如图2所示，提供了一种多媒体数据聚类处理方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S202，接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据。

具体地，通过依次接收各多媒体数据处理请求，并针对依次接收到的多媒体数据处理请求，按照接收顺序分别获取每一多媒体数据处理请求对应的待处理多媒体数据(比如待处理音频数据或待处理多媒体数据等)，并对每一多媒体数据处理请求对应的待处理多媒体数据进行聚类处理，以获得对应的聚类类别，从而实现对流式多媒体数据的单次遍历和动态聚类处理，提升聚类结果的覆盖率。

其中，多媒体数据处理请求具体可以是音频数据处理请求或视频数据处理请求，比如在智能设备的计算资源有限的情况下，存在对海量多媒体文件的处理需求时，通常需要提升聚类结果的覆盖率、以及对所获得的聚类结果的准确率，从而达到充分利用有限计算资源、且提升请求处理效率的目的。

步骤S204，若检测到历史聚类类别，依次确定各待处理多媒体数据和每一历史聚类类别之间的特征匹配度，特征匹配度的层次包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种。

具体地，通过检测存储位置比如终端的数据库、或服务器对应的云端存储等存储位置，是否存在历史聚类类别，即判断数据库或云端存储中是否存在已经分类的不同聚类类别的多媒体数据。

进一步地，若检测到数据库或云端存储等存储位置中，存在历史聚类类别，则按照待处理多媒体数据的获取顺序，依次确定各待处理多媒体数据和每一历史聚类类别之间的特征匹配度。其中，特征匹配度的层次具体包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种。

可以理解的是，根据实际需求和实际匹配处理过程，可根据所确定出的不同层次的特征匹配度，对各待处理多媒体数据进行聚类处理，比如利用子特征匹配度、全特征匹配度以及聚类中心匹配度的其中一种层次、或其中两种层次、或三种层次，对各待处理多媒体数据进行聚类处理，准确确定出各待处理多媒体数据的目标聚类类别，直至完成对所有的待处理多媒体数据的聚类处理，实现对各待处理多媒体数据的单次遍历和动态聚类，即确定出各待处理多媒体数据所属的目标聚类类别后，确定完成当前的聚类处理过程。

在一个实施例中，若检测到历史聚类类别，则提取各待处理多媒体数据对应的初始多媒体特征，并基于各初始多媒体特征进行特征切割处理，分别获得多个子多媒体特征，以分别确定每一子多媒体特征和各历史聚类类别之间的子特征匹配度。

其中，初始多媒体特征包括初始浮点型多媒体特征、以及初始二进制型多媒体特征，与初始浮点型多媒体特征对应的特征提取方式，包括频谱特征提取方式、频带能量特征提取方式以及特征点特征提取方式，而与初始二进制型多媒体特征对应的特征提取方式，则包括信息摘要特征提取方式和二元特征提取方式。

具体来说，若子多媒体特征属于初始浮点型多媒体特征，获取各历史聚类类别对应的类别特征，计算每一子多媒体特征和各类别特征之间的余弦相似度，确定为对应的子特征匹配度，或计算每一子多媒体特征和各类别特征之间的欧式距离，确定为对应的子特征匹配度。

进一步地，若子多媒体特征属于初始二进制型多媒体特征，则计算每一子多媒体特征和各类别特征之间的汉明距离，确定为对应的子特征匹配度。

在一个实施例中，在确定出每一子多媒体特征和各历史聚类类别之间的子特征匹配度之后，还包括：

基于各历史聚类类别，确定出子特征匹配度大于预设子特征相似度阈值的各候选聚类类别，获取与各候选聚类类别对应的候选特征，并基于各候选特征拼接得到候选全特征，以确定各初始多媒体特征和候选全特征之间的全特征匹配度。

其中，初始多媒体特征为初始浮点型多媒体特征时，则计算每一初始多媒体特征和各候选全特征之间的余弦相似度，确定为对应的全特征匹配度，或计算每一初始多媒体特征和各候选全特征之间的欧式距离，确定为对应的全特征匹配度。

进一步地，若初始多媒体特征为初始二进制型多媒体特征，则计算每一初始多媒体特征和各候选全特征之间的汉明距离，确定为对应的全特征匹配度。

在一个实施例中，在确定各初始多媒体特征和候选全特征之间的全特征匹配度之后，还包括：

基于各初始多媒体特征，确定出全特征匹配度大于预设全特征相似度阈值的各第一中间多媒体特征，并获取与各历史聚类类别对应的聚类中心全特征，以确定第一中间多媒体特征和各聚类中心全特征之间的聚类中心匹配度。

其中，若第一中间多媒体特征为初始浮点型多媒体特征，则计算每一第一中间多媒体特征和各聚类中心全特征之间的余弦相似度，确定为对应的聚类中心匹配度，或计算每一第一中间多媒体特征和各聚类中心全特征之间的欧氏距离，确定为对应的聚类中心匹配度。

进一步，若第一中间多媒体特征为初始二进制型多媒体特征，则计算每一第一中间多媒体特征和各聚类中心全特征之间的汉明距离，确定为对应的聚类中心匹配度。

步骤S206，基于特征匹配度，确定各待处理多媒体数据所属的目标聚类类别。

其中，特征匹配度的层次具体包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种。也就是说，具体可利用子特征匹配度、全特征匹配度以及聚类中心匹配度的其中一种层次、或其中两种层次、或三种层次，对各待处理多媒体数据进行聚类处理，以准确确定出各待处理多媒体数据的目标聚类类别，直至完成对所有的待处理多媒体数据的聚类处理，即确定出各待处理多媒体数据所属的目标聚类类别后，确定完成当前的聚类处理过程。

具体地，在特征匹配度的层次为子特征匹配度时，基于子特征匹配度，确定各待处理多媒体数据所属的目标聚类类别，则具体包括：若各子特征匹配度小于预设子特征相似度阈值，基于待处理多媒体数据创建对应的第一目标聚类类别。而若存在子特征匹配度大于预设子特征相似度阈值的历史聚类类别时，则确定出子特征匹配度大于预设子特征相似度阈值的各候选聚类类别，以基于各候选聚类类别进行进一步判定。

进一步地，在确定出子特征匹配度大于预设子特征相似度阈值的各候选聚类类别后，通过获取与各候选聚类类别对应的候选特征，并基于各候选特征拼接得到候选全特征，以确定各初始多媒体特征和候选全特征之间的全特征匹配度。

具体来说，在特征匹配度的层次包括子特征匹配度和全特征匹配度时，在基于子特征匹配度的基础上，确定出全特征匹配度后，基于全特征匹配度，确定各待处理多媒体数据所属的目标聚类类别，具体包括：基于各初始多媒体特征，确定出全特征匹配度小于预设全特征相似度阈值的各第二中间多媒体特征，并基于各第二中间多媒体特征创建对应的第二目标聚类类别。

其中，若存在全特征匹配度大于预设全特征相似度阈值的初始多媒体特征，则进一步确定出全特征匹配度大于预设全特征相似度阈值的各第一中间多媒体特征，以基于各第一中间多媒体特征进行进一步判定。

在一个实施例中，在确定出全特征匹配度大于预设全特征相似度阈值的各第一中间多媒体特征后，进一步地获取与各历史聚类类别对应的聚类中心全特征，并确定第一中间多媒体特征和各聚类中心全特征之间的聚类中心匹配度。

具体来说，在特征匹配度的层次包括子特征匹配度、全特征匹配度、以及聚类中心匹配度时，在确定出子特征匹配度、以及在子特征匹配的基础上确定出全特征匹配度后，再基于全特征匹配度进一步确定出聚类中心匹配度，以基于聚类中心匹配度，确定各待处理多媒体数据所属的目标聚类类别，具体包括：将聚类中心匹配度大于预设聚类中心相似度阈值的历史聚类类别，确定为第一中间多媒体特征对应的第三目标聚类类别。

进一步地，在特征匹配度的层次包括子特征匹配度、全特征匹配度、以及聚类中心匹配度时，即在确定出子特征匹配度、以及在子特征匹配的基础上确定出全特征匹配度后，再基于全特征匹配度进一步确定出聚类中心匹配度后，若确定存在聚类中心匹配度小于预设聚类中心相似度阈值的初始多媒体特征，则确定出聚类中心匹配度小于预设聚类中心相似度阈值各第三中间多媒体特征，并基于各第三中间多媒体特征创建对应的第四目标聚类类别。

在一个实施例中，若未检测到历史聚类类别，即数据库或云端存储等存储位置不存在已经分类的不同聚类类别的多媒体数据时，则基于各待处理多媒体数据分别创建对应的第五目标聚类类别，并将第五目标聚类类别作为历史聚类类别存储至数据库中。

其中，通过将第五目标聚类类别及其对应的多媒体数据，作为历史聚类类别存储至数据库中，可实现对数据库的持续更新，从而可在下次针对其他待处理多媒体数据进行聚类处理时，基于更新后的数据库，进行聚类处理，从而提升对多媒体数据进行聚类获得的聚类结果的覆盖率，以及提升数据召回率，减少大量多媒体数据的流失。

上述多媒体数据聚类处理方法中，通过接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据，以实现对海量多媒体数据的实时聚类处理。若检测到历史聚类类别，则依次确定各待处理多媒体数据和每一历史聚类类别之间的特征匹配度，而特征匹配度的层次可包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种，从而可基于所确定出的特征匹配度，来准确确定出各待处理多媒体数据所属的目标聚类类别。进一步地，通过利用不同层次的特征匹配度进行多层筛选，可实现对各待处理多媒体数据的全面识别、匹配和筛选，减少无法进行聚类处理的无效多媒体数据，提升对待处理多媒体数据进行聚类处理的覆盖率、以及聚类效果。

在一个实施例中，如图3所示，提供了一种多媒体数据聚类处理方法，具体包括以下步骤：

步骤S302，接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据。

具体地，通过依次接收各多媒体数据处理请求，并针对依次接收到的多媒体数据处理请求，按照接收顺序分别获取每一多媒体数据处理请求对应的待处理多媒体数据(比如待处理音频数据或待处理多媒体数据等)，并对每一多媒体数据处理请求对应的待处理多媒体数据进行聚类处理，以获得对应的聚类类别，从而实现对流式多媒体数据的动态聚类处理，提升聚类结果的覆盖率。

步骤S304，若检测到历史聚类类别，依次提取各待处理多媒体数据对应的初始多媒体特征。

进一步地，若检测到数据库或云端存储等存储位置中，存在历史聚类类别，则依次提取各待处理多媒体数据对应的初始多媒体特征。

其中，初始多媒体特征包括初始浮点型多媒体特征(即提取的初始多媒体特征为浮点型向量)、以及初始二进制型多媒体特征(即提取的初始多媒体特征为二进制值)，而与初始浮点型多媒体特征对应的特征提取方式，包括频谱特征提取方式、频带能量特征提取方式以及特征点特征提取方式，以及与初始二进制型多媒体特征对应的特征提取方式，包括信息摘要特征提取方式(即MD 5特征提取方式)和二元特征提取方式。

步骤S306，基于各初始多媒体特征进行特征切割处理，分别获得多个子多媒体特征，并分别确定每一子多媒体特征和各历史聚类类别之间的子特征匹配度。

具体地，通过获取初始多媒体特征对应的维度比如N维，以及预设的需要切分得到的子多媒体特征的数量，比如M个，则可将N维的初始多媒体特征，进行特征切割处理，获得M个N/M维的子多媒体特征。其中，N为M的倍数，N和M的具体取值可根据实际需求进行调整和设置，本申请实施例中不对其取值进行具体限定。

进一步地，在获得多个子多媒体特征后，按照初始多媒体特征的类型，确定对应的特征匹配度计算方式，按照不同类型所对应的计算方式，确定出每一子多媒体特征和各历史聚类类别之间的子特征匹配度。

具体来说，若子多媒体特征属于初始浮点型多媒体特征，获取各历史聚类类别对应的类别特征，计算每一子多媒体特征和各类别特征之间的余弦相似度，确定为对应的子特征匹配度。

同样地，若子多媒体特征属于初始浮点型多媒体特征，则获取各历史聚类类别对应的类别特征，并计算每一子多媒体特征和各类别特征之间的欧式距离，确定为对应的子特征匹配度。

其中，由于不同子多媒体特征在子特征匹配度判定时，存在命中了同一条候选样本(即命中同一个历史聚类类别)的情况，即存在同一个历史聚类类别作为候选聚类类别重复出现的问题，进一步设置候选去重的处理方式，即将属于同一个候选聚类类别的子多媒体特征划分至同一个候选聚类类别，即只同一个候选聚类类别只保留一次，不做重复保留。

步骤S308，若各子特征匹配度小于预设子特征相似度阈值，基于待处理多媒体数据创建对应的第一目标聚类类别。

具体地，通过获取预设子特征相似度阈值，并将各子特征匹配度和预设子特征相似度阈值进行比对，若确定各子特征匹配度小于预设子特征相似度阈值，则表明当前数据库或云端存储中不存在可接收该些子多媒体特征以及初始多媒体特征的历史聚类类别，进而需要针对待处理多媒体数据创建新的聚类类别，即针对待处理多媒体数据创建对应的第一目标聚类类别，以将该些待处理多媒体数据划分至第一目标聚类类别进行存储。

步骤S310，将创建的第一目标聚类类别作为历史聚类类别存储至数据库中。

具体地，在基于待处理多媒体数据创建对应的第一目标聚类类别，并将该些待处理多媒体数据划分至第一目标聚类类别进行存储后，将创建的第一目标聚类类别作为历史聚类类别存储至数据库中，同时属于第一目标聚类类别的各多媒体数据也和第一目标聚类类别关联存储至数据库中。

其中，通过将第一目标聚类类别及其对应的多媒体数据，作为历史聚类类别存储至数据库中，可实现对数据库的持续更新，从而可在下次针对其他待处理多媒体数据进行聚类处理时，基于更新后的数据库，确定是否存在符合子特征匹配度大于预设子特征相似度阈值的候选聚类类别，从而提升对多媒体数据进行聚类获得的聚类结果的覆盖率，以及提升数据召回率，减少大量多媒体数据的流失。

上述多媒体数据聚类处理方法中，通过接收各多媒体数据处理请求，获取各多媒体数据处理请求对应的待处理多媒体数据，在检测到历史聚类类别时，依次提取各待处理多媒体数据对应的初始多媒体特征，并基于各初始多媒体特征进行特征切割处理，分别获得多个子多媒体特征，以分别确定每一子多媒体特征和各历史聚类类别之间的子特征匹配度。其中，若各子特征匹配度小于预设子特征相似度阈值，基于待处理多媒体数据创建对应的第一目标聚类类别，并将创建的第一目标聚类类别作为历史聚类类别存储至数据库中，实现了根据在子特征匹配度的层次对待处理多媒体数据的聚类处理，可通过预设子特征相似度阈值来平衡聚类的准确率和覆盖率，并加快动态聚类速度，同时通过利用新建的第一目标聚类类别对数据库的持续更新，以便后续基于更新后的数据库对多媒体数据进行聚类处理，提升所获得的聚类结果的覆盖率，以及聚类处理过程中的数据召回率。

在一个实施例中，如图4所示，提供了一种多媒体数据聚类处理方法，具体包括以下步骤：

步骤S402，接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据。

具体地，通过依次接收各多媒体数据处理请求，并针对依次接收到的多媒体数据处理请求，按照接收顺序分别获取每一多媒体数据处理请求对应的待处理多媒体数据，比如待处理音频数据或待处理多媒体数据等。

步骤S404，若检测到历史聚类类别，依次提取各待处理多媒体数据对应的初始多媒体特征。

具体地，通过检测存储位置比如终端的数据库、或服务器对应的云端存储等存储位置，是否存在历史聚类类别，若检测到数据库或云端存储等存储位置中，存在历史聚类类别，则提取各待处理多媒体数据对应的初始多媒体特征。其中，初始多媒体特征包括初始浮点型多媒体特征(即提取的初始多媒体特征为浮点型向量)、以及初始二进制型多媒体特征(即提取的初始多媒体特征为二进制值)。

步骤S406，基于各初始多媒体特征进行特征切割处理，分别获得多个子多媒体特征，并分别确定每一子多媒体特征和各历史聚类类别之间的子特征匹配度。

具体地，通过获取初始多媒体特征对应的维度比如N维，以及预设的需要切分得到的子多媒体特征的数量，比如M个，则可将N维的初始多媒体特征，进行特征切割处理，获得M个N/M维的子多媒体特征。

进一步地，在获得多个子多媒体特征后，按照与初始多媒体特征的类型对应的特征匹配度计算方式，确定出每一子多媒体特征和各历史聚类类别之间的子特征匹配度。其中，若子多媒体特征属于初始浮点型多媒体特征，获取各历史聚类类别对应的类别特征，计算每一子多媒体特征和各类别特征之间的余弦相似度，确定为对应的子特征匹配度，或计算每一子多媒体特征和各类别特征之间的欧式距离，确定为对应的子特征匹配度。

其中，若子多媒体特征属于初始二进制型多媒体特征，则计算每一子多媒体特征和各类别特征之间的汉明距离，确定为对应的子特征匹配度。

步骤S408，基于各历史聚类类别，确定出子特征匹配度大于预设子特征相似度阈值的各候选聚类类别。

具体地，通过获取预设子特征相似度阈值，并将各子特征匹配度和预设子特征相似度阈值进行比对，若确定存在子特征匹配度大于预设子特征相似度阈值的历史聚类类别，则表明当前数据库或云端存储中存在可接收该些子多媒体特征以及初始多媒体特征的历史聚类类别，从而将该些子特征匹配度大于预设子特征相似度阈值的各历史聚类类别，确定为候选聚类类别。

步骤S410，获取与各候选聚类类别对应的候选特征，并基于各候选特征拼接得到候选全特征。

具体地，通过提取每一候选聚类类别下的各多媒体数据的数据特征，确定为该候选聚类类别对应的候选特征，并通过将各候选聚类类别的候选特征，进行特征拼接，以得到对应的候选全特征。

步骤S412，确定各初始多媒体特征和候选全特征之间的全特征匹配度。

具体地，初始多媒体特征为初始浮点型多媒体特征时，则计算每一初始多媒体特征和各候选全特征之间的余弦相似度，确定为对应的全特征匹配度，或计算每一初始多媒体特征和各候选全特征之间的欧式距离，确定为对应的全特征匹配度。

其中，通过在子特征匹配度的基础上进一步设置全特征匹配度，可新增新的筛选角度，来进一步进行筛选，以提升聚类判断处理的准确度。

步骤S414，基于各初始多媒体特征，确定出全特征匹配度小于预设全特征相似度阈值的各第二中间多媒体特征，基于各第二中间多媒体特征创建对应的第二目标聚类类别。

具体地，通过获取预设全特征相似度阈值，并将各全特征匹配度和预设全特征相似度阈值进行比对，若确定存在全特征匹配度小于预设全特征相似度阈值的初始多媒体特征，则将全特征匹配度小于预设全特征相似度阈值的各初始多媒体特征，确定为第二中间多媒体特征。

进一步地，当确定全特征匹配度小于预设全特征相似度阈值时，则表明当前的各候选聚类类别无法接收相应的第二中间多媒体特征，则需要基于各第二中间多媒体特征创建对应的第二目标聚类类别，以将各第二中间多媒体特征对应的多媒体数据划分至第二目标聚类类别进行存储。

步骤S416，将创建的第二目标聚类类别作为历史聚类类别存储至数据库中。

具体地，在基于第二中间多媒体特征创建对应的第二目标聚类类别，并将各第二中间多媒体特征对应的多媒体数据划分至第二目标聚类类别进行存储后，将创建的第二目标聚类类别作为历史聚类类别存储至数据库中，同时属于第二目标聚类类别的各多媒体数据也和第二目标聚类类别关联存储至数据库中。

其中，通过将第二目标聚类类别及其对应的多媒体数据，作为历史聚类类别存储至数据库中，可实现对数据库的持续更新，从而可在下次针对其他待处理多媒体数据进行聚类处理时，基于更新后的数据库进行聚类处理，从而提升对多媒体数据进行聚类获得的聚类结果的覆盖率，以及提升数据召回率，减少大量多媒体数据的流失。

上述多媒体数据聚类处理方法中，通过接收各多媒体数据处理请求，获取各多媒体数据处理请求对应的待处理多媒体数据，在检测到历史聚类类别时，依次提取各待处理多媒体数据对应的初始多媒体特征，并基于各初始多媒体特征进行特征切割处理，分别获得多个子多媒体特征，以分别确定每一子多媒体特征和各历史聚类类别之间的子特征匹配度。进一步地，基于各历史聚类类别，确定出子特征匹配度大于预设子特征相似度阈值的各候选聚类类别，并获取与各候选聚类类别对应的候选特征，以基于各候选特征拼接得到候选全特征，从而通过确定各初始多媒体特征和候选全特征之间的全特征匹配度，以基于各初始多媒体特征，确定出全特征匹配度小于预设全特征相似度阈值的各第二中间多媒体特征，基于各第二中间多媒体特征创建对应的第二目标聚类类别，并将创建的第二目标聚类类别作为历史聚类类别存储至数据库中。实现了根据在子特征匹配度、以及全特征匹配度的层次对待处理多媒体数据的聚类处理，可通过预设子特征相似度阈值、以及预设全特征相似度阈值来平衡聚类的准确率和覆盖率，并加快动态聚类速度，同时利用新建的第二目标聚类类别对数据库进行持续更新，以便后续基于更新后的数据库对多媒体数据进行聚类处理，提升所获得的聚类结果的覆盖率，以及聚类处理过程中的数据召回率。

在一个实施例中，如图5所示，提供了一种多媒体数据聚类处理方法，具体包括以下步骤：

步骤S502，接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据。

具体地，通过依次接收各多媒体数据处理请求，比如音频数据处理请求、视频数据处理请求等，并针对依次接收到的多媒体数据处理请求，按照接收顺序分别获取每一多媒体数据处理请求对应的待处理多媒体数据，比如待处理音频数据或待处理多媒体数据等。

步骤S504，若检测到历史聚类类别，依次提取各待处理多媒体数据对应的初始多媒体特征。

步骤S506，基于各初始多媒体特征进行特征切割处理，分别获得多个子多媒体特征，并分别确定每一子多媒体特征和各历史聚类类别之间的子特征匹配度。

进一步地，若子多媒体特征属于初始浮点型多媒体特征，获取各历史聚类类别对应的类别特征，计算每一子多媒体特征和各类别特征之间的余弦相似度，确定为对应的子特征匹配度，或计算每一子多媒体特征和各类别特征之间的欧式距离，确定为对应的子特征匹配度。而若子多媒体特征属于初始二进制型多媒体特征，则计算每一子多媒体特征和各类别特征之间的汉明距离，确定为对应的子特征匹配度。

步骤S508，基于各历史聚类类别，确定出子特征匹配度大于预设子特征相似度阈值的各候选聚类类别。

具体地，通过获取预设子特征相似度阈值，并将各子特征匹配度和预设子特征相似度阈值进行比对，若确定存在子特征匹配度大于预设子特征相似度阈值的历史聚类类别，则将该些子特征匹配度大于预设子特征相似度阈值的各历史聚类类别，确定为候选聚类类别。

步骤S510，获取与各候选聚类类别对应的候选特征，并基于各候选特征拼接得到候选全特征。

步骤S512，确定各初始多媒体特征和候选全特征之间的全特征匹配度。

具体地，初始多媒体特征为初始浮点型多媒体特征时，则计算每一初始多媒体特征和各候选全特征之间的余弦相似度，确定为对应的全特征匹配度，或计算每一初始多媒体特征和各候选全特征之间的欧式距离，确定为对应的全特征匹配度。而若初始多媒体特征为初始二进制型多媒体特征，则计算每一初始多媒体特征和各候选全特征之间的汉明距离，确定为对应的全特征匹配度。

步骤S514，基于各初始多媒体特征，确定出全特征匹配度大于预设全特征相似度阈值的各第一中间多媒体特征。

具体地，通过获取预设全特征相似度阈值，并将各全特征匹配度和预设全特征相似度阈值进行比对，若确定存在全特征匹配度大于预设全特征相似度阈值的初始多媒体特征，则将全特征匹配度大于预设全特征相似度阈值的各初始多媒体特征，确定为第一中间多媒体特征。

步骤S516，获取与各历史聚类类别对应的聚类中心全特征，并确定第一中间多媒体特征和各聚类中心全特征之间的聚类中心匹配度。

具体地，在确定存在全特征匹配度大于预设全特征相似度阈值的第一中间多媒体特征时，通过获取各历史聚类类别对应的聚类中心全特征，并计算第一中间多媒体特征和各聚类中心全特征之间的聚类中心匹配度。其中，为解决在实际的海量数据动态聚类过程中，发现的由于相似度传递问题导致首尾多媒体数据样本差异大的问题，通过在子特征匹配度以及全特征匹配度的基础上，进一步设置聚类中心匹配度，以基于聚类中心层次的匹配度来辅助判断，减少首尾多媒体数据直接的差异，提升聚类结果的准确度。

步骤S518，将聚类中心匹配度大于预设聚类中心相似度阈值的历史聚类类别，确定为第一中间多媒体特征对应的第三目标聚类类别。

具体地，通过获取预设聚类中心相似度阈值，并将聚类中心匹配度和预设聚类中心相似度阈值进行比对，若确定聚类中心匹配度大于预设聚类中心相似度阈值的历史聚类类别，则将该些聚类中心匹配度大于预设聚类中心相似度阈值的历史聚类类别，确定为第一中间多媒体特征对应的第三目标聚类类别。

步骤S520，基于各初始多媒体特征，确定出聚类中心匹配度小于预设聚类中心相似度阈值的各第三中间多媒体特征，并基于各第三中间多媒体特征创建对应的第四目标聚类类别。

具体地，通过获取预设聚类中心相似度阈值，并将聚类中心匹配度和预设聚类中心相似度阈值进行比对，若确定聚类中心匹配度小于预设聚类中心相似度阈值的初始多媒体特征，则将该些聚类中心匹配度小于预设聚类中心相似度阈值的初始多媒体特征，确定为第三中间多媒体特征。

其中，在确定出聚类中心匹配度小于预设聚类中心相似度阈值的第三中间多媒体特征时，则表明当前数据库或云端存储中不存在可接收该些第三中间多媒体特征的历史聚类类别，进而需要针对该些第三中间多媒体特征创建新的聚类类别，即针对第三中间多媒体特征创建对应的第四目标聚类类别，以将该些第三中间多媒体特征对应的待处理多媒体数据划分至第四目标聚类类别进行存储。

步骤S522，将创建的第四目标聚类类别作为历史聚类类别存储至数据库中。

具体地，在基于第三中间多媒体特征创建对应的第四目标聚类类别，并将该些第三中间多媒体特征对应的待处理多媒体数据，划分至第四目标聚类类别进行存储后，将创建的第四目标聚类类别作为历史聚类类别存储至数据库中，同时属于第四目标聚类类别的各多媒体数据也和第四目标聚类类别关联存储至数据库中。

其中，通过将第四目标聚类类别及其对应的多媒体数据，作为历史聚类类别存储至数据库中，可实现对数据库的持续更新，从而可在下次针对其他待处理多媒体数据进行聚类处理时，基于更新后的数据库，进行聚类处理，从而提升对多媒体数据进行聚类获得的聚类结果的覆盖率，以及提升数据召回率，减少大量多媒体数据的流失。

上述多媒体数据聚类处理方法中，通过接收各多媒体数据处理请求，获取各多媒体数据处理请求对应的待处理多媒体数据，在检测到历史聚类类别时，依次提取各待处理多媒体数据对应的初始多媒体特征，并基于各初始多媒体特征进行特征切割处理，分别获得多个子多媒体特征，以分别确定每一子多媒体特征和各历史聚类类别之间的子特征匹配度。而基于各历史聚类类别，可确定出子特征匹配度大于预设子特征相似度阈值的各候选聚类类别，并通过获取与各候选聚类类别对应的候选特征，以基于各候选特征拼接得到候选全特征，从而通过确定各初始多媒体特征和候选全特征之间的全特征匹配度，以基于各初始多媒体特征，确定出全特征匹配度大于预设全特征相似度阈值的各第一中间多媒体特征。进一步地，通过获取与各历史聚类类别对应的聚类中心全特征，以及确定第一中间多媒体特征和各聚类中心全特征之间的聚类中心匹配度，并将聚类中心匹配度大于预设聚类中心相似度阈值的历史聚类类别，确定为第一中间多媒体特征对应的第三目标聚类类别，以及确定出聚类中心匹配度小于预设聚类中心相似度阈值的各第三中间多媒体特征，并基于各第三中间多媒体特征创建对应的第四目标聚类类别，将创建的第四目标聚类类别作为历史聚类类别存储至数据库中。实现了根据在子特征匹配度、全特征匹配度、以及聚类中心匹配度的层次对待处理多媒体数据的聚类处理，可通过预设子特征相似度阈值、预设全特征相似度阈值以及预设聚类中心相似度阈值来平衡聚类的准确率和覆盖率，并加快动态聚类速度，同时利用根据新建的第四目标聚类类别对数据库持续更新，以便后续基于更新后的数据库对多媒体数据进行聚类处理，提升所获得的聚类结果的覆盖率，以及聚类处理过程中的数据召回率。

在一个实施例中，如图6所示，确定与各历史聚类类别对应的聚类中心全特征的步骤，具体包括：

步骤S602，获取每一历史聚类类别下的各多媒体数据样本、以及各多媒体数据样本对应的特征维度。

具体地，在数据库或云端存储中存在历史聚类类别时，通过获取每一历史聚类类别下的各多媒体数据样本，并获取每一多媒体数据样本对应的特征维度。其中，多媒体数据样本的维度可根据实际获取到的多媒体数据确定得到，比如128维，256维等。

步骤S604，基于每一多媒体数据样本在各不同特征维度的样本特征值进行求和处理，确定与每一多媒体数据样本对应的第一总样本特征值。

具体地，通过获取每一多媒体数据样本在各不同特征维度的样本特征值，比如多媒体数据样本为128维，则具体获取得到128个维度的样本特征值，并通过对所获取得到128个维度的样本特征值进行求和处理，获得与每一多媒体数据样本对应的第一总样本特征值。

步骤S606，对每一历史聚类类别下的各第一总样本特征值进行求和处理，获得与每一历史聚类类别对应的第二总样本特征值。

具体地，通过对每一历史聚类类别下的各第一总样本特征值进行求和处理，即针对每一历史聚类类别，对该历史聚类类别下的每一多媒体数据样本对应的第一总样本特征值，进行求和处理，获得该历史聚类类别对应的第二总样本特征值。

步骤S608，基于与每一历史聚类类别对应的第二总样本特征值进行求平均处理，获得与每一历史聚类类别对应的聚类中心全特征。

具体地，针对每一历史聚类类别，通过获取该历史聚类类别下的多媒体数据样本的数量，并根据该历史聚类类别下的多媒体数据样本的数量，对该历史聚类类别下第二总样本特征值进行求平均处理，获得与该历史聚类类别对应的聚类中心全特征。

进一步地，具体采用以下公式(1)，确定与历史聚类类别对应的聚类中心全特征Fcenter：

其中，Fcenter即与某一历史聚类类别对应的聚类中心全特征，n即某一历史聚类类别下的多媒体数据样本的数量，j即该历史聚类类别下的多媒体数据样本的特征维度，e_i,j即第i个多媒体数据样本的第一总样本特征值，即某一历史聚类类别对应的第二总样本特征值。

本实施例中，通过获取每一历史聚类类别下的各多媒体数据样本、以及各多媒体数据样本对应的特征维度，并基于每一多媒体数据样本在各不同特征维度的样本特征值进行求和处理，以确定与每一多媒体数据样本对应的第一总样本特征值，即可从每一多媒体数据样本的不同特征维度综合进行考虑，确定出每一多媒体数据样本通过综合不同特征维度后得到的第一总样本特征值，以及进一步基于每一多媒体数据样本的第一总样本特征值，确定出每一历史聚类类别对应的第二总样本特征值，从通过求平均处理获得历史聚类类别对应的聚类中心全特征，避免遗漏不同特征维度的多媒体数据特征值，减少误差数据，以进一步提升所确定出的聚类中心全特征的准确度，从而提升后续基于聚类中心全特征以及第一中间多媒体特征，所确定出的聚类中心匹配度的准确度，获得更准确的聚类结果。

在一个实施例中，如图7所示，提供了一种多媒体数据聚类处理方法，具体包括以下步骤：

步骤S701，接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据。

步骤S702，判断是否检测到历史聚类类别。

步骤S703，若检测到历史聚类类别，依次提取各待处理多媒体数据对应的初始多媒体特征。

步骤S704，基于各初始多媒体特征进行特征切割处理，分别获得多个子多媒体特征，并分别确定每一子多媒体特征和各历史聚类类别之间的子特征匹配度。

步骤S705，判断子特征匹配度是否小于预设子特征相似度阈值。

步骤S706，若各子特征匹配度小于预设子特征相似度阈值，基于待处理多媒体数据创建对应的第一目标聚类类别，并将创建的第一目标聚类类别作为历史聚类类别存储至数据库中。

执行步骤S705后执行步骤S707，若各子特征匹配度大于预设子特征相似度阈值，则基于各历史聚类类别，确定出子特征匹配度大于预设子特征相似度阈值的各候选聚类类别。

步骤S708，获取与各候选聚类类别对应的候选特征，并基于各候选特征拼接得到候选全特征，并确定各初始多媒体特征和候选全特征之间的全特征匹配度。

步骤S709，判断全特征匹配度是否小于预设全特征相似度阈值。

步骤S710，若全特征匹配度小于预设全特征相似度阈值，则基于各初始多媒体特征，确定出全特征匹配度小于预设全特征相似度阈值的各第二中间多媒体特征，并基于各第二中间多媒体特征创建对应的第二目标聚类类别，将创建的第二目标聚类类别作为历史聚类类别存储至数据库中。

执行步骤S709后执行步骤S711，若全特征匹配度大于预设全特征相似度阈值，则基于各初始多媒体特征，确定出全特征匹配度大于预设全特征相似度阈值的各第一中间多媒体特征。

步骤S712，获取每一历史聚类类别下的各多媒体数据样本、以及各多媒体数据样本对应的特征维度，并基于每一多媒体数据样本在各不同特征维度的样本特征值进行求和处理，确定与每一多媒体数据样本对应的第一总样本特征值。

步骤S713，对每一历史聚类类别下的各第一总样本特征值进行求和处理，获得与每一历史聚类类别对应的第二总样本特征值，并基于与每一历史聚类类别对应的第二总样本特征值进行求平均处理，获得与每一历史聚类类别对应的聚类中心全特征。

步骤S714，确定第一中间多媒体特征和各聚类中心全特征之间的聚类中心匹配度。

步骤S715，判断聚类中心匹配度是否大于预设聚类中心相似度阈值。

步骤S716，若聚类中心匹配度大于预设聚类中心相似度阈值，则将聚类中心匹配度大于预设聚类中心相似度阈值的历史聚类类别，确定为第一中间多媒体特征对应的第三目标聚类类别。

执行步骤S715后执行步骤S717，若聚类中心匹配度小预设聚类中心相似度阈值，则基于各初始多媒体特征，确定出聚类中心匹配度小于预设聚类中心相似度阈值的各第三中间多媒体特征，并基于各第三中间多媒体特征创建对应的第四目标聚类类别，将创建的第四目标聚类类别作为历史聚类类别存储至数据库中。

执行步骤S702后执行步骤S718，若未检测到历史聚类类别，基于各待处理多媒体数据分别创建对应的第五目标聚类类别，并将第五目标聚类类别作为历史聚类类别存储至数据库中。

在一个实施例中，如图8所示，提供了一种基于音频数据的动态聚类流程，参照图8可知，具体包括：

1)依次获取各音频数据样本→2)对各音频数据样本进行特征提取，获得各音频数据特征→3)对提取的音频数据特征进行特征切割，获得各子音频数据特征→4)从数据库中获取各历史聚类类别→5)基于各子音频数据特征、以及各历史聚类类别分别进行子特征匹配度计算→6)生成候选聚类类别→7)若候选聚类类别为空，则针对音频数据特征建立新的聚类ID→8)若候选聚类类别不为空，则计算候选聚类类别对应的候选全特征和音频数据特征之间的全特征相似度→9)若确定根据全特征相似度进行筛选确定的候选聚类类别为空，则建立新的聚类ID→10)若确定根据全特征相似度进行筛选确定的候选聚类类别不为空，则计算各历史聚类类别对应的聚类中心全特征和全特征匹配度大于预设全特征相似度阈值的各第一中间多媒体特征之间的聚类中心匹配度→11)将根据聚类中心匹配度确定出的聚类ID，确定为当前第一中间多媒体特征对应的目标聚类类别→12)若根据聚类中心匹配度确定出的聚类类别为空，则针对第一中间多媒体特征建立新的聚类ID→13)将各新建的聚类ID存储至数据库中→14)综合各聚类ID得到对各音频数据的聚类结果。

在一个实施例中，通过从开源数据集中随机选取2000条音频样本作为测试集，并且选用准确率、覆盖率和实时率(即Realtime factor，RTF)作为评估指标。其中，准确率和覆盖率越高说明效果越好，RTF越小说明匹配速度越快。具体来说，通过以下表1(基于LSH的音频动态聚类方法和基于单次遍历的音频动态聚类方法的性能比对表)

表1基于LSH的音频动态聚类方法和基于单次遍历的音频动态聚类方法的性能比对表

聚类方法	准确率	覆盖率	RTF
				基于LSH的音频动态聚类	99.92％	56.98％	0.052
基于单次遍历的音频动态聚类	99.80％	74.74％	0.055

其中，参照表1可知，本申请实施例中的多媒体数据聚类处理方法即基于单次遍历的音频动态聚类方法，相比传统的基于LSH(即Local Sensitive Hashing，局部敏感哈希)的音频动态聚类方法，其准确率和实时率未出现较大变化，但其覆盖率有明显提升，即本申请实施例中的多媒体数据聚类处理方法，可将音频特征相近的样本映射到同一个类别中，可增强数据聚类处理过程中的鲁棒性和数据召回率，不局限于需要哈希值完全相同的音频特征才能划分为同一类别，从而有效扩大聚类结果的覆盖率。

上述多媒体数据聚类处理方法中，实现了根据在子特征匹配度、全特征匹配度、以及聚类中心匹配度等多个不同层次，对待处理多媒体数据的聚类处理，可通过预设子特征相似度阈值、预设全特征相似度阈值以及预设聚类中心相似度阈值来平衡聚类的准确率和覆盖率，并加快动态聚类速度，同时，可根据新建的不同目标聚类类别对数据库进行持续更新，以便后续基于更新后的数据库对多媒体数据进行聚类处理，提升所获得的聚类结果的覆盖率，以及聚类处理过程中的数据召回率。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的多媒体数据聚类处理方法的多媒体数据聚类处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个多媒体数据聚类处理装置实施例中的具体限定可以参见上文中对于多媒体数据聚类处理方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种多媒体数据聚类处理装置，包括：待处理多媒体数据获取模块902、特征匹配度确定模块904以及目标聚类类别确定模块906，其中：

待处理多媒体数据获取模块902，用于接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据；

特征匹配度确定模块904，用于若检测到历史聚类类别，依次确定各待处理多媒体数据和每一历史聚类类别之间的特征匹配度；特征匹配度的层次包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种；

目标聚类类别确定模块906，用于基于特征匹配度，确定各待处理多媒体数据所属的目标聚类类别。

上述多媒体数据聚类处理装中，通过接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据，以实现对海量多媒体数据的实时聚类处理。若检测到历史聚类类别，则依次确定各待处理多媒体数据和每一历史聚类类别之间的特征匹配度，而特征匹配度的层次可包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种，从而可基于不同层次的特征匹配度，来准确确定出各待处理多媒体数据所属的目标聚类类别。进一步地，通过利用不同层次的特征匹配度进行多层筛选，可实现对各待处理多媒体数据的全面识别、匹配和筛选，减少无法进行聚类处理的无效多媒体数据，提升对待处理多媒体数据进行聚类处理的覆盖率、以及聚类效果。

在一个实施例中，如图10所示，提供了一种多媒体数据聚类处理装置，包括：待处理多媒体数据获取模块1002、特征匹配度确定模块1004以及目标聚类类别确定模块1006，特征匹配度确定模块1004包括子特征匹配度确定模块10042、全特征匹配度确定模块10044、以及聚类中心匹配度确定模块10046，目标聚类类别确定模块1006，包括第一目标聚类类别确定模块10061、第二目标聚类类别确定模块10062、第三目标聚类类别确定模块10063、第四目标聚类类别确定模块10064、以及第五目标聚类类别确定模块10065，其中：

待处理多媒体数据获取模块1002，用于接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据。

特征匹配度确定模块1004包括：

子特征匹配度确定模块10042，用于：若检测到历史聚类类别，依次提取各待处理多媒体数据对应的初始多媒体特征；基于各初始多媒体特征进行特征切割处理，分别获得多个子多媒体特征；分别确定每一子多媒体特征和各历史聚类类别之间的子特征匹配度。

全特征匹配度确定模块10044，用于：基于各历史聚类类别，确定出子特征匹配度大于预设子特征相似度阈值的各候选聚类类别；获取与各候选聚类类别对应的候选特征，并基于各候选特征拼接得到候选全特征；确定各初始多媒体特征和候选全特征之间的全特征匹配度。

聚类中心匹配度确定模块10046，用于：基于各初始多媒体特征，确定出全特征匹配度大于预设全特征相似度阈值的各第一中间多媒体特征；获取与各历史聚类类别对应的聚类中心全特征，并确定第一中间多媒体特征和各聚类中心全特征之间的聚类中心匹配度。

目标聚类类别确定模块1006，包括：

第一目标聚类类别确定模块10061，用于：若各子特征匹配度小于预设子特征相似度阈值，基于待处理多媒体数据创建对应的第一目标聚类类别；将创建的第一目标聚类类别作为历史聚类类别存储至数据库中。

第二目标聚类类别确定模块10062，用于：基于各初始多媒体特征，确定出全特征匹配度小于预设全特征相似度阈值的各第二中间多媒体特征，并基于各第二中间多媒体特征创建对应的第二目标聚类类别；将创建的第二目标聚类类别作为历史聚类类别存储至数据库中。

第三目标聚类类别确定模块10063，用于：将聚类中心匹配度大于预设聚类中心相似度阈值的历史聚类类别，确定为第一中间多媒体特征对应的第三目标聚类类别。

第四目标聚类类别确定模块10064，用于：基于各初始多媒体特征，确定出聚类中心匹配度小于预设聚类中心相似度阈值的各第三中间多媒体特征，并基于各第三中间多媒体特征创建对应的第四目标聚类类别；将创建的第四目标聚类类别作为历史聚类类别存储至数据库中。

第五目标聚类类别确定模块10065，用于：若未检测到历史聚类类别，基于各待处理多媒体数据分别创建对应的第五目标聚类类别，并将第五目标聚类类别作为历史聚类类别存储至数据库中。

上述多媒体数据聚类处理装置中，通过接收各多媒体数据处理请求，并获取各多媒体数据处理请求对应的待处理多媒体数据，以实现对海量多媒体数据的实时聚类处理。若检测到历史聚类类别，则依次确定各待处理多媒体数据和每一历史聚类类别之间的特征匹配度，而特征匹配度的层次可包括子特征匹配度、全特征匹配度以及聚类中心匹配度中的至少一种，从而可基于不同层次的特征匹配度，来准确确定出各待处理多媒体数据所属的目标聚类类别。进一步地，通过利用不同层次的特征匹配度进行多层筛选，可实现对各待处理多媒体数据的全面识别、匹配和筛选，减少无法进行聚类处理的无效多媒体数据，提升对待处理多媒体数据进行聚类处理的覆盖率、以及聚类效果。

在一个实施例中，提供了一种多媒体数据聚类处理装置，还包括聚类中心全特征确定模块，用于：

获取每一历史聚类类别下的各多媒体数据样本、以及各多媒体数据样本对应的特征维度；基于每一多媒体数据样本在各不同特征维度的样本特征值进行求和处理，确定与每一多媒体数据样本对应的第一总样本特征值；对每一历史聚类类别下的各第一总样本特征值进行求和处理，获得与每一历史聚类类别对应的第二总样本特征值；基于与每一历史聚类类别对应的第二总样本特征值进行求平均处理，获得与每一历史聚类类别对应的聚类中心全特征。

在一个实施例中，初始多媒体特征包括初始浮点型多媒体特征、以及初始二进制型多媒体特征；若子多媒体特征属于初始浮点型多媒体特征，特征匹配度确定模块，还用于：获取各历史聚类类别对应的类别特征；计算每一子多媒体特征和各类别特征之间的余弦相似度，确定为对应的子特征匹配度；或计算每一子多媒体特征和各类别特征之间的欧式距离，确定为对应的子特征匹配度。

在一个实施例中，若子多媒体特征属于初始二进制型多媒体特征，特征匹配度确定模块，还用于：计算每一子多媒体特征和各类别特征之间的汉明距离，确定为对应的子特征匹配度。

在一个实施例中，若初始多媒体特征为初始浮点型多媒体特征，特征匹配度确定模块，还用于：计算每一初始多媒体特征和各候选全特征之间的余弦相似度，确定为对应的全特征匹配度；或计算每一初始多媒体特征和各候选全特征之间的欧式距离，确定为对应的全特征匹配度。

在一个实施例中，若初始多媒体特征为初始二进制型多媒体特征，特征匹配度确定模块，还用于：计算每一初始多媒体特征和各候选全特征之间的汉明距离，确定为对应的全特征匹配度。

在一个实施例中，若第一中间多媒体特征为初始浮点型多媒体特征，特征匹配度确定模块，还用于：计算每一第一中间多媒体特征和各聚类中心全特征之间的余弦相似度，确定为对应的聚类中心匹配度；或计算每一第一中间多媒体特征和各聚类中心全特征之间的欧氏距离，确定为对应的聚类中心匹配度。

在一个实施例中，若第一中间多媒体特征为初始二进制型多媒体特征，特征匹配度确定模块，还用于：计算每一第一中间多媒体特征和各聚类中心全特征之间的汉明距离，确定为对应的聚类中心匹配度。

上述多媒体数据聚类处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多媒体数据处理请求对应的待处理多媒体数据、历史聚类类别、子特征匹配度、全特征匹配度、聚类中心匹配度以及待处理多媒体数据所属的目标聚类类别等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体数据聚类处理方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(FerroelectricRandom Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(StaticRandom Access Memory，SRAM)或动态随机存取存储器(Dynamic Random AccessMemory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多媒体数据聚类处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述若检测到历史聚类类别，依次确定各所述待处理多媒体数据和每一所述历史聚类类别之间的不同层次的特征匹配度，包括：

若检测到历史聚类类别，依次提取各待处理多媒体数据对应的初始多媒体特征；

基于各所述初始多媒体特征进行特征切割处理，分别获得多个子多媒体特征；

分别确定每一所述子多媒体特征和各所述历史聚类类别之间的子特征匹配度。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于各所述历史聚类类别，确定出所述子特征匹配度大于预设子特征相似度阈值的各候选聚类类别；

获取与各所述候选聚类类别对应的候选特征，并基于各所述候选特征拼接得到候选全特征；

确定各所述初始多媒体特征和所述候选全特征之间的全特征匹配度。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于各所述初始多媒体特征，确定出所述全特征匹配度大于预设全特征相似度阈值的各第一中间多媒体特征；

获取与各所述历史聚类类别对应的聚类中心全特征，并确定所述第一中间多媒体特征和各所述聚类中心全特征之间的聚类中心匹配度。

5.根据权利要求3所述的方法，其特征在于，所述基于所述特征匹配度，确定各所述待处理多媒体数据所属的目标聚类类别，包括：

若各所述子特征匹配度小于所述预设子特征相似度阈值，基于所述待处理多媒体数据创建对应的第一目标聚类类别；

所述方法还包括：将创建的所述第一目标聚类类别作为历史聚类类别存储至数据库中。

6.根据权利要求4所述的方法，其特征在于，所述基于特征匹配度，确定各所述待处理多媒体数据所属的目标聚类类别，还包括：

基于各所述初始多媒体特征，确定出所述全特征匹配度小于所述预设全特征相似度阈值的各第二中间多媒体特征，并基于各所述第二中间多媒体特征创建对应的第二目标聚类类别；

所述方法还包括：将创建的所述第二目标聚类类别作为历史聚类类别存储至数据库中。

7.根据权利要求4所述的方法，其特征在于，所述基于所述特征匹配度，确定各所述待处理多媒体数据所属的目标聚类类别，还包括：

将所述聚类中心匹配度大于预设聚类中心相似度阈值的所述历史聚类类别，确定为所述第一中间多媒体特征对应的第三目标聚类类别。

8.根据权利要求4所述的方法，其特征在于，所述基于所述特征匹配度，确定各所述待处理多媒体数据所属的目标聚类类别，还包括：

基于各所述初始多媒体特征，确定出所述聚类中心匹配度小于所述预设聚类中心相似度阈值的各第三中间多媒体特征，并基于各所述第三中间多媒体特征创建对应的第四目标聚类类别；

所述方法还包括：将创建的所述第四目标聚类类别作为历史聚类类别存储至数据库中。

9.根据权利要求4所述的方法，其特征在于，确定与各所述历史聚类类别对应的聚类中心全特征的方式，包括：

获取每一所述历史聚类类别下的各所述多媒体数据样本、以及各所述多媒体数据样本对应的特征维度；

基于每一所述多媒体数据样本在各不同特征维度的样本特征值进行求和处理，确定与每一所述多媒体数据样本对应的第一总样本特征值；

对每一所述历史聚类类别下的各所述第一总样本特征值进行求和处理，获得与每一所述历史聚类类别对应的第二总样本特征值；

基于与每一所述历史聚类类别对应的第二总样本特征值进行求平均处理，获得与每一所述历史聚类类别对应的聚类中心全特征。

10.一种多媒体数据聚类处理装置，其特征在于，所述装置包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。