CN116821724B

CN116821724B - 多媒体处理网络生成方法、多媒体处理方法及装置

Info

Publication number: CN116821724B
Application number: CN202311055503.4A
Authority: CN
Inventors: 冯晓; 何蕾; 刘一仝; 徐程程
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-12-12
Anticipated expiration: 2043-08-22
Also published as: CN116821724A

Abstract

本申请公开了一种多媒体处理网络生成方法、多媒体处理方法及装置，涉及人工智能技术领域，该方法基于对初始多媒体样本集对应的每个聚类多媒体样本集进行多次采样得到的多个初始关键多媒体样本集，分别对预设多媒体处理网络进行多次训练，根据训练后的多媒体处理网络的多媒体处理评价指标，从多个初始关键多媒体样本集中确定目标关键多媒体样本集，并得到其对应的训练后的多媒体处理网络，预设多媒体处理网络为经过预训练的大型语言模型。利用本申请提供的技术方案可以提升筛选出的用于微调上述预训练大型语言模型的多媒体样本集的代表性和合理性，进而提升基于该多媒体样本集训练得到的多媒体处理网络的生成效率，同时保证多媒体处理的准确性。

Description

多媒体处理网络生成方法、多媒体处理方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种多媒体处理网络生成方法、多媒体处理方法及装置。

背景技术

随着互联网和人工智能技术的发展，以大型语言模型（Large Language Model，LLM）为基础的多种语言模型被广泛应用于各种多模态任务，如对话系统、机器翻译、文本摘要等文本处理任务，图片描述、视觉知识问答等图像处理任务以及语音处理任务等等。目前，预训练-微调已成为了大型语言模型的训练范式，并取得了显著的突破。但是，由于大型语言模型的参数量一般都在数十亿甚至达到千亿规模，使用现有大批量训练数据去微调训练模型不仅会导致大型语言模型微调训练的效率低下，还会带来巨大的计算成本。

发明内容

本申请提供了一种多媒体处理网络生成方法、多媒体处理方法及装置，可以提升多媒体处理网络的生成效率，降低计算成本，同时提升多媒体处理网络的泛化能力，也可以在后续多媒体处理应用过程中，保证多媒体处理结果的准确性。

一方面，本申请提供了一种多媒体处理网络生成方法，所述方法包括：

获取初始多媒体样本集；

对所述初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集；

对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成所述初始多媒体样本集对应的至少两个初始关键多媒体样本集；每个初始关键多媒体样本集的样本数量不同；

基于所述每个初始关键多媒体样本集对预设多媒体处理网络进行训练，得到所述每个初始关键多媒体样本集对应的更新多媒体处理网络；

根据所述更新多媒体处理网络对应的多媒体处理评价指标，从所述至少两个初始关键多媒体样本集中确定目标关键多媒体样本集，所述多媒体处理评价指标用于表征所述更新多媒体处理网络的多媒体处理的准确程度；

将所述目标关键多媒体样本集对应的更新多媒体处理网络作为目标多媒体处理网络。

另一方面提供了一种多媒体处理方法，所述方法包括：

获取待处理多媒体数据；

将所述待处理多媒体数据输入目标多媒体处理网络进行多媒体处理，得到目标处理结果，所述目标多媒体处理网络为采用上述的多媒体处理网络生成方法生成的。

另一方面提供了一种多媒体处理网络生成装置，所述装置包括：

第一获取模块，用于获取初始多媒体样本集；

聚类模块，用于对所述初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集；

采样模块，用于对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成所述初始多媒体样本集对应的至少两个初始关键多媒体样本集；每个初始关键多媒体样本集的样本数量不同；

训练模块，用于基于所述每个初始关键多媒体样本集对预设多媒体处理网络进行训练，得到所述每个初始关键多媒体样本集对应的更新多媒体处理网络；

目标关键多媒体样本集确定模块，用于根据所述更新多媒体处理网络对应的多媒体处理评价指标，从所述至少两个初始关键多媒体样本集中确定目标关键多媒体样本集，所述多媒体处理评价指标用于表征所述更新多媒体处理网络的多媒体处理的准确程度；

目标多媒体处理网络确定模块，用于将所述目标关键多媒体样本集对应的更新多媒体处理网络作为目标多媒体处理网络。

另一方面提供了一种多媒体处理处理装置，所述装置包括：

第二获取模块，用于获取待处理多媒体数据；

多媒体处理模块，用于将所述待处理多媒体数据输入目标多媒体处理网络进行多媒体处理，得到目标处理结果，所述目标多媒体处理网络为采用上述的多媒体处理网络生成方法生成的。

另一方面提供了一种电子设备，包括：处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述的多媒体处理网络生成方法或多媒体处理方法。

另一方面提供了一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述的多媒体处理网络生成方法或多媒体处理方法。

另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的多媒体处理网络生成方法或多媒体处理方法。

本申请提供的一种多媒体处理网络生成方法、多媒体处理方法及装置，具有如下技术效果：

本申请获取初始多媒体样本集，对初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集，进而对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成初始多媒体样本集对应的至少两个初始关键多媒体样本集，并基于每个初始关键多媒体样本集对预设多媒体处理网络进行训练，得到每个初始关键多媒体样本集对应的更新多媒体处理网络；根据更新多媒体处理网络对应的多媒体处理评价指标，从至少两个初始关键多媒体样本集中确定目标关键多媒体样本集，其中多媒体处理评价指标可以用于表征更新多媒体处理网络的多媒体处理的准确程度，能够从初始多媒体样本集中筛选出既能够保证多媒体样本多样性，且样本数量远小于初始多媒体样本集的样本数量的初始关键多媒体样本集，可以提升筛选出的用于训练大型语言模型的多媒体样本集的代表性和合理性；从而将目标关键多媒体样本集对应的更新多媒体处理网络作为目标多媒体处理网络，可以提升基于上述筛选出的多媒体样本集训练得到的用于多媒体处理的大型语言模型的生成效率，大大降低计算成本，同时提升用于多媒体处理的大型语言模型的泛化能力，也可以在后续多媒体处理应用过程中，保证多媒体处理结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种多媒体处理网络生成方法的应用环境的示意图；

图2是本申请实施例提供的一种多媒体处理网络生成方法的流程示意图；

图3是本申请实施例提供的一种初始关键多媒体样本集生成方法的流程示意图；

图4是本申请实施例提供的一种聚类多媒体样本集采样方法的流程示意图；

图5是本申请实施例提供的一种多媒体处理网络训练过程的示意图；

图6是本申请实施例提供的一种目标关键多媒体样本集确定方法的流程示意图；

图7是本申请实施例提供的一种生成多媒体处理网络的示意图；

图8是本申请实施例提供的一种多媒体处理方法的流程示意图；

图9是本申请实施例提供的一种多媒体处理网络生成装置的结构示意图；

图10是本申请实施例提供的一种多媒体处理装置的结构示意图；

图11是本申请实施例提供的一种用于多媒体处理网络生成或多媒体处理的电子设备的框图；

图12是本申请实施例提供的另一种用于多媒体处理网络生成或多媒体处理的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在介绍本申请提供的方法实施例之前，先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍，以便于本申请领域技术人员理解。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

LLM：大型语言模型(Large Language Model，LLM)是指能够处理和生成自然语言的计算机模型。它代表着人工智能领域的重大进步，并有望通过习得的知识改变该领域。LLM可以通过学习语言数据的统计规律和语义信息来预测下一个单词或句子，随着输入数据集与参数空间的不断扩大，LLM的能力也会相应提高。它用于多种应用领域，如机器学习、机器翻译、语音识别、图像处理等，所以被称为多模态大型语言模型(MLLM)。

Instruction Tuning：指令微调，是指针对每个任务，单独生成指令(instruction)，通过在若干个任务上进行微调，然后在具体的任务上进行评估泛化能力。通常是在公开的大量的自然语言处理任务数据集合上进行的，用于激发语言模型的理解能力，通过给出更明显的指令，让模型去理解并做出正确的反馈。

Transformer：是一种神经网络，它通过提取序列数据中的关系来学习上下文并因此学习含义。Transformer模型应用了一组不断发展的数学技术，称为注意力或自我注意力，以检测甚至是系列中遥远的数据元素相互影响和相互依赖的微妙方式。

本申请实施例提供的方案涉及人工智能的深度学习等技术，具体的，可以涉及基于深度学习的多媒体处理，具体通过如下实施例进行说明：

请参阅图1，图1是本申请实施例提供的一种多媒体处理网络生成方法的应用环境的示意图，该应用环境至少可以包括服务器100和终端200。

在一个可选的实施例中，服务器100可以用于进行多媒体处理网络生成处理，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

在一个可选的实施例中，终端200可以用于基于多媒体处理网络，面向用户提供多媒体处理等服务。具体的，终端200可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、智能可穿戴设备、车载终端、智能电视等类型的电子设备；也可以为运行于上述电子设备的软体，例如应用程序、小程序等。本申请实施例中电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外，需要说明的是，图1所示的仅仅是一种多媒体处理网络生成方法的应用环境，本说明书实施例并不以上述为限。

本说明书实施例中，上述服务器100和终端200可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

大量研究表明，通过指令微调能够促使大型语言模型更好地适应目标任务，比不经过微调的模型表现出更好的效果。目前，预训练-微调已成为了大型语言模型的训练范式，并取得了显著的突破。但是，由于大型语言模型的参数量一般都在数十亿甚至达到千亿规模，使用现有大批量训练数据去微调训练模型不仅会导致大型语言模型微调训练的效率低下，还会带来巨大的计算成本。同时，经过大量的实验可以发现，大型语言模型在实际训练中对数据质量的要求比对数据规模的要求更高，也就是少而精的训练数据往往能够获得更好的微调效果。

本申请提出了一种面向大型语言模型微调的多样性核心训练数据筛选方法及基于该核心训练数据微调的大型语言模型的生成方法，目的是从大量的目标任务的原始训练数据集中，筛选出既能够保证数据多样性，且数据规模仅为原始数据集百分之一的核心训练数据集，使得筛选出的少量训练数据更具有代表性和合理性，并得到基于该核心训练数据集微调的大型语言模型，其针对目标任务的处理效果能够达到甚至超过基于原始数据集微调的模型的处理效果。

以下介绍本申请一种多媒体处理网络生成方法，图2是本申请实施例提供的一种多媒体处理网络生成方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境）。具体的如图2所示，上述方法可以包括：

S201：获取初始多媒体样本集。

在一个具体的实施例中，初始多媒体样本集可以包括用于至少一个多媒体处理任务的大量多媒体样本，具体的，多媒体样本可以包括文本数据、视频数据、图像数据及语音数据等多媒体数据，该多媒体处理任务可以包括多媒体分类任务、多媒体生成任务及对话问答任务等，初始多媒体样本集的样本数量可以达到几十万甚至更多。

S203：对初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集。

在一个具体实施例中，每个聚类多媒体样本集可以包括一个中心多媒体样本，该中心多媒体样本可以为聚类中心所对应的多媒体样本，也可以为与聚类中心相似度最大的多媒体样本；每个聚类多媒体样本集可以对应一个上述多媒体处理任务。上述预设数量可以根据实际应用需求进行设置。

在一个具体实施例中，可以基于预设聚类算法对初始多媒体样本集中的多媒体样本进行聚类处理，具体的，预设聚类算法可以包括K均值聚类算法(K-Means ClusteringAlgorithm，KMeans)及K均值聚类算法的改进算法(KMeans++)等聚类算法，预设聚类算法可以根据实际应用需求进行设置。

在一个可选的实施例中，在上述对初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集之前，上述方法还可以包括：

对初始多媒体样本集中的多媒体样本进行特征提取，得到初始多媒体样本集中的多媒体样本的特征向量；

相应的，上述对初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集可以包括：

基于初始多媒体样本集中的多媒体样本的特征向量，对初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集。

在一个具体实施例中，可以通过预设特征提取网络对初始多媒体样本集中的多媒体样本进行特征提取，得到初始多媒体样本集中的多媒体样本的特征向量，具体的，上述预设特征提取网络可以为在超大规模多媒体样本集上预先训练好的用于进行特征提取的大型语言模型，例如，基于转换器的双向编码表示（Bidirectional Encoder Representationfrom Transformers，BERT）网络、基于转换器的生成式预训练（Generative Pre-trainingTransformer，GPT）网络等；在预设特征提取网络为BERT网络的情况下，可以将聚合全局特征的标记（class token）对应的向量作为上述特征向量，在预设特征提取网络为GPT网络的情况下，可以将每一个标记（token）对应向量的平均池化结果作为上述特征向量。在得到上述特征向量后，还可以对初始多媒体样本集中的多媒体样本的特征向量进行正则化处理，以便于后续快速计算多媒体样本间的相似度信息。

在实际应用中，可以基于目标多媒体处理任务对应的多媒体样本集对上述预设特征提取网络进行二次训练，可以提升特征提取效果，进而保证基于特征提取后的特征向量进行后续筛选处理得到的关键多媒体样本集的可靠性，保证基于该关键多媒体样本集训练生成的多媒体处理网络的处理效果；具体的，目标多媒体处理任务可以为上述多媒体处理任务中的至少一个。

上述实施例中，通过预先训练的特征提取网络对初始多媒体样本集中的多媒体样本进行特征提取，进而进行聚类处理，对初始多媒体样本集中的多媒体样本基于不同的多媒体处理任务进行初步分类，便于后续对每个类簇的多媒体样本进行筛选。

S205：对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成初始多媒体样本集对应的至少两个初始关键多媒体样本集。

在一个具体实施例中，每个初始关键多媒体样本集的样本数量不同，每个初始关键多媒体样本集的样本数量可以为初始多媒体样本集的样本数量的几十分之一或几百分之一，具体的，每个初始关键多媒体样本集的样本数量可以根据实际应用需求进行设置。

在一个可选的实施例中，上述对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成初始多媒体样本集对应的至少两个初始关键多媒体样本集可以包括：

基于每个聚类多媒体样本集中的其它多媒体样本与每个聚类多媒体样本集中的中心多媒体样本的相似度信息，从其它多媒体样本中确定每个聚类多媒体样本集对应的关键多媒体样本；

基于每个聚类多媒体样本集对应的关键多媒体样本，对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成初始多媒体样本集对应的至少两个初始关键多媒体样本集。

在一个具体实施例中，上述其它多媒体样本可以为每个聚类多媒体样本集中除中心多媒体样本外的多媒体样本；可选的，可以从其它多媒体样本中选取与每个聚类多媒体样本集中的中心多媒体样本的相似度信息最大的多媒体样本作为每个聚类多媒体样本集对应的关键多媒体样本，具体的，上述相似度信息可以为余弦相似度信息。

在一个具体实施例中，可以基于预设采样算法，以每个聚类多媒体样本集对应的关键多媒体样本为每次采样的初始采样中心，对每个聚类多媒体样本集进行至少两次采样；具体的，上述预设采样算法可以包括K中心贪婪(K-Center-Greedy)算法及鲁棒K中心(Robust k-Center)算法等。

上述实施例中，从每个聚类多媒体样本集中确定与对应的聚类中心多媒体样本相似度信息最大的关键多媒体样本，并以该关键多媒体样本为初始采样中心，对每个聚类多媒体样本集进行至少两次采样，可以使得后续基于该关键多媒体样本进行采样得到的关键多媒体样本集能够尽可能的代表每个聚类多媒体样本集，保证数据多样性，提升后续采样的准确性。

如图3所示，图3是本申请实施例提供的一种初始关键多媒体样本集生成方法的流程示意图，上述基于每个聚类多媒体样本集对应的关键多媒体样本，对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成初始多媒体样本集对应的至少两个初始关键多媒体样本集可以包括：

S301：基于每个聚类多媒体样本集对应的关键多媒体样本，对每个聚类多媒体样本集进行至少两次采样，得到每次采样生成的每个聚类多媒体样本集对应的关键多媒体样本集。

在一个具体实施例中，可以基于上述预设采样算法，以每个聚类多媒体样本集对应的关键多媒体样本为每次采样的初始采样中心，对每个聚类多媒体样本集进行至少两次采样，得到每次采样生成的每个聚类多媒体样本集对应的关键多媒体样本集。

在一个可选的实施例中，如图4所示，图4是本申请实施例提供的一种聚类多媒体样本集采样方法的流程示意图，上述基于每个聚类多媒体样本集对应的关键多媒体样本，对每个聚类多媒体样本集进行至少两次采样，得到每次采样生成的每个聚类多媒体样本集对应的关键多媒体样本集可以包括：

S401：基于每次采样对应的初始关键多媒体样本集的样本数量及每个聚类多媒体样本集的样本数量在初始多媒体样本集的样本数量中的占比信息，确定每个聚类多媒体样本集对应的采样样本数量。

在一个具体实施例中，采样样本数量可以根据以下公式确定：

其中，表示每个聚类多媒体样本集对应的采样样本数量，M表示上述初始关键多媒体样本集的样本数量，/>表示每个聚类多媒体样本集的样本数量在初始多媒体样本集的样本数量中的占比信息。

S403：将每个聚类多媒体样本集对应的关键多媒体样本作为每个聚类多媒体样本集对应的当前关键多媒体样本。

S405：基于每个聚类多媒体样本集中的非当前关键多媒体样本与每个聚类多媒体样本集对应的当前关键多媒体样本间的距离信息，从非当前关键多媒体样本中确定每个聚类多媒体样本集对应的采样多媒体样本。

在一个具体的实施例中，可以计算每个聚类多媒体样本集中的非当前关键多媒体样本与对应的当前关键多媒体样本间的最大距离信息，进而可以从非当前关键多媒体样本中选取上述最大距离信息最小的多媒体样本作为采样多媒体样本；具体的，上述距离信息可以为WD距离(Wasserstain Distance)信息、KL散度(Kullback-Leibler Divergence)信息、欧氏距离信息等。

S407：根据每个聚类多媒体样本集对应的采样多媒体样本和每个聚类多媒体样本集对应的当前关键多媒体样本，生成每个聚类多媒体样本集对应的更新关键多媒体样本集。

在一个具体实施例中，将采样多媒体样本和当前关键多媒体样本共同作为更新关键多媒体样本集中的多媒体样本。

S409：将每个聚类多媒体样本集对应的更新关键多媒体样本集中的多媒体样本重新作为每个聚类多媒体样本集对应的当前关键多媒体样本，重复基于每个聚类多媒体样本集中的非当前关键多媒体样本与每个聚类多媒体样本集对应的当前关键多媒体样本间的距离信息，至生成每个聚类多媒体样本集对应的更新关键多媒体样本集的步骤，直至更新关键多媒体样本集的样本数量达到采样样本数量，得到每次采样生成的每个聚类多媒体样本集对应的关键多媒体样本集。

上述实施例中，在对每个聚类多媒体样本集进行每次采样的过程中，基于每次采样对应的初始关键多媒体样本集的样本数量及每个聚类多媒体样本集的样本数量在初始多媒体样本集的样本数量中的占比信息确定采样样本数量，使得样本数量较多的聚类多媒体样本集对应的关键多媒体样本集在初始关键多媒体样本集中占有更大的比重；进而基于每个聚类多媒体样本集中的非当前关键多媒体样本与每个聚类多媒体样本集对应的当前关键多媒体样本间的距离信息，从非当前关键多媒体样本中进行多次重复采样，直至达到采样样本数量，可以更准确高效地筛选出更能够代表每个聚类多媒体样本的少量关键多媒体样本，进而使得后续基于该少量关键多媒体样本得到的初始关键多媒体样本集更能够代表初始多媒体样本集，且初始关键多媒体样本集的样本数量远小于初始多媒体样本集的样本数量，使得筛选出的初始关键多媒体样本集更具有代表性和合理性。

S303：对每次采样生成的每个聚类多媒体样本集对应的关键多媒体样本集进行融合，得到每次采样对应的初始关键多媒体样本集。

在一个具体实施例中，可以将每次采样生成的每个聚类多媒体样本集对应的关键多媒体样本集进行合并，从而得到每次采样对应的初始关键多媒体样本集。

S305：根据每次采样对应的初始关键多媒体样本集，生成至少两个初始关键多媒体样本集。

在一个具体实施例中，可以将每次采样所得到的初始关键多媒体样本集作为至少两个初始关键多媒体样本集。

上述实施例中，通过对每个聚类多媒体样本集进行多次采样，将每次采样得到的关键多媒体样本集进行合并，得到初始多媒体样本集对应的每个初始关键多媒体样本集，进而后续从中确定训练效果最好的初始关键多媒体样本集，便于从初始多媒体样本集中筛选出满足需求的少量关键多媒体样本。

S207：基于每个初始关键多媒体样本集对预设多媒体处理网络进行训练，得到每个初始关键多媒体样本集对应的更新多媒体处理网络。

在一个具体实施例中，每个初始关键多媒体样本集可以对应一个更新多媒体处理网络；上述预设多媒体处理网络可以为经过预训练的大型语言模型，具体的，预设多媒体处理网络可以为用于结合多媒体样本进行多媒体处理的经过预训练的大型语言模型。随着技术的快速发展，自从2022年底ChatGPT出现之后，各种类型大型语言模型发展非常迅速，本申请实施例中的预设多媒体处理网络就属于这一类大型语言模型，可以将其理解为主体架构为基于Transform模型构建的参数数量大于预设值的生成式语言模型，其中，该预设值本领域技术人员可以自行确定，通常情况下，预设多媒体处理网络的参数数量可以在数十亿甚至可以达到千亿规模，预设多媒体处理网络的具体网络结构可以结合实际应用中多媒体处理任务的需求进行设置。相关技术中大型语言模型有很多，例如，基于转换器的双向编码表示（Bidirectional Encoder Representation from Transformers，BERT）网络、基于转换器的生成式预训练（Generative Pre-training Transformer，GPT）网络等。

在实际应用中，预训练的大型语言模型通常是通过各处理任务的通用训练数据进行预训练得到，为了使得模型针对智能对话处理的效果更好，通常可以采用目标处理任务的专用训练数据对预训练的大型语言模型进行模型参数微调。本说明书实施例从包含大量训练数据的针对目标多媒体处理任务的专用训练数据（即初始多媒体样本集）中，筛选出多个核心训练数据集（即多个初始关键多媒体样本集），分别对预训练的大型语言模型进行多次参数微调，从而得到多个训练后的大型语言模型（即多个更新多媒体处理网络），进而后续根据多个训练后的大型语言模型的评价指标，从上述多个核心训练数据集中确定既能够保证数据多样性，且数据规模仅为原始数据集百分之一的一个核心训练数据集（即目标初始关键多媒体样本集）。

在一个可选的实施例中，上述基于每个初始关键多媒体样本集对预设多媒体处理网络进行训练，得到每个初始关键多媒体样本集对应的更新多媒体处理网络可以包括：

获取每个初始关键多媒体样本集中的每个多媒体样本对应的预设多媒体处理结果；

将每个初始关键多媒体样本集中的每个多媒体样本输入预设多媒体处理网络进行多媒体处理，得到每个初始关键多媒体样本集中的每个多媒体样本对应的预测多媒体样本处理结果；

基于预设多媒体处理结果和预测多媒体样本处理结果对预设多媒体处理网络进行训练，得到更新多媒体处理网络。

在一个具体实施例中，上述每个多媒体样本对应一个预设多媒体处理结果，上述每个初始关键多媒体样本集中的多媒体样本可以用于至少一个上述多媒体处理任务，例如，对于用于处理多媒体类别识别任务的多媒体样本，其对应的预设多媒体处理结果可以为多媒体样本所属的多媒体类别信息，对于用于处理多媒体生成任务的多媒体样本，其对应的预设多媒体处理结果可以为多媒体样本所对应的期望生成的多媒体数据。

在一个可选的实施例中，上述基于预设多媒体处理结果和预测多媒体样本处理结果对预设多媒体处理网络进行训练，得到更新多媒体处理网络可以包括：

根据预设多媒体处理结果和预测多媒体样本处理结果，确定损失信息；

基于损失信息，对预设多媒体处理网络的参数进行调整，得到更新多媒体处理网络。

在一个具体实施例中，上述损失信息可以结合预设损失函数计算；可选的，预设损失函数可以结合实际应用需求设定，例如指数损失函数，交叉熵损失函数等。上述损失信息可以用于表征当前的预设多媒体处理网络的多媒体处理的准确性。

在一个具体实施例中，上述基于损失信息，对预设多媒体处理网络的参数进行调整，得到更新多媒体处理网络可以包括：基于更新多媒体处理网络，重复上述将每个初始关键多媒体样本集中的每个多媒体样本输入预设多媒体处理网络进行多媒体处理，得到每个初始关键多媒体样本集中的每个多媒体样本对应的预测多媒体样本处理结果至基于损失信息，对预设多媒体处理网络的参数进行调整的训练迭代步骤，直至满足预设训练收敛条件。

上述预设训练收敛条件可以为损失信息小于等于预设损失阈值，或训练迭代步骤的次数达到预设次数等，具体的，预设损失阈值和预设次数可以结合实际应用中网络精度和训练速度需求进行设置。

上述实施例中，基于多个初始关键多媒体样本集分别对预训练的大型语言模型进行训练，在每次训练过程中，基于损失信息调整预训练的大型语言模型的参数，从而得到多个训练后的大型语言模型，便于后续基于多个训练后的大型语言模型的多媒体处理效果从多个初始关键多媒体样本集中确定目标关键多媒体样本集，提升多媒体样本筛选的合理性和准确性。

图5是本申请实施例提供的一种多媒体处理网络训练过程的示意图，如图5所示，初始多媒体样本集包括大量多媒体样本，初始多媒体样本集中的多媒体样本可以用于多种不同的多媒体处理任务，也可以用于一种多媒体处理任务；对初始多媒体样本集中的多媒体样本进行聚类，得到多个聚类多媒体样本，并将与每个聚类多媒体样本集的聚类中心相似度最大的多媒体样本作为每个聚类多媒体样本集的关键多媒体样本；在根据每个聚类多媒体样本集的关键多媒体样本对每个聚类多媒体样本集进行每次采样的过程中，每个采样多媒体样本与其对应的关键多媒体样本的最大距离最小，进而得到每个聚类多媒体样本集的关键多媒体样本集，将每次采样得到的多个关键多媒体样本集进行合并，得到初始多媒体样本集对应的一个初始关键多媒体样本集，该初始关键多媒体样本集的样本数量可以为初始多媒体样本集样本数量的几十分之一或几百分之一；将筛选得到的上述初始关键多媒体样本集中的多媒体样本输入用于结合多媒体样本进行多媒体处理的预训练的大型语言模型（即预设多媒体处理网络）进行多媒体处理，得到该多媒体样本对应的预测多媒体样本处理结果；例如在多媒体类别识别任务的情况下，将多媒体样本输入上述预训练的大型语言模型进行多媒体处理，可以得到多媒体样本的预测多媒体类别信息，进而结合该多媒体样本对应的预设多媒体处理结果（相应的预设多媒体类别信息）计算损失信息，进而基于损失信息对上述预训练的大型语言模型进行参数调整，得到训练后的大型语言模型，即更新多媒体处理网络，相应的，该更新多媒体处理网络可以用于处理多媒体类别识别任务。

S209：根据更新多媒体处理网络对应的多媒体处理评价指标，从至少两个初始关键多媒体样本集中确定目标关键多媒体样本集。

在一个具体实施例中，多媒体处理评价指标可以用于表征更新多媒体处理网络的多媒体处理的准确程度。可选的，目标关键多媒体样本集的样本数量至少可以达到初始多媒体样本集的样本数量的百分之一。

在一个可选的实施例中，图6是本申请实施例提供的一种目标关键多媒体样本集确定方法的流程示意图，如图6所示，上述根据更新多媒体处理网络对应的多媒体处理评价指标，从至少两个初始关键多媒体样本集中确定目标关键多媒体样本集可以包括：

S601：将预设测试多媒体样本输入更新多媒体处理网络进行多媒体处理，得到更新多媒体处理网络的测试多媒体处理结果。

在一个具体实施例中，可以首先将预设测试多媒体样本输入上述预设特征提取网络进行特征提取，得到预设测试多媒体样本的特征向量，进而将预设测试多媒体样本的特征向量输入上述训练后的大型语言模型进行多媒体处理，从而得到训练后的大型语言模型的测试多媒体处理结果；具体的，预设测试多媒体样本与上述初始多媒体样本集中的多媒体样本之间相互独立，预设测试多媒体样本可以根据实际多媒体处理任务的需求进行设置，每个多媒体处理任务对应至少一个预设测试多媒体样本。

S603：根据更新多媒体处理网络的测试多媒体处理结果，确定更新多媒体处理网络对应的多媒体处理评价指标。

在一个具体实施例中，更新多媒体处理网络可以用于处理至少一个上述多媒体处理任务，在多媒体处理任务为多媒体类别识别任务的情况下，上述测试多媒体处理结果可以为测试多媒体样本所属的多媒体类别信息，相应的，上述多媒体处理评价指标可以包括多媒体类别识别的准确率和召回率等；在多媒体处理任务为多媒体生成任务的情况下，上述测试多媒体处理结果可以为测试多媒体样本对应生成的多媒体数据，相应的，上述多媒体处理评价指标可以包括多媒体数据生成的准确率和有效性等。

S605：根据更新多媒体处理网络对应的多媒体处理评价指标，从至少两个初始关键多媒体样本集中确定目标关键多媒体样本集。

在一个具体实施例中，可以将至少两个初始关键多媒体样本集中，目标多媒体处理网络所对应的初始关键多媒体样本集作为上述目标关键多媒体样本集，其中，目标多媒体处理网络可以为多媒体处理评价指标指示多媒体处理准确程度较高的一个更新多媒体处理网络。

在一个具体实施例中，还可以根据初始多媒体样本集训练得到的初始多媒体处理网络的多媒体处理结果，确定该初始多媒体处理网络的多媒体处理评价指标，进而基于多媒体处理评价指标，对比上述更新多媒体处理网络和初始多媒体处理网络的多媒体处理效果，从而从至少两个初始关键多媒体样本集中，确定其中一个初始关键多媒体样本集作为目标关键多媒体样本集，该目标关键多媒体样本集用于训练得到目标多媒体处理网络，该目标多媒体处理网络为上述至少两个初始关键多媒体样本集训练得到的至少两个更新多媒体处理网络中，多媒体处理准确程度较高，且多媒体处理准确程度高于初始多媒体处理网络的一个更新多媒体处理网络。

上述实施例中，将预设测试多媒体样本输入每个训练后的大型语言模型（即更新多媒体处理网络）进行多媒体处理，根据每个训练后的大型语言模型的测试多媒体处理结果，确定每个训练后的大型语言模型对应的多媒体处理评价指标，进而从至少两个初始关键多媒体样本集中确定目标关键多媒体样本集，能够通过独立的测试多媒体样本对每个训练后的大型语言模型进行测试，从而得到多媒体处理准确程度较高的训练后的大型语言模型对应的用于训练该网络的关键多媒体样本集，提升关键多媒体样本集确定的准确性和合理性，进而保证后续多媒体处理应用过程中，多媒体处理结果的准确性。

在实际应用中，对于前期的聚类处理，聚类多媒体样本集的目标聚类数量（即上述预设数量）可以根据以下过程确定，具体的，可以预先设置多个不同的聚类数量，并基于多个预设聚类数量分别对初始多媒体样本集中的多媒体样本进行多次聚类处理，得到初始多媒体样本集对应的多组聚类多媒体样本集，进而对每组聚类多媒体样本集中的每个聚类多媒体样本集进行采样，并基于采样结果生成的初始关键多媒体样本集训练预训练的大型语言模型，进而根据预设测试多媒体样本对训练后的大型语言模型进行测试，从多组聚类多媒体样本集中，选取测试多媒体处理结果最好的初始关键多媒体样本集所对应的其中一组聚类多媒体样本集，该组聚类多媒体样本集的聚类簇数量即为聚类处理的目标聚类数量。

S211：将目标关键多媒体样本集对应的更新多媒体处理网络作为目标多媒体处理网络。

在一个具体的实施例中，如图7所示，图7是本申请实施例提供的一种生成多媒体处理网络的示意图。具体的，首先对初始多媒体样本集中的多媒体样本进行聚类处理，得到多个聚类多媒体样本集，并将与每个聚类多媒体样本集的中心多媒体样本的相似度信息最大的多媒体样本作为每个聚类多媒体样本集的关键多媒体样本，之后基于每个聚类多媒体样本集的关键多媒体样本对每个聚类多媒体样本集进行至少两次采样；在每次采样的过程中，将每个聚类多媒体样本集对应的关键多媒体样本作为当前关键多媒体样本，计算每个聚类多媒体样本集中的非当前关键多媒体样本与每个聚类多媒体样本集对应的当前关键多媒体样本间的距离信息，取最大距离最小的非关键多媒体样本作为每个聚类多媒体样本集对应的采样多媒体样本，并将每个聚类多媒体样本集对应的采样多媒体样本和当前关键多媒体样本，作为每个聚类多媒体样本集对应的更新关键多媒体样本集。

之后将每个聚类多媒体样本集对应的更新关键多媒体样本集中的多媒体样本重新作为当前关键多媒体样本，重复上述计算每个聚类多媒体样本集中的非当前关键多媒体样本与当前关键多媒体样本间的距离信息，至得到每个聚类多媒体样本集对应的更新关键多媒体样本集的步骤，直至更新关键多媒体样本集的样本数量达到采样样本数量，得到每次采样生成的每个聚类多媒体样本集对应的关键多媒体样本集，其中，每个聚类多媒体样本集对应的采样数量可以基于每次采样期望得到的初始关键多媒体样本集的样本数量及每个聚类多媒体样本集的样本数量在初始多媒体样本集的样本数量中的占比信息确定；接着将每次采样生成的每个聚类多媒体样本集对应的关键多媒体样本集进行合并，得到每次采样对应的初始关键多媒体样本集，即可得到至少两个初始关键多媒体样本集；之后将每个初始关键多媒体样本集中的每个多媒体样本输入用于结合多媒体样本进行多媒体处理的预训练的大型语言模型（即预设多媒体处理网络）进行多媒体处理，得到每个初始关键多媒体样本集中的每个多媒体样本对应的预测多媒体样本处理结果，基于每个初始关键多媒体样本集中的每个多媒体样本对应的预设多媒体处理结果和预测多媒体样本处理结果确定损失信息，并基于该损失信息对上述预训练的大型语言模型的参数进行调整，得到每个训练后的大型语言模型（即更新多媒体处理网络）。

进而将预设测试多媒体样本输入每个训练后的大型语言模型进行多媒体处理，得到所述每个训练后的大型语言模型的测试多媒体处理结果，从而确定所述每个训练后的大型语言模型对应的多媒体处理评价指标，并基于多媒体处理评价指标，从至少两个初始关键多媒体样本集中确定其中一个初始关键多媒体样本集作为目标关键多媒体样本集，该目标关键多媒体样本集用于训练得到目标多媒体处理网络，该目标多媒体处理网络为上述至少两个初始关键多媒体样本集训练得到的至少两个更新多媒体处理网络中，多媒体处理准确程度较高，且多媒体处理准确程度高于初始多媒体处理网络的一个更新多媒体处理网络，并将目标关键多媒体样本集对应的训练后的大型语言模型作为目标大型语言模型（即目标多媒体处理网络），其中初始大型语言模型可以基于初始多媒体样本集对上述预训练的大型语言模型进行训练得到。

由以上本说明书实施例提供的技术方案可见，本说明书中获取初始多媒体样本集，对初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集，基于每个聚类多媒体样本集中的其它多媒体样本与每个聚类多媒体样本集中的中心多媒体样本的相似度信息，从其它多媒体样本中确定每个聚类多媒体样本集对应的关键多媒体样本，进而基于每个聚类多媒体样本集对应的关键多媒体样本，对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成初始多媒体样本集对应的至少两个初始关键多媒体样本集，并基于每个初始关键多媒体样本集对用于结合多媒体样本进行多媒体处理的预训练的大型语言模型进行训练，得到每个初始关键多媒体样本集对应的训练后的大型语言模型；根据训练后的大型语言模型对应的多媒体处理评价指标，从至少两个初始关键多媒体样本集中确定目标关键多媒体样本集，能够从初始多媒体样本集中筛选最具价值的少量关键多媒体样本，使得筛选出的关键多媒体样本集更具有代表性和合理性，尽可能缩减用于微调大型语言模型的训练多媒体样本规模，基于该关键多媒体样本集微调的大模型针对目标多媒体处理任务的处理效果能够达到或超过使用初始多媒体样本集微调的大模型的处理效果，其中多媒体处理评价指标可以用于表征训练后的大型语言模型的多媒体处理的准确程度；将目标关键多媒体样本集对应的训练后的大型语言模型作为目标大型语言模型，可以提升用于多媒体处理的大型语言模型的微调效率，提升大型语言模型的生成效率，大大降低计算成本，同时提升用于多媒体处理的大型语言模型的泛化能力，也可以在后续多媒体处理应用过程中，保证多媒体处理结果的准确性。

以下介绍基于本申请上述多媒体处理网络生成方法生成的多媒体处理网络的多媒体处理方法，图8是本申请实施例提供的一种多媒体处理方法的流程示意图，如图8所示，该方法可以包括：

S801：获取待处理多媒体数据。

在一个具体实施例中，待处理多媒体数据可以包括文本数据、视频数据、图像数据及语音数据等媒体数据。

S803：将待处理多媒体数据输入目标多媒体处理网络进行多媒体处理，得到目标处理结果。

在一个具体实施例中，该目标多媒体处理网络可以基于初始多媒体样本集对应的至少两个初始关键多媒体样本集对预设多媒体处理网络进行训练，该预设多媒体处理网络可以为用于结合多媒体样本进行多媒体处理的预训练的大型语言模型，进而根据训练后的多媒体处理网络的多媒体处理评价指标，从至少两个初始关键多媒体样本集对应的训练后的多媒体处理网络中确定，其中，至少两个初始关键多媒体样本集可以基于初始多媒体样本集的每个聚类多媒体样本集对应的关键多媒体样本，对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成，聚类多媒体样本集可以对初始多媒体样本集进行聚类处理得到。

在一个具体实施例中，待处理多媒体数据的目标处理结果与待处理多媒体数据对应的至少一个多媒体处理任务有关，例如，在多媒体处理任务为多媒体类别识别任务的情况下，目标处理结果可以为多媒体样本所属的多媒体类别信息，在多媒体处理任务为多媒体生成任务的情况下，目标处理结果可以为多媒体样本所对应的期望生成的多媒体数据。

由以上本说明书实施例提供的技术方案可见，本说明书中待处理多媒体数据对应的目标处理结果是通过将待处理多媒体数据输入目标多媒体处理网络进行多媒体处理得到的；该目标多媒体处理网络是基于初始多媒体样本集对应的至少两个初始关键多媒体样本集对用于结合多媒体样本进行多媒体处理的预训练的大型语言模型进行训练，并根据训练后的大型语言模型的多媒体处理评价指标，从至少两个初始关键多媒体样本集中确定的一个初始关键多媒体样本集（即目标关键多媒体样本集）所对应的训练后的大型语言模型，且至少两个初始关键多媒体样本集是基于初始多媒体样本集的聚类多媒体样本集对应的关键多媒体样本，对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成的，聚类多媒体样本集是对初始多媒体样本集进行聚类处理得到的，可以从具有大量多媒体样本的初始多媒体样本集中筛选出既能够保证多媒体样本多样性，且样本数量远小于初始多媒体样本集的样本数量的关键多媒体样本集，使得筛选出的关键多媒体样本集更具有代表性和合理性，并得到基于该关键多媒体样本集训练生成的大型语言模型，提升用于多媒体处理的大型语言模型的微调效率及大型语言模型的生成效率，大大降低计算成本，同时提升用于多媒体处理的大型语言模型的泛化能力，也可以在后续基于该大型语言模型进行多媒体处理的应用过程中，保证多媒体处理结果的准确性。

本申请实施例还提供了一种多媒体处理网络生成装置，如图9所示，上述装置可以包括：

第一获取模块910，用于获取初始多媒体样本集；

聚类模块920，用于对所述初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集；

采样模块930，用于对每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成所述初始多媒体样本集对应的至少两个初始关键多媒体样本集；每个初始关键多媒体样本集的样本数量不同；

训练模块940，用于基于所述每个初始关键多媒体样本集对预设多媒体处理网络进行训练，得到所述每个初始关键多媒体样本集对应的更新多媒体处理网络；

目标关键多媒体样本集确定模块950，用于根据所述更新多媒体处理网络对应的多媒体处理评价指标，从所述至少两个初始关键多媒体样本集中确定目标关键多媒体样本集，所述多媒体处理评价指标用于表征所述更新多媒体处理网络的多媒体处理的准确程度；

目标多媒体处理网络确定模块960，用于将所述目标关键多媒体样本集对应的更新多媒体处理网络作为目标多媒体处理网络。

在一个可选的实施例中，所述每个聚类多媒体样本集包括一个中心多媒体样本，所述采样模块930可以包括：

关键多媒体样本确定单元，用于基于所述每个聚类多媒体样本集中的其它多媒体样本与所述每个聚类多媒体样本集中的中心多媒体样本的相似度信息，从所述其它多媒体样本中确定所述每个聚类多媒体样本集对应的关键多媒体样本；所述其它多媒体样本为所述每个聚类多媒体样本集中除所述中心多媒体样本外的多媒体样本；

第一采样单元，用于基于所述每个聚类多媒体样本集对应的关键多媒体样本，对所述每个聚类多媒体样本集进行至少两次采样，基于至少两次采样得到的采样结果生成所述初始多媒体样本集对应的至少两个初始关键多媒体样本集。

在一个可选的实施例中，所述第一采样单元可以包括：

第二采样单元，用于基于所述每个聚类多媒体样本集对应的关键多媒体样本，对所述每个聚类多媒体样本集进行至少两次采样，得到每次采样生成的所述每个聚类多媒体样本集对应的关键多媒体样本集；

融合单元，用于对所述每次采样生成的所述每个聚类多媒体样本集对应的关键多媒体样本集进行融合，得到每次采样对应的初始关键多媒体样本集；

初始关键多媒体样本集生成单元，用于根据所述每次采样对应的初始关键多媒体样本集，生成所述至少两个初始关键多媒体样本集。

在一个可选的实施例中，所述第二采样单元可以包括：

采样样本数量确定单元，用于基于所述每次采样对应的初始关键多媒体样本集的样本数量及所述每个聚类多媒体样本集的样本数量在所述初始多媒体样本集的样本数量中的占比信息，确定所述每个聚类多媒体样本集对应的采样样本数量；

当前关键多媒体样本确定单元，用于将所述每个聚类多媒体样本集对应的关键多媒体样本作为所述每个聚类多媒体样本集对应的当前关键多媒体样本；

采样多媒体样本确定单元，用于基于所述每个聚类多媒体样本集中的非当前关键多媒体样本与所述每个聚类多媒体样本集对应的当前关键多媒体样本间的距离信息，从所述非当前关键多媒体样本中确定所述每个聚类多媒体样本集对应的采样多媒体样本；

更新关键多媒体样本集生成单元，用于根据所述每个聚类多媒体样本集对应的采样多媒体样本和所述每个聚类多媒体样本集对应的当前关键多媒体样本，生成所述每个聚类多媒体样本集对应的更新关键多媒体样本集；

重复单元，用于将所述每个聚类多媒体样本集对应的更新关键多媒体样本集中的多媒体样本重新作为所述每个聚类多媒体样本集对应的当前关键多媒体样本，重复所述基于所述每个聚类多媒体样本集中的非当前关键多媒体样本与所述每个聚类多媒体样本集对应的当前关键多媒体样本间的距离信息，至所述生成所述每个聚类多媒体样本集对应的更新关键多媒体样本集的步骤，直至所述更新关键多媒体样本集的样本数量达到所述采样样本数量，得到所述每次采样生成的所述每个聚类多媒体样本集对应的关键多媒体样本集。

在一个可选的实施例中，所述目标关键多媒体样本集确定模块950可以包括：

测试多媒体处理结果确定单元，用于将预设测试多媒体样本输入所述更新多媒体处理网络进行多媒体处理，得到所述更新多媒体处理网络的测试多媒体处理结果；

多媒体处理评价指标确定单元，用于根据所述更新多媒体处理网络的测试多媒体处理结果，确定所述更新多媒体处理网络对应的多媒体处理评价指标；

目标关键多媒体样本集确定单元，用于根据所述更新多媒体处理网络对应的多媒体处理评价指标，从所述至少两个初始关键多媒体样本集中确定所述目标关键多媒体样本集。

在一个可选的实施例中，所述装置还可以包括：

特征提取模块，用于对所述初始多媒体样本集中的多媒体样本进行特征提取，得到所述初始多媒体样本集中的多媒体样本的特征向量；

相应的，所述聚类模块920可以包括：

聚类单元，用于基于所述初始多媒体样本集中的多媒体样本的特征向量，对所述初始多媒体样本集中的多媒体样本进行聚类处理，得到所述预设数量个聚类多媒体样本集。

在一个可选的实施例中，所述训练模块940可以包括：

获取单元，用于获取所述每个初始关键多媒体样本集中的每个多媒体样本对应的预设多媒体处理结果；

预测多媒体样本处理结果确定单元，用于将所述每个初始关键多媒体样本集中的每个多媒体样本输入所述预设多媒体处理网络进行多媒体处理，得到所述每个初始关键多媒体样本集中的每个多媒体样本对应的预测多媒体样本处理结果；

训练单元，用于基于所述预设多媒体处理结果和所述预测多媒体样本处理结果对所述预设多媒体处理网络进行训练，得到所述更新多媒体处理网络。

在一个可选的实施例中，所述训练单元可以包括：

损失信息确定单元，用于根据所述预设多媒体处理结果和所述预测多媒体样本处理结果，确定损失信息；

参数调整单元，用于基于所述损失信息，对所述预设多媒体处理网络的参数进行调整，得到所述更新多媒体处理网络。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供了一种多媒体处理装置，如图10所示，上述装置可以包括：

第二获取模块1010，用于获取待处理多媒体数据；

多媒体处理模块1020，用于将所述待处理多媒体数据输入目标多媒体处理网络进行多媒体处理，得到目标处理结果，所述目标多媒体处理网络为采用本申请实施例提供的多媒体处理网络生成方法生成的。

图11是本申请实施例提供的一种用于多媒体处理网络生成或多媒体处理的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体处理网络生成方法或多媒体处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图12是本申请实施例提供的另一种用于多媒体处理网络生成或多媒体处理的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图12所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体处理网络生成方法或多媒体处理方法。

本领域技术人员可以理解，图11或图12中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的多媒体处理网络生成方法或多媒体处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的多媒体处理网络生成方法或多媒体处理方法。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的多媒体处理网络生成方法或多媒体处理方法。

可以理解的是，在本申请的具体实施方式中，涉及到用户相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体处理网络生成方法，其特征在于，所述方法包括：

获取初始多媒体样本集；

对所述初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集；每个聚类多媒体样本集包括一个中心多媒体样本；

基于每次采样对应的初始关键多媒体样本集的样本数量及所述每个聚类多媒体样本集的样本数量在所述初始多媒体样本集的样本数量中的占比信息，确定所述每个聚类多媒体样本集对应的采样样本数量；

基于所述每个聚类多媒体样本集中的非关键多媒体样本与对应的关键多媒体样本间的距离信息，从所述非关键多媒体样本中确定所述每个聚类多媒体样本集对应的采样多媒体样本；所述对应的关键多媒体样本从除所述中心多媒体样本外的多媒体样本中确定；

根据所述对应的采样多媒体样本和所述对应的关键多媒体样本，生成所述每个聚类多媒体样本集对应的更新关键多媒体样本集；

将所述对应的更新关键多媒体样本集中的多媒体样本重新作为所述对应的关键多媒体样本，重复所述基于所述每个聚类多媒体样本集中的非关键多媒体样本与所述对应的关键多媒体样本间的距离信息，至所述生成所述对应的更新关键多媒体样本集的步骤，直至所述对应的更新关键多媒体样本集的样本数量达到所述采样样本数量，得到每次采样生成的所述每个聚类多媒体样本集对应的关键多媒体样本集；

对所述每次采样生成的所述对应的关键多媒体样本集进行融合，得到所述每次采样对应的初始关键多媒体样本集；

根据所述每次采样对应的初始关键多媒体样本集，生成至少两个初始关键多媒体样本集；每个初始关键多媒体样本集的样本数量不同；

2.根据权利要求1所述的方法，其特征在于，所述对应的关键多媒体样本通过以下步骤确定：

基于所述每个聚类多媒体样本集中的其它多媒体样本与所述每个聚类多媒体样本集中的中心多媒体样本的相似度信息，从所述其它多媒体样本中确定所述对应的关键多媒体样本；所述其它多媒体样本为所述每个聚类多媒体样本集中除所述中心多媒体样本外的多媒体样本。

3.根据权利要求1所述的方法，其特征在于，所述根据所述更新多媒体处理网络对应的多媒体处理评价指标，从所述至少两个初始关键多媒体样本集中确定目标关键多媒体样本集包括：

将预设测试多媒体样本输入所述更新多媒体处理网络进行多媒体处理，得到所述更新多媒体处理网络的测试多媒体处理结果；

根据所述更新多媒体处理网络的测试多媒体处理结果，确定所述更新多媒体处理网络对应的多媒体处理评价指标；

根据所述更新多媒体处理网络对应的多媒体处理评价指标，从所述至少两个初始关键多媒体样本集中确定所述目标关键多媒体样本集。

4.根据权利要求1所述的方法，其特征在于，在所述对所述初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集之前，所述方法还包括：

对所述初始多媒体样本集中的多媒体样本进行特征提取，得到所述初始多媒体样本集中的多媒体样本的特征向量；

所述对所述初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集包括：

基于所述初始多媒体样本集中的多媒体样本的特征向量，对所述初始多媒体样本集中的多媒体样本进行聚类处理，得到所述预设数量个聚类多媒体样本集。

5.根据权利要求1所述的方法，其特征在于，所述基于所述每个初始关键多媒体样本集对预设多媒体处理网络进行训练，得到所述每个初始关键多媒体样本集对应的更新多媒体处理网络包括：

获取所述每个初始关键多媒体样本集中的每个多媒体样本对应的预设多媒体处理结果；

将所述每个初始关键多媒体样本集中的每个多媒体样本输入所述预设多媒体处理网络进行多媒体处理，得到所述每个初始关键多媒体样本集中的每个多媒体样本对应的预测多媒体样本处理结果；

基于所述预设多媒体处理结果和所述预测多媒体样本处理结果对所述预设多媒体处理网络进行训练，得到所述更新多媒体处理网络。

6.根据权利要求5所述的方法，其特征在于，所述基于所述预设多媒体处理结果和所述预测多媒体样本处理结果对所述预设多媒体处理网络进行训练，得到所述更新多媒体处理网络包括：

根据所述预设多媒体处理结果和所述预测多媒体样本处理结果，确定损失信息；

基于所述损失信息，对所述预设多媒体处理网络的参数进行调整，得到所述更新多媒体处理网络。

7.一种多媒体处理方法，其特征在于，所述方法包括：

获取待处理多媒体数据；

将所述待处理多媒体数据输入目标多媒体处理网络进行多媒体处理，得到目标处理结果，所述目标多媒体处理网络为采用权利要求1至6中的任一项所述的多媒体处理网络生成方法生成的。

8.一种多媒体处理网络生成装置，其特征在于，所述装置包括：

第一获取模块，用于获取初始多媒体样本集；

聚类模块，用于对所述初始多媒体样本集中的多媒体样本进行聚类处理，得到预设数量个聚类多媒体样本集；每个聚类多媒体样本集包括一个中心多媒体样本；

采样模块，用于基于每次采样对应的初始关键多媒体样本集的样本数量及所述每个聚类多媒体样本集的样本数量在所述初始多媒体样本集的样本数量中的占比信息，确定所述每个聚类多媒体样本集对应的采样样本数量；

以及用于基于所述每个聚类多媒体样本集中的非关键多媒体样本与对应的关键多媒体样本间的距离信息，从所述非关键多媒体样本中确定所述每个聚类多媒体样本集对应的采样多媒体样本；所述对应的关键多媒体样本从除所述中心多媒体样本外的多媒体样本中确定；

以及用于根据所述对应的采样多媒体样本和所述对应的关键多媒体样本，生成所述每个聚类多媒体样本集对应的更新关键多媒体样本集；

以及用于将所述对应的更新关键多媒体样本集中的多媒体样本重新作为所述对应的关键多媒体样本，重复所述基于所述每个聚类多媒体样本集中的非关键多媒体样本与所述对应的关键多媒体样本间的距离信息，至所述生成所述对应的更新关键多媒体样本集的步骤，直至所述对应的更新关键多媒体样本集的样本数量达到所述采样样本数量，得到每次采样生成的所述每个聚类多媒体样本集对应的关键多媒体样本集；

以及用于对所述每次采样生成的所述对应的关键多媒体样本集进行融合，得到所述每次采样对应的初始关键多媒体样本集；

以及用于根据所述每次采样对应的初始关键多媒体样本集，生成至少两个初始关键多媒体样本集；每个初始关键多媒体样本集的样本数量不同；

9.根据权利要求8所述的装置，其特征在于，所述采样模块包括：

关键多媒体样本确定单元，用于基于所述每个聚类多媒体样本集中的其它多媒体样本与所述每个聚类多媒体样本集中的中心多媒体样本的相似度信息，从所述其它多媒体样本中确定所述对应的关键多媒体样本；所述其它多媒体样本为所述每个聚类多媒体样本集中除所述中心多媒体样本外的多媒体样本。

10.根据权利要求8所述的装置，其特征在于，所述目标关键多媒体样本集确定模块包括：

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述聚类模块包括：

12.根据权利要求8所述的装置，其特征在于，所述训练模块包括：

13.根据权利要求12所述的装置，其特征在于，所述训练单元包括：

14.一种多媒体处理装置，其特征在于，所述装置包括：

第二获取模块，用于获取待处理多媒体数据；

多媒体处理模块，用于将所述待处理多媒体数据输入目标多媒体处理网络进行多媒体处理，得到目标处理结果，所述目标多媒体处理网络为采用权利要求1至6中的任一项所述的多媒体处理网络生成方法生成的。

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的多媒体处理网络生成方法或如权利要求7所述的多媒体处理方法。

16.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的多媒体处理网络生成方法或如权利要求7所述的多媒体处理方法。