CN110955789B

CN110955789B - 一种多媒体数据处理方法以及设备

Info

Publication number: CN110955789B
Application number: CN201911409428.0A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2024-04-12
Anticipated expiration: 2039-12-31
Also published as: CN110955789A

Abstract

本申请实施例公开一种多媒体数据处理方法以及设备，其中方法包括如下步骤：获取多媒体数据，对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列；根据至少两个多媒体序列生成多媒体数据的初始全局向量；从多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和初始全局向量，预测输入多媒体序列对应的输出多媒体序列；根据输出多媒体序列和标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，全局嵌入式表示用于对多媒体数据进行内容类型分类。采用本申请，可以保证信息的完整性。

Description

一种多媒体数据处理方法以及设备

技术领域

本申请涉及电子技术领域，尤其涉及一种多媒体数据处理方法以及设备。

背景技术

在音乐推荐场景下，音乐的嵌入式表达扮演着重要作用，一方面可以用来压缩乐曲的表征，作为乐曲画像的一部分，另一方面可以用来为下游任务比如乐曲分类、乐曲生成服务。

传统的音频嵌入式表示主要是对整段音频做频域变换，但因为音频序列很长，导致对整段音频做频域变换会耗费大量时间，为了提高频域转换效率，会对整段音频进行分段，然后对分段后的音频进行频域变换，并对频域向量取平均，但是取平均值的方法会导致音频丢掉很多全局信息。

发明内容

本申请实施例提供一种多媒体数据处理方法以及设备，可以保证信息的完整性。

本申请实施例一方面提供了一种多媒体数据处理方法，可包括：

获取多媒体数据，对所述多媒体数据进行采样生成所述多媒体数据对应的至少两个多媒体序列；

根据所述至少两个多媒体序列生成所述多媒体数据的初始全局向量；

从所述多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和所述初始全局向量，预测所述输入多媒体序列对应的输出多媒体序列；

根据所述输出多媒体序列和所述标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为所述多媒体数据对应的全局嵌入式表示，所述全局嵌入式表示用于对多媒体数据进行内容类型分类。

其中，获取多媒体数据，对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列，包括：

获取多媒体数据，按照第一采样频率对多媒体数据进行时间采样，生成至少两个时间多媒体序列；

按照第二采样频率对至少两个时间多媒体序列分别进行频率采样，生成每个时间多媒体序列对应的频率多媒体序列；

将至少两个频率多媒体序列确定为多媒体数据的多媒体序列。

其中，根据至少两个多媒体序列生成多媒体数据的初始全局向量，包括：

获取至少两个多媒体序列中每个多媒体序列的向量元素，根据每个多媒体序列的最大向量元素生成多媒体数据对应的初始全局向量；

初始全局向量与每个多媒体序列的维度相同。

其中，从所述多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和所述初始全局向量，预测所述输入多媒体序列对应的输出多媒体序列，包括：

从多媒体序列中获取目标多媒体序列，从目标多媒体序列中确定输入多媒体序列和标准多媒体序列；目标多媒体序列是时间轴上连续的多媒体序列；

将输入多媒体序列和初始全局向量输入初始多媒体模型，获取初始多媒体模型输出的预测多媒体序列；

根据预测多媒体序列与标准多媒体序列获取初始多媒体模型的损失函数，根据损失函数调整初始全局向量。

其中，从多媒体序列中获取目标多媒体序列，从目标多媒体序列中确定输入多媒体序列和标准多媒体序列，包括：

获取初始多媒体模型的序列窗口，从多媒体序列中获取与序列窗口对应的目标多媒体序列；序列窗口的长度与目标多媒体序列的数量相同；

从目标多媒体序列中获取标准多媒体序列，将目标多媒体序列中除标准多媒体序列之外的多媒体序列作为输入多媒体序列。

其中，根据预测多媒体序列与标准多媒体序列获取初始多媒体模型的损失函数，根据损失函数调整初始全局向量，包括：

根据预测多媒体序列生成初始多媒体模型的信息熵，根据预测多媒体序列与标准多媒体序列生成初始多媒体模型的交叉熵；

将交叉熵与信息熵之间的差值确定为初始多媒体模型的损失函数，根据损失函数调整初始多媒体模型的初始全局向量。

其中，还包括：

将多媒体数据以及多媒体数据的全局嵌入式表示添加至待分类数据集合；添加后的待分类数据集合包括至少两个待分类多媒体数据；

获取添加后的待分类数据集合中的至少两个待分类多媒体数据的全局嵌入式表示，对至少两个全局嵌入式表示进行聚类，生成聚类结果；

根据聚类结果对至少两个待分类多媒体数据进行分类。

本申请实施例一方面提供了一种多媒体数据处理设备，可包括：

多媒体序列生成单元，用于获取多媒体数据，对所述多媒体数据进行采样生成所述多媒体数据对应的至少两个多媒体序列；

全局向量生成单元，用于根据所述至少两个多媒体序列生成所述多媒体数据的初始全局向量；

全局向量调整单元，用于从所述多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和所述初始全局向量，预测所述输入多媒体序列对应的输出多媒体序列；

嵌入式表示确定单元，用于根据所述输出多媒体序列和所述标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为所述多媒体数据对应的全局嵌入式表示，所述全局嵌入式表示用于对多媒体数据进行内容类型分类。

其中，多媒体序列生成单元具体用于：

其中，全局向量生成单元具体用于：

初始全局向量与每个多媒体序列的维度相同。

其中，全局向量调整单元，包括：

目标序列获取子单元，用于从多媒体序列中获取目标多媒体序列，从目标多媒体序列中确定输入多媒体序列和标准多媒体序列；目标多媒体序列是时间轴上连续的多媒体序列；

预测序列获取子单元，用于将输入多媒体序列和初始全局向量输入初始多媒体模型，获取初始多媒体模型输出的预测多媒体序列；

全局向量调整子单元，用于根据预测多媒体序列与标准多媒体序列获取初始多媒体模型的损失函数，根据损失函数调整初始全局向量。

其中，目标序列获取子单元具体用于：

其中，全局向量调整子单元具体用于：

其中，还包括：

数据分类单元，用于将多媒体数据以及多媒体数据的全局嵌入式表示添加至待分类数据集合；添加后的待分类数据集合包括至少两个待分类多媒体数据；获取添加后的待分类数据集合中的至少两个待分类多媒体数据的全局嵌入式表示，对至少两个全局嵌入式表示进行聚类，生成聚类结果；根据聚类结果对至少两个待分类多媒体数据进行分类。

本申请实施例一方面提供了一种计算机可读存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

本申请实施例一方面提供了一种计算机设备，包括处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

在本申请实施例中，通过获取多媒体数据，对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列，根据至少两个多媒体序列生成多媒体数据的初始全局向量，从多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和初始全局向量，预测输入多媒体序列对应的输出多媒体序列，根据输出多媒体序列和标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示。通过将多媒体数据对应的初始全局向量加入模型的训练中，不会丢失多媒体数据的全局信息，避免了并对频域向量取平均导致音频损失全局信息的问题，保证了信息的完整性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种多媒体数据处理的系统架构图；

图1b是本申请实施例提供的一种多媒体数据处理方法的举例示意图；

图2是本申请实施例提供的一种多媒体数据处理方法的流程示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4a是本申请实施例提供的一种频谱图的举例示意图；

图4b是本申请实施例提供的一种歌曲分类的举例示意图；

图5是本申请实施例提供的一种多媒体数据处理设备的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1a，是本发明实施例提供的一种多媒体数据处理的系统架构图。服务器10f通过通信总线10d与用户终端集群建立连接，用户终端集群可包括：用户终端10a、用户终端10b、...、用户终端10c。服务器10f获取用户终端中的多媒体数据，对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列，根据至少两个多媒体序列生成多媒体数据的初始全局向量，服务器10f中存储有初始多媒体模型，服务器10f从多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和初始全局向量，预测输入多媒体序列对应的输出多媒体序列，根据输出多媒体序列和标准多媒体序列，调整初始全局向量，初始全局向量的调整可以通过网络模型的训练来调整；当初始多媒体模型满足模型收敛条件时，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，当初始多媒体模型不满足模型收敛条件时，则将继续对初始多媒体模型进行训练，并再次调整初始全局向量，直到初始多媒体模型满足模型收敛条件，模型收敛条件是预先设置的，模型收敛条件可以是初始全局向量的调整次数满足预设的次数阈值，或者损失函数满足预设的函数阈值。服务器10f可以将多媒体数据以及多媒体数据的全局嵌入式表示添加至待分类数据集合，并对待分类数据集合中的全局嵌入式表示进行采用有监督的聚类或者是无监督的聚类方式，生成聚类结果，根据聚类结果对至少两个待分类多媒体数据进行分类。

本申请实施例涉及的多媒体数据处理设备可以包括具有多媒体数据处理和存储的服务器，用户终端包括：平板电脑、智能手机、个人电脑(PC)、笔记本电脑、掌上电脑等终端设备。

请参见图1b，为本申请实施例提供了一种多媒体数据处理的举例示意图。如图1b所示，在具体的实施场景中，采用一首乐曲进行说明，对乐曲进行时间采样和频率采样，生成乐曲的至少两个多媒体序列，多媒体序列为G1、G2、...、Gn，这n组序列，每组序列都对应了一个m维频率向量。然后对多媒体序列进行初始化生成初始全局向量，具体的，将G1-Gn这n个m维向量通过池化处理得到全局的音频表示G，G是初始多媒体模型训练开始时的初始全局向量，初始多媒体模型为神经网络，具体可以是用来产生词向量的模型word2vec或者是doc2vec；在音乐序列里面，G1-Gn这n个序列，是有上下文关联的。可以用一个序列周围的序列来预测这个序列本身，具体的，设置一个滑动窗口C，C的大小可以根据实验结果自行调节，比如C的大小设为3，那么其中一个训练样本可以是X＝{G2、G3}，Y＝{G1}，即用G2、G3两个序列去预测G1，同样也可以采用其他样本，比如X＝{G1、G2}，Y＝{G3}；X＝{G3、G5}，Y＝{G4}等等，X，Y在同一个窗口。

将X和初始全局向量G作为初始多媒体模型的输入。对于每个乐曲而言，它都有一个G用来做全局表示，即每次训练时，输入是X和G，输出是Y，每个乐曲的X不同但G是一样的。不同乐曲的G不一样；每次窗口在乐曲内部滑动时，尽管X，Y在不停变化，但G是不变的，也就是G参与到了乐曲全局的训练中，所以G能表征整首乐曲的全局信息；根据初始多媒体模型的输出生成初始多媒体模型的信息熵，根据初始多媒体模型的输出与训练样本中的输出Y生成初始多媒体模型的交叉熵；将交叉熵与信息熵之间的差值确定为初始多媒体模型的损失函数，根据损失函数调整初始多媒体模型的初始全局向量。当初始多媒体模型满足模型收敛条件时，将调整后的初始全局向量确定为乐曲对应的全局嵌入式表示。

请参见图2，为本申请实施例提供了一种多媒体数据处理方法的流程示意图。如图2所示，本申请实施例的方法可以包括以下步骤S101-步骤S104。

S101，获取多媒体数据，对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列；

具体的，多媒体数据处理设备获取多媒体数据，对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列，可以理解的是，多媒体数据为是语言文字、图片、音频、视频等各种信息进行存储的数据，具体可以是音频数据或者视频数据，对多媒体数据进行采样生成至少两个多媒体序列，采样的过程就是把连续信号转换成离散信号的过程，对多媒体数据进行采样可以是时间采样，也可以是频率采样，也可以是多种采样进行组合，例如，多媒体数据为歌曲，对歌曲进行时间维度的采样，每隔0.1s采样一个音频信号，可以得到离散的时间序列T1-Tn，每个值代表音频在该采样点上的大小，按固定时间段进行分割，比如时间段长度为3s时间序列为一组片段，则每组序列包含了3s/0.1s＝30个值，即T1-T30为第一组G1，T31-T60为第二组G2；可以继续对每组时间序列做频域变换得到频率信号，频域变换方法包括但不限于快速傅里叶变换(Fast Fourier Transform，FFT)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、离散傅里叶变换(Discrete FourierTransform，DFT)等等，频率信号代表一组时间序列里面包含的不同频率的分布，对上述频率信号进行频率采样，比如10hz，就得到一个离散的频率序列，假设频率的上下限是0-f，那么每个频率序列的个数是f/10，每个Gi都可以表示成f/10个频率序列，不同Gi的同样频率的值大小不同，在不同的歌曲上，歌曲的某些部分低音很重，则这些Gi的低频值就很大，有些部分高音很高，则这些Gi的高频值很大。

S102，根据至少两个多媒体序列生成多媒体数据的初始全局向量；

具体的，多媒体数据处理设备根据至少两个多媒体序列生成多媒体数据的初始全局向量，可以理解的是，初始全局向量是根据多媒体数据的所有多媒体序列生成的，初始全局向量可以表征多媒体数据的全局特征，具体的，初始全局向量可以通过池化处理获取初始全局向量，池化处理包括平均池化、最大池化等，平均池化是获取平均值作为池化后的值，最大池化是获取最大值作为池化后的值。

S103，从多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和初始全局向量，预测输入多媒体序列对应的输出多媒体序列；

具体的，多媒体数据处理设备从多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和初始全局向量，预测输入多媒体序列对应的输出多媒体序列，可以理解的是，从多媒体序列中获取目标多媒体序列，目标多媒体序列为多媒体序列中的序列，从目标多媒体序列中确定输入多媒体序列和标准多媒体序列，目标多媒体序列包括输入多媒体序列和标准多媒体序列，将输入多媒体序列和初始全局向量输入初始多媒体模型，获取初始多媒体模型输出的预测多媒体序列，根据预测多媒体序列与标准多媒体序列获取初始多媒体模型的损失函数，根据损失函数调整初始全局向量。

S104，根据输出多媒体序列和标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，全局嵌入式表示用于对多媒体数据进行内容类型分类。

具体的，多媒体数据处理设备根据输出多媒体序列和标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，可以理解的是，初始全局向量的调整可以通过网络模型的训练来调整，具体可以是神经网络模型，当网络模型满足收敛条件时，确定初始全局向量调整完成，模型收敛条件是预先设置的，模型收敛条件可以是初始全局向量的调整次数满足预设的次数阈值，或者损失函数满足预设的函数阈值，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，当初始多媒体模型不满足模型收敛条件时，则将继续对初始多媒体模型进行训练，并再次调整初始全局向量，直到初始多媒体模型满足模型收敛条件，例如，当初始全局向量的调整次数等于次数阈值或者损失函数小于函数阈值时，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，当初始全局向量的调整次数小于次数阈值并且损失函数不小于函数阈值时，继续对初始多媒体模型进行训练，并再次调整初始全局向量，直到初始多媒体模型满足模型收敛条件；全局嵌入式表示是多媒体数据的一种属性标签，可以根据全局嵌入式表示对多媒体数据进行分类或者提供多媒体的生成服务。

请参见图3，为本申请实施例提供了一种多媒体数据处理方法的流程示意图。如图3所示，本申请实施例的方法可以包括以下步骤S201-步骤S207。

S201，获取多媒体数据，按照第一采样频率对多媒体数据进行时间采样，生成至少两个时间多媒体序列；按照第二采样频率对至少两个时间多媒体序列分别进行频率采样，生成每个时间多媒体序列对应的频率多媒体序列；将至少两个频率多媒体序列确定为多媒体数据的多媒体序列。

具体的，多媒体数据为是语言文字、图片、音频、视频等各种信息进行存储的数据，具体可以是音频数据或者视频数据，获取多媒体数据，按照第一采样频率对多媒体数据进行时间采样，生成至少两个时间多媒体序列，第一采样频率是进行时间采样的采样频率，例如可以每隔0.1s采样一个多媒体数据，生成至少两个时间多媒体序列，按照第二采样频率对至少两个时间多媒体序列分别进行频率采样，生成每个时间多媒体序列对应的频率多媒体序列，第二采样频率是进行频率采样的采样频率，例如可以对上述时间多媒体序列按照10hz进行频率采样，生成频率多媒体序列，将进行两次采样后生成的至少两个频率多媒体序列确定为多媒体数据的多媒体序列，具体的，以一首歌曲进行说明，则多媒体数据为歌曲，对歌曲进行时间维度的采样，每隔0.1s采样一个音频信号，可以得到离散的时间序列T1-Tn，每个值代表音频在该采样点上的大小，按时间段长度为3s固定时间段对歌曲进行分割，生成多组序列，则每组序列包含了3s/0.1s＝30个值，即T1-T30为第一组G1，T31-T60为第二组G2；继续对每组时间序列做频域变换得到频率信号，频域变换方法包括但不限于FFT、MFCC、DFT等等，频率信号代表一组时间序列里面包含的不同频率的分布，对上述频率信号按照10hz进行频率采样，得到一个离散的频率序列，假设频率的上下限是0-f，那么每个频率序列的个数是f/10，每个Gi都可以表示成f/10个频率序列，不同Gi的同样频率的值大小不同，在不同的歌曲上，歌曲的某些部分低音很重，则这些Gi的低频值就很大，有些部分高音很高，则这些Gi的高频值很大，例如，经过采样后有n个Gi，每个Gi有m个频率，可以得到一个m*n的矩阵，称之为歌曲对应的频谱图。请参见图4a，为本申请实施例提供了一种频谱图的举例示意图。如图4a所示，是一个音频分解之后的频谱图，横轴是时间/time，时间段大概是1.75s左右，即每隔1.75s分割一个时间片段，纵轴是每个时间片段对应的频率/freq，频率上下限为110hz-3520hz，颜色深浅代表不同频率对应的值的大小。

S202，获取至少两个多媒体序列中每个多媒体序列的向量元素，根据每个多媒体序列的最大向量元素生成多媒体数据对应的初始全局向量；初始全局向量与每个多媒体序列的维度相同。

具体的，每个多媒体序列可以理解为一个向量，获取至少两个多媒体序列中每个多媒体序列的向量元素，向量元素为每个多媒体序列中的数值，根据每个多媒体序列的最大向量元素生成多媒体数据对应的初始全局向量，具体的，将每个多媒体序列的第一个向量元素的最大向量元素确定为初始全局向量的第一个向量元素，采用上述方法确定初始全局向量的每个向量元素，初始全局向量与每个多媒体序列的维度相同。

S203，从多媒体序列中获取目标多媒体序列，从目标多媒体序列中确定输入多媒体序列和标准多媒体序列；目标多媒体序列是时间轴上连续的多媒体序列；

具体的，多媒体数据处理设备从多媒体序列中获取目标多媒体序列，从目标多媒体序列中确定输入多媒体序列和标准多媒体序列，可以理解的是，多媒体数据处理设备获取初始多媒体模型的序列窗口，初始多媒体模型为神经网络，具体可以是用来产生词向量的模型word2vec或者是doc2vec，从多媒体序列中获取与序列窗口对应的目标多媒体序列，目标多媒体序列为多媒体序列中的序列，目标多媒体序列是时间轴上连续的多媒体序列，序列窗口为一个长度标准，用于确定获取多媒体序列的数量，序列窗口的长度与目标多媒体序列的数量相同，例如，若序列窗口为3，则从多媒体序列中获取的目标多媒体序列为G1、G2、G3，或者是G3、G4、G5；从目标多媒体序列中获取标准多媒体序列，标准多媒体序列为目标多媒体序列中需要通过初始多媒体模型进行预测的多媒体序列，具体的，可以从目标多媒体序列中随机选择一个多媒体序列作为标准多媒体序列，将目标多媒体序列中除标准多媒体序列之外的多媒体序列作为输入初始多媒体序列，输入多媒体序列作为初始多媒体模型的输入。

S204，将输入多媒体序列和初始全局向量输入初始多媒体模型，获取初始多媒体模型输出的预测多媒体序列；

具体的，多媒体数据处理设备将输入多媒体序列和初始全局向量输入初始多媒体模型，获取初始多媒体模型输出的预测多媒体序列，可以理解的是，将输入多媒体序列和初始全局向量作为初始多媒体模型的输入，通过初始多媒体模型输出结果，输出结果为预测多媒体序列。

S205，根据预测多媒体序列与标准多媒体序列获取初始多媒体模型的损失函数，根据损失函数调整初始全局向量。

具体的，多媒体数据处理设备根据预测多媒体序列与标准多媒体序列获取初始多媒体模型的损失函数，根据损失函数调整初始全局向量，可以理解的是，根据预测多媒体序列，采用公式(1)生成初始多媒体模型的信息熵，公式(1)如下所示：

其中，M为初始多媒体模型的信息熵，P(x)为预测多媒体序列；

根据预测多媒体序列与标准多媒体序列，采用公式(2)生成初始多媒体模型的交叉熵，公式(2)如下所示：

其中，N为初始多媒体模型的交叉熵，P(x)为预测多媒体序列，Q(x)为标准多媒体序列；

将交叉熵与信息熵之间的差值，采用公式(3)确定为初始多媒体模型的损失函数，损失函数用于衡量初始多媒体模型是否收敛，公式(3)如下所示：

其中，K为初始多媒体模型的损失函数，P(x)为预测多媒体序列，Q(x)为标准多媒体序列；

根据损失函数调整初始多媒体模型的初始全局向量。

S206，当初始多媒体模型满足模型收敛条件时，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示。

具体的，当初始多媒体模型满足模型收敛条件时，多媒体数据处理设备将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，可以理解的是，模型收敛条件是预先设置的，模型收敛条件可以是初始全局向量的调整次数满足预设的次数阈值，或者损失函数满足预设的函数阈值，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，当初始多媒体模型不满足模型收敛条件时，则将继续对初始多媒体模型进行训练，并再次调整初始全局向量，直到初始多媒体模型满足模型收敛条件，例如，当初始全局向量的调整次数等于次数阈值或者损失函数小于函数阈值时，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，当初始全局向量的调整次数小于次数阈值并且损失函数不小于函数阈值时，继续对初始多媒体模型进行训练，并再次调整初始全局向量，直到初始多媒体模型满足模型收敛条件；全局嵌入式表示是多媒体数据的一种属性标签，可以根据全局嵌入式表示对多媒体数据进行分类或者提供多媒体的生成服务。

S207，将多媒体数据以及多媒体数据的全局嵌入式表示添加至待分类数据集合；添加后的待分类数据集合包括至少两个待分类多媒体数据；获取添加后的待分类数据集合中的至少两个待分类多媒体数据的全局嵌入式表示，对至少两个全局嵌入式表示进行聚类，生成聚类结果；根据聚类结果对至少两个待分类多媒体数据进行分类。

具体的，将多媒体数据以及多媒体数据的全局嵌入式表示添加至待分类数据集合，添加后的待分类数据集合包括至少两个待分类多媒体数据，待分类数据集合中存储多媒体数据和多媒体数据对应的全局嵌入式表示；获取添加后的待分类数据集合中的至少两个待分类多媒体数据的全局嵌入式表示，对至少两个全局嵌入式表示进行聚类，生成聚类结果，聚类可以是有监督的聚类或者是无监督的聚类，根据聚类结果对至少两个待分类多媒体数据进行分类，可以将待分类多媒体数据分类至已有类别或者生成新的类别，同时，还可以根据全局嵌入式表示之间的向量距离确定全局嵌入式表示对应的多媒体数据是否属于相同类别。请参见图4b，为本申请实施例提供了一种歌曲分类的举例示意图。如图4b所示，待分类数据集合中包括至少两首未分类的歌曲和每首歌曲对应的嵌入式表示，例如，歌曲1的嵌入式表示1、歌曲2的嵌入式表示2、...歌曲n的嵌入式表示n，对至少两个嵌入式表示进行聚类，生成歌曲的分类结果，分类结果为嵌入式表示对应的歌曲的分类，分类结果可以包括分类1、分类2、...分类q，其中每个分类中包括至少一首歌曲，例如，分类1中可以包括歌曲1、...歌曲m等，每个分类中的歌曲都是相似的歌曲。歌曲的嵌入式表示还可以应用于歌曲推荐，例如，用户在音乐播放器上播放歌曲，音乐播放器后台可以根据播放的歌曲给用户智能推荐相似的歌曲，例如，播放器获取用户播放的歌曲的嵌入式表示，从歌曲库中选择目标歌曲，计算播放歌曲的嵌入式表示和目标歌曲的嵌入式表示之间的向量距离，当向量距离满足阈值时，则确定目标歌曲与播放的歌曲相似，将目标歌曲推荐给用户。

在本申请实施例中，通过获取多媒体数据，对多媒体数据进行时间采样和频率采样生成多媒体数据对应的至少两个多媒体序列，根据至少两个多媒体序列生成多媒体数据的初始全局向量，从多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和初始全局向量，预测输入多媒体序列对应的输出多媒体序列，根据输出多媒体序列和标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，全局嵌入式表示可以用于对多媒体数据进行分类。通过将多媒体数据对应的初始全局向量加入模型的训练中，不会丢失多媒体数据的全局信息，避免了并对频域向量取平均导致音频损失全局信息的问题，保证了信息的完整性。

请参见图5，为本申请实施例提供了一种多媒体数据处理设备的结构示意图。如图5所示，本申请实施例的多媒体数据处理设备1可以包括：多媒体序列生成单元11、全局向量生成单元12、全局向量调整单元13、嵌入式表示确定单元14。

多媒体序列生成单元11，用于获取多媒体数据，对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列；

具体的，多媒体序列生成单元11获取多媒体数据，对多媒体数据进行采样生成多媒体数据对应的至少两个多媒体序列，可以理解的是，多媒体数据为是语言文字、图片、音频、视频等各种信息进行存储的数据，具体可以是音频数据或者视频数据，对多媒体数据进行采样生成至少两个多媒体序列，采样的过程就是把连续信号转换成离散信号的过程，对多媒体数据进行采样可以是时间采样，也可以是频率采样，也可以是多种采样进行组合。

全局向量生成单元12，用于根据至少两个多媒体序列生成多媒体数据的初始全局向量；

具体的，全局向量生成单元12根据至少两个多媒体序列生成多媒体数据的初始全局向量，可以理解的是，初始全局向量是根据多媒体数据的所有多媒体序列生成的，初始全局向量可以表征多媒体数据的全局特征，具体的，初始全局向量可以通过池化处理获取初始全局向量，池化处理包括平均池化、最大池化等，平均池化是获取平均值作为池化后的值，最大池化是获取最大值作为池化后的值。

全局向量调整单元13，用于从多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和初始全局向量，预测输入多媒体序列对应的输出多媒体序列；

具体的，全局向量调整单元13从多媒体序列中获取输入多媒体序列和标准多媒体序列，根据输入多媒体序列和初始全局向量，预测输入多媒体序列对应的输出多媒体序列，可以理解的是，从多媒体序列中获取目标多媒体序列，目标多媒体序列为多媒体序列中的序列，从目标多媒体序列中确定输入多媒体序列和标准多媒体序列，目标多媒体序列包括输入多媒体序列和标准多媒体序列，将输入多媒体序列和初始全局向量输入初始多媒体模型，获取初始多媒体模型输出的预测多媒体序列，根据预测多媒体序列与标准多媒体序列获取初始多媒体模型的损失函数，根据损失函数调整初始全局向量。

嵌入式表示确定单元14，用于根据输出多媒体序列和标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，全局嵌入式表示用于对多媒体数据进行内容类型分类。

具体的，嵌入式表示确定单元14根据输出多媒体序列和标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，全局嵌入式表示用于对多媒体数据进行内容类型分类，可以理解的是，模型收敛条件是预先设置的，模型收敛条件可以是初始全局向量的调整次数满足预设的次数阈值，或者损失函数满足预设的函数阈值，将调整后的初始全局向量确定为多媒体数据对应的全局嵌入式表示，当初始多媒体模型不满足模型收敛条件时，则将继续对初始多媒体模型进行训练，并再次调整初始全局向量，直到初始多媒体模型满足模型收敛条件。

多媒体序列生成单元具体用于：

全局向量生成单元具体用于：

初始全局向量与每个多媒体序列的维度相同。

请参见图5，本申请实施例的全局向量调整单元13可以包括：目标序列获取子单元131、预测序列获取子单元132、全局向量调整子单元133；

目标序列获取子单元131，用于从多媒体序列中获取目标多媒体序列，从目标多媒体序列中确定输入多媒体序列和标准多媒体序列；目标多媒体序列是时间轴上连续的多媒体序列；

预测序列获取子单元132，用于将输入多媒体序列和初始全局向量输入初始多媒体模型，获取初始多媒体模型输出的预测多媒体序列；

全局向量调整子单元133，用于根据预测多媒体序列与标准多媒体序列获取初始多媒体模型的损失函数，根据损失函数调整初始全局向量。

目标序列获取子单元具体用于：

全局向量调整子单元具体用于：

请参见图5，本申请实施例的多媒体数据处理设备1还可以包括：数据分类单元15；

数据分类单元15，用于将多媒体数据以及多媒体数据的全局嵌入式表示添加至待分类数据集合；添加后的待分类数据集合包括至少两个待分类多媒体数据；获取添加后的待分类数据集合中的至少两个待分类多媒体数据的全局嵌入式表示，对至少两个全局嵌入式表示进行聚类，生成聚类结果；根据聚类结果对至少两个待分类多媒体数据进行分类。

请参见图6，为本申请实施例提供了一种计算机设备的结构示意图。如图6所示，所述计算机设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图6所示的计算机设备1000中，网络接口1004可提供网络通讯功能，用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的数据处理应用程序，以实现上述图2-图4b任一个所对应实施例中对所述多媒体数据处理方法的描述，在此不再赘述。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2-图4b任一个所对应实施例中对所述多媒体数据处理方法的描述，也可执行前文图5所对应实施例中对所述多媒体数据处理设备的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的数据处理设备所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2-图4b任一个所对应实施例中对所述多媒体数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种多媒体数据处理方法，其特征在于，包括：

根据所述输出多媒体序列和所述标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为所述多媒体数据对应的全局嵌入式表示，所述全局嵌入式表示用于对多媒体数据进行内容类型分类；

其中，所述从所述多媒体序列中获取输入多媒体序列和标准多媒体序列，包括：从所述多媒体序列中获取目标多媒体序列，从所述目标多媒体序列中确定输入多媒体序列和标准多媒体序列；所述目标多媒体序列是时间轴上连续的多媒体序列；所述标准多媒体序列为目标多媒体序列中需要通过初始多媒体模型进行预测的多媒体序列；

所述从所述多媒体序列中获取目标多媒体序列，从所述目标多媒体序列中确定输入多媒体序列和标准多媒体序列，包括：获取初始多媒体模型的序列窗口，从所述多媒体序列中获取与所述序列窗口对应的目标多媒体序列；所述序列窗口的长度与所述目标多媒体序列的数量相同；从所述目标多媒体序列中获取标准多媒体序列，将所述目标多媒体序列中除所述标准多媒体序列之外的多媒体序列作为输入多媒体序列，所述初始多媒体模型为用于产生词向量的模型。

2.根据权利要求1所述的方法，其特征在于，所述获取多媒体数据，对所述多媒体数据进行采样生成所述多媒体数据对应的至少两个多媒体序列，包括：

获取多媒体数据，按照第一采样频率对所述多媒体数据进行时间采样，生成至少两个时间多媒体序列；

按照第二采样频率对所述至少两个时间多媒体序列分别进行频率采样，生成每个时间多媒体序列对应的频率多媒体序列；

将所述至少两个频率多媒体序列确定为多媒体数据的多媒体序列。

3.根据权利要求1所述的方法，其特征在于，所述根据所述至少两个多媒体序列生成所述多媒体数据的初始全局向量，包括：

获取所述至少两个多媒体序列中每个多媒体序列的向量元素，根据所述每个多媒体序列的最大向量元素生成多媒体数据对应的初始全局向量；

所述初始全局向量与所述每个多媒体序列的维度相同。

4.根据权利要求1所述的方法，其特征在于，所述根据输入多媒体序列和所述初始全局向量，预测所述输入多媒体序列对应的输出多媒体序列，包括：

将所述输入多媒体序列和所述初始全局向量输入初始多媒体模型，获取所述初始多媒体模型输出的预测多媒体序列；

根据所述预测多媒体序列与所述标准多媒体序列获取所述初始多媒体模型的损失函数，根据所述损失函数调整初始全局向量。

5.根据权利要求4所述的方法，其特征在于，所述根据所述预测多媒体序列与所述标准多媒体序列获取所述初始多媒体模型的损失函数，根据所述损失函数调整初始全局向量，包括：

根据所述预测多媒体序列生成所述初始多媒体模型的信息熵，根据所述预测多媒体序列与所述标准多媒体序列生成所述初始多媒体模型的交叉熵；

将所述交叉熵与所述信息熵之间的差值确定为所述初始多媒体模型的损失函数，根据所述损失函数调整所述初始多媒体模型的初始全局向量。

6.根据权利要求1所述的方法，其特征在于，还包括：

将所述多媒体数据以及所述多媒体数据的全局嵌入式表示添加至待分类数据集合；添加后的待分类数据集合包括至少两个待分类多媒体数据；

获取所述添加后的待分类数据集合中的所述至少两个待分类多媒体数据的全局嵌入式表示，对至少两个全局嵌入式表示进行聚类，生成聚类结果；

根据所述聚类结果对所述至少两个待分类多媒体数据进行分类。

7.一种多媒体数据处理设备，其特征在于，包括：

嵌入式表示确定单元，用于根据所述输出多媒体序列和所述标准多媒体序列，调整初始全局向量，将调整后的初始全局向量确定为所述多媒体数据对应的全局嵌入式表示，所述全局嵌入式表示用于对多媒体数据进行内容类型分类；

其中，所述全局向量调整单元，包括：目标序列获取子单元，用于从所述多媒体序列中获取目标多媒体序列，从所述目标多媒体序列中确定输入多媒体序列和标准多媒体序列；所述目标多媒体序列是时间轴上连续的多媒体序列；所述标准多媒体序列为目标多媒体序列中需要通过初始多媒体模型进行预测的多媒体序列；

所述目标序列获取子单元，具体用于获取初始多媒体模型的序列窗口，从所述多媒体序列中获取与所述序列窗口对应的目标多媒体序列；所述序列窗口的长度与所述目标多媒体序列的数量相同；从所述目标多媒体序列中获取标准多媒体序列，将所述目标多媒体序列中除所述标准多媒体序列之外的多媒体序列作为输入多媒体序列，所述初始多媒体模型为用于产生词向量的模型。

8.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-6任一项所述的方法。

9.一种计算机设备，其特征在于，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-6任意一项的方法步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时，实现如权利要求1-6任意一项的方法。