CN111078903B

CN111078903B - 多媒体信息的处理方法、装置及计算机可读介质

Info

Publication number: CN111078903B
Application number: CN201911312207.1A
Authority: CN
Inventors: 曾瞾; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2023-11-03
Anticipated expiration: 2039-12-18
Also published as: CN111078903A

Abstract

本申请公开了一种多媒体信息的处理方法、装置及计算机可读介质，该方法包括：筛选多媒体文件库中的多媒体文件，得到多个目标多媒体文件；针对每一个目标多媒体文件中的音频，获得音频的音频标识信息；音频标识信息至少包括：音频的热度值和音频的特征信息；根据每一个音频的特征信息，构建得到音频集；每一个音频集包括属于同一音频的目标多媒体文件中的音频；根据音频集中的每一个音频的热度值，计算得到音频集所对应的音频的总热度值；音频集所对应的音频的总热度值作为热门音频的评判参数。由于本申请中可根据音频集所对应的音频的总热度值作为热门音频的评判参数选出热门音频，而不需要人工去评判热门音频，提高了选取出热门音频的效率。

Description

多媒体信息的处理方法、装置及计算机可读介质

技术领域

本发明涉及多媒体领域，尤其涉及一种多媒体信息的处理方法、装置及计算机可读介质。

背景技术

短视频是指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容。随着互联网技术的发展，短视频这样的互联网内容传播方式越来越受欢迎，有越来越多的人加入短视频创作行列。用户在制作短视频的过程中，通常会选取当下热度较高的音乐来作为短视频的背景音乐，以提高短视频的质量。

现有技术中，许多短视频平台为了满足用户的需求，会为用户提供当前在短视频中热度较高的背景音乐，以供用户创作短视频时从中选取。然而，现有技术中，短视频平台通常采取人工筛选短视频中的热门背景音乐的方式，来获得提供给用户的热门背景音乐。但现有的筛选热门背景音乐的方式效率较低，无法跟上当前短视频平台中的热点更换速度。

发明内容

基于上述现有技术的不足，本申请提出了一种多媒体信息的处理方法、装置及计算机可读介质，以实现自动评判出多媒体库中的热门音频，提高筛选热门音频的效率。

为了实现上述目的，现提出的方案如下：

本发明第一方面公开了一种多媒体信息的处理方法，包括：

筛选多媒体文件库中的多媒体文件，得到多个目标多媒体文件；

针对每一个所述目标多媒体文件中的音频，获得所述音频的音频标识信息；其中，所述音频标识信息至少包括：所述音频的热度值、以及所述音频的特征信息；所述音频的热度值根据所述音频的评论信息得到；所述音频的特征信息至少包括：所述音频的频率信息和振幅信息；

根据每一个所述音频的特征信息，构建得到音频集；其中，每一个所述音频集包括属于同一音频的目标多媒体文件中的音频；

根据所述音频集中的每一个音频的热度值，计算得到所述音频集所对应的音频的总热度值；其中，所述音频集所对应的音频的总热度值作为热门音频的评判参数。

可选地，在上述多媒体信息的处理方法中，所述根据每一个所述音频的特征信息，构建得到音频集，包括：

根据每一个所述音频的特征信息，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度；

将所述计算得到的音频间的相似度高于相似度阈值的多个目标多媒体文件中的音频，构成一个所述音频集。

可选地，在上述多媒体信息的处理方法中，每一个所述所述目标多媒体文件中的音频的热度值的获取方式，包括：

根据预设的关键字，从每一个所述所述目标多媒体文件中的音频的评论信息中筛选出正向评论；其中，所述正向评论为对每一个所述音频有正面评价的评论；

根据每一个所述所述目标多媒体文件中音频的正向评论的数目，得到所述目标多媒体文件中音频的热度值。

可选地，在上述多媒体信息的处理方法中，所述根据每一个所述音频的特征信息，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度，包括：

将每一个所述目标多媒体文件中的音频，按照多个时间段划分为多个音频子段；

根据每一个所述音频的特征信息，得到每一个所述音频中的每一个音频子段的峰值；其中，所述峰值为每一个所述时间段内的目标时间点所对应的频率值和振幅值；所述目标时间点指代音频的振幅高于参考区间中的每一个时间点的音频的振幅预设阈值的时间点，所述参考区间包括：一个时间点的前后预设数量的时间点；；

根据每一个所述音频中的多个音频子段的峰值，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度。

根据每一个所述音频的特征信息，得到每一个所述音频中的每一个音频子段的谷值；其中，所述谷值为每一个所述时间段内的目标时间点所对应的频率值和振幅值；所述目标时间点指代音频的振幅低于参考区间中的每一个时间点的音频的振幅预设阈值的时间点，所述参考区间包括：一个时间点的前后预设数量的时间点；

根据每一个所述音频中的多个音频子段的谷值，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度。

可选地，在上述多媒体信息的处理方法中，所述根据每一个所述音频中的多个音频子段的峰值，计算任意两个音频间的相似度，包括：

将每一个所述音频中的每一个音频子段的峰值代入相似度公式中，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度；

其中，所述相似度公式为：F_a为第a个音频的峰值所构成的集合；F_b为第b个音频的峰值所构成的集合；F_a∩F_b为所述第a个音频与所述第b个音频之间相同的峰值的数目；min(F_a，F_b)为所述第a个音频的峰值数目、和所述第b个音频的峰值数目之间的最小值；simi为所述第a个音频和所述第b个音频间的相似度；所述第a个音频和所述第b个音频为所述多个目标多媒体文件中的音频中，任意的两个音频。

可选地，在上述多媒体信息的处理方法中，每一个所述音频的特征信息的获取过程，包括：

使用预设的采样频率对每一个所述音频进行采样，得到每一个所述音频的采样信息；

对每一个所述音频的采样信息进行快速傅里叶变换分析，得到每一个所述音频的频率信息和振幅信息。

可选地，在上述多媒体信息的处理方法中，所述根据所述音频集中的每一个音频的热度值，计算得到所述音频集所对应的音频的总热度值之后，还包括：

根据所述音频集所对应的音频的总热度值，对多个所述音频集所对应的音频进行排序；

选取出总热度值最高的N个所述音频集所对应的音频，作为热门音频；其中，N为正整数。

本发明第二方面公开了一种多媒体信息的处理装置，包括：

第一筛选单元，用于筛选多媒体文件库中的多媒体文件，得到多个目标多媒体文件；

第一获取单元，用于针对每一个所述目标多媒体文件中的音频，获得所述音频的音频标识信息；其中，所述音频标识信息至少包括：所述音频的热度值、以及所述音频的特征信息；所述音频的热度值根据所述音频的评论信息得到；所述音频的特征信息至少包括：所述音频的频率信息和振幅信息；

构建单元，用于根据每一个所述音频的特征信息，构建得到音频集；其中，每一个所述音频集包括属于同一音频的目标多媒体文件中的音频；

第一计算单元，用于根据所述音频集中的每一个音频的热度值，计算得到所述音频集所对应的音频的总热度值；其中，所述音频集所对应的音频的总热度值作为热门音频的评判参数。

可选地，在上述多媒体信息的处理装置中，所述构建单元，包括：

第二计算单元，用于根据每一个所述音频的特征信息，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度；

构建子单元，用于将所述计算得到的音频间的相似度高于相似度阈值的多个目标多媒体文件中的音频，构成一个所述音频集。

可选地，在上述多媒体信息的处理装置中，还包括：

第二筛选单元，用于根据预设的关键字，从每一个所述所述目标多媒体文件中的音频的评论信息中筛选出正向评论；其中，所述正向评论为对每一个所述音频有正面评价的评论；

第二获取单元，用于根据每一个所述所述目标多媒体文件中音频的正向评论的数目，得到所述目标多媒体文件中音频的热度值。

可选地，在上述多媒体信息的处理装置中，所述第二计算单元，包括：

第一划分单元，用于将每一个所述目标多媒体文件中的音频，按照多个时间段划分为多个音频子段；

第三获取单元，用于根据每一个所述音频的特征信息，得到每一个所述音频中的每一个音频子段的峰值；其中，所述峰值为每一个所述时间段内的目标时间点所对应的频率值和振幅值；所述目标时间点指代音频的振幅高于参考区间中的每一个时间点的音频的振幅预设阈值的时间点，所述参考区间包括：一个时间点的前后预设数量的时间点；

第三计算单元，用于根据每一个所述音频中的多个音频子段的峰值，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度。

第二划分单元，用于将每一个所述目标多媒体文件中的音频，按照多个时间段划分为多个音频子段；

第四获取单元，用于根据每一个所述音频的特征信息，得到每一个所述音频中的每一个音频子段的谷值；其中，所述谷值为每一个所述时间段内的目标时间点所对应的频率值和振幅值；所述目标时间点指代音频的振幅低于参考区间中的每一个时间点的音频的振幅预设阈值的时间点，所述参考区间包括：一个时间点的前后预设数量的时间点；

第四计算单元，用于根据每一个所述音频中的多个音频子段的谷值，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度。

可选地，在上述多媒体信息的处理装置中，所述第三计算单元，包括：

第三计算子单元，用于将每一个所述音频中的每一个音频子段的峰值代入相似度公式中，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度；

可选地，在上述多媒体信息的处理装置中，还包括：

采样单元，用于使用预设的采样频率对每一个所述音频进行采样，得到每一个所述音频的采样信息；

分析单元，用于对每一个所述音频的采样信息进行快速傅里叶变换分析，得到每一个所述音频的频率信息和振幅信息。

可选地，在上述多媒体信息的处理装置中，还包括：

排序单元，用于根据所述音频集所对应的音频的总热度值，对多个所述音频集所对应的音频进行排序；

选取单元，用于选取出总热度值最高的N个所述音频集所对应的音频，作为热门音频；其中，N为正整数。

从上述的技术方案可以看出，本申请提供的多媒体信息的处理方法中，通过筛选多媒体文件库中的多媒体文件，得到多个目标多媒体文件。针对每一个目标多媒体文件中的音频，获得音频的音频标识信息。其中，音频标识信息至少包括：音频的热度值、以及音频的特征信息；音频的热度值根据音频的评论信息得到；音频的特征信息至少包括：音频的频率信息和振幅信息。根据每一个音频的特征信息，构建得到音频集。其中，每一个音频集包括属于同一音频的目标多媒体文件中的音频。最后根据音频集中的每一个音频的热度值，计算得到音频集所对应的音频的总热度值。其中，音频集所对应的音频的总热度值作为热门音频的评判参数。由于本申请实施例中能够根据每一个音频的特征信息，将属于同一音频的目标多媒体文件中的音频构建为音频集。进而根据音频集中的每一个音频的热度值，得到音频集所对应的音频的总热度值。进而可根据音频集所对应的音频的总热度值作为热门音频的评判参数选出热门音频，而不再需要人工去评判热门音频，提高了选取出热门音频的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种多媒体信息的处理方法的流程示意图；

图2为本发明实施例公开的一种音频的特征信息的获取过程的流程示意图；

图3为本发明实施例公开的一种音频的热度值的获取过程的流程示意图；

图4为本发明实施例公开的一种构建音频集的方法的流程示意图；

图5为本发明实施例公开的一种计算音频间的相似度的方法的流程示意图；

图6为本发明实施例公开的另一种计算音频间的相似度的方法的流程示意图；

图7为本发明实施例公开的一种筛选出热门音频的方法的流程示意图；

图8为本发明实施例公开的一种多媒体信息的处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，本申请实施例公开了一种多媒体信息的处理方法，具体包括以下步骤：

S101、筛选多媒体文件库中的多媒体文件，得到多个目标多媒体文件。

其中，多媒体文件库中包括来自一个或多个多媒体平台中的多媒体文件。多媒体平台可以是短视频平台、音乐平台、直播平台、浏览器等。步骤S101中的多媒体文件主要指的是携带有音频数据的多媒体文件。多媒体文件可以是视频文件，也可以是音频文件。步骤S101中获取的目标多媒体文件中至少包括多媒体文件中的音频、以及多媒体文件的评论信息。可选地，多媒体文件中还可以包括多媒体文件的地址信息、播放量信息、点赞量信息、分享量信息等。多媒体文件库中的多媒体文件的格式可以有很多种，例如MP3格式、MP4格式、WAV格式等。多媒体文件的格式的不同不影响本申请实施例的实现。

具体地，执行步骤S101时，根据实际的应用情况，对多媒体文件库中的多媒体文件进行筛选。例如，实际应用中想筛选出某一个视频平台的热门音频，因此可筛选多媒体文件库中属于该视频平台的多媒体文件作为目标多媒体文件，又例如实际应用中想综合多个多媒体平台中的文件，筛选出当前的热门视频，则可以将多媒体文件库中的所有的多媒体文件均作为目标多媒体文件，也可以随机对多媒体文件库中的多媒体文件进行筛选，得到多个目标多媒体文件。需要说明的是，筛选出目标多媒体文件的标准可人为进行设置调整，筛选目标多媒体文件的标准的不同并不影响本申请实施例的实现。

现有技术中，短视频平台筛选热门背景音乐的方式，主要是通过人工在短视频库中进行筛选。而本申请实施例中，除了可以对短视频库中的短视频来筛选热门音频，还可以结合其他类型的多媒体平台所提供的多媒体文件，来进行筛选。本申请实施例中对热门音频进行筛选的音频的范围不受短视频平台的局限，可以更加的多样性，多媒体文件库中的多媒体文件的来源越丰富，越能准确的筛选出当前比较热门的音频。

S102、针对每一个目标多媒体文件中的音频，获得音频的音频标识信息。

其中，音频标识信息至少包括：音频的热度值、以及音频的特征信息。音频的标识信息还可以包括目标多媒体文件的唯一编码(Identity document，Id)、目标多媒体文件的地址信息、目标多媒体文件的播放量信息等等。

音频的热度值是根据音频的评论信息得到。其中，音频的评论信息指的是目标多媒体文件的评论信息中，与目标多媒体文件的音频相关的评论信息。例如“背景音乐真好听”、“想知道背景音乐是什么”等音频相关的评论。可选地，音频的热度值可根据音频的评论信息以及除了评论信息以外的目标多媒体文件的其他信息来确定。例如对于音频类的多媒体文件，可通过音频的评论信息、播放量信息、点赞量信息等多种信息共同确定该音频的热度值。需要说明的是，音频的热度值是随时间动态变化的，不同时间获取到的音频的热度值会有所不同，因此执行步骤S102时，可获取音频当前的热度值，或者近段时间的热度值，以提高最终筛选出的热门音频的准确性。

音频的特征信息至少包括：音频的频率信息和振幅信息。具体的，音频的特征信息可以通过音频的音频谱图来表示。音频谱图中记录了音频在时域、频域和振幅上的数据。由于音频的特征信息是音频的固有属性，不同时间段获取到的同一个目标多媒体文件的音频的特征信息是不会发生变化的。因此可预先存储每一个目标多媒体文件中的音频的特征信息，直到执行步骤S102时，直接将预先存储好的音频的特征信息提取出来使用。

需要说明的是，执行步骤S102之前，若步骤S102中获取的目标多媒体文件为视频类的多媒体文件，则需要对目标多媒体文件中的音频部分进行提取，以得到步骤S101中筛选出的每一个目标多媒体文件中的音频。

可选地，参阅图2，在本申请一具体实施例中，每一个音频的特征信息的获取过程，包括：

S201、使用预设的采样频率对每一个音频进行采样，得到每一个音频的采样信息。

采样频率，也称为采样速度或者采样率，定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹来表示。采样频率越高，即采样的间隔时间越短，则在单位时间内得到的样本数据就越多，对信号波形的表示也越精确。执行步骤S201之前，可先根据实际应用情况，对采样频率进行设置。若实际应用中需要得到精确度较高的的音频的采样信息，则需要设置一个较高的采样频率。若实际应用中对音频的采样信息的准确性要求较低，但需要能够能够快速获取每一个音频的采样信息，则可以设置一个较低的采样频率。

可选地，执行步骤S201之前还可以先将多个目标多媒体文件中的音频的格式进行统一，例如统一成WAV格式，以方便统一进行采样。

S202、对每一个音频的采样信息进行快速傅里叶变换分析，得到每一个音频的频率信息和振幅信息。

具体地，执行步骤S202的过程中，先对快速傅里叶变换需要用到的参数进行预配置，然后对每一个音频的采样信息做快速傅里叶变换，将每一个音频的采样信息从时域空间转换至频域空间，得到音频的音频谱图。音频的音频谱图显示有音频的频率信息和振幅信息。

需要说明的是，音频的特征信息的获取方式有很多，包括但不限于本申请实施例提出的内容，且音频的特征信息的获取方式的不同，不影响本申请实施例的实现。

可选地，参阅图3，在本申请一具体实施例中，每一个目标多媒体文件中的音频的热度值的获取方式，包括：

S301、根据预设的关键字，从每一个目标多媒体文件中的音频的评论信息中筛选出正向评论。

其中，正向评论为对每一个音频有正面评价的评论。预设的关键字指的是跟音频的正面评价相关的关键字。例如，“背景音乐”、“好听”、“求歌名”等等。具体地，可以通过训练一个分类器或者神经网络模型，将目标多媒体文件中的音频的所有的评论信息输入至分类器或者神经网络模型中，对所有的评论信息进行分类，筛选出对音频有正面评价的评论。需要说明的是，执行步骤S301的的方式有很多，包括但不限于本申请实施例提出的内容。

S302、根据每一个目标多媒体文件中音频的正向评论的数目，得到目标多媒体文件中音频的热度值。

其中，目标多媒体文件中音频的正向评论的数目越多，则目标多媒体文件中音频的热度值就越高。执行步骤S302时，可直接将目标多媒体文件中音频的正向评论的数目作为目标多媒体文件中音频的热度值，还可以根据音频的正向评论的数目以及目标多媒体文件的播放量信息、分享量信息等其他的信息来得到目标多媒体文件中音频的热度值。

S103、根据每一个音频的特征信息，构建得到音频集。

其中，每一个音频集包括属于同一音频的目标多媒体文件中的音频。音频的特征信息中至少包括了音频的频率信息和振幅信息。音频是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。因此音频的特征信息是每一个音频的特有属性，若其中两个目标多媒体文件中的音频的特征信息非常相似，例如两个短视频使用了相同的背景音乐的情况，则可确定出这两个目标多媒体文件中的音频是同一个音频。将步骤S101中得到的多个目标多媒体文件中的音频中，属于同一音频的目标多媒体文件中的音频构建成音频集，即根据每一个音频的特征信息，将多个目标多媒体文件中的音频划分为多个音频集。

可选地，参阅图4，在本申请一具体实施例中，执行步骤S103的一种实施方式，包括：

S401、根据每一个音频的特征信息，计算多个目标多媒体文件中的音频中，任意两个音频间的相似度。

步骤S101中得到的多个目标多媒体文件中，可能存在有使用了相同音频的目标多媒体文件。例如，在短视频平台，通常越是热门的音乐，在短视频中作为背景音乐出现的频率也会越高。只根据一个目标多媒体文件中的音频的热度值，作为该音频的热度的体现，显然是片面的。因此需要综合汇聚所有具有相同音频的多媒体文件中的音频的热度，来作为该音频的热度的体现。

其中，任意两个音频间的相似度指的是任意两个音频间的音频的特征信息的相似度。两个音频的特征信息越相似，则计算出的相似度就越高。

可选地，参阅图5，在本申请一具体实施例中，执行步骤S401的一种实施方式，包括：

S501、将每一个目标多媒体文件中的音频，按照多个时间段划分为多个音频子段。

其中，多个时间段的长度可以相同也可以不相同。即可以将每一个音频均等划分为多个音频子段，也可以将每一个音频不均等划分为多个音频子段。对每一个音频的划分的方式可以相同，也可以不同。但每一个音频子段的时间段长度越短，最终步骤S503中计算得到的任意两个音频间的相似度值会越准确。

S502、根据每一个音频的特征信息，得到每一个音频中的每一个音频子段的峰值。

其中，所述峰值为每一个所述时间段内的目标时间点所对应的频率值和振幅值；所述目标时间点指代音频的振幅高于参考区间中的每一个时间点的音频的振幅预设阈值的时间点，所述参考区间包括：一个时间点的前后预设数量的时间点。

具体的，音频中的每一个音频子段对应一个时间段，针对每一个音频子段，将该时间段内的每一个时间点的音频的振幅，与该时间点的参考区间内的每个时间点的振幅进行比较，若比较出该时间点的音频的振幅，比参考区间内的每个时间点的振幅都高预设阈值，则认定该时间点为目标时间点。当然，阈值可以根据实际情况设定其值。并且，针对时间段的每一个时间点，均对应有自身的参考区间，参考区间指代的是：自身之前的几个时间点和之后的几个时间点，同理，参考区间中的时间的预设数量也可以根据实际情况进行设定。

需要说明的是，每一个音频子段的峰值可能有一个，也可能有多个。由于峰值实际是音频的特征信息中得到的，且是音频的特征信息中比较具有代表性的信息，因此能够体现出该音频的特性，可以以此为标准区分出多个目标多媒体文件中的音频中相同或相似的音频。

S503、根据每一个音频中的多个音频子段的峰值，计算多个目标多媒体文件中的音频中，任意两个音频间的相似度。

具体的，两个音频中相同的峰值的数目越多，则两个音频间的相似度就越高。其中，相同的峰值指的是峰值所对应的振幅和频率值均相同。

可选地，在本申请一具体实施例中，执行步骤S503的一种实施方式，包括：

将每一个音频中的每一个音频子段的峰值代入相似度公式中，计算多个目标多媒体文件中的音频中，任意两个音频间的相似度。

其中，相似度公式为：F_a为第a个音频的峰值所构成的集合。F_b为第b个音频的峰值所构成的集合。F_a∩F_b为第a个音频与第b个音频之间相同的峰值的数目。min(F_a，F_b)为第a个音频的峰值数目、和第b个音频的峰值数目之间的最小值。simi为第a个音频和所述第b个音频间的相似度。第a个音频和第b个音频为多个目标多媒体文件中的音频中，任意的两个音频。相似度simi为一个小于1或者等于1的值，simi的值越大，则说明第a个音频与第b个音频间的相似度就越高。

可选地，参阅图6，在本申请一具体实施例中，执行步骤S401的一种实施方式，包括：

S601、将每一个目标多媒体文件中的音频，按照多个时间段划分为多个音频子段。

其中，图6示出的步骤S601的执行过程和原理与图5示出的步骤S501相同，可参见，此处不再赘述。

S602、根据每一个音频的特征信息，得到每一个音频中的每一个音频子段的谷值。

其中，所述谷值为每一个所述时间段内的目标时间点所对应的频率值和振幅值；所述目标时间点指代音频的振幅低于参考区间中的每一个时间点的音频的振幅预设阈值的时间点，所述参考区间包括：一个时间点的前后预设数量的时间点。

具体的，音频字段对应的时间段内的每一个时间点的音频的振幅，与该时间点的参考区间的每个时间点的振幅进行比较，若比较出该时间点的音频的振幅，比参考区间内的每个时间点的振幅都低预设阈值，则认定该时间点为目标时间点。本步骤中，阈值和一个时间点的前后预设数量，也可以根据实际情况进行设定。

需要说明的是，每一个音频子段的谷值可能有一个，也可能有多个。由于谷值实际是音频的特征信息中得到的，且是音频的特征信息中比较具有代表性的信息，因此能够体现出该音频的特性，可以以此为标准区分出多个目标多媒体文件中的音频中相同或相似的音频。

还需要说明的是，除了使用峰值或者谷值来体现音频的特性，还可以使用又音频的特征信息中得到的其他的信息来作为音频的特性的体现，包括但不限于本申请实施例提出的内容。

S603、根据每一个音频中的多个音频子段的谷值，计算多个目标多媒体文件中的音频中，任意两个音频间的相似度。

具体的，两个音频中相同的谷值的数目越多，则两个音频间的相似度就越高。其中，相同的谷值指的是谷值所对应的振幅和频率值均相同。

可选地，在本申请一具体实施例中，执行步骤S603的一种实施方式，包括：

将每一个音频中的每一个音频子段的谷值代入相似度公式中，计算多个目标多媒体文件中的音频中，任意两个音频间的相似度。

其中，相似度公式为：F_a为第a个音频的谷值所构成的集合。F_b为第b个音频的谷值所构成的集合。F_a∩F_b为第a个音频与第b个音频之间相同的谷值的数目。min(F_a，F_b)为第a个音频的谷值数目、和第b个音频的谷值数目之间的最小值。simi为第a个音频和第b个音频间的相似度。第a个音频和第b个音频为多个目标多媒体文件中的音频中，任意的两个音频。相似度simi为一个小于1或者等于1的值，simi的值越大，则说明第a个音频与第b个音频间的相似度就越高。

S402、将计算得到的音频间的相似度高于相似度阈值的多个目标多媒体文件中的音频，构成一个音频集。

其中，每一个音频集包括属于同一音频的目标多媒体文件中的音频。判断步骤S401中计算得到的每一个相似度是否大于相似度阈值，若计算得到的多个目标多媒体文件中的两个音频间的相似度高于相似度阈值，则将这两个音频归于同一个音频集中。若计算得到的多个目标多媒体文件中的两个音频间的相似度高于相似度阈值，则说明这两个目标多媒体文件的音频属于同一音频。例如，对于两个使用了相同背景音乐的短视频，这两个短视频的音频间的相似度则会高于相似度阈值，进而可判断出这两个段视频的音频属于同一音频。若计算得到的两个音频间的相似度小于或者等于相似度阈值，则说明这两个音频不属于同一个音频，因此不将这两个音频归于同一个音频集中。音频集中的任意两个音频间的相似度均大于相似度阈值。其中，相似度阈值可人为进行设置，具体可根据实际情况进行调整。

S104、根据音频集中的每一个音频的热度值，计算得到音频集所对应的音频的总热度值。

其中，音频集所对应的音频的总热度值作为热门音频的评判参数。音频集对应的音频的总热度值越高，则说明该音频集所对应的音频的热度越高。由于音频集中的目标媒体文件的音频均为同一个音频，因此该音频集所对应的音频的总热度值可以根据音频集中的每一个目标媒体文件的音频得到。可选地，可以将音频集中的所有的音频的热度值相加，得到音频集所对应的音频的总热度值。例如，音频集中共有3个音频，这3个音频的热度值分别为100、122以及1009，那么该音频集所对应的音频的总热度值可以是100+122+1009＝1231。需要说明的是，执行步骤S104的具体方式有很多，包括但不限于本申请实施例提出的内容。

现有技术中，短视频平台通常采取人工筛选的方式，筛选出短视频中的热门音乐。因此负责筛选短视频中的热门音乐的人，需要对当下热点以及短视频平台非常了解，且人工筛选时的筛选依据也比较主观，没有固定的筛选标准。而本申请实施例中，使用音频集所对应的音频的总热度值作为评判热门音频的评判参数，相较于现有的人工筛选时比较主观的筛选方式，显然使用总热度值作为评判参数的方式的可靠性更高。且计算音频集所对应的音频的总热度值的过程是自动执行的，不需要人工干预，提升了筛选热门音频的效率。

可选地，参阅图7，在本申请一具体实施例中，执行步骤S104之后，还包括：

S701、根据音频集所对应的音频的总热度值，对多个音频集所对应的音频进行排序。

执行完步骤S103之后，步骤S101中的多个目标多媒体文件中的音频构建成了多个音频集。而步骤S104中则计算得到了多个音频集对应的音频的总热度值。由于音频的总热度值是热门音频的评判参数，因此可根据音频集所对应的总热度值，对多个音频集所对应的音频进行排序。可选地，可以按照总热度值由高到底排列，也可以依据总热度值由低至高排列，具体排列的方式的不同不影响本申请实施例的实现。

S702、选取出总热度值最高的N个音频集所对应的音频，作为热门音频。

其中，N为正整数。N可根据实际应用情况，人为进行设置。选取出热门音频之后，可将热门音频提供至相应的多媒体平台，满足用户的需求。

需要说明的是，除了图7示出的筛选出热门音频的方式之外，还有很多其他的可根据步骤S104中得到的总热度值筛选出热门音频的方式，例如可设置一个总热度阈值，判断每一个音频集所对应的音频的总热度值是否大于总热度阈值，若大于总热度阈值，则说明该音频集所对应的音频为热门音频。根据音频集所对应的音频的总热度值筛选出热门音频的方式有很多，包括但不限于本申请实施例提出的内容。

可选地，执行完步骤S702，筛选出热门音频之后，还可以先对筛选出的热门音频进行消除人声对话的预处理，再提供至相应的多媒体平台。由于图1示出的步骤S101中提到的目标多媒体文件中，可能会有一些视频类型的目标多媒体文件。这些视频类型的多媒体文件的音频中，除了含有背景音乐之外可能还有掺杂人物间对话的人声。如果直接将掺杂有有人声对话的音频提供给用户，显然不能够很好地满足用户使用这段音频进行短视频制作等方面的需求。而本申请实施例中筛选出的热门音频实际指的是多媒体文件的音频中的背景音乐的部分，因此可将筛选出的热门音频输入相关的消除人声对话的模型中，进行消除人声对话的处理，得到不夹杂人声对话的音乐。其中，对筛选出的热门音频进行消除人声对话预处理，指的是对热门音频所属的音频集中的所有音频均进行消除人声对话的预处理。由于音频集中的所有音频均属于同一音频，因此最终可选出消除人声对话效果最好的音频作为热门音频，提供至相应的多媒体平台，以供用户使用。

本申请提供的多媒体信息的处理方法中，通过筛选多媒体文件库中的多媒体文件，得到多个目标多媒体文件。针对每一个目标多媒体文件中的音频，获得音频的音频标识信息。其中，音频标识信息至少包括：音频的热度值、以及音频的特征信息；音频的热度值根据音频的评论信息得到；音频的特征信息至少包括：音频的频率信息和振幅信息。根据每一个音频的特征信息，构建得到音频集。其中，每一个音频集包括属于同一音频的目标多媒体文件中的音频。最后根据音频集中的每一个音频的热度值，计算得到音频集所对应的音频的总热度值。其中，音频集所对应的音频的总热度值作为热门音频的评判参数。由于本申请实施例中能够根据每一个音频的特征信息，将属于同一音频的目标多媒体文件中的音频构建为音频集。进而根据音频集中的每一个音频的热度值，得到音频集所对应的音频的总热度值。进而可根据音频集所对应的音频的总热度值作为热门音频的评判参数选出热门音频，而不再需要人工去评判热门音频，提高了选取出热门音频的效率。

参阅图8，基于上述本申请实施例提出的多媒体信息的处理方法，本申请实施例还对应公开了一种多媒体信息的处理装置800，包括：第一筛选单元801、第一获取单元802、构建单元803以及第一计算单元804。

第一筛选单元801，用于筛选多媒体文件库中的多媒体文件，得到多个目标多媒体文件。

第一获取单元802，用于针对每一个目标多媒体文件中的音频，获得音频的音频标识信息。其中，音频标识信息至少包括：音频的热度值、以及音频的特征信息。音频的热度值根据音频的评论信息得到。音频的特征信息至少包括：音频的频率信息和振幅信息。

构建单元803，用于根据每一个音频的特征信息，构建得到音频集。其中，每一个音频集包括属于同一音频的目标多媒体文件中的音频。

可选地，在本申请一具体实施例中，构建单元803，包括：第二计算单元和构建子单元。

第二计算单元，用于根据每一个音频的特征信息，计算多个目标多媒体文件中的音频中，任意两个音频间的相似度。

可选地，在本申请一具体实施例中，第二计算单元，包括：第一划分单元、第三获取单元以及第三计算单元。

第一划分单元，用于将每一个目标多媒体文件中的音频，按照多个时间段划分为多个音频子段。

第三获取单元，用于根据每一个音频的特征信息，得到每一个音频中的每一个音频子段的峰值。其中，峰值为每一个时间段内的目标时间点所对应的频率值和振幅值；目标时间点指代音频的振幅高于参考区间中的每一个时间点的音频的振幅预设阈值的时间点，参考区间包括：一个时间点的前后预设数量的时间点。

第三计算单元，用于根据每一个音频中的多个音频子段的峰值，计算多个目标多媒体文件中的音频中，任意两个音频间的相似度。

可选地，在本申请一具体实施例中，第三计算单元，包括：第三计算子单元。

第三计算子单元，用于将每一个音频中的每一个音频子段的峰值代入相似度公式中，计算多个目标多媒体文件中的音频中，任意两个音频间的相似度。

其中，所述相似度公式为：F_a为第a个音频的峰值所构成的集合；F_b为第b个音频的峰值所构成的集合；F_a∩F_b为第a个音频与所述第b个音频之间相同的峰值的数目；min(F_a，F_b)为第a个音频的峰值数目、和第b个音频的峰值数目之间的最小值；simi为第a个音频和所述第b个音频间的相似度；第a个音频和所述第b个音频为多个目标多媒体文件中的音频中，任意的两个音频。

可选地，在本申请一具体实施例中，第二计算单元，包括：第二划分单元、第四获取单元以及第四计算单元。

第二划分单元，用于将每一个目标多媒体文件中的音频，按照多个时间段划分为多个音频子段。

第四获取单元，用于根据每一个音频的特征信息，得到每一个音频中的每一个音频子段的谷值。其中，谷值为每一个所述时间段内的目标时间点所对应的频率值和振幅值；目标时间点指代音频的振幅低于参考区间中的每一个时间点的音频的振幅预设阈值的时间点，参考区间包括：一个时间点的前后预设数量的时间点。

第四计算单元，用于根据每一个音频中的多个音频子段的谷值，计算多个目标多媒体文件中的音频中，任意两个音频间的相似度。

构建子单元，用于将计算得到的音频间的相似度高于相似度阈值的多个目标多媒体文件中的音频，构成一个音频集。

第一计算单元804，用于根据音频集中的每一个音频的热度值，计算得到音频集所对应的音频的总热度值。其中，音频集所对应的音频的总热度值作为热门音频的评判参数。

可选地，在本申请一具体实施例中，多媒体信息的处理装置800还包括：第二筛选单元和第二获取单元。

第二筛选单元，用于根据预设的关键字，从每一个所述目标多媒体文件中的音频的评论信息中筛选出正向评论。其中，正向评论为对每一个音频有正面评价的评论。

第二获取单元，用于根据每一个目标多媒体文件中音频的正向评论的数目，得到目标多媒体文件中音频的热度值。

可选地，在本申请一具体实施例中，多媒体信息的处理装置800，还包括：采样单元和分析单元。

采样单元，用于使用预设的采样频率对每一个音频进行采样，得到每一个音频的采样信息。

分析单元，用于对每一个音频的采样信息进行快速傅里叶变换分析，得到每一个音频的频率信息和振幅信息。

可选地，在本申请一具体实施例中，多媒体信息的处理装置800，还包括：排序单元和选取单元。

排序单元，用于根据音频集所对应的音频的总热度值，对多个音频集所对应的音频进行排序。

选取单元，用于选取出总热度值最高的N个音频集所对应的音频，作为热门音频。其中，N为正整数。

上述本申请实施例公开的多媒体信息的处理装置800中的具体的原理和执行过程，与上述本申请实施例公开的多媒体信息的处理方法相同，可参见上述本申请实施例公开的多媒体信息的处理方法中相应的部分，这里不再进行赘述。

本申请提供的多媒体信息的处理装置中，通过第一筛选单元801筛选多媒体文件库中的多媒体文件，得到多个目标多媒体文件。第一获取单元802又针对每一个目标多媒体文件中的音频，获得音频的音频标识信息。其中，音频标识信息至少包括：音频的热度值、以及音频的特征信息；音频的热度值根据音频的评论信息得到；音频的特征信息至少包括：音频的频率信息和振幅信息。构建单元803根据每一个音频的特征信息，构建得到音频集。其中，每一个音频集包括属于同一音频的目标多媒体文件中的音频。最后第一计算单元804根据音频集中的每一个音频的热度值，计算得到音频集所对应的音频的总热度值。其中，音频集所对应的音频的总热度值作为热门音频的评判参数。由于本申请实施例中能够根据每一个音频的特征信息，将属于同一音频的目标多媒体文件中的音频构建为音频集。进而根据音频集中的每一个音频的热度值，得到音频集所对应的音频的总热度值。进而可根据音频集所对应的音频的总热度值作为热门音频的评判参数选出热门音频，而不再需要人工去评判热门音频，提高了选取出热门音频的效率。

本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现以上各方法实施例提供的多媒体信息的处理方法。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种多媒体信息的处理方法，其特征在于，包括：

将所述计算得到的音频间的相似度高于相似度阈值的多个目标多媒体文件中的音频，构成一个音频集；其中，每一个所述音频集包括属于同一音频的目标多媒体文件中的音频；

2.根据权利要求1所述的方法，其特征在于，每一个所述目标多媒体文件中的音频的热度值的获取方式，包括：

根据预设的关键字，从每一个所述目标多媒体文件中的音频的评论信息中筛选出正向评论；其中，所述正向评论为对每一个所述音频有正面评价的评论；

根据每一个所述目标多媒体文件中音频的正向评论的数目，得到所述目标多媒体文件中音频的热度值。

3.根据权利要求1所述的方法，其特征在于，所述根据每一个所述音频的特征信息，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度，包括：

根据每一个所述音频的特征信息，得到每一个所述音频中的每一个音频子段的峰值；其中，所述峰值为每一个所述时间段内的目标时间点所对应的频率值和振幅值；所述目标时间点指代音频的振幅高于参考区间中的每一个时间点的音频的振幅预设阈值的时间点，所述参考区间包括：一个时间点的前后预设数量的时间点；

4.根据权利要求1所述的方法，其特征在于，所述根据每一个所述音频的特征信息，计算所述多个目标多媒体文件中的音频中，任意两个音频间的相似度，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据每一个所述音频中的多个音频子段的峰值，计算任意两个音频间的相似度，包括：

6.根据权利要求1所述的方法，其特征在于，每一个所述音频的特征信息的获取过程，包括：

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述根据所述音频集中的每一个音频的热度值，计算得到所述音频集所对应的音频的总热度值之后，还包括：

8.一种多媒体信息的处理装置，其特征在于，包括：

第一获取单元，用于针对每一个目标多媒体文件中的音频，获得所述音频的音频标识信息；其中，所述音频标识信息至少包括：所述音频的热度值、以及所述音频的特征信息；所述音频的热度值根据所述音频的评论信息得到；所述音频的特征信息至少包括：所述音频的频率信息和振幅信息；

构建子单元，用于将所述计算得到的音频间的相似度高于相似度阈值的多个目标多媒体文件中的音频，构成一个音频集；其中，每一个所述音频集包括属于同一音频的目标多媒体文件中的音频；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二筛选单元，用于根据预设的关键字，从每一个所述目标多媒体文件中的音频的评论信息中筛选出正向评论；其中，所述正向评论为对每一个所述音频有正面评价的评论；

第二获取单元，用于根据每一个所述目标多媒体文件中音频的正向评论的数目，得到所述目标多媒体文件中音频的热度值。

10.根据权利要求8所述的装置，其特征在于，所述第二计算单元，包括：

11.根据权利要求8所述的装置，其特征在于，所述第二计算单元，包括：

12.根据权利要求10所述的装置，其特征在于，所述第三计算单元，包括：

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8至13任意一项所述的装置，其特征在于，所述装置还包括：

15.一种计算机可读介质，其特征在于，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1至7中任一所述的方法。