CN106503181A

CN106503181A - 一种音频数据处理方法及装置

Info

Publication number: CN106503181A
Application number: CN201610939092.9A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2016-10-25
Filing date: 2016-10-25
Publication date: 2017-03-15
Anticipated expiration: 2036-10-25
Also published as: CN106503181B

Abstract

本发明实施例提供了一种音频数据处理方法及装置，其中，该方法包括：用户在针对目标歌曲上传清唱版本的音频数据后，音频数据处理装置可以提取音频数据的基频序列，并基于基频序列分别计算每个音频数据与其他音频数据之间的距离，得到该音频数据的距离和，从而从多个音频数据中选择出距离和最小(也即是音准最好)的音频数据，以作为指导音频数据。这样其他用户就可以根据该指导音频数据进行练唱，从而能够提高用户练唱的效果。

Description

一种音频数据处理方法及装置

技术领域

本发明涉及多媒体技术领域，具体涉及一种音频数据处理方法及装置。

背景技术

唱歌类应用是目前深受用户尤其是年轻用户喜爱与追捧的一类应用，其具备在线独唱和在线合唱等多种功能，用户还可以在这类应用上进行练唱。通常情况下，用户在练唱时往往需要原版指导，但很多歌曲由于伴奏能量较强，用户往往无法注意到原版的演唱细节，用户练唱从而不能达到很好的效果。因此，如何为用户提供适合的指导版本以指导用户练唱已成为亟待解决的问题。

发明内容

本发明实施例提供了一种音频数据处理方法及装置，可以为用户提供合适的指导版本以指导用户练唱。

本发明实施例第一方面提供了一种音频数据处理方法，包括：

提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列，其中，n为正整数；

针对所述n个音频数据中的每个音频数据，根据所述基频序列计算该音频数据与第一音频数据之间的距离，并根据所述距离获得该音频数据的距离和，所述第一音频数据为所述n个音频数据中除该音频数据之外的任一音频数据；

按照距离和从小到大的顺序对所述n个音频数据进行排序，并确定排序首位的第二音频数据；

将所述第二音频数据确定为所述目标歌曲的指导音频数据。

可选的，所述提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列之前，所述方法还包括：

检测针对目标歌曲上传的音频数据的第一数量；

判断所述第一数量是否达到第一数量阈值，若是，则执行所述提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的操作，其中，所述n等于所述第一数量阈值。

可选的，所述方法还包括：

在所述第一数量达到所述第一数量阈值时，分别计算每个音频数据的噪声能量；

将噪声能量大于噪声能量阈值的音频数据从所述第一数量个音频数据中剔除，得到第二数量个音频数据，并执行所述提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的操作，其中，所述n等于所述第二数量。

可选的，所述提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列，包括：

将针对目标歌曲上传的n个音频数据预处理后，提取每个音频数据的基频集合；

对所述基频集合中的基频点进行去噪处理以及去差异化处理，得到每个音频数据的基频序列。

可选的，所述针对所述n个音频数据中的每个音频数据，根据所述基频序列计算该音频数据与第一音频数据之间的距离，包括：

针对所述n个音频数据中的每个音频数据，计算该音频数据的第一基频序列中第一基频点与第一音频数据的第二基频序列中第二基频点之间的距离，其中，所述第一基频点为所述第一基频序列中任一基频点，所述第二基频点为所述第二基频序列中与所述第一基频点在所述第一基频序列的位置相同的基频点；

根据所述第一基频点与所述第二基频点之间的距离获取该音频数据与所述第一音频数据之间的距离。

可选的，所述按照距离和从小到大的顺序对所述n个音频数据进行排序，并确定排序首位的第二音频数据之后，所述将所述第二音频数据确定为所述目标歌曲的指导音频数据之前，所述方法还包括：

从所述n个音频数据中获取排序前k个音频数据；

根据所述第二音频数据的距离和与所述排序前k个音频数据的距离和计算所述第二音频数据的可用度；

判断所述可用度是否超过预设可用度门限，若是，则执行所述将所述第二音频数据确定为目标歌曲的指导音频数据的操作。

可选的，所述方法还包括：

在所述可用度未超过所述预设可用度门限，或者在将所述第二音频数据确定为所述目标歌曲的指导音频数据时，检测针对所述目标歌曲再次上传的音频数据的第三数量；

当所述第三数量达到第二数量阈值m时，提取所述m个音频数据中每个音频数据的基频序列，其中，m为正整数；

针对n+m个音频数据中的每个音频数据，根据所述基频序列计算该音频数据与第三音频数据之间的距离，并根据所述距离获得该音频数据的距离和，所述第三音频数据为所述n+m个音频数据中除该音频数据之外的任一音频数据；

按照距离和从小到大的顺序对所述n+m个音频数据进行排序，并确定排序首位的第四音频数据；

将所述第四音频数据确定为所述目标歌曲的指导音频数据。

本发明实施例第二方面提供了一种音频数据处理装置，包括：

提取模块，用于提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列，其中，n为正整数；

计算模块，用于针对所述n个音频数据中的每个音频数据，根据所述基频序列计算该音频数据与第一音频数据之间的距离，并根据所述距离获得该音频数据的距离和，所述第一音频数据为所述n个音频数据中除该音频数据之外的任一音频数据；

排序模块，用于按照距离和从小到大的顺序对所述n个音频数据进行排序；

确定模块，用于确定排序首位的第二音频数据，并将所述第二音频数据确定为所述目标歌曲的指导音频数据。

可选的，所述装置还包括：

第一检测模块，用于检测针对目标歌曲上传的音频数据的第一数量；

第一判断模块，用于判断所述第一数量是否达到第一数量阈值，若是，则触发所述提取模块执行所述提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的操作，其中，所述n等于所述第一数量阈值。

可选的，所述计算模块，还用于在所述判断模块判断出所述第一数量达到所述第一数量阈值时，分别计算每个音频数据的噪声能量；

所述装置还包括：

剔除模块，用于将噪声能量大于噪声能量阈值的音频数据从所述第一数量个音频数据中剔除，得到第二数量个音频数据，并触发所述提取模块执行所述提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的操作，其中，所述n等于所述第二数量。

可选的，所述提取模块针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的具体方式为：

可选的，所述计算模块针对所述n个音频数据中的每个音频数据，根据所述基频序列计算该音频数据与第一音频数据之间的距离的具体方式为：

可选的，所述装置还包括获取模块和第二判断模块，其中：

所述获取模块，用于从所述n个音频数据中获取排序前k个音频数据；

所述计算模块，还用于根据所述第二音频数据的距离和与所述排序前k个音频数据的距离和计算所述第二音频数据的可用度；

所述第二判断模块，用于判断所述可用度是否超过预设可用度门限，若是，则触发所述确定模块执行所述将所述第二音频数据确定为目标歌曲的指导音频数据的操作。

可选的，所述装置还包括

第二检测模块，用于在所述第二判断模块判断出所述可用度未超过所述预设可用度门限，或者在所述确定模块将所述第二音频数据确定为所述目标歌曲的指导音频数据时，检测针对所述目标歌曲再次上传的音频数据的第三数量；

所述提取模块，还用于当所述第三数量达到第二数量阈值m时，提取所述m个音频数据中每个音频数据的基频序列，其中，m为正整数；

所述计算模块，还用于针对n+m个音频数据中的每个音频数据，根据所述基频序列计算该音频数据与第三音频数据之间的距离，并根据所述距离获得该音频数据的距离和，所述第三音频数据为所述n+m个音频数据中除该音频数据之外的任一音频数据；

所述排序模块，还用于按照距离和从小到大的顺序对所述n+m个音频数据进行排序；

所述确定模块，还用于确定排序首位的第四音频数据，并将所述第四音频数据确定为所述目标歌曲的指导音频数据。

本发明实施例中，用户在针对目标歌曲上传清唱版本的音频数据后，音频数据处理装置可以提取音频数据的基频序列，并基于基频序列分别计算每个音频数据与其他音频数据之间的距离，得到该音频数据的距离和，从而从多个音频数据中选择出距离和最小(也即是音准最好)的音频数据，以作为指导音频数据。这样其他用户就可以根据该指导音频数据进行练唱，从而能够提高用户练唱的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频数据处理方法的流程示意图；

图2为本发明实施例提供的歌词文件格式的示意图；

图3为本发明实施例提供的另一种音频数据处理方法的流程示意图；

图4为本发明实施例提供的一种音频数据处理设备的结构示意图；

图5为本发明实施例提供的另一种音频数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种音频数据处理方法及装置，可以为用户提供合适的指导版本以指导用户练唱，从而可以提高用户的练唱效果。以下分别进行详细说明。

请参阅图1，为本发明实施例提供的一种音频数据处理方法的流程示意图。本实施例中所描述的方法，包括以下步骤：

101、音频数据处理装置提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列。

本发明实施例中，音频数据处理装置可以应用于客户端、唱歌类应用的服务器等，其中，客户端可以为唱歌类应用、可以为安装唱歌类应用的终端设备，该终端设备可以是笔记本电脑、台式电脑、手机、平板电脑、车载终端、智能可穿戴设备等，本发明实施例不做限定。

本发明实施例中，目标歌曲是指用户需要进行练唱的歌曲，可以是用户指定的需要练唱的歌曲，也可以是音频数据处理装置的数据库中的任意一首歌曲，本发明实施例不做限定。其中，音频数据是指用户练唱目标歌曲的清唱数据，n为正整数。

本发明实施例中，用户可以针对目标歌曲进行练唱，从而将练唱版本上传到音频数据处理装置，音频数据处理装置从而可以从练唱版本中提取出用户清唱的音频数据，然后提取n个音频数据中的每个音频数据的基频序列。

作为一种可行的实施方式，音频数据处理装置提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列之前，还可以执行以下操作：

检测针对目标歌曲上传的音频数据的第一数量；

判断第一数量是否达到第一数量阈值，若是，则执行提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的操作，其中，n等于第一数量阈值。

具体实现中，用户可以将针对目标歌曲练唱的音频数据上传给音频数据处理装置，音频数据处理装置会实时检测针对该目标歌曲总共上传的音频数据的第一数量。音频数据处理装置可以设置数量门限，即第一数量阈值，然后判断第一数量是否达到第一数量阈值，如果达到，对第一数量阈值个音频数据中的每个音频数据进行提取基频序列的操作。

其中，n等于第一数量阈值，n的值越大，n个音频数据中才可能出现效果(音准)较好的清唱音频数据。

作为另一种可行的实施方式，音频数据处理装置还可以在第一数量达到第一数量阈值的情况下，启动目标歌曲的聚类，具体执行以下操作：

分别计算每个音频数据的噪声能量，将噪声能量大于噪声能量阈值的音频数据从第一数量个音频数据中剔除，得到第二数量个音频数据，然后执行提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的操作，其中，n等于第二数量。

具体实现中，由于用户上传的清唱音频数据在录制的时候可能会有较大的背景噪声，这些背景噪声对后续的聚类效果会产生很大的影响，此步骤目的是将噪声过大的音频数据(即噪声能量超过噪声能量阈值的音频数据)过滤掉，步骤如下：

请一并参阅图2，为本发明实施例提供的歌词文件格式的示意图。从图2种的歌词可以看出，正式歌词中每行就是连续演唱的一句话，在歌词开始就标识了这句话在目标歌曲中的起始毫秒数与持续毫秒数，如第一句是从第1.03秒到3.76秒结束，持续了2.73秒，而第一句话与第二句话之间是有一段纯伴奏的，在第3.76秒到4.2秒，由于理论上在目标歌曲的伴奏阶段用户是不会演唱的，那么清唱音频数据中对应的伴奏阶段的能量会很低，如果能量较高的话，即表明该音频数据存在噪声，从而过滤掉对应的音频数据。

本发明实施例中，音频数据处理装置首先会获取每个伴奏阶段在目标歌曲中的起止时间，然后根据起止时间对应获取音频数据中这段时间所对应的数据。

进一步的，音频数据处理装置判断音频数据中伴奏阶段的能量是否超过噪声能量阈值的具体方式为：从该音频数据中确定出所有伴奏阶段对应的采样点，然后获取每个采样点对应的能量，记为x_e，e∈[1,g]，g为采样点的数量，为正整数，从而计算出该音频数据伴奏部分的平均能量，得到该音频数据的噪声能量，记为u，即

当u大于噪声能量阈值时，表明该音频数据的噪声过大，从而将该音频数据从第一数量个音频数据中剔除。

歌曲处理装置对每个音频数据进行上述处理，将噪声能量大于噪声能量阈值的音频数据从第一数量个音频数据中剔除，从而得到第二数量个音频数据，然后执行提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的操作。

其中，n等于第二数量，第二数量小于第一数量。

作为又一种可行的实施方式，音频数据处理装置提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的具体方式可以为：

对基频集合中的基频点进行去噪处理以及去差异化处理，得到每个音频数据的基频序列。

具体实现中，将针对目标歌曲上传的n个音频数据预处理可以理解为：将用户上传的该目标歌曲的清唱音频数据的格式规整为统一的格式，如16k16bit格式，本发明实施例不做限定。

进一步的，将n个音频数据的格式统一后，针对每个音频数据，提取该音频数据中的基频集合，按照指定的帧移和帧长提取基频点，该基频集合中包括多个基频点。其中，指定的帧移可以是10ms，指定的帧长可以为30ms，本发明实施例不做限定。由于用户在发声时声带震动产生的频率经过声道过滤后会产生大量泛音，为了便于后续操作，音频数据处理装置需要从用户上传的音频数据中提取出直接表现声带震动频率的基音，基音也决定了整个音符的音高。

针对音频数据的基频集合，可以对基频集合中的基频点进行去噪处理以及去差异化处理，从而得到该音频数据的基频序列。

可以理解的是：对基频集合中的基频点进行去噪处理的具体方式为：将音频数据对应的伴奏部分的基频点进行奇异基频点置零，即，对于伴奏部分的基频段中，根据与前后基频点的基频值的差异检测出奇异基频点，并将奇异基频点置零；将音频数据对应的非伴奏部分的基频点进行中值滤波，例如，如果非伴奏部分的基频段的长度小于指定数量的帧，如35帧，可以直接将中值滤波的窗口长度设置为该基频段的长度，从而进行中值滤波，如果非伴奏部分的基频段的长度大于或等于指定帧数，可以对每帧数据做10点中值滤波。通过这种方式可以去除音频数据中的噪声频点。

可以理解的是：对基频集合中的基频点进行去差异化处理的具体方式为：如果前后两个不为零的基频段中存在零基频段，且零基频段小于指定数量的帧，如15帧，音频数据处理装置可以将零基频段的基频值都设置为零基频段的前一个基频段中最后一帧对应的基频值。也就是说，不同的用户在唱歌过程中可能换气的时间不同，而换气过程中基频点的基频值可能为零，这样在后续计算两基频序列的距离的过程中，可能会将换气过程中的误差计入进去，而这换气过程中存在的误差并不是影响音频数据音准的因素，因此，将这换气部分的误差去除，可以减少音频数据之间不要的差异，从而有利于音频数据处理装置筛选出的指导音频数据的音准是n个音频数据中效果最好的。

音频数据处理装置可以通过上述方式分别对每个音频数据的基频集合中的基频点进行去噪处理和去差异化处理，从而得到每个音频数据对应的基频序列。

需要说明的是，由于用户是针对同一首歌曲进行练唱，那么上传的音频数据的长度相同，并且每个音频数据都规整为相同的格式，通过上述方式处理后，每个音频数据提取的基频序列中所包含的基频点的数量就相同。

本发明实施例中，可以将每个音频数据的基频序列定义为y_it，其中，i∈[1,n]，t∈[1,h]，n为音频数据的数量，h为每个音频数据的基频序列中基频点的数量。

102、针对n个音频数据中的每个音频数据，音频数据处理装置根据基频序列计算该音频数据与第一音频数据之间的距离，并根据距离获得该音频数据的距离和。

本发明实施例中，音频数据处理装置在提取出n个音频数据中每个音频数据基频序列后，针对每个音频数据，根据基频序列计算该音频数据与第一音频数据之间的距离。其中，第一音频数据为n个音频数据中的任一音频数据，本发明实施例不做限定。

具体的，针对n个音频数据中的每个音频数据，音频数据处理装置根据基频序列计算该音频数据与第一音频数据之间的距离的具体方式可以为：

针对n个音频数据中的每个音频数据，计算该音频数据的第一基频序列中第一基频点与第一音频数据的第二基频序列中第二基频点之间的距离，其中，第一基频点为第一基频序列中任一基频点，第二基频点为第二基频序列中与第一基频点在第一基频序列的位置相同的基频点；

根据第一基频点与第二基频点之间的距离获取该音频数据与第一音频数据之间的距离。

具体实现中，音频数据处理装置会分别针对n个音频数据中的每个音频数据，计算该音频数据的基频序列(第一基频序列)与其他音频数据(第一音频数据)的基频序列(第二基频序列)之间的距离，从而得到n²-n个距离。

其中，音频数据处理装置计算第一基频序列与第二基频序列的具体可以理解为：

从第一基频序列中获取第一基频点，并从第二基频序列中获取第二基频点，计算两个基频点的基频值的差值，其中，第一基频点与第二基频点为在基频序列中位置相同的基频点，如第一基频点为第一基频序列中的第三个基频点，第二基频点同样也为第二基频序列中的第三个基频点。通过这种方式分别计算两个基频序列中每个基频点之间的差值，从而得到两个基频序列的距离，可以用L_ij表示。

其中，i∈[1,n]，j∈[1,n]，i≠j。

音频数据处理装置在得到n²-n个距离L_ij后，会针对每个音频数据，将该音频数据分别与其他音频数据的距离相加，得到该音频数据的距离和，即

通过这种方式，可以得到每个音频数据的距离和。

需要说明的是，计算两个音频数据的基频序列的距离，即为确定两个音频数据的音准的差距的操作。

103、音频数据处理装置按照距离和从小到大的顺序对所述n个音频数据进行排序，并确定排序首位的第二音频数据。

本发明实施例中，音频数据处理装置在计算出每个音频数据的距离和后，会按照距离和从小到大的顺序对n个音频数据进行排序，这样就可以确定出每个音频数据在n个音频数据中音准排序的位置。从而可以确定出排序首位的第二音频数据。

需要说明的是，如果音频数据的音准在n个音频数据中是最好的，那么该音频数据与其他音频数据之间的距离的和应该是最小的，例如，某一歌曲的原唱的音准为(1，3，3，2)，用户上传的音频数据有A、B、C三个，其基频序列依次为(1，2，3，2)、(2，2，3，2)以及(1，3，2，3)，那么A与B的距离为1，A与C的距离为3，B与C的距离为4，因此，A的距离和为4，B的距离和为5，C的距离和为7。从而可以看出A更加接近于原唱。其中，n越大，第二音频数据为音准最好的音频数据的说服力也就越大。

104、音频数据处理装置将第二音频数据确定为目标歌曲的指导音频数据。

本发明实施例中，音频数据处理装置可以将排序首位的第二音频数据作为目标歌曲的指导音频数据，这样其他用户就可以根据该指导音频数据进行目标歌曲的练唱。

可见，在图1所描述的方法中，用户在针对目标歌曲上传清唱版本的音频数据后，音频数据处理装置可以提取音频数据的基频序列，并基于基频序列分别计算每个音频数据与其他音频数据之间的距离，得到该音频数据的距离和，从而从多个音频数据中选择出距离和最小(也即是音准最好)的音频数据，以作为指导音频数据。这样其他用户就可以根据该指导音频数据进行练唱，从而能够提高用户练唱的效果。

请参阅图3，为本发明实施例提供的另一种音频数据处理方法的流程示意图。本实施例中所描述的方法，包括以下步骤：

301、音频数据处理装置提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列。

302、针对n个音频数据中的每个音频数据，音频数据处理装置根据基频序列计算该音频数据与第一音频数据之间的距离，并根据距离获得该音频数据的距离和。

303、音频数据处理装置按照距离和从小到大的顺序对所述n个音频数据进行排序，并确定排序首位的第二音频数据。

步骤301～303同上一实施例中步骤101～103，本发明实施例在此不再赘述。

304、音频数据处理装置从n个音频数据中获取排序前k个音频数据。

本发明实施例中，音频数据处理装置在确定出排序首位的第二音频数据后，可以进一步获取排序前k个音频数据，其中，k可以为3、5或者10，本发明实施例不做限定。例如，音频数据处理装置获取排序前5的所有音频数据，其中，包括第二音频数据。

305、音频数据处理装置根据第二音频数据的距离和与排序前k个音频数据的距离和计算第二音频数据的可用度。

本发明实施例中，音频数据处理装置在获取排序前k个音频数据后，可以根据第二音频数据的距离和以及排序前k个音频数据的距离和来计算第二音频数据的可用度，用f表示。

其中，S₁表示排序首位的音频数据的距离和，S_j表示排序第j位的音频数据的距离和。

需要说明的是，可用度用于表示排序前k个音频数据音准的稳定程度，其值越大，越稳定，即说明排序首位的音频数据与排序前k个音频数据之间的差距越小，排序首位的音频数据作为音准效果较好的音频数据的力度也就越大，从而可以作为指导用户练唱的指导音频数据。

306、音频数据处理装置判断该可用度是否超过预设可用度门限，若是，执行步骤307；若否，执行步骤308。

本发明实施例中，音频数据处理装置可以预先设定可用度门限，当音频数据处理装置计算出第二音频数据的可用度后，会判断该可用度是否超过预设的可用度门限，如果超过，则说明第二音频数据与排序前k个音频数据之间的差距较小，第二音频数据的音准较好，将其作为指导音频数据比较可行，如果没有超过，则不会将其作为指导音频数据，只有在下次聚类时再筛选音准较好的音频数据作为指导音频数据。

也即是说，第二音频数据是n个音频数据中音准较好的音频数据，如果n个音频数据的音准普遍都比较差，这样第二音频数据作为指导音频数据的力度就不够大，如果n个音频数据的音准普遍都比较好，将第二音频数据作为指导音频数据的力度就大。

307、音频数据处理装置将第二音频数据确定为目标歌曲的指导音频数据。

308、音频数据处理装置检测针对该目标歌曲再次上传的音频数据的第三数量，并在第三数量达到第二数量阈值m时，提取m个音频数据中每个音频数据的基频序列。

本发明实施例中，随着用户上传的清唱版本的音频数据的增加，本发明实施例需要迭代，由于每次技术的复杂度较高，所以不会每增加一个音频数据就聚类一次，只有增加的数量达到门限时才会再次进行聚类。

也就是说，音频数据处理装置无论是否从n个音频数据中确定出指导音频数据，都会实时检测针对该目标歌曲上传的音频数据的第三数量。其中，第三数量表示在上一次聚类时音频数据的数量的基础上增加的音频数据的数量。

进一步的，音频数据处理装置会判断第三数量是否达到第二数量阈值m，其中，m为正整数，m可以等于n，也可以小于n，还可以大于n，本发明实施例不做限定。如果达到第二数量阈值，则针对新增加的m个音频数据中的每个音频数据，提取其基频序列。具体方式参见上一实施例中步骤101，本发明实施例在此不再赘述。

309、音频数据处理装置针对n+m个音频数据中的每个音频数据，根据该基频序列计算该音频数据与第三音频数据之间的距离，并根据该距离获得该音频数据的距离和。

本发明实施例中，第三音频数据为n+m个音频数据中的出该音频数据之外的任一音频数据。音频数据处理装置在对m个音频数据中每个音频数据提取基频序列后，会将n个音频数据与m个音频数据合并，统一计算每个音频数据与其他音频数据之间的距离，得到该音频数据的距离和。具体方式参见上一实施例中步骤102，本发明实施例在此不再赘述。

310、音频数据处理装置按照距离和从小到大的顺序对n+m个音频数据进行排序，并确定排序首位的第四音频数据。

本发明实施例中，音频数据处理装置在计算出每个音频数据的距离和后，会按照距离和从小到大的顺序对n+m个音频数据进行排序，从而确定出排序首位的第四音频数据。具体方式参见上一实施例中步骤103，本发明实施例在此不再赘述。

311、音频数据处理装置将第四音频数据确定为该目标歌曲的指导音频数据。

本发明实施例中，音频数据处理装置将第四音频数据确定为该目标歌曲的指导音频数据之前，同样会执行步骤304～306。音频数据处理装置最终是否将第四音频数据作为该目标歌曲的指导音频数据，都会返回执行步骤308～311。

通过这种方式，每次聚类都可以得到音准较好的指导音频数据，经过多次聚类后，筛选出的音频数据的音准效果更好，更适合用以指导用户练唱。

可见，在图3所描述的方法中，音频数据处理装置会通过聚类的方式从上传的音频数据中挑选出距离和最小(也即是音准效果最好)的音频数据，这样得到的指导音频数据的音准效果更加贴近原唱，用户以此清唱版本来指导练唱，能够更加完整精细的注意歌曲的演唱细节，从而能够提高练唱效果。

基于上述实施例所示的音频数据处理方法，本发明实施例还提供了一种音频数据处理设备，该服务平台可以是图1所示的音频数据处理设备，可用于执行上述图1和图3所示方法流程的相应步骤。请参见图4，该音频数据处理设备的内部结构可包括但不限于：处理器、网络接口及存储器。其中，音频数据处理设备内的处理器、网络接口及存储器可通过总线或其他方式连接，在本发明实施例所示图4中以通过总线连接为例。

其中，处理器(或称CPU(Central Processing Unit，中央处理器))是音频数据处理设备的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。存储器(Memory)是音频数据处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的存储装置。存储器提供存储空间，该存储空间存储了服务平台的操作系统，可包括但不限于：Windows系统(一种操作系统)、Linux(一种操作系统)系统等等，本发明对此并不作限定。存储器的存储空间还存储了音频数据处理装置。

在本发明实施例中，音频数据处理设备通过运行存储器中的音频数据设备装置来执行上述图1和图3所示方法流程的相应步骤。请一并参见图5，在执行如挑选音准较好的清唱音频数据的过程中，该装置运行如下单元：

提取模块501，用于提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列，其中，n为正整数。

计算模块502，用于针对n个音频数据中的每个音频数据，根据该基频序列计算该音频数据与第一音频数据之间的距离，并根据该距离获得该音频数据的距离和，其中，第一音频数据为n个音频数据中除该音频数据之外的任一音频数据。

排序模块503，用于按照距离和从小到大的顺序对n个音频数据进行排序。

确定模块504，用于确定排序首位的第二音频数据，并将第二音频数据确定为目标歌曲的指导音频数据。

可选的，该装置还可以包括检测模块505和判断模块506，其中：

检测模块505，用于检测针对目标歌曲上传的音频数据的第一数量。

判断模块506，用于判断第一数量是否达到第一数量阈值，若是，则触发提取模块501执行提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的操作，其中，n等于第一数量阈值。

需要说明的是，检测模块505和判断模块506分别用于执行权利要求中第一检测模块和第一判断模块所执行的操作。

可选的，该装置还可以包括剔除模块507，其中：

计算模块502，还用于在判断模块505判断出第一数量达到第一数量阈值时，分别计算每个音频数据的噪声能量。

剔除模块507，用于将噪声能量大于噪声能量阈值的音频数据从第一数量个音频数据中剔除，得到第二数量个音频数据，并触发提取模块501执行提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的操作。其中，n等于第二数量。

可选的，提取模块501提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的具体方式可以为：

其中，预处理为将n个音频数据的格式规整为相同的格式。对基频集合中的基频点进行去噪处理的具体方式为：将音频数据对应的伴奏部分的基频点进行奇异基频点置零，以及将音频数据对应的非伴奏部分的基频点进行中值滤波，以滤出该音频数据中的噪声频点。对基频集合中的基频点进行去差异化处理的具体方式为：如果前后两个不为零的基频段中存在零基频段，且零基频段小于指定数量的帧，音频数据处理装置可以将零基频段的基频值都设置为零基频段的前一个基频段中最后一帧对应的基频值。

可选的，计算模块502针对n个音频数据中的每个音频数据，根据该基频序列计算该音频数据与第一音频数据之间的距离的具体方式可以为：

可选的，该装置还可以包括获取模块508，其中：

获取模块508，用于从n个音频数据中获取排序前k个音频数据。

计算模块502，还用于根据第二音频数据的距离和与排序前k个音频数据的距离和计算第二音频数据的可用度。

判断模块506，还用于判断该可用度是否超过预设可用度门限，若是，则触发确定模块504执行将第二音频数据确定为目标歌曲的指导音频数据的操作。

其中，可用度用于表示排序前k个音频数据音准的稳定程度，其值越大，越稳定，即说明排序首位的音频数据与排序前k个音频数据之间的差距越小，排序首位的音频数据作为音准效果较好的音频数据的力度也就越大，从而可以作为指导用户练唱的指导音频数据。

需要说明的是，判断模块506用于执行权利要求中第二判断模块所执行的操作。

可选的，检测模块505，还用于在判断模块506判断出第二音频数据的可用度未达到预设可用度门限，或者在确定模块504将第二音频数据确定为为该目标歌曲的指导音频数据时，检测针对目标歌曲再次上传的音频数据的第三数量。

提取模块501，还用于当第三数量达到第二数量阈值m时，提取m个音频数据中每个音频数据的基频序列，其中，m为正整数。

计算模块502，还用于针对n+m个音频数据中的每个音频数据，根据该基频序列计算该音频数据与第三音频数据之间的距离，并根据该距离获得该音频数据的距离和，其中，第三音频数据为n+m个音频数据中除该音频数据之外的任一音频数据。

排序模块503，还用于按照距离和从小到大的顺序对n+m个音频数据进行排序。

确定模块504，还用于确定排序首位的第四音频数据，并将第四音频数据确定为目标歌曲的指导音频数据。

需要说明的是，检测模块505用于执行权利要求中第二检测模块所执行的操作。

本发明实施例中，用户在针对目标歌曲上传清唱版本的音频数据后，音频数据处理装置可以提取音频数据的基频序列，并基于基频序列分别计算每个音频数据与其他音频数据之间的距离，得到该音频数据的距离和，从而从多个音频数据中选择出距离和最小(也即是音准最好)的音频数据，以作为指导音频数据。进一步的，音频数据处理装置还会通过聚类的方式从上传的音频数据中挑选出距离和最小(也即是音准效果最好)的音频数据，这样得到的指导音频数据的音准效果更加贴近原唱，用户以此清唱版本来指导练唱，能够更加完整精细的注意歌曲的演唱细节，从而能够提高练唱效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

以上对本发明实施例所提供的一种音频数据处理方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频数据处理方法，其特征在于，包括：

将所述第二音频数据确定为所述目标歌曲的指导音频数据。

2.根据权利要求1所述的方法，其特征在于，所述提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列之前，所述方法还包括：

检测针对目标歌曲上传的音频数据的第一数量；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1～3任一项所述的方法，其特征在于，所述提取针对目标歌曲上传的n个音频数据中每个音频数据的基频序列，包括：

5.根据权利要求1～3任一项所述的方法，其特征在于，所述针对所述n个音频数据中的每个音频数据，根据所述基频序列计算该音频数据与第一音频数据之间的距离，包括：

6.根据权利要求1所述的方法，其特征在于，所述按照距离和从小到大的顺序对所述n个音频数据进行排序，并确定排序首位的第二音频数据之后，所述将所述第二音频数据确定为所述目标歌曲的指导音频数据之前，所述方法还包括：

从所述n个音频数据中获取排序前k个音频数据；

7.根据权利要求4或6所述的方法，其特征在于，所述方法还包括：

将所述第四音频数据确定为所述目标歌曲的指导音频数据。

8.一种音频数据处理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，

所述计算模块，还用于在所述判断模块判断出所述第一数量达到所述第一数量阈值时，分别计算每个音频数据的噪声能量；

所述装置还包括：

11.根据权利要求8～10任一项所述的装置，其特征在于，所述提取模块针对目标歌曲上传的n个音频数据中每个音频数据的基频序列的具体方式为：

12.根据权利要求8～10任一项所述的装置，其特征在于，所述计算模块针对所述n个音频数据中的每个音频数据，根据所述基频序列计算该音频数据与第一音频数据之间的距离的具体方式为：

13.根据权利要求8所述的装置，其特征在于，所述装置还包括获取模块和第二判断模块，其中：

14.根据权利要求11或13所述的装置，其特征在于，所述装置还包括