CN109920446B

CN109920446B - 一种音频数据处理方法、装置及计算机存储介质

Info

Publication number: CN109920446B
Application number: CN201910188268.5A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2021-03-26
Anticipated expiration: 2039-03-12
Also published as: CN109920446A; WO2020181782A1

Abstract

本发明提供了一种音频数据处理方法，其特征在于，包括：获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频；获取所述干声音频数据的非零基频的概率分布，根据所述概率分布确定所述干声音频数据的主基频；根据所述主基频，在所述干声音频数据中选择目标音频数据；根据所述目标音频数据的基频，确定所述目标音频数据对应的目标谐波能量；根据所述目标谐波能量确定所述干声音频数据的第一音色质量数据，所述第一音色质量数据用于衡量所述干声音频数据的音色。本发明能够客观、准确地对干声音频数据的音色进行评分。

Description

一种音频数据处理方法、装置及计算机存储介质

技术领域

本发明涉及多媒体信息技术，尤其涉及一种音频数据处理方法、装置及计算机存储介质。

背景技术

音色又称音品，是听觉感到的声音的特色。不同的人具有不同的音色。圆润、优美的音色让人赏心悦目，而单薄的音色听起来显得声音发“涩”。现有技术中通过主观的感受判断歌唱者的音色的好坏，然而，这些主观感受因人而异，难以量化，因此无法对音色的质量做出客观准确的判断，也无法对演唱者的音色进行评分。

发明内容

本发明实施例提供了一种音频数据处理方法、装置及计算机存储介质，能够客观、准确对音频的音色进行评分。

本发明实施例一方面提供了一种音频数据处理方法，包括：

获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频；

获取所述干声音频数据的非零基频的概率分布，根据所述概率分布确定所述干声音频数据的主基频；

根据所述主基频，在所述干声音频数据中选择目标音频数据；

根据所述目标音频数据的基频，确定所述目标音频数据对应的目标谐波能量；

根据所述目标谐波能量确定所述干声音频数据的第一音色质量数据，所述第一音色质量数据用于衡量所述干声音频数据的音色。

其中，所述根据所述主基频，在所述干声音频数据中选择目标音频数据，包括：

将所述干声音频数据的非零基频，作为第一基频；

在所述干声音频数据中，将所述第一基频与所述主基频的差值小于预设差值的帧，作为候选帧；

将时间连续的候选帧进行组合，得到至少一个候选音频数据，从所述至少一个候选音频数据中选取时长最大的候选音频数据，作为目标音频数据。

其中，所述根据所述目标音频数据的基频，确定所述目标音频数据对应的目标谐波能量，包括：

将所述目标音频数据中每一帧的第二基频作为第二基频；

根据所述第二基频确定至少一阶的待选谐波能量；每阶所述待选谐波能量是根据所述第二基频和预设倍数确定得到，所述预设倍数为所述待选谐波能量的阶数；

将所述至少一阶待选谐波能量组合为目标谐波能量。

其中，所述根据所述第二基频确定至少一阶的待选谐波能量，包括：

将所述目标音频数据中的目标帧的基频确定为待处理基频；

获取与目标阶数对应的所述预设倍数，根据所述预设倍数和所述待处理基频确定中心频率，根据所述中心频率和范围阈值确定与所述待处理基频相对应的频率范围；

根据傅里叶变换获取所述频率范围内的每个基频对应的能量值；

将最大的能量值确定为能量数据；

当所述目标音频数据中的每个帧的基频均被确定为所述待处理基频时，将所述目标音频数据中的每个帧的基频分别对应的能量数据的平均值，确定为与所述目标阶数对应的待选谐波能量。

其中，所述根据所述目标谐波能量确定所述干声音频数据的第一音色质量数据，包括，

根据所述目标谐波能量中每阶的待选谐波能量与最小的待选谐波能量的差值及每个差值分别对应的加权系数，确定所述干声音频数据的第一音色质量数据。

其中，所述获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频，包括：

获取干声音频数据，根据不同截止频率的低通滤波器，获取所述干声音频数据中每一帧的多个待选基频和每个所述待选基频对应的基频可信度，所述基频可信度是根据所述低通滤波器输出的音频数据与正弦波的接近程度计算得到；

将所述干声音频数据中每一帧的最高基频可信度对应的待选基频，分别确定为所述干声音频数据中每一帧的基频。

其中，获取所述干声音频数据的非零基频的概率分布，根据所述概率分布确定所述干声音频数据的主基频，包括：

在所述干声音频数据中，将信号峰值小于预设峰值的帧对应的基频置零；

将所述干声音频数据的非零基频组合形成基频集；

根据所述基频集中的每个基频、所述每个基频的数量占所述基频集中基频的总数的百分比，生成基频概率分布，所述基频概率分布包括所述基频集中每个基频的分布概率；

确定所述基频集中分布概率最大的基频为主基频。

其中，所述音频数据处理方法还包括：

在所述基频概率分布中，查找第一分布概率对应的基频，确定为下限基频；

在所述基频概率分布中，查找第二分布概率对应的基频，确定为上限基频；

将所述上限基频、所述下限基频、所述上限基频与所述下限基频之间的基频组合为基频范围，将所述基频范围确定为第二音色质量数据。

本发明实施例另一方面提供了一种音频数据处理装置，包括：

第一获取模块，用于获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频；

第二获取模块，用于获取所述干声音频数据的非零基频的概率分布，根据所述概率分布确定所述干声音频数据的主基频；

选择模块，用于根据所述主基频，在所述干声音频数据中选择目标音频数据；

第一确定模块，用于根据所述目标音频数据的基频，确定所述目标音频数据对应的目标谐波能量；

第二确定模块，用于根据所述目标谐波能量确定所述干声音频数据的第一音色质量数据，所述第一音色质量数据用于衡量所述干声音频数据的音色。

本发明实施例另一方面提供了一种音频数据处理装置，包括：处理器和存储器；

所述处理器和所述存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中一方面中的方法。

本发明实施例另一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频；获取所述干声音频数据的非零基频的概率分布，根据所述概率分布确定所述干声音频数据的主基频；根据所述主基频，在所述干声音频数据中选择目标音频数据；根据所述目标音频数据的基频，确定所述目标音频数据对应的目标谐波能量；根据所述目标谐波能量确定所述干声音频数据的第一音色质量数据，第一音色质量数据为对干声音频数据的音色进行量化及客观评测的分数，以使音色的评测不受到主观因素的影响，且该方法能够快速高效地对海量音频的音色进行评分，具有稳定性、客观性以及高效性等优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频数据处理方法的场景示意图。

图2是本发明实施例提供的一种音频数据处理方法的流程示意图。

图3是本发明实施例提供的另一种音频数据处理方法的流程示意图。

图4是本发明实施例提供的一种从低通滤波器输出的信号波形示意图。

图5是本发明实施例提供的干声音频数据的基频集中基频的概率分布示意图。

图6是本发明实施例提供的一种第一音色质量数据和第二音色质量数据的界面显示图。

图7是本发明实施例提供的一种获取待选谐波能量的示意图。

图8是本发明实施例提供的一种音频数据处理装置的结构示意图。

图9是本发明实施例提供的另一种音频数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种音频数据处理方法的场景示意图。

如图1所示，用户可以从电子设备100中打开播放音频数据的客户端200(例如，音乐播放客户端，广播收听客户端等)，从客户端200中选取已经存储的音频1作为待处理的干声音频数据300，当然用户也可以通过客户端200进行实时录音，将实时录下的音频作为待处理的干声音频数据300，干声音频数据300一般指未经过任何后期处理和加工的纯人声。客户端200可以将干声音频数据300通过不同截止频率的低通滤波器，得到干声音频数据300中每一帧的多个待选基频及每个待选基频分别对应的基频可信度，例如，干声音频数据300中一帧的多个待选基频分别为F1，F2，…，Fa，…，Fk，其中，F1，F2，…，Fa，…，Fk分别对应的基频可信度为0.2，20，…，100，…，50。其中，最大基频可信度为100，最大基频可信度100对应的待选基频为Fa。将最大基频可信度100对应的待选基频Fa确定为干声音频数据300中一帧的基频，同理可获得干声音频数据中每一帧的基频。进一步获取所述基频中非零基频的概率分布，将出现概率最大的基频作为干声音频数据300的主基频。例如，统计干声音频数据300中每一帧的基频，获取每一帧的基频的范围在50Hz～450Hz之间，且取值为225Hz的基频出现的概率最大，因此，将225Hz作为该干声音频数据300的主基频。在干声音频数据300中，选取一段基频与主基频的相差值较小并且时间连续最长的目标音频数据。例如，在0～120s的干声音频数据300中，有5段候选音频数据中每帧的基频与主基频之差均小于预设值，这5段候选音频数据分别为10～13s、36～37s、59～64s、78～80s、103～105s的音频数据，那么选取时长最长的59～64s的候选音频数据作为目标音频数据。利用傅里叶变换将目标音频数据从时域转换到频域，得到目标音频数据中第一阶的谐波能量E1、第二阶的谐波能量E2、第三阶的谐波能量E3……、第n阶的谐波能量En。其中，谐波能量可以为声音中的谐波在频域中对应的振幅。根据n个谐波能量确定干声音频数据300的音色质量数据，并将干声音频数据300的音色质量数据显示在电子设备的屏幕上，具体的，在电子设备的屏幕上显示“您的得分是88分”。一般而言，声音中的谐波成份越多，音色越优美。可以根据n个谐波能量对音色的质量进行量化，从而实现对音色的质量评测。通过以上的方法可以对音色进行客观的评测，不受到主观因素的影响，且该方法能够快速高效地对海量音频的音色进行评分，提高音色质量评估效率。上述电子设备100包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)等具有播放音乐或收听音乐等功能的设备。

其中，对音频数据进行处理的具体流程可以参见图2与图3所对应的实施例。

进一步地，请参见图2，图2是本发明实施例提供的一种音频数据处理方法的流程示意图。如图2所示，该方法可以包括：

步骤S101，获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频。

具体的，可以通过客户端触发对干声音频数据进行评分的指令，以对干声音频数据的音色进行评分。在处理干声音频数据的过程中，先要获取所述干声音频数据中每一帧对应的基频。具体的，在基频获取过程中，获取所述干声音频数据中每一帧对应的多个待选基频及每一个待选基频分别对应的基频可信度，并根据基频可信度的大小在多个待选基频中选取所述干声音频数据中每一帧对应的基频。可以理解的，声音信号中频率最低的正弦波是基音，基音的频率是基频。

其中，干声音频数据的格式、大小、声道数不限。干声音频数据可以是输入的音频数据的一部分，也可以是整段输入的音频数据。

步骤S102，获取所述干声音频数据的非零基频的概率分布，根据所述概率分布确定所述干声音频数据的主基频。

由于干声音频数据中部分数据段具有人声，部分数据段没有人声，所以在获取的干声音频数据中对应的基频中，一部分基频为有人声的数据段对应的基频；另一部分基频为没有人声的数据段对应的基频，而这些没有人声的数据段对应的基频会对计算干声音频数据的主基频造成干扰及增加计算量。可以通过将没有人声的数据段对应的基频置零，并获取所述干声音频数据的基频中非零基频的概率分布，确定概率最大的候选音频为干声音频数据的主基频。

步骤S103，根据所述主基频，在所述干声音频数据中选择目标音频数据。

具体的，在确定干声音频数据的主基频之后，在干声音频数据的多帧数据中，选取基频与主基频相差值较小且由相连续的多个帧，这多个帧组合形成的候选音频数据；当上述的候选音频数据为一个时，将该候选音频数据确定为目标音频数据；当上述的候选音频数据具有多个时，选取时长最长的候选音频数据确定为目标音频数据。可以理解的，目标音频数据中每一帧的基频分布稳定，基频之间的方差最小，并且每一帧对应的基频的均值接近或者等于主基频。假如在获取的候选音频数据中，有两个或者两个以上的音频数据段的时长最长，可以在这些音频数据段中，选取基频更接近主基频的音频数据段作为目标音频数据。根据目标音频数据计算干声音频数据的音色质量可以提高音频数据处理的效率，实现快速地对海量的音频的音色评分。

步骤S104，根据所述目标音频数据的基频，确定所述目标音频数据对应的目标谐波能量。

具体的，在确定了目标音频数据之后，将目标音频数据的每一帧进行傅里叶变换，以将目标音频数据从时域转换至频域，得到目标音频数据的频谱图。

在目标音频数据中，根据基频和谐波的阶数计算每一帧的各阶谐波的频率；再对每一帧进行傅里叶变换，计算每一帧的各阶谐波的频率对应的各阶谐波能量，生成音频帧与谐波能量之间的对应关系的二维矩阵，根据矩阵得到形成一列待选谐波能量，一列待选谐波能量组合形成目标谐波能量。

步骤S105，根据所述目标谐波能量确定所述干声音频数据的第一音色质量数据，所述第一音色质量数据用于衡量所述干声音频数据的音色。

请参见图1，根据一列待选谐波能量的阶数及待选谐波能量将音色质量量化，获取音色分数，即第一音色质量数据，以客观地快速地评估一段干声音频数据的音色质量。可以理解的，谐波的成份越多，音色的圆润度越好。进一步地，可以将音色分数显示在电子设备的屏幕上，例如，显示“您的得分是88分”，以使用户可以直观地看到干声音频数据的音色评分。

进一步的，请参见图3，图3是本发明实施例提供的另一种音频数据处理方法的流程示意图。如图3所示，该方法可以包括如下步骤：

步骤S201，获取干声音频数据，根据不同截止频率的低通滤波器，获取所述干声音频数据中每一帧的多个待选基频和每个所述待选基频对应的基频可信度，所述基频可信度是根据所述低通滤波器输出的音频数据与正弦波的接近程度计算得到；将所述干声音频数据中每一帧的最高基频可信度对应的待选基频，分别确定为所述干声音频数据中每一帧的基频。

具体的，低通滤波器能够容许低于截止频率的输入信号通过，但高于截止频率的输入信号不能通过。将干声音频数据通过不同截止频率的低通滤波器，获取多个不同的输出信号，计算不同的输出信号对应的待选基频和每个所述待选基频对应的基频可信度，其中，基频可信度根据所述低通滤波器输出的音频数据与正弦波的接近程度计算得到，选取基频可信度最大的待选基频为干声音频数据的基频。经过多次不同截止频率的试探，直至从低通滤波器中的输出信号基本为正弦波，将与正弦波相近的输入信号的频率确定为干声音频数据的基频。而基频可信度表征从低通滤波器的输出信号与正弦波的接近程度，所以根据所述待选基频对应的基频可信度可以确定将哪一个输出信号的频率确定为干声音频数据的基频。

请一并参见图4，图4为干声音频数据中一帧音频数据通过低通滤波器的输出信号的示意图，将干声音频数据的一帧通过低通滤波器，将低通滤波器的输出信号记为S，周期为T；在S中任意截取四段子信号，这四段子信号分别为S1、S2、S3和S4，每段子信号的时长为T，S1的起始时间为S的起始时间，S2的起始时间为T/4，S3的起始时间为T/2，S4的起始时间为3T/4；计算这四段子信号在横轴上的跨度的平均值和标准差，以这个平均值的倒数作为输出信号S的待选基频，以这四段子信号的跨度的标准差的倒数作为这个待选基频的基频可信度。假如输出信号为正弦波，在正弦波中截取四段子信号S1，S2，S3和S4，那么这四段子信号在横轴上的跨度应该相同，且这四段子信号的跨度的标准差为0，这四段子信号的跨度的长短差异最小。也就是说，当这四段子信号的跨度的标准差越小时，输出信号S越接近正弦波，取输出信号S的基频可信度越高；而当这四段子信号的跨度的标准差越大时，说明这四段子信号的跨度的长短差异越大，那么输出信号S与正弦波相差越大，取输出信号S的基频可信度就较低。计算从不同截止频率的低通滤波器中输出信号的待选基频和基频可信度，选取基频可信度最大的待选基频作为干声音频数据的基频。基于上述的基频提取方法，可以获取干声音频数据中每一帧的基频。

当然，在其他实施例中，获取所述干声音频数据的基频的方法还可以将每一帧利用自相关法确定估计基音周期，根据基音周期可以得到基频。

步骤S202，在所述干声音频数据中，将信号峰值小于预设峰值的帧对应的基频置零；将所述干声音频数据的非零基频组合形成基频集。根据所述基频集中的每个基频、所述每个基频的数量占所述基频集中基频的总数的百分比，生成基频概率分布，所述基频概率分布包括所述基频集中每个基频的分布概率；确定所述基频集中分布概率最大的基频为主基频。

具体的，在获取干声音频数据的基频之后，可以将干声音频数据中有效帧的基频筛选出来，而将干声音频数据中无效帧的基频排除掉，以免无效帧的基频对计算整个干声音频数据的主基频的获取造成干扰。其中，有效帧为干声音频数据中具有人声的帧，无效帧为干声音频数据中没有人声的帧，例如上一句歌词与下一句歌词之间的间隙。

具体的，在所述干声音频数据中，将信号峰值小于预设峰值的帧对应的基频置零，并将所述干声音频数据的非零基频组合形成基频集，即将信号峰值大于等于所述预设峰值的帧对应的基频组合形成基频集。基频集为有效帧对应的基频。一般而言，有效帧的信号峰值大于无效帧的信号峰值。通过设置预设峰值，在干声音频数据中，将信号峰值大于预设峰值的帧确定为有效帧，将信号峰值小于预设峰值的帧确定为无效帧。例如，该阈值预设峰值可以为40分贝，在干声音频数据中，筛选信号峰值大于40分贝的音频段中的帧确定为有效帧，而除去有效帧之外的帧为无效帧。有效帧对应的基频组合形成基频集，并将无效帧对应的基频置零，以有效地去除噪声的基频对于人声的基频的干扰，提高对干声音频信号的基频的提取效率。

进一步地，可以先对干声音频数据中每一帧的信号峰值进行归一化，再将一帧的信号峰值与所述预设峰值进行比较，以简化计算过程，以更快地获取每一帧的信号峰值，有效地去除噪声的基频对于人声的基频的干扰，提高对干声音频信号的主基频的提取效率。

当然，在其他实施例中，还可以在干声音频数据通过低通滤波器前去除干声音频数据中无效帧。

请一并参见图5，图5为基频集中的每个基频的概率分布示意图。在将所述干声音频数据的非零基频并形成基频集之后，统计所述基频集中的每个基频与所述每个基频的数量占所述基频集中基频的总数的百分比，生成基频概率分布，确定所述基频集中分布概率最大的基频为主基频，其具体的实施方式包括但不限于：在基频集中，计算每个基频的概率分布，生成表征每个基频与每个基频的分布概率的基频概率分布。根据基频概率分布，确定取值为225Hz基频fc出现的概率最大，可以确定225Hz为干声音频数据的主基频。

在其他实施例中，在所述基频概率分布中，查找第一分布概率对应的基频，确定为下限基频；在所述基频概率分布中，查找第二分布概率对应的基频，确定为上限基频；将所述上限基频、所述下限基频、所述上限基频与所述下限基频之间的基频组合为基频范围，将所述基频范围确定为第二音色质量数据。举例而言，如图5所示，第一分布概率和第二分布概率分别为0.2和0.8，从基频的数值由小至大的方向，查找第一分布概率为0.2的基频，确定下限基频fl为165Hz；从基频的数值由大至小的方向，查找第二分布概率为0.8的基频，确定上限基频fu为370Hz。将下限基频fl与上限基频fu之间的基频范围确定为基音范围，基音范围为评价干声音频数据的第二音色质量数据。第二音色质量数据可以表征音调的高低，以对用户声音特点的辅助分析，丰富对用户声音的特征的评价。

进一步地，如图6所示，还可以将干声音频数据的第一音色质量数据和第二音色质量数据显示在电子设备的屏幕上，例如，显示“您的分数为88分”显示“您的基音范围为165～370Hz”，以使用户能够直观地看到干声音频数据的音调的高低范围，以评价干声音频数据的质量。

步骤S203，将所述干声音频数据的非零基频，作为第一基频。在所述干声音频数据中，将所述第一基频与所述主基频的差值小于预设差值的帧，作为候选帧；将时间连续的候选帧进行组合，得到至少一个候选音频数据，从所述至少一个候选音频数据中选取时长最大的候选音频数据，作为目标音频数据。

具体的，在所述干声音频数据中，比较第一基频与主基频，将第一基频小于预设差值的帧确定为候选帧。其中，预设差值可以根据实际情况而定。举例而言，干声音频数据的主基频为225Hz，预设差值为5Hz。可以比较第一基频与主基频，将第一基频与主基频之间的差值小于5Hz的帧，即第一基频范围在220Hz～230Hz之间的帧，作为候选帧。

具体的，候选帧包括在时间上分离的帧和在时间上连续的帧，将时间相连续的帧进行组合，形成至少一个候选音频数据。可以理解的，当预设差值为5Hz时，获选音频数据中的这些帧的基频范围在220Hz～230Hz之间。在至少一个获选音频数据中，将时长最长的获选音频数据作为目标音频数据。当上述的候选音频数据为一个时，将该候选音频数据确定为目标音频数据；当上述的候选音频数据具有多个时，选取时长最长的候选音频数据确定为目标音频数据。根据目标音频数据计算干声音频数据的音色质量可以提高音频数据处理的效率，实现快速地对海量的音频的音色评分。

举例而言，请参阅图1中选取目标音频数据的示意图。在时长为120s的干声音频数据中，获取第一基频与主基频相差值小于5Hz且由相连续的帧组成的音频数据段。假如，干声音频数据的主基频为225Hz，即选取多个相连续的帧且这多个连续帧中每一帧的基频都在220Hz～230Hz之间。获取的音频数据段分别为10～13s、36～37s、59～64s、78～80s及103～105s。将这些音频数据段确定为候选音频数据，且选取候选音频数据中时长最长的音频数据段59～64s作为目标音频数据。

具体的，假如在获取的候选音频数据中，有两个或者两个以上的音频数据段的时长最长，可以在这些音频数据段中，选取第一基频更接近主基频的音频数据段作为目标音频数据。

步骤S204，将所述目标音频数据中每一帧的基频作为第二基频；根据所述第二基频确定至少一阶的待选谐波能量；每阶所述待选谐波能量是根据所述第二基频和预设倍数确定得到，所述预设倍数为所述待选谐波能量的阶数。

具体的，在获取目标音频数据之后，提取目标音频数据的基频作为第二基频。可以理解的，所述目标音频数据中每一帧对应的第二基频分布稳定，且第二基频之间的方差小，并且每一帧对应的第二基频的均值接近或者等于主基频。

具体的，根据所述第二基频确定至少一阶的待选谐波能量的实施方式包括但不限于：将所述目标音频数据中的目标帧的基频确定为待处理基频。获取与目标阶数对应的所述预设倍数，根据所述预设倍数和所述待处理基频确定中心频率，根据所述中心频率和范围阈值确定与所述待处理基频相对应的频率范围；根据傅里叶变换获取所述频率范围内的每个基频对应的能量值；将最大的能量值确定为能量数据；当所述目标音频数据中的每个帧的基频均被确定为所述待处理基频时，将所述目标音频数据中的每个帧的基频分别对应的能量数据的平均值，确定为与所述目标阶数对应的待选谐波能量。

具体的，在目标音频数据中选取一帧为目标帧，将目标帧的基频确定为待处理基频，根据待处理基频获取目标帧中的谐波的频率。一般而言，谐波的频率为待处理基频的整数倍。该整数值为谐波的阶数。然而，在实际应用中，谐波的频率可能与待处理基频的整数倍具有一定的偏差，可以将谐波的频率确定为在待处理基频的整数倍的基础上上下浮动一定值。举例而言，待处理基频为222Hz，目标帧的一阶谐波的频率可以是(222-50)Hz～(222+50)Hz，目标帧的2阶谐波的频率可以是(222*2-50)Hz～(222*2+50)Hz，目标帧的n阶谐波的频率可以是(222*n-50)Hz～(222*n+50)Hz。其中，n是整数。以上可以得到目标帧的第1～n阶的谐波频率范围。

具体的，在确定了目标音频数据之后，将目标音频数据的每一帧进行傅里叶变换，以将目标音频数据从时域转换至频域，得到目标音频数据的频谱图。根据傅里叶变换，将目标帧的第一阶谐波频率范围形成第一阶能量区间，将目标帧的第二阶谐波频率范围形成第二阶能量区间，将目标帧的第三阶谐波频率范围形成第三阶能量区间，直至将目标帧的第n阶谐波频率范围形成第n阶能量区间。其中，每个能量区间为目标帧的对应阶的谐波频率范围在频域内对应的能量。能量区间中能量的单位为分贝。将第一阶能量区间中的最大值确定为目标帧的第一阶能量数据，将第n阶能量区间中的最大值确定为目标帧的第n阶能量数据。具体的，目标音频数据中的每一帧都可以被确定为目标帧，也就是说每一个第一基频均可以被确定为所述待处理基频，按照上述的方法可以计算得到目标音频数据中每一帧对应的第1阶能量数据、第2阶能量数据……第n阶能量数据。

举例而言，请参阅图7，目标帧的基频为222Hz，目标帧的谐波的频率可以是(222*n-50)Hz～(222*n+50)Hz。当n取值为i时，目标帧的i阶谐波的频率为(222*i-50)Hz～(222*i+50)Hz；将目标帧进行傅里叶变换，计算(222*i-50)Hz～(222*i+50)Hz中每一个频率所对应的能量，以形成目标帧的第i阶能量区间，将第i阶能量区间中的最大值确定为目标帧的第i阶谐波能量数据，其中，i的取值为[1,n]之间的整数，n为谐波的阶数。当目标帧为目标音频数据中的第2帧时，目标帧中第1阶谐波能量数据E12，目标帧中第2阶谐波能量数据E22，目标帧中第i阶谐波能量数据Ei2，目标帧中第n阶谐波能量数据En2。当i取值为2时，第2帧的第二阶谐波能量数据为E22。

进一步地，在目标音频数据的目标阶数的谐波中，将所述目标音频数据中的每个帧分别对应的能量数据的平均值，确定为与所述目标阶数对应的待选谐波能量，以得到至少一阶的待选谐波能量。换而言之，将目标音频数据中所有帧对应的第1阶能量数据取算术平均值，并将这个算术平均值确定为第1阶待选谐波能量，将目标音频数据中所有帧对应的第n阶能量数据取算术平均值，并将这个算术平均值确定为第n阶待选谐波能量。

进一步地，如图7所示，目标音频数据包括m帧数据，目标音频数据中谐波的阶数是n。目标音频数据中每一帧对应的第1阶谐波能量数据至第n阶谐波能量数据形成如图7所示的二维矩阵。当目标阶数为i时，计算目标阶数i对应的谐波能量数据(Ei1、Ei2、Ei3、……、Eim)的算术平均数为Ei，并将Ei确定为目标音频数据的第i阶待选谐波能量。其中，i的取值为[1～n]，n为目标音频数据的谐波的阶数。可以确定目标音频数据的第1阶至第n阶的待选谐波能量。其中，本实施例对n的取值不做限定，n的取值可以根据实施情况而定。

步骤S205，将所述至少一阶待选谐波能量组合为目标谐波能量。

目标音频数据中第一阶待选谐波能量为E1，第二阶待选谐波能量为E2，第i阶待选谐波能量为Ei，第n阶待选谐波能量为En，其中，i的取值为[1～n]，n为目标音频数据的谐波的阶数。将目标音频数据所有阶数的待选谐波能量组合形成目标谐波能量，目标谐波能量为(E1、E2、…、Ei、…、En)。

步骤S206，根据所述目标谐波能量中每阶的待选谐波能量与最小的待选谐波能量的差值及每个差值分别对应的加权系数，确定所述干声音频数据的第一音色质量数据。

具体的，如公式(1)所示，Score为第一音色质量数据，Max为目标谐波能量中最大的待选谐波能量，Min为目标谐波能量中最小的待选谐波能量，αi为加权系数，N为谐波的阶数，i的取值为1至N之间的整数。在目标谐波能量中，查找出最大的待选谐波能量Max和最小的待选谐波能量Min，将最大的待选谐波能量Max和最小的待选谐波能量Min之差(Max-Min)确定为值域；计算目标谐波能量中的每一个待选谐波能量与最小的待选谐波能量的差值，并将所述每个差值与每个差值分别对应的加权系数相乘，再计算各个乘以加权系数后的差值的算术平均值；最后，将上一步得到的算术平均值除以值域，得到中间值，用1减去这个中间值并换算为百分制，得到第一音色质量数据。

具体的，在目标谐波能量中，低阶的谐波能量占比越大，音色质量越大；高阶能量占比越大，质量越小。即对于前n阶谐波能量，若较大的Ei主要存在于i较小时，则Score较大；反之，若较大的Ei主要存在于i较大时，则Score较小，从而可以将音色质量量化，以对干声音频数据进行客观、准确的评分。

具体的，第一音色质量数据可以输出并显示在电子设备的屏幕上，以便于可以在客户端上直观地看到第一音色质量数据。

本发明实施例获取干声音频数据，根据不同截止频率的低通滤波器，获取所述干声音频数据中每一帧的多个待选基频和每个所述待选基频对应的基频可信度；在所述干声音频数据中，将信号峰值小于预设峰值的帧对应的基频置零，将所述干声音频数据的基频中非零基频组合形成基频集，根据所述基频集中的每个基频、所述每个基频的数量占所述基频集中基频的总数的百分比，生成基频概率分布，确定所述基频集中分布概率最大的基频为主基频，在所述干声音频数据中，将所述第一基频与所述主基频的差值小于预设差值的帧，作为候选帧，将时间连续的候选帧进行组合，得到至少一个候选音频数据，从所述至少一个候选音频数据中选取时长最大的候选音频数据，作为目标音频数据。根据目标音频数据的基频确定至少一阶的待选谐波能量，根据每阶的待选谐波能量与最小的待选谐波能量的差值及每个差值分别对应的加权系数，确定所述干声音频数据的第一音色质量数据，以使音色的评测不受到主观因素的影响，且该方法能够快速高效地对海量音频的音色进行评分，具有稳定性、客观性以及高效性等优点。

进一步地，请参见图8，图8是本发明实施例提供的一种音频数据处理装置的结构示意图，如图8所示，上述音频数据处理装置1可以应用于电子设备，所述电子设备可包括屏幕，上述音频数据处理装置1可以包括：

第一获取模块10，用于获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频；

第二获取模块20，用于获取所述干声音频数据的非零基频的概率分布，根据所述概率分布确定所述干声音频数据的主基频；

选择模块30，用于根据所述主基频，在所述干声音频数据中选择目标音频数据；

第一确定模块40，用于根据所述目标音频数据的基频，确定所述目标音频数据对应的目标谐波能量；

第二确定模块50，根据所述目标谐波能量确定所述干声音频数据的第一音色质量数据，所述第一音色质量数据用于衡量所述干声音频数据的音色。

其中，第一获取模块10，第二获取模块20，选择模块30，第一确定模块40和第二确定模块50的具体功能实现方式可以参见上述图2对应实施例中的步骤S101-步骤S105，这里不再进行赘述。

本发明实施例通过第一获取模块10获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频；第二获取模块20获取所述干声音频数据的非零基频的概率分布，根据所述概率分布确定所述干声音频数据的主基频；选择模块30根据所述主基频，在所述干声音频数据中选择目标音频数据；第一确定模块40根据所述目标音频数据的基频，确定所述目标音频数据对应的目标谐波能量；第二确定模块50所述目标谐波能量确定所述干声音频数据的第一音色质量数据，第一音色质量数据为对干声音频数据的音色进行量化及客观评测的分数，以使音色的评测不受到主观因素的影响，且该方法能够快速高效地对海量音频的音色进行评分，具有稳定性、客观性以及高效性等优点。

进一步地，如图8所示，上述第一获取选择模块10包括：第三获取模块101和第三确定模块102；

第三获取模块101，用于获取干声音频数据，根据不同截止频率的低通滤波器，获取所述干声音频数据中每一帧的多个待选基频和每个所述待选基频对应的基频可信度，所述基频可信度是根据所述低通滤波器输出的音频数据与正弦波的接近程度计算得到；将所述干声音频数据中每一帧的最高基频可信度对应的待选基频，分别确定为所述干声音频数据中每一帧的基频。

第三确定模块102，用于将最高的所述基频可信度对应的待选基频确定为基频。

其中，上述第三获取模块101和第三确定模块102的具体功能实现方式可以参见上述图3对应实施例中的步骤S201，这里不再进行赘述。

进一步地，如图8所示，上述第二获取选择模块20包括：第一组合模块201和生成模块202；

第一组合模块201，用于在所述干声音频数据中，将信号峰值小于预设峰值的帧对应的基频置零；将所述干声音频数据的非零基频组合形成基频集。

生成模块202，用于根据所述基频集中的每个基频、所述每个基频的数量占所述基频集中基频的总数的百分比，生成基频概率分布，所述基频概率分布包括所述基频集中每个基频的分布概率；确定所述基频集中分布概率最大的基频为主基频。

其中，上述第一组合模块201和生成模块202的具体功能实现方式可以参见上述图3对应实施例中的步骤S202，这里不再进行赘述。

进一步地，如图8所示，上述选择模块30还用于将所述干声音频数据的非零基频，作为第一基频。在所述干声音频数据中，将所述第一基频与所述主基频的差值小于预设差值的帧，作为候选帧；将时间连续的候选帧进行组合，得到至少一个候选音频数据，从所述至少一个候选音频数据中选取时长最大的候选音频数据，作为目标音频数据。

其中，上述选择模块30的具体功能实现方式可以参见上述图3对应实施例中的步骤S203，这里不再进行赘述。

进一步地，如图8所示，第一确定模块40还包括第四确定模块401和第二组合模块402，

第四确定模块401，用于将所述目标音频数据中每一帧的基频作为第二基频；根据所述第二基频确定至少一阶的待选谐波能量；每阶所述待选谐波能量是根据所述第二基频和预设倍数确定得到，所述预设倍数为所述待选谐波能量的阶数。

第二组合模块402，用于将所述至少一阶待选谐波能量组合为目标谐波能量。

其中，上述第四确定模块401和第二组合模块402的具体功能实现方式可以参见上述图3对应实施例中的步骤S204-步骤S205，这里不再进行赘述。

进一步地，如图8所示，第二确定模块50还用于根据所述目标谐波能量中每阶的待选谐波能量与最小的待选谐波能量的差值及每个差值分别对应的加权系数，确定所述干声音频数据的第一音色质量数据。

其中第二确定模块50的具体功能实现方式可以参见上述图3所对应实施例中的步骤S206，这里不在进行赘述。

请参见图9，图9是本发明实施例提供的另一种音频数据处理装置的结构示意图。如图9所示，上述音频数据处理装置1000可以应用于上述图2对应实施例中的终端设备，上述音频数据处理装置1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述音频数据处理装置1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的音频数据处理装置1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在一个实施例中，上述处理器1001在执行所述干声音频数据的基频与所述主基频，在所述干声音频数据中选择目标音频数据时，具体执行以下步骤：

将所述干声音频数据的非零基频，作为第一基频；

在一个实施例中，上述处理器1001在执行上述所述根据所述目标音频数据的基频，确定所述目标音频数据对应的目标谐波能量时，具体执行以下步骤：

将所述目标音频数据中每一帧的第二基频作为第二基频；

将所述至少一阶待选谐波能量组合为目标谐波能量。

在一个实施例中，上述处理器1001在执行上述根据所述第二基频确定至少一阶的待选谐波能量时，具体执行以下步骤：

将所述目标音频数据中的目标帧的基频确定为待处理基频；

将最大的能量值确定为能量数据；

在一个实施例中，上述处理器1001在执行上述根根据所述目标谐波能量确定所述干声音频数据的第一音色质量数据时，具体执行以下步骤：

在一个实施例中，上述处理器1001在执行上述获取干声音频数据，计算所述干声音频数据的基频可信度，根据所述基频可信度确定基频时，具体执行以下步骤：

在一个实施例中，上述处理器1001在执行上述获取所述干声音频数据的非零基频的概率分布，确定所述基频中的主基频时，具体执行以下步骤：

将所述干声音频数据的非零基频组合形成基频集；

确定所述基频集中分布概率最大的基频为主基频。

本发明实施例获取干声音频数据，获取干声音频数据，根据不同截止频率的低通滤波器，获取所述干声音频数据中每一帧的多个待选基频和每个所述待选基频对应的基频可信度；在所述干声音频数据中，将信号峰值小于预设峰值的帧对应的基频置零，将所述干声音频数据的基频中非零基频组合形成基频集，根据所述基频集中的每个基频、所述每个基频的数量占所述基频集中基频的总数的百分比，生成基频概率分布，确定所述基频集中分布概率最大的基频为主基频，在所述干声音频数据中，将所述第一基频与所述主基频的差值小于预设差值的帧，作为候选帧，将时间连续的候选帧进行组合，得到至少一个候选音频数据，从所述至少一个候选音频数据中选取时长最大的候选音频数据，作为目标音频数据。根据目标音频数据的基频确定至少一阶的待选谐波能量，根据每阶的待选谐波能量与最小的待选谐波能量的差值及每个差值分别对应的加权系数，确定所述干声音频数据的第一音色质量数据，以使音色的评测不受到主观因素的影响，且该方法能够快速高效地对海量音频的音色进行评分，具有稳定性、客观性以及高效性等优点。

应当理解的，本发明实施例中所描述的音频数据处理装置1000可执行前文图2或图3任一个所对应实施例中对上述音频数据处理方法的描述，也可执行前文图8所对应实施例中对上述音频数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的音频数据处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2或图3任一个所对应实施例中对所述音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频，其中，所述干声音频数据包括未经处理的纯人声音频数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述主基频，在所述干声音频数据中选择目标音频数据，包括：

将所述干声音频数据的非零基频，作为第一基频；

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标音频数据的基频，确定所述目标音频数据对应的目标谐波能量，包括：

将所述目标音频数据中每一帧的基频作为第二基频；

将所述至少一阶待选谐波能量组合为目标谐波能量。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二基频确定至少一阶的待选谐波能量，包括：

将所述目标音频数据中的目标帧的基频确定为待处理基频；

根据傅里叶变换获取所述频率范围内的每个频率对应的能量值；

将最大的能量值确定为能量数据；

5.根据权利要求3所述的方法，其特征在于，所述根据所述目标谐波能量确定所述干声音频数据的第一音色质量数据，包括，

6.根据权利要求1所述的方法，其特征在于，所述获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取所述干声音频数据的非零基频的概率分布，根据所述概率分布确定所述干声音频数据的主基频，包括：

将所述干声音频数据的非零基频组合形成基频集；

确定所述基频集中分布概率最大的基频为主基频。

8.根据权利要求7所述的方法，其特征在于，所述音频数据处理方法还包括：

9.一种音频数据处理装置，其特征在于，包括：

第一获取模块，用于获取干声音频数据，计算所述干声音频数据对应的基频可信度，根据所述基频可信度确定所述干声音频数据的基频，其中，所述干声音频数据包括未经处理的纯人声音频数据；

10.一种音频数据处理装置，其特征在于，包括：处理器和存储器；

所述处理器和所述存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至8任意一项所述的方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1至8任意一项所述的方法。