CN106887233A

CN106887233A - 音频数据处理方法及系统

Info

Publication number: CN106887233A
Application number: CN201510936816.XA
Authority: CN
Inventors: 傅鸿城
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2017-06-23
Anticipated expiration: 2035-12-15
Also published as: CN106887233B

Abstract

本发明提供了一种音频数据处理方法，由音频输入端执行，方法包括：歌曲的音频录制中获取输入的实时音频数据段；根据实时音频数据段定位歌曲对应的参考采样点，参考采样点是根据针对歌曲输入的所有原始音频数据选取得到的；读取参考采样点根据所有原始音频数据得到的平均能量值；通过实时音频数据段的能量值和平均能量值运算得到增益因子；按照增益因子对实时音频数据段进行增益处理，以得到完成能量调整的歌曲音频数据段。此外，还提供了一种音频数据处理系统。上述音频数据处理方法及系统能为音频的输入进行动态增益处理。

Description

音频数据处理方法及系统

技术领域

本发明涉及多媒体处理技术领域，特别涉及一种音频数据处理方法及系统。

背景技术

随着互联网应用中媒体应用的发展，媒体录制应用可包括但不限于：基于社交网络的音频录制应用等等，例如，该媒体录制应用可以是基于社交网络的K歌应用。在媒体录制应用的运行中，常会因为麦克风的音量大小不一或人声距离话筒的远近不一等问题导致输入的音频音量忽高忽低，进而在与伴奏混合后出现和音不和谐等音质的缺陷。

现有的解决方案中，包括对录制人声所得到的音频数据进行离线处理，或者通过在线实时处理的方式对音频数据进行实时增益处理。

一方面的，对于音频数据的离线处理，则是为整首，通过遍历和音后，根据和音中音频数据和伴奏的整体能量比值获取增益因子，从而实现音频数据的离线增益处理。但现有的录制过程大都具备实时耳返功能，即用户在录制的同时就能够听到返回的和音，这种情况下，离线处理方式就不再适用。

另一方面的，通过在线处理的方式对录制的音频数据进行实时增益处理中，根据录制的一段人声所得到的音频数据计算实际能量值，然后根据该实际能量值与固定能量值之间的比值即可得到增益因子。但由于在计算增益因子时使用的是固定能量值，因而，使得录制得到的音频数据经音频增益处理后的输出能量值被固定于同一能量水平，无法适用于整个歌曲的能量变化。

发明内容

基于此，有必要提供一种音频数据处理方法，以解决现有技术中在线音频增益处理中输出的能量值被固定于同一能量水平的技术问题，本方法能够为音频的输入进行动态增益处理。

此外，还有必要提供一种音频数据处理系统，以解决现有技术中在线音频增益处理中输出的能量值被固定于同一能量水平的技术问题，本方法能够为音频的输入进行动态增益处理。

为解决上述技术问题，将采用如下技术方案：

一种音频数据处理方法，所述方法包括：

歌曲的音频录制中获取输入的实时音频数据段；根据所述实时音频数据段定位所述歌曲对应的参考采样点，所述参考采样点是根据针对所述歌曲输入的所有原始音频数据选取得到的；

读取所述参考采样点根据所述所有原始音频数据得到的平均能量值；

通过所述实时音频数据段的能量值和所述平均能量值运算得到增益因子；

按照所述增益因子对所述实时音频数据段进行增益处理，以得到完成能量调整的歌曲音频数据段。

一种音频数据处理系统，包括：

音频数据获取模块，用于歌曲的音频录制中获取输入的实时音频数据段；

采样点定位模块，用于根据所述实时音频数据段定位所述歌曲对应的参考采样点，以得到所述实时音频数据段对应的参考采样点，所述参考采样点是根据针对所述歌曲输入的所有原始音频数据选取得到的；

能量读取模块，用于读取所述参考采样点根据所述所有原始音频数据得到的平均能量值；

增益因子运算模块，用于通过所述实时音频数据段的能量值和所述平均能量值运算得到增益因子；

能量调整模块，用于按照所述增益因子对所述实时音频数据段进行增益处理，以得到完成能量调整的歌曲音频数据段。

由上述技术方案可知，所用户进行的歌曲录制中，针对录制的歌曲，将获取到输入的实时音频数据段，首先为此实时音频数据段定位其歌曲对应的参考采样点，并读取该参考采样点所对应的平均能量值，由实时音频数据段的能量值和平均能量值运算得到增益因子，通过运算得到的增益因子对歌曲录制中输入的实时音频数据段进行能量调整，并且在用户录制歌曲而输入下一实时音频数据段时，仍然会进行增益因子的动态运算，换而言之，在进行实时增益处理时，使用的平均能量值并不是一固定不变的，完成能量调整的歌曲音频数据段能够适用于整个歌曲的能量变化，从而达到对音频的输入进行动态增益处理的目的。

附图说明

图1是一个实施例中音频数据处理方法的流程图；

图2是一个实施例中按照增益因子对实时音频数据段进行增益处理，以得到完成能量调整的歌曲音频数据段的步骤的流程图；

图3是一个实施例中运算实时音频数据段的能量值与增益因子之间的乘积值，将乘积值置为输出能量值的步骤的流程图；

图4是一个实施例中针对可供进行音频数据处理的多个歌曲，分别根据针对歌曲输入的所有原始音频数据进行采样点的选取，以得到歌曲对应的多个参考采样点的步骤的流程图；

图5是一个实施例中根据预置的采样点在所有有效音频数据中的覆盖率从采样点中筛选得到歌曲对应的多个参考采样点的步骤的流程图；

图6是一个实施例中读取参考采样点根据所有原始音频数据得到的平均能量值的步骤之前的步骤的流程图；

图7是一个实施例中通过分别对每一原始音频数据进行的端点检测得到歌曲对应的所有有效音频数据的步骤的流程图；

图8是一个实施例中四门限能量包络曲线和四门限参数示意图；

图9是一个实施例中四门限检测状态跳转示意图；

图10是一个实施例中音频数据处理系统的结构示意图；

图11是一个实施例中能量调整模块的结构示意图；

图12是一个实施例中能量计算单元的结构示意图；

图13是一个实施例中采样点选取模块的结构示意图；

图14是一个实施例中采样点筛选单元的结构示意图；

图15是一个实施例中能量读取模块的结构示意图；

图16是一个实施例中服务器结构示意图。

具体实施方式

体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化，其皆不脱离本发明的范围，且其中的说明及图示在本质上是当作说明之用，而非用以限制本发明。

在一个实施例中，提供了一种音频数据处理方法，如图1所示，包括：

步骤110，歌曲的音频录制中获取输入的实时音频数据段。

歌曲的音频录制是任一运行的媒体录制应用所执行的，该媒体录制应用内置了各种歌曲信息以及每一歌曲信息所对应的伴奏数据，以为用户的音频录制提供可选取的歌曲，并且也可用以实现和声音效的伴奏数据的选取。

例如，该媒体录制应用是基于社交网络，且具备歌曲音频录制以及和声音效功能的终端应用，任意用户都能够通过该媒体录制应用触发进行音频录制，采样此人声以得到相应的实时音频数据段。

步骤130，根据实时音频数据段定位歌曲对应的参考采样点，参考采样点是根据针对歌曲输入的所有原始音频数据选取得到的。

原始音频数据是指用户运行此媒体录制应用演唱歌曲的清唱数据，还可以是通过其它方式所搜集得到的演唱歌曲的清唱数据。因而，媒体录制应用中可供进行音频录制的歌曲均有对应的原始音频数据。另外，媒体录制应用的用户是在不断增长的，并且通过不断的数据积累，所得到的每一歌曲对应的所有原始音频数据将是海量用户输入的清唱数据。

歌曲通常使用的是数字信号形式，即对歌曲的模拟信号根据预设的采样率进行采样后得到，例如，所使用的采样率可以是8K或16K。以针对该歌曲输入的所有原始音频数据为依据，从歌曲对应的采样点中选取若干采样点作为参考采样点。

又实时音频数据段是随着用户所进行的歌曲演唱而不断获取得到的，因此，可根据实时音频数据段包含的时间信息获取其对应的参考采样点。

在一个实施例中，歌曲对应的参考采样点可记为{k₁,…,k_N}，其中，k_m表示歌曲对应的第k_m个参考采样点，k_m＝1,…,N。

步骤150，读取参考采样点根据所有原始音频数据得到的平均能量值。

歌曲是通过节奏的快慢起伏、音量的高低强弱来表现不同的情感，因此，任意歌曲的演唱都会呈现出能量趋势的变化，即歌曲对应的采样点中，某些采样点的在原始音频数据中对应的能量值较低，而某些采样点在原始音频数据中对应的能量值较高。

以歌曲的所有原始音频数据为依据得到每一参考采样点对应的平均能量值，也就是说，平均能量值是以海量用户的原始音频数据为先验信息来运算得到的，因此，参考采样点对应的平均能量值将用来表征在该参考采样点处期望的输出能量值。

由此所进行的音频录制中，根据输入的实时音频数据段来读取对应的平均能量值，进而根据此平均能量值实现音频数据的处理，将保证了音频数据处理的是与歌曲相适应的。

步骤170，通过实时音频数据段的能量值和平均能量值运算得到增益因子。

通过平均能量值所实现的增益因子的运算，将使得实时音频数据段能够得到与期望的输出能量值相对应的增益因子。其中，由于实时音频数据段对应了一个或者多个参考采样点，而由此所计算得到的增益因子也是分别与参考采样点对应的。

为描述方便，定位在第k_m个参考采样点的实时音频数据段称为第k_m个实时音频数据段，相应地，第k_m个实时音频数据段对应的增益因子称为第k_m个增益因子。具体地，第k_m个增益因子p_m的计算公式如下：

其中，S_m表示第k_m个参考采样点在所有原始音频数据中对应的平均能量值，S_u表示第k_m个实时音频数据段的能量值。

步骤190，按照增益因子对实时音频数据段进行增益处理，以得到完成能量调整的歌曲音频数据段。

使用增益因子对实时音频数据段的能量值进行增益放大或减小，即可得到完成能量调整的歌曲音频数据段。

进一步地，对该歌曲音频数据段与歌曲的伴奏进行合成，并将合成的和音输出给用户进行播放，从而实现在线处理并实时耳返的功能。

由上可知，对实时音频数据段进行增益处理时，通过读取实时音频数据段对应的参考采样点的平均能量值来计算增益因子，进而利用该增益因子对实时音频数据段进行增益处理。

由于参考采样点对应的平均能量值是从歌曲的所有原始音频数据中获取，即避免了现有技术中因不能预测歌曲的能量变化趋势而使用同一固定能量值计算增益因子的问题，因而，本方法处理后的输出能量值不会被固定于同一能量水平，而是能够很好地呈现整个歌曲的能量变化趋势。

如图2所示，在另一个实施例中，该步骤190包括：

步骤191，运算实时音频数据段的能量值与增益因子之间的乘积值，将乘积值置为输出能量值。

实时音频数据段中，对应于参考采样点的能量值以及对应于参考采样点关联的多个采样点的能量值将分别与增益因子进行乘积运算得到相应的乘积值，且将乘积值置为该实时音频数据对应的输出能量值。

步骤193，按照输出能量值进行实时音频数据段的能量调整，以得到完成能量调整的歌曲音频数据段。

如图3所示，在另一个实施例中，该步骤191包括：

步骤1911，平滑处理增益因子得到多个渐近增益因子。

为描述方便，将定位在第k_m-1个参考采样点的实时音频数据段称为第k_m-1个实时音频数据段，相应地，第k_m-1个实时音频数据段对应的增益因子称为第k_m-1个增益因子。

经平滑处理后，从第k_m个实时音频数据段对应的第k_m个参考采样点开始，其后采样点的增益因子由第k_m-1个增益因子逐步递增或递减地逼近第k_m个增益因子，当第k_m个参考采样点之后第i₀个采样点的增益因子达到第k_m个增益因子时，第i₀个采样点之后采样点的增益因子就不再做平滑处理，均取值为第k_m个增益因子。

在另一个实施例中，从第k_m个参考采样点开始，其后采样点的增益因子由第k_m-1个增益因子线性递增或递减地逼近第k_m个增益因子。

具体地，渐进增益因子的计算公式为：

且

i₀满足：p_m-1+i₀*l＝p_m

其中，p_m-1表示第k_m-1个实时音频数据段对应的增益因子，p_m表示第k_m个实时音频数据段对应的增益因子，i、i₀分别表示歌曲对应的第k_m个参考采样点之后的第i、i₀个采样点，p_m,i表示歌曲对应的第k_m个参考采样点之后的第i个采样点对应的渐近增益因子。

步骤1913，分别运算实时音频数据段的能量值与多个渐近增益因子之间的乘积值，以得到多个输出能量值，多个输出能量值分别与实时音频数据段对应的参考采样点以及参考采样点关联的多个采样点相对应。

在获取到音频数据段的增益因子后，还进一步地对增益因子进行平滑处理以得到多个渐近增益因子，最后是利用上述多个渐近增益因子对实时音频数据段进行增益处理。

通过多个渐变增益因子的设置，使得计算当前实时音频数据段的多个输出能量值时，使用的增益因子从上一个实时音频数据段对应的增益因子平滑地过渡到当前实时音频数据段对应的增益因子，因而，避免了增益因子的突变性，保证了完成能量调整的歌曲音频数据段的播放更平滑，从而给予用户更舒适的听觉享受。

在另一个实施例中，该步骤130之前，该方法还包括：

针对可供进行音频数据处理的多个歌曲，分别根据针对歌曲输入的所有原始音频数据进行采样点的选取，以得到歌曲对应的多个参考采样点。

相对于上述音频输入端执行的增益处理步骤，该步骤可由服务器预先进行，即服务器将预先进行歌曲对应的多个参考采样点的获取以及存储，以供后续增益处理过程中读取。

如图4所示，在另一个实施例中，该针对可供进行音频数据处理的多个歌曲，分别根据针对歌曲输入的所有原始音频数据进行采样点的选取，以得到歌曲对应的多个参考采样点的步骤包括：

步骤410，根据可供进行音频数据处理的多个歌曲，分别查找针对歌曲输入的所有原始音频数据。

随着媒体录制应用执行次数的增多，其积累的针对歌曲的原始音频数据也随之增多。

由于计算增益因子时使用的参考采样点和平均能量值是根据针对歌曲输入的所有原始音频数据获取得到，可想到的是，针对某首歌曲输入的所有原始音频数据越多，从而对应的参考采样点和平均能量值就越准确，因而，可供进行音频数据处理的歌曲至少满足的一个条件是针对该歌曲输入的所有原始音频数据的数量足够多。

步骤430，通过分别对每一原始音频数据进行的端点检测得到歌曲对应的所有有效音频数据。

原始音频数据中除了包含语音部分，还可能包含了非语音部分，为避免非语音部分的干扰，需要从原始音频数据中提取或标记出语音部分，得到有效音频数据。实际应用中，可通过对原始音频数据进行端点检测，得到对应的有效音频数据。

以歌曲的时间轴为基准，每个有效音频数据可表示为(t_i,t_j)，其中，t_i表示该有效音频数据的起点时刻，且该起点时刻t_i对应时间轴上的第i个采样点，t_j表示该有效音频数据的终点时刻，且该终点时刻t_j对应时间轴上的第第j个采样点。

步骤450，根据预置的采样点在所有有效音频数据中的覆盖率从采样点中筛选得到歌曲对应的多个参考采样点。

由于每个有效音频数据的起点时刻和/或终点时刻不一定相同，因此，各有效音频数据在歌曲时间轴上对应的采样点不一定相同。

换句话说，对于时间轴上的某一采样点，可能所有有效音频数据都包含，也可能只是部分有效音频数据包含，还可能所有有效音频数据都不包含，即时间轴上各采样点在所有有效音频数据中的覆盖率不一定相同。

对于覆盖率低于预设覆盖度阈值的采样点，从所有有效音频数据中能获取到的相关音频信息就较少。为保证用于计算平均能量值的采样点提供的信息更具有参考性，在实际应用中，可舍弃这些覆盖率较低的采样点，而只选取覆盖率较高的采样点。

如图5所示，在另一个实施例中，该步骤450包括：

步骤451，根据预置的采样点在有效音频数据中的覆盖率从采样点中筛选得到有效采样点。

具体地，依次判断时间轴上每个采样点在所有有效音频数据中的覆盖率是否不小于预设覆盖度阈值，若是，则将该采样点置为有效采样点。

举例来说，若歌曲包括的100个有效音频数据，时间轴上某采样点被至少95个有效音频数据包含，即该采样点在所有有效音频数据中的覆盖率不小于95％，则将该采样点置为有效采样点。

步骤453，根据预置时间间隔从有效采样点中提取歌曲对应的多个参考采样点。

具体来说，首先将所有有效采样点的某个有效采样点作为起点，一般可取第一个有效采样点，再以预置时间间隔对所有有效采样点进行抽取，每个抽取出来的有效采样点即置为参考采样点，直到时间轴上的所有有效采样点抽取完，得到所有参考采样点。

举例来说，若预置时间间隔为1s，对于8K的歌曲而言，在时间轴上每隔8000个有效采样点进行抽取；对于16K的歌曲而言，在时间轴上每隔16000个有效采样点进行抽取。

如图6所示，在另一个实施例中，该步骤150之前，该方法还包括：

步骤610，在歌曲对应的多个参考采样点为每一参考采样点查找关联的其它有效采样点。

每一参考采样点关联的其它有效采样点可以是与该参考采样点连续的若干个有效采样点。例如，以参考采样点为中心，查找其前后各5个有效采样点。

步骤630，按照参考采样点和关联的其它有效采样点根据有效音频数据提取对应的能量值。

具体地，分别提取参考采样点和关联的其它有效采样点在每一有效音频数据中的能量值，并运算能量值的平均值以得到参考采样点在每一有效音频数据中的平均能量值。

步骤650，运算能量值的平均值，以得到参考采样点在所有有效音频数据中的平均能量值。

为方便描述，将参考采样点在每一有效音频数据中的平均能量值称为第一平均能量值，运算参考采样点的所有第一平均能量值的平均值，以得到参考采样点在所有有效音频数据中的平均能量值。

相对于上述音频输入端执行的增益处理步骤，该步骤610～650也可由服务器预先进行，即预先进行个参考采样点对应的平均能量值的获取以及存储，以供后续增益处理过程中读取。

由于该步骤610～650计算得到的参考采样点对应的平均能量值是从大量的原始音频数据中获取，因而，这些平均能量值能较好地还原歌曲原有的能量变化趋势。

在另一个实施例中，在该步骤191和该步骤193之间，该方法还包括：

判断输出能量值是否大于预设的能量阈值，若为是，则将输出能量值限定为能量阈值。

利用增益因子对实时音频数据段进行增益处理后，与参考采样点对应的输出能量值即为该参考采样点对应的平均能量值，但与参考采样点关联的其他采样点对应的输出能量值却不一定为该参考采样点对应的平均能量值，而且有可能超过能量阈值，若仍按超过能量阈值的输出能量值对实时音频数据段进行能量调整，则会产生爆音。

通过在按照输出能量值进行实时音频数据段的能量调整之前，对输出能量值进行阈值检测及规整，则可有效避免爆音的产生，实现更稳定的音频增益控制能力。

具体应用中，针对不同采样精度的歌曲设置不同的能量阈值。例如，对采样率8K的歌曲，设置能量阈值为127；对采样率16K的歌曲，设置能量阈值为32766。

如图7所示，在一个实施例中，端点检测使用四门限端点检测。具体地，该步骤430包括：

步骤431，分帧。

将输入的原始音频数据(原始音频数据中除去开头的44字节格式数据后的纯数据)按照25ms(400个采样点)的帧长，10ms(160个采样点)的帧移进行分桢。

步骤412，降噪。

将输入的原始音频数据由时域信号转换成频域信号，然后在频域信号中去除噪声信号的频域分量，最后再将频域信号转换回时域信号。

值得注意的是，具体应用中，频域信号转换得到的时域信号并不是严格的去除噪声分量的原时域信号，只是近似地正比于原来的时域信号。

步骤413，帧的时域对数能量计算。

第i帧的时域对数能量计算公式如下：

其中，x_i表示每帧采样点的振幅，是该步骤412处理过程中根据每个采样点的振幅得到的输出，近似地正比于振幅。

进一步地，还对上述计算公式进行修正，修正后的公式为：

可见，对能量设置了一个最低临界值E_floor＝10logC，这样，可防止时，能量E出现负数。

步骤414，聚类计算。

利用初始化无声段的50帧能量值聚类，再利用聚类后的信息将原始音频数据区分成为一类问题(只包含噪音)、二类问题(包含语音)，以及同时包含语音和噪音时语音和噪音分量多少的问题。

分别计算聚一类时质心C1Centroid，聚二类质心C2Centroid[2]，以及两种聚类方式的发散度DivergentDegree[2]。具体计算过程不在此赘述。

步骤415，四门限参数计算。

根据该步骤414得到的5个参数分4种类型讨论，得到四门限参数K1、K2、K3、K4。其中，讨论类型如下：

第一种类型：前50帧(0.5s)基本都是背景噪声，聚一类可以得到背景噪声的能量值E_Noise，通过公式K_i＝E_Noise+α_i(i＝1,2,3,4)计算四门限参数。

第二种类型：前50帧(0.5s)语音部分比较明显且语音的能量明显高于背景噪声的能量，聚二类可以得到背景噪声和语音段的能量值E_Noise和E_Voice，通过公式K_i＝E_Noise+(E_Noise-E_Voice)·α_i(i＝1,2,3,4)计算四门限参数。

第三种类型：前50帧(0.5s)语音和背景噪声(或者无声段和突兀噪声)都有但是两者能量差值不明显，聚二类可以得到背景噪声和语音段的能量值 E_Noise和E_Voice，此时，聚一类结果E_Mean满足E_Mean-E_Noise＞0.2·(E_Voice-E_Noise)，因此，选取E_Noise当做背景噪声能量值，通过公式K_i＝E_Noise+α_i(i＝1,2,3,4)计算四门限参数。

若前面三种类型都不满足，第四种类型：前50帧(0.5s)语音和背景噪声(或者无声段和突兀噪声)都有但是两者能量差值不明显，聚二类可以得到背景噪声和语音段的能量值E_Noise和E_voice，此时聚一类结果值E_Mean满足E_Mean-E_Noise＜＝0.2·(E_Voice-E_Noise)，因此，选取E_Mean当做背景噪声能量值，通过公式K_i＝E_Mean+α_i(i＝1,2,3,4)计算四门限参数。

需注意的是，依次判断以上四种类型是否满足，优先满足排在前面的类型，最终只能选择其中一种类型。

步骤416，端点检测。

根据四门限参数和所有帧的时域对数能量，画出能量包络曲线和四门限参数的图，如图8所示。

在图8中，通过A1、A2、A3、A4记录状态转变时的能量位置，从而判断得到有效音频数据的起点时刻和终点时刻，即(t_i,t_j)。

如图9所示，A1是记录状态机从State1跳到State2的帧序列号，A2是记录状态机从State2跳到State3的帧序列号，A3是记录状态机从State3跳到State4的帧序列号，A4是记录状态机从State4跳到State1的帧序列号。

若A2与A1之间的距离很大，则取A2为起始时刻，否则，取A1为起始时刻；若A3与A4之间的距离很大，则取A3为结束时刻，否则，取A4为结束时刻。

通过分别对每一原始音频数据进行上述四门限端点检测后，得到歌曲对应的所有有效音频数据。

在另一个实施例中，该步骤430还包括：

从所有有效音频数据中选出音频数据最长的预设数量的有效音频数据。

根据有效音频数据的起点时刻与终点时刻的时间差值，即t_i和t_j的时间差值，得到该有效音频数据的音频数据长度。

分别运算每个有效音频数据的音频数据长度，然后按音频数据长度的大小对所有有效音频数据进行排序，进而从中选出音频数据最长的预设数量的有效音频数据。

一个应用场景中，将该方法应用于K歌软件的音频数据处理中，具体地，包括离线处理和在线处理两个过程。其中，

离线处理过程可在专门的服务器上进行，用于：

每隔一段时间就检测是否有可供进行音频数据处理的歌曲，若有，则根据该歌曲预设数量的有效音频数据获取该歌曲对应的多个参考采样点以及平均能量值。

用户通过K歌软件录制自己演唱某首歌曲的原始音频数据后，K歌软件会将该原始音频数据与对应的歌曲进行关联，并将关联关系进行存储。随着该首歌曲的用户演唱量增多，K歌软件收录到的其对应的原始音频数据量也就增多。

如果对某首歌曲的原始音频数据进行端点检测后得到的有效音频数据的数量小于预设的第一数量阈值，如小于100个，则该歌曲就不可供进行音频数据处理，即本方法暂不提供该歌曲的音频数据处理功能，而是当检测到其有效音频数据的数量不小于第一数量阈值时再提供。

类似地，如果该歌曲对应的预设时长内的有效采样点个数小于预设的第二数量阈值，如平均每分钟的有效采样点个数小于10个，则该歌曲就不可供进行音频数据处理，即本方法也暂时不提供该歌曲的音频数据处理功能，而是当检测到其预设时长的有效采样点个数不小于第二数量阈值时再提供。

对于可供进行音频数据处理的歌曲，离线处理过程中会将该歌曲对应的多个采样点及平均能量值等音频数据处理信息存储在服务器上，以供在线处理过程中读取。

进一步地，对于已获取过音频数据处理信息的歌曲，还可按照预设周期对其对应的音频数据处理信息进行更新，即重新获取歌曲的所有有效音频数据，从中选取预设数量的有效音频数据，再根据重新选取的预设数量的有效音频数据获取对应的参考采样点及平均能量值，从而不断提高音频数据处理的准确度。

具体应用中，每一歌曲对应的多个采样点及平均能量值等音频数据处理信息可以按照数据库对象的方式或是配置文件的方式存储于服务器上，不论是数据库对象的方式还是配置文件的方式，都将音频数据处理信息与对应的歌曲的标识符进行一一对应，以便在线处理过程中根据歌曲的标识符查找到对应的音频数据处理信息。

在线处理过程可在专门的音频输入端上进行，如带有麦克风功能的手机、IPD、电脑等智能终端，用于：

从用户的点唱请求中获取歌曲的标识符，通过歌曲的标识符读取该歌曲的音频数据处理信息。

一种情况下，可通过无线或有线的形式访问到服务器上根据歌曲的标识符读取对应的音频数据处理信息。

另一种情况下，存储音频数据处理信息的配置文件被事先下载到用户的智能终端中，音频数据处理时相应的音频数据处理信息直接在本地读取即可。这样，用户的智能终端在不联网的情况下，K歌软件也能对输入的音频实现动态增益的功能；另外，该配置文件还可根据预置频率进行更新，以获取到服务器上最新的音频数据处理信息。

根据标识符调出歌曲的伴奏音频供用户演唱，并采样获取用户输入的实时音频数据段，通过将实时音频数据段与歌曲对应的某一参考采样点进行定位，从而读取出定位到的参考采样点对应的平均能量值，根据平均能量值来计算音频数据处理中的增益因子，再进一步按照增益因子对实时音频数据段进行增益处理，得到完成能量调整的歌曲音频数据段。

通过本方法对K歌软件的音频数据处理后，能量调整后的歌曲音频数据段既能表现用户的演唱节奏，又能表现用户声音随着歌曲节奏高低变换的情感，提升了用户的演唱效果。

另外，由于本方法中参考采样点对应的平均能量值并不是在音频数据处理的在线过程中获取，因而，K歌软件在对音频数据处理时不会产生滞后性，满足了实时性需求。

在一个实施例中，为解决上述问题，还提出了一种音频数据处理系统。如图10所示，该系统包括音频数据获取模块1010、采样点定位模块1030、能量读取模块1050、增益因子运算模块1070和能量调整模块1090，其中：

音频数据获取模块1010用于歌曲的音频录制中获取输入的实时音频数据段；

采样点定位模块1030用于根据实时音频数据段定位歌曲对应的参考采样点，参考采样点是根据针对歌曲输入的所有原始音频数据选取得到的；

能量读取模块1050用于读取参考采样点根据所有原始音频数据得到的平均能量值；

增益因子运算模块1070用于通过实时音频数据段的能量值和平均能量值运算得到增益因子；

能量调整模块1090用于按照增益因子对实时音频数据段进行增益处理，以得到完成能量调整的歌曲音频数据段。

如图11所示，在另一个实施例中，该能量调整模块1090包括能量计算单元1091和能量应用单元1093；其中，

能量计算单元1091用于运算实时音频数据段的能量值与增益因子之间的乘积值，将乘积值置为输出能量值；

能量应用单元1093用于按照输出能量值进行实时音频数据段的能量调整，以得到完成能量调整的歌曲音频数据段。

如图12所示，在另一个实施例中，该能量计算单元1091包括增益因子平滑子单元10911和乘积值运算子单元10913；其中，

增益因子平滑子单元10911用于平滑处理增益因子得到多个渐近增益因子；

乘积值运算子单元10913用于分别运算实时音频数据段的能量值与多个渐近增益因子之间的乘积值，以得到多个输出能量值，多个输出能量值分别与实时音频数据段对应的参考采样点以及参考采样点关联的多个采样点相对应。

在另一个实施例中，该音频数据处理系统还包括服务器，该服务器包括：

采样点选取模块，用于针对可供进行音频数据处理的多个歌曲，分别根据针对歌曲输入的所有原始音频数据进行采样点的选取，以得到歌曲对应的多个参考采样点。

如图13所示，在另一个实施例中，该采样点选取模块包括：

原始音频获取单元1310，用于根据可供进行音频数据处理的多个歌曲，分别查找针对歌曲输入的所有原始音频数据；

有效音频获取单元1330，用于通过分别对每一原始音频数据进行的端点检测得到歌曲对应的所有有效音频数据；

采样点筛选单元1350，用于根据预置的采样点在所有有效音频数据中的覆盖率从采样点中筛选得到歌曲对应的多个参考采样点。

如图14所示，在另一个实施例中，该采样点筛选单元1250包括有效采样点筛选子单元1251和参考采样点筛选子单元1253；其中，

有效采样点筛选子单元1251用于根据预置的采样点在有效音频数据中的覆盖率从采样点中筛选得到有效采样点；

参考采样点筛选子单元1253用于根据预置时间间隔从有效采样点中提取歌曲对应的多个参考采样点。

如图15所示，在另一个实施例中，该能量读取模块1050之前，该服务器还包括关联采样点查找模块1510、能量提取模块1530和平均能量运算模块1550；其中，

关联采样点查找模块1510用于在歌曲对应的多个参考采样点为每一参考采样点查找关联的其它有效采样点；

能量提取模块1530用于按照参考采样点和关联的其它有效采样点提取有效音频数据对应的能量值；

平均能量运算模块1550用于运算能量值的平均值，以得到参考采样点在所有有效音频数据中的平均能量值。

在另一个实施例中，该能量应用单元1093之前，该音频输入端还包括：

能量规整单元，用于判断输出能量值是否大于预设的能量阈值，若为是，则将输出能量值限定为能量阈值。

图16是本发明实施例提供的一种服务器结构示意图。该服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1610(例如，一个或一个以上处理器)和存储器1620，一个或一个以上存储应用程序1631或数据1633的存储介质1630(例如一个或一个以上海量存储设备)。其中，存储器1620和存储介质1630可以是短暂存储或持久存储。存储在存储介质1630的程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1610可以设置为与存储介质1630通信，在服务器1600上执行存储介质1630中的一系列指令操作。服务器2000还可以包括一个或一个以上电源1650，一个或一个以上有线或无线网络接口1670，一个或一个以上输入输出接口1680，和/或，一个或一个以上操作系统1635，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。上述图4～7所示实施例中所述的由服务器所执行的步骤可以基于该图16所示的服务器结构。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

虽然已参照几个典型实施方式描述了本发明，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施方式不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

歌曲的音频录制中获取输入的实时音频数据段；

根据所述实时音频数据段定位所述歌曲对应的参考采样点，所述参考采样点是根据针对所述歌曲输入的所有原始音频数据选取得到的；

2.根据权利要求1所述的方法，其特征在于，所述按照所述增益因子对所述实时音频数据段进行增益处理，以得到完成能量调整的歌曲音频数据段的步骤包括：

运算所述实时音频数据段的能量值与所述增益因子之间的乘积值，将所述乘积值置为输出能量值；

按照所述输出能量值进行所述实时音频数据段的能量调整，以得到所述完成能量调整的歌曲音频数据段。

3.根据权利要求2所述的方法，其特征在于，所述运算所述实时音频数据段的能量值与所述增益因子之间的乘积值，将所述乘积值置为输出能量值的步骤包括：

平滑处理所述增益因子得到多个渐近增益因子；

分别运算所述实时音频数据段的能量值与多个所述渐近增益因子之间的乘积值，以得到多个输出能量值，所述多个输出能量值分别与所述实时音频数据段对应的参考采样点以及所述参考采样点关联的多个采样点相对应。

4.根据权利要求1所述的方法，其特征在于，由服务器执行，所述根据所述实时音频数据段定位所述歌曲对应的参考采样点，以得到所述实时音频数据段对应的参考采样点的步骤之前，所述方法还包括：

针对可供进行音频数据处理的多个歌曲，分别根据针对歌曲输入的所有原始音频数据进行采样点的选取，以得到所述歌曲对应的多个参考采样点。

5.根据权利要求4所述的方法，其特征在于，所述针对可供进行音频数据处理的多个歌曲，分别根据针对歌曲输入的所有原始音频数据进行采样点的选取，以得到所述歌曲对应的多个参考采样点的步骤包括：

根据可供进行音频数据处理的多个歌曲，分别查找针对所述歌曲输入的所有原始音频数据；

通过分别对每一原始音频数据进行的端点检测得到所述歌曲对应的所有有效音频数据；

根据预置的采样点在所有有效音频数据中的覆盖率从所述采样点中筛选得到所述歌曲对应的多个参考采样点。

6.据权利要求5所述的方法，其特征在于，所述根据预置的采样点在所有有效音频数据中的覆盖率从所述采样点中筛选得到所述歌曲对应的多个参考采样点的步骤包括：

根据预置的采样点在有效音频数据中的覆盖率从所述采样点中筛选得到有效采样点；

根据预置时间间隔从所述有效采样点中提取所述歌曲对应的多个参考采样点。

7.根据权利要求6所述的方法，其特征在于，所述读取所述参考采样点根据所述所有原始音频数据得到的平均能量值的步骤之前，所述方法还包括：

在所述歌曲对应的多个参考采样点为每一参考采样点查找关联的其它有效采样点；

按照所述参考采样点和所述关联的其它有效采样点提取所述有效音频数据对应的能量值；运算所述能量值的平均值，以得到所述参考采样点在所述所有有效音频数据中的平均能量值。

8.根据权利要求2所述的方法，其特征在于，所述按照所述增益因子对所述实时音频数据段进行增益处理，以得到完成能量调整的歌曲音频数据段的步骤之前，所述方法还包括：

判断所述输出能量值是否大于预设的能量阈值，若为是，则将所述输出能量值限定为所述能量阈值。

9.一种音频数据处理系统，其特征在于，所述系统包括：

采样点定位模块，用于根据所述实时音频数据段定位所述歌曲对应的参考采样点，所述参考采样点是根据针对所述歌曲输入的所有原始音频数据选取得到的；

10.根据权利要求9所述的系统，其特征在于，所述能量调整模块包括：

能量计算单元，用于运算所述实时音频数据段的能量值与所述增益因子之间的乘积值，将所述乘积值置为输出能量值；

能量应用单元，用于按照所述输出能量值进行所述实时音频数据段的能量调整，以得到所述完成能量调整的歌曲音频数据段。

11.根据权利要求10所述的系统，其特征在于，所述能量计算单元包括：

增益因子平滑子单元，用于平滑处理所述增益因子得到多个渐近增益因子；

乘积值运算子单元，用于分别运算所述实时音频数据段的能量值与多个所述渐近增益因子之间的乘积值，以得到多个输出能量值，所述多个输出能量值分别与所述实时音频数据段对应的参考采样点以及所述参考采样点关联的多个采样点相对应。

12.根据权利要求9所述的系统，其特征在于，包括服务器，所述服务器包括：

采样点选取模块，用于针对可供进行音频数据处理的多个歌曲，分别根据针对歌曲输入的所有原始音频数据进行采样点的选取，以得到所述歌曲对应的多个参考采样点。

13.根据权利要求12所述的系统，其特征在于，所述采样点选取模块包括：

原始音频获取单元，用于根据可供进行音频数据处理的多个歌曲，分别查找针对所述歌曲输入的所有原始音频数据；

有效音频获取单元，用于通过分别对每一原始音频数据进行的端点检测得到所述歌曲对应的所有有效音频数据；

采样点筛选单元，用于根据预置的采样点在所有有效音频数据中的覆盖率从所述采样点中筛选得到所述歌曲对应的多个参考采样点。

14.据权利要求13所述的系统，其特征在于，所述采样点筛选单元包括：

有效采样点筛选子单元，用于根据预置的采样点在有效音频数据中的覆盖率从所述采样点中筛选得到有效采样点；

参考采样点筛选子单元，用于根据预置时间间隔从所述有效采样点中提取所述歌曲对应的多个参考采样点。

15.根据权利要求14所述的系统，其特征在于，所述能量读取模块之前，所述服务器还包括：

关联采样点查找模块，用于在所述歌曲对应的多个参考采样点为每一参考采样点查找关联的其它有效采样点；

能量提取模块，用于按照所述参考采样点和所述关联的其它有效采样点提取所述有效音频数据对应的能量值；

平均能量运算模块，用于运算所述能量值的平均值，以得到所述参考采样点在所述所有有效音频数据中的平均能量值。

16.根据权利要求10所述的系统，其特征在于，所述能量应用单元之前，所述音频输入端还包括：

能量规整单元，用于判断所述输出能量值是否大于预设的能量阈值，若为是，则将所述输出能量值限定为所述能量阈值。