CN107705778A

CN107705778A - 音频处理方法、装置、存储介质以及终端

Info

Publication number: CN107705778A
Application number: CN201710731067.6A
Authority: CN
Inventors: 李胜存
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2017-08-23
Filing date: 2017-08-23
Publication date: 2018-02-16
Anticipated expiration: 2037-08-23
Also published as: CN107705778B

Abstract

本发明公开了一种音频处理方法、装置、存储介质以及终端，属于多媒体处理技术领域。方法包括：获取目标音频资源的原唱音频以及伴奏音频；根据伴奏音频，在原唱音频中获取人声音频；计算人声音频与伴奏音频之间的第一声伴响度比例；根据第一声伴响度比例，计算伴奏音频与用户演绎的用户音频之间的第二声伴响度比例；根据第二声伴响度比例，对伴奏音频和用户音频进行混声合成处理。本发明基于原唱作品中理想的声伴响度比例，来自动推算本次K歌过程中人声与伴奏之间最佳的声伴响度比例，进而在后续过程中采用这一推算出来的声伴响度比例来指导混声合成，不但整个过程无需人工手动调节，而且最终得到的合成作品也更加符合用户预期。

Description

音频处理方法、装置、存储介质以及终端

技术领域

本发明涉及多媒体处理技术领域，特别涉及一种音频处理方法、装置、存储介质以及终端。

背景技术

长久以来，K歌作为一项日常休闲娱乐活动一直广受用户追捧。特别是随着智能手机、平板电脑等智能终端的普及，使得用户足不出户进行K歌成为了一种可能。比如，用户在智能手机上安装了K歌软件后，无需走进KTV便可实现歌曲演唱。其中，在K歌场景下，为了得到包括人声和伴奏两部分的K歌作品，往往还需要智能终端对K歌用户演绎的用户音频以及在K歌过程中播放的伴奏音频进行混声合成处理。

相关技术在进行用户音频以及伴奏音频的混声合成处理时，通常采取下述两种方式实现。第一种方式，对于所有的歌曲来说，均默认采取1:1的声(人声)伴(伴奏)响度比例来进行混声合成处理。第二种方式，对于不同的歌曲，由用户手动调节适合的声伴响度比例；之后，再根据调节出来的声伴响度比例来进行混声合成处理。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

针对第一种方式，对于不同类型或风格的歌曲、甚至是同一首歌曲的不同演绎版本来说，其理想的声伴响度比例均是不同的，因此若统一采取1:1的声伴响度比例进行混声合成处理，则合成后的音频在很大程度上不会符合用户预期，所以该种处理方式效果较差。针对第二种方式，由于需要人工进行调节，因此较为耗时和复杂；此外，对于非专业的用户来说，其调节出来的声伴响度比例也并非准确，因此该种处理方式同样存在效果较差的缺陷。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种音频处理方法、装置、存储介质以及终端。所述技术方案如下：

第一方面，提供了一种音频处理方法，所述方法包括：

获取目标音频资源的原唱音频以及伴奏音频；

根据所述伴奏音频，在所述原唱音频中获取人声音频；

计算所述人声音频与所述伴奏音频之间的第一声伴响度比例；

根据所述第一声伴响度比例，计算所述伴奏音频与用户演绎的用户音频之间的第二声伴响度比例；

根据所述第二声伴响度比例，对所述伴奏音频和所述用户音频进行混声合成处理。

在另一个实施例中，所述根据所述伴奏音频，在所述原唱音频中获取人声音频，包括：

对所述原唱音频进行预处理，并对经过预处理后得到的原唱信号进行加窗处理；

对所述伴奏音频进行预处理，并对经过预处理后得到的伴奏信号进行加窗处理，所述伴唱信号与所述原唱信号的采样率一致；

按照窗移动步长，对经过加窗处理后的原唱信号进行离散傅里叶变换，得到第一频谱变换结果；

按照所述窗移动步长，对经过加窗处理后的伴奏信号进行离散傅里叶变换，得到第二频谱变换结果；

根据所述第一频谱变换结果和所述第二频谱变换结果，计算目标谱减比例；

根据所述第一频谱变换结果和所述目标谱减比例，生成所述人声音频。

在另一个实施例中，所述根据所述第一频谱变换结果和所述第二频谱变换结果，计算目标谱减比例，包括：

计算所述第一频谱变换结果的绝对值与所述第二频谱变换结果的绝对值之间的第一差值；

若所述第一差值大于零，则将所述第一差值与所述第一频谱变换结果的绝对值之间的比值确定为所述目标谱减比例。

在另一个实施例中，所述根据所述第一频谱变换结果和所述目标谱减比例，生成所述人声音频，包括：

将所述第一频谱变换结果与所述目标谱减比例进行乘积运算，得到目标频谱变换结果；

对所述目标频谱变换结果进行离散傅里叶逆变换，得到所述人声音频。

在另一个实施例中，所述方法还包括：

在所述原唱信号中确定仅包括原唱声音的目标信号；

在对所述原唱信号中除了所述目标信号之外的其他部分进行静音处理后，基于所述伴奏音频，在经过所述静音处理后的原唱信号中获取所述人声音频。

在另一个实施例中，所述根据所述第一声伴响度比例，计算所述伴奏音频与用户演绎的用户音频之间的第二声伴响度比例，包括：

根据所述伴奏音频的响度值以及所述第一声伴响度比例，计算所述用户音频的理论响度值；

根据所述理论响度值，迭代计算出所述用户音频的第一响度系数的第一取值；

将所述伴奏音频的第二响度系数的第二取值与所述第一取值之间的比值确定为所述第二声伴响度比例。

在另一个实施例中，所述根据所述理论响度值，迭代计算出所述用户音频的第一响度系数的第一取值，包括：

将所述用户音频与所述第一响度系数的当前取值进行乘积运算；

计算得到的乘积运算结果的当前响度值；

计算所述理论响度值与所述当前响度值之间的第二差值；

若所述第二差值的绝对值小于预设阈值，则将所述当前取值确定为所述第一取值。

计算得到的乘积运算结果的当前响度值；

计算所述理论响度值与所述当前响度值之间的第二差值；

若所述第二差值为正且大于预设阈值，则在方向参数当前指示增大所述第一响度系数的取值的情况下，将所述第一响度系数的当前调整步长置为原来的一半大小；

将所述当前取值与所述当前调整步长的和值赋值给所述第一响度系数，以用于与所述用户音频进行下一次的乘积运算；

将所述方向参数调整为指示减小所述第一响度系数的取值。

计算得到的乘积运算结果的当前响度值；

计算所述理论响度值与所述当前响度值之间的第二差值；

若所述第二差值为负且所述第二差值的绝对值大于预设阈值，则在方向参数当前指示减小所述第一响度系数的取值的情况下，将所述第一响度系数的当前调整步长置为原来的一半大小；

将所述当前取值与所述当前调整步长的差值赋值给所述第一响度系数，以用于与所述用户音频进行下一次的乘积运算；

将所述方向参数调整为指示增大所述第一响度系数的取值。

第二方面，提供了一种音频处理装置，所述装置包括：

第一获取模块，用于获取目标音频资源的原唱音频以及伴奏音频；

第二获取模块，用于根据所述伴奏音频，在所述原唱音频中获取人声音频；

第一计算模块，用于计算所述人声音频与所述伴奏音频之间的第一声伴响度比例；

第二计算模块，用于根据所述第一声伴响度比例，计算所述伴奏音频与用户演绎的用户音频之间的第二声伴响度比例；

处理模块，用于根据所述第二声伴响度比例，对所述伴奏音频和所述用户音频进行混声合成处理。

在另一个实施例中，所述第二获取模块，用于对所述原唱音频进行预处理，并对经过预处理后得到的原唱信号进行加窗处理；对所述伴奏音频进行预处理，并对经过预处理后得到的伴奏信号进行加窗处理，所述伴唱信号与所述原唱信号的采样率一致；按照窗移动步长，对经过加窗处理后的原唱信号进行离散傅里叶变换，得到第一频谱变换结果；按照所述窗移动步长，对经过加窗处理后的伴奏信号进行离散傅里叶变换，得到第二频谱变换结果；根据所述第一频谱变换结果和所述第二频谱变换结果，计算目标谱减比例；根据所述第一频谱变换结果和所述目标谱减比例，生成所述人声音频。

在另一个实施例中，所述第二获取模块，用于计算所述第一频谱变换结果的绝对值与所述第二频谱变换结果的绝对值之间的第一差值；若所述第一差值大于零，则将所述第一差值与所述第一频谱变换结果的绝对值之间的比值确定为所述目标谱减比例。

在另一个实施例中，所述第二获取模块，用于将所述第一频谱变换结果与所述目标谱减比例进行乘积运算，得到目标频谱变换结果；对所述目标频谱变换结果进行离散傅里叶逆变换，得到所述人声音频。

在另一个实施例中，所述装置还包括：

确定模块，用于在所述原唱信号中确定仅包括原唱声音的目标信号；

所述第二获取模块，用于在对所述原唱信号中除了所述目标信号之外的其他部分进行静音处理后，基于所述伴奏音频，在经过所述静音处理后的原唱信号中获取所述人声音频。

在另一个实施例中，所述第二计算模块，用于根据所述伴奏音频的响度值以及所述第一声伴响度比例，计算所述用户音频的理论响度值；根据所述理论响度值，迭代计算出所述用户音频的第一响度系数的第一取值；将所述伴奏音频的第二响度系数的第二取值与所述第一取值之间的比值确定为所述第二声伴响度比例。

在另一个实施例中，所述第二计算模块，用于将所述用户音频与所述第一响度系数的当前取值进行乘积运算；计算得到的乘积运算结果的当前响度值；计算所述理论响度值与所述当前响度值之间的第二差值；若所述第二差值的绝对值小于预设阈值，则将所述当前取值确定为所述第一取值。

在另一个实施例中，所述第二计算模块，用于将所述用户音频与所述第一响度系数的当前取值进行乘积运算；计算得到的乘积运算结果的当前响度值；计算所述理论响度值与所述当前响度值之间的第二差值；若所述第二差值为正且大于预设阈值，则在方向参数当前指示增大所述第一响度系数的取值的情况下，将所述第一响度系数的当前调整步长置为原来的一半大小；将所述当前取值与所述当前调整步长的和值赋值给所述第一响度系数，以用于与所述用户音频进行下一次的乘积运算；将所述方向参数调整为指示减小所述第一响度系数的取值。

在另一个实施例中，所述第二计算模块，用于将所述用户音频与所述第一响度系数的当前取值进行乘积运算；计算得到的乘积运算结果的当前响度值；计算所述理论响度值与所述当前响度值之间的第二差值；若所述第二差值为负且所述第二差值的绝对值大于预设阈值，则在方向参数当前指示减小所述第一响度系数的取值的情况下，将所述第一响度系数的当前调整步长置为原来的一半大小；将所述当前取值与所述当前调整步长的差值赋值给所述第一响度系数，以用于与所述用户音频进行下一次的乘积运算；将所述方向参数调整为指示增大所述第一响度系数的取值。

第三方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的音频处理方法。

第四方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的音频处理方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法为了在K歌过程中合成理想的音频作品，会基于歌曲的原唱作品和伴奏来进行原唱作品的声伴响度比例的计算，而后基于这一理想的声伴响度比例，来自动推算本次K歌过程中人声与伴奏之间最佳的声伴响度比例，进而在后续过程中采用这一推算出来的声伴响度比例来指导混声合成，不但整个过程无需人工手动调节，省时省力，而且最终得到的合成作品也更加符合用户预期，所以该种处理方式效果较佳。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频处理方法的流程图；

图2是本发明实施例提供的一种音频处理装置的结构示意图；

图3是本发明实施例提供的一种音频处理装置结构示意图；

图4是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例涉及到的一些名词进行简单介绍。

响度：又称音量，指代人耳感受到的声音强弱，即响度是人对声音大小的一个主观感觉量，换句话说，响度即声音响亮的程度。

声伴响度比例：指代人声与伴奏的比例。其中，声伴响度比例既可用人声的响度值与伴奏的响度值之比来表示，也可用人声的响度系数与伴奏的响度系数之比来表示。

本发明实施例尝试提取原唱歌曲中的声伴响度比例，并且认为这一声伴响度比例是符合用户预期的理想声伴响度比例，进而利用这一声伴响度比例来推算在本次K歌过程中适合的声伴响度比例，最终基于这一推算出的声伴响度比例来指导K歌过程中的混声合成处理，实现无需人工干预即可在K歌过程中自动进行音频合成，且得到的K歌作品也更加符合用户预期，同时也更能接近录音棚专业录音师调节出来的水准。

图1是本发明实施例提供的一种音频处理方法的流程图。参见图1，本发明实施例提供的方法流程包括：

101、获取目标音频资源的原唱音频以及伴奏音频，并根据伴奏音频在原唱音频中获取人声音频。

其中，目标音频资源指代K歌用户当前或者即将演绎的歌曲，原唱音频指代原唱作品，伴奏音频指代在K歌过程中播放的K歌伴奏，人声音频指代原唱音频中的纯人声。

需要说明的第一点是，为了后续过程中方便引用上述原唱音频、伴奏音频、人声音频等，本发明实施例以符号S(原)表征原唱音频，以符号V(原)表征人声音频，以符号A(原)表征原唱音频中的伴奏音频；类似地，以符号V(K)表征K歌用户演绎的用户音频，以符号A(K)表征在K歌过程中播放的K歌伴奏。

需要说明的第二点是，由于只要是原版的K歌伴奏，该K歌伴奏基本上跟原唱音频中的伴奏音频是近似一致的，因此在本发明实施例中认为A(原)近似为A(K)，即本发明实施例并不对伴奏音频进行区分，而是以伴奏音频一词对原唱音频中的伴奏音频以及K歌伴奏进行统一称谓。

此外，由于原唱音频S(原)是由上述伴奏音频A(原)以及人声音频V(K)合成的，因此A(原)+V(原)＝S(原)，由于A(原)近似等于A(K)，所以A(原)近似等于S(原)-A(K)，即通过原唱作品以及K歌伴奏可以近似得到原唱作品中的人声。在一个示例性的实施例中，本发明实施例具体采取将S(原)和A(K)进行频域谱减的方式来得到V(原)，详细过程如下：

(a)、分别对原唱音频以及伴奏音频进行预处理，得到原唱信号以及伴奏信号。

针对该步骤，预处理过程的目的主要是统一二者的采样率，使得经过预处理后的伴唱信号与原唱信号的采样率一致。

其中，在二者采样率不一致的情况下进行采样率的统一处理时，可通过resample函数实现，本发明实施例对此不进行具体限定。此外，为了减少处理耗时，可将原唱信号以及伴奏信号均统一转换成单声道信号。

(b)、对经过预处理后得到的原唱信号以及伴奏信号进行加窗处理。

本发明实施例具体采用hamming(汉明)窗，其中窗长为1024个采样点。即，按照1024个采样点对原唱信号以及伴奏信号进行分帧处理。而在进行加窗处理后，一次仅处理一个hamming窗内的数据，通过不断地进行窗的移动来实现对信号的整体处理。

(c)、按照窗移动步长，对经过加窗处理后的原唱信号进行离散傅里叶变换，得到第一频谱变换结果

其中，窗移动步长小于窗长，比如窗移动步长可为窗长的一半大小，即512个采样点，本发明实施例对此不进行具体限定。

(d)、按照窗移动步长，对经过加窗处理后的伴奏信号进行离散傅里叶变换，得到第二频谱变换结果。

(e)、根据第一频谱变换结果和第二频谱变换结果，计算目标谱减比例。

针对该步骤，在根据第一频谱变换结果和第二频谱变换结果，计算目标谱减比例时，可采取下述方式实现：

计算第一频谱变换结果的绝对值与第二频谱变换结果的绝对值之间的第一差值；若第一差值大于零，则将第一差值与第一频谱变换结果的绝对值之间的比值确定为目标谱减比例。

以第一频谱变换结果为FFT(S(原))，第二频谱变换结果为FFT(A(K))，目标谱减比例为sub为例，则目标谱减比例的计算公式如下：

sub＝(abs(FFT(S(原)))-abs(FFT(A(K))))/abs(FFT(S(原)))

由上述公式可知，本发明实施例将频谱的差值与原唱信号的频谱之比作为目标谱减比例sub。

需要说明的是，由于在谱减后能量不能为负数，因此若abs(FFT(S(原)))-abs(FFT(A(K)))为负数，即若目标谱减比例sub为负数，则将sub置为0。

(f)、根据第一频谱变换结果和目标谱减比例，生成人声音频。

针对该步骤，在根据第一频谱变换结果和目标谱减比例生成人声音频时，可采取下述方式实现：

将第一频谱变换结果与目标谱减比例进行乘积运算，得到目标频谱变换结果，再对目标频谱变换结果进行离散傅里叶逆变换，得到人声音频。

其中，在对原唱信号进行一系列处理的过程中其相位是保持不变的。

在将S(原)的第一频谱变换结果FFT(S(原))乘以目标谱减比例sub，进而得到目标频谱变换结果FFT(S(原))*sub后，再对其进行离散傅里叶逆变换便可恢复成时域信号。而恢复后的时域信号的实部即为V(原)。即，

V(原)＝IFFT(FFT(S(原))*sub)

在另一个实施例中，为了使得提取人声音频的过程更为精确，还可以借助note文件，实现仅对原唱信号中出现人声的那部分信号进行频域谱减，而剩余的部分可直接处理为静音。其中，在具体实施例时，可采取下述方式实现：

调用note文件，在原唱信号中确定仅包括原唱声音的目标信号；之后，在对原唱信号中除了目标信号之外的其他部分进行静音处理，而后基于上述伴奏音频，采取步骤101所示的方式在经过静音处理后的原唱信号中获取人声音频，并再基于人声音频进行后续步骤102的处理。

102、计算人声音频与伴奏音频之间的第一声伴响度比例，并根据第一声伴响度比例，计算伴奏音频与用户演绎的用户音频之间的第二声伴响度比例。

在本发明实施例中，之所以基于第一声伴响度比例，来确定第二声伴响度比例是因为：在每首歌曲的唱片录制阶段，均是由专业的录音师对原唱歌手的纯人声和原唱伴奏进行混声合成，因此在进行原唱作品合成时所采取的声伴响度比例一般均是最优的。所以在本次K歌过程中，基于这一声伴响度比例推算出来的声伴混声比例也较为精确，进而基于这一推算出来的声伴响度比例合成的K歌作品也更能够让用户满意。

其中，在计算人声音频与伴奏音频之间的第一声伴响度比例时，还需先对人声音频的响度值以及伴奏音频的响度值进行计算。在进行响度值的计算时，本发明实施例具体是利用ebur128函数实现。以人声音频的响度值为ebur128(V(原))，伴奏音频的响度值为ebur128(A(K))为例，假设第一声伴响度比例为R，则第一声伴响度比例为R的计算公式如下：

R＝ebur128(A(K))/ebur128(V(原))

在得到第一声伴响度比例后，便可基于第一声伴响度比例来计算第二声伴响度比例，其计算方式如下：

第一步、根据伴奏音频的响度值以及第一声伴响度比例，计算用户音频的理论响度值。

针对该步骤，此处的伴奏音频实质上指代的是原唱作品中的伴奏音频，这一伴奏音频的响度值的计算同样利用ebur128函数实现。以符号ebur128(A(K))表征伴奏音频的响度值，以符号E表征用户音频的理论响度值为例，则用户音频的理论响度值E的计算公式如下：

E＝ebur128(A(K))/R

第二步、根据理论响度值，迭代计算出用户音频的第一响度系数的第一取值，并将伴奏音频的第二响度系数的第二取值与第一取值之间的比值确定为第二声伴响度比例。

在一个示例性的实施例中，在得到上述用户音频的理论响度值E后，接下来，本发明实施例会利用迭代逼近算法，在伴奏音频的第二响度系数的取值不变(比如第二取值恒为1)的情况下，迭代计算出后续用于指导用户音频的混声合成的第一响度系数的第一取值。其中，本发明实施例后续以符号factor对第一响度系数进行表征。

需要说明的是，本发明实施例之所以采取迭代逼近算法进行第一响度系数factor的推算，是因为第一响度系数factor和最终系数调节之后的用户音频的响度值(该值逼近上述理论响度值)虽然没有直接的对应关系，但有系数越大对应响度值越大的单调对应关系，因此通过迭代逼近算法可以推算出最终系数调节之后的响度值所对应的响度系数。其中，本发明实施例采用的迭代逼近算法的逼近精度为0.1LUFS。当然，逼近精度除了0.1LUFS外还可以为其他取值，本发明实施例对此不进行具体限定。

其中，迭代逼近算法的具体实现代码如下：

其中，第一响度系数factor的初始值同第二响度系数的第二取值一致，同为1。step指代在对factor的取值进行调整时，理论上每一次应该调节的步长；dir为方向参数，即在进行factor的取值调整时，利用dir的取值来限定具体是将factor的取值往数值增大的方向进行调整，还是将factor的取值往数值减小的方向进行调整。下面对上述代码的含义进行一下解释说明。

在执行迭代逼近算法时，首先将用户音频V(K)与第一响度系数factor的当前取值进行乘积运算，得到乘积运算结果V(K)*factor；之后，计算得到的乘积运算结果V(K)*factor的当前响度值ebur128(V(K)*factor)；接下来，计算理论响度值E与当前响度值ebur128(V(K)*factor)之间的第二差值diff；即，

diff＝E-ebur128(V(K)*factor)

在得到第二差值diff后，针对其取值的不同，上述代码所表征的含义总共可以分为下述三种情况：

(1)、若第二差值diff的绝对值小于预设阈值，则将第一响度系数factor的当前取值确定为上述第一取值，至此退出迭代过程。

其中，预设阈值即为前文中提及的逼近精度。以预设阈值为0.1LUFS为例，则上述过程可简述为若第二差值diff位于[-0.1，0.1]这一区间内，则退出迭过程，第一响度系数factor的当前取值便为在伴奏音频的第二响度系数为1的情况下，具有最佳声伴响度比例的用户音频所对应的响度系数的取值。

(2)、若第二差值diff为正且大于预设阈值，则在方向参数dir当前指示增大第一响度系数factor的取值的情况下，将第一响度系数factor的当前调整步长置为原来的一半大小，并将第一响度系数factor的当前取值与当前调整步长的和值赋值给第一响度系数factor，以用于与用户音频进行下一次的乘积运算；最后，再将方向参数dir调整为指示减小第一响度系数factor的取值。

其中，在上述代码中dir＝1表示减小第一响度系数factor的取值，dir＝2表示增大第一响度系数factor的取值。

上述过程可简述为，若第二差值diff位于[0.1，∞]这一区间内，且dir＝＝2，假设上一次的调整步长为step1，则当前调整步长便为step1/2。

进一步地，若第一响度系数factor的当前取值为factor1，则本发明实施例会将factor1+step1/2赋值给第一响度系数factor，即，在下一次迭代时以factor1+step1/2作为第一响度系数factor的取值进行上述运算。

需要说明的是，在赋值完毕后，还需将dir的取值由2调整为1。

(3)、若第二差值diff为负且第二差值的绝对值大于预设阈值，则在方向参数dir当前指示减小第一响度系数factor的取值的情况下，将第一响度系数factor的当前调整步长置为原来的一半大小，并将第一响度系数factor的当前取值与当前调整步长的差值赋值给第一响度系数factor，以用于与用户音频进行下一次的乘积运算；最后，再将方向参数dir调整为指示增大第一响度系数factor的取值。

上述过程可简述为，若diff位于[-∞，-0.1]这一区间内，且dir＝＝1，假设上一次的调整步长为step2，则当前调整步长便为step2/2。

进一步地，若第一响度系数factor的当前取值为factor2，则本发明实施例会将factor2-step2/2赋值给第一响度系数factor，即，在下一次迭代时以factor2-step2/2作为第一响度系数factor的取值进行上述运算。

需要说明的是，在赋值完毕后，还需将dir的取值由1调整为2。

103、根据第二声伴响度比例，对伴奏音频和用户音频进行混声合成处理。

其中，第二声伴响度比例即为上述步骤102得到的1：factor。在根据1：factor这一比例对伴奏音频和用户音频进行混声合成处理后，得到的合成作品在声伴响度上和原唱作品中的声伴响度接近或一致，因此更能符合人类理想的听觉感知，更加符合用户预期。

图2是本发明实施例提供的一种音频处理装置的结构示意图。参见图2，该装置包括：

第一获取模块201，用于获取目标音频资源的原唱音频以及伴奏音频；

第二获取模块202，用于根据所述伴奏音频，在所述原唱音频中获取人声音频；

第一计算模块203，用于计算所述人声音频与所述伴奏音频之间的第一声伴响度比例；

第二计算模块204，用于根据所述第一声伴响度比例，计算所述伴奏音频与用户演绎的用户音频之间的第二声伴响度比例；

处理模块205，用于根据所述第二声伴响度比例，对所述伴奏音频和所述用户音频进行混声合成处理。

在另一个实施例中，所述第二获取模块202，用于对所述原唱音频进行预处理，并对经过预处理后得到的原唱信号进行加窗处理；对所述伴奏音频进行预处理，并对经过预处理后得到的伴奏信号进行加窗处理，所述伴唱信号与所述原唱信号的采样率一致；按照窗移动步长，对经过加窗处理后的原唱信号进行离散傅里叶变换，得到第一频谱变换结果；按照所述窗移动步长，对经过加窗处理后的伴奏信号进行离散傅里叶变换，得到第二频谱变换结果；根据所述第一频谱变换结果和所述第二频谱变换结果，计算目标谱减比例；根据所述第一频谱变换结果和所述目标谱减比例，生成所述人声音频。

在另一个实施例中，所述第二获取模块202，用于计算所述第一频谱变换结果的绝对值与所述第二频谱变换结果的绝对值之间的第一差值；若所述第一差值大于零，则将所述第一差值与所述第一频谱变换结果的绝对值之间的比值确定为所述目标谱减比例。

在另一个实施例中，所述第二获取模块202，用于将所述第一频谱变换结果与所述目标谱减比例进行乘积运算，得到目标频谱变换结果；对所述目标频谱变换结果进行离散傅里叶逆变换，得到所述人声音频。

在另一个实施例中，参见图3，该装置还包括：

确定模块206，用于在所述原唱信号中确定仅包括原唱声音的目标信号；

所述第二获取模块202，用于在对所述原唱信号中除了所述目标信号之外的其他部分进行静音处理后，基于所述伴奏音频，在经过所述静音处理后的原唱信号中获取所述人声音频。

在另一个实施例中，所述第二计算模块204，用于根据所述伴奏音频的响度值以及所述第一声伴响度比例，计算所述用户音频的理论响度值；根据所述理论响度值，迭代计算出所述用户音频的第一响度系数的第一取值；将所述伴奏音频的第二响度系数的第二取值与所述第一取值之间的比值确定为所述第二声伴响度比例。

在另一个实施例中，所述第二计算模块204，用于将所述用户音频与所述第一响度系数的当前取值进行乘积运算；计算得到的乘积运算结果的当前响度值；计算所述理论响度值与所述当前响度值之间的第二差值；若所述第二差值的绝对值小于预设阈值，则将所述当前取值确定为所述第一取值。

在另一个实施例中，所述第二计算模块204，用于将所述用户音频与所述第一响度系数的当前取值进行乘积运算；计算得到的乘积运算结果的当前响度值；计算所述理论响度值与所述当前响度值之间的第二差值；若所述第二差值为正且大于预设阈值，则在方向参数当前指示增大所述第一响度系数的取值的情况下，将所述第一响度系数的当前调整步长置为原来的一半大小；将所述当前取值与所述当前调整步长的和值赋值给所述第一响度系数，以用于与所述用户音频进行下一次的乘积运算；将所述方向参数调整为指示减小所述第一响度系数的取值。

在另一个实施例中，所述第二计算模块204，用于将所述用户音频与所述第一响度系数的当前取值进行乘积运算；计算得到的乘积运算结果的当前响度值；计算所述理论响度值与所述当前响度值之间的第二差值；若所述第二差值为负且所述第二差值的绝对值大于预设阈值，则在方向参数当前指示减小所述第一响度系数的取值的情况下，将所述第一响度系数的当前调整步长置为原来的一半大小；将所述当前取值与所述当前调整步长的差值赋值给所述第一响度系数，以用于与所述用户音频进行下一次的乘积运算；将所述方向参数调整为指示增大所述第一响度系数的取值。

本发明实施例提供的装置为了在K歌过程中合成理想的音频作品，会基于歌曲的原唱作品和伴奏来进行原唱作品的声伴响度比例的计算，而后基于这一理想的声伴响度比例，来自动推算本次K歌过程中人声与伴奏之间最佳的声伴响度比例，进而在后续过程中采用这一推算出来的声伴响度比例来指导混声合成，不但整个过程无需人工手动调节，省时省力，而且最终得到的合成作品也更加符合用户预期，所以该种处理方式效果较佳。

需要说明的是：上述实施例提供的音频处理装置在进行音频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种终端的结构示意图，该终端可以用于执行上述实施例中提供的音频处理方法。参见图4，该终端400包括：

RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(WirelessFidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端400的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端400的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图4中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输出功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端400还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端400移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端400还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端400之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端400的通信。

WiFi属于短距离无线传输技术，终端400通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。

处理器180是终端400的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端400的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端400还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端400还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，所述存储器120中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述实施例所述的音频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取目标音频资源的原唱音频以及伴奏音频；

根据所述伴奏音频，在所述原唱音频中获取人声音频；

2.根据权利要求1所述的方法，其特征在于，所述根据所述伴奏音频，在所述原唱音频中获取人声音频，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一频谱变换结果和所述第二频谱变换结果，计算目标谱减比例，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一频谱变换结果和所述目标谱减比例，生成所述人声音频，包括：

5.根据权利要求2至4中任一权利要求所述的方法，其特征在于，所述方法还包括：

在所述原唱信号中确定仅包括原唱声音的目标信号；

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一声伴响度比例，计算所述伴奏音频与用户演绎的用户音频之间的第二声伴响度比例，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述理论响度值，迭代计算出所述用户音频的第一响度系数的第一取值，包括：

计算得到的乘积运算结果的当前响度值；

计算所述理论响度值与所述当前响度值之间的第二差值；

8.根据权利要求6所述的方法，其特征在于，所述根据所述理论响度值，迭代计算出所述用户音频的第一响度系数的第一取值，包括：

计算得到的乘积运算结果的当前响度值；

计算所述理论响度值与所述当前响度值之间的第二差值；

将所述方向参数调整为指示减小所述第一响度系数的取值。

9.根据权利要求6所述的方法，其特征在于，所述根据所述理论响度值，迭代计算出所述用户音频的第一响度系数的第一取值，包括：

计算得到的乘积运算结果的当前响度值；

计算所述理论响度值与所述当前响度值之间的第二差值；

将所述方向参数调整为指示增大所述第一响度系数的取值。

10.一种音频处理装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述第二获取模块，用于对所述原唱音频进行预处理，并对经过预处理后得到的原唱信号进行加窗处理；对所述伴奏音频进行预处理，并对经过预处理后得到的伴奏信号进行加窗处理，所述伴唱信号与所述原唱信号的采样率一致；按照窗移动步长，对经过加窗处理后的原唱信号进行离散傅里叶变换，得到第一频谱变换结果；按照所述窗移动步长，对经过加窗处理后的伴奏信号进行离散傅里叶变换，得到第二频谱变换结果；根据所述第一频谱变换结果和所述第二频谱变换结果，计算目标谱减比例；根据所述第一频谱变换结果和所述目标谱减比例，生成所述人声音频。

12.根据权利要求11所述的装置，其特征在于，所述第二获取模块，用于计算所述第一频谱变换结果的绝对值与所述第二频谱变换结果的绝对值之间的第一差值；若所述第一差值大于零，则将所述第一差值与所述第一频谱变换结果的绝对值之间的比值确定为所述目标谱减比例。

13.根据权利要求11所述的装置，其特征在于，所述第二获取模块，用于将所述第一频谱变换结果与所述目标谱减比例进行乘积运算，得到目标频谱变换结果；对所述目标频谱变换结果进行离散傅里叶逆变换，得到所述人声音频。

14.根据权利要求11至13中任一权利要求所述的装置，其特征在于，所述装置还包括：

15.根据权利要求10所述的装置，其特征在于，所述第二计算模块，用于根据所述伴奏音频的响度值以及所述第一声伴响度比例，计算所述用户音频的理论响度值；根据所述理论响度值，迭代计算出所述用户音频的第一响度系数的第一取值；将所述伴奏音频的第二响度系数的第二取值与所述第一取值之间的比值确定为所述第二声伴响度比例。

16.根据权利要求15所述的装置，其特征在于，所述第二计算模块，用于将所述用户音频与所述第一响度系数的当前取值进行乘积运算；计算得到的乘积运算结果的当前响度值；计算所述理论响度值与所述当前响度值之间的第二差值；若所述第二差值的绝对值小于预设阈值，则将所述当前取值确定为所述第一取值。

17.根据权利要求15所述的装置，其特征在于，所述第二计算模块，用于将所述用户音频与所述第一响度系数的当前取值进行乘积运算；计算得到的乘积运算结果的当前响度值；计算所述理论响度值与所述当前响度值之间的第二差值；若所述第二差值为正且大于预设阈值，则在方向参数当前指示增大所述第一响度系数的取值的情况下，将所述第一响度系数的当前调整步长置为原来的一半大小；将所述当前取值与所述当前调整步长的和值赋值给所述第一响度系数，以用于与所述用户音频进行下一次的乘积运算；将所述方向参数调整为指示减小所述第一响度系数的取值。

18.根据权利要求15所述的装置，其特征在于，所述第二计算模块，用于将所述用户音频与所述第一响度系数的当前取值进行乘积运算；计算得到的乘积运算结果的当前响度值；计算所述理论响度值与所述当前响度值之间的第二差值；若所述第二差值为负且所述第二差值的绝对值大于预设阈值，则在方向参数当前指示减小所述第一响度系数的取值的情况下，将所述第一响度系数的当前调整步长置为原来的一半大小；将所述当前取值与所述当前调整步长的差值赋值给所述第一响度系数，以用于与所述用户音频进行下一次的乘积运算；将所述方向参数调整为指示增大所述第一响度系数的取值。

19.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9中任一权利要求所述的音频处理方法。

20.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9中任一权利要求所述的音频处理方法。