CN112216294B

CN112216294B - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN112216294B
Application number: CN202010899286.7A
Authority: CN
Inventors: 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2024-03-19
Anticipated expiration: 2040-08-31
Also published as: CN112216294A; WO2022042129A1

Abstract

本公开关于一种音频处理方法、装置、电子设备及存储介质，通过获取第一音频信号，对所述第一音频信号进行信号修正处理，得到修正处理后的中间音频信号，并对所述中间音频信号和伴奏音频信号进行内容分析处理，得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息，从而根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，以得到混音后的音频信号，通过对所述中间音频信号和所述伴奏音频信号进行混音处理能够美化人声，实现良好的混音效果，得到听感质量高的音乐，提高用户的演唱水效果，并逼近专业演唱者的水准。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及音频技术领域，尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

随着网络技术的发展，越来越多的用户选择通过电子设备上安装的K歌系统进行歌唱。用户对自我演唱的要求也越来越高，希望自己如专业歌手般将所演唱的歌曲演绎的更加精彩。因此，通常情况下K歌系统提供混音功能以美化演唱效果。

相关技术中，安装于电子设备的K歌系统通过人声贴唱的方式进行混音，即伴奏的混音已经提前完成，将伴奏与干声两个音轨进行混合。

然而，面对演唱水平参差不齐的用户，目前的混音方式存在效果不佳的技术问题。

发明内容

本公开提供一种音频处理方法、装置、电子设备及存储介质，以至少解决相关技术中混音方式存在效果不佳的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频处理方法，包括：

获取第一音频信号，对所述第一音频信号进行信号修正处理，得到修正处理后的中间音频信号，其中，所述第一音频信号为对用户演唱的歌声进行采集得到的原始音频内容；

对所述中间音频信号和伴奏音频信号进行内容分析处理，得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息，其中，所述伴奏音频信号为所述用户演唱歌曲时候的伴奏音频信号；

根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，以得到混音后的音频信号。

在其中一个实施例中，所述获取第一音频信号，对所述第一音频信号进行信号修正处理，包括：

根据所述第一音频信号的音准信息，判断所述第一音频信号的音准偏差大小；

若所述第一音频信号的音准偏差小，则根据所述第一音频信号进行自身修正；

若所述第一音频信号的音准偏差大，则根据第二音频信号的音准信息对所述第一音频信号进行信号修正处理，所述第二音频信号为对专业歌手演唱所述歌曲时进行采集得到的原始音频内容。

在其中一个实施例中，所述根据所述第一音频信号进行自身修正，包括：

提取所述第一音频信号中各帧信号的基频和共振峰频率，并对所述基频以及所述共振峰频率进行频率调整，以使所述第一音频信号的基频以及所述共振峰频率与所述伴奏音频信号中各帧信号的频率对齐。

在其中一个实施例中，所述根据第二音频信号的音准信息对所述第一音频信号进行信号修正处理，包括：

以所述第二音频信号的音准信息为标准，对所述第一音频信号的音准线进行压缩和调整，以使所述第一音频信号的音准信息与所述第二音频信号的音准信息进行时间对齐。

在其中一个实施例中，所述修正处理还包括节奏对齐；所述获取第一音频信号，对所述第一音频信号进行信号修正处理，包括：

获取所述第一音频信号的演唱起始时间和所述伴奏音频信号的演唱起始时间，调整所述第一音频信号的起始时间与所述伴奏音频信号的演唱起始时间对齐，以使所述第一音频信号与所述伴奏音频信号节奏对齐；或

获取所述第一音频信号的演唱起始时间和所述第二音频信号的演唱起始时间，调整所述第一音频信号的起始时间与所述第二音频信号的演唱起始时间对齐，以使所述第一音频信号与所述第二音频信号节奏对齐。

在其中一个实施例中，所述对所述中间音频信号和伴奏音频信号进行内容分析处理，得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息，包括：

对所述中间音频信号进行音色分析、动态分析、情感分析中的至少一种，对应得到所述中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种；

对所述伴奏音频信号进行风格分析和节奏分析中的至少一种，对应得到所述伴奏音频信号的风格特征信息、节奏特征信息中的至少一种。

在其中一个实施例中，所述根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，包括：

根据所述中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及所述伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对所述中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种；

将经过均衡调节、动态压缩、音量调节、增加混响中的至少一种处理后的中间音频信号和所述伴奏音频信号进行混音处理。

在其中一个实施例中，所述演唱特征信息包括所述中间音频信号的平均音量，所述伴奏特征信息包括所述伴奏音频信号的平均音量；所述根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，包括：

确定所述中间音频信号的平均音量与所述伴奏音频信号的平均音量之间的音量平衡调节比例；

根据所述音量平衡调节比例，对所述中间音频信号进行音量平衡调节；

将音量平衡调节后的中间音频信号和所述伴奏音频信号进行混音处理。

根据本公开实施例的第二方面，提供一种音频处理装置，包括：

信号修正处理模块，被配置为执行获取第一音频信号，对所述第一音频信号进行信号修正处理，得到修正处理后的中间音频信号，其中，所述第一音频信号为对用户演唱的歌声进行采集得到的原始音频内容；

内容分析处理模块，被配置为执行对所述中间音频信号和伴奏音频信号进行内容分析处理，得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息，其中，所述伴奏音频信号为所述用户演唱歌曲时候的伴奏音频信号；

混音处理模块，被配置为执行根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，以得到混音后的音频信号。

在其中一个实施例中，所述信号修正处理模块包括判断单元、第一修正单元以及第二修正单元；其中：

所述判断单元，被配置为执行根据所述第一音频信号的音准信息，判断所述第一音频信号的音准偏差大小；

所述第一修正单元，被配置为执行若所述第一音频信号的音准偏差小，则根据所述第一音频信号进行自身修正；

所述第二修正单元，被配置为执行若所述第一音频信号的音准偏差大，则根据第二音频信号的音准信息对所述第一音频信号进行信号修正处理，所述第二音频信号为对专业歌手演唱所述歌曲时进行采集得到的原始音频内容。

在其中一个实施例中，所述第一修正单元，还被配置为执行提取所述第一音频信号中各帧信号的基频和共振峰频率，并对所述基频以及所述共振峰频率进行频率调整，以使所述第一音频信号的基频以及所述共振峰频率与所述伴奏音频信号中各帧信号的频率对齐。

在其中一个实施例中，所述第二修正单元，还被配置为执行以所述第二音频信号的音准信息为标准，对所述第一音频信号的音准线进行压缩和调整，以使所述第一音频信号的音准信息与所述第二音频信号的音准信息进行时间对齐。

在其中一个实施例中，所述修正处理还包括节奏对齐；所述信号修正处理模块，还被配置为执行获取所述第一音频信号的演唱起始时间和所述伴奏音频信号的演唱起始时间，调整所述第一音频信号的起始时间与所述伴奏音频信号的演唱起始时间对齐，以使所述第一音频信号与所述伴奏音频信号节奏对齐；或

所述信号修正处理模块，还被配置为执行获取所述第一音频信号的演唱起始时间和所述第二音频信号的演唱起始时间，调整所述第一音频信号的起始时间与所述第二音频信号的演唱起始时间对齐，以使所述第一音频信号与所述第二音频信号节奏对齐。

在其中一个实施例中，所述内容分析处理模块，还被配置为执行对所述中间音频信号进行音色分析、动态分析、情感分析中的至少一种，对应得到所述中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种；对所述伴奏音频信号进行风格分析和节奏分析中的至少一种，对应得到所述伴奏音频信号的风格特征信息、节奏特征信息中的至少一种。

在其中一个实施例中，所述混音处理模块，还被配置为执行根据所述中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及所述伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对所述中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种；将经过均衡调节、动态压缩、音量调节、增加混响中的至少一种处理后的中间音频信号和所述伴奏音频信号进行混音处理。

在其中一个实施例中，所述演唱特征信息包括所述中间音频信号的平均音量，所述伴奏特征信息包括所述伴奏音频信号的平均音量；所述混音处理模块，还被配置为执行确定所述中间音频信号的平均音量与所述伴奏音频信号的平均音量之间的音量平衡调节比例；根据所述音量平衡调节比例，对所述中间音频信号进行音量平衡调节；将音量平衡调节后的中间音频信号和所述伴奏音频信号进行混音处理。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面的任一项实施例中所述的音频处理方法。

根据本公开实施例的第四方面，一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备/服务器能够执行如第一方面的任一项实施例中所述的音频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取第一音频信号，对所述第一音频信号进行信号修正处理，得到修正处理后的中间音频信号，并对所述中间音频信号和伴奏音频信号进行内容分析处理，得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息，从而根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，以得到混音后的音频信号，通过对所述中间音频信号和所述伴奏音频信号进行混音处理能够美化人声，实现良好的混音效果，得到听感质量高的音乐，提高用户的演唱效果，并逼近专业演唱者的水准。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频处理方法的应用环境图。

图2a是根据一示例性实施例示出的一种音频处理方法的流程图。

图2b是根据一示例性实施例示出的步骤S210a的流程图。

图3a是根据一示例性实施例示出的步骤S220b的流程图。

图3b是根据一示例性实施例示出的倒谱法提取基频的示意图。

图4是根据一示例性实施例示出的步骤S230b的流程图。

图5a是根据一示例性实施例示出的步骤S210a的流程图。

图5b为根据一示例性实施例示出的语音端点检测(VAD)的检测结果。

图5c至5d为根据一示例性实施例示出的对数压缩后的频谱示意图。

图6a是根据一示例性实施例示出的步骤S220a的流程图。

图6b是根据一示例性实施例示出的步骤S230a的流程图。

图6c是根据一示例性实施例示出的均衡调节的流程图。

图7a是根据一示例性实施例示出的确定压缩比率的流程图。

图7b是根据一示例性实施例示出的动态压缩的过程图。

图8是根据一示例性实施例示出的音量调节的流程图。

图9是根据一示例性实施例示出的确定效果器参数值调节范围的流程图。

图10a是根据一示例性实施例示出的确定混响比例的流程图。

图10b是根据一示例性实施例示出的人工混响反馈延迟网络的原理图。

图11是根据一示例性实施例示出的步骤S230的流程图。

图12a是根据一示例性实施例示出的音频效果器的结构框图。

图12b是根据一示例性实施例示出的音频效果器的结构框图。

图13是根据一示例性实施例示出的一种音频处理方法的流程图。

图14是根据一示例性实施例示出的一种音频处理装置的框图。

图15是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的音频处理方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120进行交互。具体地，终端110上安装有具备K歌功能的应用程序或者小程序，响应于任一歌曲开始K歌的操作指令，终端110从服务器120加载该歌曲的伴奏音频信号。通过终端110上的音频采集模块对用户发出的第一音频信号进行采集，即终端110获取第一音频信号，可以对第一音频信号进行信号修正处理，得到修正处理后的中间音频信号，其中，第一音频信号为对用户演唱的歌声进行采集得到的原始音频内容；并对中间音频信号和伴奏音频信号进行内容分析处理，得到中间音频信号的演唱特征信息和伴奏音频信号的伴奏特征信息，其中，伴奏音频信号为用户演唱歌曲时候的伴奏音频信号；从而根据演唱特征信息和伴奏特征信息，对中间音频信号和伴奏音频信号进行混音处理，以得到混音后的音频信号。可见：本公开通过对中间音频信号和伴奏音频信号进行混音处理能够美化人声，实现良好的混音效果，得到听感质量高的音乐，提高用户的演唱效果，并逼近专业演唱者的水准。

其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2a是根据一示例性实施例示出的一种音频处理方法的流程图，如图2a所示，音频处理方法用于终端110中，包括以下步骤：

在步骤S210a中，获取第一音频信号，对第一音频信号进行信号修正处理，得到修正处理后的中间音频信号。

其中，第一音频信号为对用户演唱的歌声进行采集得到的原始音频内容。第一音频信号可以是用户发出的无音乐且未经任何处理的纯人声信号。歌曲是一种艺术的表现形式，可以是由歌词和曲谱相结合的艺术形式，也可以是由各种不同的声响组成的曲艺形式。音频信号是描述音频范围内和声音有关的信号，无论是说话声、歌声还是动物发出的声音都可以通过相应的处理得到音频信号。信号修正处理可以是对第一音频信号进行与内容无关的调整处理，可以是时间维度上的演唱起始时间对齐，也可以是频率维度上的频率对齐，比如音高校准。中间音频信号是对第一音频信号进行信号修正处理后得到的音频信号。

具体地，终端110上安装有具备K歌功能的应用程序或者小程序，可向用户提供点歌、歌曲录制以及修音功能的应用软件，例如，全民K歌APP、唱吧APP、快手APP中的K歌功能等，本公开实施例对此不做任何限制。响应于任一歌曲开始K歌的操作指令，通过终端110上的音频采集模块对用户发出的第一音频信号进行采集，即终端110获取第一音频信号，可以对第一音频信号进行音高校准、时间对齐、频率对齐等方式的信号修正处理，得到修正处理后的中间音频信号。

在步骤S220a中，对中间音频信号和伴奏音频信号进行内容分析处理，得到中间音频信号的演唱特征信息和伴奏音频信号的伴奏特征信息。

其中，伴奏音频信号为用户演唱歌曲时候的伴奏音频信号。比如，伴奏音频信号可以是歌曲中除人声外的部分，可以包括背景音乐(BGM，Back Ground Music)，也可以包括和声部分。内容分析是对修正处理后的中间音频信号在内容上进行分析，比如，内容分析可以是音色质量分析，可以是动态大小分析，还可以是演唱情感分析。演唱特征信息可以是用于反映用户在演唱歌曲时表现出的动态、音色、情感等特征信息。伴奏特征信息可以是用于反映歌曲的伴奏音频信号的韵律特征信息，比如伴奏音频信号的节奏特征信息、风格特征信息。具体地，终端110上安装有具备K歌功能的应用程序或者小程序，响应于任一歌曲开始K歌的操作指令，终端110从服务器120加载该歌曲的伴奏音频信号。为了提升混音效果，在节奏、风格等方面对歌曲的伴奏音频信号进行内容分析，得到伴奏音频信号的伴奏特征信息。伴奏音频信号的伴奏特征信息是混音的前提条件。在音色、动态、情感等方面对得到的中间音频信号进行内容分析，从而得到中间音频信号的演唱特征信息。演唱特征信息为有针对性地对中间音频信号进行混音提供了依据。

在步骤S230a中，根据演唱特征信息和伴奏特征信息，对中间音频信号和伴奏音频信号进行混音处理，以得到混音后的音频信号。

具体地，根据中间音频信号的演唱特征信息和伴奏音频信号的伴奏特征信息对中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种调节。将调节后的中间音频信号与伴奏音频信号进行混音处理，以得到混音后的音频信号。示例性地，首先，根据演唱特征信息和伴奏特征信息确定EQ均衡器、动态压缩器以及混响器的参数值，比如，EQ均衡器的滤波参数，动态压缩器的阈值、压缩比、增益、起始时间，混响器的混响比例、混响时间、混响密度。其次，通过EQ均衡器、动态压缩器以及混响器的参数值对中间音频信号进行调节，得到目标音频信号，在对中间音频信号进行调节的过程中，可以产生增润音色、改变音色等效果，从而提升目标音频信号的质量。最后，将目标音频信号与伴奏音频信号进行混音处理，以得到混音后的音频信号。

上述音频处理方法中，通过获取第一音频信号，对第一音频信号进行信号修正处理，得到修正处理后的中间音频信号，并对中间音频信号和伴奏音频信号进行内容分析处理，得到中间音频信号的演唱特征信息和伴奏音频信号的伴奏特征信息，从而根据演唱特征信息和伴奏特征信息，对中间音频信号和伴奏音频信号进行混音处理，以得到混音后的音频信号，通过对中间音频信号和伴奏音频信号进行混音处理能够美化人声，实现良好的混音效果，得到听感质量高的音乐，提高用户的演唱效果，并逼近专业演唱者的水准。

在一示例性实施例中，如图2b所示，在步骤210a中，获取第一音频信号，对第一音频信号进行信号修正处理，具体可以通过以下步骤实现：

在步骤210b中，根据第一音频信号的音准信息，判断第一音频信号的音准偏差大小；

在步骤220b中，若第一音频信号的音准偏差小，则根据第一音频信号进行自身修正；

在步骤230b中，若第一音频信号的音准偏差大，则根据第二音频信号的音准信息对第一音频信号进行信号修正处理。

其中，第一音频信号为对用户演唱的歌声进行采集得到的原始音频内容。第二音频信号为对专业歌手演唱歌曲时进行采集得到的原始音频内容。具体地，将第一音频信号通过短时傅里叶变换(Short-TimeFourierTransform，STFT)从时域转换至时频域，取得每帧音频信号的幅度和相位信息。从频谱图中提取每帧音频信号的基频，确定第一音频信号的音准信息，并将第一音频信号的音准信息和第二音频信号的音准信息进行比较，判断第一音频信号的音准偏差大小。若第一音频信号的音准偏差小，则对第一音频信号进行微调，即根据第一音频信号进行自身修正。微调的方式比较适合于音准几乎无偏差的演唱水平较高的用户。若第一音频信号的音准偏差大，则对第一音频信号进行精准修音，即通过与第二音频信号的音准信息进行对比，按照第二音频信号的音准信息在一定误差范围内对第一音频信号进行信号修正处理使其与第二音频信号的音准信息基本对应。精准修音的方式比较适合于音准偏差大的演唱水平不高的用户。

上述音频处理方法中，通过根据第一音频信号的音准信息，判断第一音频信号的音准偏差大小；若第一音频信号的音准偏差小，则根据第一音频信号进行自身修正；若第一音频信号的音准偏差大，则根据第二音频信号的音准信息对第一音频信号进行信号修正处理。结合用户的实际演唱水平选择不同的信号修正方式，实现了有针对性地对第一音频信号进行信号修正，采用微调的方式可以完整地保留演唱水平较高用户的演唱特点，采用精准修音的方式可以有效弥补演唱水平不高用户的演唱缺陷，提高用户的演唱效果，并逼近专业演唱者的水准。

在一示例性实施例中，根据第一音频信号进行自身修正，包括：提取第一音频信号中各帧信号的基频和共振峰频率，并对基频以及共振峰频率进行频率调整，以使第一音频信号的基频以及共振峰频率与伴奏音频信号中各帧信号的频率对齐。

具体地，如图3a所示，在步骤S220b中，根据第一音频信号进行自身修正，具体可以通过以下步骤实现：

在步骤S310中，提取第一音频信号中各帧信号的基频和共振峰频率。

在步骤S320中，获取伴奏音频信号中各帧信号的频率。

在步骤S330中，获取第一音频信号各帧信号的基频与伴奏音频信号中各帧信号的频率之间的频率差值，并将频率差值转换为对应的音分差值。

在步骤S340中，若音分差值超过预设音分值，则根据伴奏音频信号中各帧信号的频率对基频以及共振峰频率进行调整，以使第一音频信号的基频以及共振峰频率与伴奏音频信号各帧信号的频率对齐。

其中，由于音高是影响听感效果的直观因素，音高指人耳对音调高低的主观感觉，且频率的高低影响音高。频率低的调子给人以低沉、厚实、粗犷的感觉；频率高的调子给人以亮丽、明亮、尖刻的感觉。因此在混音之前对第一音频信号进行频率对齐的修正处理。基频可反映出第一音频信号的基础音调。共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道(共振腔)的物理特征。共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。共振峰频率可以认为是基频的谐振频率。

具体地，将第一音频信号通过短时傅里叶变换(Short-Time Fourier Transform，STFT)从时域转换至时频域，取得每帧音频信号的幅度和相位信息。进而提取第一音频信号中每一帧的基频和共振峰频率，如果基频和共振峰频率超出频率误差允许的范围，则按照就近原则，使音准调整到与其基频或者共振峰频率最近的半音频率范围内。需要说明的是，该实施例中的方法适应于音准几乎无偏差的演唱水平较高的用户。

示例性地，如图3b所示，通过倒谱法(Cepstrum)来提取基频，对信号x[n]进行离散傅里变换(Discrete Fourier Transform，DFT)，接着取对数后再经过反离散傅立叶变换(Inversive Discrete Fourier Transform，IDFT)得到对应的信号频谱。倒谱法可以采用如下公式来表示：

s^[n]＝DFT^-1{logDFT(x[n])}

在预设的频率范围内，在得到的信号频谱中确定幅值最大值对应的采样点数值，再用采样率除以幅值最大值对应的采样点数值，得到基频。计算第一音频信号各帧信号的基频与伴奏音频信号中各帧信号的频率之间的频率差值，并将频率差值转换为对应的音分差值。将音分差值与预设音分值进行比较，若音分差值超过预设音分值，则根据伴奏音频信号中各帧信号的频率对基频以及共振峰频率进行调整，以使第一音频信号的基频以及共振峰频率与伴奏音频信号各帧信号的频率对齐。反之则不调整。示例性地，如果音分差值大于25音分，则视为走调，这是需要对声音频率进行调整，将音分差值调整到25音分以内，即实现第一音频信号与伴奏音频信号的频率对齐，最后通过声码器输出微调后的第一音频信号。

上述音频处理方法中，通过对第一音频信号与伴奏音频信号进行频率对齐的信号修正处理，为后续的混音打下基础，从而可以改善混音效果，提升用户演唱歌曲产生的听感效果。

在一示例性实施例中，在步骤S230b中，根据第二音频信号的音准信息对第一音频信号进行信号修正处理，包括：以第二音频信号的音准信息为标准，对第一音频信号的音准线进行压缩和调整，以使第一音频信号的音准信息与第二音频信号的音准信息进行时间对齐。

具体地，如图4所示，在步骤S230b中，根据第二音频信号的音准信息对第一音频信号进行信号修正处理，具体可以通过以下步骤实现：

在步骤S410中，获取第二音频信号的音准线。

在步骤S420中，获取第一音频信号的音准线。

在步骤S430中，以第二音频信号的音准信息为标准，对第一音频信号的音准线进行压缩和调整。

其中，第二音频信号可以是原唱演唱歌曲时产生的音频信号。原唱是指某歌曲分布时演唱该歌曲的歌手或者演唱该歌曲表现出专业表演水平的歌手。第二音频信号可以是专业歌手或者演唱水平高歌手演唱该歌曲发出的无音乐的纯人声信号。音准是歌唱和乐器演奏中所发的音高，能与一定律制的音高相符。音准线可以反映音频信号中每帧信号的音高，可以理解为每帧信号的音高构成的音准轮廓。第二音频信号的音准线可以是第二音频信号中每帧信号的音高构成的轮廓线。第一音频信号的音准线可以是第一音频信号中每帧信号的音高构成的轮廓线。

具体地，通过从频谱图中提取出第一音频信号中每一帧信号的基频，得到第一音频信号中每一帧信号的实际音高，将其与第二音频信号中每一帧信号的音准进行对比，按照第二音频信号的音准在一定误差范围内压缩和调整第一音频信号的音准线使其与第二音频信号中每一帧信号的音准基本对应。

示例性的，通过规范时间规整算法(Canonical Time Warping，CTW)获取第一音频信号的音准线和获取第二音频信号的音准线。CTW是一种时间对齐的最新技术，它可以将用户的录音与原唱的录音进行比对，然后根据比对的信息，将生成新的音准轮廓作为音调标准。声码器将根据新生成的音准轮廓重新合成人声，最后得到音高修正后的中间音频信号。

进一步地，规范时间规整(CTW)是典型相关分析(Canonical CorrelationAnalysis,CCA)和动态时间规整(Dynamic Time Warping，CTW)的拓展，用于两个对象之间行为的时空对齐。DTW可以计算两个时间序列的相似度，尤其适用于不同长度，不同节奏的时间序列，DTW将自动扭曲时间序列，使两个序列的形态尽可能一致，得到最大可能的相似序列，两个序列的最短路径可以用递归算法来求得，公式如下：

L_min(i,j)＝min{L_min(i,j-1),L_min(i-1,j),L_min(i-1,j-1)}+M(i,j)

其中，L为最短路径，M为当前路径。

上述音频处理方法中，通过对第一音频信号的音准与第二音频信号的音准进行时间对齐的信号修正处理，提升用户演唱歌曲产生的听感效果。

在一示例性实施例中，修正处理还包括节奏对齐。在步骤S210a中，获取第一音频信号，对第一音频信号进行信号修正处理，包括：获取第一音频信号的演唱起始时间和伴奏音频信号的演唱起始时间，调整第一音频信号的起始时间与伴奏音频信号的演唱起始时间对齐，以使第一音频信号与伴奏音频信号节奏对齐。或

获取第一音频信号的演唱起始时间和第二音频信号的演唱起始时间，调整第一音频信号的起始时间与第二音频信号的演唱起始时间对齐，以使第一音频信号与第二音频信号节奏对齐。

具体地，如图5a所示，在步骤S210a中，获取第一音频信号，对第一音频信号进行信号修正处理，具体可以通过以下步骤实现：

在步骤S510中，检测第一音频信号的演唱起始时间。

在步骤S520中，获取伴奏音频信号的演唱起始时间。

在步骤S530中，根据伴奏音频信号的演唱起始时间，对第一音频信号的起始时间进行调整，以使第一音频信号的演唱起始时间与伴奏音频信号的演唱起始时间对齐。

其中，演唱起始时间是指用户或者原唱开始演唱歌曲的时间。从服务器加载的伴奏音频信号标注有演唱起始时间。具体地，若将第一音频信号与伴奏音频信号进行对齐，需要用语音断点检测的方式(Voice Activity Detection，VAD)的方式检测第一音频信号的演唱起始时间，并将其与标注的伴奏音频信号的演唱起始时间进行对齐，以实现一个基础的对齐。且VAD作为检测第一音频信号的演唱起始时间，对噪声具有较好的鲁棒性，图5b为对某一段语音信号的语音端点检测(VAD)的检测结果。

示例性的，在VAD中，首先将第一音频信号进行分帧处理，从每一帧数据中提取对数帧能量、过零率作为特征，然后利用分类器对未知的分帧数据进行分类，判断其属于语音信号还是静默信号。需要说明的是，分类器是基于已知语音信号区域和静默信号区域的数据帧集合训练的。

在本实施例中，只需要检测第一个语音信号的起始时间，并与对应的伴奏音频信号相应的时间对齐即可。进一步地，对于节奏检测(Beat Estimation)可以分为三个阶段：第一阶段为检测起始强度，第二阶段为根据起始位置的相关性来估算节奏，第三阶段为根据估算的速度选择起始位置强度的峰值，并根据峰值之间的时间差确定伴奏音频信号的节奏。示例性的，基于频谱检测检测起始强度，为了增强频谱能量的强弱对比，先对频谱进行对数压缩，公式如下：

Y＝log(1+γ×|X|)

其中，γ为大于等于1的常数，通过对数压缩，音乐能量的强弱变化便会更突出(如图5c和5d所示)。X为频谱能量，Y为对数压缩后得到的频谱能量。可以利用半波整流的方式，考虑能量的正向变化，摒弃负向变化，最终得到频谱的能量变化图。

另一种实现方式同样可以通过动态时间规整算法实现第一音频信号与伴奏音频信号的节奏对齐，获取第一音频信号的演唱起始时间和第二音频信号的演唱起始时间，调整第一音频信号的起始时间与第二音频信号的演唱起始时间对齐，使第一音频信号的节奏基本与第二音频信号保持一致，以此达到节奏对齐的目的。

在一示例性实施例中，如图6a所示，在步骤S220a中，对中间音频信号和伴奏音频信号进行内容分析处理，得到中间音频信号的演唱特征信息和伴奏音频信号的伴奏特征信息，包括：

在步骤S610a中，对中间音频信号进行音色分析、动态分析、情感分析中的至少一种，对应得到中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种。

其中，中间音频信号的内容分析包括音色分析、动态分析、情感分析中的至少一种。演唱特征可以是音色特征，也可以是动态特征，还可以是情感特征，则演唱特征信息包括音色特征信息、动态特征信息和情感特征信息中的至少一种。具体地，可以对中间音频信号进行音色、动态、情感中的至少一种进行分析，对应得到中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种。比如，对中间音频信号进行音色分析，对应得到中间音频信号的音色特征信息。对中间音频信号进行动态分析，对应得到中间音频信号的动态特征信息。对中间音频信号进行情感分析，对应得到中间音频信号的情感特征信息。

在步骤S620a中，对伴奏音频信号进行风格分析和节奏分析中的至少一种，对应得到伴奏音频信号的风格特征信息、节奏特征信息中的至少一种。

其中，伴奏音频信号的内容分析包括风格分析、节奏分析中的至少一种。伴奏特征可以是风格特征，也可以是节奏特征，则伴奏特征信息包括风格特征信息、节奏特征信息中的至少一种。具体地，可以对伴奏音频信号进行风格、节奏中的至少一种进行分析，对应得到伴奏音频信号的风格特征信息、节奏特征信息中的至少一种。比如，对伴奏音频信号进行风格分析，对应得到伴奏音频信号的风格特征信息。对伴奏音频信号进行节奏分析，对应得到伴奏音频信号的节奏特征信息。

上述音频处理方法中，通过对中间音频信号进行音色分析、动态分析、情感分析中的至少一种，对应得到中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种，并对伴奏音频信号进行风格分析和节奏分析中的至少一种，对应得到伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，实现对中间音频信号和伴奏音频信号的全面分析，为后续所述中间音频信号和所述伴奏音频信号的混音提供准确且全面的参考数据，为混音效果的改善打下基础。

在一示例性实施例中，如图6b所示，所述根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，包括：

在步骤S610b中，根据所述中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及所述伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对所述中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种。

在步骤S620b中，将经过均衡调节、动态压缩、音量调节、增加混响中的至少一种处理后的中间音频信号和所述伴奏音频信号进行混音处理。

具体地，通过对中间音频信号进行内容分析，得到中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种。通过对伴奏音频信号进行内容分析，得到伴奏音频信号的风格特征信息、节奏特征信息中的至少一种。利用所述演唱特征信息和所述伴奏特征信息，不仅可以对中间音频信号进行均衡调节，而且可以对中间音频信号进行动态压缩，还可以对中间音频信号进行音量调节，也可以为中间音频信号增加混响。通过对中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种处理后，得到目标音频信号，从而将目标音频信号和所述伴奏音频信号进行混音处理。

上述音频处理方法中，通过对中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种，得到目标音频信号，实现对第一音频信号的音色、情感、动态的调节，提高了第一音频信号的演唱效果，进一步地将目标音频信号和所述伴奏音频信号进行混音处理，改善了混音效果，使得用户的演唱效果逼近专业歌手的演唱水平。

在一示例性实施例中，在步骤S610b中，根据中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种,具体可以通过以下步骤实现：根据中间音频信号的音色特征信息以及第二音频信号的音色特征信息，对中间音频信号进行均衡调节，其中，音色特征信息采用音色特征向量的形式表征。

具体地，如图6c所示，根据中间音频信号的音色特征信息以及第二音频信号的音色特征信息，对中间音频信号进行均衡调节，具体可以通过以下步骤实现：

在步骤S610c中，提取中间音频信号中各帧信号的中心频率幅值的平均值，得到中间音频信号的音色特征向量。

在步骤S620c中，通过深度学习的方式获取第二音频信号的音色特征向量，作为目标向量。

在步骤S630c中，根据中间音频信号的音色特征向量以及目标向量，对中间音频信号进行均衡调节。

其中，均衡器(Equalizer)是一种可以分别调节各种频率成分电信号放大量的数字处理器，通过对各种不同频率的电信号的调节来补偿扬声器和声场的缺陷，补偿和修饰各种声源及其它特殊作用。第一音频信号的音色特征向量用于表征用户演唱歌曲时的音色特征信息。第二音频信号的音色特征向量用于表征原唱或者演唱水平高的演唱者演唱歌曲时的音色特征信息。具体地，对用户的音色在频域内进行调整，对第一音频信号做短时傅里叶变换(STFT)，去掉空白部分检测第一音频信号的平均频率分布，以此作为第一音频信号的音色特征向量。通过深度学习的方式学习第二音频信号的音色特征向量，以第二音频信号的音色特征向量为目标向量，结合第一音频信号的音色特征向量确定均衡器的滤波参数值，从而达到自动均衡的目的。

进一步地，将第一音频信号分成若干个不同的频率段，且每个频率段对应为一帧信号，每一个频率段有一个中心频率。通过VAD的方式去掉人声中静默部分后，计算每一帧的频谱图，提取每一帧信号的中心频率幅值的平均值，得到第一音频信号特征向量，获取第二音频信号的音色特征向量，作为目标向量。根据第一音频信号的音色特征向量以及目标向量设置滤波器参数值，使输入的第一音频信号尽可能与原唱的第二音频信号接近。

在一示例性实施例中，在步骤S610b中，根据中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种，包括：根据中间音频信号的动态特征信息确定动态压缩器的压缩比率；根据伴奏音频信号的风格特征信息确定动态压缩器的起始时间和释放时间；根据动态压缩器的压缩比率、起始时间和释放时间对中间音频信号进行动态压缩。

其中，动态特征信息采用信号的方差表征。具体地，如图7a所示，根据中间音频信号的动态特征信息确定动态压缩器的压缩比率，具体可以通过以下步骤实现：

在步骤S710中，获取中间音频信号中各帧信号的方差。

在步骤S720中，根据中间音频信号中各帧信号的方差以及中间音频信号的最大振幅，确定动态压缩器的压缩比率。

其中，动态压缩器(Compressors)是一种随着输入信号电平增大而本身增益减少的放大器，实质上改变的就是输入与输出信号的比例。动态压缩器是用于处理音频信号动态范围的设备之一。本实施例中，可以通过先计算信号均方根再计算幅值方差，以得到第一音频信号的动态大小，以此来调整压缩比达到自适应压缩的目的。

具体地，音量的整体包络线可以通过分帧计算信号均方根(Root Mean Square，RMS)来得到，得到音量包络后计算方差。在某种意义来说均方根更贴近人耳对音量的感知，均方根的计算公式如下：

其中，L为一帧信号中的采样点的数量，x(n)为各采样点的幅度。

如果方差过大，则动态过大，则需要较大的压缩比；如果方差过小，则动态不够，这时选择较小的压缩比。可以设置预设阈值，判断动态的情况。且预设阈值与第一音频信号的最大振幅成固定比例设置。示例性地，若方差大于或者等于预设阈值，则根据第一音频信号中各帧信号的方差以及第一音频信号的最大振幅，确定动态压缩器的压缩比率。若方差小于预设阈值，可以不进行压缩。图7b所示的是动态压缩的过程图。

进一步地，可以结合伴奏音频信号的风格特征或者节奏特征设置起始时间(attack time)和释放时间(release time)。一般情况，起始时间(attack time)和释放时间(release time)可以与伴奏音频信号的风格特征或者节奏特征正相关。比如：对于速度比较快的歌曲，压缩的起始时间要设置得更短，释放时间也可更短一点，而对速度比较慢的歌曲，应将压缩的起始时间和释放时间设置得较长，使声音更有力度感。一般第一音频信号的压缩比不宜过大，通常在2:1到4:1之间。并且最后会对整体音量做一个增益，减少因压缩而导致的音量损失的影响。

在一示例性实施例中，在步骤S610b中，根据中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种，包括：根据中间音频信号的情感特征信息和第二音频信号的情感特征信息，对中间音频信号进行音量调节。

其中，情感特征信息采用音量表征。具体地，如图8所示，根据中间音频信号的情感特征信息和第二音频信号的情感特征信息，对中间音频信号进行音量调节，具体可以通过以下步骤实现：

在步骤S810中，获取中间音频信号中各帧信号的第一平均音量值和第二音频信号中各帧信号的第二平均音量值。

在步骤S820中，根据第一平均音量值与第二平均音量值之间的差值，确定音频效果器的音量增益，根据音频增益调节第一音频信号中各帧信号的音量值。

其中，通过计算RMS可以得到基础的音量包络线，将第一音频信号的音量线与原第二音频信号的音量线进行对比，在一定误差范围内，对第一音频信号的音量进行提升或减弱，使其更趋向于原唱的音量变化。具体地，计算第一音频信号中各帧信号的第一平均音量值和第二音频信号中各帧信号的第二平均音量值；根据第一平均音量值与第二平均音量值之间的差值，确定音频效果器的音量增益，根据音频增益调节第一音频信号中各帧信号的音量值。示例性地，计算原唱每拍的音量均值，同时计算用户每拍的音量均值，计算用户和原唱的音量差距并乘以一个0到1的值作为变化量，再叠加到第一音频信号上调整用户音量，达到音量与原唱基本保持一致的目的。公式如下:

output＝input+a(original-input)(a∈(0,1])

本实施例中，通过音量自动化的调节，使得第一音频信号更加富有情感，提升用户演唱歌曲的听感效果，并为提升混音效果打下基础。

在一示例性实施例中，如图9所示，在根据中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种之前，该方法还包括以下步骤：

在步骤S910中，根据演唱特征信息对第一音频信号进行评分，得到第一音频信号的评分结果。

在步骤S920中，获取伴奏音频信号的风格特征。

在步骤S930中，根据第一音频信号的评分结果、伴奏音频信号的节奏特征信息以及伴奏音频信号的风格特征信息，确定音频效果器的参数值调节范围。

其中，演唱特征包括情感特征、动态特征和音色特征。具体地，根据情感特征、动态特征和音色特征中的一个或者多个对第一音频信号进行评分，得到第一音频信号的评分结果。比如，可以依据计算得到的第一音频信号的方差大小对动态进行评分，动态过大或过小的分数低，反之则高。一方面，伴奏音频信号标识有风格特征，从服务器加载伴奏音频信号的同时获取伴奏音频信号的风格特征，另一方面，可以结合伴奏音频信号的节奏特征确定伴奏音频信号的风格特征。从而根据第一音频信号的评分结果、伴奏音频信号的节奏特征信息以及伴奏音频信号的风格特征信息，确定音频效果器的参数值调节范围。

在一示例性实施例中，在步骤S610b中，根据中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种，包括：根据演唱特征信息对第一音频信号进行评分，确定用户的演唱水平信息；根据用户的演唱水平信息、风格特征信息以及节奏特征信息，确定混响器的混响比例；根据混响器的混响比例，为中间音频信号增加对应的混响。

其中，第一音频信号的评分结果包括音准分数、动态分数以及音色分数。比如，音准分数的评分可以通过计算第一音频信号每帧音高与原唱的差值，再进行求和，总和越大说明跑调越严重，评分就会相应变低，总和越小说明唱的越准，评分就会相对高一些。如图10a所示，根据用户的演唱水平信息、风格特征信息以及节奏特征信息，确定混响器的混响比例，具体可以通过以下步骤实现：

在步骤S1010中，通过反馈延迟网络对第一音频信号进行混响处理，得到对应的湿声信号。

在步骤S1020中，获取音准分数、动态分数、音色分数以及各自对应的占比的乘积，并确定各乘积之和，将各乘积之和作为用户的演唱水平信息。

在步骤S1030中，根据用户的演唱水平信息、伴奏音频信号的节奏特征信息以及伴奏音频信号的风格特征信息，确定混响器的混响比例；混响比例为湿声信号与第一音频信号之间的比例。

其中，如图10b所示，A(z)即为反馈延迟网络，其实际是一个N*N的矩阵，N为延迟线(delayline)的数量，图中的FDNs包含三条延迟线，每条延迟线的延迟时间为τ_i＝m_iT，T＝1/Fs，T为采样周期。图10b中，A＝[a_i,j]_N×N为反馈矩阵，x(n)为输入，y(n)为输出。图10b中各变量的关系如下：

具体地，由于伴奏音频信号已经有一定空间感，如果直接在伴奏音频信号上叠加第一音频信号，声音与伴奏不能融合。则需要根据伴奏音频信号的混响大小、节奏速度、频率丰富度等以及演唱者的演唱水平设置第一音频信号的混响比例。如果混响比例过大，一些演唱水平高的演唱者的声音细节没法得到体现；如果混响比例过小，一些演唱水准不佳，声音音色不佳的演唱者声音缺陷暴露无疑。因此，在第一音频信号上加合适的混响无疑是混音工作中的重中之重。

首先，通过反馈延迟网络对第一音频信号进行混响处理，得到对应的湿声信号。湿声信号是对纯人声的第一音频信号处理后得到的纯人声信号。接着，获取音准分数、动态分数、音色分数以及各自对应的占比的乘积，并确定各乘积之和，将各乘积之和作为用户的演唱水平信息。由于混响大小也与伴奏和音乐风格本身有关，从而根据用户的演唱水平信息、伴奏音频信号的节奏特征以及伴奏音频信号的风格特征，确定混响器的混响比例。混响比例为湿声信号与第一音频信号之间的比例。

本实施例中，通过确定湿声信号与第一音频信号之间的混响比例，使得第一音频信号更加富有空间感，且减少了第一音频信号暴露的缺陷，并为提升混音效果打下基础，以实现第一音频信号与伴奏音频信号的良好融合，提升用户演唱歌曲的听感效果。

在一示例性实施例中，演唱特征信息包括中间音频信号的平均音量，伴奏特征信息包括伴奏音频信号的平均音量。如图11所示，在步骤S230中，根据演唱特征信息和伴奏特征信息，对中间音频信号和伴奏音频信号进行混音处理，具体可以通过以下步骤实现：

在步骤S1110中，确定中间音频信号的平均音量与伴奏音频信号的平均音量之间的音量平衡调节比例。

在步骤S1120中，根据音量平衡调节比例，对中间音频信号进行音量平衡调节。

在步骤S1130中，将音量平衡调节后的中间音频信号和伴奏音频信号进行混音处理。

其中，音量平衡可以通过计算第一音频信号的平均音量和伴奏音频信号的平均音量，并以一定比例进行调整。具体地，获取第一音频信号的音量以及伴奏音频信号的音量。根据第一音频信号的音量以及伴奏音频信号的音量，确定第一音频信号的音量与伴奏音频信号的音量之间的音量平衡调节比例。示例性地，先计算第一音频信号的绝对值，然后将第一音频信号幅值转换成声压级dB(decibel),计算整段第一音频信号的声压级的平均值，接着用同样的方式计算整段伴奏音频信号的声压级，选择合适的比例系数，将第一音频信号与伴奏音频信号以固定的比例系数进行调整，使第一音频信号衰减或增益一定的声压级，以达到自动音量平衡的目的。将线性的幅值转变成声压级(dB)的公式如下：

SPL_dB＝20×log₁₀(A)

其中，A为第一音频信号的幅度值或伴奏音频信号的幅度值。

在一示例性实施例中，如图12a和12b所示的混音系统的结构框图。信号修正处理可以理解为与内容无关的人声处理。混音系统的工作流程包括：a)通过将输入的干声通过与内容无关的人声处理模块进行基础的干声修正如进行音高校准、节奏对齐等；b)将处理后的信号以及输入的BGM信号进行内容分析，如音色质量、动态、情感、BGM节奏及风格等分析；c)将分析结果送入与内容相关的人声处理模块，根据不同歌曲的特点和(或)不同演唱者的特点确定音频效果器的参数值以进行如EQ均衡、动态压缩、音量自动化、混响大小调节等处理。最终将处理的人声结果和BGM信号进行混合得到最终的输出结果。

在一示例性实施例中，本公开提供一种音频处理方法，如图13所示，该音频处理方法用于终端110中，该方法包括以下步骤：

在步骤S1302中，根据第一音频信号的音准信息，判断第一音频信号的音准偏差大小。

其中，第一音频信号为对用户演唱的歌声进行采集得到的原始音频内容。

在步骤S1304中，若第一音频信号的音准偏差小，则根据第一音频信号进行自身修正。

具体地，提取第一音频信号中各帧信号的基频和共振峰频率，并对基频以及共振峰频率进行频率调整，以使第一音频信号的基频以及共振峰频率与伴奏音频信号中各帧信号的频率对齐。

在步骤S1306中，若第一音频信号的音准偏差大，则根据第二音频信号的音准信息对第一音频信号进行信号修正处理，第二音频信号为对专业歌手演唱歌曲时进行采集得到的原始音频内容。

具体地，以第二音频信号的音准信息为标准，对第一音频信号的音准线进行压缩和调整，以使第一音频信号的音准信息与第二音频信号的音准信息进行时间对齐。

在步骤S1308中，将第一音频信号与伴奏音频信号或者第二音频信号节奏对齐。

具体地，获取第一音频信号的演唱起始时间和伴奏音频信号的演唱起始时间，调整第一音频信号的起始时间与伴奏音频信号的演唱起始时间对齐，以使第一音频信号与伴奏音频信号节奏对齐。或

在步骤S1310中，对中间音频信号进行音色分析、动态分析、情感分析中的至少一种，对应得到中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种。

在步骤S1312中，对伴奏音频信号进行风格分析和节奏分析中的至少一种，对应得到伴奏音频信号的风格特征信息、节奏特征信息中的至少一种。

在步骤S1314中，根据中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种。

在步骤S1316中，将经过均衡调节、动态压缩、音量调节、增加混响中的至少一种处理后的中间音频信号和伴奏音频信号进行混音处理。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图14是根据一示例性实施例示出的一种音频处理装置框图。参照图14，该装置包括信号修正处理模块1402，内容分析处理模块1404和混音处理模块1406。其中：

信号修正处理模块1402，被配置为执行获取第一音频信号，对所述第一音频信号进行信号修正处理，得到修正处理后的中间音频信号，其中，所述第一音频信号为对用户演唱的歌声进行采集得到的原始音频内容；

内容分析处理模块1404，被配置为执行对所述中间音频信号和伴奏音频信号进行内容分析处理，得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息，其中，所述伴奏音频信号为所述用户演唱歌曲时候的伴奏音频信号；

混音处理模块1406，被配置为执行根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，以得到混音后的音频信号。

在一示例性实施例中，所述信号修正处理模块1402包括判断单元、第一修正单元以及第二修正单元；其中：

在一示例性实施例中，所述第一修正单元，还被配置为执行提取所述第一音频信号中各帧信号的基频和共振峰频率，并对所述基频以及所述共振峰频率进行频率调整，以使所述第一音频信号的基频以及所述共振峰频率与所述伴奏音频信号中各帧信号的频率对齐。

在一示例性实施例中，所述第二修正单元，还被配置为执行以所述第二音频信号的音准信息为标准，对所述第一音频信号的音准线进行压缩和调整，以使所述第一音频信号的音准信息与所述第二音频信号的音准信息进行时间对齐。

在一示例性实施例中，所述修正处理还包括节奏对齐；所述信号修正处理模块，还被配置为执行获取所述第一音频信号的演唱起始时间和所述伴奏音频信号的演唱起始时间，调整所述第一音频信号的起始时间与所述伴奏音频信号的演唱起始时间对齐，以使所述第一音频信号与所述伴奏音频信号节奏对齐；或

在一示例性实施例中，所述内容分析处理模块1404，还被配置为执行对所述中间音频信号进行音色分析、动态分析、情感分析中的至少一种，对应得到所述中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种；对所述伴奏音频信号进行风格分析和节奏分析中的至少一种，对应得到所述伴奏音频信号的风格特征信息、节奏特征信息中的至少一种。

在一示例性实施例中，所述混音处理模块1406，还被配置为执行根据所述中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及所述伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对所述中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种；将经过均衡调节、动态压缩、音量调节、增加混响中的至少一种处理后的中间音频信号和所述伴奏音频信号进行混音处理。

在一示例性实施例中，所述演唱特征信息包括所述中间音频信号的平均音量，所述伴奏特征信息包括所述伴奏音频信号的平均音量；所述混音处理模块，还被配置为执行确定所述中间音频信号的平均音量与所述伴奏音频信号的平均音量之间的音量平衡调节比例；根据所述音量平衡调节比例，对所述中间音频信号进行音量平衡调节；将音量平衡调节后的中间音频信号和所述伴奏音频信号进行混音处理。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图15是根据一示例性实施例示出的一种用于确定音频效果器参数值的设备1500的框图。例如，设备1500可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图15，设备1500可以包括以下一个或多个组件：处理组件1502、存储器1504、电力组件1506、多媒体组件1508、音频组件1510、输入/输出(I/O)的接口1512、传感器组件1514以及通信组件1516。

处理组件1502通常控制设备1500的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1502可以包括一个或多个处理器1520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1502可以包括一个或多个模块，便于处理组件1502和其他组件之间的交互。例如，处理组件1502可以包括多媒体模块，以方便多媒体组件1508和处理组件1502之间的交互。

存储器1504被配置为存储各种类型的数据以支持在设备1500的操作。这些数据的示例包括用于在设备1500上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件1506为设备1500的各种组件提供电力。电源组件1506可以包括电源管理系统，一个或多个电源，及其他与为设备1500生成、管理和分配电力相关联的组件。

多媒体组件1508包括在所述设备1500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1508包括一个前置摄像头和/或后置摄像头。当设备1500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1510被配置为输出和/或输入音频信号。例如，音频组件1510包括一个麦克风(MIC)，当设备1500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1504或经由通信组件1516发送。在一些实施例中，音频组件1510还包括一个扬声器，用于输出音频信号。

I/O接口1512为处理组件1502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1514包括一个或多个传感器，用于为设备1500提供各个方面的状态评估。例如，传感器组件1514可以检测到设备1500的打开/关闭状态，组件的相对定位，例如所述组件为设备1500的显示器和小键盘，传感器组件1514还可以检测设备1500或设备1500一个组件的位置改变，用户与设备1500接触的存在或不存在，设备1500方位或加速/减速和设备1500的温度变化。传感器组件1514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1514还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件1516被配置为便于设备1500和其他设备之间有线或无线方式的通信。设备1500可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备1500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1504，上述指令可由设备1500的处理器1520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，包括：

对所述中间音频信号和伴奏音频信号进行内容分析处理，得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息，其中，所述伴奏音频信号为所述用户演唱歌曲时候的伴奏音频信号；所述演唱特征信息包括音色特征信息、动态特征信息和情感特征信息中的至少一种，所述伴奏特征信息包括风格特征信息、节奏特征信息中的至少一种；

根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，以得到混音后的音频信号；其中，根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，包括：提取中间音频信号中各帧信号的中心频率幅值的平均值，得到中间音频信号的音色特征向量；通过深度学习的方式获取第二音频信号的音色特征向量，作为目标向量；根据中间音频信号的音色特征向量以及目标向量，对中间音频信号进行均衡调节。

2.根据权利要求1所述的音频处理方法，其特征在于，所述获取第一音频信号，对所述第一音频信号进行信号修正处理，包括：

3.根据权利要求2所述的音频处理方法，其特征在于，所述根据所述第一音频信号进行自身修正，包括：

4.根据权利要求2所述的音频处理方法，其特征在于，所述根据第二音频信号的音准信息对所述第一音频信号进行信号修正处理，包括：

5.根据权利要求3或4所述的音频处理方法，其特征在于，所述修正处理还包括节奏对齐；所述获取第一音频信号，对所述第一音频信号进行信号修正处理，包括：

6.根据权利要求1所述的音频处理方法，其特征在于，所述对所述中间音频信号和伴奏音频信号进行内容分析处理，得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息，包括：

7.根据权利要求6所述的音频处理方法，其特征在于，所述根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，包括：

8.根据权利要求1所述的音频处理方法，其特征在于，所述演唱特征信息包括所述中间音频信号的平均音量，所述伴奏特征信息包括所述伴奏音频信号的平均音量；所述根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，包括：

9.一种音频处理装置，其特征在于，包括：

内容分析处理模块，被配置为执行对所述中间音频信号和伴奏音频信号进行内容分析处理，得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息，其中，所述伴奏音频信号为所述用户演唱歌曲时候的伴奏音频信号；所述演唱特征信息包括音色特征信息、动态特征信息和情感特征信息中的至少一种，所述伴奏特征信息包括风格特征信息、节奏特征信息中的至少一种；

混音处理模块，被配置为执行根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，以得到混音后的音频信号；其中，根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，包括：提取中间音频信号中各帧信号的中心频率幅值的平均值，得到中间音频信号的音色特征向量；通过深度学习的方式获取第二音频信号的音色特征向量，作为目标向量；根据中间音频信号的音色特征向量以及目标向量，对中间音频信号进行均衡调节。

10.根据权利要求9所述的音频处理装置，其特征在于，所述信号修正处理模块包括判断单元、第一修正单元以及第二修正单元；其中：

11.根据权利要求10所述的音频处理装置，其特征在于，所述第一修正单元，还被配置为执行提取所述第一音频信号中各帧信号的基频和共振峰频率，并对所述基频以及所述共振峰频率进行频率调整，以使所述第一音频信号的基频以及所述共振峰频率与所述伴奏音频信号中各帧信号的频率对齐。

12.根据权利要求10所述的音频处理装置，其特征在于，所述第二修正单元，还被配置为执行以所述第二音频信号的音准信息为标准，对所述第一音频信号的音准线进行压缩和调整，以使所述第一音频信号的音准信息与所述第二音频信号的音准信息进行时间对齐。

13.根据权利要求11或12所述的音频处理装置，其特征在于，所述修正处理还包括节奏对齐；所述信号修正处理模块，还被配置为执行获取所述第一音频信号的演唱起始时间和所述伴奏音频信号的演唱起始时间，调整所述第一音频信号的起始时间与所述伴奏音频信号的演唱起始时间对齐，以使所述第一音频信号与所述伴奏音频信号节奏对齐；或

14.根据权利要求9所述的音频处理装置，其特征在于，所述内容分析处理模块，还被配置为执行对所述中间音频信号进行音色分析、动态分析、情感分析中的至少一种，对应得到所述中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种；对所述伴奏音频信号进行风格分析和节奏分析中的至少一种，对应得到所述伴奏音频信号的风格特征信息、节奏特征信息中的至少一种。

15.根据权利要求14所述的音频处理装置，其特征在于，所述混音处理模块，还被配置为执行根据所述中间音频信号的音色特征信息、动态特征信息和情感特征信息中的至少一种以及所述伴奏音频信号的风格特征信息、节奏特征信息中的至少一种，对所述中间音频信号进行均衡调节、动态压缩、音量调节、增加混响中的至少一种；将经过均衡调节、动态压缩、音量调节、增加混响中的至少一种处理后的中间音频信号和所述伴奏音频信号进行混音处理。

16.根据权利要求9所述的音频处理装置，其特征在于，所述演唱特征信息包括所述中间音频信号的平均音量，所述伴奏特征信息包括所述伴奏音频信号的平均音量；所述混音处理模块，还被配置为执行确定所述中间音频信号的平均音量与所述伴奏音频信号的平均音量之间的音量平衡调节比例；根据所述音量平衡调节比例，对所述中间音频信号进行音量平衡调节；将音量平衡调节后的中间音频信号和所述伴奏音频信号进行混音处理。

17.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的音频处理方法。

18.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8中任一项所述的音频处理方法。