CN115171632A

CN115171632A - 音频处理方法、计算机设备和计算机程序产品

Info

Publication number: CN115171632A
Application number: CN202210675793.1A
Authority: CN
Inventors: 张超鹏; 翁志强; 吴逸龙
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-11

Abstract

本申请涉及一种音频处理方法、计算机设备和计算机程序产品。所述方法包括：获取目标歌曲对应的干声音频集合，并从所述干声音频集合中筛选出满足预设条件的至少一个目标干声音频；所述干声音频集合为通过采集至少一个目标对象演唱所述目标歌曲而产生的声信号得到的；获取所述目标歌曲对应的歌曲调性，并利用与所述歌曲调性相匹配的和弦方式，对各所述目标干声音频进行变调处理，得到变调后干声音频；对各所述变调后干声音频进行融合处理，得到目标和声音频；将所述目标和声音频与所述目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频。采用本方法能够提高音频的获取效率。

Description

音频处理方法、计算机设备和计算机程序产品

技术领域

本申请涉及音频处理技术领域，特别是涉及一种音频处理方法、计算机设备和计算机程序产品。

背景技术

随着互联网技术的发展，越来越多的人们通过终端提供的歌曲演唱功能进行演唱歌曲，在用户使用该歌曲演唱功能演唱歌曲的过程中，终端往往可以播放该歌曲的伴奏音频，如，纯伴奏、合唱团伴奏等，以使用户跟好地演唱歌曲。

然而，传统技术为获取该歌曲对应的合唱团伴奏音频，往往需要为该歌曲专门配置合唱团并录制该合唱团目标歌曲演唱该歌曲的合唱团伴奏，耗时较长，且录制成本较高，使得不利于提高歌曲伴奏音频的获取效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高伴奏音频的获取效率的音频处理方法、计算机设备和计算机程序产品。

第一方面，本申请提供了一种音频处理方法，所述方法包括：

获取目标歌曲对应的干声音频集合，并从所述干声音频集合中筛选出满足预设条件的至少一个目标干声音频；所述干声音频集合为通过采集至少一个目标对象演唱所述目标歌曲而产生的声信号得到的；

获取所述目标歌曲对应的歌曲调性，并利用与所述歌曲调性相匹配的和弦方式，对各所述目标干声音频进行变调处理，得到变调后干声音频；

对各所述变调后干声音频进行融合处理，得到目标和声音频；

将所述目标和声音频与所述目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频。

在其中一个实施例中，所述获取所述目标歌曲对应的歌曲调性，并利用与所述歌曲调性相匹配的和弦方式，对各所述目标干声音频进行变调处理，得到变调后干声音频，包括：

获取与所述歌曲调性相匹配的调性偏移量；所述调性偏移量用于表征与所述歌曲调性相匹配的和弦方式；

按照所述调性偏移量对所述歌曲调性对应的原音调进行调整，确定出针对所述变调处理的音调调整目标；

采用所述音调调整目标，对各所述目标干声音频进行变调处理，得到所述变调后干声音频。

在其中一个实施例中，在所述对各所述目标干声音频进行变调处理，得到变调后干声音频的步骤之前，所述方法还包括：

对各所述目标干声音频的响度进行调整，得到响度调整后的所述目标干声音频；各响度调整后的所述目标干声音频对应的响度处于预设的响度范围。

在其中一个实施例中，所述对各所述变调后干声音频进行融合处理，得到目标和声音频，包括：

获取各所述变调后干声音频对应的和声权重；

按照各所述变调后干声音频对应的和声权重，对各所述所述变调后干声音频对应的音频信号进行加权求和，输出所述目标和声音频。

在其中一个实施例中，在所述对各所述变调后干声音频进行融合处理，得到目标和声音频的步骤之后，所述方法还包括：

对所述目标和声音频的音频信号进行音效调整处理，输出音效调整后的所述目标和声音频；

其中，所述音效调整处理包括音频均衡处理、动态范围控制处理、混响音效添加处理中的至少一种。

在其中一个实施例中，所述将所述目标和声音频与所述目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频，包括：

对所述目标和声音频的响度进行调整，以使调整后的所述目标和声音频的响度小于所述伴奏音频的响度；

将调整后的所述目标和声音频与所述伴奏音频进行混音处理，输出所述目标伴奏音频；

对所述目标伴奏音频的响度进行调整，以使调整后的所述目标伴奏音频的响度等于预设的响度阈值。

在其中一个实施例中，所述获取所述目标歌曲对应的歌曲调性，包括：

识别出所述目标歌曲中各音符的累计总时长；所述各音符的累计总时长用于表征所述目标歌曲的音调分布信息；

按照所述音调分布信息和各所述音符对应的调性权重，计算出至少一个候选歌曲调性对应的皮尔逊系数；

将所述皮尔逊系数最高的候选歌曲调性，作为所述目标歌曲对应的歌曲调性。

在其中一个实施例中，所述从所述干声音频集合中筛选出满足预设条件的至少一个目标干声音频，包括：

根据所述干声音频集合中各干声音频的音质，在所述干声音频集合中筛选出第一音频集合；所述第一音频集合中各干声音频的音质满足预设的音质条件；

根据所述第一音频集合中各干声音频的音准，在所述第一音频集合中筛选出第二音频集合；所述第二音频集合中各干声音频的音准满足预设的音准条件；

在所述第二音频集合中确定预设数量的干声音频，作为所述至少一个目标干声音频。

在其中一个实施例中，所述根据所述干声音频集合中各干声音频的音质，在所述干声音频集合中筛选出第一音频集合，包括：

在所述干声音频集合中剔除掉存在音质异常的干声音频，得到剔除后干声音频；所述音质异常包括杂音、爆音、伴奏回踩、音频长度小于预设长度阈值、音频能量小于预设能量阈值中的至少一种；

将各所述剔除后干声音频输入至音质评分模型，得到各所述剔除后干声音频对应的音质评分；

将所述音质评分大于或等于预设分数阈值的剔除后干声音频添加至所述第一音频集合中。

在其中一个实施例中，所述根据所述第一音频集合中各干声音频的音准，在所述第一音频集合中筛选出第二音频集合，包括：

获取所述第一音频集合中各干声音频的节奏序列，并确定所述第一音频集合中各干声音频的节奏序列与所述目标歌曲对应的基准节奏序列之间的节奏差异；

获取所述第一音频集合中各干声音频的基频，并确定所述第一音频集合中各干声音频的基频与所述目标歌曲对应的基准基频之间的基频差异；

在所述第一音频集合中确定至少一个目标音准音频，并将各所述目标音准音频添加至所述第二音频集合中；所述目标音准音频对应的节奏差异小于预设的节奏差异程度，且所述目标音准音频对应的基频差异小于预设的基频差异程度。

第二方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第三方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述音频处理方法、装置、计算机设备、存储介质和计算机程序产品，通过获取目标歌曲对应的干声音频集合，并从干声音频集合中筛选出满足预设条件的至少一个目标干声音频；干声音频集合为通过采集至少一个目标对象演唱目标歌曲而产生的声信号得到的；然后，获取目标歌曲对应的歌曲调性，并利用与歌曲调性相匹配的和弦方式，对各目标干声音频进行变调处理，得到变调后干声音频；再对各变调后干声音频进行融合处理，得到目标和声音频；最后，通过将目标和声音频与目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频；如此，通过将至少一个目标对象演唱目标歌曲而产生的干声音频来作为合成该目标歌曲的合唱团音频的音源，并利用该歌曲调性对各干声音频进行适应性地变调，使得可以实现快速地具有真实程度高的合唱音效的伴奏音频，无需为该目标歌曲专门配置合唱团并录制该目标歌曲对应的合唱团音频，大大地提高了歌曲伴奏音频的获取效率。

附图说明

图1为一个实施例中一种音频处理方法的应用环境图；

图2为一个实施例中一种音频处理方法的流程示意图；

图3为一个实施例中另一种音频处理方法的流程示意图；

图4为另一个实施例中一种音频处理方法的流程示意图；

图5为一个实施例中一种音频处理方法的架构示意图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的音频处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，用户在采用安装有歌曲演唱应用(如，某K歌软件)的终端102演唱目标歌曲时，该终端102可以采集用户在演唱目标歌曲而产生的声信号进而得到的干声音频。然后，终端102可以将采集到的干声音频上传至服务器104，进而供服务器104构建各歌曲对应的干声曲库(即干声音频集合)。服务器104从干声音频集合中筛选出满足预设条件的至少一个目标干声音频；服务器104获取目标歌曲对应的歌曲调性，并利用与歌曲调性相匹配的和弦方式，对各目标干声音频进行变调处理，得到变调后干声音频；服务器104对各变调后干声音频进行融合处理，得到目标和声音频；服务器104将目标和声音频与目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频。具体实现中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种音频处理方法，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤S202，获取目标歌曲对应的干声音频集合，并从干声音频集合中筛选出满足预设条件的至少一个目标干声音频。

其中，干声音频可以是指无音乐的纯人声音频。

实际应用中，干声音频集合为通过采集至少一个目标对象演唱目标歌曲而产生的声信号得到的。

举例来说，用户在采用安装有歌曲演唱应用(如，某K歌软件)的终端演唱目标歌曲时，该终端可以采集用户在演唱目标歌曲而产生的声信号进而得到的干声音频。然后，终端可以将采集到的干声音频上传至服务器，进而供服务器构建各歌曲对应的干声曲库(即干声音频集合)。

实际应用中，目标歌曲对应的干声音频集合可以包括同一个用户多次演唱目标歌曲而生成的干声音频；也可以包括不同用户演唱目标歌曲而生成的干声音频。

具体实现中，服务器可以响应于对目标歌曲的合唱团伴奏生成请求，获取该目标歌曲对应的干声音频集合；然后，服务器从干声音频集合中筛选出满足预设条件的至少一个目标干声音频。实际应用中，目标干声音频可以被命名为高品质干声音频。

具体来说，服务器可以按照预设的音质、节奏和音调筛选条件，从干声音频集合中筛选音质、节奏和音调满足预设要求的N个目标干声音频，作为生成合唱团伴奏音频的原始音源。实际应用中，N为大于0的正整数。例如，N可以等于10。

步骤S204，获取目标歌曲对应的歌曲调性，并利用与歌曲调性相匹配的和弦方式，对各目标干声音频进行变调处理，得到变调后干声音频。

具体实现中，服务器在筛选出目标干声音频后，服务器则可以获取目标歌曲对应的歌曲调性；然后，服务器利用与歌曲调性相匹配的和弦方式，对各目标干声音频进行变调处理，得到变调后干声音频。

具体来说，服务器可以将目标歌曲的音频输入至调性检测，进而确定出该目标歌曲的歌曲调性。然后，服务器确定出该歌曲调性对应的调内和弦音，并根据该调内和弦音确定出和声位置，利用该和声位置指示的和声音调对各目标干声音频进行变调处理，得到变调后干声音频。

在另一个实施例中，在对各目标干声音频进行变调处理，得到变调后干声音频的步骤之前，方法还包括：对各目标干声音频的响度进行调整，得到响度调整后的目标干声音频；各响度调整后的目标干声音频对应的响度处于预设的响度范围。

具体实现中，服务器在对各目标干声音频进行变调处理，得到变调后干声音频之前，服务器还可以利用音量均衡手段将各目标干声音频的响度进行调整，使各响度调整后的目标干声音频对应的响度处于预设的响度范围。

具体来说，服务器利用动态范围控制(DRC)对各目标干声音频的音量进行有效范围压缩控制，进而得到响度调整后的目标干声音频。其中，预设的响度范围可以设置为控制在-14dB左右。

本实施例的技术方案，通过利用音量均衡手段对各目标干声音频的响度进行调整，可以使得将筛选后的有效干声控制在相近响度范围内，防止由于个别声音响度过大或过小导致合成后声音音量不和谐现象。

步骤S206，对各变调后干声音频进行融合处理，得到目标和声音频。

具体实现中，服务器在获取到各变调后干声音频，服务器则对各变调后干声音频进行融合处理，得到目标和声音频。具体来说，服务器可以获取各和声音调对应的权重，并利用各和声音调对应的权重对各变调后干声音频的响度进行调整并融合，得到目标和声音频(即合唱团湿声音频)。

在另一个实施例中，在对各变调后干声音频进行融合处理，得到目标和声音频的步骤之后，方法还包括：对目标和声音频的音频信号进行音效调整处理，输出音效调整后的目标和声音频。

其中，音效调整处理包括音频均衡处理、动态范围控制处理、混响音效添加处理中的至少一种。

具体实现中，服务器在对各变调后干声音频进行融合处理，得到目标和声音频后，服务器还可以对目标和声音频(即湿声音频)进行后处理；具体来说，服务器可以对目标和声音频的音频信号进行音频均衡处理(EQ)、动态范围控制处理(DRC)并添加预设的混响音效等，输出音效调整后的目标和声音频，以拓宽目标和声音频的声场空间感。

步骤S208，将目标和声音频与目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频。

具体实现中，服务器可以将目标和声音频与目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频。具体来说，服务器可以调整目标和声音频与目标歌曲对应的伴奏音频之间的能量比并进行混音处理，得到带有合唱音效的目标伴奏音频。

上述音频处理方法中，通过获取目标歌曲对应的干声音频集合，并从干声音频集合中筛选出满足预设条件的至少一个目标干声音频；干声音频集合为通过采集至少一个目标对象演唱目标歌曲而产生的声信号得到的；然后，获取目标歌曲对应的歌曲调性，并利用与歌曲调性相匹配的和弦方式，对各目标干声音频进行变调处理，得到变调后干声音频；再对各变调后干声音频进行融合处理，得到目标和声音频；最后，通过将目标和声音频与目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频；如此，通过将至少一个目标对象演唱目标歌曲而产生的干声音频来作为合成该目标歌曲的合唱团音频的音源，并利用该歌曲调性对各干声音频进行适应性地变调，使得可以实现快速地生成具有真实程度高的合唱音效的伴奏音频，进而实现模拟出合唱团为目标歌曲演唱和声音轨的效果，无需为该目标歌曲专门配置合唱团并录制该合唱团演唱目标歌曲对应的合唱团音频，大大地提高了歌曲伴奏音频的获取效率。

在另一个实施例中，获取目标歌曲对应的歌曲调性，并利用与歌曲调性相匹配的和弦方式，对各目标干声音频进行变调处理，得到变调后干声音频，包括：获取与歌曲调性相匹配的调性偏移量；按照调性偏移量对歌曲调性对应的原音调进行调整，确定出针对变调处理的音调调整目标；采用音调调整目标，对各目标干声音频进行变调处理，得到变调后干声音频。

其中，调性偏移量用于表征与歌曲调性相匹配的和弦方式。

具体实现中，服务器在获取目标歌曲对应的歌曲调性，并利用与歌曲调性相匹配的和弦方式，对各目标干声音频进行变调处理，得到变调后干声音频的过程中，服务器可以获取用于表征与该歌曲调性相匹配的和弦方式的调性偏移量。然后，服务器可以按照调性偏移量对歌曲调性对应的原音调进行调整，确定出针对变调处理的音调调整目标。最后，服务器采用音调调整目标，对各目标干声音频进行变调处理，得到变调后干声音频。

具体来说，服务器在确定歌曲调性后，以调内和弦确定和声位置，为了操作的简单高效，可以直接用三度和声做处理。以一歌曲调性“C大调”为例，服务器可以使用调内三度/五度音作为和弦音。以五度音为例，确定调性偏移量分别为+4、+7和+11。服务器按照调性偏移量对歌曲调性对应的原音调进行调整，确定出针对变调处理的音调调整目标(即和声音调)。为了便于本领域技术人员的理解，和声音调可以表示为：

其中，N_base为歌曲调性对应的原音调。实际应用中，为了最大程度保持和声音调的稳定性，服务器可以选择调内三和弦(即

)作为最终的和声音调。

服务器在确定针对变调处理的音调调整目标。服务器则采用音调调整目标，对各目标干声音频进行变调处理，得到变调后干声音频。具体来说，服务器可以按照音调调整目标，计算整首歌曲的恒定变调系数，得到变调后和谐干声。其中，服务器可以使用预设的信号处理方法(如，TSM，worldvocoder)或采用预训练的神经网络(如，WaveNet、LPCNet等模型)对各目标干声音频进行变调处理，得到变调后干声音频。变调后干声音频可以表示为：

其中，ζ^k(·)表示音准偏移为k的变调处理的半音个数，k＝4,7，即为调性偏移的半音数；

表示第u首干声做k个半音的调性后的变调后干声,i表示音频样点索引。

本实施例的技术方案，通过获取与歌曲调性相匹配的调性偏移量；并按照调性偏移量对歌曲调性对应的原音调进行调整，确定出针对变调处理的音调调整目标；采用音调调整目标，对各目标干声音频进行变调处理，得到变调后干声音频，从而可以基于该目标歌曲的歌曲调性适应性地对该目标歌曲的干声音频进行变调处理，使得基于变调后的干声音频合成得到的合成音效可以良好地与目标歌曲相匹配。

在另一个实施例中，对各变调后干声音频进行融合处理，得到目标和声音频，包括：获取各变调后干声音频对应的和声权重；按照各变调后干声音频对应的和声权重，对各变调后干声音频对应的音频信号进行加权求和，输出目标和声音频。

具体实现中，在服务器对各变调后干声音频进行融合处理，得到目标和声音频的过程中，服务器可以获取各变调后干声音频对应的和声权重；按照各变调后干声音频对应的和声权重，对各变调后干声音频对应的音频信号进行加权求和，输出目标和声音频。

实际应用中，目标和声音频可以表示为：

其中，α₀，α₁，α₂，α₃表示对应的和声权重：s^syn(i)表示最终合成的湿声信号即目标和声音频；

实际应用中，可以设置α₀＝0.1，作为主场音轨的垫音，α₁＝0.3，α₂＝0.3，作为和谐音程上的相对权重。

本实施例的技术方案，通过获取各变调后干声音频对应的和声权重；按照各变调后干声音频对应的和声权重，对各变调后干声音频对应的音频信号进行加权求和，使得可以合理有效地对各个变调后干声音频进行融合，输出听感良好的目标和声音频。

在另一个实施例中，将目标和声音频与目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频，包括：对目标和声音频的响度进行调整，以使调整后的目标和声音频的响度小于伴奏音频的响度；将调整后的目标和声音频与伴奏音频进行混音处理，输出目标伴奏音频；对目标伴奏音频的响度进行调整，以使调整后的目标伴奏音频的响度等于预设的响度阈值。

具体实现中，服务器在将目标和声音频与目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频的过程中，服务器可以通过调整目标和声音频与目标歌曲对应的伴奏音频的能量比,防止干声能量过大盖过伴奏；具体来说，服务器可以对目标和声音频的响度进行调整，以使调整后的目标和声音频的响度小于伴奏音频的响度。例如，将调整后的目标和声音频的响度比伴奏音频的响度低3dB。

然后，服务器将调整后的目标和声音频与伴奏音频进行混音处理，输出目标伴奏音频，并将输出的目标伴奏音频的响度调整到原始伴奏相同的响度上。即将输出的目标伴奏音频的响度调整到响度等于预设的响度阈值，该预设的响度阈值可以是-14dB，也可以是该目标歌曲对应的伴奏音频的响度。

本实施例的技术方案，通过对目标和声音频的响度进行调整，以使调整后的目标和声音频的响度小于伴奏音频的响度；并将调整后的目标和声音频与伴奏音频进行混音处理，输出目标伴奏音频；再对目标伴奏音频的响度进行调整，以使调整后的目标伴奏音频的响度等于预设的响度阈值，如此可以实现通过调整目标和声音频与目标歌曲对应的伴奏音频的能量比,防止目标和声音频能量过大盖过该目标歌曲中原始的伴奏音频，使得可以实现快速地具有真实程度高的合唱音效的伴奏音频，大大地提高了歌曲伴奏音频的获取效率。

在另一个实施例中，获取目标歌曲对应的歌曲调性，包括：识别出目标歌曲中各音符的累计总时长；各音符的累计总时长用于表征目标歌曲的音调分布信息；按照音调分布信息和各音符对应的调性权重，计算出至少一个候选歌曲调性对应的皮尔逊系数；将皮尔逊系数最高的候选歌曲调性，作为目标歌曲对应的歌曲调性。

具体实现中，服务器在获取目标歌曲对应的歌曲调性的过程中，服务器可以识别出目标歌曲中用于表征目标歌曲的音调分布信息的各音符的累计总时长；然后，按照音调分布信息和各音符对应的调性权重，计算出至少一个候选歌曲调性对应的皮尔逊系数；最后，服务器将皮尔逊系数最高的候选歌曲调性，作为目标歌曲对应的歌曲调性。

举例来说，服务器在获取目标歌曲对应的歌曲调性的过程中，具体包括如下步骤：

1、基频提取：

服务器可以提取出目标歌曲对应的原始音频中的基音频率，并将该基音频率转换为对应的音调,转换公式可以为：

其中，f表示检测出的基音频率,N表示基音频率对应的音调。

2、根据转换后的音调信息，计算不同音符累计总时长(实际应用中，可以忽略八度区分)。

3、选择各音符对应的调性权重

服务器可以选择简单模式(Simple)下的调性权重，权重数值如下表1所示：

音调	C	C#	D	D#	E	F	F#	G	G#	A	A#	B	c	c#	d	d#	e	f	f#	g	g#	a	a#	b
																									权重	2	0	1	0	1	1	0	2	0	1	0	1	2	0	1	1	0	1	0	2	1	0	0.5	0.5

表1各音符对应的调性权重

当然，若服务器储存有该目标歌曲对应的乐谱信息(如，在midi信息)，服务器可以读取该目标歌曲对应的乐谱信息，并根据该目标歌曲对应的乐谱信息，确定出该目标歌曲对应的歌曲调性。

4、对音符累计总时长做调整，主音牌子列表首位计算皮尔逊系数(PCC)，得到24个值。

5、选择皮尔逊系数最大值对应的调性为最终歌曲调性，皮尔逊系数参数定义如下：

最终歌曲调性估算表示如下：

其中，key_k表示24个调性曲权重，N表示当前歌曲音调分布。

本实施例的技术方案，通过识别出目标歌曲中用于表征目标歌曲的音调分布信息的各音符的累计总时长；并按照音调分布信息和各音符对应的调性权重，计算出至少一个候选歌曲调性对应的皮尔逊系数；将皮尔逊系数最高的候选歌曲调性，作为目标歌曲对应的歌曲调性，从而可以实现快速且准确地识别出该目标歌曲的调性。

在另一个实施例中，如图3所示，提供了一种音频处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S302，获取目标歌曲对应的干声音频集合，并从干声音频集合中筛选出满足预设条件的至少一个目标干声音频；干声音频集合为通过采集至少一个目标对象演唱目标歌曲而产生的声信号得到的。

步骤S304，对各目标干声音频的响度进行调整，得到响度调整后的目标干声音频；各响度调整后的目标干声音频对应的响度处于预设的响度范围。

步骤S306，获取与目标歌曲对应的歌曲调性相匹配的调性偏移量；调性偏移量用于表征与歌曲调性相匹配的和弦方式。

步骤S308，按照调性偏移量对歌曲调性对应的原音调进行调整，确定出针对变调处理的音调调整目标。

步骤S310，采用音调调整目标，对各目标干声音频进行变调处理，得到变调后干声音频。

步骤S312，按照各变调后干声音频对应的和声权重，对各变调后干声音频对应的音频信号进行加权求和，输出目标和声音频。

步骤S314，对目标和声音频的音频信号进行音效调整处理，输出音效调整后的目标和声音频；其中，音效调整处理包括音频均衡处理、动态范围控制处理、混响音效添加处理中的至少一种。

步骤S316，对目标和声音频的响度进行调整，以使调整后的目标和声音频的响度小于伴奏音频的响度。

步骤S318，将调整后的目标和声音频与伴奏音频进行混音处理，输出目标伴奏音频。

步骤S320，对目标伴奏音频的响度进行调整，以使调整后的目标伴奏音频的响度等于预设的响度阈值。

需要说明的是，上述步骤的具体限定可以参见上文对一种音频处理方法的具体限定。

在另一个实施例中，从干声音频集合中筛选出满足预设条件的至少一个目标干声音频，包括：根据干声音频集合中各干声音频的音质，在干声音频集合中筛选出第一音频集合；根据第一音频集合中各干声音频的音准，在第一音频集合中筛选出第二音频集合；在第二音频集合中确定预设数量的干声音频，作为至少一个目标干声音频。

其中，第一音频集合中各干声音频的音质满足预设的音质条件。

其中，第二音频集合中各干声音频的音准满足预设的音准条件。

具体实现中，服务器从干声音频集合中筛选出满足预设条件的至少一个目标干声音频的过程中，服务器可以对干声音频集合中各干声音频进行音质筛选：具体来说，服务器可以根据干声音频集合中各干声音频的音质，在音质满足预设的音质条件的干声音频，作为目标干声音频。

举例来说，满足预设的音质条件的干声音频可以是本身未带有杂音,无伴奏回踩,音频长度满足预设长度阈值,音频能量满足预设能量阈值,无爆音现象等音频。

服务器可以对第一音频集合中各干声音频进行音准筛选：具体来说，服务器可以根据第一音频集合中各干声音频的音准，在第一音频集合中筛选出音准满足预设的音准条件的干声音频，作为第二音频集合。

举例来说，满足预设的音准条件的干声音频可以节奏和/或音准与目标歌曲对应的基准音频的节奏和/或音准之间差异小于预设差异阈值的干声音频。

服务器在从干声音频集合中筛选出满足出音质、音准满足预设条件的干声音频后，服务器可以从中获取预设数量的干声音频，作为目标干声音频。实际应用中，服务器可以挑选出10首高品质干声，即U＝10(U表示原始干声数量)作为合唱音效的原始音源。

本实施例的技术方案，通过根据干声音频集合中各干声音频的音质，在干声音频集合中筛选出音质满足预设的音质条件的第一音频集合，使得干声具有良好的音质，保障了多路干声混合后的音频质量，同时，根据第一音频集合中各干声音频的音准，在第一音频集合中筛选出音准满足预设的音准条件第二音频集合，使得后续和谐旋律的干声具有较好的时间对齐特点，保证多路干声混合时，不会出现由于声音不同步导致听感嘈杂等问题。

在另一个实施例中，根据干声音频集合中各干声音频的音质，在干声音频集合中筛选出第一音频集合，包括：在干声音频集合中剔除掉存在音质异常的干声音频，得到剔除后干声音频；音质异常包括杂音、爆音、伴奏回踩、音频长度小于预设长度阈值、音频能量小于预设能量阈值中的至少一种；将各剔除后干声音频输入至音质评分模型，得到各剔除后干声音频对应的音质评分；将音质评分大于或等于预设分数阈值的剔除后干声音频添加至第一音频集合中。

具体实现中，服务器在根据干声音频集合中各干声音频的音质，在干声音频集合中筛选出第一音频集合的过程中，服务器可以利用音质检测工具,剔除干声音频集合中存在杂音、爆音、伴奏回踩、音频长度小于预设长度阈值、音频能量小于预设能量阈值等音质异常的干声音频，得到剔除后干声音频。

服务器可以将各剔除后干声音频输入至音质评分模型(如，音质测评工具)，计算出各个剔除后干声音频对应的音质评分；然后，提取出音质评分大于或等于预设分数阈值的剔除后干声音频添加至第一音频集合中。

例如，假设剔除后干声音频A的音质评分为90，剔除后干声音频B的音质评分为10,预设分数阈值为60，则服务器将剔除后干声音频A添加至第一音频集合中。

本实施例的技术方案，通过在干声音频集合中剔除掉存在杂音、爆音、伴奏回踩、音频长度小于预设长度阈值、音频能量小于预设能量阈值中的至少一种音质异常的干声音频，并各剔除后干声音频输入至音质评分模型，得到各剔除后干声音频对应的音质评分；将音质评分大于或等于预设分数阈值的剔除后干声音频添加至第一音频集合中，从而可以保障第一音频集合中的各干声音频满足预设的音质条件，避免第一音频集合中的各干声音频存在杂音、爆音、伴奏回踩、音频长度小于预设长度阈值、音频能量小于预设能量阈值中的至少一种音质异常。

在另一个实施例中，根据第一音频集合中各干声音频的音准，在第一音频集合中筛选出第二音频集合，包括：获取第一音频集合中各干声音频的节奏序列，并确定第一音频集合中各干声音频的节奏序列与目标歌曲对应的基准节奏序列之间的节奏差异；获取第一音频集合中各干声音频的基频，并确定第一音频集合中各干声音频的基频与目标歌曲对应的基准基频之间的基频差异；在第一音频集合中确定至少一个目标音准音频，并将各目标音准音频添加至第二音频集合中。

其中，目标音准音频对应的节奏差异小于预设的节奏差异程度，且目标音准音频对应的基频差异小于预设的基频差异程度。

具体实现中，服务器在根据第一音频集合中各干声音频的音准，在第一音频集合中筛选出第二音频集合的过程中，服务器可以获取第一音频集合中各干声音频的节奏序列，并确定第一音频集合中各干声音频的节奏序列与目标歌曲对应的基准节奏序列之间的节奏差异。然后，服务器提取出第一音频集合中各干声音频的基频(即基音频率)，并确定第一音频集合中各干声音频的基频与目标歌曲对应的基准基频之间的基频差异。最后，服务器在确定第一音频集合中各干声音频对应的基频差异和节奏差异后，服务器将节奏差异小于预设的节奏差异程度，且基频差异小于预设的基频差异程度所对应的干声音频作为目标音准音频添加至第二音频集合中。

举例来说，服务器可以获取通过各干声音频的旋律文件note或midi信息来确定出用于表征出各干声音频的节奏信息的节奏序列(即干声note序列)；然后，服务器采用上述同样的方法获取目标歌曲对应的基准节奏序列(即参考note序列)，并通过比较各干声note序列与参考note序列起始时间差，来确定出各干声音频的节奏序列与目标歌曲对应的基准节奏序列之间的节奏差异。若任一干声note序列对应的起始时间差处于预设的时间差范围，服务器则将该任一干声note序列对应的干声音频判定为满足节奏一致性判断标准。实际应用中，时间差范围可以设置为小于50ms。

然后，服务器可以提取出第一音频集合中各干声音频的基频曲线，并计算出各干声音频的基频曲线与目标歌曲对应的基准基频曲线之间的曲线相似度；通过余弦相似度以及最小均方误差来衡量各干声音频的基频与目标歌曲对应的基准基频之间的基频差异。

其中，余弦相似度可以定义为：

最小均方误差MSE可以定义为：

对于任一干声音频，若该任一干声音频的基频曲线与基准基频曲线之间的余弦相似度大于预设的相似度阈值，和/或该任一干声音频的基频曲线与基准基频曲线之间的最小均方误差小于预设的误差阈值，则服务器则将该任一干声音频判定为满足音调一致性判断标准。实际应用中，相似度阈值可以设置为0.9，误差阈值可以设置为0.01。

服务器可以在第一音频集合中将同时满足节奏一致性判断标准和音调一致性判断标准的干声音频作为目标音准音频添加至第二音频集合中。

本实施例的技术方案，通过获取第一音频集合中各干声音频的节奏序列，并确定第一音频集合中各干声音频的节奏序列与目标歌曲对应的基准节奏序列之间的节奏差异；再获取第一音频集合中各干声音频的基频，并确定第一音频集合中各干声音频的基频与目标歌曲对应的基准基频之间的基频差异；最后在第一音频集合中确定至少一个目标音准音频，并将各目标音准音频添加至第二音频集合中，如此，可以基于各干声音频与基准音频的基频、节奏之间的差异，准确地确定出各干声音频的音准是否满足预设条件。

在另一个实施例中，如图4所示，提供了一种音频处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S402，获取目标歌曲对应的干声音频集合，干声音频集合为通过采集至少一个目标对象演唱目标歌曲而产生的声信号得到的。

步骤S404，在干声音频集合中剔除掉存在音质异常的干声音频，得到剔除后干声音频；音质异常包括杂音、爆音、伴奏回踩、音频长度小于预设长度阈值、音频能量小于预设能量阈值中的至少一种。

步骤S406，将各剔除后干声音频输入至音质评分模型，得到各剔除后干声音频对应的音质评分。

步骤S408，将音质评分大于或等于预设分数阈值的剔除后干声音频添加至第一音频集合中。

步骤S410，获取第一音频集合中各干声音频的节奏序列，并确定第一音频集合中各干声音频的节奏序列与目标歌曲对应的基准节奏序列之间的节奏差异。

步骤S412，获取第一音频集合中各干声音频的基频，并确定第一音频集合中各干声音频的基频与目标歌曲对应的基准基频之间的基频差异。

步骤S414，在第一音频集合中确定至少一个目标音准音频，并将各目标音准音频添加至第二音频集合中；目标音准音频对应的节奏差异小于预设的节奏差异程度，且目标音准音频对应的基频差异小于预设的基频差异程度。

步骤S416，在第二音频集合中确定预设数量的干声音频，作为至少一个目标干声音频。

步骤S418，获取目标歌曲对应的歌曲调性，并利用与歌曲调性相匹配的和弦方式，对各目标干声音频进行变调处理，得到变调后干声音频。

步骤S420，对各变调后干声音频进行融合处理，得到目标和声音频。

步骤S422，将目标和声音频与目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频。

在另一个实施例中，如图5所示，提供了一种音频处理方法的架构示意图。如图5所述，该音频处理方法包括如下阶段：

干声筛选阶段：

服务器可以按照预设的音质、节奏和音调筛选条件，从干声音频集合中筛选音质、节奏和音调满足预设要求的N个目标干声音频，作为生成合唱团伴奏音频的原始音源。

干声前处理阶段：

服务器利用动态范围控制(DRC)对各目标干声音频的音量进行有效范围压缩控制，进而得到响度调整后的目标干声音频。其中，预设的响度范围可以设置为控制在-14dB左右，从而可以使得将筛选后的有效干声控制在相近响度范围内，防止由于个别声音响度过大或过小导致合成后声音音量不和谐现象。

合唱声生成阶段：

服务器可以将目标歌曲的音频输入至调性检测，进而确定出该目标歌曲的歌曲调性。然后，服务器确定出该歌曲调性对应的调内和弦音，并根据该调内和弦音确定出和声位置，利用该和声位置指示的和声音调对各目标干声音频进行变调处理，得到变调后干声音频(即合唱团湿声音频)。

湿声后处理阶段：

服务器可以对目标和声音频(即湿声音频)进行后处理；具体来说，服务器可以对目标和声音频的音频信号进行音频均衡处理(EQ)、动态范围控制处理(DRC)并添加预设的混响音效等，输出音效调整后的目标和声音频，以拓宽目标和声音频的声场空间感。

伴奏混音阶段：

服务器可以通过调整目标和声音频与目标歌曲对应的伴奏音频的能量比,防止干声能量过大盖过伴奏；具体来说，服务器可以对目标和声音频的响度进行调整，以使调整后的目标和声音频的响度小于伴奏音频的响度。例如，将调整后的目标和声音频的响度比伴奏音频的响度低3dB。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的音频处理方法的音频处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音频处理装置实施例中的具体限定可以参见上文中对于音频处理方法的限定，在此不再赘述。

上述音频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是电子设备，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储XX数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种音频处理方法的步骤。此处一种音频处理方法的步骤可以是上述各个实施例的一种音频处理方法中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种音频处理方法的步骤。此处一种音频处理方法的步骤可以是上述各个实施例的一种音频处理方法中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标歌曲对应的歌曲调性，并利用与所述歌曲调性相匹配的和弦方式，对各所述目标干声音频进行变调处理，得到变调后干声音频，包括：

3.根据权利要求1或2所述的方法，其特征在于，在所述对各所述目标干声音频进行变调处理，得到变调后干声音频的步骤之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述对各所述变调后干声音频进行融合处理，得到目标和声音频，包括：

获取各所述变调后干声音频对应的和声权重；

5.根据权利要求1或4所述的方法，其特征在于，在所述对各所述变调后干声音频进行融合处理，得到目标和声音频的步骤之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述目标和声音频与所述目标歌曲对应的伴奏音频进行混音处理，输出带有合唱音效的目标伴奏音频，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取所述目标歌曲对应的歌曲调性，包括：

8.根据权利要求1所述的方法，其特征在于，所述从所述干声音频集合中筛选出满足预设条件的至少一个目标干声音频，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述干声音频集合中各干声音频的音质，在所述干声音频集合中筛选出第一音频集合，包括：

10.根据权利要求8所述的方法，其特征在于，所述根据所述第一音频集合中各干声音频的音准，在所述第一音频集合中筛选出第二音频集合，包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。