CN113077771A

CN113077771A - 异步合唱混音方法及装置、存储介质和电子设备

Info

Publication number: CN113077771A
Application number: CN202110622773.3A
Authority: CN
Inventors: 余世经; 曹偲; 朱一闻; 刘华平
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-07-06
Anticipated expiration: 2041-06-04
Also published as: CN113077771B

Abstract

本公开实施例提供了一种异步合唱混音方法及装置、存储介质和电子设备，涉及音频处理技术领域。该异步合唱混音方法包括：接收至少两段人声音频；检测各所述人声音频的基频，确定各所述人声音频的起唱时间并对齐；依据所述基频将各所述人声音频划分至不同的声部类别，并为各所述声部类别划分对应的声像角度区域；在各所述声像角度区域中确定各所述人声音频的声像角度，并通过所述声像角度对对应的所述人声音频进行声像调整；对声像调整后的各所述人声音频进行混音处理。本公开对接收到的至少两段人声音频进行起唱时间对齐及自动声像排列等处理，从而可以拟合出现场合唱场景下众人在同一个场地演唱的混响效果。

Description

异步合唱混音方法及装置、存储介质和电子设备

技术领域

本公开实施方式涉及音频处理技术领域，更具体地，涉及一种异步合唱混音方法及装置、存储介质和电子设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

多人异步合唱指的是多个人在不同时间、不同环境下演唱同一首歌曲，经后期混音处理合成出模拟现场合唱效果的作品。随着各类音频社交软件的不断兴起，多人异步合唱的场景需求也越来越多。

相关技术中，可以通过人工混音或通过互联网对多个音频进行混音处理。然而，上述人工混音方法存在效率低，制作周期长等问题，且相关技术中的基于互联网的多人异步合唱混音方法存在合唱作品在听感上不符合现场合唱的声像效果等问题。

发明内容

本公开的目的在于提供一种异步合唱混音方法及装置、存储介质和电子设备，从而至少在一定程度上克服由于相关技术的缺陷和限制而导致的效率低、制作周期长、不符合现场合唱的声像效果等问题。

根据本公开的第一方面，提供一种异步合唱混音方法，包括：

接收至少两段人声音频；

检测各所述人声音频的基频，确定各所述人声音频的起唱时间并对齐；

依据所述基频将各所述人声音频划分至不同的声部类别，并为各所述声部类别划分对应的声像角度区域；

在各所述声像角度区域中确定各所述人声音频的声像角度，并通过所述声像角度对对应的所述人声音频进行声像调整；

对声像调整后的各所述人声音频进行混音处理。

在本公开的一种示例性实施例中，所述依据所述基频将各所述人声音频划分至不同的声部类别，包括：

依据所述基频确定各所述人声音频的音高并排序；

依据各所述声部类别的预设人数比例及所述音高的排序结果，将各所述人声音频划分至对应的所述声部类别。

在本公开的一种示例性实施例中，所述在各所述声像角度区域中确定各所述人声音频的声像角度，包括：

依据所述声部类别中所述人声音频的数目，将所述声部类别对应的所述声像角度区域划分为至少两个声像角度子区域；

在各所述声像角度子区域中分别确定声像角度，得到所述声像角度区域对应的声像角度集；

将所述声像角度集中的各声像角度分配给各所述人声音频，以确定各所述人声音频的声像角度。

在本公开的一种示例性实施例中，所述依据所述声部类别中所述人声音频的数目，将所述声部类别对应的所述声像角度区域划分为至少两个声像角度子区域，包括：

将所述声像角度区域划分为所述人声音频数目个所述声像角度子区域。

在本公开的一种示例性实施例中，所述在各所述声像角度子区域中分别确定声像角度，得到所述声像角度区域对应的声像角度集，包括：

计算各所述声像角度子区域的角度中间值，将各所述角度中间值确定为各所述声像角度子区域对应的所述声像角度，得到所述声像角度集。

在本公开的一种示例性实施例中，所述将所述声像角度集中的各声像角度分配给各所述人声音频，以确定各所述人声音频的所述声像角度，包括：

将所述声像角度集中的各声像角度随机分配给各所述人声音频，以确定各所述人声音频的所述声像角度。

在本公开的一种示例性实施例中，所述检测各所述人声音频的基频，确定各所述人声音频的起唱时间并对齐，包括：

对所述人声音频的音频信号进行分帧处理，并检测各帧所述音频信号的所述基频；

当连续多帧所述音频信号的所述基频为有效基频时，将所述连续多帧音频信号中的第一帧所述音频信号的起点作为所述起唱时间，记录所述起唱时间对应的时间戳；

根据所述起唱时间对应的所述时间戳将各所述人声音频对齐。

在本公开的一种示例性实施例中，在所述确定各所述人声音频的起唱时间并对齐之后，所述方法还包括：

检测所述人声音频中的歌声段，并计算所述歌声段的能量均方值；

基于所述能量均方值确定一个增益系数，并通过该增益系数调整所述人声音频。

对所述人声音频进行降噪、去混响、频率均衡及压缩处理。

在本公开的一种示例性实施例中，在所述过所述声像角度对对应的所述人声音频进行声像调整之后，所述方法还包括：

将各所述人声音频与伴奏音频进行混缩处理，得到混缩音频。

在本公开的一种示例性实施例中，所述对声像调整后的各所述人声音频进行混音处理，包括：

通过预设的混响器对所述混缩音频进行空间渲染。

根据本公开的第二方面，提供一种异步合唱混音装置，包括：

人声音频接收模块，用于接收至少两段人声音频；

起唱时间对齐模块，用于检测各所述人声音频的基频，确定各所述人声音频的起唱时间并对齐；

声部类别划分模块，用于依据所述基频将各所述人声音频划分至不同的声部类别，并为各所述声部类别划分对应的声像角度区域；

声像角度确定模块，用于在各所述声像角度区域中确定各所述人声音频的声像角度，并通过所述声像角度对对应的所述人声音频进行声像调整；

音频混音处理模块，用于对声像调整后的各所述人声音频进行混音处理。

在本公开的一种示例性实施例中，所述声部类别划分模块通过执行以下方法实现所述依据所述基频将各所述人声音频划分至不同的声部类别，包括：

依据所述基频确定各所述人声音频的音高并排序；

在本公开的一种示例性实施例中，所述声像角度确定模块通过执行以下方法实现所述在各所述声像角度区域中确定各所述人声音频的声像角度，包括：

在本公开的一种示例性实施例中，所述声像角度确定模块通过执行以下方法实现所述依据所述声部类别中所述人声音频的数目，将所述声部类别对应的所述声像角度区域划分为至少两个声像角度子区域，包括：

在本公开的一种示例性实施例中，所述声像角度确定模块通过执行以下方法实现所述在各所述声像角度子区域中分别确定声像角度，得到所述声像角度区域对应的声像角度集，包括：

在本公开的一种示例性实施例中，所述声像角度确定模块通过执行以下方法实现所述将所述声像角度集中的各声像角度分配给各所述人声音频，以确定各所述人声音频的所述声像角度，包括：

在本公开的一种示例性实施例中，所述起唱时间对齐模块通过执行以下方法实现所述检测各所述人声音频的基频，确定各所述人声音频的起唱时间并对齐，包括：

在本公开的一种示例性实施例中，所述异步合唱混音装置还包括音质改善模块，用于在所述确定各所述人声音频的起唱时间并对齐之后，通过执行以下方法调整所述人声音频：

在本公开的一种示例性实施例中，在所述确定各所述人声音频的起唱时间并对齐之后，所述音质改善模块还用于：对所述人声音频进行降噪、去混响、频率均衡及压缩处理。

在本公开的一种示例性实施例中，所述异步合唱混音装置还包括混缩处理模块，用于在所述过所述声像角度对对应的所述人声音频进行声像调整之后，将各所述人声音频与伴奏音频进行混缩处理，得到混缩音频。

在本公开的一种示例性实施例中，所述音频混音处理模块通过执行以下方法实现所述对声像调整后的各所述人声音频进行混音处理，包括：

通过预设的混响器对所述混缩音频进行空间渲染。

根据本公开的第三方面，提供一种存储介质，其上存储有程序，该程序被处理器执行时实现如以上各技术方案中的方法。

根据本公开的第四方面，提供一种电子设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如以上各技术方案中的方法。

根据上述异步合唱混音方法、异步合唱混音装置、计算机可读存储介质与电子设备，接收至少两段人声音频；检测各人声音频的基频，确定各人声音频的起唱时间并对齐；依据上述基频将各人声音频划分至不同的声部类别，并为各声部类别划分对应的声像角度区域；在各声像角度区域中确定各人声音频的声像角度，并通过所确定的声像角度对对应的人声音频进行声像调整；对声像调整后的各人声音频进行混音处理。一方面，通过为各人声音频确定对应的声像角度，并根据所确定的声像角度对相应的人声音频进行声像调整，使得异步合唱作品可以满足现场合唱的站位要求，从而可以在人声方位的听感上更符合现场合唱的声像效果。另一方面，由于上述起唱时间对齐及声像确定及调整都是基于本方案自动实现的，解决了人工混音所带来的耗费大量精力、制作周期较长以及对混音师的经验和专业性要求高等问题。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示出了应用本公开示例性实施方式的系统架构示意图；

图2示出了本公开实施例的异步合唱混音方法的流程图；

图3示出了本公开实施例的异步合唱混音方法中自动声像排列的方法的流程图；

图4示出了本公开实施例的二声部的声像角度区域的示意图；

图5示出了本公开实施例的三声部的声像角度区域的示意图；

图6示出了本公开实施例中的一种异步合唱混音装置的一种结构示意图；

图7示出了本公开实施例中电子设备的一种结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。

本公开中涉及的技术术语解释如下：

多人异步合唱：多个人在不同时间、不同环境（场地、录音设备等）演唱同一首歌曲，经后期混音处理合成出模拟现场合唱效果的作品；

混音（mixing）：音乐制作中的一个步骤，将多种来源的音频，整合到一个作品中，包括对各音频的单独处理和混缩后的处理；

PD（pitch detection）：音高提取，提取音频信号的基音频率；

声像：立体声放音时，听音者对声音位置的感觉印象；

HRTF（Head Related Transfer Functions）：头部相关传输函数，一种音效定位方法，包含音频的方向和距离信息。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

在本公开的相关技术中，异步合唱混音的方式主要包括人工混音和基于互联网对人声音频进行音质处理两种方式。

上述人工混音的方式是指基于人工处理的方法进行混音制作，得到合唱作品。例如，不同演唱者在不同场地演唱同一曲目的不同部分，人工混音的过程就是通过对每个演唱者的演唱音频做手动的剪辑和多种效果器的处理，再经过许多精细的调音和混音步骤制作得到合唱作品。

然而，上述人工混音的方法由于主要依赖人工进行，存在以下问题：一方面需要耗费大量的精力和较长的制作周期，另一方面为了使合唱作品在音质和听感上拟合出现场合唱的效果，对混音师的经验和专业水平会有较高的要求。此外，人工混音的方案也不适合应用在基于互联网的多人异步合唱的场景。

上述基于互联网对人声音频进行音质处理通过对人声音频进行分析、剪切、音量平衡与压缩、波形反相、降噪、频率均衡以及混响等处理，实现异步合唱混音。

然而，上述基于互联网对人声音频进行音质处理的方法也存在以下问题：一方面无法实现多人异步合唱的自动混音，另一方面没有对各段人声音频的声像排列进行调整，会使得合唱作品的听感上，各演唱者的声像集中在正中位置，完全没有现场合唱中各演唱者声像按声部队形排列的视觉感受，不符合现场合唱的声像效果。

为了解决上述方案中存在的问题，本公开提出了一种异步合唱混音方法，接收至少两段人声音频；检测各人声音频的基频，确定各人声音频的起唱时间并对齐；依据上述基频将各人声音频划分至不同的声部类别，并为各声部类别划分对应的声像角度区域；在各声像角度区域中确定各人声音频的声像角度，并通过所确定的声像角度对对应的人声音频进行声像调整；对声像调整后的各人声音频进行混音处理。

在本公开示例实施方式所提供的异步合唱混音方法中，一方面，通过为各人声音频确定对应的声像角度，并根据所确定的声像角度对相应的人声音频进行声像调整，使得异步合唱作品可以满足现场合唱的站位要求，从而可以在人声方位的听感上更符合现场合唱的声像效果。另一方面，由于上述起唱时间对齐及声像确定及调整都是基于本方案自动实现的，解决了人工混音所带来的耗费大量精力、制作周期较长以及对混音师的经验和专业性要求高等问题。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图1示出了应用本公开示例性实施方式的系统架构示意图。如图1所示，系统架构100可以包括客户端101、102和103，网络104和服务端105。客户端101、102和103可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种终端设备。服务端105可以包括网络服务器、应用服务器、数据库服务器等各种服务器设备，服务端105可以为客户端101、102和103提供网络资源和数据服务。网络104可以是能够在客户端101、102、103和服务端105之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路、无线通信链路或者光纤电缆等等。

根据实现需要，应用本公开示例性实施方式的系统架构可以具有任意数目的客户端、网络和服务端。例如，服务端105可以是由多个服务器设备组成的服务器群组。本公开示例性实施方式提供的异步合唱混音方法可以应用于客户端101、102、103，也可以应用于服务端105，本公开对此不做特殊限定。

例如，当本公开示例性实施方式提供的异步合唱混音方法应用于服务端105时，服务端105可以通过网络104从客户端101、102、103获取至少两段人声音频；接着，检测各人声音频的基频，确定各人声音频的起唱时间并对齐；之后，依据上述基频将各人声音频划分至不同的声部类别，并为各声部类别划分对应的声像角度区域，并在各声像角度区域中确定各人声音频的声像角度，通过所确定的声像角度对对应的人声音频进行声像调整；最后，对声像调整后的各人声音频进行混音处理。

示例性方法

下面结合图2至图5来描述根据本公开示例性实施方式的异步合唱混音方法。

图2示意性地示出了本公开一些示例性实施方式中的异步合唱混音方法的步骤流程。如图2所示，该异步合唱混音方法主要可以包括以下步骤：

步骤S210：接收至少两段人声音频；

步骤S220：检测各人声音频的基频，确定各人声音频的起唱时间并对齐；

步骤S230：依据检测到的基频将各人声音频划分至不同的声部类别，并为各声部类别划分对应的声像角度区域；

步骤S240：在各声像角度区域中确定各人声音频的声像角度，并通过声像角度对对应的人声音频进行声像调整；

步骤S250：对声像调整后的各人声音频进行混音处理。

以下对本公开实施例的异步合唱混音方法进行更加详细的阐述。

在步骤S210中，接收至少两段人声音频。

本示例实施方式所提供的异步合唱混音方法应用于多个演唱者独立地利用各自的录音设备演唱同一首歌，并经过后期的声像调整及混音等处理得到合唱音频的场景。例如，该异步合唱方法可以用于互联网K歌软件，也可以用于其他无法实现现场多人合唱的场景，本示例实施方式对此不做特殊限定。

在本示例实施方式中，上述人声音频为各演唱者录制的演唱音频。该人声音频可以通过具有录音功能的终端设备录制得到。例如，可以通过智能手机、平板电脑等终端设备系统自带的录音软件录制上述人声音频，也可以通过各类音频软件中的K歌等功能录制上述人声音频。

在得到上述人声音频后，可以通过终端设备或服务器对接收到的上述至少两段人声音频进行后续处理，本示例实施方式对此不做特殊限定。

在步骤S220中，检测各人声音频的基频，确定各人声音频的起唱时间并对齐。

通常情况下，上述人声音频在起唱之前，都会有一段静音段或者背景噪声段。因此，在本示例实施方式所提供的异步合唱混音方法中，为了达到更整齐的合唱效果，在得到上述人声音频后，需要定位出各人声音频的起唱时间并进行对齐。

在本示例实施方式中，上述起唱时间的确定可以通过检测各人声音频的基频来实现，该实现过程可以如下：对人声音频的音频信号进行分帧处理，并检测各帧音频信号的基频；当连续多帧音频信号的基频为有效基频时，将连续多帧音频信号中的第一帧音频信号的起点作为起唱时间，记录起唱时间对应的时间戳；根据起唱时间对应的时间戳将各人声音频对齐。

其中，上述基频即F0，一般被认为是声音的基础音调，其对应声带振动的速度，代表声音的音高。而上述人声音频中的歌声段与静音段或背景噪声段的明显区别之一即为人声音频具有基频，且该基频所属的数值范围与人的发声器官的生理结构相符，而静音段或背景噪声段不具有基频或者基频数值不符合人的发声机理（如电流音）。因此，可以通过检测人声音频中最开始出现的连续基频帧来定位上述起唱时间。

此外，本示例实施方式可以通过yin算法（时域法）来检测基频，还可以使用pyin算法（概率yin算法）来检测基频，也可以使用自相关等其他方法检测基频，本示例实施方式对此不做特殊限定。

以一具体实施例对上述通过检测各人声音频的基频确定起唱时间进行说明，实现可以如下：以10ms为单位对上述人声音频的音频信号做分帧，采用基频检测算法检测帧信号的基频F0，当检测出连续5帧信号的F0值在70-500 Hz（有效基频范围）之间时，则将该连续5帧的第一帧信号的起点即为起唱时间点，记录时间戳，并对齐各人声音频的起唱时间。

在本示例实施方式中，在上述对齐各人声音频的起唱时间后，还可以对人声音频进行音质增强处理，以改善人声音频的音质效果。举例而言，可以通过以下方法增强上述人声音频的音质：

通过音量检测和增益调节来将各人声音频调节至预置的目标水平，具体实现可以如下：检测人声音频中的歌声段，并计算歌声段的能量均方值；基于能量均方值确定一个增益系数，并通过该增益系数调整人声音频。

在一具体实施例中，对上述音量检测和增益调节过程进行详细说明：

该具体实施例通过音量检测和增益调节来将各人声音频调节至预置的目标水平，最终目标是使各人声音频的音量均衡，并使上述各人声音频混缩（信号相加）后的音能量在-3dB左右，具体实现如下：

通过VAD（Voice Activity Detection，动态语音检测）算法检测音频中的歌声段，计算歌声段的能量均方值RMS：

再对人声音频整体乘以一个增益系数，以将各人声音频的音量调整至目标水平，增益系数gain计算公式为：

其中L为VAD结果为1（代表歌声）的音频信号样点数，n表示音频信号的采样点，VAD=true表示音频信号为存在人声的音频信号，N为参与合唱的人数，VAD算法可以采用ITU-T/G.729推荐的基于能量和过零率检测的算法，也可以采用其他实现相同功能的算法，本示例实施方式对此不做特殊限定。

此外，还可以通过对人声音频进行降噪、去混响、频率均衡及压缩处理来增强音质。其中，上述降噪是为了提高人声音频的音质，同时消除各人声音频在背景噪声上的差异；上述去混响是为了消除各人声音频由于录制场地不同造成的空间听感上的差异。

举例而言，降噪可以采用OMLSA算法（单通道降噪算法），去混响可以采用WPE（Weighted Prediction Error）算法，也可以采用其他降噪算法或其他去混响算法，本示例实施方式对此不做特殊限定。

上述EQ（频率均衡器）和压缩处理是为了提升歌声的音色，通过EQ提升音频在4k–7kHz频段的能量，以提升人声的清晰度和空气感；通过压缩处理减小音频信号的动态范围，增强人声的表现力和丰满度。

举例而言，上述EQ可以采用Peak Filter（峰值滤波器）和Shelve Filter（搁架式滤波器）级联的形式来实现，上述压缩器的基本原理如下：

其中x为归一化的输入采样值，y为输出采样值。

需要说明的是，上述场景只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限。

在步骤S230中，依据检测到的基频将各人声音频划分至不同的声部类别，并为各声部类别划分对应的声像角度区域。

在现场合唱场景下，参与合唱人员会按照一定规则进行站位，其队形排列通常按声部划分。因此，为了得到更好的合唱效果，使得到的混音作品（合唱作品）具有现场站位的声像排列效果，本示例实施方式在将各人声音频的起唱时间对齐并经过音质增强处理后，还需要对上述人声音频进行声像调整。

在本示例实施方式中，上述声部类别为依据音高和音色划分得到的多个类别。例如，可以为二声部（高音-低音），三声部（高音-中音-低音）等，本示例实施方式对此不做特殊限定。

举例而言，上述依据检测到的基频将各人声音频划分至不同的声部类别可以通过以下方法实现：依据基频确定各人声音频的音高并排序；依据各声部类别的预设人数比例及音高的排序结果，将各人声音频划分至对应的声部类别。

具体地，上述声部类别为二声部（高音-低音），高音与低音的预设人数比例为1:1，则可以将音高从高至低排序后的前一半人声音频划分至高音部，后半部分划分至低音部。需要说明的是，上述场景只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限。

在本示例实施方式中，在将人声音频划分至不同的声部类别后，还需要为每一个声部类别划分对应的声像角度区域。以上述声部类别为二声部（高音-低音），高音与低音的预设人数比例为1:1，可以以观众席正中且垂直于观众席的划分线为基准线，将从基准线至基准线向左旋转60度的角度区域划分为高音声部对应的声像角度区域，将从基准线至基准线向右旋转60度的角度区域划分为低音声部对应的声像角度区域。需要说明的是，上述场景只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限。

在步骤S240中，在各声像角度区域中确定各人声音频的声像角度，并通过声像角度对对应的人声音频进行声像调整。

在本示例实施方式中，在为上述声部类别划分声像角度区域后，还需要在声像角度区域中为各人声音频确定声像角度。该过程的实现可以如下：依据声部类别中人声音频的数目，将声部类别对应的声像角度区域划分为至少两个声像角度子区域；在各声像角度子区域中分别确定声像角度，得到声像角度区域对应的声像角度集；将声像角度集中的各声像角度分配给各人声音频，以确定各人声音频的声像角度。

其中，上述依据声部类别中人声音频的数目，将声部类别对应的声像角度区域划分为至少两个声像角度子区域的过程，可以实现如下：将声像角度区域划分为人声音频数目个声像角度子区域。

上述在各声像角度子区域中分别确定声像角度，得到声像角度区域对应的声像角度集的过程可以实现如下：计算各声像角度子区域的角度中间值，将各角度中间值确定为各声像角度子区域对应的声像角度，得到声像角度集。

上述将声像角度集中的各声像角度分配给各人声音频，以确定各人声音频的声像角度的实现可以如下：将声像角度集中的各声像角度随机分配给各人声音频，以确定各人声音频的声像角度。

下面，结合图3至图5，在具体应用场景中对通过上述步骤S230至步骤S240实现自动声像排列的过程进行详细的说明，其中，该具体应用场景基于基频检测和HRTF（HeadRelated Transfer Functions，头部相关传输函数）卷积技术实现上述自动声像排列。如图3所示，该自动声像排列可以包含以下步骤：

在步骤S310中，定义声部划分规则。

在该步骤中，定义声部类型的划分规则，包括，定义声部类别，如二声部（高音-低音），三声部（高音-中音-低音）等，定义各声部的人数比例，以二声部为例，可以将二声部中高音声部与低音声部的人数比例定义为1:1，并为各声部类别划分声像角度区域。

在步骤S320中，对人声音频排序。

在该步骤中，计算步骤S220中检测到的基频F0的均值F0Avg，并根据该均值F0Avg对各人声音频的音高由高到低进行排序。

在步骤S330中，将各人声音频划分至对应的声部类别。

在该步骤中，根据音高排序结果和各声部人数比例，将各人声音频划分到各自的声部，标记各音频对应的声部标签。例如，在上述声部类别为二声部（高音-低音），高音与低音的预设人数比例为1:1时，则可以将音高从高至低排序后的前一半人声音频划分至高音部，后半部分划分至低音部。

在步骤S340中，将各声部类别对应的声像角度区域划分为至少两个声像角度子区域。

在该步骤中，根据各声部类别的人数，将对应声部的声像区域角度再均匀细分为声像角度子区域，并计算各声像角度子区域的角度中间值，将计算得到的多个角度中间值组成为各声部类别的声像角度集。

在步骤S350中，确定各人声音频的目标声像角。

在该步骤中，将声像角度集中的各声像角度随机分配给各人声音频，作为各人声音频的目标声像角。

在步骤S360中，对人声音频进行声像调整。

在该步骤中，将各人声音频信号和对应的目标声像角的HRTF做卷积运算，实现对该人声音频的声像调整，具体地卷积运算如下：

其中，k表示采样点的样点号，n表示信号的时序，N表示一帧信号的时间长度，h(n)为HRTF对应的冲击响应函数（HRIR），是和空间方位（方位角和俯仰角）一一对应的。在本应用场景中，使用的HRTF的俯仰角均为0°，即处于水平面。由于HRTF包含音频的方位信息，相比常见的基于左右声道音量调节的声像调节方法，基于HRTF的声像调节可以更好的还原出期望的空间和距离感。

下面分别以二声部与三声部的具体实施例为例，对上述过程进行完整描述：

其中，二声部的自动声像排列为可以通过如下流程实现：

1）定义二声部队列的规则：队列划分为高音声部和低音声部，高音/低音声部人数比例为1:1，声像角度区域划分如图4所示，以观众席的中线为0度线，从0度线至向左60度的[-60°~0°]区域为高音声部的声像角度区域，从0度线至向右60度的[0°~60°]区域为低音声部的声像角度区域；

2）根据基频检测的结果均值F0Avg，对各人声音频的音高由高到低进行排序，标记为P1-P12；

3）根据音高排序结果和二声部的队列规则，将P1-P6标记为高音声部，P7-P12标记为低音声部；

4）根据各声部的人数，将高音声部的声像角度区域[-60°~ 0°]再均匀的划分为6个声像角度子区域：[-60°~-50°]、[-50°~-40°]、…、[-10°~ 0°]，计算各声像角度子区域的中值，得到高音声像角度集[-55°，-45°，…，-5°]，同样，将低音声部的声像角度[0°~60°]均匀的划分为6个声像角度子区域：[0°~ 10°]、[10°~ 20°]、…、[50°~ 60°]，计算声像角度子区域的中值，得到低音声像角度集[5°， 15°，…， 55°]；

5）将高音声像角度集中的声像角度随机分配给P1-P6，分别作为P1-P6对应的人声音频的目标声像角；将低音声像角度集中的声像角度随机分配给P7-P12，分别作为P7-P12对应的人声音频的目标声像角。例如。P1-P6的其中一种声像角分配结果为[-45°，-25°，-55°，-5°，-15°，-35°]；

6）将P1-P12对应的人声音频，和其分配到的目标声像角对应的HRTF做卷积运算，实现对各人声音频信号的声像调整。

上述三声部的自动声像排列为可以通过如下流程实现：

1）定义三声部队列的规则：队列划分为高音声部、中音声部和低音声部，高音/中音/低音声部人数比例为5:3:4，声像角度区域划分如图5所示，以观众席的中线为0度线，[-60°~15°]为高音声部的声像角度区域，[-15°~15°]为中音声部的声像角度区域，[15°~60°]为低音声部的声像角度区域；

3）根据音高排序结果和三声部的队列规则，将P1-P5标记为高音声部，P6-P8标记为中音声部，P9-P12标记为低音声部；

4）根据各声部的人数，将高音声部的声像角度区域[-60°~ -15°]再均匀的划分为5个声像角度子区域：[-60°~-51°]、[-51°~-42°]、…、[-24°~ -15°]，计算各声像角度子区域的中值，得到高音声像角度集[-55.5°，-46.5°，-37.5°，-28.5°，-19.5°]；将中音声部的声像角度区域[-15°~ 15°]均匀的划分为3个声像角度子区域：[-15°~ -5°]、[-5°~5°]、[5°~ 15°]，计算各声像角度子区域的中值，得到中音声像角度集[-10°，0°，10°]；将低音声部的声像角度区域[15°~ 60°]均匀的划分为4个声像角度子区域：[15°~ 26.25°]、[26.25°~37.55°]、[37.5°~ 48.75°]、[48.75°~ 60°]，计算各声像角度子区域的中值，得到低音声像集[20.625°，31.875°，43.125°，54.375°]；

5）将高音声像角度集中的声像角度随机的分配给P1-P5，中音声部角度集中的声像角度随机的分配给P6-P8，低音声部角度集中的声像角度随机的分配给P9-P12，例如P1-P5的其中一种声像角分配结果为[-46.5°，-28.5°，-55.5°，-37.5°，-19.5°]；

6）将P1-P12对应的人声音频，和其分配到的声像角度对应的HRTF做卷积运算，实现对各人声音频信号的声像调整。

在步骤S250中，对声像调整后的各人声音频进行混音处理。

在本示例实施方式中，在对各人声音频进行声像调整后，该需要对各人声音频进行混音处理，得到最终的合唱作品。上述对声像调整后的各人声音频进行混音处理的实现可以如下：将各人声音频与伴奏音频进行混缩处理，得到混缩音频。此外，本示例实施方式所提供的异步合唱混音方法还可以通过预设的混响器对得到的混缩音频进行空间渲染，以模拟现场合唱的场地环境（礼堂、音乐厅等）的空间效果。举例而言，上述混响器可以采用反馈延迟网络（Feedback Delay Network，FDN）来实现。

示例性装置

图6示出了本公开实施例中异步合唱混音装置的一种结构示意图，如图6所示，该异步合唱混音装置600主要可以包括：

人声音频接收模块610，可以用于接收至少两段人声音频；

起唱时间对齐模块620，可以用于检测各人声音频的基频，确定各人声音频的起唱时间并对齐；

声部类别划分模块630，用于依据基频将各人声音频划分至不同的声部类别，并为各声部类别划分对应的声像角度区域；

声像角度确定模块640，用于在各声像角度区域中确定各人声音频的声像角度，并通过声像角度对对应的人声音频进行声像调整；

音频混音处理模块650，用于对声像调整后的各人声音频进行混音处理。

在本公开的一种示例性实施例中，声部类别划分模块通过执行以下方法实现依据基频将各人声音频划分至不同的声部类别，包括：

依据基频确定各人声音频的音高并排序；

依据各声部类别的预设人数比例及音高的排序结果，将各人声音频划分至对应的声部类别。

在本公开的一种示例性实施例中，声像角度确定模块通过执行以下方法实现在各声像角度区域中确定各人声音频的声像角度，包括：

依据声部类别中人声音频的数目，将声部类别对应的声像角度区域划分为至少两个声像角度子区域；

在各声像角度子区域中分别确定声像角度，得到声像角度区域对应的声像角度集；

将声像角度集中的各声像角度分配给各人声音频，以确定各人声音频的声像角度。

在本公开的一种示例性实施例中，声像角度确定模块通过执行以下方法实现依据声部类别中人声音频的数目，将声部类别对应的声像角度区域划分为至少两个声像角度子区域，包括：

将声像角度区域划分为人声音频数目个声像角度子区域。

在本公开的一种示例性实施例中，声像角度确定模块通过执行以下方法实现在各声像角度子区域中分别确定声像角度，得到声像角度区域对应的声像角度集，包括：

计算各声像角度子区域的角度中间值，将各角度中间值确定为各声像角度子区域对应的声像角度，得到声像角度集。

在本公开的一种示例性实施例中，声像角度确定模块通过执行以下方法实现将声像角度集中的各声像角度分配给各人声音频，以确定各人声音频的声像角度，包括：

将声像角度集中的各声像角度随机分配给各人声音频，以确定各人声音频的声像角度。

在本公开的一种示例性实施例中，起唱时间对齐模块通过执行以下方法实现检测各人声音频的基频，确定各人声音频的起唱时间并对齐，包括：

对人声音频的音频信号进行分帧处理，并检测各帧音频信号的基频；

当连续多帧音频信号的基频为有效基频时，将连续多帧音频信号中的第一帧音频信号的起点作为起唱时间，记录起唱时间对应的时间戳；

根据起唱时间对应的时间戳将各人声音频对齐。

在本公开的一种示例性实施例中，异步合唱混音装置还包括音质改善模块，用于在确定各人声音频的起唱时间并对齐之后，通过执行以下方法调整人声音频：

检测人声音频中的歌声段，并计算歌声段的能量均方值；

基于能量均方值确定一个增益系数，并通过该增益系数调整人声音频。

在本公开的一种示例性实施例中，在确定各人声音频的起唱时间并对齐之后，音质改善模块还用于：对人声音频进行降噪、去混响、频率均衡及压缩处理。

在本公开的一种示例性实施例中，异步合唱混音装置还包括混缩处理模块，用于在过声像角度对对应的人声音频进行声像调整之后，将各人声音频与伴奏音频进行混缩处理，得到混缩音频。

在本公开的一种示例性实施例中，音频混音处理模块通过执行以下方法实现对声像调整后的各人声音频进行混音处理，包括：

通过预设的混响器对混缩音频进行空间渲染。

以上各示例性实施方式中的异步合唱混音装置的具体细节已在相应的示例性方法部分做出详细说明，因此此处不再赘述。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，对本公开示例性实施方式的介质进行说明。

在一些可能的实施方式中，本公开的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的异步合唱混音方法中的步骤。

在本公开的一些示例性实施方式中，所述设备的处理器执行所述程序代码时可以用于实现上述方法实施例的各个步骤。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN）—连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

示例性设备

在介绍了本公开示例性实施方式的异步合唱混音方法和异步合唱混音装置之后，接下来，将对本公开的示例性实施方式的电子设备进行描述。其中，本公开的示例性实施方式的电子设备包括上述异步合唱混音装置。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“方法”部分中描述的根据本公开各种示例性实施方式的异步合唱混音方法中的步骤等。例如，所述处理单元可以执行如图2所示的步骤S210至步骤S250，如图3所示的步骤S310至步骤S360。

下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700包括中央处理器701，其可以根据存储在只读存储器702中的程序或者从存储部分708加载到随机访问存储器703中的程序而执行各种适当的动作和处理。在随机访问存储器 703中，还存储有系统操作所需的各种程序和数据中央处理器701、只读存储器702以及随机访问存储器703通过总线704彼此相连。输入/输出接口705也连接至总线704。

以下部件连接至输入/输出接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如局域网（LAN）卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至输入/输出接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理器701执行时，执行本申请的装置中限定的各种功能。

在本公开的示例性实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

需要说明的是，本公开所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频等等，或者上述的任意合适的组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当注意，尽管在上文详细描述中提及了异步合唱混音装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种异步合唱混音方法，包括：

接收至少两段人声音频；

对声像调整后的各所述人声音频进行混音处理。

2.根据权利要求1所述的异步合唱混音方法，其特征在于，所述依据所述基频将各所述人声音频划分至不同的声部类别，包括：

依据所述基频确定各所述人声音频的音高并排序；

3.根据权利要求1所述的异步合唱混音方法，其特征在于，所述在各所述声像角度区域中确定各所述人声音频的声像角度，包括：

4.根据权利要求3所述的异步合唱混音方法，其特征在于，所述依据所述声部类别中所述人声音频的数目，将所述声部类别对应的所述声像角度区域划分为至少两个声像角度子区域，包括：

5.根据权利要求4所述的异步合唱混音方法，其特征在于，所述在各所述声像角度子区域中分别确定声像角度，得到所述声像角度区域对应的声像角度集，包括：

6.根据权利要求1所述的异步合唱混音方法，其特征在于，所述将所述声像角度集中的各声像角度分配给各所述人声音频，以确定各所述人声音频的所述声像角度，包括：

7.根据权利要求1所述的异步合唱混音方法，其特征在于，所述检测各所述人声音频的基频，确定各所述人声音频的起唱时间并对齐，包括：

8.根据权利要求1所述的异步合唱混音方法，其特征在于，在所述确定各所述人声音频的起唱时间并对齐之后，所述方法还包括：

9.根据权利要求1所述的异步合唱混音方法，其特征在于，在所述确定各所述人声音频的起唱时间并对齐之后，所述方法还包括：

对所述人声音频进行降噪、去混响、频率均衡及压缩处理。

10.根据权利要求1-9任一项所述的异步合唱混音方法，其特征在于，在所述过所述声像角度对对应的所述人声音频进行声像调整之后，所述方法还包括：

11.根据权利要求10所述的异步合唱混音方法，其特征在于，所述对声像调整后的各所述人声音频进行混音处理，包括：

通过预设的混响器对所述混缩音频进行空间渲染。

12.一种异步合唱混音装置，包括：

人声音频接收模块，用于接收至少两段人声音频；

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至11中任一项所述的方法。