CN118016034A

CN118016034A - 音量均衡方法、装置、计算机设备和存储介质

Info

Publication number: CN118016034A
Application number: CN202410285396.2A
Authority: CN
Inventors: 李博文
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-05-10

Abstract

本申请涉及一种音量均衡方法、装置、计算机设备和存储介质。所述方法包括：分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到参考人声音频的第一bark域信号和待均衡人声音频的第二bark域信号；根据第一bark域信号和第二bark域信号在各音频帧上的信号差异，确定针对各音频帧的响度调整参考信息；根据各音频帧的响度调整参考信息，确定音量均衡参数。采用本方法能够实时分析合唱场景下参考人声音频和待均衡人声音频在bark域上的信号差异，结合平滑处理和取值约束，确定针对待均衡人声音频的音量均衡参数，从而利用音量均衡参数对待均衡人声音频进行音量均衡，进而提高音量均衡结果的准确度。

Description

音量均衡方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音量均衡方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

在音乐演唱场景下，存在有若干种不同来源的声音，为了避免在演唱环节中不同来源的声音混合在一起时可能存在的不自然和不贴合问题，影响音乐的品质，需要针对不同来源的声音对应的音轨进行多路的音量均衡。

传统技术可通过对各路音轨进行预处理和特征分析，利用分析结果进行音量均衡。

然而，在实现本发明过程中，发明人发现现有技术中至少存在如下问题，现有技术是对各路音轨进行一遍预处理特征提取，然后基于分析结果来做音量均衡。无法实时的提供音量均衡的能力，需要等到音频全部录制完成后才能实现。且传统技术直接从时域的角度去考虑音量而忽略了人耳对应听觉的感知不是简单的参考波形的幅度，无法考虑到人耳对不同频率的响度会产生不同的听觉感知，甚至还可能导致调整后的音乐中部分女声比男声更亮更明显的问题，不利于提高音量均衡结果的准确度。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高音量均衡结果的准确度的音量均衡方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种音量均衡方法，包括：

分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到所述参考人声音频对应的第一bark域信号和所述待均衡人声音频对应的第二bark域信号；

根据所述第一bark域信号和所述第二bark域信号在各音频帧上的信号差异，确定针对所述各音频帧的响度调整参考信息；

根据所述各音频帧的响度调整参考信息，确定音量均衡参数；所述音量均衡参数用于对所述待均衡人声音频进行音量均衡。

在其中一个实施例中，所述根据所述第一bark域信号和所述第二bark域信号在各音频帧上的信号差异，确定针对所述各音频帧的响度调整参考信息，包括：

对于所述各音频帧中的任一目标音频帧，在所述第一bark域信号和所述第二bark域信号中确定针对所述目标音频帧的目标峰值点；

根据所述目标峰值点在所述第一bark域信号中对应的信号值与所述目标峰值点在所述第二bark域信号中对应的信号值之间的差值，确定各所述目标峰值点对应的信号差值；

从各所述目标峰值点对应的信号差值中，确定出针对所述目标音频帧的响度调整参考信息。

在其中一个实施例中，所述从各所述目标峰值点对应的信号差值中，确定出针对所述目标音频帧的响度调整参考信息，包括：

根据各所述目标峰值点对应的信号差值，确定各所述目标峰值点对应的信号差值中的中位数；

在所述中位数小于预设的信号差值阈值的情况下，将针对所述目标音频帧的响度调整参考信息设置为预设的响度调整参考值；

在所述中位数大于或等于所述预设的信号差值阈值的情况下，将所述中位数作为针对所述目标音频帧的响度调整参考信息。

在其中一个实施例中，所述根据所述各音频帧的响度调整参考信息，确定音量均衡参数，包括：

对所述各音频帧的响度调整参考信息进行平滑处理，得到所述各音频帧对应的响度调整参数；

获取预设的响度调整约束范围，根据所述各音频帧对应的响度调整参数与所述响度调整约束范围之间的关系，输出所述音量均衡参数。

在其中一个实施例中，所述对所述各音频帧的响度调整参考信息进行平滑处理，得到所述各音频帧对应的响度调整参数，包括：

获取所述第二bark域信号对应的信号采样率；

根据所述信号采样率和所述第二bark域信号对应的第一响应时间，确定针对所述第二bark域信号的第一平滑参数，以及，根据所述信号采样率和所述第二bark域信号对应的第二响应时间，确定针对所述第二bark域信号的第二平滑参数；

根据所述第一平滑参数和所述第二平滑参数，对所述响度调整参考信息进行平滑处理，得到所述各音频帧对应的响度调整参数。

在其中一个实施例中，所述响度调整约束范围包括响度调整约束上限和响度调整约束下限，所述根据所述各音频帧对应的响度调整参数与所述响度调整约束范围之间的关系，输出所述音量均衡参数，包括：

在所述各音频帧对应的响度调整参数大于所述响度调整约束上限的情况下，将所述各音频帧对应的音量均衡参数设置为所述响度调整约束上限；

在所述各音频帧对应的响度调整参数大于或等于所述响度调整约束下限，且所述各音频帧对应的响度调整参数小于或等于所述响度调整约束上限的情况下，将所述各音频帧对应的音量均衡参数设置为所述各音频帧对应的响度调整参数；

在所述各音频帧对应的响度调整参数小于所述响度调整约束下限的情况下，将所述各音频帧对应的音量均衡参数设置为所述响度调整约束下限。

在其中一个实施例中，所述分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到所述参考人声音频对应的第一bark域信号和所述待均衡人声音频对应的第二bark域信号，包括：

将所述参考人声音频转换为频域，得到所述参考人声音频对应的第一频域信号，通过预训练的bark域滤波器，将所述第一频域信号转换为所述第一bark域信号；

以及，将所述待均衡人声音频转换为频域，得到所述待均衡人声音频对应的第二频域信号，通过预训练的bark域滤波器，将所述第二频域信号转换为所述第二bark域信号。

在其中一个实施例中，所述方法还包括：

按照预设的人声音频选择策略，从组成所述目标合唱音频的至少两路人声音频中确定出所述参考人声音频；

将所述至少两路人声音频中除所述参考人声音频以外的人声音频确定为所述待均衡人声音频。

第二方面，本申请还提供了一种音量均衡装置，包括：

转换模块，用于分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到所述参考人声音频对应的第一bark域信号和所述待均衡人声音频对应的第二bark域信号；

确定模块，用于根据所述第一bark域信号和所述第二bark域信号在各音频帧上的信号差异，确定针对所述各音频帧的响度调整参考信息；

均衡模块，用于根据所述各音频帧的响度调整参考信息，确定音量均衡参数；所述音量均衡参数用于对所述待均衡人声音频进行音量均衡。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述音量均衡方法、装置、计算机设备、存储介质和计算机程序产品，通过分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到参考人声音频对应的第一bark域信号和待均衡人声音频对应的第二bark域信号，从而将需要进行音量均衡的待均衡人声音频以及作为音量均衡参照的参考人声音频转换至符合人耳听觉的直观感受的bark域中，得到参考人声音频和待均衡人声音频各自对应的bark域信号；根据第一bark域信号和第二bark域信号在各音频帧上的信号差异，确定针对各音频帧的响度调整参考信息，从而通过分析参考人声音频和待均衡人声音频各自对应的bark域信号之间的信号差异，初步确定作为音量均衡参考的响度调整参考信息；根据各音频帧的响度调整参考信息，确定音量均衡参数，从而对响度调整参考信息进行进一步的数据处理，得到用于对待均衡人声音频进行音量均衡的音量均衡参数，能够通过分析参考人声音频对应的第一bark域信号和待均衡人声音频对应的第二bark域信号之间的信号差异，初步确定作为音量均衡参考的响度调整参考信息，并对响度调整参考信息进行平滑、范围约束等处理，得到音量均衡参数，从而利用音量均衡参数对待均衡人声音频进行音量均衡，实现实时分析合唱场景下参考人声音频和待均衡人声音频在bark域上的信号差异，结合平滑处理和取值约束，确定针对待均衡人声音频的音量均衡参数，从而利用音量均衡参数对待均衡人声音频进行音量均衡，进而提高音量均衡结果的准确度。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中一种音量均衡方法的应用环境图；

图2为一个实施例中一种音量均衡方法的流程示意图；

图3为一个实施例中一种音量均衡的流程示意图；

图4为一个实施例中一种音量均衡装置的结构框图；

图5为一个实施例中一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的音量均衡方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到参考人声音频对应的第一bark域信号和待均衡人声音频对应的第二bark域信号；服务器104根据第一bark域信号和第二bark域信号在各音频帧上的信号差异，确定针对各音频帧的响度调整参考信息；服务器104根据各音频帧的响度调整参考信息，确定音量均衡参数；音量均衡参数用于对待均衡人声音频进行音量均衡。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个示例性的实施例中，如图2所示，提供了一种音量均衡方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S202，分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到参考人声音频对应的第一bark域信号和待均衡人声音频对应的第二bark域信号。

其中，目标合唱音频可以是指多人大合唱场景下多路人声组成的音频。

其中，参考人声音频可以是指组成目标合唱音频的若干路人声音频中符合预设音频要求的音频。

其中，待均衡人声音频可以是指组成目标合唱音频的若干路人声音频中需要进行音量均衡的音频。

其中，bark域可以是指符合人耳听觉针对声音的直观感受的心理学尺度，实际应用中，bark域可以包括巴克域（一种声音的心理物理学尺度）。

其中，第一bark域信号可以是指将参考人声音频转换至bark域后得到的信号。

其中，第二bark域信号可以是指将待均衡人声音频转换至bark域后得到的信号。

作为一种示例，在多人大合唱场景下，服务器获取用于组成目标合唱音频的若干人声音频，服务器从该若干人声音频中选择出参考人声音频和待均衡人声音频，服务器按照预设的bark域转换方法，将参考人声音频转换为bark域，得到参考人声音频对应的第一bark域信号，服务器将待均衡人声音频转换为bark域，得到待均衡人声音频对应的第二bark域信号。

步骤S204，根据第一bark域信号和第二bark域信号在各音频帧上的信号差异，确定针对各音频帧的响度调整参考信息。

其中，各音频帧可以是指将音频信号分为若干个等长时间片段后的每个时间片段，实际应用中，根据目标合唱音频将第一bark域信号和第二bark域信号进行对齐，以目标合唱音频的各帧为基准，对第一bark域信号和第二bark域信号进行分析和处理。

其中，响度调整参考信息可以是指对音频信号的响度进行调整所依照的比例系数，实际应用中，响度调整参考信息可以作为音量均衡参数的确定依据。

作为一种示例，服务器通过对比第一bark域信号和第二bark域信号，分析第一bark域信号和第二bark域信号在各音频帧上的信号差异，得到针对各音频帧的响度调整参考信息。

步骤S206，根据各音频帧的响度调整参考信息，确定音量均衡参数。

其中，音量均衡参数可以是指用于对待均衡人声音频进行音量均衡时所依照的比例系数。

作为一种示例，服务器对各音频帧的响度调整参考信息进行平滑处理和取值范围约束处理后，得到针对待均衡人声音频的音量均衡参数，服务器按照音量均衡参数，对待均衡人声音频进行音量均衡，进一步地，为了避免音量均衡后的待均衡人声音频中出现过载，服务器可以通过预训练的限制器对音量均衡参数进行处理，得到处理后音量均衡参数，服务器根据处理后音量均衡参数，对待均衡人声音频进行处理，从而得到处理后的待均衡人声音频。

上述音量均衡方法中，通过分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到参考人声音频对应的第一bark域信号和待均衡人声音频对应的第二bark域信号，从而将需要进行音量均衡的待均衡人声音频以及作为音量均衡参照的参考人声音频转换至符合人耳听觉的直观感受的bark域中，得到参考人声音频和待均衡人声音频各自对应的bark域信号；根据第一bark域信号和第二bark域信号在各音频帧上的信号差异，确定针对各音频帧的响度调整参考信息，从而通过分析参考人声音频和待均衡人声音频各自对应的bark域信号之间的信号差异，初步确定作为音量均衡参考的响度调整参考信息；根据各音频帧的响度调整参考信息，确定音量均衡参数，从而对响度调整参考信息进行进一步的数据处理，得到用于对待均衡人声音频进行音量均衡的音量均衡参数，能够通过分析参考人声音频对应的第一bark域信号和待均衡人声音频对应的第二bark域信号之间的信号差异，初步确定作为音量均衡参考的响度调整参考信息，并对响度调整参考信息进行平滑、范围约束等处理，得到音量均衡参数，从而利用音量均衡参数对待均衡人声音频进行音量均衡，实现实时分析合唱场景下参考人声音频和待均衡人声音频在bark域上的信号差异，结合平滑处理和取值约束，确定针对待均衡人声音频的音量均衡参数，从而利用音量均衡参数对待均衡人声音频进行音量均衡，进而提高音量均衡结果的准确度。

在一个示例性的实施例中，根据第一bark域信号和第二bark域信号在各音频帧上的信号差异，确定针对各音频帧的响度调整参考信息，包括：对于各音频帧中的任一目标音频帧，在第一bark域信号和第二bark域信号中确定针对目标音频帧的目标峰值点；根据目标峰值点在第一bark域信号中对应的信号值与目标峰值点在第二bark域信号中对应的信号值之间的差值，确定各目标峰值点对应的信号差值；从各目标峰值点对应的信号差值中，确定出针对目标音频帧的响度调整参考信息。

其中，各音频帧中的任一目标音频帧可以是指各音频帧中的任意一帧音频信号。

其中，目标峰值点可以是指第一bark域信号中针对目标音频帧的峰值对应的点，实际应用中，目标峰值点可以包括第一bark域信号中的第一峰值点和第二bark域信号中的第二峰值点。

其中，目标峰值点在第一bark域信号中对应的信号值可以是指表征在第一bark域信号中目标峰值点对应的bark域信号的数值大小的数据。

其中，目标峰值点在第二bark域信号中对应的信号值可以是指表征在第二bark域信号中目标峰值点对应的bark域信号的数值大小的数据。

其中，信号差值可以是指表征目标峰值点在第一bark域信号中对应的信号值与目标峰值点在第二bark域信号中对应的信号值之间的差值大小的数据。

作为一种示例，对于各音频帧中的任一目标音频帧（如目标音频帧n），服务器在第一bark域信号B’[n] 中确定针对目标音频帧（n）的若干个（如5个）目标峰值点P’（n，1）、P’（n，2）、P’（n，3）、P’（n，4）、P’（n，5），服务器在第二bark域信号B[n]中确定针对目标音频帧（n）的若干个（如5个）目标峰值点P（n，1）、P（n，2）、P（n，3）、P（n，4）、P（n，5），服务器根据目标峰值点在第一bark域信号中对应的信号值与目标峰值点在第二bark域信号中对应的信号值之间的差值D（n，1）、D（n，2）、D（n，3）、D（n，4）、D（n，5），具体地，D（n，1）可表示为P（n，1）-P’（n，1）、D（n，2）可表示为P（n，2）- P’（n，2）、D（n，3）可表示为P（n，3）- P’（n，3）、D（n，4）可表示为P（n，4）- P’（n，4）、D（n，5）可表示为P（n，5）- P’（n，5），确定各目标峰值点对应的信号差值；服务器从各目标峰值点对应的信号差值D（n，1）、D（n，2）、D（n，3）、D（n，4）、D（n，5）中，确定出针对目标音频帧的响度调整参考信息。

本实施例中，通过对于各音频帧中的任一目标音频帧，在第一bark域信号和第二bark域信号中确定针对目标音频帧的目标峰值点；根据目标峰值点在第一bark域信号中对应的信号值与目标峰值点在第二bark域信号中对应的信号值之间的差值，确定各目标峰值点对应的信号差值；从各目标峰值点对应的信号差值中，确定出针对目标音频帧的响度调整参考信息，能够利用第一bark域信号和第二bark域信号在峰值点上的信号差值，确定准确的针对目标音频帧的响度调整参考信息，为后续基于响度调整参考信息确定音量均衡参数提供数据基础，进而提高音量均衡结果的准确度。

在一些实施例中，从各目标峰值点对应的信号差值中，确定出针对目标音频帧的响度调整参考信息，包括：根据各目标峰值点对应的信号差值，确定各目标峰值点对应的信号差值中的中位数；在中位数小于预设的信号差值阈值的情况下，将针对目标音频帧的响度调整参考信息设置为预设的响度调整参考值；在中位数大于或等于预设的信号差值阈值的情况下，将中位数作为针对目标音频帧的响度调整参考信息。

其中，中位数可以是指按照预设的排列顺序（如从小到大或从大到小），将各目标峰值点对应的信号差值进行排列后，处于中间位置的信号差值对应的数据。

其中，预设的信号差值阈值可以是指用于判断中位数是否符合预设的信号差值要求的数据。

其中，预设的响度调整参考值可以是指预先设置的响度调整参考信息的特定取值，实际应用中，预设的响度调整参考值可以包括1。

作为一种示例，服务器根据各目标峰值点对应的信号差值，确定各目标峰值点对应的信号差值中的中位数，具体地，服务器还可以通过Mean Mode设置，从而根据各目标峰值点对应的信号差值，确定各目标峰值点对应的信号差值中的统计特征参数（如平均数、对信号差值取整后的众数等），在中位数（或统计特征参数）小于预设的信号差值阈值（如Thershold）的情况下，此时，服务器判断待均衡人声音频与参考人声音频之间的差异不大，服务器将针对目标音频帧的响度调整参考信息设置为预设的响度调整参考值（如1），即对该目标音频帧的响度不做任何处理；在中位数（或统计特征参数）大于或等于预设的信号差值阈值的情况下，服务器将中位数作为针对目标音频帧的响度调整参考信息。

本实施例中，通过根据各目标峰值点对应的信号差值，确定各目标峰值点对应的信号差值中的中位数；在中位数小于预设的信号差值阈值的情况下，将针对目标音频帧的响度调整参考信息设置为预设的响度调整参考值；在中位数大于或等于预设的信号差值阈值的情况下，将中位数作为针对目标音频帧的响度调整参考信息，能够基于各目标峰值点对应的信号差值的统计特征，初步确定响度调整参考信息，从而为后续确定音量均衡参数提供数据基础，进而提高音量均衡结果的准确度。

在一些实施例中，根据各音频帧的响度调整参考信息，确定音量均衡参数，包括：对各音频帧的响度调整参考信息进行平滑处理，得到各音频帧对应的响度调整参数；获取预设的响度调整约束范围，根据各音频帧对应的响度调整参数与响度调整约束范围之间的关系，输出音量均衡参数。

其中，响度调整参数可以是指对响度调整参考信息进行平滑处理后得到的数据。

其中，预设的响度调整约束范围可以是指约束响度调整参数的取值范围的数据，实际应用中，响度调整约束范围可以包括响度调整约束上限和响度调整约束下限。

作为一种示例，服务器按照预设的数据平滑方式，对各音频帧的响度调整参考信息进行平滑处理，得到各音频帧对应的响度调整参数，服务器获取预设的响度调整约束范围，服务器根据各音频帧对应的响度调整参数与响度调整约束范围之间的关系，确定输出的音量均衡参数的取值。

本实施例中，通过对各音频帧的响度调整参考信息进行平滑处理，得到各音频帧对应的响度调整参数；获取预设的响度调整约束范围，根据各音频帧对应的响度调整参数与响度调整约束范围之间的关系，输出音量均衡参数，能够通过对响度调整参考信息进行平滑处理和取值范围约束，避免音量均衡参数过渡波动，防止音量均衡参数的波动导致听感的抽吸感，进而提高音量均衡结果的准确度。

在一些实施例中，对各音频帧的响度调整参考信息进行平滑处理，得到各音频帧对应的响度调整参数，包括：获取第二bark域信号对应的信号采样率；根据信号采样率和第二bark域信号对应的第一响应时间，确定针对第二bark域信号的第一平滑参数，以及，根据信号采样率和第二bark域信号对应的第二响应时间，确定针对第二bark域信号的第二平滑参数；根据第一平滑参数和第二平滑参数，对响度调整参考信息进行平滑处理，得到各音频帧对应的响度调整参数。

其中，信号采样率可以是指对第二bark域信号进行采样时的频率或速度，实际应用中，信号采样率的大小可以包括单位时间内对信号进行采样时提取到的样本的数量。

其中，第二bark域信号对应的第一响应时间可以是指针对第二bark域信号的启动时间（attack time）。

其中，第一平滑参数可以是指对响度调整参考信息进行平滑处理过程中涉及的一种参数（如α_A）。

其中，第二bark域信号对应的第二响应时间可以是指针对第二bark域信号的释放时间（Release time）。

其中，第二平滑参数可以是指对响度调整参考信息进行平滑处理过程中涉及的另一种参数（如α_R）。

作为一种示例，为了避免音量均衡参数的波动导致听感的抽吸感，服务器取过去N帧的响度调整参考信息gain，服务器对上述过去N帧的响度调整参考信息gain进行均值滤波处理，得到平滑前响度调整参数g_c[n]，具体地，平滑前响度调整参数g_c[n]的表达式可表示为：

。

服务器获取第二bark域信号对应的信号采样率Fs，服务器将信号采样率Fs和第二bark域信号对应的第一响应时间TA输入至第一平滑参数确定模型，得到针对第二bark域信号的第一平滑参数α_A，具体地，第一平滑参数确定模型的表达式可表示为：

。

服务器将信号采样率Fs和第二bark域信号对应的第二响应时间TR输入至第二平滑参数确定模型，得到针对第二bark域信号的第二平滑参数α_R，具体地，第二平滑参数确定模型的表达式可表示为：

。

服务器将第一平滑参数和第二平滑参数输入至数据平滑模型，数据平滑模型对平滑前响度调整参数g_c[n]进行平滑处理，得到各音频帧对应的平滑后响度调整参数g_s[n]，具体地，数据平滑模型的表达式可表示为：

。

本实施例中，通过获取第二bark域信号对应的信号采样率；根据信号采样率和第二bark域信号对应的第一响应时间，确定针对第二bark域信号的第一平滑参数，以及，根据信号采样率和第二bark域信号对应的第二响应时间，确定针对第二bark域信号的第二平滑参数；根据第一平滑参数和第二平滑参数，对响度调整参考信息进行平滑处理，得到各音频帧对应的响度调整参数，能够基于信号采样率、第一响应时间和第二响应时间，对响度调整参考信息进行平滑处理，防止音量均衡参数的波动导致听感的抽吸感，进而提高音量均衡结果的准确度。

在一些实施例中，响度调整约束范围包括响度调整约束上限和响度调整约束下限，根据各音频帧对应的响度调整参数与响度调整约束范围之间的关系，输出音量均衡参数，包括：在各音频帧对应的响度调整参数大于响度调整约束上限的情况下，将各音频帧对应的音量均衡参数设置为响度调整约束上限；在各音频帧对应的响度调整参数大于或等于响度调整约束下限，且各音频帧对应的响度调整参数小于或等于响度调整约束上限的情况下，将各音频帧对应的音量均衡参数设置为各音频帧对应的响度调整参数；在各音频帧对应的响度调整参数小于响度调整约束下限的情况下，将各音频帧对应的音量均衡参数设置为响度调整约束下限。

其中，响度调整约束上限可以是指表征响度调整约束范围对应的数据取值范围中最大数据的数据。

其中，响度调整约束下限可以是指表征响度调整约束范围对应的数据取值范围中最小数据的数据。

作为一种示例，为了避免音量均衡参数过渡波动，服务器根据各音频帧对应的响度调整参数g_s[n]与响度调整约束范围之间的关系，确定输出的音量均衡参数scaler的取值，具体地，响度调整约束范围可表示为：

。

其中，max可表示响度调整约束上限，min可表示响度调整约束下限，当响度调整参数g_s[n]大于响度调整约束上限，输出的音量均衡参数scaler的取值为响度调整约束上限max，当响度调整参数g_s[n]小于或等于响度调整约束上限且响度调整参数g_s[n]大于或等于响度调整约束下限，输出的音量均衡参数scaler的取值为响度调整参数g_s[n]，当响度调整参数g_s[n]小于响度调整约束下限，输出的音量均衡参数scaler的取值为响度调整约束下限min。

本实施例中，通过在各音频帧对应的响度调整参数大于响度调整约束上限的情况下，将各音频帧对应的音量均衡参数设置为响度调整约束上限；在各音频帧对应的响度调整参数大于或等于响度调整约束下限，且各音频帧对应的响度调整参数小于或等于响度调整约束上限的情况下，将各音频帧对应的音量均衡参数设置为各音频帧对应的响度调整参数；在各音频帧对应的响度调整参数小于响度调整约束下限的情况下，将各音频帧对应的音量均衡参数设置为响度调整约束下限，能够基于响度调整参数与响度调整约束范围之间的关系，确定输出的音量均衡参数的取值，防止音量均衡参数过渡波动影响音量均衡效果，从而提高音量均衡结果的准确度。

在一些实施例中，分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到参考人声音频对应的第一bark域信号和待均衡人声音频对应的第二bark域信号，包括：将参考人声音频转换为频域，得到参考人声音频对应的第一频域信号，通过预训练的bark域滤波器，将第一频域信号转换为第一bark域信号；以及，将待均衡人声音频转换为频域，得到待均衡人声音频对应的第二频域信号，通过预训练的bark域滤波器，将第二频域信号转换为第二bark域信号。

其中，预训练的bark域滤波器可以是指一种巴克滤波器（bark fileters）。

作为一种示例，服务器针对参考人声音频x’[n]和待均衡人声音频x[n]的频域转换和bark域转换过程可相同，以针对待均衡人声音频进行转换处理为例，服务器对待均衡人声音频进行分帧加窗处理（如选用hanning）后，得到待均衡人声音频对应的处理后信号，服务器对待均衡人声音频对应的处理后信号做傅里叶变换，计算待均衡人声音频对应的处理后信号中每一个频点的频幅，得到待均衡人声音频对应的语谱图，从而得到待均衡人声音频对应的第二频域信号；具体地，hanning窗可表示为：

。

其中，i表示样点索引，N表示窗长，此处N=512，实际应用中，N的取值可以依据实际需要进行调整，待均衡人声音频对应的处理后信号可表示为：

。

其中，0≤i≤N-1，n表示加窗后的第n帧信号，L表示帧移，此处L=256，i表示第n帧信号内N个样点从0开始的索引，第n帧信号的傅里叶变换结果可表示为：

。

其中，(n,k) 表示第n帧的第k个频率点，进一步地，服务器将待均衡人声音频对应的第二频域信号X（n，k）输入至预训练的bark域滤波器，bark域滤波器将第二频域信号中的每个幅频结果映射到bark域（bark域），得到一个描述33个频段能量大小的向量，其中，bark域滤波器可表示为：

。

其中，M可以是指滤波器的个数，在这里M=33，服务器将第一频域信号X’（n，k）输入至能量确定模型，得到第二频域信号对应的能量信息P（n，k），具体地，能量确定模型可表示为：

。

服务器将bark域滤波器的输出结果H_m（k）和能量信息P（n，k）输入至bark域信号参数确定模型，得到待均衡人声音频对应的第二bark域信号，具体地，bark域信号参数确定模型可表示为：

。

本实施例中，通过将参考人声音频转换为频域，得到参考人声音频对应的第一频域信号，通过预训练的bark域滤波器，将第一频域信号转换为第一bark域信号；以及，将待均衡人声音频转换为频域，得到待均衡人声音频对应的第二频域信号，通过预训练的bark域滤波器，将第二频域信号转换为第二bark域信号，能够将参考人声音频和待均衡人声音频逐步转换至bark域，保证了参考人声音频和待均衡人声音频各自对应的bark域信号的准确度，为后续分析参考人声音频和待均衡人声音频各自对应的bark域信号之间的信号差异以及确定音量均衡参数提供数据基础，进而提高音量均衡结果的准确度。

在一些实施例中，上述方法还包括：按照预设的人声音频选择策略，从组成目标合唱音频的至少两路人声音频中确定出参考人声音频；将至少两路人声音频中除参考人声音频以外的人声音频确定为待均衡人声音频。

其中，预设的人声音频选择策略可以是指从组成目标合唱音频的至少两路人声音频确定出参考人声音频所依照的准则，实际应用中，预设的人声音频选择策略可以包括选择歌曲演唱效果好（如咬字清晰、不跑调等）的人声音频作为参考人声音频。

作为一种示例，在多人大合唱场景下，服务器接收到组成目标合唱音频的若干人声音频（如S1、S2、S3和S4）后，服务器按照预设的人声音频选择策略，从组成目标合唱音频的人声音频中确定出参考人声音频（如S2），此时，服务器将组成目标合唱音频的人声音频中除参考人声音频（S2）以外的人声音频（S1、S3和S4）确定为待均衡人声音频。

本实施例中，通过按照预设的人声音频选择策略，从组成目标合唱音频的至少两路人声音频中确定出参考人声音频；将至少两路人声音频中除参考人声音频以外的人声音频确定为待均衡人声音频，能够基于预设的人声音频选择策略，从组成目标合唱音频的人声音频快速确定出参考人声音频，进而提高音量均衡的效率。

在一些实施例中，如图3所示，提供了一种音量均衡的流程示意图，在多人大合唱场景下，服务器获取用于组成目标合唱音频的若干人声音频，服务器按照预设的人声音频选择策略，从该若干人声音频中选择出参考人声音频x’[n]（如演唱效果好的音频）和待均衡人声音频x[n]，具体地，服务器可对获取到的人声音频进行筛选和判断，当服务器判断上述获取到的人声音频为组成目标合唱音频的人声音频，服务器可将该获取到的人声音频作为待均衡人声音频，服务器分别对参考人声音频和待均衡人声音频依次进行频域转换（如通过分帧加窗和傅里叶变换等）处理和bark域转换处理（如利用巴克滤波器），得到参考人声音频对应的第一bark域信号和待均衡人声音频对应的第二bark域信号，服务器根据第一bark域信号和第二bark域信号在各音频帧上的信号差异，确定针对各音频帧的响度调整参考信息gain，服务器基于启动时间、释放时间对响度调整参考信息gain进行平滑处理，得到响度调整参数，服务器将响度调整参数与预设的响度调整约束范围进行对比，服务器根据响度调整参数与预设的响度调整约束范围之间的数据包含关系，确定输出的音量均衡参数scaler的取值，进一步地，服务器通过预训练的限制器对音量均衡参数进行处理，得到处理后音量均衡参数，服务器根据处理后音量均衡参数，对待均衡人声音频进行音量均衡处理，从而得到处理后的待均衡人声音频。

本实施例中，通过分析参考人声音频和待均衡人声音频在bark域中的信号差异，确定针对待均衡人声音频的音量均衡参数，从而利用音量均衡参数对待均衡人声音频进行音量均衡，能够在大合唱场景下，对人声音频进行实时均衡，提高音量均衡结果的准确度，进而保证均衡后各路人声音频之间的自然度和贴合度。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的音量均衡方法的音量均衡装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音量均衡装置实施例中的具体限定可以参见上文中对于音量均衡方法的限定，在此不再赘述。

在一个示例性的实施例中，如图4所示，提供了一种音量均衡装置，包括：转换模块402、确定模块404和均衡模块406，其中：

转换模块402，用于分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到所述参考人声音频对应的第一bark域信号和所述待均衡人声音频对应的第二bark域信号。

确定模块404，用于根据所述第一bark域信号和所述第二bark域信号在各音频帧上的信号差异，确定针对所述各音频帧的响度调整参考信息。

均衡模块406，用于根据所述各音频帧的响度调整参考信息，确定音量均衡参数；所述音量均衡参数用于对所述待均衡人声音频进行音量均衡。

在一个示例性实施例中，上述确定模块404具体还用于对于所述各音频帧中的任一目标音频帧，在所述第一bark域信号和所述第二bark域信号中确定针对所述目标音频帧的目标峰值点；根据所述目标峰值点在所述第一bark域信号中对应的信号值与所述目标峰值点在所述第二bark域信号中对应的信号值之间的差值，确定各所述目标峰值点对应的信号差值；从各所述目标峰值点对应的信号差值中，确定出针对所述目标音频帧的响度调整参考信息。

在一个示例性实施例中，上述确定模块404具体还用于根据各所述目标峰值点对应的信号差值，确定各所述目标峰值点对应的信号差值中的中位数；在所述中位数小于预设的信号差值阈值的情况下，将针对所述目标音频帧的响度调整参考信息设置为预设的响度调整参考值；在所述中位数大于或等于所述预设的信号差值阈值的情况下，将所述中位数作为针对所述目标音频帧的响度调整参考信息。

在一个示例性实施例中，上述均衡模块406具体还用于对所述各音频帧的响度调整参考信息进行平滑处理，得到所述各音频帧对应的响度调整参数；获取预设的响度调整约束范围，根据所述各音频帧对应的响度调整参数与所述响度调整约束范围之间的关系，输出所述音量均衡参数。

在一个示例性实施例中，上述均衡模块406具体还用于获取所述第二bark域信号对应的信号采样率；根据所述信号采样率和所述第二bark域信号对应的第一响应时间，确定针对所述第二bark域信号的第一平滑参数，以及，根据所述信号采样率和所述第二bark域信号对应的第二响应时间，确定针对所述第二bark域信号的第二平滑参数；根据所述第一平滑参数和所述第二平滑参数，对所述响度调整参考信息进行平滑处理，得到所述各音频帧对应的响度调整参数。

在一个示例性实施例中，上述均衡模块406具体还用于在所述各音频帧对应的响度调整参数大于所述响度调整约束上限的情况下，将所述各音频帧对应的音量均衡参数设置为所述响度调整约束上限；在所述各音频帧对应的响度调整参数大于或等于所述响度调整约束下限，且所述各音频帧对应的响度调整参数小于或等于所述响度调整约束上限的情况下，将所述各音频帧对应的音量均衡参数设置为所述各音频帧对应的响度调整参数；在所述各音频帧对应的响度调整参数小于所述响度调整约束下限的情况下，将所述各音频帧对应的音量均衡参数设置为所述响度调整约束下限。

在一个示例性实施例中，上述转换模块402具体还用于将所述参考人声音频转换为频域，得到所述参考人声音频对应的第一频域信号，通过预训练的bark域滤波器，将所述第一频域信号转换为bark域，得到所述第一bark域信号；以及，将所述待均衡人声音频转换为频域，得到所述待均衡人声音频对应的第二频域信号，通过预训练的bark域滤波器，将所述第二频域信号转换为bark域，得到所述第二bark域信号。

在一个示例性实施例中，上述装置还包括筛选模块，该筛选模块具体用于按照预设的人声音频选择策略，从组成所述目标合唱音频的至少两路人声音频中确定出所述参考人声音频；将所述至少两路人声音频中除所述参考人声音频以外的人声音频确定为所述待均衡人声音频。

上述音量均衡装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种音量均衡方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种音量均衡方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一bark域信号和所述第二bark域信号在各音频帧上的信号差异，确定针对所述各音频帧的响度调整参考信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述从各所述目标峰值点对应的信号差值中，确定出针对所述目标音频帧的响度调整参考信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述各音频帧的响度调整参考信息，确定音量均衡参数，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述各音频帧的响度调整参考信息进行平滑处理，得到所述各音频帧对应的响度调整参数，包括：

获取所述第二bark域信号对应的信号采样率；

6.根据权利要求4所述的方法，其特征在于，所述响度调整约束范围包括响度调整约束上限和响度调整约束下限，所述根据所述各音频帧对应的响度调整参数与所述响度调整约束范围之间的关系，输出所述音量均衡参数，包括：

7.根据权利要求1所述的方法，其特征在于，所述分别将用于组成目标合唱音频的参考人声音频和待均衡人声音频转换为bark域，得到所述参考人声音频对应的第一bark域信号和所述待均衡人声音频对应的第二bark域信号，包括：

8.根据权利要求1至7任意一项所述的方法，其特征在于，所述方法还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。