CN111613197B

CN111613197B - 音频信号处理方法、装置、电子设备及存储介质

Info

Publication number: CN111613197B
Application number: CN202010416851.XA
Authority: CN
Inventors: 李胜存
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2023-05-26
Anticipated expiration: 2040-05-15
Also published as: CN111613197A

Abstract

本申请实施例公开了一种音频信号处理方法、装置、电子设备及存储介质，该方法包括：将人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号；将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号；将第一音频信号和第二音频信号进行叠加，得到第三音频信号；对第三音频信号进行压限处理，得到目标混音音频信号。通过对人声信号和伴奏信号进行能量压缩，使人声信号和伴奏信号在目标混音信号中的清晰度提高。

Description

音频信号处理方法、装置、电子设备及存储介质

技术领域

本申请涉及信号处理领域，尤其涉及一种音频信号处理方法、装置、电子设备及存储介质。

背景技术

唱歌软件通常需要通过混音器将一路人声信号和一路伴奏信号合并输出。由于唱歌软件输出的数字信号有位深限制，比如16bit位深的数字信号范围为[-32767，32768]，在将人声信号和伴奏信号合并后，得到的音频信号会超过位深限制。

目前通常采用压限器将合并的音频信号超过位深限制的部分进行压缩，以使合并的音频信号符合位深限制的要求。但这种方式会导致在被压缩的部分音频信号中，人声和伴奏的信号强度减小，音频信号的清晰度降低。

发明内容

本申请实施例提供了一种音频信号处理方法、装置、电子设备及存储介质，通过对人声信号中第一频带的音频信号进行能量压缩，以及对伴奏信号中第二频带的音频信号进行能量压缩，以使在输出的音频信号中，人声信号在第二频带的信号强度高于伴奏信号在第二频带的信号强度，伴奏信号在第一频带的信号强度高于人声信号在第一频带的信号强度，人声信号和伴奏信号在音频信号中的清晰度提高。

第一方面，本申请实施例提供了一种音频信号处理方法，该方法可包括：将人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号，所述第一频带为人声频率之外的频率范围；将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号，所述第二频带为人声的频率范围；将所述第一音频信号和所述第二音频信号进行叠加，得到第三音频信号；对所述第三音频信号进行压限处理，得到目标混音音频信号。

在一个可选的实现方式中，所述将人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号之前，所述方法还包括：确定所述人声信号的人声类型；将所述人声信号的人声类型对应的频率范围之外的频率范围，确定为第一频带。

在该实现方法中，通过人声信号的人声类型，确定人声信号中进行压缩的第一频带的频率范围，以使对针对不同的人声类型，进行在不同频带上对人声信号进行能量压缩。

在一个可选的实现方式中，在所述将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号之前，所述方法还包括：确定所述人声信号的人声类型；将所述人声类型对应的频率范围确定为所述第二频带。

在该实现方法中，将人声类型对应的频率范围确定为第二频带，以使伴奏信号在第二频带的频域上信号强度降低，进而在目标混音音频信号的第二频带上人声信号的信号强度大于伴奏信号的信号强度。

在一种可选的实现方式中，所述将所述人声信号中的第一频带的音频信号进行能量压缩，得到所述第一音频信号，包括：在保持所述人声信号中非所述第一频带的音频信号不变的情况下，将所述人声信号中的第一频带的音频信号进行能量压缩，得到所述第一音频信号。

在该实现方式中，通过将第一频带的音频信号进行压缩，保留非第一频带的音频信号，以使在人声信号中，非第一频带的音频信号的信号强度不变，第一频带的信号强度减小。

在一个可选的实现方式中，所述在保持所述人声信号中非所述第一频带的音频信号不变的情况下，将所述人声信号中的第一频带的音频信号进行能量压缩，得到所述第一音频信号，包括：将所述人声信号输入至第一滤波器，得到所述第一频带的音频信号；将所述人声信号输入至第二滤波器，得到非所述第一频带的音频信号；将所述第一频带的音频信号压缩，得到第四音频信号；将所述第四音频信号与非所述第一频带的音频信号叠加，得到所述第一音频信号。

在一个可选的实现方式中，所述将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号，包括：在保持所述伴奏信号中非所述第二频带的音频信号不变的情况下，将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号。

在该实现方式中，通过将第二频带的音频信号进行能量压缩，保留非第二频带的音频信号，以使在伴奏信号中，非第二频带的音频信号的信号强度不变，第二频带的信号强度减小。

在一个可选的实现方式中，所述在保持所述伴奏信号中非所述第二频带的音频信号不变的情况下，将伴奏信号中的第二频带的音频信号进行压缩，得到第二音频信号，包括：将所述伴奏信号输入至第三滤波器，得到所述第二频带的音频信号；将所述伴奏信号输入至第四滤波器，得到非所述第二频带的音频信号；将所述第二频带的音频信号压缩，得到第五音频信号；将所述第五音频信号与非所述第二频带的音频信号叠加，得到所述第二音频信号。

在一个可选的实现方式中，在所述将人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号之前，所述方法还包括：将所述人声信号和所述伴奏信号叠加，得到混合音频信号；根据压限阈值与所述混合音频信号的信号强度，确定所述第一压缩比例，所述第一压缩比例用于对第一频带的音频信号进行能量压缩；根据所述压限阈值与所述混合音频信号的信号强度，确定所述第二压缩比例，所述第二压缩比例用于对第二频带的音频信号进行能量压缩。

在一个可选的实现方式中，所述根据压限阈值与所述混合音频信号的信号强度，确定所述第一压缩比例，包括：在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到所述第一压缩比例；或者，在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到备选压缩比例；将所述人声信号的信号强度除以所述混合音频信号的信号强度，得到第一占比；将所述备选压缩比例乘以所述第一占比，得到所述第一压缩比例。

在一个可选的实现方式中，所述根据所述压限阈值与所述混合音频信号的信号强度，确定所述第二压缩比例，包括：在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到所述第二压缩比例；或者，在混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到备选压缩比例；将所述伴奏信号的信号强度除以所述混合音频信号的信号强度，得到第二占比；将所述备选压缩比例乘以所述第二占比，得到所述第二压缩比例。

在一个可选的实现方式中，所述对所述第三音频信号进行压限处理，得到目标混音音频信号，包括：将所述第三音频信号中超过所述压限阈值的信号强度设置为所述压限阈值，得到目标混音音频信号。

第二方面，本申请实施例提供了一种音频信号处理装置，该音频信号处理装置包括：第一压缩单元，用于将人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号，所述第一频带为人声频率之外的频率范围；第二压缩单元，用于将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号，所述第二频带为人声的频率范围；叠加单元，用于将所述第一音频信号和所述第二音频信息进行叠加，得到第三音频信号；压限单元，用于对所述第三音频信号进行压限处理，得到目标混音音频信号。

在一个可选的实现方式中，该音频信号处理装置还包括：确定单元，用于确定所述人声信号的人声类型；将所述人声信号的人声类型对应的频率范围之外的频率范围，确定为第一频带。

在一个可选的实现方式中，确定单元，还用于确定所述人声信号的人声类型；将所述人声类型对应的频率范围确定为所述第二频带。

在一个可选的实现方式中，第一压缩单元，具体用于：在保持所述人声信号中非所述第一频带的音频信号不变的情况下，将所述人声信号中的第一频带的音频信号进行能量压缩，得到所述第一音频信号。

在一个可选的实现方式中，第二压缩单元，具体用于：在保持所述伴奏信号中非所述第二频带的音频信号不变的情况下，将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号。

在一个可选的实现方式中，叠加单元，还用于将所述人声信号和所述伴奏信号叠加，得到音频信号；确定单元，还用于根据压限阈值与所述混合音频信号的信号强度，确定所述第一压缩比例，所述第一压缩比例用于对第一频带的音频信号进行能量压缩；确定单元，还用于根据所述压限阈值与所述混合音频信号的信号强度，确定所述第二压缩比例，所述第二压缩比例用于对第二频带的音频信号进行能量压缩。

在一个可选的实现方式中，确定单元具体用于：在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到所述第一压缩比例；或者，在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到备选压缩比例；将所述人声信号的信号强度除以所述混合音频信号的信号强度，得到第一占比；将所述备选压缩比例乘以所述第一占比，得到所述第一压缩比例。

在一个可选的实现方式中，确定单元具体用于：在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到所述第二压缩比例；或者，在混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到备选压缩比例；将所述伴奏信号的信号强度除以所述混合音频信号的信号强度，得到第二占比；将所述备选压缩比例乘以所述第二占比，得到所述第二压缩比例。

在一个可选的实现方式中，压限单元，具体用于将所述第三音频信号中超过所述压限阈值的信号强度设置为所述压限阈值，得到目标混音音频信号。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括接收器和发送器，还包括：处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如上述第一方面以及上述第一方面中可选的实现方式的方法。

第四方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述第一方面以及上述第一方面中可选的实现方式的方法，或如上述第二方面以及上述第二方面中可选的实现方式的方法。

第五方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如上述第一方面以及上述第一方面中可选的实现方式的方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频信号处理方法流程图；

图2为本申请实施例提供的另一种音频信号处理方法流程图；

图3为本申请实施例提供的一种音频信号处理装置的结构示意图；

图4为本申请实施例提供的一种带限动态压缩器的示意图；

图5为本申请实施例提供的一种带通动态压缩器的示意图；

图6为本申请实施例提供的另一种音频信号处理装置的结构示意图；

图7本申请实施例还提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。

本申请的说明书实施例和权利要求书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供了音频信号处理方法。为更清楚的描述本申请的方案，下面先介绍一些与音频信号处理相关的知识。

混音器是处理音频的一种装置，分为软件类型和硬件类型。由于原理不同，软件类型的混音器和硬件类型的混音器的应用也大不相同，前者主要用于音频处理，后者主要用于音响设置。软件类型的混音器，是将多个音频信号文件、线路输入音频信号混音后，合成为一个音频信号文件；硬件类型的混音器，是将各种音频信号通过机子内部电路，调节各分路音量，将所输入的音频信号混合起来输出。综上，软件类型的混音器的混音输入可以是数字音频信号和线路输入音频信号，输出则为数字音频文件，而硬件类型的混音器混音输入则为不同线路的模拟音频信号，输出依然为模拟信号。在本申请实施例中，音频信号处理方法应用于唱歌软件，因此本申请实施例中的混音器是软件类型的混音器。

带通滤波器(band-pass filter，BPF)是一个允许特定频段的信号通过同时屏蔽其他频段的设备。例如RLC振荡回路就是一个模拟带通滤波器。带限滤波器(band-rejectfilters，BRF)是指能通过大多数频率分量、但将某些范围的频率分量衰减到极低水平的滤波器，与带通滤波器的概念相对。

压限器(compressor/limiter)是压缩与限制器的简称。压缩器：是一种随着输入信号电平增大而本身增益减少的放大器。限制器：是输出电平到达一定值以后，不管输入电平怎样增加，其最大输出电平保持恒定的放大器。该最大输出电平是可以根据需要调节的。一般地来讲，压缩器与限制器多是结合在一起出现，有压缩功能的地方同时也就会有限制功能。

射频(radio frequency，RF)的信号强度有四种测量单位，分别为毫瓦(milliwatt，mw)，分贝毫瓦(decibel relative to one milliwatt，dBm)，接收的信号强度指示(received signal strength indicator，RSSI)以及百分比。所有的测量单位都是两两相关的，而且可以相互转换。通常衡量RF能量都是以MW为单位进行测量。但由于信号强度不是呈线性衰减，而是符合平方反比定律(inverse square law),例如当距离增加两倍的情况下，接收到的信号强度衰减为原来的四分之一。这也是为什么引入对数的测量方式的原因之一。分贝，就是对信号强度的对数测量方式。将信号强度的mw值转换为10为底的对数，得到的值较小，因此再将结果乘以10。

音频的位深度，也叫采样位深或位深限制，音频的位深度决定音频信号的信号强度的动态范围。音频信号的位深度通常为16比特(bit)，可记录的信号强度的动态范围为[-32768，32767]，单位为毫瓦，约为96分贝。每一个比特的位深大约可记录6分贝的音频，例如20bit的位深可记录的音频信号的动态范围约为120dB。

图1为本申请实施例提供的一种音频信号处理方法流程图。如图1所示，该方法可包括：

101、音频信号处理装置将人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号。

第一频带为人声频率之外的频率范围。需要说明的是，采集到的人声信号通常混杂伴奏和噪音，会包括非人声频率的音频信号。第一频带的音频信号不包括人声频率部分的音频信号。人声频率在人的声音频率范围内，人的声音频率范围为300赫兹至3.4千赫兹。音频信号处理装置通过人声信号的人声类型，确定人声频率的范围。音频信号处理装置通过将人声信号中第一频带的音频信号进行能量压缩，以使人声信号中，不包括人声的音频信号的信号强度减小。

在一种可选的实现方式中，音频信号处理装置在保持人声信号中非第一频带的音频信号不变的情况下，将人声信号中的第一频带的音频信号进行能量压缩。在该实现方式中，通过将第一频带的音频信号进行能量压缩，保留非第一频带的音频信号，以使在人声信号中，非第一频带的音频信号的信号强度不变，第一频带的信号强度减小。

在另一种可选的实现方式中，音频信号处理装置将人声信号中非第一频带的音频信号进行优化，优化的方式包括能量增强或降噪中的至少一个，音频信号处理装置还对人声信号中第一频带的音频信号进行能量压缩处理。在该实现方式中，通过对第一频带的音频信号进行能量压缩，对非第一频带的音频信号进行优化，以使在人声信号中，第一频带的音频信号的信号强度降低，非第一频带的音频信号的信号强度增加或信噪比降低。

102、音频信号处理装置将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号。

第二频带为人声的频率范围。需要说明的是，由于伴奏的乐器，包括低音的乐器，例如大提琴，贝斯，也包括全频段的乐器，例如钢琴和打击乐器，所以伴奏信号的频率分布在全频域上。第二频带的音频信号包括人声频率部分的音频信号。音频信号处理装置通过将伴奏信号中第二频带的音频信号进行压缩，以使伴奏信号中，包括人声的音频信号的信号强度减小。

在一种可选的实现方式中，音频信号处理装置在保持伴奏信号中非第二频带的音频信号不变的情况下，将伴奏信号中的第二频带的音频信号进行能量压缩。在该实现方式中，通过将第二频带的音频信号进行能量压缩，保留非第二频带的音频信号，以使在伴奏信号中，非第二频带的音频信号的信号强度不变，第二频带的信号强度减小。

在另一种可选的实现方式中，音频信号处理装置将伴奏信号中非第二频带的音频信号进行优化，优化的方式包括增强或降噪中的至少一个。音频信号处理装置还对伴奏信号中第二频带的音频信号进行能量压缩处理。在该实现方式中，通过对第二频带的音频信号进行能量压缩，对非第二频带的音频信号进行优化，以使在伴奏信号中，第二频带的音频信号的信号强度降低，非第二频带的音频信号的信号强度增加或信噪比降低。

103、音频信号处理装置将第一音频信号和第二音频信号进行叠加，得到第三音频信号。

可选的，音频信号处理装置通过混音器将第一音频信号和第二音频信号进行叠加。需要说明的是，混音器也称为加法器。在另一些实施例中，音频处理工具还可以通过其他合成软件将第一音频信号和第二音频信号进行叠加。

104、音频信号处理装置对第三音频信号进行压限处理，得到目标混音音频信号。

由于音频信号处理装置将第一音频信号和第二音频信号进行叠加之后，得到的第三音频信号可能会超过位深限制的信号强度范围，因此，音频信号处理装置对叠加得到的第三音频信号进行压限处理，确保目标混音音频信号在位深限制的信号强度范围内。压限处理包括压缩或限制中的至少一种。

在一种可选的实现方式中，音频信号处理装置对第三音频信号进行能量压缩。音频信号处理装置对第三音频信号进行能量压缩，具体为：音频信号处理装置在全频带上按照比例对第三音频信号进行能量压缩；或，音频信号处理装置在部分频带上按照比例对第三音频信号进行能量压缩。音频信号处理装置通过对第三音频信号进行压缩，以使第三音频信号的信号强度在位深限制的信号强度范围内。

在另一种可选的实现方式中，音频信号处理装置对第三音频信号进行限制，具体为音频信号处理装置将第三音频信号超过压限阈值的信号强度设置为压限阈值。压限阈值通过位深限制的信号强度范围确定。压限阈值通过位深限制的信号强度范围中的最大绝对值确定，压限阈值小于或等于最大绝对值。举例说明，在位深限制的信号强度范围为[-32768，32767]，单位为MW的情况下，信号强度范围中的最大绝对值为|-32768|＝32768，压限阈值小于或等于32768。压限阈值可以取值为32000。

本申请实施例，通过对人声信号中第一频带的音频信号进行能量压缩，以及对伴奏信号中第二频带的音频信号进行能量压缩，以使在输出的音频信号中，人声信号在第二频带的信号强度高于伴奏信号在第二频带的信号强度，伴奏信号在第一频带的信号强度高于人声信号在第一频带的信号强度。这可以认为是一种避让方案，人声信号中的非人声频段信号避让伴奏信号，伴奏信号中的人声频段信号避让人声信号，从而使得人声信号和伴奏信号在音频信号中的清晰度提高。

图2为本申请实施例提供的另一种音频信号处理方法流程图。如图2所示的方法对图1所示的方法进行细化和完善，该方法可包括：

201、音频信号处理装置确定人声信号的人声类型。

人的声音频率范围通常在300赫兹至3.4千赫兹之间。表1为一种人声类型的频率划分表，如表1所示，人声类型不同，人声的频率范围不同。人声类型可以是从预先记录的歌曲信息中获得，例如伴奏信息中记录的原演唱者的人声类型等等。若预先未记录人声类型，则可以根据人声频率的最大值最小值确定第一频带的频率范围。

需要说明的是，人声类型可以是一种类型，也可以是至少两种人声类型。进一步的，人声类型可根据音域进行再次划分。

人声类型	音域	频率范围
			男高音(tenor)	c-c2	130.8Hz-523.25Hz
男中音(baritone)	A-a1	110.0Hz-440.0Hz
			男低音(bass)	F-f1	87.31Hz-349.23Hz
女高音(soprano)	C4-C6	261.63Hz-1046.5Hz
			女中音(mezzo-soprano)	A3-A5	220Hz-880Hz
女低音(contralto)	F3-F5	174.61Hz-698.46Hz

表1

202、音频信号处理装置将所述人声信号的人声类型对应的频率范围之外的频率范围，确定为第一频带。

音频信号处理装置根据确人声信号的人声类型，确定人声类型对应的频率范围的起始频率Fstar，和人声类型对应的频率范围的结束频率Fstop，音频信号处理装置再将频域上人声类型对应的频率范围之外的频域作为第一频带，以使人声信号在非人声部分的频带中，信号强度减小，提高人声信号中人声的强度占比，减少人声信号中非人声部分的强度占比。

举例说明，在人声信号的人声类型为男高音的情况下，起始频率Fstar为130.8赫兹，结束频率Fstop为523.25赫兹。人声类型所属的频带为[130.8，523.25]，单位为赫兹，第一频带为频域上除[130.8，523.25]之外的频带。

203、音频信号处理装置在频域上将将人声类型对应的频率范围确定为第二频带。

音频信号处理装置将人声类型对应的频率范围确定为第二频带，第二频域也为频域上除第一频带之外的部分。需要说明的是，第一频带可包括起始频率Fstar，或结束频率Fstop中的至少一个，也可以不包括起始频率Fstar和结束频率Fstop。第二频带可包括起始频率Fstar，或结束频率Fstop中的至少一个，也可以不包括起始频率Fstar和结束频率Fstop。

需要说明的是，由于伴奏的乐器，包括低音的乐器，例如大提琴，贝斯，也包括全频段的乐器，例如钢琴和打击乐器，所以伴奏信号的频率分布在全频域上。音频信号处理装置将人声类型对应的频率范围作为第二频带，可在保留第一频带的伴奏信号的情况下，对第二频带的伴奏信号进行能量压缩，以使在目标混音音频信号中，第二频带的伴奏信号的信号强度小于第二频带的人声信号的伴奏强度。

204、音频信号处理装置确定第一压缩比例和第二压缩比例。

在音频信号处理装置确定第一频带的音频信号的压缩比例和第二频带的音频信号的压缩比例之前，音频信号处理装置将人声信号和伴奏信号叠加，得到混合音频信号。

音频信号处理处理装置根据压限阈值与混合音频信号在第一频带中的信号强度确定第一压缩比例，第一压缩比例用于对第一频带的音频信号进行能量压缩。音频信号处理处理装置根据压限阈值与混合音频信号在第二频带中的信号强度确定第二压缩比例，第二压缩比例用于对第二频带的音频信号进行能量压缩。

压限阈值通过位深限制的信号强度范围确定。压限阈值通过位深限制的信号强度范围中的最大绝对值确定，压限阈值小于或等于最大绝对值。举例说明，在位深限制的信号强度范围为[-32768，32767]，单位为MW的情况下，信号强度范围中的最大绝对值为|-32768|＝32768，压限阈值小于或等于32768。压限阈值可以取值为32000。

音频信号处理装置根据压限阈值与混合音频信号在第一频带中的信号强度，确定第一压缩比例，具体为：音频信号处理装置在混合音频信号的强度大于压限阈值的情况下，在混合音频信号的信号强度大于压限阈值的情况下，将混合音频信号的信号强度与压限阈值的差值除以混合音频信号的信号强度，得到第一压缩比例；或者音频信号处理装置在混合音频信号的信号强度大于压限阈值的情况下，将混合音频信号的信号强度与压限阈值的差值除以混合音频信号的信号强度，得到备选压缩比例，再将人声信号的信号强度除以混合音频信号的信号强度，得到第一占比，最后将备选压缩比例乘以第一占比，得到第一压缩比例。音频信号处理装置在混合音频信号的强度大于压限阈值的情况下，通过上述方式确定第一压缩比例，以确保人声信号中第一频带的信号得到充分压缩。

音频信号处理装置根据压限阈值与混合音频信号在第二频带中的信号强度，确定第二压缩比例，具体为：音频信号处理装置在混合音频信号的信号强度大于压限阈值的情况下，将混合音频信号的信号强度与压限阈值的差值除以混合音频信号的信号强度，得到第二压缩比例；或者音频信号处理装置在混合音频信号的信号强度大于压限阈值的情况下，将混合音频信号的信号强度与压限阈值的差值除以混合音频信号的信号强度，得到备选压缩比例，再将伴奏信号的信号强度除以混合音频信号的信号强度，得到第二占比，最后将备选压缩比例乘以第二占比，得到第二压缩比例。音频信号处理装置在混合音频信号的强度大于压限阈值的情况下，通过上述方式确定第二压缩比例，以确保伴奏信号中第二频带的信号得到充分压缩。

音频信号处理装置在确定第一压缩比例和第二压缩比例的过程中，若不使用第一占比和第二占比，则第一压缩比例和第二压缩比例相同，音频信号处理装置可减少计算量，提高压缩的速率。若使用第一占比和第二占比，则可结合人声信号和伴奏信号在混合音频信号中的占比，确定第一压缩比例和第二压缩比例，能更有效的压缩人声信号和伴奏信号。

其中，在混合音频信号的信号强度不大于压限阈值的情况下，第一压缩比例和第二压缩比例为1，音频信号处理装置不对第一频带的音频信号和第二频带的音频信号进行能量压缩。

需要说明的是，本实施例中的所有音频信号的信号强度，例如混合音频信号，在不同时刻的信号强度不相同。音频信号处理装置根据不同时刻的混合音频信号的信号强度，计算不同时刻的第一压缩比例和不同时刻的第二压缩比例。音频信号处理装置通过不同时刻的第一压缩比例压缩不同时刻的第一频带的音频信号的信号强度，以及通过不同时刻的第二压缩比例压缩不同时刻的第二频带的音频信号的信号强度，以实现对人声信号和伴奏信号进行动态压缩。

混合音频信号可以是连续的模拟信号，混合音频信号在一个时刻的信号强度可以是混合音频信号在该时刻的功率值。可选的，音频信号处理装置将混合音频信号进行线性量化，并将离散的混合音频信号划分成多个时间段。在一些实施例中，混合音频信号在一个时刻的信号强度，为该时刻所属时间段的线性量化值的峰值，以减少用于计算压缩比例的工作量。在另一些实施例中，混合音频信号在一个时刻的信号强度，为该时刻所属时间段的线性量化值的有效值(root mean square，RMS)。通过有效值能更准确的评估混合音频信号的能量，进而确定压缩比例。

205、音频信号处理装置根据第一压缩比例将人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号。

在一种可选的实现方式中，音频信号处理装置在保持人声信号中非第一频带的音频信号不变的情况下，根据第一压缩比例将人声信号中的第一频带的音频信号进行能量压缩。在该实现方式中，通过将第一频带的音频信号进行能量压缩，保留非第一频带的音频信号，以使在人声信号中，非第一频带的音频信号的信号强度不变，第一频带的信号强度减小。

音频信号处理装置在保持人声信号中非第一频带的音频信号不变的情况下，根据第一压缩比例将人声信号中的第一频带的音频信号进行能量压缩，具体为：音频信号处理装置将人声信号输入至第一滤波器，得到第一频带的音频信号。第一滤波器可以是带通滤波器，也可以是带限滤波器。在第一滤波器为带通滤波器的情况下，第一滤波器的通带为第一频带。在第一滤波器为带阻滤波器的情况下，第一滤波器的阻带为频域上非第一频带的频带。音频信号处理装置将人声信号输入至第二滤波器，得到非第一频带的音频信号。音频信号处理装置按照第一压缩比例对第一频带的音频信号进行能量压缩，得到第四音频信号。音频信号处理装置最后将第四音频信号与非第一频带的音频信号叠加，得到第一音频信号。

在另一种可选的实现方式中，音频信号处理装置将人声信号中非第一频带的音频信号进行优化，优化的方式包括增强或降噪中的至少一个，音频信号处理装置还对人声信号中第一频带的音频信号进行压缩处理。在该实现方式中，通过对第一频带的音频信号进行能量压缩，对非第一频带的音频信号进行优化，以使在人声信号中，第一频带的音频信号的信号强度降低，非第一频带的音频信号的信号强度增加或信噪比降低。

206、音频信号处理装置根据第二压缩比例将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号。

在一种可选的实现方式中，音频信号处理装置在保持伴奏信号中非第二频带的音频信号不变的情况下，根据第二压缩比例将伴奏信号中的第二频带的音频信号进行能量压缩。在该实现方式中，通过将第二频带的音频信号进行能量压缩，保留非第二频带的音频信号，以使在伴奏信号中，非第二频带的音频信号的信号强度不变，第二频带的信号强度减小。

音频信号处理装置在保持伴奏信号中非第二频带的音频信号不变的情况下，根据第二压缩比例将伴奏信号中的第二频带的音频信号进行能量压缩，具体为：音频信号处理装置将伴奏信号输入至第三滤波器，得到第二频带的音频信号。第三滤波器可以是带通滤波器，也可以是带限滤波器。在第三滤波器为带通滤波器的情况下，第三滤波器的通带为第二频带。在第三滤波器为带阻滤波器的情况下，第三滤波器的阻带为频域上非第二频带的频带。音频信号处理装置将伴奏信号输入至第四滤波器，得到非第二频带的音频信号。音频信号处理装置按照第二压缩比例对第二频带的音频信号进行能量压缩，得到第五音频信号。音频信号处理装置最后将第五音频信号与非第二频带的音频信号叠加，得到第二音频信号。

在另一种可选的实现方式中，音频信号处理装置将伴奏信号中非第二频带的音频信号进行优化，优化的方式包括增强或降噪中的至少一个，音频信号处理装置还对伴奏信号中第二频带的音频信号进行压缩处理。在该实现方式中，通过对第二频带的音频信号进行能量压缩，对非第二频带的音频信号进行优化，以使在伴奏信号中，第二频带的音频信号的信号强度降低，非第二频带的音频信号的信号强度增加或信噪比降低。

207、音频信号处理装置将第一音频信号和第二音频信号进行叠加，得到第三音频信号。

208、音频信号处理装置对第三音频信号进行压限处理，得到目标混音音频信号。

在一种可选的实现方式中，音频信号处理装置对第三音频信号进行能量压缩。音频信号处理装置对第三音频信号进行能量压缩，具体为：音频信号处理装置在全频带上按照比例对第三音频信号进行能量压缩；或，音频信号处理装置在部分频带上按照比例对第三音频信号进行能量压缩。音频信号处理装置通过对第三音频信号进行能量压缩，以使第三音频信号的信号强度在位深限制的信号强度范围内。

在另一种可选的实现方式中，音频信号处理装置对第三音频信号进行限制，具体为音频信号处理装置将第三音频信号超过压限阈值的信号强度设置为压限阈值。

本申请实施例，通过对人声信号中第一频带的音频信号进行能量压缩，以及对伴奏信号中第二频带的音频信号进行能量压缩，以使在目标混音音频信号中，人声信号在第二频带的信号强度高于伴奏信号在第二频带的信号强度，伴奏信号在第一频带的信号强度高于人声信号在第一频带的信号强度，人声信号和伴奏信号在音频信号中的清晰度提高。

图3为本实施例提供的一种音频信号处理装置的结构示意图。如图3所示，音频处理装置可包括带限旁路压缩器，第一加法器，溢出评估控制器，带通旁路压缩器，第二加法器和压限器。

其中，第一加法器将人声信号和伴奏信号进行叠加，得到混合音频信号。第一加法器将混合音频信号输入至溢出评估控制器。

溢出评估控制器，根据混合音频信号的信号强度和压限阈值，确定第一压缩比例和第二压缩比例。溢出评估控制器并将第一压缩比例发送至带限旁路动态压缩器，将第二压缩比例发送至带通旁路动态压缩器。

带限旁路动态压缩器(band reject sidechain dynamic compressor)，根据第一压缩比例，将人声信号中第一频带的音频信号进行能量压缩，得到第一音频信号。如图4所示，为一种带限动态压缩器的示意图。在如图4所示的带限动态压缩器，包括第一带通滤波器，第一带限滤波器，第一旁路动态压缩器和第三加法器。第一带限滤波器对应上述实施例中的一种第一滤波器，第一带通滤波器对应上述实施例中的一种第二滤波器。在人声信号输入至第一带通滤波器之后，得到非第一频段的音频信号。在人声信号输入至第一带限滤波器之后，得到第一频带的音频信号。第一旁路动态压缩器根据溢出评估控制器发送的第一压缩比例，对第一频带的音频信号进行能量压缩，得到第四音频信号。第三加法器将第四音频信号与非第一频带的音频信号进行叠加，得到第一音频信号。

带通旁路动态压缩器(band reject sidechain dynamic compressor)，根据第二压缩比例，将伴奏信号中第二频带的音频信号进行能量压缩，得到第二音频信号。如图5所示，为一种带通动态压缩器的示意图。在如图5所示的带通旁路动态压缩器，包括第二带通滤波器，第二带限滤波器，第二旁路动态压缩器和第四加法器。第二带限滤波器对应上述实施例中的一种第四滤波器，第二带通滤波器对应上述实施例中的一种第三滤波器。在伴奏信号输入至第二带通滤波器之后，得到第二频段的音频信号。在伴奏信号输入至第二带限滤波器之后，得到非第二频带的音频信号。第二旁路动态压缩器根据溢出评估控制器发送的第二压缩比例，对第二频带的音频信号进行压缩，得到第五音频信号。第四加法器将第五音频信号与非第二频带的音频信号进行叠加，得到第二音频信号。

第二加法器，用于将带限旁路动态压缩器输出的第一音频信号，与带通旁路动态压缩器输出的第二音频信号进行叠加，得到第三音频信号。

压限器，用于将第三音频信号进行压限处理，得到目标音频混音信号。

基于上述音频信号处理方法实施例的描述，本申请实施例还公开了一种音频信号处理装置。该音频信号处理装置可以执行图2至图3中音频信号处理装置执行的方法。请参见图6，音频信号处理装置可以运行如下模块：

第一压缩单元601，用于将人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号，第一频带为人声频率之外的频率范围。第一压缩单元601可为上述实施例中的带限旁路压缩器。

第二压缩单元602，用于将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号，第二频带为人声的频率范围。第二压缩单元602可为上述实施例中的带通旁路压缩器。

叠加单元603，用于将第一音频信号和第二音频信息进行叠加，得到第三音频信号。叠加单元603可为上述实施例中的第二加法器。

压限单元604，用于对第三音频信号进行压限处理，得到目标混音音频信号。压限单元604可为上述实施例中的压限器。

本申请实施例，通过对人声信号中第一频带的音频信号进行能量压缩，以及对伴奏信号中第二频带的音频信号进行能量压缩，以使在输出的音频信号中，人声信号在第二频带的信号强度高于伴奏信号在第二频带的信号强度，伴奏信号在第一频带的信号强度高于人声信号在第一频带的信号强度，人声信号和伴奏信号在音频信号中的清晰度提高。

在一个可选的实现方式中，该音频信号处理装置还包括：确定单元605，用于确定所述人声信号的人声类型；将所述人声信号的人声类型对应的频率范围之外的频率范围，确定为第一频带。

在一个可选的实现方式中，确定单元605，还用于确定所述人声信号的人声类型；将所述人声类型对应的频率范围确定为所述第二频带。

在一个可选的实现方式中，第一压缩单元601，具体用于：在保持所述人声信号中非所述第一频带的音频信号不变的情况下，将所述人声信号中的第一频带的音频信号进行能量压缩，得到所述第一音频信号。

在一个可选的实现方式中，第二压缩单元602，具体用于：在保持所述伴奏信号中非所述第二频带的音频信号不变的情况下，将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号。

在一个可选的实现方式中，叠加单元603，还用于将人声信号和伴奏信号叠加，得到混合音频信号；确定单元605，还用于根据压限阈值与所述混合音频信号的信号强度，确定所述第一压缩比例，所述第一压缩比例用于对第一频带的音频信号进行能量压缩；确定单元，还用于根据所述压限阈值与所述混合音频信号的信号强度，确定所述第二压缩比例，所述第二压缩比例用于对第二频带的音频信号进行能量压缩。

在一个可选的实现方式中，确定单元605，具体用于：在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到所述第一压缩比例；或者，在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到备选压缩比例；将所述人声信号的信号强度除以所述混合音频信号的信号强度，得到第一占比；将所述备选压缩比例乘以所述第一占比，得到所述第一压缩比例。

在一个可选的实现方式中，确定单元605，具体用于：在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到所述第二压缩比例；或者，在混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到备选压缩比例；将所述伴奏信号的信号强度除以所述混合音频信号的信号强度，得到第二占比；将所述备选压缩比例乘以所述第二占比，得到所述第二压缩比例。

在一个可选的实现方式中，压限单元604，具体用于将第三音频信号中超过压限阈值的信号强度设置为压限阈值，得到目标混音音频信号。

应理解以上音频信号处理装置以及分类模型训练装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。例如，以上各个模块可以为单独设立的处理元件，也可以集成同一个芯片中实现，此外，也可以以程序代码的形式存储于控制器的存储元件中，由处理器的某一个处理元件调用并执行以上各个模块的功能。此外各个模块可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。该处理元件可以是通用处理器，例如中央处理器(英文：central processing unit，简称：CPU)，还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(英文：application-specific integrated circuit，简称：ASIC)，或，一个或多个微处理器(英文：digital signal processor，简称：DSP)，或，一个或者多个现场可编程门阵列(英文：field-programmable gate array，简称：FPGA)等。

图7是本申请实施例提供的一种电子设备结构示意图，该电子设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在电子设备700上执行存储介质730中的一系列指令操作。电子设备700可以为本申请提供的音频信号处理装置。

电子设备700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口756，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由音频信号处理装置所执行的步骤可以基于该图7所示的电子设备结构。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的音频信号处理装置所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图2和图3所对应实施例中对音频信号处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

在本申请的实施例中提供另一种计算机程序产品，上述计算机程序产品包括程序指令，当处理器执行程序指令时，能够执行前文图2和图3所对应实施例中对音频信号处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频信号处理方法，其特征在于，包括：

将人声信号和伴奏信号叠加，得到混合音频信号；

根据压限阈值与所述混合音频信号的信号强度，确定第一压缩比例，所述第一压缩比例用于对第一频带的音频信号进行能量压缩；

根据所述压限阈值与所述混合音频信号的信号强度，确定第二压缩比例，所述第二压缩比例用于对第二频带的音频信号进行能量压缩；

将所述人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号，所述第一频带为人声频率之外的频率范围；

将所述伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号，所述第二频带为人声的频率范围；

将所述第一音频信号和所述第二音频信号进行叠加，得到第三音频信号；

对所述第三音频信号进行压限处理，得到目标混音音频信号。

2.根据权利要求1所述的方法，其特征在于，在所述将人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号之前，所述方法还包括：

确定所述人声信号的人声类型；

将所述人声信号的人声类型对应的频率范围之外的频率范围，确定为第一频带。

3.根据权利要求1所述的方法，其特征在于，在所述将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号之前，所述方法还包括：

确定所述人声信号的人声类型；

将所述人声类型对应的频率范围确定为所述第二频带。

4.根据权利要求1所述的方法，其特征在于，所述将所述人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号，包括：

在保持所述人声信号中非所述第一频带的音频信号不变的情况下，将所述人声信号中的第一频带的音频信号进行能量压缩，得到所述第一音频信号。

5.根据权利要求1所述的方法，其特征在于，所述将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号，包括：

在保持所述伴奏信号中非所述第二频带的音频信号不变的情况下，将伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号。

6.根据权利要求1所述的方法，其特征在于，所述根据压限阈值与所述混合音频信号的信号强度，确定所述第一压缩比例，包括：

在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到所述第一压缩比例；或者，

在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到备选压缩比例；将所述人声信号的信号强度除以所述混合音频信号的信号强度，得到第一占比；将所述备选压缩比例乘以所述第一占比，得到所述第一压缩比例。

7.根据权利要求1所述的方法，其特征在于，所述根据所述压限阈值与所述混合音频信号的信号强度，确定所述第二压缩比例，包括：

在所述混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到所述第二压缩比例；或者，

在混合音频信号的信号强度大于压限阈值的情况下，将所述混合音频信号的信号强度与所述压限阈值的差值除以所述混合音频信号的信号强度，得到备选压缩比例；将所述伴奏信号的信号强度除以所述混合音频信号的信号强度，得到第二占比；将所述备选压缩比例乘以所述第二占比，得到所述第二压缩比例。

8.根据权利要求1-7中任一所述的方法，其特征在于，所述对所述第三音频信号进行压限处理，得到目标混音音频信号，包括：

将所述第三音频信号中信号强度超过压限阈值的音频信号的信号强度设置为所述压限阈值，得到所述目标混音音频信号。

9.一种音频信号处理装置，其特征在于，包括：

第一压缩单元，用于将人声信号和伴奏信号叠加，得到混合音频信号；根据压限阈值与所述混合音频信号的信号强度，确定第一压缩比例，所述第一压缩比例用于对第一频带的音频信号进行能量压缩；根据所述压限阈值与所述混合音频信号的信号强度，确定第二压缩比例，所述第二压缩比例用于对第二频带的音频信号进行能量压缩；将所述人声信号中的第一频带的音频信号进行能量压缩，得到第一音频信号，所述第一频带为人声频率之外的频率范围；

第二压缩单元，用于将所述伴奏信号中的第二频带的音频信号进行能量压缩，得到第二音频信号，所述第二频带为人声的频率范围；

叠加单元，用于将所述第一音频信号和所述第二音频信号进行叠加，得到第三音频信号；

压限单元，用于对所述第三音频信号进行压限处理，得到目标混音音频信号。

10.一种电子设备，包括接收器和发送器，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1至8任一项所述的音频信号处理方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1至8任一项所述的音频信号处理方法。