CN115966214A

CN115966214A - 音频处理方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN115966214A
Application number: CN202111188506.6A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2023-04-14

Abstract

本发明实施例公开了一种音频处理方法、装置、电子设备和计算机可读存储介质；本发明实施例在获取待处理音频信号后，对待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值，然后，根据内容听觉感知能量值和背景听觉感知能量值，确定待处理音频信号的信号增益值，然后，基于信号增益值，分别对内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号，将调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号；该方案可以提升音频处理的准确性。

Description

音频处理方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种音频处理方法、装置、电子设备和计算机可读存储介质。

背景技术

近年来，随着互联网技术的飞速发展，音频的应用的也越来越广泛，在音频直播或录制过程中，通常会在人声或者内容声音中添加一些背景音乐。但是背景音乐的音量调整不当往往可能会对人声或者内容声音造成影响，因此，需要对音频信号进行处理。现有的音频处理方法往往是通过基于音频信号(声音信号)的包络曲线进行调整，从而实现音量的自动调节。

在对现有技术的研究和实践过程中，本发明的发明人发现由于人耳对不同频带的声音敏感差异性较大，采用的音频信号的包络曲线并不能反映人耳的真实听感，从而使得调整后音频信号依然存在音量不和谐的情况，因此，导致音频处理的准确性大大降低。

发明内容

本发明实施例提供一种音频处理方法、装置、电子设备和计算机可读存储介质，可以提高音频处理的准确性。

一种音频处理方法，包括：

获取待处理音频信号，所述待处理音频信号包括内容音频信号和背景音频信号；

对所述待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到所述内容音频信号对应的内容听觉感知能量值和所述背景音频信号对应的背景听觉感知能量值；

根据所述内容听觉感知能量值和背景听觉感知能量值，确定所述待处理音频信号的信号增益值；

基于所述信号增益值，分别对所述内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号；

将所述调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号。

相应的，本发明实施例提供一种音频处理装置，包括：

获取单元，用于获取待处理音频信号，所述待处理音频信号包括内容音频信号和背景音频信号；

分帧单元，用于对所述待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到所述内容音频信号对应的内容听觉感知能量值和所述背景音频信号对应的背景听觉感知能量值；

确定单元，用于根据所述内容听觉感知能量值和背景听觉感知能量值，确定所述待处理音频信号的信号增益值；

调整单元，用于基于所述信号增益值，分别对所述内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号；

混音单元，用于将所述调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号。

可选的，在一些实施例中，所述确定单元，具体可以用于分别对所述内容听觉感知能量值和背景听觉感知能量值进行平滑处理；根据平滑后内容听觉感知能量值和平滑后背景听觉感知能量值，确定所述待处理音频信号的信号增益值。

可选的，在一些实施例中，所述确定单元，具体可以用于在所述内容听觉感知能量值中筛选出第一帧内容音频信号对应的基础内容听觉感知能量值，并在所述背景听觉感知能量值中筛选出第一帧背景音频信号对应的基础背景听觉感知能量值；根据所述基础内容听觉感知能量值，对所述内容听觉感知能量值中除所述基础内容听觉感知能量以外的其他内容听觉感知能量值进行平滑处理，得到平滑后内容听觉感知能量值；基于所述基础背景听觉感知能量值，对所述背景听觉感知能量值中除所述基础背景听觉感知能量值以外的其他背景听觉感知能量值进行平滑处理，得到平滑后背景听觉感知能量值。

可选的，在一些实施例中，所述确定单元，具体可以用于在所述内容听觉感知能量值中筛选出所述基础内容听觉感知能量值的下一帧内容音频信号对应的目标内容听觉感知能量值；计算所述目标内容听觉感能量值与基础内容听觉感知能量值的能量值比值，得到第一能量值比值；基于所述第一能量值比值，对所述目标内容听觉感知能量值进行平滑处理，得到平滑后目标内容听觉感知能量；将所述平滑后目标内容听觉感知能量值作为所述基础内容听觉感知能量值；返回执行所述在所述内容听觉感知能量值中筛选出所述基础内容听觉感知能量值的下一帧内容音频信号对应的目标内容听觉感知能量值的步骤，直至所述内容听觉感知能量值中除所述基础内容听觉感知能量值以外的其他内容听觉感知能量值全部平滑处理为止，得到平滑后内容听觉感知能量值。

可选的，在一些实施例中，所述确定单元，具体可以用于将所述第一能量值比值与预设比值阈值进行对比，并基于对比结果，在预设平滑系数中筛选出目标平滑系数；基于所述目标平滑系数，分别对所述基础内容听觉感知能量值和目标内容听觉感知能量值进行加权；将加权后基础内容听觉感知能量值和加权后目标内容听觉感知能量值进行融合，得到平滑后目标内容听觉感知能量值。

可选的，在一些实施例中，所述确定单元，具体可以用于获取所述内容音频信号对应的预设内容听觉感知能量值和所述背景音频信号对应的预设背景听觉感知能量值；根据所述平滑后内容听觉感知能量值和预设内容听觉感知能量值，确定所述内容音频信号对应的内容信号增益值；基于所述平滑后背景听觉感知能量值和预设背景听觉感知能量值，确定所述背景音频信号对应的背景信号增益值；所述基于所述信号增益值，分别对所述内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号，包括：采用所述内容信号增益值对平滑后内容听觉感知能量值进行增益调整，得到调整内容音频信号，并采用所述背景信号增益对平滑后背景听觉感知能量值进行增益调整，得到调整后背景音频信号。

可选的，在一些实施例中，所述确定单元，具体可以用于计算所述平滑后内容听觉感知能量值与预设内容听觉感知能量值之间的能量值比值，得到第二能量值比值；获取所述内容音频信号对应的预设信号增益阈值，并将所述第二能量值比值与预设信号增益阈值进行对比；基于对比结果，在第二能量值比值和预设信号增益阈值中筛选出所述内容音频信号对应的内容信号增益值。

可选的，在一些实施例中，所述混音单元，具体可以用于根据所述内容信号增益值和背景信号增益值，对所述调整后内容音频信号和调整后背景音频信号进行混音，得到初始混合音频信号；对所述初始混合音频信号的样点幅值进行调整，得到混合音频信号。

可选的，在一些实施例中，所述混音单元，具体可以用于根据所述内容信号增益值和背景信号增益值，确定混音加权系数；基于所述混音加权系数，对所述调整后内容音频信号和调整后背景音频信号进行加权；将加权后内容音频信号和加权后背景音频信号进行融合，得到初始混合音频信号。

可选的，在一些实施例中，所述混音单元，具体可以用于获取所述初始混合音频信号中当前帧音频信号的的样点幅值；当所述样点幅值超过预设样点幅值阈值时，对当前帧音频信号进行衰减，使得衰减后当前帧音获取所述初始混合音频信号中当前帧音频信号的样点幅值；当所述样点幅值超过预设样点幅值阈值时，对当前帧音频信号进行衰减，使得衰减后当前帧音频信号未超过所述预设样点幅值阈值；返回执行所述获取所述初始混合音频信号中当前帧音频信号的样点幅值步骤，直至所述初始混合音频信号中每一音频帧信号的样点幅值都未超过预设样点幅值阈值为止，得到混合音频信号。

可选的，在一些实施例中，所述混音单元，具体可以用于计算所述样点幅值与预设样点幅值阈值的幅值比值，得到所述当前帧音频信号的衰减增益值；将所述当前帧音频信号划分为预设数量的子帧音频信号，并根据所述衰减增益值，计算每一子帧音频信号的目标衰减增益值；基于所述目标衰减增益值，对所述子帧音频信号进行衰减处理，使得衰减后当前帧音频信号未超过所述预设样点幅值阈值。

可选的，在一些实施例中，所述分帧单元，具体可以用于在每一帧音频信号中识别出每一频点的频点值，并计算每一帧音频信号中频点的功率谱；根据所述频点值，确定所述频点的感知加权系数，并基于所述感知加权系数，对所述功率谱进行加权；将每一帧内容音频信号中频点的加权后功率谱进行融合，得到每一内容帧音频信号的内容听觉感知能量值，并将每一帧背景音频信号中频点的加权后功率谱进行融合，得到每一帧背景音频信号的背景听觉感知能量值。

可选的，在一些实施例中，所述分帧单元，具体可以用于获取所述音频信号的等响曲线信息，并在所述等响曲线信息中提取出所述频点值对应的响度参数；根据所述响度参数，计算每一频点对应的响度值，将所述响度值转换为所述频点的感知加权系数。

此外，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的音频处理方法。

此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种音频处理方法中的步骤。

本发明实施例在获取待处理音频信号后，对待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值，然后，根据内容听觉感知能量值和背景听觉感知能量值，确定待处理音频信号的信号增益值，然后，基于信号增益值，分别对内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号，将调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号；由于该方案计算每一帧音频信号的听觉感知能量值，从人耳听觉感知角度来分析内容音频信号和背景音频信号的音量，并通过对内容听觉感知能量值和背景听觉感知能量值进行调整，从而实现准确调整背景音量和内容音量，因此，可以提升音频处理的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的音频处理方法的场景示意图；

图2是本发明实施例提供的音频处理方法的流程示意图；

图3是本发明实施例提供的声学等响曲线的示意图；

图4是本发明实施例提供的感知加权系数的示意图；

图5是本发明实施例提供的人声录音信号和背景音乐信号的处理流程示意图；

图6是本发明实施例提供的音频处理方法的另一流程示意图；

图7是本发明实施例提供的音频处理装置的结构示意图；

图8是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种音频处理方法、装置、电子设备和计算机可读存储介质。其中，该音频处理装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，参见图1，以音频处理装置集成在电子设备中为例，电子设备在获取待处理音频信号后，对待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值，然后，根据内容听觉感知能量值和背景听觉感知能量值，确定待处理音频信号的信号增益值，然后，基于信号增益值，分别对内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号，将调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号，进而提升音频处理的准确性。

其中，音频处理可以理解为对音频信号进行处理，这里需要处理的音频信号可以包括内容音频信号和背景音频信号，内容音频信号和背景音频信号相对独立，处理的过程就是需要根据场景的需要对内容音频信号和背景音频信号的音量进行调整，使得内容音频信号和背景音频信号之间满足特定条件。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从音频处理装置的角度进行描述，该音频处理装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC，Personal Computer)、可穿戴设备、虚拟现实设备或其他可以进行音频处理的智能设备等设备。

一种音频处理方法，包括：

获取待处理音频信号，该待处理音频信号包括内容音频信号和背景音频信号，对待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值，根据内容听觉感知能量值和背景听觉感知能量值，确定待处理音频信号的信号增益值，基于信号增益值，分别对内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号，将调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号。

如图2所示，该音频处理方法的具体流程如下：

101、获取待处理音频信号。

其中，待处理音频信号可以包括内容音频信号和背景音频信号，内容音频信号和背景音频信号为两个独立的音频信号，所谓内容音频信号可以为在直播、录制或其他采集方式下采集的关于内容的人声或模拟人声的音频信号，与之相对的背景音频信号就可以为用于描述背景声音的音频信号，该背景声音可以包括背景音乐、背景旁白或者其他与内容无关的背景信息对应的声音，该背景声音主要用于在内容声音(音频)播放时烘托或营造氛围的声音，通常可以为舒缓的音乐或旁白等。

其中，获取待处理音频信号的方式可以有多种，具体可以如下：

例如，可以直接获取用户通过终端上传的内容音频信号和背景音频信号，从而得到待处理音频信号，或者，可以直接接收直播终端或者录制终端发送的实时音频信号，从而得到内容音频信号，然后，接收用户通过终端上传或发送的背景音频信号，将背景音频信号和内容音频信号作为待处理音频信号，或者，可以接收直播终端或者录制终端发送的音频信号，得到内容音频信号，识别该内容音频信号的类型，基于类型，在预设背景音频信号集合中筛选出内容音频信号对应的背景音频信号，从而得到待处理音频信号，或者，还可以接收终端发送的音频处理请求，该音频处理请求携带内容音频信号和背景音频信号的存储地址，基于该存储地址，获取内容音频信号和背景音频信号，从而得到待处理音频信号。

102、对待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到内容音频信号对应的的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值。

其中，听觉感知能量值用于指示对不同频点声音的听觉感知程度，听觉感知能量值可以为对音频信号进行听觉感知量化处理得到的能量值，而听觉感知量化处理的目的是量化不同音频信号的人耳听觉感受，以用于后续根据听觉感知进行均衡处理，可以通过响度量化方法对各路音频信号进行听觉感知量化，从而得到待处理音频信号中每一帧音频信号的听觉感知能量值。而响度主要随声音的强度而变化，但也受频率的影响，即相同强度、不同频率的声音对于人耳有着不一样的听觉感知。图3为国际声学标准组织测定的声学等响曲线图。等响曲线是描述等响条件下声压级与声波频率的关系曲线称为等响曲线，是重要的听觉特征之一。即在不同频率下的纯音需要达到何种声压级，才能获得对听者来说一致的听觉响度。对于等响曲线来说，如图3上的任一条等响曲线(图中的红色线)我们可以看到中低频(1kHz以下)频率越低，等响需要的声压强度(能量)越大，简单而言即需要更大的声音能量才能让人耳有相同听觉感受。而中高频(1kHz以上)不同频段的有着不同的声学听觉感知特征。

其中，对待处理音频信号进行分帧的方式可以有多种，具体可以如下：

例如，可以采用预设窗函数对待处理音频信号按照预设时间进行分帧加窗，从而得到待处理音频信号的多帧音频信号，该音频信号可以包括内容音频信号和背景音频信号。

其中，预设窗函数可以有多种，比如，可以包括汉宁窗或汉明窗。另外用于对音频信号进行分帧的预设时间也可以有多种，比如，可以为10ms、20ms或者其他时间等。

在对待处理音频信号进行分帧之后，便可以计算每一帧音频信号的听觉感知能量值，得到内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值，计算内容听觉感知能量值和背景听觉感知能量值的方式可以有多种，比如，可以在每一帧音频信号中识别出每一频点的频点值，并计算每一帧音频信号中频点的功率谱，根据频点值，确定频点的感知加权系数，并基于感知加权系数，对功率谱进行加权，将每一帧内容音频信号中频点的加权后功率谱进行融合，得到每一帧内容音频信号的听觉能量感知值，并将每一帧背景音频信号中频点的加权后功率谱进行融合，得到每一帧背景音频信号的背景听觉感知能量值。

其中，计算每一帧音频信号中频点的功率谱的方式可以有多种，比如，可以对加窗分帧的每一帧音频信号做FFT傅里叶变换，并求出每一帧音频信号中各频点的功率绝对值p(i,j),j＝0～K-1，i为第i帧，j为第j个频点，K为第i帧中总的频点数量。将频点的功率绝对值作为该频点的功率谱。

其中，感知加权系数可以理解为每一帧音频信号中不同频点的响度对应的加权系数，确定该感知加权系数的方式可以有多种，比如，可以获取音频信号的等响曲线信息，并在等响曲线信息中提取出频点值对应的响度参数，根据响度参数，计算每一频点的响度值，将响度值转换为频点的感知加权系数。

其中，可以采用公式(1)-公式(4)来计算每一频点的响度值，该公式来源与BS3383标准中的第四章，主要是采用线性插值法对声学等响曲线数据进行插值，从而得到各个频点的响度值。公式(1)-公式(5)具体可以如下：

afy＝af(j-1)+(freq-ff(j-1))*(af(j)-af(j-1))/(ff(j)-ff(j-1)) (1)

bfy＝bf(j-1)+(freq-ff(j-1))*(bf(j)-bf(j-1))/(ff(j)-ff(j-1)) (2)

cfy＝cf(j-1)+(freq-ff(j-1))*(cf(j)-cf(j-1))/(ff(j)-ff(j-1)) (3)

loud＝4.2+afy*(dB-cfy)/(1+bfy*(dB-cfy)) (4)

其中，freq为频点的频点值，j为等响曲线数据表中的频率序号值，在该等响曲线数据表中每个频率序号值对应一个频率值，freq不大于该等响曲线数据表中频率序号值j对应的频点值，且不小于频率序号值j-1对应的频率值。ff、af、bf、cf均为BS3383公开的该等响曲线数据表内的数据；afy、bfy和cfy分别为响度参数，loud可以为每一频点的响度值。

在计算出每一频点的响度值以后，就可以将该响度值转换为该频点对应的感知加权系数，转换的方式可以有多种，获取预设转换参数，将该预设转转参数与响度值进行融合，从而得到该频点对应的感知加权系数，具体可以如公式(5)所示：

cof(freq)＝(10^loud/20)/1000 (5)

其中，cof(freq)为该频点对应的感知加权系数，loud为该频点的响度值，针对不同频率，基于该公式(5)可以得到感知加权系数图，如图4所示。

其中，将每一帧内容音频信号和背景音频信号的加权后功率谱进行融合的方式可以有多种，比如，可以将每一帧音频信号中全部频点对应的加权后功率谱进行累加，从而得到该帧音频信号的听觉感知能量值，具体可以如公式(6)所示：

其中，EP(i)该可以为第i帧音频信号的听觉能量值，p(i,k)为每一频点的功率谱，conf(k)为该频点对应的感知加权系数，K为第i帧音频信号中包含的全部频点的数量。计算出的听觉感知能量值可以包括内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值，即第i帧音频信号为内容音频信号时，对应的听觉感知能量值就可以为内容听觉感知能量值，第i帧音频信号为背景音频信号时，对应的听觉感知能量值就可以为背景听觉感知能量值。

103、根据内容听觉感知能量和背景听觉感知能量值，确定待处理音频信号的信号增益值。

其中，信号增益值可以为对音频信号的听觉感知能量值进行增益调节的值，信号增益值可以包括内容信号增益值和背景信号增益值。

其中，确定待处理音频信号的信号增益值的方式可以有多种，比如，可以分别对内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值进行平滑处理，根据平滑后内容听觉感知能量值和平滑后背景听觉感知能量值，确定待初始音频信号的信号增益值，具体可以如下：

S1、分别对内容听觉感知能量值和背景听觉感知能量值进行平滑处理。

例如，可以在内容听觉感知能量值中筛选出第一帧内容音频信号对应的基础内容听觉感知能量值，并在背景听觉感知能量值中筛选出第一帧背景音频信号对应的基础背景听觉感知能量值，根据基础内容听觉感知能量值，对内容听觉感知能量值中除基础内容听觉感知能量值以外的其他内容听觉感知能量值进行平滑处理，得到平滑后背景听觉感知能量值，基于背景听觉感知能量值，对背景听觉感知能量值中除基础背景听觉感知能量值以外的其他背景听觉感知能量值进行平滑处理，得到平滑后背景听觉感知能量值。

其中，对内容听觉感知能量值中除基础内容听觉感知能量值以外的其他内容听觉感知能量值进行平滑处理的方式可以有多种，比如，在内容听觉感知能量值中筛选出基础内容听觉感知能量值的下一帧内容音频信号对应的目标内容听觉感知能量值，计算目标内容听觉感知能量值与基础内容听觉感知能量的能量比值，得到第一能量值比值，基于第一能量值比值，对目标内容听觉感知能量值进行平滑处理，得到平滑后目标内容听觉感知能量值，将平滑后目标内容听觉感知能量值作为基础内容听觉感知能量值，返回执行在内容听觉感知能量值中筛选出基础内容听觉感知能量值的下一帧内容音频信号对应的目标内容听觉感知能量值的步骤，直至内容听觉感知能量值中除基础内容听觉感知能量值以外的其他内容听觉感知能量值全部平滑处理为止，得到平滑后内容听觉感知能量值。

其中，基于第一能量值比值，对目标内容听觉感知能量值进行平滑处理的方式可以有多种，比如，将第一能量值比值与预设比值阈值进行对比，基于对比结果，在预设平滑系数中筛选出目标平滑系数，基于目标平滑系数，分别对基础内容听觉感知能量值和目标内容听觉感知能量值进行加权，将加权后基础内容听觉感知能量值和加权后目标内容挺举感知能量值进行入融合，得到平滑后目标内容听觉感知能量值。

其中，在预设平滑系数中筛选出目标平滑系数的方式可以有多种，比如，获取预设平滑系数，该预设平滑系数可以包括第一平滑系数和第二平滑系数，当第一能量值比值未超过预设比值阈值时，将第一平滑系数作为目标平滑系数，当第一能量值比值超过预设比值阈值时，将第二平滑系数作为目标平滑系数，具体可以如公式(7)所示：

其中，ε为目标平滑系数，C1为第一平滑系数，可以为0.993～0.999，第二平滑系数为1，

为第一能量值比值，

为基础内容听觉感知能量值，EP_music(i)为目标内容听觉感知能量值，THRD1为预设比值阈值，该预设比值阈值通常可以为50～200。

在筛选出目标平滑系数之后，便可以基于目标平滑系数对基础内容听觉感知能量值和目标内容听觉感知能量值进行加权，加权的方式可以有多种，比如，可以基于目标平滑系数，分别确定基础内容听觉感知能量值和目标内容听觉感知能量值的加权系数，基于该加权系数，对基础内容听觉感知能量值和目标内容听觉感知能量值进行加权，得到加权后基础内容听觉感知能量值和加权后目标内容听觉感知能量值。

在对基础内容听觉感知能量值和目标内容听觉感知能量值进行加权后，便可以将加权后基础内容听觉感知能量值和加权后目标内容听觉感知能量值进行融合，融合的方式可以有多种，比如，可以直接将加权后基础内容听觉感知能量值和加权后目标内容听觉感知能量值相加，从而得到平滑后目标内容听觉感知能量值，具体可以如公式(8)所示：

其中，

为平滑后目标内容听觉感知能量值，

为基础内容听觉感知能量值，EP_music(i)为目标内容听觉感知能量值，ε为目标平滑系数。

其中，基于背景听觉感知能量值，对背景听觉感知能量值中除基础背景听觉感知能量值以外的其他背景听觉感知能量值进行平滑处理，得到平滑后背景听觉感知能量值的方式与内容听觉感知能量值进行平滑处理的方式相同，在计算目标背景听觉感知能量值的目标平滑系数的过程中可以如公式(9)所示：

其中，β为目标背景听觉感知能量值的目标平滑系数，C2为目标背景听觉感知能量值对应的第一平滑系数，C2可以为0.95～0.999，目标背景听觉感知能量值对应的第二平滑系数为1，

可以为目标背景听觉感知能量值与基础背景听觉感知能量值的能量值比值，THRD2为为背景听觉感知能量值对应的预设比值阈值，该预设比值阈值可以为50～200。

在计算目标背景听觉感知能量值的目标平滑系数之后，便可以对基础背景听觉感知能量值和目标背景听觉感知能量值进行加权和融合，具体可以如公式(10)所示：

其中，

可以为平滑后目标背景听觉感知能量值，β为目标背景听觉感知能量值对应的目标平滑系数，

为基础背景听觉感知能量值，EP_voice(i)为目标背景听觉感知能量值。

S2、根据平滑后内容听觉感知能量值和平滑后背景听觉感知能量值，确定待初始音频信号的信号增益值。

例如，获取内容音频信号对应的预设内容听觉感知能量和背景音频信号对应的预设背景听觉感知能量值，这里的预设内容听觉感知能量值和预设背景听觉感知能量值都可以为预先设定的内容音频信号和背景音频信号的目标听觉感知能量值，根据平滑后内容听觉感知能量值和预设内容听觉感知能量值，确定内容音频信号对应的内容信号增益值，基于平滑后背景音频信号和预设背景听觉感知能量值，确定背景音频信号对应的背景信号增益值，将内容信号增益值和背景信号增益值作为待处理音频信号的信号增益值。

其中，确定内容音频信号对应的内容信号增益的方式可以有多种，比如，可以计算平滑后内容听觉感知能量值与预设内容听觉感知能量值之间的能量值比值，得到第二能量值比值，获取内容音频信号对应的预设信号增益阈值，并将第二能量比值与预设信号增益阈值进行对比，基于对比结果，在第二能量值比值和预设信号增益阈值中筛选出内容音频信号对应的内容信号增益值，具体可以如公式(11)所示：

其中，G_music为内容信号增益值，G_max和G_min为预设信号增益阈值，

为第二能量值比值，EP0_music为预设内容听觉感知能量值，

为平滑后内容听觉感知能量值。由公式(11)可以发现，当第二能量值比值超过G_min时，将第二能量比值与G_max进行对比，当第二能量比值小于G_max时，内容信号增益值就可以为第二能量值比值，当第二能量比值大于G_max时，内容信号增益值就可以为G_max，当第二能量值比值未超过G_min时，就可以将G_min作为内容信号增益值。Gmax可以取值3或者其他值，Gmin可以取值0.1或者其他值。

其中，确定背景音频信号对应的背景信号增益值的方式可以与确定内容信号增益值的方式相同，具体可以参见公式(12)，在此就不再一一赘述。

其中，G_voice为背景信号增益值，

为平滑后背景听觉感知能量值与预设背景听觉感知能量值的能量值比值，G_max和G_min为预设信号增益阈值。

104、基于信号增益值，分别对内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整后内容音频信号和调整后背景音频信号。

例如，采用内容信号增益值对平滑后内容听觉感知能量值进行增益调整，得到调整后内容音频信号，并采用背景信号增益值对平滑后背景听觉感知能量值进行增益调整，得到调整后背景音频信号，具体可以如下：

比如，可以在内容信号增益值中筛选出每一帧内容音频信号对应的目标内容信号增益值，在背景信号增益值中筛选出每一帧背景音频信号对应的目标背景信号增益值，基于目标内容信号增益值对对应帧的内容音频信号的平滑后内容听觉感知能量值进行增益调整，得到调整后内容音频信号，基于目标背景信号增益值对对应帧的背景音频信号的平滑后背景听觉感知能量值进行增益调整，得到调整后背景音频信号。

其中，对内容听觉感知能量值和背景听觉感知能量值进行增益调整的方式可以有多种，比如，可以将目标内容信号增益值与内容听觉感知能量值直接相乘，就可以得到调整后内容音频信号，将目标背景信号增益值与背景听觉感知能量相乘，就可以得到调整后背景音频信号，或者，还可以将目标内容信号增益值与内容听觉感知能量值相加或相减，就可以得到调整后内容音频信号，将目标背景信号增益值与背景听觉感知能量相加或相减，就可以得到调整后背景音频信号。

105、将调整后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号。

其中，混合音频信号可以为将内容音频信号和背景音频信号进行混音后得到的音频信号。

其中，将调整后内容音频信号和调整后背景音频信号进行混音的方式可以有多种，具体可以如下：

例如，可以根据内容信号增益值和背景信号增益值，对调整后内容音频信号和调整后背景音频信号进行混音，得到初始混合后音频信号，对初始混合音频信号的样点幅值进行调整，得到混合音频信号。

其中，对调整后内容音频信号和调整后背景音频信号进行混音的方式可以有多种，比如，根据内容信号增益值和背景信号增益值，确定混音加权系数，基于混音加权系数，对调整后内容音频信号和调整后背景音频信号进行加权，将加权后内容音频信号和加权后背景音频信号进行融合，得到初始混合音频信号。

其中，确定混音加权系数的方式可以有多种，比如，可以直接将内容信号增益值作为调整后内容音频信号的混音加权系数，将背景信号增益值作为调整后背景音频信号的混音加权系数，或者，还可以将内容信号增益值和背景信号增益值进行融合，得到融合后信号增益值，分别计算内容信号增益值与融合后信号增益值的比值和背景信号增益值与融合后信号增益值的比值，将计算出的比值分别作为调整后内容音频信号的混音加权系数和调整后背景音频信号的混音加权系数。

其中，将加权后内容音频信号和加权后背景音频信号进行融合的方式可以有多种，比如，可以直接将加权后内容音频信号和加权后背景音频信号相加，从而就可以得到初始混合音频信号。

在得到初始混合音频信号之后，便可以对初始混合音频信号的样点幅值进行调整，调整的方式可以有多种，比如，可以获取初始混合音频信号中当前帧音频信号的样点幅值，当样点幅值超过预设样点幅值阈值时，对当前帧音频信号进行衰减，使得衰减后当前帧音频信号未超过预设样点幅值阈值，返回执行获取初始混合音频信号中当前帧音频信号的样点幅值的步骤，直至初始混合音频信号中每一帧音频信号的样点幅值都未超过预设样点幅值阈值为止，得到混合音频信号。

其中，对当前帧音频信号进行衰减的方式可以有多种，比如，可以计算样点幅值与预设样点幅值阈值的幅值比值，得到当前帧音频信号的衰减增益值，将当前帧音频信号划分为预设数量的子帧音频信号，并根据衰减增益值，计算每一子帧音频信号的目标衰减增益值，基于目标衰减增益值，对子帧音频信号进行衰减处理，使得衰减后当前帧音频信号未超过预设样点幅值阈值。

其中，当当前帧音频信号的样点幅值超过预设样点幅值阈值时，就可以确定初始混合音频信号中的当前帧音频信号即将出现破音，因此，就需要对本帧进行衰减，同时为了避免信号变化过快导致声音受损，可以将原本一帧的音频信号划分为多个子帧音频信号，以原一帧音频信号的长度为160个样点，可以将该帧音频信号划分为4个子帧，即每个子帧40个样点，就可以计算每一子帧的目标衰减增益值1-k*0.25*(1-G_sup),k为子帧的序号，即为1-4，G_sup为当前帧音频信号的衰减增益值。

其中，对子帧音频信号进行衰减处理的方式可以有多种，比如，可以分别将每一子帧音频信号对应的目标衰减增益值与子帧音频信号的样点幅值相乘，并将相乘后的每一子帧音频信号进行融合，就可以得到衰减后当前帧音频信号。经过衰减后的混音信号可以较大程度的避免破音。当当前帧音频信号的样点幅值未超过预设样点幅值阈值时，就可以确定该初始混合音频信号不存在破音，可以直接将该初始混合音频信号作为混合音频信号。

其中，初始混合音频信号存在破音的情况主要在于样点幅值超过了数字最大表达范围，比如，16位音频数据的样点幅值范围为-32768～32767。为避免破音出现，可以取最大幅值范围乘以一个警戒系数，譬如，以警戒系数为0.7为例，则预设样点幅值阈值(警戒门限)就可以为0.7倍最大取值范围(即32767*0.8＝22936)，当混合音频信号的样点幅值大于该门限则进行逐渐衰减处理，避免后续帧音频信号超过最大幅值范围而破音。

其中，对音频处理的过程中可以看作是基于听觉感知能量值(音量)的分析和调控，以内容音频信号为人声录音信号，背景音频信号为背景音乐信号为例，音频处理的整个过程可以如图5所示，首先通过听觉感知分析和量化人声录音信号和背景音乐信号，根据两者量化结果进行独立的增益调节，人声录音信号和背景音乐信号经过各自的增益调节后进行混音叠加，叠加后的混音信号经过破音检测判断是否可能存在破音问题，如果有破音则通过衰减整体音量增益因子降低整体音量，最终得到处理后的人声和背景音乐的混音信号。

由以上可知，本申请实施例在获取待处理音频信号后，对待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值，然后，根据内容听觉感知能量值和背景听觉感知能量值，确定待处理音频信号的信号增益值，然后，基于信号增益值，分别对内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号，将调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号；由于该方案计算每一帧音频信号的听觉感知能量值，从人耳听觉感知角度来分析内容音频信号和背景音频信号的音量，并通过对内容听觉感知能量值和背景听觉感知能量值进行调整，从而实现准确调整背景音量和内容音量，因此，可以提升音频处理的准确性。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该音频处理装置具体集成在电子设备，电子设备为服务器，内容音频信号为人声信号，背景音频信号为背景音乐信号为例进行说明。

如图6所示，一种音频处理方法，具体流程如下：

201、服务器获取待处理音频信号。

例如，服务器可以直接获取用户通过终端上传的人声信号和背景音乐信号，从而得到待处理音频信号，或者，可以直接接收直播终端或者录制终端发送的实时音频信号，从而得到人声信号，然后，接收用户通过终端上传或发送的背景音乐信号，将背景音乐信号和人声信号作为待处理音频信号，或者，可以接收直播终端或者录制终端发送的音频信号，得到人声信号，识别该人声信号的类型，基于类型，在预设背景音乐信号集合中筛选出人声信号对应的背景音乐信号，从而得到待处理音频信号，或者，还可以接收终端发送的音频处理请求，该音频处理请求携带人声信号和背景音乐信号的存储地址，基于该存储地址，获取人声信号和背景音乐信号，从而得到待处理音频信号。

202、服务器对待处理音频信号进行分帧。

例如，服务器可以采用汉宁窗或汉明窗对待处理音频信号按照10ms或20ms进行分帧加窗，从而得到待处理音频信号的多帧音频信号，该音频信号可以包括人声信号和背景音乐信号。

203、服务器计算每一帧音频信号的听觉感知能量值，得到人声信号对应的人声听觉感知能量值和背景音乐信号对应的背景听觉感知能量值。

例如，服务器可以对加窗分帧的每一帧音频信号做FFT傅里叶变换，并求出每一帧音频信号中各频点的功率绝对值p(i,j),j＝0～K-1，i为第i帧，j为第j个频点，K为第i帧中总的频点数量。将频点的功率绝对值作为该频点的功率谱。

服务器可以获取音频信号的等响曲线信息，并在等响曲线信息中提取出频点值对应的响度参数，采用公式(1)-公式(4)来计算每一频点的响度值，该公式来源与BS3383标准中的第四章，主要是采用线性插值法对声学等响曲线数据进行插值，从而得到各个频点的响度值。获取预设转换参数，将该预设转转参数与响度值进行融合，从而得到该频点对应的感知加权系数，具体可以如公式(5)所示。将每一帧人声信号中全部频点对应的加权后功率谱进行累加，从而得到该帧人声信号的人声听觉感知能量值，将每一帧背景音乐信号中全部频点对应的加权后功率谱进行累加，从而得到该帧背景音乐信号的背景听觉感知能量值，具体可以如公式(6)所示。

204、服务器分别对人声信号对应的人声听觉感知能量值和背景音乐信号对应的背景听觉感知能量值进行平滑处理。

例如，服务器可以在人声听觉感知能量值中筛选出第一帧人声信号对应的基础人声听觉感知能量值，并在背景听觉感知能量值中筛选出第一帧背景音乐信号对应的基础背景听觉感知能量值。

服务器在人声听觉感知能量值中筛选出基础人声听觉感知能量值的下一帧人声信号对应的目标人声听觉感知能量值，计算目标人声听觉感知能量值与基础人声听觉感知能量值的能量比值，得到第一能量值比值，将第一能量值比值与预设比值阈值进行对比，获取预设平滑系数，该预设平滑系数可以包括第一平滑系数和第二平滑系数，当第一能量值比值未超过预设比值阈值时，将第一平滑系数作为目标平滑系数，当第一能量值比值超过预设比值阈值时，将第二平滑系数作为目标平滑系数，具体可以如公式(7)所示。

服务器可以基于目标平滑系数，分别确定基础人声听觉感知能量值和目标人声听觉感知能量值的加权系数，基于该加权系数，对基础人声听觉感知能量值和目标人声听觉感知能量值进行加权，得到加权后基础人声听觉感知能量值和加权后目标人声听觉感知能量值。直接将加权后基础人声听觉感知能量值和加权后目标人声听觉感知能量值相加，从而得到平滑后目标人声听觉感知能量值，具体可以如公式(8)所示。

服务器基于背景听觉感知能量值，对背景听觉感知能量值中除基础背景听觉感知能量值以外的其他背景听觉感知能量值进行平滑处理，得到平滑后背景听觉感知能量值的方式与人声听觉感知能量值进行平滑处理的方式相同，在计算目标背景听觉感知能量值的目标平滑系数的过程中可以如公式(9)所示。在计算目标背景听觉感知能量值的目标平滑系数之后，便可以对基础背景听觉感知能量值和目标背景听觉感知能量值进行加权和融合，具体可以如公式(10)所示。

205、服务器根据平滑后人声听觉感知能量值和平滑后背景听觉感知能量值，确定待初始音频信号的信号增益值。

例如，服务器获取人声信号对应的预设人声听觉感知能量和背景音乐信号对应的预设背景听觉感知能量值，计算平滑后人声听觉感知能量值与预设人声听觉感知能量值之间的能量值比值，得到第二能量值比值，获取人声信号对应的预设信号增益阈值，并将第二能量比值与预设信号增益阈值进行对比，基于对比结果，在第二能量值比值和预设信号增益阈值中筛选出人声信号对应的人声信号增益值，具体可以如公式(11)所示。当第二能量值比值超过G_min时，将第二能量比值与G_max进行对比，当第二能量比值小于G_max时，人声信号增益值就可以为第二能量值比值，当第二能量比值大于G_max时，人声信号增益值就可以为G_max，当第二能量值比值未超过G_min时，就可以将G_min作为人声信号增益值。Gmax可以取值3或者其他值，Gmin可以取值0.1或者其他值。确定背景音乐信号对应的背景信号增益值的方式可以与确定人声信号增益值的方式相同，具体可以参见公式(12)，在此就不再一一赘述。将人声信号增益值和背景信号增益值作为待处理音频信号的信号增益值。

206、服务器基于信号增益值，分别对人声听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整后人声信号和调整后背景音乐信号。

例如，服务器在人声信号增益值中筛选出每一帧人声信号对应的目标人声信号增益值，在背景信号增益值中筛选出每一帧背景音乐信号对应的目标背景信号增益值。将目标人声信号增益值与人声听觉感知能量值直接相乘，就可以得到调整后人声信号，将目标背景信号增益值与背景听觉感知能量相乘，就可以得到调整后背景音乐信号，或者，还可以将目标人声信号增益值与人声听觉感知能量值相加或相减，就可以得到调整后人声信号，将目标背景信号增益值与背景听觉感知能量相加或相减，就可以得到调整后背景音乐信号。

207、服务器将调整后人声信号和调整后背景音乐信号进行混音，以得到混合音频信号。

例如，服务器可以直接将人声信号增益值作为调整后人声信号的混音加权系数，将背景信号增益值作为调整后背景音乐信号的混音加权系数，或者，还可以将人声信号增益值和背景信号增益值进行融合，得到融合后信号增益值，分别计算人声信号增益值与融合后信号增益值的比值和背景信号增益值与融合后信号增益值的比值，将计算出的比值分别作为调整后人声信号的混音加权系数和调整后背景音乐信号的混音加权系数。基于混音加权系数，对调整后人声信号和调整后背景音乐信号进行加权。直接将加权后人声信号和加权后背景音乐信号相加，从而就可以得到初始混合音频信号。

服务器可以获取初始混合音频信号中当前帧音频信号的样点幅值，当样点幅值超过预设样点幅值阈值时，计算样点幅值与预设样点幅值阈值的幅值比值，得到当前帧音频信号的衰减增益值，将当前帧音频信号划分为预设数量的子帧音频信号，并根据衰减增益值，计算每一子帧音频信号的目标衰减增益值，分别将每一子帧音频信号对应的目标衰减增益值与子帧音频信号的样点幅值相乘，并将相乘后的每一子帧音频信号进行融合，就可以得到衰减后当前帧音频信号。返回执行获取初始混合音频信号中当前帧音频信号的样点幅值的步骤，直至初始混合音频信号中每一帧音频信号的样点幅值都未超过预设样点幅值阈值为止，得到混合音频信号。当当前帧音频信号的样点幅值未超过预设样点幅值阈值时，就可以确定该初始混合音频信号不存在破音，可以直接将该初始混合音频信号作为混合音频信号。

由以上可知，本实施例服务器在获取待处理音频信号后，对待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到人声信号对应的人声听觉感知能量值和背景音乐信号对应的背景听觉感知能量值，然后，根据人声听觉感知能量值和背景听觉感知能量值，确定待处理音频信号的信号增益值，然后，基于信号增益值，分别对人声听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整人声信号和调整后背景音乐信号，将调增后人声信号和调整后背景音乐信号进行混音，以得到混合音频信号；由于该方案计算每一帧音频信号的听觉感知能量值，从人耳听觉感知角度来分析人声信号和背景音乐信号的音量，并通过对人声听觉感知能量值和背景听觉感知能量值进行调整，从而实现准确调整背景音量和人声音量，因此，可以提升音频处理的准确性。

为了更好地实施以上方法，本发明实施例还提供一种音频处理装置，该音频处理装置可以集成在电子设备，比如服务器或终端等设备中，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图7所示，该音频处理装置可以包括获取单元301、分帧单元302、确定单元303、调整单元304和混音单元305，如下：

(1)获取单元301；

获取单元301，用于获取待处理音频信号，该待处理音频信号包括内容音频信号和背景音频信号。

例如，获取单元301，具体可以用于直接获取用户通过终端上传的内容音频信号和背景音频信号，从而得到待处理音频信号，或者间接获取内容音频信号和背景音频信号，得到待处理音频信号。

(2)分帧单元302；

分帧单元302，用于对待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到内容音频信号对应的的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值。

例如，分帧单元302，具体可以用于采用预设窗函数对待处理音频信号按照预设时间进行分帧加窗，从而得到待处理音频信号的多帧音频信号，在每一帧音频信号中识别出每一频点的频点值，并计算每一帧音频信号中频点的功率谱，根据频点值，确定频点的感知加权系数，并基于感知加权系数，对功率谱进行加权，将每一帧内容音频信号中频点的加权后功率谱进行融合，得到每一帧内容音频信号的内容听觉能量感知值，并将每一帧背景音频信号中频点的加权后功率谱进行融合，得到每一帧背景音频信号的背景听觉感知能量值。

(3)确定单元303；

确定单元303，用于根据内容听觉感知能量值和背景听觉感知能量值，确定待处理音频信号的信号增益值。

例如，确定单元303，具体可以用于分别对内容听觉感知能量值和背景听觉感知能量值进行平滑处理，根据平滑后内容听觉感知能量值和平滑后背景听觉感知能量值，确定待初始音频信号的信号增益值。

(4)调整单元304；

调整单元304，用于基于信号增益值，分别对内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号。

例如，调整单元304，具体可以用于在内容信号增益值中筛选出每一帧内容音频信号对应的目标内容信号增益值，在背景信号增益值中筛选出每一帧背景音频信号对应的目标背景信号增益值，基于目标内容信号增益值对对应帧的内容音频信号的平滑后内容听觉感知能量值进行增益调整，得到调整后内容音频信号，基于目标背景信号增益值对对应帧的背景音频信号的平滑后背景听觉感知能量值进行增益调整，得到调整后背景音频信号。

(5)混音单元305；

混音单元305，用于将调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号。

例如，混音单元305，具体可以用于根据内容信号增益值和背景信号增益值，对调整后内容音频信号和调整后背景音频信号进行混音，得到初始混合后音频信号，对初始混合音频信号的样点幅值进行调整，得到混合音频信号。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例在获取单元301获取待处理音频信号后，分帧单元302对待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值，然后，确定单元303根据内容听觉感知能量值和背景听觉感知能量值，确定待处理音频信号的信号增益值，然后，调整单元304基于信号增益值，分别对内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号，混音单元305将调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号；由于该方案计算每一帧音频信号的听觉感知能量值，从人耳听觉感知角度来分析内容音频信号和背景音频信号的音量，并通过对内容听觉感知能量值和背景听觉感知能量值进行调整，从而实现准确调整背景音量和内容音量，因此，可以提升音频处理的准确性。

本发明实施例还提供一种电子设备，如图8所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

例如，电子设备可以直接获取用户通过终端上传的内容音频信号和背景音频信号，从而得到待处理音频信号，或者间接获取内容音频信号和背景音频信号，得到待处理音频信号。采用预设窗函数对待处理音频信号按照预设时间进行分帧加窗，从而得到待处理音频信号的多帧音频信号，在每一帧音频信号中识别出每一频点的频点值，并计算每一帧音频信号中频点的功率谱，根据频点值，确定频点的感知加权系数，并基于感知加权系数，对功率谱进行加权，将每一帧内容音频信号中频点的加权后功率谱进行融合，得到每一帧内容音频信号的内容听觉能量感知值，并将每一帧背景音频信号中频点的加权后功率谱进行融合，得到每一帧背景音频信号的背景听觉感知能量值。分别对内容听觉感知能量值和背景听觉感知能量值进行平滑处理，根据平滑后内容听觉感知能量值和平滑后背景听觉感知能量值，确定待初始音频信号的信号增益值。在内容信号增益值中筛选出每一帧内容音频信号对应的目标内容信号增益值，在背景信号增益值中筛选出每一帧背景音频信号对应的目标背景信号增益值，基于目标内容信号增益值对对应帧的内容音频信号的平滑后内容听觉感知能量值进行增益调整，得到调整后内容音频信号，基于目标背景信号增益值对对应帧的背景音频信号的平滑后背景听觉感知能量值进行增益调整，得到调整后背景音频信号。根据内容信号增益值和背景信号增益值，对调整后内容音频信号和调整后背景音频信号进行混音，得到初始混合后音频信号，对初始混合音频信号的样点幅值进行调整，得到混合音频信号。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由以上可知，本发明实施例在获取待处理音频信号后，对待处理音频信号进行分帧，并计算每一帧音频信号的听觉感知能量值，得到内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值，然后，根据内容听觉感知能量值和背景听觉感知能量值，确定待处理音频信号的信号增益值，然后，基于信号增益值，分别对内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号，将调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号；由于该方案计算每一帧音频信号的听觉感知能量值，从人耳听觉感知角度来分析内容音频信号和背景音频信号的音量，并通过对内容听觉感知能量值和背景听觉感知能量值进行调整，从而实现准确调整背景音量和内容音量，因此，可以提升音频处理的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频处理方法中的步骤。例如，该指令可以执行如下步骤：

例如，获取用户通过终端上传的内容音频信号和背景音频信号，从而得到待处理音频信号，或者间接获取内容音频信号和背景音频信号，得到待处理音频信号。采用预设窗函数对待处理音频信号按照预设时间进行分帧加窗，从而得到待处理音频信号的多帧音频信号，在每一帧音频信号中识别出每一频点的频点值，并计算每一帧音频信号中频点的功率谱，根据频点值，确定频点的感知加权系数，并基于感知加权系数，对功率谱进行加权，将每一帧内容音频信号中频点的加权后功率谱进行融合，得到每一帧内容音频信号的内容听觉能量感知值，并将每一帧背景音频信号中频点的加权后功率谱进行融合，得到每一帧背景音频信号的背景听觉感知能量值。分别对内容音频信号对应的内容听觉感知能量值和背景音频信号对应的背景听觉感知能量值进行平滑处理，根据平滑后内容听觉感知能量值和平滑后背景听觉感知能量值，确定待初始音频信号的信号增益值。在内容信号增益值中筛选出每一帧内容音频信号对应的目标内容信号增益值，在背景信号增益值中筛选出每一帧背景音频信号对应的目标背景信号增益值，基于目标内容信号增益值对对应帧的内容音频信号的平滑后内容听觉感知能量值进行增益调整，得到调整后内容音频信号，基于目标背景信号增益值对对应帧的背景音频信号的平滑后背景听觉感知能量值进行增益调整，得到调整后背景音频信号。根据内容信号增益值和背景信号增益值，对调整后内容音频信号和调整后背景音频信号进行混音，得到初始混合后音频信号，对初始混合音频信号的样点幅值进行调整，得到混合音频信号。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种音频处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述音频处理方面或者音频信号音量调节方面的各种可选实现方式中提供的方法。

以上对本发明实施例所提供的一种音频处理方法、装置、电子设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明限制。

Claims

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述内容听觉感知能量值和背景听觉感知能量值，确定所述待处理音频信号的信号增益值，包括：

分别对所述内容听觉感知能量值和背景听觉感知能量值进行平滑处理；

根据平滑后内容听觉感知能量值和平滑后背景听觉感知能量值，确定所述待处理音频信号的信号增益值。

3.根据权利要求2所述的音频处理方法，其特征在于，所述分别对所述内容听觉感知能量值和背景听觉感知能量值进行平滑处理，包括：

在所述内容听觉感知能量值中筛选出第一帧内容音频信号对应的基础内容听觉感知能量值，并在所述背景听觉感知能量值中筛选出第一帧背景音频信号对应的基础背景听觉感知能量值；

根据所述基础内容听觉感知能量值，对所述内容听觉感知能量值中除所述基础内容听觉感知能量以外的其他内容听觉感知能量值进行平滑处理，得到平滑后内容听觉感知能量值；

基于所述基础背景听觉感知能量值，对所述背景听觉感知能量值中除所述基础背景听觉感知能量值以外的其他背景听觉感知能量值进行平滑处理，得到平滑后背景听觉感知能量值。

4.根据权利要求3所述的音频处理方法，其特征在于，所述根据所述基础内容听觉感知能量值，对所述内容听觉感知能量值中除所述基础内容听觉感知能量以外的其他内容听觉感知能量值进行平滑处理，得到平滑后内容听觉感知能量值，包括：

在所述内容听觉感知能量值中筛选出所述基础内容听觉感知能量值的下一帧内容音频信号对应的目标内容听觉感知能量值；

计算所述目标内容听觉感能量值与基础内容听觉感知能量值的能量值比值，得到第一能量值比值；

基于所述第一能量值比值，对所述目标内容听觉感知能量值进行平滑处理，得到平滑后目标内容听觉感知能量；

将所述平滑后目标内容听觉感知能量值作为所述基础内容听觉感知能量值；

返回执行所述在所述内容听觉感知能量值中筛选出所述基础内容听觉感知能量值的下一帧内容音频信号对应的目标内容听觉感知能量值的步骤，直至所述内容听觉感知能量值中除所述基础内容听觉感知能量值以外的其他内容听觉感知能量值全部平滑处理为止，得到平滑后内容听觉感知能量值。

5.根据权利要求4所述的音频处理方法，其特征在于，所述基于所述第一能量值比值，对所述目标内容听觉感知能量值进行平滑处理，得到平滑后目标内容听觉感知能量，包括：

将所述第一能量值比值与预设比值阈值进行对比，并基于对比结果，在预设平滑系数中筛选出目标平滑系数；

基于所述目标平滑系数，分别对所述基础内容听觉感知能量值和目标内容听觉感知能量值进行加权；

将加权后基础内容听觉感知能量值和加权后目标内容听觉感知能量值进行融合，得到平滑后目标内容听觉感知能量值。

6.根据权利要求2所述的音频处理方法，其特征在于，所述根据平滑后内容听觉感知能量值和平滑后背景听觉感知能量值，确定所述待处理音频信号的信号增益值，包括：

获取所述内容音频信号对应的预设内容听觉感知能量值和所述背景音频信号对应的预设背景听觉感知能量值；

根据所述平滑后内容听觉感知能量值和预设内容听觉感知能量值，确定所述内容音频信号对应的内容信号增益值；

基于所述平滑后背景听觉感知能量值和预设背景听觉感知能量值，确定所述背景音频信号对应的背景信号增益值；

所述基于所述信号增益值，分别对所述内容听觉感知能量值和背景听觉感知能量值进行增益调整，得到调整内容音频信号和调整后背景音频信号，包括：采用所述内容信号增益值对平滑后内容听觉感知能量值进行增益调整，得到调整内容音频信号，并采用所述背景信号增益对平滑后背景听觉感知能量值进行增益调整，得到调整后背景音频信号。

7.根据权利要求6所述的音频处理方法，其特征在于，所述根据所述平滑后内容听觉感知能量值和预设内容听觉感知能量值，确定所述内容音频信号对应的内容信号增益值，包括：

计算所述平滑后内容听觉感知能量值与预设内容听觉感知能量值之间的能量值比值，得到第二能量值比值；

获取所述内容音频信号对应的预设信号增益阈值，并将所述第二能量值比值与预设信号增益阈值进行对比；

基于对比结果，在第二能量值比值和预设信号增益阈值中筛选出所述内容音频信号对应的内容信号增益值。

8.根据权利要求6所述的音频处理方法，其特征在于，所述将所述调增后内容音频信号和调整后背景音频信号进行混音，以得到混合音频信号，包括：

根据所述内容信号增益值和背景信号增益值，对所述调整后内容音频信号和调整后背景音频信号进行混音，得到初始混合音频信号；

对所述初始混合音频信号的样点幅值进行调整，得到混合音频信号。

9.根据权利要求8所述的音频处理方法，其特征在于，所述根据所述内容信号增益值和背景信号增益值，对所述调增后内容音频信号和调整后背景音频信号进行混音，得到初始混合音频信号，包括：

根据所述内容信号增益值和背景信号增益值，确定混音加权系数；

基于所述混音加权系数，对所述调整后内容音频信号和调整后背景音频信号进行加权；

将加权后内容音频信号和加权后背景音频信号进行融合，得到初始混合音频信号。

10.根据权利要求8所述的音频处理方法，其特征在于，所述对所述初始混合音频信号的样点幅值进行调整，得到混合音频信号，包括：

获取所述初始混合音频信号中当前帧音频信号的样点幅值；

当所述样点幅值超过预设样点幅值阈值时，对当前帧音频信号进行衰减，使得衰减后当前帧音频信号未超过所述预设样点幅值阈值；

返回执行所述获取所述初始混合音频信号中当前帧音频信号的样点幅值步骤，直至所述初始混合音频信号中每一音频帧信号的样点幅值都未超过预设样点幅值阈值为止，得到混合音频信号。

11.根据权利要求10所述的音频处理方法，其特征在于，所述对当前帧音频信号进行衰减，使得衰减后当前帧音频信号未超过所述预设样点幅值阈值，包括：

计算所述样点幅值与预设样点幅值阈值的幅值比值，得到所述当前帧音频信号的衰减增益值；

将所述当前帧音频信号划分为预设数量的子帧音频信号，并根据所述衰减增益值，计算每一子帧音频信号的目标衰减增益值；

基于所述目标衰减增益值，对所述子帧音频信号进行衰减处理，使得衰减后当前帧音频信号未超过所述预设样点幅值阈值。

12.根据权利要求1至11任一项所述的音频处理方法，其特征在于，所述计算每一帧音频信号的听觉感知能量值，得到所述内容音频信号对应的内容听觉感知能量值和所述背景音频信号对应的背景听觉感知能量值，包括：

在每一帧音频信号中识别出每一频点的频点值，并计算每一帧音频信号中频点的功率谱；

根据所述频点值，确定所述频点的感知加权系数，并基于所述感知加权系数，对所述功率谱进行加权；

将每一帧内容音频信号中频点的加权后功率谱进行融合，得到每一帧内容音频信号的内容听觉感知能量值，并将每一帧背景音频信号中频点的加权后功率谱进行融合，得到每一帧背景音频信号的背景听觉感知能量值。

13.根据权利要求12所述的音频处理方法，其特征在于，所述根据所述频点值，确定所述频点的感知加权系数，包括：

获取所述音频信号的等响曲线信息，并在所述等响曲线信息中提取出所述频点值对应的响度参数；

根据所述响度参数，计算每一频点对应的响度值，将所述响度值转换为所述频点的感知加权系数。

14.一种音频处理装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至13任一项所述的音频处理方法中的步骤。

16.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至13任一项所述音频处理方法中的步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至13任一项所述的音频处理方法中的步骤。