CN111508513B

CN111508513B - 音频处理方法及装置、计算机存储介质

Info

Publication number: CN111508513B
Application number: CN202010239714.3A
Authority: CN
Inventors: 肖高超; 刘东平; 张志鹏; 陈志明
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2024-04-09
Anticipated expiration: 2040-03-30
Also published as: CN111508513A

Abstract

本申请公开了一种音频处理方法及装置、计算机存储介质，属于电子技术领域。所述方法包括：采用倒谱技术确定原始音频帧中的基波频率以及共振频率。并采用陷波滤波器从原始音频帧中滤除基波频率对应的信号以及共振频率对应的信号，得到原始音频帧中的噪声。之后去除原始音频帧中的噪声，得到目标音频帧。由于语音信号包括基波频率对应的信号以及共振频率对应的信号，因此从原始音频帧中去除的噪声为原始音频帧中除语音信号以外的信号，得到的目标音频帧为纯净的语音信号。本申请实施例通过滤除原始音频帧中的噪声的方式降低音频中的噪声，可以保证音频中语音的保真度，进而保证音频处理效果。

Description

音频处理方法及装置、计算机存储介质

技术领域

本申请涉及电子技术领域，特别涉及一种音频处理方法及装置、计算机存储介质。

背景技术

在多媒体领域中，音频录制是一项非常基础的功能。录制的音频通常被用来进行通信、人机语音交互和歌曲制作等。

在录音棚中录制歌曲时，由于通常会使用专业的麦克风等语音录制设备，所以录制的音频的质量较高。但在例如移动通信、人机语音交互和K歌娱乐等场景下，受限于语音录制设备(通常为手机等)的成本和体积，性能无法与专业的语音录制设备相比，且用户在录制音频时无法保证周围环境完全安静，因此录制的音频一般有较高的环境噪声和高频啸叫，录制的音频的质量较低。

目前通过对低质量的音频进行音频前处理，可以降低音频中的噪声，但是也会降低音频中语音的保真度，因此目前对音频处理的效果通常较差。

发明内容

本申请提供了一种音频处理方法及装置、计算机存储介质，可以解决相关技术中对音频处理的效果较差的问题。所述技术方案如下：

第一方面，提供了一种音频处理方法，所述方法包括：

采用倒谱技术确定原始音频帧中的基波频率以及共振频率；

采用陷波滤波器从原始音频帧中滤除所述基波频率对应的信号以及所述共振频率对应的信号，得到所述原始音频帧中的噪声；

去除所述原始音频帧中的所述噪声，得到目标音频帧。

可选地，所述采用倒谱技术确定原始音频帧中的基波频率以及共振频率，包括：

计算所述原始音频帧对应的倒谱；

根据所述原始音频帧的倒谱以及人类语音频率范围，确定所述基波频率以及所述共振频率。

可选地，所述根据所述原始音频帧的倒谱以及人类语音频率范围，确定所述基波频率以及所述共振频率，包括：

确定所述原始音频帧的倒谱中人类语音频率范围内的最大倒谱值对应的目标倒频率；

将所述目标倒频率对应的频率确定为所述基波频率；

根据所述原始音频帧的倒谱在目标倒频率区间内的部分，确定至少一个所述共振频率，所述目标倒频率区间内包括所述原始音频帧的倒谱中的第一个倒频率到所述目标倒频率。

可选地，所述根据所述原始音频帧的倒谱在目标倒频率区间内的部分，确定至少一个所述共振频率，包括：

计算所述原始音频帧的倒谱在所述目标倒频率区间内的部分的目标倒谱；

确定所述目标倒谱的最大倒谱值对应的倒频率；

将所述目标倒谱的最大倒谱值对应的倒频率对应的频率确定为一个所述共振频率。

可选地，所述原始音频帧包括N个音频采样点，所述原始音频帧的倒谱包含N个倒频率，所述N个倒频率的序号分别为0至N-1，所述目标倒频率为所述N个倒频率中的第M个倒频率，所述目标倒频率区间为[0,M-1]，N和M均为正整数，0<M≤N；

所述基波频率B1满足：B1＝(SF/2)*(1-(M/N))，SF为所述原始音频帧的采样频率。

可选地，所述去除所述原始音频帧中的所述噪声，得到目标音频帧，包括：

采用频谱减法去除所述原始音频帧中的所述噪声，得到所述目标音频帧。

可选地，在所述采用频谱减法去除所述原始音频帧中的所述噪声之后，所述方法还包括：

消除所述目标音频帧的边界锯齿信号。

可选地，所述消除所述目标音频帧的边界锯齿信号，包括：

采用所述目标音频帧的前一帧的输出音频信号训练低通滤波器，得到目标滤波器；

采用所述目标滤波器对所述目标音频帧的多个采样点依次进行滤波处理，其中，所述目标滤波器每滤波一个采样点，所述目标滤波器的切点频率提高若干赫兹。

可选地，在得到所述目标音频帧之后，所述方法还包括：

对所述目标音频帧进行动态增益控制，以增大所述目标音频帧对应的音频音量。

可选地，所述对所述目标音频帧进行动态增益控制，包括：

将所述目标音频帧与所述目标音频帧对应的增益因子相乘，所述原始音频帧为所述原始音频帧所在音频的第n+1个音频帧，所述目标音频帧对应的增益因子G(n+1)满足：G(n+1)＝G(n)*α+G_n+1*(1-α)，G_n+1与所述目标音频帧的采样幅值的绝对值的最大值相关，G(0)＝1，n为正整数，α为参数低通因子，α的取值范围为0.001至0.999。

第二方面，提供了一种音频处理装置，所述装置包括：

确定模块，用于采用倒谱技术确定原始音频帧中的基波频率以及共振频率；

滤除模块，用于采用陷波滤波器从原始音频帧中滤除所述基波频率对应的信号以及所述共振频率对应的信号，得到所述原始音频帧中的噪声；

去除模块，用于去除所述原始音频帧中的所述噪声，得到目标音频帧。

可选地，所述确定模块，用于：

计算所述原始音频帧对应的倒谱；

可选地，所述确定模块，用于：

将所述目标倒频率对应的频率确定为所述基波频率；

可选地，所述确定模块，用于：

确定所述目标倒谱的最大倒谱值对应的倒频率；

可选地，所述去除模块，用于：

可选地，所述装置还包括：

消除模块，用于消除所述目标音频帧的边界锯齿信号。

可选地，所述消除模块，用于：

可选地，所述装置还包括：

控制模块，用于对所述目标音频帧进行动态增益控制，以增大所述目标音频帧对应的音频音量。

可选地，所述控制模块，用于：

第三方面，提供了一种音频处理装置，应用于计算机设备，包括：处理器和存储器。

所述存储器，用于存储计算机程序，所述计算机程序包括程序指令；

所述处理器，用于调用所述计算机程序，实现如第一方面任一所述的音频处理方法。

第四方面，提供了一种计算机存储介质，所述计算机存储介质上存储有指令，当所述指令被计算机设备的处理器执行时，实现如第一方面所述的音频处理方法。

本申请实施例提供的技术方案带来的有益效果包括：

采用倒谱技术确定原始音频帧中的基波频率以及共振频率，并采用陷波滤波器从原始音频帧中滤除该基波频率对应的信号以及共振频率对应的信号得到原始音频帧中的噪声。之后从原始音频帧中去除该噪声，得到目标音频帧。由于语音信号包括基波频率对应的信号以及共振频率对应的信号，因此从原始音频帧中去除的噪声为原始音频帧中除语音信号以外的信号，得到的目标音频帧为纯净的语音信号。本申请实施例通过滤除原始音频帧中的噪声的方式降低音频中的噪声，可以保证音频中语音的保真度，进而保证音频处理效果。

附图说明

图1是本申请实施例提供的一种音频处理方法的流程示意图；

图2是本申请实施例提供的另一种音频处理方法的流程示意图；

图3是本申请实施例提供的一种音频处理装置的结构示意图；

图4是本申请实施例提供的另一种音频处理装置的结构示意图；

图5是本申请实施例提供的又一种音频处理装置的结构示意图；

图6是本申请实施例提供的一种终端的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种音频处理方法的流程示意图。该方法可以用于计算机设备。如图1所示，该方法包括：

步骤101、采用倒谱技术确定原始音频帧中的基波频率以及共振频率。

步骤102、采用陷波滤波器从原始音频帧中滤除基波频率对应的信号以及共振频率对应的信号，得到原始音频帧中的噪声。

其中，基波频率对应的信号为基波信号，共振频率对应的信号为共振信号。基波信号和共振信号为语音信号的两种子信号。

步骤103、去除原始音频帧中的噪声，得到目标音频帧。

综上所述，本申请实施例提供的音频处理方法，采用倒谱技术确定原始音频帧中的基波频率以及共振频率，并采用陷波滤波器从原始音频帧中滤除该基波频率对应的信号以及共振频率对应的信号得到原始音频帧中的噪声。之后从原始音频帧中去除该噪声，得到目标音频帧。由于语音信号包括基波频率对应的信号以及共振频率对应的信号，因此从原始音频帧中去除的噪声为原始音频帧中除语音信号以外的信号，得到的目标音频帧为纯净的语音信号。本申请实施例通过滤除原始音频帧中的噪声的方式降低音频中的噪声，可以保证音频中语音的保真度，进而保证音频处理效果。

图2是本申请实施例提供的另一种音频处理方法的流程示意图。该方法可以用于计算机设备，该计算机设备具体可以是服务器或终端。如图2所示，该方法包括：

步骤201、获取原始音频。

可选地，可以通过独立的音频录制设备或集成音频录制模块的设备(可称为拾音设备)录制得到原始音频。该原始音频可以是一段语音对应的音频信号或一首演唱的歌曲对应的音频信号。

步骤202、对原始音频进行分帧得到原始音频帧。

对原始音频进行分帧是指在时域上按照预设时长将原始音频划分成多个音频帧。原始音频帧可以是原始音频对应的多个音频帧中的任一音频帧。可选地，该预设时长可以是20毫秒，也即是，每个音频帧的长度可以是20毫秒。或者，预设时长也可以为10毫秒或15毫秒等，本申请实施例对此不做限定。

本申请实施例中，可以在获取原始音频的过程中对原始音频进行分帧，例如，计算机设备在获取原始音频的过程中，每当缓存的音频信号长度达到20毫秒，将该长度为20毫秒的音频信号作为一个音频帧。或者，计算机设备也可以先获取原始音频，然后当需要对原始音频进行处理时对原始音频进行分帧。

步骤203、采用倒谱技术确定原始音频帧中的基波频率以及共振频率。

可选地，步骤203的实现过程包括以下步骤S1及S2：

在步骤S1中，计算原始音频帧对应的倒谱。

计算原始音频帧对应的倒谱指对原始音频帧进行加窗操作后进行实离散傅里叶变换，然后计算得到的傅里叶变换谱的模并取对数，之后再进行逆实离散傅里叶变换。

本申请实施例中，将原始音频帧记为RAW_VOC。可选地，加窗操作所采用的窗函数可以是海明窗，也可以是汉宁窗，本申请实施例对此不作限制。对原始音频帧加窗的算法为RAW_VOC[n]*WIN[n]。其中*代表线性乘法，n代表音频采样序列中的音频采样点的序号，n为正整数，WIN为窗函数。音频采样序列指采集音频时按照采样频率采集到的信号样值序列。对加窗后的原始音频帧进行实离散傅里叶变换，得到RAW_VOC的频域数据，记为RAW_FFT。RAW_FFT为一个复数组。计算RAW_FFT中每一个复数的模并取对数，对计算结果进行逆实离散傅里叶变换得到原始音频帧对应的倒谱，记为RAW_CEP。

在步骤S2中，根据原始音频帧的倒谱以及人类语音频率范围，确定基波频率以及共振频率。

可选地，步骤S2的实现过程包括以下步骤S21至S23：

在步骤S21中，确定原始音频帧的倒谱中人类语音频率范围内的最大倒谱值对应的目标倒频率。

可选地，原始音频帧包括N个音频采样点，该原始音频帧的倒谱包含N个倒频率，N个倒频率的序号分别为0至N-1，目标倒频率为N个倒频率中的第M个倒频率，N和M均为正整数，0<M≤N。

示例地，人类语音频率范围为100Hz-700Hz，确定原始音频帧的倒谱中人类语音频率范围内的最大倒谱值，即在数组RAW_CEP[(1-700/(SF/2))*N]～RAW_CEP[(1-100/(SF/2))*N]中确定最大值。其中SF为原始音频帧的采样率。SF/2即二分之一原始音频帧的采样率，其为原始音频帧的频域最高频率(单位：赫兹(Hz))，又称为奈奎斯特频率。确定的原始音频帧的倒谱中人类语音频率范围内的最大倒谱值对应的数组序号为M，则原始音频帧的倒谱中人类语音频率范围内的最大倒谱值对应的目标倒频率为：(SF/2)*(1-(M/N))。

在步骤S22中，将目标倒频率对应的频率确定为基波频率。

示例地，继续参考步骤S21中的示例，目标倒频率对应的频率为(SF/2)*(1-(M/N))，则原始音频帧中的语音频率的基波频率B1满足：B1＝(SF/2)*(1-(M/N))。

在步骤S23中，根据原始音频帧的倒谱在目标倒频率区间内的部分，确定至少一个共振频率。

该目标倒频率区间内包括原始音频帧的倒谱中的第一个倒频率到目标倒频率。参考步骤S21中的示例，该目标倒频率区间为[0,M-1]。

可选地，步骤S23的实现过程包括以下步骤S231至S233：

在步骤S231中，计算原始音频帧的倒谱在目标倒频率区间内的部分的目标倒谱。

计算原始音频帧的倒谱在目标倒频率区间内的部分的目标倒谱也可称为低时窗选。进行低时窗选的目的是平滑目标倒频率区间，从而凸显共振信号的结构包络。示例地，计算原始音频帧的倒谱在目标倒频率区间内的部分的目标倒谱的流程可参照上述步骤S1，本申请实施例在此不作赘述。

在步骤S232中，确定目标倒谱的最大倒谱值对应的倒频率。

示例地，确定目标倒谱的最大倒谱值对应的倒频率的流程可参照上述步骤S21，本申请实施例在此不作赘述。

在步骤S233中，将目标倒谱的最大倒谱值对应的倒频率对应的频率确定为一个共振频率。

示例地，目标倒谱的最大倒谱值对应的倒频率为目标倒频率区间中的第K个倒频率，0<K≤M-1。则得到的共振频率F1满足：F1＝(SF/2)*(1-(K/M))。

可选地，可以进一步对目标倒谱进行低时窗选，得到更多的共振频率，例如共振频率F2、F3或F4等，该实现过程可参照上述步骤S231至步骤S233。

步骤204、采用陷波滤波器从原始音频帧中滤除基波频率对应的信号以及共振频率对应的信号，得到原始音频帧中的噪声。

采用的陷波滤波器的数量为确定的共振频率数量与确定的基波频率数量之和。可选地，陷波滤波器可以是递归滤波器或非递归型滤波器，本申请实施例对陷波滤波器的类型不做限定。

示例地，原始音频帧的采样率为48000Hz，确定的基波频率B1＝150Hz，确定的第一个共振频率F1＝300Hz，确定的第二个共振频率F2＝450Hz。此时采用3个6阶递归陷波滤波器，三个陷波滤波器的品质因数均为3.5，中心频率分别对应确定的基波频率和共振频率，即该三个陷波滤波器的中心频率分别为150Hz、300Hz和450Hz。该三个陷波滤波器组合成串行级联的滤波器组。将RAW_VOC通过该滤波器组，得到原始音频帧中的噪声，记为RAW_NOISE。

步骤205、去除原始音频帧中的噪声，得到目标音频帧。

可选地，可以采用频谱减法去除原始音频帧中的噪声，得到目标音频帧。还可以采用时域减法去除原始音频帧中的噪声，得到目标音频帧。

可选地，在采用频谱减法去除原始音频帧中的噪声时，首先需要计算噪声的倒谱，计算噪声的倒谱的方式可以参照上述步骤S1中的相关过程，本申请实施例在此不再赘述。记噪声对应的倒谱NOISE_FFT。采用频谱减法去除原始音频帧中的噪声，也即是计算公式：VOC_FFT＝RAW_FFT-NOISE_FFT。其中“-”表示线性减法，即复数减法。对VOC_FFT进行逆实离散傅里叶变换，得到目标音频帧，记为VOC。

可选地，当采用频谱减法去除原始音频帧中的噪声后，还需消除目标音频帧的边界锯齿信号。即在执行步骤205之后，还可以执行以下步骤S1a和S2a：

在步骤S1a中，采用目标音频帧的前一帧的输出音频信号训练低通滤波器，得到目标滤波器。

示例地，目标音频帧的前一帧的输出音频信号记为VOC1。原始音频帧的采样率为48000Hz，原始音频帧中的一帧包含960个音频采样点。使低通滤波器的初始切点频率为10Hz。使用VOC1的960个音频采样点训练该低通滤波器，即让VOC1通过该滤波器，但丢弃输出采样，只保留滤波器状态。

在步骤S2a中，采用目标滤波器对目标音频帧的多个采样点依次进行滤波处理，其中，目标滤波器每滤波一个采样点，目标滤波器的切点频率提高若干赫兹。

示例地，目标滤波器每滤波一个采样点，目标滤波器的切点频率提高400Hz，即滤波50个采样点后，滤波器的切点频率变为20000Hz。目标滤波器对目标音频帧的全部采样点依次进行滤波处理后，得到输出音频帧，记为VOC_OUT。

可选地，还可以采用其它方式消除目标音频帧的边界锯齿信号。例如，可以使用滑动窗重叠平均后重采样法、对前一次和后一次输出的音频帧的边界采样做蝶形运算、使用Overlap-Add的方法进行实离散傅里叶变换和频域减法或使用改进离散余弦变换(Modified Discrete Cosine Transform，MDCT)算法来取代实离散傅里叶变换得到频域并计算减法等方式消除目标音频帧的边界锯齿信号。

步骤206、对目标音频帧进行动态增益控制，以增大目标音频帧对应的音频音量。

可选地，将目标音频帧与目标音频帧对应的增益因子相乘。原始音频帧为该原始音频帧所在音频(即原始音频)的第n+1个音频帧，则目标音频帧对应的增益因子G(n+1)满足：G(n+1)＝G(n)*α+G_n+1*(1-α)，G_n+1与目标音频帧的采样幅值的绝对值的最大值相关，G(0)＝1，n为正整数。α为参数低通因子，其取值范围为0.001至0.999。

其中，G_n+1＝MAX_AMP/P，其中MAX_AMP为第n+1个音频帧采样位深的最大值，P为第n+1个音频帧采样幅值的绝对值的最大值。示例地，当第n+1个音频帧为8位采样时，则MAX_AMP的值为128。当第n+1个音频帧为16位采样时，则MAX_AMP的值为32768。若G_n+1*P>MAX_AMP，则G(n+1)＝G(n)。可选地，本申请实施例中的α可取值为0.99。

本申请实施例中，通过将目标音频帧中的每个采样点与目标音频帧对应的增益因子相乘，实现对目标音频帧的动态增益控制。

需要说明的是，本申请实施例提供的音频处理方法步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

图3是本申请实施例提供的一种音频处理装置的结构示意图。该装置可以用于计算机设备。如图3所示，装置30包括：

确定模块301，用于采用倒谱技术确定原始音频帧中的基波频率以及共振频率。

滤除模块302，用于采用陷波滤波器从原始音频帧中滤除基波频率对应的信号以及共振频率对应的信号，得到原始音频帧中的噪声。

去除模块303，用于去除原始音频帧中的噪声，得到目标音频帧。

综上所述，本申请实施例提供的音频处理装置，通过确定模块采用倒谱技术确定原始音频帧中的基波频率以及共振频率，并通过滤除模块采用陷波滤波器从原始音频帧中滤除该基波频率对应的信号以及共振频率对应的信号得到原始音频帧中的噪声。之后通过去除模块从原始音频帧中去除该噪声，得到目标音频帧。由于语音信号包括基波频率对应的信号以及共振频率对应的信号，因此从原始音频帧中去除的噪声为原始音频帧中除语音信号以外的信号，得到的目标音频帧为纯净的语音信号。本申请实施例通过滤除原始音频帧中的噪声的方式降低音频中的噪声，可以保证音频中语音的保真度，进而保证音频处理效果。

可选地，确定模块301，用于：

计算原始音频帧对应的倒谱。

根据原始音频帧的倒谱以及人类语音频率范围，确定基波频率以及共振频率。

可选地，确定模块301，用于：

确定原始音频帧的倒谱中人类语音频率范围内的最大倒谱值对应的目标倒频率。

将目标倒频率对应的频率确定为基波频率。

根据原始音频帧的倒谱在目标倒频率区间内的部分，确定至少一个共振频率，目标倒频率区间内包括原始音频帧的倒谱中的第一个倒频率到目标倒频率。

可选地，确定模块301，用于：

计算原始音频帧的倒谱在目标倒频率区间内的部分的目标倒谱。

确定目标倒谱的最大倒谱值对应的倒频率。

将目标倒谱的最大倒谱值对应的倒频率对应的频率确定为一个共振频率。

可选地，原始音频帧包括N个音频采样点，原始音频帧的倒谱包含N个倒频率，N个倒频率的序号分别为0至N-1，目标倒频率为N个倒频率中的第M个倒频率，目标倒频率区间为[0,M-1]，N和M均为正整数，0<M≤N。

基波频率B1满足：B1＝(SF/2)*(1-(M/N))，SF为原始音频帧的采样频率。

可选地，去除模块303，用于：

采用频谱减法去除原始音频帧中的噪声，得到目标音频帧。

可选地，如图4所示，装置30还包括：

消除模块304，用于消除目标音频帧的边界锯齿信号。

可选地，消除模块304，用于：

采用目标音频帧的前一帧的输出音频信号训练低通滤波器，得到目标滤波器。

采用目标滤波器对目标音频帧的多个采样点依次进行滤波处理，其中，目标滤波器每滤波一个采样点，目标滤波器的切点频率提高若干赫兹。

可选地，如图5所示，装置30还包括：

控制模块305，用于对目标音频帧进行动态增益控制，以增大目标音频帧对应的音频音量。

可选地，控制模块305，用于：

将目标音频帧与目标音频帧对应的增益因子相乘，原始音频帧为原始音频帧所在音频的第n+1个音频帧，目标音频帧对应的增益因子G(n+1)满足：G(n+1)＝G(n)*α+G_n+1*(1-α)，G_n+1与目标音频帧的采样幅值的绝对值的最大值相关，G(0)＝1，n为正整数，α为参数低通因子，α的取值范围为0.001至0.999。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供了一种音频处理装置。用于计算机设备，该装置包括：处理器和存储器；

存储器，用于存储计算机程序，所述计算机程序包括程序指令；处理器，用于调用所述计算机程序，实现如图1或图2所示的音频处理方法。

可选地，本申请实施例中的计算机设备可以是服务器或终端。该服务器可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心等等，在此不做限定。该终端可以是具有音频录制功能的终端设备，例如可以是手机、平板电脑、电脑或可穿戴设备等。

图6是本申请实施例提供的一种终端的框图。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的音频处理方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端600的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质上存储有指令，当该指令被计算机设备的处理器执行时，实现如图1或图2所示的音频处理方法。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的构思和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

计算原始音频帧的倒谱；

将所述目标倒频率对应的频率确定为所述原始音频帧中的基波频率；

计算所述原始音频帧的倒谱在目标倒频率区间内的部分的目标倒谱，所述目标倒频率区间包括所述原始音频帧的倒谱中的第一个倒频率到所述目标倒频率；确定所述目标倒谱的最大倒谱值对应的倒频率；将所述目标倒谱的最大倒谱值对应的倒频率所对应的频率确定为所述原始音频帧中的一个共振频率；根据所述目标倒谱，确定所述原始音频帧中的其它共振频率；

采用陷波滤波器从所述原始音频帧中滤除所述基波频率对应的信号以及所述共振频率对应的信号，得到所述原始音频帧中的噪声；

采用频谱减法在所述原始音频帧的傅里叶变换谱中去除所述噪声的傅里叶变换谱，并对去除的结果进行逆实离散傅里叶变换，得到目标音频帧；

将所述目标音频帧与所述目标音频帧对应的增益因子相乘，以增大所述目标音频帧对应的音频音量；其中，所述原始音频帧为所述原始音频帧所在音频的第n+1个音频帧，所述目标音频帧对应的增益因子G(n+1)满足：G(n+1)＝G(n)*α+G_n+1*(1-α)，G_n+1＝MAX_AMP/P，MAX_AMP为所述第n+1个音频帧的采样位深的最大值，P为所述第n+1个音频帧的采样幅值的绝对值的最大值，G(0)＝1，n为正整数，α为参数低通因子，α的取值范围为0.001至0.999；

其中，所述原始音频帧包括N个音频采样点，所述原始音频帧的倒谱包含N个倒频率，所述N个倒频率的序号分别为0至N-1，所述目标倒频率为所述N个倒频率中的第M个倒频率，所述目标倒频率区间为[0，M-1]，N和M均为正整数，0<M≤N；所述基波频率B1满足：B1＝(SF/2)*(1-(M/N))，SF为所述原始音频帧的采样频率；所述原始音频帧的傅里叶变换谱是通过对所述原始音频帧进行加窗操作后进行实离散傅里叶变换得到的，所述噪声的傅里叶变换谱是通过对所述噪声进行所述加窗操作后进行所述实离散傅里叶变换得到的。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

消除所述目标音频帧的边界锯齿信号。

3.根据权利要求2所述的方法，其特征在于，所述消除所述目标音频帧的边界锯齿信号，包括：

4.一种音频处理装置，其特征在于，所述装置包括：

确定模块，用于计算原始音频帧的倒谱；确定所述原始音频帧的倒谱中人类语音频率范围内的最大倒谱值对应的目标倒频率；将所述目标倒频率对应的频率确定为所述原始音频帧中的基波频率；计算所述原始音频帧的倒谱在目标倒频率区间内的部分的目标倒谱，所述目标倒频率区间包括所述原始音频帧的倒谱中的第一个倒频率到所述目标倒频率；确定所述目标倒谱的最大倒谱值对应的倒频率；将所述目标倒谱的最大倒谱值对应的倒频率所对应的频率确定为所述原始音频帧中的一个共振频率；根据所述目标倒谱，确定所述原始音频帧中的其它共振频率；

滤除模块，用于采用陷波滤波器从所述原始音频帧中滤除所述基波频率对应的信号以及所述共振频率对应的信号，得到所述原始音频帧中的噪声；

去除模块，用于采用频谱减法在所述原始音频帧的傅里叶变换谱中去除所述噪声的傅里叶变换谱，并对去除的结果进行逆实离散傅里叶变换，得到目标音频帧；

控制模块，用于将所述目标音频帧与所述目标音频帧对应的增益因子相乘，以增大所述目标音频帧对应的音频音量；其中，所述原始音频帧为所述原始音频帧所在音频的第n+1个音频帧，所述目标音频帧对应的增益因子G(n+1)满足：G(n+1)＝G(n)*α+G_n+1*(1-α)，G_n+1＝MAX_AMP/P，MAX_AMP为所述第n+1个音频帧的采样位深的最大值，P为所述第n+1个音频帧的采样幅值的绝对值的最大值，G(0)＝1，n为正整数，α为参数低通因子，α的取值范围为0.001至0.999；

5.一种音频处理装置，其特征在于，应用于计算机设备，包括：处理器和存储器；

所述处理器，用于调用所述计算机程序，实现如权利要求1至3任一所述的音频处理方法。

6.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有指令，当所述指令被计算机设备的处理器执行时，实现如权利要求1至3任一所述的音频处理方法。