CN109841223B

CN109841223B - 一种音频信号处理方法、智能终端及存储介质

Info

Publication number: CN109841223B
Application number: CN201910168540.3A
Authority: CN
Inventors: 许丽净; 黄继武
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2020-11-24
Anticipated expiration: 2039-03-06
Also published as: CN109841223A

Abstract

本发明公开了一种音频信号处理方法、智能终端及存储介质，所述方法包括：运用离散傅里叶变换将输入的音频信号从时域变换至频域，得到频谱样值；根据所述频谱样值计算频域能量分布导数；根据所述频域能量分布导数计算频谱样值的增益值；根据所述增益值调整频谱样值，得到增强后的频谱样值；运用离散傅里叶变换的逆变换将增强后的频谱样值从频域变换至时域，得到增强后的音频信号。本发明通过抑制背景声音，有效的提升了前景声音的清晰度，不依赖于声道间信息，适用于单声道、立体声及多声道信号，且计算复杂度低。

Description

一种音频信号处理方法、智能终端及存储介质

技术领域

本发明涉及音频信号处理技术领域，尤其涉及一种音频信号处理方法、智能终端及存储介质。

背景技术

针对某个音频场景，位于前景(foreground)的声音(下文简称为前景声音)是指该场景中处于主导地位的声音，位于背景(background)的声音(下文简称为背景声音)是指该场景中处于次要地位的声音。根据音频场景的不同，前景声音可以是对话、独白、唱歌、音乐或是音效等；背景声音可以是背景噪声、背景音乐及环境声等。因此，前景声音是指该场景中的“主角”所发出的声音，并不局限于人声；背景声音是指该场景中的“配角”所发出的声音，并不局限于噪声。

在某些应用场景下，由于背景声音的干扰，会严重影响前景声音的听觉效果。例如：从1930年至1950年期间，电影的声音主要采用光学录音；20世纪50年代，磁性录音技术逐渐取代了光学录音。将老电影的声音数字化后，背景声音中包括明显的宽带噪声等，严重影响观众的观影体验，需要对其进行数字化修复。在观看体育赛事转播时，前景声音是体育解说员的声音；背景声音包括的现场广播、现场观众及拉拉队等发出的声音；当背景声音过大时，部分观众可能会听不清体育解说员的声音。在使用微信等即时通讯程序发送语音短信时，用户可能处于地铁站、餐馆等嘈杂的环境中；语音短信的背景声音中包括较强的环境声，对方可能会听不清语音短信的内容。

针对上述应用场景，有必要对音频信号进行增强处理，以便提升应用场景中的“主角”发出的前景声音的清晰度(clarity)。在音频信号增强方面，现有技术主要是针对立体声信号及多声道信号的语音增强(dialog enhancement)，用于帮助听力衰退的老年人及轻度听力损失的人群提高输入语音信号的清晰度及可懂度。

现有技术给出如下解决方式：针对立体声信号，假设输入信号中的语音位于声场的中心；针对多声道信号，假设输入信号中的语音位于中声道。现有技术的处理步骤为：

生成语音声道(speech channel)及非语音声道(non-speech channel)；针对语音通道，使用峰值滤波器(peaking filter)进行滤波，用于增强以语音的第三共振峰所处频带为中心频带的频率区域；针对非语音通道进行衰减处理；合成增强后的语音通道及衰减后的非语音通道，生成增强后的输出信号。

可以看出，现有技术仅适用于输入信号中的语音位于声场中心的立体声及多声道信号；如果输入信号中的语音不位于声场中心，则语音增强效果显著降低；如果输入信号为单声道，例如老电影的声音、语音短信等，现有技术是无效的；也就是说现有技术存在的缺点是语音增强适应性较低，依赖性较强。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术上述缺陷，本发明提供一种音频信号处理方法、智能终端及存储介质，通过抑制背景声音，有效的提升了前景声音的清晰度，不依赖于声道间信息，适用于单声道、立体声及多声道信号，且计算复杂度低。

本发明解决技术问题所采用的技术方案如下：

一种音频信号处理方法，其中，所述音频信号处理方法包括：

运用离散傅里叶变换将输入的音频信号从时域变换至频域，得到频谱样值；

根据所述频谱样值计算频域能量分布导数；

根据所述频域能量分布导数计算频谱样值的增益值；

根据所述增益值调整频谱样值，得到增强后的频谱样值；

运用离散傅里叶变换的逆变换将增强后的频谱样值从频域变换至时域，得到增强后的音频信号。

所述的音频信号处理方法，其中，所述根据所述频谱样值计算频域能量分布导数具体包括：

对所述频谱样值进行均衡处理；

根据均衡后的频谱样值计算频谱能量分布比值；

对所述频谱能量分布比值求导，得到频域能量分布导数。

所述的音频信号处理方法，其中，所述根据所述频域能量分布导数计算频谱样值的增益值具体包括：

确定导数阈值；

根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值。

所述的音频信号处理方法，其中，所述根据均衡后的频谱样值计算频谱能量分布比值具体包括：

根据

得到频域能量分布比值；

其中，N表示离散傅里叶变换变换为N点，m(m≥0)表示帧数，k(0≤k＜N/2)表示谱线，Y_Re(m，k)表示均衡后的频谱样值的实部，Y_Im(m，k)表示均衡后的频谱样值的虚部，R(m，k)表示频域能量分布比值。

所述的音频信号处理方法，其中，所述对所述频谱能量分布比值求导，得到频域能量分布导数具体包括：

根据

得到频域能量分布导数；

其中，M表示数值微分点数，m表示帧数，k表示谱线，D(m，k)表示频域能量分布导数。

所述的音频信号处理方法，其中，所述确定导数阈值具体包括：

设置导数阈值为第一系数；

或者根据对数能量确定导数阈值；

或者根据平均对数能量确定导数阈值。

所述的音频信号处理方法，其中，所述根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值具体包括：

预先设置第二系数，对于任一当前谱线，如果频域能量分布导数大于等于导数阈值，设置当前谱线的频谱样值的增益值为1；

如果频域能量分布导数小于第二系数，设置当前谱线的频谱样值的增益值为0；

如果频域能量分布导数大于等于第二系数，且小于导数阈值，设置当前谱线的频谱样值的增益值为频域能量分布导数与导数阈值的比值。

所述的音频信号处理方法，其中，所述确定导数阈值的方法包括：设置导数阈值为常量和设置导数阈值为变量。

一种智能终端，其中，所述智能终端包括如上所述的音频信号处理系统，还包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频信号处理程序，所述音频信号处理程序被所述处理器执行时实现如上所述的音频信号处理方法的步骤。

一种存储介质，其中，所述存储介质存储有音频信号处理程序，所述音频信号处理程序被处理器执行时实现如上所述音频信号处理方法的步骤。

附图说明

图1是本发明音频信号处理方法的较佳实施例的流程图；

图2是本发明音频信号处理方法的较佳实施例的具体实施流程示意图；

图3是本发明音频信号处理方法的较佳实施例中均衡系数对应的频率响应曲线的示意图；

图4是本发明音频信号处理方法的较佳实施例中对输入信号的频谱进行均衡处理得到的增强信号频谱示意图；

图5为本发明实施例用于举例的样本序列的示意图；其中，图5A为时域波形图，图5B为语谱图，图5C为经过均衡处理后的语谱图；

图6A至图6C为本发明实施例的频域能量分布比值的示意图；

图7A至图7C为本发明实施例的频域能量分布导数的示意图；

图8为本发明实施例的导数阈值的示意图；

图9为本发明实施例的频谱增益值的示意图；

图10A至图10C为本发明实施例的未增强与已增强的频谱曲线的对比示意图；

图11为本发明实施例的未增强与已增强的时域波形图的对比示意图；

图12为本发明实施例的未增强与已增强的语谱图的对比示意图；

图13为本发明智能终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

前景声音与背景声音是同时存在的。在频域上，对于每个频带，可能是前景声音占主导地位，也可能是背景声音占主导地位，或是两者的影响同时存在。根据前景声音与背景声音在频域的分布情况，在不同的频带对背景声音进行不同程度的抑制，可以有效的提升前景声音的清晰度，实现音频信号增强的目的。

本发明较佳实施例所述的音频信号处理方法，如图1所示，一种音频信号处理方法,其中，所述音频信号处理方法包括以下步骤：

步骤101、运用离散傅里叶变换将输入的音频信号从时域变换至频域，得到频谱样值。

具体地，利用DFT(Discrete Fourier Transform，，离散傅里叶变换)变换将输入的音频信号从时域变换至频域，得到频谱样值。

进一步地，设n为样点数，y(n)(n≥0)表示输入信号；设m为帧数，k为谱线(frequency bin)，对输入信号y(n)进行N点DFT变换，得到频谱样值Y(m，k)(m≥0；0≤k＜N/2)。

步骤102、根据所述频谱样值计算频域能量分布导数(计算每谱线的频域能量分布导数)。

具体地，对所述频谱样值进行均衡处理；根据均衡后的频谱样值计算频谱能量分布比值；对所述频谱能量分布比值求导，得到频域能量分布导数。

进一步地，所述根据均衡后的频谱样值计算频谱能量分布比值具体包括：

根据

得到频域能量分布比值；

进一步地，所述对所述频谱能量分布比值求导，得到频域能量分布导数具体包括：

根据

得到频域能量分布导数；

随着频率f(f≥0)的增长，位于频率区间[0，f]的频域能量是单调递增的，频域能量分布函数用于描述频域能量的分布规律。

前景声音主要包括语音信号及音乐信号。语音信号中的浊音及大多数音乐信号是有调音，能量主要集中在基频分量及谐波分量所处的频率区间。语音信号中的清音是无调音，能量主要集中在一定的频率范围内。在基频分量及谐波分量所处的频率区间，以及清音能量集中的频率范围内，频域能量分布函数值快速增长。因此，如果某频带的频域能量分布函数值快速增长，说明前景声音在该频带占主导地位。

背景声音主要包括背景噪声、背景音乐及环境声。一部分背景声音的能量分布在较宽的频率范围内，如背景噪声及环境声等，频域能量分布函数值会在较宽的频率范围内缓慢增长，在其它频率范围内基本保持不变；另一部分背景声音的能量可能会集中在某些频率区间，如背景音乐等，但是由于背景音乐的能量明显小于前景声音的能量，在背景音乐的能量集中的频率区间，频域能量分布函数值不会出现快速增长。因此，如果某频带的频域能量分布函数值缓慢增长或是基本保持不变，说明背景声音在该频带占主导地位。

为了对频域能量分布函数值的“快速增长”、“缓慢增长”及“基本保持不变”进行量化分析，对频域能量分布函数值求导，得到每谱线的频域能量分布导数。因此，频域能量分布导数能够用于描述前景声音与背景声音在频域的分布情况。

步骤103、根据所述频域能量分布导数计算频谱样值的增益值(计算每谱线的频谱样值的增益值)。

具体地，确定导数阈值；根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值。

其中，所述确定导数阈值具体包括：设置导数阈值为第一系数；或者根据对数能量确定导数阈值；或者根据平均对数能量确定导数阈值。

进一步地，所述根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值具体包括：预先设置第二系数(第二系数为一个经验值，本发明实施例中可以设置为0，也可以设置为其他值)，对于任一当前谱线，如果频域能量分布导数大于等于导数阈值，设置当前谱线的频谱样值的增益值为1；如果频域能量分布导数小于第二系数，设置当前谱线的频谱样值的增益值为0；如果频域能量分布导数大于等于第二系数，且小于导数阈值，设置当前谱线的频谱样值的增益值为频域能量分布导数与导数阈值的比值。

设g(m，k)(m≥0；0≤k＜N/2)表示第k个谱线的频谱样值的增益值，取值范围是[0，1]，根据某谱线的频域能量分布导数值，可以确定该谱线的频谱样值的增益值。

步骤104、根据所述增益值调整频谱样值，得到增强后的频谱样值。

具体地，设增强后的频谱样值为Y_EN(m，k)(m≥0；0≤k＜N/2)，则：

Y_EN(m，k)＝g(m，k)·Y(m，k)；

如果g(m，k)＝1，，表示前景声音在第k个谱线上占主导地位，应完全保留位于第k个谱线的频域信号；如果g(m，k)＝0，表示背景声音在第k个谱线上占主导地位，应完全抑制位于第k个谱线的频域信号；如果g(m，k)值介于0和1之间，表示前景声音与背景声音的影响在第k个谱线是同时存在的，应部分保留位于第k个谱线的频域信号。

步骤105、运用离散傅里叶变换的逆变换将增强后的频谱样值从频域变换至时域，得到增强后的音频信号。

具体地，利用IDFT(离散傅里叶变换的逆变换)变换将增强后的频谱样值从频域变换至时域，得到增强后的音频信号。

对增强后的频谱样值Y_EN(m，k)进行N点的IDFT变换，得到增强后的输出信号y_EN(n)(n≥0)。

与图1相比，图2是本发明实施例提供的更为详细的实施流程图。如图2中的模块2所示，步骤102可以分解为如下步骤：

步骤201，对频谱样值进行均衡处理。

均衡处理用于提升输入信号频谱的高频分量的振幅。设W_EQ(k)(0≤k＜N/2)表示对应于谱线0至谱线(N/2-1)的一组均衡系数，Y_EQ(m，k)(m≥0；0≤k＜N/2)表示经过均衡处理后的频谱样值，则：

Y_EQ(m，k)＝W_EQ(k)·Y(m，k)。

在本实施例中，均衡系数W_EQ(k)对应的频率响应曲线如图3所示，其中，横轴表示频率(Hz)，纵轴表示增益值。需要强调的是，Y_EQ(m，k)仅用于步骤102，用于分析前景声音与背景声音在频域的分布情况，以便计算频域能量分布导数。在步骤104计算增强后的频谱样值时，使用的仍然是未经过均衡处理的频谱样值Y(m，k)。

如果省略均衡处理，在步骤102中直接使用Y(m，k)计算增益值，会使得增强后的频谱样值Y_EN(m，k)丢失较多的高频分量。图4给出一帧歌声信号经过增强处理后的频谱曲线。其中，横轴表示频率(Hz)，f1至f6表示位于高频的谐频；纵轴表示频谱值(dBFS)。对输入信号的频谱进行均衡处理，得到的增强信号频谱如图4中的虚线所示；未对输入信号的频谱进行均衡处理，得到的增强信号频谱如图4中的实线所示。对比实线与虚线中位于f1至f6的高次谐波分量，可以看出，实线中的高次谐波分量被显著衰减，由此会导致增强后信号的音色及声场变差。因此，对输入频谱样值进行均衡处理是必要的。

步骤202，针对均衡后的频谱样值，计算每谱线的频谱能量分布比值。

设Y_Re(m，k)(m≥0；0≤k＜N/2)表示经过均衡处理后的频谱样值的实部，则：

设Y_Im(m，k)(m≥0；0≤k＜N/2)表示经过均衡处理后的频谱样值的虚部，则：

设R(m，k)(m≥0；0≤k＜N/2)表示频域能量分布比值，则：

其中，分子表示第m帧信号在谱线0至谱线k所对应的频率范围内的能量总和，分母表示第m帧信号的频域能量总和。

以一段老电影的声音片段为例，对频谱能量分布比值进行说明。样本序列的时域波形如图5A所示。其中，横轴为样点数，s₁及s₂表示第s₁个样本点及第s₂个样本点；纵轴为归一化的幅值。从序列起点到第s₁个样本点之间为语音信号，从第s₁个样本点到第s₂个样本点之间为音乐信号。样本序列的未经过均衡处理的语谱图如图5B所示，经过均衡处理的语谱图如图5C所示。在图5B及图5C中，横轴为帧数，fr₁及fr₂表示第fr₁帧及第fr₂帧；纵轴为频率(Hz)。图5B及图5C中的第fr₁帧及第fr₂帧分别对应于图5A中的第s₁个样本点及第s₂个样本点。从序列起始帧到第fr₁帧之间为语音信号，从第fr₁帧到第fr₂帧之间为音乐信号。在图5C中，fr_A、fr_B及fr_C分别表示第fr_A帧、第fr_B帧及第fr_C帧。第fr_A帧为浊音帧，包括一组谐波分量，基频为f₀，二次谐频、三次谐频及四次谐频分别为f₂、f₃及f₄。第fr_B帧为清音帧，f_a至f_c表示能量集中分布的频率范围，f_b表示峰频率。第fr_C帧为音乐帧，包括不止一组谐波分量。其中，第一组谐波分量的基频为f1₀，二次谐频、三次谐频及四次谐频分别为f1₂、f1₃及f1₄；第二组谐波分量的基频为f2₀，二次谐频为f2₂；第三组谐波分量的基频为f3₀，二次谐频为f3₂。

第fr_A帧、第fr_B帧及第fr_C帧的频域能量分布比值分别如图6A、图6B及图6C所示。其中，横轴表示谱线值；纵轴表示比值，取值范围为[0，1]。在图6A中，谱线k₀对应于基频f₀，谱线k₂、k₃及k₄分别对应于谐频f₂、f₃及f₄。由图可见，在基频分量、二次谐波、三次谐波及四次谐波所处的谱线区间，频域能量分布比值出现不同程度的“跳变”；在其它谱线区间，频域能量分布比值缓慢增长或是基本保持不变。在图6B中，谱线k_a、k_b及k_c对应于频率f_a、f_b及f_c。由图可见，在清音信号能量集中的谱线区间k_a至k_c，频域能量分布比值由0快速增长至1；在峰频率对应的谱线k_b处，频域能量分布比值的增长速率达到最大。在图6C中，谱线k1₀、k1₂、k1₃及k1₄对应于f1_o、f1₂、f1₃及f1₄，谱线k2₀及k2₂对应于f2₀及f2₂，谱线k3₀及k3₂对应于f3₀及f3₂。由图可见，类似于浊音信号，在基频分量及谐波分量所处的谱线区间，频域能量分布比值出现不同程度的“跳变”；在其它谱线区间，频域能量分布比值缓慢增长或是基本保持不变。

步骤203，对频谱能量分布比值求导，得到每谱线的频域能量分布导数。

设D(m，k)(m≥0；0≤k＜N/2)表示频域能量分布导数，利用拉格朗日(Lagrange)数值微分法，对频谱能量分布比值进行求导。设常数M表示数值微分点数，有

；在本实施例中，设置M＝7。

当

时，有

当0≤k＜3或

时，有

D(m，k)＝0；

第fr_A帧、第fr_B帧及第fr_C帧的频域能量分布导数分别如图7A、图7B及图7C所示。其中，横轴表示谱线值；纵轴表示频域能量导数值。由图可见，针对浊音信号及音乐信号，在基频分量及谐波分量所处的谱线区间，频域能量分布导数明显增大；针对清音信号，在清音信号能量集中的谱线区间，频域能量分布导数明显增大。因此，利用频域能量分布导数能够准确地描述出频域能量在不同频带的分布情况。基于频域能量在不同频带的分布情况，就可以区别出前景声音占主导地位的频带以及背景声音占主导地位的频带。

如图2中的模块3所示，步骤103可以分解为如下步骤：

步骤301，确定每谱线的导数阈值。

设T(m)(m≥0)表示第m帧的导数阈值，确定导数阈值的方法有两种：

(1)设置导数阈值为常量

设T(T＞0)为常数，有T(m)＝T。

(2)设置导数阈值为变量

设logE(m)(m≥0)表示第m帧的对数能量。针对以第m帧为中心的邻域组成的帧集合，设

表示帧集合内的对数能量的平均值，即第m帧的平均对数能量。设F_TH为导数阈值函数，该函数的自变量可以为logE(m)或是

当自变量为logE(m)时，有T(m)＝F_TH(logE(m))。根据实时对数能量确定导数阈值，不会引入延时，可用于实时处理。当自变量为

时，有

根据平均对数能量确定导数阈值，可以使得导数阈值的变化更为平滑，但是会引入少量延时。

导数阈值越大，对背景声音的抑制程度越大，但是前景声音的音色也可能会受到一定程度的损伤。当声音的对数能量越大时，前景声音的音色越不容易受到导数阈值的影响，为了抑制更多的背景声音，可以适当增大导数阈值；当声音的对数能量越小时，前景声音的音色越容易受到导数阈值的影响，为了确保前景声音的音色不被损伤，应当减小导数阈值。

在本实施例中，F_TH函数如图8所示。其中，横轴表示对数能量值或平均对数能量值(dB)，纵轴表示导数阈值。由图8可见，导数阈值的取值呈现“中间低两边高”的趋势。当语音信号的对数能量位于横轴的中间区域时，一般属于前景声音，因此，利用导数阈值“中间低”来保证语音信号的音色不受损伤。当语音信号的对数能量较小时，一般属于背景声音，保持音色的问题可以不予考虑；当语音信号的对数能量较大时，语音信号的音色不容易受到导数阈值取值的影响。因此，利用导数阈值“两边高”来抑制更多的背景声音。

步骤302，根据频域能量分布导数及导数阈值，计算每谱线的频谱样值的增益值。

根据步骤103，已知g(m，k)表示第k个谱线的频谱样值的增益。设T_min(T_min≥0)为常数，针对第m帧的第k个谱线，计算增益值的步骤为：

(1)如果D(m，k)≥T(m)，有g(m，k)＝1；

(2)如果D(m，k)＜T_min，有g(m，k)＝0；

(3)如果T_min≤D(m，k)＜T(m)，有

在本实施例中，T_min为第二系数，可设置T_min＝0。以图5的样本序列为例，对频谱样值的增益值进行说明，采用实时对数能量计算导数阈值，如图9所示。其中，横轴表示帧数，纵轴表示频率(Hz)。设(x，y)对应于第x帧第y谱线，如图右侧颜色栏所示，利用(x，y)点的颜色来表示第x帧第y谱线的增益值。在图5的样本序列中，从起始帧到第fr₁帧之间的前景声音是语音信号，从第fr₁帧到第fr₂帧之间的前景声音是音乐信号；背景声音是宽带噪声。由图9可见，针对宽带噪声占主导地位的谱线，增益值基本是取0的，说明背景声音被有效的抑制；针对前景声音占主导地位的谱线，增益值基本是接近1的，说明在抑制背景声音的同时，前景声音也被保留下来。

以下给出本实施例的算法仿真结果。以图5的样本序列为例，首先给出典型的浊音帧、清音帧及音乐帧增强前后的频谱曲线对比图，再给出整个样本序列增强前后的时域波形及语谱图的对比图。

第fr_A帧、第fr_B帧及第fr_C帧增强前后的频谱曲线对比图分别如图10A、图10B及图10C所示。其中，横轴表示频率(Hz)，纵轴表示频谱值(dBFS)。未增强的频谱曲线如虚线所示，已增强的频谱曲线如实线所示。对比图10A的实线及虚线，可以看出，针对浊音信号，基频分量及谐波分量在增强后的频谱曲线中被保留，其它频域分量被抑制。对比图10B的实线及虚线，可以看出，位于f_a至f_c之间的清音分量在增强后的频谱曲线中被保留，其它频域分量被抑制。对比图10C的实线及虚线，可以看出，针对音乐信号，多组基频分量及谐波分量在增强后的频谱曲线中被保留，其它频域分量被抑制。

图5的样本序列增强前后的时域波形如图11所示。其中，图11A表示增强前的时域波形，图11B表示增强后的时域波形。对比增强前后的时域波形图，可以看出，老电影声音中的宽带噪声已经被有效抑制。样本序列增强前后的语谱图如图12所示。其中，图12中的图A表示增强前的语谱图，图12中的图B表示增强后的语谱图。与增强前的语谱图相比，增强后的语谱图呈现出“去雾”的效果。在保留前景声音的同时，对背景声音进行了有效的抑制。

进一步地，如图13所示，基于上述音频信号处理方法，本发明还相应提供了一种智能终端，所述智能终端包括处理器10、存储器20及显示器30。图13仅示出了智能终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述智能终端的内部存储单元，例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备，例如所述智能终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据，例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有音频信号处理程序40，该音频信号处理程序40可被处理器10所执行，从而实现本申请中音频信号处理方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述音频信号处理方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中音频信号处理程序40时实现以下步骤：

根据所述频谱样值计算频域能量分布导数；

根据所述频域能量分布导数计算频谱样值的增益值；

根据所述增益值调整频谱样值，得到增强后的频谱样值；

本发明还提供一种存储介质，其中，所述存储介质存储有音频信号处理程序，所述音频信号处理程序被处理器执行时实现所述音频信号处理方法的步骤；具体如上所述。

综上所述，本实施例提供的方案具有以下四点有益的效果：

(1)不依赖于声道间信息，适用于单声道、立体声及多声道信号；

(2)用于前景声音增强，不局限于语音增强；通过抑制背景声音，有效的提升了前景声音的清晰度；

(3)计算复杂度低；

(4)不引入延时或是仅引入少量延时。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种音频信号处理方法，其特征在于，所述音频信号处理方法包括：

根据所述频谱样值计算频域能量分布导数；

根据所述频域能量分布导数计算频谱样值的增益值；

所述根据所述频域能量分布导数计算频谱样值的增益值具体包括：

确定导数阈值；

根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值；

根据所述增益值调整频谱样值，得到增强后的频谱样值；

2.根据权利要求1所述的音频信号处理方法，其特征在于，所述根据所述频谱样值计算频域能量分布导数具体包括：

对所述频谱样值进行均衡处理；

根据均衡后的频谱样值计算频谱能量分布比值；

对所述频谱能量分布比值求导，得到频域能量分布导数。

3.根据权利要求2所述的音频信号处理方法，其特征在于，所述根据均衡后的频谱样值计算频谱能量分布比值具体包括：

根据

得到频域能量分布比值；

4.根据权利要求2所述的音频信号处理方法，其特征在于，所述对所述频谱能量分布比值求导，得到频域能量分布导数具体包括：

根据

得到频域能量分布导数；

其中，M表示数值微分点数，m表示帧数，i、j和k表示谱线，D(m，k)表示频域能量分布导数，N表示离散傅里叶变换变换为N点。

5.根据权利要求1所述的音频信号处理方法，其特征在于，所述确定导数阈值具体包括：

设置导数阈值为第一系数；

或者根据对数能量确定导数阈值；

或者根据平均对数能量确定导数阈值。

6.根据权利要求1所述的音频信号处理方法，其特征在于，所述根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值具体包括：

7.根据权利要求5所述的音频信号处理方法，其特征在于，所述确定导数阈值的方法包括：设置导数阈值为常量和设置导数阈值为变量。

8.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频信号处理程序，所述音频信号处理程序被所述处理器执行时实现如权利要求1-7任一项所述的音频信号处理方法的步骤。

9.一种存储介质，其特征在于，所述存储介质存储有音频信号处理程序，所述音频信号处理程序被处理器执行时实现如权利要求1-7任一项所述音频信号处理方法的步骤。