CN109841223B - 一种音频信号处理方法、智能终端及存储介质 - Google Patents

一种音频信号处理方法、智能终端及存储介质 Download PDF

Info

Publication number
CN109841223B
CN109841223B CN201910168540.3A CN201910168540A CN109841223B CN 109841223 B CN109841223 B CN 109841223B CN 201910168540 A CN201910168540 A CN 201910168540A CN 109841223 B CN109841223 B CN 109841223B
Authority
CN
China
Prior art keywords
derivative
energy distribution
frequency domain
audio signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910168540.3A
Other languages
English (en)
Other versions
CN109841223A (zh
Inventor
许丽净
黄继武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201910168540.3A priority Critical patent/CN109841223B/zh
Publication of CN109841223A publication Critical patent/CN109841223A/zh
Application granted granted Critical
Publication of CN109841223B publication Critical patent/CN109841223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种音频信号处理方法、智能终端及存储介质,所述方法包括:运用离散傅里叶变换将输入的音频信号从时域变换至频域,得到频谱样值;根据所述频谱样值计算频域能量分布导数;根据所述频域能量分布导数计算频谱样值的增益值;根据所述增益值调整频谱样值,得到增强后的频谱样值;运用离散傅里叶变换的逆变换将增强后的频谱样值从频域变换至时域,得到增强后的音频信号。本发明通过抑制背景声音,有效的提升了前景声音的清晰度,不依赖于声道间信息,适用于单声道、立体声及多声道信号,且计算复杂度低。

Description

一种音频信号处理方法、智能终端及存储介质
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种音频信号处理方法、智能终端及存储介质。
背景技术
针对某个音频场景,位于前景(foreground)的声音(下文简称为前景声音)是指该场景中处于主导地位的声音,位于背景(background)的声音(下文简称为背景声音)是指该场景中处于次要地位的声音。根据音频场景的不同,前景声音可以是对话、独白、唱歌、音乐或是音效等;背景声音可以是背景噪声、背景音乐及环境声等。因此,前景声音是指该场景中的“主角”所发出的声音,并不局限于人声;背景声音是指该场景中的“配角”所发出的声音,并不局限于噪声。
在某些应用场景下,由于背景声音的干扰,会严重影响前景声音的听觉效果。例如:从1930年至1950年期间,电影的声音主要采用光学录音;20世纪50年代,磁性录音技术逐渐取代了光学录音。将老电影的声音数字化后,背景声音中包括明显的宽带噪声等,严重影响观众的观影体验,需要对其进行数字化修复。在观看体育赛事转播时,前景声音是体育解说员的声音;背景声音包括的现场广播、现场观众及拉拉队等发出的声音;当背景声音过大时,部分观众可能会听不清体育解说员的声音。在使用微信等即时通讯程序发送语音短信时,用户可能处于地铁站、餐馆等嘈杂的环境中;语音短信的背景声音中包括较强的环境声,对方可能会听不清语音短信的内容。
针对上述应用场景,有必要对音频信号进行增强处理,以便提升应用场景中的“主角”发出的前景声音的清晰度(clarity)。在音频信号增强方面,现有技术主要是针对立体声信号及多声道信号的语音增强(dialog enhancement),用于帮助听力衰退的老年人及轻度听力损失的人群提高输入语音信号的清晰度及可懂度。
现有技术给出如下解决方式:针对立体声信号,假设输入信号中的语音位于声场的中心;针对多声道信号,假设输入信号中的语音位于中声道。现有技术的处理步骤为:
生成语音声道(speech channel)及非语音声道(non-speech channel);针对语音通道,使用峰值滤波器(peaking filter)进行滤波,用于增强以语音的第三共振峰所处频带为中心频带的频率区域;针对非语音通道进行衰减处理;合成增强后的语音通道及衰减后的非语音通道,生成增强后的输出信号。
可以看出,现有技术仅适用于输入信号中的语音位于声场中心的立体声及多声道信号;如果输入信号中的语音不位于声场中心,则语音增强效果显著降低;如果输入信号为单声道,例如老电影的声音、语音短信等,现有技术是无效的;也就是说现有技术存在的缺点是语音增强适应性较低,依赖性较强。
因此,现有技术还有待于改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术上述缺陷,本发明提供一种音频信号处理方法、智能终端及存储介质,通过抑制背景声音,有效的提升了前景声音的清晰度,不依赖于声道间信息,适用于单声道、立体声及多声道信号,且计算复杂度低。
本发明解决技术问题所采用的技术方案如下:
一种音频信号处理方法,其中,所述音频信号处理方法包括:
运用离散傅里叶变换将输入的音频信号从时域变换至频域,得到频谱样值;
根据所述频谱样值计算频域能量分布导数;
根据所述频域能量分布导数计算频谱样值的增益值;
根据所述增益值调整频谱样值,得到增强后的频谱样值;
运用离散傅里叶变换的逆变换将增强后的频谱样值从频域变换至时域,得到增强后的音频信号。
所述的音频信号处理方法,其中,所述根据所述频谱样值计算频域能量分布导数具体包括:
对所述频谱样值进行均衡处理;
根据均衡后的频谱样值计算频谱能量分布比值;
对所述频谱能量分布比值求导,得到频域能量分布导数。
所述的音频信号处理方法,其中,所述根据所述频域能量分布导数计算频谱样值的增益值具体包括:
确定导数阈值;
根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值。
所述的音频信号处理方法,其中,所述根据均衡后的频谱样值计算频谱能量分布比值具体包括:
根据
Figure BDA0001987168120000041
得到频域能量分布比值;
其中,N表示离散傅里叶变换变换为N点,m(m≥0)表示帧数,k(0≤k<N/2)表示谱线,YRe(m,k)表示均衡后的频谱样值的实部,YIm(m,k)表示均衡后的频谱样值的虚部,R(m,k)表示频域能量分布比值。
所述的音频信号处理方法,其中,所述对所述频谱能量分布比值求导,得到频域能量分布导数具体包括:
根据
Figure BDA0001987168120000042
得到频域能量分布导数;
其中,M表示数值微分点数,m表示帧数,k表示谱线,D(m,k)表示频域能量分布导数。
所述的音频信号处理方法,其中,所述确定导数阈值具体包括:
设置导数阈值为第一系数;
或者根据对数能量确定导数阈值;
或者根据平均对数能量确定导数阈值。
所述的音频信号处理方法,其中,所述根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值具体包括:
预先设置第二系数,对于任一当前谱线,如果频域能量分布导数大于等于导数阈值,设置当前谱线的频谱样值的增益值为1;
如果频域能量分布导数小于第二系数,设置当前谱线的频谱样值的增益值为0;
如果频域能量分布导数大于等于第二系数,且小于导数阈值,设置当前谱线的频谱样值的增益值为频域能量分布导数与导数阈值的比值。
所述的音频信号处理方法,其中,所述确定导数阈值的方法包括:设置导数阈值为常量和设置导数阈值为变量。
一种智能终端,其中,所述智能终端包括如上所述的音频信号处理系统,还包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频信号处理程序,所述音频信号处理程序被所述处理器执行时实现如上所述的音频信号处理方法的步骤。
一种存储介质,其中,所述存储介质存储有音频信号处理程序,所述音频信号处理程序被处理器执行时实现如上所述音频信号处理方法的步骤。
本发明公开了一种音频信号处理方法、智能终端及存储介质,所述方法包括:运用离散傅里叶变换将输入的音频信号从时域变换至频域,得到频谱样值;根据所述频谱样值计算频域能量分布导数;根据所述频域能量分布导数计算频谱样值的增益值;根据所述增益值调整频谱样值,得到增强后的频谱样值;运用离散傅里叶变换的逆变换将增强后的频谱样值从频域变换至时域,得到增强后的音频信号。本发明通过抑制背景声音,有效的提升了前景声音的清晰度,不依赖于声道间信息,适用于单声道、立体声及多声道信号,且计算复杂度低。
附图说明
图1是本发明音频信号处理方法的较佳实施例的流程图;
图2是本发明音频信号处理方法的较佳实施例的具体实施流程示意图;
图3是本发明音频信号处理方法的较佳实施例中均衡系数对应的频率响应曲线的示意图;
图4是本发明音频信号处理方法的较佳实施例中对输入信号的频谱进行均衡处理得到的增强信号频谱示意图;
图5为本发明实施例用于举例的样本序列的示意图;其中,图5A为时域波形图,图5B为语谱图,图5C为经过均衡处理后的语谱图;
图6A至图6C为本发明实施例的频域能量分布比值的示意图;
图7A至图7C为本发明实施例的频域能量分布导数的示意图;
图8为本发明实施例的导数阈值的示意图;
图9为本发明实施例的频谱增益值的示意图;
图10A至图10C为本发明实施例的未增强与已增强的频谱曲线的对比示意图;
图11为本发明实施例的未增强与已增强的时域波形图的对比示意图;
图12为本发明实施例的未增强与已增强的语谱图的对比示意图;
图13为本发明智能终端的较佳实施例的运行环境示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
前景声音与背景声音是同时存在的。在频域上,对于每个频带,可能是前景声音占主导地位,也可能是背景声音占主导地位,或是两者的影响同时存在。根据前景声音与背景声音在频域的分布情况,在不同的频带对背景声音进行不同程度的抑制,可以有效的提升前景声音的清晰度,实现音频信号增强的目的。
本发明较佳实施例所述的音频信号处理方法,如图1所示,一种音频信号处理方法,其中,所述音频信号处理方法包括以下步骤:
步骤101、运用离散傅里叶变换将输入的音频信号从时域变换至频域,得到频谱样值。
具体地,利用DFT(Discrete Fourier Transform,,离散傅里叶变换)变换将输入的音频信号从时域变换至频域,得到频谱样值。
进一步地,设n为样点数,y(n)(n≥0)表示输入信号;设m为帧数,k为谱线(frequency bin),对输入信号y(n)进行N点DFT变换,得到频谱样值Y(m,k)(m≥0;0≤k<N/2)。
步骤102、根据所述频谱样值计算频域能量分布导数(计算每谱线的频域能量分布导数)。
具体地,对所述频谱样值进行均衡处理;根据均衡后的频谱样值计算频谱能量分布比值;对所述频谱能量分布比值求导,得到频域能量分布导数。
进一步地,所述根据均衡后的频谱样值计算频谱能量分布比值具体包括:
根据
Figure BDA0001987168120000081
得到频域能量分布比值;
其中,N表示离散傅里叶变换变换为N点,m(m≥0)表示帧数,k(0≤k<N/2)表示谱线,YRe(m,k)表示均衡后的频谱样值的实部,YIm(m,k)表示均衡后的频谱样值的虚部,R(m,k)表示频域能量分布比值。
进一步地,所述对所述频谱能量分布比值求导,得到频域能量分布导数具体包括:
根据
Figure BDA0001987168120000091
得到频域能量分布导数;
其中,M表示数值微分点数,m表示帧数,k表示谱线,D(m,k)表示频域能量分布导数。
随着频率f(f≥0)的增长,位于频率区间[0,f]的频域能量是单调递增的,频域能量分布函数用于描述频域能量的分布规律。
前景声音主要包括语音信号及音乐信号。语音信号中的浊音及大多数音乐信号是有调音,能量主要集中在基频分量及谐波分量所处的频率区间。语音信号中的清音是无调音,能量主要集中在一定的频率范围内。在基频分量及谐波分量所处的频率区间,以及清音能量集中的频率范围内,频域能量分布函数值快速增长。因此,如果某频带的频域能量分布函数值快速增长,说明前景声音在该频带占主导地位。
背景声音主要包括背景噪声、背景音乐及环境声。一部分背景声音的能量分布在较宽的频率范围内,如背景噪声及环境声等,频域能量分布函数值会在较宽的频率范围内缓慢增长,在其它频率范围内基本保持不变;另一部分背景声音的能量可能会集中在某些频率区间,如背景音乐等,但是由于背景音乐的能量明显小于前景声音的能量,在背景音乐的能量集中的频率区间,频域能量分布函数值不会出现快速增长。因此,如果某频带的频域能量分布函数值缓慢增长或是基本保持不变,说明背景声音在该频带占主导地位。
为了对频域能量分布函数值的“快速增长”、“缓慢增长”及“基本保持不变”进行量化分析,对频域能量分布函数值求导,得到每谱线的频域能量分布导数。因此,频域能量分布导数能够用于描述前景声音与背景声音在频域的分布情况。
步骤103、根据所述频域能量分布导数计算频谱样值的增益值(计算每谱线的频谱样值的增益值)。
具体地,确定导数阈值;根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值。
其中,所述确定导数阈值具体包括:设置导数阈值为第一系数;或者根据对数能量确定导数阈值;或者根据平均对数能量确定导数阈值。
进一步地,所述根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值具体包括:预先设置第二系数(第二系数为一个经验值,本发明实施例中可以设置为0,也可以设置为其他值),对于任一当前谱线,如果频域能量分布导数大于等于导数阈值,设置当前谱线的频谱样值的增益值为1;如果频域能量分布导数小于第二系数,设置当前谱线的频谱样值的增益值为0;如果频域能量分布导数大于等于第二系数,且小于导数阈值,设置当前谱线的频谱样值的增益值为频域能量分布导数与导数阈值的比值。
设g(m,k)(m≥0;0≤k<N/2)表示第k个谱线的频谱样值的增益值,取值范围是[0,1],根据某谱线的频域能量分布导数值,可以确定该谱线的频谱样值的增益值。
步骤104、根据所述增益值调整频谱样值,得到增强后的频谱样值。
具体地,设增强后的频谱样值为YEN(m,k)(m≥0;0≤k<N/2),则:
YEN(m,k)=g(m,k)·Y(m,k);
如果g(m,k)=1,,表示前景声音在第k个谱线上占主导地位,应完全保留位于第k个谱线的频域信号;如果g(m,k)=0,表示背景声音在第k个谱线上占主导地位,应完全抑制位于第k个谱线的频域信号;如果g(m,k)值介于0和1之间,表示前景声音与背景声音的影响在第k个谱线是同时存在的,应部分保留位于第k个谱线的频域信号。
步骤105、运用离散傅里叶变换的逆变换将增强后的频谱样值从频域变换至时域,得到增强后的音频信号。
具体地,利用IDFT(离散傅里叶变换的逆变换)变换将增强后的频谱样值从频域变换至时域,得到增强后的音频信号。
对增强后的频谱样值YEN(m,k)进行N点的IDFT变换,得到增强后的输出信号yEN(n)(n≥0)。
与图1相比,图2是本发明实施例提供的更为详细的实施流程图。如图2中的模块2所示,步骤102可以分解为如下步骤:
步骤201,对频谱样值进行均衡处理。
均衡处理用于提升输入信号频谱的高频分量的振幅。设WEQ(k)(0≤k<N/2)表示对应于谱线0至谱线(N/2-1)的一组均衡系数,YEQ(m,k)(m≥0;0≤k<N/2)表示经过均衡处理后的频谱样值,则:
YEQ(m,k)=WEQ(k)·Y(m,k)。
在本实施例中,均衡系数WEQ(k)对应的频率响应曲线如图3所示,其中,横轴表示频率(Hz),纵轴表示增益值。需要强调的是,YEQ(m,k)仅用于步骤102,用于分析前景声音与背景声音在频域的分布情况,以便计算频域能量分布导数。在步骤104计算增强后的频谱样值时,使用的仍然是未经过均衡处理的频谱样值Y(m,k)。
如果省略均衡处理,在步骤102中直接使用Y(m,k)计算增益值,会使得增强后的频谱样值YEN(m,k)丢失较多的高频分量。图4给出一帧歌声信号经过增强处理后的频谱曲线。其中,横轴表示频率(Hz),f1至f6表示位于高频的谐频;纵轴表示频谱值(dBFS)。对输入信号的频谱进行均衡处理,得到的增强信号频谱如图4中的虚线所示;未对输入信号的频谱进行均衡处理,得到的增强信号频谱如图4中的实线所示。对比实线与虚线中位于f1至f6的高次谐波分量,可以看出,实线中的高次谐波分量被显著衰减,由此会导致增强后信号的音色及声场变差。因此,对输入频谱样值进行均衡处理是必要的。
步骤202,针对均衡后的频谱样值,计算每谱线的频谱能量分布比值。
设YRe(m,k)(m≥0;0≤k<N/2)表示经过均衡处理后的频谱样值的实部,则:
Figure BDA0001987168120000131
设YIm(m,k)(m≥0;0≤k<N/2)表示经过均衡处理后的频谱样值的虚部,则:
Figure BDA0001987168120000133
设R(m,k)(m≥0;0≤k<N/2)表示频域能量分布比值,则:
Figure BDA0001987168120000132
其中,分子表示第m帧信号在谱线0至谱线k所对应的频率范围内的能量总和,分母表示第m帧信号的频域能量总和。
以一段老电影的声音片段为例,对频谱能量分布比值进行说明。样本序列的时域波形如图5A所示。其中,横轴为样点数,s1及s2表示第s1个样本点及第s2个样本点;纵轴为归一化的幅值。从序列起点到第s1个样本点之间为语音信号,从第s1个样本点到第s2个样本点之间为音乐信号。样本序列的未经过均衡处理的语谱图如图5B所示,经过均衡处理的语谱图如图5C所示。在图5B及图5C中,横轴为帧数,fr1及fr2表示第fr1帧及第fr2帧;纵轴为频率(Hz)。图5B及图5C中的第fr1帧及第fr2帧分别对应于图5A中的第s1个样本点及第s2个样本点。从序列起始帧到第fr1帧之间为语音信号,从第fr1帧到第fr2帧之间为音乐信号。在图5C中,frA、frB及frC分别表示第frA帧、第frB帧及第frC帧。第frA帧为浊音帧,包括一组谐波分量,基频为f0,二次谐频、三次谐频及四次谐频分别为f2、f3及f4。第frB帧为清音帧,fa至fc表示能量集中分布的频率范围,fb表示峰频率。第frC帧为音乐帧,包括不止一组谐波分量。其中,第一组谐波分量的基频为f10,二次谐频、三次谐频及四次谐频分别为f12、f13及f14;第二组谐波分量的基频为f20,二次谐频为f22;第三组谐波分量的基频为f30,二次谐频为f32
第frA帧、第frB帧及第frC帧的频域能量分布比值分别如图6A、图6B及图6C所示。其中,横轴表示谱线值;纵轴表示比值,取值范围为[0,1]。在图6A中,谱线k0对应于基频f0,谱线k2、k3及k4分别对应于谐频f2、f3及f4。由图可见,在基频分量、二次谐波、三次谐波及四次谐波所处的谱线区间,频域能量分布比值出现不同程度的“跳变”;在其它谱线区间,频域能量分布比值缓慢增长或是基本保持不变。在图6B中,谱线ka、kb及kc对应于频率fa、fb及fc。由图可见,在清音信号能量集中的谱线区间ka至kc,频域能量分布比值由0快速增长至1;在峰频率对应的谱线kb处,频域能量分布比值的增长速率达到最大。在图6C中,谱线k10、k12、k13及k14对应于f1o、f12、f13及f14,谱线k20及k22对应于f20及f22,谱线k30及k32对应于f30及f32。由图可见,类似于浊音信号,在基频分量及谐波分量所处的谱线区间,频域能量分布比值出现不同程度的“跳变”;在其它谱线区间,频域能量分布比值缓慢增长或是基本保持不变。
步骤203,对频谱能量分布比值求导,得到每谱线的频域能量分布导数。
设D(m,k)(m≥0;0≤k<N/2)表示频域能量分布导数,利用拉格朗日(Lagrange)数值微分法,对频谱能量分布比值进行求导。设常数M表示数值微分点数,有
Figure BDA0001987168120000161
;在本实施例中,设置M=7。
Figure BDA0001987168120000162
时,有
Figure BDA0001987168120000163
当0≤k<3或
Figure BDA0001987168120000164
时,有
D(m,k)=0;
第frA帧、第frB帧及第frC帧的频域能量分布导数分别如图7A、图7B及图7C所示。其中,横轴表示谱线值;纵轴表示频域能量导数值。由图可见,针对浊音信号及音乐信号,在基频分量及谐波分量所处的谱线区间,频域能量分布导数明显增大;针对清音信号,在清音信号能量集中的谱线区间,频域能量分布导数明显增大。因此,利用频域能量分布导数能够准确地描述出频域能量在不同频带的分布情况。基于频域能量在不同频带的分布情况,就可以区别出前景声音占主导地位的频带以及背景声音占主导地位的频带。
如图2中的模块3所示,步骤103可以分解为如下步骤:
步骤301,确定每谱线的导数阈值。
设T(m)(m≥0)表示第m帧的导数阈值,确定导数阈值的方法有两种:
(1)设置导数阈值为常量
设T(T>0)为常数,有T(m)=T。
(2)设置导数阈值为变量
设logE(m)(m≥0)表示第m帧的对数能量。针对以第m帧为中心的邻域组成的帧集合,设
Figure BDA0001987168120000171
表示帧集合内的对数能量的平均值,即第m帧的平均对数能量。设FTH为导数阈值函数,该函数的自变量可以为logE(m)或是
Figure BDA0001987168120000172
当自变量为logE(m)时,有T(m)=FTH(logE(m))。根据实时对数能量确定导数阈值,不会引入延时,可用于实时处理。当自变量为
Figure BDA0001987168120000173
时,有
Figure BDA0001987168120000181
根据平均对数能量确定导数阈值,可以使得导数阈值的变化更为平滑,但是会引入少量延时。
导数阈值越大,对背景声音的抑制程度越大,但是前景声音的音色也可能会受到一定程度的损伤。当声音的对数能量越大时,前景声音的音色越不容易受到导数阈值的影响,为了抑制更多的背景声音,可以适当增大导数阈值;当声音的对数能量越小时,前景声音的音色越容易受到导数阈值的影响,为了确保前景声音的音色不被损伤,应当减小导数阈值。
在本实施例中,FTH函数如图8所示。其中,横轴表示对数能量值或平均对数能量值(dB),纵轴表示导数阈值。由图8可见,导数阈值的取值呈现“中间低两边高”的趋势。当语音信号的对数能量位于横轴的中间区域时,一般属于前景声音,因此,利用导数阈值“中间低”来保证语音信号的音色不受损伤。当语音信号的对数能量较小时,一般属于背景声音,保持音色的问题可以不予考虑;当语音信号的对数能量较大时,语音信号的音色不容易受到导数阈值取值的影响。因此,利用导数阈值“两边高”来抑制更多的背景声音。
步骤302,根据频域能量分布导数及导数阈值,计算每谱线的频谱样值的增益值。
根据步骤103,已知g(m,k)表示第k个谱线的频谱样值的增益。设Tmin(Tmin≥0)为常数,针对第m帧的第k个谱线,计算增益值的步骤为:
(1)如果D(m,k)≥T(m),有g(m,k)=1;
(2)如果D(m,k)<Tmin,有g(m,k)=0;
(3)如果Tmin≤D(m,k)<T(m),有
Figure BDA0001987168120000191
在本实施例中,Tmin为第二系数,可设置Tmin=0。以图5的样本序列为例,对频谱样值的增益值进行说明,采用实时对数能量计算导数阈值,如图9所示。其中,横轴表示帧数,纵轴表示频率(Hz)。设(x,y)对应于第x帧第y谱线,如图右侧颜色栏所示,利用(x,y)点的颜色来表示第x帧第y谱线的增益值。在图5的样本序列中,从起始帧到第fr1帧之间的前景声音是语音信号,从第fr1帧到第fr2帧之间的前景声音是音乐信号;背景声音是宽带噪声。由图9可见,针对宽带噪声占主导地位的谱线,增益值基本是取0的,说明背景声音被有效的抑制;针对前景声音占主导地位的谱线,增益值基本是接近1的,说明在抑制背景声音的同时,前景声音也被保留下来。
以下给出本实施例的算法仿真结果。以图5的样本序列为例,首先给出典型的浊音帧、清音帧及音乐帧增强前后的频谱曲线对比图,再给出整个样本序列增强前后的时域波形及语谱图的对比图。
第frA帧、第frB帧及第frC帧增强前后的频谱曲线对比图分别如图10A、图10B及图10C所示。其中,横轴表示频率(Hz),纵轴表示频谱值(dBFS)。未增强的频谱曲线如虚线所示,已增强的频谱曲线如实线所示。对比图10A的实线及虚线,可以看出,针对浊音信号,基频分量及谐波分量在增强后的频谱曲线中被保留,其它频域分量被抑制。对比图10B的实线及虚线,可以看出,位于fa至fc之间的清音分量在增强后的频谱曲线中被保留,其它频域分量被抑制。对比图10C的实线及虚线,可以看出,针对音乐信号,多组基频分量及谐波分量在增强后的频谱曲线中被保留,其它频域分量被抑制。
图5的样本序列增强前后的时域波形如图11所示。其中,图11A表示增强前的时域波形,图11B表示增强后的时域波形。对比增强前后的时域波形图,可以看出,老电影声音中的宽带噪声已经被有效抑制。样本序列增强前后的语谱图如图12所示。其中,图12中的图A表示增强前的语谱图,图12中的图B表示增强后的语谱图。与增强前的语谱图相比,增强后的语谱图呈现出“去雾”的效果。在保留前景声音的同时,对背景声音进行了有效的抑制。
进一步地,如图13所示,基于上述音频信号处理方法,本发明还相应提供了一种智能终端,所述智能终端包括处理器10、存储器20及显示器30。图13仅示出了智能终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述智能终端的内部存储单元,例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备,例如所述智能终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据,例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有音频信号处理程序40,该音频信号处理程序40可被处理器10所执行,从而实现本申请中音频信号处理方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述音频信号处理方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中音频信号处理程序40时实现以下步骤:
运用离散傅里叶变换将输入的音频信号从时域变换至频域,得到频谱样值;
根据所述频谱样值计算频域能量分布导数;
根据所述频域能量分布导数计算频谱样值的增益值;
根据所述增益值调整频谱样值,得到增强后的频谱样值;
运用离散傅里叶变换的逆变换将增强后的频谱样值从频域变换至时域,得到增强后的音频信号。
本发明还提供一种存储介质,其中,所述存储介质存储有音频信号处理程序,所述音频信号处理程序被处理器执行时实现所述音频信号处理方法的步骤;具体如上所述。
综上所述,本实施例提供的方案具有以下四点有益的效果:
(1)不依赖于声道间信息,适用于单声道、立体声及多声道信号;
(2)用于前景声音增强,不局限于语音增强;通过抑制背景声音,有效的提升了前景声音的清晰度;
(3)计算复杂度低;
(4)不引入延时或是仅引入少量延时。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (9)

1.一种音频信号处理方法,其特征在于,所述音频信号处理方法包括:
运用离散傅里叶变换将输入的音频信号从时域变换至频域,得到频谱样值;
根据所述频谱样值计算频域能量分布导数;
根据所述频域能量分布导数计算频谱样值的增益值;
所述根据所述频域能量分布导数计算频谱样值的增益值具体包括:
确定导数阈值;
根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值;
根据所述增益值调整频谱样值,得到增强后的频谱样值;
运用离散傅里叶变换的逆变换将增强后的频谱样值从频域变换至时域,得到增强后的音频信号。
2.根据权利要求1所述的音频信号处理方法,其特征在于,所述根据所述频谱样值计算频域能量分布导数具体包括:
对所述频谱样值进行均衡处理;
根据均衡后的频谱样值计算频谱能量分布比值;
对所述频谱能量分布比值求导,得到频域能量分布导数。
3.根据权利要求2所述的音频信号处理方法,其特征在于,所述根据均衡后的频谱样值计算频谱能量分布比值具体包括:
根据
Figure FDA0002675529150000011
得到频域能量分布比值;
其中,N表示离散傅里叶变换变换为N点,m(m≥0)表示帧数,k(0≤k<N/2)表示谱线,YRe(m,k)表示均衡后的频谱样值的实部,YIm(m,k)表示均衡后的频谱样值的虚部,R(m,k)表示频域能量分布比值。
4.根据权利要求2所述的音频信号处理方法,其特征在于,所述对所述频谱能量分布比值求导,得到频域能量分布导数具体包括:
根据
Figure FDA0002675529150000021
得到频域能量分布导数;
其中,M表示数值微分点数,m表示帧数,i、j和k表示谱线,D(m,k)表示频域能量分布导数,N表示离散傅里叶变换变换为N点。
5.根据权利要求1所述的音频信号处理方法,其特征在于,所述确定导数阈值具体包括:
设置导数阈值为第一系数;
或者根据对数能量确定导数阈值;
或者根据平均对数能量确定导数阈值。
6.根据权利要求1所述的音频信号处理方法,其特征在于,所述根据所述频域能量分布导数及所述导数阈值计算频谱样值的增益值具体包括:
预先设置第二系数,对于任一当前谱线,如果频域能量分布导数大于等于导数阈值,设置当前谱线的频谱样值的增益值为1;
如果频域能量分布导数小于第二系数,设置当前谱线的频谱样值的增益值为0;
如果频域能量分布导数大于等于第二系数,且小于导数阈值,设置当前谱线的频谱样值的增益值为频域能量分布导数与导数阈值的比值。
7.根据权利要求5所述的音频信号处理方法,其特征在于,所述确定导数阈值的方法包括:设置导数阈值为常量和设置导数阈值为变量。
8.一种智能终端,其特征在于,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频信号处理程序,所述音频信号处理程序被所述处理器执行时实现如权利要求1-7任一项所述的音频信号处理方法的步骤。
9.一种存储介质,其特征在于,所述存储介质存储有音频信号处理程序,所述音频信号处理程序被处理器执行时实现如权利要求1-7任一项所述音频信号处理方法的步骤。
CN201910168540.3A 2019-03-06 2019-03-06 一种音频信号处理方法、智能终端及存储介质 Active CN109841223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910168540.3A CN109841223B (zh) 2019-03-06 2019-03-06 一种音频信号处理方法、智能终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910168540.3A CN109841223B (zh) 2019-03-06 2019-03-06 一种音频信号处理方法、智能终端及存储介质

Publications (2)

Publication Number Publication Date
CN109841223A CN109841223A (zh) 2019-06-04
CN109841223B true CN109841223B (zh) 2020-11-24

Family

ID=66885419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910168540.3A Active CN109841223B (zh) 2019-03-06 2019-03-06 一种音频信号处理方法、智能终端及存储介质

Country Status (1)

Country Link
CN (1) CN109841223B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110367934B (zh) * 2019-07-25 2023-02-03 深圳大学 一种基于非语音身体声音的健康监测方法及监测系统
CN111462784A (zh) * 2020-03-24 2020-07-28 腾讯音乐娱乐科技(深圳)有限公司 确定具有双耳节拍的音频的方法、装置及计算机存储介质
CN114157254A (zh) * 2021-12-03 2022-03-08 北京达佳互联信息技术有限公司 音频处理方法和音频处理装置
CN118506461B (zh) * 2024-07-19 2024-09-24 中电桑达电子设备(江苏)有限公司 基于图像识别的人员身份判别方法、系统与介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1623186A (zh) * 2002-01-24 2005-06-01 摩托罗拉公司 用于噪声环境的话音活动检测器和验证器
CN101138274A (zh) * 2005-04-15 2008-03-05 编码技术股份公司 去相干信号的包络整形
CN101189610A (zh) * 2005-06-01 2008-05-28 皇家飞利浦电子股份有限公司 用于确定内容项特性的方法和电子设备
CN101548316A (zh) * 2006-12-13 2009-09-30 松下电器产业株式会社 编码装置、解码装置以及其方法
CN101689373A (zh) * 2007-07-02 2010-03-31 摩托罗拉公司 智能梯度噪声降低系统
WO2010138311A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
CN102025427A (zh) * 2009-09-23 2011-04-20 华为技术有限公司 频谱检测的方法及用户设备与融合设备
CN103180900A (zh) * 2010-10-25 2013-06-26 高通股份有限公司 用于话音活动检测的系统、方法和设备
CN104934032A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
CN105103228A (zh) * 2013-01-29 2015-11-25 弗劳恩霍夫应用研究促进协会 用于使用增强信号成形技术产生频率增强信号的装置及方法
CN105338148A (zh) * 2014-07-18 2016-02-17 华为技术有限公司 一种根据频域能量对音频信号进行检测的方法和装置
CN105336344A (zh) * 2014-07-10 2016-02-17 华为技术有限公司 杂音检测方法和装置
CN108781318A (zh) * 2015-11-06 2018-11-09 思睿逻辑国际半导体有限公司 自适应噪声消除系统中的反馈啸声管理

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604072B2 (en) * 2000-11-03 2003-08-05 International Business Machines Corporation Feature-based audio content identification
US7085613B2 (en) * 2000-11-03 2006-08-01 International Business Machines Corporation System for monitoring audio content in a video broadcast
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US9964433B2 (en) * 2011-02-09 2018-05-08 The Trustees Of Dartmouth College Acoustic sensor with an acoustic object detector for reducing power consumption in front-end circuit

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1623186A (zh) * 2002-01-24 2005-06-01 摩托罗拉公司 用于噪声环境的话音活动检测器和验证器
CN101138274A (zh) * 2005-04-15 2008-03-05 编码技术股份公司 去相干信号的包络整形
CN101189610A (zh) * 2005-06-01 2008-05-28 皇家飞利浦电子股份有限公司 用于确定内容项特性的方法和电子设备
CN101548316A (zh) * 2006-12-13 2009-09-30 松下电器产业株式会社 编码装置、解码装置以及其方法
CN101689373A (zh) * 2007-07-02 2010-03-31 摩托罗拉公司 智能梯度噪声降低系统
WO2010138311A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
CN102025427A (zh) * 2009-09-23 2011-04-20 华为技术有限公司 频谱检测的方法及用户设备与融合设备
CN103180900A (zh) * 2010-10-25 2013-06-26 高通股份有限公司 用于话音活动检测的系统、方法和设备
CN105103228A (zh) * 2013-01-29 2015-11-25 弗劳恩霍夫应用研究促进协会 用于使用增强信号成形技术产生频率增强信号的装置及方法
CN104934032A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
CN105336344A (zh) * 2014-07-10 2016-02-17 华为技术有限公司 杂音检测方法和装置
CN105338148A (zh) * 2014-07-18 2016-02-17 华为技术有限公司 一种根据频域能量对音频信号进行检测的方法和装置
CN108781318A (zh) * 2015-11-06 2018-11-09 思睿逻辑国际半导体有限公司 自适应噪声消除系统中的反馈啸声管理

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Sports audio classification based mfcc";Liu jiqing;《IEEE》;20091231;全文 *

Also Published As

Publication number Publication date
CN109841223A (zh) 2019-06-04

Similar Documents

Publication Publication Date Title
JP7150939B2 (ja) ボリューム平準化器コントローラおよび制御方法
CN109841223B (zh) 一种音频信号处理方法、智能终端及存储介质
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
JP6325640B2 (ja) 等化器コントローラおよび制御方法
CN106257584B (zh) 改进的语音可懂度
JP2011518520A (ja) サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置
WO2010013939A2 (en) An apparatus for processing an audio signal and method thereof
Künzel et al. Forensic automatic speaker recognition with degraded and enhanced speech
Uhle et al. Speech enhancement of movie sound
Upadhyay et al. A multi-band speech enhancement algorithm exploiting Iterative processing for enhancement of single channel speech
Huber et al. Improvement of broadcast speech intelligibility based on instantaneous listening effort

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant