CN101894563B - 语音增强的方法 - Google Patents

语音增强的方法 Download PDF

Info

Publication number
CN101894563B
CN101894563B CN2010102279590A CN201010227959A CN101894563B CN 101894563 B CN101894563 B CN 101894563B CN 2010102279590 A CN2010102279590 A CN 2010102279590A CN 201010227959 A CN201010227959 A CN 201010227959A CN 101894563 B CN101894563 B CN 101894563B
Authority
CN
China
Prior art keywords
signal
noise
frequency band
frame
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010102279590A
Other languages
English (en)
Other versions
CN101894563A (zh
Inventor
叶利剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AAC Technologies Pte Ltd
Original Assignee
AAC Acoustic Technologies Shenzhen Co Ltd
AAC Optoelectronic Changzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AAC Acoustic Technologies Shenzhen Co Ltd, AAC Optoelectronic Changzhou Co Ltd filed Critical AAC Acoustic Technologies Shenzhen Co Ltd
Priority to CN2010102279590A priority Critical patent/CN101894563B/zh
Publication of CN101894563A publication Critical patent/CN101894563A/zh
Application granted granted Critical
Publication of CN101894563B publication Critical patent/CN101894563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种语音增强的方法,该方法包括以下步骤:提供麦克风及集成于麦克风的语音信号处理芯片,麦克风用于接收外界信号;语音信号处理芯片用于进行语音增强处理;对带噪语音信号进行处理得到的频域信号变换到时间域,进行去加重处理,变成输出信号。该方法可实现麦克风指向性,同时处理语音信号的能力增强。

Description

语音增强的方法
【技术领域】
本发明提供一种语音增强的方法,尤其涉及一种基于麦克风的语音增强的方法。
【背景技术】
由于大量环境噪声的存在,麦克风采集到的语音信号普遍信噪比不够高,所以需要通过语音增强的方法来提升输入语音的信噪比。现有的语音增强算法多作为产品的附加功能,其算法作为芯片集成的一个模块,或采用纯软件的方式来实现。还没有产品采用直接实现将语音增强算法作为一个芯片,集成在麦克风中,进行消噪处理。
相关技术中语音增强的方法,麦克风的指向性不强,传输器输出的不是降噪后的信号,对残余噪声的衰减处理能力差。
因此实有必要提供一种新型的语音增强的方法。
【发明内容】
本发明需解决的技术问题是提供一种可实现麦克风指向性、增强语音处理能力的语音增强的方法。
为解决上述技术问题,本发明提供一种语音增强的方法,该方法应用于实时语音信号处理系统中,所述实时语音信号处理系统包括麦克风及集成于麦克风中的语音信号处理芯片,该方法包括以下步骤:(1)芯片对语音增强系统输入的带噪语音信号进行分帧,预加重处理,经短时傅里叶变换到频域;(2)将变换到频域后的带噪语音信号划分为若干频带,再计算各个频带能量并进行平滑,得到经平滑后的每个频带内的信号能量,所述信号能量包括语音能量和噪音能量,并得到所述噪音能量的初始估计值;(3)芯片计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值;(4)采用计权噪声估计法对先验信噪比进行修正,以之前得到的后验信噪比,参照非线性函数,得到计权因子,对先验信噪比估计值进行加权处理;接下来,进行衰减增益因子的计算,这里基于前面计算得出的先验信噪比估计值,采用频谱相减的方法得到衰减因子,其具体公式如下:
q ( k ) = { 1 - a - 0.5 · lg [ S N ^ R prior ( k ) ] SNR post
其中,对于不同频带,a为不同的常数,这里考虑到,噪声主要集中在较低的频带,因此对于中低频段和高频,取不同的a;所述非线性函数为:
q &theta; = 1 S N ^ R prior ( m , k ) < &gamma; 1 1 &gamma; 1 - &gamma; 2 ( S N ^ R prior ( m , k ) - &gamma; 2 ) &gamma; 1 < S N ^ R prior ( m , k ) < &theta; z 0 S N ^ R prior ( m , k ) > &theta; z
其中,q(k)为第k频带的增益系数,SNRpost为后验信噪比,
Figure GSB00000912612500023
为第k频带的先验信噪比,k表示频带数,m表示第m帧,
Figure GSB00000912612500024
表示第m帧第k个频带的先验信噪比;γ1、γ2、θz均为常数,γ1取1.5,γ2取200,θz取20;
根据得到的修正先验信噪比估计值
Figure GSB00000912612500025
计算各个频带的衰减增益q(m,k);(5)根据得到的修正先验信噪比估计值,计算各个频带的衰减增益,首先以当前帧先验信噪比为判断,小于某一阈值频带的增益系数均乘以某一调整值qmod,这样做可以进一步抑制残余噪声;接着将所有小于某阀值的增益系数调整到门限值qfloor,这样做可以避免一定的语音失真,可以表示为如下公式:
q ( k ) = q mod q ( k ) , &xi; ( k ) < &theta; G q ( k ) , otherwise
q ( k ) = q ( k ) , q ( k ) > q floor q floor , otherwise
其中qmod=0.1,θG=1.2,qfloor=0.01,ξ(k)是第k个频带的后验信噪比,q(k)为第k频带的增益系数;(6)采用门限判决对增益系数进行调整;(7)用得到的衰减增益,对划分到各频带的信号频谱进行处理;(8)由修正的先验信噪比估计值对当前帧进行判决,判断是否是噪声;(9)根据噪声判决对各频带的噪声进行更新;(10)芯片将处理后的频域信号变换到时间域,进行去加重处理,变成输出信号。
优选的,所述步骤(1)的分帧过程为:对在时域中的带噪语音信号进行分帧,是将带噪语音信号以帧为单位等分成若干带噪信号单元;所述带噪信号单元由采样点组成,本发明中选取了8KHz的采样频率,帧长设定成10~35ms之间,任意一帧带噪信号单元具有的帧长为256。
优选的,所述步骤(2)中的平滑过程为:用如下公式计算每个子区间的能量E(m,k)并进行平滑:
E(m,k)=|X(m,k)|2                                0≤k≤N-1
Y(m,k)=αY(m-1,k)+(1-α)E(m,k)                 0≤k≤N-1
其中,Y(m,k)表示经平滑后的每个频带区间的能量,m表示当前帧的序号,k表示当前的子带的序号,α=0.75表示平滑因子,N为选取的频带总数,即23。
优选的,操作所述步骤(8)包括:每个频带的噪声能量的判决与更新采用了基于先验信噪比的语音激活检测方法,首先判断当前帧是否是纯噪声信号,
VAD ( m ) = &Sigma; k = 1 N [ &gamma; ( m , k ) &zeta; ( m , k ) 1 + &zeta; ( m , k ) - lg ( 1 + &zeta; ( m , k ) ) ]
其中γ(m,k)=min[SNRpost(m,k),40], &zeta; ( m , k ) = max [ S N ^ R prior ( m , k ) , 10 - 2.5 ] .
对VAD(m)进行判断,并进行噪声更新,如下:
V ( m , k ) = &mu;V ( m - 1 , k ) + ( 1 - &mu; ) E ( m , k ) VAD ( m ) < &eta; V ( m - 1 , k ) VAD ( m ) &GreaterEqual; &eta;
其中,V(m,k)是第m帧第k个频带的噪声能量,E(m,k)是第m帧第k个频带的信号能量,η为噪声更新判决因子,μ为平滑因子。
优选的,所述分帧后的信号利用高通滤波器进行预加重处理,由于语音信号中背景噪声在低频部分能量一般较大,所以使用所述高通滤波器可以衰减低频部分的分量,使增强效果更好,其形式如下:
H(z)=1-αz-1
α取值范围为0.75-0.95。
优选的,所述时间域的信号通过低通滤波器进行去加重处理,和前面的预加重处理相反,这里将信号通过一个低通滤波器,最大程度的还原原有的信号,滤波器的频响如下;
H(z)=1+αz-1
α取值范围为0.75-0.95。
优选的,所述预加重和去加重的系数α=0.9。
优选的,操作所述步骤(10)包括:步骤(101)、逆快速傅立叶变换,把频域的语音谱变换到时间域,得到增强后的时域语音信号;步骤(102)、进行去加重处理;步骤(103)、将增强后的语音信号的相邻帧的重叠部分进行相加操作。
与相关技术比较,本发明降噪方法实现了实时的语音增强系统,麦克风输出的直接是降噪后的信号,系统使用的降噪算法,与改进之前的语音增强算法相比,大大提高了对残余噪声的衰减,保证了语音可懂度,特别的,对于展览会噪声一类非平稳的加性噪声效果有明显提高。
【附图说明】
图1为本发明的实时语音增强系统的结构示意图;
图2为本发明的语音增强算法的流程示意图。
【具体实施方式】
下面结合附图和实施方式对本发明作进一步说明。
如图1,2所示,本发明的主要思想是,通过将语音增强算法集成在专用的芯片中,并通过设计芯片与相应麦克风的接口与数据传输,形成一个实时的语音增强系统。语音信号通过麦克风的采集,直接由芯片中的语音增强算法处理,得到增强后的信号,输出供次级使用。
本发明中的语音增强算法基本步骤如下:
1.使用麦克风,接收外界信号;
2.信号送入芯片,首先完成模数转换(如果采用数字麦克风,这一步可以省去);
3.对得到的数字信号在芯片中进行语音增强处理;
4.将处理后的信号输出。
系统中使用的实时语音增强方法,其包括如下步骤:
(1)将声音采集装置采集到的带噪语音信号送入芯片进行分帧、预加重处理,再经过短时傅里叶变换到频域;
(2)将变换到频域后的带噪语音信号划分为若干频带,计算各个频带能量并进行平滑,得到经平滑后的每个频带内的信号能量;
(3)通过信号能量及噪声能量估计值,计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值;
(4)对得到的先验信噪比估计值,采用计权噪声估计法进行修正;
(5)根据得到的修正先验信噪比估计值,计算各个频带的衰减增益因子;
(6)采用门限判决对增益系数进行调整;
(7)用得到的衰减增益,对划分到个频带的信号频谱进行处理;
(8)由修正的先验信噪比估计值对当前帧进行判决,判断是否是噪声;
(9)根据噪声判决结果对各频带的噪声估计值进行更新;
(10)将处理后的频域信号变换到时间域,进行去加重处理,变成输出信号。
下面具体的实例介绍中,语音增强系统输入的含噪语音信号的采样率为8kHZ,精度为16位。
对在时域中的带噪语音信号进行分帧,是将带噪语音信号以帧为单位等分成若干带噪信号单元。所述带噪信号单元由采样点组成,本发明中选取了8KHz的采样频率,根据短时谱分析的需要,帧长一般设定成10~35ms之间,本实施方式以32ms分帧,即一帧带噪信号单元设有256个采样点,自然地,任意一帧带噪信号单元具有一定的帧长,本发明中任意帧的帧长为256。
为了防止相邻两帧的带噪信号单元间的块效应,在分帧时要使相邻两帧的带噪信号单元之间有一定的混叠部分,即,本帧数据中有D个数据为前一帧数据的部分数据,其中混叠部分描述如下:
si(n)=di(m,D+n)                 0≤n<L,i=1,2
其中s表示输入带噪语音信号,i取1和2分别表示两路信号
d(m,n)=d(m-1,L+n)              0≤n<D
其中,di表示当前帧的256点采样信号,因为任意一帧的长度为256,重叠率为75%,所以重叠部分的采样点个数D=192。相邻帧的带噪信号单元的第一个采样点相隔的距离L=256-192=64。m表示第m帧信号。
本发明相邻两帧的带噪信号单元之间可以具有50%~75%的重叠率。本实施方式选取相邻两帧的带噪信号单元之间具有75%的重叠率,即以本帧的前75%(192点)的带噪信号单元和前一帧后75%(192点)的带噪语音信号单元一致。
分帧后的信号,先经过一个高通滤波器,作为预加重处理。由于语音信号中背景噪声在低频部分能量一般较大,所以使用所述高通滤波器可以衰减低频部分的分量,使增强效果更好。其形式如下:
H(z)=1-αz-1
α取值范围为0.75-0.95,这里α=0.9,可以取得较好的效果。
由于语音信号是短时平稳的,所以可以对信号进行分帧处理,但分帧又会带来帧信号边界处的不连续造成的频率泄露。所以这里要进行短时傅里叶变换(STFT)。短时傅里叶变换可以理解为对帧信号先加窗再做傅里叶变换。加窗函数的目的就是为了在做短时傅里叶变换时,减少帧信号边界处的不连续造成的频率泄露,从而减少“块效应”。这里使用了一个长度等于帧长256点的汉明窗,它可以有效的降低吉布斯效应的震荡程度。
汉明窗函数定义如下:
win(n)={
0.54-0.46cos(2*π*n/M)           0≤n≤M-1
         0                       其余n
}
短时傅里叶变换如下
X ( m , k 1 ) = 2 M &Sigma; n = 0 M - 1 win ( n - m ) &times; x ( m ) e - 2 &pi;jk 1 n M 0≤k1≤M-1
其中,M=256,为短时傅利叶变换的计算长度。m表示第m帧信号。
这样就将当前帧的带噪语音信号s从时域变换到了频率域。
变换到频域后的带噪语音信号包括语音信号和噪声信号,该信号以帧为单位划分为若干频带,之后操作针对不同频带有不同的策略。
接着对4kHz以下信号进行频带划分,之后的信号处理均在各个频带中进行,这样既可以减少运算复杂度,又可以针对不同的频带做不同的处理,得到更好的效果。
本发明中的信号共划分为23个频带。具体见表1。
表1  23个频带划分
  频带数   起始频率(Hz)   截止频率(Hz)
  1   62.5   93.75
  2   125   156.25
  3   187.5   218.75
  4   250   281.25
  5   312.5   343.75
  6   375   406.25
  7   437.5   468.75
  8   500   531.25
  9   562.5   593.75
  10   625   656.25
  11   687.5   718.75
  12   750   781.25
  13   812.5   906.25
  14   937.5   1062.5
  15   1093.75   1250
  16   1281.25   1468.75
  17   1500   1718.75
  18   1750   2000
  19   2031.25   2312.5
  20   2343.75   2687.5
  21   2718.75   3125
  22   3156.25   3687.5
  23   3718.75   3968.75
频带能量估计,用如下公式计算每个子区间的能量E(m,k)并进行平滑:
E(m,k)=|X(m,k)|2                 0≤k≤N-1
Y(m,k)=αY(m-1,k)+(1-α)E(m,k)  0≤k≤N-1
其中,Y(m,k)表示经平滑后的每个频带区间的能量,m表示当前帧的序号,k表示当前的子带的序号,α=0.75表示平滑因子。N为选取的频带总数,即23。
经平滑后的每个子带区间的能量包括语音能量和噪声能量。
接着,计算当前帧信号的后验信噪比,如下
SNR post ( m , k ) = Y ( m , k ) V ( k )
其中V(k)表示当前估计的噪声信号能量,这个值会在每帧数据处理的最后进行判决更新。
然后基于伊弗雷-马拉的先验信噪比估计公式,计算当前帧的先验信噪比估计值
S N ^ R prior ( m , k ) = &alpha; | S ^ ( m - 1 , k ) | 2 E { | N ( k ) | 2 } + ( 1 - &alpha; ) max [ 0 , SNR post ( m , k ) - 1 ]
基于伊弗雷-马拉的先验信噪比估计值,会出现对噪声的过估计,即对于高信噪比的情况下,得到的信噪比估计值偏高,造成增强后的语音失真,这里采用计权噪声估计方法进行修正。
以之前得到的后验信噪比为判断值,参照如图3的非线性函数,得到计权因子,对先验信噪比估计值进行加权处理。
其中γ1取1.5,γ2取200,θz取20。
接下来,进行衰减增益因子的计算。这里基于前面计算得出的先验信噪比估计值,采用频谱相减的方法得到衰减因子。其具体公式如下:
q ( k ) = { 1 - a - 0.5 &CenterDot; lg [ S N ^ R prior ( k ) ] SNR post }
其中,q(k)为第k频带的增益系数,SNRpost为后验信噪比,
Figure GSB00000912612500084
为第k频带的先验信噪比,k表示频带数,m表示第m帧,
Figure GSB00000912612500085
表示第m帧第k个频带的先验信噪比;γ1、γ2、θz均为常数,对于不同频带,a为不同的常数。
这里考虑到,噪声主要集中在较低的频带,因此对于中低频段和高频,取不同的a。
本发明中对于k≤14的频带,即1.1kHz以下的信号,a=8.89
对于14<k≤18的频带,即1.1~2kHz之间的信号,a=6.44
对于k>18的频带,即2kHz以上的信号,a=6.21
接着,对得到的增益系数进行调整,首先以当前帧先验信噪比为判断,小于某一阈值频带的增益系数均乘以某一调整值qmod,这样做可以进一步抑制残余噪声。
接着将所有小于某阀值的增益系数调整到门限值qfloor,这样做可以避免一定的语音失真。
可以表示为如下公式:
q ( k ) = q mod q ( k ) , &xi; ( k ) < &theta; G q ( k ) , otherwise
q ( k ) = q ( k ) , q ( k ) > q floor q floor , otherwise
其中,ξ(k)是第k个频带的后验信噪比,q(k)为第k频带的增益系数qmod=0.1,θG=1.2,qfloor=0.01,
将当前帧的各频带的带噪语音信号X(m,k),乘以前面得到的相应频带的衰减增益因子,得到的就是该频带的增强后的语音信号。
S ^ ( k ) = q ( k ) * X ( k ) 0≤k≤N-1
其中,N=23为频带总数,
Figure GSB00000912612500094
为第k个频带增强后的语音信号估计值。
本发明中,每个频带的噪声能量的判决与更新采用了基于先验信噪比的语音激活检测(VAD)方法。首先判断当前帧是否是纯噪声信号。
VAD ( m ) = &Sigma; k = 1 N [ &gamma; ( m , k ) &zeta; ( m , k ) 1 + &zeta; ( m , k ) - lg ( 1 + &zeta; ( m , k ) ) ]
其中γ(m,k)=min[SNRpost(m,k),40], &zeta; ( m , k ) = max [ S N ^ R prior ( m , k ) , 10 - 2.5 ] .
对VAD(m)进行判断,并进行噪声更新,如下:
V ( m , k ) = &mu;V ( m - 1 , k ) + ( 1 - &mu; ) E ( m , k ) VAD ( m ) < &eta; V ( m - 1 , k ) VAD ( m ) &GreaterEqual; &eta;
其中,V(m,k)是第m帧第k个频带的噪声能量,E(m,k)是第m帧第k个频带的信号能量,η为噪声更新判决因子,本发明中取η=0.01。μ为平滑因子,这里取μ=0.9。
最后的时域变换及输出部分进行的操作有:
第一步:逆快速傅里叶变换(FFT),把频域的语音谱变换到时间域,得到增强后的时域语音信号。
时域的变换用通用的逆离散傅利叶变换(IDFT)实现。
s ( m , n ) = 1 2 * &Sigma; n = 0 M - 1 S ^ ( k ) e j 2 &pi;nk / M 0≤k≤M-1
其中,M=256,为帧长。s为变换到时域后的全频带增强后的语音信号。
第二步:进行去加重处理。
和前面的预加重处理相反,这里将信号通过一个低通滤波器,最大程度的还原原有的信号。滤波器的频响如下;
H(z)=1+αz-1
这里的系数与前面预加重处理相对应,取α=0.9。
第三步:将增强后的语音信号的相邻帧的重叠部分进行相加操作。
具体的重叠部分相加可以用如下的方法来表示。
s &prime; ( n ) = s ( m , n ) + s ( m - 1 , n + L ) 0 &le; n < M - L s ( m , n ) M - L &le; n < M
L=64为相邻的帧信号开始处的距离,M=256,为帧长。s代表完成相加操作后的最终输出信号。
与相关技术相比较,本发明提出了麦克风集成芯片的实时语音增强系统解决方案,麦克风直接输出的经过语音增强的信号,供下级使用,节约了另外使用相应算法的成本。
本文提出的语音增强的方法改进有效地利用了先验信噪比估计值,并对不同频带采取不同处理策略,引入了计权噪声估计,及增益因子门限判决。算法可靠实时,对于噪声信号的抑制效果十分明显,特别改进了算法对于展览会噪声一类非平稳加性噪声的抑制效果。
以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。

Claims (8)

1.一种语音增强的方法,该方法应用于实时语音信号处理系统中,所述实时语音信号处理系统包括麦克风及集成于麦克风中的语音信号处理芯片,其特征在于:该方法包括以下步骤:(1)芯片对语音增强系统输入的带噪语音信号进行分帧,预加重处理,经短时傅里叶变换到频域;(2)将变换到频域后的带噪语音信号划分为若干频带,再计算各个频带能量并进行平滑,得到经平滑后的每个频带内的信号能量,所述信号能量包括语音能量和噪音能量,并得到所述噪音能量的初始估计值;(3)芯片计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值;(4)采用计权噪声估计法对先验信噪比进行修正,以之前得到的后验信噪比,参照非线性函数,得到计权因子,对先验信噪比估计值进行加权处理;接下来,进行衰减增益因子的计算,这里基于前面计算得出的先验信噪比估计值,采用频谱相减的方法得到衰减因子,其具体公式如下:
q ( k ) = { 1 - a - 0.5 &CenterDot; lg [ S N ^ R prior ( k ) ] SNR post
其中,对于不同频带,a为不同的常数,这里考虑到,噪声主要集中在较低的频带,因此对于中低频段和高频,取不同的a;所述非线性函数为:
q &theta; = 1 S N ^ R prior ( m , k ) < &gamma; 1 1 &gamma; 1 - &gamma; 2 ( S N ^ R prior ( m , k ) - &gamma; 2 ) &gamma; 1 < S N ^ R prior ( m , k ) < &theta; z 0 S N ^ R prior ( m , k ) > &theta; z
其中,q(k)为第k频带的增益系数,SNRpost为后验信噪比,
Figure FSB00000912612400021
为第k频带的先验信噪比,k表示频带数,m表示第m帧,表示第m帧第k个频带的先验信噪比;γ1、γ2、θz均为常数,γ1取1.5,γ2取200,θz取20;
根据得到的修正先验信噪比估计值
Figure FSB00000912612400023
计算各个频带的衰减增益q(m,k);(5)根据得到的修正先验信噪比估计值,计算各个频带的衰减增益,首先以当前帧先验信噪比为判断,小于某一阈值频带的增益系数均乘以某一调整值qmod,这样做可以进一步抑制残余噪声;接着将所有小于某阀值的增益系数调整到门限值qfloor,这样做可以避免一定的语音失真,可以表示为如下公式:
q ( k ) = q mod q ( k ) , &xi; ( k ) < &theta; G q ( k ) , otherwise
q ( k ) = q ( k ) , q ( k ) > q floor q floor , otherwise
其中qmod=0.1,θG=1.2,qfloor=0.01,ξ(k)是第k个频带的后验信噪比,q(k)为第k频带的增益系数;(6)采用门限判决对增益系数进行调整;(7)用得到的衰减增益,对划分到各频带的信号频谱进行处理;(8)由修正的先验信噪比估计值对当前帧进行判决,判断是否是噪声;(9)根据噪声判决对各频带的噪声进行更新;(10)芯片将处理后的频域信号变换到时间域,进行去加重处理,变成输出信号。
2.根据权利要求1所述的语音增强的方法,其特征在于:所述步骤(1)的分帧过程为:对在时域中的带噪语音信号进行分帧,是将带噪语音信号以帧为单位等分成若干带噪信号单元;所述带噪信号单元由采样点组成,本发明中选取了8KHz的采样频率,帧长设定成10~35ms之间,任意一帧带噪信号单元具有的帧长为256。
3.根据权利要求1所述的语音增强的方法,其特征在于:所述步骤(2)中的平滑过程为:用如下公式计算每个子区间的能量E(m,k)并进行平滑:
E(m,k)=|X(m,k)|2            0≤k≤N-1
Y(m,k)=αY(m-1,k)+(1-α)E(m,k)           0≤k≤N-1
其中,Y(m,k)表示经平滑后的每个频带区间的能量,m表示当前帧的序号,k表示当前的子带的序号,α=0.75表示平滑因子,N为选取的频带总数,即23。
4.根据权利要求1所述的语音增强的方法,其特征在于:操作所述步骤(8)包括:每个频带的噪声能量的判决与更新采用了基于先验信噪比的语音激活检测方法,首先判断当前帧是否是纯噪声信号,
VAD ( m ) = &Sigma; k = 1 N [ &gamma; ( m , k ) &zeta; ( m , k ) 1 + &zeta; ( m , k ) - lg ( 1 + &zeta; ( m , k ) ) ]
其中γ(m,k)=min[SNRpost(m,k),40], &zeta; ( m , k ) = max [ S N ^ R prior ( m , k ) , 10 - 2.5 ]
对VAD(m)进行判断,并进行噪声更新,如下:
V ( m , k ) = &mu;V ( m - 1 , k ) + ( 1 - &mu; ) E ( m , k ) VAD ( m ) < &eta; V ( m - 1 , k ) VAD ( m ) &GreaterEqual; &eta;
其中,V(m,k)是第m帧第k个频带的噪声能量,E(m,k)是第m帧第k个频带的信号能量,η为噪声更新判决因子,μ为平滑因子。
5.根据权利要求1所述的语音增强的方法,其特征在于:所述分帧后的信号利用高通滤波器进行预加重处理,由于语音信号中背景噪声在低频部分能量一般较大,所以使用所述高通滤波器可以衰减低频部分的分量,使增强效果更好,其形式如下:
H(z)=1-αz-1
α取值范围为0.75-0.95。
6.根据权利要求1所述的语音增强的方法,其特征在于:所述时间域的信号通过低通滤波器进行去加重处理,和前面的预加重处理相反,这里将信号通过一个低通滤波器,最大程度的还原原有的信号,滤波器的频响如下;
H(z)=1+αz-1
α取值范围为0.75-0.95。
7.根据权利要求5或6所述的语音增强的方法,其特征在于:所述预加重和去加重的系数α=0.9。
8.根据权利要求1所述的语音增强的方法,其特征在于:操作所述步骤(10)包括:步骤(101)、逆快速傅立叶变换,把频域的语音谱变换到时间域,得到增强后的时域语音信号;步骤(102)、进行去加重处理;步骤(103)、将增强后的语音信号的相邻帧的重叠部分进行相加操作。
CN2010102279590A 2010-07-15 2010-07-15 语音增强的方法 Active CN101894563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102279590A CN101894563B (zh) 2010-07-15 2010-07-15 语音增强的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102279590A CN101894563B (zh) 2010-07-15 2010-07-15 语音增强的方法

Publications (2)

Publication Number Publication Date
CN101894563A CN101894563A (zh) 2010-11-24
CN101894563B true CN101894563B (zh) 2013-03-20

Family

ID=43103734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102279590A Active CN101894563B (zh) 2010-07-15 2010-07-15 语音增强的方法

Country Status (1)

Country Link
CN (1) CN101894563B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269579A (zh) * 2018-01-18 2018-07-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2976710B1 (fr) * 2011-06-20 2013-07-05 Parrot Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres"
CN102347027A (zh) * 2011-07-07 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及其语音增强方法
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN103594094B (zh) * 2012-08-15 2016-09-07 湖南涉外经济学院 自适应谱减法实时语音增强
CN103971698B (zh) * 2013-01-25 2019-01-11 北京千橡网景科技发展有限公司 用于语音实时降噪的方法和设备
CN104103278A (zh) * 2013-04-02 2014-10-15 北京千橡网景科技发展有限公司 一种实时语音去噪的方法和设备
CN104780483A (zh) * 2014-01-14 2015-07-15 钰太芯微电子科技(上海)有限公司 具有语音激活检测的麦克风
CN103945291B (zh) * 2014-03-05 2017-05-17 北京飞利信科技股份有限公司 一种应用双麦克风定向传声的方法及装置
CN103945307A (zh) * 2014-05-05 2014-07-23 武汉拓宝电子系统有限公司 声音信号处理芯片
CN105225673B (zh) * 2014-06-09 2020-12-04 杜比实验室特许公司 用于噪声水平估计的方法、系统和介质
CN107045874B (zh) * 2016-02-05 2021-03-02 深圳市潮流网络技术有限公司 一种基于相关性的非线性语音增强方法
CN106558315B (zh) * 2016-12-02 2019-10-11 深圳撒哈拉数据科技有限公司 异质麦克风自动增益校准方法及系统
CN108711432A (zh) * 2017-04-10 2018-10-26 中山大学 一种单麦克风的感知增益函数的语音增强方法
CN108831493B (zh) * 2018-05-21 2020-11-06 北京捷通华声科技股份有限公司 一种音频处理方法和装置
CN108831499B (zh) * 2018-05-25 2020-07-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN108810692A (zh) * 2018-05-25 2018-11-13 会听声学科技(北京)有限公司 主动降噪系统、主动降噪方法及耳机
CN108962275B (zh) * 2018-08-01 2021-06-15 电信科学技术研究院有限公司 一种音乐噪声抑制方法及装置
CN109727605B (zh) * 2018-12-29 2020-06-12 苏州思必驰信息科技有限公司 处理声音信号的方法及系统
CN112767962B (zh) * 2021-03-01 2021-08-03 北京电信易通信息技术股份有限公司 一种语音增强方法及系统
CN116711007A (zh) * 2021-04-01 2023-09-05 深圳市韶音科技有限公司 一种语音增强方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763846A (zh) * 2005-11-23 2006-04-26 北京中星微电子有限公司 一种语音增益因子估计装置和方法
CN101582264A (zh) * 2009-06-12 2009-11-18 瑞声声学科技(深圳)有限公司 语音增强的方法及语音增加的声音采集系统
CN101599274A (zh) * 2009-06-26 2009-12-09 瑞声声学科技(深圳)有限公司 语音增强的方法
CN101763858A (zh) * 2009-10-19 2010-06-30 瑞声声学科技(深圳)有限公司 双麦克风信号处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7363221B2 (en) * 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763846A (zh) * 2005-11-23 2006-04-26 北京中星微电子有限公司 一种语音增益因子估计装置和方法
CN101582264A (zh) * 2009-06-12 2009-11-18 瑞声声学科技(深圳)有限公司 语音增强的方法及语音增加的声音采集系统
CN101599274A (zh) * 2009-06-26 2009-12-09 瑞声声学科技(深圳)有限公司 语音增强的方法
CN101763858A (zh) * 2009-10-19 2010-06-30 瑞声声学科技(深圳)有限公司 双麦克风信号处理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269579A (zh) * 2018-01-18 2018-07-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN101894563A (zh) 2010-11-24

Similar Documents

Publication Publication Date Title
CN101894563B (zh) 语音增强的方法
CN101976566B (zh) 语音增强方法及应用该方法的装置
CN101599274B (zh) 语音增强的方法
CN101582264A (zh) 语音增强的方法及语音增加的声音采集系统
CN102074245B (zh) 基于双麦克风语音增强装置及语音增强方法
CN101916567B (zh) 应用于双麦克风系统的语音增强方法
CN102074246B (zh) 基于双麦克风语音增强装置及方法
EP3698360B1 (en) Noise reduction using machine learning
CN101976565A (zh) 基于双麦克风语音增强装置及方法
CN101763858A (zh) 双麦克风信号处理方法
US8010355B2 (en) Low complexity noise reduction method
CN108831499A (zh) 利用语音存在概率的语音增强方法
CN103730125B (zh) 一种回声抵消方法和设备
CN102347028A (zh) 双麦克风语音增强装置及方法
CN102792373B (zh) 噪音抑制装置
CN103871418B (zh) 一种扩声系统啸叫频点的检测方法及装置
CN101477800A (zh) 语音增强的方法
CN102144258B (zh) 促进确定信号边界频率的方法和装置
CN103109320A (zh) 噪声抑制装置
CN101894561A (zh) 一种基于小波变换和变步长最小均方算法的语音降噪方法
CN105390142A (zh) 一种数字助听器语音噪声消除方法
CN103578466B (zh) 基于分数阶傅里叶变换的语音非语音检测方法
CN103440872A (zh) 瞬态噪声的去噪方法
CN101853665A (zh) 语音中噪声的消除方法
US20160071529A1 (en) Signal processing apparatus, signal processing method, signal processing program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170509

Address after: Singapore Ang Mo Kio 65 Street No. 10 techpoint Building 1 floor, No. 8

Co-patentee after: AAC Optoelectronic (Changzhou) Co., Ltd.

Patentee after: AAC Technologies (Singapore) Co., Ltd.

Address before: 518057 Nanshan District province high tech Industrial Park, Shenzhen, North West New Road, No. 18

Co-patentee before: AAC Optoelectronic (Changzhou) Co., Ltd.

Patentee before: AAC Acoustic Technologies (Shenzhen) Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180929

Address after: No. 8, 2 floor, 85 Cavendish Science Park Avenue, Singapore

Patentee after: AAC Technologies (Singapore) Co., Ltd.

Address before: Singapore Ang Mo Kio 65 Street No. 10 techpoint Building 1 floor, No. 8

Co-patentee before: AAC Optoelectronic (Changzhou) Co., Ltd.

Patentee before: AAC Technologies (Singapore) Co., Ltd.