CN101477800A - 语音增强的方法 - Google Patents
语音增强的方法 Download PDFInfo
- Publication number
- CN101477800A CN101477800A CNA2008102421029A CN200810242102A CN101477800A CN 101477800 A CN101477800 A CN 101477800A CN A2008102421029 A CNA2008102421029 A CN A2008102421029A CN 200810242102 A CN200810242102 A CN 200810242102A CN 101477800 A CN101477800 A CN 101477800A
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- subband
- energy
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
一种语音增强的方法,其包括如下步骤:①对带噪语音信号进行分帧,加窗变换到频域;②将变换到频域后的带噪语音信号划分为若干子带,则相邻两子带间设有子带区间;③找出每个子带区间的噪声能量;④求出每个子带区间的倍乘因子;⑤得到全频带增强后的语音信号;⑥合成语音谱;⑦输出信号。本发明语音增强的方法资源需求量小。
Description
【技术领域】
本发明涉及一种语音增强的方法。
【背景技术】
由于大量环境噪声的存在,麦克风采集到的语音信号普遍信噪比不够高,所以需要通过语音增强的方法来提升输入语音的信噪比。相关技术的语音增强的方法需要使用VAD(Voice Activity Detection,语音激活检测)来区分语音信号部分和噪声信号部分,所以需要的计算量和存储空间都偏大,对硬件的要求比较高,在制成专用芯片时需要的硅的面积也比较大,必将增加成本。
因此实有必要对相关技术的语音增强的方法进行改良。
【发明内容】
本发明的目的在于提供一种资源需求量小的语音增强的方法。
本发明的目的是这样实现的:
一种语音增强的方法,其包括如下步骤:
①将声音采集装置采集到的带噪语音信号用芯片进行分帧处理,再加窗变换到频域;
②用子带分析滤波器将变换到频域后的带噪语音信号划分为若干子带,则相邻两子带间设有子带区间,再计算每个子区间的能量并进行平滑,得到经平滑后的每个子带区间的能量;
③用最小值统计法找出每个子带区间的噪声能量;
④用频谱减算法根据经平滑后的每个子带区间的能量和统计出的噪声能量求出每个子带区间的倍乘因子;
⑤用计算的倍乘因子对每个子带区间的变换到频域后的带噪语音信号进行处理,得到全频带增强后的语音信号;
⑥用子带综合滤波器把全频带增强后的语音信号合成为语音谱;
⑦把语音谱变换到时间域得到变换到时域后的全频带增强后的语音信号,再把相邻的变换到时域后的全频带增强后的语音信号的重叠部分进行相加操作后得到最终输出信号。
与相关技术比较,本发明语音增强的方法避免了VAD的使用,其方法简单,资源需求量小。使用了很小的计算量,实现了一定的信噪比提升。
【附图说明】
图1为本发明的语音增强的方法的流程示意图。
【具体实施方式】
本发明语音增强的方法,其包括如下步骤:
①将声音采集装置采集到的带噪语音信号用芯片进行分帧处理,再加窗变换到频域;
②用子带分析滤波器将变换到频域后的带噪语音信号划分为若干子带,则相邻两子带间设有子带区间,再计算每个子区间的能量并进行平滑,得到经平滑后的每个子带区间的能量;
③用最小值统计法找出每个子带区间的噪声能量;
④用频谱减算法根据经平滑后的每个子带区间的能量和统计出的噪声能量求出每个子带区间的倍乘因子;
⑤用计算的倍乘因子对每个子带区间的变换到频域后的带噪语音信号进行处理,得到全频带增强后的语音信号;
⑥用子带综合滤波器把全频带增强后的语音信号合成为语音谱;
⑦把语音谱变换到时间域得到变换到时域后的全频带增强后的语音信号,再把相邻的变换到时域后的全频带增强后的语音信号的重叠部分进行相加操作后得到最终输出信号。
本发明选取带噪语音信号的频率为8KHZ。
对在时域中的带噪语音信号进行分帧,是将带噪语音信号以帧为单位等分成若干带噪信号单元。所述带噪信号单元由采样点组成,本发明中选取了8KHz的采样频率,根据短时谱分析的需要,帧长一般设定成10~35ms之间,本实施方式以32ms分帧,即一帧带噪信号单元设有256个采样点,自然地,任意一帧带噪信号单元具有一定的帧长,本发明中任意帧的帧长为256。为了防止相邻两帧的带噪信号单元间的块效应,在分帧时要使相邻两帧的带噪信号单元之间有一定的混叠部分,即,本帧数据中有D个数据为前一帧数据的部分数据,其中混叠部分描述如下:
s(n)=d(m,D+n) 0≤n<L
其中s表示输入带噪语音信号
d(m,n)=d(m-1,L+n) 0≤n<D
其中,d表示当前帧的256点采样信号,因为任意一帧的长度为256,重叠率为75%,所以重叠部分的采样点个数D=192。相邻帧的带噪信号单元的第一个采样点相隔的距离L=256-192=64。
本发明相邻两帧的带噪信号单元之间可以具有50%~75%的重叠率。本实施方式选取相邻两帧的带噪信号单元之间具有75%的重叠率,即以从前向后的顺序,本帧75%的带噪信号单元和前一帧,以从后向前的顺序,75%的带噪语音信号单元一致。
加窗操作中所定义的窗函数是一个长度等于帧长256点的汉明窗,定义如下:
win(n)={
0.54—0.46cos(2*π*n/M) 0≤n≤M-1
0 其余n
}
其中,M为任意一帧的长度,即256;
加窗后的信号为
g(n)=win(n)*d(m,n) 0≤n≤M-1
频域的变换用通用的离散傅利叶变换算法来实现,所述离散傅利叶变换英文名称为Discrete Fourier Transform,简称DFT。
其中,M=256,为离散傅利叶变换的计算长度。
这样就将带噪语音信号s从时域变换到了频域。
变换到频域后的带噪语音信号包括语音信号和噪声信号,该信号以帧为单位划分为若干子带,则相邻子带设有子带区间。
本发明采用子带分析滤波器划分子带。划分子带操作很容易实现,因为DFT操作已经相当于把本发明的8KHz的带宽等份成256等分。根据采样定理约束,本发明选取256个子带中有效的、频率较低的129个子带进行处理。
本发明,用如下公式计算每个子区间的能量并进行平滑:
E(k)=|G(k)|2 0≤k≤N-1
Pxn(m,k)=αPxn(m-1,k)+(1-α)E(k) 0≤k≤N-1
其中,Pxn表示经平滑后的每个子带区间的能量,m表示当前帧的序号,k表示当前的子带的序号,α=0.81056表示平滑因子。N为选取的子带总数,即129。
经平滑后的每个子带区间的能量包括语音能量和噪声能量。
本发明,每个子带区间的噪声能量的寻找采用了R.Martin提出的最小值统计方法找出每个子带区间的噪声能量。该方法通过假设噪声能量是平稳和连续的,而语音能量是有间断的。所以可以对过去一段时间内每个子区间平滑后的能量进行搜索,找到能量的最小值作为噪声能量。
Pn(m,k)=min(Pxn(m,k),Pxn(m-1,k),...) 0≤k≤N-1
其中,m表示当前帧的序号,k表示当前的子带的序号,N=129,搜索的时间大约为1.5秒钟。
该搜索的时间1.5秒钟大致等于188帧信号对应的时间长度。得到该数据的具体方法为:考虑到75%的重叠,188帧对应的时间长度188*0.032*(1-75%)=1.504。即本发明是对过去188帧经平滑后的每个子带区间的能量进行比较,其中的最小值作为该子带当前时刻的噪声能量。
求倍乘因子模块应用了幅度谱减法的原理,给要减去的噪声能量乘以一个大于1的因子进一步提高语音增强的效果。本发明利用经平滑后的每个子带区间的能量和统计出的噪声能量求出每个子带区间的倍乘因子,计算公式为:
其中,q为倍乘因子,m表示当前帧的序号,k表示当前的子带的序号,N=129子带总数,σ表示一个大于1的因子,对于频率为400Hz以下的子带,它的值随频率的增大而减小,对于400Hz以上的子带就稳定在1.3。由于统计出来的噪声往往比平均值要小,所以σ的作用是使系统减去比原来更加多的噪声,达到更好的去噪效果。
将子带分析滤波器输出的每个子带区间变换到频域后的带噪语音信号G乘以倍乘因子后,得到的就是该子带区间增强后的语音信号,129个子带区间的增强后语音信号构成了全频带增强后的语音信号。
H(k)=q(k)*G(k) 0≤k≤N-1
其中,N=129子带总数,H(k)为第k个子带区间的语音增强后的信号。
子带综合滤波器把全频带增强后的语音信号合成为语音谱。本发明把129个子带的增强后的语音信号通过共轭变换求出256点完整的语音谱。
H(k)={H(k) 0≤k≤N-1
H(M-k) N≤k≤M-1
}
其中,N=129子带总数,M=256,即帧长。
最后的时域变换及输出部分进行的操作有:
第一步:逆DFT变换,把语音谱变换到时间域得到变换到时域后的全频带增强后的语音信号。
第二步:将相邻的变换到时域后的全频带增强后的语音信号的重叠部分进行相加操作。
时域的变换用通用的逆DFT(逆离散傅利叶变换)实现。
其中,M=256,为帧长。h为变换到时域后的全频带增强后的语音信号。
相邻的变换到时域后的全频带增强后的语音信号的重叠部分相加可
以用如下的方法来表示。
h′(n)={h(m,n)+h(m-1,n+L); 0≤n<M-L
h(m,n); M-L≤k<L
}
L=64为相邻的帧信号开始处的距离,M=256,为帧长。h’代表完成相加操作后的最终输出信号。
与相关技术相比较,本发明语音增强的方法有效地利用了频谱减算法计算量小的特点,避免了VAD的使用,其方法简单,资源需求量小。使用了很小的计算量,实现了一定的信噪比提升。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
Claims (6)
1、一种语音增强的方法,其特征在于:包括如下步骤:
①将声音采集装置采集到的带噪语音信号用芯片进行分帧处理,再加窗变换到频域;
②用子带分析滤波器将变换到频域后的带噪语音信号划分为若干子带,则相邻两子带间设有子带区间,再计算每个子区间的能量并进行平滑,得到经平滑后的每个子带区间的能量;
③用最小值统计法找出每个子带区间的噪声能量;
④用频谱减算法根据经平滑后的每个子带区间的能量和统计出的噪声能量求出每个子带区间的倍乘因子;
⑤用计算的倍乘因子对每个子带区间的变换到频域后的带噪语音信号进行处理,得到全频带增强后的语音信号;
⑥用子带综合滤波器把全频带增强后的语音信号合成为语音谱;
⑦把语音谱变换到时间域得到变换到时域后的全频带增强后的语音信号,再把相邻的变换到时域后的全频带增强后的语音信号的重叠部分进行相加操作后得到最终输出信号。
2.根据权利要求1所述的语音增强的方法,其特征在于:所述分帧处理的信号中,相邻两帧间重叠部分在50%至75%之间。
3、根据权利要求2所述的语音增强的方法,其特征在于:所述任意帧的长度在10~35ms左右。
4、根据权利要求3所述的语音增强的方法,其特征在于:所述变换到频域后的带噪语音信号选取129个子带区间。
5、根据权利要求4所述的语音增强的方法,其特征在于:对所述每个子带区间过去1.5秒的时间内的计算每个子带区间的能量进行平滑比较,找到该子带区间的最小语音能量作为噪声能量。
6、根据权利要求5所述的语音增强的方法,其特征在于:求倍乘因子的模块应用了幅度频谱减算法的原理,并给要减去的噪声能量乘以一个大于1的因子进一步提高语音增强的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008102421029A CN101477800A (zh) | 2008-12-31 | 2008-12-31 | 语音增强的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008102421029A CN101477800A (zh) | 2008-12-31 | 2008-12-31 | 语音增强的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101477800A true CN101477800A (zh) | 2009-07-08 |
Family
ID=40838500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008102421029A Pending CN101477800A (zh) | 2008-12-31 | 2008-12-31 | 语音增强的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101477800A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111697A (zh) * | 2009-12-28 | 2011-06-29 | 歌尔声学股份有限公司 | 一种麦克风阵列降噪控制方法及装置 |
CN102300140A (zh) * | 2011-08-10 | 2011-12-28 | 歌尔声学股份有限公司 | 一种通信耳机的语音增强方法、装置及降噪通信耳机 |
CN101916567B (zh) * | 2009-11-23 | 2012-02-01 | 瑞声声学科技(深圳)有限公司 | 应用于双麦克风系统的语音增强方法 |
WO2012069020A1 (zh) | 2010-11-25 | 2012-05-31 | 歌尔声学股份有限公司 | 语音增强方法、装置及头戴式降噪通信耳机 |
CN102576537A (zh) * | 2009-09-07 | 2012-07-11 | 诺基亚公司 | 用于处理音频信号的方法和装置 |
CN102576538A (zh) * | 2009-09-07 | 2012-07-11 | 诺基亚公司 | 用于处理音频信号的方法和设备 |
CN103440870A (zh) * | 2013-08-16 | 2013-12-11 | 北京奇艺世纪科技有限公司 | 一种音频降噪方法及装置 |
CN104934032A (zh) * | 2014-03-17 | 2015-09-23 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
CN106340292A (zh) * | 2016-09-08 | 2017-01-18 | 河海大学 | 一种基于连续噪声估计的语音增强方法 |
CN106504758A (zh) * | 2016-10-25 | 2017-03-15 | 大连理工大学 | 混音器及混音方法 |
CN107833579A (zh) * | 2017-10-30 | 2018-03-23 | 广州酷狗计算机科技有限公司 | 噪声消除方法、装置及计算机可读存储介质 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN108806712A (zh) * | 2018-04-27 | 2018-11-13 | 深圳市沃特沃德股份有限公司 | 减少频域处理量的方法与装置 |
WO2020097820A1 (zh) * | 2018-11-14 | 2020-05-22 | 深圳市大疆创新科技有限公司 | 基于多麦克风的风噪处理方法、装置、系统及存储介质 |
CN111968664A (zh) * | 2020-08-21 | 2020-11-20 | 武汉大晟极科技有限公司 | 一种语音降噪方法及均衡滤波器 |
CN112259116A (zh) * | 2020-10-14 | 2021-01-22 | 北京字跳网络技术有限公司 | 一种音频数据的降噪方法、装置、电子设备及存储介质 |
WO2021147237A1 (zh) * | 2020-01-20 | 2021-07-29 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
-
2008
- 2008-12-31 CN CNA2008102421029A patent/CN101477800A/zh active Pending
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102576537B (zh) * | 2009-09-07 | 2014-07-16 | 诺基亚公司 | 用于处理音频信号的方法和装置 |
US9640187B2 (en) | 2009-09-07 | 2017-05-02 | Nokia Technologies Oy | Method and an apparatus for processing an audio signal using noise suppression or echo suppression |
CN102576537A (zh) * | 2009-09-07 | 2012-07-11 | 诺基亚公司 | 用于处理音频信号的方法和装置 |
CN102576538A (zh) * | 2009-09-07 | 2012-07-11 | 诺基亚公司 | 用于处理音频信号的方法和设备 |
CN102576538B (zh) * | 2009-09-07 | 2015-05-20 | 诺基亚公司 | 用于处理音频信号的方法和设备 |
CN101916567B (zh) * | 2009-11-23 | 2012-02-01 | 瑞声声学科技(深圳)有限公司 | 应用于双麦克风系统的语音增强方法 |
WO2011079716A1 (zh) * | 2009-12-28 | 2011-07-07 | 歌尔声学股份有限公司 | 一种使用麦克风阵列的降噪控制方法和装置 |
CN102111697A (zh) * | 2009-12-28 | 2011-06-29 | 歌尔声学股份有限公司 | 一种麦克风阵列降噪控制方法及装置 |
CN102111697B (zh) * | 2009-12-28 | 2015-03-25 | 歌尔声学股份有限公司 | 一种麦克风阵列降噪控制方法及装置 |
US8942976B2 (en) | 2009-12-28 | 2015-01-27 | Goertek Inc. | Method and device for noise reduction control using microphone array |
WO2012069020A1 (zh) | 2010-11-25 | 2012-05-31 | 歌尔声学股份有限公司 | 语音增强方法、装置及头戴式降噪通信耳机 |
CN102300140B (zh) * | 2011-08-10 | 2013-12-18 | 歌尔声学股份有限公司 | 一种通信耳机的语音增强方法及降噪通信耳机 |
WO2013020380A1 (zh) | 2011-08-10 | 2013-02-14 | 歌尔声学股份有限公司 | 一种通信耳机的语音增强方法、装置及降噪通信耳机 |
US9484042B2 (en) | 2011-08-10 | 2016-11-01 | Goertek Inc. | Speech enhancing method, device for communication earphone and noise reducing communication earphone |
CN102300140A (zh) * | 2011-08-10 | 2011-12-28 | 歌尔声学股份有限公司 | 一种通信耳机的语音增强方法、装置及降噪通信耳机 |
CN103440870A (zh) * | 2013-08-16 | 2013-12-11 | 北京奇艺世纪科技有限公司 | 一种音频降噪方法及装置 |
CN104934032A (zh) * | 2014-03-17 | 2015-09-23 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
CN104934032B (zh) * | 2014-03-17 | 2019-04-05 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
CN106340292A (zh) * | 2016-09-08 | 2017-01-18 | 河海大学 | 一种基于连续噪声估计的语音增强方法 |
CN106340292B (zh) * | 2016-09-08 | 2019-08-20 | 河海大学 | 一种基于连续噪声估计的语音增强方法 |
CN106504758A (zh) * | 2016-10-25 | 2017-03-15 | 大连理工大学 | 混音器及混音方法 |
CN106504758B (zh) * | 2016-10-25 | 2019-07-16 | 大连理工大学 | 混音器及混音方法 |
CN107833579B (zh) * | 2017-10-30 | 2021-06-11 | 广州酷狗计算机科技有限公司 | 噪声消除方法、装置及计算机可读存储介质 |
CN107833579A (zh) * | 2017-10-30 | 2018-03-23 | 广州酷狗计算机科技有限公司 | 噪声消除方法、装置及计算机可读存储介质 |
WO2019205796A1 (zh) * | 2018-04-27 | 2019-10-31 | 深圳市沃特沃德股份有限公司 | 减少频域处理量的方法、装置及设备 |
CN108806712A (zh) * | 2018-04-27 | 2018-11-13 | 深圳市沃特沃德股份有限公司 | 减少频域处理量的方法与装置 |
CN108806712B (zh) * | 2018-04-27 | 2020-08-18 | 深圳市沃特沃德股份有限公司 | 减少频域处理量的方法与装置 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
WO2020097820A1 (zh) * | 2018-11-14 | 2020-05-22 | 深圳市大疆创新科技有限公司 | 基于多麦克风的风噪处理方法、装置、系统及存储介质 |
WO2021147237A1 (zh) * | 2020-01-20 | 2021-07-29 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN111968664A (zh) * | 2020-08-21 | 2020-11-20 | 武汉大晟极科技有限公司 | 一种语音降噪方法及均衡滤波器 |
CN111968664B (zh) * | 2020-08-21 | 2024-04-05 | 武汉大晟极科技有限公司 | 一种语音降噪方法及均衡滤波器 |
CN112259116A (zh) * | 2020-10-14 | 2021-01-22 | 北京字跳网络技术有限公司 | 一种音频数据的降噪方法、装置、电子设备及存储介质 |
CN112259116B (zh) * | 2020-10-14 | 2024-03-15 | 北京字跳网络技术有限公司 | 一种音频数据的降噪方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101477800A (zh) | 语音增强的方法 | |
CN101599274A (zh) | 语音增强的方法 | |
CN101976566A (zh) | 语音增强方法及应用该方法的装置 | |
US6804643B1 (en) | Speech recognition | |
CN102074245B (zh) | 基于双麦克风语音增强装置及语音增强方法 | |
CN101916567B (zh) | 应用于双麦克风系统的语音增强方法 | |
CN102074246B (zh) | 基于双麦克风语音增强装置及方法 | |
EP2164066B1 (en) | Noise spectrum tracking in noisy acoustical signals | |
CN101894563A (zh) | 语音增强的方法 | |
Bayya et al. | Spectro-temporal analysis of speech signals using zero-time windowing and group delay function | |
Graciarena et al. | All for one: feature combination for highly channel-degraded speech activity detection. | |
EP1250699B1 (en) | Speech recognition | |
US8566084B2 (en) | Speech processing based on time series of maximum values of cross-power spectrum phase between two consecutive speech frames | |
CN102915742A (zh) | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 | |
CN103440872A (zh) | 瞬态噪声的去噪方法 | |
US10431243B2 (en) | Signal processing apparatus, signal processing method, signal processing program | |
EP2985761A1 (en) | Signal processing device, signal processing method, and signal processing program | |
US20070055519A1 (en) | Robust bandwith extension of narrowband signals | |
CN113077806A (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
CN109102823B (zh) | 一种基于子带谱熵的语音增强方法 | |
CN110379438B (zh) | 一种语音信号基频检测与提取方法及系统 | |
Ganapathy et al. | Robust spectro-temporal features based on autoregressive models of hilbert envelopes | |
JP5325130B2 (ja) | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム | |
CN113571074B (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
Upadhyay et al. | A perceptually motivated stationary wavelet packet filterbank using improved spectral over-subtraction for enhancement of speech in various noise environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090708 |