CN109102823B - 一种基于子带谱熵的语音增强方法 - Google Patents
一种基于子带谱熵的语音增强方法 Download PDFInfo
- Publication number
- CN109102823B CN109102823B CN201811031344.3A CN201811031344A CN109102823B CN 109102823 B CN109102823 B CN 109102823B CN 201811031344 A CN201811031344 A CN 201811031344A CN 109102823 B CN109102823 B CN 109102823B
- Authority
- CN
- China
- Prior art keywords
- sub
- band
- noise
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000001228 spectrum Methods 0.000 claims abstract description 35
- 230000002708 enhancing effect Effects 0.000 claims abstract description 6
- 238000011410 subtraction method Methods 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于子带谱熵的语音增强方法,首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强。本发明可以对每一帧信号的每个子带的语音存在性进行判断,增强噪声估计算法对非平稳环境的实时跟踪能力。
Description
技术领域
本发明属于语音信号处理技术领域,具体涉及到根据含噪语音每个子带的谱熵估计背景噪声的均值,对含噪语音进行谱减,恢复纯净语音的语音增强方法。
背景技术
在语音的传输过程中,不可避免地会受到环境噪声的干扰。含噪语音中混杂的噪声不仅使听者产生不舒服的感觉,而且会给语音编码、语音识别等应用系统带来不利影响。因此,在实际应用中,就需要采用各种语音增强方法抑制噪声干扰,增强有用语音信号,增加语音的可懂度。
在传统的语音增强算法中,需要对含噪语音进行端点检测,将其划分为有音段和静音段,即将每一帧信号判断为语音帧和非语音帧。在静音段,估计噪声频谱的均值;在有音段,利用估得的噪声均值,对每个语音帧的幅度谱进行增强,减小噪声干扰的影响。然而,实际环境中的背景噪声往往是非平稳的,在有音段,噪声的类型或强度也有可能发生变化。因此,仅仅在静音段估计噪声,无法实时跟踪非平稳噪声的变化,这会给语音增强带来不利影响。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于子带谱熵的语音增强方法。
技术方案:一种基于子带谱熵的语音增强方法,首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强。
本发明的具体步骤如下:
(1)对含噪语音进行预处理,包括加窗、分帧和快速傅里叶变换(FFT:FastFourier Transform),并将每帧信号的频谱分为幅度部分和相位部分;
(2)将含噪语音的幅度谱划分为若干个子带,并计算每个子带上的谱熵;
(3)根据每个子带上的谱熵,判断该子带是否存在语音;
(4)若某子带上不存在语音,则对该子带上的每个数字频率,用平滑滤波方式更新其噪声均值,并将其幅度谱设置为噪声均值的0.01倍;
(5)若某子带上存在语音,则对该子带上的每个数字频率,用加权谱减法减小噪声的影响,增强含噪语音的幅度谱,提高含噪语音的信噪比;
(6)对增强后的语音信号进行IFFT(Inverse FFT)运算,得到时域信号;
(7)对时域帧信号进行重叠相加,得到增强后的连续语音。
本发明采用上述技术方案,具有以下有益效果:
本发明可以对每一帧信号的每个子带的语音存在性进行判断,增强噪声估计算法对非平稳环境的实时跟踪能力。
附图说明
图1为本发明实施例的基于子带谱熵的语音增强方法的总体框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于子带谱熵的语音增强方法主要包括语音预处理、子带划分、子带谱熵计算、噪声估计、幅度增强、IFFT和重叠相加部分。
1、语音预处理
对含噪语音进行预处理,包括加窗、分帧和FFT。语音信号的采样频率为8000Hz,窗函数为海明窗,帧长为256,帧移为128。含噪语音经过预处理,可以得到每帧信号的幅度谱和相位谱,幅度谱用于噪声估计和谱减,相位谱用于在后端恢复时域信号。一般认为相位对听觉系统的影响很小,可以直接用含噪语音的相位作为纯净语音的相位。
2、子带谱熵计算
首先将每帧语音的幅度谱划分为8个等间距的子带;然后,计算每个子带上的谱熵;最后,根据每个子带上的谱熵,判断该子带是否存在语音。
3、噪声估计
若某子带上不存在语音,则对该子带上的每个数字频率k,用平滑滤波方式更新其噪声均值N(k,l):
N(k,l)=α·N(k,l-1)+(1-α)·|Y(k,l)| (1)
其中,N(k,l-1)是上一帧(第(l-1)帧)的噪声估计值;|Y(k,l)|是当前帧(第l帧)的含噪语音幅度谱;实数α是平滑系数,这里取α=0.9。若某子带上存在语音,则将α设置为1,即停止更新噪声,以上一帧的噪声估计值作为本帧的噪声估计值。
4、幅度增强
若某子带上存在语音,则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
其中,E(m)是当前帧第m个子带的对数能量;Emin和Emax是E(m)的最小值和最大值;βmax是β(m)的上限,这里设置为6。
5、IFFT与重叠相加
Claims (3)
1.一种基于子带谱熵的语音增强方法,其特征在于:首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强;计算谱熵时,先对含噪语音进行加窗、分帧和快速傅里叶变换的预处理,并将每帧信号的频谱分为幅度部分和相位部分;然后将含噪语音的幅度谱划分为若干个子带,并计算每个子带上的谱熵;
具体的,若某子带上存在语音,则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
其中,E(m)是当前帧第m个子带的对数能量;Emin和Emax是E(m)的最小值和最大值;βmax是β(m)的上限;
2.如权利要求1所述的基于子带谱熵的语音增强方法,其特征在于,根据每个子带上的谱熵,判断该子带是否存在语音;若某子带上不存在语音,则对该子带上的每个数字频率,用平滑滤波方式更新其噪声均值,并将其幅度谱设置为噪声均值的0.01倍;若某子带上存在语音,则对该子带上的每个数字频率,用加权谱减法减小噪声的影响,增强含噪语音的幅度谱,提高含噪语音的信噪比;对增强后的语音信号进行IFFT运算,得到时域信号;对时域帧信号进行重叠相加,得到增强后的连续语音。
3.如权利要求1所述的基于子带谱熵的语音增强方法,其特征在于,若某子带上不存在语音,则对该子带上的每个数字频率k,用平滑滤波方式更新其噪声均值N(k,l):
N(k,l)=α·N(k,l-1)+(1-α)·|Y(k,l)| (1)
其中,N(k,l-1)是第l-1帧的噪声估计值;|Y(k,l)|是第l帧的含噪语音幅度谱;实数α是平滑系数;若某子带上存在语音,则将α设置为1,即停止更新噪声,以第l-1帧的噪声估计值作为第l帧的噪声估计值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811031344.3A CN109102823B (zh) | 2018-09-05 | 2018-09-05 | 一种基于子带谱熵的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811031344.3A CN109102823B (zh) | 2018-09-05 | 2018-09-05 | 一种基于子带谱熵的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109102823A CN109102823A (zh) | 2018-12-28 |
CN109102823B true CN109102823B (zh) | 2022-12-06 |
Family
ID=64865366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811031344.3A Active CN109102823B (zh) | 2018-09-05 | 2018-09-05 | 一种基于子带谱熵的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109102823B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648680B (zh) * | 2019-09-23 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
CN111508519B (zh) * | 2020-04-03 | 2022-04-26 | 北京达佳互联信息技术有限公司 | 一种音频信号人声增强的方法及装置 |
CN113571074B (zh) * | 2021-08-09 | 2023-07-25 | 四川启睿克科技有限公司 | 基于多波段结构时域音频分离网络的语音增强方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1912993A (zh) * | 2005-08-08 | 2007-02-14 | 中国科学院声学研究所 | 基于能量及谐波的语音端点检测方法 |
CN102097095A (zh) * | 2010-12-28 | 2011-06-15 | 天津市亚安科技电子有限公司 | 一种语音端点检测方法及装置 |
CN103594094A (zh) * | 2012-08-15 | 2014-02-19 | 王景芳 | 自适应谱减法实时语音增强 |
CN104471855A (zh) * | 2012-07-12 | 2015-03-25 | Dts公司 | 具有噪声检测和响度下降检测的响度控制 |
CN105023572A (zh) * | 2014-04-16 | 2015-11-04 | 王景芳 | 一种含噪语音端点鲁棒检测方法 |
CN106340292A (zh) * | 2016-09-08 | 2017-01-18 | 河海大学 | 一种基于连续噪声估计的语音增强方法 |
-
2018
- 2018-09-05 CN CN201811031344.3A patent/CN109102823B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1912993A (zh) * | 2005-08-08 | 2007-02-14 | 中国科学院声学研究所 | 基于能量及谐波的语音端点检测方法 |
CN102097095A (zh) * | 2010-12-28 | 2011-06-15 | 天津市亚安科技电子有限公司 | 一种语音端点检测方法及装置 |
CN104471855A (zh) * | 2012-07-12 | 2015-03-25 | Dts公司 | 具有噪声检测和响度下降检测的响度控制 |
CN103594094A (zh) * | 2012-08-15 | 2014-02-19 | 王景芳 | 自适应谱减法实时语音增强 |
CN105023572A (zh) * | 2014-04-16 | 2015-11-04 | 王景芳 | 一种含噪语音端点鲁棒检测方法 |
CN106340292A (zh) * | 2016-09-08 | 2017-01-18 | 河海大学 | 一种基于连续噪声估计的语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109102823A (zh) | 2018-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6122610A (en) | Noise suppression for low bitrate speech coder | |
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
CN106340292B (zh) | 一种基于连续噪声估计的语音增强方法 | |
JP4279357B2 (ja) | 特に補聴器における雑音を低減する装置および方法 | |
US7313518B2 (en) | Noise reduction method and device using two pass filtering | |
EP1745468B1 (en) | Noise reduction for automatic speech recognition | |
CN111554315B (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
US20120245927A1 (en) | System and method for monaural audio processing based preserving speech information | |
Verteletskaya et al. | Noise reduction based on modified spectral subtraction method | |
CN109102823B (zh) | 一种基于子带谱熵的语音增强方法 | |
CN114005457A (zh) | 一种基于幅度估计与相位重构的单通道语音增强方法 | |
Amehraye et al. | Perceptual improvement of Wiener filtering | |
Wang et al. | Spectral subtraction based on two-stage spectral estimation and modified cepstrum thresholding | |
Nabi et al. | A dual-channel noise reduction algorithm based on the coherence function and the bionic wavelet | |
Jin et al. | An improved speech endpoint detection based on spectral subtraction and adaptive sub-band spectral entropy | |
Surendran et al. | Variance normalized perceptual subspace speech enhancement | |
EP2063420A1 (en) | Method and assembly to enhance the intelligibility of speech | |
Upadhyay et al. | A perceptually motivated stationary wavelet packet filterbank using improved spectral over-subtraction for enhancement of speech in various noise environments | |
Dionelis | On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering | |
Zhang et al. | Fundamental frequency estimation combining air-conducted speech with bone-conducted speech in noisy environment | |
CN113870884B (zh) | 单麦克风噪声抑制方法和装置 | |
Karabashetti et al. | Speech enhancement using multiband spectral subtraction with cross spectral component reduction | |
Verteletskaya et al. | Enhanced spectral subtraction method for noise reduction with minimal speech distortion | |
Verteletskaya et al. | Speech distortion minimized noise reduction algorithm | |
Abd Almisreb et al. | Noise reduction approach for Arabic phonemes articulated by Malay speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |