CN109102823A - 一种基于子带谱熵的语音增强方法 - Google Patents

一种基于子带谱熵的语音增强方法 Download PDF

Info

Publication number
CN109102823A
CN109102823A CN201811031344.3A CN201811031344A CN109102823A CN 109102823 A CN109102823 A CN 109102823A CN 201811031344 A CN201811031344 A CN 201811031344A CN 109102823 A CN109102823 A CN 109102823A
Authority
CN
China
Prior art keywords
subband
spectrum
noise
entropy
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811031344.3A
Other languages
English (en)
Other versions
CN109102823B (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201811031344.3A priority Critical patent/CN109102823B/zh
Publication of CN109102823A publication Critical patent/CN109102823A/zh
Application granted granted Critical
Publication of CN109102823B publication Critical patent/CN109102823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于子带谱熵的语音增强方法,首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强。本发明可以对每一帧信号的每个子带的语音存在性进行判断,增强噪声估计算法对非平稳环境的实时跟踪能力。

Description

一种基于子带谱熵的语音增强方法
技术领域
本发明属于语音信号处理技术领域,具体涉及到根据含噪语音每个子带的谱熵估计背景噪声的均值,对含噪语音进行谱减,恢复纯净语音的语音增强方法。
背景技术
在语音的传输过程中,不可避免地会受到环境噪声的干扰。含噪语音中混杂的噪声不仅使听者产生不舒服的感觉,而且会给语音编码、语音识别等应用系统带来不利影响。因此,在实际应用中,就需要采用各种语音增强方法抑制噪声干扰,增强有用语音信号,增加语音的可懂度。
在传统的语音增强算法中,需要对含噪语音进行端点检测,将其划分为有音段和静音段,即将每一帧信号判断为语音帧和非语音帧。在静音段,估计噪声频谱的均值;在有音段,利用估得的噪声均值,对每个语音帧的幅度谱进行增强,减小噪声干扰的影响。然而,实际环境中的背景噪声往往是非平稳的,在有音段,噪声的类型或强度也有可能发生变化。因此,仅仅在静音段估计噪声,无法实时跟踪非平稳噪声的变化,这会给语音增强带来不利影响。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于子带谱熵的语音增强方法。
技术方案:一种基于子带谱熵的语音增强方法,首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强。
本发明的具体步骤如下:
(1)对含噪语音进行预处理,包括加窗、分帧和快速傅里叶变换(FFT:FastFourier Transform),并将每帧信号的频谱分为幅度部分和相位部分;
(2)将含噪语音的幅度谱划分为若干个子带,并计算每个子带上的谱熵;
(3)根据每个子带上的谱熵,判断该子带是否存在语音;
(4)若某子带上不存在语音,则对该子带上的每个数字频率,用平滑滤波方式更新其噪声均值,并将其幅度谱设置为噪声均值的0.01倍;
(5)若某子带上存在语音,则对该子带上的每个数字频率,用加权谱减法减小噪声的影响,增强含噪语音的幅度谱,提高含噪语音的信噪比;
(6)对增强后的语音信号进行IFFT(Inverse FFT)运算,得到时域信号;
(7)对时域帧信号进行重叠相加,得到增强后的连续语音。
本发明采用上述技术方案,具有以下有益效果:
本发明可以对每一帧信号的每个子带的语音存在性进行判断,增强噪声估计算法对非平稳环境的实时跟踪能力。
附图说明
图1为本发明实施例的基于子带谱熵的语音增强方法的总体框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于子带谱熵的语音增强方法主要包括语音预处理、子带划分、子带谱熵计算、噪声估计、幅度增强、IFFT和重叠相加部分。
1、语音预处理
对含噪语音进行预处理,包括加窗、分帧和FFT。语音信号的采样频率为8000Hz,窗函数为海明窗,帧长为256,帧移为128。含噪语音经过预处理,可以得到每帧信号的幅度谱和相位谱,幅度谱用于噪声估计和谱减,相位谱用于在后端恢复时域信号。一般认为相位对听觉系统的影响很小,可以直接用含噪语音的相位作为纯净语音的相位。
2、子带谱熵计算
首先将每帧语音的幅度谱划分为8个等间距的子带;然后,计算每个子带上的谱熵;最后,根据每个子带上的谱熵,判断该子带是否存在语音。
3、噪声估计
若某子带上不存在语音,则对该子带上的每个数字频率k,用平滑滤波方式更新其噪声均值N(k,l):
N(k,l)=α·N(k,l-1)+(1-α)·|Y(k,l)| (1)
其中,N(k,l-1)是上一帧(第(l-1)帧)的噪声估计值;|Y(k,l)|是当前帧(第l帧)的含噪语音幅度谱;实数α是平滑系数,这里取α=0.9。若某子带上存在语音,则将α设置为1,即停止更新噪声,以上一帧的噪声估计值作为本帧的噪声估计值。
4、幅度增强
若某子带上存在语音,则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
其中,是纯净语音幅度的估计值,Y(k)、N(k)分别表示含噪语音的幅度和噪声的均值;β(m)是当前帧第m个子带上所有数字频率的过减系数,根据下式计算:
其中,E(m)是当前帧第m个子带的对数能量;Emin和Emax是E(m)的最小值和最大值;βmax是β(m)的上限,这里设置为6。
若某子带上不存在语音,则对该子带上的每个数字频率k,用下式估计
5、IFFT与重叠相加
首先将含噪语音的相位作为纯净语音的相位,与纯净语音幅度谱的估计值相乘,得到纯净语音的完整频谱;然后,对每一帧的完整频谱进行IFFT运算,得到时域信号;最后,对各帧时域信号进行重叠相加,得到增强后的数字语音。

Claims (5)

1.一种基于子带谱熵的语音增强方法,其特征在于:首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强。
2.如权利要求1所述的基于子带谱熵的语音增强方法,其特征在于,计算谱熵时,先对含噪语音进行加窗、分帧和快速傅里叶变换(FFT:Fast Fourier Transform)的预处理,并将每帧信号的频谱分为幅度部分和相位部分;然后将含噪语音的幅度谱划分为若干个子带,并计算每个子带上的谱熵。
3.如权利要求1所述的基于子带谱熵的语音增强方法,其特征在于,根据每个子带上的谱熵,判断该子带是否存在语音;若某子带上不存在语音,则对该子带上的每个数字频率,用平滑滤波方式更新其噪声均值,并将其幅度谱设置为噪声均值的0.01倍;若某子带上存在语音,则对该子带上的每个数字频率,用加权谱减法减小噪声的影响,增强含噪语音的幅度谱,提高含噪语音的信噪比;对增强后的语音信号进行IFFT(Inverse FFT)运算,得到时域信号;对时域帧信号进行重叠相加,得到增强后的连续语音。
4.如权利要求1所述的基于子带谱熵的语音增强方法,其特征在于,若某子带上不存在语音,则对该子带上的每个数字频率k,用平滑滤波方式更新其噪声均值N(k,l):
N(k,l)=α·N(k,l-1)+(1-α)·|Y(k,l)| (1)
其中,N(k,l-1)是第l-1帧的噪声估计值;|Y(k,l)|是第l帧的含噪语音幅度谱;实数α是平滑系数;若某子带上存在语音,则将α设置为1,即停止更新噪声,以第l-1帧的噪声估计值作为第l帧的噪声估计值。
5.如权利要求1所述的基于子带谱熵的语音增强方法,其特征在于,若某子带上存在语音,则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
其中,是纯净语音幅度的估计值,Y(k)、N(k)分别表示含噪语音的幅度和噪声的均值;β(m)是当前帧第m个子带上所有数字频率的过减系数,根据下式计算:
其中,E(m)是当前帧第m个子带的对数能量;Emin和Emax是E(m)的最小值和最大值;βmax是β(m)的上限;
若某子带上不存在语音,则对该子带上的每个数字频率k,用下式估计
CN201811031344.3A 2018-09-05 2018-09-05 一种基于子带谱熵的语音增强方法 Active CN109102823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811031344.3A CN109102823B (zh) 2018-09-05 2018-09-05 一种基于子带谱熵的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811031344.3A CN109102823B (zh) 2018-09-05 2018-09-05 一种基于子带谱熵的语音增强方法

Publications (2)

Publication Number Publication Date
CN109102823A true CN109102823A (zh) 2018-12-28
CN109102823B CN109102823B (zh) 2022-12-06

Family

ID=64865366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811031344.3A Active CN109102823B (zh) 2018-09-05 2018-09-05 一种基于子带谱熵的语音增强方法

Country Status (1)

Country Link
CN (1) CN109102823B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508519A (zh) * 2020-04-03 2020-08-07 北京达佳互联信息技术有限公司 一种音频信号人声增强的方法及装置
WO2021057239A1 (zh) * 2019-09-23 2021-04-01 腾讯科技(深圳)有限公司 语音数据的处理方法、装置、电子设备及可读存储介质
CN113571074A (zh) * 2021-08-09 2021-10-29 四川启睿克科技有限公司 基于多波段结构时域音频分离网络的语音增强方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强
CN104471855A (zh) * 2012-07-12 2015-03-25 Dts公司 具有噪声检测和响度下降检测的响度控制
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN106340292A (zh) * 2016-09-08 2017-01-18 河海大学 一种基于连续噪声估计的语音增强方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN104471855A (zh) * 2012-07-12 2015-03-25 Dts公司 具有噪声检测和响度下降检测的响度控制
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN106340292A (zh) * 2016-09-08 2017-01-18 河海大学 一种基于连续噪声估计的语音增强方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021057239A1 (zh) * 2019-09-23 2021-04-01 腾讯科技(深圳)有限公司 语音数据的处理方法、装置、电子设备及可读存储介质
US12039987B2 (en) 2019-09-23 2024-07-16 Tencent Technology (Shenzhen) Company Limited Speech data processing method and apparatus, electronic device, and readable storage medium
CN111508519A (zh) * 2020-04-03 2020-08-07 北京达佳互联信息技术有限公司 一种音频信号人声增强的方法及装置
CN113571074A (zh) * 2021-08-09 2021-10-29 四川启睿克科技有限公司 基于多波段结构时域音频分离网络的语音增强方法及装置
CN113571074B (zh) * 2021-08-09 2023-07-25 四川启睿克科技有限公司 基于多波段结构时域音频分离网络的语音增强方法及装置

Also Published As

Publication number Publication date
CN109102823B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN106340292B (zh) 一种基于连续噪声估计的语音增强方法
US6122610A (en) Noise suppression for low bitrate speech coder
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
CN103456310B (zh) 一种基于谱估计的瞬态噪声抑制方法
US7313518B2 (en) Noise reduction method and device using two pass filtering
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
EP2031583B1 (en) Fast estimation of spectral noise power density for speech signal enhancement
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
Verteletskaya et al. Noise reduction based on modified spectral subtraction method
JPH0916194A (ja) 音声信号の雑音低減方法
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
CN109102823A (zh) 一种基于子带谱熵的语音增强方法
US5963899A (en) Method and system for region based filtering of speech
CN114005457A (zh) 一种基于幅度估计与相位重构的单通道语音增强方法
Sharma et al. Weighted sigmoid-based frequency-selective noise filtering for speech denoising
Nabi et al. A dual-channel noise reduction algorithm based on the coherence function and the bionic wavelet
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
Rao et al. Speech enhancement using perceptual Wiener filter combined with unvoiced speech—A new Scheme
Dionelis On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering
Upadhyay et al. An auditory perception based improved multi-band spectral subtraction algorithm for enhancement of speech degraded by non-stationary noises
Sunnydayal et al. Speech enhancement using sub-band wiener filter with pitch synchronous analysis
Yeganeh et al. Weighting of mel sub-bands based on SNR/entropy for robust ASR
CN109346106B (zh) 一种基于子带信噪比加权的倒谱域基音周期估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant