CN112233657A - 一种基于低频音节识别的语音增强方法 - Google Patents

一种基于低频音节识别的语音增强方法 Download PDF

Info

Publication number
CN112233657A
CN112233657A CN202011095086.2A CN202011095086A CN112233657A CN 112233657 A CN112233657 A CN 112233657A CN 202011095086 A CN202011095086 A CN 202011095086A CN 112233657 A CN112233657 A CN 112233657A
Authority
CN
China
Prior art keywords
speech
low
frequency
voice
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011095086.2A
Other languages
English (en)
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202011095086.2A priority Critical patent/CN112233657A/zh
Publication of CN112233657A publication Critical patent/CN112233657A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明公开一种基于低频音节识别的语音增强方法,首先将语音的幅度谱划分为若干个子带,统计每个音节在每个子带上语音存在的概率;然后,对含噪测试语音提取低频特征向量,用低频声学模型将其识别为某个音节,得到当前语音每个子带上语音存在的概率;最后,根据子带语音存在概率,用加权谱减法对含噪语音的幅度谱进行增强。本发明可以根据低频语音识别的结果确定待识别语音每个子带上的语音存在概率,并将其用于加权谱减,提高增强后语音的信噪比和可懂度。

Description

一种基于低频音节识别的语音增强方法
技术领域
本发明属于语音识别技术领域,具体涉及到一种基于低频音节识别的语音增强方法。
背景技术
在实际应用中,语音信号容易受到各种噪声的干扰,接收端收到的信号一般都是含噪语音。因此,在接收端就需要用语音增强技术抑制噪声干扰,降低噪声对语音的影响,提高语音信号的信噪比,从含噪语音中提取有用的语音信号。
谱减法是一种常用的语音增强方法,它根据静音段估得的噪声幅度谱均值,对每个语音帧的幅度谱进行增强,用含噪语音幅度谱与噪声幅度谱均值的差作为纯净语音幅度谱的估计值。但是,噪声是一种随机信号,在每一帧某个频率处的实际幅度值最高可以达到平均值的6~8倍,这就使得谱减后的语音还残留有大量的噪声。虽然加权谱减法可以在一定程度上提高增强效果,但是在高频段语音的能量较小,容易被噪声淹没,很难判断高频谱中哪些是语音,哪些是噪声。如果将语音当作噪声减去,就会降低语音的质量,影响增强后语音的音质;如果将噪声当作语音保留,就会使得增强后语音的残留噪声过多,影响语音的可懂度。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于低频音节识别的语音增强方法,解决了语音增强后语音音质差的问题。
技术方案:本发明提出一种基于低频音节识别的语音增强方法,包括如下步骤:
(1)在训练阶段,将各个训练语音文本切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
(2)对训练语音进行低通滤波,提取低频率部分的特征,得到低频美尔频率倒谱系数;
(3)对训练语音的低频美尔频率倒谱系数进行模型训练,得到每个音节的低频声学模型;
(4)对需要识别的含噪语音进行预处理,并对其进行低通滤波,得到含噪语音的低频美尔频率倒谱系数;
(5)用训练阶段得到的低频声学模型对含噪语音的低频美尔频率倒谱系数进行识别,得到音节信息;根据所述音节信息,得到当前语音在每个子带上语音存在的概率;
(6)在每一帧的每个子带上用语音存在概率对含噪语音的幅度谱进行加权谱减,得到增强后的语音幅度谱;
(7)对增强后的语音信号进行逆快速傅里叶变换运算,得到时域信号;
(8)对增强后的时域帧信号进行重叠相加,得到增强后的连续语音。
进一步地,包括:
所述步骤(4)中,对含噪语音进行预处理,包括加窗、分帧和FFT,得到每帧信号的幅度谱|X(k)|和相位谱arg[X(k)],幅度谱|X(k)|用于低频音节识别和幅度增强,相位谱arg[X(k)]用于在后端恢复时域信号。
进一步地,包括:
设含噪语音经过预处理、加窗、分帧后的一帧信号为x(n),则其频谱X(k)通过下式得到:
Figure BDA0002723485690000021
其中,N0表示帧长。
进一步地,包括:
所述步骤(2)中,对训练语音进行低通滤波,提取低频率部分的特征为对含噪语音的幅度谱|X(k)|进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到含噪语音的低频美尔频率倒谱系数向量ot,其中,t表示帧序号。
进一步地,包括:
所述步骤(3)中,每个音节的低频声学模型为连续密度隐马尔可夫模型,其第i个状态的概率密度函数可以表示为
Figure BDA0002723485690000031
其中,ot表示第t帧美尔频率倒谱系数特征向量;cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵;M表示每个状态的高斯混合数,D表示特征向量的维数。
进一步地,包括:
所述步骤(5)中,得到当前语音在每个子带上语音存在的概率,包括:
在训练阶段,将语音的幅度谱划分为8个等间距的子带,设训练语音的幅度谱为|S(k)|,0≤k≤N0-1,其中帧长N0取2的整数次方,则第j个子带上的幅度谱为:
|Sj(k)|=|S(k+j-1)|;
Figure BDA0002723485690000032
将训练语音切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
设第h个音节的第j个子带上存在语音的样本数为Nhj,第h个音节的总样本数为Nh,则第h个音节的第j个子带的语音存在概率为
Figure BDA0002723485690000033
Figure BDA0002723485690000034
1≤h≤NS
其中,NS表示系统的音节数。
进一步地,包括:
所述步骤(6)包括:
设当前语音属于第l个音节,在第j个子带上语音存在的概率为Pl(j),则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
Figure BDA0002723485690000035
其中,N(k)是噪声的幅度谱均值,|Y(k)|是含噪语音的幅度谱,
Figure BDA0002723485690000041
是纯净语音幅度的估计值;α(j)是当前帧第j个子带上所有数字频率的过减系数,其值与当前语音当前帧的子带能量E(j)成反比,子带能量E(j)越大,α(j)就越小,α(j)的取值范围限制在1≤α(j)≤6。
有益效果:本发明与现有技术相比,其显著优点是:本发明首先将语音的幅度谱划分为若干个子带,统计每个音节在每个子带上语音存在的概率;然后,对含噪测试语音提取低频特征向量,用低频声学模型将其识别为某个音节,得到当前语音每个子带上语音存在的概率;最后,根据子带语音存在概率,用加权谱减法对含噪语音的幅度谱进行增强,提高了增强后语音的信噪比和可懂度。
附图说明
图1为本发明所述的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明设计了一种基于低频音节识别的语音增强方法,其框架如附图1所示。在该算法中,首先将语音的幅度谱划分为若干个子带,统计每个音节在每个子带上语音存在的概率;然后,对含噪测试语音提取低频特征向量,用低频声学模型将其识别为某个音节,得到当前语音每个子带上语音存在的概率;最后,根据子带语音存在概率,用加权谱减法对含噪语音的幅度谱进行增强。
本发明的具体包括训练阶段和识别阶段,步骤如下:
(1)在训练阶段,将训练语音切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
(2)对训练语音进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到低频美尔频率倒谱系数(MFCC:Mel Frequency Cepstral Coefficient);
语音的能量主要集中在低频段,高频段的能量较小,容易受到噪声的干扰。在低频段,语音的能量远大于噪声,受噪声的影响较小,因此用含噪语音的低频特征进行音节识别,可以减小噪声的影响。对含噪语音的幅度谱|X(k)|进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到含噪语音的低频MFCC向量xt,其中,t表示帧序号。
(3)对训练语音的低频MFCC进行模型训练,得到每个音节的低频声学模型(音节模型);
(4)对含噪语音进行预处理,包括加窗分帧和快速傅里叶变换(FFT:Fast FourierTransform),得到每帧信号的幅度谱和相位谱;
对含噪语音进行预处理,得到每帧信号的幅度谱|X(k)|和相位谱arg[X(k)],幅度谱|X(k)|用于低频音节识别和幅度增强,相位谱arg[X(k)]用于在后端恢复时域信号。
设含噪语音经过预处理、加窗、分帧后的一帧信号为x(n),则其频谱X(k)可以通过下式得到:
Figure BDA0002723485690000051
其中,N0表示帧长。
(5)对含噪语音幅度谱进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到含噪语音的低频MFCC;
语音的能量主要集中在低频段,高频段的能量较小,容易受到噪声的干扰。在低频段,语音的能量远大于噪声,受噪声的影响较小,因此用含噪语音的低频特征进行音节识别,可以减小噪声的影响。对含噪语音的幅度谱|X(k)|进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到含噪语音的低频MFCC。
(6)用训练阶段得到的音节模型对含噪语音的低频MFCC进行识别,得到音节信息;
在训练阶段,对训练语音进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到低频MFCC向量ot;对每个音节的训练语音低频MFCC向量ot进行模型训练,得到每个音节的低频声学模型,即连续密度隐马尔可夫模型(HMM:Hidden Markov Model),其第i个状态的概率密度函数可以表示为
Figure BDA0002723485690000052
其中,ot表示第t帧MFCC特征向量;cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵;M表示每个状态的高斯混合数;D表示特征向量的维数。
在测试阶段,用训练阶段得到的低频声学模型对含噪语音的低频MFCC向量xt进行识别,得到音节信息,即将含噪语音识别为第l个音节。
(7)根据音节识别得到的音节信息,得到当前语音在每个子带上语音存在的概率;
在训练阶段,将语音的幅度谱划分为8个等间距的子带。设训练语音的幅度谱为|S(k)|,0≤k≤N0-1,其中帧长N0取2的整数次方,则第j个子带上的幅度谱为
Figure BDA0002723485690000061
将训练语音切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率。设第h个音节的第j个子带上存在语音的样本数为Nhj,第h个音节的总样本数为Nh,则第h个音节的第j个子带的语音存在概率为
Figure BDA0002723485690000062
其中,NS表示系统的音节数。
在测试阶段,根据音节识别得到的音节信息l,得到当前语音在第j个子带上语音存在的概率Pl(j)。
(8)在每一帧的每个子带上用语音存在概率对含噪语音的幅度谱进行加权谱减,得到增强后的语音幅度谱;
设当前语音属于第l个音节,在第j个子带上语音存在的概率为Pl(j),则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
Figure BDA0002723485690000063
其中,N(k)是噪声的幅度谱均值,|Y(k)|是含噪语音的幅度谱,
Figure BDA0002723485690000064
是纯净语音幅度的估计值;α(j)是当前帧第j个子带上所有数字频率的过减系数,其值与当前语音当前帧的子带能量E(j)成反比,子带能量E(j)越大,α(j)就越小,α(j)的取值范围限制在1≤α(j)≤6。
(9)对增强后的语音信号进行IFFT(Inverse FFT)运算,得到时域信号;
(10)对增强后的时域帧信号进行重叠相加,得到增强后的连续语音。
首先将含噪语音的相位作为纯净语音的相位,与纯净语音幅度谱的估计值
Figure BDA0002723485690000071
相乘,得到纯净语音的完整频谱:
Figure BDA0002723485690000072
然后,对每一帧的完整频谱进行IFFT运算,得到时域信号
Figure BDA0002723485690000073
Figure BDA0002723485690000074
最后,对各帧时域信号进行重叠相加,得到增强后的数字语音。

Claims (7)

1.一种基于低频音节识别的语音增强方法,其特征在于,包括如下步骤:
(1)在训练阶段,将各个训练语音文本切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
(2)对训练语音进行低通滤波,提取低频率部分的特征,得到低频美尔频率倒谱系数;
(3)对训练语音的低频美尔频率倒谱系数进行模型训练,得到每个音节的低频声学模型;
(4)对需要识别的含噪语音进行预处理,并对其进行低通滤波,得到含噪语音的低频美尔频率倒谱系数;
(5)用训练阶段得到的低频声学模型对含噪语音的低频美尔频率倒谱系数进行识别,得到音节信息;根据所述音节信息,得到当前语音在每个子带上语音存在的概率;
(6)在每一帧的每个子带上用语音存在概率对含噪语音的幅度谱进行加权谱减,得到增强后的语音幅度谱;
(7)对增强后的语音信号进行逆快速傅里叶变换运算,得到时域信号;
(8)对增强后的时域帧信号进行重叠相加,得到增强后的连续语音。
2.如权利要求1所述的基于低频音节识别的语音增强方法,其特征在于,所述步骤(4)中,对含噪语音进行预处理,包括加窗、分帧和FFT,得到每帧信号的幅度谱|X(k)|和相位谱arg[X(k)],幅度谱|X(k)|用于低频音节识别和幅度增强,相位谱arg[X(k)]用于在后端恢复时域信号。
3.如权利要求2所述的基于低频音节识别的语音增强方法,其特征在于,
设含噪语音经过预处理、加窗、分帧后的一帧信号为x(n),则其频谱X(k)通过下式得到:
Figure FDA0002723485680000011
0≤k≤N0-1 (1)
其中,N0表示帧长。
4.如权利要求2所述的基于低频音节识别的语音增强方法,其特征在于,所述步骤(2)中,对训练语音进行低通滤波,提取低频率部分的特征为对含噪语音的幅度谱|X(k)|进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到含噪语音的低频美尔频率倒谱系数向量ot,其中,t表示帧序号。
5.如权利要求1所述的基于低频音节识别的语音增强方法,其特征在于,所述步骤(3)中,每个音节的低频声学模型为连续密度隐马尔可夫模型,其第i个状态的概率密度函数可以表示为
Figure FDA0002723485680000021
其中,ot表示第t帧美尔频率倒谱系数特征向量;cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵;M表示每个状态的高斯混合数,D表示特征向量的维数。
6.如权利要求1所述的基于低频音节识别的语音增强方法,其特征在于,所述步骤(5)中,得到当前语音在每个子带上语音存在的概率,包括:
在训练阶段,将语音的幅度谱划分为8个等间距的子带,设训练语音的幅度谱为|S(k)|,0≤k≤N0-1,其中帧长N0取2的整数次方,则第j个子带上的幅度谱为:
|Sj(k)|=|S(k+j-1)|;
Figure FDA0002723485680000022
将训练语音切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
设第h个音节的第j个子带上存在语音的样本数为Nhj,第h个音节的总样本数为Nh,则第h个音节的第j个子带的语音存在概率为
Figure FDA0002723485680000023
Figure FDA0002723485680000024
1≤h≤NS
其中,NS表示系统的音节数。
7.如权利要求1所述的基于低频音节识别的语音增强方法,其特征在于,所述步骤(6)包括:
设当前语音属于第l个音节,在第j个子带上语音存在的概率为Pl(j),则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
Figure FDA0002723485680000031
其中,N(k)是噪声的幅度谱均值,|Y(k)|是含噪语音的幅度谱,
Figure FDA0002723485680000032
是纯净语音幅度的估计值;α(j)是当前帧第j个子带上所有数字频率的过减系数,其值与当前语音当前帧的子带能量E(j)成反比,子带能量E(j)越大,α(j)就越小,α(j)的取值范围限制在1≤α(j)≤6。
CN202011095086.2A 2020-10-14 2020-10-14 一种基于低频音节识别的语音增强方法 Pending CN112233657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011095086.2A CN112233657A (zh) 2020-10-14 2020-10-14 一种基于低频音节识别的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011095086.2A CN112233657A (zh) 2020-10-14 2020-10-14 一种基于低频音节识别的语音增强方法

Publications (1)

Publication Number Publication Date
CN112233657A true CN112233657A (zh) 2021-01-15

Family

ID=74112655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011095086.2A Pending CN112233657A (zh) 2020-10-14 2020-10-14 一种基于低频音节识别的语音增强方法

Country Status (1)

Country Link
CN (1) CN112233657A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096650A (zh) * 2021-03-03 2021-07-09 河海大学 一种基于先验概率的声学解码方法
CN114242098A (zh) * 2021-12-13 2022-03-25 北京百度网讯科技有限公司 一种语音增强方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003110A (ja) * 2007-06-20 2009-01-08 National Institute Of Information & Communication Technology 知識源を組込むための確率計算装置及びコンピュータプログラム
CN105702262A (zh) * 2014-11-28 2016-06-22 上海航空电器有限公司 一种头戴式双麦克风语音增强方法
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN110739005A (zh) * 2019-10-28 2020-01-31 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN111554315A (zh) * 2020-05-29 2020-08-18 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003110A (ja) * 2007-06-20 2009-01-08 National Institute Of Information & Communication Technology 知識源を組込むための確率計算装置及びコンピュータプログラム
CN105702262A (zh) * 2014-11-28 2016-06-22 上海航空电器有限公司 一种头戴式双麦克风语音增强方法
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN110739005A (zh) * 2019-10-28 2020-01-31 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN111554315A (zh) * 2020-05-29 2020-08-18 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAO HUANG ET AL., 2006 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING PROCEEDINGS, pages 37 - 40 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096650A (zh) * 2021-03-03 2021-07-09 河海大学 一种基于先验概率的声学解码方法
CN113096650B (zh) * 2021-03-03 2023-12-08 河海大学 一种基于先验概率的声学解码方法
CN114242098A (zh) * 2021-12-13 2022-03-25 北京百度网讯科技有限公司 一种语音增强方法、装置、设备以及存储介质
CN114242098B (zh) * 2021-12-13 2023-08-29 北京百度网讯科技有限公司 一种语音增强方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
CN102436809B (zh) 英语口语机考系统中网络语音识别方法
CN106373559B (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
Farooq et al. Wavelet based robust sub-band features for phoneme recognition
Alam et al. Robust feature extraction based on an asymmetric level-dependent auditory filterbank and a subband spectrum enhancement technique
Soe Naing et al. Discrete Wavelet Denoising into MFCC for Noise Suppressive in Automatic Speech Recognition System.
CN112233657A (zh) 一种基于低频音节识别的语音增强方法
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Shrawankar et al. Noise estimation and noise removal techniques for speech recognition in adverse environment
Seltzer et al. Robust bandwidth extension of noise-corrupted narrowband speech.
Jančovič et al. Speech enhancement based on Sparse Code Shrinkage employing multiple speech models
Gupta et al. Speech enhancement using MMSE estimation and spectral subtraction methods
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
Maganti et al. Auditory processing-based features for improving speech recognition in adverse acoustic conditions
Taşmaz et al. Speech enhancement based on undecimated wavelet packet-perceptual filterbanks and MMSE–STSA estimation in various noise environments
CN116597853A (zh) 一种音频消噪方法
Kamble et al. Teager energy subband filtered features for near and far-field automatic speech recognition
Shu-Guang et al. Isolated word recognition in reverberant environments
Maganti et al. A perceptual masking approach for noise robust speech recognition
Xiao et al. Inventory based speech enhancement for speaker dedicated speech communication systems
Hsieh et al. Histogram equalization of real and imaginary modulation spectra for noise-robust speech recognition.
Alam et al. Smoothed nonlinear energy operator-based amplitude modulation features for robust speech recognition
Sunnydayal et al. Speech enhancement using sub-band wiener filter with pitch synchronous analysis
Pop et al. Speech enhancement for forensic purposes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination