CN112233657B - 一种基于低频音节识别的语音增强方法 - Google Patents
一种基于低频音节识别的语音增强方法 Download PDFInfo
- Publication number
- CN112233657B CN112233657B CN202011095086.2A CN202011095086A CN112233657B CN 112233657 B CN112233657 B CN 112233657B CN 202011095086 A CN202011095086 A CN 202011095086A CN 112233657 B CN112233657 B CN 112233657B
- Authority
- CN
- China
- Prior art keywords
- voice
- frequency
- low
- syllable
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims abstract description 63
- 230000003595 spectral effect Effects 0.000 claims abstract description 8
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 41
- 238000001914 filtration Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种基于低频音节识别的语音增强方法,首先将语音的幅度谱划分为若干个子带,统计每个音节在每个子带上语音存在的概率;然后,对含噪测试语音提取低频特征向量,用低频声学模型将其识别为某个音节,得到当前语音每个子带上语音存在的概率;最后,根据子带语音存在概率,用加权谱减法对含噪语音的幅度谱进行增强。本发明可以根据低频语音识别的结果确定待识别语音每个子带上的语音存在概率,并将其用于加权谱减,提高增强后语音的信噪比和可懂度。
Description
技术领域
本发明属于语音识别技术领域,具体涉及到一种基于低频音节识别的语音增强方法。
背景技术
在实际应用中,语音信号容易受到各种噪声的干扰,接收端收到的信号一般都是含噪语音。因此,在接收端就需要用语音增强技术抑制噪声干扰,降低噪声对语音的影响,提高语音信号的信噪比,从含噪语音中提取有用的语音信号。
谱减法是一种常用的语音增强方法,它根据静音段估得的噪声幅度谱均值,对每个语音帧的幅度谱进行增强,用含噪语音幅度谱与噪声幅度谱均值的差作为纯净语音幅度谱的估计值。但是,噪声是一种随机信号,在每一帧某个频率处的实际幅度值最高可以达到平均值的6~8倍,这就使得谱减后的语音还残留有大量的噪声。虽然加权谱减法可以在一定程度上提高增强效果,但是在高频段语音的能量较小,容易被噪声淹没,很难判断高频谱中哪些是语音,哪些是噪声。如果将语音当作噪声减去,就会降低语音的质量,影响增强后语音的音质;如果将噪声当作语音保留,就会使得增强后语音的残留噪声过多,影响语音的可懂度。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于低频音节识别的语音增强方法,解决了语音增强后语音音质差的问题。
技术方案:本发明提出一种基于低频音节识别的语音增强方法,包括如下步骤:
(1)在训练阶段,将各个训练语音文本切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
(2)对训练语音进行低通滤波,提取低频率部分的特征,得到低频美尔频率倒谱系数;
(3)对训练语音的低频美尔频率倒谱系数进行模型训练,得到每个音节的低频声学模型;
(4)对需要识别的含噪语音进行预处理,并对其进行低通滤波,得到含噪语音的低频美尔频率倒谱系数;
(5)用训练阶段得到的低频声学模型对含噪语音的低频美尔频率倒谱系数进行识别,得到音节信息;根据所述音节信息,得到当前语音在每个子带上语音存在的概率;
(6)在每一帧的每个子带上用语音存在概率对含噪语音的幅度谱进行加权谱减,得到增强后的语音幅度谱;
(7)对增强后的语音信号进行逆快速傅里叶变换运算,得到时域信号;
(8)对增强后的时域帧信号进行重叠相加,得到增强后的连续语音。
进一步地,包括:
所述步骤(4)中,对含噪语音进行预处理,包括加窗、分帧和FFT,得到每帧信号的幅度谱|X(k)|和相位谱arg[X(k)],幅度谱|X(k)|用于低频音节识别和幅度增强,相位谱arg[X(k)]用于在后端恢复时域信号。
进一步地,包括:
设含噪语音经过预处理、加窗、分帧后的一帧信号为x(n),则其频谱X(k)通过下式得到:
其中,N0表示帧长。
进一步地,包括:
所述步骤(2)中,对训练语音进行低通滤波,提取低频率部分的特征为对含噪语音的幅度谱|X(k)|进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到含噪语音的低频美尔频率倒谱系数向量ot,其中,t表示帧序号。
进一步地,包括:
所述步骤(3)中,每个音节的低频声学模型为连续密度隐马尔可夫模型,其第i个状态的概率密度函数可以表示为
其中,ot表示第t帧美尔频率倒谱系数特征向量;cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵;M表示每个状态的高斯混合数,D表示特征向量的维数。
进一步地,包括:
所述步骤(5)中,得到当前语音在每个子带上语音存在的概率,包括:
在训练阶段,将语音的幅度谱划分为8个等间距的子带,设训练语音的幅度谱为|S(k)|,0≤k≤N0-1,其中帧长N0取2的整数次方,则第j个子带上的幅度谱为:
|Sj(k)|=|S(k+j-1)|;
将训练语音切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
设第h个音节的第j个子带上存在语音的样本数为Nhj,第h个音节的总样本数为Nh,则第h个音节的第j个子带的语音存在概率为
1≤h≤NS
其中,NS表示系统的音节数。
进一步地,包括:
所述步骤(6)包括:
设当前语音属于第l个音节,在第j个子带上语音存在的概率为Pl(j),则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
其中,N(k)是噪声的幅度谱均值,|Y(k)|是含噪语音的幅度谱,是纯净语音幅度的估计值;α(j)是当前帧第j个子带上所有数字频率的过减系数,其值与当前语音当前帧的子带能量E(j)成反比,子带能量E(j)越大,α(j)就越小,α(j)的取值范围限制在1≤α(j)≤6。
有益效果:本发明与现有技术相比,其显著优点是:本发明首先将语音的幅度谱划分为若干个子带,统计每个音节在每个子带上语音存在的概率;然后,对含噪测试语音提取低频特征向量,用低频声学模型将其识别为某个音节,得到当前语音每个子带上语音存在的概率;最后,根据子带语音存在概率,用加权谱减法对含噪语音的幅度谱进行增强,提高了增强后语音的信噪比和可懂度。
附图说明
图1为本发明所述的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明设计了一种基于低频音节识别的语音增强方法,其框架如附图1所示。在该算法中,首先将语音的幅度谱划分为若干个子带,统计每个音节在每个子带上语音存在的概率;然后,对含噪测试语音提取低频特征向量,用低频声学模型将其识别为某个音节,得到当前语音每个子带上语音存在的概率;最后,根据子带语音存在概率,用加权谱减法对含噪语音的幅度谱进行增强。
本发明的具体包括训练阶段和识别阶段,步骤如下:
(1)在训练阶段,将训练语音切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
(2)对训练语音进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到低频美尔频率倒谱系数(MFCC:Mel Frequency Cepstral Coefficient);
语音的能量主要集中在低频段,高频段的能量较小,容易受到噪声的干扰。在低频段,语音的能量远大于噪声,受噪声的影响较小,因此用含噪语音的低频特征进行音节识别,可以减小噪声的影响。对含噪语音的幅度谱|X(k)|进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到含噪语音的低频MFCC向量xt,其中,t表示帧序号。
(3)对训练语音的低频MFCC进行模型训练,得到每个音节的低频声学模型(音节模型);
(4)对含噪语音进行预处理,包括加窗分帧和快速傅里叶变换(FFT:Fast FourierTransform),得到每帧信号的幅度谱和相位谱;
对含噪语音进行预处理,得到每帧信号的幅度谱|X(k)|和相位谱arg[X(k)],幅度谱|X(k)|用于低频音节识别和幅度增强,相位谱arg[X(k)]用于在后端恢复时域信号。
设含噪语音经过预处理、加窗、分帧后的一帧信号为x(n),则其频谱X(k)可以通过下式得到:
其中,N0表示帧长。
(5)对含噪语音幅度谱进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到含噪语音的低频MFCC;
语音的能量主要集中在低频段,高频段的能量较小,容易受到噪声的干扰。在低频段,语音的能量远大于噪声,受噪声的影响较小,因此用含噪语音的低频特征进行音节识别,可以减小噪声的影响。对含噪语音的幅度谱|X(k)|进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到含噪语音的低频MFCC。
(6)用训练阶段得到的音节模型对含噪语音的低频MFCC进行识别,得到音节信息;
在训练阶段,对训练语音进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到低频MFCC向量ot;对每个音节的训练语音低频MFCC向量ot进行模型训练,得到每个音节的低频声学模型,即连续密度隐马尔可夫模型(HMM:Hidden Markov Model),其第i个状态的概率密度函数可以表示为
其中,ot表示第t帧MFCC特征向量;cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵;M表示每个状态的高斯混合数;D表示特征向量的维数。
在测试阶段,用训练阶段得到的低频声学模型对含噪语音的低频MFCC向量xt进行识别,得到音节信息,即将含噪语音识别为第l个音节。
(7)根据音节识别得到的音节信息,得到当前语音在每个子带上语音存在的概率;
在训练阶段,将语音的幅度谱划分为8个等间距的子带。设训练语音的幅度谱为|S(k)|,0≤k≤N0-1,其中帧长N0取2的整数次方,则第j个子带上的幅度谱为
将训练语音切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率。设第h个音节的第j个子带上存在语音的样本数为Nhj,第h个音节的总样本数为Nh,则第h个音节的第j个子带的语音存在概率为
其中,NS表示系统的音节数。
在测试阶段,根据音节识别得到的音节信息l,得到当前语音在第j个子带上语音存在的概率Pl(j)。
(8)在每一帧的每个子带上用语音存在概率对含噪语音的幅度谱进行加权谱减,得到增强后的语音幅度谱;
设当前语音属于第l个音节,在第j个子带上语音存在的概率为Pl(j),则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
其中,N(k)是噪声的幅度谱均值,|Y(k)|是含噪语音的幅度谱,是纯净语音幅度的估计值;α(j)是当前帧第j个子带上所有数字频率的过减系数,其值与当前语音当前帧的子带能量E(j)成反比,子带能量E(j)越大,α(j)就越小,α(j)的取值范围限制在1≤α(j)≤6。
(9)对增强后的语音信号进行IFFT(Inverse FFT)运算,得到时域信号;
(10)对增强后的时域帧信号进行重叠相加,得到增强后的连续语音。
首先将含噪语音的相位作为纯净语音的相位,与纯净语音幅度谱的估计值相乘,得到纯净语音的完整频谱:
然后,对每一帧的完整频谱进行IFFT运算,得到时域信号
最后,对各帧时域信号进行重叠相加,得到增强后的数字语音。
Claims (6)
1.一种基于低频音节识别的语音增强方法,其特征在于,包括如下步骤:
(1)在训练阶段,将各个训练语音文本切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
(2)对训练语音进行低通滤波,提取低频率部分的特征,得到低频美尔频率倒谱系数;
(3)对训练语音的低频美尔频率倒谱系数进行模型训练,得到每个音节的低频声学模型;
(4)对需要识别的含噪语音进行预处理,并对其进行低通滤波,得到含噪语音的低频美尔频率倒谱系数;
(5)用训练阶段得到的低频声学模型对含噪语音的低频美尔频率倒谱系数进行识别,得到音节信息;根据所述音节信息,得到当前语音在每个子带上语音存在的概率;具体包括:
在训练阶段,将语音的幅度谱划分为8个等间距的子带,设训练语音的幅度谱为|S(k)|,0≤k≤N0-1,其中帧长N0取2的整数次方,则第j个子带上的幅度谱为:
|Sj(k)|=|S(k+j-1)|;
将训练语音切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
设第h个音节的第j个子带上存在语音的样本数为Nhj,第h个音节的总样本数为Nh,则第h个音节的第j个子带的语音存在概率为
1≤h≤NS
其中,NS表示系统的音节数;
(6)在每一帧的每个子带上用语音存在概率对含噪语音的幅度谱进行加权谱减,得到增强后的语音幅度谱;
(7)对增强后的语音信号进行逆快速傅里叶变换运算,得到时域信号;
(8)对增强后的时域帧信号进行重叠相加,得到增强后的连续语音。
2.如权利要求1所述的基于低频音节识别的语音增强方法,其特征在于,所述步骤(4)中,对含噪语音进行预处理,包括加窗、分帧和FFT,得到每帧信号的幅度谱|X(k)|和相位谱arg[X(k)],幅度谱|X(k)|用于低频音节识别和幅度增强,相位谱arg[X(k)]用于在后端恢复时域信号。
3.如权利要求2所述的基于低频音节识别的语音增强方法,其特征在于,
设含噪语音经过预处理、加窗、分帧后的一帧信号为x(n),则其频谱X(k)通过下式得到:
0≤k≤N0-1 (1)
其中,N0表示帧长。
4.如权利要求2所述的基于低频音节识别的语音增强方法,其特征在于,所述步骤(2)中,对训练语音进行低通滤波,提取低频率部分的特征为对含噪语音的幅度谱|X(k)|进行低通滤波,保留1000Hz以下的频率成分,提取其特征,得到含噪语音的低频美尔频率倒谱系数向量ot,其中,t表示帧序号。
5.如权利要求1所述的基于低频音节识别的语音增强方法,其特征在于,所述步骤(3)中,每个音节的低频声学模型为连续密度隐马尔可夫模型,其第i个状态的概率密度函数表示为
其中,ot表示第t帧美尔频率倒谱系数特征向量;cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵;M表示每个状态的高斯混合数,D表示特征向量的维数。
6.如权利要求1所述的基于低频音节识别的语音增强方法,其特征在于,所述步骤(6)包括:
设当前语音属于第l个音节,在第j个子带上语音存在的概率为Pl(j),则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
其中,N(k)是噪声的幅度谱均值,Y(k)是含噪语音的幅度谱,是纯净语音幅度的估计值;α(j)是当前帧第j个子带上所有数字频率的过减系数,其值与当前语音当前帧的子带能量E(j)成反比,子带能量E(j)越大,α(j)就越小,α(j)的取值范围限制在1≤α(j)≤6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011095086.2A CN112233657B (zh) | 2020-10-14 | 2020-10-14 | 一种基于低频音节识别的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011095086.2A CN112233657B (zh) | 2020-10-14 | 2020-10-14 | 一种基于低频音节识别的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112233657A CN112233657A (zh) | 2021-01-15 |
CN112233657B true CN112233657B (zh) | 2024-05-28 |
Family
ID=74112655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011095086.2A Active CN112233657B (zh) | 2020-10-14 | 2020-10-14 | 一种基于低频音节识别的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233657B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096650B (zh) * | 2021-03-03 | 2023-12-08 | 河海大学 | 一种基于先验概率的声学解码方法 |
CN114242098B (zh) * | 2021-12-13 | 2023-08-29 | 北京百度网讯科技有限公司 | 一种语音增强方法、装置、设备以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003110A (ja) * | 2007-06-20 | 2009-01-08 | National Institute Of Information & Communication Technology | 知識源を組込むための確率計算装置及びコンピュータプログラム |
CN105702262A (zh) * | 2014-11-28 | 2016-06-22 | 上海航空电器有限公司 | 一种头戴式双麦克风语音增强方法 |
CN106971740A (zh) * | 2017-03-28 | 2017-07-21 | 吉林大学 | 基于语音存在概率和相位估计的语音增强方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN110739005A (zh) * | 2019-10-28 | 2020-01-31 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN111554315A (zh) * | 2020-05-29 | 2020-08-18 | 展讯通信(天津)有限公司 | 单通道语音增强方法及装置、存储介质、终端 |
-
2020
- 2020-10-14 CN CN202011095086.2A patent/CN112233657B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003110A (ja) * | 2007-06-20 | 2009-01-08 | National Institute Of Information & Communication Technology | 知識源を組込むための確率計算装置及びコンピュータプログラム |
CN105702262A (zh) * | 2014-11-28 | 2016-06-22 | 上海航空电器有限公司 | 一种头戴式双麦克风语音增强方法 |
CN106971740A (zh) * | 2017-03-28 | 2017-07-21 | 吉林大学 | 基于语音存在概率和相位估计的语音增强方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN110739005A (zh) * | 2019-10-28 | 2020-01-31 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN111554315A (zh) * | 2020-05-29 | 2020-08-18 | 展讯通信(天津)有限公司 | 单通道语音增强方法及装置、存储介质、终端 |
Non-Patent Citations (1)
Title |
---|
Chao Huang et al..2006 IEEE international conference on acoustics speech and signal processing proceedings.2006,第37-40页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112233657A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7337107B2 (en) | Perceptual harmonic cepstral coefficients as the front-end for speech recognition | |
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
Mitra et al. | Medium-duration modulation cepstral feature for robust speech recognition | |
CN105023572A (zh) | 一种含噪语音端点鲁棒检测方法 | |
CN112233657B (zh) | 一种基于低频音节识别的语音增强方法 | |
Farooq et al. | Wavelet based robust sub-band features for phoneme recognition | |
CN111091833A (zh) | 一种降低噪声影响的端点检测方法 | |
Morales-Cordovilla et al. | Feature extraction based on pitch-synchronous averaging for robust speech recognition | |
Soe Naing et al. | Discrete Wavelet Denoising into MFCC for Noise Suppressive in Automatic Speech Recognition System. | |
Lee et al. | Statistical model‐based noise reduction approach for car interior applications to speech recognition | |
Maganti et al. | Auditory processing-based features for improving speech recognition in adverse acoustic conditions | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
Gupta et al. | Speech enhancement using MMSE estimation and spectral subtraction methods | |
Ghanbari et al. | Improved multi-band spectral subtraction method for speech enhancement | |
CN116597853A (zh) | 一种音频消噪方法 | |
Shao et al. | A versatile speech enhancement system based on perceptual wavelet denoising | |
Hsieh et al. | Histogram equalization of real and imaginary modulation spectra for noise-robust speech recognition. | |
Alam et al. | Smoothed nonlinear energy operator-based amplitude modulation features for robust speech recognition | |
Naing et al. | Using double-density dual tree wavelet transform into MFCC for noisy speech recognition | |
Guntur | Feature extraction algorithms for speaker recognition system and fuzzy logic | |
Alam et al. | Regularized MVDR spectrum estimation-based robust feature extractors for speech recognition. | |
CN109346106B (zh) | 一种基于子带信噪比加权的倒谱域基音周期估计方法 | |
Nosan et al. | Enhanced Feature Extraction Based on Absolute Sort Delta Mean Algorithm and MFCC for Noise Robustness Speech Recognition. | |
Islam et al. | Mel-Wiener filter for Mel-LPC based speech recognition | |
Ogawa et al. | Robust Example Search Using Bottleneck Features for Example-Based Speech Enhancement. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |