CN112767962A - 一种语音增强方法及系统 - Google Patents
一种语音增强方法及系统 Download PDFInfo
- Publication number
- CN112767962A CN112767962A CN202110225559.4A CN202110225559A CN112767962A CN 112767962 A CN112767962 A CN 112767962A CN 202110225559 A CN202110225559 A CN 202110225559A CN 112767962 A CN112767962 A CN 112767962A
- Authority
- CN
- China
- Prior art keywords
- noise ratio
- estimation
- voice
- speech
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000009432 framing Methods 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 238000001914 filtration Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101100148545 Caenorhabditis elegans snr-5 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
Abstract
本发明提供一种语音增强方法及系统,所述方法包括:对待增强语音进行分帧、加窗、快速傅里叶变换(Fast Fourier Transformation,FFT),将每一帧数据通过FFT转换到频域;采用直接判决法对当前帧先验信噪比进行初次估计;利用初次估计的先验信噪比对当前帧的纯净语音进行初次估计;利用所述当前帧的纯净语音初次估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;利用二次估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果。本发明采用直接判决法和维纳滤波法结合,得到最终的语音增强结果,降低了混响效应。
Description
技术领域
本发明涉及语音处理技术领域,具体而言,涉及一种语音增强方法及系统。
背景技术
麦克风采集到的语音信号包含多种噪声,如鸣笛声、风扇声等,严重影响采集到的目标语音质量及可懂度,因此,对麦克风采集到的语音信号进行降噪处理至关重要。麦克风语音信号的降噪又称语音增强,根据信道数的不同,语音增强方法可分为单麦克风语音增强方法和多麦克风语音增强方法。其中,单麦克风语音增强技术仅需要一路语音信号即可实现语音增强,对麦克风的尺寸、功耗具有较低的要求。传统的单麦克风语音增强技术有多种,包括谱减法、最小均方误差法、维纳滤波法等,这些方法各有优缺点,在应用过程中需要根据实际需求灵活选取。
在使用单麦克风语音增强方法进行语音增强时,往往需要对不含语音的纯噪声段进行估计,并根据语音段每一帧信号的信噪比进行噪声去除。信噪比包括先验信噪比和后验信噪比,两者都可用于语音增强,但很多实践表明,基于先验信噪比的语音增强方法具有更优的效果。目前,先验信噪比的估计一般采用直接判决法(Decision Directed,DD)进行,但该方法由于在先验信噪比估计过程中使用了当前帧前一帧的数据,因此会引入混响效应。
发明内容
鉴于此,本发明提出一种基于先验信噪比优化估计的单麦克风语音增强方法。在语音增强过程中,首先利用传统的直接判决法对当前帧先验信噪比进行初次估计,并利用维纳滤波器对当前帧纯净语音进行初次估计;之后利用当前帧的纯净语音估计对当前帧先验信噪比进行二次估计,并结合维纳滤波器得到纯净语音的二次估计。最后,将二次估计的纯净语音转换到时域,得到的语音增强结果降低了混响效应。
本发明提供一种语音增强方法,包括以下步骤:
S1、对待增强语音进行分帧、加窗以及FFT,将每一帧数据通过FFT转换到频域;
S2、采用直接判决法对所述每一帧数据的先验信噪比进行初次估计;
所述每一帧的先验信噪比初次估计的方法为:
其中,是先验信噪比的初次估计值,S(p-1,k)为当前帧前一帧的纯净语音估计值,γn(p)为噪声能量谱,p为帧序号,k为频率,β是判决因子,一般取0.98,P代表半波整流算子,SNRpost(p,k)为当前帧的后验信噪比,其计算公式为:
其中,X(p,k)为含噪语音信号;
S3、利用步骤S2中初次估计的当前帧的先验信噪比对当前帧的纯净语音进行初次估计;
得到当前帧的纯净语音的初次估计值后,根据式(3)得到对应的初次维纳滤波器增益函数:
根据式(3)得到的初次维纳滤波器增益函数,通过式(4)得到当前帧的纯净语音的初次估计值;
其中,S1st(p,k)是纯净语音的初次估计值;
S4、利用所述当前帧的纯净语音的初次估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
将β′的值取为1,上式变为:
式(6)记为先验信噪比的二次估计公式;
S5、利用步骤S4中二次估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果;
所述二次估计后,根据式(7)得到对应的二次维纳滤波器增益函数:
根据式(7)得到的二次维纳滤波器增益函数,通过式(8)得到纯净语音的二次估计值,作为最终的频域增强语音:
其中,S2nd(p,k)是纯净语音的二次估计值;
将所述最终的频域增强语音进行反傅里叶变换转换到时域,通过式(9)得到时域增强语音:
Senhonce(t)=ifft(S2nd(p,k)) (9)
其中,Senhance(t)是时域增强语音,ifft是快速傅里叶逆变换。
进一步地,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.95-20.05ms;
帧移:9.95-10.05ms;
窗函数:hanning窗;
FFT点数:1024。
进一步地,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.98-20.02ms;
帧移:9.98-10.02ms;
窗函数:hanning窗;
FFT点数:1024。
进一步地,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:20ms;
帧移:10ms;
窗函数:hanning窗;
FFT点数:1024。
本发明还提供一种语音增强系统,使用如上述所述的语音增强方法,包括:
预处理模块:用于对待增强语音进行分帧、加窗、FFT,将每一帧数据通过FFT转换到频域;
先验信噪比初次估计模块:用于采用直接判决法对当前帧先验信噪比进行初次估计;
纯净语音初次估计模块:用于利用步骤S2中估计的先验信噪比对当前帧的纯净语音进行初次估计;
先验信噪比二次估计模块:用于利用所述当前帧的纯净语音估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
纯净语音二次估计及反傅里叶变换模块:利用步骤S4中估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果。
与现有技术相比,本发明的有益效果是:
采用直接判决法和维纳滤波法结合,在语音增强过程中,首先利用传统的直接判决法对当前帧先验信噪比进行初次估计,并利用维纳滤波器对当前帧纯净语音进行初次估计;之后利用当前帧的纯净语音估计对当前帧先验信噪比进行二次估计,并结合维纳滤波器得到纯净语音的二次估计。最后,将二次估计的纯净语音转换到时域,得到最终的语音增强结果,降低了混响效应。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
在附图中:
图1是本发明实施例的SNR=5dB仿真去噪效果图;
图2是本发明实施例的SNR=10dB仿真去噪效果图;
图3是本发明一种语音增强方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本发明基于证书技术、基于属性的细粒度访问控制技术,针对虚拟机、容器等联合部署的云数据中心,构建云服务统一控制系统,包括密码模块、服务发现模块、安全处理模块、访问代理、访问信息数据库、规则管理模块,以及云数据中心设计部署的服务发现代理,并通过权威的证书颁发机构(Certificate Authority,简称CA)的配合,保障数据中心不同层面的云服务能够被云服务统一控制系统自动发现,且统一控制,只允许被授权用户合法访问,实现云服务统一控制系统与云操作系统的联动。
本发明实施例一种语音增强方法,参见图3所示,包括以下步骤:
S1、对待增强语音进行分帧、加窗以及FFT,将每一帧数据通过FFT转换到频域;
S2、采用直接判决法对所述每一帧数据的先验信噪比进行初次估计;
所述每一帧的先验信噪比初次估计的方法为:
其中,是先验信噪比的初次估计值,S(p-1,k)为当前帧前一帧的纯净语音估计值,γn(p)为噪声能量谱,p为帧序号,k为频率,β是判决因子,一般取0.98,P代表半波整流算子,SNRpost(p,k)为当前帧的后验信噪比,其计算公式为:
其中,X(p,k)为含噪语音信号;
S3、利用步骤S2中初次估计的当前帧的先验信噪比对当前帧的纯净语音进行初次估计;
得到当前帧的纯净语音的初次估计值后,根据式(3)得到对应的初次维纳滤波器增益函数:
根据式(3)得到的初次维纳滤波器增益函数,通过式(4)得到当前帧的纯净语音的初次估计值;
其中,S1st(p,k)是纯净语音的初次估计值;
S4、利用所述当前帧的纯净语音的初次估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
将β′的值取为1,上式变为:
式(6)记为先验信噪比的二次估计公式;
S5、利用步骤S4中二次估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果;
所述二次估计后,根据式(7)得到对应的二次维纳滤波器增益函数:
根据式(7)得到的二次维纳滤波器增益函数,通过式(8)得到纯净语音的二次估计值,作为最终的频域增强语音:
其中,S2nd(p,k)是纯净语音的二次估计值;
将所述最终的频域增强语音进行反傅里叶变换转换到时域,通过式(9)得到时域增强语音:
Senhance(t)=ifft(S2nd(p,k)) (9)
其中,Senhance(t)是时域增强语音,ifft是快速傅里叶逆变换。
所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.95-20.05ms;
帧移:9.95-10.05ms;
窗函数:hanning窗;
FFT点数:1024。
所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.98-20.02ms;
帧移:9.98-10.02ms;
窗函数:hanning窗;
FFT点数:1024。
所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:20ms;
帧移:10ms;
窗函数:hanning窗;
FFT点数:1024。
本发明还提供一种语音增强系统,使用如上述所述的语音增强方法,包括:
预处理模块:用于对待增强语音进行分帧、加窗、FFT,将每一帧数据通过FFT转换到频域;
先验信噪比初次估计模块:用于采用直接判决法对当前帧先验信噪比进行初次估计;
纯净语音初次估计模块:用于利用步骤S2中估计的先验信噪比对当前帧的纯净语音进行初次估计;
先验信噪比二次估计模块:用于利用所述当前帧的纯净语音估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
纯净语音二次估计及反傅里叶变换模块:利用步骤S4中估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果。
本实施例为验证上述语音增强方法的实际效果,采用一段2.6s的纯净语音对其去噪性能进行了仿真验证。仿真过程中,分别向纯净语音中添加信噪比(Signal to NoiseRatio,SNR)为5dB、10dB的白噪声,之后采用上述语音增强方法对含噪语音进行语音增强。图1、图2分别展示了5dB、10dB信噪比情况下的纯净语音信号、含噪语音信号以及增强语音信号的时域波形图。由图1和图2可知,在两种信噪比条件下,采用上述语音增强方法得到的增强语音与原始纯净语音具有十分相似的时域波形,验证了该方法的有效性。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种语音增强方法,其特征在于,包括以下步骤:
S1、对待增强语音进行分帧、加窗以及FFT,将每一帧数据通过FFT转换到频域;
S2、采用直接判决法对所述每一帧数据的先验信噪比进行初次估计;
所述每一帧的先验信噪比初次估计的方法为:
其中,是先验信噪比的初次估计值,S(p-1,k)为当前帧前一帧的纯净语音估计值,γn(p)为噪声能量谱,p为帧序号,k为频率,β是判决因子,一般取0.98,P代表半波整流算子,SNRpost(p,k)为当前帧的后验信噪比,其计算公式为:
其中,X(p,k)为含噪语音信号;
S3、利用步骤S2中初次估计的当前帧的先验信噪比对当前帧的纯净语音进行初次估计;
得到当前帧的纯净语音的初次估计值后,根据式(3)得到对应的初次维纳滤波器增益函数:
根据式(3)得到的初次维纳滤波器增益函数,通过式(4)得到当前帧的纯净语音的初次估计值;
其中,S1st(p,k)是纯净语音的初次估计值;
S4、利用所述当前帧的纯净语音的初次估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
将β′的值取为1,上式变为:
式(6)记为先验信噪比的二次估计公式;
S5、利用步骤S4中二次估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果;
所述二次估计后,根据式(7)得到对应的二次维纳滤波器增益函数:
根据式(7)得到的二次维纳滤波器增益函数,通过式(8)得到纯净语音的二次估计值,作为最终的频域增强语音:
其中,S2nd(p,k)是纯净语音的二次估计值;
将所述最终的频域增强语音进行反傅里叶变换转换到时域,通过式(9)得到时域增强语音:
Senhance(t)=ifft(S2nd(p,k)) (9);
其中,Senhance(t)是时域增强语音,ifft是快速傅里叶逆变换。
2.根据权利要求1所述的语音增强方法,其特征在于,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.95-20.05ms;
帧移:9.95-10.05ms;
窗函数:hanning窗;
FFT点数:1024。
3.根据权利要求1所述的语音增强方法,其特征在于,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.98-20.02ms;
帧移:9.98-10.02ms;
窗函数:hanning窗;
FFT点数:1024。
4.根据权利要求1所述的语音增强方法,其特征在于,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:20ms;
帧移:10ms;
窗函数:hanning窗;
FFT点数:1024。
5.一种语音增强系统,使用如权利要求1-4任一项所述的语音增强方法,其特征在于,包括:
预处理模块:用于对待增强语音进行分帧、加窗、FFT,将每一帧数据通过FFT转换到频域;
先验信噪比初次估计模块:用于采用直接判决法对当前帧先验信噪比进行初次估计;
纯净语音初次估计模块:用于利用步骤S2中估计的先验信噪比对当前帧的纯净语音进行初次估计;
先验信噪比二次估计模块:用于利用所述当前帧的纯净语音估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
纯净语音二次估计及反傅里叶变换模块:利用步骤S4中估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110225559.4A CN112767962B (zh) | 2021-03-01 | 2021-03-01 | 一种语音增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110225559.4A CN112767962B (zh) | 2021-03-01 | 2021-03-01 | 一种语音增强方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767962A true CN112767962A (zh) | 2021-05-07 |
CN112767962B CN112767962B (zh) | 2021-08-03 |
Family
ID=75704342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110225559.4A Active CN112767962B (zh) | 2021-03-01 | 2021-03-01 | 一种语音增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767962B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070255535A1 (en) * | 2004-09-16 | 2007-11-01 | France Telecom | Method of Processing a Noisy Sound Signal and Device for Implementing Said Method |
CN101894563A (zh) * | 2010-07-15 | 2010-11-24 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
CN101976566A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 语音增强方法及应用该方法的装置 |
CN103187068A (zh) * | 2011-12-30 | 2013-07-03 | 联芯科技有限公司 | 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法 |
CN103531204A (zh) * | 2013-10-11 | 2014-01-22 | 深港产学研基地 | 语音增强方法 |
CN107680609A (zh) * | 2017-09-12 | 2018-02-09 | 桂林电子科技大学 | 一种基于噪声功率谱密度的双通道语音增强方法 |
CN108696791A (zh) * | 2017-04-10 | 2018-10-23 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种单麦克风的组合感知增益函数语音增强方法 |
-
2021
- 2021-03-01 CN CN202110225559.4A patent/CN112767962B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070255535A1 (en) * | 2004-09-16 | 2007-11-01 | France Telecom | Method of Processing a Noisy Sound Signal and Device for Implementing Said Method |
CN101976566A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 语音增强方法及应用该方法的装置 |
CN101894563A (zh) * | 2010-07-15 | 2010-11-24 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
CN103187068A (zh) * | 2011-12-30 | 2013-07-03 | 联芯科技有限公司 | 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法 |
CN103531204A (zh) * | 2013-10-11 | 2014-01-22 | 深港产学研基地 | 语音增强方法 |
CN108696791A (zh) * | 2017-04-10 | 2018-10-23 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种单麦克风的组合感知增益函数语音增强方法 |
CN107680609A (zh) * | 2017-09-12 | 2018-02-09 | 桂林电子科技大学 | 一种基于噪声功率谱密度的双通道语音增强方法 |
Non-Patent Citations (2)
Title |
---|
BW FAN ETC: "The improvement and realization of speech enhancement algorithm based on Wiener filtering", 《INTERNATIONAL CONGRESS ON IMAGE & SIGNAL PROCESSING》 * |
张龙: "有监督学习条件下的单通道语音增强算法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112767962B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mack et al. | Deep filtering: Signal extraction and reconstruction using complex time-frequency filters | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
Nakatani et al. | Speech dereverberation based on variance-normalized delayed linear prediction | |
Sawada et al. | Blind extraction of dominant target sources using ICA and time-frequency masking | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
Al-Karawi et al. | Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
Ganapathy | Multivariate autoregressive spectrogram modeling for noisy speech recognition | |
Payton et al. | Comparison of a short-time speech-based intelligibility metric to the speech transmission index and intelligibility data | |
CN107045874B (zh) | 一种基于相关性的非线性语音增强方法 | |
Wang et al. | Deep neural network based supervised speech segregation generalizes to novel noises through large-scale training | |
CN118212929A (zh) | 一种个性化Ambisonics语音增强方法 | |
Xiong et al. | Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation. | |
Xu et al. | Learning to separate voices by spatial regions | |
CN112767962B (zh) | 一种语音增强方法及系统 | |
Thiagarajan et al. | Pitch-based voice activity detection for feedback cancellation and noise reduction in hearing aids | |
Lan et al. | Research on speech enhancement algorithm of multiresolution cochleagram based on skip connection deep neural network | |
Miyazaki et al. | Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction | |
Gui et al. | Adaptive subband Wiener filtering for speech enhancement using critical-band gammatone filterbank | |
Zheng et al. | SURE-MSE speech enhancement for robust speech recognition | |
Kodrasi et al. | Instrumental and perceptual evaluation of dereverberation techniques based on robust acoustic multichannel equalization | |
Hsieh et al. | Histogram equalization of real and imaginary modulation spectra for noise-robust speech recognition. | |
Chazan et al. | LCMV beamformer with DNN-based multichannel concurrent speakers detector | |
Bhatt et al. | Secure speech enhancement using LPC based FEM in Wiener filter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |