CN109308904A - 一种阵列语音增强算法 - Google Patents
一种阵列语音增强算法 Download PDFInfo
- Publication number
- CN109308904A CN109308904A CN201811227423.1A CN201811227423A CN109308904A CN 109308904 A CN109308904 A CN 109308904A CN 201811227423 A CN201811227423 A CN 201811227423A CN 109308904 A CN109308904 A CN 109308904A
- Authority
- CN
- China
- Prior art keywords
- voice
- noise
- signal
- frame
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Abstract
本发明公开了一种阵列语音增强算法,包括额步骤有S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位,本发明在最小畸变的条件下最大程度的提升有效语音,使经多路增强后的语音信号识别率得到明显提升,增强语音信号的信噪比,大大增强了语音的可懂度。
Description
技术领域
本发明涉及语音处理技术领域,具体为一种阵列语音增强算法。
背景技术
语音作为最基本的交流媒介在日常生活中扮演重要角色,随着科技飞速发展,作为人机交互的一个重要入口,高准确度,低误识的语音识别日益受到业界的广泛关注,其中输入语音的清晰度对识别性能的提升至关重要。然而在现实环境中,语音不可避免的会受到周围复杂噪声环境的影响,语音内容的可懂度降低,导致语音识别的性能急剧恶化。
发明内容
针对背景技术中存在的问题,本发明提供了一种阵列语音增强算法。
为实现上述目的,本发明提供如下技术方案:一种阵列语音增强算法,包括以下步骤:
S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;
S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;
S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位。
作为本发明一种优选的技术方案,于步骤S10中定义接收到的音频信号表示为:Y(k,l)=X(k,l)+D(k,l),其中X(k,l)表示语音信号,D(k,l)表示噪声信号频谱,然后定义语音功率谱为λx(k,l),噪声功率谱为λd(k,l),通过递归平均方法估计λd。
作为本发明一种优选的技术方案,利用递归平均方法估计λd的具体执行如下:
a、不考虑噪声不存在概率时,可以通过递归平均估算噪声功率谱:
λd=αdλd+(1-αd)||Y(k,l)||2,为简化表示,此处λd=λd(k,l)表示第l帧第k个频点上的噪声功率;
b、考虑噪声不存在的情况下:
(1)、估计时频点功率:Sf=|Y|2
(2)、功率谱沿时间平滑:S=λsS+(1-λs)Sf
(3)、累积实时记录最小功率值Smin,通过当前帧功率与加权后Smin值比较估计当前时频点为语音的概率If(0,1分布),该概率实时平均结果PS作为当前点的语音mask,其中:
Smin=min(Smin,S)
If=S>Smin·δs
PS=λpPS+(1-λp)If
(4)、PS=1即当前时频点很可能是语音信号时,不更新噪声谱;只有在当前帧有可能是噪声信号时才会利用当前功率跟新噪声谱,由此以软判决方式估计当前时频点的功率值:λd=PSλd+(1-PS)(αdλd+(1-αd)|Y|2);
c、噪声跟踪实时处理:
在累积记录最小功率值时,为保证最小功率跟踪的实时性,每跨越若干帧,及时修正最小功率,具体实现如下:
(1)、定义矩阵SW用于存储N_WIN(=8)次累积的NFFT_BINS个频点的最小功率值;
(2)、累积记录跨越的帧数,当计数到V_WIN(=15)帧时,存入当前V_WIN帧的功率最小值Stmp=min(Stmp,S),同时将Stmp重新初始化:Stmp=S;当存满N_WIN帧时,每次存入新数据的同时剔除最早存储的那个最小功率;
(3)、修正后的最小功率值为:Smin=min(SW)。
作为本发明一种优选的技术方案,于步骤S20中定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,为此做如下相关参数定义:
a、H1表示语音存在、H0表示语音不存在;
b、输入信号的各个时频点上语音存在的后验概率p=P(H1|Y);
c、语音不存在的先验概率可表示为q=P(H0),
假定语音与噪声幅度谱均服从均值为0的高斯分布,即:X(k,l)~N(0,λx),D(k,l)~N(0,λd),且语音与噪声相互独立,由此可以得到噪声以及语音的条件概率分布函数;
d、定义先验信噪比:后验信噪比:
可以通过贝叶斯公式以及高斯分布函数得到语音存在的后验概率表示如下:
其中表示实时计算得到的先验信噪比,由决策导向估计得到:
其中
估算的得到当前帧先验信噪比后,通过对当前帧信噪比与固定阈值的对比判断当前帧信号是否为噪声信号,从而估算出当前帧噪声存在的先验概率为进一步提升噪声概率估计灵活性,添加调节参数k,修正公式得到:k越大,噪声出现的可能性越小,即被抑制的越严重;
为简化计算量,可直接利用PS=λpPS+(1-λp)If得到的结果作为语音存在概率p(k,l)的粗略估计。
作为本发明一种优选的技术方案,于步骤S30中定义多路输入信号每帧的频域向量如下:
即有M路输入录音,利用信号的时频掩蔽系数以及M路输入的自相关矩阵,估计信号中语音相关矩阵RS以及噪声自相关矩阵RN;当导向向量未知时,利用RS归一化后的主特征向量作为向向量通过MVDR经典参数估计得到增益向量:对每帧信号时频点滤波后得到增强后的信号:由此求解得到的增强信号性能的优劣取决于噪声频域相关矩阵以及导向向量估计的准确度,其中涉及到的关键步骤如下:
(1)相关矩阵估计
对相关矩阵的估计,单一帧的相关矩阵无法满足满秩且不具有统计特性。为此我们取8~10帧相关帧的平均作为最终的输入信号相关矩阵其中L表示统计的帧数(L=8)。在已知当前帧数据噪声出现概率的基础上,估计噪声以及语音相关阵:
与
(2)导向向量的估计
当前假定仅存在一个有效目标方向语音,不存在相干噪声的情况下,基于理想情况下,导向向量与语音自相关矩阵RS的导向向量方向一致的基础(rank(RS)=1),对RS进行特征值分解,取模最大的特征值对应的特征向量为导向向量。
作为本发明一种优选的技术方案,还包括后滤波处理步骤,该步骤使用基于ML的谱增益系数递归计算,即定义后验SNR:其中||Y||2表示接收信号的功率谱,λd表示估计的噪声功率谱,递归平均后:由此得到的增益系数可表示为:
作为本发明一种优选的技术方案,基于谱减给出后滤波权系数为:
作为本发明一种优选的技术方案,通过添加调节系数,更新权增益系数为:
与现有技术相比,本发明的有益效果是:本发明在最小畸变的条件下最大程度的提升有效语音,使经多路增强后的语音信号识别率得到明显提升,增强语音信号的信噪比,大大增强了语音的可懂度。
附图说明
图1为本发明提供的一种阵列语音增强算法流程示意图;
图2为本发明提供的一种阵列语音增强算法中权系数评估框图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种阵列语音增强算法,包括以下步骤:
S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;
S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;
S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位。
在对于音频信号处理方式中,我们一般视为短时平稳(约30ms以内视为平稳信号),为了提升处理的效果与速度,一般会经过短时傅里叶变换将其转换至频域处理,在处理完成得到最终的增强后的频域信号后,在经过短时傅里叶反变换,将处理后的信号重新拼接回时域,在本发明中通过对频域信号频谱信息的分析,以及阵列信号空间特征信息的处理得到经过频域加权后的系统输出。
对于信号的时频相互转换,常用的即为分帧,加窗的短时处理后,执行傅里叶变换进入频域,为了高效快速的拼接,以及简化处理过程,本发明采用最为常用的帧移为帧长一半的处理方案,这样拼接得到的时域信号更接近原始信号的幅度分布,该本发明种未经特殊说明,均是对分帧后的信号频谱(语谱图)做的处理,帧长为10毫秒。
本发明中假定目标语音为单个声源,噪声与语音信号均服从高斯分布,且相互不相关,对多路输入信号,通过噪声跟踪以及信号高斯分布的假定估计出语音以及噪声在每个时频点上出现的概率;估计噪声相关矩阵;基于阵列拓扑结构以及声源方位计算导向向量或通过语音相关矩阵估算导向向量(通过计算EVD后的主特征向量模拟导向向量);在此基础上,利用MVDR的阵列语音增强架构估计增益系数向量。
在具体实施过程中,于步骤S10中定义接收到的音频信号表示为:Y(k,l)=X(k,l)+D(k,l),其中X(k,l)表示语音信号,D(k,l)表示噪声信号频谱,然后定义语音功率谱为λx(k,l),噪声功率谱为λd(k,l),通过递归平均方法估计λd,利用递归平均方法估计λd的具体执行如下:
a、不考虑噪声不存在概率时,可以通过递归平均估算噪声功率谱:
λd=αdλd+(1-αd)||Y(k,l)||2,为简化表示,此处λd=λd(k,l)表示第l帧第k个频点上的噪声功率;
b、考虑噪声不存在的情况下:
(1)、估计时频点功率:Sf=|Y|2
(2)、功率谱沿时间平滑:S=λsS+(1-λs)Sf
(3)、累积实时记录最小功率值Smin,通过当前帧功率与加权后Smin值比较估计当前时频点为语音的概率If(0,1分布),该概率实时平均结果PS作为当前点的语音mask,其中:
Smin=min(Smin,S)
If=S>Smin·δs
PS=λpPS+(1-λp)If
(4)、PS=1即当前时频点很可能是语音信号时,不更新噪声谱;只有在当前帧有可能是噪声信号时才会利用当前功率跟新噪声谱,由此以软判决方式估计当前时频点的功率值:λd=PSλd+(1-PS)(αdλd+(1-αd)|Y|2);
c、噪声跟踪实时处理:
在累积记录最小功率值时,为保证最小功率跟踪的实时性,每跨越若干帧,及时修正最小功率,具体实现如下:
(1)、定义矩阵SW用于存储N_WIN(=8)次累积的NFFT_BINS个频点的最小功率值;
(2)、累积记录跨越的帧数,当计数到V_WIN(=15)帧时,存入当前V_WIN帧的功率最小值Stmp=min(Stmp,S),同时将Stmp重新初始化:Stmp=S;当存满N_WIN帧时,每次存入新数据的同时剔除最早存储的那个最小功率;
(3)、修正后的最小功率值为:Smin=min(SW)。
在具体实施过程中,于步骤S20中定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,为此做如下相关参数定义:
a、H1表示语音存在、H0表示语音不存在;
b、输入信号的各个时频点上语音存在的后验概率p=P(H1|Y);
c、语音不存在的先验概率可表示为q=P(H0),
假定语音与噪声幅度谱均服从均值为0的高斯分布,即:X(k,l)~N(0,λx),D(k,l)~N(0,λd),且语音与噪声相互独立,由此可以得到噪声以及语音的条件概率分布函数;
d、定义先验信噪比:后验信噪比:
可以通过贝叶斯公式以及高斯分布函数得到语音存在的后验概率表示如下:
其中表示实时计算得到的先验信噪比,由决策导向估计得到:
其中
估算的得到当前帧先验信噪比后,通过对当前帧信噪比与固定阈值的对比判断当前帧信号是否为噪声信号,从而估算出当前帧噪声存在的先验概率
为进一步提升噪声概率估计灵活性,添加调节参数k,修正公式得到:k越大,噪声出现的可能性越小,即被抑制的越严重;
为简化计算量,可直接利用PS=λpPS+(1-λp)If得到的结果作为语音存在概率p(k,l)的粗略估计。
在具体实施过程中,于步骤S30中定义多路输入信号每帧的频域向量如下:
即有M路输入录音,利用信号的时频掩蔽系数以及M路输入的自相关矩阵,估计信号中语音相关矩阵RS以及噪声自相关矩阵RN;当导向向量未知时,利用RS归一化后的主特征向量作为向向量通过MVDR经典参数估计得到增益向量:对每帧信号时频点滤波后得到增强后的信号:(如图2所示),由此求解得到的增强信号性能的优劣取决于噪声频域相关矩阵以及导向向量估计的准确度,其中涉及到的关键步骤如下:
(1)相关矩阵估计
对相关矩阵的估计,单一帧的相关矩阵无法满足满秩且不具有统计特性。为此我们取8~10帧相关帧的平均作为最终的输入信号相关矩阵其中L表示统计的帧数(L=8)。在已知当前帧数据噪声出现概率的基础上,估计噪声以及语音相关阵:
与
(2)导向向量的估计
当前假定仅存在一个有效目标方向语音,不存在相干噪声的情况下,基于理想情况下,导向向量与语音自相关矩阵RS的导向向量方向一致的基础(rank(RS)=1),对RS进行特征值分解,取模最大的特征值对应的特征向量为导向向量。
在具体实施过程中,还包括后滤波处理步骤,该步骤使用基于ML的谱增益系数递归计算,即定义后验SNR:其中||Y||2表示接收信号的功率谱,λd表示估计的噪声功率谱,递归平均后:由此得到的增益系数可表示为:进一步的,为了最大程度上抑制畸变,基于谱减给出后滤波权系数为:进一步的,考虑到波谱谱减本身带来的音乐噪声问题,可以通过添加调节系数,更新权增益系数为:
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种阵列语音增强算法,其特征在于包括以下步骤:
S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;
S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;
S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位。
2.根据权利要求1所述的一种阵列语音增强算法,其特征在于,于步骤S10中定义接收到的音频信号表示为:Y(k,l)=X(k,l)+D(k,l),其中X(k,l)表示语音信号,D(k,l)表示噪声信号频谱,然后定义语音功率谱为λx(k,l),噪声功率谱为λd(k,l),通过递归平均方法估计λd。
3.根据权利要求2所述的一种阵列语音增强算法,其特征在于,利用递归平均方法估计λd的具体执行如下:
a、不考虑噪声不存在概率时,可以通过递归平均估算噪声功率谱:
λd=αdλd+(1-αd)||Y(k,l)||2,为简化表示,此处λd=λd(k,l)表示第l帧第k个频点上的噪声功率;
b、考虑噪声不存在的情况下:
(1)、估计时频点功率:Sf=|Y|2
(2)、功率谱沿时间平滑:S=λsS+(1-λs)Sf
(3)、累积实时记录最小功率值Smin,通过当前帧功率与加权后Smin值比较估计当前时频点为语音的概率If(0,1分布),该概率实时平均结果PS作为当前点的语音mask,其中:
Smin=min(Smin,S)
If=S>Smin·δs
PS=λpPS+(1-λp)If
(4)、PS=1即当前时频点很可能是语音信号时,不更新噪声谱;只有在当前帧有可能是噪声信号时才会利用当前功率跟新噪声谱,由此以软判决方式估计当前时频点的功率值:λd=PSλd+(1-PS)(αdλd+(1-αd)|Y|2);
c、噪声跟踪实时处理:
在累积记录最小功率值时,为保证最小功率跟踪的实时性,每跨越若干帧,及时修正最小功率,具体实现如下:
(1)、定义矩阵SW用于存储N_WIN(=8)次累积的NFFT_BINS个频点的最小功率值;
(2)、累积记录跨越的帧数,当计数到V_WIN(=15)帧时,存入当前V_WIN帧的功率最小值Stmp=min(Stmp,S),同时将Stmp重新初始化:Stmp=S;当存满N_WIN帧时,每次存入新数据的同时剔除最早存储的那个最小功率;
(3)、修正后的最小功率值为:Smin=min(SW)。
4.根据权利要求3所述的一种阵列语音增强算法,其特征在于,于步骤S20中定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,为此做如下相关参数定义:
a、H1表示语音存在、H0表示语音不存在;
b、输入信号的各个时频点上语音存在的后验概率p=P(H1|Y);
c、语音不存在的先验概率可表示为q=P(H0),
假定语音与噪声幅度谱均服从均值为0的高斯分布,即:X(k,l)~N(0,λx),D(k,l)~N(0,λd),且语音与噪声相互独立,由此可以得到噪声以及语音的条件概率分布函数;
d、定义先验信噪比:后验信噪比:
可以通过贝叶斯公式以及高斯分布函数得到语音存在的后验概率表示如下:
其中表示实时计算得到的先验信噪比,由决策导向估计得到:
其中
估算的得到当前帧先验信噪比后,通过对当前帧信噪比与固定阈值的对比判断当前帧信号是否为噪声信号,从而估算出当前帧噪声存在的先验概率
为进一步提升噪声概率估计灵活性,添加调节参数k,修正公式得到:k越大,噪声出现的可能性越小,即被抑制的越严重;
为简化计算量,可直接利用PS=λpPS+(1-λp)If得到的结果作为语音存在概率p(k,l)的粗略估计。
5.根据权利要求3所述的一种阵列语音增强算法,其特征在于,于步骤S30中定义多路输入信号每帧的频域向量如下:
即有M路输入录音,利用信号的时频掩蔽系数以及M路输入的自相关矩阵,估计信号中语音相关矩阵RS以及噪声自相关矩阵RN;当导向向量未知时,利用RS归一化后的主特征向量作为向向量通过MVDR经典参数估计得到增益向量:对每帧信号时频点滤波后得到增强后的信号:由此求解得到的增强信号性能的优劣取决于噪声频域相关矩阵以及导向向量估计的准确度,其中涉及到的关键步骤如下:
(1)相关矩阵估计
对相关矩阵的估计,单一帧的相关矩阵无法满足满秩且不具有统计特性。为此我们取8~10帧相关帧的平均作为最终的输入信号相关矩阵其中L表示统计的帧数(L=8)。在已知当前帧数据噪声出现概率的基础上,估计噪声以及语音相关阵:
与
(2)导向向量的估计
当前假定仅存在一个有效目标方向语音,不存在相干噪声的情况下,基于理想情况下,导向向量与语音自相关矩阵RS的导向向量方向一致的基础(rank(RS)=1),对RS进行特征值分解,取模最大的特征值对应的特征向量为导向向量。
6.根据权利要求5所述的一种阵列语音增强算法,其特征在于:还包括后滤波处理步骤,该步骤使用基于ML的谱增益系数递归计算,即定义后验SNR:其中||Y||2表示接收信号的功率谱,λd表示估计的噪声功率谱,递归平均后:由此得到的增益系数可表示为:
7.根据权利要求6所述的一种阵列语音增强算法,其特征在于:基于谱减给出后滤波权系数为:
8.根据权利要求6所述的一种阵列语音增强算法,其特征在于:通过添加调节系数,更新权增益系数为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811227423.1A CN109308904A (zh) | 2018-10-22 | 2018-10-22 | 一种阵列语音增强算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811227423.1A CN109308904A (zh) | 2018-10-22 | 2018-10-22 | 一种阵列语音增强算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109308904A true CN109308904A (zh) | 2019-02-05 |
Family
ID=65225527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811227423.1A Pending CN109308904A (zh) | 2018-10-22 | 2018-10-22 | 一种阵列语音增强算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308904A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN110085246A (zh) * | 2019-03-26 | 2019-08-02 | 北京捷通华声科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
CN110136738A (zh) * | 2019-06-13 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 噪声估计方法及装置 |
CN110289011A (zh) * | 2019-07-18 | 2019-09-27 | 大连理工大学 | 一种用于分布式无线声传感器网络的语音增强系统 |
CN110503972A (zh) * | 2019-08-26 | 2019-11-26 | 北京大学深圳研究生院 | 语音增强方法、系统、计算机设备及存储介质 |
CN110739005A (zh) * | 2019-10-28 | 2020-01-31 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN110838307A (zh) * | 2019-11-18 | 2020-02-25 | 苏州思必驰信息科技有限公司 | 语音消息处理方法及装置 |
CN111009262A (zh) * | 2019-12-24 | 2020-04-14 | 携程计算机技术(上海)有限公司 | 语音性别识别的方法及系统 |
WO2020177374A1 (zh) * | 2019-03-06 | 2020-09-10 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN111863015A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN112289334A (zh) * | 2020-12-29 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 一种混响消除方法及装置 |
CN112581973A (zh) * | 2020-11-27 | 2021-03-30 | 深圳大学 | 一种语音增强方法及系统 |
CN113015103A (zh) * | 2021-02-25 | 2021-06-22 | 上海吉盛网络技术有限公司 | 一种支持电梯门禁功能的数字多方通话装置 |
WO2021128670A1 (zh) * | 2019-12-26 | 2021-07-01 | 紫光展锐(重庆)科技有限公司 | 降低噪声的方法、装置、电子设备及可读存储介质 |
CN113064118A (zh) * | 2021-03-19 | 2021-07-02 | 维沃移动通信有限公司 | 声源定位方法和装置 |
CN113299308A (zh) * | 2020-09-18 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种语音增强方法、装置、电子设备及存储介质 |
WO2022012367A1 (zh) * | 2020-07-13 | 2022-01-20 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN114006671A (zh) * | 2021-11-01 | 2022-02-01 | 北京万测科技有限公司 | 一种广播发射机噪声在线测量方法及装置、存储介质 |
CN114944153A (zh) * | 2022-07-26 | 2022-08-26 | 中诚华隆计算机技术有限公司 | 一种物联网终端增强唤醒方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140025374A1 (en) * | 2012-07-22 | 2014-01-23 | Xia Lou | Speech enhancement to improve speech intelligibility and automatic speech recognition |
CN103592628A (zh) * | 2013-11-12 | 2014-02-19 | 上海大学 | 一种基于球谐域实值权重波束形成的多声源定位方法 |
CN104269180A (zh) * | 2014-09-29 | 2015-01-07 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
CN104952459A (zh) * | 2015-04-29 | 2015-09-30 | 大连理工大学 | 一种基于分布式一致性和mvdr波束形成的分布式语音增强方法 |
CN105427859A (zh) * | 2016-01-07 | 2016-03-23 | 深圳市音加密科技有限公司 | 一种用于对说话人识别的前端语音增强方法 |
-
2018
- 2018-10-22 CN CN201811227423.1A patent/CN109308904A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140025374A1 (en) * | 2012-07-22 | 2014-01-23 | Xia Lou | Speech enhancement to improve speech intelligibility and automatic speech recognition |
CN103592628A (zh) * | 2013-11-12 | 2014-02-19 | 上海大学 | 一种基于球谐域实值权重波束形成的多声源定位方法 |
CN104269180A (zh) * | 2014-09-29 | 2015-01-07 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
CN104952459A (zh) * | 2015-04-29 | 2015-09-30 | 大连理工大学 | 一种基于分布式一致性和mvdr波束形成的分布式语音增强方法 |
CN105427859A (zh) * | 2016-01-07 | 2016-03-23 | 深圳市音加密科技有限公司 | 一种用于对说话人识别的前端语音增强方法 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN108831495B (zh) * | 2018-06-04 | 2022-11-29 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
WO2020177374A1 (zh) * | 2019-03-06 | 2020-09-10 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN110085246A (zh) * | 2019-03-26 | 2019-08-02 | 北京捷通华声科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
CN111863015A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN110136738A (zh) * | 2019-06-13 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 噪声估计方法及装置 |
CN110289011A (zh) * | 2019-07-18 | 2019-09-27 | 大连理工大学 | 一种用于分布式无线声传感器网络的语音增强系统 |
CN110289011B (zh) * | 2019-07-18 | 2021-06-25 | 大连理工大学 | 一种用于分布式无线声传感器网络的语音增强系统 |
CN110503972A (zh) * | 2019-08-26 | 2019-11-26 | 北京大学深圳研究生院 | 语音增强方法、系统、计算机设备及存储介质 |
CN110503972B (zh) * | 2019-08-26 | 2022-04-19 | 北京大学深圳研究生院 | 语音增强方法、系统、计算机设备及存储介质 |
CN110739005B (zh) * | 2019-10-28 | 2022-02-01 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN110739005A (zh) * | 2019-10-28 | 2020-01-31 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN110838307A (zh) * | 2019-11-18 | 2020-02-25 | 苏州思必驰信息科技有限公司 | 语音消息处理方法及装置 |
CN110838307B (zh) * | 2019-11-18 | 2022-02-25 | 思必驰科技股份有限公司 | 语音消息处理方法及装置 |
CN111009262A (zh) * | 2019-12-24 | 2020-04-14 | 携程计算机技术(上海)有限公司 | 语音性别识别的方法及系统 |
WO2021128670A1 (zh) * | 2019-12-26 | 2021-07-01 | 紫光展锐(重庆)科技有限公司 | 降低噪声的方法、装置、电子设备及可读存储介质 |
WO2022012367A1 (zh) * | 2020-07-13 | 2022-01-20 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN113299308A (zh) * | 2020-09-18 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种语音增强方法、装置、电子设备及存储介质 |
CN112581973A (zh) * | 2020-11-27 | 2021-03-30 | 深圳大学 | 一种语音增强方法及系统 |
CN112581973B (zh) * | 2020-11-27 | 2022-04-29 | 深圳大学 | 一种语音增强方法及系统 |
CN112289334B (zh) * | 2020-12-29 | 2021-04-02 | 北京达佳互联信息技术有限公司 | 一种混响消除方法及装置 |
CN112289334A (zh) * | 2020-12-29 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 一种混响消除方法及装置 |
CN113015103A (zh) * | 2021-02-25 | 2021-06-22 | 上海吉盛网络技术有限公司 | 一种支持电梯门禁功能的数字多方通话装置 |
CN113064118A (zh) * | 2021-03-19 | 2021-07-02 | 维沃移动通信有限公司 | 声源定位方法和装置 |
CN114006671A (zh) * | 2021-11-01 | 2022-02-01 | 北京万测科技有限公司 | 一种广播发射机噪声在线测量方法及装置、存储介质 |
CN114944153A (zh) * | 2022-07-26 | 2022-08-26 | 中诚华隆计算机技术有限公司 | 一种物联网终端增强唤醒方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308904A (zh) | 一种阵列语音增强算法 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
Davis et al. | Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold | |
Zhang et al. | A speech enhancement algorithm by iterating single-and multi-microphone processing and its application to robust ASR | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
Deng et al. | Sparse hidden Markov models for speech enhancement in non-stationary noise environments | |
CN102969000A (zh) | 一种多通道语音增强方法 | |
Togami | Multi-channel Itakura Saito distance minimization with deep neural network | |
Ram et al. | Performance analysis of adaptive variational mode decomposition approach for speech enhancement | |
Odelowo et al. | A study of training targets for deep neural network-based speech enhancement using noise prediction | |
Chai et al. | Gaussian density guided deep neural network for single-channel speech enhancement | |
Tan et al. | Improving robustness of deep learning based monaural speech enhancement against processing artifacts | |
Huang et al. | Dccrgan: Deep complex convolution recurrent generator adversarial network for speech enhancement | |
Lu | Noise reduction using three-step gain factor and iterative-directional-median filter | |
Dionelis et al. | Modulation-domain Kalman filtering for monaural blind speech denoising and dereverberation | |
Zhang et al. | Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging | |
Gupta et al. | Speech enhancement using MMSE estimation and spectral subtraction methods | |
Schmidt et al. | Reduction of non-stationary noise using a non-negative latent variable decomposition | |
Fang et al. | Integrating statistical uncertainty into neural network-based speech enhancement | |
Bavkar et al. | PCA based single channel speech enhancement method for highly noisy environment | |
Badiezadegan et al. | A wavelet-based thresholding approach to reconstructing unreliable spectrogram components | |
Nataraj et al. | Single channel speech enhancement using adaptive filtering and best correlating noise identification | |
Wang et al. | Research on speech enhancement based on deep neural network | |
Kurpukdee et al. | Improving voice activity detection by using denoising-based techniques with convolutional lstm | |
Nasibov | Decision fusion of voice activity detectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Chaopeng Inventor after: Cai Hongbin Inventor after: He Xin Inventor after: Chen Xuechao Inventor after: Gu Liang Inventor before: Cai Hongbin Inventor before: He Xin Inventor before: Chen Xuechao Inventor before: Gu Liang |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190205 |