CN106384588A - 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 - Google Patents
基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 Download PDFInfo
- Publication number
- CN106384588A CN106384588A CN201610812111.1A CN201610812111A CN106384588A CN 106384588 A CN106384588 A CN 106384588A CN 201610812111 A CN201610812111 A CN 201610812111A CN 106384588 A CN106384588 A CN 106384588A
- Authority
- CN
- China
- Prior art keywords
- reverberation
- gmm
- vector
- speech
- noisy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000654 additive Substances 0.000 title claims abstract description 24
- 230000000996 additive effect Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000013519 translation Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 abstract description 4
- 230000007613 environmental effect Effects 0.000 abstract 1
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,从含噪混响语音的倒谱特征中估计纯净语音的倒谱特征。在训练阶段,用全部语音单元的训练语音生成一个高斯混合模型(GMM:Gaussian Mixture Model)。在测试阶段,首先用训练阶段得到的GMM从含噪混响语音的特征参数中估计混响参数和噪声参数;然后,用估得的混响参数和噪声参数对纯净语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;最后,用估得的测试环境GMM从含噪混响语音的特征参数中估计纯净语音的特征参数。本发明可以显著减小加性背景噪声和短时室内混响对语音识别系统的影响,增强语音识别系统的环境鲁棒性。
Description
技术领域
本发明涉及到用求和卷积模型模拟短时混响环境下加性噪声和房间混响对纯净语音的影响,通过矢量泰勒级数从含噪测试语音中实时提取噪声参数和混响参数,对加性噪声和短时混响进行联合补偿,得到与测试环境较好匹配的声学模型的模型自适应方法,属于语音识别技术领域。
背景技术
语音在传输过程中不可避免地要受到加性背景噪声、线性信道失真等各种干扰的影响,因此有必要对这些干扰因素进行补偿,减小其对语音识别系统的影响,增强语音识别系统对环境的适应能力。
矢量泰勒级数是一种有效的鲁棒语音识别方法,它可以较好地逼近由加性背景噪声和线性信道失真引起的非线性环境变换关系,既可以用于前端特征补偿,也可以用于后端模型自适应。在传统的矢量泰勒级数算法中,一般假设纯净输入语音先与线性信道噪声相卷积,再与背景噪声相加,得到含噪测试语音,这与实际情况较为接近,因而该算法对加性背景噪声和信道卷积噪声可以取得较好的补偿效果。
当语音识别系统位于室内时,不仅受加性背景噪声的影响,而且还会受到室内混响的影响。此时,麦克风不仅收到由说话人发出的纯净语音和背景噪声混合得到的直达含噪语音,还会收到由房间墙壁反射得到的含噪语音的各次反射声。当混响时间较短时,由混响引起的干扰也可以看作是一种卷积噪声。但是,这种卷积噪声不同于传统的系统信道失真,它作用于由加性背景噪声引起的含噪语音,即纯净输入语音先与背景噪声相加,再与混响失真卷积。因此,短时混响环境下的矢量泰勒级数需要重新推导,这样才能对加性噪声和室内混响取得较好的补偿效果。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,用求和卷积模型模拟短时混响环境下加性噪声和房间混响对纯净语音的影响,通过矢量泰勒级数从含噪测试语音中实时提取噪声参数和混响参数,对加性噪声和短时混响进行联合补偿,得到与测试环境较好匹配的声学模型。
技术方案:一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,在室内或车内,说话人发出的纯净语音首先与背景噪声相加,得到含噪语音;然后,直达含噪语音和它的各次反射声相混合,得到含噪混响语音。在训练阶段,用全部语音单元的训练语音生成一个高斯混合模型(GMM:Gaussian Mixture Model)。在测试阶段,首先用训练阶段得到的GMM从含噪混响语音的特征参数中估计混响参数和噪声参数;然后,用估得的混响参数和噪声参数对纯净语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;最后,用估得的测试环境GMM从含噪混响语音的特征参数中估计纯净语音的特征参数。
具体步骤如下:
(1)在训练阶段,用全部语音单元的训练语音生成一个GMM;
(2)构建含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系:y=Clog(exp(C-1x)+exp(C-1n))+h,其中n和h为分别表示加性噪声和混响失真的倒谱特征向量;
(3)用矢量泰勒级数逼近y与x之间的非线性关系,并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数,在混响估计时,假设混响时间较短且说话人的位置不变,因此h可以看作为常数;
(4)利用估得的混响参数和噪声参数对纯净训练语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;
(5)利用估得的测试环境GMM从含噪混响语音的倒谱特征中实时估计纯净语音的倒谱特征,估得的纯净语音倒谱特征即可用于后端声学解码和语言解码,得到识别结果。
附图说明
图1输入语音的加性噪声和混响失真模型;
图2基于矢量泰勒级数的加性噪声与短时混响的联合补偿系统的结构。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,具体步骤如下:
(1)在训练阶段,用全部语音单元的训练语音生成一个GMM;
(2)根据图1,构建含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系:y=Clog(exp(C-1x)+exp(C-1n))+h,其中n和h为分别表示加性噪声和混响失真的倒谱特征向量;
(3)用矢量泰勒级数逼近y与x之间的非线性关系,并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数,在混响估计时,假设混响时间较多且说话人的位置不变,因此h可以看作为常数;
(4)利用估得的混响参数和噪声参数对纯净训练语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;
(5)利用估得的测试环境GMM从含噪混响语音的倒谱特征中实时估计纯净语音的倒谱特征,估得的纯净语音倒谱特征即可用于后端声学解码和语言解码,得到识别结果。
1、失真模型:
本发明假设室内只存在加性背景噪声和短时混响干扰,其模型如图1所示。说话人发出的纯净语音先与加性背景噪声混合,得到的含噪语音再与房间的各次反射声混合得到待识别的含噪混响语音。当混响时间较短(一般在30毫秒以内)且说话人的位置不变时,混响参数可以看作常数。
设含噪语音、纯净语音、加性噪声、混响噪声经过快速傅里叶变换后的幅度谱分别为ylin、xlin、nlin和hlin,则它们的关系可以表示为:
ylin=(xlin+nlin)hlin (1)
在式(1)两边取对数,得:
logylin=log(xlin+nlin)+loghlin (2)
在式(2)两边取离散预先变换(DCT:Discrete Cosine Transform),得:
C(logylin)=Clog(exp(C-1C(logxlin))+exp(C-1C(lognlin)))+C(loghlin) (3)
其中,C和C-1分别表示DCT矩阵及其逆矩阵。
记y=C(logylin),x=C(logxlin),n=C(lognlin),h=C(loghlin),则式(3)可表示为:
y=Clog(exp(C-1x)+exp(C-1n))+h=x+h+Clog[1+exp(C-1(n-x))] (4)
其中,y、x、n、h分别表示含噪语音、纯净语音、加性噪声、混响噪声的倒谱特征参数。因为说话人的位置保持不变,所以h可以看作常数,只估计其均值,忽略其方差。
设μx和μn0分别为x的均值和n的初始均值,用一阶矢量泰勒级数将式(4)在点(μx,μn0)处展开,可以得到失配函数的一阶线性近似:
其中,I表示单位矩阵;和U分别为
式(7)中,diag()表示以括号中的向量为对角元素的对角矩阵。
在式(5)两边分别取各项的均值和方差,则含噪混响语音的均值μy和方差Σy可以分别表示为:
Σy=(I-U)Σx(I-U)T+UΣnUT (9)
其中,μx和μn分别表示x和n的均值向量;Σx和Σn分别表示x和n的协方差矩阵。
2、混响和噪声估计:
在训练阶段,用一个GMM表示纯净语音倒谱特征的分布:
其中,xt表示第t帧纯净语音的倒谱特征向量;cm、μx,m和Σx,m分别表示GMM中第m个高斯单元的混合系数、均值向量和协方差矩阵。
噪声参数μn、Σn和混响参数h通过最大似然准则和最大期望算法,从含噪语音中估计。辅助函数定义如下:
其中,γm(t)=P(m|yt,λ)表示给定GMM的先验参数集λ,第t帧观测向量yt属于GMM第m个高斯单元的后验概率;表示GMM均值和方差更新后的模型参数。
对GMM的第m个高斯单元,式(8)可以写为:
其中,Wm=[I,Um],Um、由式(6)和(7)决定。将式(12)代入式(11),并求辅助函数关于的偏导数:
令式(13)等于零,即可得到均值的计算公式:
在倒谱域,特征向量各维之间的相关性较小,Σx,m、Σn和Σy,m均可近似为对角矩阵。因此,对GMM的第m个高斯单元,式(9)可以重写为:
σy,m=(Vm·Vm)σx,m+(Um·Um)σn (15)
其中,σy,m、σx,m和σn分别为Σy,m、Σx,m和Σn的对角元素列向量;符号·表示矩阵的点乘,即两个同维度矩阵的对应元素分别相乘;Vm=I-Um。
令ηy,m=(σy,m)-1,辅助函数对σn的偏导数可以表示为:
其中,
式(17)中,σn0表示噪声方差σn的初值,第一次迭代时一般设为全1的向量;Gm0是一种加权因子,无具体含义,只是为了简化表达式而引入的符号。
将式(17)代入式(16),并令该导数等于零,可以得到噪声方差σn的估计公式:
3、模型变换:
从含噪混响语音的倒谱特征参数中估得噪声参数μn、σn和混响参数h后,即可用式(12)和(15)对纯净语音GMM每个高斯单元的均值和方差进行变换,得到与含噪混响语音匹配的测试环境GMM。
4、纯净语音估计:
得到测试环境GMM后,纯净语音的倒谱特征向量用下式进行估计:
其中,表示给定测试环境GMM的参数集第t帧观测向量yt属于该GMM第m个高斯单元的后验概率。
Claims (6)
1.一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于,包括如下步骤:
(1)在训练阶段,用全部语音单元的训练语音生成一个GMM;
(2)用n和h为分别表示加性噪声和混响失真的倒谱特征向量,则含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系可以表示为y=Clog(exp(C-1x)+exp(C-1n))+h,其中C和C-1分别表示DCT矩阵及其逆矩阵;
(3)用矢量泰勒级数逼近y与x之间的非线性关系,并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数,在混响估计时,令h为常数;
(4)利用估得的混响参数和噪声参数对纯净训练语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;
(5)利用估得的测试环境GMM从含噪混响语音的倒谱特征中实时估计纯净语音的倒谱特征。
2.如权利要求1所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于,含噪混响语音的倒谱均值μy可以表示为其中μn和μn0分别表示n的均值和初值均值,这里diag()表示以括号中的向量为对角元素的对角矩阵。
3.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于,含噪混响语音的方差Σy可以分别表示为Σy=(I-U)Σx(I-U)T+UΣnUT,其中I表示单位矩阵,Σx和Σn分别表示x和n的协方差矩阵。
4.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于,设高斯混合模型有M个高斯单元,Wm=[I,Um],则混响失真h和加性噪声的均值μn的估计公式为其中γm(t)=P(m|yt,λ)表示给定GMM的先验参数集λ,第t帧观测向量yt属于GMM第m个高斯单元的后验概率;表示GMM均值和方差更新后的模型参数。
5.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于,设则噪声方差Σn的对角向量σn的估计公式为
6.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于:纯净语音的倒谱特征向量的估计公式为
其中,第t帧观测向量yt属于测试环境GMM第m个高斯单元的后验概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610812111.1A CN106384588B (zh) | 2016-09-08 | 2016-09-08 | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610812111.1A CN106384588B (zh) | 2016-09-08 | 2016-09-08 | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106384588A true CN106384588A (zh) | 2017-02-08 |
CN106384588B CN106384588B (zh) | 2019-09-10 |
Family
ID=57935452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610812111.1A Active CN106384588B (zh) | 2016-09-08 | 2016-09-08 | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106384588B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993664A (zh) * | 2018-01-26 | 2018-05-04 | 北京邮电大学 | 一种基于竞争神经网络的鲁棒说话人识别方法 |
CN108053835A (zh) * | 2017-11-13 | 2018-05-18 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN109192216A (zh) * | 2018-08-08 | 2019-01-11 | 联智科技(天津)有限责任公司 | 一种声纹识别用训练数据集仿真获取方法及其获取装置 |
CN110299143A (zh) * | 2018-03-21 | 2019-10-01 | 现代摩比斯株式会社 | 用于识别语音说话人的装置及其方法 |
US20210241780A1 (en) * | 2020-01-31 | 2021-08-05 | Nuance Communications, Inc. | Method And System For Speech Enhancement |
WO2022007846A1 (zh) * | 2020-07-08 | 2022-01-13 | 华为技术有限公司 | 语音增强方法、设备、系统以及存储介质 |
WO2023098312A1 (zh) * | 2021-12-01 | 2023-06-08 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、设备、存储介质和程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6691091B1 (en) * | 2000-04-18 | 2004-02-10 | Matsushita Electric Industrial Co., Ltd. | Method for additive and convolutional noise adaptation in automatic speech recognition using transformed matrices |
CN102945670A (zh) * | 2012-11-26 | 2013-02-27 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN103000174A (zh) * | 2012-11-26 | 2013-03-27 | 河海大学 | 语音识别系统中基于快速噪声估计的特征补偿方法 |
CN105355199A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
-
2016
- 2016-09-08 CN CN201610812111.1A patent/CN106384588B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6691091B1 (en) * | 2000-04-18 | 2004-02-10 | Matsushita Electric Industrial Co., Ltd. | Method for additive and convolutional noise adaptation in automatic speech recognition using transformed matrices |
CN102945670A (zh) * | 2012-11-26 | 2013-02-27 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN103000174A (zh) * | 2012-11-26 | 2013-03-27 | 河海大学 | 语音识别系统中基于快速噪声估计的特征补偿方法 |
CN105355199A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
Non-Patent Citations (4)
Title |
---|
YONG LU等: "Robust Speech Recogniton Using Improved Vector Taylor Series Algorithm for Embedded Systems", 《IEEE TRANSACTIONS ON CONSUMER ELECTRONICS》 * |
吕勇等: "基于矢量泰勒级数的模型自适应算法", 《电子与信息学报》 * |
吕勇等: "基于矢量泰勒级数的鲁棒语音识别", 《天津大学学报》 * |
吴海洋等: "矢量泰勒级数特征补偿的说话人识别", 《声学学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108053835A (zh) * | 2017-11-13 | 2018-05-18 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN108053835B (zh) * | 2017-11-13 | 2021-07-09 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN107993664A (zh) * | 2018-01-26 | 2018-05-04 | 北京邮电大学 | 一种基于竞争神经网络的鲁棒说话人识别方法 |
CN107993664B (zh) * | 2018-01-26 | 2021-05-28 | 北京邮电大学 | 一种基于竞争神经网络的鲁棒说话人识别方法 |
CN110299143A (zh) * | 2018-03-21 | 2019-10-01 | 现代摩比斯株式会社 | 用于识别语音说话人的装置及其方法 |
CN110299143B (zh) * | 2018-03-21 | 2023-04-11 | 现代摩比斯株式会社 | 用于识别语音说话人的装置及其方法 |
CN109192216A (zh) * | 2018-08-08 | 2019-01-11 | 联智科技(天津)有限责任公司 | 一种声纹识别用训练数据集仿真获取方法及其获取装置 |
US20210241780A1 (en) * | 2020-01-31 | 2021-08-05 | Nuance Communications, Inc. | Method And System For Speech Enhancement |
US11657828B2 (en) * | 2020-01-31 | 2023-05-23 | Nuance Communications, Inc. | Method and system for speech enhancement |
WO2022007846A1 (zh) * | 2020-07-08 | 2022-01-13 | 华为技术有限公司 | 语音增强方法、设备、系统以及存储介质 |
WO2023098312A1 (zh) * | 2021-12-01 | 2023-06-08 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、设备、存储介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN106384588B (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106384588A (zh) | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 | |
CN103000174B (zh) | 语音识别系统中基于快速噪声估计的特征补偿方法 | |
CN109841206A (zh) | 一种基于深度学习的回声消除方法 | |
CN100543842C (zh) | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 | |
CN108417224B (zh) | 双向神经网络模型的训练和识别方法及系统 | |
KR20200115059A (ko) | 심층 멀티태스킹 반복 신경망을 이용한 음향 에코 제거 시스템 및 방법 | |
CN106340292A (zh) | 一种基于连续噪声估计的语音增强方法 | |
CN105957520A (zh) | 一种适用于回声消除系统的语音状态检测方法 | |
CN107393550A (zh) | 语音处理方法及装置 | |
CN105788607A (zh) | 应用于双麦克风阵列的语音增强方法 | |
CN103238181A (zh) | 用于恢复由于对测试语音信号进行噪声去除导致在测试噪声去除后语音信号中衰减的谱成分的方法 | |
CN112687288B (zh) | 回声消除方法、装置、电子设备和可读存储介质 | |
CN104392718A (zh) | 一种基于声学模型阵列的鲁棒语音识别方法 | |
CN102945670A (zh) | 一种用于语音识别系统的多环境特征补偿方法 | |
CN102436809A (zh) | 英语口语机考系统中网络语音识别方法 | |
CN106356058B (zh) | 一种基于多频带特征补偿的鲁棒语音识别方法 | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
CN106373559A (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
Gong | A method of joint compensation of additive and convolutive distortions for speaker-independent speech recognition | |
KR101043114B1 (ko) | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 | |
Xu et al. | Vector taylor series based joint uncertainty decoding. | |
Chung | Vector Taylor series based model adaptation using noisy speech trained hidden Markov models | |
CN107346658A (zh) | 混响抑制方法及装置 | |
Wang et al. | Improving reverberant VTS for hands-free robust speech recognition | |
CN107393553A (zh) | 用于语音活动检测的听觉特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230418 Address after: 210000 room 325, 3 / F, science and innovation center, No.1 Xiankun Road, Jianye District, Nanjing City, Jiangsu Province Patentee after: Nanjing Saturn Information Technology Co.,Ltd. Address before: 211100 No. 8 West Buddha Road, Jiangning District, Jiangsu, Nanjing Patentee before: HOHAI University |