CN106384588B - 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 - Google Patents

基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 Download PDF

Info

Publication number
CN106384588B
CN106384588B CN201610812111.1A CN201610812111A CN106384588B CN 106384588 B CN106384588 B CN 106384588B CN 201610812111 A CN201610812111 A CN 201610812111A CN 106384588 B CN106384588 B CN 106384588B
Authority
CN
China
Prior art keywords
reverberation
gmm
voice
vector
noisy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610812111.1A
Other languages
English (en)
Other versions
CN106384588A (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Saturn Information Technology Co ltd
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201610812111.1A priority Critical patent/CN106384588B/zh
Publication of CN106384588A publication Critical patent/CN106384588A/zh
Application granted granted Critical
Publication of CN106384588B publication Critical patent/CN106384588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,从含噪混响语音的倒谱特征中估计纯净语音的倒谱特征。在训练阶段,用全部语音单元的训练语音生成一个高斯混合模型(GMM:Gaussian Mixture Model)。在测试阶段,首先用训练阶段得到的GMM从含噪混响语音的特征参数中估计混响参数和噪声参数;然后,用估得的混响参数和噪声参数对纯净语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;最后,用估得的测试环境GMM从含噪混响语音的特征参数中估计纯净语音的特征参数。本发明可以显著减小加性背景噪声和短时室内混响对语音识别系统的影响,增强语音识别系统的环境鲁棒性。

Description

基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法
技术领域
本发明涉及到用求和卷积模型模拟短时混响环境下加性噪声和房间混响对纯净语音的影响,通过矢量泰勒级数从含噪测试语音中实时提取噪声参数和混响参数,对加性噪声和短时混响进行联合补偿,得到与测试环境较好匹配的声学模型的模型自适应方法,属于语音识别技术领域。
背景技术
语音在传输过程中不可避免地要受到加性背景噪声、线性信道失真等各种干扰的影响,因此有必要对这些干扰因素进行补偿,减小其对语音识别系统的影响,增强语音识别系统对环境的适应能力。
矢量泰勒级数是一种有效的鲁棒语音识别方法,它可以较好地逼近由加性背景噪声和线性信道失真引起的非线性环境变换关系,既可以用于前端特征补偿,也可以用于后端模型自适应。在传统的矢量泰勒级数算法中,一般假设纯净输入语音先与线性信道噪声相卷积,再与背景噪声相加,得到含噪测试语音,这与实际情况较为接近,因而该算法对加性背景噪声和信道卷积噪声可以取得较好的补偿效果。
当语音识别系统位于室内时,不仅受加性背景噪声的影响,而且还会受到室内混响的影响。此时,麦克风不仅收到由说话人发出的纯净语音和背景噪声混合得到的直达含噪语音,还会收到由房间墙壁反射得到的含噪语音的各次反射声。当混响时间较短时,由混响引起的干扰也可以看作是一种卷积噪声。但是,这种卷积噪声不同于传统的系统信道失真,它作用于由加性背景噪声引起的含噪语音,即纯净输入语音先与背景噪声相加,再与混响失真卷积。因此,短时混响环境下的矢量泰勒级数需要重新推导,这样才能对加性噪声和室内混响取得较好的补偿效果。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,用求和卷积模型模拟短时混响环境下加性噪声和房间混响对纯净语音的影响,通过矢量泰勒级数从含噪测试语音中实时提取噪声参数和混响参数,对加性噪声和短时混响进行联合补偿,得到与测试环境较好匹配的声学模型。
技术方案:一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,在室内或车内,说话人发出的纯净语音首先与背景噪声相加,得到含噪语音;然后,直达含噪语音和它的各次反射声相混合,得到含噪混响语音。在训练阶段,用全部语音单元的训练语音生成一个高斯混合模型(GMM:Gaussian Mixture Model)。在测试阶段,首先用训练阶段得到的GMM从含噪混响语音的特征参数中估计混响参数和噪声参数;然后,用估得的混响参数和噪声参数对纯净语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;最后,用估得的测试环境GMM从含噪混响语音的特征参数中估计纯净语音的特征参数。
具体步骤如下:
(1)在训练阶段,用全部语音单元的训练语音生成一个GMM;
(2)构建含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系:y=Clog(exp(C-1x)+exp(C-1n))+h,其中n和h为分别表示加性噪声和混响失真的倒谱特征向量;
(3)用矢量泰勒级数逼近y与x之间的非线性关系,并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数,在混响估计时,假设混响时间较短且说话人的位置不变,因此h可以看作为常数;
(4)利用估得的混响参数和噪声参数对纯净训练语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;
(5)利用估得的测试环境GMM从含噪混响语音的倒谱特征中实时估计纯净语音的倒谱特征,估得的纯净语音倒谱特征即可用于后端声学解码和语言解码,得到识别结果。
附图说明
图1输入语音的加性噪声和混响失真模型;
图2基于矢量泰勒级数的加性噪声与短时混响的联合补偿系统的结构。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,具体步骤如下:
(1)在训练阶段,用全部语音单元的训练语音生成一个GMM;
(2)根据图1,构建含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系:y=Clog(exp(C-1x)+exp(C-1n))+h,其中n和h为分别表示加性噪声和混响失真的倒谱特征向量;
(3)用矢量泰勒级数逼近y与x之间的非线性关系,并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数,在混响估计时,假设混响时间较多且说话人的位置不变,因此h可以看作为常数;
(4)利用估得的混响参数和噪声参数对纯净训练语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;
(5)利用估得的测试环境GMM从含噪混响语音的倒谱特征中实时估计纯净语音的倒谱特征,估得的纯净语音倒谱特征即可用于后端声学解码和语言解码,得到识别结果。
1、失真模型:
本发明假设室内只存在加性背景噪声和短时混响干扰,其模型如图1所示。说话人发出的纯净语音先与加性背景噪声混合,得到的含噪语音再与房间的各次反射声混合得到待识别的含噪混响语音。当混响时间较短(一般在30毫秒以内)且说话人的位置不变时,混响参数可以看作常数。
设含噪语音、纯净语音、加性噪声、混响噪声经过快速傅里叶变换后的幅度谱分别为ylin、xlin、nlin和hlin,则它们的关系可以表示为:
ylin=(xlin+nlin)hlin (1)
在式(1)两边取对数,得:
logylin=log(xlin+nlin)+loghlin (2)
在式(2)两边取离散预先变换(DCT:Discrete Cosine Transform),得:
C(logylin)=Clog(exp(C-1C(logxlin))+exp(C-1C(lognlin)))+C(loghlin) (3)
其中,C和C-1分别表示DCT矩阵及其逆矩阵。
记y=C(logylin),x=C(logxlin),n=C(lognlin),h=C(loghlin),则式(3)可表示为:
y=Clog(exp(C-1x)+exp(C-1n))+h=x+h+Clog[1+exp(C-1(n-x))] (4)
其中,y、x、n、h分别表示含噪语音、纯净语音、加性噪声、混响噪声的倒谱特征参数。因为说话人的位置保持不变,所以h可以看作常数,只估计其均值,忽略其方差。
设μx和μn0分别为x的均值和n的初始均值,用一阶矢量泰勒级数将式(4)在点(μxn0)处展开,可以得到失配函数的一阶线性近似:
其中,I表示单位矩阵;和U分别为
式(7)中,diag()表示以括号中的向量为对角元素的对角矩阵。
在式(5)两边分别取各项的均值和方差,则含噪混响语音的均值μy和方差Σy可以分别表示为:
Σy=(I-U)Σx(I-U)T+UΣnUT (9)
其中,μx和μn分别表示x和n的均值向量;Σx和Σn分别表示x和n的协方差矩阵。
2、混响和噪声估计:
在训练阶段,用一个GMM表示纯净语音倒谱特征的分布:
其中,xt表示第t帧纯净语音的倒谱特征向量;cm、μx,m和Σx,m分别表示GMM中第m个高斯单元的混合系数、均值向量和协方差矩阵。
噪声参数μn、Σn和混响参数h通过最大似然准则和最大期望算法,从含噪语音中估计。辅助函数定义如下:
其中,γm(t)=P(m|yt,λ)表示给定GMM的先验参数集λ,第t帧观测向量yt属于GMM第m个高斯单元的后验概率;表示GMM均值和方差更新后的模型参数。
对GMM的第m个高斯单元,式(8)可以写为:
其中,Wm=[I,Um],Um由式(6)和(7)决定。将式(12)代入式(11),并求辅助函数关于的偏导数:
令式(13)等于零,即可得到均值的计算公式:
在倒谱域,特征向量各维之间的相关性较小,Σx,m、Σn和Σy,m均可近似为对角矩阵。因此,对GMM的第m个高斯单元,式(9)可以重写为:
σy,m=(Vm·Vmx,m+(Um·Umn (15)其中,σy,m、σx,m和σn分别为Σy,m、Σx,m和Σn的对角元素列向量;符号·表示矩阵的点乘,即两个同维度矩阵的对应元素分别相乘;Vm=I-Um
令ηy,m=(σy,m)-1,辅助函数对σn的偏导数可以表示为:
其中,
式(17)中,σn0表示噪声方差σn的初值,第一次迭代时一般设为全1的向量;Gm0是一种加权因子,无具体含义,只是为了简化表达式而引入的符号。
将式(17)代入式(16),并令该导数等于零,可以得到噪声方差σn的估计公式:
3、模型变换:
从含噪混响语音的倒谱特征参数中估得噪声参数μn、σn和混响参数h后,即可用式(12)和(15)对纯净语音GMM每个高斯单元的均值和方差进行变换,得到与含噪混响语音匹配的测试环境GMM。
4、纯净语音估计:
得到测试环境GMM后,纯净语音的倒谱特征向量用下式进行估计:
其中,表示给定测试环境GMM的参数集第t帧观测向量yt属于该GMM第m个高斯单元的后验概率。

Claims (6)

1.一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于,包括如下步骤:
(1)在训练阶段,用全部语音单元的训练语音生成一个GMM;
(2)用n和h为分别表示加性噪声和混响失真的倒谱特征向量,则含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系可以表示为y=Clog(exp(C-1x)+exp(C-1n))+h,其中C和C-1分别表示DCT矩阵及其逆矩阵;
(3)用矢量泰勒级数逼近y与x之间的非线性关系,并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数,在混响估计时,令h为常数;
(4)利用估得的混响参数和噪声参数对纯净训练语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;
(5)利用估得的测试环境GMM从含噪混响语音的倒谱特征中实时估计纯净语音的倒谱特征。
2.如权利要求1所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于,含噪混响语音的倒谱均值μy可以表示为其中μn和μn0分别表示n的均值和初值均值,这里diag()表示以括号中的向量为对角元素的对角矩阵。
3.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于,含噪混响语音的方差Σy可以分别表示为Σy=(I-U)Σx(I-U)T+UΣnUT,其中I表示单位矩阵,Σx和Σn分别表示x和n的协方差矩阵。
4.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于,设高斯混合模型有M个高斯单元,Wm=[I,Um],则混响失真h和加性噪声的均值μn的估计公式为其中γm(t)=P(m|yt,λ)表示给定GMM的先验参数集λ,第t帧观测向量yt属于GMM第m个高斯单元的后验概率;表示GMM均值和方差更新后的模型参数。
5.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于,设则噪声方差Σn的对角向量σn的估计公式为
6.如权利要求2所述的基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,其特征在于:纯净语音的倒谱特征向量的估计公式为
其中,第t帧观测向量yt属于测试环境GMM第m个高斯单元的后验概率。
CN201610812111.1A 2016-09-08 2016-09-08 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 Active CN106384588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610812111.1A CN106384588B (zh) 2016-09-08 2016-09-08 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610812111.1A CN106384588B (zh) 2016-09-08 2016-09-08 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法

Publications (2)

Publication Number Publication Date
CN106384588A CN106384588A (zh) 2017-02-08
CN106384588B true CN106384588B (zh) 2019-09-10

Family

ID=57935452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610812111.1A Active CN106384588B (zh) 2016-09-08 2016-09-08 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法

Country Status (1)

Country Link
CN (1) CN106384588B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053835B (zh) * 2017-11-13 2021-07-09 河海大学 一种基于通道泰勒级数的噪声估计方法
CN107993664B (zh) * 2018-01-26 2021-05-28 北京邮电大学 一种基于竞争神经网络的鲁棒说话人识别方法
KR102550598B1 (ko) * 2018-03-21 2023-07-04 현대모비스 주식회사 음성 화자 인식 장치 및 그 방법
CN109192216A (zh) * 2018-08-08 2019-01-11 联智科技(天津)有限责任公司 一种声纹识别用训练数据集仿真获取方法及其获取装置
US11657828B2 (en) * 2020-01-31 2023-05-23 Nuance Communications, Inc. Method and system for speech enhancement
CN113921013A (zh) * 2020-07-08 2022-01-11 华为技术有限公司 语音增强方法、设备、系统以及存储介质
CN114242097A (zh) * 2021-12-01 2022-03-25 腾讯科技(深圳)有限公司 音频数据处理方法及装置、介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691091B1 (en) * 2000-04-18 2004-02-10 Matsushita Electric Industrial Co., Ltd. Method for additive and convolutional noise adaptation in automatic speech recognition using transformed matrices
CN102945670A (zh) * 2012-11-26 2013-02-27 河海大学 一种用于语音识别系统的多环境特征补偿方法
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别系统中基于快速噪声估计的特征补偿方法
CN105355199A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于gmm噪声估计的模型组合语音识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691091B1 (en) * 2000-04-18 2004-02-10 Matsushita Electric Industrial Co., Ltd. Method for additive and convolutional noise adaptation in automatic speech recognition using transformed matrices
CN102945670A (zh) * 2012-11-26 2013-02-27 河海大学 一种用于语音识别系统的多环境特征补偿方法
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别系统中基于快速噪声估计的特征补偿方法
CN105355199A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于gmm噪声估计的模型组合语音识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Robust Speech Recogniton Using Improved Vector Taylor Series Algorithm for Embedded Systems;Yong Lu等;《IEEE Transactions on Consumer Electronics》;20100715;第56卷(第2期);第764-769页
基于矢量泰勒级数的模型自适应算法;吕勇等;《电子与信息学报》;20100131;第32卷(第1期);第107-111页
基于矢量泰勒级数的鲁棒语音识别;吕勇等;《天津大学学报》;20110331;第44卷(第3期);第261-265页
矢量泰勒级数特征补偿的说话人识别;吴海洋等;《声学学报》;20130131;第38卷(第1期);第105-112页

Also Published As

Publication number Publication date
CN106384588A (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN106384588B (zh) 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法
CN103000174B (zh) 语音识别系统中基于快速噪声估计的特征补偿方法
CN104392718B (zh) 一种基于声学模型阵列的鲁棒语音识别方法
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
Du et al. A speech enhancement approach using piecewise linear approximation of an explicit model of environmental distortions.
CN106356058B (zh) 一种基于多频带特征补偿的鲁棒语音识别方法
Salvati et al. Adaptive time delay estimation using filter length constraints for source localization in reverberant acoustic environments
CN105355198B (zh) 一种基于多重自适应的模型补偿语音识别方法
CN110109058A (zh) 一种平面阵列反卷积声源识别方法
CN109767760A (zh) 基于振幅和相位信息的多目标学习的远场语音识别方法
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
Wisdom et al. Enhancement and recognition of reverberant and noisy speech by extending its coherence
Chen et al. A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation
Zheng et al. Noise-robust blind reverberation time estimation using noise-aware time–frequency masking
Peer et al. Reverberation matching for speaker recognition
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
Gomez et al. Robustness to speaker position in distant-talking automatic speech recognition
Eaton et al. Direct-to-reverberant ratio estimation on the ACE corpus using a two-channel beamformer
Schmid et al. Dereverberation preprocessing and training data adjustments for robust speech recognition in reverberant environments
Mohammed et al. Acoustic model adaptation using piece-wise energy decay curve for reverberant environments
CN105390134B (zh) 一种基于子带vts的模型自适应方法
Wang et al. Boosting DNN-based speech enhancement via explicit transformations
JP6000094B2 (ja) 話者適応化装置、話者適応化方法、プログラム
JP4714892B2 (ja) 耐高残響ブラインド信号分離装置及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230418

Address after: 210000 room 325, 3 / F, science and innovation center, No.1 Xiankun Road, Jianye District, Nanjing City, Jiangsu Province

Patentee after: Nanjing Saturn Information Technology Co.,Ltd.

Address before: 211100 No. 8 West Buddha Road, Jiangning District, Jiangsu, Nanjing

Patentee before: HOHAI University