CN112599121B - 基于辅助数据正则化的说话人自适应方法 - Google Patents
基于辅助数据正则化的说话人自适应方法 Download PDFInfo
- Publication number
- CN112599121B CN112599121B CN202011411575.4A CN202011411575A CN112599121B CN 112599121 B CN112599121 B CN 112599121B CN 202011411575 A CN202011411575 A CN 202011411575A CN 112599121 B CN112599121 B CN 112599121B
- Authority
- CN
- China
- Prior art keywords
- training
- speaker
- data
- auxiliary data
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 101
- 238000013507 mapping Methods 0.000 claims description 16
- 230000006978 adaptation Effects 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明属于语音识别领域的说话人自适应技术,为解决数据的稀疏性问题带来的过拟合,提高目标说话人的识别准确率。本发明,基于辅助数据正则化的说话人自适应方法,步骤如下:步骤一,说话人无关的语音识别系统的训练;步骤二,辅助数据集的获取;步骤三,准备说话人的数据;步骤四,使用目标说话人的语音数据和选取的辅助数据集,并通过GMM‑HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练,其中α用来控制辅助数据集的权重,步骤五,经过充分训练得到目标说话人的声学模型,使用目标说话人的声学模型,构建语音识别系统。本发明主要应用于语音识别场合。
Description
技术领域
本发明属于语音识别领域的说话人自适应技术,一种使用少量的目标说话人的数据将语音识别的声学模型转为目标说话人的声学模型的自适应方法。
背景技术
通过大量数据训练得到的语音识别的模型往往在实际使用过程中会比预期的效果要差,究其原因是训练数据和测试数据不匹配,或者说模型没有学习到测试数据某些特征,从而导致效果变差。由于训练数据和测试数据之间的不匹配,说话人无关(SpeakerIndependent)的大词汇量连续语音识别系统与训练较为充分的说话人相关(SpeakerDependent)的系统相比还是有较大的差距。
说话人自适应是语音识别中的关键技术,通过说话人自适应技术在说话人无关语音识别模型和说话人相关的语音识别的模型中相互转换,通常情况下,说话人自适应技术利用少量的自适应数据通过变换语音特征或者修正声学模型来提供特定说话人识别准确率。同时说话人自适应技术分为两类,一种通过自适应数据修正语音识别的模型使的系统匹配当前的说话人,另一种则是通过修改特定说话人的语音特征使得修改后的特征可以匹配当前的语音识别模型。
在传统的基于高斯混合-隐马尔可夫模型(Gaussian Mixture Model-HiddenMarkov Model,GMM-HMM)的语音识别中,说话人自适应技术使得针对特定说话人的识别错误率降低5%到30%。说话人自适应的技术主要有:(1)说话人归一化,为了减小不同说话人之间的差异,语音的特征映射到一个归一化的特征空间。(2)最大后验概率(Maximum APosterior,MAP),MAP利用贝叶斯理论,假设GMM-HMM的参数服从某个先验分布,由于这个先验分布的存在,在自适应的过程中防止过拟合。(3)基于变换的方法。通过估计说话人无关的特征和说话人相关的特征之前的映射关系,通过这个估计的映射关系在说话人无关的特征和说话人相关的特征之间变换,来减少训练数据和测试数据之间的匹配,经典的方法主要有最大似然线性回归(Maximum Likelihood Linear Regression,MLLR),以及由MLLR发展而来的受限最大似然回归(Constrained MLLR,CMLLR)。
随着深度的学习的快速发展,神经网络可以很好对复杂的高度非线性关系进行建模,神经网络在语音识别领域取得很大成功,语音识别系统的识别率再次得到提高,深度神经网络-隐马尔可夫模型(Deep Neural Network-Hidden Markov Model,DNN-HMM)成为声学模型的主流方法。基于DNN的说话人的自适应技术也再次成为研究的热点。对于基于神经网络的声学模型的说话人自适应技术主要有:(1)线性变换,即通过在神经网络中添加一层用于自适应训练,而固定其他参数。(2)正则化,正则化方法主要包括Kullback-LeiblerRegularization(KL正则化)和L2正则化。(3)说话人感知训练,通过引入说话人的信息,比如说话人标识向量I-vector,使声学模型可以学习到说话人的信息。(4)对抗训练,使用对抗生成网络对特征提取器进行调整,使得特征提取器的提取到的特征分布不会偏离说话人无关的特征提取器提取的特征分布太远。
发明内容
为克服现有技术的不足,本发明旨在解决数据的稀疏性问题带来的过拟合,提高目标说话人的识别准确率。为此,本发明采取的技术方案是,基于辅助数据正则化的说话人自适应方法,步骤如下:
步骤一,说话人无关的语音识别系统的训练:使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型,所述语音识别模型的结构为DNN-HMM模型,其中DNN的网络结构为时延神经网络TDNN,同时使用Lattice free MMI的训练准则进行训练,Lattice free MMI指得是基于无词格的最大互信息熵;
步骤二,辅助数据集的获取,从训练数据中选择,辅助数据集中应该覆盖所有的训练数据的音素,同时使得辅助数据集中包含的说话人数据量尽量多,避免某个说话人的数据过多对训练过程造成影响;
步骤三,准备说话人的数据;
步骤四,使用目标说话人的语音数据和选取的辅助数据集,并通过GMM-HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练,其中α用来控制辅助数据集的权重,在训练过程中所起到的作用:
步骤五,经过充分训练得到目标说话人的声学模型,使用目标说话人的声学模型,构建语音识别系统。
说话人无关的声学模型的训练包括语音特征梅尔频率倒谱系数MFCC(MelFrequency Cepstral Coefficient)特征的提取、单音素训练,单音素训练完成之后进行三音素训练,以及自适应训练,此时利用已有的三音素模型对训练数据进行强制对齐,构建Lattice free MMI训练准则需要的决策树和Lattice,声学模型使用的时延神经网络,训练的损失函数为
其中k表示声学缩放系统,θ表示模型参数,sm表示状态序列,物理意义为:分子表示正确的路径的得分总和,分母表示所有路径对应的得分总和,同时为了避免拟合,加入了交叉熵和L2正则化,即最终训练的损失函数为
步骤二具体步骤如下:首先拥有训练数据的文本,同时也拥有一个字典,字典中保存了词或者字到音素的映射关系,通过字典得到将训练数据的文本映射成对应的音素序列,即训练数据语句ID到音素序列的映射,通过训练数据语句ID到音素序列的映射,得到每个音素到语句ID的映射,即那个语句中包含了这个音素,在每个音素对应的语句ID中随机选择一个,这样得到的语句ID的集合此时已经覆盖了所有的音素,根据语句ID的集合再到训练数据中选择对应的数据,得到最终的辅助数据集。
步骤四具体步骤如下:首先载入SI声学模型和目标说话人的数据以及辅助数据集,通过HMM-GMM生成自适应训练需要的Lattice,用于Lattice free MMI准则下的自适应训练,直到模型收敛得到最后的说话人相关的模型。
步骤四详细步骤:得到话人无关的声学模型SI之后,准备辅助数据集和目标说话人的自适应数据,同时使用以下的损失函数进行自适应训练:
其中J(x,y:θ)时目标说话人的损失,是辅助数据集的损失,α用来控制辅助数据集的权重,N为自适应的数据量,M为辅助数据集数据量,通过训练模型收敛得到的该说话人的相关的声学模型,用于后续的该说话人的语音的识别。
本发明的特点及有益效果是:
为了解决数据的稀疏性问题带来的过拟合问题,本发明采用基于辅助数据的数据正则化技术,结合多任务学习的机制来提高目标说话人的识别准确率。
附图说明:
图1为声学模型的神经网络结构示意图;
图2为辅助数据集选择的伪代码描述;
图3为说话人自适应的示意图;
图4为说话人相关的声学模型的训练示意图。
具体实施方式
说话人自适应技术面临的一个主要问题是,目标说话人的数据有限同时由于数据量少而导致的数据稀疏性。尽管已经提出了许多基于神经网络的声学模型的自适应技术,但是目前已有的说话人自适应技术并没有从根本上数据的稀疏性问题。
为了解决数据的稀疏性问题带来的过拟合问题,本发明采用基于辅助数据的数据正则化技术,结合多任务学习的机制来提高目标说话人的识别准确率。
为了解决由于目标说话人少量数据的稀疏性问题,本发明使用辅助数据集对训练过程进行正则化,使用多任务学习的损失函数来进行训练,使得声学模型不会由于数据量过少而导致过拟合问题,从而提高目标说话人声学模型的性能。
本发明主要包含以下几个步骤:
步骤一,说话人无关的语音识别系统的训练。使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型。声学的模型的结构为DNN-HMM模型,其中DNN的网络结构为时延神经网络(TDNN)。针对不同的数据集使用不同结构的TDNN网络,同时使用基于Lattice free MMI的训练准则进行训练。
步骤二,辅助数据集的获取,本发明使用的辅助数据集按照既定的规则从训练数据中选择,辅助数据集中应该覆盖所有的训练数据的音素,同时使得辅助数据集中包含的说话人数量尽量多,避免某个说话人的数据过多对训练过程造成影响。
步骤三,准备说话人的数据。
步骤四,使用目标说话人的语音数据和选取的辅助数据集,并通过GMM-HMM系统生成自适应训练需要的Lattice,使用如下的损失函数进行训练,其中α用来控制辅助数据集的权重,在训练过程中所起到的作用。
步骤五,经过充分训练得到目标说话人的声学模型。使用目标说话人的声学模型,构建语音识别系统。
以下结合附图和具体实施例对本发明做进一步的阐述:
本发明的基本思想是通过结合辅助数据集和说话人的数据,由于辅助数据集覆盖了所有的音素,所以在一定程序上弥补了音素的稀疏性,同时添加的辅助数据也可以起到正则化的作用通过控制辅助数据集在训练过程中的权重来进行训练,提高语音识别的准确率。
步骤一,说话人无关的声学模型的训练主要包括语音特征MFCC特征的提取,MFCC的维度为13维,加上其一阶差分和二阶差分,最终的特征为39维。然后是单音素训练,单音素训练完成之后进行三音素训练,以及自适应训练。此时利用已有的三音素模型对训练数据进行强制对齐。构建Lattice free MMI训练准则需要的决策树和Lattice.声学模型使用的时延神经网络,其主要结构如图1所示,此时训练的损失函数为
其中k表示声学缩放系统,θ表示模型参数,sm表示状态序列。物理意义可以理解为:分子表示正确的路径的总得分(声学模型和语言模型),分母表示所有路径对应的得分总和
同时为了避免拟合,加入了交叉熵和L2正则化。
即最终训练的损失函数为
步骤二,图2阐述了辅助数据集的选择的方法,首先我们拥有训练数据的文本,同时我们也拥有一个字典,字典中保存了词或者字到音素的映射关系,通过字典我们可以得到将训练数据的文本映射成对应的音素序列,即训练数据语句ID到音素序列的映射,通过训练数据语句ID到音素序列的映射,我们可以得到每个音素到语句ID的映射,即那个语句中包含了这个音素,在每个音素对应的语句ID中随机选择一个,这样得到的语句ID的集合此时已经覆盖了所有的音素,根据语句ID的集合再到训练数据中选择对应的数据,得到最终的辅助数据集。
步骤三,准备好目标说话人的数据以及辅助数据集的数据,包括特征的提取并通过GMM-HMM系统生成自适应需要的Lattice,用于Lattice-free MMI的训练。
步骤四,图3阐述了本发明提出的说话人自适应方法的整个流程,从说话人无关的声学模型的训练,到说话人自适应训练得到说话人相关的模型。图3中的训练数据是很多个说话人共同组成的数据集,SI声学模型指的是Speaker Independent声学模型,即说话人无关模型,辅助数据集是从训练数据的中通过根据图2的描述的方法得到的一个子集,这个辅助数据集应该包含所有的音素,同时这个辅助数据集中的句子应该尽可能的包含多个说话人,避免在做特定说话人自适应时产生偏差,SD模型指的是Speaker Dependent声学模型,即说话人相关模型。通过训练数据训练基于神经网络的声学模型,这里的声学模型的基本架构是时延神经网络,训练准则是区分性训练准则中的最大互信息,通过训练收敛得到说话人无关的声学模型(SI声学模型)。得到SI声学模型之后,准备辅助数据集和目标说话人的自适应数据,同时使用以下的损失函数进行自适应训练。
其中J(x,y:θ)时目标说话人的损失,是辅助数据集的损失,α用来控制辅助数据集的权重。N为自适应的数据量,M为辅助数据集数据量,通过训练模型收敛得到的该说话人的相关的声学模型,用于后续的该说话人的语音的识别。
图4阐述了说话人自适应训练的过程的具体的流程图,首先载入SI声学模型和目标说话人的数据以及辅助数据集,通过HMM-GMM生成自适应训练需要的Lattice,用于Lattice free MMI准则下的自适应训练,直到模型收敛得到最后的说话人相关的模型。
步骤五,使用最终得到的目标说话人的声学模型,并和语言模型构建语音识别系统进行识别。
Claims (1)
1.一种基于辅助数据正则化的说话人自适应方法,其特征是,步骤如下:
步骤一,说话人无关的语音识别系统的训练:使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型,所述语音识别模型的结构为DNN-HMM模型,其中DNN的网络结构为时延神经网络TDNN,同时使用Lattice free MMI的训练准则进行训练,
Lattice free MMI指得是基于无词格的最大互信息熵;
步骤二,辅助数据集的获取,从训练数据中选择,辅助数据集中覆盖所有的训练数据的音素,同时使得辅助数据集中包含的说话人数据量尽量多,避免某个说话人的数据过多对训练过程造成影响;
步骤二具体步骤如下:首先拥有训练数据的文本,同时也拥有一个字典,字典中保存了词或者字到音素的映射关系,通过字典得到将训练数据的文本映射成对应的音素序列,即训练数据语句ID到音素序列的映射,通过训练数据语句ID到音素序列的映射,得到每个音素到语句ID的映射,即哪个语句中包含了这个音素,在每个音素对应的语句ID中随机选择一个,这样得到的语句ID的集合此时已经覆盖了所有的音素,根据语句ID的集合再到训练数据中选择对应的数据,得到最终的辅助数据集
步骤三,准备目标说话人的语音数据;
步骤四,使用目标说话人的语音数据和选取的辅助数据集,并通过GMM-HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练,其中α是用来控制辅助数据集的权重,在训练过程中所起到的作用如下式:
具体步骤如下:首先载入说话人无关的声学模型SI和目标说话人的数据以及辅助数据集,通过HMM-GMM生成自适应训练需要的Lattice,用于Lattice free MMI准则下的自适应训练,直到模型收敛得到最后的说话人相关的模型
步骤五,经过充分训练得到目标说话人的声学模型,使用目标说话人的声学模型,构建语音识别系统
得到说话人无关的声学模型SI之后,准备辅助数据集和目标说话人的自适应数据,同时使用以下的损失函数进行自适应训练:
通过训练模型收敛得到的该说话人的相关的声学模型,用于后续的该说话人的语音的识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011411575.4A CN112599121B (zh) | 2020-12-03 | 2020-12-03 | 基于辅助数据正则化的说话人自适应方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011411575.4A CN112599121B (zh) | 2020-12-03 | 2020-12-03 | 基于辅助数据正则化的说话人自适应方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112599121A CN112599121A (zh) | 2021-04-02 |
CN112599121B true CN112599121B (zh) | 2023-06-20 |
Family
ID=75188431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011411575.4A Active CN112599121B (zh) | 2020-12-03 | 2020-12-03 | 基于辅助数据正则化的说话人自适应方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112599121B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895104A (zh) * | 2014-05-04 | 2016-08-24 | 讯飞智元信息科技有限公司 | 说话人自适应识别方法及系统 |
CN108986791A (zh) * | 2018-08-10 | 2018-12-11 | 南京航空航天大学 | 针对民航陆空通话领域的中英文语种语音识别方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
KR100612840B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 |
US9858919B2 (en) * | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
CN110085215B (zh) * | 2018-01-23 | 2021-06-08 | 中国科学院声学研究所 | 一种基于生成对抗网络的语言模型数据增强方法 |
US11170761B2 (en) * | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
CN109637526A (zh) * | 2019-01-08 | 2019-04-16 | 西安电子科技大学 | 基于个人身份特征的dnn声学模型的自适应方法 |
CN111145733B (zh) * | 2020-01-03 | 2023-02-28 | 深圳追一科技有限公司 | 语音识别方法、装置、计算机设备和计算机可读存储介质 |
-
2020
- 2020-12-03 CN CN202011411575.4A patent/CN112599121B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895104A (zh) * | 2014-05-04 | 2016-08-24 | 讯飞智元信息科技有限公司 | 说话人自适应识别方法及系统 |
CN108986791A (zh) * | 2018-08-10 | 2018-12-11 | 南京航空航天大学 | 针对民航陆空通话领域的中英文语种语音识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112599121A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Manohar et al. | Semi-supervised training of acoustic models using lattice-free MMI | |
Liao et al. | Large vocabulary automatic speech recognition for children | |
Miao et al. | Towards speaker adaptive training of deep neural network acoustic models. | |
Abdel-Hamid et al. | Fast speaker adaptation of hybrid NN/HMM model for speech recognition based on discriminative learning of speaker code | |
Zhang et al. | DNN speaker adaptation using parameterised sigmoid and ReLU hidden activation functions | |
JP6506074B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム | |
Karafiát et al. | iVector-based discriminative adaptation for automatic speech recognition | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
CN106548775A (zh) | 一种语音识别方法和系统 | |
Yamagishi et al. | HSMM-based model adaptation algorithms for average-voice-based speech synthesis | |
Lo et al. | The NTNU system at the interspeech 2020 non-native Children's speech ASR challenge | |
KR20080026951A (ko) | 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법 | |
Glembek et al. | Advances in phonotactic language recognition. | |
Bocchieri et al. | Speech recognition modeling advances for mobile voice search | |
CN112599121B (zh) | 基于辅助数据正则化的说话人自适应方法 | |
CN111933121B (zh) | 一种声学模型训练方法及装置 | |
Zhao et al. | Building an ensemble of CD-DNN-HMM acoustic model using random forests of phonetic decision trees | |
CN110858484A (zh) | 一种基于声纹识别技术的语音识别方法 | |
He et al. | Fast model selection based speaker adaptation for nonnative speech | |
Yu et al. | Unsupervised adaptation with discriminative mapping transforms | |
Wu et al. | Cohorts based custom models for rapid speaker and dialect adaptation | |
Yang et al. | Automatic grammar augmentation for robust voice command recognition | |
Xu et al. | Donggan speech recognition based on deep neural network | |
Chang et al. | A back-off discriminative acoustic model for automatic speech recognition | |
Tang et al. | Deep neural network trained with speaker representation for speaker normalization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |