CN109065029A - 一种小规模语料dnn-hmm声学模型 - Google Patents
一种小规模语料dnn-hmm声学模型 Download PDFInfo
- Publication number
- CN109065029A CN109065029A CN201811176927.5A CN201811176927A CN109065029A CN 109065029 A CN109065029 A CN 109065029A CN 201811176927 A CN201811176927 A CN 201811176927A CN 109065029 A CN109065029 A CN 109065029A
- Authority
- CN
- China
- Prior art keywords
- model
- dnn
- hmm
- corpus
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 86
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000013508 migration Methods 0.000 claims description 55
- 230000005012 migration Effects 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 41
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 239000004576 sand Substances 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 10
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 230000001149 cognitive effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 239000000463 material Substances 0.000 claims 1
- 238000013526 transfer learning Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013095 identification testing Methods 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种小规模语料DNN‑HMM声学模型,在DNN‑HMM声学模型的小规模语料语音识别主要先对输入的小规模语料语音进行特征提取,利用将提取后的特征对DNN‑HMM声学模型进行训练,并得到DNN‑HMM声学模型;再利用小规模语料语音对应的文本信息对语言模型训练,得到小规模语料语言模型;利用声学模型、语言模型以及字典构建得到解码器,从而得到整个小规模语料语音识别框架。
Description
技术领域
本发明涉及声学技术领域,更具体的说,尤其涉及一种小规模语料DNN-HMM声学模型。
背景技术
由于深度神经网络在建模中,具有根据数据特点自动提取数据特征、记忆数据特征的特点,同时,对数据的分布不做任何假设,因此被广泛的应用到机器学习中。
所以,在语音识别的声学建模中引入了深度神经网络。
但是,深度神经网络建模时,需要大量的语料数据才能让神经网络得到饱和训练,使得建模的效果才能更好,才能达到实际应用的需要。
小规模语料下训练DNN-HMM声学模型过程中,由于标注数据规模小且数据分布不均衡出现大量初始参数没有更新,模型不能很好描述语料中的语音特征,导致识别率下降的问题。
有鉴于此,针对现有的问题予以研究改良,提供一种利用源语料和目标语料分别训练声学模型,然后将源语料模型隐含层参数迁移到目标语料模型形成初始模型,旨在通过该技术,达到解决问题与提高实用价值性的目的。
发明内容
本发明的目的在于提供一种小规模语料DNN-HMM声学模型,以解决背景技术中提出的小规模语料下训练DNN-HMM声学模型过程中,由于标注数据规模小且数据分布不均衡出现大量初始参数没有更新,模型不能很好描述语料中的语音特征,导致识别率下降的问题。
为实现上述目的,本发明提供了一种小规模语料DNN-HMM声学模型,由以下具体技术手段所达成:
一种小规模语料DNN-HMM声学模型,在DNN-HMM声学模型的小规模语料语音识别主要先对输入的小规模语料语音进行特征提取,利用将提取后的特征对DNN-HMM声学模型进行训练,并得到DNN-HMM声学模型;再利用小规模语料语音对应的文本信息对语言模型训练,得到小规模语料语言模型;利用声学模型、语言模型以及字典构建得到解码器,从而得到整个小规模语料语音识别框架;
整个小规模语料语音识别的步骤包括有训练和识别两个阶段:
训练阶段包括有语音数据库与特征提取、DNN-HMM声学模型、文本数据库、语言模型、字典、语音解码和搜索算法;
识别阶段包括有语音输入、特征提取、语音解码和搜索算法和文本输出;
在小规模语料库下的DNN-HMM声学建模中,首先对小规模语料下 DNN-HMM声学模型参数进行迁移训练,并采用两种模型参数迁移方式: (1)同构模型参数迁移;(2)异构模型参数迁移;将同构模型和异构模型给出定义及其参数迁移方法,同时将DNN-HMM模型训练方法与异构模型参数迁移方法进行结合,得出DNN-HMM异构模型的参数迁移训练算法;
(1)同构模型参数迁移:
定义一:模型结构,将深度神经网络的模型结构为M,M=(N, P,F,l),其中N是网络节点N={N_1,N_2,…,N_i,…,N_l},N_i 指神经网络中第i层的节点数;P=(W,B),P={P_1^2,P_2^3,…, P_i^(i+1),…,P_(l-1)^l},P_i^(i+1)指神经网络第i层到第i+1 层的参数矩阵;W={W_1^2,W_2^3,…,W_i^(i+1),…, W_(l-1)^l},W_i^(i+1)指神经网络第i层到第i+1层的权值矩阵; B指偏置向量B={B_1,B_2,…,B_i,…,B_(l-1)},B_i指中神经网络第i层的偏置向量;F={g(·),o(·)},其中g(·)表示神经网络隐含层的激活函数,o(·)表示神经网络输出层的函数;l指网络深度;
定义二:数据源,DS={XS,YS}和DT={XT,YT},S表示源数据,T 表示目标数据,X表示输入训练数据,Y表示标签数据;
定义三:同构模型,指源模型MS与目标模型MT的N、l和F相同,表示MS=MT;
定义四:同构模型参数迁移,指在使用源数据DS构建的源模型MS中WS和BS替换目标数据DT构建的目标模型MT中的WT和BT,得到迁移模型tr-M;
当MS=MT时,表明MS模型中WS和BS与MT模型中WT和BT属于同型矩阵,在进行模型参数迁移时可以直接将MS模型中参数矩阵迁移到MT模型参数对应的位置上;
其同构模型参数迁移算法:
输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr-M,//tr-M 表示迁移后模型;
1:initalize(MS);//初始化;
2:MS←train(XS,YS,MS);
3:MT←MS;
4:tr-M←train(XT,YT,MT);
(2)异构模型参数迁移:
定义五:异构模型,指源模型MS与目标模型MT的l相同,F相同, N1到Nl-1相同,Nl不相同,表示MS<>MT;
定义六:异构模型参数迁移。指在使用源数据DS构建的源模型MS中部分WS和BS对目标数据DT构建的目标模型MT中的WT和BT进行替换,得到迁移模型tr-M;
异构模型下参数迁移:
输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr-M,//tr-M 表示迁移后模型;
1:initalize(MS);
2:MS←train(XS,YS,MS);
3:MT←initalize(MT);
4:
5:tr-M←train(XT,YT,MT);
在异构模型下,由于Nl-1不相同,不能直接将源领域数据训练得到的模型参数直接以对应关系迁移目标领域数据训练出来的模型中,增加参数迁移的难度;
DNN-HMM的声学模型训练过程步骤:
步骤一:GMM-HMM的模型训练,得到HMM的初始参数,同时得到对齐的训练语料;
步骤二:根据(1)中对齐语料,按照编号和对齐语料构建DNN 语料;
步骤三:使用(2)的语料进行DNN预训练;
步骤四:利用初始的HMM和预训练的DNN构建DNN-HMM初始模型;
步骤五:利用(2)的语料对DNN-HMM进行再一次训练,直到模型的性能优于GMM-HMM模型。
优选的,异构模型参数迁移流程如图3所示,且在DNN-HMM声学模型参数迁移过程图中异构神经网络模型中,MS模型中与MT模型中不相同,即Ms模型中与MT模型中属于同型矩阵,即所以,在进行模型参数迁移时,不能将参数矩阵直接进行迁移。
优选的,所述DNN-HMM的声学模型训练过程步骤:
步骤一:GMM-HMM的模型训练,得到HMM的初始参数,同时得到对齐的训练语料;
步骤二:根据步骤一中对齐语料,按照编号和对齐语料构建DNN 语料;
步骤三:使用步骤二的语料进行DNN预训练;
步骤四:利用初始的HMM和预训练的DNN构建DNN-HMM初始模型;
步骤五:利用步骤二的语料对DNN-HMM进行再一次训练,直到模型的性能优于GMM-HMM模型。
所述首先利用源数据对DNN-HMM模型训练,得到源模型(命名为 SDNN);然后,使用目标数据对DNN-HMM模型训练,得到目标模型(命名为TDNN);其中,源数据与目标数据选用不同规模、不同语言数据;最后,将SDNN模型参数迁移到TDNN模型中,经过再一次对迁移后模型的训练得到tr-DNN模型;其DNN-HMM声学模型参数迁移过程如图4 所示,在DNN-HMM声学模型参数迁移过程图中,SDNN模型由源数据训练出来,TDNN模型是由目标数据训练出来。图中m∈N1,n∈Nl-1,k∈Nl, u∈Nl,其中SDNN.m=TDNN.m,SDNN.n=TDNN.n,SDNN.k≠TDNN.u,导致且SDNN.B=TDNN.B,而 可以推出SDNN模型与TDNN模型属于异构模型,即:SDNN<>TDNN;
且DNN-HMM异构模型下参数迁移算法:
输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr-DNN, //tr-DNN表示迁移后DNN模型;
1:initalize(SDNN);
2:SDNN←train(XS,YS,SDNN);
3:TDNN←initalize(TDNN);
4:
5:TDNN.B←SDNN.B;
6:tr-DNN←train(XT,YT,TDNN);。
优选的,所述语音识别声学模型训练采用TIMIT数据对SDNN模型进行训练,而TDNN模型训练使用的数据是藏语语料;所述建模数据主要包含有藏语语音数据、藏语语音对应的文本以及藏语对应的标注文本,其音频的格式为wav、单声道、16KHz、比特率为16bit;藏语文本语料存储时采用UTF-8编码,存储成txt文件格式。
优选的,所述在计算机测试程序中,主要使用得到的程序为声学特征提取部分的程序以及解码部分的程序,且藏语语音识别测试过程:语音输入-特征提取-语音解码和搜索算法-文本输出。
优选的,所述在计算机进行藏语语音识别的测试时,需先进行特征音频提取的格式进行藏语语音的输入,然后对输入的藏语语音进行特征提取,将提取出来的特征输入到解码器中,解码器就会产生输入的藏语音频对应的藏语文字。
优选的,所述小规模语料基于藏语语料,并将目标语料采用小规模藏语语料库作为目标语料,且实验基于kaldi平台。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明参数迁移学习在小规模数据下的参数迁移训练算法,是将该算法应用到DNN-HMM藏语声学模型中进行验证,通过对比不同规模源语料库的大小对参数迁移学习的影响以及神经网络中隐含层层数对迁移学习性能影响这几组实验,实验结果表明:
(1)不同规模的源数据影响着模型对目标数据的建模能力,在对源模型训练时,源数据规模的并不是越大,参数迁移的效果就会越好,而是源数据规模大小受目标数据规模的影响,只有当源数据规模与目标数据规模达到一个合适的比例,参数迁移才能达到一个好的效果。
(2)在模型训练中加入参数迁移的方法,使得迁移后的模型对目标数据拥有更强的建模能力。
(3)隐含层层数影响着迁移学习在藏语语音识别中的效果,随着隐含层层数的增加,参数迁移后模型的学习能力先是提升然后下降,说明了在相同数据量下参数迁移学习能力是有限的。
通过以上这3点,说明了参数迁移方法的有效性,从而有效的解决了本发明在背景技术一项中提出的问题。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的DNN-HMM声学模型的语音识别的步骤与顺序结构示意图。
图2为本发明的语音识别测试结构示意图。
图3为本发明的异构模型参数迁移过程结构示意图。
图4为本发明的DNN-HMM声学模型参数迁移过程结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参见图1至图4,本发明提供一种小规模语料DNN-HMM声学模型的具体技术实施方案:
一种小规模语料DNN-HMM声学模型,其特征在于:在DNN-HMM声学模型的小规模语料语音识别主要先对输入的小规模语料语音进行特征提取,利用将提取后的特征对DNN-HMM声学模型进行训练,并得到DNN-HMM声学模型;再利用小规模语料语音对应的文本信息对语言模型训练,得到小规模语料语言模型;利用声学模型、语言模型以及字典构建得到解码器,从而得到整个小规模语料语音识别框架;
整个小规模语料语音识别的步骤包括有训练和识别两个阶段:
训练阶段包括有语音数据库与特征提取、DNN-HMM声学模型、文本数据库、语言模型、字典、语音解码和搜索算法;
识别阶段包括有语音输入、特征提取、语音解码和搜索算法和文本输出;
在小规模语料库下的DNN-HMM声学建模中,首先对小规模语料下 DNN-HMM声学模型参数进行迁移训练,并采用两种模型参数迁移方式: (1)同构模型参数迁移;(2)异构模型参数迁移;将同构模型和异构模型给出定义及其参数迁移方法,同时将DNN-HMM模型训练方法与异构模型参数迁移方法进行结合,得出DNN-HMM异构模型的参数迁移训练算法;
(1)同构模型参数迁移:
定义一:模型结构,将深度神经网络的模型结构为M,M=(N, P,F,l),其中N是网络节点N={N_1,N_2,…,N_i,…,N_l},N_i 指神经网络中第i层的节点数;P=(W,B),P={P_1^2,P_2^3,…, P_i^(i+1),…,P_(l-1)^l},P_i^(i+1)指神经网络第i层到第i+1 层的参数矩阵;W={W_1^2,W_2^3,…,W_i^(i+1),…, W_(l-1)^l},W_i^(i+1)指神经网络第i层到第i+1层的权值矩阵; B指偏置向量B={B_1,B_2,…,B_i,…,B_(l-1)},B_i指中神经网络第i层的偏置向量;F={g(·),o(·)},其中g(·)表示神经网络隐含层的激活函数,o(·)表示神经网络输出层的函数;l指网络深度;
定义二:数据源,DS={XS,YS}和DT={XT,YT},S表示源数据,T 表示目标数据,X表示输入训练数据,Y表示标签数据;
定义三:同构模型,指源模型MS与目标模型MT的N、l和F相同,表示MS=MT;
定义四:同构模型参数迁移,指在使用源数据DS构建的源模型MS中WS和BS替换目标数据DT构建的目标模型MT中的WT和BT,得到迁移模型tr-M;
当MS=MT时,表明MS模型中WS和BS与MT模型中WT和BT属于同型矩阵,在进行模型参数迁移时可以直接将MS模型中参数矩阵迁移到MT模型参数对应的位置上;
其同构模型参数迁移算法:
输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr-M,//tr-M 表示迁移后模型;
1:initalize(MS);//初始化;
2:MS←train(XS,YS,MS);
3:MT←MS;
4:tr-M←train(XT,YT,MT);
(2)异构模型参数迁移:
定义五:异构模型,指源模型MS与目标模型MT的l相同,F相同, N1到Nl-1相同,Nl不相同,表示MS<>MT;
定义六:异构模型参数迁移。指在使用源数据DS构建的源模型MS中部分WS和BS对目标数据DT构建的目标模型MT中的WT和BT进行替换,得到迁移模型tr-M;
异构模型下参数迁移
输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr-M,//tr-M 表示迁移后模型;
1:initalize(MS);
2:MS←train(XS,YS,MS);
3:MT←initalize(MT);
4:
5:tr-M←train(XT,YT,MT);
在异构模型下,由于Nl-1不相同,不能直接将源领域数据训练得到的模型参数直接以对应关系迁移目标领域数据训练出来的模型中,增加参数迁移的难度;
DNN-HMM的声学模型训练过程步骤:
步骤一:GMM-HMM的模型训练,得到HMM的初始参数,同时得到对齐的训练语料;
步骤二:根据(1)中对齐语料,按照编号和对齐语料构建DNN 语料;
步骤三:使用(2)的语料进行DNN预训练;
步骤四:利用初始的HMM和预训练的DNN构建DNN-HMM初始模型;
步骤五:利用(2)的语料对DNN-HMM进行再一次训练,直到模型的性能优于GMM-HMM模型。
具体的,异构模型参数迁移流程如图3所示,且在DNN-HMM声学模型参数迁移过程图中异构神经网络模型中,MS模型中与MT模型中不相同,即MS模型中与MT模型中属于同型矩阵,即所以,在进行模型参数迁移时,不能将参数矩阵直接进行迁移。
具体的,DNN-HMM的声学模型训练过程步骤:
步骤一:GMM-HMM的模型训练,得到HMM的初始参数,同时得到对齐的训练语料;
步骤二:根据步骤一中对齐语料,按照编号和对齐语料构建DNN 语料;
步骤三:使用步骤二的语料进行DNN预训练;
步骤四:利用初始的HMM和预训练的DNN构建DNN-HMM初始模型;
步骤五:利用步骤二的语料对DNN-HMM进行再一次训练,直到模型的性能优于GMM-HMM模型。
首先利用源数据对DNN-HMM模型训练,得到源模型(命名为SDNN);然后,使用目标数据对DNN-HMM模型训练,得到目标模型(命名为TDNN);其中,源数据与目标数据选用不同规模、不同语言数据;最后,将SDNN模型参数迁移到TDNN模型中,经过再一次对迁移后模型的训练得到 tr-DNN模型;其DNN-HMM声学模型参数迁移过程如图4所示,在 DNN-HMM声学模型参数迁移过程图中,SDNN模型由源数据训练出来, TDNN模型是由目标数据训练出来。图中m∈Nl,n∈Nl-1,k∈Nl,u∈Nl,其中SDNN.m=TDNN.m,SDNN.n=TDNN.n,SDNN.k≠TDNN.u,导致且SDNN.B=TDNN.B,而 可以推出SDNN模型与TDNN模型属于异构模型,即:SDNN<>TDNN;
且DNN-HMM异构模型下参数迁移算法:
输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr-DNN, //tr-DNN表示迁移后DNN模型;
1:initalize(SDNN);
2:SDNN←train(XS,YS,SDNN);
3:TDNN←initalize(TDNN);
4:
5:TDNN.B←SDNN.B;
6:tr-DNN←train(XT,YT,TDNN);。
具体的,语音识别声学模型训练采用TIMIT数据对SDNN模型进行训练,而TDNN模型训练使用的数据是藏语语料;建模数据主要包含有藏语语音数据、藏语语音对应的文本以及藏语对应的标注文本,其音频的格式为wav、单声道、16KHz、比特率为16bit;藏语文本语料存储时采用UTF-8编码,存储成txt文件格式。
具体的,在计算机测试程序中,主要使用得到的程序为声学特征提取部分的程序以及解码部分的程序,且藏语语音识别测试过程:语音输入-特征提取-语音解码和搜索算法-文本输出。
具体的,在计算机进行藏语语音识别的测试时,需先进行特征音频提取的格式进行藏语语音的输入,然后对输入的藏语语音进行特征提取,将提取出来的特征输入到解码器中,解码器就会产生输入的藏语音频对应的藏语文字。
具体的,小规模语料基于藏语语料,且实验基于kaldi平台。
具体实施步骤:
(1)DNN-HMM声学模型的藏语语音识别的步骤与顺序如图1。
由图1可知,基于DNN-HMM声学模型的藏语语音识别主要流程为先对输入的藏语语音进行特征提取,利用提取后的特征对DNN-HMM声学模型进行训练,得到DNN-HMM声学模型;利用藏语语音对应的文本信息对语言模型训练,得到藏语语言模型;利用声学模型、语言模型以及字典构建得到解码器,从而得到整个藏语语音识别框架。在整个藏语语音识别的步骤包括有训练和识别两个阶段,其中训练部分主要指的是图1中的上半部分,包括有语音数据库、特征提取、DNN-HMM 声学模型、文本数据库、语言模型、字典以及语音解码和搜索算法;识别阶段包括有语音输入、特征提取、语音解码和搜索算法和文本输出这几部分。
(2)建模数据主要包含有藏语语音数据、藏语语音对应的文本以及藏语对应的标注文本,其音频的格式为wav、单声道、16KHz、比特率为16bit;藏语文本语料存储时采用UTF-8编码,存储成txt 文件格式。
(3)在计算机测试程序中,主要使用得到的程序为声学特征提取部分的程序以及解码部分的程序。
具体的藏语语音识别测试过程如图2所示。
根据图2可知,在使用计算机进行藏语语音识别的测试时,需先按(2)中音频的格式进行藏语语音的输入,然后对输入的藏语语音进行特征提取,将提取出来的特征输入到解码器中,解码器就会产生输入的藏语音频对应的藏语文字。
综上所述:本发明参数迁移学习在小规模数据下的参数迁移训练算法,是将该算法应用到DNN-HMM藏语声学模型中进行验证,通过对比不同规模源语料库的大小对参数迁移学习的影响以及神经网络中隐含层层数对迁移学习性能影响这几组实验,实验结果表明:
(1)不同规模的源数据影响着模型对目标数据的建模能力,在对源模型训练时,源数据规模的并不是越大,参数迁移的效果就会越好,而是源数据规模大小受目标数据规模的影响,只有当源数据规模与目标数据规模达到一个合适的比例,参数迁移才能达到一个好的效果。
(2)在模型训练中加入参数迁移的方法,使得迁移后的模型对目标数据拥有更强的建模能力。
(3)隐含层层数影响着迁移学习在藏语语音识别中的效果,随着隐含层层数的增加,参数迁移后模型的学习能力先是提升然后下降,说明了在相同数据量下参数迁移学习能力是有限的。
通过以上这3点,说明了参数迁移方法的有效性,从而有效的解决了本发明在背景技术一项中提出的问题。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种小规模语料DNN-HMM声学模型,其特征在于:在DNN-HMM声学模型的小规模语料语音识别主要先对输入的小规模语料语音进行特征提取,利用将提取后的特征对DNN-HMM声学模型进行训练,并得到DNN-HMM声学模型;再利用小规模语料语音对应的文本信息对语言模型训练,得到小规模语料语言模型;利用声学模型、语言模型以及字典构建得到解码器,从而得到整个小规模语料语音识别框架;
整个小规模语料语音识别的步骤包括有训练和识别两个阶段:
训练阶段包括有语音数据库与特征提取、DNN-HMM声学模型、文本数据库、语言模型、字典、语音解码和搜索算法;
识别阶段包括有语音输入、特征提取、语音解码和搜索算法和文本输出;
在小规模语料库下的DNN-HMM声学建模中,首先对小规模语料下DNN-HMM声学模型参数进行迁移训练,并采用两种模型参数迁移方式:(1)同构模型参数迁移;(2)异构模型参数迁移;将同构模型和异构模型给出定义及其参数迁移方法,同时将DNN-HMM模型训练方法与异构模型参数迁移方法进行结合,得出DNN-HMM异构模型的参数迁移训练算法;
(1)同构模型参数迁移:
定义一:模型结构,将深度神经网络的模型结构为M,M=(N,P,F,l),其中N是网络节点N={N_1,N_2,…,N_i,…,N_l},N_i 指神经网络中第i层的节点数;P=(W,B),P={P_1^2,P_2^3,…,P_i^(i+1),…,P_(l-1)^l},P_i^(i+1)指神经网络第i层到第i+1层的参数矩阵;W={W_1^2,W_2^3,…,W_i^(i+1),…,W_(l-1)^l},W_i^(i+1)指神经网络第i层到第i+1层的权值矩阵;B指偏置向量B={B_1,B_2,…,B_i,…,B_(l-1)},B_i指中神经网络第i层的偏置向量;F={g(·),o(·)},其中g(·)表示神经网络隐含层的激活函数,o(·)表示神经网络输出层的函数;l指网络深度;
定义二:数据源,DS={XS,YS}和DT={XT,YT},S表示源数据,T表示目标数据,X表示输入训练数据,Y表示标签数据;
定义三:同构模型,指源模型MS与目标模型MT的N、l和F相同,表示MS=MT;
定义四:同构模型参数迁移,指在使用源数据DS构建的源模型Ms中WS和BS替换目标数据DT构建的目标模型MT中的WT和BT,得到迁移模型tr-M;
当MS=MT时,表明MS模型中WS和BS与MT模型中WT和BT属于同型矩阵,在进行模型参数迁移时可以直接将MS模型中参数矩阵迁移到MT模型参数对应的位置上;
其同构模型参数迁移算法:
输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr-M,//tr-M表示迁移后模型;
1:initalize(MS);//初始化;
2:MS←train(XS,YS,MS);
3:MT←MS;
4:tr-M←train(XT,YT,MT);
(2)异构模型参数迁移:
定义五:异构模型,指源模型MS与目标模型MT的l相同,F相同,N1到Nl-1相同,Nl不相同,表示MS<>MT;
定义六:异构模型参数迁移。指在使用源数据DS构建的源模型Ms中部分WS和BS对目标数据DT构建的目标模型MT中的WT和BT进行替换,得到迁移模型tr-M;
异构模型下参数迁移:
输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr-M,//tr-M表示迁移后模型;
1:initalize(MS);
2:MS←train(XS,YS,MS);
3:MT←initalize(MT);
4:
5:tr-M←train(XT,YT,MT);
在异构模型下,由于N1-1不相同,不能直接将源领域数据训练得到的模型参数直接以对应关系迁移目标领域数据训练出来的模型中,增加参数迁移的难度;
DNN-HMM的声学模型训练过程步骤:
步骤一:GMM-HMM的模型训练,得到HMM的初始参数,同时得到对齐的训练语料;
步骤二:根据(1)中对齐语料,按照编号和对齐语料构建DNN语料;
步骤三:使用(2)的语料进行DNN预训练;
步骤四:利用初始的HMM和预训练的DNN构建DNN-HMM初始模型;
步骤五:利用(2)的语料对DNN-HMM进行再一次训练,直到模型的性能优于GMM-HMM模型。
2.根据权利要求1所述的一种小规模语料DNN-HMM声学模型,其特征在于:异构模型参数迁移流程如图3所示,且在DNN-HMM声学模型参数迁移过程图中异构神经网络模型中,MS模型中与MT模型中不相同,即MS模型中与MT模型中属于同型矩阵,即所以,在进行模型参数迁移时,不能将参数矩阵直接进行迁移。
3.根据权利要求1所述的一种小规模语料DNN-HMM声学模型,其特征在于:所述DNN-HMM的声学模型训练过程步骤:
步骤一:GMM-HMM的模型训练,得到HMM的初始参数,同时得到对齐的训练语料;
步骤二:根据步骤一中对齐语料,按照编号和对齐语料构建DNN语料;
步骤三:使用步骤二的语料进行DNN预训练;
步骤四:利用初始的HMM和预训练的DNN构建DNN-HMM初始模型;
步骤五:利用步骤二的语料对DNN-HMM进行再一次训练,直到模型的性能优于GMM-HMM模型;
所述首先利用源数据对DNN-HMM模型训练,得到源模型(命名为SDNN);然后,使用目标数据对DNN-HMM模型训练,得到目标模型(命名为TDNN);其中,源数据与目标数据选用不同规模、不同语言数据;最后,将SDNN模型参数迁移到TDNN模型中,经过再一次对迁移后模型的训练得到tr-DNN模型;其DNN-HMM声学模型参数迁移过程如4所示,在DNN-HMM声学模型参数迁移过程图中,SDNN模型由源数据训练出来,TDNN模型是由目标数据训练出来。图中m∈N1,n∈Nl-1,k∈Nl,u∈Nl,其中SDNN.m=TDNN.m,SDNN.n=TDNN.n,SDNN.k≠TDNN.u,导致且SDNN.B=TDNN.B,而 可以推出SDNN模型与TDNN模型属于异构模型,即:SDNN<>TDNN;
且DNN-HMM异构模型下参数迁移算法:
输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr-DNN,//tr-DNN表示迁移后DNN模型;
1:initalize(SDNN);
2:SDNN←train(XS,YS,SDNN);
3:TDNN←initalize(TDNN);
4:
5:TDNN.B←SDNN.B;
6:tr-DNN←train(XT,YT,TDNN);。
4.根据权利要求1所述的一种小规模语料DNN-HMM声学模型,其特征在于:所述语音识别声学模型训练采用TIMIT数据对SDNN模型进行训练,而TDNN模型训练使用的数据是藏语语料;所述建模数据主要包含有藏语语音数据、藏语语音对应的文本以及藏语对应的标注文本,其音频的格式为wav、单声道、16KHz、比特率为16bit;藏语文本语料存储时采用UTF-8编码,存储成txt文件格式。
5.根据权利要求1所述的一种小规模语料DNN-HMM声学模型,其特征在于:所述在计算机测试程序中,主要使用得到的程序为声学特征提取部分的程序以及解码部分的程序,且藏语语音识别测试过程:语音输入-特征提取-语音解码和搜索算法-文本输出。
6.根据权利要求1所述的一种小规模语料DNN-HMM声学模型,其特征在于:所述在计算机进行藏语语音识别的测试时,需先进行特征音频提取的格式进行藏语语音的输入,然后对输入的藏语语音进行特征提取,将提取出来的特征输入到解码器中,解码器就会产生输入的藏语音频对应的藏语文字。
7.根据权利要求1所述的一种小规模语料DNN-HMM声学模型,其特征在于:所述小规模语料基于藏语语料,且实验基于kaldi平台。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811176927.5A CN109065029A (zh) | 2018-10-10 | 2018-10-10 | 一种小规模语料dnn-hmm声学模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811176927.5A CN109065029A (zh) | 2018-10-10 | 2018-10-10 | 一种小规模语料dnn-hmm声学模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109065029A true CN109065029A (zh) | 2018-12-21 |
Family
ID=64763845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811176927.5A Pending CN109065029A (zh) | 2018-10-10 | 2018-10-10 | 一种小规模语料dnn-hmm声学模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109065029A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111246469A (zh) * | 2020-03-05 | 2020-06-05 | 北京花兰德科技咨询服务有限公司 | 人工智能保密通信系统及通信方法 |
CN111508470A (zh) * | 2020-04-26 | 2020-08-07 | 北京声智科技有限公司 | 一种语音合成模型的训练方法及装置 |
CN111696525A (zh) * | 2020-05-08 | 2020-09-22 | 天津大学 | 一种基于Kaldi的中文语音识别声学模型构建方法 |
CN111696522A (zh) * | 2020-05-12 | 2020-09-22 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN112102817A (zh) * | 2019-06-18 | 2020-12-18 | 杭州中软安人网络通信股份有限公司 | 语音识别系统 |
CN112133290A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的基于迁移学习的语音识别方法 |
CN113707135A (zh) * | 2021-10-27 | 2021-11-26 | 成都启英泰伦科技有限公司 | 一种高精度连续语音识别的声学模型训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208483A (ja) * | 2004-01-26 | 2005-08-04 | Neikusu:Kk | 音声認識装置、音声認識プログラム、言語モデル生成方法、及び言語モデル生成装置 |
US20170011738A1 (en) * | 2015-07-09 | 2017-01-12 | Google Inc. | Generating acoustic models |
CN107481717A (zh) * | 2017-08-01 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法及系统 |
CN108109615A (zh) * | 2017-12-21 | 2018-06-01 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的构造和使用方法 |
-
2018
- 2018-10-10 CN CN201811176927.5A patent/CN109065029A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208483A (ja) * | 2004-01-26 | 2005-08-04 | Neikusu:Kk | 音声認識装置、音声認識プログラム、言語モデル生成方法、及び言語モデル生成装置 |
US20170011738A1 (en) * | 2015-07-09 | 2017-01-12 | Google Inc. | Generating acoustic models |
CN107481717A (zh) * | 2017-08-01 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法及系统 |
CN108109615A (zh) * | 2017-12-21 | 2018-06-01 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的构造和使用方法 |
Non-Patent Citations (3)
Title |
---|
CHIEN-TING LIN ET AL.: "A preliminary study on cross-language knowledge transfer for low-resource Taianese Mandarin ASR", 《2016 CONFERENCE OF THE ORIENTAL CHAPTER OF INTERNATIONAL COMMITTEE FOR COORDINATION AND STANDARDIZATION OF SPEECH DATABASES AND ASSESSMENT TECHNIQUES》 * |
MING SUN ET AL.: "An Empirical Study of Cross-Lingual Transfer Learning Techniques for Small-Footprint Keyword Spotting", 《2017 16TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA)》 * |
邵欣等: "《物联网技术及应用》", 30 June 2018, 北京航空航天大学出版社 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102817A (zh) * | 2019-06-18 | 2020-12-18 | 杭州中软安人网络通信股份有限公司 | 语音识别系统 |
CN112133290A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的基于迁移学习的语音识别方法 |
CN111246469A (zh) * | 2020-03-05 | 2020-06-05 | 北京花兰德科技咨询服务有限公司 | 人工智能保密通信系统及通信方法 |
CN111246469B (zh) * | 2020-03-05 | 2020-10-16 | 北京花兰德科技咨询服务有限公司 | 人工智能保密通信系统及通信方法 |
CN111508470A (zh) * | 2020-04-26 | 2020-08-07 | 北京声智科技有限公司 | 一种语音合成模型的训练方法及装置 |
CN111508470B (zh) * | 2020-04-26 | 2024-04-12 | 北京声智科技有限公司 | 一种语音合成模型的训练方法及装置 |
CN111696525A (zh) * | 2020-05-08 | 2020-09-22 | 天津大学 | 一种基于Kaldi的中文语音识别声学模型构建方法 |
CN111696522A (zh) * | 2020-05-12 | 2020-09-22 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN111696522B (zh) * | 2020-05-12 | 2024-02-23 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN113707135A (zh) * | 2021-10-27 | 2021-11-26 | 成都启英泰伦科技有限公司 | 一种高精度连续语音识别的声学模型训练方法 |
CN113707135B (zh) * | 2021-10-27 | 2021-12-31 | 成都启英泰伦科技有限公司 | 一种高精度连续语音识别的声学模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065029A (zh) | 一种小规模语料dnn-hmm声学模型 | |
CN109902171B (zh) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 | |
US8589163B2 (en) | Adapting language models with a bit mask for a subset of related words | |
CN104143327B (zh) | 一种声学模型训练方法和装置 | |
WO2018153213A1 (zh) | 一种多语言混合语音识别方法 | |
CN109918680A (zh) | 实体识别方法、装置及计算机设备 | |
CN109065032B (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
CN110377686A (zh) | 一种基于深度神经网络模型的地址信息特征抽取方法 | |
CN103578471B (zh) | 语音辨识方法及其电子装置 | |
CN109979429A (zh) | 一种tts的方法及系统 | |
CN106683677A (zh) | 语音识别方法及装置 | |
CN110534095A (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
Scharenborg et al. | Building an ASR system for a low-research language through the adaptation of a high-resource language ASR system: preliminary results | |
CN107195296A (zh) | 一种语音识别方法、装置、终端及系统 | |
CN111199727A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111369974B (zh) | 一种方言发音标注方法、语言识别方法及相关装置 | |
CN112699216A (zh) | 端到端的语言模型预训练方法、系统、设备及存储介质 | |
CN110491393A (zh) | 声纹表征模型的训练方法及相关装置 | |
CN109741735A (zh) | 一种建模方法、声学模型的获取方法和装置 | |
CN105845133A (zh) | 语音信号处理方法及装置 | |
CN105845130A (zh) | 用于语音识别的声学模型训练方法及装置 | |
Yu et al. | Acoustic modeling based on deep learning for low-resource speech recognition: An overview | |
CN109147772A (zh) | 一种dnn-hmm声学模型参数迁移结构 | |
Zhao et al. | End-to-end-based Tibetan multitask speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181221 |
|
RJ01 | Rejection of invention patent application after publication |