CN104036774A

CN104036774A - 藏语方言识别方法及系统

Info

Publication number: CN104036774A
Application number: CN201410280868.1A
Authority: CN
Inventors: 徐杰; 袁庆升; 包秀国; 陈训逊; 云晓春
Original assignee: National Computer Network and Information Security Management Center
Current assignee: iFlytek Co Ltd; National Computer Network and Information Security Management Center
Priority date: 2014-06-20
Filing date: 2014-06-20
Publication date: 2014-09-10
Anticipated expiration: 2034-06-20
Also published as: CN104036774B

Abstract

本发明公开了一种藏语方言识别方法及系统，该方法包括：预先训练语种识别模型，所述语种识别模型包括：多方言DNN并行音素识别器模型、多方言语言模型；接收待识别藏语方言语音信息；提取所述语音信息的声学特征；利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列；计算各音素序列在每个语言模型上的似然得分；将似然得分最高的语言模型对应的方言作为所述语音信息对应的方言种类。利用本发明，可以提高藏语方言识别效果。

Description

藏语方言识别方法及系统

技术领域

本发明涉及语种识别技术领域，具体涉及一种藏语方言识别方法及系统。

背景技术

语种识别技术是指通过自动从录音文件中提取语音的声学特征和音素序列，进而判断录音文件所属语言种类的一项智能语音技术，是语音识别技术的重要方向和应用领域。藏语作为少数民族语言中使用人数最多的语言之一，且随着各民族之间经济、教育等互动日益增多，藏语的识别需求已经越来越强烈。为了能较准确地识别藏语，首先需要确定待识别藏语的方言种类，进而进一步识别藏语内容。藏语包含多种方言，主要包括卫藏、康巴和安多三大藏语方言，进一步细分又可分为十三种下位方言，且各方言之间共用一套音素体系，因此方言间混淆度很大，这无疑给藏语方言种类识别带来了较大的挑战。

现有的语种识别方案主要有：基于声学特征建模的方法、基于音素识别器-语言模型(Phone Recognize and Language Model，PR-LM)或者基于并行音素识别器-语言模型(PPR-LM)的方法。这两种方法在较通用的语种识别任务中，取得了较好的识别效果。但针对藏语具有各方言间混淆度大、训练数据不足等特点，采用传统的语种识别方法，存在难以获取海量的标注语音训练数据、声学识别模型或语言模型区分性低等问题，从而无法较好地完成藏语方言识别的任务。

发明内容

本发明实施例提供一种藏语方言识别方法及系统，以解决稀缺方言数据PR(Phone Recognize，音素识别器)模型无法准确训练及建模精度不够的问题。

为此，本发明实施例提供如下技术方案：

一种藏语方言识别方法，包括：

预先训练语种识别模型，所述语种识别模型包括：多方言DNN(DeepNeural Networks，深层神经网络)并行音素识别器模型、多方言语言模型；

接收待识别藏语方言语音信息；

提取所述语音信息的声学特征；

利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列；

计算各音素序列在每个语言模型上的似然得分；

将似然得分最高的语言模型对应的方言作为所述语音信息对应的方言种类。

优选地，所述语种识别模型还包括：多方言声学模型；

所述方法还包括：

利用所述声学特征及所述多方言声学模型，确定藏语候选方言；

所述利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列包括：

从所述多方言DNN并行音素识别器模型中选择与所述藏语候选方言对应的音素识别器模型；

利用选出的DNN音素识别器模型获得对应所述藏语候选方言的声学特征的音素序列。

优选地，所述预先训练语种识别模型包括：

获取藏语方言语音训练数据；

提取所述语音训练数据的声学特征；

对于每种方言，利用所述方言的语音训练数据的声学特征，训练得到对应该方言的声学模型、DNN音素识别器模型、语言模型。

优选地，所述利用所述方言的语音训练数据的声学特征，训练得到对应该方言的声学模型包括：

利用所述方言的语音训练数据的声学特征及通用背景模型，训练得到对应该方言的声学模型。

优选地，所述利用所述方言的语音训练数据的声学特征，训练得到对应该方言的DNN音素识别器模型包括：

建立多方言DNN并行音素识别器模型拓扑结构，所述拓扑结构包括输入层、隐含层和输出层；

根据前藏方言的语音训练数据的声学特征，采用预训练反向传播算法训练前藏方言DNN音素识别器模型；

去除所述拓扑结构中的前藏方言DNN音素识别器模型的输出节点，训练其它藏语方言DNN音素识别器模型。

优选地，所述利用所述方言的语音训练数据的声学特征，训练得到对应该方言的语言模型包括：

计算所述方言的语音训练数据的声学特征在所述方言的DNN音素识别器模型的输出节点的输出值；

根据所述输出值在统计语言模型上进行解码，得到音素序列；

根据所述音素序列对所述统计语言模型进行训练，得到所述方言的语言模型。

一种藏语方言识别系统，包括：

模型训练模块，用于预先训练语种识别模型，所述语种识别模型包括：多方言DNN并行音素识别器模型、多方言语言模型；

接收模块，用于接收待识别藏语方言语音信息；

提取模块，用于提取所述语音信息的声学特征；

音素序列获取模块，用于利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列；

计算模块，用于计算各音素序列在每个语言模型上的似然得分；

方言种类确定模块，用于将似然得分最高的语言模型对应的方言作为所述语音信息对应的方言种类。

优选地，所述语种识别模型还包括：多方言声学模型；

所述系统还包括：

候选方言确定模块，用于利用所述声学特征及所述多方言声学模型，确定藏语候选方言；

所述音素序列获取模块包括：

选择单元，用于从所述多方言DNN并行音素识别器模型中选择与所述藏语候选方言对应的DNN音素识别器模型；

音素序列获取单元，用于利用选出的DNN音素识别器模型获得对应所述藏语候选方言的声学特征的音素序列。

优选地，所述模型训练模块包括：

训练数据获取单元，用于获取藏语方言语音训练数据；

特征提取单元，用于提取所述语音训练数据的声学特征；

声学模型训练单元，用于分别对于每种方言，利用所述方言的语音训练数据的声学特征，训练得到对应该方言的声学模型；

DNN音素识别器模型训练单元，用于分别对于每种方言，利用所述方言的语音训练数据的声学特征，训练得到对应该方言的DNN音素识别器模型；

语言模型训练单元，用于分别对于每种方言，利用所述方言的语音训练数据的声学特征，训练得到对应该方言的语言模型。

优选地，所述声学模型训练单元，具体用于利用所述方言的语音训练数据的声学特征及通用背景模型，训练得到对应该方言的声学模型。

优选地，所述DNN音素识别器模型训练单元包括：

建模单元，用于建立多方言DNN并行音素识别器模型拓扑结构，所述拓扑结构包括输入层、隐含层和输出层；

第一训练单元，用于根据前藏方言的语音训练数据的声学特征，采用预训练反向传播算法训练前藏方言DNN音素识别器模型；

第二训练单元，用于去除所述拓扑结构中的前藏方言DNN音素识别器模型的输出节点，训练其它藏语方言的DNN音素识别器模型。

优选地，所述语言模型训练单元包括：

计算单元，用于计算所述方言的语音训练数据的声学特征在所述方言的DNN音素识别器模型的输出节点的输出值；

解码单元，用于根据所述输出值在统计语言模型上进行解码，得到音素序列；

第三训练单元，用于根据所述音素序列对所述统计语言模型进行训练，得到所述方言的语言模型。

本发明实施例提供的藏语方言识别方法及系统，基于多方言DNN技术构建并行音素识别器模型，解决了稀缺方言数据PR模型无法准确训练及建模精度不够的问题。而且，本发明实施例的方法通过声学模型进行初步识别，得到藏语候选方言，再基于多方言DNN并行音素识别器模型进一步识别候选方言，从而最终识别藏语方言种类，不仅提高了系统的运行效率，而且提高了识别效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例中多方言DNN并行音素识别器模型的一种拓扑结构示意图；

图2是本发明实施例中多方言DNN并行音素识别器模型的训练流程图；

图3是本发明实施例中多方言语言模型的训练流程图；

图4是本发明实施例中多方言声学模型的训练流程图；

图5是本发明实施例藏语方言识别方法的一种流程图；

图6是本发明实施例藏语方言识别方法的另一种流程图；

图7是本发明实施例藏语方言识别系统的一种结构示意图；

图8是本发明实施例藏语方言识别系统的另一种结构示意图；

图9是本发明实施例中模型训练模块的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对藏语方言间混淆度大的特点，本发明实施例提供一种藏语方言识别方法及系统，基于多方言DNN技术构建并行音素识别器语言模型，解决了稀缺方言数据PR(Phone Recognize，音素识别器)模型无法准确训练及建模精度不够的问题。

在本发明实施例中，需要预先训练语种识别模型，所述语种识别模型包括：多方言DNN并行音素识别器语言模型、多方言语言模型，还可进一步包括：多方言声学模型。

而且，上述多方言声学模型、多方言DNN并行音素识别器模型、多方言语言模型各自分别对应了多个相应的模型，也就是说，每种方言分别对应了一个声学模型、一个DNN音素识别器模型、以及一个语言模型。比如，对应藏语的13种方言，需要训练出与各方言对应的声学模型、DNN音素识别器模型、语言模型。

为了更好地理解本发明实施例，下面首先对这几种模型的训练过程进行详细说明。

如图1所示，是本发明实施例中多方言DNN并行音素识别器模型的一种拓扑结构示意图。

该模型包括：输入层、隐含层和输出层，其中，输出层节点包括：前藏方言输出节点及其它藏语方言输出节点，如东部方言、阿里方言、后藏方言、牧区方言、道孚方言等。

多方言DNN并行音素识别器语言模型的训练流程如图2所示，包括以下步骤：

步骤201，建立多方言DNN并行音素识别器模型拓扑结构，所述拓扑结构包括输入层、隐含层和输出层。

步骤202，获取藏语方言语音训练数据。

比如，可以收集的语音训练数据可以包括藏语13种方言的语音训练数据，其中前藏方言作为使用人数最多的方言，大约需收集400小时的数据量。由于采用图4所示的拓扑结构，因此，对于其它方言，可以收集较少的训练数据，比如收集4至5个小时的训练数据量即可。

步骤203，提取所述语音训练数据的声学特征。

具体地，可以提取的声学特征可以是MFCC(Mel-Frequency CepstralCoefficient，Mel频率倒谱系数)、PLP(Perceptual Linear Predictive,感知线性预测)、FilterBank、基频参数等特征，而且，在声学特征提取前可以采用VTLN(Vocal Tract Length Normalization，声道长度规整)技术，将每个发音人的声道规整到统一的长度上，用来减弱不同发音人带来的影响。

步骤204，根据前藏方言的语音训练数据的声学特征，采用预训练反向传播(Pretraining-BP)算法训练前藏方言DNN音素识别器模型。

所述前藏方言DNN音素识别器模型的输入为所述声学特征，输出的是音素状态序列，隐层层数及各层间连接权重可以预先设定。

步骤205，去除所述拓扑结构中的前藏方言DNN音素识别器模型的输出节点，训练其它藏语方言DNN音素识别器模型。

具体地，拓扑结构中的前藏方言DNN音素识别器模型的输出节点，按其它12种方言中各方言音素特点分别生成输出层，接入到去除输出层的前藏方言DNN音素识别器模型上，然后根据各藏语方言相应的语音训练数据，采用Pretraining-BP算法进行迭代训练。需要说明的是，在迭代时仅更新输出层权重参数。

需要说明的是，在实际应用中，可以将生成的对应各藏语方言的DNN音素识别器模型单独保存，也可以将训练好的各其它方言输出层节点添加到前藏方言DNN音素识别器模型的输出层上，生成一个统一的多方言DNN并行音素识别器模型，并记录输出层上每个节点对应的方言编号，以方便从所述多方言DNN并行音素识别器模型中选择出与所述藏语候选方言对应的DNN音素识别器模型。

如图3所示，是本发明实施例中多方言语言模型的训练流程，包括以下步骤：

步骤301，获取藏语方言语音训练数据。

步骤302，提取所述语音训练数据的声学特征。

所述声学特征主要包括：MFCC、基频参数等特征。在声学特征提取前可以采用声道长度规整技术，将每个发音人的声道规整到统一的长度上，用来减弱不同发音人带来的影响。

步骤303，对于每种方言对应的声学特征，计算所述声学特征在所述方言的DNN音素识别器模型的输出节点的输出值。

步骤304，根据所述输出值在通用统计语言模型上进行解码，得到音素序列。

所述统计语言模型可以是N-Gram语言模型，可以由各方言的海量数据统计得到等。在N-Gram语言模型上通过Viterbi解码得到相应的音素序列。

步骤305，根据所述音素序列对统计语言模型进行训练，得到所述方言的语言模型。

需要说明的是，在实际应用中，所述多方言语言模型可以采用其它现有技术的方式进行训练，甚至可以采用通用的统计语言模型，并不仅限于图3所示的方法。

如图4所示，是本发明实施例中多方言声学模型的训练流程，包括以下步骤：

步骤401，获取藏语方言语音训练数据。

步骤402，提取所述语音训练数据的声学特征。

具体地，可以提取MFCC等特征并进行扩展到SDC(Shifted Delta Cepstra)特征，SDC特征由许多语音帧的一阶差分谱连接扩展而成，与传统的MFCC特征相比，包含了更多的时序特征信息。另外，声学特征提取前可以采用声道长度规整技术，将每个发音人的声道规整到统一的长度上，用来减弱不同发音人带来的影响。

步骤403，对于每种方言，利用该方言的语音训练数据的声学特征及通用背景模型，训练得到对应该方言的声学模型。

在本发明实施例中，对于每种方言，都需要训练对应该方言的声学模型，进一步地，还可以训练对应该方言的后端模型。一种方言的声学模型可根据该方言的训练数据在UBM(Universal Background Model，通用背景模型)的基础上进行适当地调整获得，比如可以采用MLE(Maximum-LikelihoodEstimation，最大似然估计)训练模型。进一步地，还可以在MLE模型训练后，采用MMI(Maximum Mutual Information，最大互信息)或SVM(Support VectorMachine，支持向量机)等区分性建模技术，减小目标语种之间的重叠性，提高语种识别系统性能。

其中，上述UBM模型是使用各种信道、各藏语方言的语音训练一个稳定的与语种、说话人无关的高阶高斯模型。各方言的后端模型可基于MLE或MMI等算法，通过声学模型识别得分序列训练得到，后端模型多为高斯模型。

需要说明的是，上述三种类型的模型训练时，可以使用相同的藏语方言语音训练数据，也可以使用不同的训练数据分别独立训练得到相应的模型，对此本发明实施例不做限定。

基于上述预先训练的语种识别模型，本发明实施例的藏语方言识别方法的一种流程如图5所示，包括以下步骤：

步骤501，接收待识别藏语方言语音信息。

步骤502，提取所述语音信息的声学特征。

所述声学特征可以是MFCC、PLP、FilterBank、基频参数等特征，而且，在声学特征提取前可以采用VTLN技术，将每个发音人的声道规整到统一的长度上，用来减弱不同发音人带来的影响。

步骤503，利用多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列。

具体地，分别计算各声学特征在每个DNN音素识别器模型输出节点的输出值，具体计算方法可以采用前向算法等，根据各输出值在N-Gram统计语言模型上通过Viterbi解码得到相应的音素序列。

步骤504，计算各音素序列在每个语言模型上的似然得分；

步骤505，将似然得分最高的语言模型对应的方言作为所述语音信息对应的藏语方言种类。

为了进一步提高藏语方言识别的准确性，在本发明方法另一实施例中，还可进一步利用上述多方言声学模型，进行初步筛选，确定藏语候选方言，然后再利用藏语候选方言及与这些藏语候选方言对应的DNN音素识别器模型及多方言语言模型，确定待识别藏语方言语音信息对应的藏语方言种类。相应地，该实施例的流程如图6所示，包括以下步骤：

步骤601，接收待识别藏语方言语音信息。

步骤602，提取所述语音信息的声学特征。

步骤603，利用所述声学特征及所述多方言声学模型，确定藏语候选方言。

具体地，可以计算所述声学特征在各个声学模型上的似然度，得到似然度得分矢量。还可进一步采取高斯后端分类器等技术，计算各似然度得分矢量在各后端模型上的似然得分，最后对各似然得分进行归一化处理，选取对应得分较高的前N个后端模型对应的藏语方言种类作为候选，或者选取对应得分大于设定值的后端模型对应的藏语方言种类作为候选。

比如，对应藏语的13种方言，分别计算待识别语音信息在13个声学模型上的似然度，得到似然度得分矢量。然后，分别将各似然度得分矢量作为输入，计算出在13个后端模型上的似然得分，将得到的这些似然得分做归一化处理，选出分数较高的5个后端模型，将这5个后端模型对应的方言种类作为藏语候选方言。

步骤604，从多方言DNN并行音素识别器模型中选择与所述藏语候选方言对应的DNN音素识别器模型。

步骤605，利用选出的DNN音素识别器模型获得对应所述藏语候选方言的声学特征的音素序列。

步骤606，计算各音素序列在每个语言模型上的似然得分；

步骤607，将似然得分最高的语言模型对应的方言作为所述语音信息对应的藏语方言种类。

在上述图6所示实施例中，只需计算藏语候选方言的声学特征在相应的DNN音素识别器模型输出节点的输出值，根据各候选方言的输出值在N-Gram统计语言模型上通过Viterbi解码得到相应的音素序列，然后，计算所述音素序列在各语言模型上的似然得分，从而大大降低了运算量。

通过实验分析验证1个DNN音素识别器的性能即可达到传统声学识别系统性能，3个以上最相接近目标语种的DNN音素识别器性能接近与全部13个DNN音素识别器融合性能。因此，这样也可以保证识别效果，而且还大大降低了运算的复杂度。

比如，对于前面选出的5种藏语候选方言，分别计算各候选方言在其对应的DNN音素识别器语言模型中的输出值，在N-Gram统计语言模型上解码得到5个音素序列，然后分别计算这5个音素序列在对应的音素识别器的语言模型(每个音素识别器对应13个语言模型)上的似然得分，总共得到5*13＝65个似然得分。

由此可见，本发明实施例的藏语方言识别方法，基于多方言DNN技术构建并行音素识别器语言模型，解决了稀缺方言数据PR(Phone Recognize，音素识别器)模型无法准确训练及建模精度不够的问题，提高了藏语方言的识别效果。而且，本发明实施例的方法通过声学模型进行初步识别，得到藏语候选方言，再根据基于多方言DNN并行音素识别器模型进一步识别候选方言，最终识别藏语方言种类，不仅提高了识别效果，而且提高了系统的运行效率。

相应地，本发明实施例还提供一种藏语方言识别系统，如图7所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

模型训练模块701，用于预先训练语种识别模型，所述语种识别模型包括：多方言DNN并行音素识别器模型、多方言语言模型；

接收模块702，用于接收待识别藏语方言语音信息；

提取模块703，用于提取所述语音信息的声学特征；

音素序列获取模块704，用于利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列；

计算模块705，用于计算各音素序列在每个语言模型上的似然得分；

方言种类确定模块706，用于将似然得分最高的语言模型对应的方言作为所述语音信息对应的方言种类。

另外，为了进一步简化运算，图8示出了本发明系统另一实施例的结构示意图。

与图7所示实施例不同的是，在该实施例中，模型训练模块701不仅要预先训练多方言DNN并行音素识别器模型和多方言语言模型，还要训练多方言声学模型。另外，在该系统中还包括：候选方言确定模块801，用于利用所述声学特征及所述多方言声学模型，确定藏语候选方言。

相应地，在该实施例中，音素序列获取模块704包括：选择单元和音素序列获取单元(未图示)。其中：所述选择单元用于从所述多方言DNN并行音素识别器模型中选择与所述藏语候选方言对应的DNN音素识别器模型；所述音素序列获取单元用于利用选出的DNN音素识别器模型获得对应所述藏语候选方言的声学特征的音素序列。

与7所示实施例相比，图8所示实施例的方案不仅可以保证识别效果，而且还大大降低了运算的复杂度。

如图9所示，是本发明实施例模型训练模块的一种结构示意图。

在该实施例中，所述模型训练模块包括：

训练数据获取单元901，用于获取藏语方言语音训练数据；

特征提取单元902，用于提取所述语音训练数据的声学特征，所述声学特征可以是MFCC等特征；

声学模型训练单元903，用于分别对于每种方言，利用所述方言的语音训练数据的声学特征，训练得到对应该方言的声学模型；

DNN音素识别器模型训练单元904，用于分别对于每种方言，利用所述方言的语音训练数据的声学特征，训练得到对应该方言的DNN音素识别器模型；

语言模型训练单元905，用于分别对于每种方言，利用所述方言的语音训练数据的声学特征，训练得到对应该方言的语言模型。

需要说明的是，上述三种类型的模型训练时，可以使用相同的藏语方言语音训练数据，模型训练模块的结构如图9所示；也可以使用不同的训练数据分别独立训练得到相应的模型，在这种情况下，上述各训练单元可以分别获取不同的训练数据的声学特征，模型训练模块的结构也会相应有变化，对此本发明实施例不做限定。

上述声学模型训练单元903具体可以利用所述方言的语音训练数据的声学特征及通用背景模型，训练得到对应该方言的声学模型。

上述DNN音素识别器模型训练单元904的一种具体结构包括：

第二训练单元，用于去除所述拓扑结构中的前藏方言DNN音素识别器模型的输出节点，训练其它藏语方言DNN音素识别器模型。

上述语言模型训练单元905的一种具体结构包括：

需要说明的是，上述声学模型训练单元903、DNN音素识别器模型训练单元904及语言模型训练单元905还可以采用其它方式训练得到对应各方言的相应模型，对此本发明实施不做限定。

本发明实施例的藏语方言识别系统，基于多方言DNN技术构建并行音素识别器模型，解决了稀缺方言数据PR(Phone Recognize，音素识别器)模型无法准确训练及建模精度不够的问题，提高了藏语方言的识别效果。而且，本发明实施例的方法通过声学模型进行初步识别，得到藏语候选方言，再根据基于多方言DNN并行音素识别器模型进一步识别候选方言，最终识别藏语方言种类，不仅提高了识别效果，而且提高了系统的运行效率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。而且，其中的一些模块所提供的功能也可以由软件来实现，一些模块可以与现有的设备(比如个人电脑、平板电脑、手机)中的相同功能模块共用。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种藏语方言识别方法，其特征在于，包括：

预先训练语种识别模型，所述语种识别模型包括：多方言DNN并行音素识别器模型、多方言语言模型；

接收待识别藏语方言语音信息；

提取所述语音信息的声学特征；

计算各音素序列在每个语言模型上的似然得分；

2.根据权利要求1所述的方法，其特征在于，所述语种识别模型还包括：多方言声学模型；

所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述预先训练语种识别模型包括：

获取藏语方言语音训练数据；

提取所述语音训练数据的声学特征；

4.根据权利要求3所述的方法，其特征在于，所述利用所述方言的语音训练数据的声学特征，训练得到对应该方言的声学模型包括：

5.根据权利要求3所述的方法，其特征在于，所述利用所述方言的语音训练数据的声学特征，训练得到对应该方言的DNN音素识别器模型包括：

6.根据权利要求5所述的方法，其特征在于，所述利用所述方言的语音训练数据的声学特征，训练得到对应该方言的语言模型包括：

7.一种藏语方言识别系统，其特征在于，包括：

接收模块，用于接收待识别藏语方言语音信息；

提取模块，用于提取所述语音信息的声学特征；

8.根据权利要求7所述的系统，其特征在于，所述语种识别模型还包括：多方言声学模型；

所述系统还包括：

所述音素序列获取模块包括：

9.根据权利要求8所述的系统，其特征在于，所述模型训练模块包括：

训练数据获取单元，用于获取藏语方言语音训练数据；

特征提取单元，用于提取所述语音训练数据的声学特征；

10.根据权利要求9所述的系统，其特征在于，所述声学模型训练单元，具体用于利用所述方言的语音训练数据的声学特征及通用背景模型，训练得到对应该方言的声学模型。

11.根据权利要求9所述的系统，其特征在于，所述DNN音素识别器模型训练单元包括：

12.根据权利要求11所述的系统，其特征在于，所述语言模型训练单元包括：