CN104036774A - 藏语方言识别方法及系统 - Google Patents
藏语方言识别方法及系统 Download PDFInfo
- Publication number
- CN104036774A CN104036774A CN201410280868.1A CN201410280868A CN104036774A CN 104036774 A CN104036774 A CN 104036774A CN 201410280868 A CN201410280868 A CN 201410280868A CN 104036774 A CN104036774 A CN 104036774A
- Authority
- CN
- China
- Prior art keywords
- dialect
- model
- dnn
- training
- tibetan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种藏语方言识别方法及系统,该方法包括:预先训练语种识别模型,所述语种识别模型包括:多方言DNN并行音素识别器模型、多方言语言模型;接收待识别藏语方言语音信息;提取所述语音信息的声学特征;利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列;计算各音素序列在每个语言模型上的似然得分;将似然得分最高的语言模型对应的方言作为所述语音信息对应的方言种类。利用本发明,可以提高藏语方言识别效果。
Description
技术领域
本发明涉及语种识别技术领域,具体涉及一种藏语方言识别方法及系统。
背景技术
语种识别技术是指通过自动从录音文件中提取语音的声学特征和音素序列,进而判断录音文件所属语言种类的一项智能语音技术,是语音识别技术的重要方向和应用领域。藏语作为少数民族语言中使用人数最多的语言之一,且随着各民族之间经济、教育等互动日益增多,藏语的识别需求已经越来越强烈。为了能较准确地识别藏语,首先需要确定待识别藏语的方言种类,进而进一步识别藏语内容。藏语包含多种方言,主要包括卫藏、康巴和安多三大藏语方言,进一步细分又可分为十三种下位方言,且各方言之间共用一套音素体系,因此方言间混淆度很大,这无疑给藏语方言种类识别带来了较大的挑战。
现有的语种识别方案主要有:基于声学特征建模的方法、基于音素识别器-语言模型(Phone Recognize and Language Model,PR-LM)或者基于并行音素识别器-语言模型(PPR-LM)的方法。这两种方法在较通用的语种识别任务中,取得了较好的识别效果。但针对藏语具有各方言间混淆度大、训练数据不足等特点,采用传统的语种识别方法,存在难以获取海量的标注语音训练数据、声学识别模型或语言模型区分性低等问题,从而无法较好地完成藏语方言识别的任务。
发明内容
本发明实施例提供一种藏语方言识别方法及系统,以解决稀缺方言数据PR(Phone Recognize,音素识别器)模型无法准确训练及建模精度不够的问题。
为此,本发明实施例提供如下技术方案:
一种藏语方言识别方法,包括:
预先训练语种识别模型,所述语种识别模型包括:多方言DNN(DeepNeural Networks,深层神经网络)并行音素识别器模型、多方言语言模型;
接收待识别藏语方言语音信息;
提取所述语音信息的声学特征;
利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列;
计算各音素序列在每个语言模型上的似然得分;
将似然得分最高的语言模型对应的方言作为所述语音信息对应的方言种类。
优选地,所述语种识别模型还包括:多方言声学模型;
所述方法还包括:
利用所述声学特征及所述多方言声学模型,确定藏语候选方言;
所述利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列包括:
从所述多方言DNN并行音素识别器模型中选择与所述藏语候选方言对应的音素识别器模型;
利用选出的DNN音素识别器模型获得对应所述藏语候选方言的声学特征的音素序列。
优选地,所述预先训练语种识别模型包括:
获取藏语方言语音训练数据;
提取所述语音训练数据的声学特征;
对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的声学模型、DNN音素识别器模型、语言模型。
优选地,所述利用所述方言的语音训练数据的声学特征,训练得到对应该方言的声学模型包括:
利用所述方言的语音训练数据的声学特征及通用背景模型,训练得到对应该方言的声学模型。
优选地,所述利用所述方言的语音训练数据的声学特征,训练得到对应该方言的DNN音素识别器模型包括:
建立多方言DNN并行音素识别器模型拓扑结构,所述拓扑结构包括输入层、隐含层和输出层;
根据前藏方言的语音训练数据的声学特征,采用预训练反向传播算法训练前藏方言DNN音素识别器模型;
去除所述拓扑结构中的前藏方言DNN音素识别器模型的输出节点,训练其它藏语方言DNN音素识别器模型。
优选地,所述利用所述方言的语音训练数据的声学特征,训练得到对应该方言的语言模型包括:
计算所述方言的语音训练数据的声学特征在所述方言的DNN音素识别器模型的输出节点的输出值;
根据所述输出值在统计语言模型上进行解码,得到音素序列;
根据所述音素序列对所述统计语言模型进行训练,得到所述方言的语言模型。
一种藏语方言识别系统,包括:
模型训练模块,用于预先训练语种识别模型,所述语种识别模型包括:多方言DNN并行音素识别器模型、多方言语言模型;
接收模块,用于接收待识别藏语方言语音信息;
提取模块,用于提取所述语音信息的声学特征;
音素序列获取模块,用于利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列;
计算模块,用于计算各音素序列在每个语言模型上的似然得分;
方言种类确定模块,用于将似然得分最高的语言模型对应的方言作为所述语音信息对应的方言种类。
优选地,所述语种识别模型还包括:多方言声学模型;
所述系统还包括:
候选方言确定模块,用于利用所述声学特征及所述多方言声学模型,确定藏语候选方言;
所述音素序列获取模块包括:
选择单元,用于从所述多方言DNN并行音素识别器模型中选择与所述藏语候选方言对应的DNN音素识别器模型;
音素序列获取单元,用于利用选出的DNN音素识别器模型获得对应所述藏语候选方言的声学特征的音素序列。
优选地,所述模型训练模块包括:
训练数据获取单元,用于获取藏语方言语音训练数据;
特征提取单元,用于提取所述语音训练数据的声学特征;
声学模型训练单元,用于分别对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的声学模型;
DNN音素识别器模型训练单元,用于分别对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的DNN音素识别器模型;
语言模型训练单元,用于分别对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的语言模型。
优选地,所述声学模型训练单元,具体用于利用所述方言的语音训练数据的声学特征及通用背景模型,训练得到对应该方言的声学模型。
优选地,所述DNN音素识别器模型训练单元包括:
建模单元,用于建立多方言DNN并行音素识别器模型拓扑结构,所述拓扑结构包括输入层、隐含层和输出层;
第一训练单元,用于根据前藏方言的语音训练数据的声学特征,采用预训练反向传播算法训练前藏方言DNN音素识别器模型;
第二训练单元,用于去除所述拓扑结构中的前藏方言DNN音素识别器模型的输出节点,训练其它藏语方言的DNN音素识别器模型。
优选地,所述语言模型训练单元包括:
计算单元,用于计算所述方言的语音训练数据的声学特征在所述方言的DNN音素识别器模型的输出节点的输出值;
解码单元,用于根据所述输出值在统计语言模型上进行解码,得到音素序列;
第三训练单元,用于根据所述音素序列对所述统计语言模型进行训练,得到所述方言的语言模型。
本发明实施例提供的藏语方言识别方法及系统,基于多方言DNN技术构建并行音素识别器模型,解决了稀缺方言数据PR模型无法准确训练及建模精度不够的问题。而且,本发明实施例的方法通过声学模型进行初步识别,得到藏语候选方言,再基于多方言DNN并行音素识别器模型进一步识别候选方言,从而最终识别藏语方言种类,不仅提高了系统的运行效率,而且提高了识别效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例中多方言DNN并行音素识别器模型的一种拓扑结构示意图;
图2是本发明实施例中多方言DNN并行音素识别器模型的训练流程图;
图3是本发明实施例中多方言语言模型的训练流程图;
图4是本发明实施例中多方言声学模型的训练流程图;
图5是本发明实施例藏语方言识别方法的一种流程图;
图6是本发明实施例藏语方言识别方法的另一种流程图;
图7是本发明实施例藏语方言识别系统的一种结构示意图;
图8是本发明实施例藏语方言识别系统的另一种结构示意图;
图9是本发明实施例中模型训练模块的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对藏语方言间混淆度大的特点,本发明实施例提供一种藏语方言识别方法及系统,基于多方言DNN技术构建并行音素识别器语言模型,解决了稀缺方言数据PR(Phone Recognize,音素识别器)模型无法准确训练及建模精度不够的问题。
在本发明实施例中,需要预先训练语种识别模型,所述语种识别模型包括:多方言DNN并行音素识别器语言模型、多方言语言模型,还可进一步包括:多方言声学模型。
而且,上述多方言声学模型、多方言DNN并行音素识别器模型、多方言语言模型各自分别对应了多个相应的模型,也就是说,每种方言分别对应了一个声学模型、一个DNN音素识别器模型、以及一个语言模型。比如,对应藏语的13种方言,需要训练出与各方言对应的声学模型、DNN音素识别器模型、语言模型。
为了更好地理解本发明实施例,下面首先对这几种模型的训练过程进行详细说明。
如图1所示,是本发明实施例中多方言DNN并行音素识别器模型的一种拓扑结构示意图。
该模型包括:输入层、隐含层和输出层,其中,输出层节点包括:前藏方言输出节点及其它藏语方言输出节点,如东部方言、阿里方言、后藏方言、牧区方言、道孚方言等。
多方言DNN并行音素识别器语言模型的训练流程如图2所示,包括以下步骤:
步骤201,建立多方言DNN并行音素识别器模型拓扑结构,所述拓扑结构包括输入层、隐含层和输出层。
步骤202,获取藏语方言语音训练数据。
比如,可以收集的语音训练数据可以包括藏语13种方言的语音训练数据,其中前藏方言作为使用人数最多的方言,大约需收集400小时的数据量。由于采用图4所示的拓扑结构,因此,对于其它方言,可以收集较少的训练数据,比如收集4至5个小时的训练数据量即可。
步骤203,提取所述语音训练数据的声学特征。
具体地,可以提取的声学特征可以是MFCC(Mel-Frequency CepstralCoefficient,Mel频率倒谱系数)、PLP(Perceptual Linear Predictive,感知线性预测)、FilterBank、基频参数等特征,而且,在声学特征提取前可以采用VTLN(Vocal Tract Length Normalization,声道长度规整)技术,将每个发音人的声道规整到统一的长度上,用来减弱不同发音人带来的影响。
步骤204,根据前藏方言的语音训练数据的声学特征,采用预训练反向传播(Pretraining-BP)算法训练前藏方言DNN音素识别器模型。
所述前藏方言DNN音素识别器模型的输入为所述声学特征,输出的是音素状态序列,隐层层数及各层间连接权重可以预先设定。
步骤205,去除所述拓扑结构中的前藏方言DNN音素识别器模型的输出节点,训练其它藏语方言DNN音素识别器模型。
具体地,拓扑结构中的前藏方言DNN音素识别器模型的输出节点,按其它12种方言中各方言音素特点分别生成输出层,接入到去除输出层的前藏方言DNN音素识别器模型上,然后根据各藏语方言相应的语音训练数据,采用Pretraining-BP算法进行迭代训练。需要说明的是,在迭代时仅更新输出层权重参数。
需要说明的是,在实际应用中,可以将生成的对应各藏语方言的DNN音素识别器模型单独保存,也可以将训练好的各其它方言输出层节点添加到前藏方言DNN音素识别器模型的输出层上,生成一个统一的多方言DNN并行音素识别器模型,并记录输出层上每个节点对应的方言编号,以方便从所述多方言DNN并行音素识别器模型中选择出与所述藏语候选方言对应的DNN音素识别器模型。
如图3所示,是本发明实施例中多方言语言模型的训练流程,包括以下步骤:
步骤301,获取藏语方言语音训练数据。
步骤302,提取所述语音训练数据的声学特征。
所述声学特征主要包括:MFCC、基频参数等特征。在声学特征提取前可以采用声道长度规整技术,将每个发音人的声道规整到统一的长度上,用来减弱不同发音人带来的影响。
步骤303,对于每种方言对应的声学特征,计算所述声学特征在所述方言的DNN音素识别器模型的输出节点的输出值。
步骤304,根据所述输出值在通用统计语言模型上进行解码,得到音素序列。
所述统计语言模型可以是N-Gram语言模型,可以由各方言的海量数据统计得到等。在N-Gram语言模型上通过Viterbi解码得到相应的音素序列。
步骤305,根据所述音素序列对统计语言模型进行训练,得到所述方言的语言模型。
需要说明的是,在实际应用中,所述多方言语言模型可以采用其它现有技术的方式进行训练,甚至可以采用通用的统计语言模型,并不仅限于图3所示的方法。
如图4所示,是本发明实施例中多方言声学模型的训练流程,包括以下步骤:
步骤401,获取藏语方言语音训练数据。
步骤402,提取所述语音训练数据的声学特征。
具体地,可以提取MFCC等特征并进行扩展到SDC(Shifted Delta Cepstra)特征,SDC特征由许多语音帧的一阶差分谱连接扩展而成,与传统的MFCC特征相比,包含了更多的时序特征信息。另外,声学特征提取前可以采用声道长度规整技术,将每个发音人的声道规整到统一的长度上,用来减弱不同发音人带来的影响。
步骤403,对于每种方言,利用该方言的语音训练数据的声学特征及通用背景模型,训练得到对应该方言的声学模型。
在本发明实施例中,对于每种方言,都需要训练对应该方言的声学模型,进一步地,还可以训练对应该方言的后端模型。一种方言的声学模型可根据该方言的训练数据在UBM(Universal Background Model,通用背景模型)的基础上进行适当地调整获得,比如可以采用MLE(Maximum-LikelihoodEstimation,最大似然估计)训练模型。进一步地,还可以在MLE模型训练后,采用MMI(Maximum Mutual Information,最大互信息)或SVM(Support VectorMachine,支持向量机)等区分性建模技术,减小目标语种之间的重叠性,提高语种识别系统性能。
其中,上述UBM模型是使用各种信道、各藏语方言的语音训练一个稳定的与语种、说话人无关的高阶高斯模型。各方言的后端模型可基于MLE或MMI等算法,通过声学模型识别得分序列训练得到,后端模型多为高斯模型。
需要说明的是,上述三种类型的模型训练时,可以使用相同的藏语方言语音训练数据,也可以使用不同的训练数据分别独立训练得到相应的模型,对此本发明实施例不做限定。
基于上述预先训练的语种识别模型,本发明实施例的藏语方言识别方法的一种流程如图5所示,包括以下步骤:
步骤501,接收待识别藏语方言语音信息。
步骤502,提取所述语音信息的声学特征。
所述声学特征可以是MFCC、PLP、FilterBank、基频参数等特征,而且,在声学特征提取前可以采用VTLN技术,将每个发音人的声道规整到统一的长度上,用来减弱不同发音人带来的影响。
步骤503,利用多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列。
具体地,分别计算各声学特征在每个DNN音素识别器模型输出节点的输出值,具体计算方法可以采用前向算法等,根据各输出值在N-Gram统计语言模型上通过Viterbi解码得到相应的音素序列。
步骤504,计算各音素序列在每个语言模型上的似然得分;
步骤505,将似然得分最高的语言模型对应的方言作为所述语音信息对应的藏语方言种类。
为了进一步提高藏语方言识别的准确性,在本发明方法另一实施例中,还可进一步利用上述多方言声学模型,进行初步筛选,确定藏语候选方言,然后再利用藏语候选方言及与这些藏语候选方言对应的DNN音素识别器模型及多方言语言模型,确定待识别藏语方言语音信息对应的藏语方言种类。相应地,该实施例的流程如图6所示,包括以下步骤:
步骤601,接收待识别藏语方言语音信息。
步骤602,提取所述语音信息的声学特征。
所述声学特征可以是MFCC、PLP、FilterBank、基频参数等特征,而且,在声学特征提取前可以采用VTLN技术,将每个发音人的声道规整到统一的长度上,用来减弱不同发音人带来的影响。
步骤603,利用所述声学特征及所述多方言声学模型,确定藏语候选方言。
具体地,可以计算所述声学特征在各个声学模型上的似然度,得到似然度得分矢量。还可进一步采取高斯后端分类器等技术,计算各似然度得分矢量在各后端模型上的似然得分,最后对各似然得分进行归一化处理,选取对应得分较高的前N个后端模型对应的藏语方言种类作为候选,或者选取对应得分大于设定值的后端模型对应的藏语方言种类作为候选。
比如,对应藏语的13种方言,分别计算待识别语音信息在13个声学模型上的似然度,得到似然度得分矢量。然后,分别将各似然度得分矢量作为输入,计算出在13个后端模型上的似然得分,将得到的这些似然得分做归一化处理,选出分数较高的5个后端模型,将这5个后端模型对应的方言种类作为藏语候选方言。
步骤604,从多方言DNN并行音素识别器模型中选择与所述藏语候选方言对应的DNN音素识别器模型。
步骤605,利用选出的DNN音素识别器模型获得对应所述藏语候选方言的声学特征的音素序列。
步骤606,计算各音素序列在每个语言模型上的似然得分;
步骤607,将似然得分最高的语言模型对应的方言作为所述语音信息对应的藏语方言种类。
在上述图6所示实施例中,只需计算藏语候选方言的声学特征在相应的DNN音素识别器模型输出节点的输出值,根据各候选方言的输出值在N-Gram统计语言模型上通过Viterbi解码得到相应的音素序列,然后,计算所述音素序列在各语言模型上的似然得分,从而大大降低了运算量。
通过实验分析验证1个DNN音素识别器的性能即可达到传统声学识别系统性能,3个以上最相接近目标语种的DNN音素识别器性能接近与全部13个DNN音素识别器融合性能。因此,这样也可以保证识别效果,而且还大大降低了运算的复杂度。
比如,对于前面选出的5种藏语候选方言,分别计算各候选方言在其对应的DNN音素识别器语言模型中的输出值,在N-Gram统计语言模型上解码得到5个音素序列,然后分别计算这5个音素序列在对应的音素识别器的语言模型(每个音素识别器对应13个语言模型)上的似然得分,总共得到5*13=65个似然得分。
由此可见,本发明实施例的藏语方言识别方法,基于多方言DNN技术构建并行音素识别器语言模型,解决了稀缺方言数据PR(Phone Recognize,音素识别器)模型无法准确训练及建模精度不够的问题,提高了藏语方言的识别效果。而且,本发明实施例的方法通过声学模型进行初步识别,得到藏语候选方言,再根据基于多方言DNN并行音素识别器模型进一步识别候选方言,最终识别藏语方言种类,不仅提高了识别效果,而且提高了系统的运行效率。
相应地,本发明实施例还提供一种藏语方言识别系统,如图7所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
模型训练模块701,用于预先训练语种识别模型,所述语种识别模型包括:多方言DNN并行音素识别器模型、多方言语言模型;
接收模块702,用于接收待识别藏语方言语音信息;
提取模块703,用于提取所述语音信息的声学特征;
音素序列获取模块704,用于利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列;
计算模块705,用于计算各音素序列在每个语言模型上的似然得分;
方言种类确定模块706,用于将似然得分最高的语言模型对应的方言作为所述语音信息对应的方言种类。
另外,为了进一步简化运算,图8示出了本发明系统另一实施例的结构示意图。
与图7所示实施例不同的是,在该实施例中,模型训练模块701不仅要预先训练多方言DNN并行音素识别器模型和多方言语言模型,还要训练多方言声学模型。另外,在该系统中还包括:候选方言确定模块801,用于利用所述声学特征及所述多方言声学模型,确定藏语候选方言。
相应地,在该实施例中,音素序列获取模块704包括:选择单元和音素序列获取单元(未图示)。其中:所述选择单元用于从所述多方言DNN并行音素识别器模型中选择与所述藏语候选方言对应的DNN音素识别器模型;所述音素序列获取单元用于利用选出的DNN音素识别器模型获得对应所述藏语候选方言的声学特征的音素序列。
与7所示实施例相比,图8所示实施例的方案不仅可以保证识别效果,而且还大大降低了运算的复杂度。
如图9所示,是本发明实施例模型训练模块的一种结构示意图。
在该实施例中,所述模型训练模块包括:
训练数据获取单元901,用于获取藏语方言语音训练数据;
特征提取单元902,用于提取所述语音训练数据的声学特征,所述声学特征可以是MFCC等特征;
声学模型训练单元903,用于分别对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的声学模型;
DNN音素识别器模型训练单元904,用于分别对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的DNN音素识别器模型;
语言模型训练单元905,用于分别对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的语言模型。
需要说明的是,上述三种类型的模型训练时,可以使用相同的藏语方言语音训练数据,模型训练模块的结构如图9所示;也可以使用不同的训练数据分别独立训练得到相应的模型,在这种情况下,上述各训练单元可以分别获取不同的训练数据的声学特征,模型训练模块的结构也会相应有变化,对此本发明实施例不做限定。
上述声学模型训练单元903具体可以利用所述方言的语音训练数据的声学特征及通用背景模型,训练得到对应该方言的声学模型。
上述DNN音素识别器模型训练单元904的一种具体结构包括:
建模单元,用于建立多方言DNN并行音素识别器模型拓扑结构,所述拓扑结构包括输入层、隐含层和输出层;
第一训练单元,用于根据前藏方言的语音训练数据的声学特征,采用预训练反向传播算法训练前藏方言DNN音素识别器模型;
第二训练单元,用于去除所述拓扑结构中的前藏方言DNN音素识别器模型的输出节点,训练其它藏语方言DNN音素识别器模型。
上述语言模型训练单元905的一种具体结构包括:
计算单元,用于计算所述方言的语音训练数据的声学特征在所述方言的DNN音素识别器模型的输出节点的输出值;
解码单元,用于根据所述输出值在统计语言模型上进行解码,得到音素序列;
第三训练单元,用于根据所述音素序列对所述统计语言模型进行训练,得到所述方言的语言模型。
需要说明的是,上述声学模型训练单元903、DNN音素识别器模型训练单元904及语言模型训练单元905还可以采用其它方式训练得到对应各方言的相应模型,对此本发明实施不做限定。
本发明实施例的藏语方言识别系统,基于多方言DNN技术构建并行音素识别器模型,解决了稀缺方言数据PR(Phone Recognize,音素识别器)模型无法准确训练及建模精度不够的问题,提高了藏语方言的识别效果。而且,本发明实施例的方法通过声学模型进行初步识别,得到藏语候选方言,再根据基于多方言DNN并行音素识别器模型进一步识别候选方言,最终识别藏语方言种类,不仅提高了识别效果,而且提高了系统的运行效率。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。而且,其中的一些模块所提供的功能也可以由软件来实现,一些模块可以与现有的设备(比如个人电脑、平板电脑、手机)中的相同功能模块共用。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种藏语方言识别方法,其特征在于,包括:
预先训练语种识别模型,所述语种识别模型包括:多方言DNN并行音素识别器模型、多方言语言模型;
接收待识别藏语方言语音信息;
提取所述语音信息的声学特征;
利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列;
计算各音素序列在每个语言模型上的似然得分;
将似然得分最高的语言模型对应的方言作为所述语音信息对应的方言种类。
2.根据权利要求1所述的方法,其特征在于,所述语种识别模型还包括:多方言声学模型;
所述方法还包括:
利用所述声学特征及所述多方言声学模型,确定藏语候选方言;
所述利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列包括:
从所述多方言DNN并行音素识别器模型中选择与所述藏语候选方言对应的音素识别器模型;
利用选出的DNN音素识别器模型获得对应所述藏语候选方言的声学特征的音素序列。
3.根据权利要求2所述的方法,其特征在于,所述预先训练语种识别模型包括:
获取藏语方言语音训练数据;
提取所述语音训练数据的声学特征;
对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的声学模型、DNN音素识别器模型、语言模型。
4.根据权利要求3所述的方法,其特征在于,所述利用所述方言的语音训练数据的声学特征,训练得到对应该方言的声学模型包括:
利用所述方言的语音训练数据的声学特征及通用背景模型,训练得到对应该方言的声学模型。
5.根据权利要求3所述的方法,其特征在于,所述利用所述方言的语音训练数据的声学特征,训练得到对应该方言的DNN音素识别器模型包括:
建立多方言DNN并行音素识别器模型拓扑结构,所述拓扑结构包括输入层、隐含层和输出层;
根据前藏方言的语音训练数据的声学特征,采用预训练反向传播算法训练前藏方言DNN音素识别器模型;
去除所述拓扑结构中的前藏方言DNN音素识别器模型的输出节点,训练其它藏语方言DNN音素识别器模型。
6.根据权利要求5所述的方法,其特征在于,所述利用所述方言的语音训练数据的声学特征,训练得到对应该方言的语言模型包括:
计算所述方言的语音训练数据的声学特征在所述方言的DNN音素识别器模型的输出节点的输出值;
根据所述输出值在统计语言模型上进行解码,得到音素序列;
根据所述音素序列对所述统计语言模型进行训练,得到所述方言的语言模型。
7.一种藏语方言识别系统,其特征在于,包括:
模型训练模块,用于预先训练语种识别模型,所述语种识别模型包括:多方言DNN并行音素识别器模型、多方言语言模型;
接收模块,用于接收待识别藏语方言语音信息;
提取模块,用于提取所述语音信息的声学特征;
音素序列获取模块,用于利用所述多方言DNN并行音素识别器模型获得对应所述声学特征的音素序列;
计算模块,用于计算各音素序列在每个语言模型上的似然得分;
方言种类确定模块,用于将似然得分最高的语言模型对应的方言作为所述语音信息对应的方言种类。
8.根据权利要求7所述的系统,其特征在于,所述语种识别模型还包括:多方言声学模型;
所述系统还包括:
候选方言确定模块,用于利用所述声学特征及所述多方言声学模型,确定藏语候选方言;
所述音素序列获取模块包括:
选择单元,用于从所述多方言DNN并行音素识别器模型中选择与所述藏语候选方言对应的DNN音素识别器模型;
音素序列获取单元,用于利用选出的DNN音素识别器模型获得对应所述藏语候选方言的声学特征的音素序列。
9.根据权利要求8所述的系统,其特征在于,所述模型训练模块包括:
训练数据获取单元,用于获取藏语方言语音训练数据;
特征提取单元,用于提取所述语音训练数据的声学特征;
声学模型训练单元,用于分别对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的声学模型;
DNN音素识别器模型训练单元,用于分别对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的DNN音素识别器模型;
语言模型训练单元,用于分别对于每种方言,利用所述方言的语音训练数据的声学特征,训练得到对应该方言的语言模型。
10.根据权利要求9所述的系统,其特征在于,所述声学模型训练单元,具体用于利用所述方言的语音训练数据的声学特征及通用背景模型,训练得到对应该方言的声学模型。
11.根据权利要求9所述的系统,其特征在于,所述DNN音素识别器模型训练单元包括:
建模单元,用于建立多方言DNN并行音素识别器模型拓扑结构,所述拓扑结构包括输入层、隐含层和输出层;
第一训练单元,用于根据前藏方言的语音训练数据的声学特征,采用预训练反向传播算法训练前藏方言DNN音素识别器模型;
第二训练单元,用于去除所述拓扑结构中的前藏方言DNN音素识别器模型的输出节点,训练其它藏语方言的DNN音素识别器模型。
12.根据权利要求11所述的系统,其特征在于,所述语言模型训练单元包括:
计算单元,用于计算所述方言的语音训练数据的声学特征在所述方言的DNN音素识别器模型的输出节点的输出值;
解码单元,用于根据所述输出值在统计语言模型上进行解码,得到音素序列;
第三训练单元,用于根据所述音素序列对所述统计语言模型进行训练,得到所述方言的语言模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410280868.1A CN104036774B (zh) | 2014-06-20 | 2014-06-20 | 藏语方言识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410280868.1A CN104036774B (zh) | 2014-06-20 | 2014-06-20 | 藏语方言识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104036774A true CN104036774A (zh) | 2014-09-10 |
CN104036774B CN104036774B (zh) | 2018-03-06 |
Family
ID=51467521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410280868.1A Active CN104036774B (zh) | 2014-06-20 | 2014-06-20 | 藏语方言识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104036774B (zh) |
Cited By (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105609101A (zh) * | 2014-11-14 | 2016-05-25 | 现代自动车株式会社 | 语音识别系统及语音识别方法 |
CN105632499A (zh) * | 2014-10-31 | 2016-06-01 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN107506345A (zh) * | 2016-06-14 | 2017-12-22 | 科大讯飞股份有限公司 | 语言模型的构建方法和装置 |
CN107644638A (zh) * | 2017-10-17 | 2018-01-30 | 北京智能管家科技有限公司 | 语音识别方法、装置、终端和计算机可读存储介质 |
CN107735833A (zh) * | 2015-06-07 | 2018-02-23 | 苹果公司 | 自动口音检测 |
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN108352127A (zh) * | 2015-09-22 | 2018-07-31 | 旺多姆咨询私人有限公司 | 用于为分布式语言学习系统的用户自动生成语音样本资产生产得分的方法、自动口音识别和量化以及改进的语音识别 |
CN108389573A (zh) * | 2018-02-09 | 2018-08-10 | 北京易真学思教育科技有限公司 | 语种识别方法及装置、训练方法及装置、介质、终端 |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN108877769A (zh) * | 2018-06-25 | 2018-11-23 | 北京语言大学 | 识别方言种类的方法和装置 |
CN109410914A (zh) * | 2018-08-28 | 2019-03-01 | 江西师范大学 | 一种赣方言语音和方言点识别方法 |
CN109741731A (zh) * | 2019-01-08 | 2019-05-10 | 国家计算机网络与信息安全管理中心 | 一种语种训练数据获得方法及装置 |
CN109817220A (zh) * | 2017-11-17 | 2019-05-28 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及系统 |
CN109961775A (zh) * | 2017-12-15 | 2019-07-02 | 中国移动通信集团安徽有限公司 | 基于hmm模型的方言识别方法、装置、设备及介质 |
CN110491382A (zh) * | 2019-03-11 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
CN110689875A (zh) * | 2019-10-28 | 2020-01-14 | 国家计算机网络与信息安全管理中心 | 一种语种识别方法、装置及可读存储介质 |
WO2020043040A1 (zh) * | 2018-08-30 | 2020-03-05 | 阿里巴巴集团控股有限公司 | 语音识别方法和设备 |
CN110895932A (zh) * | 2018-08-24 | 2020-03-20 | 中国科学院声学研究所 | 基于语言种类和语音内容协同分类的多语言语音识别方法 |
CN110930982A (zh) * | 2019-10-31 | 2020-03-27 | 国家计算机网络与信息安全管理中心 | 一种多口音声学模型及多口音语音识别方法 |
CN110970018A (zh) * | 2018-09-28 | 2020-04-07 | 珠海格力电器股份有限公司 | 语音识别方法和装置 |
CN111210805A (zh) * | 2018-11-05 | 2020-05-29 | 北京嘀嘀无限科技发展有限公司 | 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置 |
CN111261141A (zh) * | 2018-11-30 | 2020-06-09 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法以及语音识别装置 |
CN111312211A (zh) * | 2020-02-21 | 2020-06-19 | 湖南大学 | 一种基于过采样技术的方言语音识别系统 |
CN111640456A (zh) * | 2020-06-04 | 2020-09-08 | 合肥讯飞数码科技有限公司 | 叠音检测方法、装置和设备 |
CN111724766A (zh) * | 2020-06-29 | 2020-09-29 | 合肥讯飞数码科技有限公司 | 语种识别方法、相关设备及可读存储介质 |
CN112489622A (zh) * | 2019-08-23 | 2021-03-12 | 中国科学院声学研究所 | 一种多语言连续语音流语音内容识别方法及系统 |
CN112951206A (zh) * | 2021-02-08 | 2021-06-11 | 天津大学 | 基于深层时延神经网络的藏语卫藏方言口语识别方法 |
CN113781999A (zh) * | 2021-09-13 | 2021-12-10 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
WO2022143723A1 (zh) * | 2020-12-31 | 2022-07-07 | 中兴通讯股份有限公司 | 语音识别模型训练方法、语音识别方法及相应装置 |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US12001933B2 (en) | 2015-05-15 | 2024-06-04 | Apple Inc. | Virtual assistant in a communication session |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12026197B2 (en) | 2017-06-01 | 2024-07-02 | Apple Inc. | Intelligent automated assistant for media exploration |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1228866A (zh) * | 1996-09-03 | 1999-09-15 | 西门子公司 | 语音处理系统及方法 |
CN1941079A (zh) * | 2005-09-27 | 2007-04-04 | 通用汽车公司 | 语音识别方法和系统 |
CN101354886A (zh) * | 2007-07-27 | 2009-01-28 | 陈修志 | 语音识别装置 |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN102138175A (zh) * | 2008-07-02 | 2011-07-27 | 谷歌公司 | 具有并行识别任务的语音识别 |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
CN103474061A (zh) * | 2013-09-12 | 2013-12-25 | 河海大学 | 基于分类器融合的汉语方言自动辨识方法 |
CN103544955A (zh) * | 2012-07-13 | 2014-01-29 | 三星电子株式会社 | 识别语音的方法及其电子装置 |
CN103578465A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语音辨识方法及电子装置 |
CN103578464A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
CN103839545A (zh) * | 2012-11-23 | 2014-06-04 | 三星电子株式会社 | 用于构建多语言声学模型的设备和方法 |
-
2014
- 2014-06-20 CN CN201410280868.1A patent/CN104036774B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1228866A (zh) * | 1996-09-03 | 1999-09-15 | 西门子公司 | 语音处理系统及方法 |
CN1941079A (zh) * | 2005-09-27 | 2007-04-04 | 通用汽车公司 | 语音识别方法和系统 |
CN101354886A (zh) * | 2007-07-27 | 2009-01-28 | 陈修志 | 语音识别装置 |
CN102138175A (zh) * | 2008-07-02 | 2011-07-27 | 谷歌公司 | 具有并行识别任务的语音识别 |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN103544955A (zh) * | 2012-07-13 | 2014-01-29 | 三星电子株式会社 | 识别语音的方法及其电子装置 |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
CN103839545A (zh) * | 2012-11-23 | 2014-06-04 | 三星电子株式会社 | 用于构建多语言声学模型的设备和方法 |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN103474061A (zh) * | 2013-09-12 | 2013-12-25 | 河海大学 | 基于分类器融合的汉语方言自动辨识方法 |
CN103578465A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语音辨识方法及电子装置 |
CN103578464A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
Non-Patent Citations (5)
Title |
---|
周佳俊等: ""深层神经网络预训练的改进初始化方法"", 《电讯技术》 * |
张金溪等: ""藏语语音处理中对MFCC参数提取的研究"", 《互联网科技》 * |
景亚鹏等: ""基于深层神经网络(DNN)的汉语方言种属语音识别"", 《华东师范大学学报》 * |
王士进等: ""基于Multilingual的音素识别及其在语种识别中的应用"", 《清华大学学报》 * |
陈琦等: ""一种基于RBM的深层神经网络音素识别方法"", 《信息工程大学学报》 * |
Cited By (94)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11979836B2 (en) | 2007-04-03 | 2024-05-07 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US12009007B2 (en) | 2013-02-07 | 2024-06-11 | Apple Inc. | Voice trigger for a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN105632499B (zh) * | 2014-10-31 | 2019-12-10 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
CN105632499A (zh) * | 2014-10-31 | 2016-06-01 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
CN105609101A (zh) * | 2014-11-14 | 2016-05-25 | 现代自动车株式会社 | 语音识别系统及语音识别方法 |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US12001933B2 (en) | 2015-05-15 | 2024-06-04 | Apple Inc. | Virtual assistant in a communication session |
CN107735833A (zh) * | 2015-06-07 | 2018-02-23 | 苹果公司 | 自动口音检测 |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
CN108352127A (zh) * | 2015-09-22 | 2018-07-31 | 旺多姆咨询私人有限公司 | 用于为分布式语言学习系统的用户自动生成语音样本资产生产得分的方法、自动口音识别和量化以及改进的语音识别 |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN105632501B (zh) * | 2015-12-30 | 2019-09-03 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
CN107506345A (zh) * | 2016-06-14 | 2017-12-22 | 科大讯飞股份有限公司 | 语言模型的构建方法和装置 |
US11138967B2 (en) | 2016-07-22 | 2021-10-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice recognition processing method, device and computer storage medium |
JP2019527852A (ja) * | 2016-07-22 | 2019-10-03 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声認識処理方法及び装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN106251859B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
WO2018014469A1 (zh) * | 2016-07-22 | 2018-01-25 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US11837237B2 (en) | 2017-05-12 | 2023-12-05 | Apple Inc. | User-specific acoustic models |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12026197B2 (en) | 2017-06-01 | 2024-07-02 | Apple Inc. | Intelligent automated assistant for media exploration |
CN107644638A (zh) * | 2017-10-17 | 2018-01-30 | 北京智能管家科技有限公司 | 语音识别方法、装置、终端和计算机可读存储介质 |
CN107644638B (zh) * | 2017-10-17 | 2019-01-04 | 北京智能管家科技有限公司 | 语音识别方法、装置、终端和计算机可读存储介质 |
CN109817220A (zh) * | 2017-11-17 | 2019-05-28 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及系统 |
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN109961775A (zh) * | 2017-12-15 | 2019-07-02 | 中国移动通信集团安徽有限公司 | 基于hmm模型的方言识别方法、装置、设备及介质 |
CN108389573A (zh) * | 2018-02-09 | 2018-08-10 | 北京易真学思教育科技有限公司 | 语种识别方法及装置、训练方法及装置、介质、终端 |
CN108389573B (zh) * | 2018-02-09 | 2022-03-08 | 北京世纪好未来教育科技有限公司 | 语种识别方法及装置、训练方法及装置、介质、终端 |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11907436B2 (en) | 2018-05-07 | 2024-02-20 | Apple Inc. | Raise to speak |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN108694951B (zh) * | 2018-05-22 | 2020-05-22 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
CN108877769A (zh) * | 2018-06-25 | 2018-11-23 | 北京语言大学 | 识别方言种类的方法和装置 |
CN110895932A (zh) * | 2018-08-24 | 2020-03-20 | 中国科学院声学研究所 | 基于语言种类和语音内容协同分类的多语言语音识别方法 |
CN110895932B (zh) * | 2018-08-24 | 2022-05-03 | 中国科学院声学研究所 | 基于语言种类和语音内容协同分类的多语言语音识别方法 |
CN109410914B (zh) * | 2018-08-28 | 2022-02-22 | 江西师范大学 | 一种赣方言语音和方言点识别方法 |
CN109410914A (zh) * | 2018-08-28 | 2019-03-01 | 江西师范大学 | 一种赣方言语音和方言点识别方法 |
WO2020043040A1 (zh) * | 2018-08-30 | 2020-03-05 | 阿里巴巴集团控股有限公司 | 语音识别方法和设备 |
CN110875039B (zh) * | 2018-08-30 | 2023-12-01 | 阿里巴巴集团控股有限公司 | 语音识别方法和设备 |
CN110875039A (zh) * | 2018-08-30 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音识别方法和设备 |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
CN110970018A (zh) * | 2018-09-28 | 2020-04-07 | 珠海格力电器股份有限公司 | 语音识别方法和装置 |
CN111210805A (zh) * | 2018-11-05 | 2020-05-29 | 北京嘀嘀无限科技发展有限公司 | 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置 |
CN111261141A (zh) * | 2018-11-30 | 2020-06-09 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法以及语音识别装置 |
CN109741731A (zh) * | 2019-01-08 | 2019-05-10 | 国家计算机网络与信息安全管理中心 | 一种语种训练数据获得方法及装置 |
CN110491382B (zh) * | 2019-03-11 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
CN110491382A (zh) * | 2019-03-11 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN112489622A (zh) * | 2019-08-23 | 2021-03-12 | 中国科学院声学研究所 | 一种多语言连续语音流语音内容识别方法及系统 |
CN112489622B (zh) * | 2019-08-23 | 2024-03-19 | 中国科学院声学研究所 | 一种多语言连续语音流语音内容识别方法及系统 |
CN110689875A (zh) * | 2019-10-28 | 2020-01-14 | 国家计算机网络与信息安全管理中心 | 一种语种识别方法、装置及可读存储介质 |
CN110930982A (zh) * | 2019-10-31 | 2020-03-27 | 国家计算机网络与信息安全管理中心 | 一种多口音声学模型及多口音语音识别方法 |
CN111312211A (zh) * | 2020-02-21 | 2020-06-19 | 湖南大学 | 一种基于过采样技术的方言语音识别系统 |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
CN111640456B (zh) * | 2020-06-04 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 叠音检测方法、装置和设备 |
CN111640456A (zh) * | 2020-06-04 | 2020-09-08 | 合肥讯飞数码科技有限公司 | 叠音检测方法、装置和设备 |
CN111724766B (zh) * | 2020-06-29 | 2024-01-05 | 合肥讯飞数码科技有限公司 | 语种识别方法、相关设备及可读存储介质 |
CN111724766A (zh) * | 2020-06-29 | 2020-09-29 | 合肥讯飞数码科技有限公司 | 语种识别方法、相关设备及可读存储介质 |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11750962B2 (en) | 2020-07-21 | 2023-09-05 | Apple Inc. | User identification using headphones |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
WO2022143723A1 (zh) * | 2020-12-31 | 2022-07-07 | 中兴通讯股份有限公司 | 语音识别模型训练方法、语音识别方法及相应装置 |
CN112951206A (zh) * | 2021-02-08 | 2021-06-11 | 天津大学 | 基于深层时延神经网络的藏语卫藏方言口语识别方法 |
CN113781999B (zh) * | 2021-09-13 | 2024-02-20 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
CN113781999A (zh) * | 2021-09-13 | 2021-12-10 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104036774B (zh) | 2018-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104036774A (zh) | 藏语方言识别方法及系统 | |
CN110491382B (zh) | 基于人工智能的语音识别方法、装置及语音交互设备 | |
CN107437415B (zh) | 一种智能语音交互方法及系统 | |
KR101922776B1 (ko) | 음성 웨이크업 방법 및 장치 | |
CN107767861B (zh) | 语音唤醒方法、系统及智能终端 | |
CN107665708B (zh) | 智能语音交互方法及系统 | |
CN105632486B (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN105096940B (zh) | 用于进行语音识别的方法和装置 | |
CN106297776B (zh) | 一种基于音频模板的语音关键词检索方法 | |
CN105336324B (zh) | 一种语种识别方法及装置 | |
WO2017076222A1 (zh) | 语音识别方法及装置 | |
CN102723078B (zh) | 基于自然言语理解的语音情感识别方法 | |
CN102982811B (zh) | 一种基于实时解码的语音端点检测方法 | |
CN103077708B (zh) | 一种语音识别系统中拒识能力提升方法 | |
CN107123417A (zh) | 基于鉴别性训练的定制语音唤醒优化方法及系统 | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
CN110534099A (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN105096941A (zh) | 语音识别方法以及装置 | |
CN103117060A (zh) | 用于语音识别的声学模型的建模方法、建模系统 | |
CN106297773A (zh) | 一种神经网络声学模型训练方法 | |
CN107093422B (zh) | 一种语音识别方法和语音识别系统 | |
CN102404278A (zh) | 一种基于声纹识别的点歌系统及其应用方法 | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
CN106782508A (zh) | 语音音频的切分方法和语音音频的切分装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180201 Address after: 100029 Beijing city Chaoyang District Yumin Road No. 3 Applicant after: State Computer Network and Information Safety Management Center Applicant after: Iflytek Co., Ltd. Address before: 100029 Beijing city Chaoyang District Yumin Road No. 3 Applicant before: State Computer Network and Information Safety Management Center |
|
GR01 | Patent grant | ||
GR01 | Patent grant |