CN105336323A - 维语语音识别方法和装置 - Google Patents
维语语音识别方法和装置 Download PDFInfo
- Publication number
- CN105336323A CN105336323A CN201510662027.1A CN201510662027A CN105336323A CN 105336323 A CN105336323 A CN 105336323A CN 201510662027 A CN201510662027 A CN 201510662027A CN 105336323 A CN105336323 A CN 105336323A
- Authority
- CN
- China
- Prior art keywords
- dimension
- acoustic model
- model
- chinese
- speech frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/39—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms
Abstract
本申请提供了一种维语语音识别的方法和装置,包括:将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布;将所述维语语音帧对应的汉语声学模型的高维非线性特征空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型;使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声学模型;使用所述最优自适应声学模型进行维语语音的识别,从而解决了维语语料不足和语音识别准确率低的问题。
Description
技术领域
本申请涉及语音识别技术领域,特别是涉及一种维语语音识别方法和装置。
背景技术
目前,维吾尔族自治区在新疆人口中占有很大的比例。新疆地区官方语言是汉语和维语,由于维吾尔语语音特性,维语与汉语之间的语言差异很大,使少数民族语言文字信息技术的开发与应用成为新疆信息化建设当中不可或缺的一个重要方面。
而研究维吾尔语的语音识别具有重大的研究意义。到目前为止,国外无一机构(包括微软、IBM等跨国公司)从事维语信息处理及维语语音识别系统的开发,所以目前国际上在此领域的研发也是一片空白。
在研发维语语音识别时主要存在以下问题:首先,由于维语属于少数民族语言,数据的采集不易导致训练数据有限不能完全覆盖维语的特点。其次,国内外解决目标语言训练样本短缺的方法都需要经过较长时间的训练,而且还存在训练不充分的问题,从而导致语音识别准确率低的问题。
发明内容
本申请提供一种维语语音识别方法和装置,以解决现有技术中维语语料不足和语音识别准确率低的问题。
为了解决上述问题,本申请公开了一种维语语音识别的方法,包括:将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布;
将所述维语语音帧对应的汉语声学模型的高维非线性特征空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型;
使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声学模型;
使用所述最优自适应声学模型进行维语语音的识别。
优选地,所述汉语声学模型包括输入层和隐藏层。
优选地,所述将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布的步骤包括:
通过所述汉语声学模型的输入层接收维语语音帧对应的声学特征,将所述输入层接收的维语语音帧对应的声学特征进行线性变换,得到汉语声学模型各隐层节点对应的维语语音帧的声学特征的加权和;
将所述加权和通过特定的激活函数进行非线性变换,得到转换后的维语语音帧对应的隐层节点的加权和,将所述转换后的维语语音帧对应的隐层节点的加权和作为后续汉语声学模型的隐藏层的输入;
将隐藏层的输入进行一系列线性变换和非线性变换最终得到所述汉语声学模型的隐藏层的输出结果,从所述输出结果中得到所述汉语声学模型下的维语语音帧对应的汉语声学模型高维非线性特征空间分布。
优选地,所述维语声学模型包括输入层、隐藏层和输出层。
优选地,所述获得重构的自适应声学模型的步骤包括:
通过所述维语声学模型的输入层接收汉语声学模型的隐藏层输出的维语语音帧对应的汉语声学模型的高维非线性特征空间分布;
所述维语声学模型的输入层将接收的维语语音帧对应的汉语声学模型的高维非线性特征空间分布进行线性变换,得到转换后的维语语音帧对应的维语声学模型的高维非线性特征空间分布的加权和;
将所述维语声学模型的高维非线性特征空间分布的加权和进行非线性变换,得到转换后的维语声学模型各隐层节点激活值,将所述转发后的激活值作为所述维语声学模型的后续隐藏层的输入;
将隐藏层的输入进行一系列线性变换和非线性变换后得到所述最终维语声学模型的输出层的输出结果,从所述输出结果中获得重构的自适应声学模型。
优选地,所述遗传算法包括:选择算子、交叉算子和变异算子;
所述使用遗传算法筛选所述重构的自适应声学模型,获得最优的自适应声学模型包括:
将汉语声学模型的层数和维语声学模型的层数进行随机赋值,得到多个一维数组;
使用选择算子从所述多个一维数组中选择满足一定标准的多个一维数组;
使用交叉算子处理满足一定标准的多个一维数组,得到多个交叉后的一维数组;
使用变异算子处理所述多个交叉后的一维数组,得到多个变异后的一维数组;
从多个变异后的一维数组中选择出至少两个变异后的一维数组返回使用交叉算子处理满足一定标准的多个一维数组,得到多个交叉后的一维数组的步骤重复执行,直至找到一个收敛值;
将所述收敛值对应的一维数组作为汉语声学模型的层数和维语声学模型的层数的取值,获取最优的自适应声学模型。
为了解决上述问题,本申请还公开了一种维语语音识别的装置,包括:获取模块,用于将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布;
训练模块,用于将所述维语语音帧对应的汉语声学模型模型的高维非线性特征空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型;
选择模块,用于使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声学模型;
识别模块,用于使用所述最优自适应声学模型进行维语语音的识别。
优选地,所述汉语声学模型包括输入层和隐藏层。
优选地,获取模块将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布包括:
第一转化子模块,用于通过所述汉语声学模型的输入层接收维语语音帧对应的声学特征,将所述输入层接收的维语语音帧对应的声学特征进行线性变换,得到汉语声学模型各隐层节点对应的维语语音帧的声学特征的加权和;
第二转化子模块,用于将所述加权和通过特定激活函数进行非线性变换,得到转换后的维语语音帧对应的隐层节点的加权和,将所述转换后的维语语音帧对应的隐层节点的加权和作为后续汉语声学模型的隐藏层的输入;
第一输出子模块,用于将隐藏层的输入进行一系列线性变换和非线性变换最终得到所述汉语声学模型的隐藏层的输出结果,从所述输出结果中得到所述汉语声学模型下的维语语音帧对应的汉语声学模型的高维非线性特征空间分布。
优选地,所述维语声学模型包括输入层、隐藏层和输出层。
与现有技术相比,本申请包括以下优点:
首先,本申请使用自适应声学模型中的汉语声学模型将维语语音帧对应的声学特征转化为语音帧对应的汉语高维非线性特征空间分布,从而解决了维语训练数据稀疏的问题。
其次,通过使用遗传算法或者穷举法筛选重构的自适应声学模型,获得最优自适应声学模型,使得最优自适应声学模型结构精简,同时提高了维语语音识别的效率,进而彻底解决了在稀疏数据下能够快速进行维语语音的识别。
附图说明
图1是本申请实施例一中的一种维语语音识别方法的流程图;
图2是本申请实施例二中的一种维语语音识别方法的流程图;
图3-a至图3-b是本申请中重构的自适应声学模型的示意图;
图4是本申请中使用遗传算法筛选重构的自适应声学模型的流程图;
图5是本申请使用遗传算法筛选重构的自适应声学模型应用实例的示意图;
图6是本申请实施例三中的一种维语语音识别装置的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请一种维语语音识别的方法,包括:
步骤101:获取汉语声学模型下的维语语音帧对应的高维非线性特征空间分布。
将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入到汉语声学模型中,经过线性变换和非线性变换将汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布,高维含义是神经网络参数量大,维度高;非线性含义是经过了激发函数的非线性变换,所以总的来说高维非线性特征空间分布是把低维声学特征(40*11)变换到一个较高维度(1200^n)的空间中,其中,汉语声学模型包括输入层和多个隐藏层。
声学特征有清音浊音的不同,浊音是由声带颤动发出的周期性脉冲,也就是嗓音(又称乐音)。这类音构成语音中的元音或浊辅音,声学特征可以是维语的声学特征。
自适应声学模型有汉语声学模型和维语声学模型组成,利用汉语声学模型将维语语音帧对应的声学特征转化为对应的汉语声学模型的高维非线性特征空间分布,从而解决了维语训练数据稀疏的问题。
步骤102:获得重构的自适应声学模型。
将维语语音帧对应的汉语声学模型的高维非线性特征空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型,其中,维语声学模型包括输入层、多个隐藏层和输出层。获得重构的自适应声学模型包括训练后的汉语声学模和维语声学模型。
步骤103:使用遗传算法或穷举算法筛选重构的自适应声学模型。
重构的自适应声学模型若选择汉语声学模型的层次过多,维语声学模型的层次较少,则可能导致维语声学模型训练不够充分,自适应声学模型的灵活性得不到完全施展,这种方式虽然能提高模型的训练效率,但却会使系统的识别性能下降;若选择汉语声学模型的层次过少,维语声学模型的层次较多,则可能导致汉语语音信息不能被维语声学模型完全共享,稀疏的维语训练数据依然不足以训练出一个稳定,覆盖全面的维语声学模型;若选择汉语声学模型层次和维语声学模型层次一样多,则可能导致维语声学模型只能共享部分汉语声学信息,自适应声学模型也只能部分稳定,因此本申请提出使用遗传算法或者穷举算法筛选重构的自适应声学模型,获得最优自适应声学模型。
遗传算法(GeneticAlgorithms,GA)是一类借鉴生物界自然选择和自然遗传机制的随机化搜索算法。遗传算法的基本思想是模拟自然选择和自然遗传过程中发生的繁殖、交叉和基因突变现象,在每次迭代中都保留一组候选解,并按适度值评估函数从解群中选取较优的个体,利用遗传算子(选择、交叉和变异)对这些个体进行组合,产生新一代的候选解群,重复此过程,直到满足某种收敛指标为止。
步骤104:使用最优自适应声学模型进行维语语音的识别。
通过本实施例首先,本申请使用自适应声学模型中的汉语声学模型将维语语音帧对应的声学特征转化为语音帧对应的汉语高维非线性特征空间分布,从而解决了维语训练数据稀疏的问题。
其次,通过使用遗传算法或者穷举法筛选重构的自适应声学模型,获得最优自适应声学模型,使得最优自适应声学模型结构精简,同时提高了维语语音识别的效率,进而彻底解决了在稀疏数据下能够快速进行维语语音的识别。
参照图2,示出了本申请实施例二中的一种维语语音识别方法的流程图。
本实施例中,一种维语语音识别方法,包括:
步骤201:获取汉语声学模型下的维语语音帧对应的高维非线性特征空间分布。
通过汉语声学模型的输入层接收维语语音帧对应的声学特征,将所述输入层接收的维语语音帧对应的声学特征进行线性变换,得到汉语声学模型各隐层节点对应的维语语音帧的声学特征的加权和。
将所述维语语音帧的声学特征的加权和通过特定的激活函数进行非线性变换,得到转换后的维语语音帧对应的隐层节点的加权和,将所述转换后的维语语音帧对应的隐层节点加权和作为后续汉语声学模型的隐藏层的输入。
将隐藏层的输入进行一系列线性变换和非线性变换最终得到所述汉语声学模型的隐藏层的输出结果,从所述输出结果中获取所述汉语声学模型下的维语语音帧对应的汉语声学模型的高维非线性特征空间分布。
步骤202:使用维语语音帧对应的汉语声学模型的高维非线性特征空间分布对维语声学模型进行训练。
通过所述维语声学模型的输入层接收汉语声学模型的隐藏层输出的维语语音帧对应的汉语声模型的高维非线性特征空间分布。
所述维语声学模型的输入层将接收维语语音帧对应的汉语声学模型的高维非线性特征空间分布进行线性变换,得到转换后的维语语音帧对应的维语声学模型的高维非线性特征空间分布的加权和;
将所述转换后的高维非线性特征空间分布的加权和进行非线性变换,得到转换后的维语声学模型各隐层节点激活值,将所述转发后的激活值作为所述维语声学模型的后续隐藏层的输入。
将隐藏层的输入进行一系列线性变换和非线性变换后得到所述最终维语声学模型的输出层的输出结果,从所述输出结果中获得重构的自适应声学模型。重构的自适应声学模型如图3-a至图3-b所示。
图3-a或图3-b中维语语音帧对应的声学特征通过汉语声学模型进行训练,获得了汉语声学模型下的维语语音帧对应的高维非线性特征空间分布,从而实现了维语音素与汉语音素之间的共享。
将维语语音帧对应的高维非线性特征空间分布作为维语声学模型的输入,训练维语声学模型,得到重构后的自适应声学模型。重构后的自适应声学模型中的汉语声学模型和维语声学模型的层数均是随机选择的,为了进一步验证重构后的自适应声学模型的稳定性,从而使用遗传算法或穷举法筛选重构的自适应声学模型,从中选择出稳定性最好的自适应声学模型。
步骤203:使用遗传算法或穷举算法筛选重构的自适应声学模型。
第一种方式使用穷举法筛选重构的自适应声学模型,穷举法的基本思想是根据题目的部分条件确定答案的大致范围,并在此范围内对所有可能的情况逐一验证,直到全部情况验证完毕。若某个情况验证符合题目的全部条件,则为本问题的一个解;若全部情况验证后都不符合题目的全部条件,则本题无解。
当重构的自适应声学模型层次较少(如,小于5)时,可简单的选用穷举法。选择过程中,为保证模型训练效率,需保证重构的自适应声学模型中的维语声学模型中隐藏层层数不大于原始模型层次数。
穷举法这种简单的处理过程能给系统设计带来极大的便利,但是随着维语语音系统识别性能和模型训练效率以及自适应声学模型层次的增多,在该系统中时间复杂度趋于O(n3)的穷举法显然会失效。为此,在处理含有大规模隐藏层的自适应声学模型,我们选用遗传算法来进行层次选择。
第二种方式使用遗传算法筛选重构的自适应声学模型,其中,遗传算法包括:选择算子、交叉算子和变异算子。
参见图4,示出了是本申请使用遗传算法筛选重构的自适应声学模型的流程图,该使用遗传算法筛选重构的自适应声学模型,获得最优的自适应声学模型包括:
步骤401:将汉语声学模型的层数和维语声学模型的层数进行随机赋值,得到多个一维数组。
汉语声学模型包括的输入层和隐藏层,相应的置为1或0;将维语声学模型包括的输入层、隐藏层和输出层相应的置为1或0,其中,1表示选中该层,0表示未选中该层。
步骤402:使用选择算子从所述多个一维数组中选择满足一定标准的多个一维数组。
选择算子是为了保证遗传算法的全局搜索能力,采用最优个体保存算子,即父代群体中的最优个体直接进入子代群体中,保证遗传过程中所得到的个体不会被交叉和变异操作所破坏。
一定标准的多个一维数组可以理解为个体适应度高或者个体适应度好的一维数组。
步骤403:使用交叉算子处理满足一定标准的多个一维数组,得到多个交叉后的一维数组。
交叉算子是产生新个体的主要方法,决定了遗传算法的全局搜索能力,在遗传算法中起关键作用。由于参数不是很复杂,变换形式比较单一,所以选择简单有效的单点交换算子。
步骤404:使用变异算子处理所述多个交叉后的一维数组,得到多个变异后的一维数组。
变异算子是产生新个体的辅助方法,它决定了遗传算法的局部搜素能力。变异算子和交叉算子相互配合,可以共同完成对搜索空间的全局搜索和局部搜索。
步骤405:从多个变异后的一维数组中选择出至少两个变异后的一维数组返回使用交叉算子处理满足一定标准的多个一维数组,得到多个交叉后的一维数组的步骤重复执行,直至找到一个收敛值。
步骤406:将所述收敛值对应的一维数组作为汉语声学模型的层数和维语声学模型的层数的取值,获取最优的自适应声学模型。
步骤204:使用最优自适应声学模型进行维语语音的识别。
本实施例,通过使用遗传算法或者穷举法筛选新的自适应声学模型,获得最优自适应声学模型,使得最优自适应声学模型结构精简,同时提高了维语语音识别的效率,进而彻底解决了在稀疏数据下能够快速进行维语语音的识别。
为了本领域技术人员更好的理解本申请限定的技术方案,参见图5示出了本申请使用遗传算法筛选重构的自适应声学模型应用实例的示意图。
为了进一步说明各遗传算子作用下遗传算法的进化过程,我们以汉语声学模型和维语声学模型均为4层结构时为例,具体过程如下:
步骤501:对汉语声学模型和维语声学模型的各层进行随机赋值,得到多个一维数组[11100000]、[10000010]、[10100010]、[10100011]、[11000011]、[10000001]、[00000001]、[00000111]。
步骤502:将[11100000]、[10000010]、[10100010]、[10100011]、[11000011]、[10000001]、[00000001]、[00000111]进行交叉,得到
步骤503:将进行变异,得到
步骤504:产生子代
步骤505:从步骤504选择出最优的一维数组即为
步骤506:将步骤505中选择出的最优的一维数组重复执行步骤502至步骤505直至找到一个收敛值,将收敛值对应的一维数组作为汉语声学模型的层数和维语声学模型的层数的取值,获取最优的自适应声学模型。
参见图6,示出了本申请实施例三中的一种维语语音识别装置的结构框图,具体可以包括:获取模块601,用于将维语语音帧对应的维语声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线性变换将所述汉语声学模型下的维语语音帧的声学特征变换到汉语声学模型的高维非线性特征空间分布。
训练模块602,用于将所述维语语音帧对应的汉语声学模型高维的非线性空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型。
选择模块603,用于使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声学模型。
识别模块604,用于使用所述最优自适应声学模型进行维语语音的识别。
优选地,所述汉语声学模型包括输入层和隐藏层。
优选地,获取模块将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布包括:第一转化子模块,用于通过所述汉语声学模型的输入层接收维语语音帧对应的维语声学特征,将所述输入层接收的维语语音帧对应的维语声学特征进行线性变换,得到汉语声学模型各隐层节点对应的维语语音帧声学特征的加权和。
第二转化子模块,用于将所述汉语声学模型各隐层节点对应的维语语音帧声学特征的加权和通过特定激活函数进行非线性变换,得到转换后的维语语音帧对应的汉语声学模型的各隐层节点的加权和,将所述转换后的维语语音帧对应的汉语声学模型的各隐层节点的的加权和作为后续汉语声学模型的隐藏层的输入。
第一输出子模块,用于将隐藏层的输入进行一系列线性变换和非线性变换最终得到所述汉语声学模型的隐藏层的输出结果,从所述输出结果中得到所述汉语声学模型下的维语语音帧对应的汉语声学模型的高维非线性特征空间分布。
优选地,所述维语声学模型包括输入层、隐藏层和输出层。
优选地,训练模块在所述获得重构的自适应声学模型的包括:接收子模块,用于通过所述维语声学模型的输入层接收汉语声学模型的隐藏层输出的维语语音帧对应的汉语声学模型的高维非线性特征空间分布。
第三转换子模块,用于所述维语声学模型的输入层将接收维语语音帧对应的汉语声学模型的高维非线性特征空间分布进行线性变换,得到转换后的维语语音帧对应的维语声学模型的高维非线性空间分布的加权和。
第四转换子模块,用于将所述维语声学模型的高维非线性特征空间分布的加权和进行非线性变换,得到转换后的维语声学模型各隐层节点激活值,将所述转发后的激活值作为所述维语声学模型的隐藏层的输入。
第二输出子模块,用于将隐藏层的输入进行一系列线性变换和非线性变换后得到所述最终维语声学模型的输出层的输出结果,从所述输出结果中获得新的自适应声学模型。
优选地,所述遗传算法包括:选择算子、交叉算子和变异算子。
选择模块在所述使用遗传算法筛选所述新的自适应声学模型,获得最优的自适应声学模型包括:赋值子模块,用于将汉语声学模型的层数和维语声学模型的层数进行随机赋值,得到多个一维数组。
选择子模块,用于使用选择算子从所述多个一维数组中选择满足一定标准的多个一维数组。
交叉子模块,用于使用交叉算子处理满足一定标准的多个一维数组,得到多个交叉后的一维数组。
变异子模块,用于使用变异算子处理所述多个交叉后的一维数组,得到多个变异后的一维数组。
筛选子模块,用于从多个变异后的一维数组中选择出至少两个变异后的一维数组返回使用交叉算子处理满足一定标准的多个一维数组,得到多个交叉后的一维数组的步骤重复执行,直至找到一个收敛值。
第三输出子模块,用于将所述收敛值对应的一维数组作为汉语声学模型的层数和维语声学模型的层数的取值,获取最优的自适应声学模型。
综上所述,本申请实施例一种维语语音识别装置主要包括以下优点:
首先,本申请使用自适应声学模型中的汉语声学模型将维语语音帧对应的声学特征转化为语音帧对应的汉语高维非线性特征空间分布,从而解决了维语训练数据稀疏的问题。
其次,通过使用遗传算法或者穷举法筛选新的自适应声学模型,获得最优自适应声学模型,使得最优自适应声学模型结构精简,同时提高了维语语音识别的效率,进而彻底解决了在稀疏数据下能够快速进行维语语音的识别。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种维语语音识别方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种维语语音识别的方法,其特征在于,包括:
将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布;
将所述维语语音帧对应的汉语声学模型的高维非线性特征空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型;
使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声学模型;
使用所述最优自适应声学模型进行维语语音的识别。
2.根据权利要求1所述的方法,其特征在于,所述汉语声学模型包括输入层和隐藏层。
3.根据权利要求2所述的方法,其特征在于,所述将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布的步骤包括:
通过所述汉语声学模型的输入层接收维语语音帧对应的声学特征,将所述输入层接收的维语语音帧对应的声学特征进行线性变换,得到汉语声学模型各隐层节点对应的维语语音帧的声学特征的加权和;
将所述加权和通过特定的激活函数进行非线性变换,得到转换后的维语语音帧对应的隐层节点的加权和,将所述转换后的维语语音帧对应的隐层节点的加权和作为后续汉语声学模型的隐藏层的输入;
将隐藏层的输入进行一系列线性变换和非线性变换最终得到所述汉语声学模型的隐藏层的输出结果,从所述输出结果中得到所述汉语声学模型下的维语语音帧对应的汉语声学模型的高维非线性特征空间分布。
4.根据权利要求1所述的方法,其特征在于,所述维语声学模型包括输入层、隐藏层和输出层。
5.根据权利要求4所述的方法,其特征在于,所述获得重构的自适应声学模型的步骤包括:
通过所述维语声学模型的输入层接收汉语声学模型的隐藏层输出的维语语音帧对应的汉语声学模型的高维非线性特征空间分布;
所述维语声学模型的输入层将接收的维语语音帧对应的汉语声学模型的高维非线性特征空间分布进行线性变换,得到转换后的维语语音帧对应的维语声学模型的高维非线性特征空间分布的加权和;
将所述维语声学模型的高维非线性特征空间分布的加权和进行非线性变换,得到转换后的维语声学模型各隐层节点激活值,将所述转换后的激活值作为所述维语声学模型的后续隐藏层的输入;
将隐藏层的输入进行一系列线性变换和非线性变换后得到所述最终维语声学模型的输出层的输出结果,从所述输出结果中获得重构的自适应声学模型。
6.根据权利要求1所述的方法,其特征在于,所述遗传算法包括:选择算子、交叉算子和变异算子;
所述使用遗传算法筛选所述重构的自适应声学模型,获得最优的自适应声学模型包括:
将汉语声学模型的层数和维语声学模型的层数进行随机赋值,得到多个一维数组;
使用选择算子从所述多个一维数组中选择满足一定标准的多个一维数组;
使用交叉算子处理满足一定标准的多个一维数组,得到多个交叉后的一维数组;
使用变异算子处理所述多个交叉后的一维数组,得到多个变异后的一维数组;
从多个变异后的一维数组中选择出至少两个变异后的一维数组返回使用交叉算子处理满足一定标准的多个一维数组,得到多个交叉后的一维数组的步骤重复执行,直至找到一个收敛值;
将所述收敛值对应的一维数组作为汉语声学模型的层数和维语声学模型的层数的取值,获取最优的自适应声学模型。
7.一种维语语音识别的装置,其特征在于,包括:
获取模块,用于将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布;
训练模块,用于将所述维语语音帧对应的汉语声学模型模型的高维非线性特征空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型;
选择模块,用于使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声学模型;
识别模块,用于使用所述最优自适应声学模型进行维语语音的识别。
8.根据权利要求7所述的装置,其特征在于,所述汉语声学模型包括输入层和隐藏层。
9.根据权利要求8所述的装置,其特征在于,获取模块将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布包括:
第一转化子模块,用于通过所述汉语声学模型的输入层接收维语语音帧对应的声学特征,将所述输入层接收的维语语音帧对应的声学特征进行线性变换,得到汉语声学模型各隐层节点对应的维语语音帧的声学特征的加权和;
第二转化子模块,用于将所述加权和通过特定激活函数进行非线性变换,得到转换后的维语语音帧对应的隐层节点的加权和,将所述转换后的维语语音帧对应的隐层节点的加权和作为后续汉语声学模型的隐藏层的输入;
第一输出子模块,用于将隐藏层的输入进行一系列线性变换和非线性变换最终得到所述汉语声学模型的隐藏层的输出结果,从所述输出结果中得到所述汉语声学模型下的维语语音帧对应的汉语声学模型的高维非线性特征空间分布。
10.根据权利要求7所述的装置,其特征在于,所述维语声学模型包括输入层、隐藏层和输出层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510662027.1A CN105336323B (zh) | 2015-10-14 | 2015-10-14 | 维语语音识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510662027.1A CN105336323B (zh) | 2015-10-14 | 2015-10-14 | 维语语音识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105336323A true CN105336323A (zh) | 2016-02-17 |
CN105336323B CN105336323B (zh) | 2018-12-28 |
Family
ID=55286811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510662027.1A Active CN105336323B (zh) | 2015-10-14 | 2015-10-14 | 维语语音识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105336323B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107170453A (zh) * | 2017-05-18 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的跨语种语音转录方法、设备及可读介质 |
WO2018014469A1 (zh) * | 2016-07-22 | 2018-01-25 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN108735199A (zh) * | 2018-04-17 | 2018-11-02 | 北京声智科技有限公司 | 一种声学模型的自适应训练方法及系统 |
CN110459241A (zh) * | 2019-08-30 | 2019-11-15 | 厦门亿联网络技术股份有限公司 | 一种用于语音特征的提取方法和系统 |
WO2021184836A1 (zh) * | 2020-03-20 | 2021-09-23 | 深圳前海微众银行股份有限公司 | 识别模型的训练方法、装置、设备及可读存储介质 |
CN114420111A (zh) * | 2022-03-31 | 2022-04-29 | 成都启英泰伦科技有限公司 | 一种基于一维假设的语音向量距离计算方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021407A (zh) * | 2012-12-18 | 2013-04-03 | 中国科学院声学研究所 | 一种黏着语语音识别方法及系统 |
CN103065632A (zh) * | 2012-12-21 | 2013-04-24 | 中国科学院声学研究所 | 一种用于维吾尔语语音识别的识别单元的选择方法及系统 |
CN103164398A (zh) * | 2011-12-19 | 2013-06-19 | 新疆新能信息通信有限责任公司 | 汉维电子辞典及其自动转译汉维语的方法 |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
-
2015
- 2015-10-14 CN CN201510662027.1A patent/CN105336323B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164398A (zh) * | 2011-12-19 | 2013-06-19 | 新疆新能信息通信有限责任公司 | 汉维电子辞典及其自动转译汉维语的方法 |
CN103021407A (zh) * | 2012-12-18 | 2013-04-03 | 中国科学院声学研究所 | 一种黏着语语音识别方法及系统 |
CN103065632A (zh) * | 2012-12-21 | 2013-04-24 | 中国科学院声学研究所 | 一种用于维吾尔语语音识别的识别单元的选择方法及系统 |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
Non-Patent Citations (3)
Title |
---|
PAWEL SWIETOJANSKI等: ""Unsupervised cross-lingual knowledge transfer in DNN-based LVCSR"", 《SLT 2012,IEEE》 * |
VAN HAI DO等: ""context dependant phone mapping for cross-lingual acoustic modeling"", 《ISCSLP2012,IEEE》 * |
麦麦提艾力·吐尔逊,戴礼荣: ""深度神经网络在维吾尔语大词汇量连续语音识别中的应用"", 《数据采集与处理》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018014469A1 (zh) * | 2016-07-22 | 2018-01-25 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN107170453A (zh) * | 2017-05-18 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的跨语种语音转录方法、设备及可读介质 |
US10796700B2 (en) | 2017-05-18 | 2020-10-06 | Baidu Online Network Technology (Beijing) Co., Ltd. | Artificial intelligence-based cross-language speech transcription method and apparatus, device and readable medium using Fbank40 acoustic feature format |
CN108735199A (zh) * | 2018-04-17 | 2018-11-02 | 北京声智科技有限公司 | 一种声学模型的自适应训练方法及系统 |
CN108735199B (zh) * | 2018-04-17 | 2021-05-28 | 北京声智科技有限公司 | 一种声学模型的自适应训练方法及系统 |
CN110459241A (zh) * | 2019-08-30 | 2019-11-15 | 厦门亿联网络技术股份有限公司 | 一种用于语音特征的提取方法和系统 |
CN110459241B (zh) * | 2019-08-30 | 2022-03-04 | 厦门亿联网络技术股份有限公司 | 一种用于语音特征的提取方法和系统 |
WO2021184836A1 (zh) * | 2020-03-20 | 2021-09-23 | 深圳前海微众银行股份有限公司 | 识别模型的训练方法、装置、设备及可读存储介质 |
CN114420111A (zh) * | 2022-03-31 | 2022-04-29 | 成都启英泰伦科技有限公司 | 一种基于一维假设的语音向量距离计算方法 |
CN114420111B (zh) * | 2022-03-31 | 2022-06-17 | 成都启英泰伦科技有限公司 | 一种基于一维假设的语音向量距离计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105336323B (zh) | 2018-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105336323A (zh) | 维语语音识别方法和装置 | |
CN110377686B (zh) | 一种基于深度神经网络模型的地址信息特征抽取方法 | |
Liu et al. | Tera: Self-supervised learning of transformer encoder representation for speech | |
CN112071329B (zh) | 一种多人的语音分离方法、装置、电子设备和存储介质 | |
Guo et al. | Compression and acceleration of neural networks for communications | |
Burridge | Spatial evolution of human dialects | |
CN103531199B (zh) | 基于快速稀疏分解和深度学习的生态声音识别方法 | |
CN110335584A (zh) | 神经网络生成建模以变换语音发音和增强训练数据 | |
CN108170686A (zh) | 文本翻译方法及装置 | |
Verma et al. | A generative model for raw audio using transformer architectures | |
CN104538024A (zh) | 语音合成方法、装置及设备 | |
Wang et al. | Inductive learning on commonsense knowledge graph completion | |
CN109256118B (zh) | 基于生成式听觉模型的端到端汉语方言识别系统和方法 | |
Hussain et al. | Swishnet: A fast convolutional neural network for speech, music and noise classification and segmentation | |
CN115762536A (zh) | 一种基于桥接Transformer的小样本优化鸟声识别方法 | |
CN110427629A (zh) | 半监督文本简化模型训练方法和系统 | |
CN115877478B (zh) | 一种基于DualGAN的地震资料高分辨率处理方法 | |
Das et al. | Multi-dialect speech recognition in english using attention on ensemble of experts | |
CN111882042B (zh) | 用于液体状态机的神经网络架构自动搜索方法、系统及介质 | |
Xie et al. | KD-CLDNN: Lightweight automatic recognition model based on bird vocalization | |
CN104392716A (zh) | 高表现力的语音合成方法和装置 | |
CN115206284B (zh) | 一种模型训练方法、装置、服务器和介质 | |
CN107464569A (zh) | 声码器 | |
CN108388942A (zh) | 基于大数据的信息智能处理方法 | |
CN108417204A (zh) | 基于大数据的信息安全处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |