CN113035170B - 一种基于元音和谐的土耳其语的语音识别方法及系统 - Google Patents
一种基于元音和谐的土耳其语的语音识别方法及系统 Download PDFInfo
- Publication number
- CN113035170B CN113035170B CN201911356247.6A CN201911356247A CN113035170B CN 113035170 B CN113035170 B CN 113035170B CN 201911356247 A CN201911356247 A CN 201911356247A CN 113035170 B CN113035170 B CN 113035170B
- Authority
- CN
- China
- Prior art keywords
- word
- sub
- probability
- vector
- current sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 41
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 60
- 230000006870 function Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 239000000126 substance Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000853 adhesive Substances 0.000 description 1
- 230000001070 adhesive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 206010042772 syncope Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明属于语音识别和自然语言处理技术领域,具体涉及一种基于元音和谐的土耳其语的语音识别方法,该方法包括:将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
Description
技术领域
本发明属于语音识别和自然语言处理技术领域,具体涉及一种基于元音和谐的土耳其语的语音识别方法及系统。
背景技术
语言模型(Language model,LM)是描述词序列概率分布的数学模型,其在自然语言处理相关的应用中发挥着重要的作用。随着深度学习技术的发展,基于深度神经网络(Deep neural network,DNN)的语言模型建模技术在语音识别、机器翻译、文本生成等一系列任务中展现出巨大的潜力。
Benjio等人首先将DNN用于语言模型建模任务中。随后Mikolov等人将递归神经网络(Recurrent neural network,RNN)用于语言模型建模。相比于DNN模型,RNN模型中的递归结构可以有效地对历史信息进行压缩,从而有利于模型学习长时历史信息。
土耳其语是一种典型的黏着语,其特征是在词根的前后粘贴不同的词缀来体现不同的语法功能。一般来说,同一个词根在不同的需求下,可以灵活的产生相当数量的单词。因此,相同规模语料下,通常这类语言统计得到的词表会非常庞大;并且,这类语言的词表通常会随语料增大持续增加。因此,通常需要使用子词作为建模单元。
元音和谐是土耳其语以及其他所有突厥语都遵循的语音规则。土耳其语的元音和谐包括前后元音和谐以及圆唇非圆唇元音和谐。元音分类及元音和谐规则如表1所示:
表1土耳其语元音和谐示意表
所谓和谐就是指一个词内或者与词相关的词缀内含有同一类型的元音。具体来说,前后元音和谐(大和谐)指前元音后跟前元音,后元音后跟后元音。圆唇元音、非圆唇元音和谐(小和谐)指非圆唇元音后跟非圆唇元音,圆唇元音后跟窄的圆唇元音或宽的非圆唇元音。
因此,现有的针对土耳其语的语言方法中,存在当前子词的字母出现的情况会在很大程度上影响下一个词缀的选择的问题。以增加一个表示字母出现情况的特征,用来帮助语言模型预测下一个子词。
发明内容
本发明的目的在于,为解决现有的识别方法存在上述缺陷,本发明提出了一种基于元音和谐的土耳其语的语音识别方法,该方法包括:
将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;
将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;
根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;
按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
作为上述技术方案的改进之一,所述土耳其语子词级别神经网络语言模型的处理过程,具体包括:
将当前子词对应的独热码输入至词向量矩阵,输出当前子词的低维词向量;
截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征;
将当前子词的低维词向量与当前子词的辅助特征串联,并将其输入至长短时记忆神经网络单元的隐层,输出当前子词的隐层特征向量;
将当前子词的隐层特征向量与当前子词的辅助特征串联,获得串联后的特征向量,并将其输入至长短时记忆神经网络单元的softmax层,依据softmax函数:
yt=softmax(We[ht;ft]+be)
其中,yt为下一个子词的预测概率向量;We为仿射矩阵,be为偏置;ht为当前子词的隐层特征向量;ft为当前子词的辅助特征;其中,辅助特征ft表示为到当前子词为止的最后一个元音和辅音,其包含最后一个元音和辅音的独热码;具体来说,土耳其语字母表中包含8个元音21个辅音;因此,最后一个元音和辅音的独热码两部分的维度分别为8和21;最终的辅助特征为最后一个元音和辅音的独热码两部分的串联,即特征长度d=29;
输出下一个子词的预测概率向量yt。
作为上述技术方案的改进之一,所述方法还包括:土耳其语子词级别神经网络语言模型的训练步骤,具体包括:
建立训练集,将训练集中的每个单词拆分成多个子词;
当前子词wt经过在词向量矩阵C的查表操作后,得到该当前子词wt的低维词向量et;其中,C∈RV×m,et∈Rm中,V为词汇表的大小;m为子词级别神经网络语言模型的LSTM单元的隐层单元个数;
截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征ft;
将通过词向量矩阵C得到的低维词向量et与辅助特征ft串联,送入长短时记忆神经网络单元中,得到的输出为当前子词的隐层特征向量ht;其中,ht∈Rm;
将当前子词的隐层特征向量ht通过一层只有一个节点线性层和sigmoid层得到结果zt;其中,该结果zt为该子词级别神经网络语言模型的词边界预测分支的结果;
词边界预测标签gt∈{0,1}为下一子词是否为单词第一个子词;其中,1表示下一次是单词第一次,0表示不是;t时刻对应的损失函数L1为:
L1=-gtlog(zt)-(1-gt)log(1-zt)
其中,zt为该长短时记忆神经网络单元的词边界预测分支的结果;gt为词边界预测标签;
将当前子词的隐层特征向量ht与辅助特征ft串联,通过一层节点个数为子词词表大小的线性层和softmax层,得到下一个子词的预测概率;对应的损失函数L2:
其中,V为词汇表的大小;w(t+1)v为序列第(t+1)子词是否为词表中第vg个单词,是为1,否为0;;(ytv)为输出yt向量中第v个元素;
则最优目标函数L为:
L=αL1+(1-α)L2
其中,α为长短时记忆神经网络单元的损失函数的权重;其中,0≤α≤1;
采用随机梯度下降的方式进行训练,得到土耳其语子词级别神经网络语言模型的参数。
作为上述技术方案的改进之一,所述根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;具体包括:
依次获得所有子词的预测概率后,分别取对数并依次相加:
其中,Ps为第s个候选语句的概率的对数值;|S|为语句中所包含的子词个数;
得到每个候选语句的概率的对数值。
一种基于元音和谐的土耳其语的语音识别系统,该系统包括:
拆分模块,用于将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;
识别模块,用于将每个子词依次输入土耳其语子词级别神经网络语言模型,输出下一个子词的预测概率的对数值;
对数获取模块,用于根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;和
语音获取模块,用于按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述方法。
本发明与现有技术相比的有益效果是:
1)本发明中采用子词级别语言模型,降低输出层单元个数,减少参数量及计算时间;
2)本发明采用的词边界辅助任务,可在训练阶段促使模型学习词边界相关特征的提取,但该模块并不需要在预测阶段使用,即可以在提升性能的情况下,并不增加预测阶段计算量。
附图说明
图1是本发明的一种基于元音和谐的土耳其语的语音识别方法的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提供了一种基于元音和谐的土耳其语的语音识别方法,该方法通过建立子词级别语言模型,该模型使用字母出现信息作为特征,即增加一个表示字母出现情况的特征,用来帮助该语言模型预测下一个子词,进而提示当前子词所使用的元音类型信息,并使用词边界任务作为辅助任务,帮助该模型提高词边界相关信息的提取,从而提高语言模型的性能。
如图1所示,该方法包括:
将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;
具体地,根据语音规则,将待识别语音送入传统的识别模块进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词。
按顺序将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;
具体地,按顺序依次抽取该候选语句中每个子词的对应的独热码,
将每个子词对应的独热码输入土耳其语子词级别神经网络语言模型,输出下一个子词的预测概率向量yt;对下一个子词的预测概率向量yt取对数,获得下一个子词的预测概率的对数值。
其中,所述土耳其语子词级别神经网络语言模型的处理过程,具体包括:
将当前子词对应的独热码输入至词向量矩阵,输出当前子词的低维词向量;
截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征;
将当前子词的低维词向量与当前子词的辅助特征串联,并将其输入至长短时记忆神经网络单元的隐层,输出当前子词的隐层特征向量;
将当前子词的隐层特征向量与当前子词的辅助特征串联,获得串联后的特征向量,并将其输入至长短时记忆神经网络单元的softmax层,依据softmax函数:
yt=softmax(We[ht;ft]+be)
其中,yt为下一个子词的预测概率向量;We为仿射矩阵,be为偏置;ht为当前子词的隐层特征向量;ft为当前子词的辅助特征;其中,辅助特征ft表示为到当前子词为止的最后一个元音和辅音,其包含最后一个元音和辅音的独热码;具体来说,土耳其语字母表中包含8个元音21个辅音;因此,最后一个元音和辅音的独热码两部分的维度分别为8和21;最终的辅助特征为最后一个元音和辅音的独热码两部分的串联,即特征长度d=29;
输出下一个子词的预测概率向量yt。
根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;具体包括:
依次获得所有子词的预测概率后,分别取对数并依次相加:
其中,Ps为第s个候选语句的概率的对数值;|S|为语句中所包含的子词个数;
得到每个候选语句的概率的对数值。
按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
所述方法还包括:土耳其语子词级别神经网络语言模型的训练步骤,具体包括:
建立训练集,将训练集中的每个单词拆分成多个子词;
当前子词wt经过在词向量矩阵C的查表操作后,得到该当前子词wt的低维词向量et;其中,C∈RV×m,et∈Rm中,V为词汇表的大小;m为子词级别神经网络语言模型的LSTM单元的隐层单元个数;
截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征ft;
将通过词向量矩阵C得到的低维词向量et与辅助特征ft串联,送入长短时记忆神经网络单元中,得到的输出为当前子词的隐层特征向量ht;其中,ht∈Rm;
将当前子词的隐层特征向量ht通过一层只有一个节点线性层和sigmoid层得到结果zt;其中,该结果zt为该子词级别神经网络语言模型的词边界预测分支的结果;
词边界预测标签gt∈{0,1}为下一子词是否为单词第一个子词;其中,1表示下一次是单词第一次,0表示不是;t时刻对应的损失函数L1为:
L1=-gtlog(zt)-(1-gt)log(1-zt)
其中,zt为该长短时记忆神经网络单元的词边界预测分支的结果;gt为词边界预测标签;
将当前子词的隐层特征向量ht与辅助特征ft串联,通过一层节点个数为子词词表大小的线性层和softmax层,得到下一个子词的预测概率;对应的损失函数L2:
其中,V为词汇表的大小;w(t+1)v为序列第(t+1)子词是否为词表中第vg个单词,是为1,否为0;;(ytv)为输出yt向量中第v个元素;
则最优目标函数L为:
L=αL1+(1-α)L2
其中,α为长短时记忆神经网络单元的损失函数的权重;其中,0≤α≤1;
采用随机梯度下降的方式进行训练,得到土耳其语子词级别神经网络语言模型的参数,
完成对子词级别神经网络语言模型训练,在训练完成后,在测试阶段,无需计算词边界预测部分,仅需计算输出下一个子词的预测概率向量yt,作为待预测下一个子词wt+1的概率。
本发明还提供了一种基于元音和谐的土耳其语的语音识别系统,该系统包括:
拆分模块,用于将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;具体地,将待识别语音送入传统的识别模块,得到多个候选语句,再将每个候选语句拆分成多个子词;
识别模块,用于将每个子词依次输入土耳其语子词级别神经网络语言模型,输出下一个子词的预测概率的对数值;
对数获取模块,用于根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;和
语音获取模块,用于按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述方法。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于元音和谐的土耳其语的语音识别方法,该方法包括:
将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;
将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;
根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;
按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述土耳其语子词级别神经网络语言模型的处理过程,具体包括:
将当前子词对应的独热码输入至词向量矩阵,输出当前子词的低维词向量;
截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征;
将当前子词的低维词向量与当前子词的辅助特征串联,并将其输入至长短时记忆神经网络单元的隐层,输出当前子词的隐层特征向量;
将当前子词的隐层特征向量与当前子词的辅助特征串联,获得串联后的特征向量,并将其输入至长短时记忆神经网络单元的softmax层,依据softmax函数:
yt=softmax(We[ht;ft]+be)
其中,yt为下一个子词的预测概率向量;We为仿射矩阵,be为偏置;ht为当前子词的隐层特征向量;ft为当前子词的辅助特征;其中,辅助特征ft表示为到当前子词为止的最后一个元音和辅音,其包含最后一个元音和辅音的独热码;具体来说,土耳其语字母表中包含8个元音21个辅音;因此,最后一个元音和辅音的独热码两部分的维度分别为8和21;最终的辅助特征为最后一个元音和辅音的独热码两部分的串联,即特征长度d=29;
输出下一个子词的预测概率向量yt。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:土耳其语子词级别神经网络语言模型的训练步骤,具体包括:
建立训练集,将训练集中的每个单词拆分成多个子词;
当前子词wt经过在词向量矩阵C的查表操作后,得到该当前子词wt的低维词向量et;其中,C∈RV×m,et∈Rm中,V为词汇表的大小;m为子词级别神经网络语言模型的LSTM单元的隐层单元个数;
截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征ft;
将通过词向量矩阵C得到的低维词向量et与辅助特征ft串联,送入长短时记忆神经网络单元中,得到的输出为当前子词的隐层特征向量ht;其中,ht∈Rm;
将当前子词的隐层特征向量ht通过一层只有一个节点线性层和sigmoid层得到结果zt;其中,该结果zt为该子词级别神经网络语言模型的词边界预测分支的结果;
词边界预测标签gt∈{0,1}为下一子词是否为单词第一个子词;其中,1表示下一次是单词第一次,0表示不是;t时刻对应的损失函数L1为:
L1=-gtlog(zt)-(1-gt)log(1-zt)
其中,zt为该长短时记忆神经网络单元的词边界预测分支的结果;gt为词边界预测标签;
将当前子词的隐层特征向量ht与辅助特征ft串联,通过一层节点个数为子词词表大小的线性层和softmax层,得到下一个子词的预测概率;对应的损失函数L2:
其中,V为词汇表的大小;w(t+1)v为序列第(t+1)子词是否为词表中第vg个单词,是为1,否为0;(ytv)为输出yt向量中第v个元素;
则最优目标函数L为:
L=αL1+(1-α)L2
其中,α为长短时记忆神经网络单元的损失函数的权重;其中,0≤α≤1;
采用随机梯度下降的方式进行训练,得到土耳其语子词级别神经网络语言模型的参数。
5.一种基于元音和谐的土耳其语的语音识别系统,其特征在于,该系统包括:
拆分模块,用于将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;
识别模块,用于将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;
对数获取模块,用于根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;和
语音获取模块,用于按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
6.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-4中任一所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356247.6A CN113035170B (zh) | 2019-12-25 | 2019-12-25 | 一种基于元音和谐的土耳其语的语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356247.6A CN113035170B (zh) | 2019-12-25 | 2019-12-25 | 一种基于元音和谐的土耳其语的语音识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113035170A CN113035170A (zh) | 2021-06-25 |
CN113035170B true CN113035170B (zh) | 2022-07-12 |
Family
ID=76458157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911356247.6A Active CN113035170B (zh) | 2019-12-25 | 2019-12-25 | 一种基于元音和谐的土耳其语的语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035170B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995027976A1 (en) * | 1994-04-11 | 1995-10-19 | Hal Trust, L.L.C. | Computer system and computer-implemented process for phonology-based automatic speech recognition |
CN102024026A (zh) * | 2006-04-19 | 2011-04-20 | 谷歌公司 | 用于处理查询词语的方法和系统 |
CN103700367A (zh) * | 2013-11-29 | 2014-04-02 | 安徽科大讯飞信息科技股份有限公司 | 实现黏着语文本韵律短语划分的方法及系统 |
CN105210055A (zh) * | 2013-04-11 | 2015-12-30 | 微软技术许可有限责任公司 | 根据跨语种短语表的断词器 |
US9292489B1 (en) * | 2013-01-16 | 2016-03-22 | Google Inc. | Sub-lexical language models with word level pronunciation lexicons |
CN107506345A (zh) * | 2016-06-14 | 2017-12-22 | 科大讯飞股份有限公司 | 语言模型的构建方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201321927D0 (en) * | 2013-12-11 | 2014-01-22 | Touchtype Ltd | System and method for inputting text into electronic devices |
-
2019
- 2019-12-25 CN CN201911356247.6A patent/CN113035170B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995027976A1 (en) * | 1994-04-11 | 1995-10-19 | Hal Trust, L.L.C. | Computer system and computer-implemented process for phonology-based automatic speech recognition |
CN102024026A (zh) * | 2006-04-19 | 2011-04-20 | 谷歌公司 | 用于处理查询词语的方法和系统 |
US9292489B1 (en) * | 2013-01-16 | 2016-03-22 | Google Inc. | Sub-lexical language models with word level pronunciation lexicons |
CN105210055A (zh) * | 2013-04-11 | 2015-12-30 | 微软技术许可有限责任公司 | 根据跨语种短语表的断词器 |
CN103700367A (zh) * | 2013-11-29 | 2014-04-02 | 安徽科大讯飞信息科技股份有限公司 | 实现黏着语文本韵律短语划分的方法及系统 |
CN107506345A (zh) * | 2016-06-14 | 2017-12-22 | 科大讯飞股份有限公司 | 语言模型的构建方法和装置 |
Non-Patent Citations (6)
Title |
---|
孙杰等.基于CMN网络的低资源柯尔克孜语识别研究.《现代电子技术》.2018,(第24期), * |
李鑫等.面向维吾尔语电话交谈式语音识别的词典设计方法研究.《重庆邮电大学学报(自然科学版)》.2013,(第03期), * |
米吉提·阿不里米提等.基于层次化结构的语言模型单元集优化.《清华大学学报(自然科学版)》.2017,(第03期), * |
艾山·吾买尔等.基于噪声信道的维吾尔语央音原音识别模型.《计算机工程与应用》.2010,(第15期), * |
飞龙等.基于词干的蒙古语语音关键词检测方法的研究.《中文信息学报》.2016,(第01期), * |
饶敏.贵琼语的元音和谐研究.《常熟理工学院学报》.2018,(第04期), * |
Also Published As
Publication number | Publication date |
---|---|
CN113035170A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199727B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN107358948B (zh) | 基于注意力模型的语言输入关联性检测方法 | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111145729B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN107451115B (zh) | 端到端的汉语韵律层级结构预测模型的构建方法及系统 | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
CN111223498A (zh) | 情绪智能识别方法、装置及计算机可读存储介质 | |
CN108021551B (zh) | 一种语料扩展方法及装置 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN113808571B (zh) | 语音合成方法、装置、电子设备以及存储介质 | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN112489634A (zh) | 语言的声学模型训练方法、装置、电子设备及计算机介质 | |
Ashihara et al. | SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge? | |
US10410624B2 (en) | Training apparatus, training method, and computer program product | |
CN113035170B (zh) | 一种基于元音和谐的土耳其语的语音识别方法及系统 | |
CN111814433B (zh) | 一种维吾尔语实体识别的方法、装置和电子设备 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN113806520A (zh) | 基于强化学习的文本摘要生成方法和系统 | |
CN112966510A (zh) | 一种基于albert的武器装备实体抽取方法、系统及存储介质 | |
CN113077785A (zh) | 一种端到端的多语言连续语音流语音内容识别方法及系统 | |
CN111090720A (zh) | 一种热词的添加方法和装置 | |
CN117910482B (zh) | 一种基于深度差异特征的机器译文自动评价方法 | |
CN112037770B (zh) | 发音词典的生成方法、单词语音识别的方法和装置 | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |