CN113035170B

CN113035170B - 一种基于元音和谐的土耳其语的语音识别方法及系统

Info

Publication number: CN113035170B
Application number: CN201911356247.6A
Authority: CN
Inventors: 张鹏远; 刘畅; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2022-07-12
Anticipated expiration: 2039-12-25
Also published as: CN113035170A

Abstract

本发明属于语音识别和自然语言处理技术领域，具体涉及一种基于元音和谐的土耳其语的语音识别方法，该方法包括：将待识别语音进行识别，得到多个候选语句，再将每个候选语句拆分成多个子词；将每个子词依次输入土耳其语子词级别神经网络语言模型，获得下一个子词的预测概率的对数值；根据该候选语句中所有子词的预测概率的对数值，获得该候选语句的概率的对数值；按照从大到小的顺序对各个候选语句的概率的对数值进行排序，将最大概率的对数值对应的候选语句作为语音识别结果。

Description

一种基于元音和谐的土耳其语的语音识别方法及系统

技术领域

本发明属于语音识别和自然语言处理技术领域，具体涉及一种基于元音和谐的土耳其语的语音识别方法及系统。

背景技术

语言模型(Language model,LM)是描述词序列概率分布的数学模型，其在自然语言处理相关的应用中发挥着重要的作用。随着深度学习技术的发展，基于深度神经网络(Deep neural network，DNN)的语言模型建模技术在语音识别、机器翻译、文本生成等一系列任务中展现出巨大的潜力。

Benjio等人首先将DNN用于语言模型建模任务中。随后Mikolov等人将递归神经网络(Recurrent neural network，RNN)用于语言模型建模。相比于DNN模型，RNN模型中的递归结构可以有效地对历史信息进行压缩，从而有利于模型学习长时历史信息。

土耳其语是一种典型的黏着语，其特征是在词根的前后粘贴不同的词缀来体现不同的语法功能。一般来说，同一个词根在不同的需求下，可以灵活的产生相当数量的单词。因此，相同规模语料下，通常这类语言统计得到的词表会非常庞大；并且，这类语言的词表通常会随语料增大持续增加。因此，通常需要使用子词作为建模单元。

元音和谐是土耳其语以及其他所有突厥语都遵循的语音规则。土耳其语的元音和谐包括前后元音和谐以及圆唇非圆唇元音和谐。元音分类及元音和谐规则如表1所示：

表1土耳其语元音和谐示意表

所谓和谐就是指一个词内或者与词相关的词缀内含有同一类型的元音。具体来说，前后元音和谐(大和谐)指前元音后跟前元音，后元音后跟后元音。圆唇元音、非圆唇元音和谐(小和谐)指非圆唇元音后跟非圆唇元音，圆唇元音后跟窄的圆唇元音或宽的非圆唇元音。

因此，现有的针对土耳其语的语言方法中，存在当前子词的字母出现的情况会在很大程度上影响下一个词缀的选择的问题。以增加一个表示字母出现情况的特征，用来帮助语言模型预测下一个子词。

发明内容

本发明的目的在于，为解决现有的识别方法存在上述缺陷，本发明提出了一种基于元音和谐的土耳其语的语音识别方法，该方法包括：

将待识别语音进行识别，得到多个候选语句，再将每个候选语句拆分成多个子词；

将每个子词依次输入土耳其语子词级别神经网络语言模型，获得下一个子词的预测概率的对数值；

根据该候选语句中所有子词的预测概率的对数值，获得该候选语句的概率的对数值；

按照从大到小的顺序对各个候选语句的概率的对数值进行排序，将最大概率的对数值对应的候选语句作为语音识别结果。

作为上述技术方案的改进之一，所述土耳其语子词级别神经网络语言模型的处理过程，具体包括：

将当前子词对应的独热码输入至词向量矩阵，输出当前子词的低维词向量；

截取到当前子词为止的最后一个元音和辅音，并抽取其对应的独热码作为当前子词的辅助特征；

将当前子词的低维词向量与当前子词的辅助特征串联，并将其输入至长短时记忆神经网络单元的隐层，输出当前子词的隐层特征向量；

将当前子词的隐层特征向量与当前子词的辅助特征串联，获得串联后的特征向量，并将其输入至长短时记忆神经网络单元的softmax层，依据softmax函数：

y_t＝softmax(W_e[h_t；f_t]+b_e)

其中，y_t为下一个子词的预测概率向量；W_e为仿射矩阵，b_e为偏置；h_t为当前子词的隐层特征向量；f_t为当前子词的辅助特征；其中，

辅助特征f_t表示为到当前子词为止的最后一个元音和辅音，其包含最后一个元音和辅音的独热码；具体来说，土耳其语字母表中包含8个元音21个辅音；因此，最后一个元音和辅音的独热码两部分的维度分别为8和21；最终的辅助特征为最后一个元音和辅音的独热码两部分的串联，即特征长度d＝29；

输出下一个子词的预测概率向量y_t。

作为上述技术方案的改进之一，所述方法还包括：土耳其语子词级别神经网络语言模型的训练步骤，具体包括：

建立训练集，将训练集中的每个单词拆分成多个子词；

对于当前子词w_t，其输入为该当前子词的独热码；其中，

V表示词汇表的大小；

当前子词w_t经过在词向量矩阵C的查表操作后，得到该当前子词w_t的低维词向量e_t；其中，C∈R^V×m，e_t∈R^m中，V为词汇表的大小；m为子词级别神经网络语言模型的LSTM单元的隐层单元个数；

截取到当前子词为止的最后一个元音和辅音，并抽取其对应的独热码作为当前子词的辅助特征f_t；

将通过词向量矩阵C得到的低维词向量e_t与辅助特征f_t串联，送入长短时记忆神经网络单元中，得到的输出为当前子词的隐层特征向量h_t；其中，h_t∈R^m；

将当前子词的隐层特征向量h_t通过一层只有一个节点线性层和sigmoid层得到结果z_t；其中，该结果z_t为该子词级别神经网络语言模型的词边界预测分支的结果；

词边界预测标签g_t∈{0,1}为下一子词是否为单词第一个子词；其中，1表示下一次是单词第一次，0表示不是；t时刻对应的损失函数L₁为：

L₁＝-g_tlog(z_t)-(1-g_t)log(1-z_t)

其中，z_t为该长短时记忆神经网络单元的词边界预测分支的结果；g_t为词边界预测标签；

将当前子词的隐层特征向量h_t与辅助特征f_t串联，通过一层节点个数为子词词表大小的线性层和softmax层，得到下一个子词的预测概率；对应的损失函数L₂：

其中，V为词汇表的大小；w_(t+1)v为序列第(t+1)子词是否为词表中第vg个单词，是为1，否为0；；(y_tv)为输出yt向量中第v个元素；

则最优目标函数L为：

L＝αL₁+(1-α)L₂

其中，α为长短时记忆神经网络单元的损失函数的权重；其中，0≤α≤1；

采用随机梯度下降的方式进行训练，得到土耳其语子词级别神经网络语言模型的参数。

作为上述技术方案的改进之一，所述根据该候选语句中所有子词的预测概率的对数值，获得该候选语句的概率的对数值；具体包括：

依次获得所有子词的预测概率后，分别取对数并依次相加：

其中，P_s为第s个候选语句的概率的对数值；|S|为语句中所包含的子词个数；

得到每个候选语句的概率的对数值。

一种基于元音和谐的土耳其语的语音识别系统，该系统包括：

拆分模块，用于将待识别语音进行识别，得到多个候选语句，再将每个候选语句拆分成多个子词；

识别模块，用于将每个子词依次输入土耳其语子词级别神经网络语言模型，输出下一个子词的预测概率的对数值；

对数获取模块，用于根据该候选语句中所有子词的预测概率的对数值，获得该候选语句的概率的对数值；和

语音获取模块，用于按照从大到小的顺序对各个候选语句的概率的对数值进行排序，将最大概率的对数值对应的候选语句作为语音识别结果。

本发明还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述方法。

本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述方法。

本发明与现有技术相比的有益效果是：

1)本发明中采用子词级别语言模型，降低输出层单元个数，减少参数量及计算时间；

2)本发明采用的词边界辅助任务，可在训练阶段促使模型学习词边界相关特征的提取，但该模块并不需要在预测阶段使用，即可以在提升性能的情况下，并不增加预测阶段计算量。

附图说明

图1是本发明的一种基于元音和谐的土耳其语的语音识别方法的流程图。

具体实施方式

现结合附图对本发明作进一步的描述。

如图1所示，本发明提供了一种基于元音和谐的土耳其语的语音识别方法，该方法通过建立子词级别语言模型，该模型使用字母出现信息作为特征，即增加一个表示字母出现情况的特征，用来帮助该语言模型预测下一个子词，进而提示当前子词所使用的元音类型信息，并使用词边界任务作为辅助任务，帮助该模型提高词边界相关信息的提取，从而提高语言模型的性能。

如图1所示，该方法包括：

具体地，根据语音规则，将待识别语音送入传统的识别模块进行识别，得到多个候选语句，再将每个候选语句拆分成多个子词。

按顺序将每个子词依次输入土耳其语子词级别神经网络语言模型，获得下一个子词的预测概率的对数值；

具体地，按顺序依次抽取该候选语句中每个子词的对应的独热码，

将每个子词对应的独热码输入土耳其语子词级别神经网络语言模型，输出下一个子词的预测概率向量y_t；对下一个子词的预测概率向量y_t取对数，获得下一个子词的预测概率的对数值。

其中，所述土耳其语子词级别神经网络语言模型的处理过程，具体包括：

y_t＝softmax(W_e[h_t；f_t]+b_e)

输出下一个子词的预测概率向量y_t。

根据该候选语句中所有子词的预测概率的对数值，获得该候选语句的概率的对数值；具体包括：

依次获得所有子词的预测概率后，分别取对数并依次相加：

得到每个候选语句的概率的对数值。

所述方法还包括：土耳其语子词级别神经网络语言模型的训练步骤，具体包括：

建立训练集，将训练集中的每个单词拆分成多个子词；

对于当前子词w_t，其输入为该当前子词的独热码；其中，

V表示词汇表的大小；

L₁＝-g_tlog(z_t)-(1-g_t)log(1-z_t)

则最优目标函数L为：

L＝αL₁+(1-α)L₂

采用随机梯度下降的方式进行训练，得到土耳其语子词级别神经网络语言模型的参数，

完成对子词级别神经网络语言模型训练，在训练完成后，在测试阶段，无需计算词边界预测部分，仅需计算输出下一个子词的预测概率向量y_t，作为待预测下一个子词w_t+1的概率。

本发明还提供了一种基于元音和谐的土耳其语的语音识别系统，该系统包括：

拆分模块，用于将待识别语音进行识别，得到多个候选语句，再将每个候选语句拆分成多个子词；具体地，将待识别语音送入传统的识别模块，得到多个候选语句，再将每个候选语句拆分成多个子词；

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。