CN114398468A

CN114398468A - 一种多语种识别方法和系统

Info

Publication number: CN114398468A
Application number: CN202111499195.5A
Authority: CN
Inventors: 李心广; 马姗娴; 刘聪聪; 张�浩; 陈帅; 何浩鑫; 梁秋璇; 李苏梅; 吴伟源; 何浩然; 朱子曦; 潘妤
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-04-26

Abstract

本发明公开了一种多语种识别方法和系统，所述方法包括：获取用户输入的待识别的语言信息，并判断所述待识别的语言信息为语音信息还是文本信息；当判断所述语言信息为语音信息时，采用预先训练完成的含瓶颈层的深度神经网络模型对语音信息进行非线性变换，以提取深度趋势特征，并分别输入与不同语种类别对应的语种分类模型进行匹配计算，获取输出最大模型概率得分的语种分类模型对应的语种类别；当判断所述语言信息为文本信息时，基于N‑Gram的朴素贝叶斯分类方法识别文本信息的语种类别，从而得到待识别的语言信息的语种类别。采用本发明实施例，能够有效地实现对语言信息的多语种识别，提高多语种识别的准确性和效率，有效提高用户的使用体验。

Description

一种多语种识别方法和系统

技术领域

本发明涉及语种识别技术领域，尤其涉及一种多语种识别方法和系统。

背景技术

自然语言处理是人工智能研究的重要方面，对自然语言的片段所属的语言种类进行识别，是自然语言处理必须要解决的问题。语种识别是多语言智能处理技术中至关重要的前端处理环节，语音的多语种识别技术可以运用于机器翻译、多语言信息检索和服务、跨语言通信系统、多语种语音识别等方面的前端处理。文本的多语种识别技术可应用于多语种语音合成、多语种翻译等方面前端处理。语音及文本多语种识别技术的一个典型应用场景是机器的多语种同声传译系统中的应用。因此，研究语种识别技术，提高语种识别的准确性和便捷性，具有重大意义。

自然语言的语种识别包括语音语种识别和文本语种识别。然而，发明人发现现有技术至少存在如下问题：目前大部分的语种识别智能技术都是针对不同的语言，分别设计独立的语种识别、语言合成和自然语言处理系统。用户在使用时需要先自行选择即将输入的语音或文本的语种类型，若用户选择的语种类型与输入的语音或文本的语种类型不相符，则无法识别该语音或文本，无法实现语音转换或文本翻译的功能，这将导致无法满足用户对混合语种输入的需求，无法提高用户的使用体验。此外，目前的语种识别大多数只能对容易区分的语种，例如汉语、英语等进行识别，对于小语种或者地区方言等易混的语种却难以识别，多语种识别的准确性不高。

发明内容

本发明实施例的目的是提供一种多语种识别方法和系统，其能够有效地实现对语音信息的多语种识别，提高多语种识别的准确性和效率，有效提高用户的使用体验。

为实现上述目的，本发明实施例提供了一种多语种识别方法，包括：

获取用户输入的待识别的语言信息，并判断所述待识别的语言信息的类型；其中，所述类型包括语音信息和文本信息；

当判断所述语言信息为语音信息时，采用预先训练完成的含瓶颈层的深度神经网络模型，对所述语音信息进行非线性变换，以提取所述语音信息的若干深度趋势特征；

将所有所述深度趋势特征分别输入与不同语种类别对应的语种分类模型进行匹配计算，得到不同的所述语种分类模型输出的模型概率得分；其中，所述语种分类模型为采用预设的混合型聚类算法对训练数据进行初始化聚类后训练得到的高斯混合-通用背景模型；所述混合型聚类算法为K-Means聚类算法和层次聚类算法结合的聚类算法；

获取输出最大模型概率得分的语种分类模型对应的语种类别，得到所述语音信息的语种识别结果。

所述多语种识别方法，还包括：

当判断所述语言信息为文本信息时，采用预先训练的基于N-Gram语言模型对所述文本信息进行分析，以将所述文本信息划分为若干个N元组，并确定每一所述N元组在不同语种类别的出现频率；

根据所有所述N元组在不同语种类别的出现频率，以及所述不同语种类别的出现概率，采用预设的朴素贝叶斯分类算法，计算所述文本信息在不同语种类别下的概率得分；

获取最大概率得分对应的语种类别，得到所述文本信息的语种识别结果；

所述预设的朴素贝叶斯分类算法，满足：

其中，

为所述概率得分；l_k为第k个语种类别，k＝1，2...，n，n为语种类别的个数；P(l_k)为第k个语种类别的出现概率，P(w_i|l_k)为第i个N元组w_i在语种类别l_k中的出现频率，i＝1，2...，m，m为所述N元组的个数。

作为上述方案的改进，所述与不同语种类别对应的语种分类模型通过以下步骤训练得到：

获取若干语音数据作为背景训练数据，并采用所述混合型聚类算法对所述背景训练数据进行初始化聚类，得到聚类中心；

将所述聚类中心作为构建通用背景模型的中心初始值，在最大似然准则下采用期望最大化算法对所述通用背景模型进行训练，得到训练完成的通用背景模型；

获取若干标记有语种类别的语音数据作为目标语种训练数据；

根据同一语种类别的目标语种训练数据，采用预设的自适应算法，对训练完成的通用背景模型的参数进行更新，得到所述语种类别对应的高斯混合模型；

根据不同语种类别对应的高斯混合模型，得到所述与不同语种类别对应的语种分类模型。

作为上述方案的改进，所述采用所述混合型聚类算法对所述背景训练数据进行初始化聚类，得到聚类中心，具体包括：

采用K-Means聚类算法对所述背景训练数据中的所有数据节点进行初始化聚类，得到K个初始化聚类；

将得到的所述K个初始化聚类采用层次聚类算法进行合并，以得到至少一个目标聚类；

获取所述目标聚类的聚类中心。

作为上述方案的改进，所述根据同一语种类别的目标语种训练数据，采用预设的自适应算法，对训练完成的通用背景模型的参数进行更新，得到所述语种类别对应的高斯混合模型，具体包括：

计算同一语种类别的所述目标语种训练数据的训练向量X＝{x₁，x₂，...，x_T}在所述通用背景模型的高斯分布混合分量的概率分布：

其中，P_b(i|x_t)表示所述训练向量落入第i个高斯分布混合分量的概率，t＝1，2...，T；ω_i为第i个高斯分布混合分量权重，p_i(x_t)为训练向量在第i个高斯分布混合分量的概率密度函数；ω_j为第j个高斯分布混合分量权重，p_j(x_t)为训练向量在第j个混合分量的概率密度函数，j＝1，2...，M，M为高斯分布混合分量个数，且

根据所述训练向量在所述通用背景模型的高斯分布混合分量的概率分布和所述训练向量，计算所述通用背景模型的高斯分布混合分量的重估参数；所述重估参数包括权重β_i、均值E_i(x)和方差E_i(x²)：

将所述通用背景模型的高斯分布混合分量的重估参数和所述通用背景模型的高斯分布混合分量的原有参数进行融合，得到所述语种类别对应的高斯混合模型的目标参数，以构建所述语种类别对应的高斯混合模型λ_target；

其中，所述目标参数包括权重

均值

和方差

分别为：

所述高斯混合模型λ_target为：

其中，γ为尺度因子，用于保证各权重和为1；

为自适应系数，分别控制权重，均值和方差。

作为上述方案的改进，所述将所有所述深度趋势特征分别输入与不同语种类别对应的语种分类模型进行匹配计算，得到不同的所述语种分类模型输出的模型概率得分，具体包括：

计算每一所述深度趋势特征在所述语种分类模型的各个高斯分布混合分量的得分，作为第一得分；

计算每一所述深度趋势特征在所述通用背景模型的各个高斯分布混合分量的得分，作为第二得分；

计算同一高斯分布混合分量对应的所述第一得分与所述第二得分的对数差，并通过相加得到所述高斯分布混合分量的全体时序列得分；

根据预设的各个高斯分布混合分量的权值，对各个所述高斯分布混合分量的全体时序列得分进行加权处理，得到各个所述高斯分布混合分量的加权全体时序列得分；

获取最大的加权全体时序列得分，作为所述语种分类模型输出的模型概率得分。

作为上述方案的改进，所述含瓶颈层的深度神经网络模型通过以下步骤训练得到：

采用基于受限玻尔兹曼机的无监督预训练方法，对预设的受限玻尔兹曼机神经网络进行训练，并将训练后受限玻尔兹曼机神经网络堆叠形成深度置信网络模型；

初始化所述深度置信网络模型的输入层与输出层之间的网络权重参数，并采用反向传播算法对所述网络权重参数进行更新，得到训练完成的所述含瓶颈层的深度神经网络模型。

作为上述方案的改进，在所述采用预先训练完成的含瓶颈层的深度神经网络模型，对所述语音信息进行非线性变换，以提取所述语音信息的深度趋势特征之前，所述方法还包括：

判断所述语音信息是否为短时语音信息；

当所述语音信息为短时语音信息时，对所述短时语音信息进行语速变化处理，得到处理后的语音信息；

其中，所述语速变化处理为：对所述短时语音信息进行分帧，并获取对所述短时语音信息进行分帧时的帧移，作为第一帧移；对所述第一帧移采用预设的语速变化率进行变换，得到第二帧移；根据所述第二帧移，对分帧后的所述短时语音信息进行叠加相加。

本发明实施例提供了一种多语种识别方法系统，包括：

语言信息获取模块，用于获取用户输入的待识别的语言信息，并判断所述待识别的语言信息的类型；其中，所述类型包括语音信息和文本信息；

深度趋势特征获取模块，用于当判断所述语言信息为语音信息时，采用预先训练完成的含瓶颈层的深度神经网络模型，对所述语音信息进行非线性变换，以提取所述语音信息的若干深度趋势特征；

模型概率得分计算模块，用于将所有所述深度趋势特征分别输入与不同语种类别对应的语种分类模型进行匹配计算，得到不同的所述语种分类模型输出的模型概率得分；其中，所述语种分类模型为采用预设的混合型聚类算法对训练数据进行初始化聚类后训练得到的高斯混合-通用背景模型；所述混合型聚类算法为K-Means聚类算法和层次聚类算法结合的聚类算法；

第一语种识别结果获得模块，用于获取输出最大模型概率得分的语种分类模型对应的语种类别，得到所述语音信息的语种识别结果。

所述多语种识别系统，还包括：

文本出现频率确定模块，用于当判断所述语言信息为文本信息时，采用预先训练的基于N-Gram语言模型对所述文本信息进行分析，以将所述文本信息划分为若干个N元组，并确定每一所述N元组在不同语种类别的出现频率；

概率得分计算模块，用于根据所有所述N元组在不同语种类别的出现频率，以及所述不同语种类别的出现概率，采用预设的朴素贝叶斯分类算法，计算所述文本信息在不同语种类别下的概率得分；

第二语种识别结果获得模块，用于获取最大概率得分对应的语种类别，得到所述文本信息的语种识别结果；

所述预设的朴素贝叶斯分类算法，满足：

其中，

与现有技术相比，本发明实施例公开的多语种识别方法和系统，当待识别的语言信息为语音信息时，采用预先训练完成的含瓶颈层的深度神经网络模型，对所述语音信息进行非线性变换，以提取所述语音信息的若干深度趋势特征，将所有所述深度趋势特征分别输入与不同语种类别对应的语种分类模型进行匹配计算，得到不同的所述语种分类模型输出的模型概率得分，获取输出最大模型概率得分的语种分类模型对应的语种类别，得到所述语音信息的语种识别结果。本发明实施例通过含瓶颈层的深度神经网络模型来提取所述语音信息的深度趋势特征，能够有效的去除与语种信息无关的信息的影响，增强特征对语种的区分准确度，有效提升语种识别的效果；并且，通过改进后的高斯混合-通用背景模型作为语种分类模型，实现对所述语音信息的语种类别的识别，能有效进行易混淆语种的区分，进一步提高对语种类别的识别的效率和准确性，能够应用于多语种语音机器翻译的场合。

当待识别的语言信息为文本信息时，采用基于unicode编码的文本语种识别方法，判断所述文本信息中是否存在易混淆的语种类别。若识别为易混淆语种，采用预先训练的基于N-Gram语言模型对所述文本信息进行分析，以将所述文本信息划分为若干个N元组，并确定每一所述N元组在不同语种类别的出现频率；根据所有所述N元组在不同语种类别的出现频率，以及所述不同语种类别的出现概率，采用预设的朴素贝叶斯分类算法，计算所述文本信息在不同语种类别下的概率得分；获取最大概率得分对应的语种类别，得到所述文本信息的语种识别结果。本发明实施例提出基于N-Gram的朴素贝叶斯分类方法，同时结合unicode编码对文本的语种进行识别，对易混淆语种的区分度更高，可以有效提高语种识别准确度，能够应用于含多语种词组、句子文本的TTS场合，解决多语种语音合成前端的语种识别问题。

附图说明

图1是本发明实施例提供的一种多语种识别方法的流程示意图；

图2是本发明实施例中语音中可用于区分语种的特征的示意图；

图3是本发发明实施例中深度趋势特征的训练和提取过程示意图；

图4是本发明实施例提供的另一种多语种识别方法的流程示意图；

图5是本发明实施例提供的一种多语种识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例提供的一种多语种识别方法的流程示意图。本发明实施例提供的一种多语种识别方法，通过以下步骤S11至S14执行：

S11、获取用户输入的待识别的语言信息，并判断所述待识别的语言信息的类型；其中，所述类型包括语音信息和文本信息；

S12、当判断所述语言信息为语音信息时，采用预先训练完成的含瓶颈层的深度神经网络模型，对所述语音信息进行非线性变换，以提取所述语音信息的若干深度趋势特征；

S13、将所有所述深度趋势特征分别输入与不同语种类别对应的语种分类模型进行匹配计算，得到不同的所述语种分类模型输出的模型概率得分；其中，所述语种分类模型为采用预设的混合型聚类算法对训练数据进行初始化聚类后训练得到的高斯混合-通用背景模型；所述混合型聚类算法为K-Means聚类算法和层次聚类算法结合的聚类算法；

S14、获取输出最大模型概率得分的语种分类模型对应的语种类别，得到所述语音信息的语种识别结果。

当获取到用户输入的待识别的语言信息时，判断所述语音信息是语音信息还是文本信息；当所述语音信息为语音信息时，采用语音信息对应的语种识别方法进行语种类别的识别；当所述语音信息为文本信息时，采用文本信息对应的语种识别方法进行语种类别的识别。

具体地，在获取到所述语音信息后，首先将所述语音信息进行特征提取。

需要说明的是，特征提取是指从语音信号中提取能够反应语种信息的特征。参见图2，是本发明实施例中语音中可用于区分语种的特征的示意图。语音中的特征按照从底层到高层可以按照图2所示进行划分。底层声学特征的提取代价较低，但特征中所含的冗余信息较多，特征区分语种的能力较弱，而高层特征都是建立在底层声学特征的基础上，越往高层，特征区分语种的能力越强，但提取代价就越高。

在本发明实施例中，通过预先训练一个含瓶颈层(bottleneck)的深度神经网络模型DNN来进行语音信息的特征提取，通过对输入的语音信息进行非线性变换得到深度趋势特征(Deep Bottleneck Feature，DBF)。本发明实施例利用深度神经网络模型中强大的非线性表达能力，在底层声学特征和音素状态之间建立深层的信息提取关系，用网络的瓶颈层的输出特征进行语种的区分。DBF特征的提取为底层声学特征以音素单元为目标的学习过程，各种与音素无关的噪声都会被有效抑制，经过多次实验验证，相比于传统的MFCC特征、SDC特征提取，DBF特征中包含的语种信息区分度较大，能够有效的去除与语种信息无关的信息的影响，增强特征对语种的区分准确度，有效提升语种识别的效果。

进一步地，针对不同的语种类别，均对应预先训练一个高斯混合-通用背景模型GMM-UBM(Gauss Mixture Model-Universal Background Model)来拟合深度趋势特征的分布，得到不同语种类别对应的语种分类模型，用于实现对所述语音信息的语种类别的识别。

在本发明实施例中，高斯模型是一个概率分布模型，而足够多的高斯模型混合起来可以一定程度上拟合语种模型的分布。为了解决高斯模型因训练数据不够带来的过拟合问题，在高斯模型的基础上引入通用背景模型，可以减少训练的数据量和参数量，便于快速训练收敛和计算。并且，所述高斯混合-通用背景模型在训练过程中，采用K-Means聚类算法和层次聚类算法结合的聚类算法对训练数据进行初始化聚类，相比于单一的聚类算法，能够有效提高对训练数据的聚类效果，使得训练得到的高斯混合-通用背景模型的语种识别精准性更高。

在获取到所述语音信息的若干DBF特征，将所有所述DBF特征分别输入与不同语种类别对应的语种分类模型进行匹配计算，得到不同的所述语种分类模型输出的模型概率得分，最后，获取输出最大模型概率得分的语种分类模型对应的语种类别，也即为所述语音信息的语种类别。

本发明实施例提供了一种多语种识别方法，当待识别的语言信息为语音信息时，采用预先训练完成的含瓶颈层的深度神经网络模型，对所述语音信息进行非线性变换，以提取所述语音信息的若干深度趋势特征，将所有所述深度趋势特征分别输入与不同语种类别对应的语种分类模型进行匹配计算，得到不同的所述语种分类模型输出的模型概率得分，获取输出最大模型概率得分的语种分类模型对应的语种类别，得到所述语音信息的语种识别结果。本发明实施例通过含瓶颈层的深度神经网络模型来提取所述语音信息的深度趋势特征，能够有效的去除与语种信息无关的信息的影响，增强特征对语种的区分准确度，有效提升语种识别的效果；并且，通过改进后的高斯混合-通用背景模型作为语种分类模型，实现对所述语音信息的语种类别的识别，能有效进行易混淆语种的区分，进一步提高对语种类别的识别的效率和准确性，能够应用于多语种语音机器翻译的场合。

作为优选的实施方式，所述与不同语种类别对应的语种分类模型通过以下步骤S21至S25训练得到：

S21、获取若干语音数据作为背景训练数据，并采用所述混合型聚类算法对所述背景训练数据进行初始化聚类，得到聚类中心；所述混合型聚类算法为K-Means聚类算法和层次聚类算法结合的聚类算法。

优选地，所述采用所述混合型聚类算法对所述背景训练数据进行初始化聚类，得到聚类中心，通过以下步骤S211至S213执行：

S211、采用K-Means聚类算法对所述背景训练数据中的所有数据节点进行初始化聚类，得到K个初始化聚类。

具体地，预先选取一个合适的聚类个数K，计算所述背景训练数据中所有数据节点的平均距离D，并根据所述平均距离D和预设的聚类个数K，计算聚类中心距离阈值Q。接着，计算所述背景训练数据中每两个数据节点之间的距离d，并按由小到大顺序将所有计算出的距离d排序，取d最小的数据结点作为第一个初始聚类中心，然后以所述聚类中心距离阈值Q为最大间隔依次选取剩下的K-1个数据结点作为初始聚类中心，以此确定K个初始聚类中心。

需要说明的是，所述聚类中心距离阈值Q是K个初始聚类中心的选取标准，其取值一般为平均距离D与聚类个数K的商的两倍。

计算每个数据节点到所述K个初始聚类中心的距离，并根据所述每个数据节点到所述K个初始聚类中心的距离对每个数据节点进行划分，依次将其划分到最近的初始聚类中心当中，从而得到K个初始化聚类。

S212、将得到的所述K个初始化聚类采用层次聚类算法进行合并，以得到至少一个目标聚类。

经过步骤S212之后，已经对所述背景训练数据进行数据集合的初始化，接下来采用自下而上的层次聚类算法对所述K个初始化聚类进一步聚类计算。

具体地，计算每两个初始化聚类之间的距离，并根据所述每两个初始化聚类之间的距离，找到两个距离最短的初始化聚类并进行合并，得到合并后的若干个聚类，再继续计算每两个聚类之间的距离，再将两个距离最短的聚类进行合并，重复以上合并操作，直到所有所述初始化聚类合并为一个或者每两个初始化聚类之间距离达到预设的聚类阈值，以得到至少一个目标聚类。

S213、获取所述目标聚类的聚类中心。

采用本发明实施例的技术手段，既可以克服采用单一K-Means聚类算法进行训练数据的初始化聚类，导致由于初始聚类个数K的不确定性而造成的分类不准确问题，又可以避免采用单层次聚类算法进行训练数据的初始化聚类所导致的迭代复杂、计算量大、迭代周期不可预估，而且分裂或合并后的集簇无法再次修正的问题，大大减少层次算法运算的复杂度与迭代深度，且将该混合聚类算法得到的聚类中心作为高斯混合-通用背景模型构建的初始中心，可以避免陷入局部最优。

S22、将所述聚类中心作为构建通用背景模型的中心初始值，在最大似然准则下采用期望最大化算法对所述通用背景模型进行训练，得到训练完成的通用背景模型。

需要说明的是，其算法思想与K-means相近，只不过该算法最终得到的是包含多个高斯混合模型的通用背景模型UBM，每个高斯混合模型都有各自的均值，方差和权重。

S23、获取若干标记有语种类别的语音数据作为目标语种训练数据。

S24、根据同一语种类别的目标语种训练数据，采用预设的自适应算法，对训练完成的通用背景模型的参数进行更新，得到所述语种类别对应的高斯混合模型。

具体地，步骤S24，具体包括步骤S241至S243：

S241、计算同一语种类别的所述目标语种训练数据的训练向量X＝{x₁，x₂，...，x_T}在所述通用背景模型的高斯分布混合分量的概率分布：

概率密度函数p_i(x_t)的计算方式为：

其中，μ_i和E_i分别为均值和方差，d表示维度，j取值为1，2...，M。

S242、根据所述训练向量在所述通用背景模型的高斯分布混合分量的概率分布和所述训练向量，计算所述通用背景模型的高斯分布混合分量的重估参数；所述重估参数包括权重β_i、均值E_i(x)和方差E_i(x²)：

S243、将所述通用背景模型的高斯分布混合分量的重估参数和所述通用背景模型的高斯分布混合分量的原有参数进行融合，得到所述语种类别对应的高斯混合模型的目标参数，以构建所述语种类别对应的高斯混合模型λ_target；

其中，所述目标参数包括权重

均值

和方差

分别为：

上一步收敛得到的

即为所述高斯混合模型的权重、均值和方差，所述高斯混合模型λ_target为：

其中，γ为尺度因子，用于保证各权重和为1，也即：

为自适应系数，分别控制权重，均值和方差。在一种可选的实施方式下，自适应参数的选取用一种简单的方式。即

r作为一个固定关系因子，且r的取值一般在8-20之间。

S25、根据不同语种类别对应的高斯混合模型，作为所述与不同语种类别对应的语种分类模型。

采用本发明实施例的技术手段，在高斯模型的基础上引入通用背景模型，可以解决高斯模型因训练数据不够带来的过拟合问题，可以减少训练的数据量和参数量，便于快速训练收敛和计算。采用K-Means聚类算法和层次聚类算法结合的聚类算法对训练数据进行初始化聚类，相比于单一的聚类算法，能够有效提高对训练数据的聚类效果，使得训练得到的高斯混合-通用背景模型的语种识别精准性更高。

作为优选的实施方式，步骤S13，也即将所有所述深度趋势特征分别输入与不同语种类别对应的语种分类模型进行匹配计算，得到不同的所述语种分类模型输出的模型概率得分，具体包括步骤S131至S135：

S131、计算每一所述深度趋势特征在所述语种分类模型的各个高斯分布混合分量的得分，作为第一得分；

S132、计算每一所述深度趋势特征在所述通用背景模型的各个高斯分布混合分量的得分，作为第二得分；

S133、计算同一高斯分布混合分量对应的所述第一得分与所述第二得分的对数差，并通过相加得到所述高斯分布混合分量的全体时序列得分；

S134、根据预设的各个高斯分布混合分量的权值，对各个所述高斯分布混合分量的全体时序列得分进行加权处理，得到各个所述高斯分布混合分量的加权全体时序列得分；

S135、获取最大的加权全体时序列得分，作为所述语种分类模型输出的模型概率得分。

在本发明实施例中，：由于高斯混合模型GMM是由通用背景模型UBM自适应得来，故UBM模型和每一个语种类别对应的GMM模型都有对应的高斯分布混合分量，每个模型中各混合分量都有一定的权值。

进而，在匹配计算过程中，先计算所述语音信息的每一深度趋势特征在各个语种分类模型中的各个高斯分布混合分量的得分，每一深度趋势特征在所述通用背景模型中的各个高斯分布混合分量的得分，将同一高斯分布混合分量对应的两个得分做对数差，再将所有深度特征趋势对应的对数差相加，得到所述高斯分布混合分量的全体时序列得分，将各高斯分布混合分量的全体时序列得分按照其预设的权重进行加权处理，将加权后的最大得分作为该语种分类模型的模型概率得分。

采用本发明实施例的技术手段，相比传统的模型概率得分算法，能更好得提高语种类别的识别准确率。

作为优选的实施方式，所述含瓶颈层的深度神经网络模型通过以下步骤S31至S32训练得到：

S31、采用基于受限玻尔兹曼机的无监督预训练方法，对预设的受限玻尔兹曼机神经网络进行训练，并将训练后受限玻尔兹曼机神经网络堆叠形成深度置信网络模型；

S32、初始化所述深度置信网络模型的输入层与输出层之间的网络权重参数，并采用反向传播算法对所述网络权重参数进行更新，得到训练完成的所述含瓶颈层的深度神经网络模型。

具体地，所述深度神经网络模型DNN的训练包含两个过程，即预训练和精细调整。参见图3，是本发发明实施例中深度趋势特征的训练和提取过程示意图。

首先，采用基于受限玻尔兹曼机(RBM)的无监督预训练方法，RBM是两层结构的神经网络，包含一个显层和一个隐层，通常隐层节点h＝[h₁,h₂,...,h_H]服从伯努利分布，而显层节点v＝[v₁,v₂,...,v_V]则根据输入的数据分布不同而有所差异。当显层节点为服从高斯分布的输入特征时，RBM的模型则为高斯-伯努利模型，其能量函数相应的表示为：

其中，θ＝{W，a，b}表示RBM模型的参数，W＝W_ij(i＝1,...,V,j＝1,...,H)表示第i个显层节点与第j个隐层节点的网络权重，a_i表示第i个显层节点的偏置，b_j表示第j个隐层节点的偏置，σ_i表示显层节点的方差。

根据能量模型，可以得到显层和隐层变量的概率分布形式为：

其中，Z表示配分函数：

z＝∑_v，hexp(-E(v，h|θ))；

而RBM模型每个观测样本的vt的梯度表示为：

其中，E_model[*]表示确定模型θ时依联合概率p(v，h|θ)所求得的期望，E_data[*]表示确定模型θ时依给定观测数据v_t下h的后验概率p(h|v_t，θ)的期望。

根据上述梯度计算方法，采用随机梯度下降法计算每个batch数据v_b下的平均梯度：

其中，|v_b|表示每个batch的样本数目；

最后采用梯度下降法进行参数的更新：

其中，γ表示学习速率。

在上述的RBM训练方法中，就可以采用逐层训练的方法进行DNN网络参数的RBM预训练。如图3左半部分所示，先给定输入的观测特征训练最底层的高斯-伯努利RBM，在参数训练完成后，将其输出值作为下一层伯努利-伯努利的显层输入，继而训练得到第二层的RBM，以此类推得到所有RBM的训练。之后将各个RBM的参数按照层次关系堆叠起来，就形成了一个深度置信网络DBN。

进一步地，DBN构成了DNN精细调整步骤下的网络参数初始值。接着构造基于交叉熵的损失函数：

其中，θ表示DNN所有参数集合，t_n为带有音素状态的标记矢量，其值为1或0，g(x_n|θ)表示在给定参数下DNN的输出结果。

参数训练采用反向传播BP(Back-Popagation)算法，根据梯度下降来更新参数：

其中，L表示DNN的网络层数，θ^l表示第l层的网络参数。

DNN训练完成后，将中间瓶颈bottleneck层以上的网络参数移除，即可得到后续建模所需的DBF特征图。

需要说明的是，在传统的语音识别任务中，一般都采用左右各5帧的窗长设计，而传统SDC特征在语种识别中的成功应用，说明适当增加底层声学信息的时间窗长能够提升识别性能，故本发明实施例在进行DBF特征提取时所做的一点改进措施是在训练时增加时间窗长，将输入时长增加到21帧。通过训练基于时间窗为21帧的DNN得到的DBF特征，能够涵盖更多的语种信息，有益于提高系统识别效果。

作为优选的实施方式，在所述采用预先训练完成的含瓶颈层的深度神经网络模型，对所述语音信息进行非线性变换，以提取所述语音信息的深度趋势特征之前，所述方法还包括步骤：

判断所述语音信息是否为短时语音信息；当所述语音信息为短时语音信息时，对所述短时语音信息进行语速变化处理，得到处理后的语音信息。

具体地，所述语速变化处理为：对所述短时语音信息进行分帧，并获取对所述短时语音信息进行分帧时的帧移，作为第一帧移；对所述第一帧移采用预设的语速变化率进行变换，得到第二帧移；根据所述第二帧移，对分帧后的所述短时语音信息进行叠加相加。

在本发明实施例中，在对所述语音信息进行特征提取之前，还需要判断所述语音信息是否为短时语音信息。需要说明的是，短时语音由于时长过短(小于10s)，从语段中能提取到的语种信息非常有限，也易受噪音、信道等干扰的影响。

若是短时语音信息，则需要将所述短时语音信息进行语速变换，之后再进行特征提取。

为了提高对短时语音信息的语种识别效果，本发明实施例采用对原始语音信息号进行处理的方式，使用语音时域伸缩的方法来实现短时语音的预处理。语音时域伸缩的方法的原理如下：

将语音以帧长L、帧移S_a进行分帧加窗，通过短时傅里叶变换将每帧信号变换到频域。设输入信号为x，则：

其中，h为窗函数，λ为帧的序列号，k为频率。

计算每帧信号频域的幅度：

以帧长L、帧移S_s将频域信号|(λ，k)|用叠接相加的方法反变换为时域。则对应的语速变化率为：

其中，s_a为对所述短时语音信息进行分帧时的帧移，也即第一帧移；s_s为对所述短时语音信息进行叠加相加时的帧移，也即第二帧移。

采用本发明实施例的技术手段，由于不同语速下同一特征向量所含的信息不同，且对语速做微小的改变后不会引入太多的失真，所以本发明通过改变语速来扩充语段中的信息，提升短时语音语种识别的正确度。通过对原始语音信号的处理以及从语音信号中提取能够有效减少噪音、信道干扰影响的DBF特征，短时语音的语种识别性能将大大提升。

通过实验对比，经过时域拉伸或伸缩后的语音频域并没有太多改变，保证了语音的不失真。语言信息不仅存在于语音信号的频域，也同时存在于时域。将不同语速的语音拼接在一起，丰富了语种信息，弥补了短时语音因时长过短导致语种识别不准确的不足。

参见图4，是本发明实施例提供的另一种多语种识别方法的流程示意图。所述多语种识别方法，还包括步骤S41至S43：

S41、当判断所述语言信息为文本信息时，采用预先训练的基于N-Gram语言模型对所述文本信息进行分析，以将所述文本信息划分为若干个N元组，并确定每一所述N元组在不同语种类别的出现频率；

S42、根据所有所述N元组在不同语种类别的出现频率，以及所述不同语种类别的出现概率，采用预设的朴素贝叶斯分类算法，计算所述文本信息在不同语种类别下的概率得分；

优选地，所述预设的朴素贝叶斯分类算法，满足：

其中，

S43、获取最大概率得分对应的语种类别，得到所述文本信息的语种识别结果。

需要说明的是，根据不同语言Unicode的编码范围，通过判断Unicode所在区间来确定某个字符所处语种类型。由于某些unicode对应的字符可能属于多种语言，因此，无法使用基于unicode编码的文本语种识别方法直接得到最终的语种类别。

在本发明实施例中，当用户输入的待识别的语言信息为文本信息时，首先采用基于unicode编码的文本语种识别方法，判断所述文本信息中是否存在易混淆的语种类别。所述易混淆的语种类别是预先标注的，例如中文和日文为易混淆的语种类别。

具体地，在获取到文本信息之后，根据unicode编码对所述文本信息筛选出数字和符号，对剩下的字符进行识别，若所有字符对应的编码区间都为同一个区间，且该区间为单一语种，则该语种为所述文本信息的所有字符的语种识别结果。若字符对应的编码区间不在同一区间，且这些区间的语种不是已标注的易混淆语种，则根据不同区间对应的语种类别，确定不同字符的语种识别结果。若这些区间的语种是已标注的易混淆语种，则判断所述文本信息中存在易混淆的语种类别。

进而，若识别为易混淆语种，采用基于N-Gram的朴素贝叶斯分类的方法进行识别。

具体地，预先使用多项式朴素贝叶斯分类器，对获取的若干训练数据建立N-Gram语言模型，建立频率表，所述频率表内的数据为每个N元组在某类文本中出现的频次。

需要说明的是，为了避免某个元组未曾出现过导致整体概率为0，使用拉普拉斯进行平滑处理。

在语种识别应用过程中，采用所述训练完成的N-Gram语言模型对所述文本信息进行分析，将所述文本信息划分为若干个N元组w_i，并根据所述频率表，确定每一所述N元组在易混淆语种类别中，不同语种类别l_k的出现频率P(w_i|l_k)；进而根据所有所述N元组在不同语种类别的出现频率P(w_i|l_k)，以及所述不同语种类别的出现概率P(l_k)，根据上述朴素贝叶斯分类算法，即可计算所述文本信息在不同语种类别下的概率得分。

作为举例，对于“东京都渋谷区神宫1丁目2番30号”，该句子中出现较多汉字，若将字与字之间独立进行unicode判别，难以区分该文本属于中文或是日文这两个易混淆语种类别。

将文本“东京都渋谷区神宫1丁目2番30号”去除数字后得到文本“东京都渋谷区神宫丁目番号”，剩下的字符采用4-gram语言模型进行拆分，得到w₁＝东京都渋，w₂＝京都渋谷，w₃＝都渋谷区....w_m＝丁目番号。即：

P(东京都渋谷区神宫前3丁目1番30号|语种)

＝P(东京都渋|语种)P(京都渋谷|语种)...P(丁目番号|语种)

文本特征集合s＝(w₁，w₂，...，w_m)，语种类别L＝(l₁，l₂)，l₁为中文，l₂为日文。结合所述朴素贝叶斯分类算法，因为语种类别的出现概率都是一样的，因此中文和日文的出现概率为1/2，即P(l_k)相同。计算w_i在语种l_k中出现的概率的乘积，乘积结果最大的语种l_k就是文本信息归属的语种。

此种情况下，“东京都渋”、“丁目番号”等组合词串在日文文本中出现的概率远大于在中文文本中该出现的概率，故将该文本语种判定为日文。

本发明实施例提供了一种多语种识别方法，当待识别的语言信息为文本信息时，采用基于unicode编码的文本语种识别方法，判断所述文本信息中是否存在易混淆的语种类别。若识别为易混淆语种，采用预先训练的基于N-Gram语言模型对所述文本信息进行分析，以将所述文本信息划分为若干个N元组，并确定每一所述N元组在不同语种类别的出现频率；根据所有所述N元组在不同语种类别的出现频率，以及所述不同语种类别的出现概率，采用预设的朴素贝叶斯分类算法，计算所述文本信息在不同语种类别下的概率得分；获取最大概率得分对应的语种类别，得到所述文本信息的语种识别结果。本发明实施例提出基于N-Gram的朴素贝叶斯分类方法，同时结合unicode编码对文本的语种进行识别，对易混淆语种的区分度更高，可以有效提高语种识别准确度，能够应用于含多语种词组、句子文本的TTS场合，解决多语种语音合成前端的语种识别问题。

参见图5，是本发明实施例提供的一种多语种识别系统的结构示意图。本发明实施例提供了一种多语种识别方法系统20，包括语言信息获取模块21、深度趋势特征获取模块22、模型概率得分计算模块23和第一语种识别结果获得模块24。

所述语言信息获取模块21，用于获取用户输入的待识别的语言信息，并判断所述待识别的语言信息的类型；其中，所述类型包括语音信息和文本信息；

所述深度趋势特征获取模块22，用于当判断所述语言信息为语音信息时，采用预先训练完成的含瓶颈层的深度神经网络模型，对所述语音信息进行非线性变换，以提取所述语音信息的若干深度趋势特征；

所述模型概率得分计算模块23，用于将所有所述深度趋势特征分别输入与不同语种类别对应的语种分类模型进行匹配计算，得到不同的所述语种分类模型输出的模型概率得分；其中，所述语种分类模型为采用预设的混合型聚类算法对训练数据进行初始化聚类后训练得到的高斯混合-通用背景模型；所述混合型聚类算法为K-Means聚类算法和层次聚类算法结合的聚类算法；

所述第一语种识别结果获得模块24，用于获取输出最大模型概率得分的语种分类模型对应的语种类别，得到所述语音信息的语种识别结果。

所述多语种识别方法系统20，还包括：文本出现频率确定模块25、概率得分计算模块26和第二语种识别结果获得模块27；

所述文本出现频率确定模块25，用于采用预先训练的基于N-Gram语言模型对所述文本信息进行分析，以将所述文本信息划分为若干个N元组，并确定每一所述N元组在不同语种类别的出现频率；

所述概率得分计算模块26，用于根据所有所述N元组在不同语种类别的出现频率，以及所述不同语种类别的出现概率，采用预设的朴素贝叶斯分类算法，计算所述文本信息在不同语种类别下的概率得分；

所述第二语种识别结果获得模块27，用于获取最大概率得分对应的语种类别，得到所述文本信息的语种识别结果。

需要说明的是，本发明实施例提供的一种多语种识别系统用于执行上述实施例的一种多语种识别方法的所有流程步骤，两者的工作原理和有益效果一一对应，因而不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种多语种识别方法，其特征在于，包括：

2.如权利要求1所述的多语种识别方法，其特征在于，所述多语种识别方法，还包括：

所述预设的朴素贝叶斯分类算法，满足：

其中，

为所述概率得分；l_k为第k个语种类别，k＝1，2…，n，n为语种类别的个数；P(l_k)为第k个语种类别的出现概率，P(w_i|l_k)为第i个N元组w_i在语种类别l_k中的出现频率，i＝1，2…，m，m为所述N元组的个数。

3.如权利要求1所述的多语种识别方法，其特征在于，所述与不同语种类别对应的语种分类模型通过以下步骤训练得到：

4.如权利要求3所述的多语种识别方法，其特征在于，所述采用所述混合型聚类算法对所述背景训练数据进行初始化聚类，得到聚类中心，具体包括：

获取所述目标聚类的聚类中心。

5.如权利要求3所述的多语种识别方法，其特征在于，所述根据同一语种类别的目标语种训练数据，采用预设的自适应算法，对训练完成的通用背景模型的参数进行更新，得到所述语种类别对应的高斯混合模型，具体包括：

其中，P_b(i|x_t)表示所述训练向量落入第i个高斯分布混合分量的概率，t＝1，2…，T；ω_i为第i个高斯分布混合分量权重，p_i(x_t)为训练向量在第i个高斯分布混合分量的概率密度函数；ω_j为第j个高斯分布混合分量权重，p_j(x_t)为训练向量在第j个混合分量的概率密度函数，j＝1，2…，M，M为高斯分布混合分量个数，且