CN108510976A

CN108510976A - 一种多语言混合语音识别方法

Info

Publication number: CN108510976A
Application number: CN201710103972.7A
Authority: CN
Inventors: 范利春; 孟猛; 高鹏
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2018-09-07
Anticipated expiration: 2037-02-24
Also published as: WO2018153213A1; US20190378497A1; US11151984B2; CN108510976B

Abstract

本发明公开了一种多语言混合语音识别方法，属于语音识别技术领域；方法包括：步骤S1，配置一包括多种不同语言的多语言混合词典；步骤S2，根据多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型；步骤S3，根据包括多种不同语言的多语言文本语料训练形成一语言识别模型；步骤S4，采用多语言混合词典、声学识别模型以及语言识别模型形成语音识别系统；随后，采用语音识别系统对混合语音进行识别，并输出对应的识别结果。上述技术方案的有益效果是：能够支持多种语言混合语音的识别，提升识别的准确率和效率，因此提高语音识别系统的性能。

Description

一种多语言混合语音识别方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种多语言混合语音识别方法。

背景技术

在日常说话的表达中，人们往往在无意中使用一种语言中夹杂另一种或者另几种语言的表达方式，例如一些英文单词在中文中会直接沿用其原本名字，例如“ipad”、“iphone”、“USB”等专有名词，因此会造成中英文混杂的现象，这种现象会给语音识别带来一定的困难和挑战。

早期的多语言混合语音识别系统的识别原理是分别建立单独的语音识别系统，然后将混合语音切开，并将不同语种的语音片段分别送入对应的语音识别系统中进行识别，最后再将各个语音片段的识别结果合并，以形成混合语音的识别结果。这种识别方法一方面很难保证按照语种对混合语音进行切分的准确性，另一方面每个被切分后形成的语音片段的上下文信息太短，从而影响识别准确率。

近年来，多语言混合语音的识别方法的做法开始发生变化，具体为将单独的语音识别系统进行词典扩充，即使用一种语言的音子集去拼凑另一种语言，例如英语中的“iphone”在中文词典中的发音会被拼凑成“爱疯”。这样的识别方法虽然能够识别出个别不同语种的词汇，但是一方面要求使用者的发音非常怪异(例如“iphone”必须准确发成“爱疯”)，另一方面在识别整句混合语音的准却率会大幅下降。

发明内容

根据现有技术中存在的上述问题，现提供一种多语言混合语音识别方法的技术方案，旨在支持多种语言混合语音的识别，提升识别的准确率和效率，因此提高语音识别系统的性能。

上述技术方案具体包括：

一种多语言混合语音识别方法，其中，首先形成用于识别多语言的混合语音的语音识别系统，形成所述语音识别系统的方法包括：

步骤S1，配置一包括多种不同语言的多语言混合词典；

步骤S2，根据所述多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型；

步骤S3，根据包括多种不同语言的多语言文本语料训练形成一语言识别模型；

步骤S4，采用所述多语言混合词典、所述声学识别模型以及所述语言识别模型形成所述语音识别系统；

随后，采用所述语音识别系统对所述混合语音进行识别，并输出对应的识别结果。

优选的，该多语言混合语音识别方法，其中，所述步骤S1中，采用三音子建模的方式，根据分别对应每种不同语言的单语言词典配置所述多语言混合词典。

优选的，该多语言混合语音识别方法，其中，所述步骤S1中，采用三音子建模的方式配置所述多语言混合词典；

在配置所述多语言混合词典时，对所述多语言混合词典中包括的每种所语言的音子前分别添加一对应的语种标记，以将多种不同语言的音子进行区分。

优选的，该多语言混合语音识别方法，其中，所述步骤S2具体包括：

步骤S21，根据多种不同语言混合的多语言语音数据以及所述多语言混合词典训练形成一声学模型；

步骤S22，对所述多语言语音数据提取语音特征，并采用所述声学模型对所述语音特征进行帧对齐操作，以获得每一帧所述语音特征所对应的输出标签；

步骤S23，将所述语音特征作为所述声学识别模型的输入数据，以及将所述语音特征对应的所述输出标签作为所述声学识别模型的输出层中的输出标签，以训练形成所述声学识别模型。

优选的，该多语言混合语音识别方法，其中，所述声学模型为隐马尔可夫-高斯混合模型。

优选的，该多语言混合语音识别方法，其中，所述步骤S23中，对所述声学识别模型进行训练后，对所述声学识别模型的所述输出层进行调整，具体包括：

步骤S231，分别计算得到每种语言的先验概率，以及计算得到所有种类的语言公用的静音的先验概率；

步骤S232，分别计算得到每种语言的后验概率，以及计算得到所述静音的后验概率；

步骤S233，根据每种语言的先验概率和后验概率，以及所述静音的先验概率和后验概率，调整所述声学识别模型的所述输出层。

优选的，该多语言混合语音识别方法，其中，所述步骤S231中，依照下述公式分别计算得到每种语言的先验概率：

其中，

用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签；

用于表示所述多语言语音数据中所述输出标签为的先验概率；

用于表示所述多语言语音数据中所述输出标签为的总数；

用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签；

用于表示所述多语言语音数据中所述输出标签为的总数；

M_j用于表示所述多语言语音数据中的第j种语言中的状态的总数；

M_sil用于表示所述多语言语音数据中的所述静音的状态的总数。

优选的，该多语言混合语音识别方法，其中，所述步骤S231中，依照下述公式计算得到所述静音的先验概率：

其中，

用于表示所述多语言语音数据中所述输出标签为的总数；

M_sil用于表示所述多语言语音数据中的所述静音的状态的总数；

L用于表示所述多语言语音数据中的所有语言。

优选的，该多语言混合语音识别方法，其中，所述步骤S232中，依照下述公式分别计算得到每种语言的后验概率：

其中，

x用于表示所述语音特征；

用于表示所述多语言语音数据中所述输出标签为的后验概率；

用于表示所述多语言语音数据中第j种语言的第i个状态的所述输入数据；

用于表示所述静音的第i种状态的所述输入数据；

exp用于表示指数函数计算方式。

优选的，该多语言混合语音识别方法，其中，所述步骤S232中，依照下述公式计算得到所述静音的后验概率：

其中，

x用于表示所述语音特征；

用于表示所述静音的第i种状态的所述输入数据；

L用于表示所述多语言语音数据中的所有语言；

exp用于表示指数函数计算方式。

优选的，该多语言混合语音识别方法，其中，所述步骤S2中，所述声学识别模型为深度神经网络的声学模型。

优选的，该多语言混合语音识别方法，其中，所述步骤S3中，采用n-Gram模型训练形成所述语言识别模型，或者采用递归神经网络训练形成所述语言识别模型。

优选的，该多语言混合语音识别方法，其中，形成所述语音识别系统后，首先对所述语音识别系统中不同种类的语言进行权重调整；

进行所述权重调整的步骤包括：

步骤A1，根据真实语音数据分别确定每种语言的后验概率权重值；

步骤A2，根据所述后验概率权重值，分别调整每种语言的后验概率，以完成所述权重调整。

优选的，该多语言混合语音识别方法，其中，所述步骤A2中，依照下述公式进行所述权重调整：

其中，

x用于表示所述语音特征；

a_j用于表示所述多语言语音数据中第j种语言的所述后验概率权重值；

用于表示经过所述权重调整的所述多语言语音数据中所述输出标签为的后验概率。

上述技术方案的有益效果是：提供一种多语言混合语音识别方法，能够支持多种语言混合语音的识别，提升识别的准确率和效率，因此提高语音识别系统的性能。

附图说明

图1是本发明的较佳的实施例中，一种多语言混合语音识别方法中，形成语音识别系统的总体流程示意图；

图2是本发明的较佳的实施例中，多语言混合词典的示意图；

图3是本发明的较佳的实施例中，于图1的基础上，训练形成声学识别模型的流程示意图；

图4是本发明的较佳的实施例中，声学识别模型的结构示意图；

图5是本发明的较佳的实施例中，于图2的基础上，对声学识别模型的输出层进行调整的流程示意图；

图6是本发明的较佳的实施例中，对语音识别系统进行权重调整的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

基于现有技术中存在的上述问题，本发明中提供一种多语言混合语音识别方法，所谓混合语音，是指混合了多种不同语言的语音数据，例如使用者输入语音“我需要一个USB接口”，该段语音中既包括中文语音，也包括英文的专有名词“USB”，则该段语音为混合语音。本发明的其他实施例中，上述混合语音也可以为两种以上语音的混合体，在此不做限制。

上述多语言混合语音识别方法中，首先需要形成用于识别上述混合语音的语音识别系统。该语音识别系统的形成方法具体如图1所示，包括：

步骤S1，配置一包括多种不同语言的多语言混合词典；

步骤S2，根据多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型；

步骤S4，采用多语言混合词典、声学识别模型以及语言识别模型形成语音识别系统。

在形成语音识别系统后，则可以采用语音识别系统对混合语音进行识别，并输出对应的识别结果。

具体地，本实施例中，上述多语言混合词典为包括多种不同语言的混合词典，该混合词典被配置到音子级别。本发明的较佳的实施例中，采用三音子建模的方式配置上述混合词典，能够得到比字建模更稳定的词典模型。另外，由于不同语言的词典中可能包含相同字符表述的音子，因此需要在配置混合词典时对多语言混合词典中包括的每种所语言的音子前分别添加一对应的语种标记，以将多种不同语言的音子进行区分。

例如，中英文的音子集中都包括“b”、“d”等音子。为了加以区分，在所有的英文的音子集前面都添加语种标记(例如添加“en”作为前缀)以将英文的音子集与中文的音子集进行区分，具体如图2所示。

上述语种标记可以为空，例如在混合词典中存在两种语言，则只需要对其中一种语言添加语种标记，即可以将两种语言区分开来。类似地，若混合词典中存在三种语言，则只需要对其中两种语言添加语种标记，即可以将三种语言区分开来，以此类推。

在上述混合词典中，也可以只对可能产生混淆的语种的音子集之间添加语种标记，例如一个混合词典中包括中文、英文以及其他语种，并且其中只有中英文的音子集可能存在混淆的问题，因此只需要在英文的音子集前面添加语种标记即可。

本实施例中，在形成多语言混合词典之后，根据该混合词典和包括多种语言的多语言语音数据训练形成一声学识别模型。具体地，上述多语言语音数据为事先预备好的包括多种不同语言的训练用的混合语音数据，上述混合词典在形成声学识别模型的过程中提供不同种语言的音子。因此，在训练形成多语言混合的声学识别模型的过程中，为了得到混合语言音子的三音子关系，需要准备上述多种语言混合的多语言语音数据，以及依据上述形成的多语言混合词典进行。

本实施例中，随后根据多种语言混合的多语言文本语料训练形成一语言识别模型，并最终将多语言混合词典、声学识别模型和语言识别模型包括在一语音识别系统中，并根据该语音识别系统对使用者输入的包括多种语言的混合语音进行识别，输出识别结果。

本实施例中，经过上述处理后，上述混合语音的识别过程就与现有技术中对于单语种语音的识别过程类似，通过声学识别模型将一段语音数据中的语音特征识别成对应的音子或者字词序列，并且通过语言识别模型将字词序列识别成一个完整的句子，从而完成对混合语音的识别过程。上述识别过程在本文中不再赘述。

综上，本发明技术方案中，首先根据多个单语种的语言词典形成包括多个语种的多语言混合词典，并在其中对不同语种的音子打上语种标记以进行区分。随后根据多语言混合语音数据和多语言混合词典训练形成一声学识别模型，以及根据多语言混合文本语料训练形成一语言识别模型。随后根据多语言混合词典、声学识别模型以及语言识别模型形成一个完整的语音识别系统，以对使用者输入的多语言混合语音进行识别。

本发明的较佳的实施例中，如图3所示，上述步骤S2具体包括：

步骤S21，根据多种不同语言混合的多语言语音数据以及多语言混合词典训练形成一声学模型；

步骤S22，对多语言语音数据提取语音特征，并采用声学模型对语音特征进行帧对齐操作，以获得每一帧语音特征所对应的输出标签；

步骤S23，将语音特征作为声学识别模型的输入数据，以及将语音特征对应的输出标签作为声学识别模型的输出层中的输出标签，以训练形成声学识别模型。

具体地，本实施例中，在训练形成声学识别模型之前，首先根据多种不同语言混合的多语言语音数据训练形成一声学模型。该声学模型可以为一隐马尔可夫-高斯混合(Hidden Markov Model-Gaussian Mixture Model，HMM-GMM)模型。针对三音子建模中面临的参数重估鲁班性问题，在训练形成声学模型的过程中可以选择使用参数共享技术，从而减少参数规模。基于HMM-GMM的声学模型的建模技术目前已经想当成熟，在此不再赘述。

本实施例中，形成上述声学模型后，需要利用该声学模型对上述多语言语音数据进行帧对齐操作，从而将每一帧多语言语音数据中提取的语音特征都对应有一个输出标签。具体地，经过帧对齐后，每一帧语音特征都对应有一个GMM编号。而声学识别模型的输出层中的输出标签是每一帧语音特征对应的标签，因此该声学识别模型的输出层中的输出标签的个数即为HMM-GMM模型中的GMM的个数，每一个输出节点对应一个GMM。

本实施例中，将语音特征作为声学识别模型的输入数据，以及将语音特征对应的输出标签作为声学识别模型的输出层中的输出标签，以训练形成声学识别模型。

如图4所示为本发明的一个实施例中的声学识别模型的大致结构，该声学识别模型为由全连接的神经网络结构建立的深度神经网络模型，该神经网络中共包含7个全连接的神经网络单元，每层具有2048个节点，每两个神经网络中间都包含一个sigmoid非线性单元。其输出层采用softmax非线性单元实现。图4中的s51用于表示该声学识别模型的输出层，L1、L2和L3分别表示输出层上的关联于不同种类的语言的输出标签。

本发明的较佳的实施例中，上述步骤S23中，在对声学识别模型进行训练后，需要针对多语言对声学识别模型的输出层进行调整和先验等操作，具体如图5所示，包括：

步骤S232，分别计算得到每种语言的后验概率，以及计算得到静音的后验概率；

步骤S233，根据每种语言的先验概率和后验概率，以及静音的先验概率和后验概率，调整声学识别模型的输出层。

具体地，本发明的较佳的实施例中，在采用声学识别模型进行语音识别时，对于给定的语音特征，其输出结果的字符串通常由下述公式决定：

其中，用于表示输出结果的字符串，w表示可能的字符串，x表示输入的语音特征，P(w)用于表示上述语言识别模型的概率，P(x|w)用于表示上述声学识别模型的概率。

则上述P(x|w)可以进一步展开为：

其中，x_t用于表示t时刻输入的语音特征，q_t用于表示t时刻绑定的三音子状态，π(q₀)用于表示初始状态为q₀的概率分布，P(x_t|q_t)用于表示q_t状态下，语音特征为x_t的概率。

则上述P(x_t|q_t)可以进一步展开为：

P(x_t|q_t)＝P(q_t|x_t)P(x_t)/P(q_t)； (3)

其中，P(x_t|q_t)为上述声学识别模型的输出层的后验概率，P(q_t)为上述声学识别模型的先验概率，P(x_t)则表示x_t的概率。P(x_t)跟字符串序列不相关，因此可以忽略。

则根据上述公式(3)可以得出，通过计算声学识别模型的输出层的先验概率和后验概率能够对输出结果的字符串进行调整。

本发明的较佳的实施例中，神经网络的先验概率P(q)通常由下述公式计算得到：

其中，Count(qⁱ)用于表示多语言语音数据中标签为qⁱ的总数，N用于表示所有输出标签的总数。

本发明的较佳的实施例中，由于不同种类的语言的训练用语音数据的数量可能不同，因此上述先验概率不能统一计算，需要根据不同种类的语言分别进行计算。

则本发明的较佳的实施例中，上述步骤S231，首先分别计算得到每种语言的先验概率，以及计算得到所有种类的语言公用的静音的先验概率。

首先依照下述公式分别计算得到每种语言的先验概率：

其中，

用于表示多语言语音数据中第j种语言的第i个状态的输出标签；

用于表示多语言语音数据中输出标签为的先验概率；

用于表示多语言语音数据中输出标签为的总数；

用于表示多语言语音数据中的静音的第i种状态的输出标签；

用于表示多语言语音数据中输出标签为的总数；

M_j用于表示多语言语音数据中的第j种语言中的状态的总数；

M_sil用于表示多语言语音数据中的静音的状态的总数。

随后，依照下述公式计算得到静音的先验概率：

其中，

用于表示多语言语音数据中输出标签为的先验概率；

L用于表示多语言语音数据中的所有语言。

本发明的较佳的实施例中，在计算得到上述每种语言的先验概率以及静音的先验概率后，继续计算声学识别模型的后验概率。神经网络输出的后验概率P(q_i|x)通常由输出层计算得到，当输出层为softmax非线性单元实现时，后验概率通常按照下述公式计算得到：

其中，yⁱ用于表示第i个状态下的输入值，N为所有状态的数目。

同样地，在声学识别模型中，不同种类语言的训练数据数量不均衡会造成不同种类语言的状态值计算结果的分布不平衡，因此后验概率仍然需要针对不同种类的语言分别进行计算。

则本发明的较佳的实施例中，上述步骤S232中，依照下述公式分别计算得到每种语言的后验概率：

其中，

x用于表示语音特征；

用于表示多语言语音数据中输出标签为的后验概率；

用于表示多语言语音数据中第j种语言的第i个状态的输入数据；

用于表示静音的第i种状态的输入数据；

exp用于表示指数函数计算方式。

本发明的较佳的实施例中，步骤S232中，依照下述公式计算得到静音的后验概率：

其中，用于表示多语言语音数据中输出标签为的后验概率。

本发明中，利用上述改进的公式(6)-(9)可以计算得到每种语言和静音状态下的先验概率以及后验概率，从而使得声学识别模型能够符合多语言混合建模的输出需求，能够更加精准地对每种语言以及静音状态进行描述。需要注意的是，经过上述公式调整后，先验概率和后验概率的总和均不再为1。

本发明的较佳的实施例中，上述步骤S3中，可以采用n-Gram模型训练形成语言识别模型，或者采用递归神经网络训练形成语言识别模型。上述多语言文本语料中需要包括多语言单独的文本语料，以及多语言混合的文本数据。

本发明的较佳的实施例中，形成语音识别系统后，首先对语音识别系统中不同种类的语言进行权重调整；

进行权重调整的步骤如图6所示，包括：

步骤A2，根据后验概率权重值，分别调整每种语言的后验概率，以完成权重调整。

具体地，本实施例中，形成上述语音识别系统后，由于在训练过程中可能会产生训练数据量不均衡的问题，数据量较多的一种语言会得到相对较大的先验概率，由于最终的识别概率是后验概率除以先验概率，因此训练数据较多的语言实际的识别概率反而偏小，这就会造成识别系统的识别结果可能会倾向于识别出某一种语言而无法识别另一种语言，从而造成识别结果的偏差。

为了解决这个问题，在将上述语音识别系统进行实用之前，需要采用真实的数据作为开发集对其进行实测以对每种语言的权重进行调整。上述权重调整通常应用在声学识别模型输出的后验概率上，因此其公式如下：

其中，

x用于表示语音特征；

用于表示多语言语音数据中输出标签为的后验概率；

a_j用于表示多语言语音数据中第j种语言的后验概率权重值，该后验概率权重值通过上述真实数据组成的开发集对声学识别模型进行实测来确定。

用于表示经过权重调整的多语言语音数据中输出标签为的后验概率。

通过上述劝着哦那个调整后能够使得语音识别系统在不同的应用场景中都能得到很好的识别效果。

在本发明的一个较佳的实施例中，对于一个由中英文混合的语音识别系统中，经过真实数据实测后可以将中文的后验概率权重值设定为1.0，将英文的后验概率权重值设定为0.3，将静音的后验概率权重值设定为1.0。

本发明的其他实施例中，上述后验概率权重值可以通过多次采用不同的真实数据组成的开发集进行反复调整，最终确定最佳的取值。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种多语言混合语音识别方法，其特征在于，首先形成用于识别多语言的混合语音的语音识别系统，形成所述语音识别系统的方法包括：

步骤S1，配置一包括多种不同语言的多语言混合词典；

2.如权利要求1所述的多语言混合语音识别方法，其特征在于，所述步骤S1中，采用三音子建模的方式，根据分别对应每种不同语言的单语言词典配置所述多语言混合词典。

3.如权利要求1所述的多语言混合语音识别方法，其特征在于，所述步骤S1中，采用三音子建模的方式配置所述多语言混合词典；

4.如权利要求1所述的多语言混合语音识别方法，其特征在于，所述步骤S2具体包括：

步骤S21，根据所述多语言语音数据以及所述多语言混合词典训练形成一声学模型；

5.如权利要求4所述的多语言混合语音识别方法，其特征在于，所述声学模型为隐马尔可夫-高斯混合模型。

6.如权利要求4所述的多语言混合语音识别方法，其特征在于，所述步骤S23中，对所述声学识别模型进行训练后，对所述声学识别模型的所述输出层进行调整，具体包括：

7.如权利要求6所述的多语言混合语音识别方法，其特征在于，所述步骤S231中，依照下述公式分别计算得到每种语言的先验概率：

其中，

用于表示所述多语言语音数据中所述输出标签为的总数；

8.如权利要求6所述的多语言混合语音识别方法，其特征在于，所述步骤S231中，依照下述公式计算得到所述静音的先验概率：

其中，

用于表示所述多语言语音数据中所述输出标签为的总数；

L用于表示所述多语言语音数据中的所有语言。

9.如权利要求6所述的多语言混合语音识别方法，其特征在于，所述步骤S232中，依照下述公式分别计算得到每种语言的后验概率：

其中，

x用于表示所述语音特征；

用于表示所述静音的第i种状态的所述输入数据；

exp用于表示指数函数计算方式。

10.如权利要求6所述的多语言混合语音识别方法，其特征在于，所述步骤S232中，依照下述公式计算得到所述静音的后验概率：

其中，

x用于表示所述语音特征；

用于表示所述静音的第i种状态的所述输入数据；

L用于表示所述多语言语音数据中的所有语言；

exp用于表示指数函数计算方式。

11.如权利要求1所述的多语言混合语音识别方法，其特征在于，所述步骤S2中，所述声学识别模型为深度神经网络的声学模型。

12.如权利要求1所述的多语言混合语音识别方法，其特征在于，所述步骤S3中，采用n-Gram模型训练形成所述语言识别模型，或者采用递归神经网络训练形成所述语言识别模型。

13.如权利要求4所述的多语言混合语音识别方法，其特征在于，形成所述语音识别系统后，首先对所述语音识别系统中不同种类的语言进行权重调整；

进行所述权重调整的步骤包括：

14.如权利要求13所述的多语言混合语音识别方法，其特征在于，所述步骤A2中，依照下述公式进行所述权重调整：

其中，

x用于表示所述语音特征；