CN103400577A

CN103400577A - 多语种语音识别的声学模型建立方法和装置

Info

Publication number: CN103400577A
Application number: CN2013103321461A
Authority: CN
Inventors: 苏丹; 尹钊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-08-01
Filing date: 2013-08-01
Publication date: 2013-11-20
Anticipated expiration: 2033-08-01
Also published as: CN103400577B

Abstract

本发明公开了一种多语种语音识别的声学模型建立方法和装置，所述方法包括：利用全部语音特征数据训练深度神经网络；利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层；以及将所述对应于不同语种的多个输出层合并成为总输出层。本发明公开的多语种语音识别的声学模型建立方法使用深度神经网络建立多语种语音识别的声学模型，实现了对多语种语音的识别，提高了语音识别的准确性。

Description

多语种语音识别的声学模型建立方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种多语种语音识别的声学模型建立方法和装置。

背景技术

现有的多语种语音识别的声学模型建立算法大致可以分为两种，即混合高斯模型（gaussian mixture model,GMM）算法和深度神经网络（deep neuralnetwork,DNN）算法。如果使用混合高斯模型算法建立声学模型，需要建立多个高斯概率密度函数，得到高斯概率密度函数集，每个语音特征的声学得分通过该高斯概率密度函数集的多个高斯概率密度函数的加权求和得到，在根据每个语音特征的声学得分对语音特征进行判决。如果使用深度神经网络算法建立声学模型，需要利用包括语音特征的样本数据训练深度神经网络，根据训练得到的深度神经网络的输出概率对语音特征进行判决。

而在多语种的语音识别系统中，语音识别系统需要处理多个属于不同语种的语音数据，而属于不同语种的语音数据的语音特征有较大差异。但现有技术中，无论混合高斯模型算法还是深度神经网络算法都没有对不同语种的语音数据进行有效的区分，因此最终得到的识别准确率都不高。

发明内容

有鉴于此，本发明提出一种多语种语音识别的声学模型建立方法和装置，能够对不同语种的语音特征进行区分，提高多语种语音识别的精度。

在第一方面，本发明实施例提供了一种多语种语音识别的声学模型建立方法，所述方法包括：

利用全部语音特征数据训练深度神经网络，其中，所述深度神经网络包括一个输入层、多个隐层以及对应于不同语种的多个输出层，所述输入层根据输入的语音特征数据计算输出至最底层的隐层的输出值，所述隐层根据本层的加权值对来自下一层的输入值进行加权求和，得到输出至下一层的输出值，所述输出层根据本层的加权值对来自最上层的隐层的输入值进行加权求和，并根据所述加权求和的结果计算输出概率；

利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层；以及

将所述对应于不同语种的多个输出层合并成为总输出层。

在第二方面，本发明实施例提供了一种多语种语音识别的声学模型建立装置，所述装置包括：

公共特征训练模块，用于利用所有语种的语音特征数据训练深度神经网络，其中，所述深度神经网络包括一个输入层、多个隐层以及对应于不同语种的多个输出层，所述输入层根据输入的语音特征数据计算输出至最底层的隐层的输出值，所述隐层根据本层的加权值对来自下一层的输入值进行加权求和，得到输出至下一层的输出值，所述输出层根据本层的加权值对来自最上层的隐层的输入值进行加权求和，并根据所述加权求和的结果计算输出概率；

语种特征训练模块，用于利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层；以及

输出层合并模块，用于将所述对应于不同语种的多个输出层合并成为总输出层。

本发明通过针对不同语种的公共特征的深度神经网络模型训练，针对不同语种的语种特征的深度神经网络模型训练，以及输出层的合并，使得深度神经网络模型不仅能够对不同语种的公共特征进行识别，还能够对不同语种的语种特征进行识别，提高了对多语种进行语音识别的精度。

附图说明

图1是本发明第一实施例提供的多语种语音识别的声学模型建立方法的流程图。

图2是本发明第一实施例提供的深度神经网络的结构图。

图3是本发明第一实施例提供的输入单元的原理示意图。

图4是本发明第一实施例提供的隐层单元的原理示意图。

图5是本发明第一实施例提供的输出单元的原理示意图。

图6是本发明第一实施例提供的公共特征训练的原理示意图。

图7是本发明第一实施例提供的语种特征训练的原理示意图。

图8是本发明第一实施例提供的输出层合并的原理示意图。

图9是本发明第二实施例提供的多语种语音识别的声学模型建立方法的流程图。

图10是本发明第三实施例提供的多语种语音识别的声学模型建立装置的结构图。

具体实施方式

下面结合附图并通过具体实施例来进一步说明本发明的技术方案。

图1至图8示出了本发明的第一实施例。

图1是本发明第一实施例提供的多语种语音识别的声学模型建立方法的流程图。参见图1，所述多语种语音识别的声学模型建立方法包括：步骤S110，利用全部语音特征数据训练深度神经网络；步骤S120，利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层；以及步骤S130，将所述对应于不同语种的多个输出层合并成为总输出层。

在步骤S110中，利用全部语音特征数据训练深度神经网络。

图2示出了所述深度神经网络的结构。参见图2，所述深度神经网络包括一个输入层201，多个隐层202，以及对应于不同语种的多个输出层203。所述输入层201用于根据输入所述深度神经网络的语音特征数据计算输入至最底层的隐层单元的输出值。所述隐层202用于根据本层的加权值对来自下一层隐层的输入值进行加权求和，计算向上一层隐层输出的输出值。所述输出层203用于根据本层的加权值对来自最上层的隐层单元的输出值进行加权求和，并根据所述加权求和的结果计算输出概率。所述输出概率是所述输出单元输出的，表示输入的语音特征数据是所述输出单元对应的基本语音元素的概率。

所述输入层201包括多个输入单元。图3示出了所述输出单元的结构原理。参见图3，所述输入单元301用于根据输入的语音特征数据311计算输出至最底层的隐层的输出值312。所述输入单元301根据下面的式子计算输出至最底层的隐层的输出值：

y_j＝w_jx (1)。

其中，x表示输入至所述输入单元301的语音特征数据311，w_j表示所述输入单元的加权值，y_j表示所述输入单元向所述最底层的隐层中的第j个隐层单元的输出值。

所述语音特征数据311是对属于不同语种的语音信号进行预处理和特征提取后获得的包括语音特征的数据集。在本实施例中，所述对语音信号的预处理包括对语音信号的采样量化、预加重、加窗分帧、以及端点检测。经过对语音信号的预处理后，语音信号的高频分辨率被提高，所述语音信号变得更加平滑，方便了语音信号的后续处理。所述特征提取是去掉所述语音信号的冗余部分，将代表所述语音信号的本质特征的参数提取出来。在本实施例中，采用美尔频率倒谱系数（Mel frequency cepstrum coefficient,MFCC）算法对所述语音信号进行特征参数提取。

将所述语音特征数据输入至所述输入单元301后，所述输入单元301根据自身的加权值利用输入至所述输入单元的语音特征数据计算向最底层的隐层输出的输出值。

所述多语种语音识别的声学模型包括多个隐层202。每个隐层包括多个隐层单元。图4示出了所述隐层单元的结构原理。参见图4，所述隐层单元401接收来自于下一层隐层中的隐层单元的输入值411，根据本层的加权值对来自于下一层隐层中的隐层单元的输入值411进行加权求和，并将加权求和的结果作为输出至上一层隐层的隐层单元的输出值412。所述隐层单元401根据自身的加权值利用下一层隐层单元的输入值411计算向上一层隐层单元输出的输出值412。具体的计算公式如下：

y_{j} = \underset{i}{Σ} w_{ij} x_{i} - - - (2) .

其中，x_i表示来自于下一层隐层中的第i个隐层单元的输入值，w_ij表示所述隐层单元的加权值，y_j表示所述隐层单元输出至上一层隐层中的第j个隐层单元的输出值。

所述多语种语音识别的声学模型包括多个输出层203。所述多个输出层的数量与所述多语种语音识别的声学模型的语种的数量相同。所述输出层203包括多个输出单元，每个输出层的输出单元的数量与所述输出层对应的语种所包括的基本语音元素的个数相同。图5示出了所述输出单元的结构原理。参见图5，所述输出单元501接收来自于最上层隐层中的隐层单元的输入值511，根据本层的加权值对来自于最上层隐层中的隐层单元的输入值进行加权求和，再根据加权求和的结果利用softmax函数计算输出概率512。对来自于最上层隐层中的隐层单元的输入值进行加权求和的计算公式如下：

y = \underset{i}{Σ} w_{i} x_{i} - - - (3) .

在式(3)中，x_i表示来自最上层隐层中的第i个隐层单元的输入值，w_i表示所述输出单元的加权值，y表示所述输出单元的加权求和结果。根据来自最上层隐层中的第i个隐层单元的输入值，以及所述输出单元的加权值计算得到所述输出单元的加权求和结果后，利用softmax函数计算所述输出单元的输出函数。所述softmax函数如下：

p_{j} = \frac{\exp (x_{j})}{Σ_{k} \exp (x_{k})} - - - (4) .

其中，p_j表示所述输出层中第j个输出单元的输出概率，x_j表示所述第j个输出单元的加权求和结果，k表示输出层中输出单元的序号，x_k表示第k个输出单元的加权求和结果。

所述输出单元利用自身的加权值对来自最顶层的隐层单元的输入值进行加权求和，得到所述输出单元的加权求和结果，再利用所述加权求和结果根据softmax函数求得所述输出单元的输出概率。所述输出概率表示输入所述多语种语音识别的声学模型的语音特征数据属于所述输出单元所对应的基本语音元素的概率。

本领域技术人员应该理解，由于不同的输出单元输出了所述语音特征数据属于所述输出单元所对应的基本语音元素的概率，所以可以根据不同的输出单元的输出概率判决所述语音特征数据是何种语言的哪个基本语音元素。

本领域技术人员还应该理解，在根据不同的输出单元的输出概率判断所述语音特征数据是何种语言的哪个基本语音元素后，经过其他附加模块的处理，可以输出所述语音特征数据对应的文本数据。

在确定了所述多语种语音识别的声学模型的结构，即所述深度神经网络的结构以后，需要确定所述深度神经网络的各层的加权值。所述加权值包括所述输入层的加权值、所述多个隐层的加权值、以及所述输出层的加权值。也就是说，需要对所述深度神经网络进行训练。在本实施例中，对所述深度神经网络的训练包括利用全部语音特征数据训练深度神经网络，即公共特征训练，以及利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层，即语种特征训练。

图6是本发明第一实施例提供的公共特征训练的原理示意图。参见图6，当利用全部语音特征数据训练深度神经网络时，将全部语音特征数据从所述深度神经网络的输入层输入至所述深度神经网络，得到所述深度神经网络的输出概率，计算所述输出概率与所述期望输出概率之间的误差，并根据所述深度神经网络的输出概率与所述期望输出概率之间的误差调整所述深度神经网络的隐层的加权值。

在本实施例的一个优选实施方式中，采用最速下降算法作为利用所述输出概率与所述期望输出概率之间的误差调整所述深度神经网络的隐层的加权值的算法。

在步骤S120中，利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层。

利用全部语音特征数据对所述深度神经网络进行训练后，由于所述深度神经网络的隐层的加权值经过了根据期望输出概率的调整，所述深度神经网络具有对所有语种的语音特征数据的公共特征进行识别的特性。但是，不同语种具有不同的语音特征。仅仅经过针对公共特征的深度神经网络训练，所述深度神经网络虽然可以对不同语种的语音特征数据进行识别，但是识别准确率不高。因此，需要针对不同语种的语音特征数据分别对所述深度神经网络进行训练。

在本实施例中，针对不同语种的语音特征数据对所述深度神经网络分别进行训练是利用不同语种的语音特征数据对对应于不同语种的多个输出层进行训练。例如，加入所述多语种语音识别的声学模型能够对M个语种的语音进行识别，则所述深度神经网络具有M个对应于不同语种的输出层。每个输出层包括多个输出单元，每个输出单元对应于相应语种中的一个基本语音元素。

图7是本发明第一实施例提供的语种特征训练的原理示意图。参见图7，当利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层时，将属于不同语种的语音特征数据分别输入至所述深度神经网络。将属于不同语种的语音特征数据分别输入至所述深度神经网络后，只对所述深度神经网络的输出层的加权值进行训练，并不对所述深度神经网络的输入层及隐层的加权值进行训练。更加具体的，将属于特定语种的语音特征数据输入至所述深度神经网络后，只对所述深度神经网络中对应于所述特定语种的输出层的加权值进行训练，对对应于其他语种的输出层的加权值不进行训练。

对于所述输出层的加权值的训练是根据所述输出层的输出概率与期望输出概率之间的误差进行的。经过对所述对应于不同语种的多个输出层的训练，即对所述对应于不同语种的多个输出层的加权值的训练，所述对应于不同语种的多个输出层对不同语种的语音特征数据的输出概率与所述期望输出概率相同。

在步骤S130中，将所述对应于不同语种的多个输出层合并成为总输出层。

在利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层之后，将所述对应于不同语种的多个输出层合并成为总输出层。所述步骤S130包括：子步骤S131，将不同语种中具有相似发音的基本语音元素对应的输出单元合并；以及子步骤S132，保留与其他语种的基本语音元素没有相似发音的基本语音元素对应的输出单元。

在子步骤S131中，将不同语种中具有相似发音的基本语音元素对应的输出单元合并。

属于不同语种的基本语音元素有时会具有相似的声学特征。比如，汉语拼音中韵母“a”的发音与英文中音标|a:|的发音相似，即它们具有相似的声学特征。在本实施例中，为了将所述对应于不同语种的多个输出层合并成为一个总输出层，需要将不同语种中的具有相似声学特征的基本语音元素对应的输出单元合并。

是否将至少两个输出单元合并，主要依据所述输出单元对应的语音元素的声学波形。如果至少两个属于不同语种的语音元素的声学波形相似度高于预定的相似度阈值，则需要将所述至少两个属于不同语种的语音元素对应的输出单元进行合并；如果一个语音元素的跟其他任何语音元素的声学波形的相似度都不高于预定的相似度阈值，则不需要将所述语音元素对应的输出单元与其他任何输出单元进行合并。

合并后的输出单元的加权值根据合并前的对应于不同语种的输出单元的加权值的加权求和来确定。也就是说，所述合并后的输出单元的加权值是：

w_{j} = Σ_{i}^{N} p_{i} w_{ij} - - - (5) .

在式(5)中，w_j是合并后的输出单元关于最上层的隐层中的第j个隐层单元的输入值的加权值，w_ij是合并前的第i个输出单元关于最上层的隐层中的第j个隐层单元的输入值的加权值，p_i是合并前的第i个输出单元的加权值在所述加权求和运算中的加权比例，N是合并前的需要合并的输出单元的个数。合并后的输出单元按照合并后的加权值计算所述输出单元的加权求和结果。

在子步骤S132中，保留与其他语种的基本语音元素没有相似发音的基本语音元素对应的输出单元。

如果合并前的一个输出单元对应的基本语音元素的声学波形较为独特，使得合并前在其他语种对应的输出层中找不到与之有相似发音的基本语音元素对应的输出单元，则不需要对所述合并前的输出单元与其他输出单元进行合并，而是将所述合并前的输出单元保留在合并后的总输出层中。

经过子步骤S131和子步骤S132的处理，合并前对应于多个语种的多个输出层被合并成为总输出层。本领域技术人员应该理解，由于输出层合并时对不同语种对应的部分输出单元进行了合并，所述总输出层中输出单元的数量应该小于或者等于合并前的多个输出层中输出单元的总和。

图8是本发明第一实施例提供的输出层合并的原理示意图。参见图8，在进行输出层合并前，所述深度神经网络包括对应于不同语种的M个输出层801，而在进行输出层合并后，所述深度神经网络只包括一个总输出层802。并且，所述总输出层802输出语音特征数据属于不同语种的全部基本语音元素的概率。

本实施例通过利用不同语种的语音特征数据训练所述深度神经网络的隐层，再利用属于不同语种的语音特征数据训练对应于不同语种的多个输出层，最后根据基本语音元素的声学波形对多个输出层进行合并，建立了能够多个语种的语音数据进行识别的声学模型，提高了对不同语种的语音进行识别的准确率。

图9示出了本发明的第二实施例。

图9是本发明第二实施例提供的多语种语音识别的声学模型建立方法的流程图。参见图9，所述多语种语音识别的声学模型建立方法包括：步骤S910，利用全部语音特征数据训练深度神经网络；步骤S920，利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层；步骤S930，将所述对应于不同语种的多个输出层合并成为总输出层；以及步骤S940，依据不同语种的语音特征数据的数据规模，对所述输入层中不同语种的加权值进行调整。

在本实施例中，步骤S910与本发明第一实施例中的步骤S110相同；步骤S920与本发明第一实施例中的步骤S120相同；步骤S930与本发明第一实施例中的步骤S930相同。因此，对本实施例中的步骤S910、步骤S920以及步骤S930在此不再赘述。本实施例与本发明第一实施例的不同之处在于与本发明第一实施例相比，本实施例增加了步骤S940，即依据不同语种的语音特征数据的数据规模，对所述输入层中不同语种的加权值进行调整。

同本发明第一实施例中的步骤S130相同，本实施例中步骤S930同样包括将不同语种中具有相似发音的基本语音元素对应的输出单元合并的子步骤。对不同语种中具有相似发音的基本语音元素对应的输出单元进行合并的过程依照下面的式子进行：

w_{j} = Σ_{i}^{N} p_{i} w_{ij} - - - (6) .

在式(6)中，p_i表示合并前的第i个输出单元的加权值在所述加权求和运算中的加权比例，即第i个输出单元对应的语种的加权值。所述语种的加权值是预先设定的。并且，所述语种的加权值的大小决定了所述多语种语音识别的声学模型对所述语种的语音特征数据的识别准确率。如果一个语种在输出单元合并过程中的加权值较大，则所述多语种语音识别的声学模型对这个语种的语音的识别准确率较高；如果一个语种在输出单元合并过程中的加权值较小，则所述多语种语音识别的声学模型对这个语种的语音的识别准确率较低。因此对不同语种的加权值的调整可以调整所述多语种语音识别的声学模型对不同语种的语音的识别准确率。

对所述不同语种的加权值的调整的依据是所述多语种语音识别的声学模型需要处理的语音特征数据中属于不同语种的语音特征数据所占的比重。例如，如果所述多语种语音识别的声学模型需要处理的语音特征数据中，中文的语音特征数据在所有语种的语音特征数据中的比重最高，俄文的语音特征数据在所有语种的语音特征数据中的比重居中，而英文的语音特征数据在所有语种的语音特征数据中的比重最低，则中文的加权值最高，俄文的加权值次之，英文的加权值最低。

本实施例通过利用不同语种的语音特征数据训练所述深度神经网络的隐层，利用属于不同语种的语音特征数据训练对应于不同语种的多个输出层，再根据基本语音元素的声学波形对多个输出层进行合并，最后对不同语种的加权值进行调整，建立了能够多个语种的语音数据进行识别的更为精确的声学模型，进一步提高了对不同语种的语音进行识别的准确率。

图10示出了本发明的第三实施例。

图10是本发明第三实施例提供的多语种语音识别的声学模型建立装置的结构图。参见图10，所述多语种语音识别的声学模型建立装置包括公共特征训练模块1010、语种特征训练模块1020、输出层合并模块1030以及输出权重调整模块1040。

所述公共特征训练模块1010用于利用全部语音特征数据训练深度神经网络。

在本实施例中，使用深度神经网络来建立多语种语音识别的模型。所述深度神经网络包括一个输入层，多个隐层和对应于不同语种的多个输出层。所述输入层包括多个输入单元，用于根据输入的语音特征数据计算输出至最底层的隐层的输出值。所述深度神经网络还包括多个隐层，每个隐层包括多个隐层单元。所述隐层用于根据下一层隐层的输入值和本层的加权值计算向下一层隐层输出的输出值。所述深度神经网络还进一步包括对应于不同语种的多个输出层，其中每个输出层包括多个输出单元。所述输出层用于根据最顶层的隐层的输入和自身的加权值计算输出概率。

不同语种的语音数据具有公共特征。在本实施例中，所述输入层和所述隐层的加权值用于表征不同语种语音特征数据的公共特征。所述公共特征训练模块1010根据不同语种的语音特征数据从所述深度神经网络的输入层输入后，输出层输出的输出概率与期望输出概率之间的误差对所述输入层和所述隐层的加权值进行调整。

本领域技术人员应当理解，对所述深度神经网络的公共特征训练是利用海量的语音特征数据重复进行的，并且，对这种重复的训练需要所述输入层和所述隐层的加权值对所有作为训练样本的语音特征数据都收敛时才能结束。

所述语种特征训练模块1020用于利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层。

不同语种的语音特征数据之间不仅具有公共特征，还具有相互区别的特征，即语种特征。在本实施例中，所述对应于不同语种的多个输出层用于表征不同语种语音特征数据的语种特征。所述语种特征训练模块1020根据不同语种的语音特征数据输入所述深度神经网络后，所述语种对应的输出层的输出概率与期望输出概率之间的误差，对所述对应于不同语种的多个输出层的加权值进行训练。

本领域技术人员应当理解，对所述深度神经网络的语种特征训练是利用海量的语音特征数据重复进行的，并且，对这种重复的训练需要所述对应于不同语种的多个输出层的加权值对所有作为训练样本的语音特征数据都收敛时才能结束。

所述输出层合并模块1030用于将所述对应于不同语种的多个输出层合并成为总输出层。

经过公共特征训练模块1010和语种特征训练模块1020的处理，所述深度神经网络各层的加权值已经确定。但是所述深度神经网络对不同的语种具有不同的输出层，这妨碍了所述深度神经网络进行数据处理。所述输出层合并模块1030用于将所述对应于不同语种的多个输出层合并成为总输出层。

所述输出层合并模块1030包括相似语音输出单元合并子模块1031，以及其他输出单元保留子模块1032。所述相似语音输出单元合并子模块1031用于将不同语种中具有相似声学波形的基本语音元素对应的输出单元进行合并，并将合并后的新的输出单元加入至所述合并后的总输出层。所述其他输出单元保留子模块1032将在其他语种中没有相似声学波形的基本语音元素对应的输出单元保留在合并后的总输出层中。

所述输出权重调整模块1040用于依据不同语种的语音特征数据的数据规模，对所述输入层中不同语种的加权值进行调整。

在对所述不同语种对应的多个输出层进行合并时，不同语种的输出层在总输出层中具有不同的加权值。所述加权值的大小决定了对所述输出层对应的语种的语音特征数据的识别的准确度。所述输出层的加权值越大，对所述输出层对应的语种的语音特征数据的准确度就越高。因此，需要调整不同语种的加权值，使得对在所述语音特征数据中数据规模较大的语种的识别准确度较高。

所述输出权重调整模块1040依据不同语种的语音特征数据的数据规模，对所述输入层中不同语种的加权值进行调整。例如，在所述语音特征数据中，中文语音特征数据的数据规模最大，而日文语音特征数据的数据规模最小，那么所述输出权重调整模块1040将中文的加权值调整为最大，而将日文的加权值调整为最小。

本实施例通过公共特征训练模块、语种特征训练模块、输出层合并模块以及输出权重调整模块的处理，建立了基于深度神经网络的对属于不同语种的语音进行识别的多语种语音识别的声学模型，提供了对多种语言进行语音识别的准确度。

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以通过如上所述的通信终端实施，对于语音信息的发送以及接收功能可以集成于同一通信终端上以使得通信终端既可以发送也可以接收语音信息。可选地，本发明实施例可以用计算机装置可执行的程序来实现，从而可以将它们存储在存储装置中由处理器来执行，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等；或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多语种语音识别的声学模型建立方法，其特征在于，包括：

利用全部语音特征数据训练深度神经网络，其中，所述深度神经网络包括一个输入层、多个隐层以及对应于不同语种的多个输出层，所述输入层根据输入的语音特征数据计算输出至最底层的隐层的输出值，所述隐层根据本层的加权值对来自下一层的输入值进行加权求和，得到输出至下一层的输出值，所述输出层根据输出层的加权值对来自最上层的隐层的输入值进行加权求和，并根据所述加权求和的结果计算输出概率；

将所述对应于不同语种的多个输出层合并成为总输出层。

2.根据权利要求1所述的多语种语音识别的声学模型建立方法，其特征在于，在所述将所述对应于不同语种的多个输出层合并成为总输出层之后，所述多语种的声学模型建立方法还包括：

依据不同语种的语音特征数据的数据规模，对所述输入层中不同语种的加权值进行调整。

3.根据权利要求1所述的多语种语音识别的声学模型建立方法，其特征在于，所述利用全部语音特征数据训练深度神经网络是根据所述声学模型的输出概率与所述声学模型的期望输出概率之间的误差调整所述隐层的加权值。

4.根据权利要求1所述的多语种语音识别的声学模型建立方法，其特征在于，所述对应于不同语种的多个输出层包括多个输出单元，并且每个输出层包括的输出单元的数量与所述输出层对应的语种中基本语音元素的数量相同。

5.根据权利要求1或4所述的多语种语音识别的声学模型建立方法，其特征在于，所述利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层是根据所述声学模型的输出概率与所述声学模型的期望输出概率之间的误差调整所述输出单元的加权值。

6.根据权利要求1所述的多语种语音识别的声学模型建立方法，其特征在于，所述将所述对应于不同语种的多个输出层合并成为总输出层包括：

将不同语种中具有相似发音的基本语音元素对应的输出单元合并；以及

保留与其他语种的基本语音元素没有相似发音的基本语音元素对应的输出单元。

7.根据权利要求1、3、4或6所述的多语种语音识别的声学模型建立方法，其特征在于，所述输出概率是所述输出单元输出的，表示输入的语音特征数据是所述输出单元对应的基本语音元素的概率。

8.一种多语种语音识别的声学模型建立装置，其特征在于，包括：

9.根据权利要求8的多语种语音识别的声学模型建立装置，其特征在于，所述多语种语音识别的声学模型建立装置还包括：

输出加权值调整模块，用于在将所述对应于不同语种的多个输出层合并成为总输出层之后，依据不同语种的语音特征数据的数据规模，对所述输入层中不同语种的加权值进行调整。

10.根据权利要求8所述的多语种语音识别的声学模型建立装置，其特征在于，所述公共特征训练模块根据所述声学模型的输出值与所述声学模型的期望输出值之间的误差调整所述隐层的加权值。

11.根据权利要求8所述的多语种语音识别的声学模型建立装置，其特征在于，所述对应于不同语种的多个输出层包括多个输出单元，并且每个输出层包括的输出单元的数量与所述输出层对应的语种中基本语音元素的数量相同。

12.根据权利要求8或11所述的多语种语音识别的声学模型建立装置，其特征在于，所述语种特征训练模块根据所述声学模型的输出概率与所述声学模型的期望输出概率之间的误差调整所述输出单元的加权值。

13.根据权利要求8所述的多语种语音识别的声学模型建立装置，其特征在于，所述输出层合并模块包括：

相似语音输出单元合并子模块，用于将不同语种中具有相似发音的基本语音元素对应的输出单元合并；以及

其他输出单元保留子模块，保留与其他语种的基本语音元素没有相似发音的基本语音元素对应的输出单元。

14.根据权利要求8、10、11或13所述的多语种语音识别的声学模型建立装置，其特征在于，所述输出概率是所述输出单元输出的，表示输入的语音特征数据是所述输出单元对应的基本语音元素的概率。