CN103065622A

CN103065622A - 一种用于语种识别的语种模型的训练方法及系统

Info

Publication number: CN103065622A
Application number: CN2012105607168A
Authority: CN
Inventors: 周若华; 颜永红; 杨金超; 索宏彬
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2013-04-24
Anticipated expiration: 2032-12-20
Also published as: CN103065622B

Abstract

本发明涉及一种用于语种识别的语种模型的训练方法及系统，所述方法包括：采集多个目标语种语音数据，提取各语种的语音声学谱特征；利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；利用每个目标语种的初始模型量化对应语种训练数据的混淆度；利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例量化对应语种训练数据的混淆度，利用权重较高的训练数据来训练语种模型，能够有效地提高语种鉴别性，改善语种识别性能。

Description

一种用于语种识别的语种模型的训练方法及系统

技术领域

本发明属于语音识别技术领域，具体地说，本发明涉及一种用于语种识别的语种模型的训练方法及系统。

背景技术

语种识别是语音识别技术的重点难点之一。对于跨语言的语音识别系统，相对于确定语言的语音识别系统语音识别性能会有大幅度的下降，准确识别出语音的语种信息的语种识别技术，使跨语言的语音识别转换为确定语言的语音识别，成为语音识别系统满足实际应用需求的必要手段。对于如何利用有限的语种训练数据，训练具有语种鉴别性的模型，从而快速准确的识别出语音的语种信息，目前尚未出现有效的方案，这对于语种识别技术进一步研究及应用造成困难。

发明内容

针对上述问题，本发明实施例提出一种用于语种识别的语种模型的训练方法及系统。

在第一方面，本发明实施例提出一种用于语种识别的语种模型的训练方法，所述方法包括：采集多个目标语种语音数据，提取各语种的语音声学谱特征；利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；利用每个目标语种的初始模型量化对应语种训练数据的混淆度；利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。

在第二方面，本发明实施例提出一种用于语种识别的语种模型的训练系统，所述系统包括：声学谱特征提取模块，用于采集多个目标语种语音数据，提取各语种的语音声学谱特征；初始模型生成模块，用于利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；混淆度量化模块，用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度；高斯超向量转换模块，用于利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；语种模型训练模块，用于对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。

本发明实施例提取各语种的语音声学谱特征生成每个目标语种的初始高斯混合模型，量化对应语种训练数据的混淆度，利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间，对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型，能够有效地提高语种鉴别性，改善语种识别性能。

附图说明

以下，结合附图来详细说明本发明实施例，其中：

图1是本发明实施例的基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图；

图2是本发明实施例的用于语种识别的语种模型的训练方法流程图；

图3是本发明实施例的用于语种识别的语种模型的训练系统示意图。

具体实施方式

图1是基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图。

下面结合图1对本发明实施例的具体实施方式做进一步详细描述：

本发明实施例旨在提供基于最大混淆度鉴别性训练的语种识别方案，该方案利用混淆度大的、语种鉴别性高的语种训练数据训练语种模型，以提高语种识别性能。具体地，本发明实施例涉及的基于最大混淆度鉴别性训练的语种识别方法的核心技术在于语种训练数据混淆度的获取以及利用好语种训练数据的混淆度进行鉴别性训练。最大混淆度鉴别性训练通过利用更具语种鉴别性的数据训练得到更具鉴别性的语种高斯混合模型。本发明利用语种初始模型定义语种训练数据混淆度并在高斯超向量空间利用该混淆度进行语种鉴别性训练。

本发明实施例的具体计算流程如下：

第一步，采集一定数量的目标语种语音数据，提取语音声学谱特征；所采集的目标语种语音数据，通过传统的语音数据前端处理，对语种训练数据切除静音，音乐等无效语音，保留有效语音，然后提取通用的美尔倒谱特征（MFCC），并对该特征进行动态扩展得到移动差分倒谱特征（MFCC-SDC），对于语种训练数据的每一帧得到56维特征向量，作为该语音数据的声学谱特征。

第二步，利用每个目标语种训练数据的声学谱特征训练该目标语种的高斯混合模型，作为每个目标语种各自的初始模型。这里利用了语音数据声学谱特征服从高斯混合分布，训练每个目标语种各自的初始高斯混合模型采用了最大似然估计，目标函数为每个语种训练数据对数似然之和，公式（6）为英语高斯混合模型估计的目标函数：

L_{ML} (λ_{english}) = \underset{g (r) = english}{Σ} \log p (X_{r} \ λ_{english}) - - - (6)

第三步，利用每个目标语种的初始模型量化计算语种训练数据的混淆度；对于语种信息已知的某条语音数据的声学谱特征为X，设该条语音属于语种l_i，于是该条语音数据混淆度的量化公式被定义为公式（1）:

H (X) = \{\begin{matrix} \frac{1}{h (X)}, 0 = < h (X) < = ϵ \\ 0, h (X) > ϵ, (X) < 0 \end{matrix} - - - (1)

h (X) = F (X \ l_{i}) - {Max}_{l_{j} &Element; L, l_{j} &NotEqual; l_{i}} {F (X \ l_{j})} - - - (2)

其中ε为正常数，F(X\l)为该条语音声学谱特征在语种初始高斯混合模型对数似然得分，公式如下（3）：

F (X \ l) = \log {Σ_{s = 1}^{N} w_{s} P (X; m_{s}, Σ_{s})} - - - (3)

其中N为语种高斯混合模型的高斯混合数，w，m，∑分别对应语种高斯混合模型的权重，均值和方差。

第四步，利用最大后验估计将语种训练数据从声学谱特征转换到高斯超向量空间。对于每一句语种训练数据，通过对背景模型（UBM）的自适应可以估计对于这句话的经最大后验估计后的高斯混合模型：

g (X) = Σ_{s = 1}^{N} w_{s} P (X; M_{s}, Σ_{s})

其中模型均值的更新公式为：

M_i＝αE_i(x)+(1-α)m_UBM

高斯超向量由该高斯混合模型的均值拼接得到：

M = [m_{1}^{a}, m_{2}^{a}, . . ., m_{N}^{a}]

语种信息包含在该高斯超向量中。

第五步，对第四步的语种训练数据的高斯超向量空间，利用第三步得到的训练数据的混淆度，赋予各训练数据的高斯超向量不同的权重；权重公式如下（4）：

β (X) = \frac{H (X)}{Σ_{Y &Element; l_{i}} H (Y)} - - - (4)

其中分母是某语种所有训练数据的混淆度之和。根据混淆度计算公式（1），语种混淆度大的训练数据包含更多的信息量，在语种训练中被赋予更大的权重，语种混淆度小的训练数据，权重置为0。

第六步，利用权重高的高斯超向量进行最大似然估计得到每个语种高斯超向量空间分布的中心点，通过最大似然计算每个目标语种高斯超向量的中心点公式如下（5）：

V (l_{i}) = \frac{Σ_{X &Element; l_{i}} β (X) V (X)}{Σ_{X &Element; l_{i}} β (X)} - - - (5)

其中l_i为某目标语种，V(X)为目标语种l_i中某条训练语音的声学谱特征对应的超向量，β(X)为该条训练语音对应的基于最大混淆度的权重。

对每个语种高斯超向量空间分布的中心点，利用V(l_i)按照下面的方法更新每个语种新的更具鉴别性的高斯混合模型。

新的高斯混合模型的权重和方差为对应语种初始高斯混合模型的权重和方差，保持不变，通过V(l_i)对各语种高斯混合模型的均值进行更新的公式如下：

其中s为高斯混合模型第s个高斯，w，∑分别对应语种初始高斯混合模型的权重和方差。

本发明实施例可实现对语音数据语种信息的更好识别。本发明实施例的优点在于：（1）量化定义语种训练数据的语种混淆度（2）提出一种新型的基于最大混淆度鉴别性训练的语种识别方法，（3）在仅依靠语种混淆度高的少量语种训练数据前提下，提高系统语种识别的性能。

在本发明实施例的基于最大混淆度鉴别性训练的语种识别方法中，通过语种初始模型，定义语种训练数据的混淆度，以利用混淆度大的语种训练数据，通过混淆度的量化进一步定义语种训练数据的鉴别性权重，通过将语种训练数据从声学谱特征映射到高斯超向量空间，对高斯超向量赋予语种鉴别性权重，用最大似然的方法估计每个语种高斯超向量空间的中心点；同时由于该方法为模型域鉴别性训练，语种识别系统的识别速度并未改变。

本发明实施例实现了更具鉴别性语种识别模型的训练，提高语种识别性能。相比传统的鉴别性语种模型训练方法，基于最大混淆度鉴别性训练的语种识别方法不需要增加更多的语种训练数据。通过对混淆度的定义和量化，赋予训练数据不同鉴别性的权重，在高斯超向量空间可以很好地利用这一权重，最后通过简单的逆变换得到更具鉴别性的语种模型。我们进行了大量实网数据的测试，结果显示在识别性能方面，由于该方法使用最易混淆的即最具鉴别性的语种训练数据进行鉴别性训练，更能反映语种间的区分性。与未使用该方法的语种识别系统相比，基于最大混淆度鉴别性训练的语种识别方法的性能有相对5%-10%的提升。

总之，基于最大混淆度鉴别性训练的语种识别方法有效利用语种训练数据的语种鉴别性信息，训练出更具鉴别性的语种高斯混合模型，在大量实网数据的测试结果显示基于最大混淆度鉴别性训练的语种识别方法的性能有相对5%-10%的提升。

图2是本发明实施例的用于语种识别的语种模型的训练方法流程图。

如图2，所述方法包括：采集多个目标语种语音数据，提取各语种的语音声学谱特征；利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；利用每个目标语种的初始模型量化对应语种训练数据的混淆度；利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。

优选地，所述利用权重较高的几个语种的训练数据来训练语种模型，具体为：利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点，对每个语种高斯超向量空间分布的中心点，通过所述转换的逆变换得到每个语种新的高斯混合模型。

优选地，所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度，具体为：若语种1_i的某条语音数据的声学谱特征为X，该条语音数据混淆度

H (X) = \{\begin{matrix} \frac{1}{h (X)}, 0 = < h (X) < = ϵ \\ 0, h (X) > ϵ, (X) < 0 \end{matrix},

其中ε为正常数，

h (X) = F (X \ l_{i}) - {Max}_{l_{j} &Element; L, l_{j} &NotEqual; l_{i}} {F (X \ l_{j})},

Max{}为求最大值函数，F(X\1)为该声学谱特征X在语种l的初始模型的对数似然得分，即其中N为语种l的初始模型的高斯混合数，w，m，∑分别为语种l的初始模型的权重，均值和方差。

优选地，所述根据所述混淆度赋予的语种1_i的训练数据的高斯超向量的权重其中Y是语种l_i的某条语音数据的声学谱特征，

是语种l_i的所有训练数据的声学谱特征的混淆度之和。

优选地，所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式

V (l_{i}) = (Σ_{X &Element; l_{i}} β (X) V (X)) / Σ_{X &Element; l_{i}} β (X),

其中l_i为某目标语种，V(X)为目标语种1_i中某条训练语音的声学谱特征X对应的超向量。

图3是本发明实施例的用于语种识别的语种模型的训练系统示意图。如图2，所述系统包括：声学谱特征提取模块，用于采集多个目标语种语音数据，提取各语种的语音声学谱特征；初始模型生成模块，用于利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；混淆度量化模块，用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度；高斯超向量转换模块，用于利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；语种模型训练模块，用于对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。

H (X) = \{\begin{matrix} \frac{1}{h (X)}, 0 = < h (X) < = ϵ \\ 0, h (X) > ϵ, (X) < 0 \end{matrix},

其中ε为正常数，

h (X) = F (X \ l_{i}) - {Max}_{l_{j} &Element; L, l_{j} &NotEqual; l_{i}} {F (X \ l_{j})},

Max{}为求最大值函数，F(X\1)为该声学谱特征X在语种l的初始模型的对数似然得分，即

其中N为语种l的初始模型的高斯混合数，w，m，∑分别为语种l的初始模型的权重，均值和方差。

优选地，所述根据所述混淆度赋予的语种1_i的训练数据的高斯超向量的权重

其中Y是语种l_i的某条语音数据的声学谱特征，

是语种l_i的所有训练数据的声学谱特征的混淆度之和。

V (l_{i}) = (Σ_{X &Element; l_{i}} β (X) V (X)) / Σ_{X &Element; l_{i}} β (X),

本领域技术人员应该进一步意识到，结合本文中所公开的实施例描述的各示例模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

需要指出的是，以上仅为本发明较佳实施例，并非用来限定本发明的实施范围，具有专业知识基础的技术人员可以由以上实施实例实现本发明，因此凡是根据本发明的精神和原则之内所做的任何的变化、修改与改进，都被本发明的专利范围所覆盖。即，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种用于语种识别的语种模型的训练方法，其特征在于，所述方法包括：

采集多个目标语种语音数据，提取各语种的语音声学谱特征；

利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；

利用每个目标语种的初始模型量化对应语种训练数据的混淆度；

利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；

对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。

2.如权利要求1所述的用于语种识别的语种模型的训练方法，其特征在于，所述利用权重较高的几个语种的训练数据来训练语种模型，具体为：利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点，根据每个语种高斯超向量空间分布的中心点，更新每个语种的高斯混合模型的均值，得到每个语种的新的高斯混合模型。

3.如权利要求1或2所述的用于语种识别的语种模型的训练方法，其特征在于，所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度，具体为：若语种1_i的某条语音数据的声学谱特征为X，该条语音数据混淆度

H (X) = \{\begin{matrix} \frac{1}{h (X)}, 0 = < h (X) < = ϵ \\ 0, h (X) > ϵ, (X) < 0 \end{matrix},

其中ε为正常数，

h (X) = F (X \ l_{i}) - {Max}_{l_{j} &Element; L, l_{j} &NotEqual; l_{i}} {F (X \ l_{j})},

4.按权利要求3所述的用于语种识别的语种模型的训练方法，其特征在于，所述根据所述混淆度赋予的语种1_i的训练数据的高斯超向量的权重

其中Y是语种l_i的某条语音数据的声学谱特征，

是语种l_i的所有训练数据的声学谱特征的混淆度之和。

5.按权利要求4所述的用于语种识别的语种模型的训练方法，其特征在于，所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式

V (l_{i}) = (Σ_{X &Element; l_{i}} β (X) V (X)) / Σ_{X &Element; l_{i}} β (X),

其中1_i为某目标语种，V(X)为目标语种1_i中某条训练语音的声学谱特征X对应的超向量。

6.一种用于语种识别的语种模型的训练系统，其特征在于，所述系统包括：

声学谱特征提取模块，用于采集多个目标语种语音数据，提取各语种的语音声学谱特征；

初始模型生成模块，用于利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；

混淆度量化模块，用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度；

高斯超向量转换模块，用于利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；

语种模型训练模块，用于对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。

7.如权利要求6所述的用于语种识别的语种模型的训练系统，其特征在于，所述利用权重较高的几个语种的训练数据来训练语种模型，具体为：利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点，根据每个语种高斯超向量空间分布的中心点，更新每个语种的高斯混合模型的均值，得到每个语种的新的高斯混合模型。

8.如权利要求6或7所述的用于语种识别的语种模型的训练系统，其特征在于，所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度，具体为：若语种1_i的某条语音数据的声学谱特征为X，该条语音数据混淆度

H (X) = \{\begin{matrix} \frac{1}{h (X)}, 0 = < h (X) < = ϵ \\ 0, h (X) > ϵ, (X) < 0 \end{matrix},

其中ε为正常数，

h (X) = F (X \ l_{i}) - {Max}_{l_{j} &Element; L, l_{j} &NotEqual; l_{i}} {F (X \ l_{j})},

9.按权利要求8所述的用于语种识别的语种模型的训练系统，其特征在于，所述根据所述混淆度赋予的语种1_i的训练数据的高斯超向量的权重

其中Y是语种l_i的某条语音数据的声学谱特征，

是语种l_i的所有训练数据的声学谱特征的混淆度之和。

10.按权利要求9所述的用于语种识别的语种模型的训练系统，其特征在于，所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式

V (l_{i}) = (Σ_{X &Element; l_{i}} β (X) V (X)) / Σ_{X &Element; l_{i}} β (X),

其中1_i为某目标语种，V(X)为目标语种1i中某条训练语音的声学谱特征X对应的超向量。