CN103077709B

CN103077709B - 一种基于共有鉴别性子空间映射的语种识别方法及装置

Info

Publication number: CN103077709B
Application number: CN201210587263.8A
Authority: CN
Inventors: 周若华; 颜永红; 王宪亮; 刘建
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2015-09-09
Anticipated expiration: 2032-12-28
Also published as: CN103077709A

Abstract

本发明涉及一种基于共有鉴别性子空间映射的语种识别方法及装置，该方法包括：提取一个语种的多个语音数据的语音特征；根据所述语音特征得到所述多个语音数据的高斯超向量，其中，每个语音数据对应一组高斯超向量；将所述高斯超向量映射到共有鉴别性子空间，得到与所述高斯超向量对应的低维向量，其中，所述共有鉴别性子空间是预先用多个语种的语音数据建立的；以及分别计算所述低维向量在多个支持向量机SVM模型上的得分，根据多个得分识别出所述语种，其中，所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的，每个SVM模型对应一个语种。相比于直接对高斯超向量进行建模，本发明的语种识别方法由于其低维和鉴别性，训练速度更快，识别性能有了明显提高。

Description

一种基于共有鉴别性子空间映射的语种识别方法及装置

技术领域

本发明涉及语种识别领域，尤其涉及一种基于共有鉴别性子空间映射的语种识别方法及装置。

背景技术

语种识别技术的目的在于日后能够制造一种能够在一定程度上模仿人的思维对语种进行自动辨识的机器。换言之，就是从语音信号中提取出各语种的差异信息，并以此作为依据对语种进行识别。在实际应用中，由于环境噪声以及信道干扰等的影响，使识别性能急剧下降，对识别鲁棒性提出了较大的挑战。因此，如何提高语种识别的鲁棒性，减弱或者去除语音信号中的环境噪声与信道干扰等的负面影响，是当前语种识别研究的一个热点。

高斯混合模型-支持向量机（GMM-SVM）的方法通过将高斯超向量的思想引入语种识别，在语种识别中得到了成功的应用。实验表明，高斯超向量可以有效表征一段语音数据。但是，由于高斯超向量具有较高的维数，在语种种类比较多，数据量大的情况下可能会遇到机器内存不足，支持向量机模型训练速度慢甚至训练不出的情况。因此，对高斯超向量寻找有效的降维方法是当前研究的重点。

发明内容

本发明的目的是提供一种能够克服至少上述缺陷之一的基于共有鉴别性子空间映射的语种识别方法及装置。

在本发明的第一方面，提供了一种基于共有鉴别性子空间映射的语种识别方法，包括：提取一个语种的多个语音数据的语音特征；根据所述语音特征得到所述多个语音数据的高斯超向量，其中，每个语音数据对应一组高斯超向量；将所述高斯超向量映射到共有鉴别性子空间，得到与所述高斯超向量对应的低维向量，其中，所述共有鉴别性子空间是预先用多个语种的语音数据建立的；以及分别计算所述低维向量在多个支持向量机SVM模型上的得分，根据多个得分识别出所述语种，其中，所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的，每个SVM模型对应一个语种。

在本发明的第二方面，提供了一种基于共有鉴别性子空间映射的语种识别装置，包括：特征提取模块，用于提取一个语种的多个语音数据的语音特征；高斯超向量获取模块，用于根据所述语音特征得到所述多个语音数据的高斯超向量，其中，每个语音数据对应一组高斯超向量；共有鉴别性子空间映射模块，用于将所述高斯超向量映射到共有鉴别性子空间，得到与所述高斯超向量对应的低维向量，其中，所述共有鉴别性子空间是预先用多个语种的语音数据建立的；以及识别模块，用于分别计算所述低维向量在多个支持向量机SVM模型上的得分，根据多个得分识别出所述语种，其中，所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的，每个SVM模型对应一个语种。

本发明通过将高维的高斯超向量映射到较低维的子空间，然后对低维向量训练模型并打分，从而对测试语音进行识别。相比于直接对高斯超向量进行建模，本发明的语种识别方法由于其低维和鉴别性，训练速度更快，识别性能有了明显提高。另外，减少部分语种的训练数据求子空间，其识别性能并不会明显下降。

本发明的系统有效利用了高斯超向量所携带的语种信息，通过对超向量降维，去除了超向量中的冗余信息，充分保留了可以代表语音的成分。传统方法对高斯超向量直接SVM建模，由于训练数据大，向量维数高，建模速度慢，甚至会出现长时间无法训出SVM的情况，如果直接用cosine建模，虽然模型训练速度加快，但识别性能不高。共有鉴别性子空间映射的方法，不仅对高斯超向量进行降维，使SVM训练速度更快，而且由于该方法对各语种间的共有向量进行拼接组成共有子空间，既有不同语种间的共同成分，又提高了各语种间的区分能力。

附图说明

图1是根据本发明实施例的基于共有鉴别性子空间映射的语种识别方法的流程图；

图2是根据本发明实施例的基于共有鉴别性子空间映射的语种识别方法的训练阶段的流程图；

图3是根据本发明实施例的基于共有鉴别性子空间映射的语种识别装置的示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

因此，本发明的目的在于提供一种基于共有鉴别性子空间映射的语种识别方法，该方法通过寻找各语种共有的具有鉴别性的子空间，将高维的高斯超向量映射到低维子空间，用映射后得到的低维的高斯超向量训练SVM模型，不仅加快了模型训练速度，而且还提高了语种识别的性能。

图1是根据本发明实施例的基于共有鉴别性子空间映射的语种识别方法的流程图。

在步骤101，提取一个语种的多个语音数据的移位差分美尔倒谱MSDC特征。

在步骤102，根据所述MSDC特征得到所述多个语音数据的高斯超向量，其中，每个语音数据对应一组高斯超向量。例如，通过最大后验概率MAP从高斯混合模型GMM得到所述语音数据的高斯分布均值，所述GMM是预先用多个语种的语音数据建立的。然后，将所述高斯分布均值按顺序排列得到所述高斯超向量。

在步骤103，将所述高斯超向量映射到共有鉴别性子空间，得到与所述高斯超向量对应的低维向量，其中，所述共有鉴别性子空间是预先用多个语种的语音数据建立的。

在步骤104，分别计算所述低维向量在多个支持向量机SVM模型上的得分，根据多个得分识别出所述语种，其中，所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的，每个SVM模型对应一个语种。另外，还可以用开发集数据进行上述步骤得出其在SVM模型上的得分，用于对上述得分进行规整和校正。根据本发明的最终得分结果也可以与其他系统的得分进行融合。

图2是根据本发明实施例的基于共有鉴别性子空间映射的语种识别方法的训练阶段的流程图。训练阶段是为语音识别做准备的，此阶段主要建立了针对多语种的高斯混合模型GMM和针对各语种的支持向量机SVM模型。

在步骤201，提取多个语种的多个语音数据的移位差分美尔倒谱MSDC特征。

在步骤202，根据所述MSDC特征得到每个语音数据的高斯超向量。

首先，根据所述MSDC特征训练出高斯混合模型GMM，称之为全局背景模型(UBM)，可以表示为：

g (x) = Σ_{i = 1}^{N} λ_{i} N (x; m_{i}, Σ_{i}) - - - (1)

其中，N是高斯混合数，λ_i是高斯混合权重，N(·)表示高斯分布的函数，m_i和∑_i表示高斯分布的均值和方差。

接下来，对于每个语音数据，通过最大后验概率MAP从所述GMM得到所述语音数据的高斯分布均值；将所述高斯分布均值按顺序排列得到高斯超向量，每个语音数据对应一组高斯超向量。

在步骤203，计算每个语种的高斯超向量均值。高斯超向量均值可以用下面的公式计算：

其中N_i表示第i个语种的训练语句数，x_l表征第l句话的高斯超向量。

在步骤204，根据所述高斯超向量得到每个语种的标准正交基。

首先，将每个语音数据的高斯超向量分别减去其所属语种的高斯超向量均值得到多个差值向量，用所述多个差值向量构成所述语种的冗余空间

T_{i} = [x_{1} - μ_{i}, x_{2} - μ_{i}, \cdot \cdot \cdot, x_{N_{i}} - μ_{i}] .

然后，对所述冗余空间中的多个差值向量进行斯密特正交，得到每个语种的标准正交基。

在步骤205，将每个语种的高斯超向量均值分别映射到其他多个语种的标准正交基上，得到每个语种对应于其他语种的冗余向量。

在步骤206，根据所述冗余向量和每个语种的高斯超向量得到共有向量集。

首先，将每个语种的高斯超向量均值减去对应的冗余向量，得到每个语种对应于其他语种的共有向量。第i个语种相对于第j个语种的共有向量为上标T表示对矩阵进行转置。

接下来，将所述共有向量按列拼接得到共有向量集。

在步骤207，根据所述共有向量集得到所述共有鉴别性子空间。

首先，分别将每个语种的共有向量减去共有向量集中所有共有向量的均值，将得到的向量按列拼接得到每个语种的共有子空间

U = [b_{1}^{1}, b_{1}^{2}, \cdot \cdot \cdot, b_{1}^{C}, b_{2}^{1}, b_{2}^{2}, \cdot \cdot \cdot, b_{2}^{C}, \cdot \cdot \cdot b_{C}^{1}, b_{C}^{2}, \cdot \cdot \cdot, b_{C}^{C}] .

接下来，对所述共有子空间进行施密特正交得到所述共有鉴别性子空间。

在步骤208，将每个语音数据的高斯超向量映射到共有鉴别性子空间，从而得到与高斯超向量对应的，更具有鉴别性的低维向量y_i=B^Tx_i，上标T表示矩阵转置，

在步骤209，用支持向量机SVM分类器训练所述低维向量，得到分别针对多个语种的多个SVM模型。

特征提取模块提取一个语种的多个语音数据的移位差分美尔倒谱MSDC特征。

高斯超向量获取模块根据所述MSDC特征得到所述多个语音数据的高斯超向量，其中，每个语音数据对应一组高斯超向量。例如，通过最大后验概率MAP从高斯混合模型GMM得到所述语音数据的高斯分布均值，所述GMM是预先用多个语种的语音数据建立的。然后，将所述高斯分布均值按顺序排列得到所述高斯超向量。

映射模块将所述高斯超向量映射到共有鉴别性子空间，得到与所述高斯超向量对应的低维向量，其中，所述共有鉴别性子空间是预先用多个语种的语音数据建立的。

识别模块分别计算所述低维向量在多个支持向量机SVM模型上的得分，根据多个得分识别出所述语种，其中，所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的，每个SVM模型对应一个语种。

应当指出，还可以用开发集数据进行上述步骤得出其在SVM模型上的得分，用于对上述得分进行规整和校正。根据本发明的最终得分结果也可以与其他系统的得分进行融合。

本发明需要预先进行训练阶段，以便建立针对多语种的高斯混合模型GMM、多语种共有的鉴别性子空间，以及针对各语种的支持向量机SVM模型，以便服务于之后的语音识别。下面对本发明的训练阶段的实现过程进行详细描述。

提取多个语种的多个语音数据的移位差分美尔倒谱MSDC特征。

根据所述MSDC特征得到每个语音数据的高斯超向量。首先，根据所述MSDC特征训练出高斯混合模型GMM，称之为全局背景模型(UBM)，可以表示为：

g (x) = Σ_{i = 1}^{N} λ_{i} N (x; m_{i}, Σ_{i}) - - - (1)

其中，N是高斯混合数，λ_i是高斯混合权重，N(·)表示高斯分布的函数，m_i和∑_i表示高斯分布的均值和方差。接下来，对于每个语音数据，通过最大后验概率MAP从所述GMM得到所述语音数据的高斯分布均值；将所述高斯分布均值按顺序排列得到高斯超向量，每个语音数据对应一组高斯超向量。

计算每个语种的高斯超向量均值。高斯超向量均值可以用下面的公式计算：其中N_i表示第i个语种的训练语句数，x_l表征第l句话的高斯超向量。

根据所述高斯超向量得到每个语种的标准正交基。首先，将每个语音数据的高斯超向量分别减去其所属语种的高斯超向量均值得到多个差值向量，用所述多个差值向量构成所述语种的冗余空间

T_{i} = [x_{1} - μ_{i}, x_{2} - μ_{i}, \cdot \cdot \cdot, x_{N_{i}} - μ_{i}] .

将每个语种的高斯超向量均值分别映射到其他多个语种的标准正交基上，得到每个语种对应于其他语种的冗余向量。

根据所述冗余向量和每个语种的高斯超向量得到共有向量集。首先，将每个语种的高斯超向量均值减去对应的冗余向量，得到每个语种对应于其他语种的共有向量。第i个语种相对于第j个语种的共有向量为上标T表示对矩阵进行转置。接下来，将所述共有向量按列拼接得到共有向量集。

根据所述共有向量集得到所述共有鉴别性子空间。首先，分别将每个语种的共有向量减去共有向量集中所有共有向量的均值，将得到的向量按列拼接得到每个语种的共有子空间

U = [b_{1}^{1}, b_{1}^{2}, \cdot \cdot \cdot, b_{1}^{C}, b_{2}^{1}, b_{2}^{2}, \cdot \cdot \cdot, b_{2}^{C}, \cdot \cdot \cdot b_{C}^{1}, b_{C}^{2}, \cdot \cdot \cdot, b_{C}^{C}] .

将每个语音数据的高斯超向量映射到共有鉴别性子空间，从而得到与高斯超向量对应的，更具有鉴别性的低维向量y_i=B^Tx_i，上标T表示矩阵转置，

用支持向量机SVM分类器训练所述低维向量，得到分别针对多个语种的多个SVM模型。

至此，我们得到了针对多语种的高斯混合模型GMM、多语种共有的鉴别性子空间，以及针对各语种的支持向量机SVM模型，可将其用于实际的语音识别。

通过在具有24个语种的nist2011语种评测数据上做的实验表明，在正确率、等错率(EER)、最小风险代价(minCost)等方面，本发明的语种识别方法与直接对高斯超向量做cosine建模打分相比均有大幅度提升，正确率提高十个点以上，EER相对降低45.96%，minCost相对降低45.26%。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于共有鉴别性子空间映射的语种识别方法，包括：

提取一个语种的多个语音数据的语音特征；

根据所述语音特征得到所述多个语音数据的高斯超向量，其中，每个语音数据对应一组高斯超向量；

将所述高斯超向量映射到共有鉴别性子空间，得到与所述高斯超向量对应的低维向量，其中，所述共有鉴别性子空间是预先用多个语种的语音数据建立的；以及

分别计算所述低维向量在多个支持向量机SVM模型上的得分，根据多个得分识别出所述语种，其中，所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的，每个SVM模型对应一个语种；

其中，所述共有鉴别性子空间是通过下列步骤得到的：

提取多个语种的多个语音数据的语音特征；

根据所述语音特征得到每个语音数据的高斯超向量；

计算每个语种的高斯超向量均值；

根据所述高斯超向量得到每个语种的标准正交基；

将每个语种的高斯超向量均值分别映射到其他多个语种的标准正交基上，得到每个语种对应于其他语种的冗余向量；

根据所述冗余向量和每个语种的高斯超向量得到共有向量集；以及

根据所述共有向量集得到所述共有鉴别性子空间；

其中，所述根据所述冗余向量和每个语种的高斯超向量得到共有向量集的步骤包括：

将每个语种的高斯超向量均值减去对应的冗余向量，得到每个语种对应于其他语种的共有向量；以及

将所述共有向量按列拼接得到共有向量集。

2.根据权利要求1所述的方法，其中，所述根据所述语音特征得到所述多个语音数据的高斯超向量的步骤包括：

通过最大后验概率MAP从高斯混合模型GMM得到所述语音数据的高斯分布均值，所述GMM是预先用多个语种的语音数据建立的；以及

将所述高斯分布均值按顺序排列得到所述高斯超向量。

3.根据权利要求1所述的方法，其中，所述多个SVM模型的训练包括下列步骤：

将每个语音数据的高斯超向量映射到所述共有鉴别性子空间，得到与所述高斯超向量对应的低维向量；以及

用支持向量机SVM分类器训练所述低维向量，得到所述多个SVM模型。

4.根据权利要求1所述的方法，其中，所述根据所述语音特征得到每个语音数据的高斯超向量的步骤包括：

根据所述语音特征训练出高斯混合模型GMM；

通过最大后验概率MAP从所述GMM得到所述语音数据的高斯分布均值；

将所述高斯分布均值按顺序排列得到高斯超向量，每个语音数据对应一组高斯超向量。

5.根据权利要求1所述的方法，其中，所述根据所述高斯超向量得到每个语种的标准正交基的步骤包括：

将每个语音数据的高斯超向量分别减去其所属语种的高斯超向量均值得到多个差值向量，用所述多个差值向量构成所述语种的冗余空间；以及

对所述冗余空间中的多个差值向量进行斯密特正交，得到每个语种的标准正交基。

6.根据权利要求1所述的方法，其中，所述根据所述共有向量集得到所述共有鉴别性子空间的步骤包括：

分别将每个语种的共有向量减去共有向量集中所有共有向量的均值，将得到的向量按列拼接得到每个语种的共有子空间；以及

对所述共有子空间进行施密特正交得到所述共有鉴别性子空间。

7.根据权利要求1所述的方法，其中，所述语音特征是移位差分美尔倒谱MSDC特征。

8.一种基于共有鉴别性子空间映射的语种识别装置，包括：

特征提取模块，用于提取一个语种的多个语音数据的语音特征；

高斯超向量获取模块，用于根据所述语音特征得到所述多个语音数据的高斯超向量，其中，每个语音数据对应一组高斯超向量；

共有鉴别性子空间映射模块，用于将所述高斯超向量映射到共有鉴别性子空间，得到与所述高斯超向量对应的低维向量，其中，所述共有鉴别性子空间是预先用多个语种的语音数据建立的；以及

识别模块，用于分别计算所述低维向量在多个支持向量机SVM模型上的得分，根据多个得分识别出所述语种，其中，所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的，每个SVM模型对应一个语种；