CN104575495A

CN104575495A - 一种采用总变化量因子的语种识别方法及系统

Info

Publication number: CN104575495A
Application number: CN201310495417.5A
Authority: CN
Inventors: 杨琳; 周若华; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2013-10-21
Filing date: 2013-10-21
Publication date: 2015-04-29

Abstract

本发明提出了一种基于总变化量因子的语种识别方法及系统，所述方法包含：步骤101）提取某语种若干段训练语音的声学特征，并依据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子，其中每一句话的总变化量因子是一个矢量；步骤102）利用支持向量机训练一组一对一和一对多模型，然后选择若干个总变量因子对所述一对一和一对多模型打分，依据得分矩阵训练一个高斯后端分类器模型；步骤103）输入测试语音，并提取测试语音的声学特征，然后根据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子，再对102）中的一对多和一对一模型打分，最后将得分向量输入所述的高斯后端分类器模型进行判决并输出识别结果。

Description

一种采用总变化量因子的语种识别方法及系统

技术领域

本发明涉及的技术领域包括语音识别、语种识别和语音信号处理，具体地说，本发明涉及一种采用总变化量因子的语种识别方法及系统。

背景技术

语种识别也被称为语种辨识，是通过分析处理一个语音片段判断其属于哪个语言种类的过程，其本质是语音识别的一个方面。语种识别利用机器学习和模式分类的知识，一般一个语种识别系统由训练和测试两个过程组成。

训练过程：首先从原始训练语音文件中获取一些能够表示该语种的基本信息，即特征，然后利用这些特征对每个语种或者语种之间的关系进行建模，模型代表了该语种固有的、以及该语种与其他语种之间差异的信息。

测试过程：首先对测试语句提取特征，然后基于每个语种模型计算他们之间的得分，一般而言，使用和测试语句来自同一个语种的训练语句得到的模型的分数最大，以此判断这个测试属于哪个语种。

目前主流的语种识别系统主要分为基于音素特征的模型方法和基于声学特征的模型方法。在基于声学特征建模的方法中，基于GMM超矢量结合支持向量机建模的系统（GSV系统）是目前的主流系统。

但是GSV系统采用高维超矢量作为分类器的输入，在短时语音识别上性能较差，当训练数据较少、目标语种较多时，还容易出现无法训练出模型的情况。并且对支持向量机模型打分，最后的得分并不代表似然值，得分区间很大，进行多系统分数端融合时有一定困难。

发明内容

本发明的目的在于，为克服现有的GSV系统的缺陷，从而提供一种基于总变化量因子的语种识别方法和系统。

为了实现上述目的，本发明提供了一种高斯后端分类器模型构造方法，所述方法包含：

步骤101）提取某语种若干段训练语音的声学特征，并依据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子，其中每一句话的总变化量因子是一个矢量；

步骤102）利用支持向量机训练一组一对一和一对多支持向量机模型，然后选择若干个总变量因子对所述一对一和一对多支持向量机模型打分，进而依据得分矩阵训练一个高斯后端分类器模型。

上述方案所述训练一组一对一和一对多模型的策略进一步包含：

步骤301）对输入的训练语音进行前端处理，进而去掉彩铃、振铃和传真音，并去除没有语音的静音部分，仅保留含有有效语音的部分，并提取有效语音部分的移动差分特征；

步骤302）提取移动差分特征的总变化量因子向量，其中，每一句训练语句对应一个维数固定的矢量，且该矢量表征了此句话包含的语种信息；每个语种有若干条训练语句，对应多条总变化量因子向量；根据支持向量机分类算法，训练某语种对其他语种的一对一和一对多支持向量机模型，如果有N个目标语种，将会得到个模型。

上述方案所述的训练高斯后端分类器模型的步骤具体包含：

步骤401）从训练数据选取一部分数据，提取选取数据的总变化量因子，将每个语种包含的总变化量因子基于所述的一对一和一对多模型进行支持向量机打分；当每个语种包含m_i,i＝1,2...N句训练语句，得到一个行数为维、列数为维的矩阵，且每行的语种类别已知；

步骤402）采用线性判别分析算法训练一个投影矩阵W，将训练样本投影后，得到一个行、列数小于L列的新矩阵，该新矩阵为投影后的矩阵，且投影后的矩阵的每一行的语种类别已知；

其中，投影应保证模式样本在新的子空间有最大的类间距离和最小的类内距离；

步骤403）计算投影后的矩阵的方差，再计算每一个语种类别的单高斯均值，得到高斯后端模型的参数，依据这些参数得到高斯后端分类器模型。

基于上述方案的高斯后端分类器模型和一对一及一对多支持向量机模型，本发明还提供了一种基于总变化量因子的语种识别方法，所述方法包含：输入测试语音，并提取测试语音的声学特征；根据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子，再对一对多和一对一模型打分，得到得分向量；将得分向量输入高斯后端分类器模型进行判决并输出识别结果。

上述基于总变化量因子的语种识别方法具体包含：

401）对输入的测试语音进行前端处理，进而去掉彩铃、振铃和传真音，去除没有语音的静音部分，仅保留含有有效语音的部分；提取有效语音部分的声学层的移动差分特征；

步骤402）提取差分特征的变化量因子向量，且每一句话对应一个维数固定的矢量；

步骤403）将各总变化量因子向量在所述一对一和一对多支持向量机模型上打分，得到L维的得分向量；

步骤404）通过投影矩阵W，将得分向量映射到线性判别分析算法降维后的空间，得到一个低维向量；再将此低维向量在各个语种的高斯后端模型上打分，即计算当前向量在各个语种高斯模型上的log似然值；

步骤405）设定一个阈值，得分最高的语种如果大于阈值，则判定此测试语句为此语种；如果小于阈值，则认为此测试语句不属于目标语种，进而采用上述策略识别其是否属于其他语种。

上述方案中，根据差分特征提取总变化量因子向量的步骤具体为：

步骤501）利用各语种的训练数据训练全局背景模型和总变化量矩阵T；其中，全局背景模型采用EM算法训练；

步骤502）利用各语种的训练数据训练总变化量矩阵T，且总变化量矩阵T与高斯超矢量的关系s表示为“s＝m+Tw+ε”；

其中，m为通用背景模型的超向量；总变化量矩阵T表示总变化空间，且总变化量矩阵T通过EM算法训练得到；w矢量为与说话人及信道相关的总变化量因子向量，即最终得到的低维矢量，该低微矢量服从高斯分布；ε为服从高斯分布的残差。

上述前端处理为：

根据时-频谱分析的方法，对语音进行分段，再采用GMM算法，判断每一段是否属于彩铃、振铃、传真音、语音或静音，依据判断结果删除内容进而只保留有效语音部分。

上述技术方案中，提取MFCC基本倒谱特征，对基本特征进行特征补偿，所述特征补偿包括倒谱均值减、Rasta滤波和移动差分变换。

此外，本发明还提供了一种采用总变量因子的语种识别系统，所述系统包含：

前端处理模块，用于处理输入的测试语音数据和训练语音数据，进而去除语音数据中包含的彩铃、振铃活传真，仅保留有效语音部分；

特征提取模块，用于提取每句有效语音部分的移动差分特征；

总变化量因子提取模块，用于基于移动差分特征计算总变化量因子向量；

支持向量机打分模块，用于计算低维的总变化量因子向量在各个模型上的得分，得到得分向量；

高斯后端得分后处理模块，用于将得分向量映射到一个低维空间，在低维空间计算在各个语种单高斯模型上的似然；

得分判决模块，用于根据最大似然值确定某个测试语句所属的语种，输出识别结果。

总之，本发明的第一方面，提供了一种基于总变化量因子的语种识别方法，包括：对输入训练语音，提取某语种多段训练语音的声学特征，根据全局背景模型和总变化量因子空间模型把声学特征映射为总变化量因子，每一句话的总变化量因子是一个矢量，表征了这句话包含的语种信息，再利用支持向量机训练一组一对一和一对多支持向量机模型，再选择一部分语音数据的总变量因子对以上模型打分，基于得分矩阵训练一个高斯后端分类器模型；对输入测试语音，提取其声学特征，根据全局背景模型和总变化量因子空间模型把声学特征映射为总变化量因子，对一组支持向量机模型打分，再把得分向量经过高斯后端分类器，进行判决给出识别结果。

本发明的第二方面，提供了一种基于总变化量因子的语种识别系统，包括：前端处理模块，用于处理输入语音数据，去除彩铃、振铃、传真等垃圾语音，只保留有效语音部分；特征提取模块，用于提取每句有效测试语音的移动差分特征；总变化量因子提取模块，用于从语音特征计算总变化量因子向量；支持向量机打分模块，用于计算低维的总变化量因子向量在各个模型上的得分，得到得分向量；高斯后端得分后处理模块，用于将得分向量映射到一个低维空间，在低维空间计算在各个语种单高斯模型上的似然；得分判决模块，用于根据最大似然值确定最后是否属于某一个目标语种，给出识别结果。

本发明相对于现有语种识别系统具有以下技术效果：

1、传统的基于支持向量机的语种识别系统都是基于高斯超矢量建立支持向量机模型，本发明采用低维的总变化量因子技术，通过将高维超矢量映射为一个包含语种信息的低维总变化量因子，这样可以在一个更具有区分性的低维空间表征语音特征。

2、传统的基于支持向量机的语种识别系统直接建立某语种模型，即只有一对多模型，本发明除了训练一对多模型，还训练表征语种间相互关系的一对一模型，再串联高斯后端给出最后得分，可以更好的刻画某语种的特点，同时还对最终得分形式和范围进行统一，更方便多系统得分线性融合。

附图说明

图1是根据本发明实施例的基于总变化量因子语种识别方法的训练流程图；

图2是根据本发明实施例的基于总变化量因子语种识别方法的识别流程图；

图3是根据本发明实施例的基于总变化量因子语种识别系统的示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述，附图和实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

本发明的目的是提供一种基于总变化量因子向量的语种识别方法，该方法通过提取表征语音语种信息的低维总变化量因子，训练一组一对一和一对多支持向量机模型和高斯后端模型，建立语种识别系统。不仅使得语音表征在更具区分性的低维空间，而且还通过高斯后端统一了最后的得分区间，可以进一步进行多系统得分融合。

图1是根据本发明实施例的基于总变化量因子语种识别方法的训练流程图。

在步骤101，对输入的测试语音进行前端处理，去掉彩铃、振铃、传真音等垃圾语音，去除没有语音的静音部分，只保留含有有效语音的部分。

在步骤102，提取一个语种多个语音数据的移位差分梅尔倒谱MSDC特征，包括对基本特征进行特征补偿，包括倒谱均值减、Rasta滤波。

在步骤103，根据所述MSDC特征，提取表征语种信息的低维总变化量因子向量。具体计算方法如下描述：

给定一段语音，与说话人及信道相关的GMM超向量s由公式表示为s＝m+Tw+ε。其中，m为通用背景模型（UBM）的超向量，T矩阵表示总变化空间，由大量数据通过EM算法训练得到。w矢量为与说话人及信道相关的总变化量因子向量，也就是最终得到的低维矢量，服从高斯分布。残差ε服从高斯分布。

w～N(0,I)

ε～N(0,Σ)

其中，Σ为对角协方差阵。为了得到隐藏变量w，首先需要估计模型参数，其训练过程与本征音的过程相同。对于一段语音，给定Baum-Welch统计量，该后验分布为一高斯分布，其均值即为i-vector。假设一段语音有L帧{y₁,y₂...,y_L}，特征维数为F，高斯数为C的UBMΩ，Baum-Welch统计量如下计算：

N_{c} = Σ_{t = 1}^{L} P (c | y_{t}, Ω)

F_{c} = Σ_{t = 1}^{L} p (c | y_{t}, Ω) y_{t}

其中，c＝1,2,...,C为高斯索引。为了估计i-vector，需要基于UBM的均值中心化一阶Baum-Welch统计量：

{\tilde{F}}_{c} = Σ_{t = 1}^{L} p (c | y_{t}, Ω) (y_{t} - m_{c})

m_c为UBM第c个高斯分量的均值，最终w的求取公式为：

w = {(I + T^{t} Σ^{- 1} N (u) T)}^{- 1} T^{t} Σ^{- 1} \tilde{F} (u)

N(u)为CF×CF维对角块矩阵，相应的对角块为N_cI，超向量，由拼接而成。

在步骤104，利用各个语种的总变化量因子向量训练一组支持向量机模型，对每一个目标语种来说，包括它的一对一模型和一对多模型。如包含ABC三个目标语种，训练得到的支持向量机模型就包括A-B模型、A-C模型、B-C模型、A-BC模型、B-AC模型、C-AB模型，即如果有N个目标语种，将会得到个模型。

在步骤105，训练高斯后端模型。选取一部分数据，提取总变化量因子后，在步骤104得出的支持向量机模型上进行打分。

在步骤106，对得分矩阵采用线性判别分析（LDA）算法，训练一个投影矩阵W，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。将训练样本投影后，得到一个行、列数小于L列的新矩阵，每一行属于哪个语种列别为已知。对投影后的矩阵计算方差，再计算每一个语种类别的单高斯均值，得到高斯后端模型的参数。

图2是根据本发明实施例的基于总变化量因子语种识别方法的识别流程图。

在识别过程中，前端处理、特诊提取、总变化量因子向量提取、SVM模型打分都与图1中的方法一致。

在步骤201，对支持向量机模型的得分向量进行线性鉴别分析降维变换，变换是通过训练好的W矩阵，将维的得分向量投影到低维的子空间，通过β＝α*W来实现。计算新的得分向量β在各个语种单高斯后端上的log似然值，在第i个语种上的似然值的计算公式为：

p_{i} (β) = \frac{1}{{(2 π)}^{D / 2} {| Σ |}^{1 / 2}} \exp {- \frac{1}{2} {(β - u_{i})}^{t} Σ^{- 1} (β - u_{i})}

其中，D表示新得分向量的维数，u_i表示第i个语种对应的高斯均值，Σ表示方差。

在步骤202，对各个语种上的似然得分进行判断。首先最高得分对应的语种，如果最高得分大于某一设定的阈值，则认为待测语音是该语种；否则认为待测语音不属于任何目标语种，是其他语种。

图3是根据本发明实施例的基于总变化量因子的语种识别系统的示意图

前端处理模块，用于处理输入语音数据，去除彩铃、振铃、传真等垃圾语音，只保留有效语音部分。

特征提取模块，用于提取每句有效测试语音的移动差分特征。

总变化量因子提取模块，用于从语音特征计算总变化量因子向量。

支持向量机模型打分模块，用于计算低维的总变化量因子向量在各个模型上的得分，得到得分向量。

高斯后端处理模块，用于将得分向量映射到一个低维空间，在低维空间计算在各个语种单高斯模型上的似然。

得分判决模块，用于根据最大似然值确定最后是否属于某一个目标语种，给出识别结果。

至此，得到一个完整的基于总变化量因子的语种识别系统。

本发明涉及一种采用总变化量因子的语种识别方法及系统。所述方法包括：提取某一语种的多段语音数据的声学特征，把声学特征映射为表征某段语音语种特点的总变化量因子，通过支持向量机算法建立与各目标语种相关的一对一和一对多模型，训练高斯后端分类器模型；语种模型建立好之后，提取某一段测试语音的声学特征和相应的总变化量因子，对各目标语种的一对一和一对多支持向量机模型进行打分，再把得分向量经过高斯后端变换，根据变换后的向量判决输入语音属于哪一个语种。本发明实施例提出的语种识别方法和系统将高维的声学特征表征为低维的总变化量因子（即，本发明将高维超矢量进行投影压缩，使其变成保留语种信息的低维因子），相比传统的高维超矢量，去除了更多冗余信息，提高了后端识别器的计算速度，性能更优；同时，采用高斯后端更方便多系统得分融合。

本技术领域人员应该进一步意识到，结合本文所公开的实施例描述的各示例模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清除说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请范围。

结合本文所公开的实例描述的方法或算法的步骤，可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM、或技术领域内公知的任意其他形式的存储介质中。

需要指出的是，以上仅为本发明较佳实施例，并非用来限制本发明的实施范围，具有专业知识基础的技术人员，可以由以上实施实例实现本发明，因此凡是根据本发明的精神和原则之内所作的任何变化、修改与改进，都被本发明的专利范围所覆盖。即，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种高斯后端分类器模型构造方法，所述方法包含：

2.根据权利要求1所述的基于总变化量因子的语种识别方法，其特征在于，训练一组一对一和一对多支持向量机模型的策略进一步包含：

3.根据权利要求1所述的基于总变化量因子的语种识别方法，其特征在于，训练高斯后端分类器模型的步骤具体包含：

步骤401）从训练数据选取一部分数据，提取选取数据的总变化量因子，将每个语种包含的总变化量因子基于所述的一对一和一对多支持向量机模型进行支持向量机打分；当每个语种包含m_i,i＝1,2...N句训练语句，得到一个行数为维、列数为维的矩阵，且每行的语种类别已知；

4.一种基于总变化量因子的语种识别方法，该方法基于权利要求1构造的高斯后端分类器模型和一对一和一对多支持向量机模型，所述方法包含：输入测试语音，并提取测试语音的声学特征；根据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子，再对一对一和一对多支持向量机模型打分，得到得分向量；将得分向量输入高斯后端分类器模型进行判决并输出识别结果。

5.根据权利要求4所述的基于总变化量因子的语种识别方法，其特征在于，所述基于总变化量因子的语种识别方法具体包含：

6.根据权利要求5所述的基于总变化量因子的语种识别方法，其特征在于，根据差分特征提取总变化量因子向量的步骤具体为：

7.根据权利要求5所述的基于总变化量因子的语种识别方法，其特征在于，所述前端处理为：

8.根据权利要求5所述的提取每句语音的移动差分特征，其特征在于：提取MFCC基本倒谱特征，对基本特征进行特征补偿，所述特征补偿包括倒谱均值减、Rasta滤波和移动差分变换。

9.一种采用总变量因子的语种识别系统，其特征在于，所述系统包含：