CN102693723A

CN102693723A - 一种基于子空间的非特定人孤立词识别方法及装置

Info

Publication number: CN102693723A
Application number: CN2012100931201A
Authority: CN
Inventors: 何亮; 巴福生
Original assignee: Logical Science And Technology Ltd Co Of Intelligent Sound Is Pacified In Beijing
Current assignee: Logical Science And Technology Ltd Co Of Intelligent Sound Is Pacified In Beijing
Priority date: 2012-04-01
Filing date: 2012-04-01
Publication date: 2012-09-26

Abstract

本发明涉及自动语音识别领域，特别是一种基于子空间技术的非特定人孤立词识别方法和装置。该方法的特征在于将子空间技术应用到隐含马尔科夫模型中，首先利用所有语音数据训练全局模型，随后采用子空间自适应的方法，刻画声学基元模型，并依此建立隐含马尔可夫模型。该装置包括：语音预处理模块、特征提取模块、建立模型模块、模型匹配模块和分数判决模块。本发明在有限数据条件下能够稳健估值。适用于训练和识别语音数据有限条件下，中等规模词表的非特定人孤立词识别。

Description

一种基于子空间的非特定人孤立词识别方法及装置

技术领域

本发明涉及自动语音识别领域，具体而言，是一种基于子空间技术的非特定人孤立词识别方法及装置。

背景技术

语音是人类最自然、最灵活、最频繁的信息交流方式。语音中蕴含多层信息，如何自动提取这些信息便成为当前语音信号处理领域的主要研究内容。作为该领域的一个重要分支，孤立词(Isolated Word Recognition，IWR)是利用计算机，自动从语音片段中提取内容的识别技术，在汽车导航、计算机控制、玩具等诸多领域有广泛的应用。

目前，非特定人孤立词识别主要利用统计模式识别的方法，分为训练和测试两个阶段。训练阶段可分为三个步骤：前端处理，特征提取和建立模型；测试阶段可分为四个步骤：前端处理，特征提取，模型匹配和分数判决。通常而言，

(1)前端处理：包括语音增强、活动语音检测和语音切分等信号处理技术；

(2)特征提取：通常选择线性预测倒谱系数(Linear Predictive Cepstral Coefficients，LPCC)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)或感知线性预测(PerceptualLinear Prediction，PLP)；

(3)建模方法(建立模型和模型匹配)：主流技术是隐含马尔科夫模型(Hidden Markov Model，HMM)；

(4)分数判决：根据阈值，对分数进行比较，对HMM的输出分数进行处理，给出识别结果。

在上述过程中，建模方法是最为重要的一个环节。对于非特定人的IWR算法，在进行HMM建模时，需要选择建模基元，通常有三种方法：

(1)整词：把词作为建模的基本单元；

(2)声韵母：把声韵母作为建模的基本单元。在汉语中，有21个声母，37个韵母。

(3)音节：将音节作为建模的基本单元。音节分为无调音节和有调音节，在汉语中，无调音节有409个，有调音节有1300个。

上述三种方法各有利弊。一般而言，选择的基元越精细，系统的计算复杂度就越高，推广性就越好。例如，选择整词作为基元，其计算复杂度低，识别率高(＞99％)，适用于小规模词表的IWR系统；选择声韵母或音节作为基元，扩展性好，可以通过修改词表得到便利的应用，适用于大规模词表的IWR系统，但识别率不高。

选择声韵母或音节作为基元，利用HMM建模的非特定人孤立词识别系统的识别率不高的主要原因有如下几点：(1)HMM的参数较多，难以准确估值；(2)识别时会引入搜索误差等。其中，对HMM参数不能准确估值是造成识别率下降的核心因素。

子空间技术认为待估计的数据结构是冗余的，通过线性映射降低建模的自由度，达到准确估值的目的。子空间技术在在图像识别、文本识别、生物特征识别和雷达型号处理等领域有广泛的应用。

发明内容

本发明的目的在于：提出一种基于子空间技术的非特定人孤立词识别方法和装置，以解决传统方法中隐含马尔科夫模型的参数较多，不能被准确估值的问题。

本发明提出一种将子空间技术应用于非特定人孤立词识别方法和装置。发明的基本特征是：认为隐含马尔科夫模型的参数存在冗余，通过线性映射，降低建模的自由度。在相同训练数据条件下，能更为稳健的估值，解决估值不准的问题。

发明的具体步骤如下：

(1)训练阶段：对于训练语音，作如下处理，

(1.1)前端处理：包括语音增强，用于抑制背景噪声，提升语音部分的可懂度，以便后端能够更好的区分语音信号和非语音信号。采用的方法是频域的维纳滤波；活动语音检测，用于区分语音信号和非语音信号，去除非语音信号，以便后端对语音信号的识别。采用的方法有G723.1、G723.9等。语音切分，对检测到的语音信号分帧处理，以便后续的特征提取。

(1.2)特征提取：可以选择LPCC、MFCC或PLP及衍生特征。以MFCC为例，通常提取12维MFCC基本特征和能量构成13维特征。该13维特征是静态特征，为了反映语音的动态特性，利用静态特征构造差分特征。将1阶、2阶差分特征附到静态特征后，构成用于建模的39维MFCC特征。

(1.3)建立模型：采用声韵母模型。将声韵母作为基本单元的好处是：可以将事先训练好的基元单元按照声韵母拼接得到整体模型，使构建的非特定人孤立词识别系统通过修改词表，就能直接用于识别。

在对声韵母建模时，根据是否考虑上下文信息，分为单音子模型、双因子模型和三音子模型。单音子模型不考虑上下文信息，双音子模型考虑前向信息，三音子模型考虑前后项信息。这三者中，以单音子模型和三音子模型较为常见，三音子模型的性能一般优于单音子模型的性能。

对单音子建模时，将训练语音的特征按照声韵母状态分开，并采用LBG算法，得到状态输出模型。状态输出模型是高斯混合模型集(Gaussian Mixture Models，GMM)。对三音子模型建模时，要考虑上下文信息标注，并根据标注信息构建决策树，并根据决策树构建三音子模型。根据决策树，利用LBG算法，得到状态输出模型。状态输出模型是共享的高斯混合模型集。

为了便于说明问题，假设频谱特征ot是D维，其中下标t代表时间索引。在利用HMM对基本声学单元建模时，有S个状态，对于每个状态的GMM，有M个混合模型。以状态s(1≤s≤S)的GMM为例，其表达式如下：

其中，λ_s＝{ω_i，s，μ_i，s，∑_i，s，i＝1，2，…，M}代表状态s的高斯混合模型，ω_i，s，μ_i，s和∑_i，s分别是权重，均值和协方差，

的定义如下

以S＝6，M＝16和D＝39为例，一个基本的HMM声学单元需要估计S×M×(1+D+D×(D+1)/2)＝13120个参数。待参数较多意味着在模型训练阶段需要更多的训练数据。实际应用中，训练数据是有限的。为了在有限的数据上达到更好的识别性能，会对模型采用一定的约束，例如，权重矢量使用全局权重，协方差矩阵使用全局协方差等。

然而，对于GMM而言，均值矢量μ承载了最多的信息，更为重要。为了降低均值矢量μ建模时存在的较大自由度，提出如下建模方法：

上式中，V_i，g代表线性映射矩阵。下标g代表是通过所有数据，估计出的全局数据。在公式(3)中，仅有y_s是变矢量，代表与状态和混合模型索引相关的参数，一般而言，y_as的维数取100即可。通过对比公式(1)和公式(3)，可以发现公式(3)的建模方法可以明显降低模型复杂度。

利用公式(3)建模时，需要估计全局参数λ_g＝{ω_i，g，μ_i，g，∑_i，g，i＝1，2，…，M}，其方法是利用所有数据，采用最大期望算法(Expectation Maximum，EM)估计。由于此时是利用所有训练数据估计，故而不存在训练数据不足的问题。

对V_i，g和y进行估计时，采用的是类似于EM的算法。具体方法是，先随机初始化V_i，g，将V_i，g视为常量，估计y_s，使得

随机，固定y_s，估计V_i，g，使得

公式(4)和公式(5)反复迭代6次。

上述过程是声韵母基元声学建模过程，将建模后的声韵母模型按照词表中的要求拼接起来，就得到整词模型。

(2)识别阶段：对测试语音，做如下处理

(2.1)前端处理：对测试语音的处理方法如步骤(1.1)所述；

(2.2)特征提取：对测试语音的处理方法如步骤(1.2)所述；

(2.3)模型匹配：根据孤立词列表和训练阶段得到的模型对待识别语音进行打分。在计算过程中，主要采用维特比(Viterbi)算法，搜索最优路径和最高得分。

(2.4)分数判决：根据模型匹配的最高得分，从孤立词列表中，选取一个最可能的孤立词。如果所有孤立词都低于某个阈值，则认为待识别语音的是孤立词列表中以外的其他词语。

附图说明

图1是本发明方法的流程图。

图2是本发明方法的装置图。

具体实施方式

本发明的方法在数字集成电路芯片中按以下步骤实现的：

步骤1：前端处理模块，包括语音增强子模块、活动语音检测子模块和语音切分子模块。

步骤1.1：语音增强子模块，采用频域维纳滤波，在一定程度上抑制非语音部分；

步骤1.2：活动语音检测子模块，采用G723.9，标记语音和非语音的时间索引；

步骤1.3：语音切分子模块，对语音进行分帧，以便后续的特征提取。

步骤2：特征提取模块，包括提取基本特征子模块和差分子模块。

步骤2.1：提取基本特征子模块：提取12维MFCC基本特征和能量，构成13维基本特征；

步骤2.2：差分子模块，利用基本特征构造1阶和2阶差分特征，并附到基本特征后，构成39维特征。

步骤3：建立模型模块，包括基元切分子模块、全局模型训练子模块、子空间训练子模块、整词拼接子模块和模型存储子模块。

步骤3.1：基元切分子模块。在训练语音库上，根据标注对特征进行切割，以便后端估值；

步骤3.2：全局模型训练模块，利用所有语音训练数据，利用LBG算法或EM算法，得到全局的模型参数，λ_g＝{ω_i，g，μ_i，g，∑_i，g，i＝1，2，…，M}；

步骤3.3：根据步骤3.1的分类特征和步骤3.2的全局模型，采用类似于EM算法的迭代法估计V_i，g和y_s。具体策略是先随机初始化V_i，g，并固定V_i，g，估计使得对数似然最大的y_s；随后固定y_s，求解使得对数似然最大的V_i，g。上述过程迭代6次。

步骤3.4：根据步骤3.4建立的模型参数，通过孤立词列表，根据声韵母规则，进行整词拼接；

步骤3.5：将步骤3.1到步骤3.4中估计的参数存储到Flash中。

步骤4：孤立词识别模块，该模块利用已经训练好的模型，对测试语音进行打分。对于测试语音，需要先按照步骤1和步骤2，提取出测试语音的特征。随后，测试特征进入本模块。本模块主要操作是维特比解码。通过步骤3存储的基于子空间的HMM模型，计算出测试特征的最优路径和对应的似然分数。

步骤5：分数判决模块，该模块实现对步骤4输出分数的后处理。选择一个最大似然分数的孤立词作为识别结果，如果该分数低于某个阈值，则给出该段语音无法识别的结果。

该发明装置的特点是在步骤3和步骤4中，融入了子空间方法，从而降低了模型的自由度，达到更为稳健的估值。图2是本发明的装置图。

Claims

1.一种基于子空间的非特定人孤立词建模方法，其特征在于，将子空间技术融入隐含马尔科夫模型框架，从而降低建模的自由度，在有限数据量的情况下，能够提高所估计模型的准确度，提升系统的识别性能。

2.根据权利要求1所述的，用于非特定人孤立词识别的子空间建模方法，其特征在于所述方法适用于不同声学基元，包括音节、半音节和声韵母。

3.根据权利要求1所述的，用于非特定人孤立词识别的予空间建模方法，其特征在于所建立的模型既可适用于单因子模型，也可以适用于双因子、三音子模型。

4.根据权利要求1所述的，用于孤立词识别的子空间建模方法是与语种无关的。

5.一种基于子空间的孤立词识别装置，其特征在于，该装置分为5个模块：前端处理模块、特征提取模块、建立模型模块、模型匹配模块和分数判决模块。

6.根据权利要求5所述的，建立模型模块是基于子空间技术的，具体而言，该模块又分为5个子模块：基元切分子模块、全局模型训练子模块、子空间训练子模块、整词拼接子模块和存储子模块。

7.根据权利要求6所述的，全局模型训练子模块是根据LBG算法或EM算法训练所得。

8.根据权利要求6所述的，予空间训练子模块是根据EM算法训练所得，目标函数是提升对数似然度，具体方法是：先固定线性子空间，估计隐含参数，使得对数似然最大；随后固定隐含参数，求解予空间。

9.根据权利要求5所述的，模型匹配模块采用的模型参数，是所述建立模型模块估计出的子空间模型。