CN101645269A

CN101645269A - 一种语种识别系统及方法

Info

Publication number: CN101645269A
Application number: CN200810247575A
Authority: CN
Inventors: 颜永红; 肖翔; 索宏彬; 赵庆卫
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2008-12-30
Filing date: 2008-12-30
Publication date: 2010-02-10

Abstract

本发明涉及一种语种识别系统及方法，该系统包括：预处理和特征提取模块、生成性音子序列解码模块、N元文法语言语法模型模块及分类器。生成性音子序列解码模块包括：混合高斯模型训练模块、混合高斯模型解码模块及序列平滑模块。该系统及方法将训练语种语音数据通过EM迭代准则，训练生成与该语种数据相对应的混合高斯模型，并根据该混合高斯模型对输入语音的特征进行识别，产生音子序列。本发明的系统及方法利用基于混合高斯模型的生成性音子序列解码模块，避免PPRLM系统中前端音子识别器所需要的大量计算，实现在不损失检测精度的基础上识别速度大幅提高；使用平滑策略，使语音序列具有明显的短时稳定性。

Description

一种语种识别系统及方法

技术领域

本发明涉及语音识别领域，特别涉及一种语种识别系统及方法。

技术背景

语种识别是一种完全自动的判别一段语音信号的语种类别的技术，近年来，该技术在国防，安全，监控等领域获得广泛应用。目前，该技术的主要系统架构是传统的并行音子识别器加语言模型(PPRLM)方法。该方法利用不同语种之间的音位配列之间的差异，即利用不同语种之间，发音的音子，音子串，以及音子出现的频率和前后文关系的不同，来区分各个语种。这也是人类区分不同语种的重要特征。

图1为传统的PPRLM系统的一个支路的结构，称之为音子识别器加语言模型系统(PRLM)。在PRLM系统中，语音首先提取特征后被送入一个音子识别器，识别出来的音子序列送到各个备选语种的语言模型中打分，然后对各个语言模型的得分进行比较而得出结论。

而并行音子识别器加语言模型的方法，则是多个PRLM并行的方法。其结构如图2所示。

目前，PPRLM的方法是语种识别系统的主要方法，在历届NIST评测中取得了很好的效果，然而，PPRLM系统有其自身的使用局限性：前端的音子识别器需要很大的计算量，从而严重的影响了PPRLM系统的实际应用。

发明内容

为了克服现有技术中的不足，本发明提供一种语种识别系统及方法，该系统及方法利用基于混合高斯模型(GMM)的生成性音子序列解码模块，代替PPRLM前端的音子识别器，这样可以避免PPRLM系统中前端音子识别器所需要的计算量。

为了达到上述目的，本发明提供的一种语种识别系统，该系统包括：

一预处理和特征提取模块，用于对输入的语音信号做预处理、提取语音信号的特征，并将该特征送入生成性音子序列解码模块。

一生成性音子序列解码模块，用于将训练语种语音数据通过EM迭代准则，训练生成与该语种数据相对应的混合高斯模型，并根据该混合高斯模型对输入语音的特征进行识别，产生音子序列，并将该音子序列送入N元文法语言语法模型模块。

一N元文法语言语法模型模块，用于对送入的音子序列进行似然打分，并将该得分送入分类器。及

一分类器，用于将N元文法语言语法模型模块的打分进行比较，最终确定输入的语音信号的语种类别。

其中，所述生成性音子序列解码模块包括：

一混合高斯模型训练模块，用于将训练语种语音数据通过EM迭代准则训练生成与该语种数据相对应的混合高斯模型。

所述迭代准则是训练产生的混合高斯模型参数与训练种语语音的似然度达到最大，对于训练种语语音特征序列

X = {{\overset{V}{x}}_{1}, {\overset{V}{x}}_{2}, . . . {\overset{V}{x}}_{T}},

各帧之间相互独立，则该训练种语语音特征序列对于混合高斯模型的似然度定义为：

p (X | λ) = Π_{i = 1}^{T} p ({\overset{V}{x}}_{t} | λ);

其中，T为一段种语语音的帧数，

是第t帧种语语音的特征。

最大期望(EM)算法基本思想是首先初始化模型参数λ，再估计新的模型参数λ，使其满足条件p(X|λ)≥p(X|λ)，然后再以估计的值作为下一次重估的初始值重新估计模型参数值，不断重复此参数重估过程，直到收敛条件得到满足。

一混合高斯模型解码模块，用于利用混合高斯模型，根据后验概率计算公式对输入语音的特征进行识别，产生音子序列。

所述后验概率计算公式如下：

p (i | {\overset{V}{x}}_{t}) = \frac{ω_{i} b_{i} ({\overset{V}{x}}_{t})}{Σ_{k = 1}^{M} ω_{k} b_{k} ({\overset{V}{x}}_{t})};

其中，

是观测数据

在第i个高斯分量上的后验概率，

是观测数据

在第i个高斯分量上的观察概率，

Σ_{k = 1}^{M} ω_{k} b_{k} ({\overset{V}{x}}_{t})

则是观测数据

在M个高斯分量上的总观察概率。

对于每帧输入语音的特征数据，该特征数据的发音是所有混合高斯模型分量当中具有最大后验概率的分量。

一序列平滑模块，用于利用平滑公式对音子序列做平滑处理。

所述平滑公式如下：

Index (x_{t}) = \arg \max (i) {Σ_{k = - \frac{1}{2} (w - 1)}^{k = \frac{1}{2} (w - 1)} P (i / x_{t + k})};

其中，Index(x_i)是观测数据的发音，w是选择的平滑窗长。

其中，所述语种识别系统包括多个生成性音子序列解码模块及N元文法语言语法模型模块，所述生成性音子序列解码模块及N元文法语言语法模型模块采用并行结构。

本发明提供的一种语种识别方法，包括以下步骤：

(1)预处理和特征提取模块对输入的语音信号做预处理、提取语音信号的特征，并将该特征送入生成性音子序列解码模块。

(2)生成性音子序列解码模块将训练语种语音数据通过EM迭代准则，训练生成与该语种数据相对应的混合高斯模型，并根据该混合高斯模型对输入语音的特征进行识别，产生音子序列，并将该音子序列送入N元文法语言语法模型模块。

(3)N元文法语言语法模型模块对送入的音子序列进行似然打分，并将该得分送入分类器。

(4)分类器将N元文法语言语法模型模块的打分进行比较，最终确定输入的语音信号的语种类别。

其中，所述步骤(2)进一步包括以下子步骤：

(21)混合高斯模型训练模块将训练语种语音数据通过EM迭代准则训练生成与该语种数据相对应的混合高斯模型。

(22)混合高斯模型解码模块利用混合高斯模型，根据后验概率计算公式对输入语音的特征进行识别，产生音子序列。

(23)序列平滑模块利用平滑公式对音子序列做平滑处理。

其中，所述语种识别方法采用多个生成性音子序列解码模块及N元文法语言语法模型模块并行处理的方式进行语种识别。

本发明的优点在于：

1、本发明提供的语种识别系统及方法，即在输入语音信号的情况下，自动的判别输入语音的语种类别。

2、本发明提供的语种识别系统及方法利用基于混合高斯模型(GMM)的生成性音子序列解码模块，代替PPRLM前端的音子识别器，避免PPRLM系统中前端音子识别器所需要的大量计算，实现在保证不损失检测精度的基础上识别速度大幅提高。

3、本发明提供的语种识别系统及方法使用一个短时的平滑策略，使得平滑过后的语音序列具有明显的短时稳定性。

4、本发明提供的语种识别系统及方法采用基于统计思想建立的N元文法语言模型，在一定程度上可以刻画该语音在语法层的信息，通过概率计算，并经过分类以后，给出检测结果。

附图说明：

图1是现有技术PRLM系统识别流程图；

图2是现有技术并行PRLM(PPRLM)系统识别流程图；

图3是本发明生成性音子序列解码模块的训练流程图；

图4是本发明生成性音子序列解码模块的解码流程图；

图5是本发明实施例GMM解码后的发音序列示意图；

图6是本发明实施例平滑后的发音序列示意图；

图7是本发明实施例汉语、日语和英语三种语种的混合高斯模型训练示意图；

图8是本发明实施例汉语、日语和英语三种语种的语法模型训练示意图；

图9是本发明实施例汉语、日语和英语三种语种打分示意图。

具体实施方式

下面结合一个具体的实施例对本发明做详细说明。

本实施例的任务描述：假设我们的应用任务域为N个语种，每个语种有一定量的训练数据，则每个语种的训练数据我们用S_i来表示。

本实施例采用的语种识别系统，包括：预处理和特征提取模块、多个生成性音子序列解码模块、多个N元文法语言语法模型模块及分类器。其中，所述生成性音子序列解码模块包括：混合高斯模型训练模块、混合高斯模型解码模块及序列平滑模块。其中，多个生成性音子序列解码模块及N元文法语言语法模型模块采用并行结构。

本实施例语种识别方法，包括以下步骤：

(2)生成性音子序列解码模块将训练语种语音数据通过EM迭代准则，训练生成与该语种数据相对应的混合高斯模型，并根据该混合高斯模型对输入语音的特征进行识别，产生音子序列，并将该音子序列送入N元文法语言语法模型模块。包括以下子步骤：

(21)混合高斯模型训练模块将训练语种语音数据通过EM迭代准则训练生成与该语种数据相对应的混合高斯模型。训练过程如下：

(211)对于所有的数据，首先提取特征。

(212)每个语种用数据S_i，根据EM迭代准则，估计其语种相关的GMM模型G_i，这样我们有每个语种对应的一个GMM模型，共有N个。

(213)对于每个语种，使用数据S_i，在所有N个语种对应的GMM模型G_j上计算其解码序列D_ij，对于每个语种，我们有N个解码序列，而对于所有语种，我们就会产生一共N*N个解码序列。

(214)每个解码序列D_ij，我们用n-gram准则训练其语法模型L_ij，这样我们会得到N*N个语法模型。

对于一个特定语种(英语)的生成性音子序列解码模块的训练流程如图3所示。

其中，预处理和特征提取的步骤同传统PPRLM系统一致，GMM训练模块使用该语种数据通过EM迭代来生成该语种对应的GMM模型。EM算法的准则是使训练出来的模型参数与训练语音的似然度达到最大，也就是最佳匹配程度。对于一段给定的训练语音特征序列

X = {{\overset{V}{x}}_{1}, {\overset{V}{x}}_{2}, . . . {\overset{V}{x}}_{T}},

认为各帧之间是相互独立的，则特征序列对于GMM的似然度定义为：

p (X | λ) = Π_{i = 1}^{T} p ({\overset{V}{x}}_{t} | λ);

其中T为一段语音的帧数，

是第t帧语音的说话人特征。

该语种对应的GMM模型训练出来以后，予以保留，并在识别过程中用以替代PPRLM系统中的英语音子识别器，生成语音的发音序列。

(22)混合高斯模型解码模块利用混合高斯模型，根据后验概率计算公式对输入语音的特征进行识别，产生音子序列。识别过程如下：

对于一个测试语音文件X，将其送入所有语种的GMM模型G_j上计算其解码序列d_j，然后我们将d_j送入第j个语种相关的一系列语法模型L_ij进行打分。

而在识别过程中，利用该语种的GMM模型来对待测试语音进行解码的生成性音子序列解码模块的解码流程如图4所示。

而对于每一帧数据来说，它的发音就是所有GMM分量当中具有最大后验概率的那个分量。其中：后验概率的计算公式如下：

p (i | {\overset{V}{x}}_{t}) = \frac{ω_{i} b_{i} ({\overset{V}{x}}_{t})}{Σ_{k = 1}^{M} ω_{k} b_{k} ({\overset{V}{x}}_{t})};

其中：

是观测数据在第i个高斯分量上的后验概率，

是观测数据

在第i个高斯分量上的观察概率，

Σ_{k = 1}^{M} ω_{k} b_{k} ({\overset{V}{x}}_{t})

则是观测数据

在M个高斯分量上的总观察概率。

这样，对于语音中的每帧数据，我们都可以通过GMM解码器，确定它的发音。而对于整个语音数据段来说，它的每帧数据的发音构成了一个发音序列，对于一段1.2秒的语音，其发音序列如图5所示。

从图5中我们可以看到，语音的稳定性在短时的语音帧上表现得不明显，为了增加识别结果的稳定性，我们使用一个短时的序列平滑。

(23)序列平滑模块利用平滑公式对音子序列做平滑处理。

平滑的做法如下：

Index (x_{t}) = \arg \max (i) {Σ_{k = - \frac{1}{2} (w - 1)}^{k = \frac{1}{2} (w - 1)} P (i / x_{t + k})};

其中：Index(x_t))是观测数据

的发音，w是我们选择的平滑窗长，在实际应用中，考虑语音的发音持续时间，我们选择w＝7。

平滑过后的发音序列如图6所示。从图6中可以看出，平滑过后的语音序列具有明显的短时稳定性，而这样的序列我们可以送入后端的n-gram语言模型进行建模。语言模型建模工具我们采用斯坦福研究院公布的SRILM-ToolKit。

(3)N元文法语言语法模型模块对平滑后的音子序列进行似然打分，并将该得分送入分类器。

下面根据上述系统及方法，以汉语、日语和英语三个语种为例，介绍该系统及方法的训练和识别流程。

一：训练流程

1)为每个语种训练一个混合高斯模型，如图7所示。

2)为每个语种w_i与每个混合高斯模型G_j，训练其相应的语法模型L_ij，如图8所示。

二：识别流程：

1)对于一个测试语音X，我们先通过各个混合高斯解码器G_j，生成其发音序列X_j，X_j送入相应的语法模型L_ij中打分，计算其相应的得分S_ij，如图9所示。

2)综合得分S_ij，得到3个语种的得分，其中

Scor e_{i =} \frac{1}{3} (S_{i 1} + S_{i 2} + S_{i 3}),

选择综合得分最高的语种即为该语音X的语种类别。

Claims

1、一种语种识别系统，该系统包括：

一预处理和特征提取模块，用于对输入的语音信号做预处理、提取语音信号的特征，并将该特征送入生成性音子序列解码模块；

一N元文法语言语法模型模块，用于对送入的音子序列进行似然打分，并将该得分送入分类器；及

一分类器，用于将N元文法语言语法模型模块的打分进行比较，最终确定输入的语音信号的语种类别；

其特征在于，所述语种识别系统还包括：

一生成性音子序列解码模块，用于将训练语种语音数据通过期望最大化EM迭代准则，训练生成与该语种数据相对应的混合高斯模型，并根据该混合高斯模型对输入语音的特征进行识别，产生音子序列，并将该音子序列送入N元文法语言语法模型模块。

2、根据权利要求1所述的语种识别系统，其特征在于，所述生成性音子序列解码模块包括：

一混合高斯模型训练模块，用于将训练语种语音数据通过期望最大化EM迭代准则训练生成与该语种数据相对应的混合高斯模型；

X = {{\overset{V}{x}}_{1}, {\overset{V}{x}}_{2}, . . . {\overset{V}{x}}_{T}},

p (X | λ) = Π_{i = 1}^{T} p ({\overset{V}{x}}_{t} | λ);

其中，T为一段种语语音的帧数，

是第t帧种语语音的特征；

一混合高斯模型解码模块，用于利用混合高斯模型，根据后验概率计算公式对输入语音的特征进行识别，产生音子序列；

所述后验概率计算公式如下：

p (i | {\overset{V}{x}}_{t}) = \frac{ω_{i} b_{i} ({\overset{V}{x}}_{t})}{Σ_{k = 1}^{M} ω_{k} b_{k} ({\overset{V}{x}}_{t})};

其中，

是观测数据

在第i个高斯分量上的后验概率，

是观测数据

在第i个高斯分量上的观察概率，

则是观测数据

在M个高斯分量上的总观察概率；

对于每帧输入语音的特征数据，该特征数据的发音是所有混合高斯模型分量当中具有最大后验概率的分量；

一序列平滑模块，用于利用平滑公式对音子序列做平滑处理；

所述平滑公式如下：

Index (x_{t}) = \arg \max (i) {Σ_{k = - \frac{1}{2} (w - 1)}^{k = \frac{1}{2} (w - 1)} P (i / x_{t + k})};

其中，Index(x_t)是观测数据

的发音，w是选择的平滑窗长。

3、根据权利要求1所述的语种识别系统，其特征在于，所述语种识别系统包括多个生成性音子序列解码模块及N元文法语言语法模型模块，所述生成性音子序列解码模块及N元文法语言语法模型模块采用并行结构。

4、一种语种识别方法，该方法包括以下步骤：

(1)预处理和特征提取模块对输入的语音信号做预处理、提取语音信号的特征，并将该特征送入生成性音子序列解码模块；

(2)生成性音子序列解码模块将训练语种语音数据通过期望最大化EM迭代准则，训练生成与该语种数据相对应的混合高斯模型，并根据该混合高斯模型对输入语音的特征进行识别，产生音子序列，并将该音子序列送入N元文法语言语法模型模块；

(3)N元文法语言语法模型模块对送入的音子序列进行似然打分，并将该得分送入分类器；

5、根据权利要求4所述的语种识别方法，其特征在于，所述步骤(2)进一步包括以下子步骤：

(21)混合高斯模型训练模块将训练语种语音数据通过期望最大化EM迭代准则训练生成与该语种数据相对应的混合高斯模型；

X = {{\overset{V}{x}}_{1}, {\overset{V}{x}}_{2}, . . . {\overset{V}{x}}_{T}},

p (X | λ) = Π_{i = 1}^{T} p ({\overset{V}{x}}_{t} | λ);

其中，T为一段种语语音的帧数，

是第t帧种语语音的特征；

(22)混合高斯模型解码模块利用混合高斯模型，根据后验概率计算公式对输入语音的特征进行识别，产生音子序列；

所述后验概率计算公式如下：

p (i | {\overset{V}{x}}_{t}) = \frac{ω_{i} b_{i} ({\overset{V}{x}}_{t})}{Σ_{k = 1}^{M} ω_{k} b_{k} ({\overset{V}{x}}_{t})};

其中，

是观测数据

在第i个高斯分量上的后验概率，

是观测数据

在第i个高斯分量上的观察概率，

则是观测数据

在M个高斯分量上的总观察概率；

(23)序列平滑模块利用平滑公式对音子序列做平滑处理；

所述平滑公式如下：

Index (x_{t}) = \arg \max (i) {Σ_{k = - \frac{1}{2} (w - 1)}^{k = \frac{1}{2} (w - 1)} P (i / x_{t + k})};

其中，Index(x_t)是观测数据

的发音，w是选择的平滑窗长。

6、根据权利要求4所述的语种识别方法，其特征在于，所述语种识别方法采用多个生成性音子序列解码模块及N元文法语言语法模型模块并行处理的方式进行语种识别。