CN104240699B

CN104240699B - 一种简单有效的短语语音识别方法

Info

Publication number: CN104240699B
Application number: CN201410462400.4A
Authority: CN
Inventors: 杨莹春; 吴朝晖; 邓立才
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-09-12
Filing date: 2014-09-12
Publication date: 2017-05-10
Anticipated expiration: 2034-09-12
Also published as: CN104240699A

Abstract

本发明公开了一种简单有效的基于GMM Token配比相似度的短语语音识别方法，该方法利用测试语音和样本短语语音在背景模型上的GMM token配比向量的相似度来识别短语，该方法算法复杂度低，进一步还可以仅根据短语发音的起始片段完成短语识别，而无需等待完整的短语发音过程结束，因此可适用于实时性要求较高的场合。

Description

一种简单有效的短语语音识别方法

技术领域

本发明属于语音识别技术领域，具体涉及一种简单有效的短语语音识别方法。

背景技术

短语语音识别技术是指利用信号处理技术和模式识别方法，通过采集短语语音来识别短语内容的技术。目前，短语语音识别采用的主要特征包括梅尔倒谱系数(MFCC)、线性预测编码倒谱系数(LPCC)、感觉加权的线性预测系数(PLP)。主要采用隐马尔可夫模型、动态时间规划等方法。而这些方法的复杂度较高，不适合实时性要求较高的场合。

发明内容

针对现有技术所存在的上述技术问题，本发明提供了一种简单有效的短语语音识别方法，通过利用测试语音和目标短语的训练语音的GMM Token配比相似度识别短语。

一种简单有效的短语语音识别方法，包括如下步骤：

(1)搜集一定数量的待识别短语发音的语音特征训练生成一个语音背景模型SBM(Speech Background Model)；

(2)针对任一个目标短语，计算其训练语音特征在语音背景模型SBM上的GMMToken配比向量GTR；依此遍历所有目标短语；

(3)接收测试语音，计算测试语音特征在语音背景模型SBM上的GMM Token配比向量GTR；

(4)计算测试语音特征与每一目标短语的训练语音特征关于GMM Token配比向量GTR之间的相似度，根据相似度生成对应的目标短语得分；

(5)对最高目标短语得分进行阈值过滤后，识别确定最高目标短语得分所对应的目标短语即为测试语音的真实内容。

所述的步骤(1)中采用EM算法(Expectation-maximization algorithm，简称期望最大算法)训练生成语音背景模型SBM，其为混合阶数为M的高斯混合模型，并以λ表示，M为大于1的自然数。

所述的步骤(2)和(3)中，计算特定语音特征在语音背景模型SBM上的GMM Token配比向量GTR的具体过程如下；特定语音为训练语音或测试语音，特定语音特征以X＝{x₁,x₂,...,x_n}表示，x_i为特定语音的第i帧特征向量；

首先，将特定语音特征转换成一个GMM Token序列T如下：

T＝{t₁,t₂,...,t_n}t_i∈{1,2,...,M}

其中：t_i为GMM Token序列T中第i个Token元素，其取值为语音背景模型SBM中的一高斯分量标号，M为语音背景模型SBM的混合阶数，i为自然数且1≤i≤n，n为特定语音的总特征帧数；

然后，根据以下公式统计语音背景模型SBM中每一个高斯分量标号在GMM Token序列T中出现的频率，即GMM Token配比分量f_m；

其中：N_m为高斯分量标号m在GMM Token序列T中出现的次数，fm为高斯分量标号m在GMM Token序列T中出现的频率，m为自然数且1≤m≤M；

最后，根据GMM Token配比分量f_m，构建特定语音特征在语音背景模型SBM上的GMMToken配比向量GTR如下：

GTR＝[f₁,f₂,...,f_M]^T

对于N个目标短语的训练语音特征，则依据上述流程计算出对应的GMM Token配比向量GTR_t1,GTR_t2,…,GTR_tN，N为大于1的自然数；对于任一测试语音特征X_e，则依据上述流程计算出对应的GMM Token配比向量GTR_e。

所述的Token元素t_i表示为最有可能生成对应帧特征向量x_i的高斯分量标号，其表达式如下：

其中：ω_m为语音背景模型SBM中第m个高斯分量对应的权重，p_m(x_i)为特征向量x_i在语音背景模型SBM中第m个高斯分量上的似然得分，即特征向量x_i由语音背景模型SBM中第m个高斯分量生成的概率。

所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的夹角余弦值，或采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的欧式距离。

当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的夹角余弦值时，则对应的目标短语得分即为该夹角余弦值；当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的欧式距离，则对应的目标短语得分等于1减去该欧式距离。

所述的步骤(5)中使最高目标短语得分与预设的得分阈值进行比较，若最高目标短语得分小于等于该得分阈值，则表明测试语音的内容不属于任一目标短语；若最高目标短语得分大于该得分阈值，则确定该最高目标短语得分所对应的目标短语为测试语音的真实内容。

本发明方法通过计算测试语音和目标短语训练语音在SBM上的GMM Token配比相似度来识别短语，该方法算法复杂度低，进一步还可以仅根据短语发音的起始片段完成短语识别，而无需等待完整的短语发音过程结束，因此可适用于实时性要求较高的场合。

附图说明

图1为本发明方法的执行流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本实施方式中的实验数据采用的是两个数据库，一个是中文情感语音数据库(MASC@CCNT)，该数据库是在安静的环境下采用奥林巴斯DM-20录音笔录制的，该数据库由68个母语为汉语的68个说话人组成，其中男性说话人45人，女性说话人23人。本实施方式所提供的识别方法中，可以有多种选择，本实施例中为了便于描述以及提供具体的测试结果，选取了每个说话人中性情绪下的15句短语语音(包含5个不同的短语，每个短语3遍录音)。另一个数据库是一个语音指令数据集，该指令集包括“前”，“左”，“右”三个指令；数据集中包含7个人的录音数据，其中2名女性，5名男性。每个人的“前”，“左”，“右”分别录制了20遍。

如图1所示，本实施方式的步骤如下：

(1)搜集一定数量的待识别短语发音的语音特征训练生成一个语音背景模型SBM。

对于“前左右”指令识别，SBM的训练语音包括每个说话人的“前”，“左”，“右”的前3遍语音，模型阶数为6阶，每个说话人剩余的“前左右”的后17段录音作为测试集。对于MASC@CCNT短语库中的每个说话人，其5个短语的三遍录音中选择前两遍用于训练SBM，第三遍用于测试。

该步骤中的SBM训练过程如下：

1-1、对SBM训练语音信号进行预处理，预处理的步骤包括采样量化，去零漂，预加重(加重信号的高频部分)和加窗(将一段语音信号分为若干段)，

并对每段语音信号提取短时语音特征，可以是梅尔倒谱系数(MFCC)或线性预测编码倒谱系数(LPCC)或感觉加权的线性预测系数(PLP)，本实施例的实验中，特征选用13维的MFCC特征以及一维能量特征，再加上一阶delta，总共28维。

1-2、将所有SBM训练语音的短时语音特征MFCC通过EM算法训练出语音背景模型SBM，是混合阶数M的高斯混合模型GMM，以λ＝(ω_m,μ_m,Σ_m)表示。

一般性的，对任一M阶高斯混合模型GMM，以λ＝(ω_m,μ_m,Σ_m)表示。由模型λ生成语音特征序列X＝{x₁,…,x_n}的似然得分计算如下：

其中：ω_m表示第m个高斯分量的权重；p_m(x_i)表示第m个高斯分布函数；μ_m表示第m个高斯分量的均值；Σ_m表示第m个高斯分量的方差；x_i表示第i帧短时语音特征；n为语音特征序列长度；M为混合阶数，表示高斯分量的个数，可以依据需要调整，本实施方式中的实验中取64。D为语音特征向量维数，本实施方式中的实验中取13。

(2)针对每个目标短语，利用其训练语音在步骤(1)中训练得到的SBM上的GMMToken配比向量。

2-1、该步骤中，GMM Token配比向量计算方法如下：

将每个目标短语的训练语音转换为相应的GMM Token序列，每一帧特征帧都对应一个Token，而每一个Token代表GMM中使得该特征帧获得最高后验概率的高斯分量的标号值。即对于一帧特征向量x_i，它的GMM Tokent_i如下式所示：

其中：λ表示高斯混合模型，其阶数为M；λ_m表示该高斯混合模型的第m个高斯分量；ω_m为第m个高斯分量在模型中的权重；p_m(x_i)为特征向量在模型的第m个高斯分量上的似然得分，通过公式(2)计算得到。

通过以上方式，一段语音的特征帧序列X＝{x₁,x₂,...,x_n}经过计算便可得到其GMM Token序列T＝{t₁,t₂,...,t_n}，其中t_i∈{1,2,...,M}，M为GMM模型阶数，本实施例中取值为64。我们通过统计GMM Token序列中每个token出现的频率，得到GMM Token配比因子(GTR)。对于一段语音的GMM Token序列T＝{t₁,t₂,...,t_n}而言，token i的频率f_i通过下式计算得到：

其中：N_i为GMM Token序列中，Token i出现的次数，n为语音的总帧数，即GMMToken序列的长度。通过上式我们便能够得到一段语音的GMM Token配比向量GTR如下：

GTR＝[f₁,f₂,...,f_M]^T

其中：Token配比向量GTR中第i维即表示这段语音特征帧序列中，最高后验概率得分为第i个高斯分量的特征帧占总帧数的比例。

本实施例中，对于3和5个目标短语训练语音特征，则可依据上述流程计算出对应的GMM Token配比向量GTR_t1,GTR_t2,GTR_t3和GTR_t1,…,GTR_t5。

(3)采集测试语音，并提取测试语音特征，计算该测试语音特征在步骤(1)中得到的SBM上的GMM Token配比向量GTR_e。

在该步骤中，本实施方式首先计算测试语音和所有目标短语语音在SBM上的GMMToken配比的相似度值GTRS。

该步骤中，GMM Token配比向量的相似度可以利用多种方法计算，如向量的欧式距离和向量的夹角余弦，以向量的夹角余弦为例，GMM Token配比向量的相似度值GTRS计算如下式所示：

其中：GTR_i和GTR_j为两个GMM token配比向量。

(4)根据相似度生成目标短语得分Score_tk。当相似度采用测试语音的GTR与目标短语训练语音的GTR之间的夹角余弦值时，则目标短语得分Score_tk即采用该夹角余弦值。

(5)比较测试语音的每一目标短语得分，识别确定最高得分所对应的目标短语即为测试语音对应的短语。

对于一个包含N个目标短语的系统而言，比较测试语音测试语音的每一目标短语得分Score_tk，选择最大得分对应的目标短语序号，作为最终的识别结果，如下式所示：

式中，id为得分最大的值所对应的目标短语的序号。

例如，某一段待识别语音的第20个目标短语Score_tk最大，则识别结果为待识别语音是由第20个目标短语。

以下我们对评测集中所有语句进行测试，“前左右”指令集测试语音共计357句(7个评测人×3个短语×17遍(3个短语，每个短语重复17遍)，MASC@CCNT短语库测试语音共计340句(68个评测人×5个短语×1遍(3个短语，每个短语重复1遍)。实验结果如表1所示：

表1

从表1中可以看出，本发明取得了较好的识别结果。我们进一步提出根据指令起始语音片段进行短语识别的方法。在实验中，我们针对每一个指令，只选取了每个指令开始的前100ms的语音片段，然后利用基于GMM token配比相似度的短语识别方法对指令进行识别，识别准确率为94.8％，虽然相对采取完整的指令帧的准确率要略低一些，但指令的平均识别时间由原来的235.6毫秒降至112.8毫秒，这大大的降低了指令识别所需的时间，因此这种方法可适用于实时性要求较高的场合。

Claims

1.一种简单有效的短语语音识别方法，包括如下步骤：

(1)搜集一定数量的待识别短语发音的语音特征训练生成一个语音背景模型SBM；

(2)计算每一目标短语的训练语音特征在语音背景模型SBM上的GMMToken配比向量GTR；

(3)接收测试语音，计算测试语音特征在语音背景模型SBM上的GMMToken配比向量GTR；

(5)对最高目标短语得分进行阈值过滤后，识别确定最高目标短语得分所对应的目标短语即为测试语音的真实内容；

首先，将特定语音特征转换成一个GMM Token序列T如下：

T＝{t₁,t₂,...,t_n} t_i∈{1,2,...,M}

其中：t_i为GMM Token序列T中第i个Token元素，其取值为语音背景模型SBM中的一高斯分量标号，M为语音背景模型SBM的混合阶数，i为自然数且1≤i≤n，n为特定语音的总特征帧数；所述的Token元素t_i表示为最有可能生成对应帧特征向量x_i的高斯分量标号，其表达式如下：

t_{i} = \arg \underset{1 \leq m \leq M}{m a x} ω_{m} p_{m} (x_{i})

其中：ω_m为语音背景模型SBM中第m个高斯分量对应的权重，p_m(x_i)为特征向量x_i在语音背景模型SBM中第m个高斯分量上的似然得分，即特征向量x_i由语音背景模型SBM中第m个高斯分量生成的概率；

f_{m} = \frac{N_{m}}{n}

其中：N_m为高斯分量标号m在GMM Token序列T中出现的次数，f_m为高斯分量标号m在GMMToken序列T中出现的频率，m为自然数且1≤m≤M；

GTR＝[f₁,f₂,...,f_M]^T

2.根据权利要求1所述的短语语音识别方法，其特征在于：所述的步骤(1)中采用EM算法训练生成语音背景模型SBM，其为混合阶数为M的高斯混合模型，并以λ表示，M为大于1的自然数。

3.根据权利要求1所述的短语语音识别方法，其特征在于：所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的夹角余弦值，或采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的欧式距离。

4.根据权利要求3所述的短语语音识别方法，其特征在于：当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的夹角余弦值时，则对应的目标短语得分即为该夹角余弦值；当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的欧式距离，则对应的目标短语得分等于1减去该欧式距离。

5.根据权利要求1所述的短语语音识别方法，其特征在于：所述的步骤(5)中使最高目标短语得分与预设的得分阈值进行比较，若最高目标短语得分小于等于该得分阈值，则表明测试语音的内容不属于任一目标短语；若最高目标短语得分大于该得分阈值，则确定该最高目标短语得分所对应的目标短语为测试语音的真实内容。