CN102436815B

CN102436815B - 一种应用于英语口语网络机考系统的语音识别装置

Info

Publication number: CN102436815B
Application number: CN2011102689763A
Authority: CN
Inventors: 刘健刚; 李霄翔; 储琢佳; 董静; 魏昕; 唐加能; 赵力; 张萍; 李鲁
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2011-09-13
Filing date: 2011-09-13
Publication date: 2012-12-19
Anticipated expiration: 2031-09-13
Also published as: CN102436815A

Abstract

本发明公开了一种用于英语口语网络机考的语音识别装置，属于语音识别的应用领域。该装置由输入I/O、模数转换器、数字信号处理器模块、分别通过程序总线与数据总线与数字信号处理器模块相连的程序存储器和数据存储器、输出I/O组成。其中数字信号处理器模块包括特征提取子模块、训练子模块和识别子模块，完成对输入语音的训练和识别过程。该装置结构简单，具有一定的实时性，并且具有较短的训练时间、较高的识别精度和较小的硬件存储开销，语音识别率高，识别效果好，可以很好地应用于英语口语网络机考中。

Description

一种应用于英语口语网络机考系统的语音识别装置

【技术领域】

本发明涉及一种语音识别装置。特别涉及一种用于英语口语网络机考的语音识别装置。

【背景技术】

我国教育部高等教育司于2007年5月启动基于计算机和网络的大学英语四、六级考试项目，并于2008年12月20日在全国53所高校实施大学英语网考点考试。随着我国四、六级网考点工作的开展将彻底改变长期以来语言考试中主要依靠纸质考试制度的弊端，无论对考生还是大学英语老师都是一个巨大的挑战，是英语教学理念中的一场革命。在大学英语网考的口语测试系统中，语音识别装置居于核心地位。在传统的语音识别装置的基础上，应用于英语口语网络机考的语音识别装置需要具有以下特性.

首先，英语口语网络机考系统一般是通过网络来提供终端和服务器之间的英语识别和评估服务的，因此对语音识别装置的一般要求是面对非特定人的。其次，语音识别装置需要对由终端机、传输网络和背景噪声所带来的不利影响具有较强的鲁棒性。此外，要求其具有一定的实时性，并且具有较短的训练时间、较高的识别精度和较小的硬件存储开销。因此，在这种情况下，传统的基于隐马尔科夫模型(HMM)的语音识别方法由于需要较多的模型训练数据，较长的训练时间及识别时间，而且还需要较大的内存空间，并且对于噪声的鲁棒性较差，因此无法应用于面向英语口语网络机考的语音识别装置。

【发明内容】

为了解决上述的缺陷和不足，本发明提供了一种智能电视终端。本发明所采用的技术方案是：

一种用于英语口语网络机考的语音识别装置，包括输入接口模块、模数转换器、数字信号处理器模块、程序存储器、数据存储器和输出接口模块；语音信号依次经输入接口模块和数转换器连接数字信号处理器模块的信号输入端；数字信号处理器模块的信号输出端连接输出接口模块；所述程序存储器和数据存储器通过程序/数据总线连接数字信号处理模块的通用输入/输出端；

在程序存储器里存放提示语音，在数据存储器里存放所有的码本及采样的语音数据，

所述的数字信号处理模块包括特征提取子模块、训练子模块和识别子模块；由特征提取子模块和训练子模块完成训练流程，由特征提取子模块和识别子模块完成识别流程；

特征提取子模块对输入的语音提取相应的特征参数，步骤包括先对语音进行预加重，再加窗分帧，然后对每一帧语音求取MEL倒谱系数，用该系数作为该帧语音的特征参数；

对于训练流程，训练子模块对语音的特征参数，通过改进的矢量量化的训练算法，生成后续识别时需要用到的码本；

对于识别流程，识别子模块计算语音的特征参数与每个通过训练所生成的码本之间的欧氏距离，选出距离最小的码本所在的类作为识别结果输出。

所述改进的矢量量化的训练算法，步骤包括：

首先用分裂法产生只有两个矢量的初始码本，再用LBG算法聚类，生成两个子集；在两个子集中分别用分裂法各产生两个矢量的码本，再用LBG算法优化；如此反复M次可产生含2^M个矢量的码本，所述M的值根据在英语口语网络机考中具体需要区分的英语语音类别进行设定(这些语音类别是根据网考的实际情况来，M＝2～10，换算成类别的话数目是4～1024这样一个范围，这个类别范围内都可以用本方法。至于具体网考中有多少类别需要识别，直接用类别数求以2为底的对数，就可以得到M的取值了。)，取值范围为M＝2～10。

特征提取子模块对输入语音信号提取其相关的特征参数，过程为：将语音信号经过采样，1-aZ^-1的预加重，并且通过加窗将其分为一帧一帧的语音；

对每一帧语音s_n，首先进行线性预测分析，通过Levinson-Durbin算法求出其p阶的线性预测系数LPC a₁，a₂，...，a_p；

接着，由LPC通过递推，获得倒谱系数c₁，c₂，...，c_p，递推公式如下：

c₁＝a₁

c_{i} = Σ_{k = 1}^{n - 1} (1 - k / i) a_{k} c_{i - k} + a_{i}, 1 < i \leq P - - - (1)

把倒谱系数进一步按人耳的听觉特性变换，得到如下所示的MEL倒谱参数：

{MC}_{k} (n) = \{\begin{matrix} c_{n} + α \cdot {MC}_{0} (n + 1) & k = 0 \\ (1 - α^{2}) \cdot {MC}_{0} (n + 1) + α \cdot {MC}_{1} (n + 1) & k = 1 \\ {MC}_{k - 1} (n + 1) + α ({MC}_{k} (n + 1) - {MC}_{k - 1} (n)) & k > 1 \end{matrix} - - - (2)

其中，式(1)中的c_k和式(2)中为c_n表示倒谱系数，MC_k表示美尔倒谱系数，n为迭代次数，k为MEL倒谱阶数，取n＝k；迭代是从高往低，即n从大到0取值，最后求得的MEL倒谱系数放在MC₀(0)，MC₁(0)，...，MC_p(0)中。

对于训练流程，训练子模块采用的是基于改进的矢量量化训练算法对输入的MEL倒谱系数进行训练，改进的矢量量化训练的步骤包括：

(a1)采用分裂法求取初始码本：

假设当前经过特征提取得到的特征矢量为X，其所在的集合为S；

首先求出样本点集合S中全体样本X的质心Y

然后在S中找一个与此质心的畸变为最大的矢量X_j，再在S中找一个与X_j的误差为最大的矢量X_k以X_j和X_k为基准，S中的矢量与X_k距离较近的矢量归于子集S_k，反之归于S_j；

依次类推，经过B次分裂就可以得到C个子集(C＝2^B)，这C个子集的质心可作为初始码字

S的初始子集划分为

(a2)采用LBG算法进行聚类，对初始生成的M个子集进行优化，经过迭代，产生含2^M个矢量的码本。

所述LBG算法的步骤包括：

1)计算第m次迭代的总的畸变D^(m)：

其中d为X与

的欧氏距离；

2)计算畸变改进量的相对值ΔD^(m)的相对值δ^(m)：

3)计算新码本的码字

其中N_c为

中的特征矢量的个数；

4)根据最近邻准则将S重新分成C个子集

即当时，

d (X, Y_{c}^{(m)}) \leq d (X, Y_{i}^{(m)}), &ForAll; i, i &NotEqual; c;

5)如果δ^(m)小于预先设定的阈值，则迭代终止，输出

作为训练成的码本的码字；如果δ^(m)不小于预先设定的阈值，则转到步骤1)继续迭代。

该装置结构简单，具有一定的实时性，并且具有较短的训练时间、较高的识别精度和较小的硬件存储开销，语音识别率高，识别效果好，可以很好地应用于英语口语网络机考中。

【附图说明】

图1是本发明的系统结构框图。

图2是本发明的数字信号处理器模块中各个子模块及其连接关系框图。

图3是本发明的数字信号处理器模块训练过程的工作流程图。

图4是本发明的数字信号处理器模块识别过程的工作流程图。

【具体实施方式】

下面结合附图和具体实施方式对本发明作进一步详细描述。

一种用于英语口语网络机考的语音识别装置，所述的语音识别装置包括：输入I/O，与输入I/O相连的模数转换器，与模数转换器相连的数字信号处理器模块C54X，分别通过程序总线与数据总线与数字信号处理器模块相连的程序存储器和数据存储器，以及与数字信号处理模块相连的输出I/O。

在所述的一种用于英语口语网络机考的语音识别装置中，所述的数字信号处理模块包括语音信号的特征提取子模块，训练子模块和识别子模块；训练流程由特征提取子模块和训练子模块完成，识别流程由特征提取子模块和识别子模块完成。

在所述的一种用于英语口语网络机考的语音识别装置中，所述的特征提取子模块完成对输入的语音提取相应的特征参数过程，该过程主要包括预加重，加窗分帧，对每一帧语音求取MEL倒谱系数，用该系数作为该帧语音的特征参数。

在所述的一种用于英语口语网络机考的语音识别装置中，所述的训练子模块完成对输入的用于训练的特征参数，通过改进的矢量量化的训练算法，生成后续识别时需要用到的码本。

在所述的一种用于英语口语网络机考的语音识别装置中，其特征在于，所述的识别子模块完成对输入的用于识别的特征参数，计算其与每个通过训练所生成的码本的欧氏距离，选出距离最小的码本所在的类作为识别结果输出。

所述的改进的矢量量化的训练算法主要包括如下过程：首先由分裂法产生只有两个矢量的初始码本，再用LBG算法聚类，生成两个子集；在两个子集中分别用分裂法各产生两个矢量的码本，再用LBG算法，如此反复M次可产生含2^M个矢量的码本。此方法可以改进由于初始码本的选择不当而引起最终生成码本的劣化；M的值根据在英语口语网络机考中需要区分的英语语音类别进行设定。

图1是本发明的系统结构框图，选用的是TI公司的EVM板，其上的数字信号处理器(DSP)模块-C54x用以实现语音训练与识别的过程。由话筒等输入设备输入的语音送入EVM板上的输入I/O，而后进行模数转换(A/D)，转换后的数字信号送入C54x进行训练或识别，最终将训练或识别的结果通过数据总线(Data buses)送往输出I/O进行输出。

为了满足英语口语网络机考系统对于实时性要求，在本语音识别装置中，需要对所有的浮点数据进行定点化，以提高效率。此外，在该装置中将所有的提示语音存放在程序存储器(Program Memory)里，而所有的码本及采样的语音数据都存放在数据存储器(DataMemory)里，程序存储器和数据存储器分别通过程序总线(Program buses)和数据总线(Databuses)与数字信号处理器模块C54x相连。

图2是本发明的数字信号处理模块中的各个子模块及其连接关系图。它主要包括三个子模块：语音信号的特征提取子模块，训练子模块和识别子模块。完整的训练流程由特征提取子模块和训练子模块完成，如图3所示。完整的识别流程由特征提取子模块和识别子模块完成，如图4所示。

特征提取子模块主要完成的是对输入语音信号提取其相关的特征参数。其具体过程为：将语音信号经过8KHz采样，1-aZ^-1的预加重(a＝0.95)，并且通过加窗将其分为一帧一帧的语音(采用窗长为200个采样点，窗移为65个采样点的Hamming窗)。

对每一帧语音s_n，首先进行线性预测分析，通过Levinson-Durbin算法求出其p阶的线性预测系数(LPC)a₁，a₂，...，a_p。本装置中，p＝11。

c₁＝a₁

c_{i} = Σ_{k = 1}^{n - 1} (1 - k / i) a_{k} c_{i - k} + a_{i}, 1 < i \leq P - - - (1)

根据人耳的听觉特性，人们对声音频率的分解能力大致符合对数特性，即低频部分比较细，高频部分比较粗。所以为了提高特征参数的识别性能，把倒谱系数进一步按人耳的听觉特性变换，得到如下所示的MEL倒谱参数。

{MC}_{k} (n) = \{\begin{matrix} c_{n} + α \cdot {MC}_{0} (n + 1) & k = 0 \\ (1 - α^{2}) \cdot {MC}_{0} (n + 1) + α \cdot {MC}_{1} (n + 1) & k = 1 \\ {MC}_{k - 1} (n + 1) + α ({MC}_{k} (n + 1) - {MC}_{k - 1} (n)) & k > 1 \end{matrix} - - - (2)

这里，c_k(式(2)中为c_n)表示倒谱系数，MC_k表示美尔倒谱系数，n为迭代次数，k为MEL倒谱阶数，取n＝k。迭代是从高往低，即n从大到0取值，最后求得的MEL倒谱系数放在MC₀(0)，MC₁(0)，...，MC_p(0)中。本例中，抽样频率为8kHz时，α取0.31。

训练子模块采用的是基于改进的矢量量化(VQ)的训练算法对输入的MEL倒谱系数进行训练。与基于HMM的训练算法相比，基于改进的VQ训练算法所需的模型训练数据，训练与识别时间，工作存储空间都很小。改进的矢量量化训练主要包括如下两个步骤：

(1)采用分裂法求取初始码本。

假设当前经过特征提取得到的特征矢量为X，其所在的集合为S。首先求出样本点集合S中全体样本X的质心Y

然后在S中找一个与此质心的畸变为最大的矢量X_j，再在S中找一个与X_j的误差为最大的矢量X_k以X_j和X_k为基准，S中的矢量与X_k距离较近的矢量归于子集S_k，反之归于S_j。这也称为以X_j和X_k为基准的Voronoi划分。依次类推，经过B次分裂就可以得到C个子集(C＝2^B)。这C个子集的质心可作为初始码字S的初始子集划分为

(2)采用Linde-Buzo-Gray(LBG)算法进行聚类，对初始生成的M个子集进行优化，经过一定次数的迭代，就可以产生含2^M个矢量的码本。LBG算法的步骤如下：

1.计算第m次迭代的总的畸变D^(m)：

其中d为X与

的欧氏距离。

2.计算畸变改进量的相对值ΔD^(m)的相对值δ^(m)：

3.计算新码本的码字

其中Nc为

中的特征矢量的个数。

4.根据最近邻准则将S重新分成C个子集

即当

时，

d (X, Y_{c}^{(m)}) \leq d (X, Y_{i}^{(m)}), &ForAll; i, i &NotEqual; c .

5.如果δ^(m)小于某个预先设定的阈值(一般可以选择10^-5)，则迭代终止，输出作为训练成的码本的码字。否则转到步骤1继续迭代。

由于在英语口语网络机考系统的测试中发现，用LBG算法生成的码本的好坏与初始码本有很大关系，所以我们采用了改进的矢量量化的训练算法即首先由分裂法产生只有两个矢量的初始码本，再由LBG算法聚类，生成两个子集；在两个子集中分别用分裂法各产生两个矢量的码本，再用LBG算法优化，如此反复可产生含2^M个矢量的码本。此方法可以改进由于初始码本的选择不当而引起最终生成码本的劣化。M的值根据在英语口语网络机考中具体需要区分的英语语音类别进行设定，取值范围为M＝2～10。

识别子模块的中主要完成的工作是计算经过特征提取后的语音的特征矢量与每个通过训练生成的码本的欧氏距离，并且比较，选出距离最小的码本所在的类作为识别结果输出。

利用上述所述的语音识别装置进行不特定话者英语的六个塞音音族＂b＂、＂p＂、＂d＂、＂t＂、＂g＂、＂k＂的识别实验。选择《大学一年级语音语音练习手册》中IV.Exercisesfor the English consonants的练习题，由5名男性在读研究生对每个音节发音三遍，其中二遍做学习用(共1800个)，一遍作识别用音节(共900个)。实验结果表明，该语音识别装置的正确识别率能达到98％以上，从而可以成功地应用于英语口语网络机考。

在上述实施例中，仅对本发明进行了示范性描述，但是本领域技术人员在不脱离本发明所保护的范围和精神的情况下，可以根据不同的实际需要设计出各种实施方式。

Claims

1.一种用于英语口语网络机考的语音识别装置，其特征在于，包括输入接口模块、模数转换器、数字信号处理器模块、程序存储器、数据存储器和输出接口模块；语音信号依次经输入接口模块和数转换器连接数字信号处理器模块的信号输入端；数字信号处理器模块的信号输出端连接输出接口模块；所述程序存储器和数据存储器通过程序/数据总线连接数字信号处理模块的通用输入/输出端；

对于识别流程，识别子模块计算语音的特征参数与每个通过训练所生成的码本之间的欧氏距离，选出距离最小的码本所在的类作为识别结果输出；

对每一帧语音s_n，首先进行线性预测分析，通过Levinson-Durbin算法求出其p阶的线性预测系数LPC a₁,a₂,...,a_p；

接着，由LPC通过递推，获得倒谱系数c₁,c₂,...,c_p，递推公式如下：

c₁=a₁