CN1300763C

CN1300763C - 嵌入式语音识别系统的自动语音识别处理方法

Info

Publication number: CN1300763C
Application number: CNB2004100667967A
Authority: CN
Inventors: 朱杰; 蔡铁
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2004-09-29
Filing date: 2004-09-29
Publication date: 2007-02-14
Anticipated expiration: 2024-09-29
Also published as: CN1588535A

Abstract

一种嵌入式语音识别系统的自动语音识别处理方法。用于智能信息处理技术领域。本发明由前端处理、实时识别、后端处理以及模板训练四个部分组成，采用自适应端点检测技术提取有声段，采用同步方式识别输入语音，应用支持向量机算法实现快速的非命令语音拒识，提高识别的可靠性和实用性，采用多段矢量量化方法训练语音模板，并辅以最小分类错误/泛化概率下降(MCE/GPD)区别性训练，优化语音模板提高识别性能。本发明所用声学模型的存储空间小，有效地提高了系统的识别率，识别率达95%以上，算法压力小，存储空间小，拒识率高于80%。

Description

嵌入式语音识别系统的自动语音识别处理方法

技术领域

本发明涉及一种自动语音识别处理方法，具体是一种嵌入式语音识别系统的自动语音识别处理方法。用于智能信息处理技术领域。

背景技术

语音识别技术的应用可以分为两个发展方向：一个方向是大词汇量连续语音识别系统，主要应用于计算机的听写机，以及与电话网或者互联网相结合的语音信息查询服务系统，这些系统都是在计算机平台上实现的；另外一个重要的发展方向嵌入式语音识别系统，它是小型化、便携式语音产品的应用，如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控、个人数字助理(PDA)的语音交互等方面的应用，这些应用系统大都使用专门的硬件系统实现，如MCU、DSP和语音识别专用芯片。特别是对于移动电话等移动设备，语音输入是最为理想的输入方法，不但可以消除繁琐的键盘输入，而且有利于产品的小型化。对于其中大词汇量连续语音识别系统一般都是基于PC机平台，而嵌入式语音识别系统则一般采用低功耗、低价位的MCU或DSP芯片，其运算速度、存储容量都非常有限。同时，它一般还要求识别是实时的，并具有体积小、可靠性高、耗电省、价钱低等特点。这些应用特点以及资源的有限性是目前嵌入式语音识别系统推向实用的难点，因此在保证一定识别率的前提下其识别计算不能太复杂，识别的词汇量大多是中、小词汇量，即在10~100个命令词之间。

现有的嵌入式语音识别系统有些是特定人语音识别，即需要用户在使用前让系统对所识别的词条先进行学习或训练。这一类识别功能对语种、方言没有限制，识别率很高，但使用前的录音和训练很不方便。有的系统能实现非特定人语音识别，即预先将所要识别的语音模型训练好并装入系统的存储器，用户使用时不需要再进行学习而直接应用。但这一类识别功能只适用于规定的语种和方言，所识别的语句只限于预先已训练好的语句，识别率比特定人系统低，还有待进一步的提高。例如Brad的基于单片机开发的Tiny-Voice系统。这个系统是一个特定说话人的小词汇量识别系统。识别的命令个数为16个。命令的输入为手动按键指示。对输入命令的长度也有要求，为0.2至1.6秒。识别的时间大致在100毫秒之内。硬体计算单元为HC705。价格为5美金左右。TI公司的非特定人小词汇量识别系统。它所采用的是HMM模型的模板。识别15个不同的命令。区别男声和女声。同时还建立了语法层的模型，支持简单语法的输入。应用的场景是电话拨号的语音识别。识别率大于90％。硬体计算单元为TMS320C2x和TMS320C5x。价格较贵，为200美金左右。这些系统的稳健性不高，在低信噪比情况下的性能会急剧变坏，并且识别的命令集很小。

经对现有技术的公开文献检索发现，专利号99123747.1，名称为：“语音命令控制器的训练与识别方法”，该专利提出了一种用于嵌入式系统的语音识别处理方法。它直接应用训练语音压缩形成模板，没有考虑语音命令模板之间的区别性能，影响了识别的效果。它采用基于概率的识别方法，计算复杂，不适合在实时性能要求高的嵌入式系统中应用。同时，它所采用的端点检测方法还需提高对环境的适应能力，对非命令词的拒识过于简单，其性能有待进一步提高。

发明内容

本发明的目的是为克服现有技术的不足，提出一种低价的嵌入式语音识别系统的自动语音识别处理方法，使其用于各种嵌入式应用领域的实时语音识别与控制，有效地提高了系统的识别率，识别率达95％以上，算法压力小，存储空间小，很适合在硬件环境中实时运行。

本发明是通过以下技术方案实现的，本发明由前端处理、实时识别、后端处理以及模板训练四个部分组成，采用自适应端点检测技术提取有声段；采用同步方式识别输入语音；应用支持向量机算法实现快速的非命令语音拒识，提高识别的可靠性和实用性；采用多段矢量量化方法训练语音模板，并辅以MCE/GPD区别性训练，优化语音模板提高识别性能。

以下对本发明进一步的说明：

1.前端处理

由端点检测和特征提取两部分组成，其中端点检测基于自适应能量和语音波形特征，采用语音状态图准确检测出语音的开始与结束。端点检测方法以语音能量状态变迁为基础，包含了一个测定短时能量的前向过程。先用自适应均衡能量的方法估测出语音信号的背景平均能量，在此基础上测定语音能量轮廓，把每个短时语音能量按一定的能量门限值转换为状态值。根据能量的大小和持续时间，将整个语音过程分成六个状态，分别是初始态(0)、静音态(1)、能量上升态(2)、能量持续态(3)、能量下降态(4)和上升下降态(5)，其状态变迁的条件取决于转变的条件。最后按能量门限值和能量状态数值序列的逻辑关系进行端点检测。由于考虑了发音时语音波形从开始到结束的整个起伏过程，同时采用自适应能量作为判断的依据，因此端点检测的准确性得到了提高，并对背景噪声具有了一定的自适应能力。

2.实时识别

识别算法采用改进的DTW算法，修改DTW算法中使用的经典权重，限制路径的延展方向接近于对角线。重新定义权重之后，路径的权重之和不再由终点坐标完全确定。在路径延展的权重比较过程当中，必须将权重用路径上的权重之和作均衡，使得权重之和独立于路径长度。同时，考虑到端点检测的不确定性，让路径的起止点是松弛的，改善因端点检测不准确引起的识别误差。通过多次实验，可以选择最优的权重和松弛范围。经过修改的动态时间规整算法，可以进一步提高系统在应用环境下的识别率。

3.后端处理主要包括非命令语音的拒识，这里直接利用识别的计算结果实现拒识功能，计算简单，不影响识别的实时性。其特征在于直接利用语音识别结果中前N个候选词的识别得分，采用支持向量机(Support Vector Machine，SVM)实现快速拒识。算法利用统计学习理论在分类问题上的最大推广能力，在计算量没有增加的情况下进一步提高了性能，优于传统的基于SLP(单层感知器)或MLP(多层感知器)神经网络方法。

4.模板训练采用基于动态规划算法的多段矢量量化(Multi-Section VectorQuantization，MSVQ)方法，先将属于同一类的训练语句按照动态规划算法在时间上分成几段，然后每段中用LBG方法(Linde Y.，Buzo A.，Gray R.，An algorithmfor vector quantizer design，IEEE Transactions on Communications，1980，28(1)：84-95.)生成一个标准矢量量化(Vector Quantization，VQ)码本。MSVQ模板包含了训练集中所有说话人的语音特征，并且保留了语音的时序特征，因而代表性强，识别率较高。同时模板具有CDHMM模板的某些特点，且可以大大减小模板的体积，提高识别速度，具有较好的识别效果，适用于资源有限的嵌入式识别系统。在MSVQ模板基础之上，针对识别所采用的DTW识别技术，应用MCE/GPD区别性训练算法从最小误识率(Minimum Classification Error，MCE)的角度提高模板的区分能力，经过区别性训练后，得到更为优化的模板，识别率有明显提高。

本发明基于16位定点DSP TMS320C5402芯片，是一种成本较低的可移植单元，不但可以独立作为功能较简单的声控装置，而且可以方便的应用于各种嵌入式应用领域。与现有的嵌入式语音识别系统相比，本发明所用声学模型的存储空间小，每个只需96×16位，即192字节，有利于扩展命令集容量；模板训练时采用了区别性训练方法，从最小化误识率(MCE)的角度考虑模板的区分能力，而不是尽可能精确的描述训练数据的不同，有效地提高了系统的识别率；识别过程与语音输入同步进行，保证了识别的实时性，识别率达95％以上；前端处理中端点检测算法按能量门限值和能量状态数值序列的逻辑关系进行，算法压力小，存储空间小，很适合在硬件环境中实时运行；后端处理能有效拒识命令集以外的词或发音，而不影响识别的实时性，拒识率高于80％。

附图说明

图1本发明的示意图

图2端点检测算法示意图

图3区别性训练示意图

图4系统硬件结构示意图

具体实施方式

本发明实施例结合各图详细说明如下：

嵌入式语音识别核的结构如图4所示，包括用于计算与控制的DSP单元；用于存放程序与语音识别模板的FlashROM；用于语音输入的A/D转换器与麦克风以及用于译码与输出控制的可编程逻辑器件CPLD。说明：MIC：麦克风，A/D：模数转换器，DSP：数字信号处理器，RAM：随机访问存储器，FlashROM：快闪存储器，CPLD：可编程逻辑器件。

本发明的语音处理过程可分为前端处理、实时识别、后端处理以及模板训练四个部分，结合图1说明如下：

1.前端处理：

(1)通过A/D(模数)转换器对语音信号进行采样，并对采样后的语音进行预加重和加窗分帧处理。其中采样频率为8kHz，采样数据以16位方式保存。

(2)对获得语音数据进行端点检测计算，当检测到语音开始后，进行下述步骤直到检测到语音的结束，否则继续检测语音信号的开始点。根据能量的大小和持续时间，将整个语音过程分成六个状态，分别是初始态(0)、静音态(1)、能量上升态(2)、能量持续态(3)、能量下降态(4)和上升下降态(5)。其状态变迁的条件取决于转变的条件。当发现一帧数据处于“有声态”时，就可以标识声音开始。对后面的帧，系统可以开始做信号处理和识别的过程。对于前面的帧，完全可以丢弃，因为它们都是无用的。当发现语音在“下降态”状态中停留时间达到一定长度的时候，就可以判断语音已经结束了。图2中标识的一些阀值系数是用来调整端点检测性能的。不同的参数设置，将得到不同的端点检测性能。参数说明如下：

E：能量，取一帧能量的以2为底的对数值

L1：能量门限值1，取自适应平均能量+232

L2：能量门限值2，取自适应平均能量+432

Backgroundframe：背景平均能量的统计帧数

Artifact：干扰能量帧数(例如嘴唇摩擦声、重呼吸、牙齿摩擦声都是突起干扰)

WordGap：在两个声音段之间最小间隔帧数

MinWord：最小的声音段帧数

MaxWord：最大的声音段帧数

(3)提取语音信号的特征参数，即提取LPCC特征参数。

2.实时识别：

(1)对上一步得到的语音特征与所有的命令模板进行DTW匹配计算。

(2)保存最匹配的前10个候选命令的DTW结果，并将最匹配的模板作为识别的结果。

3.识别结果的验证

(1)识别结果的验证采用支持向量机(Support Vector Machine，SVM)理论实现：

假定有数据(x₁，y₁)，…，(x_M，y_M)，其中x_i∈R″，i＝1，2，…，M是d维训练样本，y_i∈{+1，-1}，i＝1，2，…，M表明该向量所属两类中的一类。则能区分两类数据的支持向量机能通过以下问题的求解获得

Maxmize W (α) = Σ_{i = 1}^{M} α_{i} - \frac{1}{2} Σ_{i, j}^{M} α_{i} α_{j} y_{i} y_{j} x_{i} \cdot x_{j}

s . t . Σ_{i = 1}^{M} α_{i} y_{i} = 0 . . . (1)

0≤α_i≤C i＝1，...，M

其中C＞0是控制惩罚程度的常数。每一个拉格朗日乘数α_i对应一个训练样本x_i，对应的α_i＞0的训练样本就被称为“支持向量”。则最后得到的支持向量机分类函数为

f (x) = sgn (w \cdot x + b) = sgn (Σ_{i = 1}^{M} α_{i} y_{i} x_{i} \cdot x + b) . . . (2)

(2)根据每次识别的结果，设q₁，q₂，…，q₁₀为前10个候选词的识别得分，按从小到大的顺序排列。则其归一化识别得分为：

d_{i} = \frac{q_{i}}{Σ_{i = 1}^{N} | q_{i} |}, i = 1, \cdot \cdot \cdot, 10 . . . (3)

相应的归一化一阶差分为：

d_{i} = \frac{| q_{i} - q_{i + 1} |}{Σ_{i = 1}^{N - 1} | q_{i} - q_{i + 1} |}, i = 1, \cdot \cdot \cdot, 9 . . . (4)

将它们组成的特征向量{d₁，…，d₁₀，d₁′，…，d₉′}作为支持向量机(SVM)的输入，计算支持向量机分类函数的结果y＝f_SVM(x)。

(3)利用支持向量机输出的分类函数结果y＝f_SVM(x)∈[-1，1]，根据其符号判断当前识别结果所属的类(命令与非命令两类)，从而快速判断出识别结果是否为命令词，并对不属于命令词的语音进行拒识。其中SVM在识别前由训练集得到，训练集中的数据按上述方法获得。

4.模板训练

(1)采用多段矢量量化(Multi-Section Vector Quantization，MSVQ)方法训练初始模板。设帧长为T语音信号由一个特征矢量序列来表示：X＝{x₁，x₂，…，x_T}，MSVQ按时间先后顺序将语句均匀分段，然后根据得到的分段信息对每一段分别采用LBG方法生成一个标准VQ码本，这里本发明取该段所有矢量的均值(质心)作为该段码本。

(2)结合MSVQ码本，采用基于DTW识别的泛化概率下降(GeneralizedProbabilistic Descent，6PD)区别性训练算法(MCE/GPD)对模板进行再训练，训练流程如图3所示。

给定一个训练语句集＝{x¹，x²，…，x^N}，其中xⁱ属于M个词Cⁱ，i＝1，2，…，M中的一个。

x^{i} = {x_{p, s}^{i}, p = 1,2, \cdot \cdot \cdot, P^{i}, s = 1,2, \cdot \cdot \cdot, S}

是由Pⁱ个帧组成，每帧为S维语音特征矢量，通常由倒谱系数组成。每个命令词由一个参考模板代表。参考模板集Λ＝{λⁱ＝{(Rⁱ，Wⁱ)}，i＝1，2，…，M}其中

R^{i} = {r_{q, s}^{i}, q = 1,2, \cdot \cdot \cdot, Q^{i}, s = 1,2, \cdot \cdot \cdot, S}

是倒谱系数序列，

W^{i} = {w_{q}^{i}, q = 1,2, \cdot \cdot \cdot, Q^{i}}

是区别权重函数用来修正模板的距离分值。本发明的目标是，依据6PD算法，对参考模板集A基于训练集进行区别性训练，使得识别错误率达到最小。

(2.1)定义训练语句x与词C^j的参考模板r^j之间的距离做为区别函数：

g_{j} (x, Λ) = Σ_{q = 1}^{Q} w_{q}^{j} δ_{p_{q}}^{j} . . . (5)

其中wⁱ _q是词C^j的参考模板的区别权重。δ^j _pq是经DTW匹配后得到的最佳路径中，词C^j的参考模板的第q个帧和x中相对应的p_q帧之间的距离。这里采用欧式距离：

δ_{p_{q}}^{j} = Σ_{s = 1}^{S} {(r_{q, s}^{j} - x_{p_{q}, s})}^{2} . . . (6)

通过以上的定义可以得到一个连续的可对其进行梯度操作的区别函数g_k(x；Λ)。

(2.2)定义误分类测度，将识别结果嵌入其中

d_{k} (x) = g_{k} (x; Λ) - \ln {\frac{1}{M - 1} \underset{j, j &NotEqual; k}{Σ} e^{- g_{j} (x; Λ) η}}^{- 1 / η} . . . (7)

其中η是一个正实数。

(2.3)成本函数如下定义：

l_{k} (d_{k}) = \frac{1}{1 + e^{- d_{k}}} . . . (8)

它可以正确地近似于识别错误率。

(2.4)用GPD算法自适应地调整参考模板参数，从而使成本函数达到最小。

给定一个属于词C^k的训练语句x，参考模板参数的调整规则如下：

j＝k时，

\{\begin{matrix} r_{q, s, t + 1}^{k} = r_{q, s, t}^{k} - ϵ_{t} v_{k} φ_{k} \\ w_{q, t + 1}^{k} = w_{q, t}^{k} - ϵ_{t} v_{k} δ_{p_{q}}^{k} \end{matrix} . . . (9)

j≠k时，

\{\begin{matrix} r_{q, s, t + 1}^{j} = r_{q, s, t}^{j} + ϵ_{t} v_{k} π_{j, k} φ_{j} \\ w_{q, t + 1}^{j} = w_{q, t}^{j} - ϵ_{t} v_{k} {π_{j, k} δ}_{p_{q}}^{j} \end{matrix} . . . (10)

其中

v_k＝l_k(d_k)(1-l_k(d_k)) (11)

φ_{k} = 2 w_{q}^{k} (r_{q, s}^{k} - x_{p_{q}, s}) . . . (12)

π_{j, k} = \frac{e^{- g_{j} η}}{\underset{j^{'}, j^{'} &NotEqual; k}{Σ} e^{{- g}_{j} \cdot η}} . . . (13)

ϵ_{t} = ϵ_{0} (1 - \frac{t}{T}) . . . (14)

t表示第t次迭代，T是最大迭代次数，ε₀是一个较小的正数。一般经过几十次迭代就可得到收敛值。通过梯度下降方法实现最小化分类错误率的区别性训练，可以获得优化后的命令模板。

Claims

1、一种嵌入式语音识别系统的自动语音识别处理方法，其特征在于，由前端处理、实时识别、后端处理以及模板训练四个部分组成，采用自适应端点检测技术提取有声段，采用同步方式识别输入语音，应用支持向量机算法实现快速的非命令语音拒识，提高识别的可靠性和实用性，采用多段矢量量化方法训练语音模板，并辅以最小分类错误/泛化概率下降区别性训练，优化语音模板提高识别性能，其中模板训练的具体过程如下：

模板训练采用基于动态规划算法的多段矢量量化方法，先将属于同一类的训练语句按照动态规划算法在时间上分成几段，然后每段中用LBG方法生成一个标准矢量量化码本，多段矢量量化模板包含了训练集中所有说话人的语音特征，并且保留了语音的时序特征，在多段矢量量化模板基础之上，针对识别所采用的动态时间弯折识别技术，应用最小分类错误/泛化概率下降区别性训练算法从最小误识率的角度提高模板的区分能力，经过区别性训练后，得到更为优化的模板。

2、如权利要求1所述的嵌入式语音识别系统的自动语音识别处理方法，其特征是，所述的前端处理，具体如下：

由端点检测和特征提取两部分组成，其中端点检测基于自适应能量和语音波形特征，采用语音状态图准确检测出语音的开始与结束，端点检测方法以语音能量状态变迁为基础，包含了一个测定短时能量的前向过程，先用自适应均衡能量的方法估测出语音信号的背景平均能量，在此基础上测定语音能量轮廓，把每个短时语音能量按一定的能量门限值转换为状态值，根据能量的大小和持续时间，将整个语音过程分成六个状态，分别是初始态、静音态、能量上升态、能量持续态、能量下降态和上升下降态，最后按能量门限值和能量状态数值序列的逻辑关系进行端点检测。

3、如权利要求1所述的嵌入式语音识别系统的自动语音识别处理方法，其特征是，所述的实时识别，具体如下：

识别算法采用改进的动态时间弯折算法，修改动态时间弯折算法中使用的经典权重，限制路径的延展方向接近于对角线，重新定义权重之后，在路径延展的权重比较过程当中，必须将权重用路径上的权重之和作均衡，使得权重之和独立于路径长度，同时，考虑到端点检测的稳定性差，让路径的起止点是松弛的，改善因端点检测稳定性差引起的识别误差。

4、如权利要求1所述的嵌入式语音识别系统的自动语音识别处理方法，其特征是，所述的后端处理，具体如下：

包括非命令语音的拒识，直接利用语音识别结果中前N个候选词的识别得分，采用支持向量机实现快速拒识。