CN1268732A

CN1268732A - 基于语音识别专用芯片的特定人语音识别、语音回放方法

Info

Publication number: CN1268732A
Application number: CN00105547A
Authority: CN
Inventors: 刘加; 李晓宇; 史缓缓; 刘润生
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2000-03-31
Filing date: 2000-03-31
Publication date: 2000-10-04
Anticipated expiration: 2020-03-31
Also published as: CN1123862C

Abstract

本发明属于语音技术领域,包括:语音识别参数提取、特定人语音命令的训练、特定人语音命令的识别、语音回放。本识别方法具有方法简单、识别率高、稳健性好等特点。构成的系统可以用于玩具控制、声控拨号、智能性家用电器、学习机、以及生产环节的控制系统中。

Description

基于语音识别专用芯片的特定人语音识别、语音回放方法

本发明属于语音技术领域，尤其涉及采用8位或16位单片MCU微控制器实现小词表特定人语音识别方法。

特定人语音识别专用芯片，近年来在国外发展很快。国外一些语音技术和半导体公司都投入大量人力和物力开发语音识别专用芯片，并对自己的语音识别方法进行专利保护。这些专用芯片的语音识别性能也各不相同。通常语音识别的过程如图1所示，输入的语音信号首先经过A/D进行采样，频谱整形加窗预加重处理，提高高频成分，进行实时特征参数提取，提取的参数为线性预测倒谱系数(LPCC)或Mel频标倒谱系数(MFCC)，然后进行端点检测，提取有效语音参数，并进行语音识别模板训练或语音识别模板匹配，并将最好的识别结果输出回放。其专用芯片的硬件系统一般如图2所示，包括执行语音识别和语音合成、回放方法的8位或16位单片MCU微控制器及与其相连的自动增益控制(AGC)、音频前置放大器、低通滤波器、数/模(A/D)、模/数(D/A)、音频功率放大器、语音合成器、随机存储器(RAM)、只读存储器(ROM)、脉宽调制(PWM)。目前美国Sensory公司生产的语音识别专用芯片RSC-164系列产品是目前国际上可以买到识别性能最好专用芯片之一。这些语音识别专用芯片已经用于不同的手机和无绳电话中。随着语音识别技术提高，语音识别专用芯片将被广泛地应用于各种家用电器和控制系统中，形成信息家电产业，这是一个迅速发展而且潜力很大的新兴高科技产业。目前Philips公司和韩国三星公司推出的具有特定人语音识别声控拨号功能的手机。识别人名的个数为10～20个。其识别性能并不理想。

本发明的目的是为克服已有技术的不足之处，提出一种基于语音识别专用芯片的特定人语音识别、语音回放方法，可在廉价8位单片或16位MCU微控制器实现高精度特定人语音识别，具有方法复杂度低，识别精度高和稳健性好的特点。特别是对汉语数码语音与易混语音的识别性能达到、甚至超过当前的国际先进水平。

本发明提出的基于语音识别专用芯片的特定人语音识别、语音回放方法，包括A/D采样，频谱整形加窗预加重处理，特征参数提取，端点检测，语音识别模板训练及语音回放或语音识别模板匹配，将最好的识别结果输出回放，其特征在于，具体包括以下步骤：

A、语音识别参数提取：

(1)语音信号输入后采用A/D进行采样，成为原始的数字语音，利用电平增益

控制，以确保采样的高精度；

(2)对所说的原始数字语音信号进行频谱整形及分帧加窗处理，以保证分帧语

音的准平稳性；

(3)对分帧语音的特征进行语音特征提取，主要特征为根据语音的线性预测模

型(LPC)计算语音特征的倒谱系数(LPCC)，并存储用于后面的动态分段

和模板提取步骤中；

(4)使用语音信号的过零率与短时能量特征进行端点检测，去除无声区的语音

帧，以保证各帧语音特征的有效性；

B、特定人语音命令的训练：

(1)对提取的语音特征进行动态分段和加权平均，构成模板参数，加权后的参

数作为新识别模板；

(2)对该新模板进行鉴别特性分析处理，确保新模板和以前训练构成的模板之

间具有很好的可区分性；

(3)对处理后，区分性不好的语音，则提示要求说话人重新输入新的语音信号；

C、特定人语音命令的识别：

(1)特定人语音识别过程头四步与所说的“语音识别参数提取”过程相同；

(2)将该语音特征同已存储的识别模板进行比较，采用动态匹配，提取其中最

匹配的语音命令作为结果输出；

(3)在识别过程中，当识别模板匹配误差大于一定门限或可信度很低时，则认

为识别结果不可靠，通过提示，要求重新输入语音。

G.语音回放：

语音回放方法采用语音合成技术，将所说的语音识别参数与语音合成模型参数进行共享，将语音识别参数同时也作为语音合成模型参数，以尽可能减小系统的开销。

所说的语音特征提取中的电平增益控制可包括：对输入语音信号采样精度进行判断，如果输入语音信号采样精度不够高，通过自适应电平控制，调整语音的放大量，提高语音采样精度；所说的端点检测方法为根据设定的端点门限，搜索静音段，确定语音的起、始端点。

所说的语音命令的训练中的动态分段和加权平均方法，具体可包括以下步骤：(1)首先根据语音特征参数计算语音不同帧间参数的变化，当变化超过某一设定阈值，确定该帧为语音特征中重要分界点；(2)对不同语音信号其分界点的个数可以不同；对不同分界点之间的语音特征进行加权平均，提高重要语音特征在识别模型中的比重。

所说的鉴别特性分析方法具体可包括：比较新模板同旧模板之间的动态匹配距离门限，当门限大于某一确定的统计值时，新模板作为识别模板存储下来，否则认为该模板无效，要求重新输入语音信号。

所说的语音回放中的识别参数与语音编码声道模型参数共享的方法，具体可包括以下步骤：

(1)语音识别模型参数与语音编码声道参数采用相同的参数，因此在语音编码

过程中并不需要增加声道模型参数的存储量。

(2)声道模型的激励参数采用改进的LPC声码器方法，激励参数为基音周期、

清/浊/过渡音判定信息。

本发明具有如下特点：

(1)本发明为基于语音识别专用芯片的中小词汇量特定人、非特定人语音识别方法。这些方法具有复杂性低、识别精度高、稳健性好等特点。特别适合用于运算能力极为有限8位微控制器。

(2)采用识别参数与编码参数共享的办法，从而大大减少了对系统资源的要求，同时保证有很高的编码质量。

(3)与已有技术相比对容易混淆词汇本芯片具有更好的识别性能。

(4)由于采用8位或16位MCU核心，10位线性A/D、D/A，因此该芯片具有体积小、重量轻、耗电省、成本低等突出特点。在通信、工业控制、智能型家用电器、智能玩具、汽车电子等领域有着极大的应用价值。

(5)本发明对8位MCU识别命令为30条，对16位DSP芯片识别的命令为60条。对8位芯片的语音识别率为95％，对16位DSP芯片的语音识别率为99％。

附图简要说明：

图1为通常语音识别的过程示意框图。

图2为一般语音专用芯片的硬件系统组成示意图。

图3为本发明实施例的方法总体构成示意图。

图4本实施例的端点检测方法框图如所示。

图5为本实施例的语音训练过程整体流程框图。

图6为本实施例的语音识别过程整体流程框图。

本发明提出的基于语音识别专用芯片的特定人语音识别、语音回放方法的实施例结合各图详细说明如下：

本实施例的总体构成如图3所示，整个过程可以分为(1)A/D采样及采样后语音的与加重，提高高频信号的能量，加窗分帧处理；(2)语音特征参数的提取(包括端点检测参数、识别模型参数)：(3)端点检测，确定有效的语音参数；(4)对有效的语音特征参数进行动态分段：(5)对特定人语音进行模板的训练、以及回放语音合成参数的提取；(6)语音识别通过模式匹配方法进行模板比较；并将语音识别结果通过语音回放技术输出。每个步骤的细节说明如下。

1、语音识别参数特征提取：

(1)语音信号首先进行低通滤波器，然后通过10-位线性A/D进行采样，成为原始的数字语音，采用10位A/D的目的是为了降低芯片的成本。由于A/D的精度低，因此从方法上要对增益控制放大器进行控制、以及对输入信号的能量和过载情况进行判断，以便确保充分利用好10位A/D的动态范围，得到尽可能高的采样精度。

(2)对原始数字语音信号进行频谱整形及分帧加窗处理，保证分帧语音的准平稳性。预加重滤波器取为1-0.95z^-1，过零率计算中，抬起电平取为4。

(3)对分帧语音的特征进行语音特征提取，语音特征包括LPCC倒谱系数、能量、过零率等，并存储用于后面动态分段。其中很重要的一步相关函数值的计算需要实时完成，由于基于8位的单片机仅有8位的无符号乘法，因此计算相关函数值的过程如下：

a(n)＝s(n)+128

R (i) = \underset{n}{Σ} s (n) \times s (n + i) = \underset{n}{Σ} (a (n) - 128) \times (a (n + i) - 128)

= \underset{n}{Σ} a (n) \times a (n + i) - 128 \times \underset{n}{Σ} (a (n) + a (n + i)) + \underset{n}{Σ} 128 \times 128

上式中，s(n)为有8位有符号数，转换成为无符号数a(n)。显然乘积用三个字

节保存不可能发生溢出(帧长不大于256)。

2、端点检测：

(1)保证各帧语音特征的有效性，消除无关的噪声，必须进行语音的端点检测和判断。本发明的端点检测方法分为两步，首先根据语音信号能量对端点进行初步判决，当能量大于某一确定值后，确定为初步的起始点，然后从该起点继续向后寻找语音信号能量更大的浊音帧，进行浊音段定位。如果浊音帧存在说明该端点判断基本正确，从浊音帧开始向前、向后搜索静音帧作为语音的起始帧。将搜索的结果输出。端点检测框图如图4所示。基本方法描述如下：ZERO_RATE_TH是过零率的一个阈值，ACTIVE_LEVEL、INACTIVE_LEVEL和ON_LEVEL是能量的阈值。

(2)系统的初始值定为无声状态。在无声状态下，当过零率超过阈值ZERO_RATE_TH或能量超过阈值ACTIVE_LEVEL时，转入激活状态，若能量超过阈值ON_LEVEL，则直接转入有声状态。记此帧为语音的前端点。

(3)在激活状态下，若能量超过阈值ON_LEVEL，则转入有声状态；若连续若干帧(由常数CONST_DURATION设定)能量都超不过阈值ON_LEVEL，转入无声态。

(4)在有声状态，若能量低于阈值INACTIVE_LEVEL，则转入非激活状态。标记此帧为语音的后端点。

(5)在非激活状态，若连续若干帧(由常数CONST_DURATION设定)能量都超不过阈值INACTIVE_LEVEL，则语音结束；否则转入有声状态。

参数的实际取值如下：ZERO_RATE_TH取为0.4，ACTIVE_LEVEL更据背景噪音设置，INACTIVE_LEVEL取为ACTIVE_LEVEL的4倍，ON_LEVEL取为ACTIVE_LEVEL的8倍，CONST_DURATION设为20帧。

3、语音特征动态分段、加权平均：

(1)对输入语音特征进行动态分段和加权平均，提高清辅音特征参数在识别中的比重，提取语音特征中最重要的模板参数。语音特征分段是该系统语音识别方法的核心之一。

(1)动态分段采用计算不同帧间的语音特征参数的归一化欧氏距离。当变化超过一定的门限，认定该点为语音特征重要分界点。对不同段内语音特征进行加权平均，并把它们作为新的语音特征参数保存下来，并清除早先的语音特征。通过平均使模型参数大大地减小，不仅节省存储空间，而且减少了运算的复杂度和提高了系统运算速度。

4、特定人语音识别模板的训练：

(1)在进行特定人语音识别之前，首先要对系统识别模板进行训练。在前面五步语音特征参数提取的基础上，训练学习过程要进行两次，这样可以提高识别模型参数的稳健性。将第二次训练中提取的特征参数与第一次训练中建立的模板进行动态规划，找出相应的分段信息，然后进行加权平均，作为最终候选的识别模型参数，最后进行系统的鉴别特性分析处理，确保新模板和以前训练的识别模板之间具有很好的可区分性，模板之间似然比值应该大于1.6。这样不会对系统识别性能造成损伤。对不同的模板进行必要的调整，增加不同模板的可分性。

(2)对调整后模板之间的可区分特性仍然不满足要求的语音特征，则根据情况，通过语音提示要求说话人重说该同样语音，增加训练次数，或建议使用者输入新的不同语音。通过这两步的训练处理，可以使系统具有良好的鉴别特性，保持很高的识别率。

5、特定人语音识别：

(1)识别过程特征提取与前面特征提取方法相同。

(2)将语音特征同已存储的模板进行比较，其计算过程采用语音识别非线性的动态规划模式匹配方法，寻找和某各特定模板最接近语音命令作为语音识别结果的输出，为提高系统识别可靠性在最终输出结果时，还要进行可信度和拒识模型的计算。

(3)可信测度和拒识的计算：将第一选识别概率与前三选识别结果的平均概率构成的似然比，以及第一选识别概率与第二选概率构成的似然比组合成为综合可信测度，如果该似然比值小于3.0，则认为可信测度低，识别结果为不确定语音或噪声，并对其进行拒识，提示重新输入语音；对于可信测度高的，则输出识别结果。通过拒识处理可以消除环境噪声对识别系统的干扰。

6、语音回放处理：

(1)语音回放处理通常采用语音编解码方法。语音识别模型参数与语音编码声道参数采用相同的参数，因此在语音编码过程中并不需要增加对语音编码模型参数的存储量。语音编解码模型为改进的LPC声码器。

(3)声道模型的激励参数采用改进的LPC声码器方法，激励参数为基音周期、清/浊/过渡音判定信息。为了提高语音编码质量，在解码过程中应该将前后帧语音声道参数，激励参数进行线性插值，提高不同帧间语音之间的平滑过渡。

本实施例的语音训练过程整体流程如图5所示，首先识别系统提示输入第一次语音，接着进行端点检测与特征提取，并进行动态分段，构成初始的识别模板，系统提示第二次输入语音，接着进行端点检测与特征提取，利用动态规划方法，与初始识别模板进行动态匹配，找出分段信息，然后进行算术平均，构成新的识别模板。判定新识别模板与以前训练的模板之间的可鉴别性，对鉴别性好对作为模板存储下来。对鉴别性不好的要求重新输入语音。

本实施例的语音识别过程整体流程如图6所示，首先输入语音，接着进行端点检测与特征提取，将该语音特征与系统中存储的每一个模板进行动态规划，模式匹配，并将匹配最好头三个识别结果作为输出，并且进行可信测度计算，如果可信测度大于确定门限，取可信测度最高的模板作为识别结果输出。如果可信测度小于确定门限，系统进行拒识。

本实施例基于上述音识别专用芯片的中小词汇量特定人、非特定人语音识别方法开发了一种语音识别专用芯片包括：音频预放大器、自动增益控制(AGC)、数/模(A/D)转换器、模/数(D/A)转换器、MCU核(8051)、脉宽调制器(PWM)、随机存储器(RAM)、只读存储器(ROM)、闪烁存储器(FLASH)。ROM中存储有语音合成方法、语音编码方法、语音识别训练方法和语音识别方法。语音识别的模板和回放语音存于FLASH中。

Claims

1、一种基于语音识别专用芯片的特定人语音识别、语音回放方法，包括A/D采样，频谱整形加窗预加重处理，特征参数提取，端点检测，语音识别模板训练及语音回放或语音识别模板匹配，将最好的识别结果输出回放，其特征在于，具体包括以下步骤：

A、语音识别参数提取：

控制，以确保采样的高精度；

音的准平稳性；

型(LPC)计算语音特征的倒谱系数(LPCC)，并存储用于后面的动态分

段和模板提取步骤中；

帧，以保证各帧语音特征的有效性；

B、特定人语音命令的训练：

(1)对提取的语音特征进行动态分段和加权平均，构成模板参数，加权后

的参数作为新识别模板；

(2)对该新模板进行鉴别特性分析处理，确保新模板和以前训练构成的模

板之间具有很好的可区分性；

(3)对处理后，区分性不好的语音，则提示要求说话人重新输入新的语音

信号；

C、特定人语音命令的识别：

匹配的语音命令作为结果输出；

为识别结果不可靠，通过提示，要求重新输入语音。

D.语音回放：

2、如权利要求1所述的特定人语音识别、语音回放方法，其特征在于，所说的语音特征提取中的电平增益控制包括：对输入语音信号采样精度进行判断，如果输入语音信号采样精度不够高，通过自适应电平控制，调整语音的放大量，提高语音采样精度；所说的端点检测方法为根据设定的端点门限，搜索静音段，确定语音的起、始端点。

3、如权利要求1所述的特定人语音识别、语音回放方法，其特征在于，所说的语音命令的训练中的动态分段和加权平均方法，具体包括以下步骤：

(1)首先根据语音特征参数计算语音不同帧间参数的变化，当变化超过某一

设定阈值，确定该帧为语音特征中重要分界点；

(2)对不同语音信号其分界点的个数可以不同；对不同分界点之间的语音特

征进行加权平均，提高重要语音特征在识别模型中的比重。

4、如权利要求1所述的特定人语音识别、语音回放方法，其特征在于，所说的鉴别特性分析方法具体包括：比较新模板同旧模板之间的动态匹配距离门限，当门限大于某一确定的统计值时，新模板作为识别模板存储下来，否则认为该模板无效，要求重新输入语音信号。

5、如权利要求1所述的特定人语音识别、语音回放方法，其特征在于，所说的语音回放中的识别参数与语音编码声道模型参数共享的方法，具体包括以下步骤：

过程中并不需要增加声道模型参数的存储量。

清/浊/过渡音判定信息。