CN1262502A

CN1262502A - 小词汇量语音识别方法及其模块

Info

Publication number: CN1262502A
Application number: CN98124489A
Authority: CN
Inventors: 刘润生; 杨明杰; 李虎生
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 1998-11-13
Filing date: 1998-11-13
Publication date: 2000-08-09

Abstract

本发明属于语音识别技术领域,其方法包括采样、编码,频谱整形及分帧加窗,语音特征提取,端点检测,模式识别等步骤。其模块由码本存储器、采样编码器、信号处理器、微控制器组成。本发明提出的方法,特别解决了非特定人汉语数码语音识别中几个易混淆对的语音区分问题,以提高汉语数码“0”～“9”的语音识别性能。且采用该方法实现的语音识别模块具有体积小、重量轻、耗电省、成本低等突出特点。

Description

小词汇量语音识别方法及其模块

本发明属于语音识别技术领域，尤其涉及采用单片信号处理器实现小词汇量的语音识别(包括汉语数码“0”～“9”的语音识别)方法及其模块的设计。

在90年代初，国外已有采用单片信号处理器(Digit Signal Processor简写为DSP)实现的语音识别器，虽然这些识别器是非特定人的语音识别器，但限于英语或日语的数码“0”～“9”语音及词组语音，而汉语非特定人的数码语音识别至今尚未实用化，尤其是将非特定人的汉语数码、词组以及特定人词组的语音识别功能在一片DSP上实现并付诸实用化尚未有先例。

观以语音数码拨号电话机为例说明目前这一技术的现状。在90年代初期，国外已有语音拨号电话的产品出现，语音拨号电话产品采用了语音识别专用集成电路，如东芝的TC8860F等。其主要技术特点是：只能对特定人语音识别，最多可识别十个词且每个词允许的持续时间为0.96秒，因此这些电路的识别性能并不理想。

Philips公司于1996年推出的数字移动通信手机产品上实现了声控电话功能，其效果较好，但是限定识别十个人名的特定人声控手机。

一般语音识别方法的基本流程如下图1所示：语音进入系统的识别过程分以下几步：

(1)语音进入后，进行采样及编码成为原始的数字语音信号。系统要保存全部原始的数字语音信号成为语音记录。

(2)对保存的语音记录进行语音起始和终了的端点检测，进行端点定位。

(3)对经过端点定位后的语音信号进行频谱整形及分帧加窗处理。

(4)对已分帧加窗信号进行特征提取。

(5)提取出的语音信号特征后，根据已存的码本进行模识识别。

(6)把语音识别的结果输出。

这一方法中语音端点检测精确到采样点的量级，要存储全部原始语音，故存储量大，并且增加了系统的运行时间，识别的延时加大。

目前较为典型的端点检测方法，有“静音、清音、浊音”(S/U/V)方法，或快速端点检测FED(Fast Endpoint Detection)方法等，这些方法有一共同的缺点即为抗突发的有源干扰能力差，尤其在噪声或干扰较大时严重影响了识别性能，无法应用。

由于汉语数码语音为单音节，且存在较多易混淆语音的数码对，要达到高的识别性能是很困难的。因此汉语数码“0”～“9”语音的识别，尤其是非特定人的汉语数码语音识别同时兼有语音的键盘命令(即用语音命令替代敲键盘命令)识别，至今尚无产品。

本发明的目的旨在为克服已有技术的不足之处，提出一种采用单片信号处理器实现的小词汇量语音识别新方法，特别解决非特定人汉语数码语音识别中几个易混淆对的语音区分问题，以提高汉语数码“0”～“9”的语音识别性能。且采用该方法实现的语音识别模块具有体积小、重量轻、耗电省、成本低等突出特点。

本发明提出的一种小词汇量语音识别方法，如图2所示，包括以下步骤：

(1)语音进入系统后进行采样及编码，成为原始的数字语音信号；

(2)对原始的数字语音信号立即进行频谱整形及分帧加窗；

(3)对已分帧的信号进行语音特征提取，当一帧信号的特征提取结束后，就不再保存该帧原始的数字语音信号，只保存该帧的特征；

(4)对保存的各帧语音的特征进行确定起始终了端点的语音端点检测；

(5)语音端点定位后，根据已存的码本进行模式识别；

(6)把语音识别的结果输出。

由于本发明的端点检测是按帧进行的，因而可以在一帧语音输入完成后实时进行语音加窗及特征提取而不必保存原始语音数据。从而大大减少了系统所需的存储量。其存储量为一般的端点检测方法所需存储量的1/2～1/5。因而在具有相同的存储量的情况下，可以大大加宽可识别语音词组的持续时间，缩短了识别时间。

本发明所说的语音端点检测可采用基于语音特征的实时端点检测FRED(Feature-based Real-time Endpoint Detection)方法。此方法框图如图3所示：该端点检测由下面步骤完成：

(1)语音经过采样、编码、分帧、加窗以及特征提取后，进行参数阀值的设定。

(2)确定参数阀值后，进行浊音段定位。

(3)然后搜索静音段，从而确定语音端点。

本发明所说的模式识别可采用二级汉语数码语音识别方法，汉语数码语音识别(Mandarin Digit Speech Recognition)简称为MDSR。

本发明的MDSR系统采用的二级识别方法，如图4所示：

MDSR系统由二部分组成，第一部分为语音前端处理模块，包括采样、编码、分帧、加窗、特征提取、端点检测。

第二部分为本发明所说的二级语音模式识别模块。

第一级识别采用典型HMM识别方法。由于汉语数码语音存在严重的易混淆语音对，如“2”-“8”、“6”-“9”、“0”-“6”、“1”-“6”、“3”-“4”等。因此汉语数码语音的识别率很难提高。本发明在第一级识别的基础上对易混淆语音对采用表征其区分特征的参数，再作一次局部HMM识别，或根据一定的规则进行判决。下表1列出了各对易混语音第二级识别的方法。表1

易混语音	2-8	1-9	1-6	0-6	3-4	6-9
易混语音	2-8	1-9	1-6	0-6	3-4	6-9	第二级识别方法	规则判决	局部HMM辨识	局部HMM辨识	规则判决	局部HMM辨识	规则判决
规则判决的特征参数或局部HMM的辨识部位	共振峰轨迹	辅音	辅音	鼻音特征	元音	频谱分布参数R1	第二级识别方法	规则判决	局部HMM辨识	局部HMM辨识	规则判决	局部HMM辨识	规则判决

本发明采用二级识别框架即第一级完成对识别结果的初步确定，第二级完成对易混淆语音的进一步辨识。使识别率大大提高为实测98.8％，解决了至今尚未能解决的非特定人汉语数码语音识别率低的问题。

本发明所说的模式识别除了包括对特定人语音模式识别外还可进一步包括非特定人语音模式识别处理部分：

(1)若为特定人的语音识别，则将语音的特征结合已存的码本进行模式识别。

(2)若为非特定人的语音识别，在端点检测后，则将语音特征结合存贮的码本进行模式识别，当需自适应时，还包括非特定人的语音自适应方法。

汉语非特定人数码语音识别中，若用较为标准的普通话发音则识别率是相当高的，但是对于发音不规范尤其带有地区方言口音时，就会造成严重的错判。故本发明采用说话人自适应技术(Speaker Adapter)来弥补这一缺陷。本系统中采用最大后验概率方法(Maximum a Posteriori简写为MAP)。其基本方法为利用Bayes学习方法对模型参数进行修正。

在语音系统中，设X为训练样本，θ为第i个词条的模型参数，则MAP训练方法的准则为：

{\hat{θ}}_{i} = \underset{θ_{i}}{\arg \max} P (θ_{i} / x)

其中

为模型参数的Bayes估计值。

当考虑P_(x)与{θ₁}_{1＝1，2.....n}无关的情况下，即为最大似然估计，对于渐近的自适应方式训练样本是逐个输入的。设xⁿ＝{x₁，x₂.....x_n}为训练样本序列，则渐近MAP方法的准则为：

{\hat{θ}}_{i}^{(n + 1)} = \underset{θ_{i}}{\arg \max P} (x_{n + 1} / θ_{i}) P (θ_{i} / x^{n})

其中

为第n+1次训练的模型参数估计值。利用MAP方法，只需4～5次自适应语音数，则识别率可以得到显著提高。

本发明提出的一种小词汇量语音识别模块，由数字信号处理器芯片及用数据线和控制线与其相连成一体的闪烁存储器芯片、微控制器芯片和采样编码器芯片构成，其特征在于，所说的存储器芯片存有码本，所说的数字信号处理器芯片存有采用如上所述方法编制的语音识别程序。

本发明有如下特点：

1.实现非特定人汉语数码“0”～“9”的语音识别。

2.实现非特定人100个左右的词组的语音识别功能使得非特定人可以用语音命令代替人的控制操作(例如，以语音命令代替键盘操作，下同)。

3.开发自适应功能，以提高带有方言口音的非特定人汉语数码语音的识别率。

4.实现特定人100个左右的词组的语音识别功能使得特定人可以用语音命令代替人的控制操作。

5.本发明是以DSP为核心组成的小词汇量语音识别模块。任何可以用语音命令替代人工操作进行控制的场合都可应用本模块。它的体积小、重量轻、耗电省、成本低等的突出特点将给使用者带来极大的方便。在通信、工业监控、家用电器、智能玩具等领域有着极大的应用价值。

附图简要说明：

图1为一般语音识别方法的基本流程图。

图2为本发明提出的一种小词汇量语音识别方法流程图。

图3为本发明的语音端点检测方法。

图4为本发明的二级语音模式识别方法流程框图。

图5为本发明的实施例结构示意图。

图6为本实施例软件流程图。

本发明设计出一种用于语音拨号电话机的采用单片信号处理器实现小词汇量语音识别模块的实施例如图5-6所示，结合附图说明如下：

本实施例的硬件结构如图5所示，其组成为：

U1 数字信号处理器DSP(Digit Signal Processor)(ADSP-2181)，U2闪烁存储器Flash Memory.(AT29C040)，U3微控制器MCU(Micro Control Unit)(KS57C0400)，U4采样编码器CODEC(TCM320AC37)。

各部分的连接关系如下：

1.语音通过话筒输入到U4采样编码器(CODEC)中。

2.语音经过U4(CODEC)转换成数字语音信号以串行方式传送到U1数字信号处理器(DSP)中，U1(DSP)向U4(CODEC)发出控制信号。

3.信号在U1(DSP)中进行前端处理和模式识别，最后向微控制器U3(MCU)输出识别结果。

4.在处理和识别过程中U1(DSP)要向U2(Flash Memory.)读写程序和数据。U1(DSP)和U2(Flash Memory.)之间有双向数据、地址和控制信号线的连接。

5.在整个系统工作中，U3(MCU)对U1(DSP)起总控作用，并接收U1(DSP)的识别结果向应用系统(例如电话机)输出。因此U3(MCU)与U1(DSP)，U3(MCU)与电话机(或其它应用系统)之间有数据线和控制线的连接。

本实施例的硬件功能说明如下：

1.在闪烁存储器U2(FLASH MEMORY)中，预先存有语音的码本。该码本在DSP进行模式识别时用到。

2.拨号语音信号从电话机的话筒端输入到采样编码器U4(CODEC)。输入到U4(CODEC)的信号在CODEC中进行以下各项处理：

(1)进行滤波，去除话带以外的各种干扰信号。

(2)进行8K/秒的采样。

(3)进行A/D变换成64K PCM数字语音信号，输入到数字信号处理器U1 DSP(DigitSignal Processor)中。

3.数字语音信号在U1 DSP中进行以下各项处理：

(1)进行语音特征提取。

(2)进行语音端点检测。

(3)进行语音模式识别，得出识别结果，输出到U3 MCU微控制器中。

4. MCU的主要作用：

(1)接收工作方式的命令控制DSP的工作模式。

(2)接收DSP的识别结果，转变成电话机(和其它应用系统，下同)的控制信号送到电话机：

A、控制电话机的开启工作。

B、送至电话机的拨号电路进行语音拨号。

语音通过话筒和CODEC电路，成为数字语音信号输入到DSP，在DSP存有并执行本发明小词汇量语音识别方法编制的软件程序，其流程如图5所示，包括以下处理步骤：

1.首先将输入的数字语音信号进行频谱整形、分帧加窗以及语音的特征提取，并进行参数阀值的设定和语音端点检测。

2.语音端点检测后，分别送到特定或非特定人语音模式识别处理部分。

3.在模式识别阶段，分两种处理方法：

(1)若为非特定人的数码“0”～“9”语音识别或功能键语音命令识别，在端点检测后，将语音特征结合存贮的码本进行模式识别，输出识别结果(例如，电话号码或功能键命令码等)。当需自适应时，则按自适应键，进行自适应处理；

(2)若为特定人的直呼人名(或其它词组，下同)进行自动拨号，在端点检测后，将语音的特征结合已存的人名的码本进行模式识别，输出识别结果(例如，所呼人的电话号码)。

4.将识别结果送到电话机进行拨号。

本实施例的主要功能与效果如下：

1.实现了以一单片DSP为核心组成的小词汇量语音识别模块，该模块功能强、使用方便灵活，可广泛用于通信、工业监控、家用电器、智能玩具领域。现以语音拨号电话机为例说明其主要功能：

(1)非特定人汉语数码语音拨号功能。

*使用者拿起话机说出“0”、“1”……“9”汉语数码语音，就可以代替手按键盘进行拨号。

*可为任意使用者，不需要预先进行学习。

*只要说一般普通话，即可进行语音拨号。

(2)非特定人以语音控制命令替代键盘操作功能。电话机或移动通信手机的一些键盘命令，完全可以由语音控制命令替代，亦不需经过任何学习或训练。

(3)方便的直呼受话人姓名(或单位名称、任意词组。下同)进行自动拨号功能。使用者只需预先存入常用的受话人姓名(可达100个左右)，打电话时只要说出受话人姓名即可实现自动拨号。

(4)灵活的自适应功能。

为避免地区方言口音较重的使用者在用语音数码“0”-“9”拨号时发生错误，本发明可启用自适应功能，对发生错误的数码只需重读4-5次进行自适应后，再用语音拨号时，就不会发生类似错误，完全自动适应了使用者的口音。

2、提高了识别率：

(1)非特定人汉语数码语音“0”-“9”的识别率在97％以上。方言口音较重的使用者在启用自适应功能后，汉语数码语音的识别率也在97％以上。

(2)非特定人语音控制命令替代键盘操作的识别率在99％以上。

(3)直呼人名或任意词组的自动拨号的识别率在98％以上。

3、小词汇量语音识别模块的体积小、功耗低、可靠性高、成本低，组成的语音拨号电话机使用方便。该模块还可以适用于任何可以用语音命令替代人工操作进行控制的场合。

Claims

1、一种小词汇量语音识别方法，包括以下步骤：

(1)语音进入系统后进行采样及编码，成为原始的数字语音信；

(2)对原始的数字语音信号进行频谱整形及分帧加窗；

(3)对已分帧的信号立即进行语音特征提取，当一帧信号的特征提取结束后，就

不再保存该帧原始的数字语音信号，只保存该帧的特征；

(5)语音端点定位后，根据已存的码本进行模式识别；

(6)把语音识别的结果输出。

2、如权利要求1所述的语音识别方法，其特征在于，所说的语音端点检测包括以下步骤：

(1)语音经过采样、编码、分帧、加窗以及特征提取后，进行参数阀值的设定；

(2)确定参数阀值后，进行浊音段定位；

(3)然后搜索静音段，从而确定语音端点。

3、如权利要求1所述的语音识别方法，其特征在于，所说的模式识别采用二级汉语数码语音识别方法，具体包括以下步骤：

首先采用典型HMM识别方法进行第一级识别；

然后对易混淆语音对采用表征其区分特征的参数，再作一次局部HMM识别或根据一定的规则进行判决的第二级识别。

4、如权利要求1所述的语音识别方法，其特征在于，所说的模式识别包括特定或非特定人语音模式识别处理部分：

(1)若为非特定人的语音识别，在端点检测后，则将语音特征结合存贮的码本进

行模式识别，当需自适应时，进行自适应处理：

(2)若为特定人的语音识别，则将语音的特征结合已存的码本进行模式识别。

5、如权利要求1所述的语音识别方法，其特征在于，所说的非特定人的语音识别的自适应处理方法为采用最大后验概率方法(MAP)，即利用Bayes学习方法对模型参数进行修正。

6、一种小词汇量语音识别模块，由数字信号处理器芯片及用数据线和控制线与其相连成一体的闪烁存储器芯片、微控制器芯片和采样编码器芯片构成，其特征在于，所说的储存器芯片存有码本，所说的数字信号处理器芯片存有并执行如权利要求1所述方法编制的语音识别程序。