CN100351775C

CN100351775C - 可选择句型的语音输入方法及装置

Info

Publication number: CN100351775C
Application number: CNB2005100062742A
Authority: CN
Inventors: 黄良声; 廖文伟; 沈家麟
Original assignee: Delta Optoelectronics Inc
Current assignee: Taida Electronic Industry Co Ltd; Delta Optoelectronics Inc
Priority date: 2005-01-27
Filing date: 2005-01-27
Publication date: 2007-11-28
Anticipated expiration: 2025-01-27
Also published as: CN1811696A

Abstract

本发明涉及一种语音输入装置，该语音输入装置包含：一句型选择单元，用以提供多种句型；一输出接口，用以输出并切换该多种句型以供一使用者选择；一语音辨识单元，用以辨识该使用者所输入的语音而得到一辨识结果；一内容数据库，用以储存一数据；以及一数据库搜寻单元，其依据该辨识结果至该内容数据库搜寻对应的该数据。本发明还提供一种语音输入方法，该语音输入方法包含：提供多种句型；显示并切换该多种句型；选择该多种句型其中之一；启动一模型，以对应该所选择句型；输入一语音；参考该模型对该语音进行辨识，并产生一辨识结果；将该辨识结果输入至一数据库搜寻单元；以及由该数据库搜寻单元至一内容数据库，搜寻对应该辨识结果的一内容。

Description

可选择句型的语音输入方法及装置

技术领域

本发明涉及一种语音输入方法及装置有关，尤其涉及一种可选择句型的语音输入方法及装置。

背景技术

随着语音辨识技术的快速发展，语音辨识系统与家电、通讯、多媒体、信息等产品的结合越来越普遍。然而，发展语音辨识系统时常面临的课题之一，便是当使用者面对麦克风时，不知道可以说什么，尤其是若这些产品在语音输入方面，允许使用者一定程度的自由度时，使用者往往不知所措，导致无法体验到使用语音输入所带来的好处。

现行具备语音辨识功能的装置，其语音输入方式大致可分为三种：

一、提供单一句型输入：使用者仅能依照该装置限定的单一句型输入语音，其缺点在于句型变化太少，在某些应用领域上可能会不敷使用，或是无法对目标物做精准的表达。

二、提供多样化的句型输入：使用者必须详阅说明书等文件才能知道有哪些句型可供使用，一旦使用者忘记这些句型，必须翻阅文件才能使用。此外，若采用自然语言(Nature Language)作为输入形式，使用者虽然完全不受句型限制，但是由于语音辨识范围大增，也将导致语音辨识的错误率提高。

三、提供对话或类似对话的机制：使用者在系统接口的提示导引下，系统与使用者之间以一来一往的方式，一步一步完成语音的输入动作，其缺点在于整个过程容易流于冗长，尤其是过程中若语音辨识常常出错时，更会让使用者失去耐性。

由于上述三种输入方式都有其不可避免的缺陷，因此使用者在使用现行具备语音辨识功能的装置时，并无法感受到使用这种自然且人性化的接口所带来的好处，反而会觉得使用此类声控装置反不如手动按钮或键盘输入，因此使得声控装置在应用推广上也遭受到一定程度的限制。

因此，鉴于公知技术的缺陷，本发明提出一种可选择句型的语音输入方法及装置。

发明内容

本发明的主要目的为提供一种可供使用者选择句型的语音输入方法及装置，该装置可让使用者不用记忆各种输入句型，且在限定句型缩小辨识范围后，亦可提升语音辨识的正确性。

为了实现上述目的，本发明提供一种选择句型的语音输入装置，其包含：一句型选择单元，用以提供多种句型；一输出接口，用以输出并切换该多种句型以供一使用者选择；一语音辨识单元，用以辨识该使用者所输入的一语音而得到一辨识结果；一内容数据库，用以储存一数据；以及一数据库搜寻单元，其依据该辨识结果至该内容数据库搜寻对应的该数据。

根据上述构想，其中该输出接口为一显示器。

根据上述构想，其中该输出接口为一扬声器。

根据上述构想，其中该语音辨识单元还包含：一输入装置，用以输入该语音；一特征参数提取装置，用以提取所输入的该语音的特征参数；一辨识字汇和语言模型目录，其包含多组辨识字汇和语言模型，用以供辨识参考用；一声学模型，用以供辨识参考用；以及一语音辨识引擎，其根据该语音的特征参数、该多组辨识字汇和语言模型及该声学模型，以辨识该语音。

根据上述构想，其中当该使用者选择该多种句型其中之一后，该句型选择单元便启动对应该所选择句型的该辨识字汇和语言模型，以供该语音辨识引擎参考。

根据上述构想，其中还包含一辨识字汇和语言模型/索引建立单元，当该内容数据库的一内容有所变动时，该变动内容可经由该辨识字汇和语言模型/索引建立单元转成一新增的辨识字汇和语言模型与一索引，并将该新增的辨识字汇和语言模型储存于该辨识字汇和语言模型目录中，以及将该索引储存于内容数据库中。

本发明还提供一种选择句型的语音输入方法，其步骤包含：(a)提供多种句型；(b)显示并切换该多种句型；(c)选择该多种句型其中之一；(d)启动一模型，以对应该所选择句型；(e)输入一语音；(f)参考该模型对该语音进行辨识，并产生一辨识结果；(g)将该辨识结果输入至一数据库搜寻单元；以及(h)由该数据库搜寻单元至一内容数据库，搜寻对应该辨识结果的一内容。

根据上述构想，其中步骤(f)还包含下列步骤：(f1)提取该语音的一特征参数；以及(f2)依据该特征参数，参考该模型对该语音进行辨识。

根据上述构想，其中步骤(f1)还包含下列步骤：(f11)对该语音进行预处理；以及(f12)提取该语音的该特征参数。

根据上述构想，其中步骤(f11)还包含下列步骤：放大该语音信号；对该语音信号正规化(normalization)；对该语音信号进行预强调(pre-emphasis)；将该语音乘上汉明窗(Hamming Window)；以及将该语音通过一低通滤波器或一高通滤波器。

根据上述构想，其中步骤(f12)还包含下列步骤：对该语音进行快速傅立叶变换(Fast Fourier Transform，FFT)处理；以及求取该语音的梅尔倒频谱参数(Mel-Frequency Cepstrum Coefficients，MFCC)。

本发明得借助下列附图与实施例的说明，得一更深入的了解。

附图说明

图1所示为本发明的可选择句型的语音输入装置的一较佳实施例；

图2所示为本发明的可选择句型的语音输入装置的硬件外观的一较佳实施例；

图3所示为本发明更新辨识字汇和语言模型的示意图；以及

图4所示为本发明更新辨识字汇和语言模型的流程图。

其中，附图标记说明如下：

101：句型选择单元 102：输出接口

103：语音辨识单元 1031：输入装置

1032：特征参数提取装置 1033：辨识字汇和语言模型目录

1034：声学模型 1035：语音辨识引擎

104：内容数据库 105：数据库搜寻单元

201：麦克风 202：显示屏幕

203：句型 204：浏览按钮

205：录音按钮 301：辨识字汇和语言模型目录

302：内容数据库

303：辨识字汇和语言模型/索引建立单元

具体实施方式

本发明将可由以下的实施例说明而得到充分了解，使得本领域技术人员可以据以完成，然而本发明的实施并非由下列实施例而被限制其实施型态。

请参阅图1，其为本发明的可选择句型的语音输入装置的一较佳实施例。该语音输入装置可包含一句型选择单元101、一输出接口102、一语音辨识单元103、一内容数据库104以及一数据库搜寻单元105。该句型选择单元101提供多种句型至该输出接口102，由该输出接口102输出所述句型以供使用者切换选择，该语音辨识单元103则负责辨识使用者所输入的语音，内容数据库104用以储存使用者所需的数据，该数据库搜寻单元105则参考该辨识结果，至该内容数据库104搜寻对应该辨识结果的数据。

在实际应用上，该输出接口102可为一喇叭或是一显示屏幕。该语音辨识单元103还包含一输入装置1031、一特征参数提取装置1032、一包含多组辨识字汇和语言模型的辨识字汇和语言模型目录1033、一声学模型1034以及一语音辨识引擎1035。输入装置1031用以让使用者输入语音，特征参数提取装置1032负责提取输入语音的特征参数，语音辨识引擎1035便参照提取出来的特征参数、辨识字汇和语言模型目录1033内的辨识字汇和语言模型以及声学模型1034，对该语音进行辨识，随后并将辨识结果传出至数据库搜寻单元105。此外，该语音辨识引擎1035所参照的辨识字汇和语言模型的选定，是当该使用者选定特定句型之后，由句型选择单元101启动辨识字汇和语言模型目录1033中对应该句型的辨识字汇和语言模型。

请参阅图2，其为本发明的可选择句型的语音输入装置的硬件外观的一较佳实施例。该语音输入装置2包含一麦克风201、一显示屏幕202、所显示的一句型203、一浏览按钮204以及一录音按钮205。使用者可利用浏览按钮204切换浏览可供选择的句型203，句型203会在显示屏幕202上显示。以时下的mp3随身碟为例，若要以语音搜寻歌曲，可能的句型可以是：“歌名”、“歌手名”、“歌手名+歌名”等等；以手持的影片播放机来说，可能的句型可以是：“电影名”、“男(女)主角名”、“导演名”等等，通过循环式的浏览按钮204选择，这些句型便可一一呈现在显示屏幕202上。使用者通过按键选择来设定句型后，接着按下录音按钮205后，便可利用麦克风201根据所选定的句型203输入语音。

请参阅图3，其是本发明更新辨识字汇和语言模型的示意图。由于在此类装置中的数据(例如歌曲、影片、或任何可能以文件模式存在供咨询的数据)会常常更动，一旦数据有所更动，相关的辨识字汇和语言模型及其索引就必须重建，以便进行语音辨识后搜寻。由图3可知，当一更新的启动命令下达时，辨识字汇和语言模型/索引建立单元303会将内容数据库302所存放的相关数据加载，并转成辨识字汇和语言模型以及索引，随后将辨识字汇和语言模型存放于辨识字汇和语言模型目录301中，而将该索引存放于内容数据库302内，藉此达到更新辨识字汇和语言模型的目的。

请参阅图4，其是本发明更新辨识字汇和语言模型的流程图。首先，在步骤A中，内容数据库的数据有所更动。接着，在步骤B中，借助该辨识字汇和语言模型/索引建立单元，将该内容数据库的相关内容加载，并转成一辨识字汇和语言模型以及一索引。在步骤C中，将该辨识字汇和语言模型储存于该辨识字汇和语言模型目录中，而在步骤D中，将该索引储存于内容数据库中。

在实际应用上，可将重建的启动命令加在上述可选择句型的语音输入装置的选单中，使用者只要选择更新辨识字汇和语言模型及索引的功能，便能启动辨识字汇和语言模型/索引建立单元，由辨识字汇和语言模型/索引建立单元依据上述更新步骤进行重建的动作。此外，重建辨识字汇和语言模型以及索引的动作亦可在PC端完成，不一定限定在装置端完成，不过在装置端完成重建动作的优势在于，如果通过该装置提供的选单功能增删内容时，装置端可动态进行重建动作，减少在PC端反复操作的程序。

综上所述，通过本发明所提供的装语音输入装置，使用者不必去记需要输入的句型，也不致于发生面对麦克风不知所措的情形，如果使用者拥有各种使用本发明所提供的声控装置，就更能感受到不必记忆许多指令和句型的优点。此外，本发明提供的语音输入装置及方法，在限定句型后，因为辨识范围缩小的关系，可以提高语音辨识的正确性，也更容易辨识成功。纵使本发明已由上述的实施例详细叙述而可由本领域技术人员任施匠思而作一些修饰，然而皆不脱离本发明所欲保护的范围。

Claims

1.一种选择句型的语音输入装置，其包含：

一句型选择单元，用以提供多种句型；

一输出接口，用以输出并切换该多种句型以供一使用者选择；

一语音辨识单元，用以辨识该使用者所输入的一语音而得到一辨识结果；

一内容数据库，用以储存一数据；以及

一数据库搜寻单元，其依据该辨识结果至该内容数据库搜寻对应的该数据。

2.根据权利要求1所述的装置，其中该输出接口为一显示器。

3.根据权利要求1所述的装置，其中该输出接口为一扬声器。

4.根据权利要求1所述的装置，其中该语音辨识单元还包含：

一输入装置，用以输入该语音；

一特征参数提取装置，用以提取所输入的该语音的特征参数；

一辨识字汇和语言模型目录，其包含多组辨识字汇和语言模型，用以供辨识参考用；

一声学模型，用以供辨识参考用；以及

一语音辨识引擎，其根据该语音的特征参数、该多组辨识字汇和语言模型及该声学模型，以辨识该语音。

5.根据权利要求4所述的装置，其中当该使用者选择该多种句型其中之一后，该句型选择单元便启动对应该所选择句型的该辨识字汇和语言模型，以供该语音辨识引擎参考。

6.如权利要求第5项所述的装置，其中还包含一辨识字汇和语言模型/索引建立单元，当该内容数据库的一内容有所变动时，变动内容可经由该辨识字汇和语言模型/索引建立单元转成一新增的辨识字汇和语言模型与一索引，并将该新增的辨识字汇和语言模型储存于该辨识字汇和语言模型目录中，以及将该索引储存于内容数据库中。

7.一种选择句型的语音输入方法，其步骤包含：

(a)提供多种句型；

(b)显示并切换该多种句型；

(c)选择该多种句型其中之一；

(d)启动一模型，以对应该所选择句型；

(e)输入一语音；

(f)参考该模型对该语音进行辨识，并产生一辨识结果；

(g)将该辨识结果输入至一数据库搜寻单元；以及

(h)由该数据库搜寻单元至一内容数据库，搜寻对应该辨识结果的一内容。

8.根据权利要求7所述的方法，其中步骤(f)还包含下列步骤：

(f1)提取该语音的一特征参数；以及

(f2)依据该特征参数，参考该模型对该语音进行辨识。

9.根据权利要求8所述的方法，其中步骤(f1)还包含下列步骤：

(f11)对该语音进行预处理；以及

(f12)提取该语音的该特征参数。

10.根据权利要求9所述的方法，其中步骤(f11)还包含下列步骤：

放大该语音信号；

对该语音信号正规化；

对该语音信号进行预强调；

将该语音乘上汉明窗；以及

将该语音通过一低通滤波器或一高通滤波器。

11.根据权利要求9所述的方法，其中步骤(f12)还包含下列步骤：

对该语音进行快速傅立叶变换处理；以及

求取该语音的梅尔倒频谱参数。