CN103474063A

CN103474063A - 语音辨识系统以及方法

Info

Publication number: CN103474063A
Application number: CN2013103386447A
Authority: CN
Inventors: 李冠良; 姜智尹; 张哲维
Original assignee: Fujian Huaying Display Technology Co Ltd; Chunghwa Picture Tubes Ltd
Current assignee: CPT DISPLAY TECHNOLOGY (SHENZHEN)CO., LTD.
Priority date: 2013-08-06
Filing date: 2013-08-06
Publication date: 2013-12-25
Anticipated expiration: 2033-08-06
Also published as: CN103474063B

Abstract

本发明涉及一种语音辨识系统，包含一服务器、一数据传输界面以及一语音辨识装置。语音辨识装置透过数据传输界面与服务器建立连结。语音辨识装置包含一麦克风、一输出组件以及一处理组件。处理组件透过数据传输界面，传送所接收的使用者信息至服务器，以取得对应的个人字典文件。字典文件的产生取决于使用者的语音辨识结果的历史数据，以及他人近期使用的相关数据。处理组件透过麦克风接收使用者的一待辨识语音讯号，并根据使用者对应的一声纹档案，转换为一数字特征文件。处理组件根据数字特征文件搜寻个人字典文件，以取得一语音辨识结果，并透过输出组件输出。

Description

语音辨识系统以及方法

技术领域

本发明是有关于一种语音辨识系统以及方法。

背景技术

语音识别技术是用以将人类的语音中的词汇内容转换为计算器可存取的输入，例如按键、二进制编码或者字符序列。目前一般常用规则模型或是统计模型，来进行语音辨识的搜寻和比对。规则模型会分析语音中的语言文法、结构等，来进行语音辨识。统计模型则会使用机率统计的方式，来搜寻语言单位内的数据。不管应用何者进行语音辨识，皆有一定的复杂度。

传统的语音辨识系统中，常会将全部的系统实作在单一使用者装置上。然而，此种作法多半需要耗费使用者装置上较多的计算资源，才能够达到实时的语音辨识且具有一定的辨识正确率。此外，此类的使用者装置多半采用封闭系统架构，不方便使用者更新字典文件。

因此，如何降低使用者装置进行语音辨识所需耗费的计算资源，实属当前重要研发课题之一，亦成为当前相关领域亟需改进的目标。

发明内容

因此，本发明的一态样是在提供一种语音辨识系统，用以根据使用者对应的个人字典文件，进行语音辨识。语音辨识系统包含一服务器、一数据传输界面以及一语音辨识装置。语音辨识装置透过数据传输界面与服务器建立连结。语音辨识装置包含一麦克风、一输出组件以及一处理组件。处理组件电性连接麦克风以及输出组件。处理组件包含一使用者信息接收模块、一个人字典取得模块、一语音接收模块、一音讯转换模块以及一搜寻模块。使用者信息接收模块接收一使用者的一使用者信息。个人字典取得模块透过数据传输界面，传送使用者信息至服务器，以取得使用者信息对应的一个人字典文件。语音接收模块透过麦克风接收使用者的一待辨识语音讯号。音讯转换模块根据使用者对应的一声纹档案，将待辨识语音讯号转换为一数字特征文件。搜寻模块根据数字特征文件搜寻个人字典文件，以取得一语音辨识结果，并透过输出组件，输出语音辨识结果。

本发明的另一态样是在提供一种语音辨识方法，其包含以下步骤：

（a）由一语音辨识装置，接收一使用者的一使用者信息；

（b）由语音辨识装置传送使用者信息至一服务器，以取得使用者信息对应的一个人字典文件；

（c）透过语音辨识装置的一麦克风接收使用者的一待辨识语音讯号；

（d）由语音辨识装置根据使用者对应的一声纹档案，将待辨识语音讯号转换为一数字特征文件；以及

（e）由语音辨识装置根据数字特征文件搜寻个人字典文件，以取得一语音辨识结果，并输出语音辨识结果。

附图说明

图1绘示依照本发明一实施例的一种语音辨识系统的功能方块图。

图2为依照本发明一实施方式的一种语音辨识方法的流程图。

其中：100：服务器

110：更新模块

120：相关字典提供模块

200：数据传输界面

300：语音辨识装置

310：麦克风

320：输出组件

330：处理组件

331：使用者信息接收模块

332：个人字典取得模块

333：语音接收模块

334：音讯转换模块

335：搜寻模块

336：声音辨识模块

337：辨识错误判断模块

400：语音辨识方法

410-450：步骤。

具体实施方式

以下将以图式及详细说明本发明的精神，任何所属技术领域中具有通常知识者在了解本发明的较佳实施例后，当可由本发明所教示的技术加以改变及修饰，其并不脱离本发明的精神与范围。

请参照图1，其绘示依照本发明一实施例的一种语音辨识系统的功能方块图。语音辨识系统根据使用者对应的个人字典文件，进行语音辨识。

语音辨识系统包含一服务器100、一数据传输界面200以及一语音辨识装置300。其中，服务器100可由至少一个服务器所提供。当服务器100由多个服务器所提供时，此些服务器可包含至少一当地服务器、至少一云端服务器或其组合。其中，当地服务器可储存当地字典文件，以服务当地使用者；云端服务器则可储存专业字典文件，服务所有使用者。

数据传输界面200可为有线或无线网络通讯协议。然而，在其它实施例中，数据传输界面200可为其它类型有线或无线的数据传输界面，并不限于本揭露书中。

语音辨识装置300透过数据传输界面200与服务器100建立连结。语音辨识装置300包含一麦克风310、一输出组件320以及一处理组件330。处理组件330电性连接麦克风310以及输出组件320。

处理组件330包含一使用者信息接收模块331、一个人字典取得模块332、一语音接收模块333、一音讯转换模块334以及一搜寻模块335。使用者信息接收模块331接收一使用者的一使用者信息。在本发明的一些实施例中，使用者可透过键盘、鼠标、图形化使用者界面（Graphical User Interface，GUI）或其它类型的输入界面，输入其使用者信息。在本发明的另一些实施例中，处理组件330的一声音辨识模块336可透过麦克风310接收一使用者声音讯号，根据使用者声音讯号，判断使用者为何，并对应产生使用者的使用者信息，供使用者信息接收模块331接收。其中，声音辨识模块336可辨识出使用者对应的使用者识别信息，作为其使用者信息。此外，声音辨识模块336可根据使用者声音讯号，辨识出使用者的声音类别（如语言、腔调或其它类型的声音类别），作为其使用者信息。

个人字典取得模块332透过数据传输界面200，传送使用者信息至服务器100，以取得使用者信息对应的一个人字典文件。其中，个人字典文件的产生可取决于使用者的语音辨识结果的历史数据，以及他人近期使用的相关数据。举例来说，个人字典取得模块332可取得收录使用者常用字汇的个人字典文件。又例如说，个人字典取得模块332可根据使用者信息中的语言、腔调或其它类型的声音类别，取得相应的个人字典文件。

语音接收模块333透过麦克风310接收使用者的一待辨识语音讯号。音讯转换模块334根据使用者对应的一声纹档案，将待辨识语音讯号转换为一数字特征文件。如此一来，可避免因为使用者声音特性不同，所造成的语音辨识正确率低落的缺点。此外，数字特征文件的档案大小将小于待辨识语音讯号，因此可缩短进一步语音辨识所需的时间。

搜寻模块335根据数字特征文件搜寻个人字典文件，以取得一语音辨识结果，并透过输出组件320，输出语音辨识结果。在本发明的一些实施例中，输出组件320可为一显示组件，用以显示语音辨识结果。在本发明的另一些实施例中，输出组件320可为一喇叭，用以发出语音辨识结果对应的声音。然而，在本发明的其它实施例中，输出组件320可用其它输出方式，输出语音辨识结果，并不限于本揭露书。如此一来，语音辨识装置300不须储存大量的字典文件，即可提供精确的语音辨识功能。因此，可用处理组件效能较差或储存组件容量较小的电子装置，作为语音辨识装置300。

此外，在本发明的一些实施例中，使用者可透过语音辨识装置300的键盘、鼠标、图形化使用者界面（Graphical User Interface，GUI）或其它类型的输入界面，回馈语音辨识结果是否正确。在本发明的另一些实施例中，处理组件330更可包含一辨识错误判断模块337。由于一般使用者在发觉辨识错误时，会重复其先前说出的字汇或句子，以进行重新辨识。因此，辨识错误判断模块337可先判断麦克风310所接收的讯号是否与先前的待辨识语音讯号相同。当麦克风310接收与待辨识语音讯号相同的一重复语音讯号时，辨识错误判断模块337会判定语音辨识结果辨识错误。如此一来，当使用者在发觉辨识错误时，仅需重复发出相同声音，即可使语音辨识装置300判定辨识错误，重新修正其辨识结果，方便使用者操作。

另外，服务器100的一更新模块110更可透过数据传输界面200，自语音辨识装置300接收语音辨识结果是否正确的信息，作为更新个人字典的依据。举例来说，更新模块110可根据语音辨识结果的正确与否，调整对应词汇的权重，进而提高辨识的正确率。

在本发明的一些实施例中，服务器100更可包含一相关字典提供模块120。相关字典提供模块120透过数据传输界面200，接收语音辨识结果，并根据语音辨识结果，传送一相关字典文件至语音辨识装置300，供搜寻模块335搜寻。举例来说，当相关字典提供模块120判断语音辨识结果相关于天气，相关字典提供模块120传送包含天气相关词汇的相关字典文件至语音辨识装置300。如此一来，可提高语音辨识装置300的辨识正确率。此外，亦可缩短因为辨识错误，而需修改辨识结果或重新传送字典文件的额外时间。

在本发明的另一些实施例中，服务器100若包含当地服务器时，当地服务器可储存近期常用字典文件。由于同一个当地服务器服务的使用者多半具有相近的语音内容或习惯用字，因而可减少当地服务器所需储存的字典文件的档案大小。

请参照图2，其为依照本发明一实施方式的一种语音辨识方法的流程图。语音辨识方法可实作为一计算机程序，并储存于一计算机可读取记录媒体中，而使计算机读取此记录媒体后执行语音辨识方法。计算机可读取记录媒体可为只读存储器、闪存、软盘、硬盘、光盘、随身碟、磁带、可由网络存取的数据库或熟悉此技艺者可轻易思及具有相同功能的计算机可读取记录媒体。语音辨识方法400包含以下步骤：

在步骤410中，由一语音辨识装置，接收一使用者的一使用者信息。在本发明的一些实施例中，使用者可透过键盘、鼠标、图形化使用者界面或其它类型的输入界面，输入其使用者信息。在本发明的另一些实施例中，可透过语音辨识装置的麦克风接收一使用者声音讯号。接下来，可根据使用者声音讯号，判断使用者为何，并对应产生使用者的使用者信息，供语音辨识装置接收（步骤410）。其中，可辨识出使用者对应的使用者识别信息，作为其使用者信息。此外，亦可根据使用者声音讯号，辨识出使用者的声音类别（如语言、腔调或其它类型的声音类别），作为其使用者信息。

在步骤420中，由语音辨识装置传送使用者信息至一服务器，以取得使用者信息对应的一个人字典文件。举例来说，语音辨识装置可取得收录使用者常用字汇的个人字典文件。又例如说，可根据使用者信息中的语言、腔调或其它类型的声音类别，取得相应的个人字典文件。

在步骤430中，透过语音辨识装置的一麦克风接收使用者的一待辨识语音讯号。

在步骤440中，由语音辨识装置根据使用者对应的一声纹档案，将待辨识语音讯号转换为一数字特征文件。

在步骤450中，由语音辨识装置根据数字特征文件搜寻个人字典文件，以取得一语音辨识结果，并输出语音辨识结果。在步骤450的一些实施例中，可透过显示组件显示（输出）语音辨识结果。在步骤450的另一些实施例中，可发出（输出）语音辨识结果对应的声音。然而，在步骤450的其它实施例中，可用其它输出方式，输出语音辨识结果，并不限于本揭露书。如此一来，语音辨识装置不须储存大量的字典文件，即可实时提供精确的语音辨识功能。因此，可用处理组件效能较差或储存组件容量较小的电子装置，作为语音辨识装置。

此外，在本发明的一些实施例中，由服务器自语音辨识装置，接收语音辨识结果是否正确的信息，作为服务器更新个人字典的依据。其中，语音辨识结果是否正确的信息可透过键盘、鼠标、图形化使用者界面或其它类型的输入界面接收。另外，亦可在语音辨识装置的麦克风接收与待辨识语音讯号相同的一重复语音讯号时，判定语音辨识结果辨识错误。如此一来，使用者在发觉辨识错误时，仅需重复发出相同声音，即可使语音辨识装置判定辨识错误，重新修正其辨识结果，方便使用者操作。

另外，服务器亦可进一步接收语音辨识结果。于是，可由服务器根据收到的语音辨识结果，传送一相关字典文件至语音辨识装置，作为步骤450执行搜寻的依据。举例来说，当判断语音辨识结果相关于天气，服务器传送包含天气相关词汇的相关字典文件至语音辨识装置。如此一来，可提高语音辨识装置的辨识正确率。此外，亦可缩短因为辨识错误，而需修改辨识结果或重新传送字典文件的额外时间。

在本发明的一些实施例中，语音辨识装置可储存一预设字典文件。语音辨识方法400更可包含在语音辨识装置无法辨识使用者的使用者信息时，将预设字典文件视为个人字典文件。如此一来，在因使用者第一次登入或其它原因使得其使用者信息无法被辨识时，仍可藉由预设字典文件提供基本的语音辨识功能。

在本发明的另一些实施例中，可记录使用者的对话或其历史使用数据。于是，可根据使用者的对话内容以及历史使用数据，产生一当前使用字典文件，以储存于服务器。服务器可将当前使用字典文件设为使用者信息对应的个人字典文件。

在本发明的另一些实施例中，服务器可根据于本地端所提供的语音辨识服务，产生并储存一近期常用字典文件。于是，近期常用字典文件将符合服务器所服务的本地使用者的使用习惯。接下来，当将当前使用字典文件设为使用者信息对应的个人字典文件的一辨识正确率小于一门坎值时，使用近期常用字典文件进行语音辨识。如此一来，使用者的使用习惯应与服务器所服务的当地使用者相近，因此可作为改善语音辨识正确率的依据。

在本发明的另一些实施例中，可将使用者常用的至少一常用字词储存于服务器中的一私人字典文件。于是，可根据使用者的私人字典文件，修改使用者的当前使用字典文件，以更符合使用者的使用习惯。

在本发明的又一些实施例中，服务器更可储存对应数个专业分类的数个专业字典文件。其中，专业字典文件可储存于单一当地服务器。此外，专业字典文件亦可储存于至少一云端服务器，用以提供给当地服务器查询。语音辨识方法400更可包含取得至少一需修正类别。其中，可在特定专业类别的辨识错误率较高时，将其设为需修正类别。于是，可根据专业字典文件中需修正类别对应者，修改使用者信息对应的个人字典文件。如此一来，可依据个人字典文件中不同字词所属的专业类别进行修正，以提高整体辨识正确率。

虽然本发明已以实施方式揭露如上，然其并非用以限定本发明任何熟习此技艺者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视后附的申请专利范围所界定者为准。

Claims

1.一种语音辨识系统，其特征在于包含：

一服务器；

一数据传输界面；以及

一语音辨识装置，透过该数据传输界面与该服务器建立连结，其中该语音辨识装置包含：

一麦克风；

一输出组件；以及

一处理组件，电性连接该麦克风以及该输出组件，其中该处理组件包含：

一使用者信息接收模块，接收一使用者的一使用者信息；

一个人字典取得模块，透过该数据传输界面，传送该使用者信息至该服务器，以取得该使用者信息对应的一个人字典文件；

一语音接收模块，透过该麦克风接收该使用者的一待辨识语音讯号；

一音讯转换模块，根据该使用者对应的一声纹档案，将该待辨识语音讯号转换为一数字特征文件；以及

一搜寻模块，根据该数字特征文件搜寻该个人字典文件，以取得一语音辨识结果，并透过该输出组件，输出该语音辨识结果。

2. 如权利要求1所述的语音辨识系统，其特征在于：其中该处理组件更包含：

一声音辨识模块，透过该麦克风接收一使用者声音讯号，根据该使用者声音讯号，判断该使用者为何，并对应产生该使用者的该使用者信息。

3. 如权利要求1所述的语音辨识系统，其特征在于：其中该服务器包含：

一更新模块，透过该数据传输界面，自该语音辨识装置接收该语音辨识结果是否正确的信息，作为更新该个人字典的依据。

4. 如权利要求3所述的语音辨识系统，其特征在于：其中该处理组件更包含：

一辨识错误判断模块，当该麦克风接收与该待辨识语音讯号相同的一重复语音讯号时，判定该语音辨识结果辨识错误。

5. 如权利要求1所述的语音辨识系统，其特征在于：其中该服务器包含：

一相关字典提供模块，透过该数据传输界面，接收该语音辨识结果，并根据该语音辨识结果，传送一相关字典文件至该语音辨识装置，供该搜寻模块搜寻。

6. 一种语音辨识方法，其特征在于包含：

（a）由一语音辨识装置，接收一使用者的一使用者信息；

（b）由该语音辨识装置传送该使用者信息至一服务器，以取得该使用者信息对应的一个人字典文件；

（c）透过该语音辨识装置的一麦克风接收该使用者的一待辨识语音讯号；

（d）由该语音辨识装置根据该使用者对应的一声纹档案，将该待辨识语音讯号转换为一数字特征文件；以及

（e）由该语音辨识装置根据该数字特征文件搜寻该个人字典文件，以取得一语音辨识结果，并输出该语音辨识结果。

7. 如权利要求6所述的语音辨识方法，其特征在于更包含：

透过该语音辨识装置的该麦克风接收一使用者声音讯号；以及

根据该使用者声音讯号，判断该使用者为何，并对应产生该使用者的该使用者信息。

8. 如权利要求6所述的语音辨识方法，其特征在于更包含：

由该服务器自该语音辨识装置，接收该语音辨识结果是否正确的信息，作为该服务器更新该个人字典的依据。

9. 如权利要求8所述的语音辨识方法，其特征在于更包含：

在该语音辨识装置的该麦克风接收与该待辨识语音讯号相同的一重复语音讯号时，判定该语音辨识结果辨识错误。

10. 如权利要求6所述的语音辨识方法，其特征在于其中更包含：

由该服务器接收该语音辨识结果；以及

由该服务器根据该语音辨识结果，传送一相关字典文件至该语音辨识装置。

11. 如权利要求6所述的语音辨识方法，其特征在于其中该语音辨识装置储存一预设字典文件，该语音辨识方法更包含：

在该语音辨识装置无法辨识该使用者的该使用者信息时，将该预设字典文件视为该个人字典文件。

12. 如权利要求6所述的语音辨识方法，其特征在于更包含：

根据该使用者的一对话内容以及该使用者的一历史使用数据，产生一当前使用字典文件，以储存于该服务器，其中该服务器将该当前使用字典文件设为该使用者信息对应的该个人字典文件。

13. 如权利要求12所述的语音辨识方法，其特征在于其中该服务器更储存一近期常用字典文件，该近期常用字典文件根据该服务器所提供的语音辨识服务而产生，该语音辨识方法更包含：

当将该当前使用字典文件设为该使用者信息对应的该个人字典文件的一辨识正确率小于一门坎值时，使用该近期常用字典文件进行语音辨识。

14. 如权利要求12所述的语音辨识方法，其特征在于其中该服务器更储存该使用者的一私人字典文件，该私人字典文件储存该使用者的至少一常用字词，该语音辨识方法更包含：

根据该使用者的该私人字典文件，修改该当前使用字典文件。

15. 如权利要求6所述的语音辨识方法，其特征在于其中该服务器更储存对应复数个专业分类的复数个专业字典文件，该语音辨识方法更包含：

取得至少一需修正类别；以及

根据该些专业字典文件中该需修正类别对应者，修改该使用者信息对应的该个人字典文件。