CN112102819A

CN112102819A - 语音辨识装置及其切换辨识语言的方法

Info

Publication number: CN112102819A
Application number: CN201910458870.6A
Authority: CN
Inventors: 杨政谚
Original assignee: Nanning Fugui Precision Industrial Co Ltd
Current assignee: Nanning Fulian Fugui Precision Industrial Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-12-18

Abstract

一种切换辨识语言的方法，执行于语音辨识装置中。所述语音辨识装置预先存储有与多种语言种类对应的多个唤醒词及其对应关系。所述语音识别装置在接收到用户的唤醒词后，根据预先存储的多个唤醒词及与多种语言种类的对应关系判断对应的语言种类，根据对应的语言种类选定语音辨识模型，以进行特定语言的语音指令辨识。本发明还公开了一种语音识别装置。本发明可以不需要使用者手动设置语系的情况下，自动根据不同语言的唤醒词选定相应的语音辨识模型。

Description

语音辨识装置及其切换辨识语言的方法

技术领域

本发明是关于语音辨识，特别是关于语音辨识装置及其切换辨识语言的方法。

背景技术

语音辨识装置，例如智能音箱，在使用情境中，常有不同语言习惯的用户。即使有的语音系统能够同时支持不同语言辨识的功能，但这种功能仍会对云端系统上的内存容量及演算复杂度增加负担，产生辨识缓慢的问题，造成使用者体验不佳。

发明内容

有鉴于此，需要一种语音辨识装置及其切换辨识语言的方法，可以支持不同语言的语音辨识。

本发明提供一种语音辨识装置，其特征在于，包括:处理单元；以及

存储单元；用于存储多个唤醒词、所述多个唤醒词与语言种类的对应关系以及至少一个计算器程序，其中，所述计算器程序包括由所述处理单元执行的指令，使得所述处理单元执行以下步骤:接收用户的唤醒词；判断所述接收到的唤醒词对应的语言种类，根据所述对应的语言种类选定语音辨识模型；接收用户的语音指令；以及将接收到的语音指令传送至所述选定的语音辨识模型。

本发明还提供一种切换辨识语言的方法，执行于语音辨识装置中，所述语音辨识装置存储多个唤醒词以及所述多个唤醒词与语言种类的对应关系，其特征在于，所述方法包括以下步骤:接收用户的唤醒词；判断所述接收到的唤醒词对应的语言种类，根据所述对应的语言种类选定语音辨识模型；接收用户的语音指令；以及将接收到的语音指令传送至所述选定的语音辨识模型。

相较于现有技术，利用上述语音辨识装置及其切换辨识语言的方法，可以加快语音辨识速度，进而提升用户体验。

附图说明

图1为根据本发明一实施例之语音辨识装置的应用环境示意图。

图2为根据本发明一实施例之语音辨识装置收到用户语音时的处理流程图。

主要元件符号说明

语音辨识装置	100
		处理单元	102
存储单元	104
		输入单元	106
输出单元	108
		通讯单元	110
云端平台	120
		步骤	S202～S216

具体实施方式

请参阅图1，为本发明一实施例中语音辨识装置100的应用环境示意图。所述语音辨识装置100包含处理单元102与存储单元104、输入单元106、输出单元108以及通讯单元110电性连接。所述语音辨识装置100可包含，但不限于，桌面计算机、携带型电话、智能型手机、笔记本电脑、平板型个人计算机(personal computer；PC)、电子书终端机、数字广播终端机、个人数字助理(personal digital assistant；PDA)、携带型多媒体播放器(portablemultimedia player；PMP)、导航装置、MP3播放器、数字摄影机、因特网电视、数字电视(digital television；DTV)、消费型电子装置(例如，具有显示设备的空调机及冰箱)以及智慧音箱。所述处理单元102可以是中央处理单元、或是其他可程序化之微处理器、数字信号处理器、可程序化控制器、特殊应用集成电路(Application Specific IntegratedCircuits，ASIC)、可程序化逻辑设备(Programmable Logic Device，PLD)或其他具备运算能力的硬件装置。所述输入单元106可以是麦克风或是其他可收音的装置。所述输出单元108可以是用以显示文字或影像的显示设备、或输出语音讯号的扬声器。虽然在图1中，所述输入单元106以及所述输出单元108设置于所述语音辨识装置100中，但在另一实施例，所述输入单元106以及所述输出单元108可以经由无线近端联机与所述语音辨识装置100无线连接。所述存储单元104可以是任意形式的固定式或可移动式随机存取内存(Random AccessMemory，RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash Memory)、硬盘或其他类似装置或这些装置的组合。至少一计算机程序存储在所述存储单元104中且经配置以由所述处理单元102执行。所述存储单元104还预先存储有多个唤醒词以及所述多个唤醒词与语言种类的对应关系。其中，所述语言种类例如国语、台语、英语、日语等，在一实施例中，对应每一种语言，所述语音辨识装置100可预先设置并存储一个或多个唤醒词。简单来说，所述处理单元102运行程序或计算机程序，以进行语音辨识，语音辨识方法的详细流程将于后配合图2进行详细说明。所述语音辨识装置100可以由所述输入单元106接收用户的语音讯号，并将语音讯号对应的语音数据经由所述通讯单元110传送至所述云端平台120，再从所述云端平台120接收语音辨识结果，并根据语音辨识结果经由所述输出单元108反馈用户。

所述云端平台120可以是服务器系统，具有网络联机能力及运算能力。所述云端平台120可以包含一个或多个服务器，用以提供多种特定语言对应的多个语音辨识模型。所述云端平台120可支持多语言的语音辨识，在一实施例中，每一种语言的语音辨识模型可以彼此独立运作。

请参阅图2，所示为本发明一实施例中，所述语音辨识装置100进行语音辨识的流程图。

步骤S202，所述语音辨识装置100处于待机模式，等待用户的语音输入。

步骤S204，用户对所述语音辨识装置100说出语音，所述语音辨识装置100将接收到的语音讯号视为唤醒词。

步骤S206，所述语音辨识装置100判断该唤醒词是否为有效唤醒词。具体地，所述语音辨识装置100判断该唤醒词是否符合预先设置的多个唤醒词中的一个。若不符合，则该唤醒词不是有效唤醒词，所述语音辨识装置100返回至步骤S202中的待机模式；若符合，则该唤醒词为有效唤醒词，进入到步骤S208。

步骤S208，所述语音辨识装置100判断该唤醒词对应的语言种类。在此假设所述语音辨识装置100收到对应于语言A的唤醒词，则所述语音辨识装置100选定对应于语言A的语音辨识模型。

步骤S210，所述语音辨识装置100进入命令等待模式。

步骤S212，所述语音辨识装置100判断是否于一第一预设时间内收到语音命令。若于所述第一预设时间内没收到语音命令，则所述语音辨识装置100返回至步骤S202中的待机模式；若于所述第一预设时间内收到语音命令，进入到步骤S214。举例而言，所述第一预设时间可为十秒。

步骤S214，所述语音辨识装置100将收到的语音命令传送到选定的语音辨识模型。在一实施例中，选定的语音辨识模型存在于所述云端平台120，所述语音辨识装置100将接收到语音命令对应到的语音数据传送到所述云端平台120进行语音辨识。

步骤S216，所述语音辨识装置100接收到语音辨识结果，根据该结果代表的命令，执行一符合命令的动作，并依据需要经由所述输出单元108反馈执行结果给用户得知。举例来说，当所述语音辨识装置100接收到用户语音「今日天气如何？」，将语音命令传送到选定的语音辨识模型，成功辨识后，得知用户询问今日天气，所述语音辨识装置执行相关应用程序进行查询，并将获取的天气信息经由所述输出单元108中的显示设备显示或扬声器播报，让用户得知。在一实施例中，所述语音辨识装置100在执行完一语音指令后，等待一第二预设时间，判断是否收到下一个语音指令，若所述第二预设时间经过未收到任何语音指令，所述语音辨识装置100返回至步骤S202中的待机模式。举例而言，所述第二预设时间可为三十秒。

总结来说，本发明提出的语音辨识装置及其切换辨识语言的方法，利用内建多种语言对应的唤醒词，每一个唤醒词会对应到特定语言的语音辨识模型。当所述语音辨识装置100接收到用户的唤醒词，判断完有效性后即可判断该唤醒词对应的语言种类，在接下来收到语音命令后，便可将语音命令传送到与语言种类相对应的语音辨识模型。经由将不同语言之语音辨识模型分开处理，可以大幅降低语音辨识模型开发的复杂度，对于不同语言的服务整合难度也大幅降低。用户只要使用不同的唤醒词，便可连结至不同的语言服务，不仅操作便利，语音辨识速度提升，也大幅改善用户使用体验。

值得注意的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种语音辨识装置，其特征在于，包括:

处理单元；以及

存储单元；用于存储多个唤醒词、所述多个唤醒词与语言种类的对应关系以及至少一个计算器程序，其中，所述计算器程序包括由所述处理单元执行的指令，使得所述处理单元执行以下步骤:

接收用户的唤醒词；

判断所述接收到的唤醒词对应的语言种类，根据所述对应的语言种类选定语音辨识模型；

接收用户的语音指令；以及

将接收到的语音指令传送至所述选定的语音辨识模型。

2.如权利要求1所述的语音辨识装置，其特征在于，在所述接收用户的唤醒词的步骤之后，还包括:判断所述接收到的唤醒词是否为用效的唤醒词，若所述接收到的唤醒词与所述存储的多个唤醒词的其中一个相符，则判断所述接收到的唤醒词为有效的唤醒词；以及若皆不相符，则判断所接收到的唤醒词不是有效的唤醒词。

3.如权利要求2所述的语音辨识装置，其特征在于，所述判断所述接收到的唤醒词对应的语言种类还包括:若所述接收到的唤醒词为有效的唤醒词，则根据所述存储的所述多个唤醒词与语言种类的对应关系获取所述对应的语言种类。

4.如权利要求1所述的语音辨识装置，其特征在于，所述接收用户的语音指令还包括:若在一预设时间内未接收到用户的语音指令，则返回至待机模式，重新等待接收用户的唤醒词。

5.如权利要求1所述的语音辨识装置，其特征在于，在所述将接收到的语音指令传送至所述选定的语音辨识模型的步骤之后，还包括:接收所述选定的语音辨识模型回传的辨识结果，根据所述辨识结果执行相应的动作。

6.一种切换辨识语言的方法，执行于语音辨识装置中，所述语音辨识装置存储多个唤醒词以及所述多个唤醒词与语言种类的对应关系，其特征在于，所述方法包括以下步骤:

接收用户的唤醒词；

接收用户的语音指令；以及

将接收到的语音指令传送至所述选定的语音辨识模型。

7.如权利要求6所述的方法，其特征在于，在所述接收用户的唤醒词的步骤之后，还包括:判断所述接收到的唤醒词是否为用效的唤醒词，若所述接收到的唤醒词与所述存储的多个唤醒词的其中一个相符，则判断所述接收到的唤醒词为有效的唤醒词；以及若皆不相符，则判断所接收到的唤醒词不是有效的唤醒词。

8.如权利要求7所述的方法，其特征在于，所述判断所述接收到的唤醒词对应的语言种类还包括:若所述接收到的唤醒词为有效的唤醒词，则根据所述存储的所述多个唤醒词与语言种类的对应关系获取所述对应的语言种类。

9.如权利要求6所述的方法，其特征在于，所述接收用户的语音指令还包括:若在一预设时间内未接收到用户的语音指令，则返回至待机模式，重新等待接收用户的唤醒词。

10.如权利要求6所述的方法，其特征在于，在所述将接收到的语音指令传送至所述选定的语音辨识模型的步骤之后，还包括:接收所述选定的语音辨识模型回传的辨识结果，根据所述辨识结果执行相应的动作。