CN112102819A - 语音辨识装置及其切换辨识语言的方法 - Google Patents
语音辨识装置及其切换辨识语言的方法 Download PDFInfo
- Publication number
- CN112102819A CN112102819A CN201910458870.6A CN201910458870A CN112102819A CN 112102819 A CN112102819 A CN 112102819A CN 201910458870 A CN201910458870 A CN 201910458870A CN 112102819 A CN112102819 A CN 112102819A
- Authority
- CN
- China
- Prior art keywords
- wake
- word
- received
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000000875 corresponding effect Effects 0.000 claims 11
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种切换辨识语言的方法,执行于语音辨识装置中。所述语音辨识装置预先存储有与多种语言种类对应的多个唤醒词及其对应关系。所述语音识别装置在接收到用户的唤醒词后,根据预先存储的多个唤醒词及与多种语言种类的对应关系判断对应的语言种类,根据对应的语言种类选定语音辨识模型,以进行特定语言的语音指令辨识。本发明还公开了一种语音识别装置。本发明可以不需要使用者手动设置语系的情况下,自动根据不同语言的唤醒词选定相应的语音辨识模型。
Description
技术领域
本发明是关于语音辨识,特别是关于语音辨识装置及其切换辨识语言的方法。
背景技术
语音辨识装置,例如智能音箱,在使用情境中,常有不同语言习惯的用户。即使有的语音系统能够同时支持不同语言辨识的功能,但这种功能仍会对云端系统上的内存容量及演算复杂度增加负担,产生辨识缓慢的问题,造成使用者体验不佳。
发明内容
有鉴于此,需要一种语音辨识装置及其切换辨识语言的方法,可以支持不同语言的语音辨识。
本发明提供一种语音辨识装置,其特征在于,包括:处理单元;以及
存储单元;用于存储多个唤醒词、所述多个唤醒词与语言种类的对应关系以及至少一个计算器程序,其中,所述计算器程序包括由所述处理单元执行的指令,使得所述处理单元执行以下步骤:接收用户的唤醒词;判断所述接收到的唤醒词对应的语言种类,根据所述对应的语言种类选定语音辨识模型;接收用户的语音指令;以及将接收到的语音指令传送至所述选定的语音辨识模型。
本发明还提供一种切换辨识语言的方法,执行于语音辨识装置中,所述语音辨识装置存储多个唤醒词以及所述多个唤醒词与语言种类的对应关系,其特征在于,所述方法包括以下步骤:接收用户的唤醒词;判断所述接收到的唤醒词对应的语言种类,根据所述对应的语言种类选定语音辨识模型;接收用户的语音指令;以及将接收到的语音指令传送至所述选定的语音辨识模型。
相较于现有技术,利用上述语音辨识装置及其切换辨识语言的方法,可以加快语音辨识速度,进而提升用户体验。
附图说明
图1为根据本发明一实施例之语音辨识装置的应用环境示意图。
图2为根据本发明一实施例之语音辨识装置收到用户语音时的处理流程图。
主要元件符号说明
语音辨识装置 | 100 |
处理单元 | 102 |
存储单元 | 104 |
输入单元 | 106 |
输出单元 | 108 |
通讯单元 | 110 |
云端平台 | 120 |
步骤 | S202~S216 |
具体实施方式
请参阅图1,为本发明一实施例中语音辨识装置100的应用环境示意图。所述语音辨识装置100包含处理单元102与存储单元104、输入单元106、输出单元108以及通讯单元110电性连接。所述语音辨识装置100可包含,但不限于,桌面计算机、携带型电话、智能型手机、笔记本电脑、平板型个人计算机(personal computer;PC)、电子书终端机、数字广播终端机、个人数字助理(personal digital assistant;PDA)、携带型多媒体播放器(portablemultimedia player;PMP)、导航装置、MP3播放器、数字摄影机、因特网电视、数字电视(digital television;DTV)、消费型电子装置(例如,具有显示设备的空调机及冰箱)以及智慧音箱。所述处理单元102可以是中央处理单元、或是其他可程序化之微处理器、数字信号处理器、可程序化控制器、特殊应用集成电路(Application Specific IntegratedCircuits,ASIC)、可程序化逻辑设备(Programmable Logic Device,PLD)或其他具备运算能力的硬件装置。所述输入单元106可以是麦克风或是其他可收音的装置。所述输出单元108可以是用以显示文字或影像的显示设备、或输出语音讯号的扬声器。虽然在图1中,所述输入单元106以及所述输出单元108设置于所述语音辨识装置100中,但在另一实施例,所述输入单元106以及所述输出单元108可以经由无线近端联机与所述语音辨识装置100无线连接。所述存储单元104可以是任意形式的固定式或可移动式随机存取内存(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash Memory)、硬盘或其他类似装置或这些装置的组合。至少一计算机程序存储在所述存储单元104中且经配置以由所述处理单元102执行。所述存储单元104还预先存储有多个唤醒词以及所述多个唤醒词与语言种类的对应关系。其中,所述语言种类例如国语、台语、英语、日语等,在一实施例中,对应每一种语言,所述语音辨识装置100可预先设置并存储一个或多个唤醒词。简单来说,所述处理单元102运行程序或计算机程序,以进行语音辨识,语音辨识方法的详细流程将于后配合图2进行详细说明。所述语音辨识装置100可以由所述输入单元106接收用户的语音讯号,并将语音讯号对应的语音数据经由所述通讯单元110传送至所述云端平台120,再从所述云端平台120接收语音辨识结果,并根据语音辨识结果经由所述输出单元108反馈用户。
所述云端平台120可以是服务器系统,具有网络联机能力及运算能力。所述云端平台120可以包含一个或多个服务器,用以提供多种特定语言对应的多个语音辨识模型。所述云端平台120可支持多语言的语音辨识,在一实施例中,每一种语言的语音辨识模型可以彼此独立运作。
请参阅图2,所示为本发明一实施例中,所述语音辨识装置100进行语音辨识的流程图。
步骤S202,所述语音辨识装置100处于待机模式,等待用户的语音输入。
步骤S204,用户对所述语音辨识装置100说出语音,所述语音辨识装置100将接收到的语音讯号视为唤醒词。
步骤S206,所述语音辨识装置100判断该唤醒词是否为有效唤醒词。具体地,所述语音辨识装置100判断该唤醒词是否符合预先设置的多个唤醒词中的一个。若不符合,则该唤醒词不是有效唤醒词,所述语音辨识装置100返回至步骤S202中的待机模式;若符合,则该唤醒词为有效唤醒词,进入到步骤S208。
步骤S208,所述语音辨识装置100判断该唤醒词对应的语言种类。在此假设所述语音辨识装置100收到对应于语言A的唤醒词,则所述语音辨识装置100选定对应于语言A的语音辨识模型。
步骤S210,所述语音辨识装置100进入命令等待模式。
步骤S212,所述语音辨识装置100判断是否于一第一预设时间内收到语音命令。若于所述第一预设时间内没收到语音命令,则所述语音辨识装置100返回至步骤S202中的待机模式;若于所述第一预设时间内收到语音命令,进入到步骤S214。举例而言,所述第一预设时间可为十秒。
步骤S214,所述语音辨识装置100将收到的语音命令传送到选定的语音辨识模型。在一实施例中,选定的语音辨识模型存在于所述云端平台120,所述语音辨识装置100将接收到语音命令对应到的语音数据传送到所述云端平台120进行语音辨识。
步骤S216,所述语音辨识装置100接收到语音辨识结果,根据该结果代表的命令,执行一符合命令的动作,并依据需要经由所述输出单元108反馈执行结果给用户得知。举例来说,当所述语音辨识装置100接收到用户语音「今日天气如何?」,将语音命令传送到选定的语音辨识模型,成功辨识后,得知用户询问今日天气,所述语音辨识装置执行相关应用程序进行查询,并将获取的天气信息经由所述输出单元108中的显示设备显示或扬声器播报,让用户得知。在一实施例中,所述语音辨识装置100在执行完一语音指令后,等待一第二预设时间,判断是否收到下一个语音指令,若所述第二预设时间经过未收到任何语音指令,所述语音辨识装置100返回至步骤S202中的待机模式。举例而言,所述第二预设时间可为三十秒。
总结来说,本发明提出的语音辨识装置及其切换辨识语言的方法,利用内建多种语言对应的唤醒词,每一个唤醒词会对应到特定语言的语音辨识模型。当所述语音辨识装置100接收到用户的唤醒词,判断完有效性后即可判断该唤醒词对应的语言种类,在接下来收到语音命令后,便可将语音命令传送到与语言种类相对应的语音辨识模型。经由将不同语言之语音辨识模型分开处理,可以大幅降低语音辨识模型开发的复杂度,对于不同语言的服务整合难度也大幅降低。用户只要使用不同的唤醒词,便可连结至不同的语言服务,不仅操作便利,语音辨识速度提升,也大幅改善用户使用体验。
值得注意的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种语音辨识装置,其特征在于,包括:
处理单元;以及
存储单元;用于存储多个唤醒词、所述多个唤醒词与语言种类的对应关系以及至少一个计算器程序,其中,所述计算器程序包括由所述处理单元执行的指令,使得所述处理单元执行以下步骤:
接收用户的唤醒词;
判断所述接收到的唤醒词对应的语言种类,根据所述对应的语言种类选定语音辨识模型;
接收用户的语音指令;以及
将接收到的语音指令传送至所述选定的语音辨识模型。
2.如权利要求1所述的语音辨识装置,其特征在于,在所述接收用户的唤醒词的步骤之后,还包括:判断所述接收到的唤醒词是否为用效的唤醒词,若所述接收到的唤醒词与所述存储的多个唤醒词的其中一个相符,则判断所述接收到的唤醒词为有效的唤醒词;以及若皆不相符,则判断所接收到的唤醒词不是有效的唤醒词。
3.如权利要求2所述的语音辨识装置,其特征在于,所述判断所述接收到的唤醒词对应的语言种类还包括:若所述接收到的唤醒词为有效的唤醒词,则根据所述存储的所述多个唤醒词与语言种类的对应关系获取所述对应的语言种类。
4.如权利要求1所述的语音辨识装置,其特征在于,所述接收用户的语音指令还包括:若在一预设时间内未接收到用户的语音指令,则返回至待机模式,重新等待接收用户的唤醒词。
5.如权利要求1所述的语音辨识装置,其特征在于,在所述将接收到的语音指令传送至所述选定的语音辨识模型的步骤之后,还包括:接收所述选定的语音辨识模型回传的辨识结果,根据所述辨识结果执行相应的动作。
6.一种切换辨识语言的方法,执行于语音辨识装置中,所述语音辨识装置存储多个唤醒词以及所述多个唤醒词与语言种类的对应关系,其特征在于,所述方法包括以下步骤:
接收用户的唤醒词;
判断所述接收到的唤醒词对应的语言种类,根据所述对应的语言种类选定语音辨识模型;
接收用户的语音指令;以及
将接收到的语音指令传送至所述选定的语音辨识模型。
7.如权利要求6所述的方法,其特征在于,在所述接收用户的唤醒词的步骤之后,还包括:判断所述接收到的唤醒词是否为用效的唤醒词,若所述接收到的唤醒词与所述存储的多个唤醒词的其中一个相符,则判断所述接收到的唤醒词为有效的唤醒词;以及若皆不相符,则判断所接收到的唤醒词不是有效的唤醒词。
8.如权利要求7所述的方法,其特征在于,所述判断所述接收到的唤醒词对应的语言种类还包括:若所述接收到的唤醒词为有效的唤醒词,则根据所述存储的所述多个唤醒词与语言种类的对应关系获取所述对应的语言种类。
9.如权利要求6所述的方法,其特征在于,所述接收用户的语音指令还包括:若在一预设时间内未接收到用户的语音指令,则返回至待机模式,重新等待接收用户的唤醒词。
10.如权利要求6所述的方法,其特征在于,在所述将接收到的语音指令传送至所述选定的语音辨识模型的步骤之后,还包括:接收所述选定的语音辨识模型回传的辨识结果,根据所述辨识结果执行相应的动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458870.6A CN112102819A (zh) | 2019-05-29 | 2019-05-29 | 语音辨识装置及其切换辨识语言的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458870.6A CN112102819A (zh) | 2019-05-29 | 2019-05-29 | 语音辨识装置及其切换辨识语言的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112102819A true CN112102819A (zh) | 2020-12-18 |
Family
ID=73748270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910458870.6A Pending CN112102819A (zh) | 2019-05-29 | 2019-05-29 | 语音辨识装置及其切换辨识语言的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112102819A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154953A1 (en) * | 2013-12-02 | 2015-06-04 | Spansion Llc | Generation of wake-up words |
US20180108343A1 (en) * | 2016-10-14 | 2018-04-19 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US20180357998A1 (en) * | 2017-06-13 | 2018-12-13 | Intel IP Corporation | Wake-on-voice keyword detection with integrated language identification |
CN109215634A (zh) * | 2018-10-22 | 2019-01-15 | 上海声瀚信息科技有限公司 | 一种多词语音控制通断装置的方法及其系统 |
CN109817220A (zh) * | 2017-11-17 | 2019-05-28 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及系统 |
US20190311715A1 (en) * | 2016-06-15 | 2019-10-10 | Nuance Communications, Inc. | Techniques for wake-up word recognition and related systems and methods |
-
2019
- 2019-05-29 CN CN201910458870.6A patent/CN112102819A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154953A1 (en) * | 2013-12-02 | 2015-06-04 | Spansion Llc | Generation of wake-up words |
US20190311715A1 (en) * | 2016-06-15 | 2019-10-10 | Nuance Communications, Inc. | Techniques for wake-up word recognition and related systems and methods |
US20180108343A1 (en) * | 2016-10-14 | 2018-04-19 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US20180357998A1 (en) * | 2017-06-13 | 2018-12-13 | Intel IP Corporation | Wake-on-voice keyword detection with integrated language identification |
CN109817220A (zh) * | 2017-11-17 | 2019-05-28 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及系统 |
CN109215634A (zh) * | 2018-10-22 | 2019-01-15 | 上海声瀚信息科技有限公司 | 一种多词语音控制通断装置的方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109378000B (zh) | 语音唤醒方法、装置、系统、设备、服务器及存储介质 | |
US10079014B2 (en) | Name recognition system | |
US10679619B2 (en) | Method of providing voice command and electronic device supporting the same | |
US11031011B2 (en) | Electronic device and method for determining electronic device to perform speech recognition | |
US8412532B2 (en) | Integration of embedded and network speech recognizers | |
CN106251869B (zh) | 语音处理方法及装置 | |
CN110113497B (zh) | 基于语音交互的语音外呼方法、装置、终端及存储介质 | |
US20130238326A1 (en) | Apparatus and method for multiple device voice control | |
CN109785845B (zh) | 语音处理方法、装置及设备 | |
CN111312233A (zh) | 一种语音数据的识别方法、装置及系统 | |
JP2015004756A (ja) | 判定装置、判定方法及び判定プログラム | |
CN106850762B (zh) | 一种消息推送方法、服务器及消息推送系统 | |
CN112102819A (zh) | 语音辨识装置及其切换辨识语言的方法 | |
CN110720104B (zh) | 一种语音信息处理方法、装置及终端 | |
CN113823282A (zh) | 语音处理方法、系统和装置 | |
US20190279623A1 (en) | Method for speech recognition dictation and correction by spelling input, system and storage medium | |
CN113421565A (zh) | 搜索方法、装置、电子设备以及存储介质 | |
CN110674268A (zh) | 人机对话方法及相关设备 | |
CN109101586B (zh) | 电影信息获取方法、装置及移动终端 | |
CN110427553B (zh) | 智能音箱的搜索方法、装置、服务器及存储介质 | |
US10425532B2 (en) | Method and apparatus for storing phone number, and method and apparatus for dialing phone number | |
CN114330355A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN117459909A (zh) | 短信拦截方法、装置、电子设备以及存储介质 | |
CN115438625A (zh) | 文本纠错服务器、终端设备及文本纠错方法 | |
CN111401011A (zh) | 信息处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 530033 plant B of Foxconn Nanning science and Technology Park, No. 51 Tongle Avenue, Jiangnan District, Nanning City, Guangxi Zhuang Autonomous Region Applicant after: Nanning Fulian Fugui Precision Industry Co.,Ltd. Address before: 530007 the Guangxi Zhuang Autonomous Region Nanning hi tech Zone headquarters road 18, China ASEAN enterprise headquarters three phase 5 factory building Applicant before: NANNING FUGUI PRECISION INDUSTRIAL Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201218 |