CN105493180B - 用于语音识别的电子装置和方法 - Google Patents
用于语音识别的电子装置和方法 Download PDFInfo
- Publication number
- CN105493180B CN105493180B CN201480047495.1A CN201480047495A CN105493180B CN 105493180 B CN105493180 B CN 105493180B CN 201480047495 A CN201480047495 A CN 201480047495A CN 105493180 B CN105493180 B CN 105493180B
- Authority
- CN
- China
- Prior art keywords
- voice
- speech recognition
- recognition equipment
- electronic device
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及一种用于改变动态屏幕布局的方法和电子装置。根据本发明的各种实施例的使用电子装置的方法可包括如下步骤:第一语音识别装置和第二语音识别装置中的一个或更多个装置获取第一语音;当预定命令被包括在由第一语音识别装置获取的第一语音中时,通过外部电子装置来识别额外识别的第二语音;当预定命令被包括在由第二语音识别装置获取的第一语音中时,识别额外识别的第二语音;并且基于识别的第二语音来执行相关的操作。
Description
技术领域
本公开涉及电子装置,各种实施例涉及针对语音识别的配置。
背景技术
一般而言,人们可拥有他们自己的独特语音,并且语音本身可被用作认证工具。
语音识别装置可通过使用已经采集特定的人的语音和关于语音的信息的语音识别模型来识别特定的人的语音,这被称作语者验证。语音识别装置可通过使用为识别多个人的语音而预先训练的语音识别模型来区分语者的语音,这被称作语者识别。
使用语者验证或语者识别的语音识别装置可通过使用特定短语来训练语音识别模型,并在这种情况下仅当特定语者说出特定短语时识别语音,从而具有较高的安全性能。
另外,语音识别装置可通过使用仅识别预定的特定单词的孤立单词识别方法来识别语音。孤立单词识别方法指的是产生每个特定单词的模板并将所述模板与输入的语音相比较的方法。使用孤立单词识别方法的语音识别装置仅识别预定的特定单词,因此具有较高的语音识别率并具有较低的由于背景噪声原因的语音识别失败率。相应地,孤立单词识别方法与所有语音可被转换为文本的大词汇语音识别(LVSR)和自然语音识别相比较而言具有较小的计算量并使用较少的内存,使得可容易地将孤立单词语音识别方法用于便携式终端装置。
发明内容
技术问题
如上所述,语音识别装置通过使用语者验证或语者识别来识别语音或者通过使用孤立单词识别方法来识别语音。
然而,传统语音识别装置具有当低功率处理器被安装时难以执行具有大计算量的语音识别方法的问题。
另外,由于高性能预处理和高性能语音识别被执行,所以当高性能处理器被安装时,传统语音识别装置具有大功耗的缺点。
技术方案
相应地,本发明的各种实施例提供用于通过使用两个或更多个处理器来识别语音的电子装置和方法,其中,所述两个或更多个处理器包括具有低功耗的处理器和执行高性能语音识别的处理器。
根据本发明的各种实施例,为了实现技术方案,提供了一种使用电子装置的方法。所述方法包括:由第一语音识别装置和第二语音识别装置中的至少一个装置来获取第一语音;当由第一语音识别装置获取的第一语音包括预定命令时,通过外部电子装置识别额外识别的第二语音;当由第二人语音识别装置获取的第一语音包括预定命令时,识别额外识别的第二语音;基于识别的第二语音来执行相应操作。
根据本发明的各种实施例,电子装置包括:第一语音识别装置和第二语音识别装置中的至少一个装置,其中,当由第一语音识别装置获取的第一语音包括预定命令时,额外识别的第二语音通过外部电子装置被识别,并且当由第二人语音识别装置获取的第一语音包括预定命令时,额外识别的第二语音被识别,然后相关操作基于识别的第二语音被执行。
有益效果
根据本发明的各种实施例,可保持能够具有低功耗并总是处于待机状态的语音识别系统来执行可响应用户的各种查询的自然语音识别,响应针对要求快速操作反应的应用的特定语音命令,即使为语音识别而输入的语音信号失真也执行具有高语音识别率的语音识别。
附图说明
图1示出包括根据各种实施例的电子装置的网络环境;
图2示出根据各种实施例的第一语音识别处理器和第二语音识别处理器的配置;
图3示出根据各种实施例的第一语音识别处理器和第二语音识别处理器的配置;
图4示出根据各种实施例的第一语音识别处理器和第二语音识别处理器的配置;
图5示出根据各种实施例的第一语音识别处理器和第二语音识别处理器的配置;
图6示出根据各种实施例的第一语音识别处理器、第二语音识别处理器和第三语音识别处理器的配置;
图7示出根据各种实施例的第一语音识别处理器、第二语音识别处理器和第三语音识别处理器的配置;
图8示出根据各种实施例的预处理单元的配置;
图9是示出根据各种实施例的控制器通过第一语音识别处理器或第二语音识别处理器来执行语音识别的处理的流程图;
图10是示出根据各种实施例的控制器通过第一语音识别处理器或第二语音识别处理器来执行语音识别的处理的流程图;
图11是示出根据各种实施例的控制器通过第一语音识别处理器或第二语音识别处理器来执行语音识别的处理的流程图;
图12是示出根据各种实施例的控制器通过第一语音识别处理器或第二语音识别处理器来执行语音识别的处理的流程图;
图13示出根据各种实施例的通过第一语音识别处理器、第二语音识别处理器和第三语音识别处理器来执行语音识别的处理;
图14示出根据各种实施例的通过第一语音识别处理器、第二语音识别处理器和第三语音识别处理器来执行语音识别的处理;
图15示出根据各种实施例的通过第一语音识别处理器、第二语音识别处理器和第三语音识别处理器来执行语音识别的处理;
图16示出根据各种实施例的通过第三语音识别处理器将语音识别模型升级的处理;
图17是根据各种实施例的电子装置的框图。
具体实施方式
在下文中,将结合附图描述本发明的各种实施例。可以以各种形式来修改本发明,并且本发明可包括各种实施例,但是在附图中对具体实例进行说明并在说明书中对具体实例进行描述。然而,说明书并不意图将本发明限制为具体实施例,应理解,术语本发明的构思和技术范围的改变、等同物和替换均被包括在本发明中。在对于附图的描述中,相同或相似的附图标号用于指定相同或相似的元件。
在下文中,在本发明的各种实施例中使用的术语“包括”或“可包括”指示存在公开的功能、操作或元件,并不对于增加一个或更多个功能、操作或元件进行限制。在本发明中,诸如“包括”或“具有”的术语可被理解为表示特定的特征、数字、步骤、操作、组成元件、组件或这些项的组合,但是可不被理解为排除增加一个或更多个其它特征、数字、步骤、操作、组成元件、组件或这些项的组合的存在或可能性。
在本发明的各种实施例中的术语“或”意指包括指示被公开的元件中的指示一个元件或所有元件。例如,表达“A或B”可包括A,可包括B或者可包括A和B两者。
在本发明的各种实施例中的诸如“第一”、“第二”等的表达可修饰在各种实施例中的各种组成元件,但是可不限制相应的组成元件。例如,上面的表达不限制元件的顺序和/或重要性。上面的表达仅用于将元件与其它元件相区分的目的。例如,虽然第一用户装置和第二用户装置均是用户装置,但是两者指示不同的用户装置。例如,在不脱离本发明的范围的情况下,第一组成元件可被命名为第二组成元件。类似地,第二组成元件也可被命名为第一组成元件。
应注意,如果描述一个组成元件被“耦合”或“连接”到另一组成元件,则第一组成元件可被直接耦合或连接到第二组成元件,并且可在第一组成元件和第二组成元件之间“耦合”或“连接”第三组成元件。相反地,当一个组成元件被“直接耦合”或“直接连接”到另一组成元件时,可理解的是,在第一组成元件和第二组成元件之间不存在第三组成元件。
在本发明的各种实施例中的术语被用于描述具体实施例,但不意图限制本发明。如在此所使用,除非上下文清晰地另有指示,否则单数形式意图也包括复数形式。
除非以不同方式限定,否则在此使用的包括技术术语或科学术语在内的所有术语具有与本发明所属领域的技术人员的理解相同的含义。如在通常使用的词典中限定的这样的术语,除非在本发明中被清楚地限定,否则将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义。
根据本发明的各种实施例的电子装置可以是具有显示功能的装置。例如,电子装置可包括以下项中的至少一个:智能电话、平板个人计算机(PC)、智能电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、移动医疗装置、相机、可穿戴装置(例如,头戴式装置(HMD)(诸如,电子眼镜)、电子服装、电子手镯、电子项链、电子应用配件、电子纹身或智能手表)。
根据一些实施例,电子装置可以是具有显示功能的智能家用电器。智能家用电器可包括以下项中的至少一个:例如,电视机、数字视频盘(DVD)播放器、音频播放器、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、TV盒子(例如,三星HomeSyncTM、苹果TVTM或谷歌TVTM)、游戏机、电子词典、电子钥匙、摄像机或电子相框。
根据一些实施例,电子装置可包括以下项中的至少一个:各种医疗装置(例如,磁共振血管造影(MRA)扫描仪、磁共振成像(MRI)扫描仪、计算机断层扫描(CT)扫描仪、扫描机、超声仪等)、导航装置、全球定位系统(GPS)接收器、事件数据记录器(EDR)、飞行数据记录器(FDR)、车辆信息娱乐装置、用于船舶的电子设备(例如,船舶导航装置、回转罗盘等)、航空电子设备、安全装置、车辆的机头单元、工业机器人或家用机器人、金融机构里的自动柜员机(ATM)或商店里的销售点(POS)。
根据一些实施例,电子装置可包括以下项中的至少一个:包括显示功能的家具或建筑/结构的一部分、电子图板、电子签名接收装置、投影仪以及各种类型的测量装置(例如,水表、电表、煤气表、无线电波表等)。根据本发明的各种实施例的电子装置可以是上述各种装置中的一个或多个装置的组合。此外,根据本发明的各种实施例的电子装置可以是柔性装置。此外,根据本发明的各种实施例的电子装置不限于上述装置。
在下文中,将参照附图描述根据各种实施例的电子装置。在各种实施例中使用的术语“用户”可指示使用电子装置的人或使用电子装置的装置(例如,人工智能电子装置)。
图1示出包括根据各种实施例的电子装置101的网络环境100。
参照图1,电子装置101可包括总线110、处理器120、存储器130、输入/输出接口140、显示器150、通信接口160、第一语音识别处理器170和第二语音识别处理器180。
总线110可以是用于将上述元件彼此连接或在所述元件之间传送信息(例如,控制消息)的电路。
控制器120可通过例如总线110从上述其它元件(例如,存储器130、输入/输出接口140、显示器150、通信接口160、第一语音识别处理器170、第二语音识别处理器180等)接收命令,对接收的命令进行解码并根据解码的命令执行计算或数据处理。
存储器130可存储从处理器120或其它元件(例如,输入/输出接口140、显示器150、通信接口160、第一语音识别处理器170、第二语音识别处理器180等)接收的或由处理器120或所述其它元件产生的命令或数据。存储器130可包括编程模块(例如,内核131、中间件132、应用程序接口(API)133、应用134等)。上述编程模块中的每个模块可由软件、固件、硬件或者软件、固件、硬件中的至少两个的组合来形成。
内核131可控制或管理用于执行在其余编程模块(例如,中间件132、API 133和应用134)中实现的操作或功能的系统资源(例如,总线110、处理器120、存储器130等)。另外,内核131可提供接口,其中,中间件132、API 133和应用134可通过所述接口访问电子装置101的单独的组成元件以控制或管理组成元件。
中间件132可作为媒介,使得API 133或应用134与内核131通信以发送/接收数据。另外,关于从应用134接收到的对于操作的请求,中间件132可针对应用134中的至少一个应用通过使用例如确定使用电子装置101的系统资源(例如,总线110、处理器120、存储器130等)的顺序的方法来控制(例如,进行调度或负载平衡)对于操作的请求。
API 133是接口并可包括例如用于文件控制、窗口控制、图像处理、文本控制等的至少一个接口或功能(例如,命令),其中,应用134通过所述接口控制从内核131或中间件132提供的功能。
根据各种实施例,应用134可包括短消息服务(SMS)/多媒体消息服务(MMS)应用、电子邮件应用、日历应用、闹钟应用、健康护理应用(例如,用于提供大气压力、湿度或温度信息的应用)。额外地或可选地,应用134可以是与电子装置101和外部电子装置(例如,电子装置104)之间的信息交换有关的应用。与交换信息有关的应用可包括例如外部电子装置或用于管理外部电子装置(例如,电子装置104)的装置管理应用。
例如,通知转发应用可包括将在电子装置101的其它应用(例如,SMS/MMS应用、电子邮件应用、健康护理应用或环境信息应用)中产生的通知信息传送到外部电子装置(例如,电子装置104)的功能。额外地或可选地,通知转发应用可例如从外部电子装置(例如,电子装置104)接收通知信息并可将接收的通知信息提供给用户。装置管理应用可例如管理(例如,安装、删除或更新)针对以下项中的至少一部分的功能:与电子装置101通信(例如,开启/关闭外部电子装置本身(或外部电子装置的一些元件)或调整显示器的亮度(或分辨率))的外部电子装置(例如,电子装置104)、在外部电子装置中操作的应用或由外部电子装置提供的服务(例如,电话呼叫服务或消息服务)。
根据各种实施例,应用134可包括根据外部电子装置(例如,电子装置104)的属性(例如,电子装置的类型)而指定的应用。例如,当外部电子装置是MP3播放器时,应用134可包括与音乐的再现有关的应用。类似地,当外部电子装置是移动医疗装置时,应用134可包括与医疗护理有关的应用。根据实施例,应用134可包括以下应用中的至少一个应用:在电子装置101中指定的应用或从外部电子装置(例如,服务器106或电子装置104)接收到的应用。
输入输出接口140可例如通过总线110将由用户通过输入/输出装置(例如,传感器、键盘或触摸屏)输入的命令或数据传送到处理器120、存储器130、通信接口160、第一语音识别处理器170和第二语音识别处理器180。例如,输入/输出接口140可向处理器120提供与通过触摸屏输入的用户的触摸有关的数据。另外,输入/输出接口140通过输入/输出装置(例如,扬声器或显示器)输出例如通过总线110从处理器120、存储器130、通信接口160、第一语音识别处理器170或第二语音识别处理器180接收到的命令或数据。例如,输入/输出接口140可通过扬声器向用户输出由处理器120处理过的语音数据。
显示器150可向用户显示各种信息(例如,多媒体数据或文本数据)。
通信接口160可对电子装置101和外部电子装置(例如,电子装置104或服务器106)之间的通信进行连接。例如,可通过有线通信或无线通信将通信接口160连接到网络162以便与外部电子装置通信。无线通信可包括以下项中的至少一个:例如,Wi-Fi(无线保真)、BT(蓝牙)、NFC(近场通信)、GPS(全球定位系统)和蜂窝通信(例如,LTE、LTE-A、CDMA、WCDMA、UMTS、WiBro、GSM等)。有线通信可包括以下项中的至少一个:例如,USB(通用串行总线)、HDMI(高清多媒体接口)、推荐标准232(RS-232)和POTS(普通老式电话服务)。
根据实施例,网络162可以是电信网络。电信网络可包括以下项中的至少一个:计算机网络、互联网、物联网和电话网络。根据实施例,可在以下项中的至少一个中支持针对在电子装置101和外部电子装置之间的通信的协议(例如,传输层协议、数据链路层协议或物理层协议):应用134、应用程序接口133、中间件132、内核131和通信接口160。
第一语音识别处理器170和/或第二语音识别处理器180可对从其它元件(例如,处理器120、存储器130、输入/输出接口140、通信接口160等)获取的至少一些信息进行处理并可通过各种方法向用户提供处理过的信息。
例如,第一语音识别处理器170可通过使用处理器120或不依赖处理器120从输入/输出接口140接收第一语音并确定第一语音中是否包括第一命令。根据本发明的各种实施例,可通过特定单词来预设第一命令或可由用户来设置第一命令。
当第一语音中包括第一命令时,第一语音识别处理器170可将额外接收到的第二语音传送到外部电子装置(例如,电子装置104或服务器106),因此外部电子装置可对第二语音执行语音识别。
另外,在第一语音被识别并且确定第一语音中是否包括第一命令后,当第一语音中包括第一命令时,第二语音识别处理器180可识别额外接收到的第二语音并确定第二语音中是否包括预存储的语音命令集中所包括的第二命令。根据本发明的各种实施例,第二命令集可包括多个单词。
当第二语音中包括第二命令时,第二语音识别处理器180可执行与第二命令相应的操作。根据另一实施例,第二语音识别处理器180可将用于执行与第二命令相应的操作的信号传送到处理器120,因此处理器120可执行所述操作。
图2示出根据各种实施例的第一语音识别处理器和第二语音识别处理器的配置。
参照图2,电子装置101可包括第一语音识别处理器170、第二语音识别处理器180、麦克风400、扬声器410和音频模块420。
根据各种实施例,麦克风400可接收语音信号。在说明书中,可将麦克风称作语音输入单元。
扬声器410可包括扬声器并输出语音信号。另外,扬声器410可输出通过执行应用或程序而产生的音频信号。在本说明书中,可将扬声器称作音频输出单元。
音频模块420可被连接到第一语音识别处理器170、第二语音识别处理器180、麦克风400和扬声器410以执行将模拟语音信号转换为数字语音信号或将数字语音信号转换为模拟语音信号的处理。另外,音频模块420可对转换出的数字信号执行信号处理(例如,自动增益控制、均衡化等)。音频模块420可发送/接收应用或程序的语音信号。
可将音频模块420实现为接收单独的电力或可选择性地实施音频模块420。根据另一实施例,可在第一语音识别处理器170和第二语音识别处理器180中的每个处理器内实现音频模块420而无需接收单独的电力。
第一语音识别处理器170可包括第一语音识别处理单元110,第一语音识别处理单元110可包括第一处理单元111、第一语音识别模型存储单元112和第一语音识别单元113。在说明书中,可将语音识别模型存储单元称作语音识别引擎存储单元。
第一语音识别处理器170与利用低功率操作的低功率处理器相应,并可通过使用第一语音识别模型来执行语音识别。第一语音识别处理器170可包括第一语音识别处理单元110,其中,第一语音识别处理单元110包括第一预处理单元111、第一语音识别模型存储单元112和第一语音识别单元113。
在第一语音识别单元113执行语音识别之前,第一预处理单元111可对从麦克风400输入的语音信号进行修改并将修改过的语音信号输出到第一语音识别单元113。可选择性地实现第一预处理单元111或根据实现方式而省略第一预处理单元111。
第一语音识别模型存储单元112可存储第一语音识别模型,并且可通过语音识别训练来产生或更新第一语音识别模型存储单元112,其中,第一语音识别模型包括用于语音识别的各种语音识别算法。
根据本发明的各种实施例,第一语音识别模型可包括第一级语音识别算法,其中,第一级语音识别算法可识别包括预设命令(诸如,特定单词或者一个或更多个单词的组合)的第一级语音。例如,第一语音识别模型可以是语者识别算法。
第一语音识别单元113可通过使用第一语音识别模型来识别语音。根据本发明的各种实施例,第一语音识别单元113可识别利用低功率操作的第一语音识别处理器170中的第一级语音。例如,第一语音识别单元113可识别包括预定单词的组合“你好,盖乐世”的命令。
另外,第二语音识别处理器180可包括第二语音识别处理单元220、控制器210和音频管理单元230,第二语音识别处理单元220可包括第二语音识别模型存储单元222和第二语音识别单元223。在说明书中,可将音频管理单元称作语音管理单元。
第二语音识别处理器180可包括控制器210、第二语音识别处理单元220和音频管理单元230。根据本发明的各种实施例,第二语音识别处理器180可还包括第三语音识别处理单元,其中,第三语音识别处理单元包括第三预处理单元、第三语音识别模型存储单元和第三语音识别单元。这里,第二语音识别处理器180可利用与第一语音识别处理器170的功率不同的功率来操作。
控制器210控制第一语音识别处理器170或/和第二语音识别处理器180的一般操作(诸如,语音识别控制、各个元件之间的信号控制等)。另外,控制器210可被连接到音频管理单元230以接收语音输入/输出信号。控制器210可通过使用应用和程序信息以及从音频管理单元230接收到的信息来控制第一语音识别处理单元110和第二语音识别处理单元220的操作。根据本发明的实施例,虽然已经描述在第二语音识别处理器180中包括控制器210,但是本发明不限于此,可在第一语音识别处理器170中包括控制器210或可与第一语音识别处理器170和第二语音识别处理器180相独立地配置控制器210。此外,根据本发明的各种实施例,第一语音识别处理器170或/和第二语音识别处理器180可控制每个操作。
第二语音识别处理单元220可包括第二预处理单元221、第二语音识别模型存储单元222和第二语音识别单元223。
在第二语音识别单元223执行语音识别之前,第二预处理单元221可修改从麦克风400输入的语音信号,并可将修改过的语音信号输出到第二语音识别单元223。可选择性地实现第二预处理单元221或可根据实现方式而省略第二预处理单元221。
第二语音识别模型存储单元222存储用于第二语音识别单元223的语音识别的第二语音识别模型。
根据本发明的各种实施例,第二语音识别模型可包括第二级语音识别算法,其中,第二级语音识别算法不仅可识别可由第一语音识别模型识别的第一级语音,也可识别包括一个单词的命令的第二级语音。第二语音识别算法可比第一语音识别算法识别更多的命令。另外,可通过语音识别训练来产生或更新第二语音识别模型。
第二语音识别单元223可通过使用第二语音识别模型来识别第二级语音。第二语音识别单元223可执行比第一语音识别单元113更高性能的语音识别。例如,第二语音识别单元223可识别包括至少一个单词(诸如,“播放”、“停止”、“暂停”等)的命令。
音频管理单元230被直接或间接连接到麦克风400和扬声器410以管理语音信号的输入或输出。另外,音频管理单元230可将从音频模块420输出的语音信号传送到第二预处理单元221。音频管理单元230可管理应用或程序的音频信号的输入/输出,并确定是否从扬声器410输出音频信号。
图3示出根据各种实施例的第一语音识别处理器和第二语音识别处理器的配置。
根据本发明的各种实施例,可实现电子装置101使得音频模块被移除并被包括在第一语音识别处理器170和第二语音识别处理器180内。可与图2的描述同样地运行电子装置101的元件。
根据图3,控制器210可通过音频管理单元230接收从麦克风400输入的语音信号。音频管理单元230可从麦克风400接收语音信号并将语音信号传送到扬声器410,因此可通过扬声器410输出语音。
第二语音识别单元223可通过使用第一语音识别处理器170的第一语音识别模型来识别语音。另外,第一语音识别单元113和/或第二语音识别单元223可执行语音识别以识别特定扬声器的特定语音。
图4示出根据各种实施例的第一语音识别处理器和第二语音识别处理器的配置。
根据本发明的各种实施例,电子装置可包括第二语音识别处理器180,其中,第二语音识别处理器180包括两个语音识别处理单元。
第二语音识别处理器180可包括第二语音识别处理单元220和第三语音识别处理单元240。第二语音识别处理单元220的第二语音识别模型和第三语音识别处理单元240的第三语音识别模型可包括不同的语音识别算法。第三语音识别模型可包括用于识别多个单词的组合的命令的第三级语音识别算法。例如,第三级语音可以是多个单词(诸如,“打开相机”)的组合的短语或/和句子。根据各种实施例,第二语音识别模型和第三语音识别模型中的一个模型可以是与第一语言识别模型相同的识别模型。
第三语音识别处理单元240可包括第三预处理单元241、第三语音识别模型存储单元242和第三语音识别单元243。
在第三语音识别单元243执行语音识别之前,第三预处理单元241可修改从麦克风400输入的语音信号并将修改过的语音信号输出到第三语音识别单元243。可选择性地实施第三预处理单元241或可根据实现方式而省略第三预处理单元241。
第三语音识别模型存储单元242存储用于第三语音识别单元243的语音识别的第三语音识别模型。根据本发明的各种实施例,第三语音识别模型可包括第三级语音识别算法,其中,第三级语音识别算法可识别包括多个单词的组合的短语或/和句子的第三级语音。第三级语音识别算法可识别比第二级语音识别算法更多的命令。例如,第三级语音识别算法可以是自然语音识别算法和用于识别多个单词(诸如,“打开相机”)的组合的命令的算法。
第三语音识别单元243可通过使用第三语音识别模型来识别第三级语音。
图5示出根据各种实施例的第一语音识别处理器和第二语音识别处理器的配置。
根据各种实施例,在电子装置101中,第一语音识别处理器170可还包括语音处理单元110-1,可将从麦克风400输入的语音信号传送到语音处理单元150。根据本发明的各种实施例,第一语音识别处理器170可作为音频模块工作。
语音处理单元110-1可将从麦克风400输入的语音信号(即,模拟信号)转换为数字信号并输出数字信号,或执行诸如自动增益控制(AGC)的语音处理。可通过第二语音识别处理器180的音频管理单元230将由语音处理单元110-1处理的语音信号传送到第二语音识别处理单元220或者由应用或程序来使用由语音处理单元110-1处理的语音信号。
第一语音识别单元113可通过使用第一语音识别模型来识别语音。第一语音识别模型可包括第一级语音识别算法并且可以是用于识别语音输入或被用户训练的识别模型。
当应用被执行时,第二语音识别单元223可通过使用专用于执行的应用的第二语音识别模型来识别语音。例如,第二语音识别模型可以是单词识别模型或大词汇语音识别模型,其中,单词识别模型可识别若干个单词。
图6示出根据各种实施例的第一语音识别处理器、第二语音识别处理器和第三语音识别处理器的配置。
根据本发明的各种实施例,电子装置101可包括第一语音识别处理器和第二语音识别处理器180,外部电子装置可包括第三语音识别处理器190。
第一语音识别处理器170可包括第一预处理单元111、第一语音识别模型存储单元112和第一语音识别单元113。
当从麦克风400接收到语音信号时,第一语音预处理单元111修改接收的第一语音并将修改的第一语音传送到第一语音识别单元113。
第一语音识别模型存储单元112可存储包括第一级语音识别算法的第一语音识别模型,其中,第一级语音识别算法可识别第一级语音。
第一语音识别单元113可通过使用第一语音识别模型来识别第一语音并确定识别的第一语音是否包括第一命令。当确定第一语音包括第一命令时,第一语音识别单元113可将输入的第二语音传送到第三语音识别处理器190。另外,当确定第一语音不包括第一命令时,第一语音识别单元113终止语音识别。
第二语音识别处理器180可包括控制器210、第二预处理单元221、第二语音识别模型存储单元222和第二语音识别单元223。
控制器210控制第一语音识别处理器170或/和第二语音识别处理器180的一般操作(诸如,语音识别控制、各个元件之间的信号控制等)。根据本发明的各种实施例,当接收到第一语音时,控制器210可将第一语音传送到第二语音预处理单元221。当第二语音识别单元223接收到语音识别的结果时,控制器210可执行与语音识别的结果相应的操作。
根据本发明的各种实施例,虽然已经描述在第二语音识别处理器180中包括控制器210,但是本发明不限于此,并且可在第一语音识别处理器170中包括控制器210或可与第一语音识别处理器170和第二语音识别处理器180相分离地配置控制器210。此外,根据本发明的各种实施例,第一语音识别处理器170或/和第二语音识别处理器180可控制每个操作。
在第二语音识别单元223执行语音识别之前,第二预处理单元221可修改语音信号并将修改的语音信号输出到第二语音识别单元223。可选择性地实现第二预处理单元221或可根据实现方式而省略第二预处理单元221。
第二语音识别模型存储单元222可存储包括第二级语音识别算法的第二语音识别模型,其中,第二级语音识别算法可识别第二级语音。根据本发明的各种实施例,第二级语音可包括第一级语音。
第二语音识别单元223可通过使用第二语音识别模型来识别第一语音并确定识别的第一语音是否包括第一命令。当确定第一语音包括第一命令时,第二语音识别单元223可识别输入的第二语音并确定识别的第二语音是否包括第二命令。当确定第一语音不包括第一命令时,第二语音识别单元223终止语音识别。
另外,当确定第二语音包括第二命令时,第二语音识别单元223可将语音识别的结果传送到控制器210,控制器210可执行与第二命令相应的操作。当确定第二语音不包括第二命令时,第二语音识别单元223终止语音识别。
第三语音识别处理单元190可包括第三预处理单元310、第三语音识别模型存储单元320和第三语音识别单元330。
在第三语音识别单元330执行语音识别之前,第三预处理单元310可修改语音信号并将修改的语音信号输出到第三语音识别单元330。可选择性地实现第三预处理单元310或可根据实现而省略第三预处理单元310。
第三语音识别模型存储单元320可存储包括第三级语音识别算法的第三语音识别模型,其中,第三级语音识别算法可识别第三级语音。
第三语音识别单元330可通过使用第三语音识别模型来识别第二语音并确定识别的第二语音是否包括第二命令或/和第三命令。当确定第二语音包括第二命令或/和第三命令时,第三语音识别单元330可将语音识别的结果传送到第二语音识别处理器180。当确定第二语音不包括第二命令或/和第三命令时,第三语音识别单元330终止语音识别。
此后,第二语音识别处理器180可执行与第二命令或/和第三命令相应的操作。
根据本发明的各种实施例,电子装置可包括第一语音识别装置和第二语音识别装置中的至少一个装置,所述至少一个装置获取第一语音,其中,当由第一语音识别装置获取的第一语音包括预定命令时,通过外部电子装置来识别额外识别的第二语音,并且当由第二语音识别装置获取的第一语音包括预定命令时,识别额外识别的第二语音,然后基于识别的第二语音来执行相关操作。
图7示出根据各种实施例的第一语音识别处理器、第二语音识别处理器和第三语音识别处理器的配置。
根据本发明的各种实施例,电子装置可包括第一语音识别处理器170和第二语音识别处理器180,外部电子装置可包括第三语音识别处理器190。
第一语音识别处理器170可包括第一预处理单元111、第一语音识别模型存储单元112和第一语音识别单元113。
当从麦克风400接收到语音信号时,第一预处理单元111修改接收的第一语音并将修改的第一语音传送到第一语音识别单元113。
第一语音识别模型存储单元112可存储包括第一级语音识别算法的第一语音识别模型,其中,第一级语音识别算法可识别第一级语音。
第一语音识别单元113可通过使用第一语音识别模型来识别第一语音并确定识别的第一语音是否包括第一命令。当确定第一语音包括第一命令时,第一语音识别单元113可将输入的第二语音传送到第三语音识别处理器190。当确定第一语音不包括第一命令时,第一语音识别单元113可将第一语音传送到第二语音识别处理器180。
第二语音识别处理器180可包括控制器210、第二预处理单元221、第二语音识别模型存储单元222和第二语音识别单元223。
当接收到第一语音时,控制器210可将第一语音传送到第二预处理单元221。当由第二语音识别单元223接收到语音识别的结果时,控制器210可执行与语音识别的结果相应的操作。
在第二语音识别单元223执行语音识别之前,第二预处理单元221可修改语音信号并将修改的语音信号输出到第二语音识别单元223。可选择性地实现第二预处理单元221或可根据实现方式而省略第二预处理单元221。
第二语音识别模型存储单元222可存储包括第二级语音识别算法的第二语音识别模型,其中,第二级语音识别算法可识别第二级语音。
第二语音识别单元223可通过使用第二语音识别模型来识别第一语音并确定识别的第一语音是否包括第一命令。当确定第一语音包括第一命令时,第二语音识别单元223可识别输入的第二语音并确定识别的第二语音是否包括第二命令。当确定第一语音不包括第一命令时,第二语音识别单元223终止语音识别。
另外,当确定第二语音包括第二命令时,第二语音识别单元223可将语音识别的结果传送到控制器210,控制器210可执行与第二命令相应的操作。当确定第二语音不包括第二命令时,第二语音识别单元223终止语音识别。
根据各种实施例,当确定第一语音不包括第一命令时,第二语音识别单元223可确定第一语音是否包括第二命令。当确定第一语音包括第二命令时,第二语音识别单元223可将语音识别的结果传送到控制器210。
第三语音识别处理单元190可包括第三预处理单元310、第三语音识别模型存储单元320和第三语音识别单元330。
在第三语音识别单元330执行语音识别之前,第三预处理单元310可修改语音信号并将修改的语音信号输出到第三语音识别单元330。可选择性地实现第三预处理单元310或可根据实现方式而省略第三预处理单元310。
第三语音识别模型存储单元320可存储包括第三级语音识别算法的第三语音识别模型,其中,第三级语音识别算法可识别第三语音。
第三语音识别单元330可通过使用第三语音识别模型来识别第二语音并确定识别的第二语音是否包括第二命令或/和第三命令。当确定第二语音包括第二命令或/和第三命令时,第三语音识别单元330可将语音识别的结果发送到第二语音识别处理器180。当确定第二语音不包括第二命令或/和第三命令时,第三语音识别单元330终止语音识别。
图8示出根据各种实施例的预处理单元的配置。
根据本发明的实施例的预处理单元800可包括自适应回波消除器(AEC)、噪声抑制(NS)单元802、终点检测(EPD)单元803、自动增益控制(AGC)单元804。
自适应回波消除器801基于参考信号执行从语音信号中移除回波的操作,其中,从麦克风810输入语音信号。例如,如果当输出声音(诸如,电话呼叫、铃声、音乐播放器、相机等)的应用给第二语音识别处理器180执行时输出语音信号,则自适应回波消除器801可从输入的语音信号中移除回波并将语音信号转送到语音识别单元820,其中,通过应用的执行而输入回波。
噪声抑制单元802执行抑制来自于输入的语音信号的噪声的操作。
终点检测单元803执行检测语音的终点的操作以查找语音实际上存在于输入的语音信号中的部分。
自动增益控制单元804执行即使输入的语音信号的传播强度被改变也自动接收良好的语音信号的操作。
第一预处理单元111中可不包括元件以便以低功率操作,第二预处理单元221中可包括所有的元件以便提高语音识别的性能。然而,在本发明的实施例中不限于此,可以以各种方式包括或排除元件。
根据本发明的各种实施例,可将第一语音识别处理器170实施为低功率处理器。甚至当第二语音识别处理器180处于空闲模式中时,第一语音识别处理器170可等待语音信号的输入。这里,空闲模式指示不被供电的状态,其中,电子装置101的屏幕被关闭并且仅仅必要的元件通过供应最少的电力来操作。
当从麦克风400输入语音时,第一语音识别处理器170的第一语音识别单元113识别输入的语音。当输入的语音包括用于激活第二语音识别处理器180的命令时,第一语音识别单元113将用于激活第二语音识别处理器180的信号传送到控制器210。此后,控制器210可通过激活第二语音识别处理单元220来执行语音识别。
甚至当第二语音识别处理器180处于活动状态中时,控制器210可通过第一语音识别处理器170来执行语音识别。此时,控制器210可通过使用应用信息和从音频管理单元230接收到的信息来控制第一语音识别处理器170的操作或者控制第一语音识别处理单元110和第二语音识别处理单元220的操作。
根据跟发明的各种实施例,当接收到语音时,电子装置101可通过第一语音识别处理器170来执行语音识别,基于对音频信号进行处理的音频处理单元(诸如,音频模块、扬声器、音频管理单元等)的操作来停止第一语音识别处理器170的语音识别,并通过第二语音识别处理器180来执行语音识别。
根据本发明的各种实施例,根据是否从扬声器输出音频信号,可由从以低功率工作的处理器和高性能处理器中选择出的一个处理器来执行语音识别。
例如,当用于示出声音的应用或程序被执行时,如果用于语音识别的语音信号被输入,则从扬声器示出的声音变成回波并流入麦克风,相应地,输入的语音信号失真,进而可通过高性能处理器来执行语音识别。
图9是示出根据各种实施例的控制器通过第一语音识别处理器或第二语音识别处理器来执行语音识别的处理的流程图。
当在步骤900中语音被输入时,控制器210在步骤910中使第一语音识别处理器170失活。当语音未被输入时,控制器210可进入步骤930。这里,失活指示在第一语音识别处理器170内停止向第一语音识别处理单元110供电并停止第一语音识别处理单元110的语音识别的操作。根据各种实施例,控制器210控制音频管理单元230以确定是否从扬声器410输出语音。
已经从步骤910进入步骤920的控制器210通过第二语音识别处理器180的第二语音识别处理单元220来执行语音识别。
在步骤930中,控制器210使第二语音识别处理器180的第二语音识别处理单元220和音频模块420的状态失活。换句话说,控制器210停止向第二语音识别处理单元220和音频模块420供电并将它们切换到空闲状态。也就是说,控制器210可使第二语音识别处理单元220和音频模块420中的语音识别操作停止。
在步骤940中,控制器210可通过第一语音识别处理器170来执行语音识别。
图10是示出根据各种实施例的控制器通过第一语音识别处理器或第二语音识别处理器来执行语音识别的处理的流程图。
根据本发明的各种实施例,在步骤100中,控制器210确定语音是否被输入。当语音被输入时控制器210进入步骤1010,并且当语音未被输入时控制器进入步骤1020。
在步骤1010中,控制器210可通过第二语音识别处理单元220来执行语音识别。
在步骤1020中,控制器210使第二语音识别处理单元220失活,并且在步骤1030中控制器210激活第一语音识别处理器170。根据本发明的各种实施例,激活指的是通过向处于空闲状态的第一语音识别处理器170供电来将第一语音识别处理器170的状态切换到可执行语音识别操作的状态。换句话说,激活指的是第一语音识别处理器170的第一语音识别处理单元110可执行语音识别操作的状态。
在步骤1040中,控制器210可通过第一语音识别处理器170来执行语音识别。
图11是示出根据各种实施例的控制器通过第一语音识别处理器或第二语音识别处理器来执行语音识别的处理的流程图。
根据本发明的各种实施例,控制器210确定输出音频信号的应用是否正被执行。当输出音频信号的应用正被执行时,控制器210进入步骤1110,并且当输出音频信号的应用未正在被执行时,控制器210进入步骤1120。这里,当输出音频信号的应用正被执行时,控制器210可确定通过扬声器输出声音。
在步骤1110中,控制器210可通过第二语音识别处理器220来执行语音识别。
在步骤1120中,控制器210使第二语音识别处理单元220失活,并且在步骤1130中,控制器210激活第一语音识别处理器170。
在步骤1140中,控制器210可通过激活的第一语音识别处理器170来执行语音识别。
图12是示出根据各种实施例的控制器通过第一语音识别处理器或第二语音识别处理器来执行语音识别的处理的流程图。
根据本发明的各种实施例,在步骤1200中,控制器210确定音频模块420是否被激活。当音频模块420被激活时控制器210进入步骤1210,而当音频模块420未被激活时控制器进入步骤1220。这里,音频模块420的激活指的是音频模块420工作的状态。
在步骤1210中,控制器210可通过第二语音识别处理器220来执行语音识别。
在步骤1220中,控制器210使第二语音识别处理单元220失活,并且在步骤1230中,控制器210激活第一语音识别处理器170。
在步骤1240中,控制器210可通过第一语音识别处理器170来执行语音识别。
例如,当“你好,盖乐世”的语音被预定为用于激活的唤醒命令时,如果从麦克风400接收到“你好,盖乐世”的语音,则控制器210可激活特定的语音识别处理器。此后,控制器210可通过使用激活的语音识别处理器来执行额外的语音识别,或者停止或启动特定的语音识别处理器的操作。语音可被第一语音识别处理器170的第一语音识别单元110或第二语音识别处理器180的第二语音识别单元220所识别。
另外,当再现音乐的应用或程序被执行时,如果从扬声器400示出的音频信号变成回波并流入麦克风,则输入到麦克风400中的语音信号会失真。基本上,通过第一语音识别处理器170执行语音识别的控制器210可确定是否通过扬声器410输出音频信号,并且当通过扬声器410示出音频信号时,控制器210使第一语音识别处理器170失活并激活第二语音识别处理器220。根据本发明的各种实施例,控制器可确定是否通过扬声器410输出音频信号,以确定音乐再现应用是否在操作或音频模块420是否被激活。
此外,第二预处理单元221执行用于抑制输入语音的失真的信号处理(诸如,AEC等)并将提炼的语音传送到第二语音识别单元223。
图13示出根据各种实施例的通过第一语音识别处理器、第二语音识别处理器和第三语音识别处理器来执行语音识别的处理。
在步骤1300中,第一语音识别处理器170和第二语音识别处理器180可从麦克风400接收第一语音。
在步骤1301中,第一语音识别处理器170识别第一语音并确定第一语音是否包括第一命令。当第一语音包括第一命令时,第一语音识别处理器170进入步骤1302,并且当第一语音不包括第一命令时第一语音识别处理器170终止语音识别。
在步骤1302中,第一语音识别处理器170确定第二语音是否被接收到。当第二语音被接收到时第一语音识别处理器170进入步骤1303,并且当第二语音未被接收到时第一语音识别处理器170终止语音识别。
在步骤1303中,第一语音识别处理器170可将接收的第二语音传送到第三语音识别处理器190,然后终止语音识别。相应地,在接收并识别第二语音之后,第三语音识别处理器190可将识别的结果传送到第一语音识别处理器170或第二语音识别处理器180,并且第一语音识别处理器170或第二语音识别处理器180可执行与识别结果相应的操作。
在步骤1304中,第二语音识别处理器180识别第一语音并确定第一语音是否包括第一命令。当第一语音包括第一命令时第二语音识别处理器180进入步骤1305,并且当第一语音不包括第一命令时第二语音识别处理器180终止语音识别。
在步骤1305中,第二语音识别处理器180确定第二语音是否被接收到。当第二语音被接收到时第二语音识别处理器180进入步骤1306,并且当第二语音未被接收到时第二语音识别处理器180终止语音识别。
在步骤1306中,第二语音识别处理器180识别接收的第二语音,并且当第二语音包括第二命令时,第二语音识别处理器180进入步骤1307并执行与第二命令相应的操作。
使用电子装置的方法可包括以下操作:由第一语音识别装置和第二语音识别装置中的至少一个装置来获取第一语音;当由第一语音识别装置获取的第一语音包括预定命令时通过外部电子装置识别额外识别的第二语音;当由第二语音识别装置获取的第一语音包括预定命令时识别额外识别的第二语音;基于识别的第二语音执行相关操作。
图14示出根据各种实施例的通过第一语音识别处理器、第二语音识别处理器和第三语音识别处理器来执行语音识别的处理。
在步骤1400中,第一语音识别处理器170从麦克风400接收第一语音。
在步骤1401中,第一语音识别处理器170识别第一语音并确定第一语音是否包括第一命令。当第一语音包括第一命令时,第一语音识别处理器170进入步骤1402,并且当第一语音不包括第一命令时,第一语音识别处理器终止语音识别。
在步骤1402中,第一语音识别处理器170确定第二语音是否被接收到。当第二语音被接收到时,第一语音识别处理器170进入步骤1403,并且当第二语音未被接收到时,第一语音识别处理器170终止语音识别。
在步骤1403,第一语音识别处理器170可将接收的第二语音传送到第三语音识别处理器190,然后终止语音识别。相应地,在接收并识别第二语音之后,第三语音识别处理器190可将识别的结果传送到第一语音识别处理器170或第二语音识别处理器180,并且第一语音识别处理器170或第二语音识别处理器180可执行与识别结果相应的操作。
在步骤1404中,第二语音识别处理器180识别第一语音并确定第一语音是否包括第一命令。当第一语音包括第一命令时,第二语音识别处理器180进入步骤1405,并且当第一语音不包括第一命令时,第二语音识别处理器180终止语音识别。
在步骤1405中,第二语音识别处理器180确定第二语音是否被接收到。当第二语音被接收到时,第二语音识别处理器180进入步骤1406,并且当第二语音未被接收到时,第二语音识别处理器180终止语音识别。
在步骤1406中,第二语音识别处理器180识别接收的第二语音,并且当第二语音包括第二命令时,第二语音识别处理器180进入步骤1407并执行与第二命令相应的操作。
图15示出根据各种实施例的通过第一语音识别处理器、第二语音识别处理器和第三语音识别处理器来执行语音识别的处理。
在步骤1500中,第一语音识别处理器170可执行特定应用。
在步骤1501中,第一语音识别处理器170可从麦克风400接收第一语音。
在步骤1502中,第一语音识别处理器170可确定是否可对于执行的应用执行语音识别。当可执行语音识别时,第一语音识别处理器170可进入步骤1503,而当不可执行语音识别时,第一语音识别处理器170进入步骤1507。
在步骤1503中,第一语音识别处理器170识别第一语音并确定第一语音是否包括第一命令。当第一语音包括第一命令时,第一语音识别处理器170进入步骤1504,并且当第一语音不包括第一命令时,第一语音识别处理器170进入步骤1505。
在步骤1504中,当第二语音被接收到时,第一语音识别处理器170可将接收的第二语音传送到第三语音识别处理器190。
在步骤1505中,第一语音识别处理器170识别第一语音并确定第一语音是否包括第三命令。当第一语音包括第三命令时,第一语音识别处理器170进入步骤1506,并且当第一语音不包括第三命令时,第一语音识别处理器170终止语音识别。
在步骤1506中,第一语音识别处理器170可执行与第三命令相应的操作。
在步骤1507中,第二语音识别处理器180可对运行的应用执行语音识别。
在步骤1508中,第二语音识别处理器180识别第一语音并确定第一语音是否包括第一命令。当第一语音包括第一命令时,第二语音识别处理器180进入步骤1509,并且当第一语音不包括第一命令时,第二语音识别处理器180在一个阶段中执行步骤1505和步骤1506。
在步骤1509中,当第二语音被接收到时,第二语音识别处理器180可确定第二语音是否包括第二命令,并且当第二语音包括第二命令时,第二语音识别处理器180执行与第二命令相应的操作。
图16示出根据各种实施例的通过第三语音识别处理器将语音识别模型升级的处理。
在步骤1600中,第三语音识别处理器190识别第二语音。
在步骤1601中,第三语音识别处理器190可确定在预设命令中是否存在与第二语音相关的命令。当存在与第二语音相关的命令时,第三语音识别处理器190可进入步骤1602,并且当不存在与第二语音相关的命令时,第三语音识别处理器190进入步骤1603。例如,当识别的第二语音是“开始”时,第三语音识别处理器190可确定是否存在与“开始”相关的命令或/和类似于“开始”的命令。
在步骤1602中,第三语音识别处理器190可通过做出与识别的第二语音相应的相应命令来更新第二语音识别模型存储单元222。
当用于开始视频的再现的命令被配置为可再现视频的视频播放器应用功能中的“启动”时,如果确定与识别的“开始”相关或/和类似的命令是“启动”时,第三语音识别处理器190可通过使识别的“开始”与“启动”对应来更新第二语音识别模型存储单元222。换句话说,除了“启动”以外,第三语音识别处理器190还可在可重现视频的视频播放器应用功能中的用于启动视频的再现的命令中增加并存储“开始”。
在步骤1603中,当不存在与第二语音相关的命令时,第三语音识别处理器190确定是否存在与第二语音相关的装置功能。当存在与第二语音相应的装置功能时,第三语音识别处理器190进入步骤1604,并且当不存在与第二语音相关的装置功能时,第三语音识别处理器190终止命令更新操作。例如,当视频播放器应用正被执行并且第二语音与“停止”相应时,第三语音识别处理器190可确定是否存在与“停止”相关的视频播放器功能。
在步骤1604中,第三语音识别处理器190可通过使相应的装置功能与识别的第二语音对应来更新第二语音识别模型存储单元222。例如,当与“停止”相关的视频播放器功能时“再现停止”时,第三语音识别处理器190可将“停止”配置并存储为用于执行“再现停止”功能的命令。
根据各种实施例,第一语音识别处理器、第二语音识别处理器和第三语音识别处理器甚至在预定应用正被执行或/和电子装置处于空闲模式的状态下也可执行语音识别。为了减少待机功耗,第一语音识别处理器、第二语音识别处理器和第三语音识别处理器在待机模式下可仅识别唤醒命令(例如,“你好,盖乐世”),但是在非待机模式的模式下可识别所有命令。
根据各种实施例,当在预定应用被执行的同时接收到“你好,盖乐世”时,第一语音识别处理器170和/或第二语音识别处理器180可执行应用,其中,所述应用可执行自然语言语音识别并识别接收到的“你好,盖乐世”。此后,当接收到“打开相机”时,第一语音识别处理器170可将“打开相机”传送到第三语音识别处理器190。当从第三语音识别处理器190接收到识别的结果时,第一语音识别处理器170可根据识别结果执行相机应用。另外,第二语音识别处理器180可识别接收到的“打开相机”并执行应用。
根据各种实施例,当在音乐播放应用被执行的同时第二语音识别处理器接收到“你好,盖乐世”时,第一语音识别处理器170和/或第二语音识别处理器180可执行应用,其中,所述应用可执行自然语言语音识别并识别接收到的“你好,盖乐世”。此后,当接收到“打开相机”时,第一语音识别处理器170可将“打开相机”传送到第三语音识别处理器190。当从第三语音识别处理器190接收到识别的结果时,第一语音识别处理器170可根据识别结果执行相机应用。另外,第二语音识别处理器180可识别接收到的“打开相机”并执行相机应用。
当被指定为控制音乐播放应用的“播放”、“暂停”、“下一个”等命令被输入时,第二语音识别处理器180可识别输入并执行相关的音乐播放应用的功能。
图17是根据各种实施例的电子装置1701的框图1700。
根据本发明的各种实施例,电子装置1701可构成例如图1中示出的电子装置101中的全部或部分。参照图17,电子装置1701可包括指示一个应用处理器(AP)1701、通信模块1720、用户识别模块(SIM)卡1724、存储器1730、传感器模块1740、输入装置1750、显示器1760、接口1770、音频模块1780、相机模块1791、电源管理模块1795、电池1796、指示器1797和电机1798。
AP 1710可通过驱动操作系统或应用程序来控制连接到AP 1710连接的多个硬件或软件组件,处理包括多媒体数据的各种类型的数据并执行计算。可由例如片上系统(SoC)来实现AP 1710。根据实施例,AP 1710还可包括图形处理单元(GPU)(未示出)。
通信模块1720(例如,通信接口160)可通过网络在电子装置1701(例如,电子装置101)和连接到电子装置1701的其它电子装置(例如,电子装置104或服务器106)之间的通信下执行数据发送/接收。根据实施例,通信模块1720可包括蜂窝模块1721、Wi-Fi模块1723、BT模块1725、GPS模块1727、NFC模块1728和射频(RF)模块1729。
蜂窝模块1721可通过通信网络(例如,LTE、LTE-A、CDMA、WCDMA、UMTS、WiBro、GSM等)提供语音呼叫、视频呼叫、文本服务、互联网服务等。另外,蜂窝模块1721可使用用户识别模块(例如,SIM卡1724)来区分并认证通信网络内的电子装置。根据实施例,蜂窝模块1721可执行可由AP 1710提供的功能中的至少一些功能。例如,蜂窝模块1721可执行多媒体控制功能中的至少一些功能。
根据实施例,蜂窝模块1721可包括通信处理器(CP)。另外,可由例如SoC来实现蜂窝模块1721。虽然诸如蜂窝模块1721(例如,通信处理器)、存储器1730和电源管理模块1795的元件被显示为与图17中的AP 1710相独立,但是根据一个实施例,AP 1710可被实施为包括上述元件中的至少一些元件(例如,蜂窝模块1710)。
根据实施例,AP 1710或蜂窝模块1721(例如,通信处理器)可将从非易失性存储器和其它元件中的至少一个接收到的命令或数据加载到易失性存储器并处理加载的命令或数据,其中,所述其它元件被连接到AP 1710和蜂窝模块1721中的至少一个。另外,AP 1710或蜂窝模块1721可将从其它元件中的至少一个元件接收的数据或由其它元件中的至少一个元件创建的数据存储在非易失性存储器中。
Wi-Fi模块1723、BT模块1725、GPS模块1727和NFC模块1728中的每个模块可包括例如用于处理通过相应模块发送/接收的数据的处理器。虽然蜂窝模块1721、Wi-Fi模块1723、BT模块1725、GPS模块1727和NFC模块1728在图17中被显示为单独的模块,但是蜂窝模块1721、Wi-Fi模块1723、BT模块1725、GPS模块1727和NFC模块1728中的至少一些(例如,两个或更多个)模块可被包括在一个集成芯片(IC)或一个IC封装内。例如,与蜂窝模块1721、Wi-Fi模块1723、BT模块1725、GPS模块1727和NFC模块1728相应的处理器中的至少一些处理器(例如,与蜂窝模块1721相应的通信处理器和与Wi-Fi模块1723相应的Wi-Fi处理器)可被实现为一个SoC。
RF模块1729可发送/接收数据(例如,RF信号)。虽然未示出,但是RF模块1729可包括例如收发器、功率放大模块(PAM)、频率滤波器、低噪声放大器(LNA)等。另外,RF模块1729还可包括例如在无线通信中在自由空间中发送/接收电磁波的组件(诸如,导体、导线等)。虽然蜂窝模块1721、Wi-Fi模块1723、BT模块1725、GPS模块1727和NFC模块1728在图17中被显示为共享一个RF模块1729,但是蜂窝模块1721、Wi-Fi模块1723、BT模块1725、GPS模块1727和NFC模块1728中的至少一个模块可通过单独的RF模块来发送/接收RF信号。
SIM卡1724可以是包括用户识别模块的卡,并可被插入到电子装置的特定部分中形成的插槽中。SIM卡1724可包括唯一的识别信息(例如,集成电路卡标识符(ICCID))或用户信息(例如,国际移动用户标识(IMSI))。
存储器1730(例如,存储器130)可包括内部存储器1732或外部存储器1734。内部存储器1732可包括易失性存储器(例如,动态随机存取存储器(DRAM)、静态RAM(SRAM)、同步动态RAM(SDRAM)等)和易失性存储器(例如,一次性可编程只读存储器(OTPROM)、可编程ROM(PROM)、可擦可编程ROM(EPROM)、电可擦可编程ROM(EEPROM)、掩膜ROM、闪速ROM、NAND闪存、NOR闪存等)。
根据实施例,内部存储器1732可以是固态驱动器(SSD)。外部存储器1734还可包括闪存驱动器(例如紧凑型闪存(CF)、安全数字(SD)、微型安全数字(Micro-SD)、迷你型安全数字(Mini-SD)、极限数字(xD)、记忆棒等)。外部存储器1734可通过各种接口在功能上被连接到电子装置1701。根据实施例,电子装置1701还可包括诸如硬盘驱动器的存储装置(或存储介质)。
传感器模块1740可测量物理量或检测电子装置1701的操作状态,并可将测量到或检测到的信息转换为电信号。传感器模块1740可包括例如以下项中的至少一个传感器:手势传感器1740A、陀螺仪传感器1740B、大气压力传感器1740C、磁力传感器1740D、加速度传感器1740E、握持传感器1740F、接近传感器1740G、颜色传感器1740H(例如,红色、绿色和蓝色(RGB)传感器)、生物传感器1740I、温度/湿度传感器1740J、照度传感器1740K和紫外(UV)传感器1740M。额外地或可选地,传感器模块1740可包括例如电子鼻传感器(未示出)、肌电图描记(EMG)传感器(未示出)、脑电图(EEG)传感器(未示出)、心电图(ECG)传感器(未示出)、红外(IR)传感器(未示出)、虹膜传感器(未示出)、指纹传感器(未示出)等。传感器模块1740还可包括用于控制包括于此的至少一个传感器的控制电路。
输入装置1750可包括触摸面板1752、(数字)笔传感器1754、按键1756或超声输入装置1758。触摸面板1752可识别以下类型中的至少一种类型的触摸输入:例如,电容型、电阻型、红外型和超声型。触摸面板1752还可包括控制电路。触摸面板1752还可包括触觉层。在这样的实例中,触摸面板1752可向用户提供触觉反应。
可使用与接收用户的触摸输入的方法相同或相似的方法或者使用单独的识别板来实现(数字)笔传感器1754。按键1756可包括例如物理按钮、光学按键或键区。超声输入装置1758是可通过电子装置1701的麦克风(例如,麦克风1788)感测由输入工具产生的声波的超声信号并识别数据的装置,并且能够执行无线识别。根据本公开的实施例,电子装置1701也可使用通信模块1720从与电子装置1701连接的外部装置(例如,计算机或服务器)接收用户输入。
显示器1760(例如,显示器150)可包括面板1762、全息成像装置1764和投影仪1766。面板1762可以是例如液晶显示器(LCD)、主动矩阵有机发光二极管(AM-OLED)等。面板1762可被实施为例如头型、透明或可穿戴。面板1762和触摸面板1752可被一起配置为单个模块。全息成像装置1764可通过使用光的干涉在空气中示出立体图像。投影仪1766可将光投射到屏幕上以显示图像。例如,屏幕可位于电子装置1701内部或外部。根据本公开的实施例,显示器1760还可包括用于控制面板1762、全息成像装置1764或投影仪1766的控制电路。
接口1770可包括例如,高清多媒体接口(HDMI)1772、通用串行总线(USB)1774、光学接口1776或超小型(D-sub)1778。接口1770可被包括在例如图1中示出的通信接口160中。额外地或可选地,接口1770可包括例如移动高清连接(MHL)接口、安全数字(SD)卡/多媒体卡(MMC)接口或红外数据协会(IrDA)标准接口。
音频模块1780可对声音和电信号进行双向转换。音频模块1780的至少一些元件可被包括在例如图1中示出的输入/输出接口140中。音频模块1780可处理通过例如扬声器1782、接收器1784、耳机1786、麦克风1788等输入或输出的声音信息。
相机模块1791是可拍摄静止图像或视频的装置。根据实施例,相机模块1791可包括一个或更多个图像传感器(例如,前置传感器或后置传感器)、镜头(未示出)、图像信号处理器(ISP)(未示出)或闪光灯(未示出,例如,LED或氙灯)。
电源管理模块1795可管理电子装置1701的电力。虽然未示出,但是电源管理模块1795可包括例如电源管理集成电路(PMIC)、充电集成电路(IC)或者电池或电量表。
PMIC可被安装在例如集成电路或SoC半导体内。充电方法可被分成有线充电方法和无线充电方法。充电IC可对电池充电并对充电器进行过电压保护或过电流保护。根据实施例,充电IC可包括针对无线充电方法和有线充电方法中的至少一种方法的充电IC。无线充电的实例可包括磁共振充电、磁感应充电和电磁充电,并且可为无线充电增加诸如环形线圈、谐振电路和整流器的额外电路。
电池电量表可测量例如电池的剩余电量、充电电压和电流或者温度。电池1796可存储或产生电力并可通过使用存储或产生的电力向电子装置1701供电。电池1796可包括例如可再充电电池或太阳能电池。
指示器1791可显示电子装置1701或电子装置1701的一部分(例如,AP 1710)的特定状态、启动状态、消息状态、充电状态等。电机1798可将电信号转换成机械振动。虽然未示出,但是电子装置1701可包括用于指示移动TV的处理装置(例如,GPU)。用于指示移动TV的处理装置可根据数字多媒体播放(DMB)、数字视频播放(DVB)、媒体流等的标准来处理媒体数据。
根据本发明的各种实施例的电子装置的上述组件可由一个或更多个组件形成,可根据电子装置的类型而改变相应组成元件的名称。根据本发明的电子装置可包括前述组件中的一个或更多个组件或者还可包括其它额外组件,或者可省略前述组件中的一些组件。另外,根据本发明的各种实施例的电子装置的组件中的一些组件可被组合以形成单个实体,并且因此可等效地执行组合前的相应元件的功能。
在本发明的各种实施例中使用的术语“模块”可指示例如包括硬件、软件和固件的一个或更多个组合的单元。“模块”可与诸如单元、逻辑、逻辑块、组件、或电路的术语互换。“模块”可以是集成组件或集成组件的一部分的最小单元。“模块”可以是执行一个或更多个功能或一部分功能的最小单元。可在机械上或在电学上实现“模块”。例如,根据本发明的各种实施例的“模块”可包括用于执行已知的操作或此后将被开发出的应用专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑装置。
根据各种实施例,根据本发明的各种实施例的装置(例如,模块及其功能)或方法(例如,操作)中的至少一些可被实现为例如编程模块的形式的存储指令的计算机可读存储介质。当一个或更多个处理器(例如,处理器210)执行命令时,所述一个或更多个处理器可执行与命令相应的功能。计算机可读存储介质可以是例如存储器130。可由例如处理器210来实现(例如,执行)编程模块中的至少一些模块。编程模块的至少一部分可例如包括用于执行至少一个功能的模块、程序、例程、指令集或进程。
计算机可读存储介质可包括磁介质(诸如硬盘、软盘和磁带)、光学介质(诸如压缩盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光介质(诸如软光盘)以及被专门配置为存储并执行程序命令的硬盘驱动器(诸如,只读存储器(ROM)、随机访问存储器(RAM)和闪存)。此外,程序指令可包括可通过使用解释器在计算机中执行的高级语言代码以及由编译器做出的机器码。前述硬盘驱动器可被配置为作为一个或更多个软件模块,以便执行本发明的各种实施例的操作,反之亦可。
根据本发明的模块或编程模块可包括描述的组成元件中的至少一个组成元件,可省略一些组成元件或者可包括额外的组成元件。由根据本发明的各种实施例的模块、编程模块或其它组成元件执行的操作可被顺序、并行、重复或以启发的方式被执行。另外,可以以不同的顺序执行一些操作或可省略一些操作或可增加其它操作。
根据各种实施例,提供了在其中存储有命令的存储介质。命令被配置为当命令被执行时允许一个或更多个处理器执行一个或更多个操作。所述一个或更多个操作可包括以下操作:由第一语音识别装置和第二语音识别装置中的至少一个装置来获取第一语音;当由第一语音识别装置获取的第一语音包括预定命令时通过外部电子装置识别额外识别的第二语音;当由第二语音识别装置获取的第一语音包括预定命令时识别额外识别的第二语音;基于识别的第二语音执行相关操作。
根据各种实施例,提供了在其中存储有命令的存储介质。所述命令被配置为当命令被执行时允许一个或更多个处理器执行一个或更多个操作。所述一个或更多个操作可包括以下操作:执行预定应用;由第一语音识别装置和第二语音识别装置中的至少一个装置为应用获取第一语音;当由第一语音识别装置获取的第一语音包括预定命令时,通过外部电子装置识别额外识别的第二语音;当由第二语音识别装置获取的第一语音包括预定命令时,通过外部电子装置识别额外识别的第二语音。
在说明书和服务中公开的本发明的实施例仅是为了容易描述本发明的技术主题并帮助理解本发明而提出的特定实例。因此,除了在此公开的实施例之外,本发明的各种实施例的范围应被理解为包括基于本发明的各种实施例的技术构思而描绘的所有修改或修改的形式。
Claims (18)
1.一种由包括第一语音识别装置和第二语音识别装置的电子装置执行语音识别的方法,所述方法包括:
当没有从电子装置输出音频信号时,由电子装置的第一语音识别装置接收第一语音;
当从电子装置输出音频信号时,由电子装置的第二语音识别装置接收第一语音;
当第一语音被第一语音识别装置接收到并且第一语音识别装置在第一语音中识别出预定命令时,将第二语音发送到外部电子装置并从外部电子装置接收发送的第二语音的识别结果;
当第一语音被第二语音识别装置接收到并且第二语音识别装置在第一语音中识别出所述预定命令时,由第二语音识别装置在第二语音中识别第二命令,并基于识别出的第二命令来执行操作。
2.如权利要求1所述的方法,还包括:基于由外部电子装置识别的第二语音来执行操作。
3.如权利要求1所述的方法,还包括:
当第一语音被第一语音识别装置接收到并且第一语音识别装置未在第一语音中识别出所述预定命令时,将第一语音传送到第二语音识别装置;
当第一语音被传送到第二语音识别装置时,第二语音识别装置在第一语音中识别所述预定命令,并且当第二语音识别装置在第二语音中识别出第二命令时,基于识别出的第二命令来执行操作。
4.如权利要求3所述的方法,还包括:
当第一语音被传送到第一语音识别装置时,第一语音识别装置在第一语音中识别所述预定命令,并且当第二语音被传送到第一语音识别装置时,将第二语音传送到第三语音识别装置;
基于由第三语音识别装置识别的第二语音来执行操作。
5.一种由包括第一语音识别装置和第二语音识别装置的电子装置来执行语音识别的方法,所述方法包括:
执行预定应用;
当没有从电子装置输出音频信号时,由电子装置的第一语音识别装置接收针对所述应用的第一语音;
当从电子装置输出音频信号时,由电子装置的第二语音识别装置接收针对所述应用的第一语音;
当对于第一语音的语音识别能够被第一语音识别装置执行并且第一语音识别装置在第一语音中识别出预定命令时,将第二语音发送到外部电子装置并从外部电子装置接收发送的第二语音的识别结果;
当第一语音被第二语音识别装置接收到时,并且当第二语音识别装置在第一语音中识别出所述预定命令时,由第二语音识别装置在第二语音中识别第二命令,并基于识别出的第二命令来执行操作。
6.如权利要求5所述的方法,还包括:当对于第一语音的语音识别能够被第一语音识别装置执行并且第一语音识别装置未在第一语音中识别出所述预定命令时,基于另一命令来执行操作。
7.如权利要求5所述的方法,还包括:当第二语音识别装置未在第一语音中识别出所述预定命令时,基于另一命令来执行操作。
8.如权利要求5所述的方法,还包括:
由第三语音识别装置来识别第二语音;
当与第二语音相关的命令被包括在命令集中时,基于第二语音来更新命令集。
9.如权利要求7所述的方法,还包括:当与第二语音相关的命令未被包括在命令集中并且存在与第二语音相关的装置功能时,基于第二语音来更新与第二语音相关的装置功能。
10.一种电子装置,包括:
第一语音识别装置;
第二语音识别装置;
处理器,被配置为:
当没有从电子装置输出音频信号时,控制第一语音识别装置接收第一语音,
当从电子装置输出音频信号时,控制第二语音识别装置接收第一语音,
当第一语音被第一语音识别装置接收到并且第一语音识别装置在第一语音中识别出预定命令时,将第二语音发送到外部电子装置并从外部电子装置接收第二语音的识别结果,
当第一语音被第二语音识别装置接收到并且第二语音识别装置在第一语音中识别出所述预定命令时,使用第二语音识别装置在第二语音中识别第二命令,并基于识别出的第二命令来执行操作。
11.如权利要求10所述的电子装置,其中,第一语音识别装置基于由外部电子装置识别的第二语音来执行操作。
12.如权利要求10所述的电子装置,其中,当第一语音被第一语音识别装置接收到并且第一语音识别装置未在第一语音中识别出所述预定命令时,第一语音识别装置将第一语音传送到第二语音识别装置;
其中,当第一语音被传送到第二语音识别装置,第二语音识别装置在第一语音中识别出所述预定命令,并且第二语音识别装置在第二语音中识别出第二命令时,第二语音识别装置基于识别出的第二命令来执行操作。
13.如权利要求12所述的电子装置,其中,当第一语音被传送到第二语音识别装置,第二语音识别装置在第一语音中识别出所述预定命令,并且第二语音识别装置未在第二语音中识别出第二命令时,第二语音识别装置将第二语音传送到第三语音识别装置,并基于由第三语音识别装置识别的第二语音来执行操作。
14.一种电子装置,包括:
第一语音识别装置;
第二语音识别装置;
处理器,被配置为:
执行预定应用,
当没有从电子装置输出音频信号时,控制第一语音识别装置接收第一语音,当从电子装置输出音频信号时,控制第二语音识别装置接收第一语音,
当对于第一语音的语音识别能够被第一语音识别装置执行并且第一语音识别装置在第一语音中识别出预定命令时,将第二语音发送到外部电子装置并从外部电子装置接收第二语音的识别结果;
当第一语音被第二语音识别装置接收到并且第二语音识别装置执行语音识别时,并且当第二语音识别装置在第一语音中识别出所述预定命令时,使用第二语音识别装置在第二语音中识别第二命令,并基于识别出的第二命令来执行操作。
15.如权利要求14所述的电子装置,其中,当对于第一语音的语音识别能够被第一语音识别装置执行并且第一语音识别装置未在第一语音中识别出所述预定命令时,第一语音识别装置基于另一命令来执行操作。
16.如权利要求14所述的电子装置,其中,当第二语音识别装置未在第一语音中识别出所述预定命令时,第一语音识别装置基于另一命令来执行操作。
17.如权利要求14所述的电子装置,还包括:第三语音识别装置,确定与第二语音相关的命令是否被包括在命令集中,并且当与第二语音相关的命令被包括在命令集中时,基于第二语音来更新命令集。
18.如权利要求17所述的电子装置,其中,当与第二语音相关的命令未被包括在命令集中并且存在与第二语音相关的装置功能时,第三语音识别装置基于第二语音来更新与第二语音相关的装置功能。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20130101411 | 2013-08-26 | ||
KR10-2013-0101411 | 2013-08-26 | ||
PCT/KR2014/007951 WO2015030474A1 (ko) | 2013-08-26 | 2014-08-26 | 음성 인식을 위한 전자 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105493180A CN105493180A (zh) | 2016-04-13 |
CN105493180B true CN105493180B (zh) | 2019-08-30 |
Family
ID=52586943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480047495.1A Active CN105493180B (zh) | 2013-08-26 | 2014-08-26 | 用于语音识别的电子装置和方法 |
Country Status (5)
Country | Link |
---|---|
US (3) | US10192557B2 (zh) |
EP (1) | EP3040985B1 (zh) |
KR (1) | KR102394485B1 (zh) |
CN (1) | CN105493180B (zh) |
WO (1) | WO2015030474A1 (zh) |
Families Citing this family (128)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105493180B (zh) * | 2013-08-26 | 2019-08-30 | 三星电子株式会社 | 用于语音识别的电子装置和方法 |
KR102179506B1 (ko) * | 2013-12-23 | 2020-11-17 | 삼성전자 주식회사 | 전자장치 및 그 제어방법 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
CN106471570B (zh) | 2014-05-30 | 2019-10-01 | 苹果公司 | 多命令单一话语输入方法 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
KR102208477B1 (ko) * | 2014-06-30 | 2021-01-27 | 삼성전자주식회사 | 마이크 운용 방법 및 이를 지원하는 전자 장치 |
FR3030177B1 (fr) * | 2014-12-16 | 2016-12-30 | Stmicroelectronics Rousset | Dispositif electronique comprenant un module de reveil d'un appareil electronique distinct d'un coeur de traitement |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10074364B1 (en) * | 2016-02-02 | 2018-09-11 | Amazon Technologies, Inc. | Sound profile generation based on speech recognition results exceeding a threshold |
JP2019518985A (ja) * | 2016-05-13 | 2019-07-04 | ボーズ・コーポレーションBose Corporation | 分散したマイクロホンからの音声の処理 |
KR20170136759A (ko) * | 2016-06-02 | 2017-12-12 | 엘지전자 주식회사 | 홈 오토메이션 시스템 및 그 제어방법 |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10931999B1 (en) * | 2016-06-27 | 2021-02-23 | Amazon Technologies, Inc. | Systems and methods for routing content to an associated output device |
US10271093B1 (en) * | 2016-06-27 | 2019-04-23 | Amazon Technologies, Inc. | Systems and methods for routing content to an associated output device |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
KR102575634B1 (ko) * | 2016-07-26 | 2023-09-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
US10540441B2 (en) | 2016-10-21 | 2020-01-21 | Samsung Electronics Co., Ltd. | Device and method for providing recommended words for character input |
KR102417046B1 (ko) * | 2016-10-21 | 2022-07-06 | 삼성전자주식회사 | 사용자로부터 입력된 문자에 대한 추천 단어를 제공하는 디바이스 및 방법 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
US10580402B2 (en) | 2017-04-27 | 2020-03-03 | Microchip Technology Incorporated | Voice-based control in a media system or other voice-controllable sound generating system |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) * | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10607606B2 (en) * | 2017-06-19 | 2020-03-31 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for execution of digital assistant |
KR101910385B1 (ko) * | 2017-06-22 | 2018-10-22 | 엘지전자 주식회사 | 차량에 구비된 차량 제어 장치 및 차량의 제어방법 |
GB2578386B (en) | 2017-06-27 | 2021-12-01 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
WO2019035504A1 (ko) * | 2017-08-16 | 2019-02-21 | 엘지전자 주식회사 | 이동 단말기 및 그 제어 방법 |
KR102411766B1 (ko) * | 2017-08-25 | 2022-06-22 | 삼성전자주식회사 | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 |
CN107590096B (zh) * | 2017-08-31 | 2021-06-15 | 联想(北京)有限公司 | 用于电子设备中处理器的方法和处理器 |
KR20190033384A (ko) * | 2017-09-21 | 2019-03-29 | 삼성전자주식회사 | 사용자 발화를 처리하기 위한 전자 장치 및 그 전자 장치의 제어 방법 |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
US10665234B2 (en) * | 2017-10-18 | 2020-05-26 | Motorola Mobility Llc | Detecting audio trigger phrases for a voice recognition session |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
KR102071865B1 (ko) * | 2017-11-30 | 2020-01-31 | 주식회사 인텔로이드 | 서버인식 결과를 이용하여 호출어를 인식하는 장치 및 방법 |
US11182122B2 (en) * | 2017-12-08 | 2021-11-23 | Amazon Technologies, Inc. | Voice control of computing devices |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
KR102459920B1 (ko) | 2018-01-25 | 2022-10-27 | 삼성전자주식회사 | 저전력 에코 제거를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
KR102592769B1 (ko) | 2018-07-20 | 2023-10-24 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
CN112334977A (zh) * | 2018-08-14 | 2021-02-05 | 华为技术有限公司 | 一种语音识别方法、可穿戴设备及系统 |
JP7167554B2 (ja) * | 2018-08-29 | 2022-11-09 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
JP7009338B2 (ja) * | 2018-09-20 | 2022-01-25 | Tvs Regza株式会社 | 情報処理装置、情報処理システム、および映像装置 |
US11315553B2 (en) | 2018-09-20 | 2022-04-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
JP7202853B2 (ja) * | 2018-11-08 | 2023-01-12 | シャープ株式会社 | 冷蔵庫 |
JP7023823B2 (ja) | 2018-11-16 | 2022-02-22 | アルパイン株式会社 | 車載装置及び音声認識方法 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
JP7225876B2 (ja) * | 2019-02-08 | 2023-02-21 | 富士通株式会社 | 情報処理装置、演算処理装置および情報処理装置の制御方法 |
US11741529B2 (en) * | 2019-02-26 | 2023-08-29 | Xenial, Inc. | System for eatery ordering with mobile interface and point-of-sale terminal |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
CN110223696B (zh) * | 2019-05-22 | 2024-04-05 | 平安科技(深圳)有限公司 | 一种语音信号的采集方法、装置及终端设备 |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110427097A (zh) * | 2019-06-18 | 2019-11-08 | 华为技术有限公司 | 语音数据处理方法、装置及系统 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
KR20210066647A (ko) * | 2019-11-28 | 2021-06-07 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
DE102020200067A1 (de) * | 2020-01-07 | 2021-07-08 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zum Bedienen von Sprachassistenten |
KR20210136463A (ko) | 2020-05-07 | 2021-11-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
KR20220142757A (ko) * | 2021-04-15 | 2022-10-24 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 객체의 근접 여부를 판단하는 방법 |
KR20230017971A (ko) * | 2021-07-28 | 2023-02-07 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1365487A (zh) * | 1999-06-24 | 2002-08-21 | 西门子公司 | 语音识别的方法和装置 |
CN1158645C (zh) * | 1998-10-16 | 2004-07-21 | 艾利森电话股份有限公司 | 到服务应用程序上的用户接口的声音控制 |
CN1723487A (zh) * | 2002-12-13 | 2006-01-18 | 摩托罗拉公司 | 用于选择性语音识别的方法和装置 |
CN103198831A (zh) * | 2013-04-10 | 2013-07-10 | 威盛电子股份有限公司 | 语音操控方法与移动终端装置 |
Family Cites Families (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9415930D0 (en) | 1994-08-04 | 1994-09-28 | Forbo Nairn Ltd | Floor coverings |
US6070140A (en) | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US7174299B2 (en) * | 1995-08-18 | 2007-02-06 | Canon Kabushiki Kaisha | Speech recognition system, speech recognition apparatus, and speech recognition method |
US5855000A (en) * | 1995-09-08 | 1998-12-29 | Carnegie Mellon University | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input |
WO2000058942A2 (en) * | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
JP2000322078A (ja) | 1999-05-14 | 2000-11-24 | Sumitomo Electric Ind Ltd | 車載型音声認識装置 |
US6963759B1 (en) * | 1999-10-05 | 2005-11-08 | Fastmobile, Inc. | Speech recognition technique based on local interrupt detection |
US20020046203A1 (en) | 2000-06-22 | 2002-04-18 | The Sony Corporation/Sony Electronics Inc. | Method and apparatus for providing ratings of web sites over the internet |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US6738743B2 (en) * | 2001-03-28 | 2004-05-18 | Intel Corporation | Unified client-server distributed architectures for spoken dialogue systems |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
JP2003241790A (ja) * | 2002-02-13 | 2003-08-29 | Internatl Business Mach Corp <Ibm> | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム |
DE10207895B4 (de) | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
US7392182B2 (en) * | 2002-12-18 | 2008-06-24 | Harman International Industries, Inc. | Speech recognition system |
US7418392B1 (en) * | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
US6889189B2 (en) * | 2003-09-26 | 2005-05-03 | Matsushita Electric Industrial Co., Ltd. | Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US20060085199A1 (en) * | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for controlling the behavior of a device capable of speech recognition |
EP1693828B1 (en) * | 2005-02-21 | 2008-01-23 | Harman Becker Automotive Systems GmbH | Multilingual speech recognition |
ATE449403T1 (de) * | 2005-12-12 | 2009-12-15 | Gregory John Gadbois | Mehrstimmige spracherkennung |
US8234120B2 (en) * | 2006-07-26 | 2012-07-31 | Nuance Communications, Inc. | Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities |
US8099287B2 (en) * | 2006-12-05 | 2012-01-17 | Nuance Communications, Inc. | Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands |
US20110054900A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application |
WO2009081895A1 (ja) * | 2007-12-25 | 2009-07-02 | Nec Corporation | 音声認識システム、音声認識方法、および音声認識用プログラム |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
KR20100032140A (ko) | 2008-09-17 | 2010-03-25 | 주식회사 현대오토넷 | 대화형 음성인식방법 및 음성인식장치 |
WO2010078386A1 (en) * | 2008-12-30 | 2010-07-08 | Raymond Koverzin | Power-optimized wireless communications device |
US8892439B2 (en) * | 2009-07-15 | 2014-11-18 | Microsoft Corporation | Combination and federation of local and remote speech recognition |
US8311820B2 (en) * | 2010-01-28 | 2012-11-13 | Hewlett-Packard Development Company, L.P. | Speech recognition based on noise level |
KR101699720B1 (ko) * | 2010-08-03 | 2017-01-26 | 삼성전자주식회사 | 음성명령 인식 장치 및 음성명령 인식 방법 |
KR101192813B1 (ko) * | 2010-12-14 | 2012-10-26 | (주)이엔엠시스템 | 대기 상태에서 저주파 영역 음향에 대해서 음성인식을 수행하는 음성인식 시스템 및 그 제어방법 |
US10049669B2 (en) * | 2011-01-07 | 2018-08-14 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US8996381B2 (en) | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US8972263B2 (en) * | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
KR101590332B1 (ko) * | 2012-01-09 | 2016-02-18 | 삼성전자주식회사 | 영상장치 및 그 제어방법 |
US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
US9959865B2 (en) * | 2012-11-13 | 2018-05-01 | Beijing Lenovo Software Ltd. | Information processing method with voice recognition |
US9875741B2 (en) * | 2013-03-15 | 2018-01-23 | Google Llc | Selective speech recognition for chat and digital personal assistant systems |
US9538114B2 (en) * | 2013-02-22 | 2017-01-03 | The Directv Group, Inc. | Method and system for improving responsiveness of a voice recognition system |
US20140270260A1 (en) * | 2013-03-13 | 2014-09-18 | Aliphcom | Speech detection using low power microelectrical mechanical systems sensor |
CN105190607B (zh) * | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
US20140297288A1 (en) * | 2013-03-29 | 2014-10-02 | Orange | Telephone voice personal assistant |
US9058805B2 (en) * | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
CN105493180B (zh) * | 2013-08-26 | 2019-08-30 | 三星电子株式会社 | 用于语音识别的电子装置和方法 |
US9245527B2 (en) * | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US20150169285A1 (en) * | 2013-12-18 | 2015-06-18 | Microsoft Corporation | Intent-based user experience |
US20150221307A1 (en) * | 2013-12-20 | 2015-08-06 | Saurin Shah | Transition from low power always listening mode to high power speech recognition mode |
WO2015116151A1 (en) * | 2014-01-31 | 2015-08-06 | Hewlett-Packard Development Company, L.P. | Voice input command |
US9378740B1 (en) * | 2014-09-30 | 2016-06-28 | Amazon Technologies, Inc. | Command suggestions during automatic speech recognition |
US9775113B2 (en) * | 2014-12-11 | 2017-09-26 | Mediatek Inc. | Voice wakeup detecting device with digital microphone and associated method |
CN107134279B (zh) * | 2017-06-30 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
-
2014
- 2014-08-26 CN CN201480047495.1A patent/CN105493180B/zh active Active
- 2014-08-26 EP EP14840410.6A patent/EP3040985B1/en active Active
- 2014-08-26 US US14/915,068 patent/US10192557B2/en active Active
- 2014-08-26 KR KR1020167007691A patent/KR102394485B1/ko active IP Right Grant
- 2014-08-26 WO PCT/KR2014/007951 patent/WO2015030474A1/ko active Application Filing
-
2019
- 2019-01-28 US US16/259,506 patent/US11158326B2/en active Active
-
2021
- 2021-10-25 US US17/509,403 patent/US20220044690A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1158645C (zh) * | 1998-10-16 | 2004-07-21 | 艾利森电话股份有限公司 | 到服务应用程序上的用户接口的声音控制 |
CN1365487A (zh) * | 1999-06-24 | 2002-08-21 | 西门子公司 | 语音识别的方法和装置 |
CN1723487A (zh) * | 2002-12-13 | 2006-01-18 | 摩托罗拉公司 | 用于选择性语音识别的方法和装置 |
CN103198831A (zh) * | 2013-04-10 | 2013-07-10 | 威盛电子股份有限公司 | 语音操控方法与移动终端装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3040985A4 (en) | 2017-04-26 |
KR20160055162A (ko) | 2016-05-17 |
US20220044690A1 (en) | 2022-02-10 |
US20160217795A1 (en) | 2016-07-28 |
US20190228781A1 (en) | 2019-07-25 |
EP3040985A1 (en) | 2016-07-06 |
WO2015030474A1 (ko) | 2015-03-05 |
CN105493180A (zh) | 2016-04-13 |
KR102394485B1 (ko) | 2022-05-06 |
US10192557B2 (en) | 2019-01-29 |
US11158326B2 (en) | 2021-10-26 |
EP3040985B1 (en) | 2023-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105493180B (zh) | 用于语音识别的电子装置和方法 | |
CN104821612B (zh) | 充电电路及具有充电电路的电子设备 | |
CN107077464B (zh) | 电子设备和用于其口头交互的方法 | |
CN105654952B (zh) | 用于输出语音的电子设备、服务器和方法 | |
CN108829235A (zh) | 语音数据处理方法和支持该方法的电子设备 | |
US10706847B2 (en) | Method for operating speech recognition service and electronic device supporting the same | |
US10811008B2 (en) | Electronic apparatus for processing user utterance and server | |
CN108121490A (zh) | 用于处理多模式输入的电子装置、方法和服务器 | |
CN107924288A (zh) | 电子设备及其使用语音识别来执行功能的方法 | |
CN108702480A (zh) | 电子设备和用于驱动其显示器的方法 | |
CN104954960A (zh) | 调整助听器声音的方法、执行该方法的助听器和电子装置 | |
KR102416782B1 (ko) | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 | |
KR20160001965A (ko) | 음성 명령어 제공 방법 및 이를 지원하는 전자 장치 | |
US11537360B2 (en) | System for processing user utterance and control method of same | |
KR102389996B1 (ko) | 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법 | |
US11170764B2 (en) | Electronic device for processing user utterance | |
CN109474658A (zh) | 用外部设备支持任务运行的电子设备、服务器和记录介质 | |
KR20190109916A (ko) | 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버 | |
CN107800865A (zh) | 电子设备和在低功率状态下显示时间信息的方法 | |
US11915700B2 (en) | Device for processing user voice input | |
US20200075008A1 (en) | Voice data processing method and electronic device for supporting same | |
CN104950739A (zh) | 电子设备、音频设备以及将电能供给至音频设备的方法 | |
US20180285881A1 (en) | Device and method for performing payment using utterance | |
US10908763B2 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
CN106471493A (zh) | 用于管理数据的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |