CN105632491B

CN105632491B - 用于语音识别的方法和电子装置

Info

Publication number: CN105632491B
Application number: CN201510757071.0A
Authority: CN
Inventors: 李泰珍; 李相勋; 撒布霍吉特·查克拉达尔
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-11-26
Filing date: 2015-11-09
Publication date: 2020-07-21
Anticipated expiration: 2035-11-09
Also published as: US9779732B2; CN105632491A; US20160148615A1; KR20160064258A; KR102299330B1; EP3026667B1; WO2016085157A1; EP3026667A1

Abstract

公开了一种用于语音识别的方法和电子装置。语音识别方法包括：使用低功耗模式在第一处理器中识别通过麦克风输入的语音信号；如果识别的语音信号是先前设置的关键字，则进入第二处理器的激活状态并在第二处理器中执行语音记录；如果在语音记录期间确定语音输入结束，则在第二处理器中执行语音识别。

Description

用于语音识别的方法和电子装置

技术领域

本发明涉及一种用于语音识别的方法和电子装置。

背景技术

诸如智能电话和平板个人计算机(PC)的电子装置被广泛使用。在其它能力中，电子装置能够识别由用户通过麦克风输入的语音信号，显示与语音信号相应的文本，并执行各种功能。

即使当为了节能的目的通过关闭显示器(如液晶显示器(LCD))来激活睡眠模式时，电子装置仍然能够识别由用户通过麦克风输入的语音信号，并能确定该语音信号是否是先前设置的关键字。

如果用户的语音信号是先前设置的关键字，则电子装置能解除睡眠模式并同时激活显示器的开启状态，然后执行将由用户通过麦克风输入的语音信号识别为命令或文本的语音识别操作。

语音识别操作可以通过电子装置和通过网络提供实时语音识别服务的服务器之间的数据通信来执行。但是，传统的语音识别方法不够准确，给用户带来很大不便。因此，本领域需要能够提高电子装置中的语音识别的准确度的有效解决办法。

发明内容

因此，作出本发明以解决至少以上描述的问题和/或缺点，并提供至少以下描述的优点。

因此，本发明的一个方面在于提供一种用于语音识别的方法和用于执行该方法的电子装置，所述方法使电子装置能准确地识别通过麦克风输入的用户语音信号。

本发明的另一个方面在于提供一种用于语音识别的方法和用于执行该方法的电子装置，当电子装置在睡眠模式下识别通过麦克风输入的用户语音信号时，所述方法防止干扰语音识别的环境噪声的影响，从而提高语音识别的准确度。

根据本发明的一个方面，一种在电子装置中用于语音识别的方法包括：在电子装置的低功率模式下使用时钟在第一处理器中识别通过麦克风输入的语音信号；如果识别的语音信号是先前设置的关键字，则进入第二处理器的激活状态并在第二处理器中执行语音信号的语音记录；如果在语音记录期间确定语音输入结束，则在第二处理器中执行语音识别，其中，在确定语音输入结束之后，第一处理器的时钟被改变为更高频率的时钟。

根据本发明的一个方面，一种电子装置包括：麦克风，接收语音信号的输入；第一处理器，对语音信号进行信号处理；第二处理器，识别语音信号，其中，第一处理器在电子装置的睡眠模式下使用时钟来识别通过麦克风输入的语音信号，其中，如果被第一处理器识别的语音信号是先前设置的关键字，则第二处理器从空闲状态进入激活状态并执行语音记录，其中，如果在语音记录期间确定语音输入结束，则第二处理器将第一处理器的时钟改变为更高频率的时钟。

根据本发明的一个方面，公开了一种其上记录用于执行在电子装置中用于语音识别的方法的程序的非暂时性计算机可读存储介质，所述方法包括：在于电子装置功率耗模式下使用时钟在第一处理器中识别通过麦克风输入的语音信号；如果识别的语音信号是先前设置的关键字，则进入第二处理器的激活状态并在第二处理器中执行语音信号的语音记录；如果在语音记录期间确定语音输入结束，则在第二处理器中执行语音识别，其中，在确定语音输入结束之后，第一处理器的时钟被改变为更高频率的时钟。

附图说明

本发明的以上和其它方面、特征以及优点将通过以下结合附图的详细描述变得更为清楚，在附图中：

图1示出了根据本发明的实施例的电子装置的网络环境；

图2是示出根据本发明的实施例的电子装置的方框图；

图3示出了根据本发明的实施例的执行用于语音识别的方法的电子装置的部分结构；

图4示出了根据本发明的实施例的应用用于语音识别的方法的电子装置的操作时序；

图5示出了根据本发明的实施例的静音时间设置表。

图6示出了根据本发明的实施例的应用用于语音识别的方法的电子装置的另一操作时序。

图7是示出根据本发明的实施例的在电子装置中用于语音识别的方法的操作的流程图。

具体实施方式

以下将参照附图描述本发明的实施例。在本发明的描述中，为了清楚和简明，公知的功能或结构没有被详细描述。

图1示出了根据本发明的实施例的电子装置的网络环境。

参照图1，电子装置的网络环境100包括电子装置101(诸如智能电话和平板PC)、外部电子装置102、外部电子装置104和服务器106。外部电子装置102在短距离内与电子装置101进行通信。外部电子装置104和服务器106在长距离内通过网络162与电子装置101进行通信。

电子装置101包括总线110、处理器120、存储器130、输入/输出接口150、显示器160和通信接口170。总线110包括将组成元件相互连接并在这些组成元件之间转发通信消息或数据的电路。

处理器120包括中央处理单元(CPU)、应用处理器(AP)和通信处理器(CP)中的任何一个或更多个，并执行关于电子装置101的至少一个组成元件的控制或通信的操作或数据处理。

例如，处理器120进行控制以通过与构造近端网络的其它电子装置同步且属于近端网络的群集的通信部分来交换数据。在此，通信部分被表示为符合邻域网(NAN)通信标准的发现窗口(DW)。

存储器130包括易失性和/或非易失性存储器，存储关于电子装置101的至少一个其它组成元件的指令或数据，并存储软件和/或程序140。

程序140包括内核141、中间件143、应用程序接口(API)145和应用147。一个或更多个内核141、中间件143和API 145可被表示为操作系统(OS)。

内核141控制或管理系统资源，如总线110、处理器120或存储器130，所述系统资源用于执行在其它程序(如中间件143、API 145或应用程序147)中实施的操作或功能。

中间件143执行使API 145或应用程序147与内核141进行通信和交换数据的中继作用。

API 145是使应用147能够控制由内核141或中间件143提供的功能的接口，它包括用于文件控制、窗口控制、图片处理或字符控制的至少一个接口或功能。

输入/输出接口150执行转发指令或数据到电子装置101的其它组成元件，所述指令或数据由用户输入或从其它外部电子装置输入。

显示器160可以是包括触摸屏的LCD、发光二极管(LED)或有机发光二极管(OLED)显示器。显示器160接收来自于电子笔或用户的手指的诸如触摸、手势或者接近输入或悬停输入。

通信接口170在电子装置101和外部电子装置102、104或服务器106之间创建通信。例如，通信接口170通过无线通信或有线通信连接到网络162，并与外部电子装置104和服务器106进行通信。

无线通信的类型包括：例如，长期演进技术(LTE)、高级长期演进技术(LTE-A)、码分多址(CDMA)、宽带码分多址(WCDMA)、通用移动通讯系统(UMTS)、无线宽带(WiBro)以及全球移动通信系统(GSM)中的至少一个。有线通信包括：例如，通用串行总线(USB)、高清晰度多媒体接口(HDMI)、232号推荐标准(RS-232)以及简易老式电话服务(POTS)中的至少一个。

网络162包括：例如，电信网络、计算机网络(即局域网(LAN)或广域网(WAN))、互联网以及电话网中的至少一个。

图2是示出根据本发明的实施例的电子装置的方框图。

参照图2，电子装置201包括一个或更多个应用处理器(AP)210、通信模块220、用户识别模块(SIM)卡224、存储器230、传感器模块240、输入装置250、显示器260、接口270、音频模块280、相机模块291、电源管理模块295、电池296、指示器297以及电动机298。

AP 210运行操作系统或应用程序以控制连接到AP 210的多个硬件或软件组成元件，并执行数据的处理和操作。AP 210可以被实现片上系统(SoC),并且还可包括图形处理单元(GPU)。

AP 210包括图2中示出的元件中的至少一些元件，并将从非易失性存储器接收的指令或数据加载到易失性存储器，处理这些指令或数据，并将数据存储在非易失性存储器中。

通信模块220以与图1的通信接口170类似的方式被构建。通信模块220包括蜂窝模块221、Wi-Fi模块223、蓝牙(BT)模块225、全球定位系统(GPS)模块227、近场通信(NFC)模块228以及射频(RF)模块229。

例如，蜂窝模块221通过电信网络提供语音电话、视频电话以及文本和网络服务。蜂窝模块221在电信网络内使用SIM卡224来执行电子装置201的区分和授权。蜂窝模块221执行AP 210提供的功能中的至少一些功能，并包括通信处理器(CP)。

Wi-Fi模块223、BT模块225、GPS模块227和NFC模块228中的每个都可包括用于处理通过相应的模块发送/接收的数据的处理器，并且通信模块220中的至少两个模块可以被包括在一个集成电路(IC)或IC封装内。

RF模块229发送/接收RF通信信号，并包括收发器、功率放大器模块(PAM)、频率滤波器、低噪声放大器(LNA)或者天线。通信模块220中的至少一个模块可以通过独立的RF模块发送/接收RF信号。

SIM卡224可以是嵌入式SIM。SIM卡224包括唯一的标识信息(如集成电路卡ID(ICCID))或用户信息(如国际移动用户识别码(IMSI))。

存储器230包括内部存储器232和外部存储器234。传感器模块240测量电子装置201的物理量或者感测电子装置201的激活状态，以将测量或感测的信息转变成电子信号。

传感器模块240包括手势传感器240A、陀螺仪传感器240B、气压传感器240C、磁性传感器240D、加速度传感器240E、手握传感器240F、接近传感器240G、颜色传感器240H(如红绿蓝(RGB)传感器)、生物物理传感器240I、温度/湿度传感器240J、照度传感器240K以及紫外线(UV)传感器240M中的至少一个。

传感器模块240还可以包括电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、红外线(IR)传感器、虹膜传感器和/或指纹传感器。

输入装置250包括触摸面板252、(数字)笔传感器254、按键256和超声输入装置258。显示器260包括面板262、全息图装置264和投影仪266。

接口270包括高密度多媒体接口(HDMI)272、通用串行总线(USB)274、光学接口276和微型接口(D-sub)278。音频模块280交互式地转换语音和电子信号，并处理被通过扬声器282、接收器284、耳机286或麦克风288输入或输出的声音信息。

拍摄静止和运动图像的相机模块291包括一个或更多个图像传感器、镜头、图像信号处理器(ISP)和闪光灯(如LED或氙气灯)。

电源管理模块295管理电子装置201的电力，并且包括电源管理集成电路(PMIC)、充电IC和电池量表。

指示器297显示电子装置201的部分或全部的特定状态，诸如启动状态、消息状态或电源状态。电动机298将电信号转换为机械振动，并引起振动的效果。

图3示出了根据本发明的实施例的执行用于语音识别的方法的电子装置的部分结构。

参照图3，电子装置301包括应用处理器310、通信模块320、显示模块360、音频模块380和麦克风388。

电子装置301可以以各种操作模式(诸如正常模式或空闲模式)进行操作，并可以在用于最小化功耗的节能模式(如睡眠模式)下进行操作。例如，节能模式可以降低应用处理器310的操作速度。在此，睡眠模式代表用于减少功耗的操作模式，但是本发明并不限于此。

参照图3，如果电子装置301通过使用低功率进入节能模式，电子装置301关闭使用高功率的显示模块360，并将使用高频时钟(如千兆赫单位)的应用处理器310的状态转换为空闲状态。

为了在睡眠模式下识别用户通过麦克风388输入的语音信号，电子装置301驱动包括在音频模块380中的音频编解码器380a。音频编解码器380a可被看作是使用低功率的第一处理器，并且应用处理器310可被看作是使用高功率的第二处理器。

音频编解码器380a使用诸如以兆赫为单位的50兆赫(MHz)的低频时钟，并且相比于应用处理器310，音频编解码器380a被制造为低功耗的低功率芯片。

当应用处理器310处于空闲模式时，音频编解码器380a识别通过麦克风388输入的用户语音信号。例如，在睡眠模式下，音频编解码器380a使用50MHz的低频时钟来识别通过麦克风388输入的用户语音信号，并确定该用户语音信号是否与先前设置的特定语音信号一致。

例如，如果识别的用户语音信号是先前设置的特定关键字，则音频编解码器380a生成语音触发，使得语音识别操作由在应用处理器310中执行的至少一个或更多个应用来执行。

在这里，本领域技术人员将会清楚，音频编解码器380a除了执行用户语音识别操作之外，还可以将用户语音信号处理成音频信号并将音频信号输出到扬声器。

在音频编解码器380a产生语音触发之后，应用处理器310从空闲状态醒来，进入激活状态，并执行从音频编解码器380a接收通过麦克风388输入的用户语音信号并记录用户语音信号的语音记录操作。

如果在执行语音记录操作时用户语音信号的输入结束，则应用处理器310控制通信模块320的操作并与通过网络362提供语音识别服务的服务器306进行接口连接。应用处理器310可以执行语音识别操作，而不与服务器306进行接口连接。

应用处理器310通过与服务器306进行接口连接来接收与记录的用户语音信号相应的文本或命令，并显示文本或者执行与命令相应的任意功能。

在电子装置301的睡眠模式下，识别通过麦克风388输入的用户的语音关键字，然后自动执行与无缝地输入的用户语音命令相应的任意功能的功能可以被称为“无缝唤醒”功能。

在一个实施例中，电子装置301在节能模式下识别语音触发，当语音触发被识别时记录语音输入，并且当记录结束时改变到正常模式。

图4示出了根据本发明的实施例的应用用于语音识别的方法的电子装置的操作时序。

参照图4，如果这种电子装置为了节能进入睡眠模式，则显示模块460进入关闭状态，应用处理器410进入空闲状态。

在睡眠模式下，音频编解码器480a使用例如50MHz的低频时钟来识别通过麦克风输入的用户语音信号400。如果通过麦克风输入的用户语音信号400与先前设置的关键字一致，则音频编解码器480a产生语音触发(t_trigger)。

如果音频编解码器480a产生了语音触发，则应用处理器410从空闲状态醒来，进入激活状态。例如，诸如0.5秒的预定的延迟时间(t_delay)流逝，直至应用处理器410被语音触发(t_trigger)由空闲状态唤醒到激活状态。

音频编解码器480a在预定的延迟时间(t_delay)期间缓存通过麦克风输入的用户语音信号。如果应用处理器410变为激活，则音频编解码器480a将缓存的用户语音信号转发给应用处理器410。然后，音频编解码器480a将通过麦克风输入的用户语音信号实时转发给应用处理器410。

在应用处理器410变为激活之后，应用处理器410在监测用户语音信号的输入是否结束的同时，记录从音频编解码器480a转发的用户语音信号。

例如，当无用户语音信号输入的静音时间与预先设置的静音时间参考值0.5秒相一致时，应用处理器410确定静音时间点就是用户语音信号的输入的结束时间点(t_end)。

如果达到用户语音信号的输入的结束时间点(t_end)，则在控制通信模块的操作和通过网络连接服务器之后，应用处理器410将记录的用户语音信号发送到服务器，从服务器接收与用户语音信号相应的文本或命令，并显示接收到的文本或执行与接收到的命令相应的任意功能。

如果确定用户语音信号的输入结束，则应用处理器410将音频编解码器480a的50MHz的低频时钟改变为100MHz的高频时钟，从而使音频编解码器480a能够执行正常的音频信号处理操作。

如果确定用户语音信号的输入结束，则应用处理器410解除电子装置的睡眠模式，并同时将显示模块460的关闭状态转换为开启状态，从而使显示模块460正常地显示当前操作状态。

显示模块460从关闭状态转换到开启状态的时间点可以也是应用处理器410检测到用户语音信号的输入结束的时间点，或者是应用处理器410从空闲状态被唤醒进入激活状态的时间点。

根据本发明的实施例，如图4所示，由于音频编解码器480a的频率时钟被从50MHz的低频时钟改变为100MHz的高频时钟的时间点晚于应用处理器410完成语音记录操作的时间点，所以当应用处理器410执行语音记录操作时，由音频编解码器480a产生的毛刺噪声被防止引入。

图5示出了根据本发明的实施例的静音时间设置表。可根据以下因素不同地设置电子装置的应用处理器进行参考以检测用户语音信号的输入的结束的参考值的静音时间，所述因素包括：特定关键字、与特定关键字关联的应用、用户话语特征(如语速)和/或输入的语音信号的特征(如长度)。

应用处理器存储和管理图5的静音时间设置表500作为查找表信息，并且搜索和参考查找表信息来检测用户语音信号的输入的结束。静音时间设置表500以列表形式链接和存储一个或更多个关键字、与关键字关联的应用和与应用关联的静音时间。

静音时间设置表500的第一关键字510(关键字#1)可以是由电子装置的制造厂商指定的特定关键字。静音时间设置表500的第二关键字520(关键字#2)可以是由电子装置的用户指定的任意关键字。

第一关键字510(关键字#1)可被链接至标识信息，如关于应用(应用#1-1、#1-2、……)的应用ID，该标识信息用于利用第一关键字510的语音识别操。每个应用被链接至被设置为彼此相同或不同的参考值的静音时间。

第二关键字520(关键字#2)可被链接至关于应用(应用#2-1、#2-2、……)的标识信息(如应用id)，该标识信息用于利用第二关键字52的语音识别操作。每个应用被链接至被设置为彼此相同或不同的参考值的静音时间(如1.0秒、1.2秒、……)。

例如，当第一关键字510是由电子装置的制造厂商指定的特定关键字时，在输入第一关键字510之后，用户可输入能够被电子装置的制造厂商推荐或预测的定义的内容的语音信号。

例如，因为在输入第一关键字之后，用户极有可能简单地输入预定义的语音命令，如“执行相机”，所以被链接至第一关键字510的每个参考值的静音时间被设成相对较短的时间。

但是，当第二关键字520由电子装置的用户指定时，在输入第二关键字520之后，用户极有可能输入用户期望的任意语音命令。

例如，因为在输入第二关键字之后，用户极有可能输入较长且非预定义的语音命令，如“立即运行相机功能”，所以被链接至第二关键字520的每个参考值的静音时间被设成相对较长的时间。

因此，被链接至第一关键字510的每个参考值的静音时间短于被链接至第二关键字520的每个参考值的静音时间。以上描述是对本发明的实施例的说明，本发明并不限于此。

参照图6，如果电子装置为节能而进入睡眠模式，则显示模块660进入关闭状态，并且应用处理器610进入空闲状态。

在睡眠模式下，音频编解码器680a使用例如50MHz的低频时钟来识别通过麦克风输入的用户语音信号600。如果通过麦克风输入的用户语音信号600与先前设置的关键字一致，则音频编解码器680a产生语音触发(t_trigger)。

例如，如以上参照图5所述，关键字可以是由电子装置的用户任意指定的关键字#2。被链接至关键字#2的参考值的静音时间(静音2-1)(如1.0秒)长于被链接至由电子装置的制造厂商指定的关键字#1的参考值的静音时间(如静音1-1)(如0.5秒)。

如果音频编解码器680a产生了语音触发，则应用处理器610从空闲状态唤醒进入激活状态。例如，预定的延迟时间(t_delay)流逝，直至应用处理器610被唤醒到激活状态。

音频编解码器680a在预定的延迟时间(t_delay)期间缓存通过麦克风输入的用户语音信号。如果应用处理器610变为激活，则音频编解码器680a将缓存的用户语音信号高速转发给应用处理器610。然后，音频编解码器680a将通过麦克风输入的用户语音信号实时转发给应用处理器610。

在应用处理器610变为激活之后，应用处理器610在监测用户语音信号的输入是否结束的同时，执行记录从音频编解码器680a高速转发的用户语音信号和从音频编解码器680a实时转发的用户语音信号的语音记录操作。

例如，当无用户语音信号输入的静音时间与先前设置的参考值的第二静音时间(静音2-1)一致时，应用处理器610确定静音时间点就是用户语音信号的输入的结束时间点(t_end)。

如果是用户语音信号输入的结束时间点(t_end)，则在控制通信模块的操作和通过网络连接服务器之后，应用处理器610将记录的用户语音信号发送到服务器，从服务器接收与用户语音信号相应的文本或命令，并显示接收的文本或执行与接收的命令相应的任意功能。

如果用户语音信号的输入结束，则应用处理器610将音频编解码器680a的50MHz的低频时钟改变为100MHz的高频时钟，从而使音频编解码器680a能够执行正常的音频信号处理操作。

如果用户语音信号的输入结束，则应用处理器610解除电子装置的睡眠模式并同时将显示模块660的关闭状态转换为开启状态，从而使显示模块660能够正常地显示当前操作状态。

显示模块660从关闭状态转换到开启状态的时间点可以也是应用处理器610检测到用户语音信号的输入结束的时间点，或者是应用处理器610从空闲状态被唤醒进入活动状态的时间点。

根据本发明的实施例，如图6所示，由于音频编解码器680a的频率时钟从50MHz的低频时钟改变为100MHz的高频时钟的时间点晚于应用处理器610完成语音记录操作的时间点，所以当应用处理器610执行语音记录操作时，由音频编解码器680a产生的毛刺噪声被防止引入。

此外，确定用户语音信号的输入结束的每个参考值的静音时间根据关键字和/或与关键字关联的应用被不同地改变，使得解除睡眠模式的时间点得到准确控制。

参照图7，在步骤700，电子装置为节能而进入睡眠模式。如果电子装置处于睡眠模式，则显示模式被关闭，并且应用处理器进入空闲状态。

在步骤710，即使处于睡眠模式，电子装置的音频编解码器仍可使用50MHz的低频时钟来识别通过麦克风输入的用户语音信号，并确定用户语音信号是否是先前设置的特定关键字。

在步骤720，如果确定特定关键字被输入，则在步骤730，电子装置的应用处理器从空闲状态被唤醒，并在预定的延迟时间流逝后进入激活状态。

在步骤740，在特定关键字被输入后，应用处理器接收在音频编解码器中缓存的用户语音信号，然后将接收的缓存的用户语音信号和从音频编解码器实时转发的用户语音信号一起记录。

在步骤750，在执行语音记录操作的同时，应用处理器确定用户语音信号的输入是否结束。

如果确定用户语音信号的输入结束，则在步骤760，应用处理器解除睡眠模式。在步骤770，应用处理器将音频编解码器的频率时钟从50MHz的低频时钟提高到100MHz的高频时钟，以使音频编解码器能够执行正常的音频信号处理操作。

在步骤780，应用处理器将显示模块的关闭状态转换为开启状态，以使显示模块能够正常显示电子装置的操作状态。

在步骤790，应用处理器控制通信模块的操作，通过网络连接提供语音识别服务的服务器，并通过与服务器通信正常地执行语音识别操作。步骤760至790可以以不同次序被顺序执行，或者可被同时执行。

根据本发明的实施例，提高音频编解码器的频率时钟的时间点被设置在应用处理器完成语音记录操作的时间点之后，从而防止音频编解码器造成的毛刺噪声被引入到语音记录。这样，提高了语音识别操作的准确度。

根据本发明的实施例，一种在电子装置中用于语音识别的方法包括：在电子装置的低功率模式下使用指定的时钟在第一处理器中识别通过麦克风输入的语音信号；如果识别的语音信号是先前设置的关键字，则进入第二处理器的激活状态并在第二处理器中执行语音记录；如果在语音记录期间确定语音输入结束，则在第二处理器中执行语音识别。在确定语音输入结束之后，第一处理器的时钟可以被改变。

第一处理器可以是音频编解码器，第二处理器可以是应用处理器，并且音频编解码器可以是比应用处理器使用更低频率的时钟的低功率芯片。

第一处理器在延迟时间期间缓存通过麦克风输入的语音信号，直至第二处理器从唤醒开始进入激活状态，并且如果第二处理器进入激活状态，则第一处理器将缓存的语音信号转发给第二处理器，并将在激活之后通过麦克风输入的语音信号实时转发给第二处理器。

基于可根据关键字或与关键字关联的应用被不同设置的参考静音时间，第二处理器在语音记录期间确定语音输入是否结束。

在电子装置中用于语音识别的方法存储多个参考值的静音时间作为查找表信息，所述多个参考值根据关键字或与关键字关联的应用被不同设置。所述查找表信息包括由电子装置的制造厂商指定的特定关键字和由电子装置的用户指定的任意关键字中的至少一个。所述语音识别还包括：如果确定语音输入结束，则将电子装置的显示模块的关闭状态转换到开启状态。

第二处理器通过网络与服务器通信并且接收与记录的语音信号相应的命令或文本中的至少一个。语音识别方法还可包括：执行与接收的命令相应的功能，或者显示接收的文本。

根据本发明的实施例，一种电子装置包括：麦克风，用于接收语音信号的输入；第一处理器，用于对语音信号进行信号处理；以及第二处理器，用于识别语音信号。第一处理器在电子装置的睡眠模式下使用指定的时钟来识别通过麦克风输入的语音信号。如果由第一处理器识别的语音信号是先前设置的关键字，则第二处理器从空闲状态进入激活状态并执行语音记录。如果在语音记录期间确定语音输入结束，则第二处理器改变第一处理器的时钟。

基于根据关键字或与关键字关联的应用被不同设置的参考静音时间，第二处理器在语音记录期间确定语音输入是否结束。

第二处理器存储多个参考值的静音时间作为查找表信息，所述多个参考值根据关键字或与关键字关联的应用被不同设置。

查找表信息包括由电子装置的制造厂商指定的特定关键字和电子装置的用户指定的任意关键字中的至少一个。如果确定语音输入结束，则第二处理器将电子装置的显示模块的关闭状态转换为开启状态。

第二处理器通过网络与服务器通信并接收与记录的语音信号相应的命令或文本中的至少一个。第二处理器执行与接收的命令相应的功能，或者显示接收的文本。

根据本发明的实施例，多种类型的电子装置(如智能电话和平板PC)可以准确地识别通过麦克风输入的用户语音信号。

根据本发明的实施例，例如，当电子装置在睡眠模式下识别通过麦克风输入的用户语音信号时，电子装置阻止在改变使用低功率的第一处理器(诸如音频编解码器)的驱动频率的时间点产生的特定噪声的影响，因此提高语音识别的准确度。

虽然本发明已经参照特定实施例被示出和描述，但是本领域技术人员将会理解，在不脱离由权利要求所定义的本发明的精神和范围的情况下，可以在形式和细节上做出改变。

Claims

1.一种在电子装置中用于语音识别的方法，所述方法包括：

在在第一时钟频率上操作的第一处理器中检测通过麦克风输入的先前设置的关键字；

在所述先前设置的关键字被输入之后并且第二处理器的状态从空闲状态被切换到激活状态之前，由第一处理器缓存通过麦克风输入的语音信号；

由第二处理器至少使用缓存的语音信号来执行所述语音信号的语音记录；

检测语音记录的完成；

响应于检测到语音记录的完成，将第一处理器的时钟频率改变为比第一时钟频率高的第二时钟频率。

2.如权利要求1所述的方法，其中，第一处理器是音频编解码器，

第二处理器是应用处理器，并且

音频编解码器是比应用处理器使用更低频率的时钟的低频率芯片。

3.如权利要求1所述的方法，其中，第一处理器将通过麦克风输入的语音信号缓存延迟时间，直至第二处理器从空闲状态切换到激活状态，并且所述方法还包括：

当第二处理器切换到激活状态时：

由第一处理器将缓存的语音信号转发给第二处理器，然后

当语音信号正在通过麦克风输入时，由第一处理器将语音信号实时转发给第二处理器。

4.如权利要求1所述的方法，其中，检测语音记录的完成的步骤包括：

由第二处理器基于根据关键字和应用中的至少一个预设的参考静音时间来检测语音记录的完成。

5.如权利要求1所述的方法，还包括：

响应于所述改变，由在第二时钟频率上操作的第一处理器执行音频信号处理。

6.如权利要求4所述的方法，其中，每个关键字和/或应用与一个或多个参考静音时间关联，这些关联被存储为查找表信息，

其中，由电子装置的制造商指定和/或由电子装置的用户指定查找表信息中的所述关联。

7.如权利要求1所述的方法，还包括：

响应于检测到语音记录的完成，开启电子装置的显示模块。

8.如权利要求1所述的方法，还包括：

响应于检测到语音记录的完成，对由第二处理器记录的语音信号执行语音识别。

9.如权利要求8所述的方法，还包括：

通过网络将记录的语音信号发送到服务器，其中，所述服务器对记录的语音信号执行语音识别；

由电子装置从所述服务器接收与记录的语音信号相应的命令和文本中的至少一个；

由电子装置执行与接收的命令和文本中的至少一个相应的功能。

10.一种电子装置，包括：

麦克风；

第一处理器；

第二处理器，

其中，第一处理器被配置为：

当在第一时钟频率上操作时检测通过麦克风输入的先前设置的关键字输入；

在所述先前设置的关键字被输入之后并且第二处理器的状态从空闲状态被切换到激活状态之前，缓存通过麦克风输入的语音信号，

其中，第二处理器被配置为：

至少使用缓存的语音信号来执行所述语音信号的语音记录；

检测语音记录的完成；

响应于检测到语音记录的完成，控制将第一处理器的时钟频率改变为比第一时钟频率高的第二时钟频率。

11.如权利要求10所述的电子装置，其中，第一处理器是音频编解码器，

第二处理器是应用处理器，

12.如权利要求10所述的电子装置，其中，第一处理器被配置为将通过麦克风输入的语音信号缓存延迟时间，直至第二处理器从空闲状态切换到激活状态，

其中，当第二处理器切换到激活状态时，第一处理器被配置为将缓存的语音信号转发给第二处理器，然后当语音信号正在通过麦克风输入时，将语音信号实时转发给第二处理器。

13.如权利要求10所述的电子装置，其中，第二处理器被配置为基于根据关键字和应用中的至少一个预设的参考静音时间来检测语音记录的完成。

14.如权利要求10所述的电子装置，其中，第一处理器还被配置为：响应于将时钟频率改变为第二时钟频率，执行音频信号处理。

15.如权利要求13所述的电子装置，其中，每个关键字和/或应用与一个或多个参考静音时间关联，这些关联被存储为查找表信息，

16.如权利要求10所述的电子装置，其中，第二处理器还被配置为：响应于检测到语音记录的完成，控制开启电子装置的显示模块。

17.如权利要求10所述的电子装置，其中，第二处理器还被配置为：响应于检测到语音记录的完成，控制对由第二处理器记录的语音信号执行语音识别。

18.如权利要求17所述的电子装置，其中，第二处理器还被配置为：

控制通过网络将记录的语音信号发送到服务器，其中，所述服务器对记录的语音信号执行语音识别；

控制从所述服务器接收与记录的语音信号相应的命令和文本中的至少一个；

控制执行与接收的命令和文本中的至少一个相应的功能。

19.一种其上记录有用于执行在电子装置中用于语音识别的方法的程序的非暂时性计算机可读存储介质，所述方法包括：

检测语音记录的完成；

20.一种在电子装置中用于语音识别的方法，所述方法包括：

在在第一时钟频率上操作的第一处理器中检测通过麦克风输入的第一语音信号；

如果第一语音信号包括先前设置的关键字，则在第二处理器中记录正在通过麦克风输入的第二语音信号；

在第二处理器中检测记录的完成；

响应于检测到记录的完成，将第一处理器的时钟频率改变为比第一时钟频率高的第二时钟频率。