CN106463112B

CN106463112B - 语音识别方法、语音唤醒装置、语音识别装置及终端

Info

Publication number: CN106463112B
Application number: CN201580023412.XA
Authority: CN
Inventors: 周均扬
Original assignee: Huawei Technologies Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2015-04-10
Filing date: 2015-04-10
Publication date: 2020-12-08
Anticipated expiration: 2035-04-10
Also published as: CA2982196A1; EP3282445A1; BR112017021673B1; AU2015390534A1; US20210287671A1; AU2019268131A1; CA2982196C; AU2021286393B2; US10943584B2; CN106463112A; WO2016161641A1; JP2018517919A; AU2021286393A1; BR112017021673A2; EP3282445A4; US20180033436A1; AU2015390534B2; US11783825B2; JP6564058B2

Abstract

本发明实施例提供一种语音识别方法及终端，用户仅需发出一次指令，就能满足用户的要求，不再需要触摸屏的辅助，也不需要多次输入指令。该方法包括：语音唤醒装置监听周围环境中的语音信息；所述语音唤醒装置确定监听到的语音信息与语音唤醒模型匹配时，将监听到的第一预设时长的语音信息缓存，并发送触发启动语音识别装置的触发信号，所述触发信号用于指示所述语音识别装置启动后读取并识别所述语音唤醒装置缓存的语音信息。语音识别装置接收语音唤醒装置发送的触发信号；所述语音识别装置在接收到所述触发信号后，启动并监听第二预设时长的第二语音信息；识别所述语音唤醒装置缓存的第一语音信息以及监听到的第二语音信息，得到识别结果。

Description

语音识别方法、语音唤醒装置、语音识别装置及终端

技术领域

本发明涉及移动通信技术领域，尤其涉及一种语音识别方法、语音唤醒装置、语音识别装置及终端。

背景技术

目前，随着移动手持终端，特别是移动手机普及性越来越高，触摸屏技术也越来越成熟。触摸屏技术尽管方便了用户的操作，但是在进行电话交互时，需要触摸多个步骤才能完成，在开车或者不方便触摸的时候，可能错过接听电话。

因此，基于语音识别技术打电话或者发短信等功能随之产生。并且现在语音识别作为一种新的、重要的用户交互技术在移动终端中的应用越来越广泛。

但是现有无论是通过语音识别技术打电话或者发短信等等业务，需要与触摸屏技术配合，才能实现。

发明内容

本发明实施例提供一种语音识别方法、语音唤醒装置、语音识别装置及终端，用户仅需发出一次指令，就能满足用户的要求，不再需要触摸屏的辅助，也不需要多次输入指令。

第一方面，本发明实施例提供了一种语音识别方法，该方法包括：

语音唤醒装置监听周围环境中的语音信息；

所述语音唤醒装置确定监听到的语音信息与语音唤醒模型匹配时，将监听到的第一预设时长的语音信息缓存，并发送触发启动语音识别装置的触发信号，所述触发信号用于指示所述语音识别装置启动后读取并识别所述语音唤醒装置缓存的语音信息。

结合第一方面，在第一方面的第一种可能的实现方式中，所述确定监听到的语音信息与语音唤醒模型匹配，包括：

确定监听到的语音信息与预定的唤醒语音信息匹配时，则确定监听到的语音信息与语音唤醒模型匹配。

结合第一方面，在第一方面的第二种可能的实现方式中，所述确定监听到的语音信息与语音唤醒模型匹配，包括：

确定监听到的语音信息与预定的唤醒语音信息匹配时，提取监听到的语音信号中的声纹特征，确定提取到的声纹特征与预定的声纹特征匹配，则确定监听到的语音信息与语音唤醒模型匹配。

第二方面，本发明实施例提供了一种语音识别方法，该方法包括：

语音识别装置接收语音唤醒装置发送的触发信号，所述触发信号用于指示所述语音识别装置启动并识别所述语音唤醒装置缓存的第一语音信息；

所述语音识别装置在接收到所述触发信号后，启动并监听第二预设时长的第二语音信息；

识别所述语音唤醒装置缓存的第一语音信息以及监听到的第二语音信息，得到识别结果。

结合第二方面，在第二方面的第一种可能的实现方式中，所述语音识别装置获取到识别结果后，还包括：

所述语音识别装置将获取到的识别结果与预存储的语音指令信息进行匹配；

所述语音识别装置执行匹配的语音指令信息对应的操作。

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，还包括：

所述语音识别装置在确定接收到所述触发信号后第三预设时长内未再次接收到所述触发信号时，自动关闭。

第三方面，本发明实施例提供了一种语音识别方法，该方法包括：

语音唤醒装置监听周围环境中的语音信息；

语音唤醒装置确定监听到的语音信息与语音唤醒模型匹配时，发出触发启动语音识别装置的触发信号。

结合第三方面，在第三方面的第一种可能的实现方式中，所述确定监听到的语音信息与语音唤醒模型匹配，包括：

结合第三方面，在第三方面的第二种可能的实现方式中，所述确定监听到的语音信息与语音唤醒模型匹配，包括：

第四方面，本发明实施例提供了一种语音识别方法，该方法包括：

语音识别装置接收语音唤醒装置发送的触发信号；

所述语音识别装置在接收到所述触发信号后，启动并向用户发送语音提示指令；

所述语音识别装置记录用户根据所述语音提示指令输入的语音信号，并对所述语音信号进行识别，得到识别结果。

第五方面，本发明实施例还提供了一种语音唤醒装置，该装置包括：

监听模块，用于监听周围环境中的语音信息；

确定模块，用于确定所述监听模块监听到的语音信息是否与语音唤醒模型匹配；

缓存模块，用于在所述确定模块确定所述监听模块监听到的语音信息与语音唤醒模型匹配时，将所述监听模块监听到的第一预设时长的语音信息缓存；

发送模块，用于发送触发启动语音识别装置的触发信号，所述触发信号用于指示所述语音识别装置启动后读取并识别所述语音唤醒装置缓存的语音信息。

结合第五方面，在第五方面的第一种可能的实现方式中，所述确定模块，具体用于确定监听到的语音信息与预定的唤醒语音信息匹配时，则确定监听到的语音信息与语音唤醒模型匹配。

结合第五方面，在第五方面的第二种可能的实现方式中，还包括：

提取模块，用于在所述确定模块确定监听到的语音信息与预定的唤醒语音信息匹配时，提取监听到的语音信号中的声纹特征；

所述确定模块，还用于在确定所述提取模块提取到的声纹特征与预定的声纹特征匹配时，则确定监听到的语音信息与语音唤醒模型匹配。

第六方面，本发明实施例提供了一种语音识别装置，包括：

接收模块，用于接收语音唤醒装置发送的触发信号，所述触发信号用于指示语音识别装置启动并识别所述语音唤醒装置缓存的第一语音信息；

监听模块，用于在所述接收模块接收到所述触发信号后，启动并监听第二预设时长的第二语音信息；

识别模块，用于识别所述语音唤醒装置缓存的第一语音信息以及所述监听模块监听到的第二语音信息，得到识别结果。

结合第六方面，在第六方面的第一种可能的实现方式中，还包括：

匹配模块，用于将识别模块识别后得到的识别结果与预存储的语音指令信息进行匹配；

执行模块，用于执行匹配的语音指令信息对应的操作。

结合第六方面或第六方面的第一种可能的实现方式，在第六方面的第二种可能的实现方式中，还包括：

关闭模块，用于在确定接收到所述触发信号后第三预设时长内未再次接收到所述触发信号时，关闭语音识别模块。

第七方面，本发明实施例提供了一种语音唤醒装置，包括：

监听模块，用于监听周围环境中的语音信息；

确定模块，用于确定监听到的语音信息是否与语音唤醒模型匹配；

发送模块，用于在所述确定模块确定监听到的语音信息与语音唤醒模型匹配时，发出触发启动语音识别装置的触发信号。

结合第七方面，在第七方面的第一种可能的实现方式中，所述确定模块，具体用于确定监听到的语音信息与预定的唤醒语音信息匹配时，则确定监听到的语音信息与语音唤醒模型匹配。

结合第七方面，在第七方面的第二种可能的实现方式中，还包括：

所述确定模块，具体用于确定提取到的声纹特征与预定的声纹特征匹配时，则确定监听到的语音信息与语音唤醒模型匹配。

第八方面，本发明实施例提供了一种语音识别装置，包括：

接收模块，用于接收语音唤醒装置发送的触发信号；

发送模块，用于在所述接收模块接收到所述触发信号后，启动并向用户发送语音提示指令；

处理模块，用于记录用户根据所述语音提示指令输入的语音信号，并对所述语音信号进行识别，得到识别结果。

第九方面，本发明实施例提供了一种终端，包括：

语音唤醒装置及语音识别装置；

所述语音唤醒装置，用于监听周围环境中的语音信息；确定监听到的语音信息与语音唤醒模型匹配时，将第一预设时长内监听到的第一语音信息缓存，并发出触发启动语音识别装置的触发信号；

所述语音识别装置，用于在接收到所述语音唤醒装置发送的触发信号后，启动并监听第二预设时长内的第二语音信息，识别所述语音唤醒装置缓存的第一语音信息及监听到的第二语音信息，得到识别结果。

结合第九方面，在第九方面的第一种可能的实现方式中，所述语音唤醒装置为数字信号处理器DSP。

结合第九方面或第九方面的第一种可能的实现方式，在第九方面的第二种可能的实现方式中，所述语音识别装置为应用处理器AP。

利用本发明实施例提供的方案，用户只需要发出一次指令，就能满足用户的要求，并且无论终端处于待机还是非待机状态下均适用。并且通过语音唤醒装置将监听到的语音信息进行缓存，使得语音识别装置在启动后监听第二语音信息，对缓存的第一语音信息以及第二语音信息进行识别，从而能够避免在唤醒后启动语音识别装置再开始获取语音信息时，使得在语音识别装置启动前用户发出的部分语音信息丢失。

附图说明

图1为本发明实施例提供的终端结构示意图；

图2为本发明实施例提供的一种语音识别方法流程图；

图3为本发明实施例提供的另一种语音识别方法流程图；

图4为本发明实施例提供的又一种语音识别方法流程图；

图5为本发明实施例提供的再一种语音识别方法流程图；

图6为本发明实施例提供的一种语音唤醒装置示意图；

图7为本发明实施例提供的一种语音识别装置示意图；

图8为本发明实施例提供的另一种语音唤醒装置示意图；

图9为本发明实施例提供的另一种语音识别装置示意图；

图10为本发明实施例提供的语音识别方法示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提供一种语音识别方法、语音唤醒装置、语音识别装置及终端，用户仅需发出一次指令，就能满足用户的要求，不再需要触摸屏的辅助，也不需要多次输入指令。其中，方法、装置是基于同一发明构思的，由于方法、装置解决问题的原理相似，因此终端、装置与方法的实施可以相互参见，重复之处不再赘述。

本发明实施例中提供了一种终端，如图1所示，该终端包括语音唤醒装置101及语音识别装置102。

其中，语音唤醒装置101可以由数字信号处理器(Digital Signal Processor，简称DSP)实现。语音识别装置102可以由应用处理器(Application Processor，简称AP)实现。语音识别装置102还可以由中央处理器(Central Process Unit，简称CPU)实现。

所述语音唤醒装置101，用于监听周围环境中的语音信息；确定监听到的语音信息与语音唤醒模型匹配时，将第一预设时长内所述监听到的第一语音信息缓存，并发出触发启动语音识别装置的触发信号。

所述语音识别装置102，用于在接收到所述语音唤醒装置发送的触发信号后，启动并监听第二预设时长内的第二语音信息，识别所述语音唤醒装置缓存的第一语音信息即监听到的第二语音信息，得到识别结果。

可选地，所述语音识别装置102在确定接收到所述触发信号后第三预设时长内未再次接收到触发信号时，则自动关闭。

具体的，一般DSP在发起触发信号后，AP启动后就启动录音通路录音；通常，这个录音是在AP启动后才开始的。但是在本方案中，启动AP前，DSP接收到唤醒信息时，开始录音并缓存，AP启动后继续录音得到语音信息，然后对从DSP的缓存中读取语音信息以及启动后得到的语音信息进行识别。在One Shot场景中，唤醒后到说命令词期间，存在一个时间差，如果从AP启动后录音，只能录到启动后的语音信息，上述时间差的语音信息就丢失，而在唤醒时即开始录音并缓存，从而上述时间差的语音信息都能够获取到。

例如，开始说唤醒词的时间点为t0，说完唤醒词的时间点为t1，开始说命令词的时间点为t2，启动AP的时间点为t3；在缓存中，存有t0到t3的语音；而如果只在启动AP的时候录音，则只能录到t3后的语音；t0到t3的语音就不能录制。因此，本发明实施例提供的方案从用于唤醒的语音信息开始后语音信息均能获取到，避免了语音信息的丢失，从而提供了语音识别率。

可选地，确定监听到的语音信息与语音唤醒模型匹配，具体可以通过以下方式：

第一种实现方式：

其中，用户可以预先在语音唤醒装置中根据提示设置唤醒语音信息，例如：Hi，小E。或者终端在出厂时，预设了的唤醒语音信息。当语音唤醒装置检测到周围环境中的语音信息时，将其与存储的唤醒语音信息进行比对，若两者相同则确定与语音唤醒模型匹配，然后发送触发指令到语音识别装置102；如果两者不相同，语音唤醒装置101可以丢弃当前检测到的语音信息，并继续执行检测及判断的工作。

第二种实现方式：

所述声纹特征包括以下特征中的一项或者多项：

基音轮廓、线性预测系数、谱包络参数、谐波能量比、共振峰频率及其带宽、倒谱(又称功率倒频谱)、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，简称MFCC)等反映声纹特征的声学参数，且不限于前述所提及的声纹特征参数。

其中，本发明实施例中还可以包括设置装置，预先提取用户的声纹特征保存在语音唤醒装置中。例如用户可以根据提示录制语音信息在设置模块内部，然后提取声纹特征，并将提取的声纹特征保存在语音唤醒装置中。

利用本发明实施例提供的方案，在唤醒模型增加声纹特征，从而能够过滤周围环境中的噪声，以及其它用户的语音输入，使得语音唤醒装置给用户提供了一个可靠的保障。

可选地，所述语音识别装置获取到识别结果后，还包括：

所述语音识别装置将获取到的识别结果与预存储的语音指令信息进行匹配；所述语音识别装置控制执行匹配的语音指令信息对应的操作。

其中，语音指令信息预先存储在语音识别装置中。语音识别装置包括多种语音指令信息。

本发明实施例中还可以语音指令信息对应的操作的执行模块，则语音识别装置可以向语音指令信息对应的操作的执行模块发送执行指令。比如包括：扬声器或者发光装置等等。

例如，当语音唤醒模块检测到周围环境中的语音信息满足唤醒模型时，将第一预定时长(例如2S)的第一语音信息缓存，并触发语音识别模块启动及监听第二语音信息，然后对缓存的第一语音信息及第二语音信息进行识别，将识别结果与语音指令信息进行模糊比对，确定语音信息是否与语音指令信息中其中一个匹配。例如，语音指令信息包括指示播放铃音或MP3的语音指令信息，如“播放铃音”或“播放MP3”；还可以包括指示应答的语音指令信息，如“你在哪？”；还可以包括指示点亮闪光灯的语音指令信息，如“开启闪光灯”。

可以利用本发明实施例提供的方案找终端设备，例如手机。在家里，一般手机随便放置，在需要使用的时候需要费一番工夫才能找到。利用本发明实施例提供的方案，可以通过喊出例如“你好，小E，你在哪里”，则手机的语音唤醒模块则检测到该语音信息，则将该语音信息与语音唤醒模型进行匹配(比如唤醒语音信息为“你好，小E”)，确定匹配时，将该语音信息缓存在Buffer中。并向语音识别模块发送触发信号，则语音识别模块启动并开始监听语音信息，然后对缓存的语音信息及监听的语音信息进行识别，得到识别结果(文本结果为“你好，小E，你在哪里”)，并将该文本结果与语音指令信息进行匹配，例如，匹配该“你好，小E，你在哪里”的语音指令信息是播放MP3，则通过播放MP3音乐提示用户。

还可以通过本发明实施例提供的方案打电话。由于无论是待机状态还可以锁屏状态，手机的语音唤醒模块均处于启动状态，则均可以监听到用户发出的语音信息。例如：“你好，小E，打电话给小A”。则能直接拨出电话，不需要其他任何操作。

本发明实施例还提供了一种语音识别方法，如图2所示，该方法包括：

步骤201，语音唤醒装置监听周围环境中的语音信息；

步骤202，所述语音唤醒装置确定监听到的语音信息与语音唤醒模型匹配时，将所述监听到的第一预设时长的语音信息缓存，并发送触发启动语音识别装置的触发信号，所述触发信号用于指示所述语音识别装置启动后读取并识别所述语音唤醒装置缓存的语音信息。

利用本发明实施例提供的方案，用户只需要发出一次指令，就能满足用户的要求，并且无论终端处于待机还是非待机状态下均适用。并且通过将监听到的语音信息进行缓存，使得语音识别装置启动并监听语音信息后，然后对缓存的语音信息以及监听的语音信息进行识别，从而能够避免在唤醒后启动语音识别装置再开始获取语音信息时，可能会造成部分语音信息丢失，提高了语音识别率。

可选地，所述确定监听到的语音信息与语音唤醒模型匹配，具体可以通过以下方式：

第一种实现方式：

第二种实现方式：

本发明实施例还提供了一种语音识别方法，如图3所示，包括：

步骤301，语音识别装置接收语音唤醒装置发送的触发信号，所述触发信号用于指示所述语音识别装置启动并识别所述语音唤醒装置缓存的第一语音信息。

步骤302，所述语音识别装置在接收到所述触发信号后，启动并并监听第二预设时长的第二语音信息。

步骤303，识别所述语音唤醒装置缓存的第一语音信息以及监听到的第二语音信息，得到识别结果。

利用本发明实施例提供的方案，用户只需要发出一次指令，就能满足用户的要求，并且无论终端处于待机还是非待机状态下均适用。并且通过将监听到的语音信息进行缓存，使得语音识别装置在启动并监听语音信息，对缓存的语音信息以及监听的语音信息进行识别，从而能够避免在唤醒后启动语音识别装置再开始获取语音信息时，可能会造成部分语音信息丢失，提供了语音识别率。

可选地，所述语音识别装置获取到识别结果后，还包括：

所述语音识别装置控制执行匹配的语音指令信息对应的操作。

可选地，所述语音识别装置在确定接收到所述触发信号后第三预设时长内未再次接收到所述触发信号时，自动关闭。

本发明实施例还提供了一种语音识别方法，如图4所示，该方法包括：

步骤401，语音唤醒装置监听周围环境中的语音信息；

步骤402，语音唤醒装置确定监听到的语音信息与语音唤醒模型匹配时，发出触发启动语音识别装置的触发信号。

第一种实现方式：

第二种实现方式：

本发明实施例还提供了一种语音识别方法，如图5所示，包括：

步骤501，语音识别装置接收语音唤醒装置发送的触发信号；

步骤502，所述语音识别装置在接收到所述触发信号后，启动并向用户发送语音提示指令；

步骤503，所述语音识别装置记录用户根据所述语音提示指令输入的语音信号，并对所述语音信号进行识别得到识别结果。

利用本发明实施例提供的方案，用户只需要发出一次指令，就能满足用户的要求，并且无论终端处于待机还是非待机状态下均适用。

可选地，所述语音识别装置对所述语音信号进行识别得到识别结果后，还包括：

所述语音识别装置将得到的识别结果与预存储的语音指令信息进行匹配；

本发明实施例还提供了一种语音唤醒装置，如图6所示，该装置包括：

监听模块601，用于监听周围环境中的语音信息；

确定模块602，用于确定所述监听模块601监听到的语音信息是否与语音唤醒模型匹配；

缓存模块603，用于在所述确定模块602确定所述监听模块601监听到的语音信息与语音唤醒模型匹配时，将所述监听模块601监听到的第一预设时长的语音信息缓存；

发送模块604，用于发送触发启动语音识别装置的触发信号，所述触发信号用于指示所述语音识别装置启动后读取并识别所述语音唤醒装置缓存的语音信息。

可选地，所述确定模块602，具体用于确定监听到的语音信息与预定的唤醒语音信息匹配时，则确定监听到的语音信息与语音唤醒模型匹配。

可选地，该装置还包括：

提取模块，用于在所述确定模块602确定监听到的语音信息与预定的唤醒语音信息匹配时，提取监听到的语音信号中的声纹特征；

所述确定模块602，还用于在确定所述提取模块提取到的声纹特征与预定的声纹特征匹配时，则确定监听到的语音信息与语音唤醒模型匹配。

本发明实施例还提供了一种语音识别装置，如图7所示，该装置包括：

接收模块701，用于接收语音唤醒装置发送的触发信号，所述触发信号用于指示语音识别装置启动并识别所述语音唤醒装置缓存的第一语音信息；

监听模块702，用于在所述接收模块701接收到所述触发信号后，启动并监听第二预设时长的第二语音信息；

识别模块703，用于识别所述语音唤醒装置缓存的第一语音信息以及所述监听模块监听到的第二语音信息，得到识别结果。

可选地，该装置还包括：

匹配模块，用于将识别模块703识别后得到的识别结果与预存储的语音指令信息进行匹配；

执行模块，用于执行匹配的语音指令信息对应的操作。

可选地，该装置还包括：

关闭模块，用于在确定所述接收模块接收到所述触发信号后第三预设时长内未再次接收到所述触发信号时，关闭语音识别模块。

本发明实施例还提供了一种语音唤醒装置，如图8所示，该装置包括：

监听模块801，用于监听周围环境中的语音信息；

确定模块802，用于确定监听到的语音信息是否与语音唤醒模型匹配；

发送模块803，用于在所述确定模块802确定监听到的语音信息与语音唤醒模型匹配时，发出触发启动语音识别装置的触发信号。

可选地，所述确定模块802，具体用于确定监听到的语音信息与预定的唤醒语音信息匹配时，则确定监听到的语音信息与语音唤醒模型匹配。

可选地，该装置还包括：

提取模块，用于在所述确定模块802确定监听到的语音信息与预定的唤醒语音信息匹配时，提取监听到的语音信号中的声纹特征；

所述确定模块802，具体用于确定提取到的声纹特征与预定的声纹特征匹配时，则确定监听到的语音信息与语音唤醒模型匹配。

本发明实施例提供了一种语音识别装置，如图9所示，该装置包括：

接收模块901，用于接收语音唤醒装置发送的触发信号；

发送模块902，用于在所述接收模块901接收到所述触发信号后，启动并向用户发送语音提示指令；

处理模块903，用于记录用户根据所述语音提示指令输入的语音信号，并对所述语音信号进行识别，得到识别结果。

下面结合软件实现过程对本发明实施例作具体说明，如图10所示。

语音识别模块从软件上可以划分为驱动层、音频的硬件抽象层(Audio HAL)、框架层(Framework)、语音识别引擎(VA Service)和应用设置(Setting)。

P1：事件上报。具体的，驱动层在接收到DSP的触发信号，将该触发事件上报给Framework。

P2：事件上报。具体的，Audio HAL将上述触发事件上报给VA Service。

P3：参数设置。具体的，设置从buffer中读取数据。

P4：VA Service启动。

P5：VA Service向Framework发送启动录音指示。

P6：Framework在接收到启动录音指示后，向Audio HAL发送读取音频数据指令。

P7：Audio HAL在接收到Framework发送的读取音频数据指示后，启动读取Buffer数据。

P8：Audio HAL向驱动发送获取Buffer数据指令，以使驱动向DSP发送获取Buffer数据指令，然后DSP将Buffer数据发送给驱动。

P9：驱动将接收到的Buffer数据上报给VA Service。

P10：VA Service对Buffer数据以及录音数据进行识别处理。

P11：VA Service向Framework发送停止录音指示。

P12：Framework在接收到停止录音指示后，向Audio HAL发送停止读取音频数据指令。

P13：Audio HAL在接收到Framework发送的停止读取音频数据指示后，关闭读取Buffer数据。

P14：Audio HAL向驱动发送停止获取Buffer数据指令。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音控制方法，其特征在于，所述方法应用于终端，所述终端包括语音唤醒装置和语音识别装置，所述方法包括：

所述语音唤醒装置监听周围环境中的第一语音信息，所述第一语音信息包括唤醒信息和命令词的第一部分，所述唤醒信息用于启动所述语音识别装置，其中，所述唤醒信息为所述语音唤醒装置在第一时间段监听的，所述命令词的第一部分为所述语音唤醒装置在第二时间段监听的；

所述语音唤醒装置根据所述唤醒信息启动所述语音识别装置；

所述语音识别装置监听第二语音信息，所述第二语音信息包括命令词的第二部分，其中，所述第二语音信息为所述语音识别装置在第三时间段监听的；

所述语音识别装置根据所述语音唤醒装置监听的所述第一语音信息和语音识别装置监听的所述第二语音信息获取语音指令信息，所述语音指令信息与所述命令词相匹配，所述命令词包括所述命令词的第一部分和所述命令词的第二部分。

2.如权利要求1所述的方法，其特征在于，所述语音唤醒装置根据所述唤醒信息启动所述语音识别装置包括：

所述语音唤醒装置确定所述唤醒信息与语音唤醒模型匹配时，生成启动所述语音识别装置的触发信号。

3.如权利要求2所述的方法，其特征在于，确定所述唤醒信息与语音唤醒模型匹配，包括：

确定所述唤醒信息与预定的唤醒语音信息匹配时，则确定所述唤醒信息与语音唤醒模型匹配。

4.如权利要求2所述的方法，其特征在于，所述确定所述唤醒信息与语音唤醒模型匹配，包括：

确定所述唤醒信息与预定的唤醒语音信息匹配时，提取监听到的唤醒信息中的声纹特征，确定提取到的声纹特征与预定的声纹特征匹配，则确定监听到的唤醒信息与语音唤醒模型匹配。

5.如权利要求4所述的方法，其特征在于，所述声纹特征包括以下特征中的一项或者多项：

基音轮廓、线性预测系数、谱包络参数、谐波能量比、共振峰频率及其带宽、倒谱、Mel频率倒谱系数。

6.如权利要求1所述的方法，其特征在于，所述语音识别装置根据所述语音唤醒装置监听的所述第一语音信息和语音识别装置监听的所述第二语音信息获取语音指令信息包括：

所述语音识别装置根据所述第一语音信息和所述第二语音信息得到识别结果，所述识别结果包括命令词信息；

将所述识别结果与预存储的语音指令信息进行匹配得到与所述识别结果匹配的所述语音指令信息。

7.如权利要求1-6任一项所述的方法，其特征在于，所述监听周围环境中的第一语音信息，包括：

在待机状态下监听周围环境中的所述第一语音信息；或者，

在非待机状态下监听周围环境中的所述第一语音信息；或者，

在锁屏状态下监听周围环境中的所述第一语音信息。

8.如权利要求2所述的方法，其特征在于，所述方法还包括：

所述语音唤醒装置将所述触发信号发送给所述语音识别装置，以启动所述语音识别装置。

9.如权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：所述语音识别装置控制执行匹配的所述语音指令信息对应的操作。

10.如权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

在启动所述语音识别装置后，在预设时长内未再次监听到用于启动语音识别装置的语音信息时，自动关闭所述语音识别装置。

11.如权利要求1-6任一项所述的方法，其特征在于，所述语音唤醒装置为数字信号处理器DSP。

12.如权利要求1-6任一项所述的方法，其特征在于，所述语音识别装置为应用处理器AP。

13.一种终端，其特征在于，包括处理器和存储器；

所述存储器用于存储一个或多个计算机程序；当所述存储器存储的一个或多个计算机程序被所述处理器执行时，使得所述终端能够实现如权利要求1-12任一所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1至12任一所述的方法。

15.一种终端，其特征在于，所述终端包括语音唤醒装置和语音识别装置，其中，

所述语音唤醒装置用于监听周围环境中的第一语音信息，所述第一语音信息包括唤醒信息和命令词的第一部分，所述唤醒信息用于启动所述语音识别装置，其中，所述唤醒信息为所述语音唤醒装置在第一时间段监听的，所述命令词的第一部分为所述语音唤醒装置在第二时间段监听的；

所述语音唤醒装置还用于根据所述唤醒信息启动所述语音识别装置；

所述语音识别装置用于监听第二语音信息，所述第二语音信息包括命令词的第二部分，其中，所述第二语音信息为所述语音识别装置在第三时间段监听的；

所述语音识别装置还用于根据所述语音唤醒装置监听的所述第一语音信息和语音识别装置监听的所述第二语音信息获取语音指令信息，所述语音指令信息与所述命令词相匹配，所述命令词包括所述命令词的第一部分和所述命令词的第二部分。

16.如权利要求15所述的终端，其特征在于，所述语音唤醒装置还用于根据所述唤醒信息启动所述语音识别装置包括：

所述语音唤醒装置用于确定所述唤醒信息与预定的唤醒语音信息匹配时，则确定所述唤醒信息与语音唤醒模型匹配。

17.如权利要求15所述的终端，其特征在于，所述根据所述唤醒信息启动所述语音识别装置包括：

所述语音唤醒装置用于确定所述唤醒信息与预定的唤醒语音信息匹配时，提取监听到的唤醒信息中的声纹特征，确定提取到的声纹特征与预定的声纹特征匹配，则确定监听到的唤醒信息与语音唤醒模型匹配。

18.如权利要求17所述的终端，其特征在于，所述声纹特征包括以下特征中的一项或者多项：

19.如权利要求15所述的终端，其特征在于，所述语音识别装置用于根据所述语音唤醒装置监听的所述第一语音信息和语音识别装置监听的所述第二语音信息获取语音指令信息包括：

所述语音识别装置用于根据所述第一语音信息和所述第二语音信息得到识别结果，所述识别结果包括命令词信息；

所述语音识别装置用于将所述识别结果与预存储的语音指令信息进行匹配得到与所述识别结果匹配的所述语音指令信息。

20.如权利要求15-19任一项所述的终端，其特征在于，所述语音唤醒装置用于监听周围环境中的第一语音信息包括：

所述语音唤醒装置用于在待机状态下监听周围环境中的所述第一语音信息；或者，

所述语音唤醒装置用于在非待机状态下监听周围环境中的所述第一语音信息；或者，

所述语音唤醒装置用于在锁屏状态下监听周围环境中的所述第一语音信息。

21.如权利要求15-19任一项所述的终端，其特征在于，所述语音识别装置还用于，在启动后的预设时长内，未再次监听到用于启动所述语音识别装置的语音信息时，自动关闭所述语音识别装置。

22.如权利要求15-19任一项所述的终端，其特征在于，所述终端还包括执行模块，其中，

所述语音识别装置还用于向所述执行模块发送与所述语音指令信息匹配的执行指令；

所述执行模块用于执行所述执行指令对应的操作。

23.如权利要求15-19任一项所述的终端，其特征在于，所述语音唤醒装置为数字信号处理器DSP，所述语音识别装置为应用处理器AP。