CN110223687B

CN110223687B - 指令执行方法、装置、存储介质及电子设备

Info

Publication number: CN110223687B
Application number: CN201910477539.9A
Authority: CN
Inventors: 陈喆; 刘耀勇; 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2021-09-28
Anticipated expiration: 2039-06-03
Also published as: CN110223687A

Abstract

本申请实施例公开了一种指令执行方法、装置、存储介质及电子设备，其中，电子设备包括处理器、专用语音识别芯片和麦克风，且专用语音识别芯片的功耗小于处理器的功耗，本申请实施例中，电子设备在处理器处于休眠状态时，通过预设缓存队列缓存外部音频数据，并利用低功耗的专用语音识别芯片对预设缓存队列中提取的第一音频数据进行校验，若校验通过则唤醒处理器，由处理器对第一音频数据进行二次校验，并在二次校验通过时，提取第一音频数据之后的第二音频数据进行指令识别，并执行。由此，能够降低电子设备实现语音唤醒的功耗，同时，由于能够在唤醒的同时执行指令，还提高了语音控制的易用性。

Description

指令执行方法、装置、存储介质及电子设备

技术领域

本申请涉及语音处理技术领域，具体涉及一种指令执行方法、装置、存储介质及电子设备。

背景技术

目前，用户可以在不方便直接操控电子设备的情况下说出唤醒词来唤醒电子设备，以及说出语音指令来控制电子设备执行特定操作等。然而，在相关技术中，一方面，电子设备需要处理器来持续运行唤醒算法，使得电子设备实现语音唤醒的功耗较高。另一方面，电子设备需要在唤醒后才能接收并执行用户的语音指令。

发明内容

本申请实施例提供了一种指令执行方法、装置、存储介质及电子设备，能够提高语音控制的易用性，同时降低电子设备实现语音唤醒的功耗。

第一方面，本申请实施例提供了一种指令执行方法，应用于电子设备，所述电子设备包括处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述指令执行方法包括：

在所述处理器处于休眠状态时，通过预设滑动窗口从预设缓存队列中提取第一音频数据提供给所述专用语音识别芯片，所述预设缓存队列用于缓存所述麦克风采集的外部音频数据；

基于所述专用语音识别芯片校验所述第一音频数据，若校验通过，则唤醒所述处理器，并在唤醒所述处理器后控制所述专用语音识别芯片休眠；

基于所述处理器校验所述第一音频数据，若校验通过，则提取所述预设缓存队列中位于所述第一音频数据之后的第二音频数据提供给所述处理器；

基于所述处理器识别所述第二音频数据所携带的语音指令，并执行所述语音指令。

第二方面，本申请实施例提供了一种指令执行装置，应用于电子设备，所述电子设备包括处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述指令执行装置包括：

音频提取模块，用于在所述处理器处于休眠状态时，通过预设滑动窗口从预设缓存队列中提取第一音频数据提供给所述专用语音识别芯片，所述预设缓存队列用于缓存所述麦克风采集的外部音频数据；

第一校验模块，用于基于所述专用语音识别芯片校验所述第一音频数据，若校验通过，则唤醒所述处理器，并在唤醒所述处理器后控制所述专用语音识别芯片休眠；

第二校验模块，用于基于所述处理器校验所述第一音频数据，若校验通过，则提取所述预设缓存队列中位于所述第一音频数据之后的第二音频数据提供给所述处理器；

指令执行模块，用于基于所述处理器识别所述第二音频数据所携带的语音指令，并执行所述语音指令。

第三方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，当所述计算机程序在包括处理器、专用语音识别芯片和麦克风的电子设备运行时，使得所述电子设备执行本申请实施例提供的指令执行方法中的步骤，其中，所述专用语音识别芯片的功耗小于所述处理器的功耗。

第四方面，本申请实施例还提供了一种电子设备，所述电子设备包括音频采集单元、处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，其中，

所述音频采集单元用于在所述处理器处于休眠状态时，通过预设滑动窗口从预设缓存队列中提取第一音频数据提供给所述专用语音识别芯片，所述预设缓存队列用于缓存所述麦克风采集的外部音频数据；

所述专用语音识别芯片用于校验所述第一音频数据，并在校验通过时唤醒所述处理器，以及在唤醒所述处理器后休眠；

所述处理器用于校验所述第一音频数据，并在校验通过时提取所述预设缓存队列中位于所述第一音频数据之后的第二音频数据；

所述处理器还用于识别所述第二音频数据所携带的语音指令，并执行所述语音指令。

本申请实施例中，电子设备包括处理器、专用语音识别芯片和麦克风，且专用语音识别芯片的功耗小于处理器的功耗，本申请实施例中，电子设备在处理器处于休眠状态时，通过预设缓存队列缓存外部音频数据，并利用低功耗的专用语音识别芯片对预设缓存队列中提取的第一音频数据进行校验，若校验通过则唤醒处理器，由处理器对第一音频数据进行二次校验，并在二次校验通过时，提取第一音频数据之后的第二音频数据进行指令识别，并执行。由此，能够降低电子设备实现语音唤醒的功耗，同时，由于能够在唤醒的同时执行指令，还提高了语音控制的易用性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的指令执行方法的一流程示意图。

图2是本申请实施例中从预设缓存队列中提取第一音频数据的示意图。

图3是本申请实施例中从预设缓存队列中提取新的第一音频数据的示意图。

图4是本申请实施例中训练声纹特征提取模型的流程示意图。

图5是本申请实施例中提取的语谱图的示意图。

图6是本申请实施例提供的指令执行方法的另一流程示意图。

图7是本申请实施例提供的指令执行装置的结构示意图。

图8是本申请实施例提供的电子设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例首先提供一种指令执行方法，该指令执行方法的执行主体可以是本申请实施例提供的电子设备，该电子设备包括处理器、专用语音识别芯片和麦克风，且专用语音识别芯片的功耗小于处理器的功耗，该电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的指令执行方法的流程示意图。该指令执行方法应用于本申请提供的电子设备，该电子设备包括处理器、专用语音识别芯片和麦克风，如图1所示，本申请实施例提供的指令执行方法的流程可以如下：

在101中，在处理器处于休眠状态时，通过预设滑动窗口从预设缓存队列中提取第一音频数据提供给专用语音识别芯片，预设缓存队列用于缓存麦克风采集的外部音频数据。

应当说明的是，本申请实施例中的专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。其中，专用语音识别芯片、处理器之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。其中，处理器在电子设备的屏幕处于熄屏状态时休眠，而专用语音识别芯片在屏幕处于亮屏状态时休眠。此外，电子设备所包括的麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的麦克风，也可以是无线的麦克风)。

本申请实施例中，在处理器处于休眠状态时(专用语音识别芯片处于唤醒状态)，一方面，电子设备通过麦克风采集外部的声音得到外部音频数据，并将采集到的外部音频数据缓存至预设缓存队列中。该预设缓存队列以进出栈的形式缓存来自于麦克风的外部音频数据。此外，本申请实施例中对于预设缓存队列所能够缓存外部音频数据的长度不做限制，可由本领域普通技术人员根据实际需要取经验值，比如，本申请实施例中设置预设缓存队列的缓存长度为6秒，即该预设缓存队列能够累计缓存时长为6秒的外部音频数据。

本领域普通技术人员可以理解的是，若电子设备所包括的麦克风为数字麦克风，则将直接采集到数字化的外部音频数据，无需再进行模数转换。

另一方面，电子设备通过预设滑动窗口从预设缓存队列中提取音频数据，记为第一音频数据，并将提取到的第一音频数据提供给专用语音识别芯片。

应当说明的是，本申请实施例中对于预设滑动窗口的时长不做具体限制，可由本领域普通技术人员根据实际需要取经验值，比如，本申请实施例中设置预设滑动窗口的时长为2.5秒。

比如，请参照图2，预设缓存队列中缓存了时长为6秒的外部音频数据“小欧小欧今天天气怎么样”，电子设备通过预设滑动窗口从预设缓存队列中提取时长为2.5秒的第一音频数据“小欧小欧”。

在102中，基于专用语音识别芯片校验第一音频数据，若校验通过，则唤醒处理器，并在唤醒处理器后控制专用语音识别芯片休眠。

本申请实施例中，在将第一音频数据提供给专用语音识别芯片之后，电子设备进一步基于专用语音识别芯片上运行的第一校验算法校验该第一音频数据，得到校验结果。其中，包括但不限于校验第一音频数据的文本特征和/或声纹特征。

通俗的说，校验第一音频数据的文本特征也即是校验第一音频数据中是否包括预设唤醒词，只要第一音频数据包括预设唤醒词，即校验第一音频数据的文本特征通过，而不论该预设唤醒词由谁说出。比如，第一音频数据包括了预设用户(比如，电子设备的机主，或者机主授权使用电子设备的其他用户)设置的预设唤醒词，但是该预设唤醒词由用户A说出，而不是预设用户，专用语音识别芯片在基于第一校验算法校验第一音频数据的文本特征时，将校验通过。

而校验第一音频数据的文本特征以及声纹特征也即是校验第一音频数据中是否包括预设用户说出的预设唤醒词，若第一音频数据中包括预设用户说出的预设唤醒词，则第一音频数据的文本特征以及声纹特征校验通过，否则校验不通过。比如，第一音频数据包括了预设用户设置的预设唤醒词，且该预设唤醒词由预设用户说出，则该第一音频数据的文本特征以及声纹特征校验通过；又比如，第一音频数据包括了预设用户之外的其他用户说出的预设唤醒词，或者第一音频数据不包括任何用户说出的预设唤醒词时，则该第一音频数据的文本特征以及声纹特征将校验失败(或者说未校验通过)。

本申请实施例中，电子设备在基于专用语音识别芯片校验第一音频数据通过时，基于专用语音识别芯片与处理器之间的通信连接发送预设的中断信号至处理器，以唤醒处理器。在唤醒处理器之后，还基于专用语音识别芯片将第一音频数据提供给处理器，并休眠专用语音识别芯片。

应当说明的是，若第一音频数据未校验通过，则电子设备继续将通过任一麦克风获取到的外部的第一音频数据提供给专用语音识别芯片进行校验，直至校验通过。

在103中，基于处理器校验第一音频数据，若校验通过，则提取预设缓存队列中位于第一音频数据之后的第二音频数据提供给处理器。

电子设备在唤醒处理器，并将第一音频数据提供给处理器之后，进一步通过处理器运行的第二校验算法校验该第一音频数据，得到校验结果，其中，包括但不限于校验前述第一音频数据的文本特征和/或声纹特征，专用语音识别芯片运行的第一校验算法与处理器运行的第二校验算法可以相同，也可以不同，本申请实施例对此不做具体限制。

应当说明的是，本申请实施例中，假定用户连续说出了唤醒词和语音指令，比如图2中的预设缓存队列中缓存的外部音频数据“小欧小欧今天天气怎么样”，其中，“小欧小欧”为唤醒词，“今天天气怎么样”为指示电子设备反馈今天天气的语音指令。基于此，本申请实施例中，电子设备在基于处理器校验第一音频数据通过时，进一步提取预设缓存队列中位于第一音频数据之后的音频数据，记为第二音频数据，并将提取到的第二音频数据提供给处理器。比如，可以基于SoundTrigger框架将提取到的第二音频数据提供给处理器。

此外，若基于处理器校验第一音频数据通过，电子设备还切换屏幕至亮屏状态。

在104中，基于处理器识别第二音频数据所携带的语音指令，并执行语音指令。

本申请实施例中，在从预设缓存队列中提取到第二音频数据并提供给处理器之后，电子设备进一步基于处理器调用的语音识别引擎将第二音频数据转换为对应的文本内容，从而从该文本内容中识别出第二音频数据所携带的语音指令，进而执行识别出的语音指令。

比如，第二音频数据为“今天天气怎么样”，将其转换为文本内容后识别出且携带的语音指令为指示电子设备反馈今天天气的语音指令，则电子设备可以通过网络查询到今天的天气信息，通过语音、图像和/或文字的方式将查询到的天气信息反馈给用户。

其中，电子设备预先存储有多个指令关键词，每一个指令关键词对应一个语音指令。在从转换得到的文本内容中识别出第二音频数据所携带的语音指令时，电子设备首先对前述文本内容进行分词操作，得到对应文本内容的词序列，该词序列中包括多个词。

在得到对应文本内容的词序列之后，电子设备对词序列进行指令关键词的匹配，也即是查找出词序列中包括指令关键词，从而得到对应指令关键词的语音指令，将这个语音指令作为第二音频数据所携带的语音指令。其中，指令关键词的匹配查找包括完全匹配和/或模糊匹配。

由上可知，本申请实施例中，电子设备在处理器处于休眠状态时，通过预设缓存队列缓存外部音频数据，并利用低功耗的专用语音识别芯片对预设缓存队列中提取的第一音频数据进行校验，若校验通过则唤醒处理器，由处理器对第一音频数据进行二次校验，并在二次校验通过时，提取第一音频数据之后的第二音频数据进行指令识别，并执行。由此，能够降低电子设备实现语音唤醒的功耗，同时，由于能够在唤醒的同时执行指令，还提高了语音控制的易用性。

在一实施例中，“基于专用语音识别芯片校验第一音频数据”之后，还包括：

若校验失败，则移动预设滑动窗口，从预设缓存队列中提取新的第一音频数据提供给专用语音识别芯片，并转入102。

本申请实施例中，电子设备在基于专用语音识别芯片校验第一音视频数据失败时，按照预设步长移动预设滑动窗口，从预设缓存队列中提取音频数据，得到新的第一音频数据。然后，重新基于专用语音识别芯片校验第一音频数据，并根据校验结果，确定是否唤醒处理器，以执行以上实施例中描述的相关后续操作，或者是继续移动预设滑动窗口，直至提取到能够通过专用语音识别芯片校验的第一音频数据。其中，本申请实施例中对于预设步长的取值不做具体限制，可由本领域普通技术人员根据实际需要取经验值，比如，本申请实施例中设置预设步长为0.5秒。

比如，请结合参照图2和图3，其中，电子设备第一次提取到的第一音频数据为“小欧小欧”，且基于专用语音识别芯片校验第一音频数据“小欧小欧”失败，此时电子设备按照预设步长0.5秒移动预设滑动窗口，提取到新的第一音频数据“欧小欧今”。

在一实施例中，“基于处理器校验第一音频数据”之后，还包括：

若校验失败，则基于处理器唤醒专用语音识别芯片，并控制处理器休眠。

在一实施例中，“提取预设缓存队列中位于第一音频数据之后的第二音频数据提供给处理器”之前，还包括：

(1)判断本地的第一语音识别引擎是否处于使能状态；

(2)若是，则提取预设缓存队列中位于第一音频数据之后的第二音频数据提供给处理器；

“基于处理器识别第二音频数据所携带的语音指令”，包括：

(3)基于处理器调用第一语音识别引擎识别第二音频数据所携带的语音指令。

应当说明的是，本申请实施例中，提供有本地的第一语音识别引擎和云端的第二语音识别引擎，用于将音频数据转换为文本内容。其中，由于第一语音识别引擎基于电子设备的处理器运行，第二语音识别引擎基于服务器的处理器运行，第二语音识别引擎相较于第一语音识别引擎具有更强的文本转换能力，但是需要电子设备接入到网络才能使用，并且需要花费一定的数据流量，而第一语音识别引擎无需电子设备接入网络即可使用。

因此，本申请实施例中，在提取预设缓存队列中位于第一音频数据之后的第二音频数据提供给处理器之前，电子设备还判断本地的第一语音识别引擎是否处于使能状态，若本地的第一语音识别引擎处于使能状态，则提取预设缓存队列中位于第一音频数据之后的第二音频数据提供给处理器，具体可参照以上实施例中的相关描述，此处不再赘述。

这样，在基于处理器识别第二音频数据所携带的语音指令时，电子设备可以基于处理器调用本地的第一语音识别引擎，将第二音频数据输入到第一语音识别引擎，由第一语音识别引擎将第二音频数据转换为对应的文本内容。然后，电子设备从转换得到的文本内容中识别出第二音频数据所携带的语音指令，具体可参照以上实施例的相关描述，此处不再赘述。

在一实施例中，“判断本地的第一语音识别引擎是否处于使能状态”之后，还包括：

(1)若否，且云端的第二语音识别引擎处于使能状态，则提取预设缓存队列中的全部音频数据提供给处理器；

(2)基于处理器调用第二语音识别引擎识别全部音频数据所携带的语音指令，并执行语音指令。

本申请实施例中，电子设备在判断本地的第一语音识别引擎是否处于使能状态之后，若判定本地的第一语音识别引擎未处于使能状态，则电子设备进一步判断云端的第二语音识别引擎是否处于使能状态，若判定云端的第二语音识别引擎处于使能状态，则电子设备提取预设缓存队列中的全部音频数据提供给处理器。

然后，电子设备基于处理器调用云端的第二语音识别引擎，将提取的全部音频数据输入到第二语音识别引擎，由第二语音识别引擎将前述全部音频数据转换为对应的文本内容。然后，电子设备从转换得到的文本内容中识别出前述全部音频数据所携带的语音指令，具体可参照以上实施例的相关描述，此处不再赘述。

同样的，电子设备在识别得到前述全部音频数据所携带的语音指令之后，执行该语音指令。

在一实施例中，预设缓存队列以数组格式缓存外部音频数据，“基于处理器识别第二音频数据所携带的语音指令”之前，还包括：

基于处理器转换第二音频数据的数据格式，得到音频格式的第二音频数据。

应当说明的是，为了获得更高的处理效率，语音识别引擎支持数组格式音频数据的输入。相应的，本申请实施例中，预设缓存队列以数组格式缓存麦克风采集的外部音频数据。然而，并不是所有的语音识别引擎均支持数组格式音频数据的输入，若直接将数组格式的第二音频数据输入到不支持数组格式音频数据的语音识别引擎中，将无法识别到第二音频数据所携带的语音指令。

因此，本申请实施例中，电子设备在基于处理器识别第二音频数据所携带的语音指令(比如，电子设备可以基于处理器调用的第一语音识别引擎识别第二音频数据所携带的语音指令，还可以基于处理器调用的第二语音识别引擎识别第二音频数据所携带的语音指令)之前，判断使能的语音识别引擎是否支持数组格式音频数据的输入，若不支持，则电子设备基于处理器转换第二音频数据的数据格式，即将第二音频数据的数据格式由数组格式转换为音频格式，从而得到音频格式的第二音频数据。

比如，电子设备可以基于处理器调用audiorecord服务，将数组格式的第二音频数据转换为wav格式的第二音频数据。

在一实施例中，麦克风在监听模式下采集外部音频数据缓存至预设缓存队列，在基于处理器校验第一音频数据通过后，本申请实施例通过的指令执行方法还包括：

切换麦克风至录音模式，使得麦克风将采集的外部音频数据直接提供给处理器。

应当说明的是，本申请实施例中，电子设备在基于处理器校验第一音频数据通过后，在切换屏幕至亮屏状态的同时，还唤醒语音交互应用。其中，语音交互应用即俗称的语音助手，比如欧珀的语音助手“小欧”等。

此外，还应当说明的是，本申请实施例中的麦克风具有两种工作模式，分别为监听模式和录音模式，其中，麦克风在监听模式将采集的外部音频数据缓存至预设缓存队列中缓存，而在录音模式，麦克风将采集的外部音频数据直接提供的处理器进行处理、识别。

本申请实施例中，电子设备在基于处理器校验第一音频数据通过后，切换麦克风至录音模式，使得麦克风将采集的外部音频数据直接提供给处理器，从而基于处理器调用的语音识别引擎识别来自于麦克风的外部音频数据，并执行其中所携带的语音指令。

在一实施例中，“基于处理器校验第一音频数据”，包括：

(1)基于处理器对第一音频数据进行端点检测，并根据端点检测结果将第一音频数据划分为多个子音频数据；

(2)基于处理器调用与预设文本相关的声纹特征提取模型提取各子音频数据的声纹特征向量；

(3)基于处理器获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设用户说出预设文本的音频信号的声纹特征向量；

(4)根据各子音频数据对应的相似度，基于处理器校验第一音频数据的文本特征以及声纹特征。

本申请实施例中，电子设备首先基于处理器采用预设端点检测算法对第一音频数据进行端点检测，然后根据端点检测结果提取出第一音频数据的语音部分，并将语音部分划分为多个子音频数据。应当说明的是，对于处理器采用的端点检测算法，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要选取，比如，本申请实施例中，处理器采用VAD(Voice Activity Detection，语音端点检测)算法对第一音频数据进行端点检测。另外，在将语音部分划分为多个子音频数据时，可根据预设唤醒词的长度，将语音部分划分为多个子音频数据，其中，各子音频数据的长度大于或等于预设唤醒词的长度，且相邻两个子音频数据具有重合部分，对于重合部分的长度可由本领域普通技术人员根据实际需要设置，比如，本申请实施例中设置为子音频数据长度的25％。

应当说明的是，本申请实施例中还预先训练有与预设文本(比如预设唤醒词)相关的声纹特征提取模型。比如，本申请实施例中训练基于卷积神经网络的声纹特征提取模型，请参照图4，可以预先采集多人(比如200人)说出预设唤醒词的音频数据，然后对这些音频数据进行端点检测，分割出其中的预设唤醒词部分，然后对分割出的预设唤醒词部分进行预处理和加窗，再进行傅里叶变换(比如短时傅里叶变换)，对于傅里叶变换后的音频数据，计算其能量密度，生成灰度的语谱图(如图5所示，其中横轴表示时间，纵轴表示频率，灰度值表示能量值)，最后，利用卷积神经网络对生成的语谱图进行训练，生成与预设文本相关的声纹特征提取模型。另外，本申请实施例中还提取预设用户说出预设唤醒词(即预设文本)的音频数据的语谱图，并输入到之前训练的声纹特征提取模型中，经过声纹特征提取模型的多个卷积层、池化层以及全连接层后，将输出对应的一组特征向量，将其记为目标声纹特征向量。

相应的，处理器在将第一音频数据划分为多个子音频数据之后，分别提取多个子音频数据的语谱图。其中，对于如何提取语谱图，此处不再赘述，具体可参照以上相关描述。在提取到前述多个子音频数据的语谱图之后，电子设备基于处理器分别将前述多个子音频数据的语谱图输入到之前训练的声纹特征提取模型，从而得到各子音频数据的声纹特征向量。

在提取得到各子音频数据的声纹特征向量之后，电子设备进一步基于处理器分别获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，然后，根据各子音频数据对应的相似度来校验第一音频数据的文本特征以及声纹特征。比如，电子设备可以判断是否存在声纹特征向量与目标声纹特征向量之间的相似度达到预设相似度(可由本领域普通技术人员根据实际需要取经验值，比如可以设置为75％)的子音频数据，若存在，则判定第一音频数据的文本特征以及声纹特征校验通过。

在一实施例中，“根据各子音频数据对应的相似度，基于处理器校验第一音频数据的文本特征以及声纹特征”，包括：

根据各子音频数据对应的相似度以及预设的识别函数，基于处理器校验第一音频数据的文本特征以及声纹特征；

其中，识别函数为γ_n＝γ_n-1+f(l_n)，γ_n表示第n个子音频数据对应的识别函数状态值，γ_n-1表示第n-1个子音频数据对应的识别函数状态值，

a为识别函数的修正值，b为预设相似度，l_n为第n个子音频数据的声纹特征向量与目标声纹特征向量之间的相似度；

处理器在存在大于预设识别函数状态值的γ_n时，判定第一音频数据的文本特征以及声纹特征校验通过。

应当说明的是，识别函数中a的取值可由本领域普通技术人员根据实际需要取经验值，比如，可以将a取值为1。

另外，识别函数中b的取值与声纹特征提取模型的识别率正相关，根据实际训练得到的声纹特征提取模型的识别率确定b的取值。

另外，预设识别函数状态值也可由本领域普通技术人员根据实际需要取经验值，其取值越大，对第一音频数据校验的准确度也就也大。

由此，通过该识别函数，即使当第一音频数据包括预设唤醒词之外的其它信息，也能够准确的对其进行识别。

在一实施例中，“基于处理器获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度”，包括：

基于处理器按照动态时间规整算法计算各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度；

或者，基于处理器计算各子音频数据的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度。

本申请实施例中，在获取各子音频数据的声纹特征向量与目标声纹特征训练之间的相似度时，可基于处理器按照动态时间规整算法计算各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度。

或者，可基于处理器计算各子音频数据的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度，其中，对于采用何种特征距离来衡量两个向量之间的相似度，本申请实施例中不做具体限制，比如，可以采用欧几里得距离来衡量子音频数据的声纹特征向量与目标声纹特征向量之间的相似度。

图6为本申请实施例提供的指令执行方法的另一流程示意图。该指令执行方法应用于本申请提供的电子设备，该电子设备包括处理器、专用语音识别芯片和麦克风，如图6所示，本申请实施例提供的指令执行方法的流程可以如下：

在201中，电子设备在处理器处于休眠状态时，通过预设滑动窗口从预设缓存队列中提取第一音频数据提供给专用语音识别芯片，预设缓存队列用于缓存麦克风采集的外部音频数据。

在202中，电子设备基于专用语音识别芯片校验第一音频数据，若校验通过，则唤醒处理器，并在唤醒处理器后控制专用语音识别芯片休眠。

在203中，电子设备基于处理器校验第一音频数据，若校验通过，则判断本地的第一语音识别引擎是否处于使能状态，是则转入204，否则转入206。

本申请实施例中，电子设备在基于处理器校验第一音频数据通过后，还判断本地的第一语音识别引擎是否处于使能状态，从而根据判断结果确定使用第一语音识别引擎，或是使用第二语音识别引擎。

在204中，电子设备提取预设缓存队列中位于第一音频数据之后的第二音频数据提供给处理器。

若本地的第一语音识别引擎处于使能状态，则电子设备提取预设缓存队列中位于第一音频数据之后的第二音频数据提供给处理器，具体可参照以上实施例中的相关描述，此处不再赘述。

在205中，电子设备基于处理器调用第一语音识别引擎识别第二音频数据所携带的语音指令，并执行该语音指令。

其中，电子设备可以基于处理器调用本地的第一语音识别引擎，将第二音频数据输入到第一语音识别引擎，由第一语音识别引擎将第二音频数据转换为对应的文本内容。然后，电子设备从转换得到的文本内容中识别出第二音频数据所携带的语音指令，具体可参照以上实施例的相关描述，此处不再赘述。

在206中，若云端的第二语音识别引擎处于使能状态，则电子设备提取预设缓存队列中的全部音频数据提供给处理器。

在207中，电子设备基于处理器调用第二语音识别引擎识别全部音频数据所携带的语音指令，并执行语音指令。

其中，电子设备基于处理器调用云端的第二语音识别引擎，将提取的全部音频数据输入到第二语音识别引擎，由第二语音识别引擎将前述全部音频数据转换为对应的文本内容。然后，电子设备从转换得到的文本内容中识别出前述全部音频数据所携带的语音指令，具体可参照以上实施例的相关描述，此处不再赘述。

请参照图7，图7为本申请实施例提供的指令执行装置的结构示意图。该指令执行装置可以应用于电子设备，该电子设备包括处理器、专用语音识别芯片和麦克风，且专用语音识别芯片的功耗小于处理器的功耗。指令执行装置可以包括音频提取模块401、第一校验模块402、第二校验模块403以及指令执行模块404，其中，

音频提取模块401，用于在处理器处于休眠状态时，通过预设滑动窗口从预设缓存队列中提取第一音频数据提供给专用语音识别芯片，预设缓存队列用于缓存麦克风采集的外部音频数据；

第一校验模块402，用于基于专用语音识别芯片校验第一音频数据，若校验通过，则唤醒处理器，并在唤醒处理器后控制专用语音识别芯片休眠；

第二校验模块403，用于基于处理器校验第一音频数据，若校验通过，则提取预设缓存队列中位于第一音频数据之后的第二音频数据提供给处理器；

指令执行模块404，用于基于处理器识别第二音频数据所携带的语音指令，并执行语音指令。

在一实施例中，在基于专用语音识别芯片校验第一音频数据之后，音频提取模块401还用于在专用语音识别芯片校验第一音频数据失败时，移动预设滑动窗口，从预设缓存队列中提取新的第一音频数据提供给专用语音识别芯片，指示第一校验模块402基于专用语音识别芯片校验新的第一音频数据。

在一实施例中，第二校验模块403还用于在基于处理器校验第一音频数据之后，若校验失败，则基于处理器唤醒专用语音识别芯片，并控制处理器休眠。

在一实施例中，在提取预设缓存队列中位于第一音频数据之后的第二音频数据提供给处理器之前，第二校验模块403还用于：

判断本地的第一语音识别引擎是否处于使能状态；

若是，则提取预设缓存队列中位于第一音频数据之后的第二音频数据提供给处理器；

在基于处理器识别第二音频数据所携带的语音指令时，指令执行模块404可以用于：

基于处理器调用第一语音识别引擎识别第二音频数据所携带的语音指令。

在一实施例中，在判断本地的第一语音识别引擎是否处于使能状态之后，第二校验模块403还用于：

若否，且云端的第二语音识别引擎处于使能状态，则提取所述预设缓存队列中的全部音频数据提供给所述处理器；

指令执行模块404还用于基于处理器调用第二语音识别引擎识别全部音频数据所携带的语音指令，并执行语音指令。

在一实施例中，预设缓存队列以数组格式缓存外部音频数据，在基于处理器识别第二音频数据所携带的语音指令之前，指令执行模块404还用于：

在一实施例中，麦克风在监听模式下采集外部音频数据缓存至预设缓存队列，在基于处理器校验第一音频数据通过后，指令执行模块404还用于切换麦克风至录音模式，使得麦克风将采集的外部音频数据直接提供给处理器。

在一实施例中，在基于处理器校验第一音频数据时，第二校验模块403可以用于：

基于处理器对第一音频数据进行端点检测，并根据端点检测结果将第一音频数据划分为多个子音频数据；

基于处理器调用与预设文本相关的声纹特征提取模型提取各子音频数据的声纹特征向量；

基于处理器获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设用户说出预设文本的音频信号的声纹特征向量；

根据各子音频数据对应的相似度，基于处理器校验第一音频数据的文本特征以及声纹特征。

在一实施例中，在根据各子音频数据对应的相似度，基于处理器校验第一音频数据的文本特征以及声纹特征时，第二校验模块403可以用于：

在一实施例中，在基于处理器获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度时，第二校验模块403可以用于：

本申请实施例提供一种存储介质，其上存储有指令执行程序，当其存储的指令执行程序在本申请实施例提供的电子设备上执行时，使得电子设备执行如本申请实施例提供的指令执行方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(Read OnlyMemory，ROM)或者随机存取器(Random Access Memory，RAM)等。

本申请实施例还提供一种电子设备，请参照图8，电子设备包括音频采集单元501、处理器502、专用语音识别芯片503、麦克风504和存储器505，且专用语音识别芯片503的功耗小于处理器502的功耗，其中，专用语音识别芯片503、处理器502以及音频采集单元501任意二者之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

应当说明的是，本申请实施例中的专用语音识别芯片503是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用处理器，具有更低的功耗。

本申请实施例中的处理器是通用处理器，比如ARM架构的处理器。

存储器505中存储有指令执行程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器505还可以包括存储器控制器，以提供处理器502、专用语音识别芯片503、音频采集单元501对存储器505的访问，实现如下功能：

音频采集单元501用于在处理器502处于休眠状态时，通过预设滑动窗口从预设缓存队列中提取第一音频数据提供给专用语音识别芯片503，预设缓存队列用于缓存麦克风504采集的外部音频数据；

专用语音识别芯片503用于校验第一音频数据，并在校验通过时唤醒处理器502，以及在唤醒处理器502后休眠；

处理器502用于校验第一音频数据，并在校验通过时提取预设缓存队列中位于第一音频数据之后的第二音频数据；

处理器502还用于识别第二音频数据所携带的语音指令，并执行该语音指令。

在一实施例中，在基于专用语音识别芯片503校验第一音频数据之后，音频提取模块401还用于在专用语音识别芯片503校验第一音频数据失败时，移动预设滑动窗口，从预设缓存队列中提取新的第一音频数据提供给专用语音识别芯片503，指示专用语音识别芯片503校验新的第一音频数据。

在一实施例中，处理器502在校验第一音频数据之后，若校验失败，则基于唤醒专用语音识别芯片503，并休眠。

在一实施例中，处理器502在提取预设缓存队列中位于第一音频数据之后的第二音频数据之前，还用于：

判断本地的第一语音识别引擎是否处于使能状态；

若是，则提取预设缓存队列中位于第一音频数据之后的第二音频数据；

在识别第二音频数据所携带的语音指令时，处理器502可以用于：

调用第一语音识别引擎识别第二音频数据所携带的语音指令。

在一实施例中，在判断本地的第一语音识别引擎是否处于使能状态之后，处理器502还用于：

若否，且云端的第二语音识别引擎处于使能状态，则提取所述预设缓存队列中的全部音频数据；

调用第二语音识别引擎识别全部音频数据所携带的语音指令，并执行语音指令。

在一实施例中，预设缓存队列以数组格式缓存外部音频数据，处理器502在识别第二音频数据所携带的语音指令之前，还用于：

转换第二音频数据的数据格式，得到音频格式的第二音频数据。

在一实施例中，麦克风504在监听模式下采集外部音频数据缓存至预设缓存队列，处理器502在校验第一音频数据通过后，还用于切换麦克风504至录音模式，使得麦克风504将采集的外部音频数据直接提供给处理器502。

在一实施例中，处理器502在校验第一音频数据时，可以用于：

对第一音频数据进行端点检测，并根据端点检测结果将第一音频数据划分为多个子音频数据；

调用与预设文本相关的声纹特征提取模型提取各子音频数据的声纹特征向量；

获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设用户说出预设文本的音频信号的声纹特征向量；

根据各子音频数据对应的相似度，校验第一音频数据的文本特征以及声纹特征。

在一实施例中，处理器502在根据各子音频数据对应的相似度，校验第一音频数据的文本特征以及声纹特征时，可以用于：

根据各子音频数据对应的相似度以及预设的识别函数，校验第一音频数据的文本特征以及声纹特征；

处理器502在存在大于预设识别函数状态值的γ_n时，判定第一音频数据的文本特征以及声纹特征校验通过。

在一实施例中，处理器502在获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度时，可以用于：

按照动态时间规整算法计算各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度；

或者，计算各子音频数据的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的指令执行方法属于同一构思，在电子设备上可以运行指令执行方法实施例中提供的任一方法，其具体实现过程详见特征提取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的指令执行方法而言，本领域普通测试人员可以理解实现本申请实施例的指令执行方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和专用语音识别芯片执行，在执行过程中可包括如指令执行方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种指令执行方法、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种指令执行方法，应用于电子设备，其特征在于，所述电子设备包括处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述指令执行方法包括：

基于所述专用语音识别芯片校验所述第一音频数据，若校验通过，则唤醒所述处理器，并在唤醒所述处理器后控制所述专用语音识别芯片休眠，若校验不通过，则按照预设步长移动预设滑动窗口，继续通过移动后的预设滑动窗口从所述预设缓存队列中提取新的第一音频数据，基于所述专用语音识别芯片检验所述新的第一音频数据，直至校验通过；

对于校验通过的第一音频数据，基于所述处理器校验所述第一音频数据，若校验通过，则唤醒语音交互应用；

提取所述预设缓存队列中位于所述第一音频数据之后的第二音频数据提供给所述处理器；

基于所述处理器识别所述第二音频数据所携带的语音指令，并通过所述语音交互应用执行所述语音指令。

2.根据权利要求1所述的指令执行方法，其特征在于，所述提取所述预设缓存队列中位于所述第一音频数据之后的第二音频数据提供给所述处理器之前，还包括：

判断本地的第一语音识别引擎是否处于使能状态；

若是，则提取所述预设缓存队列中位于所述第一音频数据之后的第二音频数据提供给所述处理器；

所述基于所述处理器识别所述第二音频数据所携带的语音指令包括：

基于所述处理器调用所述第一语音识别引擎识别所述第二音频数据所携带的语音指令。

3.根据权利要求2所述的指令执行方法，其特征在于，所述判断本地的第一语音识别引擎是否处于使能状态之后，还包括：

基于所述处理器调用所述第二语音识别引擎识别所述全部音频数据所携带的语音指令，并执行所述语音指令。

4.根据权利要求1-3任一项所述的指令执行方法，其特征在于，所述预设缓存队列以数组格式缓存所述外部音频数据，所述基于所述处理器识别所述第二音频数据所携带的语音指令之前，还包括：

基于所述处理器转换所述第二音频数据的数据格式，得到音频格式的第二音频数据。

5.根据权利要求1-3任一项所述的指令执行方法，其特征在于，所述麦克风在监听模式下采集外部音频数据缓存至所述预设缓存队列，在基于所述处理器校验所述第一音频数据通过后，还包括：

切换所述麦克风至录音模式，使得所述麦克风将采集的外部音频数据直接提供给所述处理器。

6.根据权利要求1-3任一项所述的指令执行方法，其特征在于，所述基于所述处理器校验所述第一音频数据，包括：

基于所述处理器对所述第一音频数据进行端点检测，并根据端点检测结果将所述第一音频数据划分为多个子音频数据；

基于所述处理器调用与预设文本相关的声纹特征提取模型提取各所述子音频数据的声纹特征向量；

基于所述处理器获取各所述子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，所述目标声纹特征向量为预设用户说出所述预设文本的音频信号的声纹特征向量；

根据各所述子音频数据对应的相似度，基于所述处理器校验所述第一音频数据的文本特征以及声纹特征。

7.根据权利要求6所述的指令执行方法，其特征在于，所述根据各所述子音频数据对应的相似度，基于所述处理器校验所述第一音频数据的文本特征以及声纹特征，包括：

根据各所述子音频数据对应的相似度以及预设的识别函数，基于所述处理器校验所述第一音频数据的文本特征以及声纹特征；

其中，所述识别函数为γ_n＝γ_n-1+f(l_n)，γ_n表示第n个子音频数据对应的识别函数状态值，γ_n-1表示第n-1个子音频数据对应的识别函数状态值，

a为所述识别函数的修正值，b为预设相似度，l_n为第n个子音频数据的声纹特征向量与所述目标声纹特征向量之间的相似度；

所述处理器在存在大于预设识别函数状态值的γ_n时，判定所述第一音频数据的文本特征以及声纹特征校验通过。

8.一种指令执行装置，应用于电子设备，其特征在于，所述电子设备包括处理器、专用语音识别芯片和麦克风，所述指令执行装置包括：

第一校验模块，用于基于所述专用语音识别芯片校验所述第一音频数据，若校验通过，则唤醒所述处理器，并在唤醒所述处理器后控制所述专用语音识别芯片休眠，若校验不通过，则按照预设步长移动预设滑动窗口，继续通过移动后的预设滑动窗口从所述预设缓存队列中提取新的第一音频数据，基于所述专用语音识别芯片检验所述新的第一音频数据，直至校验通过；

第二校验模块，用于对于校验通过的第一音频数据，基于所述处理器校验所述第一音频数据，若校验通过，则唤醒语音交互应用，提取所述预设缓存队列中位于所述第一音频数据之后的第二音频数据提供给所述处理器；

指令执行模块，用于基于所述处理器识别所述第二音频数据所携带的语音指令，并通过所述语音交互应用执行所述语音指令。

9.一种电子设备，其特征在于，所述电子设备包括音频采集单元、处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，其中，

所述专用语音识别芯片用于校验所述第一音频数据，并在校验通过时唤醒所述处理器，以及在唤醒所述处理器后休眠，若校验不通过，则按照预设步长移动预设滑动窗口，继续通过移动后的预设滑动窗口从所述预设缓存队列中提取新的第一音频数据，基于所述专用语音识别芯片检验所述新的第一音频数据，直至校验通过；

所述处理器用于对于校验通过的第一音频数据，校验所述第一音频数据，并在校验通过时唤醒语音交互应用，提取所述预设缓存队列中位于所述第一音频数据之后的第二音频数据；

所述处理器还用于识别所述第二音频数据所携带的语音指令，并通过所述语音交互应用执行所述语音指令。

10.一种存储介质，其特征在于，当所述存储介质中存储的计算机程序在包括处理器、专用语音识别芯片和麦克风的电子设备运行时，使得所述电子设备执行如权利要求1至7任一项所述的指令执行方法中的步骤，其中，所述专用语音识别芯片的功耗小于所述处理器的功耗。