CN110544468B

CN110544468B - 应用唤醒方法、装置、存储介质及电子设备

Info

Publication number: CN110544468B
Application number: CN201910786534.4A
Authority: CN
Inventors: 陈喆
Original assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2022-07-12
Anticipated expiration: 2039-08-23
Also published as: CN110544468A

Abstract

本申请实施例公开了一种应用唤醒方法、装置、存储介质及电子设备，其中，本申请通过获取电子设备的当前状态信息，并根据该当前状态信息确定出电子设备的当前使用场景，进而调用预先训练的对应该当前使用场景的目标一级校验模型和目标二级校验模型，利用调用的目标一级校验模型和目标二级校验模型依次对采集的语音数据进行针对性的校验，并在校验通过时唤醒语音交互应用，实现与用户之间的语音交互。相较于相关技术，本申请实施例中根据电子设备的使用场景不同，采用不同校验模型进行针对性的校验，并通过两次校验来确保校验的准确性，能提高电子设备在不同使用场景下唤醒语音交互应用的成功率。

Description

应用唤醒方法、装置、存储介质及电子设备

技术领域

本申请涉及语音识别技术领域，具体涉及一种应用唤醒方法、装置、存储介质及电子设备。

背景技术

目前，通过语音识别技术，用户可以在不方便直接操控电子设备的情况下通过语音来唤醒语音交互应用，进而通过与语音交互应用之间的语音交互实现对电子设备的控制。现有技术在进行语音识别时，通常利用预先训练的校验模型来对实时采集的语音数据进行校验。然而，当电子设备实际所处的场景与训练校验模型时的场景差异较大时，则容易导致校验失败，无法唤醒语音交互应用。

发明内容

本申请实施例提供了一种应用唤醒方法、装置、存储介质及电子设备，能够提高电子设备在不同使用场景下唤醒语音交互应用的成功率。

第一方面，本申请实施例了提供了的一种应用唤醒方法，应用于电子设备，该应用唤醒方法包括：

获取所述电子设备的当前状态信息，并根据所述当前状态信息确定所述电子设备的当前使用场景；

调用预先训练的对应所述当前使用场景的目标一级校验模型和目标二级校验模型；

采集外部的语音数据，并通过所述目标一级校验模型对所述语音数据进行一级校验；

若所述语音数据通过一级校验，则通过所述目标二级校验模型对所述语音数据进行二级校验；

若所述语音数据通过二级校验，则唤醒语音交互应用。

第二方面，本申请实施例了提供了的一种应用唤醒装置，应用于电子设备，该应用唤醒装置包括：

场景识别模块，用于获取所述电子设备的当前状态信息，并根据所述当前状态信息确定所述电子设备的当前使用场景；

模型调用模块，用于调用预先训练的对应所述当前使用场景的目标一级校验模型和目标二级校验模型；

第一校验模块，用于采集外部的语音数据，并通过所述目标一级校验模型对所述语音数据进行一级校验；

第二校验模块，用于当所述语音数据通过一级校验时，通过所述目标二级校验模型对所述语音数据进行二级校验；

应用唤醒模块，用于当所述语音数据通过二级校验时，唤醒语音交互应用。

第三方面，本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器和/或专用语音识别芯片调用时执行如本申请任一实施例提供的应用唤醒方法。

第四方面，本申请实施例提供的电子设备，包括处理器、存储器和专用语音识别芯片，所述存储器存有计算机程序，所述处理器和/或所述专用语音识别芯片通过调用所述计算机程序，用于执行如本申请任一实施例提供的应用唤醒方法。

本申请通过获取电子设备的当前状态信息，并根据该当前状态信息确定出电子设备的当前使用场景，进而调用预先训练的对应该当前使用场景的目标一级校验模型和目标二级校验模型，利用调用的目标一级校验模型和目标二级校验模型依次对采集的语音数据进行针对性的校验，并在校验通过时唤醒语音交互应用，实现与用户之间的语音交互。相较于相关技术，本申请实施例中根据电子设备的使用场景不同，采用不同校验模型进行针对性的校验，并通过两次校验来确保校验的准确性，能提高电子设备在不同使用场景下唤醒语音交互应用的成功率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的应用唤醒方法的一流程示意图。

图2是本申请实施例中从一级校验模型集合中确定出目标一级校验模型的示意图。

图3是本申请实施例提供的应用唤醒方法的另一流程示意图。

图4是本申请实施例提供的应用唤醒装置的一结构示意图。

图5是本申请实施例提供的电子设备的一结构示意图。

图6是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例提供一种应用唤醒方法，该应用唤醒方法的执行主体可以是本申请实施例提供的应用唤醒装置，或者集成了该应用唤醒装置的电子设备，其中该应用唤醒装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

请参照图1，图1为本申请实施例提供的应用唤醒方法的流程示意图，本申请实施例提供的应用唤醒方法的具体流程可以如下：

101，获取电子设备的当前状态信息，并根据当前状态信息确定电子设备的当前使用场景。

比如，电子设备可以在开机后，周期性的获取其状态信息，其中，状态信息包括但不限于用于描述电子设备当前的使用状态、位置状态以及环境状态等的相关信息。

应当说明的是，当前并不用于特指某时刻，而是用于代指电子设备执行获取状态信息这一操作的时刻。因此，本申请实施例中在电子设备每次执行获取状态信息的“当前时刻”，将对应获取到的状态信息记为“当前状态信息”。

本申请实施例中，电子设备在获取到其当前状态信息之后，进一步根据获取到的当前状态信息确定其当前使用场景，其中，使用场景用于描述用户使用电子设备所处的场景，具体可由本领域普通技术人员根据实际需要进行定义，比如居家场景、驾驶场景等。

102，调用预先训练的对应当前使用场景的目标一级校验模型和目标二级校验模型。

应当说明的是，本申请实施例在电子设备预先存储有一级校验模型集合和二级校验模型集合，其中一级校验模型中包括多个预先训练的一级校验模型，分别适于在不同的使用场景下对输入的语音数据进行一级校验，二级校验模型中包括多个预先训练的二级校验模型，分别适于在不同的使用场景下对输入的语音数据进行二级校验。

本申请实施例中，电子设备在确定其所处的当前使用场景后，进一步从一级校验模型集合中确定出对应当前使用场景的目标一级校验模型，以及从二级校验模型集合中确定出对应当前使用场景的目标二级校验模型，然后，调用确定出的目标一级校验模型和目标二级校验模型。

示例性的，电子设备包括专用语音识别芯片和处理器，其中，处理器为通用处理器，比如ARM架构的处理器。专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。

在调用对应当前使用场景的目标一级校验模型和目标二级校验模型时，电子设备通过专用语音识别芯片调用目标一级校验模型，通过处理器调用目标二级校验模型。

比如，请参照图2，一级校验模型集合中包括四个一级校验模型，分别为适于在A使用场景进行校验的一级校验模型A、适于在B使用场景进行校验的一级校验模型B、适于在C使用场景进行校验的一级校验模型C以及适于在D使用场景进行校验的一级校验模型D。若电子设备确定其当前使用场景为A使用场景，则从一级校验模型集合中选取一级校验模型A作为目标一级校验模型；若电子设备确定其当前使用场景为B使用场景，则从一级校验模型集合中选取一级校验模型B作为目标一级校验模型，以此类推。

103，采集外部的语音数据，并通过目标一级校验模型对语音数据进行一级校验。

电子设备在分别调用目标一级校验模型和目标二级校验模型之后，通过设置的麦克风采集外部的语音数据。其中，电子设备所设置的麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的麦克风，也可以是无线的麦克风)，本申请实施例对此不做具体限制。

应当说明的是，假设麦克风为模拟制式的麦克风，那么电子设备将通过该模拟制式的麦克风采集到模拟制式的语音数据，此时需要将模拟制式的语音数据进行模数转换，得到数字制式的语音数据，用于后续处理。比如，电子设备可以在通过模拟制式的麦克风采集到模拟制式的语音数据后，以16KHz的采样频率对模拟制式的语音数据进行采样，得到数字制式的语音数据。

此外，若麦克风为数字制式的麦克风，那么将直接采集到数字制式的语音数据，无需进行模数转换。

本申请实施例中，电子设备在采集到外部的语音数据之后，即通过调用的目标一级校验模型对语音数据进行一级校验，包括但不限于对语音数据的文本特征和/或声纹特征进行校验。

通俗的说，对语音数据的文本特征进行校验也即是校验该语音数据中是否包括预设关键词，只要语音数据中包括语音关键词，即校验通过。比如，采集到的语音数据中包括了预设用户(比如，电子设备的机主，或者机主授权使用电子设备的其他用户)设置的预设关键词，但是该预设关键词由用户A说出，而不是预设用户，此时也将校验通过。

而对语音数据的文本特征和声纹特征进行校验也即是校验语音数据中是否包括预设用户说出的预设关键词，若采集的语音数据中包括预设用户说出的预设关键词，则校验通过。比如，采集的语音数据包括了预设用户设置的预设关键词，且该预设关键词由预设用户说出，则该语音数据的文本特征以及声纹特征通过校验；又比如采集的语音数据包括了预设用户之外的其他用户说出的预设关键词，或者语音数据不包括任何用户说出的预设关键词，则该语音数据的文本特征和声纹特征校验失败(或者说未通过校验)。

104，若语音数据通过一级校验，则通过目标二级校验模型对语音数据进行二级校验。

当采集的语音数据通过一级校验时，则电子设备进一步通过调用的目标二级校验模型对语音数据进行二级校验，包括但不限于对语音数据的文本特征和/或声纹特征进行校验。

应当说明的是，一级校验和二级校验仅用于代指校验的先后顺序，并不用于限定的校验内容，换言之，在本申请实施例中，目标一级校验模型与目标二级校验模型可以相同，也可以不同。

105，若语音数据通过二级校验，则唤醒语音交互应用。

本申请实施例中，电子设备在语音数据通过二级校验时，判定用户当前存在交互需求，此时唤醒语音交互应用，利用该语音交互应用与用户进行语音交互。其中，语音交互应用即俗称的语音助手，比如欧珀的语音助手“小欧”等。

由上可知，本申请通过获取电子设备的当前状态信息，并根据该当前状态信息确定出电子设备的当前使用场景，进而调用预先训练的对应该当前使用场景的目标一级校验模型和目标二级校验模型，利用调用的目标一级校验模型和目标二级校验模型依次对采集的语音数据进行针对性的校验，并在校验通过时唤醒语音交互应用，实现与用户之间的语音交互。相较于相关技术，本申请实施例中根据电子设备的使用场景不同，采用不同校验模型进行针对性的校验，并通过两次校验来确保校验的准确性，能提高电子设备在不同使用场景下唤醒语音交互应用的成功率。

在一实施例中，“通过目标一级校验模型对语音数据进行一级校验”，包括：

(1)将语音数据输入到目标一级校验模型中进行评分，得到语音数据的评分分值；

(2)当评分分值达到目标一级校验模型对应的判别分值时，判定语音数据通过一级校验。

应当说明的是，一级校验模型可由评分函数训练得到，其中，评分函数用于将向量映射到数值，以此为约束，可由本领域普通技术人员根据实际需要选取合适的函数作为评分函数，本发明实施例对此不做具体限制。

本申请实施例中，电子设备在通过目标一级校验模型对语音数据进行一级校验时，首先提取能够表征语音数据的特征向量，将该特征向量输入到目标一级校验模型中进行评分，得到目标一级校验模型对该语音数据的评分分值。

然后，电子设备比较前述评分分值以及目标一级校验模型对应的判别分值，若前述评分分值达到目标一级校验模型对应的判别分值，则电子设备判定语音数据通过一级校验。

此外，“通过目标二级校验模型对语音数据进行二级校验”，包括：

(1)将语音数据输入到目标二级校验模型中进行评分，得到语音数据的评分分值；

(2)当该评分分值达到目标二级校验模型对应的判别分值时，判定语音数据通过二级校验。

其中，二级校验模型同样可由评分函数训练得到。本申请实施例中，电子设备在通过目标二级校验模型对语音数据进行二级校验时，首先提取能够表征语音数据的特征向量，将该特征向量输入到目标二级校验模型中进行评分，得到目标二级校验模型对该语音数据的评分分值。然后，电子设备比较前述评分分值以及目标二级校验模型对应的判别分值，若前述评分分值达到目标二级校验模型对应的判别分值，则电子设备判定语音数据通过二级校验。

在一实施例中，“调用预先训练的对应当前使用场景的目标一级校验模型”，包括：

(1)在调用目标一级校验模型失败时，对已调用的当前一级校验模型对应的判别分值进行调整；

(2)将调整后的当前一级校验模型作为对应当前使用场景的目标一级校验模型。

其中，存在多种调用目标一级校验模型失败的情况，比如，一级校验模型集合中不存在对应当前使用场景的目标一级校验模型，此时将调用失败。

本申请实施例中，在调用目标一级校验模型失败时，电子设备获取采集的语音数据的信噪比值，将该信噪比值与用于训练已调用的当前一级校验模型的样本语音数据的平均信噪比值进行比较，若当前采集的语音数据的信噪比值小于当前一级校验模型对应的平均信噪比值，则按照预设调整步长值降低当前一级校验模型的判别分值，将该调整后的当前一级校验模型作为对应当前使用场景的目标一级校验模型；若当前采集的语音数据的信噪比值大于当前一级校验模型对应的平均信噪比值，则按照预设调整步长值增加当前一级校验模型的判别分值，将该调整后的当前一级校验模型作为对应当前使用场景的目标一级校验模型；若当前采集的语音数据的信噪比值与当前一级校验模型对应的平均信噪比值相等，则直接将当前一级校验模型作为对应当前使用场景的目标一级校验模型。

此外，“调用预先训练的对应当前使用场景的目标二级校验模型”，包括：

(1)在调用目标二级校验模型失败时，对已调用的当前二级校验模型对应的判别分值进行调整；

(2)将调整后的当前二级校验模型作为对应当前使用场景的目标二级校验模型。

同理，本申请实施例中，在调用目标二级校验模型失败时，电子设备获取采集的语音数据的信噪比值，将该信噪比值与用于训练已调用的当前二级校验模型的样本语音数据的平均信噪比值进行比较，若当前采集的语音数据的信噪比值小于当前二级校验模型对应的平均信噪比值，则按照预设调整步长值降低当前二级校验模型的判别分值，将该调整后的当前二级校验模型作为对应当前使用场景的目标二级校验模型；若当前采集的语音数据的信噪比值大于当前二级校验模型对应的平均信噪比值，则按照预设调整步长值增加当前二级校验模型的判别分值，将该调整后的当前二级校验模型作为对应当前使用场景的目标二级校验模型；若当前采集的语音数据的信噪比值与当前二级校验模型对应的平均信噪比值相等，则直接将当前二级校验模型作为对应当前使用场景的目标二级校验模型。

如上所述，本申请实施例能够在面临新的使用场景时，自适应的对当前已调用的校验模型进行调整，作为对应该新的使用场景的校验模型，从而确保对语音交互应用的成功唤醒。

在一实施例中，“目标二级校验模型包括二级文本校验模型和二级声纹校验模型，通过目标二级校验模型对语音数据进行二级校验”，包括：

(1)通过二级文本校验模型对语音数据的文本特征进行校验；

(2)当语音数据的文本特征通过校验时，通过二级声纹校验模型对语音数据的声纹特征进行校验；

(3)当语音数据的声纹特征通过校验时，判定语音数据通过二级校验。

本申请实施例中，目标二级校验模型由用于校验文本特征的二级文本校验模型和用于校验声纹特征的二级声纹校验模型组成。这样，在通过目标二级校验模型对语音数据进行二级校验时，电子设备首先通过二级文本校验模型对语音数据的文本特征进行校验，当语音数据的文本特征通过校验时，再通过二级声纹校验模型对语音数据的声纹特征进行校验，当语音数据的声纹特征通过校验时，即判定语音数据通过二级校验。

示例性的，二级文本校验模型为预先训练的对应预设关键词的通用背景模型，比如，可以预先采集多人(比如200人)说出预设关键词的样本语音数据，然后分别提取这些样本语音数据的声学特征，再根据这些样本语音数据的声学特征训练得到一个与预设唤醒词对应的通用背景模型。由于通用背景模型采用大量与特定人(即用户)无关的语音数据训练得到，其仅拟合人的声学特征分布，并不代表某个具体的人。

相应的，电子设备首先提取语音数据向量形式的声学特征，并将提取到的声学特征输入到通用背景模型中，由通用背景模型对该语音数据进行评分，并输出一个评分分值，当输出的评分分值达到该通用背景模型对应的判别分值时，判定该语音数据的文本特征通过校验，即该语音数据中包括预设关键词。比如，声纹特征模型的输出分值的区间为[0,1]，其对应的判别分值配置为0.45，也即是当语音数据所对应的评分分值达到0.45时，电子设备将判定该语音数据的文本特征通过校验。

二级声纹校验模型可以为声纹特征模型，该声纹特征模型由前述通用背景模型根据用户说出预设关键词的语音数据自适应处理得到。其中，自适应处理是指将通用背景模型中的与目标说话人(即用户)的语音数据相近的一部分非特定说话人的声学特征作为用户的声学特征的处理方法，该自适应处理可以采用最大后验估计算法实现。

相应的，电子识别首先提取语音数据向量形式的声学特征，并将提取到的声学特征输入到声纹特征模型中，由声纹特征模型对该语音数据进行评分，并输出一个评分分值，当输出的评分分值达到该声纹特征模型对应的判别分值时，判定该语音数据的声纹特征通过校验，即该语音数据由用户说出。比如，声纹特征模型的输出分值的区间为[0,1]，其对应的判别分值配置为0.28，也即是当语音数据所对应的评分分值达到0.28时，电子设备将判定该语音数据的声纹特征通过校验。

此外，“通过目标一级校验模型对语音数据进行一级校验”，包括：

(1)通过目标一级校验模型对语音数据的文本特征进行校验；

(2)当语音数据的文本特征通过校验时，判定语音数据通过一级级校验。

在一实施例中，“根据当前状态信息确定电子设备的当前使用场景”，包括：

根据预存的多个使用场景的状态信息，从多个使用场景中确定出状态信息与当前状态信息匹配的使用场景，作为当前使用场景。

其中，电子设备本地预存有多个不同使用场景的状态信息(或者说，使用多个不同的状态信息分别描述了多个不同的使用场景)，比如居家场景的状态信息、驾驶场景的状态信息等。

电子设备在根据其当前状态信息确定其当前使用场景时，即可根据其预存的多个使用场景的状态信息，从多个使用场景中确定出状态信息与其当前状态信息匹配的使用场景，并将该状态信息与其当前状态信息匹配的使用场景作为其当前使用场景。

其中，电子设备可以根据两个状态信息之间的相似度来判断两个状态信息是否匹配，这样，电子设备在确定状态信息与其当前状态信息匹配的使用场景时，可以分别获取各使用场景的状态信息与其当前状态信息之间的相似度，并将相似度达到预设相似度的使用场景确定为状态信息与其当前状态信息所匹配的使用场景。

应当说明的是，本申请实施例中对于预设相似度的取值不做具体限制，可由本领域普通技术人员根据实际需要取合适值。比如，假设电子设备预存有居家场景的状态信息和驾驶场景的状态信息，且预设相似度被配置为85％。若电子设备获取到居家场景的状态信息与其当前状态信息的相似度为40％、驾驶场景的状态信息与其当前状态信息的相似度为86％，可以看出，驾驶场景的状态信息与电子设备的当前状态信息的相似度达到预设相似度(85％)，电子设备将驾驶场景确定为状态信息与其当前状态信息所匹配的使用场景。

在一实施例中，“获取电子设备的当前状态信息”之前，还包括：

获取对应各使用场景的样本语音数据，并根据各使用场景对应的样本语音数据，训练得到对应的一级校验模型和二级校验模型。

本申请实施例中，预先训练对应不同使用场景的一级校验模型和二级校验模型。

比如，预先定义有居家场景和驾驶场景，则分别获取对应驾驶场景的样本语音数据，以及对应居家场景的样本语音数据，并基于对应驾驶场景的样本语音数据进行训练，得到适于在驾驶场景校验语音数据的一级校验模型和二级校验模型，基于对应居家场景的样本语音数据进行训练，得到适于在居家场景校验语音数据的一级校验模型和二级校验模型。

在一实施例中，“采集外部的语音数据”之后，还包括：

获取当前的剩余电量，并判断剩余电量是否大于预设电量；

当剩余电量小于或等于预设电量时，直接标记语音数据通过一级校验，并执行通过目标二级校验模型对语音数据进行二级校验。

示例性的，电子设备通过专用语音识别芯片调用目标一级校验模型，通过处理器调用目标二级校验模型。电子设备在通过麦克风采集到外部的语音数据之后，由处理器获取当前的剩余电量，并判断剩余电量是否大于预设电量，其中，该预设电量用于限定电子设备的剩余电量是否足够持续使用到用户习惯的充电时间，具体可由电子设备根据当前距离用户习惯的充电时间的时长，以及当前的耗电速率实时算出，比如，可以直接将该时长与耗电速率的乘积作为预设电量。若剩余电量小于或等于预设电量，说明电子设备可能无法持续运行到充电时，此时，处理器直接标记语音数据通过一级校验，无需由专用语音识别芯片对语音数据实际进行一级校验，由此，可以节省部分电量。

下面将在上述实施例描述的方法基础上，对本申请的应用唤醒方法做进一步介绍。请参照图3，该应用唤醒方法应用于电子设备，电子设备包括处理器、专用语音识别芯片和麦克风，该应用唤醒方法可以包括：

201、处理器获取电子设备的当前状态信息，并根据当前状态信息确定电子设备的当前使用场景。

应当说明的是，处理器为通用处理器，比如ARM架构的处理器。专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。

在本申请实施例中，处理器可以在电子设备开机后，周期性的获取其状态信息，其中，状态信息包括但不限于用于描述电子设备当前的使用状态、位置状态以及环境状态等的相关信息。

应当说明的是，当前并不用于特指某时刻，而是用于代指处理器执行获取状态信息这一操作的时刻。因此，本申请实施例中在处理器每次执行获取状态信息的“当前时刻”，将对应获取到的状态信息记为“当前状态信息”。

本申请实施例中，处理器在获取到电子设备的当前状态信息之后，进一步根据获取到的当前状态信息确定电子设备的当前使用场景，其中，使用场景用于描述用户使用电子设备所处的场景，具体可由本领域普通技术人员根据实际需要进行定义，比如居家场景、驾驶场景等。

202、若当前使用场景为驾驶场景，则处理器调用预先训练的对应驾驶场景的目标一级校验模型，专用语音识别芯片调用预先训练的对应驾驶场景的目标二级校验模型。

本申请实施例中，处理器在确定电子设备所处的当前使用场景后，若当前使用场景为驾驶场景，则从二级校验模型集合中确定出对应当前使用场景的目标二级校验模型，并调用该目标二级校验模型。同时，处理器指示专用语音识别芯片当前使用场景为驾驶场景，由专用语音识别芯片从一级校验模型集合中确定出对应驾驶场景的目标一级校验模型，并调用该目标一级校验模型。

203、专用语音识别芯片通过麦克风采集外部的语音数据，并通过目标一级校验模型对采集的语音数据的文本特征进行一级校验。

本申请实施例中，专用语音识别芯片在采集到外部的语音数据之后，即通过调用的目标一级校验模型对语音数据的文本特征进行一级校验。

专用语音识别芯片在采集的语音数据的文本特征通过一级校验时，将该语音数据以及用于指示该语音数据的文本特征通过一级校验的指示信息传输至处理器。

204、若采集的语音数据的文本特征通过一级校验，则处理器通过目标二级校验模型对语音数据的文本特征和声纹特征进行二级校验；

处理器在接收到来自专用语音识别芯片的语音数据以及指示信息后，确定该语音数据已通过专用语音识别芯片的一级校验，此时通过调用的目标二级校验模型对该语音数据的文本特征和声纹特征进行二级校验。应当说明的是，一级校验和二级校验仅用于代指校验的先后顺序，并不用于限定的校验内容.

其中，对语音数据的文本特征和声纹特征进行校验也即是校验语音数据中是否包括预设用户说出的预设关键词，若采集的语音数据中包括预设用户说出的预设关键词，则校验通过。比如，采集的语音数据包括了预设用户设置的预设关键词，且该预设关键词由预设用户说出，则该语音数据的文本特征以及声纹特征通过校验；又比如采集的语音数据包括了预设用户之外的其他用户说出的预设关键词，或者语音数据不包括任何用户说出的预设关键词，则该语音数据的文本特征和声纹特征校验失败(或者说未通过校验)。

205，若采集的语音数据通过二级校验，则处理器唤醒语音交互应用。

本申请实施例中，处理器在语音数据通过二级校验时，判定用户当前存在交互需求，此时唤醒语音交互应用，利用该语音交互应用与用户进行语音交互。其中，语音交互应用即俗称的语音助手，比如欧珀的语音助手“小欧”等。

在一实施例中，还提供了一种应用唤醒装置。请参照图4，图4为本申请实施例提供的应用唤醒装置的结构示意图。其中该应用唤醒装置应用于电子设备，该应用唤醒装置包括场景识别模块301、模型调用模块302、第一校验模块303、第二校验模块304以及应用唤醒模块305，其中，如下：

场景识别模块301，用于获取电子设备的当前状态信息，并根据当前状态信息确定电子设备的当前使用场景；

模型调用模块302，用于调用预先训练的对应当前使用场景的目标一级校验模型和目标二级校验模型；

第一校验模块303，用于采集外部的语音数据，并通过目标一级校验模型对语音数据进行一级校验；

第二校验模块304，用于当语音数据通过一级校验时，通过目标二级校验模型对语音数据进行二级校验；

应用唤醒模块305，用于当语音数据通过二级校验时，唤醒语音交互应用。

在一实施例中，在通过目标一级校验模型对语音数据进行一级校验时，第一校验模块303用于：

将语音数据输入到目标一级校验模型中进行评分，得到语音数据的评分分值；

当评分分值达到目标一级校验模型对应的判别分值时，判定语音数据通过一级校验。

在一实施例中，在调用预先训练的对应当前使用场景的目标一级校验模型时，包括：

在调用目标一级校验模型失败时，对已调用的当前一级校验模型对应的判别分值进行调整；

将调整后的当前一级校验模型作为对应当前使用场景的目标一级校验模型。

在一实施例中，目标二级校验模型包括二级文本校验模型和二级声纹校验模型，在通过目标二级校验模型对语音数据进行二级校验时，第二校验模块304用于：

通过二级文本校验模型对语音数据的文本特征进行校验；

当语音数据的文本特征通过校验时，通过二级声纹校验模型对语音数据的声纹特征进行校验；

当语音数据的声纹特征通过校验时，判定语音数据通过二级校验。

在一实施例中，在根据当前状态信息确定电子设备的当前使用场景时，场景识别模块301用于：

在一实施例中，应用唤醒装置还包括模型训练模块，在场景识别模块301获取电子设备的当前状态信息之前，用于：

在一实施例中，在采集外部的语音数据之后，第二校验模块304还用于：

获取当前的剩余电量，并判断剩余电量是否大于预设电量；

当剩余电量小于或等于预设电量时，直接标记语音数据通过一级校验，并通过目标二级校验模型对语音数据进行二级校验。

应当说明的是，本申请实施例提供的应用唤醒装置与上文实施例中的应用唤醒方法属于同一构思，在应用唤醒装置上可以运行应用唤醒方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供一种电子设备，请参照图5，电子设备包括处理器401、存储器402、专用语音识别芯片403和麦克风404。

本申请实施例中的处理器401是通用处理器，比如ARM架构的处理器。

专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。

存储器402中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器402还可以包括存储器控制器，以提供处理器401和专用语音识别芯片403对存储器402中计算机程序的访问，实现如下功能：

处理器401获取电子设备的当前状态信息，并根据当前状态信息确定电子设备的当前使用场景；

处理器401调用预先训练的对应当前使用场景的目标一级校验模型；

专用语音识别芯片403调用预先训练的对应当前使用场景的目标二级校验模型；

专用语音识别芯片403通过麦克风404采集外部的语音数据，并通过目标一级校验模型对语音数据进行一级校验；

当语音数据通过一级校验时，处理器401通过目标二级校验模型对语音数据进行二级校验；

当语音数据通过二级校验时，处理器401唤醒语音交互应用。

请参照图6，图6为本申请实施例提供的电子设备的另一结构示意图，与图5所示电子设备的区别在于，电子设备还包括输入单元405和输出单元406等组件。

其中，输入单元405可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。

输出单元406可用于显示由用户输入的信息或提供给用户的信息，如屏幕。

在本申请实施例中，处理器401和专用语音识别芯片403通过对存储器402中计算机程序的访问，从而实现各种功能，如下：

当语音数据通过二级校验时，处理器401唤醒语音交互应用。

在一实施例中，在通过目标一级校验模型对语音数据进行一级校验时，专用语音识别芯片403用于执行：

在一实施例中，在调用预先训练的对应当前使用场景的目标一级校验模型时，专用语音识别芯片403用于执行：

在一实施例中，目标二级校验模型包括二级文本校验模型和二级声纹校验模型，在通过目标二级校验模型对语音数据进行二级校验时，处理器401用于执行：

通过二级文本校验模型对语音数据的文本特征进行校验；

在一实施例中，在根据当前状态信息确定电子设备的当前使用场景时，处理器401用于执行：

在一实施例中，在获取电子设备的当前状态信息之前，处理器401还用于执行：

在一实施例中，在采集外部的语音数据之后，处理器401还用于执行：

获取当前的剩余电量，并判断剩余电量是否大于预设电量；

应当说明的是，本申请实施例提供的电子设备与上文实施例中的应用唤醒方法属于同一构思，在电子设备上可以运行应用唤醒方法实施例中提供的任一方法，其具体实现过程详见特征提取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的应用唤醒方法而言，本领域普通测试人员可以理解实现本申请实施例的应用唤醒方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和专用语音识别芯片执行，在执行过程中可包括如应用唤醒方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种应用唤醒方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种应用唤醒方法，应用于电子设备，其特征在于，所述电子设备包括处理器和专用语音识别芯片，所述应用唤醒方法包括：

所述处理器获取所述电子设备的当前状态信息，并根据所述当前状态信息确定所述电子设备的当前使用场景；

所述专用语音识别芯片调用预先训练的对应所述当前使用场景的目标一级校验模型，所述处理器调用预先训练的对应所述当前使用场景的目标二级校验模型，所述目标二级校验模型包括二级文本校验模型和二级声纹校验模型；

其中，在调用目标一级校验模型失败时，获取采集的语音数据的信噪比值，将该信噪比值与用于训练已调用的当前一级校验模型的样本语音数据的平均信噪比值进行比较，若当前采集的语音数据的信噪比值小于当前一级校验模型对应的平均信噪比值，则按照预设调整步长值降低当前一级校验模型的判别分值，将该调整后的当前一级校验模型作为对应当前使用场景的目标一级校验模型；若当前采集的语音数据的信噪比值大于当前一级校验模型对应的平均信噪比值，则按照预设调整步长值增加当前一级校验模型的判别分值，将该调整后的当前一级校验模型作为对应当前使用场景的目标一级校验模型；若当前采集的语音数据的信噪比值与当前一级校验模型对应的平均信噪比值相等，则直接将当前一级校验模型作为对应当前使用场景的目标一级校验模型；

所述专用语音识别芯片采集外部的语音数据，并通过所述目标一级校验模型对所述语音数据的文本特征进行一级校验；

若所述语音数据的文本特征通过一级校验，则所述处理器通过所述二级文本校验模型对所述语音数据的文本特征进行校验；当所述语音数据的文本特征通过校验时，通过所述二级声纹校验模型对所述语音数据的声纹特征进行校验；

若所述语音数据的声纹特征通过二级校验，则唤醒语音交互应用。

2.根据权利要求1所述的应用唤醒方法，其特征在于，所述通过所述目标一级校验模型对所述语音数据进行一级校验，包括：

将所述语音数据输入到所述目标一级校验模型中进行评分，得到所述语音数据的评分分值；

当所述评分分值达到所述目标一级校验模型对应的判别分值时，判定所述语音数据通过一级校验。

3.根据权利要求1所述的应用唤醒方法，其特征在于，所述根据所述当前状态信息确定所述电子设备的当前使用场景，包括：

根据预存的多个使用场景的状态信息，从所述多个使用场景中确定出状态信息与所述当前状态信息匹配的使用场景，作为所述当前使用场景。

4.根据权利要求1所述的应用唤醒方法，其特征在于，所述获取所述电子设备的当前状态信息之前，还包括：

获取对应各所述使用场景的样本语音数据，并根据各所述使用场景对应的样本语音数据，训练得到对应的一级校验模型和二级校验模型。

5.根据权利要求1-4任一项所述的应用唤醒方法，其特征在于，所述采集外部的语音数据之后，还包括：

获取当前的剩余电量，并判断所述剩余电量是否大于预设电量；

当所述剩余电量小于或等于所述预设电量时，直接标记所述语音数据通过一级校验，并执行所述通过所述目标二级校验模型对所述语音数据进行二级校验。

6.一种应用唤醒装置，应用于电子设备，其特征在于，所述电子设备包括处理器和专用语音识别芯片，所述应用唤醒装置包括：

场景识别模块，用于通过所述处理器获取所述电子设备的当前状态信息，并根据所述当前状态信息确定所述电子设备的当前使用场景；

模型调用模块，用于通过所述专用语音识别芯片调用预先训练的对应所述当前使用场景的目标一级校验模型，通过所述处理器调用预先训练的对应所述当前使用场景的目标二级校验模型，所述目标二级校验模型包括二级文本校验模型和二级声纹校验模型；其中，在调用目标一级校验模型失败时，获取采集的语音数据的信噪比值，将该信噪比值与用于训练已调用的当前一级校验模型的样本语音数据的平均信噪比值进行比较，若当前采集的语音数据的信噪比值小于当前一级校验模型对应的平均信噪比值，则按照预设调整步长值降低当前一级校验模型的判别分值，将该调整后的当前一级校验模型作为对应当前使用场景的目标一级校验模型；若当前采集的语音数据的信噪比值大于当前一级校验模型对应的平均信噪比值，则按照预设调整步长值增加当前一级校验模型的判别分值，将该调整后的当前一级校验模型作为对应当前使用场景的目标一级校验模型；若当前采集的语音数据的信噪比值与当前一级校验模型对应的平均信噪比值相等，则直接将当前一级校验模型作为对应当前使用场景的目标一级校验模型；

第一校验模块，用于通过所述专用语音识别芯片采集外部的语音数据，并通过所述目标一级校验模型对所述语音数据的文本特征进行一级校验；

第二校验模块，用于当所述语音数据的文本特征通过一级校验时，所述处理器通过所述二级文本校验模型对所述语音数据的文本特征进行校验；当所述语音数据的文本特征通过校验时，通过所述二级声纹校验模型对所述语音数据的声纹特征进行校验；

应用唤醒模块，用于当所述语音数据的声纹特征通过二级校验时，唤醒语音交互应用。

7.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器和/或专用语音识别芯片调用时执行如权利要求1至5任一项所述的应用唤醒方法。

8.一种电子设备，包括处理器、存储器和专用语音识别芯片，所述存储器储存有计算机程序，其特征在于，所述处理器和/或所述专用语音识别芯片通过调用所述计算机程序，用于执行如权利要求1至5任一项所述的应用唤醒方法。