CN110197663A

CN110197663A - 一种控制方法、装置及电子设备

Info

Publication number: CN110197663A
Application number: CN201910581815.6A
Authority: CN
Inventors: 徐培来; 张传良
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-06-30
Filing date: 2019-06-30
Publication date: 2019-09-03
Anticipated expiration: 2039-06-30
Also published as: CN110197663B

Abstract

本实施例提供的方法，基于获得的音频数据，确定音频数据所处语境对应的控制策略，基于控制策略，对音频数据进行语音识别，得到识别结果，最后执行与识别结果相对应的指令。可见，本申请提供的方法，在音频数据的音源所处语境不同的情况下，以不同的控制策略进行语音识别，从而实现语境自适应，避免了现有技术中采用同一控制策略而导致无法触发或者错误触发而使得语音触发的准确率较低的情况，本申请提供的方法，实现了语境自适应，提高不同语境下的识别准确率。

Description

一种控制方法、装置及电子设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种控制方法、装置及电子设备。

背景技术

随着技术的发展，通过语音触发事件的技术在智能终端如手机、智能音响、智能电视等产品上得到了广泛的应用。例如，用户通过语音启动智能音响并播放音乐。

而由于终端所处的环境的不同，导致通过语音触发终端实现功能时存在无法触发或者错误触发的情况，使得语音触发的准确率较低。

发明内容

有鉴于此，本发明提供一种控制方法、装置及电子设备，目的在于解决如何避免无法触发或者错误触发而使得语音触发的准确率较低的情况。

为实现上述目的，本发明实施例提供如下技术方案：

一种控制方法，包括：

获得音频数据；

基于所述音频数据，确定所述音频数据所处语境对应的控制策略；

基于所述控制策略，对所述音频数据进行语音识别，得到识别结果；

执行与所述识别结果相对应的指令。

上述的方法，可选的，所述基于所述音频数据，确定所述音频数据所处语境对应的控制策略，包括：

将所述音频数据输入语境训练模型，以得到所述语境训练模型输出的所述音频数据所处的当前语境；

其中，所述语境训练模型基于至少两个具有语境标签的样本得到；

获得所述当前语境对应的控制策略。

提取所述音频数据在至少一个参数类型上的第一音频参数；

对所述第一音频参数进行解析，以得到所述音频数据所处的当前语境；

获得所述当前语境对应的控制策略。

上述的方法，可选的，所述控制策略包括：所述音频数据所处语境下的阈值参数范围。

上述的方法，可选的，所述基于所述控制策略，对所述音频数据进行语音识别，得到识别结果，包括：

提取所述音频数据中满足所述控制策略的至少一个音频片段；

对所述至少一个音频片段进行语音识别，得到识别结果。

一种控制装置，包括：

获得单元，用于获得音频数据；

确定单元，用于基于所述音频数据，确定所述音频数据所处语境对应的控制策略；

识别单元，用于基于所述控制策略，对所述音频数据进行语音识别，得到识别结果；

执行单元，用于执行与所述识别结果相对应的指令。

上述的装置，可选的，确定单元，用于基于所述音频数据，确定所述音频数据所处语境对应的控制策略，包括，确定单元具体用于，将所述音频数据输入语境训练模型，以得到所述语境训练模型输出的所述音频数据所处的当前语境；获得所述当前语境对应的控制策略。其中，所述语境训练模型基于至少两个具有语境标签的样本得到；

上述的装置，可选的，确定单元，用于基于所述音频数据，确定所述音频数据所处语境对应的控制策略，包括，确定单元具体用于：提取所述音频数据在至少一个参数类型上的第一音频参数；对所述第一音频参数进行解析，以得到所述音频数据所处的当前语境；获得所述当前语境对应的控制策略。

上述的装置，可选的，确定单元，用于确定所述音频数据所处语境对应的控制策略中，控制策略包括：音频数据所处语境下的阈值参数范围。

上述的装置，可选的，识别单元，用于基于控制策略，对音频数据进行语音识别，包括，识别单元具体用于：提取频数据中满足控制策略的至少一个音频片段；对至少一个音频片段进行语音识别，得到识别结果。

一种电子设备，包括：

存储器，用于存储应用程序及所述应用程序运行所产生的数据；

处理器，用于执行所述应用程序，以实现功能：获得音频数据；基于所述音频数据，确定所述音频数据所处语境对应的控制策略；基于所述控制策略，对所述音频数据进行语音识别，得到识别结果；执行与所述识别结果相对应的指令。

一种电子设备，包括：

音频采集装置，用于采集音频数据；

控制器，用于获得所述音频采集装置采集到的音频数据；基于所述音频数据，确定所述音频数据所处语境对应的控制策略；基于所述控制策略，对所述音频数据进行语音识别，得到识别结果；执行与所述识别结果相对应的指令。

本发明提供的方法，基于获得的音频数据，确定音频数据所处语境对应的控制策略，基于所述控制策略，对所述音频数据进行语音识别，得到识别结果，最后执行与所述识别结果相对应的指令。从上述技术方案可以看出，本申请公开的方法，基于音频数据，以相应语境下对应的控制策略对音频数据进行语音识别，由此，本案避免了现有技术中无法触发或者错误触发而使得语音触发的准确率较低的情况，在音频数据的音源所处语境不同的情况下，以不同的控制策略进行语音识别，从而实现语境自适应，提高语境下的识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种控制方法的方法流程图；

图2为本发明实施例公开的针对语境为安静语境的一种控制方法的方法流程图；

图3为本发明实施例公开的针对语境为多人说话语境的一种控制方法的方法流程图；

图4为本发明提供的一种控制装置结构示意图；

图5为本发明提供的一种电子设备结构示意图；

图6为本发明提供的另一种电子设备结构示意图；

图7为本发明提供的一种智能音箱的功能架构图。

具体实施方式

申请人在研究的过程中发现，现有的语音触发技术，智能终端实现语音触发事件的过程为：智能终端在检测到录入的音频的声音强度大于预先设定的阈值后，触发终端语音播报事件。由于阈值是预先设定的一个静态的固定值，所以在不同的环境下，会出现通过语音触发终端实现功能时存在无法触发或者错误触发的情况。例如在安静环境中，用户说话的音量低于该预先设定的阈值时，无法触发终端播报事件，即使用户的音量足够让人耳听清楚。

为解决以上问题，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例公开的控制方法、装置及电子设备，用于依据获得的音频数据，执行与音频数据对应的指令。

本申请实施例公开的电子设备，可以应用于包括手机、智能音响、智能电视等智能语音终端设备。

如图1所示，为本发明实施例公开的一种控制方法，具体可以包括以下步骤。

S101：获得音频数据。

音频数据是通过音频设备在所处语境下采集得到的数据，音频设备可以是麦克风、录音器等声音采集设备。音频数据所处的语境可以是安静语境、嘈杂语境、单人说话语境以及多人说话语境等不同的语境。

S102：基于音频数据，确定音频数据所处语境对应的控制策略。

获得音频数据后，对音频数据进行分析计算，通过确定音频数据所处的语境，确定音频数据所处语境对应的控制策略。

在一种实现方式中，确定音频数据所处的语境时，可以通过将音频数据输入预先建立的语境训练模型，以得到语境训练模型输出的音频数据所处的当前语境。

而具体的，建立语境训练模型的过程可以是：选取基础训练模型以及大量的训练样本，依据训练样本的语境标签对基础训练模型进行训练，当基础训练模型的输出值能准确的表征音频数据对应的语境时，确定基础训练模型训练完毕，并将训练完毕的基础训练模型作为语境训练模型，得到语境训练模型。

需要说明的是，基础训练模型可以是针对音频的神经网络训练模型，例如声学模型。训练样本为大量的不同语境下采集得到的音频数据，语境标签可以是基于训练样本的音量、能量、声纹数量、声音类型等音频特征设置的样本标签。获得语境训练模型后，将音频数据输入语境训练模型，并将语境训练模型的输出结果作为音频数据所处的语境。

在另一种实现方式中，确定音频数据所处的语境时，还可以根据音频的音量、能量、声音类型以及声纹等音频特性来确定音频数据所处的语境，具体可以为：

首先，提取音频数据在至少一个参数类型上的第一音频参数，其中，参数类型可以是音量、能量、声音类型以及声纹等音频类型中的一种或多种组合。参数类型的第一音频参数可以是音量值、能量值、声音类型值以及声纹数量等。

之后，在得到音频数据的第一音频参数后，对该第一音频参数进行解析，得到音频数据所处的当前语境。

例如，第一音频参数为音量值，分析音量值否大于音量阈值，若大于音量阈值，确定当前的语境为嘈杂语境，若不大于音量阈值，确定当前的语境为安静语境。再如，若第一音频参数为声纹数量，声纹数量能够表征正在进行语音的人的数量，由此，本实施例中可以分析声纹数量否大于声纹数量阈值来确定语境，若大于声纹数量阈值，确定当前的语境为多人说话语境，如果声纹数量只有一个，那么可以确定当前语境为单人说话语境。

最后，得到音频数据所处的语境后，确定语境对应的控制策略，其中，不同的语境对应的控制策略不同。控制策略可以为音频数据所处语境下的阈值参数范围，阈值参数可以是音频的音量参数以及能量参数等。

需要说明的是，对于同一种语境，其阈值参数范围可以是动态变化的，例如，音频数据所在的环境为10分贝的安静语境时，其阈值参数范围可以是大于20分贝的参数，音频数据所在的环境为20分贝的安静语境时，其阈值参数范围为大于30分贝的参数。同理，对于不同嘈杂程度的嘈杂语境，其阈值参数范围也不同。例如，对于酒吧和超市两种嘈杂语境，由于酒吧的嘈杂程度通常大于超市，所以酒吧的阈值参数通常也大于超市的阈值参数。对于单人说话语境，可以基于说话者声音的音量平均值，确定阈值参数，音量平均值越高，阈值参数越大。对于多人说话语境，同样的，可以基于多个说话者声音的音量，确定阈值参数。综上所述，本实施例中，语境的阈值参数是可以根据当前语境的具体情况动态变化的。

S103：基于控制策略，对音频数据进行语音识别，得到识别结果。

确定控制策略后，从音频数据中提取满足控制策略的音频片段，需要说明的是，满足控制策略的音频片段为，在该音频片段中，每一帧音频都满足控制策略。提取满足控制策略的音频片段的过程可以是，确定当前获取的音频数据中满足控制策略的第一帧音频，并将该第一帧音频作为音频片段的音频起点，依次判断该第一帧音频后续的每一帧音频是否满足控制策略，当判断到某一帧音频不满足控制策略时，将该不满足控制策略的音频帧的前一帧作为音频片段的音频终点，在音频数据中截取从音频起点到音频终点的片段，从而得到音频数据中提取满足控制策略的音频片段。例如，音频数据为“今天小爱同学电量低”时，依次判断“今天小爱同学电量低”中每个字的语音是否满足控制策略，当识别到“小”最先满足控制策略时，将“小”作为音频片段的起点，在“小”之后依次识别到“爱”、“同”和“学”也满足控制策略，但识别到“电”时，发现“电”不满足控制策略，则将紧邻“电”前面的“学”作为音频片段的终点，最后截取从起点到终点的“小爱同学”，从而得到满足控制策略的音频片段。

需要说明的是，一份音频数据可能存在多个满足控制策略的音频片段，例如，对于音频数据为“小爱同学今天的天气怎么样”，依次判断“小爱同学今天的天气怎么样”中每个字的语音是否满足控制策略。判断出“小”第一个满足控制策略，且“爱”、“同”和“学”都满足控制策略，但“今”不满足控制策略的情况时，确定第一个满足控制策略的音频片段为“小爱同学”。确定出第一个音频片段后，依次出判断“天”、“的”、“天”和“气”都不满足控制策略，“怎”、“么”和“样”都满足控制策略，则确定第二个满足控制策略的音频片段为“怎么样”。

本实施例中，每获得一个满足控制策略的音频片段后，对该音频片段进行语音识别，判定音频片段中是否包含有关键字，关键字为预先存储的表征事件类型的信息。例如，关键字可以是时间、天气、新闻、导航等信息。若判定音频片段包含关键字，将关键字作为识别结果。若判定音频片段不包含任何关键字，则确定为无识别结果。其中，对该音频进行语音识别的方法可以参考现有技术，此处不再赘述。

S104：执行与识别结果相对应的指令。

本实施例中，获得满足控制策略的音频片段的识别结果后，确定该识别结果对应的指令，最后执行该指令，其中，任意一种识别结果对应的指令是预先规定的，指令可以是播报与识别结果相关的信息。例如，当识别结果为“时间”时，指令可以是播报当前的具体时间，当识别结果为“天气”时，指令可以是播报当前的天气状况。

如前述实施例所述，本实施例提供的方法可以应用于不同的语境，以下针对不同的语境，对本申请实施例提供的方法进行说明。

图2为本发明实施例公开的针对语境为安静语境的一种控制方法，具体可以包括以下步骤。

S201、获得音频数据。

通过音频采集设备对声音进行采集，对于安静语境，为了提高音频采集的精准度，可采用对音量敏感度较高的音频采集设备。

S202、依据音频数据的音量值或能量值，确定音频数据所处的语境为安静语境。

获得音频数据后，对音频数据进行分析，可根据音频数据的音量值或能量值，确定音频数据所处的语境为安静语境。例如，若音频的音量值小于40分贝，则确定音频数据所处的语境为安静语境。

S203、确定安静语境对应的阈值参数范围。

确定音频数据的语境为安静语境后，确定安静语境对应的阈值参数范围，对于安静语境，阈值参数范围为大于某个音量值或大于某个能量值的阈值参数范围，对于不同安静程度的安静语境，其阈值参数范围不同，安静程度越高，对应的阈值参数越小。如前述的实施例所述，对于安静程度为10分贝的安静语境，其阈值参数范围可以是大于20分贝的参数，对于安静程度为20分贝的安静语境，其阈值参数范围为大于30分贝的参数。

S204、提取音频数据数据中满足阈值参数范围的音频片段。

在获得的音频数据中，并不是每一帧音频都满足阈值参数范围，所以需从音频数据数据中满足阈值参数范围的音频片段，具体的从音频数据中提取音频片段的过程与上述实施例的S103中提取音频片段过程相同，此处不再赘述。

S205、对音频片段进行语音识别，得到识别结果，并执行与识别结果相对应的指令。

获取音频片段后，采用语音识别技术对音频片段进行语音识别，获取音频片段中的关键字，并将获取的关键字作为识别结果，最后执行与识别结果相对应的指令。例如，对于智能音响，若智能音响获取的关键字为“流行音乐”，则智能音响执行的指令为播放当前网络中的热门的流行音乐。

本实施例提供的方法，对于安静程度不同的安静语境，阈值参数范围不同，使用户在安静程度不同的安静语境中用不同的音量都可以成功的触发智能终端设备，避免了现有技术中采用固定的阈值参数范围，导致用户音量不满足该固定的阈值参数范围时，无法触发智能终端设备，即使用户的音量足够让人耳听清楚的问题。

针对语境为嘈杂语境的控制方法，具体为：依据获取的音频数据的音量值或能量值，确定音频数据所处的语境为嘈杂语境，然后确定嘈杂语境对应的阈值参数范围，并提取音频数据中满足阈值参数范围的音频片段，最后对音频片段进行语音识别，得到识别结果，并执行与识别结果相对应的指令。具体的实现针对语境为嘈杂语境的控制方法的过程与上述的语境为安静语境的控制方法相同，此处不再赘述。

对于嘈杂程度不同的嘈杂语境，设定不同的阈值参数范围，只对满足阈值参数范围的音频片段才进行识别，避免了现有技术中采用固定的阈值参数范围，使在嘈杂语境中，由于音频的音量大，所以音频的音量一般都满足固定的阈值参数范围，从而使智能终端设备对大量的不包括关键字的音频数据进行识别，不仅导致智能终端的功耗高，而且持续的大量识别任务，可能会导致智能终端的识别正确率降低。

图3为本发明实施例公开的针对语境为多人说话语境的一种控制方法，具体可以包括以下步骤。

S301、获得音频数据。

通过音频采集设备对声音进行采集，对于多人说话语境，为了提高音频采集的精准度，可采用对声音的音色敏感度较高的音频采集设备。

S302、依据音频数据中包括的声纹数量，确定音频数据所处的语境为多人说话语境。

对于多人说话语境，由于不同人的声音特征不同，所以每个人的声纹也不同，获得音频数据后，确定该音频数据中包括的声纹数量，若声纹数量大于2，则可确定音频数据所处的语境为多人说话语境。

S303、确定多人说话语境对应的阈值参数范围。

确定多人说话语境中阈值参数范围的最小阈值参数，该最小阈值参数足够大于每个声纹对应的音量，比如，可以是大于声纹对应的最大音量的50分贝。阈值参数范围为大于最小阈值参数的参数范围。

S304、提取音频数据中满足阈值参数范围的音频片段。

本实施例中，执行S304的方法与图2的S204相同，此处不再赘述。

S305、对音频片段进行语音识别，得到识别结果，并执行与识别结果相对应的指令。

本实施例中，执行S305的方法与图2的S205相同，此处不再赘述。

本发明实施例提供的方法，对于多人说话语境，阈值参数范围为是基于多人音量的进行设定的，只有当前的音量明显高于多人说话语境中每个人的音量时，才能触发智能终端设备，避免多人说话的过程中，因其中某个人的稍微提高音量而误触发智能终端设备。

针对语境为单人说话语境的控制方法，具体为：依据音频数据中包括的声纹数量，确定音频数据所处的语境为单人说话语境，然后确定单人说话语境对应的阈值参数范围，其中，对于单人说话语境，阈值参数范围的最小阈值参数为大于说话者平均音量的参数，确定阈值参数范围后，提取音频数据数据中满足阈值参数范围的音频片段，最后对音频片段进行语音识别，得到识别结果，并执行与识别结果相对应的指令。

对于单人说话语境，基于不同的人，设定不同的阈值参数范围，只有说话者的音量明显高于其通常说话的音量时，才能触发智能终端设备，避免单人在说话的过程中误触发智能终端设备。

与图1的方法相对应，本发明实施例还提供了一种控制装置，用于对图1方法的具体实现，其结构示意图如图4所示，具体包括：

获得单元401，用于获得音频数据；

确定单元402，用于基于音频数据，确定音频数据所处语境对应的控制策略；

识别单元403，用于基于控制策略，对音频数据进行语音识别，得到识别结果；

执行单元404，用于执行与识别结果相对应的指令。

其中，确定单元402基于音频数据，确定音频数据所处语境对应的控制策略的具体实现方式为：将音频数据输入语境训练模型，以得到所述语境训练模型输出的所述音频数据所处的当前语境；获得当前语境对应的控制策略。其中，语境训练模型基于至少两个具有语境标签的样本得到；

其中，确定单元402基于音频数据，确定音频数据所处语境对应的控制策略的具体实现方式还可以是：提取音频数据在至少一个参数类型上的第一音频参数；对第一音频参数进行解析，以得到音频数据所处的当前语境；获得所述当前语境对应的控制策略。

确定单元402，确定音频数据所处语境对应的控制策略中，控制策略包括：音频数据所处语境下的阈值参数范围。

识别单元403，基于控制策略，对音频数据进行语音识别，得到识别结果的具体实现方式为：提取频数据中满足控制策略的至少一个音频片段；对至少一个音频片段进行语音识别，得到识别结果。

本实施例提供的装置，基于获得的音频数据，确定音频数据所处语境对应的控制策略，基于控制策略，对音频数据进行语音识别，得到识别结果，最后执行与识别结果相对应的指令。可见，本申请提供的装置，在音频数据的音源所处语境不同的情况下，以不同的控制策略进行语音识别，从而实现语境自适应，避免了现有技术中采用同一控制策略而导致无法触发或者错误触发而使得语音触发的准确率较低的情况，本申请提供的装置，实现了语境自适应，提高不同语境下的识别准确率。

本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器501和处理器502。

存储器501，用于存储应用程序及所述应用程序运行所产生的数据；

处理器502，用于执行所述应用程序，以实现功能：获得音频数据；基于音频数据，确定音频数据所处语境对应的控制策略；基于控制策略，对音频数据进行语音识别，得到识别结果；执行与识别结果相对应的指令。

本发明实施例还提供了另一种电子设备，其结构示意图如图6所示，具体包音频采集装置601和控制器602。

音频采集装置601，如麦克风等，用于采集音频数据；

控制器602，用于获得音频采集装置采集到的音频数据；基于音频数据，确定音频数据所处语境对应的控制策略；基于控制策略，对音频数据进行语音识别，得到识别结果；执行与识别结果相对应的指令。

以下以电子设备为智能音箱为例，对本实施例中的技术方案进行举例说明，

本实施例的智能音箱的功能架构图如图7所示。该智能音箱的功能架构中包括了麦克风MIC(microphone)模块、语音活动检测(Voice Activity Detection,VAD)模块和触发模块，下面将对各个模块的之间相互配合，以实现智能音箱的对音频数据进行语音识别的功能进行说明。

MIC模块获取当前的音频数据并传送至VAD模块。

VAD模块接收到MIC模块传送的音频数据后，依据预先构建语境分析模型，对当前的音频数据进行语境分析，确定当前的语境，然后根据当前的语境确定VAD策略，确定VAD策略后，对当前的音频数据进行检测，检测到满足VAD策略的音频片段后，将该音频片段发送至触发模块。

触发模块对接收到音频片段进行语音识别，并根据识别的结果，执行相应的指令。

其中，VAD模块构建语境分析模型的方法可以是：

一、基于音量、能量等参数值，可区分为安静语境、嘈杂语境等语境类别。

二、基于声音类型判断参数，可区分为分噪声、说话声等声音类别。

三、基于声纹判断参数，可区分多人说话语境、单人说话语境等类别。需要说明的是，本实施例中，也可以通过增加更多参数，构建更复杂的模型，以判断区分观看影视剧等特殊语境。

本实施例中，对不同的语境VAD模块可以采用不同VAD策略，具体为：

安静语境：基于当前的安静程度(如音量大小和能量大小)，动态选择语音起点、语音终点的参数阈值。例如10分贝环境，采用20分贝作为语音起点的阈值；而30分贝环境，则采用45分贝作为语音起点的阈值。

嘈杂语境：类似安静语境，区别是动态选择阈值时，阈值要明显高于嘈杂语境中噪声的音量值。

个人说话语境：基于说话者通常语音的音量，阈值需要在说话者通常语音的音量上附加足够的增加量。使说话者突然明显提高说话音量时，才会大于阈值，从而才会判断为语音起点，从而避免平常说话过程中的虚警触发。

多人交谈语境：类似个人说话语境，仅当当前语音音量明显高于多人的音量标准值时，才会大于策略调整后的阈值，从而可避免多人交谈过程中的虚警触发。

本实施例中，智能音箱的基本工作流程为：

步骤一、MIC实时将音频输入发送给VAD模块。

步骤二、VAD执行语境分析，确定当前的语境。

步骤三、VAD基于当前的实时语境，选择对应的VAD策略，并基于音量等参数设置当前VAD引擎算法相关参数(音量、能量和声纹等)的阈值。

步骤四、VAD对音频流执行当前的VAD引擎算法，检测语音起点、语音终点。

步骤五、在检测到语音起点的情况下，VAD再将语音起点、语音终点之间的音频流片段，发送给触发模块进行触发判断。如果未检测到，则VAD不需要启动触发模块(即使当前背景声音很大)。

综合上所述，本实施例中智能音箱可以基于当前的语境，动态决定触发器输入端(VAD模块)的处理过程。智能音箱的VAD模块可以依据预先构建的语境分析模型将当前语境区分为安静语境、嘈杂语境、观看影视剧噪声、单人说话语境、多人说话语境等多种语境类型，并基于不同的语境采用不同的VAD策略。可见，本实施例提供的智能音箱除了可以降低功耗以外，还可以达到如下的效果：在安静的环境，即使用户以较低的声音说出唤醒词，也能保证成功触发的唤醒率。匝嘈杂的背景噪声，降低虚警率。在多人交谈的背景语音环境，交谈多人的说话声音不会误触发。而注册用户以高于交谈声音的音量说出唤醒词，能够保证成功触发的唤醒率。并且根据加入声纹技术，可在多人交谈时，即使注册用户音量正常的情况下，也能降低虚警率，提高注册用户的成功唤醒率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种控制方法，其特征在于，包括：

获得音频数据；

执行与所述识别结果相对应的指令。

2.根据权利要求1所述的方法，其特征在于，所述基于所述音频数据，确定所述音频数据所处语境对应的控制策略，包括：

获得所述当前语境对应的控制策略。

3.根据权利要求1所述的方法，其特征在于，所述基于所述音频数据，确定所述音频数据所处语境对应的控制策略，包括：

提取所述音频数据在至少一个参数类型上的第一音频参数；

获得所述当前语境对应的控制策略。

4.根据权利要求1所述的方法，其特征在于，所述控制策略包括：所述音频数据所处语境下的阈值参数范围。

5.根据权利要求1或4所述的方法，其特征在于，所述基于所述控制策略，对所述音频数据进行语音识别，得到识别结果，包括：

对所述至少一个音频片段进行语音识别，得到识别结果。

6.一种控制装置，其特征在于，包括：

获得单元，用于获得音频数据；

执行单元，用于执行与所述识别结果相对应的指令。

7.一种电子设备，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

音频采集装置，用于采集音频数据；