CN112882394A

CN112882394A - 设备控制方法、控制装置及可读存储介质

Info

Publication number: CN112882394A
Application number: CN202110037802.XA
Authority: CN
Inventors: 梁楚明
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-06-01
Also published as: US11862158B2; EP4027339A1; US20220223147A1

Abstract

本公开涉及一种设备控制方法、控制装置及可读存储介质。方法包括：采集音频数据；针对采集到的每一目标帧音频数据，确定所述目标帧音频数据是否为第一类型信号；若所述目标帧音频数据为所述第一类型信号，确定所述第一类型信号表征的声学事件类型；控制设备执行与所述声学事件类型对应的控制指令。如此，在确定出第一类型信号之后，进一步区分该第一类型信号表征的声学事件类型，提高了设备控制的鲁棒性。并且，在确定出该第一类别信号所表征的声学事件类型时，可以直接控制设备执行与该声学事件类型对应的控制指令，无需唤醒设备的语音智能助手，降低了设备运行的计算量和资源消耗，提高了设备的控制效率，提升了用户的使用体验。

Description

设备控制方法、控制装置及可读存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种设备控制方法、控制装置及可读存储介质。

背景技术

随着语音交互技术的不断发展，越来越多的设备配置了语音交互功能。例如，智能音箱、智能空调、智能电视、智能空气净化器等，都可以配置语音交互功能来实现语音控制及交互。为了控制智能设备，用户通常需要先通过唤醒词或者关键词唤醒智能设备中的语音智能助手，然后再对语音智能助手下达指令，即，需要用户与语音智能助手进行二级交互(例如，唤醒交互和下达指令交互)，使得智能设备的计算工作量较大，用户对智能设备的控制效率较低，从而导致用户的使用体验较差。

发明内容

为克服相关技术中存在的问题，本公开提供一种设备控制方法、控制装置及可读存储介质。

根据本公开实施例的第一方面，提供一种设备控制方法，包括：

采集音频数据；

针对采集到的每一目标帧音频数据，确定所述目标帧音频数据是否为第一类型信号；

若所述目标帧音频数据为所述第一类型信号，确定所述第一类型信号表征的声学事件类型；

控制设备执行与所述声学事件类型对应的控制指令。

可选地，所述确定所述目标帧音频数据是否为第一类型信号，包括：

针对每一目标帧音频数据，根据该目标帧音频数据和该目标帧音频数据之前采集的至少部分帧历史音频数据，确定该目标帧音频数据是否为第一类型信号。

可选地，所述第一类型信号为冲击信号，所述根据该目标帧音频数据和该目标帧音频数据之前采集的至少部分帧历史音频数据，确定该目标帧音频数据是否为第一类型信号，包括：

获取该目标帧音频数据和所述多帧历史音频数据各自的起始频谱值；

在该目标帧音频数据的起始频谱值满足预设条件的情况下，确定该目标帧音频数据为冲击信号；

其中，所述预设条件为：该目标帧音频数据的起始频谱值为所述至少部分帧历史音频数据的起始频谱值的极大值，且该目标帧音频数据的起始频谱值大于或等于所述至少部分帧历史音频数据和该目标帧音频数据的起始频谱值的平均值。

可选地，所述若所述目标帧音频数据为所述第一类型信号，确定所述第一类型信号表征的声学事件类型，包括：

若所述目标帧音频数据为第一类型信号，则确定该目标帧音频数据是否为第一个所述第一类型信号；

若所述目标帧音频数据为所述第一个第一类型信号，则将所述音频数据中位于所述目标帧音频数据以后的第一预设数量帧音频数据作为目标音频数据，其中，所述目标音频数据包括第二预设数量个第一类型信号；

若所述目标帧音频数据不为所述第一个所述第一类型信号，则将所述音频数据中从所述第一个第一类型信号对应的历史音频数据以后的所述第一预设数量帧音频数据作为目标音频数据；

根据所述目标音频数据确定所述第一类型信号表征的声学事件类型。

可选地，所述根据所述目标音频数据确定所述第一类型信号表征的声学事件类型，包括：

提取所述目标音频数据的频谱特征数据；

将所述目标音频数据的频谱特征数据输入神经网络模型，以得到所述神经网络模型输出的所述第一类型信号表征的声学事件类型，其中，所述神经网络模型是根据多种声学事件类型的样本音频数据的频谱特征数据训练得到的。

可选地，所述若所述目标帧音频数据为第一类型信号，则确定该目标帧音频数据是否为第一个所述第一类型信号，包括：

若该目标帧音频数据为所述第一类型信号，则确定在采集该目标帧音频数据之前的预设时长内是否已出现过所述第一类型信号；

若在所述预设时长内未出现过所述第一类型信号，则确定该目标帧音频数据为第一个所述第一类型信号；

若在所述预设时长内已出现过所述第一类型信号，则确定该目标帧音频数据不为第一个所述第一类型信号。

可选地，所述目标帧音频数据为所采集的每一帧音频数据；所述根据该目标帧音频数据和在采集该目标帧音频数据之前已采集的至少部分帧历史音频数据，确定该目标帧音频数据是否为第一类型信号，包括：

确定在采集该目标帧音频数据之前是否已采集到至少第三预设数量帧历史音频数据；

若在采集该目标帧音频数据之前已采集到所述至少第三预设数量帧历史音频数据，则根据该目标帧音频数据前的所述第三预设数量帧所述历史音频数据和该目标帧音频数据，确定该目标帧音频数据是否为第一类型信号；

若在采集该目标帧音频数据之前未采集到所述至少第三预设数量帧历史音频数据，则根据该目标帧音频数据和已采集到的所述历史音频数据，确定该目标帧音频数据是否为第一类型信号。

可选地，所述控制设备执行与所述声学事件类型对应控制指令，包括：

在不唤醒所述设备的语音智能助手的情况下，控制设备执行与所述声学事件类型对应的控制操作。

根据本公开实施例的第二方面，提供一种设备控制装置，包括：

采集模块，被配置为采集音频数据；

第一确定模块，被配置为针对采集到的每一目标帧音频数据，确定所述目标帧音频数据是否为第一类型信号；

第二确定模块，被配置为若所述目标帧音频数据为所述第一类型信号，确定所述第一类型信号表征的声学事件类型；

执行模块，被配置为控制设备执行与所述声学事件类型对应的控制指令。根据本公开实施例的第三方面，提供一种设备控制装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

采集音频数据；

控制设备执行与所述声学事件类型对应的控制指令。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的所述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

采用上述技术方案，在确定出目标帧音频数据为第一类型信号之后，进一步确定该第一类型信号表征的声学事件类型，进而控制设备执行与该声学事件类型对应的控制指令。如此，不仅能检测第一类型信号的产生，还能判断第一类型信号表征的声学事件类型，区分不同声学事件类型对应的设备控制指令，提高了设备控制的鲁棒性。并且，在确定出该第一类别信号所表征的声学事件类型时，可以直接控制设备执行与该声学事件类型对应的控制指令，降低了设备运行的计算量和资源消耗，提高了设备的控制效率，提升了用户的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种设备控制方法的流程图。

图2是根据一示例性实施例示出的另一种设备控制方法的流程图。

图3是根据一示例性实施例示出的一种确定音频数据是否为冲击信号数据的方法的示意图。

图4是根据一示例性实施例示出一种确定第一类型信号表征的声学事件类型的流程图。

图5是根据一示例性实施例示出的一种设备控制装置的框图。

图6是根据一示例性实施例示出的一种设备控制装置的框图。

图7是根据一示例性实施例示出的一种设备控制装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种设备控制方法的流程图。如图1所示，该方法可以包括以下步骤。

在步骤S11中，采集音频数据。

示例地，执行本公开提供的设备控制方法的设备可以为待控制的电子设备，则该电子设备在开机之后，位于该电子设备的音频采集模块可以实时或周期性地采集该电子设备所处环境中的任一音频数据。

又示例地，执行本公开提供的设备控制方法的设备可以为除待控制的电子设备之外的其他电子设备或服务器，则该其他电子设备或者服务器在开机后，通过其音频采集模块可以实时或周期性地采集该电子设备所处环境中的任一音频数据。

在步骤S12中，针对采集到的每一目标帧音频数据，确定目标帧音频数据是否为第一类型信号。

在本公开中，目标帧音频数据可以是所采集到的音频数据中的每一帧音频数据，也可以是所采集的预设数量帧之后的每一帧音频数据，还可以为所采集到的音频数据中的任意多帧音频数据(例如，按照预设规则从所采集到的音频数据中抽取的多帧音频数据)中的每一帧音频数据，等等。本公开对此不作具体限定。此外，确定目标帧音频数据是否为第一类型信号的具体方式将在下文详细描述。

在步骤S13中，若目标帧音频数据为第一类型信号，确定第一类型信号表征的声学事件类型。

在本公开中，第一类型信号表征的声学事件类型是指产生该第一类型信号的声学事件。示例地，第一类型信号为冲击信号，冲击信号具有持续时间短、幅度能量变化大、非周期等特点，因此，拍手产生的音频数据、打响指产生的音频数据、以及碰撞产生的音频数据均属于冲击信号。相应地，在本公开中，该冲击信号表征的声学事件类型可以为拍手事件、打响指事件、咳嗽事件和碰撞事件等。值得说明的是，在实际应用中，第一类型信号还可以是非冲击信号，本公开对此不作具体限定。

其中，确定第一类型信号表征的声学事件类型的具体实施方式将在下文详细描述。

在步骤S14中，控制设备执行与声学事件类型对应的控制指令。

在本公开中，预先设置不同的声学事件类型对应的控制指令，在确定出该目标帧音频数据为第一类型信号时，进一步确定该第一类型信号所表征的声学事件类型，并控制设备执行与该声学事件类型对应的控制指令。不同的声学事件类型对应的控制指令不同。例如，第一类型信号的声学时间类型为拍手事件，则其对应的控制指令可以是用于表征打开电视机的控制指令。又例如，第一类型信号的声学时间类型为打响指事件，则其对应的控制指令可以是用于表征暂停播放的控制指令。

示例地，控制设备执行与声学事件类型对应的控制指令可以具体为：在不唤醒设备的语音智能助手的情况下，控制设备执行与声学事件类型对应的控制操作。

例如，预先设置的与表征拍手事件的第一类型信号对应的控制操作为打开电视机，则执行该设备控制方法的设备或者服务器在确定出该目标帧音频数据为表征拍手事件的第一类型信号时，无需唤醒电视机的语音智能助手的情况下，控制电视机执行打开电视机的操作。

图2是根据一示例性实施例示出的另一种设备控制方法的流程图。如图2所示，图1中步骤S12可以包括步骤S121。

在步骤S121中，针对每一目标帧音频数据，根据该目标帧音频数据和该目标帧音频数据之前采集的至少部分帧历史音频数据，确定该目标帧音频数据是否为第一类型信号。

下面以目标帧音频数据为所采集的每一帧音频数据为例，对根据该目标帧音频数据和在采集该目标帧音频数据之前已采集的至少部分帧历史音频数据，确定该目标帧音频数据是否为第一类型信号进行说明。

首先，确定在采集该目标帧音频数据之前是否已采集到至少第三预设数量帧历史音频数据；若在采集该目标帧音频数据之前已采集到至少第三预设数量帧历史音频数据，则根据该目标帧音频数据前的第三预设数量帧所述历史音频数据和该目标帧音频数据，确定该目标帧音频数据是否为第一类别信号；或者，若在采集该目标帧音频数据之前未采集到至少第三预设数量帧历史音频数据，则根据该目标帧音频数据和已采集到的历史音频数据，确定该目标帧音频数据是否为第一类型信号。

示例地，假设第三预设数量为3，则默认所采集的到第一帧音频数据不为第一类型信号，之后，根据第一帧音频数据和第二帧音频数据，确定第二帧音频数据是否为第一类型信号，以及，根据第一帧音频数据、第二帧音频数据和第三帧音频数据，确定第三帧音频数据是否为第一类型信号。而针对在第三帧音频数据之后的每一帧音频数据，则是根据该帧音频数据前的第三预设数量帧历史音频数据和该目标帧音频数据，确定该目标帧音频数据是否为第一类型信号。例如，根据第二帧、第三帧音频数据确定第四帧音频数据是否为第一类型信号。

其中，可以参照上述确定该目标帧音频数据是否为第一类型信号的方式，确定出该目标帧音频数据是否为第一类型信号，此处不再赘述，

如此，可以参考不同数量帧历史音频数据，提高了确定该帧音频数据是否为第一类型信号的灵活性，并且，由于是参考该帧音频数据之前历史音频数据确定该帧音频数据是否为第一类型信号的，因此，提高了确定该帧音频数据是否为第一类型信号的准确度。

在一种实施例中，以第一类型信号为冲击信号为例进行说明，可以采用如下方式确定该目标帧音频数据是否为冲击信号。

示例地，图3是本公开实施例中一种确定音频数据是否为冲击信号的方法的示意图。如图3所示，m(n)表征第n个采样点对应的目标帧音频数据，首先，第n个采样点对应的目标帧音频数据m(n)输入第一降采样模块得到音频数据x(n)，将音频数据x(n)输入第一线性预测模块得到音频数据y(n)，将音频数据y(n)输入第一激励提取模块提取出e(n)，之后，将e(n)输入动态量分析模块，以分析该音频数据是否为大动态量能量变化的数据。同时，还会将音频数据x(n)输入第二降采样模块得到音频数据z(n)，将音频数据z(n)依次输入第二线性预测模块和第二激励提取模块得到音频数据v(n)，并将音频数据v(n)输入周期性分析模块以确定该音频数据是否为周期信号。最后，将动态量分析模块和周期性分析模块各自输出的结果输入快速变化信号判决模块，以由快速变化信号判决模块确定音频数据是否为冲击信号。

其中，动态量分析模块的具体分析过程如下：

首先，通过第一低通滤波器分析出包络信号env(n)。例如，可以通过以下公式确定出包络信号env(n)，并且，在该公式中β决定了该第一低通滤波器的截止频率：

env(n)＝env(n-1)+β(|e(n)|-env(n-1))

其中，env(n-1)为第n-1个采样点对应的音频数据的包络信号，β是依据经验设定的取值范围在0至1内的数值。

接着，将env(n)再经过第二低通滤波器得到更低频率的信号flr(n)。例如，可以通过以下公式确定该更低频率的信号flr(n)，并且，在该公式中γ决定了该第二低通滤波器的截止频率：

flr(n)＝flr(n-1)+γ(env(n)-flr(n-1))

其中，flr(n-1)为第n-1个采样点对应的音频数据经图3所示方式确定出的更低频率的信号，γ是依据经验设定的取值范围在0至1内的数值。

之后，分析env(n)、flr(n)和预设的阈值之间的关系，确定该音频数据是否为大动态量能量变化的数据。例如，确定flr(n)和预设的阈值的乘积与env(n)的大小关系，若env(n)大于flr(n)和预设的阈值的乘积，则确定该音频数据为大动态量能量变化的数据，否则，确定该音频数据为小动态量能量变化的数据。

周期性分析模块的具体分析过程如下：

其中，当音频数据为周期性数据时，其自相关也具有同样的周期性。因此，在实施例中，可以通过对音频数据v(n)做自相关计算来判断音频数据的周期性。例如，可以通过以下公式计算音频数据v(n)的自相关系数，之后，根据该自相关系数确定该音频数据是否为周期性数据。

其中，p_i表征相隔i个采样点的音频数据v(n)和v(n+i)之间的自相关系数，其中，n为第n个采样点，M为采样点的总数量。

若该音频数据为大动态量能量变化的数据，且为非周期数据，则确定该目标帧音频数据为冲击信号。

在另一种实施例中，可以通过如下方式确定该目标帧音频数据是否为冲击信号：

首先，获取该目标帧音频数据和至少部分帧音频数据各自的起始频谱值(onset值)。例如，针对每一目标帧音频数据，通过短时傅里叶变换得到该目标帧音频数据的梅尔频谱，将该目标帧音频数据的梅尔频谱与前一帧音频数据的梅尔频谱做差并将所得到的差值的平均值确定为该目标帧音频数据的起始频谱值。如此，可以计算出每一目标帧音频数据的起始频谱值。

之后，在该目标帧音频数据的起始频谱值满足预设条件的情况下，确定该目标帧音频数据为冲击信号，其中，预设条件为：该目标帧音频数据的起始频谱值为至少部分帧历史音频数据的起始值的极大值，且该目标帧音频数据的起始值大于或等于至少部分帧历史音频数据和该目标帧音频数据的起始值的平均值。即，若该目标帧音频数据的起始频谱值为至少部分帧历史音频数据的起始值的极大值，且该目标帧音频数据的起始值大于或等于至少部分帧历史音频数据和该目标帧音频数据的起始值的平均值，则确定该目标帧音频数据为冲击信号，否则不为冲击信号。

图4是根据一示例性实施例示出一种确定第一类型信号表征的声学事件类型的流程图。如图4所示，图1中步骤S13可以进一步包括步骤S131至步骤S134。

在步骤S131中，若目标帧音频数据为第一类型信号，则确定该目标帧音频数据是否为第一个第一类型信号。

示例地，在确定该目标帧音频数据为第一类型信号的情况下，确定在采集该目标帧音频数据之前的预设时长内是否出现过第一类型信号，若在预设时长内未出现过第一类型信号，即表征本次所确定的第一类型信号与上一次所确定的第一类型信号的时间间隔大于或等于预设时长，则认为本次所确定出的第一类型信号为第一个冲击信号数据，即，该目标帧音频数据为第一个第一类型信号。若在预设时长内出现过第一类型信号，则表征本次所确定的第一类型信号与上一次所确定的第一类型信号的时间间隔小于预设时长，则认为本次所确定出的第一类型信号不为第一个冲击信号数据，即，该目标帧音频数据不为第一个第一类型信号。

若确定该目标帧音频数据为第一个冲击信号数据，则执行步骤S132，否者执行步骤S133。

在步骤S132中，将音频数据中位于该目标帧音频数据以后的第一预设数量帧音频数据作为目标音频数据。其中，目标音频数据包括第二预设数量个第一类型信号，并且，该目标帧音频数据为目标音频数据中的第一帧音频数据。

在本公开中，第一预设数量与第二预设数量有关，可以根据需要或者实验结果进行设定。示例地，可以预先通过实验确定需要采集从第一个第一类型信号对应的音频数据以后的多少帧音频数据才能确保所采集到的音频数据中包括第二预设数量个第一类型信号，从而确定出第一预设数量。例如，假设第二预设数量为2，若从第一个第一类型信号对应的音频数据以后采集48帧音频数据才能确保该所采集的该48帧音频数据中包括2个第一类型信号，则第一预设数量即为48。

其中，用户预先设置与第二预设数量个第一类型信号对应的控制指令，例如，第二预设数量可以为1、2、3等等。假设第二预设数量为2，则所确定出的目标音频数据需要包括2个第一类型信号。值得说明的是，在实际应用中，第二预设数量越大，设备误执行控制指令的概率就越低，相应地，第一预设数量也就越大。

值得说明的是，在确定第一预设数量时，除了使该第一预设数量帧音频数据中包括第二预设数量个第一类型信号之外，还需尽可能使第一预设数量最小，以避免目标音频数据中包括干扰的音频数据。例如，通过预先的三次实验可知，在第一个第一类型信号以后的第48帧音频数据为第二预设数量个第一类型信号、在第一个冲击信号数据以后的第47帧音频数据为第二预设数量个第一类型信号、在第一个冲击信号数据以后的第46帧音频数据为第二预设数量个第一类型信号(其中，第一个第一类型信号记为第一帧音频数据)，则第一预设数量应大于或等于48。该第一预设数量可以为48，以使所确定的目标音频数据的数量尽可能较少，从而减少系统运行的运算量。

在步骤133中，将音频数据中从第一个第一类型信号对应的历史音频数据以后的第一预设数量帧音频数据作为目标音频数据。

在该目标帧音频数据不为第一个第一类型信号之前，已将所采集的音频数据中位于该目标帧音频数据之前的某一帧音频数据确定为第一个第一类型信号。在该情况下，可以将音频数据中从第一个第一类型信号对应的历史音频数据以后的第一预设数量帧音频数据作为目标音频数据。其中，第一个第一类型信号对应的历史音频数据为目标音频数据中的第一帧音频数据。

在按照步骤S132或步骤S133确定出目标音频数据之后，执行步骤S134。

在步骤S134中，根据目标音频数据确定第一类型信号表征的声学事件类型。

在本公开中，可以采用深度学习的方式判断该目标音频数据中包括的第一类型信号表征的声学事件类型。示例地，首先，提取目标音频数据的频谱特征数据，之后，将目标音频数据的频谱特征数据输入至已训练好的神经网络模型中，得到该神经网络模型输出的第一类型信号表征的声学事件类型。

在该示例中，在确定出目标音频数据之后，可以获取该目标音频数据中每一帧音频数据的梅尔频谱特征，并将每一帧音频数据的梅尔频谱特征输入至已训练好的神经网络模型，确定第一类型信号表征的声学事件类型。其中，神经网络模型可以基于每一帧音频数据的梅尔频谱特征提取得到深层特征，之后，基于该深层特征确定第一类型信号表征的声学事件类型。

如此，利用神经网络模型提取目标音频数据的深层特征，能很好的确定出第一类型信号表征的声学事件类型，进一步提高了确定第一类型信号表征的声学事件类型的鲁棒性。

在本公开中，神经网络模型可以通过以下方式训练得到：

首先，获取不同声学事件类型的样本音频数据，其中，每一帧样本音频数据的声学事件类型均是已知的。例如，可以分别获取打响指事件产生的样本音频数据、碰撞事件产生的样本音频数据、拍手事件产生的样本音频数据等。值得说明的是，样本音频数据的数量均大于或等于第一预设数量。

接着，获取每一帧样本音频数据的梅尔频谱特征。

最后，在每一次训练时，将第一预设数量帧样本音频数据的梅尔频谱特征作为模型输入参数，将该第一预设数量帧样本音频数据的已知声学事件类型对应的标签数据作为模型输出参数，对神经网络模型进行训练，最终得到训练完成后的神经网络模型。

其中，神经网络模型可以为时域卷积结构，该时域卷积结构相比于其他常用的神经网络结构具有参数量少，运行速度快等特点。

在一种实施例中，还可以预先设置用于表征该声学事件类型的第一类型信号的数量与控制指令的对应关系，例如，用于表征拍手事件的第一类型信号的数量为2时，其对应的控制指令为用于表征开始播放的控制指令，用于表征拍手事件的第一类型信号的数量为3时，其对应的控制指令为用于表征暂停播放的控制指令，等等。

在该实施例中，神经网络模型除了可以识别出第一类型信号表征的声学事件类型之外，还可以进一步识别出目标音频数据中包括的用于表征该声学事件类型的第一类型信号的数量。如此，在识别出用于表征该声学事件类型的第一类型信号的目标数量之后，根据预设的用于表征该声学事件类型的第一类型信号的数量与控制指令的对应关系，确定该目标数量对应的控制指令，并控制设备执行对应的控制操作。

基于同一发明构思，本公开还提供一种设备控制装置。图5是根据一示例性实施例示出的一种设备控制装置的框图。如图5所示，设备控制装置500可以包括：

采集模块501，被配置为采集音频数据；

第一确定模块502，被配置为针对采集到的每一目标帧音频数据，确定所述目标帧音频数据是否为第一类型信号；

第二确定模块503，被配置为若所述目标帧音频数据为所述第一类型信号，确定所述第一类型信号表征的声学事件类型；

控制模块504，被配置为控制设备执行与所述声学事件类型对应的控制指令。

可选地，所述第一确定模块502被配置为：针对每一目标帧音频数据，根据该目标帧音频数据和该目标帧音频数据之前采集的至少部分帧历史音频数据，确定该目标帧音频数据是否为第一类型信号。

可选地，所述第一类型信号为冲击信号，所述第一确定模块502可以包括：

获取子模块，被配置为获取该目标帧音频数据和所述多帧历史音频数据各自的起始频谱值；

第一确定子模块，被配置为在该目标帧音频数据的起始频谱值满足预设条件的情况下，确定该目标帧音频数据为冲击信号；

可选地，所述若所述目标帧音频数据为所述第一类型信号，所述第二确定模块503可以包括：

第二确定子模块，被配置为若所述目标帧音频数据为第一类型信号，则确定该目标帧音频数据是否为第一个所述第一类型信号；

第三确定子模块，被配置为若所述目标帧音频数据为所述第一个冲击信号，则将所述音频数据中位于所述目标帧音频数据以后的第一预设数量帧音频数据作为目标音频数据，其中，所述目标音频数据包括第二预设数量个第一类型信号；

第四确定子模块，被配置为若所述目标帧音频数据不为所述第一个所述第一类型信号，则将所述音频数据中从所述第一个第一类型信号对应的历史音频数据以后的所述第一预设数量帧音频数据作为目标音频数据；

第五确定子模块，被配置为根据所述目标音频数据确定所述第一类型信号表征的声学事件类型。

可选地，第五确定子模块被配置为：提取所述目标音频数据的频谱特征数据；

可选地，所述第二确定子模块被配置为：

若在所述预设时长内已出现过所述冲击信号，则确定该目标帧音频数据不为第一个所述第一类型信号。

可选地，所述目标帧音频数据为所采集的每一帧音频数据；第一确定模块502可以包括：

第六确定子模块，被配置为确定在采集该目标帧音频数据之前是否已采集到至少第三预设数量帧历史音频数据；

第六确定子模块，被配置为若在采集该目标帧音频数据之前已采集到所述至少第三预设数量帧历史音频数据，则根据该目标帧音频数据前的所述第三预设数量帧所述历史音频数据和该目标帧音频数据，确定该目标帧音频数据是否为第一类型信号；

第七确定子模块，被配置为若在采集该目标帧音频数据之前未采集到所述至少第三预设数量帧历史音频数据，则根据该目标帧音频数据和已采集到的所述历史音频数据，确定该目标帧音频数据是否为第一类型信号。

可选地，所述控制模块504被配置为：在不唤醒所述设备的语音智能助手的情况下，控制设备执行与所述声学事件类型对应的控制操作。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的设备控制方法的步骤。

图6是根据一示例性实施例示出的一种设备控制装置的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成设备控制方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行设备控制方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成设备控制方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的设备控制方法的代码部分。

图7是根据一示例性实施例示出的一种设备控制装置的框图。例如，装置1900可以被提供为一服务器。参照图7，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行设备控制方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows Server^TM，MacOS X^TM，Unix^TM，Linux^TM，FreeBSD^TM或类似。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种设备控制方法，其特征在于，包括：

采集音频数据；

控制设备执行与所述声学事件类型对应的控制指令。

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标帧音频数据是否为第一类型信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一类型信号为冲击信号，所述根据该目标帧音频数据和该目标帧音频数据之前采集的至少部分帧历史音频数据，确定该目标帧音频数据是否为第一类型信号，包括：

4.根据权利要求1-3所述的方法，其特征在于，所述若所述目标帧音频数据为所述第一类型信号，确定所述第一类型信号表征的声学事件类型，包括：

若所述目标帧音频数据为所述第一个所述第一类型信号，则将所述音频数据中位于所述目标帧音频数据以后的第一预设数量帧音频数据作为目标音频数据，其中，所述目标音频数据包括第二预设数量个第一类型信号；

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标音频数据确定所述第一类型信号表征的声学事件类型，包括：

提取所述目标音频数据的频谱特征数据；

6.根据权利要求4所述的方法，其特征在于，所述若所述目标帧音频数据为第一类型信号，则确定该目标帧音频数据是否为第一个所述第一类型信号，包括：

7.根据权利要求2所述的方法，其特征在于，所述目标帧音频数据为所采集的每一帧音频数据；所述根据该目标帧音频数据和在采集该目标帧音频数据之前已采集的至少部分帧历史音频数据，确定该目标帧音频数据是否为第一类型信号，包括：

8.根据权利要求1所述的方法，其特征在于，所述控制设备执行与所述声学事件类型对应控制指令，包括：

9.一种设备控制装置，其特征在于，包括：

采集模块，被配置为采集音频数据；

控制模块，被配置为控制设备执行与所述声学事件类型对应的控制指令。

10.一种设备控制装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

采集音频数据；

控制设备执行与所述声学事件类型对应的控制指令。

11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～8中任一项所述方法的步骤。