CN114822521B

CN114822521B - 一种音箱的唤醒方法、装置、设备及存储介质

Info

Publication number: CN114822521B
Application number: CN202210399973.1A
Authority: CN
Inventors: 岑竞湛; 余亚利; 李荣锋; 陆伟锋
Original assignee: Earda Technologies Co ltd
Current assignee: Earda Technologies Co ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2023-07-11
Anticipated expiration: 2042-04-15
Also published as: CN114822521A

Abstract

本发明公开了一种音箱的唤醒方法、装置、设备及存储介质，该方法包括：确定音箱处于休眠状态，在休眠状态中读取振动传感器所检测到的振动信号，根据振动信号识别触碰音箱的对象，根据振动信号识别音箱发生的振动类型，若振动类型为阻尼振动、对象为人体，则将音箱从休眠状态中唤醒至工作状态，本实施例中支持用户通过拍打音箱的方式唤醒音箱，拍打的学习成本低，便于推广，此外，通过振动类型、对象这两个维度识别用户拍打音箱的场景，维度之间相互校对，降低单一维度下误检测带来的影响，可以保证识别用户拍打音箱的场景的精确度，从而保证唤醒音箱的精确度，并且，拍打的方式可以避免使用唤醒词，保证唤醒音箱的效率。

Description

一种音箱的唤醒方法、装置、设备及存储介质

技术领域

本发明涉及智能音箱的技术领域，尤其涉及一种音箱的唤醒方法、装置、设备及存储介质。

背景技术

音箱是用户居家生活中常用的智能设备，可以为用户播放歌曲、播放故事、播放新闻，等等，为了降低功耗，音箱一般处于休眠状态，而用户通常使用语音唤醒音箱，即，用户说出特定唤醒词，音箱进入工作状态，用户再说出要操作的事情。

但是，在某些情况下，用户并不方便使用语音唤醒音箱，例如，用户生病导致声音沙哑，用户正在语音通话或视频通话，等等，此时，用户使用语音唤醒音箱会导致效率降低。

发明内容

本发明提供了一种音箱的唤醒方法、装置、设备及存储介质，以解决提高唤醒音箱的效率。

根据本发明的一方面，提供了一种音箱的唤醒方法，所述音箱中设置有振动传感器，所述方法包括：

确定所述音箱处于休眠状态；

在所述休眠状态中读取所述振动传感器所检测到的振动信号；

根据所述振动信号识别触碰所述音箱的对象；

根据所述振动信号识别所述音箱发生的振动类型；

若所述振动类型为阻尼振动、所述对象为人体，则将所述音箱从所述休眠状态中唤醒至工作状态。

可选地，所述根据所述振动信号识别所述音箱发生的振动类型，包括：

在所述振动信号中识别多个波峰与多个波谷；

针对相邻两个所述波峰与所述波谷，计算所述波峰与所述波谷之间的距离，获得振幅；

若多个所述振幅随时间减小，则确定所述音箱发生的振动类型为阻尼振动。

可选地，所述根据所述振动信号识别所述音箱发生的振动类型，还包括：

统计所述振动信号持续的时长；

若所述时长大于或等于预设的时长阈值，则确定所述阻尼振动有效；

若所述时长小于预设的时长阈值，则确定所述阻尼振动无效。

可选地，所述音箱中还设置有红外热释传感器，所述方法还包括：

在读取到所述振动传感器所检测到的振动信号时，启动所述红外热释传感器；

读取所述红外热释传感器所检测的温度；

所述若所述振动类型为阻尼振动、且所述对象为人体，则将所述音箱从所述休眠状态中唤醒至工作状态，包括：

若所述振动类型为阻尼振动、所述对象为人体、所述温度在预设的范围内，则将所述音箱从所述休眠状态中唤醒至工作状态。

可选地，所述音箱中还设置有麦克风，所述方法还包括：

在读取到所述振动传感器所检测到的振动信号时，读取所述麦克风所检测的音频信号；

识别所述音频信号表达的语义；

若所述振动类型为阻尼振动、所述对象为人体、所述语义为通话用语，则将所述音箱从所述休眠状态中唤醒至工作状态。

可选地，所述识别所述音频信号表达的语义，包括：

查找预设的参考信号，所述参考信号属于表达的语义为通话用语的语言信号；

将所述音频信号切分为多段音频片段；

从所述音频片段中提取第一音频特征；

从所述参考信号中提取第二音频特征；

计算所述第一音频特征与所述第二音频特征之间的相似度；

若所述相似度大于预设的音频阈值，则确定所述音频信号表达的语义为通话用语。

可选地，所述将所述音频信号切分为多段音频片段，包括：

在所述音频信号的头部添加与所述参考信号适配的窗口；

设定与所述窗口适配的步长，所述步长小于所述窗口的长度；

按照所述步长移动所述窗口，并从所述窗口中提取音频片段。

根据本发明的另一方面，提供了一种音箱的唤醒装置，所述音箱中设置有振动传感器，所述装置包括：

休眠状态确定模块，用于确定所述音箱处于休眠状态；

振动信号读取模块，用于在所述休眠状态中读取所述振动传感器所检测到的振动信号；

触碰对象识别模块，用于根据所述振动信号识别触碰所述音箱的对象；

振动类型识别模块，用于根据所述振动信号识别所述音箱发生的振动类型；

唤醒模块，用于若所述振动类型为阻尼振动、所述对象为人体，则将所述音箱从所述休眠状态中唤醒至工作状态。

可选地，所述振动类型识别模块还用于：

在所述振动信号中识别多个波峰与多个波谷；

可选地，所述振动类型识别模块还用于：

统计所述振动信号持续的时长；

可选地，所述音箱中还设置有红外热释传感器，所述方装置包括：

红外启动模块，用于在读取到所述振动传感器所检测到的振动信号时，启动所述红外热释传感器；

温度读取模块，用于读取所述红外热释传感器所检测的温度；

所述唤醒模块还用于：

可选地，所述音箱中还设置有麦克风，所述装置还包括：

音频信号读取模块，用于在读取到所述振动传感器所检测到的振动信号时，读取所述麦克风所检测的音频信号；

语义识别模块，用于识别所述音频信号表达的语义；

所述唤醒模块还用于：

可选地，所述语义识别模块还用于：

将所述音频信号切分为多段音频片段；

从所述音频片段中提取第一音频特征；

从所述参考信号中提取第二音频特征；

计算所述第一音频特征与所述第二音频特征之间的相似度；

在本发明的一个实施例中，所述语义识别模块还用于：

在所述音频信号的头部添加与所述参考信号适配的窗口；

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的音箱的唤醒方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现本发明任一实施例所述的音箱的唤醒方法。

在本实施例中，确定音箱处于休眠状态，在休眠状态中读取振动传感器所检测到的振动信号，根据振动信号识别触碰音箱的对象，根据振动信号识别音箱发生的振动类型，若振动类型为阻尼振动、对象为人体，则将音箱从休眠状态中唤醒至工作状态，本实施例中支持用户通过拍打音箱的方式唤醒音箱，拍打的学习成本低，便于推广，此外，通过振动类型、对象这两个维度识别用户拍打音箱的场景，维度之间相互校对，降低单一维度下误检测带来的影响，可以保证识别用户拍打音箱的场景的精确度，从而保证唤醒音箱的精确度，并且，拍打的方式可以避免使用唤醒词，使得用户可以在不方便使用唤醒词的情况下唤醒音箱，保证唤醒音箱的效率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种音箱的唤醒方法的流程图；

图2是根据本发明实施例一提供的一种用户拍打音箱的场景示例图；

图3是根据本发明实施例一提供的一种阻尼振动的波形示例图；

图4是根据本发明实施例二提供的一种音箱的唤醒方法的流程图；

图5是根据本发明实施例三提供的一种音箱的唤醒方法的流程图；

图6是根据本发明实施例四提供的一种音箱的唤醒装置的结构示意图；

图7是实现本发明实施例的音箱的唤醒方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的一种音箱的唤醒方法的流程图，本实施例可适用于用户使用触碰唤醒音箱的情况，该方法可以由音箱的唤醒装置来执行，该音箱的唤醒装置可以采用硬件和/或软件的形式实现，该音箱的唤醒装置可配置于电子设备中。如图1所示，该方法包括：

步骤101、确定音箱处于休眠状态。

音箱设置有自动休眠功能，在自动休眠功能启动的情况下，若满足一定的条件，例如，持续未播放音频的时间超过阈值，等等，音箱进入休眠状态。

在休眠状态中，音箱停止一些组件的运行，该组件可以为硬件和/或软件，例如，扬声器(即喇叭)，Wi-Fi(无线保真)模组，蓝牙模组，等等，以降低音箱的功耗。

在本实施例中，音箱中设置有振动传感器，即，可检测振动信号的传感器，例如，压电传感器、骨传导传感器，等等，该振动传感器可以安装在音箱的壳体内部，提高检测用户触碰音箱的灵敏度。

音箱在处于工作状态时，振动传感器停止运行，音箱在处于休眠状态时，振动传感器启动运行。

步骤102、在休眠状态中读取振动传感器所检测到的振动信号。

在本实施例中，如图2所示，用户可以使用手部202等方式通过拍打的方式唤醒音箱201，控制音箱从休眠状态切换至工作状态。

音箱在处于休眠状态时，振动传感器保持运行，振动传感器可以检测到在音箱处发生的振动信号，该振动信号属于模拟信号，在经过采样、去噪等处理之后，转换为属于数字信号的振动信号。

步骤103、根据振动信号识别触碰音箱的对象。

除了用户拍打音箱之外，还会存在其他因素使得在音箱处发生振动信号，例如，音箱放置在桌面上，用户或某些物件碰撞桌面，某些物体触碰音箱，均会在音箱处发生振动信号，等等。

不同类型的对象的材质有所不同，使得不同类型的对象振动时的特性有所不同，通过分析振动信号的特性，可从材质分析出触碰音箱的对象为人体或者并非人体。

在一个分析的示例中，可以预先应用机器学习或深度学习训练根据振动信号分类的模型，例如，SVM(Support Vector Machine，支持向量机)、CNN(Convolutional NeuralNetworks，卷积神经网络)中的LetNet、AlexNet、VGG、Inception、ResNet、DenseNet，等等，使得该模型可以根据振动信号识别触碰音箱的对象，此时，将振动信号输入模型中，该模型按照自身的结构对振动信号进行处理，输出一个分类的结果，该结果即为触碰音箱的对象。

在另一个分析的示例中，可以从振动信号中提取时域和/或频域上的特征，例如，峰值点、峰值点之间的间隔、过零率、短时能量、短时自相关函数、短时平均幅度差、短时功率谱密度、谱熵、基频、共振峰，等等，本实施例对此不加以限制。

将该特征与人体对应的规则进行比较。若该征符合预设的规则，则可以确定触碰音箱的对象为人体，若该征不符合预设的规则，则可以确定触碰音箱的对象并非人体。

当然，上述分析触碰音箱的对象的方式只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它分析触碰音箱的对象的方式，本发明实施例对此不加以限制。另外，除了上述分析触碰音箱的对象的方式外，本领域技术人员还可以根据实际需要采用其它分析触碰音箱的对象的方式，本发明实施例对此也不加以限制。

步骤104、根据振动信号识别音箱发生的振动类型。

不同类型的对象触碰音箱时发生的振动信号的振动类型有所不同，音箱受到撞击时容易触发阻尼振动，而因为承载音箱的位置(如桌面)晃动时并不会触发阻尼振动，因此，通过分析出振动类型为阻尼振动或者并非阻尼振动，从而识别触碰音箱的场景。

其中，如图3所示，阻尼振动是指，由于音箱受到摩擦和介质阻力或其他能耗而使振幅x随时间t逐渐衰减的振动，用户在拍打音箱时，由于外界的摩擦和介质阻力总是存在，在振动过程中要不断克服外界阻力做功，消耗能量，因为振幅x与振动t的能量有关，振幅x就会逐渐减小，经过一段时间t，振动就会完全停下来，振幅x为零，即，阻尼振动为振幅x随时间t减小的振动。

在具体实现中，可以通过二分法等方式在振动信号中识别多个波峰与多个波谷。

其中，波峰是指在一段振动信号的波形中的最大值，波峰的数值比其两边的数值都大，波谷是指在一段振动信号的波形中的最小值，波峰的数值比其两边的数值都小。

波峰与波谷按照时间排列，针对相邻两个波峰与波谷，计算该波峰与该波谷之间的距离，获得振幅。

若多个振幅随时间减小，则可以确定音箱发生的振动类型为阻尼振动。

进一步地，为了提高检测阻尼振动的精确度，可以统计振动信号持续的时长，将该时长与预设的市场阈值进行比较。

若时长大于或等于预设的时长阈值，则确定阻尼振动有效。

若时长小于预设的时长阈值，则确定阻尼振动无效。

步骤105、若振动类型为阻尼振动、对象为人体，则将音箱从休眠状态中唤醒至工作状态。

如果振动信号的振动类型为阻尼振动，触碰音箱的对象为人体，表示用户拍打音箱的概率较大，此时，可以将音箱从休眠状态中唤醒至工作状态，为用户提供服务。

在工作状态中，音箱启动一些组件的运行，该组件可以为硬件和/或软件，例如，扬声器(即喇叭)，Wi-Fi(无线保真)模组，蓝牙模组，等等，以保证音箱的正常服务。

实施例二

图4为本发明实施例二提供的一种音箱的唤醒方法的流程图，本实施例在上述实施例的基础上增加了温度的检测。如图4所示，该方法包括：

步骤401、确定音箱处于休眠状态。

步骤402、在休眠状态中读取振动传感器所检测到的振动信号。

步骤403、根据振动信号识别触碰音箱的对象。

步骤404、根据振动信号识别音箱发生的振动类型。

步骤405、在读取到振动传感器所检测到的振动信号时，启动红外热释传感器。

在本实施例中，在音箱中除了振动传感器之外，还设置有红外热释传感器，红外热释传感器设置在音箱的壳体内部，透过通孔接触音箱的外部环境。

其中，红外热释传感器一般指热释电红外传感器，热释电红外传感器在结构上引入场效应管，其目的在于完成阻抗变换。由于热释电元输出的是电荷信号，并不能直接使用，因而需要用电阻将其转换为电压形式。故引入的N沟道结型场效应管应接成共漏形式来完成阻抗变换。热释电红外传感器由传感探测元、干涉滤光片和场效应管匹配器三部分组成。设计时应将高热电材料制成一定厚度的薄片，并在它的两面镀上金属电极，然后加电对其进行极化，这样便制成了热释电探测元。

音箱在处于工作状态时，振动传感器停止运行，音箱在处于休眠状态且读取到振动传感器所检测到的振动信号时，振动传感器启动运行。

步骤406、读取红外热释传感器所检测的温度。

红外热释传感器可以持续采集音箱外部环境的温度，尤其通过通孔检测接近音箱的壳体的对象的温度，并将这些温度写入为红外热释传感器设置的缓冲队列中。

此时，可以从缓冲队列中读取红外热释传感器所检测到的、外部环境的温度。

步骤407、若振动类型为阻尼振动、对象为人体、温度在预设的范围内，则将音箱从休眠状态中唤醒至工作状态。

在本实施例中，将温度与预设的范围进行比较，该范围为人体正常体温的波动范围，如30℃-40℃。

如果振动信号的振动类型为阻尼振动，触碰音箱的对象为人体、温度在该范围内，表示用户拍打音箱的概率较大，此时，可以将音箱从休眠状态中唤醒至工作状态，为用户提供服务。

本实施例通过振动类型、对象、温度这三个维度识别用户拍打音箱的场景，三个维度相互校对，降低单一维度下误检测带来的影响，可以保证识别用户拍打音箱的场景的精确度，从而保证唤醒音箱的精确度。

实施例三

图5为本发明实施例二提供的一种音箱的唤醒方法的流程图，本实施例在上述实施例的基础上增加了语义的检测。如图5所示，该方法包括：

步骤501、确定音箱处于休眠状态。

步骤502、在休眠状态中读取振动传感器所检测到的振动信号。

步骤503、根据振动信号识别触碰音箱的对象。

步骤504、根据振动信号识别音箱发生的振动类型。

步骤505、在读取到振动传感器所检测到的振动信号时，读取麦克风所检测的音频信号。

在本实施例中，在音箱中除了振动传感器之外，还设置有麦克风(microphone)，麦克风设置在音箱的壳体内部，透过通孔接触音箱的外部环境。

其中，麦克风又称为传声器，话筒，微音器等，是将声音信号转换为电信号的能量转换器件。

麦克风根据其换能原理可划分为电动麦克风和电容麦克风两种，电动类又可细分为动圈麦克风和铝带麦克风。

应用在音箱中的麦克风有电容式麦克风、晶体麦克风碳质麦克风以及动态麦克风。进一步地，电容式麦克风使用的能量源有两种：直流偏置电源和驻极体薄膜。这两种电容式麦克风和晶体麦克风都是将声能转换为电能，产生一个变化的电场。碳质麦克风采用直流电压源，通过声音振动改变其电阻，从而将声信号转换为电信号。电容式、晶体以及碳质麦克风都产生一个与敏感膜位移成正比的电压信号，而动态麦克风则产生一个与敏感膜的振动的振动速率成正比的电压信号。动态麦克风采用永磁体为能量源，基于电感效应将声能转换为电能。

为了保证音箱可提供语音控制、语音唤醒等服务，因此，音箱在处于工作状态时，麦克风保持运行，音箱在处于休眠状态时，麦克风保持运行。

麦克风可以通过通孔持续采集音箱外部环境的音频信号，并将这些音频信号写入为麦克风设置的缓冲队列中。

在读取到振动传感器所检测到的振动信号时，可以从缓冲队列中读取麦克风所检测到的、音箱外部环境的音频信号。

步骤506、识别音频信号表达的语义。

由于音箱支持语音唤醒，音箱会持续监听指定的唤醒词，即，持续识别音频信号表达的语义，在本实施例中，可以在识别音频信号表达的语义的环节中添加除唤醒词之外的其他词语的识别，识别音频信号除了唤醒之外的其他语义，从而识别用户使用音箱的场景。

在本发明的一个实施例中，步骤506可以包括如下步骤：

步骤5061、查找预设的参考信号。

在本实施例中，可以从本地或云端的数据库中查找参考信号，该参考信号属于表达的语义为通话用语的语言信号，通话用语指通话过程中常用的语言，尤其为语音通话、视频通话的过程中高频使用的语言，例如，“喂”、“你好”、“hello”、“是啊”、“但是”、“什么”，等等。

步骤5062、将音频信号切分为多段音频片段。

在本实施例中，可以按照通话用语的长度切分音频信号，得到多段音频片段。

示例性地，可以在音频信号的头部添加与参考信号适配的窗口，设定与窗口适配的步长，其中，步长小于窗口的长度，按照步长移动窗口，并在每次移动窗口时，从窗口中提取音频片段。

当然，除了使用窗口切分音频信号之外，也可以通过其他方式切分音频信号，例如，每间隔预设的时间切分音频信号，等等，本实施例对此不加以限制。

步骤5063、从音频片段中提取第一音频特征。

在本实施例中，可以从能量、时域、频域等维度下从音频片段提取特征，记为第一音频特征。

由于评价相似度的方式不同，第一音频特征有所不同，例如，均方根能量、起音时间、过零率、自相关系数、谱质心、MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)、频谱平坦度、频谱通量，等等。

步骤5064、从参考信号中提取第二音频特征。

在本实施例中，可以从能量、时域、频域等维度下从参考信号提取特征，记为第二音频特征。

由于评价相似度的方式不同，第二音频特征有所不同，例如，均方根能量、起音时间、过零率、自相关系数、谱质心、MFCC、频谱平坦度、频谱通量，等等。

进一步而言，第一音频特征与第二音频特征的类型相同，以便于评价音频片段与参考信号之间的相似度。

步骤5065、计算第一音频特征与第二音频特征之间的相似度。

在本实施例中，可以将第一音频特征与第二音频特征进行比较，计算第一音频特征与第二音频特征之间的相似度，从而判断音频片段与参考信号之间是否表达相同的语义。

以simhash为例，对于音频片段、参考信号，可以通过傅里叶变换等方式处理音频片段、参考信号的形状，向上用1表示，向下用0表示，所有的形状用64位的long表示，得到第一音频特征与第二音频特征，计算第一音频特征与第二音频特征之间的海明距离，得到相似度。

步骤5066、若相似度大于预设的音频阈值，则确定音频信号表达的语义为唤醒。

如果相似度大于预设的音频阈值，表示判断音频片段与参考信号相似度高，则可以确定音频片段与参考信号表达相同的语义，即，确定音频信号表达的语义为通话用语。

本实施例中参考信号相互独立，可以支持并行操作，通过对比信号本身识别其表达的语义，处理速度很快，可实现毫秒级的响应。

步骤507、若振动类型为阻尼振动、对象为人体、语义为通话用语，则将音箱从休眠状态中唤醒至工作状态。

如果音频信号表达的语义为通话用语，表示用户处于通话的场景中，由于唤醒词通常是一个独立的词，与通话的上下文并不连贯，如果用户说出唤醒词会打断通话的上下文，因此，用户并不方便使用唤醒词唤醒音箱。

本实施例通过振动类型、对象、语义这三个维度识别用户在通话过程中拍打音箱的场景，三个维度相互校对，不仅避免用户不方便使用唤醒词唤醒音箱，提高唤醒音箱的效率，而且降低单一维度下误检测带来的影响，提高了唤醒音箱的精确度。

实施例四

图6为本发明实施例四提供的一种音箱的唤醒装置的结构示意图，该音箱中设置有振动传感器，如图6所示，该装置包括：

休眠状态确定模块601，用于确定所述音箱处于休眠状态；

振动信号读取模块602，用于在所述休眠状态中读取所述振动传感器所检测到的振动信号；

触碰对象识别模块603，用于根据所述振动信号识别触碰所述音箱的对象；

振动类型识别模块604，用于根据所述振动信号识别所述音箱发生的振动类型；

唤醒模块605，用于若所述振动类型为阻尼振动、所述对象为人体，则将所述音箱从所述休眠状态中唤醒至工作状态。

在本发明的一个实施例中，所述振动类型识别模块604还用于：

在所述振动信号中识别多个波峰与多个波谷；

统计所述振动信号持续的时长；

在本发明的一个实施例中，所述音箱中还设置有红外热释传感器，所述方装置包括：

所述唤醒模块605还用于：

在本发明的一个实施例中，所述音箱中还设置有麦克风，所述装置还包括：

语义识别模块，用于识别所述音频信号表达的语义；

所述唤醒模块605还用于：

在本发明的一个实施例中，所述语义识别模块还用于：

将所述音频信号切分为多段音频片段；

从所述音频片段中提取第一音频特征；

从所述参考信号中提取第二音频特征；

计算所述第一音频特征与所述第二音频特征之间的相似度；

在本发明的一个实施例中，所述语义识别模块还用于：

在所述音频信号的头部添加与所述参考信号适配的窗口；

本发明实施例所提供的音箱的唤醒装置可执行本发明任意实施例所提供的音箱的唤醒方法，具备执行音箱的唤醒方法相应的功能模块和有益效果。

实施例五

图7示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图7所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如音箱的唤醒方法。

在一些实施例中，音箱的唤醒方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的音箱的唤醒方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行音箱的唤醒方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种音箱的唤醒方法，其特征在于，所述音箱中设置有振动传感器，所述方法包括：

确定所述音箱处于休眠状态；

根据所述振动信号识别触碰所述音箱的对象，包括：提取所述振动信号中时域和/或频域上的特征，将所述特征与人体对应的规则进行比较，根据比较结果确定触碰所述音箱的对象是否为人体；其中，所述振动信号中时域和/或频域上的特征，包括：峰值点、峰值点之间的间隔、过零率、短时能量、短时自相关函数、短时平均幅度差、短时功率谱密度、谱熵、基频和共振峰；根据所述振动信号识别所述音箱发生的振动类型；

2.根据权利要求1所述的方法，其特征在于，所述根据所述振动信号识别所述音箱发生的振动类型，包括：

在所述振动信号中识别多个波峰与多个波谷；

3.根据权利要求2所述的方法，其特征在于，所述根据所述振动信号识别所述音箱发生的振动类型，还包括：

统计所述振动信号持续的时长；

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述音箱中还设置有红外热释传感器，所述方法还包括：

读取所述红外热释传感器所检测的温度；

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述音箱中还设置有麦克风，所述方法还包括：

识别所述音频信号表达的语义；

6.根据权利要求5所述的方法，其特征在于，所述识别所述音频信号表达的语义，包括：

将所述音频信号切分为多段音频片段；

从所述音频片段中提取第一音频特征；

从所述参考信号中提取第二音频特征；

计算所述第一音频特征与所述第二音频特征之间的相似度；

7.根据权利要求6所述的方法，其特征在于，所述将所述音频信号切分为多段音频片段，包括：

在所述音频信号的头部添加与所述参考信号适配的窗口；

8.一种音箱的唤醒装置，其特征在于，所述音箱中设置有振动传感器，所述装置包括：

休眠状态确定模块，用于确定所述音箱处于休眠状态；

所述触碰对象识别模块，具体用于提取所述振动信号中时域和/或频域上的特征，将所述特征与人体对应的规则进行比较，根据比较结果确定触碰所述音箱的对象是否为人体；其中，所述振动信号中时域和/或频域上的特征，包括：峰值点、峰值点之间的间隔、过零率、短时能量、短时自相关函数、短时平均幅度差、短时功率谱密度、谱熵、基频和共振峰；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的音箱的唤醒方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现权利要求1-7中任一项所述的音箱的唤醒方法。