CN111724783A

CN111724783A - 智能设备的唤醒方法、装置、智能设备及介质

Info

Publication number: CN111724783A
Application number: CN202010589348.4A
Authority: CN
Inventors: 史润宇; 张琳; 华雨晴; 美耸; 路炜; 郭奶超; 王凯
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-09-29
Anticipated expiration: 2040-06-24
Also published as: CN111724783B; US20210410065A1; EP3929723A1

Abstract

本公开是关于一种智能设备的唤醒方法、装置、智能设备及介质，唤醒方法包括：接收声音信息；判断声音信息中是否包含多频音；若声音信息中包含多频音，唤醒智能设备的预设功能。本公开中的唤醒方法，判断智能设备接收到的声音信息中是否包含多频音，以确定是否唤醒智能设备的预设功能。由于本公开以频域特征作为判断依据，在保证唤醒准确性的同时，还能够降低声音信息处理过程中的复杂性，减少智能设备的能耗。

Description

智能设备的唤醒方法、装置、智能设备及介质

技术领域

本公开涉及智能设备领域，尤其涉及一种智能设备的唤醒方法、装置、智能设备及介质。

背景技术

随着技术的进步，唤醒技术应用越来越广泛。随着需要唤醒系统的场景越来越丰富，为了能使各种各样的系统在合适的场景下被唤醒，且唤醒过程既要准确又要保持低功耗状态，对唤醒技术提出了越来越高的要求。与唤醒场景相适配的唤醒技术，能够使智能设备大部分时间处于待机状态，在需要使用时被唤醒，节省智能设备的功耗，同时，增强了人机交互体验。

相关技术中，针对不同的唤醒场景分类，不同的场景应用不同的唤醒技术。比如，楼道中的声控灯，唤醒声控灯点亮的方案简单且功耗低，但是容易造成误唤醒，且唤醒率很难掌握。再比如，复杂的人工智能语音唤醒技术，如手机助手的唤醒过程，识别复杂度较高，在测试阶段需要进行复杂的训练过程，且在唤醒过程中对语音的识别过程计算量大，增加了手机的耗电量。

发明内容

为克服相关技术中存在的问题，本公开提供一种智能设备的唤醒方法、装置、智能设备及介质。

根据本公开实施例的第一方面，提供了一种智能设备的唤醒方法，应用于接收端智能设备，所述唤醒方法包括：

接收声音信息；

判断所述声音信息中是否包含多频音；

若所述声音信息中包含多频音，根据所述多频音，唤醒智能设备的预设功能。

可选地，所述根据所述多频音，唤醒智能设备的预设功能，包括：

对所述多频音进行分帧处理；

确定所述多频音的每一帧数据的帧能量信息；

根据所述多频音的每一帧数据的帧能量信息，确定所述多频音是否为唤醒信息；

若所述多频音为唤醒信息，唤醒智能设备的预设功能。

可选地，所述根据所述多频音的每一帧数据的帧能量信息，确定所述多频音是否为唤醒信息，包括：

判断是否存在连续N帧数据的帧能量信息均超过预设能量阈值；

若是，确定所述多频音为唤醒信息。

可选地，所述判断所述声音信息中是否包含多频音，包括：

根据第一预设信息，判断所述声音信息中是否包含特征音频信息；

若所述声音信息中包含特征音频信息，则所述声音信息中包含多频音；

其中，所述特征音频信息包括多个单频音，所述第一预设信息包括多个参考单频音特征，所述多个单频音与所述多个参考单频音特征对应。

根据所述多个单频音的能量信息，确定所述多频音是否为唤醒信息；

若所述多频音为唤醒信息，唤醒智能设备的预设功能。

可选地，所述根据所述多个单频音的能量信息，确定所述多频音是否为唤醒信息，包括：

分别对每一个所述单频音进行分帧处理；

分别确定每一个所述单频音的每一帧数据的帧能量信息；

根据每一个所述单频音的帧能量信息，确定所述多频音是否为唤醒信息。

可选地，所述根据每一个所述单频音的帧能量信息，确定所述多频音是否为唤醒信息，包括：

分别判断每一个所述单频音的帧能量信息是否均满足预设条件，所述预设条件为所述单频音存在连续N帧信号，且每一帧数据的帧能量信息均超过与该单频音对应的预设能量阈值；

若每一个所述单频音均满足预设条件，确定所述多频音为唤醒信息。

可选地，所述唤醒方法还包括：

根据第二预设信息，判断所述声音信息中是否包含特征基频信息，其中，所述第二预设信息包括参考基频特征，所述特征基频信息与所述参考基频特征对应；

若所述声音信息中包含特征基频信息，根据所述多频音，唤醒智能设备的预设功能。

可选地，当所述预设功能为智能设备的超声系统功能时，所述唤醒方法包括：

根据接收到的所述多频音的时长，确定超声系统进行超声编码的时长。

可选地，所述根据接收到所述多频音的时长，确定超声系统进行超声编码的时长，包括：

自接收到所述多频音的时刻起，控制超声系统启动超声编码；

自所述多频音停止的时刻止，控制超声系统停止超声编码。

根据本公开实施例的第二方面，提供了一种智能设备的唤醒装置，应用于接收端智能设备，所述唤醒装置包括：

收音模块，用于接收声音信息；

处理模块，用于判断所述声音信息中是否包含多频音；

所述处理模块，还用于若所述声音信息中包含多频音，唤醒智能设备的预设功能。

可选地，所述处理模块具体用于：

对所述多频音进行分帧处理；

确定所述多频音的每一帧数据的帧能量信息；

若所述多频音为唤醒信息，唤醒智能设备的预设功能。

可选地，所述处理模块具体用于：

若是，确定所述多频音为唤醒信息。

可选地，所述处理模块具体用于：

若所述多频音为唤醒信息，唤醒智能设备的预设功能。

优选地，所述处理模块具体用于：

分别对每一个所述单频音进行分帧处理；

分别确定每一个所述单频音的每一帧数据的帧能量信息；

可选地，所述处理模块具有用于：

可选地，所述处理模块具体用于：

可选地，当所述预设功能为智能设备的超声系统功能时，所述唤醒模块具体用于：

可选地，所述处理模块具体用于：

自所述多频音停止的时刻止，控制超声系统停止超声编码。

根据本公开实施例的第三方面，提供一种智能设备，包括：

处理器；

用于存储处理器的可执行指令的存储器；

其中，所述处理器被配置为执行如上所述的智能设备的唤醒方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由智能设备的处理器执行时，使得智能设备能够执行如上所述的智能设备的唤醒方法。

本公开的实施例提供的技术方案可以包括以下有益效果：本公开中的唤醒方法，判断智能设备接收到的声音信息中是否包含多频音，以确定是否唤醒智能设备的预设功能。由于本公开以频域特征作为判断依据，在保证唤醒准确性的同时，还能够降低声音信息处理过程中的复杂性，减少智能设备的能耗。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的信号发射端的框图。

图2是根据一示例性实施例示出的发射端设备和接收端设备的框图。

图3是根据一示例性实施例示出的包含多频音的唤醒信息的频谱示意图。

图4是根据一示例性实施例示出的包含多频音和音乐基频的频谱示意图。

图5是根据一示例性实施例示出的唤醒方法的流程图。

图6是根据一示例性实施例示出的唤醒方法的流程图。

图7是根据一示例性实施例示出的唤醒方法的流程图。

图8是根据一示例性实施例示出的唤醒方法的流程图。

图9是根据一示例性实施例示出的唤醒方法的流程图。

图10是根据一示例性实施例示出的信号发射端和接收端的框图。

图11是根据一示例性实施例示出的唤醒方法的流程图。

图12是根据一示例性实施例示出的唤醒方法的流程图。

图13是根据一示例性实施例示出的唤醒方法的流程图。

图14是根据一示例性实施例示出的唤醒方法的流程图。

图15是根据一示例性实施例示出的唤醒装置的框图。

图16是根据一示例性实施例示出的智能设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

针对不同的唤醒场景分类，不同的场景应用不同的唤醒技术。比如，楼道中的声控灯，唤醒声控灯点亮的方案简单且功耗低，但是容易造成误唤醒，且唤醒率很难掌握。再比如，复杂的人工智能语音唤醒技术，如手机助手的唤醒过程，识别复杂度较高，在测试阶段需要进行复杂的训练过程，且在唤醒过程中对语音的识别过程计算量大，增加了手机的耗电量。

相关技术中，存在使用射频技术唤醒系统的方法。比如，在智能交通、仓储物流等领域中的射频识别系统，包括射频唤醒电路发射端和射频唤醒电路接收端，其工作频率为915MHZ的公共频段，有效唤醒工作范围为20m。在有源电子标签进入工作范围之后，对有源RFID电子标签的处理器进行唤醒，处理器与有源FRID读卡器完成数据处理后，再次进入休眠状态，直到下次被唤醒。但射频设备、射频标签等硬件装置成本较高，不适合日常生活使用，应用方向大多为专用市场。

本公开提出了一种智能设备的唤醒方法，在设备接收到声音信息时，根据声音信息中的是否包含多频音判断是否接收到了唤醒信息，进而对预设功能进行唤醒或保持当前状态。由于根据声音信息中的频域特征进行判断，相比于现有技术中的语音唤醒方法和单纯根据声音强度的进行唤醒的方法，本公开中的唤醒方法在保证唤醒准确性的同时，还能够降低声音信息处理过程中的复杂性，减少智能设备的能耗。

其中，智能设备比如可以是手机、平板电脑、智能音响、智能家电等作为声音信息接收端使用的设备。并且，本公开中的唤醒方法并不仅仅局限于智能设备的待机状态的唤醒过程，还可以应用于智能设备的预设功能的唤醒过程。比如，唤醒手机的超声模块，使手机的超声模块开始进行编码。再比如，温湿度检测装置在检测到温度低于设定温度时，唤醒空调启动进行温度调节；在检测到湿度低于设定温度时，唤醒加湿器启动进行湿度调节。

本公开中的智能设备的唤醒方法应用在接收唤醒信息的接收端智能设备上，智能设备上预先存储有样本唤醒信息，智能设备在接收到声音信息时，根据预先存储的样本唤醒信息确定声音信息是否包含了样本唤醒信息，如果包含了样本唤醒信息，则唤醒智能设备的预设功能。如果声音信息中没有包含样本唤醒信息，则不唤醒智能设备的预设功能。

为了能够实现智能设备的唤醒，需要存在能够发出包含样本唤醒信息的其他设备，即声音信息发射端。在一个示例中，温湿度检测装置在检测到温度低于设定温度时，发出包含样本唤醒信息的声音信息，以唤醒空调启动进行温度调节。在该示例中，温湿度检测装置为声音信息的发射端设备，空调为声音信息的接收端设备。

在另一个示例中，当温湿度检测装置检测到湿度低于设定温度时，发出包含样本唤醒信息的声音信息，唤醒加湿器启动进行湿度调节。此时，温湿度检测装置作为样本唤醒信息的发射端设备，加湿器作为接收样本唤醒信息的接收端设备。

由于本公开中被唤醒的智能设备在被唤醒时的唤醒信息使用了多频音，因此，如果想要唤醒声音信息接收端智能设备，发射端设备需要发出包含多频音的声音信息。因此，需要将多频音信息预先写入至用于发出唤醒信息的装置中，即作为声音信息发射端的智能设备中具有发出多频音的功能。

由于用于发出唤醒信息的装置需要发出声音，智能设备才能够接收到唤醒信息。如图1所示，该装置需要具有多频音生成器110、数模转换器120和喇叭130，数模转换器120分别与多频音生成器110和喇叭130电连接，多频音生成器110根据预先写入至装置的存储器(图中未示出)中的信息，生成数字信号，数模转换器120对数字信号进行数模转换，转换为模拟信号，进而通过喇叭130将模拟信号向外播放，以供需要被唤醒的智能设备接收。多频音生成器110、数模转换器120、喇叭130及其连接方式均是本领域技术人员知晓的技术内容，在此不再赘述。

为了进一步对本公开中的方法进行说明，对本公开中涉及到的发射端智能设备和接收端智能设备之间的信息传输路径，以及发射端智能设备和接收端智能设备中必要的硬件装置进行说明。参考图2所示，发射端设备包括多频音生成器110、数模转换器120和喇叭130，数模转换器120分别与多频音生成器110和喇叭130电连接，多频音生成器110根据预先写入至装置的存储器(图中未示出)中的信息，生成数字信号，数模转换器120对数字信号进行数模转换，转换为模拟信号，进而通过喇叭130将模拟信号向外播放，以供需要被唤醒的智能设备接收。

接收端设备包括音频接收器140、模数转换器150和唤醒单元160，模数转换器150分别与音频接收器140和唤醒单元160电连接。音频接收器140接收外界环境中的声音信息号，并将声音信号发送给模数转换器150，模数转换器150声音信息由模拟信号转换成数字信号，并将转换后的数据发送给唤醒单元170，唤醒单元170根据接收到数字信号中是否有多频音，决定是否唤醒接收端智能设备的预设功能。

发射端设备在发出多频音之前，要生成多频音，多频音由多个频段的单频音叠加形成，本公开中使用多个具有特定频率的单频信号叠加形成多频音，无论是声音合成方式还是接收到多频音后的声音解析方式均比较简单，不会大量占用智能设备的处理资源。同时，为了避免单一播放多频音给用户带来听觉上的不悦，在合成多频音时，可以用音源作为基础，在音源中加入特定频率的多个单频音，提升用户的使用体验。下面对多频音的合成原理进行说明。

在合成多频音时，需要考虑采样间隔，采样间隔决定着在合成多频音时，被选取的用于合成多频音的多个单频音之间的频率差，应该为采样间隔的整数倍。

在一个示例中，采样间隔所代表的频率范围

其中，F_s为采样率，b为傅里叶变换的点数。比如，采样率F_s为16000Hz，傅里叶变换的点数为256，则采样间隔所代表的频率范围为

为了保证合成出的多频音，在被智能设备接收并识别处理后，尽可能多的对应到傅里叶变换后的频率点上，在选择用于合成多频音的单频音的频率要选取64.5Hz的倍数，比如，64.5Hz、129Hz、193.5Hz。本示例中，可以直接选择几个单频音合成后作为唤醒信息，几个单频音均为64.5Hz的整数倍即可。

除了上述使用64.5Hz作为基础的多频音外，还可以选择0.25KHz作为基础的多频音，如图3所示，是以1KHz、1.25KHz、1.5KHz作为单频音形成的多频音时的频率分布情况。

在另一个示例中，以音乐作为基频，在基频中增加结构具有特定频率的单频音生成唤醒信息。由于本示例中的唤醒信息以音乐作为基频，在悦耳的音乐中添加多频音，提升了用户的听觉体验。本示例中，如图4所示，选择若干个单频音合成多频音，并将多频音合成至基频中，多个单频音的频率比如分别为1KHz、1.25KHz、1.5KHz…，均值0.25KHz的整数倍。则唤醒信息可以表示为：

y(t)＝Asin(2π×1kt)+Bsin(2π×1.25kt)+Csin(2π×1.5kt)+Dsin(2π×ωt)+...

其中，y(t)为唤醒信息；t为时长向量；A、B、C、D为信号的振幅；ω为角频率。其中，ω的选择可以根据要得加出的音乐的效果进行设定，在本示例中，音乐的基频可以是250Hz或者250Hz的整数倍，以便于智能设备接收到声音信息后，对声音信息中的唤醒信息进行判定。

在此，需要说明的是，在本示例中，为了设定出悦耳的音乐，还可以继续叠加按照上述规则形成的单频音。并且，本示例中示出的数值仅作为说明使用，不作为对本公开中的技术内容的限定。

为了对本公开中的智能设备的唤醒方法进行说明，首先对与智能设备相关的实体装置进行说明。目前大多数智能设备，比如智能音响、智能手机上均设置支持语音唤醒功能。用户发出特定语句对智能设备进行唤醒，方便日常使用。但是语音唤醒过程中使用的语句复杂，智能设备在识别语音信息时需要进行复杂计算，较大的计算量使得智能设备的耗电较高。对于支持语音唤醒功能的智能设备，其上均设置有比如麦克风等声波收集器。为了实现语音唤醒功能，麦克风保持常开状态以手机声波，同时，这类智能设备还具有声波信号处理装置，以在接收到声音信息后进行预处理或者时域、频域变换等。

本公开中的智能设备的唤醒方法可以应用在上述具有语音唤醒功能的智能设备上，智能设备可以同时具有语音唤醒功能，还可以具有本公开中的多频音唤醒功能，不需要增加其他硬件设备和额外的功耗，就能够执行本公开中的唤醒方法，减少了实施本公开中的方法需要的硬件费用，更加方便推广。

对于同时具有语音唤醒功能和本公开中的多频唤醒功能的接收端智能设备，可以通过设置的方式让智能设备的某些需要与用户进行交互才能执行的功能使用语音唤醒方法进行唤醒，比如，搜索功能、音乐播放功能等，可以使用语音唤醒功能进行唤醒。

对于智能设备上的某些不需要与用户进行交互就能够执行的功能可以使用本公开中的多频音唤醒方法进行唤醒，比如，手机的超声功能、智能家电之间的互联等，以减少对智能设备处理资源的占用，提升唤醒效率，降低智能设备的能耗。

本公开可以将语音唤醒功能与多频音唤醒功能同时运行在智能设备上，既能够增强用户与智能设备之间的互动效果，又能在一定程度上减少语音唤醒功能的使用，从而减少智能设备的能耗。

根据一个示例性实施例，如图5所示，本实施例中的智能设备的唤醒方法，该唤醒方法由智能设备运行，包括：

S110、接收声音信息。

在该步骤中，接收声音信息可以通过智能设备上的收音模块执行，收音模块比如可以至设置在智能设备上的麦克风。

S120、判断声音信息中是否包含多频音，若是，执行步骤S130；

若否，则返回步骤S110。

在该步骤中，如果作为接收端使用的智能设备在接收到声音信息中检测到的多频音，说明其接收到的声音信息中包含唤醒信息，那么则需要根据唤醒智能设备的预设功能。

如果作为接收端使用的智能设备在接收到的声音信息中没有检测到多频音，说明声音信息并不是作为发射端使用的智能设备发出的作为唤醒信息使用的多频音，则可以忽略当前接收到的声音信息，并继续接收外界环境中的声音信息。

其中，作为接收端使用的智能设备可以每间隔预设时长对其周围环境中的声音信息进行获取，比如，每间隔20ms接收一次其周围环境中的声音信息。上述预设时长可以根据实际情况设定，对本公开中内容没有实质限定。

S130、唤醒智能设备的预设功能。

本实施例中的预设功能，比如可以是作为接收端使用的智能设备的待机状态唤醒功能。智能设备在接收到多频音之前一直处于待机状态，当智能设备接收到声音信息中的多频音后，待机状态被唤醒，智能设备由待机状态转换为使用状态。

当本实施例中的智能设备是空调时，预设功能可以是空调的制冷或制热功能，当空调没有接收到多频音之前，空调一直处于待机状态。当空调接收到周围环境中的声音信息中的多频音时，空调由待机状态变为热冷状态或制热状态。

本公开中的唤醒方法，判断智能设备接收到的声音信息中是否包含多频音，以确定是否唤醒智能设备的预设功能。由于本公开以频域特征作为判断依据，在保证唤醒准确性的同时，还能够降低声音信息处理过程中的复杂性，减少智能设备的能耗。

根据一示例性实施例，如图6所示，本实施例中的智能设备的唤醒方法应用在作为接收端使用的智能设备上，本实施例中的智能设备包括：

S210、接收声音信息。

该步骤与上述实施例中的步骤S110的实施方式相同，在此，不再赘述。

S220、根据第一预设信息，判断声音信息中是否包含特征音频信息，以确定声音信息是否包含多频音。

如果是，则执行步骤S230；若否，则返回步骤S210。

该步骤S210中，第一预设信息可以预先存储在智能设备的存储器中，当收音模块接收到声音信息后，智能设备的处理模块从存储器中获取第一预设信息，以确定声音信息中是否包含唤醒信息。第一预设信息中包括多个参考单频音特征，参考单频音特征比如可以是单频音的频率特征。

在接收到声音信息后，判断声音信息中是否包含特征音频信息，特征音频信息包括多个单频音。第一预设信息包括多个参考单频音特征，如果声音信息中包括多个单频音，且多个单频音与多个参考单频音特征对应，说明声音信息中包含特征音频信息；如果声音信息中没有多个单频音，或者，声音信息中包含的单频音与多个参考单频音特征并不对应，说明声音信息中没有包含特征音频信息。

如果声音信息中没有包含特征音频信息，说明智能设备接收到的声音信息并不是唤醒信息，则智能设备并不对预设功能进行唤醒，保持当前状态。如果声音信息中包含特征音频信息，说明声音信息有可能是唤醒信息，但并不一定是唤醒信息，还需要进一步判断(后面有详细介绍)。

S230、确定声音信息中包含多频音。

该步骤中，如果当前接收到的声音信息中包含多频音，说明接收到的是用于唤醒智能设备的预设功能的声音信息。

S240、根据多个单频音的能量信息，确定多频音是否为唤醒信息。

如果是，则执行步骤S250；若否，则返回步骤S210。

本实施例中的特征音频信息实质为多频音，而多频音是由多个单频音合成而成。在确定声音信息中包含的多频音是否为唤醒信息时，以多个单频音的能量信息作为判断标准确定。比如，可以分别考虑每一个单频音的能量信息，以确定多频音是否是唤醒信息；也可以综合考虑多个单频音的能量信息总和，以确定特征音频信息是否是唤醒信息。

S250、唤醒智能设备的预设功能。

在步骤S240中确定了多频音是唤醒信息后，说明接收到是声音信息是为了唤醒智能设备的预设功能，则对智能设备的预设功能进行唤醒。比如，唤醒手机的超声编码功能，或者，唤醒加湿器的加湿功能等。

根据一个示例性的实施例，如图7所示，本实施例中的智能设备的唤醒方法，是上述实施例中的步骤S240的进一步限定，包括：

S310、分别对每一个单频音进行分帧处理。

该步骤中，智能设备的处理模块对每一个单频音进行分帧处理，其中，为了获得更好的分帧效果，便于对单频音进行频域分析，可以对每一单频音进行分帧加窗处理。

在进行分帧加窗处理时，对x_(n)按照帧长L进行分割，获得帧数据，x₁、x₂…x_k，其中，L一般为2的整数幂，比如，128、256；k是帧的序号。

接着，对每一帧数据进行加窗操作，x_wi＝window(x_i)，i＝1，2…k，得到加窗后的帧数据x_w1、x_w2…x_wk，其中，window代表窗函数。

S320、分别确定每一个所述单频音的每一帧数据的帧能量信息。

在该步骤中，在确定每一帧数据的帧能量信息时，具体包括：

首先，分别对每一个单频音的每一帧数据进行频域变换，确定每一个单频音的每一帧数据的频域信息。

在对单频音进行分帧处理后，对于每一个单频音，对加窗后的每一帧数据进行傅里叶变换，完成对每一个单频音的每一帧数据进行频域变换，以确定单频音的每一帧数据的频域信息X1、X2…Xi。其中，Xk＝FT(x_wi)，i＝1，2…k。

每一个单频音经过傅里叶变换后，都会得到上述一组包含每一帧的频域信息，也即，有多少个单频音，就会获得多少组频域信息。

接着，根据每一个单频音的每一帧数据的频域信息，分别确定每一个单频音对应的频率点。

在上述介绍多频音合成时提到过傅里叶变换的点数，傅里叶变换的点数是傅里叶变换时的参数，本领域技术人员均知晓如何利用傅里叶变换实现频域变换，在此不再赘述。假设傅里叶变换的点数为M，则对于每一个单频音，该单频音包含的每一帧数据的频域信息Xi均可分解为M个对应的频点。

在一个示例中，假设单频音的频率f＝1000，傅里叶变换点数M＝128，FS＝16000，则根据

可以确定b＝round(1000*128/16000)＝8

其中，b代表与频域信息Xi的M个对应的频率点中的第几个点。当b为8时，代表M个频点中的第8个点是单频音对应的频点。

然后，分别确定每一个单频音的频率点的频点能量信息。

该步骤中，在一个示例中，假设X_i(8)的值为0.025+0.012i，则根据公式：

p＝mod{X_i(b)}，可以确定P＝mod(0.025+0.012i)＝0.0277。

上述内容对每一个单频音的每一帧数据经过傅里叶变换后对应的频率点的功率，也即能量信息进行计算，以便于后续步骤中根据单频音的帧能量信息，确定特征音频信息是否为唤醒信息。

接着，根据每一个单频音的频率点的点能量信息，确定每一个单频音的频率点所在频段的频段能量信息。

该步骤中，在上述步骤中确定了单频音的频率点的点能量信息后，需要进一步确定单频音的频率点所在的频段能量信息，也即，该频率点对应的频率段的功率。

以根据频率点的点能量信息与该频点对应的频段能量信息的比值确定帧能量信息是否大于预设能量阈值。即如果频率点的点能量信息与频段能量信息的比值大于预设能量阈值，说明该频率点通过，也即该频点通过了判定，可以继续进行后续步骤判断。

在确定频段能量信息时，频段的选择可以根据实际情况进行确定。比如，如果以多频音整体进行分帧处理并进行判断，则频段取值范围可以较大。再比如，如果以多频音中的每一个单频音进行分帧处理并进行判断，则频段取值范围可以小一些，以进一步提高判断准确性。

在一个示例中，在该示例中以多频音作为一个整体进行分帧处理，并对每一帧数据进行判断。假设K为频率段的起始点，N为频率段的结束点，X_i(b)为N-K+1个点中的第b个点对应的频率点。假设频率点b所在的频率段区间f为1000至1500，傅里叶变换的点数为M＝128，则根据上述步骤中的用于确定频率点b的公式可以确定，b的取值范围时8-12。

根据以下公式可以确定在该频率段中的频段能量信息：

则本示例中的频段能量信息RMS为：

在另一个示例中，该示例中，对多频音中的每一个单频音进行分帧处理，并对每一个单频音的每一帧数据进行判断。对于每一个单频音，由于其幅值不同，因此每一个单频音对应的预设能量阈值也不同。假设多频音中的某一个单频音对应的频点为M个频点中的第7个点时，则在确定该频点对应的频段时，可以选择第6-8个点，作为该频点对应的频段。进而根据上述公式，确定频段能量信息，进而确定该单频音的帧能量信息与预设能量阈值之间的关系。

S330、根据每一个单频音的帧能量信息，确定多频音是否为唤醒信息。

由于上述步骤中已经确定出频段能量信息作为帧能量信息，根据帧能量信息确定特征音频信息是否为唤醒信息。

根据一个示例性实施例，如图8所示，本实施例中的智能设备的唤醒方法对上述实施例中的步骤S330的进一步限定，本实施例中的方法在上述实施例的基础上进一步包括：

S410、分别判断每一个单频音的帧能量信息是否均满足预设条件；

若是，则执行步骤S420；若否，则返回。

其中，预设条件为单频音存在连续N帧信号，且每一帧数据的帧能量信息均超过与该单频音对应的预设能量阈值。

该步骤中，在具体判断过程中，要对每一单频音的帧能量信息是否均满足预设条件，如果每一个单频音的帧能量信息均超过了预设能量阈值，并且存在连续N帧信号中，每一个单频音的帧能量信息均超过预设能量阈值，则每一个单频音均满足预设条件，认为接收到的声音信息中包含唤醒信息。

如果多个单频音中的任意一个单频音的帧能量信息没有超过预设能量阈值，说明并不是每一个单频音的帧能量信息都满足预设条件。同时，如果满足预设条件的每一个单频音的帧能量信息并不是连续N帧，而是间隔的，或者N-1帧连续，第N帧与前N-1帧不连续，则多频音不满足预设条件，接收到的声音信息中没有包含唤醒信息。

S420、若每一个单频音均满足预设条件，确定多频音为唤醒信息。

如果每一个单频音在上述步骤判断过程中均满足了预设条件，说明声音信息中包含的多频音为唤醒信息，可以对智能设备的预设功能进行唤醒。

如果声音信息中没有包含唤醒信息，则自动忽略接收到的声音信息，不对预设功能进行唤醒。

根据一个示例性实施例，本实施例中的方法应用在将多个单频音合成的多频音与音源进一步合成形成唤醒声音信息的过程，即其他设备向智能设备发送的信号为音乐信号。如图9所示，本实施例中的唤醒方法除了包括上述实施例中的方法外，还进一步包括如下步骤：

S510、接收声音信息。

S520、根据第二预设信息，判断声音信息中是否包含特征基频信息；

若是，则执行步骤S530；若否，则返回步骤S510。

其中，第二预设信息包括参考基频特征，特征基频信息与参考基频特征对应。

该步骤中，第二预设信息可以预先存储在智能设备的存储器中，当收音模块接收到声音信息后，智能设备的处理模块从存储器中获取第二预设信息，以确定声音信息中是否包含唤醒信息。第二预设信息中包含参考基频信息，参考基频信息比如可以是音乐频率特征。

在接收到声音信息后，判断声音信息中是否包含特征基频信息，如果声音信息包括与参考基频特征对应的特征基频信息，说明声音信息有可能包括唤醒信息，但还需要进一步进行判断才能够确定该包含特征基频信息的声音信息是否包含唤醒信息。如果声音信息中没有包含特征基频信息，说明声音信息不能用作唤醒信息，则忽略该声音信息。

S530、若声音信息中包含特征基频信息，根据多频音，唤醒智能设备的预设功能。

本实施例中的方法由于其他装置向智能设备发送的信号为音乐信号，因此，本实施例中的方法除了要对以上其他实施例中示出的特征音频信息进行判断之外，还需要判断接收到的声音信号中的基频音高是否与第二配置信息中的参考基频信息一致，如果声音信息中包含特征基频信息，说明该声音信息有可能包含唤醒信息，则需要根据每一个单频音的能量信息，或者，根据多频音的整体能量信息进行进一步判断，以确定声音信息中包含的多频音是否是唤醒信息，以确定是否唤醒智能设备的预设功能。

根据一个示例性实施例，本实施例应用在智能设备的超声系统唤醒过程中，也即，当预设功能为智能设备的超声系统时，根据接收到特征音频信息的时长确定超声系统进行超声编码的时长。

在一个示例中，在实际实施过程中，自接收到特征音频信息时刻起，控制超声系统启动超声编码，自特征音频信息停止时刻止，控制超声系统停止超声编码，以根据接收到的唤醒信息同步超声系统的超声编码工作。为了避免作为唤醒信息的多频音与超声编码数字信号之间相互干扰，在设置唤醒信息时，要尽量避免选择超声编码信号所在的频段。

为了进一步说明本公开中的智能设备的唤醒方法，以接受声音信息以唤醒智能设备的超声系统作为应用场景并结合系统框图，对本公开中的唤醒方法进行说明。

如图10所示，唤醒信息的发射端200包括依次连接的编码器210、组合器220和数模信号转换器230，还包括与组合器220电连接的唤醒信息生成器240，以及与数模信号转换器230电连接的声波发生器250。其中，编码器210用于在接收到发出唤醒信息的指令时开始进行超声数字信号编码，完成编码后将超声编码数字信号发送给组合器220。同时，唤醒信息生成器240在接收到发出唤醒信息的指令时开始生成唤醒信息，并将唤醒信息发送至组合器220。组合器220对超声编码数字信号和唤醒信息进行组合，生成带有唤醒信息的超声编码数字信号。数模信号转换器230接收带有唤醒信息的超声编码数字信号，将其转换为模拟信号后，发送给声波发生器250向外播放。

智能设备300包括声波接收器310，以及分别与声波接收器310电连接的超声信号模数转换器320和唤醒信息模数转换器330。智能设备还包括唤醒单元340，唤醒单元分别与超声信号模数转换器320和唤醒信息模数转换器330连接。另外，智能设备还包括解码器350，解码器350与超声信号模数转换器320电连接。

其中，声波接收器310接收到声音信息后，分别将声音信息发送给超声信号模数转换器320和唤醒信息模数转换器330，唤醒信息模数转换器330对声音信息进行模数转换，如果声音信息中包括唤醒信息，则唤醒单元340向超声信号模数转换器320发出唤醒指令，超声信号模数转换器320被唤醒，超声信号模数转换器320对接收到的声音信息中的超声信号进行模数转换，将处于数字信号状态超声信号发送给解码器350，并对解码器350解码后的信息或指令进行保存。

根据一个示例性实施例，如图11所示，下面对本公开中的智能设备的唤醒方法的一种具体实施过程进行详细说明。本实施例中的唤醒方法，包括：

S610、接收声音信息；

S620、识别声音信息中的特征音频信息；

S630、对特征音频信息中包含的多个单频音进行分帧处理；

S640、分别确定每一个单频音的每一帧的帧能量信息；

S650、判断每一个单频音的当前帧能量信息是否大于该单频音对应的预设能量阈值；

若是，则执行步骤S660，若否，则返回步骤S630；

S660、满足预设能量阈值的多频音的帧数据加1；

S670、判断满足预设能量阈值的多频音的帧数据是否达到N帧；

若是，执行步骤S680；若否，返回步骤S630。

S680、唤醒预设功能。

其中，步骤S650至S670相当于分别判断每一个单频音的帧能量信息是否均满足预设条件，预设条件为单频音存在连续N帧信号，且每一帧数据的帧能量信息均超过该单频音对应的预设能量阈值。

在此，需要说明的是，由于用于合成多频音的每一个单频音的幅值不同，因此，每一个单频音所对应的预设能量阈值也不同，在对多频音中的每一个单频音是否满足预设条件进行判断时，应当使用不同的预设能量阈值作为判断标准，以进一步提高判断准确性。

本实施例中在接收到声音信息后，在确定声音信息中是否包含多频音，即是否包含唤醒信息时，同时考虑了多频音的能量信息和持续时长，提升了对声音信息中唤醒信息判断的准确性，避免误触发的情况发生。

当然，可以理解是，对于某些不是太重要的待唤醒功能，可以并不需要同时考虑上述能量信息和持续时长两个因素，只考虑单一因素即可。

在一个示例中，如图12所示，该示例中，智能设备的预设功能为智能设备的超声系统功能，即当接收到多频音时，唤醒智能设备的超声系统。并且本示例中，多频音为单纯的多个单频音的合成，没有包含其他音乐信息，在对预设功能唤醒时，本示例中仅考虑接收到声音信息中多频音的时长即可，本示例中的方法包括：

S710、接收声音信息。

S720、判断声音信息中是否包含多频音；

若是，则执行步骤S730；若否，则返回步骤S710。

S730、唤醒超声系统。

S740、确定接收到的多频音的时长。

S750、根据接收到的多频音的时长，确定超声系统进行超声编码的时长。

在另一个示例中，如图13所示，该示例中，智能设备的预设功能依然为智能设备的超声系统功能。本示例中，作为唤醒信息的音频既包括多频音，又包括基频信息，即音乐信息。且本示例中同时考虑多频音的持续时长和能量信息。本示例中的方法包括：

S810、接收声音信息。

S820、判断声音信息中是否包含基频信息；

若是，则执行步骤S830，若否，则返回步骤S810。

S830、判断声音信息中是否包含多频音；

若是，则执行步骤S840，若否，则返回步骤S810。

S840、判断多频音的能量信息和持续时长是否满足预设条件。

若是，则执行步骤S850，若否，则返回步骤S810。

S850、唤醒超声系统。

S860、确定接收到多频音的时长。

S870、确定超声系统进行超声编码的时长。

根据一个示例性实施，如图14所示，本实施例中的智能设备的唤醒方法也可以使用如图10中示出的智能系统实现，本实施例中的唤醒方法应用在接收端智能设备上。本实施例中的方法包括：

S910、接收声音信息。

S920、判断声音信息中是否包含多频音；

如是，则执行步骤S930；若否则返回步骤S910。

S930、对多频音进行分帧处理。

S940、确定多频音的每一帧数据的帧能量信息。

S950、判断是否存在连续N帧数据的帧能量信息均超过预设能量阈值；

若是，则执行步骤S960；若否，则返回步骤S930。

S960、确定多频音为唤醒信息。

S970、唤醒智能设备的预设功能。

本实施例中，在确定多频音是否为唤醒信息时，将多频音作为一个整体，对其进行分帧处理，进而根据多频音的每一帧数据进行判断，确定是否存在连续N帧数据的帧能量信息均超过预设能量阈值，也即同时考虑多频音的持续时长和能量信息，如果多频音的连续N帧数据均超过预设能量阈值，则说明多频音为唤醒信息，进而唤醒智能设备的预设功能。

本实施例中将多频音作为整体进行分帧处理，处理过程更加简单、高效，提升了多频音的处理效率。

本公开还提供了一种智能设备的唤醒装置，该唤醒装置用于实现上述实施例中记载的智能设备的唤醒方法。

根据一个示例性实施例，如图15所示，唤醒装置应用在作为接收端使用的智能设备上。本实施例中的唤醒装置包括相互电连接的收音模块410和处理模块420。本实施例中的装置，用于实现上述实施例中示出的应用在接收端的智能设备上的唤醒方法。

如图16所示，是一种智能设备的框图。本公开还提供了一种智能设备，包括处理器；用于存储处理器的可执行指令的存储器。其中，处理器被配置为执行上述的方法。设备500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。智能设备还可以是感光元件，比如光线传感器。

设备500可以包括以下一个或多个组件：处理组件502，存储器504，电力组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制设备500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件506为设备500的各种组件提供电力。电力组件506可以包括电源管理系统，一个或多个电源，及其他与为设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为设备500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如组件为设备500的显示器和小键盘，传感器组件514还可以检测设备500或设备500一个组件的位置改变，用户与设备500接触的存在或不存在，设备500方位或加速/减速和设备500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于设备500和其他设备之间有线或无线方式的通信。设备500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

本公开另一个示例性实施例中提供的一种非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由设备500的处理器520执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。当存储介质中的指令由智能设备的处理器执行时，使得智能设备能够执行上述方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种智能设备的唤醒方法，应用于接收端智能设备，其特征在于，所述唤醒方法包括：

接收声音信息；

判断所述声音信息中是否包含多频音；

若所述声音信息中包含所述多频音，根据所述多频音，唤醒智能设备的预设功能。

2.根据权利要求1所述的智能设备的唤醒方法，其特征在于，所述根据所述多频音，唤醒智能设备的预设功能，包括：

对所述多频音进行分帧处理；

确定所述多频音的每一帧数据的帧能量信息；

若所述多频音为唤醒信息，唤醒智能设备的预设功能。

3.根据权利要求2所述的智能设备的唤醒方法，其特征在于，所述根据所述多频音的每一帧数据的帧能量信息，确定所述多频音是否为唤醒信息，包括：

若是，确定所述多频音为唤醒信息。

4.根据权利要求1所述的智能设备的唤醒方法，其特征在于，所述判断所述声音信息中是否包含多频音，包括：

5.根据权利要求4所述的智能设备的唤醒方法，其特征在于，所述根据所述多频音，唤醒智能设备的预设功能，包括：

若所述多频音为唤醒信息，唤醒智能设备的预设功能。

6.根据权利要求5所述的智能设备的唤醒方法，其特征在于，所述根据所述多个单频音的能量信息，确定所述多频音是否为唤醒信息，包括：

分别对每一个所述单频音进行分帧处理；

分别确定每一个所述单频音的每一帧数据的帧能量信息；

7.根据权利要求6所述的智能设备的唤醒方法，其特征在于，所述根据每一个所述单频音的帧能量信息，确定所述多频音是否为唤醒信息，包括：

8.根据权利要求1所述的智能设备的唤醒方法，其特征在于，所述唤醒方法还包括：

9.根据权利要求1或8所述的智能设备的唤醒方法，其特征在于，当所述预设功能为智能设备的超声系统功能时，所述唤醒方法包括：

10.根据权利要求9所述的智能设备的唤醒方法，其特征在于，所述根据接收到的所述多频音的时长，确定超声系统进行超声编码的时长，包括：

自所述多频音停止的时刻止，控制超声系统停止超声编码。

11.一种智能设备的唤醒装置，应用于接收端智能设备，其特征在于，所述唤醒装置包括：

收音模块，用于接收声音信息；

处理模块，用于判断所述声音信息中是否包含多频音；

12.根据权利要求11所述的智能设备的唤醒装置，其特征在于，所述处理模块具体用于：

对所述多频音进行分帧处理；

确定所述多频音的每一帧数据的帧能量信息；

若所述多频音为唤醒信息，唤醒智能设备的预设功能。

13.根据权利要求12所述的智能设备的唤醒装置，其特征在于，所述处理模块具体用于：

若是，确定所述多频音为唤醒信息。

14.根据权利要求11所述的智能设备的唤醒装置，其特征在于，所述处理模块具体用于：

15.根据权利要求14所述的智能设备的唤醒装置，其特征在于，所述处理模块具体用于：

若所述多频音为唤醒信息，唤醒智能设备的预设功能。

16.根据权利要求15所述的智能设备的唤醒装置，其特征在于，所述处理模块具体用于：

分别对每一个所述单频音进行分帧处理；

分别确定每一个所述单频音的每一帧数据的帧能量信息；

17.根据权利要求16所述的智能设备的唤醒装置，其特征在于，所述处理模块具有用于：

18.根据权利要求11所述的智能设备的唤醒装置，其特征在于，所述处理模块具体用于：

19.根据权利要求11或18所述的智能设备的唤醒装置，其特征在于，当所述预设功能为智能设备的超声系统功能时，所述处理模块具体用于：

20.根据权利要求19所述的智能设备的唤醒装置，其特征在于，所述处理模块具体用于：

自所述多频音停止的时刻止，控制超声系统停止超声编码。

21.一种智能设备，其特征在于，包括：

处理器；

用于存储处理器的可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1至10任一项所述的智能设备的唤醒方法。

22.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由智能设备的处理器执行时，使得智能设备能够执行如权利要求1至10任一项所述的智能设备的唤醒方法。