CN112599126B

CN112599126B - 一种智能设备的唤醒方法、智能设备及计算设备

Info

Publication number: CN112599126B
Application number: CN202011405621.XA
Authority: CN
Inventors: 于彬
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-05-27
Anticipated expiration: 2040-12-03
Also published as: CN112599126A

Abstract

本发明实施例涉及计算机技术领域，尤其涉及一种智能设备的唤醒方法，包括：智能设备采集到用户发出的包含唤醒词的第一音频；所述智能设备确定所述第一音频对应的第二音频；所述智能设备确定所述第一音频和第二音频之间的脉冲反应，并根据所述脉冲反应确定所述智能设备接收到的直达声的占比；所述智能设备根据多个智能设备接收到的直达声的占比，确定所述智能设备是否响应所述第一音频。通过对智能设备接收到的直达声占比的分析，可以推测用户面朝该设备进行唤醒的概率，从而判断是否响应用户的唤醒。如此，可以实现用户面朝哪个智能设备进行唤醒，所面朝的设备予以响应，而无需用户靠近该设备，提供了一种更为自然，有效且简单的人机交互方式。

Description

一种智能设备的唤醒方法、智能设备及计算设备

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种智能设备的唤醒方法。

背景技术

随着带有语音控制功能的智能设备逐渐普及，家居环境下多种设备均支持语音唤醒功能。对于智能设备的用户来说，唤醒就是语音交互的第一入口，唤醒效果的好坏直接影响到用户的第一体验。语音唤醒的目的就是将设备从休眠状态激活至运行状态，所以唤醒词说出之后，能立刻被检测出来，用户的体验才会更好。

但是，这些设备如果唤醒词相同，当用户在说出唤醒词后，会出现多个设备同时应答的情况，从而对用户造成困扰。如何精准的定位用户的声音，激活用户想要唤醒的设备，成为目前远场语音唤醒的一大痛点。

当前分布式唤醒的解决方案是就近唤醒，即最靠近用户的设备优先响应。这种方案的弊端在于交互不够自然，需要用户先靠近想要唤醒的设备，再去语音唤醒，降低了用户体验。

综上，目前亟需一种智能设备的唤醒方法，用以解决多智能设备中不能简单有效地唤醒目标设备从而导致的用户体验差的问题。

发明内容

本发明实施例提供一种智能设备的唤醒方法，用以解决多智能设备中不能简单有效地唤醒目标设备从而导致的用户体验差的问题。

本发明实施例提供一种智能设备的唤醒方法，包括：

智能设备采集到用户发出的包含唤醒词的第一音频；

所述智能设备确定所述第一音频对应的第二音频；所述第二音频是预先录制的所述用户面向所述智能设备的情况下发出的包含所述唤醒词的音频；

所述智能设备确定所述第一音频和第二音频之间的脉冲反应，并根据所述脉冲反应确定所述智能设备接收到的直达声的占比；

所述智能设备根据多个智能设备接收到的直达声的占比，确定所述智能设备是否响应所述第一音频。

按照声音的传输时间来划分，智能设备接收到的声音可以分为直达声、初次反射声、二次反射声及二次反射声之后的混响部分，直达声即没有经过墙壁或者其他物体的反射由用户的嘴直接到达智能设备的mic阵列的声音。通过对智能设备接收到的直达声占比的分析，可以推测用户面朝该设备进行唤醒的概率，从而判断是否响应用户的唤醒。如此，可以实现用户面朝哪个智能设备进行唤醒，所面朝的设备予以响应，而无需用户靠近该设备，提供了一种更为自然，有效且简单的人机交互方式。

在一些实施例中，所述智能设备确定所述第一音频和第二音频之间的脉冲反应，包括：

所述智能设备将所述第二音频作为所述第一音频的发出音频；通过对所述第一音频和第二音频做快速傅里叶变换，确定所述第一音频与所述第二音频之间的传递函数；

所述智能设备对所述传递函数做快速傅里叶逆变换，得到所述脉冲反应。

如此，确定了第一音频和第二音频之间的脉冲反应，基于脉冲反应进行直达声占比的分析，可以简单有效地确定用户想要唤醒的目标设备。

在一些实施例中，所述智能设备确定所述第一音频和第二音频之间的脉冲反应之前，还包括：

对所述第一音频和所述第二音频的做互相关处理，确定所述第一音频的第一音频段和所述第二音频的第二音频段，其中，所述第一音频段和所述第二音频段的相似度最高，且音频长度相同；

所述智能设备确定所述第一音频和第二音频之间的脉冲反应，包括：

所述智能设备通过所述第一音频段和所述第二音频段确定所述第一音频和第二音频之间的脉冲反应。

通过对第一音频和第二音频做互相关处理，截取出两个音频中相似度最高且长度相同的部分，有助于后续对两段音频之间的脉冲反应的求解，提高脉冲反应求解的准确性和效率。

在一些实施例中，对所述第一音频和所述第二音频做互相关处理之前，还包括：

对所述第一音频和所述第二音频做归一化处理；所述归一化处理包括幅值归一化。

通过对第一音频和第二音频的幅值进行归一化处理，避免由于用户两次距离智能设备的距离不同导致检测到的音频幅值不同，而对后续直达声能量占比的计算造成误差影响。如此，提高了确定用户想要唤醒的目标设备的准确率。

在一些实施例中，根据所述脉冲反应确定所述智能设备接收到的直达声的占比，包括：

在所述脉冲反应中按照时间划分出直达声部分；

确定所述直达声部分的能量在整个脉冲反应的能量中的占比。

从声音的传输时间上来看，直达声最先到达mic阵列，因此按照时间划分，可以最准确地表征出直达声在脉冲反应中的所占的部分，再根据能量计算出直达声的占比，可以在一定程度上科学地反应出用户朝向智能设备发声的概率。

在一些实施例中，所述智能设备根据多个智能设备接收到的直达声的占比，确定所述智能设备是否响应所述第一音频，包括：

获取多个智能设备接收到的直达声占比；

若确定所述智能设备接收到的直达声占比高于多个智能设备接收到的直达声占比，则确定所述智能设备响应所述第一音频。

通过获取其他多个智能设备所接受到的直达声占比，与智能设备本身接收到的直达声占比进行比较，如此可确定是否予以响应，而无需用户靠近该设备，提供了一种更为自然，有效且简单的人机交互方式。

在一些实施例中，所述方法还包括：

所述智能设备若未确定出所述第一音频对应的第二音频，则确定所述智能设备接收到的所述第一音频的语音能量；

所述智能设备根据多个智能设备接收到的语音能量，确定所述智能设备是否响应所述第一音频。

由于存在智能设备中尚未存储第二音频的情况，基于此，智能设备并不能确定出第一音频对应的第二音频，也就无从得到第一音频和第二音频之间的脉冲反应进而得到智能设备接收到的直达声占比。因此设置若不能确定第一音频对应的第二音频时，则通过接收到的语音能量进行判断。如此，对本发明实施例进行了进一步的完善。

本发明实施例还提供一种智能设备，包括：

声音采集器，用于采集用户发出的包含唤醒词的第一音频；

控制器，用于确定所述第一音频对应的第二音频；确定所述第一音频和第二音频之间的脉冲反应，并根据所述脉冲反应确定所述智能设备接收到的直达声的占比；所述第二音频是预先录制的所述用户面向所述智能设备的情况下发出的包含所述唤醒词的音频；

通信器，用于接收多个智能设备发送的各自的直达声的占比；

所述控制器，还用于根据多个智能设备接收到的直达声的占比，确定所述智能设备是否响应所述第一音频；

音频输出器，用于输出对所述第一音频的响应。

本发明实施例还提供一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行上述任一方式所列智能设备的唤醒方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行上述任一方式所列智能设备的唤醒方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了根据实施例中智能设备与控制装置之间操作场景的示意图；

图2为本发明实施例示出的一种智能设备的硬件配置框图；

图3为本发明实施例示出的智能设备的唤醒方法；

图4为本发明实施例示出的另一种智能设备的唤醒方法；

图5示例性地示出了用户面朝发声的智能设备可能得到的一种脉冲反应；

图6示例性地示出了用户非面朝发声的智能设备可能得到的一种脉冲反应；

图7示例性地示出了对智能设备获取的第一音频和第二音频进行互相关处理后得到的互相关波形。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

图1中示例性示出了根据实施例中智能设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端300和控制装置100操作智能设备201、智能设备202和智能设备203，用户也可直接与智能设备201、智能设备202和智能设备203进行交互，智能设备201、智能设备202和智能设备203可与服务器400进行数据通信。

在一些实施例中，控制装置100可以是遥控器，遥控器和智能设备201、智能设备202和智能设备203的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制智能设备201、智能设备202和智能设备203。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制智能设备201、智能设备202和智能设备203。如：用户可以通过遥控器上开启聊天模式、选择聊天对象、视频录制按键、音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制智能设备201、智能设备202和智能设备203的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制智能设备201、智能设备202和智能设备203。例如，使用在智能设备上运行的应用程序控制智能设备。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

在一些实施例中，移动终端300可与智能设备201、智能设备202和智能设备203安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端300与智能设备201、智能设备202和智能设备203建立控制指令协议，将遥控控制键盘同步到移动终端300上，通过控制移动终端300上用户界面，实现控制智能设备201、智能设备202和智能设备203的功能。也可以将移动终端300上显示音视频内容传输到智能设备201、智能设备202和智能设备203上，实现同步显示功能。

如图1中还示出，智能设备201、智能设备202和智能设备203还与服务器400通过多种通信方式进行数据通信。可允许智能设备201、智能设备202和智能设备203通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向智能设备201、智能设备202和智能设备203提供各种内容和互动。示例的，智能设备201、智能设备202和智能设备203通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

智能设备201、智能设备202和智能设备203，可以是电视、音箱、洗衣机、智能盒子、网络盒子、监控设备等。具体智能设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，智能设备可以根据需要做性能和配置上一些改变。

智能设备201、智能设备202和智能设备203除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(IPTV)等。

本发明实施例所提供的智能设备的唤醒方法可运行在智能设备上，也可由智能设备进行语音的采集后上传至服务器，由服务器运行该交互方法。下面以运行在智能设备上为例，介绍一种智能设备200的硬件配置框图，如图2所示。

在一些实施例中，智能设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275，音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。

在一些实施例中，显示器275，用于接收源自第一处理器输出的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。

在一些实施例中，显示器275，包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信器可以包括Wifi模块221，蓝牙模块222，有线以太网模块223等其他网络通信协议模块或近场通信协议模块，以及红外接收器中的至少一种。模块可以是芯片。

在一些实施例中，智能设备200可以通过通信器220与外部控制设备或内容提供设备之间建立控制信号和数据信号发送和接收。

在一些实施例中，用户接口265，可用于接收控制装置100(如：红外遥控器等)红外控制信号。

在一些实施例中，检测器230是智能设备200用于采集外部环境或与外部交互的信号。

在一些实施例中，检测器230包括光接收器，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。

在一些实施例中，检测器230还可以包括图像采集器232，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。

在一些实施例中，检测器230还可以包括温度传感器等，如通过感测环境温度。

在一些实施例中，智能设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整智能设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整智能设备200显示图像偏暖色调。

在一些实施例中，检测器230还可包括声音采集器231等，如麦克风，可以用于接收用户的声音。示例性的，包括用户控制智能设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得智能设备200可以自适应环境噪声。

在一些实施例中，如图2所示，输入/输出接口255被配置为，可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。

在一些实施例中，外部装置接口240可以包括，但不限于如下：可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。

在一些实施例中，如图2所示，调谐解调器210被配置为，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多个无线或有线广播电视信号中解调出音视频信号，该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号，以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。这样，机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备，主体设备经过第一输入/输出接口接收音视频信号。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制智能设备的工作和响应用户的操作。控制器250可以控制智能设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令，可以是通过连接到智能设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

如图2所示，控制器250包括随机存取存储器251(Random Access Memory，RAM)、只读存储器252(Read-Only Memory,ROM)、视频处理器270、音频处理器280、其他处理器253(例如：图形处理器(Graphics Processing Unit，GPU)、中央处理器254(CentralProcessing Unit，CPU)、通信接口(Communication Interface)，以及通信总线256(Bus)中的至少一种。其中，通信总线连接各个部件。

在一些实施例中，RAM 251用于存储操作系统或其他正在运行中的程序的临时数据。

在一些实施例中，ROM 252用于存储各种系统启动的指令。

在一些实施例中，ROM 252用于存储一个基本输入输出系统，称为基本输入输出系统(Basic Input Output System，BIOS)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。

在一些实施例中，在收到开机信号时，智能设备200电源开始启动，CPU运行ROM252中系统启动指令，将存储在存储器的操作系统的临时数据拷贝至RAM 251中，以便于启动或运行操作系统。当操作系统启动完成后，CPU再将存储器中各种应用程序的临时数据拷贝至RAM 251中,然后，以便于启动或运行各种应用程序。

在一些实施例中，CPU处理器254，用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，CPU处理器254，可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器，用于在预加电模式中执行智能设备200一些操作，和/或在正常模式下显示画面的操作。一个或多个子处理器，用于在待机模式等状态下一种操作。

在一些实施例中，图形处理器253，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器270被配置为将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理，可得到直接可智能设备200上显示或播放的信号。

在一些实施例中，视频处理器270，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。

视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧率转换模块，用于对转换输入视频帧率，如将60Hz帧率转换为120Hz帧率或240Hz帧率，通常的格式采用如插帧方式实现。

显示格式化模块，则用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，图形处理器253可以和视频处理器可以集成设置，也可以分开设置，集成设置的时候可以执行输出给显示器的图形信号的处理，分离设置的时候可以分别执行不同的功能，例如GPU+FRC(Frame Rate Conversion))架构。

在一些实施例中，音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，视频处理器270可以包括一颗或多颗芯片组成。音频处理器，也可以包括一颗或多颗芯片组成。

在一些实施例中，视频处理器270和音频处理器280，可以单独的芯片，也可以于控制器一起集成在一颗或多颗芯片中。

在一些实施例中，音频输出，在控制器250的控制下接收音频处理器280输出的声音信号，如：扬声器286，以及除了智能设备200自身携带的扬声器之外，可以输出至外接设备的发生装置的外接音响输出端子，如：外接音响接口或耳机接口等，还可以包括通信接口中的近距离通信模块，例如：用于进行蓝牙扬声器声音输出的蓝牙模块。

供电电源290，在控制器250控制下，将外部电源输入的电力为智能设备200提供电源供电支持。供电电源290可以包括安装智能设备200内部的内置电源电路，也可以是安装在智能设备200外部电源，在智能设备200中提供外接电源的电源接口。

用户接口265，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。

在一些实施例中，用户通过控制装置100或移动终端300输入用户命令，用户输入接口则根据用户的输入，智能设备200则通过控制器250响应用户的输入。

在一些实施例中，用户可在显示器275上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

存储器260，包括存储用于驱动智能设备200的各种软件模块。如：第一存储器中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。

基础模块用于智能设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。

例如，语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块，可以用于播放多媒体图像内容和UI界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。同时，存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。

本发明实施例还提供一种智能设备的唤醒方法。

在一些实施例中，智能设备将采集到的用户音频和预先存储的录制音频进行处理后，得到智能设备所接收到的用户音频中直达声的占比，通过直达声占比确定是否响应用户音频。如此，可以实现用户面朝哪个智能设备进行唤醒，所面朝的设备予以响应，而无需用户靠近该设备，提供了一种更为自然，有效且简单的人机交互方式。

下面以智能设备为音箱为例，介绍这种智能设备的唤醒方法，如图3所示。

步骤301、智能设备采集到用户发出的包含唤醒词的第一音频；

步骤302、所述智能设备确定所述第一音频对应的第二音频；所述第二音频是预先录制的所述用户面向所述智能设备的情况下发出的包含所述唤醒词的音频；

步骤303、所述智能设备确定所述第一音频和第二音频之间的脉冲反应，并根据所述脉冲反应确定所述智能设备接收到的直达声的占比；

步骤304、所述智能设备根据多个智能设备接收到的直达声的占比，确定所述智能设备是否响应所述第一音频。

在步骤302中，第二音频为预先录制的用户面向智能设备的情况下发出的包含唤醒词的音频。智能设备提示用户进行唤醒词的录制，唤醒词的内容和个数可由用户自定义，如用户录制了“ABAB”、“ACAC”、“ADAD”三个唤醒词。智能设备还会提示用户针对每一个唤醒词录制几种不同语速的音频，如针对“ABAB”的唤醒词录制快速、中速、慢速三种语速的音频，以此类推。智能设备会将录制好的音频传送至其他智能设备，如此保证每个智能设备进行直达声占比分析时所使用的第二音频一致，减少误差的影响。

当用户站在房间的任意位置发出包含唤醒词的第一音频时，智能设备接收第一音频后，根据第一音频查找与其对应的第二音频，主要包括唤醒词对应，语速对应等。进行对比分析后，确定与第一音频的唤醒词内容和语速最为接近的第二音频。如此确定出的第二音频与第一音频的相似度较高，不会对后续互相关处理和脉冲反应的生成造成较大误差。

在步骤303中，确定第一音频和第二音频之间的脉冲反应，包括如下步骤，如图4所示：

步骤401、所述智能设备将所述第二音频作为所述第一音频的发出音频；通过对所述第一音频和第二音频做快速傅里叶变换，确定所述第一音频与所述第二音频之间的传递函数；

具体为：

对第一音频和第二音频分别进行FFT(Fast Fourier Transform快速傅里叶变换)运算，求解从第一音频到第二音频的传递函数(transfer function)：

y_第一音频＝conv(y_第二音频，脉冲反应)

其中FFT_脉冲反应即为系统的传递函数H_{transfer function}，故上式变为：

步骤402、所述智能设备对所述传递函数做快速傅里叶逆变换，得到所述脉冲反应。

用公式表示为：

脉冲反应＝IFFT(H_{transfer function})。

经过上述计算，即可确定第一音频和第二音频之间的脉冲反应。

图5示例性地示出了用户面朝发声的智能设备可能得到的一种脉冲反应；图6示例性地示出了用户非面朝发声的智能设备可能得到的一种脉冲反应。以上仅为示例，本发明实施例对此不作限制。

根据所述脉冲反应确定所述智能设备接收到的直达声的占比，包括：

在所述脉冲反应中按照时间划分出直达声部分；

按照声音的传输时间来划分，智能设备接收到的声音可以分为直达声、初次反射声、二次反射声及二次反射声之后的混响部分，直达声即没有经过墙壁或者其他物体的反射由用户的嘴直接到达智能设备的mic阵列的声音。

以图5和图6为例进行介绍，将分别得到的脉冲反应分为3部分：7.4ms以内是直达声至初次反射声、7.4ms-17.19ms是初次反射声至二次反射声、17.19ms以后是二次反射声之后的混响部分。分别统计用户面朝发声的智能设备和非面朝发声的智能设备中这3部分的占比。如下表所示。

可以看出，用户面朝发声的智能设备接收到的直达声部分比例(41.98％)高于非面朝发声的智能设备接收到的直达声部分比例(37.06％)，而面朝发声的智能设备接收到的混响部分比例(40.43％)低于非面朝发声的智能设备接收到的混响部分比例(45.46％)。由此可见，通过直达声占比来确定用户是否面朝设备发声，可以简单有效地确定用户想要唤醒的目标设备。

在步骤304中，在一些实施例中，所述智能设备根据多个智能设备接收到的直达声的占比，确定所述智能设备是否响应所述第一音频，包括：

获取多个智能设备接收到的直达声占比；

例如，智能设备201确定接收到的直达声占比为50％，获取其他多个智能设备202、203接收到的直达声占比分别为20％、10％，比较可确定，智能设备201所接收到的直达声占比最高，则确定响应第一音频。若智能设备201确定接收到的直达声占比为10％，获取其他多个智能设备202、203接收到的直达声占比分别为50％、10％，比较可确定，智能设备201所接收到的直达声占比不是最高的，则确定不响应第一音频。

图7示例性地示出了对智能设备获取的第一音频和第二音频进行互相关处理后得到的互相关波形。通过互相关波形，可以确定第一音频和第二音频相似度最高的位置所对应的横坐标，以此位置为第一音频段和第二音频段的起始位置。在相同的起始位置的基础上，在第一音频和第二音频上分别截取相同长度的音频段，是为第一音频段和第二音频段。如此得到的第一音频段和第二音频段的相似度最高，且音频长度相同。

由于第二音频是智能设备预先录制的用户面向所述智能设备的情况下发出的包含所述唤醒词的音频，因此此时用户距离智能设备的距离是预先设置的，而第一音频是用户站在任意位置发出的音频。因此用户发出第一音频和第二音频时所处的位置、距离智能设备的远近很有可能是不同的，这会导致第一音频和第二音频的幅值出现较大差异，为了避免幅值对后续做直达声占比的分析的影响，因此先对幅值做归一化处理。

在一些实施例中，幅值归一化处理的方法可以为：获取第一音频的幅值中的第一峰值及第二音频的幅值中的第二峰值，确定第一峰值和第二峰值的比例关系，如为1:2，则将第一音频的幅值统一乘以系数2，得到幅值归一化的第一音频，再将幅值归一化的第一音频和第二音频进行后续的直达声能量占比的计算。

幅值归一化的处理可在互相关处理之前，也可在互相关处理之后，本发明实施例对此不作限制。

在一些实施例中，所述方法还包括：

本发明实施例还提供一种计算设备，包括：

存储器，用于存储计算机程序；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种智能设备的唤醒方法，其特征在于，包括：

智能设备采集到用户发出的包含唤醒词的第一音频；

所述智能设备确定所述第一音频对应的第二音频；所述第二音频是预先录制的所述用户面向所述智能设备的情况下发出的包含所述唤醒词的音频；确定所述第一音频对应的第二音频，包括唤醒词对应和语速对应，从而确定出与所述第一音频的唤醒词内容和语速最为接近的所述第二音频；

所述智能设备根据多个智能设备接收到的直达声的占比，确定所述智能设备是否响应所述第一音频；

2.如权利要求1所述的方法，其特征在于，所述智能设备确定所述第一音频和第二音频之间的脉冲反应之前，还包括：

3.如权利要求2所述的方法，其特征在于，对所述第一音频和所述第二音频做互相关处理之前，还包括：

4.如权利要求1至3任一项所述的方法，其特征在于，根据所述脉冲反应确定所述智能设备接收到的直达声的占比，包括：

在所述脉冲反应中按照时间划分出直达声部分；

5.如权利要求4所述的方法，其特征在于，所述智能设备根据多个智能设备接收到的直达声的占比，确定所述智能设备是否响应所述第一音频，包括：

获取多个智能设备接收到的直达声占比；

6.如权利要求4所述的方法，其特征在于，还包括：

7.一种智能设备，其特征在于，包括：

声音采集器，用于采集用户发出的包含唤醒词的第一音频；

控制器，用于确定所述第一音频对应的第二音频；确定所述第一音频和第二音频之间的脉冲反应，并根据所述脉冲反应确定所述智能设备接收到的直达声的占比；所述第二音频是预先录制的所述用户面向所述智能设备的情况下发出的包含所述唤醒词的音频；确定所述第一音频对应的第二音频，包括唤醒词对应和语速对应，从而确定出与所述第一音频的唤醒词内容和语速最为接近的所述第二音频；

音频输出器，用于输出对所述第一音频的响应；

所述控制器具体用于：将所述第二音频作为所述第一音频的发出音频；通过对所述第一音频和第二音频做快速傅里叶变换，确定所述第一音频与所述第二音频之间的传递函数；对所述传递函数做快速傅里叶逆变换，得到所述脉冲反应。

8.一种计算设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行权利要求1至6任一项所述的方法。