CN116774901A

CN116774901A - 启动语音助手方法及电子设备

Info

Publication number: CN116774901A
Application number: CN202210232520.XA
Authority: CN
Inventors: 李自由; 郜文美; 麦睿楷; 胡宏伟; 饶刚
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2023-09-19

Abstract

本申请实施例提出一种启动语音助手方法及电子设备，涉及人工智能(artificial intelligence，AI)领域。该启动语音助手方法应用于电子设备，电子设备包括语音助手、第一电子元件和第二电子元件，该方法包括：检测作用于电子设备的第一操作，响应于第一操作，激活第一电子元件和第二电子元件，控制第一电子元件发射第一超声波信号，获取第二电子元件所采集的第二超声波信号，在第二超声波信号满足预设条件时，启动语音助手。可以免输入唤醒词启动语音助手，启动语音助手过程友好，达到自然交互的效果，提高用户使用体验。

Description

启动语音助手方法及电子设备

技术领域

本申请实施例涉及人工智能(artificial intelligence，AI)领域，尤其涉及一种启动语音助手的方法及电子设备。

背景技术

随着语音识别技术的发展，许多电子设备中安装了语音助手应用程序(application，APP)(例如Siri、小爱同学、小E等)，支持用户通过语音指令操控电子设备。语音助手被启动后，会根据接收到的语音指令执行相应的操作。

现有技术中，当电子设备检测到用户输入的语音包括预设的唤醒词(例如，“你好，小E”、“小E，小E”等)时，电子设备启动语音助手。然而在电子设备所处环境比较嘈杂，用户无法通过输入唤醒词唤醒语音助手，降低用户的使用体验。

发明内容

本申请实施例公开了一种启动语音助手方法及电子设备，可以免输入唤醒词启动语音助手，启动语音助手过程友好，达到自然交互的效果，提高用户使用体验。

第一方面，本申请实施例提供一种启动语音助手方法，应用于电子设备，电子设备包括语音助手、第一电子元件和第二电子元件，该方法包括：检测作用于电子设备的第一操作，响应于第一操作，激活第一电子元件和第二电子元件，控制第一电子元件发射第一超声波信号，获取第二电子元件所采集的第二超声波信号，在第二超声波信号满足预设条件时，启动语音助手。

在本申请实施例中，基于电子设备原生配置的第一电子元件和第二电子元件实现超声波检测，无需增加额外的硬件器件。在第二超声波信号满足预设条件时，则判断用户有与语音助手进行交互的意图，启动语音助手。在启动语音助手阶段，通过对超声波信号处理，可以有效过滤掉人声，能较好地保护用户隐私。进一步地，可以减少外界环境噪声干扰，鲁棒性强，提升用户对语音助手的使用便利性，加强对电子设备的使用粘性。与按键触发、语音唤醒词等交互方式相比，基于超声波信号检测启动语音助手简化了操作步骤，更加简便且自然的交互方式。

在一些实施例中，在获取第二超声波信号之后，该方法还包括：获取第二超声波信号的传播距离，其中传播距离为人体脸部上反射第二超声波信号的位置至电子设备之间的距离；根据传播距离得到距离分布；将传播距离与距离分布作为处理结果。通过计算第二超声波信号的传播距离以及距离分布，可以获得电子设备与人体脸部之间的距离信息，以此距离信息作为用户的特征参数，用于判断用户是否具有与语音助手进行交互的意图具有可靠性。可以理解，用户想与语音助手交互时与不想语音助手交互时，其与电子设备之间的距离将产生一定变化。若用户想与语音助手交互，其会更靠近电子设备。

在一些实施例中，在获取第二超声波信号之后，该方法还包括：根据传播距离和加权距离公式得到加权距离，其中加权距离公式为：

其中，D为加权距离，d_i为传播距离，N为第二超声波信号的个数，a_i为第二超声波信号幅值，A为第一超声波信号幅值，i＝1，2，3，…，N，则上述处理结果还包括加权距离。通过计算加权距离可以获得电子设备与人体脸部之间的距离信息，以此加权距离信息作为用户的特征参数，用于判断用户是否具有与语音助手进行交互的意图具有可靠性。

在一些实施例中，在获取第二超声波信号之后，该方法还包括：根据加权距离和离散度公式得到离散度，其中，离散度公式为：

其中，S为离散度，D为加权距离，d_i为传播距离，N为第二超声波信号的个数，a_i为第二超声波信号幅值，A为第一超声波信号幅值，i＝1，2，3，…，N，上述处理结果还包括离散度。通过计算离散度可以获得人体整体脸部特征，以此离散度作为用户的特征参数，用于判断用户是否具有与语音助手进行交互的意图具有可靠性以及稳定性。

在一些实施例中，在获取第二超声波信号之后，该方法还包括：对第二超声波信号进行特征提取，提取出第二超声波信号的幅值和相位；计算第一超声波信号和第二超声波信号之间的幅值衰减和相位偏移；处理结果还包括幅值、相位、幅值衰减和相位偏移。使用第二超声波信号的幅值、相位、幅值衰减和相位偏移作为用户脸部特征参数，可以判断用户脸部的大小等信息，并用于判断用户是否具有与语音助手进行交互的意图具有可靠性以及稳定性。

在一些实施例中，电子设备还包括预设模型，预设模型包括预设模板，预设模板包括预先存储的参数序列；则在处理结果满足预设条件时，启动语音助手包括将处理结果与参数序列进行匹配；若匹配，则处理结果满足预设条件，启动语音助手。通过预设模型设置可以提高匹配的准确性与高效性。

在一些实施例中，该方法还包括：获取群体用户的训练数据集，其中群体用户的训练数据集包括第一超声波信号经过群体用户脸部反射后得到的第三超声波信号；根据第三超声波信号训练预设模型，以使得预设模型的预设模板适配群体用户。可以使用群体用户的训练数据集提高预设模型的鲁棒性，使得预设模型具有适用性。

在一些实施例中，该方法还包括获取用户输入的注册指令；响应注册指令，获取用户的训练数据集，其中用户的训练数据集包括第一超声波信号经过用户脸部反射后得到的第四超声波信号；根据第四超声波信号训练预设模型，以使得预设模型的预设模板适配用户。使用特定用户的训练数据训练预设模型，有利于进行用户验证与用户依赖的电子设备唤醒。

在一些实施例中，电子设备还包括运动传感器；则检测作用于电子设备的第一操作包括：在电子设备基于对其执行的操作而处于运动状态时，获取运动传感器所采集的电子设备的数据；判断数据是否满足触发条件，触发条件包括电子设备的垂直移动距离大于第一距离阈值、合成加速度的绝对值大于第一加速度阈值以及运动时长小于第一时间阈值；若满足，则操作为第一操作；若未满足，则操作不是第一操作。通过触发条件设置可以减少误触发，进而减少电子设备的功耗，设置第一距离阈值以避免电子设备在日常使用过程中的小距离移动也满足触发条件。设置第一加速度阈值以及第一时间阈值以避免电子设备在日常使用过程中的电子设备的缓慢移动也满足触发条件。

在一些实施例中，电子设备还包括距离检测传感器，距离检测传感器用于采集电子设备与人体之间的距离，则检测作用于电子设备的第一操作包括：在电子设备基于对其执行的操作而处于运动状态时，获取距离检测传感器所采集的电子设备与人体之间的距离；判断距离是否小于或等于第二距离阈值；若小于或等于，则操作为第一操作；若大于，则操作不是第一操作。通过设置第二距离阈值，可以初步确认用户是否有进行语音交互的意图，若用户与电子设备之间的距离满足第二距离阈值，则可以初步判断用户有进行语音交互意图，进而启动第一电子元件与第二电子元件，实现启动语音助手的高效性。

在一些实施例中，该方法还包括：在激活第一电子元件和第二电子元件时，显示提示界面，其中所示提示界面用于提示第一电子元件和第二电子元件处于工作状态。在激活第一电子元件与第二电子元件后，用户无法听见第一电子元件所发射的第一超声波信号，通过输出提示告知用户电子设备发射超声波信号，便于用户了解电子设备的工作状态，提升用户使用体验。进一步地，输出的提示可以便于电子设备判断用户是否有启动语音助手的意图，避免后续误启动语音助手。

在一些实施例中，该方法还包括：在显示提示界面时，检测停止指令；若在预设时间段内检测到停止指令，则关闭第一电子元件和第二电子元件；若在预设时间段内未检测到停止指令，则保持第一电子元件和第二电子元件处于工作状态。提供用户进行停止的功能，由用户直接确认其是否有语音助手进行交互的意图。

在一些实施例中，该方法还包括：保存预设时间段内第二电子元件所采集的声音信号；在语音助手启动后，将声音信号传输给语音助手进行语音识别。电子设备可以保存第二电子元件所采集到的声音信号，后续可用于继续判断用户是否有启动语音助手的意图，或者传输给语音助手以识别用户的语音指令。

第二方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质包含用于执行上述任一项的方法的计算机可执行指令。

第三方面，本申请实施例提供一种电子设备，包括：至少一个存储器，用于存储程序；和至少一个处理器，用于执行存储器存储的程序，当程序被处理器执行时，以使得电子设备执行如上任一的方法。

上述其他方面对应的有益效果，可以参见关于方法方面的有益效果的描述，此处不予赘述。

附图说明

图1为本申请实施例提供的一种电子设备的结构示意图。

图2A为本申请实施例提供设置有第一电子元件与第二电子元件的手机的示意图。

图2B为图2A所示手机的下侧边框的示意图。

图2C为本申请实施例提供的另一种设置有第一电子元件与第二电子元件的手机的示意图。

图3A为本申请实施例提供设置有第一电子元件与第二电子元件的智能手表的示意图。

图3B为本申请实施例提供的另一种设置有第一电子元件与第二电子元件的智能手表的示意图。

图4为本申请实施例提供的启动语音助手方法的流程示意图。

图5A为本申请实施例提供的一种主界面示意图。

图5B为本申请实施例提供的一种设置界面示意图。

图6为本申请实施例提供的一种用户手持智能手表状态示意图。

图7为本申请实施例提供的另一种用户手持智能手表状态示意图。

图8为本申请实施例提供的一种提示界面示意图。

图9为图7中智能手表所发射的超声波信号在用户脸部产生反射的示意图。

图10为图2A中手机所发射的超声波信号在用户脸部产生反射的示意图。

图11为本申请实施例提供的传播距离示意图。

图12为本申请实施例提供的一种用户与语音助手交互示意图。

图13为本申请实施例提供的另一种用户与语音助手交互示意图。

图14为本申请实施例提供的另一种电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。例如，第一电子元件和第二电子元件用于表示两个电子元件。在在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请实施例中，“示例性地”、“例如”或“在一些示例中”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”、“例如”或“在一些示例中”等词旨在以具体方式呈现相关概念。

本申请实施例中涉及的“语音助手”，又可以称之为“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”等。“语音助手”可以理解为一种信息处理系统，其可以识别语音形式和/或文本形式的自然语言输入来推断用户意图，并且基于推断出的用户意图来执行相应的动作。该系统可以通过可听(例如，语音)和/或可视形式来输出对用户的输入的响应。

示例地，用户可向语音助手提问，诸如“我现在在哪里？”。基于用户的当前位置，语音助手可回答“您在中央公园西门附近。”用户还可请求执行任务，例如“打电话给麦克。”作为响应，语音助手可通过讲出“好的，马上”来确认请求，且语音助手执行拨打联系人“麦克”的电话的任务。除了提供语音响应并执行预置动作之外，语音助手还可提供其他视觉或音频形式(例如，作为文本、提示、音乐、视频、动画等)的响应。可以理解的，用户与语音助手还可以进行其他类型的交互，如聊天、游戏、知识问答等，且交互形式不限，本申请实施例对此不做限定。

在一些实施例中，语音助手可以是安装在电子设备中的应用程序，该应用程序可以是电子设备中的嵌入式应用程序(即电子设备的系统应用)，也可以是可下载的应用程序。其中，嵌入式应用程序是作为电子设备(如手机)实现的一部分提供的应用程序。可下载应用程序是一个可以提供自己的因特网协议多媒体子系统(internet protocolmultimedia subsystem，IMS)连接的应用程序，该可下载应用程序可以预先安装在电子设备中或可以由用户下载并安装在电子设备中。

下述以语音助手实现为安装在电子设备中的应用程序为例进行说明。

在用户需要与安装在电子设备中的语音助手进行交互时，用户可以开启电子设备的超声启动模式，以使得电子设备执行本申请实施例提供的启动语音助手方法来启动语音助手。在语音助手被启动后，语音助手处于工作状态，等待并响应用户的指令。

本申请实施例提供的启动语音助手方法可以应用于设置有第一电子元件和第二电子元件的电子设备。其中，第一电子元件用于将电信号转换成声音信号。第二电子元件用于将声音信号转换成电信号。第一电子元件发射超声波(Ultrasound)信号。超声波信号在传播过程中遇到反射物(如人脸)时，一部分超声波信号会从该反射物反射回来。第二电子元件可以接收反射物反射回来的超声波信号，并将接收到的超声波信号传输给电子设备的处理器。处理器根据第二电子元件所接收到的超声波信号判断用户是否有与语音助手进行交互的意图，若有则启动语音助手，若无则不启动语音助手。

其中，超声波是指任何声波或振动，其频率超过人类耳朵可以听到的最高阈值。其中，人类耳朵可以听到的最高阈值可以为20kHz(千赫)，在一些实施例中，该最高阈值可以为17kHz(千赫)。下述以该最高阈值为17KHz进行说明。

本申请实施例中的电子设备可以为便携式计算机(如手机)、可穿戴电子设备(如智能手表)、平板电脑、智能音箱、增强现实(augmented reality，AR)\虚拟现实(virtualreality，VR)设备等，以下实施例对电子设备的具体形式不做特殊限制。

示例性的，图1为本申请实施例提供的一种电子设备的结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，移动通信模块130，无线通信模块140，音频模块150，扬声器150A，受话器150B，麦克风150C，传感器模块160，显示屏170等。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

电子设备100的无线通信功能可以通过移动通信模块130，无线通信模块140，调制解调处理器以及基带处理器等实现。移动通信模块130可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块130可以包括一个或多个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块130可以由第一天线(图未示)接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块130还可以对经调制解调处理器调制后的信号放大，经第一天线转为电磁波辐射出去。在一些实施例中，移动通信模块130的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块130的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器150A，受话器150B等)输出声音信号，或通过显示屏170显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块130或其他功能模块设置在同一个器件中。

无线通信模块140可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(Bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块140可以是集成一个或多个通信处理模块的一个或多个器件。无线通信模块140经由第二天线(图未示)接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块140还可以从处理器110接收待发送的信号，对其进行调频，放大，经第二天线转为电磁波辐射出去。

在一些实施例中，电子设备100的第一天线和移动通信模块130耦合，第二天线和无线通信模块140耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobilecommunications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband codedivision multiple access，WCDMA)，时分码分多址(time-division code divisionmultiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenithsatellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏170，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏170和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏170用于显示图像，视频等。显示屏170包括显示面板。在一些实施例中，电子设备100可以包括1个或N个显示屏170，N为大于1的正整数。

电子设备100可以通过ISP，摄像头(图未示)，视频编解码器，GPU，显示屏170以及应用处理器等实现拍摄功能。

ISP用于处理摄像头反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头中。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部的非易失性存储器(例如Micro SD卡)，实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部的非易失性存储器中。

内部存储器121可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令，从而使得电子设备100执行本申请一些实施例中所提供的启动语音助手的方法，以及各种功能应用和数据处理等。

内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统；该存储程序区还可以存储一个或多个应用程序(比如语音识别、图库、联系人等)等。存储数据区可存储电子设备使用过程中所创建的数据等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块150，扬声器150A，受话器150B，麦克风150C，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块150用于将数字声音信号转换成模拟声音信号输出，也用于将模拟声音信号转换为数字声音信号。音频模块150还可以用于对声音信号编码和解码。在一些实施例中，音频模块150可以设置于处理器110中，或将音频模块150的部分功能模块设置于处理器110中。

扬声器150A，也称“喇叭”，用于将电信号(可承载音频数据)转换为声音信号，并输出声音信号。电子设备100可以通过扬声器150A收听音乐，或收听免提通话。扬声器150A可以用于发射超声波信号。

受话器150B，也称“听筒”，用于将电信号(可承载音频数据)转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器150B靠近人耳接听语音。

麦克风150C，也称“话筒”，“传声器”，用于采集电子设备100周围环境中的声音信号(例如周围环境声音，包括人发出的声音、设备发出的声音等)，并将声音信号转换为电信号(可承载音频数据)。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风150C发声，将声音信号输入到麦克风150C。麦克风150C所采集的声音信号包括超声波信号，即麦克风150C可以用于采集超声波信号。

在另一些实施例中，电子设备100可以设置一个或多个麦克风150C。电子设备100可以设置两个麦克风150C，除了采集声音信号，还可以实现降噪功能。

在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风150C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

传感器模块160可以包括陀螺仪传感器(Gyroscope Sensor)160A，加速度传感器(acceleration transducer)160B，距离传感器160C，接近光传感器160D，环境光传感器160E等，本申请实施例对此不做任何限制。

陀螺仪传感器160A可以用于确定电子设备100的运动姿态。陀螺仪传感器是用高速回转体的动量矩敏感壳体相对惯性空间绕正交于自转轴的一个或二个轴的角运动检测装置。

在一些实施例中，可以通过陀螺仪传感器160A确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器160A可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器160A检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器160A还可以用于导航，体感游戏场景。

加速度传感器160B，也称加速计(accelerometer)，是测量运载体线加速度的仪表，敏感检测质量的惯性力，测量线加速度的仪表，加速计返回x、y、z三轴的加速度数据。加速度传感器160B可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备100姿态，应用于横竖屏切换，计步器等应用。

在一些实施例中，传感器模块160包括惯性测量单元(Inertial measurementunit，IMU)(图未示)，IMU是测量物体三轴姿态角(或角速率)以及加速度的装置。一般的，一个IMU内会装有三轴的陀螺仪和三个方向的加速度计，来测量物体在三维空间中的角速度和加速度，并以此解算出电子设备100的姿态。为了提高可靠性，还可以为每个轴配备更多的传感器。一般而言IMU安装在电子设备100的重心上。

距离传感器160C，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器160C测距以实现快速对焦。

接近光传感器160D可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器160D检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器160D也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器160E用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏170亮度。环境光传感器160E也可用于拍照时自动调节白平衡。环境光传感器160E还可以与接近光传感器160D配合，检测电子设备100是否在口袋里，以防误触。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

例如，当上述电子设备100为智能手表时，电子设备100中还可以包括电池、按键等一项或多项器件，本申请实施例对此不做任何限制。

又例如，当上述电子设备100为手机时，电子设备100中还可以包括天线、通用串行总线(universal serial bus，USB)接口、按键、摄像头、电池、马达、指示器以及SIM卡接口等一项或多项器件，本申请实施例对此不做任何限制。

下面以第一电子元件为扬声器，第二电子元件为麦克风为例，介绍电子设备的形态。

请参阅图2A，图2A为本申请实施例提供设置有第一电子元件与第二电子元件的手机的示意图。图2B为图2A所示手机的下侧边框的示意图。如图2A所示，手机200具有显示屏201、按键202、通用串行总线(Universal Serial Bus，USB)接口203、处理器110、陀螺仪传感器160A、加速度传感器160B、扬声器150A以及麦克风150C。

显示屏201可以用于显示用户界面(User Interface，UI)，用户界面上可以显示一个或多个图形。按键202设置在手机200的右侧边框上。处理器110、陀螺仪传感器160A、加速度传感器160B设置在手机200内。其中，处理器110、陀螺仪传感器160A、加速度传感器160B在手机200内的位置可以根据实际情况设置，本申请实施例对此不作具体限定。

请一并参阅图2B，USB接口203、扬声器150A以及麦克风150C设置手机200的下侧边框上。具体地，该USB接口203设置于下侧边框的中部位置。手机200包括两个麦克风150C，该两个麦克风150C分别设置USB接口203两侧。扬声器150A设置在麦克风150C的一侧。

在一些实施例中，可以在手机200的下侧边框上设置一个或多个扬声器150A以及一个或多个麦克风150C。

请参阅图2C，图2C为本申请实施例提供的另一种设置有第一电子元件与第二电子元件的手机的示意图。图2A与图2C的区别在于，扬声器150A以及麦克风150C设置在手机200的侧面上，且扬声器150A、麦克风150C与显示屏201在同一侧面。

可以理解，手机200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置，本申请实施例对此不做任何限制。

请参阅图3A，图3A为本申请实施例提供设置有第一电子元件与第二电子元件的智能手表的示意图。

如图3A所示，智能手表300包括显示屏301、按键302、处理器110、陀螺仪传感器160A、加速度传感器160B、扬声器150A以及麦克风150C。

显示屏301可以用于显示用户界面，用户界面上可以显示一个或多个图形。按键302设置在智能手表300的右侧边框上。处理器110、陀螺仪传感器160A、加速度传感器160B设置在智能手表300内。其中，处理器110、陀螺仪传感器160A、加速度传感器160B在智能手表300内的位置可以根据实际情况设置，本申请实施例对此不作具体限定。

智能手表300的左侧边框上设置有扬声器150A，智能手表300的右侧边框上设置有麦克风150C。在另一些实施例中，智能手表300的右侧边框上设置有扬声器150A，智能手表300的左侧边框上设置有麦克风150C。

在一些实施例中，智能手表300的侧边框上设置有一个或多个扬声器150A以及一个或多个麦克风150C。

请参阅图3B，图3B为本申请实施例提供的另一种设置有第一电子元件与第二电子元件的智能手表的示意图。图3B与图3A的区别在于，扬声器150A以及麦克风150C设置在智能手表300的侧面上，且扬声器150A、麦克风150C与显示屏301在同一侧面。

可以理解，智能手表300可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置，本申请实施例对此不做任何限制。

可以理解，上述图2A、图2B、图2C、图3A、图3B中各个器件(如第一电子元件与第二电子元件)的位置设置以及数量仅是示意性举例，本申请对此不作具体限定。

以下结合附图和应用场景对本实施例提供的启动语音助手方法进行详细介绍。

以下实施例中所涉及的技术方案均可以在上述电子设备中实现。需要说明的是，以下实施例中，电子设备以图3B所示的智能手表300为例。

请参阅图4，图4为本申请实施例提供的启动语音助手方法的流程示意图。该启动语音助手方法应用于电子设备。该启动语音助手方法包括如下步骤：

步骤S41：检测作用于电子设备的第一操作。

在本申请实施例中，当用户需要启动语音助手时，用户可以对电子设备执行第一操作，该第一操作用于触发电子设备启动流程(如下述步骤S42至步骤S48)以确认用户是否有与语音助手进行交互的意图。

在一些实施例中，电子设备具有超声启动模式。当电子设备的超声启动模式已开启，电子设备检测用户作用于电子设备的第一操作。其中，超声启动模式可以实现为电子设备的一个功能，也可以实现为应用程序的一个子功能，如实现为智能手表300上“设置”应用的一个子功能，本申请对此不作具体限定。

在本申请实施例中，电子设备开启超声启动模式可以包括但不限于如下可能实施方式：

方式一：具有超声启动模式的电子设备默认将其超声启动模式开启。

方式二：用户开启电子设备的超声启动模式。以智能手表300的设置界面上设置有“超声启动模式”开关为例，如图5A所示，智能手表300的显示屏301上显示的GUI为智能手表300的主界面50，主界面50上显示设置图标51、音乐图标52、日期图标53、电量图标54等图标元素。

用户点击主界面50上的设置图标51，智能手表300启动设置应用，设置应用呈现设置界面，如图5B所示。设置界面55包括“超声启动模式”的开关56。用户点击智能手表300的设置界面55上“超声启动模式”的开关56，以开启智能手表300的超声启动模式。

在本申请实施例中，电子设备可以通过其自身的传感器来检测用户作用于电子设备的操作。在一些实施例中，通过电子设备的一个或多个运动传感器来检测电子设备基于用户对其执行的操作而产生的运动。其中运动传感器能够检测电子设备的运动，运动传感器例如可以为IMU、加速度传感器、陀螺仪传感器等。该一个或多个运动传感器采集用户对电子设备执行操作过程(也即电子设备处于运动过程)中该电子设备的数据，并将采集到的数据传输给处理器。处理器对运动传感器采集到的数据进行处理，判断是否满足触发条件，若满足则确定用户对电子设备执行的操作为第一操作，若不满足则确定用户对电子设备执行的操作不是第一操作。

在本申请实施例中，在通过多个运动传感器检测电子设备时，该多个运动传感器可以为不同种类的传感器(如可以为加速度传感器和陀螺仪传感器)。也即处理器可以对多个不同种类传感器所采集到的数据进行处理，以判断是否满足触发条件。

在一些实施例中，触发条件可以为电子设备的垂直移动距离大于第一距离阈值、合成加速度的绝对值大于第一加速度阈值以及整个运动时长小于第一时间阈值。

其中，第一距离阈值的取值范围可以为大于10cm且小于20cm，第一加速度阈值的取值范围可以为0.5g至2g，其中，g为重力加速度，可以取值为9.80665m/s2，第一时间阈值的取值范围可以为0.3s至0.6s。为减少误触发，减少电子设备的功耗，设置第一距离阈值以避免电子设备在日常使用过程中的小距离移动也满足触发条件。设置第一加速度阈值以及第一时间阈值以避免电子设备在日常使用过程中的电子设备的缓慢移动也满足触发条件。触发条件的设置可以根据实际情况设置，本申请实施例对此不作具体限定。

示例性地，当用户600对智能手表300执行操作时，智能手表300的运动状态为先加速后停止，可以通过智能手表300内的加速度传感器160B检测智能手表300的运动状态，加速度传感器160B可以检测到合成加速度由小变大，再由大变小。在移动的最后阶段，智能手表300运动方向可以是近乎垂直于智能手表300平面的，该模式可以通过加速度的方向检测。智能手表300整体移动过程中会发生转动和朝向的变化，可以通过陀螺仪传感器160A检测。处理器110获得陀螺仪传感器160A以及加速度传感器160B检测到的数据，并对获得的数据进行处理，以获取智能手表300的垂直移动距离、合成加速度的绝对值以及运动时长。若处理器110判断到智能手表300的垂直移动距离大于第一距离阈值(即计算z轴的移动距离大于第一距离阈值)、合成加速度的绝对值大于第一加速度阈值，整个运动时长小于第一时间阈值，即智能手表300基于用户600对其执行的操作而产生的运动的数据满足触发条件，则判断用户600对手表300执行的操作为第一操作。反之，判断用户600对智能手表300执行的操作不是第一操作。

在一些实施例中，运动时长即合成加速度由小变大，再由大变小的过程的时长。示例性地，若合成加速度的变化幅度|A2-A1|大于或等于预设幅度阈值，且合成加速度A1的时刻T0至合成加速A2的时刻T1之间的时间段为预设时间段阈值，A2大于A1，合成加速度由小变大，记录T1时刻。若合成加速度的变化幅度为|A4-A3|大于或等于预设幅度阈值，合成加速度A3的时刻T3至合成加速A4的时刻T4之间的时间段为预设时间段阈值，A4小于A3，合成加速度由大变小，记录T4时刻。T1至T4时刻之间的时间段即为运动时长。

在一些实施例中，上述触发条件还可以为电子设备与用户之间的距离小于或等于第二距离阈值。为了区别于用户常见的抬手等动作，优先保证较低的误触发率，通过红外线传感器测量靠近电子设备的物体表面温度，进而判断该物体是否为人体，若否，则不启动第一电子元件与第二电子元件，结束流程。若是，则可以认为该物体为人体(用户)，红外线传感器采集电子设备与用户之间的距离。处理器获取红外线传感器所采集的距离，并判断该距离是否小于或等于第二距离阈值。

其中，第二距离阈值可以为如5cm、10cm、15cm或20cm等，第二距离阈值可以根据实际情况设置。其中，可以判断红外线传感器与用户的最近距离是否小于或等于第二距离阈值；在包括多个红外线传感器时，也可以判断多个红外线传感器距离用户的平均距离是否小于或等于第二距离阈值，本申请对此不作具体限定。

如上述示例，智能手表300还可以包括红外线传感器(图未示)，红外线传感器测量靠近智能手表300的物体的表面温度，进而判断该物体是否人体，若否，则不启动扬声器150A与麦克风150C，结束流程。若是，红外线传感器检测其与物体之间的距离，并将检测到的距离传输给处理器110。处理器110判断该距离是否小于第二距离阈值，若小于或等于，也即智能手表300与用户600之间的距离小于或等于第二距离阈值，则判断用户600对智能手表300执行第一操作。反之，用户600对智能手表300执行的操作不是第一操作。

可以理解，上述触发条件可以根据实际应用进行组合，例如触发条件为电子设备的垂直移动距离大于第一距离阈值、合成加速度的绝对值大于第一加速度阈值以及电子设备与用户之间的距离小于第二距离阈值，又或者，触发条件还可以为电子设备的垂直移动距离大于第一距离阈值、合成加速度的绝对值大于第一加速度阈值、整个运动时长小于第一时间阈值以及电子设备与用户之间的距离小于第二距离阈值，本申请实施例对此不作具体限定。

在一些实施例中，可以根据上述触发条件设置对应的模型，例如为运动模型，运动模型包括根据实际情况设置的触发条件。将运动传感器检测到的数据输入至运动模型以判断电子设备基于用户对其执行的操作而产生的运动是否满足触发条件。例如，运动距离(也即垂直移动距离)、运动速度(也即合成加速度)、运动时间(也即运动时长)以及运动目的地(也即子设备与用户之间的距离)是否满足触发条件。

在本申请实施例中，用户对电子设备执行第一操作，用户将远离用户脸部的电子设备移动至靠近用户脸部，也即使得电子设备处于运动状态，且运动后的电子设备相对于运动前的电子设备更靠近用户的脸部。

示例性地，以第一操作为抬起操作为例进行说明。

如图6所示，用户600在其手腕上佩戴智能手表300并且用户600的手臂垂下。

如图7所示，用户600举起手臂，朝向其脸部抬起其手腕，以将智能手表300移动至其脸部前方。

用户600对智能手表300执行第一操作如图6至图7的过程。然而，应当理解，图6至图7中示出的智能手表300的姿势仅仅是示例性的。类似地，电子设备在图6至图7中示出的姿势之间的转变也仅仅是示例性的。

步骤S42：响应于第一操作，激活第一电子元件与第二电子元件。

在步骤S41中电子设备的处理器判断用户作用于电子设备的操作为第一操作，即检测到作用于电子设备的第一操作，则处理器响应于该第一操作，激活电子设备的第一电子元件与第二电子元件。激活后的第一电子元件和第二电子元件处于工作状态，也即第一电子元件可以将电信号转换成声音信号，并传播出去，第二电子元件可以采集声音信号，并将声音信号转换成电信号。处理器可以先激活第一电子元件后激活第二电子元件，或同时激活第一电子元件与第二电子元件。第一电子元件用于发射超声波信号，第二电子元件用于接收超声波信号。

如上述示例，处理器110判断用户600对智能手表300执行的操作为第一操作，处理器110输出激活信号至扬声器150A以激活扬声器150A，处理器110输出激活信号至麦克风150C以激活麦克风150C。

步骤S43：控制第一电子元件发射第一超声波信号。

在步骤S42电子设备的处理器激活第一电子元件后，处理器控制第一电子元件发射第一超声波信号，其中第一超声波信号可以为特定频率、特定幅值、特定相位的扫频超声波信号。

示例性地，设置第一超声波信号的特定频率为17kHz～22kHz、特定幅值为A，特定相位为零。处理器110控制扬声器150A发射第一超声波信号时，处理器110根据上述特定频率、特定幅值、特定相位生成正弦波信号，处理器110根据该正弦波信号产生相应的电压或电流以控制扬声器150A发射初始频率为17kHz，超声波频率增量为0.5kHz/0.1s，终止频率为22kHz的扫频超声波信号，且扫频超声波信号的幅值为A，相位为零。

在一些实施例中，在激活第一电子元件与第二电子元件后，或在第一电子元件发送第一超声波信号时，电子设备可以向用户输出提示，以告知用户即将发送超声波信号或正在发送超声波信号。用户接收到提示后可知即将发送超声波信号或正在发送超声波信号以启动语音助手，若用户不想启动语音助手，则用户可以向电子设备输入停止指令，电子设备接收到停止指令后则关闭第一电子元件与第二电子元件，不继续启动语音助手的流程。反之，若在电子设备输出提示后在预设时间内段内没有收到用户输入的停止指令，则初步判断用户有启动语音助手的意图，处理器继续进一步判断用户是否有启动语音助手的意图(如执行下述步骤S44至步骤S47)。

在本申请实施例中，在激活第一电子元件与第二电子元件后，用户无法听见第一电子元件所发射的第一超声波信号，通过输出提示告知用户电子设备发射超声波信号，便于用户了解电子设备的工作状态，提升用户使用体验。进一步地，输出的提示可以便于电子设备判断用户是否有启动语音助手的意图，避免后续误启动语音助手。

在一些实施例中，在电子设备输出提示后，电子设备可以保存第二电子元件所采集到的声音信号，后续可用于继续判断用户是否有启动语音助手的意图，或者传输给语音助手以识别用户的语音指令。若检测到在预设时间段内没有接收到用户的停止指令，电子设备继续执行后续步骤并启动语音助手后，语音助手对所保存的声音信号进行语音识别，若语音助手无法识别该声音信号对应的语音指令(即无法识别该声音信号的语义(如意图))，则语音助手向电子设备输出该声音信号不是有效语音，语音助手可以继续识别第二电子元件所采集到的其他声音信号。若语音助手对第二电子元件所采集到的声音信号进行语音识别，均无法识别声音信号对应的语音指令，则电子设备关闭语音助手。若语音助手识别出该声音信号对应的语音指令，则执行该语音指令。若检测到在预设时间段内接收到用户的停止指令，则将所保存的声音信号删除。

其中，提示可以为语音提示，也可以在显示屏上显示图案或文字提示等。提示的内容可以为“即将发送超声波信号”、“正在发送超声波信号”等。预设时间段为0.5s、1s、1.5s或2s等。用户可以通过操作电源键、音量键等向电子设备输入停止指令，本申请实施例对此不作具体限定。

如上述示例，处理器110激活扬声器150A和麦克风150C后，智能手表300的显示屏301上显示提示界面如图8所示。提示界面801上包括文字提示802“发射超声波”和提示图案803。以智能手表300显示提示界面801时刻作为初始时刻，开始计时。若在预设时间段1s内，用户没有按压按键302，也即在预设时间段1s内智能手表300没有接收到用户的停止指令，则继续保持扬声器150A和麦克风150C处于工作状态，并保存在预设时间段1s内麦克风150C所采集到的声音信号。若在预设时间段1s内，用户操作按键302，也即在预设时间段1s内智能手表300接收到用户的停止指令，则智能手表300关闭扬声器150A和麦克风150C，智能手表300停止后续启动语音助手的流程，即智能手表300不执行下述步骤，并删除在预设时间段1s内麦克风150C所采集到的声音信号。

步骤S44：获取第二电子元件采集的声音信号。

在步骤S42处理器激活第二电子元件后，第二电子元件即可采集电子设备周围的声音信号。电子设备中的处理器获取第二电子元件所采集到的声音信号。

请一并参阅图9，图9为图7中智能手表所发射的超声波信号在用户脸部产生反射的示意图。如图7所示，用户600将智能手表300抬起至脸部前方。如图9所示，智能手表300上的扬声器150A、麦克风150C和显示屏301同时正对着用户600脸部。智能手表300上设置在与显示屏301同一侧的扬声器150A发射的第一超声波信号901经过用户600脸部将发生反射现象，智能手表300上设置在与显示屏301同一侧的麦克风150C采集到的声音信号包括第二超声波信号902，其中，第二超声波信号902即为第一超声波信号901经过用户600脸部反射回来的超声波信号。

在一些实施例中，图2A所示的手机200的扬声器150A和麦克风150C设置在下侧边框，用户可以将手机200的下侧边框即设置有扬声器150A和麦克风150C的侧边框正对着脸部。

在用户600将手机200抬起至脸部前方时，如图10所示，用户600可以将手机200的下侧边框即设置有扬声器150A和麦克风150C的侧边框正对着脸部。同理，手机200上的扬声器150A发射的第一超声波信号901经过用户600脸部将发生反射现象，手机200上的麦克风150C采集到的声音信号包括第二超声波信号902。

可以理解，用户600可选地将手机200上设置有扬声器150A和麦克风150C的侧边框正对着脸部，由此可以保证扬声器150A所发射的第一超声波信号901较为完整地覆盖用户600脸部，麦克风150C可以更好地采集到由用户600脸部反射回来的第二超声波信号902。

可以理解，一般声音信号(即声波)通过介质传播，且声波在介质传播过程中会造成能量(通过声音信号的音强体现)消耗。并且，随着声音信号的传输时间或传输距离的增加，能量的消耗也会增加。另外，声波具有反射特性，即当声波在传播过程中，从一种介质入射到另一种不同介质时，声波在两种介质的分界面处将发生反射现象，即入射声波的一部分能量将会返回前一介质中。如图9所示，智能手表300的扬声器150A发射的第一超声波信号901在智能手表300周围传播，在遇到反射物(脸部)时，会反射回来一部分超声波信号(如第二超声波信号902)。

在一些实施例中，由于扬声器150A和麦克风150C均设置在智能手表300上，扬声器150A和麦克风150C物理距离较小，因此，在扬声器150A播放的第一超声波信号901传播到麦克风150C处的能量消耗少，麦克风150C仍可以采集到扬声器150A播放的第一超声波信号901。

当智能手表300周围存在反射物时，麦克风150C可以收集到第一超声波信号901经过反射物(脸部)后，由反射物所反射回来的第二超声波信号902。

综上可知，麦克风150C收集到的声音信号可以包括第一超声波信号901以及第二超声波信号902所叠加起来的超声波信号。

可以理解的是，由于麦克风150C为通用的音频采集组件，智能手表300或手机200通过麦克风150C采集的声音信号中除了包括上述超声波信号之外，还将包括除超声波信号之外的环境音(如人声、电视背景噪声等)。

步骤S45：对声音信号进行处理，得到第二超声波信号。

为了筛选出由用户脸部反射回来的第二超声波信号，电子设备中的处理器需要对第二电子元件所采集到的声音信号进行处理，以得到第二超声波信号。

在一种可能实现方式中，处理器对声音信号进行处理包括在频域和时域上进行有效片段的截断处理。

在频域上，通过频域滤波方法监听第一频段的超声波信号，第一超声波信号的频段为17kHz～22kHz，第一频段与第一超声波信号频段17kHz～22kHz相同或相近，以排除人声、电视背景噪声等。

在一种可能实现方式中，若用户与电子设备之间没有相对运动，第一频段不考虑多普勒效应，第一频段为17kHz～22kHz。处理器从声音信号中筛选出频段为17kHz～22kHz的超声波信号。

在一种可能实现方式中，若用户与电子设备之间有相对运动，第一频段可以考虑多普勒效应(Doppler effect)，多普勒效应公式如下：

其中f`表示第二超声波信号的频率，f表示第一超声波信号的频率，V表示超声波在空气中的传播速度，V0是手机与人体之间的相对运动速度。其中，V0可以通过内置在智能手表300内的加速度传感器160B获取。

考虑多普勒效应的第一频段为至/>处理器从声音信号中筛选出频段为/>至/>的超声波信号。

在时域上，处理器从上述第一频段的超声波信号中截取出满足如下截取条件的超声波信号作为第二超声波信号，其中截取条件包括超声波信号的时间间隔小于或等于第一时间间隔，也即扬声器150A发射第一超声波信号的时刻至麦克风150C接收到第二超声波信号的时刻之间的时间间隔小于或等于第一时间间隔。其中，第一时间间隔例如可以为2ms、3ms或4ms等，本申请实施例对此不作具体限定。

示例性地，扬声器150A在T1时刻发射幅值为A，相位为0，频率为17kHz的第一超声波信号，麦克风150C在T2时刻接收到幅值为A，相位为0，频率为17.1kHz的超声波信号B，若T2时刻至T1时刻之间的时间间隔小于或等于第一时间间隔，则超声波信号B的时间间隔满足截取条件。其中，第一超声波信号频率与所接收到的第二超声波信号频率的偏差范围可以小于100Hz，或小于200Hz，本申请实施例对此不作具体限定。

若设置第一时间间隔为2ms，则第一超声波信号由第一电子元件出发，经过反射物反射后返回至第二电子元件，所经过的路程为2ms*330m/s＝66cm，也即可以等同限定反射超声波信号的反射物与电子设备的距离小于或等于66cm/2＝33cm。

可以理解，若上述为保证较低的误触发率设置第二距离阈值，则可以根据第二距离阈值设置第一时间间隔。例如，若设置第二距离阈值为20cm，反射物与电子设备的距离小于或等于第二距离阈值，则可以设置第一时间间隔为1ms，以限定距离小于20cm。

在一些实施例中，截取条件还包括：超声波信号的最小幅值强度a_i与第一超声波信号的幅值强度A的比值a_i/A大于第一幅值阈值，也即第二超声波信号的最小幅值强度a_i与第一超声波信号的幅值强度A的比值a_i/A大于第一幅值阈值，其中，第一幅值阈值可以为40％或50％，本申请实施例对此不作具体限定。

在一些实施例中，截取条件还包括：超声波信号的平均幅值强度大于第二幅值阈值，也即第二超声波信号的平均幅值强度大于第二幅值阈值，其中第二幅值阈值可以为60％或50％，本申请实施例对此不作具体限定。

可以理解，第一超声波信号传播过程中遇到用户脸部反射产生第二超声波信号，第二超声波信号携带着用户脸部的特征信息，第二超声波信号的强度反映反射面(用户脸部)的大小，第二超声波信号相对第一超声波信号的时间延时可以反映反射面与电子设备(声源)之间的距离。

具体地，处理器可以从第一频段的超声波信号中截取同时满足上述截取条件的超声波信号作为第二超声波信号，也即第二超声波信号的时间间隔小于或等于第一时间间隔，且其最小幅值强度a_i与第一超声波信号的幅值强度A的比值a_i/A大于第一幅值阈值，且其平均幅值强度大于第二幅值阈值。

步骤S46：对第二超声波信号进行特征提取，输出特征参数。

以第一超声波信号表示为A·sin(2π·F+B)，第二超声波信号表示为a_i·sin(2π·f_i+b_i)。其中，A为第一超声波信号的幅值，F为第一超声波信号的频率，B为第一超声波信号的相位。a_i为第二超声波信号的幅值，f_i为第二超声波信号的频率，b_i为第二超声波信号的相位，i＝1，2，3，…，N，N为步骤S45所获得的第二超声波信号的个数。

对第二超声波信号进行特征提取，提取出第二超声波信号的幅值、相位、加权距离以及离散度，将提取出的第二超声波信号的幅值、相位、加权距离以及离散度作为第二超声波信号的特征参数。

在一些实施例中，计算第一超声波信号与第二超声波信号之间的幅值衰减以及相位偏移，将计算得到的幅值衰减、相位偏移作为第二超声波信号的特征参数。

处理器基于a_i·sin(2π·f_i+b_i)计算第二超声波信号的幅值、相位。处理器基于第一超声波信号A·sin(2π·F+B)以及第二超声波信号a_i·sin(2π·f_i+b_i)计算第一超声波信号与第二超声波信号之间的幅值衰减、相位偏移。处理器将第二超声波信号的幅值、相位以及第一超声波信号与第二超声波信号之间的幅值衰减、相位偏移作为第二超声波信号的直接特征。

处理器根据第二超声波信号的主要频谱分布，计算主要频谱信号的时间延时，根据所计算出的时间延时以及超声波在空气中的传播速度，进而计算出第二超声波信号的传播距离。

示例性地，请一并参阅图11，如图9或图10所示，第一超声波信号901经过用户600脸部反射，麦克风150B可以接收到由用户600脸部反射回来的第二超声波信号902a、902b和902c，处理器110记录麦克风150B接收第二超声波信号902a、902b和902c的时刻，并与发射第一超声波信号901时刻作对比，即计算出时间延时△t1，△t2，△t3，利用超声波在空气中的传播速度，进而计算第二超声波的传播距离。

超声波在空气中的传播速度公式如下：

V＝331.6+0.6T(m/s) (2)

其中T表示空气温度，V表示超声波在空气中的传播速度。

传播距离：

d＝Δt/2*V (3)

其中，d表示传播距离，△t为时间延时，V表示超声波在空气中的传播速度。

由上述传播距离公式可以计算得到第二超声波信号902a的传播距离d1，第二超声波信号902b的传播距离d2，第二超声波信号902c的传播距离d3。其中，传播距离即反射物上反射该第二超声波信号的位置至电子设备之间的距离。如传播距离d1代表用户脸部上反射第二超声波信号902a的位置至电子设备之间的距离为d1。根据所计算出的各个传播距离得到第二超声波信号的距离分布(d1，d2，d3)。

可以理解，图11中第一超声波信号901、第二超声波信号902a、902b和902c的数量以及距离仅是示例。

第一超声波信号传播至反射物(用户脸部)后，反射物对第一超声波信号进行了不同程度的反射、散射与衰减，因此计算用户脸部距离电子设备或第二电子元件之间的加权距离。

加权距离计算公式如下：

其中，D为加权距离，d_i为传播距离，N为第二超声波信号的个数，a_i为第二超声波信号幅值，A为第一超声波信号幅值，i＝1，2，3，…，N。

在一些实施例中，利用如下约束条件进行有效距离截取，若满足约束条件则继续执行流程，反之结束流程。约束条件为:所获得的第二超声波信号中的最小传播距离是否小于第三距离阈值，加权距离是否小于第四距离阈值，其中第三距离阈值可以为10cm或15cm等，第三距离阈值小于第二距离阈值，第四距离阈值可以为50cm或60cm等。

示例性地，如图11所示，步骤S45所获得的第二超声波信号包括902a、902b和902c，其中最小传播距离为d1。判断最小传播距离d1是否小于第三距离阈值，判断第二超声波信号902a、902b和902c的加权距离是否都小于第四距离阈值。若最小传播距离d1小于第三距离阈值，且若所获得的第二超声波信号的加权距离都小于第四距离阈值，则继续计算反射面的方差，反之结束流程。

计算整个反射面的方差(即离散度)，将该离散度作为用户脸部的整体面部特征。

离散度计算公式如下：

其中，S为离散度，D为加权距离，d_i为传播距离，N为第二超声波信号的个数，a_i为第二超声波信号幅值，A为第一超声波信号幅值，i＝1，2，3，…，N。

处理器110对第二超声波信号进行特征提取后输出特征参数，特征参数包括第二超声波信号的幅值、相位、距离分布、加权距离、离散度以及第一超声波信号与第二超声波信号之间的幅值衰减和相位偏移。

步骤S47：将特征参数输入至预设模型进行匹配。

在本申请实施例中，预设模型为预先根据训练数据(如超声波信号的特征参数)进行训练得到的模型，预设模型包括预设距离模板、预设脸部轮廓模板、预设口型模板等。预设模型可以为机器学习或深度学习模型。

在本申请实施例中，处理器基于步骤S46提取出的特征参数构造特征向量，特征向量包括第二超声波信号的幅值、相位、距离分布、加权距离、离散度以及第一超声波信号与第二超声波信号之间的幅值衰减和相位偏移。处理器将特征向量输入至预设模型，以与预设距离模板、预设脸部轮廓模板、预设口型模板等进行匹配。

在本申请实施例中，基于步骤S46所提取出的具有对应物理意义的特征向量为数值，如可以为一组数字(序列)，又例如多维空间数字a(x11,x12,…,x1n)。其中预设距离模板、预设脸部轮廓模板、预设口型模板等是一些预先存储的参数序列，可以将特征向量与预设模板进行相似度判断，若特征向量与预设模板之间的相似度值大于或等于预设阈值则匹配成功，反之匹配失败。

在本申请实施例中，可以根据群体用户的训练数据集训练预设模型，其中群体用户泛指多个用户。具体地，在合适距离内分别向多个不同用户的脸部发射第一超声波信号，第一超声波信号在用户脸部发生反射，获取由该多个不同用户脸部反射回来的第三超声波信号，将获得的第三超声波信号作为群体用户的训练数据集。该合适距离可以参考上述第二距离阈值或上述由第一时间间隔确定的反射物与电子设备之间的距离33cm。处理器可以参考上述步骤S46对所获得的第三超声信号进行处理，以用于训练预设模型得到群体用户的距离模板、群体用户的脸部轮廓模板、群体用户的口型模板等，训练完成后的预设模板可以对人体脸部轮廓、人体口型、以及电子设备与人体脸部之间的距离等进行匹配，以此可以实现基于人体脸部反射超声波信号来启动语音助手。

在一些实施例中，上述预设模型可以学习个体用户的训练数据集，以适配个体用户。也即上述预设模型与特定个体用户进行关联，训练完成后的预设模型可以仅匹配该特定个体用户的脸部轮廓、口型等，以此实现个性化启动语音助手。

具体地，若用户想使用超声启动模式，则电子设备可以提示用户进行注册。用户可以向电子设备输入注册指令，如在电子设备提示进行注册的界面上包括“确认注册”选项，用户点击“确认注册”选项，则电子设备接收用户输入的注册指令，电子设备响应该注册指令，电子设备可以提示用户将电子设备上麦克风和扬声器正对用户脸部，并提示用户将麦克风和扬声器放置于合适位置，以使得将麦克风和扬声器与用户脸部之间的距离在合适距离内。电子设备启动麦克风和扬声器，扬声器发射第一超声波信号至用户脸部，麦克风接收由用户脸部反射回来的第四超声波信号。处理器获取该第四超声信号并可以参考上述步骤S46对第四超声波信号进行处理，以用于训练预设模型得到用户的距离模板、用户的脸部轮廓模板、用户的口型模板等。训练完成后的预设模型包括用户在注册过程中所产生的距离模板、用户的脸部轮廓模板、用户的口型模板。训练完成后的预设模型可以仅在匹配到注册用户才启动语音助手，若不是注册的用户，则不启动语音助手。也即，训练完成后的预设模型可以识别注册用户是否有与语音助手交互的意图，而无法识别非注册用户是否有与语音助手交互的意图。

步骤S48：在匹配成功时启动语音助手。

在本申请实施例中，若匹配成功，则认为用户有与语音助手交互的意图，电子设备启动语音助手。若匹配失败，则认为用户没有与语音助手交互的意图，电子设备不启动语音助手。

在电子设备启动语音助手前，语音助手未处于工作状态。也即在电子设备启动语音助手时，后台没有语音助手应用程序的进程，或者，在电子设备启动语音助手时，后台已经有语音助手应用程序的进程，本申请实施例对此不作具体限定。

电子设备可以参考现有技术中电子设备启动应用程序的技术手段启动语音助手，例如电子设备可以通过VUI(voice user interface，声音用户界面)管理器启动语音助手，本申请实施例对此不作具体限定。

请一并参阅图12，用户向语音助手输入语音指令“今天是星期几”，语音助手响应该语音指令输出“今天是星期三”。请一并参阅图13，语音助手向用户输出“今天星期三”。

可以理解，本申请实施例提供的启动语音助手方法，不限于因电子设备处于嘈杂环境而无法语音唤醒的场景。

图14为本申请实施例提供的另一种电子设备结构示意图。如图14所示，电子设备14可以包括处理器141(也即图1中的处理器110)、存储器142及通信总线143。存储器142用于存储一个或多个计算机程序144。一个或多个计算机程序144被配置为被该处理器141执行。该一个或多个计算机程序144包括指令，上述指令可以用于实现在电子设备14中执行如图4所述的启动语音助手的方法。

可以理解的是，本实施例示意的结构并不构成对电子设备14的具体限定。在另一些实施例中，电子设备14可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。本申请实施例提供一种计算机可读存储介质，计算机可读存储介质包含用于执行上述任一项的方法的计算机可执行指令。

本申请实施例提供一种电子设备，包括：至少一个存储器，用于存储程序；和至少一个处理器，用于执行存储器存储的程序，当程序被处理器执行时，以使得电子设备执行如上任一的方法。

虽然已经示出并描述了本发明构思的一些示例实施例，但是本领域普通技术人员之一将理解，在不脱离由所附权利要求限定的精神和范围的情况下，可对其作出各种形式和细节上的修改。因此，以上公开的主题内容应该理解为示出性而非限制性的，并且所附权利要求旨在覆盖落入本发明构思的实质精神和范围内的所有这种修改、改进和其它实施例。因此，在法律允许的最大程度内，通过对所附权利要求及其等同物的允许的最宽解释确定本发明构思的范围，并且所述范围不应由以上具体实施方式限制或局限。

上述各个附图对应的流程的描述各有侧重，某个流程中没有详述的部分，可以参见其他流程的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。实现车牌号码识别的计算机程序产品包括一个或多个进行车牌号码识别的计算机指令，在计算机上加载和执行这些计算机程序指令时，全部或部分地产生按照本申请实施例图4的流程或功能。

所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(digital subscriber line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(digital versatile disc，DVD))、或者半导体介质(例如：固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种启动语音助手方法，应用于电子设备，所述电子设备包括语音助手、第一电子元件和第二电子元件，其特征在于，所述方法包括：

检测作用于所述电子设备的第一操作；

响应于所述第一操作，激活所述第一电子元件和所述第二电子元件；

控制所述第一电子元件发射第一超声波信号；

获取所述第二电子元件所采集的第二超声波信号；

在所述第二超声波信号满足预设条件时，启动所述语音助手。

2.根据权利要求1所述的启动语音助手方法，其特征在于，所述电子设备还包括运动传感器；则所述检测作用于所述电子设备的第一操作包括：

在所述电子设备基于对其执行的操作而处于运动状态时，获取所述运动传感器所采集的所述电子设备的数据；

判断所述数据是否满足触发条件，所述触发条件包括所述电子设备的垂直移动距离大于第一距离阈值、合成加速度的绝对值大于第一加速度阈值以及运动时长小于第一时间阈值；

若满足，则所述操作为所述第一操作；

若未满足，则所述操作不是所述第一操作。

3.根据权利要求2所述的启动语音助手方法，其特征在于，所述电子设备还包括距离检测传感器，所述距离检测传感器用于采集所述电子设备与人体之间的距离，

则所述检测作用于所述电子设备的第一操作包括：

在所述电子设备基于对其执行的操作而处于运动状态时，获取所述距离检测传感器所采集的所述电子设备与所述人体之间的距离；

判断所述距离是否小于或等于第二距离阈值；

若小于或等于，则所述操作为所述第一操作；

若大于，则所述操作不是所述第一操作。

4.根据权利要求1至3任一项所述的启动语音助手方法，其特征在于，所述方法还包括：

在激活所述第一电子元件和所述第二电子元件时，显示提示界面，其中所述提示界面用于提示所述第一电子元件和所述第二电子元件处于工作状态。

5.根据权利要求4所述的启动语音助手方法，其特征在于，所述方法还包括：

在显示所述提示界面时，检测停止指令；

若在预设时间段内检测到所述停止指令，则关闭所述第一电子元件和所述第二电子元件；

若在所述预设时间段内未检测到所述停止指令，则保持所述第一电子元件和所述第二电子元件处于所述工作状态。

6.根据权利要求5所述的启动语音助手方法，其特征在于，所述方法还包括：

保存所述预设时间段内所述第二电子元件所采集的声音信号；

在所述语音助手启动后，将所述声音信号传输给所述语音助手进行语音识别。

7.根据权利要求1至6任一项所述的启动语音助手方法，其特征在于，在获取所述第二超声波信号后，所述方法还包括：

获取所述第二超声波信号的传播距离，其中所述传播距离为人体脸部上反射所述第二超声波信号的位置至所述电子设备之间的距离；

根据所述传播距离得到距离分布；

将所述传播距离与所述距离分布作为处理结果。

8.根据权利要求7所述的启动语音助手方法，其特征在于，所述处理结果还包括加权距离，则在获取所述第二超声波信号后，所述方法还包括：

根据所述传播距离和加权距离公式得到所述加权距离，其中所述加权距离公式为：

其中，D为加权距离，d_i为传播距离，N为所述第二超声波信号的个数，a_i为所述第二超声波信号幅值，A为所述第一超声波信号幅值，i＝1，2，3，…，N。

9.根据权利要求8所述的启动语音助手方法，其特征在于，所述处理结果还包括离散度，则在获取所述第二超声波信号后，所述方法还包括：

根据所述加权距离和离散度公式得到所述离散度，其中，所述离散度公式为：

其中，S为离散度，D为加权距离，d_i为传播距离，N为所述第二超声波信号的个数，a_i为所述第二超声波信号幅值，A为所述第一超声波信号幅值，i＝1，2，3，…，N。

10.根据权利要求7至9任一项所述的启动语音助手方法，其特征在于，所述处理结果还包幅值、相位、幅值衰减和相位偏移，则在获取所述第二超声波信号后，所述方法还包括：

对所述第二超声波信号进行特征提取，提取出所述第二超声波信号的所述幅值和所述相位；

计算所述第一超声波信号和所述第二超声波信号之间的所述幅值衰减和所述相位偏移。

11.根据权利要求7至10任一项所述的启动语音助手方法，其特征在于，所述电子设备还包括预设模型，所述预设模型包括预设模板，所述预设模板包括预先存储的参数序列；

则所述在所述第二超声波信号满足预设条件时，启动所述语音助手包括：

将所述处理结果与所述参数序列进行匹配；

若匹配，则启动所述语音助手。

12.一种计算机可读存储介质，所述计算机可读存储介质包含用于执行根据权利要求1至11中任一项所述的方法的计算机可执行指令。

13.一种电子设备，其特征在于，包括：

至少一个存储器，用于存储程序；和

至少一个处理器，用于执行所述存储器存储的程序，当所述程序被所述处理器执行时，以使得所述电子设备执行如权利要求1-11任一所述的方法。