CN111131601B

CN111131601B - 一种音频控制方法、电子设备、芯片及计算机存储介质

Info

Publication number: CN111131601B
Application number: CN201811291610.6A
Authority: CN
Inventors: 甘元莉; 张龙; 李侃; 揭锦锦; 孙丹青
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2021-08-27
Anticipated expiration: 2038-10-31
Also published as: EP3855716A1; EP3855716B1; US20210397686A1; EP3855716A4; WO2020088483A1; CN111131601A

Abstract

一种音频控制方法及电子设备，涉及终端技术领域，该方法包括电子设备未解锁时，接收第一音频信号；其中，第一音频信号包括用户的第一语音信号，第一语音信号包括请求电子设备执行第一操作的关键词。电子设备对第一音频信号进行声纹识别，确定第一音频信号的得分。当第一音频信号的得分大于或者等于第一阈值时，解锁电子设备并执行第一操作。当第一音频信号的得分小于第一阈值、且大于第二阈值时，提示用户使用语音以外的方式进行安全认证；电子设备通过用户的安全认证后，解锁电子设备并执行第一操作。这种技术方案有助于减少用户使用电子设备时的操作步骤，从而在一定程度上提升用户体验。

Description

一种音频控制方法、电子设备、芯片及计算机存储介质

技术领域

本申请涉及终端技术领域，特别涉及一种音频控制方法及电子设备。

背景技术

目前，电子设备(如手机、平板电脑等)屏幕锁定时，用户若需要对电子设备进行操作，需要先对电子设备解锁，进入主界面，然后再进行相应的操作。

例如，当用户需要进行手机支付时，以微信支付为例。当手机屏幕锁定或黑屏时，用户需要先对手机解锁，进入主界面。然后，从主界面中查找到微信图标，通过点击微信图标，使得手机显示微信的用户界面。用户还需要再对微信的用户界面上的相应的虚拟按钮进行操作，来使得手机显示微信收付款的二维码界面，从而使得用户可以向商家进行支付。

通过以上描述可知，上述传统方式中，用户使用手机的某个功能例如微信支付时，需要两步甚至更多步骤的操作，较为繁琐，用户体验差。

发明内容

本申请提供了一种音频控制方法及电子设备，有助于减少用户使用电子设备时的操作步骤，从而在一定程度上提升用户体验。

第一方面，本申请实施例的一种音频控制方法，所述方法包括：

电子设备未解锁时，接收第一音频信号；其中，所述第一音频信号包括用户的第一语音信号，所述第一语音信号包括请求所述电子设备执行第一操作的关键词。所述电子设备对所述第一音频信号进行声纹识别，确定所述第一音频信号的得分。当所述第一音频信号的得分大于或者等于第一阈值时，解锁所述电子设备并执行所述第一操作。当所述第一音频信号的得分小于第一阈值、且大于第二阈值时，提示所述用户使用语音以外的方式进行安全认证；所述电子设备通过所述用户的安全认证后，解锁所述电子设备并执行所述第一操作。

本申请实施例中由于用户可以通过音频控制电子设备进行操作，从而有助于减少用户使用电子设备时的操作步骤，而且由于电子设备基于声纹识别得到的音频信号的得分情况的不同，能够分层实现不同的操作，有助于降低电子设备在音频控制时错误判断导致拒绝用户请求的可能性，提高音频控制电子设备的实现，从而增加用户对音频控制电子设备功能的信任感，而且电子设备当音频信号的得分稍微有些低时，通过安全认证，还有助于提高音频控制的安全性，从而提升用户体验。

在一种可能的设计中，所述电子设备可以通过以下方式提示用户使用语音以外的方式进行安全认证：

所述电子设备显示所述电子设备的锁屏界面，所述锁屏界面用于提示所述用户使用语音以外的方式进行安全认证。通过上述方式，有助于简化实现提示用户使用语音以外的方式进行安全认证的复杂性。

在一种可能的设计中，所述电子设备当所述第一音频信号的得分小于或者等于所述第二阈值时，不执行解锁所述电子设备、且不执行所述第一操作。从而有助于提高安全性。

在一种可能的设计中，所述电子设备当所述第一音频信号的得分小于或者等于所述第二阈值时，发出第一语音提示信息，所述第一语音提示信息用于提示用户所述第一音频信号识别失败；和/或，在锁屏界面上显示第一提示信息，所述第一提示信息用于提示用户所述第一音频信号识别失败。通过上述技术方案，使得用户可以获知电子设备不执行解锁电子设备和不执行第一操作的原因，从而有助于提高电子设备与用户之间的交互，在一定程度上进一步提高用户体验。

在一种可能的设计中，所述电子设备可以通过下述方式对所述第一音频信号进行声纹识别，确定所述第一音频信号的得分：

所述电子设备从预先配置的至少一个用户关键词声纹模型中，确定与所述第一音频信号包括的关键词对应的用户关键词声纹模型；以及提取所述第一音频信号的声纹特征，并匹配提取的所述声纹特征与确定的与所述第一音频信号的关键词对应的用户关键词声纹模型，确定所述第一音频信号的得分。通过上述技术方案，有助于提高电子设备确定的第一音频信号的得分的可靠性。

在一种可能的设计中，所述电子设备可以通过下列方式预先配置用户关键词声纹模型：

所述电子设备接收用户的第二音频信号，所述第二音频信号包括第二语音信号，所述第二语音信号是所述用户根据所述电子设备提示的关键词所发出的。所述电子设备当识别出所述第二音频信号包括的关键词与所述电子设备提示的关键词一致时，提取所述第二音频信号的声纹特征；并根据所述第二音频信号的声纹特征和预先存储的背景模型，配置所述电子设备提示的关键词对应的用户关键词声纹模型。有助于使得电子设备配置的用户关键词模型能够表征用户发出关键词的声音时的特征。需要说明的是，本申请实施例中所述电子设备当配置用户关键词模型时，电子设备可以针对同一关键词提示用户录入多次发出关键词的声音的语音信号，从而有助于提高预先配置的用户关键词模型的可靠性。

在一种可能的设计中，所述电子设备当识别出所述第二音频信号包括的关键词与所述电子设备提示的关键词不一致时，提示用户关键词有误。从而有助于用户与电子设备的交互，提升用户体验。

在一种可能的设计中，所述第一音频信号的声纹特征包括梅尔倒谱系数MFCC、感知线性预测PLP、线性预测编码LPC中的至少一个。

在一种可能的设计中，所述电子设备接收到与所述电子设备连接的耳机采集的所述第一音频信号。通过上述技术方案，使得第一音频信号受到环境噪声的影响较小，有助于电子设备能够识别出第一音频信号，实现对电子设备的控制。

在一种可能的设计中，所述耳机为骨传导耳机时，所述第一音频信号还包括骨导信号，所述骨导信号为用户发出声音时耳骨振动产生的声音。从而有助于提高安全性认证。

第二方面，本申请实施例中的一种电子设备，所述电子设备包括一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述处理器执行时，使得所述电子设备执行以下步骤：

未解锁时，接收第一音频信号；其中，所述第一音频信号包括用户的第一语音信号，所述第一语音信号包括请求所述电子设备执行第一操作的关键词；对所述第一音频信号进行声纹识别，确定所述第一音频信号的得分；当所述第一音频信号的得分大于或者等于第一阈值时，解锁所述电子设备并执行所述第一操作；当所述第一音频信号的得分小于第一阈值、且大于第二阈值时，提示所述用户使用语音以外的方式进行安全认证；通过所述用户的安全认证后，解锁所述电子设备并执行所述第一操作。

在一种可能的设计中，可以通过下述方式提示所述用户使用语音以外的方式进行安全认证：

显示所述电子设备的锁屏界面，所述锁屏界面用于提示所述用户使用语音以外的方式进行安全认证。

在一种可能的设计中，所述指令还包括用于当所述第一音频信号的得分小于或者等于所述第二阈值时，不执行解锁所述电子设备、且不执行所述第一操作的指令。

在一种可能的设计中，所述指令还包括用于当所述第一音频信号的得分小于或者等于所述第二阈值时发出第一语音提示信息的指令，所述第一语音提示信息用于提示用户所述第一音频信号识别失败；和/或，用于当所述第一音频信号的得分小于或者等于所述第二阈值时在锁屏界面上显示第一提示信息的指令，所述第一提示信息用于提示用户所述第一音频信号识别失败。

在一种可能的设计中，可以通过下述方式对所述第一音频信号进行声纹识别，确定所述第一音频信号的得分：

从预先配置的至少一个用户关键词声纹模型中，确定与所述第一音频信号包括的关键词对应的用户关键词声纹模型；以及提取所述第一音频信号的声纹特征，并匹配提取的所述声纹特征与确定的与所述第一音频信号的关键词对应的用户关键词声纹模型，确定所述第一音频信号的得分。

在一种可能的设计中，所述指令还包括：用于接收用户的第二音频信号的指令，所述第二音频信号包括第二语音信号，所述第二语音信号是所述用户根据所述电子设备提示的关键词所发出的；用于当识别出所述第二音频信号包括的关键词与所述电子设备提示的关键词一致时，提取所述第二音频信号的声纹特征的指令；用于根据所述第二音频信号的声纹特征和预先存储的背景模型，配置所述电子设备提示的关键词对应的用户关键词声纹模型的指令。

在一种可能的设计中，所述指令还包括：用于当识别出所述第二音频信号包括的关键词与所述电子设备提示的关键词不一致时，提示用户关键词有误的指令。

在一种可能的设计中，所述第一音频信号是与所述电子设备连接的耳机采集到上报给所述电子设备的。

在一种可能的设计中，所述耳机为骨传导耳机时，所述第一音频信号还包括骨导信号，所述骨导信号为用户发出声音时耳骨振动产生的声音。

第三方面，本申请实施例提供的一种芯片，所述芯片与电子设备中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的计算机程序，实现本申请实施例第一方面以及第一方面提供的任一可能设计的方法。

第四方面，本申请实施例的一种计算机存储介质，该计算机存储介质中存储有计算机程序，当所述计算机程序在电子设备上运行时，使得电子设备执行第一方面以及第一方面任意一种可能的设计的方法。

第五方面，本申请实施例的一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行第一方面以及第一方面任意一种可能的设计的方法。

另外，第二方面至第五方面中任一种可能设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果，此处不再赘述。

附图说明

图1为本申请实施例的一种电子设备的硬件结构示意图；

图2为本申请实施例的一种应用场景的示意图；

图3为本申请实施例一种用户界面的示意图；

图4为本申请实施例安全认证用户界面的示意图；

图5为本申请实施例一种已解锁用户界面的示意图；

图6a为本申请实施例另一种已解锁用户界面的示意图；

图6b为本申请实施例另一种已解锁用户界面的示意图；

图6c为本申请实施例另一种已解锁用户界面的示意图；

图6d为本申请实施例另一种已解锁用户界面的示意图；

图7为本申请实施例的另一种应用场景的示意图；

图8a为本申请实施例音频控制方法的流程示意图；

图8b为本申请实施例一种获取音频信号得分的方法的流程示意图；

图9为本申请实施例录入音频信号的场景示意图；

图10为本申请实施例一种用户界面的示意图；

图11为本申请实施例另一种用户界面的示意图；

图12为本申请实施例预先配置用户关键词声纹模型的方法流程示意图；

图13为本申请实施例另一种音频控制方法的流程示意图；

图14为本申请实施例一种电子设备的结构示意图。

具体实施方式

应理解，本申请实施例可以应用于电子设备中。例如电子设备可以是便携式电子设备，诸如手机、平板电脑、具备无线通讯功能的可穿戴设备(如智能手表)、车载设备等。便携式电子设备的示例性实施例包括但不限于搭载

或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是诸如具有触敏表面(例如触控面板)的膝上型计算机(Laptop)等。还应当理解的是，在本申请其他一些实施例中，电子设备100也可以是具有触敏表面(例如触控面板)的台式计算机。

示例的，如图1所示，为本申请实施例的一种电子设备的硬件结构示意图。具体的，电子设备100包括处理器110、内部存储器121、外部存储器接口122、天线1、移动通信模块131、天线2、无线通信模块132、音频模块140、扬声器140A、受话器140B、麦克风140C、耳机接口140D、显示屏151、用户标识模块(subscriber identification module，SIM)卡接口152、摄像头153、按键154、传感器模块160、通用串行总线(universal serial bus，USB)接口 170、充电管理模块180、电源管理模块181和电池182。在另一些实施例中，电子设备100还可以包括马达、指示器等。

其中，处理器110可以包括一个或多个处理单元。例如：处理器110可以包括应用处理器(application processor，AP)、调制解调处理器、图形处理器(graphics processingunit，GPU)、图像信号处理器(image signal processor，ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor，DSP)、基带处理器、和/或神经网络处理器(neural-network processing unit， NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

在一些实施例中，处理器110中还可以设置存储器，用于存储指令和数据。示例的，处理器110中的存储器可以为高速缓冲存储器。该存储器可以用于保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从该存储器中直接调用。从而有助于避免重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

内部存储器121可以用于存储计算机可执行程序代码。所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据、电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、通用闪存存储器(universal flash storage，UFS)等。

外部存储器接口122可以用于连接外部存储卡(例如，Micro SD卡)，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口122与处理器110通信，实现数据存储功能。例如将音乐、视频等文件保存在外部存储卡中。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块131可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块131可以包括至少一个滤波器、开关、功率放大器、低噪声放大器(low noise amplifier，LNA)等。移动通信模块131可以由天线1接收电磁波信号，并对接收的电磁波信号进行滤波、放大等处理，传送至调制解调处理器进行解调。移动通信模块131还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波信号辐射出去。在一些实施例中，移动通信模块131的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块131的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器140A、受话器140B等)输出声音信号，或通过显示屏151显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块131或其他功能模块设置在同一个器件中。

无线通信模块132可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如Wi-Fi网络)、蓝牙(bluetooth，BT)、全球导航卫星系统(global navigation satellite system，GNSS)、调频(frequency modulation，FM)、近距离无线通信技术(near field communication，NFC)、红外技术(infrared，IR)等无线通信的解决方案。无线通信模块132可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块132经由天线2接收电磁波信号，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块132还可以从处理器110接收待发送的信号，对其进行调频、放大，经天线2转为电磁波信号辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块131耦合，天线2和无线通信模块132耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)、通用分组无线服务(general packet radio service，GPRS)、码分多址接入(codedivision multiple access，CDMA)、宽带码分多址(wideband code division multipleaccess，WCDMA)、时分码分多址(time-division code division multiple access，TD-SCDMA)、长期演进(long term evolution， LTE)、BT、GNSS、WLAN、NFC、FM、和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)、全球导航卫星系统(global navigation satellite system， GLONASS)、北斗卫星导航系统(beidounavigation satellite system，BDS)、准天顶卫星系统 (quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems， SBAS)。

电子设备100可以通过音频模块140、扬声器140A、受话器140B、麦克风140C、耳机接口140D以及应用处理器等实现音频功能。例如音乐播放、录音等。

音频模块140可以用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块140还可以用于对音频信号编码和解码。在一些实施例中，音频模块140可以设置于处理器110中，或将音频模块140的部分功能模块设置于处理器110 中。

扬声器140A，也称“喇叭”，用于将音频电信号转换为声音，并播放。例如，电子设备100 可以通过扬声器140A播放音乐。再例如，当电子设备100开启免提通话时，可以通过扬声器140A播放移动通信模块131或无线通信模块132接收到的用户的声音。

受话器140B，也称“听筒”，用于将音频电信号转换成声音。例如，用户可以通过将受话器140B靠近人耳来接听声音。

麦克风140C，也称“话筒”，“传声器”，用于将采集的用户的声音转换为电信号。当拨打电话或发送语音时，用户可以通过人嘴靠近麦克风140C发声，麦克风140C可以用于采集用户的声音，然后，将用户的声音转换为电信号。电子设备100可以设置至少一个麦克风140C。在另一些实施例中，电子设备100可以设置两个麦克风140C，除了采集用户的声音，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个、四个或更多麦克风140C，实现声音的采集、降噪、还可以识别声音来源，实现定向录音功能等。

耳机接口140D用于连接有线耳机。耳机接口140D可以是USB接口130，也可以是3.5mm 的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口、美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口等。此外，电子设备100还可以通过蓝牙等无线方式与耳机连接。需要说明的是，本申请实施例中与电子设备100连接的耳机可以为骨传导耳机，可以为其它类型的耳机，例如，其它类型的耳机可以包括不同于骨传导传感器的其它振动感知传感器(如光传感器或者加速传感器等)。其中，骨传导耳机除了可以通过麦克风采集用户的声音以外，还可以通过骨传导传感器采集骨导信号。骨导信号为用户在发出声音时，人耳的耳骨振动产生的声音。电子设备100可以基于骨导信号确定耳机通过麦克风采集的声音为活体(例如人)所发出的声音。电子设备100 通过骨导信号使得电子设备100确认采集到的用户的声音为用户本人发出的声音，而非用户发出声音的录音，有助于防止其它别有目的的人利用用户的声音的录音对电子设备100操作，降低电子设备100误操作的可能性。

电子设备100可以通过GPU、显示屏151、以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏151和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏151可以用于显示图像、视频等。显示屏151可以包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode， OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)、柔性发光二极管(flex light-emitting diode，FLED)、Miniled、 MicroLed、Micro-oLed、量子点发光二极管(quantumdot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏151，N为大于1的正整数。

电子设备可以通过ISP、摄像头153、视频编解码器、GPU、显示屏151以及应用处理器等实现拍摄功能。

摄像头153可以用于采集静态图像或视频。通常情况下，摄像头153包括镜头和图像传感器。其中，摄像头153将镜头采集的光学图像投射到图像传感器上成像。图像传感器可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。图像传感器把光学图像转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP 将数字图像信号转换成标准的RGB、YUV等格式的图像信号。在一些实施例中，电子设备 100可以包括1个或N个摄像头153，N为大于1的正整数。

ISP还可以对图像的噪点、亮度、肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。在一些实施例中，ISP可以设置在摄像头153中。

按键154可以包括开机键、音量键等。按键154可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

传感器模块160可以包括一个或多个传感器。例如，触摸传感器160A、指纹传感器160B、陀螺仪传感器160C、压力传感器160D、加速度传感器160E等。

触摸传感器160A，也可称为“触控面板”。触摸传感器160A可以设置于显示屏151，由触摸传感器160A与显示屏151组成触摸屏，也称“触控屏”。触摸传感器160A用于检测作用于其上或附近的触摸操作。触摸传感器160A可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏151提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器160A也可以设置于电子设备100的表面，与显示屏151所处的位置不同。

指纹传感器160可以用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁、访问应用锁、指纹拍照、指纹接听来电等。

陀螺仪传感器160C可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器160C确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器160C可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器160C检测电子设备100 抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器160C还可以用于导航、体感游戏场景。

压力传感器160D用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器160D可以设置于显示屏151。压力传感器160D的种类很多，如电阻式压力传感器、电感式压力传感器、电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息图标时，执行新建短消息的指令。

加速度传感器160E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换、计步器等应用。

在一些实施例中，传感器模块160还可以包括环境光传感器、距离传感器、接近光传感器、骨传导传感器、心脉感知传感器等。示例的，骨传导传感器可以获取人体声部振动骨块的振动信号。又示例的，骨传导传感器也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨导传感器也可以设置于耳机中，结合成骨传导耳机。音频模块140可以基于骨传导传感器获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于骨传导传感器获取的血压跳动信号解析心率信息，实现心率检测功能。

在另一些实施例中，处理器110还可以包括一个或多个接口。例如，接口可以为SIM卡接口152。又例如，接口还可以为USB接口170。再例如，接口还可以为集成电路(inter-integrated circuit，I2C)接口、集成电路内置音频(inter-integrated circuit sound，I2S)接口、脉冲编码调制 (pulse code modulation，PCM)接口、通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口、移动产业处理器接口(mobile industry processor interface， MIPI)、通用输入输出(general-purposeinput/output，GPIO)接口等。可以理解的是，本申请实施例处理器110可以通过接口连接电子设备100的不同模块，从而使得电子设备100能够实现不同的功能。例如拍照、处理等。需要说明的是，本申请实施例对电子设备100中接口的连接方式不作限定。

其中，SIM卡接口152可以用于连接SIM卡。SIM卡可以通过插入SIM卡接口152，或从SIM卡接口152拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或 N个SIM卡接口，N为大于1的正整数。SIM卡接口152可以支持Nano SIM卡、Micro SIM 卡、SIM卡等。同一个SIM卡接口152可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口152也可以兼容不同类型的SIM卡。SIM卡接口152也可以兼容外部存储卡。电子设备100可以通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100还可以采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

USB接口170是符合USB标准规范的接口。例如，USB接口170可以包括Mini USB接口、Micro USB接口、USB Type C接口等。USB接口170可以用于连接充电器为电子设备 100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。USB接口170还可以用于连接其他电子设备，例如增强现实技术(augmentedreality，AR)设备等。

充电管理模块180用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块180可以通过USB接口170接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块180可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池182充电的同时，还可以通过电源管理模块181为电子设备100供电。

电源管理模块181用于连接电池182，充电管理模块180与处理器110。电源管理模块 181接收电池182和/或充电管理模块180的输入，为处理器110、内部存储器121、外部存储器、显示屏151、摄像头153、移动通信模块131和无线通信模块132等供电。电源管理模块181还可以用于监测电池容量、电池循环次数、电池健康状态(漏电、阻抗)等参数。在其他一些实施例中，电源管理模块181也可以设置于处理器110中。在另一些实施例中，电源管理模块181和充电管理模块180也可以设置于同一个器件中。

应理解，图1所示的电子设备100的硬件结构仅是一个示例。本申请实施例的电子设备可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

本申请实施例中提供了一种音频控制的方法，可以通过音频实现对电子设备的控制，与传统的操作方式相比，有助于简化用户的操作步骤，提高用户体验。下面以电子设备100为例对本申请实施例进行详细说明。

示例的，如图2中的A所示，电子设备100在黑屏时，获取到第一音频信号。其中，第一音频信号包括用户的第一语音信号，第一语音信号包括用于请求电子设备100执行第一操作的关键词。需要说明的是，本申请实施例中音频信号又可以称之为audio singal、或者sound singal，语音信号又可以称之为speech singal、或者voice singal等。以关键词为“微信支付”为例。电子设备100可以对第一音频信号进行声纹识别，确定获取到的第一音频信号的得分。示例的，第一音频信号的得分用于表征第一音频信号为预设用户发出的声音为“微信支付”的可能性，其中，当电子设备100确定的第一音频信号的得分越高，则判定第一音频信号为预设用户发出的声音为“微信支付”的可能性越高。需要说明的是，本申请实施例中可以预先在电子设备100中设置某一用户例如机主发出的声音为“微信支付”的声纹模型，或者预先在电子设备100中设置某一用户例如机主发出的声音为“微信支付”的声音等。电子设备 100当获取到的第一音频信号的得分大于或者等于第一阈值时，自动解锁电子设备100并执行“微信支付”对应的操作。需要说明的是，用户可以预先在电子设备100中设置音频信号的关键词为“微信支付”时，对应电子设备100所执行的操作。电子设备100也可以根据关键词“微信支付”，基于预先设置的算法，确定与“微信支付”对应的操作。示例的，第一音频信号的关键词为“微信支付”时，电子设备100所执行的操作可以为在显示屏151上显示微信的收付款的二维码界面。例如，微信的收付款的二维码界面可以如图2中的C所示的用户界面220。又示例的，第一音频信号的关键词为“微信支付”时，电子设备100执行的操作还可以为在显示屏151显示微信钱包的用户界面。例如，微信钱包的用户界面可以为如图3所示的用户界面300。例如，电子设备100可以响应于对收付款按钮301的操作，在显示屏151显示微信的收付款的二维码界面。此外，电子设备100还可以响应于对用户界面300上其它虚拟按钮的操作，执行相应的功能。

电子设备100当获取到的第一音频信号的得分小于第一阈值、且大于第二阈值时，不执行解锁电子设备100，但提示用户进行安全认证。示例的，电子设备100当获取到第一音频信号的得分小于第一阈值、且大于第二阈值时，则在显示屏151上显示锁屏界面。其中，锁屏界面用于提示用户进行安全认证。示例的，锁屏界面可以如图2中的B所示的用户界面210。电子设备100可以响应于用户的上滑操作，进入安全认证用户界面。例如，安全认证用户界面可以为如图4所示的用户界面400。用户界面400包括虚拟数字键盘401。用户可以通过虚拟数字键盘401输入电子设备100的锁屏密码。另外，用户也可以通过使用相应的手指触摸主屏幕按键402，进行指纹认证。在又一些实施例中，电子设备100还可以通过面部识别进行安全认证。本申请实施例对安全认证的方式不进行限定。又示例的，电子设备100当获取到的第一音频信号的得分小于第一阈值、且大于第二阈值时，则在显示屏151上显示安全认证用户界面。安全认证用户界面用于提示用户进行安全认证。例如，安全认证用户界面可以为图4所示的用户界面400。应理解，本申请实施例中还可以通过其它方式提示用户进行安全认证，对此不作限定。

在一些实施例中，电子设备100可以在安全认证通过后，自动解锁电子设备100并执行“微信支付”对应的操作。例如，第一音频信号的关键词为“微信支付”时，电子设备100所执行的操作可以为在显示屏151上显示微信的收付款的二维码界面。在另一些实施例中，电子设备100还可以在安全认证通过后，自动解锁电子设备100并在显示屏151显示已解锁界面。示例的，电子设备100当通过面部识别进行安全认证通过后，自动解锁电子设备100并在显示屏151显示已解锁界面。例如，已解锁界面可以如图5所示的用户界面500。电子设备100可以响应于用户在用户界面500上的触摸操作(例如上滑操作、向左滑动操作等)，执行“微信支付”对应的操作。例如，“微信支付”对应的操作可以为在显示屏151显示微信收付款的二维码界面。又例如，已解锁界面还可以如图6a所示的用户界面600。其中，用户界面600包括向上滑动打开微信收付款的二维码界面的提示以及向下滑动打开微信扫一扫的界面的提示。需要说明的是，用户可以在用户界面600上的任一位置向上滑动或者向下滑动，也可以沿着用户界面600显示的向上箭头向上滑动、或者沿着用户界面600显示的向下箭头向下滑动，本申请实施例对用户上下滑动操作的位置不作限定。电子设备100可以响应于用户向上滑动的操作，在显示屏151显示微信收付款的二维码界面。电子设备100响应于用户向下滑动的操作，在显示屏151显示扫一扫的界面。需要说明的是，上述实施例中仅以图6a所示的用户界面为例进行说明。示例的，本申请实施例对已解锁用户界面包括操作提示时，还可以为如图6b所示的用户界面610，在屏幕左侧向上滑动为打开微信收付款的二维码界面，屏幕右侧向上滑动为打开微信扫一扫的界面等。又示例的，本申请实施例对已解锁用户界面包括操作提示时，还可以为如图6c所示的用户界面620，向右滑动为打开微信收付款的二维码界面，向左滑动为打开微信扫一扫的界面等。又示例的，本申请实施例对已解锁用户界面包括操作提示时，还可以为如图6d所示的用户界面630，在屏幕上方向右滑动为打开微信收付款的二维码界面，在屏幕下方向右滑动为打开微信扫一扫的界面等。还需要说明的是，当已解锁界面上包括用户操作指示时，例如用户操作指示为向上滑动打开微信收付款的二维码界面的提示等，可以是用户预先在电子设备100上设置的，也可以是电子设备100在出厂之前设置好的。

电子设备100当获取到的第一音频信号的得分小于或者等于第二阈值时，则不执行自动解锁和“微信支付”对应的操作。在一些实施例中，电子设备100当获取到的第一音频信号的得分小于或者等于第二阈值时，还可以提示用户音频信号识别失败。示例的，电子设备100 可以通过语音的方式提示用户音频信号识别失败。示例的，电子设备100可以通过麦克风140C 或者与电子设备100连接的耳机的麦克风播放第一语音提示信息，其中第一语音提示信息用于提示用户音频信号识别失败。例如，第一语音提示信息可以为“再试一次”。又例如，当电子设备100是由于周围环境噪声导致的确定的第一音频信号的得分较低的情况下，第一语音提示信息还可以为“请移动到环境安静的地方，再试一次”等。此外，本申请实施例还可以当电子设备100在获取到的第一音频信号的得分小于或者等于第二阈值时，通过在锁屏界面上显示提示信息来提示用户音频信号识别失败。

另外，需要说明的是，本申请实施例中第一阈值和第二阈值可以预先设置在电子设备100 中，且第一阈值和第二阈值的取值可以根据实际需要进行相应的设定。譬如当音频信号的得分表示为预设用户发出的声音的可能性时，可以将第一阈值预先设置为0.95，第二阈值预先设置为0.85。

上述电子设备100是在黑屏时，获取到的第一音频信号，执行第一音频信号的关键词对应操作的过程。此外电子设备100还可以在显示屏151显示锁屏界面时，获取到第一音频信号。当电子设备100在显示屏151显示锁屏界面时，获取到第一音频信号，其电子设备100 后续执行第一音频信号的关键词对应操作的过程，可以参见当电子设备100在黑屏时获取到的第一音频信号后的后续执行第一音频信号的关键词对应操作的过程。

需要说明的是，第一音频信号可以为用户的声音，其中用户的声音可以为电子设备100 通过自身的麦克风140C采集到的，也可以为与电子设备100连接的耳机采集到用户的声音发送给电子设备100的。在一些实施例中，第一音频信号包括用户的声音和其它信号。示例的，当电子设备100与骨传导耳机连接时，第一音频信号包括用户的声音和骨导信号，其中骨导信号为用户发出声音时耳骨振动产生的声音。由于骨导信号为用户发出声音时耳骨振动产生的声音，可以使得电子设备100能够验证声音是人发出的。而且，由于不同人发出相同关键词的声音时，耳骨的振动的位置、或者距离等是不同的，使得骨导信号具有独特性，电子设备100通过骨导信号配合用户的声音进行声纹识别，还可以加强对用户的身份进行识别，从而有助于提高安全性。此外，电子设备100为可穿戴的手表时，其它信号还可以为脉搏跳动所产生的声音。通过其它信号和用户的声音相结合使得电子设备100不但可以识别出用户发出的指令，还可以对发出声音的用户身份进行识别，从而有助于提高音频控制电子设备100 的安全性。还需要说明的是，本申请实施例中的其它信号还可以是光信号、温度等，本申请实施例对其它信号的表现形式不作限定。

本申请实施例中，由于电子设备100能够通过获取音频信号来执行用户指令，使得用户可以在电子设备黑屏或屏幕锁定时，基于获取的音频信号来自动解锁执行相应的操作，从而有助于简化用户的操作步骤，提高用户体验。另外，本申请实施例中通过设置第一阈值和第二阈值，有助于降低电子设备100拒绝用户通过音频请求的次数，从而有助于进一步提升用户的体验。例如电子设备100在获取到的音频信号受到环境噪声或者用户自身声音变化的影响，可能导致音频信号的声纹识别时，确定的音频信号的得分稍低于第一阈值，若直接拒绝用户的请求，则有可能导致误判。因此本申请实施例中还设置了第二阈值。需要说明的是，本申请实施例中第一阈值和第二阈值可以相同，当第一阈值和第二阈值相同时，电子设备100 可以在获取的音频信号的得分大于第一阈值时，则执行音频信号的关键词对应的操作；当获取的音频信号的得分小于或等于第一阈值时，则在显示屏151显示锁屏界面。具体的，锁屏界面的具体实现方式可以参见上述相关介绍。

应理解，本申请实施例中可以针对关键词不同的音频信号分别设置不同的阈值，也可以针对关键词不同的音频信号设置相同的阈值。本申请实施例中，当针对关键词不同的音频信号预先设置不同的阈值时，电子设备100可以先识别音频信号中的关键词，然后根据关键词，查找针对该关键词设置的阈值。

示例的，如图7中的A所示，电子设备100在黑屏或者显示锁屏界面时，获取到第二音频信号。第二音频信号的关键词为“支付宝支付”。电子设备100可以对第二音频信号进行声纹识别，确定获取到的第二音频信号的得分。电子设备100当获取到的第二音频信号的得分大于或者等于第三阈值时，自动解锁并执行“支付宝支付”对应的操作。需要说明的是，用户可以预先在电子设备100中设置音频信号的关键词为“支付宝支付”时，对应电子设备100所执行的操作。电子设备100也可以根据关键词“支付宝支付”，基于预先设置的算法，确定与“支付宝支付”对应的操作。示例的，第二音频信号数据的关键词为“支付宝支付”时，电子设备100所执行的操作可以为在显示屏151上显示支付宝的收付款的二维码界面。例如，支付宝的收付款的二维码界面可以如图7中的C所示的用户界面720。电子设备100 当获取到的第二音频信号的得分小于第三阈值、且大于第四阈值时，则在显示屏151上显示锁屏界面。示例的，锁屏界面可以如图7中的B所示的用户界面710。电子设备100可以在安全认证通过后，自动解锁并执行“支付宝支付”对应的操作。除此之外，在一些实施例中，电子设备100还可以在安全认证后，解锁并显示已解锁界面。电子设备100响应于在已解锁界面上的操作(例如上滑操作、触摸操作等)，执行“支付宝支付”对应的操作。在另一些实施例中，电子设备100还可以在安全认证后，解锁并显示已解锁界面。其中已解锁界面包括与“支付宝支付”相关的操作指示，其中，已解锁界面上包括的与“支付宝支付”相关的操作指示可以预先设置，可以基于预设算法进行确定。用户可以基于自身的需要，根据与“支付宝支付”相关的操作指示，对电子设备100进行操作。电子设备100当获取到的第二音频信号的得到小于或者等于第四阈值时，则不执行自动解锁和“支付宝支付”对应的操作。在一些实施例中，电子设备100当获取到的第二音频信号的得分小于或者等于第四阈值时，还可以提示用户音频信号识别失败。其中，电子设备100具体提示用户音频信号识别失败的方式，可以参见电子设备100当获取到的第一音频信号的得分小于或者等于第二阈值时提示用户音频信号识别失败的方式。需要说明的是，本申请实施例中第三阈值和第四阈值可以预先设置在电子设备100中，且第三阈值和第四阈值的取值可以根据实际需要进行相应的设定。还需要说明的是，第三阈值和第一阈值可以相同，也可以不同。第四阈值和第二阈值可以相同，也可以不同。

此外，需要说明的是，电子设备100获取第二音频信号的方式，可以参见电子设备100 获取第一音频信号的方式。

以第一音频信号为例，电子设备100可以基于下列方式对第一音频信号进行声纹识别，得到第一音频信号的得分：

电子设备100确定与第一音频信号的关键词对应的用户关键词模型；以及提取第一音频信号的声纹特征，并匹配第一音频信号的声纹特征与确定的用户关键词模型，得到第一音频信号的得分。在一些实施例中，电子设备100可以预先配置用户关键词模型，然后电子设备 100从预先配置的用户关键词模型中确定与第一音频信号的关键词对应的用户关键词模型。在另一些实施例中，用户关键词模型还可以为背景模型。例如，背景模型可以为通用背景模型(universal background model，UBM)，其中UBM为用大量说话人语音训练出一个高阶高斯模型，包含了大量说话人的特征信息。

需要说明的是，本申请实施例中电子设备100还可以通过其它方式对第一音频信号进行声纹识别，得到第一音频信号的得分，对此不作限定。

如图8a所示，为本申请实施例音频控制方法的流程示意图。具体包括以下步骤。

步骤801，电子设备100在未解锁时，获取第一音频信号。其中，电子设备100在未解锁时可以为黑屏，也可以为在显示屏151显示锁屏界面时。具体的，第一音频信号可以为电子设备100通过自身的麦克风140C采集到的，也可以为与电子设备100连接的耳机或者其它设备采集后上报给电子设备100的。

步骤802，电子设备100对第一音频信号进行语音识别，得到第一音频信号的关键词。需要说明的是，当第一音频信号为与电子设备100连接的耳机或者其他设备采集到上报给电子设备100时，可以由与电子设备100连接的耳机或者其它设备对第一音频信号进行语音识别，并将识别的到第一音频信号的关键词上报给电子设备100，也可以由电子设备100对第一音频信号进行语音识别，得到第一音频信号的关键词。下面以电子设备100执行语音识别为例进行介绍，当与电子设备100连接的耳机或者其它设备进行语音识别时，可以参见电子设备100执行语音识别时的相关介绍。

在一些实施例中，电子设备100对第一音频信号进行语音识别，当未识别出第一音频信号的关键词时，可以通过麦克风140C或者与电子设备100连接到耳机的麦克风等播放第二语音提示信息，其中，第二语音提示信息可以用于提示用户未识别出音频信号中的关键词。例如，第二语音提示信息可以为“没有听清说的是什么，请重说一遍”。电子设备100也可以在锁屏界面上显示提示信息，来提示用户电子设备100未识别出关键词。例如，电子设备 100当黑屏时，对第一音频信号进行语音识别，未识别出第一音频信号的关键词，则电子设备100点亮屏幕，在显示屏151上显示锁屏界面，其中锁屏界面上包括提示信息，提示信息用于提示用户电子设备100未识别出关键词。

例如，电子设备100当识别出第一音频信号的关键词为“微信支付”时，可以基于关键词“微信支付”执行调用安装在电子设备100上的微信应用的业务流程。在一些实施例中，电子设备100当识别出第一音频信号的关键词为“微信支付”时，若检测到电子设备100上未安装有微信应用，可以自动调用应用商店，从应用商店下载微信应用。在另一些实施例中，电子设备100当识别出第一音频信号的关键词为“微信支付”时，若检测到电子设备100上未安装有微信应用，提示用户电子设备100未安装有微信应用。具体的，电子设备100可以通过语音提示用户电子设备100上未安装有微信应用，也可以通过在显示提示信息提示用户未安装有微信应用。

步骤803，电子设备100基于第一音频信号的关键词，确定与第一音频信号的关键词对应的用户关键词声纹模型。在一些实施例中，第一音频信号的关键词对应的关键词的声纹模型可以为电子设备100根据第一音频信号的关键词从预先配置在电子设备100的至少一个用户关键词声纹模型中查找到的，也可以为通用背景模型等。

步骤804，电子设备100对第一音频信号进行特征提取，得到第一音频信号的声纹特征。

示例的，第一音频信号的声纹特征可以包括滤波器组特征(filter bankfeature)、梅尔倒谱系数(mel-frequency cepstral coefficient，MFCC)、感知线性预测(perceptual linear prediction， PLP)或线性预测编码(linear predictive codes，LPC)等，也可以包括声纹深度学习算法提取的音频信号瓶颈特征等。

需要说明的是，步骤804与步骤802、步骤803没有必然的先后顺序，但是步骤802、步骤803、步骤804在步骤805之前。

步骤805，电子设备100匹配第一音频信号的声纹特征和与第一音频信号的关键词对应的用户关键词声纹模型，得到第一音频信号的得分。

示例的，当第一音频信号为电子设备100的麦克风151或者与电子设备100连接的耳机的麦克风等采集的用户的声音时，则第一音频信号的关键词对应的用户关键词声纹模型为用户发出关键词声音的声纹模型。又示例的，当第一音频信号包括用户的声音和其它信号时，例如其它信号为与电子设备100连接的耳机采集的骨导信号，则第一音频信号的关键词对应的用户关键词声纹模型包括用户发出关键词声音的声纹模型和用户发出关键词声音时的骨导信号的声纹模型。

以第一音频信号包括用户的声音和骨导信号为例，对电子设备100得到第一音频信号的得分进行详细说明。

示例的，如图8b所示，电子设备100对用户的声音进行特征提取，得到用户的声音的声纹特征，然后匹配用户的声音的声纹特征和用户发出关键词声音的声纹模型，得到得分1。电子设备100对骨导信号的特征提取，得到骨导信号的声纹特征，然后匹配骨导信号的声纹特征和用户发出关键词声音时的骨导信号的声纹模型，得到得分2。电子设备100将得分1 和得分2按照预设算法进行运算，得到第一音频信号的得分。例如预设算法可以为得分1和得分2的加权平均值，也可以为其它算法，对此不作限定。

需要说明的是，本申请实施例中，当第一音频信号包括用户的声音和其它信号时，第一音频信号的得分的计算方式，可以参见第一音频信号包括用户的声音和骨导信号时第一音频信号的得分的计算方式。

当然，本申请实施例中第一音频信号包括用户的声音和其它信号时，其它信号可以为一种信号，也可以为多种信号，对此不作限定。

步骤806，电子设备100当第一音频信号的得分大于或者等于第一阈值时，自动解锁并执行与第一音频信号的关键词对应的操作。

步骤807，电子设备100当第一音频信号的得分小于第一阈值、且大于第二阈值时，则在显示屏151显示锁屏界面，提示用户进行安全认证。电子设备100当在用户安全认证通过后，解锁并执行与第一音频信号的关键词对应的操作。

步骤808，电子设备100当第一音频信号的得分小于或者等于第二阈值时，则不解锁以及不执行与第一音频信号的关键词对应的操作。在一些实施例中，电子设备100当第一音频信号的得分小于或者等于第二阈值时，还提示用户第一音频信号的识别失败。

应理解，步骤806～步骤808可以参见上述对电子设备100黑屏时获取到第一音频信号时的相关介绍，在此不再赘述。

本申请实施例中，电子设备100可以预先配置用户关键词声纹模型。以关键词为微信支付为例。电子设备100可以基于预先录制的关键词为“微信支付”的音频信号，预先配置与“微信支付”对应的用户关键词声纹模型。

示例的，电子设备100可以基于下列方式进行“微信支付”音频信号的录制：

如图9所示，电子设备100显示主界面900，其中主界面900包括设置图标901。在一些实施例中，主界面900还包括图库图标、邮件图标、微信图标等。在另一些实施例中，主界面900还可以包括状态栏、可隐藏的导航栏和Dock栏。其中，状态栏中可以包括运营商的名称(例如，中国移动等)、移动网络(如4G)、蓝牙图标、时间和剩余电量。此外，可以理解的是，在其他一些实施例中，状态栏中还可以包括WiFi图标、外接设备图标等。导航栏中可以包括后退按钮(back button)、主屏幕键按钮(home button)和历史任务查看按钮(menubutton)。Dock栏中可以包括常用的应用的图标，例如电话图标、信息图标、邮件图标和天气图标。需要说明的是，Dock栏中的图标可以根据用户的需求进行相应的设定。电子设备 100可以响应于用户对设置图标901的操作，在显示屏151显示系统设置界面910。其中系统设置界面910包括声纹解锁及支付按钮911。此外，系统设置界面910还可以包括其它功能按钮，例如开启云备份按钮、屏幕锁定按钮等。需要说明的是，本申请实施例对声纹解锁及支付按钮911的名称不作限定。电子设备100可以响应于用户对声纹解锁及支付按钮911的操作，在显示屏151显示用户界面920。用户界面920可以包括用于开启或关闭声纹控制解锁的虚拟按钮、用于开启或关闭声纹控制微信支付的虚拟按钮921、用于开启或关闭声纹控制解锁的虚拟按钮。需要说明的是，上述虚拟按钮可以为电子设备100在出厂之前预先设置的，也可以为用户根据自身的需要设置的。示例的，如图9所示，虚拟按钮921为关闭，电子设备100可以响应于用户首次开启虚拟按钮921，执行“微信支付”音频信号的录入操作。

示例的，用户可以根据电子设备100显示的用户界面的引导，对电子设备100说出“微信支付”来使得电子设备100录入“微信支付”的音频信号。又示例的，用户也可以对与电子设备100连接的耳机说出“微信支付”，来使得电子设备100录入“微信支付”的音频信号。通常情况下，用户可以根据电子设备100在显示屏151上显示的提示来说出“微信支付”。例如，当电子设备100需要连续采集三次“微信支付”的音频信号，则电子设备100可以在第一次录入用户说的“微信支付”的音频信号成功后，在显示屏151上显示请再说一遍“微信支付”的提示信息。在一些实施例中，电子设备100当获取到音频信号后，进行语音识别，判定获取到的音频信号的关键词与电子设备100要求用户说出的关键词“微信支付”是否一致，若一致，则可以进行后续步骤。若不一致，则放弃本次获取到的音频信号。在一些实施例中，电子设备100当确定获取到的音频信号的关键词与电子设备100要求用户说出的关键词“微信支付”不一致时，还可以提示用户说出的关键词有误。示例的，电子设备100可以通过语音提示用户说出的关键词有误，也可以通过在显示屏151上显示提示信息来提示用户说出的关键词有误。此外，本申请实施例中电子设备100还可以在获取到音频信号后，进行信号质量检测，当获取到的音频信号的信号质量大于预设阈值时，则在进行关键词匹配。当然，本申请实施例中电子设备100也可以在进行关键词匹配成功后，在进行信号质量检测。通过信号质量检测有助于提高确定用户关键词声纹模型的可靠性。

本申请实施例中，电子设备100当获取到的音频信号的信号质量小于或者等于预设阈值时，放弃本次获取到的音频信号。在一些实施例中，电子设备100当获取到的音频信号的信号质量小于或者等于预设阈值时，还可以提示用户移动到安静的地方进行音频信号的录入。具体的，电子设备100可以通过麦克风播放语音或者在显示屏151上显示提示信息来提示用户移动到安静的地方进行音频信号的录入。本申请实施例中还可以通过其它方式来提示用户，对此不作限定。

当电子设备100连续采集了三次“微信支付”的音频信号成功后，则可以显示用户界面 920。此时，用户界面920上的虚拟按钮922开启。在另一些实施例中，电子设备100当连续采集了三次“微信支付”的音频信号成功，若还未录入解锁和支付宝支付的音频信号，则可以显示如图10所示的用户界面1000。用户界面1000包括继续录入“解锁”的虚拟按钮1001、继续录入“支付宝支付”的虚拟按钮1002和退出按钮1003。在一些实施例中，电子设备100 当已录入“解锁”时，可以在用户界面1000上不显示虚拟按钮1001。

当用户不是首次开启虚拟按钮921时，电子设备100可以响应于用户开启虚拟按钮921 的操作，直接开启“微信支付”功能。在一些实施例中，电子设备100还可以当用户不是首次开启虚拟按钮921时，响应于用户开启虚拟按钮921的操作，弹出提示用户是否重新录入“微信支付”的音频信号。例如，如图11所示，电子设备100当用户不是首次开启虚拟按钮921时，可以弹出提示框1100，其中提示框1100包括提示信息，提示信息用于提示用户是否重新录入“微信支付”。电子设备100可以响应于用户点击虚拟按钮“否”，直接开启虚拟按钮921。若用户选择虚拟按钮“是”，则电子设备100在显示屏151上显示“微信支付”的录入界面，例如“微信支付”的录入界面可以如图9中所示的用户界面930。

在一些实施例中，电子设备100若检测到登录账号发生变化，则可以对用户界面920上的虚拟按钮进行重置。示例的，用户可以通过如图9所示的用户界面910上的登录账号来切换账号。例如，当电子设备100的登录账号从账号1切换到账号2时，例如电子设备100在账号1下录入了“微信支付”，当切换到账号2时，电子设备100还未在账号2下录入“微信支付”，当用户在账号2下开启虚拟按钮921时，电子设备100则确认在账号2下首次开启虚拟按钮921，则执行重新录入“微信支付”的过程。需要说明的是，电子设备100的登录账号的切换也可以与“微信支付”、“解锁”、“支付宝支付”等的录入无关，在这种场景下，以“微信支付”为例。电子设备100若在登录账号1时，录入了“微信支付”，则当电子设备100登录账号2时，可以响应于开启虚拟按钮921的操作，直接开启“微信支付”的功能。

在另一些实施例中，用户界面920还包括增加新的操作指令的虚拟按钮922。从而有助于用户增加新的操作指令，进一步提升用户体验。电子设备100可以响应于对虚拟按钮922 的操作，增减新的操作指令，例如公交卡支付，当用于开启或关闭公交卡支付的虚拟按钮开启时，则用户可以在说出“公交开支付”时，电子设备100打开公家卡支付的界面。

示例的，如图12所示，本申请实施例预先配置用户关键词声纹模型的方法的流程示意图。具体包括以下步骤。

步骤1201，电子设备100获取根据电子设备100的提示的关键词录入的音频信号。

示例的，电子设备100向用户提示关键词可以如图9所示的用户界面930。

步骤1202，电子设备100对录入的音频信号进行信号质量检测。

在具体实现时，本申请实施例中电子设备100可以基于下列方式对录入的音频信号进行信号质量检测：

电子设备100可以通过比较录入音频信号的信噪比与预设门限值的大小，例如当录入的音频信号的信噪比大于预设门限时，信号质量检测通过；当录入的音频信号的信噪比小于或者等于预设门限值时，信号质量检测不通过。在一些实施例中，信号质量检测不通过时，放弃本次录入的音频数据，提示用户录入的音频信号无效，重新录入。示例的，电子设备100 可以通过语音提示用户录入的音频信号无效，重新录入。又示例的，电子设备100还可以通过在显示屏151上显示提示信息来提示用户录入的音频信号无效，重新录入。

需要说明的是，预设门限可以为电子设备100出厂之前设置的，也可以为基于预设算法对大量用户录入的音频信号进行分析后得到的。

此外，还需要说明的是，信号质量检测也可以是基于低噪能量、语音能量等检测，本申请实施例中不限定信号质量检测所使用的参数。

步骤1203，电子设备100在信号质量检测通过后，判定录入的音频信号的关键词和电子设备100提示的关键词是否一致，若一致，执行步骤1204，否则，放弃本次录入的音频信号。在一些实施例中，电子设备100当关键词不一致时，还提示用户说出的关键词无效。本申请实施例中不限定提示用户说出关键词无效的方式。其中，电子设备100可以通过语音识别从录入的音频信号中识别关键词。

其中，需要说明的是，本申请实施例不限定电子设备100执行信号质量检测和关键词判定的步骤的顺序。

步骤1204，电子设备100对录入的音频信号进行特征提取，得到录入的音频信号的声纹特征。

步骤1205，电子设备100基于录入的音频信号的声纹特征和预先存储在电子设备100中的背景模型，确定用户关键词声纹模型。

本申请实施例中，背景模型为离线利用收集到的大量说话人的关键词数据训练出来的模型和相关参数，可以为混合高斯模型(gaussian mixture model，GMM)和第一相关参数，例如，第一相关参数可以包括混合高斯分布参数和自适应调节因子等。例如，背景模型也可以为UBM-ivector(universal background model-ivector)模型和第二相关参数，第二相关参数可以包括混合高斯分布参数和全局差异空间矩阵(total variability spacematrix)等。又例如，背景模型还可以为DNN-ivector(deep neural networks-ivector)模型和第三相关参数，第三相关参数可以包括DNN网络结构和权值以及全局差异空间矩阵等。再例如，背景模型还可以为基于深度学习的端到端模型和参数譬如x-vectors算法，甚至是上述多种模型参数和组合譬如 GMM和DNN-ivector两种组合。用户关键词声纹模型用于表示此时利用用户预先在电子设备 100中录入的音频信号对通用背景模型和参数进行自适应以体现用户的特性，用于后续用户输入音频信号之后进行比对判断与预先录入的电子设备100的音频信号的用户是否为同一人。

步骤1206，电子设备100存储用户关键词声纹模型。在一些实施例中，电子设备100将用户关键词声纹模型存储至安全区。示例的，安全区可以为安卓的可信执行环境(trusted execution environment，TEE)。

可以理解的是，本申请实施例中对于不同的关键词，对应不同的用户关键词声纹模型。

当录入的音频信号包括通过麦克风采集的用户的声音和其它信号时，电子设备100预先配置的用户关键词声纹模型包括用户关键词声音的声纹模型和用户关键词其它信号的声纹模型。

下面以录入的音频信号包括麦克风采集的用户的声音和骨导信号为例进行详细介绍。

示例的，如图13所示，本申请实施例另一种预先配置用户关键词声纹模型的方法的流程示意图。具体包括以下步骤。

步骤1301，电子设备100获取根据电子设备100的提示的关键词录入的音频信号。其中，录入的音频信号包括麦克风采集的用户的声音和骨导信号。

步骤1302，电子设备100判定录入的音频信号的关键词和电子设备100提示的关键词是否一致，若一致，执行步骤1303。当录入的音频信号的关键词与电子设备100提示的关键词不一致时，放弃本次录入的音频信号。在一些实施例中，电子设备100当录入的音频信号的关键词与电子设备100提示的关键词不一致时，还提示用户说出的关键词有误。具体的提示方式可以参见上述相关介绍。

步骤1303，电子设备100执行信号质量检测。具体的，电子设备100分别对骨导信号和用户的声音进行信号质量检测。若骨导信号和用户的声音的信号质量检测过程中其中一个的信号质量检测不通过，则电子设备100放弃本次录入的音频信号，当骨导信号和用户的声音进行信号质量检测均通过后，执行步骤1304。

步骤1304，电子设备100分别对骨导信号和用户的声音进行特征提取，得到骨导信号的声纹特征和用户的声音的声纹特征。

步骤1305，电子设备100基于骨导信号的声纹特征和预先存储在电子设备100中的骨导信号的通用背景模型，确定用户关键词骨导信号的声纹模型；以及用户的声音的声纹特征和预先存储在电子设备100中的麦克风采集的声音的通用背景模型，确定用户关键词声音的声纹模型。

步骤1306，电子设备100存储用户关键词声音的声纹模型和用户关键词骨导信号的声纹模型。

可以理解的是，图13所示的预先配置用户关键词声纹模型的方法，为图12所示的预先配置用户关键词声纹模型的方法的一种具体实现方式，具体实现可以参见图12中的相关介绍。

本申请实施例中各个实施例可以单独使用，也可以相互结合使用，以实现不同的技术效果。

上述本申请提供的实施例中，从电子设备100作为执行主体的角度对本申请实施例提供的方法进行了介绍。为了实现上述本申请实施例提供的方法中的各功能，终端可以包括硬件结构和/或软件模块，以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行，取决于技术方案的特定应用和设计约束条件。

基于相同的构思，图14所示为本申请提供的一种电子设备1400。电子设备1400包括至少一个处理器1410和存储器1420、多个应用程序1430；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在存储器1420中，所述一个或多个计算机程序包括指令，当所述指令被处理器1410执行时，使得电子设备1400执行以下步骤：

未解锁时，接收第一音频信号；其中，第一音频信号包括用户的第一语音信号，第一语音信号包括请求电子设备执行第一操作的关键词；对第一音频信号进行声纹识别，确定第一音频信号的得分；当第一音频信号的得分大于或者等于第一阈值时，解锁电子设备并执行第一操作；当第一音频信号的得分小于第一阈值、且大于第二阈值时，提示用户使用语音以外的方式进行安全认证；通过用户的安全认证后，解锁电子设备并执行第一操作。

在一些实施例中，可以通过下述方式提示用户使用语音以外的方式进行安全认证：

显示电子设备1400的锁屏界面，锁屏界面用于提示用户使用语音以外的方式进行安全认证。示例的，电子设备1400可以包括显示屏，通过电子设备1400包括的显示屏显示电子设备1400的锁屏界面，也可以通过与电子设备100通过有线或无线方式连接的具有显示功能的显示设备显示电子设备100的锁屏界面。

在一些实施例中，还包括用于当第一音频信号的得分小于或者等于第二阈值时，不执行解锁电子设备、且不执行第一操作的指令。

在一些实施例中，还包括用于当第一音频信号的得分小于或者等于第二阈值时发出第一语音提示信息的指令，第一语音提示信息用于提示用户第一音频信号识别失败；和/或，用于当第一音频信号的得分小于或者等于第二阈值时在锁屏界面上显示第一提示信息的指令，第一提示信息用于提示用户第一音频信号识别失败。

在一些实施例中，可以通过下述方式对第一音频信号进行声纹识别，确定第一音频信号的得分：

从预先配置的至少一个用户关键词声纹模型中，确定与第一音频信号包括的关键词对应的用户关键词声纹模型；以及提取第一音频信号的声纹特征，并匹配提取的声纹特征与确定的与第一音频信号的关键词对应的用户关键词声纹模型，确定第一音频信号的得分。

在一些实施例中，还包括：用于接收用户的第二音频信号的指令，第二音频信号包括第二语音信号，第二语音信号是用户根据电子设备提示的关键词所发出的；用于当识别出第二音频信号包括的关键词与电子设备提示的关键词一致时，提取第二音频信号的声纹特征的指令；用于根据第二音频信号的声纹特征和预先存储的背景模型，配置电子设备提示的关键词对应的用户关键词声纹模型的指令。

在一些实施例中，还包括：用于当识别出第二音频信号包括的关键词与电子设备提示的关键词不一致时，提示用户关键词有误的指令。

在一些实施例中，第一音频信号的声纹特征包括MFCC、PLP、LPC中的至少一个。

在一些实施例中，第一音频信号可以是与电子设备连接的耳机采集到上报给电子设备 1400的。第一音频信号也可以是电子设备1400通过自身的麦克风采集到的。

在又一些实施例中，耳机为骨传导耳机时，第一音频信号还包括骨导信号，骨导信号为用户发出声音时耳骨振动产生的声音。

应理解，该电子设备1400可以用于实现本申请实施例音频控制方法，相关特征可以参照上文，此处不再赘述。

所属领域的技术人员可以清楚地了解到本申请实施例可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括RAM、ROM、电可擦可编程只读存储器(electrically erasableprogrammable read only memory，EEPROM)、只读光盘(compact disc read-Only memory，CD-ROM)或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(digital subscriber line，DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本申请实施例所使用的，盘(disk)和碟(disc) 包括压缩光碟(compact disc，CD)、激光碟、光碟、数字通用光碟(digital video disc，DVD)、软盘和蓝光光碟，其中盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。

总之，以上所述仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡根据本申请的揭露，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频控制方法，其特征在于，所述方法包括：

电子设备未解锁时，接收第一音频信号，所述第一音频信号包括耳机采集的音频信号，其中所述电子设备与所述耳机连接；其中，所述第一音频信号包括用户的第一语音信号，所述第一语音信号包括请求所述电子设备执行第一操作的关键词；所述第一音频信号还包括骨导信号，所述骨导信号为用户发出声音时耳骨振动产生的声音；

所述电子设备对所述第一音频信号进行声纹识别，确定所述第一音频信号的得分；

当所述第一音频信号的得分大于或者等于第一阈值时，解锁所述电子设备并执行所述第一操作；

当所述第一音频信号的得分小于第一阈值、且大于第二阈值时，提示所述用户使用语音以外的方式进行安全认证；所述电子设备通过所述用户的安全认证后，解锁所述电子设备并执行所述第一操作；

当所述第一音频信号的得分小于或者等于所述第二阈值时，不执行解锁所述电子设备、且不执行所述第一操作。

2.如权利要求1所述的方法，其特征在于，所述电子设备提示所述用户使用语音以外的方式进行安全认证，包括：

所述电子设备显示所述电子设备的锁屏界面，所述锁屏界面用于提示所述用户使用语音以外的方式进行安全认证。

3.如权利要求2所述的方法，其特征在于，所述电子设备当所述第一音频信号的得分小于或者等于所述第二阈值时，所述方法还包括：

所述电子设备发出第一语音提示信息，所述第一语音提示信息用于提示用户所述第一音频信号识别失败；和/或

所述电子设备在锁屏界面上显示第一提示信息，所述第一提示信息用于提示用户所述第一音频信号识别失败。

4.如权利要求1至3任一所述的方法，其特征在于，所述电子设备对所述第一音频信号进行声纹识别，确定所述第一音频信号的得分，包括：

所述电子设备从预先配置的至少一个用户关键词声纹模型中，确定与所述第一音频信号包括的关键词对应的用户关键词声纹模型；

所述电子设备提取所述第一音频信号的声纹特征，并匹配提取的所述声纹特征与确定的与所述第一音频信号的关键词对应的用户关键词声纹模型，确定所述第一音频信号的得分。

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

所述电子设备接收用户的第二音频信号，所述第二音频信号包括第二语音信号，所述第二语音信号是所述用户根据所述电子设备提示的关键词所发出的；

所述电子设备当识别出所述第二音频信号包括的关键词与所述电子设备提示的关键词一致时，提取所述第二音频信号的声纹特征；

所述电子设备根据所述第二音频信号的声纹特征和预先存储的背景模型，配置所述电子设备提示的关键词对应的用户关键词声纹模型。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

所述电子设备当识别出所述第二音频信号包括的关键词与所述电子设备提示的关键词不一致时，提示用户关键词有误。

7.如权利要求4～6任一所述的方法，其特征在于，所述第一音频信号的声纹特征包括梅尔倒谱系数MFCC、感知线性预测PLP、线性预测编码LPC中的至少一个。

8.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器；

存储器；

多个应用程序；

以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述处理器执行时，使得所述电子设备执行以下步骤：

未解锁时，接收第一音频信号，所述第一音频信号包括耳机采集的音频信号，其中所述电子设备与所述耳机连接；其中，所述第一音频信号包括用户的第一语音信号，所述第一语音信号包括请求所述电子设备执行第一操作的关键词；所述第一音频信号还包括骨导信号，所述骨导信号为用户发出声音时耳骨振动产生的声音；

对所述第一音频信号进行声纹识别，确定所述第一音频信号的得分；

当所述第一音频信号的得分小于第一阈值、且大于第二阈值时，提示所述用户使用语音以外的方式进行安全认证；通过所述用户的安全认证后，解锁所述电子设备并执行所述第一操作；

当所述第一音频信号的得分小于或者等于所述第二阈值时，不执行解锁所述电子设备、且不执行所述第一操作的指令。

9.如权利要求8所述的电子设备，其特征在于，所述提示所述用户使用语音以外的方式进行安全认证，包括：

10.如权利要求9所述的电子设备，其特征在于，所述指令还包括：

用于当所述第一音频信号的得分小于或者等于所述第二阈值时发出第一语音提示信息的指令，所述第一语音提示信息用于提示用户所述第一音频信号识别失败；和/或

用于当所述第一音频信号的得分小于或者等于所述第二阈值时在锁屏界面上显示第一提示信息的指令，所述第一提示信息用于提示用户所述第一音频信号识别失败。

11.如权利要求8至10任一所述的电子设备，其特征在于，所述对所述第一音频信号进行声纹识别，确定所述第一音频信号的得分，包括：

从预先配置的至少一个用户关键词声纹模型中，确定与所述第一音频信号包括的关键词对应的用户关键词声纹模型；

提取所述第一音频信号的声纹特征，并匹配提取的所述声纹特征与确定的与所述第一音频信号的关键词对应的用户关键词声纹模型，确定所述第一音频信号的得分。

12.如权利要求11所述的电子设备，其特征在于，所述指令还包括：

用于接收用户的第二音频信号的指令，所述第二音频信号包括第二语音信号，所述第二语音信号是所述用户根据所述电子设备提示的关键词所发出的；

用于当识别出所述第二音频信号包括的关键词与所述电子设备提示的关键词一致时，提取所述第二音频信号的声纹特征的指令；

用于根据所述第二音频信号的声纹特征和预先存储的背景模型，配置所述电子设备提示的关键词对应的用户关键词声纹模型的指令。

13.如权利要求12所述的电子设备，其特征在于，所述指令还包括：

用于当识别出所述第二音频信号包括的关键词与所述电子设备提示的关键词不一致时，提示用户关键词有误的指令。

14.如权利要求11～13任一所述的电子设备，其特征在于，所述第一音频信号的声纹特征包括梅尔倒谱系数MFCC、感知线性预测PLP、线性预测编码LPC中的至少一个。

15.一种芯片，其特征在于，所述芯片与电子设备中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的计算机程序，实现如权利要求1至7任一所述的方法。

16.一种计算机存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1至7任一所述的方法。