CN113192499A

CN113192499A - 一种语音唤醒方法及终端

Info

Publication number: CN113192499A
Application number: CN202010027159.8A
Authority: CN
Inventors: 杨东; 耿炳钰
Original assignee: Hisense Mobile Communications Technology Co Ltd
Current assignee: Hisense Mobile Communications Technology Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2021-07-30

Abstract

本发明公开了涉及通信领域，特别涉及一种语音唤醒方法及终端，用以解决现有技术中开启语音唤醒功能的终端待机功耗较高的问题。本发明实施例终端的唤醒芯片通过麦克风采集环境音；终端的唤醒芯片确定环境音满足第一唤醒条件时，向终端的应用处理器发送触发信号；终端的应用处理器在接收到触发信号后，在确定环境音满足第二唤醒条件时触发终端进入唤醒状态。本发明实施例提供的语音唤醒方法，通过终端的唤醒芯片对外界环境音进行检测环境音是否满足第一唤醒条件，不需要应用处理器一直处于工作状态，从而降低终端功耗。此外，本发明实施例中，通过终端的唤醒芯片与终端的应用处理器对环境音进行两次检测，提高对环境音检测的准确度，降低误唤醒率。

Description

一种语音唤醒方法及终端

技术领域

本发明涉及通信领域，特别涉及一种语音唤醒方法及终端。

背景技术

随着智能终端的普及，为了更好的满足用户的需求，终端的功能越来越丰富。为更好的实现终端与用户之间的交互，现有许多终端开发出语音助手服务，语音助手是终端上的系统应用，可以与用户之间进行智能对话，与即时问答的智能交互，实现帮助用户解决问题的功能。

用户可以通过语音助手应用唤醒终端，终端在待机状态下，可以通过对环境音进行检测，当检测到唤醒关键词时，唤醒待机状态下的终端，进入语音助手应用。在开启语音唤醒功能后，由于终端的处理器需要对环境音进行实时检测，导致终端的处理器一直处于工作状态，不能完全进入休眠，导致终端待机功耗较高。

综上所述，现有技术中开启语音唤醒功能的终端待机功耗较高。

发明内容

本发明示例性的实施方式中提供一种通信终端及一种语音唤醒方法，用以解决现有技术中开启语音唤醒功能的终端待机功耗较高的问题。

根据示例性的实施方式中的一方面，提供一种通信终端，包括麦克风、唤醒芯片和应用处理器：

麦克风，用于采集环境音；

唤醒芯片，用于确定所述环境音满足第一唤醒条件时，向所述终端的应用处理器发送触发信号；

应用处理器，用于在接收到所述触发信号后，在确定所述环境音满足第二唤醒条件时触发所述终端进入唤醒状态。

由于本发明实施例中，在终端处于待机状态下时，终端的应用处理器进入休眠状态，通过终端的唤醒芯片对外界环境音进行检测，当唤醒芯片检测到环境音满足第一唤醒条件时，唤醒芯片触发应用处理器工作，不需要应用处理器一直处于工作状态，由于唤醒芯片的功耗比应用处理器更低，从而降低终端功耗。此外，本发明实施例中，通过终端的唤醒芯片对环境音进行检测，若环境音满足第一唤醒条件，还需要应用处理器再次对环境音进行检测，若环境音满足第二唤醒条件时，触发终端进入唤醒状态，通过终端的唤醒芯片与终端的应用处理器对环境音进行两次检测，提高终端对环境音检测的准确度，避免误唤醒终端，降低误唤醒率。

在一些示例性的实施方式中，所述唤醒芯片具体用于：

将所述环境音输入深度神经网络，获取所述深度神经网络输出的所述环境音的用于表示语音内容的第一语音特征；

确定所述环境音的第一语音特征与预设的关键词特征的第一匹配度大于预设的第一阈值时，确定满足所述第一唤醒条件。

由于本发明实施例在终端处于休眠状态时，通过唤醒芯片初步检测环境音的语音内容中是否包含关键词，不需要终端的应用处理器一直处于工作状态，降低终端待机功耗。

在一些示例性的实施方式中，所述应用处理器具体用于：

将所述环境音输入所述深度神经网络，获取所述深度神经网络输出的所述环境音的用于表示语音内容的第二语音特征；

确定所述环境音的第二语音特征与所述预设的关键词特征的第二匹配度大于预设的第二阈值时，确定满足所述第二唤醒条件；

其中，所述第二语音特征的精度大于所述第一语音特征的精度；所述第二匹配度的精度大于所述第一匹配度的精度。

本发明实施例在终端的唤醒芯片对检测到的环境音进行初步判断后，通过终端的应用处理器对环境音的语音内容进行高精度的判断，提高关键词检测的准确度，降低误唤醒率。

在一些示例性的实施方式中，所述唤醒芯片具体用于：

将所述环境音输入深度神经网络，获取所述深度神经网络输出的所述环境音的用于表示语音内容的第一语音特征和所述环境音的第一声纹特征；

确定所述环境音的第一语音特征与预设的关键词特征的第一匹配度大于预设的第一阈值，且确定所述环境音的第一声纹特征与预设的声纹特征的第三匹配度大于预设的第三阈值时，确定满足所述第一唤醒条件。

本发明实施例在终端处于休眠状态时，通过唤醒芯片初步检测环境音的语音内容中是否包含关键词以及初步检测环境音是否为终端的用户发出的声音，提高用户体验，避免他人误唤醒，且不需要终端的应用处理器一直处于工作状态，降低终端待机功耗。

在一些示例性的实施方式中，所述应用处理器具体用于：

将所述环境音输入所述深度神经网络，获取所述深度神经网络输出的所述环境音的第二语音特征和所述环境音的第二声纹特征；

确定所述环境音的第二语音特征与所述预设的关键词特征的第二匹配度大于预设的第二阈值，且确定所述环境音的第二声纹特征与所述预设的声纹特征的第四匹配度大于预设的第四阈值时，确定满足所述第二唤醒条件；

其中，所述第二语音特征的精度大于所述第一语音特征的精度；所述第二声纹特征的精度大于所述第一声纹特征的精度；所述第三匹配度的精度大于所述第一匹配度的精度；所述第四匹配度的精度大于所述第二匹配度的精度。

本发明实施例在终端的唤醒芯片对检测到的环境音进行初步判断后，通过终端的应用处理器对环境音的语音内容以及声纹特征进行高精度的判断，提高关键词检测的准确度，降低误唤醒率；避免他人误唤醒，提高用户体验。

在一些示例性的实施方式中，在通过麦克风采集环境音之后，确定所述环境音满足第一唤醒条件之前，所述唤醒芯片还用于：

检测所述环境音的声压值，并确定所述环境音的声压值大于预设的声压阈值。

本发明实施例对环境音的声压值进行检测，只有声压值大于预设的声压阈值时唤醒芯片才对环境音进行是否满足唤醒条件的检测，避免终端的唤醒芯片一直对环境音进行是否满足唤醒条件的检测，也在一定程度上降低了终端的功耗。

根据示例性的实施方式中的另一方面，提供一种语音唤醒方法，包括：

终端的唤醒芯片通过麦克风采集环境音；

所述终端的唤醒芯片确定所述环境音满足第一唤醒条件时，向所述终端的应用处理器发送触发信号；

所述终端的应用处理器在接收到所述触发信号后，在确定所述环境音满足第二唤醒条件时触发所述终端进入唤醒状态。

在一些示例性的实施方式中，所述终端的唤醒芯片通过下列方式确定所述环境音满足第一唤醒条件：

所述终端的唤醒芯片将所述环境音输入深度神经网络，获取所述深度神经网络输出的所述环境音的用于表示语音内容的第一语音特征；

所述终端的唤醒芯片确定所述环境音的第一语音特征与预设的关键词特征的第一匹配度大于预设的第一阈值时，确定满足所述第一唤醒条件。

在一些示例性的实施方式中，所述终端的应用处理器通过下列方式确定所述环境音满足第二唤醒条件：

所述终端的应用处理器将所述环境音输入所述深度神经网络，获取所述深度神经网络输出的所述环境音的用于表示语音内容的第二语音特征；

所述终端的应用处理器确定所述环境音的第二语音特征与所述预设的关键词特征的第二匹配度大于预设的第二阈值时，确定满足所述第二唤醒条件；

所述终端的唤醒芯片将所述环境音输入深度神经网络，获取所述深度神经网络输出的所述环境音的用于表示语音内容的第一语音特征和所述环境音的第一声纹特征；

所述终端的唤醒芯片确定所述环境音的第一语音特征与预设的关键词特征的第一匹配度大于预设的第一阈值，且确定所述环境音的第一声纹特征与预设的声纹特征的第三匹配度大于预设的第三阈值时，确定满足所述第一唤醒条件。

所述终端的应用处理器将所述环境音输入所述深度神经网络，获取所述深度神经网络输出的所述环境音的第二语音特征和所述环境音的第二声纹特征；

所述终端的应用处理器确定所述环境音的第二语音特征与所述预设的关键词特征的第二匹配度大于预设的第二阈值，且确定所述环境音的第二声纹特征与所述预设的声纹特征的第四匹配度大于预设的第四阈值时，确定满足所述第二唤醒条件；

在一些示例性的实施方式中，在所述终端的唤醒芯片通过麦克风采集环境音之后，所述终端的唤醒芯片确定所述环境音满足第一唤醒条件之前，还包括：

所述终端的唤醒芯片检测所述环境音的声压值，并确定所述环境音的声压值大于预设的声压阈值。

根据示例性的实施方式中的再一方面，提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序指令，当所述指令在计算机上运行时，使得所述计算机执行如上所述的处理方法。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实施例。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了本发明实施例提供的一种通信终端的结构示意图。

图2示例性示出了本发明实施例提供的一种通信终端的软件架构示意图。

图3示例性示出了本发明实施例提供的通信终端的用户界面示意图。

图4示例性示出了本发明实施例提供的一种语音唤醒方法的框架示意图。

图5示例性示出了本发明实施例提供的一种语音唤醒方法的流程图。

图6示例性示出了本发明实施提供的一种语音唤醒方法的完整流程图。

图7示例性示出了本发明实施例提供的预设声纹特征的方法流程图。

图8示例性示出了本发明实施例提供的一种语音唤醒方法中唤醒芯片计算阶段的完整流程图。

图9示例性示出了本发明实施例提供的一种语音唤醒方法中应用处理器计算阶段的完整流程图。

图10示例性示出了本发明实施例提供的一种语音唤醒装置的结构示意图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行清除、详尽地描述。其中，在本发明实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本发明实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本发明实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1示出了通信终端100的结构示意图。

下面以通信终端100为例对实施例进行具体说明。应该理解的是，图1所示通信终端100仅是一个范例，并且通信终端100可以具有比图1中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

图1中示例性示出了根据示例性实施例中通信终端100的硬件配置框图。如图1所示，通信终端100包括：射频(radio frequency，RF)电路110、存储器120、显示单元130、摄像头140、传感器150、音频电路160、无线保真(Wireless Fidelity，Wi-Fi)模块170、处理器180、蓝牙模块181、以及电源190等部件。

RF电路110可用于在收发信息或通话过程中信号的接收和发送，可以接收基站的下行数据后交给处理器180处理；可以将上行数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等器件。

存储器120可用于存储软件程序及数据。处理器180通过运行存储在存储器120的软件程序或数据，从而执行通信终端100的各种功能以及数据处理。存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器120存储有使得通信终端100能运行的操作系统。本发明中存储器120可以存储操作系统及各种应用程序，还可以存储执行本发明实施例所述方法的代码。

显示单元130可用于接收输入的数字或字符信息，产生与通信终端100的用户设置以及功能控制有关的信号输入，具体地，显示单元130可以包括设置在通信终端100正面的触摸屏131，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

显示单元130还可用于显示由用户输入的信息或提供给用户的信息以及终端100的各种菜单的图形用户界面(graphical user interface，GUI)。具体地，显示单元130可以包括设置在通信终端100正面的显示屏132。其中，显示屏132可以采用液晶显示器、发光二极管等形式来配置。显示单元130可以用于显示本发明中所述的各种图形用户界面。

其中，触摸屏131可以覆盖在显示屏132之上，也可以将触摸屏131与显示屏132集成而实现通信终端100的输入和输出功能，集成后可以简称触摸显示屏。本发明中显示单元130可以显示应用程序以及对应的操作步骤。

摄像头140可用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器180转换成数字图像信号。

通信终端100还可以包括至少一种传感器150，比如加速度传感器151、距离传感器152、指纹传感器153、温度传感器154。通信终端100还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路160、扬声器161、麦克风162、唤醒芯片163可提供用户与通信终端100之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出。通信终端100还可配置音量按钮，用于调节声音信号的音量。另一方面，麦克风162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出至RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。

另一方面，本发明中麦克风162可以采集环境音，将采集到的环境音对应的声音信号转换为电信号，由音频电路160接收后转换为音频数据；音频电路160内包含唤醒芯片163，唤醒芯片163对环境音对应的音频数据进行检测，当确定环境音满足第一唤醒条件时，触发处理器180对环境音对应的音频数据进行检测，当处理器180确定环境音满足第二唤醒条件时触发通信终端100进入唤醒状态。

Wi-Fi属于短距离无线传输技术，通信终端100可以通过Wi-Fi模块170帮助用户收发电子邮件、浏览网页和访问流媒体等，它为用户提供了无线的宽带互联网访问。

处理器180是通信终端100的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序，以及调用存储在存储器120内的数据，执行通信终端100的各种功能和处理数据。在一些实施例中，处理器180可包括一个或多个处理单元；处理器180还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器180中。本发明中处理器180可以运行操作系统、应用程序、用户界面显示及触控响应，以及本发明实施例所述的处理方法。另外，处理器180与显示单元130耦接。

蓝牙模块181，用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，通信终端100可以通过蓝牙模块181与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

通信终端100还包括给各个部件供电的电源190(比如电池)。电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电以及功耗等功能。通信终端100还可配置有电源按钮，用于终端的开机和关机，以及锁屏等功能。

图2是本发明实施例的通信终端100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供通信终端100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，通信终端振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明通信终端100软件以及硬件的工作流程。

当触摸屏131接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头140捕获静态图像或视频。

本发明实施例中的通信终端100可以为手机、平板电脑、可穿戴设备、笔记本电脑以及电视等。

图3是用于示出通信终端(例如图1的通信终端100)上的用户界面的示意图。在一些具体实施中，用户通过语音唤醒终端，并通过与通信终端智能对话进行相应的操作，例如用户输入“打开文件夹”语音指令，终端可以打开相应的文件夹；或者通过语音指令打开相应的应用程序，例如用户输入“打开相机”语音指令，终端可以打开相机应用程序。

终端上的语音助手应用，可以实现终端与用户之间的智能对话与即时问答的智能交互，帮助用户解决一些问题。语音助手应用一般设置有语音唤醒功能，通过模拟人的听声识人的能力，当终端检测到用户说出预设的关键词时，终端进入唤醒状态并进入语音助手应用。开启语音唤醒功能的终端，需要实时检测环境音，并判断当前环境音是否为预设的关键词。这就需要终端的应用处理器一直处于工作状态，造成终端功耗较大。

如图4所示，为本发明实施例提供的一种语音唤醒方法的框架示意图，包括：麦克风40、唤醒芯片41、应用处理器42。当开启语音唤醒功能的终端在待机状态时，终端的应用处理器42处于休眠状态，终端的唤醒芯片41通过麦克风40对周围的环境音进行采集，当确定采集到的环境音的声压值大于预设的声压阈值时，唤醒芯片41判断采集到的环境音是否满足第一唤醒条件；

其中，第一唤醒条件可以是检测到的环境音的第一语音特征与预设的关键词特征之间的第一匹配度大于预设的第一阈值；或者第一唤醒条件可以是检测到的环境音的第一语音特征与预设的关键词特征之间的第一匹配度大于预设的第一阈值且检测到的环境音的第一声纹特征与预设的声纹特征之间的第三匹配度大于预设的第三阈值；

其中，环境音的第一语音特征和第一声纹特征可以是唤醒芯片41通过将环境音输入深度神经网络得到的；

若唤醒芯片41确定采集到的环境音满足第一唤醒条件，则通过唤醒芯片41与应用处理器42之间的I/O接口向应用处理器42发送触发信号；

应用处理器42在接收到唤醒芯片41发送的触发信号后，应用处理器42判断采集到的环境音是否满足第二唤醒条件；

其中，第二唤醒条件可以是检测到的环境音的第二语音特征与预设的关键词特征之间的第二匹配度大于预设的第二阈值；或者第二唤醒条件可以是检测到的环境音的第二语音特征与预设的关键词特征之间的第二匹配度大于预设的第二阈值且检测到的环境音的第二声纹特征与预设的声纹特征之间的第四匹配度大于预设的第四阈值；

其中，环境音的第二语音特征和第二声纹特征可以是应用处理器42通过将环境音输入深度神经网络得到的；

若应用处理器42确定采集到的环境音满足第二唤醒条件，则触发终端进入唤醒状态，进而打开语音助手应用。

本发明实施例提供的语音唤醒方法中，在终端处于待机状态下时，终端的应用处理器进入休眠状态，通过终端的唤醒芯片对外界环境音进行检测，当唤醒芯片检测到环境音满足第一唤醒条件时，唤醒芯片触发应用处理器工作，不需要应用处理器一直处于工作状态，由于唤醒芯片的功耗比应用处理器更低，从而降低终端功耗。此外，本发明实施例中，通过终端的唤醒芯片对环境音进行检测，若环境音满足第一唤醒条件，还需要应用处理器再次对环境音进行检测，若环境音满足第二唤醒条件时，触发终端进入唤醒状态，通过终端的唤醒芯片与终端的应用处理器对环境音进行两次检测，提高终端对环境音检测的准确度，避免误唤醒终端，降低误唤醒率。

需要说明的是，本发明实施例指出的应用处理器在确定环境音满足第二唤醒条件时触发终端进入唤醒状态，终端所进入的唤醒状态为应用处理器控制下的各个功能模块进入工作状态，如操作系统、用户界面等。

如图5所示，为本发明实施例提供的一种语音唤醒方法的流程图，包括：

步骤S501、终端的唤醒芯片通过麦克风采集环境音；

步骤S502、终端的唤醒芯片确定环境音满足第一唤醒条件时，向终端的应用处理器发送触发信号；

步骤S503、终端的应用处理器在接收到触发信号后，在确定环境音满足第二唤醒条件时触发终端进入唤醒状态。

本发明实施例中，首先通过唤醒芯片对环境音进行检测，在检测过程中，唤醒芯片通过麦克风采集环境音，在采集到的环境音后，对检测到的环境音进行模数转换，将采集到的环境音的模拟信号转换为数字信号，再对环境音进行是否满足唤醒条件的检测，其中，在唤醒芯片检测环境音是否满足第一唤醒条件之前，还需要对采集到的环境音的声压值进行检测。

一种可选的实施方式为，终端的唤醒芯片检测环境音的声压值，并确定环境音的声压值大于预设的声压阈值。

实施中，当检测到环境音的声压值大于预设的声压阈值时，终端的唤醒芯片对环境音进行是否满足第一唤醒条件的判断；若环境音的声压值不大于预设的声压阈值，证明终端的麦克风周围没有声响，继续采集环境音；若环境音的声压值大于预设的声压阈值，证明终端的麦克风周围有声响，终端的唤醒芯片再对环境音进行是否满足第一唤醒条件的检测。对声压值的检测有助于避免嘈杂环境音的干扰，确定麦克风周围有环境音时再对环境音进行是否满足唤醒条件的检测；并且只有声压值大于预设的声压阈值时唤醒芯片才对环境音进行是否满足唤醒条件的检测，避免终端的唤醒芯片一直对环境音进行是否满足唤醒条件的检测，也在一定程度上降低了终端的功耗。

假设，预设的声压阈值为60分贝(dB)，若检测到环境音为70dB，由于环境音的声压值大于预设的声压阈值，唤醒芯片检测环境音是否满足唤醒条件；若检测到环境音为40dB，由于环境音的声压值不大于预设的声压阈值，表明终端可能处于嘈杂的环境下，例如，多人会议环境等，则唤醒芯片继续通过麦克风采集环境音并进行声压值的检测。

当确定环境音的声压值大于预设的声压阈值后，终端可以根据环境音的语音特征判断是否进入唤醒状态，或者终端还可以根据环境音的语音特征和声纹特征判断是否进入唤醒状态，下面针对这两种方式分别进行说明。

方式一、终端根据环境音的语音特征判断是否进入唤醒状态。

终端的唤醒芯片检测环境音是否满足第一唤醒条件，检测环境音是否满足第一唤醒条件的实质为检测环境音是否包含预设的关键词。

一种可选的实施方式为，终端的唤醒芯片通过下列方式确定环境音是否满足第一唤醒条件：

终端的唤醒芯片将环境音输入深度神经网络，获取深度神经网络输出的环境音的用于表示语音内容的第一语音特征；终端的唤醒芯片确定环境音的第一语音特征与预设的关键词特征的第一匹配度大于预设的第一阈值时，确定满足第一唤醒条件。

需要说明的是，本发明实施例中环境音的语音特征表示语音内容，不同的语音内容对应不同的语音特征，其中，语音特征可以是梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)、或者线性预测倒谱系数(Linear Predictive CepstralCoefficient，LPCC)、或者语音帧的音高、音强、音长等物理特征、或者语音的音素等，通过检测语音的语音特征可以确定语音的内容。由于描述一个语音，需要的参数个数非常多，本发明实施例中提供的语音特征参数仅是示例的，并不构成对本发明保护范围的确定。

具体的，终端的唤醒芯片可以通过调用已经训练完成的深度神经网络检测环境音的第一语音特征，将检测到的环境音输入训练完成的深度神经网络可以获得环境音的第一语音特征，通过确定环境音的第一语音特征与预设的关键词特征之间的第一匹配度，检测环境音的内容是否包含预设的关键词。

需要说明的是，检测环境音的语音特征时用到的深度神经网络可以是任意类型的深度神经网络。

其中，预设的关键词特征为表示语音内容为关键词的语音特征，以语音特征为语音帧的音高、音强、音长等物理特征为例，预设的关键词为语音助手应用的开发者选定的，例如，预设的关键词为“小甲小甲”，则预设的关键词特征为语音内容为“小甲小甲”的语音对应的语音特征。在语音助手应用开发过程中，选取一定数量的人群说出的包含预设关键词的语音资料，将获取得到的语音资料输入训练好的深度神经网络中，得到预设的关键词语音特征，基于一定数量的人群的语音资料得到的关键词语音特征是与用户无关的语音特征数据，具有普遍性。假设，“小甲小甲”的语音内容对应8个语音帧，通过训练好的深度神经网络得到的关键词特征为：“音高：54、55、65、24、54、55、65、24；音强：21、25、31、22、21、25、31、22；音长：101、102、105、108、101、102、105、108”，可以将“54_55_65_24_54_55_65_24；21_25_31_22_21_25_31_22；101_102_105_108_101_102_105_108”作为预设的关键词特征。

在检测环境音的第一语音特征时，终端的唤醒芯片将采集到的环境音输入深度神经网络中，得到深度神经网络输出的第一语音特征，唤醒芯片计算环境音的第一语音特征与预设的关键词特征之间的第一匹配度，若第一匹配度大于预设的第一阈值，则唤醒芯片确定满足第一唤醒条件，认为采集到的环境音的内容中包含预设的关键词。

例如，终端的唤醒芯片将采集到的环境音输入深度神经网络中，得到环境音的第一语音特征为：

“54.29_49.85_22.00_24.90_53.29_28.00_32.22_26.54；21.33_24.58_30.55_22.69_21.59_24.33_30.66_22.24；101.00_101.00_105.00_101.00_101.00_132.00_125.00_108.00”。

终端通过唤醒芯片计算环境音的第一语音特征与预设的关键词特征之间的第一匹配度，其中，计算匹配度的算法可以是任意的，本发明实施例并不对计算匹配度的算法进行限定，例如，计算匹配度的算法可以是Soundex算法、网格结构(lattice)等，均可以计算语音特征之间的匹配度。

假设，预设的第一阈值为60％，若计算得到的环境音的第一语音特征与预设的关键词特征之间的第一匹配度为56％，可以确定采集到的环境音内容中不包含预设的关键词；若计算得到的环境音的第一语音特征与预设的关键词特征之间的第一匹配度为77％，可以确定采集到的环境音内容中包含预设的关键词。

需要说明的是，本发明实施例中，针对第一匹配度设置的第一阈值不能过高，过高可能导致不能唤醒终端；第一阈值可以是本领域技术人员通过大量实验后获得的，或者为本领域技术人员设置的经验数值。

若终端的唤醒芯片确定第一匹配度不大于预设的第一阈值，则继续对环境音进行检测；若终端的唤醒芯片确定第一匹配度大于预设的第一阈值，则向终端的应用处理器发送触发信号，通过终端的应用处理器再次对环境音进行检测，以提高检测的准确度，降低误唤醒率。

实施中，终端的唤醒芯片与应用处理器通过I/O口连接，当唤醒芯片确定第一匹配度大于预设的第一阈值时，通过I/O口中断上报的方式向应用处理器发送触发信号，以使应用处理器进一步对环境音进行检测。

终端的应用处理器在接收到触发信号后，检测环境音是否满足第二唤醒条件。

一种可选的实施方式为，终端的应用处理器将环境音输入深度神经网络，获取深度神经网络输出的环境音的用于表示语音内容的第二语音特征；终端的应用处理器确定环境音的第二语音特征与预设的关键词特征的第二匹配度大于预设的第二阈值时，确定满足所述第二唤醒条件。

其中，第二语音特征的精度大于第一语音特征的精度；第二匹配度的精度大于第一匹配度的精度。

具体的，终端的应用处理器先获取当前环境音，终端的唤醒芯片在计算第一匹配度时可以录制预设时间内采集到的环境音，例如，预设时长为2秒。唤醒芯片在计算第一匹配度时，录制2秒内采集到的环境音，若确定第一匹配度不大于预设的第一阈值时，可以释放录制的环境音；确定第一匹配度大于预设的第一阈值时，将录制的2秒内的环境音保存，终端的应用处理器在计算第二匹配度时，读取保存在唤醒芯片中的环境音音频。

终端的应用处理器将环境音输入深度神经网络，获取深度神经网络输出的环境音的第二语音特征，由于处理器本身的计算能力优于唤醒芯片的计算能力，应用处理器调用深度神经网络计算得到的环境音的第二语音特征的精度大于唤醒芯片调用深度神经网络计算得到的环境音的第一语音特征的精度。

例如，终端的应用处理器将获取到的环境音输入深度神经网络中，得到环境音的第二语音特征为：

“25.290_48.852_21.030_23.890_50.289_27.020_32.282_26.544；19.343_24.580_32.515_22.639_20.559_24.133_30.166_22.324；100.010_102.100_110.009_121.890_101.033_132.440_125.521_108.138”。

终端通过应用处理器计算环境音的第二语音特征参数与预设的关键词特征参数之间的第二匹配度，其中，应用处理器计算第二匹配度是用到的匹配度算法可以与唤醒芯片计算第一匹配度时所用的算法相同，但由于应用处理器的计算精度与计算能力均优于唤醒芯片，且第二语音特征与第一语音特征精度不同，所以得到的第二匹配度与第一匹配度不同，且第二匹配度的精度大于第一匹配度。

假设，预设的第二阈值为80％，若计算得到的环境音的第二语音特征与预设的关键词特征之间的第二匹配度为59.32％，可以确定采集到的环境音内容中不包含预设的关键词；若计算得到环境音的第二语音特征与预设的关键词特征之间的第二匹配度为89.99％，可以确定采集到的环境音内容中包含预设的关键词。

需要说明的是，本发明实施例中，针对第二匹配度设置的第二阈值可以与第一阈值相同，也可以与第一阈值不同，本发明实施例中不做具体限定。

在终端的应用处理器确定第二匹配度大于第二阈值时，确定环境音满足第二唤醒条件，触发终端进入唤醒状态，或者在终端进入唤醒状态的时候打开语音助手应用。

如图6所示，为本发明实施例提供的一种语音唤醒方法的完整流程图；

在步骤S601中、终端开启语音唤醒功能；

在步骤S602中、终端的唤醒芯片通过麦克风采集环境音；

在步骤S603中、终端的唤醒芯片检测环境音的声压值，并判断环境音的声压值是否大于预设的声压阈值；若是，执行步骤S604；若否，返回步骤S602；

在步骤S604中、终端的唤醒芯片获取环境音的第一语音特征，并计算环境音的第一语音特征与预设的关键词特征的第一匹配度；

在步骤S605中、终端的唤醒芯片判断第一匹配度是否大于预设的第一阈值；若是，执行步骤S606；若否，返回步骤S602；

在步骤S606中、终端的唤醒芯片保存采集到的环境音音频，并向终端的应用处理器发送触发信号；

在步骤S607中、终端应用处理器接收触发信号，读取唤醒芯片中保存的环境音音频；

在步骤S608中、终端的应用处理器获取环境音的第二语音特征，并计算环境音的第二语音特征与预设的关键词特征的第二匹配度；

在步骤S609中、终端的应用处理器判断第二匹配度是否大于预设的第二阈值；若是，执行步骤S610；若否，执行步骤S611；

在步骤S610中、终端进入唤醒状态；

在步骤S611中、结束。

方式二、终端根据环境音的语音特征和声纹特征判断是否进入唤醒状态。

为提高用户体验，本发明实施例提供的语音唤醒方法还可以在终端中录入用户声纹，当检测到环境音的声纹特征与预先设置的用户的声纹特征匹配时，终端才进入唤醒状态。

需要说明的是，声纹特征可以是多层面的，包括与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等；受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。需要从数学方法通过建模的方式获取声纹特征，本发明实施例中对获取语音的声纹特征的具体方式不做限定，可以通过训练好的深度神经网络获取语音的声纹特征。

用户在终端中预设声纹特征，如图7所示，为本发明实施例提供的预设声纹特征的方法流程图，包括：

在步骤S701中、终端提示用户进行关键词录音；

在步骤S702中、判断录音是否满足计算需求，若是，执行步骤S503；若否，返回步骤S701；

在步骤S703中、将用户录制的关键词录音输入深度神经网络，获取深度神经网络输出的预设的声纹特征；

其中，可以由终端调用深度神经网络获取预设的声纹特征，或者终端可以将用户的录音发送至语音助手应用对应的服务器，由服务器调用深度神经网络获取预设的声纹特征，并将获取到的预设的声纹特征发送至终端。

在步骤S704中、保存预设的声纹特征。

本发明实施例中，终端的唤醒芯片确定环境音的声压值大于预设的声压阈值后，终端的唤醒芯片检测环境音是否满足第一唤醒条件，第一唤醒条件包括环境音中包含预设的关键词且环境音的声纹特征与预设的用户的声纹特征相近。

终端的唤醒芯片将环境音输入深度神经网络，获取深度神经网络输出的环境音的用于表示语音内容的第一语音特征和环境音的第一声纹特征；终端的唤醒芯片确定环境音的第一语音特征与预设的关键词特征的第一匹配度大于预设的第一阈值，且确定环境音的第一声纹特征与预设的声纹特征的第三匹配度大于预设的第三阈值时，确定满足第一唤醒条件。

具体的，终端的唤醒芯片可以通过调用已经训练好的深度神经网络检测环境音的第一语音特征和第一声纹特征，将检测到的环境音的第一语音特征与预设的关键词特征之间的第一匹配度以及环境音的第一声纹特征与预设的声纹特征之间的第三匹配度，检测环境音的内容是否包含预设的关键词且该环境音是否由终端的用户发出。

其中，第一语音特征与预设的关键词特征之间的第一匹配度的计算方法与上述方法相似，在此不再赘述。

本发明实施例中，确定环境音的第一声纹特征与预设的声纹特征值之间匹配度的算法可以是模板匹配方法、最近邻方法、神经网络方法、隐式马尔可夫模型(HMM)方法、VQ聚类方法(如LBG)、多项式分类器方法等，在此不做具体限定。

实施中，环境音的第一语音特征与预设的关键词特征之间的第一匹配度大于预设的第一阈值且环境音的第一声纹特征与预设的声纹特征之间的第三匹配度大于预设的第三阈值时，唤醒芯片才能确定环境音满足第一唤醒条件。假设预设的第一阈值为60％，第三阈值为70％，若计算得到的第一匹配度为56％、第三匹配度为80％，则环境音不满足第一唤醒条件；若计算得到的第一匹配度为70％、第三匹配度为80％，则确定环境音满足第一唤醒条件。

本发明实施例中，判断第一匹配度是否大于第一阈值与判断第三匹配度是否大于第三阈值的顺序不做限定，终端可以同时进行判断，或者可以先判断第一匹配度是否大于第一阈值，当第一匹配度大于第一阈值时，再判断第三匹配度是否大于第三阈值。

当终端的唤醒芯片确定环境音满足第一唤醒条件，则向终端的应用处理器发送触发信号，通过终端的应用处理器再次对环境音进行检测。终端的应用处理器在接收到触发信号后，检测环境音是否满足第二唤醒条件。

一种可选的实施方式为，终端的应用处理器将环境音输入深度神经网络，获取深度神经网络输出的环境音的第二语音特征和环境音的第二声纹特征；终端的应用处理器确定环境音的第二语音特征与预设的关键词特征的第二匹配度大于预设的第二阈值，且确定环境音的第二声纹特征与预设的声纹特征的第四匹配度大于预设的第四阈值时，确定满足第二唤醒条件；

其中，第二语音特征的精度大于第一语音特征的精度；第二声纹特征的精度大于第一声纹特征的精度；第三匹配度的精度大于第一匹配度的精度；第四匹配度的精度大于第二匹配度的精度。

具体的，终端的应用处理器读取保存在唤醒芯片中的环境音音频，将环境音输入深度神经网络，获取深度神经网络输出的环境音的第二语音特征和环境音的第二声纹特征，由于处理器本身的计算能力优于唤醒芯片的计算能力，应用处理器调用深度神经网络计算得到的环境音的第二语音特征的精度大于唤醒芯片调用深度神经网络计算得到的环境音的第一语音特征的精度；应用处理器调用深度神经网络计算得到的环境音的第二声纹特征的精度大于唤醒芯片调用深度神经网络计算得到的环境音的第一声纹特征的精度。

具体的，终端的应用处理器在确定环境音的第二语音特征和环境音的第二声纹特征后，计算第二语音特征与预设的关键词特征之间的第二匹配度以及环境音的第二声纹特征与预设的声纹特征之间的第四匹配度，检测环境音的内容是否包含预设的关键词且该环境音是否由终端的用户发出。

其中，第二语音特征与预设的关键词特征之间的第二匹配度的计算方法、以及第二声纹特征与预设的声纹特征之间的第四匹配度算法与上述方法相似，在此不再赘述。

由于处理器本身的计算能力优于唤醒芯片的计算能力，应用处理器计算得到第二匹配度的精度大于唤醒芯片计算得到的第一匹配度的精度；应用处理器计算得到第四匹配度的精度大于唤醒芯片计算得到的第三匹配度的精度。

实施中，环境音的第二语音特征与预设的关键词特征之间的第二匹配度大于预设的第二阈值且环境音的第二声纹特征与预设的声纹特征之间的第四匹配度大于预设的第四阈值时，应用处理器才能确定环境音满足第二唤醒条件。假设预设的第二阈值为80％，第四阈值为80％，若计算得到的第二匹配度为59.32％、第四匹配度为72.23％，则环境音不满足第二唤醒条件；若计算得到的第二匹配度为85.22％、第四匹配度为80.49％，则确定环境音满足第二唤醒条件。

本发明实施例中，判断第二匹配度是否大于第二阈值与判断第四匹配度是否大于第四阈值的顺序不做限定，终端可以同时进行判断，或者可以先判断第二匹配度是否大于第二阈值，当第二匹配度大于第二阈值时，再判断第四匹配度是否大于第四阈值。

如图8-9所示，为本发明实施例提供的另一种语音唤醒方法的完整流程图，其中，如图8所示，为本发明实施例提供的一种语音唤醒方法中唤醒芯片计算阶段的完整流程图，包括：

在步骤S801中、终端开启语音唤醒功能；

在步骤S802中、终端的唤醒芯片通过麦克风采集环境音；

在步骤S803中、终端的唤醒芯片检测环境音的声压值，并判断环境音的声压值是否大于预设的声压阈值；若是，执行步骤S804；若否，返回步骤S802；

在步骤S804中、终端的唤醒芯片获取环境音的第一语音特征，并计算环境音的第一语音特征与预设的关键词特征的第一匹配度；

在步骤S805中、终端的唤醒芯片判断第一匹配度是否大于预设的第一阈值；若是，执行步骤S806；若否，返回步骤S802；

在步骤S806中、终端的唤醒芯片获取环境音的第一声纹特征，并计算环境音的第一声纹特征与预设的声纹特征的第三匹配度；

在步骤S807中、终端的唤醒芯片判断第三匹配度是否大于预设的第三阈值；若是，执行步骤S808；若否，返回步骤S802；

在步骤S808中、终端的唤醒芯片保存采集到的环境音音频，并向终端的应用处理器发送触发信号。

如图9所示，为本发明实施例提供的一种语音唤醒方法中应用处理器计算阶段的完整流程图，包括：

在步骤S901中、终端应用处理器接收触发信号，读取唤醒芯片中保存的环境音音频；

在步骤S902中、终端的应用处理器获取环境音的第二语音特征，并计算环境音的第二语音特征与预设的关键词特征的第二匹配度；

在步骤S903中、终端的应用处理器判断第二匹配度是否大于预设的第二阈值；若是，执行步骤S904；若否，执行步骤S907；

在步骤S904中、终端的应用处理器获取环境音的第二声纹特征，并计算环境音的第二声纹特征与预设的声纹特征的第四匹配度；

在步骤S905中、终端的应用处理器判断第四匹配度是否大于预设的第四阈值；若是，执行步骤S906；若否，执行步骤S907；

在步骤S906中、终端进入唤醒状态；

在步骤S907中、结束。

需要说明的是，本发明实施例提供的语音唤醒方法还可以在唤醒芯片计算阶段只进行语音内容检测，不进行声纹检测，在应用处理器阶段既进行语音内容的检测又进行声纹检测，本发明实施例对此不做限定。

基于同一发明构思，本发明实施例中还提供了一种语音唤醒装置，由于该装置解决问题的原理与本发明实施例语音唤醒方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图10所示，本发明实施例一种语音唤醒装置，包括：

采集模块1001，用于采集环境音；

第一唤醒模块1002，用于确定所述环境音满足第一唤醒条件时，向所述终端的应用处理器发送触发信号；

第二唤醒模块1003，用于在终端应用处理器接收到所述触发信号后，在确定所述环境音满足第二唤醒条件时触发所述终端进入唤醒状态。

可选的，所述第一唤醒模块1002具体用于：

可选的，所述第二唤醒模块1003具体用于：

可选的，所述第一唤醒模块1002具体用于：

可选的，所述第二唤醒模块1003具体用于：

可选的，所述第一唤醒模块1002还用于：

本发明实施例还提供一种计算机可存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一方法的步骤。

由于本发明实施例中的通信终端和计算机存储介质可以应用于上述处理方法，因此，其所能获得的技术效果也可参考上述方法实施例，本发明的实施例在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种终端，其特征在于，包括麦克风、唤醒芯片和应用处理器：

麦克风，用于采集环境音；

2.如权利要求1所述的终端，其特征在于，所述唤醒芯片具体用于：

3.如权利要求2所述的终端，其特征在于，所述应用处理器具体用于：

4.如权利要求1所述的终端，其特征在于，所述唤醒芯片具体用于：

5.如权利要求4所述的终端，其特征在于，所述应用处理器具体用于：

6.如权利要求1所述的终端，其特征在于，在通过麦克风采集环境音之后，确定所述环境音满足第一唤醒条件之前，所述唤醒芯片还用于：

7.一种语音唤醒方法，其特征在于，包括：

终端的唤醒芯片通过麦克风采集环境音；

8.如权利要求7所述的方法，其特征在于，所述终端的唤醒芯片通过下列方式确定所述环境音满足第一唤醒条件：

9.如权利要求8所述的方法，其特征在于，所述终端的应用处理器通过下列方式确定所述环境音满足第二唤醒条件：

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求7至9任一项所述的方法。