CN110797015A

CN110797015A - 语音唤醒方法、装置、电子设备及存储介质

Info

Publication number: CN110797015A
Application number: CN201811544376.3A
Authority: CN
Inventors: 刘阳; 王飞
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2020-02-14
Anticipated expiration: 2038-12-17
Also published as: CN110797015B

Abstract

本申请提供了一种语音唤醒方法、装置、电子设备及存储介质，其中，该方法包括：获取待识别语音数据，对所述待识别语音数据进行识别，获取所述待识别语音数据的识别结果，若所述识别结果包括多个预设唤醒词中的至少一个，则从待机状态切换至唤醒状态。本申请实施例能够通过多个预设唤醒词唤醒电子设备，提高了语音唤醒的灵活性和效率。

Description

语音唤醒方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种语音唤醒方法、装置、电子设备及存储介质。

背景技术

目前，电子设备越来越普及，通常，为了节省系统开销，电子设备在闲置一段时间后可以进入待机状态，之后，当该电子设备的电源键被按下时，该电子设备可以被唤醒。但由于硬件唤醒的方式需要用户手动操作，效率较低，因此，随着语音处理技术的不断发展，更加智能和高效的语音唤醒开始逐渐受到关注。

现有技术中，用户可以通过说话发出语音，电子设备获取到待识别语音数据并对该待识别语音数据进行识别，如果识别到该待识别语音数据是否预设唤醒词对应，则进入唤醒状态，否则继续保持待机状态。

但在现有技术中，电子设备通常只能够识别一个预设唤醒词，用户需要严格针对该预设唤醒词发出语音才能够唤醒该电子设备，如果用户所发出的语音中还包括其它与该预设唤醒词无关的信息，则无法唤醒该电子设备，语音唤醒的灵活性和效率低下。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语音唤醒方法、装置、电子设备及存储介质，能够通过多个预设唤醒词唤醒电子设备，提高了语音唤醒的灵活性和效率。

根据本申请的一个方面，提供一种语音唤醒方法，包括：

获取待识别语音数据；

对所述待识别语音数据进行识别，获取所述待识别语音数据的识别结果；

若所述识别结果包括多个预设唤醒词中的至少一个，则从待机状态切换至唤醒状态。

可选地，所述对所述待识别语音数据进行识别，获取所述待识别语音数据的识别结果，包括：

识别所述待识别语音数据的多个目标关键词元素，各所述目标关键词元素包括至少一个字符；

基于所述多个目标关键词元素在所述待识别语音数据中的出现顺序，将所述多个目标关键词元素拼接，得到目标语句。

可选地，所述识别所述待识别语音数据的多个目标关键词元素，包括：

通过预设声学打分模型对所述待识别语音数据进行打分处理，得到评分矩阵，所述评分矩阵的每行对应一个目标关键词元素，每行包括的多个列表示所述目标关键词元素针对多个预设关键词元素的评分；

分别从所述评分矩阵的各行包括的多个评分中，获取最高评分所在列的索引，得到多个索引；

分别获取所述多个索引对应的预设关键词元素，得到所述多个目标关键词元素。

可选地，所述通过预设声学打分模型对所述待识别语音数据进行打分处理，得到评分矩阵，包括：

对所述待识别语音数据进行分帧处理，得到多组语音子数据；

通过所述预设声学打分模型对所述多组语音子数据进行打分处理，得到所述评分矩阵。

可选地，所述分别从所述评分矩阵的各行包括的多个评分中，获取最高评分所在列的索引，包括：

获取当前行的前一行中最高评分的索引作为前置索引；

从索引构图中，获取与所述前置索引相邻的多个后置索引，所述索引构图包括多个预设关键词元素对应的索引之间的前后置关系；

基于当前行中与所述多个后置索引对应的列的评分，从所述多个后置索引中获取最高评分对应的后置索引。

可选地，所述基于所述多个目标关键词元素在所述待识别语音数据中的出现顺序，将所述多个目标关键词元素拼接，包括：

基于所述多个目标关键词元素中相邻两个目标关键词元素在索引构图中的前后置关系，将所述多个目标关键词元素依次拼接，所述索引构图包括多个预设关键词元素对应的索引之间的前后置关系。

可选地，在所述通过预设声学打分模型对所述待识别语音数据进行打分之前，还包括：

获取多个样本语音数据，所述样本语音数据包括至少一个目标关键词元素，且所述多个样本语音数据包括至少一个预设唤醒词所包括的所有目标关键词元素；

基于所述多个样本语音数据对所述预设声学打分模型进行训练。

可选地，还包括：

获取多个预设关键词元素；

分别确定各所述预设关键词元素的索引；

基于各所述预设关键词元素对应的索引，生成所述索引构图。

可选地，所述目标关键词元素和所述预设关键词元素包括一个汉字。

根据本申请的另一个方面，提供一种语音唤醒装置，包括：

第一获取模块，用于获取待识别语音数据；

识别模块，用于对所述待识别语音数据进行识别，获取所述待识别语音数据的识别结果；

切换模块，用于若所述识别结果包括多个预设唤醒词中的至少一个，则从待机状态切换至唤醒状态。

可选地，所述识别模块具体用于：

获取当前行的前一行中最高评分的索引作为前置索引；

可选地，所述识别模块具体用于：

可选地，还包括：

第二获取模块，用于获取多个样本语音数据，所述样本语音数据包括至少一个目标关键词元素，且所述多个样本语音数据包括至少一个预设唤醒词所包括的所有目标关键词元素；

训练模块，用于基于所述多个样本语音数据对所述预设声学打分模型进行训练。

可选地，还包括：

第三获取模块，用于获取多个预设关键词元素；

确定模块，用于分别确定各所述预设关键词元素的索引；

生成模块，用于基于各所述预设关键词元素对应的索引，生成所述索引构图。

根据本申请的另一个方面，提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如前述的语音唤醒方法的步骤。

根据本申请的另一个方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如前述的语音唤醒方法的步骤。

在本申请实施例中，可以获取待识别语音数据，并对该待识别语音数据进行识别，获取该待识别语音数据的识别结果，从而在识别结果包括多个预设唤醒词中的至少一个时，从待机状态切换至唤醒状态。也即是能够通过多个预设唤醒词唤醒电子设备，且用户的语音不需要严格与预设唤醒词对应，提高了唤醒电子设备的灵活性和效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种语音唤醒系统的框图；

图2示出了本申请实施例所提供的一种电子设备的框图；

图3示出了本申请实施例所提供的一种语音唤醒方法的流程图；

图4示出了本申请实施例所提供的一种语音唤醒方法的流程图；

图5示出了本申请实施例所提供的一种语音唤醒装置的框图；

图6示出了本申请实施例所提供的另一种语音唤醒装置的框图；

图7示出了本申请实施例所提供的另一种语音唤醒装置的框图；

图8示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“打车终端的唤醒”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕打车终端的唤醒进行描述，但是应该理解，这仅是一个示例性实施例。本申请可以应用于任何对终端或电子设备进行唤醒的场景中。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请的一个方面涉及一种语音唤醒方法，可以获取待识别语音数据，并对该待识别语音数据进行识别，获取该待识别语音数据的识别结果，若识别结果包括多个预设唤醒词中的至少一个，则从待机状态切换至唤醒状态。

值得注意的是，在本申请提出申请之前，电子设备只能够识别一个预设唤醒词进行唤醒，如果用户所发出的语音中还包括其它与该预设唤醒词无关的信息，则无法唤醒该电子设备。然而，本申请提供的语音唤醒方法语音唤醒方法，能够在待识别语音数据中包括至少一个的任意预设唤醒词时，唤醒电子设备，提高了唤醒电子设备的灵活性和效率。

图1是本申请一些实施例的语音唤醒系统100的框图。例如，语音唤醒系统100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意组合的在线运输服务平台。语音唤醒系统100可以包括服务器110、网络120、服务请求方终端130、服务提供方终端140和数据库150中的一种或多种，服务器110中可以包括执行指令操作的处理器。

在一些实施例中，服务器110可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式系统)。在一些实施例中，服务器110相对于终端，可以是本地的、也可以是远程的。例如，服务器110可以经由网络120访问存储在服务请求方终端130、服务提供方终端140、或数据库150、或其任意组合中的信息和/或数据。作为另一示例，服务器110可以直接连接到服务请求方终端130、服务提供方终端140和数据库150中至少一个，以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。在一些实施例中，服务器110可以在具有本申请中图2所示的一个或多个组件的电子设备200上实现。

在一些实施例中，服务器110可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器可以基于从服务请求方终端130获得的服务请求来确定目标车辆。在一些实施例中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing,RISC)、或微处理器等，或其任意组合。

网络120可以用于信息和/或数据的交换。在一些实施例中，语音唤醒系统100中的一个或多个组件(例如，服务器110，服务请求方终端130，服务提供方终端140和数据库150)可以向其他组件发送信息和/或数据。例如，服务器110可以经由网络120从服务请求方终端130获取服务请求。在一些实施例中，网络120可以是任何类型的有线或者无线网络，或者是他们的结合。仅作为示例，网络130可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless Local Area Networks，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、公共电话交换网(Public Switched TelephoneNetwork，PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication,NFC)网络等，或其任意组合。在一些实施例中，网络120可以包括一个或多个网络接入点。例如，网络120可以包括有线或无线网络接入点，例如基站和/或网络交换节点，语音唤醒系统100的一个或多个组件可以通过该接入点连接到网络120以交换数据和/或信息。

在一些实施例中，服务请求方终端130的用户可以是除服务实际需求者之外的其他人。例如，服务请求方终端130的用户A可以使用服务请求方终端130来为服务实际需求者B发起服务请求(比如，用户A可以为自己的朋友B叫车)，或者从服务器110接收服务信息或指令等。在一些实施例中，服务提供方终端140的用户可以是服务实际提供者，也可以是除服务实际提供者之外的其他人。例如，服务提供方终端140的用户C可以使用服务提供方终端140接收由服务实际提供者D提供服务的服务请求(比如用户C可以为自己雇用的司机D接单)，和/或来自服务器110的信息或指令。在一些实施例中，“服务请求方”和“服务请求方终端”可以互换使用，“服务提供方”和“服务提供方终端”可以互换使用。

在一些实施例中，服务请求方终端130可以包括移动设备、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏设备、导航设备、或销售点(point of sale，POS)设备等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实玻璃、虚拟现实贴片、增强现实头盔、增强现实玻璃、或增强现实贴片等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。在一些实施例中，机动车辆中的内置设备可以包括车载计算机、车载电视等。在一些实施例中，服务请求方终端130可以是具有用于定位服务请求方和/或服务请求方终端的位置的定位技术的设备。

在一些实施例中，服务提供方终端140可以是与服务请求方终端130类似或相同的设备。在一些实施例中，服务提供方终端140可以是具有定位技术的设备，用于定位服务提供方和/或服务提供方终端的位置。在一些实施例中，服务请求方终端130和/或服务提供方终端140可以与其他定位设备通信以确定服务请求方、服务请求方终端130、服务提供方、或服务提供方终端140、或其任意组合的位置。在一些实施例中，服务请求方终端130和/或服务提供方终端140可以将定位信息发送给服务器110。

数据库150可以存储数据和/或指令。在一些实施例中，数据库150可以存储从服务请求方终端130和/或服务提供方终端140获得的数据。在一些实施例中，数据库150可以存储在本申请中描述的示例性方法的数据和/或指令。在一些实施例中，数据库150可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory,ROM)等，或其任意组合。作为举例，大容量存储器可以包括磁盘、光盘、固态驱动器等；可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等；易失性读写存储器可以包括随机存取存储器(Random Access Memory,RAM)；RAM可以包括动态RAM(Dynamic RandomAccess Memory,DRAM)，双倍数据速率同步动态RAM(Double Date-Rate Synchronous RAM，DDR SDRAM)；静态RAM(Static Random-Access Memory,SRAM)，晶闸管RAM(Thyristor-Based Random Access Memory,T-RAM)和零电容器RAM(Zero-RAM)等。作为举例，ROM可以包括掩模ROM(Mask Read-Only Memory,MROM)、可编程ROM(Programmable Read-OnlyMemory，PROM)、可擦除可编程ROM(Programmable Erasable Read-only Memory，PEROM)、电可擦除可编程ROM(Electrically Erasable Programmable read only memory，EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。在一些实施例中，数据库150可以在云平台上实现。仅作为示例，云平台可以包括私有云、公有云、混合云、社区云、分布式云、跨云、多云或者其它类似的等，或其任意组合。

在一些实施例中，数据库150可以连接到网络120以与语音唤醒系统100(例如，服务器110，服务请求方终端130，服务提供方终端140等)中的一个或多个组件通信。语音唤醒系统100中的一个或多个组件可以经由网络120访问存储在数据库150中的数据或指令。在一些实施例中，数据库150可以直接连接到语音唤醒系统100中的一个或多个组件(例如，服务器110，服务请求方终端130，服务提供方终端140等)；或者，在一些实施例中，数据库150也可以是服务器110的一部分。

在一些实施例中，语音唤醒系统100中的一个或多个组件(例如，服务器110，服务请求方终端130，服务提供方终端140等)可以具有访问数据库150的权限。在一些实施例中，当满足一定条件时，语音唤醒系统100中的一个或多个组件可以读取和/或修改与服务请求方、服务提供方、或公众、或其任意组合有关的信息。例如，服务器110可以在接收服务请求之后读取和/或修改一个或多个用户的信息。作为另一示例，服务提供方终端140可以在从服务请求方终端130接收服务请求时访问与服务请求方有关的信息，但是服务提供方终端140可以不修改服务请求方的相关信息。

在一些实施例中，可以通过请求服务来实现语音唤醒系统100中的一个或多个组件的信息交换。服务请求的对象可以是任何产品。在一些实施方案中，产品可以是有形产品或非物质产品。有形产品可包括食品、药品、商品、化学产品、电器、服装、汽车、房屋、或奢侈品等，或其任意组合。非物质产品可以包括服务产品、金融产品、知识产品、或互联网产品等，或其任意组合。互联网产品可以包括单独的主机产品、网络产品、移动互联网产品、商业主机产品、或嵌入式产品等，或其任意组合。互联网产品可以用在移动终端的软件、程序、或系统等，或者它们的任意组合中。移动终端可以包括平板电脑、笔记本电脑、移动电话、个人数字助理(Personal Digital Assistant，PDA)、智能手表、销售点(Point of sales，POS)设备、车载电脑、车载电视、或可穿戴设备等，或其任意组合。例如，互联网产品可以是计算机或移动电话中使用的任何软件和/或应用程序。软件和/或应用程序可以涉及社交、购物、运输、娱乐时间、学习、或投资等，或其任意组合。在一些实施例中，与运输有关的软件和/或应用程序可以包括旅行软件和/或应用程序、车辆调度软件和/或应用程序、绘图软件和/或应用程序等。在车辆调度软件和/或应用程序中，车辆可包括马、马车、人力车(例如，独轮车、自行车、三轮车等)、汽车(例如，出租车、公共汽车、私家车等)、火车、地铁、船只、飞机(例如，飞机、直升机、航天飞机、火箭、热气球等)等，或其任意组合。

图2示出根据本申请的一些实施例的可以实现本申请思想的服务器110、服务请求方终端130、服务提供方终端140的电子设备200的示例性硬件和软件组件的示意图。

电子设备200可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的语音唤醒方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口250。

为了便于说明，在电子设备200中仅描述了一个处理器。然而，应当注意，本申请中的电子设备200还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备200的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

图3示出了本申请的一些实施例的语音唤醒方法的流程图。需要说明的是，本申请所述的语音唤醒方法并不以图3以及以下所述的具体顺序为限制，应当理解，在其它实施例中，本申请所述的语音唤醒方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。下面将对图3所示的流程进行详细阐述。

步骤301，获取待识别语音数据。

为了便于确定用户是否唤醒电子设备，可以获取带识别语音数据。

待识别语音数据为用于判断是否唤醒电子设备的语音数据。

其中，终端可以通过调用麦克风来录制得到待识别语音数据。

步骤302，对待识别语音数据进行识别，获取该待识别语音数据的识别结果。

为了确定用户的语音中所包括的具体内容，从而确定是否唤醒电子设备，可以对待识别语音数据进行识别，以得到标识用户的语音内容的识别结果。

识别结果为对待识别语音数据进行识别得到的结果，该识别结果可以包括文本。

可以通过预先设置的语音识别模型(例如，(Automatic Speech Recognition，ASR))对待识别语音数据进行识别，从而将该待识别语音数据转换为文本。

需要说明的是，语音识别模型还可以包括其它能够用于进行语音识别的模型。

步骤303，若识别结果包括多个预设唤醒词中的至少一个，则从待机状态切换至唤醒状态。

当识别结果中包括至少一个任意的预设唤醒词，则可以确定用户需要唤醒电子设备，因此，该电子设备可以从待机状态切换至唤醒状态。也即是，可以提供多个预设唤醒词，当用户的语音中包括至少一个任意的预设唤醒词，即可唤醒电子设备，而不需要通过单一的严格与预设唤醒词对应的语音唤醒电子设备，提高了唤醒电子设备的灵活性和效率。

预设唤醒词为预先设置的用于唤醒电子设备的词。

需要说明的是，预设唤醒词可以是电子设备在出厂时预置的唤醒词，也可以是出厂后接收用户提交得到的唤醒词。

待机状态为电子设备开机但是不进行任何实质性工作的状态。在该待机状态下，电子设备可以只对内存供电，而不对屏幕等部件供电。

唤醒状态与待机状态相对，在该唤醒状态下，电子设备可以进行实质性工作。

电子设备可以在确定识别结果包括多个预设唤醒词中的至少一个时，从待机状态切换至唤醒状态，在确定识别结果为包括任何预设唤醒词时，保持待机状态。

另外，在本申请的另一可选实施例中，电子设备可以同时执行上述对待识别语音数据进行识别以及判断当前的识别结果中是否包括预设唤醒词的步骤，也即是，可以在首次识别得到任一预设唤醒词时即从待机状态切换至唤醒状态，而不再对剩余的待识别语音数据进行识别。

例如，预设唤醒词包括“小嘀你好”。当用户说“小嘀你好我今天要去开会”时，电子设备可以对用户的语音进行识别，当识别到“小嘀你好”时即可进行唤醒状态，而不必再对后续的“我今天要去开会”进行识别。

图4示出了本申请的一些实施例的语音唤醒方法的流程图。需要说明的是，本申请所述的语音唤醒方法并不以图4以及以下所述的具体顺序为限制，应当理解，在其它实施例中，本申请所述的语音唤醒方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。下面将对图4所示的流程进行详细阐述。

步骤401，获取待识别语音数据。

其中，获取待识别语音数据的方式，可以参见前述步骤301中的相关描述，此处不再一一赘述。

步骤402，识别待识别语音数据的多个目标关键词元素，各目标关键词元素包括至少一个字符。

由于用户的自然语言中，可以通过字或词意义组成完整的语句，比如通过字母组成单词、通过单词或汉字组成句子等，因此，为了便于后续确定用户的语音所包括的内容，可以识别待识别语音数据中的目标关键词元素。

关键词元素为语音中构成句子的元素，也是对待识别语音数据进行识别的最小单位，该关键词元素可以包括至少一个字符，比如可以包括一个汉字、一个词组、一个单词或者一个字母等。

目标关键词元素为构成多个预设唤醒词中任一预设唤醒词的关键词。

可选地，通过预设声学打分模型对待识别语音数据进行打分处理，得到评分矩阵，该评分矩阵的每行对应一个目标关键词元素，每行包括的多个列表示目标关键词元素针对多个预设关键词元素的评分，分别从该评分矩阵的各行包括的多个评分中，获取最高评分所在列的索引，得到多个索引，分别获取多个索引对应的预设关键词元素，得到多个目标关键词元素。

为了准确地识别出用户的语音所包括的内容，可以将根据待识别语音数据预测得到的内容与作为参照的内容进行比较，基于预测得到的内容与作为参照的内容的匹配程度，选择匹配程度最高的内容作为识别得到的内容。

预设声学打分模型用于对用户的声音进行打分，从而确定该声音中多个目标关键词元素分别为多个预设关键词元素的评分。当该评分越高，则目标关键词元素为相应的预设关键词元素的可能性越大。

评分矩阵为包括多个评分的矩阵，其中，该评分矩阵的多个行可以按照多个目标关键词元素在待识别语音数据中的顺序，分别对应一个目标关键词元素，每行的各个评分表示对应的目标关键元素分别多个预设关键词元素的评分，且该评分所在的列的序号为相应预设关键词元素的索引，该索引所对应的预设关键词元素即为该行对应的目标关键词元素。

预设关键词元素可以为用户可能说出的任意内容，多个预设关键词元素可以作为对待识别语音数据进行识别的资料库，且该多个预设关键词元素可以通过事先设置得到。

例如，对于流通在中国大陆的电子设备，多个预设关键词元素可以包括3000或5000以内的常用简体汉字。

需要说明的是，可以从索引与关键词元素之间的对应关系中，获取与索引对应的预设关键词元素。

可选地，目标关键词元素和预设关键词元素包括一个汉字。

目标关键词元素和预设关键词元素包括一个汉字，可以确保能够逐字对待识别语音数据进行识别，减少了漏掉待识别语音数据所包括信息的可能，提高了对待语音数据进行识别的准确性和可靠性，进而也提高了后续唤醒电子设备的可靠性。

例如，通过预设声学打分模型对待识别语音数据1进行打分处理，得到5行、10列大小的评分矩阵1为：

由上述评分矩阵1可知，各行评分最高的列的序号(即索引)分别为X9、X7、X1、X1和X10，基于上述5个索引，从索引与关键词元素之间的对应关系中，获取得到5个汉字分别为“你”、“好”、“嘀”、“嘀”和“哒”。

还需要说明的是，可以事先获取多个预设关键词元素，并生成各与预设关键词元素对应的索引，将多个预设关键词元素与对应的索引，存储在索引与关键词元素之间的对应关系中。

可选地，可以获取多个样本语音数据，各样本语音数据包括至少一个目标关键词元素，且该多个样本语音数据包括至少一个预设唤醒词所包括的所有目标关键词元素，基于该多个样本语音数据对预设声学打分模型进行训练。

为了进一步提高对待识别语音数据进行识别的准确性，可以对事先获取样本语音数据，以对该预设声学打分模型进行训练。且由于对待识别语音数据识别的最小单位为关键词元素，因此，对于各个样本语音数据，只需要包括至少一个目标关键词元素，且该多个样本语音数据包括多个目标关键词元素即可对该预设声学打分模型进行训练，减少了对样本语音数据的限制，因此不需要专门录制样本语音数据，即能够获取到样本语音数据，降低了获取样本语音数据以及对预设声学打分模型进行训练的难度。

样本语音数据为对预设声学打分模型进行训练的语音数据。各样本语音数据可以通过事先获取得到，比如，可以通过收集用户在日常生活中的语音得到。

例如，预设唤醒词包括“小嘀你好”、“小嘀小嘀”、“小嘀同学”、和“嘀嘀”，其中，“小嘀你好”包括的目标关键词元素为“小”、“嘀”、“你”、“好”，“小嘀小嘀”包括的目标关键词元素为“小”、“嘀”，“小嘀同学”包括的目标关键词元素为“小”、“嘀”、“同”、“学”，“嘀嘀”包括的目标关键词元素为“嘀”，上述四个预设唤醒词包括的目标关键词元素为“小”“嘀”“你”“好”“同”、“学”。因此，可以获取用于预设声学打分模型训练的多个样本语音数据，其中，每个样本语音数据包括“小”、“嘀”、“你”或“好”，且该多个样本语音数据包括“小”、“嘀”、“你”和“好”；或者，每个样本语音数据包括“小”或“嘀”，且该多个样本语音数据1包括“小”和“嘀”；或者，每个样本语音数据包括“小”、“嘀”、“同”或“学”，且该多个样本语音数据包括“小”、“嘀”、“同”和“学”；或者，每个样本语音数据包括“嘀”；或者，每个样本语音数据包括“小”、“嘀”、“你”、“好”、“同”或“学”，且该多个样本语音数据包括“小”、“嘀”、“你”、“好”、“同”和“学”。

需要说明的是，多个样本语音数据包括目标关键词元素越多，训练后的预设声学打分模型对待识别语音数据进行识别得到各预设唤醒词的准确性越高，从而唤醒电子设备的准确性和效率也就越高。

可选地，对待识别语音数据进行分帧处理，得到多组语音子数据，通过预设声学打分模型对该多组语音子数据进行打分处理，得到评分矩阵。

为了减少漏掉待识别语音数据中包括信息的可能，从而提高对待识别语音数据进行识别的准确性和可靠性，可以对待识别语音数据进行分帧处理，从对分帧得到的多组语音子数据进行打分处理。

各组语音子数据可以包括至少一帧，且该语音子数据可以对应评分矩阵中的一行，即该语音子数据可以对应一个目标关键词元素。

例如，可以对待识别语音数据1进行分帧处理，得到5组语音子数据，且各语音子数据包括1帧，从而分别对5组语音子数据进行打分处理，得到评分矩阵1。

可选地，获取当前行的前一行中最高评分的索引作为前置索引，从索引构图中，获取与该前置索引相邻的多个后置索引，该索引构图包括多个预设关键词元素对应的索引之间的前后置关系，基于当前行中与该多个后置索引对应的列的评分，从多个后置索引中获取最高评分对应的后置索引。

由于用户的语言具有一定的语义，相应的，组成一个语句中的关键词元素之间也具有逻辑关系，比如“你”之后是“好”的可能性比是“腿”的可能性大，而由前述可知，评分矩阵包括的各行次序也是与相应目标关键词元素在待识别语音数据中的顺序一致，因此，为了减少对不符合预设关键词元素所对应的评分进行比较的可能，缩小所比较的评分的范围，提高确定索引的效率，进而提高对待识别语音数据进行识别的效率，可以通过索引构图，根据当前索引确定在该当前索引之后相邻的索引。

索引构图可以为特定格式的图，用于表示多个预设关键词元素之间逻辑关系，从而说明任一预设关键词元素之后可能连接的另一预设关键词。其中，对于任意两个具有前后置关系的索引，其中的前置索引可以指向后置索引，相应的，该前置索引和后置索引所对应的预设关键词元素之间，可以按照该前置索引和后置索引的前后顺序连接。

需要说明的是，对于评分矩阵中的首行，可以将该行包括的所有评分中选择得到最高评分所在列的序号作为索引，对于该评分矩阵的其它行，即可以以该行的前一行中最高评分的索引作为前置索引，从索引构图中获取该前置索引的多个后置索引，进而从该多个后置索引中得到该行对应的目标关键词元素所对应的索引。

例如，通过预设声学打分模型对待识别语音数据2进行打分，得到200行、5000列的评分矩阵2，对于第一行，从5000列评分中确定最高评分的索引为X100，对于第二行，基于X100，从索引构图中获取得到X100、X10、X1和X55等5个索引，将该5个索引所在列的评分进行比较，确定X55所在列的评分最高，因此，确定第二行对应的目标关键词元素所对应的索引为X55，相对于对5000个评分进行比较，减少了大量的比较流程，大幅提高了效率。按照相似的方式，依次后续行对应的目标关键词元素所对应的索引。

可选地，获取多个预设关键词元素，分别确定各预设关键词元素的索引，基于各预设关键词元素对应的索引，生成索引构图。

为了确保能够通过索引构图得到索引，可以事先获取生成索引构图。

其中，可以多个包括语句的文本数据，基于该文本数据中任意两个预设关键词的连接次序，确定该两个预设关键词所对应的索引的前后置关系，基于多个预设关键词元素之间的前后置关系，生成由各预设关键词元素对应的索引构成的索引构图。

另外，在实际应用中，也可以通过其它方式识别所述待识别语音数据的多个目标关键词元素，比如，通过其它种类的语音识别模型对该待识别语音数据进行识别。

步骤403，基于多个目标关键词元素在待识别语音数据中的出现顺序，将多个目标关键词元素拼接，得到目标语句。

为了生成具有正常语义的语句，可以按照目标关键词元素在待识别语音数据中的顺序，即按照用户所说内容之间的逻辑关系，将多个目标关键词元素进行拼接。

其中，可以按照各目标关键词元素所对应的行在评分矩阵中的次序，将多个目标关键词元素进行拼接。

目标语句为多个目标关键词元素拼接的结果，该目标语句可以对应一个预设唤醒词。

可选地，基于多个目标关键词元素中相邻两个目标关键词元素在索引构图中的前后置关系，将该多个目标关键词元素依次拼接，该索引构图包括多个预设关键词元素对应的索引之间的前后置关系。

由前述可知，索引构图能够说明任一预设关键词元素之后可能连接的另一预设关键词，即能够说明关键词元素之间的连接次序，因此，为了提高获取得到目标语句的准确性，可以按照索引构图，将多个目标关键词元素依次拼接。

另外，在本申请的另一可选实施例中，若存在连续相同的多个目标关键词元素，可以仅保留一个目标关键词元素，也即是，将连续相同的多个目标关键词元素压缩为一个目标关键词元素。

步骤404，若识别结果包括多个预设唤醒词中的至少一个，则从待机状态切换至唤醒状态。

其中，若识别结果包括多个预设唤醒词中的至少一个，则从待机状态切换至唤醒状态的方式，可以参见前述步骤303中的相关描述，此处不再一一赘述。

在本申请实施例中，首先，可以获取待识别语音数据，并对该待识别语音数据进行识别，获取该待识别语音数据的识别结果，从而在识别结果包括多个预设唤醒词中的至少一个时，从待机状态切换至唤醒状态。也即是能够通过多个预设唤醒词唤醒电子设备，且用户的语音不需要严格与预设唤醒词对应，提高了唤醒电子设备的灵活性和效率。

其次，能够通过预设声学打分模型对待识别语音数据进行打分处理，得到评分矩阵，根据评分矩阵包括的各行最高评分的索引，确定该行所对应的目标关键词元素，从而能够将根据待识别语音数据预测得到的内容与作为参照的内容进行比较，基于预测得到的内容与作为参照的内容的匹配程度，选择匹配程度最高的内容作为识别得到的内容，从而能够准确识对用户的语音进行识别。

另外，可以根据索引构图，从评分矩阵中确定各行评分最高评分的索引，缩小所比较的评分的范围，提高确定索引的效率。

图5是示出本申请的一些实施例的语音唤醒装置的框图，该语音唤醒装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图所示，语音唤醒装置可以包括第一获取模块501、识别模块502和切换模块503。

第一获取模块501，用于获取待识别语音数据；

识别模块502，用于对待识别语音数据进行识别，获取该待识别语音数据的识别结果；

切换模块503，用于若识别结果包括多个预设唤醒词中的至少一个，则从待机状态切换至唤醒状态。

可选地，识别模块502具体用于：

识别待识别语音数据的多个目标关键词元素，各目标关键词元素包括至少一个字符；

基于多个目标关键词元素在待识别语音数据中的出现顺序，将该个目标关键词元素拼接，得到目标语句。

可选地，识别模块502具体用于：

通过预设声学打分模型对待识别语音数据进行打分处理，得到评分矩阵，该评分矩阵的每行对应一个目标关键词元素，每行包括的多个列表示目标关键词元素针对多个预设关键词元素的评分；

分别从评分矩阵的各行包括的多个评分中，获取最高评分所在列的索引，得到多个索引；

分别获取多个索引对应的预设关键词元素，得到多个目标关键词元素。

可选地，识别模块502具体用于：

对待识别语音数据进行分帧处理，得到多组语音子数据；

通过预设声学打分模型对多组语音子数据进行打分处理，得到评分矩阵。

可选地，识别模块502具体用于：

获取当前行的前一行中最高评分的索引作为前置索引；

从索引构图中，获取与前置索引相邻的多个后置索引，该索引构图包括多个预设关键词元素对应的索引之间的前后置关系；

基于当前行中与多个后置索引对应的列的评分，从该多个后置索引中获取最高评分对应的后置索引。

可选地，识别模块502具体用于：

基于多个目标关键词元素中相邻两个目标关键词元素在索引构图中的前后置关系，将该多个目标关键词元素依次拼接，该索引构图包括多个预设关键词元素对应的索引之间的前后置关系。

可选地，请参照图6，还包括：

第二获取模块504，用于获取多个样本语音数据，样本语音数据包括至少一个目标关键词元素，且多个样本语音数据包括至少一个预设唤醒词所包括的目标关键词元素；

训练模块505，用于基于多个样本语音数据对预设声学打分模型进行训练。

可选地，请参照图7，还包括：

第三获取模块506，用于获取多个预设关键词元素；

确定模块507，用于分别确定各预设关键词元素的索引；

生成模块508，用于基于各预设关键词元素对应的索引，生成索引构图。

可选地，目标关键词元素和预设关键词元素包括一个汉字。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

请参照图8，为本申请所提供的一种电子设备的功能模块示意图。该电子设备可以包括存储有计算机程序的计算机可读存储介质801和处理器802，处理器802可以调用计算机可读存储介质801存储的计算机程序。当该计算机程序被处理器802读取并运行，可以实现上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器读取并运行时，可以实现上述方法实施例。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音唤醒方法，其特征在于，包括：

获取待识别语音数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述待识别语音数据进行识别，获取所述待识别语音数据的识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述识别所述待识别语音数据的多个目标关键词元素，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过预设声学打分模型对所述待识别语音数据进行打分处理，得到评分矩阵，包括：

5.根据权利要求3所述的方法，其特征在于，所述分别从所述评分矩阵的各行包括的多个评分中，获取最高评分所在列的索引，包括：

获取当前行的前一行中最高评分的索引作为前置索引；

6.根据权利要求2所述的方法，其特征在于，所述基于所述多个目标关键词元素在所述待识别语音数据中的出现顺序，将所述多个目标关键词元素拼接，包括：

7.根据权利要求3所述的方法，其特征在于，在所述通过预设声学打分模型对所述待识别语音数据进行打分之前，还包括：

8.根据权利要求5或6所述的方法，其特征在于，还包括：

获取多个预设关键词元素；

分别确定各所述预设关键词元素的索引；

9.根据权利要求3所述的方法，其特征在于，所述目标关键词元素和所述预设关键词元素包括一个汉字。

10.一种语音唤醒装置，其特征在于，包括：

第一获取模块，用于获取待识别语音数据；

11.根据权利要求10所述的装置，其特征在于，所述识别模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述识别模块具体用于：

13.根据权利要求12所述的装置，其特征在于，所述识别模块具体用于：

14.根据权利要求12所述的装置，其特征在于，所述识别模块具体用于：

获取当前行的前一行中最高评分的索引作为前置索引；

15.根据权利要求11所述的装置，其特征在于，所述识别模块具体用于：

16.根据权利要求12所述的装置，其特征在于，还包括：

17.根据权利要求14或15所述的装置，其特征在于，还包括：

第三获取模块，用于获取多个预设关键词元素；

确定模块，用于分别确定各所述预设关键词元素的索引；

18.根据权利要求12所述的装置，其特征在于，所述目标关键词元素和所述预设关键词元素包括一个汉字。

19.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至9任一所述的语音唤醒方法的步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至9任一所述的语音唤醒方法的步骤。