CN111276138A

CN111276138A - 一种语音唤醒系统中处理语音信号的方法及装置

Info

Publication number: CN111276138A
Application number: CN201811479674.9A
Authority: CN
Inventors: 周荣; 傅天晓
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2020-06-12
Anticipated expiration: 2038-12-05
Also published as: CN111276138B

Abstract

本发明涉及一种语音唤醒系统中处理语音信号的方法及语音唤醒系统，该方法包括：获取语音信号；获取训练好的神经网络模型，其中，基于参考模型获取所述训练好的神经网络模型；根据所述语音信号和所述训练好的神经网络模型，确定分析结果；以及根据所述分析结果，确定与所述语音信号相关的操作指令。本发明中利用参考模型指导训练嵌入式设备上的神经网络模型的方式，可以有效提高嵌入式设备中神经网络模型的性能，例如对语音信号的识别分析能力。从而提高嵌入式设备的语音唤醒能力。

Description

一种语音唤醒系统中处理语音信号的方法及装置

技术领域

本发明涉及语音识别领域，尤其涉及一种语音唤醒系统中处理语音信号的方法、装置、系统及计算机可读存储介质。

背景技术

在服务器端，可以利用大量的计算资源构架用于语音唤醒的机器学习模型(例如神经网络模型)。而运行在嵌入式设备(例如，手机、车载设备等移动设备)的语音唤醒系统，由于受限于嵌入式设备的存储能力和计算能力，其用于实现语音唤醒系统的机器学习模型的性能远不及服务器端的模型。因此，需要一种应用于嵌入式设备的模型训练方法，用服务器端的模型对嵌入式设备的模型进行指导训练，以提高嵌入式设备的语音唤醒能力。

发明内容

针对上述嵌入式设备上语音唤醒机器学习模型性能不足的问题，本发明的目的在于提高嵌入式设备中的语音唤醒机器学习模型的性能，从而提高嵌入式设备的语音唤醒能力。

为达到上述发明目的，本发明提供的技术方案如下：

本发明通过服务器端的参考模型对嵌入式设备上的机器学习模型(例如，神经网络模型)进行训练；并利用嵌入式设备上训练好的机器学习模型对语音信号进行分析，确定语音信号的语音分类以及语音信号相关的操作指令，从而实现语音唤醒功能(例如，唤醒嵌入式设备的电源等)。

一方面，本发明提供了一种语音唤醒系统中处理语音信号的方法，所述方法包括获取语音信号；获取训练好的神经网络模型，其中，基于参考模型获取所述训练好的神经网络模型；根据所述语音信号和所述训练好的神经网络模型，确定分析结果；以及根据所述分析结果，确定与所述语音信号相关的操作指令。

在本发明中，所述训练好的神经网络模型是根据训练过程生成的，所述训练过程包括：获取多个样本语音信号；从服务器获取所述参考模型；根据所述参考模型，确定对应于所述多个样本语音信号的多个第一样本分析结果；获取初始神经网络模型；根据所述初始神经网络模型，确定对应于所述多个样本语音信号的多个第二样本分析结果；根据所述多个第一样本分析结果、所述多个第二样本分析结果和加权系数，确定多个第三样本分析结果；以及根据所述多个第三样本分析结果，确定所述训练好的神经网络模型。

在本发明中，所述训练过程进一步包括：根据所述多个第三样本分析结果，确定对应于所述多个样本语音信号的多个样本分类；获取对应于所述多个样本语音信号的多个实际分类；根据所述多个样本分类和所述多个实际分类，确定损失函数；判断所述损失函数的值是否小于阈值；以及当判断所述损失函数的值小于所述阈值时，指定所述初始神经网络模型为所述训练好的神经网络模型。

在本发明中，所述训练过程进一步包括：当判断所述损失函数的值不小于所述阈值时，更新所述初始神经网络模型。

在本发明中，所述参考模型为预先训练好的神经网络模型；所述参考模型的参数较所述初始神经网络模型的参数多，或所述参考模型的层数较所述初始神经网络模型的层数多。

在本发明中，所述分析结果为向量；所述向量包括所述语音信号对应于多个语音分类的多个概率值。

在本发明中，所述根据所述分析结果，确定与所述语音信号相关的操作指令包括：确定所述多个概率值中的最大值；根据所述多个概率值中的最大值，确定对应于所述语音信号的目标分类；以及根据所述目标分类，确定与所述语音信号相关的操作指令。

另一方面，本发明提供了一种语音唤醒系统，所述语音唤醒系统包括获取模块、训练模块和处理模块；所述获取模块，用于获取语音信号；所述训练模块，用于获取训练好的神经网络模型，其中，基于参考模型获取所述训练好的神经网络模型；所述处理模块，用于根据所述语音信号和所述训练好的神经网络模型，确定分析结果，以及根据所述分析结果，确定与所述语音信号相关的操作指令。

另一方面，本发明提供了一种语音唤醒系统中处理语音信号的装置，所述装置包括处理程序，所述处理程序执行时实现任一所述处理语音信号的方法。

另一方面，本发明提供了一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质的计算机指令后执行任一所述处理语音信号的方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本发明应用于其他类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构和操作。

图1是根据本发明的一些实施例所示的语音唤醒系统的示意图；

图2是根据本发明的一些实施例所示的终端设备的模块示意图；

图3是根据本发明的一些实施例所示的处理语音信号的示例性流程图；

图4是根据本发明的一些实施例所示的训练神经网络模型的示例性流程图；

图5是根据本发明的一些实施例所示的深度神经网络模型的示意图；

图6是根据本发明的一些实施例所示的深度神经网络模型的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图和实施例对本发明的具体实施方式做详细的说明。

图1是根据本发明的一些实施例所示的语音唤醒系统100的示意图。语音唤醒系统100可以包括一个终端设备110、一个网络120、一个服务器130和一个存储设备140。

终端设备110可以获取语音信号102，并根据语音信号102执行语音唤醒操作。终端设备110可以从语音唤醒系统100的周围环境中获取语音信号102。例如，终端设备110可以获取终端设备110的用户讲话时所产生的语音信号102。又例如，终端设备110可以从背景音乐、电视节目声音等中获取语音信号102。所述语音唤醒操作可以包括对语音信号102进行分析识别，确定与语音信号102相对应的操作指令(例如，唤醒终端设备110的电源的操作指令、唤醒终端设备110的某个应用程序(例如，天气播报、日程、拨号通话等)的操作指令等)，并执行所述操作指令。在本发明中，“唤醒”一词可以指启动、或者从休眠状态切换为激活状态等。终端设备110可以利用机器学习模型(例如，神经网络模型)对语音信号102进行分析识别。

终端设备110也可以训练机器学习模型。例如，终端设备110可以训练用于执行语音唤醒的神经网络模型。终端设备110可以采用迁移学习(transfer learning)的方式，利用在服务器130上训练好的的神经网络模型的数据(例如，模型参数、模型输出结果等)来指导训练终端设备110中的神经网络模型。

终端设备110可以和网络120、服务器130、和/或存储设备140进行通信。例如，终端设备110可以经由网络120从服务器130获取信息或数据(例如，神经网络模型)。又例如，终端设备110可以经由网络120从存储设备140获取信息或数据，终端设备110也可以通过网络120存储信息或数据到存储设备140中。

在一些实施例中，终端设备110可以是一个嵌入式设备。所述嵌入式设备可以包括移动设备110-1、平板电脑110-2、笔记本电脑110-3、内置设备110-4等中的一种或者任意几种的组合。在一些实施例中，移动设备110-1可以包括可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备等中的一种或任意几种的组合。在一些实施例中，所述可穿戴设备可以包括智能手环、智能鞋袜、智能眼镜、智能头盔、智能手表、智能服装、智能背包、智能配件等中一种或者任意几种的组合。在一些实施例中，所述智能移动设备可以包括智能电话、个人数字助理(Personal Digital Assistance(PDA))、游戏设备、导航设备，销售点(Point ofSale(POS))设备等中的一种或者任意几种的组合。在一些实施例中，所述虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实贴片、增强现实头盔、增强现实玻璃、增强现实眼罩等中的一种或者任意几种的组合。例如，所述虚拟现实设备和/或增强现实设备可以包括Google Glass，Oculus Rift，HoloLens，Gear VR等。在一些实施例中，内置设备110-4可以包括车载电脑、车载电视等。

网络120可以用于在语音唤醒系统100中的各个设备/组件之间传递信息。例如，终端设备110可以经由网络120访问存储在存储设备140中的信息或数据。网络120可以是单个网络，或多个不同网络的组合。例如，网络120可以包括局域网(Local Area Network(LAN))、广域网(Wide Area Network(WAN))、公共交换电话网(Public SwitchedTelephone Network(PSTN))、虚拟网络(Virtual Network(VN))等中的一种或多种的组合。网络120可以包括多个网络接入点。网络120可以使用有线网络构架、无线网络构架以及有线/无线网络混合构架。有线网络可以包括利用金属电缆、混合电缆、光缆等一种或多种线缆组合的方式。无线网络的传输方式可以包括蓝牙(Bluetooth)、无线网(Wi-Fi)、紫蜂(ZigBee)、近场通信(Near Field Communication(NFC))、射频识别技术(Radio FrequencyIdentification(RFID))、蜂窝网络(包括GSM、CDMA、3G、4G等)等。

服务器130可以训练性能良好的机器学习模型(例如，训练层数多、结构复杂的神经网络模型)。服务器130可以利用大量的存储空间和计算资源，并基于大量的样本数据，对机器学习模型进行训练。服务器130可以是一个或一组计算机。用于构成服务器130的一组计算机之间可以有线连接或无线连接(例如，通过网络120)。服务器130可以架构在云端。在一些实施例中，服务器130可以是终端设备110的一个组成部件。

存储设备140可以用于存储数据或信息。所述存储的数据或信息可以来自终端设备110和/或服务器130。所述存储的数据或信息可以是各种形式，例如，数值、信号、图像、命令、算法、程序、模型等中一种或任意几种的组合。在一些实施例中，所述存储的数据或信息可以包括来自终端设备110和/或服务器130的神经网络模型。存储设备140可以包括硬盘、软盘、随机存储器(Random Access Memory(RAM))、动态随机存储器(Dynamic RandomAccess Memory(DRAM))、静态随机存储器(Static Random Access Memory(SRAM))、磁泡存储器(Bubble Memory)、薄膜存储器(Thin Film Memory)、磁镀线存储器(Magnetic PlatedWire Memory)、相变存储器(Phase Change Memory)、闪速存储器(Flash Memory)、云盘(Cloud Disk)等中的一种或任意几种的组合。

与现有技术相比，本实施例可能具备以下至少一种有益效果：一、利用服务器端的机器学习模型，通过迁移学习的方式指导嵌入式设备上的机器学习模型的训练，提高了嵌入式设备上的机器学习模型的性能，进而提高了嵌入式设备的语音唤醒能力；二、直接通过嵌入式设备的机器学习模型进行语音信号的分析处理，相对于经由服务器对语音信号处理后再反馈给嵌入式设备的方式，该处理方式提高了对语音信号的实时处理速度；三、运行在嵌入式设备上的机器学习模型通常具备轻量级的特性(例如，模型占用空间小、运行速度快)，节省了嵌入式设备的计算资源和存储空间。

需要注意的是，以上对于语音唤醒系统100的描述，仅为描述方便，并不能把本发明限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对语音唤醒系统100进行多种细节上的改变，例如多个设备/组件/模块的任意组合(例如，将服务器130和存储设备140组合成一个设备等)、单个设备/组件/模块的分拆(例如，将终端设备110分拆成一个或多个设备用于分别执行终端设备110的一个或多个功能等)、改变终端设备110的类型而将该系统应用于不同的领域等，但这些改变都不会脱离权利要求的保护范围。

图2是根据本发明的一些实施例所示的终端设备110的模块示意图。终端设备110可以包括一个获取模块210、一个训练模块220、一个处理模块230和一个控制模块240。在一些实施例中，获取模块210、训练模块220、处理模块230和/或控制模块240可以通过有线、无线或有线/无线组合的方式相互连接和/或通信。

获取模块210可以获取语音信号。获取模块210可以从终端设备110所处的周围环境中获取语音信号。例如，获取模块210可以获取终端设备110的用户讲话时产生的语音信号。又例如，获取模块210可以从终端设备110周围的背景音乐、电视节目声音、其他终端设备等中获取语音信号。获取模块210获取的语音信号的形式可以是模拟信号或数字信号。获取模块210获取的语音信号可以被发送至处理模块230、控制模块240、和/或语音唤醒系统100的其他组件(例如，存储设备140)。例如，获取模块210获取的语音信号可以被发送至处理模块230，进行进一步分析处理。又例如，获取模块210获取的语音信号可以被发送至终端设备110的存储模块(未显示)进行存储。在一些实施例中，获取模块210可以包括一个或多个麦克风。

训练模块220可以获取或确定一个训练好的神经网络模型。在一些实施例中，训练模块220可以基于多个样本语音信号和/或一个参考模型(例如，从服务器130获取的一个神经网络模型)，对一个初始神经网络模型进行训练，以确定所述训练好的神经网络模型。所述训练好的神经网络模型可以被发送至处理模块230或一个存储部件(例如，存储设备140)。所述训练好的神经网络模型、所述初始神经网络模型和/或所述参考模型可以包括一个深度神经网络(deep neural network(DNN))模型、一个循环神经网络(recurrentneural network(RNN))模型、一个长短期记忆(long short-term memory(LSTM))网络模型、一个卷积神经网络(convolutional neural network(CNN))模型等中的一种或任意几种的组合。所述参考模型的结构较所述初始神经网络模型(和/或所述训练好的神经网络模型)的结构复杂。例如，所述参考模型包括的参数(例如，节点)较所述初始神经网络模型的参数多。又例如，所述参考模型包括的层数(例如，所包含的隐藏层的层数)较所述初始神经网络模型的层数多。在一些实施例中，训练模块220可以执行图4所述流程图中的一个或多个步骤。

训练模块220可以进一步包括一个样本获取单元222、一个参考模型获取单元224和一个确定单元226。

样本获取单元222可以获取多个样本语音信号。在一些实施例中，样本获取单元222可以经由网络120从存储设备140获取所述多个样本语音信号。在一些实施例中，样本获取单元222可以从终端设备110的一个存储模块(未显示)中获取所述多个样本语音信号。一个样本语音信号可以指一个已确定其对应的实际分类的语音信号。所述实际分类可以包括唤醒终端设备110、唤醒终端设备110的某个应用程序(例如，天气播报、日程、拨号通话等)、不唤醒任何操作等。所述多个样本语音信号可以被发送至确定单元226。

参考模型获取单元224可以获取一个参考模型。在一些实施例中，参考模型获取单元224可以从服务器130获取所述参考模型。所述参考模型为一个服务器130预先训练好的神经网络模型。所述参考模型的结构较所述初始神经网络模型的结构复杂。例如，所述参考模型包括的参数(例如，节点)较所述初始神经网络模型的参数多。又例如，所述参考模型的层数(例如，所包含的隐藏层的层数)较所述初始神经网络模型的层数多。所述参考模型可以被发送至确定单元226。

确定单元226可以确定所述训练好的神经网络模型。确定单元226可以基于所述多个样本语音信号和/或所述参考模型对所述初始神经网络模型进行训练，以确定所述训练好的神经网络模型。具体的，在一些实施例中，确定单元226可以根据所述参考模型和所述初始神经网络模型，分别确定对应于所述多个样本语音信号的多个第一样本分析结果和多个第二样本分析结果。对于每个样本语音信号，一个第一样本分析结果和一个第二样本分析结果分别为所述参考模型和所述初始神经网络模型的输出结果。确定单元226可以进一步根据一个加权系数(例如，0.6、0.5等)，对所述第一样本分析结果和所述第二样本分析结果进行线性加权处理得到一个第三样本分析结果(例如，一个包括所述样本语音信号对应于多个语音分类的多个概率值的向量)。确定单元226可以根据所述第三样本分析结果，确定对应于所述样本语音信号的样本分类。例如，所述向量中多个概率值的最大值对应的语音分类即为所述样本语音信号的所述样本分类(例如，唤醒天气预报、唤醒日程等)。对于所述多个样本语音信号，确定单元226可以确定对应于所述多个样本语音信号的多个样本分类。根据所述多个样本分类和所述多个样本语音信号对应的多个实际分类之间的差异(例如，分类是否一致)，确定单元226可以确定损失函数(例如，指数损失函数等)。所述损失函数可以表征所述初始神经网络模型对样本语音信号进行语音分类的准确性。当所述损失函数的值小于阈值(例如，语音唤醒系统100的默认设定值)时，确定单元226(和/或训练模块220)可以指定所述初始神经网络模型为所述训练好的神经网络模型。而当所述损失函数的值不小于所述阈值时，确定单元226(和/或训练模块220)可以对所述初始神经网络模型的参数(例如，节点、层数、隐藏节点对应的激活函数等)进行更新。根据更新后的初始神经网络模型、所述参考模型和/或所述多个样本语音信号，训练模块220可以继续重复前述得到多个第一样本分析结果、多个第二样本分析结果、多个第三样本分析结果、多个样本分类、多个实际分类、损失函数等的操作过程，直至确定单元226确定所述损失函数的值小于所述阈值。确定单元226可以指定更新后的初始神经网络模型为所述训练好的神经网络模型。

处理模块230可以根据所述语音信号和所述训练好的神经网络模型，确定分析结果。处理模块230可以从获取模块210获取所述语音信号，从训练模块220获取所述训练好的神经网络模型。处理模块230可以将所述语音信号输入至所述训练好的神经网络模型，经过所述训练好的神经网络模型的分析，得到所述分析结果。在一些实施例中，所述分析结果为一个向量。所述向量可以包括所述语音信号对应于多个语音分类的多个概率值。例如，所述分析结果为向量F＝{a,b,...,c,d}，向量F中包括的元素a,b,...,c,d为所述语音信号对应于多个语音分类的多个概率值，所述多个概率值的总和可以为1。所述多个语音分类可以包括唤醒终端设备110的电源、唤醒终端设备110的某个应用程序(例如，天气播报、日程、拨号通话等)、不唤醒任何操作等。仅仅作为示例，所述分析结果为向量F＝{0.1,0.1,0.6,0.2}，第一个元素值0.1为所述语音信号对应于唤醒天气预报的概率，第二个元素值0.1为所述语音信号对应于唤醒日程的概率，第三个元素值0.6为所述语音信号对应于唤醒拨号通话的概率，第四个元素值为所述语音信号对应于不唤醒任何操作的概率。在一些实施例中，处理模块230可以通过确定所述语音信号对应于多个语音关键词的多个概率，确定所述语音信号对应于所述多个语音分类的多个概率值。语音关键词可以是语音唤醒系统100的默认设定。语音关键词可以包括“电源”、“天气播报”、“日程”等。例如，唤醒终端设备110的电源对应的语音关键词可以为“电源”，唤醒天气播报对应的语音关键词可以为“天气播报”，唤醒日程对应的语音关键词可以为“日程”等。又例如，不唤醒任何操作的语音分类对应的是所述语音信号中不含有任何一个语音唤醒系统100设定的语音关键词。

处理模块230可以进一步根据所述分析结果，确定与所述语音信号相关的操作指令。在一些实施例中，处理模块230可以确定所述向量中多个概率值的最大值。最大值对应的语音分类为所述语音信号的目标分类。处理模块230可以根据所述目标分类，确定与所述语音信号相关的操作指令。所述操作指令可以包括唤醒终端设备110的电源的指令、唤醒终端设备110的某个应用程序(例如，天气播报、日程、拨号通话等)的指令、以及不唤醒任何操作的指令等。处理模块230可以将所述操作指令发送至控制模块240。

控制模块240可以根据所述操作指令，控制终端设备110执行相应的操作。例如，控制模块240可以根据所述操作指令，控制终端设备110执行唤醒终端设备110的电源的操作、唤醒终端设备110的某个应用程序(例如，天气播报、日程、拨号通话等)的做操、不唤醒任何操作等。

在一些实施例中，训练模块220、处理模块230和/或控制模块240可以包括处理器、微处理器、控制器、微控制器等中的一种或几种的组合。具体地，训练模块220、处理模块230和/或控制模块240可以包括一个中央处理器(Central Processing Unit(CPU))、一个专门应用集成电路(Application Specific Integrated Circuit(ASIC))、一个专用指令处理器(Application Specific Instruction Set Processor(ASIP))、一个物理处理器(Physics Processing Unit(PPU))、一个数字信号处理器(Digital ProcessingProcessor(DSP))、一个现场可编程逻辑门阵列(Field-Programmable Gate Array(FPGA))、一个可编程逻辑器件(Programmable Logic Device(PLD))等中的一种或任意几种的组合。

在一些实施例中，训练模块220也可以对其他具备语音分类分析功能的机器学习模型进行训练，例如，支持向量机(support vector machine(SVM))模型、高斯混合模型(Gaussian mixture model(GMM))、决策树模型(decision tree model)、贝叶斯网络模型(Bayesian network model)等。处理模块230也可以利用训练好的SVM模型、GMM模型等其他机器学习模型对语音信号进行分析处理以确定分析结果。

需要注意的是，以上对于终端设备110的描述，仅为描述方便，并不能把本发明限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可以对终端设备110进行多种细节上的改变。例如，控制模块240可以集成在处理模块230中。但这些改变都不会脱离权利要求的保护范围。

图3是根据本发明的一些实施例所示的处理语音信号的示例性流程图300。在一些实施例中，流程图300中的一种或多种操作可以由语音唤醒系统100实现。例如，流程图300中的一种或多种操作可以由终端设备110通过执行存储在存储设备140中的指令实现。

在步骤310中，获取模块210可以获取语音信号。所述语音信号可以包括用户讲话时产生的语音信号。所述语音信号也可以包括终端设备110周围的背景音乐、电视节目声音、其他终端设备等产生的语音信号。所述语音信号的形式可以是模拟信号或数字信号。

在步骤320中，训练模块220可以获取(或确定)训练好的神经网络模型。在一些实施例中，训练模块220可以基于多个样本语音信号和/或一个参考模型，对一个初始神经网络模型进行训练，以确定所述训练好的神经网络模型。在一些实施例中，所述参考模型、所述初始神经网络模型和/或所述训练好的神经网络模型可以是DNN模型。所述DNN模型可以包括如图5和图6中所示的多个处理层(例如，一个输入层、一个或多个隐藏层、一个输出层)。所述参考模型的结构较所述初始神经网络模型(和/或所述训练好的神经网络模型)的结构复杂。例如，所述参考模型包括的参数(例如，节点)较所述初始神经网络模型包括的参数多。又例如，所述参考模型包括的层数(例如，所包含的隐藏层的层数)较所述初始神经网络模型包括的层数多。在一些实施例中，步骤320可以包括执行一个或多个图4中相关描述所涉及的操作。

在步骤330中，处理模块230可以根据所述语音信号和所述训练好的神经网络模型，确定分析结果。例如，处理模块230可以获取所述语音信号，并基于所述训练好的神经网络模型(例如DNN模型)对所述语音信号执行操作。所述操作可以包括线性运算(例如，线性加权组合)、非线性运算(例如，非线性函数运算)、前向传播计算等。处理模块230可以根据所述训练好的神经网络模型的所述操作，确定所述分析结果。在一些实施例中，所述分析结果为所述训练好的神经网络模型的输出结果，所述分析结果可以为一个向量。所述向量可以包括所述语音信号对应于多个语音分类的多个概率值。例如，所述分析结果为向量F＝{a,b,...,c,d}，向量F中包括的元素a,b,...,c,d为所述语音信号对应于多个语音分类的多个概率值，所述多个概率值的总和可以为1。所述多个语音分类可以包括唤醒终端设备110的电源，唤醒终端设备110的某个应用程序(例如，天气播报、日程、拨号通话等)，不唤醒任何操作等。仅仅作为示例，所述分析结果为向量F＝{0.1,0.1,0.6,0.2}，第一个元素值0.1为所述语音信号对应于唤醒天气预报的概率，第二个元素值0.1为所述语音信号对应于唤醒日程的概率，第三个元素值0.6为所述语音信号对应于唤醒拨号通话的概率，第四个元素值为所述语音信号对应于不唤醒任何操作的概率。在一些实施例中，处理模块230可以基于所述训练好的神经网络模型，通过确定所述语音信号对应于多个语音关键词的多个概率，确定所述语音信号对应于所述多个语音分类的多个概率。例如，处理模块230可以利用所述训练好的神经网络模型对所述语音信号中包含的语音关键词进行分析识别。语音关键词可以是语音唤醒系统100的默认设定。语音关键词可以包括“电源”、“天气播报”、“日程”等。例如，唤醒终端设备110的电源对应的语音关键词为“电源”，唤醒天气播报对应的语音关键词为“天气播报”，唤醒日程对应的语音关键词为“日程”等。又例如，不唤醒任何操作的语音分类对应的是所述语音信号中不含有任何一个语音唤醒系统100设定的语音关键词。

在步骤340中，处理模块230可以根据所述分析结果，确定与所述语音信号相关的操作指令。在一些实施例中，处理模块230可以确定所述向量中多个概率值的最大值。最大值对应的语音分类为所述语音信号的目标分类。处理模块230可以根据所述目标分类，确定与所述语音信号相关的操作指令。所述操作指令可以包括唤醒终端设备110的电源的指令、唤醒终端设备110的某个应用程序(例如，天气播报、日程、拨号通话等)的指令、以及不唤醒任何操作的指令等。例如，所述分析结果为向量F＝{0.1,0.1,0.6,0.2}，第一个元素值0.1为所述语音信号对应于唤醒天气预报的概率，第二个元素值0.1为所述语音信号对应于唤醒日程的概率，第三个元素值0.6为所述语音信号对应于唤醒拨号通话的概率，第四个元素值为所述语音信号对应于不唤醒任何操作的概率。最大值0.6所对应的语音分类为所述语音信号的目标分类。即所述目标分类为唤醒拨号通话。处理模块230可以根据所述目标分类，确定所述操作指令为唤醒拨号通话的指令。

在一些实施例中，终端设备110可以进一步根据所述操作指令，执行相应的操作。例如，终端设备110可以根据所述操作指令执行唤醒终端设备110的电源、唤醒终端设备110的某个应用程序(例如，天气播报、日程、拨号通话等)、不唤醒任何操作等。在一些实施例中，控制模块240可以根据所述操作指令，控制终端设备110执行所述相应的操作。

在一些实施例中，终端设备110也可以对其他具备语音分类分析功能的机器学习模型进行训练，例如支持向量机(support vector machine(SVM))模型、高斯混合模型(Gaussian mixture model(GMM))、决策树模型(decision tree model)、贝叶斯网络模型(Bayesian network model)等。终端设备110也可以利用训练好的SVM模型、GMM模型等其他机器学习模型对语音信号进行分析处理以确定分析结果。

需要注意的是，以上对于终端设备110的描述，仅为描述方便，并不能把本发明限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可以对流程图300的具体方式与步骤进行形式和细节上的各种修正和改变。在一些实施例中，步骤330和步骤340可以合并为一个步骤。在一些实施例中，在步骤310获取语音信号之前，流程图300还可以包括：通过执行语音活动检测(Voice Activity Detection(VAD))，判断是否存在语音信号，在判断为是时，执行步骤310获取语音信号。在一些实施例中，在步骤330之前，流程图300还可以包括对语音信号的预处理操作步骤。预处理操作可以包括滤波、放大、模数转换、数模转换、对语音信号进行特征(例如，音节、音素)提取等。但是这些修正和改变仍在本发明的权利要求保护范围之内。

图4是根据本发明的一些实施例所示的训练神经网络模型的示例性流程图400。在一些实施例中，流程图400中的一种或多种操作可以由语音唤醒系统100实现。例如，流程图400中的一种或多种操作可以由终端设备110通过执行存储在存储设备140中的指令实现。

在步骤402中，样本获取单元222可以获取多个样本语音信号。在一些实施例中，样本获取单元222可以经由网络120从存储设备140获取所述多个样本语音信号。在一些实施例中，样本获取单元222可以从终端设备110的一个存储模块(未显示)中获取所述多个样本语音信号。一个样本语音信号可以指一个已确定其对应的实际分类的语音信号。所述实际分类可以包括唤醒终端设备110的电源的语音分类，唤醒终端设备110的某个应用程序(例如，天气播报、日程、拨号通话等)的语音分类、不唤醒任何操作的语音分类等。在一些实施例中，所述多个样本语音信号中的至少一个样本语音信号可以包含一个系统设定的语音关键词(例如，“电源”、“天气播报”等)。在一些实施例中，所述多个样本语音信号中的至少一个样本语音信号可以不包含任何一个所述系统设定的语音关键词。所述系统设定的语音关键词与所述实际分类对应。例如，唤醒终端设备110的电源的语音分类对应的语音关键词为“电源”。不唤醒任何操作的语音分类对应的是样本语音信号中不包含任何一个所述系统设定的语音关键词。

在步骤404中，参考模型获取单元224可以从服务器获取参考模型。所述服务器可以包括服务器130。例如，参考模型获取单元224可以经由网络120从服务器130获取所述参考模型。所述参考模型为一个由所述服务器预先训练好的神经网络模型(例如，CNN模型、DNN模型、RNN模型等)。所述服务器可以利用大量存储空间和大量计算资源对所述参考模型进行训练。

在步骤406中，确定单元226可以根据所述参考模型，确定对应于所述多个样本语音信号的多个第一样本分析结果。例如，确定单元226可以根据所述参考模型，对所述多个样本语音信号执行操作(例如，线性加权组合、非线性函数运算、前向传播计算等)。确定单元226可以根据所述操作确定所述多个第一样本分析结果。对于每个样本语音信号，确定单元226可以确定一个第一样本分析结果。在一些实施例中，所述第一样本分析结果为所述参考模型的输出结果，所述第一样本分析结果可以为一个第一向量。所述第一向量可以包括所述样本语音信号对应于多个语音分类的多个概率值。例如，所述第一样本分析结果为第一向量F＝{a,b,...,c,d}，向量F中包括的元素a,b,...,c,d为所述样本语音信号对应于所述多个语音分类的多个概率值，所述多个概率值的总和可以为1。所述多个语音分类可以包括唤醒终端设备110的电源、唤醒终端设备110的某个应用程序(例如，天气播报、日程、拨号通话等)、不唤醒任何操作等。仅仅作为示例，所述第一样本分析结果为第一向量F＝{0.1,0.1,0.6,0.2}，第一个元素值0.1为所述语音信号对应于唤醒天气预报的概率，第二个元素值0.1为所述语音信号对应于唤醒日程的概率，第三个元素值0.6为所述语音信号对应于唤醒拨号通话的概率，第四个元素值为所述语音信号对应于不唤醒任何操作的概率。

在步骤408中，训练模块220可以获取初始神经网络模型。在一些实施例中，训练模块220可以从终端设备110的一个存储模块(未显示)中获取所述初始神经网络模型。在一些实施例中，训练模块220可以经由网络120从存储设备140中获取所述初始神经网络模型。所述初始神经网络模型可以包括DNN模型、CNN模型、RNN模型、LSTM网络模型等中的一种或任意几种的组合。所述参考模型的结构较所述初始神经网络模型的结构复杂。例如，所述参考模型包括的参数(例如，节点)较所述初始神经网络模型的参数多。又例如，所述参考模型包括的层数(例如，所包含的隐藏层的层数)较所述初始神经网络模型包括的层数多。

在步骤410中，确定单元226可以根据所述初始神经网络模型，确定对应于所述多个样本语音信号的多个第二样本分析结果。例如，确定单元226可以根据所述初始神经网络模型，对所述多个样本语音信号执行操作(例如，线性加权组合、非线性函数运算、前向传播计算等)。确定单元226可以根据所述操作确定所述多个第二样本分析结果。对于每个样本语音信号，确定单元226可以确定一个第二样本分析结果。在一些实施例中，所述第二样本分析结果为所述初始神经网络模型的输出结果，所述第二样本分析结果可以为一个第二向量。所述第二向量可以包括所述样本语音信号对应于多个语音分类的多个概率值。例如，所述第二样本分析结果为第二向量D＝{e,f,...,g,h}，向量D中包括的元素e,f,...,g,h为所述样本语音信号对应于所述多个语音分类的多个概率值，所述多个概率值的总和为1。在一些实施例中，所述第二向量和所述第一向量所包含的元素的个数相等。所述第二向量元素值对应的多个语音分类和所述第一向量元素值对应的多个语音分类保持一致。例如，所述第一向量的4个元素值对应的多个语音分类为唤醒天气预报、唤醒日程、唤醒拨号通话和不唤醒任何操作。则第二向量也包含4个元素值，对应的语音分类也分别为唤醒天气预报、唤醒日程、唤醒拨号通话和不唤醒任何操作。

在步骤412中，确定单元226可以根据所述多个第一样本分析结果、所述多个第二样本分析结果和加权系数，确定多个第三样本分析结果。对于每个样本语音信号对应的第一样本分析结果和第二样本分析结果，确定单元226可以基于所述加权系数确定一个第三样本分析结果。确定单元226可以根据所述加权系数，对所述第一样本分析结果和所述第二样本分析结果进行平滑处理。在一些实施例中，所述第三样本分析结果为所述第一样本分析结果和所述第二样本分析结果基于所述加权系数的线性加权。例如，所述第一样本分析结果为第一向量F，所述第二样本分析结果为第二向量D，所述加权系数为α，所述第三样本分析结果为第三向量E。则第三向量E可以表示为E＝F×(1-α)+D×α。所述加权系数α可以是语音唤醒系统100设定的一个默认值，例如，0.2、0.5、0.7等。

在步骤414中，确定单元226可以根据所述多个第三样本分析结果，确定对应于所述多个样本语音信号的多个样本分类。对于每个样本语音信号对应的一个第三样本分析结果，确定单元226可以确定其对应的一个样本分类。结合步骤412，所述第三样本分析结果可以是一个第三向量。所述第三向量可以包括所述样本语音信号对应于所述多个语音分类的多个概率值，确定单元226可以确定所述多个概率值中的最大值。所述多个概率值中的最大值对应的语音分类即为所述样本语音信号对应的所述样本分类。例如，所述第三样本分析结果为第三向量E＝{0.6,0.2,0.1,0.1}，第三向量E中的四个概率值0.6、0.2、0.1和0.1分别对应的语音分类可以为：唤醒天气预报、唤醒日程、唤醒拨号通话和不唤醒任何操作。最大值0.6对应的唤醒天气预报为所述样本语音信号所对应的样本分类。

在步骤416中，训练模块220可以获取对应于所述多个样本语音信号的多个实际分类。在一些实施例中，训练模块220可以经由网络120从存储设备140获取所述多个实际分类。在一些实施例中，训练模块220可以从终端设备110的一个存储模块(未显示)中获取所述多个实际分类。对每个样本语音信号，训练模块220可以获取对应于所述样本语音信号的一个实际分类(例如，唤醒终端设备110的电源、唤醒天气播报、唤醒日程、唤醒拨号通话等)。

在步骤418中，确定单元226可以根据所述多个样本分类和所述多个实际分类，确定损失函数。所述损失函数可以表征所述初始神经网络模型对样本语音信号进行语音分类的准确性。在一些实施例中，确定单元226可以根据所述多个样本分类和所述多个实际分类之间的差异(例如，分类是否一致)，确定所述损失函数。所述损失函数的函数形式可以包括指数损失函数、平方损失函数、对数损失函数等。

在步骤420中，确定单元226可以判断所述损失函数的值是否小于阈值。所述阈值可以是语音唤醒系统100的默认设定值，或是可随不同情况调整的值。

在步骤422中，当确定单元226判断所述损失函数的值小于所述阈值时，训练模块220可以指定所述初始神经网络模型为训练好的神经网络模型。

当确定单元226判断所述损失函数的值不小于所述阈值时，训练模块220可以返回步骤408以更新所述初始神经网络模型并继续执行流程图400，直到所述损失函数的值小于所述阈值。例如，训练模块220可以更新所述初始神经网络模型的参数(例如，节点、层数等)。参数更新后，若所述损失函数的值小于所述阈值，训练模块220可以在步骤422中指定更新后的初始神经网络模型为所述训练好的神经网络模型。参数更新后，若损失函数的值不小于所述阈值，训练模块220可以继续返回步骤408进一步更新参数。步骤408至步骤420的迭代将继续进行，直到训练模块220确定在最新更新的参数下，所述损失函数的值小于所述阈值。训练模块220即可指定最新更新后的初始神经网络模型为所述训练好的神经网络模型。

根据本实施例在终端设备110训练得到的神经网络模型，由于结合了服务器端的参考模型的数据(例如，参数、输出结果等)，使得服务器端参考模型的性能在终端设备110的神经网络模型上得到了复制或近似，提高了终端设备110中的神经网络模型的性能。

需要注意的是，以上对于流程图400的描述，仅为描述方便，并不能把本发明限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可以对流程图400的具体方式与步骤进行形式和细节上的各种修正和改变。例如，流程图400可以增加一个存储步骤。在所述存储步骤中，训练模块220可以将所述参考模型、所述初始神经网络模型和/或训练好的神经网络模型保存到一个存储装置(例如，存储设备140)中。但是这些修正和改变仍在本发明的权利要求保护范围之内。

图5是根据本发明的一些实施例所示的DNN模型500的示意图。DNN模型500可以包括一个输入层510、一个隐藏层520和一个输出层530。DNN模型500的相邻两层之间，任意两个节点之间都有连接。在一些实施例中，服务器130中的参考模型可以通过DNN模型500实现。

例如，如图4中步骤404和步骤406所描述的，训练模块220可以确定对应于一个样本语音信号的一个第一样本分析结果。训练模块220可以将所述样本语音信号通过输入层510输入到DNN模型500中。输入层510可以包括一个或多个输入节点，例如输入节点511、输入节点512等。进一步地，所述样本语音信号可以在隐藏层520中进行处理。

隐藏层520包括的层数可以是一层或多层(例如，图5中所示的4层)。隐藏层520可以包括多个隐藏节点，例如隐藏节点521、隐藏节点522等。在一些实施例中，在隐藏层520中，训练模块220可以对输入的所述样本语音信号进行前向传播计算。具体的，每个隐藏节点可以从前一层隐藏节点的输出或输入节点的输出收到输入，每个隐藏节点的每个输入都对应有权重。每个隐藏节点中设置有相应的激活函数(例如，线性修正函数、Sigmoid函数、tanh函数等)。在每个隐藏节点中，通过对输入(包括所述样本语音信号)的加权组合，将加权组合代入相应激活函数中进行计算，以得到每个隐藏节点的输出，得到的输出会作为下一层中每个隐藏节点的输入。

输出层530可以包括一个或多个输出节点，例如输出节点531、输出节点532、输出节点533等。在一些实施例中，输出层530的输出节点可以利用SoftMax回归函数对隐藏层520的输出进行规整化处理，以得到DNN模型500的输出。在输出层530，根据输出节点的输出值，可以确定所述样本语音信号的所述第一样本分析结果。所述第一样本分析结果可以为一个向量，所述向量可以包括所述样本语音信号对应于多个语音分类的多个概率值。在一些实施例中，输出层530的每个输出节点可以对应所述多个语音分类中的一种语音分类，输出层530的每个输出节点的输出值分别为对应的语音分类的概率值。例如，输出层530包括输出节点531、输出节点532和输出节点533，对应的语音分类分别为唤醒日程、唤醒天气播报和不唤醒任何操作。输出节点531的输出为0.6，输出节点532的输出为0.3，输出节点533的输出为0.1。则所述第一样本分析结果可以表示为向量{0.6,0.3,0.1}。

图6是根据本发明的一些实施例所示的DNN模型600的示意图。DNN模型600可以包括一个输入层610、一个隐藏层620和一个输出层630。输入层610可以包括一个或多个输入节点，例如输入节点611、输入节点612等。隐藏层620包括的层数可以是一层或多层(例如，图6中所示的3层)。隐藏层620可以包括多个隐藏节点，例如隐藏节点621、隐藏节点622等。输出层630可以包括一个或多个输出节点，例如输出节点631、输出节点632、输出节点633等。

如图6和图5所示，DNN模型600的隐藏层620包括的层数为3层，DNN模型500的隐藏层520包括的层数为4层，DNN模型600包括的层数较DNN模型500的层数少。同时，DNN模型600包括的节点(隐藏节点)的数目较DNN模型500包括的节点少。DNN模型500的结构较DNN模型600的结构复杂。在一些实施例中，服务器130端的参考模型可以通过图5中的DNN模型500实现，而终端设备110端的初始神经网络模型(和/或在终端设备110上训练好的神经网络模型)则可以通过DNN模型600实现。

DNN模型600的相关结构和功能描述与图5中DNN模型500的相关描述类似，故相关描述在此不再赘述。

需要注意的是，以上对于DNN模型500和DNN模型600的描述，仅为描述方便，并不能把本发明限制在所举实施例范围之内。对于本领域的技术人员来说，在了解该系统的原理后，可以对DNN模型500和DNN模型600进行形式和细节上的各种修正和改变。例如，DNN模型500和/或DNN模型600的参数(例如，节点)和/或层数(例如，隐藏层的层数)是可调整的。但是这些修正和改变仍在本发明的权利要求保护范围之内。

以上所述仅为本发明的优选实施而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音唤醒系统中处理语音信号的方法，其特征在于，所述方法包括：

获取语音信号；

获取训练好的神经网络模型，其中，基于参考模型获取所述训练好的神经网络模型；

根据所述语音信号和所述训练好的神经网络模型，确定分析结果；以及

根据所述分析结果，确定与所述语音信号相关的操作指令。

2.如权利要求1所述的方法，其特征在于，所述训练好的神经网络模型是根据训练过程生成的，所述训练过程包括：

获取多个样本语音信号；

从服务器获取所述参考模型；

根据所述参考模型，确定对应于所述多个样本语音信号的多个第一样本分析结果；

获取初始神经网络模型；

根据所述初始神经网络模型，确定对应于所述多个样本语音信号的多个第二样本分析结果；

根据所述多个第一样本分析结果、所述多个第二样本分析结果和加权系数，确定多个第三样本分析结果；以及

根据所述多个第三样本分析结果，确定所述训练好的神经网络模型。

3.如权利要求2所述的方法，其特征在于，所述训练过程进一步包括：

根据所述多个第三样本分析结果，确定对应于所述多个样本语音信号的多个样本分类；

获取对应于所述多个样本语音信号的多个实际分类；

根据所述多个样本分类和所述多个实际分类，确定损失函数；

判断所述损失函数的值是否小于阈值；以及

当判断所述损失函数的值小于所述阈值时，指定所述初始神经网络模型为所述训练好的神经网络模型。

4.如权利要求3所述的方法，其特征在于，所述训练过程进一步包括：

当判断所述损失函数的值不小于所述阈值时，更新所述初始神经网络模型。

5.如权利要求2所述的方法，其特征在于，所述参考模型为预先训练好的神经网络模型；所述参考模型的参数较所述初始神经网络模型的参数多，或所述参考模型的层数较所述初始神经网络模型的层数多。

6.如权利要求1所述的方法，其特征在于，所述分析结果为向量；所述向量包括所述语音信号对应于多个语音分类的多个概率值。

7.如权利要求6所述的方法，其特征在于，所述根据所述分析结果，确定与所述语音信号相关的操作指令包括：

确定所述多个概率值中的最大值；

根据所述多个概率值中的最大值，确定对应于所述语音信号的目标分类；以及根据所述目标分类，确定与所述语音信号相关的操作指令。

8.一种语音唤醒系统，其特征在于，所述系统包括获取模块、训练模块和处理模块；

所述获取模块，用于获取语音信号；

所述训练模块，用于获取训练好的神经网络模型，其中，基于参考模型获取所述训练好的神经网络模型；

所述处理模块，用于：

根据所述语音信号和所述训练好的神经网络模型，确定分析结果，以及

根据所述分析结果，确定与所述语音信号相关的操作指令。

9.一种语音唤醒系统中处理语音信号的装置，其特征在于，所述装置包括处理程序，所述处理程序执行时实现如权利要求1-7任一所述的处理语音信号的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后执行如权利要求1-7任一所述的处理语音信号的方法。