CN115132195B

CN115132195B - 语音唤醒方法、装置、设备、存储介质及程序产品

Info

Publication number: CN115132195B
Application number: CN202210533221.XA
Authority: CN
Inventors: 陈杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2024-03-12
Anticipated expiration: 2042-05-12
Also published as: CN115132195A

Abstract

本申请公开了一种语音唤醒方法、装置、设备、存储介质及程序产品，涉及语音识别领域。该方法包括：获取语音数据，语音数据是用于进行语音唤醒的信号；对语音数据进行特征提取，得到语音特征表示；将语音特征表示与多个目标唤醒词进行匹配度预测，得到多个识别结果，其中，每个目标唤醒词对应一个识别结果，识别结果用于指示语音特征表示与目标唤醒词之间的匹配程度；对多个识别结果进行综合选择，得到唤醒词识别结果，并确定语音唤醒结果。通过以上方式，在共用特征提取部分的基础上，以多个目标唤醒词对语音数据进行单独分析，有效减少了系统的资源占比。本申请可应用于云技术、人工智能、智慧交通等各种场景。

Description

语音唤醒方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及语音识别领域，特别涉及一种语音唤醒方法、装置、设备、存储介质及程序产品。

背景技术

随着智能设备以及语音交互的不断普及，在越来越多的场景中需要通过唤醒词对智能设备进行唤醒，然后通过语音控制智能设备执行命令，如：打开空调等。

相关技术中，通常对每一个唤醒词单独训练一个唤醒词模型，在对目标语句进行唤醒词识别过程时，将目标语句分别输入不同唤醒词模型，基于不同唤醒词模型对应的置信度得分，确定目标语句的唤醒情况。

然而，若对每一个唤醒词单独训练一个唤醒词模型，会使得设备占用资源较大，在相同的资源占用情况下，每个唤醒词模型可用的资源量大幅减少，必然会导致设备的唤醒分析性能下降。

发明内容

本申请实施例提供了一种语音唤醒方法、装置、设备、存储介质及程序产品，能够减少对系统的资源占比，提升唤醒词识别模型的唤醒性能。所述技术方案如下。

一方面，提供了一种语音唤醒方法，所述方法包括：

获取语音数据，所述语音数据是用于进行语音唤醒的信号；

对所述语音数据进行特征提取，得到所述语音数据对应的语音特征表示；

将所述语音特征表示与多个目标唤醒词进行匹配度预测，得到多个识别结果，其中，每个目标唤醒词对应一个识别结果，所述识别结果用于指示所述语音特征表示与所述目标唤醒词之间的匹配程度；

对所述多个识别结果进行综合选择，得到所述语音数据对应的唤醒词识别结果，所述唤醒词识别结果用于确定语音唤醒结果。

另一方面，提供了一种语音唤醒装置，所述装置包括：

获取模块，用于获取语音数据，所述语音数据是用于进行语音唤醒的信号；

提取模块，用于对所述语音数据进行特征提取，得到所述语音数据对应的语音特征表示；

识别模块，用于将所述语音特征表示与多个目标唤醒词进行匹配度预测，得到多个识别结果，其中，每个目标唤醒词对应一个识别结果，所述识别结果用于指示所述语音特征表示与所述目标唤醒词之间的匹配程度；

选择模块，用于对所述多个识别结果进行综合选择，得到所述语音数据对应的唤醒词识别结果，所述唤醒词识别结果用于确定语音唤醒结果。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述语音唤醒方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的语音唤醒方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的语音唤醒方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

对获取得到的语音数据对应的语音特征表示与多个目标唤醒词进行匹配度预测，并输出语音特征表示对应的多个识别结果，之后通过对多个识别结果进行综合选择，并确定语音唤醒结果。通过上述方法，在对语音数据进行特征提取的基础上，利用预先确定的多个目标唤醒词，将语音数据对应的语音特征表示与多个目标唤醒词分别进行匹配，从而确定语音数据和不同目标唤醒词之间的匹配程度。在共用特征提取部分的基础上，以多个目标唤醒词对语音数据进行单独分析，在避免分析结果混淆的同时，减少了对系统的资源占比，在低成本的硬件配置下，仍然可以整体提升采用上述语音唤醒方法的设备的唤醒性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的相关技术示意图；

图2是本申请另一个示例性实施例提供的相关技术示意图；

图3是本申请一个示例性实施例提供的实施环境示意图；

图4是本申请一个示例性实施例提供的语音唤醒方法的流程图；

图5是本申请另一个示例性实施例提供的语音唤醒方法的流程图；

图6是本申请一个示例性实施例提供的对语音数据进行处理的示意图；

图7是本申请另一个示例性实施例提供的语音唤醒方法的流程图；

图8是本申请另一个示例性实施例提供的语音唤醒方法的示意图；

图9是本申请一个示例性实施例提供的语音唤醒装置的结构框图；

图10是本申请另一个示例性实施例提供的语音唤醒装置的结构框图；

图11是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍。

人工智能：人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)：语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text-To-Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)：自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)：机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在一些相关技术中，如图1所示，通常对每个唤醒词单独训练一个唤醒词模型110，当可用资源有限时，每个唤醒词模型110的大小需要进行相应的模型裁剪，每个唤醒词模型110通过对应独立的后验处理模块120后，输出该唤醒词的置信度得分，最后由综合判决模块130综合所有唤醒词的置信度结果，进行最终的唤醒判决。

然而，当对每个唤醒词单独训练一个唤醒词模型时，会在相同的资源占用情况下，每个唤醒词模型可用的资源量大幅减少，从而使得导致唤醒词模型的性能下降。

在另一些相关技术中，多个唤醒词共用同一个唤醒词模型，唤醒词模型将所有唤醒词的发音单元取并集后作为输出单元，将待分析的语音数据与输出单元之间进行差异比较，确定唤醒效果。如图2所示，假设唤醒词模型210对应有2个唤醒词，则唤醒词模型210的输出层为2个唤醒词的发音单元的并集，例如，两个唤醒词的发音单元的并集中包括“A₁、A₂、B₁、B₂、B₃”，则模型的输出层会综合输出语音数据与5个唤醒词发音单元之间的关系。可选地，将待分析的语音数据输入唤醒词模型210中得到输出结果，将输出结果输入后验处理模块220进行置信度判决，并对多个唤醒词的发音单元得分进行综合比较，从而得到最终的唤醒判决结果。

然而，当多个唤醒词使用同一个唤醒词模型时，由于各个唤醒词的输出单元合并在一起，各个输出单元之间的混淆度增加，特别是当同时支持的唤醒词个数较多，或者存在相似度较高的发音单元时，唤醒词模型的整体性能会明显下降。另外，如果各个唤醒词的训练数据量相差较大时，容易由于数据不均衡而导致部分唤醒词性能较差的问题；最后在后验处理模块中需要对多个唤醒词的发音单元得分进行综合比较，使得互相之间存在干扰，影响最终整体性能。

然而，在本申请实施例中，通过多唤醒词共享底层模型参数的方法，对于每个唤醒词，将语音数据对应的语音特征表示与不同的唤醒词进行匹配度预测，根据预测的识别结果，确定语音数据对应的唤醒词识别结果，也即，通过匹配后的匹配情况，更高效地进行语音唤醒过程。由于通常唤醒词较少，唤醒词对应的唤醒词识别结果的数量也较少，使得唤醒词识别结果对应的输出单元层的网络参数量很小，因此在有限资源情况下，可以更有效的最大化底层模型参数量，得到特征提取效果更好的语音特征表示，使得模型效果更优；同时由于每个模型都有自己单独的输出层，对每个唤醒词，可以单独使用对应的训练数据来优化该部分参数，独立优化各个模型参数，互不干扰，从而得到更好的整体唤醒性能。

本申请实施例中，提供了一种语音唤醒方法，能够减少对系统的资源占比，提升唤醒词识别模型的唤醒性能。针对本申请训练得到的语音唤醒方法，在应用时包括如下场景中的至少一种。

一、智能家电唤醒场景下

随着智能家电的普及，越来越多的对象不再依赖于遥控器等外部设备对智能家电进行唤醒，而更多地选择采用智能家电所具备的语音唤醒功能，对智能家电进行唤醒过程。相关技术中，智能家电通常采用多个语音唤醒模型，每一个语音唤醒模型对应一个唤醒词，由多个语音唤醒模型对语音数据进行分析，并根据分析结果确定智能家电是否被唤醒。然而，在智能家电、智能音箱等智能硬件设备上，为了降低成本，通常使用的中央处理器(Central Processing Unit，CPU)、内存、闪存等硬件配置较低，而对各个功能模型的资源占用都有较为严格的要求。在采用多个语音唤醒模型对语音数据进行分析时，模型资源的占比很大，无法满足上述要求。通过本申请实施例提供的语音唤醒方法，在获取得到语音数据后，在共用特征提取部分的基础上，将语音特征表示与多个目标唤醒词分别进行匹配度预测，得到多个识别结果，实现对语音数据进行单独分析的过程，有效降低了对系统的资源占比，从而在低成本的硬件配置下，更好地进行语音唤醒过程。

二、智能车载终端唤醒场景下

在车辆行驶过程中，出于安全的考虑，对象无法及时对驾驶过程中的情况进行及时反馈。例如：在驾驶过程中，对象接收到来自其他用户的电话，当对象需要对电话进行接听时，有时需要手动触发接听控件以实现接听过程。随着汽车行业的迅速发展，在开发和设计的车辆中，许多厂家会加入便于对象使用和操作的智能功能，例如车载智能语音功能。然而，在车载终端上，不同智能功能对应模型的资源占比都需要较小，在采用常规的多个语音唤醒模型对语音数据进行分析的方法时，无法满足上述需求。通过本申请实施例提供的语音唤醒方法，在获取得到语音数据后，在共用特征提取部分的基础上，将语音特征表示与多个目标唤醒词分别进行匹配度预测，得到多个识别结果，实现对语音数据进行单独分析的过程，不仅降低了对车载终端的资源占比，还能够避免语音数据中相似音节的混淆，更准确地对语音数据进行分析，进而更准确地通过语音数据对车载终端进行唤醒，以实现对象需求的智能功能。

值得注意的是，上述应用场景仅为示意性的举例，本实施例提供的语音唤醒方法还可以应用于其他场景中，本申请实施例对此不加以限定。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的语音数据等都是在充分授权的情况下获取的。

其次，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图3，该实施环境中涉及终端310、服务器320，终端310和服务器320之间通过通信网络330连接。

在一些实施例中，终端310中安装有具有语音数据获取功能的应用程序。在一些实施例中，终端310用于向服务器320发送语音数据。服务器320可通过唤醒词识别模型321对语音数据进行分析并输出唤醒词识别结果。

示意性的，对唤醒词识别模型321的应用过程进行介绍。服务器320将接收到的语音数据输入唤醒词识别模型321，对语音数据进行特征提取，并得到语音数据对应的语音特征表示。之后，将语音特征表示与多个目标唤醒词(目标唤醒词1、目标唤醒词2、目标唤醒词n等)进行匹配度预测，确定语音特征表示与不同目标唤醒词之间的匹配程度，将匹配程度作为识别结果(目标唤醒词1对应的识别结果1、目标唤醒词2对应的识别结果2、目标唤醒词n对应的识别结果n等)，并对多个识别结果进行综合分析，确定唤醒词识别结果。可选地，服务器320在得到唤醒词识别结果后，将唤醒词识别结果反馈至终端310，终端基于唤醒词识别结果确定终端的语音唤醒结果，例如：终端被唤醒，或者，终端未被唤醒。上述过程是唤醒词识别模型321应用过程的不唯一情形的举例。

值得注意的是，上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端，也可以实现为台式电脑等；上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

结合上述名词简介和应用场景，对本申请提供的语音唤醒方法进行说明，以该方法应用于唤醒词识别模型为例，如图4所示，该方法包括如下步骤410至步骤440。

步骤410，获取语音数据。

示意性的，语音数据用于指示具有音频信息的数据，如：一段音乐、一段语音消息等。

可选地，采用终端、录音机等内置或者外接语音采集组件的设备，对语音数据进行获取。例如：采用配置有麦克风、麦克风阵列或者拾音器的终端，对语音数据进行获取。

其中，语音数据是用于进行语音唤醒的信号。示意性的，语音唤醒是语音交互的前提，通过触发语音唤醒功能，使得设备从休眠状态进行工作状态。例如：语音数据为一段语音请求音频数据。

可选地，语音唤醒通过唤醒词实现，例如：以唤醒一台智能家电(如：智能空调)为例进行说明，智能家电的唤醒词为“你好，XX”。当智能家电处于休眠状态时(如：智能家电处于已连接电源但休眠的状态)，智能家电对其能获取得到的语音进行实时监测，当智能家电获取得到的语音为“你好，XX”时，基于该唤醒词，智能家电从休眠状态转换为工作状态，以等待对象的下一步指令。

或者，以唤醒词调起设备中的语音控制功能为例进行说明。唤醒词用于“开启语音控制”，从而触发语音控制功能，语音控制功能用于无接触地对设备(如：智能终端)或者设备中安装的应用程序进行调用。示意性的，唤醒词“天气”用于调用“天气”对应的应用程序；或者，唤醒词“音乐”用于调用“音乐”对应的应用程序。可选地，当唤醒词对应的应用程序包括多个时，设备可以选择对其中一个常用或者默认的应用程序进行调用，也可以选择指示对象，对多个应用程序进行选择等。可选地，当通过唤醒词对设备或者设备中安装的应用程序进行调用后，设备或者设备中安装的应用程序还可以根据唤醒词，对特定功能进行无接触触发。示意性的，设备为一个手机，唤醒词为“查看天气情况”，手机在调用“天气”应用程序后，对“天气查看”功能进行触发，实现无接触触发过程；或者，唤醒词为“打开日程安排”，手机在调用“日程”应用程序后，对“日程安排”功能进行触发等。

示意性的，对语音数据进行分析的过程即为确定语音数据中是否包含唤醒词的过程确认过程。

在一些实施例中，语音数据既可以是一个，也可以是多个。示意性的，获取得到多个语音数据，对多个语音数据分别进行分析，确定语音数据是否能够唤醒设备，例如：确定语音数据中是否包含唤醒词。以上仅为示意性的举例，本申请实施例对此不加以限定。

步骤420，对语音数据进行特征提取，得到语音数据对应的语音特征表示。

示意性的，通过特征提取过程，将语音数据转化为数字序列或向量，从而对数字序列或向量进行分析。可选地，将获取得到的语音数据投射至向量空间，得到与语音数据对应的语音特征表示。

示意性的，语音数据包括：语音音频数据、噪音等，当对语音数据进行特征提取时，将语音数据中的噪音进行去除，提取其中具有辨识度的语音信息，并对具有辨识度的语音信息进行特征提取，得到与语音数据对应的语音特征表示。

步骤430，将语音特征表示与多个目标唤醒词进行匹配度预测，得到多个识别结果。

其中，每个目标唤醒词对应一个识别结果，识别结果用于指示语音特征表示与目标唤醒词之间的匹配程度。

可选地，目标唤醒词用于进行唤醒过程，也即：通过目标唤醒词实现对设备或者特定功能的唤醒过程。示意性的，对于一个设备而言，既可能对应一个目标唤醒词，也可能对应多个目标唤醒词。其中，一个设备对应多个目标唤醒词是指，可以通过多个目标唤醒词将设备进行唤醒。例如：既可以采用“A目标唤醒词”对应的语音对设备进行唤醒，也可以采用包括“B目标唤醒词”的语音对设备进行唤醒。示意性的，当通过目标唤醒词实现特定功能时，不同的目标唤醒词对应实现不同的功能。例如：目标唤醒词“天气”唤醒“天气播报”的功能；目标唤醒词“闹钟”唤醒“增加闹钟”的功能。以上仅为示意性的举例，本申请实施例对此不加以限定。

示意性的，目标唤醒词既可以实现为设备默认的数据，也可以实现为对象自定义的数据。例如：当目标唤醒词为设备默认的数据时，设备为对象提供目标唤醒词，指引对象根据目标唤醒词进行发音，并记录与该目标唤醒词对应的唤醒词语音数据，直至完成唤醒词语音数据的配置过程；或者，当目标唤醒词为对象自定义的数据时，对象在语音数据配置界面中，对自定义的目标唤醒词进行发音，设备记录与自定义的目标唤醒词对应的唤醒词语音数据，完成唤醒词语音数据的配置过程等。

示意性的，在获取得到语音特征表示后，将语音特征表示与多个目标唤醒词进行匹配度预测，确定语音特征表示与目标唤醒词之间的匹配程度。

可选地，目标唤醒词表示为目标唤醒词特征，在确定语音特征表示与目标唤醒词之间的匹配程度时，确定目标唤醒词对应目标唤醒词特征与语音特征表示在向量空间中的距离，基于距离关系确定匹配程度。例如：确定目标唤醒词特征与语音特征表示之间的欧式距离，通过欧式距离的大小，确定目标唤醒词与语音数据之间的匹配程度；或者，确定目标唤醒词特征与语音特征表示之间的余弦距离，通过余弦距离的大小，确定目标唤醒词与语音数据之间的匹配程度等。

示意性的，将语音特征表示与目标唤醒词进行匹配后，基于匹配程度得到该唤醒词识别单元对应的识别结果。

步骤440，对至少两个识别结果进行综合选择，得到语音数据对应的唤醒词识别结果。

其中，唤醒词识别结果用于确定语音唤醒结果。

示意性的，对每一个唤醒词识别单元分别对应的识别结果进行选择，从而得到语音数据对应的唤醒词识别结果。

其中，识别结果用于指示语音数据对应的语音特征表示与目标唤醒词之间的匹配程度，也即，通过识别结果，可以确定语音数据与目标唤醒词之间的相似程度。例如：在对多个识别结果进行选择时，对语音数据与目标唤醒词之间的相似程度最大的一个识别结果进行选择。

值得注意的是，以上仅为示意性的举例，本申请实施例对此不加以限定。

综上所述，对获取得到的语音数据对应的语音特征表示与多个目标唤醒词进行匹配度预测，并输出语音特征表示对应的多个识别结果，之后通过对多个识别结果进行综合选择，并确定语音唤醒结果。通过上述方法，在对语音数据进行特征提取的基础上，利用预先确定的多个目标唤醒词，将语音数据对应的语音特征表示与多个目标唤醒词分别进行匹配，从而确定语音数据和不同目标唤醒词之间的匹配程度。在共用特征提取部分的基础上，以多个目标唤醒词对语音数据进行单独分析，在避免分析结果混淆的同时，减少了对系统的资源占比，在低成本的硬件配置下，仍然可以整体提升采用上述语音唤醒方法的设备的唤醒性能。

在一个可选的实施例中，以将语音唤醒方法应用于唤醒词识别模型为例，唤醒词识别模型中包括特征提取单元、多个唤醒词识别单元和综合识别单元。

可选地，获取语音数据。

示意性的，语音数据用于指示具有音频信息的数据，如：一段音乐、一段语音消息等。其中，语音数据是用于进行语音唤醒的信号。示意性的，语音唤醒是语音交互的前提，通过触发语音唤醒功能，使得设备从休眠状态进行工作状态。例如：语音数据为一段语音请求音频数据。

(一)特征提取单元

在一个可选的实施例中，对语音数据进行特征提取，得到语音数据对应的语音特征表示。

特征提取单元用于对语音数据进行特征提取，通过特征提取过程，将语音数据转化为数字序列或向量，从而对数字序列或向量进行分析。

(二)唤醒词识别单元

在一个可选的实施例中，将语音特征表示输入多个唤醒词识别单元，通过多个唤醒词识别单元分别对语音特征表示进行唤醒词识别，输出多个识别结果。

其中，每个唤醒词识别单元输出一个识别结果，识别结果用于指示语音特征表示与唤醒词识别单元对应的目标唤醒词之间的匹配程度。

可选地，每一个唤醒词识别单元对应一个目标唤醒词，目标唤醒词用于进行唤醒过程。在获取得到语音特征表示后，将语音特征表示分别输入多个唤醒词识别单元中，确定语音特征表示与目标唤醒词之间的匹配程度。

示意性的，对于每一个唤醒词识别单元，将输入的语音特征表示与该唤醒词识别单元对应的目标唤醒词之间进行匹配后，基于匹配程度得到该唤醒词识别单元对应的识别结果。

(三)综合识别单元

在一个可选的实施例中，通过综合识别单元对多个识别结果进行选择，得到语音数据对应的唤醒词识别结果。

其中，唤醒词识别结果用于确定语音唤醒结果。

示意性的，通过唤醒词识别模型中的综合识别单元，对每一个唤醒词识别单元分别对应的识别结果进行选择，从而得到语音数据对应的唤醒词识别结果。

例如：在通过综合识别单元对多个识别结果进行选择时，对语音数据与目标唤醒词之间的相似程度最大的一个识别结果进行选择。

综上所述，将获取得到的语音数据输入唤醒词识别模型，经过唤醒词识别模型中的多个唤醒词识别单元，分别对语音数据对应的语音特征表示进行唤醒词识别，并输出多个语音特征表示对应的识别结果，通过综合识别单元确定语音唤醒结果。通过上述方法，在共用唤醒词识别模型中的特征提取单元外，利用每一个唤醒词识别单元分别对应的目标唤醒词，将语音数据对应的语音特征表示与不同唤醒词识别单元分别对应的目标唤醒词进行匹配，从而确定语音数据和目标唤醒词之间的匹配程度，在避免分析结果混淆的同时，减少了对系统的资源占比，在低成本的硬件配置下，仍然可以整体提升唤醒词识别模型的唤醒性能。

在一个可选的实施例中，唤醒词识别模型中还包括多个后验单元，每个后验单元对应一个唤醒词识别单元。示意性的，如图5所示，上述语音唤醒方法还可以实现为如下步骤510至步骤560。

步骤510，获取语音数据。

其中，语音数据是用于进行语音唤醒的信号。示意性的，语音唤醒是语音交互的前提，通过触发语音唤醒功能，使得设备从休眠状态进行工作状态。

可选地，通过具有收音功能的终端对语音数据进行获取；或者，通过音频合成应用程序，将生成的音频数据作为获取得到的语音数据等。

示意性的，获取得到的语音数据为一段背景音，如：音乐声、潺潺的水声、鸟叫声等；或者，获取得到的语音数据为一段文本音频，如：话语音频、阅读听力音频、电视节目音频等。

步骤520，将语音数据输入特征提取单元，提取得到语音数据的语音特征表示。

示意性的，唤醒词识别模型中包括特征提取单元，通过特征提取单元对语音数据进行特征提取，从而将语音数据转化为对应的语音特征表示。

可选地，在对语音数据进行分析时，采用卷积神经网络(Convolutional NeuralNetwork，CNN)、深度神经网络(Deep Neural Networks，DNN)、长短期记忆网络(LongShort-Term Memory，LSTM)等模型结构中的至少一种，对语音数据进行特征提取过程，得到语音数据对应的语音特征表示。

示意性的，以深度语音唤醒系统(DeepKeyword Spotting，Deep Kws)为例，该系统主要由声学模型和后验处理模型两部分组成，其中，声学模型通常采用深度神经网络，如DNN、CNN、LSTM等模型结构，输出单元由唤醒词的音素或者音节等组成，另外还包括一个过滤单元(Filler)，用于表征其他非唤醒词单元；后验处理模块对声学模型输出的唤醒词单元部分的后验得分进行处理，通常包含一个平滑窗及一个置信度计算窗，输出是唤醒的置信度得分，通过调整置信度得分阈值，能够平衡设备最终的唤醒性能。

示意性的，如图6所示，为对语音数据进行处理的示意图。在获取得到语音数据后，将语音数据输入特征提取单元610，对语音数据进行特征提取。可选地，语音数据中包括“okay”和“google”，特征提取单元610执行语音活动检测，并对于每帧语音信号(例如：每帧为10ms)生成一个特征表示。示意性的，根据语音数据对应的上下文信息，将多帧语音信号生成的多个特征表示进行堆叠，得到语音数据的语音特征表示。

步骤530，将语音特征表示输入多个唤醒词识别单元，输出多个音节识别结果。

其中，每个唤醒词识别单元对应的一个目标唤醒词，该目标唤醒词是指能够对设备进行唤醒的词汇，例如：目标唤醒词为“天气”，则通过“天气”或者包含“天气”的短语、句子等，实现对设备的唤醒过程。

可选地，目标唤醒词为预先确定的唤醒词汇。例如：预先确定“天气”以及“时间”为目标唤醒词等。

其中，对于不同的目标唤醒词，其音节构成一般是有差异的。音节是听觉能够感觉到的最直接的语音单位，是由一个或者多个音素按照一定规律组成的最小的语音结构单元。音素是适用于任何语言的最小的语音单位。

示意性的，目标唤醒词既可以是中文词汇，也可以是其他语言的词汇等，例如：当目标唤醒词为“天气”时，该目标唤醒词的音节为2个，分别为“tian”以及“qi”；或者，当目标唤醒词为“clock”时，该目标唤醒词的音节为3个，分别为“[k]”、以及“[k]”等。

可选地，基于目标唤醒词的音节情况，以音节为单位，对语音数据对应的语音特征表示进行分析，从而使得多个唤醒词识别单元中，每个唤醒词识别单元输出一个与目标唤醒词对应的音节识别结果。

示意性的，将语音数据对应的语音特征表示分别输入多个唤醒词识别单元中，每一个唤醒词识别单元基于其对应的目标唤醒词的音节情况，对语音特征表示进行分析。其中，音节情况包括音节数量、音节发音等。

示意性的，在基于音节情况对语音特征表示进行分析时，首先确定语音数据的音节数量与目标唤醒词的音节数量是否相同；之后，确定语音数据的音节发音与目标唤醒词的音节发音之间的相似度等，从而确定语音数据与目标唤醒词之间的音节识别结果(如：以相似度情况作为音节识别结果等)。例如：当语音数据的音节数量与目标唤醒词的音节数量不相同时，语音数据与目标唤醒词之间的相似度较低等。

在一个可选的实施例中，唤醒词识别单元中包括与目标唤醒词对应的音节子单元。

示意性的，多个唤醒词识别单元中的每一个唤醒词识别单元，对应至少一个与目标唤醒词对应的音节子单元。其中，音节子单元的数量与目标唤醒词的音节数量相同，也即，当目标唤醒词的音节数量为4个时，该唤醒词识别单元中包括4个音节子单元；当目标唤醒词的音节数量为1个时，该唤醒词识别单元中包括1个音节子单元(可以视为将该唤醒词识别单元作为音节子单元)等。

可选地，在一个唤醒词识别单元内，不同的音节子单元存储有目标唤醒词对应的不同音节，例如：目标唤醒词对应三个音节，三个音节分别为m音节、l音节以及n音节，基于目标唤醒词对应的三个音节，该目标唤醒词对应的唤醒词识别单元中包括三个音节子单元，分别为存储有m音节的M音节子单元、存储有l音节的L音节子单元以及存储有n音节的N音节子单元。

在一个可选的实施例中，将语音特征表示输入多个唤醒词识别单元后，通过唤醒词识别单元中的音节子单元对语音特征表示进行识别，得到与音节子单元对应的音节得分作为音节识别结果。

示意性的，不同的音节子单元存储有目标唤醒词对应的音节，当对语音特征表示进行分析时，将语音特征表示与音节子单元中存储的目标唤醒词对应的音节进行识别，例如：确定语音特征表示与不同音节子单元中存储的音节之间的相似度，并确定每个音节子单元所对应的音节得分，并将音节得分作为音节识别结果。

在一个可选的实施例中，在得到与音节子单元对应的音节得分后，确定唤醒词识别单元中包含的多个音节子单元对应的音节得分的平均值，将多个音节子单元对应的音节得分的平均值作为该唤醒词识别单元的音节识别结果。

在一个可选的实施例中，音节子单元中包括重音节单元和轻音节单元；确定重音节子单元和轻音节子单元分别对应的音节权重；基于音节权重对重音节子单元对应的音节得分以及轻音节子单元对应的音节得分进行后验处理，得到唤醒词识别单元的目标唤醒词对应的置信度作为识别结果。

示意性的，在得到与音节子单元对应的音节得分后，根据唤醒词识别单元中不同音节子单元的音节强调情况(如：音节为重音节，或者，音节为轻音节)，以加权的方式，确定该唤醒词识别单元的音节识别情况，如：重音节的音节权重较大，轻音节的音节权重较小等。值得注意的是，以上仅为示意性的举例，本申请实施例对此不加以限定。

步骤540，将唤醒词识别单元输出的音节识别结果输入与唤醒词识别单元对应的后验单元，输出得到唤醒词识别单元的目标唤醒词对应的置信度作为识别结果。

示意性的，对于多个唤醒词识别单元，每一个唤醒词识别单元对应一个后验单元，也即，每一个唤醒词识别单元都有其分别对应的后验单元。

在通过唤醒词识别单元输出得到音节识别结果后，将音节识别结果输入与该唤醒词识别单元对应的后验单元，其中，后验单元用于对音节识别结果进行平滑处理，并确定语音数据与目标唤醒词之间的相似程度，即：确定语音数据对于目标唤醒词的置信度。

可选地，在对语音数据进行分析时，为了减少语音信号整体的非稳态、时变的影响，对语音数据进行分段处理，将处理后的每一段语音信号称为一帧。例如，通常一帧取25ms。在将语音数据进行分段处理得到多帧语音信号后，对多帧语音信号分别进行加窗处理，即：将多帧语音信号与一个窗函数相乘，从而使得每帧语音信号的幅度在两端渐变至0，减轻频谱泄漏。此外，为了避免加窗处理所导致的部分语音信号的确实，在对语音数据进行分段处理时，以帧移的方法获取每一帧语音信号。

示意性的，在尺寸为w_max的窗内计算第j帧的置信度时，采用如下置信度计算公式进行确定。

其中，confidence用于指示置信度；n用于表示唤醒词识别单元的数量；i用于表示第i个唤醒词识别单元；j用于表示第j帧；p′_ij用于表示经过后验单元进行平滑处理后的第i个唤醒词识别单元中第j帧的后验概率；h_max用于指示置信度计算窗w_max中的第一帧的位置，h_max＝max{1,j-w_max+1}。

在一个可选的实施例中，通过后验单元对音节子单元对应的音节得分进行后验处理，得到唤醒词识别单元的目标唤醒词对应的置信度作为识别结果。

示意性的，在多个唤醒词识别单元中，不同唤醒词识别单元所对应的目标唤醒词是不同的，不同目标唤醒词对应的音节数量、音节发音、音节排列等情况也是存在差异的。例如：唤醒词识别单元1对应的目标唤醒词的音节数量为2；唤醒词识别单元2对应的目标唤醒词的音节数量为3等。当语音数据对应的音节数量为2时，在将该语音数据对应的语音特征表示输入多个唤醒词识别单元后，将语音数据对应的两个音节与唤醒词识别单元1中的两个音节子单元分别进行匹配，将语音数据对应的两个音节与唤醒词识别单元2中的三个音节子单元分别进行匹配，其中，进行匹配时可以采用交叉匹配的方式等。

可选地，多个唤醒词识别单元中包括第一唤醒词识别单元以及第二唤醒词识别单元。

在一个可选的实施例中，响应于第一唤醒词识别单元中的第一音节子单元，与第二唤醒词识别单元中的第二音节子单元相同，将第一音节子单元对应的音节得分作为第二音节子单元对应的音节得分。

示意性的，在第一唤醒词识别单元中，存在至少一个第一音节子单元，用于指示第一唤醒词识别单元对应的第一目标唤醒词的至少一个音节；同理，在第二唤醒词识别单元中，存在至少一个第二音节子单元，用于指示第二唤醒词识别单元对应的第二目标唤醒词的至少一个音节。其中，音节子单元与唤醒词识别单元对应的目标唤醒词的音节相对应。例如：第一唤醒词识别单元对应的目标唤醒词为“拨号”，则该第一唤醒词识别单元对应的第一音节子单元包括两个，分别为“拨(bo)”和“号(hao)”；第二唤醒词识别单元对应的目标唤醒词为“号码查询”，则该第二唤醒词识别单元对应的第二音节子单元包括四个，分别为“拨(hao)”、“码(ma)”、查(cha)以及“询(xun)”。

可选地，当第一音节子单元与第二音节子单元相同，基于第一唤醒词识别单元与第二唤醒词识别单元均是对相同语音数据进行分析，故可以将第一音节子单元对应的音节得分作为第二音节子单元对应的音节得分，从而减少终端的计算量。

例如：以上述第一唤醒词识别单元对应的目标唤醒词为“拨号”，第二唤醒词识别单元对应的目标唤醒词为“号码查询”为例进行说明。其中，第一唤醒词识别单元中的第一音节子单元包括“号(hao)”，第二唤醒词识别单元中的第二音节子单元也包括“号(hao)”，则在对相同的语音数据进行分析时，将第一音节子单元“号(hao)”对应的音节得分，作为第二音节子单元“号(hao)”对应的音节得分，从而减少终端的重复计算过程。

在一个可选的实施例中，如图6所示，将特征提取单元610输出的语音特征表示输入DNN620中，经过DNN620中的隐藏层后，预测语音特征表示中输出的预测标签的后验概率。这些预测标签对应语音数据的整个词或者其中的多个子词。

可选地，采用后验单元，将每帧产生的标签进行后验组合后，生成用于检测的置信度分数。示意性的，词汇Okay以及词汇Google是预先设定的目标唤醒词，则DNN620输出为3个标签，分别为：词汇Okay、词汇Google以及过滤词汇(Filler)，且其对应的帧数级别的分数结果表示为后验处理结果630，帧数级别的分数结果与语音数据对应的语音特征表示相关。

示意性的，后验单元结合每一个帧数级别的分数结果，确定该窗口的最终置信度分数。

步骤550，通过综合识别单元对多个唤醒词识别单元对应的目标唤醒词的置信度进行比较处理。

可选地，在得到多个唤醒词识别单元的目标唤醒词分别对应的多个置信度后，将置信度输入综合识别单元中，由综合识别单元对多个置信度进行比较处理。例如：对多个置信度进行数值比较过程，将数值比较过程作为比较处理的过程等。

步骤560，将多个目标唤醒词中置信度最高的目标唤醒词作为唤醒词识别结果。

示意性的，在得到多个置信度后，对置信度进行数值比较过程。

其中，置信度用于指示语音数据对应的语音特征表示与目标唤醒词之间的匹配程度，当置信度越高，则代表语音特征表示与目标唤醒词之间的匹配程度越高，也即，语音数据与目标唤醒词的相似度越高，基于该语音数据越容易唤醒设备；当置信度越低，则代表语音特征表示与目标唤醒词之间的匹配程度越低，也即，语音数据与目标唤醒词的相似度越低，基于该语音数据越不容易唤醒设备等。

可选地，在对置信度进行数值比较后，从多个置信度中选择数值最大的置信度，也即，对置信度最高的进行选择。最高的置信度用于指示：在将语音特征表示输入多个唤醒词识别单元后，该语音特征表示与其中一个唤醒词识别单元对应的目标唤醒词的相似度最高。

示意性的，确定最高的置信度所对应的唤醒词识别单元，并将该唤醒词识别单元对应的目标唤醒词作为唤醒词识别结果。唤醒词识别结果用于确定语音唤醒结果。

其中，语音唤醒结果包括语音唤醒成功和语音唤醒失败。语音唤醒成功用于指示该语音数据能够唤醒待唤醒设备；语音唤醒失败用于指示该语音数据无法唤醒待唤醒设备。

在一个可选的实施例中，响应于置信度最高的目标唤醒词的置信度达到置信度阈值，确定语音唤醒成功；响应于置信度最高的目标唤醒词的置信度小于置信度阈值，确定语音唤醒失败。

可选地，预先设定一个置信度阈值，通过置信度阈值确定待唤醒设备是否被最终唤醒。示意性的，在确定置信度最高的目标唤醒词的置信度后，将该置信度与预先设定的置信度阈值进行比较，比较结果包括如下至少一种情况。

(1)置信度达到预先设定的置信度阈值

示意性的，当该置信度达到(大于或者等于)置信度阈值时，确定语音唤醒成功，即：通过该语音数据能够唤醒待唤醒设备，且该唤醒状态是基于该语音数据与置信度最高的目标唤醒词相匹配而实现的。

(2)置信度小于预先设定的置信度阈值

示意性的，当该置信度小于置信度阈值时，确定语音唤醒失败，即：通过该语音数据无法唤醒待唤醒设备。

综上所述，经过唤醒词识别模型中的多个唤醒词识别单元，分别对语音数据进行唤醒词识别，并通过综合识别单元对识别结果进行选择，确定语音唤醒结果。通过上述方法，在共用唤醒词识别模型中的特征提取单元外，利用每一个唤醒词识别单元分别对应的目标唤醒词，确定语音数据与不同目标唤醒词之间的匹配程度，在避免分析结果混淆的同时，减少了对系统的资源占比，在低成本的硬件配置下，仍然可以整体提升唤醒词识别模型的唤醒性能。

在本申请实施例中，对唤醒词识别模型中的后验单元进行说明。后验单元与多个唤醒词识别单元呈现为一一对应的关系，在对获取得到的语音数据进行特征提取后，将语音特征表示输入多个唤醒词识别单元，根据语音数据对应的多个音节，通过音节子单元对多个音节进行识别，并确定多个音节识别结果，将音节识别结果输入与唤醒词识别单元对应的后验单元，并将后验单元输出的置信度作为识别结果，通过综合识别单元对多个置信度进行比较处理，从中选择置信度最高的目标唤醒词作为唤醒词识别结果。通过上述方法，以语音数据对应的音节为分析对象，实现更细颗粒度的分析过程，且后验单元是与唤醒词识别单元一一对应的验证单元，从而能够避免后验单元受到其他唤醒词识别单元的干扰，提高唤醒精度。

在一个可选的实施例中，对上述唤醒词识别模型的训练过程进行说明。示意性的，如图7所示，对唤醒词识别模型的训练过程包括如下步骤710至步骤740。

步骤710，获取至少一个样本语音数据。

其中，样本语音数据标注有样本唤醒词标签，样本唤醒词标签是多个目标唤醒词中的一个。

可选地，样本语音数据是预先标注有标签的、用于对模型训练的语音数据。示意性的，如图8所示，获取得到的样本语音数据810为一段音频信号，该音频信号是声波频率、幅度变化信息的载体，其中包含音节信息、声调信息等。

步骤720，固定唤醒词识别模型中除唤醒词识别单元以外的其他单元的模型参数。

可选地，唤醒词识别模型用于判断接收到的语音数据是否能够对设备进行唤醒，例如：设备中配置有唤醒词识别模型。为了提高唤醒词识别模型的识别性能，对唤醒词识别模型进行训练。

在一个可选的实施例中，首先采用公开的自动语音识别数据库(AutomaticSpeech Recognition，ASR)对初始模型进行训练，其中，ASR数据库中存储有多个语音数据，且不同的语音数据对应标注有样本标签。示意性的，在使用ASR数据库对初始模型训练后，得到一个预训练模型，该预训练模型输出覆盖所有发音单元。且在对初始模型进行训练的过程中，由于使用了ASR数据库中的大量数据，训练得到的预训练模型具有很好的鲁棒性。

可选地，为了减少模型的资源占用，通常对模型参数进行压缩。示意性的，采用模型蒸馏、剪枝等模型压缩技术，在对预训练模型进行压缩的同时，优化其模型性能。

在一个可选的实施例中，对预训练模型的输出层进行移除操作，并对除输出层以外的底部共享模型(预训练模型中输出层之前的模型部分)的模型参数进行固定，即训练过程中不更新底部共享的模型参数。

在一个可选的实施例中，唤醒词是预先选取得到的语音数据。示意性的，从ASR数据库中存储的多个语音数据中，确定作为唤醒词的多个语音数据。将多个语音数据作为样本语音数据，对于每个样本语音数据，在底部共享模型的基础上，增加一层独立的全连接输出层，从而得到唤醒词识别模型，该唤醒词识别模型中包括与样本语音数据数量相等的唤醒词识别单元，唤醒词识别单元用于对对应的样本语音数据进行分析。

示意性的，如图8所示，假设存在1个样本语音数据，该样本语音数据对应三个目标唤醒词(如：图8中的3个不同频率的音频表示对应三个目标唤醒词)，且3个目标唤醒词各自对应包括4个不同的音节，则一共增加3层全连接层，即，每一个目标唤醒词对应一个全连接层，将3层全连接层作为上述独立的全连接输出层。

可选地，每一个全连接层中通过线性变换(Linaer)以及激活函数(Softmax)进行设置。示意性的，如图8所示，每一个全连接层分别对应4个音节单元(因为每个样本语音数据对应4个音节)，其中，第一个全连接层对应的4个音节单元分别为A₁、A₂、A₃以及A₄，第二个全连接层对应的4个音节单元分别为B₁、B₂、B₃以及B₄，第三个全连接层对应的4个音节单元分别为C₁、C₂、C₃以及C₄。由于通常样本语音数据输出的音节单元数目很少，故该部分参数量在整体模型中占比很小，因此，即便设置多个样本语音数据作为唤醒词数据，多个样本语音数据对整体资源的增量很少。

值得注意的是，上述“3个目标唤醒词”以及“每个目标唤醒词对应包括4个不同的音节”仅为示意性的举例，目标唤醒词的数量既可以增多，也可以减少，例如：通过34个目标唤醒词对唤醒词识别模型进行训练，即，通过34个目标唤醒词对唤醒词识别模型中的34个唤醒词识别单元进行训练。此外，不同的目标唤醒词既可以对应相同数量的音节，也可以对应不同数量的音节，例如：目标唤醒词F对应3个音节，目标唤醒词G对应4个音节等，本申请实施例对此不加以限定。

示意性的，如图8所示，在获取得到样本语音数据810后，将样本语音数据输入唤醒词识别模型中的特征提取单元820，由特征提取单元820对样本语音数据810进行特征提取。

在一个可选的实施例中，在对唤醒词识别模型进行训练时，将该唤醒词识别模型中的特征提取单元820的模型参数进行固定，也即，在对唤醒词识别模型进行训练更新时，特征提取单元820的模型参数不进行变动。

在一个可选的实施例中，对特征提取单元820中包含有批标准化层(BatchNormalization layer，BN)的唤醒词识别模型而言，在对唤醒词识别模型进行训练的过程中，还可以在训练中更新并在推理时使用BN层独有的平均值(mean)和方差(variance)参数，以此对唤醒词识别模型中特征提取单元820的性能进行进一步优化。也即，在固定特征提取单元820中其余的模型参数之外，对特征提取单元820中的BN层独有的参数mean以及variance进行更新。

可选地，唤醒词识别模型包括特征提取单元820以及多个唤醒词识别单元830，将特征提取单元820对应的模型参数进行固定，在对唤醒词识别模型进行训练时，采用样本语音数据对对应的唤醒词识别单元830进行训练，其中，唤醒词识别单元830包括：唤醒词识别单元831、唤醒词识别单元832以及唤醒词识别单元833。

步骤730，将样本语音数据输入唤醒词识别模型，输出得到模型预测结果。

示意性的，基于样本语音数据对应标注的样本唤醒词标签，将样本语音数据输入与其样本唤醒词标签相对应的唤醒词识别单元中。例如：样本语音数据X对应标注有样本唤醒词标签a，该样本唤醒词标签a对应目标唤醒词A，则在采用样本语音数据X对唤醒词模型进行训练时，将样本语音数据X经过特征提取单元820后，将样本语音数据X对应的样本特征表示输入目标唤醒词A对应的唤醒词识别单元831，并输出得到该唤醒词识别单元831对应的预测结果。

可选地，在将多个样本语音数据输入唤醒词识别模型后，输出多个唤醒词识别单元对应的预测结果，将多个唤醒词识别单元对应的预测结果作为模型预测结果。

步骤740，基于模型预测结果和样本唤醒词标签之间的差异，对多个唤醒词识别单元中与样本唤醒词标签对应的唤醒词识别单元进行训练。

示意性的，在得到模型预测结果后，确定模型预测结果与样本唤醒词标签之间的差异。

在一个可选的实施例中，确定样本唤醒词标签和模型预测结果之间的损失值；以损失值对与样本唤醒词标签对应的唤醒词识别单元进行训练，得到唤醒词识别模型。

示意性的，采用交叉熵损失函数，对样本唤醒词标签和模型预测结果之间的损失值进行确定；或者，采用相对熵散度函数(Kullback-Leibler divergence，KL)，对样本唤醒词标签和模型预测结果之间的损失值进行确定等。

可选地，在确定损失值时，首先确定样本语音数据对应的样本唤醒词标签，从而确定与该样本唤醒词标签对应的唤醒词识别单元(基于目标唤醒词确定)，之后确定该样本唤醒词标签与该唤醒词识别单元的识别结果之间的差异；同理，确定不同样本唤醒词标签与对应唤醒词识别单元的识别结果之间的差异，从而确定不同唤醒词识别单元所对应的损失值。

在一个可选的实施例中，在确定损失值后，以损失值对与样本唤醒词标签对应的唤醒词识别单元进行训练。

示意性的，由标注有目标唤醒词的样本语音数据对该目标唤醒词对应的唤醒词识别单元进行训练，也即，对该唤醒词识别单元对应的参数进行调整。

可选地，在采用损失值对唤醒词识别单元进行训练的过程中，会因为对唤醒词识别单元的训练达到训练目标而得到由多个训练好的唤醒词识别单元组成的唤醒词识别模型。示意性的，训练目标至少包括如下一种情况。

1、响应于损失值达到收敛状态，将最近一次迭代训练得到的唤醒词识别单元作为组成唤醒词识别模型的识别单元。

示意性的，损失值达到收敛状态用于指示通过损失函数得到的损失值的数值不再变化或者变化幅度小于预设阈值。例如：第n个样本语音数据对应的损失值为0.1，第n+1个样本语音数据对应的损失值也为0.1，可以视为该损失值达到收敛状态，将第n个样本语音数据或者第n+1个样本语音数据对应的唤醒词识别单元作为组成唤醒词识别模型的识别单元，从而得到唤醒词识别模型。

2、响应于损失值的获取次数达到次数阈值，将最近一次迭代训练得到的唤醒词识别单元作为组成唤醒词识别模型的识别单元。

示意性的，一次获取可以得到一个损失值，预先设定用于训练唤醒词识别单元的损失值的获取次数，当一个样本语音数据对应一个损失值时，损失值的获取次数即为样本语音数据的个数；或者，当一个样本语音数据对应多个损失值时，损失的获取次数即为损失值的个数。例如：预先设定一次获取可以得到一个损失值，损失值获取的次数阈值为10次，即当达到获取次数阈值时，将最近一次损失值调整的唤醒词识别单元作为组成唤醒词识别模型的识别单元；或者，将损失值10次调整过程中最小损失值调整的唤醒词识别单元作为组成唤醒词识别模型的识别单元，从而得到唤醒词识别模型。

可选地，在得到唤醒词识别模型后，该唤醒词识别模型能够对目标唤醒词进行响应，当接收到包括目标唤醒词的语音数据时，设备会从休眠状态转变为工作状态，从而实现对设备的唤醒过程。

示意性的，在将训练得到的唤醒词识别模型进行应用时，在唤醒词识别模型中的每一个唤醒词识别单元之后，增加一个后验单元，即：每个唤醒词识别单元使用独立的后验单元，对唤醒词识别单元的单元识别结果进行处理。例如：在唤醒词识别单元831之后，增加后验单元841；同理，在唤醒词识别单元832之后，增加后验单元842；在唤醒词识别单元833之后，增加后验单元843等。

可选地，将待分析的语音数据输入训练得到的唤醒词识别模型中进行特征提取后，将语音数据对应的语音特征表示输入多个唤醒词识别单元中，并经过多个唤醒词识别单元分别对应的后验单元，确定不同的唤醒词识别单元对应的识别结果，也即，确定语音数据与唤醒词识别单元对应的目标唤醒词之间的匹配程度。示意性的，上述识别结果实现为置信度。其中，后验单元可以进行单独的参数调优和性能优化，无需受语音数据的影响。

在一个可选的实施例中，在得到语音数据在不同唤醒词识别单元对应的后验单元的置信度后，确定语音数据与不同目标唤醒词之间的相似度。将多个置信度输入综合识别单元，由综合识别单元对各个置信度进行判决。

示意性的，综合识别单元比较各个置信度，取最大值作为最终置信度，若该最终置信度高于设定阈值，则该设备可以被唤醒；若该最终置信度低于设定阈值，则该设备不被唤醒。以上仅为示意性的举例，本申请实施例对此不加以限定。

在本申请实施例中，对唤醒词识别模型的训练过程进行介绍。以预先标注有样本唤醒词标签的样本语音数据对唤醒词识别模型进行训练时，固定唤醒词识别模型中除唤醒词识别单元以外的其他单元的模型参数，在将样本语音数据输入唤醒词识别模型后，输出得到模型预测结果，基于模型预测结果和样本唤醒词标签之间的损失值，对多个唤醒词识别单元中与样本唤醒词标签对应的唤醒词识别单元进行训练，从而使得多个唤醒词识别单元能够更加准确地确定待分析的语音数据与样本唤醒词标签对应的目标唤醒词之间的匹配程度，从而提升唤醒词识别模型的唤醒精度。同时，通过上述方法，在唤醒词识别模型的整体框架基础上，对模型内不同目标唤醒词对应的唤醒词识别单元进行独立训练，不仅减少了系统的资源占比，还更高效地实现了模型的训练过程。

图9是本申请一个示例性实施例提供的语音唤醒装置的结构框图，如图9所示，该装置包括如下部分：

获取模块910，用于获取语音数据，所述语音数据是用于进行语音唤醒的信号；

提取模块920，用于对所述语音数据进行特征提取，得到所述语音数据对应的语音特征表示；

识别模块930，用于将所述语音特征表示与多个目标唤醒词进行匹配度预测，得到多个识别结果，其中，每个目标唤醒词对应一个识别结果，所述识别结果用于指示所述语音特征表示与所述目标唤醒词之间的匹配程度；

选择模块940，用于对所述多个识别结果进行综合选择，得到所述语音数据对应的唤醒词识别结果，所述唤醒词识别结果用于确定语音唤醒结果。

在一个可选的实施例中，将语音唤醒装置应用于唤醒词识别模型，所述唤醒词识别模型中包括多个唤醒词识别单元，其中，不同的唤醒词识别单元对应不同的目标唤醒词；

所述识别模块930用于将所述语音特征表示输入所述多个唤醒词识别单元，通过所述多个唤醒词识别单元分别对所述语音特征表示进行唤醒词识别，输出所述多个识别结果，其中，每个唤醒词识别单元输出一个识别结果，所述识别结果用于指示所述语音特征表示与唤醒词识别单元对应的目标唤醒词之间的匹配程度；在一个可选的实施例中，唤醒词识别模型中还包括多个后验单元，每个后验单元对应一个唤醒词识别单元；

所述识别模块930还用于将所述语音特征表示输入所述多个唤醒词识别单元，输出多个音节识别结果，其中，每个唤醒词识别单元输出一个与所述目标唤醒词对应的音节识别结果；将所述唤醒词识别单元输出的音节识别结果输入与所述唤醒词识别单元对应的后验单元，输出得到所述唤醒词识别单元的目标唤醒词对应的置信度作为所述识别结果。

在一个可选的实施例中，所述唤醒词识别单元中包括与所述目标唤醒词对应的音节子单元；

所述识别模块930还用于将所述语音特征表示输入所述多个唤醒词识别单元；通过所述唤醒词识别单元中的音节子单元对所述语音特征表示进行识别，得到与所述音节子单元对应的音节得分作为所述音节识别结果。

在一个可选的实施例中，所述识别模块930还用于将所述唤醒词识别单元输出的音节识别结果输入与所述唤醒词识别单元对应的后验单元；通过所述后验单元对所述音节子单元对应的音节得分进行后验处理，得到所述唤醒词识别单元的目标唤醒词对应的置信度作为所述识别结果。

在一个可选的实施例中，所述多个唤醒词识别单元中包括第一唤醒词识别单元以及第二唤醒词识别单元；

所述识别模块930还用于响应于所述第一唤醒词识别单元中的第一音节子单元，与所述第二唤醒词识别单元中的第二音节子单元相同，将所述第一音节子单元对应的音节得分作为所述第二音节子单元对应的音节得分。

在一个可选的实施例中，所述音节子单元中包括重音节子单元和轻音节子单元；

所述识别模块930还用于确定所述重音节子单元和所述轻音节子单元分别对应的音节权重；基于所述音节权重对所述重音节子单元对应的音节得分以及所述轻音节子单元对应的音节得分进行后验处理，得到所述唤醒词识别单元的目标唤醒词对应的置信度作为所述识别结果。

在一个可选的实施例中，所述选择模块940还用于通过所述综合识别单元对多个唤醒词识别单元对应的目标唤醒词的置信度进行比较处理；将多个目标唤醒词中置信度最高的目标唤醒词作为所述唤醒词识别结果。

在一个可选的实施例中，所述选择模块940还用于响应于置信度最高的目标唤醒词的置信度达到置信度阈值，确定语音唤醒成功；响应于置信度最高的目标唤醒词的置信度小于置信度阈值，确定语音唤醒失败。

在一个可选的实施例中，如图10所示，所述装置还包括训练模块950，所述训练模块950用于对唤醒词识别模型进行训练过程；

所述训练模块950包括：

获取单元951，用于至少一个样本语音数据，所述样本语音数据标注有样本唤醒词标签，所述样本唤醒词标签是多个目标唤醒词中的一个；

固定单元952，用于固定所述唤醒词识别模型中除所述唤醒词识别单元以外的其他单元的模型参数；

输出单元953，用于将所述样本语音数据输入所述唤醒词识别模型，输出得到模型预测结果；

训练单元954，用于基于所述模型预测结果和所述样本唤醒词标签之间的差异，对所述多个唤醒词识别单元中与所述样本唤醒词标签对应的唤醒词识别单元进行训练。

在一个可选的实施例中，所述训练单元954还用于确定所述样本唤醒词标签和所述模型预测结果之间的损失值；以所述损失值对与所述样本唤醒词标签对应的唤醒词识别单元进行训练，得到所述唤醒词识别模型。

需要说明的是：上述实施例提供的语音唤醒装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音唤醒装置与语音唤醒方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器(RandomAccess Memory，RAM)1102和只读存储器(Read Only Memory，ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。服务器1100还包括用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1106。

大容量存储设备1106通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1106及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说，大容量存储设备1106可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1106可以统称为存储器。

根据本申请的各种实施例，服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的语音唤醒方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的语音唤醒方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的语音唤醒方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音唤醒方法，其特征在于，所述方法包括：

获取语音数据，所述语音数据是用于进行语音唤醒的信号；

将所述语音特征表示输入唤醒词识别模型中的多个唤醒词识别单元，输出多个音节识别结果，其中，不同的唤醒词识别单元对应不同的目标唤醒词，每个唤醒词识别单元输出一个与所述目标唤醒词对应的音节识别结果，所述音节识别结果用于指示所述语音数据的音节发音与所述目标唤醒词的音节发音之间的相似度，所述唤醒词识别模型中还包括多个后验单元，每个后验单元对应一个唤醒词识别单元；

将所述唤醒词识别单元输出的音节识别结果输入与所述唤醒词识别单元对应的后验单元，输出得到多个识别结果，所述识别结果是所述唤醒词识别单元的目标唤醒词对应的置信度，所述识别结果用于指示所述语音特征表示与唤醒词识别单元对应的目标唤醒词之间的匹配程度；

2.根据权利要求1所述的方法，其特征在于，所述唤醒词识别单元中包括与所述目标唤醒词对应的音节子单元；

所述将所述语音特征表示输入唤醒词识别模型中的多个唤醒词识别单元，输出多个音节识别结果，包括：

将所述语音特征表示输入所述多个唤醒词识别单元；

通过所述唤醒词识别单元中的音节子单元对所述语音特征表示进行识别，得到与所述音节子单元对应的音节得分作为所述音节识别结果。

3.根据权利要求2所述的方法，其特征在于，所述将所述唤醒词识别单元输出的音节识别结果输入与所述唤醒词识别单元对应的后验单元，输出得到多个识别结果，包括：

将所述唤醒词识别单元输出的音节识别结果输入与所述唤醒词识别单元对应的后验单元；

通过所述后验单元对所述音节子单元对应的音节得分进行后验处理，得到所述唤醒词识别单元的目标唤醒词对应的置信度作为所述识别结果。

4.根据权利要求3所述的方法，其特征在于，所述多个唤醒词识别单元中包括第一唤醒词识别单元以及第二唤醒词识别单元；

所述方法还包括：

响应于所述第一唤醒词识别单元中的第一音节子单元，与所述第二唤醒词识别单元中的第二音节子单元相同，将所述第一音节子单元对应的音节得分作为所述第二音节子单元对应的音节得分。

5.根据权利要求3所述的方法，其特征在于，所述音节子单元中包括重音节子单元和轻音节子单元；

所述通过所述后验单元对所述音节子单元对应的音节得分进行后验处理，得到所述唤醒词识别单元的目标唤醒词对应的置信度作为所述识别结果，包括：

确定所述重音节子单元和所述轻音节子单元分别对应的音节权重；

基于所述音节权重对所述重音节子单元对应的音节得分以及所述轻音节子单元对应的音节得分进行后验处理，得到所述唤醒词识别单元的目标唤醒词对应的置信度作为所述识别结果。

6.根据权利要求1所述的方法，其特征在于，所述唤醒词识别模型中还包括综合识别单元；

所述对所述多个识别结果进行综合选择，得到所述语音数据对应的唤醒词识别结果，包括：

通过所述综合识别单元对多个唤醒词识别单元对应的目标唤醒词的置信度进行比较处理；

将多个目标唤醒词中置信度最高的目标唤醒词作为所述唤醒词识别结果。

7.根据权利要求6所述的方法，其特征在于，所述将多个目标唤醒词中置信度最高的目标唤醒词作为所述唤醒词识别结果之后，还包括：

响应于置信度最高的目标唤醒词的置信度达到置信度阈值，确定语音唤醒成功；

响应于置信度最高的目标唤醒词的置信度小于置信度阈值，确定语音唤醒失败。

8.根据权利要求1至7任一所述的方法，其特征在于，所述唤醒词识别模型的训练过程包括：

获取至少一个样本语音数据，所述样本语音数据标注有样本唤醒词标签，所述样本唤醒词标签是多个目标唤醒词中的一个；

固定所述唤醒词识别模型中除所述唤醒词识别单元以外的其他单元的模型参数；

将所述样本语音数据输入所述唤醒词识别模型，输出得到模型预测结果；

基于所述模型预测结果和所述样本唤醒词标签之间的差异，对所述多个唤醒词识别单元中与所述样本唤醒词标签对应的唤醒词识别单元进行训练。

9.根据权利要求8所述的方法，其特征在于，所述基于所述模型预测结果和所述样本唤醒词标签之间的差异，对所述多个唤醒词识别单元中与所述样本唤醒词标签对应的唤醒词识别单元进行训练，包括：

确定所述样本唤醒词标签和所述模型预测结果之间的损失值；

以所述损失值对与所述样本唤醒词标签对应的唤醒词识别单元进行训练，得到所述唤醒词识别模型。

10.一种语音唤醒装置，其特征在于，所述装置包括：

提取模块，用于对所述语音数据进行特征提取，得到所述语音数据的语音特征表示；

识别模块，用于将所述语音特征表示输入唤醒词识别模型中的多个唤醒词识别单元，输出多个音节识别结果，其中，不同的唤醒词识别单元对应不同的目标唤醒词，每个唤醒词识别单元输出一个与所述目标唤醒词对应的音节识别结果，所述音节识别结果用于指示所述语音数据的音节发音与所述目标唤醒词的音节发音之间的相似度，所述唤醒词识别模型中还包括多个后验单元，每个后验单元对应一个唤醒词识别单元；将所述唤醒词识别单元输出的音节识别结果输入与所述唤醒词识别单元对应的后验单元，输出得到多个识别结果，所述识别结果是所述唤醒词识别单元的目标唤醒词对应的置信度，所述识别结果用于指示所述语音特征表示与唤醒词识别单元对应的目标唤醒词之间的匹配程度；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的语音唤醒方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的语音唤醒方法。

13.一种计算机程序产品，其特征在于，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现如权利要求1至9任一所述的语音唤醒方法。