CN115064160B

CN115064160B - 语音唤醒方法以及装置

Info

Publication number: CN115064160B
Application number: CN202210981483.2A
Authority: CN
Inventors: 徐鹏
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-22
Anticipated expiration: 2042-08-16
Also published as: CN115064160A

Abstract

本说明书实施例提供语音唤醒方法以及装置，其中所述语音唤醒方法包括：获取语音数据，并对所述语音数据进行音频特征提取，得到音频特征；将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度；在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象。通过提取语音数据的音频特征，计算音频特征与唤醒词的文本特征的特征相似度，进而将特征相似度与相似度阈值对比进行唤醒，极大地降低了计算量，进而提高了唤醒效率。且预先保存唤醒词的文本特征，而不是在语音唤醒时对唤醒词的文本特征进行提取，进一步减少了数据处理量，保证了语音唤醒的高效性。

Description

语音唤醒方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种语音唤醒方法。

背景技术

近年来，随着终端芯片算力的逐步提升和神经网络的兴起，语音功能在终端上的应用逐步丰富。关键词唤醒算法(Keyword Spotting，KWS)作为语音功能中非常重要的一环，也被用在了终端上用于唤醒设备。但由于功耗和硬件性能约束，普通的语音识别算法(Automatic Speech Recognition，ASR)模型所需的算力和所需的功耗，无法在设备上运行或无法实时运行。因此，亟需一种有效的方法以解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种语音唤醒方法。本说明书一个或者多个实施例同时涉及一种语音唤醒装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种语音唤醒方法，包括：

获取语音数据，并对所述语音数据进行音频特征提取，得到音频特征；

将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度；

在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象。

可选地，所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算之前，还包括：

接收唤醒词设置请求，其中，所述唤醒词设置请求中携带有至少一个唤醒词；

对所述唤醒词进行文本特征提取，得到所述唤醒词的文本特征并存储。

可选地，所述对所述唤醒词进行文本特征提取，得到所述唤醒词的文本特征，包括：

将所述唤醒词输入预先训练的文本特征提取模型中的文本编码层，获得所述唤醒词的文本编码向量，其中，所述文本特征提取模型为机器学习模型；

将所述文本编码向量输入所述文本特征提取模型中的文本特征提取层，获得所述唤醒词的文本特征。

可选地，所述唤醒词的数目为至少一个；

所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，包括：

将所述音频特征分别与各唤醒词的文本特征进行相似度计算，得到至少一个特征相似度；

相应地，所述在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象，包括：

在存在特征相似度大于相似度阈值的情况下，唤醒所述待唤醒对象。

可选地，所述唤醒词与待唤醒对象之间存在对应关系；

所述在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象，包括：

以目标相似度对应的唤醒词为目标唤醒词，唤醒所述目标唤醒词对应的待唤醒对象，其中，所述目标相似度为大于相似度阈值的特征相似度。

可选地，所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度之前，还包括：

将所述音频特征与所述唤醒词的文本特征按照预设格式进行格式化处理；

相应地，所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，包括：

将格式化处理后的所述音频特征与所述唤醒词的文本特征进行相似度计算，得到特征相似度。

可选地，所述对所述语音数据进行音频特征提取，得到音频特征，包括：

将所述语音数据进行降噪处理；

对降噪后的所述语音数据进行音频特征提取，得到音频特征。

将所述语音数据输入预先训练的音频特征提取模型中的语音编码层，得到所述语音数据的语音编码向量；

将所述语音编码向量输入所述音频特征提取模型中的音频特征提取层，得到所述语音数据的音频特征。

可选地，所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，包括：

将所述音频特征和所述预先存储的唤醒词的文本特征输入至预先训练的相似度预测模型，得到所述语音数据与所述唤醒词的特征相似度，其中，所述相似度预测模型为机器学习模型。

根据本说明书实施例的第二方面，提供了一种语音唤醒装置，包括：

获取模块，被配置为获取语音数据，并对所述语音数据进行音频特征提取，得到音频特征；

相似度计算模块，被配置为将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度；

唤醒模块，被配置为在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述语音唤醒方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述语音唤醒方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述语音唤醒方法的步骤。

本说明书一个实施例提供的一种语音唤醒方法，获取语音数据，并对所述语音数据进行音频特征提取，得到音频特征；将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度；在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象。通过提取语音数据的音频特征，计算音频特征与唤醒词的文本特征的特征相似度，进而将特征相似度与相似度阈值对比进行唤醒，极大地降低了计算量，进而提高了唤醒效率。且预先保存唤醒词的文本特征，而不是在语音唤醒时对唤醒词的文本特征进行提取，进一步减少了数据处理量，保证了语音唤醒的高效性。

附图说明

图1是本说明书一个实施例提供的一种语音唤醒系统下的语音唤醒流程图；

图2是本说明书一个实施例提供的一种语音唤醒方法的流程图；

图3是本说明书一个实施例提供的一种语音唤醒方法的处理示意图；

图4是本说明书一个实施例提供的一种语音唤醒方法的处理过程流程图；

图5是本说明书一个实施例提供的一种语音唤醒装置的结构示意图；

图6是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

神经网络(Neural Network)：基于神经理论演变和抽象出来的智能算法，通过对真实环境中的数据进行训练学习，得到对新数据的泛化能力，继而完成具体的任务：例如，视觉、语音等。

关键词唤醒算法(Keyword Spotting，KWS)：一种识别指定关键词的语音识别算法。

语音识别(Automatic Speech Recognition，ASR)：指机器自动将人的语音的内容转成文字。

大词汇量连续语音识别技术(LVCSR，Large Vocabulary Continuous SpeechRecognition)可以将大量长且连续语音的语音内容转成文字。

从文本到语音(TTS，Text to Speech)：是指将文字转语音的技术，是人机对话的一部分，让机器能够说话。

基于神经网络的时序类分类(CTC，Connectionist temporal classification)：主要用于处理序列标注问题中的输入与输出标签的对齐问题。

在本说明书中，提供了一种语音唤醒方法，本说明书同时涉及一种语音唤醒装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

近年来，随着终端芯片算力的逐步提升和神经网络的兴起，语音功能在终端上的应用逐步丰富。关键词唤醒算法(Keyword Spotting，KWS)作为语音功能中非常重要的一环，也被用在了终端上用于唤醒设备。但由于功耗和硬件性能约束，普通的语音识别算法(Automatic Speech Recognition，ASR)模型所需的算力和所需的功耗，无法在设备上运行或无法实时运行。

目前通常利用一个KWS模型提供本地实时服务，在关键词触发后，调用本地或云端的ASR模型进行语音内容识别和处理，例如手机等设备设置中的唤醒词，用户通过唤醒词唤醒手机等设备，以提供后续其他服务。但由于KWS模型均只能使用特定的唤醒词，该唤醒词在模型训练阶段即确定，不支持直接更换唤醒词，若想要更换唤醒词，就只能重新训练KWS模型，即KWS模型具有在不重新训练的情况下无法更换唤醒词的缺点。如此，导致对于用户的个性化需求（如设置不同的唤醒词）无法满足。

此外，同时对于平台型的项目，项目落地过程中，会打造一系列的实例项目提供给合作伙伴。应用厂商只需要简单的将实例项目集成到自己的产品中即可。KWS模型是语音类项目中必不可少的一环。在传统KWS算法集成过程中，应用厂商需要结合自己的应用场景，对KWS算法进行重训练。即需要将一个KWS模型给多个厂商集成时，无法满足自定义唤醒词的需求会带来很多重复的工作量。

现有技术中，通过使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模并对模型进行训练，采用训练后模型进行测试并在生成的格状（Lattice）网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。利用CTC模型输出后验概率稀疏的特点进行搜索，从而完成对唤醒词置信度计算。但由于该方法通过在Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列作为判断依据，前提是需要提前生成大而全的Lattice网络。此外，还有部分方案直接使用ASR模型进行语音识别，但语音识别消耗算力较大，不适合应用在算力较小的终端上。

因此，本说明书提供了一种语音唤醒方法，获取语音数据，并对所述语音数据进行音频特征提取，得到音频特征；将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度；在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象。通过提取语音数据的音频特征，计算音频特征与唤醒词的文本特征的特征相似度，进而将特征相似度与相似度阈值对比进行唤醒，极大地降低了计算量，进而提高了唤醒效率。且预先保存唤醒词的文本特征，而不是在语音唤醒时对唤醒词的文本特征进行提取，进一步减少了数据处理量，保证了语音唤醒的高效性。

参见图1，图1示出了本说明书一个实施例提供的一种语音唤醒系统下的语音唤醒流程图。如图1所示，该语音唤醒系统包括唤醒器和待唤醒对象；

唤醒器，被配置为接收用户设置的唤醒词，提取所述唤醒词的文本特征并存储；获取用户输入的语音数据，并对所述语音数据进行音频特征提取，得到音频特征；将所述音频特征与所述文本特征进行相似度计算，得到特征相似度；在所述特征相似度大于相似度阈值的情况下，发送唤醒指令至待唤醒对象；

待唤醒对象，被配置为接收所述唤醒指令；响应于所述唤醒指令进行启动。

实际应用中，唤醒器和待唤醒对象可以处于同一设备上，例如唤醒器为手机上的核心处理器，待唤醒对象为手机上下载的聊天软件；唤醒器和待唤醒对象也可以处于不同设备上，例如唤醒器为家用智能语音设备，待唤醒对象为家用智能电灯；待唤醒对象还可以属于唤醒器内部的一部分，例如唤醒器为平板电脑，待唤醒对象为平板电脑上安装的应用程序；唤醒器与待唤醒对象也可以是同一个设备，例如唤醒器与待唤醒对象均为智能手机，智能手机处于休眠状态仅开启语音功能，在特征相似度大于相似度阈值的情况下，退出休眠状态，进入启动状态。本说明书对此不作限定。

本说明书提供了一种语音唤醒方法，获取语音数据，并对所述语音数据进行音频特征提取，得到音频特征；将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度；在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象。通过提取语音数据的音频特征，计算音频特征与唤醒词的文本特征的特征相似度，进而将特征相似度与相似度阈值对比进行唤醒，极大地降低了计算量，进而提高了唤醒效率。且预先保存唤醒词的文本特征，而不是在语音唤醒时对唤醒词的文本特征进行提取，进一步减少了数据处理量，保证了语音唤醒的高效性。

本说明书实施例提供的一个或多个实施例，可以应用于对象唤醒场景，例如智能计算机（手机、计算机、智能手表等）唤醒、各种应用软件唤醒、智能家电唤醒等。在一个实际应用中，特别适用于基于人工智能技术实现的对象唤醒场景中。人工智能（AI，artificialintelligence）是指已工程化（即设计并制造）的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。

参见图2，图2示出了本说明书一个实施例提供的一种语音唤醒方法的流程图，具体包括以下步骤。

步骤202：获取语音数据，并对所述语音数据进行音频特征提取，得到音频特征。

具体的，语音即语言的物质外壳，是语言的外部形式，是人的发音器官发出的具有一定社会意义的声音，此外语音也可以是声音设备发出携带有语言的声音；语音数据通常指的就是通过语音来记录的数据以及通过语音来传输的数据，例如声音文件；音频特征是指表征语音数据在音频层面的特征，可以是矩阵的形式，如音频特征矩阵，还可以是其他形式。

在本说明书一个或多个可选的实施例中，执行主体可以对外部的语音进行实时监测，在监测到有语音输入的情况下，将监测到的语音转换成语音数据，即在监测到语音输入的情况下获取到语音数据。例如，用户的手机具有唤醒功能，当用户在说话的时候，手机监测到有语音输入，将用户的语音转换成语音数据。如此，实时监测语音输入，避免用户操作才可获取语音数据的过程，极大程度保证了获取的语音数据的全面性，从而避免了因语音数据不全而未唤醒待唤醒对象，也即提高了唤醒效率。

在本说明书一个或多个可选的实施例中，执行主体也可以先接收语音获取指令，之后对语音进行监测，将监测到的语音转换成语音数据，即在接收到语音获取指令的情况下，获取语音数据。例如，用户点击手机上的语音唤醒功能键，同时用户说话，则手机监测到有语音输入，将用户的语音转换成语音数据。如此，执行主体无需实时对语音输入进行监测，极大地降低了数据处理量；此外，通过接收语音获取指令再获取语音数据，可以有效地避免待唤醒对象的错误唤醒，提高了语音唤醒的正确率。例如用户只是无意识说了一句话，并未想唤醒待唤醒对象，但由于该句话中存在唤醒词，却导致错误地唤醒了待唤醒对象。

在获取到语音数据的基础上，进一步地，对语音数据进行音频特征提取，得到音频特征。

在本说明书一个或多个可选的实施例中，可以对获取到的语音数据直接进行音频特征提取：采用预设的音频特征提取方法，对语音数据进行处理得到音频特征。

例如，先对语音数据进行语音编码处理，得到语音编码向量，然后对语音编码向量进行音频特征提取处理，得到音频特征。其中，语音编码向量是指对语音数据进行编码处理得到的向量。

又如，利用模型对语音数据进行音频特征提取，以提高音频特征提取的效率和准确率。即所述对所述语音数据进行音频特征提取，得到音频特征，具体实现过程可以如下：

将所述语音数据输入预先训练的音频特征提取模型中的语音编码层，得到所述语音数据的语音编码向量，其中，所述音频特征提取模型为机器学习模型；

具体的，音频特征提取模型是指以语音数据为输入、以音频特征为输出的模型，可以是预训练的神经网络模型，还可以是一些调整好参数的算法；语音编码向量是指对语音数据进行编码处理得到的向量；语音编码层是指对语音数据进行编码的单元；音频特征提取层是指对语音编码向量进行特征提取的单元。

实际应用中，可以先获取预先训练的、包含有语音编码层和音频特征提取层的音频特征提取模型。在获取到语音数据之后，将语音数据输入至语音编码层，由语音编码层对语音数据进行编码处理，进而输出语音数据的语音编码向量；然后将语音编码向量输入至音频特征提取层，由音频特征提取层对语音编码向量进行音频特征提取，进而输出音频特征。如此，使用预训练的音频特征提取模型进行语音编码和音频特征提取，不仅可以提高处理效率，还可以提高语音编码向量和音频特征的准确性。

例如，音频特征提取模型为预先训练好的音频特征编码器，可以将语音数据输入音频特征编码器进行语音编码及音频特征提取，进而生成音频特征矩阵。

需要说明的是，在使用预先训练的音频特征提取模型之前，还需要对第一待训练模型进行训练，以便于得到具有语音编码功能和音频特征提取功能的音频特征提取模型。也即使用预训练的音频特征提取模型之前，还需要训练得到音频特征提取模型，以便于音频特征提取模型能够输出准确的音频特征。

在本说明书一个或多个可选的实施例中，音频特征提取模型的训练过程可以如下：

获取第一训练集和第一待训练模型，其中，所述第一训练集中包含多个携带有文本标签的样本语音数据，所述第一待训练模型包含语音编码层、音频特征提取层和文本输出层；

从所述第一训练集中提取任一样本语音数据，将该样本语音数据输入至所述语音编码层，得到预测语音编码向量；

将所述预测语音编码向量输入至所述音频特征提取层，得到预测音频特征；

将所述预测音频特征输入至所述文本输出层，得到预测文本；

根据所述预测文本和该样本语音数据携带的文本标签，计算第一损失值；

根据所述第一损失值对所述语音编码层、所述音频特征提取层和所述文本输出层的模型参数进行调整，继续执行所述从所述第一训练集中提取任一样本语音数据的步骤，在达到第一预设训练停止条件的情况下停止训练，将所述语音编码层和所述音频特征提取层确定为音频特征提取模型。

具体的，样本语音数据是指音频文件，例如音频的梅尔频谱；文本标签是指样本语音数据对应的真实文本；第一待训练模型可以是预训练的语音识别模型，例如预先训练好的ASR模型、预先训练好的LVCSR模型等；预测语音编码向量是指对样本语音数据进行编码处理得到的向量，与语音编码向量形式相同；预测音频特征是指对预测语音编码向量进行特征处理得到的特征，与音频特征形式相同；第一训练停止条件可以是损失值小于或等于预设阈值，还可以是迭代训练次数达到预设迭代值，也可以是第一损失值收敛，即第一损失值随着继续训练不再减小。

实际应用中，可以先获取第一训练集和第一待训练模型。然后将第一训练集中的任意一个样本语音数据输入至语音编码层，由语音编码层对样本语音数据进行语音编码处理，输出预测语音编码向量；再将预测语音编码向量输入音频特征提取层，由音频特征提取层对预测语音编码向量进行音频特征提取，输出预测音频特征；接着将预测音频特征输入文本输出层，由文本输出层对预测音频特征进行分析处理、得到并输出预测文本。进一步地，根据预测文本和该样本语音数据的文本标签，确定第一损失值，在未达到第一预设训练停止条件的情况下，根据第一损失值调整第一待训练模型的模型参数，也即语音编码层、音频特征提取层和文本输出层的模型参数，然后再次将第一训练集中的任意一个样本语音数据输入至语音编码层，进行下一轮训练；在达到第一预设训练停止条件的情况下，将训练好的语音编码层、音频特征提取层确定为音频特征提取模型。如此，通过多个样本语音数据对第一待训练模型进行训练，能够提高音频特征提取模型提取音频特征的准确性和速率，提高音频特征提取模型的鲁棒性。

此外，音频特征提取模型（音频特征编码器）可以是一系列Transformer模块或Conformer模块构成的语音编码和特征提取网络，其中包含了位置编码和注意力机制（Attention）结构。

例如，在训练过程中使用LVCSR或ASR模型为预训练模型，也即第一待训练模型，并在此基础上进行训练，确保建立了音频到文字之间的联系，经过音频特征编码器后，音频特征被提取并编码成固定长度的特征矩阵。也即使用一个正常的训练好的LVCSR或ASR模型，然后拿出其中的音频编码模块（语音编码层和音频特征提取层）作为音频特征提取模型。LVCSR或ASR模型中本身就有包含语音编码层和音频特征提取层，且语音编码层和音频特征提取层是声学到语言学转换模型的一部分，在VCSR或ASR模型上经过训练后，语音编码层和音频特征提取层，也即音频特征提取模型具有从声学到语言学的特性。

在本说明书一个或多个可选的实施例中，音频特征提取模型的训练过程还可以如下：

获取第一训练集和第一待训练模型，其中，所述第一训练集中包含多个携带有音频特征标签的样本语音数据，所述第一待训练模型包含语音编码层和音频特征提取层；

根据所述预测音频特征和该样本语音数据携带的音频特征标签，计算第一损失值；

根据所述第一损失值对所述语音编码层和所述音频特征提取层的模型参数进行调整，继续执行所述从所述第一训练集中提取任一样本语音数据的步骤，在达到第一预设训练停止条件的情况下停止训练，获得音频特征提取模型。

具体的，样本语音数据是指音频文件；第一待训练模型可以是音频识别模型；预测语音编码向量是指对样本语音数据进行编码处理得到的向量，与语音编码向量形式相同；预测音频特征是指对预测语音编码向量进行特征处理得到的特征，与音频特征形式相同；第一训练停止条件可以是损失值小于或等于预设阈值，还可以是迭代训练次数达到预设迭代值，也可以是第一损失值收敛，即第一损失值随着继续训练不再减小。

实际应用中，可以先获取第一训练集和第一待训练模型。然后将第一训练集中的任意一个样本语音数据输入至语音编码层，由语音编码层对样本语音数据进行语音编码处理，输出预测语音编码向量；再将预测语音编码向量输入音频特征提取层，由音频特征提取层对预测语音编码向量进行音频特征提取，输出预测音频特征。进一步地，根据预测音频特征和该样本语音数据的音频特征标签，确定第一损失值，在未达到第一预设训练停止条件的情况下，根据第一损失值调整第一待训练模型的模型参数，也即语音编码层和音频特征提取层的模型参数，然后再次将第一训练集中的任意一个样本语音数据输入至语音编码层，进行下一轮训练；在达到第一预设训练停止条件的情况下，将训练好的第一待训练模型确定为音频特征提取模型。如此，通过多个样本语音数据对第一待训练模型进行训练，能够提高音频特征提取模型提取音频特征的准确性和速率，提高音频特征提取模型的鲁棒性。

需要说明的是，计算损失值的损失函数有很多，如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等，在本说明书中，不对计算损失值的损失函数的选择做限定，其中损失值为本说明书中提到的任意一个损失值，如第一损失值、第二损失值等。且获取训练集的方式有多种，例如，可以是运营人员向执行主体发送待训练模型的训练指令，或者发送训练集的获取指令，相应地，执行主体在接收到该指令后，开始对训练集进行获取；也可以是服务器每隔预设时长，自动获取训练集，例如，经过预设时长后，具有模型训练功能的服务器自动获取指定存取区域内的训练集；或者经过预设时长后，具有模型训练功能的终端自动获取存储于本地的训练集，其中训练集为本说明书中提到的任意一个训练集，待训练模型与训练集相对。本说明书对获取训练集的方式不做任何限定。

在本说明书一个或多个可选的实施例中，还可以对语音数据进行降噪等前处理，再对处理后的语音数据进行音频特征提取。也即所述对所述语音数据进行音频特征提取，得到音频特征，包括：

将所述语音数据进行降噪处理；

具体的，降噪处理是指对语音数据中的杂乱数据进行去除的过程，例如针对用户说话的语音数据中包含的机器轰鸣的杂乱数据进行去除。

实际应用中，为了提高语音唤醒的效率和准确率，可以将语音数据中的杂乱数据进行去除，即对语音数据进行降噪，以降低杂乱数据对语音唤醒的干扰。进而将降噪后的语音数据进行音频特征提取，得到音频特征，其中提取过程可参照上述任意一种对语音数据进行音频特征提取的方法，此处不再赘述。

步骤204：将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度。

在获取语音数据，并对语音数据进行音频特征提取得到音频特征的基础上，将音频特征与唤醒词的文本特征进行相似度计算以得到特征相似度。

具体的，唤醒词是指预先设置的可以唤醒待唤醒对象的词语，利于在手机上设置唤醒手机的唤醒词“打开手机”，则用户说出“打开手机”时，手机会被唤醒；文本特征是指文本的基本单位，也即文本的特征或特征项，可以是矩阵的形式，如文本特征矩阵，还可以是其他形式；特征相似度是指音频特征与文本特征的相似程度或者距离，可以是欧几里得距离（Eucledian Distance），即采用欧几里得距离算法计算得到的相似度，可以是曼哈顿距离（Manhattan Distance），即采用曼哈顿距离算法计算得到的相似度，还可以是明可夫斯基距离（Minkowski Distance），即采用明可夫斯基距离算法计算得到的相似度，也可以是余弦相似度（余弦距离），即采用余弦相似度算法计算得到的相似度，本说明书对此不作限定。

在本说明书一个或多个可选的实施例中，可以对音频特征和预先存储的唤醒词的文本特征直接进行音频特征提取：采用预设的相似度计算方法，对音频特征和文本特征进行相似度计算得到特征相似度。例如，直接采用余弦相似度对应的算法，计算音频特征和文本特征的特征相似度，即使用余弦距离来衡量特征相似度。

在本说明书一个或多个可选的实施例中，利用模型对音频特征与文本特征进行相似度计算，以提高特征相似度的获取效率和准确率。即所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，具体实现过程可以如下：

具体的，相似度预测模型是指以音频特征和文本特征为输入、以特征相似度为输出的模型，可以是预训练的神经网络模型，还可以是一些调整好参数的算法。

实际应用中，可以先获取预先训练的相似度预测取模型。在获取到音频特征之后，将音频特征和唤醒词的文本特征输入至相似度预测模型，由相似度预测模型对音频特征和文本特征进行相似度计算，进而输出特征相似度。如此，使用预训练的相似度预测模型进行特征相似度计算，不仅可以提高处理效率，还可以提高特征相似度的准确性。

需要说明的是，在使用预先训练的相似度预测模型之前，还需要对第二待训练模型进行训练，以便于得到具有相似度计算功能的相似度预测模型。也即使用预训练的相似度预测模型之前，还需要训练得到相似度预测模型，以便于相似度预测模型能够输出准确的特征相似度。相似度预测取模型的训练过程可以为：获取样本集和预训练的初始相似度预测模型，其中，样本集中包含多个样本对，每个样本对包含样本音频特征和样本文本特征；从所述样本集中提取任一样本对，将该样本对中的样本音频特征和样本文本特征输入至所述初始相似度预测模型，得到预测相似度；根据预测相似度计算差异值；根据差异值对初始相似度预测模型的模型参数进行调整，继续执行从所述样本集中提取任一样本对的步骤，在达到目标训练停止条件的情况下停止训练，获得相似度预测模型。

其中，样本音频特征可以通过音频特征提取模型获取，样本文本特征可以通过文本特征提取模型获取。

需要说明的是，计算差异值的损失函数有很多，如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等，在本说明书中，不对计算差异值的损失函数的选择做限定。且获取样本集的方式有多种，例如，可以是运营人员向执行主体发送初始相似度预测模型的训练指令，或者发送样本集的获取指令，相应地，执行主体在接收到该指令后，开始对样本集进行获取；也可以是服务器每隔预设时长，自动获取样本集，例如，经过预设时长后，具有模型训练功能的服务器自动获取指定存取区域内的样本集；或者经过预设时长后，具有模型训练功能的终端自动获取存储于本地的样本集，其中样本集为本说明书中提到的任意一个样本集，待训练模型与样本集相对。本说明书对获取样本集的方式不做任何限定。

在本说明书一个或多个可选的实施例中，为了进一步提高特征相似度的准确率，还可以对音频特征和文本特征进行格式化处理，再对格式化处理后的音频特征和文本特征进行相似度计算。也即所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度之前，还包括：

具体的，预设格式可以是预先设置的特征格式，如预先设置特征的维度等，还可以是预先设置特征的处理条件，如令音频特征与文本特征的维度相同等。

实际应用中，可以将音频特征和文本特征先按照预设格式进行格式化处理，使音频特征和文本特征的格式统一，进而将格式化处理后的音频特征与文本特征进行相似度计算，得到特征相似度，其中相似度计算过程可参照上述任意一种对音频特征与文本特征进行相似度计算的方法，此处不再赘述。如此，将音频特征和文本特征进行格式统一，有利于提高相似度计算的效率和准确度。

例如，预设格式为令音频特征与文本特征，则将音频特征和文本特征生成进行格式化处理成维度相同的特征矩阵，然后进行相似度计算。

需要说明的是，语音唤醒的前提是预先设置好唤醒词，因此在进行语音唤醒之前，可以预先设置唤醒词，然后再进行语音唤醒。也即所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算之前，还包括：

具体的，唤醒词设置请求用于设置唤醒词，可以是设置指令。

实际应用中，用户可以在唤醒词设置界面输入至少一个唤醒词，在确认之后，执行主体即接收到携带有至少一个唤醒词的唤醒词设置请求，例如，用户通过手机提供的手机唤醒词设置界面设置手机的唤醒词，当用户在手机唤醒词设置界面输入“你好手机”并点击“确认”或“保存”按键之后，手机接收到携带有“你好手机”的唤醒词设置请求。用户还可以通过语音输入的方式设置唤醒词，即用户说出有关设置唤醒词的语音，执行主体对该语音进行内容识别后，生成携带有至少一个唤醒词的唤醒词设置请求，例如，用户打开手机的语音输入功能，并说出“请将‘你好手机’设置为唤醒词”，则手机的语音识别功能对该语音进行识别后生成携带有“你好手机”的唤醒词设置请求。此外，用户还可以通过编写代码等方式设置唤醒词，本说明书对此不作限定。

在确定了唤醒词之后，对唤醒词进行文本特征提取，并将文本特征进行保存。

在本说明书一个或多个可选的实施例中，可以对唤醒词直接进行文本特征提取：采用预设的文本特征提取方法，对唤醒词进行处理得到文本特征。

例如，先对唤醒词进行文本编码处理，得到文本编码向量，然后对文本编码向量进行文本特征提取处理，得到文本特征。其中，文本编码向量是指对唤醒词进行编码处理得到的向量。

又如，利用模型对唤醒词进行文本特征提取，以提高文本特征提取的效率和准确率。即所述对所述唤醒词进行文本特征提取，得到所述唤醒词的文本特征，具体实现过程可以如下：

具体的，文本特征提取模型是指以唤醒词（文本）为输入、以文本特征为输出的模型，可以是预训练的神经网络模型，还可以是一些调整好参数的算法；文本编码向量是指对唤醒词进行编码处理得到的向量；文本编码层是指对唤醒词进行编码的单元；文本特征提取层是指对文本编码向量进行特征提取的单元。

实际应用中，可以先获取预先训练的、包含有文本编码层和文本特征提取层的文本特征提取模型。在获取到唤醒词之后，将唤醒词输入至文本编码层，由文本编码层对唤醒词进行编码处理，进而输出唤醒词的文本编码向量；然后将文本编码向量输入至文本特征提取层，由文本特征提取层对文本编码向量进行文本特征提取，进而输出文本特征。如此，使用预训练的文本特征提取模型进行文本编码和文本特征提取，不仅可以提高处理效率，还可以提高文本编码向量和文本特征的准确性。

例如，文本特征提取模型为预先训练好的文本特征编码器，将给定的唤醒词文本输入文本特征编码器，进行文本编码及文本特征提取，生成并保存唤醒词对应的文本特征矩阵。

此外，在设置唤醒词阶段，可以设置一个唤醒词，也可以设置一个以上的唤醒词。在唤醒词有多个时，不同的唤醒词可以用于唤醒同一待唤醒对象，即多个唤醒词对应不同的唤醒对象，例如为视频应用程序设置“哈哈哈”和“呵呵呵”两个唤醒词；不同的唤醒词可以用于唤醒不同的待唤醒对象，也即为不同的待唤醒对象设置不同的唤醒词，例如为视频应用程序设置唤醒词“哈哈哈”、为购物应用程序设置唤醒词“买买买”；相同的唤醒词可以用户唤醒不同的待唤醒对象，也即一个唤醒词可以同时对应不同的唤醒对象，例如为相关联的两个购物应用程序设置同一个唤醒词“买买买”。

需要说明的是，在使用预先训练的文本特征提取模型之前，还需要对第三待训练模型进行训练，以便于得到具有文本编码功能和文本特征提取功能的文本特征提取模型。也即使用预训练的文本特征提取模型之前，还需要训练得到文本特征提取模型，以便于文本特征提取模型能够输出准确的文本特征。

在本说明书一个或多个可选的实施例中，文本特征提取模型的训练过程可以如下：

获取第二训练集和第二待训练模型，其中，所述第二训练集中包含多个携带有音频标签的样本文本，所述第二待训练模型包含文本编码层、文本特征提取层和音频输出层；

从所述第二训练集中提取任一样本文本，将该样本文本输入至所述文本编码层，得到预测文本编码向量；

将所述预测文本编码向量输入至所述文本特征提取层，得到预测文本特征；

将所述预测文本特征输入至所述音频输出层，得到预测音频；

根据所述预测音频和该样本文本携带的音频标签，计算第二损失值；

根据所述第二损失值对所述文本编码层、所述文本特征提取层和所述音频输出层的模型参数进行调整，继续执行所述从所述第二训练集中提取任一样本文本的步骤，在达到第二预设训练停止条件的情况下停止训练，将所述文本编码层和所述文本特征提取层确定为文本特征提取模型。

具体的，样本文本是指文字；音频标签是指样本文本对应的真实语音数据，例如音频的梅尔频谱；第二待训练模型可以是预训练的文字转语音模型，例如TTS模型；预测文本编码向量是指对样本文本进行编码处理得到的向量，与文本编码向量形式相同；预测文本特征是指对预测文本编码向量进行特征处理得到的特征，与文本特征形式相同；第二训练停止条件可以是损失值小于或等于预设阈值，还可以是迭代训练次数达到预设迭代值，也可以是第二损失值收敛，即第二损失值随着继续训练不再减小。

实际应用中，可以先获取第二训练集和第二待训练模型。然后将第二训练集中的任意一个样本文本输入至文本编码层，由文本编码层对样本文本进行文本编码处理，输出预测文本编码向量；再将预测文本编码向量输入文本特征提取层，由文本特征提取层对预测文本编码向量进行文本特征提取，输出预测文本特征；接着将预测文本特征输入文本输出层，由文本输出层对预测文本特征进行分析处理、得到并输出预测音频。进一步地，根据预测音频和该样本文本的音频标签，确定第二损失值，在未达到第二预设训练停止条件的情况下，根据第二损失值调整第二待训练模型的模型参数，也即文本编码层、文本特征提取层和音频输出层的模型参数，然后再次将第二训练集中的任意一个样本文本输入至文本编码层，进行下一轮训练；在达到第二预设训练停止条件的情况下，将训练好的文本编码层、文本特征提取层确定为文本特征提取模型。如此，通过多个样本文本对第二待训练模型进行训练，能够提高文本特征提取模型提取文本特征的准确性和速率，提高文本特征提取模型的鲁棒性。

此外，文本特征提取模型可以是由一系列卷积和Attention结构组成的文本编码和特征提取网络。

例如，使用TTS模型作为预训练模型，也即第二待训练模型，在此基础上进行训练，确保建立了文字到音频之间的联系。经过文本特征提取模型后，唤醒词被提取并编码成固定长度的文本特征矩阵。如此，文本特征提取模型具有从语言学到声学的特性，可以使音频特征与文本特征有比较性，使模型训练得以收敛。

获取第二训练集和第二待训练模型，其中，所述第二训练集中包含多个携带有文本特征标签的样本文本，所述第二待训练模型包含文本编码层和文本特征提取层；

根据所述预测文本特征和该样本文本携带的文本特征标签，计算第二损失值；

根据所述第二损失值对所述文本编码层和所述文本特征提取层的模型参数进行调整，继续执行所述从所述第二训练集中提取任一样本文本的步骤，在达到第二预设训练停止条件的情况下停止训练，获得文本特征提取模型。

具体的，样本文本是指文本、文字；第二待训练模型可以是文本识别模型；预测文本编码向量是指对样本文本进行编码处理得到的向量，与文本编码向量形式相同；预测文本特征是指对预测文本编码向量进行特征处理得到的特征，与文本特征形式相同；第二训练停止条件可以是损失值小于或等于预设阈值，还可以是迭代训练次数达到预设迭代值，也可以是第二损失值收敛，即第二损失值随着继续训练不再减小。

实际应用中，可以先获取第二训练集和第二待训练模型。然后将第二训练集中的任意一个样本文本输入至文本编码层，由文本编码层对样本文本进行文本编码处理，输出预测文本编码向量；再将预测文本编码向量输入文本特征提取层，由文本特征提取层对预测文本编码向量进行文本特征提取，输出预测文本特征。进一步地，根据预测文本特征和该样本文本的文本特征标签，确定第二损失值，在未达到第二预设训练停止条件的情况下，根据第二损失值调整第二待训练模型的模型参数，也即文本编码层和文本特征提取层的模型参数，然后再次将第二训练集中的任意一个样本文本输入至文本编码层，进行下一轮训练；在达到第二预设训练停止条件的情况下，将训练好的第二待训练模型确定为文本特征提取模型。如此，通过多个样本文本对第二待训练模型进行训练，能够提高文本特征提取模型提取文本特征的准确性和速率，提高文本特征提取模型的鲁棒性。

此外，还可以将音频特征提取模型和文本特征提取模型结合，对相似度预测模型进行训练，也即固定音频特征提取模型和文本特征提取模型的参数，将样本语音数据和样本语音数据对应的文本（样本文本）分别输入给音频特征提取模型器和文本特征提取模型，将得到的样本音频特征和样本文本特征输入至相似度预测模型，对相似度预测模型进行训练。

步骤206：在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象。

在将音频特征与唤醒词的文本特征进行相似度计算以得到特征相似度的基础上，进一步地，将特征相似度和相似度阈值进行比较，以确定是否唤醒待唤醒对象。

具体的，相似度阈值是指预先设置的用于衡量特征相似度的数值，用于确定是否能够唤醒待唤醒对象；待唤醒对象是指需要启动的对象，可以是设备，如手机、电脑、智能电器等，还可以是应用程序，例如手机或电脑上安装的各种软件。

实际应用中，在进行特征比较时，首先要设定相似度阈值，如余弦距离阈值，然后将特征相似度与相似度阈值进行比较：对于特征相似度大于相似度阈值的语音数据，认为其中包含唤醒词，此时唤醒待唤醒对象；对于特征相似度小于或等于相似度阈值的语音数据，认为其中不包含唤醒词，此时不做处理，也即不唤醒待唤醒对象。

在本说明书一个或多个可选的实施例中，唤醒词可以有一个，也可以有多个。在唤醒词有至少一个的情况下，需要将音频特征分别与各唤醒词的文本特征进行相似度计算，再结合相似度阈值，确定是否唤醒待唤醒对象。也即在所述唤醒词的数目为至少一个的情况下，所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，具体实现过程可以如下：

实际应用中，可以设置N个唤醒词，其中N为正整数。每个唤醒词都有其对应的文本特征，即有N个文本特征。此时，将音频特征与N个文本特征分别进行相似度计算，得到N个特征相似度。将各特征相似度分别与相似度阈值进行比较，在N个特征相似度中存在至少有一特征相似度大于相似度阈值的情况下，唤醒待唤醒对象。如此，根据用户需求设置不同数量的唤醒词，进一步提高用户粘度。

例如，唤醒词有三个：唤醒词A、唤醒词B和唤醒词C。唤醒词A-C分别对应文本特征a-c。将音频特征与文本特征a进行相似度计算，得到特征相似度0.3；将音频特征与文本特征b进行相似度计算，得到特征相似度0.8，将音频特征与文本特征c进行相似度计算，得到特征相似度0.7。假设相似度阈值为0.7，则0.8大于0.7，则唤醒待唤醒对象。

在本说明书一个或多个可选的实施例中，所述唤醒词与待唤醒对象之间存在对应关系；此时所述在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象，具体实现过程可以如下：

具体的，目标唤醒词是指目标相似度对应的唤醒词，也即目标唤醒词的文本特征与音频特征的特征相似度大于相似度阈值。

实际应用中，不同的唤醒词可能对应不同的待唤醒对象。因此，在确定各唤醒词的文本特征与音频特征的特征相似度之后，将各特征相似度与相似度阈值进行比较，确定出目标相似度，然后唤醒目标相似度对应的目标唤醒词对应的待唤醒对象。如此，通过唤醒词与待唤醒对象之间的对应关系，进行待唤醒对象的唤醒，可以使用户同时对多个待唤醒对象进行唤醒词的设置，进一步提高了用户的体验感和用户黏度。

沿用上例，假设唤醒词A-C分别对应待唤醒对象1-3，则由于音频特征与文本特征b的特征相似度0.8大于相似度阈值，且唤醒词B与文本特征b相对应，则唤醒待唤醒对象2。

参见图3，图3是本说明书一个实施例提供的一种语音唤醒方法的处理示意图：首先设置唤醒词，将设置的唤醒词输入文本特征编码器，也即文本特征提取模型，得到文本特征并保存。然后在获取到语音数据的情况下，将语音数据输入音频特征编码，也即音频特征提取模型，得到音频特征。然后将音频特征和文本特征输入至特征对比器，特征对比器通过相似度预测模型计算音频特征和文本特征的特征相似度，然后将特征相似度与相似度阈值进行比较，根据比较结果确定是否唤醒待唤醒对象的结果，也即在特征相似度大于相似度阈值的情况下，唤醒待唤醒对象，在特征相似度不大于相似度阈值的情况下，不做响应。

需要说明的是，文本特征提取模型（文本特征编码器）仅在唤醒词设置阶段使用。在语音唤醒阶段仅会进行音频特征提取，并做语音特征与保存的文本特征进行相似度计算。因此在实际执行过程中与传统KWS模型相比，不会引入较大计算量。

此外，通过使用LVCSR/ASR模型作为预训练的音频特征提取模型，对语音数据进行音频特征提取；通过使用TTS模型作为预训练的文本特征提取模型，对唤醒词进行文本特征提取。建立了语音数据到音频特征，和唤醒词到音频特征的关联。在训练过程中以降低二者之间的距离为优化目标。最终训练出可建立文本特征和音频特征关联的特征提取模型，通过设定的相似度阈值达到唤醒词判定的效果。由于在训练阶段音频特征提取模型的训练语料为ASR语料，该语料同时作为TTS的输入，使得模型对唤醒词无要求，即可实现唤醒词更换。由于本方案的音频特征提取模型是对语音数据进行处理得到音频特征，无需使用Lattice音素网络进行音频解码，并且在应用过程中文本特征提取模型仅在唤醒词设置阶段工作，在语音唤醒阶段不工作，所以在唤醒过程中未引入计算量，保证了算法的高效。使用特征比对而不是传统KWS中的softmax进行关键词判断，实现唤醒词的自定义的同时为引入额外计算量。

下述结合附图4，以本说明书提供的语音唤醒方法在应用程序唤醒场景中的应用为例，对所述语音唤醒方法进行进一步说明。其中，图4示出了本说明书一个实施例提供的一种语音唤醒方法的处理过程流程图，具体包括以下步骤。

步骤402：接收唤醒词设置请求，其中，唤醒词设置请求中携带有至少一个唤醒词。

步骤404：对唤醒词进行文本特征提取，得到唤醒词的文本特征并存储。

可选地，对唤醒词进行文本特征提取，得到唤醒词的文本特征，包括：

将唤醒词输入预先训练的文本特征提取模型中的文本编码层，获得唤醒词的文本编码向量，其中，文本特征提取模型为机器学习模型；

将文本编码向量输入文本特征提取模型中的文本特征提取层，获得唤醒词的文本特征。

步骤406：获取语音数据。

步骤408：对语音数据进行音频特征提取，得到音频特征。

可选地，对语音数据进行音频特征提取，得到音频特征，包括：

将语音数据进行降噪处理；

对降噪后的语音数据进行音频特征提取，得到音频特征。

将语音数据输入预先训练的音频特征提取模型中的语音编码层，得到语音数据的语音编码向量，其中，音频特征提取模型为机器学习模型；

将语音编码向量输入音频特征提取模型中的音频特征提取层，得到语音数据的音频特征。

步骤410：将音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度。

可选地，将音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度之前，还包括：

将音频特征与唤醒词的文本特征按照预设格式进行格式化处理；

相应地，将音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，包括：

将格式化处理后的音频特征与唤醒词的文本特征进行相似度计算，得到特征相似度。

可选地，将音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，包括：

将音频特征和预先存储的唤醒词的文本特征输入至预先训练的相似度预测模型，得到语音数据与唤醒词的特征相似度，其中，相似度预测模型为机器学习模型。

步骤412：在特征相似度大于相似度阈值的情况下，唤醒待唤醒应用程序。

可选地，唤醒词的数目为至少一个；

将音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，包括：

将音频特征分别与各唤醒词的文本特征进行相似度计算，得到至少一个特征相似度；

相应地，在特征相似度大于相似度阈值的情况下，唤醒待唤醒应用程序，包括：

在存在特征相似度大于相似度阈值的情况下，唤醒待唤醒应用程序。

可选地，唤醒词与待唤醒应用程序之间存在对应关系；

在特征相似度大于相似度阈值的情况下，唤醒待唤醒应用程序，包括：

以目标相似度对应的唤醒词为目标唤醒词，唤醒目标唤醒词对应的待唤醒应用程序，其中，目标相似度为大于相似度阈值的特征相似度。

本说明书提供了一种语音唤醒方法，通过提取语音数据的音频特征，计算音频特征与唤醒词的文本特征的特征相似度，进而将特征相似度与相似度阈值对比进行唤醒，极大地降低了计算量，进而提高了唤醒效率。且预先保存唤醒词的文本特征，而不是在语音唤醒时对唤醒词的文本特征进行提取，进一步减少了数据处理量，保证了语音唤醒的高效性。

与上述方法实施例相对应，本说明书还提供了语音唤醒装置实施例，图5示出了本说明书一个实施例提供的一种语音唤醒装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为获取语音数据，并对所述语音数据进行音频特征提取，得到音频特征；

相似度计算模块504，被配置为将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度；

唤醒模块506，被配置为在所述特征相似度大于相似度阈值的情况下，唤醒待唤醒对象。

可选地，所述装置还包括唤醒词设置模块，被配置为：

可选地，所述唤醒词设置模块，还被配置为：

可选地，所述唤醒词的数目为至少一个；

所述相似度计算模块504，还被配置为：

可选地，所述唤醒词与待唤醒对象之间存在对应关系；

所述唤醒模块506，还被配置为：

可选地，所述装置还包括格式化模块，被配置为：

相应地，所述相似度计算模块504，还被配置为：

可选地，所述获取模块502，还被配置为：

将所述语音数据进行降噪处理；

可选地，所述获取模块502，还被配置为：

可选地，所述相似度计算模块504，还被配置为：

本说明书提供了一种语音唤醒装置，通过提取语音数据的音频特征，计算音频特征与唤醒词的文本特征的特征相似度，进而将特征相似度与相似度阈值对比进行唤醒，极大地降低了计算量，进而提高了唤醒效率。且预先保存唤醒词的文本特征，而不是在语音唤醒时对唤醒词的文本特征进行提取，进一步减少了数据处理量，保证了语音唤醒的高效性。

上述为本实施例的一种语音唤醒装置的示意性方案。需要说明的是，该语音唤醒装置的技术方案与上述的语音唤醒方法的技术方案属于同一构思，语音唤醒装置的技术方案未详细描述的细节内容，均可以参见上述语音唤醒方法的技术方案的描述。

图6示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网（PSTN，Public SwitchedTelephone Network）、局域网（LAN，Local Area Network）、广域网（WAN，Wide AreaNetwork）、个域网（PAN，Personal Area Network）或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC，NetworkInterface Controller））中的一个或多个，诸如IEEE802.11无线局域网（WLAN，WirelessLocal Area Network）无线接口、全球微波互联接入（Wi-MAX，WorldwideInteroperability for Microwave Access）接口、以太网接口、通用串行总线（USB，Universal Serial Bus）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC，Near FieldCommunication）接口，等等。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述语音唤醒方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的语音唤醒方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述语音唤醒方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述语音唤醒方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语音唤醒方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语音唤醒方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述语音唤醒方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的语音唤醒方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述语音唤醒方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语音唤醒方法，包括：

将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，其中，所述文本特征的获取过程为将所述唤醒词输入预先训练的文字转语音模型中的文本特征提取模型，获得所述唤醒词的文本特征，所述文字转语音模型包含文本编码层、文本特征提取层和音频输出层，所述文本特征提取模型包括所述文本编码层和文本特征提取层；

2.根据权利要求1所述的方法，所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算之前，还包括：

3.根据权利要求2所述的方法，所述对所述唤醒词进行文本特征提取，得到所述唤醒词的文本特征，包括：

4.根据权利要求1所述的方法，所述唤醒词的数目为至少一个；

5.根据权利要求1-4任意一项所述的方法，所述唤醒词与待唤醒对象之间存在对应关系；

6.根据权利要求1-4任意一项所述的方法，所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度之前，还包括：

7.根据权利要求1-4任意一项所述的方法，所述对所述语音数据进行音频特征提取，得到音频特征，包括：

将所述语音数据进行降噪处理；

8.根据权利要求1-4任意一项所述的方法，所述对所述语音数据进行音频特征提取，得到音频特征，包括：

9.根据权利要求1-4任意一项所述的方法，所述将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，包括：

10.一种语音唤醒装置，包括：

相似度计算模块，被配置为将所述音频特征与预先存储的唤醒词的文本特征进行相似度计算，得到特征相似度，其中，所述文本特征的获取过程为将所述唤醒词输入预先训练的文字转语音模型中的文本特征提取模型，获得所述唤醒词的文本特征，所述文字转语音模型包含文本编码层、文本特征提取层和音频输出层，所述文本特征提取模型包括所述文本编码层和文本特征提取层；

11.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述语音唤醒方法的步骤。

12.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述语音唤醒方法的步骤。