CN111653274B

CN111653274B - 唤醒词识别的方法、装置及存储介质

Info

Publication number: CN111653274B
Application number: CN202010305090.0A
Authority: CN
Inventors: 靳源; 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2023-08-04
Anticipated expiration: 2040-04-17
Also published as: CN111653274A

Abstract

本公开揭示了一种唤醒词识别的方法、装置及存储介质，属于机器学习技术领域。所述方法包括：首先识别设备获取目标语音数据，然后，识别设备通过唤醒词识别模型对该目标语音数据进行处理，获得处理结果，其中，唤醒词识别模型是通过样本数据和该样本数据对应的标签训练获得的机器学习模型，最后根据该处理结果，确定该目标语音数据的识别结果。通过上述方案，识别设备可以通过利用软标签训练更新的唤醒词识别模型对目标语音数据进行唤醒词识别，唤醒词样本数据的各个语音特征可以对应各个软标签，从而解决了强制对齐后边界不清晰的问题，保证了唤醒词识别模型训练效果，提高了唤醒词识别的准确度。

Description

唤醒词识别的方法、装置及存储介质

技术领域

本公开涉及机器学习技术领域，特别是涉及一种唤醒词识别的方法、装置及存储介质。

背景技术

在人工智能场景下，越来越多的产品设备可以通过语音交互实现产品的功能，语音交互的起始可以是接收到产品设备相应的唤醒词，当产品设备接收到相应的唤醒词时，该产品设备可以与用户进行正常的语音交互从而实现相应的功能。

在相关技术中，产品设备识别唤醒词的功能可以通过一个训练好的机器学习模型来实现，训练机器学习模型的过程可以运用深度神经网络和隐马尔可夫模型相结合的方式建立唤醒模型，对输入的唤醒词数据进行强制对齐得到相应的标签，通过将强制对齐处理的唤醒词数据输入到唤醒模型中，对唤醒模型进行训练。

然而，相关技术中的方案，对唤醒词数据进行强制对齐生成硬标签，输入到唤醒词识别模型中，从而进一步训练唤醒词识别模型，这种方案会导致需要建立一个复杂的ASR(Automatic Speech Recognition，自动语音识别技术)模型进行强制对齐生成相应的硬标签，由于通过硬标签训练唤醒词识别模型对硬标签的对齐准确性要求很高，会发生由于强制对齐生成硬标签的准确性不够以及边界不清晰的情况影响模型训练的效果，从而导致唤醒词识别模型的准确率不高。

发明内容

本公开提供一种唤醒词识别的方法、装置及存储介质。所述技术方案如下：

根据本公开实施例的第一方面，提供了一种唤醒词识别的方法，其特征在于，所述方法包括：

获取目标语音数据，所述目标语音数据用来指示需要进行唤醒词识别的语音数据；

通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果；所述唤醒词识别模型是通过样本数据和所述样本数据对应的标签训练获得的机器学习模型；所述样本数据至少包括唤醒词样本数据和非唤醒词样本数据；所述样本数据对应的标签包括所述唤醒词样本数据对应的软标签以及所述非唤醒词样本数据对应的硬标签；所述唤醒词样本数据对应的软标签是通过计算确定的概率分布；所述处理结果是所述样本数据通过更新后的所述唤醒词识别模型获得的所述识别情况的概率值；

根据所述处理结果，确定所述目标语音数据的识别结果。

在一种可能的实现方式中，所述方法还包括：

通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果之前，通过对所述唤醒词样本数据进行处理，获得所述唤醒词样本数据对应的软标签；

将所述非唤醒词样本数据的所述标签确定为固定概率的硬标签，所述固定概率用来指示所述非唤醒词样本数据为唤醒词的概率为0，所述非唤醒词样本数据为非唤醒词的概率为1；

根据所述唤醒词样本数据、所述唤醒词样本数据对应的软标签以及所述非唤醒词样本数据对应的硬标签，对所述唤醒词识别模型进行更新。

在一种可能的实现方式中，所述根据所述唤醒词样本数据以及所述唤醒词样本数据对应的软标签，对所述唤醒词识别模型进行更新，包括：

将所述唤醒词样本数据通过所述唤醒词识别模型，确定所述唤醒词样本数据识别情况对应的概率值；

对所述唤醒词样本数据识别情况对应的概率值，以及所述唤醒词样本数据对应的标签进行交叉熵计算，获得损失函数值；

根据所述损失函数值，通过反向传播原理对所述唤醒词识别模型中的模型参数进行更新。

在一种可能的实现方式中，所述通过对所述唤醒词样本数据进行处理，获得所述唤醒词样本数据对应的软标签，包括：

根据语音端点检测VAD，获得所述唤醒词样本数据的数据长度；

根据所述数据长度，确定所述唤醒词样本数据的预设均值和预设方差；

确定所述唤醒词样本数据的识别情况对应的概率分布为所述唤醒词样本数据对应的软标签；

其中，所述唤醒词样本数据的概率分布设置为正态分布。

在一种可能的实现方式中，所述识别情况至少包括识别为唤醒词的情况或者识别为非唤醒词的情况。

在一种可能的实现方式中，所述通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果，包括：

将所述目标语音数据按照预设的数据长度依次输入到所述唤醒词识别模型中；

获得所述目标语音数据中包含目标唤醒词的概率值和不包含目标唤醒词的概率值作为处理结果。

在一种可能的实现方式中，所述根据所述处理结果，确定所述目标语音数据的识别结果，包括：

将所述包含目标唤醒词的概率值与判定阈值进行比较；

响应于所述包含目标唤醒词的概率值大于等于所述判定阈值，确定所述识别结果为所述目标语音数据为唤醒词；

响应于所述包含目标唤醒词的概率值小于所述判定阈值，确定所述识别结果为所述目标语音数据为非唤醒词。

根据本公开实施例的第二方面，提供了一种唤醒词识别的装置，其特征在于，所述装置包括：

数据获取模块，用于获取目标语音数据，所述目标语音数据用来指示需要进行唤醒词识别的语音数据；

数据处理模块，用于通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果；所述唤醒词识别模型是通过样本数据和所述样本数据对应的标签训练获得的机器学习模型；所述样本数据至少包括唤醒词样本数据和非唤醒词样本数据；所述样本数据对应的标签包括所述唤醒词样本数据对应的软标签以及所述非唤醒词样本数据对应的硬标签；所述唤醒词样本数据对应的软标签是通过计算确定的概率分布；所述处理结果是所述样本数据通过更新后的所述唤醒词识别模型获得的所述识别情况的概率值；

结果获取模块，用于根据所述处理结果，确定所述目标语音数据的识别结果。

在一种可能的实现方式中，所述装置还包括：

软标签获取模块，用于通过对所述唤醒词样本数据进行处理，获得所述唤醒词样本数据对应的软标签；

硬标签获取模块，用于将所述非唤醒词样本数据的所述标签确定为固定概率的硬标签，所述固定概率用来指示所述非唤醒词样本数据为唤醒词的概率为0，所述非唤醒词样本数据为非唤醒词的概率为1；

模型更新模块，用于根据所述唤醒词样本数据、所述唤醒词样本数据对应的软标签以及所述非唤醒词样本数据对应的硬标签，对所述唤醒词识别模型进行更新。

在一种可能的实现方式中，所述模型更新模块，包括：

概率确定子模块，用于将所述唤醒词样本数据通过所述唤醒词识别模型，确定所述唤醒词样本数据识别情况对应的概率值；

损失函数获取子模块，用于对所述唤醒词样本数据识别情况对应的概率值，以及所述唤醒词样本数据对应的标签进行交叉熵计算，获得损失函数值；

参数更新子模块，用于根据所述损失函数值，通过反向传播原理对所述唤醒词识别模型中的模型参数进行更新。

在一种可能的实现方式中，所述软标签获取模块，包括：

数据长度获取子模块，用于根据语音端点检测VAD，获得所述唤醒词样本数据的数据长度；

预设数值确定子模块，用于根据所述数据长度，确定所述唤醒词样本数据的预设均值和预设方差；

软标签确定子模块，用于确定所述唤醒词样本数据的识别情况对应的概率分布为所述唤醒词样本数据对应的软标签；

其中，所述唤醒词样本数据的概率分布设置为正态分布。

在一种可能的实现方式中，所所述识别情况至少包括识别为唤醒词的情况或者识别为非唤醒词的情况。

在一种可能的实现方式中，所述数据处理模块，包括：

数据输入子模块，用于将所述目标语音数据按照预设的数据长度依次输入到所述唤醒词识别模型中；

处理结果获取子模块，用于获得所述目标语音数据中包含目标唤醒词的概率值和不包含目标唤醒词的概率值作为处理结果。

在一种可能的实现方式中，所述结果获取模块，包括：

概率比较子模块，用于将所述包含目标唤醒词的概率值与判定阈值进行比较；

第一识别结果确定子模块，用于响应于所述包含目标唤醒词的概率值大于等于所述判定阈值，确定所述识别结果为所述目标语音数据为唤醒词；

第二识别结果确定子模块，用于响应于所述包含目标唤醒词的概率值小于所述判定阈值，确定所述识别结果为所述目标语音数据为非唤醒词。

根据本公开实施例的第三方面，提供了一种唤醒词识别的装置，所述装置包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

根据所述处理结果，确定所述目标语音数据的识别结果。

根据本公开实施例的第四方面，提供了一种计算机设备可读存储介质，所述计算机设备可读存储介质中包含可执行指令，所述可执行指令由处理器调用执行，以实现上述第一方面或者第一方面的任一可选方案所述的唤醒词识别的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

首先识别设备获取目标语音数据，然后，识别设备通过唤醒词识别模型对该目标语音数据进行处理，获得处理结果，其中，唤醒词识别模型是通过样本数据和该样本数据对应的标签训练获得的机器学习模型，该样本数据至少包括唤醒词样本数据和非唤醒词样本数据，该样本数据对应的标签包括该唤醒词样本数据对应的软标签以及该非唤醒词样本数据对应的硬标签，该唤醒词样本数据对应的软标签是通过计算确定的识别情况的概率分布，该处理结果是该唤醒词样本数据通过更新后的该唤醒词识别模型获得的该识别情况的概率值，最后根据该处理结果，确定该目标语音数据的识别结果。通过上述方案，识别设备可以通过利用软标签训练更新唤醒词识别模型对目标语音数据进行唤醒词识别，唤醒词样本数据的各个语音特征可以对应各个软标签，从而解决了强制对齐后边界不清晰的问题，保证了唤醒词识别模型训练效果，提高了唤醒词识别的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种模型训练及唤醒词数据识别框架图；

图2是根据一示例性实施例示出的一种机器学习模型的模型架构图；

图3是根据一示例性实施例示出的一种唤醒词识别的方法示意图；

图4是根据一示例性实施例示出的一种唤醒词识别的方法的流程图；

图5是根据另一示例性实施例示出的一种机器学习模型训练和唤醒词识别的方法流程图；

图6是根据一示例性实施例示出的一种唤醒词识别的装置的框图；

图7是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“若干个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了方便理解，下面对本公开实施例中涉及的名词进行说明。

1)人工智能

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)语音技术(Speech Technology)

语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text-To-Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

3)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例的方案包括模型训练阶段和唤醒词数据识别阶段。图1是根据一示例性实施例示出的一种模型训练及唤醒词数据识别框架图。如图1所示，在模型训练阶段，模型训练设备110通过对各个唤醒词数据确定不同的软标签，根据不同的软标签训练出机器学习模型，在唤醒词数据识别阶段，识别设备120根据训练好的机器学习模型以及输入的唤醒词数据可以识别出该唤醒词是否为目标唤醒词。

其中，上述模型训练设备110和识别设备120可以是具有机器学习能力的计算机设备，比如，该计算机设备可以是个人电脑、服务器以及固定式科研设备等固定式计算机设备，或者，该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。

在一种可能的实施方式中，上述模型训练设备110和识别设备120可以是同一个设备，或者，模型训练设备110和识别设备120也可以是不同的设备。并且，当模型训练设备110和识别设备120是不同的设备时，模型训练设备110和识别设备120可以是同一类型的设备，比如模型训练设备110和识别设备120可以都是个人电脑；或者，模型训练设备110和识别设备120也可以是不同类型的设备，比如模型训练设备110可以是服务器，而识别设备120可以是固定式科研实验设备等。本申请实施例对于模型训练设备110和识别设备120的具体类型不做限定。

图2是根据一示例性实施例示出的一种机器学习模型的模型架构图。如图2所示，本申请实施例中的机器学习模型20可以包含一个唤醒词识别模型和一个运算过程，其中一段运算过程可以用于将输入的唤醒词数据进行自动确定对应的标签，输出得到具有相应标签的唤醒词数据。经过该运算过程后，除了输出具有相应标签的唤醒词数据之外，还将具有相应标签的唤醒词数据输入到唤醒词识别210，该唤醒词识别210，用于根据输入的具有相应标签的唤醒词数据进行唤醒词识别，并输出唤醒词识别结果。

在上述图2所示的机器学习模型中，唤醒词的识别过程并不是将通过声学模型对唤醒词数据进行强制对齐得到对应的硬标签作为输入唤醒模型中的数据，而是将通过运算过程确定唤醒词数据的各个软标签，将具有相应各个软标签的唤醒词数据作为识别唤醒词的输入数据，相比于输入具有强制对齐得到的硬标签的唤醒词数据来说，经过运算确定唤醒词数据的各个软标签，将具有相应各个软标签的唤醒词数据作为识别唤醒词的输入数据的唤醒词识别准确性更高。

图3是根据一示例性实施例示出的一种唤醒词识别的方法示意图。如图3所示，该唤醒词识别的方法包括的步骤如下：

在步骤301中，训练设备使用语音端点检测技术(Voice Activity Detection，VAD)获得唤醒词数据的起始点和结束点。

在步骤302中，训练设备获得具有相应软标签的各帧唤醒词数据。

在步骤303中，训练设备将具有相应软标签的各帧唤醒词数据输入到唤醒模型中利用反向传播原理迭代优化网络参数训练得到最终的唤醒模型。

在步骤304中，识别设备实时接收语音数据输入到唤醒模型中。

在步骤305中，识别设备根据唤醒模型得到输入的语音数据唤醒的后验概率。

在步骤306中，识别设备将后验概率与预先设定的阈值进行比较，大于阈值则判断为唤醒词，小于阈值则判断为不是唤醒词。

图4是根据一示例性实施例示出的一种唤醒词识别的方法的流程图。该唤醒词识别的方法可以应用于识别设备中，以对接收到的语音数据进行唤醒词识别。如图4所示，该唤醒词识别的方法可以包括以下步骤：

在步骤401中，获取目标语音数据，该目标语音数据用来指示需要进行唤醒词识别的语音数据；

在步骤402中，通过唤醒词识别模型对该目标语音数据进行处理，获得处理结果；该唤醒词识别模型是通过样本数据和该样本数据对应的标签训练获得的机器学习模型；该样本数据至少包括唤醒词样本数据和非唤醒词样本数据；该样本数据对应的标签包括该唤醒词样本数据对应的软标签以及该非唤醒词样本数据对应的硬标签；该唤醒词样本数据对应的软标签是通过计算确定的概率分布；该处理结果是该样本数据通过更新后的该唤醒词识别模型获得的该识别情况的概率值；

在步骤403中，根据该处理结果，确定该目标语音数据的识别结果。

在一种可能的实现方式中，该方法还包括：

通过唤醒词识别模型对该目标语音数据进行处理，获得处理结果之前，通过对该唤醒词样本数据进行处理，获得该唤醒词样本数据对应的软标签；

将该非唤醒词样本数据的该标签确定为固定概率的硬标签，该固定概率用来指示该非唤醒词样本数据为唤醒词的概率为0，该非唤醒词样本数据为非唤醒词的概率为1；

根据该唤醒词样本数据、该唤醒词样本数据对应的软标签以及该非唤醒词样本数据对应的硬标签，对该唤醒词识别模型进行更新。

在一种可能的实现方式中，该根据该唤醒词样本数据、该唤醒词样本数据对应的软标签以及该非唤醒词样本数据对应的硬标签，对该唤醒词识别模型进行更新，包括：

将该唤醒词样本数据通过所述唤醒词识别模型，确定该唤醒词样本数据识别情况对应的概率值；

对该唤醒词样本数据识别情况对应的概率值，以及该唤醒词样本数据对应的标签进行交叉熵计算，获得损失函数值；

根据该损失函数值，通过反向传播原理对该唤醒词识别模型中的模型参数进行更新。

在一种可能的实现方式中，该通过对该唤醒词样本数据进行处理，获得该唤醒词样本数据对应的软标签，包括：

根据语音端点检测VAD，获得该唤醒词样本数据的数据长度；

根据该数据长度，确定该唤醒词样本数据的预设均值和预设方差；

确定该唤醒词样本数据的识别情况对应的概率分布为该唤醒词样本数据对应的软标签；

其中，该唤醒词样本数据的概率分布设置为正态分布。

在一种可能的实现方式中，该识别情况至少包括识别为唤醒词的情况或者识别为非唤醒词的情况。

在一种可能的实现方式中，该通过唤醒词识别模型对该目标语音数据进行处理，获得处理结果，包括：

将该目标语音数据按照预设的数据长度依次输入到该唤醒词识别模型中；

获得该目标语音数据中包含目标唤醒词的概率值和不包含目标唤醒词的概率值作为处理结果。

在一种可能的实现方式中，该根据该处理结果，确定该目标语音数据的识别结果，包括：

将该包含目标唤醒词的概率值与判定阈值进行比较；

响应于该包含目标唤醒词的概率值大于等于该判定阈值，确定该识别结果为该目标语音数据为唤醒词；

响应于该包含目标唤醒词的概率值小于该判定阈值，确定该识别结果为该目标语音数据为非唤醒词。

综上所述，本公开实施例中提供的唤醒词识别的方法，首先识别设备获取目标语音数据，然后，识别设备通过唤醒词识别模型对该目标语音数据进行处理，获得处理结果，其中，唤醒词识别模型是通过样本数据和该样本数据对应的标签训练获得的机器学习模型，该样本数据至少包括唤醒词样本数据和非唤醒词样本数据，该样本数据对应的标签包括该唤醒词样本数据对应的软标签以及该非唤醒词样本数据对应的硬标签，该唤醒词样本数据对应的软标签是通过计算确定的识别情况的概率分布，该处理结果是该唤醒词样本数据通过更新后的该唤醒词识别模型获得的该识别情况的概率值，最后根据该处理结果，确定该目标语音数据的识别结果。通过上述方案，识别设备可以通过利用软标签训练更新唤醒词识别模型对目标语音数据进行唤醒词识别，唤醒词样本数据的各个语音特征可以对应各个软标签，从而解决了强制对齐后边界不清晰的问题，保证了唤醒词识别模型训练效果，提高了唤醒词识别的准确度。

图5是根据另一示例性实施例示出的一种机器学习模型训练和唤醒词识别的方法流程图。该方案分为机器学习模型训练和唤醒词识别两部分，该机器学习模型训练和唤醒词识别方法可以由计算机设备执行，其中，该计算机设备可以包括上述图1所示的训练设备110和识别设备120。如图5所示，该机器学习模型训练和唤醒词识别方法可以包括如下步骤：

在步骤501中，识别设备获取目标语音数据。

在本公开实施例中，识别设备可以通过语音识别技术接收到一段固定长度的语音数据，作为目标语音数据。

其中，固定长度的语音数据可以是以时间单位进行度量的，开发人员可以预先设置识别设备具有实时的或者每个固定的时间周期性的接收固定长度的语音数据作为目标语音数据。

比如，识别设备可以为具有语音识别功能的智能音箱，识别设备可以通过麦克风矩阵实时接收外界的语音环境，可以将语音环境中的一整段语音数据分为固定长度为1s的各段语音数据，依次获取为目标语音数据。

其中，目标语音数据用来指示需要进行唤醒词识别的语音数据。

比如，智能音箱设备可以通过预先设定固定的至少一个唤醒词，用来启动该智能音箱设备，从而使智能音箱可以通过语音识别技术实现该智能音箱的各个技能。

在步骤502中，训练设备通过对该唤醒词样本数据进行处理，获得该唤醒词样本数据对应的软标签。

在本公开实施例中，训练设备可以通过对唤醒词样本数据进行预定的计算处理，通过计算可以获得各个唤醒词样本数据的各个特征对应的软标签。

在一种可能的实现方式中，唤醒词识别模型可以是通过样本数据和样本数据对应的标签训练获得的机器学习模型，样本数据可以至少包括唤醒词样本数据和非唤醒词样本数据，其中样本数据对应的标签可以包括唤醒词样本数据对应的软标签以及非唤醒词样本数据对应的硬标签。

其中，非唤醒词样本数据可以是相关反例数据，比如可以是电影语音数据、电视剧语音数据、音乐数据等数据。

其中，软标签可以是用来指示各个唤醒词样本数据中各个特征，对应的识别情况的概率分布。

在一种可能的实现方式中，训练设备可以将唤醒词样本数据以字为特征进行分类，或者也可以以词为特征进行分类，或者也可以以音素为特征进行分类。

比如，当唤醒词样本数据为“小X”是以词为特征进行分类，则该唤醒词样本数据可以分为“小X”这一类。

在一种可能的实现方式中，训练设备可以根据语音端点检测技术VAD，获得该唤醒词样本数据的数据长度，然后根据该数据长度，确定该唤醒词样本数据的预设均值和预设方差，从而确定该唤醒词样本数据的识别情况对应的概率分布为该唤醒词样本数据对应的软标签。

其中，唤醒词样本数据的概率分布可以设置为正态分布，识别情况可以至少包括识别为唤醒词的情况或者识别为非唤醒词的情况。

比如，当训练设备使用VAD时，可以获取到唤醒词样本数据的起始点和结束点的时间点，其中可以获得起始点为t₁，结束点为t₂。根据起始点与结束点的时间点可以计算得到该唤醒词样本数据的数据长度I，其中数据长度I可以通过结束点与起始点的差值计算得到，即计算公式可以是如下所示：

I＝t₂－t₁

根据数据长度I可以确定设置的该唤醒词样本数据的预设均值和预设方差，其中，预设均值μ可以通过如下公式计算得到：

预设方差σ可以通过如下公式计算得到：

其中，唤醒词样本数据的概率分布可以设置为正态分布，可以通过如下公式进行计算：

其中，训练设备可以通过计算唤醒词样本数据中的各个特征对应的该唤醒词样本数据为唤醒词的概率分布以及该唤醒词样本数据为非唤醒词的概率分布，作为该唤醒词样本数据的软标签对数据进行分类标记。

另外，训练设备可以将该非唤醒词样本数据的该标签确定为固定概率的硬标签，该固定概率可以用来指示该非唤醒词样本数据为唤醒词的概率为0，该非唤醒词样本数据为非唤醒词的概率为1。

在步骤503中，训练设备根据该唤醒词样本数据、该唤醒词样本数据对应的软标签以及该非唤醒词样本数据对应的硬标签，对该唤醒词识别模型进行更新。

在本公开实施例中，训练设备可以通过将各个唤醒词样本数据的各个特征对应的软标签经过处理输入到唤醒词识别模型的神经网络当中，可以实现对唤醒词识别模型的训练更新。

在一种可能的实现方式中，训练设备可以根据该唤醒词样本数据，通过将唤醒词样本数据输入到唤醒词识别模型中，输出确定该唤醒词样本数据识别情况对应的概率值，然后对该唤醒词样本数据识别情况对应的概率值，以及该唤醒词样本数据对应的标签进行交叉熵计算，获得损失函数值，最后，训练设备可以根据该损失函数值，通过反向传播原理对该唤醒词识别模型中的模型参数进行更新。

其中，唤醒词识别模型可以是包括深度神经网络(DeepNeuralNetworks，DNN)在内的一种神经网络模型。

在一种可能的实现方式中，唤醒词样本数据可以处理成最长帧数×特征维数的矩阵，通过输入到唤醒词识别模型中，可以输出得到至少包括该段唤醒词样本数据为唤醒词和为非唤醒词的概率值。

其中，训练设备可以通过将唤醒词识别模型的输出与对应数据的软标签进行交叉熵计算，可以令交叉熵作为模型参数训练的损失函数，通过反向传播原理迭代优化该神经网络模型的参数，从而实现模型训练的目的。

在一种可能的实现方式中，输入到唤醒词识别模型中的矩阵中的最长帧数可以是一段连续的语音数据中当前需要输入的当前帧以及该当前帧前后的部分帧的数据。

比如，当一次需要输入到唤醒词识别模型中的唤醒词样本数据为一帧语音数据，则可以取当前帧的前面3/4帧数据以及当前帧后面的1/4帧数据，一起输入到唤醒词识别模型中。

在步骤504中，识别设备将该目标语音数据按照预设的数据长度依次输入到该唤醒词识别模型中。

在本公开实施例中，识别设备可以根据实际情况预设的数据长度，可以将目标语音数据分为该数据长度的一段段语音数据，依次输入到该唤醒词识别模型中。

比如，当该识别设备预先设定的唤醒词为“小X小X”，根据实际情况，该唤醒词最短的语音数据长度可以是1s，则可以预设数据长度为1s。

在步骤505中，识别设备获得该目标语音数据中包含目标唤醒词的概率值和不包含目标唤醒词的概率值作为处理结果。

在本公开实施例中，识别设备可以实时的将固定长度的语音特征输入至唤醒词识别网络，得到唤醒的后验概率。

在一种可能的实现方式中，识别设备可以通过唤醒词识别模型对该目标语音数据进行处理，获得处理结果。

其中，唤醒词识别模型可以是通过唤醒词样本数据和该唤醒词样本数据对应的软标签训练获得的机器学习模型。唤醒词样本数据对应的软标签可以是通过计算确定的识别情况的概率分布。处理结果可以是该唤醒词样本数据通过更新后的该唤醒词识别模型获得的该识别情况的概率值。

在步骤506中，识别设备将该包含目标唤醒词的概率值与判定阈值进行比较。

在本公开实施例中，识别设备可以根据处理结果，确定该目标语音数据的识别结果。

其中，识别设备中可以预先设置一个判断唤醒的概率阈值，将输出的唤醒的后验概率与判断唤醒的概率阈值进行比较。

在步骤507中，响应于该包含目标唤醒词的概率值大于等于该判定阈值，识别设备确定该识别结果为该目标语音数据为唤醒词。

在步骤508中，响应于该包含目标唤醒词的概率值小于该判定阈值，识别设备确定该识别结果为该目标语音数据为非唤醒词。

图6是根据一示例性实施例示出的一种唤醒词识别的装置的框图，如图6所示，该唤醒词识别的装置可以通过硬件或者软硬结合的方式实现为计算机设备中的全部或者部分，以执行图4或图5对应实施例所示的方法的全部或部分步骤。该唤醒词识别的装置可以包括：

数据获取模块610，用于获取目标语音数据，所述目标语音数据用来指示需要进行唤醒词识别的语音数据；

数据处理模块620，用于通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果；所述唤醒词识别模型是通过样本数据和所述样本数据对应的标签训练获得的机器学习模型；所述样本数据至少包括唤醒词样本数据和非唤醒词样本数据；所述样本数据对应的标签包括所述唤醒词样本数据对应的软标签以及所述非唤醒词样本数据对应的硬标签；所述唤醒词样本数据对应的软标签是通过计算确定的概率分布；所述处理结果是所述样本数据通过更新后的所述唤醒词识别模型获得的所述识别情况的概率值；

结果获取模块630，用于根据所述处理结果，确定所述目标语音数据的识别结果。

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述模型更新模块，包括：

在一种可能的实现方式中，所述软标签获取模块，包括：

其中，所述唤醒词样本数据的概率分布设置为正态分布。

在一种可能的实现方式中，所述数据处理模块620，包括：

在一种可能的实现方式中，所述结果获取模块630，包括：

需要说明的一点是，上述实施例提供的装置在实现其功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开一示例性实施例提供了一种唤醒词识别的装置，该唤醒词识别的装置可以通过硬件或者软硬结合的方式实现为计算机设备的全部或者部分，能够实现本公开上述图4或图5任一所示实施例中的全部或部分步骤，该唤醒词识别的方法可以由计算机设备执行，其中，该计算机设备可以包括上述图1所示的训练设备110和识别设备120。该唤醒词识别的装置还包括：处理器、用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

根据所述处理结果，确定所述目标语音数据的识别结果。

在一种可能的实现方式中，所述方法还包括：

其中，所述唤醒词样本数据的概率分布设置为正态分布。

将所述包含目标唤醒词的概率值与判定阈值进行比较；

图7是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备700包括中央处理单元(Central Processing Unit，CPU)701、包括随机存取存储器(Random Access Memory，RAM)702和只读存储器(Read-Only Memory，ROM)703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。所述计算机设备700还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

所述基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中所述显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备707及其相关联的计算机设备可读介质为计算机设备700提供非易失性存储。也就是说，所述大容量存储设备707可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机设备可读介质(未示出)。

不失一般性，所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory，EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，EEPROM)，CD-ROM、数字视频光盘(Digital Video Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本公开的各种实施例，所述计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备700可以通过连接在所述系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机设备系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器701通过执行该一个或一个以上程序来实现图4或图5所示的方法的全部或者部分步骤。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本公开实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机设备可读介质中或者作为计算机设备可读介质上的一个或多个指令或代码进行传输。计算机设备可读介质包括计算机设备存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机设备程序的任何介质。存储介质可以是通用或专用计算机设备能够存取的任何可用介质。

本公开实施例还提供了一种计算机设备存储介质，用于储存为上述测试装置所用的计算机设备软件指令，其包含用于执行上述唤醒词识别的方法所设计的程序。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种唤醒词识别的方法，其特征在于，所述方法包括：

通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果；所述唤醒词识别模型是通过样本数据和所述样本数据对应的标签训练获得的机器学习模型；所述样本数据至少包括唤醒词样本数据和非唤醒词样本数据；所述样本数据对应的标签包括所述唤醒词样本数据对应的软标签以及所述非唤醒词样本数据对应的硬标签；所述唤醒词样本数据对应的软标签是通过计算确定的概率分布；所述处理结果是所述样本数据通过更新后的所述唤醒词识别模型获得的识别情况的概率值；

根据所述处理结果，确定所述目标语音数据的识别结果；

所述通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果之前，还包括：

其中，所述唤醒词样本数据的概率分布设置为正态分布。

2.根据权利要求1所述的方法，其特征在于，所述通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述唤醒词样本数据、所述唤醒词样本数据对应的软标签以及所述非唤醒词样本数据对应的硬标签，对所述唤醒词识别模型进行更新，包括：

4.根据权利要求1、3中任一所述的方法，其特征在于，所述识别情况至少包括识别为唤醒词的情况或者识别为非唤醒词的情况。

5.根据权利要求1所述的方法，其特征在于，所述通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述处理结果，确定所述目标语音数据的识别结果，包括：

将所述包含目标唤醒词的概率值与判定阈值进行比较；

7.一种唤醒词识别的装置，其特征在于，所述装置包括：

数据处理模块，用于通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果；所述唤醒词识别模型是通过样本数据和所述样本数据对应的标签训练获得的机器学习模型；所述样本数据至少包括唤醒词样本数据和非唤醒词样本数据；所述样本数据对应的标签包括所述唤醒词样本数据对应的软标签以及所述非唤醒词样本数据对应的硬标签；所述唤醒词样本数据对应的软标签是通过计算确定的概率分布；所述处理结果是所述样本数据通过更新后的所述唤醒词识别模型获得的识别情况的概率值；

结果获取模块，用于根据所述处理结果，确定所述目标语音数据的识别结果；

软标签获取模块，用于通过对所述唤醒词样本数据进行处理，获得所述唤醒词样本数据对应的软标签，所述软标签获取模块，包括：

其中，所述唤醒词样本数据的概率分布设置为正态分布。

8.一种唤醒词识别的装置，其特征在于，所述装置包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

根据所述处理结果，确定所述目标语音数据的识别结果；

所述通过唤醒词识别模型对所述目标语音数据进行处理，获得处理结果之前，所述处理器还被配置为：

其中，所述唤醒词样本数据的概率分布设置为正态分布。

9.一种计算机设备可读存储介质，其特征在于，所述计算机设备可读存储介质中包含可执行指令，所述可执行指令由处理器调用执行，以实现上述权利要求1至6任一所述的唤醒词识别的方法。