CN112700766B

CN112700766B - 语音识别模型的训练方法及装置、语音识别方法及装置

Info

Publication number: CN112700766B
Application number: CN202011540305.3A
Authority: CN
Inventors: 吴凡; 贾杨; 卓邦声; 林倩倩; 郭涵涛; 李振权; 夏龙; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2024-03-19
Anticipated expiration: 2040-12-23
Also published as: CN112700766A

Abstract

本说明书提供语音识别模型的训练方法及装置、语音识别方法及装置，其中语音识别模型的训练方法包括：获取语音样本对；通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量；根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算语音识别模型的损失值；根据语音识别模型的损失值，对语音识别模型进行训练，直至达到训练停止条件，得到训练后的语音识别模型。本说明书中引入了基于样本对的语音识别模型的损失值，该损失值使得语音识别模型具有准确抽取语音内容信息的能力，使得新增待识别的关键词时，无需重新训练语音识别模型，只需准备少量该关键词的标准语音即可。

Description

语音识别模型的训练方法及装置、语音识别方法及装置

技术领域

本说明书涉及语音处理技术领域，特别涉及语音识别模型的训练方法及装置、语音识别方法及装置。

背景技术

随着计算机技术和网络技术的飞速发展和广泛应用，存在很多需要进行语音识别的场景。例如，语音单词识别游戏中，需要基于用户说话语音检测其中是否存在屏幕上展示的单词(目标关键词)；或者，可以通过语音对设备进行控制，因此设备需要对用户的语音进行识别，得到目标关键词，再基于目标关键词触发对应的操作指令，以对设备进行操作。

现有技术中，一般是基于卷积神经网络(CNN)预测说话语音属于给定关键词类别中的哪一类，以确定说话语音中是否包括给定关键词。具体的，该方案需要对语音进行分帧处理后，将每个语音帧输入卷积神经网络进行预测，得到该语音帧属于各个给定关键词的概率，然后使用比语音分帧窗口更大的滑动窗口对语音帧的概率进行平滑处理后得到该语音帧属于各个给定关键词的置信度，最终基于置信度预测该语音帧中是否存在给定关键词。

然而，上述语音识别方法，卷积神经网络的输出使用归一化指数函数softmax函数进行分类预测，该softmax函数的维度为给定关键词的个数，当新增关键词时，softmax的维度也要相应的增加，需要重新训练模型，由于训练模型需要收集一定量级的该新增关键词的语音数据，因此时间及人力成本高。另外，在对语音进行分帧，预测每个语音帧属于各个给定关键词的概率后，还需要再使用比语音帧窗口更大的滑动窗口对语音帧的概率进行平滑处理得到语音帧属于各个给定关键词的置信度，其中，具体的平滑策略的方法和平滑使用的窗口需要根据实际的情况进程调整，流程较为繁琐。进而需要更简单更便捷的方法进行语音识别的操作或者处理。

发明内容

有鉴于此，本说明书实施例提供了一种语音识别模型的训练方法及装置，一种语音识别方法及装置，一种计算设备，一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种语音识别模型的训练方法，所述方法包括：

获取语音样本对，所述语音样本对包括第一语音样本和第二语音样本，且所述语音样本对携带有样本对标签，所述样本对标签用于标识所述第一语音样本和所述第二语音样本是否相同；

通过语音识别模型的全连接层获得所述第一语音样本的第一样本向量和所述第二语音样本的第二样本向量；

根据所述第一样本向量和所述第二样本向量之间的相似度，以及所述样本对标签，计算所述语音识别模型的损失值；

根据所述语音识别模型的损失值，对所述语音识别模型进行训练，直至达到训练停止条件，得到训练后的语音识别模型。

根据本说明书实施例的第二方面，提供了一种语音识别方法，所述方法包括：

获取待识别语音片段和预设关键词标准库，所述预设关键词标准库包括至少一个标准语音，每个所述标准语音对应至少一个预设关键词；

将所述待识别语音片段和第一标准语音输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，以及所述第一标准语音对应的标准语音向量，其中，所述第一标准语音为所述预设关键词标准库中包括的任一标准语音，所述语音识别模型是通过上述第一方面所述的训练方法训练得到的；

根据所述第一语音向量和所述标准语音向量，确定所述待识别语音片段和所述第一标准语音是否相同，若相同，则返回所述第一标准语音对应的预设关键词作为所述待识别语音片段的关键词。

根据本说明书实施例的第三方面，提供了一种语音识别方法，所述方法包括：

获取待识别语音片段；

将所述待识别语音片段输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，其中，所述语音识别模型是通过上述第一方面所述的训练方法训练得到的；

根据所述第一语音向量和预设标准向量库，确定所述待识别语音片段的识别结果。

根据本说明书实施例的第四方面，提供了一种语音识别模型的训练装置，所述装置包括：

第一获取模块，被配置为获取语音样本对，所述语音样本对包括第一语音样本和第二语音样本，且所述语音样本对携带有样本对标签，所述样本对标签用于标识所述第一语音样本和所述第二语音样本是否相同；

获得模块，被配置为通过语音识别模型的全连接层获得所述第一语音样本的第一样本向量和所述第二语音样本的第二样本向量；

计算模块，被配置为根据所述第一样本向量和所述第二样本向量之间的相似度，以及所述样本对标签，计算所述语音识别模型的损失值；

训练模块，被配置为根据所述语音识别模型的损失值，对所述语音识别模型进行训练，直至达到训练停止条件，得到训练后的语音识别模型。

根据本说明书实施例的第五方面，提供了一种语音识别装置，所述装置包括：

第二获取模块，被配置为获取待识别语音片段和预设关键词标准库，所述预设关键词标准库包括至少一个标准语音，每个所述标准语音对应至少一个预设关键词；

第一输入模块，被配置为将所述待识别语音片段和第一标准语音输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，以及所述第一标准语音对应的标准语音向量，其中，所述第一标准语音为所述预设关键词标准库中包括的任一标准语音，所述语音识别模型是通过上述第一方面所述的训练方法训练得到的；

第一确定模块，被配置为根据所述第一语音向量和所述标准语音向量，确定所述待识别语音片段和所述第一标准语音是否相同，若相同，则返回所述第一标准语音对应的预设关键词作为所述待识别语音片段的关键词。

根据本说明书实施例的第六方面，提供了一种语音识别装置，所述装置包括：

第三获取模块，被配置为获取待识别语音片段；

第二输入模块，被配置为将所述待识别语音片段输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，其中，所述语音识别模型是通过上述第一方面所述的训练方法训练得到的；

第二确定模块，被配置为根据所述第一语音向量和预设标准向量库，确定所述待识别语音片段的识别结果。

根据本说明书实施例的第七方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现上述第一方面所述的语音识别模型的训练方法的步骤，或者上述第二方面所述的语音识别方法的步骤，又或者上述第三方面所述的语音识别方法的步骤。

根据本说明书实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述第一方面所述的语音识别模型的训练方法的步骤，或者上述第二方面所述的语音识别方法的步骤，又或者上述第三方面所述的语音识别方法的步骤。

本说明书提供一种语音识别模型的训练方法，获取语音样本对，该语音样本对包括第一语音样本和第二语音样本，且该语音样本对携带有样本对标签，该样本对标签用于标识第一语音样本和第二语音样本是否相同；然后，通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量；并根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算语音识别模型的损失值；之后，根据语音识别模型的损失值，对语音识别模型进行训练，直至达到训练停止条件，得到训练后的语音识别模型。

本说明书提供的语音识别模型的训练方法，可以通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量，并根据第一样本向量和第二样本向量，确定语音识别模型的损失值，也即引入了基于样本对的语音识别模型的损失值，该损失值使得语音识别模型具有准确抽取语音内容信息的能力，从而可以将现有技术中直接预测待识别语音对应的关键词问题转化为语音编码问题，使得新增待识别的关键词时，无需重新训练语音识别模型，只需准备少量该关键词的标准语音即可，简化了新增关键词时，语音识别过程。

本说明书提供一种语音识别方法，获取待识别语音片段和预设关键词标准库，该预设关键词标准库包括至少一个标准语音，每个标准语音对应至少一个预设关键词；将待识别语音片段和第一标准语音输入语音识别模型中，获得语音识别模型的全连接层输出的待识别语音片段对应的第一语音向量，以及第一标准语音对应的标准语音向量，其中，第一标准语音为预设关键词标准库中包括的任一标准语音，语音识别模型是通过上述训练方法训练得到的；然后根据第一语音向量和标准语音向量，确定待识别语音片段和第一标准语音是否相同，若相同，则返回第一标准语音对应的预设关键词作为待识别语音片段的关键词。

本说明书提供的语音识别方法，不直接预测待识别语音片段属于每个关键词的概率，而是通过训练好的语音识别模型对待识别语音片段和标准语音进行编码得到特定维度的抽象表示，该编码表示包含了待识别语音片段(或标准语音)的文本内容信息，然后通过待识别语音片段的编码表示和关键词的标准编码表示，来预测待识别语音片段中的关键词。因此新增关键词时，只需将新增关键词的标准语音和待识别语音片段一起输入语音识别模型，即可识别新增关键词，无需重新训练语音识别模型，也无需收集大量新增关键词的训练样本，使得新增关键词的识别变得非常容易和快捷，节省时间及人力成本。并且，本说明书中直接预测待识别语音片段是否包含关键词，无需对概率进行平滑处理，更加简洁。

本说明书提供一种语音识别方法，可以先获取待识别语音片段；将所述待识别语音片段输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，其中，所述语音识别模型是通过上述训练方法训练得到的；然后根据所述第一语音向量和预设标准向量库，确定所述待识别语音片段的识别结果。

本说明书提供的语音识别方法，不直接预测待识别语音片段属于每个待识别关键词的概率，而是通过训练好的语音识别模型对待识别语音片段进行编码得到特定维度的抽象表示，该编码表示包含了待识别语音片段的文本内容信息，然后通过待识别语音片段的编码表示和预设标准向量库，来预测待识别语音片段中的关键词。因此新增待识别关键词时，只需在预设标准向量库中增加该新增待识别关键词对应的标准语音向量即可识别新增待识别关键词，无需重新训练语音识别模型，也无需收集大量新增关键词的训练样本，使得新增待识别关键词的识别变得非常容易和快捷，节省时间及人力成本。并且，本说明书中直接预测待识别语音片段是否包含待识别关键词，无需对概率进行平滑处理，更加简洁。

附图说明

图1是本说明书一实施例提供的一种语音识别模型的训练方法的流程图；

图2是本说明书一实施例提供的一种语音识别模型的架构图；

图3是本说明书一实施例提供的一种语音识别模型的训练过程示意图；

图4是本说明书一实施例提供的一种语音识别方法的流程图；

图5是本说明书一实施例提供的一种语音分窗示意图；

图6是本说明书一实施例提供的一种语音识别过程示意图；

图7是本说明书一实施例提供的另一种语音识别方法的流程图；

图8是本说明书一实施例提供的另一种语音识别过程示意图；

图9是本说明书一实施例提供的一种语音识别模型的训练装置的结构示意图；

图10是本说明书一实施例提供的一种语音识别装置的结构示意图；

图11是本说明书一实施例提供的另一种语音识别装置的结构示意图；

图12是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

语音分窗：使用一个固定的窗口及固定的步长在语音数据上截取语音片段，通常假设这个语音片段上语音信号是平稳的。

卷积神经网络(CNN)：是包含卷积运算的神经网络，由输入层、隐藏层及输出层组成，卷积神经网络的隐藏层通常由一系列卷积层组成，也包含池化层和全连接层，卷积神经网络通常通过前向传播与反向传播进行训练。

softmax函数：是一种归一化指数函数，通常用于机器学习的多分类任务中，该函数能够把数据映射到给定类别中的某一个，从而可以应用于数据预测。具体的，该函数的输入是长度为k的向量z，向量z中的每个分量是一个实数，函数将其进行指数变换后，除以所有这些指数的总和来归一化这些值。由此，归一化可以保证输出向量的各个分量的分量都在(0，1)之间，且各个分量之和为1。

静音检测：对语音信号进行检测，识别出语音中人声的部分和静音(非人声)的部分。

超参数：在机器学习的上下文中，超参数是在开始学习过程之前设置的参数，而不是通过训练得到的参数。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

在本说明书中，提供了一种语音识别模型的训练方法及装置，一种语音识别方法及装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例提供的一种语音识别模型的训练方法的流程图，具体包括以下步骤：

步骤102：获取语音样本对，该语音样本对包括第一语音样本和第二语音样本，且该语音样本对携带有样本对标签，该样本对标签用于标识第一语音样本和第二语音样本是否相同。

实际应用中，一般是基于卷积神经网络预测待识别语音属于给定关键词类别中的哪一类。即目前的语音识别方法，卷积神经网络的输出使用softmax函数进行分类预测，该softmax函数的维度为给定关键词的个数，当新增关键词时，softmax的维度也要相应的增加，需要重新收集大量该关键词的语音数据，对网络重新训练，时间及人力成本高。

因而，本说明书提供了一种语音识别模型的训练方法，先获取语音样本对，该语音样本对包括第一语音样本和第二语音样本，且该语音样本对携带有样本对标签，该样本对标签用于标识第一语音样本和第二语音样本是否相同；然后，通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量；并根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算语音识别模型的损失值；之后，根据语音识别模型的损失值，对语音识别模型进行训练，直至达到训练停止条件，得到训练后的语音识别模型。引入了基于样本对的损失函数，该基于样本对的损失函数使得语音识别模型具有准确抽取语音内容信息的能力，从而可以将现有技术中直接预测待识别语音对应的关键词问题转化为语音编码问题，使得新增待识别的关键词时，无需重新训练语音识别模型，只需准备少量该关键词的标准语音即可。

具体的，语音样本是指用于进行模型训练的样本音频，该音频对应的关键词已知。语音样本对是指两个语音样本，该两个语音是否相同是已知的，通过该两个语音样本可以一起对模型进行训练。

实际应用中，一般是直接获取许多语音样本，组成语音样本集，然后将该语音样本集中的语音样本两两配对，并设置每对语音样本相应的样本对标签，用于标识该对语音样本的两个语音样本是否相同，即该两个语音样本是否为同一个关键词对应的语音。需要说明的是，本步骤中获取的语音样本对是从语音样本集中获取的任一对语音样本对，并获取该语音样本对的样本对标识。

示例的，获取的语音样本集包括10个语音样本，语音样本1和语音样本2配对，样本对标识为1；语音样本3和语音样本4配对，样本对标识为1；语音样本5和语音样本6配对，样本对标识为0；语音样本7和语音样本8配对，样本对标识为0；语音样本9和语音样本10配对，样本对标识为1。其中，样本对标识为1，表示两个语音样本相同；样本对标识为0，表示两个语音样本不同。

步骤104：通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量。

具体的，在获取语音样本对的基础上，进一步的，将通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量。

本实施例一个可选的实施方式中，语音识别模型可以为卷积神经网络，该语音识别模型可以包括输入层、多个卷积层、多个池化层和全连接层，通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量，具体实现过程可以如下：

将第一语音样本和第二语音样本经语音识别模型的输入层输入至语音识别模型的卷积层进行卷积处理，获得第一语音样本对应的第一卷积向量和第二语音样本对应的第二卷积向量；

将第一卷积向量和第二卷积向量经过语音识别模型的最大池化层和全连接层进行处理，获得全连接层输出的第一样本向量和第二样本向量。

需要说明的是，语音识别模型的输入层分别接收两个语音样本，通过多层卷积及池化操作后，最后通过一个全联接层分别得到这两个语音样本的编码向量(第一样本向量和第二样本向量)。其中，卷积层和池化层的层数可以根据具体需求设置，如可以包括1层卷积层和1层池化层，或者还可以包括3层卷积层和3层池化层。

示例的，图2是本说明书一实施例提供的一种语音识别模型的架构图，如图2所示，语音识别模型依次包括一个输入层、卷积层1、最大池化层1、卷积层2、最大池化层2、卷积层3、最大池化层3、全连接层，全连接层的隐层表示就是样本向量。

本说明书中在通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量之后，可以直接基于第一样本向量和第二样本向量，对语音识别模型进行训练；也即，可以直接通过两个语音样本以及两个语音样本之间的关系，对语音识别模型进行训练，使得语音识别模型具有准确抽取语音内容信息的能力。

本实施例一个可选的实施方式中，除了直接通过两个语音样本以及两个语音样本之间的关系，对语音识别模型进行训练外，还可以结合每个语音样本及其标签对语音识别模型进行训练，此时语音识别模型还包括归一化层，语音样本对还携带第一语音样本的第一样本标签和第二语音样本的第二样本标签；通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量之后，还包括：

将全连接层输出的第一样本向量和第二样本向量分别输入至语音识别模型的归一化层进行归一化处理，获得第一样本向量的第一归一化结果和第二样本向量的第二归一化结果，其中，第一归一化结果是指第一语音样本在各个预测标签上的概率分布，第二归一化结果是指第二语音样本在各个预测标签上的概率分布。

需要说明的是，在通过全连接层获得第一样本向量和第二样本向量后，还可以继续向后，通过归一化层，分别对两个样本向量进行归一化处理，然后就可以分别针对该两个样本向量及其标签，计算损失值，以结合样本对特征和单样本特征共同对语音识别模型进行训练，使得语音识别模型具有更加准确抽取语音内容信息的能力。

步骤106：根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算语音识别模型的损失值。

具体的，在通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量的基础上，进一步的，将根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算语音识别模型的损失值。

本实施例一个可选的实施方式中，在仅通过两个语音样本以及两个语音样本之间的关系，对语音识别模型进行训练的情况下，获得第一样本向量和第二样本向量后，就可以直接根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算第一语音样本和第二语音样本的第一差异，然后直接将第一差异作为语音识别模型的损失值，对语音识别模型进行训练。

其中，根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算第一语音样本和第二语音样本的第一差异，具体实现过程可以如下：

在样本对标签为第一标签时，计算第一样本向量和第二样本向量之间的相似度，将该相似度的平方作为第一差异；

在样本对标签为第二标签时，计算第一样本向量和第二样本向量之间的相似度；确定预先设置的超参数和相似度之间的差值；根据差值和数值0之间的最大值，确定第一差异。

具体的，第一标签用于标识第一语音样本和第二语音样本相同，第二标签用于标识第一语音样本和第二语音样本不相同。第一样本向量和第二样本向量之间的相似度可以为第一样本向量和第二样本向量之间的欧式距离，当然实际应用中还可以为其他距离，如曼哈顿距离、马氏距离等，本说明书对此不进行限制。另外，超参数是指预先设置的已知参数，例如，超参数可以为20。

实际应用中，以第一样本向量和第二样本向量之间的相似度为欧式距离为例，通过如下公式(1)计算得到第一语音样本和第二语音样本的第一差异：

其中，所述pair_loss(f_i,f_j,y_ij,m)为所述第一差异；所述f_i为所述第一样本向量；所述f_j为所述第二样本向量；所述||f_i-f_j||₂为所述欧式距离；为所述欧式距离的平方；所述y_ij为所述样本对标签，y_ij＝1代表所述样本对标签为第一标签，y_ij＝0代表所述样本对标签为第二标签；所述m为所述超参数。

需要说明的是，当两个语音样本相同(即对应同一个关键词)时，y_ij＝1，这时优化目标是使得这两个语音样本的样本向量相似，即欧式距离尽量小；当两个语音样本不同(即对应不同关键词)时，y_ij＝0，优化目标是使得这两个语音样本的样本向量不相似，即欧式距离尽量大于m，从而使相同关键词的语音样本的样本向量的欧式距离较近，不同关键词的语音样本的样本向量的欧式距离较远。

本实施例一个可选的实施方式中，在结合样本对特征和每个单样本特征，对语音识别模型进行训练的情况下，也即获得第一样本向量和第二样本向量后，还进一步通过归一化层获得了第一样本向量的第一归一化结果和第二样本向量的第二归一化结果，此时根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算语音识别模型的损失值，具体实现过程可以如下：

根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算第一语音样本和第二语音样本的第一差异；

根据第一归一化结果和第一样本标签，计算第一归一化结果和第一样本标签的第二差异，并根据第二归一化结果和第二样本标签，计算第二归一化结果和第二样本标签之间的第三差异；

根据第一差异、第二差异和第三差异，计算语音识别模型的损失值。

其中，根据第一归一化结果和第一样本标签，计算第一归一化结果和第一样本标签的第二差异，具体实现过程可以如下：

根据第一归一化结果中包括的预测标签是否和第一样本标签相同，设置预测标签的标签标识；

根据标签标识和第一归一化结果，计算第一归一化结果和第一样本标签的第二差异。

实际应用中，可以通过如下公式(2)计算第一归一化结果和第一样本标签的第二差异：

其中，所述point_loss(f_i,t)为所述第二差异；所述f_i为所述第一样本向量；所述t为所述第一样本标签；所述p_m为所述第一归一化结果；所述n为所述第一归一化结果中包括的预测标签的个数；所述y_m为所述标签标识，若第m个预测标签和所述t相同，则所述y_m＝1，若第m个预测标签和所述t不相同，则所述y_m＝0。

需要说明的是，根据第二归一化结果和第二样本标签，计算第二归一化结果和第二样本标签之间的第三差异的具体实现过程，与上述根据第一归一化结果和第一样本标签，计算第一归一化结果和第一样本标签之间的第二差异的具体实现过程相似，在此不再赘述。

本实施例一个可选的实施方式中，通过样本对的特征可以计算得到一个差异，针对每个单样本的特征也可以分别计算得到差异，之后，可以结合得到的3个差异，共同确定语音识别模型的损失值，此时根据第一差异、第二差异和第三差异，计算语音识别模型的损失值，具体实现过程可以如下：

确定第一差异、第二差异和第三差异的加权和；

将该加权和作为语音识别模型的损失值。

需要说明的是，确定第一差异、第二差异和第三差异的加权和的过程中，每个差异的权重可以根据需求进行设置，本说明书中对此不进行限制。

实际应用中，可以通过如下公式(3)计算得到语音识别模型的损失值：

loss＝αpoint_loss(f_i,t)+βpoint_loss(f_j,t)+δpair_loss(f_i,f_j,y_ij,m) (3)

其中，loss为所述语音识别模型的损失值；point_loss(f_i,t)为第二差异；point_loss(f_j,t)为第三差异；pair_loss(f_i,f_j,y_ij,m)为第一差异；α、β、δ分别为第一差异、第二差异和第三差异的权重值。

示例的，图3是本说明书一实施例提供的一种语音识别模型的训练过程示意图，如图3所示，将样本语音A和样本语音B输入语音识别模型中，分别获得样本语音A的编码表示A和样本语音B的编码表示B，根据样本语音A计算得到第二差异，根据样本语音B计算得到第三差异，根据编码表示A和编码表示B计算得到第一差异，根据第一差异、第二差异和第三差异计算得到损失值，根据该损失值调整语音识别模型的参数，进行训练。

步骤108：根据语音识别模型的损失值，对语音识别模型进行训练，直至达到训练停止条件，得到训练后的语音识别模型。

具体的，在根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算语音识别模型的损失值的基础上，进一步的，将根据语音识别模型的损失值，对语音识别模型进行训练，直至达到训练停止条件，得到训练后的语音识别模型。

本实施例一个可选的实施方式中，训练停止条件包括：语音识别模型的损失值小于预设阈值。

具体的，判断语音识别模型的损失值是否小于预设阈值；若否，则返回执行获取语音样本对的步骤，并继续训练；若是，则确定达到训练停止条件。

需要说明的是，语音识别模型的训练目标是语音识别模型的损失值无限趋近于0，为了判断该损失值是否足够趋近于0，可以预先设置一个预设阈值，该预设阈值即为损失值的临界值，在损失值大于或等于预设阈值的情况下，说明语音识别模型的预测结果与真实结果之间仍存在一定偏差，仍需调整语音识别模型的参数，因而需要继续获取语音样本对，并继续训练；在损失值小于预设阈值的情况下，说明语音识别模型的预测结果与真实结果的接近程度已经足够，可以停止训练。预设阈值的数值可以根据实际情况确定，本说明书对此不做限制。

本说明书提供一种语音识别模型的训练方法，可以先获取语音样本对，然后通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量；并根据第一样本向量和第二样本向量之间的相似度，以及样本对标签，计算语音识别模型的损失值；之后，根据语音识别模型的损失值，对语音识别模型进行训练，直至达到训练停止条件，得到训练后的语音识别模型。这种情况下，可以通过语音识别模型的全连接层获得第一语音样本的第一样本向量和第二语音样本的第二样本向量，并根据第一样本向量和第二样本向量，确定语音识别模型的损失值，也即引入了基于样本对的语音识别模型的损失值，该损失值使得语音识别模型具有准确抽取语音内容信息的能力，从而可以将直接预测待识别语音对应的关键词问题转化为语音编码问题，使得新增待识别的关键词时，无需重新训练语音识别模型，只需准备少量该关键词的标准语音即可，简化了新增关键词时，语音识别过程。

图4示出了根据本说明书一实施例提供的一种语音识别方法的流程图，具体包括以下步骤：

步骤402：获取待识别语音片段和预设关键词标准库，该预设关键词标准库包括至少一个标准语音，每个标准语音对应至少一个预设关键词。

具体的，在进行语音识别之前，针对需要识别的关键词，应该选择一些标准发音的标准语音，组成预设关键词标准库，用于后续和待识别语音匹配。另外，每个标准语音可以对应至少一个预设关键词，也即一个标准语音中可以包括一个关键词的音频特征，也可以包括多个关键词的音频特征，本说明书中以每个标准语音对应一个关键词为例进行说明。

需要说明的是，待识别语音一般是一段连续的用户音频，不同的待识别语音长度不同，而语音识别模型的输入的维度是固定的，也即语音识别模型接收固定长度的待识别语音，因而本说明书中获取待识别语音后，需要先对待识别语音进行预处理，得到固定长度的待识别语音片段，然后再将待识别语音片段输入语音识别模型进行识别。

本实施例一个可选的实施方式中，对待识别语音进行预处理，获得固定长度的待识别语音片段，具体实现过程可以如下：

在待识别语音的长度与目标长度相同时，直接将待识别语音作为该待识别语音片段；

在待识别语音的长度超过目标长度时，对待识别语音进行分窗处理，获得至少一个该待识别语音片段；

在待识别语音的长度小于目标长度时，对待识别语音的音频特征补0，直至长度达到目标长度，获得该待识别语音片段。

其中，若需要对待识别语音进行分窗处理，则目标长度就是分窗处理中窗口的大小。

需要说明的是，在待识别语音的长度超过目标长度时，可以直接进行分窗处理。或者，还可以进一步判断其是否小于分窗长度，即待识别语音较短时，可以直接进行裁剪，不进行分窗处理，提高处理效率。如，对于大于1s小于1.2s的待识别语音随机截取1s的音频，剩余大于1.2s的音频丢弃；对于大于1.2s的待识别语音，进行分窗处理。

本实施例一个可选的实施方式，对待识别语音进行分窗处理，获得至少一个待识别语音片段之前，还包括：

通过静音检测算法，对待识别语音进行静音检测；

根据检测到的静音时间点，对待识别语音进行分段，获得至少一个分段待识别语音。

相应的，对待识别语音进行分窗处理，获得至少一个所述待识别语音片，包括：

对至少一个分段待识别语音中的每个分段待识别语音进行分窗处理，获得至少一个待识别语音片段。

需要说明的是，由于待识别语音一般是一段连续的用户音频，因而待识别语音中可能会包括人声和静音，因而在待识别语音的长度超过目标长度的情况下，需要在对待识别语音进行分窗处理之前，先对待识别语音进行静音检测，丢弃静音部分，并使用静音所在的时间点先对待识别语音进行分段，然后再对分段后的待识别语音进行分窗处理。

示例的，图5是本说明书一实施例提供的一种语音分窗示意图，如图5所示，假设语音识别模型接收1s固定长度的语音，因此当待识别语音长度大于1s时，对待识别语音进行静音检测，在两个静音时间点之间，采用滑动窗口的方式，以窗口大小1s，步长0.2s，得到多个1s的待识别语音片段。当待识别语音不足1s时填充0，得到待识别语音片段，这些待识别语音片段作为后续语音识别模型的输入。

本说明书中可以先对待识别语音进行预处理，将其处理成语音识别模型能够接收的输入(固定长度的待识别语音片段)，然后再将固定长度的待识别语音片段输入语音识别模型进行识别，保证了输入语音识别模型的每个待识别语音片段都可以被正确识别，从而保证了语音识别的准确率。另外，本说明书中直接使用较大窗口的待识别语音片段作为输入，直接识别该待识别语音片段是否包含关键词，无需进行平滑处理流程，更加简洁。

步骤404：将待识别语音片段和第一标准语音输入语音识别模型中，获得语音识别模型的全连接层输出的待识别语音片段对应的第一语音向量，以及第一标准语音对应的标准语音向量。

其中，第一标准语音为预设关键词标准库中包括的任一标准语音，该语音识别模型是通过上述训练方法训练得到的。

需要说明的是，对于待识别语音片段和第一标准语音，可以抽取其梅尔频谱特征作为语音识别模型的输入。

本实施例一个可选的实施方式中，由于语音识别模型接收固定长度的输入，因而也需要对标准语音进行预处理，也即将待识别语音片段和第一标准语音输入语音识别模型之前，还包括：

根据该目标长度，对第一标准语音进行裁剪；

相应的，将待识别语音片段和第一标准语音输入语音识别模型，包括：

将待识别语音片段和裁剪后的第一标准语音输入语音识别模型。

具体的，针对预设关键词标准库中包括的每个标准语音，可以按照上述对待识别语音进行预处理的方式，进行处理。另外，由于标准语音一般是针对某个关键词的标准发音，不会过长，因而，在标准语音的长度超过目标长度时，可以直接进行裁剪。

实际应用中，由于第一标准语音是预设关键词标准库中的任一标准语音，因而预设关键词标准库中的任一标准语音都要和待识别语音片段输入一次语音识别模型，进行匹配；也即，待识别语音片段需要遍历预设关键词标准库中包括标准语音进行匹配，从而确定待识别语音片段是否和某个标准语音相同，从而识别待识别语音片段是否包括标准语音对应的关键词。

步骤406：根据第一语音向量和标准语音向量，确定待识别语音片段和第一标准语音是否相同，若相同，则返回第一标准语音对应的预设关键词作为待识别语音片段的关键词。

本实施例一个可选的实施方式中，根据第一语音向量和标准语音向量，确定待识别语音片段和第一标准语音是否相同，具体实现过程可以如下：

确定第一语音向量和标准语音向量之间的相似度；

判断相似度是否小于相似度阈值；

若是，则确定待识别语音片段和第一标准语音相同；

若否，则确定待识别语音片段和第一标准语音不相同。

具体的，该相似度可以为第一语音向量和标准语音向量之间的欧式距离，当然实际应用中还可以为其他距离，如曼哈顿距离、马氏距离等，本说明书对此不进行限制。

需要说明的是，在相似度为欧式距离时，若第一语音向量和标准语音向量之间的相似度小于相似度阈值，则说明第一语音向量和标准语音向量之间的距离极近，即说明第一语音向量和标准语音向量极尽相似，因而可以认为待识别语音片段和第一标准语音相同，此时直接返回第一标准语音对应的关键词作为待识别语音片段的关键词。当第一语音向量和标准语音向量之间的相似度不小于相似度阈值时，说明第一语音向量和标准语音向量之间的距离较远，即说明第一语音向量和标准语音向量不相似，因而可以认为待识别语音片段和第一标准语音不相同，此时返回待识别语音片段不包括第一标准语音对应的关键词。

示例的，图6是本说明书一实施例提供的一种语音识别过程示意图，如图6所示，将待识别语音片段X和标准语音M输入语音识别模型中，获得X的向量、M的向量，计算X的向量和M的向量的相似度，确定待识别语音片段X和标准语音M是否相同。依次将待识别语音片段X和标准语音N、待识别语音片段X和标准语音P输入语音识别模型，执行上述识别过程。

本说明书提供一种语音识别方法，可以获取待识别语音片段和预设关键词标准库，然后将待识别语音片段和第一标准语音输入语音识别模型中，获得语音识别模型的全连接层输出的待识别语音片段对应的第一语音向量，以及第一标准语音对应的标准语音向量，再根据第一语音向量和标准语音向量，确定待识别语音片段和第一标准语音是否相同，若相同，则返回第一标准语音对应的关键词作为待识别语音片段的关键词。这种情况下，不直接预测待识别语音片段属于每个关键词的概率，而是通过训练好的语音识别模型对待识别语音片段和标准语音进行编码得到特定维度的抽象表示，该编码表示包含了待识别语音片段(或标准语音)的文本内容信息，然后通过待识别语音片段的编码表示和关键词的标准编码表示，来预测待识别语音片段中的关键词。因此新增关键词时，只需将新增关键词的标准语音和待识别语音片段一起输入语音识别模型，即可识别新增关键词，无需重新训练语音识别模型，也无需收集大量新增关键词的训练样本，使得新增关键词的识别变得非常容易和快捷，节省时间及人力成本。并且，本说明书中直接预测待识别语音片段是否包含关键词，无需对概率进行平滑处理，更加简洁。

图7示出了根据本说明书一实施例提供的另一种语音识别方法的流程图，具体包括以下步骤：

步骤702：获取至少一个预设关键词，针对所述至少一个预设关键词中的每个所述预设关键词，获取所述预设关键词的至少一个标准语音。

需要说明的是，在进行语音识别之前，针对需要识别的关键词，应该选择一些标准发音的标准语音，组成预设关键词标准库，用于后续和待识别语音片段进行匹配。也即是，需要预先获取预设关键词，该预设关键词就是待识别的关键词。针对每一个待识别的关键词，可以获取多个标准语音，用于后续构建预设关键词标准库。

示例的，预设关键词为“苹果”、“香蕉”和“橘子”，针对预设关键词“苹果”，获取到标准语音1、标准语音2和标准语音3；针对预设关键词“香蕉”，获取到标准语音4；针对预设关键词“橘子”，获取到标准语音5和标准语音6。

步骤704：根据所述语音识别模型，获得所述至少一个标准语音对应的至少一个第一标准语音向量。

本实施例一个可选的实施方式中，根据所述语音识别模型，获得所述至少一个标准语音对应的至少一个第一标准语音向量，包括：

针对所述至少一个标准语音中的每个所述标准语音，将所述标准语音输入所述语音识别模型，获得所述语音识别模型的全连接层输出的所述标准语音的第一标准语音向量。

沿用上例，针对预设关键词“苹果”，将对应的标准语音1、标准语音2和标准语音3分别输入语音识别模型，得到对应的标准语音向量1、标准语音向量2和标准语音向量3；针对预设关键词“香蕉”，将对应的标准语音4输入语音识别模型，得到对应的标准语音向量4；针对预设关键词“橘子”，将对应的标准语音5和标准语音6分别输入语音识别模型，得到对应的标准语音向量5和标准语音向量6。

进一步的，由于语音识别模型接收固定长度的输入，因而需要对标准语音进行预处理，也即将所述标准语音输入所述语音识别模型之前，还包括：

根据目标长度，对所述标准语音进行裁剪；

相应的，将所述标准语音输入所述语音识别模型，包括：

将裁剪后的所述标准语音输入语音识别模型。

步骤706：根据所述至少一个第一标准语音向量，确定所述预设关键词对应的第二标准语音向量。

本实施例一个可选的实施方式中，根据所述至少一个第一标准语音向量，确定所述预设关键词对应的第二标准语音向量，具体实现过程可以如下：

确定所述至少一个第一标准语音向量的平均标准语音向量；

将所述平均标准语音向量确定为所述预设关键词对应的第二标准语音向量。

需要说明的是，针对任一预设关键词，其可能会对应有多个第一标准语音向量，因而可以对得到的多个第一标准语音向量通过求平均值的方式，确定出预设关键词对应的一个第二标准语音向量。也就是说，对每个需要识别的关键词可以选择一些标准发音的音频数据，通过语音识别模型得到对应编码表示，同一个关键词的多个标准发音可以得到多个编码结果，最后通过取平均的方式可以得到一个编码表示，存储在预设关键词标准库中。

沿用上例，针对预设关键词“苹果”对应的标准语音向量1、标准语音向量2和标准语音向量3，通过求平均值的方式，确定出标准语音向量1、标准语音向量2和标准语音向量3的平均标准语音向量为标准语音向量X，因而将标准语音向量X确定为“苹果”对应的第二标准语音向量；针对预设关键词“香蕉”，由于只有一个标准语音向量4，因而直接将标准语音向量4确定为“香蕉”对应的第二标准语音向量；针对预设关键词“橘子”对应的标准语音向量5和标准语音向量6，通过求平均值的方式，确定出标准语音向量5和标准语音向量6的平均标准语音向量为标准语音向量Y，因而将标准语音向量Y确定为“橘子”对应的第二标准语音向量。

步骤708：将获得的所述至少一个预设关键词对应的第二标准语音向量组合为预设标准向量库。

沿用上例，将“苹果”对应的标准语音向量X、“香蕉”对应的标准语音向量4、“橘子”对应的标准语音向量Y组合为所述预设标准向量库。

本说明书中对每个需要识别的关键词可以选择多个标准发音的音频数据，通过语音识别模型得到对应语音向量，同一个关键词的多个标准发音可以得到多个语音向量，通过对这些向量的每个元素取平均得到一个向量代表标准语音的编码表示，这种方式比只用一条标准语音作为输入得到的向量更加鲁棒和合理。

步骤710：获取待识别语音片段。

需要说明的是，待识别语音一般是一段连续的用户音频，不同的待识别语音长度不同，而语音识别模型的输入的维度是固定的，也即语音识别模型接收固定长度的待识别语音，因而本说明书中可以先获取待识别语音，然后对待识别语音进行预处理，得到固定长度的待识别语音片段，后续再将待识别语音片段输入语音识别模型进行识别。

通过静音检测算法，对待识别语音进行静音检测；

本说明书中可以先对待识别语音进行预处理，将其处理成语音识别模型能够接收的输入(固定长度的待识别语音片段)，后续再将固定长度的待识别语音片段输入语音识别模型进行识别，保证后续输入语音识别模型的每个待识别语音片段都可以被正确识别，从而保证了语音识别的准确率。另外，本说明书中直接使用较大窗口的待识别语音片段作为输入，可以直接识别该待识别语音片段是否包含关键词，无需进行平滑处理流程，更加简洁。

步骤712：将所述待识别语音片段输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量。

步骤714：根据所述第一语音向量和预设标准向量库，确定所述待识别语音片段的识别结果。

本实施例一个可选的实施方式中，根据所述第一语音向量和预设标准向量库，确定所述待识别语音片段的识别结果，包括：

确定所述第一语音向量和所述预设标准向量库中包括的各个第二标准语音向量之间的相似度；

判断所述相似度中是否存在小于相似度阈值的目标相似度；

若是，则确定所述目标相似度对应的目标标准语音向量，返回所述目标标准语音向量对应的预设关键词作为所述待识别语音片段的关键词；

若否，则确定所述待识别语音片段不包括预设关键词。

具体的，该相似度可以为第一语音向量和预设标准向量库中的第二标准语音向量之间的欧式距离，当然实际应用中还可以为其他距离，如曼哈顿距离、马氏距离等，本说明书对此不进行限制。

需要说明的是，在相似度为欧式距离时，若第一语音向量和某个第二标准语音向量之间的相似度小于相似度阈值，则说明第一语音向量和该第二标准语音向量之间的距离较近，即说明第一语音向量和该第二标准语音向量极尽相似，因而可以将该第二标准语音对应的预设关键词作为所述待识别语音片段的关键词。而当第一语音向量和预设标准向量库中包括的各个第二标准语音向量之间的相似度均不小于相似度阈值时，说明第一语音向量和预设标准向量库中包括的各个第二标准语音向量之间的距离均较远，即说明第一语音向量和预设标准向量库中包括的各个第二标准语音向量均不相似，因而可以确定待识别语音片段不包括预设关键词。

示例的，图8是本说明书一实施例提供的另一种语音识别过程示意图，如图8所示，预先分别将标准语音M、标准语音N和标准语音P输入语音识别模型，分别得到M的向量、N的向量和P的向量，根据M的向量、N的向量和P的向量生成预设标准向量库。在需要识别待识别语音片段X时，将待识别语音片段X输入语音识别模型中，获得X的向量。之后，依次计算X的向量与M的向量、N的向量、P的向量之间的相似度，假设确定出X的向量与N的向量之间的相似度小于相似度阈值，即N的向量为目标标准语音向量，此时可以将N的向量对应的关键词作为待识别语音片段X的关键词。

本说明书提供一种语音识别方法，可以先获取待识别语音片段；将所述待识别语音片段输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，其中，所述语音识别模型是通过上述训练方法训练得到的；然后根据所述第一语音向量和预设标准向量库，确定所述待识别语音片段的识别结果。本说明书提供的语音识别方法，不直接预测待识别语音片段属于每个待识别关键词的概率，而是通过训练好的语音识别模型对待识别语音片段进行编码得到特定维度的抽象表示，该编码表示包含了待识别语音片段的文本内容信息，然后通过待识别语音片段的编码表示和预设标准向量库，来预测待识别语音片段中的关键词。因此新增待识别关键词时，只需在预设标准向量库中增加该新增待识别关键词对应的标准语音向量即可识别新增待识别关键词，无需重新训练语音识别模型，也无需收集大量新增关键词的训练样本，使得新增待识别关键词的识别变得非常容易和快捷，节省时间及人力成本。另外，本说明书中可以预先根据关键词对应的大量标准发音的语音数据构建预设标准向量库，具有更好的鲁棒性。并且，本说明书中直接预测待识别语音片段是否包含待识别关键词，无需对概率进行平滑处理，更加简洁。

与上述方法实施例相对应，本说明书还提供了语音识别模型的训练装置实施例，图9示出了本说明书一实施例提供的一种语音识别模型的训练装置的结构示意图。如图9所示，该装置包括：

第一获取模块902，被配置为获取语音样本对，所述语音样本对包括第一语音样本和第二语音样本，且所述语音样本对携带有样本对标签，所述样本对标签用于标识所述第一语音样本和所述第二语音样本是否相同；

获得模块904，被配置为通过语音识别模型的全连接层获得所述第一语音样本的第一样本向量和所述第二语音样本的第二样本向量；

计算模块906，被配置为根据所述第一样本向量和所述第二样本向量之间的相似度，以及所述样本对标签，计算所述语音识别模型的损失值；

训练模块908，被配置为根据所述语音识别模型的损失值，对所述语音识别模型进行训练，直至达到训练停止条件，得到训练后的语音识别模型。

可选的，获得模块904进一步被配置为：

将所述第一语音样本和所述第二语音样本经所述语音识别模型的输入层输入至所述语音识别模型的卷积层进行卷积处理，获得所述第一语音样本对应的第一卷积向量和所述第二语音样本对应的第二卷积向量；

将所述第一卷积向量和所述第二卷积向量经过所述语音识别模型的最大池化层和所述全连接层进行处理，获得所述全连接层输出的所述第一样本向量和所述第二样本向量。

可选的，所述语音样本对还携带所述第一语音样本的第一样本标签和所述第二语音样本的第二样本标签；所述装置还包括：

第二输入模块，被配置为将所述全连接层输出的所述第一样本向量和所述第二样本向量分别输入至所述语音识别模型的归一化层进行归一化处理，获得所述第一样本向量的第一归一化结果和所述第二样本向量的第二归一化结果，其中，所述第一归一化结果是指所述第一语音样本在各个预测标签上的概率分布，所述第二归一化结果是指所述第二语音样本在各个预测标签上的概率分布。

可选的，计算模块906进一步被配置为：

根据所述第一样本向量和所述第二样本向量之间的相似度，以及所述样本对标签，计算所述第一语音样本和所述第二语音样本的第一差异；

根据所述第一归一化结果和所述第一样本标签，计算所述第一归一化结果和所述第一样本标签的第二差异，并根据所述第二归一化结果和所述第二样本标签，计算所述第二归一化结果和所述第二样本标签之间的第三差异；

根据所述第一差异、所述第二差异和所述第三差异，计算所述语音识别模型的损失值。

可选的，计算模块906进一步被配置为：

在所述样本对标签为第一标签时，计算所述第一样本向量和所述第二样本向量之间的相似度，将所述相似度的平方作为所述第一差异；

在所述样本对标签为第二标签时，计算所述第一样本向量和所述第二样本向量之间的相似度；确定预先设置的超参数和所述相似度之间的差值；根据所述差值和数值0之间的最大值，确定所述第一差异。

可选的，计算模块906进一步被配置为：

根据所述第一归一化结果中包括的预测标签是否和所述第一样本标签相同，设置所述预测标签的标签标识；

根据所述标签标识和所述第一归一化结果，计算所述第一归一化结果和所述第一样本标签的第二差异。

可选的，计算模块906进一步被配置为：

确定所述第一差异、所述第二差异和所述第三差异的加权和；

将所述加权和作为所述语音识别模型的损失值。

可选的，所述训练停止条件包括：所述语音识别模型的损失值小于预设阈值。

上述为本实施例的一种语音识别模型的训练装置的示意性方案。需要说明的是，该语音识别模型的训练装置的技术方案与上述的语音识别模型的训练方法的技术方案属于同一构思，语音识别模型的训练装置的技术方案未详细描述的细节内容，均可以参见上述语音识别模型的训练方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了语音识别装置实施例，图10示出了本说明书一实施例提供的一种语音识别装置的结构示意图。如图10所示，该装置包括：

第二获取模块1002，被配置为获取待识别语音片段和预设关键词标准库，所述预设关键词标准库包括至少一个标准语音，每个所述标准语音对应至少一个预设关键词；

第一输入模块1004，被配置为将所述待识别语音片段和第一标准语音输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，以及所述第一标准语音对应的标准语音向量，其中，所述第一标准语音为所述预设关键词标准库中包括的任一标准语音，所述语音识别模型是通过权利要求1-7任意一项所述的训练方法训练得到的；

第一确定模块1006，被配置为根据所述第一语音向量和所述标准语音向量，确定所述待识别语音片段和所述第一标准语音是否相同，若相同，则返回所述第一标准语音对应的预设关键词作为所述待识别语音片段的关键词。

可选的，第二获取模块1002进一步被配置为：

获取待识别语音；

根据所述语音识别模型，确定所述待识别语音片段的固定长度；

对所述待识别语音进行预处理，获得固定长度的所述待识别语音片段。

可选的，第二获取模块1002进一步被配置为：

在所述待识别语音的长度与所述目标长度相同时，将所述待识别语音作为所述待识别语音片段；

在所述待识别语音的长度超过所述目标长度时，对所述待识别语音进行分窗处理，获得至少一个所述待识别语音片段；

在所述待识别语音的长度小于所述目标长度时，对所述待识别语音的音频特征补参数0，直至长度达到所述目标长度，获得所述待识别语音片段。

可选的，所述装置还包括：

裁剪模块，被配置为根据所述片段长度，对所述第一标准语音进行裁剪；

相应的，所述第一输入模块1004进一步被配置为：

将所述待识别语音片段和裁剪后的第一标准语音输入所述语音识别模型。

可选的，第一确定模块1006进一步被配置为：

确定所述第一语音向量和所述标准语音向量之间的相似度；

判断所述相似度是否小于相似度阈值；

若是，则确定所述待识别语音片段和所述第一标准语音相同；

若否，则确定所述待识别语音片段和所述第一标准语音不相同。

可选的，第二获取模块1002进一步被配置为：

通过静音检测算法，对所述待识别语音进行静音检测；

根据检测到的静音时间点，对所述待识别语音进行分段，获得至少一个分段待识别语音；

对所述至少一个分段待识别语音中的每个分段待识别语音进行分窗处理，获得所述至少一个待识别语音片段。

上述为本实施例的一种语音识别装置的示意性方案。需要说明的是，该语音识别装置的技术方案与上述的语音识别方法的技术方案属于同一构思，语音识别装置的技术方案未详细描述的细节内容，均可以参见上述语音识别方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了语音识别装置实施例，图11示出了本说明书一实施例提供的另一种语音识别装置的结构示意图。如图11所示，该装置包括：

第三获取模块1102，被配置为获取待识别语音片段；

第二输入模块1104，被配置为将所述待识别语音片段输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，其中，所述语音识别模型是通过权利要求1-8任意一项所述的训练方法训练得到的；

第二确定模块1106，被配置为根据所述第一语音向量和预设标准向量库，确定所述待识别语音片段的识别结果。

可选的，所述装置还包括：

第四获取模块，被配置为获取至少一个预设关键词；

第三确定模块，被配置为针对所述至少一个预设关键词中的每个所述预设关键词，获取所述预设关键词的至少一个标准语音；根据所述语音识别模型，获得所述至少一个标准语音对应的至少一个第一标准语音向量；根据所述至少一个第一标准语音向量，确定所述预设关键词对应的第二标准语音向量；

组合模块，被配置为将获得的所述至少一个预设关键词对应的第二标准语音向量组合为所述预设标准向量库。

可选的，第三确定模块进一步被配置为：

确定所述至少一个第一标准语音向量的平均标准语音向量；

可选的，第二确定模块1106进一步被配置为：

判断所述相似度中是否存在小于相似度阈值的目标相似度；

若否，则确定所述待识别语音片段不包括预设关键词。

可选的，第三获取模块1102进一步被配置为：

获取待识别语音；

可选的，第三获取模块1102进一步被配置为：

可选的，所述装置还包括：

裁剪模块，被配置为根据所述片段长度，对所述标准语音进行裁剪。

可选的，第三获取模块1102进一步被配置为：

通过静音检测算法，对所述待识别语音进行静音检测；

本说明书提供的语音识别装置，不直接预测待识别语音片段属于每个待识别关键词的概率，而是通过训练好的语音识别模型对待识别语音片段进行编码得到特定维度的抽象表示，该编码表示包含了待识别语音片段的文本内容信息，然后通过待识别语音片段的编码表示和预设标准向量库，来预测待识别语音片段中的关键词。因此新增待识别关键词时，只需在预设标准向量库中增加该新增待识别关键词对应的标准语音向量即可识别新增待识别关键词，无需重新训练语音识别模型，也无需收集大量新增关键词的训练样本，使得新增待识别关键词的识别变得非常容易和快捷，节省时间及人力成本。另外，本说明书中可以预先根据关键词对应的大量标准发音的语音数据构建预设标准向量库，具有更好的鲁棒性。并且，本说明书中直接预测待识别语音片段是否包含待识别关键词，无需对概率进行平滑处理，更加简洁。

图12示出了根据本说明书一实施例提供的一种计算设备1200的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接，数据库1250用于保存数据。

计算设备1200还包括接入设备1240，接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1240可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图12所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1200可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。

其中，处理器1220用于执行如下计算机可执行指令，以实现上述语音识别模型的训练方法的步骤，或者上述语音识别方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的语音识别模型的训练方法、语音识别方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述语音识别模型的训练方法、语音识别方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现上述语音识别模型的训练方法的步骤，或者上述语音识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语音识别模型的训练方法、语音识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语音识别模型的训练方法、语音识别方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语音识别模型的训练方法，其特征在于，所述方法包括：

根据所述第一差异、第二差异和第三差异，计算所述语音识别模型的损失值，其中，所述第二差异基于所述第一语音样本计算得到，所述第三差异基于所述第二语音样本得到；

2.根据权利要求1所述的训练方法，其特征在于，所述通过语音识别模型的全连接层获得所述第一语音样本的第一样本向量和所述第二语音样本的第二样本向量，包括：

3.根据权利要求1所述的训练方法，其特征在于，所述语音样本对还携带所述第一语音样本的第一样本标签和所述第二语音样本的第二样本标签；

所述通过语音识别模型的全连接层获得所述第一语音样本的第一样本向量和所述第二语音样本的第二样本向量之后，还包括：

将所述全连接层输出的所述第一样本向量和所述第二样本向量分别输入至所述语音识别模型的归一化层进行归一化处理，获得所述第一样本向量的第一归一化结果和所述第二样本向量的第二归一化结果，其中，所述第一归一化结果是指所述第一语音样本在各个预测标签上的概率分布，所述第二归一化结果是指所述第二语音样本在各个预测标签上的概率分布。

4.根据权利要求3所述的训练方法，其特征在于，在所述根据所述第一样本向量和所述第二样本向量之间的相似度，以及所述样本对标签，计算所述第一语音样本和所述第二语音样本的第一差异之后，还包括：

根据所述第一归一化结果和所述第一样本标签，计算所述第一归一化结果和所述第一样本标签的第二差异，并根据所述第二归一化结果和所述第二样本标签，计算所述第二归一化结果和所述第二样本标签之间的第三差异。

5.根据权利要求4所述的训练方法，其特征在于，所述根据所述第一样本向量和所述第二样本向量之间的相似度，以及所述样本对标签，计算所述第一语音样本和所述第二语音样本的第一差异，包括：

6.根据权利要求4所述的训练方法，其特征在于，所述根据所述第一归一化结果和所述第一样本标签，计算所述第一归一化结果和所述第一样本标签的第二差异，包括：

7.根据权利要求4所述的训练方法，其特征在于，所述根据所述第一差异、所述第二差异和所述第三差异，计算所述语音识别模型的损失值，包括：

将所述加权和作为所述语音识别模型的损失值。

8.根据权利要求1所述的训练方法，其特征在于，所述训练停止条件包括：所述语音识别模型的损失值小于预设阈值。

9.一种语音识别方法，其特征在于，所述方法包括：

将所述待识别语音片段和第一标准语音输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，以及所述第一标准语音对应的标准语音向量，其中，所述第一标准语音为所述预设关键词标准库中包括的任一标准语音，所述语音识别模型是通过权利要求1-8任意一项所述的训练方法训练得到的；

10.根据权利要求9所述的语音识别方法，其特征在于，所述获取待识别语音片段，包括：

获取待识别语音；

11.根据权利要求10所述的语音识别方法，其特征在于，所述对所述待识别语音进行预处理，获得固定长度的所述待识别语音片段，包括：

在所述待识别语音的长度与目标长度相同时，将所述待识别语音作为所述待识别语音片段；

12.根据权利要求10所述的语音识别方法，其特征在于，所述将所述待识别语音片段和第一标准语音输入语音识别模型之前，还包括：

根据所述片段长度，对所述第一标准语音进行裁剪；

相应的，所述将所述待识别语音片段和第一标准语音输入语音识别模型，包括：

13.根据权利要求9所述的语音识别方法，其特征在于，所述根据所述第一语音向量和所述标准语音向量，确定所述待识别语音片段和所述第一标准语音是否相同，包括：

确定所述第一语音向量和所述标准语音向量之间的相似度；

判断所述相似度是否小于相似度阈值；

14.根据权利要求11所述的语音识别方法，其特征在于，所述对所述待识别语音进行分窗处理，获得至少一个所述待识别语音片段之前，还包括：

通过静音检测算法，对所述待识别语音进行静音检测；

相应的，所述对所述待识别语音进行分窗处理，获得至少一个所述待识别语音片，包括：

15.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音片段；

将所述待识别语音片段输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，其中，所述语音识别模型是通过权利要求1-8任意一项所述的训练方法训练得到的；

16.根据权利要求15所述的语音识别方法，其特征在于，所述根据所述第一语音向量和预设标准向量库，确定所述待识别语音片段的识别结果之前，还包括：

获取至少一个预设关键词；

针对所述至少一个预设关键词中的每个所述预设关键词，获取所述预设关键词的至少一个标准语音；根据所述语音识别模型，获得所述至少一个标准语音对应的至少一个第一标准语音向量；根据所述至少一个第一标准语音向量，确定所述预设关键词对应的第二标准语音向量；

将获得的所述至少一个预设关键词对应的第二标准语音向量组合为所述预设标准向量库。

17.根据权利要求16所述的语音识别方法，其特征在于，所述根据所述语音识别模型，获得所述至少一个标准语音对应的至少一个第一标准语音向量，包括：

18.根据权利要求16所述的语音识别方法，其特征在于，所述根据所述至少一个第一标准语音向量，确定所述预设关键词对应的第二标准语音向量，包括：

确定所述至少一个第一标准语音向量的平均标准语音向量；

19.根据权利要求15-18任一所述的语音识别方法，其特征在于，所述根据所述第一语音向量和预设标准向量库，确定所述待识别语音片段的识别结果，包括：

判断所述相似度中是否存在小于相似度阈值的目标相似度；

若否，则确定所述待识别语音片段不包括预设关键词。

20.一种语音识别模型的训练装置，其特征在于，所述装置包括：

计算模块，被配置为根据所述第一样本向量和所述第二样本向量之间的相似度，以及所述样本对标签，计算所述第一语音样本和所述第二语音样本的第一差异；

21.一种语音识别装置，其特征在于，所述装置包括：

第一输入模块，被配置为将所述待识别语音片段和第一标准语音输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，以及所述第一标准语音对应的标准语音向量，其中，所述第一标准语音为所述预设关键词标准库中包括的任一标准语音，所述语音识别模型是通过权利要求1-7任意一项所述的训练方法训练得到的；

22.一种语音识别装置，其特征在于，所述装置包括：

第三获取模块，被配置为获取待识别语音片段；

第二输入模块，被配置为将所述待识别语音片段输入语音识别模型中，获得所述语音识别模型的全连接层输出的所述待识别语音片段对应的第一语音向量，其中，所述语音识别模型是通过权利要求1-8任意一项所述的训练方法训练得到的；

23.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现上述权利要求1至8任意一项所述语音识别模型的训练方法的步骤，或者上述权利要求9至14任意一项所述语音识别方法的步骤，又或者上述权利要求15至19任意一项所述语音识别方法的步骤。

24.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现上述权利要求1至8任意一项所述语音识别模型的训练方法的步骤，或者上述权利要求9至14任意一项所述语音识别方法的步骤，又或者上述权利要求15至19任意一项所述语音识别方法的步骤。