CN111696526A

CN111696526A - 语音识别模型的生成方法、语音识别方法、装置

Info

Publication number: CN111696526A
Application number: CN202010573393.0A
Authority: CN
Inventors: 赵媛媛; 王晓瑞; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Kwai Technology Co ltd; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-09-22
Anticipated expiration: 2040-06-22
Also published as: CN111696526B

Abstract

本公开关于一种语音识别模型的生成方法、语音识别方法、装置、电子设备及存储介质，其中，语音识别模型的生成方法包括：对多个语音信号样本各自对应的原始语音特征序列进行划分，生成每个语音信号样本对应的多个原始语音特征块；采用待训练的语音识别模型对每个语音信号样本对应的多个原始语音特征块分别进行识别，得到每个语音信号样本的预测文本序列；根据每个语音信号样本对应的预测文本序列，对待训练的语音识别模型进行训练，直至达到预设停止条件，生成语音识别模型。由于该方法训练过程中的语音识别模型进行语音识别是基于划分好的特征块进行，从而不再依赖整句输入，使得训练得到的语音识别模型能够有效应用于流式的场景中。

Description

语音识别模型的生成方法、语音识别方法、装置

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音识别模型的生成方法、装置、电子设备及存储介质，以及一种语音识别方法、装置、电子设备及存储介质。

背景技术

语音识别技术是通过算法将人类的语音转化成相应文本的过程。近年来，基于深度学习的语音识别技术迅猛发展。语音识别系统无论从性能上还是鲁棒性上都获得了大幅提升，实际语音识别系统的识别率逐渐接近实用水平，无论是基于语音的产品还是创业公司，以及语音识别技术本身都如雨后春笋搬成长起来。

相关技术中，语音识别可以采用基于编解码注意力机制的端到端模型，如LAS(Listen-Attend-Spell，一种语音识别模型)、Speech Transformer(一种语音识别模型)等。这些模型由三部分组成：编码器encoder、解码器decoder和注意力机制self-attention。编码器和解码器可以采用LSTM(Long Short-Term Memory，长短期记忆网络)、CNN(Convolutional Neural Networks，卷积神经网络)、DNN(Deep Neural Networks，深度神经网络)、self-attention layer等一个或者多个的多层网络，注意力机制常采用的有Multi-Head Attention(多头注意力机制)、dot-product attention(点乘注意力)等多种机制。相关技术中，encoder-decoder包含self-attention的语音识别模型性能较佳，例如Speech Transformer。采用self-attention能够有效建模上下文的长时和短时依赖，并且具有高计算速度和低资源消耗的优点。但是由于模型中self-attention和encoder-decoder注意力的计算依赖整句输入，在需要实时给出识别结果的场景中比较受限。

发明内容

本公开提供一种语音识别模型的生成方法、装置、电子设备及存储介质，以及一种语音识别方法、装置、电子设备及存储介质，以至少解决相关技术中的语音识别模型依赖整句输入，在需要实时给出识别结果的场景中比较受限的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音识别模型的生成方法，包括：

对多个语音信号样本各自对应的原始语音特征序列进行划分，生成每个语音信号样本对应的多个原始语音特征块；

采用待训练的语音识别模型对每个语音信号样本对应的多个原始语音特征块分别进行识别，得到每个语音信号样本的预测文本序列；

根据每个语音信号样本对应的预测文本序列，对待训练的语音识别模型进行训练，直至达到预设停止条件，生成语音识别模型。

在其中一个实施例中，采用待训练的语音识别模型对每个语音信号样本对应的多个原始语音特征块分别进行识别，得到每个语音信号样本的预测文本序列，包括：

对每个语音信号样本对应的多个原始语音特征块进行编码，得到每个语音信号样本对应的多个目标语音特征块；

对每个目标语音特征块进行解码，得到每个目标语音特征块对应的预测文本子序列；

根据每个目标语音特征块对应的预测文本子序列，生成每个语音信号样本的预测文本序列。

在其中一个实施例中，对每个语音信号样本对应的多个原始语音特征块进行编码，得到每个语音信号样本对应的多个目标语音特征块，包括：

确定每个语音信号样本对应的多个原始语音特征块中的每帧原始语音特征，与历史时间段中的每帧原始语音特征的相似度；

根据相似度，生成与每帧原始语音特征对应的每帧目标语音特征；

根据每帧目标语音特征，生成每个语音信号样本对应的多个目标语音特征块。

在其中一个实施例中，对每个目标语音特征块进行解码，得到每个目标语音特征块对应的预测文本子序列，包括：

获取每个目标语音特征块对应的标注文本子序列；

根据每个目标语音特征块以及对应的标注文本子序列，生成每个目标语音特征块对应的预测文本子序列。

在其中一个实施例中，根据每个目标语音特征块以及对应的标注文本子序列，生成每个目标语音特征块对应的预测文本子序列，包括：

对于每个目标语音特征块，对与每个目标语音特征块对应的标注文本子序列进行编码；

根据编码后的标注文本子序列，以及对应的每个目标语音特征块进行相似度计算，生成每个目标语音特征块对应的预测文本子序列。

在其中一个实施例中，对多个语音信号样本各自对应的原始语音特征序列进行划分，生成每个语音信号样本对应的多个原始语音特征块，包括：

获取预设的每个原始语音特征块的帧数；

根据每个原始语音特征块的帧数，对原始语音特征序列进行划分，生成多个原始语音特征块。

在其中一个实施例中，根据每个语音信号样本对应的预测文本序列，对待训练的语音识别模型进行训练，直至达到预设停止条件，生成语音识别模型，包括：

采用预设的损失函数，根据预测文本序列对待训练的语音特征模型进行训练，直至达到收敛条件后，

对待训练的语音特征模型继续进行训练，直至获取的字错误率满足预设值，停止对待训练的语音识别模型的训练，生成语音识别模型。

根据本公开实施例的第二方面，提供一种语音识别方法，包括：

获取待识别语音信号对应的待识别语音特征序列；

当获取当前已输入的待识别语音特征序列的时间长度满足阈值时，则

采用上述第一方面任一项实施例中得到的语音识别模型，对当前已输入的待识别语音特征序列进行识别，得到语音识别结果。

根据本公开实施例的三方面，提供一种语音识别模型的生成装置，包括：

特征划分模块，被配置为执行对多个语音信号样本各自对应的原始语音特征序列进行划分，生成每个语音信号样本对应的多个原始语音特征块；

预测文本序列生成模块，被配置为执行采用待训练的语音识别模型对每个语音信号样本对应的多个原始语音特征块分别进行识别，得到每个语音信号样本的预测文本序列；

模型训练模块，被配置为执行根据每个语音信号样本对应的预测文本序列，对待训练的语音识别模型进行训练，直至达到预设停止条件，生成语音识别模型。

在其中一个实施例中，预测文本序列生成模块，包括：

编码模块，被配置为执行对每个语音信号样本对应的多个原始语音特征块进行编码，得到每个语音信号样本对应的多个目标语音特征块；

解码模块，被配置为执行对每个目标语音特征块进行解码，得到每个目标语音特征块对应的预测文本子序列；

拼接模块，被配置为执行根据每个目标语音特征块对应的预测文本子序列，生成每个语音信号样本的预测文本序列。

在其中一个实施例中，编码模块，包括：

相似度确定单元，被配置为执行确定每个语音信号样本对应的多个原始语音特征块中的每帧原始语音特征，与历史时间段中的每帧原始语音特征的相似度；

每帧语音特征生成单元，被配置为执行根据相似度，生成与每帧原始语音特征对应的每帧目标语音特征；

语音特征生成单元，被配置为执行根据每帧目标语音特征，生成每个语音信号样本对应的多个目标语音特征块。

在其中一个实施例中，所述装置还包括：第一获取模块，被配置为执行获取每个目标语音特征块对应的标注文本子序列；

解码模块，还被配置为执行根据每个目标语音特征块以及对应的标注文本子序列，生成每个目标语音特征块对应的预测文本子序列。

在其中一个实施例中，解码模块，还被配置为执行：

对于每个目标语音特征块，对与每个目标语音特征块对应的标注文本子序列进行编码；根据编码后的标注文本子序列，以及对应的每个目标语音特征块进行相似度计算，生成每个目标语音特征块对应的预测文本子序列。

在其中一个实施例中，所述装置还包括：第二获取模块，被配置为执行获取预设的每个原始语音特征块的帧数；

特征划分模块，被配置为执行根据每个原始语音特征块的帧数，对原始语音特征序列进行划分，生成多个原始语音特征块。

在其中一个实施例中，模型训练模块，被配置为执行：

根据本公开实施例的第四方面，提供一种语音识别装置，包括：

第三获取模块，被配置为执行获取待识别语音信号对应的待识别语音特征序列；

时间长度获取模块，被配置为执行获取当前已输入的待识别语音特征序列的时间长度；

语音识别模块，被配置为执行当获取当前已输入的待识别语音特征序列的时间长度满足阈值时，则采用如上第一方面任一项实施例中得到的语音识别模型，对当前已输入的待识别语音特征序列进行识别，得到语音识别结果。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现如上第一方面或第二方面任一项实施例中的方法。

根据本公开实施例的第六方面，提供一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上第一方面或第二方面任一项实施例中的方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面或第二方面的任一项实施例中所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过对语音信号样本对应的原始语音特征序列进行划分，得到多个原始语音特征块；采用待训练的语音识别模型对每个原始语音特征块分别进行处理，得到每个信号样本的预测文本序列，并根据该预测文本序列进行模型训练。由于该方法训练过程中的语音识别模型进行语音识别是基于划分好的特征块进行，从而不再依赖整句输入，使得训练得到的语音识别模型能够有效应用于流式的场景中。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音识别模型的生成方法的应用环境图。

图2是根据一示例性实施例示出的一种语音识别模型的生成方法的流程图。

图3是根据一示例性实施例示出的一种得到预测文本序列步骤的流程图。

图4是根据一示例性实施例示出的一种对原始语音特征序列进行编码的流程图。

图5是根据一示例性实施例示出的一种编码器的结构示意图。

图6是根据一示例性实施例示出的一种对多个目标语音特征块进行解码的流程图。

图7是根据一示例性实施例示出的一种解码器得到预测文本子序列的示意图。

图8是根据一示例性实施例示出的一种语音识别模型的生成方法的流程图。

图9是根据一示例性实施例示出的一种语音识别方法的应用环境图。

图10是根据一示例性实施例示出的一种语音识别方法的流程图。

图11是根据一示例性实施例示出的一种语音识别模型的生成装置的框图。

图12是根据一示例性实施例示出的一种语音识别装置的框图。

图13是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的语音识别模型的生成方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120进行交互。语音识别模型的生成方法可以通过终端实现，也可以通过服务器实现。以通过服务器实现为例进行说明。服务器120中部署有待训练的语音识别模型，并储存有对待训练的语音识别模型进行训练使用到的多个语音信号样本。用户可以通过终端110触发对待训练的语音识别模型进行训练的指令，以及展示训练过程中的产生的数据，例如，训练过程中产生的损失值等。具体地，当服务器120获取对待训练的语音识别模型进行训练的指令时，对多个语音信号样本各自对应的原始语音特征序列进行划分，生成每个语音信号样本对应的多个原始语音特征块；采用待训练的语音识别模型对每个语音信号样本对应的多个原始语音特征块分别进行识别，得到每个语音信号样本的预测文本序列；根据每个语音信号样本对应的预测文本序列，对待训练的语音识别模型进行训练，直至达到预设停止条件，生成语音识别模型。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种语音识别模型的生成方法的流程图，如图2所示，语音识别模型的生成方法用于服务器120中，包括以下步骤。

在步骤S210中，对多个语音信号样本各自对应的原始语音特征序列进行划分，生成每个语音信号样本对应的多个原始语音特征块。

其中，原始语音特征序列是指对语音信号样本进行特征提取得到的特征序列。具体地，在获取多个语音信号样本后，可以对每个语音信号样本进行特征提取，得到每个语音信号样本对应的原始语音特征序列。对每个语音信号样本进行特征提取可以通过以下方式实现。首先，通过一个高通滤波器对每个语音信号样本进行预加重。由于语音信号具有短时平稳性，可以将每个语音信号样本按照时间步长进行处理，每一个时间步长称为一帧，每一帧对应的时间步长可以取预设数值，例如20～30ms之间任意数值。为了避免相邻两帧的变化过大，因此可以在两相邻帧之间设置一段重叠区域。然后，将每一帧进行加窗处理，以增加帧左端和右端的连续性，例如使用25ms的窗口进行计算，每10ms进行移位。接着，对加窗后的每个语音信号样本进行傅里叶变换得到频谱图并进行滤波，使频谱图更为紧凑。最后，可以使用谱或者倒谱分析得到每个语音信号样本对应的原始语音特征序列。

在得到每个语音信号样本对应的原始语音特征序列后，调用预设的划分方式对每个语音信号样本对应的原始语音特征序列进行划分，将每个语音信号样本对应的原始语音特征序列划分成多个原始语音特征块。划分方式可以是将每个原始语音特征序列划分成预设数量的多个原始语音特征块，或者将每个原始语音特征序列划分成具有相同时间长度的多个原始语音特征块，在此不做限定。

在步骤S220中，采用待训练的语音识别模型对每个语音信号样本对应的多个原始语音特征块分别进行识别，得到每个语音信号样本的预测文本序列。

具体地，语音识别模型可以是任意一种现有的端到端语音识别模型，或者基于现有模型进行改进得到的模型。在得到每个语音信号样本对应的多个原始语音特征块后，将每个语音信号样本对应的多个原始语音特征块输入至待训练的语音识别模型进行识别。对于每个语音信号样本，通过待训练的语音识别模型可以得到与每个原始语音特征块对应的预测文本子序列。然后，将每个原始语音特征块对应的预测文本子序列进行拼接，可以得到每个语音信号样本对应的预测文本序列。

在步骤S230中，根据每个语音信号样本对应的预测文本序列，对待训练的语音识别模型进行训练，直至达到预设停止条件，生成语音识别模型。

具体地，对模型进行训练之前，需要对每个语音信号样本进行标注，得到每个语音信号样本对应的标注文本序列。在待训练的语音识别模型输出每个语音信号样本对应的预测文本序列后，可以根据每个语音信号样本对应的预测文本序列和标注文本序列，采用预设的损失函数对待训练的语音识别模型进行迭代训练。在训练过程中不断地调整待训练的语音识别模型的模型参数，直至达到预设停止条件。预设停止条件可以是达到预设的迭代次数，或者得到的准确率满足预设的阈值，在此不做限定。最后，可以选择训练过程中损失值最小或者鲁棒性最好的模型参数，生成即将使用的语音识别模型。

上述语义识别模型的生成方法中，通过对语音信号样本对应的原始语音特征序列进行划分，得到多个原始语音特征块；采用待训练的语音识别模型对每个原始语音特征块分别进行处理，得到每个信号样本的预测文本序列，并根据该预测文本序列进行模型训练。由于该方法训练过程中的语音识别模型进行语音识别是基于划分好的特征块进行，从而不再依赖整句输入，使得训练得到的语音识别模型能够有效应用于流式的场景中。

在一示例性实施例中，在步骤S210中，对多个语音信号样本各自对应的原始语音特征序列进行划分，生成每个语音信号样本对应的多个原始语音特征块，具体通过以下方式实现：获取预设的每个原始语音特征块的帧数；根据每个原始语音特征块的帧数，对原始语音特征序列进行划分，生成多个原始语音特征块。

具体地，本实施例中通过预先配置每个原始语音特征块的帧数，将每个原始语音特征序列划分成具有相同时间长度的多个原始语音特征块。当需要对每个语音信号样本对应原始语音特征序列进行划分时，获取预先配置的帧数。根据所获取的帧数对每个语音信号样本对应的原始语音特征序列进行划分，得到每个语音信号样本对应多个原始语音特征块。示例性地，语音信号样本对应的原始语音特征序列包括L帧，预先配置的每个原始语音特征块的帧数为W帧，则对于该语音信号样本，划分后得到的每个原始语音特征块包括W帧的原始语音特征，共可以得到N＝[L/W]个原始语音特征块。本实施例中，通过对原始语音特征序列进行相同时间长度的划分，使得训练得到的语音训练模型能够在输入一定时间长度的语音特征序列后即启动语音识别，更加适用于流式的语音识别场景。

在一示例性实施例中，如图3所示，在步骤S220中，采用待训练的语音识别模型对每个语音信号样本对应的多个原始语音特征块分别进行识别，得到每个语音信号样本的预测文本序列，具体可以通过以下步骤实现：

在步骤S221中，对每个语音信号样本对应的多个原始语音特征块进行编码，得到每个语音信号样本对应的多个目标语音特征块。

在实施例中，语音识别模型可以采用基于编解码注意力机制的端到端模型，如LAS、Speech Transformer等。这些模型由三部分组成：编码器、解码器和注意力机制。具体地，在对每个语音信号样本的原始语音特征序列进行划分后，将划分后的原始语音特征序列输入至待训练的语音信号识别模型。采用待训练的语音信号识别模型中的编码器对每个语音信号样本对应的原始语音特征序列(即多个原始语音特征块)进行编码，生成每个语音信号样本对应的多个目标语音特征块。

在步骤S222中，对每个目标语音特征块进行解码，得到每个目标语音特征块对应的预测文本子序列。

在步骤S223中，根据每个目标语音特征块对应的预测文本子序列，生成每个语音信号样本的预测文本序列。

具体地，将编码器输出的多个目标语音特征块输入至解码器，采用待训练的语音信号识别模型中的解码器分别对每个目标语音特征块进行解码，得到每个目标语音特征块对应的预测文本子序列。将每个目标语音特征块对应的预测文本子序列进行拼接，生成每个语音信号样本的预测文本序列。

本实施例中，通过采用基于编解码注意力机制的端到端语音识别模型，可以提高语音识别的准确率，且识别效率高、资源消耗少；通过使解码器在对每个目标语音特征块进行解码时，针对每个目标语音特征块进行单独处理，从而不再依赖整句输入，使得训练得到的语音识别模型能够有效应用于流式的场景中。

在一示例性实施例中，如图4所示，在步骤S221中，对每个语音信号样本对应的多个原始语音特征块进行编码，得到每个语音信号样本对应的多个目标语音特征块，具体可以通过以下步骤实现：

在步骤S2211中，确定每个语音信号样本对应的多个原始语音特征块中的每帧原始语音特征，与历史时间段中的每帧原始语音特征的相似度。

在步骤S2212中，根据相似度，生成与每帧原始语音特征对应的每帧目标语音特征。

在步骤S2213中，根据每帧目标语音特征，生成每个语音信号样本对应的多个目标语音特征块。

具体地，图5中的(a)示例性地示出了相关技术中的一种基于注意力机制的编码器的结构示意图，图5中的(b)示例性地示出了本实施例中的一种基于注意力机制的编码器的结构示意图。如图5所示，两侧的Nx表示编码器有多少层。相关技术中，每一层编码器由Multi-Head Attention和Feed Forward(全链接前馈网络)两个部分构成。两个部分中的Add&Norm表示残差连接(residual connection)和层标准化(Layer Normalization)。从图5可知，与相关技术不同的是，本实施例中的编码器使用Masked Multi-Head Attention(MMA，掩藏多头注意力机制)替代相关技术中的Multi-Head Attention。采用MaskedMulti-Head Attention，对于当前帧的原始语音特征，在计算与原始语音特征序列中的其他帧的相似度时，只考虑当前帧的历史时间段中的每帧原始语音特征，而无法使用未来帧的信息。本实施例中，通过采用基于Masked Multi-Head Attention的编码器，使编码器计算每帧原始语音特征对应的目标语音特征时，不依赖每帧原始语音特征的未来信息，可以有效实现编码器的流式计算。

在一示例性实施例中，如图6所示，在步骤S222中，对每个目标语音特征块进行解码，得到每个目标语音特征块对应的预测文本子序列，具体可以通过以下步骤实现：

在步骤S2221中，获取每个目标语音特征块对应的标注文本子序列。

其中，解码器可以是基于注意力机制的解码器。解码器可以包括三个层：MaskedMulti-Head Attention、encoder-decoder attention(编码器-解码器注意力机制)和FeedForward。传统的语音识别模型的训练过程中，通常将编码器输出的目标语音特征序列、解码器在上一个时间步的输出或者标签文本序列在上一个时间步的标签(label)作为当前时间步的输入，得到当前时间步的输出。为了提高模型训练的准确率，本实施例中将以编码器输出的目标语音特征序列，以及标签文本序列在上一个时间步的标签作为解码器当前时间步的输入为例进行说明。即，标注文本序列中的每个输入标签经过Masked Multi-HeadAttention进行编码后，通过encoder-decoder attention计算和编码器输出的每一帧特征之间的相似度(即注意力)，并将预测概率最大的文本序列作为预测文本序列。在传统的语音识别模型的训练过程中，每个输入label都要和编码器输出的每一帧计算一个相似度。

在本实施例中，由于解码器是基于编码器输出的每个目标语音特征块内部进行处理，因此，需要预先对标注文本序列划分，获取与每个目标语音特征块对应的标注文本子序列。以下对获取标注文本子序列的一种方式进行说明。具体地，可以采用混合模型根据原始语音特征序列和标注文本序列，得到语音信号样本中每个文本与原始语音特征序列的对齐关系，即，每个文本对应原始语音特征序列中的哪几帧特征。在确定每个文本对应原始语音特征序列的帧数后，便可确定每个文本应该与哪个原始语音特征块对应。将标注文本序列划分成与多个原始语音特征块对应的标注文本子序列，进而确定每个目标语音特征块的对应的标注文本子序列。

在步骤S2222中，根据每个目标语音特征块以及对应的标注文本子序列，生成每个目标语音特征块对应的预测文本子序列。

具体地，针对每个目标语音特征块，将编码器输出的目标语音特征块以及对应的标注文本子序列作为解码器的输入，得到每个目标语音特征块对应的预测文本子序列。

本实施例中，通过根据标注文本子序列以及每个目标语音特征块进行预测，可以提高模型训练的准确率；通过基于每个目标语音特征块进行单独处理，从而不再依赖整句输入，使得训练得到的语音识别模型能够有效应用于流式的场景中。

图7示例性地示出了一种编码器-解码器的计算过程的示意图。图7中虚线内代表一个原始语音特征块和一个目标语音特征块(以下称为block)。其中：

W代表一个block中有多少帧。b代表虚线内是语音信号样本中的第b个block。

X_(b-1)W代表第b-1个block中，输入至编码器的最后一帧原始语音特征，h_(b-1)W代表编码器输出的对应的隐层表示(即目标语音特征)；X_(b-1)W+1代表第b个block中输入至编码器的第一帧原始语音特征，h_(b-1)W+1代表编码器输出的对应的隐层表示，以此类推。

m代表标注文本序列中的第几个标签。S_m代表解码器的Masked Multi-HeadAttention输出，h’_m表示解码器的第m个隐藏状态。y_m代表解码器的第m个输出。

对于任意block，产生的输出为

其中，i表示该block的第一个输出在所有block的输出的位置；k表示该block一共有k个字符。对于每个block，可以在每个block的结束位置增加一个<e>符号，用于指示block的结束，即每个block的最后一个输出为<e>。如图7所示，编码器-解码器的计算只限定在当前block内部，也就是对于当前block输入的标签，只和当前block的编码器输出的每帧目标语音特征计算相似度。在获取当前block的每帧目标语音特征对应的相似度后，可以对相似度进行归一化处理，得到当前block中每帧目标语音特征对应的权重。将当前block中的每帧目标语音特征与其对应的权重进行加权和，得到内容向量C_m。相似度e、权重α以及内容向量C_m可以通过以下公式计算得到：

本实施例中，通过使解码器在对每个目标语音特征块进行解码时，针对每个目标语音特征块进行单独预测，从而不再依赖整句输入，使得训练得到的语音识别模型能够有效应用于流式的场景中；encoder-decoder attention边界使用模型从数据中学习获得，不需要依赖其他函数，非常鲁棒有效。

在一示例性实施例中，在步骤S230中，根据每个语音信号样本对应的预测文本序列，对待训练的语音识别模型进行训练，直至达到预设停止条件，生成语音识别模型，具体通过以下方式实现：采用预设的损失函数，根据预测文本序列对待训练的语音特征模型进行训练，直至达到收敛条件；对待训练的语音特征模型继续进行训练，直至获取的字错误率满足预设值，停止对待训练的语音识别模型的训练，生成语音识别模型。

其中，收敛条件可以是训练过程中产生的损失值满足预设阈值，比如说通过获取到的损失值确定当前的预测文本序列与对应的标注文本序列的接近程度满足预设值。具体地，对模型进行训练的过程中，当采用预设的损失函数对待训练的语音特征模型进行训练得到的损失值满足阈值时，继续进行训练。使用最小词错误率(Minimum Word Error Rate，MWER)准则作为损失函数的微调fine-tune网络，进一步对模型进行训练，当获取当前预测文本序列中的字错误率(Character Error Rate，CER)满足预设值时，则结束训练。预设的损失函数可以是交叉熵损失函数。本实施例中，使用MWER准则的能够直接利用字错词率CER优化模型的评价准则，从而有效提升模型的性能。

图8是根据一示例性实施例示出的一种具体的语音识别模型的生成方法的流程图。在本实施例中，以语音识别模型为改进后的speech transformer(称为流式speechtransformer)为例进行说明。如图8所示，包括以下步骤。

在步骤S801中，获取多个语音信号样本各自对应的原始语音特征序列。

具体地，原始语音特征序列可以采用40维的梅尔倒谱系数MFCC特征。可以经过全局倒谱均值方差归一化CMVN、拼帧、降低采样率等操作后，获得原始语音特征序列。降低采样率的操作是指将拼帧后的特征进行下采样，例如，当每6帧取一帧时，帧率为16.7Hz。

在步骤S802中，对每个语音信号样本对应的原始语音特征序列进行划分，生成每个语音信号样本对应的多个原始语音特征块。

在步骤S803中，确定与每个原始语音特征块对应的标注文本子序列。

具体地，传统的speech transformer标注序列的处理方法为：当标注文本序列作为解码器的输入时，在标注文本序列的开头增加<sos>符号作为一句话的开头。当标注文本序列作为target(目标序列)计算损失时，在标注文本序列的结尾增加<eos>作为一句话的结束。标注文本序列中每个字符用512维的向量表示。示例性地，训练数据是一句语音信号样本和一句标注的文本的数据对。假如一句语音信号样本的时长为10s，经过处理后得到原始语音特征序列，例如[1,197，320]的一个向量表示。[1,197，320]表示语音信号样本有197帧，每一帧用320维的向量表示。将该[1,197,320]的原始语音特征序列作为编码器的输入。语音信号样本的标注为“今天天气很好”，那么解码器的输入为“<sos>今天天气很好”，每一字转成512维的向量后，解码器的输入是[1,7,512]。计算损失时，采用的target序列为“今天天气很好<eos>”的向量表示。

而对于本实施例中的流式speech transformer标注序列的处理方法则为：采用混合模型根据原始语音特征序列和标注文本序列获得汉字与原始语音特征序列直接的对齐关系，即每一个汉字对应原始语音特征序列的几帧，例如：今15，天17，天18，气11等。然后根据步骤S802中划分原始语音特征序列的方式，确定每个原始语音特征块对应的标注文本子序列，并按照传统speech transformer的标注方法增加开始和结束符号。

在步骤S804中，确定每个语音信号样本对应的多个原始语音特征块中的每帧原始语音特征，与历史时间段中的每帧原始语音特征的相似度。

在步骤S805中，根据相似度，生成与每帧原始语音特征对应的每帧目标语音特征。

在步骤S806中，根据每帧目标语音特征，生成每个语音信号样本对应的多个目标语音特征块。

具体地，对于步骤S804-S806中描述的编码过程可以参考图4和图5对应的实施例。继续参考上述举例，将[1,197,320]的原始语音特征序列输入至编码器，可以得到[1,197,320]的目标语音特征序列。

在步骤S807中，根据每个目标语音特征块以及对应的标注文本子序列，生成每个目标语音特征块对应的预测文本子序列。

关于采用解码器得到预测文本子序列的具体过程，可以参考图6和图7对应的实施例，在此不做具体说明。

在步骤S808中，采用预设的损失函数，根据预测文本序列对待训练的语音特征模型进行训练，直至达到收敛条件后，对待训练的语音特征模型继续进行训练，直至获取的字错误率满足预设值，停止对待训练的语音识别模型的训练，生成语音识别模型。

进一步地，在本实施例中，当训练准确率达到一定值后，可以将当前时刻解码器已输出的预测文本序列和对应的标注文本子序列以一定的概率进行采样，作为下一时刻解码器的输入。即，对于每个block，解码器的输入包括三部分：编码器输出的目标语音特征块、标注文本子序列和解码器上一时刻已输出的预测文本子序列。通过在模型输出的预测序列和标注序列之间进行采样，能有效缓解训练和测试不匹配导致的错误累积问题。

本公开提供的语音识别方法，可以应用于如图9所示的应用环境中。该应用环境包括语音采集装置910、终端920和服务器930。语音采集装置910可以内嵌在终端920中，也可以是单独的设备。语音采集装置910采集用户输入的待识别的语音信号，并将待识别的语音信号实时发送至服务器930。服务器930中部署有训练好的流式语音识别系统，包括特征提取块和语音识别模型。特征提取块用于实时对接收到的待识别语音信号进行特征提取，得到对应的待识别语音特征序列。语音识别模型用于对待识别语音特征序列进行处理，得到语音识别结果。在得到语音识别结果后，服务器930还可以将语音识别结果通过网络发送给终端920进行展示。本实施例中，对于流式的语音识别场景，语音识别模型可以采用上述任一项的语音识别模型的生成方法得到。具体地，服务930获取待识别语音信号对应的待识别语音特征序列；当获取当前已输入的待识别语音特征序列的时间长度满足阈值时，则采用上述任一项的语音识别模型的生成方法的语音识别模型，对当前已输入的待识别语音特征序列进行识别，得到语音识别结果。其中，终端920可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便捷式移动设备，服务器930可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图10是根据一示例性实施例示出的一种语音识别模型的生成方法的流程图。如图10所示，语音识别方法可以应用于终端920中，也可以应用于服务器930中。以应用于服务器930为例，包括以下步骤。

在步骤S1010中，获取待识别语音信号对应的待识别语音特征序列。

在步骤S1020中，判断当前已输入的待识别语音特征序列的时间长度是否满足阈值。

在步骤S1030中，当获取当前已输入的待识别语音特征序列的时间长度满足阈值时，则采用上述第一方面任一项实施例中得到的语音识别模型，对当前已输入的待识别语音特征序列进行识别，得到语音识别结果。

其中，待识别语音特征序列的时间长度可以使用帧数表征，或者时间单位(例如秒)表征。具体地，在接收到待识别语音信号后，采用特征提取网络对待识别语音信号进行特征提取，得到待识别语音信号对应的待识别语音特征序列。对待识别语音信号进行特征提取的方式可以参考图2对应的实施例说明，在此不做具体阐述。服务器检测已输入的待识别语音特征序列的时间长度。当判断当前已输入的待识别语音特征序列的时间长度满足阈值时，则将已输入的待识别语音特征序列输入至语音信号模型进行识别。

语义信号模型中的编码器对待识别语音特征序列进行处理，得到对应的多个待识别语音特征块。语义信号模型中的解码器分别对每个待识别语音特征块进行处理，得到每个待识别语音特征块对应的语音识别结果。编码器和解码器的具体处理过程可以参考图4至图7对应的实施例，在此不做具体阐述。服务器实时获取已识别得到的语音识别结果，并将该语音识别结果发送至终端，使得终端用户能够及时获取已输入的语音信号的语音识别结果。

上述语音识别方法中，采用基于划分好的特征块训练得到的语音识别模型，使得语音识别不再依赖整句输入，能够有效应用于流式的场景。通过采用端到端的流式语音识别模型，计算效率高且资源消耗少。

应该理解的是，虽然图1-10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-10中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图11是根据一示例性实施例示出的一种语音识别模型的生成装置1100框图。参照图11，该装置包括特征划分模块1101、预测文本序列生成模块1102和模型训练模块1103。

特征划分模块1101，被配置为执行对多个语音信号样本各自对应的原始语音特征序列进行划分，生成每个语音信号样本对应的多个原始语音特征块；

预测文本序列生成模块1102，被配置为执行采用待训练的语音识别模型对每个语音信号样本对应的多个原始语音特征块分别进行识别，得到每个语音信号样本的预测文本序列；

模型训练模块1103，被配置为执行根据每个语音信号样本对应的预测文本序列，对待训练的语音识别模型进行训练，直至达到预设停止条件，生成语音识别模型。

在一示例性实施例中，预测文本序列生成模块1102，包括：

在一示例性实施例中，编码模块，包括：

在一示例性实施例中，所述装置还包括：第一获取模块，被配置为执行获取每个目标语音特征块对应的标注文本子序列；

在一示例性实施例中，解码模块，还被配置为执行：

在一示例性实施例中，所述装置还包括：第二获取模块，被配置为执行获取预设的每个原始语音特征块的帧数；

特征划分模块1101，被配置为执行根据每个原始语音特征块的帧数，对原始语音特征序列进行划分，生成多个原始语音特征块。

在一示例性实施例中，模型训练模块1103，被配置为执行：

图12是根据一示例性实施例示出的一种语音识别装置框图。参照图12，该装置包括第三获取模块1201、时间长度获取模块1202和语音识别模块1203。其中：

第三获取模块1201，被配置为执行获取待识别语音信号对应的待识别语音特征序列；

时间长度获取模块1202，被配置为执行获取当前已输入的待识别语音特征序列的时间长度；

语音识别模块1203，被配置为执行当获取当前已输入的待识别语音特征序列的时间长度满足阈值时，则采用如上第一方面任一项实施例中得到的语音识别模型，对当前已输入的待识别语音特征序列进行识别，得到语音识别结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13是根据一示例性实施例示出的一种用于语音识别模型的生成或者语音识别的电子设备1300的框图。例如，电子设备1300可以为一服务器。参照图13，电子设备1300包括处理组件1320，其进一步包括一个或多个处理器，以及由存储器1322所代表的存储器资源，用于存储可由处理组件1320的执行的指令，例如应用程序。存储器1322中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1320被配置为执行指令，以执行上述语音识别模型的生成方法或者语音识别方法。

电子设备1300还可以包括一个电源组件1324被配置为执行电子设备1300的电源管理，一个有线或无线网络接口1326被配置为将电子设备1300连接到网络，和一个输入输出(I/O)接口1328。电子设备1300可以操作基于存储在存储器1322的操作系统，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器1322，上述指令可由电子设备1300的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别模型的生成方法，其特征在于，包括：

采用待训练的语音识别模型对所述每个语音信号样本对应的多个原始语音特征块分别进行识别，得到所述每个语音信号样本的预测文本序列；

根据所述每个语音信号样本对应的预测文本序列，对所述待训练的语音识别模型进行训练，直至达到预设停止条件，生成语音识别模型。

2.根据权利要求1所述的语音识别模型的生成方法，其特征在于，所述采用待训练的语音识别模型对所述每个语音信号样本对应的多个原始语音特征块分别进行识别，得到所述每个语音信号样本的预测文本序列，包括：

对所述每个语音信号样本对应的多个原始语音特征块进行编码，得到所述每个语音信号样本对应的多个目标语音特征块；

对每个目标语音特征块进行解码，得到所述每个目标语音特征块对应的预测文本子序列；

根据所述每个目标语音特征块对应的预测文本子序列，生成所述每个语音信号样本的预测文本序列。

3.根据权利要求2所述的语音识别模型的生成方法，其特征在于，所述对所述每个语音信号样本对应的多个原始语音特征块进行编码，得到所述每个语音信号样本对应的多个目标语音特征块，包括：

确定所述每个语音信号样本对应的多个原始语音特征块中的每帧原始语音特征，与历史时间段中的每帧原始语音特征的相似度；

根据所述相似度，生成与所述每帧原始语音特征对应的每帧目标语音特征；

根据所述每帧目标语音特征，生成所述每个语音信号样本对应的多个目标语音特征块。

4.根据权利要求2所述的语音识别模型的生成方法，其特征在于，所述对每个目标语音特征块进行解码，得到所述每个目标语音特征块对应的预测文本子序列，包括：

获取所述每个目标语音特征块对应的标注文本子序列；

根据所述每个目标语音特征块以及对应的所述标注文本子序列，生成所述每个目标语音特征块对应的预测文本子序列。

5.根据权利要求4所述的语音识别模型的生成方法，其特征在于，所述根据所述每个目标语音特征块以及对应的所述标注文本子序列，生成所述每个目标语音特征块对应的预测文本子序列，包括：

根据编码后的所述标注文本子序列，以及对应的所述每个目标语音特征块进行相似度计算，生成所述每个目标语音特征块对应的预测文本子序列。

6.一种语音识别方法，其特征在于，包括：

获取待识别语音信号对应的待识别语音特征序列；

当获取当前已输入的所述待识别语音特征序列的时间长度满足阈值时，则

采用权利要求1～5中任一项得到的语音识别模型，对所述当前已输入的待识别语音特征序列进行识别，得到语音识别结果。

7.一种语音识别模型的生成装置，其特征在于，包括：

预测文本序列生成模块，被配置为执行采用待训练的语音识别模型对所述每个语音信号样本对应的多个原始语音特征块分别进行识别，得到所述每个语音信号样本的预测文本序列；

模型训练模块，被配置为执行根据所述每个语音信号样本对应的预测文本序列，对所述待训练的语音识别模型进行训练，直至达到预设停止条件，生成语音识别模型。

8.一种语音识别装置，其特征在于，包括：

时间长度获取模块，被配置为执行获取当前已输入的所述待识别语音特征序列的时间长度；

语音识别模块，被配置为执行当获取当前已输入的所述待识别语音特征序列的时间长度满足阈值时，则采用权利要求1～5中任一项得到的语音识别模型，对所述当前已输入的待识别语音特征序列进行识别，得到语音识别结果。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的方法。