CN116312480A

CN116312480A - 一种语音识别方法、装置、设备及可读存储介质

Info

Publication number: CN116312480A
Application number: CN202310126931.5A
Authority: CN
Inventors: 赵颖; 郏维强; 陈志伟; 马树楷
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-06-23

Abstract

本说明书公开了一种语音识别方法、装置、设备及可读存储介质，响应于流式语音识别请求，根据预设的时长，将连续接收的所述待识别音频数据，划分为待识别语音块，将各待识别语音块依次输入预训练的语音识别模型，通过特征提取子网得到第一语音特征，将该待识别语音块的第一语音特征和指定语音块的第一语音特征输入到特征编码子网，通过注意力编码层得到第一注意力得分和第二注意力得分，进而确定出该待识别语音块的第二语音特征，将第二语音特征输入解码器，确定该待识别语音块的预测文本。可见，通过特征编码子网中的注意力编码层确定第一注意力得分和第二注意力得分的方式，能够有效利用声学上下文的信息，提高文本预测的准确性。

Description

一种语音识别方法、装置、设备及可读存储介质

技术领域

本说明书涉及计算机技术领域，尤其涉及一种语音识别方法、装置、设备及可读存储介质。

背景技术

随着人工智能的发展，人机交互领域越来越受到人们的关注。其中，将语音信号识别为相应的文本的语音识别技术已经被广泛应用在智能客服、无人驾驶、智能家居等场景中。

目前，可以采用流式语音识别的方案，在处理语音信号过程中实时返回识别结果，以满足如会议实时记录、直播实时字幕等场景中需要实时获取识别结果的需求。

但是，现有的端到端的流式语音识别方案中无法有效利用声学上下文的信息，导致识别出的文本准确性低。

发明内容

本说明书提供一种语音识别方法、装置、设备及可读存储介质，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种语音识别方法，语音识别模型包括语音特征编码器和解码器，所述语音特征编码器包括特征提取子网和特征编码子网，所述方法包括：

响应于流式语音识别请求，连续接收待识别音频数据；

根据预设的时长，将连续接收的所述待识别音频数据，划分为待识别语音块；

按照待识别语音块划分的先后顺序，针对每个待识别语音块，将该待识别语音块输入预先训练的语音识别模型，通过所述特征提取子网，确定所述待识别语音块的第一语音特征；

确定该待识别语音块的上一已识别语音块，作为指定语音块；

将该待识别语音块的第一语音特征和所述指定语音块的第一语音特征作为输入，输入所述特征编码子网，通过所述特征编码子网中的注意力编码层，确定所述待识别语音块的第一语音特征中各维特征之间的第一注意力得分，以及所述指定语音块的第一语音特征与所述待识别语音块的第一语音特征之间的第二注意力得分；

根据所述第一注意力得分、所述第二注意力得分、所述指定语音块的第一语音特征和所述待识别语音块的第一语音特征，确定所述待识别语音块的第二语音特征；

将所述待识别语音块的第二语音特征输入所述解码器，得到所述待识别语音块对应的预测文本作为所述待识别语音块的识别结果。

可选，所述语音识别模型还包括纠正器；

将所述待识别语音块的第二语音特征输入所述解码器，具体包括：

将所述待识别语音块的第二语音特征输入所述解码器，得到所述待识别语音块对应的各预测文本，以及所述各预测文本的第一概率；

根据所述待识别音频数据包含的各待识别语音块的各预测文本，以及所述各预测文本的第一概率，确定所述待识别音频数据对应的各候选文本；

将所述待识别音频数据对应的各候选文本以及所述各待识别语音块的第二语音特征输入所述纠正器，得到所述纠正器输出的所述待识别音频数据对应的各候选文本的第二概率；

根据所述第一概率和所述第二概率，从所述各候选文本中选择所述待识别音频数据对应的预测文本作为所述待识别音频数据的识别结果。

可选地，确定所述待识别音频数据对应的各候选文本之前，所述方法还包括：

根据所述各预测文本的第一概率，从所述待识别语音块对应的各预测文本中选择目标文本，作为所述待识别语音块的识别结果；

将所述待识别语音块的识别结果返回给所述流式语音识别请求对应的用户。

可选地，所述方法还包括：

根据所述待识别音频数据对应的预测文本，纠正返回给所述用户的所述各待识别语音块的识别结果。

可选地，预先训练所述语音特征编码器，具体包括：

预先获取无文本标注的音频数据，并按照预设的时长，将所述音频数据分为若干语音块；

针对每个语音块，将该语音块输入到待训练的语音特征编码器，通过所述语音特征编码器中的特征提取子网，确定该语音块的第一语音特征；

根据该语音块的第一语音特征和该语音块之前的若干语音块的第一语音特征，确定该语音块对应的参考语音特征；

将该语音块对应的参考语音特征输入所述语音特征编码器中的特征编码子网，得到所述特征编码子网输出的将该语音块的第二语音特征；

以该语音块的参考语音特征和该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器。

可选地，根据该语音块的第一语音特征和该语音块之前的若干语音块的第一语音特征，确定该语音块对应的参考语音特征，具体包括：

将该语音块对应的第一语音特征中的若干特征进行遮蔽；

将遮蔽后的该语音块的第一语音特征和该语音块之前的若干语音块的第一语音特征进行融合，得到该语音块对应的参考语音特征。

可选地，所述语音特征编码器还包括量化子网；

以将该语音块的第一语音特征和将该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器，具体包括：

将该语音块的第一语音特征输入所述量化子网，得到该语音块的量化语音特征；

以该语音块的量化语音特征和该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器。

可选地，将该语音块的第一语音特征输入所述量化子网，得到该语音块的量化语音特征，具体包括：

获取预先确定的多个码本；

确定各码本中与该语音块的第一语音特征对应的目标特征；

将该语音块的第一语音特征中与所述目标特征对应的特征替换为所述目标特征，得到该语音块的量化语音特征。

可选地，以该语音块的量化语音特征和该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器，具体包括：

根据该语音块的量化语音特征和该语音块的第二语音特征之间的相似度，确定该语音块的第一损失；

将该语音块的第一语音特征映射到所述各码本，得到该语音块的干扰量化特征；

根据该语音块的第二语音特征和该语音块的干扰量化特征之间的相似度，以及该语音块的量化语音特征和该语音块的干扰量化特征之间的差异确定该语音块的第二损失；

获取所述第一损失的第一权重和所述第二损失的第二权重；

根据所述第一权重和所述第二权重分别对各语音块的第一损失和各语音块第二损失加权，得到总损失；

以所述总损失的最小化为训练目标，训练所述语音特征编码器。

可选地，预先训练所述解码器，具体包括：

获取带文本标注的音频数据作为训练样本，以所述文本标注作为所述训练样本的标注；

将所述训练样本输入训练完成的语音特征编码器，得到所述训练样本的语音特征；

将所述训练样本的语音特征输入所述解码器，得到所述训练样本的第一预测文本；

以所述第一预测文本和所述训练样本的标注之间的差异的最小化为优化目标，调整所述解码器的参数。

可选地，所述语音识别模型还包括纠正器；

以所述第一预测文本和所述训练样本的标注之间的差异的最小化为优化目标，调整所述解码器的参数，具体包括：

将所述训练样本的语音特征和所述训练样本的标注输入所述纠正器，得到所述纠正器输出的所述训练样本的第二预测文本；

以所述第一预测文本和所述训练样本的标注之间的差异的最小化，和所述第二预测文本和所述训练样本的标注之间的差异的最小化为优化目标，调整所述解码器以及所述纠正器的参数。

本说明书提供了一种语音识别装置，语音识别模型包括语音特征编码器和解码器，所述语音特征编码器包括特征提取子网和特征编码子网，所述装置包括：

接收模块，用于响应于流式语音识别请求，连续接收待识别音频数据；

划分模块，用于根据预设的时长，将连续接收的所述待识别音频数据，划分为待识别语音块；

第一语音特征确定模块，用于按照待识别语音块划分的先后顺序，针对每个待识别语音块，将该待识别语音块输入预先训练的语音识别模型，通过所述特征提取子网，确定所述待识别语音块的第一语音特征；

指定语音块确定模块，用于确定该待识别语音块的上一已识别语音块，作为指定语音块；

注意力确定模块，用于将该待识别语音块的第一语音特征和所述指定语音块的第一语音特征作为输入，输入所述特征编码子网，通过所述特征编码子网中的注意力编码层，确定所述待识别语音块的第一语音特征中各维特征之间的第一注意力得分，以及所述指定语音块的第一语音特征与所述待识别语音块的第一语音特征之间的第二注意力得分；

第二语音特征确定模块，用于根据所述第一注意力得分、所述第二注意力得分、所述指定语音块的第一语音特征和所述待识别语音块的第一语音特征，确定所述待识别语音块的第二语音特征；

解码模块，用于将所述待识别语音块的第二语音特征输入所述解码器，得到所述待识别语音块对应的预测文本作为所述待识别语音块的识别结果。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音识别方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述语音识别方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

本说明书提供的语音识别方法中，响应于流式语音识别请求，根据预设的时长，将连续接收的所述待识别音频数据，划分为待识别语音块，将待识别语音块按照划分的先后顺序依次输入预训练的语音识别模型，通过特征提取子网得到第一语音特征，将该待识别语音块的第一语音特征和该待识别语音块的指定语音块的第一语音特征输入到特征编码子网，通过注意力编码层得到第一注意力得分和第二注意力得分，进而确定出该待识别语音块的第二语音特征，将第二语音特征输入解码器，确定该待识别语音块的预测文本。可见，通过特征编码子网中的注意力编码层确定第一注意力得分和第二注意力得分的方式，能够有效利用声学上下文的信息，提高文本预测的准确性。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附

图中：

图1为本说明书中一种语音识别方法的流程示意图；

图2为本说明书中一种语音识别模型的示意图；

图3为本说明书中一种语音识别模型的示意图；

图4为本说明书中一种语音识别方法的流程示意图；

图5为本说明书中一种语音识别方法的流程示意图；

图6为本说明书中一种语音识别方法的流程示意图；

图7为本说明书提供的一种语音识别装置的示意图；

图8为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

另外，需要说明的是，本发明中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

语音识别技术旨在将声音信号自动转换为相应的文本内容，其是人机交互中的重要入口，已经被广泛应用于智能客服、无人驾驶、智能家居、军事通信等各类场景。

随着深度学习的发展，各种各样的端到端语音识别技术逐渐被提出，克服了传统方法中的模块化设计和独立性假设，越来越成为学术界和工业界的热门研究对象。

从应用场景上，语音识别可以划分为流式语音识别和非流式语音识别。流式语音识别是指可以在处理用户声音信号过程中实时返回识别结果，而非流式语音识别必须在处理完整句音频后才能返回结果。流式语音识别具有低延时的特点，可以满足如会议实时记录、直播实时字幕等场景中需要实时获取识别结果的需求，也能提高人机语音交互过程中用户体验。然而，相比于非流式语音识别，流式语音识别中有限的声学上下文信息限制了其识别准确度。因此，如何提高在流式语音识别中有效利用声学上下文信息，提高流式语音识别的准确度成为亟待解决的问题。

基于此，本说明书提供一种语音识别方法，通过在语音特征编码器中部署包含注意力编码层的特征编码子网的方式，根据待识别语音块的第一语音特征和指定语音块的第一语音特征确定第一注意力得分和第二注意力得分的方式，能够有效利用声学上下文的信息，提高文本预测的准确性。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书提供的一种语音识别方法的流程示意图。

S100：响应于流式语音识别请求，连续接收待识别音频数据。

本说明书实施例中提供一种语音识别方法，其中涉及到的语音识别模型可以是经预先训练得到的。语音识别方法的执行过程可由用于处理音频数据得到文本的服务器等电子设备执行该语音识别方法。执行语音识别模型的训练过程的电子设备与执行语音识别方法的电子设备可以相同也可以不同，本说明书对此不做限定。

一般的，语音识别可以分为流式语音识别和非流式语音识别。非流式语音识别(离线识别)是指语音识别模型在接收到完整的待识别音频数据再进行识别，而流式语音识别则是指语音识别模型在连续接收待识别音频数据的同时就同步进行语音识别。流式语音识别因为其延时低的特点，在工业界中有着广泛的应用，例如听写转录、同声传译等。

在本说明书实施例中，以语音识别模型能够进行流式语音识别为例，对具体的技术方案进行详细说明。

S102：根据预设的时长，将连续接收的所述待识别音频数据，划分为待识别语音块。

将连续接收的待识别音频数据，按照预设的时长和音频数据的接收顺序把音频数据中若干相邻帧划分为一个语音块，之后分语音块进行语音识别处理。这种方法的优点是可以快速地进行训练和解码，降低语音识别的时延，能够较好的适应于需要快速得到文本的应用场景。

但基于语音块的流式语音识别方式存在一个问题，那就是由于各语音块之间没有联系，无法合理利用音频数据的上下文信息，导致语音识别的准确率不佳。为此，在本说明书实施例中提供的语音识别模型中，通过在语音特征编码器中部署注意力编码层的方式，充分利用不同语音块之间的关系得到音频数据之间的上下文信息，以提高流式语音识别的准确率。

S104：按照待识别语音块划分的先后顺序，针对每个待识别语音块，将该待识别语音块输入预先训练的语音识别模型，通过所述特征提取子网，确定所述待识别语音块的第一语音特征。

具体的，本说明书实施例中提供的语音识别模型的模型结构可以如图2所示，语音识别模型至少包括语音特征编码器和解码器，所述语音特征编码器包括特征提取子网和特征编码子网，在特征编码子网中还部署有注意力编码层。其中，语音特征编码器用于从输入的语音块中提取语音特征，解码器用于根据语音特征编码器输出的语音块的语音特征预测语音块对应的文本。

一般的，待识别语音块划分的先后顺序可以为待识别语音块包含的多帧待识别音频数据的接收顺序，也即，先接收到的多帧待识别音频数据所在的待识别语音块的划分顺序，先于后接收到的多帧待识别音频数据所在的待识别语音块。为了提高流式语音识别的识别速度，每接收到预设时长的待识别音频数据，即将其作为待识别语音块输入到语音识别模型中。

在语音识别模型中，语音特征编码器与解码器串联，即语音特征编码器的输出为解码器的输入；在语音特征编码器中，特征提取子网与特征编码子网串联，即特征提取子网的输出为特征编码子网的输入。因此，将待识别语音块输入语音识别模型中，会先经过语音特征编码中的特征提取子网，由特征提取子网输出待识别语音块的第一语音特征。

可选的，特征提取子网可以由卷积网络构成，具体可以为两层卷积核大小为3×3步长为2的二维卷积网络，其激活函数采用Relu函数，并在最后还包含一层输出大小为模型维度的全连接层。特征提取子网用于对输入的待识别语音块进行声学特征降采样，并对声学特征建模，从而得到待识别语音块的第一语音特征。

S106：确定该待识别语音块的上一已识别语音块，作为指定语音块。

进一步的，为了在语音特征编码器中就利用音频数据中的声学上下文信息，提高语音特征提取的准确性，在本说明书实施例中，输入到特征编码子网中的除了当前的该待识别语音块，还可以包括该待识别语音块之前的已识别语音块，以便得到该待识别语音块的特征与该待识别语音块的之前的已识别语音块的特征之间的关系，从而提取连续多个语音块的特征之间的声学上下文信息。

由此，在本说明书实施例中，确定该待识别语音块的上一已识别语音块作为该待识别语音块的指定语音块。当然，根据具体的应用场景，还可以确定该待识别语音块之前的若干已识别语音块作为该待识别语音块的指定语音块，如该待识别语音块之间的两个已识别语音块作为该待识别语音块的指定语音块，本说明书对此不做限定。

另外，需要说明的是，所谓该待识别语音块的上一已识别语音块指的是，按照语音块的划分顺序，划分时机比该待识别语音块靠前的语音块，在该待识别语音块输入到预训练的语音识别模型，必然会输入到语音识别模型中，因此，该待识别语音块之前的语音块均为已识别语音块。例如，划分语音块的预设时长为2秒，则0～2秒的语音块是2～4秒的语音块的上一已识别语音块。

可选的，已识别语音块输入到语音识别模型得到的每一种子网或每一种层输出的中间结果和预测文本，如特征提取子网输出的第一语音特征、特征编码子网输出的第二语音特征、解码器输出的预测文本等，均可存储在数据库中，并建立语音块与中间结果和预测文本之间的对应关系，以便需要使用已识别语音块的中间结果或者预测文本时，直接从数据库中提取即可，无需再次经过语音识别模型输出，降低语音识别的时延。

S108：将该待识别语音块的第一语音特征和所述指定语音块的第一语音特征作为输入，输入所述特征编码子网，通过所述特征编码子网中的注意力编码层，确定该待识别语音块的第一语音特征中各维特征之间的第一注意力得分，以及所述指定语音块的第一语音特征与该待识别语音块的第一语音特征之间的第二注意力得分。

具体的，特征编码子网可以是包含若干层Conformer编码层的神经网络，每层Conformer编码层由前馈网络、块多头局部自注意力机制和不关注右侧上下文的因果卷积构成，用于建模从特征提取子网输出的第一语音特征的上文依赖关系，输出第二语音特征。

具体的，在特征编码子网中部署的注意力编码层，即为上述块多头局部自注意力机制的编码层，其引入相对位置编码的块多头局部自注意力机制，将该待识别语音快的第一语音特征和指定语音块的第一语音特征输入到注意力编码层中，可以确定该待识别语音块的第一语音特征中块内各维特征之间的第一注意力得分，以及该待识别语音块的第一语音特征当前块只能与前一个块计算注意力分数。其中，第一注意力得分可以表征该待识别语音块的第一语音特征中各维特征之间的相关关系，第二注意力得分可以表征该待识别语音块的第一语音特征和指定语音块的第一语音特征之间的相关关系。

具体的，用于表征该待识别语音块的第一语音特征中各维特征之间的相关关系的第一注意力得分可以通过该待识别语音块的第一语音特征中各维特征之间的相似度确定，同理，用于表征该待识别语音块的第一语音特征和指定语音块的第一语音特征之间的相关关系的第二注意力得分可以通过该待识别语音块的第一语音特征和指定语音块的第一语音特征之间的相似度确定。当然，还可以采用其他现有的注意力得分确定方式，本说明书对此不做限定。

S110：根据所述第一注意力得分、所述第二注意力得分、所述指定语音块的第一语音特征和该待识别语音块的第一语音特征，确定该待识别语音块的第二语音特征。

通过在特征编码子网中引入注意力编码层的方式，确定第一注意力得分和第二注意力的粉，不仅能够充分利用该待识别语音块的块内特征的声学信息，还能够利用指定语音块这一该待识别语音块的上一已识别语音块的特征的上文声学信息，有效利用了流式音频数据中的声学上文信息，提高了语音识别的准确性。

S112：将该待识别语音块的第二语音特征输入所述解码器，得到该待识别语音块对应的预测文本作为该待识别语音块的识别结果。

本说明书提供的语音识别方法中，响应于流式语音识别请求，根据预设的时长，将连续接收的所述待识别音频数据，划分为待识别语音块，将待识别语音块按照划分的先后顺序依次输入预训练的语音识别模型，通过特征提取子网得到第一语音特征，将该待识别语音块的第一语音特征和该待识别语音块的指定语音块的第一语音特征输入到特征编码子网，通过注意力编码层得到第一注意力得分和第二注意力得分，进而确定出该待识别语音块的第二语音特征，将第二语音特征输入解码器，确定该待识别语音块的预测文本。可见，通过在语音特征编码器中部署包含注意力编码层的特征编码子网的方式，根据待识别语音块的第一语音特征和指定语音块的第一语音特征确定第一注意力得分和第二注意力得分的方式，能够有效利用声学上下文的信息，提高文本预测的准确性。

在本说明书一个或多个实施例中，为了进一步提高声学上下文信息的利用率，还可以在语音识别模型中部署纠正器，通过纠正器对各待识别语音块的预测文本重新打分，对待识别语音块的预测文本进行纠正，得到更为准确的流式语音识别结果，此时，基于图2所示的语音识别模型，再部署纠正器后，语音识别模型可以如图3所示。

由此，在如图1步骤S112所示将该待识别语音块的第二语音特征输入所述解码器中，当语音识别模型还包括纠正器的情况下，具体步骤如下，如图4所示：

S200：将所述待识别语音块的第二语音特征输入所述解码器，得到所述待识别语音块对应的各预测文本，以及所述各预测文本的第一概率。

具体的，将语音特征编码器输出的该待识别语音块的第二语音特征输入解码器，通过在解码器中采用集束搜索算法进行流式解码，得到各预测文本作为流式解码结果，并得到各预测文本的第一概率。

可选的，可以通过预先设置词表的方式，通过解码器中分类的方式，确定该待识别语音块的第二语音特征对应于所述词表中包含的每个字的概率，然后，通过集束搜索算法确定出多个预测文本，并根据各预测文本包含的各字以及每个字的概率，确定各预测文本的第一概率。其中，预测文本的数量可以是预先设置的数量，可根据具体的应用场景确定，本说明书对此不做限定。

S202：根据所述待识别音频数据包含的各待识别语音块的各预测文本，以及所述各预测文本的第一概率，确定所述待识别音频数据对应的各候选文本。

由于流式语音识别是将接收待识别音频数据和语音识别同步进行的，当接收完本段待识别音频数据后，可以得到本段待识别音频数据对应的各语音块，此时，本段待识别音频数据对应的各语音块均输入到语音识别模型中，分别得到了各待识别语音块的各预测文本。此时可以根据各待识别语音块的各预测文本分别对应的第一概率，将每个待识别语音块的各预测文本中第一概率较高的若干预测文本作为该待识别语音块的候选，遍历待识别音频数据中各待识别语音块，得到待识别音频数据对应的各候选文本。

S204：将所述待识别音频数据对应的各候选文本以及所述各待识别语音块的第二语音特征输入所述纠正器，得到所述纠正器输出的所述待识别音频数据对应的各候选文本的第二概率。

具体的，将待识别音频数据对应的各候选文本的开头均添加一个开始标记，然后将添加了开始标记的各候选文本和前述语音特征编码器输出的各待识别语音块的第二语音特征共同作为输入，输入到训练后的纠正器中，通过纠正器预测包含结束标记不包含开始标记的各候选文本，并将各候选文本的每个位置的条件概率求和，得到各候选文本的第二概率。

S206：根据所述第一概率和所述第二概率，从所述各候选文本中选择所述待识别音频数据对应的预测文本作为所述待识别音频数据的识别结果。

进一步的，联合各候选文本的第二概率和待识别音频数据包含的各待识别语音块对应的各预测文本的第一概率，确定各候选文本的总概率，并将总概率最高的候选文本作为待识别音频数据对应的预测文本。

可选的，还可以分别确定第一概率的权重和第二概率的权重，并根据第一概率的权重和第二概率的权重进行加权求和得到总概率。具体的权重可以是个根据具体的应用场景预先确定的，本说明书对此不做限定。

基于如图4所示的语音识别方法，通过在语音识别模型中部署纠正器，将待识别音频数据包含的各待识别语音块对应的各候选文本以及各待识别语音块的第二语音特征输入纠正器，得到纠正器输出的待识别音频数据对应的各候选文本的第二概率，进而根据各待识别语音块的各预测文本的第一概率和各候选文本的第二概率，从各候选文本中选择待识别音频数据的预测文本作为待识别音频数据的识别结果。可见，通过纠正器取额定待识别音频数据对应的各候选文本的第二概率的方式，实现了对各待识别语音块的预测文本的重新打分，对待识别语音块的预测文本进行纠正，得到更为准确的流式语音识别结果。

在本说明书一个或多个实施例中，在如图4步骤S204所示确定所述待识别音频数据对应的各候选文本之前，还可以确定待识别语音块的识别结果，并返回给流式语音识别请求对应的用户，以提高流式语音识别的效率和可视化，具体通过以下方案确定：

首先，根据所述各预测文本的第一概率，从所述待识别语音块对应的各预测文本中选择目标文本，作为所述待识别语音块的识别结果。

其次，将所述待识别语音块的识别结果返回给所述流式语音识别请求对应的用户。

具体的，在流式语音识别的应用场景中，其中需要流式语音识别能够输出实时的音频解码文本，为了降低语音识别的延时情况，提高语音识别文本展示的实时性，可以将每个待识别语音块的各预测文本中，第一概率最大的预测文本作为待识别语音块的识别结果返回给流式语音识别请求对应的用户，可以通过展示文本的方式向用户展示每个待识别语音块的识别结果。通过实时返回并展示的方式，能够使得用户实时观察到语音的识别结果，降低语音识别的延时情况。

进一步的，在本说明书一个可选的实施例中，在如图4步骤S208所示确定待识别音频数据的识别结果之后，还可以将待识别音频数据的识别结果返回给用户，以便纠正上述方案中返回给用户的各待识别语音块的识别结果。

例如，语音识别模型连续接收到的待识别音频数据分为了三个待识别语音块，这三个待识别语音块分别对应的各预测文本中第一概率最高的预测文本分别是：“今天”、“天空”、“晴好”，于是，在语音识别模型分别得到上述预测文本的时候就依次将这三个预测文本返回给用户，此时，用户所能够观察到的本段待识别音频数据对应的预测文本依次是“今天”、“天空”、“晴好”。然后，在结束本段待识别音频数据包含的所有待识别语音块的预测文本的输出之后，通过纠正器对各预测文本进行重新打分的过程中，得到本段待识别音频数据对应的识别结果实际上是“今天天气晴朗”，此时，可以将待识别音频数据对应的识别结果也返回给用户，以待识别音频数据对应的识别结果为正确的识别结果，纠正之前返回并展示给用户的各待识别语音块的识别结果，即采用“今天天气晴朗”纠正“今天”、“天空”、“晴好”。

在本说明书一个或多个实施例中，如图1步骤S104所示按照待识别语音块划分的先后顺序，针对每个待识别语音块，将该待识别语音块输入预先训练的语音识别模型之前，需要对语音识别模型进行预训练，具体步骤如下，如图5所示：

S300：预先获取无文本标注的音频数据，并按照预设的时长，将所述音频数据分为若干语音块。

随着深度学习的发展，各种各样的端到端语音识别技术逐渐被提出，克服了传统方法中的模块化设计和独立性假设，越来越成为学术界和工业界的热门研究对象。然而，基于深度学习的语音识别模型主要依赖于数据驱动式的优化训练，识别性能很大程度上取决于所拥有的标注训练数据量。在训练数据有限的情况下，语音识别往往不能达到理想的识别性能。

为了解决带有文本标注的训练样本数量有限的问题，本说明书实施例中的语音特征编码器可以采用自监督学习的方式训练得到，具体的，获取的音频数据可以是没有文本标注的音频数据。

由于本说明书提供的语音特征编码器需要应用在流式语音识别的应用场景中，因此，与流式语音识别的应用相同，将作为训练样本的音频数据按照预测的时长分为若干语音块。

此处的预设时长，可以与语音特征编码器应用时，待识别语音块对应的划分时长相同，也可以不同，本说明书对此不做限定。

S302：针对每个语音块，将该语音块输入到待训练的语音特征编码器，通过所述语音特征编码器中的特征提取子网，确定该语音块的第一语音特征。

具体的，特征提取子网可以由卷积网络构成，具体可以为两层卷积核大小为3×3步长为2的二维卷积网络，其激活函数采用Relu函数，并在最后还包含一层输出大小为模型维度的全连接层。特征提取子网用于对输入的语音块进行声学特征降采样，并对声学特征建模，从而得到语音块的第一语音特征。

S304：根据该语音块的第一语音特征和该语音块之前的若干语音块的第一语音特征，确定该语音块对应的参考语音特征。

进一步的，为了在语音特征编码器的训练过程中就利用音频数据中的声学上下文信息，提高语音特征提取的准确性，在本说明书实施例中，输入到特征编码子网中的除了当前的语音块，还可以包括该语音块之前的语音块，以便得到该语音块的特征与该语音块的之前的语音块的特征之间的关系，从而提取连续多个语音块的特征之间的声学上下文信息。

其中，该语音块之前的若干语音块的数量可以根据具体的应用场景确定，至少为一个，本说明书对此不做先具体的限定。

S306：将该语音块对应的参考语音特征输入所述语音特征编码器中的特征编码子网，得到所述特征编码子网输出的将该语音块的第二语音特征。

S308：以该语音块的参考语音特征和该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器。

进一步地，在本说明书一个或多个实施例中，在如图5步骤S304所示根据该语音块的第一语音特征和该语音块之前的若干语音块的第一语音特征，确定该语音块对应的参考语音特征，具体通过下述方案实现：

将该语音块对应的第一语音特征中的若干特征进行遮蔽，将遮蔽后的该语音块的第一语音特征和该语音块之前的若干语音块的第一语音特征进行融合，得到该语音块对应的参考语音特征。

在特征编码子网中，可将该语音块对应的第一语音特征中的若干特征进行遮蔽，该若干特征可以是连续的若干特征，也可以是不连续的若干特征，本说明书对此不做限定。通过遮蔽后的该语音块的第一语音特征和该语音块之间的若干语音块的语音特征进行拼接融合，得到的该语音块对应的参考语音特征，是的在后续根据该语音块对应的参考语音特征和该语音块对应的第二语音特征之间的差异训练语音特征编码器时，可以以预测被遮蔽部分的特征为目标进行训练。

进一步地，在本说明书一个或多个实施例中，在如图5步骤S308所示以该语音块的参考语音特征和该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器中，可以在语音特征编码器中部署量化子网的方式，在确定出语音块的参考语音特征之后，就基于量化子网得到语音块的量化语音特征，进而根据量化语音特征和第二语音特征训练语音特征编码器，具体方案如下：

首先，获取预先确定的多个码本。

其次，确定各码本中与该语音块的参考语音特征对应的目标特征。

然后，将该语音块的参考语音特征中与所述目标特征对应的特征替换为所述目标特征，得到该语音块的量化语音特征。

最后，以该语音块的量化语音特征和该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器。

进一步的，基于上述部署了量化子网的特征编码器，以该语音块的量化语音特征和该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器的过程中，可以根据语音块的量化语音特征和第二语音特征确定损失函数，进而以损失函数的最小化为训练目标，训练所述语音特征编码器，具体方案如下：

第一步：根据该语音块的量化语音特征和该语音块的第二语音特征之间的相似度，确定该语音块的第一损失。

该语音块的第一损失表征了语音特征编码器的其中一个训练目标为预测出被遮蔽部分特征量化特征值，该语音块的量化语音特征和该语音块的第二语音特征之间的相似度和第一损失之间的相关关系可以是负相关，即该语音块的量化语音特征和该语音块的第二语音特征之间的相似度的最大化对应于该语音块的第一损失的最小化。

第二步：将该语音块的第一语音特征映射到所述各码本，得到该语音块的干扰量化特征。

第三步：根据该语音块的第二语音特征和该语音块的干扰量化特征之间的相似度，以及该语音块的量化语音特征和该语音块的干扰量化特征之间的差异确定该语音块的第二损失。

该语音块的第二损失用于指示语音特征编码器的其中一个训练目标为语音特征编码器输出的第二语音特征与干扰量化特征的相似度尽量小，与量化语音特征之间的的相似度尽量大。该语音块的第二损失可以作为额外增加的多样性损失惩罚项。

第四步：获取所述第一损失的第一权重和所述第二损失的第二权重。

第五步：根据所述第一权重和所述第二权重分别对各语音块的第一损失和各语音块第二损失加权，得到总损失。

第六步：以所述总损失的最小化为训练目标，训练所述语音特征编码器。

更进一步的，在以自监督学习的方式对语音特征编码器训练完成之后，可基于训练后的语音特征编码器训练解码器，具体以下步骤实现，如图6所示：

S400：获取带文本标注的音频数据作为训练样本，以所述文本标注作为所述训练样本的标注。

具体的，在语音特征编码器以自监督学习的方式训练完成后，可以利用训练完成的语音特征编码器，以有监督学习的方式对解码器进行训练。由于语音特征编码器部分已经训练完成，语音特征编码器能够有效地从语音块中提取更高层次的声学特征，减少了下游任务，也就是解码器，对有标注训练数据量的依赖，所以此步骤所需要的带文本标注的训练样本的数量相比前述预训练过程所需音频数据的数据量大幅减少，减少获取带文本标注的音频数据的压力。

S402：将所述训练样本输入训练完成的语音特征编码器，得到所述训练样本的语音特征。

通常，训练完成的语音特征编码器无需确定语音量化特征，因此，在以训练完成的语音特征编码器训练编码器的过程中，以及语音特征编码器的应用过程中，均无需可去电语音特征编码器中的量化子网。

S404：将所述训练样本的语音特征输入所述解码器，得到所述训练样本的第一预测文本。

S406：以所述第一预测文本和所述训练样本的标注之间的差异的最小化为优化目标，调整所述解码器的参数。

将上述获得的训练样本的语音特征输入解码器，得到与训练样本的语音特征的特征个数相同的输出向量，每个输出向量的维度与词表大小相同，进而利用Softmax函数计算出文本概率分布向量，确定训练样本的第一预测文本，并以第一预测文本和训练样本的标注之间的差异确定损失，以损失的最小化为优化目标调整解码器的参数。

进一步的，基于如图4所示的描述，由语音特征编码器和解码器构成的语音识别模型中还可以部署纠正器，而纠正器也需要进行训练才能够进行语音识别，因此，纠正器可以与编码器联合训练，在如图6步骤S406所示以所述第一预测文本和所述训练样本的标注之间的差异的最小化为优化目标，调整所述解码器的参数的基础上，联合训练纠正器，具体方案如下：

首先，将所述训练样本的语音特征和所述训练样本的标注输入所述纠正器，得到所述纠正器输出的所述训练样本的第二预测文本。

将上述通过训练完成的语音特征编码器获得的训练样本的语音特征输入纠正器，同时将训练样本的标注也输入纠正器，使得纠正器以Teacher Forcing的方式输出训练样本的第二预测文本。

然后，以所述第一预测文本和所述训练样本的标注之间的差异的最小化，和所述第二预测文本和所述训练样本的标注之间的差异的最小化为优化目标，调整所述解码器以及所述纠正器的参数。

具体地，重打分纠正器采用Transformer的解码器构建，Transformer的解码器包含词嵌入计算模块、位置编码计算模块、多层Transformer解码层和一层全连接层。

其中，Transformer解码层由带遮蔽的自注意力机制、交叉注意力机制和前馈网络构成。在纠正器Teacher Forcing计算过程中，首先需要在作为输入的训练样本的标注中添加一个开始标记符号，然后通过词嵌入模块获得训练样本的标注的向量表示，进而将训练样本的标注的向量表示与其位置编码向量相加后输入到Transformer解码层，在解码层中进行遮蔽自注意力的计算及与训练样本的语音特征进行交叉注意力的计算，以便有效利用作为训练样本的音频数据的全局声学上下文信息。最终，经过全连接层后得到的向量维度与词表大小相同、向量个数与输入中添加了开始标记的训练样本的标注一样的输出向量，进而利用Softmax函数可以计算出输出向量在词表包含的各字上的文本概率分布向量，从而确定纠正器预测的包含了结束标记但不包含开始标记的第二预测文本。

进一步的，根据第一预测文本和训练样本的标注之间的差异确定第一损失，根据第二预测文本和训练样本的标注之间的差异确定第二损失，并获取第一损失的权重和第二损失的权重，分别对第一损失和第二损失进行加权，得到总损失。

进而，以总损失最小化为优化目标，调整解码器和纠正器的参数。

总损失中第一损失的权重和第二损失的权重可以是预先设置的，也可以是在调整解码器和纠正器的参数的同时进行调整的，本说明书对此不做限定。

图7为本说明书提供的一种语音识别装置示意图，语音识别模型包括语音特征编码器和解码器，所述语音特征编码器包括特征提取子网和特征编码子网，具体包括：

接收模块500，用于响应于流式语音识别请求，连续接收待识别音频数据；

划分模块502，用于根据预设的时长，将连续接收的所述待识别音频数据，划分为待识别语音块；

第一语音特征确定模块504，用于按照待识别语音块划分的先后顺序，针对每个待识别语音块，将该待识别语音块输入预先训练的语音识别模型，通过所述特征提取子网，确定所述待识别语音块的第一语音特征；

指定语音块确定模块506，用于确定该待识别语音块的上一已识别语音块，作为指定语音块；

注意力确定模块508，用于将该待识别语音块的第一语音特征和所述指定语音块的第一语音特征作为输入，输入所述特征编码子网，通过所述特征编码子网中的注意力编码层，确定所述待识别语音块的第一语音特征中各维特征之间的第一注意力得分，以及所述指定语音块的第一语音特征与所述待识别语音块的第一语音特征之间的第二注意力得分；

第二语音特征确定模块510，用于根据所述第一注意力得分、所述第二注意力得分、所述指定语音块的第一语音特征和所述待识别语音块的第一语音特征，确定所述待识别语音块的第二语音特征；

解码模块512，用于将所述待识别语音块的第二语音特征输入所述解码器，得到所述待识别语音块对应的预测文本作为所述待识别语音块的识别结果。

可选地，所述语音识别模型还包括纠正器；

可选地，所述解码模块512具体用于，将所述待识别语音块的第二语音特征输入所述解码器，得到所述待识别语音块对应的各预测文本，以及所述各预测文本的第一概率；根据所述待识别音频数据包含的各待识别语音块的各预测文本，以及所述各预测文本的第一概率，确定所述待识别音频数据对应的各候选文本；将所述待识别音频数据对应的各候选文本以及所述各待识别语音块的第二语音特征输入所述纠正器，得到所述纠正器输出的所述待识别音频数据对应的各候选文本的第二概率；根据所述第一概率和所述第二概率，从所述各候选文本中选择所述待识别音频数据对应的预测文本作为所述待识别音频数据的识别结果。

可选地，所述装置还包括：

第一返回模块514，具体用于根据所述各预测文本的第一概率，从所述待识别语音块对应的各预测文本中选择目标文本，作为所述待识别语音块的识别结果；将所述待识别语音块的识别结果返回给所述流式语音识别请求对应的用户。

可选地，所述装置还包括：

第二返回模块516，具体用于根据所述待识别音频数据对应的预测文本，纠正返回给所述用户的所述各待识别语音块的识别结果。

可选地，所述装置还包括：

第一训练模块518，具体用于预先获取无文本标注的音频数据，并按照预设的时长，将所述音频数据分为若干语音块；针对每个语音块，将该语音块输入到待训练的语音特征编码器，通过所述语音特征编码器中的特征提取子网，确定该语音块的第一语音特征；根据该语音块的第一语音特征和该语音块之前的若干语音块的第一语音特征，确定该语音块对应的参考语音特征；将该语音块对应的参考语音特征输入所述语音特征编码器中的特征编码子网，得到所述特征编码子网输出的将该语音块的第二语音特征；以该语音块的参考语音特征和该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器。

可选地，所述第一训练模块518，具体用于将该语音块对应的第一语音特征中的若干特征进行遮蔽；将遮蔽后的该语音块的第一语音特征和该语音块之前的若干语音块的第一语音特征进行融合，得到该语音块对应的参考语音特征。

可选地，所述语音特征编码器还包括量化子网；

可选地，所述第一训练模块518，具体用于将该语音块的第一语音特征输入所述量化子网，得到该语音块的量化语音特征；以该语音块的量化语音特征和该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器。

可选地，所述第一训练模块518，具体用于获取预先确定的多个码本；确定各码本中与该语音块的第一语音特征对应的目标特征；将该语音块的第一语音特征中与所述目标特征对应的特征替换为所述目标特征，得到该语音块的量化语音特征。

可选地，所述第一训练模块518，具体用于根据该语音块的量化语音特征和该语音块的第二语音特征之间的相似度，确定该语音块的第一损失；将该语音块的第一语音特征映射到所述各码本，得到该语音块的干扰量化特征；根据该语音块的第二语音特征和该语音块的干扰量化特征之间的相似度，以及该语音块的量化语音特征和该语音块的干扰量化特征之间的差异确定该语音块的第二损失；获取所述第一损失的第一权重和所述第二损失的第二权重；根据所述第一权重和所述第二权重分别对各语音块的第一损失和各语音块第二损失加权，得到总损失；以所述总损失的最小化为训练目标，训练所述语音特征编码器。

可选地，所述装置还包括：

第二训练模块520，具体用于获取带文本标注的音频数据作为训练样本，以所述文本标注作为所述训练样本的标注；将所述训练样本输入训练完成的语音特征编码器，得到所述训练样本的语音特征；将所述训练样本的语音特征输入所述解码器，得到所述训练样本的第一预测文本；以所述第一预测文本和所述训练样本的标注之间的差异的最小化为优化目标，调整所述解码器的参数。

可选地，所述语音识别模型还包括纠正器；

可选地，所述第二训练模块520，具体用于将所述训练样本的语音特征和所述训练样本的标注输入所述纠正器，得到所述纠正器输出的所述训练样本的第二预测文本；以所述第一预测文本和所述训练样本的标注之间的差异的最小化，和所述第二预测文本和所述训练样本的标注之间的差异的最小化为优化目标，调整所述解码器以及所述纠正器的参数。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1所示的语音识别方法。

本说明书还提供了图8所示的电子设备的示意结构图。如图8所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所示的语音识别方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种语音识别方法，其特征在于，语音识别模型包括语音特征编码器和解码器，所述语音特征编码器包括特征提取子网和特征编码子网，所述方法包括：

响应于流式语音识别请求，连续接收待识别音频数据；

将该待识别语音块的第一语音特征和所述指定语音块的第一语音特征作为输入，输入所述特征编码子网，通过所述特征编码子网中的注意力编码层，确定该待识别语音块的第一语音特征中各维特征之间的第一注意力得分，以及所述指定语音块的第一语音特征与该待识别语音块的第一语音特征之间的第二注意力得分；

根据所述第一注意力得分、所述第二注意力得分、所述指定语音块的第一语音特征和该待识别语音块的第一语音特征，确定该待识别语音块的第二语音特征；

将该待识别语音块的第二语音特征输入所述解码器，得到该待识别语音块对应的预测文本作为该待识别语音块的识别结果。

2.如权利要求1所述的方法，其特征在于，所述语音识别模型还包括纠正器；

3.如权利要求2所述的方法，其特征在于，确定所述待识别音频数据对应的各候选文本之前，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，预先训练所述语音特征编码器，具体包括：

6.如权利要求5所述的方法，其特征在于，根据该语音块的第一语音特征和该语音块之前的若干语音块的第一语音特征，确定该语音块对应的参考语音特征，具体包括：

将该语音块对应的第一语音特征中的若干特征进行遮蔽；

7.如权利要求5所述的方法，其特征在于，所述语音特征编码器还包括量化子网；

以将该语音块的参考语音特征和将该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器，具体包括：

将该语音块的参考语音特征输入所述量化子网，得到该语音块的量化语音特征；

8.如权利要求7所述的方法，其特征在于，将该语音块的第一语音特征输入所述量化子网，得到该语音块的量化语音特征，具体包括：

获取预先确定的多个码本；

确定各码本中与该语音块的第一语音特征对应的目标特征；

9.如权利要求8所述的方法，其特征在于，以该语音块的量化语音特征和该语音块的第二语音特征之间的差异最小化为训练目标，训练所述语音特征编码器，具体包括：

获取所述第一损失的第一权重和所述第二损失的第二权重；

10.如权利要求1所述的方法，其特征在于，预先训练所述解码器，具体包括：

11.如权利要求10所述的方法，其特征在于，所述语音识别模型还包括纠正器；

12.一种语音识别装置，其特征在于，语音识别模型包括语音特征编码器和解码器，所述语音特征编码器包括特征提取子网和特征编码子网，所述装置包括：

13.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～11任一项所述的方法。

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～11任一项所述的方法。