CN113539273A

CN113539273A - 一种语音识别方法、装置、计算机设备和存储介质

Info

Publication number: CN113539273A
Application number: CN202111085030.3A
Authority: CN
Inventors: 石宪; 孙思宁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-10-22
Anticipated expiration: 2041-09-16
Also published as: CN113539273B

Abstract

本申请实施例提供了一种语音识别方法、装置、计算机设备和存储介质，其中方法包括：获取输入的语音数据；调用语音识别模型对所述语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，所述语音识别模型是基于多个语音样本以及每个语音样本的标注信息训练得到的，所述标注信息包括字级别序列标签和音素级别序列标签；在信息交互界面中显示所述第一语音识别结果；获取与所述第二语音识别结果对应的问答结果，并在所述信息交互界面中显示所述问答结果，可以快速显示语音识别结果，并提高语音交互结果的准确度。

Description

一种语音识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及语音识别技术领域，具体涉及一种语音识别方法、装置、计算机设备和存储介质。

背景技术

近年来，随着深度学习的蓬勃发展，端到端（End-to-End，E2E）自动语音识别（Automatic Speech Recognition，ASR）技术由于其训练复杂度低，识别效果更优而受到了广泛关注。其中，转移机Transducer和变压器Transformer是目前两种流行的E2E框架，相较于传统语音识别较为复杂的解码过程，这两种E2E框架能够把音频特征直接转化为识别结果的文字序列。在这两种主流E2E框架中，Transformer模型由于受到编码Encoder与解码Decoder之间的source-attention（即源端注意力机制）的计算方式的限制，在此基础之上进行流式解码难度较高。而Transducer的解码Decoder计算方式能够天然地进行流式解码，但对识别准确率的影响较大。因此，如何对语音数据进行语音识别成为研究热点。

发明内容

本申请实施例提供了一种语音识别方法、装置、计算机设备和存储介质，可以快速显示语音识别结果，并提高语音交互结果的准确度。

一方面，本申请实施例提供了一种语音识别方法，该方法包括：

获取输入的语音数据；

调用语音识别模型对语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，语音识别模型是基于多个语音样本以及每个语音样本的标注信息训练得到的，标注信息包括字级别序列标签和音素级别序列标签；

在信息交互界面中显示第一语音识别结果；

获取与第二语音识别结果对应的问答结果，并在信息交互界面中显示问答结果。

一方面，本申请实施例提供了一种语音识别装置，该装置包括：

获取单元，用于获取输入的语音数据；

处理单元，用于调用语音识别模型对语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，语音识别模型是基于多个语音样本以及每个语音样本的标注信息训练得到的，标注信息包括字级别序列标签和音素级别序列标签；

显示单元，用于在信息交互界面中显示第一语音识别结果；

获取单元，还用于获取与第二语音识别结果对应的问答结果；

显示单元，还用于在信息交互界面中显示问答结果。

一方面，本申请实施例提供一种计算机设备，该计算机设备包括输入设备、输出设备、处理器和计算机存储介质，该处理器和计算机存储介质相互连接，其中，计算机存储介质用于存储计算机程序，该处理器被配置用于调用计算机程序，执行上述的语音识别方法。

一方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时，用于实现上述的语音识别方法。

一方面，本申请实施例提供了一种计算机程序产品，计算机程序产品包括计算机程序；该计算机程序存储在计算机可读存储介质中，计算机程序被计算机设备的处理器执行时，执行上述的语音识别方法。

在本申请实施例中，计算机设备可以在获取输入的语音数据后，调用语音识别模型对语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，并在信息交互界面中显示第一语音识别结果，获取与第二语音识别结果对应的问答结果，并在信息交互界面中显示问答结果；通过语音识别模型对语音数据进行流式语音识别，可以快速的将第一语音识别结果显示在信息交互界面中；通过语音识别模型对语音数据进行非流式语音识别，可以提高语音识别的准确性，进而较好的保证第二语音识别结果对应的问答结果的准确性，因此，可以快速显示语音识别结果，并提高语音交互结果的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种对语音数据进行流式解码的示意图；

图1b是本申请实施例提供的一种对语音数据进行非流式解码的示意图；

图1c是本申请实施例提供的一种语音识别系统的架构图；

图2是本申请实施例提供的一种语音识别方法的流程示意图；

图3a是本申请实施例提供的一种信息交互界面的示意图；

图3b是本申请实施例提供的一种语音识别模型的架构图；

图3c是本申请实施例提供的一种语音识别模型的架构图；

图3d是本申请实施例提供的一种对语音数据进行流式语音识别和非流式语音识别的示意图；

图3e是本申请实施例提供的第二语音识别结果更新第一语音识别结果的示意图；

图4是本申请实施例提供的一种语音识别方法的流程示意图；

图5是本申请实施例提供的一种语音识别装置的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种语音识别方案，该语音识别方案提出了一种二遍转移机的流式-非流式统一语音识别模型（该语音识别模型也可以称为二遍转移机模型）。具体的，可以使用不同颗粒度的建模单元，并分别使用字级别的CTC（Connectionist TemporalClassification，基于神经网络的时序类分类）损失和音素级别RNN-T（Recurrent NeuralNetwork Transducer，循环神经网络转移机）损失加强对声学信息的模型构建，然后基于多个语音样本以及每个语音样本的标注信息对构建的模型进行训练，得到语音识别模型；标注信息可以是字级别序列标签和音素级别序列标签。具体的，可以采用前向后向算法计算后验概率，并根据计算得到的后验概率计算CTC 损失和音素级别RNN-T损失，并使用字级别的CTC 损失和音素级别RNN-T损失优化模型中处于靠前位置的编码层（后续称为第一编码模块）使其学习到流式语音识别的能力；可以使用音素级别RNN-T损失优化模型中处于靠后位置的编码层（后续称为第二编码模块）使其学习到非流式语音识别的能力。需要说明的是：上述流式语音识别可以称为流式解码；上述非流式语音识别可以称为非流式解码；在实际过程中，在对构建的模型中的第一编码模块和第二编码模块进行优化时，可以根据字级别的CTC 损失和音素级别RNN-T损失的总损失值共同优化第一编码模块和第二编码模块。所谓二遍转移机是指：第一遍为利用语音识别模型对语音数据进行流式语音识别；第二遍为利用语音识别模型对语音数据进行非流式语音识别，通过模型训练得到的语音识别模型实现了在给定语音数据的语音特征，可以直接语音识别出语音数据的语音特征和文本序列（即字级别序列）之间的对应关系。

当对构建的模型训练完成之后，得到语音识别模型，调用语音识别模型能够对输入的语音数据进行流式语音识别的同时，又能够对该语音数据进行非流式语音识别。当用户讲话时，可以使用语音识别模型中的第一编码模块和第一编码模块对应的解码层（或称为解码模块）进行流式语音识别，然后使用语音识别模型中的第二编码模块和第二编码模块对应的解码层进行非流式语音识别。进一步地，还可以根据第二遍的语音识别结果对第一遍语音识别进行修正。其中，流式语音识别的过程为：在处理语音数据时，实时返回对语音数据中每个语音片段进行流式语音识别后得到的语音识别结果，例如，在图1a中，以图1a来说明流式语音识别过程，用户在某个界面中语音输入“小微，最近有什么电影吗”，流式语音识别可以是：调用语音识别模型对语音输入的“小微，最近有什么电影吗”中包括“小”的语音片段进行流式语音识别，并显示语音片段中“小”的语音识别结果为字级别“小”，然后调用语音识别模型对“小微，最近有什么电影吗”中语音片段包括的“微”进行流式语音识别，并显示语音片段包括的“微”的语音识别结果为字级别“微”；依次类推，最终在该界面中显示出该语音数据的语音识别结果，该语音数据的语音识别结果为字级别序列“小微，最近有什么电影吗”；非流式语音识别是指在处理语音数据时，调用语音识别模型对整个语音数据进行语音识别完成后，才能返回对语音数据的语音识别结果。例如，在图1b中，以图1b来说明非流式语音识别过程，非流式语音识别过程是指：调用语音识别模型对输入的语音数据“小微，最近有什么电影吗”进行非流式语音识别，直接显示如图1b所示的语音识别结果，该语音识别结果为“小微，最近有什么电影吗”。

由于流式语音识别中每语音识别一个语音片段，就可以显示该语音片段对应的语音识别结果，因此实现了快速显示在信息交互界面上，降低了首字延迟，提高了用户的体验度；而非流式解码可以看到语音数据中的未来信息，可以进行语音数据的上下文联系，实现对整个语音数据进行解码，从而可以保证对语音数据语音识别的准确性。

为了更好地对语音数据进行语音识别，请参见图1c，本申请实施例提供了一种语音识别系统，该语音识别系统可以包括至少一个电子设备101和服务器102；在该语音识别系统中，电子设备101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。该电子设备101是具有语音输入组件的设备，该语音输入组件可以是麦克风等等，例如，该电子设备101可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载设备等等；该服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork， CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

在具体实现中，上述语音识别方案可由电子设备101执行，具体流程如下：电子设备101采集目标用户的语音数据，并调用语音识别模型对语音数据进行流式语音识别，得到语音数据的第一识别结果，以及调用语音识别模型对语音数据进行非流式语音识别，得到语音数据的第二识别结果；然后在信息交互界面中显示第一语音识别结果；接着获取与第二语音识别结果对应的问答结果，并在信息交互界面中显示与第二语音识别结果对应的问答结果。服务器102可以存储采集到的语音数据、第一识别结果、第二识别结果和问答结果等等。

需要说明的是，本申请实施例所提供的语音识别方案还可以由服务器102执行，服务器102可以通过电子设备101显示第一识别结果、第二识别结果对应的问答结果等等。

通过上述语音识别系统和语音识别方案，本申请实施例有如下有益效果：通过调用语音识别模型对语音数据进行流式语音识别，可以较为快速的在信息交互界面显示该语音数据的第一语音识别结果，降低了显示第一语音识别结果中首字延迟，实现首字快速上屏；且通过调用语音识别模型对语音数据进行非流式语音识别，可以提高对语音数据的语音识别准确性，进而可以较好地保证获取的第二语音识别结果对应的问答结果的准确性，因此可以快速显示语音识别结果，并提高语音交互结果的准确度。

基于上述语音识别方案，请参阅图2，图2为本申请实施例提供的一种语音识别方法的流程示意图。该语音识别方法可由计算机设备来执行；该计算机设备可以是上述语音识别系统中的电子设备101或者服务器102执行，该方法可包括以下步骤S201-S204：

S201、获取输入的语音数据。

在具体实现中，计算机设备可以获取目标用户实时输入的语音数据，或者计算机设备还可以获取预先存储目标用户的语音数据。其中，目标用户可以是使用该计算机设备的用户，或者目标用户可以是除使用该计算机设备的其他用户。例如，在车载场景中，计算机设备可以是车辆；该目标用户可以是该车辆的拥有用户；或者该目标用户可以是乘坐该车辆的用户。

在一个实施例中，计算机设备可以显示一个信息交互界面，该信息交互界面可以如图3a所示，信息交互界面可以包括一个语音输入组件，目标用户可以通过该语音输入组件输入语音数据，然后当计算机设备检测到针对语音输入组件的触发操作时，计算机设备可以获取该目标用户输入的语音数据。在另一个实施例中，计算机设备还可以通过语音唤醒该信息交互界面，例如，语音输入“小薇”，然后可以唤醒信息交互界面；然后目标用户可以直接在信息交互界面中输入语音数据，计算机设备可以获取输入的语音数据。

S202、调用语音识别模型对语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，语音识别模型是基于多个语音样本以及每个语音样本的标注信息训练得到的，标注信息包括字级别序列标签和音素级别序列标签。

在具体实现中，计算机设备可以调用语音识别模型对语音数据进行流式识别，得到第一语音识别结果；并调用语音识别模型对该语音数据进行非流式识别，得到第二语音识别结果。其中，第一语音识别结果和第二语音识别结果可以是语音数据对应的字级别序列。所谓字级别序列是指以多个字所构成的序列；例如，字级别序列可以是“电影”；音素级别序列是指按照多个拼音字母排列的序列；例如，音素级别序列可以是“ d i an y ing”。

在一个实施例中，上述语音识别模型的模型架构可以如图3b所示，该语音识别模型可以包括第一编码模块、第一编码模块对应的全连接层、第二编码模块和解码模块。其中，该第一编码模块和第二编码模块可以组成语音编码器。在应用过程中，更为具体的该语音识别模型还可以如图3c所示。接下来对语音识别模型的每个模块进行详细阐述。

（1）卷积下采样与位置编码层：卷积下采样与位置编码层可以用于对语音数据进行初始编码。

（2）第一编码模块：第一编码模块用于对语音数据包括的多个语音片段中的每个语音片段进行流式编码处理，得到每个语音片段对应的第一编码向量；该第一编码模块可以是m层流式conformer（Convolution-augmented Transformer，卷积增强的Transformer）模块；在本申请实施例中，m层流式conformer模块可以用于对语音数据包括的多个语音片段中每个语音片段的初始编码结果进行编码处理，每个语音片段的初始编码结果是由卷积下采样与位置编码层进行编码的。

（3）第二编码模块

第二编码模块可以用于对第一编码模块编码得到的每个语音片段对应的第一编码向量进行非流式编码处理，该第二编码模块可以是m层非流式conformer模块。其中，第一编码模块和第二编码模块可以构成语音编码器；通过第一编码模块和第二编码模块对语音数据进行编码处理，可以得到语音数据的编码结果，该编码结果为高维特征向量，第一编码模块和第二编码模块对语音数据编码后的表达式为：

其中，X表示语音数据中的语音特征；

表示对语音数据中的语音特征进行编码得到的编码结果。

本申请实施例在语音编码器部分（即第一编码模块和第二编码模块）使用的结构为Conformer，相比于单纯的自注意力机制Self-Attention而言，Conformer模块包含四个部分：马卡龙式的前馈全连接模块（Feed-Forward Network，FFN）、多头自注意力模块（Multi-Head Self Attention，MHSA）、卷积模块（Convolution，CONV）和第二个马卡龙式的前馈全连接模块，整个Conformer模块的数学表示式如下：

其中，

表示语音数据的语音特征，

通过第一前馈全连接模块处理的特征向量；

表示经过多头自注意力模块处理得到的特征向量，

表示通过卷积模块处理得到的特征向量，

表示残差处理之后的特征向量。

是通过第二个马卡龙式的前馈全连接模块处理得到特征向量，LayerNorm（）表示残差函数。

（4）第一编码模块对应的全连接层

第一编码模块对应的全连接层可以理解为第一编码模块对应的解码模块，第一编码模块对应的全连接层可以对第一编码模块编码后得到的高维特征向量进行解码处理。在本申请实施例中，第一编码模块对应的全连接层可以用于对每个语音片段对应的第一编码向量进行解码处理。

（5）解码模块

解码模块用于对第二编码模块编码后得到的高维特征向量进行解码处理，该解码模块可以包括预测网络（Prediction Network）、联合网络（Joint Network）和分类器（softmax层）。预测网络可以用于对历史解码结果进行高维处理，得到历史解码结果对应的高维特征向量。若语音数据为当前帧语音数据，该历史解码结果为当前帧语音数据的上一帧语音数据对应的音素级别序列。也就是说：预测网络可以用于对上一帧语音数据对应的音素级别序列进行高维处理。该预测网络可以包括一个嵌入层和若干层长短记忆神经网络（Long Short-Term Memory，LSTM）。具体公式如下：

其中，

表示当前帧语音数据对应的预测网络输出向量，

表示上一帧语音数据对应的特征向量。

联合网络用于将第二编码模块得到的高维特征向量与预测网络输出向量联合到一起。该联合网络是由若干个全连接层组成；然后通过softmax层对联合网络处理的联合向量进行最终分类。其中，联合网络和softmax层具体公式为：

其中，

表示联合网络处理后的联合向量，

和

为联合网络中的参数，U和V为常数，

为当前帧语音数据对应的预测网络输出向量，

为当前帧语音数据对应的编码向量；

表示当前帧语音数据对应的音素级概率。

在一个实施例中，步骤S202的具体实现方式可以是：计算机设备可以调用语音识别模型中的第一编码模块对语音数据包括的多个语音片段中的每个语音片段进行编码处理，得到每个语音片段对应的第一编码向量；并调用语音识别模型中与第一编码模块对应的全连接层对每个语音片段对应的第一编码向量进行解码处理，得到流式语音识别对应的第一语音识别结果；然后调用语音识别模型中的第二编码模块以及解码模块对每个语音片段对应的第一编码向量进行非流式语音识别，得到第二语音识别结果。例如，在图3d中，语音数据包括的语音特征为“小微，在吗”，“小微，在吗”可以分为3个语音片段，分别为语音片段1“小”、语音片段2“微”和语音片段3“在吗”；计算机设备可以调用语音识别模型中的第一编码模块对语音片段1进行编码处理，得到语音片段1对应的第一编码向量，然后第一编码模块对应的全连接层对该语音片段1对应的第一编码向量进行解码处理，得到语音片段1对应的字级别文本“小”；计算机设备可以调用语音识别模型中的第一编码模块对语音片段2进行编码处理，得到语音片段2对应的第一编码向量，计算机设备调用第一编码模块对应的全连接层对该语音片段2对应的第一编码向量进行解码处理，得到语音片段2对应的字级别文本“微”，同理得到语音片段3对应的字级别文本“在吗”，根据语音片段1对应的字级别文本、语音片段2对应的字级别文本和语音片段3对应的字级别文本生成流式语音识别对应的第一语音识别结果，第一语音识别结果为字级别序列“小微，在吗”。

在一个实施例中，步骤S201中获取的语音数据为当前帧语音数据；计算机设备可以调用语音识别模型中的第二编码模块以及解码模块对每个语音片段对应的第一编码向量进行非流式语音识别，得到第二语音识别结果的具体实现方式为：计算机设备可以调用语音识别模型中第二编码模块m层非流式comformer模块对上述每个语音片段对应的第一编码向量进行编码处理，得到语音数据对应的编码向量，例如，上述得到语音片段1对应的第一编码向量、语音片段2对应的第一编码向量和语音片段3对应的第一编码向量；然后第二编码模块可以对语音片段1对应的第一编码向量、语音片段2对应的第一编码向量和语音片段3对应的第一编码向量进行处理，得到语音数据对应的编码向量。获取当前语音数据的上一帧语音数据对应的音素级别序列；调用解码模块中的预测网络对上一帧语音数据对应的音素级别序列进行高维处理，并调用解码模块中的联合网络对高维处理后的音素级别序列和语音数据对应的编码向量进行处理，得到联合特征向量，并调用softmax层对联合特征向量进行分类处理，得到语音数据对应的音素级别分类；采用WFST（加权有限状态转换器，weighted finite-state transducer）解码图对音素级别分类进行转换，得到非流式语音识别结果对应的第二语音识别结果，例如在图3d中，计算机设备可以对每个语音片段进行编码处理，得到每个语音片段对应的第一编码向量；然后采用第二编码模块m层非流式comformer模块对每个语音片段对应的第一编码向量进行处理的，得到语音数据“小微，在吗”对应的编码向量；获取“小微，在吗”对应的上一帧语音数据对应的音素级别序列；并调用预测网络对“小微，在吗”对应的上一帧语音数据对应的音素级别序列进行处理；然后计算机设备将语音数据“小微，在吗”对应的编码向量和预测网络输出的向量通过联合网络以及softmax层和WFST解码图处理，得到第二语音识别结果“小微，在吗”。

S203、在信息交互界面中显示第一语音识别结果。

在具体实现中，计算机设备在步骤S202中对每个语音片段对应的第一编码向量进行解码处理，得到每个语音片段对应的解码结果，并在该信息交界面中显示每个语音片段对应的解码结果，最终在该信息交互界面中显示的第一语音识别结果是由每个语音片段对应的解码结果构成的。

S204、获取与第二语音识别结果对应的问答结果，并在信息交互界面中显示问答结果。

在具体实现中，计算机设备可以从问答库中获取与第二语音识别结果对应的问答结果，或者计算机设备还可以对第二语音识别结果进行解析，根据解析结果获取第二语音识别结果对应的问答结果，然后在信息交互界面中显示该问答结果。

在一个实施例中，计算机设备可以从问答库中获取与第二语音识别结果对应的问答结果的具体实现方式为：在问答库中包括多个问题和每个问题的问答结果；计算机设备可以将第二语音识别结果与问答库中的多个问题进行匹配，并将与第二语音识别结果匹配的问题的问答结果作为第二语音识别结果对应的问答结果。

在另一个实施例中，计算机设备可以对第二语音识别结果进行解析，根据解析结果获取第二语音识别结果对应的问答结果的具体实现方式为：计算机设备可以对第二语音识别结果进行解析，得到第二语音识别结果的语义信息；然后根据第二语音识别结果的语义信息生成第二语音识别结果对应的问答结果。具体的，计算机设备可以对第二语音识别结果进行解析，得到第二语音识别结果的语音信息，并根据语音信息获取对应的问答模板，然后在问答模板中填入与语音信息关联的答案，生成第二语音识别结果对应的问答结果。

在一个实施例中，由于第一语音识别结果是对语音数据包括的每个语音片段进行流式语音识别得到的，并没有结合语音数据的未来信息进行语音识别，无法保证第一语音识别结果的语音识别准确性。而第二语音识别结果是对整个语音数据进行语音识别得到的，考虑了语音数据的未来信息，可以较好地保证第二语音识别结果的语音识别准确性。因此，计算机设备可以根据非流式语音识别得到的第二语音识别结果对流式语音识别得到的第一语音识别结果进行修正。计算机设备可以将第二语音识别结果和第一语音识别结果进行对比，若第二语音识别结果与第一语音识别结果不同，则利用第二语音识别结果更新信息交互界面中显示的第一语音识别结果；若第二语音识别结果与第一语音识别结果相同，则无需更新信息交互界面中显示的第一语音识别结果。

其中，上述若第二语音识别结果与第一语音识别结果不同，则利用第二语音识别结果更新信息交互界面中显示的第一语音识别结果的实现方式可以包括以下两种：（1）若第二语音识别结果与第一语音识别结果不同，则直接利用第一语音识别结果替换信息交互界面中显示的第一语音识别结果；例如在图3e中，在信息交互界面中显示第一语音识别结果为“最近点映”，第二语音识别结果为“最近电影”，计算机设备直接将“最近电影”替换信息交互界面中显示的“最近点映”；更新效果如图3e右图所示。（2）由上述可知，第一语音识别结果和第二语音识别结果均是字级别序列，若第二语音识别结果与第一语音识别结果不同，则可以将第一语音识别结果和第二语音识别结果对齐处理；并从对齐后的第一语音识别结果中确定出目标字；并利用第二语音识别结果中相对应的字替换信息交互界面中的第一语音识别结果包括的目标字。其中，目标字与第二语音识别结果中相对应的字不同。例如，在图3e中，在信息交互界面中显示第一语音识别结果为“最近点映”，第二语音识别结果为“最近电影”，计算机设备将第一语音识别结果和第二语音识别结果对齐处理，并从对齐后的第一语音识别结果中确定出与第二语音识别结果不同的目标字，该目标字分别为“点”“映”；然后计算机设备可以将第二语音识别结果中的“电”和“影”分别替换信息交互界面中第一语音识别结果包括的目标字“点”和“映”。

在本申请实施例中，计算机设备可以在获取输入的语音数据后，调用语音识别模型对语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，并在信息交互界面中显示第一语音识别结果，获取与第二语音识别结果对应的问答结果，并在信息交互界面中显示所述问答结果；通过语音识别模型对语音数据进行流式语音识别，可以较为快速的将第一语音识别结果显示在信息交互界面中；通过语音识别模型对语音数据进行非流式语音识别，可以提高语音识别的准确性，进而较好的保证第二语音识别结果对应的问答结果的准确性。

基于上述语音识别方案，请参阅图4，图4为本申请实施例提供的一种语音识别方法的流程示意图。该语音识别方法可由计算机设备来执行；该计算机设备可以是上述语音识别系统中的电子设备101或者服务器102执行，该方法可包括以下步骤S401-S408：

S401、获取语音样本集，语音样本集包括多个语音样本以及每个语音样本的标注信息。标注信息可以包括字级别序列标签和音素级别序列标签。

在具体实现中，计算机设备可以从本地空间中获取语音样本集或者从其他平台中获取语音样本集，例如其他平台可以是指专用于数据存储的设备。上述语音样本集包括的多个语音样本可以来自于同一用户，可以理解为：同一用户可输入不同内容作为语音样本；例如，用户A语音输入内容A作为一个语音样本；用户A语音输入内容B作为一个语音样本。或者上述语音样本集包括的多个语音样本可以来自于不同用户，可以理解为：不同用户可以输入不同内容作为语音样本；例如，用户A语音输入内容A作为一个语音样本；用户B语音输入内容B作为一个语音样本。

S402、调用初始模型对每个语音样本进行流式语音识别，得到每个语音样本的字级别预测序列。

其中，上述初始模型的结构图可以参见上述语音识别模型的架构图图3b和图3c。

在一个实施例中，步骤S402的具体实现方式可以是：计算机设备可以调用初始模型中的第一编码模块对多个语音样本中每个语音样本进行遮挡处理，得到每个语音样本中多个语音片段的编码结果；然后计算机设备调用初始模型中与该第一编码模块对应的全连接层对每个语音样本中多个语音片段对应的编码结果进行解码处理，得到每个语音样本的字级别预测序列。其中，对每个语音样本进行遮挡处理可以理解为：利用时间窗将每个语音样本进行分段处理，第一编码模块可以对时间窗内的语音片段进行编码处理，通过时间窗或者遮挡处理能够遮挡未来语音帧的信息，第一编码模块对每个语音样本进行编码时只关注每个语音样本在时间窗内的语音片段即可。在具体实现中，计算机设备可以调用初始模型中的第一编码模块对多个语音样本中每个语音样本进行遮挡处理主要是：在第一编码模块包括的m层流式conformer模块的自我注意力机制中利用遮挡矩阵（或Mask矩阵）对多个语音样本中每个语音样本的特征向量进行处理，即将每个语音样本中多个语音片段的特征向量投影到查询矩阵Q、键矩阵K和值矩阵V上，并采用点积形式将查询矩阵Q与键矩阵的转置相乘；并将相乘结果与遮挡矩阵进行处理，将处理结果做softmax激活函数，并与值矩阵做点乘得到每个语音样本中多个语音片段的注意力权重，最终经过m层流式conformer模块可以得到每个语音样本中多个语音片段的编码结果，在自我注意力机制的点积形式可以表示为：

其中，

表示每个语音样本的注意力权重值，Mask表示与

相同维数的遮挡矩阵；

用于归一化。

的维数为T×T，该mask矩阵的维数同样为T×T；例如，当T为5时，上述遮挡矩阵可以表示为：

S403、调用初始模型对每个语音样本进行非流式语音识别，得到每个语音样本的音素级别预测序列。

在具体实现中，计算机设备可以调用初始模型中的第二编码模块和解码模块对每个语音样本进行非流式语音识别，得到每个语音样本的音素级别预测序列。例如，语音样本为“电影播放”，计算机设备调用初始模型中的第二编码模块和解码模块对该语音样本进行流式语音识别，得到音素级别预测序列“d a in y ing b o f ang”。

S404、利用每个语音样本的标注信息、字级别预测序列和音素级别预测序列对初始模型的模型参数进行调整，得到语音识别模型。

在具体实现中，计算机设备可以利用每个语音样本的标注信息、字级别预测序列和音素级别预测序列来计算初始模型的总损失值，然后根据该总损失值对初始模型的模型参数进行调整，得到语音识别模型。

在一个实施例中，步骤S404的具体实现方式可以是：计算机设备获取每个语音样本的字级别预测序列和字级别序列标签之间的字级损失值，以及获取每个语音样本的音素级别预测序列和音素级别序列标签之间的音素级损失值；然后根据字级损失值和音素级损失值得到初始模型的总损失值；并利用梯度下降算法根据总损失值更新初始模型的模型参数，得到语音识别模型。作为一种实施例方式，计算机设备可以直接将字级损失值和音素级损失值直接求和，得到初始模型的总损失值；作为另一种实施方式，计算机设备可以对字级损失值和音素级损失值进行加权处理，得到字级权重值和音素级权重值；并将该字级权重值和音素级权重值求和处理，得到初始模型的总损失值；例如，计算机设备可以对字级损失值乘权值0.5，得到字级权重值，并将音素级损失值乘权值0.5，得到音素级权重值；将字级权重值和音素级权重值求和处理，得到初始模型的总损失值。在得到初始模型的总损失值后，可以采用梯度下降算法按照总损失值减少方向更新初始模型的模型参数，得到语音识别模型。其中，上述字级损失值可以是字级别的CTC Loss，上述音素级损失值可以是音素级别的RNN-T Loss。采用字级别损失值对初始模型的模型参数进行调整，可以使得流式语音识别过程忽略WFST的解码过程，这样可以降低语音识别的首字延迟。

S405、获取输入的语音数据。

S406、调用语音识别模型对语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，语音识别模型是基于多个语音样本以及每个语音样本的标注信息训练得到的，标注信息包括字级别序列标签和音素级别序列标签。

S407、在信息交互界面中显示第一语音识别结果。

S408、获取与第二语音识别结果对应的问答结果，并在信息交互界面中显示问答结果。

其中，上述步骤S405-S408的具体实现方式可参见上述实施例图2中S201-S204的具体实现方式，在此不再赘述。

在本申请实施例中，计算机设备可以调用初始模型对每个语音样本进行流式语音识别和非流式语音识别，得到每个语音样本的字级别预测序列和音素级别预测序列；利用所每个语音样本的标注信息、字级别预测序列和音素级别预测序列对初始模型的模型参数进行调整，得到语音识别模型。使用不同颗粒度的建模模块，在模型的前后部分分别使用字级别损失值和音素级别损失值，可以加强对声学信息的语音识别模型构建，使得训练完成的语音识别模型具有两遍（Two-Pass）处理能力，即通过该语音识别模型对语音数据进行非流式语音识别和流式语音识别。然后计算机调用语音识别模型对语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，并在信息交互界面中显示第一语音识别结果，获取与第二语音识别结果对应的问答结果，并在信息交互界面中显示所述问答结果；通过语音识别模型对语音数据进行流式语音识别，可以较为快速的将第一语音识别结果显示在信息交互界面中；通过语音识别模型对语音数据进行非流式语音识别，可以提高语音识别的准确性，进而较好的保证第二语音识别结果对应的问答结果的准确性。

本申请实施例提供的语音识别方法，可以应用于车载场景的在线流式语音识别系统，可以实现在车载上加载语音识别模型平衡流式解码的效率和语音识别的准确性问题。且相比于现有的端到端流式语音识别系统，本申请实施例在最终的识别效果与流式识别能力上都有一定的提升：使用了二遍转移机机制之后的语音识别模型能够具有流式识别的能力，并且流式编码层（即第一编码模块）作为语音识别模型的一部分，不占用端上的额外资源。在使用的不同建模颗粒度的CTC损失和RNN-T损失对初始模型进行模型训练和模型参数调整之后，第二遍非流式语音识别结果较基线实验有一定的提升。

为了验证本申请实施例所提出的语音识别方法的有效性，可以在内部大型数据集上进行了相关实验验证，如表1中记录了相关实验结果，数字为字错误率，其中，字错误率越低，表明效果越好：

表1

通过表1可以看出，本申请实施例所提出语音识别模型的语音识别结果中的两个数字分别表示非流式的最终语音识别结果的错误率和CTC流式识别结果的错误率。由于CTC流式识别结果只用作实时显示，其效果相比于最终结果略差并在可接受范围即可。可以看出，在大数据上的实验上，流式解码头的性能虽较非流式识别结果有一定的差距，例如测试集1，CTC错误率5.17高于最终结果3.57，但语音识别性能在可以接受的范围内，并且实际在端上部署该语音识别模型之后，能够降低首字在显示界面上（上屏）的延迟，并且使用统一的流式-非流式语音识别模型能够节约端上的计算资源，从而降低运营和使用成本。

在实际场景的模型测试中同样发现，该语音识别模型可以获得的流式解码（或称为流式语音识别）效果符合预期（一遍流式解码较二遍非流式解码（非流式语音识别）有30%~40%的性能差距），并且二遍流式解码较原始的非流式解码能够提升约5%。

基于上述提供的语音识别方法，其是本申请实施例提供的一种语音识别装置的结构示意图。如图5所示，语音识别装置可以应用于上述图2或图4对应实施例中的计算机设备；具体的，语音识别装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如语音识别装置为一个应用软件；该语音识别装置可以用于执行本申请实施例提供的方法中的相应步骤。

处理单元501，用于获取输入的语音数据；

所述处理单元501，还用于调用语音识别模型对所述语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，所述语音识别模型是基于多个语音样本以及每个语音样本的标注信息训练得到的，所述标注信息包括字级别序列标签和音素级别序列标签；

显示单元502，用于在信息交互界面中显示所述第一语音识别结果；

所述处理单元501，还用于获取与所述第二语音识别结果对应的问答结果；

所述显示单元502，还用于在所述信息交互界面中显示所述问答结果。

在一个实施例中，所述处理单元501，还用于：

将所述第二语音识别结果和所述第一语音识别结果进行对比；

若所述第二语音识别结果和所述第一语音识别结果不同，则利用所述第二语音识别结果更新所述信息交互界面中显示的所述第一语音识别结果。

在一个实施例中，所述处理单元501在获取与所述第二语音识别结果对应的问答结果时，可具体用于：

对所述第二语音识别结果进行解析，得到所述第二语音识别结果的语义信息；

根据所述第二语音识别结果的语义信息生成所述第二语音识别结果对应的问答结果。

在一个实施例中，所述处理单元501在调用语音识别模型对所述语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果时，可具体用于：

调用语音识别模型中的第一编码模块对所述语音数据包括的多个语音片段中的每个语音片段进行编码处理，得到所述每个语音片段对应的第一编码向量；

调用所述语音识别模型中与所述第一编码模块对应的全连接层对所述每个语音片段对应的第一编码向量进行解码处理，得到流式语音识别对应的第一语音识别结果；

调用所述语音识别模型中的第二编码模块以及解码模块对所述每个语音片段对应的第一编码向量进行非流式语音识别，得到第二语音识别结果。

在一个实施例中，所述处理单元501，还用于：

获取语音样本集，所述语音样本集包括多个语音样本以及每个语音样本的标注信息；

调用初始模型对所述每个语音样本进行流式语音识别，得到所述每个语音样本的字级别预测序列；

调用所述初始模型对所述每个语音样本进行非流式语音识别，得到所述每个语音样本的音素级别预测序列；

利用所述每个语音样本的标注信息、字级别预测序列和音素级别预测序列对所述初始模型的模型参数进行调整，得到语音识别模型。

在一个实施例中，所述处理单元501在利用所述每个语音样本的标注信息、字级别预测序列和音素级别预测序列对所述初始模型的模型参数进行调整，得到语音识别模型时，可具体用于：

获取所述每个语音样本的字级别预测序列和字级别序列标签之间的字级损失值，以及获取所述每个语音样本的音素级别预测序列和音素级别序列标签之间的音素级损失值；

根据所述字级损失值和所述音素级损失值得到初始模型的总损失值；

利用梯度下降算法根据所述总损失值更新所述初始模型的模型参数，得到语音识别模型。

在一个实施例中，所述处理单元501在调用初始识别模型对所述每个语音样本进行流式语音识别，得到所述每个语音样本的字级别预测序列时，可具体用于：

调用初始模型中的第一编码模块对所述多个语音样本中每个语音样本进行遮挡处理，得到所述每个语音样本中多个语音片段的编码结果；

调用所述初始模型中与所述第一编码模块对应的全连接层对所述每个语音样本中多个语音片段对应的编码结果进行解码处理，得到所述每个语音样本的字级别预测序列。

可以理解的是，本实施例的语音识别装置的各功能单元的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例图2或者图4的相关描述，此处不再赘述。

进一步地，请参见图6，图6是本申请实施例提供的一种计算机设备的结构示意图。上述图2或图4对应实施例中的计算机设备可以为图6所示的计算机设备。如图6所示，计算机设备可以包括：处理器601、输入设备602，输出设备603和存储器604。上述处理器601、输入设备602、输出设备603和存储器604通过总线605连接。存储器604用于存储计算机程序，所述计算机程序包括程序指令，处理器601用于执行存储器604存储的程序指令。

在本申请实施例中，处理器601通过运行存储器604中的可执行程序代码，执行如下操作：获取输入的语音数据；调用语音识别模型对所述语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，所述语音识别模型是基于多个语音样本以及每个语音样本的标注信息训练得到的，所述标注信息包括字级别序列标签和音素级别序列标签；在信息交互界面中显示所述第一语音识别结果；获取与所述第二语音识别结果对应的问答结果，并在所述信息交互界面中显示所述问答结果。

在一个实施例中，所述处理器601还用于：

在一个实施例中，所述处理器601在获取与所述第二语音识别结果对应的问答结果时，可具体用于：

在一个实施例中，所述处理器601在调用语音识别模型对所述语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果时，可具体用于：

在一个实施例中，所述处理器601还用于：

在一个实施例中，所述处理器601在利用所述每个语音样本的标注信息、字级别预测序列和音素级别预测序列对所述初始模型的模型参数进行调整，得到语音识别模型时，可具体用于：

在一个实施例中，所述处理器601在调用初始识别模型对所述每个语音样本进行流式语音识别，得到所述每个语音样本的字级别预测序列时，可具体用于：

应当理解，在本申请实施例中，所称处理器601可以是中央处理单元（CentralProcessing Unit，CPU），该处理器601还可以是其他通用处理器、数字信号处理器（DigitalSignal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器604可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器。

该输入设备602可以包括语音输入组件等，并向处理器601输入语音数据；该输出设备603可以包括显示器等，可以输出第一语音识别结果和问答结果。

具体实现中，本申请实施例中所描述的处理器601、输入设备602、输出设备603和存储器604可执行上述所有实施例中描述的实现方式，也可执行上述装置中所描述的实现方式，在此不再赘述。

本申请实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述所有实施例中所执行的步骤。

本申请实施例还提供一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被计算机设备的处理器执行时，执行上述所有实施例中的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取输入的语音数据；

调用语音识别模型对所述语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，所述语音识别模型是基于多个语音样本以及每个语音样本的标注信息训练得到的，所述标注信息包括字级别序列标签和音素级别序列标签；

在信息交互界面中显示所述第一语音识别结果；

获取与所述第二语音识别结果对应的问答结果，并在所述信息交互界面中显示所述问答结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取与所述第二语音识别结果对应的问答结果，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述调用语音识别模型对所述语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述利用所述每个语音样本的标注信息、字级别预测序列和音素级别预测序列对所述初始模型的模型参数进行调整，得到语音识别模型，包括：

根据所述字级损失值和所述音素级损失值得到所述初始模型的总损失值；

7.根据权利要求5所述的方法，其特征在于，所述调用初始识别模型对所述每个语音样本进行流式语音识别，得到所述每个语音样本的字级别预测序列，包括：

8.一种语音识别装置，其特征在于，包括：

处理单元，用于获取输入的语音数据；

所述处理单元，还用于调用语音识别模型对所述语音数据进行流式语音识别和非流式语音识别，得到第一语音识别结果和第二语音识别结果，所述语音识别模型是基于多个语音样本以及每个语音样本的标注信息训练得到的，所述标注信息包括字级别序列标签和音素级别序列标签；

显示单元，用于在信息交互界面中显示所述第一语音识别结果；

所述处理单元，还用于获取与所述第二语音识别结果对应的问答结果；

所述显示单元，还用于在所述信息交互界面中显示所述问答结果。

9.一种计算机设备，其特征在于，包括：

处理器，适用于实现一条或多条计算机程序；以及

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-7任一项所述的语音识别方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时，执行权利要求1-7中任一项所述的语音识别方法。