CN115691476B

CN115691476B - 语音识别模型的训练方法、语音识别方法、装置及设备

Info

Publication number: CN115691476B
Application number: CN202210633131.8A
Authority: CN
Inventors: 井博军; 张弼弘
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2023-07-04
Anticipated expiration: 2042-06-06
Also published as: CN115691476A

Abstract

本申请提供了一种语音识别模型的训练方法、语音识别方法、装置及设备，属于语音识别技术领域。所述语音识别模型的训练方法包括：通过所述语音识别模型中的第一编码器，对样本语音片段的样本特征序列中多个特征子序列分别进行编码，得到多个第一特征编码；对所述多个第一特征编码进行分块，得到多个特征块；通过所述语音识别模型中的第二编码器，对所述多个特征块分别进行编码，得到多个第二特征编码；对所述多个第一特征编码和所述多个第二特征编码分别进行解码，得到多个解码文本；基于所述多个解码文本与所述样本语音片段的标注文本之间的差异，训练所述语音识别模型。上述方案能够降低语音识别的延迟以及提高语音识别模型的识别准确率。

Description

语音识别模型的训练方法、语音识别方法、装置及设备

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音识别模型的训练方法、语音识别方法、装置及设备。

背景技术

语音识别技术指的是通过对语音信号进行识别，将语音信号转变成对应的文本的技术。该语音识别技术在语音唤醒、会议记录以及语音输入等多种场景下具有广泛应用。如何提高语音识别的准确率成为业内研究的重点。

目前，通常采用在语音识别模型中引入注意力机制的方式来对语音信号进行识别。在语音识别过程中，基于注意力机制，关注语音信号中语音的上下文信息，基于语音的上下文信息来对语音信号中的该语音进行识别。

但是，上述方法中，由于在语音识别过程中需要获取到识别所需的上下文信息，才能够对语音信号进行识别，引入的上下文信息越长，则获取上下文的时间就越长，从而导致基于上述语音识别模型进行语音识别时的延迟也就越长。

发明内容

本申请实施例提供了一种语音识别模型的训练方法、语音识别方法、装置及设备，能够降低语音识别的延迟以及提高语音识别模型的识别准确率。所述技术方案如下：

一方面，提供了一种语音识别模型的训练方法，所述方法包括：

通过所述语音识别模型中的第一编码器，对样本语音片段的样本特征序列中多个特征子序列分别进行编码，得到多个第一特征编码；

对所述多个第一特征编码进行分块，得到多个特征块，所述特征块包括至少两个第一特征编码；

通过所述语音识别模型中的第二编码器，对所述多个特征块分别进行编码，得到多个第二特征编码；

对所述多个第一特征编码和所述多个第二特征编码分别进行解码，得到多个解码文本；

基于所述多个解码文本与所述样本语音片段的标注文本之间的差异，训练所述语音识别模型，所述标注文本为所述样本语音片段对应的真实文本，所述差异为解码文本中的字符与所述标注文本中的字符之间的差异。

另一方面，提供了一种语音识别方法，所述方法包括：

响应于当前接收到的语音片段的长度达到第一时长，对所述语音片段进行特征提取，得到语音特征序列，所述语音特征序列包括所述第一时长内的多个语音特征；

基于语音识别模型中的第一编码器，对所述语音特征序列进行编码，得到第一语音特征编码；

基于所述语音识别模型中的第一解码器，对所述第一语音特征编码进行解码，显示解码得到的第一文本；

响应于当前接收到的语音片段的长度达到第二时长，基于语音识别模型中的第二编码器，对所述第二时长内编码得到的多个第一语音特征编码进行编码，得到第二语音特征编码，所述第二时长大于所述第一时长；

基于所述第一解码器，对所述第二语音特征编码进行解码，得到第二文本；

将当前显示的多个第一文本替换为所述第二文本。

另一方面，提供了一种语音识别模型的训练装置，所述装置包括：

第一编码模块，用于通过所述语音识别模型中的第一编码器，对样本语音片段的样本特征序列中多个特征子序列分别进行编码，得到多个第一特征编码；

分块模块，用于对所述多个第一特征编码进行分块，得到多个特征块，所述特征块包括至少两个第一特征编码；

第二编码模块，用于通过所述语音识别模型中的第二编码器，对所述多个特征块分别进行编码，得到多个第二特征编码；

解码模块，用于对所述多个第一特征编码和所述多个第二特征编码分别进行解码，得到多个解码文本；

训练模块，用于基于所述多个解码文本与所述样本语音片段的标注文本之间的差异，训练所述语音识别模型，所述标注文本为所述样本语音片段对应的真实文本，所述差异为解码文本中的字符与所述标注文本中的字符之间的差异。

在一些实施例中，所述第一编码模块，用于对于除首个特征子序列外的任一特征子序列，将时序在所述特征子序列之前的至少一个特征子序列与所述特征子序列进行融合，得到第一融合特征；对所述第一融合特征进行编码，得到所述特征子序列的第一特征编码。

在一些实施例中，所述第二编码模块，用于对于除首个特征块外的任一特征块，将时序在所述特征块之前的至少一个特征块与所述特征块进行融合，得到第二融合特征；对所述第二融合特征进行编码，得到所述特征块的第二特征编码。

在一些实施例中，所述语音识别模型包括第一解码器和第二解码器，所述第一编码器用于采用非自回归的方式解码，所述第二编码器用于采用自回归的方式解码；

所述解码模块，包括：

第一解码单元，用于通过所述第一解码器，对所述多个第一特征编码和所述多个第二特征编码分别进行解码，得到第一解码文本和第二解码文本；

第二解码单元，用于通过所述第二解码器，对所述多个第一特征编码和所述多个第二特征编码分别进行解码，得到第三解码文本和第四解码文本。

在一些实施例中，所述训练模块，用于基于所述第一解码文本和所述标注文本之间的差异，确定第一损失，所述第一损失为CTC损失；基于所述第二解码文本和所述标注文本之间的差异，确定第二损失，所述第二损失为CTC损失；基于所述第三解码文本和所述标注文本之间的差异，确定第三损失，所述第三损失为交叉熵损失；基于所述第四解码文本和所述标注文本之间的差异，确定第四损失，所述第四损失为交叉熵损失；通过所述第一损失、所述第二损失、所述第三损失以及所述第四损失，训练所述语音识别模型。

另一方面，提供了一种语音识别装置，所述装置包括：

提取模块，用于响应于当前接收到的语音片段的长度达到第一时长，对所述语音片段进行特征提取，得到语音特征序列，所述语音特征序列包括所述第一时长内的多个语音特征；

第一编码模块，用于基于语音识别模型中的第一编码器，对所述语音特征序列进行编码，得到第一语音特征编码；

解码模块，用于基于所述语音识别模型中的第一解码器，对所述第一语音特征编码进行解码，显示解码得到的第一文本；

第二编码模块，用于响应于当前接收到的语音片段的长度达到第二时长，基于语音识别模型中的第二编码器，对所述第二时长内编码得到的多个第一语音特征编码进行编码，得到第二语音特征编码，所述第二时长大于所述第一时长；

所述解码模块，还用于基于所述第一解码器，对所述第二语音特征编码进行解码，得到第二文本；

替换模块，将当前显示的多个第一文本替换为所述第二文本。

在一些实施例中，所述解码模块，包括：

解码单元，用于基于所述第一解码器，对所述第一语音特征编码进行解码，得到按照时序排列的多个字符，所述多个字符包括空白字符；

去重单元，用于基于所述多个字符中空白字符的位置和语法规则，去除所述多个字符中重复的字符，所述语法规则用于表示连续排列的字符之间所需遵守的规则；

删除单元，用于删除所述多个字符中的空白字符；

显示单元，用于将剩下的字符显示为所述第一文本。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的语音识别模型的训练方法或者语音识别方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现如本申请实施例中语音识别模型的训练方法或者语音识别方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各个方面或者各种可选实现方式中提供的语音识别模型的训练方法或者语音识别方法。

本申请实施例提供了一种语音识别模型的训练方法，通过对样本语音片段的样本特征序列中多个子序列分别进行编码，得到多个第一特征编码，再对多个第一特征编码进行分块，然后对分块后的多个特征块分别进行编码，得到多个第二特征编码，再对多个第一特征编码和多个第二特征编码分别进行解码，由于上述方法不需要引入下文信息，只需通过上文信息就能实现语音识别，在语音识别过程中能够较快地获取到识别所需的上文信息，从而降低语音识别的延迟，并且由于特征块包括至少两个第一特征编码，使得特征块中包含的特征信息比特征子序列中包含的特征信息多，从而通过对多个第一特征编码和多个第二特征编码分别进行解码所得到解码文本训练得到的语音识别模型，在保证较低延迟的情况下，能够提高语音识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的一种语音识别模型的训练方法的实施环境示意图；

图2是根据本申请实施例提供的一种语音识别模型的训练方法的流程图；

图3是根据本申请实施例提供的另一种语音识别模型的训练方法的流程图；

图4是根据本申请实施例提供的一种语音识别模型的结构示意图；

图5是根据本申请实施例提供的一种语音识别模型的识别效果图；

图6是根据本申请实施例提供的一种语音识别方法的流程图；

图7是根据本申请实施例提供的一种语音识别的示意图；

图8是根据本申请实施例提供的一种语音识别模型的训练装置的结构示意图；

图9是根据本申请实施例提供的另一种语音识别模型的训练装置的结构示意图；

图10是根据本申请实施例提供的一种语音识别装置的结构示意图；

图11是根据本申请实施例提供的另一种语音识别装置的结构示意图；

图12是根据本申请实施例提供的一种终端的结构示意图；

图13是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的语音片段都是在充分授权的情况下获取的。

为了便于理解，以下，对本申请涉及的术语进行解释。

CTC(Connectionist Temporal Classification)：是一种端到端语音识别系统框架。

AED(Attention-Based Encoder-Decoder)：是一种基于注意力编码器解码器的端到端语音识别系统框架。

Conformer(Convolution-augmented Transformer)：是一种结合卷积的Transformer网络。在本申请实施例中，基于Conformer网络结构搭建语音识别系统的编码器。

Transformer：是一种基于注意力机制的深度学习网络结构。

Chunk：是一种通过对特征序列进行分块操作来实现信息截断的方式，常用于注意力机制流式化方案中。

TLG(Token Lexicon Grammar)：是一种基于语言模型的解码框架。

本申请实施例提供的信息显示方法，能够由计算机设备执行。在一些实施例中，该计算机设备为终端或服务器。下面以计算机设备为服务器为例，介绍一下本申请实施例提供的语音识别模型的训练方法的实施环境，图1是根据本申请实施例提供的一种语音识别模型的训练方法的实施环境示意图。参见图1，该实施环境包括终端101和服务器102。终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一些实施例中，终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。终端101安装和运行有支持语音识别的应用程序。该应用程序可以是会议类应用、通信类应用或者多媒体类应用，本申请实施例对此不进行限制。例如，以该应用程序是会议类应用程序为例进行说明，终端101是用户使用的终端，当进行会议记录时，终端101能够获取讲话人的语音信号，将该语音信号发送到服务器102，由服务器102通过语音识别模型对该语音信号进行识别。其中，该语音识别模型是服务器102基于多个样本语音片段训练得到的。终端101能够显示识别出的文本，并对该文本进行记录。或者，终端101能够从服务器102中获取训练好的语音识别模型，然后，终端101能够通过该语音识别模型，在本地对获取的语音信号进行识别，得到并显示识别的文本。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

在一些实施例中，服务器102是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为支持语音识别的应用程序提供后台服务。在一些实施例中，服务器102承担主要计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，服务器102和终端101二者之间采用分布式计算架构进行协同计算。

图2是根据本申请实施例提供的一种语音识别模型的训练方法的流程图，参见图2，在本申请实施例中以由服务器执行为例进行说明。该语音识别模型的训练方法包括以下步骤：

201、服务器通过语音识别模型中的第一编码器，对样本语音片段的样本特征序列中多个特征子序列分别进行编码，得到多个第一特征编码。

在本申请实施例中，该语音识别模型用于识别语音片段，也即将语音片段转换成该语音片段对应的文本。为了降低语音识别的延迟以及保证该语音识别模型进行语音识别的准确率，服务器能够通过样本语音片段，对该语音识别模型进行训练。该样本语音片段可以是男人的语音片段、女人的语音片段或者小孩的语音片段等各类人的语音片段，也可以是中文的语音片段、英文的语音片段或者韩文的语音片段等各类语言的语音片段，本申请对此不进行限制。该语音识别模型包括第一编码器。该第一编码器用于对样本语音片段的样本特征序列进行编码。该样本特征序列由对该样本语音片段进行特征提取得到。该样本特征序列可以划分为多个特征子序列，本申请实施例对特征子序列的长度和数量不进行限制。服务器能够通过第一编码器对该多个特征子序列分别进行编码，得到该多个特征子序列对应的多个第一特征编码。其中，特征子序列与第一特征编码一一对应。

202、服务器对多个第一特征编码进行分块，得到多个特征块，该特征块的包括至少两个第一特征编码。

在本申请实施例中，该多个第一特征编码按照时序依次排列。服务器能够将该多个第一特征编码划分为多个特征块。对于任一特征块，该特征块包括至少两个第一特征编码，也即单个特征块中包含的特征信息比单个第一特征编码中包含的特征信息多，从而在通过对特征进行编码以及解码过程中，能够利用较多的特征信息来训练该语音识别模型，进而能够提高语音识别模型的准确性。其中，该多个特征块中任意两个特征块包含的第一特征编码的数量可以相等，也可以不等，本申请实施例对此不进行限制。

203、服务器通过语音识别模型中的第二编码器，对多个特征块分别进行编码，得到多个第二特征编码。

在本申请实施例中，该语音识别模型还包括第二编码器。该第二编码器用于对第一编码器的输出进行编码。服务器能够先将第一编码器输出的多个第一特征编码划分为多个特征块。然后，服务器再将该多个特征块输入到第二编码器，由该第二编码器对该多个特征块分别进行编码，得到该多个特征块对应的多个第二特征编码。或者，服务器还能够先将第一编码器输出的多个第一特征编码输入到第二编码器中。然后，服务器再将该多个第一特征编码划分为多个特征块。然后，服务器通过该第二编码器对该多个特征块分别进行编码，得到该多个特征块对应的多个第二特征编码。其中，特征块与第二特征编码一一对应。

204、服务器对多个第一特征编码和多个第二特征编码分别进行解码，得到多个解码文本。

在本申请实施例中，服务器对多个第一特征编码进行解码，得到该多个第一特征编码对应的解码文本。服务器对多个第二特征编码进行解码，得到该多个第二特征编码对应的解码文本。

205、服务器基于多个解码文本与样本语音片段的标注文本之间的差异，训练语音识别模型，该标注文本为样本语音片段对应的真实文本，该差异为解码文本中的字符与标注文本中的字符之间的差异。

在本申请实施例中，服务器将多个第一特征编码对应的多个解码文本按照时序排列，基于排列后的解码文本与样本语音片段的标注文本之间的差异，训练语音识别模型。并且，服务器将多个第二特征编码对应的多个解码文本按照时序排列，基于排列后的解码文本与样本语音片段的标注文本之间的差异，训练语音识别模型。

图3是根据本申请实施例提供的另一种语音识别模型的训练方法的流程图，参见图3，在本申请实施例中以由服务器执行为例进行说明。该语音识别模型的训练方法包括以下步骤：

301、服务器通过语音识别模型中的第一编码器，对样本语音片段的样本特征序列中多个特征子序列分别进行编码，得到多个第一特征编码。

在本申请实施例中，该语音识别模型用于识别语音片段，也即将语音片段转换成该语音片段对应的文本。为了降低语音识别的延迟以及保证该语音识别模型进行语音识别的准确率，服务器能够通过样本语音片段，对该语音识别模型进行训练。该语音识别模型包括第一编码器。在训练模型的过程中，服务器通过第一编码器对于样本语音片段的样本特征序列进行编码。其中，该样本特征序列中包括样本语音片段对应的语音特征。该语音特征可以是频谱特征、梅尔滤波特征或者Fbank特征等，本申请实施例对此不进行限制。服务器能够对样本语音片段的样本特征序列进行划分，得到多个特征子序列，本申请实施例对多个特征子序列的数量以及特征子序列的长度不进行限制。相比于样本特征序列，特征子序列中包含的语音特征较少。然后，服务器能够通过第一编码器对该多个特征子序列分别进行编码，得到该多个特征子序列对应的多个第一特征编码。其中，该第一编码器为16层的Conformer结构。

在一些实施例中，服务器能够通过时序在特征子序列之前的特征子序列，对该特征子序列进行编码。相应的，服务器对特征子序列进行编码的过程为：对于除首个特征子序列外的任一特征子序列，服务器将时序在该特征子序列之前的至少一个特征子序列与该特征子序列进行融合，得到第一融合特征。然后，服务器对第一融合特征进行编码，得到该特征子序列的第一特征编码。其中，该首个特征子序列为多个特征子序列中时序最靠前的特征子序列。对于首个特征子序列，服务器基于该首个特征子序列中包含的特征信息，对该首个特征子序列进行编码，得到该首个特征子序列的第一特征编码。本申请实施例提供的方案，通过时序在该特征子序列之前的特征子序列，对该特征子序列进行编码，使得该特征子序列的特征编码中包含该特征子序列的上文信息，从而不需要引入下文信息，只需通过上文信息就能实现语音识别，基于此对该语音识别模型进行训练，能够较快地获取到识别所需的上文信息，从而降低语音识别的延迟。

在一些实施例中，服务器能够通过时序在特征子序列之前的特征子序列以及时序在特征子序列之后的特征子序列，对该特征子序列进行编码。相应的，服务器对特征子序列进行编码的过程为：对于除首个特征子序列外的任一特征子序列，服务器将时序在该特征子序列之前的至少一个特征子序列、该特征子序列以及时序在该特征子序列之后的至少一个特征子序列进行融合，得到第三融合特征。然后，服务器对第三融合特征进行编码，得到特征子序列的第一特征编码。其中，所利用的时序在该特征子序列前后的特征子序列的数量可以相等，也可以不等，本申请实施例对此不进行限制。对于首个特征子序列，服务器能够基于时序在该首个特征子序列之后的至少一个特征子序列，对该首个特征子序列进行编码，得到该首个特征子序列的第一特征编码。本申请实施例提供的方案，通过时序在该特征子序列之前的特征子序列和时序在该特征子序列之后的特征子序列，对该特征子序列进行编码，使得该特征子序列的特征编码中包含该特征子序列的部分上文信息和部分下文信息，从而不需要引入过多的上下文信息，基于此对该语音识别模型进行训练，能够较快地获取到识别所需的上下文信息，从而降低语音识别的延迟。

需要说明的是，服务器能够通过动态掩码的方式，来获取时序在该特征子序列之前的特征子序列或者时序在该特征子序列之后的特征子序列。换而言之，在对任一特征子序列进行编码的过程中，服务器能够确定时序在该特征子序列之前的特征子序列或者时序在该特征子序列之后的特征子序列。然后，服务器通过掩码对将样本特征序列中对该编码操作无用的特征子序列进行遮盖。然后，服务器通过未遮盖的时序在该特征子序列前后的特征子序列，对该特征子序列进行编码。本申请实施例提供的方案，通过动态掩码的方式，确定时序在该特征子序列之前的部分特征子序列或者时序在该特征子序列之后的部分特征子序列，使得在对语音识别模型进行训练的过程中不需要引入过多的上下文信息，基于此对该语音识别模型进行训练，能够较快地获取到识别所需的上下文信息，从而降低语音识别的延迟。

需要说明的是，该样本语音片段来自于样本训练集中，该样本训练集包括多个样本语音片段。服务器能够分批次对该语音识别模型进行训练。一个批次的样本中包括多个样本语音片段。服务器能够采用整句训练的方式对一批次的样本语音片段进行编码，也可以采用chunk的方式对样本语音片段的样本特征序列进行划分，得到多个特征子序列，对该多个特征子序列分别进行编码。服务器可以通过以下公式一，确定特征子序列对应的语音特征的长度。

公式一：

其中，l_max表示一批次内样本语音片段的样本特征序列对应的特征最大长度；U表示均匀分布；x表示随机数，用于指示样本语音片段的批次。最终的训练过程中有一半批次的样本语音片段会按照整句训练，也即对该批次的样本语音片段的样本特征序列的整体进行编码以及解码，不会对样本特征序列进行划分；另外一半批次的样本语音片段的样本特征序列对应的特征长度在8到22间随机取值，也即该批次的样本语音片段的样本特征序列，基于该批次对应的值进行划分，对划分后的多个特征子序列分别进行编码以及解码。

302、服务器对多个第一特征编码进行分块，得到多个特征块，该特征块包括至少两个第一特征编码。

在本申请实施例中，第一编码器输出多个第一特征编码。该多个第一特征编码按照时序依次排列。服务器能够对多个第一特征编码进行划分，得到多个特征块。对于任一特征块，该特征块包括至少两个第一特征编码，本申请实施例对于特征块中第一特征编码的数量不进行限制。其中，服务器划分多个特征块的方式与步骤301中划分对多个特征子序列的方式相似，在此不再赘述。为了在编码过程中获取更多的特征信息，服务器能够对多个第一特征编码进行划分，使得划分后的特征块中包括至少两个第一特征编码。该特征块对应的语音特征的特征长度在50到250之间。

在一些实施例中，服务器能够对第一编码器输出的多个第一特征编码进行降采样。然后，服务器对降采样后的多个第一特征编码进行划分，得到多个特征块。本申请实施例提供的方案，通过对多个第一特征编码进行降采样，减少数据量，能够减少特征块的数量，使得第二编码器能够较快的对该多个特征块进行编码，提高了该语音识别模型的编码效率，从而提高了语音识别模型的训练效率。

303、服务器通过语音识别模型中的第二编码器，对多个特征块分别进行编码，得到多个第二特征编码。

在本申请实施例中，该语音识别模型还包括第二编码器。该第二编码器用于对第一编码器的输出进行编码。服务器能够将多个第一特征编码划分为多个特征块，然后对多个特征块分别进行编码，得到多个特征块对应的多个第二特征编码。该第二特征编码与特征块一一对应。其中，该第二编码器为2层的Conformer结构。

在一些实施例中，服务器能够通过时序在特征块之前的特征块，对该特征块进行编码。相应的，服务器对特征块进行编码的过程为：对于除首个特征块外的任一特征块，服务器将时序在该特征块之前的至少一个特征块与该特征块进行融合，得到第二融合特征。然后，服务器对第二融合特征进行编码，得到该特征块的第二特征编码。其中，该首个特征块为多个特征块中时序最靠前的特征块。对于首个特征块，服务器能够基于该首个特征块包含的特征信息，对该首个特征块进行编码，得到该首个特征块的第二特征编码。本申请实施例通过时序在该特征块之前的特征块，对该特征块进行编码，使得该特征块的特征编码中包含该特征块的上文信息，从而不需要引入下文信息，只需通过上文信息就能实现语音识别，基于此对该语音识别模型进行训练，能够较快地获取到识别所需的上文信息，从而降低语音识别的延迟。

在一些实施例中，服务器能够通过时序在特征块之前的特征块以及时序在特征块之后的特征块，对该特征块进行编码。相应的，服务器对特征块进行编码的过程为：对于除首个特征块外的任一特征块，服务器将时序在该特征块之前的至少一个特征块、该特征块以及时序在该特征块之后的至少一个特征块进行融合，得到第四融合特征。然后，服务器对第四融合特征进行编码，得到特征块的第二特征编码。时序在该特征块之前的特征块的数量和时序在该特征块之后的特征块的数量可以相等，也可以不等，本申请实施例对此不进行限制。对于首个特征块，服务器能够基于时序在该首个特征块之后的至少一个特征块，对该首个特征块进行编码，得到该首个特征块的第二特征编码。本申请实施例通过时序在该特征块之前的部分特征块和时序在该特征块之后的部分特征块，对该特征块进行编码，使得该特征块的特征编码中包含该特征块的部分上文信息和部分下文信息，从而不需要引入过多的上下文信息，基于此对该语音识别模型进行训练，能够较快地获取到识别所需的上下文信息，从而减少语音识别的延迟。

304、服务器通过第一解码器，对多个第一特征编码和多个第二特征编码分别进行解码，得到第一解码文本和第二解码文本。

在本申请实施例中，该语音识别模型还包括第一解码器。该第一解码器基于CTC框架对特征编码进行解码，可称之为CTC解码器。服务器能够通过该第一解码器，对多个第一特征编码进行解码，得到第一解码文本。该第一解码文本中包括多个第一特征编码对应的多个解码文本，该多个解码文本按照时序排列。服务器能够通过该第一解码器，对多个第二特征编码进行解码，得到第二解码文本。该第二解码文本中包括多个第二特征编码对应的多个解码文本，该多个解码文本按照时序排列。其中，解码文本为特征编码对应的字符串。在解码过程中，第一解码器用于采用非自回归的方式解码。换而言之，基于第一解码器得到的解码文本中每个字符之间没有依赖关系。整个解码文本中每个字符并行同步预测。该第一解码器中包括softmax层，通过该softmax层能够确定特征编码对应的概率分布。服务器通过概率分布中最大概率对应的字符作为该特征编码对应的识别结果。其中，特征编码可以对应单个字符、多个字符或者空白字符等，本申请实施例对此不进行限制。

305、服务器通过第二解码器，对多个第一特征编码和多个第二特征编码分别进行解码，得到第三解码文本和第四解码文本。

在本申请实施例中，该语音识别模型还包括第二解码器。该第二解码器基于注意力机制对特征编码进行解码，可称之为AED解码器。服务器能够通过该第二解码器，基于注意力机制，对多个第一特征编码进行解码，得到第三解码文本。该第三解码文本中包括多个第一特征编码对应的多个解码文本，该多个解码文本按照时序排列。服务器能够通过该第二解码器，基于注意力机制，对多个第二特征编码进行解码，得到第四解码文本。该第四解码文本中包括多个第二特征编码对应的多个解码文本，该多个解码文本按照时序排列。在解码过程中，该第二解码器用于采用自回归的方式解码。换而言之，第二解码器基于当前训练周期之前的多个训练周期中得到解码文本，来确定当前训练周期的解码文本。基于第二解码器得到的解码文本中每个字符之间具有依赖关系，也即当前字符基于时序在该字符之前已得到的字符来确定。该第二解码器是Transformer网络结构。

306、服务器基于多个解码文本与样本语音片段的标注文本之间的差异，训练语音识别模型，该标注文本为样本语音片段对应的真实文本，该差异为解码文本中的字符与标注文本中的字符之间的差异。

在本申请实施例中，服务器能够将解码得到的解码文本与该标注文本进行比对，然后基于两者之间的差异来训练语音识别模型。该标注文本中包括至少一个字符。该解码文本中包括至少一个字符。该字符可以是数字、英文字母或者汉字等，本申请实施例对此不进行限制。标注文本中的字符和解码文本中的字符均按照时序排列。服务器能够按照时序对标注文本中的字符和解码文本中的字符依次进行对比，确定解码文本中的字符与标注文本中的字符之间的差异。然后，服务器基于该差异，对语音识别模型进行训练。

在一些实施例中，服务器通过解码文本与标注文本之间的差异构建损失函数，通过损失函数来对该语音识别模型进行训练。相应的，服务器通过损失函数对该语音识别模型进行训练的过程为：服务器基于第一解码文本和标注文本之间的差异，确定第一损失。服务器基于第二解码文本和标注文本之间的差异，确定第二损失。服务器基于第三解码文本和标注文本之间的差异，确定第三损失。服务器基于第四解码文本和标注文本之间的差异，确定第四损失。然后，服务器通过第一损失、第二损失、第三损失以及第四损失，训练语音识别模型。其中，第一损失为CTC损失，第二损失为CTC损失，第三损失为交叉熵损失，第四损失为交叉熵损失。本申请实施例提供的方案，通过构建两个CTC损失函数和两个交叉熵损失，来训练语音识别模型，使得训练的语音识别模型识别的准确率更高，识别效率更快。

为了更加清楚地描述该语音识别模型，图4是根据本申请实施例提供的一种语音识别模型的结构示意图。参见图4，该语音识别模型包括第一编码器、第二编码器、第一解码器以及第二解码器。第一编码器的输出能够作为第二编码器的输入、第一解码器的输入以及第二解码器的输入。第二编码器的输出能够作为第一解码器的输入以及第二解码器的输入。服务器将样本语音片段的样本特征序列输入到第一编码器中。服务器通过该第一编码器对样本特征序列中多个特征子序列分别进行编码，输出多个第一特征编码。服务器将第一编码器输出的多个第一特征编码，输入到第二编码器中，由第二编码器对多个第一特征编码再次进行编码，输出多个第二特征编码。然后，服务器能够将多个第一特征编码和多个第二特征编码分别输入到第一解码器中，通过第一解码器进行解码。服务器还能够将多个第一特征编码和多个第二特征编码分别输入到第二解码器中，通过第二解码器进行解码。然后，服务器通过第一解码器和第二解码器的解码文本与标注文本构建四个损失函数，以此来训练语音识别模型。其中，服务器能够采用不同的权值对该四个损失函数进行加权，基于加权后的四个损失函数来训练语音识别模型。

将该语音识别模型应用到语音片段的实时识别场景中，该语音识别模型能够达到一个较好的效果。图5是根据本申请实施例提供的一种语音识别模型的识别效果图。参见图5，图5示例性的示出了本方案的语音识别模型和现有的语音识别模型的在不同业务场景的出错字符对比结果，该对比结果来自多个样本测试集的平均。如图5所示，采用语音输入法输入的3秒语音中出错字符从6.4下降到5.7，识别性能平均提升10.9％；语音笔记内的10秒语音中出错字符从11.8下降到10，识别性能平均提升15.3％。

图6是根据本申请实施例提供的一种语音识别方法的流程图，参见图6，在本申请实施例中以由终端执行为例进行说明。该语音识别方法包括以下步骤：

601、响应于当前接收到的语音片段的长度达到第一时长，终端对语音片段进行特征提取，得到语音特征序列，该语音特征序列包括第一时长内的多个语音特征。

在本申请实施例中，该终端为图1所示的终端101。该终端支持语音识别功能。该终端能够通过麦克风采集用户说出的语音片段。在当前接收到的语音片段的长度达到第一时长的情况下，终端能够对当前第一时长内已接收的语音片段进行特征提取。其中，该第一时长可以是0.5秒、0.8秒或者1秒等，本申请实施例对此不进行限制。终端能够对该语音片段进行特征提取，得到语音特征序列。该语音特征序列中的语音特征可以是频谱特征、梅尔滤波特征或者Fbank特征等，本申请实施例对此不进行限制。

602、终端基于语音识别模型中的第一编码器，对语音特征序列进行编码，得到第一语音特征编码。

在本申请实施例中，终端能够从服务器中获取已训练好的语音识别模型。该语音识别模型用于识别语音片段，也即将语音片段转换成该语音片段对应的文本。该语音识别模型包括第一编码器。该第一编码器用于对语音特征序列进行编码。终端通过该第一编码器，对语音特征序列进行编码，得到第一时长内语音片段的第一语音特征编码。

603、终端基于语音识别模型中的第一解码器，对第一语音特征编码进行解码，显示解码得到的第一文本。

在本申请实施例中，该语音识别模型包括第一解码器。该第一解码器用于对语音特征编码进行解码。终端能够通过该第一解码器，对第一语音特征编码进行解码，得到当前第一时长内语音片段对应的第一文本。终端能够显示该第一文本。

在一些实施例中，受用户说话节奏的影响，该第一语音特征编码中特征编码可能对应单个字符、多个字符或者空白字符等，本申请实施例对此不进行限制。这就使得终端对第一语音特征编码进行解码得到的多个字符中包括空白字符以及重复字符。终端去除该多个字符中的空白字符和重复字符，之后得到最终的第一文本。相应的，终端显示第一文本的过程为：终端基于第一解码器，对第一语音特征编码进行解码，得到按照时序排列的多个字符。然后，终端基于多个字符中空白字符的位置和语法规则，去除多个字符中重复的字符。然后，终端删除多个字符中的空白字符。然后，终端将剩下的字符显示为第一文本。其中，语法规则用于表示连续排列的字符之间所需遵守的规则。该语法规则可以由TLG网络来确定。该TLG网络中包括语言模型G、词典模型L以及输出映射模型T。其中，语言模型G用于判断一个输入词序列是否符合语言的语法，以及该词序列出现的概率。词典模型L用于将词序列映射为字序列。输出映射模型T用于将输出层输出的字序列射到单个字符，其规则是将模型连续多个相同且中间无空白字符间隔的输出映射到一个单个字符，将中间有空白字符间隔的连续相同的输出映射到多个字符。本申请实施例提供的方案，通过语法规则，去除多个字符中空白字符和重符字符，能够减少用户说话节奏的影响，从而提高语音识别的准确率。

例如，按照时序排列多个字符为“_今今今_天_天气_晴晴_朗”，其中，“_”表示空白字符，则基于上述语法规则，该多个字符对应的第一文本为“今天天气晴朗”。

604、响应于当前接收到的语音片段的长度达到第二时长，终端基于语音识别模型中的第二编码器，对第二时长内编码得到的多个第一语音特征编码进行编码，得到第二语音特征编码，该第二时长大于该第一时长。

在本申请实施例中，该语音识别模型还包括第二编码器。该第二编码器用于对第一编码器的输出进行编码。在当前接收到的语音片段的长度达到第二时长的情况下，终端通过该第一编码器输出多个第一语音特征编码。然后，终端通过该第二编码器对多个第一语音特征编码进行编码，得到第二语音特征编码。其中，该第二时长可以是3秒、5秒或者10秒等，本申请实施例对此不进行限制。

605、终端基于第一解码器，对第二语音特征编码进行解码，得到第二文本。

在本申请实施例中，终端能够通过该第一解码器，对第二编码器输出的语音特征编码进行解码，得到第二文本。该第二文本为当前第二时长内的语音片段对应的文本。

在一些实施例中，受用户说话节奏的影响，该第二语音特征编码中特征编码可能对应单个字符、多个字符或者空白字符等，本申请实施例对此不进行限制。这就使得终端对第二语音特征编码进行解码得到的多个字符中包括空白字符以及重复字符。终端去除该多个字符中的空白字符和重复字符，之后得到最终的第二文本。终端能够基于语法规则，去除多个字符中的空白字符和重复字符，来得到第二文本。终端得到第二文本的方式与步骤603中终端得到第一文本的方式相似，在此不再赘述。本申请实施例提供的方案，通过语法规则，去除多个字符中空白字符和重符字符，能够减少用户说话节奏的影响，从而提高语音识别的准确率。

606、终端将当前显示的多个第一文本替换为第二文本。

在本申请实施例中，终端将已显示的多个第一文本替换为第二文本。该第二文本即为当前第二时长内语音片段的最终的识别结果。

为了更加清楚地描述本方案，在此对本方案进行整体阐述。图7是根据本申请实施例提供的一种语音识别的示意图。参见图7，终端接收用户说出的语音片段，当语音片段的长度达到第一时长时，终端通过第一编码器，对第一时长内该语音片段的语音特征序列进行编码。随着时间的推进，每隔第一时长，终端都会对当前第一时长内该语音片段的语音特征序列进行编码，得到第一语音特征编码。然后，终端对第一语音特征编码进行解码，得到该第一时长内语音片段的第一文本。该终端能够存储该第一语音特征编码。当接收到的语音片段的长度达到第二时长时，终端将已存储的多个第一语音特征编码输入到第二编码器。终端通过第二编码器对多个第一语音特征编码进行编码，得到第二语音特征编码。然后，终端能够对第二语音特征编码进行解码，得到第二文本，以第二文本来替换第一文本来进行显示。

本申请实施例提供了一种语音识别方法，通过对第一时长内的语音片段的语音特征进行编码和解码，来得到识别后的第一文本，由于第一时长较短，第一时长内的语音片段的语音特征序列包含的特征信息较少，使得能够较快的获取已有的上文信息，基于该上文信息对该语音特征序列进行编码和解码，从而能够降低语音识别的延迟，由于能够较快显示第一文本，能够减少延迟上屏的时间，增强用户体验，然后，通过对第二时长内的语音片段的多个第一语音特征编码进行编码和解码，来得到识别后的第二文本，由于第二时长较长，第二时长内的语音片段的多个第一语音特征编码中包含的特征信息多，由此得到的第二文本更加准确，将多个第一文本替换为第二文本，从而提高语音信号识别的准确率。

图8是根据本申请实施例提供的一种语音识别模型的训练装置的结构示意图。该装置用于执行上述语音识别模型的训练方法执行时的步骤，参见图8，该装置包括：第一编码模块801、分块模块802、第二编码模块803、解码模块804以及训练模块805。

第一编码模块801，用于通过语音识别模型中的第一编码器，对样本语音片段的样本特征序列中多个特征子序列分别进行编码，得到多个第一特征编码；

分块模块802，用于对多个第一特征编码进行分块，得到多个特征块，该特征块包括至少两个第一特征编码；

第二编码模块803，用于通过语音识别模型中的第二编码器，对多个特征块分别进行编码，得到多个第二特征编码；

解码模块804，用于对多个第一特征编码和多个第二特征编码分别进行解码，得到多个解码文本；

训练模块805，用于基于多个解码文本与样本语音片段的标注文本之间的差异，训练语音识别模型，该标注文本为样本语音片段对应的真实文本，该差异为解码文本中的字符与标注文本中的字符之间的差异。

在一些实施例中，图9是根据本申请实施例提供的另一种语音识别模型的训练装置的结构示意图，参见图9，第一编码模801，用于对于除首个特征子序列外的任一特征子序列，将时序在该特征子序列之前的至少一个特征子序列与该特征子序列进行融合，得到第一融合特征；对第一融合特征进行编码，得到特征子序列的第一特征编码。

在一些实施例中，继续参见图9，第二编码模块803，用于对于除首个特征块外的任一特征块，将时序在该特征块之前的至少一个特征块与该特征块进行融合，得到第二融合特征；对第二融合特征进行编码，得到该特征块的第二特征编码。

在一些实施例中，语音识别模型包括第一解码器和第二解码器，第一编码器用于采用非自回归的方式解码，第二编码器用于采用自回归的方式解码；

继续参见图9，解码模块804，包括：

第一解码单元901，用于通过第一解码器，对多个第一特征编码和多个第二特征编码分别进行解码，得到第一解码文本和第二解码文本；

第二解码单元902，用于通过第二解码器，对多个第一特征编码和多个第二特征编码分别进行解码，得到第三解码文本和第四解码文本。

在一些实施例中，继续参见图9，训练模块805，用于基于第一解码文本和标注文本之间的差异，确定第一损失，该第一损失为CTC损失；基于第二解码文本和标注文本之间的差异，确定第二损失，该第二损失为CTC损失；基于第三解码文本和标注文本之间的差异，确定第三损失，该第三损失为交叉熵损失；基于第四解码文本和标注文本之间的差异，确定第四损失，该第四损失为交叉熵损失；通过第一损失、第二损失、第三损失以及第四损失，训练语音识别模型。

本申请实施例提供了一种语音识别模型的训练装置，通过对样本语音片段的样本特征序列中多个子序列分别进行编码，得到多个第一特征编码，再对多个第一特征编码进行分块，然后对分块后的多个特征块分别进行编码，得到多个第二特征编码，再对多个第一特征编码和多个第二特征编码分别进行解码，由于上述方法不需要引入下文信息，只需通过上文信息就能实现语音识别，在语音识别过程中能够较快地获取到识别所需的上文信息，从而降低语音识别的延迟，并且由于特征块包括至少两个第一特征编码，使得特征块中包含的特征信息比特征子序列中包含的特征信息多，从而通过对多个第一特征编码和多个第二特征编码分别进行解码所得到解码文本训练得到的语音识别模型，在保证较低延迟的情况下，能够提高语音识别的准确率。

需要说明的是，上述实施例提供的语音识别模型的训练装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别模型的训练装置与语音识别模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是根据本申请实施例提供的一种语音识别装置的结构示意图。该装置用于执行上述语音识别方法执行时的步骤，参见图10，该装置包括：提取模块1001、第一编码模块1002、解码模块1003、第二编码模块1004以及替换模块1005。

提取模块1001，用于响应于当前接收到的语音片段的长度达到第一时长，对语音片段进行特征提取，得到语音特征序列，该语音特征序列包括第一时长内的多个语音特征；

第一编码模块1002，用于基于语音识别模型中的第一编码器，对语音特征序列进行编码，得到第一语音特征编码；

解码模块1003，用于基于语音识别模型中的第一解码器，对第一语音特征编码进行解码，显示解码得到的第一文本；

第二编码模块1004，用于响应于当前接收到的语音片段的长度达到第二时长，基于语音识别模型中的第二编码器，对第二时长内编码得到的多个第一语音特征编码进行编码，得到第二语音特征编码，该第二时长大于该第一时长；

该解码模块1003，还用于基于第一解码器，对第二语音特征编码进行解码，得到第二文本；

替换模块1005，将当前显示的多个第一文本替换为第二文本。

在一些实施例中，图11是根据本申请实施例提供的另一种语音识别装置的结构示意图。参见图11，该解码模块1003，包括：

解码单元1101，用于基于第一解码器，对第一语音特征编码进行解码，得到按照时序排列的多个字符，该多个字符包括空白字符；

去重单元1102，用于基于多个字符中空白字符的位置和语法规则，去除多个字符中重复的字符，该语法规则用于表示连续排列的字符之间所需遵守的规则；

删除单元1103，用于删除多个字符中的空白字符；

显示单元1104，用于将剩下的字符显示为第一文本。

本申请实施例提供了一种语音识别装置，通过对第一时长内的语音片段的语音特征序列进行编码和解码，来得到识别后的第一文本，由于第一时长较短，第一时长内的语音片段的语音特征包含的特征信息较少，使得能够较快地获取已有的上文信息，基于该上文信息对该语音特征序列进行编码和解码，从而能够降低语音识别的延迟，由于能够较快显示第一文本，能够减少延迟上屏的时间，增强用户体验，然后，通过对第二时长内的语音片段的多个第一语音特征编码进行编码和解码，来得到识别后的第二文本，由于第二时长较长，第二时长内的语音片段的多个第一语音特征编码中包含的特征信息多，由此得到的第二文本更加准确，将多个第一文本替换为第二文本，从而提高语音信号识别的准确率。

需要说明的是：上述实施例提供的语音识别装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备能够被配置为终端或者服务器，当计算机设备被配置为终端时，可以由终端作为执行主体来实施本申请实施例提供的技术方案，当计算机设备被配置为服务器时，可以由服务器作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方案，本申请实施例对此不作限定。

图12是根据本申请实施例提供的一种终端1200的结构框图。该终端1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1201所执行以实现本申请中方法实施例提供的语音识别模型的训练方法或者语音识别方法。

在一些实施例中，终端1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207和电源1208中的至少一种。

外围设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置在终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。在一些实施例中，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

电源1208用于为终端1200中的各个组件进行供电。电源1208可以是交流电、直流电、一次性电池或可充电电池。当电源1208包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1209。该一个或多个传感器1209包括但不限于：加速度传感器1210、陀螺仪传感器1211、压力传感器1212、光学传感器1213以及接近传感器1214。

加速度传感器1210可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1210可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1210采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1210还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1211可以检测终端1200的机体方向及转动角度，陀螺仪传感器1211可以与加速度传感器1210协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1211采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1212可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1212设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1212采集的握持信号进行左右手识别或快捷操作。当压力传感器1212设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1213用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1213采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1213采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1214，也称距离传感器，通常设置在终端1200的前面板。接近传感器1214用于采集用户与终端1200的正面之间的距离。在一个实施例中，当接近传感器1214检测到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接近传感器1214检测到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图13是根据本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)1301和一个或一个以上的存储器1302，其中，该存储器1302中存储有至少一条计算机程序，该至少一条计算机程序由该处理器1301加载并执行以实现上述各个方法实施例提供的语音识别模型的训练方法或者语音识别方法。当然，该服务器1300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1300还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一段计算机程序，该至少一段计算机程序由计算机设备的处理器加载并执行以实现上述实施例的语音识别模型的训练方法或者语音识别方法中计算机设备所执行的操作。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。训练语音识别模型所需的样本语音片段以区块链的方式存储。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各种可选实现方式中提供的语音识别模型的训练方法或者语音识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对样本语音片段的样本特征序列中多个特征子序列分别进行编码，得到多个第一特征编码，包括：

对于除首个特征子序列外的任一特征子序列，将时序在所述特征子序列之前的至少一个特征子序列与所述特征子序列进行融合，得到第一融合特征；

对所述第一融合特征进行编码，得到所述特征子序列的第一特征编码。

3.根据权利要求1所述的方法，其特征在于，所述对所述多个特征块分别进行编码，得到多个第二特征编码，包括：

对于除首个特征块外的任一特征块，将时序在所述特征块之前的至少一个特征块与所述特征块进行融合，得到第二融合特征；

对所述第二融合特征进行编码，得到所述特征块的第二特征编码。

4.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括第一解码器和第二解码器，所述第一解码器用于采用非自回归的方式解码，所述第二解码器用于采用自回归的方式解码；

所述对所述多个第一特征编码和所述多个第二特征编码分别进行解码，得到多个解码文本，包括：

通过所述第一解码器，对所述多个第一特征编码和所述多个第二特征编码分别进行解码，得到第一解码文本和第二解码文本；

通过所述第二解码器，对所述多个第一特征编码和所述多个第二特征编码分别进行解码，得到第三解码文本和第四解码文本。

5.根据权利要求4所述的方法，其特征在于，所述基于所述多个解码文本与所述样本语音片段的标注文本之间的差异，训练所述语音识别模型，包括：

基于所述第一解码文本和所述标注文本之间的差异，确定第一损失，所述第一损失为CTC损失；

基于所述第二解码文本和所述标注文本之间的差异，确定第二损失，所述第二损失为CTC损失；

基于所述第三解码文本和所述标注文本之间的差异，确定第三损失，所述第三损失为交叉熵损失；

基于所述第四解码文本和所述标注文本之间的差异，确定第四损失，所述第四损失为交叉熵损失；

通过所述第一损失、所述第二损失、所述第三损失以及所述第四损失，训练所述语音识别模型。

6.一种语音识别方法，其特征在于，所述方法包括：

基于语音识别模型中的第一编码器，对所述语音特征序列进行编码，得到第一语音特征编码，所述语音识别模型基于权利要求1至5任一项权利要求所述的语音识别模型的训练方法训练得到；

响应于当前接收到的语音片段的长度达到第二时长，基于所述语音识别模型中的第二编码器，对所述第二时长内编码得到的多个第一语音特征编码进行编码，得到第二语音特征编码，所述第二时长大于所述第一时长；

将当前显示的多个第一文本替换为所述第二文本。

7.根据权利要求6所述的方法，其特征在于，所述基于所述语音识别模型中的第一解码器，对所述第一语音特征编码进行解码，显示解码得到的第一文本，包括：

基于所述第一解码器，对所述第一语音特征编码进行解码，得到按照时序排列的多个字符，所述多个字符包括空白字符；

基于所述多个字符中空白字符的位置和语法规则，去除所述多个字符中重复的字符，所述语法规则用于表示连续排列的字符之间所需遵守的规则；

删除所述多个字符中的空白字符；

将剩下的字符显示为所述第一文本。

8.一种语音识别模型的训练装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一编码模块，用于对于除首个特征子序列外的任一特征子序列，将时序在所述特征子序列之前的至少一个特征子序列与所述特征子序列进行融合，得到第一融合特征；对所述第一融合特征进行编码，得到所述特征子序列的第一特征编码。

10.根据权利要求8所述的装置，其特征在于，所述第二编码模块，用于对于除首个特征块外的任一特征块，将时序在所述特征块之前的至少一个特征块与所述特征块进行融合，得到第二融合特征；对所述第二融合特征进行编码，得到所述特征块的第二特征编码。

11.根据权利要求8所述的装置，其特征在于，所述语音识别模型包括第一解码器和第二解码器，所述第一编码器用于采用非自回归的方式解码，所述第二编码器用于采用自回归的方式解码；

所述解码模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述训练模块，用于基于所述第一解码文本和所述标注文本之间的差异，确定第一损失，所述第一损失为CTC损失；基于所述第二解码文本和所述标注文本之间的差异，确定第二损失，所述第二损失为CTC损失；基于所述第三解码文本和所述标注文本之间的差异，确定第三损失，所述第三损失为交叉熵损失；基于所述第四解码文本和所述标注文本之间的差异，确定第四损失，所述第四损失为交叉熵损失；通过所述第一损失、所述第二损失、所述第三损失以及所述第四损失，训练所述语音识别模型。

13.一种语音识别装置，其特征在于，所述装置包括：

第一编码模块，用于基于语音识别模型中的第一编码器，对所述语音特征序列进行编码，得到第一语音特征编码，所述语音识别模型基于权利要求1至5任一项权利要求所述的语音识别模型的训练方法训练得到；

第二编码模块，用于响应于当前接收到的语音片段的长度达到第二时长，基于所述语音识别模型中的第二编码器，对所述第二时长内编码得到的多个第一语音特征编码进行编码，所述第二时长大于所述第一时长；

所述解码模块，用于基于所述第一解码器，对按时序拼接后的所述多个第一语音特征编码进行解码，得到第二文本；

14.根据权利要求13所述的装置，其特征在于，所述解码模块，包括：

删除单元，用于删除所述多个字符中的空白字符；

显示单元，用于将剩下的字符显示为所述第一文本。

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行权利要求1至5任一项权利要求所述的语音识别模型的训练方法，或者，所述至少一段计算机程序由所述处理器加载并执行权利要求6至7任一项权利要求所述的语音识别方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段计算机程序，所述至少一段计算机程序用于执行权利要求1至5任一项权利要求所述的语音识别模型的训练方法，或者，所述至少一段计算机程序用于执行权利要求6至7任一项权利要求所述的语音识别方法。