CN116741155A

CN116741155A - 语音识别方法、语音识别模型的训练方法、装置及设备

Info

Publication number: CN116741155A
Application number: CN202310591618.9A
Authority: CN
Inventors: 易澄
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-09-12

Abstract

本公开关于一种语音识别方法、语音识别模型的训练方法、装置及设备，该方法包括：获取样本音频以及样本音频中的第一样本音频对应的标注文本；基于第一样本音频和标注文本，对初始语音识别模型进行联合预训练，得到第一语音识别模型；基于样本音频对第一语音识别模型进行参数调整训练，得到训练好的语音识别模型。本公开实施例仅用部分样本音频对应的标注文本作为模型中间层的监督信号进行监督预训练，并同时对语音识别模型进行自监督预训练，此种联合预训练帮助模型同时学习到不同维度的发音特征，使得模型在正式训练中更快更好地学习音频特征，提升了语音识别模型的训练效率，并且提升了语音识别模型在应用侧语音识别的准确性。

Description

语音识别方法、语音识别模型的训练方法、装置及设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种语音识别方法、语音识别模型的训练方法、装置及设备。

背景技术

自动语音识别(Auto Speech Recognition，ASR)是将语音自动转写为对应文字的技术。随着计算机技术和人工智能的发展，自动语音识别广泛应用于搜索、推荐、客服、语音助手、自动字幕等场景。

相关技术中，自动语音识别模型依赖大量的标注数据进行有监督训练，通常都需要上万小时的语音标注数据。

相关技术中，语音标注数据的制作成本高、周期长，语音识别模型的训练效率较低。

发明内容

本公开提供一种语音识别方法、语音识别模型的训练方法、装置及设备，以至少解决相关技术中语音标注数据的制作成本高、周期长，语音识别模型的训练效率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音识别方法，所述方法包括：

获取目标音频；

将所述目标音频输入训练好的语音识别模型进行语音识别处理，得到所述目标音频对应的转录文本；

其中，所述语音识别模型是基于样本音频对联合预训练后的第一语音识别模型进行训练得到的，所述联合预训练是指融合监督预训练和自监督预训练的联合训练，所述监督预训练是指基于第一样本音频和标注文本进行的监督训练，所述标注文本为所述语音识别模型中的中间层输出的音频特征所对应的监督信号，所述自监督预训练是指基于所述第一样本音频进行的自监督训练，所述第一样本音频是指所述样本音频中标注有所述标注文本的样本音频。

在一些可能的设计中，所述语音识别模型包括特征提取网络、降采样层、升采样层和文本预测网络，所述中间层为所述降采样层，所述将所述目标音频输入训练好的语音识别模型进行语音识别处理，得到所述目标音频对应的转录文本，包括：

将所述目标音频输入所述特征提取网络进行特征提取处理，得到第一音频特征序列；

将所述第一音频特征序列输入所述降采样层进行降采样处理，得到第二音频特征序列，所述第一音频特征序列对应的第一帧率小于所述第二音频特征序列对应的第二帧率，所述第一帧率与所述第二帧率分别对应不同的发音时长；

将所述第二音频特征序列输入所述升采样层进行升采样处理，得到第三音频特征序列，所述第三音频特征序列对应于所述第一帧率；

将所述第三音频特征序列输入所述文本预测网络进行文本预测处理，得到所述转录文本。

根据本公开实施例的第二方面，提供一种语音识别模型的训练方法，所述方法包括：

获取样本音频以及所述样本音频中的第一样本音频对应的标注文本，所述第一样本音频是指所述样本音频中被标注过的音频；

基于所述第一样本音频和所述标注文本，对初始语音识别模型进行联合预训练，得到第一语音识别模型，所述联合预训练是指融合监督预训练和自监督预训练的联合训练，所述监督预训练是指基于所述第一样本音频和所述标注文本进行的监督训练，所述标注文本为所述语音识别模型中的中间层输出的音频特征所对应的监督信号，所述自监督预训练是指基于所述第一样本音频进行的自监督训练；

基于所述样本音频对所述第一语音识别模型进行参数调整训练，得到训练好的语音识别模型。

在一些可能的设计中，所述初始语音识别模型包括特征提取网络和音频表征网络，所述中间层为所述音频表征网络中的降采样层，所述基于所述第一样本音频和所述标注文本，对初始语音识别模型进行联合预训练，得到第一语音识别模型，包括：

将所述第一样本音频输入所述特征提取网络进行特征提取处理，得到第四音频特征序列；

将所述第四音频特征序列中预设位置上的音频特征进行遮蔽，得到第五音频特征序列；

将所述第五音频特征序列输入所述音频表征网络进行特征提取处理，得到音频表征结果，所述音频表征结果包括所述音频表征网络输出的第六音频特征序列以及所述音频表征网络中的降采样层输出的第七音频特征序列；

基于所述第六音频特征序列和所述第四音频特征序列进行对比学习，得到自监督损失信息；

基于所述第七音频特征序列和所述标注文本进行对比学习，得到监督损失信息；

基于所述自监督损失信息和所述监督损失信息，对所述初始语音识别模型进行参数调整处理，得到所述第一语音识别模型。

在一些可能的设计中，所述音频表征网络还包括升采样层，所述将所述第五音频特征序列输入所述音频表征网络进行特征提取处理，得到音频表征结果，包括：

将所述第五音频特征序列输入所述降采样层进行降采样处理，得到所述第七音频特征序列，所述第五音频特征序列对应的第一帧率小于所述第七音频特征序列对应的第二帧率，所述第一帧率与所述第二帧率分别对应不同的发音时长；

将所述第七音频特征序列输入所述升采样层进行升采样处理，得到所述第六音频特征序列，所述第六音频特征序列对应于所述第一帧率。

在一些可能的设计中，所述基于所述第六音频特征序列和所述第四音频特征序列进行对比学习，得到自监督损失信息，包括：

获取预设的多个发音特征标识各自对应的聚类中心特征；

将所述第四音频特征序列中所述预设位置上的音频特征与多个所述发音特征标识各自对应的聚类中心特征进行对比，得到所述第四音频特征序列中所述预设位置上的音频特征对应的第一发音特征标识；

将所述第六音频特征序列输入所述初始语音识别模型中的分类层进行分类处理，输出所述第六音频特征序列中所述预设位置上的音频特征对应的第二发音特征标识；

将所述第一发音特征标识和所述第二发音特征标识进行对比，得到所述自监督损失信息。

在一些可能的设计中，所述获取预设的多个发音特征标识各自对应的聚类中心特征，包括：

提取所述样本音频中的各个音频帧各自对应的音频频谱特征；

对各个所述音频帧各自对应的音频频谱特征进行聚类，得到多个聚类中心；

将每一聚类中心对应的标识确定为每一所述聚类中心对应的发音特征标识；

将每一所述聚类中心对应的聚类中心特征确定为相应发音特征标识对应的聚类中心特征。

在一些可能的设计中，所述基于所述样本音频对所述第一语音识别模型进行参数调整训练，得到训练好的语音识别模型，包括：

基于所述样本音频对所述第一语音识别模型进行自监督训练，得到第二语音识别模型；

基于所述第一样本音频和所述标注文本，对所述第二语音识别模型进行微调训练，得到所述语音识别模型。

根据本公开实施例的第三方面，提供一种语音识别装置，所述装置包括：

音频获取模块，被配置为执行获取目标音频；

语音识别模块，被配置为执行将所述目标音频输入训练好的语音识别模型进行语音识别处理，得到所述目标音频对应的转录文本；

在一些可能的设计中，所述语音识别模型包括特征提取网络、降采样层、升采样层和文本预测网络，所述中间层为所述降采样层，所述语音识别模块，包括：

音频特征提取单元，被配置为执行将所述目标音频输入所述特征提取网络进行特征提取处理，得到第一音频特征序列；

降采样单元，被配置为执行将所述第一音频特征序列输入所述降采样层进行降采样处理，得到第二音频特征序列，所述第一音频特征序列对应的第一帧率小于所述第二音频特征序列对应的第二帧率，所述第一帧率与所述第二帧率分别对应不同的发音时长；

升采样单元，被配置为执行将所述第二音频特征序列输入所述升采样层进行升采样处理，得到第三音频特征序列，所述第三音频特征序列对应于所述第一帧率；

文本预测单元，被配置为执行将所述第三音频特征序列输入所述文本预测网络进行文本预测处理，得到所述转录文本。

根据本公开实施例的第三方面，提供一种语音识别模型的训练装置，所述装置包括：

样本获取模块，被配置为执行获取样本音频以及所述样本音频中的第一样本音频对应的标注文本，所述第一样本音频是指所述样本音频中被标注过的音频；

联合预训练模块，被配置为执行基于所述第一样本音频和所述标注文本，对初始语音识别模型进行联合预训练，得到第一语音识别模型，所述联合预训练是指融合监督预训练和自监督预训练的联合训练，所述监督预训练是指基于所述第一样本音频和所述标注文本进行的监督预训练，所述标注文本为所述语音识别模型中的中间层输出的音频特征所对应的监督信号，所述自监督预训练是指基于所述第一样本音频进行的自监督训练；

模型训练模块，被配置为执行基于所述样本音频对所述第一语音识别模型进行参数调整训练，得到训练好的语音识别模型。

在一些可能的设计中，所述初始语音识别模型包括特征提取网络和音频表征网络，所述中间层为所述音频表征网络中的降采样层，所述联合预训练模块，包括：

音频特征提取子模块，被配置为执行将所述第一样本音频输入所述特征提取网络进行特征提取处理，得到第四音频特征序列；

音频特征遮蔽子模块，被配置为执行将所述第四音频特征序列中预设位置上的音频特征进行遮蔽，得到第五音频特征序列；

音频表征子模块，被配置为执行将所述第五音频特征序列输入所述音频表征网络进行特征提取处理，得到音频表征结果，所述音频表征结果包括所述音频表征网络输出的第六音频特征序列以及所述音频表征网络中的降采样层输出的第七音频特征序列；

自监督损失确定子模块，被配置为执行基于所述第六音频特征序列和所述第四音频特征序列进行对比学习，得到自监督损失信息；

监督损失确定子模块，被配置为执行基于所述第七音频特征序列和所述标注文本进行对比学习，得到监督损失信息；

参数调整子模块，被配置为执行基于所述自监督损失信息和所述监督损失信息，对所述初始语音识别模型进行参数调整处理，得到所述第一语音识别模型。

在一些可能的设计中，所述音频表征网络还包括升采样层，所述音频表征子模块，包括：

降采样单元，被配置为执行将所述第五音频特征序列输入所述降采样层进行降采样处理，得到所述第七音频特征序列，所述第五音频特征序列对应的第一帧率小于所述第七音频特征序列对应的第二帧率，所述第一帧率与所述第二帧率分别对应不同的发音时长；

升采样单元，被配置为执行将所述第七音频特征序列输入所述升采样层进行升采样处理，得到所述第六音频特征序列，所述第六音频特征序列对应于所述第一帧率。

在一些可能的设计中，所述自监督损失确定子模块，包括：

聚类中心特征获取单元，被配置为执行获取预设的多个发音特征标识各自对应的聚类中心特征；

特征标识确定单元，被配置为执行将所述第四音频特征序列中所述预设位置上的音频特征与多个所述发音特征标识各自对应的聚类中心特征进行对比，得到所述第四音频特征序列中所述预设位置上的音频特征对应的第一发音特征标识；

特征分类单元，被配置为执行将所述第六音频特征序列输入所述初始语音识别模型中的分类层进行分类处理，输出所述第六音频特征序列中所述预设位置上的音频特征对应的第二发音特征标识；

自监督损失确定单元，被配置为执行将所述第一发音特征标识和所述第二发音特征标识进行对比，得到所述自监督损失信息。

在一些可能的设计中，所述聚类中心特征获取单元，包括：

频谱特征提取子单元，被配置为执行提取所述样本音频中的各个音频帧各自对应的音频频谱特征；

频谱特征聚类子单元，被配置为执行对各个所述音频帧各自对应的音频频谱特征进行聚类，得到多个聚类中心；

特征标识确定子单元，被配置为执行将每一聚类中心对应的标识确定为每一所述聚类中心对应的发音特征标识；

聚类中心特征确定子单元，被配置为执行将每一所述聚类中心对应的聚类中心特征确定为相应发音特征标识对应的聚类中心特征。

在一些可能的设计中，所述模型训练模块，包括：

自监督训练单元，被配置为执行基于所述样本音频对所述第一语音识别模型进行自监督训练，得到第二语音识别模型；

微调单元，被配置为执行基于所述第一样本音频和所述标注文本，对所述第二语音识别模型进行微调训练，得到所述语音识别模型。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的语音识别方法。

根据本公开实施例的第六方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第二方面中任一项所述的语音识别模型的训练方法。

根据本公开实施例的第七方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一项所述的语音识别方法。

根据本公开实施例的第八方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第二方面中任一项所述的语音识别模型的训练方法。

根据本公开实施例的第九方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例的第一方面中任一项所述的语音识别方法。

根据本公开实施例的第十方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例的第二方面中任一项所述的语音识别模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

将样本音频中标注有标注文本的部分样本音频作为联合预训练的训练样本，从而对语音识别模型进行联合预训练。其中，通过将标注文本作为语音识别模型中间层输出的音频特征所对应的监督信号，可以对语音识别模型进行监督预训练，与此同时还基于上述部分样本音频对语音识别模型进行自监督预训练，实现了自监督预训练与监督预训练的联合，帮助模型在联合预训练中同时学习到不同维度的发音特征，进而再基于样本音频进行正式训练。经过联合预训练后，模型在正式训练中可以更快更好地学习音频特征，降低了语音识别模型对大规模语音标注数据的依赖，提升了语音识别模型的训练效率，并且提升了语音识别模型在应用侧进行语音识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图；

图2是根据一示例性实施例示出的一种语音识别方法的流程图一；

图3示例性示出了一种语音识别模型的模型结构图；

图4是根据一示例性实施例示出的一种语音识别方法的流程图二；

图5示例性示出了一种音频表征网络的网络结构图；

图6是根据一示例性实施例示出的一种语音识别模型的训练方法的流程图一；

图7是根据一示例性实施例示出的一种语音识别模型的训练方法的流程图二；

图8示例性示出了一种语音识别模型的训练流程图；

图9是根据一示例性实施例示出的一种语音识别装置框图；

图10是根据一示例性实施例示出的一种语音识别模型的训练装置框图；

图11是根据一示例性实施例示出的一种用于语音识别或语音识别模型的训练的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

请参阅图1，图1是根据一示例性实施例示出的一种应用环境的示意图，如图1所示，该应用环境可以包括终端100和服务器200。

终端100可以用于面向任一用户提供语音识别服务。具体的，终端100可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的电子设备，也可以为运行于上述电子设备的软体，例如应用程序等。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

在一个可选的实施例中，服务器200可以为终端100提供后台服务，例如向终端100发送转录文本。具体的，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

此外，需要说明的是，图1所示的仅仅是本公开提供的一种应用环境，在实际应用中，还可以包括其他应用环境，例如可以包括更多的终端。

本说明书实施例中，上述终端100以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

图2是根据一示例性实施例示出的一种语音识别方法的流程图一。可选地，该语音识别方法用于电子设备中。可选地，电子设备可以是终端也可以是服务器。如图2所示，该方法可以包括以下步骤(210～220)。

步骤210，获取目标音频。

可选地，上述目标音频是待识别的音频。本申请实施例对目标音频的获取方式不作限定，可以是通过网络上传的音频，也可以是设备中的麦克风录取的，还可以是设备存储中读取的，亦或者是视频中的音频。

步骤220，将目标音频输入训练好的语音识别模型进行语音识别处理，得到目标音频对应的转录文本。

其中，语音识别模型是基于样本音频对联合预训练后的第一语音识别模型进行训练得到的。语音识别模型用于识别目标音频中的转录文本。

上述联合预训练是指融合监督预训练和自监督预训练的联合训练。联合预训练阶段利用一批标注数据，同时进行自监督预训练与监督训练。上述标注数据是指样本音频中中的第一样本音频。第一样本音频是指样本音频中标注有标注文本的样本音频，且第一样本音频的数量小于预设数量阈值，即第一样本音频是指样本音频中被标注过的音频。上述第一样本音频是所有样本音频中少量的标注有标注文本的样本音频，第一样本音频的数量远小于样本音频总量。

由此可见，上述训练好的语音识别模型是基于低资源语音标注数据即可训练完成的，尤其适用于方言、小语种等语言下的语音识别场景或者其他特定场景。相关技术中训练的语音识别模型都依赖大量的标注数据进行有监督训练。然而，在实际应用中，工业级语音识别系统要求产品使用场景广泛，通常需要上万小时的标注语音数据。除了划分到各个场景下的语音标注数据不足外，大部分语种的语音标注数据也都处于低资源状态。世界范围内存在7000多个语种，仅中国境内就存在200多个语种，汉语的使用人群有90％，余下绝大多数都是小语种。据统计，世界范围内小于百万人群使用的小语种占据世界所有语种的80％。

对于国内方言、海外小语种以及其他特定场景(语音标注数据数量不足的应用场景)，构建语音识别模型至少面临以下困难：(1)语音数据稀缺；(2)人工标注成本高；(3)建设周期长。小语种语音的人工转写标注的成本通常为普通话的5倍以上，建设周期通常需要6个月以上。而上述联合预训练仅需少量的语音标注数据即可训练语音识别模型，有效解决了上述几个问题。

上述监督预训练是指基于第一样本音频和标注文本进行的监督训练，标注文本为语音识别模型中的中间层输出的音频特征所对应的监督信号。标注文本即为监督训练的监督信号，也是联合预训练的监督信号。上述监督信号添加位置即是上述语音识别模型中的中间层，中间层对应的帧率小于语音识别模型输入层对应的帧率。比如，中间层对应的帧率为输入层帧率的一半。通过在模型中帧率较低的中间层添加监督信号，可以帮助语音识别模型从输入信号中学习粗粒度的发音单元，使得模型在后续的自监督学习中更快更好地学习上下文建模。

自监督预训练是指基于第一样本音频进行的自监督训练。一段有意义的语音的本质是一个有规律的发音单元序列，自监督学习是模型完全通过细粒度的声学序列挖掘这种发音单元序列进行建模。自监督信号添加在模型的最顶层，其帧率与输入层的保持一致。

上述监督学习的损失与自监督学习的损失按照一定权重相加后，即可作为联合预训练对应的损失。

在一个示例中，如图3所示，其示例性示出了一种语音识别模型的模型结构图。图3所示的语音识别模型包括卷积降采样层31、音频表征层32。其中，卷积降采样层31是语音识别模型的输入层，用于将原始语音转化为音频特征序列。例如，将原始语音转化为20毫秒/帧的标准化向量序列，每一帧对应25毫秒的原始语音。采用25毫秒的采样窗口，以20毫秒/帧的采样滑动步长对原始语音进行降采样，即可得到输出标准化向量序列(即下述第一音频特征序列)。音频表征层32根据卷积降采样层31输出的特征序列进行进一步地特征提取处理，音频表征层32输出的特征用于识别原始语音对应的转录文本。可选地，音频表征层32由若干个自注意力层(self-attentionlayer)构成。在训练侧，卷积降采样层31输出的特征可经过离散化预处理模块33标记其对应的自监督信号，将音频表征层32输出的特征与自监督信号进行对比学习即可实现对语音识别模型的自监督预训练。

在示例性实施例中，语音识别模型包括特征提取网络、降采样层、升采样层和文本预测网络，音频表征网络包括降采样层和升采样层，中间层为降采样层；相应地，如图4所示，上述步骤220可以包括如下步骤(221～224)，图4是根据一示例性实施例示出的一种语音识别方法的流程图二。

步骤221，将目标音频输入特征提取网络进行特征提取处理，得到第一音频特征序列。

上述特征提取网络可以是卷积降采样特征提取网络，为语音识别模型的输入层。

在一种可能的实施方式中，上述特征提取处理的过程可以是：根据第一帧率驱动预设长度的采样窗口在目标音频中滑动采样，得到各个音频帧；对各个音频帧进行音频特征提取处理，得到各个音频帧对应的第一音频特征，从而构成上述第一音频特征序列。例如，采用25毫秒的采样窗口，以20毫秒/帧的采样滑动步长对原始语音进行降采样，即可得到输出20毫秒/帧的标准化向量序列(即第一音频特征序列)，其中每一帧对应25毫秒的原始语音。

以原始语音时长为200毫秒为例，采用25毫秒的采样窗口，并以20毫秒/帧的采样滑动步长对原始语音进行采样后，即可得到10个25毫秒的音频帧，各个音频帧之间会有5毫秒的重叠。对这10个25毫秒的音频帧分别进行卷积特征提取处理，即可得到10个第一音频特征。

步骤222，将第一音频特征序列输入降采样层进行降采样处理，得到第二音频特征序列。

第一音频特征序列对应的第一帧率小于第二音频特征序列对应的第二帧率，第一帧率与第二帧率分别对应不同的发音时长。比如，第一帧率为20毫秒/帧，第二帧率为40毫秒/帧。

对上述第一音频特征序列进行降采样后，得到的第二音频特征序列中第二音频特征的数量小于第一音频特征序列中第一音频特征的数量。也就意味着第二音频特征序列对应的第二帧率要高于第一帧率，第二音频特征对应的部分原始语音的发音时长，即第二语音时长也要高于第一音频特征对应的第一语音时长。

通过上述降采样处理后，可以使得第二音频特征与第一音频特征分别对应不同的发音时长，第一音频特征对应的发音时长小于第二音频特征对应的发音时长。即第二音频特征与第一音频特征各自对应的发音粒度不同。第一音频特征对应的发音粒度较为精细，第二音频特征对应的发音粒度较粗，且更接近于真实发音粒度，这样模型即可提取到音频中发音粒度较粗(发音时长较长)的发音单元的特征，并且上述监督预训练的监督信号用于监督发音粒度较粗的第二音频特征，可以使得模型在少量的语音标注数据下快速学习到发音粒度较粗的发音单元的特征，与此同时模型通过自监督预训练还可以学习到发音粒度较细的的发音单元的特征，由此可见模型在联合预训练阶段可以学到不同时长维度的发音特征，提升了语音识别模型在应用侧的语音识别精度。

步骤223，将第二音频特征序列输入升采样层进行升采样处理，得到第三音频特征序列。

上述第二音频特征序列可以先输入介于降采样层与升采样层中间的自注意力层进行特征提取，此时特征序列的维度不会发生变化。此种自编码结构可以使得模型获得更好的性能，有效缩小模型中间层的计算量，因为40毫秒/帧的特征序列在时间维度上进行自注意力的计算量是20毫秒/帧的1/4。

第三音频特征序列对应于第一帧率。

通过上述升采样，可以将音频表征网络输出的特征序列恢复至原有的帧率，从而保证音频表征网络输出粒度与输入粒度一致，便于模型进行对输入特征序列(即上述第一音频特征序列)进行“遮蔽-还原”的自监督预训练。

可选地，降采样与升采样都是利用卷积网络在时间维度上进行一维卷积操作。

步骤224，将第三音频特征序列输入文本预测网络进行文本预测处理，得到转录文本。

上述文本预测网络已经是经过训练后的神经网络，在接收上述第三音频特征序列之后即可输出音频对应的转录文本。

在一个示例中，请参考图5，图5示例性示出了一种音频表征网络的网络结构图。如图5所示，音频表征网络采用自编码结构。设音频表征网络包括的自注意力层一共有N(N大于0且N为3的倍数)层，其中降采样层设为前N/3层，将原本对应20毫秒/帧的语音特征序列降采样至为40毫秒/帧(即时间维度的长度减少一半)；中间的自注意力层也为N/3层，特征提取时语音长度保持不变，仍为40毫秒/帧；最后的N/3层为升采样层，将40毫秒/帧的语音特征序列升采样至20毫秒/帧，即最终的模型输出粒度与输入粒度一致，便于模型进行对输入进行“遮蔽-还原”的自监督预训练。其中，联合预训练的监督信号添加位置如图5所示，联合预训练的监督信号与40毫秒/帧的语音特征序列相对应：自监督信号添加在模型的最顶层，其帧率与输入层的保持一致。

综上所述，本公开的实施例提供的技术方案，将样本音频中标注有标注文本的部分样本音频作为联合预训练的训练样本，从而对语音识别模型进行联合预训练。其中，通过将标注文本作为语音识别模型中间层输出的音频特征所对应的监督信号，可以对语音识别模型进行监督预训练，与此同时还基于上述部分样本音频对语音识别模型进行自监督预训练，实现了自监督预训练与监督预训练的联合，帮助模型在联合预训练中同时学习到不同维度的发音特征，进而再基于样本音频进行正式训练。经过联合预训练后，模型在正式训练中可以更快更好地学习音频特征，降低了语音识别模型对大规模语音标注数据的依赖，提升了语音识别模型的训练效率，并且提升了语音识别模型在应用侧进行语音识别的准确性。

图6是根据一示例性实施例示出的一种语音识别模型的训练方法的流程图一。可选地，该语音识别模型的训练方法用于电子设备中。可选地，电子设备可以是终端也可以是服务器。如图6所示，该方法可以包括以下步骤(610～630)。

步骤610，获取样本音频以及样本音频中的第一样本音频对应的标注文本。

可选地，第一样本音频是指样本音频中被标注过的音频。可选地，第一样本音频的数量小于预设数量阈值。

步骤620，基于第一样本音频和标注文本，对初始语音识别模型进行联合预训练，得到第一语音识别模型。

可选地，联合预训练是指融合监督预训练和自监督预训练的联合训练，监督预训练是指基于第一样本音频和标注文本进行的监督训练，标注文本为语音识别模型中的中间层输出的音频特征所对应的监督信号，自监督预训练是指基于第一样本音频进行的自监督训练。

对于联合预训练的说明在上一实施例中已经进行过相关说明，这里不再赘述。

在示例性实施例中，上述初始语音识别模型包括特征提取网络和音频表征网络，上述中间层可以为音频表征网络中的降采样层；相应的，如图7所示，上述步骤620可以包括如下步骤(621～626)，图7是根据一示例性实施例示出的一种语音识别模型的训练方法的流程图二。

步骤621，将第一样本音频输入特征提取网络进行特征提取处理，得到第四音频特征序列。

上述第四音频特征序列是特征提取网络对第一样本音频进行特征提取处理后输出的特征序列。特征提取处理过程与模型应用侧一致，这里不再赘述。

步骤622，将第四音频特征序列中预设位置上的音频特征进行遮蔽，得到第五音频特征序列。

在联合预训练中，自监督预训练是“遮蔽-还原”训练，即将输入音频表征网络的音频特征序列中部分音频特征进行遮蔽，从而使得音频表征网络通过其他未被遮蔽的音频特征学习被遮蔽的音频特征，进而输出表征后的音频特征。

步骤623，将第五音频特征序列输入音频表征网络进行特征提取处理，得到音频表征结果。

上述音频表征结果包括音频表征网络输出的第六音频特征序列以及音频表征网络中的降采样层输出的第七音频特征序列。可选地，中间层为降采样层。

在示例性实施例中，上述音频表征网络还包括升采样层。上述步骤623中音频表征网络中进行特征提取处理过程的内容如下：

将第五音频特征序列输入降采样层进行降采样处理，得到第七音频特征序列。第五音频特征序列对应的第一帧率小于第七音频特征序列对应的第二帧率，第一帧率与第二帧率分别对应不同的发音时长。将第七音频特征序列输入升采样层进行升采样处理，得到第六音频特征序列，第六音频特征序列对应于第一帧率。

上述降采样、升采样的处理过程与模型应用侧保持一致，应用侧与训练侧处理的数据有所不同。模型通过降采样层可以提取到样本音频中发音粒度较粗(发音时长较长)的发音单元的特征，并且通过升采样层还可以学习到发音粒度较细的的发音单元的特征，由此可见模型在联合预训练阶段可以学到不同时长维度的发音特征，提升了语音识别模型在应用侧的语音识别精度。

步骤624，基于第六音频特征序列和第四音频特征序列进行对比学习，得到自监督损失信息。

第四音频特征序列是遮蔽前的音频特征序列，第六音频特征序列是音频表征网络根据遮蔽后的第五音频特征序列预测出的完整的音频特征序列，通过对比上述第六音频特征序列和第四音频特征序列即可确定联合预训练中自监督预训练的损失信息。

在示例性实施例中，上述步骤624的处理过程如下：

1、获取预设的多个发音特征标识各自对应的聚类中心特征。多个发音特征标识分别对应的不同的发音特征，具体可以通过聚类得到，无需标注。在示例性实施例中，上述聚类中心特征的获取过程如下：

提取样本音频中的各个音频帧各自对应的音频频谱特征。可选地，提取各个音频帧各自对应的MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征。

对各个音频帧各自对应的音频频谱特征进行聚类，得到多个聚类中心。可选地，对MFCC采用k-means进行帧级别聚类，得到多个聚类中心。通过聚类得到的各个聚类中心分别代表不同的发音单元特征。

将每一聚类中心对应的标识确定为每一聚类中心对应的发音特征标识。可选地，聚类中心对应的标识为聚类中心对应的序号，将聚类中心序号记为离散化符号作为每一聚类中心对应的发音特征标识。上述发音特征标识即可作为联合预训练中自监督预训练对应的自监督信号。

将每一聚类中心对应的聚类中心特征确定为相应发音特征标识对应的聚类中心特征。通过聚类的方式可以自动聚类出不同的发音特征并标记相应的标识，以便于作为自监督预训练的自监督信号，提升了自监督预训练的准确性。

2、将第四音频特征序列中预设位置上的音频特征与多个发音特征标识各自对应的聚类中心特征进行对比，得到第四音频特征序列中预设位置上的音频特征对应的第一发音特征标识。

可选地，分别确定第四音频特征序列中预设位置上的音频特征与各个聚类中心特征之间的特征距离，将特征距离最近的聚类中心特征对应的发音特征标识确定为上述第一发音特征标识。由于上述预设位置上的音频特征是被遮蔽的音频特征，因此上述第一发音特征标识即为自监督预训练对应的自监督信号。

3、将第六音频特征序列输入初始语音识别模型中的分类层进行分类处理，输出第六音频特征序列中预设位置上的音频特征对应的第二发音特征标识。

上述第四音频特征序列是遮蔽前的音频特征序列，第六音频特征序列是音频表征网络根据遮蔽后的第五音频特征序列预测出的完整的音频特征序列。将上述第六音频特征序列输入一个分类层，即可得到第六音频特征序列中各个音频特征各自对应于多个发音特征标识的概率；从中可以确定预设位置上的第六音频特征(即被遮蔽特征对应的还原特征)对应的最大概率值，并将该最大概率值对应的发音特征标识确定为上述第二发音特征标识。第二发音特征标识是根据还原特征预测的结果，是自监督信号的监督对象。

4、将第一发音特征标识和第二发音特征标识进行对比，得到自监督损失信息。

通过对比第一发音特征标识和第二发音特征标识，即可准确地确定自监督预训练对应的损失信息，从而精确衡量音频表征网络是否能够较为准确的还原被遮蔽的音频特征并给出相应反馈，有助于提升语音识别模型的精度。

步骤625，基于第七音频特征序列和标注文本进行对比学习，得到监督损失信息。

上述第七音频特征序列与上述第二音频特征序列类似，对应于发音粒度较粗的发音单元，同时也是监督预训练中监督信号的监督对象。上述标注文本即为监督信号，通过对比上述第七音频特征序列和标注文本，即可得到联合预训练中监督预训练的损失信息，即上述监督损失信息。

在示例性实施例中，上述步骤624的处理过程如下：获取标注文本对应的文本表征数据；将文本表征数据与第七音频特征序列进行对比，得到监督损失信息。

上述标注文本中每个字都有对应的文本表征数据，将文本表征数据与第七音频特征序列进行对比，即可判断模型中检测预测出的音频特征是否对应的文本表征数据一致，从而可以准确衡量模型中间层是否准确学习到发音粒度较粗的发音单元特征，有助于提升语音识别模型的精确度。

步骤626，基于自监督损失信息和监督损失信息，对初始语音识别模型进行参数调整处理，得到第一语音识别模型。

基于上述自监督损失信息和监督损失信息，可以确定联合预训练的损失信息，从而根据联合预训练的损失信息调整初始语音识别模型的模型参数，直至联合预训练的损失信息符合预设条件，比如低于阈值，又或者是迭代次数达到最大迭代次数，即可完成联合预训练得到联合预训练后的第一语音识别模型。

模型通过降采样层可以提取到样本音频中发音粒度较粗(发音时长较长)的发音单元的特征，并且上述监督预训练的监督信号用于监督发音粒度较粗的音频特征并计算监督损失，监督损失可以约束模型在少量的语音标注数据下快速学习到发音粒度较粗的发音单元的特征，与此同时模型通过自监督预训练还可以学习到发音粒度较细的的发音单元的特征并计算自监督损失，由此可见模型在联合预训练阶段受到自监督损失和监督损失的共同约束下，可以学到不同时长维度的发音特征，提升了语音识别模型在应用侧的语音识别精度。

步骤630，基于样本音频对第一语音识别模型进行参数调整训练，得到训练好的语音识别模型。

在示例性实施例中，如图7所示，上述步骤630可以包括如下步骤(631～632)。

步骤631，基于样本音频对第一语音识别模型进行自监督训练，得到第二语音识别模型。

模型在联合预训练的基础上，使用大量目标领域的无标注数据进行自监督训练。自监督训练阶段不使用关于下游任务的监督信号，学习的泛化性较强。但直接进行自监督预训练缺点是学习没有方向性、训练效率较低，通过引入上述联合预训练可以有效解决该问题。

步骤632，基于第一样本音频和标注文本，对第二语音识别模型进行微调训练，得到语音识别模型。

最后，模型又在标注数据上进行有监督的微调训练，仅通过少量的标注数据即可对自监督训练后的模型进行微调，进一步提升了语音识别模型的准确性。

在一个示例中，请参考图8，其示例性示出了一种语音识别模型的训练流程图。如图8所示，语音识别模型的训练流程分为三阶段。联合预训练阶段利用一小批标注数据，同时进行自监督预训练与监督训练。由于40毫秒/帧的语音表征更接近于发音粒度，本方案的监督学习信号加在音频表征网络中间层40毫秒/帧的部分；自监督信号添加在模型的最顶层，其帧率与输入层的保持一致，自监督学习是模型完全通过细粒度的声学序列挖掘这种发音单元序列进行建模。联合预训练的目的是通过在模型中间添加监督信号，帮助模型学习从输入信号中学习粗粒度的发音单元，使得模型在后续的自监督学习中更快更好地学习上下文建模。并且监督学习与自监督学习分别在模型的不同输出层，因此不会相互干扰。监督学习的损失与自监督学习的损失按照一定权重相加后，作为最终的损失。

联合预训练之后进行自监督训练与有监督的微调训练。模型在联合预训练的基础上，使用大量目标领域的无标注数据进行自监督训练；最后模型又在标注数据上进行监督训练对模型进行微调。在上述流程中，联合训练的初衷是充分利用数量较少的标注数据进行监督学习，帮助模型在目标领域的自监督预训练训练得更快更好(定制化预训练)。实践表明，通过联合预训练阶段，模型可以极大缩减后续自监督训练的周期，并且显著获得更好的性能。

图9是根据一示例性实施例示出的一种语音识别装置框图。参照图9，该装置900包括：

音频获取模块910，被配置为执行获取目标音频；

语音识别模块920，被配置为执行将所述目标音频输入训练好的语音识别模型进行语音识别处理，得到所述目标音频对应的转录文本；

图10是根据一示例性实施例示出的一种语音识别模型的训练装置框图。参照图10，该装置1000包括：

样本获取模块1010，被配置为执行获取样本音频以及所述样本音频中的第一样本音频对应的标注文本，所述第一样本音频是指所述样本音频中被标注过的音频；

联合预训练模块1020，被配置为执行基于所述第一样本音频和所述标注文本，对初始语音识别模型进行联合预训练，得到第一语音识别模型，所述联合预训练是指融合监督预训练和自监督预训练的联合训练，所述监督预训练是指基于所述第一样本音频和所述标注文本进行的监督预训练，所述标注文本为所述语音识别模型中的中间层输出的音频特征所对应的监督信号，所述自监督预训练是指基于所述第一样本音频进行的自监督训练；

模型训练模块1030，被配置为执行基于所述样本音频对所述第一语音识别模型进行参数调整训练，得到训练好的语音识别模型。

在一些可能的设计中，所述自监督损失确定子模块，包括：

在一些可能的设计中，所述聚类中心特征获取单元，包括：

在一些可能的设计中，所述监督损失确定子模块，包括：

文本表征数据获取单元，被配置为执行获取所述标注文本对应的文本表征数据；

监督损失确定单元，被配置为执行将所述文本表征数据与所述第七音频特征序列进行对比，得到所述监督损失信息。

在一些可能的设计中，所述模型训练模块，包括：

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是根据一示例性实施例示出的一种用于语音识别或语音识别模型的训练的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法或语音识别模型的训练方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的语音识别方法。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的语音识别模型的训练方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的语音识别方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的语音识别模型的训练方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的语音识别方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的语音识别模型的训练方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取目标音频；

2.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括特征提取网络、降采样层、升采样层和文本预测网络，所述中间层为所述降采样层，所述将所述目标音频输入训练好的语音识别模型进行语音识别处理，得到所述目标音频对应的转录文本，包括：

3.一种语音识别模型的训练方法，其特征在于，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述初始语音识别模型包括特征提取网络和音频表征网络，所述中间层为所述音频表征网络中的降采样层，所述基于所述第一样本音频和所述标注文本，对初始语音识别模型进行联合预训练，得到第一语音识别模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述音频表征网络还包括升采样层，所述将所述第五音频特征序列输入所述音频表征网络进行特征提取处理，得到音频表征结果，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述第六音频特征序列和所述第四音频特征序列进行对比学习，得到自监督损失信息，包括：

获取预设的多个发音特征标识各自对应的聚类中心特征；

7.根据权利要求6所述的方法，其特征在于，所述获取预设的多个发音特征标识各自对应的聚类中心特征，包括：

8.根据权利要求3至7任一项所述的方法，其特征在于，所述基于所述样本音频对所述第一语音识别模型进行参数调整训练，得到训练好的语音识别模型，包括：

9.一种语音识别装置，其特征在于，所述装置包括：

音频获取模块，被配置为执行获取目标音频；

10.一种语音识别模型的训练装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1或2所述的语音识别方法，或者如权利要求3至8中任一项所述的语音识别模型的训练方法。

12.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1或2所述的语音识别方法，或者如权利要求3至8中任一项所述的语音识别模型的训练方法。