CN117012183A

CN117012183A - 语音识别模型训练方法、语音识别方法和装置

Info

Publication number: CN117012183A
Application number: CN202211246092.2A
Authority: CN
Inventors: 朱紫薇; 单长浩; 张弼弘
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2023-11-07

Abstract

本申请涉及一种语音识别模型训练方法、语音识别方法、装置、计算机设备、存储介质和计算机程序产品。本申请实施例涉及人工智能技术。所述方法包括：获取通用语音识别模型作为初始语音识别模型；基于口音场景对应的第一语音训练数据集和通用场景对应的第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型；将口音场景对应的第二语音训练数据集和通用场景对应的第四语音训练数据集输入中间语音识别模型来计算目标损失；基于目标损失更新初始语音识别模型的模型参数得到更新语音识别模型，将更新语音识别模型作为初始语音识别模型进行循环迭代，直至满足收敛条件，得到目标语音识别模型。采用本方法可提高语音识别的准确性。

Description

语音识别模型训练方法、语音识别方法和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音识别模型训练方法、语音识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能技术的发展，出现了语音识别技术，语音识别技术用于将语音转化为文本，为人们的日常生活带来了极大便利。

传统技术中，为了训练得到适用于通用语音数据和口音数据的语音识别模型，通常是基于包含有限的通用场景语音数据和口音场景语音数据的训练集直接对初始语音识别模型进行调整得到目标语音识别模型。然而，基于训练集直接对初始语音识别模型进行调整，只能让模型适用于对与训练集相似的语音数据进行语音识别，无法让模型有效学习到不同场景语音识别的知识，从而导致目标语音识别模型的识别准确性不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音识别准确性的语音识别模型训练方法、语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

本申请提供了一种语音识别模型训练方法。所述方法包括：

获取通用场景对应的通用语音识别模型，将所述通用语音识别模型作为初始语音识别模型；

获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集；各个语音训练数据集均包括训练语音和训练语音对应的标签文本，所述标签文本是将训练语音转换为文本得到的；

基于所述第一语音训练数据集和所述第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型；

将所述第二语音训练数据集和所述第四语音训练数据集输入所述中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失；

基于所述目标损失更新所述初始语音识别模型的模型参数，得到更新语音识别模型，将所述更新语音识别模型作为初始语音识别模型，返回所述获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型；所述目标语音识别模型用于对语音进行识别得到对应的文本。

本申请还提供了一种语音识别模型训练装置。所述装置包括：

模型获取模块，用于获取通用场景对应的通用语音识别模型，将所述通用语音识别模型作为初始语音识别模型；

训练数据集获取模块，用于获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集；各个语音训练数据集均包括训练语音和训练语音对应的标签文本，所述标签文本是将训练语音转换为文本得到的；

第一模型训练模块，用于基于所述第一语音训练数据集和所述第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型；

第二模型训练模块，用于将所述第二语音训练数据集和所述第四语音训练数据集输入所述中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失；基于所述目标损失更新所述初始语音识别模型的模型参数，得到更新语音识别模型，将所述更新语音识别模型作为初始语音识别模型，返回所述获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型；所述目标语音识别模型用于对语音进行识别得到对应的文本。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述语音识别模型训练方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音识别模型训练方法所述的步骤。

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述语音识别模型训练方法所述的步骤。

上述语音识别模型训练方法、装置、计算机设备、存储介质和计算机程序产品，通过获取通用场景对应的通用语音识别模型，将通用语音识别模型作为初始语音识别模型；获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集；各个语音训练数据集均包括训练语音和训练语音对应的标签文本，标签文本是将训练语音转换为文本得到的；基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型；将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失；基于目标损失更新初始语音识别模型的模型参数，得到更新语音识别模型，将更新语音识别模型作为初始语音识别模型，返回获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型；目标语音识别模型用于对语音进行识别得到对应的文本。这样，将通用场景对应的通用语音识别模型作为初始语音识别模型，通过对通用语音识别模型进行训练来实现在模型针对通用场景的性能不变差的情况下，提升模型针对口音场景的性能，即实现口音领域扩展。采用元学习的方式进行模型训练，先基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练得到中间语音识别模型，中间语音识别模型学习到了适用于第一语音训练数据集和第三语音训练数据集的语音识别知识，再将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型计算目标损失，目标损失可以反映中间语音识别模型学习到的知识应用于第二语音训练数据集和第四语音训练数据集的效果、中间语音识别模型学习到的知识是否适用于第二语音训练数据集和第四语音训练数据集，基于目标损失更新初始语音识别模型的模型参数得到更新语音识别模型，使得更新语音识别模型学会学习不同场景语音之间的变化规律、学会学习不同场景语音识别之间的通用知识，使得更新语音识别模型学习到的知识能够适用于新的语音训练数据集。通过多次迭代，最终训练得到的目标语音识别模型可以学会不同场景语音识别的方法，目标语音识别模型同时适用于通用场景和各种口音场景的语音识别，在针对通用场景具有较高的语音识别准确性的基础上，针对各种口音场景也具有较高的语音识别准确性。

本申请提供了一种语音识别方法。所述方法包括：

获取待识别语音；

将所述待识别语音输入目标语音识别模型，得到所述待识别语音对应的识别文本；

所述目标语音识别模型的训练过程包括以下步骤：

获取通用场景对应的通用语音识别模型，将所述通用语音识别模型作为初始语音识别模型；获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集；各个语音训练数据集均包括训练语音和训练语音对应的标签文本，所述标签文本是将训练语音转换为文本得到的；基于所述第一语音训练数据集和所述第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型；将所述第二语音训练数据集和所述第四语音训练数据集输入所述中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失；基于所述目标损失更新所述初始语音识别模型的模型参数，得到更新语音识别模型，将所述更新语音识别模型作为初始语音识别模型，返回所述获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型。

本申请还提供了一种语音识别装置。所述装置包括：

语音获取模块，用于获取待识别语音；

语音识别模块，用于将所述待识别语音输入目标语音识别模型，得到所述待识别语音对应的识别文本；

所述目标语音识别模型的训练过程包括以下步骤：

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述语音识别方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音识别方法所述的步骤。

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述语音识别方法所述的步骤。

上述语音识别方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待识别语音，将待识别语音输入目标语音识别模型，得到待识别语音对应的识别文本。目标语音识别模型针对通用场景和口音场景均具有较高的语音识别准确性，基于目标语音识别模型进行语音识别可以有效提高语音识别准确性。将通用场景对应的通用语音识别模型作为初始语音识别模型，通过对通用语音识别模型进行训练来实现在模型针对通用场景的性能不变差的情况下，提升模型针对口音场景的性能，即实现口音领域扩展。采用元学习的方式进行模型训练，先基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练得到中间语音识别模型，中间语音识别模型学习到了适用于第一语音训练数据集和第三语音训练数据集的语音识别知识，再将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型计算目标损失，目标损失可以反映中间语音识别模型学习到的知识应用于第二语音训练数据集和第四语音训练数据集的效果，基于目标损失更新初始语音识别模型的模型参数得到更新语音识别模型，使得更新语音识别模型学会学习不同场景语音之间的变化规律、学会学习不同场景语音识别之间的通用知识，使得更新语音识别模型在面对新的语音训练数据集能够快速学习到相关知识。通过多次迭代，最终训练得到的目标语音识别模型可以学会不同场景语音识别的方法，目标语音识别模型同时适用于通用场景和各种口音场景的语音识别，在针对通用场景具有较高的语音识别准确性的基础上，针对各种口音场景也具有较高的语音识别准确性。

附图说明

图1为一个实施例中语音识别模型训练方法和语音识别方法的应用环境图；

图2为一个实施例中语音识别模型训练方法的流程示意图；

图3为另一个实施例中语音识别模型训练方法的流程示意图；

图4为另一个实施例中语音识别模型训练方法的流程示意图；

图5为另一个实施例中语音识别模型训练方法的流程示意图；

图6为一个实施例中语音识别模型的结构示意图；

图7为一个实施例中语音识别方法的流程示意图；

图8为一个实施例中语音识别模型训练装置的结构框图；

图9为一个实施例中语音识别装置的结构框图；

图10为一个实施例中计算机设备的内部结构图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的方案涉及人工智能的语音技术、机器学习、自然语言处理等技术，具体通过如下实施例进行说明：

本申请实施例提供的语音识别模型训练方法和语音识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。

终端和服务器均可单独用于执行本申请实施例中提供的语音识别模型训练方法和语音识别方法。

例如，服务器获取通用场景对应的通用语音识别模型，将通用语音识别模型作为初始语音识别模型。服务器获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集；各个语音训练数据集均包括训练语音和训练语音对应的标签文本，标签文本是将训练语音转换为文本得到的。服务器基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型，将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失。服务器基于目标损失更新初始语音识别模型的模型参数，得到更新语音识别模型，将更新语音识别模型作为初始语音识别模型，返回获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型。

后续，服务器可以获取待识别语音，将待识别语音输入目标语音识别模型，得到待识别语音对应的识别文本。

终端和服务器也可协同用于执行本申请实施例中提供的语音识别模型训练方法和语音识别方法。

例如，服务器获取通用场景对应的通用语音识别模型，将通用语音识别模型作为初始语音识别模型。服务器从终端获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集。服务器基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型，将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失。服务器基于目标损失更新初始语音识别模型的模型参数，得到更新语音识别模型，将更新语音识别模型作为初始语音识别模型，返回获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型。

后续，服务器可以将目标语音识别模型发送至终端，终端将待识别语音输入目标语音识别模型，得到待识别语音对应的识别文本。终端可以将识别文本进行展示。

在一个实施例中，如图2所示，提供了一种语音识别模型训练方法，以该方法应用于计算机设备来举例说明，计算机设备可以是终端或服务器，由终端或服务器自身单独执行，也可以通过终端和服务器之间的交互来实现。参考图2，语音识别模型训练方法包括以下步骤：

步骤S202，获取通用场景对应的通用语音识别模型，将通用语音识别模型作为初始语音识别模型。

其中，通用场景是指在多个地区通用的语音场景。通用场景下的语音适用于多个地区，通用场景下的语音是多个地区的用户自然可懂的。通用场景下的语音通常是以通用标准语言讲述的。以汉语为例，通用场景是指普通话场景。

相对于通用场景，口音场景是指在特定地区或特定群体中专用的语音场景。口音场景下的语音通常带有特定地区的地方特色，口音场景下的语音通常是特定地区的用户更容易听懂。口音主要有两种，一种是带有个人，地方语言特征的话音，另外一种是由于人类暂时仍无法有意识地精细调控发音器官而自然形成的口音。以汉语为例，口音是在普通话的基础上有了变动产生的，比如声母，韵母和声调等的变化，语气和节奏等的变化。口音场景可以是各种地方口音对应的语音场景，例如，四川口音场景、山东口音场景、广东口音场景等。

通用语音识别模型是指适用于通用场景的语音识别模型。语音识别模型用于将语音转换为相应的文本。通用语音识别模型主要用于将属于通用场景的语音转换为相应的文本，即通用语音识别模型在对属于通用场景的语音进行语音识别时具有一定的准确性，例如，通用语音识别模型在对属于通用场景的语音进行语音识别时具有大于预设阈值的识别准确性。可以理解，通用语音识别模型也可以在一定程度上适用于口音场景，但是通用语音识别模型在通用场景上的语音识别准确性高于在口音场景上的语音识别准确性。通用语音识别模型可以是经过预训练得到的模型。

具体地，计算机设备可以在本地或从其他设备上获取通用场景对应的通用语音识别模型，以通用语音识别模型为基础，在通用语音识别模型上经过一系列的模型训练，最终训练得到在通用场景和口音场景均具有较高语音识别准确性的目标语音识别模型。

步骤S204，获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集；各个语音训练数据集均包括训练语音和训练语音对应的标签文本，标签文本是将训练语音转换为文本得到的。

其中，口音场景对应的语音训练数据集是指由口音场景下的语音数据和对应的标签文本组成的训练集。口音场景对应的语音训练数据集可以包括至少一个口音场景下的语音数据，例如，口音场景对应的语音训练数据集可以包括A1口音的语音数据、A2口音的语音数据、A3口音的语音数据。口音场景对应的第一语音训练数据集和第二语音训练数据集是不同的语音训练数据集，第一语音训练数据集和第二语音训练数据集包括不同的语音数据。

通用场景对应的语音训练数据集是指由通用场景下的语音数据和对应的标签文本组成的训练集。通用场景对应的第三语音训练数据集和第四语音训练数据集是不同的语音训练数据集，第三语音训练数据集和第四语音训练数据集包括不同的语音数据。

各个语音训练数据集用于模型训练，各个语音训练数据集中的语音数据称为训练语音。训练语音存在对应的标签文本，标签文本是是将训练语音转换为文本得到的。标签文本用于以文本的形式描述训练语音表达的语义内容。标签文本可以认为是训练语音对应的真实文本，用于在模型训练时作为训练标签、作为监督信号。

步骤S206，基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型。

具体地，在基于通用语音识别模型训练得到目标语音识别模型的过程中，计算机设备可以先将通用语音识别模型作为初始语音识别模型，选取一部分通用场景训练数据和口音场景训练数据作为训练集来调整初始语音识别模型的模型参数，即基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练。

在一个实施例中，将第一语音训练数据集和第三语音训练数据集输入初始语音识别模型，经过模型的数据处理，得到第一语音训练数据集和第三语音训练数据集中各个训练语音分别对应的预测文本，基于同一训练语音对应的标签文本和预测文本之间的差异生成训练损失，基于训练损失更新初始语音识别模型的模型参数，得到中间语音识别模型。

对初始语音识别模型进行模型训练也可以是无监督和有监督结合的训练方式。

步骤S208，将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失。

其中，预测文本是指模型对输入数据进行数据处理输出的文本，代表模型的预测结果。目标损失用于表征第二语音训练数据集和第四语音训练数据集中训练语音对应的预测文本和标签文本之间的差异。目标损失越小，说明预测文本和对应的标签文本越接近，预测文本越准确，模型的预测结果越准确。

具体地，在基于第一语音训练数据集和第三语音训练数据集对初始语音识别模型进行模型训练得到中间语音识别模型后，计算机设备将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，经过模型的数据处理，得到第二语音训练数据集和第四语音训练数据集中各个训练语音分别对应的预测文本，基于同一训练语音对应的标签文本和预测文本之间的差异生成目标损失。目标损失可以反映中间语音识别模型学习到的知识应用于第二语音训练数据集和第四语音训练数据集的效果。

可以理解，目标损失可以采用自定义公式或算法进行计算，也可以采用各种损失函数来计算。训练损失的计算过程和目标损失的计算过程类似。

在一个实施例中，语音识别模型可以是实时语音识别模型，实时语音识别模型用于在语音采集过程中边采集语音片段边识别语音片段对应的文本片段，那么模型输出的预测文本可以包括各个语音片段分别对应的预测文本片段。语音识别模型也可以是非实时语音识别模型，非实时语音识别模型用于对完整语音进行整体识别得到语音对应的整体文本，那么，模型输出的预测文本可以包括对完整语音进行整体识别得到的整体文本。当然，语音识别模型也可以是实时和非实时相结合的语音识别模型，那么，模型输出的预测文本可以包括各个语音片段分别对应的预测文本片段以及整体文本。

若预测文本包括各个语音片段分别对应的预测文本片段，则目标损失包括基于同一语音片段对应的标签文本片段和预测文本片段之间的差异得到的损失。若预测文本包括整体文本，则目标损失包括基于同一训练语音对应的标签文本和整体文本之间的差异得到的损失。

在一个实施例中，将训练语音输入语音识别模型，先进行特征编码得到编码特征，再对编码特征进行特征解码得到预测文本。在进行特征解码时，还可以进一步参考训练语音对应的标签文本。

步骤S210，基于目标损失更新初始语音识别模型的模型参数，得到更新语音识别模型，将更新语音识别模型作为初始语音识别模型，返回获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型；目标语音识别模型用于对语音进行识别得到对应的文本。

其中，目标语音识别模型是指训练完成的语音识别模型。收敛条件是指判断模型是否达到收敛的条件，收敛条件包括但不限于目标损失小于预设损失值或模型迭代次数大于预设迭代次数或目标损失的变化率小于预设变化率等中的至少一者。目标损失越小，说明模型从第一语音训练数据集和第三语音训练数据集上学习到的知识逐渐适用于第二语音训练数据集和第四语音训练数据集，也就是，模型逐渐学会学习不同场景语音识别的方法，模型逐渐学会学习不同场景语音之间的变化规律，从而模型在面对新的数据集时也可以有较高的性能。

具体地，在计算得到目标损失后，计算机设备基于目标损失进行反向传播来更新初始语音识别模型的模型参数，得到中间语音识别模型。然后将更新语音识别模型作为初始语音识别模型，返回获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行以进行模型迭代训练，直至满足收敛条件，最终训练得到目标语音识别模型。目标语音识别模型在通用场景或口音场景上均具有较高的识别准确性。

在训练得到目标语音识别模型后，计算机设备可以基于目标语音识别模型将通用场景或口音场景的任意语音转换为相应的文本。

在第一轮模型迭代中，将通用语音识别模型作为初始语音识别模型，基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型，将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型来计算得到目标损失，基于目标损失更新初始语音识别模型的模型参数，得到更新语音识别模型。在第二轮模型迭代中，将上一轮得到的更新语音识别模型作为初始语音识别模型，重新获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集，基于新的第一语音训练数据集和第三语音训练数据集，对新的初始语音识别模型进行模型训练，得到新的中间语音识别模型，将新的第二语音训练数据集和第四语音训练数据集输入新的中间语音识别模型，计算得到新的目标损失，基于新的目标损失更新新的初始语音识别模型的模型参数，得到新的更新语音识别模型。在第三轮模型迭代中，将上一轮得到的更新语音识别模型作为初始语音识别模型，重复单轮模型迭代的数据处理过程，得到新的更新语音识别模型。以此类推，直至满足收敛条件，得到目标语音识别模型。例如，在某一轮模型迭代中目标损失小于预设阈值，则将该轮模型迭代采用的初始语音识别模型作为目标语音识别模型；若预设迭代次数为二十，则将第二十一轮模型迭代得到的更新语音识别模型作为初始语音识别模型。

可以理解，不同轮次的模型迭代过程中，采用的训练集不是完全相同的。例如，在第一轮模型迭代中采用的第一语音训练数据集与在第二轮模型迭代中采用的第一语音训练数据集是不同的，在第一轮模型迭代中采用的第三语音训练数据集与在第二轮模型迭代中采用的第三语音训练数据集是不同的训练集。不同轮次的模型迭代过程中采用的训练集可以完全不一样，也可以有重复的训练语音。

在一个实施例中，可以采用梯度下降算法来更新模型参数。元学习使模型学会学习的方式，元学习是通过对其中的一些类别进行学习，观察学习到的参数是否对其他类别也有效的方式学习分类的方法，通过对其中的一些数据进行学习，观察学习到的参数是否对其他数据也有效的方式学习预测的方法。假设模型的当前参数为W0，选取一部分通用数据+口音数据(即第一语音训练数据集和第三语音训练数据集)作为training set(训练集)，再选取一部分通用数据+口音数据(第二语音训练数据集和第四语音训练数据集)作为support set(支撑集)将training set中的数据经过模型后计算训练损失，基于训练损失计算梯度G0，基于梯度G0更新模型参数W0为Wm，将support set中的数据经过模型Wm后计算目标损失，基于目标损失计算梯度G，G为学习学习方式的梯度，在模型W0的基础上更新模型参数为W1。W1参数为下次迭代的模型初始参数W0，以此类推进行模型迭代，直至满足收敛条件，得到模型的目标参数，从而得到最终的目标语音识别模型。

在一个实施例中，针对同一种语言，通常都存在相应的通用场景和口音场景。例如，汉语存在对应的通用场景和口音场景，英语存在对应的通用场景和口音场景。针对不同的语言，可以分别训练得到对应的目标语音识别模型。例如，基于汉语对应的通用场景和口音场景的训练数据集，对汉语对应的通用场景的通用语音识别模型采用本申请的训练方式进行训练，得到汉语对应的目标语音识别模型。

在一个实施例中，通用场景和口音场景对应的训练数据集也可以是语言混搭数据集。语言混搭数据集中的训练语音包括至少两种语言，但是训练语音中的主要语言是相同的。例如，汉语的通用场景和口音场景对应的训练数据集中的训练语音可以是中英混输语音，中英混输语音是指包含中文和英文的语音，但是汉语的通用场景和口音场景对应的中英混输语音中主要语言为汉语、中文，也就是，汉语的通用场景和口音场景对应的中英混输语音中大部分内容都是采用中文讲述的。

上述语音识别模型训练方法中，通过获取通用场景对应的通用语音识别模型，将通用语音识别模型作为初始语音识别模型；获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集；各个语音训练数据集均包括训练语音和训练语音对应的标签文本，标签文本是将训练语音转换为文本得到的；基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型；将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失；基于目标损失更新初始语音识别模型的模型参数，得到更新语音识别模型，将更新语音识别模型作为初始语音识别模型，返回获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型；目标语音识别模型用于对语音进行识别得到对应的文本。这样，将通用场景对应的通用语音识别模型作为初始语音识别模型，通过对通用语音识别模型进行训练来实现在模型针对通用场景的性能不变差的情况下，提升模型针对口音场景的性能，即实现口音领域扩展。采用元学习的方式进行模型训练，先基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练得到中间语音识别模型，中间语音识别模型学习到了适用于第一语音训练数据集和第三语音训练数据集的语音识别知识，再将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型计算目标损失，目标损失可以反映中间语音识别模型学习到的知识应用于第二语音训练数据集和第四语音训练数据集的效果、中间语音识别模型学习到的知识是否适用于第二语音训练数据集和第四语音训练数据集，基于目标损失更新初始语音识别模型的模型参数得到更新语音识别模型，使得更新语音识别模型学会学习不同场景语音之间的变化规律、学会学习不同场景语音识别之间的通用知识，使得更新语音识别模型学习到的知识能够适用于新的语音训练数据集。通过多次迭代，最终训练得到的目标语音识别模型可以学会不同场景语音识别的方法，目标语音识别模型同时适用于通用场景和各种口音场景的语音识别，在针对通用场景具有较高的语音识别准确性的基础上，针对各种口音场景也具有较高的语音识别准确性。

常见的训练方式，通常是基于第一训练集对初始模型进行训练得到第一模型，基于第二训练集对第一模型进行训练得到第二模型，基于第三训练集对第二模型进行训练得到第三模型，以此类推，直至满足训练结束条件，得到目标模型。这样的训练方式，无法让模型有效学习到如何处理新的数据集，只能让模型在面对训练集时具有较高的准确性，模型在面对新的数据集无法保障具有较高的准确性。然而，采用本申请的训练方式，可以让模型学会学习不同场景语音识别的方法，使得模型在面对训练集和新的数据集时都具有较高的准确性。在本申请中，基于第一语音训练数据集和第三语音训练数据集对初始语音识别模型进行模型训练，得到中间语音识别模型，将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异得到目标损失，基于目标损失更新初始语音识别模型的模型参数，而不是基于目标损失更新中间语音识别模型，可以使得模型学会学习到在不同训练数据集之间通用的知识，而不仅仅是学习在特定训练数据集上的知识，使得模型学习到在面对新的数据集时也适用的模型参数。

在一个实施例中，如图3所示，步骤S208，包括：

步骤S302，在中间语音识别模型中，将训练语音进行分段编码，得到训练语音的多个语音片段分别对应的语音编码特征，分别对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第一预测文本片段。

其中，分段编码是指以语音片段为单位进行特征编码。可以将训练语音划分为多个语音片段，例如，语音片段包括500ms的语音数据，若训练语音为3s的语音，训练语音对应的语音片段包括有序排列的6个语音片段，每个语音片段包括500ms的语音数据。分别对各个语音片段进行特征编码，可以得到各个语音片段分别对应的语音编码特征。特征编码用于将语音数据编码为易于模型进行数据处理的特征向量。特征解码用于从特征向量中解码出文本数据。

第一预测文本片段是直接对语音编码特征进行特征解码得到的预测文本片段。

具体地，语音识别模型可以是实时语音识别模型。计算机设备将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，在中间语音识别模型中，将训练语音以语音片段为单位进行特征编码，得到训练语音的多个语音片段分别对应的语音编码特征，分别对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第一预测文本片段。

步骤S304，基于训练语音对应的标签文本，对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第二预测文本片段。

其中，第二预测文本片段是基于标签文本对语音编码特征进行特征解码得到的预测文本片段。

具体地，除了直接对语音编码特征进行解码得到预测文本片段，还可以进一步参考标签文本来对语音编码特征进行解码得到预测文本片段。计算机设备在生成用于作为预测文本片段的词语序列时，参考标签文本的相关信息，使得生成的预测文本片段具有一定的可靠性、准确性，避免模型在训练时受到完全错误的预测结果的影响。在对语音编码特征进行解码生成预测文本片段中的某个词语时，可以参考标签文本中的历史部分，通过标签文本中的历史部分来引导生成下一个词语，可以提高生成的词语的准确性，进而提高生成的预测文本片段的准确性。

在一个实施例中，在解码生成用于作为预测文本片段的词语序列时，可以是词语序列中的各个词语均参考其在标签文本中对应的历史部分，例如，在解码生成第t个词时参考标签文本中前t-1个词。在解码生成用于作为预测文本片段的词语序列时，也可以是词语序列中的一部分词语参考其在标签文本中对应的历史部分，另一部分词语参考已解码生成的词语，例如，在解码生成第t个词时，使用一个概率p去选择是参考其在标签文本中对应的历史部分，还是参考当前已解码生成的词语。

步骤S306，基于同一语音片段对应的第一预测文本片段和标签文本片段之间的差异得到第一损失，基于同一语音片段对应的第二预测文本片段和标签文本片段之间的差异得到第二损失。

步骤S308，基于第一损失和第二损失得到目标损失。

其中，语音片段对应的标签文本片段是指在标签文本中，与语音片段讲述的内容相符的文本片段。例如，语音片段包括500ms的语音数据，该语音片段对应的标签文本片段为在标签文本中这500ms对应的文本片段。

具体地，计算机设备基于同一语音片段对应的第一预测文本片段和标签文本片段之间的差异得到第一损失，具体可以基于同一语音片段对应的第一预测文本片段和标签文本片段之间的差异计算第一子损失，得到各个语音片段分别对应的第一子损失，基于各个第一子损失得到第一损失。第一损失用于指导模型在实时识别、分段识别时能够得到更准确的预测文本片段。同理，计算机设备基于同一语音片段对应的第二预测文本片段和标签文本片段之间的差异得到第二损失，第二损失用于辅助指导模型在实时识别、分段识别时能够得到更准确的预测文本片段，加快模型收敛速度。基于标签文本对语音编码特征进行解码能够在训练的时候矫正模型的预测，避免在词语序列生成的过程中误差进一步放大，基于标签文本对语音编码特征进行特征解码能够极大的加快模型的收敛速度，令模型训练过程更加快速和平稳。最终，计算机设备基于第一损失和第二损失得到目标损失，例如，计算第一损失和第二损失之和得到目标损失，将第一损失和第二损失进行加权求和得到目标损失。

上述实施例中，在中间语音识别模型中，将训练语音进行分段编码，得到训练语音的多个语音片段分别对应的语音编码特征，分别对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第一预测文本片段；基于训练语音对应的标签文本，对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第二预测文本片段；基于同一语音片段对应的第一预测文本片段和标签文本片段之间的差异得到第一损失，基于同一语音片段对应的第二预测文本片段和标签文本片段之间的差异得到第二损失；基于第一损失和第二损失得到目标损失。这样，第一损失有助于提高模型对语音进行实时识别、分段识别时的识别准确性，第二损失有助于提高模型收敛速度，基于第一损失和第二损失得到的目标损失在模型训练时有助于提高模型训练质量。

在一个实施例中，将训练语音进行分段编码，得到训练语音的多个语音片段分别对应的语音编码特征，包括：

对训练语音进行特征提取，得到训练语音的多个语音片段分别对应的初始语音特征；对初始语音特征进行下采样，得到目标语音特征；将目标语音特征进行特征编码，得到各个语音片段分别对应的语音编码特征。

其中，下采样是指从初始语音特征中删除或融合一部分特征，以提高模型训练效率。可以理解，语音具有短时一致性，也就是几帧语音的波形可能是完全一致的。在模型训练时，重复的信息会造成模型训练效率低。因此，可以通过下采样提高模型训练效率。下采样可以是对初始语音特征进行卷积处理。初始语音特征包括语音片段的多个语音帧分别对应的语音子特征，下采样可以是从初始语音特征中删除或融合一部分语音帧对应的语音子特征。下采样可以是从初始语音特征中每隔预设数目帧获取一帧数据来生成目标语音特征，例如，每隔四帧获取一帧数据来生成目标语音特征。下采样可以是将初始语音特征划分为多个语音子特征集合，取每个语音子特征集合的平均值来生成目标语音特征，例如，在初始语音特征中每四帧取四帧的平均值来生成目标语音特征。

具体地，在进行分段编码时，计算机设备可以先将训练语音分语音片段转换为便于进行数据处理的初始语音特征，再对初始语音特征进行下采样得到目标语音特征，然后对目标语音特征进行特征编码，从而得到训练语音的多个语音片段分别对应的语音编码特征。

在一个实施例中，初始语音特征可以是FBank特征(FilterBank，基于滤波器组的特征)。

上述实施例中，对训练语音进行特征提取，得到训练语音的多个语音片段分别对应的初始语音特征；对初始语音特征进行下采样，得到目标语音特征；将目标语音特征进行特征编码，得到各个语音片段分别对应的语音编码特征。将语音片段转换为语音特征可以提高模型数据处理效率，通过下采样能够提高模型训练效率。

在一个实施例中，如图4所示，基于第一损失和第二损失得到目标损失，包括：

步骤S402，将各个语音片段分别对应的语音编码特征进行拼接，得到初始编码特征。

具体地，语音识别模型可以是实时和非实时相结合的语音识别模型。计算机设备可以将各个语音片段分别对应的语音编码特征进行拼接得到初始编码特征，初始编码特征用于表征训练语音对应的、初始的编码特征。

步骤S404，对初始编码特征进行特征编码，得到目标编码特征，对目标编码特征进行特征解码，得到第三预测文本。

具体地，计算机设备可以对初始编码特征进行进一步的特征编码得到目标编码特征，目标编码特征用于表征训练语音对应的、最终的编码特征，目标编码特征可以更好地表征训练语音的声学信息、语义信息。再对目标编码特征进行特征解码，得到训练语音对应的第三预测文本。第三预测文本表示对训练语音进行整体识别得到的整体文本。

步骤S406，基于同一训练语音对应的第三预测文本和标签文本之间的差异得到第三损失。

步骤S408，基于第一损失、第二损失和第三损失，得到目标损失。

具体地，计算机设备可以基于同一训练语音对应的第三预测文本和标签文本之间的差异得到第三损失，具体可以基于同一训练语音对应的第三预测文本和标签文本之间的差异计算第三子损失，得到各个训练语音分别对应的第三子损失，基于各个第三子损失得到第三损失。第三损失用于指导模型在非实时识别、整体识别时能够得到更准确的预测文本。最终，计算机设备基于第一损失、第二损失和第三损失得到目标损失。

上述实施例中，将各个语音片段分别对应的语音编码特征进行拼接，得到初始编码特征；对初始编码特征进行特征编码，得到目标编码特征，对目标编码特征进行特征解码，得到第三预测文本；基于同一训练语音对应的第三预测文本和标签文本之间的差异得到第三损失；基于第一损失、第二损失和第三损失，得到目标损失。第三损失有助于提高模型对语音进行整体识别时的识别准确性，基于第一损失、第二损失和第三损失得到的目标损失在模型训练时有助于提高模型训练质量。

在一个实施例中，如图5所示，基于第一损失、第二损失和第三损失，得到目标损失，包括：

步骤S502，基于训练语音对应的标签文本，对目标编码特征进行特征解码，得到第四预测文本。

具体地，除了直接对目标编码特征进行解码得到预测文本，还可以进一步参考标签文本来对目标编码特征进行解码得到预测文本。计算机设备在生成用于作为预测文本的词语序列时，参考标签文本的相关信息，使得生成的预测文本具有一定的可靠性、准确性，避免模型在训练时受到完全错误的预测结果的影响。基于标签文本对目标编码特征进行解码能够在训练的时候矫正模型的预测，避免在词语序列生成的过程中误差进一步放大，基于标签文本对目标编码特征进行特征解码能够极大的加快模型的收敛速度，令模型训练过程更加快速和平稳。

在对目标编码特征进行解码生成预测文本中的某个词语时，可以参考标签文本中的历史部分，通过标签文本中的历史部分来引导生成下一个词语，可以提高生成的词语的准确性，进而提高生成的预测文本的准确性。

在一个实施例中，在解码生成用于作为预测文本的词语序列时，可以是词语序列中的各个词语均参考其在标签文本中对应的历史部分，例如，在解码生成第t个词时参考标签文本中前t-1个词。在解码生成用于作为预测文本的词语序列时，也可以是词语序列中的一部分词语参考其在标签文本中对应的历史部分，另一部分词语参考已解码生成的词语，例如，在解码生成第t个词时，使用一个概率p去选择是参考其在标签文本中对应的历史部分，还是参考当前已解码生成的词语。

步骤S504，基于同一训练语音对应的第四预测文本和标签文本之间的差异得到第四损失。

步骤S506，基于第一损失、第二损失、第三损失和第四损失，得到目标损失。

具体地，与第三损失类似，计算机设备基于同一训练语音对应的第四预测文本和标签文本之间的差异得到第四损失，最终基于第一损失、第二损失、第三损失和第四损失得到目标损失。

上述实施例中，基于训练语音对应的标签文本，对目标编码特征进行特征解码，得到第四预测文本；基于同一训练语音对应的第四预测文本和标签文本之间的差异得到第四损失；基于第一损失、第二损失、第三损失和第四损失，得到目标损失。这样，第四损失有助于提高模型收敛速度，基于第一损失、第二损失、第三损失和第四损失得到的目标损失在模型训练时有助于提高模型训练质量。

在一个实施例中，基于训练语音对应的标签文本，对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第二预测文本片段，包括：

从当前训练语音对应的当前标签文本中，获取当前训练语音的当前语音片段所对应的当前标签文本片段，从当前标签文本片段对应的各个词语位置中确定目标位置；从当前标签文本中，确定与目标位置匹配的参考位置，获取在参考位置之前的标签词语作为参考词语；基于参考词语，对当前语音片段对应的语音编码特征进行特征解码，得到目标位置对应的预测词语；获取当前标签文本片段中的下一词语位置作为目标位置，返回从当前标签文本中，确定与目标位置匹配的参考位置，获取在参考位置之前的标签词语作为参考词语的步骤执行，直至满足结束条件，得到多个预测词语；基于各个预测词语得到当前语音片段对应的第二预测文本片段。

其中，标签文本包括多个有序排列的标签词语。例如，标签文本为“大家好”，则多个有序排列的标签词语为大-家-好。

当前训练语音是指当前处理的训练语音，可以是第二语音训练数据集和第四语音训练数据集中任意的训练语音。当前标签文本是指当前训练语音所对应的标签文本。当前语音片段是指在当前训练语音中当前处理的语音片段，可以是当前训练语音对应的多个语音片段中的任意语音片段。当前标签文本片段是指当前语音片段所对应的标签文本片段。

目标位置是从当前标签文本片段对应的各个词语位置中确定的，目标位置用于表征在当前标签文本片段中的某个词语所在位置。参考位置是从当前标签文本对应的各个词语位置中确定的，参考位置用于表征在当前标签文本中的某个词语所在位置。与目标位置匹配的参考位置是指目标位置对应的标签词语在当前标签文本中所处的词语位置。例如，当前标签文本为“我已经在楼下等电梯了”，当前标签文本片段为“楼下等电梯了”，若将当前标签文本片段中的第一个词语位置作为目标位置，目标位置对应的标签词语为“楼”，那与目标位置匹配的参考位置是指“楼”在当前标签文本中对应的词语位置。

具体地，在基于标签文本对某个语音片段的语音编码特征进行解码处理时，可以依次解码生成用于组成预测文本片段的各个预测词语，在解码生成某一预测词语时需要参考标签文本中相应位置之前的历史部分，通过参考标签文本中的历史部分可以引导解码出较正确的预测词语。

针对当前语音片段对应的语音编码特征的特征解码过程，计算机设备可以从当前语音片段对应的当前标签文本片段所对应的各个词语位置中选择第一个词语位置作为目标位置，从当前标签文本中确定与目标位置匹配的参考位置，从当前标签文本中获取在参考位置之前的各个标签词语作为参考词语，若当前标签文本在参考位置之前不存在标签词语，则获取预设字符作为参考词语，基于参考词语对当前语音片段对应的语音编码特征进行特征解码，得到目标位置对应的预测词语，即得到第一个词语位置对应的预测词语。计算机设备从当前标签文本片段对应的各个词语位置中获取第二个词语位置作为新的目标位置，从当前标签文本中确定与目标位置匹配的参考位置，从当前标签文本中获取在参考位置之前的各个标签词语作为新的参考词语，基于参考词语对当前语音片段对应的语音编码特征进行特征解码，得到新的目标位置对应的预测词语，即得到第二个词语位置对应的预测词语。以此类推，直至满足结束条件，得到多个预测词语，最终将各个预测词语进行有序排列得到当前语音片段对应的第二预测文本片段。

其中，结束条件可以是预测词语的总数超过预设数量。若预测词语的总数超过预设数量，则停止解码，将已解码得到的各个预测词语进行有序排列得到第二预测文本片段。结束条件也可以是解码得到表征结束符的预测词语。若解码得到表征结束符的预测词语，则停止解码，将已解码得到的各个预测词语进行有序排列得到第二预测文本片段。

若当前标签文本在参考位置之前不存在标签词语，则获取预设字符作为参考词语。预设字符可以根据实际需要进行设置，例如，将起始符作为预设字符。

可以理解，在模型训练时，基于标签文本对语音编码特征进行特征解码的过程可以是串行处理的，即依次生成各个预测词语，基于标签文本对语音编码特征进行特征解码的过程也可以是并行处理的，即并行生成各个预测词语。由于标签文本是已知的，在模型训练时可以通过并行处理快速得到各个预测词语，从而快速得到预测文本片段。训练完成的模型在应用时，由于未知待识别语音对应的文本，模型应用时特征解码的过程可以是串行处理的，基于待识别语音的编码特征依次解码出各个词语来组成最终的识别文本。

在一个实施例中，可以对参考词语进行文本编码得到参考文本特征，融合语音编码特征和参考文本特征得到预测文本特征，最终对预测文本特征进行解码处理得到目标位置对应的预测词语。

在一个实施例中，基于训练语音对应的标签文本对目标编码特征进行特征解码的过程与基于训练语音对应的标签文本对语音编码特征进行特征解码的过程类似。从当前训练语音对应的当前标签文本的各个词语位置中确定目标位置，获取在目标位置之前的标签词语作为参考词语，基于参考词语，对当前训练语音对应的目标编码特征进行特征解码，得到目标位置对应的预测词语，获取当前标签文本中的下一词语位置作为目标位置，返回获取在目标位置之前的标签词语作为参考词语的步骤执行，直至满足结束条件，得到多个预测词语，基于各个预测词语得到当前训练语音对应的第四预测文本。

上述实施例中，生成预测词语来组成预测文本片段，在生成预测词语时参考标签文本中相应位置之前的标签词语，能够引导模型在前向正确答案的基础上输出较准确的预测词语，避免在词语序列生成的过程中误差进一步放大，从而能够极大的加快模型的收敛速度，令模型训练过程更加快速和平稳。

在一个实施例中，初始语音识别模型包括编码器和解码器，编码器用于进行特征编码，解码器用于进行特征解码，编码器包括起始层、中间层和结尾层。

基于目标损失更新初始语音识别模型的模型参数，得到更新语音识别模型，包括：

保持编码器中的中间层的模型参数不变，基于目标损失更新编码器中起始层、结尾层和解码器的模型参数，得到更新语音识别模型。

其中，初始语音识别模型包括编码器和解码器，编码器用于进行特征解码输出编码特征，解码器用于进行特征解码输出预测文本。编码器包括多个网络层，具体可以分为起始层、中间层和结尾层。起始层表示编码器中起始的网络层，结尾层表示编码器中结尾的网络层，中间层是指编码器中位于起始层和结尾层之间的网络层。

具体地，为了提高模型训练的稳定性和提高训练速度，在元学习这种训练方式的基础上只训练特定层，固定中间层。在基于目标损失更新初始语音识别模型的模型参数时，可以保持模型编码器中的中间层的模型参数不变，基于目标损失更新模型编码器中起始层、结尾层和解码器的模型参数，从而得到更新语音识别模型。

一个模型的不同层学习的参数代表的意义不同，在编码器中，离编码器的输入数据最近的几层主要是处理语音信号的声学特征，学习语音信号的声学信息，而位于编码器中部的几层主要是学习语音信号的上下文信息。口音语音和普通语音的主要差别在于语调，发音等，并且初始语音识别模型已经是适用于通用场景的语音识别模型，所以编码器中间大部分层数不变也不会特别影响语音识别的性能，主要是训练编码器的最初几层的参数使模型从声学上将语音信息转变成特征的过程中更能提取文本相关的特征来。因为特征变了编码器输出的特征也会有略微的变化，所以编码器的最后几层的参数也进行适应性的调整。

在一个实施例中，初始语音识别模型可以包括至少两个编码器和至少两个解码器。不同的编码器用于进行不同的特征编码方式，不同的解码器用于进行不同的特征解码方式。在调整模型参数时，可以保持各个编码器中的中间层的模型参数不变，基于目标损失更新各个编码器中起始层、结尾层和各个解码器的模型参数，得到更新语音识别模型。

上述实施例中，保持编码器中的中间层的模型参数不变，基于目标损失更新编码器中起始层、结尾层和解码器的模型参数，得到更新语音识别模型，能够保障模型训练的稳定性。

在一个实施例中，获取通用场景对应的通用语音识别模型，包括：

获取通用场景对应的第五语音训练数据集；基于第五语音训练数据集，对候选语音识别模型进行训练，得到通用语音识别模型。

其中，候选语音识别模型是指初始化的语音识别模型，可以是随机初始化的模型，也可以是人为设置初始化参数的模型。第五语音训练数据集是指由通用场景下的语音数据和对应的标签文本组成的训练集。第五语音训练数据集和第三语音训练数据集、第四语音训练数据集可以相同可以不同。

具体地，通用语音识别模型可以是基于通用场景对应的语音训练数据集训练得到的。计算机设备可以获取通用场景对应的第五语音训练数据集，基于第五语音训练数据集，对候选语音识别模型进行训练，得到通用语音识别模型。

可以理解，对候选语音识别模型进行训练可以采用各种有监督训练方式或者无监督和有监督结合的训练方式。

在一个实施例中，将候选语音识别模型作为第一语音识别模型，对第五语音训练数据集进行采样得到通用训练子集，将通用训练子集输入第一语音识别模型，经过模型的数据处理，得到通用训练子集中各个训练语音分别对应的预测文本，基于同一训练语音对应的标签文本和预测文本之间的差异生成模型损失，基于模型损失更新第一语音识别模型的模型参数，得到第二语音识别模型，将第二语音识别模型作为第一语音识别模型，返回对第五语音训练数据集进行采样得到通用训练子集的步骤执行，直至满足收敛条件，得到中间语音识别模型。

上述实施例中，获取通用场景对应的第五语音训练数据集；基于第五语音训练数据集，对候选语音识别模型进行训练，得到通用语音识别模型，能够保障通用语音识别模型具有一定的识别准确性。后续，基于元学习的训练方式对通用语音识别模型进行训练能够实现在模型针对通用场景的性能不变差的情况下，提升模型针对口音场景的性能。

在一个实施例中，初始语音识别模型包括编码器和解码器，编码器包括局部编码器和全局编码器，解码器包括基础解码器、局部解码器、全局解码器。

其中，局部编码器用于对语音片段进行特征编码得到语音片段对应的语音编码特征。也就是，局部编码器用于进行分段编码。

可以将属于同一语音的各个语音片段分别对应的语音编码特征进行拼接得到该语音对应的初始编码特征。全局编码器用于对语音对应的初始编码特征进行特征编码得到目标编码特征。也就是，全局编码器用于对初始编码特征进行进一步的特征编码，用于进行整体编码。全局编码器与局部编码器相连。将局部编码器输出的属于同一语音的各个语音片段对应的语音编码特征进行拼接得到语音对应的初始编码特征，将语音对应的初始编码特征输入全局编码器进行特征编码得到语音对应的目标编码特征。

基础解码器用于对局部编码器输出的语音编码特征进行特征解码。基础解码器与局部编码器相连。将局部编码器输出的语音片段对应的语音编码特征输入基础解码器进行特征解码得到语音片段对应的预测文本片段。基础解码器还用于对全局编码器输出的目标编码数据进行特征解码。基础解码器还与全局编码器相连。将全局编码器输出的语音对应的目标编码特征输入基础解码器进行特征解码得到语音对应的预测文本。

局部解码器用于基于训练语音的语音片段对应的标签文本片段，对训练语音的语音片段对应的语音编码特征进行特征解码。局部编码器与局部编码器相连，将局部编码器输出的语音片段对应的语音编码特征输入局部编码器，将语音片段对应的标签文本片段输入局部编码器，在局部解码器中基于标签文本片段对语音编码特征进行特征解码得到语音片段对应的第二预测文本片段。

全局解码器用于基于训练语音对应的标签文本，对训练语音对应的目标编码特征进行特征解码。全局解码器与全局编码器相连，将全局编码器输出的训练语音对应的目标编码特征输入全局解码器，将语音对应的标签文本输入全局解码器，在全局解码器中基于标签文本对目标编码特征进行特征解码得到语音对应的第四预测文本。

可以理解，局部解码器和全局解码器用于指导模型训练，在模型训练时提高模型收敛速度。在模型训练完成后，局部解码器和全局解码器不参与预测工作，基于局部编码器、全局编码器和基础解码器就可以预测得到准确的预测文本片段和预测文本。

在一个实施例中，局部编码器用于实时对语音片段进行特征编码得到语音片段对应的语音编码特征，基础解码器用于实时对局部编码器的输出数据进行特征解码。每获取到一个语音片段，则通过局部编码器实时对语音片段进行特征编码得到语音片段对应的语音编码特征，将语音编码特征实时输入基础解码器，通过基础解码器实时对语音编码特征进行特征解码得到语音片段对应的预测文本片段。在获取到一个语音的最后一个语音片段后，将局部编码器输出的属于同一语音的各个语音片段对应的语音编码特征进行拼接得到语音对应的初始编码特征，将语音对应的初始编码特征输入全局编码器进行特征编码得到语音对应的目标编码特征，将目标编码特征输入基础解码器，通过基础解码器对目标编码特征进行特征解码得到语音对应的预测文本。

针对同一语音，每解码得到一个预测文本片段，就可以将预测文本片段进行展示。在解码得到预测文本后，可以将预测文本也进行展示。可以将各个预测文本片段和预测文本都展示，也可以将预测文本覆盖各个预测文本片段进行展示。

在一个具体的实施例中，参考图6，初始语音识别模型包括语音输入层(可以称为Audio Input)、局部编码器、全局编码器、基础解码器、局部解码器、全局解码器和文本输入层(可以称为Text Input)。

在模型训练时，将训练语音和训练语音对应的标签文本输入模型。将标签文本输入文本输入层进行文本识别得到标签词语序列。将训练语音输入语音输入层，在语音输入层中将训练语音的各个语音片段转换为初始语音特征，将初始语音特征输入局部编码器，在局部编码器中通过下采样层对初始语音特征进行下采样得到目标语音特征，将目标语音特征输入第一编码层，通过依次相连的多个编码层进行特征编码，得到训练语音的各个语音片段分别对应的语音编码特征。将语音编码特征输入基础解码器，在基础解码器中进行特征解码得到语音片段对应的第一预测文本片段。将语音编码特征和标签词语序列输入局部解码器，在局部解码器中基于标签词语序列对语音编码特征进行特征解码得到语音片段对应的第二预测文本片段。

将局部编码器处理得到的属于同一训练语音的各个语音片段对应的语音编码特征进行拼接得到训练语音对应的初始编码特征，将初始编码特征输入全局编码器进行特征编码得到训练语音对应的目标编码特征。将目标编码特征输入基础解码器进行特征解码得到训练语音对应的第三预测文本。将目标编码特征和标签词语序列输入全局解码器，在全局解码器中基于标签词语序列对目标编码特征进行特征解码得到训练语音对应的第四预测文本。

针对训练数据，将通用场景对应的语音训练数据集标记为G，将口音场景对应的语音训练数据集标记为A，对于每一个口音i标记为Ai，所以口音场景对应的语音训练数据集A＝{A1，A2，…，An})。将G和A中的数据分为training set和supportset，即Gtra，Gsup，Atra，Asup。

采用如下公式计算损失进行训练：

L＝λ₁L_{ctc-streaming}+λ₂L_{ctc-nonstreaming}+λ₃L_{aed-streaming}+λ₄L_{aed-nonstreaming}

其中，局部编码器可以称为Causal Encoder(因果编码器)。全局编码器可以称为Non-Causal Encoder(非因果编码器)，基础解码器可以是CTC Decoder(CTC编码器)，局部解码器可以称为Streaming Attention Decoder(流式注意力解码器)，全局解码器可以称为Attention Decoder(注意力解码器)。L_{ctc-streaming}是基于训练语音的语音片段对应的标签文本片段和第一预测文本片段之间的差异计算得到的第一损失。第一预测文本片段是将Causal Encoder的输出数据输入CTC Decoder，CTC Decoder输出的数据。L_{ctc-nonstreaming}是基于训练语音对应的标签文本和第三预测文本之间的差异计算得到的第三损失，第三预测文本是将Non-Causal Encoder的输出数据输入CTC Decoder，CTC Decoder输出的数据。L_{aed-streaming}是基于训练语音的语音片段对应的标签文本片段和第二预测文本片段之间的差异计算得到的第二损失，第二损失第二预测文本片段是将Causal Encoder的输出数据和Text Input的输出数据输入Streaming Attention Decoder，Streaming AttentionDecoder输出的数据。L_{aed-nonstreaming}是基于训练语音对应的标签文本和第四预测文本之间的差异计算得到的第四损失，第四预测文本是将Non-Causal Encoder的输出数据和TextInput的输出数据输入Attention Decoder，Attention Decoder输出的数据。L表示总损失。λ₁、λ₂、λ₃和λ₄表示损失权重，可以根据实际需要进行设置。

在第一次迭代中，模型f为适用于通用场景的语音识别模型。

对于每一次迭代，Gtra和Atra中的一些sample batch构成Itra，Gsup和Asup中的一些sample batch构成Isup，模型f的初始参数为θ，首先在Itra上计算梯度并在模型上如下公式(1)更新：

其中，α表示学习率。表示将Itra输入参数为θ的模型f计算得到的总损失。/>表示基于/>计算得到的梯度。θ′_i表示模型f更新后的参数。

也可以将Itra分成几部分依次过模型对模型进行参数更新，这样也是模型对training set中的识别的学习。在根据training set对模型进行训练后，我们的元学习的目标是公式(2)：

元学习的目标是将Isup输入参数为θ′_i的模型f计算得到的总损失最小。p(/)表示训练时使用的通用数据和口音数据。

在根据training set对模型进行训练后，计算Isup在f_θ′上的损失和梯度用来学习语音识别的方法，最后更新模型参数如下：

其中，β表示学习率。表示将Itra输入参数为θ′的模型f计算得到的总损失。/>表示基于/>计算得到的梯度。基于/>对参数θ进行更新，得到下一轮迭代的模型初始参数。/>

因为元学习训练方式较常见训练方式会使模型训练不够稳定，所以我们在元学习的基础上只训练特定层，固定大部分的中间层。参考图6，模型中虚线框所指示的网络层的参数固定，只训练其他部分的参数，这样一方面可以使通用数据中的敏感数据的预测结果变化较小，另一方面也可以提升训练速度。

模型训练完成后，在模型应用时，将待识别语音输入训练完成的模型。将待识别语音输入语音输入层，在语音输入层中将待识别语音转换为初始语音特征，将初始语音特征输入局部编码器，在局部编码器中通过下采样层对初始语音特征进行下采样得到目标语音特征，将目标语音特征输入第一编码层，通过依次相连的多个编码层进行分段编码，得到待识别语音的各个语音片段分别对应的语音编码特征。将语音编码特征输入基础解码器，在基础解码器中进行特征解码得到语音片段对应的识别文本片段。将局部编码器处理得到的属于待识别语音的各个语音片段对应的语音编码特征进行拼接得到待识别语音对应的初始编码特征，将初始编码特征输入全局编码器进行特征编码得到待识别语音对应的目标编码特征。将目标编码特征输入基础解码器进行特征解码得到待识别语音对应的识别文本。

可以理解，在模型应用时也可以是边采样边识别。每采集到语音片段就输入训练完成的模型，将待识别语音片段输入语音输入层，在语音输入层中将待识别语音片段转换为初始语音特征，将初始语音特征输入局部编码器，在局部编码器中通过下采样层对初始语音特征进行下采样得到目标语音特征，将目标语音特征输入第一编码层，通过依次相连的多个编码层进行特征编码，得到待识别语音片段对应的语音编码特征。将语音编码特征输入基础解码器，在基础解码器中进行特征解码得到待识别语音片段对应的识别文本片段。模型每得到一个待识别语音片段对应的识别文本片段就将识别文本片段进行输出。在得到属于同一待识别语音的最后一个待识别语音片段对应的语音编码特征，将局部编码器处理得到的属于同一待识别语音的各个待识别语音片段对应的语音编码特征进行拼接得到待识别语音对应的初始编码特征，将初始编码特征输入全局编码器进行特征编码得到待识别语音对应的目标编码特征。将目标编码特征输入基础解码器进行特征解码得到待识别语音对应的识别文本。模型将识别文本进行输出。

在一个实施例中，如图7所示，提供了一种语音识别方法，以该方法应用于计算机设备来举例说明，计算机设备可以是终端或服务器，由终端或服务器自身单独执行，也可以通过终端和服务器之间的交互来实现。参考图2，语音识别方法包括以下步骤：

步骤S702，获取待识别语音。

步骤S704，将待识别语音输入目标语音识别模型，得到待识别语音对应的识别文本。

其中，待识别语音是指待进行语音识别的语音。待识别语音可以是各种各样的语音，例如，可以是用户在使用输入法的语音识别功能时输入的语音，可以是视频中的语音，可以是语音通话中的语音。待识别语音可以是实时采集到的语音，也可以是预先采集到的语音。识别文本是对待识别语音进行语音识别得到的文本。

目标语音识别模型的训练过程包括以下步骤：

获取通用场景对应的通用语音识别模型，将通用语音识别模型作为初始语音识别模型；获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集；各个语音训练数据集均包括训练语音和训练语音对应的标签文本，标签文本是将训练语音转换为文本得到的；基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型；将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失；基于目标损失更新初始语音识别模型的模型参数，得到更新语音识别模型，将更新语音识别模型作为初始语音识别模型，返回获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型。

可以理解，目标语音识别模型的具体训练过程可以参照前述语音识别模型训练方法各个实施例的内容，此处不再赘述。

具体地，计算机设备可以预先训练得到目标语音识别模型。计算机设备可以在本地或从其他设备上获取待识别语音，将待识别语音输入预先训练好的目标语音识别模型，通过目标语音识别模型的数据处理，目标语音识别模型输出待识别语音对应的识别文本。

可以理解，若目标语音识别模型为实时语音识别模型，那么目标语音识别模型输出的识别文本包括待识别语音的各个待识别语音片段分别对应的识别文本片段。若目标语音识别模型为非实时语音识别模型，那么目标语音识别模型输出的识别文本包括对待识别语音进行整体识别得到的整体文本。若目标语音识别模型为实时和非实时相结合的语音识别模型，那么目标语音识别模型输出的识别文本包括各个识别文本片段和整体文本。

在得到待识别语音对应的识别文本后，计算机设备可以对识别文本进行展示，也可以将识别文本发送至终端，在终端上将识别文本进行展示。

上述语音识别方法，通过获取待识别语音，将待识别语音输入目标语音识别模型，得到待识别语音对应的识别文本。目标语音识别模型针对通用场景和口音场景均具有较高的语音识别准确性，基于目标语音识别模型进行语音识别可以有效提高语音识别准确性。将通用场景对应的通用语音识别模型作为初始语音识别模型，通过对通用语音识别模型进行训练来实现在模型针对通用场景的性能不变差的情况下，提升模型针对口音场景的性能，即实现口音领域扩展。采用元学习的方式进行模型训练，先基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练得到中间语音识别模型，中间语音识别模型学习到了适用于第一语音训练数据集和第三语音训练数据集的语音识别知识，再将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型计算目标损失，目标损失可以反映中间语音识别模型学习到的知识应用于第二语音训练数据集和第四语音训练数据集的效果，基于目标损失更新初始语音识别模型的模型参数得到更新语音识别模型，使得更新语音识别模型学会学习不同场景语音之间的变化规律、学会学习不同场景语音识别之间的通用知识，使得更新语音识别模型在面对新的语音训练数据集能够快速学习到相关知识。通过多次迭代，最终训练得到的目标语音识别模型可以学会不同场景语音识别的方法，目标语音识别模型同时适用于通用场景和各种口音场景的语音识别，在针对通用场景具有较高的语音识别准确性的基础上，针对各种口音场景也具有较高的语音识别准确性。

在一个实施例中，目标语音识别模型包括编码器和解码器，编码器包括局部编码器和全局编码器；

语音识别方法还包括：

在采集待识别语音的过程中，每采集到待识别语音片段就输入目标语音识别模型，通过局部编码器和解码器实时得到待识别语音片段对应的识别文本片段；依次展示各个待识别语音片段对应的识别文本片段；在待识别语音采集结束后，将局部编码器的各个输出数据拼接后输入全局编码器，通过全局编码器和解码器得到待识别语音对应的整体识别文本；展示整体识别文本，以覆盖各个识别文本片段。

具体地，目标语音识别模型为实时和非实时相结合的语音识别模型。在采集待识别语音的过程中，每采集到待识别语音片段就将待识别语音片段输入目标语音识别模型，通过局部编码器实时对待识别语音片段进行特征编码，通过解码器实时对待识别语音片段的特征编码结果进行特征解码，从而得到待识别语音片段对应的识别文本片段。在采集待识别语音的过程中，可以是将采集到的预设长度的语音就作为一个待识别语音片段，每采集到一个待识别语音片段就将待识别语音片段输入目标语音识别模型进行语音识别，得到待识别语音片段对应的识别文本片段。每得到一个待识别语音片段对应的识别文本片段，就可以将识别文本片段进行展示。在采集待识别语音的过程中，依次展示各个待识别语音片段分别对应的识别文本片段。

在待识别语音采集结束后，将局部编码器输出的属于待识别语音的各个待识别语音片段分别对应的特征编码结果拼接后输入全局编码器，通过全局编码器进行进一步的特征编码，将全局编码器的编码结果输入解码器进行特征解码，从而得到待识别语音对应的整体识别文本。可以理解，相比于识别文本片段，整体识别文本具有更高的准确性。因此在展示整体识别文本时，可以是通过覆盖各个识别文本片段的方式来展示整体识别文本。

上述实施例中，在采集待识别语音的过程中，边采集边识别以提高识别效率，在采集结束后，进行整体识别以提高识别准确性，这种识别方式既兼顾了识别延迟，又兼顾了识别效果。

在一个具体的实施例中，本申请的语音识别模型训练方法和语言识别方法可以应用于输入法的语音识别场景下。用户可以在终端上开启输入法的语音输入功能，对着终端的麦克风讲话，终端会自动采用通过本申请的方法训练得到的目标语音识别模型进行语音识别得到语音对应的文本，在终端上展示识别结果。终端可以在本地识别，也可以将语音发送至服务器，在服务器识别。

语音中的口音和普通话有着不一样的声调，发音。为了在输入法上进行口音的领域扩展，即在通用场景的性能不变差的情况下，提升口音上的性能，我们引入元学习技术进行优化。元学习的引用使模型学会学习不同场景语音识别的方法，而不仅仅是学习通用场景和口音场景语音识别的任务(即传统训练方式)。这种更本质的学习较传统训练方式在口音扩展任务上会有性能上的提升。

1、模型训练

训练中每次迭代的具体方案如下：

1-1模型当前参数为W0，选取一部分通用数据+口音数据作为training set，再选取一部分通用数据+口音数据作为support set。

1-2、将training set中的数据经过模型后计算梯度G0，更新模型参数为Wm＝W0+G0，将support set中的数据经过模型Wm后计算梯度G，G为学习学习方式的梯度，所以在模型W0的基础上更新模型参数为W1(即W0+G)。

1-3、W1参数为下次迭代的模型初始参数W0。

此外，因为元学习较直接传统训练方式会使模型训练不够稳定，所以我们在元学习的基础上只训练特定层，固定大部分的中间层。

在第一次迭代中，将适用于通用场景的语音识别模型作为初始模型。经过多轮迭代后，最终训练得到不仅在通用场景的识别性能不变差而且对口音场景的识别性能也十分优异的语音识别模型。为了在输入法的语音识别场景下，不仅识别率高而且首字出的快，语音识别模型可以采用级联模型，级联模型包括局部编码器、全局编码器、基础解码器、局部解码器、全局解码器。级联模型首先对短的语音片段进行识别，快速出字，然后对长的整体语音进行重新识别，将第一次出的字刷新。

2、模型应用

在用户通过输入法进行语音输入时，可以先将短的语音片段输入模型，将局部编码器的输出数据进行特征解码来进行流式结果上屏，即先对短的语音片段进行识别，快速出字，快速展示。当用户说话结束时，局部编码器最后一层的所有输出会拼接后输入给到全局编码器进行前向计算，将全局编码器的输出数据再次进行特征解码来刷新覆盖之前的结果，即对长的整体语音进行重新识别，将第一次出的字刷新。这种思路既兼顾了识别延迟，又兼顾了识别效果。

对本申请训练得到的模型进行测试，测试结果表明，在普通话的基础上通过本申请的训练方式对口音进行领域扩展，有以下效果的提升：1、口音测试集的WER(Word ErrorRate，词错率)相对传统训练方式下降2％-5％。2、普通话测试集的WER相对传统训练方式下降1％-2％。3、由于指定特定层训练，模型训练更加稳定(模型通用测试集变好2％-5％)，训练速度更快(快大约20％)。

可以理解，本申请的语音识别模型训练方法和语言识别方法还可以应用于其他语音识别场景下，例如，应用于对视频会议中的语音进行语音识别；应用于对语音通话中的语音进行语音识别；等等。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音识别模型训练方法的语音识别模型训练装置，实现上述所涉及的语音识别方法的语音识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音识别模型训练装置实施例中的具体限定可以参见上文中对于语音识别模型训练方法的限定，一个或多个语音识别装置实施例中的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种语音识别模型训练装置，包括：模型获取模块802、训练数据集获取模块804、第一模型训练模块806和第二模型训练模块808，其中：

模型获取模块802，用于获取通用场景对应的通用语音识别模型，将通用语音识别模型作为初始语音识别模型。

训练数据集获取模块804，用于获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集；各个语音训练数据集均包括训练语音和训练语音对应的标签文本，标签文本是将训练语音转换为文本得到的。

第一模型训练模块806，用于基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型。

第二模型训练模块808，用于将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失；基于目标损失更新初始语音识别模型的模型参数，得到更新语音识别模型，将更新语音识别模型作为初始语音识别模型，返回获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型；目标语音识别模型用于对语音进行识别得到对应的文本。

上述语音识别模型训练装置，将通用场景对应的通用语音识别模型作为初始语音识别模型，通过对通用语音识别模型进行训练来实现在模型针对通用场景的性能不变差的情况下，提升模型针对口音场景的性能，即实现口音领域扩展。采用元学习的方式进行模型训练，先基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练得到中间语音识别模型，中间语音识别模型学习到了适用于第一语音训练数据集和第三语音训练数据集的语音识别知识，再将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型计算目标损失，目标损失可以反映中间语音识别模型学习到的知识应用于第二语音训练数据集和第四语音训练数据集的效果、中间语音识别模型学习到的知识是否适用于第二语音训练数据集和第四语音训练数据集，基于目标损失更新初始语音识别模型的模型参数得到更新语音识别模型，使得更新语音识别模型学会学习不同场景语音之间的变化规律、学会学习不同场景语音识别之间的通用知识，使得更新语音识别模型学习到的知识能够适用于新的语音训练数据集。通过多次迭代，最终训练得到的目标语音识别模型可以学会不同场景语音识别的方法，目标语音识别模型同时适用于通用场景和各种口音场景的语音识别，在针对通用场景具有较高的语音识别准确性的基础上，针对各种口音场景也具有较高的语音识别准确性。

在一个实施例中，第二模型训练模块还用于在中间语音识别模型中，将训练语音进行分段编码，得到训练语音的多个语音片段分别对应的语音编码特征，分别对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第一预测文本片段；基于训练语音对应的标签文本，对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第二预测文本片段；基于同一语音片段对应的第一预测文本片段和标签文本片段之间的差异得到第一损失，基于同一语音片段对应的第二预测文本片段和标签文本片段之间的差异得到第二损失；基于第一损失和第二损失得到目标损失。

在一个实施例中，第二模型训练模块还用于对训练语音进行特征提取，得到训练语音的多个语音片段分别对应的初始语音特征；对初始语音特征进行下采样，得到目标语音特征；将目标语音特征进行特征编码，得到各个语音片段分别对应的语音编码特征。

在一个实施例中，第二模型训练模块还用于将各个语音片段分别对应的语音编码特征进行拼接，得到初始编码特征；对初始编码特征进行特征编码，得到目标编码特征，对目标编码特征进行特征解码，得到第三预测文本；基于同一训练语音对应的第三预测文本和标签文本之间的差异得到第三损失；基于第一损失、第二损失和第三损失，得到目标损失。

在一个实施例中，第二模型训练模块还用于基于训练语音对应的标签文本，对目标编码特征进行特征解码，得到第四预测文本；基于同一训练语音对应的第四预测文本和标签文本之间的差异得到第四损失；基于第一损失、第二损失、第三损失和第四损失，得到目标损失。

在一个实施例中，第二模型训练模块还用于从当前训练语音对应的当前标签文本中，获取当前训练语音的当前语音片段所对应的当前标签文本片段，从当前标签文本片段对应的各个词语位置中确定目标位置；从当前标签文本中，确定与目标位置匹配的参考位置，获取在参考位置之前的标签词语作为参考词语；基于参考词语，对当前语音片段对应的语音编码特征进行特征解码，得到目标位置对应的预测词语；获取当前标签文本片段中的下一词语位置作为目标位置，返回从当前标签文本中，确定与目标位置匹配的参考位置，获取在参考位置之前的标签词语作为参考词语的步骤执行，直至满足结束条件，得到多个预测词语；基于各个预测词语得到当前语音片段对应的第二预测文本片段。

在一个实施例中，初始语音识别模型包括编码器和解码器，编码器用于进行特征编码，解码器用于进行特征解码，编码器包括起始层、中间层和结尾层。第二模型训练模块还用于保持编码器中的中间层的模型参数不变，基于目标损失更新编码器中起始层、结尾层和解码器的模型参数，得到更新语音识别模型。

在一个实施例中，模型获取模块还用于获取通用场景对应的第五语音训练数据集；基于第五语音训练数据集，对候选语音识别模型进行训练，得到通用语音识别模型。

在一个实施例中，初始语音识别模型包括编码器和解码器，编码器包括局部编码器和全局编码器，解码器包括基础解码器、局部解码器、全局解码器。局部编码器用于对语音片段进行特征编码得到语音片段对应的语音编码特征，全局编码器用于对语音对应的初始编码特征进行特征编码得到目标编码特征，语音对应的初始编码特征是基于属于同一语音的各个语音片段分别对应的语音编码特征得到的。基础解码器用于对局部编码器输出的语音编码特征进行特征解码，还用于对全局编码器输出的目标编码特征进行特征解码。局部解码器用于基于训练语音的语音片段对应的标签文本片段，对训练语音的语音片段对应的语音编码特征进行特征解码，全局解码器用于基于训练语音对应的标签文本，对训练语音对应的目标编码特征进行特征解码。

在一个实施例中，如图9所示，提供了一种语音识别装置，包括：语音获取模块902和语音识别模块904，其中：

语音获取模块902，用于获取待识别语音。

语音识别模块904，用于将待识别语音输入目标语音识别模型，得到待识别语音对应的识别文本。

目标语音识别模型的训练过程包括以下步骤：

获取通用场景对应的通用语音识别模型，将通用语音识别模型作为初始语音识别模型；获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集；各个语音训练数据集均包括训练语音和训练语音对应的标签文本，标签文本是将训练语音转换为文本得到的；基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练，得到中间语音识别模型；将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失；基于目标损失更新初始语音识别模型的模型参数，得到更新语音识别模型，将更新语音识别模型作为初始语音识别模型，返回获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型

上述语音识别装置，目标语音识别模型针对通用场景和口音场景均具有较高的语音识别准确性，基于目标语音识别模型进行语音识别可以有效提高语音识别准确性。将通用场景对应的通用语音识别模型作为初始语音识别模型，通过对通用语音识别模型进行训练来实现在模型针对通用场景的性能不变差的情况下，提升模型针对口音场景的性能，即实现口音领域扩展。采用元学习的方式进行模型训练，先基于第一语音训练数据集和第三语音训练数据集，对初始语音识别模型进行模型训练得到中间语音识别模型，中间语音识别模型学习到了适用于第一语音训练数据集和第三语音训练数据集的语音识别知识，再将第二语音训练数据集和第四语音训练数据集输入中间语音识别模型计算目标损失，目标损失可以反映中间语音识别模型学习到的知识应用于第二语音训练数据集和第四语音训练数据集的效果，基于目标损失更新初始语音识别模型的模型参数得到更新语音识别模型，使得更新语音识别模型学会学习不同场景语音之间的变化规律、学会学习不同场景语音识别之间的通用知识，使得更新语音识别模型在面对新的语音训练数据集能够快速学习到相关知识。通过多次迭代，最终训练得到的目标语音识别模型可以学会不同场景语音识别的方法，目标语音识别模型同时适用于通用场景和各种口音场景的语音识别，在针对通用场景具有较高的语音识别准确性的基础上，针对各种口音场景也具有较高的语音识别准确性。

在一个实施例中，目标语音识别模型包括编码器和解码器，编码器包括局部编码器和全局编码器。语音识别装置还用于：

上述语音识别模型训练装置和语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储口音场景和通用场景对应的语音训练数据集、语音识别模型等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型训练方法和语音识别方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音识别模型训练方法和语音识别方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10、11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音识别模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第二语音训练数据集和所述第四语音训练数据集输入所述中间语音识别模型，得到训练语音对应的预测文本，基于训练语音对应的预测文本和标签文本之间的差异，得到目标损失，包括：

在所述中间语音识别模型中，将训练语音进行分段编码，得到训练语音的多个语音片段分别对应的语音编码特征，分别对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第一预测文本片段；

基于训练语音对应的标签文本，对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第二预测文本片段；

基于同一语音片段对应的第一预测文本片段和标签文本片段之间的差异得到第一损失，基于同一语音片段对应的第二预测文本片段和标签文本片段之间的差异得到第二损失；

基于所述第一损失和所述第二损失得到目标损失。

3.根据权利要求2所述的方法，其特征在于，所述将训练语音进行分段编码，得到训练语音的多个语音片段分别对应的语音编码特征，包括：

对训练语音进行特征提取，得到训练语音的多个语音片段分别对应的初始语音特征；

对所述初始语音特征进行下采样，得到目标语音特征；

将所述目标语音特征进行特征编码，得到各个语音片段分别对应的语音编码特征。

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一损失和所述第二损失得到目标损失，包括：

将各个语音片段分别对应的语音编码特征进行拼接，得到初始编码特征；

对所述初始编码特征进行特征编码，得到目标编码特征，对所述目标编码特征进行特征解码，得到第三预测文本；

基于同一训练语音对应的第三预测文本和标签文本之间的差异得到第三损失；

基于所述第一损失、所述第二损失和所述第三损失，得到目标损失。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一损失、所述第二损失和所述第三损失，得到目标损失，包括：

基于训练语音对应的标签文本，对目标编码特征进行特征解码，得到第四预测文本；

基于同一训练语音对应的第四预测文本和标签文本之间的差异得到第四损失；

基于所述第一损失、所述第二损失、所述第三损失和所述第四损失，得到目标损失。

6.根据权利要求2所述的方法，其特征在于，所述基于训练语音对应的标签文本，对各个语音编码特征进行特征解码，得到各个语音片段分别对应的第二预测文本片段，包括：

从当前训练语音对应的当前标签文本中，获取当前训练语音的当前语音片段所对应的当前标签文本片段，从所述当前标签文本片段对应的各个词语位置中确定目标位置；

从所述当前标签文本中，确定与目标位置匹配的参考位置，获取在参考位置之前的标签词语作为参考词语；

基于参考词语，对当前语音片段对应的语音编码特征进行特征解码，得到目标位置对应的预测词语；

获取所述当前标签文本片段中的下一词语位置作为目标位置，返回所述从所述当前标签文本中，确定与目标位置匹配的参考位置，获取在参考位置之前的标签词语作为参考词语的步骤执行，直至满足结束条件，得到多个预测词语；

基于各个预测词语得到所述当前语音片段对应的第二预测文本片段。

7.根据权利要求1所述的方法，其特征在于，所述初始语音识别模型包括编码器和解码器，所述编码器用于进行特征编码，所述解码器用于进行特征解码，所述编码器包括起始层、中间层和结尾层；

所述基于所述目标损失更新所述初始语音识别模型的模型参数，得到更新语音识别模型，包括：

保持所述编码器中的中间层的模型参数不变，基于所述目标损失更新所述编码器中起始层、结尾层和所述解码器的模型参数，得到更新语音识别模型。

8.根据权利要求1所述的方法，其特征在于，所述获取通用场景对应的通用语音识别模型，包括：

获取通用场景对应的第五语音训练数据集；

基于所述第五语音训练数据集，对候选语音识别模型进行训练，得到通用语音识别模型。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述初始语音识别模型包括编码器和解码器，所述编码器包括局部编码器和全局编码器，所述解码器包括基础解码器、局部解码器、全局解码器；

所述局部编码器用于对语音片段进行特征编码得到语音片段对应的语音编码特征，所述全局编码器用于对语音对应的初始编码特征进行特征编码得到目标编码特征，所述语音对应的初始编码特征是基于属于同一语音的各个语音片段分别对应的语音编码特征得到的；

所述基础解码器用于对所述局部编码器输出的语音编码特征进行特征解码，还用于对所述全局编码器输出的目标编码特征进行特征解码；

所述局部解码器用于基于训练语音的语音片段对应的标签文本片段，对训练语音的语音片段对应的语音编码特征进行特征解码，所述全局解码器用于基于训练语音对应的标签文本，对训练语音对应的目标编码特征进行特征解码。

10.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音；

所述目标语音识别模型的训练过程包括以下步骤：

基于所述目标损失更新所述初始语音识别模型的模型参数，得到更新语音识别模型，将所述更新语音识别模型作为初始语音识别模型，返回所述获取口音场景对应的第一语音训练数据集和第二语音训练数据集，获取通用场景对应的第三语音训练数据集和第四语音训练数据集的步骤执行，直至满足收敛条件，得到目标语音识别模型。

11.根据权利要求10所述的方法，其特征在于，所述目标语音识别模型包括编码器和解码器，所述编码器包括局部编码器和全局编码器；

所述方法还包括：

在采集待识别语音的过程中，每采集到待识别语音片段就输入所述目标语音识别模型，通过局部编码器和解码器实时得到待识别语音片段对应的识别文本片段；

依次展示各个待识别语音片段对应的识别文本片段；

在待识别语音采集结束后，将局部编码器的各个输出数据拼接后输入全局编码器，通过全局编码器和解码器得到待识别语音对应的整体识别文本；

展示所述整体识别文本，以覆盖各个识别文本片段。

12.一种语音识别模型训练装置，其特征在于，所述装置包括：

13.一种语音识别装置，其特征在于，所述装置包括：

语音获取模块，用于获取待识别语音；

所述目标语音识别模型的训练过程包括以下步骤：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。