CN113539244B

CN113539244B - 端到端语音识别模型训练方法、语音识别方法及相关装置

Info

Publication number: CN113539244B
Application number: CN202110832626.9A
Authority: CN
Inventors: 吴振宗; 徐易楠; 康世胤; 许佳
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2023-10-03
Anticipated expiration: 2041-07-22
Also published as: CN113539244A

Abstract

本发明提供的端到端语音识别模型训练方法、语音识别方法及相关装置，该方法包括：根据文本语料，获得训练后的语言模型；根据语言模型构建端到端语音识别模型，并根据音频语料对构建后的端到端语音识别模型进行训练，获得训练后的端到端语音识别模型。本发明基于数量级较大的文本语料先训练出一个语言模型，让这个语言模型可以学习更多的语言知识，进而，利用训练后的语言模型构建端到端语音识别模型，在结合音频语料进行训练，不仅可以让训练后的模型避免因多音字现象造成识别准确度降低的现象，同时在避免可训练之前需要对音频语料进行标注成本较大的问题。

Description

端到端语音识别模型训练方法、语音识别方法及相关装置

技术领域

本发明涉及语音识别技术领域，具体而言，涉及一种端到端语音识别模型训练方法、语音识别方法及相关装置。

背景技术

语音识别(Automatic Speech Recognition,简称ASR)，就是将麦克风采集的音频转化为文字的过程，近年来，端到端的语言识别(End-to-End ASR，简称E2E-ASR)已经逐渐成为主流，其语音识别性能相比较于传统的语音识别模型性能更好，由于其模型小，不需要额外的语言模型，可以很容易部署到设备中，能够广泛应用于各个领域。

然而，目前端到端的语言识别模型在训练过程中需要音频训练语料进行训练，但是很多场景中没有足够多的音频训练语料，因此，模型能够学习到的语言知识较少，又因为其本身不具备语言模型，导致解码时容易造成多音字，降低识别准确度，同时在训练之前需要对音频语料进行标注，成本较大。

发明内容

本发明的目的之一在于提供一种端到端语音识别模型训练方法、语音识别方法及相关装置，用以解决提高端到端语音识别模型的准确度。

本发明的实施例可以这样实现：

第一方面，本发明提供一种端到端语音识别模型训练方法，所述方法包括：根据文本语料，获得训练后的语言模型；根据所述语言模型构建端到端语音识别模型，并根据音频语料对构建后的所述端到端语音识别模型进行训练，获得训练后的所述端到端语音识别模型。

第二方面，本发明提供一种语音识别方法，所述方法包括：获取待识别语音；将所述待识别语音的音频特征输入训练后的端到端语音识别模型进行识别，获得所述待识别语音对应的目标文本。

第三方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现第一方面所述的方法或者第二方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法或者第二方面所述的方法。

本发明提供的一种端到端语音识别模型训练方法、语音识别方法及相关装置，该方法包括：根据文本语料，获得训练后的语言模型；根据所述语言模型构建端到端语音识别模型，并根据音频语料对构建后的所述端到端语音识别模型进行训练，获得训练后的所述端到端语音识别模型。与现有技术的区别在于，现有的端到端的语言识别模型在训练过程中需要音频训练语料进行训练，但是很多场景中没有足够多的音频训练语料，因此，模型能够学习到的语言知识较少，又因为其本身不具备语言模型，导致解码时容易造成多音字，降低识别准确度，同时在训练之前需要对音频语料进行标注，成本较大。因此，本发明基于数量级较大的文本语料先训练出一个语言模型，让这个语言模型可以学习更多的语言知识，进而，利用训练后的语言模型构建端到端语音识别模型，在结合音频语料进行训练，不仅可以让训练后的模型避免因多音字现象造成识别准确度降低的现象，同时在避免可训练之前需要对音频语料进行标注成本较大的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为现有技术中端到端语音识别模型的训练框架图；

图2为相关技术提出的一种浅融合方案框架图；

图3为本发明实施例提供的端到端语音识别模型训练方法的示意性流程图；

图4为本发明实施例提供的步骤S305的实现方式的示意性流程图；

图5为本发明实施例提供的端到端语音识别模型的训练框架图；

图6为本发明实施例提供的步骤S303的实现方式的示意性流程图；

图7为本发明实施例图提供的一种语音识别方法的示意性流程图；

图8为本发明实施例提供的一种用户界面的实现方式；

图9为本发明实施例提供的一种端到端语音识别模型训练装置的功能模块图；

图10为本发明实施例提供的一种语音识别装置的功能模块图；

图11为本发明实施例提供的一种电子设备结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

目前，语音识别在智能手机、智能家居、智能车载设备、智能客服机器人方面有广泛的应用，未来将会深入到学习、生活、工作的各个环节。

传统的语音识别主要是基于隐马尔可夫模型-深度神经网络(HMM-DNN)建模的。由于隐马尔可夫模型的建模限制，加之解码器所用到的发音字典、语言模型等诸多手工规则。这些手工规则虽然在数据量较小时可以取得较好的结果，但是在数据量较大时无法充分发挥建模潜力。因此，近年来，端到端的语言识别(End-to-End ASR，简称E2E-ASR)已经逐渐成为主流，其语音识别性能相比较于传统的语音识别模型性能更好，由于其模型小，不需要额外的语言模型，可以很容易部署到设备中，能够广泛应用于各个领域。

目前，比较流行的端到端的语音识别模型的采用了连接时序分类模型(Connectionist Temporal Classification，简称CTC)和自注意力机制(AttentionMechanism)的混合解码网络结构，原因是：CTC模型解码是基于每帧的解码保持彼此独立的假设条件下，通过预测每个帧的输出来识别语音，因而缺乏解码过程中前后语音特征之间的联系，比较依赖语言模型的修正。而单纯采用attention机制的解码则与输入语音的帧顺序无关，每个解码单元是通过前一单元的解码结果与整体语音特征来生成当前的结果，解码过程忽略了语音的单调时序性。为了兼顾两种方法的优缺点，一般采用混合解码的框架模型。

基于前述内容描述的端到端语音识别模型的基本框架，图1给出了现有技术中端到端语音识别模型的训练框架图，现有的训练过程如下：将编码器的输出信息同时输入到CTC模型和自带的解码器中，其中，在解码器的训练过程中，还加入了带标注的音频语料，端到端语音识别模型的损失函数由CTC模型的损失函数和解码器的损失函数按各自所占比重进行加权求和，加权损失函数值的计算可以为0.3*CTCloss+0.7*GPT-2loss，当端到端语音识别模型的加权损失函数值下降到趋于稳定后则可训练结束。

可以看出，上述端到端的语言识别模型在训练过程中需要音频训练语料进行训练，但是很多场景中没有足够多的音频训练语料，因此，模型能够学习到的语言知识较少，又因为其本身不具备语言模型，导致解码时容易造成多音字，降低识别准确度，同时在训练之前需要对音频语料进行标注，成本较大。

为了解决上述技术问题，相关技术提出了一种将端到端语音识别模型和语言模型进行融合的解决方案，请参见图2，图2为相关技术提出的一种浅融合方案框架图，该方案的核心在于：在不改变原始端到端语音识别模型的情况下，额外增加一个语言模型(例如GPT-2模型)，把两个模块加在一起进行重打分，从而保留得分最高的磁序列。

例如，继续参见图2，将音频特征z输入语音识别模型(ASR)后，能得到第一分布概率Pasr；将上一步解码获得的文本以及语言模型(LM)隐藏层信息H输入到语言模型，就能得到第二分布概率Plm，按一定权重把LM和ASR模型的第一分布概率Pasr和第二分布概率Plm相加，直到最后解码结束。其中，图1中的所示的c1和c2分别是每一次解码获得的概率之和最大时对应的词语。

但是，申请人发现在实施上述方案的过程中，虽然能够解决解码时容易造成多音字的问题，提高了识别准确度，但是额外增加的语言模型结构太大了，导致解码速度非常慢。

因此，申请人在图1所示的端到端的语音识别模型的训练框架的基础上，提出了一种端到端的语音识别模型训练方法，请参见图3，图3为本发明实施例提供的端到端语音识别模型训练方法的示意性流程图，该方法可以包括：

S304，根据文本语料，获得训练后的语言模型。

在本发明实施例中，上述文本语料可以通过现有任意一种爬虫技术从网络中采集得到，语料内容可以涉及任何领域、场景，例如，日常日常生活基础对话、聊天软件、直播软件、社交软件等出现的文本，还可以是根据现有的文本随机生成的文本。

可以预见的是，文本语料的数量要远远大于音频语料，而且文本语料获取要比带标注的音频语料获取容易得多，可以让语言模型学到丰富的语言知识，从而可以解决解码过程中多音字问题，而且，当音频语料大于一定时长的时候，语言模型反而没有解码优势。

还可以预见的是，上述用来训练的文本语料数在训练过程中不需要预先对文本语料进行标注，因此，可以降低训练成本和耗时，提高训练效率。

在一些可能的实施例中，上述的语言模型优选为GPT-2模型，GPT-2模型是由现有的transformer框架中的解码器组堆叠而成，可以有不同的尺寸，最小GPT-2模型可以有12层解码器，最大的GPT-2模型可以有48层解码器，根据实际需求，可以自定义GPT-2模型的解码器层级。

S305，根据语言模型构建端到端语音识别模型，并根据音频语料对构建后的端到端语音识别模型进行训练，获得训练后的端到端语音识别模型。

可以理解的是，现有的端到端语音识别模型是由编码器组和解码器组两部分构成，其中，编码器组由多编码器叠加而成，解码器组由多层解码器叠加而成，而且，解码器组结构通常为6层，因此，为了对齐模型输出结果，本发明实施例中的使用的是6层的GPT-2模型。

因此，当本发明中的GPT-2模型为6层时，可以利用训练好的GPT-2模型来替代现有的端到端语音识别模型的解码器组，由于GPT-2模型在训练过程中采用的是文本语料，可以获得一个能够学习到更多语言知识的模型，因此，根据GPT-2模型语言模型构建端到端语音识别模型，可以预见的是，后续得到的端到端语音识别模型可以解决因多音字现象带来的准确度低问题。

在一些可能的实施例中，在训练构建后的端到端语音识别模型的过程中，用到的训练语料还是带标注音频语料，这是因为前期GPT-2模型的训练已经学习到足够多语言知识，因此，在后期训练过程中，可以采用常规的音频语料进行训练。

与现有技术的区别在于，现有的端到端的语言识别模型在训练过程中需要音频训练语料进行训练，但是很多场景中没有足够多的音频训练语料，因此，模型能够学习到的语言知识较少，又因为其本身不具备语言模型，导致解码时容易造成多音字，降低识别准确度，同时在训练之前需要对音频语料进行标注，成本较大。因此，本发明基于数量级较大的文本语料先训练出一个语言模型，让这个语言模型可以学习更多的语言知识，进而，利用训练后的语言模型构建端到端语音识别模型，在结合音频语料进行训练，不仅可以让训练后的模型避免因多音字现象造成识别准确度降低的现象，同时在避免可训练之前需要对音频语料进行标注成本较大的问题。

可选地，下面还给出一种并根据音频语料对构建后的端到端语音识别模型进行训练的实现方式，请参见图4，图4为本发明实施例提供的步骤S305的实现方式的示意性流程图，其中，步骤S305可以包括以下子步骤：

子步骤S305-1，将语言模型构建成端到端语音识别模型的解码模块，得到构建后的端到端语音识别模型。

可以理解的是，可以利用训练好的GPT-2模型来替代现有的端到端语音识别模型的解码器组，获得一个新的端到端语音识别模型。

子步骤S305-2，针对构建后的端到端语音识别模型，将除语言模型的交叉注意力机制参数之外的其他模型参数保持固定，并根据音频语料，对语言模型进行训练。

其中，上述的其他模型参数指得是：端到端语音识别模型中，除语言模型之外的其他模型的模型参数，和语言模型中除交叉注意力机制参数之外的参数。

例如，请继续参见图1，可以看到，端到端语音识别模型中包括编码器模块、解码器模块和CTC模型，则上述的除所述语言模型之外的模型参数可以是编码器模块的参数和CTC模型参数。在训练的过程中保持出交叉注意力机制参数之外的其他模型参数固定不变，可以防止破坏语言模型预先训练的信息。

在本发明实施例中，本发明实施例中用来替换端到端语音识别模型的语言模型也具有层级结构，在每一层中，不单单保留了现有自注意力机制(self attention)，还增加交叉注意力机制(cross attention)，自注意力机制就是将上一层输出的结果作为值向量、键向量和查询向量进行注意力计算，第一层的自注意力机制来自编码器，交叉注意力机制则是：针对每一层，将上一层的查询向量和当前层的值向量和键向量进行注意力计算，这样模型就能注意到输入的全部序列，而不是最终单一的向量，其中，值向量越大，占的权重越大。交叉注意力机制参数用于计算端到端语音识别模型的编码器模块的输出信息的注意力得分，其中，输出信息的注意力得分越高，注意力得分较高的值将在结果向量中占很大的比重。

本发明为语言模型增加交叉注意力机制的目的是：利用交叉注意力机制联合编码器和解码器的信息，将声学信息和文字信息做注意力计算，以防止模型学不到任何知识。

子步骤S305-3，当确定端到端语音识别模型的损失函数的损失值下降到第一数值且第一数值不再变化时，将端到端语音识别模型中除语言模型之外的模型参数保持固定，根据音频语料，对语言模型进行训练。

可以理解的是，损失函数由CTC模型的损失函数和解码器的损失函数按各自所占比重进行加权求和，例如，加权损失函数值的计算可以为0.3*CTCloss+0.7*GPT-2loss，当端到端语音识别模型的加权损失函数值第一数值不再变化时，即可进行第二阶段的训练。

子步骤S305-4，当确定所损失函数的损失值下降到第二数值且第二数值不再变化，获得训练后的端到端语音识别模型；其中，所述第一数值大于所述第二数值。

为了方便理解上述训练思路，请参见图5，图5为本发明实施例提供的端到端语音识别模型的训练框架图，与图1所示的现有训练框架不同的是，本发明中的端到端语音识别模型中解码器模块是预先训练好的语言模型GPT-2，GPT-2模型共有6层解码器，在训练的过程中，先将编码器模块、CTC模型以及GPT-2除交叉机制参数之外的其他参数保持固定，根据音频语料对GPT-2模型进行训练，例如，当的值下降到不在变化，则得到训练后的端到端语音识别模型。

可选地，在前述内容描述的训练过程中，还可以为语言模型的每一层配置权重参数，该权重参数表征输出信息被过滤掉的概率。因此，交叉注意力机制参数用于计算端到端语音识别模型的编码器模块的输出信息的注意力得分的方式如下：

根据输出信息、当前层的权重参数、交叉注意力机制参数以及当前层的上一层计算结果获得输出信息的注意力得分。

可以预见的是，语言模型的每一层都加上权重参数，使得每一层都有一定的概率不加上，并且层数越高，丢失信息的概率越高。这是为了模拟输入为只有文本没有音频的情况，是为了让模型保留预训练的信息，防止模型过拟合。

例如，请继续参见图5，GPT-2具有6层结构，从底层到顶层的权重参数逐渐递增，在训练过程中，将编码器的输出信息依次作为6层的输入进行注意力计算，同时在第1层还输入了音频语料，当前层的输入信息包括上一层的计算结果和编码器的输出信息，例如，在第1层，根据输入信息、第一层对应的权重参数0.1和音频语料输入第1层进行注意力计算，获得第一层计算结果，在第2层，根据输入信息、第二层对应的权重参数0.2和第一层计算结果输入第2层进行注意力计算，得到第二层计算结果，以此类推，输出获得第6层的计算结果，最终获得字典的分布概率。

通过上述提出的多阶段预训练策略获得的端到端语音识别模型，使得解码的结果减轻了多音字的情况，使文本更加通顺，并且还提高了准确率。

可选地，下面还给出一种训练语言模型的实施方式，请参加图6，图6为本发明实施例提供的步骤S303的实现方式的示意性流程图，步骤S303可以包括以下子步骤：

子步骤S303-1,获得口语文本语料集和业务文本语料集。

其中，口语文本语料集是在任意场景下采集的文本集；业务文本语料集是在业务场景下采集的用户对应的文本集。该业务场景可以但不限于是:直播业务、游戏业务、社交业务等。

子步骤S303-2，根据口语文本语料集，对初始的语言模型进行预训练，获得预训练的语言模型。

可以理解的是，预训练(pre-training/trained)就是指预先训练的一个模型或者指预先训练模型的过程，在预训练过程中，可以将文本长度过小的文本剔除，例如，将文本长度小于5的文本剔除掉，将剩余的文本作为训练样本进行训练，当达到收敛条件后就停止训练，获得预训练的语言模型。

子步骤S303-3，根据业务文本语料集，对预训练的语言模型进行微调训练，获得训练后的语言模型。

可以理解的是，微调训练(fine tuning)就是指将预训练过的模型作用于自身业务数据集，并使参数适应自身业务数据的过程，在预训练过程中，同预训练过程一样，先剔除文本长度过小的文本，将剩余的文本作为训练样本进行训练，当达到收敛条件后就停止训练，获得期望的语言模型。

基于上述获得的端到端语音识别模型，下面还给出一种语音识别方法，该语音识别方法可以应用在智能手机、平板电脑、智能家居、智能车载设备、智能客服机器人等电子设备上，此处不做限定。下面以上述方法在智能手机上的应用为例，请参见图7，图7为本发明实施例图提供的一种语音识别方法的示意性流程图，该方法可以包括：

S703，获取待识别语音。

可以理解的是，上述的待识别语音可以是智能手机上预先存储的语音数据，还可以是通过智能手机实时采集的语音数据，还可以是从其他音视频数据中截取下来的语音，此处不做限定。

S704，将待识别语音的音频特征输入训练后的端到端语音识别模型进行识别，获得待识别语音对应的目标文本。

可以理解的是，上述的端到端语音识别模型可以根据上述实施例中任意一种训练方法获得，此处不再赘述。

可选地，下面还给出一种上述语音识别方法前端的一种实现方式，请参见图8，图8为本发明实施例提供的一种用户界面的实现方式，其中，该用户界面可以显示在智能手机、平板电脑、智能家居、智能车载设备、智能客服机器人等任意一种智能电子设备。该电子设备中部署有上述任意一个实施例中的端到端语音识别模型。

如图8所示，用户界面上具有语音录入区域、开始识别标识和文本预览区域，当电子设备接收到在语音录入区域的录入指令，响应该录入指令，获得待识别语音。

在一些可能的实施例中，用户可以通过操作录音标识实时录制语音信号，或者，用户还可以操作文件上传标识，上传预先录制好的语音信号或者预先从其他音视频数据中截取的语音，当设备接收到针对开始识别标识的操作指令，对待识别语音进行特征提取，获得所述音频特征，然后将音频特征输入端到端语音识别模型进行识别，获得目标文本。

在一些可能的实施例中，用户界面上还可以具有文本预览区域，当在用户界面上接收到预览指令，在预览区域显示目标文本。例如，待识别语音的内容为“请识别这段语音的文本”，那么在进行语音识别之后，可以在预览区域显示“请为我识别这段语音的文本”的文本信息。

在另一些可能的实施例中，电子设备还可以根据识别的目标文本搜索与目标文本匹配的数据，例如，当用户对这录制标识录制“请为我寻找最近的餐厅”，电子设备将该语音识别到文本“请为我寻找最近的餐厅”，然后根据该文本进行搜索。

为了执行上述实施例及各个可能的方式中的端到端语音识别模型训练方法，下面给出一种端到端语音识别模型训练装置的实现方式，请参阅图9，图9为本发明实施例提供的一种端到端语音识别模型训练装置的功能模块图。需要说明的是，本实施例所提供的端到端语音识别模型训练装置，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该端到端语音识别模型训练装置30包括：

训练模块31，用于根据文本语料，获得训练后的语言模型；根据所述语言模型构建端到端语音识别模型，并根据音频语料对构建后的所述端到端语音识别模型进行训练，获得训练后的所述端到端语音识别模型。

可选地，训练模块31，具体用于：将所述语言模型构建成所述端到端语音识别模型的解码模块，得到构建后的所述端到端语音识别模型；针对所述构建后的所述端到端语音识别模型，将除所述语言模型的交叉注意力机制参数之外的其他模型参数保持固定，并根据所述音频语料，对所述语言模型进行训练；其中，所述其他模型参数包括：所述端到端语音识别模型中，除所述语言模型之外的模型参数，和所述语言模型中除所述交叉注意力机制参数之外的参数；所述交叉注意力机制参数用于计算所述端到端语音识别模型的编码器模块的输出信息的注意力得分；当确定所述端到端语音识别模型的损失函数的损失值下降到第一数值且所述第一数值不再变化时，将所述端到端语音识别模型中除所述语言模型之外的模型参数保持固定，根据所述音频语料，对所述语言模型进行训练；当确定所述损失函数的损失值下降到第二数值且所述第二数值不再变化，获得训练后的所述端到端语音识别模型；其中，所述第一数值大于所述第二数值。

可选地，端到端语音识别模型训练装置30还包括配置模块，用于为所述语言模型的每一层配置权重参数，所述权重参数表征所述输出信息被过滤掉的概率；所述交叉注意力机制参数用于计算所述端到端语音识别模型的编码器模块的输出信息的注意力得分的方式如下：根据所述输出信息、所述当前层的权重参数、交叉注意力机制参数以及所述当前层的上一层计算结果获得所述输出信息的注意力得分。

可选地，训练模块31，还具体用于：获得口语文本语料集和业务文本语料集；其中，所述口语文本语料集是在任意场景下采集的文本集；所述业务文本语料集是在业务场景下采集的用户对应的文本集；根据所述口语文本语料集，对初始的所述语言模型进行预训练，获得预训练的所述语言模型；根据所述业务文本语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。

为了执行上述实施例及各个可能的方式中的语音识别方法的步骤，下面给出一种语音识别装置的实现方式，请参阅图10，图10为本发明实施例提供的一种语音识别装置的功能模块图。需要说明的是，本实施例所提供的语音识别装置，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该语音识别装置40包括：

获取模块41，获得待识别语音。

识别模块42，用于将所述待识别语音的音频特征输入训练后的端到端语音识别模型进行识别，获得所述待识别语音对应的目标文本。

可选地，语音识别装置40还包括：处理模块，用于响应用户界面上语音录入区域的录入操作指令，获得所述待识别语音；响应所述用户界面上的识别指令，对所述待识别语音进行特征提取，获得所述音频特征，将所述音频特征输入训练后的端到端语音识别模型进行识别，获得所述目标文本。

可选地，处理模块，还用于当在用户界面上接收到预览指令，在预览区域显示所述目标文本。

本发明实施例还提供一种电子设备，如图11，图11为本发明实施例提供的一种电子设备结构框图。该电子设备80包括通信接口81、处理器82和存储器83。该处理器82、存储器83和通信接口81相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器83可用于存储软件程序及模块，如本发明实施例所提供的基于端到端语音识别模型训练方法或者语音识别方法对应的程序指令/模块，处理器82通过执行存储在存储器83内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口81可用于与其他节点设备进行信令或数据的通信。在本发明中该电子设备80可以具有多个通信接口81。

其中，存储器83可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器82可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

可选地，上述模块可以软件或固件(Firmware)的形式存储于图11所示的存储器中或固化于该电子设备的操作系统(Operating System，OS)中，并可由图11中的处理器执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器中。

本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项基于端到端语音识别模型训练方法或者语音识别方法。该计算机可读存储介质可以是，但不限于，U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种端到端语音识别模型训练方法，其特征在于，所述方法包括：

根据文本语料，获得训练后的语言模型；

根据所述语言模型构建端到端语音识别模型，并根据音频语料对构建后的所述端到端语音识别模型进行训练，获得训练后的所述端到端语音识别模型；

根据所述语言模型构建端到端语音识别模型，并根据音频语料对构建后的所述端到端语音识别模型进行训练，获得训练后的所述端到端语音识别模型，包括：

将所述语言模型构建成所述端到端语音识别模型的解码模块，得到构建后的所述端到端语音识别模型；

针对所述构建后的所述端到端语音识别模型，将除所述语言模型的交叉注意力机制参数之外的其他模型参数保持固定，并根据所述音频语料，对所述语言模型进行训练；

其中，所述其他模型参数包括：所述端到端语音识别模型中，除所述语言模型之外的模型参数，和所述语言模型中除所述交叉注意力机制参数之外的参数；所述交叉注意力机制参数用于计算所述端到端语音识别模型的编码器模块的输出信息的注意力得分；

当确定所述端到端语音识别模型的损失函数的损失值下降到第一数值且所述第一数值不再变化时，将所述端到端语音识别模型中除所述语言模型之外的模型参数保持固定，根据所述音频语料，对所述语言模型进行训练；

当确定所述损失函数的损失值下降到第二数值且所述第二数值不再变化，获得训练后的所述端到端语音识别模型；其中，所述第一数值大于所述第二数值。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

为所述语言模型的每一层配置权重参数，所述权重参数表征所述输出信息被过滤掉的概率；

所述交叉注意力机制参数用于计算所述端到端语音识别模型的编码器模块的输出信息的注意力得分的方式如下：

根据所述输出信息、当前层的权重参数、交叉注意力机制参数以及所述当前层的上一层计算结果获得所述输出信息的注意力得分。

3.根据权利要求1所述的方法，其特征在于，根据文本语料，获得训练后的语言模型，包括：

获得口语文本语料集和业务文本语料集；其中，所述口语文本语料集是在任意场景下采集的文本集；所述业务文本语料集是在业务场景下采集的用户对应的文本集；

根据所述口语文本语料集，对初始的所述语言模型进行预训练，获得预训练的所述语言模型；

根据所述业务文本语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。

4.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音；

将所述待识别语音的音频特征输入训练后的端到端语音识别模型进行识别，获得所述待识别语音对应的目标文本；

所述端到端语音识别模型是通过以下方式训练而成：

根据文本语料，获得训练后的语言模型；

根据所述语言模型构建端到端语音识别模型，并对构建后的所述端到端语音识别模型进行训练，获得训练后的所述端到端语音识别模型，包括：

针对所述构建后的所述端到端语音识别模型，将除所述语言模型的交叉注意力机制参数之外的其他模型参数保持固定，并根据音频语料，对所述语言模型进行训练；

5.根据权利要求4所述的语音识别方法，其特征在于，所述语言模型是通过以下方式训练而成：

6.根据权利要求4所述的语音识别方法，其特征在于,获得待识别语音，包括：

响应用户界面上语音录入区域的录入操作指令，获得所述待识别语音；

将所述待识别语音的音频特征，输入训练后的端到端语音识别模型进行识别，获得所述待识别语音对应的目标文本，包括：

响应所述用户界面上的识别指令，对所述待识别语音进行特征提取，获得所述音频特征，将所述音频特征输入训练后的端到端语音识别模型进行识别，获得所述目标文本。

7.根据权利要求6所述的语音识别方法，其特征在于,所述方法还包括：

当在用户界面上接收到预览指令，在预览区域显示所述目标文本。

8.一种端到端语音识别模型训练装置，其特征在于，包括：训练模块，用于：

根据文本语料，获得训练后的语言模型；

所述训练模块，具体用于：将所述语言模型构建成所述端到端语音识别模型的解码模块，得到构建后的所述端到端语音识别模型；针对所述构建后的所述端到端语音识别模型，将除所述语言模型的交叉注意力机制参数之外的其他模型参数保持固定，并根据所述音频语料，对所述语言模型进行训练；其中，所述其他模型参数包括：所述端到端语音识别模型中，除所述语言模型之外的模型参数，和所述语言模型中除所述交叉注意力机制参数之外的参数；所述交叉注意力机制参数用于计算所述端到端语音识别模型的编码器模块的输出信息的注意力得分；当确定所述端到端语音识别模型的损失函数的损失值下降到第一数值且所述第一数值不再变化时，将所述端到端语音识别模型中除所述语言模型之外的模型参数保持固定，根据所述音频语料，对所述语言模型进行训练；当确定所述损失函数的损失值下降到第二数值且所述第二数值不再变化，获得训练后的所述端到端语音识别模型；其中，所述第一数值大于所述第二数值。

9.一种语音识别装置，其特征在于，包括：获取模块和识别模块；

所述获取模块，用于获取待识别语音；

所述识别模块，用于将所述待识别语音的音频特征输入训练后的端到端语音识别模型进行识别，获得所述待识别语音对应的目标文本；

所述端到端语音识别模型是通过以下方式训练而成：

根据文本语料，获得训练后的语言模型；

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现权利要求1-3任意一所述的方法或者4-7任意一所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3任意一所述的方法或者4-7任意一所述的方法。