CN116434741A

CN116434741A - 语音识别模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN116434741A
Application number: CN202310258862.3A
Authority: CN
Inventors: 庄子扬; 魏韬; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-07-14

Abstract

本申请涉及人工智能技术，公开了一种语音识别模型的训练方法。本申请提供的语音识别模型包含解码器，该解码器包含多头交叉注意力单元，该多头交叉注意力单元包含高斯增强单调对齐子模块，本申请提供的训练方法包括：通过卷积采样层和编码器依次处理音频数据得到第一音频编码向量；通过向量映射层处理文本数据得到第一文本编码向量；通过多头交叉注意力单元根据所述第一音频编码向量和所述第一文本编码向量得到第一注意力矩阵；通过高斯增强单调对齐子模块重构所述第一注意力矩阵得到高斯增强单调对齐注意力矩阵；通过解码器解析所述高斯增强单调对齐注意力矩阵得到识别结果；重复前述步骤，直至所有损失函数分别达到收敛，得到目标语音识别模型。

Description

语音识别模型训练方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种语音识别模型训练方法、装置和相关设备。

背景技术

在人工智能技术领域，传统的语音识别模型通常包含声学识别模型(AcousticModel，AM)、发音词典(Lexicon)和语言模型(Language Model，LM)三部分组成。该声学识别模型、发音词典和语言模型都需要单独的学习训练，而端到端(end-to-end)的语音识别机制可以使得语音识别模型摒弃发音词典和语言模型，真正实现从语音转录成文本。

其中，端到端的语音识别机制有两种实现方式：CTC(Connectionist TemporalClassification，CTC)模型和基于注意力机制(Attention)的编码器-解码器(encoder-decoder)模型。但是，CTC模型和基于注意力机制的编码器-解码器模型的语音识别准确率不高，并且CTC模型通常需要语言模型辅助重打分。

发明内容

本申请实施例提供一种语音识别模型训练方法、装置、计算机设备及存储介质，以解决传统端到端语音识别模型的语音识别准确率不高的问题。

本申请的第一方面，提供一种语音识别模型训练方法，所述语音识别模型包含卷积采样层、编码器、解码器、向量映射层，所述解码器包含多头交叉注意力单元，所述多头交叉注意力单元包含高斯增强单调对齐子模块，所述训练方法包括：

将训练样本数据中的音频数据输入所述卷积采样层进行处理，得到第一音频特征序列数据；

将所述第一音频特征序列数据输入至所述编码器进行处理，得到第一音频编码向量，并计算所述编码器的连接时序分类损失；

将所述训练样本数据中的文本数据输入所述向量映射层进行处理，得到第一文本编码向量；

将所述第一音频编码向量和所述第一文本编码向量输入至所述多头交叉注意力单元进行计算，得到第一注意力矩阵；

通过所述高斯增强单调对齐子模块重构所述第一注意力矩阵，得到高斯增强单调对齐注意力矩阵，并计算所述高斯增强单调对齐子模块的软单调对齐损失；

通过所述解码器解析所述高斯增强单调对齐注意力矩阵，得到所述训练样本数据中音频数据和文本数据的语音识别关系，并计算所述解码器的交叉熵损失；

重复前述步骤，直至所述连接时序分类损失、所述软单调对齐损失和所述交叉熵损失分别达到收敛，得到目标语音识别模型。

本申请的第二方面，提供一种语音识别模型训练装置，所述语音识别模型包含卷积采样层、编码器、解码器、向量映射层，所述解码器包含多头交叉注意力单元，所述多头交叉注意力单元包含高斯增强单调对齐子模块，所述训练装置包括：

第一数据处理模块，用于将训练样本数据中的音频数据输入所述卷积采样层进行处理，得到第一音频特征序列数据；

连接时序分类损失模块，用于将所述第一音频特征序列数据输入至所述编码器进行处理，得到第一音频编码向量，并计算所述编码器的连接时序分类损失；

第二数据处理模块，用于将所述训练样本数据中的文本数据输入所述向量映射层进行处理，得到第一文本编码向量；

第三数据处理模块，用于将所述第一音频编码向量和所述第一文本编码向量输入至所述多头交叉注意力单元进行计算，得到第一注意力矩阵；

软单调对齐损失模块，用于通过所述高斯增强单调对齐子模块重构所述第一注意力矩阵，得到高斯增强单调对齐注意力矩阵，并计算所述高斯增强单调对齐子模块的软单调对齐损失；

交叉熵损失模块，用于通过所述解码器解析所述高斯增强单调对齐注意力矩阵，得到所述训练样本数据中音频数据和文本数据的语音识别关系，并计算所述解码器的交叉熵损失；

目标语音识别模型模块，用于重复前述步骤，直至所述连接时序分类损失、所述软单调对齐损失和所述交叉熵损失分别达到收敛，得到目标语音识别模型。

本申请的第三方面，提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音识别模型训练方法的步骤。

本申请的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音识别模型训练方法的步骤。

上述语音识别模型训练方法、装置、计算机设备及存储介质，通过卷积采样层和编码器依次处理音频数据得到第一音频编码向量，并计算所述编码器的连接时序分类损失；通过向量映射层处理文本数据得到第一文本编码向量；通过多头交叉注意力单元根据所述第一音频编码向量和所述第一文本编码向量得到第一注意力矩阵；通过高斯增强单调对齐子模块重构所述第一注意力矩阵得到高斯增强单调对齐注意力矩阵，并计算所述高斯增强单调对齐子模块的软单调对齐损失；通过解码器解析所述高斯增强单调对齐注意力矩阵得到识别结果，并计算所述解码器的交叉熵损失；重复前述步骤，直至所有损失分别达到收敛，得到目标语音识别模型。不仅提升了传统端到端语音识别模型的语音识别准确率，而且提升了传统端到端语音识别模型的计算性能。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中语音识别模型训练方法的一应用环境示意图；

图2是本申请一实施例中语音识别模型训练方法的一流程图；

图3是本申请一实施例中语音识别模型训练装置的结构示意图；

图4是本申请一实施例中语音识别方法的一流程图；

图5是本申请一实施例中语音识别装置的结构示意图；

图6是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的语音识别模型训练方法，可应用在如图1的应用环境中，其中，计算机设备可以但不限于各种个人计算机、笔记本电脑，计算机设备还可以是服务器，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。可以理解的是图1中的计算机设备的数量仅仅是示意性的，可以根据实际需求进行任意数量的扩展。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在一实施例中，如图2所示，提供一种语音识别模型训练方法，所述语音识别模型包含卷积采样层、编码器、解码器、向量映射层，所述解码器包含多头交叉注意力单元，所述多头交叉注意力单元包含高斯增强单调对齐子模块，以该方法应用在图1中的计算机设备为例进行说明，包括如下步骤S101至S107：

S101、将训练样本数据中的音频数据输入所述卷积采样层进行处理，得到第一音频特征序列数据。

其中，所述卷积采样层的作用是从所述训练样本数据中的音频数据中提取音频的各种目标声学特征，并对所述目标声学特征进行抽象，不仅大幅度减少了所述语音识别模型的训练参数，而且还可以减轻所述语音识别模型过拟合的程度。需要特殊说明的是，所述卷积采样层因为不是本申请的核心部分，故所述卷积采样层的具体结构设计和运算方式在此不再赘述。

S102、将所述第一音频特征序列数据输入至所述编码器进行处理，得到第一音频编码向量，并计算所述编码器的连接时序分类损失。

其中，所述编码器是基于Transformer中的编码器(Encoder)，所述编码器将接收的所述第一音频特征序列数据转换成所述第一音频编码向量，并计算在前述的转换过程中所述编码器的连接时序分类损失。进一步地，所述编码器在前述的转换过程中使用了CTC(Connectionist Temporal Classification,CTC)算法，所述CTC算法在语音识别、文本识别等技术领域用于解决输入系列和输出序列长度不一致的问题，即在本申请中所述第一音频特征序列数据和所述第一音频编码向量长度不一致的问题。进一步的，所述CTC算法的计算结果作为所述连接时序分类损失(Connectionist Temporal Classification Loss,CTCLoss)。在所述语音识别模型的训练过程中加入CTC算法，实现了不需要预先对训练数据进行对齐处理，只需要一个输入序列和一个输出序列即可训练，同时CTC直接输出序列预测的概率后不需要外部的后处理。

S103、将所述训练样本数据中的文本数据输入所述向量映射层进行处理，得到第一文本编码向量。

其中，所述向量映射层(Embedding)的作用是从所述样本数据中的文本数据中提取文本的各种目标文本特征，并对所述目标文本特征进行抽象，将所述文本数据转换为所述第一文本编码向量。具体地，所述向量映射层所使用的处理技术包括但不限于：word2vec,fasttext,glove,character embedding、elmo、bert等。需要特殊说明的是，所述向量映射层因为不是本申请的核心部分，故所述向量映射层的具体结构设计和运行方式在此不再赘述。

S104、将所述第一音频编码向量和所述第一文本编码向量输入至所述多头交叉注意力单元进行计算，得到第一注意力矩阵。

进一步地，所述解码器不仅包含所述多头交叉注意力单元(Multi Head CrossAttention，MHCA)，还包括多头自注意力单元(Multi Head Self Attention，MHSA)和前馈线性层(Feed Forward)。进一步地，所述将所述第一音频编码向量和所述第一文本编码向量输入至所述多头交叉注意力单元进行计算之前，还包括：使用所述多头自注意力单元对所述第一文本编码向量进行处理，以抽取到更加丰富的文本特征信息。进一步地，所述得到第一注意力矩阵之后，还包括：将所述第一注意力矩阵发送至所述前馈线性层进行处理。需要特殊说明的是，所述多头自注意力单元和所述前馈线性层因为不是本申请的核心部分，故所述多头注意力单元和所述前馈线性层的具体结构设计和运行原理在此不再赘述。

S105、通过所述高斯增强单调对齐子模块重构所述第一注意力矩阵，得到高斯增强单调对齐注意力矩阵，并计算所述高斯增强单调对齐子模块的软单调对齐损失。

进一步地，所述通过所述高斯增强单调对齐子模块重构所述第一注意力矩阵，得到高斯增强单调对齐注意力矩阵，包括：首先，通过所述第一注意力矩阵构建第一序列映射向量，并设置所述第一序列映射向量的第一限制条件，其中，所述第一限制条件包含当前文字输出与前一文字输出的第一差值。然后，将所述第一差值输入第一激活函数，得到第二差值，其中，所述第二差值恒大于等于0。最后，累加所述第二差值，得到第二序列映射向量，使用所述第二序列映射向量构造所述高斯增强单调对齐注意力矩阵。

进一步地，通过如下公式构造所述第一序列映射向量：

其中，T₁表示输入音频特征序列的长度，α表示所述第一注意力矩阵，p表示输入序列[0,1,2,...,T₁-1]，π_i表示所述第一序列映射向量。

进一步地，所述第一限制条件为：

其中，Δπ_i表示当前序列映射向量与前一序列映射向量的差值，T₂表示输出文字特征序列的长度，D表示第一超参数常量。在另一更具体的实施例中，默认设置所述第一超参数常量为50。所述第一限制条件确保每个输出文字都对应1至D帧的输入数据。

进一步地，所述第一激活函数为线性整流函数，通过如下公式计算得到所述第二差值：

其中，ReLU表示线性整流函数，Δπ′_i表示所述第二差值。所述线性整流函数能够确保当前文字输出对应的输入帧始终大于等于前一文字。

进一步地，根据如下公式累加所述第二差值，得到所述第二序列映射向量：

其中，π′_i表示所述第二序列映射向量。

进一步地，根据如下公式构造所述高斯增强单调对齐注意力矩阵：

其中，σ表示高斯核的标准差，α′_i,j表示所述高斯增强单调对齐注意力矩阵，exp表示以自然常数e为底的指数函数。

进一步地，根据如下公式计算所述软单调对齐损失：

l_SMA＝λ₁|||Δπ-1|-(Δπ-1)||₁+λ₂|||Δπ-D|+(Δπ-D)||₁

其中，λ₁表示第二超参数常量，λ₂表示第三超参数常量。在另一更具体的实施例中，所述第二超参数常量设置为0.8，所述第三超参数常量设置为0.2。

S106、通过所述解码器解析所述高斯增强单调对齐注意力矩阵，得到所述训练样本数据中音频数据和文本数据的语音识别关系，并计算所述解码器的交叉熵损失。

进一步地，对得到的所述音频数据和文本数据的语音识别关系进行人工校验，得到人工校验结果。然后，将所述人工校验结果发送至关联的模型设计人员，为所述模型设计人员对所述语音识别模型的人工干预修改参数提供数据支持。

S107、重复前述步骤，直至所述连接时序分类损失、所述软单调对齐损失和所述交叉熵损失分别达到收敛，得到目标语音识别模型。

进一步地，在所述重复前述步骤，直至所述连接时序分类损失、所述软单调对齐损失和所述交叉熵损失分别达到收敛之前，还包括：根据所述连接时序分类损失优化所述编码器的各项参数，根据所述软单调对齐损失优化所述高斯增强单调对齐子模块的各项参数，根据所述交叉熵损失优化所述解码器的各项参数。

进一步地，将所述第一音频编码向量、所述第一文本编码向量和所述目标语音识别模型上传至区块链。具体地，分别基于所述第一音频编码向量、所述第一文本编码向量和所述语音识别模型得到对应的摘要信息，具体来说，摘要信息由所述第一音频编码向量、所述第一文本编码向量和所述目标语音识别模型进行散列得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得到该摘要信息，以便查证所述第一音频编码向量、所述第一文本编码向量和所述目标语音识别模型是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本实施例提出的语音识别模型训练方法、装置、计算机设备及存储介质，通过卷积采样层和编码器依次处理音频数据得到第一音频编码向量，并计算所述编码器的连接时序分类损失；通过向量映射层处理文本数据得到第一文本编码向量；通过多头交叉注意力单元根据所述第一音频编码向量和所述第一文本编码向量得到第一注意力矩阵；通过高斯增强单调对齐子模块重构所述第一注意力矩阵得到高斯增强单调对齐注意力矩阵，并计算所述高斯增强单调对齐子模块的软单调对齐损失；通过解码器解析所述高斯增强单调对齐注意力矩阵得到识别结果，并计算所述解码器的交叉熵损失；重复前述步骤，直至所有损失分别达到收敛，得到目标语音识别模型。不仅提升了传统端到端语音识别模型的语音识别准确率，而且提升了传统端到端语音识别模型的计算性能。

图4是本申请一实施例中根据上述语音识别模型的训练方法训练得到的语音识别模型进行语音识别的语音识别方法的一流程图，如图4所示，该语音识别方法包括如下步骤S201至S204：

S201、将待识别的语音数据输入至所述语音识别模型中的卷积采样层进行处理，得到第二音频特征序列数据。

S202、将所述第二音频特征序列数据输入至所述语音识别模型中的编码器进行处理，得到第二音频编码向量。

S203、将所述第二音频编码向量输入至所述语音识别模型中的解码器进行处理，得到第二文本编码向量。

S204、将所述第二文本编码向量输入至所述语音识别模型中的向量映射层进行处理，得到目标音频识别文本结果。

示例性地，某一金融科技服务平台的保险客服系统通过收集的训练数据按照前述的语音识别模型训练方法训练得到前述的语音识别模型，并将训练完成的所述语音识别模型应用到保险客服系统中，该保险客户系统的客服工作人员在与保险用户使用目标保险产品App进行沟通的过程中，若该客服工作人员或该保险用户输入了一段语音数据，并启用了该目标保险产品App加入的语音识别功能，则将该段语音数据发送的所述语音识别模型，所述语音识别模型输出对该段语音数据的文本形式的语音识别结果，并将该文本形式的语音识别结果返回至该客服工作人员或该保险用户。

进一步地，首先，存储所述待识别的语音数据和所述目标音频识别文本结果。然后，将所述待识别的语音数据和所述目标音频识别文本结果发送至对应的语音识别请求发起方，并接收所述语音识别请求发起方对所述目标音频识别文本结果的准确率数据反馈。最后，一方面将所述准确率数据反馈用于优化所述语音识别模型的各项参数以及所述语音识别模型的前述训练步骤，另一方面设定语音识别准确率阈值范围，通过数学统计方法计算所述准确率数据的数学统计值，若所述准确率数据的数学统计值超出了所述语音识别准确率阈值范围，则生成包含所述准确率数据的数学统计值和所述语音识别准确率阈值范围的语音识别预警信息，并将所述语音识别预警信息发送至相关技术人员，提醒该相关技术人员对所述语音识别模型和所述语音识别模型的训练过程进行优化以得到识别准确率更高的语音识别模型进行替换。例如，某一金融服务平台的技术人员在收到平台上保险客服系统中的语音识别模型的语音识别准确率降低超过了预设的语音识别准确率阈值范围的紧急预警信息，则该平台的技术人员会根据该紧急预警信息所包含的内容迅速优化该语音识别模型的各项参数和该语音识别模型的训练过程，以得到语音识别准确率达到线上使用标注的新语音识别模型。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种语音识别模型训练装置100，该语音识别模型训练装置100与上述实施例中语音识别模型训练方法一一对应，该语音识别模型包含卷积采样层、编码器、解码器、向量映射层，所述解码器包含多头交叉注意力单元，所述多头交叉注意力单元包含高斯增强单调对齐子模块。如图3所示，该语音识别模型训练装置100包括第一数据处理模块、连接时序分类损失模块12、第二数据处理模块13、第三数据处理模块14、软单调对齐损失模15块、交叉熵损失模块16和目标语音识别模型模块17。各功能模块详细说明如下：

第一数据处理模块11，用于将训练样本数据中的音频数据输入所述卷积采样层进行处理，得到第一音频特征序列数据；

连接时序分类损失模块12，用于将所述第一音频特征序列数据输入至所述编码器进行处理，得到第一音频编码向量，并计算所述编码器的连接时序分类损失；

第二数据处理模块13，用于将所述训练样本数据中的文本数据输入所述向量映射层进行处理，得到第一文本编码向量；

第三数据处理模块14，用于将所述第一音频编码向量和所述第一文本编码向量输入至所述多头交叉注意力单元进行计算，得到第一注意力矩阵；

软单调对齐损失模块15，用于通过所述高斯增强单调对齐子模块重构所述第一注意力矩阵，得到高斯增强单调对齐注意力矩阵，并计算所述高斯增强单调对齐子模块的软单调对齐损失；

交叉熵损失模块16，用于通过所述解码器解析所述高斯增强单调对齐注意力矩阵，得到所述训练样本数据中音频数据和文本数据的语音识别关系，并计算所述解码器的交叉熵损失；

目标语音识别模型模块17，用于重复前述步骤，直至所述连接时序分类损失、所述软单调对齐损失和所述交叉熵损失分别达到收敛，得到目标语音识别模型。

进一步地，所述软单调对齐损失模块15还包括：

第一序列映射向量子模块，用于通过所述第一注意力矩阵构建第一序列映射向量，并设置所述第一序列映射向量的第一限制条件，其中，所述第一限制条件包含当前文字输出与前一文字输出的第一差值；

第一激活函数子模块，用于将所述第一差值输入第一激活函数，得到第二差值，其中，所述第二差值恒大于等于0；

第二序列映射向量子模块，用于累加所述第二差值，得到第二序列映射向量，使用所述第二序列映射向量构造所述高斯增强单调对齐注意力矩阵。

进一步地，所述第一序列映射向量子模块还包括：

第一公式子单元，用于通过如下公式构造所述第一序列映射向量：

第一限制条件子单元，用于所述第一限制条件为：

其中，Δπ_i表示当前序列映射向量与前一序列映射向量的差值，T₂表示输出文字特征序列的长度，D表示超参数常量。

进一步地，所述第一激活函数子模块还包括：

线性整流函数子单元，用于所述第一激活函数为线性整流函数，通过如下公式计算得到所述第二差值：

其中，ReLU表示线性整流函数，Δπ′_i表示所述第二差值。

进一步地，所述第二序列映射向量子模块还包括：

第二公式子单元，用于根据如下公式累加所述第二差值，得到所述第二序列映射向量：

其中，π′_i表示所述第二序列映射向量。

注意力矩阵子单元，用于根据如下公式构造所述高斯增强单调对齐注意力矩阵：

其中，σ表示高斯核的标准差，α′_i,j表示所述高斯增强单调对齐注意力矩阵。

图5是本申请一实施例中语音识别装置200的结构示意图，如图5所示，该根据上述语音识别模型训练装置100提供的语音识别模型进行语音识别的语音识别装置200包括第二音频特征序列模块21、第二音频编码向量模块22、第二文本编码向量模块23和音频识别文本结果模块24。各功能模块详细说明如下：

第二音频特征序列模块21，用于将待识别的语音数据输入至所述语音识别模型中的卷积采样层进行处理，得到第二音频特征序列数据。

第二音频编码向量模块22，用于将所述第二音频特征序列数据输入至所述语音识别模型中的编码器进行处理，得到第二音频编码向量。

第二文本编码向量模块23，用于将所述第二音频编码向量输入至所述语音识别模型中的解码器进行处理，得到第二文本编码向量。

音频识别文本结果模块24，用于将所述第二文本编码向量输入至所述语音识别模型中的向量映射层进行处理，得到目标音频识别文本结果。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于语音识别模型训练装置的具体限定可以参见上文中对于语音识别模型训练方法的限定，在此不再赘述。上述语音识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音识别模型训练方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音识别模型训练方法的步骤，例如图2所示的步骤S101至步骤S107及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中语音识别模型训练装置的各模块/单元的功能，例如图3所示模块11至模块17的功能。为避免重复，这里不再赘述。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音识别模型训练方法的步骤，例如图2所示的步骤S101至步骤S107及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中语音识别模型训练装置的各模块/单元的功能，例如图3所示模块11至模块17的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别模型的训练方法，所述语音识别模型包含卷积采样层、编码器、解码器、向量映射层，所述解码器包含多头交叉注意力单元，其特征在于，所述多头交叉注意力单元包含高斯增强单调对齐子模块，所述训练方法包括：

2.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述通过所述高斯增强单调对齐子模块重构所述第一注意力矩阵，得到高斯增强单调对齐注意力矩阵，包括：

通过所述第一注意力矩阵构建第一序列映射向量，并设置所述第一序列映射向量的第一限制条件，其中，所述第一限制条件包含当前文字输出与前一文字输出的第一差值；

将所述第一差值输入第一激活函数，得到第二差值，其中，所述第二差值恒大于等于0；

累加所述第二差值，得到第二序列映射向量，使用所述第二序列映射向量构造所述高斯增强单调对齐注意力矩阵。

3.根据权利要求2所述的语音识别模型的训练方法，其特征在于，通过如下公式构造所述第一序列映射向量：

4.根据权利要求3所述的语音识别模型的训练方法，其特征在于，所述第一限制条件为：

5.根据权利要求4所述的语音识别模型的训练方法，其特征在于，所述第一激活函数为线性整流函数，通过如下公式计算得到所述第二差值：

其中，ReLU表示线性整流函数，Δπ_i'表示所述第二差值。

6.根据权利要求5所述的语音识别模型的训练方法，其特征在于，根据如下公式累加所述第二差值，得到所述第二序列映射向量：

其中，π_i'表示所述第二序列映射向量。

7.根据权利要求6所述的语音识别模型的训练方法，其特征在于，根据如下公式构造所述高斯增强单调对齐注意力矩阵：

其中，σ表示高斯核的标准差，α_i'_,j表示所述高斯增强单调对齐注意力矩阵。

8.一种语音识别模型的训练装置，所述语音识别模型包含卷积采样层、编码器、解码器、向量映射层，所述解码器包含多头交叉注意力单元，其特征在于，所述多头交叉注意力单元包含高斯增强单调对齐子模块，所述训练装置包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述语音识别模型训练方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述语音识别模型训练方法的步骤。