CN115527526B

CN115527526B - 端到端远场语音识别系统训练方法、装置、计算机设备

Info

Publication number: CN115527526B
Application number: CN202211497359.5A
Authority: CN
Inventors: 黄文琦; 林全郴; 梁凌宇; 姚森敬; 习伟; 林克全
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-31
Anticipated expiration: 2042-11-28
Also published as: CN115527526A

Abstract

本申请涉及一种端到端远场语音识别系统训练方法、装置、计算机设备和存储介质。所述方法包括：获取样本远场语音数据，将样本远场语音数据输入至端到端远场语音识别系统中基于注意力机制的编码网络，得到编码输出特征；基于训练完成的预训练模型，获取样本远场语音数据对应的语音上下文特征；融合编码输出特征和语音上下文特征，得到目标训练数据；根据目标训练数据，对端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统；训练完成的端到端远场语音识别系统用于在远场场景下识别出语音对象对应的音频信息。采用本方法能够有效通过近场语音数据提高远场语音识别系统性能，提升了训练效率和远场语音识别效果。

Description

端到端远场语音识别系统训练方法、装置、计算机设备

技术领域

本申请涉及语音识别技术领域，特别是涉及一种端到端远场语音识别系统训练方法、装置、计算机设备和存储介质。

背景技术

在语音识别场景中，由于远场环境下麦克风录制的语音容易受到背景噪声、房间混响等干扰，且不同的房间以及录制场景所带来的混响和噪声存在较大差异，这对远场语音录制带来了很大挑战。

采用传统建模方式的语音识别算法，通常需要使用数据标注对齐模型来对训练数据强制对齐，还需要声学模型和语言模型参与建模，算法复杂，且数据标注对齐模型、声学模型以及语言模型的训练过程都是独立的，也会带来非一致优化的问题，训练效率低、效果不佳。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决上述问题的端到端远场语音识别系统训练方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种端到端远场语音识别系统训练方法，所述方法包括：

获取样本远场语音数据，将所述样本远场语音数据输入至端到端远场语音识别系统中基于注意力机制的编码网络，得到编码输出特征；

基于训练完成的预训练模型，获取所述样本远场语音数据对应的语音上下文特征；所述训练完成的预训练模型为采用样本近场语音数据进行模型训练得到；

融合所述编码输出特征和所述语音上下文特征，得到目标训练数据；所述目标训练数据用于输入至所述端到端远场语音识别系统中基于注意力机制的解码网络；

根据所述目标训练数据，对所述端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统；所述训练完成的端到端远场语音识别系统用于在远场场景下识别出语音对象对应的音频信息。

在其中一个实施例中，在所述基于训练完成的预训练模型，获取所述样本远场语音数据对应的语音上下文特征的步骤之前，所述方法还包括：

获取样本近场语音数据；所述样本近场语音数据包括按照时序排列的多个近场语音数据；

基于所述样本近场语音数据确定训练损失值，并根据所述训练损失值调整所述预训练模型中的模型参数，直到满足模型训练结束条件，得到所述训练完成的预训练模型。

在其中一个实施例中，所述基于所述样本近场语音数据确定训练损失值，包括：

将所述样本近场语音数据输入至所述预训练模型中的编码网络，得到映射隐含信息；

将所述映射隐含信息输入至所述预训练模型中的上下文网络，得到样本上下文特征；

根据所述映射隐含信息和所述样本上下文特征，确定预测噪声对比损失，作为所述训练损失值。

在其中一个实施例中，所述将所述样本近场语音数据输入至所述预训练模型中的编码网络，得到映射隐含信息，包括：

通过所述预训练模型中的编码网络，将所述样本近场语音数据映射到隐含空间，得到所述映射隐含信息；

所述将所述映射隐含信息输入至所述预训练模型中的上下文网络，得到样本上下文特征，包括：

通过所述预训练模型中的上下文网络，将所述隐含空间映射到上下文信息空间，对所述映射隐含信息中的多个时间步输出进行组合，得到所述样本上下文特征。

在其中一个实施例中，所述根据所述目标训练数据，对所述端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统，包括：

针对由时序分类网络、基于注意力机制的编码网络，以及基于注意力机制的解码网络构建得到的端到端远场语音识别系统，在系统训练过程中，通过所述时序分类网络约束注意力系数，确定训练优化函数；

结合所述训练优化函数，根据所述目标训练数据对所述端到端远场语音识别系统进行训练，得到所述训练完成的端到端远场语音识别系统。

在其中一个实施例中，所述通过所述时序分类网络约束注意力系数，确定训练优化函数，包括：

确定基于所述时序分类网络计算得到的第一概率，以及根据所述基于注意力机制的编码网络和所述基于注意力机制的解码网络计算得到的第二概率；

结合预设插值系数、所述第一概率，以及所述第二概率，得到所述训练优化函数。

在其中一个实施例中，所述融合所述编码输出特征和所述语音上下文特征，得到目标训练数据，包括：

将所述编码输出特征和所述语音上下文特征进行拼接，得到语音特征拼接结果，作为所述目标训练数据；所述语音特征拼接结果具有丰富的音频抽象表示信息。

第二方面，本申请还提供了一种端到端远场语音识别系统训练装置，所述装置包括：

编码输出特征获取模块，用于获取样本远场语音数据，将所述样本远场语音数据输入至端到端远场语音识别系统中基于注意力机制的编码网络，得到编码输出特征；

语音上下文特征获取模块，用于基于训练完成的预训练模型，获取所述样本远场语音数据对应的语音上下文特征；所述训练完成的预训练模型为采用样本近场语音数据进行模型训练得到；

特征融合模块，用于融合所述编码输出特征和所述语音上下文特征，得到目标训练数据；所述目标训练数据用于输入至所述端到端远场语音识别系统中基于注意力机制的解码网络；

训练模块，用于根据所述目标训练数据，对所述端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统；所述训练完成的端到端远场语音识别系统用于在远场场景下识别出语音对象对应的音频信息。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的端到端远场语音识别系统训练方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的端到端远场语音识别系统训练方法的步骤。

上述一种端到端远场语音识别系统训练方法、装置、计算机设备和存储介质，通过获取样本远场语音数据，将样本远场语音数据输入至端到端远场语音识别系统中基于注意力机制的编码网络，得到编码输出特征，并基于训练完成的预训练模型，获取样本远场语音数据对应的语音上下文特征，该训练完成的预训练模型为采用样本近场语音数据进行模型训练得到，然后融合编码输出特征和语音上下文特征，得到目标训练数据，该目标训练数据用于输入至端到端远场语音识别系统中基于注意力机制的解码网络，进而根据目标训练数据，对端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统，该训练完成的端到端远场语音识别系统用于在远场场景下识别出语音对象对应的音频信息，实现了对端到端远场语音识别处理优化，能够有效通过近场语音数据提高远场语音识别系统性能，提升了训练效率和远场语音识别效果。

附图说明

图1为一个实施例中一种端到端远场语音识别系统训练方法的流程示意图；

图2为一个实施例中一种端到端远场语音识别系统框架的示意图；

图3为一个实施例中一种系统训练步骤的流程示意图；

图4为一个实施例中另一种端到端远场语音识别系统训练方法的流程示意图；

图5为一个实施例中一种端到端远场语音识别系统训练装置的结构框图；

图6为一个实施例中一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于展示的数据、分析的数据等），均为经用户授权或者经过各方充分授权的信息和数据；对应的，本申请还提供有相应的用户授权入口，供用户选择授权或者选择拒绝。

在一个实施例中，如图1所示，提供了一种端到端远场语音识别系统训练方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤101，获取样本远场语音数据，将所述样本远场语音数据输入至端到端远场语音识别系统中基于注意力机制的编码网络，得到编码输出特征；

其中，端到端远场语音识别系统可以采用基于Hybrid CTC/Attention Encoder-Decoder的端到端框架，如图2所示，其可以由时序分类网络CTC、基于注意力机制的编码网络和解码网络构建得到。

作为一示例，编码输出特征可以为针对样本远场语音数据的抽象表示，即端到端远场语音识别系统中基于注意力机制的编码网络的输出h_i，如图2中h₂、h₄、h₆、h₈、h_T。

在实际应用中，可以在训练端到端远场语音识别系统过程中，获取样本远场语音数据作为输入，通过将该样本远场语音数据输入至端到端远场语音识别系统中基于注意力机制的编码网络，可以得到该基于注意力机制的编码网络的输出，即编码输出特征，其可以为输入语音数据的抽象表示。

在一个可选实施例中，如图2所示，端到端远场语音识别系统中基于注意力机制的编码网络可以为Shared Encoder共享编码网络，例如，该共享编码网络还可以作为训练完成的预训练模型的编码网络；端到端远场语音识别系统中基于注意力机制的编码网络也可以采用独立的编码器配置方式，在本实施例中不作具体限制。

步骤102，基于训练完成的预训练模型，获取所述样本远场语音数据对应的语音上下文特征；所述训练完成的预训练模型为采用样本近场语音数据进行模型训练得到；

作为一示例，预训练模型可以为Wav2Vec预训练模型，该Wav2Vec预训练模型可以由编码网络（Encoder）和上下文网络（Decoder）两部分组成，如可以采用无监督的语音预训练模型Wav2Vec，其基于深度学习架构所构建并已经过模型训练，可以用于执行大量数据的识别任务，该预训练模型可以具有较优的模型参数。

在具体实现中，可以通过采用样本近场语音数据对预训练模型进行模型训练，得到训练完成的预训练模型，进而可以基于该训练完成的预训练模型，根据样本远场语音数据获取预训练表征信息，即语音上下文特征。

在一示例中，可以使用大量的无标注近场语音数据（即样本近场语音数据），如图2中X₁、X₂、……、X_T，训练Wav2Vec预训练模型（即预训练模型），得到训练完成的预训练模型，进而可以根据该训练完成的预训练模型，获得远场语音数据的预训练表征信息（即样本远场语音数据对应的语音上下文特征），如图2中c₂、c₄、c₆、c₈、c_T。

步骤103，融合所述编码输出特征和所述语音上下文特征，得到目标训练数据；所述目标训练数据用于输入至所述端到端远场语音识别系统中基于注意力机制的解码网络；

在得到编码输出特征和语音上下文特征后，可以进行特征融合，通过将编码输出特征和语音上下文特征进行拼接，可以得到语音特征拼接结果，作为目标训练数据，以进一步将该目标训练数据作为输入，输入至端到端远场语音识别系统中基于注意力机制的解码网络。

具体地，如图2所示，在训练端到端远场语音识别系统过程中，可以在端到端远场语音识别系统decoder解码模块（即基于注意力机制的解码网络）的输入中，融合预训练通用表征信息，例如，可以融合图2中h₂、h₄、h₆、h₈、h_T（即编码输出特征）与c₂、c₄、c₆、c₈、c_T（即语音上下文特征），得到语音特征拼接结果，其具有丰富的音频抽象表示信息，以进一步基于融合后输入（即目标训练数据）训练端到端远场语音识别系统。

在一示例中，基于Wav2Vec预训练模型可以利用大量的无标注近场语音数据自学习建模语音的通用表征，进而可以将建模学习到的通用表征作为一种先验知识融入至端到端远场语音识别系统框架中，从而能够指导基于少量的远场语音数据的语音识别建模过程。

步骤104，根据所述目标训练数据，对所述端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统。

其中，训练完成的端到端远场语音识别系统可以用于在远场场景下识别出语音对象对应的音频信息，例如，可以在远场语音场景中识别出录制人员的音频信号。

在得到目标训练数据后，由于该目标训练数据具有丰富的音频抽象表示信息，可以采用目标训练数据对端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统，其可以用于在远场场景下识别出语音对象对应的音频信息，如可以在远场环境的录制场景中，基于训练完成的端到端远场语音识别系统进行远场语音录制处理。

相较于传统建模方式的语音识别，本实施例的技术方案，通过将Wav2Vec预训练模型输出的上下文相关表示（即语音上下文特征）和编码网络输出（即编码输出特征）进行拼接，可以基于融合后拼接结果（即目标训练数据）训练端到端远场语音识别系统，实现了对端到端远场语音识别处理优化，其中，Wav2Vec预训练模型可以基于两个卷积神经网络获得原始音频的抽象表示，其优化目标是使得当前抽象表示能够更精确的预测未来语音信息；端到端远场语音识别系统中基于注意力机制的编码网络的输出，可以为输入语音数据的抽象表示（即编码输出特征），其优化目标是使得语音识别错误率降低，从而通过将两者融合能够得到音频更加丰富的抽象表示，有效提升了数据量有限训练任务的系统性能。

上述端到端远场语音识别系统训练方法中，通过获取样本远场语音数据，将样本远场语音数据输入至端到端远场语音识别系统中基于注意力机制的编码网络，得到编码输出特征，并基于训练完成的预训练模型，获取样本远场语音数据对应的语音上下文特征，然后融合编码输出特征和语音上下文特征，得到目标训练数据，进而根据目标训练数据，对端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统，实现了对端到端远场语音识别处理优化，能够有效通过近场语音数据提高远场语音识别系统性能，提升了训练效率和远场语音识别效果。

在一个实施例中，在所述基于训练完成的预训练模型，获取所述样本远场语音数据对应的语音上下文特征的步骤之前，可以包括如下步骤：

获取样本近场语音数据；所述样本近场语音数据包括按照时序排列的多个近场语音数据；基于所述样本近场语音数据确定训练损失值，并根据所述训练损失值调整所述预训练模型中的模型参数，直到满足模型训练结束条件，得到所述训练完成的预训练模型。

在一示例中，可以获取按照时序排列的多个近场语音数据，作为样本近场语音数据，如图2中X₁、X₂、……、X_T，然后可以将该样本近场语音数据输入至预训练模型中的编码网络，得到映射隐含信息，并将该映射隐含信息输入至预训练模型中的上下文网络，得到样本上下文特征，进而可以根据映射隐含信息和样本上下文特征，确定预测噪声对比损失，作为训练损失值，以对Wav2Vec预训练模型（即预训练模型）进行模型训练，得到训练完成的预训练模型。

本实施例中，通过获取样本近场语音数据，然后基于样本近场语音数据确定训练损失值，并根据训练损失值调整预训练模型中的模型参数，直到满足模型训练结束条件，得到训练完成的预训练模型，可以使用大量的无标注近场语音数据训练Wav2Vec预训练模型，为后续得到预训练表征信息提供了数据支持。

在一个实施例中，所述基于所述样本近场语音数据确定训练损失值，可以包括如下步骤：

将所述样本近场语音数据输入至所述预训练模型中的编码网络，得到映射隐含信息；将所述映射隐含信息输入至所述预训练模型中的上下文网络，得到样本上下文特征；根据所述映射隐含信息和所述样本上下文特征，确定预测噪声对比损失，作为所述训练损失值。

在实际应用中，如图2所示，Wav2Vec预训练模型（即预训练模型）中的编码网络可以将输入的原始音频信号X₁、X₂、……、X_T（即样本近场语音数据）映射到隐含空间，进而Wav2Vec预训练模型中的上下文网络可以将编码网络的多个时间步输出进行组合，得到上下文信息表示C_i（即样本上下文特征）。

例如，可以设置原始语音样本空间为X，编码网络为ƒ，经编码网络映射后的隐含空间为Z，输入的音频采样点（即样本近场语音数据）为

，输出的隐含表示（即映射隐含信息）为/>

，则/>

，其中，m表示感受野大小。

在一示例中，Wav2Vec预训练模型中的上下文网络可以将隐含空间映射成上下文信息空间C，如可以假设上下文网络为g，上下文网络输出为

，上下文输出网络感受野为v，则/>

。为了得到预训练表示C_i，可以采用噪声对比估计（Noise-Contrastive Estimation，NCE）损失来训练整个网络，即：

其中，

表示Z’中包含一个真实值以及N-1个负样本，/>

表示C_t对t+k时刻预测值等于真实值Z_t+k的概率，V_k（Z_j，C_t）表示Z’中所有样本点概率之和，则上式可简化为：

其中，L_k表示未来第k步的噪声对比损失（即预测噪声对比损失）。

本实施例中，通过将样本近场语音数据输入至预训练模型中的编码网络，得到映射隐含信息，然后将映射隐含信息输入至预训练模型中的上下文网络，得到样本上下文特征，进而根据映射隐含信息和样本上下文特征，确定预测噪声对比损失，作为训练损失值，可以使得当前抽象表示能够更精确的预测未来语音信息，为后续得到预训练表征信息提供了数据支持。

在一个实施例中，所述将所述样本近场语音数据输入至所述预训练模型中的编码网络，得到映射隐含信息，可以包括如下步骤：

在一示例中，如图2所示，Wav2Vec预训练模型（即预训练模型）中的编码网络可以将输入的原始音频信号X₁、X₂、……、X_T（即样本近场语音数据）映射到隐含空间，得到映射隐含信息，例如，可以设置原始语音样本空间为X，编码网络为ƒ，经编码网络映射后的隐含空间为Z，输入的音频采样点（即样本近场语音数据）为

，输出的隐含表示（即映射隐含信息）为/>

，则/>

，其中，m表示感受野大小。

在又一示例中，Wav2Vec预训练模型（即预训练模型）中的上下文网络可以将编码网络的多个时间步输出进行组合，得到上下文信息表示C_i，即样本上下文特征，例如，Wav2Vec预训练模型中的上下文网络可以将隐含空间映射成上下文信息空间C，可以假设上下文网络为g，上下文网络输出为

，上下文输出网络感受野为v，则/>

。

本实施例中，通过预训练模型中的编码网络，将样本近场语音数据映射到隐含空间，得到映射隐含信息，以及通过预训练模型中的上下文网络，将隐含空间映射到上下文信息空间，对映射隐含信息中的多个时间步输出进行组合，得到样本上下文特征，实现了使用大量的无标注近场语音数据训练Wav2Vec预训练模型。

在一个实施例中，如图3所示，所述根据所述目标训练数据，对所述端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统，可以包括如下步骤：

步骤301，针对由时序分类网络、基于注意力机制的编码网络，以及基于注意力机制的解码网络构建得到的端到端远场语音识别系统，在系统训练过程中，通过所述时序分类网络约束注意力系数，确定训练优化函数；

在具体实现中，由于基于注意力机制的编码网络和解码网络的语音识别算法，在建模过程中对注意力系数的限制不足，将使得注意力系数峰值分布在语音的任意时刻，而实际语音是连续的，且满足短时平稳的特性，则需要注意力系数分布在时间上是连续的，不出现较大的间断现象，进而针对采用时序分类网络CTC和基于注意力机制的编码网络和解码网络一起联合训练的多任务学习机制，可以通过CTC约束注意力系数的学习，联合优化得到代价函数，即训练优化函数。

步骤302，结合所述训练优化函数，根据所述目标训练数据对所述端到端远场语音识别系统进行训练，得到所述训练完成的端到端远场语音识别系统。

在一示例中，在联合优化得到代价函数（即训练优化函数）后，可以结合该代价函数，根据Wav2Vec预训练模型输出的上下文相关表示和编码网络输出融合后结果（即目标训练数据）训练端到端远场语音识别系统。

本实施例中，通过针对由时序分类网络、基于注意力机制的编码网络，以及基于注意力机制的解码网络构建得到的端到端远场语音识别系统，在系统训练过程中，通过时序分类网络约束注意力系数，确定训练优化函数，进而结合训练优化函数，根据目标训练数据对端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统，能够避免在建模过程中对注意力系数的限制不足的问题。

在一个实施例中，所述通过所述时序分类网络约束注意力系数，确定训练优化函数，可以包括如下步骤：

确定基于所述时序分类网络计算得到的第一概率，以及根据所述基于注意力机制的编码网络和所述基于注意力机制的解码网络计算得到的第二概率；结合预设插值系数、所述第一概率，以及所述第二概率，得到所述训练优化函数。

在一示例中，针对采用时序分类网络CTC和基于注意力机制的编码网络和解码网络一起联合训练的多任务学习机制，可以通过CTC约束注意力系数的学习，联合优化得到代价函数（训练优化函数）如下：

其中，

表示CTC准则计算的后验概率（即第一概率），/>

表示基于注意力机制的编码网络和解码网络计算的后验概率（即第二概率），λ表示插值系数。

本实施例中，通过确定基于时序分类网络计算得到的第一概率，以及根据基于注意力机制的编码网络和基于注意力机制的解码网络计算得到的第二概率，进而结合预设插值系数、第一概率，以及第二概率，得到训练优化函数，能够通过CTC约束注意力系数的学习，训练端到端远场语音识别系统。

在一个实施例中，所述融合所述编码输出特征和所述语音上下文特征，得到目标训练数据，可以包括如下步骤：

在实际应用中，如图2所示，在训练端到端远场语音识别系统过程中，可以在端到端远场语音识别系统decoder解码模块（即基于注意力机制的解码网络）的输入中，融合预训练通用表征信息，例如，可以融合图2中h₂、h₄、h₆、h₈、h_T（即编码输出特征）与c₂、c₄、c₆、c₈、c_T（即语音上下文特征），得到语音特征拼接结果，其具有丰富的音频抽象表示信息。

本实施例中，通过将编码输出特征和语音上下文特征进行拼接，得到语音特征拼接结果，作为目标训练数据，能够融合得到音频更加丰富的抽象表示，为系统训练提供了数据支持。

在一个实施例中，如图4所示，提供了另一种端到端远场语音识别系统训练方法的流程示意图。本实施例中，该方法包括以下步骤：

在步骤401中，获取样本近场语音数据，将样本近场语音数据输入至预训练模型中的编码网络，得到映射隐含信息。在步骤402中，将映射隐含信息输入至预训练模型中的上下文网络，得到样本上下文特征。在步骤403中，根据映射隐含信息和样本上下文特征，确定预测噪声对比损失，作为训练损失值，并根据训练损失值调整预训练模型中的模型参数，直到满足模型训练结束条件，得到训练完成的预训练模型。在步骤404中，获取样本远场语音数据，将样本远场语音数据输入至端到端远场语音识别系统中基于注意力机制的编码网络，得到编码输出特征。在步骤405中，基于训练完成的预训练模型，获取样本远场语音数据对应的语音上下文特征。在步骤406中，将编码输出特征和语音上下文特征进行拼接，得到语音特征拼接结果，作为目标训练数据；语音特征拼接结果具有丰富的音频抽象表示信息。在步骤407中，针对由时序分类网络、基于注意力机制的编码网络，以及基于注意力机制的解码网络构建得到的端到端远场语音识别系统，在系统训练过程中，通过时序分类网络约束注意力系数，确定训练优化函数。在步骤408中，结合训练优化函数，根据目标训练数据对端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统。需要说明的是，上述步骤的具体限定可以参见上文对一种端到端远场语音识别系统训练方法的具体限定，在此不再赘述。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的端到端远场语音识别系统训练方法的端到端远场语音识别系统训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个端到端远场语音识别系统训练装置实施例中的具体限定可以参见上文中对于端到端远场语音识别系统训练方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种端到端远场语音识别系统训练装置，包括：

编码输出特征获取模块501，用于获取样本远场语音数据，将所述样本远场语音数据输入至端到端远场语音识别系统中基于注意力机制的编码网络，得到编码输出特征；

语音上下文特征获取模块502，用于基于训练完成的预训练模型，获取所述样本远场语音数据对应的语音上下文特征；所述训练完成的预训练模型为采用样本近场语音数据进行模型训练得到；

特征融合模块503，用于融合所述编码输出特征和所述语音上下文特征，得到目标训练数据；所述目标训练数据用于输入至所述端到端远场语音识别系统中基于注意力机制的解码网络；

训练模块504，用于根据所述目标训练数据，对所述端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统；所述训练完成的端到端远场语音识别系统用于在远场场景下识别出语音对象对应的音频信息。

在一个实施例中，所述装置还包括：

样本近场语音数据获取模块，用于获取样本近场语音数据；所述样本近场语音数据包括按照时序排列的多个近场语音数据；

预训练模型训练模块，用于基于所述样本近场语音数据确定训练损失值，并根据所述训练损失值调整所述预训练模型中的模型参数，直到满足模型训练结束条件，得到所述训练完成的预训练模型。

在一个实施例中，所述预训练模型训练模块包括：

映射隐含信息得到子模块，用于将所述样本近场语音数据输入至所述预训练模型中的编码网络，得到映射隐含信息；

样本上下文特征得到子模块，用于将所述映射隐含信息输入至所述预训练模型中的上下文网络，得到样本上下文特征；

训练损失值确定子模块，用于根据所述映射隐含信息和所述样本上下文特征，确定预测噪声对比损失，作为所述训练损失值。

在一个实施例中，所述映射隐含信息得到子模块包括：

第一映射单元，用于通过所述预训练模型中的编码网络，将所述样本近场语音数据映射到隐含空间，得到所述映射隐含信息；

所述样本上下文特征得到子模块包括：

第二映射单元，用于通过所述预训练模型中的上下文网络，将所述隐含空间映射到上下文信息空间，对所述映射隐含信息中的多个时间步输出进行组合，得到所述样本上下文特征。

在一个实施例中，所述训练模块504包括：

训练优化函数确定子模块，用于针对由时序分类网络、基于注意力机制的编码网络，以及基于注意力机制的解码网络构建得到的端到端远场语音识别系统，在系统训练过程中，通过所述时序分类网络约束注意力系数，确定训练优化函数；

联合优化子模块，用于结合所述训练优化函数，根据所述目标训练数据对所述端到端远场语音识别系统进行训练，得到所述训练完成的端到端远场语音识别系统。

在一个实施例中，所述训练优化函数确定子模块包括：

函数概率确定单元，用于确定基于所述时序分类网络计算得到的第一概率，以及根据所述基于注意力机制的编码网络和所述基于注意力机制的解码网络计算得到的第二概率；

函数构建单元，用于结合预设插值系数、所述第一概率，以及所述第二概率，得到所述训练优化函数。

在一个实施例中，所述特征融合模块503包括：

语音特征拼接子模块，用于将所述编码输出特征和所述语音上下文特征进行拼接，得到语音特征拼接结果，作为所述目标训练数据；所述语音特征拼接结果具有丰富的音频抽象表示信息。

上述端到端远场语音识别系统训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种端到端远场语音识别系统训练方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现上述其他实施例中的端到端远场语音识别系统训练方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现上述其他实施例中的端到端远场语音识别系统训练方法的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种端到端远场语音识别系统训练方法，其特征在于，所述方法包括：

根据所述目标训练数据，对所述端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统；所述训练完成的端到端远场语音识别系统用于在远场场景下识别出语音对象对应的音频信息；

其中，在所述基于训练完成的预训练模型，获取所述样本远场语音数据对应的语音上下文特征的步骤之前，所述方法还包括：

基于所述样本近场语音数据确定训练损失值，并根据所述训练损失值调整所述预训练模型中的模型参数，直到满足模型训练结束条件，得到所述训练完成的预训练模型；

所述基于所述样本近场语音数据确定训练损失值，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述样本近场语音数据输入至所述预训练模型中的编码网络，得到映射隐含信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标训练数据，对所述端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过所述时序分类网络约束注意力系数，确定训练优化函数，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述融合所述编码输出特征和所述语音上下文特征，得到目标训练数据，包括：

6.一种端到端远场语音识别系统训练装置，其特征在于，所述装置包括：

训练模块，用于根据所述目标训练数据，对所述端到端远场语音识别系统进行训练，得到训练完成的端到端远场语音识别系统；所述训练完成的端到端远场语音识别系统用于在远场场景下识别出语音对象对应的音频信息；

其中，所述装置还包括：

预训练模型训练模块，用于基于所述样本近场语音数据确定训练损失值，并根据所述训练损失值调整所述预训练模型中的模型参数，直到满足模型训练结束条件，得到所述训练完成的预训练模型；

所述预训练模型训练模块包括：

7.根据权利要求6所述的装置，其特征在于，所述映射隐含信息得到子模块包括：

所述样本上下文特征得到子模块包括：

8.根据权利要求6所述的装置，其特征在于，所述训练模块包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。