CN111816159B

CN111816159B - 一种语种识别方法以及相关装置

Info

Publication number: CN111816159B
Application number: CN202010725563.2A
Authority: CN
Inventors: 苏丹; 冯树林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2022-03-01
Anticipated expiration: 2040-07-24
Also published as: CN111816159A

Abstract

本申请公开了一种语种识别方法以及相关装置。通过获取输入语音；然后将输入语音分别输入N个并列的神经网络模型中的特征提取层，以得到N个语音特征信息；并将N个语音特征信息输入数据重建层进行语音重建，以得到N个重建损失信息；进而根据重建损失信息确定输入语音对应的语种类别。从而实现基于自监督学习的语种识别过程，由于各个语种之间的模型相互独立，无需设置大量的区别特征即可以自动挖掘不同语种之间的语义特征和时序特征，从而提高了语种识别的准确性。

Description

一种语种识别方法以及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种语种识别方法以及相关装置。

背景技术

自动语音识别(Automatic Speech Recognition，ASR)作为计算机科学领域与人工智能领域的一个重要方向，研究实现计算机听懂人类语音的各种理论和方法，覆盖了声学、语言学和计算机科学等多个学科。语种识别是语音识别中的关键技术之一，用于识别语音信号中的语种类别，将跨语种的语音识别问题转化为确定语种的语音识别问题，对提高跨语种场景下语音识别系统的性能具有重要的意义。

一般，语种识别的过程采用基于深度神经网络并进行有监督的分类方法，其中，深度神经网络模型学习到的是人为设定的固定语种集合内的区分特征，即基于不同语种的特征区别进行语种的划分。

然而，由于语种的多样性，涉及大量的区分特征，且人为设定区分特征的过程无法满足多语种的识别需求，影响语种识别的准确性。

发明内容

有鉴于此，本申请提供一种语种识别方法，可以有效提高语种识别的准确性以及效率。

本申请第一方面提供一种语种识别方法，可以应用于终端设备中包含语种识别功能的系统或程序中，具体包括：获取输入语音；

将所述输入语音分别输入N个并列的神经网络模型中的特征提取层，以得到N个语音特征信息，不同的所述神经网络模型由不同的语种训练样本集训练所得，同一所述语种训练样本集中包含的语种训练样本的语种类别相同，所述特征提取层包括至少一个深度前馈序列记忆网络和至少一个自注意力网络，所述深度前馈序列记忆网络用于指示所述输入语音中的时序特征，所述自注意力网络用于指示所述输入语音中的语义特征，所述时序特征和所述语义特征用于指示所述语音特征信息，N≥1，N为正整数；

将N个所述语音特征信息输入数据重建层进行语音重建，以得到N个重建损失信息，所述重建损失信息与所述神经网络模型相对应；

根据所述重建损失信息确定所述输入语音对应的语种类别。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

获取训练样本；

对所述训练样本进行掩蔽，以得到掩蔽样本；

将所述掩蔽样本输入所述神经网络模型，以得到重建样本；

基于所述重建样本和所述训练样本确定训练损失信息，以对所述神经网络模型进行训练。

可选的，在本申请一些可能的实现方式中，所述对所述训练样本进行掩蔽，以得到掩蔽样本，包括：

确定所述训练样本中的目标语音帧；

基于所述目标语音帧合并相邻帧，以得到采样输入样本；

对所述采样输入样本进行掩蔽，以得到所述掩蔽样本。

获取掩蔽连续项系数；

基于所述掩蔽连续项系数确定掩蔽单元，所述掩蔽单元包含至少两个掩蔽帧；

基于所述掩蔽单元对所述训练样本进行随机掩蔽，以得到所述掩蔽样本。

获取掩蔽频带的宽度范围；

根据所述掩蔽频带的宽度范围对所述训练样本进行掩蔽，以得到所述掩蔽样本。

可选的，在本申请一些可能的实现方式中，所述将所述掩蔽样本输入所述神经网络模型，以得到重建样本，包括：

将所述掩蔽样本输入所述特征提取层中的深度前馈序列记忆网络，以得到时序特征；

将所述时序特征输入所述特征提取层中的自注意力网络，以得到语义特征；

基于所述时序特征和所述语义特征构建隐层特征；

将所述隐层特征输入所述神经网络模型中的数据重建层，以得到所述重建样本，所述特征提取层与所述数据重建层相关联。

可选的，在本申请一些可能的实现方式中，所述深度前馈序列记忆网络包括至少两层前馈序列记忆网络，所述将所述掩蔽样本输入所述特征提取层中的深度前馈序列记忆网络，以得到时序特征，包括：

将所述掩蔽样本输入所述深度前馈序列记忆网络中的第一前馈序列记忆网络，以得到第一时序关系和残差系数，所述残差系数用于稳定所述第一前馈序列记忆网络和所述第二前馈序列记忆网络的训练基准；

将所述第一时序关系输入所述深度前馈序列记忆网络中的第二前馈序列记忆网络，以得到第二时序关系；

根据所述第二时序关系和所述第一时序关系确定所述时序特征。

可选的，在本申请一些可能的实现方式中，所述将所述掩蔽样本输入所述深度前馈序列记忆网络中的第一前馈序列记忆网络，以得到第一时序关系和残差系数，包括：

将所述掩蔽样本输入所述第一前馈序列记忆网络中的隐含层，以提取所述掩蔽样本的样本特征；

将所述样本特征输入所述第一前馈序列记忆网络中的特征层，以对所述样本特征进行分类；

将分类后的所述样本特征输入所述第一前馈序列记忆网络中的记忆单元，以得到所述掩蔽样本的所述第一时序关系和所述残差系数。

可选的，在本申请一些可能的实现方式中，所述将所述掩蔽样本输入所述特征提取层中的深度前馈序列记忆网络，以得到时序特征之后，所述将所述时序特征输入所述特征提取层中的自注意力网络，以得到语义特征之前，所述方法还包括：

将所述时序特征输入位置编码模块，以得到所述掩蔽样本中帧的位置信息；

基于所述位置信息对所述时序特征的向量表示进行更新。

可选的，在本申请一些可能的实现方式中，所述将所述时序特征输入所述特征提取层中的自注意力网络，以得到语义特征，包括：

将所述时序特征分别输入所述自注意力网络中的多头变换矩阵，以得到语义变化信息；

将所述语义变化信息进行拼接，并映射到目标维度，以得到注意力特征；

将所述注意力特征进行归一化调整，以得到所述语义特征。

可选的，在本申请一些可能的实现方式中，所述将所述时序特征入所述自注意力网络中的多头变换矩阵，以得到语义变化信息，包括：

获取参考矩阵，所述参考矩阵的维度基于所述多头变换矩阵中的目标矩阵的维度确定，所述多头变换矩阵包括所述目标矩阵、第一关联矩阵和第二关联矩阵；

将所述参考矩阵对所述第一关联矩阵和所述第二关联矩阵分别进行拼接；

基于拼接后的所述第一关联矩阵和拼接后的所述第二关联矩阵与所述目标矩阵机型相关性计算，以得到所述语义变化信息。

可选的，在本申请一些可能的实现方式中，所述根据所述重建损失信息确定所述输入语音对应的语种类别，包括：

将所述重建损失信息输入交叉熵函数，以得到语种归属值，所述交叉熵函数基于训练样本与所述训练样本对应的语种归属值训练所得，所述训练样本对应的语种归属值基于至少一个维度的赋值特征确定；

根据所述语种归属值确定所述输入语音对应的语种类别。

本申请第二方面提供一种语种识别的装置，包括：获取单元，用于获取输入语音；

输入单元，用于将所述输入语音分别输入N个并列的神经网络模型中的特征提取层，以得到N个语音特征信息，不同的所述神经网络模型由不同的语种训练样本集训练所得，同一所述语种训练样本集中包含的语种训练样本的语种类别相同，所述特征提取层包括至少一个深度前馈序列记忆网络和至少一个自注意力网络，所述深度前馈序列记忆网络用于指示所述输入语音中的时序特征，所述自注意力网络用于指示所述输入语音中的语义特征，所述时序特征和所述语义特征用于指示所述语音特征信息，N≥1，N为正整数；

重建单元，用于将N个所述语音特征信息输入数据重建层进行语音重建，以得到N个重建损失信息，所述重建损失信息与所述神经网络模型相对应；

识别单元，用于根据所述重建损失信息确定所述输入语音对应的语种类别。

可选的，在本申请一些可能的实现方式中，语种识别的装置还包括训练单元，所述训练单元，具体用于获取训练样本；

所述训练单元，具体用于对所述训练样本进行掩蔽，以得到掩蔽样本；

所述训练单元，具体用于将所述掩蔽样本输入所述神经网络模型，以得到重建样本；

所述训练单元，具体用于基于所述重建样本和所述训练样本确定训练损失信息，以对所述神经网络模型进行训练。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于确定所述训练样本中的目标语音帧；

所述训练单元，具体用于基于所述目标语音帧合并相邻帧，以得到采样输入样本；

所述训练单元，具体用于对所述采样输入样本进行掩蔽，以得到所述掩蔽样本。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于获取掩蔽连续项系数；

所述训练单元，具体用于基于所述掩蔽连续项系数确定掩蔽单元，所述掩蔽单元包含至少两个掩蔽帧；

所述训练单元，具体用于基于所述掩蔽单元对所述训练样本进行随机掩蔽，以得到所述掩蔽样本。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于获取掩蔽频带的宽度范围；

所述训练单元，具体用于根据所述掩蔽频带的宽度范围对所述训练样本进行掩蔽，以得到所述掩蔽样本。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于将所述掩蔽样本输入所述特征提取层中的深度前馈序列记忆网络，以得到时序特征；

所述训练单元，具体用于将所述时序特征输入所述特征提取层中的自注意力网络，以得到语义特征；

所述训练单元，具体用于基于所述时序特征和所述语义特征构建隐层特征；

所述训练单元，具体用于将所述隐层特征输入所述神经网络模型中的数据重建层，以得到所述重建样本，所述特征提取层与所述数据重建层相关联。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于将所述掩蔽样本输入所述深度前馈序列记忆网络中的第一前馈序列记忆网络，以得到第一时序关系和残差系数，所述残差系数用于稳定所述第一前馈序列记忆网络和所述第二前馈序列记忆网络的训练基准；

所述训练单元，具体用于将所述第一时序关系输入所述深度前馈序列记忆网络中的第二前馈序列记忆网络，以得到第二时序关系；

所述训练单元，具体用于根据所述第二时序关系和所述第一时序关系确定所述时序特征。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于将所述掩蔽样本输入所述第一前馈序列记忆网络中的隐含层，以提取所述掩蔽样本的样本特征；

所述训练单元，具体用于将所述样本特征输入所述第一前馈序列记忆网络中的特征层，以对所述样本特征进行分类；

所述训练单元，具体用于将分类后的所述样本特征输入所述第一前馈序列记忆网络中的记忆单元，以得到所述掩蔽样本的所述第一时序关系和所述残差系数。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于将所述时序特征输入位置编码模块，以得到所述掩蔽样本中帧的位置信息；

所述训练单元，具体用于基于所述位置信息对所述时序特征的向量表示进行更新。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于将所述时序特征分别输入所述自注意力网络中的多头变换矩阵，以得到语义变化信息；

所述训练单元，具体用于将所述语义变化信息进行拼接，并映射到目标维度，以得到注意力特征；

所述训练单元，具体用于将所述注意力特征进行归一化调整，以得到所述语义特征。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于获取参考矩阵，所述参考矩阵的维度基于所述多头变换矩阵中的目标矩阵的维度确定，所述多头变换矩阵包括所述目标矩阵、第一关联矩阵和第二关联矩阵；

所述训练单元，具体用于将所述参考矩阵对所述第一关联矩阵和所述第二关联矩阵分别进行拼接；

所述训练单元，具体用于基于拼接后的所述第一关联矩阵和拼接后的所述第二关联矩阵与所述目标矩阵机型相关性计算，以得到所述语义变化信息。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于将所述重建损失信息输入交叉熵函数，以得到语种归属值，所述交叉熵函数基于训练样本与所述训练样本对应的语种归属值训练所得，所述训练样本对应的语种归属值基于至少一个维度的赋值特征确定；

所述训练单元，具体用于根据所述语种归属值确定所述输入语音对应的语种类别。

本申请第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的语种识别方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的语种识别方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的语种识别方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取输入语音；然后将输入语音分别输入N个并列的神经网络模型中的特征提取层，以得到N个语音特征信息，其中，不同的神经网络模型由不同的语种训练样本集训练所得，同一语种训练样本集中包含的语种训练样本的语种类别相同，特征提取层包括至少一个深度前馈序列记忆网络和至少一个自注意力网络，深度前馈序列记忆网络用于指示输入语音中的时序特征，自注意力网络用于指示输入语音中的语义特征，时序特征和语义特征用于指示语音特征信息；并将N个语音特征信息输入数据重建层进行语音重建，以得到N个重建损失信息，重建损失信息与神经网络模型相对应；进而根据重建损失信息确定输入语音对应的语种类别。从而实现基于自监督学习的语种识别过程，由于各个语种之间的模型相互独立，无需设置大量的区别特征即可以自动挖掘不同语种之间的语义特征和时序特征，从而提高了语种识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为语种识别系统运行的网络架构图；

图2为本申请实施例提供的一种语种识别的流程架构图；

图3为本申请实施例提供的一种语种识别方法的流程图；

图4为本申请实施例提供的一种语种识别中模型训练的方法的流程图；

图5为本申请实施例提供的一种自监督训练过程的框架示意图；

图6为本申请实施例提供的一种网络模型结构示意图；

图7为本申请实施例提供的另一种网络模型结构示意图；

图8为本申请实施例提供的另一种网络模型结构示意图；

图9为本申请实施例提供的另一种网络模型结构示意图；

图10为本申请实施例提供的另一种语种识别方法的流程图；

图11为本申请实施例提供的一种语种识别装置的结构示意图；

图12为本申请实施例提供的一种终端设备的结构示意图；

图13为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请实施例提供了一种语种识别方法以及相关装置，可以应用于终端设备中包含语种识别功能的系统或程序中，通过获取输入语音；然后将输入语音分别输入N个并列的神经网络模型中的特征提取层，以得到N个语音特征信息，其中，不同的神经网络模型由不同的语种训练样本集训练所得，同一语种训练样本集中包含的语种训练样本的语种类别相同，特征提取层包括至少一个深度前馈序列记忆网络和至少一个自注意力网络，深度前馈序列记忆网络用于指示输入语音中的时序特征，自注意力网络用于指示输入语音中的语义特征，时序特征和语义特征用于指示语音特征信息；并将N个语音特征信息输入数据重建层进行语音重建，以得到N个重建损失信息，重建损失信息与神经网络模型相对应；进而根据重建损失信息确定输入语音对应的语种类别。从而实现基于自监督学习的语种识别过程，由于各个语种之间的模型相互独立，无需设置大量的区别特征即可以自动挖掘不同语种之间的语义特征和时序特征，从而提高了语种识别的准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

自监督学习：模型在训练过程中只使用本身输入的信息作为监督，而不引入额外标注信息的一种机器学习方法。

掩蔽预测编码(Masked Predictive Coding，MPC)：指对输入数据进行掩蔽并通过模型处理后对被掩蔽的部分进行预测和重建的方法，被认为能使模型学习到训练数据内部的上下文关系。

L1 Loss：平均绝对损失函数或1-范数损失函数，机器学习中常见的一种回归损失函数，表示预测值与实际值之间误差绝对值的平均。

fbank：filter-bank，根据人耳听觉特性设置一系列滤波器提取出的声学特征，常用于语音识别等语音信号处理任务。

深层前馈序列记忆网络(Deep Feedforward Sequential Memory Networks，DFSMN)：是一种常用于时序数据的模型，对数据的时序关系建模的同时只使用了前馈操作，具有运算快和训练稳定的特点，由多层前馈序列记忆网络(Feedforward SequentialMemory Networks，FSMN)组成。

自注意力网络(Self-Attention Networks，SAN)：该网络模型中的自注意力机制会计算数据在不同位置与其余的相关性作为权重来对数据特征进行筛选，实现对数据特征的自主选择，有助于模型训练得到数据更多内部依赖。

DFSMN-SAN：结合了DFSMN和SAN的模型结构。

多头部的注意力机制(MultiHead Attention)：使用多个变换矩阵将数据映射到不同的子空间，然后进行基于注意力机制(attention)的计算和组合，有助于模型从多个尺度上习得数据的内部依赖。

应理解，本申请提供的语种识别方法可以应用于终端设备中包含语种识别功能的系统或程序中，例如语音识别平台，具体的，语种识别系统可以运行于如图1所示的网络架构中，如图1所示，是语种识别系统运行的网络架构图，如图可知，语种识别系统可以提供与多个终端设备的语种识别过程，通过终端设备接收用户发出的语音信息，得到多个不同语种对应的重建损失，从而根据重建损失的相对大小确定输入语音信息对应的语种类别；可以理解的是，图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到语种识别的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多语种交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可以理解的是，上述语种识别系统可以运行于个人移动终端，例如：作为语音翻译这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供语种识别，以得到信息源的语种识别处理结果；具体的语种识别系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

为了解决上述问题，本申请提出了一种语种识别方法，该方法应用于图2所示的语种识别的流程框架中，如图2所示，为本申请实施例提供的一种语种识别的流程架构图，其中，虚线框的部分指示了整个系统的训练过程，即根据不同语种的训练语料进行自监督训练，以得到相应的预训练模型，即神经网络模型；通过对应语种类别的设定，预训练模型将具备对相应语种的语音进行抽象表示和重建的能力。

在语种识别过程中，输入语音经过各预训练模型的重建得到相应的重建损失，根据重建损失判断重建结果的好坏，并进行打分即可得到输入语音的语种识别结果。另外，图2中加权打分的模块独立于自监督训练的过程，用于调整各重建损失的尺度，削弱预训练模型训练上的偏差带来的影响。从而保证打分的准确性，提高语种识别的准确性。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种语种识别装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该语种识别装置通过获取输入语音；然后将输入语音分别输入N个并列的神经网络模型中的特征提取层，以得到N个语音特征信息，其中，不同的神经网络模型由不同的语种训练样本集训练所得，同一语种训练样本集中包含的语种训练样本的语种类别相同，特征提取层包括至少一个深度前馈序列记忆网络和至少一个自注意力网络，深度前馈序列记忆网络用于指示输入语音中的时序特征，自注意力网络用于指示输入语音中的语义特征，时序特征和语义特征用于指示语音特征信息；并将N个语音特征信息输入数据重建层进行语音重建，以得到N个重建损失信息，重建损失信息与神经网络模型相对应；进而根据重建损失信息确定输入语音对应的语种类别。从而实现基于自监督学习的语种识别过程，由于各个语种之间的模型相互独立，无需设置大量的区别特征即可以自动挖掘不同语种之间的语义特征和时序特征，从而提高了语种识别的准确性。

本申请实施例提供的方案涉及人工智能的自然语言处理、自动语音识别、语音信号处理等技术，具体通过如下实施例进行说明:

结合上述流程架构，下面将对本申请中语种识别方法进行介绍，请参阅图3，图3为本申请实施例提供的一种语种识别方法的流程图，该管理方法可以是由终端设备执行的，本申请实施例至少包括以下步骤：

301、获取输入语音。

本实施例中，输入语音可以是响应于用户即时输入的，例如用户的通话语音；输入语音也可以是响应于操作指令进行的语音的选取，例如看电影过程中截取的一段语音；输入语音还可以是对于未发出语音的设定，例如获取语音播放一分钟后的语音，该过程应用于嘈杂环境的语音输入过程中，具体获取输入语音的方式因实际场景而定，此处不做限定。

302、将输入语音分别输入N个并列的神经网络模型中的特征提取层，以得到N个语音特征信息。

本实施例中，不同的神经网络模型由不同的语种训练样本集训练所得，同一语种训练样本集中包含的语种训练样本的语种类别相同，例如当N＝3时，存在针对于英语识别的神经网络模型、针对于日语识别的神经网络模型以及针对于德语识别的神经网络模型，对应的，针对于英语识别的神经网络模型的训练样本集即均为英语语料样本的集合，依次类推。

另外，该特征提取层包括至少一个深度前馈序列记忆网络DFSMN和至少一个自注意力网络SAN。其中，DFSMN用于指示输入语音中的时序特征，SAN用于指示输入语音中的语义特征，且时序特征和语义特征用于指示语音特征信息，该时序特征反应了输入语音中各个帧的时序关系，而语义特征则反映了不同语种的发音特点，例如高音的分布、语气词的使用等。

具体的，神经网络模型中的特征提取层可以是一种文本表达网络，例如CNN、LSTM等网络模型，具体模型因实际场景而定，此处不做限定。

可以理解的是，使用自监督学习的方法为每个语种独立的神经网络模型，在有新类别的语种数据加入进任务时，无需重复训练已有的模型，相对有监督的方法具有更好的扩展性。

303、将N个语音特征信息输入数据重建层进行语音重建，以得到N个重建损失信息。

本实施例中，重建损失信息与神经网络模型相对应；其中，重建损失信息即用于指示神经网络模型对于输入语音的还原程度，若还原程度越高则说明该神经网络模型对应的语种与输入语音的语种相似度越高。

可以理解的是，每个神经网络模型即对应于各自的语音特征信息以及重建损失信息，每个神经网络模型之间采用独立的运行线程，相互之间没有干扰，保证了语种的独立性，进而提高语种识别的准确性。

304、根据重建损失信息确定输入语音对应的语种类别。

本实施例中，根据重建损失信息确定输入语音对应的语种类别可以是根据重建损失信息指示的损失大小进行排序，即选择排序最前，即损失最小的神经网络模型对应的语种即为输入语音的语种。

另外，由于一些语种之间的发音相似，根据重建损失信息确定输入语音对应的语种类别的过程还可以是基于相似度来进行的，即根据重建损失信息指示的重建结果与输入语音的相似度进行筛选，例如若相似度达到0.9，则确定对应的神经网络模型的语种即为输入语音的语种。具体的相似度阈值因实际场景而定，此处不做限定。

在一种可能的场景中，N＝1，即只有一个语种的神经网络模型，此时也可以采用相似度来进行语种类别的二分类判断，即若相似度达到0.9，则确定对应的神经网络模型的语种即为输入语音的语种。

结合上述实施例可知，通过获取输入语音；然后将输入语音分别输入N个并列的神经网络模型中的特征提取层，以得到N个语音特征信息，其中，不同的神经网络模型由不同的语种训练样本集训练所得，同一语种训练样本集中包含的语种训练样本的语种类别相同，特征提取层包括至少一个深度前馈序列记忆网络和至少一个自注意力网络，深度前馈序列记忆网络用于指示输入语音中的时序特征，自注意力网络用于指示输入语音中的语义特征，时序特征和语义特征用于指示语音特征信息；并将N个语音特征信息输入数据重建层进行语音重建，以得到N个重建损失信息，重建损失信息与神经网络模型相对应；进而根据重建损失信息确定输入语音对应的语种类别。从而实现基于自监督学习的语种识别过程，由于各个语种之间的模型相互独立，无需设置大量的区别特征即可以自动挖掘不同语种之间的语义特征和时序特征，从而提高了语种识别的准确性。

上述实施例介绍了终端设备进行语种识别的过程，下面，对语种识别过程中涉及的神经网络模型的训练过程进行介绍。请参阅图4，图4为本申请实施例提供的一种语种识别中模型训练的方法的流程图，本申请实施例至少包括以下步骤：

401、获取训练样本。

本实施例中，训练样本即为各个语种语料的集合，具体的样本形式可以是使用的是特征维度为40的fbank声学特征，该声学特征具有时间和频率两个维度的信息。具体的样本类型因实际场景而定，此处不做限定。

402、对训练样本进行掩蔽，以得到掩蔽样本。

本实施例中，采用MPC三维方法进行模型的训练过程，即通过对输入样本进行掩蔽，然后通过神经网络模型处理后对被掩蔽的部分进行预测和重建，以使得神经网络模型学习到训练样本内部的上下文关系，即为一种自监督训练的过程。

可选的，考虑到语音具有短时平稳的特点，而声学特征通常具有较短的帧长和帧移，例如25ms帧长和10ms帧移；故语音对应的帧数较多。为了减小模型训练过程中基于语音帧的计算量，可以采用下采样的方法减少输入语音的帧数，具体的，首先确定训练样本中的目标语音帧；然后基于目标语音帧合并相邻帧，以得到采样输入样本；进而对采样输入样本进行掩蔽，以得到掩蔽样本。例如将相邻的3帧拼为一帧，得到采样后的输入。

另外，对于生成掩蔽样本的过程，可以采用随机掩蔽的方式，例如随机掩蔽训练样本15％的帧，从而得到掩蔽样本。

可选的，为了使神经网络模型训练得到的不仅包括相邻帧平滑关系，还包括相应语种语音的上下文依赖关系，故还可以在随机掩蔽的过程中设定连续掩蔽。具体的，可以首先设定掩蔽连续项系数；然后基于掩蔽连续项系数确定掩蔽单元，掩蔽单元包含至少两个掩蔽帧；进而基于掩蔽单元对训练样本进行随机掩蔽，以得到掩蔽样本。例如设定掩蔽连续项系数C＝3，则生成掩蔽单元的过程中，采用3个连续帧作为一组进行掩蔽帧的分布，从而得到掩蔽样本。

可选的，为了使神经网络模型训练得到语音中的时频结构，还可以随机抽取一定宽度的频带进行掩蔽。具体的，首先获取掩蔽频带的宽度范围；然后根据掩蔽频带的宽度范围对训练样本进行掩蔽，以得到掩蔽样本。例如设定掩蔽频带的宽度范围为8，从而将对应的帧进行掩蔽，以得到掩蔽样本。

在一种可能的场景中，经过上述任一种或多种掩蔽方法组合得到掩蔽后的语音为X_M，其对应的掩模为M，M为0和1组成的二维矩阵，0表示对应位置被掩蔽，掩蔽语音X_M和采样输入X间有如下关系

X_M＝X⊙M

其中⊙表示逐点相乘，X_M为掩蔽样本，M为掩模。

通过在自监督学习中引入了掩蔽预测编码的方法，使得模型训练过程中更多的关注上下文关系，训练得到更好的内部依赖，从而提升模型的性能。

403、将掩蔽样本输入神经网络模型，以得到重建样本。

本实施例中，神经网络模型主要包含DFSMN-SAN(特征提取层)和ReconstructionHead(数据重建层)两个部分，其中，DFSMN-SAN用于对各语种数据进行抽象表示得到隐层特征，而Reconstruction Head则用于从隐层特征中恢复出原始的语音数据。

具体的，本实施例中自监督训练的过程可参考图5所示的框架，图5为本申请实施例提供的一种自监督训练过程的框架示意图，图中示出了对输入样本首先进行下采样，以得到采样输入样本；然后对采样输入样本进行随机掩蔽，以得到掩蔽样本，通过将掩蔽样本输入神经网络模型，以得到重建样本，然后根据采样输入样本与重建样本进行梯度计算得到重建损失。

下面，对具体的神经网络模型的组成进行说明，对于DFSMN-SAN，该结构为DFSMN与SAN组合而层，具体的，得到重建样本的过程即首先将掩蔽样本输入特征提取层中的深度前馈序列记忆网络，以得到时序特征；然后将时序特征输入特征提取层中的自注意力网络，以得到语义特征；从而基于时序特征和语义特征构建隐层特征；并将隐层特征输入神经网络模型中的数据重建层，以得到重建样本。

在一种可能的场景中，DFSMN-SAN的结构可以参考图6，为本申请实施例提供的一种网络模型结构示意图。图中示出了由2个DFSMN和2个SAN组成的DFSMN-SAN结构，其中，每个DFSMN可以包含多层FSMN，例如20层FSMN的堆叠。具体的组合数量因实际场景而定，此处不做限定。

具体的，对于DFSMN的训练过程，即多个FSMN之间进行特征传递的过程，下面以两个FSMN之间的信息传递进行说明。即首先将掩蔽样本输入深度前馈序列记忆网络中的第一前馈序列记忆网络，以得到第一时序关系和残差系数，残差系数用于稳定第一前馈序列记忆网络和第二前馈序列记忆网络的训练基准；然后将第一时序关系输入深度前馈序列记忆网络中的第二前馈序列记忆网络，以得到第二时序关系；然后根据第二时序关系和第一时序关系确定时序特征。具体的FSMN的数量因实际场景而定，各个FSMN之间的关系采用上述第一前馈序列记忆网络与第二前馈序列记忆网络之间的关系，此处不做赘述。

可以理解的是，对于前馈序列记忆网络的组成，如图7所示，为本申请实施例提供的另一种网络模型结构示意图。图中示出了三个FSMN堆叠的场景，其中前馈序列记忆网络包括隐含层(h)、特征层(p)以及记忆单元

具体的，对于隐含层、特征层以及记忆单元之间的信息传递可以包括首先将掩蔽样本输入第一前馈序列记忆网络中的隐含层，以提取掩蔽样本的样本特征；然后将样本特征输入第一前馈序列记忆网络中的隐含层，以对样本特征进行分类；进而将分类后的样本特征输入第一前馈序列记忆网络中的记忆单元，以得到掩蔽样本的第一时序关系和残差系数。

具体的，结合图7进行说明，即以一个3层的DFSMN为例介绍DFSMN的实现过程。其中，虚线框里包含了一层FSMN的三个模块，隐含层h和特征层p，其具体为两个全连接层，分别具有1024和512个节点；而记忆单元(memory block)

用于将t时刻与相邻的时间帧编码到隐层表示，记忆单元的存在使FSMN能够对数据的时序关系进行建模。对于第l层t时刻的记忆单元计算过程可表示为：

其中，

和

表示第l层的可训练参数，分别表示对历史帧和未来帧的加权系数，N₁和N₂则对应着可见的历史帧和未来帧数量，s₁和s₂表示历史帧间的步长和未来帧间的步长。

表示来自上一层的残差连接(残差系数)，其目的是使模型在深层堆叠时也能稳定训练，即作为稳定基准，例如设定残差系数

从而保证训练过程不会过于发散。

另外，在图6中还示出了一个位置编码模块(positional encoding)。这是由于考虑到DFSMN只能对局部的时间帧进行编码，为避免其限制上下文信息的获取，从而引入了可以获取整个句子上下文信息的SAN模型。然而SAN模型在计算过程中忽略了输入数据的位置关系，故在第一层SAN模型前使用了位置编码模块，用于引入数据的位置信息。即将时序特征输入位置编码模块，以得到掩蔽样本中帧的位置信息；然后基于位置信息对时序特征的向量表示进行更新。

具体地，为输入数据进行编码向量更新的过程可参考如下公式进行，对于第t帧数据，其编码向量设计如下：

其中d为编码向量的维度，例如可以设定d＝512。

下面，对SAN模型的实现进行说明。SAN模型可以得到整个语音对应句子的上下文信息，在不同的时刻自主的筛选数据特征，使得神经网络模型具备对整句建模的能力，可能学习到语义层面的信息来对特定语种的语音进行抽象表达。具体的，即将时序特征分别输入自注意力网络中的多头变换矩阵，以得到语义变化信息；然后将语义变化信息进行拼接，并映射到目标维度，以得到注意力特征；从而将注意力特征进行归一化调整，以得到语义特征。

在一种可能的场景中，SAN包含多头注意力层(MultiHead Attention)和归一化层(LayerNorm)两个部分，其中MultiHead Attention的计算可描述为如下公式：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

其中，Q、K、V分别为不同的多头变换矩阵Query、Key和Value，均对应上一层的输入，

和

则表示第i个head中Q、K和V的变换矩阵，维度为d×d_k，通常d_k＝d/h，d则对应上一层输入的向量维度。例如，相关参数可以配置为d＝512,h＝8，d_k＝64。

然后，各个head的结果(语义变化信息)拼接后经过W^O的映射可以得到MultiHeadAttention的结果(注意力特征)。

另外，对应SAN模型的运算则可描述为：

SAN(x)＝LayerNorm(x+MultiHead(x,x,x))

其中，LayerNorm会对于输入的隐层特征进行归一化后调整其分布，其可以调节隐层隐层特征的尺度，使得模型的训练更加稳定，从而得到语义特征，对应的运算如下公式所示：

其中E[x]表示x的均值，Var[x]表示x的方差，∈用于防止除零错误，γ和β为可训练的参数，分别对应新分布的尺度与偏移量。

可选的，为了在attention的计算过程学习训练语料中的普适特征，即一般特征；还可以在attention的计算过程中引入可训练的Memory矩阵(参考矩阵)。具体的，首先获取参考矩阵，参考矩阵的维度基于多头变换矩阵中的目标矩阵的维度确定，多头变换矩阵包括Query(目标矩阵)、Key(第一关联矩阵)和Value(第二关联矩阵)；然后将参考矩阵对第一关联矩阵和第二关联矩阵分别进行拼接；进而基于拼接后的第一关联矩阵和拼接后的第二关联矩阵与目标矩阵机型相关性计算，以得到语义变化信息。

在一种可能的场景中，引入参考矩阵后的SAN结构如图8所示，为本申请实施例提供的另一种网络模型结构示意图。图中以单个head的attention计算为例，模型中将引入两个维度为N×d_k的可训练矩阵M^K和M^V，分别与Key矩阵和Value矩阵进行拼接，再进行Query和Key的相关性计算以及对Value加权的操作。若输入数据Input表示为[x₁,…,x_T]，则上述计算过程可表示为如下公式：

K_M＝Concat([W^Kx₁,…,W^Kx_T],M^K)

V_M＝Concat([W^Vx₁,…,W^Vx_T],M^V)

在一种可能的场景中，为每一个head(多头变换矩阵)的attention计算(相关性计算)都设置了N为64的Memory矩阵，从而提高了SAN对于输入样本的普适特征的学习程度。

下面，对数据重建层的构成进行介绍，Reconstruction Head作为神经网络模型的重建模块，可以包括两个全连接层和一个LayerNorm层。具体的，对于时刻t，其重建的语音帧可表示为：

y_t＝f₂(LayerNorm(RELU(f₁(h_t))))

其中，h_t表示t时刻对应的隐层特征，经过全连接层f₁映射后使用RELU激活函数，然后进行LayerNorm和全连接层f₂的映射后，即可得到重建的结果，即重建样本。

404、基于重建样本和训练样本确定训练损失信息，以对神经网络模型进行训练。

本实施例中，基于重建样本和训练样本确定训练损失信息的过程可以是计算重建样本与训练样本间的L1 Loss。其中，Loss的计算只关注被掩蔽的部分，具体的，若将模型的计算过程记为g(·)，则整个训练的损失函数可描述为公式：

其中

表示Frobenius 1-范数。

可以理解的是，确定训练损失信息中使用到的L1 Loss也可以替换为其他的形式的回归损失，如MSE(均方误差)等损失，具体的，可MSE损失可参考如下公式：

其中，MSE为重建样本和训练样本之间的均方误差，

为重建样本；y_i训练样本，n为序列号。

另外，在训练完成后的语种识别的过程中，输入语音将不再进行随机的掩蔽，而是直接送入神经网络模型进行重建，计算出的重建损失作为本方案中打分和判别语种的依据。

可选的，由于不同语种数据的统计特性存在差异，故在各个语种对应的模型训练的过程中也会引入一定的偏差，导致测试语音在各语种的预训练模型上重建的损失可能出现尺度上的差异，不适合直接比较。因此，可以为打分进行加权，即为每个模型的重建损失l设置可训练的尺度参数w和偏移量b，打分结果则为：

s＝w×l+b

其中，s为打分结果，w为尺度参数和b为偏移量，l为重建损失信息。

当各个神经网络模型训练完成后，可根据各神经网络模型给出的打分结果以及训练样本对应的语种类别，使用交叉熵(Cross Entropy,CE)损失函数对设置的参数进行训练，其损失函数如下：

其中，p＝softmax(s)表示在此打分下输入语音属于各类语种的概率，C表示语种类别数量，y_i表示输入语音是否属于第i类语种，1为属于，0则表示不属于。

当此模块训练完成，将重建损失信息输入交叉熵函数，以得到语种归属值，交叉熵函数基于训练样本与训练样本对应的语种归属值训练所得，训练样本对应的语种归属值基于至少一个维度的赋值特征确定；然后根据语种归属值确定输入语音对应的语种类别。例如设定测试过程中输入语音对应打分最高的类别即为最终的语种类别。

通过上述实施例可知，通过使用自监督学习的方式训练深度神经网络，不需要人为的设置复杂特征，从而实现了自动的挖掘各语种数据中的发音特征和时序关系，保证了训练的效率。另外，通过在自监督学习中引入了掩蔽预测编码的方法，使得模型训练过程中更多的关注上下文关系，训练得到更好的内部依赖，从而提升模型的性能。进一步的，使用自监督学习的方法为每个语种独立的训练预训练模型，在有新类别的语种数据加入进任务时，无需重复训练已有的模型，相对有监督的方法具有更好的扩展性。且由于在模型的选择上使用了前馈序列记忆网络和自注意力网络，避免了循环网络的结构，使得模型更加容易训练。

应当注意的是，本申请中使用的神经网络模型并不具体限定模型类型和拓扑结构，即简单替换模型层数、隐层节点等配置，具体的，修改模型为CNN与LSTM等结构也属于本申请的技术方案。

具体的，神经网络模型可以采用CNN，即一种带有卷积结构的深度神经网络。如图9所示，为本申请实施例提供的另一种网络模型的架构图；卷积神经网络包含了由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的短语或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取短语信息的方式与位置无关。这其中隐含的原理是：短语的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的短语信息也能用在另一部分上。所以对于短语上的所有元素，我们都能使用同样的学习得到的短语信息。在同一卷积层中，可以使用多个卷积核来提取不同的短语信息，一般地，卷积核数量越多，卷积操作反映的短语信息越丰富。

可以理解的是，卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

另外，编码器还可以采用RecursiveNN。RecursiveNN的输入是两个子节点(也可以是多个)，输出就是将这两个子节点编码后产生的父节点，父节点的维度和每个子节点是相同的。

可选的，本申请使用的递归网络可以包括但并不局限于深度递归神经网络，且该深度递归神经网络的网络节点可以包括GRU(Gated Recurrent Unit，一种LSTM变体)单元或长短期记忆网络(Long Short-Term Memory，LSTM)单元，或者其他能够有效建立时序关系的网络单元。

下面，结合一种具体的场景对本申请中语种识别的方法进行说明，如图10所示，为本申请实施例提供的另一种语种识别方法的流程图，包括如下步骤：

1001、获取输入语音。

1002、将输入语音输入神经网络模型，以得到语种识别结果。

本实施例中，步骤1001与1002与图3所示的步骤301-304相似，此处不做赘述。

1003、基于所述语种识别结果调用目标语种数据库。

本实施例中，根据语种识别结果确定目标语种，并调用对应的数据库，例如确定输入语音对应的目标语种为英语，则调用英语数据库。

1004、基于目标语种数据库进行语音翻译。

本实施例中，通过调用的目标语种数据库对输入语音进行识别，并翻译为用户所需求的语种。

通过对于输入语音的自动识别并调用对应的目标语种数据库，节约了翻译软件本地的数据大小，且提升了翻译的准确率。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图11，图11为本申请实施例提供的一种语种识别装置的结构示意图，语种识别装置1100包括：

获取单元1101，用于获取输入语音；

输入单元1102，用于将所述输入语音分别输入N个并列的神经网络模型中的特征提取层，以得到N个语音特征信息，不同的所述神经网络模型由不同的语种训练样本集训练所得，同一所述语种训练样本集中包含的语种训练样本的语种类别相同，所述特征提取层包括至少一个深度前馈序列记忆网络和至少一个自注意力网络，所述深度前馈序列记忆网络用于指示所述输入语音中的时序特征，所述自注意力网络用于指示所述输入语音中的语义特征，所述时序特征和所述语义特征用于指示所述语音特征信息，N≥1，N为正整数；

重建单元1103，用于将N个所述语音特征信息输入数据重建层进行语音重建，以得到N个重建损失信息，所述重建损失信息与所述神经网络模型相对应；

识别单元1104，用于根据所述重建损失信息确定所述输入语音对应的语种类别。

可选的，在本申请一些可能的实现方式中，语种识别的装置还包括训练单元1105，所述训练单元1105，具体用于获取训练样本；

所述训练单元1105，具体用于对所述训练样本进行掩蔽，以得到掩蔽样本；

所述训练单元1105，具体用于将所述掩蔽样本输入所述神经网络模型，以得到重建样本；

所述训练单元1105，具体用于基于所述重建样本和所述训练样本确定训练损失信息，以对所述神经网络模型进行训练。

可选的，在本申请一些可能的实现方式中，所述训练单元1105，具体用于确定所述训练样本中的目标语音帧；

所述训练单元1105，具体用于基于所述目标语音帧合并相邻帧，以得到采样输入样本；

所述训练单元1105，具体用于对所述采样输入样本进行掩蔽，以得到所述掩蔽样本。

可选的，在本申请一些可能的实现方式中，所述训练单元1105，具体用于获取掩蔽连续项系数；

所述训练单元1105，具体用于基于所述掩蔽连续项系数确定掩蔽单元，所述掩蔽单元包含至少两个掩蔽帧；

所述训练单元1105，具体用于基于所述掩蔽单元对所述训练样本进行随机掩蔽，以得到所述掩蔽样本。

可选的，在本申请一些可能的实现方式中，所述训练单元1105，具体用于获取掩蔽频带的宽度范围；

所述训练单元1105，具体用于根据所述掩蔽频带的宽度范围对所述训练样本进行掩蔽，以得到所述掩蔽样本。

可选的，在本申请一些可能的实现方式中，所述训练单元1105，具体用于将所述掩蔽样本输入所述特征提取层中的深度前馈序列记忆网络，以得到时序特征；

所述训练单元1105，具体用于将所述时序特征输入所述特征提取层中的自注意力网络，以得到语义特征；

所述训练单元1105，具体用于基于所述时序特征和所述语义特征构建隐层特征；

所述训练单元1105，具体用于将所述隐层特征输入所述神经网络模型中的数据重建层，以得到所述重建样本，所述特征提取层与所述数据重建层相关联。

可选的，在本申请一些可能的实现方式中，所述训练单元1105，具体用于将所述掩蔽样本输入所述深度前馈序列记忆网络中的第一前馈序列记忆网络，以得到第一时序关系和残差系数，所述残差系数用于稳定所述第一前馈序列记忆网络和所述第二前馈序列记忆网络的训练基准；

所述训练单元1105，具体用于将所述第一时序关系输入所述深度前馈序列记忆网络中的第二前馈序列记忆网络，以得到第二时序关系；

所述训练单元1105，具体用于根据所述第二时序关系和所述第一时序关系确定所述时序特征。

可选的，在本申请一些可能的实现方式中，所述训练单元1105，具体用于将所述掩蔽样本输入所述第一前馈序列记忆网络中的隐含层，以提取所述掩蔽样本的样本特征；

所述训练单元1105，具体用于将所述样本特征输入所述第一前馈序列记忆网络中的特征层，以对所述样本特征进行分类；

所述训练单元1105，具体用于将分类后的所述样本特征输入所述第一前馈序列记忆网络中的记忆单元，以得到所述掩蔽样本的所述第一时序关系和所述残差系数。

可选的，在本申请一些可能的实现方式中，所述训练单元1105，具体用于将所述时序特征输入位置编码模块，以得到所述掩蔽样本中帧的位置信息；

所述训练单元1105，具体用于基于所述位置信息对所述时序特征的向量表示进行更新。

可选的，在本申请一些可能的实现方式中，所述训练单元1105，具体用于将所述时序特征分别输入所述自注意力网络中的多头变换矩阵，以得到语义变化信息；

所述训练单元1105，具体用于将所述语义变化信息进行拼接，并映射到目标维度，以得到注意力特征；

所述训练单元1105，具体用于将所述注意力特征进行归一化调整，以得到所述语义特征。

可选的，在本申请一些可能的实现方式中，所述训练单元1105，具体用于获取参考矩阵，所述参考矩阵的维度基于所述多头变换矩阵中的目标矩阵的维度确定，所述多头变换矩阵包括所述目标矩阵、第一关联矩阵和第二关联矩阵；

所述训练单元1105，具体用于将所述参考矩阵对所述第一关联矩阵和所述第二关联矩阵分别进行拼接；

所述训练单元1105，具体用于基于拼接后的所述第一关联矩阵和拼接后的所述第二关联矩阵与所述目标矩阵机型相关性计算，以得到所述语义变化信息。

可选的，在本申请一些可能的实现方式中，所述识别单元1104，具体用于将所述重建损失信息输入交叉熵函数，以得到语种归属值，所述交叉熵函数基于训练样本与所述训练样本对应的语种归属值训练所得，所述训练样本对应的语种归属值基于至少一个维度的赋值特征确定；

所述识别单元1104，具体用于根据所述语种归属值确定所述输入语音对应的语种类别。

本申请实施例还提供了一种终端设备，如图12所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图12示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12，手机包括：射频(radio frequency，RF)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity，WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对手机的各个构成部件进行具体的介绍：

RF电路1210可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1280处理；另外，将设计上行的数据发送给基站。通常，RF电路1210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路1210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器1220可用于存储软件程序以及模块，处理器1280通过运行存储在存储器1220的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1230可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1230可包括触控面板1231以及其他输入设备1232。触控面板1231，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1231上或在触控面板1231附近的操作，以及在触控面板1231上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1231可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1280，并能接收处理器1280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1231。除了触控面板1231，输入单元1230还可以包括其他输入设备1232。具体地，其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1240可包括显示面板1241，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板1241。进一步的，触控面板1231可覆盖显示面板1241，当触控面板1231检测到在其上或附近的触摸操作后，传送给处理器1280以确定触摸事件的类型，随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中，触控面板1231与显示面板1241是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1231与显示面板1241集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1250，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1241和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1260、扬声器1261，传声器1262可提供用户与手机之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号，传输到扬声器1261，由扬声器1261转换为声音信号输出；另一方面，传声器1262将收集的声音信号转换为电信号，由音频电路1260接收后转换为音频数据，再将音频数据输出处理器1280处理后，经RF电路1210以发送给比如另一手机，或者将音频数据输出至存储器1220以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1270，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1280是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1220内的软件程序和/或模块，以及调用存储在存储器1220内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1280可包括一个或多个处理单元；可选的，处理器1280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1280中。

手机还包括给各个部件供电的电源1290(比如电池)，可选的，电源可以通过电源管理系统与处理器1280逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1280还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例还提供了一种服务器，请参阅图13，图13是本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1322(例如，一个或一个以上处理器)和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在服务器1300上执行存储介质1330中的一系列指令操作。

服务器1300还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1358，和/或，一个或一个以上操作系统1341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由管理装置所执行的步骤可以基于该图13所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有语种识别指令，当其在计算机上运行时，使得计算机执行如前述图2至图10所示实施例描述的方法中语种识别装置所执行的步骤。

本申请实施例中还提供一种包括语种识别指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图2至图10所示实施例描述的方法中语种识别装置所执行的步骤。

本申请实施例还提供了一种语种识别系统，所述语种识别系统可以包含图11所描述实施例中的语种识别装置，或图12所描述实施例中的终端设备，或者图13所描述的服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，语种识别装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语种识别的方法，其特征在于，包括：

获取输入语音；

根据所述重建损失信息确定所述输入语音对应的语种类别。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本；

对所述训练样本进行掩蔽，以得到掩蔽样本；

将所述掩蔽样本输入所述神经网络模型，以得到重建样本；

3.根据权利要求2所述的方法，其特征在于，所述对所述训练样本进行掩蔽，以得到掩蔽样本，包括：

确定所述训练样本中的目标语音帧；

基于所述目标语音帧合并相邻帧，以得到采样输入样本；

对所述采样输入样本进行掩蔽，以得到所述掩蔽样本。

4.根据权利要求2所述的方法，其特征在于，所述对所述训练样本进行掩蔽，以得到掩蔽样本，包括：

获取掩蔽连续项系数；

5.根据权利要求2所述的方法，其特征在于，所述对所述训练样本进行掩蔽，以得到掩蔽样本，包括：

获取掩蔽频带的宽度范围；

6.根据权利要求2所述的方法，其特征在于，所述将所述掩蔽样本输入所述神经网络模型，以得到重建样本，包括：

基于所述时序特征和所述语义特征构建隐层特征；

7.根据权利要求6所述的方法，其特征在于，所述深度前馈序列记忆网络包括至少两层前馈序列记忆网络，所述将所述掩蔽样本输入所述特征提取层中的深度前馈序列记忆网络，以得到时序特征，包括：

将所述掩蔽样本输入所述深度前馈序列记忆网络中的第一前馈序列记忆网络，以得到第一时序关系和残差系数，所述残差系数用于稳定所述第一前馈序列记忆网络和第二前馈序列记忆网络的训练基准；

8.根据权利要求7所述的方法，其特征在于，所述将所述掩蔽样本输入所述深度前馈序列记忆网络中的第一前馈序列记忆网络，以得到第一时序关系和残差系数，包括：

9.根据权利要求6所述的方法，其特征在于，所述将所述掩蔽样本输入所述特征提取层中的深度前馈序列记忆网络，以得到时序特征之后，所述将所述时序特征输入所述特征提取层中的自注意力网络，以得到语义特征之前，所述方法还包括：

基于所述位置信息对所述时序特征的向量表示进行更新。

10.根据权利要求6所述的方法，其特征在于，所述将所述时序特征输入所述特征提取层中的自注意力网络，以得到语义特征，包括：

将所述注意力特征进行归一化调整，以得到所述语义特征。

11.根据权利要求10所述的方法，其特征在于，所述将所述时序特征入所述自注意力网络中的多头变换矩阵，以得到语义变化信息，包括：

12.根据权利要求1-11任一项所述的方法，其特征在于，所述根据所述重建损失信息确定所述输入语音对应的语种类别，包括：

根据所述语种归属值确定所述输入语音对应的语种类别。

13.一种语种识别的装置，其特征在于，包括：

获取单元，用于获取输入语音；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至12任一项所述的语种识别的方法。

15.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至12任一项所述的语种识别的方法。