CN111862956B

CN111862956B - 一种数据处理方法、装置、设备及存储介质

Info

Publication number: CN111862956B
Application number: CN202010734850.XA
Authority: CN
Inventors: 曹松军; 马龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2022-07-12
Anticipated expiration: 2040-07-27
Also published as: CN111862956A

Abstract

本发明实施例公开了一种数据处理方法、装置、设备及存储介质，其中，该方法包括：服务器按照预设时间窗获取语音帧序列并确定出语音帧序列的特征信息，根据该特征信息确定第一层时间截断的自注意力网络的输入信息，针对任意一层时间截断的自注意力网络，将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络，以对语音识别模型进行训练，并得到训练后的语音识别模型。通过上述实施例，将第一层时间截断的自注意力网络的输入信息输入到每一层时间截断的自注意力网络进行训练，从而可以减少在对语音识别模型训练过程中语音特征信息的丢失，提高语音识别模型的语音识别率。

Description

一种数据处理方法、装置、设备及存储介质

技术领域

本申请涉及基于人工智能的语音识别技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

语音识别技术，其目的是接收人类的语音信号并让机器负责将语音信号转化为文字。对于语音的处理，整个流程可分为四部分：前端处理、声学模型建模、语言模型与词典建模以及解码。

随着人工智能技术尤其是深度学习的研究和发展，当前语音识别分为三种，一是概率模型方法，二是深度学习方法，三是应用自注意力机制。对于概率模型方法，模型并不能利用每一帧的上下文信息，即不能利用历史信息来辅助当前任务；对于深度学习方法，模型虽然能达到较好的收敛效果，但由于循环神经网络(Recurrent Neural Network，RNN)本身的循环结构，较多的RNN单元使得训练时间较长，难以并行化；而针对目前的自注意力机制虽在一定程度上克服了上述方式的问题，但是受到该方法中对语音信号的时间加窗技术会导致信息的丢失。

因此，怎样在目前的研究形势下减弱建模过程中信息的丢失成为亟待解决的问题。

发明内容

本发明实施例提供了一种数据处理方法、装置、设备及存储介质，可以减少在对语音识别模型训练过程中语音特征信息的丢失，提高语音识别模型的语音识别率。

第一方面，本发明实施公开了一种数据处理方法，包括：

按照预设时间窗获取语音帧序列，并确定所述语音帧序列的特征信息；

根据所述特征信息确定第一层时间截断的自注意力网络的输入信息；

针对任意一层时间截断的自注意力网络，将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络，以对所述语音识别模型进行训练，并得到训练后的语音识别模型。

第二方面，本发明实施公开了一种语音识别方法，包括：

获取待识别的语音数据；

利用语音识别模型对所述语音数据进行发音映射处理，以得到所述语音数据的发音数据，所述语音识别模型包括多层时间截断的自注意力网络，所述语音识别模型是通过针对任意一层时间截断的自注意力网络，将第一层时间截断的自注意力网络的输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络，以进行训练得到的；

利用语言模型和发音词典对所述发音数据进行识别处理，以得到所述语音数据对应的文本信息。

第三方面，本发明实施公开了一种数据处理装置，包括：

获取模块，用于按照预设时间窗获取语音帧序列；

确定模块，用于确定所述语音帧序列的特征信息；

所述确定模块，用于根据所述特征信息确定第一层时间截断的自注意力网络的输入信息；

处理模块，用于针对任意一层时间截断的自注意力网络，将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络，以对所述语音识别模型进行训练，并得到训练后的语音识别模型。

第四方面，本发明实施公开了一种数据处理设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面所述的数据处理方法。

第五方面，本发明实施公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的数据处理方法。

第六方面，本发明实施公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的数据处理方法。

本发明实施例中，服务器按照预设时间窗获取语音帧序列并确定出语音帧序列的特征信息，根据该特征信息确定第一层时间截断的自注意力网络的输入信息，针对任意一层时间截断的自注意力网络，将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络，以对语音识别模型进行训练，并得到训练后的语音识别模型。通过上述实施例，将第一层时间截断的自注意力网络的输入信息输入到每一层时间截断的自注意力网络进行训练，从而可以减少在对语音识别模型训练过程中语音特征信息的丢失，提高语音识别模型的语音识别率。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例提供的一种语音识别的流程意图；

图2a是本发明实施例提供的一种时间截断的自注意力网络结构的示意图；

图2b是本发明实施例提供的一种改进的时间截断的自注意力网络结构的示意图；

图2c是本发明实施例提供的一种单头的自注意力计算步骤示意图；

图2d是本发明实施例提供的一种多头的自注意力计算步骤示意图；

图3是本发明实施例提供的一种数据处理方法的流程示意图；

图4是本发明实施例提供的另一种数据处理方法的流程示意图；

图5a是现有技术提供的一种多层时间截断的自注意力网络示意图；

图5b是本发明实施例提供的一种多层时间截断的自注意力网络示意图；

图5c是本发明实施例提供的另一种多层时间截断的自注意力网络示意图；

图6是本发明实施例提供的一种数据处理装置的结构示意图；

图7是本发明实施例提供的一种数据处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的语音识别等技术，具体通过如下实施例进行说明。

请参见图1，图1是本发明实施例提供的一种语音识别的流程意图，语音识别的流程可以拆分成四大部分：

1、前端处理：包括语音信号的降噪、声源定位、回声消除等技术。

2、声学模型：对语音信号到对应发音单元的映射关系进行建模。

3、语言模型和词典：对发音单元到汉字的映射关系进行建模。

4、解码器：结合声学模型、语言模型、词典，进行语音到文字的整个搜索过程。

在本发明实施中，按照预设时间窗从语音数据中截取语音信号，并对语音信号进行预处理，以得到对应的语音帧序列，即对应图1的声学前端处理。确定语音帧序列的特征信息并根据特征信息确定第一层时间截断的自注意力网络的输入信息，针对任意一层时间截断的自注意力网络，将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络，以对语音识别模型(对应图1中的声学模型)进行训练，并得到训练后的语音识别模型。

具体的，该语音识别服务可以应用到车联网语音交互、音箱、机器人等其他智能硬件。

请参见图2a，图2a为本发明实施例提供的一种时间截断的自注意力网络结构的示意图，如图所示：

传统的时间截断的自注意力网络结构(time-restricted self-attention，TRSA)是一种应用于流式语音识别声学建模的子注意机制，这种自注意力机制存在一定的局部性，即多层TRSA叠加的时候由于局部视野累计会导致当前帧对应的视野的信息丢失，本发明实施例提供的图2a的网络架构是对传统的TRSA进行了改进。

具体的，该网络结构包括整合处理层(可表示为append)、第一全连接层(可表示为Affine)、自注意力层(attention)、第一激活函数层(rectified linear unit，ReLu)和第一规范化层(layer norm，LN)。为了减少局部视野带来的信息丢失，在图2a的网络架构中，对输入信息进行了增加。传统的TRSA每一层的输入只有上一层TRSA的输出信息，本发明实施中每一层TRSA中的训练数据不仅包括上一层TRSA的输出信息，还包括第一层TRSA的输入信息。

进一步的，还可以对图2a的TRSA做进一步改进，如图2b所述，为本发明实施例提供的一种改进的时间截断的自注意力网络结构的示意图，在图2a中所示的时间截断的自注意力网络结构的基础上还包括连接在第一规范化层之后，且级联的第二全连接层、第二激活函数层、第二规范化层和正则化层(Dropout)。

可选地，图2b中的affine层，可以尝试使用蜂窝神经网络(Cellular NeuralNetwork，CNN)或者延时神经网络(Time Delay Neural Network，TDNN)网络结果来替换。

上述的第一全连接层是对融合信息进行综合分类，第二全连接层都是对经图2a处理后得到的输出信息进行综合分类，第一激活函数层、第二激活函数层第一规范化层、第二规范化层与正则化层都是对信息的规范化处理，避免数据出现过拟合等问题。

其中，需要注意的是时间截断的自注意力网络结构中自注意力层对数据的处理，该处理步骤是整个模型训练的核心部分，这里对单头的自注意力层的计算进行介绍，运用一个实例对其进行介绍，如图2c所示，为本发明实施例提供的一种单头的自注意力计算步骤示意图：

自注意力计算其实可以描述成一个查询(query)到一系列键值(键key-值value)对的映射。服务器在语音帧序列进行加窗，假设进行加窗后的语音帧序列的左长度为L，右长度为R，那么对应的在自注意力层中的帧序列包括[-L，R]，对应的query、key、value分别表示为q_t，v_t，k_t，对于到那头的自注意力计算公式为：

其中，c_t(τ)＝exp(q_t·k_τ)/_t，Z_t保证∑_τc_t(τ)＝1。

这里的L和R一般取值5和2，参与自注意力计算的总的输入帧数为5+2+1＝8帧。在本发明实施例中草用的是多头自注意力计算，如图2d所示，为本发明实施例提供的一种多头的自注意力计算步骤示意图。

如图2a所示，假设在第i+1层时间截断的自注意力网络的输入除了上一层时间截断的自注意力网络的输出x_i，还包括了第一层时间截断的自注意力网络的输入，这里把这个输入当成底层输入，为x₀，这样通过在每一层的时间截断的自注意力网络中加入对应的底层输入，便会在一定程度上减弱对输入信息加窗所带来的信息丢失的问题。

图2b是为了提升建模效果，在图2a的基础上加上了级联的第二全连接层、第二激活函数层、第二规范化层和正则化层。对训练后的输出信息进行进一步地规范化，在一定程度上提高了该模型的非线性能力。

将图2a与图2b对应的全连接层(Affine)与自注意力层(attention)合并成MultiHead来表示，则可得到图2a与图2b对应的网络架构分别可以表示为：

上述两个表达式是对于两个网络架构对输入数据的处理顺序的解释。

请参见图3，图3为本发明实施例提供的一种数据处理方法的流程图示意图，该方法应用于语音识别模型的训练，该语音识别模型包括多层时间截断的自注意力网络，该流程图具体包括如下步骤：

S301、服务器按照预设时间窗获取语音帧序列，并确定所述语音帧序列的特征信息。

在一种可能的实施例中，服务器按照预设时间窗获取语音帧序列，具体包括：服务器先是获取语音数据，由于语音数据是一串无限长的信号，因此，需要按照预设时间窗去获取一段语音信号。再对获取到的语音信号进行预处理，以得到对应的语音帧序列，上述的预处理属于对语音信号的前端处理，包括对语音信号的降噪、对语音信号的音源定位以及对语音信号的回音消除中的一种或者多种，一般情况下，这些预处理在语音识别过程中都是必要的，因为能进一步保证语音信号的质量。

进一步地，服务器还需要确定上述语音帧序列的特征信息，这里语音帧序列的特征信息具体包括功率归一化倒谱系数(Power-Normalized Cepstral Coefficients，PNCC)和身份认证矢量(identity-vector，i-vector)特征。利用PNCC算法对语音帧序列进行特征提取得到PNCC特征，PNCC特征相比于以往的梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)特征，测试出来的性能更好。其中，i-vector特征的得到：i-vector空间用一个低维的总变量空间来表示语音信号子空间和信道子空间，将语音信号降维投影到该空间，可得到一个固定长度的矢量表征(即i-vector)。

需要注意的是，预设时间窗，一般是用窗函数获取需要的语音信号，常用的窗函数有矩形窗、汉明窗和汉宁窗，其中窗函数中的各个参数需要根据不同的情况进行设置，可根据不同的情况选择不同的窗函数。

S302、服务器根据特征信息确定第一层时间截断的自注意力网络的输入信息。

上述步骤已描述出特征信息包括功率归一化倒谱系数特征和身份认证矢量特征，要根据特征信息确定第一层时间截断的自注意力网络的输入信息，还需要对包括功率归一化倒谱系数特征和身份认证矢量特征的特征信息进行线性判别分析(LinearDiscriminant Analysis，LDA)处理得到联合特征信息，经过LDA处理后能得到重要的特征信息，使得在进行训练时能更好的对其进行处理。将经LDA处理后得到的联合特征信息输入全连接网络进行处理，将经全连接网络处理后的输出信息作为第一层时间截断的自注意力网络的输入信息。

S303、针对任意一层时间截断的自注意力网络，服务器将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络，以对语音识别模型进行训练，并得到训练后的语音识别模型。

在一种可能的实施例中，针对第一层时间截断的自注意力网络，在这种情况下，输入信息为上述特征信息所确定出来的输入信息，此时的上一层间截断的自注意力网络的输出结果为空，则第一层时间截断的自注意力网络训练的就是该层的输入信息，并得到输出信息。

在一种可能的实施例中，针对非第一层的任一层时间截断的自注意力网络，在这种情况下，输入任一层时间截断的自注意力网络的输入信息包括上一层时间截断的自注意力网络的输出信息以及第一层时间截断的自注意力网络的输入信息，服务器利用时间截断的自注意力网络对这个信息进行语音识别模型的训练，直到完成最后一层时间截断的自注意力网络的训练，最后得到训练好的语音识别模型。其中，第一层时间截断的自注意力网络的输入信息就是步骤S301中根据语音帧序列确定出的特征信息，将该特征信息加入到任一层时间截断的自注意力网络中，可以有效减少在每一层时间截断的自注意力网络中训练特征信息的丢失。

图4为本发明实施例提供的另一种数据处理方法的流程图示意图，同样，该方法应用于语音识别模型的训练，该语音识别模型包括多层时间截断的自注意力网络，该流程图具体包括如下步骤：

S401、服务器按照预设时间窗从语音数据中截取语音信号，对语音信号进行预处理，以得到对应的语音帧序列，所述预处理包括降噪、音源定位以及回音消除中的一种或多种。

S402、服务器确定语音帧序列的特征信息。

S403、服务器根据特征信息确定第一层时间截断的自注意力网络的输入信息。

S404、针对任意一层时间截断的自注意力网络，服务器将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络，以对语音识别模型进行训练，并得到训练后的语音识别模型。

上述步骤S401～S404在步骤S301～S303已经进行了相关的阐述，这里便不再一一赘述了。

S405、服务器获取语音数据的验证集数据和/或测试集数据，将验证集数据或测试集数据输入训练后的语音识别模型，得到测验结果。

其中，服务器在获取语音数据的时候，可以相应地获取该语音数据所对应的验证集数据和/或测试集数据。服务器将验证集数据或测试集数据输入训练后的语音识别模型，得到测验结果。这两个数据集都是对训练好的语音识别模型进行测验，对语音识别模型的相关参数进行调整，以进一步提高语音识别模型的性能。

在一种可能的实施例中，服务器在获取语音数据的时候获取的是验证集数据，那么服务器就将该验证集数据输入训练后的语音识别模型进行验证，得到测验结果。

在一种可能的实施例中，服务器在获取语音数据的时候获取的是测试集数据，那么服务器就将该测试集数据输入训练后的语音识别模型进行测试，得到测验结果。

在一种可能的实施例中，服务器在获取语音数据的时候获取的是验证集数据和测试集数据，那么服务器就将该验证集数据和测试集数据分别输入训练后的语音识别模型进行测试，得到测验结果。

S406、服务器根据测验结果与对应的验证集数据或测试集数据之间的差异调整训练后的语音识别模型的网络参数。

在一种可能的实施例中，当只是得到验证集数据对应的测验结果时，则服务器根据该测验结果与对应的验证集数据之间的差异，对该语音识别模型的参数进行调整，从而找到验证集数据中对应的最优的语音识别模型的参数。

在一种可能的实施例中，当只是得到测试集数据对应的测验结果时，则服务器根据该测验结果与对应的测试集数据之间的差异，对该语音识别模型的参数进行调整，以达到对所述语音识别模型的优化。

在一种可能的实施例中，得到是验证集数据与测试集数据对应的测验结果时，则服务器根据该测验结果与对应的验证集数据和测试集数据之间的差异，分别对该语音识别模型的参数进行调整，以达到对所述语音识别模型的优化，提升语音识别模型的建模能力。

针对该实施例，举例说明，在具体的测验中，可以采用使用2000小时的语音数据对传统的多层时间截断的自注意力网络、图2a以及图2b的多层截断的自注意力网络进行训练。用于测验的传统的(现有技术提供的)多层时间截断的自注意力网络如图5a所示，图2a对应的用于测验的多层时间截断的自注意力网络如图5b所示，图2b对应的用于测验的多层时间截断的自注意力网络如图5c所示。图5a、图5b以及图5c中的时间截断的自注意力网络都有六层，分别用时间截断的自注意力网络1、时间截断的自注意力网络2、时间截断的自注意力网络3表示，这是因为三者的网络是有所不同的，仅用于区分。

对应的验证集和测试集分别有4998和6901条车载场景语音，如表1所示：

语音数据	验证集数据	测试集数据
			2000小时	4998条	6901条

表1

在测验中，对语音数据的训练使用的准则是最大互信息(Lattice-Free MaximumMutual Information，LF-MMI)准则，使用传统的梯度下降法进行训练。针对图5a、图5b以及图5c三种不同的网络，做了三组实验，每个网络的输入是40维的PNCC特征和200维的i-vector特征，输出对应5552个状态。

其中，最大互信息训练准则通过在神经网络输出层计算出来所有可能的标注序列，根据这些标注序列计算出相应的MMI信息和相关的梯度，然后通过梯度传播算法完成训练。LF-MMI训练准则能够在训练过程中直接计算所有可能路径的后验概率(PosteriorProbability)，省去了鉴别性训练前需要提前生成Lattice的麻烦。

同时，在测验中三种网络中的自注意力计算的参数都有统一的设置：

时间窗间隔设置成3(即time-stride＝3)，自注意力多头数量为12(即num-heads＝12)，键的维度为60(即value-dim＝60)，值的维度为40(即key-dim＝4)，时间窗的左边长度为5(即num-left-inputs＝5)，边长度为2(即num-right-inputs＝2)。

图5c对应的时间截断的是自注意力网络架构的第二全连接层的维度设置成2048，归一化层的比例系数设置成0.30。

将上述的验证集数据和测试集数据输入训练后的语音识别模型，得到测验结果如表2所示：

网络模型	验证集数据	测试集数据
			图5a	13.71	18.15
图5b	12.99	17.29
			图5c	11.83	15.65

表2

其中，测验结果中的数值是验证集数据以及测试集数据在训练后的语音识别模型中的进行测验得到的字错误率，其数值越小，表明该网络模型的建模能力越强。从测验结果，可以直观地看到图5b和图5c的网络模型的建模能力是优于图5a的网络模型的。

本发明实施例中，针对步骤S301～S303训练好的语音识别模型，进一步通过验证集数据以及测试集数据对该语音识别模型进行测验，并根据测验结果对语音识别模型的相关参数进行调整，以达到对语音识别模型的优化。

本发明实施例还提供了一种语音识别方法，其中，该方法用到的语音识别模型是根据本发明实施例提供的一种数据处理方法得到的，该方法主要包括以下步骤：

(1)、服务器获取待识别的语音数据。

该步骤具体是对应于图1所示的整个语音处理的流程来说的，这里的语音数据对应于图1中的原始语音数据，即通过输入设备输入的语音。

(2)、服务器利用语音识别模型对语音数据进行发音映射处理，以得到语音数据的发音数据，语音识别模型包括多层时间截断的自注意力网络，语音识别模型是通过针对任意一层时间截断的自注意力网络，将第一层时间截断的自注意力网络的输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络，以进行训练得到的。

当获取到语音数据后，就对该语音数据进行前端声学处理后得到待识别的语音数据，并利用训练好的语音识别模型对待识别的语音数据进行发音映射处理，以得到待识别的语音数据的发音数据。其中，语音识别模型包括多层时间截断的自注意力网络，语音识别模型是通过针对任意一层时间截断的自注意力网络，将第一层时间截断的自注意力网络的输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络，以进行训练得到的语音数据的发音数据的。

(3)、服务器利用语言模型和发音词典对发音数据进行识别处理，以得到语音数据对应的文本信息。

经过声学模型即训练好的语音识别模型处理得到待识别的语音数据的发音数据后，处理器将发音数据输入到语言模型以及发音词典进行进一步识别处理，以得到语音数据对应的文本信息。从而实现完整的语音识别过程。

本发明实施例中，主要是对整个语音识别过程进行阐述，服务器获取待识别的语音数据后，利用语音识别模型进行发音映射处理，以得到语音数据的发音数据，再利用语言模型和发音词典对发音数据进行识别处理，以得到语音数据对应的文本信息，从而达到对语音数据的完整识别，还利用语音数据对整个语音识别过程进行测试，以验证本发明实施例中的训练出来的语音识别模型所能达到的效果。

下面将结合附图6对本发明实施例提供的数据处理装置进行详细介绍。需要说明的是，附图6所示的数据处理装置，用于执行本发明图3-图4所示实施例的方法。

请参见图6，为本发明实施例提供的一种数据处理装置的结构示意图，数据处理装置60可包括：获取模块601、确定模块602、处理模块603，其中：

获取模块601，用于按照预设时间窗获取语音帧序列；

确定模块602，用于确定所述语音帧序列的特征信息；

所述确定模块602，用于根据所述特征信息确定第一层时间截断的自注意力网络的输入信息；

处理模块603，用于针对任意一层时间截断的自注意力网络，将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络，以对所述语音识别模型进行训练，并得到训练后的语音识别模型。

在一种可能的实施例中，所述特征信息包括功率归一化倒谱系数特征和身份认证矢量特征，所述确定模块602根据所述特征信息确定第一层时间截断的自注意力网络的输入信息，具体用于执行：

对所述功率归一化倒谱系数特征和所述身份认证矢量特征进行线性判别分析处理，得到融合信息；

将所述融合信息输入全连接网络进行处理，并将所述全连接网络的输出作为第一层时间截断的自注意力网络的输入信息。

在一种可能的实施例中，所述任意一层时间截断的自注意力网络包括级联的整合处理层、第一全连接层、自注意力层、第一激活函数层和第一规范化层。

在一种可能的实施例中，所述任意一层时间截断的自注意力网络还包括连接在所述第一规范化层之后，且级联的第二全连接层、第二激活函数层、第二规范化层和正则化层。

在一种可能的实施例中，所述获取模块601按照预设时间窗获取语音帧序列，具体用于执行：

按照预设时间窗从语音数据中截取语音信号；

对所述语音信号进行预处理，以得到对应的语音帧序列，所述预处理包括降噪、音源定位以及回音消除中的一种或多种。

在一种可能的实施例中，所述获取模块601，还用于获取所述语音数据的验证集数据和/或测试集数据；

所述处理模块603，还用于：

将所述验证集数据或所述测试集数据输入所述训练后的语音识别模型，得到测验结果；

根据所述测验结果与对应的所述验证集数据或所述测试集数据之间的差异调整所述训练后的语音识别模型的网络参数。

本发明实施例，获取模块601按照预设时间窗获取语音帧序列，确定模块601确定出语音帧序列的特征信息，并根据该特征信息确定第一层时间截断的自注意力网络的输入信息，处理模块603针对任意一层时间截断的自注意力网络，将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络，以对语音识别模型进行训练，并得到训练后的语音识别模型。通过上述实施例，将第一层时间截断的自注意力网络的输入信息输入到每一层时间截断的自注意力网络进行训练，从而可以减少在对语音识别模型训练过程中语音特征信息的丢失，提高语音识别模型的语音识别率。

请参见图7，为本发明实施例提供了一种数据处理设备的结构示意图。该数据处理设备可以是服务器。如图7所示，该数据处理设备包括：至少一个处理器701，输入设备703，输出设备704，存储器705，至少一个通信总线702。其中，通信总线702用于实现这些组件之间的连接通信。其中，输入设备703可以是控制面板或者麦克风等，输出设备704可以是显示屏等。其中，存储器405可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。其中处理器701可以结合图6所描述的装置，存储器705中存储一组程序代码，且处理器701，输入设备703，输出设备704调用存储器705中存储的程序代码，用于执行以下操作：

在一种可能的实施例中，所述特征信息包括功率归一化倒谱系数特征和身份认证矢量特征，所述处理器701根据所述特征信息确定第一层时间截断的自注意力网络的输入信息，具体包括：

在一种可能的实施例中，所述输入设备703按照预设时间窗获取语音帧序列，具体包括：

按照预设时间窗从语音数据中截取语音信号；

在一种可能的实施例中，所述输入设备703，还用于获取所述语音数据的验证集数据和/或测试集数据；

所述处理器701，还用于：

本发明实施例，处理器701按照预设时间窗获取语音帧序列，确定出语音帧序列的特征信息，并根据该特征信息确定第一层时间截断的自注意力网络的输入信息，针对任意一层时间截断的自注意力网络，将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络，以对语音识别模型进行训练，并得到训练后的语音识别模型。通过上述实施例，将第一层时间截断的自注意力网络的输入信息输入到每一层时间截断的自注意力网络进行训练，从而可以减少在对语音识别模型训练过程中语音特征信息的丢失，提高语音识别模型的语音识别率。

本发明实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述实施例中所执行的步骤。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述数据分析实施例中所执行的步骤。

应当理解，在本发明实施例中，所称处理器701可以是中央处理模块(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，所述方法应用于语音识别模型的训练，所述语音识别模型包括多层时间截断的自注意力网络，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述特征信息包括功率归一化倒谱系数特征和身份认证矢量特征，所述根据所述特征信息确定第一层时间截断的自注意力网络的输入信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述任意一层时间截断的自注意力网络包括级联的整合处理层、第一全连接层、自注意力层、第一激活函数层和第一规范化层。

4.根据权利要求3所述的方法，其特征在于，所述任意一层时间截断的自注意力网络还包括连接在所述第一规范化层之后，且级联的第二全连接层、第二激活函数层、第二规范化层和正则化层。

5.根据权利要求1所述的方法，其特征在于，所述按照预设时间窗获取语音帧序列，包括：

按照预设时间窗从语音数据中截取语音信号；

6.根据权利要求5所述的方法，其特征在于，所述方法包括：

获取所述语音数据的验证集数据和/或测试集数据；

7.一种语音识别方法，其特征在于，所述方法包括：

获取待识别的语音数据；

8.一种数据处理装置，其特征在于，所述装置应用于语音识别模型的训练，所述语音识别模型包括多层时间截断的自注意力网络，所述装置包括：

获取模块，用于按照预设时间窗获取语音帧序列；

确定模块，用于确定所述语音帧序列的特征信息；

9.一种数据处理设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的数据处理方法。