CN111383628B

CN111383628B - 一种声学模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN111383628B
Application number: CN202010159178.6A
Authority: CN
Inventors: 王靖淞; 涂威威
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-08-25
Anticipated expiration: 2040-03-09
Also published as: CN111383628A

Abstract

本公开实施例涉及一种声学模型的训练方法、装置、电子设备及存储介质。声学模型由神经网络模型训练得到。神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络。方法包括：获取语音数据；提取语音数据的特征得到多帧特征数据；基于多帧特征数据确定训练样本数据；基于训练样本数据训练多层第一神经网络和第二神经网络，得到声学模型；其中，至少一层第一神经网络的输出为带有权重的输出，权重为信道注意力，所述信道为每帧特征数据的维度。本公开实施例增加信道建模，在多层第一神经网络对时序特征提取的同时，至少一层第一神经网络的输出为带有信道注意力的输出，通过对每个信道的信息进行整合，增加声学模型整体效果。

Description

一种声学模型的训练方法、装置、电子设备及存储介质

技术领域

本公开实施例涉及语音识别技术领域，具体涉及一种声学模型的训练方法、装置、电子设备及存储介质。

背景技术

语音识别技术是机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。现有的语音识别模型由声学模型和语言模型合并得到，其中声学模型通过神经网络模型对语音信号进行特征提取并训练得到，训练方式例如为端到端的训练方式或HMM-DMM hybrid的训练方式等。现有的神经网络模型包含对时序特征建模的模型结构，比如tdnn，lstm等。本申请发明人发现：对于语音数据和语音特征，尤其在神经网络模型的底层，数据序列中的每一个向量中，各个维度代表着信号处理中的各个信道。在进行神经网络模型的设计以及训练的过程中，并没有针对各个信道做建模。

上述对问题的发现过程的描述，仅用于辅助理解本公开的技术方案，并不代表承认上述内容是现有技术。

发明内容

为了解决现有技术存在的至少一个问题，本公开的至少一个实施例提供了一种声学模型的训练方法、装置、电子设备及存储介质。

第一方面，本公开实施例提出一种声学模型的训练方法，所述声学模型由神经网络模型训练得到，所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络，所述方法包括：

获取语音数据；

提取所述语音数据的特征，得到多帧特征数据，其中，每帧特征数据包括多维度；

基于所述多帧特征数据确定训练样本数据；

基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络，得到声学模型；

其中，至少一层所述第一神经网络的输出为带有权重的输出，所述权重为信道注意力，所述信道为每帧特征数据的维度。

第二方面，本公开实施例提供一种声学模型的训练装置，所述声学模型由神经网络模型训练得到，所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络，所述装置包括：

获取模块，用于获取语音数据；

提取模块，用于提取所述语音数据的特征，得到多帧特征数据，其中，每帧特征数据包括多维度；

确定模块，用于基于所述多帧特征数据确定训练样本数据；

训练模块，用于基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络，得到声学模型；

第三方面，本公开实施例提出一种电子设备，包括：处理器和存储器；所述处理器通过调用所述存储器存储的程序或指令，用于执行如第一方面所述声学模型的训练方法的步骤。

第四方面，本公开实施例提出一种非暂态计算机可读存储介质，用于存储程序或指令，所述程序或指令使计算机执行如第一方面所述声学模型的训练方法的步骤。

可见，本公开的至少一个实施例中，增加信道建模，在多层第一神经网络对时序特征提取的同时，至少一层第一神经网络的输出为带有信道注意力的输出，通过对每个信道的信息进行整合，增加声学模型整体效果。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是一种DNN-HMM语音识别框架下语音识别模型的示例性训练框图；

图2是一种对齐标注流程示例图；

图3是另一种DNN-HMM语音识别框架下语音识别模型的示例性训练框图；

图4是一种解码模块的示例性架构图；

图5是一种DNN模型的示例性架构图；

图6是一种TDNN网络中数据的示例性转换图；

图7是一种一帧特征数据每个维度的信息量统计示意图；

图8是本公开实施例提供的一种声学模型的训练装置架构图；

图9是一种信道注意力机制的示例性流程；

图10是本公开实施例提供的一种第一神经网络中数据的示例性转换图；

图11是本公开实施例提供的另一种第一神经网络中数据的示例性转换图；

图12是本公开实施例提供的一种电子设备的示例性架构图；

图13是本公开实施例提供的一种声学模型的训练方法的示例性流程图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。基于所描述的本公开的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为一种DNN-HMM语音识别框架下语音识别模型的训练过程，包括三部分：特征提取、对齐标注和神经网络训练，其中，虚线框部分即为对齐标注，对齐标注的目的在于将输入的语音数据与状态信息进行对齐，其中状态信息可以理解为发音所对应的状态，不同发音对应的状态不同，例如语音数据为“今天天气不错”，经过对齐标注后，“今天”与第一状态信息对齐，“天气”与第二状态信息对齐，“不错”与第三状态信息对齐，本领域人员可以理解，还可以进行更细粒度的对齐，例如将“今”、“天”、“天”、“气”、“不”、“错”分别进行状态信息对齐；还可以进行更粗粒度的对齐，例如将“今天天气”、“不错”分别进行状态信息对齐。在一些实施例中，状态信息可以为状态编号，例如状态编号43对应“今天”，而状态编号87对应“天气”。

图1中，对齐标注通过多轮的、多种特征变换和对齐标注训练来完成。对齐标注结束后得到确定的输入和输出，输入为语音数据，输出为状态信息。神经网络训练基于输入和输出进行，神经网络训练结束后得到神经网络模型，也即声学模型；进而结合声学模型和语言模型得到最终模型即为语音识别模型。

图2为一种对齐标注流程示例图，可应用与图1所示的对齐标注。如图2所示，特征工程可以理解为图1中特征抽取，图2中每个黑色框表示对齐标注流程的一个步骤，也可理解为一轮“特征变换及对齐标注训练”，也即每个黑色框表示一轮“特征变换及对齐标注训练”。Mono、Delta、lda+m1lt、sat1、sat2表示特征变换的方式，其中，sat1和sat2表示相同的特征变换方式，但是参数(如叶子节点数)不同；10％、30％表示训练数据量，没有标注百分号则使用全量数据进行训练。

图3为另一种DNN-HMM语音识别框架下语音识别模型的训练过程，包括两个部分：特征提取和对齐标注。其中，对齐标注训练会生成与图1中神经网络训练所得模型功能相近的模型(Gmm-Hmm模型)，对齐标注训练所得模型和语言模型合并得到最终模型即语音识别模型。其中，对齐标注训练生成的模型(Gmm-Hmm模型)可以替换为图1中神经网络训练所得模型(神经网络模型)，提升语音识别效果，具体地，通过对齐标注训练生成Gmm-Hmm模型，得到特定的输入与输出，输入为语音数据，输出为状态信息，神经网络训练基于输入和输出进行，神经网络训练结束后得到神经网络模型，从而使用神经网络模型替换Gmm-Hmm模型。

图4为一种解码模块的示例性架构图，如图4所示，解码模块可基于声学模型得到解码模型。在一些实施例中，解码模块将声学模型、语言模型以及其他的词表等文件合成解码模型。在一些实施例中，解码模块可得到声学模型的评价指标值。在一些实施例中，解码模块基于合成的解码模型对测试数据进行解码预测，得到声学模型的评价指标值：CER(词错误率)指标值，用于衡量声学模型的效果。其中，测试数据来源于语音数据。在一些实施例中，解码模块可应用于图1和图3所示的语音识别场景，将声学模型和语言模型合并为语音识别模型。

不论是图1和图3所示的DNN-HMM语音识别框架下语音识别模型的训练过程，还是端到端的语音识别模型训练过程，均会涉及对时序数据的处理，例如图1中的特征抽取，将时序的语音数据转换为频率域数据，得到MFCC(Mel Frequency Cepstrum Coefficient，Mel频率倒谱系数)特征。图1中，MFCC特征作为输入进行对齐标注训练，得到用于训练神经网络模型的输入和输出。其中，神经网络模型可以为DNN模型。

图5为一种DNN模型的示例性架构图。如图5所示，DNN模型包括用于时序处理的四层TDNN网络：TDNN1、TDNN2、TDNN3和TDNN4；DNN模型还包括用于输出状态的MLP(MultilayerPerceptron，多层感知机)网络。INPUT为DNN模型的输入，也即对齐标注训练得到的输入。图5中INPUT为二维数据，经过每一层TDNN网络后仍为二维数据，若将二维数据的一列看做一帧，则每帧的维度相同。INPUT经过四层TDNN网络后进行flatten操作，变为一维数据输入MLP网络，MLP网络的输出为OUTPUT，也即DNN模型的输出。OUTPUT为状态编号，例如，状态编号43对应“今天”，而状态编号87对应“天气”。

图6是一种TDNN网络中数据的示例性转换图，可应用于图5所示的场景，在图6中，L1层的数据(可以理解为图5中的INPUT)经过一层TDNN网络(可以理解为图5中的TDNN1)的映射之后，得到L2层的数据(可以理解为图5中TDNN的输入数据)。其中每列(t1，t2，…)表示每一帧，因此L1层的每一帧都是一个8维的向量，一共有10帧。而L2层的第一帧通过L1层中第一帧和之后两帧的信息共同得到，之后的每一帧同理。可见，L2层的每一帧都是通过L1层中当前帧和之后两帧的信息共同得到，可以理解为L1层到L2层的映射需要5×8×3个参数，且L2层所有帧的映射所用参数相同，也即L1层到L2层之间的映射总参数数量(不包括偏置)为5×8×3个。

本申请发明人发现：在一些实施例中，例如一段一秒的音频，采样率是16kHz，也即有16000个数据点，若25ms的时间窗以10ms的间隔进行滑动，将每个时间窗内的数据做13维的MFCC特征的输出，可得到一个约1600×13的矩阵，本实施例中将MFCC特征的输出认为是1600帧，每一帧特征数据有13维，每个维度可以看做是对一定频率内信息量的统计，图7为一帧特征数据每个维度的信息量统计示意图。因此，本实施例中将一帧特征数据认为是13个信道的数据，而传统的语音转换不会这样看待特征数据。本公开其他实施例中正是基于将一帧特征数据认为是多个信道的数据而对神经网络模型进行改进。

本公开实施例提供了一种声学模型的训练方法、电子设备及存储介质，增加信道建模，在多层第一神经网络(例如TDNN网络或其他时序处理的网络)对时序特征提取的同时，至少一层第一神经网络的输出为带有信道注意力的输出，通过对每个信道的信息进行整合，增加声学模型整体效果，可以应用于具有DNN-HMM语音识别框架的电子设备，也可以应用于任意具有时序处理流程的语音识别框架的电子设备，还可以应用于任意具有时序处理流程的神经网络架构中。所述电子设备可以为智能手机、平板电脑、智能运动装备(例如智能手环、运动手表)等便携式设备，也可以为台式计算机、智能家电(例如智能电视等)、服务器(云服务器、分布式服务器、集中式服务器)等固定式设备，还可以为电子设备、公共基础设备(例如智能电子公告牌、智能交通设施)等。在一些实施例中，电子设备可以应用到不同领域，例如交通领域、安防领域、教育领域、互联网领域等可以通过语音交互的领域。应当理解的是，本申请的方法的应用场景仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以将本申请应用于其他类似情景。

图8为本公开实施例提供的一种声学模型的训练装置示例性架构图，所述声学模型由神经网络模型训练得到，所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络。在一些实施例中，所述神经网络模型可以为DNN模型，第一神经网络至少包括TDNN网络、RNN(LSTM、GRU)网络或其他时序处理的网络，第二神经网络为MLP网络。在一些实施例中，图8所示的训练装置800可以应用于图1和图3所示的场景，以及应用于任意具有时序处理流程的神经网络模型训练场景。

如图8所示，声学模型的训练装置800包括：获取模块801、提取模块802、确定模块803、训练模块804以及其他用于声学模型训练的模块。

获取模块801，用于获取语音数据。其中，语音数据包括但不限于用户自己录制、开源以及购买的原始语音数据。在一些实施例中，所述语音数据为原始语音数据经过预处理和数据增强后得到的语音数据。其中，预处理包括但不限于：将语音数据格式统一，得到规整的语音和文本对应的数据形式。数据增强包括但不限于：通过速度扰动、音量扰动以及加噪声等方式扩展音频数据量，为神经网络模型训练做准备。

提取模块802，用于提取(或抽取)语音数据的特征，得到多帧特征数据，其中，每帧特征数据包括多维度。在一些实施例中，提取模块802对语音数据进行采样，得到多个采样数据；基于预设时间窗，以预设时间间隔滑动，对每个时间窗内的所有采样数据进行特征提取。其中，特征提取的方式可以为MFCC、PLP、FBK或其他方式，且一个时间窗对应一帧。例如，一段一秒的音频，采样率是16kHz，也即有16000个数据点，若25ms的时间窗以10ms的间隔进行滑动，将每个时间窗内的数据做13维的MFCC特征的输出，可得到一个约1600×13的矩阵，本实施例中将MFCC特征的输出认为是1600帧，每一帧特征数据有13维。

确定模块803，用于基于多帧特征数据确定训练样本数据。在一些实施例中，若训练场景为端到端训练，则可沿用现有端到端训练方式，从多帧特征数据确定训练样本数据，作为神经网络模型的训练数据。在一些实施例中，若训练场景为HMM-DNN训练，则可基于多帧特征数据对语音数据进行对齐标注训练，得到对齐标注结果，进而基于对齐标注结果确定训练样本数据。例如，基于对齐标注结果可确定输入的特征数据及标注的状态，将输入的特征数据及标注的状态作为训练样本数据。

训练模块804，用于基于训练样本数据训练多层第一神经网络和第二神经网络，得到声学模型；其中，至少一层所述第一神经网络的输出为带有权重的输出，所述权重为信道注意力，所述信道为每帧特征数据的维度。在一些实施例中，第一神经网络至少包括用于时序处理的网络，且至少一层第一神经网络由用于时序处理的网络和信道注意力机制层构成。

目前信道注意力机制的示例性流程如图9所示，图9中X进行卷积操作(F_tr)后得到U，C为channel(信道)数，每个channel的维度是H×W。对每一层channel进行池化操作(例如average pooling或其他池化操作)，即图9中的F_sq，得到一个维度为C的向量(1x1xC)，将该C维向量通过两层神经网络，即图9中的F_ex，(SE操作：两层神经网络先压缩维度再将维度扩大为C维，所得向量可以视为每一层channel的权重，即attention)，得到C维的attention权重，进而由C维的attention权重与U相乘，可得到带权重的完成从X到/>的变换。其中，channel attention部分就是从U到/>的部分。

在一些实施例中，训练模块804将训练样本数据输入第一层第一神经网络；并且将至少一层第一神经网络的原始输出进行权重计算，得到带有权重的输出；进而将最后一层第一神经网络的输出转换为一维数据；从而将一维数据输入第二神经网络，实现对多层第一神经网络和第二神经网络的训练。

在一些实施例中，训练模块804增加信道建模，以维度为信道，进而计算信道注意力。在一些实施例中，训练模块804对于至少一层第一神经网络，以第一神经网络的原始输出的每一帧的维度为信道，将原始输出的每个信道的数据进行池化处理，得到信道向量。在一些实施例中，训练模块804将原始输出的所有帧在同一信道的数据进行池化处理，得到所述原始输出对应的信道向量；相应地，信道注意力为全局注意力。在一些实施例中，若原始输出的帧数较多，训练模块804可增加本附加设置，即通过滑动窗的形式，对数据进行局部注意力计算，具体地，训练模块804将原始输出的每帧周围预设帧在每个信道的数据进行池化处理，在一些实施例中，每帧周围预设帧的数量(也即滑动窗的范围)大于下一层第一神经网络的帧提取范围，进而得到所述原始输出的每帧对应的信道向量；相应地，信道注意力为局部注意力。在一些实施例中，训练模块804基于信道向量计算信道注意力；从而基于信道注意力和原始输出，得到第一神经网络的带有权重的输出，其中，权重为信道注意力。

在一些实施例中，至少一层第一神经网络由TDNN网络和信道注意力机制层构成，图10为本公开实施例提供的一种第一神经网络中数据的示例性转换图，图10中左侧的L1层、L2层和L3层的数据转换过程类似于图6所示的TDNN网络中数据的示例性转换，不再赘述。图10中右侧的L2层到L3层的数据转换过程为第一神经网络中数据的转换过程，L2层channel的维度为5，通过平均池化可得到维度为5的向量，在通过两层神经网络的SE操作，得到L2层的channel attention。再将channel attention应用到L2层的数据，得到L2’层，L2’层到L3层的数据转换过程类似于图6所示的TDNN网络中数据的示例性转换，不再赘述。

需要说明的是，正常的TDNN网络(即未增加信道注意力层的TDNN网络)或其他时序处理网络，在进行隐层映射的过程中，下一层的每一个节点包含了对上一层每个节点的权重的判断。但是，由于在TDNN网络中应用的channel attention可以容纳更多帧的信息，并且因为channel attention的机制，能够对每一个channel的信息进行合理的压缩，所以增加声学模型整体效果。

图11为本公开实施例提供的另一种第一神经网络中数据的示例性转换图。图11与图10的区别在于，图10计算的是全局注意力，而图11计算的是局部注意力。图11中，L2层channel的维度为5，将L2层的每帧周围预设帧(图11中为当前帧的前后各3帧)在每个信道的数据进行池化处理，其中，每帧周围预设帧的数量(也即滑动窗的范围)大于下一层第一神经网络的帧提取范围，例如，L3层提取3帧，则L2层的每帧周围预设帧的数量大于3，也即滑动窗大于3，图11中滑动窗(如虚线框所示)共7帧，超出部分补零，例如第一帧左侧三帧补零，进而得到每帧对应的信道向量。图11中根据滑动窗生成的多个attention应用在L2层，得到L2’层。L2’层到L3层的数据转换过程类似于图6所示的TDNN网络中数据的示例性转换，不再赘述。

在一些实施例中，声学模型的训练装置800还可包括图8中未示出的数据与模型准备模块以及解码模块。数据与模型准备模块，用于对语音数据进行预处理和数据增强，所得数据供其他模块使用。在一些实施例中，预处理包括但不限于：将语音数据格式统一，得到规整的语音和文本对应的数据形式。例如，预处理为：将所有的语音转成单声道、16KHz的wav文件，并且控制每个音频片段在3s到20s之间，每个音频有对应的文本标注，即音频中说的内容。在一些实施例中，数据增强包括但不限于：通过速度扰动、音量扰动以及加噪声等方式扩展音频数据量，为神经网络模型训练做准备。在一些实施例中，数据与模型准备模块可训练语言模型，供后续模型拼合使用。在一些实施例中，数据与模型准备模块基于现有文本或结合文本语料之外的文本训练语言模型。

在一些实施例中，声学模型的训练装置示中各模块的划分仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如获取模块801、提取模块802、确定模块803和训练模块804中的至少两个模块可以实现为一个模块；获取模块801、提取模块802、确定模块803或训练模块804也可以划分为多个子模块。可以理解的是，各个模块或子模块能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

图12是本公开实施例提供的一种电子设备的结构示意图。如图12所示，电子设备包括：至少一个处理器1201、至少一个存储器1202和至少一个通信接口1203。电子设备中的各个组件通过总线系统1204耦合在一起。通信接口1203，用于与外部设备之间的信息传输。可理解地，总线系统1204用于实现这些组件之间的连接通信。总线系统1204除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图12中将各种总线都标为总线系统1204。

可以理解，本实施例中的存储器1202可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器1202存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例提供的声学模型的训练方法的程序可以包含在应用程序中。

在本公开实施例中，处理器1201通过调用存储器1202存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器1201用于执行本公开实施例提供的声学模型的训练方法各实施例的步骤。

本公开实施例提供的声学模型的训练方法可以应用于处理器1201中，或者由处理器1201实现。处理器1201可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1201中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1201可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开实施例提供的声学模型的训练方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1202，处理器1201读取存储器1202中的信息，结合其硬件完成方法的步骤。

图13为本公开实施例提供的一种声学模型的训练方法的示例性流程图，其中，所述声学模型由神经网络模型训练得到，所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络。在一些实施例中，所述神经网络模型可以为DNN模型，第一神经网络至少包括TDNN网络、RNN(LSTM、GRU)网络或其他时序处理的网络，第二神经网络为MLP网络。该方法的执行主体为电子设备。为便于描述，以下实施例中以电子设备为执行主体说明声学模型的训练方法的流程。

如图13所示，在步骤1301中，电子设备获取语音数据。其中，语音数据包括但不限于用户自己录制、开源以及购买的原始语音数据。在一些实施例中，所述语音数据为原始语音数据经过预处理和数据增强后得到的语音数据。其中，预处理包括但不限于：将语音数据格式统一，得到规整的语音和文本对应的数据形式。数据增强包括但不限于：通过速度扰动、音量扰动以及加噪声等方式扩展音频数据量，为神经网络模型训练做准备。

在步骤1302中，电子设备提取所述语音数据的特征，得到多帧特征数据，其中，每帧特征数据包括多维度。在一些实施例中，电子设备对语音数据进行采样，得到多个采样数据；基于预设时间窗，以预设时间间隔滑动，对每个时间窗内的所有采样数据进行特征提取。其中，特征提取的方式可以为MFCC、PLP、FBK或其他方式，且一个时间窗对应一帧。例如，一段一秒的音频，采样率是16kHz，也即有16000个数据点，若25ms的时间窗以10ms的间隔进行滑动，将每个时间窗内的数据做13维的MFCC特征的输出，可得到一个约1600×13的矩阵，本实施例中将MFCC特征的输出认为是1600帧，每一帧特征数据有13维。

在步骤1303中，电子设备基于所述多帧特征数据确定训练样本数据。在一些实施例中，若训练场景为端到端训练，则可沿用现有端到端训练方式，从多帧特征数据确定训练样本数据，作为神经网络模型的训练数据。在一些实施例中，若训练场景为HMM-DNN训练，则可基于多帧特征数据对语音数据进行对齐标注训练，得到对齐标注结果，进而基于对齐标注结果确定训练样本数据。例如，基于对齐标注结果可确定输入的特征数据及标注的状态，将输入的特征数据及标注的状态作为训练样本数据。

在步骤1304中，电子设备基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络，得到声学模型；其中，至少一层所述第一神经网络的输出为带有权重的输出，所述权重为信道注意力，所述信道为每帧特征数据的维度。在一些实施例中，在一些实施例中，第一神经网络至少包括用于时序处理的网络，且至少一层第一神经网络由用于时序处理的网络和信道注意力机制层构成。

在一些实施例中，电子设备将训练样本数据输入第一层第一神经网络；并且将至少一层第一神经网络的原始输出进行权重计算，得到带有权重的输出；进而将最后一层第一神经网络的输出转换为一维数据；从而将一维数据输入第二神经网络，实现对多层第一神经网络和第二神经网络的训练。

在一些实施例中，电子设备增加信道建模，以维度为信道，进而计算信道注意力。在一些实施例中，电子设备对于至少一层第一神经网络，以第一神经网络的原始输出的每一帧的维度为信道，将原始输出的每个信道的数据进行池化处理，得到信道向量。在一些实施例中，电子设备将原始输出的所有帧在同一信道的数据进行池化处理，得到所述原始输出对应的信道向量；相应地，信道注意力为全局注意力。在一些实施例中，若原始输出的帧数较多，电子设备可增加本附加设置，即通过滑动窗的形式，对数据进行局部注意力计算，具体地，电子设备将原始输出的每帧周围预设帧在每个信道的数据进行池化处理，在一些实施例中，每帧周围预设帧的数量(也即滑动窗的范围)大于下一层第一神经网络的帧提取范围，进而得到所述原始输出的每帧对应的信道向量；相应地，信道注意力为局部注意力。在一些实施例中，电子设备基于信道向量计算信道注意力；从而基于信道注意力和原始输出，得到第一神经网络的带有权重的输出，其中，权重为信道注意力。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员能够理解，本公开实施例并不受所描述的动作顺序的限制，因为依据本公开实施例，某些步骤可以采用其他顺序或者同时进行。另外，本领域技术人员能够理解，说明书中所描述的实施例均属于可选实施例。

本公开实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如声学模型的训练方法各实施例的步骤，为避免重复描述，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本公开的实施方式，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种声学模型的训练方法，其特征在于，所述声学模型由神经网络模型训练得到，所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络，所述方法包括：

获取语音数据；

基于所述多帧特征数据确定训练样本数据；

基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络，得到声学模型，包括：将所述训练样本数据输入第一层第一神经网络；将至少一层第一神经网络的原始输出进行权重计算，得到带有权重的输出；将最后一层第一神经网络的输出转换为一维数据；将所述一维数据输入所述第二神经网络；

2.根据权利要求1所述的方法，其特征在于，提取所述语音数据的特征包括：

对所述语音数据进行采样，得到多个采样数据；

基于预设时间窗，以预设时间间隔滑动，对每个时间窗内的所有采样数据进行特征提取。

3.根据权利要求1所述的方法，其特征在于，基于所述多帧特征数据确定训练样本数据包括：

基于所述多帧特征数据对所述语音数据进行对齐标注训练，得到对齐标注结果；

基于所述对齐标注结果确定训练样本数据。

4.根据权利要求1所述的方法，其特征在于，将至少一层第一神经网络的原始输出进行权重计算，得到带有权重的输出包括：

以所述原始输出的每一帧的维度为信道，将所述原始输出的每个信道的数据进行池化处理，得到信道向量；

基于所述信道向量计算信道注意力；

基于所述信道注意力和所述原始输出，得到带有权重的输出。

5.根据权利要求4所述的方法，其特征在于，将所述原始输出的每个信道的数据进行池化处理包括：

将所述原始输出的所有帧在同一信道的数据进行池化处理，得到所述原始输出对应的信道向量；相应地，所述信道注意力为全局注意力。

6.根据权利要求4所述的方法，其特征在于，将所述原始输出的每个信道的数据进行池化处理包括：

将所述原始输出的每帧周围预设帧在每个信道的数据进行池化处理，得到所述原始输出的每帧对应的信道向量；相应地，所述信道注意力为局部注意力。

7.根据权利要求6所述的方法，其特征在于，所述每帧周围预设帧的数量大于下一层第一神经网络的帧提取范围。

8.一种声学模型的训练装置，其特征在于，所述声学模型由神经网络模型训练得到，所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络，所述装置包括：

获取模块，用于获取语音数据；

确定模块，用于基于所述多帧特征数据确定训练样本数据；

训练模块，用于基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络，得到声学模型，包括：将所述训练样本数据输入第一层第一神经网络；将至少一层第一神经网络的原始输出进行权重计算，得到带有权重的输出；将最后一层第一神经网络的输出转换为一维数据；将所述一维数据输入所述第二神经网络；

9.根据权利要求8所述的装置，其特征在于，所述提取模块，具体用于：

对所述语音数据进行采样，得到多个采样数据；

10.根据权利要求8所述的装置，其特征在于，所述确定模块，具体用于：

基于所述对齐标注结果确定训练样本数据。

11.根据权利要求8所述的装置，其特征在于，所述训练模块将至少一层第一神经网络的原始输出进行权重计算，得到带有权重的输出包括：

基于所述信道向量计算信道注意力；

12.根据权利要求11所述的装置，其特征在于，所述训练模块将所述原始输出的每个信道的数据进行池化处理包括：

13.根据权利要求11所述的装置，其特征在于，所述训练模块将所述原始输出的每个信道的数据进行池化处理包括：

14.根据权利要求13所述的装置，其特征在于，所述每帧周围预设帧的数量大于下一层第一神经网络的帧提取范围。

15.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至7任一项所述方法的步骤。

16.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令在被计算机执行时促使计算机执行如权利要求1至7任一项所述方法的步骤。