CN110930996B

CN110930996B - 模型训练方法、语音识别方法、装置、存储介质及设备

Info

Publication number: CN110930996B
Application number: CN201911267662.4A
Authority: CN
Inventors: 唐浩雨
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-10-31
Anticipated expiration: 2039-12-11
Also published as: CN110930996A

Abstract

本发明实施例公开了模型训练方法、语音识别方法、装置、存储介质及设备。模型训练方法包括：将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中，得到当前采样时刻对应的至少两个第一损失函数，分别确定至少两个第一损失函数相对于上一个采样时刻的变化程度信息，根据变化程度信息确定至少两个第一损失函数分别对应的权重，并基于第一损失函数与权重计算拟合损失函数，利用拟合损失函数对第一声学神经网络模型进行反向传播。本发明实施例提供的技术方案，可以动态地调节各损失函数对应的权重，使得训练后得到的模型更加准确，在进行语音识别时，能够更加准确地识别出语音信息中包含的语音内容，且能够提升语音内容的识别率。

Description

模型训练方法、语音识别方法、装置、存储介质及设备

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及声学神经网络模型的训练方法、语音识别方法、装置、存储介质及设备。

背景技术

随着人工智能技术的快速发展，人工神经网络得到了广泛的应用。人工神经网络又称神经网络，是一种模拟大脑神经突触联接的结构进行信息处理的模型。在语音识别领域，利用神经网络技术可以构建用于语音识别的声学神经网络模型，相比于传统的混合高斯模型以及隐马尔科夫模型等，具有很多优势。目前，声学神经网络模型的训练方案仍不够完善，需要改进。

发明内容

本发明实施例提供了声学神经网络模型的训练方法、语音识别方法、装置、存储介质及设备，可以优化现有的声学神经网络模型的训练方案。

第一方面，本发明实施例提供了一种声学神经网络模型的训练方法，该方法包括：

将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中，得到所述当前采样时刻对应的至少两个第一损失函数；

分别确定所述至少两个第一损失函数相对于上一个采样时刻的变化程度信息；

根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，并基于所述至少两个第一损失函数与对应的权重计算拟合损失函数；

利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对所述第一声学神经网络模型的训练。

第二方面，本发明实施例提供了一种语音识别方法，该方法包括：

获取待识别的语音信息；

将所述语音信息输入至预设声学神经网络模型中，其中，所述预设声学神经网络模型采用本发明实施例提供的声学神经网络模型的训练方法训练得到；

根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别。

第三方面，本发明实施例提供了一种声学神经网络模型的训练装置，该装置包括：

训练样本输入模块，用于将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中，得到所述当前采样时刻对应的至少两个第一损失函数；

变化程度确定模块，用于分别确定所述至少两个第一损失函数相对于上一个采样时刻的变化程度信息；

拟合损失函数计算模块，用于根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，并基于所述至少两个第一损失函数与对应的权重计算拟合损失函数；

模型训练模块，用于利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对所述第一声学神经网络模型的训练。

第四方面，本发明实施例提供了一种语音识别装置，该装置包括：

语音信息获取模块，用于获取待识别的语音信息；

语音信息输入模块，用于将所述语音信息输入至预设声学神经网络模型中，其中，所述预设声学神经网络模型采用本发明实施例提供的声学神经网络模型的训练方法训练得到；

语音内容识别模块，用于根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别。

第五方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的方法。

第六方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例提供的方法。

本发明实施例中提供的声学神经网络模型的训练方案，将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中，得到当前采样时刻对应的至少两个第一损失函数，分别确定至少两个第一损失函数相对于上一个采样时刻的变化程度信息，根据变化程度信息确定至少两个第一损失函数分别对应的权重，并基于至少两个第一损失函数和对应的权重计算拟合损失函数，利用拟合损失函数对第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对第一声学神经网络模型的训练。通过采用上述技术方案，在对声学神经网络模型进行反向传播之前，可以动态地调节各损失函数对应的权重，使得训练后得到的模型更加准确，在采用所得到的模型进行语音识别时，能够更加准确地识别出语音信息中包含的语音内容，且能够提升语音内容的识别率。

附图说明

图1为本发明实施例提供的一种声学神经网络模型的训练方法的流程示意图；

图2为本发明实施例提供的一种声学神经网络模型的结构示意图；

图3为本发明实施例提供的又一种声学神经网络模型的训练方法的流程示意图；

图4为本发明实施例提供的一种语音识别方法的流程示意图；

图5为本发明实施例提供的一种声学神经网络模型的训练装置的结构框图；

图6为本发明实施例提供的一种语音识别装置的结构框图；

图7为本发明实施例提供的一种计算机设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1为本发明实施例提供的一种声学神经网络模型的训练方法的流程示意图，该方法可以由声学神经网络模型的训练装置执行，其中该装置可由软件和/或硬件实现，一般可集成在计算机设备中。如图1所示，该方法包括：

步骤101、将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中，得到所述当前采样时刻对应的至少两个第一损失函数。

示例性的，声学神经网络模型一般为端到端的多任务深度神经网络模型，在模型训练的过程中，涉及到多个损失函数。

以较为常见的基于编码-注意力-解码结构(encoder-attention-decoder)构建的声学神经网络模型为例，一般包含连接时序分类(Connectionist TemporalClassification，CTC)损失函数(CTC-Loss)和注意力(attention，ATT)损失函数(ATT-Loss)。其中，CTC-Loss是encoder-attention-decoder结构中，encoder输出的预测数据与标注数据用Connectionist Temporal Classification比对得出的损失函数；ATT-Loss是encoder-attention-decoder结构中，decoder输出的预测数据与标注数据比对得出的损失函数。

下面以基于编码-注意力-解码结构构建的声学神经网络模型为例，对损失函数的计算过程进行示意性介绍，需要说明的是，本发明实施例也可以采用其他类型的声学神经网络模型。图2为本发明实施例提供的一种声学神经网络模型的结构示意图，如图2所示，其中O_n(图中此处举例的n的取值分别为1到8)为输入的语音信号，Encoder(编码)中的方块表征Encoder的深度神经网络，之后输出的为隐含特征h_n(图中此处举例的n的取值分别为1到4)，这个隐含特征可以作为CTC算法的输入，进行计算CTC损失函数和识别出来的文字y_n(图中此处举例的n的取值分别为1到2)。隐含特征也可以作为Attention-decoder(注意力-解码)的输入，首先根据所有的隐含层输出h_n通过attention神经网络(如图中H方框所示)计算出一个注意力权重(attention weight)a_m,n，具体可利用如下公式计算：

a_m,n＝attention(h_1-n,s_m-1)

其中s_m-1为attention-decoder中的一个状态量。

然后根据这个attention weight更新各个隐含特征h_n到加权隐含特征c_n(图中此处举例的n的取值分别为1到4)，记为加权隐含特征结合decoder中的状态量s_n(图中此处举例的n的取值分别为0到3)计算出需要的文字y_n同时更新状态量s_n：

y_n＝Generate(c_n,s_n-1)

s_n＝Recurrency(s_n-1,c_n,y_n)

公式中的Generate和Recurrency都是attention-decoder神经网络的一部分。其中，Generate为产生文字的后验概率的函数，Recurrency为状态量更新函数。这个状态量s_n-1也会去更新注意力权重a_m,n，如上文所示。最后decoder计算出来的文字y_n也用来计算ATT损失函数。

根据这个计算结构的传输特点可以得到，一般具有两个损失函数：ATT损失函数(可记为loss_att)和CTC损失函数(可记为loss_ctc)，在对声学神经网络模型进行反向传播时，需要使用一个损失函数，那么就需要对这两个损失函数进行拟合，然后基于拟合后的函数进行反向传播。相关技术中，使用设定好的参数进行静态加和，例如采用如下公式进行：

loss＝ωloss_att+(1-ω)loss_ctc

其中，ω为一个范围在0到1之间的固定权重参数，调节这个权重，代表着损失函数不同的占比，这个参数需要在模型训练之前指定，这样需要花费大量的时间去调节这个参数达到最优效果，导致模型训练效率低下，并且，在整个训练模型的过程中，损失函数的加和权重不变，不够灵活，模型准确率低。

本发明实施例中，可以针对每个采样时刻动态地计算对应的拟合损失函数。在模型训练过程中，可以边采样边训练，也可以在采样结束后再进行训练，本发明实施例中的当前采样时刻对应于第一语音训练样本的采集时刻，并不限定于当前的时刻。第一声学神经网络模型可以理解为训练过程中的中间模型，可以由预设的初始声学神经网络模型训练得到，初始声学神经网络模型可以根据实际需求进行设置。第一语音训练样本的具体来源不做限定，例如可以来源于视频直播应用程序。

在将第一语音训练样本输入至第一声学神经网络模型中后，第一声学神经网络模型会计算得到至少两个损失函数，此处称为第一损失函数，与当前采样时刻相对应。以编码-注意力-解码结构为例，假设当前采样时刻为t，则可以得到至少两个第一损失函数为t时刻对应的CTC损失函数和注意力ATT损失函数，可分别记为loss_t,ctc和loss_t,att。

步骤102、分别确定所述至少两个第一损失函数相对于上一个采样时刻的变化程度信息。

示例性的，上一个采样时刻对应的损失函数可记为第二损失函数，每个第一损失函数都存在一个对应的第二损失函数。变化程度信息可以包括减少量、下降率以及下降比例等等。一般情况下，上一个采样时刻对应的第二损失函数会小于第一损失函数。假设损失函数A，在当前采样时刻对应的第一损失函数记为A1，在上一个采样时刻对应的第二损失函数记为A2。减少量可以是第二损失函数与第一损失函数的差，可记为A2-A1；下降率可以是第一损失函数与第二损失函数的商，可记为A1/A2；下降比例可以是减少量与第二损失函数的商，可记为(A2-A1)/A2。仍以编码-注意力-解码结构为例，假设上一个采样时刻为t-1，t-1时刻对应的损失函数为第二损失函数，则至少两个第二损失函数可分别记为loss_t-1,ctc和loss_t-1,att。减少量可分别表示为loss_t-1,ctc-loss_t,ctc，以及loss_t-1,att-loss_t,att；下降率可分别表示为以及/>下降比例可分别表示为/>以及

步骤103、根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，并基于所述至少两个第一损失函数和对应的权重计算拟合损失函数。

示例性的，可预先设置变化程度信息与权重的对应关系，该对应关系可以是函数关系，也可以是一对一的映射关系，还可以是其他形式的对应关系，可根据具体情况设置，本发明实施例不做限定。对于一个损失函数来说，可以根据自身对应的变化程度信息单独确定自身对应的权重，也可以根据自身对应的变化程度信息以及其他损失函数对应的变化程度信息综合确定自身对应的权重。

在得到至少两个第一损失函数分别对应的权重后，可以基于至少两个第一损失函数和对应的权重计算拟合损失函数。具体的计算方式不做限定，例如可以根据所述至少两个第一损失函数对应的权重对所述至少两个第一损失函数进行加权求和，得到拟合损失函数。

步骤104、利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对所述第一声学神经网络模型的训练。

在神经网络模型的训练过程中，反向传播方法可以使网络权值(又称滤波器)不断更新调整，直至网络的输出与目标趋于一致，是一种有效计算梯度的方法。本发明实施例中，在动态地确定了当前采样时刻对应的拟合损失函数后，利用该拟合损失函数对第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，完成该阶段的网络权值调整过程。本发明实施例对具体的反向传播过程不做限定，可根据具体情况进行设置。

本发明实施例中提供的声学神经网络模型的训练方法，将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中，得到当前采样时刻对应的至少两个第一损失函数，分别确定至少两个第一损失函数相对于上一个采样时刻的变化程度信息，根据变化程度信息确定至少两个第一损失函数分别对应的权重，并基于至少两个第一损失函数和对应的权重计算拟合损失函数，利用拟合损失函数对第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对第一声学神经网络模型的训练。通过采用上述技术方案，在对声学神经网络模型进行反向传播之前，可以动态地调节各损失函数对应的权重，使得训练后得到的模型更加准确，在采用所得到的模型进行语音识别时，能够更加准确地识别出语音信息中包含的语音内容，且能够提升语音内容的识别率。

在一些实施例中，可先构建初始声学神经网络模型，对于第一个采样时刻，将对应的初始语音训练样本输入至初始声学神经网络模型中，得到第一个采样时刻对应的至少两个初始损失函数，可基于设定权重来计算至少两个初始损失函数对应的拟合损失函数。设定权重例如可以是初始损失函数总数的倒数，例如，初始损失函数总数为2，则各初始损失函数对应的权重都为0.5。利用第一个采样时刻对应的拟合损失函数对初始声学神经网络模型进行反向传播，得到第二个采样时刻对应的第一声学神经网络模型，以实现对初始声学神经网络模型的训练。

示例性的，在上述实施例基础上，得到第二声学神经网络模型之后，可将下一个采样时刻作为新的当前采样时刻，将上述得到的第二声学神经网络模型作为新的第一声学神经网络模型，重新基于本发明实施例提供的声学神经网络模型的训练方法进行训练，直到得到满足预设条件的声学神经网络模型。其中，预设条件可以根据实际情况进行设置。

在一个实施例中，所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，包括：根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，以使得对于所述至少两个第一损失函数中的任意两个第一损失函数来说，变化程度较大的第一损失函数对应的第一权重小于变化程度较小的第一损失函数对应的第二权重。这样设置的好处在于，对于变化程度较大的损失函数，可以适当减小对应的权重，从而减小其在拟合损失函数中所占的比重，对于变化程度较小的损失函数，可以适当增大对应的权重，从而增大其在拟合损失函数中所占的比重，合理地确定拟合损失函数。

在一个实施例中，所述至少两个第一损失函数分别对应的权重的和为1。这样设置的好处在于，可以更加合理地确定拟合损失函数。

在一个实施例中，所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，包括：采用预设分类函数对至少两个变化程度信息进行多分类处理，得到所述至少两个第一损失函数分别对应的权重。这样设置的好处在于，可以快速准确地得出至少两个第一损失函数分别对应的权重。将至少两个变化程度信息作为一个分类问题，打包送入预设分类函数中进行分类化，进而得到至少两个第一损失函数分别对应的权重。可选的，在一个实施例中，所述预设分类函数为归一化指数函数，又称Softmax函数。该函数是逻辑函数的一种推广，它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。因此，利用softmax函数，可以快速得到至少两个第一损失函数分别对应的权重。

在一个实施例中，所述第一声学神经网络模型基于编码-注意力-解码结构构建。这样设置的好处在于，可以更加合理地构建并训练得到用于语音内容识别的神经网络模型。可选的，所述至少两个第一损失函数包括CTC损失函数和ATT损失函数。

在一个实施例中，所述变化程度信息包括：第一损失函数与上一个采样时刻对应的第二损失函数的比值。这样设置的好处在于，可以快速准确地计算得到变化程度信息，并便于对应的权重的计算。

图3为本发明实施例提供的又一种声学神经网络模型的训练方法的流程示意图，如图3所示，该方法包括：

步骤301、将当前采样时刻对应的第一语音训练样本输入至基于编码-注意力-解码结构构建的第一声学神经网络模型中，得到当前采样时刻对应的第一CTC损失函数和第一ATT损失函数。

示例性的，假设当前采样时刻为t时刻，第一CTC损失函数可记为loss_t,ctc，第一ATT损失函数可记为loss_t,att。

步骤302、计算第一CTC损失函数相对于上一个采样时刻的第二CTC损失函数的第一下降率，计算第一ATT损失函数相对于上一个采样时刻的第二ATT损失函数的第二下降率。

示例性的，第二CTC损失函数可记为loss_t-1,ctc，第二ATT损失函数可记为loss_t-1,att。下降率可记为α，那么第一下降率为第二下降率为

步骤303、将第一下降率和第二下降率输入至归一化指数函数中，得到第一CTC损失函数对应的第一权重，以及第一ATT损失函数对应的第二权重。

示例性的，同时将第一下降率和第二下降率作为一个分类问题，打包送入sofxmax函数进行分类化，ω_i＝softmax(α_i)可以得到新的权重ω_i，其中，i表示ctc和att，也即，得到第一权重ω_ctc和第二权重ω_att，第一权重和第二权重的值范围均在0-1之间，且总和为1，即ω_ctc+ω_att＝1。

步骤304、根据第一权重和第二权重对第一CTC损失函数和第一ATT损失函数进行加权求和，得到当前采样时刻对应的拟合损失函数。

示例性的，拟合损失函数可以表示如下：

loss＝ω_ctcloss_ctc+ω_attloss_att

步骤305、利用拟合损失函数对第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对第一声学神经网络模型的训练。

本发明实施例提供的声学神经网络模型的训练方法，将当前采样时刻对应的第一语音训练样本输入至基于编码-注意力-解码结构构建的第一声学神经网络模型中，得到当前采样时刻对应的第一CTC损失函数和第一ATT损失函数，分别计算相对于上一个采样时刻的下降率，再将下降率输入至sofxmax函数中，得到第一权重和第二权重，然后计算拟合损失函数，最后利用拟合损失函数对第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对第一声学神经网络模型的训练。通过采用上述技术方案，可以动态地调节各损失函数对应的权重，省去模型训练前对权重进行调优的时间，提高训练效率，且能够使得训练后得到的模型更加准确。在同样的训练时间、样本数据集以及模型的情况下，模型精度相比于现有方案可提高约0.2％。将利用本发明提供的声学神经网络模型训练方法得到的模型部署到在线直播等应用程序中时，可以得到更高的识别率，一些之前不能识别的语音或者识别错误的语音，也可以识别出来。例如，经过发明人的试验，对于“推开门走出去”这句话，现有方案的识别结果为“推开门走去”，未识别出“出”字，而采用本发明实施例提供的方案，能够完整地识别出“推开门走出去”这句话。

图4为本发明实施例提供的一种语音识别方法的流程示意图，该方法可以由语音识别装置执行，其中该装置可由软件和/或硬件实现，一般可集成在计算机设备中。如图4所示，该方法包括：

步骤401、获取待识别的语音信息。

示例性的，待识别的语音信息可以与本发明实施例中的语音训练样本的形式一致。示例性的，待识别的语音信息来源于视频直播应用程序。

步骤402、将所述语音信息输入至预设声学神经网络模型中。

其中，所述预设声学神经网络模型采用本发明实施例提供的任意一种声学神经网络模型的训练方法训练得到。

步骤403、根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别。

示例性的，可以将语音信息中包含的语音内容转换成对应的文字，针对文字进行识别。

本发明实施例提供的语音识别方法，由于采用了本发明实施例提供的声学神经网络模型的训练方法得到神经网络模型，再基于该模型进行语音识别，能够准确地识别出待识别的语音信息中包含的语音内容。

可选的，所述语音信息来源于视频直播应用程序；在所述根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别之后，还包括：基于所识别出来的语音内容对所述语音信息进行监管。这样设置的好处在于，可以更加准确地识别出视频直播应用程序中待播放或已播放的语音信息中的语音内容，对语音信息进行更加及时有效的监督和管理，维护视频直播应用程序中的健康环境。

图5为本发明实施例提供的一种声学神经网络模型的训练装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在计算机设备中，可通过执行声学神经网络模型的训练方法来进行模型训练。如图5所示，该装置包括：

训练样本输入模块501，用于将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中，得到所述当前采样时刻对应的至少两个第一损失函数；

变化程度确定模块502，用于分别确定所述至少两个第一损失函数相对于上一个采样时刻的变化程度信息；

拟合损失函数计算模块503，用于根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，并基于所述至少两个第一损失函数与对应的权重计算拟合损失函数；

模型训练模块504，用于利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对所述第一声学神经网络模型的训练。

本发明实施例中提供的声学神经网络模型的训练装置，将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中，得到当前采样时刻对应的至少两个第一损失函数，分别确定至少两个第一损失函数相对于上一个采样时刻的变化程度信息，根据变化程度信息确定至少两个第一损失函数分别对应的权重，并基于至少两个第一损失函数和对应的权重计算拟合损失函数，利用拟合损失函数对第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对第一声学神经网络模型的训练。通过采用上述技术方案，在对声学神经网络模型进行反向传播之前，可以动态地调节各损失函数对应的权重，使得训练后得到的模型更加准确，在采用所得到的模型进行语音识别时，能够更加准确地识别出语音信息中包含的语音内容，且能够提升语音内容的识别率。

可选的，所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，包括：

根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，以使得对于所述至少两个第一损失函数中的任意两个第一损失函数来说，变化程度较大的第一损失函数对应的第一权重小于变化程度较小的第一损失函数对应的第二权重。

可选的，所述至少两个第一损失函数分别对应的权重的和为1。

采用预设分类函数对至少两个变化程度信息进行多分类处理，得到所述至少两个第一损失函数分别对应的权重。

可选的，所述预设分类函数为归一化指数函数。

可选的，所述第一声学神经网络模型基于编码-注意力-解码结构构建。

可选的，所述至少两个第一损失函数包括连接时序分类CTC损失函数和注意力ATT损失函数。

可选的，所述变化程度信息包括：第一损失函数与上一个采样时刻对应的第二损失函数的比值。

可选的，所述基于所述至少两个第一损失函数与对应的权重计算拟合损失函数，包括：

根据所述至少两个第一损失函数对应的权重对所述至少两个第一损失函数进行加权求和，得到拟合损失函数。

图6为本发明实施例提供的一种语音识别装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在计算机设备中，可通过执行语音识别方法来进行语音识别。如图6所示，该装置包括：

语音信息获取模块601，用于获取待识别的语音信息；

语音信息输入模块602，用于将所述语音信息输入至预设声学神经网络模型中，其中，所述预设声学神经网络模型采用本发明实施例提供的声学神经网络模型的训练方法训练得到；

语音内容识别模块603，用于根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别。

本发明实施例提供的语音识别装置，由于采用了本发明实施例提供的声学神经网络模型的训练方法得到神经网络模型，再基于该模型进行语音识别，能够准确地识别出待识别的语音信息中包含的语音内容。

可选的，所述语音信息来源于视频直播应用程序。该装置还可包括：监管模块，用于在所述根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别之后，基于所识别出来的语音内容对所述语音信息进行监管。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的声学神经网络模型的训练方法和/或语音识别方法。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDRRAM、SRAM、EDORAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

本发明实施例提供了一种计算机设备，该计算机设备中可集成本发明实施例提供的声学神经网络模型的训练装置和/或语音识别装置。图7为本发明实施例提供的一种计算机设备的结构框图。计算机设备700包括存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序，所述处理器702执行所述计算机程序时实现本发明实施例提供的声学神经网络模型的训练方法和/或语音识别方法。

上述实施例中提供的声学神经网络模型的训练装置、语音识别装置、存储介质以及计算机设备可执行本发明相应实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明相应实施例所提供的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种声学神经网络模型的训练方法，其特征在于，包括：

利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对所述第一声学神经网络模型的训练；

所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，包括：

2.根据权利要求1所述的方法，其特征在于，所述至少两个第一损失函数分别对应的权重的和为1。

3.根据权利要求2所述的方法，其特征在于，所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重，包括：

4.根据权利要求3所述的方法，其特征在于，所述预设分类函数为归一化指数函数。

5.根据权利要求1所述的方法，其特征在于，所述第一声学神经网络模型基于编码-注意力-解码结构构建。

6.根据权利要求5所述的方法，其特征在于，所述至少两个第一损失函数包括连接时序分类CTC损失函数和注意力ATT损失函数。

7.根据权利要求1所述的方法，其特征在于，所述变化程度信息包括：第一损失函数与上一个采样时刻对应的第二损失函数的比值。

8.根据权利要求1所述的方法，其特征在于，所述基于所述至少两个第一损失函数与对应的权重计算拟合损失函数，包括：

9.一种语音识别方法，其特征在于，包括：

获取待识别的语音信息；

将所述语音信息输入至预设声学神经网络模型中，其中，所述预设声学神经网络模型采用如权利要求1-8任一所述的方法训练得到；

10.根据权利要求9所述的方法，其特征在于，所述语音信息来源于视频直播应用程序；在所述根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别之后，还包括：

基于所识别出来的语音内容对所述语音信息进行监管。

11.一种声学神经网络模型的训练装置，其特征在于，包括：

模型训练模块，用于利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播，得到第二声学神经网络模型，以实现对所述第一声学神经网络模型的训练；

12.一种语音识别装置，其特征在于，包括：

语音信息获取模块，用于获取待识别的语音信息；

语音信息输入模块，用于将所述语音信息输入至预设声学神经网络模型中，其中，所述预设声学神经网络模型采用如权利要求1-8任一所述的方法训练得到；

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的方法。

14.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-10任一项所述的方法。