CN111723834B

CN111723834B - 语音深度学习训练方法及装置

Info

Publication number: CN111723834B
Application number: CN201910217441.XA
Authority: CN
Inventors: 戚玉青; 郑星; 姚沛
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2024-01-26
Anticipated expiration: 2039-03-21
Also published as: CN111723834A

Abstract

本申请提供一种语音深度学习训练方法、装置、电子设备及可读存储介质，该方法包括：利用预设训练集对语音深度学习模型进行训练，以得到训练后的语音深度学习模型；根据语音深度学习模型训练的轮数确定学习率调整策略；根据所确定的学习率调整策略对学习率进行调整，并基于调整后的学习率，利用所述预设训练集对训练后的语音深度学习模型进行训练，直至训练结束。该方法可以提高语音深度学习训练过程中学习率调整的灵活性。

Description

语音深度学习训练方法及装置

技术领域

本申请涉及机器学习技术，尤其涉及一种语音深度学习训练方法及装置。

背景技术

深度学习的概念源于人工神经网络的研究，其通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

学习率(Learning rate)作为深度学习中重要的超参，其决定了参数移动到最优值的速度快慢。如果学习率过大，很可能会越过最优值；反之，若学习率过小，优化的效率可能过低，长时间算法无法收敛。因此，学习率对于算法性能的表现至关重要。

在当前应用的语音深度学习训练中，对学习率的调整是当本轮训练模型精度减去上一轮训练模型精度超过一个阈值(如0.5)，或者本轮训练模型与上一轮训练模型之间的Loss(损耗)值小于某一个阈值(如0.01)时，学习率减半；否则，保持学习率不变。

实践发现，目前的语音深度学习训练方案中，学习率调整策略都是固定的，一旦针对任一语音深度学习训练确定好对应的学习率调整策略，则该学习率调整策略就不会再改变，而这种固定死学习率调整策略的方式，无法适应语音深度学习模型的动态训练过程，灵活性较差。

发明内容

有鉴于此，本申请提供一种语音深度学习训练方法及装置。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种语音深度学习训练方法，包括：

利用预设训练集对语音深度学习模型进行训练，以得到训练后的语音深度学习模型；

根据语音深度学习模型训练的轮数确定学习率调整策略；

根据所确定的学习率调整策略对学习率进行调整，并基于调整后的学习率，利用所述预设训练集对训练后的语音深度学习模型进行训练，直至训练结束。

根据本申请实施例的第二方面，提供一种语音深度学习训练装置，包括：

训练单元，用于利用预设训练集对语音深度学习模型进行训练，以得到训练后的语音深度学习模型；

确定单元，用于根据语音深度学习模型训练的轮数确定学习率调整策略；

调整单元，用于根据所确定的学习率调整策略对学习率进行调整；

所述训练单元，还用于基于调整后的学习率，利用所述预设训练集对训练后的语音深度学习模型进行训练，直至训练结束。

本申请实施例的语音深度学习训练方法，通过利用预设训练集对语音深度学习模型进行训练，以得到训练后的语音深度学习模型，根据语音深度学习模型训练的轮数确定学习率调整策略，进而，根据所确定的学习率调整策略对学习率进行调整，并基于调整后的学习率，利用所述预设训练集对训练后的语音深度学习模型进行训练，直至训练结束，提高了语音深度学习训练过程中学习率调整的灵活性。

附图说明

图1是本申请一示例性实施例示出的一种语音深度学习训练方法的流程图；

图2是本申请一示例性实施例示出的一种语音深度学习训练方法的流程图；

图3是本申请一示例性实施例示出的一种语音深度学习训练装置的结构示意图；

图4是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

请参见图1，为本申请实施例提供的一种语音深度学习训练方法的流程示意图，如图1所示，该语音深度学习训练方法可以包括以下步骤：

步骤S100、利用预设训练集对语音深度学习模型进行训练，以得到训练后的语音深度学习模型。

本申请实施例中，为了实现语音深度学习，可以先构造语音深度学习模型，并收集预设数量的训练样本构成训练集(本文中称为预设训练集)，进而，利用该预设训练集对所构造的语音深度学习模型进行训练，在训练过程中对语音深度学习模型的参数进行调整优化，以得到训练后的语音深度学习模型。

本申请实施例中，利用预设训练集中各训练样本分别对语音深度学习模型进行了一次训练称为一轮训练。

步骤S110、根据语音深度学习模型训练的轮数确定学习率调整策略。

本申请实施例中，为了提高语音深度学习训练过程中学习率调整的灵活性，可以不再使用固定的学习率调整策略进行学习率调整，而是可以根据语音深度学习模型训练的轮数确定学习率调整策略。

本申请其中一个实施例中，上述根据语音深度学习模型训练的轮数确定学习调整策略，可以包括：

当语音深度学习模型训练的轮数小于等于预设轮数阈值时，确定学习率调整策略为将当前使用的学习率减半。

在该实施例中，考虑到在对语音深度学习模型进行训练以确定最优参数的过程中，通常会将学习率的初始值设置为一个较大的值，并通过向下调整学习率的方式进行语音深度学习模型训练，因此，在语音深度学习模型训练的前几轮，直接使用学习率减半的调整策略在每轮语音深度学习模型训练之后对学习率进行调整，可以在保证精度的情况下，加快语音深度学习模型训练速度。

相应地，在该实施例中，可以预先设定一个阈值(本文中称为预设轮数阈值，具体值可以根据经验值确定，如3～4轮)，并当语音深度学习模型训练的轮数小于等于该预设轮数阈值时，可以确定学习率调整策略为将当前使用的学习率减半，即在语音深度学习模型训练的轮数大于预设轮数阈值之前，可以在每轮语音深度学习模型训练之后，将学习率减半。

应该认识到，该实施例中描述的当语音深度学习模型训练的轮数小于等于预设轮数阈值时，确定学习率调整策略为将当前使用的学习率减半的学习率调整策略确定方式仅仅是本申请实施例中确定学习率调整策略的一种具体示例，而并不是对本申请保护范围的限定，即在本申请实施例中，也可以通过其他方式确定学习率调整策略，例如，当语音深度学习模型训练的轮数小于等于预设轮数阈值时，确定学习调整策略为当前使用的学习率的40％或60％等，其具体实现在此不做赘述。

进一步地，在该实施例中，考虑到当采用学习率减半的方式对学习率进行一定次数(如预设轮数阈值)的调整之后，学习率的值会被调整为一个相对较小的值，此时，若仍然直接在每轮语音深度学习模型训练之后，均采用学习率减半的方式对学习率进行调整，则可能导致学习率过小，进而导致参数优化的效率可能过低，算法长时间无法收敛。

相应地，在一个示例中，上述根据语音深度学习模型训练的轮数确定学习率调整策略，还可以包括：

当语音深度学习模型训练的轮数大于预设轮数阈值时，确定学习率调整策略为根据本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的精度差值和/或Loss值对当前使用的学习率进行调整。

在该示例中，当语音深度学习模型训练的轮数大于预设轮数阈值时，可以确定学习率调整策略为根据本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的精度差值和/或Loss值对应当前使用的学习率进行调整。

举例来说，当语音深度学习模型训练的轮数大于预设轮数阈值，且本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的精度差值(即本轮训练的语音深度学习模型的精度减去上一轮训练的语音深度学习模型的精度)大于预设阈值(本文中称为第一阈值，可以根据实际场景设定，如0.5)时，确定学习率调整策略为将当前使用的学习率减半；否则，保持当前使用的学习率不变。

又举例来说，当语音深度学习模型训练的轮数大于预设轮数阈值，且本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的Loss值小于预设阈值(本文中称为第二阈值，可以根据实际场景设定，如0.01)时，确定学习率调整策略为将当前使用的学习率减半；否则，保持当前使用的学习率不变。

应该认识到，在本申请实施例中，上述实施例中描述的学习率调整策略调整方式仅仅是本申请实施例中确定学习率调整策略的方式的一种具体示例，即本申请实施例中，也可以通过其他方式确定学习率调整策略，例如，可以预先设定多个轮数阈值(如第一轮数阈值和第二轮数阈值，第一轮数阈值小于第二轮数阈值)，当语音深度学习模型训练的轮数小于第一轮数阈值或大于第二轮数阈值时，确定学习率调整策略为根据本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的精度差值和/或Loss值对当前使用的学习率进行调整；当语音深度学习模型训练的轮数大于等于第一轮数阈值，小于等于第二轮数阈值时，确定学习率调整策略为将当前使用的学习率减半，其具体实现在此不做赘述。

步骤S120、根据所确定的学习率调整策略对学习率进行调整，并基于调整后的学习率，利用预设训练集对训练后的语音深度学习模型进行训练，直至训练结束。

本申请实施例中，根据语音深度学习模型训练的轮数确定学习率调整策略之后，可以根据所确定的学习率调整策略对学习率进行调整，并基于调整后的学习率，再次利用预设训练集对训练后的语音深度学习模型进行新一轮的训练，直至训练结束。

可选地，训练结束可以包括训练轮数达到预设最大训练轮数，或者，训练时间达到预设最大训练时间，或者，语音深度学习模型的精度达到预设要求。

其中，可以在每轮语音深度学习模型训练之后判断训练时间是否达到预设最大训练时间，即可以在上一轮语音深度学习模型训练完成时未达到预设最大训练时间，本轮语音深度学习模型训练完成时达到或超过预设最大训练时间时，确定语音深度学习模型训练时间达到预设最大训练时间。

此外，语音深度学习模型的精度达到要求可以包括连续若干轮(如两轮)语音深度学习模型训练后语音深度学习模型的精度降低。

需要说明的是，在本申请实施例中，在对语音深度学习模型的训练过程中，当本轮训练的语音深度学习模型的精度小于上一轮训练的语音深度学习模型之间的精度时，可以时本轮训练的语音深度学习模型进行生效，而是继续使用上一轮训练的语音深度学习模型进行训练，其具体实现在此不做赘述。

为了使本领域技术人员更好地理解本发明实施例提供的技术方案，下面结合具体实例对本申请实施例提供的技术方案进行说明。

在该实施例中，以预设轮数阈值为3轮，语音深度学习模型训练的轮数大于预设轮数阈值时，根据本地训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的精度差值确定学习率调整策略为例。

请参见图2，在该实施例中，本申请实施例提供的语音深度学习训练方法可以包括以下步骤：

步骤S200、利用预设训练集对语音深度学习模型进行训练。

步骤S210、保存训练后的语音深度学习模型。

在该实施例中，为了实现语音深度学习，可以先构造语音深度学习模型，并收集预设数量的训练样本构成训练集(本文中称为预设训练集)，进而，利用该预设训练集对所构造的语音深度学习模型进行训练，在训练过程中对语音深度学习模型的参数进行调整优化，并保存训练后的语音深度学习模型。

步骤S220、计算并保存训练后的语音深度学习模型的精度。

在该实施例中，在每轮对语音深度学习模型训练之后，可以计算训练后的语音深度学习模型的精度，并保存计算出的训练后的语音深度学习模型的精度。

步骤S230、判断深度学习模型训练的轮数是否大于3轮；若是，则转至步骤S240；否则，转至步骤S250。

步骤S240、判断本轮训练的语音深度学习模型的精度与上一轮训练的语音深度学习模型的精度的差值是否超过预设精度阈值。若是，则转至步骤S250；否则，转至步骤S260。

步骤S250、将当前使用的学习率减半。

步骤S260、判断训练是否结束。若是，则结束当前流程；否则，转至步骤S200。

在该实施例中，当深度训练模型训练的轮数小于等于3轮时，可以将当前使用的学习率减半，即前3轮对深度训练模型训练之后，可以将当前使用的学习率减半，并按照步骤S200～步骤250中描述的方式，再次利用预设训练集对训练后的语音深度学习模型进行训练，直至训练结束。

当深度训练模型训练的轮数大于3轮时，可以计算本轮训练的语音深度学习模型的精度与上一轮训练的语音深度学习模型的精度的差值，并判断该差值是否超过预设精度差值(如0.5)。

当该差值超过预设精度差值时，可以将当前使用的学习率减半，并按照步骤S200～步骤250中描述的方式，再次利用预设训练集对训练后的语音深度学习模型进行训练，直至训练结束；当该差值未超过预设精度差值时，可以保持当前使用的学习率不变，并按照步骤S200～步骤250中描述的方式，再次利用预设训练集对训练后的语音深度学习模型进行训练，直至训练结束。

可见，在该实施例中，初始训练时前3轮直接使用学习率减半操作，加快训练速度。当前3轮学习率减半后，后期的学习率变小，其精度变化差距变小，使得训练速度加快，同时也不会出现训练精度倒退问题，大大提高了训练速度，同时语音深度学习模型的精度也有一定提升。

本申请实施例中，通过利用预设训练集对语音深度学习模型进行训练，以得到训练后的语音深度学习模型，根据语音深度学习模型训练的轮数确定学习率调整策略，进而，根据所确定的学习率调整策略对学习率进行调整，并基于调整后的学习率，利用所述预设训练集对训练后的语音深度学习模型进行训练，直至训练结束，提高了语音深度学习训练过程中学习率调整的灵活性。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图3，为本申请实施例提供的一种语音深度学习训练装置的结构示意图，如图3所示，该语音深度学习训练装置可以包括：

训练单元310，用于利用预设训练集对语音深度学习模型进行训练，以得到训练后的语音深度学习模型；

确定单元320，用于根据语音深度学习模型训练的轮数确定学习率调整策略；

调整单元330，用于根据所确定的学习率调整策略对学习率进行调整；

所述训练单元310，还用于基于调整后的学习率，利用所述预设训练集对训练后的语音深度学习模型进行训练，直至训练结束。

在可选实施例中，所述确定单元320，具体用于当语音深度学习模型训练的轮数小于等于预设轮数阈值时，确定学习率调整策略为将当前使用的学习率减半。

在可选实施例中，所述确定单元320，还用于当语音深度学习模型训练的轮数大于所述预设轮数阈值时，确定学习率调整策略为根据本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的精度差值和/或损耗Loss值对当前使用的学习率进行调整。

在可选实施例中，所述调整单元330，具体用于当本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的精度差值大于第一阈值时，将当前使用的学习率减半；和/或，

当本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的Loss值小于第二阈值时，将当前使用的学习率减半。

在可选实施例中，所述训练结束包括：

语音深度学习模型训练的轮数达到预设最大轮数、语音深度学习模型训练时间达到预设最大训练时间或语音深度学习模型的进度达到预设要求。

请参见图4，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器401和存储器402。处理器401与存储器402通过系统总线403完成相互间的通信。其中，存储器402上存放有计算机程序；处理器401可以通过执行存储器402上所存放的程序，执行上文描述的语音深度学习训练方法。

本文中提到的存储器402可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，存储器402可以是：RAM(Radom AccessMemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

本申请实施例还提供了一种存储有计算机程序的机器可读存储介质，例如图4中的存储器402，所述计算机程序可由图4所示电子设备中的处理器401执行以实现上文描述的语音深度学习训练方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种语音深度学习训练方法，其特征在于，包括：

利用预设训练集对语音深度学习模型进行训练，以得到训练后的语音深度学习模型；所述预设训练集是通过收集预设数量的训练语音样本构成；

根据语音深度学习模型训练的轮数确定学习率调整策略；其中，当语音深度学习模型训练的轮数小于等于预设轮数阈值时，该确定出学习率调整策略是指：调整后的学习率小于调整前的学习率；当语音深度学习模型训练的轮数大于所述预设轮数阈值时，当本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的精度差值大于第一阈值时，将当前使用的学习率减半；和/或，当本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的Loss值小于第二阈值时，将当前使用的学习率减半；

所述根据语音深度学习模型训练的轮数确定学习率调整策略，还包括：预先设定多个轮数阈值，所述多个轮数阈值至少包括第一轮数阈值和第二轮数阈值，所述第一轮数阈值小于所述第二轮数阈值；当语音深度学习模型训练的轮数小于所述第一轮数阈值或大于所述第二轮数阈值时，根据本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的精度差值和/或Loss值对当前使用的学习率进行调整；当语音深度学习模型训练的轮数大于等于所述第一轮数阈值，小于等于所述第二轮数阈值时，将当前使用的学习率减半；

2.根据权利要求1所述的方法，其特征在于，所述根据语音深度学习模型训练的轮数确定学习率调整策略，包括：

3.根据权利要求1-2任一项所述的方法，其特征在于，所述训练结束包括：

4.一种语音深度学习训练装置，其特征在于，包括：

训练单元，用于利用预设训练集对语音深度学习模型进行训练，以得到训练后的语音深度学习模型；所述预设训练集是通过收集预设数量的训练语音样本构成；

确定单元，用于根据语音深度学习模型训练的轮数确定学习率调整策略；其中，当语音深度学习模型训练的轮数小于等于预设轮数阈值时，该确定出学习率调整策略是指：调整后的学习率小于调整前的学习率；当语音深度学习模型训练的轮数大于所述预设轮数阈值时，当本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的精度差值大于第一阈值时，将当前使用的学习率减半；和/或，当本轮训练的语音深度学习模型与上一轮训练的语音深度学习模型之间的Loss值小于第二阈值时，将当前使用的学习率减半；

5.根据权利要求4所述的装置，其特征在于，

所述确定单元，具体用于当语音深度学习模型训练的轮数小于等于预设轮数阈值时，确定学习率调整策略为将当前使用的学习率减半。

6.根据权利要求4-5任一项所述的装置，其特征在于，所述训练结束包括：