CN110349571A

CN110349571A - 一种基于连接时序分类的训练方法及相关装置

Info

Publication number: CN110349571A
Application number: CN201910783264.1A
Authority: CN
Inventors: 陈孝良; 焦伟; 冯大航; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-10-18
Anticipated expiration: 2039-08-23
Also published as: CN110349571B

Abstract

本发明公开了一种基于连接时序分类的训练方法，包括：获取近场数据；对所述近场数据进行下采样，得到目标近场数据；将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到语音识别第一目标语音识别声学模型。其中，所述预设的语音识别声学模型采用基于连接顺序分类损失函数进行构建。上述的训练方法中，由于近场数据噪声较小，并且对所述近场数据通过下采样的方式进行了数据均衡处理，得到目标近场数据，将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到所述第一目标语音识别声学模型，避免了现有技术中采用线上数据进行训练时，由于线上数据噪声较大，并且数据非常不均衡，因此训练结果不准确的问题。

Description

一种基于连接时序分类的训练方法及相关装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于连接时序分类的训练方法及相关装置。

背景技术

基于神经网络的语音识别声学模型的训练属于监督学习，需要知道每一帧对应的label才能进行有效的训练，在训练的数据准备阶段必须要对语音进行强制对齐。在语音识别过程中引入连接时序分类CTC(Connectionist temporal classification)作为损失函数可以放宽一一对应的限制要求，只需要一个输入序列和一个输出序列即可以训练，其中，输入序列通常采用标注好的线上数据直接进行训练。

由于线上数据噪声较大，并且数据非常不均衡，因此训练结果不准确，体现在神经网络后验中的尖峰无法和音频对齐，尤其是第一个音素，非常容易被对齐到音频的开始位置。

发明内容

有鉴于此，本发明提供了一种基于连接时序分类的训练方法及相关装置，用以解决由于线上数据噪声较大，并且数据非常不均衡，因此训练结果不准确，体现在神经网络后验中的尖峰无法和音频对齐，尤其是第一个音素，非常容易被对齐到音频的开始位置的问题。具体方案如下：

一种基于连接时序分类的训练方法，包括：

获取近场数据；

对所述近场数据进行下采样，得到目标近场数据；

将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到第一目标语音识别声学模型，其中，所述预设的语音识别声学模型采用基于连接顺序分类损失函数进行构建。

上述的方法，可选的，对所述近场数据进行下采样，得到目标近场数据，包括：

统计所述近场数据中每条数据的第一个音素的出现频率，其中，每条数据指每条音频；

当各个出现频率中存在超出预设频率范围的异常出现频率时，对所述近场数据进行调整，令所述各个出现频率均处于所述预设的频率范围内。

上述的方法，可选的，将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到第一目标语音识别声学模型，还包括：

当所述第一目标语音识别声学模型不满足对齐要求时，对所述近场数据进行调整；

调整完成后，将所述调整后的目标近场数据传递给所述预设的语音识别声学模型进行训练，得到第三语音识别声学模型

当所述第一目标语音识别声学模型满足对齐要求时，获取远场数据；

依据所述远场数据和所述近场数据，或者所述远场数据对所述第一目标语音识别声学模型进行训练，得到第二目标语音识别模型。

上述的方法，可选的，依据所述远场数据和所述近场数据，或者所述远场数据对所述第一目标语音识别声学模型进行训练，得到第二目标语音识别模型，还包括：

获取所述第一目标语音识别声学模型的当前学习率；

将所述当前学习率调整为目标学习率，其中，所述目标学学习率小于当前学习率。

一种基于连接时序分类的训练装置，包括：

获取模块，用于获取近场数据；

下采样模块，用于对所述近场数据进行下采样，得到目标近场数据；

训练模块，用于将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到第一目标语音识别声学模型，其中，所述预设的语音识别声学模型采用基于连接顺序分类损失函数进行构建。

上述的装置，可选的，所述下采样模块包括：

统计单元，用于统计所述近场数据中每条数据的第一个音素的出现频率，其中，每条数据指每条音频；

调整单元，用于当各个出现频率中存在超出预设频率范围的异常出现频率时，对所述近场数据进行调整，令所述各个出现频率均处于所述预设的频率范围内。

上述的装置，可选的，所述训练模块还包括：

获取单元，用于当所述第一目标语音识别声学模型满足对齐要求时，获取远场数据；

训练单元，用于依据所述远场数据和所述近场数据，或者所述远场数据对所述第一目标语音识别声学模型进行训练，得到第二目标语音识别模型。

一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述的基于连接时序分类的训练方法。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的基于连接时序分类的训练方法。

与现有技术相比，本发明包括以下优点：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种基于连接时序分类的训练方法流程图；

图2为本申请实施例公开的一种基于连接时序分类的训练方法又一流程图；

图3为本申请实施例公开的一种基于连接时序分类的训练装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种基于连接时序分类的训练方法及相关装置，应用于在语音识别过程中对基于连接时序分类CTC损失函数的预设的语音识别声学模型的训练过程中，其中，所述预设的语音识别声学模型为神经网络模型，现有技术中，采用标注好的线上数据直接进行训练，由于标注好的线上数据为通过智能印象或者其它音频设备采集的真实数据，因此噪音和混响都比较大，导致训练结果不准确。本发明实施例中提供了一种基于连接时序的训练方法，用来解决训练结果不准确的问题，所述训练方法的执行流程如图1所示，包括步骤：

S101、获取近场数据；

本发明实施例中，所述近场数据指将手机、录音机等录音设备放在距离声音发出端一定距离并且在安静环境下录的音频数据，其中，所述近场数据至少为一个，所述近场数据越多，训练的结果越准确。与所述近场数据对应的为远场数据，其中，所述远场数据通常为真实的使用环境中录制的音频，可以采用音响进行录制，声音的发出端与录音设备的放置端存在一定距离，因此所述远场数据中存在噪声。其中，无论是近场数据还是远场数据在获取过程中声音发出端与录音设备的距离可以依据经验值或者具体情况进行设定，本发明实施例中，对距离的具体数值不进行限定。

由于获取的音频数据可能存在近场数据也可能存在远场数据，因此，需要对所述音频数据进行筛选，筛选时可以依据噪音与音频信号所占的比重进行筛选，设定一个比重阈值，将大于所述比重阈值的作为远场数据，将小于所述比重阈值的作为近场数据，其中，所述比重阈值的选取可以依据经验或者具体情况进行设定，本发明实施例中，对所述比重阈值的具体数值不进行限定。

S102、对所述近场数据进行下采样，得到目标近场数据；

本发明实施例中，由于所述近场数据中存在数据不均衡的问题，可以通过对所述近场数据进行下采样的方式进行数据均衡，得到目标近场数据，其中，所述目标近场数据为数据均衡的音频数据。

S103、将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到第一目标语音识别声学模型。其中，所述预设的语音识别声学模型采用基于连接顺序分类损失函数进行构建。

本发明实施例中，所述预设的语音识别声学模型是采用神经网络原理构建的，本发明实施例中，对所述预设的语音识别声学模型的具体存在形式不进行限定，只要求所述预设的语音识别声学模型采用基于连接顺序分类损失函数进行构建。

其中，所述预设的语音识别声学模型在训练过程中主要是针对结构、算法、权值进行调整，其中，模型一旦选定，三要素中结构和算法就确定了，接下来要对权值进行调整。所述预设的语音识别声学模型在训练是将一组训练集送入所述预设的语音识别声学模型进行训练，得到所述第一目标语音识别声学模型，根据所述预设的语音识别声学模型的实际输出与期望输出间的差别来调整权值。

训练的步骤包括：

S1、选择所述目标近场数据的一批样本(Ai，Bi)(数据，标签)；

S2、将该样本送入所述预设的语音识别声学模型，计算所述预设的语音识别声学模型的实际输出Y(此时所述预设的语音识别声学模型中的权重矩阵W可以是上次训练得到的，也可以是随机值)；

S3、使用CTC损失函数计算误差D，对误差D进行验证；

S4、根据所述误差D，使用反向传播，梯度下降算法，调整所述预设的语音识别声学模型中的权值矩阵W；

S5、重复上述S1到S4步骤，直到损失函数的值没有明显下降，停止训练；

S6、检查训练好的模型的对齐效果。所述对齐要求是预先设定的，可以是一个范围或者一个评分阈值，以所述对齐要求为评分阈值为例进行说明，获取所述目标近场数据中每一帧的评分，可以对评分进行求和、取平均或者求方差等处理，得到目标评分，依据所述目标评分判断是否满足所述评分阈值，其中，本发明实施例中对评分规则和所述评分阈值的取值不进行限定。若对齐效果不满足要求，对所述近场数据进行调整，调整的方式可以为调整下采样规则，将调整后的目标近场数据传递给所述预设的语音识别声学模型进行训练，或者，对所述预设的语音识别声学模型进行调整，将所述目标近场数据传递给调整后的预设的语音识别声学模型进行训练，或者，对所述预设的语音识别声学模型和所述近场数据同时进行调整，将调整后的目标近场数据传递给调整后的预设的语音识别声学模型进行训练，训练过程与S1到S5相同，直到模型满足对齐要求，得到第三语音识别声学模型。

本发明实施例中，由于所述第一目标语音识别声学模型是基于所述近场数据训练的，而实际的音频数据中，不会仅仅包含近场数据，为了提高所述预设的语音识别声学模型的鲁棒性和训练的准确性。所述预设的语音识别声学模型在基于所述近场数据进行训练满足对齐要求后，得到所述第一目标语音识别声学模型，获取远场数据，依据所述远场数据对所述第一目标语音识别声学模型进行训练，或者获取所述远场数据和近场数据，依据所述远场数据和所述近场数据，对所述第一目标语音识别声学模型进行训练，得到第二目标语音识别声学模型。其中，所述远场数据的获取方式在S101中已经进行描述，在此不再赘述，依据所所述远场数据和所述近场数据，或者所述远场数据对所述第一目标语音识别声学模型进行训练过程与S1到S5相同，只是训练样本采用所述远场数据和所述近场数据，或者所述远场数据，因此，不再对训练的具体过程进行描述。

进一步的，由于通过所述目标近场数据对所述预设的语音识别声学模型进行训练已经学习到了音素的对齐信息，在采用所述远场数据进行调整，可以提高模型鲁棒性，与使用场景相匹配，提高模型的识别效果。

本发明实施例中，学习率作为所述预设的语音识别声学模型一个参数，在采用所述近场数据训练所述预设的语音识别声学模型时可以对其进行调节，在采用所述近场数据对所述预设的语音识别声学模型训练完成后，得到所述第一目标语音识别声学模型，继续采用所述远场数据和所述近场数据，或者所述远场数据对所述第一目标语音识别声学模型进行训练，在利用第一目标语音识别声学模型训练第二语音识别声学模型之前，将当前学习率调整为目标学习率，所述目标学学习率小于当前学习率。调整的目的是避免所述第一目标语音识别声学模型太偏向远场数据，导致训练效果变差。

本发明实施例中，对所述近场数据进行下采样，得到目标近场数据的处理流程如图2所示，包括步骤：

S201、统计所述近场数据中每条数据的第一个音素的出现频率。其中，每条数据指每条音频；

本发明实施例中，由于所述近场数据至少为一个，因此，在通过下采样方式对所述近场数据进行数据均衡的过程中，统计所述近场数据中每条数据的第一个音素的出现频率。其中，每条数据指每条音频。

S202、当各个出现频率中存在超出预设频率范围的异常出现频率时，对所述近场数据进行调整，令所述各个出现频率均处于所述预设的频率范围内。

本发明实施例中，预先设定一个预设的频率范围，其中，所述预设的频率范围可以依据经验或者具体情况进行设定，本发明实施例中，对所述预设的频率范围的具体范围不进行限定。所述异常出现频率超出预设频率范围包含三种情况，包括：当异常出现频率大于所述预设的频率范围中的最大值的情况、当异常出现频率小于所述预设的频率范围的最小值的情况和当异常出现频率存在至少两个，且异常出现频率中既存在大于所述预设的频率范围中的最大值又存在小于所述预设频率范围中最小值的情况，对上述三种情况分别进行说明：

当异常出现频率大于所述预设的频率范围中的最大值时，获取与所述异常出现频率对应的第一异常数据，将所述第一异常数据删除一部分，得到目标第一异常数据，可以随机进行删除也可以按照约定的规则进行删除，直至所述目标第一异常数据的第一个因素的出现频率落在所述预设的频率范围内。

当异常出现频率小于所述预设的频率范围中的最小值时，获取与所述异常出现频率对应的第二异常数据，获取所述第二异常数据中的部分第二异常数据，将所述部分第二异常数据进行复制，将复制的所述部分第二异常数据补充到所述第二异常数据中，得到目标第二异常数据，直至所述目标第二异常数据的第一个因素的出现频率落在所述预设的频率范围内。

当异常出现频率存在至少两个，且异常出现频率中既存在大于所述预设的频率范围中的最大值又存在小于所述预设频率范围中的最小值的情况时，可以对所述预设的频率范围进行调整，实现仅存在大于或者小于所述预设的频率范围情况，依据上述两种处理方式中对应的方式进行处理，或者将上述两种方式结合进行处理，其中，对具体的处理方法不进行限定。

基于上述的一种基于连接时序分类的训练方法，本发明实施例中，还提供了一种基于连接时序分类的训练装置，所述训练装置的结构框图如图3所示，包括：

获取模块301、下采样模块302和训练模块303。

其中：

所述获取模块301，用于获取近场数据；

所述下采样模块302，用于对所述近场数据进行下采样，得到目标近场数据；

所述训练模块303，用于将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到第一目标语音识别声学模型，其中，所述预设的语音识别声学模型采用基于连接顺序分类损失函数进行构建。

本发明公开了一种基于连接时序分类的训练装置，包括：获取近场数据；对所述近场数据进行下采样，得到目标近场数据；将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到语音识别第一目标语音识别声学模型。其中，所述预设的语音识别声学模型采用基于连接顺序分类损失函数进行构建。上述的训练装置中，由于近场数据噪声较小，并且对所述近场数据通过下采样的方式进行了数据均衡处理，得到目标近场数据，将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到所述第一目标语音识别声学模型，避免了现有技术中采用线上数据进行训练时，由于线上数据噪声较大，并且数据非常不均衡，因此训练结果不准确的问题。

本发明实施例中，所述下采样模块302包括：

统计单元304和调整单元305。

其中：

所述统计单元304，用于统计所述近场数据中每条数据的第一个音素的出现频率，其中，每条数据指每条音频；

所述调整单元305，用于当各个出现频率中存在超出预设频率范围的异常出现频率时，对所述近场数据进行调整，令所述各个出现频率均处于所述预设的频率范围内。

本发明实施例中，所述训练模块303还包括：

获取单元306和训练单元307。

其中：

所述获取单元306，用于当所述第一目标语音识别声学模型满足对齐要求时，获取远场数据；

所述训练单元307，用于依据所所述远场数据和所述近场数据，或者所述远场数据对所述第一目标语音识别声学模型进行训练，得到第二目标语音识别模型。

所述基于连接时序分类的训练装置包括处理器和存储器，上述第一获取模块、下采样模块、和第一训练模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过将所述近场数据通过下采样的方式进行了数据均衡处理，得到目标近场数据，将所述目标近场传递给预设的语音识别声学模型进行训练，得到所述第一目标语音识别声学模型，解决了现有技术中采用线上数据进行训练时，由于线上数据噪声较大，并且数据非常不均衡，因此训练结果不准确的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述基于连接时序分类的训练方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述基于连接时序分类的训练方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取近场数据；

对所述近场数据进行下采样，得到目标近场数据；

调整完成后，将所述调整后的目标近场数据传递给所述预设的语音识别声学模型进行训练，得到第三语音识别声学模型。

获取所述第一目标语音识别声学模型的当前学习率；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行有如下方法步骤的程序：

获取近场数据；

对所述近场数据进行下采样，得到目标近场数据；

获取所述第一目标语音识别声学模型的当前学习率；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种基于连接时序分类的训练方法及相关装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于连接时序分类的训练方法，其特征在于，包括：

获取近场数据；

对所述近场数据进行下采样，得到目标近场数据；

2.根据权利要求1所述的方法，其特征在于，对所述近场数据进行下采样，得到目标近场数据，包括：

3.根据权利要求1所述的方法，其特征在于，将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到第一目标语音识别声学模型，还包括：

4.根据权利要求1所述的方法，其特征在于，将所述目标近场数据传递给预设的语音识别声学模型进行训练，得到第一目标语音识别声学模型，还包括：

5.根据权利要求4所述的方法，其特征在于，依据所述远场数据和所述近场数据，或者所述远场数据对所述第一目标语音识别声学模型进行训练，得到第二目标语音识别模型，还包括：

获取所述第一目标语音识别声学模型的当前学习率；

6.一种基于连接时序分类的训练装置，其特征在于，包括：

获取模块，用于获取近场数据；

7.根据权利要求6所述的装置，其特征在于，所述下采样模块包括：

8.根据权利要求6所述的装置，其特征在于，所述训练模块还包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至5中任意一项所述的基于连接时序分类的训练方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述的基于连接时序分类的训练方法。