CN111899759B

CN111899759B - 音频数据的预训练、模型训练方法、装置、设备及介质

Info

Publication number: CN111899759B
Application number: CN202010733155.1A
Authority: CN
Inventors: 张睿雄; 邹伟; 李先刚
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2021-09-03
Anticipated expiration: 2040-07-27
Also published as: CN111899759A

Abstract

本申请提供一种音频数据的预训练、模型训练方法、装置、设备及介质，涉及音频处理技术领域。该方法包括：预训练模型包括：掩码层、第一编码层以及第一前馈层，所述方法包括：采用所述掩码层，对样本音频数据进行掩码处理，得到掩码声学特征；采用所述第一编码层对所述掩码声学特征进行所述第一编码层对应音频任务的编码处理；采用所述第一前馈层对所述编码处理后的声学特征进行掩码重构处理，得到重构预测结果；根据所述重构预测结果，对所述掩码层的掩码参数进行更新，得到目标预训练模型。相对于现有技术，避免了由于样本音频数据质量不高等问题，导致学习到的音频表示的鲁棒性不足的问题。

Description

音频数据的预训练、模型训练方法、装置、设备及介质

技术领域

本申请涉及音频分析技术领域，具体而言，涉及一种音频数据的预训练、模型训练方法、装置、设备及介质。

背景技术

现代社会中海量的音频数据充斥在人们的日常生活和工作当中，音频数据的计算分析逐渐成为相关领域的核心问题，相关的研究和应用越来越多，音频数据分析的核心在于音频表示学习，音频表示学习的目的是将初始的或经过简单加工的音频特征转换成更高级的特征，从而使后续的音频任务更容易训练。因此，更具鲁棒性和通用性的音频表示能显著提升音频任务的表现。其中，音频任务包括的类型例如可以为：基于内容的音频检索，鲁棒性语音识别，智能安防监控以及无人驾驶等。

音频数据是一段具有时间顺序的序列化数据，提取其中的动态时序信息对于音频表示学习具有非常重要的意义。现有技术中一般将基于深度学习的方法应用于音频特征表示，例如深度神经网络(Deep Neural Networks，DNN)和深度卷积网络(ConvolutionalNeural Networks，CNN)。

但是由于音频落地的场景丰富，相应的任务类型丰富，对于有些音频任务，可能由于样本音频数据质量不高，或样本音频数据数量不足的问题，导致学习到的音频表示的鲁棒性不足，最终影响模型的处理精度。

发明内容

有鉴于此，本申请的目的在于提供一种音频数据的预训练、模型训练方法、装置、设备及介质，能够解决现有技术中由于样本音频数据质量不高所导致的学习到的音频表示的鲁棒性不足的问题，达到提高模型学习到的音频表示的鲁棒性，从而提高模型后续处理精度的作用。

在本申请的第一方面，本申请提供一种预训练模型的训练方法，所述预训练模型包括：掩码层、第一编码层以及第一前馈层，所述方法包括：

采用所述掩码层，对样本音频数据进行掩码处理，得到掩码声学特征；

采用所述第一编码层对所述掩码声学特征进行所述第一编码层对应音频任务的编码处理；

采用所述第一前馈层对所述编码处理后的声学特征进行掩码重构处理，得到重构预测结果；

根据所述重构预测结果，对所述掩码层的掩码参数进行更新，得到目标预训练模型。

可选地，所述掩码参数包括：预设帧数；所述对样本音频数据进行掩码处理，得到掩码声学特征，包括：

根据所述预设帧数，对所述样本音频数据进行分片处理，得到所述样本音频数据的多个分片，每个分片的帧数为所述预设帧数；

从所述多个分片中确定目标分片；

对所述目标分片进行掩码处理，得到所述掩码声学特征。

可选地，所述掩码参数还包括：预设比例；所述从所述多个分片中确定目标分片，包括；

根据所述预设比例，从所述分片中确定所述预设比例的分片为所述目标分片。

可选地，所述根据所述重构预测结果，对所述掩码层的掩码参数进行更新，得到目标预训练模型，包括：

根据所述重构预测结果，计算所述预训练模型的损失值；

根据所述损失值对所述掩码参数进行更新，直至基于更新后的所述掩码参数得到的损失值最小，得到所述目标预训练模型。

在本申请的第二方面，本申请还提供了一种音频数据的预训练方法，所述方法包括：

获取样本音频数据；

采用预训练模型对所述样本音频数据进行预训练，得到所述预训练模型输出的预训练后的音频数据；

其中，所述预训练模型为采用上述第一方面中任一方式进行训练得到的模型，所述预训练后的音频数据为所述预训练模型中所述第一编码层输出的编码后的音频数据，用以训练预设音频任务模型。

在本申请的第三方面，本申请还提供了一种音频任务模型的训练方法，所述音频任务模型包括：第二编码层、解码层和第二前馈层；所述方法包括：

获取样本音频数据；

采用预训练模型对所述样本音频数据进行预训练，得到所述预训练模型输出的预训练后的音频数据；所述预训练模型采用上述第一方面中任一方式进行训练得到的模型，所述预训练后的音频数据为所述预训练模型中所述第一编码层输出的编码后的音频数据；

采用所述第二编码层，对所述预训练后的音频数据以及所述样本音频数据进行预设音频任务的编码处理；

采用所述解码层对所述编码处理后的音频数据进行所述预设音频任务对应的解码处理；

采用所述第二前馈层对所述解码处理后的音频数据进行处理，得到所述预设音频任务的目标预测结果；

根据所述目标预测结果，对所述第二编码层和所述解码层的参数进行更新，得到目标音频任务模型。

可选地，所述解码层为所述预设音频任务对应输出结果的类型对应的解码层。

可选地，若所述预设音频任务对应输出结果为音频序列，则所述解码层为变换解码层；或者，

若所述预设音频任务对应输出结果为标签类别，则所述解码层为平均池化层。

可选地，所述预设音频任务为：语音翻译任务、语音情绪识别任务，或者，音频场景分类任务。

在本申请的第四方面，本申请还提供了一种预训练模型的训练装置，所述装置包括：处理模块、重构模块和更新模块，其中：

所述处理模块，用于采用掩码层，对样本音频数据进行掩码处理，得到掩码声学特征；采用第一编码层对所述掩码声学特征进行所述第一编码层对应音频任务的编码处理；

所述重构模块，用于采用第一前馈层对所述编码处理后的声学特征进行掩码重构处理，得到重构预测结果；

所述更新模块，用于根据所述重构预测结果，对所述掩码层的掩码参数进行更新，得到目标预训练模型。

可选地，所述装置还包括：确定模块，其中：

所述处理模块，具体用于根据所述预设帧数，对所述样本音频数据进行分片处理，得到所述样本音频数据的多个分片，每个分片的帧数为所述预设帧数；

所述确定模块，用于从所述多个分片中确定目标分片；

所述处理模块，具体用于对所述目标分片进行掩码处理，得到所述掩码声学特征。

可选地，所述确定模块，具体用于根据所述预设比例，从所述分片中确定所述预设比例的分片为所述目标分片。

可选地，所述装置还包括：计算模块，用于根据所述重构预测结果，计算所述预训练模型的损失值；

所述确定模块，具体用于根据所述损失值对所述掩码参数进行更新，直至基于更新后的所述掩码参数得到的损失值最小，得到所述目标预训练模型。

在本申请的第五方面，本申请还提供了一种音频数据的预训练装置，所述装置包括：获取模块和训练模块，其中：

所述获取模块，用于获取样本音频数据；

所述训练模块，用于采用预训练模型对所述样本音频数据进行预训练，得到所述预训练模型输出的预训练后的音频数据；

在本申请的第六方面，本申请还提供了一种音频任务模型的训练装置，所述装置包括：获取模块、训练模块、处理模块和更新模块，其中：

所述获取模块，用于获取样本音频数据；

所述训练模块，用于采用预训练模型对所述样本音频数据进行预训练，得到所述预训练模型输出的预训练后的音频数据；所述预训练模型采用上述第一方面中任一方式进行训练得到的模型，所述预训练后的音频数据为所述预训练模型中所述第一编码层输出的编码后的音频数据；

所述处理模块，用于采用第二编码层，对所述预训练后的音频数据以及所述样本音频数据进行预设音频任务的编码处理；采用解码层对所述编码处理后的音频数据进行所述预设音频任务对应的解码处理；采用第二前馈层对所述解码处理后的音频数据进行处理，得到所述预设音频任务的目标预测结果；

所述更新模块，用于根据所述目标预测结果，对所述第二编码层和所述解码层的参数进行更新，得到目标音频任务模型。

在本申请的第六方面，提供一种计算机设备，处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当音频数据的预设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述第一方面、第二方面或第三方面任一所述方法的步骤。

在本申请的第七方面，本申请还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面、第二方面或第三方面任一所述方法的步骤。

基于上述任一方面，可以根据预训练模型中的掩码层对样本音频数据进行掩码处理，得到掩码声学特征，最后根据第一编码层对掩码声学特征进行编码层对应音频任务的编码处理，并采用第一前馈层对编码处理后的音频数据进行掩码重构处理，得到声学特征的重构预测结果，最后根据重构预测结果，对掩码层的掩码参数进行更新，得到目标预训练模型，该目标预训练模型用于对各种类型的样本数据进行预训练，经过该目标预训练模型处理后的样本数据，由于经过掩码和重构，其通过学习得到的音频表示更具有鲁棒性和通用性，从而解决现有技术中由于样本音频数据质量不高等问题，导致学习到的音频表示的鲁棒性不足的问题，达到提高模型学习到的音频表示的鲁棒性，从而提高模型后续处理精度的作用。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的预训练模型的训练方法的流程示意图；

图2为本申请另一实施例提供的预训练模型的训练方法的流程示意图；

图3为本申请另一实施例提供的预训练模型的训练方法的流程示意图；

图4为本申请另一实施例提供的预训练模型的架构示意图；

图5为本申请一实施例提供的音频数据的预训练方法的流程示意图；

图6为本申请一实施例提供的音频任务模型的训练方法的流程示意图；

图7为本申请一实施例提供的音频任务模型的架构示意图；

图8为本申请一实施例提供的预训练模型的训练装置的结构示意图；

图9为本申请另一实施例提供的预训练模型的训练装置的结构示意图；

图10为本申请一实施例提供的音频数据的预训练装置的结构示意图；

图11为本申请一实施例提供的音频任务模型的训练装置的结构示意图；

图12为本申请一实施例提供的模型的训练设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请的一个方面涉及一种音频数据的预训练模型的训练系统。该系统可以根据输入的样本音频数据，通过掩码层、第一编码层以及第一前馈层的依次处理后，获得重构预测结果，并根据重构预测结果，对掩码层的掩码参数进行更新，得到目标预训练模型，其中，样本音频数据的类型例如可以为：声学场景类型：机场、地铁站、公园等当中的背景音、声音事件类型：枪声、婴儿哭声和汽车引擎声等，本申请在此不作限制。

值得注意的是，在本申请提出申请之前，现有技术通常由于某些样本音频数据质量不高，或样本音频数据数量不足的问题，导致学习到的音频表示的鲁棒性不足，最终影响模型的效果。

下述预训练模型的训练方法、音频数据的预训练方法，以及音频任务的训练方法可由预设的计算机设备执行，该计算机设备例如可以为安装有模型训练应用或者预训练模型的服务器或者终端设备执行。

如下结合多个具体的应用示例，对本申请实施例所提供的一种预训练模型的训练方法进行解释说明。图1为本申请一实施例提供的一种预训练模型的训练方法的流程示意图，预训练模型包括：掩码层、第一编码层以及第一前馈层，如图1所示，该方法包括：

S101：采用掩码层，对样本音频数据进行掩码处理，得到掩码声学特征。

可选地，预训练模型例如可以为无监督模型，在本申请的一个实施例中，该预训练模型可以采用Transformer的模型架构，应当理解具体模型架构的选择可以根据用户需要灵活调整，并不以上述实施例给出的为限。若为Transformer的模型架构，指的是，该预训练模型中的第一编码层的结构与Transformer的模型架构中的编码层的结构类似。该预训练模型中掩码层和第一前馈层与现有模型结构中的层不同，本申请的方案中的预训练模型中的掩码层和第一前馈层的处理操作，均为预训练模型的处理操作中区别于现有模型的处理操作。

在预训练模型的训练初期，可以根据预设的初始掩码参数确定各样本音频数据中待掩码的音频帧，并对待掩码的音频帧进行掩码操作，获取掩码后的掩码声学特征(maskedacoustic feature)。

S102：采用第一编码层对掩码声学特征进行第一编码层对应音频任务的编码处理。

可选地，在本申请的一个可能实施例中，第一编码层例如可以为Transformer的模型中的编码层，例如Transformer Encoder，当然，该第一编码层也可以为其他架构的音频特征编码层。

该掩码层在得到该掩码声学特征之后，可将该掩码声学特征传输至该第一编码层，由该第一编码层对掩码声学特征进行该第一编码层对应音频任务的编码处理，从而将掩码声学特征编码为计算机可以进行处理和分析的信息，以便后续模型进行进一步的处理。本申请所涉及的预训练模型可对应于任一音频任务，对于不同的音频任务，该预训练模型中该第一编码层极为对应音频任务的编码层。不同音频任务对应的编码处理可不同。

S103：采用第一前馈层对编码处理后的声学特征进行掩码重构处理，得到重构预测结果。

示例地，第一前馈层即为该预训练模型的前馈层(feed-forward layer)，其对于第一编码层之后。即，第一编码层得到该编码处理后的声学特征之后，可将该编码处理之后的声学特征传输至第一前馈层，由第一前馈层对编码后的声学特征进行掩码重构处理，根据被掩码声学特征的相邻环境帧的声学特征对掩码声学特征进行重构，得到重构后的音频数据，从而基于该样本音频数据和该重构后的音频数据得到重构预测结果。该重构预测结构可用于表示掩码重构的准确度。

其中，由于重构其本身的优点，经过重构后的重构预测结果相对于初始的样本音频数据，其质量和性能更高，因此经过重构后的样本音频数据，其在后续经过音频特征学习得到的音频表示对应的鲁棒性和通用性会更高，无论应用于何种音频任务，通过上述方法处理后的样本音频数据进行训练的音频任务模型，最终得到的音频任务模型的处理精度更高，性能更好。

S104：根据重构预测结果，对掩码层的掩码参数进行更新，得到目标预训练模型。

其中，该掩码层的掩码参数例如可以为：连续掩码帧数、掩码帧数占样本音频数据总帧数的比例等，具体掩码参数包括的内容可以根据用户需要灵活调整，并不以上述实施例给出的为限。在得到该重构预测结果后，可根据该重构预测结果，可确定经掩码层的掩码处理经过编码层后，通过前馈层重构后的准确度。在实际的应用中，可基于该重构预测结果，对该掩码层的掩码参数进行更新或调整，直至基于更新后得到的模型的重构预测结果最准确，或者，更新后的模型的重构预测结果无法继续提升，得到该目标预训练模型。该目标预训练模型可用于对样本音频数据进行预训练，用以进行下游预设音频任务的模型训练。

采用本申请实施例提供的音频数据的预训练模型的训练方法，可以根据预训练模型中的掩码层对样本音频数据进行掩码处理，得到掩码声学特征，最后根据第一编码层对掩码声学特征进行编码层对应音频任务的编码处理，并采用第一前馈层对编码处理后的音频数据进行掩码重构处理，得到声学特征的重构预测结果，最后根据重构预测结果，对掩码层的掩码参数进行更新，得到目标预训练模型，该目标预训练模型用于对各种类型的样本数据进行预训练，经过该目标预训练模型处理后的样本数据，由于经过掩码和重构，其通过学习得到的音频表示更具有鲁棒性和通用性，从而解决现有技术中由于样本音频数据质量不高等问题，导致学习到的音频表示的鲁棒性不足的问题，达到提高模型学习到的音频表示的鲁棒性，从而提高模型后续处理精度的作用。

可选地，在上述实施例的基础上，本申请实施例还可提供一种音频数据的预训练模型的训练方法，如下结合附图对上述方法中对样本音频数据进行掩码处理的实现过程进行示例说明。图2为本申请另一实施例提供的一种预训练模型的训练方法的流程示意图，掩码参数包括：预设帧数；如图2所示，S101可包括：

S105：根据预设帧数，对样本音频数据进行分片处理，得到样本音频数据的多个分片。

其中，每个分片包括的音频帧数小于或等于预设帧数。例如，该多个分片中存在至少一个分片的音频帧数等于预设帧数，而一个分片的音频帧数可能小于或等于预设帧数。

示例地，由于Transformer的卷积神经网络(Convolutional Neural Networks，CNN)一般提供下采样机制，通过这种下采样机制输出的帧经过N倍的下采样后，帧数是原帧数的1/N。因此，为了在下采样后依然保留掩码信息，在本申请的实施例中，可以在掩码前将样本音频数据对应的所有音频帧按照序列顺序依次分成多个切片，每个切片中包含连续的N帧音频帧，其中，N即为预设帧数。

S106：从多个分片中确定目标分片。

可选地，在本申请的一个实施例中，确定目标分片的方式可以为通过随机选中的方式确定，也可以为通过预设间隔的方式确定，具体确定目标分片的方式可以根据用户需要灵活调整，并不以上述实施例给出的为限。

S107：对目标分片进行掩码处理，得到掩码声学特征。

在可能的实现过程中，可将该目标分片进行掩码处理，又称遮掩处理，使得掩码后该目标分片对应的声学特征均为预设的特征。

可选地，在本申请的一个实施例中，掩码参数还包括：预设比例；即可以根据预设比例，从多个分片中确定预设比例的分片为目标分片。

举例说明：在本申请的一个实施例中，预设比例例如可以为15％，即样本音频数据经过分片处理后，多个分片中的15％分片作为目标分片，将该目标分片用掩码0替换，即被选中的分片中所有的帧都会被掩码0遮掩，但具体预设比例的确定根据用户需要灵活调整，本申请在此不做任何限制。

其中，在上述实施例中，由于样本音频数据进行过分片处理，为包括多个分片的音频数据，掩码层和第一编码层的处理也均是对多个分片进行处理的，因此处理结果均是以分片为单位的；仍以每个分片中包括连续N帧音频帧为例进行说明，此时第一前馈层经过掩码重构处理后，输出的重构预测结果的每一帧为每一个分片，因此输出的重构预测结果的每一帧对应原样本音频数据中连续N帧的重构结果。

可选地，在上述实施例的基础上，本申请实施例还可提供一种音频数据的预训练模型的训练方法，如下结合附图对上述方法中对得到目标预训练模型的实现过程进行示例说明。图3为本申请另一实施例提供的一种预训练模型的训练方法的流程示意图，如图3所示，S104可包括：

S108：根据重构预测结果，计算预训练模型的损失值。

其中，损失值例如可以为L1 loss，其作为该预训练模型的目标函数，用于在后续训练过程中，根据该目标函数确定模型是否训练完成。

S109：根据损失值对掩码参数进行更新，直至基于更新后的掩码参数得到的损失值最小，得到目标预训练模型。

可选地，在本申请的一个实施例中，可以根据当前损失值和预设损失阈值对掩码参数进行更新，确定更新后的掩码参数得到的损失值最小的方式例如可以为：若基于更新后的掩码参数得到的损失值小于或等于预设损失值，则确定当前模型训练完成，得到目标预训练模型；或者在预设训练次数阈值中，基于更新的掩码参数得到的损失值不再波动，或损失值的波动小于预设波动阈值，则确认当前模型训练完成，得到目标预训练模型。

采用本申请实施例提供的音频数据的预训练模型的训练方法，可以对样本音频数据进行分片处理后，从多个分片中确定目标分片，再根据预训练模型中的掩码层对目标分片进行掩码处理，得到掩码声学特征，最后根据第一编码层对掩码声学特征进行编码层对应音频任务的编码处理，并采用第一前馈层对编码处理后的音频数据进行掩码重构处理，得到声学特征的重构预测结果，最后根据重构预测结果，对掩码层的掩码参数进行更新，得到目标预训练模型，这样的处理方式由于均是以分片为单位进行处理的，因此保证了经过CNN的下采样后仍然可以保留掩码信息，经过本申请训练得到的目标预训练模型用于对各种类型的样本数据进行预训练，经过该目标预训练模型处理后的样本数据，由于经过掩码和重构，其通过学习得到的音频表示更具有鲁棒性和通用性，从而可以达到提高模型学习到的音频表示的鲁棒性，从而提高模型后续处理精度的作用。

图4为本申请一实施例提供的一种预训练模型的架构示意图，如图4所示，预训练模型包括：掩码层、第一编码层以及第一前馈层，其中：掩码层对样本音频数据进行掩码后，将掩码声学特征输入至第一编码层进行编码处理，并将编码处理后的音频数据发送至第一前馈层，通过第一前馈层进行掩码重构处理，得到声学特征的重构预测结果，并根据重构预测结果确定损失值，根据损失值对预训练模型进行更新，直至损失值满足预设条件时停止更新，得到目标预训练模型。具体预训练模型的训练过程以上述实施例给出为准，本申请在此不再赘述。

如下结合多个具体的应用示例，对本申请实施例所提供的一种音频数据的预训练方法进行解释说明。图5为本申请一实施例提供的一种音频数据的预训练方法的流程示意图，如图5所示，该方法包括：

S201：获取样本音频数据。

其中，样本音频数据可以为音频数据库中获取的，或是通过网络爬取的方式获取的，具体样本音频数据的获取方式可以根据用户需要灵活调整，并不以上述实施例给出的为限。

S202：采用预训练模型对样本音频数据进行预训练，得到预训练模型输出的预训练后的音频数据。

其中，预训练模型为采用上述图1-图4中任一方式进行训练得到的模型，预训练后的音频数据为预训练模型中第一编码层输出的编码后的音频数据，用以训练预设音频任务模型。

上述音频数据的预训练方法由于采用上述图1-图4中任一方式进行训练得到的模型，因此带来的有益效果与上述图1-图4中任一方法带来的有益效果相同，本申请在此不再赘述。

如下结合多个具体的应用示例，对本申请实施例所提供的一种音频任务模型的训练方法进行解释说明。图6为本申请一实施例提供的一种音频任务模型的训练方法的流程示意图，音频任务模型包括：第二编码层、解码层和第二前馈层；如图6所示，该方法包括：

S301：获取样本音频数据。

S302：采用预训练模型对样本音频数据进行预训练，得到预训练模型输出的预训练后的音频数据。

其中，预训练模型采用上述图1-图4中任一方式进行训练得到的模型，预训练后的音频数据为预训练模型中第一编码层输出的编码后的音频数据。

S303：采用第二编码层，对预训练后的音频数据以及样本音频数据进行预设音频任务的编码处理。

示例地，在一些可能的实施例中，预设音频任务为：语音翻译任务、语音情绪识别任务，或者，音频场景分类任务等，具体预设音频任务包括的类型可以根据用户需要灵活调整，并不以上述实施例给出的为限。

S304：采用解码层对编码处理后的音频数据进行预设音频任务对应的解码处理。

可选地，在本申请的一个实施例中，解码层为预设音频任务对应输出结果的类型对应的解码层。

这样的设置方式可以使得本申请提供的音频任务模型只需经过一次无监督训练，就可以适配多种音频任务，不论该音频任务是否针对语音，输出结果是序列还是标签类别，只需在执行不同音频任务时，将解码层根据不同的音频任务输出结果对应的类别进行微调即可，举例说明：例如如果当前音频任务对应的结果的输出类别是序列类别，则此时可以将解码层替换为Transformer的模型中的解码层，例如变换解码层(Transformer decoder)；如果当前音频任务对应的输出结果的类别是标签类别，则此时可以将解码层替换为平均池化层(average pooling)；应当理解具体音频任务的类别，解码层的选择方式，音频任务和解码层的匹配方式，均可以根据用户需要灵活调整，并不以上述实施例给出的为限。

S305：采用第二前馈层对解码处理后的音频数据进行处理，得到预设音频任务的目标预测结果。

S306：根据目标预测结果，对第二编码层和解码层的参数进行更新，得到目标音频任务模型。

其中，对第二编码层和解码层的参数进行更新可是使得在后续模型的使用过程中，可以自动根据不同类型的音频数据匹配对应的解码层，从而实现一个模型可以适配多种音频任务。

可选地，在本申请的一个实施例中，可以根据目标预测结果和实际样本音频数据对应的结果，确定损失值，根据损失函数对第二编码层和解码层的参数进行更新，例如可以为若基于更新后的第二编码层和解码层的参数得到的损失值小于或等于预设损失值，则确定当前模型训练完成，得到目标音频任务模型；或者在预设训练次数阈值中，基于更新后的第二编码层和解码层的参数得到的损失值不再波动，或损失值的波动小于预设波动阈值，则确认当前模型训练完成，得到目标音频任务模型；具体确定目标音频任务模型的方式可以根据用户需要灵活调整，并不以上述实施例给出的为限。

图7为本申请一实施例提供的一种目标音频任务模型的架构示意图，如图7所示，目标音频任务模型包括：第二编码层、解码层和第二前馈层，其中，第二编码层对音频数据(音频数据包括：预训练后的音频数据以及样本音频数据)进行编码处理后，将编码处理后的音频数据发送至解码层，其中解码层为根据音频任务确定的解码层，用于对编码处理后的音频数据进行预设音频任务对应的解码处理，再通过第二前馈层得到预设音频任务的目标预测结果，最后根据目标预测结果对第二编码层和解码层的参数进行更新，得到目标音频任务模型，具体模型训练的方法以上述实施例给出的为准，本申请在此不再赘述。

示例地，以将上述实施例提供的音频任务模型的训练方法应用于音频翻译任务、语音情绪识别任务和音频事件检测任务为例进行说明：应用在语音翻译任务中，经过训练得到的目标音频任务模型的性能表现更优，并且训练策略更为简单；在语音情绪识别任务中，采用本申请经过训练得到的目标音频任务模型UAR指标高达64.9％，该结果在现有技术中同样样本数据的条件下是最好的；在音频事件检测任务场景下，经过训练得到的目标音频任务模型不但模型架构简单，训练过程简单，并且性能表现优越，可见采用本申请提供的音频任务模型的训练方法，在多种音频任务上其性能均有提升，可以应用于多种下游任务。

采用上述实施例提供的音频任务模型的训练方法，由于采用上述图1-图4中任一方式进行训练得到的模型，因此带来的有益效果与上述图1-图4中任一方法带来的有益效果相同，此外，由于上述音频任务模型的训练方法可以根据不同的音频任务确定不同的解码层，使得本申请提供的音频任务模型只需经过一次无监督训练，就可以适配多种音频任务，从而实现仅通过一个模型就可以应用于多种下游音频任务上，并且在每个下游任务中，经过本申请提供的方法得到的模型性能更高。

基于同一发明构思，本申请实施例中还提供了与音频数据的预训练模型的训练方法对应的音频数据的预训练模型的训练装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述图1-图4方法相似，因此装置的实施可以参见方法的实施，有益效果的重复之处不再赘述。

图8为本申请一实施例提供的一种预训练模型的训练装置的结构示意图，如图8所示，该装置包括：处理模块401、重构模块402和更新模块403，其中：

处理模块401，用于采用掩码层，对样本音频数据进行掩码处理，得到掩码声学特征；采用第一编码层对掩码声学特征进行编码层对应音频任务的编码处理。

重构模块402，用于采用第一前馈层对编码处理后的音频数据进行掩码重构处理，得到声学特征的重构预测结果。

更新模块403，用于根据重构预测结果，对掩码层的掩码参数进行更新，得到目标预训练模型。

图9为本申请一实施例提供的一种预训练模型的训练装置的结构示意图，如图9所示，该装置还包括：确定模块404，其中：

处理模块401，具体用于根据预设帧数，对样本音频数据进行分片处理，得到样本音频数据的多个分片，每个分片的帧数为预设帧数。

确定模块404，用于从多个分片中确定目标分片；

处理模块401，具体用于对目标分片进行掩码处理，得到掩码声学特征。

可选地，确定模块404，具体用于根据预设比例，从分片中确定预设比例的分片为目标分片。

如图9所示，该装置还包括：计算模块405，用于根据重构预测结果，计算预训练模型的损失值。

确定模块404，具体用于根据损失值对掩码参数进行更新，直至基于更新后的掩码参数得到的损失值最小，得到目标预训练模型。

图10为本申请一实施例提供的一种音频数据的预训练装置的结构示意图，该装置包括：获取模块501和训练模块502，其中：

获取模块501，用于获取样本音频数据。

训练模块502，用于采用预训练模型对样本音频数据进行预训练，得到预训练模型输出的预训练后的音频数据；

图11为本申请一实施例提供的一种音频任务模型的训练装置的结构示意图，该装置包括：获取模块601、训练模块602、处理模块603和更新模块604，其中：

获取模块601，用于获取样本音频数据。

训练模块602，用于采用预训练模型对样本音频数据进行预训练，得到预训练模型输出的预训练后的音频数据；预训练模型采用上述第一方面中任一方式进行训练得到的模型，预训练后的音频数据为预训练模型中第一编码层输出的编码后的音频数据；

处理模块603，用于采用第二编码层，对预训练后的音频数据以及样本音频数据进行预设音频任务的编码处理；采用解码层对编码处理后的音频数据进行预设音频任务对应的解码处理；采用第二前馈层对解码处理后的音频数据进行处理，得到预设音频任务的目标预测结果；

更新模块604，用于根据目标预测结果，对第二编码层和解码层的参数进行更新，得到目标音频任务模型。

图12为本申请一实施例提供的一种计算机设备的结构示意图，如图12所示，该计算机设备包括：处理器701、存储器702和总线703；存储器702存储有处理器701可执行的机器可读指令，当计算机设备运行时，处理器701与存储器702之间通过总线703通信，处理器701执行机器可读指令，以执行如前述图1-图7方法实施例所提供的方法的步骤。

具体地，存储器702中所存储的机器可读指令为本申请前述实施例所述图1-图7方法的执行步骤，处理器701可执行上述方法对音频数据进行处理，因此，该模型的训练设备同样具备前述方法实施例中所述的全部有益效果，本申请亦不再重复描述。

需要说明的是，该处理器701可以是通用计算机或特殊用途的计算机，以及其他用于处理数据的服务器等，三者都可以用于实现本申请的上述图1-图7方法。本申请尽管仅仅通过计算机和服务器分别对上述方法进行了说明，但是为了方便起见，也可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，存储器702可以包括用于执行程序指令的一个或多个处理器、通信总线、和不同形式的存储介质，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。

为了便于说明，在本申请的上述实施例中仅描述了一个处理器。然而，应当注意，本申请中的其他实施例中，还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述图1-图7方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述图1-图7方法，从而，相对于现有技术，本申请通过学习得到的音频表示更具有鲁棒性和通用性，从而可以达到提高模型学习到的音频表示的鲁棒性，从而提高模型后续处理精度的作用。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种预训练模型的训练方法，其特征在于，所述预训练模型包括：掩码层、第一编码层以及第一前馈层，所述方法包括：

根据所述重构预测结果，对所述掩码层的掩码参数进行更新，得到目标预训练模型；所述掩码参数包括下述至少一项：连续掩码帧数和/或掩码帧数占样本音频数据总帧数的比例。

2.如权利要求1所述的方法，其特征在于，所述掩码参数包括：预设帧数；所述对样本音频数据进行掩码处理，得到掩码声学特征，包括：

从所述多个分片中确定目标分片；

对所述目标分片进行掩码处理，得到所述掩码声学特征。

3.根据权利要求2所述的方法，其特征在于，所述掩码参数还包括：预设比例；所述从所述多个分片中确定目标分片，包括；

4.如权利要求1-3中任一所述的方法，其特征在于，所述根据所述重构预测结果，对所述掩码层的掩码参数进行更新，得到目标预训练模型，包括：

根据所述重构预测结果，计算所述预训练模型的损失值；

5.一种音频数据的预训练方法，其特征在于，所述方法包括：

获取样本音频数据；

其中，所述预训练模型为采用上述权利要求1-4中任一方式进行训练得到的模型，所述预训练后的音频数据为所述预训练模型中所述第一编码层输出的编码后的音频数据，用以训练预设音频任务模型。

6.一种音频任务模型的训练方法，其特征在于，所述音频任务模型包括：第二编码层、解码层和第二前馈层；所述方法包括：

获取样本音频数据；

采用预训练模型对所述样本音频数据进行预训练，得到所述预训练模型输出的预训练后的音频数据；所述预训练模型采用上述权利要求1-4中任一方式进行训练得到的模型，所述预训练后的音频数据为所述预训练模型中所述第一编码层输出的编码后的音频数据；

7.如权利要求6所述的方法，其特征在于，所述解码层为所述预设音频任务对应输出结果的类型对应的解码层。

8.如权利要求7所述的方法，其特征在于，若所述预设音频任务对应输出结果为音频序列，则所述解码层为变换解码层；或者，

9.如权利要求6-8中任一所述的方法，其特征在于，所述预设音频任务为：语音翻译任务、语音情绪识别任务，或者，音频场景分类任务。

10.一种预训练模型的训练装置，其特征在于，所述装置包括：处理模块、重构模块和更新模块，其中：

所述处理模块，用于采用掩码层，对样本音频数据进行掩码处理，得到掩码声学特征；采用第一编码层对所述掩码声学特征进行所述编码层对应音频任务的编码处理；

所述重构模块，用于采用第一前馈层对所述编码处理后的音频数据进行掩码重构处理，得到声学特征的重构预测结果；

所述更新模块，用于根据所述重构预测结果，对所述掩码层的掩码参数进行更新，得到目标预训练模型；所述掩码参数包括下述至少一项：连续掩码帧数和/或掩码帧数占样本音频数据总帧数的比例。

11.如权利要求10所述的装置，其特征在于，所述装置还包括：确定模块，其中：

所述处理模块，具体用于根据预设帧数，对所述样本音频数据进行分片处理，得到所述样本音频数据的多个分片，每个分片的帧数为所述预设帧数；

所述确定模块，用于从所述多个分片中确定目标分片；

12.一种音频数据的预训练装置，其特征在于，所述装置包括：获取模块和训练模块，其中：

所述获取模块，用于获取样本音频数据；

所述训练模块，用于获取样本音频数据；采用预训练模型对所述样本音频数据进行预训练，得到所述预训练模型输出的预训练后的音频数据；

13.一种音频任务模型的训练装置，其特征在于，所述装置包括：获取模块、训练模块、处理模块和更新模块，其中：

所述获取模块，用于获取样本音频数据；

所述训练模块，用于采用预训练模型对所述样本音频数据进行预训练，得到所述预训练模型输出的预训练后的音频数据；所述预训练模型采用上述权利要求1-4中任一方式进行训练得到的模型，所述预训练后的音频数据为所述预训练模型中所述第一编码层输出的编码后的音频数据；

14.一种计算机设备，其特征在于，所述设备包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述模型的训练设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述权利要求1-9任一项所述的方法。

15.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述权利要求1-9任一项所述的方法。