CN111508480A

CN111508480A - 音频识别模型的训练方法、音频识别方法、装置及设备

Info

Publication number: CN111508480A
Application number: CN202010314878.8A
Authority: CN
Inventors: 冀先朋; 丁彧; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-07
Anticipated expiration: 2040-04-20
Also published as: CN111508480B

Abstract

本申请提供一种音频识别模型的训练方法、音频识别方法、装置及设备，涉及人工智能技术领域。其中，该训练方法通过获取训练数据集，训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，训练样本数据包括音频特征数据和与音频特征数据相对应的演奏者的动作特征数据，进而通过神经网络模型，利用音符类别标签、训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练获取的音频识别模型可以用于音频数据中音符类别的识别和分割，相较于人工识别和分割的方式，可以省时省力，节省人力成本，且可以提高音符类别识别和分割的准确性。

Description

音频识别模型的训练方法、音频识别方法、装置及设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种音频识别模型的训练方法、音频识别方法、装置及设备。

背景技术

随着人工智能技术在多媒体制作、游戏内容制作等领域的应用进入实用化阶段，实现对原始演奏音乐的时段分割与音符识别的需求越来越受到人们的关注。一个好的演奏乐音分割与识别技术能够为多媒体信息(尤其是音乐数据)的后续处理、编辑、挖掘及人机交互、游戏玩法设计等领域带来极大便利。

现有的，对于演奏乐音的分割与识别主要是通过人工来实现，即经过预先训练的专业人员，通过听取原始音频录音，或使用标注软件，对音符的起止时间和音符类别进行人工标记。

但现有的采用人工进行识别、分割的方式，存在耗时耗力，人力成本高且容易出现分割时间位点不准、音符识别错误。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种音频识别模型的训练方法、音频识别方法、装置及设备，可以解决现有技术中采用人工方式进行识别、分割时，工作效率低以及准确度较低的技术问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种音频识别模型的训练方法，包括：

获取训练数据集，所述训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，所述训练样本数据包括音频特征数据和与所述音频特征数据相对应的演奏者的动作特征数据；

通过神经网络模型，利用音符类别标签和所述训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练，以获取音频识别模型。

可选地，上述获取训练数据集，包括：

获取标注有音符类别标签的初始训练样本数据，所述初始训练样本数据包括：初始音频特征数据和与所述初始音频特征数据对应的演奏者的初始动作特征数据；

采用预设长度数据截取窗口对所述初始训练样本数据进行滑动截取，获取截取后的多个训练样本数据；

从所述截取后的多个训练样本数据中获取所述训练数据集和测试数据集，所述测试数据集包括标注有音符类别标签的多个预设长度的训练样本数据。

可选地，预先根据所述音频特征数据和所述动作特征数据形成多模态特征数据，上述神经网络模型包括至少一层特征提取层和与所述至少一层特征提取层对应的类别预测层，所述通过神经网络模型，利用音符类别标签和所述训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练，以获取音频识别模型，包括：

采用所述至少一层特征提取层对所述训练数据集中的训练样本数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据；

通过所述类别预测层，利用所述逐级提取的多模态特征数据和对应的音符类型标签进行训练，以获取所述音频识别模型。

可选地，音频特征数据包括音频数据的响度和音频数据的梅尔倒谱系数。

可选地，所述特征提取层包括至少一层卷积特征提取层和至少一层最大值池化层，每层所述卷积特征提取层后跟随一层最大值池化层；

所述类别预测层包括至少一层解卷积层和至少一层上采样层，每层所述解卷积层同时接收上层所述解卷积层的输出和相同层级的所述卷积特征提取层的输出。

可选地，上述方法还包括：

采用音频识别模型获取所述测试数据集中同一帧音频数据在不同数据截取窗口中的音符类别识别结果；

根据所述音符类别识别结果和所述测试数据集中标注的音符类别标签，更新训练所述音频识别模型。

可选地，上述根据所述音符类别识别结果和所述测试数据集中标注的音符类别标签，更新训练所述音频识别模型，包括：

根据所述音符类别识别结果和数据截取窗口中各帧音频数据所对应的预设权重，预测所述测试数据集中各帧音频数据的音符类别；

根据所述测试数据集中各帧音频数据的音符类别和所述测试数据集中标注的音符类别标签，更新训练所述音频识别模型。

第二方面，本申请实施例提供了一种音频识别方法，包括：

获取待识别音频数据，所述待识别音频数据包括：音频特征数据和与所述音频特征数据相对应的演奏者的动作特征数据；

采用音频识别模型识别所述待识别音频数据中的音符类别，并分割各所述音符类别所对应的待识别音频数据，其中，所述音频识别模型由神经网络模型、以及训练数据集训练获取，所述训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，所述训练样本数据包括音频特征数据和与所述音频特征数据相对应的演奏者的动作特征数据。

可选地，上述采用音频识别模型识别所述待识别音频数据中的音符类别，并分割各所述音符类别所对应的待识别音频数据，包括：

采用音频识别模型识别所述待识别音频数据中各帧所述待识别音频数据的音符类别，获取识别结果；

根据所述识别结果，对所述待识别音频数据进行分割，获取各音符类别所对应的待识别音频数据。

可选地，预先根据所述音频特征数据和所述动作特征数据形成多模态特征数据；上述神经网络模型包括至少一层特征提取层和与所述至少一层特征提取层对应的类别预测层，所述采用音频识别模型识别所述待识别音频数据中的音符类别，包括：

采用所述至少一层特征提取层对所述待识别音频数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据；

通过所述类别预测层对所述逐级提取的多模态特征数据进行音符类别预测，识别所述待识别音频数据中的音符类别。

可选地，上述方法包括：

采用至少一层卷积特征提取层和至少一层最大值池化层对所述待识别音频数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据；

通过至少一层解卷积层和至少一层上采样层对所述逐级提取的多模态特征数据进行音符类别预测，识别所述待识别音频数据中的音符类别。

可选地，上述采用音频识别模型识别所述待识别音频数据中的音符类别，包括：

采用音频识别模型获取所述待识别音频数据中同一帧音频数据在不同数据截取窗口中的音符类别识别结果；

根据所述同一帧音频数据在不同数据截取窗口中的音符类别识别结果，确定所述待识别音频数据中的音符类别。

可选地，上述根据所述同一帧音频数据在不同数据截取窗口中的音符类别识别结果，确定所述待识别音频数据中的音符类别，包括：

根据所述同一帧音频数据在不同数据截取窗口中的识别结果和数据截取窗口中各帧音频数据所对应的预设权重，确定所述待识别音频数据中的音符类别。

第三方面，本申请实施例提供了一种音频识别模型的训练装置，包括：第一获取模块和训练模块；

所述第一获取模块，用于获取训练数据集，所述训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，所述训练样本数据包括音频特征数据和与所述音频特征数据相对应的演奏者的动作特征数据；

所述训练模块，用于通过神经网络模型，利用音符类别标签和所述训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练，以获取音频识别模型。

可选地，所述第一获取模块，具体用于获取标注有音符类别标签的初始训练样本数据，所述初始训练样本数据包括：初始音频特征数据和与所述初始音频特征数据对应的演奏者的初始动作特征数据；

可选地，预先根据所述音频特征数据和所述动作特征数据形成多模态特征数据，所述神经网络模型包括至少一层特征提取层和与所述至少一层特征提取层对应的类别预测层；

所述训练模块，具体用于采用所述至少一层特征提取层对所述训练数据集中的训练样本数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据；

可选地，所述音频特征数据包括音频数据的响度和音频数据的梅尔倒谱系数。

可选地，上述装置还包括：第二获取模块和更新模块；

所述第二获取模块，用于采用音频识别模型获取所述测试数据集中同一帧音频数据在不同数据截取窗口中的音符类别识别结果；

所述更新模块，用于根据所述音符类别识别结果和所述测试数据集中标注的音符类别标签，更新训练所述音频识别模型。

可选地，所述更新模块，具体用于根据所述音符类别识别结果和数据截取窗口中各帧音频数据所对应的预设权重，预测所述测试数据集中各帧音频数据的音符类别；

第四方面，本申请实施例提供了一种音频识别装置，包括：第三获取模块和识别模块；

所述第三获取模块，用于获取待识别音频数据，所述待识别音频数据包括：音频特征数据和与所述音频特征数据相对应的演奏者的动作特征数据；

所述识别模块，用于采用音频识别模型识别所述待识别音频数据中的音符类别，并分割各所述音符类别所对应的待识别音频数据，其中，所述音频识别模型由神经网络模型、以及训练数据集训练获取，所述训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，所述训练样本数据包括音频特征数据和与所述音频特征数据相对应的演奏者的动作特征数据。

可选地，所述识别模块，具体用于采用音频识别模型识别所述待识别音频数据中各帧所述待识别音频数据的音符类别，获取识别结果；

可选地，预先根据所述音频特征数据和所述动作特征数据形成多模态特征数据；所述神经网络模型包括至少一层特征提取层和与所述至少一层特征提取层对应的类别预测层，所述识别模块，具体用于采用所述至少一层特征提取层对所述待识别音频数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据；

可选地，所述识别模块，具体用于采用至少一层卷积特征提取层和至少一层最大值池化层对所述待识别音频数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据；

可选地，所述识别模块，具体用于采用音频识别模型获取所述待识别音频数据中同一帧音频数据在不同数据截取窗口中的音符类别识别结果；

可选地，所述识别模块，具体用于根据所述同一帧音频数据在不同数据截取窗口中的识别结果和数据截取窗口中各帧音频数据所对应的预设权重，确定所述待识别音频数据中的音符类别。

第五方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，存储介质存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行上述方法的步骤。

第六方面，本申请实施例提供了一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述方法的步骤。

本申请的有益效果是：

本申请实施例提供的一种音频识别模型的训练方法、音频识别方法、装置及设备中，通过获取训练数据集，训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，训练样本数据包括音频特征数据和与音频特征数据相对应的演奏者的动作特征数据，进而通过神经网络模型，利用音符类别标签、训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练获取的音频识别模型可以用于音频数据中音符类别的识别和分割，相较于人工识别和分割的方式，可以省时省力，节省人力成本，且可以提高音符类别识别和分割的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种音频识别模型的训练方法的流程示意图；

图2为本申请实施例提供的另一种音频识别模型的训练方法的流程示意图；

图3为本申请实施例提供的一种滑动截取方法的示意图；

图4为本申请实施例提供的又一种音频识别模型的训练方法的流程示意图；

图5为本申请实施例提供的一种神经网络模型的结构示意图；

图6为本申请实施例提供的另一种音频识别模型的训练方法的流程示意图；

图7为本申请实施例提供的又一种音频识别模型的训练方法的流程示意图；

图8为本申请实施例提供的一种识别音符类别的逻辑示意图；

图9为本申请实施例提供的一种音频识别方法的流程示意图；

图10为本申请实施例提供的一种音频识别方法的逻辑示意图；

图11为本申请实施例提供的另一种音频识别方法的流程示意图；

图12为本申请实施例提供的又一种音频识别方法的流程示意图；

图13为本申请实施例提供的另一种音频识别方法的流程示意图；

图14为本申请实施例提供的又一种音频识别方法的流程示意图；

图15为本申请实施例提供的一种音频识别模型的训练装置的结构示意图；

图16为本申请实施例提供的一种音频识别模型的训练装置的结构示意图；

图17为本申请实施例提供的一种音频识别装置的结构示意图；

图18为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1为本申请实施例提供的一种音频识别模型的训练方法的流程示意图，该方法的执行主体可以是计算机、服务器、处理器等可以进行数据处理的设备，经该方法训练获取的音频识别模型可以用于音频数据的类别识别和分割。如图1所示，该方法包括：

S101、获取训练数据集，训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，训练样本数据包括音频特征数据和与音频特征数据相对应的演奏者的动作特征数据。

其中，音频特征数据和与音频特征数据相对应的演奏者的动作特征数据在时间上可以是对应的，也即是时序对齐的。其中，音频特征数据可以为演奏者演奏某乐音时所对应的音频特征数据，而与音频特征数据相对应的演奏者的动作特征数据可以为即演奏者演奏该乐音时对应的人体动作捕捉数据，其可以通过获取演奏者身体骨骼关键点动作捕捉数据得到，比如，可以在演奏者身体上设置相应的采样单元监测获取，比如，位姿传感器，但不此为限。

各训练样本数据标注的音符类别标签可以采用人工标注的方式标注，从而可以构造用于神经网络模型训练的数据标签L，该数据标签L可以表示各训练样本数据在时间顺序上的音符真实类别的排列，那么，通过数据标签L可以将各训练样本数据中各帧进行对应，则数据标签L可以表示为：L＝{l₀…l_i…l_n}，其中，l_i表示第i帧训练样本数据对应的音符类别标签，n为大于0的整数。

需要说明的是，上述预设长度可以根据帧数来划分，比如，预设帧数，也可以根据时长来划分，比如，1秒钟、2秒钟等，本申请在此不作限定。

S102、通过神经网络模型，利用音符类别标签和训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练，以获取音频识别模型。

在获取到上述训练数据集后，由于该训练数据集中训练样本数据包括音频特征数据和与音频特征数据相对应的演奏者的动作特征数据，因此，通过神经网络模型，利用音符类别标签和训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练，以获取音频识别模型时，不仅考虑了音频数据的声学特征，还结合了演奏者的身体动作捕捉信息，进而在用于音频数据的类别识别时，可以减少环境噪声对识别结果的影响，在识别音频数据后则可进一步进行音频数据的分割，提高识别、分割的准确率、以及音频识别模型的适应性。

综上所述，本申请实施例所提供的音频识别模型的训练方法中，包括：获取训练数据集，训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，训练样本数据包括音频特征数据和与音频特征数据相对应的演奏者的动作特征数据，进而通过神经网络模型，利用音符类别标签、训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练获取的音频识别模型可以用于音频数据中音符类别的识别和分割，相较于人工识别和分割的方式，可以省时省力，节省人力成本，且可以提高音符类别识别和分割的准确性。

此外，相较于现有技术中基于声学特征的规则化方法进行音频数据的分割和识别，本申请实施例训练获取的音频识别模型可以克服基于声学特征的规则化方法在各种演奏手法、音乐流派、随机噪音等方面的扩展能力不足的问题，尤其是演奏手法方面，作为一种既定的常见组合(如古筝演奏中的刮奏和摇指)，通常需要视为整体而被分割与识别，基于声学特征的规则化方法在此方面的分割能力极大不足，并直接影响其后续的识别准确率，而本申请相比于基于声学特征的规则化方法，能够实现更加复杂的演奏手法识别，鲁棒性更强。

图2为本申请实施例提供的另一种音频识别模型的训练方法的流程示意图。可选地，如图2所示，上述获取训练数据集，包括：

S201、获取标注有音符类别标签的初始训练样本数据，初始训练样本数据包括：初始音频特征数据和与初始音频特征数据对应的演奏者的初始动作特征数据。

S202、采用预设长度数据截取窗口对初始训练样本数据进行滑动截取，获取截取后的多个训练样本数据。

S203、从截取后的多个训练样本数据中获取训练数据集和测试数据集，测试数据集包括标注有音符类别标签的多个预设长度的训练样本数据。

可选地，初始训练样本数据可以在某演奏者演奏乐音时获取，比如，可以在某演奏者演奏乐音时获取时序对齐的演奏内容录音R作为初始音频数据、获取演奏该初始音频数据时演奏者的身体骨骼关键点动作捕捉数据S作为该初始音频特征数据对应的演奏者的初始动作数据，进而根据该初始音频数据和该初始动作数据，可以获取到对应的初始音频特征数据以及初始动作特征数据，可选地，可以采用人工标注的方式对该初始训练样本数据进行标注，以标注初始训练样本数据中各帧音频数据的音符类别标签，获取标注有音符类别标签的初始训练样本数据。需要说明的是，上述演奏者的身体骨骼关键点动作捕捉数据S的获取可以通过在演奏者身上各关键点(比如，胳膊)设置相应的采集单元(比如，位姿传感器)，通过获取采样单元的采集数据实现获取，但不以此为限，根据实际的应用场景，也可以采用其他方式实现，本申请在此不作限制。

在获取标注有音符类别标签的初始训练样本数据之后，即可采用预设长度数据截取窗口对初始训练样本数据进行滑动截取，该预设长度数据截取窗口可以是包括固定帧数的截取窗口。图3为本申请实施例提供的一种滑动截取方法的示意图。比如，预设长度数据截取窗口为包括7帧音频数据的截取窗口，具体截取时，如图3所示，可以在时序维度上进行滑动截取数据的操作，每一次滑动操作，窗口内的数据作为一个训练样本数据，可以获取截取后的多个训练样本数据，因此，在一定程度上大大扩充了训练样本数据。其中，每个训练样本数据分别包括7帧音频数据，各帧音频数据所标注的音符类别标签可以通过初始训练样本数据获取。

当然，在获取截取后的多个训练样本数据后，可以从截取后的多个训练样本数据中获取训练数据集和测试数据集，其中，可以使用训练数据集和神经网络模型训练获取音频识别模型，使用测试数据集测试音频识别模型的性能表现，直至模型符合预设要求(比如，达到预设识别准确率)，即可获取到符合预设要求的音频识别模型。

其中，测试数据集可以包括标注有音符类别标签的多个预设长度的测试样本数据，在获取到音频识别模型之后，采用测试数据集检测获取音频识别模型的测试结果。比如，可以将测试数据集输入音频识别模型，获取测试数据集中各测试样本数据中的音符类别的识别结果，然后将该识别结果与测试数据集标注的音符类别标签进行对比，根据对比结果，获取音频识别模型的测试结果，该测试结果可以表示音频识别模型识别的准确率。

比如，可以将获取的音频识别模型的测试结果与预设值进行对比，根据对比结果来判断是否要进一步训练音频识别模型。比如，若测试结果低于预设值，则表示音频识别模型的音符类别识别准确率低于预设要求，可以对该音频识别模型进一步训练，以训练获取满足预设要求的音频识别模型；而若该测试结果高于预设值，则表示音频识别模型的音符类别识别准确率满意预设要求，此时可以停止模型的训练，将模型用于实际的应用。

可选地，实际进行训练时，可以进一步采用交叉熵损失函数作为音频识别模型的训练依据，使用自适应矩估计(Adaptive moment estimation，Adam)优化器和随机梯度下降法实现梯度计算和参数更新；同时，针对训练数据集中各音符类别的测试样本数据分布不均匀的情况，本申请可以在训练过程中采用hard_sampling方法，即在计算损失函数下降梯度时，仅计算损失值从大到小排序的前二分之一样本的梯度，在此基础上，持续训练该神经网络直至其收敛。

其中，本申请在此以某帧音频数据为例进行说明，对于具体的某帧音频数据，其对应的损失Loss_i可以表示为：Loss_i＝-[l_i*log₂prediction_i]。其中，l_i表示第i帧音频数据所对应音符类别的真实类别，prediction_i表示音频识别模型对第i帧音频数据对应音符类别的预测类别，则交叉熵损失函数可以衡量真实类别和预测类别之间的差距，根据此差距即可训练神网络模型，从而获取到音符类别识别准确率较高的音频识别模型。

需要说明的是，上述采用预设长度数据截取窗口对初始训练样本数据进行滑动截取的操作，在此过程中，滑动截取操作充分考虑了音符类别的分割和音符识别需要的信息仅与每帧周围小范围内的音频数据有关的特点，从而无需将整个初始训练样本数据输入到神经网络模型中，而将初始训练样本数据截取成多个训练样本数据输入到神经网络模型中，可以缩短训练样本数据的尺寸，实现神经网络模型中参数复用、防止过拟合现象的发生。

此外，需要说明的是，根据神经网络的原理和功能特点，其对各训练数据的输入有一定的结构化要求，面对收集和人工标注的各训练数据存在明显的长短不一的情况，现有的，深度学习领域常规处理方式有两种，一种是采用可处理变长数据的循环神经网络(Recurrent Neural Network，RNN)结构，一种是将数据在长度上使用固定数据进行填充，但是RNN结构处理过长数据的性能表现较差，且本申请所处理的数据长度远远超过循环神经网络有效的表征长度，所以本申请未采用RNN等神经网络结构。可选地，本申请的神经网络模型可以基于U-net神经网络实现，传统U-net神经网络结构是用于图像分割的两维结构，而本申请为了适应以音频信息为基础的数据结构，本申请基于一维化U-net神经网络实现。

基于一维化U-net神经网络实现时，由于每一次滑动操作，窗口内的数据作为一个训练样本数据，因此，一方面可以保证各训练样本数据长度一致，且还能扩充样本数量，减少训练样本数据采集的过程。

图4为本申请实施例提供的又一种音频识别模型的训练方法的流程示意图。可选地，预先根据音频特征数据和动作特征数据形成多模态特征数据，神经网络模型包括至少一层特征提取层和与至少一层特征提取层对应的类别预测层，如图4所示，上述通过神经网络模型，利用音符类别标签和训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练，以获取音频识别模型，包括：

S301、采用至少一层特征提取层对训练数据集中的训练样本数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据。

S302、通过类别预测层，利用逐级提取的多模态特征数据和对应的音符类型标签进行训练，以获取音频识别模型。

其中，通过对音频特征数据和与音频特征数据相对应的演奏者的动作特征数据进行数据维度的级联，可以获得训练样本数据的多模态特征数据，在获取到训练样本数据的多模态特征数据后，可以采用至少一层特征提取层对训练数据集中的训练样本数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据，给出不同层级的表征，通过至少一层类别预测层，利用逐级提取的多模态特征数据和对应的音符类型标签进行训练，以训练获取音频识别模型。

需要说明的是，上述神经网络模型可以基于一维化U-net神经网络结构实现，使用一维卷积和一维解卷积操作作为基本操作，如此，可以适应音频数据等的一维数据结构，进而获取神经网络模型对输入各帧音频数据中音符类别概率分布的预测，且可以同时完成分割和识别两个任务。

可选地，上述音频特征数据包括音频数据的响度和音频数据的梅尔倒谱系数。

其中，根据音频特征数据和动作特征数据形成多模态特征数据的过程具体可参见下述内容。比如，在某演奏者演奏乐音时，若获取到前述时序对齐的演奏内容录音R和演奏者身体骨骼关键点动作捕捉数据S，那么，可以取与动作捕捉数据相同的帧数n，对演奏内容录音R的音频数据加n个滑动窗口，调整窗口大小，使这些窗口依次呈现部分交叠后固定下窗口大小，计算窗口内的音频特征数据，音频特征数据可以包括音频数据的响度和音频数据的128维梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，将同一窗口内MFCC值、响度值、该音频特征数据相对应的演奏者的动作特征数据进行数据维度的级联，即可获得该帧内的多模态特征，整个多模态数据可以表示为：

M＝{m₀…m_i…m_n}

其中，m_i表示第i帧音频数据的多模态特征，由此可知：

m_i＝[MFCC_i:v_i:S_i]

其中，MFCC_i表示音频数据中第i帧音频数据对应的MFCC值，v_i表示音频数据中第i帧音频数据对应的响度值，S_i表示音频数据中第i帧音频数据对应的动作特征数据。

可选地，上述特征提取层包括至少一层卷积特征提取层和至少一层最大值池化层，每层卷积特征提取层后跟随一层最大值池化层；类别预测层包括至少一层解卷积层和至少一层上采样层，每层解卷积层同时接收上层解卷积层的输出和相同层级的卷积特征提取层的输出。

图5为本申请实施例提供的一种神经网络模型的结构示意图，如图5所示，左侧的倒金字塔结构表示特征提取层所对应的网络结构，该网络结构可以包括5层卷积特征提取层CNN_Maxpooling，每一层卷积特征提取层后跟随一层最大值池化层，用于对训练数据集中音频数据进行逐级的特征提取，并依次给出不同层级的表征；右侧倒金字塔结构表示类别预测层所对应的网络结构，该网络结构可以包括5层解卷积层和上采样层deCNN_upsample，每个解卷积层同时接收上一解卷积层的输出和相同层级的卷积特征提取层的输出，其中，卷积与解卷积操作分别是一维卷积和一维解卷积，类别预测层以特征提取层的最终输出为输入，并逐级输入前一层的输出和对应层级的特征提取层的输出，最终输出每一帧音频数据的音符类别的对应预测结果。

图6为本申请实施例提供的另一种音频识别模型的训练方法的流程示意图。可选地，如图6所示，上述方法还包括：

S401、采用音频识别模型获取测试数据集中同一帧音频数据在不同数据截取窗口中的音符类别识别结果。

S402、根据音符类别识别结果和测试数据集中标注的音符类别标签，更新训练音频识别模型。

其中，可以根据同一帧音频数据在不同数据截取窗口中的识别结果，使用“投票法”进行集成，更新训练音频识别模型，获取更新后的音频识别模型，进而通过更新后的音频识别模型可以给出最终修正的类别预测结果。

比如，对于某待识别音频数据，该待识别音频数据包括20帧，若数据截取窗口长度为7帧，每次滑动步长为1，滑动3次后，若记第一数据截取窗口包括第1帧～第7帧音频数据，第二数据截取窗口包括第2帧～第8帧音频数据，第三数据截取窗口包括第3帧～第9帧音频数据，则对于待识别音频数据中的第3帧，其均在第一数据截取窗口、第二数据截取窗口及第三数据截取窗口中出现，若在各截取窗口中，音频识别模型识别待识别音频数据中的第3帧音频数据的音符类别分别是第一音符类别、第一音符类别、第二音符类别，则可以根据投票法，少数服从多数的原则，认为该第3帧音频数据的类别为第一音符类别，如此，可以在初步预测的基础上，根据音符类别识别结果和测试数据集中标注的音符类别标签，更新训练音频识别模型，获取更新后的音频识别模型，使得基于更新后的音频识别模型进行音频数据中音符类别的识别时，可以进一步提高识别、分割音频数据的准确性，进一步提高非特定环境下音频识别模型的性能表现。

图7为本申请实施例提供的又一种音频识别模型的训练方法的流程示意图。可选地，如图7所示，上述根据音符类别识别结果和测试数据集中标注的音符类别标签，更新训练音频识别模型，包括：

S501、根据音符类别识别结果和数据截取窗口中各帧音频数据所对应的预设权重，预测测试数据集中各帧音频数据的音符类别。

S502、根据测试数据集中各帧音频数据的音符类别和测试数据集中标注的音符类别标签，更新训练音频识别模型。

此外，也可以根据同一帧音频数据在不同数据截取窗口中的识别结果，使用“加权投票法”进行集成，给出最终修正的音符类别预测结果。

图8为本申请实施例提供的一种识别音符类别的逻辑示意图。其中，如图8所示，在设置数据截取窗口中各帧音频数据所对应的预设权重时，由于对处在数据截取窗口中间位置的帧的预测可以较多地依赖到左、右两侧数据变化的全面情况，则识别结果往往表现更好，因此本申请在“加权投票法”过程中，将帧处在数据截取窗口中间位置时的模型的预测结果的预设权重设为最高，即为1.0，其他位置的权重依照距离数据截取窗口中间位置的距离增加而呈现下降(比如，可以线性下降)，直至达到数据截取窗口边界时候，权重下降为0.0，进而使得能够大大提高模型对具有噪音的样本的鲁棒性，提高模型识别、分割的准确性。

比如，若数据截取窗口长度为7帧，则各位置帧所对应的预设权重可以依次为0.0、0.2、0.5、1.0、0.5、0.2、0.0，但不以此为限，根据实际的应用场景可以灵活设置。

图9为本申请实施例提供的一种音频识别方法的流程示意图，该方法的执行主体可以是计算机、服务器、处理器等可以进行数据处理的设备，如图9所示，该方法包括：

S601、获取待识别音频数据，待识别音频数据包括：音频特征数据和与音频特征数据相对应的演奏者的动作特征数据。

其中，待识别音频数据可以来自任意一段需要识别的音频数据，该音频数据可以通过网络获取，或者用户输入来获取，在此不作限制，该音频数据可以包括音频特征数据和与音频特征数据相对应的演奏者的动作特征数据。

S602、采用音频识别模型识别待识别音频数据中的音符类别，并分割各音符类别所对应的待识别音频数据。

其中，音频识别模型由神经网络模型、以及训练数据集训练获取，训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，训练样本数据包括音频特征数据和与音频特征数据相对应的演奏者的动作特征数据。

图10为本申请实施例提供的一种音频识别方法的逻辑示意图。如图10所示，待识别音频数据可以为需要识别的音频数据，包括音频特征数据和与音频特征数据相对应的演奏者的动作特征数据，则可以将该待识别音频数据输入到前述音频识别模型中，采用该音频识别模型识别待识别音频数据中各帧待识别音频数据的音符类别，而在识别各帧待识别音频数据的音符类别后，则可根据各音符类别分割待识别音频数据，具有识别、分割准确率高的特点，其识别分割结果可见图10中的内容，其中，不同的音符类别所对应的待识别音频数据被进行了划分。

图11为本申请实施例提供的另一种音频识别方法的流程示意图。可选地，如图11所示，上述采用音频识别模型识别待识别音频数据中的音符类别，并分割各音符类别所对应的待识别音频数据，包括：

S701、采用音频识别模型识别待识别音频数据中各帧待识别音频数据的音符类别，获取识别结果。

S702、根据识别结果，对待识别音频数据进行分割，获取各音符类别所对应的待识别音频数据。

其中，可以采用音频识别模型对待识别音频数据中的每帧音频数据进行音符类别的识别，并根据识别结果的连续性进行音符分割。

比如，对于某待识别音频数据，该待识别音频数据包括20帧，经识别后前12帧均是第一音符类别的音频数据，后8帧均是第二音符类别的音频数据，因此，可以将该待识别音频数据分割成两部分，第一部分对应第一音符类别的音频数据，第二部分对应第二音符类别的音频数据。

图12为本申请实施例提供的又一种音频识别方法的流程示意图。可选地，预先根据音频特征数据和动作特征数据形成多模态特征数据；神经网络模型包括至少一层特征提取层和与至少一层特征提取层对应的类别预测层，如图12所示，上述采用音频识别模型识别待识别音频数据中的音符类别，包括：

S801、采用至少一层特征提取层对待识别音频数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据。

S802、通过类别预测层对逐级提取的多模态特征数据进行音符类别预测，识别待识别音频数据中的音符类别。

图13为本申请实施例提供的另一种音频识别方法的流程示意图。可选地，如图13所示，上述方法包括：

S901、采用至少一层卷积特征提取层和至少一层最大值池化层对待识别音频数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据。

S902、通过至少一层解卷积层和至少一层上采样层对逐级提取的多模态特征数据进行音符类别预测，识别待识别音频数据中的音符类别。

其中，对于该部分内容的说明，可参见前述音频识别模型的训练方法的相关部分，本申请在此不再赘述。

图14为本申请实施例提供的又一种音频识别方法的流程示意图。可选地，如图14所示，上述采用音频识别模型识别待识别音频数据中的音符类别，包括：

S1001、采用音频识别模型获取待识别音频数据中同一帧音频数据在不同数据截取窗口中的音符类别识别结果。

S1002、根据同一帧音频数据在不同数据截取窗口中的音符类别识别结果，确定待识别音频数据中的音符类别。

可选地，上述根据同一帧音频数据在不同数据截取窗口中的音符类别识别结果，确定待识别音频数据中的音符类别，包括：

根据同一帧音频数据在不同数据截取窗口中的识别结果和数据截取窗口中各帧音频数据所对应的预设权重，确定待识别音频数据中的音符类别。

当然，需要说明的是，若依据前述的相关部分对音频识别模型进行了更新，那么根据更新后的音频识别模型确定待识别音频数据中的音符类别时，可以参见前述更新的过程，采用该音频识别模型获取待识别音频数据中同一帧音频数据在不同数据截取窗口中的音符类别识别结果，进而可以根据同一帧音频数据在不同数据截取窗口中的识别结果和数据截取窗口中各帧音频数据所对应的预设权重，给出最终修正的类别预测结果，确定待识别音频数据中的音符类别，进一步提高音符类别识别和分割的准确性。

图15为本申请实施例提供的一种音频识别模型的训练装置的结构示意图，该装置基本原理及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。如图15所示，该音频识别模型的训练装置100包括：第一获取模块110和训练模块120。

第一获取模块110，用于获取训练数据集，训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，训练样本数据包括音频特征数据和与音频特征数据相对应的演奏者的动作特征数据；

训练模块120，用于通过神经网络模型，利用音符类别标签和训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练，以获取音频识别模型。

可选地，第一获取模块110，具体用于获取标注有音符类别标签的初始训练样本数据，初始训练样本数据包括：初始音频特征数据和与初始音频特征数据对应的演奏者的初始动作特征数据；采用预设长度数据截取窗口对初始训练样本数据进行滑动截取，获取截取后的多个训练样本数据；从截取后的多个训练样本数据中获取训练数据集和测试数据集，测试数据集包括标注有音符类别标签的多个预设长度的训练样本数据。

可选地，预先根据音频特征数据和动作特征数据形成多模态特征数据，神经网络模型包括至少一层特征提取层和与至少一层特征提取层对应的类别预测层；训练模块120，具体用于采用至少一层特征提取层对训练数据集中的训练样本数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据；通过至少一层类别预测层，利用逐级提取的多模态特征数据和对应的音符类型标签进行训练，以获取音频识别模型。

可选地，特征提取层包括至少一层卷积特征提取层和至少一层最大值池化层，每层卷积特征提取层后跟随一层最大值池化层；类别预测层包括至少一层解卷积层和至少一层上采样层，每层解卷积层同时接收上层解卷积层的输出和相同层级的卷积特征提取层的输出。

图16为本申请实施例提供的一种音频识别模型的训练装置的结构示意图。可选地，如图16所示，上述音频识别模型的训练装置100还包括：第二获取模块130和更新模块140。

第二获取模块130，用于采用音频识别模型获取测试数据集中同一帧音频数据在不同数据截取窗口中的音符类别识别结果；更新模块140，用于根据音符类别识别结果和测试数据集中标注的音符类别标签，更新训练音频识别模型。

可选地，更新模块140，具体用于根据音符类别识别结果和数据截取窗口中各帧音频数据所对应的预设权重，预测测试数据集中各帧音频数据的音符类别；根据测试数据集中各帧音频数据的音符类别和测试数据集中标注的音符类别标签，更新训练音频识别模型。

图17为本申请实施例提供的一种音频识别装置的结构示意图，该装置基本原理及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。如图17所示，该音频识别装置200包括：第三获取模块210和识别模块220。

第三获取模块210，用于获取待识别音频数据，待识别音频数据包括：音频特征数据和与音频特征数据相对应的演奏者的动作特征数据；识别模块220，用于采用音频识别模型识别待识别音频数据中的音符类别，并分割各音符类别所对应的待识别音频数据，其中，音频识别模型由神经网络模型、以及训练数据集训练获取，训练数据集包括标注有音符类别标签的多个预设长度的训练样本数据，训练样本数据包括音频特征数据和与音频特征数据相对应的演奏者的动作特征数据。

可选地，识别模块220，具体用于采用音频识别模型识别待识别音频数据中各帧待识别音频数据的音符类别，获取识别结果；根据识别结果，对待识别音频数据进行分割，获取各音符类别所对应的待识别音频数据。

可选地，预先根据音频特征数据和动作特征数据形成多模态特征数据；神经网络模型包括至少一层特征提取层和与至少一层特征提取层对应的类别预测层，识别模块220，具体用于采用至少一层特征提取层对待识别音频数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据；通过类别预测层对逐级提取的多模态特征数据进行音符类别预测，识别待识别音频数据中的音符类别。

可选地，识别模块220，具体用于采用至少一层卷积特征提取层和至少一层最大值池化层对待识别音频数据的多模态特征数据进行逐级提取，以得到逐级提取的多模态特征数据；通过至少一层解卷积层和至少一层上采样层对逐级提取的多模态特征数据进行音符类别预测，识别待识别音频数据中的音符类别。

可选地，识别模块220，具体用于采用音频识别模型获取待识别音频数据中同一帧音频数据在不同数据截取窗口中的音符类别识别结果；根据同一帧音频数据在不同数据截取窗口中的音符类别识别结果，确定待识别音频数据中的音符类别。

可选地，识别模块220，具体用于根据同一帧音频数据在不同数据截取窗口中的识别结果和数据截取窗口中各帧音频数据所对应的预设权重，确定待识别音频数据中的音符类别。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Signal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图18为本申请实施例提供的一种电子设备结构示意图。如图18所示，该电子设备可以包括：处理器510、存储介质520和总线530，存储介质520存储有处理器510可执行的机器可读指令，当电子设备运行时，处理器510与存储介质520之间通过总线530通信，处理器510执行机器可读指令，以执行上述方法实施例的步骤。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述方法实施例的步骤。具体实现方式和技术效果类似，这里不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取训练数据集，包括：

3.根据权利要求1所述的方法，其特征在于，预先根据所述音频特征数据和所述动作特征数据形成多模态特征数据，所述神经网络模型包括至少一层特征提取层和与所述至少一层特征提取层对应的类别预测层，所述通过神经网络模型，利用音符类别标签和所述训练数据集中的音频特征数据与相对应的演奏者的动作特征数据进行训练，以获取音频识别模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述音频特征数据包括音频数据的响度和音频数据的梅尔倒谱系数。

5.根据权利要求3所述的方法，其特征在于，所述特征提取层包括至少一层卷积特征提取层和至少一层最大值池化层，每层所述卷积特征提取层后跟随一层最大值池化层；

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述音符类别识别结果和所述测试数据集中标注的音符类别标签，更新训练所述音频识别模型，包括：

8.一种音频识别方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述采用音频识别模型识别所述待识别音频数据中的音符类别，并分割各所述音符类别所对应的待识别音频数据，包括：

10.根据权利要求8所述的方法，其特征在于，预先根据所述音频特征数据和所述动作特征数据形成多模态特征数据；所述神经网络模型包括至少一层特征提取层和与所述至少一层特征提取层对应的类别预测层，所述采用音频识别模型识别所述待识别音频数据中的音符类别，包括：

11.根据权利要求10所述的方法，其特征在于，所述方法包括：

12.根据权利要求10所述的方法，其特征在于，所述采用音频识别模型识别所述待识别音频数据中的音符类别，包括：

13.根据权利要求12所述的方法，其特征在于，所述根据所述同一帧音频数据在不同数据截取窗口中的音符类别识别结果，确定所述待识别音频数据中的音符类别，包括：

14.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-13任一项所述方法的步骤。

15.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-13任一项所述方法的步骤。