CN115985273B

CN115985273B - 基于多传感器数据融合的记谱方法及系统

Info

Publication number: CN115985273B
Application number: CN202310273762.8A
Authority: CN
Inventors: 颜山
Original assignee: Beijing Zhuoyan Hanjing Technology Co ltd
Current assignee: Beijing Zhuoyan Hanjing Technology Co ltd
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-12-26
Anticipated expiration: 2043-03-21
Also published as: CN115985273A

Abstract

本发明涉及语音识别技术领域，具体涉及一种基于多传感器数据融合的记谱方法及系统，通过获取同一乐器演奏场景下的乐器演奏视频和乐器演奏音频，根据乐器演奏视频，确定乐器演奏区域和人体手部重合的目标视频帧以及目标视频帧的音符标签；根据乐器演奏音频，确定各个音频段；确定各个音频段对应的音符标签，结合与各个音频段对应的音符标签相同的各个标准音频数据段，确定各个音频段的音频差异段，进而确定目标音频差异段，根据目标音频差异段，对乐器演奏音频进行去噪处理，从而得到乐谱数据。本发明结合乐器演奏视频和乐器演奏音频，对乐器演奏音频进行去噪，使音符识别结果更加准确，有效提高了生成乐谱的准确性。

Description

基于多传感器数据融合的记谱方法及系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于多传感器数据融合的记谱方法及系统。

背景技术

随着信息化时代的到来，音乐艺术作品快速地大量产生，音乐产业也成为现代文化市场的重要组成部分。在当下网络以及流媒体发展趋于成熟的背景下，音乐艺术教育也越来越注重线上远程模式的发展。对线上远程进行音乐艺术教育而言，音乐作品依赖专业人进行乐谱的分析标注，耗时耗力，成本较高，而借助计算机实现乐谱的自动化生成更加适应当前远程教育的背景。

音乐艺术内容涉及到多种多样的数据类型，包括音频数据，乐谱数据甚至演奏视频，这些数据分别从不同的角度描述音乐艺术内容。其中，乐谱作为对音乐旋律的形式化表现，根据音频数据自动化地提取乐谱信息，将有助于音乐远程教学的教学效率。为了实现乐谱信息的自动化提取这一目的，现有技术主要利用神经网络算法对音频数据进行识别，通过识别出的结果进行乐谱的自动生成。但这种方式需要根据音频数据的振幅来对完整音频进行分段，然后通过将音频片段输入训练好的神经网络来进行乐谱音符的识别，识别效果的可靠性比较依赖音频数据的分段效果。并且由于有些演奏现场往往比较嘈杂，音频数据中会包含大量的现场噪声，音符的识别结果容易受到噪声影响，导致最终生成的乐谱准确性较低。

发明内容

本发明的目的在于提供一种基于多传感器数据融合的记谱方法及系统，用于解决现有根据音频数据进行音符识别准确性低，导致生成的乐谱准确性低的问题。

为解决上述技术问题，本发明提供了一种基于多传感器数据融合的记谱方法，包括以下步骤：

获取同一乐器演奏场景下对应的乐器演奏视频和乐器演奏音频；

对乐器演奏视频的各视频帧中的乐器演奏区域和人体手部进行识别，获取各目标视频帧及其对应的音符标签，所述目标视频帧中乐器演奏区域和人体手部重合；

获取乐器演奏音频中的各个极值点，并根据各个极值点，确定乐器演奏音频的各个分段时刻，利用各个分段时刻对乐器演奏音频进行分割，得到各个音频段；

获取各个音频段对应的目标视频帧，并根据目标视频帧对应的音符标签，确定各个音频段对应的音符标签；

获取各个音频段对应的标准音频数据段，每个音频段与其对应的标准音频数据段具有相同的音符标签，并根据各个音频段及其对应的标准音频数据段，确定各个音频段的音频差异段；

根据各个音频差异段及其对应的音频段的音符标签和演奏时间，确定各个音频差异段对应的噪音适配度，根据所述噪音适配度，确定目标音频差异段；

根据目标音频差异段，对乐器演奏音频进行去噪处理，并对去噪之后的乐器演奏音频进行音符识别，从而得到乐谱数据。

进一步的，确定各个音频差异段对应的噪音适配度，包括：

根据各个音频差异段，计算任意两个音频差异段之间的动态时间规整距离；

根据各个音频差异段对应的音频段的演奏时间，按照演奏时间顺序对音频段进行编号，并将各个音频段的编号作为对应各个音频差异段的音频段序号；

根据每个音频差异段与其他各个音频差异段之间的动态时间规整距离、每个音频差异段与其他各个音频差异段对应的音频段的音符标签的音调差异和音频段序号的差异，计算每个音频差异段对应的噪音适配度。

进一步的，计算每个音频差异段对应的噪音适配度对应的计算公式为：

，

其中，为第i个音频差异段对应的噪音适配度，/>为第i个音频差异段，/>为第j个音频差异段，/>为第i个音频差异段和第j个音频差异段之间的动态时间规整距离，/>为第i个音频差异段对应的音频段的音符标签的音调，/>为第j个音频差异段对应的音频段的音符标签的音调，/>为第i个音频差异段和第j个音频差异段对应的音频段的音符标签的音调差异，F为音符标签的最大音调差异，i为第i个音频差异段对应的音频段的音频段序号，j为第j个音频差异段对应的音频段的音频段序号，/>为第i个音频差异段和第j个音频差异段对应的音频段的音频段序号的差异，N为音频差异段的总数目，/>为以自然常数e为底数的指数函数。

进一步的，确定目标音频差异段，包括：

根据各个音频差异段对应的噪音适配度，将最大的噪音适配度对应音频差异段作为目标音频差异段。

进一步的，确定乐器演奏音频的各个分段时刻，包括：

确定乐器演奏音频中的各个极值点对应的振幅绝对值，将任意一个极值点作为目标极值点，若所述目标极值点的振幅绝对值大于所述目标极值点的相邻极值点的振幅绝对值，则将所述目标极值点作为一个分段时刻，从而得到各个分段时刻；当所述目标极值点存在最相邻的左极值点和右极值点时，则所述目标极值点的相邻极值点为所述最相邻的左极值点和右极值点，当所述目标极值点存在最相邻的左极值点或右极值点时，则所述目标极值点的相邻极值点对应为所述最相邻的左极值点或右极值点。

进一步的，对乐器演奏音频进行去噪处理，包括：

对目标音频差异段进行周期性扩展，从而得到模拟噪音音频；

利用模拟噪音音频，对乐器演奏音频进行去噪处理，从而得到去噪处理后的乐器演奏音频；

利用乐器演奏音频的各个分段时刻，对去噪处理后的乐器演奏音频进行分段，从而得到各个去噪音频段，并将各个去噪音频段作为最终的去噪之后的乐器演奏音频。

进一步的，确定各个音频段对应的音符标签，包括：

对于任意一个音频段，将该音频段中的首个目标视频帧对应的音符标签确定为该音频段的音符标签。

进一步的，确定各个音频段的音频差异段，包括：

对于任意一个音频段，从该音频段中去除其对应的标准音频数据段，从而得到该音频段的音频差异段。

进一步的，获取各目标视频帧及其对应的音符标签，包括：

将乐器演奏视频的各视频帧分别输入到人体关键点识别网络，确定各视频帧中的人体手部关键点；

将乐器演奏视频的各视频帧分别输入到乐器演奏区域识别网络，确定各视频帧中的乐器演奏区域以及乐器演奏区域对应的音符标签；

将人体手部关键点和乐器演奏区域重合的视频帧确定为目标视频帧，并将乐器演奏区域对应的音符标签确定为目标视频帧对应的音符标签。

为解决上述技术问题，本发明还提供了一种基于多传感器数据融合的记谱系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器在执行所述计算机程序时，实现上述的一种基于多传感器数据融合的记谱方法的步骤。

本发明具有如下有益效果：通过获取乐器演奏场景下对应的乐器演奏视频和乐器演奏音频，并结合乐器演奏视频和乐器演奏音频，对乐器演奏音频进行去噪，以消除环境噪声对音符识别的影响，使音符识别结果更加准确，有效提高生成的乐谱的准确性。具体的，根据乐器演奏视频，获取乐器演奏视频中的目标视频帧，这些目标视频帧是指乐器演奏区域和人体手部重合的视频帧。由于音符被演奏出来时均对应一个目标视频帧，通过确定目标视频帧对应的音符标签，也就是目标视频帧中的乐器演奏区域对应的音符，便于后续确定各个音频段对应的音符标签相同的各个标准音频数据段，进而实现对各个音频段的去噪处理。考虑到音符被演奏出来的时刻，其对应的振幅较大，而随着演奏出来的时间延长，其对应的振幅也就不断削弱，因此根据乐器演奏音频中的各个极值点，对乐器演奏音频进行精准分割，从而得到各个音频段，每个音频段对应一个音符或者同时被演奏出来的两个音符。由于各个音频段均有其对应的目标视频帧，由此可以确定各个音频段对应的音符标签，将各个音频段与相同音符标签的标准音频数据段进行比较，从而可以得到各个音频段的音频差异段，这些音频差异段表征了各个音频段与其对应的标准音频数据段的差异波段。综合考虑音频差异段及其对应的音频段的音符标签和演奏时间先后，准确确定各个音频差异段对应的噪音适配度，该噪音适配度表征了各个音频差异段为环境噪声的可能性，根据该噪音适配度，可以筛选出为环境噪声的目标音频差异段，并利用该目标音频差异段，对乐器演奏音频进行精准去噪处理，进而进行音符识别，最终得到准确、可靠的乐谱数据。本发明结合演奏视频和演奏音频，对演奏音频进行去噪，使音符识别结果更加准确，有效提高了生成乐谱的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明实施例的基于多传感器数据融合的记谱方法的流程图；

图2为本发明实施例的手碟表面示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。另外，本文所涉及公式中的所有参数或者指标均为归一化之后的消除了量纲影响的数值。

本实施例提供了一种基于多传感器数据融合的记谱方法，该方法通过设置多个传感器，获取演奏过程中的视频数据和音频数据，对音频数据进行音频分段，并根据视频数据中的演奏动作信息进行初次音符识别，进一步根据初次音符识别结果去除音频数据中的环境噪音，最后将去除环境噪音的音频数据输入训练好的神经网络中进行音符识别，使音符识别结果更加准确，有效提高了生成的乐谱的准确性。具体的，该基于多传感器数据融合的记谱方法对应的流程图如图1所示，包括以下步骤：

步骤S01：获取同一乐器演奏场景下对应的乐器演奏视频和乐器演奏音频。

本实施例所针对的乐器演奏场景为手碟演奏场景，图2给出了手碟的表面示意图，通过在手碟演奏场景下设置两种传感器即摄像头和拾音器，来获取该手碟演奏场景下的手碟演奏视频和手碟演奏音频，也即是乐器演奏视频和乐器演奏音频。在本实施例中，摄像头设置在手碟的正上方，以便于可以清晰拍摄到该手碟演奏时的演奏视频，同时，拾音器设置在对准手碟的位置，以便于可以精准获取手碟演奏时的演奏音频。需要说明的是，摄像头所获取的演奏视频和拾音器所获取的演奏音频，针对的是单个同一手碟单次演奏时的演奏视频和演奏音频。

步骤S02：对乐器演奏视频的各视频帧中的乐器演奏区域和人体手部进行识别，获取各目标视频帧及其对应的音符标签，所述目标视频帧中乐器演奏区域和人体手部重合。

在通过上述步骤S01获取乐器演奏视频也就是手碟演奏视频之后，对手碟演奏视频中的手碟演奏区域和人体手部进行识别，以获取手碟演奏区域与人体手部位置重合时的视频帧以及这些视频帧对应的音符标签，实现步骤包括：

具体的，利用神经网络识别手碟演奏视频的各视频帧中的人体手部位置，在本实施例中，该神经网络为人体关键点识别网络。通过将手碟演奏视频的各视频帧输入到训练好的人体关键点识别网络中，由该人体关键点识别网络识别出各视频帧中的人体手部关键点。由于人体关键点识别网络以及利用该人体关键点识别网络进行图像中人体手部关键点的识别过程属于现有技术，此处不再赘述。

同时，利用神经网络识别手碟演奏视频的各视频帧中的手碟演奏区域，在本实施例中，该神经网络为手碟演奏区域识别网络，该手碟演奏区域识别网络以手碟演奏区域作为训练数据，手碟演奏区域的标签为演奏区域对应的音符，也就是，手碟演奏区域识别网络的训练数据是手碟乐器各演奏区域的图片，这些图片上均被标记了音符标签。通过将手碟演奏视频的各视频帧输入到训练好的手碟演奏区域识别网络中，由该手碟演奏区域识别网络识别出各视频帧中的手碟演奏区域以及手碟演奏区域对应的音符标签。需要说明的是，当一个时刻演奏出单个音符时，则对应视频帧中的手碟演奏区域只有一个，同时该手碟演奏区域对应的音符标签为单音符标签；而当一个时刻同时演奏出两个或者两个以上的音符时，则对应视频帧中的手碟演奏区域也对应是两个或者两个以上，同时手碟演奏区域对应的音符标签对应包括两个或者两个以上音符标签。

通过将手碟演奏视频的各视频帧输入到上述两个神经网络中之后，可以获取各视频帧上的手碟演奏区域以及人体手部关键点位置，然后进一步筛选出人体手部关键点与手碟演奏区域重合时的视频帧，并将这些视频帧作为目标视频帧。

步骤S03：获取乐器演奏音频中的各个极值点，并根据各个极值点，确定乐器演奏音频的各个分段时刻，利用各个分段时刻对乐器演奏音频进行分割，得到各个音频段。

对于一个视频帧来说，若其中人体手部位置与演奏区域重合，说明此时可能发生演奏，也即此时可能是一个音符被演奏出来时的起始时刻，但仅仅根据人体手部位置与演奏区域是否重合来进行音符音频数据起始时刻的划分是不准确的，这是因为人体手部可能只是与手碟演奏区域重合，但并未敲击手碟演奏区域，因此，需要根据音频振幅信息进行音频数据的分段。

考虑到对于一段演奏音频数据来说，每一个音符被演奏出来时的初始时刻，此时音频数据的振幅是最大的，也即音符在初始被演奏出来时，此时刻的振幅总比其左右两个振幅要大，这是因为任何音符在被演奏出来的初始时刻，振幅峰值最大，随着被演奏出来的时间延长，音符对应的音频数据的振幅峰值也在不断削弱。

基于上述分析，在根据音频振幅信息获取音频数据的分段时刻时，首先获取乐器演奏音频也就是手碟演奏音频中的各个极值点，这里的极值点是指波峰点和波谷点。其中，若一个点的左右相邻点的分贝均小于该点，则该点即为波峰点；若一个点的左右相邻点的分贝均大于该点，则该点即为波谷点。

在获取乐器演奏音频也就是手碟演奏音频中的各个极值点，也就是各个波峰点和波谷点之后，基于这些极值点，确定乐器演奏音频的各个分段时刻，实现步骤包括：确定乐器演奏音频中的各个极值点对应的振幅绝对值，将任意一个极值点作为目标极值点，若所述目标极值点的振幅绝对值大于所述目标极值点的相邻极值点的振幅绝对值，则将所述目标极值点作为一个分段时刻，从而得到各个分段时刻；当所述目标极值点存在最相邻的左极值点和右极值点时，则所述目标极值点的相邻极值点为所述最相邻的左极值点和右极值点，当所述目标极值点存在最相邻的左极值点或右极值点时，则所述目标极值点的相邻极值点对应为所述最相邻的左极值点或右极值点。

具体的，确定乐器演奏音频也就是手碟演奏音频中的各个极值点对应的振幅绝对值，将任意一个极值点作为目标极值点，考虑到音频是以波形的形式进行传播，且音符在被演奏出来的初始时刻的振幅峰值最大，并随时间延长不断削弱，因此若所述目标极值点的振幅绝对值大于该目标极值点的相邻极值点的振幅绝对值，则将该目标极值点作为一个分段时刻，从而得到各个分段时刻。在本实施例中，目标极值点的相邻极值点是指该目标极值点的左右两个最相邻的极值点，当目标极值点的振幅绝对值大于其左右两个最相邻的极值点的振幅绝对值时，说明该目标极值点的振幅为局部最大，则标记此目标极值点对应的时刻为分段时刻。按照这种方式，可以确定乐器演奏音频也就是手碟演奏音频中的各个分段时刻。

需要说明的是，对于乐器演奏音频也就是手碟演奏音频的目标极值点靠近音频的两端位置时，例如目标极值点靠近音频的最左端，有可能该目标极值点的左端没有极值点，那么此时其对应的相邻极值点是指该目标极值点的右侧的最相邻的极值点，当目标极值点的振幅绝对值大于右侧的最相邻的极值点的振幅绝对值时，则将该目标极值点对应的时刻为分段时刻。同样的，如果目标极值点靠近音频的最右端，有可能该目标极值点的右端没有极值点，那么此时其对应的相邻极值点是指该目标极值点的左侧的最相邻的极值点，当目标极值点的振幅绝对值大于左侧的最相邻的极值点的振幅绝对值时，则将该目标极值点对应的时刻为分段时刻。

在通过上述方式获取乐器演奏音频也就是手碟演奏音频中的各个分段时刻之后，在各个分段时刻处对该手碟演奏音频进行截取，此时除了最左侧的分段时刻截取出来的最左端的音频段和最右侧的分段时刻截取出来的最右端的音频段之外，任意两个相邻的分段时刻将音频数据截取成一个音频段，从而可以得到各个音频段，每个音频段是指单个音符，或者是同时被演奏出来的两个或两个以上的音符。

步骤S04：获取各个音频段对应的目标视频帧，并根据目标视频帧对应的音符标签，确定各个音频段对应的音符标签。

在通过上述步骤S03确定乐器演奏音频也就是手碟演奏音频的各个音频段之后，对于一个音频段来说，其起始时刻对应的视频帧中的人体手部位置与手碟演奏区域的重合情况表示了该音频段对应的初始音符标签，将该初始音符标签作为该音频段对应的音符标签。也就是，对于任意一个音频段，将该音频段中的首个目标视频帧对应的音符标签确定为该音频段的音符标签。按照这种方式，可以确定各个音频段以及各个音频段对应的音符标签。对于一个音频数据段来说，其本身形式为波形图，横轴为时间轴，纵轴为分贝值，每个音频段对应一个音符标签，也就是初始音符标签，以时间轴上第i个音频段为例，将该第i个音频段记为，其中，/>为该第i个音频段的起始时刻，/>为该第i个音频段对应的音符标签对应的音调。

步骤S05：获取各个音频段对应的标准音频数据段，每个音频段与其对应的标准音频数据段具有相同的音符标签，并根据各个音频段及其对应的标准音频数据段，确定各个音频段的音频差异段。

在通过上述步骤S04确定各个音频段对应的音符标签也就是初始音频标签之后，对于任意一个音频段，其虽然对应着一个初始音符标签，但此初始音符标签仅根据人体手部位置与手碟演奏区域的重合情况获得，因此，可能存在由于遮挡导致的识别不准确问题，而若识别准确，则将各音频段按照初始音符标签与标准音频数据库中具有相同初始音符标签的标准音频数据段进行对比时，二者之间的差异应为环境噪声，而在同一演奏场景下，环境噪声应是稳定的、相同的，也即任意音频段在初始音符标签识别准确的情况下，其与对应初始音符标签的标准音频数据段之间的差异应为环境噪声，且环境噪声趋于一致。

基于上述分析，对于任意一个音频段，在标准音频数据库中获取具有相同初始音符标签的标准音频数据段，该标准音频数据段是指不存在噪声的音频数据段，该标准音频数据段的起始点对应其初始音符标签被演奏出来的初始时刻，标准音频数据段的长度通常较大。在确定该音频段对应的标准音频数据段之后，确定该音频段与其对应的标准音频数据段之间的音频差异段，音频差异段的确定方式为：对于任意一个音频段，从该音频段中去除其对应的标准音频数据段，从而得到该音频段的音频差异段。考虑到演奏场景下的环境噪声为相加噪声，这里的音频差异段即为二者相减获取的波形图，且二者相减时其起始点的横坐标对齐，以该音频段的长度为标准，将二者的同一横坐标对应的纵坐标进行相减。以时间轴上第i个音频段为例，将该第i个音频段对应的音频差异段记为，其中，为该第i个音频段的起始时刻，/>为该第i个音频段对应的音符标签对应的音调。后续通过对各个音频段的音频差异段进行分析，可以确定表征环境噪声的音频差异段。

步骤S06：根据各个音频差异段及其对应的音频段的音符标签和演奏时间，确定各个音频差异段对应的噪音适配度，根据所述噪音适配度，确定目标音频差异段。

通过上述步骤S05确定各个音频段的音频差异段之后，这些音频差异段越符合环境噪声，则在这些音频差异段中，与所有其他音频差异段最相同、最一致的一个音频差异段，就是最接近环境噪声的一个音频差异段，也即该段音频差异段的噪声适配度越高。也就是，对于任意一个音频段的音频差异段而言，其本身的噪音适配度即为该段音频差异段与其他音频差异段之间的相似程度，而若两个音频差异段之间的音符标签的差异越大，音符标签之间的差异为音调差异，说明两个音频差异段是根据不同音调的音频段获取，参考程度越大，也即关注权重越大，而若两个音频差异段之间的时序越远，说明两个音频差异段是从时序相距较远的演奏时刻的音频段得来，参考程度越大，也即关注权重越大。则基于上述逻辑，确定各个音频差异段对应的噪音适配度，实现步骤包括：

具体的，对于任意一个音频差异段，计算该音频差异段与其他各个音频差异段之间的动态时间规整距离，也就是DTW距离，由于计算DTW距离之间的具体实现过程属于现有技术，此处不再赘述。通过对于各个音频差异段对应的各个音频段，按照演奏时间从前往后的顺序，对各个音频段进行排序，并将各个音频段的排序编号对应作为各个音频段对应的音频段序号，从而可以得到各个音频差异段的音频段序号。然后根据每个音频差异段与其他各个音频差异段之间的动态时间规整距离、音符标签的音调差异和音频段序号的差异，计算每个音频差异段对应的噪音适配度，对应的计算公式为：

，

在上述的第i个音频差异段对应的噪音适配度的计算公式中，/>表示第i个音频差异段/>和第j个音频差异段/>之间的第一关注权重，/>为第i个音频差异段和第j个音频差异段/>的音频段序号的差异，N为音频差异段的总数目，用于对/>进行归一化，当第i个音频差异段/>和第j个音频差异段/>之间的音频段序号差异越大时，第一关注权重越大。/>表示第i个音频差异段/>和第j个音频差异段/>之间的第二关注权重，/>为第i个音频差异段/>和第j个音频差异段/>的音符标签的音调差异，也就是音符标签对应的音调差异，F为音符标签的最大音调差异，由手碟本身演奏音符的音调的跨度决定，用于对/>进行归一化，当第i个音频差异段/>和第j个音频差异段/>之间的音符标签的音调差异越大时，第二关注权重越大。/>第i个音频差异段/>和第j个音频差异段/>之间的动态时间规整距离，当第i个音频差异段/>和第j个音频差异段/>越不相似时，/>越大。指数函数/>用于对数据进行归一化，即对动态时间规整距离/>进行负相关归一化。当某个音频差异段和其他音频差异段之间的音频段序号差异越大、音符标签的音调差异越大、动态时间规整距离越小时，则该音频差异段对应的噪音适配度越大，说明该音频差异段与噪音音频越相似，越可能为环境噪声。

在通过上述方式确定各个音频差异段对应的噪音适配度，根据该噪音适配度，确定目标音频差异段，即根据各个音频差异段对应的噪音适配度，将最大的噪音适配度对应音频差异段作为目标音频差异段。目标音频差异段即为当前演奏场景下对应的噪声音频段。

步骤S07：根据目标音频差异段，对乐器演奏音频进行去噪处理，并对去噪之后的乐器演奏音频进行音符识别，从而得到乐谱数据。

在通过上述步骤S06确定目标音频差异段之后，基于该目标音频差异段，对乐器演奏音频进行去噪处理，实现过程包括：

具体的，由于目标音频差异段为当前演奏场景下对应的噪声音频段，因此以该目标音频差异段为基本元素，构建模拟噪音音频，也即将其进行周期性扩展，获取模拟噪音音频，该模拟噪音音频的起始时刻与乐器演奏音频的起始时刻相同。由于对目标音频差异段进行周期性扩展的过程属于现有技术，此处不再赘述。从乐器演奏音频也就是手碟演奏音频中减去模拟噪音音频，获取去噪后的手碟演奏音频，然后按照与手碟演奏音频相同的分段方式，对去噪后的手碟演奏音频进行分段，从而得到去噪之后的各个音频段也就是各个去噪音频段，这些去噪之后的各个音频段即为最终的去噪之后的乐器演奏音频。

将去噪之后的各个音频段分别输入到神经网络中，在本实施例中，该神经网络为音符识别神经网络，该音符识别神经网络由标准音频数据库中各标准音频数据段以及其对应的音符标签进行训练得到，由该音符识别神经网络输出去噪之后的各个音频段对应的音符标签。根据去噪之后的各个音频段的时间顺序，结合时序位置生成乐谱，即将对应的音符标签按照时间先后顺序进行排列，从而得到乐谱数据。

最后，需要强调的是，上述的基于多传感器数据融合的记谱方法是以手碟演奏场景作为乐器演奏场景为例展开进行说明的，作为其他的实施方式，该乐器演奏场景还适用于其他乐器演奏场景，这些乐器演奏场景的特点是，用手敲击乐器的不同区域且通过识别手的位置即可确定不同区域对应的音频，如手鼓演奏场景、龟鼓演奏场景等。

本实施例还提供了一种基于多传感器数据融合的记谱系统，该系统包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器在执行所述计算机程序时，实现上述的基于多传感器数据融合的记谱方法的步骤。由于该基于多传感器数据融合的记谱系统的重点在于实现上述的于多传感器数据融合的记谱方法，而该方法已经在上述内容中进行了详细介绍，此处对该系统的工作过程不再赘述。

相比与现有技术中利用音频数据直接进行神经网络识别音符标签的方法来说，本发明结合演奏视频中的人体演奏动作信息，对音频数据进行基于演奏动作的音符标记，同时根据演奏动作信息结合标准音频数据进行模拟噪音音频的生成，并对原演奏音频数据进行去除噪音音频的处理，相对于现有技术中直接进行音频数据的识别来说，本发明可减小噪音的影响，使最终的音符识别结果更加准确。

需要说明的是：以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于多传感器数据融合的记谱方法，其特征在于，包括以下步骤：

根据目标音频差异段，对乐器演奏音频进行去噪处理，并对去噪之后的乐器演奏音频进行音符识别，从而得到乐谱数据；

确定各个音频差异段对应的噪音适配度，包括：

根据每个音频差异段与其他各个音频差异段之间的动态时间规整距离、每个音频差异段与其他各个音频差异段对应的音频段的音符标签的音调差异和音频段序号的差异，计算每个音频差异段对应的噪音适配度；

计算每个音频差异段对应的噪音适配度对应的计算公式为：

，

2.根据权利要求1所述的一种基于多传感器数据融合的记谱方法，其特征在于，确定目标音频差异段，包括：

3.根据权利要求1所述的一种基于多传感器数据融合的记谱方法，其特征在于，确定乐器演奏音频的各个分段时刻，包括：

4.根据权利要求1所述的一种基于多传感器数据融合的记谱方法，其特征在于，对乐器演奏音频进行去噪处理，包括：

5.根据权利要求1所述的一种基于多传感器数据融合的记谱方法，其特征在于，确定各个音频段对应的音符标签，包括：

6.根据权利要求1所述的一种基于多传感器数据融合的记谱方法，其特征在于，确定各个音频段的音频差异段，包括：

7.根据权利要求1所述的一种基于多传感器数据融合的记谱方法，其特征在于，获取各目标视频帧及其对应的音符标签，包括：

8.一种基于多传感器数据融合的记谱系统，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器在执行所述计算机程序时，实现上述权利要求1-7任意一项所述的一种基于多传感器数据融合的记谱方法的步骤。