CN110415730B

CN110415730B - 一种音乐分析数据集构建方法及基于其的音高、时值提取方法

Info

Publication number: CN110415730B
Application number: CN201910669985.XA
Authority: CN
Inventors: 李惠子; 曹琛; 冯亚星
Original assignee: Shenzhen Average Law Technology Co ltd
Current assignee: Shenzhen Average Law Technology Co ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2021-08-31
Anticipated expiration: 2039-07-25
Also published as: CN113205832A; CN110415730A; CN113205831A

Abstract

本发明公开了一种音乐分析数据集构建方法及基于其的音高、时值提取方法，主要解决现有技术中存在的传统方法在单音识别细分领域中性能表现良好，但在复音识别领域中的性能表现相对较弱的问题。该一种音乐分析数据集构建方法及基于其的音高、时值提取方法包括通过选择数字曲谱登记入数字曲谱库；演奏者演奏曲谱登记入数字声音库；将类别标签序列与声音特征匹配形成声音特征‑音乐元素数据集的构建方法；基于数据集对乐音乐器中音高和时值的提取方法及系统。通过上述方案，本发明达到了利用监督机器学习模型提取乐音乐器演奏生成的数字声音信号的时值信息和音高信息，能较好的提取复音中音乐元素的目的，具有很高的实用价值和推广价值。

Description

一种音乐分析数据集构建方法及基于其的音高、时值提取方法

技术领域

本发明涉及计算机技术领域，具体地说，是涉及一种乐音乐器声音中音高和时值信息提取的方法、系统和设备。

背景技术

音高和时值信息作为音乐中的两大基本且重要的元素，任一乐音乐器的演奏分析或者自动转录都需要以音高和时值为基础；传统方法涉及音乐分析的数字信号处理主要使用人工规则进行逻辑判断，提取相关音乐元素。

例如音高分析通常使用基频估计。传统方法在单音识别细分领域中性能表现良好，但在复音识别领域中的性能表现相对较弱，不能较好的提取声音中音高和时值。

发明内容

本发明的目的在于提供一种音乐分析数据集构建方法及基于其的音高、时值提取方法，以解决传统方法在单音识别细分领域中性能表现良好，但在复音识别领域中的性能表现相对较弱的问题。

为了解决上述问题，本发明提供如下技术方案：

一种乐音乐器音乐分析数据集的构建方法包括以下步骤：

(A1)根据乐音乐器的声学特征、演奏技法要求、演奏技能水平要求选择数字曲谱，登记入数字曲谱库；

(A2)由具备相应演奏技能水平的演奏者演奏曲谱生成数字声音信号，登记入数字声音库；

(A3)将步骤(A1)中数字曲谱和步骤(A2)中的数字声音信号对应匹配形成曲谱-声音数据集；

(A4)对步骤(A3)的曲谱-声音数据集中演奏者的声音进行特征提取；

(A5)从步骤(A3)的曲谱-声音数据集中的可扩展标记格式的曲谱文件中提取音乐元素信息，根据分类标签规则生成类别标签序列；

(A6)根据数据初始化规则和匹配规则，将类别标签序列与声音特征匹配形成声音特征-音乐元素数据集。

具体地，步骤(A4)中的特征包括振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征；步骤(A5)中的音乐元素包括音高、时值、节拍、强弱；分类标签规则为把音高、时值、节拍、强弱转换成布尔向量或数值向量；步骤(A6)中的初始化规则为确定初始帧索引，匹配规则为标签帧索引与声音特征索引匹配。

具体地，振幅相关特征包括每帧振幅最值、均值、高阶导数；频率相关特征包括每帧频率的最值、均值、高阶导数；声音频谱能量在时间维度的分布特征包括时间维度上的最值、均值、高阶导数；声音频谱能量在频率维度的分布特征包括频率维度上的最值、均值、高阶导数。

具体地，步骤(A5)中类别标签序列包括从曲谱文件中提取音高序列信息并生成的触发音高序列标签、从曲谱文件中提取时值序列信息并根据演奏起始时间及演奏速度生成的触发帧序列标签。

一种基于数据集的乐音乐器声音中音高和时值的提取方法包括以下步骤：

(B1)接收演奏者的声音，依次经过降噪和去掉首尾静默段处理；

(B2)提取经过步骤(B1)处理后声音中的多种特征信息；

(B3)将步骤(B2)提取的多种特征信息，输入预先训练的演奏触发帧分类器，对步骤(B1)中声音信号中的演奏触发帧进行分类；触发帧标记为真，非触发帧标记为假；

(B4)提取步骤(B3)中预测类别为真的帧索引序列，对不符合演奏规则的系统性偏差进行校正和转换后输出时值序列；

(B5)将步骤(B2)提取的多种特征信息，输入预先训练的演奏触发音高分类器，对步骤(B1)中声音信号中的触发音高进行分类；触发音高为真，非触发音高为假；

(B6)提取步骤(B5)中预测为真类别的音高索引，对不符合演奏规则的系统性偏差进行校正，并输出音高序列信息。

具体地，步骤(B2)中的特征信息包括振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征。

具体地，步骤(B3)中的演奏触发帧分类器预先训练的具体过程为：

(B31)将数据集中声音信号转换为多个帧；

(B32)对(B31)中的声音信号逐帧提取振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征；

(B33)对步骤(B32)的帧通过演奏触发帧自动类别标注模块标记演奏触发帧和非演奏触发帧，演奏触发帧为真，非演奏触发帧为假；

(B34)对步骤(B32)中每帧进行人工特征过滤器过滤：通过计算观察样本分布选择振幅和能量的过滤阈值范围，超出阈值范围的帧类别为非演奏帧；

(B35)经过步骤(B33)处理后的处于阈值范围内的样本作为训练样本训练二分类器。

具体地，步骤(B5)的触发音高分类的预先训练具体过程为：

(B51)将数据集中声音信号转换为多个帧；

(B52)对(B51)中的声音信号逐帧提取频谱能量在频率维度的分布特征；

(B53)对步骤(B52)的帧通过演奏触发音高自动类别标注模块标记触发音高和非演奏触发音高，触发音高为真，非触发音高为假；

(B54)使用(B53)中类别为假的样本作为训练样本训练单类分类器，进行异常值检测；

(B55)将步骤(B54)中预测为假的样本与步骤(B53)中的类别为真的样本合并作为训练样本训练二分类器。

一种基于数据集的乐音乐器声音中音高和时值的提取系统包括依次连接的音频接收器、音频处理器、特征提取器；和自动类别标注器对应连接的时值提取器、音高提取器；

音频接收器，用于将物理声音转换为数字声音信号；

音频处理器，用于将输入的数字声音信号进行降噪和首尾静默切除；

特征提取器，用于提取处理后的数字声音信号相关特征；

时值提取器，用于提取预测数据的时值信息；

音高提取器，用于提取预测数据的音高信息。

具体地，音频处理器包括与音频接收器依次连接的降噪模块和静默处理模块。

具体地，特征提取器包括分别与静默处理模块连接的第一特征提取模块、第二特征提取模块、第三特征提取模块、第四特征提取模块；第一特征提取器，用于提取声音振幅相关特征；第二特征提取器，用于提取声音频率相关特征；第三特征提取器，用于提取声音频谱能量在时间维度的分布特征；第四特征提取器，用于提取声音频谱能量在频率维度的分布特征。

具体地，第三特征提取模块、第四特征提取模块均为线性半音无限脉冲滤波器组，其对声音信号进行滤波后得到声音频谱能量信息。

具体地，演奏触发帧自动类别标注模块分别与第一特征提取模块、第二特征提取模块、第三特征提取模块连接；演奏触发音高自动类别标注模块与第四特征提取模块连接。

具体地，时值提取器包括依次连接的演奏触发帧分类器、偏差校正模块、时值转换模块；演奏触发帧分类器包括依次连接的演奏触发帧自动类别标注模块、人工特征过滤器和二分类器；演奏触发帧自动类别标注模块分别与第一特征提取模块、第二特征提取模块、第三特征提取模块连接和二分类器。

具体地，音高提取器包括相互连接的演奏触发音高分类器和偏差校正模块；演奏触发音高分类器包括依次与第四特征提取模块连接的演奏触发音高自动类别标注模块、单类分类器和二分类器。

一种计算机设备包括处理器和存储器，存储器中存储有计算机程序，计算机程序在被处理器加载并执行时实现构建方法或如提取方法。

一种计算机可读介质中存储有计算机程序，计算机程序由处理器加载并执行以实现构建方法或提取方法。

与现有技术相比，本发明具有以下有益效果：

(1)通过本发明构建曲谱-声音数据集，声音特征-音乐元素数据集；提取的特征经过演奏触发帧自动类别标注模块自动标注后，通过人工特征过滤器过滤，然后将处于阈值范围内的样本作为训练样本训练二分类器；提取的特征经过演奏触发音高自动类别标注模块自动标注后，将类别为假的样本用于训练单类分类器，类别为假的样本与类别为真的样本合并作为训练样本训练二分类器；通过上述过程提高了应用监督机器学习技术的数据可获得性和降低了数据成本。

(2)本发明在合理构建训练数据集的基础上，运用机器学习方法替代传统方法的人工规则，在单音识别、复音识别领域中均有良好性能表现。

(3)通过本发明能实现任一乐音乐器的音高和时值的提取，为其作为学习资料，考试资料提供了标准。

(4)本发明能快速高效提取任一乐音乐器演奏声音的音高和时值信息，为音乐分析或者自动音乐转录提供了数据输入支持。

(5)本发明也可以应用于演唱声音的音高和时值的提取，便于分析演唱效果等。

附图说明

图1为提取系统的结构示框图。

图2为演奏触发帧分类器的结构示框图。

图3为演奏触发音高分类器的结构示框图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，本发明的实施方式包括但不限于下列实施例。

一种乐音乐器音乐分析数据集的构建方法包括以下步骤：

其中，步骤(A4)中的特征包括振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征；步骤(A5)中的音乐元素包括音高、时值、节拍、强弱；分类标签规则为把音高、时值、节拍、强弱转换成布尔向量或数值向量；步骤(A6)中的初始化规则为确定初始帧索引，匹配规则为标签帧索引与声音特征索引匹配，还可包括其他音乐元素。

其中，振幅相关特征包括每帧振幅最值、均值、高阶导数；频率相关特征包括每帧频率的最值、均值、高阶导数；声音频谱能量在时间维度的分布特征包括时间维度上的最值、均值、高阶导数；声音频谱能量在频率维度的分布特征包括频率维度上的最值、均值、高阶导数。

作为本发明较佳的实施例中，步骤(A5)中类别标签序列包括从曲谱文件中提取音高序列信息并生成的触发音高序列标签、从曲谱文件中提取对值序列信息并根据演奏起始时间及演奏速度生成的触发帧序列标签；还可包括其他序列标签，如节拍序列标签等。

通过上述构建方法可构建乐音乐器的音高数据集和时值数据集，也可构建其他音乐元素的数据集。

一种数据集通过构件方法构建的声音特征-音乐元素数据集。

(B2)提取经过步骤(B1)处理后声音中的多种特征信息；

其中，步骤(B2)中的特征信息包括振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征。

作为本发明较佳的实施例中，步骤(B3)中的演奏触发帧分类器预先训练的具体过程为：

(B31)将数据集中声音信号转换为多个帧；

作为本发明较佳的实施例中，步骤(B5)的触发音高分类的预先训练具体过程为：

(B51)将数据集中声音信号转换为多个帧；

音频接收器，用于将物理声音转换为数字声音信号；

特征提取器，用于提取处理后的数字声音信号相关特征；

时值提取器，用于提取预测数据的时值信息；

音高提取器，用于提取预测数据的音高信息。

作为本发明较佳的实施例中，音频处理器包括与音频接收器依次连接的降噪模块和静默处理模块。

作为本发明较佳的实施例中，特征提取器包括分别与静默处理模块连接的第一特征提取模块、第二特征提取模块、第三特征提取模块、第四特征提取模块；第一特征提取器，用于提取声音振幅相关特征；第二特征提取器，用于提取声音频率相关特征；第三特征提取器，用于提取声音频谱能量在时间维度的分布特征；第四特征提取器，用于提取声音频谱能量在频率维度的分布特征。

作为本发明较佳的实施例中，第三特征提取模块、第四特征提取模块均为线性半音无限脉冲滤波器组，其对声音信号进行滤波后得到声音频谱能量信息。

作为本发明较佳的实施例中，演奏触发帧自动类别标注模块分别与第一特征提取模块、第二特征提取模块、第三特征提取模块连接；演奏触发音高自动类别标注模块与第四特征提取模块连接；演奏触发帧自动类别标注模块根据声音特征-音乐元素数据集中的触发时间序列标签，对相应的特征序列进行标注。

作为本发明较佳的实施例中，时值提取器包括依次连接的演奏触发帧分类器、偏差校正模块、时值转换模块；演奏触发帧分类器包括依次连接的演奏触发帧自动类别标注模块、人工特征过滤器和二分类器；演奏触发帧自动类别标注模块分别与第一特征提取模块、第二特征提取模块、第三特征提取模块连接和二分类器。

作为本发明较佳的实施例中，音高提取器包括相互连接的演奏触发音高分类器和偏差校正模块；演奏触发音高分类器包括依次与第四特征提取模块连接的演奏触发音高直动类别标注模块、单类分类器和二分类器；演奏触发音高分类器根据声音特征-音乐元素数据集中的触发音高序列标签，对相应的特征序列进行标注。

本发明的实施例涉及利用监督机器学习模型提取乐音乐器演奏生成的数字声音信号的时值信息和音高信息

本发明在合理构建训练数据集的基础上，运用机器学习方法替代传统方法的人工规则，在单音识别、复音识别领域中均有良好性能表现

如图1至图3所示，一种基于数据集的乐音乐器声音中音高和时值的提取系统的提取过程图及每步的目的；具体如下：

【IP01】由演奏者演奏乐器。

【M10】经过音频接收器，按照预先设定的采样率、数字声音格式将物理声音信号转换为数字声音信号，得到数字声音信号序列。

【M20】将上一步得到的数字声音信号序列进行预处理。

【M21】从数字声音序列的起始端截取适当时间长度的声音信号序列作为环境噪音样本，对整体数字声音信号序列进行降噪处理。

【M22】将经过降噪处理的数字声音信号序列，起始端和结束端振幅低于阈值的信号定义为静默，切除对应序列位置的数字声音信号。

【M30】将经过静默切除的数字声音信号，按照预先设定的窗口大小、滑动窗口大小，窗口对齐方式进行分帧，生成帧序列的数字声音信号，进行特征提取。

【M31】将帧序列的数字声音信号，经过第一特征提取器，提取振幅相关特征，包括但不限于每帧振幅最值、均值、高阶导数等。

【M32】将帧序列的数字声音信号，经过第二特征提取器，提取频率相关特征，包括但不限于每帧过零率的最值、均值、高阶导数等。

【M33】将帧序列的数字声音信号，经过第三特征提取器，提取声音频谱能量在时间维度的分布特征，包括但不限于每帧能量的最值、均值、高阶导数等。需要特别说明的是，本实施例是基于无限脉冲滤波的方式提取声音频谱能量在时间维度的分布特征，即，将帧序列的数字声音信号，通过线性半音无限脉冲滤波器组，生成每帧声音信号在128个半音频率带的能量值。

【M34】将帧序列的数字声音信号，经过第四特征提取器，提取声音频谱能量在频率维度的分布特征，包括但不限于每个频率带能量的最值、均值、高阶导数等。同样的，本实施例是基于线性半音无限脉冲滤波组提取声音频谱能量在时间维度的分布特征。

【M414】将经过第一、第二、第三特征提取器提取的特征进行演奏触发帧的自动类别标注；从可扩展标记格式的曲谱文件中，提取每个演奏音时值信息，并根据开始演奏时间、演奏速度转换为每个演奏音的触发帧序列，将所有时间帧序列中的触发帧标记为真，非触发帧标记为假。

【M415】通过计算观察样本分布选择振幅和能量的过滤阈值范围，超出阈值范围的帧类别为非演奏帧。

【M416】在【M415】中处于阈值范围内的样本作为训练样本训练二分类器。

【M42】将预测样本数据输入演奏触发帧分类器，提取预测类别为真的帧索引序列，对不符合演奏规则的系统性偏差进行校正和转换后输出时值序列。

【M43】将校正后的帧索引序列转换为时值序列，并输出时值序列信息。

【M512】将经过第四特征提取器提取的特征进行演奏触发音高自动类别标注模块进行标注；从可扩展标记格式的曲谱文件中，提取每个演奏音音名信息，并根据音名与音高频率带之间的关系转换为每个演奏音的触发音高序列，将每个演奏音频率带序列中的触发音高频率带标记为真，非触发音高频率带标记为假。

【M513】将为假的非触发音高频率带作为训练样本训练单类分类器，进行异常值检测；

【M514】将为假的非触发音高频率带和为真的非触发音高频率带样本合并作为训练样本训练二分类器。

【M52】将预测样本数据输入演奏触发音高分类器，提取触发分类器中预测为真的音高索引，对不符合演奏规律的系统性偏差进行校正，并输出音高序列信息。

按照上述实施例，便可很好地实现本发明。值得说明的是，基于上述结构设计的前提下，为解决同样的技术问题，即使在本发明上做出的一些无实质性的改动或润色，所采用的技术方案的实质仍然与本发明一样，故其也应当在本发明的保护范围内。

Claims

1.一种乐音乐器音乐分析数据集的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的构建方法，其特征在于，步骤(A4)中的特征包括振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征；步骤(A5)中的音乐元素包括音高、时值、节拍、强弱；分类标签规则为把音高、时值、节拍、强弱转换成布尔向量或数值向量；步骤(A6)中的初始化规则为确定初始帧索引，匹配规则为标签帧索引与声音特征索引匹配。

3.根据权利要求1所述的构建方法，其特征在于，振幅相关特征包括每帧振幅最值、均值、高阶导数；频率相关特征包括每帧频率的最值、均值、高阶导数；声音频谱能量在时间维度的分布特征包括时间维度上的最值、均值、高阶导数；声音频谱能量在频率维度的分布特征包括频率维度上的最值、均值、高阶导数。

4.根据权利要求1-3任一项所述的构建方法，其特征在于，步骤(A5)中类别标签序列包括从曲谱文件中提取音高序列信息并生成的触发音高序列标签、从曲谱文件中提取时值序列信息并根据演奏起始时间及演奏速度生成的触发帧序列标签。

5.一种计算机设备，其特征在于，包括处理器和存储器，存储器中存储有计算机程序，计算机程序在被处理器加载并执行时实现如权利要求1至4任一项中的构建方法。

6.一种计算机可读介质，其特征在于，计算机可读介质中存储有计算机程序，计算机程序由处理器加载并执行以实现如权利要求1至4任一项中的构建方法。