CN110415730B - 一种音乐分析数据集构建方法及基于其的音高、时值提取方法 - Google Patents

一种音乐分析数据集构建方法及基于其的音高、时值提取方法 Download PDF

Info

Publication number
CN110415730B
CN110415730B CN201910669985.XA CN201910669985A CN110415730B CN 110415730 B CN110415730 B CN 110415730B CN 201910669985 A CN201910669985 A CN 201910669985A CN 110415730 B CN110415730 B CN 110415730B
Authority
CN
China
Prior art keywords
sound
pitch
data set
music
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910669985.XA
Other languages
English (en)
Other versions
CN110415730A (zh
Inventor
李惠子
曹琛
冯亚星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Average Law Technology Co ltd
Original Assignee
Shenzhen Average Law Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Average Law Technology Co ltd filed Critical Shenzhen Average Law Technology Co ltd
Priority to CN202110634335.9A priority Critical patent/CN113205831A/zh
Priority to CN202110634456.3A priority patent/CN113205832A/zh
Priority to CN201910669985.XA priority patent/CN110415730B/zh
Publication of CN110415730A publication Critical patent/CN110415730A/zh
Application granted granted Critical
Publication of CN110415730B publication Critical patent/CN110415730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开了一种音乐分析数据集构建方法及基于其的音高、时值提取方法,主要解决现有技术中存在的传统方法在单音识别细分领域中性能表现良好,但在复音识别领域中的性能表现相对较弱的问题。该一种音乐分析数据集构建方法及基于其的音高、时值提取方法包括通过选择数字曲谱登记入数字曲谱库;演奏者演奏曲谱登记入数字声音库;将类别标签序列与声音特征匹配形成声音特征‑音乐元素数据集的构建方法;基于数据集对乐音乐器中音高和时值的提取方法及系统。通过上述方案,本发明达到了利用监督机器学习模型提取乐音乐器演奏生成的数字声音信号的时值信息和音高信息,能较好的提取复音中音乐元素的目的,具有很高的实用价值和推广价值。

Description

一种音乐分析数据集构建方法及基于其的音高、时值提取 方法
技术领域
本发明涉及计算机技术领域,具体地说,是涉及一种乐音乐器声音中音高和时值信息提取的方法、系统和设备。
背景技术
音高和时值信息作为音乐中的两大基本且重要的元素,任一乐音乐器的演奏分析或者自动转录都需要以音高和时值为基础;传统方法涉及音乐分析的数字信号处理主要使用人工规则进行逻辑判断,提取相关音乐元素。
例如音高分析通常使用基频估计。传统方法在单音识别细分领域中性能表现良好,但在复音识别领域中的性能表现相对较弱,不能较好的提取声音中音高和时值。
发明内容
本发明的目的在于提供一种音乐分析数据集构建方法及基于其的音高、时值提取方法,以解决传统方法在单音识别细分领域中性能表现良好,但在复音识别领域中的性能表现相对较弱的问题。
为了解决上述问题,本发明提供如下技术方案:
一种乐音乐器音乐分析数据集的构建方法包括以下步骤:
(A1)根据乐音乐器的声学特征、演奏技法要求、演奏技能水平要求选择数字曲谱,登记入数字曲谱库;
(A2)由具备相应演奏技能水平的演奏者演奏曲谱生成数字声音信号,登记入数字声音库;
(A3)将步骤(A1)中数字曲谱和步骤(A2)中的数字声音信号对应匹配形成曲谱-声音数据集;
(A4)对步骤(A3)的曲谱-声音数据集中演奏者的声音进行特征提取;
(A5)从步骤(A3)的曲谱-声音数据集中的可扩展标记格式的曲谱文件中提取音乐元素信息,根据分类标签规则生成类别标签序列;
(A6)根据数据初始化规则和匹配规则,将类别标签序列与声音特征匹配形成声音特征-音乐元素数据集。
具体地,步骤(A4)中的特征包括振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征;步骤(A5)中的音乐元素包括音高、时值、节拍、强弱;分类标签规则为把音高、时值、节拍、强弱转换成布尔向量或数值向量;步骤(A6)中的初始化规则为确定初始帧索引,匹配规则为标签帧索引与声音特征索引匹配。
具体地,振幅相关特征包括每帧振幅最值、均值、高阶导数;频率相关特征包括每帧频率的最值、均值、高阶导数;声音频谱能量在时间维度的分布特征包括时间维度上的最值、均值、高阶导数;声音频谱能量在频率维度的分布特征包括频率维度上的最值、均值、高阶导数。
具体地,步骤(A5)中类别标签序列包括从曲谱文件中提取音高序列信息并生成的触发音高序列标签、从曲谱文件中提取时值序列信息并根据演奏起始时间及演奏速度生成的触发帧序列标签。
一种基于数据集的乐音乐器声音中音高和时值的提取方法包括以下步骤:
(B1)接收演奏者的声音,依次经过降噪和去掉首尾静默段处理;
(B2)提取经过步骤(B1)处理后声音中的多种特征信息;
(B3)将步骤(B2)提取的多种特征信息,输入预先训练的演奏触发帧分类器,对步骤(B1)中声音信号中的演奏触发帧进行分类;触发帧标记为真,非触发帧标记为假;
(B4)提取步骤(B3)中预测类别为真的帧索引序列,对不符合演奏规则的系统性偏差进行校正和转换后输出时值序列;
(B5)将步骤(B2)提取的多种特征信息,输入预先训练的演奏触发音高分类器,对步骤(B1)中声音信号中的触发音高进行分类;触发音高为真,非触发音高为假;
(B6)提取步骤(B5)中预测为真类别的音高索引,对不符合演奏规则的系统性偏差进行校正,并输出音高序列信息。
具体地,步骤(B2)中的特征信息包括振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征。
具体地,步骤(B3)中的演奏触发帧分类器预先训练的具体过程为:
(B31)将数据集中声音信号转换为多个帧;
(B32)对(B31)中的声音信号逐帧提取振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征;
(B33)对步骤(B32)的帧通过演奏触发帧自动类别标注模块标记演奏触发帧和非演奏触发帧,演奏触发帧为真,非演奏触发帧为假;
(B34)对步骤(B32)中每帧进行人工特征过滤器过滤:通过计算观察样本分布选择振幅和能量的过滤阈值范围,超出阈值范围的帧类别为非演奏帧;
(B35)经过步骤(B33)处理后的处于阈值范围内的样本作为训练样本训练二分类器。
具体地,步骤(B5)的触发音高分类的预先训练具体过程为:
(B51)将数据集中声音信号转换为多个帧;
(B52)对(B51)中的声音信号逐帧提取频谱能量在频率维度的分布特征;
(B53)对步骤(B52)的帧通过演奏触发音高自动类别标注模块标记触发音高和非演奏触发音高,触发音高为真,非触发音高为假;
(B54)使用(B53)中类别为假的样本作为训练样本训练单类分类器,进行异常值检测;
(B55)将步骤(B54)中预测为假的样本与步骤(B53)中的类别为真的样本合并作为训练样本训练二分类器。
一种基于数据集的乐音乐器声音中音高和时值的提取系统包括依次连接的音频接收器、音频处理器、特征提取器;和自动类别标注器对应连接的时值提取器、音高提取器;
音频接收器,用于将物理声音转换为数字声音信号;
音频处理器,用于将输入的数字声音信号进行降噪和首尾静默切除;
特征提取器,用于提取处理后的数字声音信号相关特征;
时值提取器,用于提取预测数据的时值信息;
音高提取器,用于提取预测数据的音高信息。
具体地,音频处理器包括与音频接收器依次连接的降噪模块和静默处理模块。
具体地,特征提取器包括分别与静默处理模块连接的第一特征提取模块、第二特征提取模块、第三特征提取模块、第四特征提取模块;第一特征提取器,用于提取声音振幅相关特征;第二特征提取器,用于提取声音频率相关特征;第三特征提取器,用于提取声音频谱能量在时间维度的分布特征;第四特征提取器,用于提取声音频谱能量在频率维度的分布特征。
具体地,第三特征提取模块、第四特征提取模块均为线性半音无限脉冲滤波器组,其对声音信号进行滤波后得到声音频谱能量信息。
具体地,演奏触发帧自动类别标注模块分别与第一特征提取模块、第二特征提取模块、第三特征提取模块连接;演奏触发音高自动类别标注模块与第四特征提取模块连接。
具体地,时值提取器包括依次连接的演奏触发帧分类器、偏差校正模块、时值转换模块;演奏触发帧分类器包括依次连接的演奏触发帧自动类别标注模块、人工特征过滤器和二分类器;演奏触发帧自动类别标注模块分别与第一特征提取模块、第二特征提取模块、第三特征提取模块连接和二分类器。
具体地,音高提取器包括相互连接的演奏触发音高分类器和偏差校正模块;演奏触发音高分类器包括依次与第四特征提取模块连接的演奏触发音高自动类别标注模块、单类分类器和二分类器。
一种计算机设备包括处理器和存储器,存储器中存储有计算机程序,计算机程序在被处理器加载并执行时实现构建方法或如提取方法。
一种计算机可读介质中存储有计算机程序,计算机程序由处理器加载并执行以实现构建方法或提取方法。
与现有技术相比,本发明具有以下有益效果:
(1)通过本发明构建曲谱-声音数据集,声音特征-音乐元素数据集;提取的特征经过演奏触发帧自动类别标注模块自动标注后,通过人工特征过滤器过滤,然后将处于阈值范围内的样本作为训练样本训练二分类器;提取的特征经过演奏触发音高自动类别标注模块自动标注后,将类别为假的样本用于训练单类分类器,类别为假的样本与类别为真的样本合并作为训练样本训练二分类器;通过上述过程提高了应用监督机器学习技术的数据可获得性和降低了数据成本。
(2)本发明在合理构建训练数据集的基础上,运用机器学习方法替代传统方法的人工规则,在单音识别、复音识别领域中均有良好性能表现。
(3)通过本发明能实现任一乐音乐器的音高和时值的提取,为其作为学习资料,考试资料提供了标准。
(4)本发明能快速高效提取任一乐音乐器演奏声音的音高和时值信息,为音乐分析或者自动音乐转录提供了数据输入支持。
(5)本发明也可以应用于演唱声音的音高和时值的提取,便于分析演唱效果等。
附图说明
图1为提取系统的结构示框图。
图2为演奏触发帧分类器的结构示框图。
图3为演奏触发音高分类器的结构示框图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。
一种乐音乐器音乐分析数据集的构建方法包括以下步骤:
(A1)根据乐音乐器的声学特征、演奏技法要求、演奏技能水平要求选择数字曲谱,登记入数字曲谱库;
(A2)由具备相应演奏技能水平的演奏者演奏曲谱生成数字声音信号,登记入数字声音库;
(A3)将步骤(A1)中数字曲谱和步骤(A2)中的数字声音信号对应匹配形成曲谱-声音数据集;
(A4)对步骤(A3)的曲谱-声音数据集中演奏者的声音进行特征提取;
(A5)从步骤(A3)的曲谱-声音数据集中的可扩展标记格式的曲谱文件中提取音乐元素信息,根据分类标签规则生成类别标签序列;
(A6)根据数据初始化规则和匹配规则,将类别标签序列与声音特征匹配形成声音特征-音乐元素数据集。
其中,步骤(A4)中的特征包括振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征;步骤(A5)中的音乐元素包括音高、时值、节拍、强弱;分类标签规则为把音高、时值、节拍、强弱转换成布尔向量或数值向量;步骤(A6)中的初始化规则为确定初始帧索引,匹配规则为标签帧索引与声音特征索引匹配,还可包括其他音乐元素。
其中,振幅相关特征包括每帧振幅最值、均值、高阶导数;频率相关特征包括每帧频率的最值、均值、高阶导数;声音频谱能量在时间维度的分布特征包括时间维度上的最值、均值、高阶导数;声音频谱能量在频率维度的分布特征包括频率维度上的最值、均值、高阶导数。
作为本发明较佳的实施例中,步骤(A5)中类别标签序列包括从曲谱文件中提取音高序列信息并生成的触发音高序列标签、从曲谱文件中提取对值序列信息并根据演奏起始时间及演奏速度生成的触发帧序列标签;还可包括其他序列标签,如节拍序列标签等。
通过上述构建方法可构建乐音乐器的音高数据集和时值数据集,也可构建其他音乐元素的数据集。
一种数据集通过构件方法构建的声音特征-音乐元素数据集。
一种基于数据集的乐音乐器声音中音高和时值的提取方法包括以下步骤:
(B1)接收演奏者的声音,依次经过降噪和去掉首尾静默段处理;
(B2)提取经过步骤(B1)处理后声音中的多种特征信息;
(B3)将步骤(B2)提取的多种特征信息,输入预先训练的演奏触发帧分类器,对步骤(B1)中声音信号中的演奏触发帧进行分类;触发帧标记为真,非触发帧标记为假;
(B4)提取步骤(B3)中预测类别为真的帧索引序列,对不符合演奏规则的系统性偏差进行校正和转换后输出时值序列;
(B5)将步骤(B2)提取的多种特征信息,输入预先训练的演奏触发音高分类器,对步骤(B1)中声音信号中的触发音高进行分类;触发音高为真,非触发音高为假;
(B6)提取步骤(B5)中预测为真类别的音高索引,对不符合演奏规则的系统性偏差进行校正,并输出音高序列信息。
其中,步骤(B2)中的特征信息包括振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征。
作为本发明较佳的实施例中,步骤(B3)中的演奏触发帧分类器预先训练的具体过程为:
(B31)将数据集中声音信号转换为多个帧;
(B32)对(B31)中的声音信号逐帧提取振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征;
(B33)对步骤(B32)的帧通过演奏触发帧自动类别标注模块标记演奏触发帧和非演奏触发帧,演奏触发帧为真,非演奏触发帧为假;
(B34)对步骤(B32)中每帧进行人工特征过滤器过滤:通过计算观察样本分布选择振幅和能量的过滤阈值范围,超出阈值范围的帧类别为非演奏帧;
(B35)经过步骤(B33)处理后的处于阈值范围内的样本作为训练样本训练二分类器。
作为本发明较佳的实施例中,步骤(B5)的触发音高分类的预先训练具体过程为:
(B51)将数据集中声音信号转换为多个帧;
(B52)对(B51)中的声音信号逐帧提取频谱能量在频率维度的分布特征;
(B53)对步骤(B52)的帧通过演奏触发音高自动类别标注模块标记触发音高和非演奏触发音高,触发音高为真,非触发音高为假;
(B54)使用(B53)中类别为假的样本作为训练样本训练单类分类器,进行异常值检测;
(B55)将步骤(B54)中预测为假的样本与步骤(B53)中的类别为真的样本合并作为训练样本训练二分类器。
一种基于数据集的乐音乐器声音中音高和时值的提取系统包括依次连接的音频接收器、音频处理器、特征提取器;和自动类别标注器对应连接的时值提取器、音高提取器;
音频接收器,用于将物理声音转换为数字声音信号;
音频处理器,用于将输入的数字声音信号进行降噪和首尾静默切除;
特征提取器,用于提取处理后的数字声音信号相关特征;
时值提取器,用于提取预测数据的时值信息;
音高提取器,用于提取预测数据的音高信息。
作为本发明较佳的实施例中,音频处理器包括与音频接收器依次连接的降噪模块和静默处理模块。
作为本发明较佳的实施例中,特征提取器包括分别与静默处理模块连接的第一特征提取模块、第二特征提取模块、第三特征提取模块、第四特征提取模块;第一特征提取器,用于提取声音振幅相关特征;第二特征提取器,用于提取声音频率相关特征;第三特征提取器,用于提取声音频谱能量在时间维度的分布特征;第四特征提取器,用于提取声音频谱能量在频率维度的分布特征。
作为本发明较佳的实施例中,第三特征提取模块、第四特征提取模块均为线性半音无限脉冲滤波器组,其对声音信号进行滤波后得到声音频谱能量信息。
作为本发明较佳的实施例中,演奏触发帧自动类别标注模块分别与第一特征提取模块、第二特征提取模块、第三特征提取模块连接;演奏触发音高自动类别标注模块与第四特征提取模块连接;演奏触发帧自动类别标注模块根据声音特征-音乐元素数据集中的触发时间序列标签,对相应的特征序列进行标注。
作为本发明较佳的实施例中,时值提取器包括依次连接的演奏触发帧分类器、偏差校正模块、时值转换模块;演奏触发帧分类器包括依次连接的演奏触发帧自动类别标注模块、人工特征过滤器和二分类器;演奏触发帧自动类别标注模块分别与第一特征提取模块、第二特征提取模块、第三特征提取模块连接和二分类器。
作为本发明较佳的实施例中,音高提取器包括相互连接的演奏触发音高分类器和偏差校正模块;演奏触发音高分类器包括依次与第四特征提取模块连接的演奏触发音高直动类别标注模块、单类分类器和二分类器;演奏触发音高分类器根据声音特征-音乐元素数据集中的触发音高序列标签,对相应的特征序列进行标注。
一种计算机设备包括处理器和存储器,存储器中存储有计算机程序,计算机程序在被处理器加载并执行时实现构建方法或如提取方法。
一种计算机可读介质中存储有计算机程序,计算机程序由处理器加载并执行以实现构建方法或提取方法。
本发明的实施例涉及利用监督机器学习模型提取乐音乐器演奏生成的数字声音信号的时值信息和音高信息
本发明在合理构建训练数据集的基础上,运用机器学习方法替代传统方法的人工规则,在单音识别、复音识别领域中均有良好性能表现
如图1至图3所示,一种基于数据集的乐音乐器声音中音高和时值的提取系统的提取过程图及每步的目的;具体如下:
【IP01】由演奏者演奏乐器。
【M10】经过音频接收器,按照预先设定的采样率、数字声音格式将物理声音信号转换为数字声音信号,得到数字声音信号序列。
【M20】将上一步得到的数字声音信号序列进行预处理。
【M21】从数字声音序列的起始端截取适当时间长度的声音信号序列作为环境噪音样本,对整体数字声音信号序列进行降噪处理。
【M22】将经过降噪处理的数字声音信号序列,起始端和结束端振幅低于阈值的信号定义为静默,切除对应序列位置的数字声音信号。
【M30】将经过静默切除的数字声音信号,按照预先设定的窗口大小、滑动窗口大小,窗口对齐方式进行分帧,生成帧序列的数字声音信号,进行特征提取。
【M31】将帧序列的数字声音信号,经过第一特征提取器,提取振幅相关特征,包括但不限于每帧振幅最值、均值、高阶导数等。
【M32】将帧序列的数字声音信号,经过第二特征提取器,提取频率相关特征,包括但不限于每帧过零率的最值、均值、高阶导数等。
【M33】将帧序列的数字声音信号,经过第三特征提取器,提取声音频谱能量在时间维度的分布特征,包括但不限于每帧能量的最值、均值、高阶导数等。需要特别说明的是,本实施例是基于无限脉冲滤波的方式提取声音频谱能量在时间维度的分布特征,即,将帧序列的数字声音信号,通过线性半音无限脉冲滤波器组,生成每帧声音信号在128个半音频率带的能量值。
【M34】将帧序列的数字声音信号,经过第四特征提取器,提取声音频谱能量在频率维度的分布特征,包括但不限于每个频率带能量的最值、均值、高阶导数等。同样的,本实施例是基于线性半音无限脉冲滤波组提取声音频谱能量在时间维度的分布特征。
【M414】将经过第一、第二、第三特征提取器提取的特征进行演奏触发帧的自动类别标注;从可扩展标记格式的曲谱文件中,提取每个演奏音时值信息,并根据开始演奏时间、演奏速度转换为每个演奏音的触发帧序列,将所有时间帧序列中的触发帧标记为真,非触发帧标记为假。
【M415】通过计算观察样本分布选择振幅和能量的过滤阈值范围,超出阈值范围的帧类别为非演奏帧。
【M416】在【M415】中处于阈值范围内的样本作为训练样本训练二分类器。
【M42】将预测样本数据输入演奏触发帧分类器,提取预测类别为真的帧索引序列,对不符合演奏规则的系统性偏差进行校正和转换后输出时值序列。
【M43】将校正后的帧索引序列转换为时值序列,并输出时值序列信息。
【M512】将经过第四特征提取器提取的特征进行演奏触发音高自动类别标注模块进行标注;从可扩展标记格式的曲谱文件中,提取每个演奏音音名信息,并根据音名与音高频率带之间的关系转换为每个演奏音的触发音高序列,将每个演奏音频率带序列中的触发音高频率带标记为真,非触发音高频率带标记为假。
【M513】将为假的非触发音高频率带作为训练样本训练单类分类器,进行异常值检测;
【M514】将为假的非触发音高频率带和为真的非触发音高频率带样本合并作为训练样本训练二分类器。
【M52】将预测样本数据输入演奏触发音高分类器,提取触发分类器中预测为真的音高索引,对不符合演奏规律的系统性偏差进行校正,并输出音高序列信息。
按照上述实施例,便可很好地实现本发明。值得说明的是,基于上述结构设计的前提下,为解决同样的技术问题,即使在本发明上做出的一些无实质性的改动或润色,所采用的技术方案的实质仍然与本发明一样,故其也应当在本发明的保护范围内。

Claims (6)

1.一种乐音乐器音乐分析数据集的构建方法,其特征在于,包括以下步骤:
(A1)根据乐音乐器的声学特征、演奏技法要求、演奏技能水平要求选择数字曲谱,登记入数字曲谱库;
(A2)由具备相应演奏技能水平的演奏者演奏曲谱生成数字声音信号,登记入数字声音库;
(A3)将步骤(A1)中数字曲谱和步骤(A2)中的数字声音信号对应匹配形成曲谱-声音数据集;
(A4)对步骤(A3)的曲谱-声音数据集中演奏者的声音进行特征提取;
(A5)从步骤(A3)的曲谱-声音数据集中的可扩展标记格式的曲谱文件中提取音乐元素信息,根据分类标签规则生成类别标签序列;
(A6)根据数据初始化规则和匹配规则,将类别标签序列与声音特征匹配形成声音特征-音乐元素数据集。
2.根据权利要求1所述的构建方法,其特征在于,步骤(A4)中的特征包括振幅相关特征、频率相关特征、声音频谱能量在时间维度的分布特征、声音频谱能量在频率维度的分布特征;步骤(A5)中的音乐元素包括音高、时值、节拍、强弱;分类标签规则为把音高、时值、节拍、强弱转换成布尔向量或数值向量;步骤(A6)中的初始化规则为确定初始帧索引,匹配规则为标签帧索引与声音特征索引匹配。
3.根据权利要求1所述的构建方法,其特征在于,振幅相关特征包括每帧振幅最值、均值、高阶导数;频率相关特征包括每帧频率的最值、均值、高阶导数;声音频谱能量在时间维度的分布特征包括时间维度上的最值、均值、高阶导数;声音频谱能量在频率维度的分布特征包括频率维度上的最值、均值、高阶导数。
4.根据权利要求1-3任一项所述的构建方法,其特征在于,步骤(A5)中类别标签序列包括从曲谱文件中提取音高序列信息并生成的触发音高序列标签、从曲谱文件中提取时值序列信息并根据演奏起始时间及演奏速度生成的触发帧序列标签。
5.一种计算机设备,其特征在于,包括处理器和存储器,存储器中存储有计算机程序,计算机程序在被处理器加载并执行时实现如权利要求1至4任一项中的构建方法。
6.一种计算机可读介质,其特征在于,计算机可读介质中存储有计算机程序,计算机程序由处理器加载并执行以实现如权利要求1至4任一项中的构建方法。
CN201910669985.XA 2019-07-25 2019-07-25 一种音乐分析数据集构建方法及基于其的音高、时值提取方法 Active CN110415730B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110634335.9A CN113205831A (zh) 2019-07-25 2019-07-25 一种基于数据集的乐音乐器声音中音高和时值的提取方法
CN202110634456.3A CN113205832A (zh) 2019-07-25 2019-07-25 一种基于数据集的乐音乐器声音中音高和时值的提取系统
CN201910669985.XA CN110415730B (zh) 2019-07-25 2019-07-25 一种音乐分析数据集构建方法及基于其的音高、时值提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910669985.XA CN110415730B (zh) 2019-07-25 2019-07-25 一种音乐分析数据集构建方法及基于其的音高、时值提取方法

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN202110634456.3A Division CN113205832A (zh) 2019-07-25 2019-07-25 一种基于数据集的乐音乐器声音中音高和时值的提取系统
CN202110634335.9A Division CN113205831A (zh) 2019-07-25 2019-07-25 一种基于数据集的乐音乐器声音中音高和时值的提取方法

Publications (2)

Publication Number Publication Date
CN110415730A CN110415730A (zh) 2019-11-05
CN110415730B true CN110415730B (zh) 2021-08-31

Family

ID=68362807

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201910669985.XA Active CN110415730B (zh) 2019-07-25 2019-07-25 一种音乐分析数据集构建方法及基于其的音高、时值提取方法
CN202110634456.3A Withdrawn CN113205832A (zh) 2019-07-25 2019-07-25 一种基于数据集的乐音乐器声音中音高和时值的提取系统
CN202110634335.9A Withdrawn CN113205831A (zh) 2019-07-25 2019-07-25 一种基于数据集的乐音乐器声音中音高和时值的提取方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN202110634456.3A Withdrawn CN113205832A (zh) 2019-07-25 2019-07-25 一种基于数据集的乐音乐器声音中音高和时值的提取系统
CN202110634335.9A Withdrawn CN113205831A (zh) 2019-07-25 2019-07-25 一种基于数据集的乐音乐器声音中音高和时值的提取方法

Country Status (1)

Country Link
CN (3) CN110415730B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210841B (zh) * 2020-01-13 2022-07-29 杭州矩阵之声科技有限公司 一种乐器音位识别模型建立方法及乐器音位识别方法
CN111863026B (zh) * 2020-07-27 2024-05-03 北京世纪好未来教育科技有限公司 键盘乐器弹奏音乐的处理方法、装置、电子装置
CN113436591B (zh) * 2021-06-24 2023-11-17 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110036231A1 (en) * 2009-08-14 2011-02-17 Honda Motor Co., Ltd. Musical score position estimating device, musical score position estimating method, and musical score position estimating robot
CN102214193A (zh) * 2010-04-06 2011-10-12 索尼公司 信息处理装置、客户端装置、服务器装置
CN108363769A (zh) * 2018-02-07 2018-08-03 大连大学 基于语义的音乐检索数据集的建立方法
CN109065008A (zh) * 2018-05-28 2018-12-21 森兰信息科技(上海)有限公司 一种音乐演奏曲谱匹配方法、存储介质及智能乐器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6047985B2 (ja) * 2012-07-31 2016-12-21 ヤマハ株式会社 伴奏進行生成装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110036231A1 (en) * 2009-08-14 2011-02-17 Honda Motor Co., Ltd. Musical score position estimating device, musical score position estimating method, and musical score position estimating robot
CN102214193A (zh) * 2010-04-06 2011-10-12 索尼公司 信息处理装置、客户端装置、服务器装置
CN108363769A (zh) * 2018-02-07 2018-08-03 大连大学 基于语义的音乐检索数据集的建立方法
CN109065008A (zh) * 2018-05-28 2018-12-21 森兰信息科技(上海)有限公司 一种音乐演奏曲谱匹配方法、存储介质及智能乐器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于主动学习的中文问题分类数据集构建;邱锡鹏 等;《哈尔滨工业大学学报》;20120531;第44卷(第5期);第125-128页 *

Also Published As

Publication number Publication date
CN113205832A (zh) 2021-08-03
CN110415730A (zh) 2019-11-05
CN113205831A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN110415730B (zh) 一种音乐分析数据集构建方法及基于其的音高、时值提取方法
Gevaert et al. Neural networks used for speech recognition
CN107369439B (zh) 一种语音唤醒方法和装置
US20080082323A1 (en) Intelligent classification system of sound signals and method thereof
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
JPH04122996A (ja) 自動音声認識用に音類似に基づく文脈依存カテゴリへ音素の発音をグループ化する方法と装置
CN110148425A (zh) 一种基于完整局部二进制模式的伪装语音检测方法
CN109545191B (zh) 一种歌曲中人声起始位置的实时检测方法
CN107564543B (zh) 一种高情感区分度的语音特征提取方法
Ghule et al. Feature extraction techniques for speech recognition: A review
CN112466316A (zh) 一种基于生成对抗网络的零样本语音转换系统
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
Tsenov et al. Speech recognition using neural networks
CN106847248A (zh) 基于鲁棒性音阶轮廓特征和向量机的和弦识别方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和系统
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Oudre et al. Chord recognition using measures of fit, chord templates and filtering methods
Viloria et al. Segmentation process and spectral characteristics in the determination of musical genres
JPH10509526A (ja) ヒドンマルコフモデルを使用して設計された決定木分類子
CN111091816B (zh) 一种基于语音评测的数据处理系统及方法
Eichner et al. Speech synthesis using stochastic Markov graphs
Li et al. Real-Time End-to-End Monaural Multi-Speaker Speech Recognition}}
CN113742515A (zh) 一种音频分类方法及系统及设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant