CN114550675A - 一种基于CNN--Bi-LSTM网络的钢琴转录方法 - Google Patents

一种基于CNN--Bi-LSTM网络的钢琴转录方法 Download PDF

Info

Publication number
CN114550675A
CN114550675A CN202210194012.7A CN202210194012A CN114550675A CN 114550675 A CN114550675 A CN 114550675A CN 202210194012 A CN202210194012 A CN 202210194012A CN 114550675 A CN114550675 A CN 114550675A
Authority
CN
China
Prior art keywords
audio
piano
cnn
cqt
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210194012.7A
Other languages
English (en)
Inventor
卢迪
李梦园
王月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210194012.7A priority Critical patent/CN114550675A/zh
Publication of CN114550675A publication Critical patent/CN114550675A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • G10G1/04Transposing; Transcribing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/105Composing aid, e.g. for supporting creation, edition or modification of a piece of music

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于CNN‑‑Bi‑LSTM网络的钢琴转录方法,该方法一共分为三步:(1)数据预处理:对获取的钢琴音频信号进行降噪预处理,得到纯净音频;(2)特征提取:对音频特征提取分别采用CQT与MFCC,对比两者处理效果,使用一种CQT+MFCC特征融合方法对音频进行处理;(3)音符识别:设计基于CNN‑‑Bi‑LSTM网络引入注意力模型的钢琴转录算法。本发明在于针对钢琴转录提出了一个基于CNN‑‑Bi‑LSTM神经网络模型,并引入了注意力机制,成功提高了音符识别的准确率。

Description

一种基于CNN--Bi-LSTM网络的钢琴转录方法
技术领域
本发明属于多音调音符转录领域,是一种基于CNN--Bi-LSTM网络的钢琴转录方法,可应用于钢琴转录。
背景技术
音乐是日常生活中最常见的艺术表现形式,既能够作为一种载体,表达人们的思想感情,极大的满足人们的精神文化需求;同时,其作为人们休闲娱乐的主要方式,也充实了人们的业余生活。目前,大部分音乐主要是以音频的格式存在(如wav,mp3),极少数以曲谱的形式呈现,这非常不利于音乐家们对音乐的进一步研究,如果能够实时的将音频转换为曲谱,这将极大的方便作曲家对音乐的进一步改善;同时,大多数音乐是以名字的形式存在,在不知到歌曲名的情况下,很难检索到需要的歌曲,如果能够将歌曲转换成曲谱,那么便可以通过片段的音乐去检索完整或相似的歌曲,从而极大的减少标注的成本。因此,音乐自动转录(AutomaticMusic Transcription,AMT)都有着巨大的经济需求和应用前景。
AMT,是音乐信息处理中一个具有挑战性的问题,相关研究可以追溯到1977年,几十年来,大批的学者在该领域做出了卓越的贡献。目前,可以根据音乐中同一时间存在的音调数量分为两大类:一种是单音调自动转录(Monophonic Music Transcription,MMT),这种AMT的音乐中同一时间只会存在一个音符,由于该类型任务较简单,现在已经可以比较完美的解决了;另一种是多音调自动转录(Polyphonic Music Transcription,PMT),这种AMT的音乐中会出现在同一时间存在多个音符,由于并行的音符在时间域上相互重叠,同时在频域上又会因为谐波而互相影响,造成多音调音乐信号十分复杂,难以分析,故多音调自动转录问题仍然具有严峻的挑战。基于AMT算法的研究的理论意义和应用价值,为了进一步提升AMT算法的多音调识别效果,也是为了完善AMT算法对于音符结束时间的检测,本发明针对最常用的乐器之一,也是多音调乐器的代表——钢琴,进行了钢琴的多音调转录算法研究。
发明内容
1、本发明的目的
本发明的目的在于针对钢琴音乐提出一种基于CNN--Bi-LSTM网络的钢琴转录研究模型。即输入一段钢琴音频信号,对其进行降噪预处理,得到纯净音频,提取特征并进行融合,使得特征参数能够完整精确的表示音频信息。将得到特征参数送入所构建的神经网络模块进行音符的起始与结束检测,最后输出结果。
2、本发明所采用的技术方案
为实现上述目的,本发明采用的技术方案为一种基于CNN--Bi-LSTM网络的钢琴转录方法,该方法一共分为三步:
(1)数据预处理:本发明选用纯净的钢琴音频(MAPS)数据集,将含噪声的琴音频进行降噪预处理,再将纯净的钢琴音频与噪音进行对比。
本发明采用DRNN神经网络对音频进行降噪处理,DRNN降噪模型有三层隐含层,可以通过增加隐含层数,提升每次迭代中带噪信号向纯净信号的逼近速度。只在中间一个隐含层上加入连接层,减少训练过程中,需要纯净信号Y以及输出信号Y。输出信号与纯净信号之间的损失函数L可以用两者矢量差平方的均值来衡量,其中L=1/N(Y-Y),若L大于预设值,则对权重等参数关于L求偏导,计算新的参数并进行正向传递,直到L小于预设值训练结束。
(2)特征提取:由于音符信号中含有丰富的谐波信息,单一特征很难准确、全面地表示原始信号特征,这会使部分重要的信息特征丢失,造成识别不准确。因此采用特征融合的方法来弥补这一不足。提出的改进特征融合是采用首尾相连,把提取的梅尔频率倒谱系数(MFCC)特征向量和常数Q变换(CQT)特征向量进行组合,形成融合特征矩阵。
MFCC是基于人类听觉的非线性特性提出的一种特征提取方法,它比线性预测倒谱系数更符合人耳的听觉特征,可以更好地表征音符信号特征。
梅尔频率提取特征参数:
第一步分帧,将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,时间为20--30ms左右。为了避免相邻两针的变化过大,会让相邻两针之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。
第二步加窗,将每一帧乘以汉明窗,以增加帧两端的连续性。假设分帧后的信号为S(n),n=0,1,......,N-1,N为帧的大小,乘以汉明窗后为S1(n)=S(n)*W(n),W(n)公式如下:
Figure BDA0003525227290000021
第三步快速傅里叶变换,对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对音频信号的频谱取模平方得到音频信号的功率谱。假设音频信号的离散傅里叶变换为:
Figure BDA0003525227290000022
式中x(n)为输入的音频信号。
第四步,将能量谱通过一组梅尔尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组。三角带通滤波器有两个主要目的:对频谱进行平滑化,并消除谐波的作用。计算每个滤波器组输出的对数能量
Figure BDA0003525227290000031
第五步,将上述结果经过离散余弦变换得到MFCC系数:
Figure BDA0003525227290000032
CQT提取特征参数:
有限长序列x(n)的CQT变换为:
Figure BDA0003525227290000033
其中
Figure BDA0003525227290000034
是长度为Nk的窗函数,窗函数选用汉明窗;Q是常数因子,k是频谱图的频率序号,Nk的值与k值有关。
特征融合:假设得到的MFCC特征向量定义为:T1=[FL1,FL2,......,FLM],其中,FLM为第L帧第M维的MFCC。得到的CQT特征向量定义为:T2=[Q1N,Q2N,......,QKN],其中QKN为第N帧第K维的CQT。由于过大的数据量会降低神经网络的训练效率,且CQT中的帧长是变化的,导致上述两式L≠N。因此,须分别对MFCC特征向量和CQT特征向量进行平均降维处理,降维后的MFCC特征向量为:T3=[F11,F12,......,F1M],其中,T3是第1行M列的矩阵;降维后的CQT特征向量为:T4=[Q11,Q21,......,QK1],其中T4是K行1列的矩阵;融合后的特征向量为:T=[T3,(T4)T],其中,T是1行K+M列的矩阵。
(3)CNN--Bi-LSTM混合模型音符识别:
第一步,系统模型通过CQT+MFCC特征提取之后,由CNN中的卷积层分层训练,得到钢琴音频实际标签与预测钢琴音频标签的差值,求出了网络模型的损失函数,对损失函数进行梯度权重的训练。
第二步,CNN中的池化层用于减少每个特征映射的维度,它能够降低训练网络的计算成本,采用上采样的方式对卷积神经网络模型进行收敛。
第三步,将特征输入到Bi-LSTM,通过三个门函数(记忆门、遗忘门、输出门)进行循环训练,学习到充分有效的音频特性。
第四步,利用注意力机制(Attention)通过对音频向量的语义编码分配不同的注意力权重,以区分音频中信息的重要性大小,提高分类的准确率。
第五步,全连接层将卷积层学到的“分布式特征表示”映射到样本标记空间,以进行后续的分类任务。
第六步,通过soft-max分类器进行音符分类。
第七步,得到完整的音符信息(音符的起始时间、音调及音符结束时间)。
3、本发明的有益效果
解决了单一模型存在拟合和梯度问题,增加了网络的学习能力,从而提高了模型的分类性能。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的音频处理流程图;
图2为本发明的算法设计图;
图3为DRNN降噪模型图;
图4为MFCC提取参数的基本流程图;
图5为注意力机制的结构图;
图6为本发明的网络结构设计图;
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的部分,而省略了与本发明关系不大的其他细节。
具体实施方式一:
本实施方式的一种基于CNN--Bi-LSTM网络的钢琴转录方法,结合图1到图6,所述方法包括以下步骤:
(1)数据预处理:本发明选用纯净的钢琴音频(MAPS)数据集,将含噪声的琴音频进行降噪预处理,再将纯净的钢琴音频与噪音进行对比。
本发明采用DRNN神经网络对音频进行降噪处理,DRNN降噪模型有三层隐含层,可以通过增加隐含层数,提升每次迭代中带噪信号向纯净信号的逼近速度。只在中间一个隐含层上加入连接层,减少训练过程中,需要纯净信号Y以及输出信号Y。输出信号与纯净信号之间的损失函数L可以用两者矢量差平方的均值来衡量,其中L=1/N(Y-Y),若L大于预设值,则对权重等参数关于L求偏导,计算新的参数并进行正向传递,直到L小于预设值训练结束。
(2)特征提取:由于音符信号中含有丰富的谐波信息,单一特征很难准确、全面地表示原始信号特征,这会使部分重要的信息特征丢失,造成识别不准确。因此采用特征融合的方法来弥补这一不足。提出的改进特征融合是采用首尾相连,把提取的梅尔频率倒谱系数(MFCC)特征向量和常数Q变换(CQT)特征向量进行组合,形成融合特征矩阵。
MFCC是基于人类听觉的非线性特性提出的一种特征提取方法,它比线性预测倒谱系数更符合人耳的听觉特征,可以更好地表征音符信号特征。
梅尔频率提取特征参数:
第一步分帧,将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,时间为20--30ms左右。为了避免相邻两针的变化过大,会让相邻两针之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。
第二步加窗,将每一帧乘以汉明窗,以增加帧两端的连续性。假设分帧后的信号为S(n),n=0,1,......,N-1,N为帧的大小,乘以汉明窗后为S1(n)=S(n)*W(n),W(n)公式如下:
Figure BDA0003525227290000051
第三步快速傅里叶变换,对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对音频信号的频谱取模平方得到音频信号的功率谱。假设音频信号的离散傅里叶变换为:
Figure BDA0003525227290000052
式中x(n)为输入的音频信号。
第四步,将能量谱通过一组梅尔尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组。三角带通滤波器有两个主要目的:对频谱进行平滑化,并消除谐波的作用。计算每个滤波器组输出的对数能量
Figure BDA0003525227290000053
第五步,将上述结果经过离散余弦变换得到MFCC系数:
Figure BDA0003525227290000054
CQT提取特征参数:
有限长序列x(n)的CQT变换为:
Figure BDA0003525227290000055
其中
Figure BDA0003525227290000056
是长度为Nk的窗函数,窗函数选用汉明窗;Q是常数因子,k是频谱图的频率序号,Nk的值与k值有关。
特征融合:假设得到的MFCC特征向量定义为:T1=[FL1,FL2,......,FLM],其中,FLM为第L帧第M维的MFCC。得到的CQT特征向量定义为:T2=[Q1N,Q2N,......,QKN],其中QKN为第N帧第K维的CQT。由于过大的数据量会降低神经网络的训练效率,且CQT中的帧长是变化的,导致上述两式L≠N。因此,须分别对MFCC特征向量和CQT特征向量进行平均降维处理,降维后的MFCC特征向量为:T3=[F11,F12,......,F1M],其中,T3是第1行M列的矩阵;降维后的CQT特征向量为:T4=[Q11,Q21,......,QK1],其中T4是K行1列的矩阵;融合后的特征向量为:T=[T3,(T4)T],其中,T是1行K+M列的矩阵。
(3)CNN--Bi-LSTM混合模型音符识别:
第一步,系统模型通过CQT+MFCC特征提取之后,由CNN中的卷积层分层训练,得到钢琴音频实际标签与预测钢琴音频标签的差值,求出了网络模型的损失函数,对损失函数进行梯度权重的训练。
第二步,CNN中的池化层用于减少每个特征映射的维度,它能够降低训练网络的计算成本,采用上采样的方式对卷积神经网络模型进行收敛。
第三步,将特征输入到Bi-LSTM,通过三个门函数(记忆门、遗忘门、输出门)进行循环训练,学习到充分有效的音频特性。
第四步,利用注意力机制(Attention)通过对音频向量的语义编码分配不同的注意力权重,以区分音频中信息的重要性大小,提高分类的准确率。
第五步,全连接层将卷积层学到的“分布式特征表示”映射到样本标记空间,以进行后续的分类任务。
第六步,通过soft-max分类器进行音符分类。
第七步,得到完整的音符信息(音符的起始时间、音调及音符结束时间)。

Claims (4)

1.一种基于CNN--Bi-LSTM网络的钢琴转录方法,其特征在于,包括以下步骤:
(1)数据预处理:对获取的一段钢琴音频信号进行预处理,本发明训练DRNN神经网络,对音频进行降噪处理,以达到消除音乐信号噪声的目的;
(2)特征提取:对得到的纯净音频采用CQT+MFCC提取特征并进行融合,使得特征参数能够完整精确的表示音频信息;
(3)音符识别:将得到的特征参数送入所构建的神经网络模块,进行音符的起始与结束检测,最后输出MIDI格式。
2.根据权利要求1所述一种基于CNN--Bi-LSTM网络的钢琴转录方法,其特征在于:所述的数据预处理将对获取的钢琴音频信号进行降噪预处理,以得到纯净的音频;DRNN降噪模型有三层隐含层,可以通过增加隐藏层数,提升每次迭代中带噪信号向纯净信号的逼近速度;只在中间一个隐含层上加入连接层,减少训练过程中的计算量;在训练过程中,需要纯净信号以及输出信号;输出信号与纯净信号之间的损失函数可以用两者矢量差平方的均值来衡量,其中,若大于预设值,则对权重等参数求关于的偏导,计算新的参数并进行正向传递,直到小于预设值,训练结束。
3.根据权利要求1所述一种基于CNN--Bi-LSTM网络的钢琴转录方法,其特征在于:所述的特征提取就是对得到的纯净音频进行特征提取,使得特征参数能够完整精确的表示音频信息;假设得到的MFCC特征向量定义为:,其中,为第帧第维的MFCC;得到的CQT特征向量定义为:,其中,为第帧第维的CQT;由于过大的数据量会降低神经网络的训练效率,且中的帧长是变化的,导致上述两式中;因此,须分别对MFCC特征向量和CQT特征向量进行平均降维处理,降维后的MFCC特征向量为:,其中,是第1行列的矩阵;降维后的CQT特征向量为:,其中,是行1列的矩阵;融合后的特征向量为:,其中,是1行列的矩阵。
4.根据权利要求1所述一种基于CNN--Bi-LSTM网络的钢琴转录方法,其特征在于:所述的音符识别是将得到的特征参数送入本发明所构建的神经网络模块,进行音符的起始与结束检测,最后输出MIDI格式;其主要包括两个部分:一是CNN--Bi-LSTM网络构建,二是引入注意力模型;主要流程为:首先获取大规模音频信号训练而成的特征向量矩阵,将其输出作为CNN--Bi-LSTM网络的输入,并引入注意力模型,再添加全连接层;通过混合算法模型可以学习到音频特征图中更多信息内容,既解决了单一模型存在拟合和梯度问题,又增加了学习能力,从而提高了模型的分类性能。
CN202210194012.7A 2022-03-01 2022-03-01 一种基于CNN--Bi-LSTM网络的钢琴转录方法 Pending CN114550675A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210194012.7A CN114550675A (zh) 2022-03-01 2022-03-01 一种基于CNN--Bi-LSTM网络的钢琴转录方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210194012.7A CN114550675A (zh) 2022-03-01 2022-03-01 一种基于CNN--Bi-LSTM网络的钢琴转录方法

Publications (1)

Publication Number Publication Date
CN114550675A true CN114550675A (zh) 2022-05-27

Family

ID=81661576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210194012.7A Pending CN114550675A (zh) 2022-03-01 2022-03-01 一种基于CNN--Bi-LSTM网络的钢琴转录方法

Country Status (1)

Country Link
CN (1) CN114550675A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275499A (zh) * 2023-11-17 2023-12-22 深圳波洛斯科技有限公司 自适应神经网络的降噪方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018194456A1 (en) * 2017-04-20 2018-10-25 Universiteit Van Amsterdam Optical music recognition omr : converting sheet music to a digital format
CN109712628A (zh) * 2019-03-15 2019-05-03 哈尔滨理工大学 一种基于rnn的语音降噪方法及语音识别方法
CN111461173A (zh) * 2020-03-06 2020-07-28 华南理工大学 一种基于注意力机制的多说话人聚类系统及方法
CN113469153A (zh) * 2021-09-03 2021-10-01 中国科学院自动化研究所 基于微表情、肢体动作和语音的多模态情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018194456A1 (en) * 2017-04-20 2018-10-25 Universiteit Van Amsterdam Optical music recognition omr : converting sheet music to a digital format
CN109712628A (zh) * 2019-03-15 2019-05-03 哈尔滨理工大学 一种基于rnn的语音降噪方法及语音识别方法
CN111461173A (zh) * 2020-03-06 2020-07-28 华南理工大学 一种基于注意力机制的多说话人聚类系统及方法
CN113469153A (zh) * 2021-09-03 2021-10-01 中国科学院自动化研究所 基于微表情、肢体动作和语音的多模态情感识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARNAU BARO, ET AL.: "《Handwritten Historical Music Recognition by Sequence-to-Sequence with Attention Mechanism》", 《2020 17TH INTERNATIONAL CONFERENCE ON FRONTIERS IN HANDWRITING RECOGNITION (ICFHR)》, 25 November 2020 (2020-11-25), pages 205 - 210 *
CURTIS HAWTHORNE, ET AL.: "《ONSETS AND FRAMES: DUAL-OBJECTIVE PIANO TRANSCRIPTION》", 《19TH INTERNATIONAL SOCIETY FOR MUSIC INFORMATION RETRIEVAL CONFERENCE》, 5 June 2018 (2018-06-05), pages 1 - 8 *
陈燕文 等: "《基于MFCC和常数 Q 变换的乐器音符识别》", 《计算机科学》, vol. 47, no. 03, 22 November 2019 (2019-11-22), pages 149 - 155 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275499A (zh) * 2023-11-17 2023-12-22 深圳波洛斯科技有限公司 自适应神经网络的降噪方法及相关装置
CN117275499B (zh) * 2023-11-17 2024-02-02 深圳波洛斯科技有限公司 自适应神经网络的降噪方法及相关装置

Similar Documents

Publication Publication Date Title
CN108417228B (zh) 乐器音色迁移下的人声音色相似性度量方法
CN106295717B (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111128236B (zh) 一种基于辅助分类深度神经网络的主乐器识别方法
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN111986661A (zh) 复杂环境下基于语音增强的深度神经网络语音识别方法
Yu et al. Predominant instrument recognition based on deep neural network with auxiliary classification
CN105761728A (zh) 中国典型听觉文化符号特征选择方法
Shi et al. Music genre classification based on chroma features and deep learning
Reghunath et al. Transformer-based ensemble method for multiple predominant instruments recognition in polyphonic music
Meng et al. Automatic music transcription based on convolutional neural network, constant Q transform and MFCC
CN114550675A (zh) 一种基于CNN--Bi-LSTM网络的钢琴转录方法
Ferreira-Paiva et al. A survey of data augmentation for audio classification
Paschalidou et al. Multimodal deep learning architecture for hindustani raga classification
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
CN111681674A (zh) 一种基于朴素贝叶斯模型的乐器种类识别方法和系统
Viloria et al. Segmentation process and spectral characteristics in the determination of musical genres
Rajan et al. Multi-channel CNN-Based Rāga Recognition in Carnatic Music Using Sequential Aggregation Strategy
Pikrakis et al. Unsupervised singing voice detection using dictionary learning
Zhang Application of audio visual tuning detection software in piano tuning teaching
CN115662465A (zh) 一种适用于民族弦乐乐器的声音识别算法及装置
CN113744759B (zh) 音色模板定制方法及其装置、设备、介质、产品
Krishnendu Classification Of Carnatic Music Ragas Using RNN Deep Learning Models
Jiang et al. Music signal recognition based on the mathematical and physical equation inversion method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination