CN114550675A - 一种基于CNN--Bi-LSTM网络的钢琴转录方法 - Google Patents
一种基于CNN--Bi-LSTM网络的钢琴转录方法 Download PDFInfo
- Publication number
- CN114550675A CN114550675A CN202210194012.7A CN202210194012A CN114550675A CN 114550675 A CN114550675 A CN 114550675A CN 202210194012 A CN202210194012 A CN 202210194012A CN 114550675 A CN114550675 A CN 114550675A
- Authority
- CN
- China
- Prior art keywords
- audio
- piano
- cnn
- cqt
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013518 transcription Methods 0.000 title claims abstract description 20
- 230000035897 transcription Effects 0.000 title claims abstract description 20
- 230000009467 reduction Effects 0.000 claims abstract description 20
- 230000005236 sound signal Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 4
- 238000003062 neural network model Methods 0.000 abstract description 3
- 238000007500 overflow downdraw method Methods 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 description 10
- 238000009432 framing Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
- G10G1/04—Transposing; Transcribing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/105—Composing aid, e.g. for supporting creation, edition or modification of a piece of music
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种基于CNN‑‑Bi‑LSTM网络的钢琴转录方法,该方法一共分为三步:(1)数据预处理:对获取的钢琴音频信号进行降噪预处理,得到纯净音频;(2)特征提取:对音频特征提取分别采用CQT与MFCC,对比两者处理效果,使用一种CQT+MFCC特征融合方法对音频进行处理;(3)音符识别:设计基于CNN‑‑Bi‑LSTM网络引入注意力模型的钢琴转录算法。本发明在于针对钢琴转录提出了一个基于CNN‑‑Bi‑LSTM神经网络模型,并引入了注意力机制,成功提高了音符识别的准确率。
Description
技术领域
本发明属于多音调音符转录领域,是一种基于CNN--Bi-LSTM网络的钢琴转录方法,可应用于钢琴转录。
背景技术
音乐是日常生活中最常见的艺术表现形式,既能够作为一种载体,表达人们的思想感情,极大的满足人们的精神文化需求;同时,其作为人们休闲娱乐的主要方式,也充实了人们的业余生活。目前,大部分音乐主要是以音频的格式存在(如wav,mp3),极少数以曲谱的形式呈现,这非常不利于音乐家们对音乐的进一步研究,如果能够实时的将音频转换为曲谱,这将极大的方便作曲家对音乐的进一步改善;同时,大多数音乐是以名字的形式存在,在不知到歌曲名的情况下,很难检索到需要的歌曲,如果能够将歌曲转换成曲谱,那么便可以通过片段的音乐去检索完整或相似的歌曲,从而极大的减少标注的成本。因此,音乐自动转录(AutomaticMusic Transcription,AMT)都有着巨大的经济需求和应用前景。
AMT,是音乐信息处理中一个具有挑战性的问题,相关研究可以追溯到1977年,几十年来,大批的学者在该领域做出了卓越的贡献。目前,可以根据音乐中同一时间存在的音调数量分为两大类:一种是单音调自动转录(Monophonic Music Transcription,MMT),这种AMT的音乐中同一时间只会存在一个音符,由于该类型任务较简单,现在已经可以比较完美的解决了;另一种是多音调自动转录(Polyphonic Music Transcription,PMT),这种AMT的音乐中会出现在同一时间存在多个音符,由于并行的音符在时间域上相互重叠,同时在频域上又会因为谐波而互相影响,造成多音调音乐信号十分复杂,难以分析,故多音调自动转录问题仍然具有严峻的挑战。基于AMT算法的研究的理论意义和应用价值,为了进一步提升AMT算法的多音调识别效果,也是为了完善AMT算法对于音符结束时间的检测,本发明针对最常用的乐器之一,也是多音调乐器的代表——钢琴,进行了钢琴的多音调转录算法研究。
发明内容
1、本发明的目的
本发明的目的在于针对钢琴音乐提出一种基于CNN--Bi-LSTM网络的钢琴转录研究模型。即输入一段钢琴音频信号,对其进行降噪预处理,得到纯净音频,提取特征并进行融合,使得特征参数能够完整精确的表示音频信息。将得到特征参数送入所构建的神经网络模块进行音符的起始与结束检测,最后输出结果。
2、本发明所采用的技术方案
为实现上述目的,本发明采用的技术方案为一种基于CNN--Bi-LSTM网络的钢琴转录方法,该方法一共分为三步:
(1)数据预处理:本发明选用纯净的钢琴音频(MAPS)数据集,将含噪声的琴音频进行降噪预处理,再将纯净的钢琴音频与噪音进行对比。
本发明采用DRNN神经网络对音频进行降噪处理,DRNN降噪模型有三层隐含层,可以通过增加隐含层数,提升每次迭代中带噪信号向纯净信号的逼近速度。只在中间一个隐含层上加入连接层,减少训练过程中,需要纯净信号Y~以及输出信号Y。输出信号与纯净信号之间的损失函数L可以用两者矢量差平方的均值来衡量,其中L=1/N(Y-Y~),若L大于预设值,则对权重等参数关于L求偏导,计算新的参数并进行正向传递,直到L小于预设值训练结束。
(2)特征提取:由于音符信号中含有丰富的谐波信息,单一特征很难准确、全面地表示原始信号特征,这会使部分重要的信息特征丢失,造成识别不准确。因此采用特征融合的方法来弥补这一不足。提出的改进特征融合是采用首尾相连,把提取的梅尔频率倒谱系数(MFCC)特征向量和常数Q变换(CQT)特征向量进行组合,形成融合特征矩阵。
MFCC是基于人类听觉的非线性特性提出的一种特征提取方法,它比线性预测倒谱系数更符合人耳的听觉特征,可以更好地表征音符信号特征。
梅尔频率提取特征参数:
第一步分帧,将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,时间为20--30ms左右。为了避免相邻两针的变化过大,会让相邻两针之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。
第五步,将上述结果经过离散余弦变换得到MFCC系数:
CQT提取特征参数:
特征融合:假设得到的MFCC特征向量定义为:T1=[FL1,FL2,......,FLM],其中,FLM为第L帧第M维的MFCC。得到的CQT特征向量定义为:T2=[Q1N,Q2N,......,QKN],其中QKN为第N帧第K维的CQT。由于过大的数据量会降低神经网络的训练效率,且CQT中的帧长是变化的,导致上述两式L≠N。因此,须分别对MFCC特征向量和CQT特征向量进行平均降维处理,降维后的MFCC特征向量为:T3=[F11,F12,......,F1M],其中,T3是第1行M列的矩阵;降维后的CQT特征向量为:T4=[Q11,Q21,......,QK1],其中T4是K行1列的矩阵;融合后的特征向量为:T=[T3,(T4)T],其中,T是1行K+M列的矩阵。
(3)CNN--Bi-LSTM混合模型音符识别:
第一步,系统模型通过CQT+MFCC特征提取之后,由CNN中的卷积层分层训练,得到钢琴音频实际标签与预测钢琴音频标签的差值,求出了网络模型的损失函数,对损失函数进行梯度权重的训练。
第二步,CNN中的池化层用于减少每个特征映射的维度,它能够降低训练网络的计算成本,采用上采样的方式对卷积神经网络模型进行收敛。
第三步,将特征输入到Bi-LSTM,通过三个门函数(记忆门、遗忘门、输出门)进行循环训练,学习到充分有效的音频特性。
第四步,利用注意力机制(Attention)通过对音频向量的语义编码分配不同的注意力权重,以区分音频中信息的重要性大小,提高分类的准确率。
第五步,全连接层将卷积层学到的“分布式特征表示”映射到样本标记空间,以进行后续的分类任务。
第六步,通过soft-max分类器进行音符分类。
第七步,得到完整的音符信息(音符的起始时间、音调及音符结束时间)。
3、本发明的有益效果
解决了单一模型存在拟合和梯度问题,增加了网络的学习能力,从而提高了模型的分类性能。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的音频处理流程图;
图2为本发明的算法设计图;
图3为DRNN降噪模型图;
图4为MFCC提取参数的基本流程图;
图5为注意力机制的结构图;
图6为本发明的网络结构设计图;
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的部分,而省略了与本发明关系不大的其他细节。
具体实施方式一:
本实施方式的一种基于CNN--Bi-LSTM网络的钢琴转录方法,结合图1到图6,所述方法包括以下步骤:
(1)数据预处理:本发明选用纯净的钢琴音频(MAPS)数据集,将含噪声的琴音频进行降噪预处理,再将纯净的钢琴音频与噪音进行对比。
本发明采用DRNN神经网络对音频进行降噪处理,DRNN降噪模型有三层隐含层,可以通过增加隐含层数,提升每次迭代中带噪信号向纯净信号的逼近速度。只在中间一个隐含层上加入连接层,减少训练过程中,需要纯净信号Y~以及输出信号Y。输出信号与纯净信号之间的损失函数L可以用两者矢量差平方的均值来衡量,其中L=1/N(Y-Y~),若L大于预设值,则对权重等参数关于L求偏导,计算新的参数并进行正向传递,直到L小于预设值训练结束。
(2)特征提取:由于音符信号中含有丰富的谐波信息,单一特征很难准确、全面地表示原始信号特征,这会使部分重要的信息特征丢失,造成识别不准确。因此采用特征融合的方法来弥补这一不足。提出的改进特征融合是采用首尾相连,把提取的梅尔频率倒谱系数(MFCC)特征向量和常数Q变换(CQT)特征向量进行组合,形成融合特征矩阵。
MFCC是基于人类听觉的非线性特性提出的一种特征提取方法,它比线性预测倒谱系数更符合人耳的听觉特征,可以更好地表征音符信号特征。
梅尔频率提取特征参数:
第一步分帧,将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,时间为20--30ms左右。为了避免相邻两针的变化过大,会让相邻两针之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。
第五步,将上述结果经过离散余弦变换得到MFCC系数:
CQT提取特征参数:
特征融合:假设得到的MFCC特征向量定义为:T1=[FL1,FL2,......,FLM],其中,FLM为第L帧第M维的MFCC。得到的CQT特征向量定义为:T2=[Q1N,Q2N,......,QKN],其中QKN为第N帧第K维的CQT。由于过大的数据量会降低神经网络的训练效率,且CQT中的帧长是变化的,导致上述两式L≠N。因此,须分别对MFCC特征向量和CQT特征向量进行平均降维处理,降维后的MFCC特征向量为:T3=[F11,F12,......,F1M],其中,T3是第1行M列的矩阵;降维后的CQT特征向量为:T4=[Q11,Q21,......,QK1],其中T4是K行1列的矩阵;融合后的特征向量为:T=[T3,(T4)T],其中,T是1行K+M列的矩阵。
(3)CNN--Bi-LSTM混合模型音符识别:
第一步,系统模型通过CQT+MFCC特征提取之后,由CNN中的卷积层分层训练,得到钢琴音频实际标签与预测钢琴音频标签的差值,求出了网络模型的损失函数,对损失函数进行梯度权重的训练。
第二步,CNN中的池化层用于减少每个特征映射的维度,它能够降低训练网络的计算成本,采用上采样的方式对卷积神经网络模型进行收敛。
第三步,将特征输入到Bi-LSTM,通过三个门函数(记忆门、遗忘门、输出门)进行循环训练,学习到充分有效的音频特性。
第四步,利用注意力机制(Attention)通过对音频向量的语义编码分配不同的注意力权重,以区分音频中信息的重要性大小,提高分类的准确率。
第五步,全连接层将卷积层学到的“分布式特征表示”映射到样本标记空间,以进行后续的分类任务。
第六步,通过soft-max分类器进行音符分类。
第七步,得到完整的音符信息(音符的起始时间、音调及音符结束时间)。
Claims (4)
1.一种基于CNN--Bi-LSTM网络的钢琴转录方法,其特征在于,包括以下步骤:
(1)数据预处理:对获取的一段钢琴音频信号进行预处理,本发明训练DRNN神经网络,对音频进行降噪处理,以达到消除音乐信号噪声的目的;
(2)特征提取:对得到的纯净音频采用CQT+MFCC提取特征并进行融合,使得特征参数能够完整精确的表示音频信息;
(3)音符识别:将得到的特征参数送入所构建的神经网络模块,进行音符的起始与结束检测,最后输出MIDI格式。
2.根据权利要求1所述一种基于CNN--Bi-LSTM网络的钢琴转录方法,其特征在于:所述的数据预处理将对获取的钢琴音频信号进行降噪预处理,以得到纯净的音频;DRNN降噪模型有三层隐含层,可以通过增加隐藏层数,提升每次迭代中带噪信号向纯净信号的逼近速度;只在中间一个隐含层上加入连接层,减少训练过程中的计算量;在训练过程中,需要纯净信号以及输出信号;输出信号与纯净信号之间的损失函数可以用两者矢量差平方的均值来衡量,其中,若大于预设值,则对权重等参数求关于的偏导,计算新的参数并进行正向传递,直到小于预设值,训练结束。
3.根据权利要求1所述一种基于CNN--Bi-LSTM网络的钢琴转录方法,其特征在于:所述的特征提取就是对得到的纯净音频进行特征提取,使得特征参数能够完整精确的表示音频信息;假设得到的MFCC特征向量定义为:,其中,为第帧第维的MFCC;得到的CQT特征向量定义为:,其中,为第帧第维的CQT;由于过大的数据量会降低神经网络的训练效率,且中的帧长是变化的,导致上述两式中;因此,须分别对MFCC特征向量和CQT特征向量进行平均降维处理,降维后的MFCC特征向量为:,其中,是第1行列的矩阵;降维后的CQT特征向量为:,其中,是行1列的矩阵;融合后的特征向量为:,其中,是1行列的矩阵。
4.根据权利要求1所述一种基于CNN--Bi-LSTM网络的钢琴转录方法,其特征在于:所述的音符识别是将得到的特征参数送入本发明所构建的神经网络模块,进行音符的起始与结束检测,最后输出MIDI格式;其主要包括两个部分:一是CNN--Bi-LSTM网络构建,二是引入注意力模型;主要流程为:首先获取大规模音频信号训练而成的特征向量矩阵,将其输出作为CNN--Bi-LSTM网络的输入,并引入注意力模型,再添加全连接层;通过混合算法模型可以学习到音频特征图中更多信息内容,既解决了单一模型存在拟合和梯度问题,又增加了学习能力,从而提高了模型的分类性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210194012.7A CN114550675A (zh) | 2022-03-01 | 2022-03-01 | 一种基于CNN--Bi-LSTM网络的钢琴转录方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210194012.7A CN114550675A (zh) | 2022-03-01 | 2022-03-01 | 一种基于CNN--Bi-LSTM网络的钢琴转录方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114550675A true CN114550675A (zh) | 2022-05-27 |
Family
ID=81661576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210194012.7A Pending CN114550675A (zh) | 2022-03-01 | 2022-03-01 | 一种基于CNN--Bi-LSTM网络的钢琴转录方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550675A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275499A (zh) * | 2023-11-17 | 2023-12-22 | 深圳波洛斯科技有限公司 | 自适应神经网络的降噪方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018194456A1 (en) * | 2017-04-20 | 2018-10-25 | Universiteit Van Amsterdam | Optical music recognition omr : converting sheet music to a digital format |
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN111461173A (zh) * | 2020-03-06 | 2020-07-28 | 华南理工大学 | 一种基于注意力机制的多说话人聚类系统及方法 |
CN113469153A (zh) * | 2021-09-03 | 2021-10-01 | 中国科学院自动化研究所 | 基于微表情、肢体动作和语音的多模态情感识别方法 |
-
2022
- 2022-03-01 CN CN202210194012.7A patent/CN114550675A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018194456A1 (en) * | 2017-04-20 | 2018-10-25 | Universiteit Van Amsterdam | Optical music recognition omr : converting sheet music to a digital format |
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN111461173A (zh) * | 2020-03-06 | 2020-07-28 | 华南理工大学 | 一种基于注意力机制的多说话人聚类系统及方法 |
CN113469153A (zh) * | 2021-09-03 | 2021-10-01 | 中国科学院自动化研究所 | 基于微表情、肢体动作和语音的多模态情感识别方法 |
Non-Patent Citations (3)
Title |
---|
ARNAU BARO, ET AL.: "《Handwritten Historical Music Recognition by Sequence-to-Sequence with Attention Mechanism》", 《2020 17TH INTERNATIONAL CONFERENCE ON FRONTIERS IN HANDWRITING RECOGNITION (ICFHR)》, 25 November 2020 (2020-11-25), pages 205 - 210 * |
CURTIS HAWTHORNE, ET AL.: "《ONSETS AND FRAMES: DUAL-OBJECTIVE PIANO TRANSCRIPTION》", 《19TH INTERNATIONAL SOCIETY FOR MUSIC INFORMATION RETRIEVAL CONFERENCE》, 5 June 2018 (2018-06-05), pages 1 - 8 * |
陈燕文 等: "《基于MFCC和常数 Q 变换的乐器音符识别》", 《计算机科学》, vol. 47, no. 03, 22 November 2019 (2019-11-22), pages 149 - 155 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275499A (zh) * | 2023-11-17 | 2023-12-22 | 深圳波洛斯科技有限公司 | 自适应神经网络的降噪方法及相关装置 |
CN117275499B (zh) * | 2023-11-17 | 2024-02-02 | 深圳波洛斯科技有限公司 | 自适应神经网络的降噪方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108417228B (zh) | 乐器音色迁移下的人声音色相似性度量方法 | |
CN106295717B (zh) | 一种基于稀疏表示和机器学习的西洋乐器分类方法 | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN111128236B (zh) | 一种基于辅助分类深度神经网络的主乐器识别方法 | |
CN109584904B (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
CN111986661A (zh) | 复杂环境下基于语音增强的深度神经网络语音识别方法 | |
Yu et al. | Predominant instrument recognition based on deep neural network with auxiliary classification | |
CN105761728A (zh) | 中国典型听觉文化符号特征选择方法 | |
Shi et al. | Music genre classification based on chroma features and deep learning | |
Reghunath et al. | Transformer-based ensemble method for multiple predominant instruments recognition in polyphonic music | |
Meng et al. | Automatic music transcription based on convolutional neural network, constant Q transform and MFCC | |
CN114550675A (zh) | 一种基于CNN--Bi-LSTM网络的钢琴转录方法 | |
Ferreira-Paiva et al. | A survey of data augmentation for audio classification | |
Paschalidou et al. | Multimodal deep learning architecture for hindustani raga classification | |
Sarkar et al. | Raga identification from Hindustani classical music signal using compositional properties | |
CN111681674A (zh) | 一种基于朴素贝叶斯模型的乐器种类识别方法和系统 | |
Viloria et al. | Segmentation process and spectral characteristics in the determination of musical genres | |
Rajan et al. | Multi-channel CNN-Based Rāga Recognition in Carnatic Music Using Sequential Aggregation Strategy | |
Pikrakis et al. | Unsupervised singing voice detection using dictionary learning | |
Zhang | Application of audio visual tuning detection software in piano tuning teaching | |
CN115662465A (zh) | 一种适用于民族弦乐乐器的声音识别算法及装置 | |
CN113744759B (zh) | 音色模板定制方法及其装置、设备、介质、产品 | |
Krishnendu | Classification Of Carnatic Music Ragas Using RNN Deep Learning Models | |
Jiang et al. | Music signal recognition based on the mathematical and physical equation inversion method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |