CN113192471A - 一种基于神经网络的乐曲主旋律音轨识别方法 - Google Patents

一种基于神经网络的乐曲主旋律音轨识别方法 Download PDF

Info

Publication number
CN113192471A
CN113192471A CN202110408504.7A CN202110408504A CN113192471A CN 113192471 A CN113192471 A CN 113192471A CN 202110408504 A CN202110408504 A CN 202110408504A CN 113192471 A CN113192471 A CN 113192471A
Authority
CN
China
Prior art keywords
music
track
neural network
main melody
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110408504.7A
Other languages
English (en)
Other versions
CN113192471B (zh
Inventor
张静宣
梁嘉慧
刘思远
骆君鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110408504.7A priority Critical patent/CN113192471B/zh
Publication of CN113192471A publication Critical patent/CN113192471A/zh
Application granted granted Critical
Publication of CN113192471B publication Critical patent/CN113192471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开了一种基于神经网络的乐曲主旋律音轨识别方法,利用MIDI文提取多个特征来度量和刻画乐曲中的每个音轨,通过构建神经网络模型,根据音乐的基本特征自动识别判断出音乐的主旋律音轨,步骤如下:(1)提取乐曲中音符的信息并计算各个音轨的特征值;(2)将音轨特征值变换成二维的神经网络输入矩阵;(3)训练基于神经网络的主旋律音轨识别模型;(4)使用训练完成的神经网络进行乐曲主旋律音轨识别。本发明利用MIDI文件提取重要的音乐特征,并利用神经网络数字化处理后进行自动识别,能准确、高效的从MIDI文件中检测识别主旋律音轨;为音乐序列自动生成的研究,提供了一种基于神经网络的乐曲主旋律音轨识别方法。

Description

一种基于神经网络的乐曲主旋律音轨识别方法
技术领域
本发明涉及乐曲主旋律音轨识别方法,尤其涉及一种基于神经网络的乐曲主旋律音轨识别方法。
背景技术
MIDI(Musical Instrument Digital Interface乐器数字接口)文件是新的音乐数据记录格式,其记录的是音乐演奏指令序列而非实际声音信息,更利于计算机处理,为音乐特征的自动识别及音乐序列自动生成的研究提供了极大的方便。但在音乐序列自动生成的研究中,如果训练集是多音轨乐曲,生成出的结果是多轨道的音聚集在了单轨道,这不仅偏离了模型学习的目的,而且也会导致自动生成的乐曲序列质量很差;另外,主旋律的提取在哼唱检索、音乐转录、音乐流派分类与歌手识别方面都具有重要应用,对于数字媒体和数字娱乐产品提高交互体验具有重要意义。
现有的主旋律提取算法主要利用乐曲中包含的声音模拟数据信息:一种用于语音识别的鲁棒特征提取算法原理是基于子带主频率信息,实现子带主频率信息与子带能量信息相结合,在特征参数中保留语谱中子带峰值位置信息,使用该算法可以设计抗噪孤立词语音识别系统;而针对复调音乐中不同声源的相互干扰导致的同一声源音高序列不连续,利用音高显著性的连续性和高次谐波的稳定性,提出基于音高静态似然性函数和音高显著性动态似然函数的创建音高轮廓方法,这些方法都没有充分发挥数字化处理的优点。并且从MIDI文件中检测识别主旋律音轨的任务仍然面临两个挑战:(1)一首音乐由歌声和各种乐器伴奏混合而成,不同声源的频谱相互重叠,很难将某个频率分量归于单个声源;(2)数字音乐的研究数据源不同于传统音乐信息的记录格式,从MIDI文件中获取主旋律信息不能按照传统音频处理的方法进行处理。因此,现有技术难以准确快速地从MIDI文件中检测识别主旋律音轨。在构建分类模型的问题上,基于规则的分类方法虽然容易理解,但实用性差。
发明内容
发明目的:本发明的目的是提供一种提高识别精度、简化音频处理流程的基于神经网络的乐曲主旋律音轨识别方法。
技术方案:本发明的识别乐曲主旋律音轨识别方法,利用MIDI文件提取多个特征来度量和刻画乐曲中的每个音轨,通过构建神经网络模型,根据音乐的基本特征自动识别判断出音乐的主旋律音轨,包括步骤如下:
(1)提取乐曲中音符的信息并计算各个音轨的特征值;
(2)将音轨特征值变换成二维的神经网络输入矩阵;
(3)训练基于神经网络的主旋律音轨识别模型;
(4)使用训练完成的主旋律音轨识别模型进行乐曲主旋律音轨识别。
进一步,所述步骤(1)提取乐曲中音符中的特征并计算各个音轨,包括以下步骤:
(11)遍历每首乐曲中每段音轨的音符,利用MIDI文件获取音符信息中的速度、时值、时值类型和音高;
(12)计算乐曲中每段音轨音符平均速度;
(13)计算乐曲中每段音轨音符总时值;
(14)设置乐曲中每段音轨音符时值类型集合;
(15)计算乐曲中每段音轨音符最高音与最低音的音程;
(16)计算乐曲中每段音轨音符第二高音和第二低音的音程。
进一步,所述步骤(2)的实现步骤如下:
(21)将任一乐曲每个音轨的特征值顺序装入一维数组作为其特征集合;
(22连接数据集中多首乐曲的特征集合得到二维的神经网络输入矩阵;
(23)按照Tensorflow框架的输入标准,得到最终的输入矩阵。
进一步,所述步骤(3)中的主旋律音轨识别模型,实现步骤如下:
(31)定义三层神经网络:设置25个神经元为输入层,定义偏置参数为b1;设置12个神经元为隐藏层,定义偏置参数为b2;设置输出层,定义偏置参数为b3,音轨的独热向量作为输出;
(32)令k为第k层神经网络,c在前向传播过程中为第k层网络的输入维度,在反向传播过程中为输出维度,则第k层的权重参数初始化为
Figure BDA0003023245840000021
范围内的均匀分布;
(33)定义前向传播过程中的激活函数σ为ReLU函数,ReLU函数如下:
max(0,WTx+b)
其中,定义b为偏置集合,W为权重集合,表示相应输入对输出的重要性。
则正向传播计算过程如下:
Zi=σ(Wi Tx+bi),i=1,2,3
其中,定义Wi表示第i层的权重集合,x表示输入集合,bi表示第i层的偏置集合;
(34)定义基于Softmax函数的输出层,其中,定义xk、xj为输出属于某一类的概率,x1表示识别为主音轨,x2表示识别为非主音轨,Softmax函数如下:
Figure BDA0003023245840000031
网络最后一层的输出Z3为自变量,则计算神经网络输出向量
Figure BDA0003023245840000032
如下:
Figure BDA0003023245840000033
(35)根据Softmax层的输出向量
Figure BDA0003023245840000034
和样本的实际标签y计算交叉熵:
Figure BDA0003023245840000035
其中,
Figure BDA0003023245840000039
y=0或1;
(36)设置m为训练样本个数,根据交叉熵计算损失函数:
Figure BDA0003023245840000036
(37)反向传播过程中,记录使得损失函数最小的参数集合W={W1,W2,W3}和偏置集合b={b1,b2,b3}作为模型参数。
进一步,所述步骤(4)中使用步骤(3)得到的模型参数建立主旋律音轨识别模型,模型对输入乐曲的所有音轨计算,得到输出向量
Figure BDA0003023245840000037
所述输出向量
Figure BDA0003023245840000038
的分量中的最大值的下标则为主旋律音轨的编号,同时识别该音轨为主旋律音轨。
本发明与现有技术相比,其显著效果如下:1、利用MIDI文件提取重要的音乐特征,并利用神经网络数字化处理后进行自动识别,能准确、且高效的从MIDI文件中检测识别主旋律音轨;2、为音乐序列自动生成的研究,提供了一种基于神经网络的乐曲主旋律音轨检测方法。
附图说明
图1为本发明的主旋律音轨识别方法的流程示意图;
图2为本发明的神经网络计算模型的流程示意图;
图3为本发明的神经网络学习速率变化折线图;
图4为本发明的主旋律音轨识别模型构建和识别的流程示意图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步详细描述。
如图1所示,为本发明的主旋律音轨识别方法的流程示意图。在本发明中,要求遍历每首乐曲中每段音轨的n个音符,利用MIDI文件获取音符信息中的速度vi、时值di、时值类型dti和音高pi,要求计算平均速度v、音符总时值d、音符时值类型集合dus、最大音程interval和第二音程sec_interval。
MIDI文件记录的是音乐演奏指令序列,包含了音乐的乐谱信息,为音乐信息提取提供了方便,因此采用MIDI文件作为数据源,可以直接提取音乐的基本信息。
速度、时值、音高、力度、音色等是音乐的基本特征,根据音乐的基本特征可以判断出音乐的类型和乐曲重点,例如主旋律音轨。因此,设计和提取其多个特征,能用来度量和刻画乐曲中的每个音轨。
平均速度:以“拍每分钟”(beats per minute,简写为bpm)作为平均速度的单位。
音符总时值/音符时值类型集合:音符时值,也称为音符值或音值,在乐谱中用来表达各音符之间的相对持续时间。
最大音程/第二音程:程指两个音级在音高上的相互关系,就是指两个音在音高上的距离而言,其单位名称叫做度。
本发明中,要求训练基于神经网络的乐曲主旋律音轨识别模型,具体流程如图2所示;在具体实施中,细分为训练过程和预测过程如下:
(一)训练过程
(A)进行数据预处理,即根据相关公式计算旋律特征值,由于使用Tensorflow计算框架实现神经网络,输入数据要求处理为特定形状的二维数组。
(B)模型训练,即首先初始化权重和偏置参数,建立神经网络层结构,初始化学习速率为0.0001,学习速率在学习过程中的变化如图3;接着根据交叉熵与Adam算法反向更新权重和偏置。交叉熵采用真实标签类别作为交叉熵的训练集的先验信息,将神经网络输出作为测试集后验信息,计算两者的交叉熵,并以交叉熵指导对误差的辨识和消除。Adam算法则是利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。其中,TensorFlow提供的tf.train.AdamOptimizer可控制学习速度,经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。最后将MIDI文件拆分为训练集和测试集,训练集作为学习模型的输入,学习模型将会根据测试集产生结果最好的参数集合。模型训练完成后,会得到一个可以识别主旋律音轨的分类器,将输出的独热编码的向量视为表示主旋律音轨的输出。
(二)预测过程
给定一个实例为未知类标签的多音轨的MIDI文件,计算该MIDI文件重要的音乐特征作为分类器的输入,输出按照独热(one-hot)编码对某音轨是否为主旋律音轨两个识别状态进行编码为0和1,输出的向量的每个分量值则表示每首输入乐曲每个音轨的识别状态。
利用得到的模型参数建立主旋律音轨识别模型,识别MIDI文件的主旋律音轨,整体流程如图4所示。详细的实现步骤如下:
步骤1,提取乐曲中音符的信息并计算各个音轨的特征值。包括以下步骤:
步骤11,遍历每首乐曲中每段音轨的n个音符,利用MIDI文件获取音符信息中的速度vi、时值di、时值类型dti、音高pi
步骤12,计算乐曲中每段音轨音符平均速度v,公式如下:
Figure BDA0003023245840000051
步骤13,计算乐曲中每段音轨音符总时值d,公式如下:
Figure BDA0003023245840000052
步骤14,设置乐曲中每段音轨音符时值类型集合dus(duration types),公式如下:
dus={dti|1≤i≤n} (3)
步骤15,计算乐曲中每段音轨音符最高音与最低音的音程(interval),公式如下:
interval=max(pi)-min(pi),1≤i≤n (4)
步骤16,计算乐曲中每段音轨音符第二高音和第二低音的音程(sec_interval),公式如下:
sec_int erval=sec_max(pi)-sec_min(pi),1≤i≤n (5)
步骤2,将音轨特征值变换成二维的神经网络输入矩阵。包括以下步骤:
步骤21,将第i首乐曲每个音轨的特征值顺序装入一维数组fsi作为其特征集合;
步骤22,连接数据集中num首乐曲的特征集合得到二维的神经网络输入矩阵X0
Figure BDA0003023245840000053
步骤23,按照Tensorflow框架的输入标准,令X=X0 T,得到最终的输入矩阵X。
步骤3,训练基于神经网络的主旋律音轨识别模型。包括以下步骤:
步骤31,定义三层神经网络。设置25个神经元为输入层,定义偏置参数b1=0;设置12个神经元为隐藏层,定义偏置参数b2=0;设置输出层,定义偏置参数b3=0,音轨的独热(one-hot)向量作为输出。
步骤32,k为第k层神经网络,c在前向传播过程中为第k层网络的输入维度,在反向传播过程中为输出维度。则第k层的权重参数初始化为
Figure BDA0003023245840000054
范围内的均匀分布。
步骤33,定义前向传播过程中的激活函数σ为ReLU函数,ReLU函数如下:
max(0,WTx+b) (7)
公式(7)中,定义b为偏置集合,W为权重集合,表示相应输入对输出的重要性。
则正向传播计算过程如下:
Zi=σ(Wi Tx+bi),i=1,2,3 (8)
公式(8)中,定义Wi表示第i层的权重集合,x表示输入集合,bi表示第i层的偏置集合。
步骤34,定义基于Softmax函数的输出层,其中,定义xk、xj为输出属于某一类的概率,x1表示识别为主音轨,x2表示识别为非主音轨,Softmax函数如下:
Figure BDA0003023245840000061
网络最后一层的输出Z3为自变量,则计算神经网络输出向量
Figure BDA0003023245840000062
如下:
Figure BDA0003023245840000063
步骤35,根据Softmax层的输出向量
Figure BDA0003023245840000064
和样本的实际标签y计算交叉熵:
Figure BDA0003023245840000065
其中,
Figure BDA0003023245840000066
y=0或1。
步骤36,设置m为训练样本个数,根据交叉熵计算损失函数(loss):
Figure BDA0003023245840000067
步骤37,反向传播过程中,记录使得损失函数(loss)最小的参数集合W={W1,W2,W3}和偏置集合b={b1,b2,b3}作为模型参数。
步骤4,使用训练完成的神经网络进行乐曲主旋律音轨识别。
使用步骤3中得到的模型参数建立主旋律音轨识别模型,主旋律音轨识别模型对输入乐曲的所有音轨计算得到输出向量
Figure BDA0003023245840000068
输出向量
Figure BDA0003023245840000069
的分量中的最大值的下标则为主旋律音轨的编号,即识别该音轨为主旋律音轨。

Claims (5)

1.一种基于神经网络的乐曲主旋律音轨识别方法,其特征在于,利用MID文件提取多个特征来度量和刻画乐曲中的每个音轨,通过构建神经网络模型,根据音乐的基本特征自动识别判断出音乐的主旋律音轨,包括步骤如下:
(1)提取乐曲中音符的信息并计算各个音轨的特征值;
(2)将音轨特征值变换成二维的神经网络输入矩阵;
(3)训练基于神经网络的主旋律音轨识别模型;
(4)使用训练完成的主旋律音轨识别模型,进行乐曲主旋律音轨识别。
2.根据权利要求1所述的基于神经网络的乐曲主旋律音轨识别方法,其特征在于,所述步骤(1)提取乐曲中音符中的特征并计算各个音轨,包括以下步骤:
(11)遍历每首乐曲中每段音轨的音符,利用MIDI文件获取音符信息中的速度、时值、时值类型和音高;
(12)计算乐曲中每段音轨音符平均速度;
(13)计算乐曲中每段音轨音符总时值;
(14)设置乐曲中每段音轨音符时值类型集合;
(15)计算乐曲中每段音轨音符最高音与最低音的音程;
(16)计算乐曲中每段音轨音符第二高音和第二低音的音程。
3.根据权利要求1所述的基于神经网络的乐曲主旋律音轨识别方法,其特征在于,所述步骤(2)的实现步骤如下:
(21)将任一乐曲每个音轨的特征值顺序装入一维数组作为其特征集合;
(22)连接数据集中多首乐曲的特征集合得到二维的神经网络输入矩阵;
(23)按照Tensorflow框架的输入标准,得到最终的输入矩阵。
4.根据权利要求1所述的基于神经网络的乐曲主旋律音轨识别方法,其特征在于,所述步骤(3)中的主旋律音轨识别模型,实现步骤如下:
(31)定义三层神经网络:设置25个神经元为输入层,定义偏置参数为b1;设置12个神经元为隐藏层,定义偏置参数为b2;设置输出层,定义偏置参数为b3,音轨的独热向量作为输出;
(32)令k为第k层神经网络,定义c在前向传播过程中为第k层网络的输入维度,在反向传播过程中为输出维度,则第k层的权重参数初始化为
Figure FDA0003023245830000011
范围内的均匀分布;
(33)定义前向传播过程中的激活函数σ为ReLU函数,ReLU函数如下:
max(0,WTx+b)
其中,定义b为偏置集合,W为权重集合,表示相应输入对输出的重要性。
则正向传播计算过程如下:
Zi=σ(Wi Tx+bi),i=1,2,3
其中,定义Wi表示第i层的权重集合,x表示输入集合,bi表示第i层的偏置集合;
(34)定义基于Softmax函数的输出层,其中,定义xk、xj为输出属于某一类的概率,x1表示识别为主音轨,x2表示识别为非主音轨,Softmax函数如下:
Figure FDA0003023245830000021
网络最后一层的输出Z3为自变量,则计算神经网络输出向量
Figure FDA0003023245830000022
如下:
Figure FDA0003023245830000023
(35)根据Softmax层的输出向量
Figure FDA0003023245830000024
和样本的实际标签y计算交叉熵:
Figure FDA0003023245830000025
其中,
Figure FDA0003023245830000026
y=0或1;
(36)设置m为训练样本个数,根据交叉熵计算损失函数:
Figure FDA0003023245830000027
(37)反向传播过程中,记录使得损失函数最小的参数集合W={W1,W2,W3}和偏置集合b={b1,b2,b3}作为模型参数。
5.根据权利要求1所述的基于神经网络的乐曲主旋律音轨识别方法,其特征在于,所述步骤(4)中使用步骤(3)得到的模型参数建立主旋律音轨识别模型,所述主旋律音轨识别模型对输入乐曲的所有音轨计算,得到输出向量
Figure FDA0003023245830000028
所述输出向量
Figure FDA0003023245830000029
分量中的最大值的下标则为主旋律音轨的编号,同时识别该音轨为主旋律音轨。
CN202110408504.7A 2021-04-16 2021-04-16 一种基于神经网络的乐曲主旋律音轨识别方法 Active CN113192471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110408504.7A CN113192471B (zh) 2021-04-16 2021-04-16 一种基于神经网络的乐曲主旋律音轨识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110408504.7A CN113192471B (zh) 2021-04-16 2021-04-16 一种基于神经网络的乐曲主旋律音轨识别方法

Publications (2)

Publication Number Publication Date
CN113192471A true CN113192471A (zh) 2021-07-30
CN113192471B CN113192471B (zh) 2024-01-02

Family

ID=76977048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110408504.7A Active CN113192471B (zh) 2021-04-16 2021-04-16 一种基于神经网络的乐曲主旋律音轨识别方法

Country Status (1)

Country Link
CN (1) CN113192471B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842819A (zh) * 2022-05-11 2022-08-02 电子科技大学 基于深度强化学习的单音轨midi音乐生成方法
CN115064181A (zh) * 2022-06-10 2022-09-16 东北大学 基于深度学习的音乐多模态数据情感识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6225546B1 (en) * 2000-04-05 2001-05-01 International Business Machines Corporation Method and apparatus for music summarization and creation of audio summaries
CN108804474A (zh) * 2017-05-05 2018-11-13 腾讯科技(上海)有限公司 歌曲的音频信号处理方法、音频相似度匹配方法及装置
CN108831423A (zh) * 2018-05-30 2018-11-16 腾讯音乐娱乐科技(深圳)有限公司 提取音频数据中主旋律音轨的方法、装置、终端及存储介质
CN109493879A (zh) * 2018-12-24 2019-03-19 成都嗨翻屋科技有限公司 音乐旋律节奏分析提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6225546B1 (en) * 2000-04-05 2001-05-01 International Business Machines Corporation Method and apparatus for music summarization and creation of audio summaries
CN108804474A (zh) * 2017-05-05 2018-11-13 腾讯科技(上海)有限公司 歌曲的音频信号处理方法、音频相似度匹配方法及装置
CN108831423A (zh) * 2018-05-30 2018-11-16 腾讯音乐娱乐科技(深圳)有限公司 提取音频数据中主旋律音轨的方法、装置、终端及存储介质
CN109493879A (zh) * 2018-12-24 2019-03-19 成都嗨翻屋科技有限公司 音乐旋律节奏分析提取方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
刘勇 等: "基于H-K算法的MIDI音乐主旋律提取", 《计算机技术与发展》, vol. 21, no. 6, pages 154 - 156 *
叶霖 等: "一种有效识别MIDI文件中主旋律音轨的方法", 计算机应用与软件, no. 01, pages 48 - 50 *
彭琼: "音乐情感的计算机分析与自动识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 06, pages 15 - 52 *
赵宛 等: "基于BP神经网络优化算法的MIDI文件中主旋律提取", 《福建电脑》, no. 05, pages 23 - 24 *
赵芳 等: "基于音轨特征量的多音轨MIDI主旋律抽取方法", 计算机工程, no. 02, pages 165 - 167 *
黄志刚 等: "MIDI文件主旋律音轨的抽取", 厦门大学学报(自然科学版), no. 01, pages 43 - 46 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842819A (zh) * 2022-05-11 2022-08-02 电子科技大学 基于深度强化学习的单音轨midi音乐生成方法
CN114842819B (zh) * 2022-05-11 2023-06-23 电子科技大学 基于深度强化学习的单音轨midi音乐生成方法
CN115064181A (zh) * 2022-06-10 2022-09-16 东北大学 基于深度学习的音乐多模态数据情感识别方法
CN115064181B (zh) * 2022-06-10 2024-04-19 东北大学 基于深度学习的音乐多模态数据情感识别方法

Also Published As

Publication number Publication date
CN113192471B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
Ryynänen et al. Transcription of the Singing Melody in Polyphonic Music.
Lehner et al. Online, loudness-invariant vocal detection in mixed music signals
CN105719661A (zh) 一种弦乐器演奏音质自动判别方法
CN113192471B (zh) 一种基于神经网络的乐曲主旋律音轨识别方法
Chordia Segmentation and Recognition of Tabla Strokes.
Paulus Signal processing methods for drum transcription and music structure analysis
Elowsson et al. Predicting the perception of performed dynamics in music audio with ensemble learning
Ramirez et al. Automatic performer identification in commercial monophonic jazz performances
Azarloo et al. Automatic musical instrument recognition using K-NN and MLP neural networks
CN112634841B (zh) 一种基于声音识别的吉他谱自动生成方法
Luo et al. Singing voice correction using canonical time warping
Wang et al. HMM-based glissando detection for recordings of Chinese bamboo flute
Arumugam et al. An efficient approach for segmentation, feature extraction and classification of audio signals
Gajjar et al. Computational musicology for raga analysis in Indian classical music: a critical review
Gao et al. Vocal melody extraction via dnn-based pitch estimation and salience-based pitch refinement
Wang et al. Musicyolo: A vision-based framework for automatic singing transcription
Cheng Music information retrieval technology: Fusion of music, artificial intelligence and blockchain
Beigzadeh et al. Classification of Iranian traditional musical modes (DASTGÄH) with artificial neural network
Ramırez et al. Deep learning and intelligent audio mixing
Murthy et al. Vocal and Non-vocal Segmentation based on the Analysis of Formant Structure
Li [Retracted] Transformation of Nonmultiple Cluster Music Cyclic Shift Topology to Music Performance Style
Kroher The flamenco cante: Automatic characterization of flamenco singing by analyzing audio recordings
Hall et al. An Efficient Visual-Based Method for Classifying Instrumental Audio using Deep Learning
You et al. Music tonality detection based on Krumhansl-Schmuckler profile
Jiang et al. Music Signal Recognition Based on the Mathematical and Physical Equation Inversion Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant