CN110111773A - 基于卷积神经网络的音乐信号多乐器识别方法 - Google Patents
基于卷积神经网络的音乐信号多乐器识别方法 Download PDFInfo
- Publication number
- CN110111773A CN110111773A CN201910256905.8A CN201910256905A CN110111773A CN 110111773 A CN110111773 A CN 110111773A CN 201910256905 A CN201910256905 A CN 201910256905A CN 110111773 A CN110111773 A CN 110111773A
- Authority
- CN
- China
- Prior art keywords
- matrix
- frequency
- input
- layer
- neural networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims abstract description 159
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000009527 percussion Methods 0.000 claims abstract description 10
- 238000010606 normalization Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 19
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 17
- 238000009432 framing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000003475 lamination Methods 0.000 claims description 2
- 101100234408 Danio rerio kif7 gene Proteins 0.000 claims 1
- 101100221620 Drosophila melanogaster cos gene Proteins 0.000 claims 1
- 101100398237 Xenopus tropicalis kif11 gene Proteins 0.000 claims 1
- 101150118300 cos gene Proteins 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 39
- 230000006870 function Effects 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001503991 Consolida Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种基于卷积神经网络的音乐信号多乐器识别方法,包括以下步骤:S1、对输入的音频提取两种特征:音高特征矩阵和基于音色的常数Q变换矩阵;S2、先按乐器族分类,包括管、弦、打击乐,将常数Q变换矩阵输入一级卷积神经网络得到分类矩阵,然后输入分类器得到粗分类结果,即所述乐器族类别;S3、在所述分类矩阵的基础上,结合音高矩阵,输入带有注意力网络的二级卷积神经网络中,得到细分结果,即具体某种乐器。其中,所述的注意力网络对不同谐波分配权重。本发明适用于音乐信息检索中乐器识别任务,可用于音乐自动转录中的乐器识别方法。
Description
技术领域
本发明涉及信号处理、多音高估计、卷积神经网络技术领域,具体涉及一种基于卷积神经网络的音乐信号多乐器识别方法。
背景技术
在歌曲中识别乐器在音乐信息检索(MIR)中有广泛应用,例如搜索具有特定乐器的歌曲或识别音频中某种乐器演奏的起止位置。该技术还有很多其他需求场景的应用,例如,音乐推荐方法可以受益于用户对某些乐器的偏好建模,并且音乐类型识别方法可以通过类型依赖的乐器信息来改进;还可用于复音音乐中的自动音乐转录,播放技术检测和音源分离等任务,其中对存在的特定乐器预先调节模型可能会提高其性能。乐感良好并接受专业训练的人可以很容易地识别音频中的乐器。但是,海量的乐曲不可能依靠人工去识别。随着人工智能和计算能力的发展,我们可以在音频文件中提取乐器的相应特征,训练高效的深度卷积网络来实现乐器的自动识别。
乐器识别根据音频类型可分为i)单音音频中(信号中只有一个乐器)的乐器识别和(ii)复音音频中的乐器识别。虽然单音音频中的乐器识别已经比较成熟,但是识别率最好也就是70%左右,而在复音音频中的乐器识别则更是一个难题。这是因为,不同的乐器类别中音色和表现风格存有巨大差异,而有些乐器却存有的感知相似性,另外复音音频中具有多个乐器在时间和频率上的混叠现象。
复音音乐信号的音乐识别,主要是使用信号处理领域的知识来设计音频特征的提取算法,并将这些特征提供给分类器。如,有研究者等组合了Mel频率倒谱系数(MFCC)和相位相关特征,并训练了高斯混合模型。也有研究者等使用稀疏编码进行特征提取和支持向量机进行分类器训练。
随着计算能力的提高和信号处理的发展,深度学习已经用于单音音频的乐器识别中。深度学习的深层体系结构可以通过端到端方式训练特征提取模型和分类模型来“学习”特征,从而导致比传统方法更高的准确性。例如,有研究者用深度学习来进行单乐器的识别,向卷积神经网络馈送原始音频波形作特征,利用MedleyDB数据集区分11种乐器,达到72%的准确率,相对原来传统的特征和分类器(如利用MFCC特征和随机森林分类器的识别率为64%),提高了识别精度。上述方法只是利用音频的时域信号,也有基于音频信号频谱提取特征来深度学习进行识别。这些方法大多借鉴语音信号的处理方法,而没有考虑乐器的本质特征,如音高,音色等。
发明内容
本发明的目的是为了弥补现有技术中没有考虑乐器的音高和音色本质特征,识别精度不高等技术问题,提出一种基于卷积神经网络的音乐信号多乐器识别方法,该方法利用神经网络智能识别的特点,采用音频信号中乐器的音高特征矩阵和表征乐器音色特征的常数Q变换矩阵来作为神经网络模型的输入。另外,结合乐器族(管、弦、打击乐)之间,音色有明显的不同,弦乐在谐波频率点峰值明显且尖锐,管乐则相对平缓,打击乐的峰值则不明显甚至还出现非整数次谐波的特点,采用多分类任务级联的方式构建两级神经网络,第一级卷积神经网络先对Q变换矩阵进行多层卷积操作得到分类矩阵,利用这些分类矩阵进行乐器族的分类得到粗分类结果,在此基础上结合音高特征矩阵再进行第二级卷积神经网络构建,进一步对乐器种类进行细分,最后综合考虑粗分类和细分类的标签来进行识别,以提高识别精度。
本发明的目的可以通过采取如下技术方案达到:
一种基于卷积神经网络的音乐信号多乐器识别方法,包括以下步骤:
S1、对输入音频分别提取音高特征矩阵和基于音色的常数Q变换矩阵;
S2、将所述的常数Q变换矩阵输入一级卷积神经网络得到分类矩阵,然后输入分类器得到粗分类结果,所述的粗分类为乐器族类别,乐器族类别包括管、弦、打击乐;
S3、将所述的分类矩阵和音高特征矩阵,输入带有注意力网络的二级卷积神经网络中,得到细分类结果,即识别出具体乐器种类,其中,上述二级卷积神经网络中的注意力网络对不同谐波分配权重。
进一步地,所述的步骤S1中提取输入音频的音高特征矩阵的过程如下:
S101、对音频进行分帧和归一化,将音频帧划分为Tp段,每段记为xt,有s个采样点
S102、把音频帧输入一组对数频域滤波器组,使其映射到对数频域,得到对数频率-时间矩阵,维数为np×Tp,该滤波器组由np个正弦和余弦滤波器组成,对数域频率范围为log fL到log fH,第i个正弦和余弦滤波器的参数为wi,sin=(sin 2πfit1,sin 2πfit2,......sin 2πfits),wi,cos=(cos 2πfit1,cos 2πfit2,......cos 2πfits),其中时间点位置t1,t2,......ts由每个音频帧的分段的采样点位置确定,xt中的元素表示经过归一化的采样点的幅值;
假设某段xt分别与wi,sin和wi,cos计算内积并且将内积值的平方相加得到
该值为第i个滤波器的输出,那么有np个滤波器,得到 即对数频率-时间矩阵中的一列,音频帧有Tp段,得到np×Tp的对数频率-时间矩阵;
S103、对所述的对数频率-时间矩阵沿对数频率轴作一维卷积操作得到对数频率-时间-通道的张量,采用一组不同的一维卷积核,每个卷积核卷积操作得到新的矩阵映射为一个通道,若有c1个卷积核则有c1个通道;
S104、对所述的对数频率-时间-通道的张量沿对数频率轴作二维卷积操作得到对数频率-通道矩阵,采用一组不同的二维卷积核,采用全连接的方式,即卷积核大小等于时间段数×通道数,每个卷积核卷积操作得到新的矩阵映射为一个通道,若有c2个卷积核则该二维卷积操作有c2个通道;
S105、对所述的对数频率-通道矩阵沿通道轴全连接到线性分类器作分类,得到该音频帧的音高识别矢量,假设这一帧有m1个音符,音高识别矢量有m1个有效的元素,用1来表征,表示有相应对数频率所对应的音符,其他没有的音符用0表征;
S106、对给定音频段进行分帧后,每个音频帧分别进行以上步骤S101至步骤S105的操作得到音高特征矩阵,记为P0,若假设需要识别的音符集有Mp个音符,音频段分成Np帧,则该音高特征矩阵大小为Mp×Np,里面的元素值为1或者0,表示对应频率的音符出现的有无,即是表征音符的活跃程度。
进一步地,所述的步骤S1中提取输入音频的基于音色的常数Q变换矩阵的过程如下:
S111、确定常数Q变换的参数,上述参数包括:品质因子Q0、时频矩阵上第k行所代表的频率fk,即第k个滤波器的中心频率、以及第k个滤波器的带宽为窗口长度N[k],根据十二平均律的乐理知识,定义品质因子Q0=C,为常数;时频矩阵上第k行所代表的频率fmin为乐器演奏的最低频率;由(Q0为常数,不因fk改变)可得第k个滤波器的带宽品质因子Q确定后,窗口长度其中fs为取样频率,所以频率越高,窗口长度越短;
S112、通过常数Q变换计算,得到基于音色的常数Q变换矩阵,过程如下:给定长度的音频段,采样率为fs,音频段进行分帧后,每个音频帧都根据常数Q变换的参数计算常数Q变换,对整个音频段处理得到时频矩阵X即为基于音色的常数Q变换矩阵,将常数Q变换视为Mq个滤波器,音频段分成Tq帧,则该矩阵大小为Mq×Tq。
进一步地,所述的一级卷积神经网络的结构为依次连接的批量标准化层、卷积层、残差块、最大池化层、残差块、最大池化层;
其中,所述的残差块包括两部分,一部分为依次连接的批量标准化层、卷积层、批量标准化层、激活函数层、卷积层、批量标准化层;另一部分为一层卷积层,残差块的输入分别进入这两部分得到输出,两部分的输出求和作为残差块的最终输出。
进一步地,所述的步骤S2过程如下:
S21、把特征提取得到的基于音色的常数Q变换矩阵X作为输入特征,输入到一级卷积神经网络得到分类矩阵,记为K;
S22、把步骤S21中得到的分类矩阵K全连接到线性分类器中,得到乐器族类别的粗分类结果。
进一步地,所述的二级卷积神经网络的结构为依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层,该卷积层的输出分别输入到注意力网络和依次连接的卷积层和SIGMOID函数层,得到两个输出进行加权处理得到网络的最终输出。
进一步地,所述的步骤S3过程如下:
S31、对从特征提取得到的音高特征矩阵P0,构造N个谐波映射矩阵Hn,n=1,2,......N,Hn的构造具体如下:将音高特征矩阵P0中的每一帧所对应的最小有效频率f0向上移动至相应(n+1)次倍频,得到谐波映射Pn,即:只有当该频率比该帧的有效频率f0大(n+1)倍时,所得到的谐波映射Pn中的有效元素才保留,频率比该帧的频率(n+1)f0小的,都置为0;然后,通过P0,P1,......Pn,计算Hn=P0+P1+...+Pn;
S32、拼接分类矩阵K和矩阵Hn,输入到依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层得到一系列矩阵,过程如下:将分类矩阵K沿对数频率轴分别和H1,H2,......HN拼接,分别记为T1,T2,......TN,作为上述依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层的输入矩阵,输出N个维数相同的矩阵,记为R1,R2,......RN;
S33、将所述的N个矩阵R1,R2,......RN同时输入到依次连接的卷积层和SIGMOID函数层得到N个识别矩阵
S34、将所述的N个矩阵R1,R2,......RN同时输入到注意力网络,输出各识别矩阵的注意力权重即N个注意力权重
S35、对得到的识别矩阵和注意力权重进行加权求和,最后得到的乐器种类-时间序列矩阵为
进一步地,所述的注意力网络的结构为依次连接的卷积层、全连接层、标准化层。
进一步地,所述的步骤S34具体如下:
S341、构造注意力矢量,将N个矩阵R1,R2,......RN分别输入到卷积核大小为Tl×1的卷积层作卷积操作,其中,Tl为矩阵RN的列数,得到矢量r1,r2,......rN,输入全连接层vn=fatt(rn;θatt)得到注意力矢量其中θatt为全连接层fatt的参数,注意力矢量大小为M×1;
S342、计算注意力权重,注意力矢量输入到标准化层,通过在N个注意力矢量的每个分量m上使用指数标准化函数来标准化vn,然后通过对M个维度求和来计算注意力得分,即是通过下式计算出an
再通过对an指数归一化得到注意力权重即
本发明具有如下的优点及效果:
1)采用音高特征矩阵作为神经网络的输入特征。不同乐器具有不同的音高范围和不同数目的基音,每个基音对应一个基频,代表音高。音高特征还可根据确定的基频快速捕获谐波位置,获得谐波的结构,还能利于定位起止帧和结束帧,能捕获到基频,说明是非静止音。
2)采用基于音色的常数Q变换矩阵来表征乐器的音色特征,音色反映到信号领域是不同的乐器信号具有不同谐波结构和能量分布,基于音色的常数Q变换矩阵可以捕获乐器的能量分布,另外常数Q变换时频变换避免了时频分辨率均匀的缺点,采用对数频率标度,更接近与人耳听觉方法,在低频有更高的频率分辨率来分解相近的音符,在高频有更高的时间分辨率来跟踪快速变化的谐波。
3)卷积神经网络模型中加入的注意力网络可以根据输入特征来侧重关注乐器不同阶数的谐波,提升整体准确率。
4)识别过程分为两步,先按乐器族进行粗分类,在此分类基础上再进行乐器类别的细分。在训练时,构建优化模型参数的目标函数,综合利用了乐器族粗分类的标签和乐器种类细分类的标签,使其学习到针对粗分类和细分类结果的优化模型参数。这符合乐器分类的一般认知,防止识别模型的欠拟合,减少识别误差。
附图说明
图1是本发明中基于卷积神经网络的音乐信号多乐器识别流程图;
图2是本发明中提取音高特征矩阵的流程图;
图3是本发明中步骤S2的神经网络框架;
图4是本发明中卷积神经网络模型中残差块的网络流程图;
图5是本发明中步骤S3的神经网络框架。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例提供了一种基于卷积神经网络的音乐信号多乐器识别方法,采用最近发布的MusicNet数据集。该数据集包含了由10位作曲家提供的330张免费授权音乐录音,其中有超过100万个带注释的音高和34小时室内音乐表演的乐器标签。训练和测试集分别为320和10个音频剪辑。由于测试集中只有七种不同的乐器,该实施例只考虑识别这七种乐器。它们是钢琴,小提琴,电子鼓,爵士鼓,单簧管,巴松管和号角。对于训练集,不排除列表中没有的乐器的声音,但这些乐器没有标注。不同的剪辑使用不同数量的乐器。为方便起见,每个音频剪辑切分为4秒片段。使用这些片段作为模型的输入。对每个切分片段的最后一段进行零填充(即添加静音),使其也为4秒。
一种基于卷积神经网络的音乐信号多乐器识别方法,如图1所示,该方法包括以下步骤:
S1、对输入音频分别提取音高特征矩阵和基于音色的常数Q变换矩阵;
S2、将所述的常数Q变换矩阵输入一级卷积神经网络得到分类矩阵,然后输入分类器得到粗分类结果,所述的粗分类为乐器族类别,乐器族类别包括管、弦、打击乐;
S3、将所述的分类矩阵和音高特征矩阵,输入带有注意力网络的二级卷积神经网络中,得到细分类结果,即具体某种乐器;其中,上述二级卷积神经网络中的注意力网络可以对不同谐波分配权重。
本实施例中,音高特征矩阵描述乐器的音高属性。不同乐器有不同数目的基音,每个基音对应一个基频,代表音高。音高特征矩阵列代表时间,行代表对数频率,矩阵中的值代表音符的活跃程度。
如图2所示,本实施例中步骤S1的音高特征提取过程如下:
S101、对音频分帧和归一化后,将音频帧划分为Tp=25段,每段记为xt,有s个采样点xt作为音频帧的分段,采样频率为44.1kHz。因此一帧包含16384个采样点为一帧,分段窗口为s=4096个采样点,窗口移动的步幅为512个采样点,于是每帧产生(16384-4096)/512+1=25个xt。
采用每帧包含16384个采样点,是考虑了较短帧与较长帧之间的权衡,较短帧可能错过分类任务的重要上下文关联信息;较长帧在计算成本上具有递减收益,因为非常长的帧会导致模型中的参数数量增加。
S102、把音频帧通过一组对数频域滤波器组,使其映射到对数频域,得到对数频率-时间矩阵(np×Tp)。该滤波器组由np=512个正弦和余弦滤波器组成,对数域频率范围为log fL到log fH(fL=20Hz,fH=6kHz),第i个正弦和余弦滤波器的参数为wi,sin=(sin 2πfit1,sin 2πfit2,......sin 2πfits),wi,cos=(cos 2πfit1,cos 2πfit2,......cos 2πfits),其中时间点位置t1,t2,......ts由每个音频帧的分段的采样点位置确定,xt中的元素表示经过归一化的采样点的幅值。
假设某段xt分别与wi,sin和wi,cos计算内积并且将内积值的平方相加得到
该值为第i个滤波器的输出,那么有np个滤波器,得到 即对数频率-时间矩阵中的一列。音频帧有Tp段,可以得到np×Tp(512×25)的对数频率-时间矩阵。
S103、对所述的对数频率-时间矩阵(512×25)沿对数频率轴作一维卷积操作得到对数频率-时间-通道的张量,采用一组不同的一维卷积核(大小为128×1),每个卷积核卷积操作得到新的矩阵映射为一个通道,若有c1个卷积核则有c1个通道,该步操作后得到128×25×c1的对数频率-时间-通道的张量。
S104、对所述的对数频率-时间-通道的张量(128×25×c1)沿对数频率轴作二维卷积操作得到对数频率-通道矩阵,采用一组不同的二维卷积核(大小为1×25×c2),采用全连接的方式,即卷积核大小等于时间段数×通道数,每个卷积核卷积操作得到新的矩阵映射为一个通道,若有c2个卷积核则该二维卷积操作有c2个通道。该步操作后得到128×c2的对数频率-通道矩阵。
S105、对所述的对数频率-通道矩阵沿通道轴全连接到线性分类器作分类,得到该音频帧的音高识别矢量,假设这一帧有m1个音符,音高识别矢量有m1个有效的元素,用1来表征,表示有相应对数频率所对应的音符,其他没有的音符用0表征。
S106、对给定音频段进行分帧后,每个音频帧分别进行以上S101到S105的操作得到音高特征矩阵,记为P0。若假设需要识别的音符集有Mp=128个音符,音频段分成了Np=10帧,则矩阵大小为128×10,,里面的元素值为1或者0,表示对应频率的音符出现的有无,即是表征音符的活跃程度。
基于音色的常数Q变换矩阵表征了基频及谐波上的的能量分布,可反映乐器的音色特征。长度为Nt的有限长序列x[n]的常数Q变换表达式为
其中,N[k]为窗口长度,WN[k](n)为对应窗长的窗函数,品质因子Q为自定义的常数,k是第k个频段的序号。如果把常数Q变换视为Mq个滤波器,上述第k个频段就是指第k个滤波器,其中心频率为fk,带宽为δfk,也是时频矩阵上第k行所代表的频率。
基于本发明的乐器识别,根据乐理中的十二平均律,常数Q变换的M个滤波器组以十二平均律来设计。以一个八度音程为例,十二平均律表明,一个音与其高八度的的音频率相差两倍,以比率将一个八度平均分为十二等分(十二个半音)。按照此乐理,设置第k个滤波器的中心频率b取为12。可以看作每个八度音程用十二个滤波器把每个八度中十二个半音划分到12格。fmin为乐器所能演奏的音符中基频最小的那个音符所对应的频率。钢琴在我们所识别的乐器类别中音域最宽,我们根据音域最广的钢琴的音高范围(27Hz到4kHz)设置Mq=88个滤波器(7个完整的八度音程有十二个半音,一个不完整的八度音程有4个半音)。
常数Q变换矩阵中的列代表时间,行代表对数频率,矩阵中的值表示某时间窗某对数频率段的能量大小,步骤S1中基于音色的常数Q变换矩阵提取过程如下:
S111、根据(公式2),确定常数Q变换的参数,这些参数包括:品质因子Q0、时频矩阵上第k行所代表的频率fk,即第k个滤波器的中心频率、以及第k个滤波器的带宽为窗口长度N[k];根据所述乐理知识,定义品质因子Q0=C,为常数,时频矩阵上第k行所代表的频率fmin为乐器演奏的最低频率。由(Q0为常数,不因fk改变)可得第k个滤波器的带宽品质因子Q确定后,窗口长度其中fs为取样频率,所以频率越高,窗口长度越短。
S112、通过常数Q变换计算,得到基于音色的常数Q变换矩阵。过程如下:给定长度的音频段,采样率fs=44.1kHz,音频段进行分帧后,每个音频帧都根据(公式2)及S111确定好的参数计算常数Q变换,对整个音频段处理会得到时频矩阵X即为基于音色的常数Q变换矩阵。若常数Q变换视为Mq=88个滤波器,音频段分成了Tq=86帧,则该矩阵大小为88×86。
本实施例中,步骤S2的过程如下:
S21、把特征提取得到的常数Q变换矩阵X作为输入特征,输入到一级卷积神经网络得到分类矩阵,记为K。
其中,如图3所示,所述一级卷积神经网络包括:批量标准化层、卷积层、残差块、最大池化层、残差块、最大池化层。
其中,如图4所示,所述的残差块包括两部分,一部分为依次连接的批量标准化层、卷积层、批量标准化层、激活函数层、卷积层、批量标准化层;另一部分为一层卷积层,残差块的输入分别进入这两部分得到输出。两部分的输出求和作为残差块的最终输出。
上述各层的作用简述如下:a)批量标准化层:输入到该层的值会被规整为均值为0,方差为1的正态分布的值,再加上可调节的缩放和平移。b)卷积层:使用一系列的卷积核将输入的矩阵做卷积操作到新的矩阵。c)残差块:输入到该层的矩阵分为两路,一路输入到多层网络中,另一路经过一层卷积层后,两路输出求和叠加作残差块的最终输出。d)最大池化层:输入的矩阵划分为一定数量的池化区域,取该区域内的最大值作该区域的输出值,起到矩阵降维和压缩数据的作用。e)激活函数层:输入信号小于0时,输出都是0,大于等于0时,输出等于输入。
S22、把S21中得到的分类矩阵K全连接到线性分类器中,得到乐器族的粗分类结果。
在S21中一级卷积神经网络的卷积层全部使用一维卷积(沿时间)而不是二维卷积。虽然二维卷积将输入数据分析为块并在频谱和时间维度上进行卷积,但一维卷积(沿时间)可以更好地捕获每个时间帧中的频率和音频信息。
如图5所示,本实施例中步骤S3中二级卷积神经网络的结构为依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层,该卷积层的输出同时输入到注意力网络和依次连接的卷积层和SIGMOID函数层,得到两个输出进行加权处理得到网络的最终输出,步骤S3的过程如下:
S31、对从特征提取得到的音高特征矩阵P0,构造N(这里N取5)个谐波映射矩阵Hn,(n=1,2,......N),以提高高频的权重,弥补基于音色的常数Q变换矩阵高频分辨率的不足;Hn的的构造具体如下:将音高特征矩阵P0中的每一帧所对应的最小有效频率f0向上移动至相应(n+1)次倍频,得到谐波映射Pn;即:只有当该频率比该帧的有效频率f0大(n+1)倍时,所得到的谐波映射Pn中的有效元素才保留,频率比该帧的频率(n+1)f0小的,都置为0;然后,通过P0,P1,......Pn,计算Hn=P0+P1+...+Pn。
S32、拼接分类矩阵K和矩阵Hn,输入到依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层得到一系列矩阵。过程如下:将分类矩阵K沿对数频率轴分别和H1,H2,......HN拼接,分别记为T1,T2,......TN,作为上述依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层的输入矩阵。由于使用一维卷积,输出为N个维数相同的矩阵,记为R1,R2,......RN。
S33、将所述的N个矩阵R1,R2,......RN同时输入到依次连接的卷积层和SIGMOID函数层得到N个识别矩阵
S34、将所述的N个矩阵R1,R2,......RN同时输入到注意力网络,输出各识别矩阵的注意力权重即N个注意力权重
S35、对得到的识别矩阵和的注意力权重加权求和,最后得到的乐器种类-时间序列矩阵为
其中,所述的步骤S34中注意力网络的结构为依次连接的卷积层、全连接层、标准化层,所述的步骤S34具体如下:
1)、构造注意力矢量,将N个矩阵R1,R2,......RN分别输入到卷积核大小为Tl×1的卷积层作卷积操作,其中,Tl为矩阵RN的列数,得到矢量r1,r2,......rN,输入全连接层vn=fatt(rn;θatt)得到注意力矢量(这里M取7),其中θatt为全连接层fatt的参数,注意力矢量大小为M×1;
2)、计算注意力权重,注意力矢量输入到标准化层,通过在N个注意力矢量的每个分量m上使用指数标准化函数来标准化vn,然后通过对M个维度求和来计算注意力得分,即是通过下式计算出an
再通过对an指数归一化得到注意力权重即
识别过程所用的网络模型在训练时使用二元交叉熵作损失函数。多任务学习的总损失函数为l=l1+l2,其中
ds和分别是每个时间帧的识别标签和真实标签,s表示第s种乐器族(管、弦、打击乐),
其中,yk和分别是每个时间帧的识别标签和真实标签,k表示第k种乐器。记模型中一级卷积神经网络的参数为θ1,二级卷积神经网络中的参数为θ2,记θ={θ1,θ2}。通过目标函数
来优化参数集θ={θ1,θ2},其中使用上标i来索引训练集中的音频样本片段,Γ(θ)是一个正则化函数,用来避免过度拟合。优化方式使用动量为0.9的随机梯度下降,小批量大小为64,初始学习率为0.1。将学习率每30次除以一次10,并将最大训练次数设置为100,权重衰减设置为10-4。
综上所述,本发明针对复音音频对多乐器进行识别,从乐器的音高,音色等本质特征出发,同时考虑音频信号的旋律和人耳的听觉特性方面来提取特征,指引神经网络的参数向乐器的特性方向去学习优化。
所以本发明选取的特征之一是乐器的音高特征,这是因为1)不同乐器有不同数目的基音,每个基音对应一个基频,代表音高,如钢琴能发出88个不同基音(音高)的音符;2)不同的乐器具有不同的音高范围,如钢琴88个琴键的音高范围为27Hz到4.1kHz;3)有助于捕获谐波结构,谐波就是基频对应的整数倍频率,找到基音,就能快速捕获谐波位置,获得谐波的结构;4)有利于定位起止帧和结束帧,能捕获到基频,说明是非静止音,显然容易判断音频信号的起始和结束。所以本发明考虑在用神经网络训练乐器识别模型时,先对音频信号进行多音高估计,以此结果作为模型的特征输入,而非直接的音频信号输入。
本发明选取的另外一个特征是乐器的音色特征。音色反映到信号领域是不同的乐器信号具有不同谐波结构和能量分布,本发明用基于音色的常数Q变换矩阵来反映乐器的音色特征,以常数Q变换矩阵作为模型的特征输入。常数Q变换是一种特殊的小波变换,既避免时频变换时频分辨率均匀的缺点,又相对小波变换来说有确定的时频分辨率(由常数Q变换中的参数Q确定),在低频有更高的频率分辨率来分解相近的音符,在高频有更高的时间分辨率来跟踪快速变化的谐波。这和人耳的感知能力与频率不成线性关系,对低频信号比高频信号更敏感的听觉特性是一致的。
进一步地,乐器族(管、弦、打击乐)之间,音色有明显的不同,反映在频谱上,弦乐在谐波频率点峰值明显且尖锐,管乐则相对平缓,打击乐的峰值则不明显甚至还出现非整数次谐波。那么乐器族之间的分类则相对比较容易实现。
所以,在网络架构上,本发明考虑采用多分类任务级联方法,即先学习对乐器族(管、弦、打击乐)粗分类,再对各种弦乐器、管乐器、打击乐器细分类,符合乐器分类的一般认知,这样可以防止乐器识别模型的欠拟合。在已知乐器族类别的基础上,输入音高矩阵到带有注意力网络(对不同谐波分配权重)的深度网络中,得到细分结果即具体某种乐器。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于卷积神经网络的音乐信号多乐器识别方法,其特征在于,包括以下步骤:
S1、对输入音频分别提取音高特征矩阵和基于音色的常数Q变换矩阵;
S2、将所述的常数Q变换矩阵输入一级卷积神经网络得到分类矩阵,然后输入分类器得到粗分类结果,所述的粗分类为乐器族类别,乐器族类别包括管、弦、打击乐;
S3、将所述的分类矩阵和音高特征矩阵,输入带有注意力网络的二级卷积神经网络中,得到细分类结果,即识别出具体乐器种类,其中,上述二级卷积神经网络中的注意力网络对不同谐波分配权重。
2.根据权利要求1所述的基于卷积神经网络的音乐信号多乐器识别方法,其特征在于,所述的步骤S1中提取输入音频的音高特征矩阵的过程如下:
S101、对音频进行分帧和归一化,将音频帧划分为Tp段,每段记为xt,有s个采样点
S102、把音频帧输入一组对数频域滤波器组,使其映射到对数频域,得到对数频率-时间矩阵,维数为np×Tp,该滤波器组由np个正弦和余弦滤波器组成,对数域频率范围为logfL到log fH,第i个正弦和余弦滤波器的参数为wi,sin=(sin2πfit1,sin2πfit2,......sin2πfits),wi,cos=(cos2πfit1,cos2πfit2,......cos2πfits),其中时间点位置t1,t2,......ts由每个音频帧的分段的采样点位置确定,xt中的元素表示经过归一化的采样点的幅值;
假设某段xt分别与wi,sin和wi,cos计算内积并且将内积值的平方相加得到
该值为第i个滤波器的输出,那么有np个滤波器,得到 即对数频率-时间矩阵中的一列,音频帧有Tp段,得到np×Tp的对数频率-时间矩阵;
S103、对所述的对数频率-时间矩阵沿对数频率轴作一维卷积操作得到对数频率-时间-通道的张量,采用一组不同的一维卷积核,每个卷积核卷积操作得到新的矩阵映射为一个通道,若有c1个卷积核则有c1个通道;
S104、对所述的对数频率-时间-通道的张量沿对数频率轴作二维卷积操作得到对数频率-通道矩阵,采用一组不同的二维卷积核,采用全连接的方式,即卷积核大小等于时间段数×通道数,每个卷积核卷积操作得到新的矩阵映射为一个通道,若有c2个卷积核则该二维卷积操作有c2个通道;
S105、对所述的对数频率-通道矩阵沿通道轴全连接到线性分类器作分类,得到该音频帧的音高识别矢量,假设这一帧有m1个音符,音高识别矢量有m1个有效的元素,用1来表征,表示有相应对数频率所对应的音符,其他没有的音符用0表征;
S106、对给定音频段进行分帧后,每个音频帧分别进行以上步骤S101至步骤S105的操作得到音高特征矩阵,记为P0,若假设需要识别的音符集有Mp个音符,音频段分成Np帧,则该音高特征矩阵大小为Mp×Np,里面的元素值为1或者0,表示对应频率的音符出现的有无,即是表征音符的活跃程度。
3.根据权利要求1所述的基于卷积神经网络的音乐信号多乐器识别方法,其特征在于,所述的步骤S1中提取输入音频的基于音色的常数Q变换矩阵的过程如下:
S111、确定常数Q变换的参数,上述参数包括:品质因子Q0、时频矩阵上第k行所代表的频率fk,即第k个滤波器的中心频率、以及第k个滤波器的带宽为窗口长度N[k],根据十二平均律的乐理知识,定义品质因子Q0=C,为常数;时频矩阵上第k行所代表的频率fmin为乐器演奏的最低频率;由可得第k个滤波器的带宽品质因子Q确定后,窗口长度其中fs为取样频率,所以频率越高,窗口长度越短;
S112、通过常数Q变换计算,得到基于音色的常数Q变换矩阵,过程如下:给定长度的音频段,采样率为fs,音频段进行分帧后,每个音频帧都根据常数Q变换的参数计算常数Q变换,对整个音频段处理得到时频矩阵X即为基于音色的常数Q变换矩阵,将常数Q变换视为Mq个滤波器,音频段分成Tq帧,则该矩阵大小为Mq×Tq。
4.根据权利要求1所述的基于卷积神经网络的音乐信号多乐器识别方法,其特征在于,所述的一级卷积神经网络的结构为依次连接的批量标准化层、卷积层、残差块、最大池化层、残差块、最大池化层;
其中,所述的残差块包括两部分,一部分为依次连接的批量标准化层、卷积层、批量标准化层、激活函数层、卷积层、批量标准化层;另一部分为一层卷积层,残差块的输入分别进入这两部分得到输出,两部分的输出求和作为残差块的最终输出。
5.根据权利要求4所述的基于卷积神经网络的音乐信号多乐器识别方法,其特征在于,所述的步骤S2过程如下:
S21、把特征提取得到的基于音色的常数Q变换矩阵X作为输入特征,输入到一级卷积神经网络得到分类矩阵,记为K;
S22、把步骤S21中得到的分类矩阵K全连接到线性分类器中,得到乐器族类别的粗分类结果。
6.根据权利要求1所述的基于卷积神经网络的音乐信号多乐器识别方法,其特征在于,所述的二级卷积神经网络的结构为依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层,该卷积层的输出分别输入到注意力网络和依次连接的卷积层和SIGMOID函数层,得到两个输出进行加权处理得到网络的最终输出。
7.根据权利要求6所述的基于卷积神经网络的音乐信号多乐器识别方法,其特征在于,所述的步骤S3过程如下:
S31、对从特征提取得到的音高特征矩阵P0,构造N个谐波映射矩阵Hn,n=1,2,......N,Hn的构造具体如下:将音高特征矩阵P0中的每一帧所对应的最小有效频率f0向上移动至相应(n+1)次倍频,得到谐波映射Pn,即:只有当该频率比该帧的有效频率f0大(n+1)倍时,所得到的谐波映射Pn中的有效元素才保留,频率比该帧的频率(n+1)f0小的,都置为0;然后,通过P0,P1,......Pn,计算Hn=P0+P1+...+Pn;
S32、拼接分类矩阵K和矩阵Hn,输入到依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层得到一系列矩阵,过程如下:将分类矩阵K沿对数频率轴分别和H1,H2,......HN拼接,分别记为T1,T2,......TN,作为上述依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层的输入矩阵,输出N个维数相同的矩阵,记为R1,R2,......RN;
S33、将所述的N个矩阵R1,R2,......RN同时输入到依次连接的卷积层和SIGMOID函数层得到N个识别矩阵
S34、将所述的N个矩阵R1,R2,......RN同时输入到注意力网络,输出各识别矩阵的注意力权重即N个注意力权重
S35、对得到的识别矩阵和注意力权重进行加权求和,最后得到的乐器种类-时间序列矩阵为
8.根据权利要求7所述的基于卷积神经网络的音乐信号多乐器识别方法,其特征在于,所述的注意力网络的结构为依次连接的卷积层、全连接层、标准化层。
9.根据权利要求8所述的基于卷积神经网络的音乐信号多乐器识别方法,其特征在于,所述的步骤S34具体如下:
S341、构造注意力矢量,将N个矩阵R1,R2,......RN分别输入到卷积核大小为Tl×1的卷积层作卷积操作,其中,Tl为矩阵RN的列数,得到矢量r1,r2,......rN,输入全连接层vn=fatt(rn;θatt)得到注意力矢量其中θatt为全连接层fatt的参数,注意力矢量大小为M×1;
S342、计算注意力权重,注意力矢量输入到标准化层,通过在N个注意力矢量的每个分量m上使用指数标准化函数来标准化vn,然后通过对M个维度求和来计算注意力得分,即是通过下式计算出an
再通过对an指数归一化得到注意力权重即
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910256905.8A CN110111773B (zh) | 2019-04-01 | 2019-04-01 | 基于卷积神经网络的音乐信号多乐器识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910256905.8A CN110111773B (zh) | 2019-04-01 | 2019-04-01 | 基于卷积神经网络的音乐信号多乐器识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110111773A true CN110111773A (zh) | 2019-08-09 |
CN110111773B CN110111773B (zh) | 2021-03-30 |
Family
ID=67484798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910256905.8A Expired - Fee Related CN110111773B (zh) | 2019-04-01 | 2019-04-01 | 基于卷积神经网络的音乐信号多乐器识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110111773B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310666A (zh) * | 2019-06-27 | 2019-10-08 | 成都嗨翻屋科技有限公司 | 一种基于se卷积网络的乐器识别方法及系统 |
CN110910714A (zh) * | 2019-11-21 | 2020-03-24 | 南阳师范学院 | 一种钢琴学习系统 |
CN111049997A (zh) * | 2019-12-25 | 2020-04-21 | 携程计算机技术(上海)有限公司 | 电话背景音乐检测模型方法、系统、设备及介质 |
CN111261186A (zh) * | 2020-01-16 | 2020-06-09 | 南京理工大学 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
CN111415681A (zh) * | 2020-03-17 | 2020-07-14 | 北京奇艺世纪科技有限公司 | 一种基于音频数据确定音符的方法及装置 |
CN111488485A (zh) * | 2020-04-16 | 2020-08-04 | 北京雷石天地电子技术有限公司 | 基于卷积神经网络的音乐推荐方法、存储介质和电子装置 |
CN112489675A (zh) * | 2020-11-13 | 2021-03-12 | 北京云从科技有限公司 | 一种多通道盲源分离方法、装置、机器可读介质及设备 |
CN112927713A (zh) * | 2019-12-06 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 音频特征点的检测方法、装置和计算机存储介质 |
CN113096620A (zh) * | 2021-03-24 | 2021-07-09 | 妙音音乐科技(武汉)有限公司 | 一种乐器音色识别方法、系统、设备及存储介质 |
CN113362851A (zh) * | 2020-03-06 | 2021-09-07 | 上海其高电子科技有限公司 | 基于深度学习交通场景声音分类的方法及系统 |
CN113793622A (zh) * | 2021-09-10 | 2021-12-14 | 中国科学院声学研究所 | 一种音频场景识别方法、系统及装置 |
CN115713945A (zh) * | 2022-11-10 | 2023-02-24 | 杭州爱华仪器有限公司 | 一种音频数据处理方法和预测方法 |
CN115938346A (zh) * | 2023-01-28 | 2023-04-07 | 中国传媒大学 | 音准评估方法、系统、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030026436A1 (en) * | 2000-09-21 | 2003-02-06 | Andreas Raptopoulos | Apparatus for acoustically improving an environment |
US20110277616A1 (en) * | 2010-05-11 | 2011-11-17 | Mirae Medical Co., Ltd. | Low frequency massage apparatus operating in conjuction with music and method of operating the same |
CN103189913A (zh) * | 2010-10-25 | 2013-07-03 | 高通股份有限公司 | 用于分解多信道音频信号的方法、设备和机器可读存储媒体 |
CN103189915A (zh) * | 2010-10-25 | 2013-07-03 | 高通股份有限公司 | 使用具有时间演化信息的基底函数来分解音乐信号 |
CN104392730A (zh) * | 2014-12-11 | 2015-03-04 | 哈尔滨幻石科技发展有限公司 | 一种基于第一类0阶贝塞尔函数的吉他琴弦音色检测方法 |
CN105900465A (zh) * | 2014-01-14 | 2016-08-24 | 索尼公司 | 通信设备、通信控制数据传输方法及通信控制数据接收方法 |
CN106328121A (zh) * | 2016-08-30 | 2017-01-11 | 南京理工大学 | 基于深度置信网络的中国传统乐器分类方法 |
CN106991163A (zh) * | 2017-03-31 | 2017-07-28 | 福州大学 | 一种基于演唱者声音特质的歌曲推荐方法 |
CN108962279A (zh) * | 2018-07-05 | 2018-12-07 | 平安科技(深圳)有限公司 | 音频数据的乐器识别方法及装置、电子设备、存储介质 |
-
2019
- 2019-04-01 CN CN201910256905.8A patent/CN110111773B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030026436A1 (en) * | 2000-09-21 | 2003-02-06 | Andreas Raptopoulos | Apparatus for acoustically improving an environment |
US20110277616A1 (en) * | 2010-05-11 | 2011-11-17 | Mirae Medical Co., Ltd. | Low frequency massage apparatus operating in conjuction with music and method of operating the same |
CN103189913A (zh) * | 2010-10-25 | 2013-07-03 | 高通股份有限公司 | 用于分解多信道音频信号的方法、设备和机器可读存储媒体 |
CN103189915A (zh) * | 2010-10-25 | 2013-07-03 | 高通股份有限公司 | 使用具有时间演化信息的基底函数来分解音乐信号 |
CN105900465A (zh) * | 2014-01-14 | 2016-08-24 | 索尼公司 | 通信设备、通信控制数据传输方法及通信控制数据接收方法 |
CN104392730A (zh) * | 2014-12-11 | 2015-03-04 | 哈尔滨幻石科技发展有限公司 | 一种基于第一类0阶贝塞尔函数的吉他琴弦音色检测方法 |
CN106328121A (zh) * | 2016-08-30 | 2017-01-11 | 南京理工大学 | 基于深度置信网络的中国传统乐器分类方法 |
CN106991163A (zh) * | 2017-03-31 | 2017-07-28 | 福州大学 | 一种基于演唱者声音特质的歌曲推荐方法 |
CN108962279A (zh) * | 2018-07-05 | 2018-12-07 | 平安科技(深圳)有限公司 | 音频数据的乐器识别方法及装置、电子设备、存储介质 |
Non-Patent Citations (4)
Title |
---|
YOONCHANG HAN ET AL.: "Deep Convolutional Neural Networks for Predominant Instrument Recognition in Polyphonic Music", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
丁志中等: "音乐信号分析中常数Q变换的性能研究", 《声学技术》 * |
王飞等: "基于改进卷积神经网络与听觉谱图的乐器识别", 《计算机工程》 * |
邓见光等: "基于声学特征的乐器识别综述", 《东莞理工学院学报》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310666A (zh) * | 2019-06-27 | 2019-10-08 | 成都嗨翻屋科技有限公司 | 一种基于se卷积网络的乐器识别方法及系统 |
CN110310666B (zh) * | 2019-06-27 | 2021-07-23 | 成都潜在人工智能科技有限公司 | 一种基于se卷积网络的乐器识别方法及系统 |
CN110910714A (zh) * | 2019-11-21 | 2020-03-24 | 南阳师范学院 | 一种钢琴学习系统 |
CN112927713A (zh) * | 2019-12-06 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 音频特征点的检测方法、装置和计算机存储介质 |
CN111049997A (zh) * | 2019-12-25 | 2020-04-21 | 携程计算机技术(上海)有限公司 | 电话背景音乐检测模型方法、系统、设备及介质 |
CN111261186A (zh) * | 2020-01-16 | 2020-06-09 | 南京理工大学 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
CN113362851A (zh) * | 2020-03-06 | 2021-09-07 | 上海其高电子科技有限公司 | 基于深度学习交通场景声音分类的方法及系统 |
CN111415681B (zh) * | 2020-03-17 | 2023-09-01 | 北京奇艺世纪科技有限公司 | 一种基于音频数据确定音符的方法及装置 |
CN111415681A (zh) * | 2020-03-17 | 2020-07-14 | 北京奇艺世纪科技有限公司 | 一种基于音频数据确定音符的方法及装置 |
CN111488485A (zh) * | 2020-04-16 | 2020-08-04 | 北京雷石天地电子技术有限公司 | 基于卷积神经网络的音乐推荐方法、存储介质和电子装置 |
CN111488485B (zh) * | 2020-04-16 | 2023-11-17 | 北京雷石天地电子技术有限公司 | 基于卷积神经网络的音乐推荐方法、存储介质和电子装置 |
CN112489675A (zh) * | 2020-11-13 | 2021-03-12 | 北京云从科技有限公司 | 一种多通道盲源分离方法、装置、机器可读介质及设备 |
CN113096620A (zh) * | 2021-03-24 | 2021-07-09 | 妙音音乐科技(武汉)有限公司 | 一种乐器音色识别方法、系统、设备及存储介质 |
CN113793622B (zh) * | 2021-09-10 | 2023-08-29 | 中国科学院声学研究所 | 一种音频场景识别方法、系统及装置 |
CN113793622A (zh) * | 2021-09-10 | 2021-12-14 | 中国科学院声学研究所 | 一种音频场景识别方法、系统及装置 |
CN115713945A (zh) * | 2022-11-10 | 2023-02-24 | 杭州爱华仪器有限公司 | 一种音频数据处理方法和预测方法 |
CN115938346A (zh) * | 2023-01-28 | 2023-04-07 | 中国传媒大学 | 音准评估方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110111773B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111773A (zh) | 基于卷积神经网络的音乐信号多乐器识别方法 | |
US11094309B2 (en) | Audio processing techniques for semantic audio recognition and report generation | |
Thickstun et al. | Invariances and data augmentation for supervised music transcription | |
Lostanlen et al. | Deep convolutional networks on the pitch spiral for musical instrument recognition | |
CN108417228B (zh) | 乐器音色迁移下的人声音色相似性度量方法 | |
Kostek | Soft computing in acoustics: applications of neural networks, fuzzy logic and rough sets to musical acoustics | |
Vincent et al. | Adaptive harmonic spectral decomposition for multiple pitch estimation | |
CN101599271B (zh) | 一种数字音乐情感的识别方法 | |
CN105719661B (zh) | 一种弦乐器演奏音质自动判别方法 | |
Benetos et al. | Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription | |
CN102723079B (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
CN111128236B (zh) | 一种基于辅助分类深度神经网络的主乐器识别方法 | |
Park | Towards automatic musical instrument timbre recognition | |
CN106295717A (zh) | 一种基于稀疏表示和机器学习的西洋乐器分类方法 | |
Chaki | Pattern analysis based acoustic signal processing: a survey of the state-of-art | |
Shi et al. | Music genre classification based on chroma features and deep learning | |
Li et al. | Fusion of Hilbert-Huang transform and deep convolutional neural network for predominant musical instruments recognition | |
Klapuri | Analysis of musical instrument sounds by source-filter-decay model | |
Dong et al. | Vocal Pitch Extraction in Polyphonic Music Using Convolutional Residual Network. | |
Cwitkowitz Jr | End-to-End Music Transcription Using Fine-Tuned Variable-Q Filterbanks | |
Joshi et al. | Identification of Indian musical instruments by feature analysis with different classifiers | |
Rodin et al. | The Comparison of Different Feature Extraction Methods in Musical Instrument Classification | |
CN111681674A (zh) | 一种基于朴素贝叶斯模型的乐器种类识别方法和系统 | |
Jiang et al. | Music signal recognition based on the mathematical and physical equation inversion method | |
Chaudhary et al. | Musical instrument recognition using audio features with integrated entropy method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210330 |