CN108257591A - 一种音乐的识别方法及系统 - Google Patents

一种音乐的识别方法及系统 Download PDF

Info

Publication number
CN108257591A
CN108257591A CN201611247506.8A CN201611247506A CN108257591A CN 108257591 A CN108257591 A CN 108257591A CN 201611247506 A CN201611247506 A CN 201611247506A CN 108257591 A CN108257591 A CN 108257591A
Authority
CN
China
Prior art keywords
pitch
counterpoint
melody
music
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611247506.8A
Other languages
English (en)
Inventor
王志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuwo Technology Co Ltd
Original Assignee
Beijing Kuwo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuwo Technology Co Ltd filed Critical Beijing Kuwo Technology Co Ltd
Priority to CN201611247506.8A priority Critical patent/CN108257591A/zh
Publication of CN108257591A publication Critical patent/CN108257591A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

一种音乐的识别方法及系统,该方法包括:提取多声部音乐的音高;对所述音高进行旋律识别,得到所述多声部音乐的旋律;删除异常的所述多声部音乐的旋律,得到所述多声部音乐的主旋律。本发明实施例通过对多声部音乐的音高进行提取,进而得到多声部音乐的主旋律,能够有效扩展音乐数据库特征的规模,同时提高了音乐特征的匹配效率,进而提升用户的哼唱检索音乐的体验。

Description

一种音乐的识别方法及系统
技术领域
本发明实施例涉及音乐检索技术领域,尤其涉及一种音乐的识别方法及系统。
背景技术
随着互联网的发展,人们能够更加方便、快捷、经济地接触到数字媒体,如何在浩如烟海的多媒体世界中找到自己所需要的信息就显得尤为重要。最初的多媒体数据检索,依靠文本信息来完成,但是文本信息难以完整地描述多媒体数据丰富多变的内容。并且,手工生成文本索引又费时费力;且缺乏统一的描述标准,导致基于文本的检索准确率很低。
此时,提出了基于内容的多媒体数据检索的方法。基于内容的音频检索,是指通过音频特征分析,对不同音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似。哼唱检索(Query By Humming)是一种基于内容的音乐检索技术,与传统的基于文本的搜索不同,哼唱检索,以哼唱语音信号作为搜索输入。相对于传统的基于关键字形式的用户接口,哼唱检索给用户提供了更便捷、更自然、更人性化的检索方式,并且给用户带来更佳的搜索体验。
在哼唱检索系统中,用户可以通过哼唱一段旋律,来搜索到自己期望的歌曲。搜索过程如图1所示,步骤101,用户通过语音输入设备哼唱一个歌曲旋律;步骤102,提取该旋律的特征;步骤103,将特征输入到匹配模块中进行匹配;步骤104,将该提取的用户旋律的特征在音乐数据特征库中进行近似匹配;步骤105,最后按照相似度的大小,得到检索结果,即歌曲列表。该音乐数据特征库建立过程包括:步骤104a,多首音乐组建音 乐库;步骤104b,从该音乐库的每首音乐中提取特征,以标记该音乐库中的音乐;步骤104c,将每首音乐及其提取的特征组建音乐数据特征库。
然而,哼唱检索面临如下两大难题:一,当前很多哼唱检索系统利用乐器数字接口(Musical Instrument Digital Interface,MIDI)文件中提取的特征构造特征库,与mp3等波形文件相比,从MIDI文件中提取特征更容易,速度也更快。但是MIDI文件不是常用音乐文件,数量太少,限制了音乐库的规模。如果采用波形音乐中的特征,则提取复杂,提取时间又达不到实时性应用的目的。二,特征的匹配算法非常耗时,难以推广到大规模的音乐库中,为了获取高的检索准确率,很多匹配算法采用复杂度高的动态规划算法,这导致系统可以实时处理的库规模只有数百首音乐。
也就是,如何进行哼唱检索中的音乐的特征提取,以扩展音乐数据特征库的规模,且能够提高特征匹配的效率成为亟待解决的问题。
发明内容
本申请通过提出一种音乐的识别方法及系统,该方法对音乐的特征进行提取,不仅扩展了音乐数据库特征的规模,且提高了特征的匹配效率,进而提升用户的体验。
本申请第一方面提供一种音乐的识别方法,所述方法包括:提取多声部音乐的音高;对所述音高进行旋律识别,得到所述多声部音乐的旋律;删除异常的所述多声部音乐的旋律,得到所述多声部音乐的主旋律。
在一种可能的实现方式中,所述提取多声部音乐的音高,包括:将所述多声部音乐进行频谱变换,得到频域的音乐信号;将所述音乐信号进行频谱峰值过滤,得到所述音乐信号的波峰;根据所述音乐信号的波峰,计算得到所述音乐信号的音高。
在一种可能的实现方式中,所述对所述音高进行旋律识别,得到所述多声部音乐的旋律,包括:对所述音高进行音高跟踪,得到所述音高的多条轨迹; 提取所述音高轨迹的特征;将所述音高轨迹的特征进行语音检测,得到所述多声部音乐的旋律。
在一种可能的实现方式中,所述删除异常所述多声部音乐的旋律,得到所述多声部音乐的主旋律,包括:对所述多声部音乐的旋律进行倍频删除;对所述多声部音乐的旋律的音高异常值进行删除,以得到所述多声部音乐的主旋律。
在一种可能的实现方式中,所述方法还包括:将多首所述多声部音乐的主旋律,组建音乐数据特征库;获取用户输入的音乐特征;将所述用户输入的音乐特征与所述音乐数据特征库进行特征匹配,以得到用户的输入的检索结果。
在一种可能的实现方式中,所述方法还包括:用图像处理器GPU对所述特征匹配进行加速。
本申请第二方面提供一种音乐的识别系统,所述系统包括提取单元、旋律识别单元以及异常删除单元;所述提取单元,用于提取多声部音乐的音高;所述旋律识别单元,用于对所述音高进行旋律识别,得到所述多声部音乐的旋律;所述异常删除单元,用于删除异常的所述多声部音乐的旋律,得到所述多声部音乐的主旋律。
在一种可能的实现方式中,所述提取单元,用于将所述多声部音乐进行频谱变换,得到频域的音乐信号;将所述音乐信号进行频谱峰值过滤,得到所述音乐信号的波峰;根据所述音乐信号的波峰,计算得到所述音乐信号的音高。
在一种可能的实现方式中,所述旋律识别单元,用于对所述音高进行音高跟踪,得到所述音高的多条轨迹;提取所述音高轨迹的特征;将所述音高轨迹的特征进行语音检测,得到所述多声部音乐的旋律。
在一种可能的实现方式中,所述删除单元,用于对所述多声部音乐的旋律进行倍频删除;对所述多声部音乐的旋律的音高异常值进行删除,以得到所 述多声部音乐的主旋律。
本申请通过对多声部音乐的音高进行提取,进而得到多声部音乐的主旋律,能够有效扩展音乐数据库特征的规模,同时提高了音乐特征的匹配效率,进而提升用户的哼唱检索音乐的体验。
附图说明
图1为现有技术中的一种哼唱检索方法流程示意图;
图2为本发明实施例提供的一种音乐的识别方法流程示意图;
图3为本发明实施例提供的一种音乐的识别方法的波形示意图;
图4为本发明实施例提供的一种音乐信号频谱变换示意图;
图5为本发明实施例提供的一种倍频删除流程示意图;
图6为本发明实施例提供的一种音乐的识别方法的效果示意图;
图7为本发明实施例提供的一种音乐的识别系统结构示意图。
具体实施方式
下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。
图2为本发明实施例提供的一种音乐的识别方法流程示意图。如图2所示,该方法包括S201-S203。
S201,提取多声部音乐的音高。
在一个可能的实现方法中,提取多多声部音乐的音高方法,包括:将所述多声部音乐进行频谱变换,得到频域的音乐信号;将所述音乐信号进行频谱峰值过滤,得到所述音乐信号的波峰;根据所述音乐信号的波峰,计算得到所述音乐信号的音高。
S202,对所述音高进行旋律识别,得到所述多声部音乐的旋律。
在一个可能的实现方法中,所述对所述音高进行旋律识别,得到所述多声部音乐的旋律,包括:对所述音高进行音高跟踪,得到所述音高的多条轨迹;提取所述音高轨迹的特征;将所述音高轨迹的特征进行语音检测,得到所述多声部音乐的旋律。
S203,删除异常的所述多声部音乐的旋律,得到所述多声部音乐的主旋律。
在一个可能的实现方法中,所述删除异常所述多声部音乐的旋律,得到所述多声部音乐的主旋律,包括:对所述多声部音乐的旋律进行倍频删除;对所述多声部音乐的旋律的音高异常值进行删除,以得到所述多声部音乐的主旋律。
在上述方法中,所述方法还包括:将多首所述多声部音乐的主旋律,组建音乐数据特征库;获取用户输入的音乐特征;将所述用户输入的音乐特征与所述音乐数据特征库进行特征匹配,以得到用户的输入的检索结果。
在上述方法中,所述方法还可以用图像处理器GPU对所述特征匹配进行加速。
下面对本发明实施例中的方法进行详细说明。图3为本发明实施例提供的一种音乐的识别方法的波形示意图,如图3所示,步骤301,多声部音乐的输入;步骤302,提取了该多声部音乐的音高;步骤303,对该音高进行旋律识别,得到音高轨迹;步骤304,删除异常旋律,得到该多声部音乐的主旋律。
一首多声部音乐,特征提取的任务是自动从中提取出音乐的旋律轨迹。现在最常用的旋律轨迹是音乐的基频(F0)序列。基频序列和其他音乐特征相比有很多优势:可以应用在歌手识别中,同时还可以作为推测音乐语义的中间步骤,最有价值的应用是哼唱检索。尽管音高和基频是两个不同的概念,但是在旋律提取领域常用音高指代旋律的基频。
此外,含有背景音的波形音乐特征提取非常困难。本发明实施例的方 法能够在保证较高准确率的情况下,提升了提取的速度。此外,利用相同的方法对用户的哼唱输入进行特征提取。为了能减少提取时间,同时利用GPU对特征提取进行加速,使提取时间由几秒降到几十毫秒。
本发明实施例的方法主要包括三个阶段:一,多音高提取,它包含三个步骤:1、正弦提取将信号进行频谱变换;2、对频谱变换的结果进行峰值过滤;3、利用剩余峰值进行音高显著值计算。显著值的峰值被用来构造主旋律的候选基频。
二、旋律识别阶段,主要任务是识别声乐的旋律。为了能对候选基频进行过滤,包括:1,利用候选基频构造音高轨迹,轨迹通过将连续帧之间相似的基频连接构成,为了减少轨迹的生成,在生成轨迹之前,需要对显著值进行过滤;2、提取音高轨迹:构造完所有的轨迹后,与每条轨迹相关的多个特征被计算,利用这些特征可以区分一条轨迹属于声乐还是器乐;3、采用一个语音检测来找到所有的声乐轨迹。
三、后续处理阶段,算法主要处理声乐的:1,倍频错误;2,音高异常值的剔除,3,主旋律选取。采用旋律音高均值进行上述两个错误处理。完成上述所有步骤之后,剩下的即是一首多声部音乐的主旋律。
第一阶段的多音高提取。1,正弦提取将信号进行频谱变换。给定音乐信号的一帧数据,短时傅里叶变换定义为:
l=0,1,……;k=0,1,……,N-1
其中n表示多声部音乐的音频数据,w(n)表示窗函数,N表示短时傅里叶变换的点数目,H表示每帧的步幅(Hop Size),M表示每帧的大小,L表示帧的数目。
在实际的实现过程中,采用的窗函数是汉宁窗,窗的长度是2048。每一帧的数据长度也是2048,针对采样率为44.1kHz的音频来说,长度约为46.4ms,步幅H为10ms。在进行FFT变换时,为了提高频率的分辨率,将FFT的长度扩展为8192,也即在原始信号后面补零,此时针对44.1kHz的频率分辨率为fs/N=5.38Hz。有些旋律提取系统采用具有固定分辨率的多分辨率变换(multi-resolution transform)代替短时傅里叶变换。但是多分辨率的FFT变换不会带来准确率的显著提升,所以在系统中依旧采用短时傅里叶变换。
2,对频谱变换的结果进行峰值过滤。在频谱变换之后,音乐信号从时域转换到频域。在频域的信号表示不同频率的正弦信号具有的能量信息。由于原始信号由声乐和器乐构成,因而频谱变换之后的信号也由声乐和器乐构成。当音乐只包含器乐的时候,频谱的一系列峰值构成了人声的谐波,通过分析这些峰值即可找到该时刻的旋律。但是在有器乐的音乐中,频谱峰值被器乐干扰,导致频谱峰值与人声谐波之间的关系不再存在。此时针对特定的时刻进行频谱变换,频谱峰值可能属于声乐,也可能属于器乐。但这并不是说频谱变换没有规律可言,针对一个有人声的帧进行变换,结果往往还是会存在多个显著峰值。如果针对一个静默的帧进行变换,则结果就不会存在一个显著的峰值,而且信号的能量也会低很多。含有人声的帧和静默帧的变换结果如图4,图4为本发明实施例提供的一种音乐信号频谱变换示意图。图4中,横坐标是频率,纵坐标是振幅,且401为有人声的帧,402为静默帧。
器乐的峰值对系统的准确率有负面的影响,因而在计算音高显著值之前要首先对频谱峰值进行过滤。作为语音检测的先导步骤,一个好的过滤器会显著减少器乐音高轨迹的生成。
频谱峰值通常利用最大峰值进行过滤。例如,可以将与最大峰值有80dB以上能量差距的峰值过滤掉。这样可以将噪音的峰值去掉,但是器乐的峰值和声乐的谐波可能还存在,越多的峰值留下,就会导致越慢的显著值计算。采用一个两级过滤器来缓解该问题。首先,将低于最大峰值ρ倍 的峰值过滤掉,如果此时剩余波峰还非常多,可以增大ρ,ρ的变化公式如下:
leftpeak剩余波峰的数目;a1,a2是振幅;ρ是系数。
如果剩余波峰的数目大于a2,将ρ置为零,这表示该帧为静默帧,没有显著的峰值。经过两级过滤之后,剩余波峰的数量将会稳定在a1附近。通过修改a1,可以很容易地控制剩余波峰的数量。
人类声音的基频范围可从50Hz扩展到1.1kHz,谐波的频率更可高达10kHz。但是当达到五次谐波之后,谐波所携带的能量将会非常小,因而对结果的影响很小。所以在实验过程中将考虑频率小于5kHz的波峰。通过设定频率上限,显著减小了后面多个步骤的计算量。为了使准确率达到最高,利用网格搜索寻找ρ,a1和a2的最优值,当它们分别为0.2,16和64时,会获得最高的旋律准确率。
3,利用剩余峰值进行音高显著值计算。
显著值计算模型基于谐波求和,给定频率的显著值由该频率对应的剩余波峰加权获得。减小了要计算的频率范围,只考虑人声的可能范围,这样可以加快速度,而且使结果更准确。音高范围由先前的55Hz到1.76kHz缩小为90Hz到1.44kHz。相应的,箱子个数也由600降为480,这样就减少了计算量。音高范围包含四个八度,这已经包含绝大多数人的基频范围。给定一个频率f,其对应的箱子也变为:
由于两级峰值过滤的作用,显著值计算也被简化为:
其中,ai表示波峰的幅值,fi表示波峰的频率,Nh表示计算中采用的谐波个数,I表示FFT滤波之后剩余的候选基频个数,g(b,h,fi)表示频率为fi、振幅为ai的候选基频对“箱子”b的第h个谐波的权重。
二、旋律识别阶段。1,利用候选基频构造音高轨迹。
在进行跟踪之前,需要对音高显著值进行过滤,这样可以减少器乐音高轨迹的生成。过滤过程也是一个两级过滤:首先也是利用最大显著值进行过滤,将低于最大显著值τ+的显著值过滤掉;然后计算所有帧剩余显著值的均值μs和方差σs,利用公式μs-τσ·σs对显著值再次进行过滤。τ+和τσ都通过实验设为0.9。
然后,剩余的波峰存放在集合S+中,被过滤掉的波峰存放在集合S-中。然后波峰利用文献中提出的听觉分流线索进行启发式计算构造轨迹。首先从第一帧的S+中删除一个最小值,将其添加到一个新的音高轨迹中。之后按照时间顺序往前寻找下一帧(时间连续线索)的S+,看是否有“箱子”的频率与上一帧的频率相差80森特(音高连续性线索)以内。如果有,将其从S+中删除(互斥线索),然后添加到上一个频率所在的轨迹中。重复这个过程直到找不到在80森特以内的显著值时停止。在向前寻找的过程中,为了避免短时的时间间隙将一个轨迹断裂成多个轨迹,这时可以搜索S-。这样做的目的是显著值暂时被掩盖的旋律很有可能在S-中,通过搜索S-可以让保持在正确的轨迹上。但是如果连续搜索S-的时间超过100ms,则该条轨迹停止搜索。重复上面的步骤直到S+为空。
2,提取音高轨迹特征。
在构造完所有的轨迹之后,下一步的任务是从众多轨迹中选择出属于主旋律的所有轨迹。事实上,这一步是多声部音乐旋律提取最难的部分。 可以从这些音高轨迹中获取很多有用的特征,每一条轨迹都计算的特征如下:音高均值(Pitch Mean):轨迹的平均音高高度;音高标准差(Pitch deviation):轨迹音高的标准差;轨迹显著值均值(Contour meansalience):组成一个轨迹的所有峰值的平均显著值;轨迹显著值总和(Contour totalsalience):组成一个轨迹的所有峰值的显著值总和;轨迹显著值标准差(Contoursalience deviation):组成一个轨迹的所有峰值的显著值标准差;长度(Length):轨迹的长度。
除了直接基于轨迹的特征之外,还存在两个较为复杂的特征:颤音(vibrato)和震音(tremolo),这两个特征都是通过对轨迹的音高和显著值进行短时傅里叶变换获得。有时仅仅是单独的特征并不能给提供更多的信息,相反特征的分布更能反映事实真相,不同特征的分布可以用来提高声乐和器乐轨迹的区分准确率。
3,语音检测来找到所有的声乐轨迹。
作为一个独立的研究领域,语音检测通常从音频信号中提取一系列特征,然后利用这些特征对所有的帧进行分类,分类方法一般采用阈值方法或静态分类器。当利用音高轨迹特征进行多声部音乐的旋律提取时,语音检测可以简化为从所有的轨迹中找出属于声乐的轨迹,也即人声的轨迹。Hsu利用颤音和震音进行语音检测,Salamon利用特征的分布去进行语音检测。在算法中,采取3个小步骤过滤的方式进行语音检测。
在进行语音检测之前,较短的轨迹(小于60ms)首先被删除,因为它们很有可能是由打击乐器产生。从轨迹的特征可以看出,器乐的轨迹倾向于有一个较平稳的轨迹和较小的音高方差。利用这两个特征,可以过滤掉音高方差σ<20并且长度l>10的轨迹。该步骤作为过滤的第一步可以通过删除更多的器乐轨迹提高最终的准确率。
语音检测的第二步是核心,实现前述的两种不同方案进行对比,第一种方案只利用颤音和震音进行语音检测,第二种方案通过声乐和器乐显著 值均值分布的不同进行语音检测。但是没有一种方案可以过滤掉所有的器乐轨迹。这里存在一个矛盾:删除越多的器乐轨迹,声乐轨迹也会删除越多。
语音检测的第三步利用剩余所有轨迹的音高均值(C-P)和音高方差(σC-P)进行过滤。如果一个轨迹的音高均值小于C-P-ν*σC-P,则删除该轨迹。ν通过实验设置为1.2。
三、后续处理阶段。倍频错误删除音高异常值的剔除的目的是为了主旋律选取。
声乐的音高提取中最主要的错误来源是倍频错误,即主旋律的多倍谐波或者二分之一谐波被作最后的旋律。当前有很多方法被提出来用以解决倍频错误,一种方法是通过八度递降法删除谐波,具体就是当两个轨迹相差一个八度时,如果其中一个轨迹的显著值小于最大轨迹显著值的40%就删除该轨迹;如果两个轨迹相差两个八度,则当其中一个轨迹的显著值小于最大轨迹显著值的20%就删除该轨迹,依次类推。
谐波轨迹的删除仅仅依据较低频率的轨迹是主旋律这个假设。一种方法是通过迭代计算旋律音高均值(melody pitch mean)来进行倍频删除。但是没有一种方式可以完美地进行倍频删除,不过在所有的方法中,由于反应了旋律的变化趋势,迭代计算“旋律音高均值”可以获得最佳效果,所以本发明实施例中算法也采用该方法。此外,该方法在删除倍频轨迹的同时,也对音高异常值进行了剔除。“旋律音高均值”P(t),即表示旋律大致走向的轨迹,通过求取音高的显著值总和加权平均值得到。详细的步骤如下:
1,计算P(t),方法是对每帧中轨迹对应的音高求取加权平均值。
2,用一个5s长的平滑滤波器对P(t)进行平滑处理。
3,检测倍频错误,然后删除所有的倍频错误。
4,重新执行步骤1和2,计算P(t)。
5,检测音高异常值,并删除所有的异常值。
6,重复执行步骤4和5三次。
下图5给出了一个运行步骤的演示,图5为本发明实施例提供的一种倍频删除流程示意图。如图5所示,步骤501中,包含一系列生成的轨迹和旋律音高均值(步骤1和2);步骤502中,检测到倍频错误,然后删除离旋律音高均值较远的八度音高(步骤3);步骤503中,重新计算P(t)(步骤4);步骤504中,删除音高异常值(步骤5),最后重新计算P(t),并显示最终的轨迹。
在实际操作过程中,采取如下方式进行倍频错误删除:当检测到倍频轨迹之后,如果两条轨迹均在旋律音高均值一侧,可以直接删除离旋律音高轨迹远的倍频轨迹。如果两条轨迹分别在旋律音高轨迹的两侧,首先根据两条倍频轨迹的长度关系,删除其中一条长度不足另一条长度13的轨迹;如果不满足条件,则再按照与旋律音高轨迹的距离删除倍频轨迹。
最后,主旋律就从剩余的轨迹中获得。在绝大多数情况下,每一帧只会有一个音高值,这个值就是最终旋律的音高值。如果一帧有多个音高值,就选择属于具有较大显著值和轨迹的音高值作为最终旋律的音高值。如果某一帧没有音高值,则表示该帧是静音。
需要说明的是,GPU加速,是将以前串行算法改为并行算法,并使用运算平台CUDA(Compute Unified Device Architecture)实现GPU编程模型。本发明实施例图像处理器GPU(Graphics Processing Unit)加速的算法,不作限定。CUDA的代码分成两部分,一部分在host(中央处理器,CPU)上运行,是普通的C代码;另一部分在device(GPU)上运行,是并行代码,称为kernel,由nvcc进行编译。Kernel产生的所有线程成为Grid。在并行部分结束后,程序回到串行部分即到host上运行。在CUDA中,host和device有不同的内存空间。所以在device上执行kernel时,需要把host memory上的数据传送到分配的device memory上。在device执行完 以后,需要把结果从device传送回host,并释放device memory。CUDAruntime system提供了应用程序编程接口(Application Programming Interface,API)接口做这些事情。
图6为本发明实施例提供的一种音乐的识别方法的效果示意图,如图6所示,纵坐标是音乐识别的准确率。横坐标601区域,是指使用第二阶段的算法得到的准确率;横坐标602区域,是指使用第一、第二阶段的算法得到的准确率;横坐标603区域,是指使用第二、第三阶段的算法得到的准确率;横坐标604区域,是指同时使用第一、第二、第三阶段的算法得到的准确率。
下面对本发明实施例的音乐的识别系统进行说明。
图7为本发明实施例提供的一种音乐的识别系统结构示意图。如图7所示,该系统包括提取单元701、旋律识别单元702以及异常删除单元703。
所述提取单元701,用于提取多声部音乐的音高。
所述旋律识别单元702,用于对所述音高进行旋律识别,得到所述多声部音乐的旋律。
所述异常删除单元703,用于删除异常的所述多声部音乐的旋律,得到所述多声部音乐的主旋律。
在上述系统中,所述提取单元701,用于将所述多声部音乐进行频谱变换,得到频域的音乐信号;将所述音乐信号进行频谱峰值过滤,得到所述音乐信号的波峰;根据所述音乐信号的波峰,计算得到所述音乐信号的音高。
在上述系统中,所述旋律识别单元702,用于对所述音高进行音高跟踪,得到所述音高的多条轨迹;提取所述音高轨迹的特征;将所述音高轨迹的特征进行语音检测,得到所述多声部音乐的旋律。
在上述系统中,所述删除单元703,用于对所述多声部音乐的旋律进行倍频删除;对所述多声部音乐的旋律的音高异常值进行删除,以得到所 述多声部音乐的主旋律。
本发明实施例中未尽事宜,详见图2及其图2文字部分所述,在此不再赘述。
本发明实施例通过对多声部音乐的音高进行提取,进而得到多声部音乐的主旋律,能够有效扩展音乐数据库特征的规模,同时提高了音乐特征的匹配效率,进而提升用户的哼唱检索音乐的体验。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种音乐的识别方法,其特征在于,所述方法包括:
提取多声部音乐的音高;
对所述音高进行旋律识别,得到所述多声部音乐的旋律;
删除异常的所述多声部音乐的旋律,得到所述多声部音乐的主旋律。
2.根据权利要求1所述的方法,其特征在于,所述提取多声部音乐的音高,包括:
将所述多声部音乐进行频谱变换,得到频域的音乐信号;
将所述音乐信号进行频谱峰值过滤,得到所述音乐信号的波峰;
根据所述音乐信号的波峰,计算得到所述音乐信号的音高。
3.根据权利要求1所述的方法,其特征在于,所述对所述音高进行旋律识别,得到所述多声部音乐的旋律,包括:
对所述音高进行音高跟踪,得到所述音高的多条轨迹;
提取所述音高轨迹的特征;
将所述音高轨迹的特征进行语音检测,得到所述多声部音乐的旋律。
4.根据权利要求1所述的方法,其特征在于,所述删除异常所述多声部音乐的旋律,得到所述多声部音乐的主旋律,包括:
对所述多声部音乐的旋律进行倍频删除;
对所述多声部音乐的旋律的音高异常值进行删除,以得到所述多声部音乐的主旋律。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
将多首所述多声部音乐的主旋律,组建音乐数据特征库;
获取用户输入的音乐特征;
将所述用户输入的音乐特征与所述音乐数据特征库进行特征匹配,以得到用户的输入的检索结果。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
用图像处理器GPU对所述特征匹配进行加速。
7.一种音乐的识别系统,其特征在于,所述系统包括提取单元、旋律识别单元以及异常删除单元;
所述提取单元,用于提取多声部音乐的音高;
所述旋律识别单元,用于对所述音高进行旋律识别,得到所述多声部音乐的旋律;
所述异常删除单元,用于删除异常的所述多声部音乐的旋律,得到所述多声部音乐的主旋律。
8.根据权利要求7所述的系统,其特征在于,所述提取单元,用于将所述多声部音乐进行频谱变换,得到频域的音乐信号;将所述音乐信号进行频谱峰值过滤,得到所述音乐信号的波峰;根据所述音乐信号的波峰,计算得到所述音乐信号的音高。
9.根据权利要求7所述的系统,其特征在于,所述旋律识别单元,用于对所述音高进行音高跟踪,得到所述音高的多条轨迹;提取所述音高轨迹的特征;将所述音高轨迹的特征进行语音检测,得到所述多声部音乐的旋律。
10.根据权利要求7所述的系统,其特征在于,所述删除单元,用于对所述多声部音乐的旋律进行倍频删除;对所述多声部音乐的旋律的音高异常值进行删除,以得到所述多声部音乐的主旋律。
CN201611247506.8A 2016-12-29 2016-12-29 一种音乐的识别方法及系统 Pending CN108257591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611247506.8A CN108257591A (zh) 2016-12-29 2016-12-29 一种音乐的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611247506.8A CN108257591A (zh) 2016-12-29 2016-12-29 一种音乐的识别方法及系统

Publications (1)

Publication Number Publication Date
CN108257591A true CN108257591A (zh) 2018-07-06

Family

ID=62720745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611247506.8A Pending CN108257591A (zh) 2016-12-29 2016-12-29 一种音乐的识别方法及系统

Country Status (1)

Country Link
CN (1) CN108257591A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627892A (zh) * 2022-03-18 2022-06-14 厦门大学 一种基于深度学习的多声部音乐人声主旋律提取方法
CN115527514A (zh) * 2022-09-30 2022-12-27 恩平市奥科电子科技有限公司 音乐大数据检索的专业声乐旋律特征提取方法
CN115938346A (zh) * 2023-01-28 2023-04-07 中国传媒大学 音准评估方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504834A (zh) * 2009-03-25 2009-08-12 深圳大学 一种基于隐马尔可夫模型的哼唱式旋律识别方法
CN103247286A (zh) * 2013-03-28 2013-08-14 北京航空航天大学 一种基于gpu的多声部音乐旋律提取方法
CN103559309A (zh) * 2013-11-19 2014-02-05 北京航空航天大学 一种基于gpu加速的音乐检索与推荐系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504834A (zh) * 2009-03-25 2009-08-12 深圳大学 一种基于隐马尔可夫模型的哼唱式旋律识别方法
CN103247286A (zh) * 2013-03-28 2013-08-14 北京航空航天大学 一种基于gpu的多声部音乐旋律提取方法
CN103559309A (zh) * 2013-11-19 2014-02-05 北京航空航天大学 一种基于gpu加速的音乐检索与推荐系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚光超等: ""基于MPI_GPU的哼唱检索系统加速"", 《计算机工程与科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627892A (zh) * 2022-03-18 2022-06-14 厦门大学 一种基于深度学习的多声部音乐人声主旋律提取方法
CN115527514A (zh) * 2022-09-30 2022-12-27 恩平市奥科电子科技有限公司 音乐大数据检索的专业声乐旋律特征提取方法
CN115527514B (zh) * 2022-09-30 2023-11-21 恩平市奥科电子科技有限公司 音乐大数据检索的专业声乐旋律特征提取方法
CN115938346A (zh) * 2023-01-28 2023-04-07 中国传媒大学 音准评估方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
Wu et al. Polyphonic music transcription with semantic segmentation
Rocamora et al. Comparing audio descriptors for singing voice detection in music audio files
KR20080054393A (ko) 음악 분석
EP1576491A1 (en) Summarizing digital audio data
Tsunoo et al. Beyond timbral statistics: Improving music classification using percussive patterns and bass lines
Van Balen et al. Cognition-inspired descriptors for scalable cover song retrieval
Kaur et al. Study and analysis of feature based automatic music genre classification using Gaussian mixture model
CN108257591A (zh) 一种音乐的识别方法及系统
Costa et al. Automatic classification of audio data
Joshi et al. Indian Classical Raga Identification using Machine Learning.
Tsunoo et al. Music mood classification by rhythm and bass-line unit pattern analysis
Yamamoto et al. Investigating time-frequency representations for audio feature extraction in singing technique classification
Nagavi et al. Overview of automatic Indian music information recognition, classification and retrieval systems
Singha et al. Deep learning-based classification of indian classical music based on raga
Layegh et al. Classification of the Radif of Mirza Abdollah a canonic repertoire of Persian music using SVM method
Liumei et al. K-means clustering analysis of Chinese traditional folk music based on midi music textualization
Sha et al. Singing voice timbre classification of Chinese popular music
Waghmare et al. Raga identification techniques for classifying indian classical music: A survey
Koduri et al. Computational approaches for the understanding of melody in carnatic music
Ashraf et al. Integration of speech/music discrimination and mood classification with audio feature extraction
Rajan et al. Oktoechos classification in liturgical music using musical texture features
Peiris et al. Musical genre classification of recorded songs based on music structure similarity
Peiris et al. Supervised learning approach for classification of Sri Lankan music based on music structure similarity
CN112270929A (zh) 一种歌曲识别的方法及装置
Valero-Mas et al. Analyzing the influence of pitch quantization and note segmentation on singing voice alignment in the context of audio-based Query-by-Humming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706