CN104143339A - 音乐信号处理设备和方法、以及程序 - Google Patents

音乐信号处理设备和方法、以及程序 Download PDF

Info

Publication number
CN104143339A
CN104143339A CN201410181454.3A CN201410181454A CN104143339A CN 104143339 A CN104143339 A CN 104143339A CN 201410181454 A CN201410181454 A CN 201410181454A CN 104143339 A CN104143339 A CN 104143339A
Authority
CN
China
Prior art keywords
frequecy characteristic
characteristic amount
amount
music signal
melody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410181454.3A
Other languages
English (en)
Other versions
CN104143339B (zh
Inventor
角尾衣未留
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN104143339A publication Critical patent/CN104143339A/zh
Application granted granted Critical
Publication of CN104143339B publication Critical patent/CN104143339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

本发明提供了一种音乐信号处理设备和方法、以及程序,该音乐信号处理设备包括频谱变换单元、滤波器、频率特征量生成单元以及旋律特征量序列获取单元。频谱变换单元被配置为将音乐信号变换成频谱,该音乐信号是包含具有旋律的部分的音乐作品的信号。滤波器被配置为去除频谱的陡峭峰。频率特征量生成单元被配置为根据从滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量。旋律特征量序列获取单元被配置为基于频率特征量来获取旋律特征量序列,该旋律特征量序列指定所述部分在每个时间处的基频。

Description

音乐信号处理设备和方法、以及程序
相关申请的交叉引用
本申请要求2013年5月9日提交的日本优先权专利申请JP2013-099654的权益,其全部内容通过引用结合于此。
技术领域
本公开内容涉及一种音乐信号处理设备和方法、以及程序,并且更具体地涉及能够在不增加处理负荷的情况下精确地提取歌声的音乐信号处理设备和方法、以及程序。
背景技术
近年来,对于从许多音乐作品(musical piece)中搜索与歌声相关的旋律的要求日益增加。例如,执行基于用户的歌声或哼唱搜索音乐作品的哼唱搜索、搜索翻唱音乐作品的原版的翻唱歌曲搜索等。
作为一种根据音乐作品的语音信号估计与歌声相关的旋律的特征量(即,歌声的基频)的方法,提出了根据频谱的最大峰值估计特征量的方法(例如,参见M.Goto,"A real-time music-scene-description system:predominant-F0estimation for detecting melody and bass line inreal-world audio signals",Speech Communication(ISCA期刊),第43卷,第4号,第311-329页,2004年9月)
另外,还提出了一种通过使用歌声的音高波动来提取歌声的方法(例如,参见H.Tachibana,T.Ono,N.Ono,S.Sagayama,"Melody lineestimation in homophonic music audio signals based ontemporal-variability of melodic source",ICASSP2010会报,第425-428页,2010年3月)。
在“Melody line estimation in homophonic music audio signals basedon temporal-variability of melodic source”的技术中,分析频率方向上的能量和时间方向上的能量以提取歌声的基频的特征量等。
发明内容
然而,在“A real-time music-scene-description system:predominant-F0estimation for detecting melody and bass line inreal-world audio signals”的技术中,例如,在与乐器相关的旋律的音量大的情况下,频谱的最大峰值对应于乐器的基频,因而很难精确地提取歌声。
另外,在“Melody line estimation in homophonic music audio signalsbased on temporal-variability of melodic source”的技术中,需要分析时间上长的语音信号,并且处理负荷变大。因而,例如,难以在便携式音乐播放器等中实现该技术。
鉴于如上所述的状况而公开了本公开内容,并且期望在不增加处理负荷的情况下精确地提取歌声。
根据本公开内容的实施例,提供了一种音乐信号处理设备,其包括频谱变换单元、滤波器、频率特征量生成单元以及旋律特征量序列获取单元。频谱变换单元被配置为将音乐信号变换成频谱,该音乐信号是包含具有旋律的部分的音乐作品的信号。滤波器被配置为去除频谱的陡峭峰。频率特征量生成单元被配置为根据从滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量。旋律特征量序列获取单元被配置为基于频率特征量来获取旋律特征量序列,该旋律特征量序列指定所述部分在每个时间处的基频。
该部分可包括歌声,并且频率特征量生成单元可被配置为生成歌声的基频分量得到强调的频率特征量。
频率特征量生成单元可被配置为对从滤波器输出的信号进行归一化,以生成该部分的基频分量得到强调的频率特征量。
频率特征量生成单元可被配置为对从滤波器输出的信号进行归一化并加上谐波分量,以生成该部分的基频分量得到强调的频率特征量。
旋律特征量序列获取单元可被配置为基于时间上相邻的频率特征量的差绝对值来对频率特征量(在所述频率特征量中该部分的基频分量得到强调并且所述频率特征量按时间顺序排列)进行分组,以生成特征量序列候选,并且通过动态规划选择特征量序列候选以获取旋律特征量序列。
音乐信号处理设备还可包括音高走势(pitch trend)估计单元,其被配置为对该部分的基频分量得到强调的频率特征量的自相关函数进行平均以估计该部分的音高走势,其中旋律特征量序列获取单元可被配置为通过动态规划以及基于音高走势来选择特征量序列候选以获取旋律特征量序列。
根据本公开内容的另一实施例,提供了一种音乐信号处理方法,包括:用频谱变换单元将音乐信号变换成频谱,音乐信号是包含具有旋律的部分的音乐作品的信号;用滤波器去除频谱的陡峭峰;用频率特征量生成单元根据从滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量;以及用旋律特征量序列获取单元基于频率特征量来获取旋律特征量序列,所述旋律特征量序列指定所述部分在每个时间处的基频。
根据本公开内容的又一个实施例,提供了一种程序,其使得计算机用作音乐信号处理设备,所述设备包括:频谱变换单元,被配置为将音乐信号变换成频谱,音乐信号是包含具有旋律的部分的音乐作品的信号;滤波器,被配置为去除频谱的陡峭峰;频率特征量生成单元,被配置为根据从滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量;以及旋律特征量序列获取单元,被配置为基于频率特征量来获取旋律特征量序列,所述旋律特征量序列指定所述部分在每个时间处的基频。
根据本公开内容的实施例,将作为包含具有旋律的部分的音乐作品的信号的音乐信号变换成频谱,去除频谱的陡峭峰,根据从滤波器输出的信号生成该部分的基频分量得到强调的频率特征量,并且基于频率特征量来获取指定所述部分在每个时间处的基频的旋律特征量序列。
根据本公开内容,可以在不增加处理负荷的情况下精确地提取歌声。
如附图所示,根据以下对本公开内容的最佳模式实施例的详细描述,本公开内容的这些和其它目的、特征和优点将变得更加明显。
附图说明
图1是示出根据本公开内容的实施例的旋律检索设备的配置示例的框图;
图2是用于描述低通滤波器的特性的图;
图3A、图3B、图3C和图3D均是用于详细描述图1的频率特征量提取单元的处理的图;
图4是示出在二维空间内按时间顺序标绘(plot)的频率特征量的示例的图;
图5是用于描述旋律特征量序列的特定模式(scheme)的图;
图6是用于描述旋律特征量序列指定处理的示例的流程图;
图7是用于描述频率特征量提取处理的详细示例的流程图;以及
图8是示出个人计算机的配置示例的框图。
具体实施方式
下文中,将参照附图描述本公开内容的实施例。
图1是示出根据本公开内容的实施例的旋律检索设备的配置示例的框图。图1所示的旋律检索设备100获取指定与音乐作品中的歌声相关的旋律所需要的信息(例如,稍后将描述的旋律特征量序列)。这里,音乐作品具有包括至少一个部分的结构。例如,假设音乐作品包括歌唱(歌声)部分、弦乐部分、打击乐部分等。
图1所示的旋律检索设备100包括短时傅立叶变换单元101、频率特征量提取单元102、旋律候选提取单元103、音高走势估计单元104和旋律特征量序列选择单元105。
短时傅立叶变换单元101对音乐作品的语音信号(下文中,称为音乐信号)的一部分执行傅立叶变换。此时,例如,对音乐作品的语音进行采样以生成音乐信号,并且使由几百毫秒(例如,200毫秒至300毫秒)的时间段内的音乐信号构成的帧经受短时傅立叶变化以生成频谱。
频率特征量提取单元102从自短时傅立叶变换单元101输出的频谱中提取稍后将描述的频率特征量。
频率特征量提取单元102执行去除从短时傅立叶变换单元101输出的频谱的陡峭峰的滤波处理。例如,使得频谱通过低通滤波器,从而强调频谱的平缓峰。
此时,例如,使用具有如图2所示的特性的低通滤波器。在图2中,横轴表示频率ω,并且纵轴表示与音乐信号相乘的增益的值。如图2所示,在低通滤波器的特性中,在比预定频率高的频率处增益低,而在比预定频率低的频率处增益高。
例如,在频谱的频率轴方向上,使用低通滤波器(诸如,具有如图2所示的特性的FIR(有限脉冲响应)滤波器)执行卷积运算。具体地,低通滤波器的输出值l(x,y)通过以下公式(1)来表示。
l ( x , y ) = Σ k = 0 K - 1 a k · log | Y ( x , y - k ) | . . . ( 1 )
应注意,公式(1)中的ak表示滤波器系数,以及K表示滤波器的抽头数。另外,Y(x,y)表示从短时傅立叶变换单元101输出的频谱的谱值,x表示时间索引,以及y表示频率索引。
作为通过公式(1)进行的处理的结果而获得的输出值l(x,y)提供了如下频谱:陡峭峰从该频谱中被去除,并且在该频谱中例如抑制了对应于乐器声音的峰并强调了对应于歌声的峰。
另外,频率特征量提取单元102通过使用以下公式(2)来对低通滤波器的输出值进行归一化并且获得歌声的分量得到强调的频率特征量p(x,y)。可以说,该频率特征量表示频率具有与歌声相对应的峰的概率。
这里,公式(2)中的μ(x)是log|Y(x,y)|的平均值,以及UY(x,y)是通过利用直线连接log|Y(x,y)|的峰而获得的函数并且在以下公式(3)中示出。
U Y ( x , y ) = ( p + ( y ) - y ) log | Y ( x , p - ( y ) ) | + ( y - p - ( y ) ) log | Y ( x , p + ( y ) ) | p + ( y ) - p - ( y ) . . . ( 3 )
这里,公式(3)中的p+(y)和p-(y)分别是紧接在频率索引y之后的峰的索引以及紧接在频率索引y之前的峰的索引。
另外,频率特征量提取单元102将谐波分量与作为通过公式(2)进行的归一化的结果而获得的频率特征量相加以进一步强调频率特征量。此时,例如,进行通过以下公式(4)表达的运算,因而,加上谐波分量并且进一步强调频率特征量。
S ( x , y ) = Σ n = 1 N P v ( x , ny ) · | Y ( x , ny ) | N α . . . ( 4 )
应注意,公式(4)中的α是参数,n是1或更大的整数,以及N是频率索引y的附加倍数。
应注意,在立体声源的情况下,可以通过例如以下公式(5)所表达的运算来进行使用定位信息的强调。
S , ( x , y ) = Σ n = 1 N P v ( x , ny ) · ( | Y L ( x , ny ) + Y R ( x , ny ) | - | Y L ( x , ny ) - Y R ( x , ny ) | ) N α . . . ( 5 )
应注意,公式(5)中的YL(x,y)和YR(x,y)分别表示左通道的谱值和右通道的谱值。
将参照图3A、图3B、图3C和图3D进一步描述频率特征量提取单元102的处理。
在图3A中,横轴表示频率,并且纵轴表示功率。图3A示出从短时傅立叶变换单元101输出的频谱的示例。在图3A中,频谱的峰位置由实线和虚线的箭头表示。
由图3A中的虚线的箭头表示的峰是与乐器声音相对应的峰,并且在本示例中示出六个峰。由图3A中的实线的箭头表示的峰是与歌声对应的峰,并且在本示例中示出了六个峰。应注意,歌声的基频为一,因而其它五个峰是由于歌声的谐波分量而产生的。
在图3B中,横轴表示频率,并且纵轴表示功率。图3B示出已经进行了低通滤波器的处理的频谱。如图3B所示,通过低通滤波器的处理,去除了频谱的陡峭(尖锐)峰,并且仅剩下平缓峰。
例如,由图3A中的虚线的箭头表示的且对应于乐器声音的峰是尖锐峰。这是因为乐器声音具有难以随时间改变的基频。不同于乐器的情况,歌声具有随时间改变的基频。具体地,歌声具有波动音高的特性。出于该原因,由图3A中的实线的箭头表示且对应于歌声的峰是平缓峰。
因此,例如,对频谱执行低通滤波处理,并且如图3B所示仅剩下平缓峰,使得仅可以提取对应于歌声的峰。
如上所述,在本公开内容的实施例中,由几百毫秒(例如,200毫秒到300毫秒)的时间段内的音乐信号构成的帧经受短时傅立叶变换。例如,在短时傅立叶变换中所使用的帧的音乐信号的时间段较短的情况下,与歌声相关的频谱也具有陡峭峰。在本公开内容的实施例中,获得了具有与歌声的音高的波动相对应的平缓峰的频谱,其中该歌声具有随时间改变的基频。
在图3C中,横轴表示频率,并且纵轴表示功率。图3C示出了通过归一化而获得的且歌声的分量得到强调的频率特征量。如图3C所示,图3B中被提取作为与歌声相对应的峰的峰被进一步强调。
在图3D中,横轴表示频率,并且纵轴表示功率。图3D示出了加上谐波分量的且基频分量进一步得到强调的频率特征量。
返回参照图1,旋律候选提取单元103按时间顺序排列下述频率特征量:其通过频率特征量提取单元102进行的处理而获得且其中如图3D所示歌声得到强调。例如,假设图3D的平面的深度方向是时间轴,则在平面的深度方向上排列如图3D所示歌声得到强调的频率特征量。例如,在平面的深度方向上排列在时间t1的歌声得到强调的频率特征量、在时间t2的歌声得到强调的频率特征量、在时间t3的歌声得到强调的频率特征量等。
随后,作为与图3D所示的峰相对应的频率的、各个时间的强调后的频率特征被标绘以作为频率特征量。例如,在横轴表示时间以及纵轴表示频率的二维空间内,按时间顺序标绘频率特征量。
旋律候选提取单元103还对所标绘的频率特征量进行分组以生成特征量序列候选。
图4是示出在二维空间内按时间顺序所标绘的频率特征量的示例的图,在二维空间内,横轴表示时间并且纵轴表示频率。在图4中,所标绘的频率特征量中的每一个被表示为圆圈。
例如,在图4中的最左(最早)时间,标绘了频率特征量qb1和频率特征量qc1。在随后的时间,标绘了频率特征量qa1和频率特征量qb2。在随后的时间,标绘了频率特征量qb3。在更加往后的时间,标绘了频率特征量qa2和频率特征量qb4。以这样的方式,标绘了每个频率特征量。
旋律候选提取单元103计算时间上相邻的频率特征量(在该情况下为频率值)之间的差的绝对值(下文中,称为差绝对值),并且对所获得的差绝对值小于预设阈值(例如,半音)的频率特征量进行分组。
例如,由于频率特征量qb1和时间上与频率特征量qb1相邻的频率特征量qb2的差绝对值小于阈值,因此频率特征量qb1和频率特征量qb2属于同一组。同时,频率特征量qb1和时间上与频率特征量qb1相邻的频率特征量qa1的差绝对值等于或大于阈值,因而,频率特征量qb1和频率特征量qa1不属于同一组。
作为以这样的方式对频率特征量进行分组的结果,生成特征量序列候选151。特征量序列候选151由作为五个时间上连续的频率特征量且在图4中用黑色圆圈表示的频率特征量qb1至频率特征量qb5构成。以相同的方式,生成由在图4中用黑色圆圈表示的频率特征量qe1和频率特征量qe2构成的特征量序列候选152,并且生成由在图4中用具有阴影的圆圈表示的频率特征量qf1和频率特征量qf2构成的特征量序列候选153。
返回参照图1,音高走势估计单元104估计歌声的音高走势。音高走势表示由于时间的流逝而引起的频率特征量的改变的倾向。在上述情况下,基于例如频率分辨率和时间分辨率为粗(rough)并且歌声得到强调的频率特征量来估计音高走势。例如,通过对频率特征量的自相关函数进行平均来估计音高走势。
在以下公式(6)中,示出了通过对频率特征量的自相关函数进行平均来获得音高走势T(x)的示例。
T ( x ) = arg max y 1 IJ Σ i = x - I / 2 x + I / 2 Σ j = y - I / 2 x + J / 2 ( Σ a p v ( i , j ) p v ( i , j - a ) ) . . . ( 6 )
应注意,在公式(6)中,I和J分别表示进行时间轴方向上的平均的幅度以及进行频率轴方向上的平均的幅度。
旋律特征量序列选择单元105基于音高走势估计单元104估计的音高走势来选择由旋律候选提取单元103提取的特征量序列候选,以指定旋律特征量序列。例如,使用特征量序列候选与音高走势之间的频率的差绝对值、特征量序列候选之间的频率的差绝对值、以及各个特征量序列候选的频率特征量,通过动态规划来选择使以下公式(7)的DM最大的特征量候选。
D M = Σ m ( Σ x , y ∈ C m S ( x , y ) - γ 1 Σ x , y ∈ C m | log y - log T ( x ) | - γ 2 | log y m - 1 , last - log y m , first | ) . . . ( 7 )
应注意,在公式(7)中,γ1和γ2是参数,并且C表示特征量序列候选,其中last表示最后一个,first表示第一个。
结果,例如,如图5所示,按时间顺序选择特征量序列候选以最小化转变成本。
图5是示出在如图4中一样横轴表示时间以及纵轴表示频率的二维空间内按时间顺序标绘的频率特征量的示例的图。假设在图5的示例中,特征量序列候选151至特征量序列候选154已由旋律候选提取单元103生成并且用图5的虚线表示的音高走势已由音高走势估计单元104估计。
在这种情况下,计算从特征量序列候选151到特征量序列候选152、153和154中的每个的转变成本。具体地,计算从时间上最早的特征量序列候选151到时间上晚于特征量序列候选151的每个特征量序列候选的转变成本。应注意,转变成本是通过公式(7)的第三项算出的值。
转变为特征量序列候选152的转变成本由Ct1表示,转变为特征量序列候选153的转变成本由Ct3表示,以及转变为特征量序列候选154的转变成本由Ct4表示。
在这样的情况下,计算所有的转变成本。具体地,计算在转变为特征量序列候选152时的转变成本Ct1、在通过特征量序列候选152转变为特征量序列候选154时的转变成本Ct1和Ct2、在直接转变为特征量序列候选154时的转变成本Ct4以及在转变为特征量序列候选153时的转变成本Ct3,特征量序列候选152、特征量序列候选154和特征量序列候选153均用作从特征量序列候选151开始的转变目的地。随后,选择特征量序列候选152和特征量序列候选154作为使公式(7)的DM最大的候选。
这允许将由特征量序列候选151、特征量序列候选152和特征量序列候选154构成的频率特征量组指定为旋律特征量序列。指定了旋律特征量序列的候选,因而指定了歌声在每个时间处的基频。
使用这样获得的旋律特征量序列,可以正确地识别歌声的旋律。
在上述示例中,旋律特征量序列选择单元105基于音高走势来选择特征量序列候选以指定旋律特征量序列。然而,例如,可使用预定值而不是使用音高走势来选择特征量序列候选。具体地,可以不设置音高走势估计单元104。
接下来,将参照图6的流程图来描述根据本公开内容的实施例的旋律检索设备100进行的旋律特征量序列指定处理的示例。
在S21中,短时傅立叶变换单元101对音乐作品的音乐信号的一部分进行傅立叶变换。此时,例如,对音乐作品的语音进行采样以生成音乐信号,并且使由几百毫秒(例如,200毫秒到300毫秒)的时间段内的音乐信号构成的帧经受短时傅立叶变换以生成频谱。
在S22中,频率特征量提取单元102执行稍后将参照图7的流程图描述的频率特征量提取处理。因此,从自短时傅立叶变换单元101输出的频谱提取频率特征量。
在S23中,旋律候选提取单元103生成特征量序列候选。此时,例如,旋律候选提取单元103按时间顺序排列频率特征量以进行标绘。频率特征量是通过频率特征量提取单元102进行的处理而获得的并且如图3D所示得到强调。随后,旋律候选提取单元103计算时间上相邻的频率特征量(在该情况下为频率值)的差绝对值,并且对所获得的差绝对值小于预设阈值(例如,半音)的频率特征量进行分组。
在步骤S24中,音高走势估计单元104估计音高走势。此时,例如,如在公式(6)中所表达的那样,通过对频率特征量的自相关函数进行平均来估计音高走势。
在步骤S25中,旋律特征量序列选择单元105基于在步骤S24中所估计的音高走势来选择在步骤S23中所生成的特征量序列候选,以指定旋律特征量序列。此时,例如,使用特征量序列候选与音高走势之间的频率的差绝对值、特征量序列候选之间的频率的差绝对值、以及各个特征量序列候选的频率特征量,通过动态规划来选择使公式(7)的DM最大的特征量候选。
以这样的方式,指定了旋律特征量序列。
接着,将参照图7的流程图描述图6的步骤S22的频率特征量提取处理的详细示例。
在步骤S41中,频率特征量提取单元102使得作为步骤S21的处理的结果所获得的频谱通过低通滤波器。此时,例如,执行以上参考公式(1)描述的卷积运算,从而强调频谱的平缓峰。
在步骤S42中,频率特征量提取单元102通过使用公式(2)来对通过步骤S41的处理而获得的低通滤波器的输出值进行归一化,并且获得歌声的分量得到强调的频率特征量。
在步骤S43中,频率特征量提取单元102将谐波分量与作为步骤S42的处理的结果而获得的并且其中歌声的分量得到强调的频率特征量相加。此时,例如,执行通过公式(4)表达的运算,因而加上了谐波分量。
应注意,在立体声源的情况下,可通过例如公式(5)表达的运算来执行使用定位信息的强调。
在步骤S44中,频率特征量提取单元102获取例如图3D所示的频率特征量。
以这样的方式,执行频率特征量提取处理。
在以上描述中,应用本公开内容的实施例的旋律检索设备100获取指定与音乐作品中的歌声相关的旋律所需要的信息。然而,不一定指定与歌声相关的旋律。例如,应用本公开内容的实施例的旋律检索设备100可用于获取指定与如在歌声中那样具有波动音高的特性的乐器(诸如小提琴)相关的旋律所需要的信息。
应注意,上述系列处理可通过硬件或软件来执行。在上述系列处理通过软件执行的情况下,从网络或者并入专用硬件中的计算机中或在例如图8所示的通用个人计算机700中的记录介质安装构成软件的程序,其中该通用个人计算机700能够通过安装各种程序来执行各种功能。
在图8中,CPU(中央处理单元)701根据存储在ROM(只读存储器)702中的程序或者从存储单元708加载到RAM(随机存取存储器)703的程序来执行各种类型的处理。RAM703还存储CPU701适当地执行各种类型的处理所需要的数据。
CPU701、ROM702和RAM703经由总线704彼此连接。总线704还连接至输入和输出接口705。
输入和输入接口705连接至输入单元706、输出单元707、存储单元708和通信单元709。输入单元706包括键盘和鼠标。输出单元707包括诸如LCD(液晶显示器)的显示器和扬声器。存储单元708包括硬盘等。通信单元709包括调制解调器和诸如LAN(局域网)卡的网络接口卡。通信单元709经由包括因特网的网络执行通信处理。
输入和输出接口705还根据需要连接至驱动器710。诸如磁盘、光盘、磁光盘和半导体存储器的可移动介质711适当地安装于驱动器710,并且从可移动介质711读取的计算机程序根据需要安装在存储单元708中。
在上述系列处理通过软件执行的情况下,从诸如因特网的网络或诸如可移动介质711的记录介质安装构成软件的程序。
记录介质不限于由如图8所示的可移动介质711构成的记录介质,该记录介质与设备的主体分开设置并且被分发以将程序传递给用户。可移动介质711包括磁盘(包括软盘(注册商标))、光盘(包括CD-ROM(致密盘-只读存储器)和DVD(数字多功能盘))、磁光盘(包括MD(微型盘)(注册商标))、或者存储程序的半导体存储器。记录介质还可包括由ROM702或包括在存储单元708中的硬盘构成的记录介质,该存储单元708在内置于该设备的主体中的状态下存储被分发给用户的程序。
除了沿着所述顺序按时间执行的处理外,本说明书中的上述系列处理还包括并行或单独地执行的处理,而不一定按时间处理。
另外,本公开内容的实施例不限于上述实施例,并且可以在不背离本公开内容的主旨的情况下进行各种变型。
应注意,本公开内容可以具有以下配置。
(1)一种音乐信号处理设备,包括:
频谱变换单元,被配置为将音乐信号变换成频谱,所述音乐信号是包含具有旋律的部分的音乐作品的信号;
滤波器,被配置为去除所述频谱的陡峭峰;
频率特征量生成单元,被配置为根据从所述滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量;以及
旋律特征量序列获取单元,被配置为基于所述频率特征量来获取旋律特征量序列,所述旋律特征量序列指定所述部分在每个时间处的基频。
(2)根据(1)所述的音乐信号处理设备,其中,
所述部分包括歌声,并且
所述频率特征量生成单元被配置为生成所述歌声的基频分量得到强调的频率特征量。
(3)根据(1)或(2)所述的音乐信号处理设备,其中,
所述频率特征量生成单元被配置为对从所述滤波器输出的信号进行归一化,以生成所述部分的基频分量得到强调的频率特征量。
(4)根据(3)所述的音乐信号处理设备,其中,
所述频率特征量生成单元被配置为对从所述滤波器输出的信号进行归一化并加上谐波分量,以生成所述部分的基频分量得到强调的频率特征量。
(5)根据(1)至(4)中任一项所述的音乐信号处理设备,其中,
所述旋律特征量序列获取单元被配置为:
基于时间上相邻的频率特征量的差绝对值来对频率特征量进行分组,以生成特征量序列候选,在所述频率特征量中所述部分的基频分量得到强调并且所述频率特征量按时间顺序排列,并且
通过动态规划选择特征量序列候选以获取所述旋律特征量序列。
(6)根据(1)至(5)中任一项所述的音乐信号处理设备,还包括音高走势估计单元,其被配置为对所述部分的基频分量得到强调的频率特征量的自相关函数进行平均,以估计所述部分的音高走势,其中
所述旋律特征量序列获取单元被配置为通过动态规划以及基于所述音高走势来选择所述特征量序列候选,以获取所述旋律特征量序列。
(7)一种音乐信号处理方法,包括:
用频谱变换单元将音乐信号变换成频谱,所述音乐信号是包含具有旋律的部分的音乐作品的信号;
用滤波器去除所述频谱的陡峭峰;
用频率特征量生成单元根据从所述滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量;以及
用旋律特征量序列获取单元基于所述频率特征量来获取旋律特征量序列,所述旋律特征量序列指定所述部分在每个时间处的基频。
(8)一种程序,其使得计算机用作音乐信号处理设备,所述设备包括:
频谱变换单元,被配置为将音乐信号变换成频谱,所述音乐信号是包含具有旋律的部分的音乐作品的信号;
滤波器,被配置为去除所述频谱的陡峭峰;
频率特征量生成单元,被配置为根据从所述滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量;以及
旋律特征量序列获取单元,被配置为基于所述频率特征量来获取旋律特征量序列,所述旋律特征量序列指定所述部分在每个时间处的基频。
本领域技术人员应理解,可根据设计要求和其它因素进行各种变型、组合、子组合和变更,只要它们在所附权利要求或其等同方案的范围内。

Claims (8)

1.一种音乐信号处理设备,包括:
频谱变换单元,被配置为将音乐信号变换成频谱,所述音乐信号是包含具有旋律的部分的音乐作品的信号;
滤波器,被配置为去除所述频谱的陡峭峰;
频率特征量生成单元,被配置为根据从所述滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量;以及
旋律特征量序列获取单元,被配置为基于所述频率特征量来获取旋律特征量序列,所述旋律特征量序列指定所述部分在每个时间处的基频。
2.根据权利要求1所述的音乐信号处理设备,其中,
所述部分包括歌声,并且
所述频率特征量生成单元被配置为生成所述歌声的基频分量得到强调的频率特征量。
3.根据权利要求1所述的音乐信号处理设备,其中,
所述频率特征量生成单元被配置为对从所述滤波器输出的信号进行归一化,以生成所述部分的基频分量得到强调的频率特征量。
4.根据权利要求3所述的音乐信号处理设备,其中,
所述频率特征量生成单元被配置为对从所述滤波器输出的信号进行归一化并加上谐波分量以生成所述部分的基频分量得到强调的频率特征量。
5.根据权利要求1所述的音乐信号处理设备,其中,
所述旋律特征量序列获取单元被配置为:
基于时间上相邻的频率特征量的差绝对值来对频率特征量进行分组,以生成特征量序列候选,在所述频率特征量中所述部分的基频分量得到强调并且所述频率特征量按时间顺序排列,并且
通过动态规划选择特征量序列候选以获取所述旋律特征量序列。
6.根据权利要求1所述的音乐信号处理设备,还包括音高走势估计单元,其被配置为对所述部分的基频分量得到强调的频率特征量的自相关函数进行平均,以估计所述部分的音高走势,其中
所述旋律特征量序列获取单元被配置为通过动态规划以及基于所述音高走势来选择所述特征量序列候选,以获取所述旋律特征量序列。
7.一种音乐信号处理方法,包括:
用频谱变换单元将音乐信号变换成频谱,所述音乐信号是包含具有旋律的部分的音乐作品的信号;
用滤波器去除所述频谱的陡峭峰;
用频率特征量生成单元根据从所述滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量;以及
用旋律特征量序列获取单元基于所述频率特征量来获取旋律特征量序列,所述旋律特征量序列指定所述部分在每个时间处的基频。
8.一种程序,其使得计算机用作音乐信号处理设备,所述设备包括:
频谱变换单元,被配置为将音乐信号变换成频谱,所述音乐信号是包含具有旋律的部分的音乐作品的信号;
滤波器,被配置为去除所述频谱的陡峭峰;
频率特征量生成单元,被配置为根据从所述滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量;以及
旋律特征量序列获取单元,被配置为基于所述频率特征量来获取旋律特征量序列,所述旋律特征量序列指定所述部分在每个时间处的基频。
CN201410181454.3A 2013-05-09 2014-04-30 音乐信号处理设备和方法 Active CN104143339B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013099654A JP2014219607A (ja) 2013-05-09 2013-05-09 音楽信号処理装置および方法、並びに、プログラム
JP2013-099654 2013-05-09

Publications (2)

Publication Number Publication Date
CN104143339A true CN104143339A (zh) 2014-11-12
CN104143339B CN104143339B (zh) 2019-10-11

Family

ID=51852497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410181454.3A Active CN104143339B (zh) 2013-05-09 2014-04-30 音乐信号处理设备和方法

Country Status (3)

Country Link
US (1) US9570060B2 (zh)
JP (1) JP2014219607A (zh)
CN (1) CN104143339B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551501B (zh) * 2016-01-22 2019-03-15 大连民族大学 谐波信号基频估计算法及装置
CN108538309B (zh) * 2018-03-01 2021-09-21 杭州小影创新科技股份有限公司 一种歌声侦测的方法
JP7461192B2 (ja) * 2020-03-27 2024-04-03 株式会社トランストロン 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム
CN112086104B (zh) * 2020-08-18 2022-04-29 珠海市杰理科技股份有限公司 音频信号的基频获取方法、装置、电子设备和存储介质
CN113539296B (zh) * 2021-06-30 2023-12-29 深圳万兴软件有限公司 一种基于声音强度的音频高潮检测算法、存储介质及装置
CN115527514B (zh) * 2022-09-30 2023-11-21 恩平市奥科电子科技有限公司 音乐大数据检索的专业声乐旋律特征提取方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076849A (zh) * 2004-10-11 2007-11-21 弗劳恩霍夫应用研究促进协会 对构成音频信号基础的旋律的提取
US20080053295A1 (en) * 2006-09-01 2008-03-06 National Institute Of Advanced Industrial Science And Technology Sound analysis apparatus and program
CN101164104A (zh) * 2005-04-20 2008-04-16 Qnx软件操作系统(威美科)有限公司 用于改善语音质量和可懂度的系统
US20080202321A1 (en) * 2007-02-26 2008-08-28 National Institute Of Advanced Industrial Science And Technology Sound analysis apparatus and program
CN101271457A (zh) * 2007-03-21 2008-09-24 中国科学院自动化研究所 一种基于旋律的音乐检索方法及装置
CN101322183A (zh) * 2006-02-16 2008-12-10 日本电信电话株式会社 信号失真消除装置、方法、程序及记录该程序的记录介质
US20080312913A1 (en) * 2005-04-01 2008-12-18 National Institute of Advanced Industrial Sceince And Technology Pitch-Estimation Method and System, and Pitch-Estimation Program
CN101504834A (zh) * 2009-03-25 2009-08-12 深圳大学 一种基于隐马尔可夫模型的哼唱式旋律识别方法
CN101916250A (zh) * 2010-04-12 2010-12-15 电子科技大学 一种基于哼唱的音乐检索方法
JP4625934B2 (ja) * 2006-09-01 2011-02-02 独立行政法人産業技術総合研究所 音分析装置およびプログラム
CN102053998A (zh) * 2009-11-04 2011-05-11 周明全 一种利用声音方式检索歌曲的方法及系统装置
US20120065978A1 (en) * 2010-09-15 2012-03-15 Yamaha Corporation Voice processing device
US20120103167A1 (en) * 2009-07-02 2012-05-03 Yamaha Corporation Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
CN102521281A (zh) * 2011-11-25 2012-06-27 北京师范大学 一种基于最长匹配子序列算法的哼唱计算机音乐检索方法
CN101916564B (zh) * 2008-12-05 2012-09-05 索尼株式会社 信息处理装置、旋律线提取方法和低音线提取方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076849A (zh) * 2004-10-11 2007-11-21 弗劳恩霍夫应用研究促进协会 对构成音频信号基础的旋律的提取
US20080312913A1 (en) * 2005-04-01 2008-12-18 National Institute of Advanced Industrial Sceince And Technology Pitch-Estimation Method and System, and Pitch-Estimation Program
CN101164104A (zh) * 2005-04-20 2008-04-16 Qnx软件操作系统(威美科)有限公司 用于改善语音质量和可懂度的系统
CN101322183A (zh) * 2006-02-16 2008-12-10 日本电信电话株式会社 信号失真消除装置、方法、程序及记录该程序的记录介质
JP4625934B2 (ja) * 2006-09-01 2011-02-02 独立行政法人産業技術総合研究所 音分析装置およびプログラム
US20080053295A1 (en) * 2006-09-01 2008-03-06 National Institute Of Advanced Industrial Science And Technology Sound analysis apparatus and program
US20080202321A1 (en) * 2007-02-26 2008-08-28 National Institute Of Advanced Industrial Science And Technology Sound analysis apparatus and program
CN101271457A (zh) * 2007-03-21 2008-09-24 中国科学院自动化研究所 一种基于旋律的音乐检索方法及装置
CN101916564B (zh) * 2008-12-05 2012-09-05 索尼株式会社 信息处理装置、旋律线提取方法和低音线提取方法
CN101504834A (zh) * 2009-03-25 2009-08-12 深圳大学 一种基于隐马尔可夫模型的哼唱式旋律识别方法
US20120103167A1 (en) * 2009-07-02 2012-05-03 Yamaha Corporation Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
CN102053998A (zh) * 2009-11-04 2011-05-11 周明全 一种利用声音方式检索歌曲的方法及系统装置
CN101916250A (zh) * 2010-04-12 2010-12-15 电子科技大学 一种基于哼唱的音乐检索方法
US20120065978A1 (en) * 2010-09-15 2012-03-15 Yamaha Corporation Voice processing device
CN102521281A (zh) * 2011-11-25 2012-06-27 北京师范大学 一种基于最长匹配子序列算法的哼唱计算机音乐检索方法

Also Published As

Publication number Publication date
CN104143339B (zh) 2019-10-11
US20140337019A1 (en) 2014-11-13
JP2014219607A (ja) 2014-11-20
US9570060B2 (en) 2017-02-14

Similar Documents

Publication Publication Date Title
CN104143339A (zh) 音乐信号处理设备和方法、以及程序
CN101506874B (zh) 情感检测方法、情感检测装置
CN104464726B (zh) 一种相似音频的确定方法及装置
Chang et al. Music Genre Classification via Compressive Sampling.
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
US20130226957A1 (en) Methods, Systems, and Media for Identifying Similar Songs Using Two-Dimensional Fourier Transform Magnitudes
CN104620313A (zh) 音频信号分析
Dressler Pitch estimation by the pair-wise evaluation of spectral peaks
CN102723079B (zh) 基于稀疏表示的音乐和弦自动识别方法
Sharma et al. Categorization of ICMR Using feature extraction strategy and MIR with ensemble learning
US11328699B2 (en) Musical analysis method, music analysis device, and program
US20110178615A1 (en) Method for calculating measures of similarity between time signals
Hoffmann et al. Bass enhancement settings in portable devices based on music genre recognition
JPWO2016167216A1 (ja) マッチング装置、判定装置、これらの方法、プログラム及び記録媒体
KR102018286B1 (ko) 음원 내 음성 성분 제거방법 및 장치
Pikrakis et al. Tracking melodic patterns in flamenco singing by analyzing polyphonic music recordings
CN104143340A (zh) 一种音频测评方法及装置
Davies et al. Towards a musical beat emphasis function
Das et al. Improved real-time monophonic pitch tracking with the extended complex Kalman filter
Yu et al. Research on piano performance strength evaluation system based on gesture recognition
Kawahara et al. Temporally fine F0 extractor applied for frequency modulation power spectral analysis of singing voices
Loni et al. Singing voice identification using harmonic spectral envelope
Clark Analyzing the Fractal Dimension of Various Musical Pieces
Minor et al. Automatic Music Transcription Using Fourier Transform for Monophonic and Polyphonic Audio File
Li et al. Music Definition Language & Music Manipulation Language: A Coding Scheme for Music Representation and Storage

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant