CN102456342A - 音频处理装置和方法以及程序 - Google Patents
音频处理装置和方法以及程序 Download PDFInfo
- Publication number
- CN102456342A CN102456342A CN2011103177739A CN201110317773A CN102456342A CN 102456342 A CN102456342 A CN 102456342A CN 2011103177739 A CN2011103177739 A CN 2011103177739A CN 201110317773 A CN201110317773 A CN 201110317773A CN 102456342 A CN102456342 A CN 102456342A
- Authority
- CN
- China
- Prior art keywords
- unit
- tail
- change point
- eigenwert
- piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title description 33
- 230000008859 change Effects 0.000 claims abstract description 317
- 230000005236 sound signal Effects 0.000 claims abstract description 146
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims abstract description 43
- 239000000284 extract Substances 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 24
- 238000010606 normalization Methods 0.000 claims description 76
- 230000010354 integration Effects 0.000 claims description 56
- 238000012937 correction Methods 0.000 claims description 23
- 230000033001 locomotion Effects 0.000 claims description 19
- 230000001932 seasonal effect Effects 0.000 claims description 10
- 238000003672 processing method Methods 0.000 claims description 8
- 230000033764 rhythmic process Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 8
- 230000000052 comparative effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000002411 adverse Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011221 initial treatment Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N ferric oxide Chemical compound O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/151—Thumbnail, i.e. retrieving, playing or managing a short and musically relevant song preview from a library, e.g. the chorus
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本公开涉及音频处理装置和方法以及程序。该音频处理装置包括:音频信号获取单元,其获取乐曲的音频信号;特征值提取单元,其以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,其检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,其基于特征值提取单元以边界为变化点检测单元检测到的变化点的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,其输出符尾分析单元分析的符尾地点作为符尾信息。
Description
技术领域
本公开涉及音频处理装置和方法以及程序,更具体地,涉及能够高精度地从由乐曲形成的音频信号提取符尾(hook)的音频处理装置和方法以及程序。
背景技术
近来,如移动电话所代表的,无处不在的联网的时代已经到来,其中可以随时随地接入互联网,个人享受方式和生活方式已多样化。其中,如果将目光转向由乐曲等形成的音乐,直到最近,通常使用将购买的音乐专辑致密盘(CD)导入磁带或者迷你盘(MD)并且在诸如地铁或街道的户外使用音频播放器收听音乐的方式。然而,近来,由于已引入包括诸如闪速存储器的大容量存储介质的音频播放器,因此通常使用导入和观看大容量存储介质中的数千首(或数万首)乐曲的方式。具有网络功能并且包括音频播放器的移动装置即便在户外仍可以接入互联网以便收听或购买音乐。
通过这种方式,可以随意地保持并且在户外随意地传输大量的乐曲。然而,有必要在没有来自难以衡量的大量的乐曲的压力的情况下容易地搜索期望的乐曲。
就是说,当选择乐曲时,用户收听乐曲的开头,并且通过选择歌曲标题或艺术家,确定用户是否将收听该乐曲。然而,由于大部分乐曲的开头是伴奏,因此难于确定其是否是期望的乐曲。如果存在大量的乐曲,则用户可能遇到他们不能辨别的乐曲,并且可能丧失在期望时间收听期望乐曲的机会。
作为用于解决该问题的方法,存在一种通过再现作为乐曲的高潮部分的“符尾”部分来增强可搜索性的方法。由于“符尾”是乐曲的高潮部分,因此符尾给用户强烈的印象。因而,通过当选择乐曲时高精度地检测符尾并且再现符尾,可以增强乐曲的可搜索性。如音乐排行榜电视节目中的那样,依次再现符尾变为一种音乐享受方法。
作为检测符尾的方法,提出了一种通过自相关来计算相似性以提取符尾的方法(参见日本专利第4243682号)。
作为通过将注意力集中在音频信号水平来检测音频变化点并且提取符尾的方法,提出了一种根据包括作为特征值的均方根等的评估函数的最大值检测音频变化点并且提取符尾的方法(参见日本专利第3886372号)。
提出了一种使用音频信号水平作为特征值的方法,即通过区分变化量的阈值或该水平来检测音频变化点,并且从时间分布的相似区间或者音频变化点的间隔的组合提取符尾的方法(参见日本未审专利申请公布第2008-262043号)。
发明内容
然而,日本专利第4243682号的方法基于如下前提:“符尾”具有乐曲中最高的出现频率,并且被重复地再现。该方法基于乐曲的性质而有效,但是,依赖于乐曲,重复最多的部分可能不是“符尾”。就是说,存在如下乐曲,其中重复最多的部分是旋律A。此外,用于提取特征值或者计算相似性的处理负担是大的。
日本专利第3886372号和日本未审专利申请公布第2008-262043号的方法基于乐曲的如下性质:“符尾”的音频信号水平大于“旋律A”或“间奏”的音频信号水平,但是处理结构比日本专利第4243682号的方法简单,由此增加了处理速度。
然而,尽管实际乐曲的时间音频信号水平具有剧烈的起伏,并且曲调或节奏(每分钟的拍数;BPM)取决于乐曲,但是日本专利第3886372号和日本未审专利申请公布第2008-262043号没有应对这些问题。音频变化点被过度地检测,或者错误地检测突然大的音频信号水平而非符尾,使得符尾易于被错误检测。如果特征值计算的粒度被设定为粗略的(如果设定了长的处理时间长度),则减小了时间音频信号水平的起伏,但是时间分辨率劣化。因而,有必要适当地调整处理时间长度。此外,有必要考虑突然大的音频信号的处理。
期望基于音频信号准确地检测音频变化点并且高精度地高速提取符尾地点。
根据本公开的一个实施例,提供了一种音频处理装置,包括:音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于特征值提取单元以边界为变化点检测单元检测到的变化点的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息。
特征值的类型可以包括立体声和信号的均方根、立体声差信号的均方根、立体声和信号的幅度的平方和以及立体声差信号的幅度的平方和中的任何一个或者它们的组合。
变化点检测单元可以包括:平滑单元,被配置为使时间序列的特征值平滑;变化量计算单元,被配置为计算变化量;变化点确定单元,被配置为重新确定变化量是否为变化点;变化点检测控制单元,被配置为控制变化量的计算地点并且如果检测到变化点,则记录变化点的位置;以及变化点统合单元,被配置为统合多个变化点。
变化点检测单元可以进一步包括归一化单元,其被配置为使时间序列的特征值归一化。
变化点检测单元可以包括变化点重新检测单元,该变化点重新检测单元被配置为执行如下两个处理中的任何一个或两者:如果通过比较变化点的数目和预定阈值,变化点的数目大于预定阈值,则改变预定阈值以便减少变化点的数目;以及通过平滑单元使时间序列的特征值重新平滑并且重新确定变化量是否为变化点。
变化点检测单元可以包括变化点重新检测单元,该变化点重新检测单元被配置为:如果存在大于预定时间且没有变化点的时段,则改变预定阈值以便增加变化点的数目并且重新确定变化量是否为变化点。
平滑单元可以通过预定时段中的运动平均使时间序列的特征值平滑。
平滑单元可以通过在基于预先获得的节奏的预定时段中的运动平均来使时间序列的特征值平滑。
变化点检测单元可以包括变化点调整单元,该变化点调整单元被配置为统合变化点中的多个相邻变化点。
变化点检测单元可以包括变化点调整单元,该变化点调整单元被配置为将变化点中的两个相邻变化点统合到中间点。
符尾分析单元可以包括:块分割单元,被配置为在以变化点为边界的块中进行分割;符尾块检测单元,被配置为以块为单位获得特征值的平均值并且将其中特征值的平均值最大的块检测为符尾块;符尾块控制单元,被配置为基于如下约束来控制分析对象的块的位置:块与符尾块检测单元检测到的符尾块接续;符尾块分析单元,被配置为对分析对象的块进行分析;以及符尾块确定单元,被配置为基于符尾块分析单元的分析结果确定分析对象的块是否为符尾块。
如果其中特征值的平均值最大的块小于预定时段,则符尾块检测单元可以将通过使块单位的特征值的平均值的计算范围扩宽到比块长的预定长度而获得的特征值的平均值设定为特征值的平均值。
符尾块分析单元可以对分析对象的块进行分析,并且获得分析对象的块中的特征值的平均值并将其设定为分析结果,并且符尾块确定单元可以基于符尾块检测单元检测到的符尾块中的特征值的平均值和音频信号获取单元获取的乐曲的整个音频信号的特征值的平均值之间的差,计算预定阈值,并且通过将分析对象的块的特征值的平均值和乐曲的整个音频信号的特征值的平均值之间的差与阈值比较来确定分析对象的块是否为符尾块。
符尾块分析单元可以包括符尾块校正单元,该符尾块校正单元被配置为:如果通过符尾块确定单元确定分析对象的块不是符尾块,则将预定阈值校正为是小的,重新对分析对象的块进行分析并且确定分析对象的块是否为符尾块。
符尾块分析单元可以包括符尾块校正单元,该符尾块校正单元被配置为:如果通过符尾块确定单元确定分析对象的块不是符尾块,则将分析对象的块的样本数目校正为是减少的,重新对分析对象的块进行分析并且确定分析对象的块是否为符尾块。
可以进一步包括符尾信息统合单元,其被配置为通过多个预定类型的特征值统合符尾信息。
音频信号获取单元可以输出所获取的乐曲的音频信号的MDCT系数。
根据本公开的另一实施例,提供了一种音频处理装置的音频处理方法,该音频处理装置包括:音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于特征值提取单元将以变化点检测单元检测到的变化点为边界的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息,该音频处理方法包括:在音频信号获取单元中,获取乐曲的音频信号;在特征值提取单元中,从通过以时间序列获取音频信号而获取的音频信号中提取预定类型的特征值;在变化点检测单元中,检测其中通过提取特征值而以时间序列提取的特征值的变化量变为大于预定阈值的变化点;在符尾分析单元中,基于通过将以通过检测变化点而检测到的变化点为边界的块为单位中提取特征值而提取的特征值,分析音频信号的符尾地点;以及在符尾信息输出单元中,输出通过分析符尾地点而分析的符尾地点作为符尾信息。
根据本公开的又一实施例,提供了一种在计算机上执行如下处理的程序,该计算机用于控制音频处理装置的音频处理方法,该音频处理装置包括:音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于特征值提取单元以边界为变化点检测单元检测到的变化点的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息,该处理包括:在音频信号获取单元中,获取乐曲的音频信号;在特征值提取单元中,从通过以时间序列获取音频信号而获取的音频信号中提取预定类型的特征值;在变化点检测单元中,检测其中通过提取特征值而以时间序列提取的特征值的变化量变为大于预定阈值的变化点;在符尾分析单元中,基于通过以边界为通过检测变化点而检测到的变化点的块为单位提取特征值而提取的特征值,分析音频信号的符尾地点;以及在符尾信息输出单元中,输出通过分析符尾地点而分析的符尾地点作为符尾信息。
在本公开的实施例中,获取乐曲的音频信号,以时间序列从获取的音频信号中提取预定类型的特征值,检测其中以时间序列提取的特征值的变化量变为大于预定阈值的变化点,基于以边界为检测到的变化点的块为单位提取的特征值,分析音频信号的符尾地点,并且输出分析的符尾地点作为符尾信息。
本公开的实施例的音频处理装置可以是独立的装置或者执行音频处理的块。
根据本公开的实施例,可以高精度地从包括输入乐曲的音频信号中提取符尾。
附图说明
图1是示出根据本公开的实施例的音乐分析设备的配置示例的框图。
图2是示出图1的变化点检测单元的配置示例的示图。
图3是示出图1的符尾分析单元的配置示例的示图。
图4是图示音乐分析处理的流程图。
图5是图示变化点检测处理的流程图。
图6是图示变化点检测处理的示图。
图7是图示变化点检测处理的示图。
图8是图示变化点的统合的示图。
图9是示出平滑不足的情况下的波形示例的示图。
图10是图示符尾分析处理的流程图。
图11是图示符尾分析处理的示图。
图12是图示符尾分析处理的示图。
图13是图示通用个人计算机的配置示例的示图。
具体实施方式
根据本公开的一个实施例,提供了一种音频处理装置,包括:音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于特征值提取单元在以边界为变化点检测单元检测到的变化点为边界的块为单位中提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息。
根据本公开的另一实施例,提供了一种音频处理装置的音频处理方法,该音频处理装置包括:音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于特征值提取单元将以变化点检测单元检测到的变化点为边界的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息,该音频处理方法包括:在音频信号获取单元中,获取乐曲的音频信号;在特征值提取单元中,从通过以时间序列获取音频信号而获取的音频信号中提取预定类型的特征值;在变化点检测单元中,检测其中通过提取特征值而以时间序列提取的特征值的变化量变为大于预定阈值的变化点;在符尾分析单元中,基于通过将以通过检测变化点而检测到的变化点为边界的块为单位中提取特征值而提取的特征值,分析音频信号的符尾地点;以及在符尾信息输出单元中,输出通过分析符尾地点而分析的符尾地点作为符尾信息。
音乐分析设备的配置示例
图1示出了根据本公开的实施例的音乐分析设备的硬件的配置示例。图1的音乐分析设备11接收和获取包括乐曲的音频信号的输入,提取和分析特征值,从乐曲中提取所谓的符尾,并且输出符尾作为符尾信息。这里,符尾是乐曲的高潮部分或者给收听者强烈印象的部分,并且是如下部分:当收听者听到乐曲的该部分时,收听者极有可能感知该部分属于哪个音乐,尽管收听者不记得歌曲标题、艺术家等。
音乐分析设备11包括获取单元31、特征值提取单元32、变化点检测单元33、变化点统合单元34、符尾分析单元35、符尾统合单元36和符尾信息输出单元37。
获取单元31获取包括输入乐曲(音频内容)的音频信号。获取单元31接收具有脉冲编码调制(PCM)格式的音频信号并且将其提供给特征值提取单元32。由于获取单元具有用于将音频信号转化为PCM格式的功能,因此获取单元31接收具有与PCM格式不同的格式的音频信号并且按照需要将该音频信号转化为PCM格式。音频信号的与PCM格式不同的格式可以是例如,诸如运动图片专家组音频层3(MP3)的压缩格式。在该情况下,获取单元31可以按照需要执行与压缩格式对应的解码处理并且向特征值提取单元32提供作为解码处理中的音频信号的格式的修正离散余弦变换(MDCT)系数等。
由于包括乐曲的音频信号通常具有诸如MP3的压缩格式以便于高效地应对存储器,因此优选的是,处理时间长度(帧长度)因用于存储音频信号的缓冲器的尺寸限制而是固定的。这里,尽管帧长度是固定的(1024个样本/通道),但是帧长度可以自由设定并且不限于此。尽管包括乐曲的音频信号的采样频率或者信道的数目没有限制,但是作为代表性示例,在音频致密盘(CD)中采样频率通常是44100Hz并且通道的数目被设定为2个通道。
特征值提取单元32以时间序列从获取单元31提供的具有PCM格式的音频信号中提取预定类型的特征值并且将时间序列特征值提供给变化点检测单元33作为时间序列特征值。这里描述的特征值包括例如,过零率、频谱质心、频谱变化量、梅尔频率倒谱系数等。过零率指的是音乐分析或语音识别中常用的作为特征值的时间轴信号中的正/负符号变化次数的比率。频谱质心指的是作为特征值的频谱的中心位置。频谱变化量指的是作为特征值的频谱的变化量。梅尔频率倒谱系数指的是通过使用梅尔标度压缩频谱并且相对于作为其对数的梅尔频谱执行傅立叶变换而获得的系数。特征值提取单元32可以以时间序列提取任何一个上述特征值作为预定特征值或者以时间序列提取多个特征值的组合作为预定特征值。在下面的描述中,为了便于描述,特征值提取单元32以时间序列提取音频信号水平作为预定特征值。特征值的类型可以是任意的并且不限于上述特征值。
现在,将描述音频信号水平。通常,符尾具有其音频信号水平大于与符尾不同的被称为旋律A的初始旋律部分、间奏等的音频信号水平的音乐性质。因此,由下式1表述的立体声和信号M(n)被视为用作特征值。符尾是乐曲的高潮部分。此外,在符尾中,由于较之旋律A或间奏,声音的数量(乐器声音、伴唱等)多并且声音在宽的范围中定位,因此由下式2表述的立体声差信号S(n)也被视为用作特征值。
式1
M(n)=(L(n)+R(n))/2
式2
S(n)=(L(n)-R(n))/2
其中L(n)表示左通道的音频信号水平,R(n)表示右通道的音频信号水平,并且n表示样本编号。
作为计算相对于立体声和信号M(n)和立体声差信号S(n)中的每个的音频信号水平的方法,存在幅度的均方根(RMS)或平方和。这里,将描述使用均方根(RMS)作为特征值的示例。均方根RMS(N)由下式3表述。
式3
其中x(n)表示立体声和信号M(n)或立体声差信号S(n)的帧中的时间n处的信号的幅度值,k表示帧的样本数目,并且N表示帧编号。
接下来,将描述其中特征值提取单元32以帧为单位根据包括输入乐曲的PCM格式的音频信号来输出立体声和信号的均方根值(RMSM)和立体声差信号的均方根值(RMSL)作为时间序列特征值的示例。
变化点检测单元33检测其中基于从特征值提取单元32提供的时间序列特征值的预定间隔的连续特征值之间的绝对值的差增加的变化点,并且将关于检测到的变化点的信息提供给变化点统合单元34。如果使用多种类型的特征值,则变化点检测单元33检测每种类型的特征值的变化点并且将关于每种类型的特征值的变化点的信息提供给变化点统合单元34。将参照图2描述变化点检测单元33的详细配置。
变化点统合单元34基于从变化点检测单元33提供的关于所有类型的变化点的信息统合具有接近的时间间隔的变化点,并且将变化点统合信息提供给符尾分析单元35。变化点统合单元34将关于多种类型的特征点的变化点的信息统合到一个变化点统合信息。
符尾分析单元35基于从变化点统合单元34提供的变化点统合信息使关于每种类型的时间序列特征值的信息成块,并且基于其中特征值的每个块的平均水平最大的块来检测符尾。符尾分析单元35通过在相对于变为在每种类型的特征值中检测到的符尾的基准的块的依次地前或后的下一块的水平和整个乐曲的平均水平之间进行比较来获得符尾的起点和终点,并且将符尾的起点和终点提供给符尾统合单元36。下文将参照图3描述符尾分析单元35的详细配置。
符尾统合单元36统合在每种类型的特征值中获得的符尾的起点和终点的位置信息,生成符尾信息,并且将符尾信息提供给符尾信息输出单元37。符尾信息输出单元37输出所提供的符尾信息作为指示包括所获取的乐曲的音频信号的符尾的信息。
变化点检测单元的配置示例
接下来,将参照图2描述变化点检测单元33的详细配置。
变化点检测单元33包括归一化单元51、平滑单元52、变化量计算单元53、变化点确定单元54、变化点检测控制单元55、变化点调整单元56和变化点重新检测确定单元57。
归一化单元51如下式4中所示使用最大值移除每个时间序列特征值并且针对从特征值提取单元32提供的时间序列特征值执行归一化并且将时间序列归一化特征值提供给平滑单元52。
式4
g(N)=f(N)/fmax
其中g(N)表示第N帧的时间序列归一化特征值,f(N)表示第N帧的时间序列特征值,并且fmax表示时间序列特征值的最大值。
平滑单元52通过获得下式5中示出的运动平均来使归一化的时间序列特征值平滑并且将平滑的时间序列特征值提供给变化量计算单元53。
式5
其中MA(N)表示第N帧的时间序列归一化特征值的运动平均值,g(k+N)表示第(k+N)帧的时间序列归一化特征值,L表示变为运动平均的对象的长度(样本数目),并且N表示帧编号。
就是说,如果帧长度变短,则时间序列归一化特征值的时间分辨率增加,但是其波形极端波动。因而,难于将时间序列归一化特征值与阈值比较。因此,通过使用数目L个样本的范围中的运动平均值,使时间序列归一化特征值平滑。样本数目L可以根据配置输入音频信号的乐曲的节奏而改变。
变化量计算单元53如下式6中所示获得平滑的时间序列归一化特征值的变化量D作为邻近帧之间的绝对值的差并且依次将变化量D提供给变化点确定单元54。变化点确定单元54将变化量D与预定阈值比较,当变化量大于阈值时识别变化点,并且将比较结果提供给变化点检测控制单元55。
式6
D=ABS(MA(N+J)-MA(N))
其中D表示变化量,ABS()表示绝对值,MA(N+J)和MA(N)分别表示帧编号(N+J)和N的时间序列归一化特征值的运动平均值,并且J表示帧编号。
变化点确定单元54将从变化量计算单元53提供的变化量与预定阈值比较,并且向变化点检测控制单元55提供比较结果,如果变化量大于预定阈值,则该比较结果被视为变化点,并且如果变化量等于或小于预定阈值,则该比较结果被视为非变化点。
变化点检测控制单元55将从变化点确定单元54提供的指示变化点或非变化点的比较结果提供给变化点调整单元56。如果比较结果是变化点,则变化点检测控制单元55控制变化量计算单元53并且从与作为变化点的帧位置隔开预定距离的帧开始依次计算变化量。就是说,按照帧编号的顺序依次计算变化点。然而,如果检测到变化点,则变化量的计算位置显著改变以便防止该变化点附近的变化点的重复检测,由此抑制变化点的无效检测。
变化点调整单元56基于关于从变化点检测控制单元55提供的作为比较结果的变化点的信息,统合以其中帧之间的距离小于预定距离的间隔获得的变化点,并且调整变化点之间的间隔,并且将经调整的间隔提供给变化点重新检测确定单元57。变化点调整单元56将例如其中帧之间的距离小于预定距离的两个变化点统合到中间位置。统合方法不限于此并且可以使用其他方法。可以根据作为音频信号的乐曲的节奏设定统合期间帧之间的距离。
变化点重新检测确定单元57基于关于经调整的变化点的信息,确定变化点的总数是否大于预定阈值以及没有变化点的帧之间的间隔是否小于预定阈值,并且根据确定结果确定是否重新检测变化点。例如,如果变化点的总数大于预定阈值,则关于变化点的信息量是大的并且波动。因此,变化点重新检测确定单元57控制平滑单元52以便增加运动平均的样本的数目L。由于变化点可能减少,因此重新检测确定单元57可以控制变化量计算单元53以便增加预定阈值,而非控制平滑单元52以便增加运动平均的样本的数目L。例如,如果没有变化点的帧之间的间隔大于预定阈值,则由于没有关于变化点的信息的帧之间的间隔过大,因此变化点重新检测确定单元57控制变化量计算单元53以减小预定阈值,由此容易地控制变化点的检测。如果变化点的总数小于预定阈值或者如果没有变化点的帧之间的间隔小于预定阈值,则变化点重新检测确定单元57基于关于经调整的变化点的信息,输出所提供的关于变化点的信息。
符尾分析单元的配置示例
接下来,将参照图3描述符尾分析单元35的详细配置。
块分割单元71基于关于变化点统合信息的变化点的信息,对于每种类型以变化点的间隔将时间序列归一化特征值分为块单位并且将块提供给符尾块检测单元72。
符尾块检测单元72以从块分割单元71提供的块为单位,对于每种类型获得时间序列归一化特征值的平均值作为块平均值,检测具有最大值的块作为符尾块,并且将该块提供给符尾块控制单元73。
符尾块控制单元73将符尾块的时间方向上的前一块和后一块提供给符尾块分析单元74作为变为符尾块的开始位置和终止位置的候选者的块。
符尾块分析单元74计算变为符尾块的开始位置和终止位置的候选者的块的时间序列归一化特征值的块平均值并且将该块平均值提供给符尾块确定单元75。
符尾块确定单元75将变为符尾块的开始位置和终止位置的候选者的块的时间序列归一化特征值的块平均值和乐曲的整个音频信号中的特征值的平均值之间的差与下式7设定的阈值Vth进行比较。
式7
Vth=(BMAmax-MAav)×α
其中Vth表示阈值,BMAmax表示其中时间序列归一化特征值的平均值变为最大值的块中的时间序列归一化特征值的块平均值,MAav表示时间序列归一化特征值的整个乐曲的平均值,并且α表示调整系数。当计算时间序列归一化特征值的整个乐曲的平均值MAav时,执行与无声地点的比较并且优选地从计算对象排除具有非常低的音频信号水平的点。
如果块平均值和乐曲的整个音频信号的特征值的平均值之间的差大于阈值Vth,则符尾块确定单元75使用候选块作为符尾块更新开始位置和终止位置。符尾块确定单元75控制符尾块控制单元73并且指令针对前一块和后一块重复执行同一处理。该处理重复,并且如果块平均值和乐曲的整个音频信号的特征值的平均值之间的差小于阈值Vth,则将候选块提供给符尾块校正单元76。
符尾块校正单元76针对符尾块的候选块对调整系数α进行调整并且减小阈值Vth。可替选地,通过如下块平均值重新重复同一处理,该块平均值排除了起点和终点的先头块附近和终止块附近的时间序列特征值。通过该处理,符尾块校正单元76重新确定变为符尾块的终点的块是否是开始位置和终止位置的块。如果块平均值和乐曲的整个音频信号的特征值的平均值之间的差大于阈值,则符尾块校正单元76使用候选块作为符尾块更新并且输出开始位置和终止位置。如果块平均值和乐曲的整个音频信号的特征值的平均值之间的差小于阈值,则符尾块校正单元76输出相关技术中的符尾块的开始位置和终止位置。
音乐分析处理
接下来,将参照图4的流程图描述音乐分析处理。
在步骤S1中,获取单元31获取包括输入乐曲的音频信号,按照需要对压缩格式的音频信号解码,将音频信号转化为PCM格式的音频信号,并且将PCM格式的音频信号提供给特征值提取单元32。
在步骤S2中,特征值提取单元32以时间序列从配置乐曲的音频信号中提取预定类型的特征值作为时间序列特征值。这里,尽管描述了其中由特征值提取单元32提取的时间序列特征值的类型是作为上述音频信号水平的立体声和信号和立体声差信号的情况,但是可以使用其他类型的时间序列特征值。
在步骤S3中,变化点检测单元33执行变化点检测处理,检测每种类型的时间序列特征值的变化点,并且将变化点检测结果提供给变化点统合单元34。
变化点检测处理
将参照图5的流程图描述变化点检测处理。
在步骤S31中,归一化单元51通过计算上述式4使用关于每种类型的时间序列特征值的最大值来移除所有时间序列特征值,执行归一化,并且向平滑单元52提供时间序列归一化特征值。
在步骤S32中,平滑单元52通过针对每种类型的所有时间序列特征值以数目L的样本获得并替换移动平均来执行平滑,并且将平滑的时间序列特征值提供给变化量计算单元53。样本数目L变为初始处理中的缺省值,但是到第二次处理或者之后的下述处理时,变为由变化点重新检测确定单元57基于变化点的总数设定的值。
在使每个时间序列特征值平滑时,例如,当从图6的波形A中示出的音频信号提取的时间序列归一化特征值在图6的波形B中示出时,时间序列归一化特征值极端波动并且当检测到诸如旋律A和符尾之间的边界的显著的变化点时出现不利影响。在图6的波形A的下部分的黑色/白色带部分中,黑色部分是符尾并且白色部分是符尾以外的部分。
相反,如图6的波形C至H中所示,当执行平滑时,波形不波动并且旋律A和符尾之间的边界和变化点之间的关系变得清晰。此外,当通过将变为0.5秒、1.0秒、2.0秒、4.0秒、8.0秒和12.0秒中的每个的移动平均对象的长度的时间序列归一化特征值替换为移动平均来进行平滑时,获得了波形C至H。
然而,如图6的波形H中所示,如果运动平均对象的长度显著增加,则时间分辨率劣化。因而,有必要适当地调整运动平均对象的长度。在该情况下,波形E中示出的运动平均对象的长度被设定为与约2秒对应的样本数目L。优选地根据节奏(BPM,每分钟的拍数)设定运动平均对象的长度。例如,基于节奏可以将移动平均对象的长度设定为一个小节的长度。
在步骤S33中,变化点重新检测确定单元57设定变为变化点的变化量的阈值。就是说,变化点重新检测确定单元57变为初始处理中的缺省值,但是由第二次处理或者之后的预定时间内存在的变化点的数目设定。
在步骤S34中,变化量计算单元53设定其中将检测变化点的区域。其中将检测变化点的区域是预定的,但是在初始处理中通常变为包括所获取的乐曲的整个音频信号。
在步骤S35中,变化量计算单元53计算输入时间序列归一化特征值的未经处理的最小帧编号N和通过将预定的数目J个样本添加到帧编号N而获得的帧编号(N+J)的时间序列归一化特征值的值之间的绝对值的差,作为变化量D并且将该绝对值的差提供给变化点确定单元54。
在步骤S36中,变化点确定单元54将所提供的变化量D与阈值比较并且确定变化量是否大于阈值。例如,如果在步骤S36中确定变化量大于阈值并且满足阈值条件,则该处理前往步骤S37。
在步骤S37中,变化点确定单元54向变化点检测控制单元55提供如下信息,该信息指示获得所提供的变化量的帧N的时间序列归一化特征值的定时是变化点位置,以及确定结果。变化点检测控制单元55向变化点调整单元56提供如下信息并将该信息存储在变化点调整单元56中,该信息指示获得所提供的变化量的帧N的时间序列归一化特征值的定时是变化点位置。
在步骤S38中,变化点确定单元54将预定值T添加到当前比较的变化量的帧编号N,完成直到帧编号(N+T)的变化量与阈值的比较,并且控制变化点检测控制单元55以执行后继处理。
就是说,如图7中所示,如果与时间t6对应的变化量大于预定阈值并且满足阈值条件,则帧编号变为与通过将预定值T添加到经处理的帧编号N(t6)而获得的时间t11对应的帧编号N(t11)并且计算直到与该帧编号对应的变化点的变化量。这是因为,当检测到变化点时,变化量的计算位置显著改变以便防止该变化点附近的变化点的重复检测以抑制无效的变化点的检测。与计算变化量的情况相似,新更新的变化量的计算位置与原始计算位置隔开例如约一个小节。在图7中,水平轴是时间并且竖直轴是与每个时间对应的定时处的时间序列归一化特征值的值。时间t1至t7中的每个以及t11和t12之间的时段Tf是与上述数目K个样本对应的帧长度。
在步骤S39中,变化点确定单元54确定是否完成指定区域中的所有帧编号的变化量的计算。就是说,确定与作为接下来计算变化量的帧编号对应的位置是否超过指定区域。如果在步骤S39中确定未完成指定区域中的所有帧编号的变化量的计算,则该处理返回步骤S35。相反,如果在步骤S36中变化量小于阈值并且不满足阈值条件,则跳过步骤S37和S38的处理。就是说,重复步骤S35至S39的处理直至确定获得了所有变化量。
如果在步骤S39中确定在指定区域中获得了所有变化量,则该处理前往步骤S40。
在步骤S40中,变化点调整单元56统合位于检测到的变化点附近的变化点并且向变化点重新检测确定单元57提供关于统合的变化点的信息。
就是说,变化点调整单元56将与如图8的上侧所示的预定统合范围Dt中包括的时间t21和t22对应的定时的变化点统合到时间t31,时间t31是如图8的下侧示出的时间t21和t22之间的中点。在统合中,变化点可以被统合到不是两个定时之间的中点的定时。统合范围Dt可以根据节奏变化。
在步骤S41中,变化点重新检测确定单元57基于关于所提供的变化点的定时的信息,确定是否满足其中检测变化点的整个区域中的变化点的数目小于预定阈值的阈值条件。例如,如果在步骤S41中确定不满足其中检测变化点的整个区域中的变化点的数目小于预定阈值的阈值条件,则该处理前往步骤S43。
就是说,在图9的上侧示出的音频信号的波形的情况下,时间序列归一化特征值变为图9的下侧示出的波形,即使以2.0秒的间隔进行平滑。就是说,较之图6的波形E,图9的下侧的波形极端波动并且不太平滑。因而,检测到的变化点的数目可能变得大于预定阈值。因此,可能过度检测变化点,导致符尾检测性能的劣化。在具有低节奏(BPM)的乐曲的情况下或者在其中乐器的数量小的情况下,诸如在仅具有钢琴伴奏的乐曲的情况下,音频信号水平的波动趋于变得严重。在图9的上侧,包括白色部分和黑色部分的带部分表示符尾,黑色部分表示符尾而白色部分表示非符尾。
在步骤S43中,变化点重新检测确定单元57控制平滑单元52以增加平滑时的运动平均对象的范围并且该处理返回步骤S32。结果,在运动平均对象的范围增加的状态下重新检测变化点。由于乐曲的总时间依乐曲而不同,因此变化点的数目的阈值优选地是每个单位时间的变化点的数目(例如,每分钟的变化点的数目)。由于变化点的数目可以减少,而非增加运动平均对象的范围,因此变化点确定单元54的阈值可以被重置为较大以便变为几乎未检测到变化点的状态并且重新检测变化点。
同时,如果在步骤S41中确定满足其中检测变化点的整个区域中的变化点的数目小于预定阈值的阈值条件,则该处理前往步骤S42。
在步骤S42中,变化点重新检测确定单元57在步骤S42中确定在预定时间内是否存在没有变化点的区域。该预定时间可以根据节奏变化。如果在预定时间内存在没有变化点的区域,则该处理前往步骤S44。
在步骤S44中,变化点重新检测确定单元57控制变化点确定单元54以便通过预定值将阈值设定为较小以便容易地检测变化点并且将变化点检测区域设定为相应的区域,并且该处理返回步骤S33。
就是说,由于有必要针对没有变化点的区域获得变化点,因此变化点确定单元54的阈值被设定为尽可能低以便变为容易获得变化点的状态,并且再次重复该处理。
如果在步骤S42中确定在预定时间内不存在没有变化点的区域,则该处理前往步骤S45。
在步骤S45中,变化点重新检测确定单元57输出关于所获得的变化点的信息。此外,在应对多种类型的时间序列特征值的情况下,生成并且输出关于每种类型的变化点的信息。
通过以上处理,获得时间序列归一化特征值的变化量大于阈值的定时作为变化点并且输出该时间序列信息作为变化点信息。在应对多种类型的时间序列特征值的情况下,生成每种类型的变化点信息并且输出该变化点信息。
这里,描述返回图4的流程图。
当通过执行步骤S3中的变化点检测处理,由变化点检测单元33生成变化点信息并且将其提供给变化点统合单元34时,变化点统合单元34在步骤S4中统合该变化点信息。就是说,提供多种类型中的每种类型的变化点信息,但是最终需要乐曲的变化点。尽管存在多种类型的变化点信息,但是变化点可以展现相似的趋势。因而,依次统合相邻的变化而与类型无关。统合方法等同于参照图8描述的处理并且因而将省略其描述。
在步骤S5中,符尾分析单元35执行符尾分析处理,对于每种类型的时间序列归一化特征值获得符尾块的先头位置和终止位置,并且将该先头位置和终止位置提供给符尾统合单元36。
符尾分析处理
现在,将参照图10的流程图描述符尾分析处理。
在步骤S71中,块分割单元71将时间序列归一化特征值分为边界为变化点的块并且将时间序列归一化特征值分为块单位。
在步骤S72中,符尾块检测单元72以块为单位获得时间序列归一化特征值的平均值并且检测具有最大值的块作为符尾块。就是说,如果音频信号水平是特征值,则由于“符尾”具有其音频信号水平大于“旋律A”或“间奏”的音频信号水平的音乐性质,因此其中时间序列归一化特征值的平均值最大的块被检测为符尾块。
在步骤S73中,符尾块检测单元72确定其中分为块单位的时间序列归一化特征值的平均值最大的块的长度是否比预定长度短,并且将确定结果提供给符尾块控制单元73。
如果在步骤S73中确定其中时间序列归一化特征值的平均值最大的块的长度比预定长度短,就是说,如果认为其中时间序列归一化特征值的平均值最大的块是极短的并且时间序列归一化特征值的平均值是非常大的,则该处理前往步骤S74。
在步骤S74中,符尾块控制单元73将其中时间序列归一化特征值的平均值最大的块的长度增加到预定长度,并且将从增加到预定长度的块的长度获得的时间序列归一化特征值的平均值设定为该块的时间序列归一化特征值的平均值。
就是说,例如图11的时间t75至t76的块的时间序列归一化特征值的平均值变为最大值,但是该块的长度变为小于预定时间。因而,发生非常大的变化。在该情况下,块单位的平均值变得大于其他块的平均值,并且下述阈值条件变得比所需的阈值条件更严格,并且干扰了符尾开始位置的检测。因此,如果块长度小于预定阈值,则特征值平均值的计算对象扩宽到预定范围,由此减少了这种不利影响。特征值平均值的计算对象的范围和阈值可以根据节奏变化。在图11中,位于波形图的下侧的时间t71至t79是作为变化点而获得的定时,每个间隔被分为块,并且时间t75至t76的块被检测为符尾块。
如果在步骤S73中确定其中时间序列归一化特征值的平均值最大的块的长度不比预定长度短,则跳过步骤S74的处理并且在步骤S73的处理之后处理前往步骤S75。
在步骤S75中,符尾块控制单元73基于关于符尾块的信息,基于上述式7中示出的块单位的时间序列特征值的平均值的最大值和乐曲的整个音频信号的特征值的平均值之间的差,计算阈值Vth。
在步骤S76中,符尾块控制单元73基于关于符尾块的信息,更新关于符尾块的开始位置的信息。符尾块控制单元73对于每种类型向块分析单元74提供每个块单位的时间序列归一化特征值的平均值、符尾块、每个块、关于每个时间序列归一化特征值的信息、关于符尾块的开始位置的信息和阈值Vth。
就是说,例如,如果存在图12的上侧示出的时间序列归一化特征值的波形,则在波形下面以时间t101至t107的每个间隔设定块,并且检测到时间t105至t106的块是符尾块,符尾块控制单元73将作为符尾块的时间t105至t106的块的开头位置的时间t105更新为符尾块的开始位置。在图12中,朝右下的斜线是符尾块并且白色块是其他块。
在步骤S77中,符尾块分析单元74将作为符尾块的先头块的候选者的在时间上领先符尾块的开始位置的定时的块设定为分析对象。符尾块分析单元74对于每种类型向符尾块确定单元75提供每个块单位的时间序列归一化特征值的平均值、符尾块、每个块、关于每个时间序列归一化特征值的信息、符尾块的开始位置、关于分析对象的块的信息和阈值Vth。
在步骤S78中,符尾块确定单元75获得作为先头块的候选者的分析对象的块的时间序列归一化特征值的平均值。
在步骤S79中,符尾块确定单元75确定分析对象的块的时间序列归一化特征值的平均值和乐曲的整个音频信号的特征值的平均值之间的差是否大于阈值Vth并且满足阈值条件。
在步骤S79中,例如,如从图12的顶部起第三级中所示,在由朝向右上的斜线表示的时间t104至t105的块是分析对象的块的情况下,当时间序列归一化特征值的平均值和乐曲的整个音频信号的特征值的平均值之间的差大于阈值Vth并且满足阈值条件时,处理返回步骤S76。
就是说,在该情况下,在步骤S76中,符尾块包括如图12的第四级中所示的由朝向右下的斜线表示的时间t104至t106的两个块并且其开始位置被更新到时间t104。此时,在步骤S77中,如图12的第五级中所示,时间t103至t104的块被设定为分析对象。
同时,如果在步骤S79中时间序列归一化特征值的平均值和乐曲的整个音频信号的特征值的平均值之间的差小于阈值Vth并且不满足阈值条件,则该处理前往步骤S80。
在步骤S80中,符尾块确定单元75对于每种类型向符尾块校正单元76提供每个块单位的时间序列归一化特征值的平均值、符尾块、每个块、关于每个时间序列归一化特征值的信息、符尾块的开始位置、关于分析对象的块的信息和阈值Vth。符尾块校正单元76具体地确定分析对象的块是否是符尾块。就是说,当“紧邻符尾之前的块”过渡到“符尾”时,音频信号水平逐渐增加。在该情况下,如果分析对象的块包括过渡地点,则时间序列归一化特征值的平均值可能减小。考虑到这种不利影响,符尾块校正单元76从用于获得平均值的计算对象中排除先头块附近的时间序列归一化特征值,获得分析对象的块的时间序列归一化特征值的校正平均值,并且通过与阈值Vth比较根据是否满足阈值条件来确定其是否为符尾块。
如果在步骤S80中认为分析对象的块的时间序列归一化特征值的校正平均值和乐曲的整个音频信号的特征值的平均值之间的差大于阈值Vth并且满足阈值条件,则该处理前往步骤S81。
在步骤S81中,符尾块校正单元76将分析对象的块更新到符尾块的先头位置并且将其存储。
如果在步骤S80中认为分析对象的块的时间序列归一化特征值的校正平均值和乐曲的整个音频信号的特征值的平均值之间的差小于阈值Vth并且不满足阈值条件,则如图12的第六级中所示,作为候选者的时间t103至t104的块未被视为符尾块。随后,跳过步骤S81的处理。
在步骤S82中,符尾分析单元35执行终止位置设定处理并且通过与上文所述的确定符尾块的开始位置的方法相同的方法设定符尾块的终止位置。对于符尾块的终止位置设定处理,通过与步骤S75至S81的处理相同的方法执行,不同之处在于在时间流动方向上设定分析块,并且将省略其描述。
在步骤S83中,符尾块校正单元76向符尾统合单元36输出关于所获得的符尾块的先头位置和终止位置的信息。
通过以上处理,从其中块单位的平均值变为时间序列归一化特征值中的最大值的块获得关于符尾块的开始位置和终止位置的信息。如果使用多种类型的时间序列归一化特征值,则对于每种类型的时间序列归一化特征值获得关于符尾块的开始位置和终止位置的信息。
这里,描述返回图4的流程图。
在步骤S5中,通过符尾分析处理获得关于每种类型的时间序列归一化特征值的、关于符尾块的开始位置和终止位置的信息,并且将该信息提供给符尾统合单元36。
在步骤S6中,符尾统合单元36获取从符尾分析单元35提供的、关于每种类型的时间序列归一化特征值的、关于符尾块的开始位置和终止位置的信息并且统合多个符尾块。更具体地,由于如果用于确定是否是符尾块的阈值Vth是小的,则检测到的块是符尾的可靠性趋向于降低,因此符尾统合单元36输出使用阈值等作为索引通过具有最高可靠性的特征值获得的符尾块作为统合结果。由于预先已知符尾分析中那种类型的特征值是有效的,因此符尾统合单元36可以预先按照符尾分析中有效的特征值的顺序确定使用的优先级,并且使用阈值等作为索引仅在可靠性低时通过其他特征值输出检测结果。如果时间序列归一化特征值的类型的数目是1,则跳过该处理。
在步骤S7中,符尾统合单元36输出关于统合的符尾块的信息。
如上文所述,对于每个帧设定时间序列归一化特征值,获得每个时间序列归一化特征值的运动平均,获得帧单位的变化量大于预定变化量的位置作为变化点,将变化点之间的区间设定为块,以块为单位获得时间序列归一化特征值的平均值,检测其中平均值变为最大值的块作为符尾块,并且获得检测到的符尾块的开始位置和结束位置,由此检测符尾块的范围。结果,可以基于音频信号水平增加的趋势准确地获得符尾。
尽管将其中时间序列特征值的平均值最大的块检测为符尾块,但是在使用具有小于“旋律A”或“间奏”的性质的“符尾”性质的类型的时间序列特征值的情况下,可以检测其中时间序列特征值的平均值最小的块。在该情况下,通过使时间序列特征值的正/负极性反转,可以执行一般处理。
根据本公开,可以高精度地提取符尾并且增强用户期望的乐曲的搜索性能。此外,可以使用音频信号的变化点作为开始点连续地再现多个乐曲的符尾。
如上文所述,由于可以实现简单的处理结构,因此即使在具有低吞吐率的处理器中仍可以执行高速处理。此外,安装是容易的。此外,由于不考虑乐曲的重复模式,因此用于相似性计算的自相关处理不是必需的,并且通过从分析对象排除后半部分的乐曲,显示了较高的速度。
本公开被用作具有乐曲搜索功能或者用于连续地再现多个乐曲的符尾的功能的应用。
上述系列处理可以由硬件或软件执行。如果该系列处理由软件执行,则配置软件的程序被安装在其中装有专用硬件的计算机中或者例如能够通过从记录介质安装各种类型的程序来执行多种功能的通用个人计算机中。
图13示出了通用个人计算机的配置示例。该个人计算机包括安装在其中的中央处理单元(CPU)1001。输入/输出接口1005经由总线1004连接到CPU 1001。只读存储器(ROM)1002和随机存取存储器(RAM)1003连接到总线1004。
输入单元1006、输出单元1007、存储单元1008和通信单元1009连接到输入/输出接口1005,其中输入单元1006包括用于使用户能够输入操纵命令的输入设备,诸如键盘或鼠标,输出单元1007用于向显示设备输出处理操纵屏幕或者处理结果的图像,存储单元1008用于存储程序和多种数据,诸如硬盘,通信单元1009用于经由以互联网为代表的网络执行通信处理,诸如局域网(LAN)适配器。连接用于从可拆卸介质1011读取数据以及向可拆卸介质1011写入数据的驱动器1010,可拆卸介质1011诸如磁盘(包括软盘)、光盘(致密盘-只读存储器(CD-ROM)、数字多用途光盘(DVD)等)、磁-光盘(包括迷你盘(MD))或者半导体存储器。
CPU 1001根据ROM 1002中存储的程序或者从安装在存储单元1008中的诸如磁盘、光盘、磁-光盘或半导体存储器的可拆卸介质1011读取并且从存储单元1008加载到RAM 1003的程序来执行多种处理。在RAM1003中,适当地存储CPU 1001执行多种处理所需的数据等。
在本说明书中,描述记录在记录介质上的程序的步骤可以包括按其中描述的顺序以时间序列执行的处理或者并行地或单独地执行的处理。
本公开包含与2010年10月18日提交日本专利局的日本在先专利申请JP 2010-233908和2011年2月23日提交日本专利局的日本在先专利申请JP 2011-037393中公开的主题相关的主题,这两个申请的整体内容在此处通过引用合并于此。
本领域的技术人员应当理解,在所附权利要求或其等同物的范围内,可以根据设计需要和其他因素进行各种修改、组合、子组合和变更。
Claims (19)
1.一种音频处理装置,包括:
音频信号获取单元,被配置为获取乐曲的音频信号;
特征值提取单元,被配置为以时间序列从所述音频信号获取单元获取的音频信号中提取预定类型的特征值;
变化点检测单元,被配置为检测其中所述特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;
符尾分析单元,被配置为基于所述特征值提取单元以边界为所述变化点检测单元检测到的变化点的块为单位提取的特征值,分析所述音频信号的符尾地点;以及
符尾信息输出单元,被配置为输出所述符尾分析单元分析的符尾地点作为符尾信息。
2.根据权利要求1所述的音频处理装置,其中所述的特征值的类型包括立体声和信号的均方根、立体声差信号的均方根、立体声和信号的幅度的平方和以及立体声差信号的幅度的平方和中的任何一个或者它们的组合。
3.根据权利要求1所述的音频处理装置,其中所述变化点检测单元包括:
平滑单元,被配置为使所述时间序列的特征值平滑;
变化量计算单元,被配置为计算所述变化量;
变化点确定单元,被配置为确定所述变化量是否为所述变化点;
变化点检测控制单元,被配置为控制所述变化量的计算地点并且如果检测到变化点,则记录所述变化点的位置;以及
变化点统合单元,被配置为统合多个变化点。
4.根据权利要求3所述的音频处理装置,其中所述变化点检测单元进一步包括归一化单元,其被配置为使所述时间序列的特征值归一化。
5.根据权利要求3所述的音频处理装置,其中所述变化点检测单元包括变化点重新检测单元,所述变化点重新检测单元被配置为执行如下两个处理中的任何一个或两者:如果通过比较变化点的数目和所述预定阈值,变化点的数目大于所述预定阈值,则改变所述预定阈值以便减少变化点的数目;以及通过所述平滑单元使所述时间序列的特征值重新平滑并且重新确定所述变化量是否为所述变化点。
6.根据权利要求3所述的音频处理装置,其中所述变化点检测单元包括变化点重新检测单元,所述变化点重新检测单元被配置为:如果存在大于预定时间且没有变化点的时段,则改变所述预定阈值以便增加变化点的数目并且重新确定所述变化量是否为所述变化点。
7.根据权利要求3所述的音频处理装置,其中所述平滑单元通过预定时段中的运动平均使所述时间序列的特征值平滑。
8.根据权利要求7所述的音频处理装置,其中所述平滑单元通过在基于预先获得的节奏的预定时段中的运动平均来使所述时间序列的特征值平滑。
9.根据权利要求3所述的音频处理装置,其中所述变化点检测单元包括变化点调整单元,所述变化点调整单元被配置为统合所述变化点中的多个相邻变化点。
10.根据权利要求9所述的音频处理装置,其中所述变化点检测单元包括变化点调整单元,所述变化点调整单元被配置为将所述变化点中的两个相邻变化点统合到中间点。
11.根据权利要求1所述的音频处理装置,其中所述符尾分析单元包括:
块分割单元,被配置为在以所述变化点为边界的块中进行分割;
符尾块检测单元,被配置为以块为单位获得所述特征值的平均值并且将其中所述特征值的平均值最大的块检测为符尾块;
符尾块控制单元,被配置为基于如下约束来控制分析对象的块的位置:块与所述符尾块检测单元检测到的符尾块接续;
符尾块分析单元,被配置为分析所述分析对象的块;以及
符尾块确定单元,被配置为基于所述符尾块分析单元的分析结果确定所述分析对象的块是否为符尾块。
12.根据权利要求11所述的音频处理装置,其中,如果其中所述特征值的平均值最大的块小于预定时段,则所述符尾块检测单元将通过使所述块单位的特征值的平均值的计算范围扩宽到比所述块长的预定长度而获得的特征值的平均值设定为所述特征值的平均值。
13.根据权利要求11所述的音频处理装置,其中所述符尾块分析单元分析所述分析对象的块,并且获得所述分析对象的块中的特征值的平均值并将其设定为分析结果,以及
其中所述符尾块确定单元基于所述符尾块检测单元检测到的符尾块中的特征值的平均值和所述音频信号获取单元获取的乐曲的整个音频信号的特征值的平均值之间的差,计算预定阈值,并且通过将所述分析对象的块的特征值的平均值和乐曲的整个音频信号的特征值的平均值之间的差与所述阈值比较来确定所述分析对象的块是否为符尾块。
14.根据权利要求13所述的音频处理装置,其中所述符尾块分析单元包括符尾块校正单元,所述符尾块校正单元被配置为:如果通过所述符尾块确定单元确定所述分析对象的块不是符尾块,则将所述预定阈值校正为是小的,重新分析所述分析对象的块并且确定所述分析对象的块是否为符尾块。
15.根据权利要求13所述的音频处理装置,其中所述符尾块分析单元包括符尾块校正单元,所述符尾块校正单元被配置为:如果通过所述符尾块确定单元确定所述分析对象的块不是符尾块,则将所述分析对象的块的样本数目校正为是减少的,重新分析所述分析对象的块并且确定所述分析对象的块是否为符尾块。
16.根据权利要求11所述的音频处理装置,进一步包括符尾信息统合单元,被配置为通过多个预定类型的特征值统合符尾信息。
17.根据权利要求1所述的音频处理装置,其中所述音频信号获取单元输出所获取的乐曲的音频信号的修正离散余弦变换MDCT系数。
18.一种音频处理装置的音频处理方法,所述音频处理装置包括:
音频信号获取单元,被配置为获取乐曲的音频信号;
特征值提取单元,被配置为以时间序列从所述音频信号获取单元获取的音频信号中提取预定类型的特征值;
变化点检测单元,被配置为检测其中所述特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;
符尾分析单元,被配置为基于所述特征值提取单元以边界为所述变化点检测单元检测到的变化点的块为单位提取的特征值,分析所述音频信号的符尾地点;以及
符尾信息输出单元,被配置为输出所述符尾分析单元分析的符尾地点作为符尾信息,所述音频处理方法包括:
在所述音频信号获取单元中,获取乐曲的音频信号;
在所述特征值提取单元中,从通过以时间序列获取所述音频信号而获取的音频信号中提取所述预定类型的特征值;
在所述变化点检测单元中,检测其中通过提取所述特征值而以时间序列提取的特征值的变化量变为大于所述预定阈值的变化点;
在所述符尾分析单元中,基于通过以边界为通过检测变化点而检测到的变化点的块为单位提取特征值而提取的特征值,分析所述音频信号的符尾地点;以及
在所述符尾信息输出单元中,输出通过分析所述符尾地点而分析的符尾地点作为符尾信息。
19.一种在计算机上执行如下处理的程序,所述计算机用于控制音频处理装置的音频处理方法,所述音频处理装置包括:
音频信号获取单元,被配置为获取乐曲的音频信号;
特征值提取单元,被配置为以时间序列从所述音频信号获取单元获取的音频信号中提取预定类型的特征值;
变化点检测单元,被配置为检测其中所述特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;
符尾分析单元,被配置为基于所述特征值提取单元以边界为所述变化点检测单元检测到的变化点的块为单位提取的特征值,分析所述音频信号的符尾地点;以及
符尾信息输出单元,被配置为输出所述符尾分析单元分析的符尾地点作为符尾信息,所述处理包括:
在所述音频信号获取单元中,获取乐曲的音频信号;
在所述特征值提取单元中,从通过以时间序列获取所述音频信号而获取的音频信号中提取所述预定类型的特征值;
在所述变化点检测单元中,检测其中通过提取所述特征值而以时间序列提取的特征值的变化量变为大于所述预定阈值的变化点;
在所述符尾分析单元中,基于通过以边界为通过检测变化点而检测到的变化点的块为单位提取特征值而提取的特征值,分析所述音频信号的符尾地点;以及
在所述符尾信息输出单元中,输出通过分析所述符尾地点而分析的符尾地点作为符尾信息。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010-233908 | 2010-10-18 | ||
JP2010233908 | 2010-10-18 | ||
JP2011037393A JP2012108451A (ja) | 2010-10-18 | 2011-02-23 | 音声処理装置および方法、並びにプログラム |
JP2011-037393 | 2011-02-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102456342A true CN102456342A (zh) | 2012-05-16 |
Family
ID=45934169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103177739A Pending CN102456342A (zh) | 2010-10-18 | 2011-10-11 | 音频处理装置和方法以及程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8885841B2 (zh) |
JP (1) | JP2012108451A (zh) |
CN (1) | CN102456342A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106133828A (zh) * | 2014-03-24 | 2016-11-16 | 索尼公司 | 编码装置和编码方法、解码装置和解码方法及程序 |
CN109416912A (zh) * | 2016-06-30 | 2019-03-01 | 杜塞尔多夫华为技术有限公司 | 一种对多声道音频信号进行编码和解码的装置和方法 |
CN111816162A (zh) * | 2020-07-09 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种语音变化信息检测方法、模型训练方法以及相关装置 |
CN113557565A (zh) * | 2019-03-22 | 2021-10-26 | 雅马哈株式会社 | 乐曲解析方法及乐曲解析装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140102656A (ko) * | 2011-10-24 | 2014-08-22 | 옴니폰 리미티드 | 디지털 미디어 콘텐트를 내비게이트하는 방법, 시스템 및 컴퓨터 프로그램 제품 |
US20130259447A1 (en) * | 2012-03-28 | 2013-10-03 | Nokia Corporation | Method and apparatus for user directed video editing |
KR20170132187A (ko) * | 2015-03-03 | 2017-12-01 | 오픈에이치디 피티와이 엘티디 | 분산된 라이브 퍼포먼스 스케줄 오디오 레코딩, 클라우드 기반 오디오 컨텐츠 편집 및 오디오 트랙 및 관련 메타 데이터의 온라인 컨텐츠 배포를 위한 시스템, 컨텐츠 편집 서버, 오디오 레코딩 슬레이브 장치 및 컨텐츠 편집 인터페이스 |
EP3644306B1 (en) * | 2018-10-26 | 2022-05-04 | Moodagent A/S | Methods for analyzing musical compositions, computer-based system and machine readable storage medium |
CN111784616B (zh) * | 2020-07-29 | 2022-07-08 | 中科汇金数字科技(北京)有限公司 | 一种基于图像处理的老唱片数字化音频处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006163264A (ja) * | 2004-12-10 | 2006-06-22 | Victor Co Of Japan Ltd | 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム |
JP2008065153A (ja) * | 2006-09-08 | 2008-03-21 | Fujifilm Corp | 楽曲構造解析方法、プログラムおよび装置 |
JP2008159252A (ja) * | 2008-01-15 | 2008-07-10 | Sony Corp | 選択用音声データ取得方法、選択用音声データ取得装置 |
JP2008262043A (ja) * | 2007-04-12 | 2008-10-30 | Sanyo Electric Co Ltd | 特定区間抽出装置、音楽記録再生装置、音楽配信システム |
CN101802920A (zh) * | 2007-09-19 | 2010-08-11 | 索尼公司 | 内容再现设备和内容再现方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4589127A (en) * | 1978-06-05 | 1986-05-13 | Hazeltine Corporation | Independent sideband AM multiphonic system |
DE60043585D1 (de) * | 2000-11-08 | 2010-02-04 | Sony Deutschland Gmbh | Störungsreduktion eines Stereoempfängers |
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
US7826911B1 (en) * | 2005-11-30 | 2010-11-02 | Google Inc. | Automatic selection of representative media clips |
JP2009151119A (ja) * | 2007-12-20 | 2009-07-09 | Canon Inc | 画像形成装置 |
JP2010085953A (ja) * | 2008-10-03 | 2010-04-15 | Sony Corp | 盛り上がり判定装置、盛り上がり判定方法、及びプログラム |
-
2011
- 2011-02-23 JP JP2011037393A patent/JP2012108451A/ja active Pending
- 2011-10-11 CN CN2011103177739A patent/CN102456342A/zh active Pending
- 2011-10-11 US US13/270,873 patent/US8885841B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006163264A (ja) * | 2004-12-10 | 2006-06-22 | Victor Co Of Japan Ltd | 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム |
JP2008065153A (ja) * | 2006-09-08 | 2008-03-21 | Fujifilm Corp | 楽曲構造解析方法、プログラムおよび装置 |
JP2008262043A (ja) * | 2007-04-12 | 2008-10-30 | Sanyo Electric Co Ltd | 特定区間抽出装置、音楽記録再生装置、音楽配信システム |
CN101802920A (zh) * | 2007-09-19 | 2010-08-11 | 索尼公司 | 内容再现设备和内容再现方法 |
JP2008159252A (ja) * | 2008-01-15 | 2008-07-10 | Sony Corp | 選択用音声データ取得方法、選択用音声データ取得装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106133828A (zh) * | 2014-03-24 | 2016-11-16 | 索尼公司 | 编码装置和编码方法、解码装置和解码方法及程序 |
CN106133828B (zh) * | 2014-03-24 | 2020-04-10 | 索尼公司 | 编码装置和编码方法、解码装置和解码方法及存储介质 |
CN109416912A (zh) * | 2016-06-30 | 2019-03-01 | 杜塞尔多夫华为技术有限公司 | 一种对多声道音频信号进行编码和解码的装置和方法 |
CN113557565A (zh) * | 2019-03-22 | 2021-10-26 | 雅马哈株式会社 | 乐曲解析方法及乐曲解析装置 |
CN111816162A (zh) * | 2020-07-09 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种语音变化信息检测方法、模型训练方法以及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
US8885841B2 (en) | 2014-11-11 |
JP2012108451A (ja) | 2012-06-07 |
US20120093326A1 (en) | 2012-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102456342A (zh) | 音频处理装置和方法以及程序 | |
US20200401619A1 (en) | Transitions between media content items | |
CN101452696B (zh) | 信号处理装置、信号处理方法和程序 | |
US8378964B2 (en) | System and method for automatically producing haptic events from a digital audio signal | |
US7979146B2 (en) | System and method for automatically producing haptic events from a digital audio signal | |
US8069036B2 (en) | Method and apparatus for processing audio for playback | |
US7737354B2 (en) | Creating music via concatenative synthesis | |
US8761915B2 (en) | System and method for automatically producing haptic events from a digital audio file | |
US9099064B2 (en) | Method for extracting representative segments from music | |
CN104395953A (zh) | 来自音乐音频信号的拍子、和弦和强拍的评估 | |
US20040144238A1 (en) | Music searching apparatus and method | |
CN109410972B (zh) | 生成音效参数的方法、装置及存储介质 | |
US8612031B2 (en) | Audio player and audio fast-forward playback method capable of high-speed fast-forward playback and allowing recognition of music pieces | |
WO2016102738A1 (en) | Similarity determination and selection of music | |
US20180173400A1 (en) | Media Content Selection | |
Foster et al. | Sequential complexity as a descriptor for musical similarity | |
JP2008216486A (ja) | 音楽再生システム | |
CN110147463A (zh) | 一种音乐推送方法、系统、装置和存储介质 | |
CN116631359A (zh) | 乐曲的生成方法、装置、计算机可读介质及电子设备 | |
CN112270929A (zh) | 一种歌曲识别的方法及装置 | |
Dixon | Analysis of musical expression in audio signals | |
CN114078464B (zh) | 音频处理方法、装置及设备 | |
Pei et al. | Instrumentation analysis and identification of polyphonic music using beat-synchronous feature integration and fuzzy clustering | |
CN118824216A (zh) | 旋律识别及其模型训练方法、程序产品、设备及存储介质 | |
CN116189636A (zh) | 基于电子乐器的伴奏生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120516 |