CN101038739B - 用于附加元数据的方法和设备 - Google Patents

用于附加元数据的方法和设备 Download PDF

Info

Publication number
CN101038739B
CN101038739B CN2007100885895A CN200710088589A CN101038739B CN 101038739 B CN101038739 B CN 101038739B CN 2007100885895 A CN2007100885895 A CN 2007100885895A CN 200710088589 A CN200710088589 A CN 200710088589A CN 101038739 B CN101038739 B CN 101038739B
Authority
CN
China
Prior art keywords
beat
trifle
music
duration
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007100885895A
Other languages
English (en)
Other versions
CN101038739A (zh
Inventor
宫岛靖
山下功诚
高井基行
小森显博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101038739A publication Critical patent/CN101038739A/zh
Application granted granted Critical
Publication of CN101038739B publication Critical patent/CN101038739B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/091Info, i.e. juxtaposition of unrelated auxiliary information or commercial messages with or between music files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

一种用于附加元数据的方法,包括在音乐的音乐数据的小节的头部部分中指定至少两个位置,以及将在所述两个指定位置之间延续的时值分段为多个段,并将时间序列元数据附加到所述段中。

Description

用于附加元数据的方法和设备
对相关申请的交叉引用
本发明包含涉及2006年3月16日向日本专利局提出的日本专利申请JP 2006-073185的主题,这里引用了该申请的全部内容作为参考。
技术领域
本发明涉及用于附加时间序列音乐元数据的方法和设备。
背景技术
使用诸如半导体存储器或硬盘之类的大容量存储介质的音频再现设备当前得到了广泛应用。越来越多的用户目前存储和欣赏不仅存储在音频再现设备中,而且还存储在诸如个人计算机或蜂窝电话之类的信息设备中的存储单元中的大量音乐数据。可以在诸如光盘(CD)或磁带之类可移动记录介质上每个介质地管理专辑,同时可以在单一设备上处理数百到数以万计的歌曲的大量音乐数据。
在不替换介质的情况下,可以对大量歌曲进行随机访问,用户可以跨专辑地产生歌曲的播放列表。元数据附加服务系统当前促使人们关注有效地搜索很多歌曲中的一个歌曲并对歌曲进行分组。元数据附加服务系统从数据库中获取音乐元数据,如歌曲标题、艺术家姓名、专辑名称等等,然后将这些音乐元数据附加到音乐数据。元数据附加服务系统不仅获取歌曲标题和艺术家姓名,而且还获取每一个歌曲的风格,并且在某种程度上,还获取速度信息。
主要开发了元数据附加服务系统,以搜索歌曲和对歌曲进行分组,并实际用于搜索和进行分组。欣赏作为搜索的结果再现的歌曲的方式仍是已知的方式,没有变化。
有工具可以供可能谱写和编写歌曲的专业的或半专业的音乐创作者使用。这样的工具在时间轴上管理歌曲的速度和节拍位置,并参考位置对音乐数据进行编辑。类似地,某些可用的盘形导轮软件程序存储节拍的位置信息,以与节拍同步地重叠多个歌曲。
有关这样的节拍的信息基于这样的前提,即速度在一个歌曲的过程保持不变。在市场上销售的记录内容中,节拍通常在每一个歌曲的多个局部部分波动,通常难以跟踪准确的节拍位置。
如果设备自动地从实况音乐波形识别音乐的小节和节拍的时间,则从记录在现有CD上的大量音乐内容获取节拍位置的元数据,并可以进行新的娱乐。
已经有人尝试自动地提取速度或节拍。
例如,公开号为No.2002-116754的未经审查的日本专利申请说明了一种提取方法。根据所说明的方法,计算音乐波形信号的自动相关作为时间序列信号,基于计算出的自动相关对音乐的节拍结构进行分析,然后从所产生的节拍结构提取音乐的速度。
根据日本专利No.3066528,从音乐数据产生多个频带中的每一个频带的声压数据,从多个频带中识别主要提供节奏的频带,然后,从识别的频带的压力数据中的变化周期估计节奏分量。
发明内容
自动地提取节奏、节拍,以及速度的技术分成两种类型。在一种类型中,在时间域内对音乐信号进行分析,如公开号为No.2002-116754的未经审查的日本专利申请所说明的,而在另一种类型中,在频率域内对音乐信号进行分析,如日本专利No.3066528所说明的。
如果在时间域内对音乐信号进行分析,节拍和时间序列波形彼此不准确地匹配,在提取过程中不能取得较高的精确度。如果在频率域内对音乐信号进行分析,相对轻松地改善了提取精确度。但是,由频率分析产生的数据包含特定音符的节拍之外的许多节拍。非常难以从所有节拍中识别每一个音符的节拍。由于音乐速度波动非常大,提取跟踪了音乐速度波动的特定音符的节拍是非常困难的。
如此,希望提供一种元数据附加方法和元数据附加设备,用于轻松而准确地向音乐数据中附加时间序列元数据,如节拍位置和小节。
根据本发明的一个实施例,用于附加元数据的方法包括在音乐的音乐数据的小节的头部部分中指定至少两个位置,以及将在所述两个指定位置之间延续的时值分段为多个段,并将时间序列元数据附加到所述段中。
小节的头部部分中的两个位置中的至少一个可以由听音乐的听者人工地指定。
通过将在所述两个指定的位置之间延续的时值除以小节的长度或小节数量,可以计算出所述时间序列元数据。
根据本发明的实施例,能准确地从音乐数据中提取音乐节奏中的节拍位置或每一个小节的头部位置。
附图说明
图1是用图表显示根据本发明的一个实施例的节拍提取系统的方框图;
图2是瞬时BPM相对于记录的歌曲中的节拍的数量的绘图;
图3显示节拍提取系统中的人工创作过程的图形操作输入屏幕;
图4显示波形显示器上显示的节拍;
图5只显示从节拍提取区域提取并在节拍编辑区域显示的节拍信息;
图6显示指定小节的头部部分的点Z1和Z2;
图7显示如何通过输入指定的点Z1和Z2之间的小节数量来确定每一个小节的长度和节拍间隔;
图8显示振动中指定的点和固定端之间的关系;
图9-1是显示用于在指定的位置Z1和Z2之间附加每一个小节和节拍的位置信息的过程的流程图;
图9-2是图9-1的流程图的继续;
图10显示如何打出指定的点Z1和Z2之间每一个节拍和每一个小节的头部;
图11A和11B是显示单元上显示的节拍的瞬时BPM中的误差、累积误差,以及相位移的绘图;
图12显示其中输入了至少三个指定的点的波形;
图13显示其中输入了歌曲的旋律结构作为时间序列元数据的波形;
图14是显示根据本发明的一个实施例的包括节拍提取器音乐再现设备的方框图;
图15是显示节拍提取器的功能方框图;
图16A显示数字音频信号的时间序列波形,而图16B显示数字音频信号的光谱图;
图17是显示节拍提取处理器的功能方框图;
图18A显示数字音频信号的时间序列波形,图18B显示数字音频信号的频谱图,而图18C显示从数字音频信号中提取的节拍波形;
图19A显示由节拍提取处理器提取的节拍位置信息的节拍间隔,而图19B显示由节拍校准处理器校准的节拍位置信息的节拍间隔;
图20显示用于判断特定节拍是否为in节拍的窗口宽度;
图21显示节拍位置信息的节拍间隔;
图22是用图表显示节拍提取系统中的人工创作部分中的软件模块的功能方框图;
图23A和23B显示元数据正文的结构和列表;以及
图24显示时值管理器根据其管理时值的单元结构。
具体实施方式
根据本发明的实施例,从音频信号(声音信号)中可以轻松而准确地提取节拍位置。至少两个分隔符(小节的头部)被指定到音频信号的音乐数据,通过将两个指定的分隔符之间的时值分段为相等的间隔,提取节拍位置(包括小节的头部位置)。由实际听音乐的听者人工地输入指定的至少一个分隔符。
图1显示根据本发明的一个实施例的系统。如图1所示,音频信号供应商1向节拍提取设备2提供包括音乐数据的音频信号。节拍提取设备2中的自动节拍提取器3提取节拍。由自动节拍提取器3自动提取的节拍被提供到人工创作单元4,在那里,操作员人工地将时间序列元数据5添加到节拍中。人工创作单元4对来自音频信号供应商1的音乐数据可以直接执行节拍提取过程,然后添加时间序列元数据5。准确地从音乐数据中提取节拍位置,以将准确的时间序列元数据5附加到音乐数据中。为此,通过采用已知技术信号处理音乐数据的音频信号,来进行频率分析或声压分析。如果音乐的节拍是清晰的,节拍间隔是恒定的,则在自动提取过程可以提取准确的节拍位置的概率比较高,如此,生成节拍位置的音乐数据。
然而,如果记录了由人播放的歌曲,则歌曲的速度会波动,如图2所示。节拍间隔不是恒定的。图2是实况播放并相对于时间(节拍)记录的歌曲的瞬时每分钟节拍(BPM)的绘图。取决于歌曲,平均BPM在几个小节的范围内逐渐地增大或减少,而不是在局部波动中变化。
在这样的歌曲中,在代表歌曲的速度方面,平均BPM不是那么有意义。即使使用BPM均匀地计算节拍位置,计算出的节拍位置也可以大大地不同于实际节拍位置。
如果信号处理过程准确地提取节拍位置,并在某种程度上克服波动,仍难以准确地提取每一个小节的头部部分以及旋律的类型和起始位置。
人们可以人工地将时间序列元数据准确地附加到音乐数据中。然而,几百到上千个节拍位置需要每个歌曲地附加。如果处理数百或数千首歌曲,这样的人工附加操作的工作量非常大,不切合实际。
根据本发明的一个实施例的系统,利用人工创作单元4,基于通过图1的自动节拍提取器3的信号处理自动提取的节拍,用户人工地附加只有人能可识别的高度抽象化的数据。由自动节拍提取器3执行的自动节拍提取过程从理论上来讲不能实现100%的准确性级别。即使自动节拍提取器3不规律地检测到节拍,人工创作单元4也可以轻松地校正不正确的检测。图1的自动节拍提取器3不是必需的。用户可以使用人工创作单元4对来自音频信号供应商1的音乐数据执行节拍附加过程。
图3显示节拍提取系统中的执行人工创作单元4的过程的图形操作输入屏幕,即,图形用户界面(GUI)。如图3所示,在波形显示部分301显示待处理的音频信号的音乐数据的波形。在波形显示部分301还显示稍后将讨论的节拍信息。图3所显示的两个波形显示部分301分别用于立体声左右声道。还使用了显示部分302,用于显示较宽的范围内的音频信号的音乐数据。显示部分302显示相对于时间轴(节拍)的瞬时BPM。
图4显示波形显示部分301上显示的节拍显示模式。
波形显示部分301显示歌曲的音频波形数据。例如,波形显示部分301在其上半部包括节拍编辑区域304,用于基于预先提取的节拍最终确定或编辑节拍信息。波形显示部分301在其下半部包括节拍提取区域303,其中,指出节拍位置的线(小节线)重叠出现在音频波形上,作为由自动节拍提取器3自动提取的节拍信息。节拍信息的类型对应于自动节拍提取器3的功能。
图5只显示节拍提取区域303和节拍编辑区域304中显示的节拍信息。作为通过信号处理执行的自动节拍提取的结果,图5的节拍提取区域303中显示的节拍信息包括被判断为与每一个原始节拍同步的第一种节拍Ba,不是自动提取而是与原始节拍同步地自动地插入的第二种节拍Bb,以及自动提取的但不是原始节拍的第三种节拍Be(所谓的up节拍)。在随后的讨论中,第一种节拍Ba和第二种节拍Bb被称为in节拍,而第三种节拍Be被称为out节拍。优选情况下,以不同颜色显示这些节拍Ba-Bc,以便于识别。例如,以淡蓝色线条显示第一种颜色的Ba,以粉红色线条显示第二种颜色的Bb,以橙色线条显示第三种颜色的Be。稍后将详细描述自动节拍提取器3。
基于节拍提取区域303上提取和显示的节拍,在节拍编辑区域304上显示比较准确的节拍信息。图5的节拍编辑区域304上显示的节拍信息包括每一个小节的头部部分Bd,和正常节拍Be。要比较准确地确定节拍位置和每一个小节的位置,需要解决下列问题:
(1)自动节拍提取过程的结果并不总是100%准确的;
(2)每一个小节的头部部分和节拍非常难以通过自动节拍提取过程被识别,100%的正确答案不能达到。
(3)设备难以将不正确的提取识别为误差,操作员需要实际监听歌曲以人工地纠正错误。
(4)如果人工地执行所有过程,则几百到数千个节拍需要每个歌曲地人工地附加。这样的操作的工作量很大。
(5)人工地输入的节拍的位置的准确性很可能比通过信号处理提取的位置的准确性稍差。
(6)歌曲本身的节拍和速度可能大大地波动。
鉴于上述问题,提供了本发明的实施例,采用了下列原则:
(a)小节的头部部分的位置可以只由人识别,如此,不进行自动提取(人的音乐感觉能力是极好的)。
(b)如果节拍位置不是不正确的,则使用通过自动节拍提取过程提取的节拍位置。
(c)如果不规律地提取节拍,则不规律地提取的节拍的位置被设置为可轻松地识别。
(d)如果不规律地提取了节拍,则对不正确的的节拍的手动校正被设置为轻松地执行。
下面将专门描述原则(a)-(d)的解决方案。
按如下方式遵循原则(a):小节的头部部分的位置可以只由人识别,因此,不进行自动提取。
每一个歌曲都由小节构成,而每一个小节都由节拍构成。在二拍子中,每一个小节都由两个节拍构成,而在四拍子中,每一个小节都由四个节拍构成。
当实际听音乐数据以确定小节的头部部分时,操作员指定两个点(Z1和Z2),它们明显地被标识为每一个小节的头部部分,如图6所示,并在两个点之间的时值内输入小节的数量n。自动地确定(插入)时值内的节拍和小节。通过听再现的音乐数据,当操作员识别每一个小节的头部部分时,操作员轻敲图3的GUI屏幕上的轻敲按钮311(或单击鼠标)。如此指定了小节的头部部分。至少需要指定两个点。由于歌曲的起始位置通常是小节的头部部分,因此,歌曲的起始位置被代替为两个点中的一个。在这样的情况下,在听歌曲时只需要人工地指定一个点。
当指定了两个点(Z1和Z2)作为小节的头部部分时,输入小节数量n,小节的长度LBar可以表示为LBar=(Z2-Z1)/n,每一个节拍的长度(节拍间隔或节拍时值)LB可以表示为Lb=(LBar/节拍数量)。如图7所示,通过输入两个指定的点Z1和Z2之间的小节数量n,n=142,确定了小节长度LBar和节拍间隔Lb。
在小节数量已知的情况,根据两个指定的点Z1和Z2确定小节长度。然而,统计小节数量是麻烦的。相反,如果小节长度LBar已知,则可以确定小节数量。下面将描述根据小节长度LBar和指定的点Z1和Z2确定每一个小节和每一个节拍位置的方法。应该注意,指定的点Z1和Z2代表小节的头部部分,指定的点Z1和Z2之间的时值内的小节数量是整数值。当根据小节长度确定小节数量时,指定一个小节的近似长度,如此确定了与小节数量n(整数)最接近的正确的小节长度。如图8所示,指定的点Z1和Z2被视为振动的固定端。
点Z1和Z2被指定为小节的头部部分,两个点Z1和Z2之间的小节数量n是整数。指定近似小节长度,使得小节数量自动地变成整数。假设La代表近似小节长度,LBar代表可使n小节刚好在两个点Z1和Z2之间的小节长度。根据下列公式确定小节长度LBar:
nf=((Z2-Z1)/La)+0.5
n=INT(nf)
LBar=(Z2-Z1)/n
其中,在确定nf的公式的左边加了0.5,以对确定n的公式四舍五入。确定n的公式中的INT(x)是将x的小数部分四舍五入的函数(以确定整数)。
如果小节数量或小节的近似长度已知,则在指定的点Z1和Z2之间打出小节和节拍。在小节数量或近似小节长度都未知的情况下,下面讨论的方法是有效的。
在前面的方法中,自动提取的节拍包括了in节拍和out节拍。in节拍是根据自动提取算法提取的歌曲的原始节拍。in节拍是否为小节的头部分是未知的,节拍数量也是未知的,但是,in节拍的数量是节拍的实际数量的一半或两倍。利用此功能,基于in节拍设置小节的头部部分,对由用户指定的每个拍子(如四四拍、四三拍等等),定期设置每一个暂定小节的头部部分。如此,在时值内安排了暂定小节的头部部分。通过将指定的点Z1和Z2之间的暂定小节数量设置为n或通过计算小节的头部部分之间的差,轻松地确定小节长度LBar。
自动提取的节拍可能是原始拍子的一半或两倍。在该情况下,可以将自动提取的节拍翻倍或减半。通过听再现的音乐数据,操作员可以立即识别提取的节拍是原始拍子的一半还是两倍。根据本发明的实施例,提供了一个界面,以通过将指定的点Z1和Z2之间的小节数量n减半或翻倍立即执行重新计算。使用图3的按钮312和313分别使小节数量n翻倍和减半。当确定小节数量n时,轻松地执行节拍位置的重新计算。如此,利用几个操作步骤,轻松地确定准确的小节数量和准确的小节长度。
根据本发明的一个实施例,分别提供了允许用户人工地将小节数量n增大+1或减少-1(利用如图3所示的按钮314和315)的界面。如果指定的点Z1和Z2之间的时间长度比较长,则涉及的误差就会增大。根据长度La确定的小节数量n可以比实际数量大约大1或大约小1。如果用户监听再现的音乐数据时节拍上升,则小节数量n可以增大1或减少1,将自动重新计算小节长度LBar,以重新定位节拍。此操作是基于指定的点Z1和Z2之间的小节数量n是整数值的前提执行的。
原则(b):如果节拍位置不是不正确的,则使用通过自动节拍提取过程提取的节拍位置。按如下方式遵循此原则。
确定头部位置、小节的数量,以及长度,以便在指定的点Z1和Z2之间插入小节和节拍。如果均匀地插入小节和节拍,则实际节拍位置和计算出的节拍位置相对于可能遭受如图2所示的节拍间隔波动的歌曲,彼此之间产生偏移。
根据本发明的一个实施例,通过考虑通过信号处理自动提取的节拍信息,克服该不方便。具体来说,通过图1的自动节拍提取器3的自动节拍提取过程获取的节拍位置信息说明了节拍波动,如此,尽可能地原封不动地使用。如果自动提取的节拍有可能有差错,不使用该位置的节拍位置信息,而是使用计算出的位置信息。下面将参考图9-1和9-2,描述该过程。
图9-1和9-2是显示由操作员对于指定的点Z2,从在小节的头部部分指定的点Z1,连续地附加小节和节拍的位置信息的过程的流程图。
在图9-1步骤S401中,确定小节长度LBar。如前所述,使用指定的点Z1和Z2的位置和小节数量n,根据下列公式确定小节长度LBar:
LBar=(Z2-Z1)/n
其中,根据上文所描述的近似长度La确定小节数量n。
在步骤S402中,根据下列公式确定暂定节拍长度Lb,即,通过将在步骤S401中确定的小节长度LBar除以节拍:
Lb=LBar/time
在步骤S403中,通过用作为初始值的指定的点Z1替代变量Pa(Pa=Z1),初始化表示在此过程中最后打出的拍子的位置的变量Pa(最近附加的节拍的位置)。在步骤S404中,通过用指定的点Z1的位置替代变量PBar(PBar=Z1),初始化表示最后打出的小节的头部部分的位置的变量PBar。
在步骤S405中,用Pa+Lb的值代替表示下一候选节拍的位置的变量Pc(Pc=Pa+Pa)。从最后的(最近的)节拍位置Pa前进暂定节拍长度Lb的位置被设置为位置Pc作为下一候选节拍。判断在候选位置Pc中心处的阈值Ti(在窗口宽度内)的范围内是否存在自动提取的节拍。然后,在步骤S406中,判断候选位置Pc是否小于指定的点Z2(Pc<Z2)。如果步骤S406中的判断是“是”,换句话说,如果候选位置Pc在时间上早于指定的点Z2,则进入步骤S407。如果步骤S406中的判断是“否”,则过程结束。
在步骤S407中,判断在候选位置Pc中心处的阈值Ti的范围内是否存在自动提取的in节拍。如果步骤S407中的判断是“是”,则进入步骤S408。在步骤S408中,节拍信息被附加到in节拍的位置Pi处。在步骤S409中,通过用Pi替代变量Pa,更新表示已经打出拍子的最新的位置的Pa,供以后的过程使用。进入步骤S415。
如果在步骤S407中判断没有发现自动提取的in节拍,则进入步骤S410。如果在步骤S410中判断在候选位置Pc中心处的阈值To范围内是否存在自动提取的out节拍(即,在窗口宽度内,在此实施例中,Ti>To)。如果步骤S410中的判断是“是”(存在out节拍),则在步骤S411中将节拍信息附加到输出节拍的位置Po处。在步骤S412中,通过用Po替代Pa(Pa=Po),更新表示已经打出拍子的最新的位置的变量Pa。进入步骤S415。
如果步骤S410中的判断是“否”(没有自动提取的out节拍),则进入步骤S413。节拍信息被附加于位置候选Pc的位置。在步骤S414中,通过用Pc替代Pa(Pa=Pc),更新表示已经打出拍子的最新的位置的变量Pa。进入步骤S415。
在步骤S415中判断最后打出的拍子(表示最新的位置的变量Pa的位置处的节拍)是否为小节的头部部分。如果步骤S415中的判断是“是”,则进入步骤S416。如果步骤S415中的判断否“否”,则返回到步骤S405。
在步骤S416中,通过基于最后打出拍子的拍子位置Pa和最后打出拍子的小节的头部部分的位置PBar,计算出Pa-PBar来判断最近的小节的长度。然后,根据确定的小节长度和时间确定节拍长度候选Lb。具体来说,
Lb=(Pa-PBar)/time
在步骤S417中,表示小节的头部部分的最新的位置的变量PBar通过将用Pa替代PBar来更新(PBar=Pa)。返回到步骤S405。
重复步骤S405到S417,直到在步骤S406中判断变成“否”,即,直到候选位置Pc到达指定的点Z2。
图10显示每一个节拍和每一个小节的头部部分如何打出,从而表明其中显示自动提取的节拍的节拍提取区域303,以及响应提取的节拍打出节拍和小节的头部部分的节拍编辑区域304。在图5和图10中没有显示音乐数据的波形。参考图5讨论的第一种颜色Ba对应于图10的位置Pi处的节拍作为自动提取的in节拍。第二种颜色Bb对应于图10的位置Po处的节拍作为自动提取的out节拍。
参考图10,指定的点Z1是图9-1的步骤S403和S404所描述的最后的(最近的)节拍位置Pa和小节头部部分位置PBar的初始值。最后的(最近的)节拍位置Pa(=Z1)和暂定节拍长度Lb的总和被确定为下一候选节拍341的位置Pc。然后,判断在候选位置Pc中心处的阈值Ti(在窗口宽度内)的范围内是否存在自动提取的节拍。
参考图10,从位于候选节拍341的位置Pc中心的阈值范围Ti的范围内自动提取的in节拍342存在于节拍提取区域303。图9-2的步骤S407中的判断是“是”,进入步骤S408。如此,在提取的节拍342的位置Pi处的节拍编辑区域304打出了节拍343。在步骤S409中,表示最后的(最近的)节拍位置的变量Pa通过用节拍343的位置Pi替代变量Pa(Pa=Pi)来更新。
从更新的Pa前进暂定节拍长度Lb的位置被设置为下一候选节拍344的位置Pc。当从位于位置Pc的中心处的阈值Ti的速率内检查自动提取的节拍时,输出节拍345和in节拍346存在于图10的节拍提取区域303。从图9-1的流程图可以理解,如果在步骤S407中就是否存在in节拍的判断是“是”,则过程进入步骤S408。在阈值Ti的范围内的in节拍346的位置Pi处的节拍编辑区域304中打出节拍347。利用位置Pi更新变量Pa(Pa=Pi)。
在从最后(最近的)打出的节拍347的位置Pa前进暂定节拍长度Lb的位置,从位于候选节拍348的中心处的阈值Ti的范围内,检查自动提取的节拍。在图10的节拍提取区域303存在out节拍349,但不存在于in节拍。例如,下一个in节拍250超出了阈值Ti的范围之外。图9-2的步骤S407中的判断是“否”,过程进入步骤S410。在步骤S410中,判断在候选节拍348的位置Pc中心处的阈值To的范围内是否存在自动提取的输出节拍(在此实施例中,Ti>To)。由于图10的节拍提取区域303中的输出节拍349在阈值To的范围内,因此,步骤S410中的判断是“是”。进入步骤S411。在输出节拍349的位置Po处在节拍编辑区域304中打出节拍351。在步骤S412中,通过用位置Po替代变量Pa(Pa=Po),更新变量PI。
在从节拍351的位置Pa前进暂定节拍长度Lb的位置,在候选节拍352的位置Pc的中心处的阈值Ti的范围内,不存在in节拍。在位置Pc的中心的阈值To的范围内不存在out节拍。图9-2的步骤S407中的判断是“否”,步骤S410中的判断是“否”,进入步骤S413。在候选节拍352的位置Pc处,打出了用于插入的节拍353。
在相对于下一节拍的候选位置Pc的预先确定的阈值范围内存在的自动提取的节拍被按照原样使用(接近自动提取的节拍的位置)。如果在预先确定的阈值范围内没有自动提取的节拍,在下一节拍的候选位置Pc打出插入的节拍。
按如下方式遵循原则(c):如果不规律地提取了节拍,则不规律地提取的节拍的位置被设置为轻松地可识别。
在图10的节拍编辑区域304中,节拍可以在指定的点Z1和Z2之间打出。节拍343、347、351、353等等可以在节拍编辑区域304以不同颜色显示,取决于是否在窗口宽度内,即,在位于候选节拍位置Pc的中心处的阈值Ti或To的范围内,发现了在节拍提取区域303中显示的自动提取的节拍。
根据本发明的一个实施例,接近自动提取的节拍的in节拍位置Pi的节拍343、347等等以淡蓝色(或蓝色)显示,接近自动提取的节拍的输出节拍位置的节拍351等等以黄色(或橙色)显示,因为在预先确定的阈值范围内没有发现自动提取的节拍而通过计算插入的节拍353等等以红色(或粉红色)显示。通过与红绿灯类比,节拍按照可靠性从高到低的顺序以淡蓝色(蓝色)、橙色,以及红色显示。
如此,如果指定的点Z1和Z2之间的时值内的自动提取的节拍位置和小节位置和节拍附加位置位于候选位置附近的阈值Ti的范围内,则节拍以淡蓝色(蓝色)显示。
如果在自动提取过程中发生了不正确的提取,则在指定的点Z1和Z2之间的时值内提取的节拍位置和节拍附加位置彼此偏离。在不正确地提取节拍的大多数情况下,在一个歌曲中的几个到数十个小节之间,速度可能变化非常大,在节拍不明显的歌曲中不能拾取准确的in节拍。在这样的情况下,指定的点Z1和Z2之间的时值内的节拍数量不能被小节数量整除。由于指定的点Z1和Z2是小节的头部部分,则落在时值内的节拍数量必须是小节数量的整数倍。然而,如果发生了不正确的提取,则落在时值内的节拍数量不能匹配节拍的实际数量。任何节拍都不能在图10的阈值Ti或To的范围内。此状态连续到转移一个节拍的节拍在阈值内。结果,在节拍编辑区域304连续地显示红色节拍。如此,可以轻松地发现节拍偏移。
在图中直观地显示瞬时BPM中的每一个节拍的误差、累积误差和相位移。如此,预测了通过信号处理自动提取的每一个节拍的可靠性。图11A表明显示部分302的其中节拍波动非常大的实时或记录的声音。图11b表明显示部分302的在计算机上再现的声音。如图11A和11b所示,曲线Qa代表节拍的瞬时BPM中的误差,曲线Qb代表节拍的瞬时BPM中的累积误差,而曲线Qc代表相位移。
如果自动提取处理如图11B所示的稳定的歌曲的BPM,则三个曲线Qa、Qb以及Qc一般重叠在一起。如果节拍波动非常大,如图11A所示,曲线Qa、Qb以及Qc彼此偏移。如此,看一眼便能识别自动提取的节拍的可靠性。
按如下方式遵循原则(d):如果不规律地提取了节拍,则对不正确的节拍的手动校正被设置为轻松地执行。
如前所述,不正确的提取的原因是,在一个歌曲中的几个到数十个小节之间,速度可能变化非常大,在节拍不明显的歌曲中不能拾取准确的in节拍。此外,作曲家或演奏者可能会有意部分地改变节拍。
如果不能从歌曲中提取节拍,则在参考图10和11A和11B讨论的方法中轻松地检测不正确的提取。优选情况下,在这样的歌曲中设置至少两个时值,确定准确的节拍位置和小节的准确的头部部分位置。参考图12,指定了至少三个点Z1、Z2和Z3,对于在指定的点Z1、Z2和Z3之间的每一个时值执行参考图9-1、9-2和10讨论的进程。
指定的点Z1、Z2,...位于小节的头部部分,分别地管理小节的长度、小节数量,以及从每一个指定的点Z1,Z2...到下一个指定的点的节拍。  时值分成自动提取已经成功的情况和自动提取不成功的情况,对于每一个时值,执行上文所描述的计算,小节长度在时值之间是不同的。
与时值设置分开,图1的人工创作单元4,可以作为时间序列音乐数据,输入有关歌曲的旋律结构的音乐结构信息,包括序曲、旋律A、旋律B、高潮,以及歌曲的结尾。具体来说,如图13所示,附加了标记451,指出用于识别旋律结构的每一部分的改变的位置信息,并响应用户操作输入,与节拍位置、音乐数据的小节头部部分位置一起,在波形显示部分301显示出来。响应旋律结构的变化位置不同于指定的点Z1、Z2,...,而是在很多情况下位于小节的头部部分位置。速度和节拍可以在旋律结构方面在时值与时值之间有所不同。例如,序曲可以以比其他部分的速度较慢的速度播放。
根据本发明的实施例,可以轻松而准确地附加要求歌曲的准确的节拍位置的应用程序的时间序列元数据。根据节拍位置,可以附加诸如准确的旋律、准确的代码进展、歌词等等信息。
可以编制要求准确的元数据的音乐再混合应用程序,以及要求与节拍同步地准确的时间控制的设备和软件程序。
下面将描述音乐元数据提取系统。音乐元数据提取系统包括具有图1的人工创作单元4的节拍提取设备2。人工创作单元4人工地附加节拍位置和小节头部部分位置。音乐元数据提取系统还包括自动节拍提取器3。
图14是显示根据本发明的一个实施例的图1的包括节拍提取设备2的硬件结构的方框图。包括个人计算机的图14的设备10不仅执行图1的自动节拍提取器3和人工创作单元4的功能,而且还执行音乐内容投递功能和音乐再现功能。
自动节拍提取器3获取充当到图1的人工创作单元4的原始数据(输入数据)的自动提取的节拍。自动节拍提取器3不是本发明中的必需的元件。自动节拍提取器3中的节拍提取精确度越高,节省人工创作的时间越多。以较高的质量级别执行节拍提取和小节头部部分提取。使用高质量自动节拍提取器3仍是有用的。从此观点,详细描述了图1的自动节拍提取器3的优选的示例。
在图14的设备10中,中央处理单元(CPU)101、只读存储器(ROM)102和随机存取存储器(RAM)103连接到系统总线100。ROM 102存储了各种程序,CPU 101根据程序执行作为工作区的RAM 103上的进程。
与系统总线100相连接的还有音频数据解码器104、介质驱动器105、通信网络接口(I/F)107、操作输入接口109、显示接口111、输入/输出(I/O)端口113、输入/输出(I/O)端口114、输入接口115,以及硬盘驱动器(HDD)121。一系列由元件处理的数据单位被通过系统总线100提供到相应的元件。
介质驱动器105将记录在盘106,如光盘(CD)或数字通用光盘(DVD)上的音乐内容的音乐数据读取到系统总线100。
诸如键盘和鼠标之类的操作输入单元110连接到操作输入接口109。
如前面参考图3所讨论的,显示器112在人工创作操作过程中显示GUI屏幕。在自动节拍提取过程中,显示器112可以与提取的节拍、或随着提取的节拍起舞的洋娃娃或机器人同步地显示数据。
I/O端口113连接到音频再现部分117和节拍提取器11。I/O端口114连接到节拍提取器11。节拍提取器11对应于图1的自动节拍提取器3。
输入接口115连接到输入单元116,其中包括模拟-数字(A/D)转换器116A、麦克风终端116B,以及麦克风116C。由麦克风116C拾取的音频信号和音乐信号被A/D转换器116A转换为数字音频信号。然后,将数字音频信号提供到输入接口115。输入接口115将数字音频信号获取到系统总线100中。由系统总线100捕获的数字音频信号(时间-序列波形信号)以.wav格式记录在HDD 121中。通过输入接口115捕获的数字音频信号不直接提供到音频再现部分117。
在通过系统总线100从HDD 121和介质驱动器105中的一个接收音乐数据时,音频数据解码器104对音乐数据进行解码,以恢复数字音频信号。然后,音频数据解码器104通过系统总线100将恢复的数字音频信号提供到I/O端口113。I/O端口113将通过系统总线100传输的音频信号提供到节拍提取器11和音频再现部分117中的每一个。
系统总线100通过介质驱动器105从诸如已知CD之类的介质106获取数据。由系统总线100直接捕获由听者下载的并存储在HDD 121上的未压缩的音频内容。另一方面,压缩的音频内容通过音频数据解码器104返回到系统总线100。由系统总线100通过输入单元116和输入接口115捕获数字音频数据(数字音频信号不仅限于音乐信号,并可以包括语音信号,及其他音频波段信号),然后存储在HDD 121上。然后,将数字音频数据返回到系统总线100。
在根据本发明的一个实施例的设备10中,由系统总线100捕获的数字音频信号(对应于时间序列波形信号),被传输到I/O端口113,然后传输到节拍提取器11。
根据本发明的一个实施例的节拍提取器11包括节拍提取处理器12和节拍校准处理器13。节拍提取处理器12提取歌曲的节奏的节拍位置信息。节拍校准处理器13使用由节拍提取处理器12提取的节拍位置信息生成节拍周期信息,并根据节拍周期信息校准由节拍提取处理器12提取的节拍位置信息的节拍。
在接收如图15所示的以.wav文件记录的数字音频信号时,节拍提取处理器12从数字音频信号提取粗糙的节拍信息,并作为以.mty文件记录的音乐数据,输出所产生的粗糙的节拍信息。基于以.mty文件记录的所有音乐数据和对应于假设具有相同速度的音乐部分的音乐数据,节拍校准处理器13校准由节拍提取处理器12提取的节拍位置信息,并作为以.may文件记录的音乐数据,输出所产生的节拍位置信息。如此提供了具有逐渐增大的高精确度的提取的节拍位置信息。稍后将详细描述节拍提取器11。
音频再现部分117包括数字-模拟(D/A)转换器117A、输出放大器117B,以及扬声器117C。I/O端口113将通过系统总线100传输的数字音频信号提供到音频再现部分117中的D/A转换器117A。D/A转换器117A将通过I/O端口113提供的数字音频信号转换为模拟音频信号,并通过输出放大器117B将模拟音频信号提供到扬声器117C。扬声器117C将通过输出放大器117B从D/A转换器117A提供的模拟音频信号转换成声音。
显示器接口111连接到诸如液晶显示器(LCD)之类的显示器112。显示器112显示从音乐内容的音乐数据提取的节拍分量和速度值。显示器112显示音乐的动画屏幕或歌词。
通信网络接口107连接到因特网108。音乐再现设备10通过因特网108访问存储了音乐内容的属性信息的服务器,从而利用对作为关键字的属性信息的获取请求,传输音乐内容的标识信息。音乐再现设备10响应获取请求,使HDD 121上的硬盘存储从服务器传输的属性信息。
根据本发明的一个实施例的音乐再现设备10中的节拍提取器11基于下面讨论的数字音频信号的特征,提取歌曲的节奏的节拍位置信息。
图16A显示数字音频信号的时间序列波形。图16A的时间序列波形包括指出了瞬时大峰值的部分。指出了大峰值的部分可以对应于鼓点。
实际听具有如图16A所示的数字音频信号的时间序列波形的歌曲表明,更多节拍以一般规律的间隔打出,虽然这样的节拍在数字音频数据的时间序列波形中隐藏而看不见。歌曲的节奏的实际节拍分量不能只从如图16A所示的时间序列波形的大峰值提取。
图16B显示具有图16A的时间序列波形的数字音频信号的光谱图。在图16B的数字音频信号的光谱图中,隐藏在图16A的时间序列波形中的节拍分量作为功率谱中瞬时变化显著的部分而出现。实际欣赏歌曲表明,功率谱中瞬时变化显著的部分对应于节拍分量。节拍提取器11将功率谱中瞬时变化显著的部分视为节奏的节拍分量。
通过提取节拍分量和测量节拍乐段,可以知道歌曲的节奏乐段和每分钟节拍(BPM)。
如图17所示,节拍提取处理器12包括功率谱计算器12A、变化率计算器12B、包络跟随器12C、比较器12D,以及二进制化器12E。
功率谱计算器12A接收由如图18A所示的歌曲的时间序列波形构成的数字音频信号。
从音频数据解码器104提供的数字音频信号被提供到节拍提取处理器12中的功率谱计算器12A。
功率谱计算器12A不能以较高的精确度从时间序列波形中提取节拍分量。功率谱计算器12A对时间序列波形执行快速傅里叶变换(FFT)过程,从而计算图18B的光谱图。
如果输入到节拍提取处理器12的数字音频信号的采样频率是48kHz,则优选情况下FFT过程中的定义实时设置为5毫秒到30毫秒,样本计数为512或1024。FFT过程中设置的参数值不仅限于这里所说明的这些。优选情况下,在应用了诸如汉宁窗或汉明窗之类的窗口函数(窗口重叠)的情况下,执行FFT过程。
功率谱计算器12A向变化率计算器12B提供计算出的频谱。
变化率计算器12B计算从功率谱计算器12A提供的功率谱的变化率。具体来说,变化率计算器12B对从功率谱计算器12A提供的功率谱进行微分计算,从而计算出变化率。通过反复地对稳定变化的功率谱进行微分计算,变化率计算器12B输出具有图18C的提取的节拍波形的检测信号。图18C的提取的节拍波形的正过渡峰值被视为节拍分量。
在从变化率计算器12B接收到检测信号时,包络跟随器12C向检测信号提供具有适当的时间常数的磁滞特性。如此,包络跟随器12C从检测信号中消除了震颤,然后,将无震颤的检测信号提供到比较器12D。
比较器12D设置适当的阈值级别,并消除了从包络跟随器12C提供的检测信号中的低电平的噪声分量,然后,将无低级别的噪声的检测信号提供到二进制化器12E。
二进制化器12E二进制化从比较器12D提供的检测信号,以丢弃其级别等于或高于阈值级别的检测信号。二进制化器12E输出节拍位置信息,指出了以.mty文件作为音乐数据记录的时间P1、P2,以及P3的节拍分量的位置。
节拍提取处理器12从数字音频信号的时间序列波形中提取节拍位置信息,然后以.mty文件作为音乐数据输出节拍位置信息。节拍提取处理器12中的元素包括内部参数集。通过改变内部参数,修改每一个元素的操作的影响。自动地优化内部参数。但是,用户可以使用操作输入单元110人工地覆盖参数设置。
由节拍提取处理器12作为音乐数据提取并以.mty文件记录的歌曲的节拍位置信息的节拍间隔,通常是规则的,如图19A所示。
在由节拍提取处理器12提取的节拍位置信息中,节拍校准处理器13校准提供相同歌曲或相同速度的音乐部分中的节拍位置信息。
节拍校准处理器13从由节拍提取处理器12提取并以.mty文件记录的节拍位置信息的元数据中提取定期打出的节拍,如每隔一定的时间间隔打出图19A的A1到A11。节拍校准处理器13不提取不规则地打出的节拍,如B1到B4。根据本发明的一个实施例,每隔一定间隔打出有规律的节拍,如四分音符节拍。
节拍校准处理器13从由节拍提取处理器12提取并以.mty文件记录的节拍位置信息的元数据计算准确的平均周期T,并提取具有等于平均周期T的时间间隔的节拍,作为有规律间隔节拍。
仅凭定期提取的节拍会导致如图19A所示的消隐期。如图19B所示,节拍校准处理器13在否则将打出常规节拍的位置添加插入节拍C1到C3。如此,获得了涉及每隔一定间隔打出的所有拍子的节拍位置信息。
节拍校准处理器13将in节拍定义为与有规律间隔节拍同相的节拍,并提取in节拍。in节拍是那些与实际音乐节拍同步的节拍,并包括有规律间隔节拍。节拍校准处理器13将out节拍定义为与有规律间隔节拍不同相的节拍,并排除out节拍。out节拍是那些不与实际音乐节拍同步的那些节拍(如四分音符节拍)。节拍校准处理器3需要区别in节拍和out节拍。
要区别in节拍和out节拍,节拍校准处理器13定义了位于有规律间隔节拍中心处的恒定窗口宽度W,如图20所示。节拍校准处理器13判断包含在窗口宽度W内的节拍是in节拍,不包含在窗口宽度W内的节拍是out节拍。
当在窗口宽度W中不包含有规律间隔节拍时,节拍校准处理器13添加插入节拍,以插入在有规律间隔节拍之间。
如图21所示,节拍校准处理器13提取有规律间隔节拍A11到A20,以及基本上与有规律间隔节拍A11同相的in节拍D11。节拍校准处理器13还提取插入节拍C11到C13。节拍校准处理器13不作为四分音符节拍提取out节拍B11到B13。
由于音乐节拍在时间上波动,因此,从歌曲中提取的遭受大的波动的in节拍的数量缩小。可能会导致叫做“节拍滑动”的提取误差。
窗口宽度W的值在遭受大的波动的歌曲中被设置为大。如此,提取的in节拍的数量增大,提取误差减少。窗口宽度W通常可以是恒定的。在遭受大的波动的歌曲中,作为参数的窗口宽度W可以被调整到较大。
节拍校准处理器13给元数据提供表示包含在窗口宽度W内的in节拍和不包含在窗口宽度W内的out节拍的节拍属性。如果在窗口宽度W内不存在提取的节拍,则节拍校准处理器13自动添加插入节拍,并用插入节拍作为元数据,给出节拍属性。构成了节拍信息的元数据包括上文所描述的节拍位置信息和节拍属性,并以元数据文件(.may)记录元数据。包含在节拍校准处理器13的元件具有诸如窗口宽度W之类的内部参数,通过修改内部参数,来修改节拍校准处理器13的操作的影响。
通过利用节拍提取处理器12和节拍校准处理器13执行两步骤数据处理,节拍提取器11自动地从数字音频信号提取高度准确的节拍信息。节拍提取器11不仅执行in节拍/out节拍判断过程,而且还执行节拍插入过程,从而产生整个歌曲中的四分音符间隔的节拍信息。
作为图1的人工创作单元4的特定示例讨论的节拍提取器11可以在音乐上将没有诸如节拍位置信息之类的时间戳信息的脉冲-编码调制(PCM)音频波形(采样源)与另一个介质同步。诸如节拍位置信息之类的时间戳信息的数据大小介于几个KB字节到数十个KB字节之间,并且非常小,达到音频波形的数据大小的千分之一。存储器容量和操作步骤可以减少,从而允许用户轻松地处理节拍位置信息。即使歌曲遭受了速度改变或节奏波动,也可以准确地从整个歌曲中提取节拍。通过将音乐与另一个介质同步,可以创建新娱乐。
由节拍提取器11提取的节拍信息被传输到图1的人工创作单元,以获取高度准确的节拍位置和小节头部的元数据。
利用图14的硬件结构,图1的人工创作单元使用软件执行前面所描述的人工创作功能。
图22是显示图1的节拍提取系统中的人工创作单元4的软件模块的功能方框图。
如图22所示,操作系统200从键盘110A、鼠标110B、显示器112,扬声器117C,以及存储设备201输入数据或输出数据,它们中每一个都被用作图14的操作输入单元110。存储设备201存储了包含音乐数据和元数据203的声音数据202,并包括图14的HDD 121。
在操作系统200上实现的软件模块包括用户输入处理器205、元数据管理器206、显示管理器207、自动节拍检测器208、文件输入输出单元209、声音数据管理器210,以及声音再现单元211。
用户输入处理器205判断通过诸如键盘110A和鼠标110B之类的输入设备输入的用户操作输入,并响应用户操作输入,向模块发出处理命令。当用户使用鼠标110B选择持续标记输入操作时,用户输入处理器205将其本身设置为时值标记输入状态,并通知显示管理器207用户输入处理器205处于时值标记输入状态。
当用户然后在允许输入的区域内单击鼠标110B时,用户输入处理器205将单击的坐标转换为时间轴中的声音数据的位置,并指示元数据管理器206将时值标记放置在时间轴中的位置处。
元数据管理器206包括时值管理器221和元数据正文222。元数据正文222包括数据串的列表,如图23B所示。每一个数据串都具有如图23A所示的结构。图23A的数据串包括小节编号、包括节拍、旋律以及重音的元数据类型,以及样本位置。元数据是按时间顺序管理的。以列表结构对元数据正文222进行管理。当创建要在编辑操作中插入的新的数据时,简单地改变了引用目标指针和引用源指针。
时值管理器221对时值进行管理。时值管理器221作为一个单位存储图24的结构。如图24所示,一个单位包括开始样本、结束样本、时值BPM、时值内的节拍、时值内的小节数量,以及时值小节长度。
元数据管理器206基于用户输入处理器205通知的时值信息,生成时值,并基于由用户输入处理器205通知的小节位置,根据参考图9-1和9-2讨论的过程,确定节拍位置。每个时值地执行节拍位置计算。
元数据管理器206删除、移动、插入,和搜索元数据正文222和时值数据。
包括声音数据显示225和元数据显  226的显示管理器207,计算当前显示在显示器112的屏幕上的时间轴的范围,并使用元数据管理器206搜索该范围内包含的元数据。显示管理器207响应显示器112的屏幕上的获取的元数据的类型,以彩色或图标显示元数据。
显示管理器207进一步显示声音数据的波形、统计数据、小节编号,以及当前编辑的样本的样本位置的数值。
自动节拍检测器208对应于图1的自动节拍提取器3和图14的节拍提取器11中的某一个。自动节拍检测器208自动地从音乐数据提取音乐节拍,并将每一个自动提取的节拍的位置通知给元数据管理器206。可以使用自动节拍提取算法,只要该算法生成信息,该信息满足要提供到元数据管理器206的信息的要求。
文件输入输出单元209打开指定的声音数据,读取指定的位置指定的编号的样本的数据,并将数据返回到请求源。文件输入输出单元209将元数据正文输出到诸如存储设备201之类的辅助存储器上的文件中,并从辅助存储器上的元数据文件中将数据读取元数据正文222中。
声音数据管理器210存储通过文件输入输出单元209读取的声音数据,并将声音数据传输到声音再现单元211和显示管理器207中的每一个。存储设备201搜索并存储入射到声音数据的各种信息(如量化比特数、采样率,通道数量等等)。
声音再现单元211从指定的点再现声音数据,并将声音数据输出到诸如扬声器117C之类的实际声音输出设备。
根据本发明的实施例,可以轻松而准确地附加要求歌曲的准确的节拍位置的应用程序的时间序列元数据。根据节拍位置,可以附加诸如准确的旋律、准确的代码进展、歌词等等信息。可以编制要求准确的元数据的音乐再混合应用程序,以及要求与节拍同步地准确的时间控制的设备和软件程序。
本发明不仅限于上文所描述的实施例。例如,本发明的实施例的节拍提取器不仅适用于个人计算机或便携式音乐再现设备,而且还适用于任何设备或任何电子设备。
本领域技术人员应该理解,可以根据设计要求及其他因素,可以进行各种修改、组合、子组合和更改,只要它们在所附的权利要求或其等效内容的范围内。

Claims (12)

1.一种用于附加元数据的方法,包括下列步骤:
在音乐的音乐数据的小节的头部部分中指定至少两个位置;
将在所述两个指定位置之间延续的时值分段为多个段,并将时间序列元数据附加到所述段中;以及
通过对音乐数据执行信号处理自动地提取节拍,
其中,通过自动计算时值内的小节数量来获取时间序列元数据,所述时值具有相对于自动提取的节拍而指定的头部部分。
2.根据权利要求1所述的方法,其中,所述小节的头部部分中的两个位置中的至少一个是由听音乐的听者人工地指定的。
3.根据权利要求1所述的方法,其中,通过将在所述两个指定的位置之间延续的时值除以小节的长度或小节数量,计算出所述时间序列元数据。
4.根据权利要求3所述的方法,其中,通过设置暂定小节长度,并计算与所述暂定小节长度最接近的小节长度,使得在所述两个指定的位置之间时值内的小节长度的数量是整数值,来确定小节长度。
5.根据权利要求1所述的方法,进一步包括搜索在候选节拍位置附近的预先确定的阈值范围内包含的自动提取的节拍,并使用具有优先级的提取的节拍的节拍位置。
6.根据权利要求5所述的方法,进一步包括通过随着阈值范围逐渐地改变再次搜索自动提取的节拍,确定计算出的节拍的可靠性值。
7.根据权利要求6所述的方法,其中,如果在阈值范围内没有检测到自动提取的节拍,则通过基于计算出的节拍插入节拍来降低所述可靠性值。
8.根据权利要求7所述的方法,其中,响应所述节拍的可靠性值,改变显示器上显示的每一个节拍的颜色。
9.根据权利要求4所述的方法,其中,基于计算出的前一个小节长度,动态地确定后续节拍的节拍间隔的时间。
10.一种用于附加元数据的设备,包括:
用于在音乐的音乐数据的小节的头部部分中指定至少两个位置的装置;
用于将在所指定的两个位置之间延续的时值分段为多个段,并将时间序列元数据附加到所述段中的装置;以及
用于通过对音乐数据执行信号处理自动地提取节拍的装置,
其中,通过自动计算时值内的小节数量来获取时间序列元数据,所述时值具有相对于自动提取的节拍而指定的头部部分。
11.根据权利要求10所述的设备,其中,所述小节的头部部分中的两个位置中的至少一个是由听音乐的听者人工地指定的。
12.一种用于附加元数据的设备,包括:
用于在音乐的音乐数据的小节的头部部分中指定至少两个位置的单元;
用于将在所指定的两个位置之间延续的时值分段为多个段,并将时间序列元数据附加到所述段中的单元;以及
用于通过对音乐数据执行信号处理自动地提取节拍的单元,
其中,通过自动计算时值内的小节数量来获取时间序列元数据,所述时值具有相对于自动提取的节拍而指定的头部部分。
CN2007100885895A 2006-03-16 2007-03-16 用于附加元数据的方法和设备 Expired - Fee Related CN101038739B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006073185A JP4487958B2 (ja) 2006-03-16 2006-03-16 メタデータ付与方法及び装置
JP2006-073185 2006-03-16
JP2006073185 2006-03-16

Publications (2)

Publication Number Publication Date
CN101038739A CN101038739A (zh) 2007-09-19
CN101038739B true CN101038739B (zh) 2012-02-22

Family

ID=38230125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100885895A Expired - Fee Related CN101038739B (zh) 2006-03-16 2007-03-16 用于附加元数据的方法和设备

Country Status (5)

Country Link
US (1) US7584218B2 (zh)
EP (1) EP1835503A3 (zh)
JP (1) JP4487958B2 (zh)
KR (1) KR101292698B1 (zh)
CN (1) CN101038739B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
EP1959427A4 (en) * 2005-12-09 2011-11-30 Sony Corp MUSIC EDITING DEVICE, MUSIC EDITING INFORMATION GENERATION METHOD AND RECORDING MEDIUM ON WHICH MUSIC EDITOR INFORMATION IS RECORDED
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality
JP4467601B2 (ja) * 2007-05-08 2010-05-26 ソニー株式会社 ビート強調装置、音声出力装置、電子機器、およびビート出力方法
BR122012006269A2 (pt) * 2008-03-10 2019-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Equipamento e método para a manipulação de um sinal de áudio tendo um evento transiente
JP5150573B2 (ja) * 2008-07-16 2013-02-20 本田技研工業株式会社 ロボット
JP4816699B2 (ja) 2008-09-03 2011-11-16 ソニー株式会社 楽曲処理方法、楽曲処理装置、及びプログラム
JP5395399B2 (ja) * 2008-10-17 2014-01-22 Kddi株式会社 携帯端末、拍位置推定方法および拍位置推定プログラム
JP2010114737A (ja) * 2008-11-07 2010-05-20 Kddi Corp 携帯端末、拍位置修正方法および拍位置修正プログラム
US9105300B2 (en) 2009-10-19 2015-08-11 Dolby International Ab Metadata time marking information for indicating a section of an audio object
JP2012103603A (ja) 2010-11-12 2012-05-31 Sony Corp 情報処理装置、楽曲区間抽出方法、及びプログラム
JP2014010275A (ja) * 2012-06-29 2014-01-20 Sony Corp 情報処理装置、情報処理方法及びプログラム
EP2752991B1 (en) * 2013-01-02 2018-06-13 Samsung Electronics Co., Ltd Apparatus and method for processing audio signal
JP6123995B2 (ja) 2013-03-14 2017-05-10 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP6179140B2 (ja) * 2013-03-14 2017-08-16 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP6565530B2 (ja) * 2015-09-18 2019-08-28 ヤマハ株式会社 自動伴奏データ生成装置及びプログラム
JP6565528B2 (ja) 2015-09-18 2019-08-28 ヤマハ株式会社 自動アレンジ装置及びプログラム
JP6645085B2 (ja) 2015-09-18 2020-02-12 ヤマハ株式会社 自動アレンジ装置及びプログラム
US9852721B2 (en) 2015-09-30 2017-12-26 Apple Inc. Musical analysis platform
US9804818B2 (en) 2015-09-30 2017-10-31 Apple Inc. Musical analysis platform
US20170092246A1 (en) * 2015-09-30 2017-03-30 Apple Inc. Automatic music recording and authoring tool
US9824719B2 (en) 2015-09-30 2017-11-21 Apple Inc. Automatic music recording and authoring tool
US9502017B1 (en) * 2016-04-14 2016-11-22 Adobe Systems Incorporated Automatic audio remixing with repetition avoidance
CN107967706B (zh) * 2017-11-27 2021-06-11 腾讯音乐娱乐科技(深圳)有限公司 多媒体数据的处理方法、装置及计算机可读存储介质
CN110299049B (zh) * 2019-06-17 2021-12-17 韶关市启之信息技术有限公司 一种电子乐谱的智能展现方法
CN112235631B (zh) 2019-07-15 2022-05-03 北京字节跳动网络技术有限公司 视频处理方法、装置、电子设备及存储介质
CN112822541B (zh) * 2019-11-18 2022-05-20 北京字节跳动网络技术有限公司 视频生成方法、装置、电子设备和计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6307141B1 (en) * 1999-01-25 2001-10-23 Creative Technology Ltd. Method and apparatus for real-time beat modification of audio and music signals
US20020148347A1 (en) * 2001-04-13 2002-10-17 Magix Entertainment Products, Gmbh System and method of BPM determination
US20040159221A1 (en) * 2003-02-19 2004-08-19 Noam Camiel System and method for structuring and mixing audio tracks
US20040200336A1 (en) * 2003-01-15 2004-10-14 Roland Corporation Electronic musical instrument
US20050211072A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation Beat analysis of musical signals

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0750838Y2 (ja) 1989-10-30 1995-11-15 株式会社大林組 仮設コード類の配設構造
JP3066528B1 (ja) 1999-02-26 2000-07-17 コナミ株式会社 楽曲再生システム、リズム解析方法及び記録媒体
JP3789326B2 (ja) 2000-07-31 2006-06-21 松下電器産業株式会社 テンポ抽出装置、テンポ抽出方法、テンポ抽出プログラム及び記録媒体
JP4134624B2 (ja) * 2002-07-24 2008-08-20 ヤマハ株式会社 再生制御情報作成装置とプログラム
US8180468B2 (en) 2005-07-01 2012-05-15 Pioneer Corporation Computer program, information reproduction device, and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6307141B1 (en) * 1999-01-25 2001-10-23 Creative Technology Ltd. Method and apparatus for real-time beat modification of audio and music signals
US20020148347A1 (en) * 2001-04-13 2002-10-17 Magix Entertainment Products, Gmbh System and method of BPM determination
US20040200336A1 (en) * 2003-01-15 2004-10-14 Roland Corporation Electronic musical instrument
US20040159221A1 (en) * 2003-02-19 2004-08-19 Noam Camiel System and method for structuring and mixing audio tracks
US20050211072A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation Beat analysis of musical signals

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JP特开2002-116754A 2002.04.19
JP特开2004-54166A 2004.02.19
JP特开平5-6172A 1993.01.14
说明书第8页第50-55段,第10页66-73段、附图4.

Also Published As

Publication number Publication date
US7584218B2 (en) 2009-09-01
CN101038739A (zh) 2007-09-19
EP1835503A3 (en) 2008-03-26
KR101292698B1 (ko) 2013-08-02
EP1835503A2 (en) 2007-09-19
US20070255739A1 (en) 2007-11-01
JP4487958B2 (ja) 2010-06-23
JP2007248895A (ja) 2007-09-27
KR20070094487A (ko) 2007-09-20

Similar Documents

Publication Publication Date Title
CN101038739B (zh) 用于附加元数据的方法和设备
US7899564B2 (en) Procedure and apparatus for generating automatic replay of recordings
KR101363534B1 (ko) 비트 추출 장치 및 비트 추출 방법
WO2003019560A3 (en) Playlist generation, delivery and navigation
US20090157203A1 (en) Client-side audio signal mixing on low computational power player using beat metadata
US20100064882A1 (en) Mashup data file, mashup apparatus, and content creation method
US20110046955A1 (en) Speech processing apparatus, speech processing method and program
EP1547060A2 (en) System and method for generating an audio thumbnail of an audio track
CN101165779B (zh) 信息处理装置和方法、程序及记录介质
CN102456342A (zh) 音频处理装置和方法以及程序
CN107679196A (zh) 一种多媒体识别方法、电子设备及存储介质
CN106782601A (zh) 一种多媒体数据处理方法及其装置
CN107071641A (zh) 实时编辑多音轨的电子设备与处理方法
CN106775567B (zh) 一种音效匹配方法及系统
CN106653067A (zh) 一种信息处理方法及终端
CN106095943B (zh) 演唱歌曲熟识广度检测方法和装置
US11625216B2 (en) Techniques for analyzing multi-track audio files
US9014831B2 (en) Server side audio file beat mixing
TWI749045B (zh) 自動生成配音文字的方法、裝置以及電子設備
JP5085577B2 (ja) プレイリスト作成装置、楽曲再生装置、プレイリスト作成方法およびプレイリスト作成プログラム
CN109241333A (zh) 一种基于Python的音乐检索系统及方法
JP2004070495A (ja) データ再生装置、データ検索方法、データ再生方法およびコンテンツデータを再生するデータ再生装置におけるデータ検索方法をコンピュータに実行させるためのプログラム
JP2006243398A (ja) 音響信号の合成装置および検索装置
KR101655834B1 (ko) 음원 추천 방법, 장치, 시스템 및 기록매체
JP2005148775A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120222

Termination date: 20150316

EXPY Termination of patent right or utility model