CN101916564B - 信息处理装置、旋律线提取方法和低音线提取方法 - Google Patents

信息处理装置、旋律线提取方法和低音线提取方法 Download PDF

Info

Publication number
CN101916564B
CN101916564B CN2009102536296A CN200910253629A CN101916564B CN 101916564 B CN101916564 B CN 101916564B CN 2009102536296 A CN2009102536296 A CN 2009102536296A CN 200910253629 A CN200910253629 A CN 200910253629A CN 101916564 B CN101916564 B CN 101916564B
Authority
CN
China
Prior art keywords
unit
probability
pitch
beat
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009102536296A
Other languages
English (en)
Other versions
CN101916564A (zh
Inventor
小林由幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101916564A publication Critical patent/CN101916564A/zh
Application granted granted Critical
Publication of CN101916564B publication Critical patent/CN101916564B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/38Chord
    • G10H1/383Chord detection and/or recognition, e.g. for correction, or automatic bass generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/086Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for transcription of raw audio or music data to a displayed or printed staff representation or to displayable MIDI-like note-oriented data, e.g. in pianoroll format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

本发明公开了信息处理装置、旋律线提取方法、低音线提取方法及程序。提供了一种信息处理装置,包括:信号转换单元,用于将音频信号转换为表示每个音高的信号强度的音高信号;旋律概率估计单元,用于基于音频信号来针对每帧估计每个音高是旋律音符的概率;以及旋律线确定单元,用于基于每个音高是旋律音符的概率,即由旋律概率估计单元针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将最大似然路径确定为旋律线。

Description

信息处理装置、旋律线提取方法和低音线提取方法
技术领域
本发明涉及信息处理装置、旋律线提取方法、低音线提取方法及程序。 
背景技术
近年来,用于从任意音乐数据提取音乐数据特有的特征量(亦称为“FQ”)的技术引起了关注。作为这里的对象的独特特征量例如包括音乐片段的轻快度、节拍、旋律部分、低音部分、和弦的进行等。然而,直接从音乐数据中提取特征量是极难的。对于从音乐数据提取旋律部分和低音部分的技术,JP-A-2008-209579和JP-A-2008-58755公开了从同时包括语音和多种类型的乐器声音的音响信号中估计旋律部分或低音部分的音高(pitch)的技术。具体地,文献中公开的技术用于利用期望值最大化(EM)算法来估计旋律部分或低音部分的音高。 
发明内容
然而,即使使用JP-A-2008-209579和JP-A-2008-58755中公开的技术,也极难从音乐数据准确地提取旋律线和低音线。因此,鉴于前面的问题,希望提供能够从音乐数据准确地提取旋律线或低音线的新颖的经改进的信息处理装置、旋律线/低音线提取方法及程序。 
根据本发明的一个实施例,提供了一种信息处理装置,包括:信号转换单元,用于将音频信号转换为表示各个音高的信号强度的音高信号;旋律概率估计单元,用于基于音频信号来针对每帧估计各个音高是旋律音符的概率;以及旋律线确定单元,用于基于各个音高是旋律音符的概率,即由旋律概率估计单元针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径(maximum likelihood path), 并且将最大似然路径确定为旋律线。 
此外,信息处理装置还可以包括中心提取单元,用于在所述音频信号为立体声信号的情况中,从所述立体声信号提取中心信号。在这种情况中,所述信号转换单元将所述中心提取单元提取的所述中心信号转换为所述音高信号。 
此外,信息处理装置还可以包括信号分类单元,用于将所述音频信号分到特定类别中。在此情况中,所述旋律概率估计单元基于所述信号分类单元的分类结果来估计各个音高是旋律音符的概率。此外,所述旋律线确定单元基于所述信号分类单元的分类结果来检测所述最大似然路径。 
此外,信息处理装置还可以包括音高分布估计单元,用于针对所述音高信号来估计特定时段的每个时段中作为旋律音符的音高的分布。在此情况中,所述旋律线确定单元基于所述音高分布估计单元的估计结果来检测所述最大似然路径。 
此外,信息处理装置还可以包括平滑单元,用于针对每个节拍区间,对由所述旋律线确定单元确定的旋律线的音高进行平滑。 
此外,所述旋律概率估计单元可以通过将旋律线以及已知其旋律线的多个音频信号提供到能够自动地生成用于提取任意音频信号的特征量的计算公式的计算公式生成装置中,来生成用于提取各个音高是旋律音符的概率的计算公式,并且通过利用计算公式来针对每帧估计出各个音高是旋律音符的概率,所述计算公式生成装置利用多个音频信号以及每个音频信号的特征量来自动地生成计算公式。 
此外,信息处理装置还可以包括节拍检测单元,用于检测音频信号的每个节拍区间;和弦概率检测单元,用于针对由所述节拍检测单元检测到的每个节拍区间,来检测每个和弦被演奏的概率;以及基调检测单元,用于利用由所述和弦概率检测单元针对每个节拍区间检测到的每个和弦被演奏的概率,来检测音频信号的基调。在此情况中,所述旋律线确定单元基于由所述基调检测单元检测到的基调来检测最大似然路径。 
根据本发明的另一实施例,提供了一种信息处理装置,包括:信号转换单元,用于将音频信号转换为表示各个音高的信号强度的音高信号;低 音概率估计单元,用于基于所述音高信号来针对每帧估计各个音高是低音音符的概率;以及低音线确定单元,用于基于各个音高是低音音符的概率,即由所述低音概率估计单元针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为低音线。 
根据本发明的另一实施例,提供了一种旋律线提取方法,包括以下步骤:将音频信号转换为表示各个音高的信号强度的音高信号;基于所述音高信号来针对每帧估计各个音高是旋律音符的概率;以及基于各个音高是旋律音符的概率,即由估计各个音高是旋律音符的步骤针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为旋律线。步骤由信息处理装置来执行。 
根据本发明的另一实施例,提供了一种低音线提取方法,包括以下步骤:将音频信号转换为表示各个音高的信号强度的音高信号;基于所述音高信号来针对每帧估计各个音高是低音音符的概率;以及基于各个音高是低音音符的概率,即由估计各个音高是低音音符的概率的步骤针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为低音线。步骤由信息处理装置来执行。 
根据本发明的另一实施例,提供了一种用于使得计算机执行以下步骤的程序:将音频信号转换为表示各个音高的信号强度的音高信号;基于所述音高信号来针对每帧估计各个音高是旋律音符的概率;以及基于各个音高是旋律音符的概率,即由估计各个音高是旋律音符的步骤针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为旋律线。 
根据本发明的另一实施例,提供了一种用于使得计算机执行以下步骤的程序:将音频信号转换为表示各个音高的信号强度的音高信号;基于所述音高信号来针对每帧估计各个音高是低音音符的概率;以及基于各个音高是低音音符的概率,即由估计各个音高是低音音符的概率的步骤针对每 帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为低音线。 
根据本发明的另一实施例,可以提供一种存储可由计算机读取的程序的记录介质。 
根据上述本发明的实施例,可以准确地从音乐数据中提取旋律线或低音线。 
附图说明
图1是示出用于自动生成计算特征量的算法的特征量计算公式生成装置的配置示例的说明图; 
图2是示出根据本发明实施例的信息处理装置(旋律线提取装置)的功能配置示例的说明图; 
图3是示出根据本实施例的中心提取方法的示例的说明图; 
图4是示出根据本实施例的对数谱生成方法的示例的说明图; 
图5是示出根据本实施例由对数谱生成方法生成的对数谱的示例的说明图; 
图6是示出根据本实施例的音乐分类示例的说明图; 
图7是示出根据本实施例类别估计方法的示例的说明图; 
图8是示出根据本实施例执行对数谱方法的示例的说明图; 
图9是示出由根据本实施例的旋律线的分布估计方法估计出的旋律线的期望值和标准偏差的示例的说明图; 
图10是示出根据本实施例的旋律概率估计方法的示例的说明图; 
图11是示出根据本实施例的旋律概率估计方法的示例的说明图; 
图12是示出根据本实施例的旋律概率估计方法的示例的说明图; 
图13是示出旋律线确定方法的示例的说明图; 
图14是示出旋律线确定方法的示例的说明图; 
图15是示出旋律线确定方法的示例的说明图; 
图16是示出根据本实施例用于检测供旋律线确定方法使用的节拍的节拍检测单元的详细功能配置示例的说明图; 
图17是示出根据本实施例的节拍检测方法的示例的说明图; 
图18是示出根据本实施例的节拍检测方法的示例的说明图; 
图19是示出根据本实施例的节拍检测方法的示例的说明图; 
图20是示出根据本实施例的节拍检测方法的示例的说明图; 
图21是示出根据本实施例的节拍检测方法的示例的说明图; 
图22是示出根据本实施例的节拍检测方法的示例的说明图; 
图23是示出根据本实施例的节拍检测方法的示例的说明图; 
图24是示出根据本实施例的节拍检测方法的示例的说明图; 
图25是示出根据本实施例的节拍检测方法的示例的说明图; 
图26是示出根据本实施例的节拍检测方法的示例的说明图; 
图27是示出根据本实施例的节拍检测方法的示例的说明图; 
图28是示出根据本实施例的节拍检测方法的示例的说明图; 
图29是示出根据本实施例的节拍检测方法的示例的说明图; 
图30是示出根据本实施例的节拍检测方法的示例的说明图; 
图31是示出根据本实施例的节拍检测方法的示例的说明图; 
图32是示出根据本实施例的节拍检测方法的示例的说明图; 
图33是示出根据本实施例的节拍检测方法的示例的说明图; 
图34是示出根据本实施例的节拍检测方法的示例的说明图; 
图35是示出根据本实施例的节拍检测方法的示例的说明图; 
图36是示出根据本实施例的节拍检测方法的示例的说明图; 
图37是示出根据本实施例的节拍检测方法的示例的说明图; 
图38是示出根据本实施例的节拍检测方法的示例的说明图; 
图39是示出根据本实施例的和弦概率计算单元的详细功能配置示例的说明图; 
图40是示出根据本实施例的和弦概率计算方法的示例的说明图; 
图41是示出根据本实施例的和弦概率计算方法的示例的说明图; 
图42是示出根据本实施例的和弦概率计算方法的示例的说明图; 
图43是示出根据本实施例的和弦概率计算方法的示例的说明图; 
图44是示出根据本实施例的和弦概率计算方法的示例的说明图; 
图45是示出根据本实施例的基调检测单元的详细功能配置示例的说明图; 
图46是示出根据本实施例的基调检测方法的示例的说明图; 
图47是示出根据本实施例的基调检测方法的示例的说明图; 
图48是示出根据本实施例的基调检测方法的示例的说明图; 
图49是示出根据本实施例的基调检测方法的示例的说明图; 
图50是示出根据本实施例的基调检测方法的示例的说明图; 
图51是示出根据本实施例的基调检测方法的示例的说明图; 
图52是示出根据本实施例的基调检测方法的示例的说明图; 
图53是示出根据本实施例的基调检测方法的示例的说明图; 
图54是示出根据本实施例的基调检测方法的示例的说明图;以及 
图55是示出根据本实施例的信息处理装置的硬件配置示例的说明图。 
具体实施方式
下面,将参考附图详细描述本发明的优选实施例。注意,在本说明书和附图中,具有基本上相同的功能和结构的结构元件用相同的标号表示,并且省略对这些结构元件的重复说明。 
在本说明书中,将以如下所示顺序进行说明。 
(说明项) 
1.基础技术 
1-1.特征量计算公式生成装置10的配置示例 
2.实施例 
2-1.信息处理装置100的整体配置 
2-2.中心提取单元102的配置 
2-3.对数谱分析单元104的配置 
2-4.类别估计单元106的配置 
2-5.音高分布估计单元108的配置 
2-6.旋律概率估计单元110的配置 
2-7.旋律线确定单元112的配置 
2-8.平滑单元114的配置 
2-9.节拍检测单元116和基调(key)检测单元118 
2-9-1.节拍检测单元116的配置 
2-9-2.和弦概率检测单元120的配置 
2-9-3.基调检测单元118的配置 
2-10.硬件配置示例 
2-11.总结 
<1.基础技术> 
首先,在描述根据本发明实施例的技术之前,将简要描述用于实现本实施例的技术性配置的基础技术。这里描述的基础技术涉及算法的自动生成方法,该算法以特征量形式对任意输入数据的特征定量。例如可以将诸如音频信号的信号波形或者包括在图像中的每种颜色的亮度数据之类的各种类型的数据用作输入数据。此外,当以音乐片段为例时,通过采用基础技术,从音乐数据的波形自动地生成用于计算指示音乐片段的轻快度或者节奏的特征量的算法。此外,还可以将JP-A-2008-123011中公开的学习算法(learning algorithm)用来代替下面描述的特征量计算公式生成装置10的配置示例。 
(1-1.特征量计算公式生成装置10的配置示例) 
首先,参考图1,将描述根据上述基础技术的特征量计算公式生成装置10的功能配置。图1是示出根据上述基础技术的特征量计算公式生成装置10的配置示例的说明图。这里描述的特征量计算公式生成装置10是用于自动生成如下算法(此后,称为计算公式)的装置(学习算法)的示例:用于利用任意输入数据以特征量的形式对输入数据的特征进行定量。 
如图1所示,特征量计算公式生成装置10主要具有操作符存储单元12、提取公式生成单元14、提取公式列表生成单元20、提取公式选择单元22以及计算公式设置单元24。此外,特征量计算公式生成装置10包括 计算公式生成单元26、特征量选择单元32、评估数据获取单元34、教员数据获取单元36以及公式估计单元38。此外,提取公式生成单元14包括操作符选择单元16。而且,计算公式生成单元26包括提取公式计算单元28和系数计算单元30。此外,公式估计单元38包括计算公式评估单元40和提取公式评估单元42。 
首先,提取公式生成单元14通过组合存储在操作符存储单元12中的多个操作符来生成特征量提取公式(此后,称为提取公式),该提取公式作为计算公式的基础。这里的“操作符”是用于对输入数据的数据值执行特定操作处理的操作符。由操作符执行的操作类型包括差分计算、最大值提取、低通滤波、无偏方差计算、快速傅里叶变换、标准偏差计算、平均值计算等。当然,不限于上面例示出的这些类型的操作,并且可以包括可对输入数据的数据值执行的任何类型的操作。 
此外,针对每个操作符设置操作类型、操作对象轴以及用于操作的参数。操作对象轴是指定义输入数据的各个数据值的轴中作为操作处理对象的轴。例如,当以音乐数据为例时,音乐数据在由时间轴和音高轴(频率轴)形成的空间中被给出为音量的波形。当对音乐数据执行差分操作时,必须确定是沿着时间轴执行差分操作还是沿着频率轴执行差分操作。因此,每个参数包括与形成了定义输入数据的空间的轴中将作为操作处理对象的轴有关的信息。 
此外,参数取决于操作类型而成为必要的。例如,在低通滤波的情况中,定义将通过的数据值的范围的阈值必须被固定为参数。由于这些原因,除了操作类型外,操作对象轴和必要参数被包括在每个操作符中。例如,将操作符表达为在指示操作对象轴的操作符的开始处添加的F#Differential,F#MaxIndex,T#LPF_1;0.861,T#UVariance,....F等等。例如,F是指频率轴,并且T是指时间轴。 
操作对象轴之后的由#分割的所添加的Differential(差分)等指示操作类型。例如,Differential是指差分计算操作,MaxIndex是指最大值提取操作,LPF是指低通滤波,并且UVariance是指无偏方差计算操作。操作类型之后的数字表示参数。例如,LPF_1;0.861表示以1至0.861的范围作 为通带的低通滤波器。这些各个操作符存储在操作符存储单元12中,并且由提取公式生成单元14读取并使用。提取公式生成单元14首先通过操作符选择单元16选择任意操作符,并且通过组合所选操作符来生成提取公式。 
例如,操作符选择单元16选择了F#Differential,F#MaxIndex,T#LPF_1;0.861and T#UVariance,并且提取公式生成单元14生成表达为下面的式(1)的提取公式f。然而,添加在开始处的12Tones表示作为处理对象的输入数据的类型。例如,当12Tones被描述时,使通过分析输入数据的波形获得的时间音高空间中的信号数据(后面描述的对数谱)成为操作处理对象。即,表达为下面的式(1)的提取公式指示后面描述的对数谱是处理对象,并且对于输入数据,沿着频率轴(音高轴方向)顺序地执行差分操作和最大值提取并且沿着时间轴顺序地执行低通滤波和无偏方差操作。 
[公式1] 
f={12Tones,F#Differential,F#MaxIndex,T#LPF_1;0.861,T#UVariance}                         ...(1) 
如上所述,提取公式生成单元14生成针对操作符的各种组合的如上述式(1)所示的提取公式。将详细描述生成方法。首先,提取公式生成单元14利用操作符选择单元16选择操作符。此时,操作符选择单元16判断通过组合所选操作符(提取公式)对输入数据的操作结果是特定大小或更小的标量还是特定大小或更小的矢量(是否收敛)。 
此外,上述判决处理是基于每个操作符中包括的操作类型和操作对象轴的类型来执行的。当操作符的组合由操作符选择单元16选择时,针对每种组合执行判决处理。然后,当操作符选择单元16判定操作结果收敛时,提取公式生成单元14利用由操作符选择单元16选择的使操作结果收敛的操作符的组合,来生成提取公式。提取公式生成单元14针对提取公式的生成处理被执行直到生成了特定数目(此后,称为所选提取公式数目)的提取公式为止。由提取公式生成单元14生成的提取公式被输入提取公式列表生成单元20。 
当提取公式从提取公式生成单元14被输入提取公式列表生成单元20时,从输入的提取公式中选择特定数目的提取公式(此后,列表中的提取公式数目≤所选提取公式数目),并且生成提取公式列表。此时,提取公式列表生成单元20的生成处理被执行,直到生成了特定数目的提取公式列表(此后,称为列表数目)为止。然后,由提取公式列表生成单元20生成的提取公式列表被输入提取公式选择单元22。 
将描述与提取公式生成单元14和提取公式列表生成单元20的处理有关的具体示例。首先,输入数据的类型被提取公式生成单元14确定为例如音乐数据。接下来,由操作符选择单元16随机选择操作符OP1、OP2、OP3和OP4。然后,执行与通过所选操作符的组合,对音乐数据的操作结果是否收敛有关的判决处理。当判定音乐数据的操作结果收敛时,利用OP1至OP4的组合生成提取公式f1。由提取公式生成单元14生成的提取公式f1被输入提取公式列表生成单元20。 
此外,提取公式生成单元14重复与提取公式f1的生成处理相同的处理,并且生成例如提取公式f2、f3和f4。以这种方式生成的提取公式f2、f3和f4被输入提取公式列表生成单元20。当提取公式f2、f3和f4被输入时,提取公式列表生成单元20例如生成提取公式列表L1={f1,f2,f4}和取公式列表L2={f1,f3,f4}。由提取公式列表生成单元20生成的提取公式列表L1和L2被输入提取公式选择单元22。如上通过具体示例所述的,提取公式由提取公式生成单元14生成,并且提取公式列表由提取公式列表生成单元20生成,并被输入提取公式选择单元22。然而,虽然在上述示例中描述了所选提取公式数目为4,列表中的提取公式数目为3并且列表数目为2的情况,然而,应当主要,实际上,会生成极大数目的提取公式和提取公式列表。 
现在,当提取公式列表从提取公式列表生成单元20输入时,提取公式选择单元22从输入的提取公式中选择将插入后面描述的计算公式中的提取公式。例如,当上述提取公式列表L1中的提取公式f1和f4将被插入计算公式中时,提取公式选择单元22相对于提取公式列表L1选择提取公式f1和f4。提取公式选择单元22针对每个提取公式列表执行上述选择处理。 然后,当选择处理完成时,提取公式选择单元22的选择处理结果以及各个提取公式列表被输入计算公式设置单元24。 
当选择结果和各个提取公式列表从提取公式选择单元22被输入时,计算公式设置单元24在考虑提取公式选择单元22的选择结果的情况下,来设置与各个提取公式相对应的计算公式。例如,如下面的式(2)所示,计算公式设置单元24通过线性结合(couple)包括在各个提取公式列表Lm={f1,...,fK}中的提取公式fk,来设置计算公式Fm。此外,m=1,...,M(M为列表数目),k=1,...,K(K为列表中的提取公式数目),并且B0,...,BK为结合系数。 
[公式2] 
Fm=B0+B1f1+…+BKfK                            ...(2) 
此外,还可以将计算公式Fm设置为提取公式fk(k=1 to K)的非线性函数。然而,由计算公式设置单元24设置的计算公式Fm的函数形式取决于由后面描述的计算公式生成单元26所使用的结合系数估计算法。因此,计算公式设置单元24被配置为根据计算公式生成单元26可以使用的估计算法来设置计算公式Fm的函数形式。例如,计算公式设置单元24可以被配置为根据输入数据的类型来改变函数形式。然而,在本说明书中,为了说明的方便,将使用表达为上述式(2)的线性结合。由计算公式设置单元24设置的计算公式的信息被输入到计算公式生成单元26。 
此外,希望由计算公式计算的特征量的类型从特征量选择单元32输入计算公式生成单元26。特征量选择单元32是用于选择希望由计算公式计算的特征量的类型的装置。此外,与输入数据的类型相对应的评估数据从评估数据获取单元34输入计算公式生成单元26。例如,在输入数据的类型为音乐的情况中,多段音乐数据被输入为评估数据。而且,与各个评估数据相对应的教员数据从教员数据获取单元36输入计算公式生成单元26。这里的教员数据是各个评估数据的特征量。具体地,针对特征量选择单元32所选类型的教员数据被输入计算公式生成单元26。例如,在输入数据为音乐数据并且特征量的类型为节奏的情况中,各个评估数据的正确节奏值被输入计算公式生成单元26中作为教员数据。 
当评估数据、教员数据、特征量类型、计算公式等被输入时,计算公式生成单元26首先将各个评估数据输入包括在计算公式Fm中的提取公式f1,...,fK中,并且通过提取公式计算单元28获取各个提取公式的计算结果(此后称为提取公式计算结果)。当与各个评估数据有关的各个提取公式的提取公式计算结果由提取公式计算单元28计算出时,各个提取公式计算结果从提取公式计算单元28被输入到系数计算单元30。系数计算单元30利用与各个评估数据相对应的教员数据以及输入的提取公式计算结果,并且计算在上述式(2)中表达为B0,...,BK的结合系数。例如,可以利用最小平方方法来确定系数B0,...,BK。此时,系数计算单元30还计算诸如均方误差之类的评估值。 
针对特征量的每个类型以及针对列表的数目计算出了提取公式计算结果、结合系数、均方误差等。由提取公式计算单元28计算出的提取公式计算结果、由系数计算单元30计算出的结合系数以及诸如均方误差之类的评估值被输入公式估计单元38。当这些计算结果被输入时,公式估计单元38利用输入的计算结果来计算用于判断各个计算公式的有效性的评估值。如上所述,在确定对各个计算公式进行配置的提取公式以及对提取公式进行配置的操作符的处理中,包括了随机选择处理。即,对于在确定处理中是否选择了最优提取公式和最优操作符,存在不确定性。因此,由公式估计单元38执行评估,以对计算结果进行评估并且适当地执行重计算或校正计算结果。 
在图1的公式估计单元38中设置了用于计算各个计算公式的评估值的计算公式评估单元40以及用于计算各个提取公式的贡献度(contributiondegree)的提取公式评估单元42。计算公式评估单元40例如利用称为AIC或BIC的评估方法来评估各个计算公式。这里的AIC是赤池(Akaike)信息准则的缩写。另一方面,BIC是贝叶斯(Bayesian)信息准则的缩写。当使用AIC时,通过利用各个计算公式的教员数据段数(此后称为教员数)以及均方误差来计算针对各个计算公式的评估值。例如,基于由下面的式(3)表达的值(AIC)来计算评估值。 
[公式3] 
AIC=教员数×{log 2n+1+log(均方误差)}+2(K+1)                                    ...(3) 
根据上述式(3),随着AIC越小,计算公式的准确度就越高。因此,随着AIC越小,针对使用AIC的情况的评估值被设为变得越大。例如,通过上述式(3)所表达的AIC的逆数(inverse number)来计算评估值。此外,计算公式评估单元40针对特征量类型的数目来计算评估值。因此,计算公式评估单元40针对每个计算公式的特征量类型数目来执行平均操作,并且计算平均评估值。即,在此阶段中计算出各个计算公式的平均评估值。由计算公式评估单元40计算出的平均评估值作为计算公式的评估结果被输入提取公式列表生成单元20。 
另一方面,提取公式评估单元42基于提取公式计算结果和结合系数,来计算各个提取公式在各个计算公式中的贡献比,作为评估值。例如,提取公式评估单元42根据下面的式(4)来计算贡献比。提取公式fK的提取公式计算结果的标准偏差是从针对各个评估值计算出的提取公式计算结果获得的。由提取公式评估单元42根据下面的式(4)针对各个计算公式计算出的各个提取公式的贡献比被输入提取公式列表生成单元20来作为提取公式的评估结果。 
[公式4] 
Figure G2009102536296D00131
Figure G2009102536296D00132
这里,StDev(...)表示标准偏差。此外,评估对象的特征量是音乐数据的节奏等。例如,在100个音乐片段的对数谱被给出为评估数据并且每个音乐片段的节奏被给出为教员数据的情况中,StDev(评估对象的特征量)表示100个音乐片段的节奏的标准偏差。此外,包括在上述式(4)中的Pearson(...)表示相关函数。例如,Pearson(fK的计算结果fK,评估对象FQ)表示用于计算的计算结果与评估对象特征量之间的相关系数的相关函数。此外,虽然音乐片段的节奏被表示为特征量的示例,然而,评估对象特征 量不限于此。 
当评估结果以这种方式从公式估计单元38输入提取公式列表生成单元20时,用于构成新的计算公式的提取公式列表被生成。首先,提取公式列表生成单元20按由计算公式评估单元40计算出的平均评估值的降序来选择特定数目的计算公式,并且设置与所选计算公式相对应的提取公式列表作为新的提取公式列表(选择)。此外,提取公式列表生成单元20按由计算公式评估单元40计算出的平均评估值的降序通过加权来选择两个计算公式,并且通过组合提取公式列表中与计算公式相对应的提取公式来生成新的提取公式列表(交叉)。此外,提取公式列表生成单元20按由计算公式评估单元40计算出的平均评估值的降序通过加权来选择一个计算公式,并且通过部分地改变提取公式列表中与计算公式相对应的提取公式来生成新的提取公式列表(突变)。此外,提取公式列表生成单元20通过随机选择提取公式来生成新的提取公式列表。 
在上述交叉中,提取公式的贡献比越低,就越适于将提取公式被设置得没有可能被选择。此外,在上述的突变中,当提取公式的贡献比越低时,越倾向于提取公式易于被改变的设置。利用以这种方式新生成的或新设置的提供公式列表,来再次执行提取公式选择单元22、计算公式设置单元24、计算公式生成单元26和公式估计单元38的处理。重复执行处理序列,直到公式估计单元38的评估结果中的改进程度收敛为某个程度为止。然后,当公式估计单元38的评估结果中的改进程度收敛为某个程度时,此时的计算公式被输出为计算结果。通过利用输出的计算公式,从与上述评估值不同的任意输入数据中高准确度地计算出表示输入数据的目标特征的特征量。 
如上所述,特征量计算公式生成装置10的处理是基于如下遗传算法的,该遗传算法用于在考虑诸如交叉或突变之类的因素的情况下,重复执行处理同时从一代前进到下一代。通过利用遗传算法可以获得能够高准确度地估计特征量的计算公式。然而,在后面描述的实施例中,可以使用用于通过比遗传算法简单的方法来计算出计算公式的学习算法。例如,不用提取公式列表生成单元20执行诸如上述的选择、交叉和突变之类的处 理,而是可以构想这样的方法,该方法通过改变将由提取公式选择单元22使用的提取公式来选出使计算公式评估单元40的评估值最高的组合。在此情况中,可以省略提取公式评估单元42的配置。此外,可以根据操作负荷以及所希望的评估准确度来适当地改变配置。 
<2.实施例> 
下面,描述本发明的一个实施例。本实施例与用于自动地从以Wav数据等形式提供的音乐数据中提取音乐片段的旋律线的技术有关。具体地,在本实施例中,提出了用于提高旋律线的提取准确度的技术。例如,根据这种技术,能够减小将乐器的音高而非旋律错误地检测为旋律的错误检测频率。还能够减小由于颤音等而将从原始旋律被位移了半音的音高错误地检测为旋律的频率。此外,还能够减小将不同八音度中的音高错误地检测为旋律的频率。还可以将这种技术应用到高准确度地从音乐数据提取低音线的技术中。 
(2-1.信息处理装置100的整体配置) 
首先,参考图2,描述根据本实施例的信息处理装置100的功能配置。图2是示出根据本实施例的信息处理装置100的功能配置示例的说明图。此外,这里描述的信息处理装置100用作能够从音乐数据提取旋律线的旋律线提取装置。下面,在描述了信息处理装置100的整体配置后,将分别描述各个结构元件的详细配置。 
如图2所示,信息处理装置100具有中心提取单元102、对数谱分析单元104、类别估计单元106、音高分布估计单元108以及旋律概率估计单元110。此外,信息处理装置100具有旋律线确定单元112、平滑单元114、节拍检测单元116、基调检测单元118以及和弦概率检测单元120。 
此外,特征量计算公式生成装置10被包括在图2所示的信息处理装置100中。特征量计算公式生成装置10可以被设置在信息处理装置100内或者可以作为外部设备连接到信息处理装置100。下面,为了方便起见,假设将特征量计算公式生成装置10内置于信息处理装置100中。此外, 信息处理装置100可以不用特征量计算公式生成装置10,而使用能够生成针对特征量的计算公式的各种学习算法。 
处理的整体流程如下面所述的。首先,音乐数据被输入到中心提取单元102中。在包括在音乐数据中的立体声分量中,仅中心分量(centrecomponent)被中心提取单元102提取。音乐数据的中心分量被输入到对数谱分析单元104。音乐数据的中心分量被对数谱分析单元104转换为后面将描述的对数谱。从对数谱分析单元104输出的对数谱被输入到特征量计算公式生成装置10、旋律概率估计单元110等中。此外,对数谱还可以由除特征量计算公式生成装置10、旋律概率估计单元110以外的结构元件使用。在此情况中,从对数谱分析单元104直接或间接地将所希望的对数谱适当地提供给各个结构元件。 
例如,对数谱被输入到类别估计单元106中,并且通过利用特征量计算公式生成装置10将与对数谱相对应的音乐片段归类为特定类别。而且,对数谱被输入音高分布估计单元108,并且通过利用特征量计算公式生成装置10来从对数谱中粗略地估计出旋律线的分布概率。此外,旋律概率估计单元110从输入的对数谱中估计对数谱的各个音高是旋律线的概率。此时,由类别估计单元106估计出的音乐类别被考虑在内。由旋律概率估计单元110估计出的旋律线的概率被输入到旋律线确定单元112中。然后,由旋律线确定单元112来确定旋律线。平滑单元114针对每个节拍来对确定出的旋律线进行平滑,并且随后将其输出到外面。 
上面粗略地描述了与旋律线提取处理有关的流程。对于每个结构元件的处理,例如使用了音乐片段的节拍、基调行进(key progression)等。因此,节拍由节拍检测单元116来检测,并且基调行进由基调检测单元118检测。而且,在基调检测处理中使用的和弦概率(后面将描述)由弦概率检测单元120来检测。下面,首先,将详细描述除节拍检测单元116、基调检测单元118以及和弦概率检测单元120之外的结构元件,并且将详细描述主要用于从音乐数据提取旋律线的功能。然后,将详细描述节拍检测单元116、基调检测单元118以及和弦概率检测单元120的功能配置。 
(2-2.中心提取单元102的配置) 
首先,描述中心提取单元102。中心提取单元102是用于从输入的立体声信号中提取位于中心周围的音频信号(此后称为中心信号)的装置。例如,中心提取单元102计算中心信号与位于非中心部分的音频信号(此后称为非中心信号)之间的音量差,并且根据计算结果来抑制非中心信号。这里的中心信号是指左右声道之间的电平差(1evel difference)和相位差较小的信号。 
图3示出了声音源分离单元的配置示例(中心提取方法)。参考图3,将详细描述描述中心提取单元102的配置。如图3所示,描述中心提取单元102可以由左声道频带分割单元122、右声道频带分割单元124、带通滤波器126、左声道频带合成单元128以及右声道频带合成单元130构成。 
首先,输入到中心提取单元102的立体声信号的左声道信号sL被输入左声道频带分割单元122。左声道的非中心信号L和中心信号C以混合的形式出现在左声道信号sL中。此外,左声道信号sL是随着时间改变的音量级信号。因此,左声道频带分割单元122对输入的左声道信号sL执行DFT处理,并且将其从时域信号转换为频域信号(此后,称为多频带信号fL(0),...,fL(N-1))。这里,fL(K)是与第k(k=0,...,N-1)个频带相对应的子频带信号。此外,上述DFT是离散傅里叶变换的缩写。从左声道频带分割单元122输出的左声道多频带信号被输入到带通滤波器126中。 
以类似的方式,输入到中心提取单元102的立体声信号的右声道信号sR被输入右声道频带分割单元124。右声道的非中心信号R和中心信号C以混合的形式出现在右声道信号sR中。此外,右声道信号sR是随着时间改变的音量级信号。因此,右声道频带分割单元124对输入的右声道信号sR执行DFT处理,并且将其从时域信号转换为频域信号(此后,称为多频带信号fR(0),...,fR(N-1))。这里,fR(k’)是与第k’(k=0,...,N-1)个频带相对应的子频带信号。从右声道频带分割单元124输出的右声道多频带信号被输入到带通滤波器126中。此外,每个声道的多频带信号被分割的频带数目为N(例如,N=8192)。 
如上所述,各个声道的多频带信号fL(k)(k=0,...,N-1)和fR(k’)(k’=0,...,N-1)被输入带通滤波器126中。下面,按诸如k=0,...,N-1或k’=0,...,N-1的升序来对频率进行标注。此外,将各个信号分量fL(k)和fR(k’)称为子声道信号。首先,在带通滤波器126中,从两个声道的多频带信号中选出同一频带中的子声道信号fL(k)和fR(k’),并且计算子声道信号之间的类似度a(k)。例如根据下面的式(5)和(6)来计算类似度a(k)。这里,幅度分量和相位分量被包括在子声道信号中。因此,将幅度分量的类似度表达为ap(k),并且将相位分量的类似度表达为ai(k)。 
[公式5] 
ai ( k ) = cos &theta;
= Re [ f R ( k ) f L ( k ) * ] | f R ( k ) | | f L ( k ) | . . . ( 5 )
ap ( k ) = | f R ( k ) | | f L ( k ) | , | f R ( k ) | &le; | f L ( k ) | | f L ( k ) | | f R ( k ) | , | f R ( k ) | > | f L ( k ) | . . . ( 6 )
这里,|...|表示“...”的范数。θ表示fL(k)与fR(k)之间的相位差(0≤|θ|≤π)。上标*表示复共轭。Re[...]表示“...”的实部。如从上述式(6)可清楚的,在子声道信号fL(k)与fR(k)的范数一致的情况中,幅度分量的类似度ap(k)为1。反之,在子声道信号fL(k)与fR(k)的范数不一致的情况中,类似度ap(k)取小于1的值。另一方面,对于相位分量的类似度ai(k),当θ相位差为0时,类似度ai(k)为1;当θ相位差为π/2时,类似度ai(k)为0;并且当θ相位差为π时,类似度ai(k)为-1。即,在子声道信号fL(k)与fR(k)的相位一致的情况中,类似度ai(k)为1,并且在子声道信号fL(k)与fR(k)的相位不一致的情况中,类似度ai(k)取小于1的值。 
当通过上述方法计算出每个频带k(k=0,...,N-1)的类似度a(k)时,带通滤波器126提取出与ap(q)相对应的频带q以及小于特定阈值的ai(q) (o≤q≤N-1)。然后,仅位于由带通滤波器126提取出的频带q中的子声道信号被输入左声道频带合成单元128或右声道频带合成单元130。例如,子声道信号fL(q)(q=q0,...,qn-1)被输入左声道频带合成单元128。因此,左声道频带合成单元128对从带通滤波器126输入的子声道信号fL(q)(q=q0,...,qn-1)执行IDFT处理,并且将其从频域转换为时域。此外,上述IDFT是逆离散傅里叶变换的缩写。 
以类似的方式,子声道信号fR(q)(q=q0,...,qn-1)被输入右声道频带合成单元130。因此,右声道频带合成单元130对从带通滤波器126输入的子声道信号fR(q)(q=q0,...,qn-1)执行IDFT处理,并且将其从频域转换为时域。从左声道频带合成单元128输出包括在左声道信号sL中的中心信号分量sL’。另一方面,从右声道频带合成单元130输出包括在右声道信号sR中的中心信号分量sR’。中心提取单元102通过上述方法从立体声信号中提取中心信号。然后,由中心提取单元102提取出的中心信号被输入到对数谱分析单元104中(参考图2)。 
(2-3.对数谱分析单元104的配置) 
接下来,将描述对数谱分析单元104。对数谱分析单元104是用于将输入音频信号转换为各个音高的强度分布的装置。每八音度的音频信号中包括12个音高(C,C#,D,D#,E,F,F#,G,G#,A,A#,B)。此外,每个音高的中心频率成对数分布。例如,当以音高A3的中心频率fA3作为标准时,将A#3的中心频率表达为fA#3=fA3*21/12。类似地,将音高B3的中心频率fB3表达为fB3=fA#3*21/12。以这种方式,相邻音高的中心频率之比为1∶21/12。然而,当处理音频信号时,将音频信号作为时间频率空间中的信号强度分布将使频率轴作为对数轴,从而,使得对音频信号的处理变得复杂。因此,对数谱分析单元104分析音频信号,并且将其从时间频率空间中的信号转换为时间音高空间中的信号(此后称为对数谱)。 
图4示出了对数谱分析单元104的配置示例。参考图4,将详细描述对数谱分析单元104的配置。如图4所示,对数谱分析单元104可以由重采样单元132、八音度分割单元134和多个带通滤波器组(BPFB)136。 
首先,音频信号被输入到重采样单元132中。然后,重采样单元132将输入音频信号的采样频率(例如,44.1kHz)转换为特定采样频率。将通过以八音度之间的边界处的频率作为标准并且将边界频率乘以二的幂所获得的频率作为特定采样频率。例如,音频信号的采样频率取八音度4和八音度5之间的边界频率1016.7Hz作为标准,并且被转换为标准的25倍的采样频率(32534.7Hz)。通过以这种方式来转换采样频率,作为随后由重采样单元132执行的频带分割处理和下采样(down sampling)处理的结果而获得的最高和最低频率将与某个八音度的最高和最低频率一致。结果,可以简化从音频信号提取针对每个音高的信号的处理。 
由重采样单元132对其采样频率进行了转换的音频信号被输入八音度分割单元134。然后,八音度分割单元134通过重复地执行频带分割处理和下采样处理来将输入的音频信号分割为针对各个八音度的信号。通过八音度分割单元134的分割而获得的每个信号被输入到为各个八音度(O1,...,O8)的设置的带通滤波器组136(BPFB(O1),...,BPFB(O8))中。每个带通滤波器组136由12个带通滤波器构成,每个带通滤波器具有针对12个音高之一的通频带,以便从针对各个八音度的输入音频信号中提取出针对每个音高的信号。例如,在通过八音度8的带通滤波器组136(BPFB(O8))后,从八音度8的音频信号中提取出了针对12个音高(C8,C#8,D8,D#8,E8,F8,F#8,G8,G#8,A8,A#8,B)的信号。 
示出了每个八音度中的12个音高的信号强度(此后称为能量)的对数谱可以通过从各个带通滤波器组136输出的信号来获得。图5是示出从对数谱分析单元104输出的对数谱的示例的说明图。 
参考图5的纵轴(音高),输入音频信号被分割为7个八音度,并且每个八音度进一步被分割为12个音高:“C,”“C#,”“D,”“D#,”“E,”“F,”“F#,”“G,”“G#,”“A,”“A#,”和“B”。另一方面,图5的横轴(时间)示出了沿着时间轴采样音频信号时的帧数目。例如,当重采样单元132以127.0888(Hz)的采样频率对音频信号重采样时,1帧将为1(sec)/127.0888=7.8686(msec)所对应的时间段。此外,图5所示的对数谱的颜色浓度表示各帧处的各音高的能量强度。例如,位置S1以暗色示 出,因此,可以理解为,位置S1所对应的音高处的音符(note)是在位置S1所对应的时间处强烈地产生的。此外,图5是在将某个音频信号作为输入信号时所获得的对数谱的示例。因此,如果输入信号不同,则获得不同的对数谱。以这种方式获得的对数谱被输入类别估计单元106(参考图2)。 
(2-4.类别估计单元106的配置) 
接下来,描述类别估计单元106。类别估计单元106是用于在音乐片段信号被输入时估计输入信号所属的类别的装置。如后面所述的,通过将各个输入信号所属的音乐类别考虑在内,可以提高后面执行的旋律线检测处理中的检测准确度。如图6所示,音乐片段例如被分为“古典片段”、“男声乐、高声背景(BG)”、“男声乐、柔和背景(BG)”、“女声乐、高声背景(BG)”等类。例如,“古典片段”具有如下特征:由于记录时的记录设备和声音设施的技术水平与当前的技术水平不同,因此,音质较差或者背景中的音量比例较小。对于其它类别,针对各个类别存在如图6所示的特征。因此,输入信号基于各个音乐片段的特征而被分类。此外,音乐类别不限于图6所示的那些类别。例如,还可以基于语音质量等来使用更精细的类别。 
类别估计单元106执行如图7所示的处理以估计音乐类别。首先,类别估计单元106具有多个音频信号(音乐片段1,...,音乐片段4),供用作被对数谱分析单元104转换为对数谱的评估数据。然后,类别估计单元106将多个音频信号(音乐片段1,...,音乐片段4)的对数谱作为评估数据输入到特征量计算公式生成装置10中。此外,将用作评估值的每个音频信号(音乐片段1,...,音乐片段4)的类别给出为如图7所示的类别值(0或1)。类别值0表示不相符(non-correspondence),并且类别值1表示相符。例如,音频信号(音乐片段1)不符合类别“古典片段”和“男声乐,柔和BG”,而符合“男声乐,高声BG”。类别估计单元106生成用于计算类别值的估计算法(计算公式),如利用特征量计算公式生成装置10所述的。 
因此,类别估计单元106在将多个音频信号(音乐片段1,...,音乐片段4)的对数谱输入作为评估值的同时,将各个类别的类别值作为教员数据输入到特征量计算公式生成装置10中。因此,音频信号(音乐片段1,...,音乐片段4)的对数谱作为评估值并且各个类别的类别值作为教员数据被输入到特征量计算公式生成装置10中。此外,将一个音乐片段的对数谱用作与各个音频信号相对应的评估数据。当如所述的评估数据和教员数据被输入时,特征量计算公式生成装置10针对各个类别生成计算公式GA,该公式用于从任意音频信号的对数谱中计算出各个类别的类别值。此时,特征量计算公式生成装置10同时输出由作为最终输出的每个计算公式GA输出的评估值(概率)。 
当由特征量计算公式生成装置10生成各个类别的计算公式GA时,类别估计单元106使实际上希望被分类的音乐片段的音频信号(此后称为处理过的片段)被对数谱分析单元104转换为对数谱。然后,类别估计单元106将处理过的片段的对数谱输入到由特征量计算公式生成装置10生成的各个类别的计算公式GA中,并且计算处理过的片段的各个类别的类别值。当计算出了各个类别的类别值后,类别估计单元106将处理过的片段归类为具有最高类别值的类别。类别估计单元106还可以被配置为在分类时,将每个计算公式计算出的概率考虑在内。在此情况中,类别估计单元106利用由各个类别所对应的计算公式计算出的类别值以及计算公式计算出的概率,来计算与各个类别相对应的处理过的片段的概率(此后,称为相符概率)。然后,类别估计单元106将处理过的片段指派到相符概率最高的类别中。结果,获得了图7所示的分类结果。以这种方式获得的分类结果被输入到音高分布估计单元108、旋律概率估计单元110和旋律线确定单元112中(参考图2)。 
(2-5.音高分布估计单元108的配置示例) 
接下来,参考图8和9描述音高分布估计单元108的配置。音高分布估计单元108是用于自动估计旋律线的分布的装置。用针对随着时间改变的旋律线的各个区段计算出的期望值以及针对整个音乐片段计算出的标准 偏差来表示旋律线的分布。为了估计如根据对数谱所描述的旋律线的分布,音高分布估计单元108利用特征量计算公式生成装置10生成用于计算每个区段中的旋律线的期望值的计算公式。 
首先,与类别估计单元106一样,音高分布估计单元108将多个音频信号的对数谱作为评估值输入到特征量计算公式生成装置10中。此外,音高分布估计单元108切出每个区段中的每个音频信号的正确旋律线作为教员数据(参考图8),并将其输入到特征量计算公式生成装置10中。当以这种方式输入评估值和教员数据后,从特征量计算公式生成装置10中输出用于计算每个区段中的旋律线的期望值的计算公式。此外,类别估计单元106相对于用作评估数据的每个音频信号的对数谱,来计算由计算公式计算出的输出值与用作教员数据的正确旋律线之间的误差。此外,类别估计单元106通过利用正态分布来近似所获得的误差,从而计算出标准偏差。将由期望值以及音高分布估计单元108计算出的旋律线的标准偏差所定义的范围例如表达为图9所示的曲线图。 
以这种方式,音高分布估计单元108利用特征量计算公式生成装置10生成用于从对数谱的区段(时间段)估计出该区段中的旋律线的计算公式,并且利用该计算公式估计旋律线的分布。此时,音高分布估计单元108生成针对类别估计单元106所估计出的每个音乐类别的计算公式。然后,音高分布估计单元108在逐渐移动时间的同时,从对数谱中切出时间段,并且将切出的对数谱输入到计算公式中,并且计算期望值和旋律线的标准偏差。结果,针对对数谱的每个区段计算出了旋律线的估计值。以这种方式由音高分布估计单元108计算出的旋律线的估计值被输入到旋律线确定单元112中(参考图2)。 
(2-6.旋律概率估计单元110的配置示例) 
接下来,参考图10至12,描述旋律概率估计单元110的配置。旋律概率估计单元110是用于将从对数谱分析单元104输出的对数谱转换为旋律概率的装置。例如,旋律概率估计单元110将图10(A)所示的对数谱转换为图10(B)所示的旋律概率分布。即,旋律概率估计单元110计算 基于对数谱的时间音高空间中的每个坐标位置处的旋律概率。这里的旋律概率是指旋律线所对应的每个坐标位置处的对数谱的值的概率。首先,旋律概率估计单元110利用预先知道了其正确旋律线的音乐数据的对数谱来执行logistic回归,以估计出各个坐标位置处的旋律概率。通过该logistic回归来获得用于从对数谱计算出旋律线的函数f。然后,旋律概率估计单元110利用所获得函数来计算如图10(B)所示的旋律概率分布。 
这里,参考图11和12分别详细描述旋律概率估计单元110的上述函数f的生成方法以及使用函数f的旋律概率计算方法。首先,如图11所示,在定义了对数谱的值的时间音高空间中,旋律概率估计单元110取将估计其旋律概率的坐标位置作为基准点,并且选择具有特定大小的范围(此后称为基准范围)。例如,旋律概率估计单元110以各个估计位置为基准点,选择在音高轴方向上具有-12至+36个半音并且在时间轴方向上具有-2至+2帧的基准范围。图11示意性地示出了由旋律概率估计单元110选出的基准范围的示例。在此示例中,以黑色绘制的坐标位置是估计位置,而估计位置周围的阴影部分为基准范围。 
当以这种方式选出针对每个估计位置的基准范围时,旋律概率估计单元110计算与所选基准范围中的每个坐标位置相对应的对数谱值的对数值(能量)。此外,旋律概率估计单元110以如下方式来归一化各个坐标位置的对数值:针对基准范围内的各个坐标位置计算出的对数值的平均值变为0。归一化后的对数值x(在图11的示例中,x=(x1,...,x245);49个音高×5帧)被用于对旋律概率进行估计的函数f(x)的生成处理。利用预先给出了其正确旋律线的多段音乐数据(此后称为用于学习的音乐数据)来执行函数f(x)的生成处理。首先,旋律概率估计单元110使用用于学习的音乐数据的对数谱,并且针对每个估计位置计算归一化后的对数值x(此后,称为归一化对数值x)。此外,旋律概率估计单元110判断正确的旋律线是否包括在各个基准范围中。下面,在正确的旋律线包括在基准范围的情况中,将判决结构表达为真(true);并且在正确的旋律线未包括在基准范围的情况中,将判决结构表达为假(false)。 
当获得了归一化对数值x和判决结果后,旋律概率估计单元110使用 这些结果并生成“供输出的函数f(x),其中,归一化对数值x被输入,针对与归一化对数值x相对应的基准范围判决结果的概率为真”。旋律概率估计单元110例如可以利用logistic回归来生成函数f(x)。logistic回归是用于通过回归分析来计算结合系数的方法,假设可以通过输入变量的线性结合来表达判决结果为真或假的概率的分对数(logit)。例如,当将输入变量表达为x=(x1,...,xn)时,判决结果为真的概率为P(True),并且结合系数为β0,...,βn,logistic回归模式表达为下面的式(7)。当对下面的式(7)进行修改后,获得了下面的式(8),并且获得了用于根据输入变量x计算判决结果为真的概率P(True)的函数f(x)。 
[公式6] 
log [ P ( True ) 1 - P ( True ) ] = &beta; 0 + &beta; 1 x 1 + &CenterDot; &CenterDot; &CenterDot; + &beta; n x n . . . ( 7 )
f ( x ) = P ( True )
= 1 1 + exp [ - ( &beta; 0 + &beta; 1 x 1 + &CenterDot; &CenterDot; &CenterDot; + &beta; n x n ) ] . . . ( 8 )
旋律概率估计单元110向上面的式(7)输入从用于学习的音乐数据获得的针对每个基准范围的判决结果以及归一化的对数值x=(x1,...,x245),并且计算结合系数β0,...,β245。利用以这种方式确定的结合系数β0,...,β245,获得了用于从归一化对数值x计算判决结果为真的概率P(True)的函数f(x)。由于函数f(x)是在0.0至1.0的范围中定义的概率并且同一时间处的正确旋律线的音高数目为1,因此,以同一时间的合计值变为1的方式来使函数f(x)归一化。而且,优选地,针对每个音乐类别生成函数f(x)。因此,旋律概率估计单元110利用针对各个类别给出的用于学习的音乐数据,来计算针对每个类别的函数f(x)。 
当通过这种方法生成了针对每个类别的函数f(x)后,当处理过的片段数据的对数谱被输入时,旋律概率估计单元110选择将针对处理过的片段数据的从类别估计单元106输入的类别考虑在内的函数f(x)。例如,在处理过的片段被归类为“古典片段”的情况中,选择用于针对“古典片段”进行学习的从音乐数据获得的函数f(x)。然后,旋律概率估计单元110在 将处理过的片段数据的对数谱值转换为归一化对数值x之后,通过所选函数f(x)来计算旋律概率。当由旋律概率估计单元110计算出了时间音高空间中的每个坐标位置的旋律概率时,就获得了如图10(B)所示的旋律概率分布。以这种方式获得的旋律概率分布被输入到旋律线确定单元112(参考图2)。 
(函数f(x)生成处理的流程) 
这里,参考图12,简要描述旋律概率估计单元110的函数f(x)生成方法的处理流程。 
如图12所示,首先,旋律概率估计单元110针对时间轴方向开始循环处理(S102)。此时,表示时间轴方向上的估计位置的时间t(帧编号t)被设置。然后,旋律概率估计单元110开始针对音高轴方向的循环处理(S104)。此时,表示音高轴方向上的估计位置的音高o被设置。然后,旋律概率估计单元110获取在步骤S102和S104中设置的时间t和音高o所表示的估计位置的基准范围的归一化对数值x(S106)。例如,估计位置(t,o)的周围(t-2至t+2,o-12至o+36)被选作基准范围,并且归一化对数值x={x(t+Δt,o+Δo);-2≤Δt≤2,-12≤o≤36}被计算出来。接下来,旋律概率估计单元110利用通过使用用于学习的音乐数据的学习处理预先获得的函数f(x),来计算时间t和音高o处的旋律概率(S108)。 
由时间t和音高o指示的估计位置的旋律概率由步骤S106和S108估计出。现在,旋律概率估计单元110返回步骤S104的步骤(S110),并且将估计位置的音高o递增1个半音并重复步骤S106和S108的处理。旋律概率估计单元110通过每次使估计位置的音高o递增1个半音来针对特定音高范围(例如,o=12至72)执行步骤S106和S108的处理。针对特定音高范围执行了步骤S106和S108的处理之后,旋律概率估计单元110前进到步骤S112的处理。 
在步骤S112,旋律概率估计单元110在时间t处归一化旋律概率,以使得旋律概率的和变为1(S112)。即,相对于步骤S102中设置的估计位置的时间t,在步骤S112中以使针对特定音高范围计算出的旋律概率的和变为1的方式来归一化每个音高o的旋律概率。然后,旋律概率估计单元 110返回步骤S102的处理(S114),并且在使估计位置的时间t递增1帧后重复步骤S104至S112的处理。旋律概率估计单元110通过每次使估计位置的时间t递增1帧来针对特定时间范围(例如,t=1至T)执行步骤S104至S112的处理。当针对特定时间范围执行了步骤S104至S112的处理之后,旋律概率估计单元110结束旋律概率的估计处理。 
(2-7.旋律线确定单元112的配置示例) 
接下来,参考图13至15,描述旋律线确定单元112的配置。图13示出旋律概率分布。旋律线确定单元112是用于基于由旋律概率估计单元110估计出的旋律概率以及由音高分布估计单元108估计出的期望值、标准偏差等来确定可能的旋律线的装置。为了确定可能的旋律线,旋律线确定单元112在时间音高空间中执行搜索具有最高旋律概率的路径的处理。针对要执行的路径搜索,使用了下面示出的概率p(Δo)和p(nt|nt-1)以及音高分布估计单元108计算出的P(o|Wt)。如已经描述过的,概率P(o|Wt)是在某个时间t处的音高o处的旋律的概率。 
首先,旋律线确定单元112计算改变量为Δo的音高转变在每个音乐数据的正确旋律线处的出现率。当计算出了多段音乐数据的每个音高转变Δo的出现率之后,旋律线确定单元112针对每个音高转变Δo,计算所有段音乐数据的出现率的平均值和标准偏差。然后,通过利用以上述方式计算出的与每个音高转变Δo有关的出现率的平均值和标准偏差,旋律线确定单元112通过具有平均值和标准偏差的高斯分布来近似概率p(Δo)。 
接下来,对概率p(nt|nt-1)进行说明。概率p(nt|nt-1)表示反映了从音高nt-1转变为音高nt时的转变方向的概率。音高nt取如下值中的任一个:Cdown,C#down,...,Bdown,Cup,C#up,...,Bup。这里,“down”是指音高向下,并且“up”是指音高向上。另一方面,nt-1不将音高的向上和向下考虑在内,并且取值C,C#,...,B中的任一个。例如,概率p(Dup|C)表示音高C上升为音高D的概率。通过将实际基调(例如D)转移为特定基调(例如C)来使用概率p(nt|nt-1)。例如,在当前基调为D并且特定基调为C的情况中,针对F#→Adown的转变概率参照了概率p(Gdown|E),这是 因为因基调的转移而使F#变为E并且A变为G。 
同样,对于概率p(nt|nt-1),如在概率p(Δo)的情况中一样,旋律线确定单元112计算每个音高转变nt-1→nt在每个音乐数据的正确旋律线中的出现率。在针对多段音乐数据计算出了每个音高转变nt-1→nt的出现率之后,旋律线确定单元112针对每个音高转变nt-1→nt,来计算针对所有段音乐数据的出现率的平均值和标准偏差。然后,通过利用以上述方式计算出的与每个音高转变nt-1→nt有关的出现率的平均值和标准偏差,旋律线确定单元112通过具有平均值和标准偏差的高斯分布来近似概率p(nt|nt-1)。 
图14概念性地示出了这些概率。在图14的示例中,旋律线的当前音高为C4。在时间t1处的旋律线的音高转变情况中,参考了概率p(Δo)和p(nt|nt-1)。例如,在从音高C4到音高D4的转变的情况中,音高之差为+2半音。而且,在图14的示例中,转变是去往同一八音度中的较高音高的。因此,参考了概率p(Δo=+2)和概率p(Dup|C)。另一方面,在从音高C4到音高G3的转变情况中,音高之差为-5半音。而且,在图14的示例中,转变是去往较低八音度中的较低音高的。因此,参考了概率p(Δo=-2)和概率p(Gdown|C)。类似地,在旋律在时间t1时转变到音高D4然后在时间t2时到音高G3的情况中,参考了概率p(Δo=-7)和概率p(Gdown|D)。此外,作为音高C4、D4和G3的每个的概率,参考了概率P(o|Wt)。 
旋律线是通过利用以上述方式获得的概率P(o|Wt),p(Δo)和p(nt|nt-1)来确定的。然而,为了使用概率p(nt|nt-1),要对其旋律线进行估计的音乐数据的基调成为必要。因此,旋律线确定单元112利用基调检测单元118来检测音乐数据的基调。后面将描述基调检测单元118的配置。这里,在假设已经给出音乐数据的基调的情况下,来描述旋律线的确定方法。 
旋律线确定单元112利用维特比搜索(Viterbi serch)来确定旋律线。Viterbi搜索本身是基于隐式马可夫模型的公知路径搜索方法。除概率P(o|Wt),p(Δo)和p(nt|nt-1)外,旋律线确定单元112还将由旋律概率估计单元110针对每个估计位置估计出的旋律概率用于维特比搜索。下面,将时间t和音高o处的旋律概率表达为p(Mt|o,t)。利用这些概率,将某个时间t处的音高o为旋律的概率P(o,t)表达为下面的式(9)。将从音高o转变为 同一音高o的概率P(t+Δt,o|t,o)表达为下面的式(10)。此外,将从音高o转变为不同音高o+Δo的概率P(t+Δt,o+Δo|t,o)表达为下面的式(11)。 
[公式7] 
P(o,t)=p(Mt|o,t)P(o|Wt)                  ...(9) 
P(o,t+Δt|o,t)=(1-∑p(nt|nt-1))p(Δo)    ...(10) 
P(o+Δo,t+Δt|o,t)=p(nt|nt-1)p(Δo)      ...(11) 
当利用这些表达式时,从节点q1(时间t1,音高o27)转移到节点(时间t2,音高o26)的情况的概率P(q1,q2)表达为P(q1,q2)=p(nt2|nt1)p(Δo=-1)p(M1|o27,t1)p(o27|Wt1)。如上那样表达的概率在音乐片段中为最大的路径被提取为可能的旋律线。这里,将每条维特比路径的概率的对数值作为路径搜索的基准。例如,诸如log(p(nt2|nt1))+log(p(Δo=-1))+log(p(M1|o27,t1))+log(p(o27|Wt1))之类的对数值之和将用于log(P)(q1,q2))。 
此外,旋律线确定单元112可以被配置为将通过对各种类型的概率执行加权获得的相加的经加权对数值作为维特比搜索的基准,而不是简单地将对数值之和用作基准。例如,旋律线确定单元112将通过节点的log(p(Mt|o,t),b1*log(p(o|Wt))以及通过节点之间的转变的b2*log(pnt|nt-1)和b3*log(p(Δo))相加之和,用作维特比搜索的基准。这里,b1、b2和b3是给予每种类型的概率的权重参数。即,旋律线确定单元112计算遍及音乐片段的上述相加的经加权对数值,并且提取相加后的对数值最大的路径。由旋律线确定单元112提取的路径被确定为旋律线。 
此外,优选地,用于维特比搜索的概率和权重参数根据类别估计单元106估计出的音乐类别而不同。例如,对于针对被归类为“古典片段”的音乐片段的旋律线的维特比搜索,最好使用从预先给出了正确旋律线的大量“古典片段”中获得的概率以及针对“古典片段”调谐过的参数。由旋律线确定单元112以这种方式确定的旋律线被输入平滑单元114(参考图2)。 
(2-8.平滑单元114的配置示例) 
接下来,描述平滑单元114的配置。平滑单元114是用于针对由音乐片段的节拍所确定的每个区段来对由旋律线确定单元112确定的旋律线进行平滑的装置。音乐数据的节拍是由节拍检测单元116检测到的。将在后面描述节拍检测单元116的配置。例如,当由节拍检测单元116检测到节拍时,平滑单元114针对每个八音度音符的旋律线执行投票,并且取最频繁出现的音高作为旋律线。节拍区段可以包括多个音高作为旋律线。因此,平滑单元114在每个节拍区段中检测被确定为旋律线的音高的出现频率,并且通过最频繁出现的音高来平滑每个节拍区段的音高。以这种方式针对每个节拍区段平滑过的音高作为旋律线被输出到外面。 
(2-9.节拍检测单元116和基调检测单元118的配置示例) 
下面描述尚未描述的节拍检测单元116和基调检测单元118的配置。这里,还将描述用于计算在基调检测单元118的基调检测处理中使用的和弦概率的和弦概率检测单元120的配置示例。如后面所述的,和弦概率检测单元120的处理结果是基调检测单元118的处理所需要的。而且,节拍检测单元116的处理结果是和弦概率检测单元120的处理所需要的。因此,将以节拍检测单元116、和弦概率检测单元120和基调检测单元118的顺序来进行描述。 
(2-9-1.节拍检测单元116的配置示例) 
首先,描述节拍检测单元116的配置。如上所述,节拍检测单元116的处理结果被用于和弦概率检测单元120的处理以及检测将由平滑单元114使用的音乐片段的节拍的处理。如图16所示,节拍检测单元116由节拍概率计算单元142和节拍分析单元144构成。节拍概率计算单元142是用于基于音乐数据的对数谱计算每帧作为节拍位置的概率的装置。而且,节拍分析单元144是用于基于由节拍概率计算单元142计算出的每帧的节拍概率来检测节拍位置的装置。下面,将详细描述这些结构元件的功能。 
首先,将描述节拍概率计算单元142。节拍概率计算单元142针对从对数谱分析单元104输入的对数谱的特定时间单元(例如,1帧)的每个,来计算节拍包括在时间单位中的概率(此后称为“节拍概率”)。此外,当特定时间单元为1帧时,可以认为节拍概率是每帧与节拍位置(节拍在时间轴上的位置)相符的概率。由节拍概率计算单元142用来计算节拍概率的公式是通过特征量计算公式生成装置10使用学习算法而生成的。而且,诸如图17所示的那些数据之类的数据被给予特征量计算公式生成装置10作为供学习的教员数据和评估数据。在图17中,用于计算节拍概率的时间单位为1帧。 
如图17所示,从节拍位置已知的音乐片段的音频信号转换来的对数谱的片段(此后称为“部分对数谱”)以及各个部分对数谱的节拍概率被提供给特征量计算公式生成装置10。即,部分对数谱被提供给特征量计算公式生成装置10作为评估数据,并且节拍概率作为教员数据。这里,在将节拍概率的计算准确度与处理成本之间的折中考虑在内的情况下,来确定部分对数谱的窗宽度。例如,部分对数谱的窗宽度可以包括将计算其节拍概率的帧之前和之后的7帧(即,总计15帧)。 
此外,被提供作为教员数据的节拍概率例如基于已知的节拍位置并且利用真值(1)和假值(0)来指示节拍是否包括在每个部分对数谱的中心帧中。这里,未考虑节线(bar)的位置,并且当中心帧对应于节拍位置时,节拍概率为1;并且当中心帧与节拍位置不相对应时,节拍概率为0。在图17所示示例中,部分对数谱Wa,Wb,Wc,...的节拍概率分布给出为1,0,1,...,0。用于从部分对数谱计算节拍概率的节拍概率公式P(W)是由特征量计算公式生成装置10基于多组评估数据和教员数据生成的。当以这种方式生成节拍概率公式P(W)时,节拍概率计算单元142从处理过的音乐数据的对数谱中切出针对每帧的部分对数谱,并且通过将节拍概率公式P(W)应用到各个部分对数谱来顺序地计算节拍概率。 
图18是示出由节拍概率计算单元142计算出的节拍概率的示例的说明图。图18(A)示出了将从对数谱分析单元104输入到节拍概率计算单元142中的对数谱的示例。另一方面,在图18(B)中,用时间轴上的多 边形线示出了节拍概率计算单元142基于对数谱(A)计算出的节拍概率。例如,参考帧位置F1,可见,部分对数谱W1对应于帧位置F1。即,帧F1的节拍概率P(W1)=0.95是根据对数谱W1计算出来的。类似地,基于从对数谱切出的部分对数谱W2将帧位置F2的节拍概率P(W2)计算为0.1。帧位置F1的节拍概率P(W1)较高而帧位置F2的节拍概率P(W2)较低,因此,可以说帧位置F1与节拍位置相对应的概率较高,而帧位置F2与节拍位置相对应的概率较低。 
此外,可以通过另一学习算法来生成由节拍概率计算单元142使用的节拍概率公式。然而,应当注意,通常,对数谱包括多种参数,例如鼓声的频谱、因说话引起的频谱,以及因和弦的改变引起的频谱的改变。在鼓声频谱的情况中,很有可能击鼓的时间点为节拍位置。另一方面,在语音频谱的情况中,很有可能发声的开始时间点为节拍位置。为了总地利用多种参数来高准确度地计算节拍概率,使用特征量计算公式生成装置10或者JP-A-2008-123011中公开的学习算法是合适的。由节拍概率计算单元142以上述方式计算出的节拍概率被输入节拍分析单元144。 
节拍分析单元144基于从节拍概率计算单元142输入的各帧的节拍概率来确定节拍位置。如图16所示,节拍分析单元144包括突起(onset)检测单元152、节拍得分计算单元154、节拍搜索单元156、恒定节奏判定单元158、针对恒定节奏的节拍重搜索单元160、节拍确定单元162以及节奏修订单元164。各帧的节拍概率从节拍概率计算单元142输入突起检测单元152、节拍得分计算单元154和节奏修订单元164。 
突起检测单元152基于从节拍概率计算单元142输入的节拍概率来检测包括在音频信号中的突起。这里的突起是指音频信号中产生声音的时间点。更具体地,节拍概率高于特定阈值并且取最大值的点称为突起。例如,在图19中,示出了基于针对音频信号计算出的节拍概率而检测到的突起的示例。在图19中,与图18(B)一样,用时间轴上的多边形线来示出由节拍概率计算单元142计算出的节拍概率。在图19所示的节拍概率曲线图的情况中,取最大值的点为三个点,即,帧F3、F4和F5。其中,对于帧F3和F5,这些时间点处的节拍概率高于预先给出的特定阈值 Th1。另一方面,帧F4的时间点处的节拍概率低于阈值Th1。在这种情况中,两个点,即帧F3和F5被检测为突起。 
这里,参考图20,简要描述突起检测单元152的突起检测处理流程。如图20所示,首先,突起检测单元152相对于针对各帧计算出的节拍概率,从第一帧开始,顺序地执行针对帧的循环(S1322)。然后,突起检测单元152相对于每帧,判断节拍概率是否高于特定阈值(S1324),以及节拍概率是否指示了最大值(S1326)。这里,当节拍概率高于特定阈值并且节拍概率最大时,突起检测单元152前进到步骤S1328。另一方面,当节拍概率低于特定阈值或者节拍概率不是最大的时,则跳过步骤S1328的处理。在步骤S1328,当前时间(或者帧编号)被添加到突起位置的列表中(S1328)。然后,当对于所有帧的处理结束时,突起检测处理的循环终止(S1330)。 
通过如上所述的突起检测单元152的突起检测处理,生成了包括在音频信号中的突起的位置列表(各个突起的时间或帧编号的列表)。而且,通过上述突起检测处理,例如检测到了如图21所示的突起的位置。图21示出了与节拍概率有关的由突起检测单元152检测到的突起的位置。在图21中,利用示出了节拍概率的多边形线之上的圆圈示出了由突起检测单元152检测到的突起的位置。在图21的示例中,将节拍概率高于阈值Th1中的最大值检测为15个突起。由突起检测单元152以这种方式检测到的突起的位置被输出到节拍得分计算单元154(参考图16)。 
节拍得分计算单元154针对突起检测单元152检测到的每个突起,来计算指示形成节拍序列的节拍中的节拍与恒定节奏(或恒定节拍间隔)的相符程度的节拍得分。 
首先,节拍得分计算单元154设置所关注突起,如图22所示。在图22的示例中,在由突起检测单元152检测到的突起中,帧位置Fk(帧编号k)处的突起被设为所关注突起。此外,参考了离帧位置Fk特定距离d的整数倍处的帧位置序列Fk-3,Fk-2,Fk-1,Fk,Fk+1,Fk+2和Fk+3。下面,将特定距离d称为转移量,并且将相隔转移量d整数倍处的帧位置称为转移位置。节拍得分计算单元154取包括在已计算出节拍概率的帧的群组F中的所有 转移位置(...Fk-3,Fk-2,Fk-1,Fk,Fk+1,Fk+2和Fk+3...)处的节拍概率之和作为所关注突起的节拍得分。例如,当帧位置Fi处的节拍概率为P(Fi)时,与针对所关注突起的帧编号k和转移量d相关的节拍得分BS(k,d)用下面的式(12)来表达。可以将由下面的式(12)表达的节拍得分BS(k,d)说成是这样的得分,该得分指示音频信号的第k帧处的突起与以转移量d作为节拍间隔的恒定节奏同步的概率。 
[公式8] 
BS ( k , d ) = &Sigma; n P ( F k + nd ) . . . ( 12 )
这里,参考图23,将简要描述节拍得分计算单元154的节拍得分计算处理流程。 
如图23所示,首先,节拍得分计算单元154相对于突起检测单元152检测到的突起,从第一个突起开始,顺序地执行针对突起的循环(S1322)。此外,得分计算单元154相对于所关注突起执行针对所有转移量d的循环(S1344)。作为循环对象的转移量d是可以用在音乐演奏中的所有节拍的间隔值。节拍得分计算单元154随后初始化节拍得分BS(k,d)(即,将0代入节拍得分BS(k,d))(S1346)。接下来,节拍得分计算单元154执行针对转移系数n的循环,转移系数n用于转移所关注突起的帧位置Fd(S1348)。然后,节拍得分计算单元154顺序地将各个转移位置处的节拍概率P(Fk+nd)添加到节拍得分BS(k,d)中(S1350)。然后,当针对所有转移系数n的循环结束时(S1352),节拍得分计算单元154记录所关注突起的帧位置(帧编号k)、转移量d和节拍得分BS(k,d)(S1354)。节拍得分计算单元154针对所有突起的每个转移量重复这种节拍得分BS(k,d)计算(S1356,S1358)。 
通过如上所述的节拍得分计算单元154的节拍得分计算处理,针对由突起检测单元152检测到的每个突起输出遍及多个转移量d的节拍得分BS(k,d)。通过上述节拍得分计算处理获得了如图24所示的节拍得分分布图。节拍得分分布图使从节拍得分计算单元154输出的节拍得分可视化。在图24中,在沿着横轴的时间序列中示出了由突起检测单元152检测到 的突起。图24中的纵轴表示已针对其计算出了针对每个突起的节拍得分的转移量。此外,图中每个点的颜色浓度表示针对转移量处的突起计算出的节拍得分的水平。在图24的示例中,在转移量d1的附近,所有突起的节拍得分都较高。当假设以转移量d1处的节奏来演奏音乐片段时,很有可能检测到的突起中的许多突起对应于节拍。由节拍得分计算单元154计算出的节拍得分被输入到节拍搜索单元156。 
节拍搜索单元156基于由节拍得分计算单元154计算出的节拍得分,搜索示出了可能的节奏波动的突起位置的路径。例如,可以将基于隐式马可夫模型的维特比搜索算法用作节拍搜索单元156的路径搜索方法。对于节拍搜索单元156的维特比搜索,例如突起编号被设置为时间轴(横轴)的单位,并且在节拍得分计算时使用的转移量被设为观察序列(纵轴),如图25示意性地示出的。节拍搜索单元156搜索连接了分别由观察序列和时间轴的值定义的节点的维特比路径。换言之,节拍搜索单元156取用在节拍得分计算单元154计算节拍得分时使用的转移量和突起的所有组合中的每种组合来作为目标节点。此外,每个节点的转移量等同于针对节点假设的节拍间隔。因此,下面,可以将每个节点的转移量称为节拍间隔。 
对于如上所述的节点,节拍搜索单元156沿着时间轴顺序地选择节点中的任意节点,并且评估由所选节点序列形成的路径。此时,在节点选择中,允许节拍搜索单元156跳过突起。例如,在图25的示例中,在第k-1个突起之后,第k个突起被跳过,而第k+1个突起被选择。这是因为通常,在突起中混合了是节拍的突起以及不是节拍的突起,并且必须从包括不经过不是节拍的突起的路径在内的路径中搜索可能路径。 
例如,对于路径的评估,可以使用四个评估值,即(1)节拍得分,(2)节奏改变得分,(3)突起移动得分以及(4)跳过的代价(penalty)。其中,(1)节拍得分是节拍得分计算单元154针对每个节点计算出来的节拍得分。另一方面,(2)节奏改变得分,(3)突起移动得分以及(4)给出了节点之间的转变。在给出节点之间的转变的评估值中,(2)节奏改变得分是基于经验知识(通常,节奏在音乐片段中逐渐地波动)给出的评估值。因此,当转变之前的节点处的节拍间隔与转换之 后的节点处的节拍间隔之差越小时,给予节奏改变得分的值就越高。 
这里,参考图26,详细描述(2)节奏改变得分。在图26的示例中,当前选择了节点N1。节拍搜索单元156可能选择节点N2至N5中的任一节点作为下一节点。虽然还可以选择除N2至N5之外的节点,然而,为了方便描述,将描述四个节点,即节点N2至N5。这里,当节拍搜索单元156选择节点N4时,由于节点N1和节点N4处的节拍间隔之间不存在差异,因此,将给出最高值作为节奏改变得分。另一方面,当节拍搜索单元156选择节点N3或N5时,由于节点N1和节点N3或N5处的节拍间隔之间存在差异,因此,与选择节点N4时相比而言给出了较低的节奏改变得分。此外,当节拍搜索单元156选择节点N2时,节点N1和节点N2处的节拍间隔之差比选择节点N3或N5时大。因此,将给出甚至更低的节奏改变得分。 
接下来,参考图27,详细描述(3)突起移动得分。突起移动得分是根据转变之前和之后的节点的突起位置之间的间隔是否与转变之前的节点处的节拍间隔相匹配来给出的评估值。在图27(A)中,当前选择了针对第k个突起的具有节拍间隔d2的节点N6。而且,两个节点N7和N8被示为可供节拍搜索单元156接下来选择的节点。其中,节点N7是第k+1个突起的节点,并且第k个突起与第k+1个突起之间的间隔(例如,帧编号之差)为D7。另一方面,节点N8是第k+2个突起的节点,并且第k个突起与第k+2个突起之间的间隔为D8。 
这里,当假设路径上的所有节点一定与恒定节奏中的节拍位置相对应的理想路径时,相邻节点的突起位置之间的间隔是各个节点处的节拍间隔的整数倍(当不存在休止符时为相同间隔)。因此,如图27(B)所示,关于当前节点N6,当突起位置之间的间隔越接近节点N6处的节拍间隔d2的整数倍时,将给出越高的突起移动得分。在图27(B)的示例中,由于节点N6和N8之间的间隔D8比节点N6和N7之间的间隔D7更接近节点N6处的节拍间隔d2的整数倍时,越高的突起移动得分被给予从节点N6到节点N8的转变。 
接下来,参考图28,详细描述(4)跳过的代价。跳过的代价是用于 在节点之间的转变中限制过多地跳过突起的评估值。因此,当在一次转变中跳过越多的突起时,得分越低,而在一次转变中跳过越少的突起时,得分越高。这里,越低的得分意味着越高的代价。在图28的示例中,第k个突起的节点N9被选为当前节点。而且,在图28的示例中,三个节点N10、N11和N12被示为可供节拍搜索单元156接下来选择的节点。节点N10是第k+1个突起的节点,节点N11是第k+2个突起的节点,并且节点N12是第k+3个突起的节点。 
因此,在从节点N9到节点N10的转变情况中,未跳过突起。另一方面,在从节点N9到节点N11的转变情况中,跳过了第k+1个突起。此外,在从节点N9到节点N12的转变的情况中,跳过了第k+1和第k+2个突起。因此,跳过的代价在从节点N9到节点N10的转变情况中取相对高的值,在从节点N9到节点N11的转变情况中取中间值,并且在从节点N9到节点N12的转变的情况中取较低的值。结果,在路径搜索时,可以防止大量突起被跳过从而使节点之间的间隔保持恒定的现象。 
到此为止,已描述了用于评估由节拍搜索单元156搜索出的路径的四种评估值。相对于所选路径,通过顺序地将给予每个节点或给予包括在路径中的节点之间的转变的上述评估值(1)至(4)彼此相乘,来执行利用图25描述的路径的评估。节拍搜索单元156将所有可想到的路径中评估值之积最大的路径确定为最优路径。以这种方式确定的路径例如如图29所示。图29示出了被节拍搜索单元156确定为最优路径的维特比路径的示例。在图29的示例中,在图24所示的节拍得分分布图上用虚线描绘出了由节拍搜索单元156确定的最优路径的轮廓。在图29的示例中,可见,由节拍搜索单元156针对其进行了搜索的音乐片段的节奏以节拍间隔d3为中心波动。由节拍搜索单元156确定的最优路径(包括在最优路径中的节点列表)被输入恒定节奏判定单元158、针对恒定节奏的节拍重搜索单元160以及节拍确定单元162。 
恒定节奏判定单元158判断由节拍搜索单元156确定的最优路径是否表示针对各个节点所假设的节拍间隔的方差较小的恒定节奏。首先,恒定节奏判定单元158计算包括在从节拍搜索单元156输入的最优路径中的节 点处的一组节拍间隔的方差。然后,当计算出的方差小于预先给定的特定阈值时,恒定节奏判定单元158判定节奏恒定,并且当计算出的方差大于特定阈值时,恒定节奏判定单元158判定节奏不恒定。例如,恒定节奏判定单元158如图30所示那样来判定节奏。 
例如,在图30(A)所示的示例中,在由虚线勾绘出的最优路径中的突起位置的节拍间隔随着时间而变化。对于这样的路径,可以如恒定节奏判定单元158的与阈值相关的判定结果一样,将节奏判定为不恒定。另一方面,在图30(B)所示的示例中,在由虚线勾绘出的最优路径中的突起位置的节拍间隔在整个音乐片段中几乎恒定。如恒定节奏判定单元158的与阈值相关的判定结果一样,可以将这种路径判定为恒定的。以这种方式获得的恒定节奏判定单元158的与阈值相关的判定结果被输入针对恒定节奏的节拍重搜索单元160中。 
当由节拍搜索单元156提取出的最优路径被恒定节奏判定单元158判定为指示恒定节奏时,针对恒定节奏的节拍重搜索单元160通过将作为搜索对象的节点限制为仅在最频繁出现的节拍间隔周围的那些节点,来重新执行路径搜索。例如,针对恒定节奏的节拍重搜索单元160通过图31所示的方法来执行针对路径的重新搜索处理。此外,与图25一样,针对恒定节奏的节拍重搜索单元160针对以节拍间隔作为观察序列的时间轴(突起编号)的一组节点来执行针对路径的重新搜索处理。 
例如,假设包括在被节拍搜索单元156确定为最优路径的路径中的节点处的节拍间隔的最频值(mode)为d4,并且路径的节奏被恒定节奏判定单元158判定为恒定。在此情况中,针对恒定节奏的节拍重搜索单元160仅以节拍间隔d满足d4-Th2≤d≤d4+Th2(Th2是特定阈值)的节点作为搜索对象来再次搜索路径。在图31的示例中,示出了针对第k个突起的五个节点N12至N16。其中,N13至N15处的节拍间隔包括在针对恒定节奏的节拍重搜索单元160的搜索范围(d4-Th2≤d≤d4+Th2)内。反之,N12和N16处的节拍间隔未包括在上述搜索范围中。因此,对于第k个突起,仅三个节点N13至N15成为针对恒定节奏的节拍重搜索单元160的重执行对象。 
此外,除要成为搜索对象的节点范围之外,针对恒定节奏的节拍重搜索单元160的重搜索处理的流程类似于节拍搜索单元156的路径搜索处理。根据如上所述的针对恒定节奏的节拍重搜索单元160的路径重搜索处理,对于具有恒定节奏的音乐片段,可以减少路径搜索结果中可能部分地出现的与节拍位置有关的错误。由针对恒定节奏的节拍重搜索单元160重新确定的最优路径被输入节拍确定单元162中。 
节拍确定单元162基于由节拍搜索单元156确定的最优路径或由针对恒定节奏的节拍重搜索单元160重新确定的最优路径以及包括在路径中的每个节点处的节拍间隔,来确定包括在音频信号中的节拍位置。例如,节拍确定单元162利用如图32所示的方法来确定节拍位置。在图32(A)中,示出了由突起检测单元152检测到的第k个突起附近的14个突起。在该示例中,示出了由突起检测单元152检测出的在第k个突起附近的14个突起。作为对比,图32(B)示出了由节拍搜索单元156或针对恒定节奏的节拍重搜索单元160确定的最优路径中所包括的突起。在(B)的示例中,图(A)所示的14个突起中的第k-7个突起、第k个突起和第k+6个突起(帧编号Fk-7,Fk,Fk+6)包括在最优路径中。此外,第k-7个突起处的节拍间隔(等同于在相对应节点处的节拍间隔)为dk-7,并且第k个突起处的节拍间隔为dk。 
对于这些突起,首先,节拍确定单元162取包括在最优路径中的突起的位置作为音乐片段的节拍位置。然后,节拍确定单元162根据各个突起处的节拍间隔在包括在最优路径中的相邻突起之间布置补充节拍。此时,节拍确定单元162首先确定补充节拍的数目以在最优路径上彼此相邻的突起之间布置节拍。例如,如图33所示,节拍确定单元162取两个相邻突起的位置为Fh和Fh+1,并且突起位置Fh处的节拍间隔为dh。在此情况中,将布置在Fh和Fh+1之间的补充节拍的数目Bfill由下面的等式给出。 
[公式9] 
B fill = Round ( F h + 1 - F h d h ) - 1 . . . ( 13 )
这里,Round(...)表示将“...”圆整为最近的整数。根据上面的式 (13),将由节拍确定单元162布置的补充节拍的数目为通过以下计算获得数:将相邻突起之间的间隔除以节拍间隔获得的值圆整为最近的整数,然后考虑到栅栏(fencepost)问题而从所获得的整数中减去1。 
接下来,节拍确定单元162通过所确定的节拍数目将补充节拍布置在最优路径上彼此相邻的突起之间,以使得节拍以相等的间隔排列。在图32(C)中,示出了布置了补充节拍后的突起。在(C)的示例中,两个补充节拍被布置在第k-7个突起与第k个突起之间,并且两个补充节拍被布置在第k个突起与第k+6个突起之间。应当注意,由节拍确定单元162提供的补充节拍的位置不一定与突起检测单元152检测到的突起的位置相对应。利用这种配置,可以确定节拍的位置,而不受节拍位置之外的局部产生的声音的影响。此外,甚至在节拍位置处存在休止符而不产生声音的情况中,也可以适当地掌握节拍位置。以这种方式由节拍确定单元162确定的节拍位置的列表(包括最优路径上的突起以及由节拍确定单元162布置的补充节拍)被输入节奏修订单元164中。 
节奏修订单元164修订由节拍确定单元162确定的节拍位置所指示的节奏。修订之前的节奏可能是音乐片段的原始节奏的恒定倍数,例如2倍、1/2倍、3/2倍、2/3倍等(参考图34)。因此,节奏修订单元164修订被错误地掌握为恒定倍数的节奏,并重现音乐片段的原始节奏。这里,参考示出了由节拍确定单元162确定的节拍位置的图案的图34的示例。在图34的示例中,在图中所示的时间范围中,6个节拍被包括用于图案(A)。作为对比,对于图案(B),12个节拍包括在相同的时间范围中。即,以图案(A)的节拍位置为基准,图案(B)的节拍位置指示了2倍的节奏。 
另一方面,对于图案(C-1),3个节拍包括在相同时间范围中。即,以图案(A)的节拍位置为基准,图案(C-1)的节拍位置指示了1/2倍的节奏。此外,对于图案(C-2),与图案(C-1)一样,3个节拍包括在相同时间范围中,并且因此,以图案(A)的节拍位置为基准指示了1/2倍的节奏。然而,图案(C-1)和图案(C-2)因在根据基准节奏改变节奏时将余下的节拍位置而彼此不同。例如通过下面的过程(S1)至(S3)来执 行节奏修订单元164的节奏修订。 
(S1)确定基于波形估计出的估计节奏 
(S2)确定多个倍率中的最优基本倍率 
(S3)重复(S2)直到基本倍率为1 
首先,将对(S1)确定基于波形估计出的估计节奏进行说明。节奏修订单元164确定估计节奏,该估计节奏是根据出现在音频信号的波形中的声音特征被估计为是适当的。例如,由中公开的学习算法生成的特征量计算公式生成装置10或用于估计节奏辨别的计算公式(估计节奏辨别公式)被用于估计节奏的确定。例如,如图35所示,多个音乐片段的对数谱作为评估数据被提供到特征量计算公式生成装置10中。在图35的示例中,提供了对数谱LS1和LSn。此外,通过人类听音乐片段而判定为正确的节奏被提供作为教员数据。在图35的示例中,提供了每个对数谱的正确节奏(LS1:100,...,LSn:60)。基于多组这种评估数据和教员数据生成了估计节奏辨别公式。节奏修订单元164利用所生成的估计节奏辨别公式来计算处理过的片段的估计节奏。 
接下来,将说明(S2)确定多个倍率中的最优基本倍率。节奏修订单元164从多个基本倍率中确定使修订后的节奏最接近音乐片段的原始节奏的基本倍率。这里,基本倍率是作为用于修订节奏的恒定比的基本单位的倍率。例如,将七种类型的倍率,即,1/3,1/2,2/3,1,3/2,2和3中的任一种用作基本倍率。然而,本发明的应用范围不限于这些示例,并且基本倍率例如可以是五种类型的倍率,即1/3,1/2,1,2和3中的任一种。为了确定最优基本倍率,节奏修订单元164首先通过各个基本倍率计算修订了节拍位置后的平均节拍概率。然而,在基本倍率为1的情况中,平均节拍概率是针对未修订节拍位置的情况来计算的。例如,由节奏修订单元164通过如图36所示的方法来针对每个基本倍率计算平均节拍概率。 
在图36中,在时间轴上用多边形线示出了由节拍概率计算单元142计算出的节拍概率。此外,在纵轴上示出了根据倍率中的任意一个修订后的三个节拍的帧编号Fh-1,Fh和Fh+1。这里,当帧编号Fh处的节拍概率为BP(h)时,根据倍率r修订过的节拍位置组F(r)的平均节拍概率BPAVG(r)由 下面的式(14)给出。这里,m(r)是包括在组F(r)中的帧编号的片段数。 
[公式10] 
BP AVG ( r ) = &Sigma; F ( h ) &Element; F ( r ) BP ( h ) m ( r ) . . . ( 14 )
如利用图34的图案(C-1)和(C-2)所述的,在基本倍率r为1/2的情况中,存在用于节拍位置的两种类型的候选图案。在这种情况中,节奏修订单元164计算用于节拍位置的两种类型的候选图案中的每种的平均节拍概率BPAVG(r),并且采用具有较高平均节拍概率BPAVG(r)的节拍位置作为根据倍率r=1/2修订过的节拍位置。类似地,在倍率为1/3的情况中,存在用于节拍位置的三种类型的候选图案。因此,节奏修订单元164计算用于节拍位置的三种类型的候选图案中的每种的平均节拍概率BPAVG(r),并且采用具有最高平均节拍概率BPAVG(r)的节拍位置作为根据倍率r=1/3修订过的节拍位置。 
在计算出了针对每个基本倍率的平均节拍概率之后,节奏修订单元164基于估计出的节奏和平均节拍概率,计算针对每个基本倍率的修订后的节奏的似然度(likelihood)(此后,称为节奏似然度)。可以用平均节拍概率与以估计出的节奏为中心的高斯分布所示的节奏概率之积来表达节奏似然度。例如,图37所示的节奏似然度是由节奏修订单元164计算出的。 
图37(A)示出了节奏修订单元164针对各个倍率计算出的平均节拍概率。此外,图37(B)以高斯分布的形式示出了节奏概率,该高斯分布是由预先给出的特定方差σ1确定的并且以节奏修订单元164基于音频信号的波形估计出的估计节奏为中心。此外,图37(A)和37(B)的横轴表示根据每个倍率对节拍位置进行修订后的节奏的对数。节奏修订单元164通过将平均节拍概率与节奏概率彼此相乘来针对各个基本倍率计算(C)中所示的节奏似然度。在图37的示例中,虽然平均节拍概率在基本倍率为1和基本倍率为1/2时几乎相同,然而,被修订为1/2倍的节奏更接近于估计出的节奏(节奏概率更高)。因此,针对被修订为1/2倍的节 奏,计算出的节奏似然度更高。节奏修订单元164以这种方式计算节奏似然度,并且将产生最高节奏似然度的基本倍率确定为用来使修订后的节奏最接近音乐片段的原始节奏的基本倍率。 
以这种方式,通过在确定可能节奏时将可从估计节奏获得的节奏概率考虑在内,可以从作为恒定倍数关系的节奏的并且基于声音的局部波形难以辨别彼此的候选者中,准确地确定适当的节奏。当以这种方式对节奏进行修订后,节奏修订单元164执行(S3)重复(S2)直到基本倍率为1。具体地,节奏修订单元164重复平均节拍概率的计算以及针对每个基本倍率的节奏似然度的计算,直到产生最高节奏似然度的基本倍率为1为止。结果,即使在节奏修订单元164修订之前的节奏为音乐片段的原始节奏的1/4倍、1/6倍、4倍、6倍等,也可以利用通过基本倍率的组合(例如,1/2倍×1/2倍=1/4倍)获得的用于修订的适当倍率来修订节奏。 
这里,参考图38,简要描述节奏修订单元164的修订处理。如图38所示,首先,节奏修订单元164利用由特征量计算公式生成装置10预先获得的估计节奏辨别公式来从音频信号确定估计节奏(S1442)。接下来,节奏修订单元164顺序地执行针对多个基本倍率(例如1/3、1/2等)的循环(S1444)。在循环中,节奏修订单元164根据每个基本倍率来改变节拍位置并且修订节奏(S1446)。接下来,节奏修订单元164计算修订后的节拍位置的平均节拍概率(S1448)。接下来,节奏修订单元164基于在S1448处计算出的平均节拍概率以及在S1442处确定的估计出的节奏来计算针对每个基本倍率的节奏似然度(S1450)。 
然后,当针对所有基本倍率的循环结束后(S1452),节奏修订单元164确定产生最高节奏似然度的基本倍率(S1454)。然后,节奏修订单元164判断产生最高节奏似然度的基本倍率是否为1(S1456)。如果产生最高节奏似然度的基本倍率为1,则节奏修订单元164结束修订处理。另一方面,当产生最高节奏似然度的基本倍率不为1时,节奏修订单元164返回步骤S1444的处理。由此,基于根据产生最高节奏似然度的基本倍率修订的节奏(节拍位置)来再次进行根据任一基本倍率的节奏的修订。 
到此为止,已描述了节拍检测单元116的配置。平滑单元114基于以 上述方式检测到的节拍位置信息来对每个节拍区间的旋律线进行平滑,并且将其输出为旋律线的检测结果。此外,节拍检测单元116的检测结果被输入到和弦概率检测单元120中(参考图2)。 
(2-9-2.和弦概率检测单元120的配置示例) 
和弦概率检测单元120计算在节拍分析单元144检测到的每个节拍的节拍区间中演奏的每个和弦的概率(此后称为和弦概率)。如上所述,由和弦概率检测单元120计算出的和弦概率供基调检测单元118的基调检测处理使用。如图39所示,和弦概率检测单元120包括节拍区间特征量计算单元172、根音(root)特征量准备单元174和和弦概率计算单元176。 
如上所述,对数谱以及由节拍检测单元116检测到的节拍位置的信息被输入到和弦概率检测单元120中。因此,节拍区间特征量计算单元172相对于节拍分析单元144检测到的每个节拍,计算每个音符的能量,作为表示节拍区间中的音频信号的特征的节拍区间特征量。节拍区间特征量计算单元172计算每个音符的能量作为节拍区间特征量,并且将其输入根音特征量准备单元174。根音特征量准备单元174基于从节拍区间特征量计算单元172输入的每个音符的能量,来针对每个节拍区间生成用于计算和弦概率的根音特征量。例如,根音特征量准备单元174通过图40和41所示的方法生成根音特征量。 
首先,根音特征量准备单元174针对所关注的节拍区间BDi,提取所关注节拍区间BDi以及之前和之后的N个区间的每12个音符的能量(亦称为“2N+1个区间”)(参考图40)。所关注节拍区间BDi以及之前和之后的N个区间的每12个音符的能量可以被当作和弦的以音符C为根音(基本音符)的特征量。在图40的示例中,由于N为2,因此,提取出以音符C为根音的五个区间(12×5个维度)的根音特征量。接下来,根音特征量准备单元174通过将以音符C为根音的五个区间的根音特征量的12个音符的元素位置转移特定数目,来生成11个分离的根音特征量,每个根音特征量针对五个区间并且每个根音特征量以音符C#至音符B中的任一个作为根音(参考图41)。此外,对于以音符C#作为根音的情况,元 素位置被转移的转移数目为1,对于以音符D作为根音的情况转移数目为2,...,并且对于以音符B作为根音的情况转移数目为11。结果,由根音特征量准备单元174针对每12个音符生成了分别以12个音符(从音符C到音符B)中的一个作为根音的根音特征量(分别为12×5维)。 
根音特征量准备单元174针对所有节拍区间执行如上所述的根音特征量生成处理,并且准备供计算每个区间的和弦概率使用的根音特征量。此外,在图40和41的示例中,为一个节拍区间准备的特征量为12×5×12维的向量。由根音特征量准备单元174生成的根音特征量被输入和弦概率计算单元176。和弦概率计算单元176利用从根音特征量准备单元174输入的根音特征量,针对每个节拍区间计算每个和弦被演奏的概率(和弦概率)。这里的“每个和弦”例如是指基于根音(C,C#,D,...)、组分音符的数目(三和弦、第7和弦、第9和弦)、音调性(大/小)等进行辨别的和弦的每个。例如可以将通过logistic回归分析预先学习到的和弦概率公式用于计算和弦概率。 
例如,和弦概率计算单元176通过图42所示的方法来生成用于计算和弦概率的和弦概率公式。针对每种类型的和弦来执行和弦概率公式的学习。即,针对如下和弦概率公式的每个来执行下述的学习处理:例如,针对大和弦(major chord)的和弦概率公式、针对小和弦(minor chord)的和弦概率公式、针对第7和弦的和弦概率公式以及针对第9和弦的和弦概率公式。 
首先,用于已知了其正确和弦的节拍区间的多个根音特征量(例如,利用图41描述的12×5×12维向量)被提供作为用于logistic回归分析的独立变量。此外,用于预测logistic回归分析的生成概率的伪数据(dummydata)被提供用于每个节拍区间的根音特征量的每个。例如,当针对大和弦学习和弦概率公式时,如果已知和弦为大和弦,则伪数据的值为真值(1),并且对于任何其它情况伪数据的值为假值(0)。另一方面,当针对小和弦学习和弦概率公式时,如果已知和弦为小和弦则伪数据的值为真值(1),并且对于任何其它情况伪数据的值为假值(0)。对于第7和弦和第9和弦也可以如此。 
通过例如如上所述的独立变量和伪数据来针对足够数目的根音特征量(其每个针对一节拍区间)执行logistic回归分析,生成了用于从每个节拍区间的根音特征量计算和弦概率的和弦概率公式。然后,和弦概率计算单元176将从根音特征量生产单元174输入的根音特征量应用于所生成的和弦概率公式,并且顺序地计算针对每个节拍区间的各个类型的和弦的和弦概率。例如通过图43所示的方法来执行和弦概率计算单元176的和弦概率计算处理。在图43(A)中,示出了每个节拍区间的根音特征量中以音符C为根音的根音特征量。 
例如,和弦概率计算单元176将针对大和弦的和弦概率公式应用于以音符C为根音的根音特征量,并且针对每个节拍区计算和弦为“C”的和弦概率CPC。此外,和弦概率计算单元176将针对小和弦的和弦概率公式应用于以音符C为根音的根音特征量,并且针对每个节拍区计算和弦为“Cm”的和弦概率CPCm。以类似方式,和弦概率计算单元176将针对大和弦的和弦概率公式以及针对小和弦的和弦概率公式应用于以音符C#为根音的根音特征量,并且可以计算和弦为“C#”的和弦概率CPC#以及和弦为“C#m”的和弦概率CPC#m。以相同的方式(C),计算出针对和弦“B”的和弦概率CPB以及针对和弦“Bm”的和弦概率CPBm。 
如图44所示的和弦概率是通过上述方法由和弦概率计算单元176计算出的。参考图44,对于从音符C到音符B的12个音符的每个,针对某个节拍区间、针对诸如“Maj(major),”“m(minor),”“7(7th)”和“m7minor(7th)”之类的和弦来计算和弦概率。根据图44的示例,和弦概率CPC为0.88,和弦概率CPCm为0.08,和弦概率CPC7为0.01,和弦概率CPCm7为0.02,并且弦概率CPB为0.01。其他类型的和弦概率都指示为0。此外,当以上述方式改变针对多个类型的和弦的和弦概率后,和弦概率计算单元176以使得每个节拍区间的计算出的概率值的总和变为1的方式来归一化概率值。针对包括在音频信号中的所有节拍区间来重复如上所述的和弦概率计算单元176针对和弦概率的计算和归一化处理。 
和弦概率检测单元120通过如上所述的节拍区间特征量计算单元172、根音特征量准备单元174和和弦概率计算单元176的处理来计算和 弦概率。然后,由和弦概率检测单元120计算出的和弦概率被输入到基调检测单元118(参考图2)。 
(2-9-3.基调检测单元118的配置示例) 
接下来,将描述基调检测单元118的配置。如上所述,由和弦概率检测单元120计算出的和弦概率被输入到基调检测单元118。基调检测单元118是用于利用和弦概率检测单元120针对每个节拍区间计算出的和弦概率检测每个节拍区间的基调(音调性/基本音阶)的装置。如图45所示,基调检测单元118包括相对和弦概率生成单元182、特征量准备单元184、基调概率计算单元186以及基调确定单元188。 
首先,和弦概率由和弦概率检测单元120输入到相对和弦概率生成单元182。相对和弦概率生成单元182根据从和弦概率检测单元120输入的针对每个节拍区间的和弦概率,来生成用于计算每个节拍区间的基调概率的相对和弦概率。例如,相对和弦概率生成单元182通过如图46所示的方法来生成相对和弦概率。首先,相对和弦概率生成单元182从某个所关注节拍区间的和弦概率中,提取与大和弦和小和弦有关的和弦概率。这里所提取的和弦概率值被表达为总计24维度的向量,即,用于大和弦的12个音符以及用于小和弦的12个音符。下面,把包括这里所提取的和弦概率值的24维向量当作假设以音符C作为基调的相对和弦概率。 
接下来,相对和弦概率生成单元182将针对大和弦和小和弦的所提取和弦概率的12个音符的元素位置转移特定数目。通过以这种方式进行转移,生成了11个分离的相对和弦概率。此外,转移元素位置的转移数目与例如图41所述的生成根音特征量时的转移数目相同。以这种方式,相对和弦概率生成单元182生成了12个分离的相对和弦概率,每个和弦概率假设以从音符C到音符B的12个音符之一作为基调。相对和弦概率生成单元182针对所有节拍区间执行如上所述的相对和弦概率生成处理,并且将所生产的相对和弦概率输入到特征量准备单元184。 
特征量准备单元184生成用于计算每个节拍区间的基调概率的特征量。从相对和弦概率生成单元182输入到特征量准备单元184的根据相对 和弦概率生成的针对每个节拍区间的和弦出现得分以及和弦转变出现得分被用作将由特征量准备单元184生成的特征量。 
首先,特征量准备单元184通过如图47所示的方法生成每个节拍区间的和弦出现得分。首先,特征量准备单元184为所关注节拍区间以及之前和之后的M个节拍区间提供假设音符C为基调的相对和弦概率CP。然后,特征量准备单元184将所关注节拍区间以及之前和之后的M个区间中的相同位置处的元素的概率值(概率值包括在假设音符C为基调的相对和弦概率中)加起来。结果,获得了和弦出现得分(CEC,CEC#,...,CEBm)(24维向量),这是根据每个和弦的出现概率的,出现概率是针对所关注节拍区间以及所关注节拍区间周围的多个节拍区间的并且假设音符C为基调。特征量准备单元184针对假设以从音符C到音符B的12个音符之一为基调的每个情况,执行如上所述的和弦出现得分计算。根据该计算,获得了针对一个所关注节拍区间的12个分离的和弦出现得分。 
接下来,特征量准备单元184通过如图48所示的方法来生成针对每个节拍区间的和弦转变出现得分。首先,特征量准备单元184首先相对于节拍区间BDi和相邻的节拍区间BDi+1之间的所有对的和弦(所有和弦转变),将和弦转变之前和之后的相对和弦概率彼此相乘,相对和弦概率假设音符C为基调。这里,“所有对的和弦”是指24×24对,即,“C”→“C,”“C”→“C#,”“C”→“D,”...,“B”→“B”。接下来,特征量准备单元184针对所关注节拍区间以及之前和之后的M个区间,将和弦转换之前和之后的相对和弦概率的相乘结果加起来。结果,获得了24×24维和弦转变出现得分(24×24维向量),这是根据每个和弦转变的出现概率的,出现概率是针对所关注节拍区间以及所关注节拍区间周围的多个节拍区间的并且假设音符C为基调。例如,针对所关注节拍区间BDi的与从“C”到“C#”的和弦转变有关的和弦转变出现得分CTC→C#(i)由下面的式(15)给出。 
[公式11] 
CTC→C#(i)=CPC(i-M)·CPC#(i-M+1)+...+CPC(i+M)·CPC#(i+M+1)                           ...(15) 
以这种方式,特征量准备单元184针对假设以从音符C到音符B的12个音符之一为基调的每个情况,执行上述24×24个针对和弦转变出现得分CT的单独计算。根据该计算,获得了针对所关注节拍区间的12个分离的和弦转变出现得分。此外,与易于针对每个节线改变的基调不同,在较长时段的许多情况中,音乐片段的基调保持不变。因此,定义了将用于计算和弦出现得分或和弦转变出现得分的相对和弦概率范围的值M例如适当地为可以包括诸如数十个节拍之类的多个节线的值。特征量准备单元184将针对每个节拍区间计算出的24维和弦出现得分CE以及24×24维和弦转变出现得分作为用于计算基调概率的特征量输入到基调概率计算单元186。 
基调概率计算单元186利用从特征量准备单元184输入的和弦出现得分以及和弦转变出现得分,针对每个节拍区间计算指示每个基调被演奏的概率的基调概率。“每个基调”是指例如基于12个音符(C,C#,D,...)或音调性(大/小)进行辨别的基调。例如,通过logistic回归分析预先学习到的基调概率公式被用于计算基调概率。例如,基调概率计算单元186通过如图49所示的方法来生成用于计算基调概率的基调概率公式。独立地针对大调和小调来执行基调概率公式的学习。因此,生成了大调概率公式和小调概率公式。 
如图49所示,已知了其正确基调的各个节拍区间的多个和弦出现得分以及和弦行进出现得分被提供作为logistic回归分析中的独立变量。接下来,为所提供的每对和弦出现得分以及和弦行进出现得分提供用于预测logistic回归分析的生成概率的伪数据。例如,当学习大调概率公式时,如果已知基调为大调,则伪数据的值为真值(1),并且对于任何其他情况,伪数据的值为假值(0)。此外,当学习小调概率公式时,如果已知基调为小调,则伪数据的值为真值(1),并且对于任何其他情况,伪数据的值为假值(0)。 
通过利用足够数目的独立变量对以及伪数据来执行logistic回归分析,从每个节拍区间的和弦出现得分与和弦行进出现得分对,生成了用于计算大调或小调的概率的基调概率公式。基调概率计算单元186将从特征量准 备单元184输入的和弦出现得分与和弦行进出现得分对应用到每个基调概率公式,并且顺序地计算每个节拍区间的各个基调的基调概率。例如,通过如图50所示的方法来计算基调概率。 
例如,在图50(A)中,基调概率计算单元186将假设音符C为基调的和弦出现得分与和弦行进出现得分对应用到通过学习预先获得的大调概率公式,并且针对每个节拍区间计算基调为“C”的基调概率KPC。此外,基调概率计算单元186将假设音符C为基调的和弦出现得分与和弦行进出现得分对应用到小调概率公式,并且针对相对应的节拍区间计算基调为“Cm”的基调概率KPCm。类似地,基调概率计算单元186将假设音符C#为基调的和弦出现得分与和弦行进出现得分对应用到大调概率公式和小调概率公式,并且计算基调概率KPC#和KPC#m(B)。基调概率KPB和KPBm的计算也可以如此(C)。 
通过这种计算,例如计算出了如图51所示的基调概率。参考图51,针对从音符C到音符B的12个音符的每个的某个节拍区间计算了两种类型的基调概率,每种都针对“Maj(major)”和“m(minor)”。根据图51的示例,基调概率KPC为0.90,并且基调概率KPCm为0.03。此外,除上述基调概率之外的基调概率值都指示0。在计算了所有类型的基调的基调概率之后,基调概率计算单元186以使得每个节拍区间的计算出的概率值的总和变为1的方式来归一化概率值。针对包括在音频信号中的所有节拍区间重复如上所述的基调概率计算单元186的计算和归一化处理。以这种方式针对每个节拍区间计算出的每个基调的基调概率被输入到基调确定单元188。 
基调确定单元188基于基调概率计算单元186针对每个节拍区间计算出的每个基调的基调概率,来通过路径搜索确定可能的基调行进。例如将上述的维特比算法用作基调确定单元188的路径搜索方法。例如通过如图52所示的方法来执行针对维特比路径的路径搜索。此时,将节拍顺序地排列作为时间轴(横轴),并且将基调类型排列作为观察序列(纵轴)。因此,基调确定单元188将所有对的基调类型与已由基调概率计算单元186计算出了其基调概率的节拍中的每对作为路径搜索的对象节点。 
相对于如上所述的节点,基调确定单元188在时间轴中顺序地选择节点中的任何节点,并且利用两个评估值(1)基调概率和(2)基调转变概率来评估由所选择的节点序列形成的路径。此外,在基调确定单元188选择节点时,不允许跳过节拍。这里,将用于评估的(1)基调概率是由基调概率计算单元186计算出的基调概率。向图52所示的每个节点给出基调概率。另一方面,(2)基调转变概率是给予节点之间的转变的评估值。基于已知了其正确基调的音乐片段中的转调(modulation)出现概率,来针对每种模式的转调预先定义基调转变概率。 
根据转变的转调量将12个单独的值定义作为针对如下四种模式的基调转变中的每种的基调转变概率:从大到大,从大到小,从小到小以及从小到大。图53示出了根据从大到大的基调转变的转调量的12个单独的概率值的示例。在图53的示例中,当与转调量Δk有关的基调转变概率为Pr(Δk)时,基调转变概率Pr(0)为0.9987。这表明音乐片段中的基调改变概率很小。另一方面,基调转变概率Pr(1)为0.0002。这表明基调通过一个音高升高(或通过11个音高降低)的概率为0.02%。类似地,在图53的示1例中,Pr(2),Pr(3),Pr(4),Pr(5),Pr(7),Pr(8),Pr(9)和Pr(10)分别为0.0001。此外,Pr(6)和Pr(11)分别为0.0000。还分别针对如下转变模式中的每种模式定义了根据转调量的12个单独的概率值:从大到小,从小到大,以及从小到小。 
基调确定单元188相对于表示基调行进的每条路径,顺序地将包括在路径中的每个节点的(1)基调概率与给予节点之间的转变的(2)基调转变概率彼此相乘。然后,基调确定单元188将作为路径评估值的乘法结果最大的路径确定为表示可能的基调行进的最优路径。例如,基调确定单元188确定了如图54所示的基调行进。在图54中,在从音乐片段的开始到结束的时间量程下,示出了由基调确定单元188确定的音乐片段的基调行进示例。在此示例中,在从音乐片段开始起的三分钟内,音乐片段的基调为“Cm”。然后,音乐片段的基调改变为“C#m”,并且基调保持不变直到音乐片段结束为止。以这种方式通过相对和弦概率生成单元182、特征量准备单元184、基调概率计算单元186以及基调确定单元188的处理确 定的基调行进被输入到旋律线确定单元112中(参考图2)。 
到此为止,已详细描述了节拍检测单元116、和弦概率检测单元120和基调检测单元118的配置。如上所述,由节拍检测单元116检测到的音乐片段的节拍供和弦概率检测单元120和平滑单元114使用。此外,由和弦概率检测单元120计算出的和弦概率供基调检测单元118使用。此外,由基调检测单元118检测到的基调行进供旋律线确定单元112使用。根据这种配置,可由信息处理装置100从音乐数据中高准确度地提取出旋律线。 
(2-10.硬件配置(信息处理装置100)) 
例如可以通过图55所示的硬件配置以及利用用于实现上述功能的计算机程序来实现上述装置的各个结构元件的功能。图55是示出能够实现上述装置的各个结构元件的能够的信息处理装置的硬件配置的说明图。信息处理装置的模式是任意的,并且包括诸如移动信息终端(例如个人计算机、移动电话、PHS或PDA)、游戏机或各种类型的信息应用之类的模式。此外,PHS是个人手持电话系统的缩写。而且,PDA是个人数字助理的缩写。 
如图55所示,信息处理装置100包括CPU 902、ROM 904、RAM906、主机总线908、桥接器910、外部总线912和接口914。此外,信息处理装置100包括输入单元916、输出单元918、存储单元920、驱动器922、连接端口924以及通信单元926。此外,CPU是中央处理单元的缩写。此外,ROM是只读存储器的缩写。此外,RAM是随机存取存储器的缩写。 
CPU 902用作例如运算处理单元或控制单元,并且基于记录在ROM904、RAM 906、存储单元920或可移除记录介质928上的各种程序来控制结构元件的整体操作或结构元件的一些。ROM 904例如存储载入CPU902的程序以及在运算操作中使用的数据等。RAM 906例如临时地或永久地存储载入CPU 902的程序或者在程序执行时任意改变的各种参数等。这些结构元件例如通过可以执行高速数据传输的主机总线908彼此相连。主 机总线908例如通过桥接器910连接到数据传输速度相对低的外部总线912。 
输入单元916例如是诸如鼠标、键盘、触控板、按钮、开关或操作杆之类的操作装置。输入单元916可以是利用红外线或其它电波发送控制信号的遥控装置(所谓的遥控器)。输入单元916包括输入控制电路等,来将利用上述操作装置输入的信息作为输入信号发送到CPU 902。 
输出单元918例如是显示设备,例如CRT、LCD、PDP或ELD。此外,输出单元918是这种设备:诸如扬声器或耳机之类的音频输出设备、打印机、移动电话,或者可以通过视觉或听觉向用户通知所获取的信息的传真机。存储单元920是存储各种数据的设备,并且包括例如诸如HDD之类的磁存储设备、半导体存储设备、光存储设备或者磁至光存储设备。此外,CRT是阴极射线管的缩写。而且,LCD是液晶显示器的缩写。此外,PDP是等离子显示面板的缩写。此外,ELD是电致发光显示器的缩写。此外,HDD是硬盘驱动器的缩写。 
驱动器922是读取记录在可移除记录介质928上的信息或者将信息写入可移除记录介质928的设备,可移除记录介质928例如是磁盘、光盘、磁至光盘或半导体存储器。可移除记录介质928例如是DVD介质、蓝光介质或者HD-DVD介质。此外,可移除记录介质928例如是致密闪存(CF;CompactFlash)(注册商标)、存储棒或者SD存储卡。当然,可移除记录介质928例如可以是安装有非接触式IC芯片的IC卡。此外,SD是安全数字的缩写。而且,IC是集成电路的缩写。 
连接端口924是诸如USB端口、IEEE1394端口、SCSI、RS-232C端口之类的端口,或者用于连接诸如光学音频端子之类的外部连接设备930的端口。外部连接设备930例如是打印机、移动音乐播放器、数字相机、数字摄像机或IC记录器。此外,USB是通用串行总线的缩写。而且,SCSI是小型计算机系统接口的缩写。 
通信单元926是连接到网络932的通信设备。通信单元926例如是用于有线或无线LAN、蓝牙(注册商标)或WUSB的通信卡、光通信路由器、ADSL路由器或各种通信调制解调器。连接到通信单元926的网络 932包括有线连接的或无线连接的网络。网络932例如是因特网、家庭用LAN、红外通信、可见光通信、广播或者卫星通信。此外,LAN是局域网的缩写。而且,WUSB是无线USB的缩写。此外,ADSL是非对称数字订户线的缩写。 
(2-11.总结) 
最后,简要描述本实施例的信息处理装置的功能配置以及由该功能配置获得的效果。 
首先,根据本实施例的信息处理装置的功能配置可以被描述为如下。信息处理装置包括如下的信号转换单元、旋律线估计单元和旋律线确定单元。信号转换单元用于将音频信号转换为指示每个音高的信号强度的音高信号。通常将音频信号给出为时间频率空间中的信号强度分布。然而,由于每个音高的中心频率是成对数地分布的,因此,信号处理变得复杂。因此,由信号转换单元执行到音高信号的转换。将音频信号转换为时间频率空间中的音高信号使得能够提高后面执行的处理的效率。 
此外,旋律线概率估计单元用于估计音高信号的每个音高是旋律音符的概率(旋律概率)。此时,旋律线概率估计单元针对音高信号的每帧(时间单位)来估计旋律概率。例如,将已经描述过的学习算法用于旋律概率的估计。针对每帧估计出的旋律概率供旋律线确定单元使用。旋律线确定单元用于基于每个音高是旋律音符的概率、由旋律概率估计单元针对每帧估计出的概率,从音频信号的开始帧到结束帧的音高的路径中检测最大似然路径,并且将最大似然路径确定为旋律线。如所述的,旋律线不是通过使用学习算法并估计整个旋律线而估计出的,而是通过利用学习算法基于针对每帧估计出的旋律概率来执行路径搜索而估计出来的。结果,可以提高旋律线的估计准确度。 
此外,上述信息处理装置还可以包括中心提取单元,用于在音频信号为立体声信号的情况中,从立体声信号中提取中心信号。通过包括中心提取单元,可以在从立体声信号估计旋律线时提高估计准确度。此外,在包括中心提取单元的情况中,信号转换单元将中心提取单元提取出的中心信 号转换为音高信号。然后,基于从中心信号转换来的音高信号执行后续处理。 
此外,上述信息处理装置还可以包括信号分类单元,用于将音频信号归为特定类别。在这种情况中,旋律概率估计单元基于信号分类单元的分类结果来估计每个音高是旋律音符的概率。此外,旋律线确定单元基于信号分类单元的分类结果来检测最大似然路径。如上所述,旋律概率的估计是利用学习算法实现的。因此,通过分类来缩窄给予学习算法的音频信号(以及特征量),可以估计出更可能的旋律概率。此外,在根据每个类别、每个节点(每帧的音高)的概率以及节点之间的转变的概率,通过加权来执行路径搜索时,可以提高最大似然路径(旋律线)的估计准确度。 
此外,上述信息处理装置还包括音高分布估计单元,用于相对于音高信号在针对每帧估计作为旋律音符的音高的期望值的同时,估计作为旋律音符的音高的标准偏差。可以根据由音高分布估计单元估计出的期望值与标准偏差来获得粗略的旋律概率分布。由此,旋律线确定单元基于音高分布估计单元的估计结果来检测最大似然路径。以这种方式,通过将粗略旋律概率分布考虑在内,可以减少与八音度有关的检测误差。 
此外,还可以包括平滑单元,用于针对每个节拍区间对由旋律线确定单元确定的旋律线的音高进行平滑。如所述的,由旋律线确定单元确定的旋律线是通过针对旋律概率的估计处理以及路径搜索处理估计出来的。因此,以每帧为单位包括了音高中的微小波动。因此,平滑单元对每个节拍区间的音高进行平滑并且对旋律线成形。通过这种成形处理,输出了接近于实际旋律线的整洁的旋律线。 
此外,旋律概率估计单元可以被配置为通过将旋律线以及已知其旋律线的多个音频信号提供到能够自动地生成用于提取任意音频信号的特征量的计算公式的计算公式生成装置中,来生成用于提取每个音高是旋律音符的概率的计算公式,并且通过利用计算公式来针对每帧估计出每个音高是旋律音符的概率,计算公式生成装置利用多个音频信号以及每个音频信号的特征量来自动地生成计算公式。如上所述,例如,利用特征量已知的音频信号进行学习处理而生成的计算公式被用于旋律概率的估计处理。通过使用足够数量的音频信号进行学习处理,以高的准确率估计了旋律概率。 
此外,上述信息处理装置还可以包括:节拍检测单元,用于检测音频 信号的每个节拍区间;和弦概率检测单元,用于针对由所述节拍检测单元检测到的每个节拍区间,来检测每个和弦被演奏的概率;以及基调检测单元,用于利用由所述和弦概率检测单元针对每个节拍区间检测到的每个和弦被演奏的概率,来检测音频信号的基调。在此情况中,所述旋律线确定单元基于由所述基调检测单元检测到的基调来检测最大似然路径。以这种方式,通过在将音频信号的基调考虑在内的情况下执行路径搜索,可以提高旋律线的估计准确度。特别地,可以减小因颤音等引起的出现半音单位的检测误差的频率。 
此外,上述信息处理装置还可以包括:信号转换单元,用于将音频信号转换为表示每个音高的信号强度的音高信号;低音概率估计单元,用于基于所述音高信号来针对每帧估计每个音高是低音音符的概率;以及低音线确定单元,用于基于每个音高是低音音符的概率,即由所述低音概率估计单元针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为低音线。以这种方式,上述信息处理装置还可以以与旋律线的估计处理类似的方式来估计低音线。 
(备注) 
上述对数谱是音高信号的示例。上述对数谱分析单元104是信号转换单元的示例。上述维特比搜索是最大似然路径检测方法的示例。上述特征量计算公式生成装置10是计算公式生成装置的示例。 
本领域的技术人员应当明白,可以根据设计要求和其它因素进行各种修改、组合、子组合和变更,只要它们在所附权利要求或其等同物的范围之内。 
在对实施例的说明中,描述了用于提取音乐片段的旋律线的方法。然而,本实施例的技术还可以应用于用于提取低音线的方法。例如,通过将给出作为学习数据的有关旋律线的信息改变为有关低音线的信息,可以利用基本上相同的配置从音乐数据中高准确度地提取出低音线。 
本申请包含与2008年12月5日向日本特许厅提交的日本优先专利申请JP 2008-311566中公开的主题有关的主题,该申请的全部内容通过引用结合于此。 

Claims (10)

1.一种信息处理装置,包括:
信号转换单元,用于将音频信号转换为表示各个音高的信号强度的音高信号;
旋律概率估计单元,用于基于所述音高信号来针对每帧估计各个音高是旋律音符的概率;以及
旋律线确定单元,用于基于各个音高是旋律音符的概率,即由所述旋律概率估计单元针对每帧估计出的概率,来在从音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为旋律线。
2.根据权利要求1所述的信息处理装置,还包括:
中心提取单元,用于在所述音频信号为立体声信号的情况下,从所述立体声信号提取中心信号,
其中
所述信号转换单元将所述中心提取单元提取出的所述中心信号转换为所述音高信号。
3.根据权利要求1所述的信息处理装置,还包括:
信号分类单元,用于将所述音频信号分类为特定类别,
其中,所述旋律概率估计单元基于所述信号分类单元的分类结果来估计各个音高是旋律音符的概率,并且
所述旋律线确定单元基于所述信号分类单元的分类结果来检测所述最大似然路径。
4.根据权利要求3所述的信息处理装置,还包括:
音高分布估计单元,用于针对所述音高信号来估计每个特定时段中作为旋律音符的音高的分布,
其中
所述旋律线确定单元基于所述音高分布估计单元的估计结果来检测所述最大似然路径。
5.根据权利要求4所述的信息处理装置,还包括:
平滑单元,用于针对每个节拍区间,对由所述旋律线确定单元确定的旋律线的音高进行平滑。
6.根据权利要求1所述的信息处理装置,其中
所述旋律概率估计单元通过将旋律线已知的多个音频信号以及旋律线提供到能自动生成用于提取任意音频信号的特征量的计算公式的计算公式生成装置,来生成用于提取各个音高是旋律音符的概率的计算公式,并且所述旋律概率估计单元通过利用所述计算公式来针对每帧估计出各个音高是旋律音符的概率,所述计算公式生成装置通过利用多个音频信号以及每个音频信号的特征量来自动生成所述计算公式。
7.根据权利要求5所述的信息处理装置,还包括:
节拍检测单元,用于检测音频信号的每个节拍区间;
和弦概率检测单元,用于针对由所述节拍检测单元检测到的每个节拍区间,来检测每个和弦被演奏的概率;以及λ基调检测单元,用于利用由所述和弦概率检测单元针对每个节拍区间检测到的每个和弦被演奏的概率,来检测音频信号的基调,
其中
所述旋律线确定单元基于由所述基调检测单元检测到的基调来检测最大似然路径。
8.一种信息处理装置,包括:
信号转换单元,用于将音频信号转换为表示各个音高的信号强度的音高信号;
低音概率估计单元,用于基于所述音高信号来针对每帧估计各个音高是低音音符的概率;以及
低音线确定单元,用于基于各个音高是低音音符的概率,即由所述低音概率估计单元针对每帧估计出的概率,在来从音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为低音线。
9.一种旋律线提取方法,包括以下步骤:
将音频信号转换为表示各个音高的信号强度的音高信号;
基于所述音高信号来针对每帧估计各个音高是旋律音符的概率;以及
基于各个音高是旋律音符的概率,即由估计各个音高是旋律音符的步骤针对每帧估计出的概率,来在从音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为旋律线,
其中
步骤由信息处理装置来执行。
10.一种低音线提取方法,包括以下步骤:
将音频信号转换为表示各个音高的信号强度的音高信号;
基于所述音高信号来针对每帧估计各个音高是低音音符的概率;以及
基于各个音高是低音音符的概率,即由估计各个音高是低音音符的概率的步骤针对每帧估计出的概率,来在从音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为低音线,
其中
步骤由信息处理装置来执行。
CN2009102536296A 2008-12-05 2009-12-07 信息处理装置、旋律线提取方法和低音线提取方法 Expired - Fee Related CN101916564B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-311566 2008-12-05
JP2008311566A JP5593608B2 (ja) 2008-12-05 2008-12-05 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN101916564A CN101916564A (zh) 2010-12-15
CN101916564B true CN101916564B (zh) 2012-09-05

Family

ID=42345632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102536296A Expired - Fee Related CN101916564B (zh) 2008-12-05 2009-12-07 信息处理装置、旋律线提取方法和低音线提取方法

Country Status (3)

Country Link
US (1) US8618401B2 (zh)
JP (1) JP5593608B2 (zh)
CN (1) CN101916564B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143339A (zh) * 2013-05-09 2014-11-12 索尼公司 音乐信号处理设备和方法、以及程序

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5593608B2 (ja) * 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
US8878041B2 (en) * 2009-05-27 2014-11-04 Microsoft Corporation Detecting beat information using a diverse set of correlations
JP5836628B2 (ja) * 2011-04-19 2015-12-24 キヤノン株式会社 制御系の評価装置および評価方法、並びに、プログラム
JP5732994B2 (ja) * 2011-04-19 2015-06-10 ソニー株式会社 楽曲検索装置および方法、プログラム、並びに記録媒体
EP2772904B1 (en) * 2013-02-27 2017-03-29 Yamaha Corporation Apparatus and method for detecting music chords and generation of accompaniment.
JP6179140B2 (ja) 2013-03-14 2017-08-16 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP6123995B2 (ja) * 2013-03-14 2017-05-10 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
CN103247286B (zh) * 2013-03-28 2015-09-23 北京航空航天大学 一种基于gpu的多声部音乐旋律提取方法
US9257954B2 (en) * 2013-09-19 2016-02-09 Microsoft Technology Licensing, Llc Automatic audio harmonization based on pitch distributions
CN104299621B (zh) * 2014-10-08 2017-09-22 北京音之邦文化科技有限公司 一种音频文件的节奏感强度获取方法及装置
WO2016091994A1 (en) * 2014-12-11 2016-06-16 Ubercord Gmbh Method and installation for processing a sequence of signals for polyphonic note recognition
JP6500869B2 (ja) * 2016-09-28 2019-04-17 カシオ計算機株式会社 コード解析装置、方法、及びプログラム
JP6722165B2 (ja) * 2017-12-18 2020-07-15 大黒 達也 音楽情報の特徴解析方法及びその装置
CN108320730B (zh) * 2018-01-09 2020-09-29 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备
CN109841232B (zh) * 2018-12-30 2023-04-07 瑞声科技(新加坡)有限公司 音乐信号中音符位置的提取方法和装置及存储介质
CN109979483B (zh) * 2019-03-29 2020-11-03 广州市百果园信息技术有限公司 音频信号的旋律检测方法、装置以及电子设备
CN113744764B (zh) * 2019-09-02 2024-04-26 深圳市平均律科技有限公司 一种演奏时值信息与曲谱时值信息最优比对路径的获得方法
CN113257276B (zh) * 2021-05-07 2024-03-29 普联国际有限公司 一种音频场景检测方法、装置、设备及存储介质
CN113782059B (zh) * 2021-09-24 2024-03-22 苏州声通信息科技有限公司 乐器音频评测方法及装置、非瞬时性存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes
CN1703734A (zh) * 2002-10-11 2005-11-30 松下电器产业株式会社 从声音确定音符的方法和装置
CN1737789A (zh) * 2004-07-16 2006-02-22 佳能株式会社 图像形成装置、控制方法以及作业管理装置、作业处理方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202621A (ja) * 1992-12-28 1994-07-22 Victor Co Of Japan Ltd 楽曲演奏情報を利用した楽曲検索装置
JPH09106294A (ja) * 1995-10-13 1997-04-22 Ekushingu:Kk Midiカラオケにおける歌唱力採点装置
JP3496706B2 (ja) * 1997-09-12 2004-02-16 日本電信電話株式会社 音声認識方法及びそのプログラム記録媒体
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
JP3413634B2 (ja) * 1999-10-27 2003-06-03 独立行政法人産業技術総合研究所 音高推定方法及び装置
JP3776673B2 (ja) * 2000-04-06 2006-05-17 独立行政法人科学技術振興機構 音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体
JP4700904B2 (ja) * 2003-12-08 2011-06-15 パイオニア株式会社 情報処理装置及び走行情報音声案内方法
DE102004049517B4 (de) * 2004-10-11 2009-07-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
JP4367436B2 (ja) * 2005-05-26 2009-11-18 ヤマハ株式会社 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP4948118B2 (ja) 2005-10-25 2012-06-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
EP1785891A1 (en) * 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
US7705231B2 (en) * 2007-09-07 2010-04-27 Microsoft Corporation Automatic accompaniment for vocal melodies
JP4660739B2 (ja) 2006-09-01 2011-03-30 独立行政法人産業技術総合研究所 音分析装置およびプログラム
US8168877B1 (en) * 2006-10-02 2012-05-01 Harman International Industries Canada Limited Musical harmony generation from polyphonic audio signals
JP4315180B2 (ja) * 2006-10-20 2009-08-19 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
JP4625935B2 (ja) 2007-02-26 2011-02-02 独立行政法人産業技術総合研究所 音分析装置およびプログラム
US20090193959A1 (en) * 2008-02-06 2009-08-06 Jordi Janer Mestres Audio recording analysis and rating
JP5282548B2 (ja) * 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
JP5206378B2 (ja) * 2008-12-05 2013-06-12 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP5593608B2 (ja) * 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
US8785760B2 (en) * 2009-06-01 2014-07-22 Music Mastermind, Inc. System and method for applying a chain of effects to a musical composition
US9257053B2 (en) * 2009-06-01 2016-02-09 Zya, Inc. System and method for providing audio for a requested note using a render cache

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes
CN1703734A (zh) * 2002-10-11 2005-11-30 松下电器产业株式会社 从声音确定音符的方法和装置
CN1737789A (zh) * 2004-07-16 2006-02-22 佳能株式会社 图像形成装置、控制方法以及作业管理装置、作业处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143339A (zh) * 2013-05-09 2014-11-12 索尼公司 音乐信号处理设备和方法、以及程序
CN104143339B (zh) * 2013-05-09 2019-10-11 索尼公司 音乐信号处理设备和方法

Also Published As

Publication number Publication date
US8618401B2 (en) 2013-12-31
US20100246842A1 (en) 2010-09-30
JP5593608B2 (ja) 2014-09-24
JP2010134290A (ja) 2010-06-17
CN101916564A (zh) 2010-12-15

Similar Documents

Publication Publication Date Title
CN101916564B (zh) 信息处理装置、旋律线提取方法和低音线提取方法
CN101751912B (zh) 信息处理设备和声音素材捕获方法
CN101916568B (zh) 信息处理设备、信息处理方法
CN102956230B (zh) 对音频信号进行歌曲检测的方法和设备
US7858868B2 (en) Method for classifying music using Gish distance values
US7649137B2 (en) Signal processing apparatus and method, program, and recording medium
CN101740013B (zh) 信息处理设备和声音分析方法
Essid et al. Musical instrument recognition by pairwise classification strategies
Ni et al. An end-to-end machine learning system for harmonic analysis of music
CN101740010B (zh) 信息处理设备和声音分析方法
US20110132174A1 (en) Music-piece classifying apparatus and method, and related computed program
Bosch et al. Evaluation and combination of pitch estimation methods for melody extraction in symphonic classical music
US20080245215A1 (en) Signal Processing Apparatus and Method, Program, and Recording Medium
Korzeniowski et al. Genre-agnostic key classification with convolutional neural networks
Kirchhoff et al. Evaluation of features for audio-to-audio alignment
Zhang et al. Melody extraction from polyphonic music using particle filter and dynamic programming
Pauwels et al. Combining musicological knowledge about chords and keys in a simultaneous chord and local key estimation system
EP2342708A1 (en) Method for analyzing a digital music audio signal
Giannoulis et al. Improving instrument recognition in polyphonic music through system integration
US7910820B2 (en) Information processing apparatus and method, program, and record medium
Gurunath Reddy et al. Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method
JP2007248610A (ja) 楽曲分析方法及び楽曲分析装置
JP2006195384A (ja) 楽曲調性算出装置および選曲装置
Pauwels et al. Improving the key extraction performance of a simultaneous local key and chord estimation system
Rolland Chord detection using chromagram optimized by extracting additional features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120905

Termination date: 20151207

EXPY Termination of patent right or utility model