CN101751912A - 信息处理设备、声音素材捕获方法和程序 - Google Patents

信息处理设备、声音素材捕获方法和程序 Download PDF

Info

Publication number
CN101751912A
CN101751912A CN 200910253631 CN200910253631A CN101751912A CN 101751912 A CN101751912 A CN 101751912A CN 200910253631 CN200910253631 CN 200910253631 CN 200910253631 A CN200910253631 A CN 200910253631A CN 101751912 A CN101751912 A CN 101751912A
Authority
CN
China
Prior art keywords
bat
probability
unit
chord
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200910253631
Other languages
English (en)
Other versions
CN101751912B (zh
Inventor
小林由幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101751912A publication Critical patent/CN101751912A/zh
Application granted granted Critical
Publication of CN101751912B publication Critical patent/CN101751912B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/38Chord
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/131Morphing, i.e. transformation of a musical piece into a new different one, e.g. remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/571Chords; Chord sequences
    • G10H2210/576Chord progression

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开了一种信息处理设备、声音素材捕获方法和程序。该信息处理设备包括音乐分析单元,其分析用作声音素材的捕获源的音频信号并且检测音频信号的拍子位置和音频信号中各种乐器声音的存在概率;以及捕获范围确定单元,其用于通过使用由音乐分析单元所检测到的拍子位置和各种乐器声音的存在概率来确定声音素材的捕获范围。

Description

信息处理设备、声音素材捕获方法和程序
技术领域
本发明涉及信息处理设备、声音素材捕获方法和程序。
背景技术
为了对音乐进行混音,需要提供用于混音的声音素材。为了执行混音,通常使用从市场上的素材集中挑选的声音素材或使用某人用波形编辑软件等捕获的声音素材。然而,寻找包含与人的意图相匹配的声音素材的素材集很麻烦。从海量的音乐数据中找出可以用作所希望的声音素材的部分,或者高精度地捕获该部分也很麻烦。此外,例如,在日本专利申请文件JP-A-2008-164932中有与音乐的混音回放有关的描述。在JP-A-2008-164932中,公开了一种通过简单的操作来组合多个声音素材并且高度完美地创建音乐的技术。
发明内容
然而,JP-A-2008-164932没有公开用于高精度地自动检测各首乐曲中所包括的特征量,并且基于这些特征量来自动捕获声音素材的技术。因此,鉴于以上所述,希望提供能够精确地从音乐数据中提取特征量并且基于这些特征量来捕获声音素材的新颖的改进的信息处理设备、声音素材捕获方法和程序。
根据本发明的一个实施例,提供了一种信息处理设备,该信息处理设备包括:音乐分析单元,该音乐分析单元用于分析用作声音素材的捕获源的音频信号,并且用于检测音频信号的拍子位置和音频信号中的各种乐器声音的存在概率;以及捕获范围确定单元,该捕获范围确定单元用于通过使用由音乐分析单元所检测到的拍子位置和各种乐器声音的存在概率来确定声音素材的捕获范围。
此外,该信息处理设备还可以包括捕获请求输入单元,捕获请求输入单元用于输入捕获请求,捕获请求包括以下内容中的至少一个作为信息:要被捕获作为声音素材的范围的长度、乐器声音的类型和捕获的严格度。在这种情况中,捕获范围确定单元确定声音素材的捕获范围使得声音素材满足由捕获请求输入单元输入的捕获请求。
此外,该信息处理设备还可以包括素材捕获单元,该素材捕获单元用于从音频信号中捕获由捕获范围确定单元确定的捕获范围并且用于输出捕获范围作为声音素材。
此外,该信息处理设备还可以包括声源分离单元,该声源分离单元用于在音频信号中包括多种类型的声源的信号的情况中,从音频信号中分离出各种声源的信号。
此外,音乐分析单元还可以通过分析音频信号来检测音频信号的和弦进行。在此情况下,捕获范围确定单元确定声音素材的捕获范围,并且一起输出有关捕获范围的信息和捕获范围中的和弦进行。
此外,音乐分析单元还可以通过分析音频信号来检测音频信号的和弦进行。在这种情况中,素材捕获单元输出捕获范围的音频信号作为声音素材,并且还输出捕获范围中的和弦进行。
此外,音乐分析单元可以通过使用能够自动生成用于提取任意音频信号的特征量的计算公式的计算公式生成设备来生成用于提取与拍子位置有关的信息和与各种乐器声音的存在概率有关的信息的计算公式,并且通过使用计算公式来检测音频信号的拍子位置和音频信号中的各种乐器声音的存在概率,计算公式生成设备通过使用多个音频信号和各个音频信号的特征量来自动生成计算公式。
此外,捕获范围确定单元可以包括素材得分计算单元,该素材得分计算单元针对音频信号的各个范围来计算通过捕获请求所指定的类型的乐器声音的存在概率的总和,并且用于计算通过将总计出的存在概率除以该范围内所有乐器声音的存在概率的总和而获得的值作为素材得分,每个范围具有由所述捕获请求指定的捕获范围的长度,并且确定由素材得分计算单元所计算出的素材得分高于捕获的严格度的值的范围,作为满足捕获请求的捕获范围。
此外,声源分离单元可以从音频信号中分离出前景声音的信号和背景声音的信号,并且还可以将前景声音的信号中位于中心周围的中心信号、左声道信号和右声道信号相互分离。
根据本发明另一实施例,提供了一种声音素材捕获方法,当用作声音素材的捕获源的音频信号被输入信息处理设备时,该方法包括以下步骤:分析音频信号,并且检测音频信号的拍子位置和音频信号中各种乐器声音的存在概率;以及通过使用通过分析和检测步骤所检测到的拍子位置和各种乐器声音的存在概率来确定声音素材的捕获范围。这些步骤是由信息处理设备执行的。
根据本发明另一实施例,提供了一种程序,当用作声音素材的捕获源的音频信号被输入时,该程序使得计算机实现:分析音频信号并且检测音频信号的拍子位置和音频信号中各种乐器声音的存在概率的音乐分析功能,以及通过使用通过音乐分析功能所检测到的拍子位置和各种乐器声音的存在概率来确定声音素材的捕获范围的捕获范围确定功能。
根据本发明另一实施例,可以提供一种存储程序并且可以由计算机读取的记录介质。
根据上述本发明实施例,可以从音乐数据中精确地提取特征量并且基于该特征量来捕获声音素材。
附图说明
图1是示出用于自动生成用于计算特征量的算法的特征量计算公式生成设备的配置示例的说明性示图;
图2是示出根据本发明一个实施例的信息处理设备(波形素材自动捕获设备)的功能配置示例的说明性示图;
图3是示出根据本实施例的声源分离方法(中心提取方法)的示例的说明性示图;
图4是示出根据本实施例的声源的类型的说明性示图;
图5是示出根据本实施例的对数谱生成方法的一个示例的说明性示图;
图6是示出通过根据本实施例的对数谱生成方法所生成的对数谱的说明性示图;
图7是示出按照根据本实施例的音乐分析方法的一连串处理的流程的说明性示图;
图8是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图9是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图10是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图11是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图12是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图13是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图14是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图15是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图16是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图17是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图18是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图19是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图20是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图21是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图22是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图23是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图24是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图25是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图26是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图27是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图28是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图29是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图30是示出根据本实施例的拍子检测方法的一个示例的说明性示图;
图31是示出通过根据本实施例的拍子检测方法所检测到的拍子的检测结果的一个示例的说明性示图;
图32是示出根据本实施例的结构分析方法的一个示例的说明性示图;
图33是示出根据本实施例的结构分析方法的一个示例的说明性示图;
图34是示出根据本实施例的结构分析方法的一个示例的说明性示图;
图35是示出根据本实施例的结构分析方法的一个示例的说明性示图;
图36是示出根据本实施例的结构分析方法的一个示例的说明性示图;
图37是示出根据本实施例的结构分析方法的一个示例的说明性示图;
图38是示出根据本实施例的结构分析方法的一个示例的说明性示图;
图39是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图40是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图41是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图42是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图43是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图44是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图45是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图46是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图47是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图48是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图49是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图50是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图51是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图52是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图53是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图54是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;
图55是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图56是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图57是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图58是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图59是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图60是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图61是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图62是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图63是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图64是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图65是示出根据本实施例的小节线检测方法的一个示例的说明性示图;
图66是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图;
图67是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图;
图68是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图;
图69是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图;
图70是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图;
图71是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图;
图72是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图;
图73是示出根据本实施例的乐器声音分析方法的一个示例的说明性示图;
图74是示出根据本实施例的乐器声音分析方法的一个示例的说明性示图;
图75是示出根据本实施例的捕获范围确定方法的一个示例的说明性示图;
图76是示出根据本实施例的信息处理设备的一个硬件配置示例的说明性示图。
具体实施方式
以下,将参考附图来详细描述本发明的优选实施例。注意,在本说明书和附图中,用相同的标号来标注具有基本相同的功能和结构的结构元件,并且省略对这些结构元件的重复说明。
在本说明书中,将按照以下顺序进行说明。
(说明项目)
1.基础架构技术
1-1.特征量计算公式生成设备10的配置示例
2.实施例
2-1.信息处理设备100的总体配置
2-2.声源分离单元104的配置
2-3.对数谱分析单元106的配置
2-4.音乐分析单元108的配置
2-4-1.拍子检测单元132的配置
2-4-2.和弦进行检测单元134的配置
2-4-3.乐器声音分析单元136的配置
2-5.捕获范围确定单元110的配置
2-6.总结
<1.基础架构技术>
首先,在描述根据本发明的一个实施例的技术之前,将简要描述用于实现本实施例的技术配置的基础架构技术。这里所描述的基础架构技术有关于算法的自动生成方法,该算法用于以特征量(也称为“FQ”)的形式对任意输入数据的特征进行量化。例如,各种类型的数据,例如音频信号的信号波形或图像中所包括的各种颜色的亮度数据,都可以用作输入数据。而且,当以乐曲为例时,通过应用基础架构技术,从音乐数据的波形中自动地生成用于计算指示乐曲的欢快程度或速度(tempo)的特征量的算法。此外,日本专利文件JP-A-2008-123011中所公开的学习算法也可以用来替代下述特征量计算公式生成设备10的配置示例。
(1-1.特征量计算公式生成设备10的配置示例)
首先,参考图1,将描述根据上述基础架构技术的特征量计算公式生成设备10的功能配置。图1是示出根据上述基础架构技术的特征量计算公式生成设备10的配置示例的说明性示图。这里所描述的特征量计算公式生成设备10是用于自动地生成用于使用任意输入数据、以特征量的形式对该输入数据的特征进行量化的算法(以下称为计算公式)的装置(学习算法)的示例。
如图1中所示,特征量计算公式生成设备10主要具有:算子存储单元12、提取公式生成单元14、提取公式列表生成单元20、提取公式选择单元22和计算公式设置单元24。此外,特征量计算公式生成设备10包括:计算公式生成单元26、特征量选择单元32、评估数据获取单元34、教师数据获取单元36和公式评估单元38。此外,提取公式生成单元14包括算子选择单元16。并且,计算公式生成单元26包括提取公式计算单元28和系数计算单元30。此外,公式评估单元38包括计算公式评估单元40和提取公式评估单元42。
首先,提取公式生成单元14通过组合算子存储单元12中所存储的多个算子来生成特征量提取公式(以下称为提取公式),提取公式用作计算公式的基础。这里的“算子”是用于对输入数据的数据值执行特定运算处理的算子。通过算子执行的运算类型包括差分计算、最大值提取、低通滤波、无偏方差计算、快速傅里叶变换、标准差计算、平均值计算等。当然,这不限于以上列举的这些类型的运算,并且可以包括可对输入数据的数据值执行的任何类型的运算。
此外,针对各个算子设置运算类型、运算目标轴和用于该运算的参数。运算目标轴是指定义输入数据的各个数据值的轴中作为运算处理的目标的轴。例如,当以音乐数据为例时,音乐数据在由时间轴和音调轴(频率轴)形成的空间中被给出为音量的波形。当对音乐数据执行差分运算时,要确定是沿时间轴方向执行差分运算还是沿频率轴方向执行差分运算。因此,各个参数包括与形成定义输入数据的空间的轴中要作为运算处理目标的轴相关的信息。
此外,参数根据运算的类型而变得必要。例如,在低通滤波的情况中,定义要通过的数据值的范围的阈值必须被固定为参数。由于这些原因,除了运算的类型以外,在各个算子中还包括运算目标轴和必要参数。例如,算子被表示为F#Differential、F#MaxIndex、T#LPF 1;0.861、T#UVariance……,算子开头所添加的F等指示运算目标轴。例如,F是指频率轴,并且T是指时间轴。
在运算目标轴之后用#分开的所添加的Differential等指示运算的类型。例如,Differential是指差分计算运算,MaxIndex是指最大值提取运算,LPF是指低通滤波,UVariance是指无偏方差计算运算。运算类型之后的数字指示参数。例如,LPF 1;0.861指示将1至0.861的范围作为通带的低通滤波器。这各种算子被存储在算子存储单元12中,并且由提取公式生成单元14读取和使用。提取公式生成单元14首先通过算子选择单元16来选择任意算子,并且通过组合所选择的算子来生成提取公式。
例如,由算子选择单元16选择F#Differential、F#MaxIndex、T#LPF 1;0.861和T#UVariance,并且由提取公式生成单元14生成如以下等式(1)所表示的提取公式f。然而,开头所添加的12Tones指示作为处理目标的输入数据的类型。例如,当12Tones被记述时,通过分析输入数据的波形而获得的时间-音调空间中的信号数据(稍后描述的对数谱)成为运算处理目标。即,如以下等式(1)所表示的提取公式指示稍后所述的对数谱是处理目标,以及,关于输入数据,沿频率轴(音调轴方向)顺次执行差分运算和最大值提取并且沿时间轴顺次执行低通滤波和无偏方差运算。
[等式1]
f={12Tones,F#Differential,F#MaxIndex,T#LPF_1;0.861,T#UVariance}
...(1)
如上所述,提取公式生成单元14针对算子的各种组合生成如上述等式(1)所示的提取公式。将详细描述该生成方法。首先,提取公式生成单元14通过使用算子选择单元16来选择算子。此时,算子选择单元16判定通过所选择的算子的组合(提取公式)来对输入数据进行的运算的结果是否是标量或者特定大小或更小的向量(其是否收敛)。
此外,基于各个算子中所包括的运算目标轴的类型和运算的类型来执行上述判定处理。当由算子选择单元16选择算子的组合时,针对各种组合执行判定处理。然后,当算子选择单元16判定运算结果收敛时,提取公式生成单元14通过使用由算子选择单元16选择的、使运算结果收敛的算子的组合来生成提取公式。由提取公式生成单元14进行的提取公式的生成处理被执行直到特定数目(以下称为所选择的提取公式的数目)的提取公式被生成为止。由提取公式生成单元14生成的提取公式输入提取公式列表生成单元20。
当提取公式从提取公式生成单元14输入提取公式列表生成单元20时,特定数目的提取公式被从输入提取公式中选出(以下,列表中的提取公式的数目≤所选择的提取公式的数目)并且提取公式列表被生成。此时,由提取公式列表生成单元20进行的生成处理被执行直到特定数目(以下,称为列表的数目)的提取公式列表被生成。然后,由提取公式列表生成单元20生成的提取公式列表输入提取公式选择单元22。
以下,将关于由提取公式生成单元14和提取公式列表生成单元20进行的处理来描述具体示例。首先,例如,由提取公式生成单元14确定输入数据的类型是音乐数据。接着,由算子选择单元16随机地选择算子OP1、OP2、OP3和OP4。然后,通过所选择的算子的组合,关于音乐数据的运算结果是否收敛执行判定处理。当判定音乐数据的运算结果收敛时,利用OP1至OP4的组合生成提取公式f1。由提取公式生成单元14生成的提取公式f1输入提取公式列表生成单元20。
此外,提取公式生成单元14重复与提取公式f1的生成处理相同的处理,并且例如生成提取公式f2、f3和f4。以这种方式生成的提取公式f2、f3和f4输入提取公式列表生成单元20。当提取公式f1、f2、f3和f4输入时,提取公式列表生成单元20例如生成提取公式列表L1={f1,f2,f4},并且生成提取公式列表L2={f1,f3,f4}。由提取公式列表生成单元20生成的提取公式列表L1和L2输入提取公式选择单元22。如以上利用具体示例所述,提取公式是由提取公式生成单元14生成的,并且提取公式列表是由提取公式列表生成单元20生成的并且被输入提取公式选择单元22。然而,尽管在上述示例中描述了这样的情况:所选择的提取公式的数目是4,列表中的提取公式的数目是3并且列表的数目是2,但是应当注意,实际上,生成非常大数目的提取公式和提取公式列表。
现在,当提取公式列表从提取公式列表生成单元20被输入时,提取公式选择单元22从输入的提取公式列表中选择要插入稍后所述的计算公式中的提取公式。例如,当上述提取公式列表L1中的提取公式f1和f4要被插入计算公式,则提取公式选择单元22关于提取公式列表L1选择提取公式f1和f4。提取公式选择单元22针对提取公式列表中的每个列表执行上述选择处理。然后,当选择处理完成时,由提取公式选择单元22进行的选择处理的结果和提取公式列表中的每个列表被输入计算公式设置单元24。
当选择结果和提取公式列表中的每个列表从提取公式选择单元22被输入时,计算公式设置单元24考虑提取公式选择单元22的选择结果,设置与各个提取公式相对应的计算公式。例如,如以下等式(2)所示,计算公式设置单元24通过对每个提取公式列表Lm={f1,...,fK}中所包括的提取公式fk进行线性耦合来设置计算公式Fm。此外,m=1,...,M(M是列表的数目),k=1,...,K(K是列表中提取公式的数目)并且B0,...,BK是耦合系数。
[等式2]
Fm=B0+B1f1+…+BKfK
...(2)
此外,计算公式Fm还可以被设置成提取公式fk(k=1至K)的非线性函数。然而,由计算公式设置单元24设置的计算公式Fm的函数形式取决于稍后描述的计算公式生成单元26所使用的耦合系数估计算法。因此,计算公式设置单元24被配置为根据计算公式生成单元26可以使用的估计算法来设置计算公式Fm的函数形式。例如,计算公式设置单元24可以被配置为根据输入数据的类型来改变函数形式。然而,在本说明书中,为了便于说明,将使用如上述等式(2)所表示的线性耦合。有关计算公式设置单元24所设置的计算公式的信息被输入计算公式生成单元26。
此外,希望通过计算公式计算出的特征量的类型从特征量选择单元32输入计算公式生成单元26。特征量选择单元32是用于选择希望通过计算公式计算出的特征量的类型的装置。此外,与输入数据的类型相对应的评估数据从评估数据获取单元34输入计算公式生成单元26。例如,在输入数据的类型是音乐的情况中,多条音乐数据被输入作为评估数据。与各个评估数据相对应的教师数据也从教师数据获取单元36输入计算公式生成单元26。这里的教师数据是各个评估数据的特征量。具体地,针对由特征量选择单元32选择的类型的教师数据被输入计算公式生成单元26。例如,在输入数据是音乐数据并且特征量的类型是速度的情况中,各个评估数据的具体速度值被输入计算公式生成单元26作为教师数据。
当评估数据、教师数据、特征量的类型、评估公式等被输入时,计算公式生成单元26首先向评估公式Fm中所包括的提取公式f1,...,fK输入各个评估数据,并且通过提取公式计算单元28获得提取公式中的每个提取公式的计算结果(以下称为提取公式计算结果)。当由提取公式计算单元28计算出与各个评估数据有关的各个提取公式的提取公式计算结果时,各个提取公式计算结果从提取公式计算单元28输入系数计算单元30。系数计算单元30使用与各个评估数据相对应的教师数据和输入的提取公式计算结果,并且计算如上述等式(2)中的B0,...,BK所表示的耦合系数。例如,可以通过使用最小均方方法来确定系数B0,...,BK。此时,系数计算单元30还计算诸如均方误差之类的评估值。
提取公式计算结果、耦合系数和均方误差等是针对每种类型的特征量并且针对列表的数目来计算的。由提取公式计算单元28计算出的提取公式计算结果和由系数计算单元30计算出的耦合系数和诸如均方误差之类的评估值被输入公式评估单元38。当这些计算结果被输入时,公式评估单元38通过使用输入的计算结果来计算用于判定各个计算公式的有效性的评估值。如上所述,在确定构成各个计算公式的提取公式和构成提取公式的算子的处理中,包括随机的选择处理。即,关于在确定处理中是否选择了最优的提取公式和最优算子存在不确定性。因此,由公式评估单元38来执行评估以评估计算结果并且在适当时,执行重新计算或校正计算结果。
在图1中所示的公式评估单元38中设置:用于计算各个计算公式的评估值的计算公式评估单元40和用于计算各个提取公式的贡献度的提取公式评估单元42。计算公式评估单元40例如使用称为AIC或BIC的评估方法来评估各个计算公式。这里的AIC是Akaike Information Criterion(Akaike信息量准则)的缩写。另一方面,BIC是Bayesian InformationCriterion(贝叶斯信息量准则)的缩写。当使用AIC时,通过使用各个计算公式的均方误差(mean square error)和教师数据的个数(以下称为教师的数目number of teachers)来计算各个计算公式的评估值。例如,基于由以下等式(3)表示的值(AIC)来计算评估值。
[等式3]
AIC=number of teachers×{log 2n+1+log(mean square error)}+2(K+1)
...(3)
根据上述等式(3),AIC越小,计算公式的精确度越高。因此,AIC越小,针对使用AIC的情况的评估值被设置为越大。例如,通过由上述等式(3)表示的AIC的倒数来计算评估值。此外,由计算公式评估单元40针对特征量的类型的数目来计算评估值。因此,计算公式评估单元40针对各个计算公式执行对特征量类型的数目的平均运算,并且计算出平均评估值。即,在这个阶段计算各个计算公式的平均评估值。由计算公式评估单元40计算出的平均评估值被输入提取公式列表生成单元20作为计算公式的评估结果。
另一方面,提取公式评估单元42基于提取公式计算结果和耦合系数来计算各个计算公式中的各个提取公式的贡献比,作为评估值。例如,提取公式评估单元42根据以下等式(4)来计算贡献比。提取公式fK的提取公式计算结果的标准差是从针对各个评估数据计算出的提取公式计算结果获得的。由提取公式评估单元42根据以下等式(4)针对各个计算公式所计算出的各个提取公式的贡献比被输入提取公式列表生成单元20,作为提取公式的评估结果。
[Equation 4]
Figure G2009102536313D00161
Figure G2009102536313D00162
...(4)
这里,StDev(...)指示标准差。此外,估计目标的特征量是乐曲的速度等。例如,在给出100首乐曲的对数谱作为评估数据并且给出每首乐曲的速度作为教师数据的情况中,StDev(估计目标的特征量)指示这100首乐曲的速度的标准差。此外,上述等式(4)中所包括的Pearson(...)指示相关函数。例如,Pearson(fK的计算结果,估计目标FQ)指示用于计算fK的计算结果与估计目标特征量之间的相关系数的相关函数。此外,尽管乐曲的速度被指示为特征量的示例,但是估计目标特征量不限于此。
当评估结果以这种方式从公式评估单元38输入提取公式列表生成单元20时,生成要用于新的计算公式的表达的提取公式列表。首先,提取公式列表生成单元20按照由计算公式评估单元40计算出的平均评估值的降序来选择特定数目的计算公式,并且设置与所选择的计算公式相对应的提取公式列表作为新的提取公式列表(选择)。此外,提取公式列表生成单元20通过按照由计算公式评估单元40计算出的平均评估值的降序进行加权来选择两个计算公式,并且通过对与计算公式相对应的提取公式列表中的提取公式进行组合来生成新的提取公式列表(交叉)。此外,提取公式列表生成单元20通过按照由计算公式评估单元40计算出的平均评估值的降序进行加权来选择一个计算公式,并且通过对与计算公式相对应的提取公式列表中的提取公式进行部分地改变来生成新的提取公式列表(转变)。此外,提取公式列表生成单元20通过随机地选择提取公式来生成新的提取公式列表。
在上述交叉中,提取公式的贡献比越低,则提取公式被设置为不太可能被选择越好。此外,在上述转变中,如下的设置是优选的:提取公式的贡献比越低,提取公式越易于被改变。通过使用以这种方式新生成或新设置的提取公式列表来再次执行提取公式选择单元22、计算公式设置单元24、计算公式生成单元26和公式评估单元38的处理。处理序列被重复执行直到公式评估单元38的评估结果中的改善程度收敛至某一程度为止。然后,当公式评估单元38的评估结果中的改善程度收敛至某一程度时,此时的计算公式被输出作为计算结果。通过使用输出的计算公式,以高精度从与上述评估数据不同的任意输入数据中计算出表示输入数据的目标特征的特征量。
如上所述,由特征量计算公式生成设备10进行的处理是基于遗传算法的,该遗传算法考虑诸如交叉或转变之类的要素,在从一代进行到下一代的同时重复执行处理。能够以高精度估计特征量的计算公式可以通过使用遗传算法来获得。然而,在稍后所述的实施例,可以使用学习算法,学习算法通过比可使用遗传算法的方法简单的方法来计算计算公式。例如,不是由提取公式列表生成单元20执行诸如上述选择、交叉和转变之类的处理,而是可以设想到这样的方法:通过改变提取公式选择单元22所要使用的提取公式,选择使得计算公式评估单元40所得到的评估值最高的组合。在这种情况中,可以省略提取公式评估单元42的配置。此外,可以根据运算负荷和所希望的估计精度在适当时改变配置。
<2.实施例>
以下,将描述本发明的一个实施例。本实施例涉及用于从乐曲的音频信号中以高精度自动地提取乐曲的特征量并且用于通过使用这些特征量来捕获声音素材的技术。通过该技术捕获的声音素材使得能够通过在与另一乐曲的拍子同步的同时与该另一乐曲合成来改变该另一乐曲的编排。此外,以下,乐曲的音频信号也可以称为音乐数据。
(2-1.信息处理设备100的总体配置)
首先,参考图2,将描述根据本实施例的信息处理设备100的功能配置。图2是示出根据本实施例的信息处理设备100的功能配置示例的说明性示图。此外,这里描述的信息处理设备100具有这样的配置特征:精确地检测音乐数据中所包括的各种特征量并且通过使用这些特征量来捕获用作声音素材的波形。例如,乐曲的拍子、和弦进行和乐器的类型等被检测出,作为特征量。以下,在描述了信息处理设备100的总体配置之后,将分别描述各个结构元件的详细配置。
如图2中所示,信息处理设备100主要包括:捕获请求输入单元102、声源分离单元104、对数谱分析单元106、音乐分析单元108、捕获范围确定单元110和波形捕获单元112。此外,音乐分析单元108包括:拍子检测单元132、和弦进行检测单元134和乐器声音分析单元136。
此外,特征量计算公式生成设备10被包括在图2中所示的信息处理设备100中。然而,特征量计算公式生成设备10可以被设置在信息处理设备100内,或作为外部装置被连接到信息处理设备100。以下,为了方便,假定特征量计算公式生成设备10被内建于信息处理设备100中。此外,信息处理设备100还可以使用能够生成特征量计算公式的各种学习算法,来取代设置特征量计算公式生成设备10。
处理的总体流程如接下来所述。首先,波形的捕获条件(以下称为捕获请求)被输入捕获请求输入单元102。所要捕获的乐器的类型、所要捕获的波形素材的长度、捕获时所使用的捕获条件的严格度等作为捕获请求被输入。输入捕获请求输入单元102的捕获请求被输入捕获范围确定单元110,并且被用在对波形素材的捕获处理中。
例如,指定鼓、吉他等为乐器的类型。此外,可以以帧或小节为单位来指定波形素材的长度。例如,指定1小节、2小节、4小节等作为波形素材的长度。此外,还可以通过连续的值,例如从0.0(不严格)至1.0(严格),来指定捕获条件的严格度。例如,当捕获条件的严格度被指定为0.9等(最大至1.0),则只有满足该捕获条件的波形素材被捕获。相反,当捕获条件的严格度被指定为0.1等(最小至0.0)时,即使包括没有准确满足捕获条件的部分,该区间(section)仍被捕获作为波形素材。
另一方面,音乐数据被输入声源分离单元104。音乐数据被声源分离单元104分离成左声道分量(前景分量)、右声道分量(前景分量)、中心分量(前景分量)和背景分量。然后,分离成各个分量的音乐数据被输入对数谱分析单元106。音乐数据的各个分量被对数谱分析单元106变换成稍后描述的对数谱。从对数谱分析单元106输出的对数谱被输入特征量计算公式生成设备10等。此外,对数谱可以由特征量计算公式生成设备10以外的其它结构元件使用。在这种情况中,所希望的对数谱在适当时被直接或间接地从对数谱分析单元106提供给各个结构元件。
音乐分析单元108分析音乐数据的波形,并且提取音乐数据中所包括的拍子位置、和弦进行和各个乐器声音。由拍子检测单元132检测拍子位置。由和弦进行检测单元134检测和弦进行。由乐器声音分析单元136提取各个乐器声音。此时,音乐分析单元108通过使用特征量计算公式生成设备10来生成用于检测拍子位置、和弦进行和各个乐器声音的特征量的计算公式,并且从通过计算公式计算出的特征量中检测拍子位置、和弦进行和各个乐器声音。稍后将详细描述由音乐分析单元108进行的分析处理。通过音乐分析单元108的分析处理获得的拍子位置、和弦进行和各个乐器声音被输入捕获范围确定单元110。
捕获范围确定单元110基于从捕获请求输入单元102输入的捕获请求和音乐分析单元108的分析结果来从音乐数据中确定所要捕获作为声音素材的范围。然后,有关由捕获范围确定单元110确定的捕获范围的信息被输入波形捕获单元112。波形捕获单元112从音乐数据中捕获由捕获范围确定单元110确定的捕获范围的波形作为声音素材。然后,由波形捕获单元112捕获的波形素材被记录在设置于信息处理设备100外部或内部的存储装置中。以上描述了与波形素材的捕获处理相关的粗略流程。以下,将详细描述声源分离单元104、对数谱分析单元106和音乐分析单元108的配置,这些单元是信息处理设备100的主要结构元件。
(2-2.声源分离单元104的配置示例)
首先,将描述声源分离单元104。声源分离单元104是用于分离位于左、右和中心的声源信号(以下称为左声道信号、右声道信号、中心信号)和背景声音的声源信号的装置。这里,参考声源分离单元104对于中心信号的提取方法,将详细描述声源分离单元104的声源分离方法。如图3中所示,声源分离单元104例如包括以下单元:左声道频带划分单元142、右声道频带划分单元144、带通滤波器146、左声道频带合成单元148和右声道频带合成单元150。在提取中心信号的情况中,使用图3中所示的带通滤波器146的通过条件(相位差:小,音量差:小)。这里,描述用于提取中心信号的方法作为示例。
首先,输入声源分离单元104的立体声信号的左声道信号sL被输入左声道频带划分单元142。左声道的非中心信号L和中心信号C以混合的方式存在于左声道信号sL中。此外,左声道信号sL是随时间过去而改变的音量电平信号。因此,左声道频带划分单元142对输入的左声道信号sL执行DFT处理,并且将其从时域信号变换成频域信号(以下称为多频带信号fL(0),...,fL(N-1))。这里fL(K)是与第k个(k=0,...,N-1)频带相对应的子频带信号。此外,上述DFT是Discrete Fourier Transform(离散傅里叶变换)的缩写。从左声道频带划分单元142输出的左声道多频带信号被输入带通滤波器146。
以相似的方式,输入声源分离单元104的立体声信号的右声道信号sR被输入右声道频带划分单元144。右声道的非中心信号R和中心信号C以混合方式存在于右声道信号sR中。此外,右声道信号sR是随时间过去而改变的音量电平信号。因此,右声道频带划分单元144对输入的右声道信号sR执行DFT处理,并且将其从时域信号变换成频域信号(以下称为多频带信号fR(0),...,fR(N-1))。这里fR(k’)是与第k’(k’=0,...,N-1)个频带相对应的子频带信号。从右声道频带划分单元144输出的右声道多频带信号被输入带通滤波器146。此外,各个声道的多频带信号所划分成的频带数是N(例如,N=8192)。
如上所述,各个声道的多频带信号fL(k)(k=0,...,N-1)和fR(k’)(k’=0,...,N-1)被输入带通滤波器146。以下,按照升序标记频率,例如k=0,...,N-1,或k’=0,...,N-1。此外,信号分量fL(k)和fR(k’)中的每一个称为子声道信号。首先,在带通滤波器146中,从两个声道的多频带信号中选择在相同频带中的子声道信号fL(k)andfR(k’)(k’=k),并且计算这些子声道信号之间的类似度a(k)。类似度a(k)例如是根据以下等式(5)和(6)计算的。这里,幅度分量和相位分量被包括在子声道信号中。因此,幅度分量的类似度表示为ap(k),并且相位分量的类似度表示为ai(k)。
[等式5]
ai ( k ) = cos &theta;
= Re [ f R ( k ) f L ( k ) * ] | f R ( k ) | | f L ( k ) |
...(5)
[等式6]
ap ( k ) = | f R ( k ) | | f L ( k ) | , | f R ( k ) | &le; | f L ( k ) | | f L ( k ) | | f R ( k ) | , | f R ( k ) | > | f L ( k ) |
...(6)
这里,|...|指示“...”的范数。θ指示fL(k)与fR(k)之间的相位差(0≤|θ|≤π)。上标*指示复共轭。Re[...]指示“...”的实部。从上述等式(6)可见,在子声道信号fL(k)和fR(k)的范数一致的情况中,幅度分量的类似度ap(k)是1。反之,在子声道信号fL(k)和fR(k)的范数不一致的情况中,类似度ap(k)的值小于1。另一方面,关于相位分量的类似度ai(k),当相位差θ为0时,类似度ai(k)为1;当相位差θ为π/2时,类似度ai(k)为0;并且当相位差θ为π时,类似度ai(k)为-1。即,在子声道信号fL(k)和fR(k)的相位一致的情况中,相位分量的类似度ai(k)为1,并且在子声道信号fL(k)和fR(k)的相位不一致的情况中,类似度ai(k)的值小于1。
当各个频带k(k=0,...,N-1)的类似度a(k)是通过上述方法计算出的时,由带通滤波器146提取与小于特定阈值的类似度ap(q)和ai(q)相对应的频带q(0≤q≤N-1)。然后,仅由带通滤波器146所提取出的频带q中的子声道信号被输入左声道频带合成单元148或右声道频带合成单元150。例如,子声道信号fL(q)(q=q0,...,qn-1)被输入左声道频带合成单元148。因此,左声道频带合成单元148对从带通滤波器146输入的子声道信号fL(q)(q=q0,...,qn-1)执行IDFT处理,并且将其从频域变换到时域。此外,上述IDFT是Inverse Discrete Fourier Transform(离散傅里叶逆变换)的缩写。
以相似的方式,子声道信号fR(q)(q=q0,...,qn-1)被输入右声道频带合成单元150。因此,右声道频带合成单元150对从带通滤波器146输入的子声道信号fR(q)(q=q0,...,qn-1)执行IDFT处理,并且将其从频域变换到时域。从左声道频带合成单元148输出左声道信号sL中所包括的中心信号分量s L’。另一方面,从右声道频带合成单元150输出右声道信号sR中所包括的中心信号分量sR’。声源分离单元104可以通过上述方法从立体声信号中提取中心信号。
此外,可以通过如图4中所示改变带通滤波器146的通过条件来以相同方式分离左声道信号、右声道信号和背景声音信号。如图4中所示,在提取左声道信号的情况中,左右之间的相位差小并且左边的音量高于右边的音量的频带被设置为带通滤波器146的通带。这里的音量对应于上述幅度分量。类似地,在提取右声道信号的情况中,左右之间的相位差小并且右边的音量高于左边的音量的频带被设置为带通滤波器146的通带。
左声道信号、右声道信号和中心信号是前景信号。因此,这些信号中的任何一个都在左右之间的相位差小的频带中。另一方面,背景声音信号是在左右之间的相位差大的频带中的信号。因此,在提取背景声音信号的情况中,带通滤波器146的通带被设置为左右之间的相位差大的频带。由声源分离单元104以这种方式分离的左声道信号、右声道信号、中心信号和背景声音信号被输入对数谱分析单元106(参见图2)。
(2-3.对数谱分析单元106的配置示例)
接着,将描述对数谱分析单元106。对数谱分析单元106是用于将输入音频信号变换成各个音调的强度分布的装置。在音频信号中每八度音阶包括12个音调(C,C#,D,D#,E,F,F#,G,G#,A,A#,B)。此外,各个音调的中心频率成对数分布。例如,当用音调A3的中心频率fA3作为标准时,A#3的中心频率表示为fA#3=fA3*21/12。类似地,音调B3的中心频率fB3表示为fB3=fA#3*21/12。以这种方式,相邻音调的中心频率之比为1∶21/12。然而,当处理音频信号时,将音频信号作为时间-频率空间中的信号强度分布将使得频率轴是对数轴,从而使对音频信号的处理变复杂。因此,对数谱分析单元106分析音频信号,并且将其从时间-频率空间中的信号变换成时间-音调空间中的信号(以下称为对数谱)。
参考图5,将详细描述对数谱分析单元106的配置。如图5所示,对数谱分析单元106可以由重新采样单元152、八度音阶划分单元154和多个带通滤波器库(BPFB)156构成。
首先,音频信号被输入重新采样单元152。然后,重新采样单元152将输入音频信号的采样频率(例如,44.1kHz)变换成特定采样频率。通过将八度音阶之间的边界处的频率(以下称为边界频率)作为标准并且将边界频率乘以2的幂而获得的频率被当作特定采样频率。例如,音频信号的采样频率将八度音阶4和八度音阶5之间的边界频率1016.7Hz作为标准,并且被变换成为标准的25倍的采样频率(32534.7Hz)。通过以这种方式变换采样频率,作为重新采样单元152之后执行的频带划分处理和下采样处理的结果获得的最高和最低频率将与某一八度音阶的最高和最低频率一致。结果,可以简化用于从音频信号提取各个音调的信号的处理。
采样频率被重新采样单元152变换了的音频信号被输入八度音阶划分单元154。然后,八度音阶划分单元154通过重复执行频带划分处理和下采样处理将输入的音频信号划分成各个八度音阶的信号。通过由八度音阶划分单元154进行的划分所获得的各个信号被输入针对各个八度音阶(O1,...,O8)而设置的带通滤波器库156(BPFB(O1),...,BPFB(O8))。每个带通滤波器库156由12个带通滤波器构成,每个带通滤波器具有针对12个音调中的一个的通带,以从各个八度音阶的输入音频信号中提取各个音调的信号。例如,经由通过八度音阶8的带通滤波器库156(BPFB(O8)),从八度音阶8的音频信号中提取出12个音调(C8,C#8,D8,D#8,E8,F8,F#8,G8,G#8,A8,A#8,B)的信号。
通过从各个带通滤波器库156输出的信号可以获得示出各个八度音阶中12个音调的信号强度(以下称为能量)的对数谱。图6是示出从对数谱分析单元106输出的对数谱的示例的说明性示图。
参考图6的垂直轴(音调),输入音频信号被划分成7个八度音阶,并且每个八度音阶又被划分成12个音调:“C”、“C#”、“D”、“D#”、“E”、“F”、“F#”、“G”、“G#”、“A”、“A#”和“B”。另一方面,图6的水平轴(时间)示出沿时间轴对音频信号进行采样时的帧编号。例如,当由重新采样单元152以采样频率127.0888(Hz)对音频信号进行重新采样时,1帧将是与1(sec)/127.0888=7.8686(msec)相对应的时间段。此外,图6中所示的对数谱的颜色的浓淡指示在各帧处,各个音调的能量的强度。例如,位置S1被用黑色示出,并且因此可以理解:与位置S1相对应的音调(音调F)处的音符是在与位置S1相对应的时间被强有力地产生的。此外,图6是当采用某个音频信号作为输入信号时获得的对数谱的一个示例。因此,如果输入信号不同,则获得不同的对数谱。以这种方式获得的对数谱被输入特征量计算公式生成设备10等,并且被用于由音乐分析单元108(参见图2)执行的音乐分析处理。
(2-4.音乐分析单元108的配置示例)
接着,将描述音乐分析单元108的配置。音乐分析单元108是用于使用学习算法来分析音乐数据并且提取该音乐数据中所包括的特征量的装置。具体地,音乐分析单元108提取音乐数据中所包括的拍子、和弦进行和各个乐器声音。因此,如图2所示,音乐分析单元108包括拍子检测单元132、和弦进行检测单元134和乐器声音分析单元136。
由音乐分析单元108进行的处理的流程如图7中所示。如图7中所示,音乐分析单元108首先通过拍子检测单元132来执行拍子分析处理并且检测音乐数据中的拍子(S102)。接着,音乐分析单元108通过和弦进行检测单元134来执行和弦进行分析处理并且检测音乐数据的和弦进行(S104)。然后,音乐分析单元108开始有关声源的组合的循环处理(S106)。
所有4个声源(左声道声音、右声道声音、中心声音和背景声音)被用作要组合的声源。所述组合例如可以是:(1)所有4个声源,(2)只有前景声音(左声道声音、右声道声音和中心声音),(3)左声道声音+右声道声音+背景声音或(4)中心声音+背景声音。此外,其它组合例如可以是:(5)左声道声音+右声道声音,(6)仅背景声音,(7)仅左声道声音,(8)仅右声道声音或(9)仅中心声音。步骤S106开始的循环内的处理例如是针对上述(1)至(9)来执行的。
接着,音乐分析单元108通过乐器声音分析单元136来执行乐器声音分析处理并且提取音乐数据中所包括的各个乐器声音(S108)。这里所提取的各个乐器声音的类型是歌声、吉他声、贝斯声、键盘声、鼓声、琴弦声、铜管声等。当然,也可以提取其它类型的乐器声音。当针对所有的声源组合执行了乐器声音分析处理时,音乐分析单元108结束有关声源组合的循环处理(S110),并且有关音乐分析的一连串处理完成。当这一连串处理完成时,拍子、和弦进行和各个乐器声音从音乐分析单元108输入捕获范围确定单元110。
以下,将详细描述拍子检测单元132、和弦进行检测单元134和乐器声音分析单元136的配置。
(2-4-1.拍子检测单元132的配置示例)
首先,将描述拍子检测单元132的配置。如图8中所示,拍子检测单元132包括拍子概率计算单元162和拍子分析单元164。拍子概率计算单元162是用于基于音乐数据的对数谱来计算各帧是拍子位置的概率的装置。此外,拍子分析单元164是用于基于由拍子概率计算单元162计算出的各帧的拍子概率来检测拍子位置的装置。以下,将详细描述这些结构元件的功能。
首先,将描述拍子概率计算单元162。拍子概率计算单元162针对从对数谱分析单元106输入的对数谱的特定时间单位中的每一个时间单位(例如,1帧),计算拍子被包括在该时间单位中的概率(以下,称为“拍子概率”)。此外,当特定时间单位是1帧时,拍子概率可以被认为是各帧与拍子位置(时间轴上拍子的位置)相符合的概率。由拍子概率计算单元162用来计算拍子概率的公式是由特征量计算公式生成设备10通过使用学习算法而生成的。并且,诸如图9中所示的那些数据之类的数据被给予特征量计算公式生成设备10,作为用于学习的教师数据和评估数据。在图9中,用于拍子概率的计算的时间单位是1帧。
如图9中所示,从拍子位置已知的乐曲的音频信号变换出的对数谱的片段(以下,称为“局部对数谱”)和各个局部对数谱的拍子概率被提供给特征量计算公式生成设备10。即,局部对数谱被提供给特征量计算公式生成设备10作为评估数据,而拍子概率作为教师数据。这里,局部对数谱的窗口宽度是考虑了拍子概率的计算的精度与处理代价之间的权衡来确定的。例如,局部对数谱的窗口宽度可以包括要计算拍子概率的那帧的前后7帧(即,总共15帧)。
此外,作为教师数据提供的拍子概率例如基于已知的拍子位置并且使用真值(1)或假值(0),来指示拍子是否被包括在各个局部对数谱的中心帧中。这里不考虑小节的位置,并且当中心帧对应于拍子位置时,拍子概率是1;而当中心帧与拍子位置不相对应时,拍子概率是0。在图9中示出的示例中,给出局部对数谱Wa,Wb,Wc,...,Wn的拍子概率分别为1,0,1,...,0。用于从局部对数谱中计算拍子概率的拍子概率公式(P(W))是由特征量计算公式生成设备10基于评估数据和教师数据的多个集合而生成的。当以这种方式生成了拍子概率公式P(W)时,拍子概率计算单元162从所处理的音乐数据的对数谱中截取(cut out)各帧的局部对数谱,并且通过对各个局部对数谱应用拍子概率公式P(W)来顺次计算拍子概率。
图10是示出由拍子概率计算单元162计算出的拍子概率的示例的说明性示图。在图10的(A)中示出要从对数谱分析单元106输入拍子概率计算单元162的对数谱的示例。另一方面,在图10的(B)中,在时间轴上用折线示出由拍子概率计算单元162基于对数谱(A)计算出的拍子概率。例如,参考帧位置F1,可以看出,局部对数谱W1对应于帧位置F1。即,帧F1的拍子概率P(W1)=0.95是从局部对数谱W1中计算出的。类似地,基于从对数谱中截取的局部对数谱W2,计算出帧位置F2的拍子概率P(W2)是0.1。帧位置F1的拍子概率P(W1)高而帧位置F2的拍子概率P(W2)低,并且因此可以说,帧位置F1与拍子位置相对应的概率高,而帧位置F2与拍子位置相对应的概率低。
此外,可以通过另一学习算法来生成由拍子概率计算单元162使用的拍子概率公式。然而,应当注意,一般,对数谱包括各种参数,例如鼓的谱、由于说话引起的谱的发生和由于和弦的变化引起的谱中的变化。在鼓的谱的情况中,击打鼓的时间点很有可能就是拍子位置。另一方面,在语音的谱的情况中,说话开始时间点很有可能是拍子位置。为了通过全体地使用各种参数来高精度地计算拍子概率,适于使用特征量计算公式生成设备10或JP-A-2008-123011中所公开的学习算法。由拍子概率计算单元162以上述方式计算出的拍子概率被输入拍子分析单元164。
拍子分析单元164基于从拍子概率计算单元162输入的各个帧的拍子概率来确定拍子位置。如图8中所示,拍子分析单元164包括:起始点(onset)检测单元172、拍子得分计算单元174、拍子搜索单元176、恒定速度判定单元178、针对恒定速度的拍子重新搜索单元180、拍子确定单元182和速度修正单元184。各帧的拍子概率从拍子概率计算单元162输入起始点检测单元172、拍子得分计算单元174和速度修正单元184。
起始点检测单元172基于从拍子概率计算单元162输入的拍子概率来检测音频信号中所包括的起始点。这里的起始点是指音频信号中声音产生的时间点。更具体而言,拍子概率在特定阈值以上并且取得极大值的点被称为起始点。例如,在图11中,示出基于针对音频信号所计算出的拍子概率而检测到的起始点的示例。在图11中,与图10的(B)一样,在时间轴上用折线示出由拍子概率计算单元162计算出的拍子概率。在图11中所示出的拍子概率曲线图的情况中,取得极大值的点有3个,即,帧F3、F4和F5。其中,关于帧F3和F5,该时间点处的拍子概率在预先给出的特定阈值Th1之上。另一方面,帧F4的时间点处的拍子概率在阈值Th1之下。在这种情况中,两个点,即,帧F3和F5被检测出作为起始点。
这里,参考图12,将将要描述起始点检测单元172的起始点检测处理流程。如图12中所示,首先,起始点检测单元172关于针对各帧计算出的拍子概率,从第一帧开始,顺次对这些帧执行循环(S1322)。然后,起始点检测单元172关于各帧判定拍子概率是否在特定阈值之上(S1324)以及拍子概率是否指示极大值(S1326)。这里,当拍子概率在特定阈值之上并且拍子概率是极大值时,则起始点检测单元172进行到步骤S1328的处理。另一方面,当拍子概率在特定阈值以下或拍子概率不是极大值时,跳过步骤S1328的处理。在步骤S1328,向起始点位置的列表添加当前时间(或帧编号)(S1328)。然后,当有关所有帧的处理都完成了时,起始点检测处理的循环结束(S1330)。
利用如上所述的由起始点检测单元172进行的起始点检测处理,生成音频信号中所包括的起始点的位置的列表(各个起始点的时间或帧编号的列表)。利用上述起始点检测处理,例如还检测出如图13中所示的起始点的位置。图13与拍子概率相关地示出由起始点检测单元172检测出的起始点的位置。在图13中,在示出拍子概率的折线上方用圆圈示出由起始点检测单元172检测出的起始点的位置。在图13的示例中,具有阈值Th1之上的拍子概率的极大值被检测出,作为15个起始点。由起始点检测单元172以这种方式检测出的起始点的位置的列表被输入拍子得分计算单元174(参见图8)。
拍子得分计算单元174针对由起始点检测单元172检测出的各个起始点计算拍子得分,拍子得分指示与形成具有恒定速度(或恒定拍子间隔)的一连串拍子的多个拍子当中的拍子的对应程度。
首先,拍子得分计算单元174设置如图14中所示的所关注起始点。在图14的示例中,在由起始点检测单元172检测到的起始点中,在帧位置Fk(帧编号k)处的起始点被设置为所关注的起始点。此外,涉及与帧位置Fk的距离为特定距离d的整数倍的一连串帧位置Fk-3、Fk-2、Fk-1、Fk、Fk+1、Fk+2、Fk+3。以下,特定距离d称为转移量,并且距离为转移量d的整数倍的帧位置称为转移位置。拍子得分计算单元174将拍子概率已被计算出的帧的群组F中所包括的所有转移位置(...Fk-3,Fk-2,Fk-1,Fk,Fk+1,Fk+2,以及Fk+3...)处的拍子概率的加和作为所关注起始点的拍子得分。例如,当帧位置Fi处的拍子概率是P(Fi)时,所关注起始点的与帧编号k和转移量d相关的拍子得分BS(k,d)由以下等式(7)表示。由以下等式(7)表示的拍子得分BS(k,d)可以说是这样的得分,其指示音频信号的第k帧处的起始点与将转移量d作为拍子间隔的恒定速度相同步的概率。
[等式7]
BS ( k , d ) = &Sigma; n P ( F k + nd )
...(7)
这里,参考图15,将简要描述拍子得分计算单元174的拍子得分计算处理流程。
如图15中所示,首先,拍子得分计算单元174关于由起始点检测单元172检测到的起始点,从第一起始点开始,针对这些起始点顺次执行循环(S1342)。此外,拍子得分计算单元174关于所关注的起始点针对所有转移量d中的每一个转移量d执行循环(S1344)。作为循环的对象的转移量d是可以在音乐演奏中使用的所有拍子处的间隔的值。然后,拍子得分计算单元174初始化拍子得分BS(k,d)(即,0被代入拍子得分BS(K,d)中)(S1346)。接着,拍子得分计算单元174针对用于转移所关注起始点的帧位置Fd的转移系数n来执行循环(S1348)。然后,拍子得分计算单元174向拍子得分BS(k,d)顺次添加每个转移位置处的拍子概率P(Fk+nd)(S1350)。然后,当针对所有转移系数n的循环结束时(S1352),拍子得分计算单元174记录所关注的起始点的帧位置(帧编号k)、转移量d和拍子得分BS(k,d)(S1354)。拍子得分计算单元174针对所有起始点的每个转移量重复此拍子得分BS(k,d)的计算(S1356,S1358)。
利用如上所述由拍子得分计算单元174进行的拍子得分计算处理,针对由起始点检测单元172检测到的每个起始点,输出跨越多个转移量d的拍子得分BS(k,d)。如图16中所示的拍子得分分布图就是通过上述拍子得分计算处理获得的。该拍子得分分布图使从拍子得分计算单元174输出的拍子得分可视化。在图16中,沿水平轴按时间顺序示出由起始点检测单元172检测到的起始点。图16中的垂直轴示出转移量,已针对所述转移量计算了每个起始点的拍子得分。此外,图中每个点的颜色的浓淡指示在该转移量处、针对该起始点所计算出的拍子得分的水平。在图16中的示例中,在转移量d1的附近,所有起始点的拍子得分都高。当假定以在该转移量d1处的速度来演奏乐曲时,很有可能所检测到的起始点中的许多起始点与拍子对应。由拍子得分计算单元174计算出的拍子得分被输入拍子搜索单元176。
拍子搜索单元176基于由拍子得分计算单元174计算出的拍子得分,搜索示出有可能的速度波动的起始点位置的路径。例如,基于隐马尔科夫模型的Viterbi算法可以用作拍子搜索单元176的路径搜索方法。对于由拍子搜索单元176进行的Viterbi搜索,例如,起始点编号被设为时间轴(水平轴)的单位,而拍子得分计算时使用的转移量被设为观测序列(垂直轴),如图17中示意性所示。拍子搜索单元176搜索连接由时间轴和观测序列的值分别定义的节点的Viterbi路径。换而言之,拍子搜索单元176将起始点和由拍子得分计算单元174计算拍子得分时所使用的转移量的所有组合中的每一种组合作为目标节点。此外,各个节点的转移量等于针对该节点假定的拍子间隔。因此,以下,各个节点的转移量可以称为拍子间隔。
关于所述节点,拍子搜索单元176沿时间轴顺次选择节点中的任何节点,并且评估由一连串所选择的节点形成的路径。此时,在节点选择中,允许拍子搜索单元176跳过节点。例如,在图17的示例中,在第k-1个起始点之后,跳过第k个起始点而选择第k+1个起始点。这是因为是拍子的起始点和不是拍子的起始点通常混在这些起始点中,并且只好从包括不经过不是拍子的起始点的路径在内的路径中搜索出有可能的路径。
例如,对于路径的评估,可以使用4种评估值,即(1)拍子得分,(2)速度变化得分,(3)起始点移动得分和(4)针对跳过的惩罚。其中,(1)拍子得分是由拍子得分计算单元174针对每个节点计算出的拍子得分。另一方面,对节点间的过渡给出(2)速度变化得分、(3)起始点移动得分和(4)针对跳过的惩罚。在要对节点间的过渡给出的评估值中,(2)速度变化得分是基于经验知识给出的评估值,经验知识通常是乐曲中逐渐波动的速度。因此,过渡前节点处的拍子间隔与过渡后节点处的拍子间隔之间的差越小,对速度变化得分给出的值越高。
这里,参考图18,将详细描述(2)速度变化得分。在图18中,当前选择节点N1。拍子搜索单元176有可能选择节点N2至N5中的任何节点作为下一节点。尽管也可以选择N2至N5以外的其它节点,但是为了便于描述,将描述4个节点,即节点N2至N5。这里,当拍子搜索单元176选择节点N4时,由于节点N1与节点N4处的拍子间隔之间没有差,所以将给出最高值作为速度变化得分。另一方面,当拍子搜索单元176选择节点N3或N5时,在节点N1与节点N3或N5处的拍子间隔之间存在差,并且因此给出相对于选择节点N4时较低的速度变化得分。此外,当拍子搜索单元176选择节点N2时,节点N1与节点N2处的拍子间隔之间的差大于节点N3或N5被选择时的差。因此,给出更低的速度得分。
接着,参考图19,详细描述(3)起始点移动得分。起始点移动得分是根据过渡前后节点的起始点位置之间的间隔是否与过渡前该节点处的拍子间隔相匹配而给出的评估值。在图19(19A)中,当前选择第k个起始点的具有拍子间隔d2的节点N6。并且还示出两个节点N7和N8,作为接下来可能被拍子搜索单元176选择的节点。其中,节点N7是第k+1个起始点的节点,并且第k个起始点与第k+1个起始点之间的间隔(例如,帧编号之间的差)是D7。另一方面,节点N8是第k+2个起始点的节点,并且第k个起始点与第k+2个起始点之间的间隔是D8。
这里,当假定路径上的所有节点都成功与恒定速度中的拍子位置对应的理想路径时,相邻节点的起始点位置之间的间隔是各个节点处的拍子间隔的整数倍(当无休止符时是相同间隔)。因此,如图19(19B)中所示,关于当前节点N6,起始点位置之间的间隔越接近节点N6处的拍子间隔d2的整数倍,给出越高的起始点移动得分。在图19(19B)的示例中,由于节点N6和N8之间的间隔D8比节点N6和N7之间的间隔D7更接近节点N6处的拍子间隔d2的整数倍,所以,对从节点N6至节点N8的过渡给出更高的起始点移动得分。
接着,参考图20,详细描述(4)针对跳过的惩罚。针对跳过的惩罚是用于在节点间的过渡中约束起始点的过多跳过的评估值。因此,在一次过渡中跳过越多起始点则得分越低,而在一次过渡中跳过越少起始点则得分越高。这里,越低的得分意味着越高的惩罚。在图20的示例中,选择第k个起始点的节点N9作为当前节点。并且,在图20的示例中,还示出3个节点N10、N11和N12作为接下来可能被拍子搜索单元176选择的节点。节点N10是第k+1个起始点的节点,节点N11是第k+2个起始点的节点,而节点N12是第k+3个起始点的节点。
因此,在从节点N9至节点N10的过渡的情况中,没有跳过节点。另一方面,在从节点N9至节点N11的过渡的情况中,跳过第k+1个起始点。此外,在从节点N9至节点N12的过渡的情况中,跳过第k+1个和第k+2个起始点。因此,针对跳过的惩罚在从节点N9至节点N10的过渡的情况中取得相对高的值,在从节点N9至节点N11的过渡的情况中取得中间值,并且在从节点N9至节点N12的过渡的情况中取得低值。因此,在路径搜索时,可以防止较大数目的起始点被跳过从而使得节点之间的间隔恒定的现象。
此前,已经描述了用于评估由拍子搜索单元176搜索出的路径的4个评估值。使用图17描述的路径评估是关于所选择的路径,通过将对各个节点给出的或针对路径中所包括的节点间的过渡所给出的上述(1)至(4)的评估值彼此顺次相乘来执行的。拍子搜索单元176确定所有可以设想到的路径中评估值的乘积最大的路径作为最优路径。例如,在图21中示出以这种方式确定的路径。图21示出由拍子搜索单元176确定为最优路径的Viterbi路径的示例。在图21的示例中,在图16中示出的拍子得分分布图中用点线描画出由拍子搜索单元176确定的最优路径。在图21的示例中,可见,由拍子搜索单元176针对其执行了搜索的乐曲的速度以拍子间隔d3为中心波动。由拍子搜索单元176确定的最优路径(该最优路径中所包括的节点的列表)被输入恒定速度判定单元178、针对恒定速度的拍子重新搜索单元180和拍子确定单元182。
恒定速度判定单元178判定由拍子搜索单元176确定的最优路径是否指示具有低的拍子间隔(这些拍子间隔是针对各个节点假定的拍子间隔)方差的恒定速度。首先,恒定速度判定单元178计算从拍子搜索单元176输入的最优路径中所包括的节点处的一组拍子间隔的方差。然后,当所计算出的方差小于预先给定的特定阈值时,恒定速度判定单元178判定速度是恒定的;并且当所计算出的方差大于该特定阈值时,恒定速度判定单元178判定速度不是恒定的。例如,由恒定速度判定单元178判定的速度如图22中所示。
例如,在图22(22A)的示例中,用点线描画出轮廓的最优路径中起始点位置的拍子间隔根据时间变化。利用这样的路径,可以判定速度不是恒定的,作为由恒定速度判定单元178进行的与阈值相关的判定的结果。另一方面,在图22(22B)的示例中,由点线描画出轮廓的最优路径中的起始点位置的拍子间隔在整个乐曲中几乎恒定。可以判定这样的路径是恒定的,作为由恒定速度判定单元178进行的与阈值相关的判定的结果。以这种方式获得的、由恒定速度判定单元178进行的与阈值相关的判定的结果被输出给针对恒定速度的拍子重新搜索单元180。
当由拍子搜索单元176提取出的最优路径被恒定速度判定单元178判定为指示恒定速度时,针对恒定速度的拍子重新搜索单元180重新执行路径搜索,将作为搜索对象的节点限制为仅最经常出现的拍子间隔周围的那些节点。例如,针对恒定速度的拍子重新搜索单元180通过图23中所示的方法执行对路径的重新搜索处理。此外,与图17一样,针对恒定速度的拍子重新搜索单元180针对以节点间隔为观测序列、沿时间轴(起始点编号)的一组节点来执行对路径的重新搜索处理。
例如,假定要被拍子搜索单元176确定为最优路径的路径中所包括的节点处的拍子间隔的众数是d4,并且该路径的速度被恒定速度判定单元178确定为是恒定的。在这种情况中,针对恒定速度的拍子重新搜索单元180仅将拍子间隔d满足d4-Th2≤d≤d4+Th2(Th2是特定阈值)的那些节点作为搜索对象来再次搜索路径。在图23的示例中,针对第k个起始点示出5个节点N12至N16。其中,关于针对恒定速度的拍子重新搜索单元180,N13至N15处的拍子间隔被包括在搜索范围(d4-Th2≤d≤d4+Th2)内。相比之下,N12和N16处的拍子间隔未被包括在上述搜索范围内。因此,关于第k个起始点,仅3个节点N13至N15成为由针对恒定速度的拍子重新搜索单元180进行的路径搜索重新执行的对象。
此外,由针对恒定速度的拍子重新搜索单元180进行的对路径的重新搜索处理的流程与由拍子搜索单元176进行的路径搜索处理相似,不同在于成为搜索对象的节点的范围不同。根据如上所述由针对恒定速度的拍子重新搜索单元180进行的路径重新搜索处理,关于具有恒定速度的乐曲,可以减少路径搜索的结果中可能局部发生的与拍子位置相关的错误。由针对恒定速度的拍子重新搜索单元180确定的最优路径被输出给拍子确定单元182。
拍子确定单元182基于由拍子搜索单元176确定的最优路径或由针对恒定速度的拍子重新搜索单元180重新确定的最优路径,以及基于路径中所包括的各个节点处的拍子间隔,确定音频信号中所包括的拍子位置。例如,拍子确定单元182通过如图24中所示的方法来确定拍子位置。在图24(24A)中,示出由起始点检测单元172获得的起始点检测结果的示例。在该示例中,示出由起始点检测单元172检测到的在第k个起始点附近的14个起始点。相比之下,图24(24B)示出了由拍子搜索单元176或针对恒定速度的拍子重新搜索单元180确定的最优路径中所包括的起始点。在24B的示例中,24A中所示出的14个起始点中,第k-7个起始点、第k个起始点和第k+6个起始点(帧编号Fk-7、Fk、Fk+6)被包括在最优路径中。此外,第k-7个起始点处的拍子间隔(等同于对应节点处的拍子间隔)是dk-7,并且第k个起始点处的拍子间隔是dk
关于这样的起始点,首先,拍子确定单元182将最优路径中所包括的起始点的位置作为乐曲的拍子位置。然后,拍子确定单元182根据各个起始点处的拍子间隔,在最优路径中所包括的相邻起始点之间配设补充拍子。此时,拍子确定单元182首先确定用来在最优路径上彼此相邻的起始点之间配设拍子的补充拍子数目。例如,如图25中所示,拍子确定单元182取两个相邻起始点的位置为Fh和Fh+1,并取起始点位置Fh处的拍子间隔为dh。在这种情况中,在Fh和Fh+1之间所要配设的补充拍子的数目Bfill由以下等式(8)给出。
[等式8]
B fill = Round ( F h + 1 - F h d h ) - 1
...(8)
这里,Round(...)指示“...”被四舍五入为最接近的整数。根据以上等式(8),拍子确定单元182所要配设的补充拍子的数目将是通过以下方式得到的数:相邻起始点之间的间隔除以拍子间隔得到的值四舍五入为最接近的整数,并且之后考虑栅栏柱问题从所得到的整数中减去1。
接着,拍子确定单元182用所确定的拍子数目,在最优路径上彼此相邻的起始点之间配设补充拍子,使得拍子以相等的间隔排列。在图24(24C)的示例中,示出配设了补充拍子之后的起始点。在24C的示例中,在第k-7个起始点和第k个起始点之间配设了两个补充拍子,并且在第k个起始点与第k+6个起始点之间配设两个补充拍子。应当注意,由拍子确定单元182提供的补充拍子的位置不一定与由起始点检测单元172检测到的起始点的位置对应。利用这样的配置,可以确定拍子的位置而不受拍子位置之外处产生的声音的影响。此外,即使在拍子位置处有休止符而没有声音产生的情况中,也可以恰当地把握拍子位置。由拍子确定单元182按此方式确定的拍子位置列表(包括最优路径上的起始点和由拍子确定单元182配设的补充拍子)输出给速度修正单元184。
速度修正单元184修正由拍子确定单元182所确定的拍子位置指示的速度。修正前的速度有可能是乐曲原始速度的常数倍,例如2倍、1/2倍、3/2倍等(参考图26)。因此,速度修正单元184对被错误地把握为常数倍的速度进行修正并且再现乐曲的原始速度。这里,参考图26的示例,其示出由拍子确定单元182确定的拍子位置的样式。在图26的示例中,在图中所示出的时间范围中,对于样式26A,包括6个拍子。相比之下,对于样式26B,在相同时间范围内包括12个拍子。即,以样式26A的拍子位置作为基准,样式26B的拍子位置指示2倍速度。
另一方面,对于样式26C-1,在相同时间范围内包括3个拍子。即,以样式26A的拍子位置作为基准,样式26C-1指示1/2倍速度。并且,对于样式26C-2,与样式26C-1一样,在相同时间范围内包括3个拍子,并且因此以样式26A的拍子位置作为基准,指示1/2倍速度。然而,26C-1和26C-2彼此不同在于在从基准速度改变速度时将保留的拍子位置。由速度修正单元184执行的速度修正例如是通过以下过程(S1)至(S3)来执行的。
(S1)确定基于波形所估计出的估计速度
(S2)确定多个乘子中的最优基本乘子
(S3)重复(S2)直到基本乘子为1为止
首先,将对(S1)确定基于波形所估计出的估计速度进行说明。首先,速度修正单元184从音频信号的波形中出现的声音特征中确定被估计为足够的估计速度。例如,特征量计算公式生成设备10或通过JP-A-2008-123011中所公开的学习算法生成的、用于估计速度辨别的计算公式(估计速度辨别公式)被用于估计速度的确定。例如,如图27中所示,多首乐曲的对数谱被提供给特征量计算公式生成设备10,作为评估数据。在图27的示例中,提供对数谱LS1至LSn。此外,提供由正在收听乐曲的人判定为正确的速度作为教师数据。在图27的示例中,提供各个对数谱的正确速度(LS1:100,...,LSn:60)。估计速度辨别公式是基于多组这样的评估数据和教师数据来生成的。速度修正单元184通过使用所生成的估计速度辨别公式来计算所处理的乐曲的估计速度。
接着,将对(S2)确定多个乘子中的最优基本乘子进行说明。速度修正单元184从多个基本乘子中确定使得修正后的速度与乐曲的原始速度最接近的基本乘子。这里,该基本乘子是作为用于速度修正的常数比的基本单位的乘子。例如,七种乘子(即,1/3、1/2、2/3、1、3/2、2和3)中的任何一种被用作该基本乘子。然而,本实施例的应用范围不限于这些示例,并且基本乘子例如可以是五种乘子(即,1/3、1/2、1、2和3)中的任何一种。为了确定最优基本乘子,速度修正单元184首先在用各个基本乘子修正拍子位置之后计算平均拍子概率。然而,在基本乘子为1的情况中,平均拍子概率是针对拍子位置未被修正的情况来计算的。例如,平均拍子概率是由速度修正单元184通过如图28中所示的方法针对各个基本乘子来计算的。
在图28中,在时间轴上用折线示出由拍子概率计算单元162计算出的拍子概率。此外,在水平轴上示出根据这些乘子中的任何一个修正的3个拍子的帧编号Fh-1、Fh和Fh+1。这里,当帧编号Fh处的拍子概率是BP(h)时,根据乘子r修正的拍子位置的群组F(r)的平均拍子概率BPAVG(r)由以下等式(9)给出。这里,m(r)是群组F(r)中所包括的帧编号的个数。
[等式9]
B P AVG ( r ) = &Sigma; F ( h ) &Element; F ( r ) BP ( h ) m ( r )
...(9)
如使用图26的样式26C-1和26C-2描述的,在基本乘子r为1/2的情况中,对于拍子位置存在两种候选。在这种情况中,速度修正单元184针对拍子位置的这两种候选中的每一种计算平均拍子概率BPAVG(r),并且采用具有较高平均拍子概率BPAVG(r)的拍子位置作为根据乘子r=1/2修正的拍子位置。类似地,在乘子r为1/3的情况中,对于拍子位置存在三种候选。因此,速度修正单元184针对拍子位置的这三种候选中的每一种计算平均拍子概率BPAVG(r),并且采用具有最高平均拍子概率BPAVG(r)的拍子位置作为根据乘子r=1/3修正的拍子位置。
在针对各个基本乘子计算了平均拍子概率之后,速度修正单元184基于估计速度和平均拍子概率来针对各个基本乘子计算修正后速度的似然(以下,称为速度似然)。速度似然可以由以估计速度为中心的高斯分布示出的速度概率与平均拍子概率的乘积来表示。例如,由速度修正单元184计算如图29中所示的速度似然。
在图29(29A)中示出由速度修正单元184针对各个乘子计算出的平均拍子概率。并且,图29(29B)示出高斯分布形式的速度概率,该高斯分布由预先给出的特定方差σ1确定并且以由速度修正单元184基于音频信号的波形估计出的估计速度为中心。此外,图29中的29A和29B的水平轴表示拍子位置被根据各个乘子修正之后,速度的对数。速度修正单元184通过将平均拍子概率与速度概率彼此相乘,来针对基本乘子中的每个基本乘子计算29C中所示的速度似然。在图29的示例中,尽管平均拍子概率对于基本乘子是1时和其为1/2时几乎是相同的,但是被修正为1/2倍的速度与估计速度更接近(速度概率高)。因此,对于被修正为1/2倍的速度,所计算出的速度似然更高。速度修正单元184以这种方式计算速度似然,并且确定产生最高速度似然的基本乘子,作为使得修正后的速度最接近乐曲的原始速度的基本乘子。
以这种方式,通过在有可能的速度的确定中考虑可以从估计速度获得的速度概率,可以从候选中精确地确定恰当的速度,这些候选是具有常数倍关系并且基于声音的局部波形难以相互辨别的速度。当速度被以这种方式修正之后,速度修正单元184执行(S3)重复(S2)直到基本乘子为1为止。具体而言,由速度修正单元184针对各个基本乘子重复平均拍子概率的计算和速度似然的计算,直到产生最高速度似然的基本乘子是1为止。结果,即使速度修正单元184的修正之前的速度是乐曲的原始速度的的1/4倍、1/6倍、4倍、6倍等,该速度也可以用通过基本乘子的组合获得的用于修正的恰当乘子(例如,1/2倍×1/2倍=1/4倍)来修正。
这里,参考图30,将简要描述速度修正单元184的修正处理流程。如图30中所示,首先,速度修正单元184通过使用由特征量计算公式生成设备10预先获得的估计速度辨别公式来从音频信号中确定估计速度(S1442)。接着,速度修正单元184针对多个基本乘子(例如,1/3、1/2等)来顺次执行循环(S1444)。在循环内,速度修正单元184根据各个基本乘子来改变拍子位置并且修正速度(S1446)。接着,速度修正单元184计算修正后的拍子位置的平均拍子概率(S1448)。接着,速度修正单元184基于在S1448处计算出的平均拍子概率和在S1442处确定的估计速度来针对各个基本乘子计算速度似然(S1450)。
然后,当该循环对于所有基本乘子都完成了时(S1452),速度修正单元184确定产生最高速度似然的基本乘子(S1454)。然后,速度修正单元184判定产生最高速度似然的基本乘子是否是1(S1456)。如果产生最高速度似然的基本乘子是1,则速度修正单元184结束修正处理。另一方面,当产生最高速度似然的基本乘子不是1时,速度修正单元184返回步骤S1444的处理。从而,基于根据产生最高速度似然的基本乘子修正后的速度(拍子位置),再次执行根据基本乘子中的任何一个的速度修正。
以上,已经描述了拍子检测单元132的配置。利用上述处理,如图31中所示的拍子位置的检测结果从拍子检测单元132被输出。拍子检测单元132的检测结果被输入和弦进行检测单元134,并且用于和弦进行的检测处理(参考图2)。
(2-4-2.和弦进行检测单元134的配置示例)
接着,将描述和弦进行检测单元134的配置。和弦进行检测单元134是用于基于学习算法来检测音乐数据的和弦进行的装置。如图2中所示,和弦进行检测单元134包括:结构分析单元202、和弦概率检测单元204、基调检测单元206、小节线检测单元208和和弦进行估计单元210。和弦进行检测单元134通过使用这些结构元件的功能来检测音乐数据的和弦进行。以下,将描述各个结构元件的功能。
(结构分析单元202)
首先,将描述结构分析单元202。如图32中所示,向结构分析单元202输入来自对数谱分析单元106的对数谱和来自拍子分析单元164的拍子位置。结构分析单元202基于对数谱和拍子位置来计算音频信号中所包括的拍子区间之间声音的类似概率。如图32中所示,结构分析单元202包括拍子区间特征量计算单元222、相关性计算单元224和类似概率生成单元226。
拍子区间特征量计算单元222关于由拍子分析单元164检测到的各个拍子来计算拍子区间特征量,拍子区间特征量表示从该拍子到下一个拍子的拍子区间的局部对数谱的特征。这里,参考图33,将简要描述拍子、拍子区间和拍子区间特征量之间的关系。在图33中示出由拍子分析单元164检测到的6个拍子位置B1至B6。在该示例中,该拍子区间是通过在拍子位置处划分音频信号所获得的区间,并且指示从一个拍子到下一个拍子之间的区间。例如,拍子区间BD1是从拍子B1至拍子B2的区间;拍子区间BD2是从拍子B2至拍子B3的区间;并且拍子区间BD3是从拍子B3至拍子B4的区间。此外,拍子区间特征量计算单元222从与各个拍子区间BD1至BD6相对应的局部对数谱中计算各个拍子区间特征量BF1至BF6。
拍子区间特征量计算单元222通过如图34和图35中所示的方法来计算拍子区间特征量。在图34(34A)中,示出与由拍子区间特征量计算单元222截取的拍子对应的拍子区间BD的局部对数谱。拍子区间特征量计算单元222对局部对数谱的各个音调(八度音阶的数目×12个音符)的能量进行时间平均。通过该时间平均,计算各个音调的平均能量。在图34(34B)中示出由拍子区间特征量计算单元222计算出的各个音调的平均能量水平。
接着,将参考图35。在图35(35A)示出与图34(34B)中所示一样的各个音调的平均能量水平。拍子区间特征量计算单元222针对12个音符,对若干个八度音阶上不同八度音阶中有相同名称的音符的平均能量的值求加权和,并且计算相应12个音符的能量。例如,在图35(35B,35C)中所示的示例中,使用特定的权重(W1,W2,...,Wn)对n个八度音阶上的音符C(C1,C2,...,Cn)的平均能量进行加权并且加和到一起,并且计算出音符C的能量值EnC。此外,以相同的方式,通过使用特定的权重(W1,W2,...,Wn)对n个八度音阶上的音符B(B1,B2,...,Bn)的平均能量进行加权并且加和到一起,并且计算出音符B的能量值EnB。对于音符C和弦符B之间的10个音符(C#至A#)同样如此。结果,生成了将相应12个音符的能量值ENC,ENC#,...,ENB作为元素的12维向量。拍子区间特征量计算单元222针对每个拍子计算这样的相应12个音符的能量(12维向量)作为拍子区间特征量BF,并且将它输出给相关性计算单元224。
用于求加权和的各个八度音阶的权重W1,W2,...,Wn的值优选在普通乐曲的旋律或和弦清楚的中音域中较大。该配置使得能够在更清楚地反映旋律或和弦的特征的情况下对乐曲结构进行分析。
相关性计算单元224针对音频信号中所包括的所有拍子区间对,通过使用从拍子区间特征量计算单元222输入的拍子区间特征量(各个拍子区间的相应12个音符的能量)来计算拍子区间之间的相关系数。例如,相关性计算单元224通过如图36中所示的方法来计算相关系数。在图36中,示出第一所关注拍子区间BDi和第二所关注拍子区间BDj作为要计算相关系数的一对拍子区间的示例,拍子区间是通过划分对数谱获得的。
例如,为了计算这两个所关注拍子区间之间的相关系数,相关性计算单元224首先获得第一所关注拍子区间BDi以及前后N个区间(也称为“2N+1个区间”)(在图36的示例中,N=2,总共5个区间)的相应12个音符的能量。同样地,相关性计算单元224获得第二所关注拍子区间BDj以及前后N个区间的相应12个音符的能量。然后,相关性计算单元224计算所获得的第一所关注拍子区间BDi以及前后N个区间的相应12个音符的能量与所获得的第二所关注拍子区间BDj以及前后N个区间的相应12个音符的能量之间的相关系数。相关性计算单元224针对所有的第一所关注拍子区间BDi和第二所关注拍子区间BDj对来计算所述相关系数,并且向类似概率生成单元226输出计算结果。
类似概率生成单元226通过使用预先生成的变换曲线,将从相关性计算单元224输入的、拍子区间之间的相关系数变换成类似概率。类似概率指示拍子区间的声音内容之间的类似程度。将相关系数变换成类似概率时所使用的变换曲线例如如图37中所示。
在图37(37A)中示出预先获得的两种概率分布。这两种概率分布是具有相同声音内容的拍子区间之间的相关系数的概率分布和具有不同声音内容的拍子区间之间的相关系数的概率分布。从图37(37A)中可见,相关系数越低,声音内容彼此相同的概率越低,并且相关系数越高,声音内容彼此相同的概率越高。因此,可以预先生成如图37(37B)中所示、用于从相关系数中导出拍子区间之间的类似概率的变换曲线。类似概率生成单元226通过使用以这种方式预先生成的变换曲线,将从相关性计算单元224输入的相关系数CO1例如变换成类似概率SP1。
已被变换出的类似概率例如可以如图38那样被可视化。图38的垂直轴对应于第一所关注拍子区间中的位置,并且水平轴对应于第二所关注拍子区间中的位置。此外,二维平面上所画出的颜色的浓淡指示该坐标处第一所关注拍子区间与第二所关注拍子区间之间的类似程度。例如,第一所关注拍子区间i1与和第一所关注拍子区间i1基本相同的第二所关注拍子区间j1之间的类似概率自然显示高值,并且示出这些拍子区间具有相同的声音内容。当被演奏的乐曲部分到达第二所关注拍子区间j2时,第一所关注拍子区间i1与第二所关注拍子区间j2之间的类似概率再次显示高值。即,可以看出,在第二所关注拍子区间j2中,很有可能正在演奏与第一所关注拍子区间i1的声音内容几乎相同的声音内容。由结构分析单元202以这种方式获得的拍子区间之间的类似概率被输入给稍后描述的小节线检测单元208和和弦进行检测单元210。
此外,在本实施例中,由于拍子区间中的能量的时间平均被用于拍子区间特征量的计算,所以,对于由结构分析单元202进行的乐曲结构分析,不考虑拍子区间中的对数谱中有关时间变化的信息。即,即使在两个区间中演奏相同的旋律而该旋律(例如,由于演奏者的编排)在时间上彼此偏移时,所演奏的内容仍被判定为相同,只要该偏移仅发生在拍子区间内即可。
(和弦概率检测单元204)
接着,将描述和弦概率检测单元204。和弦概率检测单元204计算由拍子分析单元164检测到的各个拍子的拍子区间中各种和弦被演奏的概率(以下称为和弦概率)。如上所述,如图39所示,由和弦概率检测单元204计算出的和弦概率用于基调检测单元206的基调检测处理。此外,如图39所示,和弦概率检测单元204包括拍子区间特征量计算单元232、根音特征量准备单元234和和弦概率计算单元236。
如上所述,对数谱和由拍子检测单元132检测到的拍子位置的信息被输入和弦概率检测单元204。因此,拍子区间特征量计算单元232关于由拍子分析单元164检测到的各个拍子来计算相应12个音符的能量,作为表示拍子区间中的音频信号的特征的拍子区间特征量。拍子区间特征量计算单元232计算作为拍子区间特征量的相应12个音符的能量,并且将其输出给根音特征量准备单元234。根音特征量准备单元234基于从拍子区间特征量计算单元232输出的相应12个音符的能量来生成根音特征量,根音特征量用于针对各个拍子区间的和弦概率计算。例如,根音特征量准备单元234通过图40和图41中所示的方法来生成根音特征量。
首先,根音特征量准备单元234针对所关注拍子区间BDi,提取所关注拍子区间BDi以及前后N个区间的相应12个音符的能量(参考图40)。所关注拍子区间BDi以及前后N个区间的相应12个音符的能量可以被认为是将音符C作为和弦的根音(基音)的特征量。在图40的示例中,由于N为2,所以将音符C作为根音的5个区间的根音特征量(12×5维)被提取出。接着,根音特征量准备单元234通过将将音符C作为根音的5个区间的根音特征量的12个音符的元素位置转移特定数目,生成11个单独的根音特征量,每个根音特征量针对5个区间并且每个根音特征量将音符C#至音符B的任何音符作为根音(参考图41)。此外,元素位置被转移的转移数是:在音符C#为根音的情况下为1,在音符D为根音的情况下为2,……,并且在音符B为根音的情况下为11。结果,由根音特征量准备单元234针对相应12个音符生成了根音特征量(分别为,12×5维),每个根音特征量将从音符C至音符B的12个音符中的一个作为根音。
根音特征量准备单元234针对所有拍子区间执行如上所述的根音特征量生成处理,并且准备用于针对各个区间的和弦概率计算的根音特征量。此外,在图40和图41的示例中,针对一个拍子区间准备的特征量是12×5×12维向量。由根音特征量准备单元234生成的根音特征量被输出给和弦概率计算单元236。和弦概率计算单元236通过使用从根音特征量准备单元234输入的根音特征量,针对各个拍子区间来计算指示各种和弦被演奏的概率(和弦概率)。这里的“各种和弦”是指例如基于根音(C,C#,D,...)、构成音符的数目(三和弦(triad)、七和弦(7th chord)、九和弦(9th chord))、调性(大调/小调)等来区分的和弦中的各种和弦。例如,通过逻辑回归分析预先习得的和弦概率公式可以用于和弦概率的计算。
例如,和弦概率计算单元236通过图42中所示的方法来生成用于和弦概率计算的和弦概率公式。和弦概率公式的学习是针对每种和弦执行的。即,例如针对用于大和弦的和弦概率公式、用于小和弦的和弦概率公式、用于七和弦的和弦概率公式和用于九和弦的和弦概率公式中的每一个,执行以下描述的学习处理。
首先,提供多个根音特征量(例如,用图41描述的12×5×12维向量)作为用于逻辑回归分析的独立变量,每个根音特征量是针对正确和弦已知的拍子区间的。此外,针对各个拍子区间的根音特征量中的每一个,提供用于通过逻辑回归分析预测生成概率的哑元数据。例如,当学习用于大和弦的和弦概率公式时,如果已知的和弦是大和弦,则哑元数据的值将为真值(1),并且对于任何其它情况,哑元数据的值为假值(0)。并且,当学习用于小和弦的和弦概率公式时,如果已知的和弦是小和弦,则哑元数据的值将为真值(1),并且对于任何其它情况,哑元数据的值为假值(0)。可以说,对于七和弦和九和弦也是如此。
通过使用上述独立变量和哑元数据来对足够数目的根音特征量(每个根音特征量针对一个拍子区间)执行逻辑回归分析,生成了用于从各个拍子区间的根音特征量计算出和弦概率的和弦概率公式。然后,和弦概率计算单元236将从根音特征量准备单元234输入的根音特征量应用于所生成的和弦概率公式,并且针对各个拍子区间顺次计算各种和弦的和弦概率。由和弦概率计算单元236进行的和弦概率计算处理例如是通过如图43中所示的方法来执行的。在图43(43A)中,示出各个拍子区间的根音特征量中,用音符C作为根音的根音特征量。
例如,和弦概率计算单元236将用于大和弦的和弦概率公式应用于用音符C作为根音的根音特征量,并且针对各个拍子区间计算和弦为“C”的和弦概率CPC。此外,和弦概率计算单元236将用于小和弦的和弦概率公式应用于用音符C作为根音的根音特征量,并且针对该拍子区间计算和弦为“Cm”的和弦概率CPCm。以类似的方式,和弦概率计算单元236将用于大和弦的和弦概率公式和用于小和弦的和弦概率公式应用于用音符C#作为根音的根音特征量,并且可以计算和弦“C#”的和弦概率CPC#和和弦“C#m”的和弦概率CPC#m(43B)。可以说,对和弦“B”的和弦概率CPB和和弦“Bm”的和弦概率CPBm的计算也是如此(43C)。
如图44中所示的和弦概率是由和弦概率计算单元236通过上述方法计算出的。参考图44,针对某一拍子区间,计算从音符C至音符B的12种音符中每一种音符的诸如“Maj(大和弦)”、“m(小和弦)”、“7(七和弦)”和“m7(小七和弦)”之类的和弦的和弦概率。根据图44的示例,和弦概率CPC是0.88,和弦概率CPCm是0.08,和弦概率CPC7是0.01,和弦概率CPCm7是0.02,并且和弦概率CPB是0.01。其它类型的和弦概率值都指示0。此外,在以上述方式计算多种类型的和弦的和弦概率之后,和弦概率计算单元236以使得每拍子区间的所计算出的概率值的总和变成1的方式对概率值进行归一化。针对音频信号中所包括的所有拍子区间重复如上所述由和弦概率计算单元236进行的计算和归一化处理。
和弦概率是如上所述由和弦概率检测单元204通过拍子区间特征量计算单元232、根音特征量准备单元234和和弦概率计算单元236的处理来计算出的。然后,由和弦概率检测单元204计算出的和弦概率被输入基调检测单元206(参考图39)。
(基调检测单元206)
接着,将描述基调检测单元206的配置。如上所述,由和弦概率检测单元204计算出的和弦概率被输入基调检测单元206。基调检测单元206是用于通过使用由和弦概率检测单元204针对各个拍子区间计算出的和弦概率来检测各个拍子区间的基调(调性/基本音阶)的装置。如图39中所示,基调检测单元206包括:相对和弦概率生成单元238、特征量准备单元240、基调概率计算单元242和基调确定单元246。
首先,和弦概率由和弦概率检测单元204输入相对和弦概率生成单元238。相对和弦概率生成单元238根据从和弦概率检测单元204输入的各个拍子区间的和弦概率,生成用于针对各个拍子区间的基调概率计算的相对和弦概率。例如,相对和弦概率生成单元238通过如图45中所示的方法来生成相对和弦概率。首先,相对和弦概率生成单元238从某一所关注的拍子区间的和弦概率中提取出有关大和弦和小和弦的和弦概率。这里所提取的和弦概率值被表示为总共24维的向量,即,大和弦的12个音符和小和弦的12个音符。以下,包括这里所提取出的和弦概率值的24维向量将被视为将音符C假定为基调的相对和弦概率。
接着,相对和弦概率生成单元238将所提取出的大和弦和小和弦的和弦概率值的12个音符的元素位置转移特定数目。通过以这种方式进行转移,生成11个单独的相对和弦概率。此外,元素位置被转移的转移数与如使用图41所述生成根音特征量时的转移数相同。以这种方式,由相对和弦概率生成单元238生成12个单独的相对和弦概率,每个相对和弦概率假定从音符C至音符B的12个音符中的一个作为基调。相对和弦概率生成单元238针对所有拍子区间执行如上所述的相对和弦概率生成处理,并且向特征量准备单元240输出所生成的相对和弦概率。
特征量准备单元240生成要用于各个拍子区间的基调概率计算的特征量。根据从相对和弦概率生成单元238输入到特征量准备单元240的相对和弦概率所生成的各个拍子区间的和弦出现得分和和弦过渡出现得分被用作特征量准备单元240所要生成的特征量。
首先,特征量准备单元240通过如图46中所示的方法生成各个拍子区间的和弦出现得分。首先,特征量准备单元240假定音符C作为基调,针对所关注的拍子区间以及前后M个拍子区间来提供相对和弦概率CP。然后,特征量准备单元240将所关注的拍子区间以及前后M个拍子区间上相同位置处的元素的概率值进行加和,这些概率值被包括在假定音符C作为基调的相对和弦概率中。结果,获得了与各种和弦的出现概率一致的和弦出现得分(CEC,CEC#,...,CEBm)(24维向量),出现概率是针对所关注的拍子区间和所关注的拍子区间周围的多个拍子区间的并且是假定音符C作为基调的。特征量准备单元240针对假定从音符C至音符B的12个音符中的一个作为基调的每种情况,执行上述和弦出现得分计算。根据该计算,对于一个所关注的拍子区间,获得12个单独的和弦出现得分。
接着,特征量准备单元240通过如图47中所示的方法来生成各个拍子区间的和弦过渡出现得分。首先,特征量准备单元240首先关于拍子区间BDi与相邻拍子区间BDi+1之间的所有和弦对(所有和弦过渡),将和弦过渡前后的相对和弦概率彼此相乘,这些相对和弦概率假定音符C作为基调。这里,“所有的和弦对”是指24×24对,即,“C”→“C”、“C”→“C#”、“C”→“D”、……“B”→“B”。接着,特征量准备单元240针对整个所关注的拍子区间和前后M个区间,对和弦过渡前后的相对和弦概率的相乘结果进行加和。结果,获得了与各种和弦过渡的出现概率一致的24×24维和弦过渡出现得分(24×24维向量),出现概率是针对所关注的拍子区间和所关注的拍子区间周围的多个拍子区间的并且是假定音符C作为基调的。例如,对于所关注的拍子区间BDi,有关从“C”至“C#”的和弦过渡的和弦过渡出现得分CTC→C#(i)由以下等式(10)给出。
[等式10]
CTC→C#(i)=CPC(i-M)·CPC#(i-M+1)+…+CPC(i+M)·CPC#(i+M+1)
...(10)
以这种方式,特征量准备单元240针对假定从音符C至音符B的12种音符中的一种音符作为基调的每种情况,执行上述24×24次单独的和弦过渡出现得分CT计算。根据该计算,对于一个所关注的拍子区间,获得12个单独的和弦过渡出现得分。此外,与倾向于因各个小节而变化的和弦不同,例如,在许多情况下,乐曲的基调通常在较长一段时间保持不变。因此,对要用于和弦出现得分或和弦过渡出现得分的计算的相对和弦概率的范围进行定义的M的值例如是可以包括许多小节(例如,几十个拍子)的合适的值。特征量准备单元240向基调概率计算单元242输入针对各个拍子区间计算出的24维和弦出现得分CE和24×24维和弦过渡出现得分,作为用于计算基调概率的特征量。
基调概率计算单元242通过使用从特征量准备单元240输入的和弦出现得分和和弦过渡出现得分,来针对各个拍子区间计算基调概率,基调概率指示各种基调被演奏的概率。“各种基调”是指例如基于12个音符(C,C#,D,...)或调性(大调/小调)来区分的基调。例如,通过逻辑回归分析预先习得的基调概率公式可以用于基调概率计算。例如,基调概率计算单元242通过如图48中所示的方法来生成用于基调概率计算的基调概率公式。对基调概率公式的学习是针对大调和小调独立执行的。因此,生成大调概率公式和小调概率公式。
如图48中所示,提供正确基调已知的各个拍子区间的多个和弦出现得分和和弦过渡出现得分,作为逻辑回归分析中的独立变量。接着,针对所提供的和弦出现得分和和弦过渡出现得分对中的每一对,提供用于通过逻辑回归分析预测生成概率的哑元数据。例如,当学习大调概率公式时,如果已知的基调是大调,则哑元数据将为真值(1),并且当是任何其它情况时,哑元数据为假值(0)。并且,当学习小调概率公式时,如果已知的基调是小调,则哑元数据将为真值(1),并且当是任何其它情况时,哑元数据为假值(0)
通过使用足够数目的独立变量和哑元数据对来执行逻辑回归分析,生成用于从和弦出现得分和和弦过渡出现得分对中计算出大调或小调的概率的基调概率公式。基调概率计算单元242将从特征量准备单元240输入的一对和弦出现得分和和弦过渡出现得分应用于基调概率公式中的每一个,并且针对各个拍子区间顺次计算各种基调的基调概率。例如,基调概率是通过如图49中所示的方法来计算的。
例如,在图49(49A)中,基调概率计算单元242将假定音符C为基调的一对和弦出现得分和和弦过渡出现得分应用于预先通过学习获得的大调概率公式,并且针对各个拍子区间计算基调为“C”的基调概率KPC。同样,基调概率计算单元242将假定音符C为基调的这一对和弦出现得分和和弦过渡出现得分应用于小调概率公式,并且针对相应拍子区间计算基调为“Cm”的基调概率KPCm。类似地,基调概率计算单元242将假定音符C#为基调的一对和弦出现得分和和弦过渡出现得分应用于大调概率公式和小调概率公式,并且计算基调概率KPC#和KPC#m(49B)。可以说,对基调概率KPB和KPBm的计算同样如此(49C)。
通过这样的计算,例如计算出如图50中所示的基调概率。参考图50,对于从音符C至音符B的12个音符,针对某一拍子区间计算两种基调概率,一种针对“Maj(大调)”并且一种针对“m(小调)”。根据图51的示例,基调概率KPC是0.90,并且基调概率KPCm是0.03。此外,除上述基调概率以外的基调概率值都指示0。在计算了所有类型的基调的基调概率之后,基调概率计算单元242以使得每拍子区间的所计算出的概率值的总和为1的方式对概率值进行归一化。针对音频信号中所包括的所有拍子区间重复如上所述由基调概率计算单元242进行的计算和归一化处理。以这种方式针对各个基调所计算出的基调概率被输入基调确定单元246。
这里,基调概率计算单元242根据针对从音符C至音符B的12种音符中的每一种音符并且针对两种基调(即,大调和小调)所计算出的基调概率值来计算出不区分大调和小调的基调概率(简单基调概率)。例如,基调概率计算单元242通过如图51中所示的方法来计算简单基调概率。如图51(51A)中所示,例如,由基调概率计算单元242针对某一拍子区间计算出来的基调概率KPC、KPCm、KPA和KPAm分别是0.90、0.03、0.02和0.05。其它基调概率值全都指示0。基调概率计算单元242,通过针对从音符C至音符B的12种音符中的每一种、对为平行调关系的基调的基调概率值进行加和,来计算不区分大调和小调的简单基调概率。例如,简单基调概率SKPC是基调概率KPC和KPAm的总和,即,SKPC=0.90+0.05=0.95.。这是因为C大调(基调“C”)和A小调(基调“Am”)为平行调关系。类似地针对音符C#至音符B执行简单基调概率计算。由基调概率计算单元242计算出的12个单独的简单基调概率SKPC至SKPB被输入和弦进行估计单元210。
现在,基调确定单元246基于由基调概率计算单元242针对各个拍子区间计算出的各个基调的基调概率,通过路径搜索来确定有可能的基调进行。上述Viterbi算法例如被用作由基调确定单元246进行的路径搜索的方法。Viterbi路径的路径搜索例如是通过如图52中所示的方法来执行的。此时,拍子被顺次布置为时间轴(水平轴)并且基调类型被布置为观测序列(垂直轴)。因此,基调确定单元246将所有基调类型与拍子对中的每一对作为路径搜索的对象节点,对于这些拍子,已经由基调概率计算单元242计算出了基调概率。
关于所述节点,基调确定单元246沿时间轴顺次选择这些节点中的任何一个,并且通过使用两个评估值,(1)基调概率和(2)基调过渡概率,来评估由一连串所选择的节点形成的路径。此外,在由基调确定单元246进行对节点的选择时,不允许跳过拍子。这里,要用于评估的(1)基调概率是由基调概率计算单元242计算出的基调概率。对图52中所示的各个节点给出基调概率。另一方面,(2)基调过渡概率是对基点间的过渡给出的评估值。基调过渡概率是基于正确基调已知的乐曲中转调的发生概率,针对各种转调样式预先定义的。
与针对过渡的转调量相应的12个单独的值被定义为以下4种样式的基调过渡中每种样式的基调过渡概率:从大调至大调、从大调至小调、从小调至大调和从小调至小调。图53示出与针对从大调至大调的基调过渡的转调量相应的12个单独的概率值的示例。在图53的示例中,当与转调量Δk有关的基调过渡概率是Pr(Δk)时,Pr(0)为0.9987。这指示乐曲中基调变化的概率很低。另一方面,基调过渡概率Pr(1)为0.0002。这指示基调被升高一个音调(或被降低11个音调)的概率是0.02%。类似地,在图53的示例中,Pr(2)、Pr(3)、Pr(4)、Pr(5)、Pr(7)、Pr(8)、Pr(9)和Pr(10)分别是0.0001。并且,Pr(6)和Pr(11)分别是0.0000。与转调量相应的12个单独的概率值还针对以下过渡样式中的每种过渡样式而分别定义:从大调至小调,从小调至大调以及从小调至小调。
基调确定单元246关于表示基调进行的各个路径,将路径中所包括的各个节点的(1)基调概率和对节点间的过渡所给出的(2)基调过渡概率彼此顺次相乘。然后,基调确定单元246确定使得作为路径评估值的相乘结果最大的路径,作为表示有可能的基调进行的最优路径。例如,如图54中所示的基调进行是由基调确定单元246确定的。在图54中,在从乐曲的开始到结束的时间尺度下,示出由基调确定单元246确定的乐曲的基调进行的示例。在该示例中,从乐曲的开始3分钟,乐曲的基调是“Cm”。之后,乐曲的基调变为“C#m”并且基调保持不变直到乐曲结束。以这种方式通过相对和弦概率生成单元238、特征量准备单元240、基调概率计算单元242和基调确定单元246的处理所确定的基调进行被输入小节线检测单元208(参见图2)。
(小节线检测单元208)
接着,将描述小节线检测单元208。由结构分析单元202计算出的类似概率、由拍子检测单元132计算出的拍子概率、由基调检测单元206计算出的基调进行和由和弦概率检测单元204检测出的和弦概率被输入小节线检测单元208。小节线检测单元208基于拍子概率、拍子区间之间的类似概率、各个拍子区间的和弦概率、基调进行以及各个拍子区间的基调概率,确定小节线进行,小节线进行指示一连串的拍子中各个拍子对应于哪个节拍中的哪个拍数。如图55中所示,小节线检测单元208包括第一特征量提取单元252、第二特征量提取单元254、小节线概率计算单元256、小节线概率校正单元258、小节线确定单元260和小节线重新确定单元262。
第一特征量提取单元252针对各个拍子区间,根据该拍子区间以及前后L个区间的和弦概率和基调概率来提取第一特征量,作为用于稍后描述的小节线概率计算的特征量。例如,第一特征量提取单元252通过如图56中所示的方法来提取第一特征量。如图56中所示,第一特征量包括(1)无和弦变化得分和(2)相对和弦得分,它们是从所关注的拍子区间BDi以及前后L个拍子区间的和弦概率和基调概率中导出的。其中,无和弦变化得分是所具有的维数与包括所关注的拍子区间BDi以及前后L个拍子区间在内的区间的数目相等的特征量。另一方面,相对和弦得分是对于所关注的拍子区间以及前后L个拍子区间中每个区间具有24维的特征量。例如,当L是8时,无和弦变化得分是17维的而相对和弦得分是408维(17×24维)的,并且因此,第一特征量总共有425维。以下,将描述无和弦变化得分和相对和弦得分。
(1)无和弦变化得分
首先,将描述无和弦变化得分。无和弦变化得分是表示乐曲的和弦在特定区间范围上不改变的程度的特征量。无和弦变化得分是通过将接下来所要描述的和弦稳定性得分除以和弦不稳定性得分获得的(参考图57)。在图57的示例中,拍子区间BDi的和弦稳定性得分包括元素CC(i-L)至CC(i+L),CC(i-L)至CC(i+L)中的每一个是针对拍子区间BDi以及前后L个拍子区间中的相应区间来确定的。这些元素中的每一个被计算出,作为目标拍子区间与紧接在前的拍子区间之间具有相同名称的和弦的和弦概率的乘积的总和值。
例如,通过对拍子区间BDi-L-1与拍子区间BDi-L之间具有相同名称的和弦的和弦概率的乘积进行加和,计算出和弦稳定性得分CC(i-L)。以类似的方式,通过对拍子区间BDi+L-1与拍子区间BDi+L的和弦概率中具有相同名称的和弦的和弦概率的乘积进行加和,计算出和弦稳定性得分CC(i+L)。第一特征量提取单元252针对整个所关注的拍子区间BDi以及前后L个拍子区间执行上述计算,并且计算2L+1个单独的和弦稳定性得分。
另一方面,如图58中所示,拍子区间BDi的和弦不稳定性得分包括元素CU(i-L)至CU(i+L),这些元素中的每一个是针对拍子区间BDi以及前后L个拍子区间中的相应区间来确定的。这些元素中的每一个被计算出,作为目标拍子区间与紧接在前的拍子区间之间所有具有不同名称的和弦对的和弦概率的乘积的总和值。例如,通过对拍子区间BDi-L-1与拍子区间BDi-L的和弦概率中具有不同名称的和弦的和弦概率的乘积进行加和,计算出和弦不稳定性得分CU(i-L)。以类似的方式,通过对拍子区间BDi+L-1与拍子区间BDi+L的和弦概率中具有不同名称的和弦的和弦概率的乘积进行加和,计算出和弦不稳定性得分CU(i+L)。第一特征量提取单元252针对整个所关注的拍子区间BDi以及前后L个拍子区间执行上述计算,并且计算2L+1个单独的和弦不稳定性得分。
在计算了拍子稳定性得分和拍子不稳定性得分之后,第一特征量提取单元252针对所关注的拍子区间BDi,对于每组2L+1个元素,通过将和弦稳定性得分除以和弦不稳定性得分来计算无和弦变化得分。例如,假定对于所关注的拍子区间BDi,和弦稳定性得分CC是(CCi-L,...,CCi+L)并且和弦不稳定性得分CU是(CUi-L,...,CUi+L)。在此情况下,无和弦变化得分CR是(CCi-L/CUi-L,...,CCi+L/CUi+L)。所关注拍子区间周围给定范围内的和弦变化越少,则以这种方式计算出的无和弦变化得分指示越高的值。第一特征量提取单元252以这种方式计算音频信号中所包括的所有拍子区间的无和弦变化得分。
(2)相对和弦得分
接着,将描述相对和弦得分。相对和弦得分是表示给定范围内的区间上和弦的出现概率及其样式的特征量。相对和弦得分是通过根据从基调检测单元206输入的基调进行来转移和弦概率的元素位置而生成的。例如,相对和弦得分是通过如图59所示的方法生成的。在图59(59A)中示出由基调检测单元206确定的基调进行的示例。在该示例中,乐曲的基调在从乐曲的开始起3分钟后从“B”变为“C#m”。此外,还示出所关注的拍子区间BDi的位置,拍子区间BDi在前后L个区间内包括基调改变的时间点。
此时,第一特征量提取单元252针对基调为“B”的拍子区间生成相对和弦概率,其中拍子区间的包括大调和小调的24维和弦概率的元素的位置被转移使得和弦概率CPB在开始处出现。同样,第一特征量提取单元252针对基调为“C#m”的拍子区间生成相对和弦概率,其中拍子区间的包括大调和小调的24维和弦概率的元素的位置被转移使得和弦概率CPC#m在开始处出现。第一特征量提取单元252针对所关注的拍子区间以及前后L个区间中的每个区间来生成这样的相对和弦概率,并且输出所生成的相对和弦概率的集合((2L+1)×24维特征量向量)作为相对和弦得分。
从如上所述的(1)无和弦变化得分和(2)相对和弦得分形成的第一特征量从第一特征量提取单元252输出到小节线概率计算单元256(参考图55)。现在,除了第一特征量以外,第二特征量也被输入小节线概率计算单元256。因此,将描述第二特征量提取单元254的配置。
第二特征量提取单元254针对各个拍子区间,根据拍子区间以及前后L个区间上拍子概率中的变化特征来提取第二特征量,作为用于稍后描述的小节线概率计算的特征量。例如,第二特征量提取单元254通过如图60中所示的方法来提取第二特征量。在图60中,沿时间轴示出从拍子概率计算单元162输入的拍子概率。此外,在图中还示出通过分析拍子概率所检测到的6个拍子以及所关注拍子区间BDi。第二特征量提取单元254关于拍子概率来计算各个小区间SDj的拍子概率的平均值,小区间SDj具有特定持续时间并且被包括在整个所关注的拍子区间BDi以及前后L个区间上的拍子区间中。
例如,如图60中所示,为了主要检测音符值(N/M节拍的M)为4的节拍,优选用在拍子间隔的1/4和3/4的位置处划分拍子间隔的线来将小区间相互划分开。在这种情况中,将针对一个所关注的拍子区间BDi计算L×4+1个拍子概率平均值。因此,由第二特征量提取单元254提取出的第二特征量对于每个所关注的拍子区间将具有L×4+1维。并且,小区间的持续时间是拍子间隔的1/2。此外,为了恰当地检测乐曲中的小节线,希望分析至少若干个小节上的音频信号的特征。因此,优选定义用于提取第二特征量的拍子概率的范围的L的值例如是8个拍子。当L为8时,由第二特征量提取单元254提取的第二特征量对于各个所关注的拍子区间是33维的。
以这种方式提取出的第二特征量从第二特征量提取单元254输入小节线概率计算单元256。
如上所述,第一特征量和第二特征量被输入小节线概率计算单元256。因此,小节线概率计算单元256通过使用第一特征量和第二特征量来计算各个拍子的小节线概率。这里的小节线概率是指各个拍子是X节拍中的第Y个拍子的概率的集合。在随后的说明中,各种节拍中的各个拍数成为辨别的对象,各种节拍例如是1/4节拍、2/4节拍、3/4节拍和4/4节拍中的任何一种。在这种情况中,存在X与Y的10种单独集合,即,(1,1)、(2,1)、(2,2)、(3,1)、(3,2)、(3,3)、(4,1)、(4,2)、(4,3)和(4,4)。因此,计算10种类型的小节线概率。
此外,由稍后所述的小节线概率校正单元258考虑乐曲的结构来校正由小节线概率计算单元256计算出的概率值。因此,由小节线概率计算单元256计算出的概率是有待校正的中间数据。通过逻辑回归分析预先习得的小节线概率公式例如可以用于由小节线概率计算单元256进行的小节线概率计算。例如,用于小节线概率计算的小节线概率公式是通过如图61中所示的方法生成的。此外,小节线概率公式是针对上述各种小节线概率生成的。例如,当假定要辨别各个拍子在1/4节拍、2/4节拍、3/4节拍和4/4节拍中的拍数时,要生成10个单独的小节线概率公式。
首先,提供多个第一特征量和第二特征量对作为用于逻辑回归分析的独立变量,这些第一特征量和第二特征量是通过对音频信号进行分析提取出来的,并且它们的正确节拍(X)和拍子的正确拍数(Y)是已知的。接着,提供用于通过逻辑回归分析来预测所提供的第一特征量与第二特征量对中每一对的生成概率的哑元数据。例如,当学习用于辨别1/4节拍中的第一个拍子的公式以计算拍子为1/4节拍中的第一个拍子的概率时,如果已知的节拍和拍数是(1,1),则哑元数据的值将为真值(1),并且对于任何其它情况,哑元数据的值将为假值(0)。同样,当学习用于辨别2/4节拍中的第一个拍子以计算拍子是2/4节拍中的第一个拍子的概率时,例如,如果已知的节拍和拍数是(2,1),则哑元数据的值将为真值(1),并且对于任何其它情况,哑元数据的值将为假值(0)。可以说,对于其它节拍和拍数同样如此。
通过如上所述使用足够数目的独立变量和哑元数据对来执行逻辑回归分析,预先获得10种类型的小节线概率公式,这些小节线概率公式用于从一对第一特征量和第二特征量中计算小节线概率。然后,小节线概率计算单元256将从第一特征量提取单元252和第二特征量提取单元254输入的一对第一特征量和第二特征量应用于小节线概率公式,并且针对各个拍子区间计算小节线概率。例如,小节线概率是通过如图62中所示的方法计算出的。如图62中所示,小节线概率计算单元256将预先获得的用于辨别1/4节拍中的第一个拍子的公式应用于针对所关注的节拍区间提取的一对第一特征量和第二特征量,并且计算拍子是1/4节拍中的第一个拍子的小节线概率Pbar′(1,1)。同样,小节线概率计算单元256将预先获得的用于辨别2/4节拍中的第一个拍子的公式应用于针对所关注的节拍区间提取的一对第一特征量和第二特征量,并且计算拍子是2/4节拍中的第一个拍子的小节线概率Pbar′(2,1)。可以说,对于其它节拍和拍数同样如此。
小节线概率计算单元256针对所有拍子重复小节线概率计算,并且计算各个拍子的小节线概率。由小节线概率计算单元256针对各个拍子计算出的小节线概率被输入给接下来所描述的小节线概率校正单元258(参考图55)。
小节线概率校正单元258基于从结构分析单元202输入的拍子区间之间的类似概率,校正从小节线概率计算单元256输入的小节线概率。例如,假定:第i个所关注的拍子是X节拍中的第Y个拍子的小节线概率(该小节线概率还有待校正)是Pbar′(i,x,y),并且第i个拍子区间与第j个拍子区间之间的类似概率是SP(i,j)。在这种情况中,校正后的小节线概率Pbar(i,x,y)例如由以下等式(11)给出。
[等式11]
P bar ( i , x , y ) = &Sigma; j P bar &prime; ( j , x , y ) &CenterDot; ( SP ( i , j ) &Sigma; k SP ( i , k ) )
...(11)
如上所述,校正后的小节线概率Pbar(i,x,y)是通过使用归一化后的类似概率作为权重来对校正前的小节线概率求加权和而获得的值,其中,类似概率是与所关注的拍子相对应的拍子区间与其它拍子区间之间的类似概率。通过这样的概率值校正,与校正前的小节线概率相比较,相似声音内容的拍子的小节线概率将具有更接近的值。由小节线概率校正单元258校正后的各个拍子的小节线概率被输入接下来所描述的小节线确定单元260(参考图55)。
小节线确定单元260基于从小节线概率校正单元258输入的小节线概率,通过路径搜索来确定有可能的小节线进行,小节线概率指示各个拍子是X节拍中的第Y个拍子的概率。Viterbi算法例如用作由小节线确定单元260进行的路径搜索的方法。路径搜索例如是由小节线确定单元260通过如图63中所示的方法来执行的。如图63中所示,拍子被顺次布置在时间轴(水平轴)上。此外,小节线概率已被计算出的拍子的类型(X节拍中的第Y个拍子)用于观测序列(垂直轴)。小节线确定单元260将所有拍子类型与从小节线概率校正单元258输入的拍子对中的每一对作为路径搜索的对象节点。
关于所述对象节点,小节线确定单元260沿时间轴顺次选择这些节点中的任何节点。然后,小节线确定单元260使用两个评估值,(1)小节线概率和(2)节拍变化概率,来评估由一连串所选择的节点形成的路径。此外,在由小节线确定单元260进行节点的选择时,例如优选施加下述约束。作为第一约束,禁止跳过拍子。作为第二约束,禁止在小节的中间从一种节拍过渡至另一节拍(例如,从四节拍中的第一个至第三个拍子中的任何拍子或三节拍中的第一个或第二个拍子的过渡),或从一个节拍过渡至另一节拍的小节的中间。作为第三约束,禁止拍数不按次序的过渡,例如,从第一个拍子至第三个或第四个拍子,或从第二个拍子至第二个拍子或第四个拍子。
现在,在用于小节线确定单元260的路径评估的评估值中,(1)小节线概率是通过由小节线概率校正单元258校正小节线概率而计算出的上述小节线概率。对图63中示出的各个节点给出小节线概率。另一方面,(2)节拍变化概率是对节点之间的过渡所给出的评估值。节拍变化概率是通过从许多普通乐曲中收集在小节线进行期间节拍变化的发生概率、针对变化前的拍子类型和变化后的拍子类型的每种组合而预先定义的。
例如,在图64中示出了节拍变化概率的示例。在图64中,示出基于变化前的4种节拍和变化后的4种节拍导出的16个单独的节拍变化概率。在该示例中,针对从四节拍变为单节拍的节拍变化概率是0.05,从四节拍变为二节拍的节拍变化概率是0.03,从四节拍变为三节拍的节拍变化概率是0.02,而从四节拍变为四节拍(即,没有变化)的节拍变化概率是0.90。这指明节拍在乐曲中间改变的概率一般不高。此外,关于单节拍或二节拍,在所检测到的小节线位置由于小节线的检测错误而从其正确的位置偏移时,节拍变化概率可以用来自动恢复小节线的位置。因此,优选将单节拍或二节拍与另一节拍之间的节拍变化概率值设置为比三节拍或四节拍与另一节拍之间的节拍变化概率高。
小节线确定单元260关于表示小节线进行的各个路径,顺次将路径中所包括的各个节点的(1)小节线概率和对节点间的过渡所给出的(2)节拍变化概率彼此相乘。然后,小节线确定单元260确定使得作为路径评估值的相乘结果最大的路径,作为表示有可能的小节线进行的最大似然路径。例如,如图65中所示的小节线进行是基于由小节线确定单元260确定的最大似然路径获得的。在图65的示例中,针对第一至第八个拍子示出被小节线确定单元260确定为最大似然路径的小节线进行(参见粗线框)。在该示例中,从第一个拍子开始各个拍子的类型顺次是:四节拍中的第一个拍子、四节拍中的第二个拍子、四节拍中的第三个拍子、四节拍中的第四个拍子、四节拍中的第一个拍子、四节拍中的第二个拍子、四节拍中的第三个拍子、四节拍中的第四个拍子。由小节线确定单元260确定的小节线进行被输入小节线重新确定单元262。
现在,在普通乐曲中,拍子类型的三节拍和四节拍很少以混合的方式存在。考虑这种情况,小节线重新确定单元262首先判定对于出现在从小节线确定单元260输入的小节线进行中的拍子类型,三节拍和四节拍是否以混合的方式存在。在拍子类型的三节拍和四节拍以混合的方式存在的情况中,小节线重新确定单元262从搜索对象中排除不那么经常出现的节拍,并且再次搜索表示小节线进行的最大似然路径。根据所述由小节线重新确定单元262进行的路径重新搜索处理,可以减少可能在路径搜索的结果中局部出现的小节线(拍子类型)识别错误。
以上,已经描述了小节线检测单元208。由小节线检测单元208检测到的小节线进行被输入和弦进行估计单元210(参考图2)。
(和弦进行估计单元210)
接下来,将描述和弦进行估计单元210。各个拍子的简单基调概率、拍子区间之间的类似概率和小节线进行被输入和弦进行估计单元210。因此,和弦进行估计单元210基于这些输入值来针对各个拍子区间确定由一连串和弦形成的有可能的和弦进行。如图66中所示,和弦进行估计单元210包括:拍子区间特征量计算单元272、根音特征量准备单元274、和弦概率计算单元276、和弦概率校正单元278和和弦进行确定单元280。
和和弦概率检测单元204的拍子区间特征量计算单元232一样,拍子区间特征量计算单元272首先计算相应12个音符的能量。然而,拍子区间特征量计算单元272可以获得并且使用由和弦概率检测单元204的拍子区间特征量计算单元232计算出的相应12个音符的能量。接着,拍子区间特征量计算单元272生成扩展拍子区间特征量,扩展拍子区间特征量包括所关注的拍子区间以及前后N个区间的相应12个音符的能量以及从基调检测单元206输入的简单基调概率。例如,拍子区间特征量计算单元272通过如图67中所示的方法来生成扩展拍子区间特征量。
如图67中所示,由拍子区间特征量计算单元272提取出了所关注拍子区间BDi以及前后N个区间各自的相应12个音符的能量BFi-2、BFi-1、BFi、BFi+1和BFi+2。这里的N例如是2。此外,获得所关注的拍子区间BDi的简单基调概率(SKPC,...,SKPB)。拍子区间特征量计算单元272针对所有的拍子区间,生成扩展拍子区间特征量,并且将其输入根音特征量准备单元274,扩展拍子区间特征量包括简单基调概率和拍子区间以及前后N个区间的相应12个音符的能量(参考图66)。
根音特征量准备单元274转移从拍子区间特征量计算单元272输入的扩展拍子区间特征量的元素位置,并且生成12个单独的扩展根音特征量。根音特征量准备单元274例如通过如图68中所示的方法来生成扩展根音特征量。如图68中所示,根音特征量准备单元274将从拍子区间特征量计算单元272输入的扩展拍子区间特征量作为用音符C作为根音的扩展根音特征量。接着,根音特征量准备单元274将用音符C作为根音的扩展根音特征量的12个音符的元素位置转移特定数目。通过该转移处理,生成11个单独的扩展拍子区间特征量,每个扩展拍子区间特征量将音符C#至音符B中的任何一种音符作为根音。此外,元素位置被转移的转移数与和弦概率检测单元204的根音特征量准备单元234所使用的转移数相同。
根音特征量准备单元274针对所有拍子区间执行所述扩展根音特征量生成处理,并且准备要用于各个区间的和弦概率重新计算的扩展根音特征量。由根音特征量准备单元274生成的扩展根音特征量被输入和弦概率计算单元276(参考图66)。
和弦概率计算单元276针对各个拍子区间,通过使用从根音特征量准备单元274输入的根音特征量来计算指示各种和弦被演奏的概率的和弦概率。这里的“各个和弦”例如是指通过根音(C,C#,D,...)、构成音符的数目(三和弦、七和弦、九和弦)、调性(大调/小调)等来区分的和弦中的每一种和弦。通过根据逻辑回归分析的学习处理获得的扩展和弦概率公式例如可以用于和弦概率计算。例如,由和弦概率计算单元276进行的和弦概率重新计算所要使用的扩展和弦概率公式是通过如图69中所示的方法生成的。此外,和针对和弦概率公式的情况一样,对扩展和弦概率公式的学习是针对每种和弦来进行的。即,例如,学习处理是针对以下每种公式来执行的:用于大和弦的扩展和弦概率公式、用于小和弦的扩展和弦概率公式、用于七和弦的扩展和弦概率公式和用于九和弦的扩展和弦概率公式。
首先,分别针对正确和弦已知的拍子区间提供多个扩展根音特征量(例如,使用图68描述的12个单独的12×6维向量),作为用于逻辑回归分析的独立变量。此外,针对各个拍子区间的扩展根音特征量中的每个,提供用于通过逻辑回归分析来预测生成概率的哑元数据。例如,当学习用于大和弦的扩展和弦概率公式时,如果已知的和弦是大和弦,则哑元数据的值将是真值(1),并且对于任何其它情况,哑元数据的值将是假值(0)。同样,当学习用于小和弦的扩展和弦概率公式时,如果已知的和弦是小和弦,则哑元数据的值将是真值(1),并且对于任何其它情况,哑元数据的值将是假值(0)。可以说对于七和弦和九和弦同样如此。
通过使用上述独立变量和哑元数据来对足够数目的扩展根音特征量(每个扩展根音特征量是针对一个拍子区间的)执行逻辑回归分析,获得用于从根音特征量中计算出各个和弦概率的扩展和弦概率公式。当生成扩展和弦概率公式时,和弦概率计算单元276将扩展和弦概率公式应用于从根音特征量准备单元274输入的扩展根音特征量,并且顺次计算各个拍子区间的和弦概率。例如,和弦概率计算单元276通过如图70中所示的方法来重新计算和弦概率。
在图70(70A)中,示出各个拍子区间的扩展根音特征量中,用音符C作为根音的扩展根音特征量。和弦概率计算单元276例如将用于大和弦的扩展和弦概率公式应用于用音符C作为根音的扩展根音特征量,并且针对该拍子区间计算和弦为“C”的和弦概率CP′C。此外,和弦概率计算单元276将用于小和弦的扩展和弦概率公式应用于用音符C作为根音的扩展根音特征量,并且针对该拍子区间重新计算和弦为“Cm”的和弦概率CP′Cm。以类似的方式,和弦概率计算单元276将用于大和弦的扩展和弦概率公式和用于小和弦的扩展和弦概率公式应用于用音符C#作为根音的扩展根音特征量,并且重新计算和弦概率CP′C#和和弦概率CP′C#m(70B)。可以说,对和弦概率CP′B、和弦概率CP′Bm(C)以及其它类型的和弦(包括七和弦、九和弦等)的和弦概率的计算也是如此。
和弦概率计算单元276针对所有所关注的拍子区间重复如上所述的和弦概率重新计算处理,并且向和弦概率校正单元278输出所重新计算出的和弦概率(参考图66)。
和弦概率校正单元278基于从结构分析单元202输入的拍子区间之间的类似概率,校正由和弦概率计算单元276计算出的和弦概率。例如,假定:第i个所关注的拍子区间中和弦X的和弦概率是CP′x(i),并且第i个拍子区间和第j个拍子区间之间的类似概率是SP(i,j)。然后,校正后的和弦概率CP″x(i)例如由以下等式(12)给出。
[等式12]
C P X &prime; &prime; ( i ) = &Sigma; j C P &prime; X ( j ) &CenterDot; ( SP ( i , j ) &Sigma; k SP ( i , k ) )
...(12)
即,校正后的和弦概率CP″x(i)是通过利用归一化后的类似概率来对和弦概率求加权和而获得的值,与所关注的拍子相对应的拍子区间与另一拍子区间之间的类似概率中的每一个类似概率被用作权重。通过这样的概率值校正,具有相似声音内容的拍子区间的和弦概率相比于校正前将具有更接近的值。由和弦概率校正单元278校正后的各个拍子区间的和弦概率被输入和弦进行确定单元280(参考图66)。
和弦进行确定单元280基于从和弦概率校正单元278输入的各个拍子位置的和弦概率,通过路径搜索来确定有可能的和弦进行。Viterbi算法例如可以用作由和弦进行确定单元280进行的路径搜索的方法。路径搜索例如是通过如图71中所示的方法来执行的。如图71中所示,拍子被顺次布置在时间轴(水平轴)上。此外,和弦概率已被计算出的和弦类型被用作观测序列(垂直轴)。即,和弦进行确定单元280将所有和弦类型与从和弦概率校正单元278输入的拍子区间对中的每一对作为路径搜索的对象节点。
关于上述节点,和弦进行确定单元280沿时间轴顺次选择这些节点中的任何节点。然后,和弦进行确定单元280使用以下四种评估值来对由一连串所选择的节点形成的路径进行评估:(1)和弦概率,(2)依赖于基调的和弦出现概率,(3)依赖于小节线的和弦过渡概率和(4)依赖于基调的和弦过渡概率。此外,在由和弦进行确定单元280进行对节点的选择时,不允许跳过拍子。
在用于由和弦进行确定单元280进行的路径评估的评估值中,(1)和弦概率是由和弦概率校正单元278校正后的上述和弦概率。对图71中所示的各个节点给出和弦概率。此外,(2)依赖于基调的和弦出现概率是依赖于根据从基调检测单元206输入的基调进行而针对各个拍子区间指定的基调的、各种和弦的出现概率。依赖于基调的和弦出现概率是通过针对乐曲中使用的每种类型的基调,对许多乐曲的和弦出现概率进行合计来预先定义的。例如,在基调为“C”的乐曲中,和弦“C”、“F”和“G”中的每种和弦的出现概率高。对图71中所示的各种和弦给出依赖于基调的和弦出现概率。
此外,(3)依赖于小节线的和弦过渡概率是依赖于根据从小节线检测单元208输入的小节线进行而针对各个拍子指定的拍子类型的和弦过渡概率。依赖于小节线的和弦过渡概率是通过针对乐曲的小节线进行中相邻拍子的各种类型对,对许多乐曲的和弦过渡概率进行合计来预先定义的。一般,和弦在小节线变化(过渡后的拍子是第一个拍子)时或在从四节拍中的第二个拍子过渡至第三个拍子时变化的概率比和弦在其它过渡时变化的概率高。对节点之间的过渡给出依赖于小节线的和弦过渡概率。此外,(4)依赖于基调的和弦过渡概率是依赖于根据从基调检测单元206输入的基调进行而针对各个拍子区间指定的基调的和弦过渡概率。依赖于基调的和弦过渡概率是通过针对乐曲中使用的各种类型的基调,对许多乐曲的和弦过渡概率进行合计来预先定义的。对节点间的过渡给出依赖于基调的和弦过渡概率。
和弦进行确定单元280关于表示使用图71描述的和弦进行的各个路径,将路径中所包括的各个节点的上述(1)至(4)的评估值彼此顺次相乘。然后,和弦进行确定单元280确定使得作为路径评估值的相乘结果最大的路径,作为表示有可能的和弦进行的最大似然路径。例如,和弦进行确定单元280可以通过确定最大似然路径来获得如图72中所示的和弦进行。在图72的示例中,示出和弦进行确定单元280针对第一至第六个拍子区间和第i个拍子区间确定为最大似然路径的和弦进行(参见粗线框)。根据该示例,从第一个拍子区间开始,拍子区间的和弦顺次是:“C”、“C”、“F”、“F”、“Fm”、“Fm”……“C”。
以上,描述了和弦进行检测单元134的配置。如上所述,通过结构分析单元202至和弦进行估计单元210的处理从音乐数据检测出了和弦进行。以这种方式提取出的和弦进行被输入捕获范围确定单元110(参考图2)。
(2-4-3.乐器声音分析单元136的配置示例)
接着,将描述乐器声音分析单元136的配置。乐器声音分析单元136是用于计算指示在某一定时哪种乐器被演奏的乐器声音存在概率的装置。此外,乐器声音分析单元136针对由声源分离单元104分离出的声源的每种组合计算乐器声音存在概率。为了估计乐器声音存在概率,乐器声音分析单元136首先通过使用特征量计算公式生成设备10(或另一学习算法)来生成用于计算各种乐器声音的存在概率的计算公式。然后,乐器声音分析单元136通过使用针对各种乐器声音所生成的计算公式来计算各种乐器声音的存在概率。
为了生成用于计算乐器声音存在概率的计算公式,乐器声音分析单元136预先准备按时间系列标记的对数谱。例如,如图73所示,乐器声音分析单元136从以特定时间(例如,约1秒)为单位的已标记对数谱中捕获局部对数谱,并且通过使用所捕获的局部对数谱来生成用于计算存在概率的计算公式。在图73中作为示例而示出歌声的存在与否预先已知的音乐数据的对数谱。当所述对数谱被提供时,乐器声音分析单元136以特定时间为单位确定捕获区间,查看各个捕获区间中歌声的存在与否,并且向有歌声的区间指派标记1而向没有歌声的区间指派标记0。此外,可以说对其它类型的乐器声音同样如此。
以这种方式捕获的局部对数谱被输入特征量计算公式生成设备10,作为评估数据。此外,被指派给各个局部对数谱的各种乐器声音的标记被输入特征量计算公式生成设备10,作为教师数据。通过提供所述评估数据和教师数据,可以获得这样的计算公式,当任意所处理乐曲的局部对数谱被输入时,该公式输出各种乐器声音是否被包括在与输入局部对数谱对应的捕获区间中。因此,乐器声音分析单元136在一点点移动时间轴的同时向与各种类型的乐器声音对应的计算公式输入局部对数谱,并且根据特征量计算公式生成设备10进行学习处理时所计算出的概率分布来将输出值变换成概率值。然后,通过记录按时间系列计算出的概率值,乐器声音分析单元136获得各种乐器声音的存在概率的时间系列分布。例如,如图74中所示的各种乐器声音的存在概率是通过乐器声音分析单元136的处理来计算的。以这种方式计算出的各种乐器声音的存在概率被输入捕获范围确定单元110(参考图2)。
(2-5.捕获范围确定单元110的配置示例)
接着,将描述捕获范围确定单元110的配置。如上所述,音乐数据的拍子、和弦进行和各种乐器声音存在概率从音乐分析单元108输入捕获范围确定单元110。因此,捕获范围确定单元110基于音乐数据的拍子、和弦进行和各种乐器声音存在概率,通过如图75中所示的方法来确定要被捕获作为波形素材的范围。图75是示出捕获范围确定单元110的捕获范围确定方法的说明性示图。
如图75中所示,首先,捕获范围确定单元110基于从音乐数据检测到的拍子开始有关小节的循环处理(S122)。具体而言,捕获范围确定单元110在参考拍子的同时跟随小节,并且针对各小节单位重复执行小节循环内的处理。这里,使用从音乐分析单元108输入的拍子。接着,捕获范围确定单元110开始与声源组合有关的循环处理(S124)。具体而言,音乐分析单元108针对与由声源分离单元104分离出的4种类型的声源有关的组合(8种)中的每一种,执行声源组合循环内的处理。在声源组合循环内,判定由当前小节和当前声源组合指定的范围对于声音素材是否恰当,并且如果恰当,则该范围被登记为捕获范围。以下,将详细描述与判定和登记有关的处理内容。
首先,捕获范围确定单元110计算素材得分,素材得分用于判定在小节循环和声源组合循环中所指定的当前小节和当前声源组合对于声音素材是否是恰当的(S126)。素材得分是基于从捕获请求输入单元102输入的捕获请求和音乐数据中所包括的各种乐器声音的存在概率来计算的。更具体而言,对通过捕获请求被指定为捕获长度的许多小节上的乐器声音组合总计乐器声音存在概率,并且计算出该总和值占所有乐器声音的存在概率的总和值的百分比,作为素材得分。
例如,在捕获请求是针对两个小节的节奏循环的情况中,首先,计算当前小节到之前两小节中鼓声的存在概率的总和(以下称为总的鼓概率值)。此外,针对当前小节到之前两个小节计算所有乐器的存在概率的总和(以下称为总的概率值)。在计算这两种总和值之后,捕获范围确定单元110通过将总的鼓概率值除以总的概率值来计算值,并且将计算结果作为素材得分。
作为另一示例,当捕获请求是针对4个小节上的吉他与弦乐的伴奏的时,首先,针对当前小节到之前4个小节来计算吉他声和弦乐声的存在概率的总和(以下称为总的吉他-弦乐概率值)。此外,针对当前小节到之前4个小节来计算所有乐器的存在概率的总和(以下称为总的概率值)。在计算了这两种总和值之后,捕获范围确定单元110通过将总的吉他-弦乐概率值除以总的概率值来计算值,并且将计算结果作为素材得分。
当在步骤S126中计算出了素材得分时,捕获范围确定单元110进行到步骤S128的处理。在步骤S128中,判断步骤S126中所计算出的素材得分是否是特定值或更大(S128)。用于步骤S128中的判定处理的特定值是以依赖于由从捕获请求输入单元102输入的捕获请求指定的“捕获的严格度”的方式来确定的。当捕获的严格度被指定为在0.0至1.0范围内时,捕获的严格度的值可以直接用作上述特定值。在这种情况中,捕获范围确定单元110比较步骤S126中所计算出的素材得分和捕获的严格度的值,并且当素材得分等于或高于针对捕获的严格度的值时,捕获范围确定单元110进行到步骤S130的处理。另一方面,当素材得分低于捕获的严格度的值时,捕获范围确定单元110进行到步骤S132的处理。
在步骤S130中,捕获范围确定单元110将目标范围登记为捕获范围,所述目标范围是从当前小节开始具有由捕获请求指定的长度的范围(S130)。当目标范围被登记时,捕获范围确定单元110进行到步骤S132的处理。在步骤S132中更新声源组合的类型(S132),并且再次执行从步骤S124到步骤S132的声源组合循环内的处理。当声源组合循环内的处理完成时,捕获范围确定单元110进行到步骤S134的处理。在步骤S134中更新当前小节(S134),并且再次执行从步骤S122到步骤S134的小节循环内的处理。然后,当小节循环的处理完成时,由捕获范围确定单元110进行的一系列处理完成。
当由捕获范围确定单元110进行的处理被完成时,指示被登记为捕获范围的音乐数据的范围的信息从捕获范围确定单元110输入波形捕获单元112。然后,由捕获范围确定单元110确定的捕获范围从音乐数据中被捕获,并且被输出,作为波形捕获单元112的波形素材。
(2-10.硬件结构(信息处理设备100))
上述设备的各个结构元件的功能例如可以通过图76中所示的硬件结构和通过使用用于实现上述功能的计算机程序来实现。图76是示出能够实现上述设备的各个结构元件的功能的信息处理设备的硬件配置的说明性示图。信息处理设备的模式是任意的,并且包括以下诸如移动信息终端、游戏机或各种类型的信息家电之类的模式,移动信息终端例如是个人计算机、移动电话、PHS或PDA。此外,PHS是Personal Handy-phone System(个人手持式电话系统)的缩写。此外,PDA是Personal Digital Assistant(个人数字助理)的缩写。
如图76中所示,信息处理设备100包括:CPU 902、ROM 904、RAM 906、主机总线908、桥接器910、外部总线912和接口914。此外,特征量计算公式生成设备10包括:输入单元916、输出单元918、存储单元920、驱动器922、连接端口924和通信单元926。此外,CPU是Central Processing Unit(中央处理单元)的缩写。此外,ROM是ReadOnly Memory(只读存储器)的缩写。此外,RAM是Random AccessMemory(随机存取存储器)的缩写。
CPU 902例如用作算术处理单元或控制单元,并且基于ROM 904、RAM 906、存储单元920或可移除记录介质928上所记录的各种程序来控制结构元件或这些结构元件中的某些结构元件的整体操作。ROM 904例如存储CPU 902上所加载的程序或算术运算中所使用的数据等。RAM 906临时地或永久地存储例如CPU 902所加载的程序或在程序的执行中任意地改变的各种参数等。这些结构元件例如通过可以执行高速数据传输的主机总线908来相互连接。例如,主机总线908通过桥接器910连接到数据传输速度相对低的外部总线912。
输入单元916例如是诸如鼠标、键盘、触摸面板、按钮、开关或控制杆之类的操作装置。输入单元916可以是能够通过使用红外射线或其它无线电波来传送控制信号的遥控装置(所谓的遥控器)。输入单元916包括用于向CPU 902发送使用上述操作装置输入的信息作为输入信号的输入控制电路等。
输出单元918例如是诸如CRT、LCD、PDP或ELD之类的显示装置。同样,输出单元918是可以在视觉上或听觉上向用户通知所获取的信息的、诸如音频输出装置(例如,扬声器或头戴式耳机)、打印机、移动电话或传真机之类的装置。存储单元920是用来存储各种数据的装置,并且例如包括诸如HDD之类的磁存储装置、半导体存储装置、光存储装置或磁光存储装置。此外,CRT是Cathode Ray Tube(阴极射线管)的缩写。同样,LCD是Liquid Crystal Display(液晶显示器)的缩写。此外,PDP是Plasma Display Panel(等离子显示面板)的缩写。此外,ELD是Electro-Luminescence Display(电致发光显示器)的缩写。此外,HDD是Hard Disk Drive(硬盘驱动器)的缩写。
驱动器922是读取可移除记录介质928上所记录的信息或将信息写入可移除记录介质928中的装置,可移除记录介质928例如是磁盘、光盘、磁光盘或半导体存储器。可移除记录介质928例如是DVD介质、蓝光介质或HD-DVD介质。此外,可移除记录介质928例如是紧凑式闪存(CF;CompactFlash)(注册商标)、记忆棒或SD存储卡。当然,可移除记录介质928例如可以是绑定了非接触IC芯片的IC卡。此外,SD是Secure Digital(安全数字)的缩写。同样,IC是Integrated Circuit(集成电路)的缩写。
连接端口924是诸如USB端口、IEEE1394端口、SCSI、RS-232C端口之类的端口,或用于连接诸如光学音频端子之类的外部连接装置930的端口。外部连接装置930例如是打印机、移动音乐播放器、数字相机或IC记录器。此外,USB是Universal Serial Bus(通用串行总线)的缩写。同样,SCSI是Small Computer System Interface(小型计算机系统接口)的缩写。
通信单元926是要连接到网络932的通信装置。通信单元926例如是用于有线或无线LAN、Bluetooth(注册商标)或WUSB的通信卡、光通信路由器、ADSL路由器或各种通信调制解调器。连接到通信单元926的网络932包括有线连接或无线连接的网络。网络932例如是因特网、家用LAN、红外通信、可见光通信、广播或卫星通信。此外,LAN是LocalArea Network(局域网)的缩写。此外,WUSB是无线USB的缩写。此外,ADSL是Asymmetric Digital Subscriber Line(非对称数字用户线)的缩写。
(2-6.总结)
最后,将简要描述本实施例的信息处理设备的功能配置和通过这些功能配置获得的效果。
首先,根据本实施例的信息处理设备的功能配置可以描述如下。信息处理设备包括如下所述的捕获请求输入单元、音乐分析单元和捕获范围确定单元。捕获请求输入单元用于输入捕获请求,捕获请求包括要被捕获作为声音素材的范围的长度、乐器声音的类型和捕获的严格度作为信息。此外,音乐分析单元用于分析音频信号并且用于检测音频信号的拍子位置和该音频信号中各种乐器声音的存在概率。以这种方式,通过经由分析音频信号的处理来检测拍子位置和各种乐器声音的存在概率,可以从任意乐曲的音频信号中自动捕获声音素材。此外,捕获范围确定单元用于通过使用由音乐分析单元检测到的拍子位置和各种乐器声音的存在概率来确定声音素材的捕获范围,使得声音素材满足由捕获请求输入单元所输入的捕获请求。以这种方式,能够知道拍子位置使得可以以具有用拍子位置划分出的特定长度的范围为单位来确定捕获范围。此外,由于各种乐器声音的存在概率是针对各个范围计算出的,所以可以容易地捕获所希望的乐器声音所存在于的范围。即,可以容易地从乐曲的音频信号中捕获适于所希望的声音素材的范围的信号。
此外,信息处理设备还可以包括素材捕获单元,该素材捕获单元用于捕获由捕获范围确定单元从音频信号中确定的捕获范围,并且用于输出捕获范围作为声音素材。通过在使以这种方式捕获的声音素材与另一已知乐曲的拍子同步的同时混合该声音素材和该已知乐曲,例如可以改变已知乐曲的编排。此外,信息处理设备还可以包括声源分离单元,其用于在音频信号中包括多种类型的声源的信号的情况中,从音频信号中分离各个声源的信号。通过分析针对各种声源分离出的音频信号,可以更精确地检测各种乐器声音的存在概率。
此外,音乐分析单元还可以被配置为通过分析音频信号来进一步检测音频信号的和弦进行。在这种情况中,捕获范围确定单元确定满足捕获请求的捕获范围,并且与有关捕获范围的信息一起输出捕获范围内的和弦进行。有关和弦进行的信息以及有关捕获范围的信息一起被提供给用户,使得可以在与另一已知乐曲混合时参考该和弦进行。此外,和弦进行可以与作为声音素材被输出的捕获范围的音频信号一起被素材捕获单元输出。
此外,音乐分析单元可以被配置为:通过使用能够自动生成用于提取任意音频信号的特征量的计算公式的计算公式生成设备来生成用于提取与拍子位置有关的信息和与各种乐器声音的存在概率有关的信息的计算公式,并且通过使用计算公式来检测音频信号的拍子位置和音频信号中各种乐器声音的存在概率,该计算公式生成设备通过使用多个音频信号和这些音频信号中每一个音频信号的特征量来自动生成计算公式。通过使用已经描述的学习算法等可以计算出拍子概率和各种乐器声音的存在概率。通过使用所述方法,变得有可能从任意音频信号中自动提取拍子概率和各种乐器声音的存在概率,并且实现如上所述的针对声音素材的自动捕获处理。
此外,捕获范围确定单元可以包括素材得分计算单元,其用于针对音频信号的各个范围计算通过捕获请求所指定的类型的乐器声音的存在概率的总和,并且用于计算通过将总计出的存在概率除以该范围内所有乐器声音的存在概率的总和而获得的值作为素材得分,各个范围具有通过捕获请求所指定的捕获范围长度。在这种情况中,捕获范围确定单元确定由素材得分计算单元所计算出的素材得分高于捕获的严格度的值的范围,作为满足捕获请求的捕获范围。以这种方式,基于上述素材得分可以确定捕获范围是否适于所希望的声音素材。此外,捕获的严格度的值被指定以与素材得分的表达形式相匹配,并且可以被直接与素材得分相比较。
此外,声源分离单元可以被配置为从音频信号中分离出前景声音的信号和背景声音的信号,并且还将前景声音的信号中位于中心周围的中心信号、左声道信号和右声道信号相互分离。如已经描述的,前景声音的信号被分离出,作为左右之间具有小的相位差的信号。而且,背景声音的信号被分离出,作为左右之间具有大的相位差的信号。而且,中心信号被从前景声音的信号中分离出,作为左右之间具有小的音量差的信号。此外,左声道信号和右声道信号被各自分离出,作为具有大的左音量或右音量的信号。
(评述)
上述波形捕获单元112是素材捕获单元的示例,而且,特征量计算公式生成设备10是计算公式生成设备的示例。上述捕获范围确定单元110的功能的一部分是素材得分计算单元的示例。
本领域技术人员应当理解,根据设计要求和其它因素,可以进行各种修改、组合、子组合和更改,只要它们在所附权利要求及其等同物的范围以内即可。
本申请包含与2008年12月5日在日本专利局提交的日本优先权专利申请JP 2008-310721中所公开的主题相关的主题,其全部内容被通过引用结合于此。

Claims (11)

1.一种信息处理设备,包括:
音乐分析单元,所述音乐分析单元用于分析用作声音素材的捕获源的音频信号,并且用于检测所述音频信号的拍子位置和所述音频信号中的各种乐器声音的存在概率;以及
捕获范围确定单元,所述捕获范围确定单元用于通过使用由所述音乐分析单元所检测到的所述拍子位置和所述各种乐器声音的存在概率来确定所述声音素材的捕获范围。
2.根据权利要求1所述的信息处理设备,还包括:
捕获请求输入单元,所述捕获请求输入单元用于输入捕获请求,所述捕获请求包括以下内容中的至少一个作为信息:要被捕获作为所述声音素材的范围的长度、乐器声音的类型和捕获的严格度,
其中
所述捕获范围确定单元确定所述声音素材的捕获范围使得所述声音素材满足通过所述捕获请求输入单元输入的所述捕获请求。
3.根据权利要求1所述的信息处理设备,还包括:
素材捕获单元,所述素材捕获单元用于从所述音频信号中捕获由所述捕获范围确定单元确定的所述捕获范围并且用于输出所述捕获范围作为所述声音素材。
4.根据权利要求1所述的信息处理设备,还包括:
声源分离单元,所述声源分离单元用于在所述音频信号中包括多种类型的声源的信号的情况中,从所述音频信号中分离出各种声源的信号。
5.根据权利要求1所述的信息处理设备,其中
所述音乐分析单元还通过分析所述音频信号来检测所述音频信号的和弦进行,并且
所述捕获范围确定单元确定所述声音素材的捕获范围,并且一起输出有关所述捕获范围的信息和所述捕获范围中的和弦进行。
6.根据权利要求3所述的信息处理设备,其中
所述音乐分析单元还通过分析所述音频信号来检测所述音频信号的和弦进行,并且
所述素材捕获单元输出所述捕获范围的音频信号作为声音素材,并且还输出所述捕获范围中的和弦进行。
7.根据权利要求1所述的信息处理设备,其中
所述音乐分析单元通过使用能够自动生成用于提取任意音频信号的特征量的计算公式的计算公式生成设备来生成用于提取与所述拍子位置有关的信息和与所述各种乐器声音的存在概率有关的信息的计算公式,并且通过使用所述计算公式来检测所述音频信号中的拍子位置和所述音频信号中的各种乐器声音的存在概率,所述计算公式生成设备通过使用多个音频信号和所述音频信号中每个音频信号的特征量来自动生成所述计算公式。
8.根据权利要求2所述的信息处理设备,其中
所述捕获范围确定单元
包括素材得分计算单元,所述素材得分计算单元用于针对所述音频信号的各个范围来计算通过所述捕获请求指定的类型的乐器声音的存在概率的总和,并且用于计算通过将总计出的存在概率除以该范围内所有乐器声音的存在概率的总和而获得的值作为素材得分,并且确定由所述素材得分计算单元所计算出的素材得分高于捕获的严格度的值的范围,作为满足所述捕获请求的捕获范围。
9.根据权利要求3所述的信息处理设备,其中
所述声源分离单元从所述音频信号中分离出前景声音的信号和背景声音的信号,并且还将所述前景声音的信号中位于中心周围的中心信号、左声道信号和右声道信号相互分离。
10.一种声音素材捕获方法,当用作声音素材的捕获源的音频信号被输入信息处理设备时,所述方法包括以下步骤:
分析所述音频信号,并且检测所述音频信号的拍子位置和所述音频信号中各种乐器声音的存在概率;以及
通过使用通过分析和检测步骤所检测到的所述拍子位置和所述各种乐器声音的存在概率来确定所述声音素材的捕获范围,
其中
所述步骤是由所述信息处理设备执行的。
11.一种程序,其使得计算机实现:
当用作声音素材的捕获源的音频信号被输入时,分析所述音频信号并且检测所述音频信号的拍子位置和所述音频信号中各种乐器声音的存在概率的音乐分析功能;以及
通过使用通过所述音乐分析功能检测到的所述拍子位置和所述各种乐器声音的存在概率来确定所述声音素材的捕获范围的捕获范围确定功能。
CN 200910253631 2008-12-05 2009-12-07 信息处理设备和声音素材捕获方法 Expired - Fee Related CN101751912B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008310721A JP5282548B2 (ja) 2008-12-05 2008-12-05 情報処理装置、音素材の切り出し方法、及びプログラム
JP2008-310721 2008-12-05

Publications (2)

Publication Number Publication Date
CN101751912A true CN101751912A (zh) 2010-06-23
CN101751912B CN101751912B (zh) 2012-06-20

Family

ID=42310858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910253631 Expired - Fee Related CN101751912B (zh) 2008-12-05 2009-12-07 信息处理设备和声音素材捕获方法

Country Status (3)

Country Link
US (2) US20100170382A1 (zh)
JP (1) JP5282548B2 (zh)
CN (1) CN101751912B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104395953A (zh) * 2012-04-30 2015-03-04 诺基亚公司 来自音乐音频信号的拍子、和弦和强拍的评估
CN108780634A (zh) * 2016-03-11 2018-11-09 雅马哈株式会社 声音信号处理方法及声音信号处理装置
CN110610718A (zh) * 2018-06-15 2019-12-24 炬芯(珠海)科技有限公司 一种提取期望声源语音信号的方法及装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5625235B2 (ja) * 2008-11-21 2014-11-19 ソニー株式会社 情報処理装置、音声解析方法、及びプログラム
JP5463655B2 (ja) * 2008-11-21 2014-04-09 ソニー株式会社 情報処理装置、音声解析方法、及びプログラム
JP5282548B2 (ja) * 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
JP5593608B2 (ja) * 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
JP5605040B2 (ja) * 2010-07-13 2014-10-15 ヤマハ株式会社 電子楽器
JP2012103603A (ja) 2010-11-12 2012-05-31 Sony Corp 情報処理装置、楽曲区間抽出方法、及びプログラム
CN102903357A (zh) * 2011-07-29 2013-01-30 华为技术有限公司 一种提取歌曲副歌的方法、装置和系统
JP5720491B2 (ja) * 2011-08-23 2015-05-20 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US9496839B2 (en) 2011-09-16 2016-11-15 Pioneer Dj Corporation Audio processing apparatus, reproduction apparatus, audio processing method and program
US9324330B2 (en) 2012-03-29 2016-04-26 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
CN104620313B (zh) 2012-06-29 2017-08-08 诺基亚技术有限公司 音频信号分析
JP2014010275A (ja) * 2012-06-29 2014-01-20 Sony Corp 情報処理装置、情報処理方法及びプログラム
US8829322B2 (en) * 2012-10-26 2014-09-09 Avid Technology, Inc. Metrical grid inference for free rhythm musical input
US9459768B2 (en) 2012-12-12 2016-10-04 Smule, Inc. Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters
US10424321B1 (en) * 2013-02-12 2019-09-24 Google Llc Audio data classification
EP2772904B1 (en) * 2013-02-27 2017-03-29 Yamaha Corporation Apparatus and method for detecting music chords and generation of accompaniment.
JP6179140B2 (ja) 2013-03-14 2017-08-16 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP6123995B2 (ja) * 2013-03-14 2017-05-10 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP6372072B2 (ja) * 2013-12-09 2018-08-15 ヤマハ株式会社 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
US9502017B1 (en) * 2016-04-14 2016-11-22 Adobe Systems Incorporated Automatic audio remixing with repetition avoidance
JP6838357B2 (ja) * 2016-11-07 2021-03-03 ヤマハ株式会社 音響解析方法および音響解析装置
CN111052221B (zh) * 2017-09-07 2023-06-23 雅马哈株式会社 和弦信息提取装置、和弦信息提取方法及存储器
US10761802B2 (en) 2017-10-03 2020-09-01 Google Llc Identifying music as a particular song
CN108320730B (zh) * 2018-01-09 2020-09-29 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备
CN108600825B (zh) * 2018-07-12 2019-10-25 北京微播视界科技有限公司 选择背景音乐拍摄视频的方法、装置、终端设备和介质
CN108986841B (zh) * 2018-08-08 2023-07-11 百度在线网络技术(北京)有限公司 音频信息处理方法、装置及存储介质
EP4064268A4 (en) * 2019-11-20 2024-01-10 Yamaha Corporation INFORMATION PROCESSING SYSTEM, KEYBOARD INSTRUMENT, INFORMATION PROCESSING METHOD, AND PROGRAM

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3245890B2 (ja) * 1991-06-27 2002-01-15 カシオ計算機株式会社 拍検出装置及びそれを用いた同期制御装置
US5517570A (en) * 1993-12-14 1996-05-14 Taylor Group Of Companies, Inc. Sound reproducing array processor system
JP3221293B2 (ja) * 1995-08-25 2001-10-22 ヤマハ株式会社 楽音信号処理装置
US5808219A (en) * 1995-11-02 1998-09-15 Yamaha Corporation Motion discrimination method and device using a hidden markov model
US5869783A (en) * 1997-06-25 1999-02-09 Industrial Technology Research Institute Method and apparatus for interactive music accompaniment
FR2785438A1 (fr) * 1998-09-24 2000-05-05 Baron Rene Louis Procede et dispositif de generation musicale
JP2001067068A (ja) * 1999-08-25 2001-03-16 Victor Co Of Japan Ltd 音楽パートの識別方法
US6998527B2 (en) * 2002-06-20 2006-02-14 Koninklijke Philips Electronics N.V. System and method for indexing and summarizing music videos
US6770807B1 (en) * 2003-04-01 2004-08-03 Allen P. Myers Sound pickup device
CN1950879B (zh) * 2004-06-30 2011-03-30 松下电器产业株式会社 音乐信息计算设备和音乐再现设备
JP4713129B2 (ja) * 2004-11-16 2011-06-29 ソニー株式会社 音楽コンテンツの再生装置、音楽コンテンツの再生方法および音楽コンテンツおよびその属性情報の記録装置
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
US7869892B2 (en) * 2005-08-19 2011-01-11 Audiofile Engineering Audio file editing system and method
JP4948118B2 (ja) * 2005-10-25 2012-06-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
KR100715949B1 (ko) * 2005-11-11 2007-05-08 삼성전자주식회사 고속 음악 무드 분류 방법 및 그 장치
JP4949687B2 (ja) * 2006-01-25 2012-06-13 ソニー株式会社 ビート抽出装置及びビート抽出方法
JP2007240552A (ja) * 2006-03-03 2007-09-20 Kyoto Univ 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法
JP4333700B2 (ja) * 2006-06-13 2009-09-16 ソニー株式会社 和音推定装置及び方法
JP4672613B2 (ja) * 2006-08-09 2011-04-20 株式会社河合楽器製作所 テンポ検出装置及びテンポ検出用コンピュータプログラム
JP4214491B2 (ja) * 2006-10-20 2009-01-28 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
JP4315180B2 (ja) * 2006-10-20 2009-08-19 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
JP5007563B2 (ja) * 2006-12-28 2012-08-22 ソニー株式会社 音楽編集装置および方法、並びに、プログラム
US7825322B1 (en) * 2007-08-17 2010-11-02 Adobe Systems Incorporated Method and apparatus for audio mixing
JP4640407B2 (ja) * 2007-12-07 2011-03-02 ソニー株式会社 信号処理装置、信号処理方法及びプログラム
WO2009101703A1 (ja) * 2008-02-15 2009-08-20 Pioneer Corporation 楽曲データ分析装置及び楽器種類検出装置、楽曲データ分析方法及び楽器種類検出装置並びに楽曲データ分析用プログラム及び楽器種類検出用プログラム
JP5463655B2 (ja) * 2008-11-21 2014-04-09 ソニー株式会社 情報処理装置、音声解析方法、及びプログラム
JP5282548B2 (ja) * 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
JP5475799B2 (ja) * 2008-12-09 2014-04-16 コーニンクレッカ フィリップス エヌ ヴェ 少なくとも1つの信号をレンダリングするためのシステムを制御するデータを生成する方法及びシステム
US8507781B2 (en) * 2009-06-11 2013-08-13 Harman International Industries Canada Limited Rhythm recognition from an audio signal
JP5654897B2 (ja) * 2010-03-02 2015-01-14 本田技研工業株式会社 楽譜位置推定装置、楽譜位置推定方法、及び楽譜位置推定プログラム
JP5842545B2 (ja) * 2011-03-02 2016-01-13 ヤマハ株式会社 発音制御装置、発音制御システム、プログラム及び発音制御方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104395953A (zh) * 2012-04-30 2015-03-04 诺基亚公司 来自音乐音频信号的拍子、和弦和强拍的评估
US9653056B2 (en) 2012-04-30 2017-05-16 Nokia Technologies Oy Evaluation of beats, chords and downbeats from a musical audio signal
CN104395953B (zh) * 2012-04-30 2017-07-21 诺基亚技术有限公司 来自音乐音频信号的拍子、和弦和强拍的评估
CN108780634A (zh) * 2016-03-11 2018-11-09 雅马哈株式会社 声音信号处理方法及声音信号处理装置
CN108780634B (zh) * 2016-03-11 2023-05-09 雅马哈株式会社 声音信号处理方法及声音信号处理装置
CN110610718A (zh) * 2018-06-15 2019-12-24 炬芯(珠海)科技有限公司 一种提取期望声源语音信号的方法及装置
CN110610718B (zh) * 2018-06-15 2021-10-08 炬芯科技股份有限公司 一种提取期望声源语音信号的方法及装置

Also Published As

Publication number Publication date
US20100170382A1 (en) 2010-07-08
CN101751912B (zh) 2012-06-20
US9040805B2 (en) 2015-05-26
JP5282548B2 (ja) 2013-09-04
US20120125179A1 (en) 2012-05-24
JP2010134231A (ja) 2010-06-17

Similar Documents

Publication Publication Date Title
CN101751912B (zh) 信息处理设备和声音素材捕获方法
CN101916568B (zh) 信息处理设备、信息处理方法
CN101916564B (zh) 信息处理装置、旋律线提取方法和低音线提取方法
CN101740013B (zh) 信息处理设备和声音分析方法
CN101740010B (zh) 信息处理设备和声音分析方法
CN103854644B (zh) 单声道多音音乐信号的自动转录方法及装置
Papadopoulos et al. Joint estimation of chords and downbeats from an audio signal
Gómez et al. Towards computer-assisted flamenco transcription: An experimental comparison of automatic transcription algorithms as applied to a cappella singing
JP4199097B2 (ja) 楽曲自動分類装置及び方法
US7858868B2 (en) Method for classifying music using Gish distance values
CN102956230B (zh) 对音频信号进行歌曲检测的方法和设备
Bosch et al. Evaluation and combination of pitch estimation methods for melody extraction in symphonic classical music
US20100126331A1 (en) Method of evaluating vocal performance of singer and karaoke apparatus using the same
CN110599987A (zh) 基于卷积神经网络的钢琴音符识别算法
Zhang et al. Melody extraction from polyphonic music using particle filter and dynamic programming
JP3508978B2 (ja) 音楽演奏に含まれる楽器音の音源種類判別方法
Atli et al. Audio feature extraction for exploring Turkish makam music
Gulati A tonic identification approach for Indian art music
Li et al. Pitch detection in polyphonic music using instrument tone models
Kitahara et al. Musical instrument recognizer" instrogram" and its application to music retrieval based on instrumentation similarity
Kumar et al. Melody extraction from music: A comprehensive study
Shi et al. Singing Voice Extraction with Attention-Based Spectrograms Fusion.
JP2006195384A (ja) 楽曲調性算出装置および選曲装置
Ishwar Pitch estimation of the predominant vocal melody from heterophonic music audio recordings
Pauwels et al. The influence of chord duration modeling on chord and local key extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120620

Termination date: 20151207

EXPY Termination of patent right or utility model