CN101916568B - 信息处理设备、信息处理方法 - Google Patents
信息处理设备、信息处理方法 Download PDFInfo
- Publication number
- CN101916568B CN101916568B CN2009102536281A CN200910253628A CN101916568B CN 101916568 B CN101916568 B CN 101916568B CN 2009102536281 A CN2009102536281 A CN 2009102536281A CN 200910253628 A CN200910253628 A CN 200910253628A CN 101916568 B CN101916568 B CN 101916568B
- Authority
- CN
- China
- Prior art keywords
- probability
- bat
- unit
- player
- chord
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 8
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000005236 sound signal Effects 0.000 claims abstract description 103
- 238000000605 extraction Methods 0.000 claims abstract description 100
- 230000033001 locomotion Effects 0.000 claims abstract description 45
- 239000000284 extract Substances 0.000 claims description 75
- 238000013075 data extraction Methods 0.000 claims description 70
- 230000008859 change Effects 0.000 claims description 42
- 238000005286 illumination Methods 0.000 claims description 15
- 230000037396 body weight Effects 0.000 claims description 10
- 230000001360 synchronised effect Effects 0.000 claims description 10
- 238000012800 visualization Methods 0.000 description 269
- 238000000034 method Methods 0.000 description 202
- 238000012545 processing Methods 0.000 description 176
- 238000004364 calculation method Methods 0.000 description 156
- 238000001228 spectrum Methods 0.000 description 129
- 238000001514 detection method Methods 0.000 description 114
- 230000007704 transition Effects 0.000 description 92
- 238000004458 analytical method Methods 0.000 description 77
- 238000009826 distribution Methods 0.000 description 48
- 230000006870 function Effects 0.000 description 40
- 238000004422 calculation algorithm Methods 0.000 description 36
- 238000012546 transfer Methods 0.000 description 36
- 230000008569 process Effects 0.000 description 31
- 239000013256 coordination polymer Substances 0.000 description 29
- 210000003128 head Anatomy 0.000 description 28
- 241000288673 Chiroptera Species 0.000 description 27
- 210000004027 cell Anatomy 0.000 description 25
- 229910001369 Brass Inorganic materials 0.000 description 23
- 239000010951 brass Substances 0.000 description 23
- 238000010606 normalization Methods 0.000 description 19
- 230000036541 health Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 16
- 238000007477 logistic regression Methods 0.000 description 16
- 230000000007 visual effect Effects 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 13
- 241001269238 Data Species 0.000 description 12
- 238000012937 correction Methods 0.000 description 12
- 230000008878 coupling Effects 0.000 description 12
- 238000010168 coupling process Methods 0.000 description 12
- 238000005859 coupling reaction Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 12
- 239000011435 rock Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000001276 controlling effect Effects 0.000 description 10
- 238000003696 structure analysis method Methods 0.000 description 10
- 230000009466 transformation Effects 0.000 description 10
- JEIPFZHSYJVQDO-UHFFFAOYSA-N ferric oxide Chemical compound O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000012952 Resampling Methods 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 230000001915 proofreading effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 102100033464 DNA-directed RNA polymerase II subunit GRINL1A Human genes 0.000 description 3
- 101000870895 Homo sapiens DNA-directed RNA polymerase II subunit GRINL1A Proteins 0.000 description 3
- 101001037037 Homo sapiens DNA-directed RNA polymerase II subunit GRINL1A, isoforms 4/5 Proteins 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 3
- 241001342895 Chorus Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 2
- 238000013481 data capture Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- VHRSUDSXCMQTMA-PJHHCJLFSA-N 6alpha-methylprednisolone Chemical compound C([C@@]12C)=CC(=O)C=C1[C@@H](C)C[C@@H]1[C@@H]2[C@@H](O)C[C@]2(C)[C@@](O)(C(=O)CO)CC[C@H]21 VHRSUDSXCMQTMA-PJHHCJLFSA-N 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 241000677635 Tuxedo Species 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 210000000352 storage cell Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/368—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/80—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
- A63F2300/8047—Music games
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/051—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/005—Non-interactive screen display of musical or status data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/135—Musical aspects of games or videogames; Musical instrument-shaped game input interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/135—Musical aspects of games or videogames; Musical instrument-shaped game input interfaces
- G10H2220/141—Games on or about music, i.e. based on musical knowledge, e.g. musical multimedia quizzes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Auxiliary Devices For Music (AREA)
- Processing Or Creating Images (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息处理设备、信息处理方法和程序。该信息处理设备包括:元数据提取单元,其提取单元用于分析多种乐器声音以混合方式存在于其中的音频信号,并且用于提取随着演奏时间的过去而变化的元数据作为音频信号的特征量;以及演奏者参数确定单元,其用于基于由元数据提取单元提取出的元数据来确定用于控制与每种乐器声音相对应的演奏者对象的移动的演奏者参数。
Description
技术领域
本发明涉及信息处理设备、信息处理方法和程序。
背景技术
可以构想一种视觉化音乐的方法、一种使得机器人跟着音乐数据跳舞的方法、一种与音乐数据相同步地移动用计算机图形生成的图像(以下,称为CG图像)的方法。然而,目前,尽管已经存在当输入音乐数据的演奏信息时会根据演奏信息以预定运动样式移动的机器人,但是还不存在利用音乐数据的信号波形并以与音乐数据相同步的运动样式移动的机器人。此外,关于用CG图像来可视化音乐的方法,作为利用音乐数据的信号波形的方法,仅知道通过将预定效果应用于音频数据的音频波形或频谱图像来显示音乐的方法。关于音乐的可视化,在日本专利文件JP-A-2007-18388中公开了这样一种技术,其将控制目标的移动与节奏相关联并基于该节奏与通过对音乐数据的频率分析估计出的节奏之间的关联来确定控制目标的移动。此外,在日本专利文件JP-A-2004-29862中公开了这样一种技术,其分析音乐数据中所包括的每个频带中的声压分布,并且基于该分析结果来表现视觉内容的感觉。
发明内容
然而,上述文件没有公开用于自动检测按时间序列变化的音乐数据特征量(FQ)并且基于该特征量来以使得看起来像是对象正在演奏音乐的方式来可视化音乐数据的技术。因此,鉴于以上内容,希望提供能够自动检测按时间序列变化的音乐数据特征量并且基于该特征量以使得看起来像是与每种乐器声音相对应的对象正在演奏音乐的方式来可视化音乐数据的新颖的改进的信息处理设备、信息处理方法和程序。
根据本发明一个实施例,提供了一种信息处理设备,该信息处理设备包括:元数据提取单元,该元数据提取单元用于分析多种乐器声音以混合方式存在于其中的音频信号,并且用于提取随着演奏时间的过去而变化的元数据作为音频信号的特征量;以及演奏者参数确定单元,该演奏者参数确定单元用于基于由元数据提取单元提取出的元数据来确定用于控制与每种乐器声音相对应的演奏者对象的移动的演奏者参数。
元数据提取单元可以提取出一条或多条数据作为元数据,所述一条或多条数据是从由以下内容形成的群组中选出的:音频信号的拍子、和弦进行、音乐结构、旋律线、贝斯线、每种乐器声音的存在概率、每种乐器声音的独奏概率和歌声的声音特征。
元数据提取单元可以提取出一条或多条数据作为元数据,所述一条或多条数据是从由以下内容形成的群组中选出的:音频信号所属于的音乐流派、音频信号所属于的音乐年代、音频信号的有关演奏者的信息、音频信号中所包括的乐器声音的类型和音频信号的音乐曲调。
演奏者参数确定单元,如果有关演奏者的身高和体重的信息被提取出作为有关演奏者的信息,则可以基于有关身高和体重的信息来确定指示演奏者对象的大小的演奏者参数。在此情况下,如果有关演奏者的性别的信息被提取出作为有关演奏者的信息,则所述信息处理设备基于有关性别的信息来确定指示演奏者对象的发型和衣服的演奏者参数。
该信息处理设备还包括照明参数确定单元,该照明参数确定单元用于基于由元数据提取单元提取出的元数据来确定用于控制演奏者对象所在的舞台上的照明的照明参数。在这种情况中,照明参数确定单元确定照明参数,使得照明与由元数据提取单元检测出的拍子相同步地变化。
照明参数确定单元可以基于由元数据提取单元提取出的每种乐器声音的存在概率来确定照明参数,照明参数指示照射在与每种乐器声音相对应的演奏者对象上的聚光灯(spotlight)的亮度。
照明参数确定单元可以参考由元数据提取单元提取出的音乐结构,并可确定照明参数使得照明根据正被演奏的音乐的结构的类型而变化。
照明参数确定单元可以确定照明参数使得照明的颜色基于由元数据提 取单元提取出的音乐的年代而变化。
该信息处理设备还可以包括观众参数确定单元,该观众参数确定单元用于基于由元数据提取单元提取出的元数据来确定观众参数,观众参数用于控制与舞台不同的位置中所设置的观众座位中的观众对象的移动。在这种情况中,观众参数确定单元确定所述观众参数使得观众对象的移动与由元数据提取单元检测出的拍子相同步地变化。
观众参数确定单元可以参考由元数据提取单元提取出的音乐结构,并可确定观众参数,使得观众对象的移动根据正被演奏的音乐的结构的类型而变化。
演奏者参数确定单元可以基于由元数据提取单元提取出的每种乐器声音的独奏概率,确定指示与每种乐器声音相对应的演奏者对象的姿势和表情的演奏者参数。
演奏者参数确定单元可以基于由元数据提取单元提取出的每种乐器声音的存在概率,确定指示与每种乐器声音相对应的演奏者对象的正在演奏的手的移动程度的演奏者参数。
演奏者参数确定单元可以基于由元数据提取单元提取出的歌声的存在概率,确定指示与歌声相对应的演奏者对象的张嘴大小或握麦克风的手与嘴之间的距离的演奏者参数。
演奏者参数确定单元,基于由元数据提取单元提取出的旋律线的平均音调和每帧的旋律线的音调之间的差或基于由元数据提取单元提取出的歌声的声音特征,可以确定指示与歌声相对应的演奏者对象的表情的移动的演奏者参数。
演奏者参数确定单元,基于由元数据提取单元提取出的旋律线,可以确定指示没有握麦克风的手的移动的演奏者参数,所述的手是属于与歌声相对应的演奏者对象的。
演奏者参数确定单元,基于由元数据提取单元提取出的和弦进行,可以确定指示演奏者对象的手的位置的演奏者参数,该演奏者参数与从由吉他、键盘乐器和琴弦乐器形成的群组中选出的一个或多个区间(section)相对应。
演奏者参数确定单元,基于由元数据提取单元提取出的贝斯线,可以确定指示握贝斯颈的手的位置的演奏者参数,所述的手是属于与贝斯相对应的演奏者对象的。
当演奏者对象是外部地连接的机器人或通过计算机图形实现的演奏者图像时,该信息处理设备还包括对象控制单元,该对象控制单元用于使用由演奏者参数确定单元确定的演奏者参数来控制外部地连接的机器人的移动,或者用于使用由演奏者参数确定单元确定的演奏者参数来控制演奏者图像的移动。
根据本发明另一实施例,提供了一种信息处理方法,该方法包括以下步骤:分析多种乐器声音以混合方式存在于其中的音频信号,并且提取随着演奏时间的过去而变化的元数据作为音频信号的特征量;以及基于通过分析和提取步骤提取出的元数据来确定用于控制与每种乐器声音相对应的演奏者对象的移动的演奏者参数。
根据本发明另一实施例,提供了一种程序,该程序使得计算机实现:元数据提取功能,该元数据提取功能用于分析多种乐器声音以混合方式存在于其中的音频信号,并且用于提取随着演奏时间的过去而变化的元数据作为音频信号的特征量;以及演奏者参数确定功能,该演奏者参数功能用于基于通过元数据提取功能提取出的元数据来确定用于控制与每种乐器声音相对应的演奏者对象的移动的演奏者参数。
根据本发明另一实施例,可以提供一种存储该程序并且可以被计算机读取的记录介质。
根据上述本发明实施例,变得有可能自动检测按时间序列变化的音乐数据的特征量,并且基于该特征量以使得看起来像是与每种乐器声音相对应的对象正在演奏音乐的方式来可视化音乐数据。
附图说明
图1是示出用于自动生成用于计算特征量的算法的特征量计算公式生成设备的配置示例的说明性示图;
图2是示出根据本发明一个实施例的信息处理设备的功能配置示例的说明性示图;
图3是示出根据本实施例的声源分离方法(中心提取方法)的示例的说明性示图;
图4是示出根据本实施例的声源类型的说明性示图;
图5是示出根据本实施例的对数谱生成方法的示例的说明性示图;
图6是示出通过根据本实施例的对数谱生成方法所生成的对数谱的说明性示图;
图7是示出按照本实施例的音乐分析方法的一连串处理的说明性示图;
图8是示出根据本实施例的拍子检测单元的配置示例的说明性示图;
图9是示出根据本实施例的拍子检测方法的示例的说明性示图;
图10是示出根据本实施例的拍子检测方法的示例的说明性示图;
图11是示出根据本实施例的拍子检测方法的示例的说明性示图;
图12是示出根据本实施例的拍子检测方法的示例的说明性示图;
图13是示出根据本实施例的拍子检测方法的示例的说明性示图;
图14是示出根据本实施例的拍子检测方法的示例的说明性示图;
图15是示出根据本实施例的拍子检测方法的示例的说明性示图;
图16是示出根据本实施例的拍子检测方法的示例的说明性示图;
图17是示出根据本实施例的拍子检测方法的示例的说明性示图;
图18是示出根据本实施例的拍子检测方法的示例的说明性示图;
图19是示出根据本实施例的拍子检测方法的示例的说明性示图;
图20是示出根据本实施例的拍子检测方法的示例的说明性示图;
图21是示出根据本实施例的拍子检测方法的示例的说明性示图;
图22是示出根据本实施例的拍子检测方法的示例的说明性示图;
图23是示出根据本实施例的拍子检测方法的示例的说明性示图;
图24是示出根据本实施例的拍子检测方法的示例的说明性示图;
图25是示出根据本实施例的拍子检测方法的示例的说明性示图;
图26是示出根据本实施例的拍子检测方法的示例的说明性示图;
图27是示出根据本实施例的拍子检测方法的示例的说明性示图;
图28是示出根据本实施例的拍子检测方法的示例的说明性示图;
图29是示出根据本实施例的拍子检测方法的示例的说明性示图;
图30是示出根据本实施例的拍子检测方法的示例的说明性示图;
图31是通过根据本实施例的拍子检测方法得到的拍子检测结果的示例的说明性示图;
图32是示出根据本实施例的结构分析单元的配置示例的说明性示图;
图33是示出根据本实施例的结构分析方法的示例的说明性示图;
图34是示出根据本实施例的结构分析方法的示例的说明性示图;
图35是示出根据本实施例的结构分析方法的示例的说明性示图;
图36是示出根据本实施例的结构分析方法的示例的说明性示图;
图37是示出根据本实施例的结构分析方法的示例的说明性示图;
图38是示出根据本实施例的结构分析方法的示例的说明性示图;
图39是示出根据本实施例的结构分析方法的示例的说明性示图;
图40是示出根据本实施例的和弦概率检测单元的配置示例的说明性示图;
图41是示出根据本实施例的和弦概率检测方法的示例的说明性示图;
图42是示出根据本实施例的和弦概率检测方法的示例的说明性示图;
图43是示出根据本实施例的和弦概率检测方法的示例的说明性示图;
图44是示出根据本实施例的和弦概率检测方法的示例的说明性示图;
图45是示出根据本实施例的和弦概率检测方法的示例的说明性示图;
图46是示出根据本实施例的基调检测单元的配置示例的说明性示图;
图47是示出根据本实施例的基调检测方法的示例的说明性示图;
图48是示出根据本实施例的基调检测方法的示例的说明性示图;
图49是示出根据本实施例的基调检测方法的示例的说明性示图;
图50是示出根据本实施例的基调检测方法的示例的说明性示图;
图51是示出根据本实施例的基调检测方法的示例的说明性示图;
图52是示出根据本实施例的基调检测方法的示例的说明性示图;
图53是示出根据本实施例的基调检测方法的示例的说明性示图;
图54是示出根据本实施例的基调检测方法的示例的说明性示图;
图55是示出根据本实施例的基调检测方法的示例的说明性示图;
图56是示出根据本实施例的基调检测方法的示例的说明性示图;
图57是示出根据本实施例的小节线检测单元的配置示例的说明性示图;
图58是示出根据本实施例的小节线检测方法的示例的说明性示图;
图59是示出根据本实施例的小节线检测方法的示例的说明性示图;
图60是示出根据本实施例的小节线检测方法的示例的说明性示图;
图61是示出根据本实施例的小节线检测方法的示例的说明性示图;
图62是示出根据本实施例的小节线检测方法的示例的说明性示图;
图63是示出根据本实施例的小节线检测方法的示例的说明性示图;
图64是示出根据本实施例的小节线检测方法的示例的说明性示图;
图65是示出根据本实施例的小节线检测方法的示例的说明性示图;
图66是示出根据本实施例的小节线检测方法的示例的说明性示图;
图67是示出根据本实施例的小节线检测方法的示例的说明性示图;
图68是示出根据本实施例的和弦进行检测单元的配置示例的说明性示图;
图69是示出根据本实施例的和弦进行检测方法的示例的说明性示图;
图70是示出根据本实施例的和弦进行检测方法的示例的说明性示图;
图71是示出根据本实施例的和弦进行检测方法的示例的说明性示图;
图72是示出根据本实施例的和弦进行检测方法的示例的说明性示图;
图73是示出根据本实施例的和弦进行检测方法的示例的说明性示图;
图74是示出根据本实施例的和弦进行检测方法的示例的说明性示图;
图75是示出根据本实施例的旋律检测单元的配置示例的说明性示图;
图76是示出根据本实施例的旋律线检测方法的示例的说明性示图;
图77是示出根据本实施例的旋律线检测方法的示例的说明性示图;
图78是示出根据本实施例的旋律线检测方法的示例的说明性示图;
图79是示出根据本实施例的旋律线检测方法的示例的说明性示图;
图80是示出根据本实施例的旋律线检测方法的示例的说明性示图;
图81是示出根据本实施例的旋律线检测方法的示例的说明性示图;
图82是示出根据本实施例的旋律线检测方法的示例的说明性示图;
图83是示出根据本实施例的旋律线检测方法的示例的说明性示图;
图84是示出根据本实施例的旋律线检测方法的示例的说明性示图;
图85是示出根据本实施例的旋律线检测方法的示例的说明性示图;
图86是示出根据本实施例的贝斯检测单元的配置示例的说明性示图;
图87是示出根据本实施例的元数据检测方法(音乐结构分析方法)的示例的说明性示图;
图88是示出根据本实施例的元数据检测方法(音乐结构分析方法)的示例的说明性示图;
图89是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图90是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图91是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图92是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图93是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图94是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图95是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图96是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图97是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图98是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图99是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图100是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图101是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图102是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图103是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图104是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图105是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图106是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图107是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图108是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图109是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图110是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图111是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图112是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图113是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图114是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图115是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图116是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图117是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图118是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图119是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图120是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图121是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图122是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图123是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图124是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图125是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图126是示出根据本实施例的可视化参数确定方法的示例的说明性示图;
图127是示出根据本实施例的可视化参数确定方法的示例的说明性示图;以及
图128是示出根据本实施例的信息处理设备的硬件配置示例的说明性示图。
具体实施方式
在下文中,将参照附图详细描述本发明。注意,在本说明书和附图中,具有基本相同功能和结构的结构元件用相同标号表示,并省略这些结构元件的重复说明。
在本说明书中,将按以下示出的顺序进行说明。
(说明项目)
1.基础架构技术
1-1.特征量计算公式生成设备10的配置
2.实施例
2-1.信息处理设备100的总体配置
###音乐分析方法的说明###
2-2.声源分离单元106的配置
2-3.对数谱分析单元108的配置
2-4.音乐分析单元110的配置
2-4-1.拍子检测单元132的配置
2-4-2.结构分析单元134的配置
2-4-3.和弦概率检测单元136的配置
2-4-4.基调检测单元138的配置
2-4-5.小节线检测单元140的配置
2-4-6.和弦进行检测单元142的配置
2-4-7.旋律检测单元144的配置
2-4-8.贝斯检测单元146的配置
2-4-9.元数据检测单元148的配置
###音乐可视化方法的说明###
2-5.可视化参数确定单元114的配置
2-5-1.可视化参数确定方法的概要
2-5-2.可视化参数确定方法的细节
2-6.信息处理设备100的硬件配置示例
2-7.总结
<1.基础架构技术>
首先,在描述根据本发明一个实施例的技术之前,将简要描述用于实现本实施例的技术配置的基础架构技术。这里所描述的基础架构技术涉及算法的自动生成方法,该算法用于以特征量的形式对任意输入数据的特征进行量化。例如,各种类型的数据,例如音频信号的信号波形或图像中所包括的各种颜色的亮度数据,都可以用作输入数据。而且,当以乐曲为 例时,通过应用基础架构技术,从音乐数据的波形中自动地生成用于计算指示乐曲的欢快程度或速度(tempo)的特征量的算法。此外,日本专利文件JP-A-2008-123011中所公开的学习算法也可以用来替代下述特征量计算公式生成设备10的配置示例。
(1-1.特征量计算公式生成设备10的配置示例)
首先,参考图1,将描述根据上述基础架构技术的特征量计算公式生成设备10的功能配置。图1是示出根据上述基础架构技术的特征量计算公式生成设备10的配置示例的说明性示图。这里所描述的特征量计算公式生成设备10是用于自动地生成用于使用任意输入数据、以特征量的形式对该输入数据的特征进行量化的算法(以下,称为计算公式)的手段(学习算法)的示例。
如图1中所示,特征量计算公式生成设备10主要具有:算子(operator)存储单元12、提取公式生成单元14、提取公式列表生成单元20、提取公式选择单元22和计算公式设置单元24。此外,特征量计算公式生成设备10包括:计算公式生成单元26、特征量选择单元32、评估数据获取单元34、教师数据获取单元36和公式评估单元38。此外,提取公式生成单元14包括算子选择单元16。并且,计算公式生成单元26包括提取公式计算单元28和系数计算单元30。此外,公式评估单元38包括计算公式评估单元40和提取公式评估单元42。
首先,提取公式生成单元14通过组合算子存储单元12中所存储的多个算子来生成特征量提取公式(以下,称为提取公式),提取公式用作计算公式的基础。这里的“算子”是用于对输入数据的数据值执行特定运算处理的算子。通过算子执行的运算类型包括差分计算、最大值提取、低通滤波、无偏方差计算、快速傅里叶变换、标准差计算、平均值计算等。当然,这不限于以上列举的这些类型的运算,并且可以包括可对输入数据的数据值执行的任何类型的运算。
此外,针对各个算子设置运算类型、运算目标轴和用于该运算的参数。运算目标轴是指定义输入数据的各个数据值的轴中作为运算处理的目标的轴。例如,当以音乐数据为例时,音乐数据在由时间轴和音调轴(频 率轴)形成的空间中被给出为音量的波形。当对音乐数据执行差分运算时,要确定是沿时间轴方向执行差分运算还是沿频率轴方向执行差分运算。因此,各个参数包括与形成定义输入数据的空间的轴中要作为运算处理目标的轴相关的信息。
此外,参数根据运算的类型而变得必要。例如,在低通滤波的情况中,定义要通过的数据值的范围的阈值必须被固定为参数。由于这些原因,除了运算的类型以外,在各个算子中还包括运算目标轴和必要参数。例如,算子被表示为F#Differential、F#MaxIndex、T#LPF_1;0.861、T#UVariance……,算子开头所添加的F等指示运算目标轴。例如,F是指频率轴,并且T是指时间轴。
在运算目标轴之后用#分开的所添加的Differential等指示运算的类型。例如,Differential是指差分计算运算,MaxIndex是指最大值提取运算,LPF是指低通滤波,UVariance是指无偏方差计算运算。运算类型之后的数字指示参数。例如,LPF_1;0.861指示将1至0.861的范围作为通带的低通滤波器。这各种算子被存储在算子存储单元12中,并且由提取公式生成单元14读取和使用。提取公式生成单元14首先通过算子选择单元16来选择任意算子,并且通过组合所选择的算子来生成提取公式。
例如,由算子选择单元16选择F#Differential、F#MaxIndex、T#LPF_1;0.861和T#UVariance,并且由提取公式生成单元14生成如以下等式(1)所表示的提取公式f。然而,开头所添加的12Tones指示作为处理目标的输入数据的类型。例如,当12Tones被记述时,通过分析输入数据的波形而获得的时间-音调空间中的信号数据(稍后描述的对数谱)成为运算处理目标。即,如以下等式(1)所表示的提取公式指示稍后所述的对数谱是处理目标,以及,关于输入数据,沿频率轴(音调轴方向)顺次执行差分运算和最大值提取并且沿时间轴顺次执行低通滤波和无偏方差运算。
[等式1]
f={12Tones,F#Differential,F#MaxIndex,T#LPF_1;0.861,T#UVariance} ...(1)
如上所述,提取公式生成单元14针对算子的各种组合生成如上述等式(1)所示的提取公式。将详细描述该生成方法。首先,提取公式生成单元14通过使用算子选择单元16来选择算子。此时,算子选择单元16判定通过所选择的算子的组合(提取公式)来对输入数据进行的运算的结果是否是标量或者特定大小或更小的向量(其是否收敛)。
基于各个算子中所包括的运算目标轴的类型和运算的类型来执行上述判定处理。当由算子选择单元16选择算子的组合时,针对各种组合执行判定处理。然后,当算子选择单元16判定运算结果收敛时,提取公式生成单元14通过使用由算子选择单元16选择的、使运算结果收敛的算子的组合来生成提取公式。由提取公式生成单元14进行的提取公式的生成处理被执行直到特定数目(一下,称为所选择的提取公式的数目)的提取公式被生成为止。由提取公式生成单元14生成的提取公式输入提取公式列表生成单元20。
当提取公式从提取公式生成单元14输入提取公式列表生成单元20时,特定数目的提取公式被从输入提取公式中选出(以下,列表中的提取公式的数目≤所选择的提取公式的数目)并且提取公式列表被生成。此时,由提取公式列表生成单元20进行的生成处理被执行直到特定数目(以下,称为列表的数目)的提取公式列表被生成。然后,由提取公式列表生成单元20生成的提取公式列表输入提取公式选择单元22。
以下,将关于由提取公式生成单元14和提取公式列表生成单元20进行的处理来描述具体示例。首先,例如,由提取公式生成单元14确定输入数据的类型是音乐数据。接着,由算子选择单元16随机地选择算子OP1、OP2、OP3和OP4。然后,通过所选择的算子的组合,关于音乐数据的运算结果是否收敛执行判定处理。当判定音乐数据的运算结果收敛时,利用OP1至OP4的组合生成提取公式f1。由提取公式生成单元14生成的提取公式f1输入提取公式列表生成单元20。
此外,提取公式生成单元14重复与提取公式f1的生成处理相同的处理,并且例如生成提取公式f2、f3和f4。以这种方式生成的提取公式f2、f3 和f4输入提取公式列表生成单元20。当提取公式f1、f2、f3和f4输入时,提取公式列表生成单元20例如生成提取公式列表L1={f1,f2,f4},并且生成提取公式列表L2={f1,f3,f4}。由提取公式列表生成单元20生成的提取公式列表L1和L2输入提取公式选择单元22。
如以上利用具体示例所述,提取公式是由提取公式生成单元14生成的,并且提取公式列表是由提取公式列表生成单元20生成的并且被输入提取公式选择单元22。然而,尽管在上述示例中描述了这样的情况:所选择的提取公式的数目是4,列表中的提取公式的数目是3并且列表的数目是2,但是应当注意,实际上,生成了非常大数目的提取公式和提取公式列表。
现在,当提取公式列表从提取公式列表生成单元20被输入时,提取公式选择单元22从输入的提取公式列表中选择要插入稍后所述的计算公式中的提取公式。例如,当上述提取公式列表L1中的提取公式f1和f4要被插入计算公式,则提取公式选择单元22关于提取公式列表L1选择提取公式f1和f4。提取公式选择单元22针对提取公式列表中的每个列表执行上述选择处理。然后,当选择处理完成时,由提取公式选择单元22进行的选择处理的结果和提取公式列表中的每个列表被输入计算公式设置单元24。
当选择结果和提取公式列表中的每个列表从提取公式选择单元22被输入时,计算公式设置单元24考虑提取公式选择单元22的选择结果,设置与各个提取公式相对应的计算公式。例如,如以下等式(2)所示,计算公式设置单元24通过对每个提取公式列表Lm={f1,...,fK}中所包括的提取公式fk进行线性耦合来设置计算公式Fm。此外,m=1,...,M(M是列表的数目),k=1,...,K(K是列表中提取公式的数目)并且B0,...,BK是耦合系数。
【0047】[等式2]
Fm=B0+B1f1+…+BKfK...(2)
此外,计算公式Fm还可以被设置成提取公式fk(k=1至K)的非线性函数。然而,由计算公式设置单元24设置的计算公式Fm的函数形式取决于稍后描述的计算公式生成单元26所使用的耦合系数估计算法。因此,计算公式设置单元24被配置为根据计算公式生成单元26可以使用的估计算法来设置计算公式Fm的函数形式。例如,计算公式设置单元24可以被配置为根据输入数据的类型来改变函数形式。然而,在本说明书中,为了便于说明,将使用如上述等式(2)所表示的线性耦合。有关计算公式设置单元24所设置的计算公式的信息被输入计算公式生成单元26。
此外,希望通过计算公式计算出的特征量的类型从特征量选择单元32输入计算公式生成单元26。特征量选择单元32是用于选择希望通过计算公式计算出的特征量的类型的装置。此外,与输入数据的类型相对应的评估数据从评估数据获取单元34输入计算公式生成单元26。例如,在输入数据的类型是音乐的情况中,多条音乐数据被输入作为评估数据。与各个评估数据相对应的教师数据也从教师数据获取单元36输入计算公式生成单元26。这里的教师数据是各个评估数据的特征量。具体地,针对由特征量选择单元32选择的类型的教师数据被输入计算公式生成单元26。例如,在输入数据是音乐数据并且特征量的类型是速度的情况中,各个评估数据的正确速度值被输入计算公式生成单元26作为教师数据。
当评估数据、教师数据、特征量的类型、评估公式等被输入时,计算公式生成单元26首先向评估公式Fm中所包括的提取公式f1,...,fK输入各个评估数据,并且通过提取公式计算单元28获得提取公式中的每个提取公式的计算结果(以下,称为提取公式计算结果)。当由提取公式计算单元28计算出与各个评估数据有关的各个提取公式的提取公式计算结果时,各个提取公式计算结果从提取公式计算单元28输入系数计算单元30。系数计算单元30使用与各个评估数据相对应的教师数据和输入的提取公式计算结果,并且计算如上述等式(2)中的B0,...,BK所表示的耦合系数。例如,可以通过使用最小均方方法来确定系数B0,...,BK。此时,系数计算单元30还计算诸如均方误差之类的评估值。
提取公式计算结果、耦合系数和均方误差等是针对每种类型的特征量并且针对列表的数目来计算的。由提取公式计算单元28计算出的提取公式计算结果和由系数计算单元30计算出的耦合系数和诸如均方误差之类的评估值被输入公式评估单元38。当这些计算结果被输入时,公式评估单元38通过使用输入的计算结果来计算用于判定各个计算公式的有效性的评估值。如上所述,在确定构成各个计算公式的提取公式和构成提取公式的算子的处理中,包括随机的选择处理。即,关于在确定处理中是否选择了最优的提取公式和最优算子存在不确定性。因此,由公式评估单元38来执行评估以评估计算结果,并且在适当时,执行重新计算或校正计算结果。
在图1中所示的公式评估单元38中设置:用于计算各个计算公式的评估值的计算公式评估单元40和用于计算各个提取公式的贡献度的提取公式评估单元42。计算公式评估单元40例如使用称为AIC或BIC的评估方法来评估各个计算公式。这里的AIC是Akaike Information Criterion(Akaike信息量准则)的缩写。另一方面,BIC是Bayesian InformationCriterion(贝叶斯信息量准则)的缩写。当使用AIC时,通过使用各个计算公式的均方误差(mean square error)和教师数据的个数(以下,称为教师的数目number of teachers)来计算各个计算公式的评估值。例如,基于由以下等式(3)表示的值(AIC)来计算评估值。
[等式3]
AIC=number of teachers×{log 2n+1+log(mean square error)}+2(K+1)...(3)
根据上述等式(3),AIC越小,计算公式的精确度越高。因此,AIC越小,针对使用AIC的情况的评估值被设置为越大。例如,通过由上述等式(3)表示的AIC的倒数来计算评估值。此外,由计算公式评估单元40针对特征量的类型的数目来计算评估值。因此,计算公式评估单元40针对各个计算公式执行对特征量类型的数目的平均运算,并且计算出平均评估值。即,在这个阶段计算各个计算公式的平均评估值。由计算公式评估 单元40计算出的平均评估值被输入提取公式列表生成单元20作为计算公式的评估结果。
另一方面,提取公式评估单元42基于提取公式计算结果和耦合系数来计算各个计算公式中的各个提取公式的贡献比,作为评估值。例如,提取公式评估单元42根据以下等式(4)来计算贡献比。提取公式fK的提取公式计算结果的标准差是从针对各个评估数据计算出的提取公式计算结果获得的。由提取公式评估单元42根据以下等式(4)针对各个计算公式所计算出的各个提取公式的贡献比被输入提取公式列表生成单元20,作为提取公式的评估结果。
[等式4]
这里,StDev(...)指示标准差。此外,估计目标的特征量是乐曲的速度等。例如,在给出100首乐曲的对数谱作为评估数据并且给出每首乐曲的速度作为教师数据的情况中,StDev(估计目标的特征量)指示这100首乐曲的速度的标准差。此外,上述等式(4)中所包括的Pearson(...)指示相关函数。例如,Pearson(fK的计算结果,估计目标FQ)指示用于计算fK的计算结果与估计目标特征量之间的相关系数的相关函数。此外,尽管乐曲的速度被指示为特征量的示例,但是估计目标特征量不限于此。
当评估结果以这种方式从公式评估单元38输入提取公式列表生成单元20时,生成要用于新的计算公式的表达的提取公式列表。首先,提取公式列表生成单元20按照由计算公式评估单元40计算出的平均评估值的降序来选择特定数目的计算公式,并且设置与所选择的计算公式相对应的提取公式列表作为新的提取公式列表(选择)。此外,提取公式列表生成单元20通过按照由计算公式评估单元40计算出的平均评估值的降序进行加权来选择两个计算公式,并且通过对与计算公式相对应的提取公式列表中的提取公式进行组合来生成新的提取公式列表(交叉)。此外,提取公 式列表生成单元20通过按照由计算公式评估单元40计算出的平均评估值的降序进行加权来选择一个计算公式,并且通过对与计算公式相对应的提取公式列表中的提取公式进行部分地改变来生成新的提取公式列表(转变)。此外,提取公式列表生成单元20通过随机地选择提取公式来生成新的提取公式列表。
在上述交叉中,提取公式的贡献比越低,则提取公式被设置为不太可能被选择越好。此外,在上述转变中,如下的设置是优选的:提取公式的贡献比越低,提取公式越易于被改变。通过使用以这种方式新生成或新设置的提取公式列表来再次执行提取公式选择单元22、计算公式设置单元24、计算公式生成单元26和公式评估单元38的处理。处理序列被重复执行直到公式评估单元38的评估结果中的改善程度收敛至某一程度为止。然后,当公式评估单元38的评估结果中的改善程度收敛至某一程度时,此时的计算公式被输出作为计算结果。通过使用输出的计算公式,以高精度从与上述评估数据不同的任意输入数据中计算出表示输入数据的目标特征的特征量。
如上所述,由特征量计算公式生成设备10进行的处理是基于遗传算法的,遗传算法考虑诸如交叉或转变之类的要素,在从一代进行到下一代的同时重复执行处理。能够以高精度估计特征量的计算公式可以通过使用遗传算法来获得。然而,在稍后所述的实施例,也可以使用学习算法,该学习算法通过比遗传算法的方法简单的方法来计算计算公式。例如,不是由提取公式列表生成单元20执行诸如上述选择、交叉和转变之类的处理,而是可以设想到这样的方法:通过改变提取公式选择单元22所要使用的提取公式,选择使得计算公式评估单元40所得到的评估值最高的组合。在这种情况中,可以省略提取公式评估单元42的配置。此外,可以根据运算负荷和所希望的估计精度在适当时改变配置。
<2.实施例>
以下,将描述本发明的一个实施例。本实施例涉及用于从乐曲的音频信号中以高精度自动地提取乐曲的特征量并且用于通过使用这些特征量来 将乐曲可视化的技术。此外,以下,乐曲的音频信号也可以称为音乐数据。
(2-1.信息处理设备100的总体配置)
首先,参考图2,将描述根据本实施例的信息处理设备100的功能配置。图2是示出根据本实施例的信息处理设备100的功能配置示例的说明性示图。此外,这里描述的信息处理设备100具有这样的配置特征:精确地检测音乐数据中所包括的各种特征量并且通过使用这些特征量来逼真地可视化音乐数据。例如,乐曲的拍子、和弦进行、各种乐器声音的存在概率等将被包括在特征量中。以下,在描述了信息处理设备100的总体配置之后,将分别描述各个结构元件的详细配置。
如图2中所示,信息处理设备100主要包括:音乐数据存储单元102、音乐再现单元104、声源分离单元106、对数谱分析单元108、音乐分析单元110、元数据存储单元112、可视化参数确定单元114和可视化单元116。此外,音乐分析单元110包括:拍子检测单元132、结构分析单元134、和弦概率检测单元136、基调检测单元138、小节线检测单元140和和弦进行检测单元142。此外,音乐分析单元110还包括旋律检测单元144、贝斯检测单元146和元数据检测单元148。
此外,特征量计算公式生成设备10被包括在图2中所示的信息处理设备100中。然而,特征量计算公式生成设备10可以被设置在信息处理设备100内,或作为外部装置被连接到信息处理设备100。以下,为了方便,假定特征量计算公式生成设备10被内建于信息处理设备100中。此外,信息处理设备100还可以使用能够生成特征量计算公式的各种学习算法,来取代设置特征量计算公式生成设备10。
处理的总体流程如接下来所述。首先,由音乐再现单元104再现音乐数据存储单元102中所存储的音乐数据。此外,音乐数据存储单元102中所存储的音乐数据被输入声源分离单元106。音乐数据被声源分离单元106分离成:左声道分量(前景分量)、右声道分量(前景分量)、中心分量(前景分量)和背景分量。分离成各个分量的音乐数据被输入对数谱分析单元108。音乐数据的各个分量被对数谱分析单元108变换成稍后描 述的对数谱。从对数谱分析单元108输出的对数谱被输入特征量计算公式生成设备10等。此外,对数谱可以由特征量计算公式生成设备10以外的其它结构元件使用。在这种情况中,所希望的对数谱在适当时被直接或间接地从对数谱分析单元108提供给各个结构元件。
音乐分析单元110分析音乐数据的波形,并且提取音乐数据的拍子位置、音乐结构、基调、和弦进行、旋律线(melody line)、贝斯线(bassline)、各种乐器声音的存在概率等。此外,由拍子检测单元132检测拍子位置。由结构分析单元134检测音乐结构。由基调检测单元138检测基调。由和弦进行检测单元142检测和弦进行。由旋律检测单元144检测旋律线。由贝斯检测单元146检测贝斯线。由元数据检测单元148提取各种乐器声音的存在概率。此时,音乐分析单元110通过使用特征量计算公式生成设备10来生成用于检测拍子位置、和弦进行、乐器声音等的特征量计算公式,并且从通过使用这些计算公式所计算出的特征量中检测出拍子位置、和弦进行、乐器声音等。稍后将详细描述由音乐分析单元110进行的分析处理。
诸如拍子位置、音乐结构、基调、和弦进行、旋律线、贝斯线、各种乐器声音的存在概率等(以下,称为元数据)被存储在元数据存储单元112中。元数据存储单元112中所存储的元数据由可视化参数确定单元114读出。可视化参数确定单元114基于元数据存储单元112中所存储的元数据来确定用于控制像各种乐器的演奏者一样的对象(以下,称为演奏者对象)的移动的参数(以下,称为可视化参数)。然后,由可视化参数确定单元114确定的可视化参数被输入可视化单元116。可视化单元116基于可视化参数来控制演奏者对象等并且对音乐数据进行可视化。利用这样的配置,可视化是可能的,可视化使得看起来就像是演奏者对象正沿着被再现的音乐数据进行演奏。以上粗略描述了音乐数据的可视化流程。以下,将详细描述声源分离单元106、对数谱分析单元108和音乐分析单元110的配置,它们是信息处理设备100的主要结构元件。
(2-2.声源分离单元106的配置)
首先,将描述声源分离单元106。声源分离单元106是用于分离位于左、右和中心的声源信号(以下,称为左声道信号、右声道信号、中心信号)和背景声音的声源信号的装置。这里,参考声源分离单元106对于中心信号的提取方法,将详细描述声源分离单元106的声源分离方法。如图3中所示,声源分离单元106例如由以下单元构成:左声道频带划分单元152、右声道频带划分单元154、带通滤波器156、左声道频带合成单元158和右声道频带合成单元160。在提取中心信号的情况中,使用图3中所示的带通滤波器156通过的条件(相位差:小,音量差:小)。这里,描述用于提取中心信号的方法作为示例。
首先,输入声源分离单元106的立体声信号的左声道信号sL被输入左声道频带划分单元152。左声道的非中心信号L和中心信号C以混合的方式存在于左声道信号sL中。此外,左声道信号sL是随时间过去而改变的音量电平信号。因此,左声道频带划分单元152对输入的左声道信号sL执行DFT处理,并且将其从时域信号变换成频域信号(以下,称为多频带信号fL(0),...,fL(N-1))。这里fL(K)是与第k个(k=0,...,N-1)频带相对应的子频带信号。此外,上述DFT是Discrete Fourier Transform(离散傅里叶变换)的缩写。从左声道频带划分单元152输出的左声道多频带信号被输入带通滤波器156。
以相似的方式,输入声源分离单元106的立体声信号的右声道信号sR被输入右声道频带划分单元154。右声道的非中心信号R和中心信号C以混合方式存在于右声道信号sR中。此外,右声道信号sR是随时间过去而改变的音量电平信号。因此,右声道频带划分单元154对输入的右声道信号sR执行DFT处理,并且将其从时域信号变换成频域信号(以下,称为多频带信号fR(0),...,fR(N-1))。这里fR(k’)是与第k’(k’=0,...,N-1)个频带相对应的子频带信号。从右声道频带划分单元154输出的右声道多频带信号被输入带通滤波器156。此外,各个声道的多频带信号所划分成的频带数是N(例如,N=8192)。
如上所述,各个声道的多频带信号fL(k)(k=0,...,N-1)和fR(k’)(k’=0,...,N-1)被输入带通滤波器156。以下,按照升序标记频率,例如 k=0,...,N-1,或k’=0,...,N-1。此外,信号分量fL(k)和fR(k’)中的每一个称为子声道信号。首先,在带通滤波器156中,从两个声道的多频带信号中选择在相同频带中的子声道信号fL(k)和fR(k’)(k’=k),并且计算这些子声道信号之间的类似度a(k)。类似度a(k)例如是根据以下等式(5)和(6)计算的。这里,幅度分量和相位分量被包括在子声道信号中。因此,幅度分量的类似度表示为ap(k),并且相位分量的类似度表示为ai(k)。
[等式5]
...(5)
[等式6]
这里,|...|指示“...”的范数。θ指示fL(k)与fR(k)之间的相位差(0≤|θ|≤π)。上标*指示复共轭。Re[...]指示“...”的实部。从上述等式(6)可见,在子声道信号fL(k)和fR(k)的范数一致的情况中,幅度分量的类似度ap(k)是1。反之,在子声道信号fL(k)和fR(k)的范数不一致的情况中,类似度ap(k)的值小于1。另一方面,关于相位分量的类似度ai(k),当相位差θ为0时,类似度ai(k)为1;当相位差θ为π/2时,类似度ai(k)为0;并且当相位差θ为π时,类似度ai(k)为-1。即,在子声道信号fL(k)和 fR(k)的相位一致的情况中,相位分量的类似度ai(k)为1,并且在子声道信号fL(k)和fR(k)的相位不一致的情况中,类似度ai(k)的值小于1。
当各个频带k(k=0,...,N-1)的类似度a(k)是通过上述方法计算出的时,由带通滤波器156提取与小于特定阈值的类似度ap(q)和ai(q)相对应的频带q(0≤q≤N-1)。然后,仅由带通滤波器156所提取出的频带q中的子声道信号被输入左声道频带合成单元158或右声道频带合成单元160。例如,子声道信号fL(q)(q=q0,...,qn-1)被输入左声道频带合成单元158。因此,左声道频带合成单元158对从带通滤波器156输入的子声道信号fL(q)(q=q0,...,qn-1)执行IDFT处理,并且将其从频域变换到时域。此外,上述IDFT是Inverse Discrete Fourier Transform(离散傅里叶逆变换)的缩写。
以相似的方式,子声道信号fR(q)(q=q0,...,qn-1)被输入右声道频带合成单元160。因此,右声道频带合成单元160对从带通滤波器156输入的子声道信号fR(q)(q=q0,...,qn-1)执行IDFT处理,并且将其从频域变换到时域。从左声道频带分析单元158输出左声道信号sL中所包括的中心信号分量sL’。另一方面,从右声道频带分析单元160输出右声道信号sR中所包括的中心信号分量sR’。声源分离单元106可以通过上述方法从立体声信号中提取中心信号。
此外,可以通过如图4中所示改变带通滤波器156的通过条件来以相同方式分离左声道信号、右声道信号和背景声音信号。如图4中所示,在提取左声道信号的情况中,左右之间的相位差小并且左边的音量高于右边的音量的频带被设置为带通滤波器156的通带。这里的音量对应于上述幅度分量。类似地,在提取右声道信号的情况中,左右之间的相位差小并且右边的音量高于左边的音量的频带被设置为带通滤波器156的通带。
左声道信号、右声道信号和中心信号是前景信号。因此,这些信号中的任何一个都在左右之间的相位差小的频带中。另一方面,背景声音信号是在左右之间的相位差大的频带中的信号。因此,在提取背景声音信号的情况中,带通滤波器156的通带被设置为左右之间的相位差大的频带。由声源分离单元106以这种方式分离的左声道信号、右声道信号、中心信号和背景声音信号被输入对数谱分析单元108。
(2-3.对数谱分析单元108的配置)
接着,将描述对数谱分析单元108。对数谱分析单元108是用于将输入音频信号变换成各个音调的强度分布的装置。在音频信号中每八度音阶包括12个音调(C,C#,D,D#,E,F,F#,G,G#,A,A#,B)。此外,各个音调的中心频率成对数分布。例如,当用音调A3的中心频率fA3作为标准时,A#3的中心频率表示为fA#3=fA3*21/12。类似地,音调B3的中心频率fB3表示为fB3=fA#3*21/12。以这种方式,相邻音调的中心频率之比为1∶21/12。然而,当处理音频信号时,将音频信号作为时间-频率空间中的信号强度分布将使得频率轴是对数轴,从而使对音频信号的处理变复杂。因此,对数谱分析单元108分析音频信号,并且将其从时间-频率空间中的信号变换成时间-音调空间中的信号(以下,称为对数谱)。
参考图5,将详细描述对数谱分析单元108的配置。如图5所示,对数谱分析单元108可以由重新采样单元162、八度音阶划分单元164和多个带通滤波器库(BPFB)166构成。
首先,音频信号被输入重新采样单元162。然后,重新采样单元162将输入音频信号的采样频率(例如,44.1kHz)变换成特定采样频率。通过将八度音阶之间的边界处的频率(以下,称为边界频率)作为标准并且将边界频率乘以2的幂而获得的频率被当作特定采样频率。例如,音频信号的采样频率将八度音阶4和八度音阶5之间的边界频率1016.7Hz作为标准,并且被变换成为标准的25倍的采样频率(32534.7Hz)。通过以这种方式变换采样频率,作为重新采样单元162之后执行的频带划分处理和下采样处理的结果获得的最高和最低频率将与某一八度音阶的最高和最低频率一致。结果,可以简化用于从音频信号提取各个音调的信号的处理。
采样频率被重新采样单元162变换了的音频信号被输入八度音阶划分单元164。然后,八度音阶划分单元164通过重复执行频带划分处理和下采样处理将输入的音频信号划分成各个八度音阶的信号。通过由八度音阶划分单元164进行的划分所获得的各个信号被输入针对各个八度音阶(O1,...,O8)而设置的带通滤波器库166(BPFB(O1),...,BPFB(O8))。每个带通滤波器库166由12个带通滤波器构成,每个带通滤波器具有针 对12个音调中的一个的通带,以从各个八度音阶的输入音频信号中提取各个音调的信号。例如,经由通过八度音阶8的带通滤波器库166(BPFB(O8)),从八度音阶8的音频信号中提取出12个音调(C8,C#8,D8,D#8,E8,F8,F#8,G8,G#8,A8,A#8,B)的信号。
通过从各个带通滤波器库166输出的信号可以获得示出各个八度音阶中12个音调的信号强度(以下,称为能量)的对数谱。图6是示出从对数谱分析单元108输出的对数谱的示例的说明性示图。
参考图6的垂直轴(音调),输入音频信号被划分成7个八度音阶,并且每个八度音阶又被划分成12个音调:“C”、“C#”、“D”、“D#”、“E”、“F”、“F#”、“G”、“G#”、“A”、“A#”和“B”。另一方面,图6的水平轴(时间)示出沿时间轴对音频信号进行采样时的帧编号。例如,当由重新采样单元162以采样频率127.0888(Hz)对音频信号进行重新采样时,1帧将是与1(sec)/127.0888=7.8686(msec)相对应的时间段。此外,图6中所示的对数谱的颜色的浓淡指示在各帧处,各个音调的能量的强度。例如,位置S1被用黑色示出,并且因此可以理解:与位置S1相对应的音调(音调F)处的音符是在与位置S1相对应的时间被强有力地产生的。此外,图6是当采用某个音频信号作为输入信号时获得的对数谱的一个示例。因此,如果输入信号不同,则获得不同的对数谱。以这种方式获得的对数谱被输入特征量计算公式生成设备10等,并且被用于由音乐分析单元110执行的音乐分析处理。
(2-4.音乐分析单元110的配置)
接着,将描述音乐分析单元110的配置。音乐分析单元110是用于使用学习算法来分析音乐数据并且提取该音乐数据中所包括的特征量的装置。具体地,音乐分析单元110提取音乐数据的拍子位置、音乐结构、基调、和弦进行、旋律线、贝斯线、各种乐器声音的存在概率等。因此,如图2所示,音乐分析单元110包括拍子检测单元132、结构分析单元134、和弦概率检测单元136、基调检测单元138、小节线检测单元140、和弦进行检测单元142、旋律检测单元144、贝斯检测单元146和元数据检测单元148。
由音乐分析单元110进行的处理的主要流程如图7中所示。然而,应当注意,图7的流程图包括由信息处理设备100的其它结构元件执行的处理。如图7中所示,信息处理设备100在顺次读取音乐数据存储单元102中所存储的音乐数据的同时执行音乐循环内的处理(S102至S120)。首先,当音乐循环开始时(S102),由音乐分析单元110获取音乐数据存储单元102中所存储的音乐数据的对数谱(S104)。接着,音乐分析单元110通过拍子检测单元132来执行拍子分析处理并且检测音乐数据中的拍子(S106)。然后,音乐分析单元110通过和弦进行检测单元142来执行和弦进行分析处理并且检测音乐数据的和弦进行(S108)。
然后,音乐分析单元110通过结构分析单元134来分析音乐结构并且从音乐数据中检测音乐结构(S110)。接着,音乐分析单元110通过旋律检测单元144和贝斯检测单元146从音乐数据中检测旋律线和贝斯线(S112)。接着,音乐分析单元110通过元数据检测单元148来检测时间序列元数据(time-series metadata)(S114)。这里的时间序列元数据是指随音乐再现的进行而变化的音乐数据的特征量。然后,音乐分析单元110通过元数据检测单元148来检测针对每首乐曲所要检测的元数据(以下,称为每首乐曲的元数据)。此外,每首乐曲的元数据是通过分析处理获得的元数据,在该分析处理中,使得所有音乐数据帧是分析范围。
接着,音乐分析单元110将步骤S106至S116中所获得的分析结果和元数据存储在元数据存储单元112中(S118)。当步骤S104至步骤S118的处理完成时(S120),针对其它音乐数据执行音乐循环,并且当音乐循环内的处理对于作为处理对象的所有音乐数据都完成时,一连串的处理被完成。此外,音乐循环内的处理是针对由声源分离单元106分离出的声源的组合中的每种组合来执行的。所有4个声源(左声道声音、右声道声音、中心声音和背景声音)被用作要组合的声源。所述组合例如可以是:(1)所有4个声源,(2)仅前景声音(左声道声音、右声道声音和中心声音),(3)左声道声音+右声道声音+背景声音或(4)中心声音+背景声音。此外,其它组合例如可以是:(5)左声道声音+右声道声音, (6)仅背景声音,(7)仅左声道声音,(8)仅右声道声音或(9)仅中心声音。
以上,已经描述了由音乐分析单元110进行的处理的主要流程。接下来,将详细描述音乐分析单元110中所包括的各个结构元件的功能。
(2-4-1.拍子检测单元132的配置)
首先,将描述拍子检测单元132的配置。如图8中所示,拍子检测单元132包括拍子概率计算单元202和拍子分析单元204。拍子概率计算单元202是用于基于音乐数据的对数谱来计算各帧是拍子位置的概率的装置。此外,拍子分析单元204是用于基于由拍子概率计算单元202计算出的各帧的拍子概率来检测拍子位置的装置。以下,将详细描述这些结构元件的功能。
首先,将描述拍子概率计算单元202。拍子概率计算单元202针对从对数谱分析单元108输入的对数谱的特定时间单位中的每一个时间单位(例如,1帧),计算拍子被包括在该时间单位中的概率(以下,称为“拍子概率”)。此外,当特定时间单位是1帧时,拍子概率可以被认为是各帧与拍子位置(时间轴上拍子的位置)相符合的概率。由拍子概率计算单元202用来计算拍子概率的公式是由特征量计算公式生成设备10通过使用学习算法而生成的。并且,诸如图9中所示的那些数据之类的数据被给予特征量计算公式生成设备10,作为用于学习的教师数据和评估数据。在图9中,用于拍子概率的计算的时间单位是1帧。
如图9中所示,从拍子位置已知的乐曲的音频信号变换出的对数谱的片段(以下,称为“局部对数谱”)和各个局部对数谱的拍子概率被提供给特征量计算公式生成设备10。即,局部对数谱被提供给特征量计算公式生成设备10作为评估数据,而拍子概率作为教师数据。这里,局部对数谱的窗口宽度是考虑了拍子概率的计算的精度与处理代价之间的权衡来确定的。例如,局部对数谱的窗口宽度可以包括要计算拍子概率的那帧的前后7帧(即,总共15帧)。
此外,作为教师数据提供的拍子概率例如基于已知的拍子位置并且使用真值(1)或假值(0),来指示拍子是否被包括在各个局部对数谱的中 心帧中。这里不考虑小节的位置,并且当中心帧对应于拍子位置时,拍子概率是1;而当中心帧与拍子位置不相对应时,拍子概率是0。在图9中示出的示例中,给出局部对数谱Wa,Wb,Wc,...,Wn的拍子概率分别为1,0,1,...,0。用于从局部对数谱中计算拍子概率的拍子概率公式(P(W))是由特征量计算公式生成设备10基于多组评估数据和教师数据而生成的。当拍子概率公式P(W)是以这种方式生成的时,拍子概率计算单元202从分析目标音乐(以下,称为所处理的音乐)的对数谱中截取(cut out)各帧的局部对数谱,并且通过将各个局部对数谱应用于拍子概率公式P(W)来顺次计算拍子概率。
图10是示出由拍子概率计算单元202计算出的拍子概率的示例的说明性示图。在图10的(A)中示出要从对数谱分析单元108输入拍子概率计算单元202的对数谱的示例。另一方面,在图10的(B)中,在时间轴上用折线示出由拍子概率计算单元202基于对数谱(A)计算出的拍子概率。例如,参考帧位置F1,可以看出,局部对数谱W1对应于帧位置F1。即,帧F1的拍子概率P(W1)=0.95是从局部对数谱W1中计算出的。类似地,基于从对数谱中截取的局部对数谱W2,计算出帧位置F2的拍子概率P(W2)是0.1。帧位置F1的拍子概率P(W1)高而帧位置F2的拍子概率P(W2)低,并且因此可以说,帧位置F1与拍子位置相对应的概率高,而帧位置F2与拍子位置相对应的概率低。
此外,可以通过另一学习算法来生成由拍子概率计算单元202使用的拍子概率公式。然而,应当注意,一般,对数谱包括各种参数,例如鼓的谱、由于说话引起的谱的发生和由于和弦的变化引起的谱中的变化。在鼓的谱的情况中,击打鼓的时间点很有可能就是拍子位置。另一方面,在语音的谱的情况中,说话开始时间点很有可能是拍子位置。为了通过全体地使用各种参数来高精度地计算拍子概率,适于使用特征量计算公式生成设备10或JP-A-2008-123011中所公开的学习算法。由拍子概率计算单元202以上述方式计算出的拍子概率被输入拍子分析单元204。
拍子分析单元204基于从拍子概率计算单元202输入的各个帧的拍子概率来确定拍子位置。如图8中所示,拍子分析单元204包括:起始点 (onset)检测单元212、拍子得分计算单元214、拍子搜索单元216、恒定速度判定单元218、针对恒定速度的拍子重新搜索单元220、拍子确定单元222和速度修正单元224。各帧的拍子概率从拍子概率计算单元202输入起始点检测单元212、拍子得分计算单元214和速度修正单元224。
起始点检测单元212基于从拍子概率计算单元202输入的拍子概率来检测音频信号中所包括的起始点。这里的起始点是指音频信号中声音产生的时间点。更具体而言,拍子概率在特定阈值以上并且取得极大值的点被称为起始点。例如,在图11中,示出基于针对音频信号所计算出的拍子概率而检测到的起始点的示例。在图11中,与图10(B)一样,在时间轴上用折线示出由拍子概率计算单元202计算出的拍子概率。在图11中所示出的拍子概率曲线图的情况中,取得极大值的点有3个,即,帧F3、F4和F5。其中,有关帧F3和F5,该时间点处的拍子概率在预先给出的特定阈值Th1之上。另一方面,帧F4的时间点处的拍子概率在阈值Th1之下。在这种情况中,两个点,即,帧F3和F5被检测出作为起始点。
这里,参考图12,将简要描述起始点检测单元212的起始点检测处理流程。如图12中所示,首先,起始点检测单元212关于针对各帧计算出的拍子概率,从第一帧开始,顺次对这些帧执行循环(S1322)。然后,起始点检测单元212关于各帧判定拍子概率是否在特定阈值之上(S1324)以及拍子概率是否指示极大值(S1326)。这里,当拍子概率在特定阈值之上并且拍子概率是极大值时,则起始点检测单元212进行到步骤S1328的处理。另一方面,当拍子概率在特定阈值以下,或拍子概率不是极大值时,跳过步骤S1328的处理。在步骤S1328,向起始点位置的列表添加当前时间(或帧编号)(S1328)。然后,当有关所有帧的处理都完成了时,起始点检测处理的循环结束(S1330)。
利用如上所述的由起始点检测单元212进行的起始点检测处理,生成音频信号中所包括的起始点的位置的列表(各个起始点的时间或帧编号的列表)。而且,利用上述起始点检测处理,例如还检测出如图13中所示的起始点的位置。图13与拍子概率相关地示出由起始点检测单元212检测出的起始点的位置。在图13中,在示出拍子概率的折线上方用圆圈示 出由起始点检测单元212检测出的起始点的位置。在图13的示例中,具有阈值Th1之上的拍子概率的极大值被检测出,作为15个起始点。由起始点检测单元212以这种方式检测出的起始点的位置的列表被输出到拍子得分计算单元214。
拍子得分计算单元214针对由起始点检测单元212检测出的各个起始点计算拍子得分,拍子得分指示与形成具有恒定速度(或恒定拍子间隔)的一连串拍子的多个拍子当中的拍子的对应程度。
首先,拍子得分计算单元214设置如图14中所示的所关注起始点。在图14的示例中,在由起始点检测单元212检测到的起始点中,在帧位置Fk(帧编号k)处的起始点被设置为所关注的起始点。此外,涉及与帧位置Fk的距离为特定距离d的整数倍的一连串帧位置Fk-3、Fk-2、Fk-1、Fk、Fk+1、Fk+2和Fk+3。以下,特定距离d称为转移量,并且距离为转移量d的整数倍的帧位置称为转移位置。拍子得分计算单元214将拍子概率已被计算出的帧的群组F中所包括的所有转移位置(...Fk-3,Fk-2,Fk-1,Fk,Fk+1,Fk+2,以及Fk+3...)处的拍子概率的加和作为所关注起始点的拍子得分。例如,当帧位置Fi处的拍子概率是P(Fi)时,所关注起始点的与帧编号k和转移量d相关的拍子得分BS(k,d)由以下等式(7)表示。由以下等式(7)表示的拍子得分BS(k,d)可以说是这样的得分,其指示音频信号的第k帧处的起始点与将转移量d作为拍子间隔的恒定速度相同步的概率。
[等式7]
这里,参考图15,将简要描述拍子得分计算单元214的拍子得分计算处理流程。
如图15中所示,首先,拍子得分计算单元214关于由起始点检测单元212检测到的起始点,从第一起始点开始,针对这些起始点顺次执行循 环(S1342)。此外,拍子得分计算单元214关于所关注的起始点针对所有转移量d中的每一个转移量d执行循环(S1344)。作为循环的对象的转移量d是可以在音乐演奏中使用的所有拍子处的间隔的值。然后,拍子得分计算单元214初始化拍子得分BS(k,d)(即,0被代入拍子得分BS(K,d)中)(S1346)。接着,拍子得分计算单元214针对用于转移所关注起始点的帧位置Fd的转移系数n来执行循环(S1348)。然后,拍子得分计算单元214向拍子得分BS(k,d)顺次添加每个转移位置处的拍子概率P(Fk+nd)(S1350)。然后,当针对所有转移系数n的循环结束时(S1352),拍子得分计算单元214记录所关注的起始点的帧位置(帧编号k)、转移量d和拍子得分BS(k,d)(S1354)。拍子得分计算单元214针对所有起始点的每个转移量重复拍子得分BS(k,d)的计算(S1356,S1358)。
利用如上所述由拍子得分计算单元214进行的拍子得分计算处理,针对由起始点检测单元212检测到的每个起始点,输出跨越多个转移量d的拍子得分BS(k,d)。如图16中所示的拍子得分分布图就是通过上述拍子得分计算处理获得的。该拍子得分分布图使从拍子得分计算单元214输出的拍子得分可视化。在图16中,沿水平轴按时间序列示出由起始点检测单元212检测到的起始点。图16中的垂直轴示出转移量,已针对转移量计算了每个起始点的拍子得分。此外,图中每个点的颜色的浓淡指示在该转移量处、针对该起始点所计算出的拍子得分的水平。在图16中的示例中,在转移量d1的附近,所有起始点的拍子得分都高。当假定以在该转移量d1处的速度来演奏乐曲时,很有可能所检测到的起始点中的许多起始点与拍子对应。由拍子得分计算单元214计算出的拍子得分被输入拍子搜索单元216。
拍子搜索单元216基于由拍子得分计算单元214计算出的拍子得分,搜索示出有可能的速度波动的起始点位置的路径。例如,基于隐马尔科夫模型的Viterbi算法可以用作拍子搜索单元216的路径搜索方法。对于由拍子搜索单元216进行的Viterbi搜索,例如,起始点编号被设为时间轴(水平轴)的单位,而拍子得分计算时使用的转移量被设为观测序列(垂直轴),如图17中示意性所示。拍子搜索单元216搜索连接由时间轴和观 测序列的值分别定义的节点的Viterbi路径。换而言之,拍子搜索单元216将起始点和由拍子得分计算单元214计算拍子得分时所使用的转移量的所有组合中的每一种组合作为目标节点。此外,各个节点的转移量等于针对该节点假定的拍子间隔。因此,以下,各个节点的转移量可以称为拍子间隔。
关于所述节点,拍子搜索单元216沿时间轴顺次选择节点中的任何节点,并且评估由一连串所选择的节点形成的路径。此时,在节点选择中,允许拍子搜索单元216跳过节点。例如,在图17的示例中,在第k-1个起始点之后,跳过第k个起始点而选择第k+1个起始点。这是因为是拍子的起始点和不是拍子的起始点通常混在这些起始点中,并且只好从包括不经过不是拍子的起始点的路径在内的路径中搜索出有可能的路径。
例如,对于路径的评估,可以使用4种评估值,即(1)拍子得分,(2)速度变化得分,(3)起始点移动得分和(4)针对跳过的惩罚。其中,(1)拍子得分是由拍子得分计算单元214针对每个节点计算出的拍子得分。另一方面,对节点间的过渡给出(2)速度变化得分、(3)起始点移动得分和(4)针对跳过的惩罚。在要对节点间的过渡给出的评估值中,(2)速度变化得分是基于经验知识给出的评估值,经验知识通常是乐曲中逐渐波动的速度。因此,过渡前节点处的拍子间隔与过渡后节点处的拍子间隔之间的差越小,对速度变化得分给出的值越高。
这里,参考图18,将详细描述(2)速度变化得分。在图18中,当前选择节点N1。拍子搜索单元216有可能选择节点N2至N5中的任何节点作为下一节点。尽管也可以选择除了N2至N5之外的其它节点,但是为了便于描述,将描述4个节点,即节点N2至N5。这里,当拍子搜索单元216选择节点N4时,由于节点N1与节点N4处的拍子间隔之间没有差,所以将给出最高值作为速度变化得分。另一方面,当拍子搜索单元216选择节点N3或N5时,在节点N1与节点N3或N5处的拍子间隔之间存在差,并且因此给出相对于选择节点N4时较低的速度变化得分。此外,当拍子搜索单元216选择节点N2时,节点N1与节点N2处的拍子间隔之间的差大于节点N3或N5被选择时的差。因此,给出更低的速度得分。
接着,将参考图19,详细描述(3)起始点移动得分。起始点移动得分是根据过渡前后节点的起始点位置之间的间隔是否与过渡前该节点处的拍子间隔相匹配而给出的评估值。在图19(19A)中,当前选择第k个起始点的具有拍子间隔d2的节点N6。并且还示出两个节点N7和N8,作为接下来可能被拍子搜索单元216选择的节点。其中,节点N7是第k+1个起始点的节点,并且第k个起始点与第k+1个起始点之间的间隔(例如,帧编号之间的差)是D7。另一方面,节点N8是第k+2个起始点的节点,并且第k个起始点与第k+2个起始点之间的间隔是D8。
这里,当假定路径上的所有节点都成功与恒定速度中的拍子位置对应的理想路径时,相邻节点的起始点位置之间的间隔是各个节点处的拍子间隔的整数倍(当无休止符时是相同间隔)。因此,如图19(19B)中所示,关于当前节点N6,起始点位置之间的间隔越接近节点N6处的拍子间隔d2的整数倍,给出越高的起始点移动得分。在图19(19B)的示例中,由于节点N6和N8之间的间隔D8比节点N6和N7之间的间隔D7更接近节点N6处的拍子间隔d2的整数倍,所以,对从节点N6至节点N8的过渡给出更高的起始点移动得分。
接着,参考图20,详细描述(4)针对跳过的惩罚。针对跳过的惩罚是用于在节点间的过渡中约束起始点的过多跳过的评估值。因此,在一次过渡中跳过越多起始点则得分越低,而在一次过渡中跳过越少起始点则得分越高。这里,越低的得分意味着越高的惩罚。在图20的示例中,选择第k个起始点的节点N9作为当前节点。并且,在图20的示例中,还示出3个节点N10、N11和N12作为接下来可能被拍子搜索单元216选择的节点。节点N10是第k+1个起始点的节点,节点N11是第k+2个起始点的节点,而节点N12是第k+3个起始点的节点。
因此,在从节点N9至节点N10的过渡的情况中,没有跳过节点。另一方面,在从节点N9至节点N11的过渡的情况中,跳过第k+1个起始点。此外,在从节点N9至节点N12的过渡的情况中,跳过第k+1个和第k+2个起始点。因此,针对跳过的惩罚在从节点N9至节点N10的过渡的情况中取得相对高的值,在从节点N9至节点N11的过渡的情况中取得中 间值,并且在从节点N9至节点N12的过渡的情况中取得低值。因此,在路径搜索时,可以防止过多数目的起始点被跳过从而使得节点之间的间隔恒定的现象。
此前,已经描述了用于评估由拍子搜索单元216搜索出的路径的4个评估值。使用图17描述的路径评估是关于所选择的路径,通过将对各个节点给出的或针对路径中所包括的节点间的过渡所给出的上述(1)至(4)的评估值彼此顺次相乘来执行的。拍子搜索单元216确定所有可以设想到的路径中评估值的乘积最大的路径作为最优路径。例如,在图21中示出以这种方式确定的路径。图21示出由拍子搜索单元216确定为最优路径的Viterbi路径的示例。在图21的示例中,在图16中示出的拍子得分分布图中用点线描画出由拍子搜索单元216确定的最优路径的轮廓。在图21的示例中,可见,由拍子搜索单元216针对其执行了搜索的乐曲的速度以拍子间隔d3为中心波动。此外,由拍子搜索单元216确定的最优路径(该最优路径中所包括的节点的列表)被输入恒定速度判定单元218、针对恒定速度的拍子重新搜索单元220和拍子确定单元222。
恒定速度判定单元218判定由拍子搜索单元216确定的最优路径是否指示具有低的拍子间隔(这些拍子间隔是针对各个节点假定的拍子间隔)方差的恒定速度。首先,恒定速度判定单元218计算从拍子搜索单元216输入的最优路径中所包括的节点处的一组拍子间隔的方差。然后,当所计算出的方差小于预先给定的特定阈值时,恒定速度判定单元218判定速度是恒定的;并且当所计算出的方差大于该特定阈值时,恒定速度判定单元218判定速度不是恒定的。例如,由恒定速度判定单元218判定的速度如图22中所示。
例如,在图22(22A)的示例中,用点线描画出轮廓的最优路径中起始点位置的拍子间隔根据时间变化。利用这样的路径,可以判定速度不是恒定的,作为由恒定速度判定单元218进行的与阈值相关的判定的结果。另一方面,在图22(22B)的示例中,由点线描画出轮廓的最优路径中的起始点位置的拍子间隔在整个乐曲中几乎恒定。可以判定这样的路径是恒定的,作为由恒定速度判定单元218进行的与阈值相关的判定的结果。以 这种方式获得的、由恒定速度判定单元218进行的与阈值相关的判定的结果被输出给针对恒定速度的拍子重新搜索单元220。
当由拍子搜索单元216提取的最优路径被恒定速度判定单元218判定为指示恒定速度时,针对恒定速度的拍子重新搜索单元220重新执行路径搜索,将作为搜索对象的节点限制为仅最经常出现的拍子间隔周围的那些节点。例如,针对恒定速度的拍子重新搜索单元220通过图23中所示的方法执行对路径的重新搜索处理。此外,与图17一样,针对恒定速度的拍子重新搜索单元220针对以节点间隔为观测序列、沿时间轴(起始点编号)的一组节点来执行对路径的重新搜索处理。
例如,假定要被拍子搜索单元216确定为最优路径的路径中所包括的节点处的拍子间隔的众数是d4,并且该路径的速度被恒定速度判定单元218确定为是恒定的。在这种情况中,针对恒定速度的拍子重新搜索单元220仅将拍子间隔d满足d4-Th2≤d≤d4+Th2(Th2是特定阈值)的那些节点作为搜索对象来再次搜索路径。在图23的示例中,针对第k个起始点示出5个节点N12至N16。其中,关于针对恒定速度的拍子重新搜索单元220,N13至N15处的拍子间隔被包括在搜索范围(d4-Th2≤dd4+Th2)内。相对地,N12和N16处的拍子间隔未被包括在上述搜索范围内。因此,关于第k个起始点,仅3个节点N13至N15成为由针对恒定速度的拍子重新搜索单元220进行的路径搜索重新执行的对象。
此外,由针对恒定速度的拍子重新搜索单元220进行的路径重新搜索处理的流程与由拍子搜索单元216进行的路径搜索处理相似,不同在于成为搜索对象的节点的范围不同。根据如上所述由针对恒定速度的拍子重新搜索单元220进行的路径重新搜索处理,关于具有恒定速度的乐曲,可以减少路径搜索的结果中可能局部发生的与拍子位置相关的错误。由针对恒定速度的拍子重新搜索单元220确定的最优路径被输出给拍子确定单元222。
拍子确定单元222基于由拍子搜索单元216确定的最优路径或由针对恒定速度的拍子重新搜索单元220重新确定的最优路径,以及基于路径中所包括的各个节点处的拍子间隔,确定音频信号中所包括的拍子位置。例 如,拍子确定单元222通过如图24中所示的方法来确定拍子位置。在图24(24A)中,示出由起始点检测单元212获得的起始点检测结果的示例。在该示例中,示出由起始点检测单元212检测到的在第k个起始点附近的14个起始点。相比之下,图24(24B)示出了由拍子搜索单元216或针对恒定速度的拍子重新搜索单元220确定的最优路径中所包括的起始点。在24B的示例中,24A中所示出的14个起始点中,第k-7个起始点、第k个起始点和第k+6个起始点(帧编号Fk-7、Fk、Fk+6)被包括在最优路径中。此外,第k-7个起始点处的拍子间隔(等同于对应节点处的拍子间隔)是dk-7,并且第k个起始点处的拍子间隔是dk。
关于这样的起始点,首先,拍子确定单元222将最优路径中所包括的起始点的位置作为乐曲的拍子位置。然后,拍子确定单元222根据各个起始点处的拍子间隔,在最优路径中所包括的相邻起始点之间配设补充拍子。此时,拍子确定单元222首先确定用来在最优路径上彼此相邻的起始点之间配设拍子的补充拍子数目。例如,如图25中所示,拍子确定单元222取两个相邻起始点的位置为Fh和Fh+1,并且起始点位置Fh处的拍子间隔是dh。在这种情况中,在Fh和Fh+1之间所要配设的补充拍子的数目Bfill由以下等式(8)给出。
[等式8]
这里,Round(...)指示“...”被四舍五入为最接近的整数。根据以上等式(8),拍子确定单元222所要配设的补充拍子的数目将是通过以下方式得到的数:相邻起始点之间的间隔除以拍子间隔得到的值四舍五入为最接近的整数,并且之后考虑栅栏柱问题从所得到的整数中减去1。
接着,拍子确定单元222用所确定的拍子数目,在最优路径上彼此相邻的起始点之间配设补充拍子,使得这些拍子以相等的间隔排列。在图24 (24C)中,示出配设了补充拍子之后的起始点。在24C的示例中,在第k-7个起始点和第k个起始点之间配设了两个补充拍子,并且在第k个起始点与第k+6个起始点之间配设两个补充拍子。应当注意,由拍子确定单元222提供的补充拍子的位置不一定与由起始点检测单元212检测到的起始点的位置对应。利用这样的配置,可以确定拍子的位置而不受该拍子位置之外处产生的声音的影响。此外,即使在拍子位置处有休止符而没有声音产生的情况中,也可以恰当地把握拍子位置。由拍子确定单元222按此方式确定的拍子位置列表(包括最优路径上的起始点和由拍子确定单元222配设的补充拍子)输出给速度修正单元224。
速度修正单元224修正由拍子确定单元222所确定的拍子位置指示的速度。修正前的速度有可能是乐曲原始速度的常数倍,例如2倍、1/2倍、3/2倍等(参考图26)。因此,速度修正单元224对被错误地把握为常数倍的速度进行修正并且再现乐曲的原始速度。这里,参考图26的示例,其示出由拍子确定单元222确定的拍子位置的样式。在图26的示例中,在图中所示出的时间范围中,对于样式26A,包括6个拍子。相比之下,对于样式26B,在相同时间范围内包括12个拍子。即,以样式26A的拍子位置作为基准,样式26B的拍子位置指示2倍速度。
另一方面,对于样式26C-1,在相同时间范围内包括3个拍子。即,以样式26A的拍子位置作为基准,样式26C-1指示1/2倍速度。并且,对于样式26C-2,与样式26C-1一样,在相同时间范围内包括3个拍子,并且因此以样式26A的拍子位置作为基准,指示1/2倍速度。然而,26C-1和26C-2彼此不同在于在从基准速度改变速度时将保留的拍子位置不同。由速度修正单元224执行的速度修正例如是通过以下过程(S1)至(S3)来执行的。
(S1)确定基于波形所估计出的估计速度
(S2)确定多个乘子中的最优基本乘子
(S3)重复(S2)直到基本乘子为1为止
首先,将对(S1)确定基于波形所估计出的估计速度进行说明。首先,速度修正单元224从音频信号的波形中出现的声音特征中确定被估计 为足够的估计速度。例如,特征量计算公式生成设备10或通过JP-A-2008-123011中所公开的学习算法生成的、用于估计速度辨别的计算公式(估计速度辨别公式)被用于估计速度的确定。例如,如图27中所示,多首乐曲的对数谱被提供给特征量计算公式生成设备10,作为评估数据。在图27的示例中,提供对数谱LS1至LSn。此外,提供由正在收听乐曲的人判定为正确的速度作为教师数据。在图27的示例中,提供各个对数谱的正确速度(LS1:100,...,LSn:60)。估计速度辨别公式是基于多组这样的评估数据和教师数据来生成的。速度修正单元224通过使用所生成的估计速度辨别公式来计算所处理的乐曲的估计速度。
接着,将对(S2)确定多个乘子中的最优基本乘子进行说明。速度修正单元224从多个基本乘子中确定使得修正后的速度与乐曲的原始速度最接近的基本乘子。这里,该基本乘子是作为用于速度修正的常数比的基本单位的乘子。例如,七种乘子(即,1/3、1/2、2/3、1、3/2、2和3)中的任何一种被用作该基本乘子。然而,本实施例的应用范围不限于这些示例,并且基本乘子例如可以是五种乘子(即,1/3、1/2、1、2和3)中的任何一种。为了确定最优基本乘子,速度修正单元224首先在用各个基本乘子修正拍子位置之后计算平均拍子概率。然而,在基本乘子为1的情况中,平均拍子概率是针对拍子位置未被修正的情况来计算的。例如,平均拍子概率是由速度修正单元224通过如图28中所示的方法针对各个基本乘子来计算的。
在图28中,在时间轴上用折线示出由拍子概率计算单元202计算出的拍子概率。此外,在水平轴上示出根据这些乘子中的任何一个修正的3个拍子的帧编号Fh-1、Fh和Fh+1。这里,当帧编号Fh处的拍子概率是BP(h)时,根据乘子r修正的拍子位置的群组F(r)的平均拍子概率BPAVG(r)由以下等式(9)给出。这里,m(r)是群组F(r)中所包括的帧编号的个数。
[等式9]
如使用图26的样式26C-1和26C-2所描述的,在基本乘子为1/2的情况中,对于拍子位置存在两种候选。在这种情况中,速度修正单元224针对拍子位置的这两种候选中的每一种计算平均拍子概率BPAVG(r),并且采用具有较高平均拍子概率BPAVG(r)的拍子位置作为根据乘子r=1/2修正的拍子位置。类似地,在乘子r为1/3的情况中,对于拍子位置存在三种候选。因此,速度修正单元224针对拍子位置的这三种候选中的每一种计算平均拍子概率BPAVG(r),并且采用具有最高平均拍子概率BPAVG(r)的拍子位置作为根据乘子r=1/3修正的拍子位置。
在针对各个基本乘子计算了平均拍子概率之后,速度修正单元224基于估计速度和平均拍子概率来针对各个基本乘子计算修正后速度的似然(以下,称为速度似然)。速度似然可以由以估计速度为中心的高斯分布示出的速度概率与平均拍子概率的乘积来表示。例如,由速度修正单元224计算如图29中所示的速度似然。
在图29(29A)中示出由速度修正单元224针对各个乘子计算出的平均拍子概率。并且,图29(29B)示出高斯分布形式的速度概率,该高斯分布由预先给出的特定方差σ1确定并且以由速度修正单元224基于音频信号的波形估计出的估计速度为中心。此外,图29中的29A和29B的水平轴表示拍子位置根据各个乘子被修正之后,速度的对数。速度修正单元224针对基本乘子中的每个基本乘子,通过将平均拍子概率与速度概率彼此相乘来计算29C中所示的速度似然。在图29的示例中,尽管平均拍子概率对于基本乘子是1时和其为1/2时几乎是相同的,但是被修正为1/2倍的速度与估计速度更接近(速度概率高)。因此,对于被修正为1/2倍的速度,所计算出的速度似然更高。速度修正单元224以这种方式计算速 度似然,并且确定产生最高速度似然的基本乘子,作为使得修正后的速度最接近乐曲的原始速度的基本乘子。
以这种方式,通过在有可能的速度的确定中考虑可以从估计速度获得的速度概率,可以从候选中精确地确定恰当的速度,这些候选是具有常数倍关系并且基于声音的局部波形难以相互辨别的速度。当速度被以这种方式修正之后,速度修正单元224执行(S3)重复(S2)直到基本乘子为1为止。具体而言,由速度修正单元224针对各个基本乘子重复平均拍子概率的计算和速度似然的计算,直到产生最高速度似然的基本乘子是1为止。结果,即使速度修正单元224的修正之前的速度是乐曲的原始速度的的1/4倍、1/6倍、4倍、6倍等,该速度也可以用通过基本乘子的组合获得的用于修正的恰当乘子(例如,1/2倍×1/2倍=1/4倍)来修正。
这里,参考图30,将简要描述速度修正单元224的修正处理流程。如图30中所示,首先,速度修正单元224通过使用由特征量计算公式生成设备10预先获得的估计速度辨别公式来从音频信号中确定估计速度(S1442)。接着,速度修正单元224针对多个基本乘子(例如,1/3、1/2等)来顺次执行循环(S1444)。在循环内,速度修正单元224根据各个基本乘子来改变拍子位置并且修正速度(S1446)。接着,速度修正单元224计算修正后的拍子位置的平均拍子概率(S1448)。接着,速度修正单元224基于在S1448处计算出的平均拍子概率和在S1442处确定的估计速度来针对各个基本乘子计算速度似然(S1450)。
然后,当该循环对于所有基本乘子都完成了时(S1452),速度修正单元224确定产生最高速度似然的基本乘子(S1454)。然后,速度修正单元224判定产生最高速度似然的基本乘子是否是1(S1456)。如果产生最高速度似然的基本乘子是1,则速度修正单元224结束修正处理。另一方面,当产生最高速度似然的基本乘子不是1时,速度修正单元224返回步骤S1444的处理。从而,基于根据产生最高速度似然的基本乘子修正后的速度(拍子位置),再次执行根据基本乘子中的任何一个的速度修正。
以上,已经描述了拍子检测单元132的配置。利用上述处理,如图31中所示的拍子位置的检测结果从拍子检测单元132被输出。拍子检测单元 132的检测结果被输入结构分析单元134,并且用于音乐结构分析。
(2-4-2.结构分析单元134的配置)
接着,将描述结构分析单元134的配置。如图32中所示,结构分析单元134输入来自对数谱分析单元108的对数谱和来自拍子分析单元204的拍子位置。结构分析单元134基于对数谱和拍子位置来计算音频信号中所包括的拍子区间之间声音的类似概率。如图32中所示,结构分析单元134包括拍子区间特征量计算单元226、相关计算单元228和类似概率生成单元230。
拍子区间特征量计算单元226关于由拍子分析单元204检测到的各个拍子来计算拍子区间特征量,拍子区间特征量表示从该拍子到下一个拍子的拍子区间的局部对数谱的特征。这里,参考图33,将简要描述拍子、拍子区间和拍子区间特征量之间的关系。在图33中示出由拍子分析单元204检测到的6个拍子位置B1至B6。在该示例中,该拍子区间是通过在拍子位置处划分音频信号所获得的区间,并且指示从一个拍子到下一个拍子之间的区间。例如,拍子区间BD1是从拍子B1至拍子B2的区间,拍子区间BD2是从拍子B2至拍子B3的区间,并且拍子区间BD3是从拍子B3至拍子B4的区间。此外,拍子区间特征量计算单元226从与各个拍子区间BD1至BD6相对应的局部对数谱中计算各个拍子区间特征量BF1至BF6。
拍子区间特征量计算单元226通过如图34和图35中所示的方法来计算拍子区间特征量。在图34(34A)中,示出与由拍子区间特征量计算单元226截取的拍子对应的拍子区间BD的局部对数谱。拍子区间特征量计算单元226对局部对数谱的各个音调(八度音阶的数目×12个音符)的能量进行时间平均。通过该时间平均,计算各个音调的平均能量。在图34(34B)中示出由拍子区间特征量计算单元226计算出的各个音调的平均能量水平。
接着,将参考图35。在图35(35A)示出与图34(34B)中所示一样的各个音调的平均能量水平。拍子区间特征量计算单元226针对12个音符,对若干个八度音阶中不同八度音阶中具有相同名称的音符的平均能量 的值求加权和,并且计算相应12个音符的能量。例如,在图35的35B和35C中所示的示例中,使用特定的权重(W1,W2,...,Wn)对n个八度音阶上的音符C(C1,C2,...,Cn)的平均能量求加权和,并且计算出音符C的能量值EnC。此外,以相同的方式,通过使用特定的权重(W1,W2,...,Wn)对n个八度音阶上的音符B(B1,B2,...,Bn)的平均能量求加权和,并且计算出音符B的能量值EnB。对于音符C和弦符B之间的10个音符(C#至A#)同样如此。结果,生成了将相应12个音符的能量值ENC,ENC#,...,ENB作为元素的12维向量。拍子区间特征量计算单元226针对每个拍子计算这样的相应12个音符的能量(12维向量)作为拍子区间特征量BF,并且将它输入相关计算单元228。
用于加权和计算的各个八度音阶的权重W1,W2,...,Wn的值优选在普通乐曲的旋律或和弦清楚的中音域中较大。该配置使得能够在更清楚地反映旋律或和弦的特征的情况下对乐曲结构进行分析。
相关计算单元228针对音频信号中所包括的所有拍子区间对,通过使用从拍子区间特征量计算单元226输入的拍子区间特征量(各个拍子区间的相应12个音符的能量)来计算拍子区间之间的相关系数。例如,相关计算单元228通过如图36中所示的方法来计算相关系数。在图36中,示出第一所关注拍子区间BDi和第二所关注拍子区间BDj作为要计算相关系数的一对拍子区间的示例,拍子区间是通过划分对数谱获得的。
例如,为了计算这两个所关注区间之间的相关系数,相关计算单元228首先获得第一所关注拍子区间BDi以及前后N个区间(也称为“2N+1个区间”)(在图36的示例中,N=2,总共5个区间)的相应12个音符的能量。同样地,相关计算单元228获得第二所关注拍子区间BDj以及前后N个区间的相应12个音符的能量。然后,相关计算单元228计算所获得的第一所关注拍子区间BDi以及前后N个区间的相应12个音符的能量与所获得的第二所关注拍子区间BDj以及前后N个区间的相应12个音符的能量之间的相关系数。相关计算单元228针对所有的第一所关注拍子区间BDi和第二所关注拍子区间BDj对来计算所述相关系数,并且向类似概率生成单元230输出计算结果。
类似概率生成单元230通过使用预先生成的变换曲线,将从相关计算单元228输入的、拍子区间之间的相关系数变换成类似概率。类似概率指示拍子区间的声音内容之间的相类似程度。将相关系数变换成类似概率时所使用的变换曲线例如如图37中所示。
在图37(37A)中示出预先获得的两种概率分布。这两种概率分布是具有相同声音内容的拍子区间之间的相关系数的概率分布和具有不同声音内容的拍子区间之间的相关系数的概率分布。从图37(37A)中可见,相关系数越低,声音内容彼此相同的概率越低,并且相关系数越高,声音内容彼此相同的概率越高。因此,可以预先生成如图37(37B)中所示、用于从相关系数中导出拍子区间之间的类似概率的变换曲线。类似概率生成单元230通过使用以这种方式预先生成的变换曲线,将从相关计算单元228输入的相关系数CO1例如变换成类似概率SP1。
已被变换出的类似概率例如可以如图38那样被可视化。图38的垂直轴对应于第一所关注拍子区间中的位置,并且水平轴对应于第二所关注拍子区间中的位置。此外,二维平面上所画出的颜色的浓淡指示该坐标处第一所关注拍子区间与第二所关注拍子区间之间的类似概率程度。例如,第一所关注拍子区间i1与和第一所关注拍子区间i1基本相同的第二所关注拍子区间j1之间的类似概率自然显示高值,并且示出这些拍子区间具有相同的声音内容。当被演奏的乐曲部分到达第二所关注拍子区间j2时,第一所关注拍子区间i1与第二所关注拍子区间j2之间的类似概率再次显示高值。即,可以看出,在第二所关注拍子区间j2中,很有可能正在演奏与第一所关注拍子区间i1的声音内容几乎相同的声音内容。由结构分析单元134以这种方式获得的拍子区间之间的类似概率被输入稍后描述的小节线检测单元140和和弦进行检测单元142。
此外,在本实施例中,由于拍子区间中的能量的时间平均被用于拍子区间特征量的计算,所以,对于由结构分析单元134进行的乐曲结构分析,不考虑拍子区间中的对数谱中有关时间变化的信息。即,即使在两个区间中演奏相同的旋律而该旋律(例如,由于演奏者的编排)在时间上彼 此偏移时,所演奏的内容仍被判定为相同,只要该偏移仅发生在拍子区间内即可。
当拍子区间之间的类似概率是以这种方式被计算出的时,结构分析单元134划分具有高类似概率的拍子区间中的音乐数据,并且分析各个划分出的区间的音乐结构。例如,JP-A-2007-156434中所公开的技术可以用于音乐结构分析方法。首先,结构分析单元134针对每个划分出的区间来提取特定特征量。这里所要提取的特征量例如可以是各个划分出的区间的音量、与声源有关的信息、频率的平衡、乐器声音的数目、各种乐器声音的比例等。此外,具有高类似概率的拍子区间的出现、重复等的次数称为各个划分出的区间的特征量。通过学习算法进行的学习处理是针对特征量来执行的,并且用于从各个划分出的区间的对数谱中计算音乐结构的计算公式被生成。
在进行学习处理时,例如,副歌部分的局部对数谱被提供给学习算法作为评估数据,并且指示副歌部分的判决值被提供作为教师数据。而且对于序曲部分、插曲部分、A旋律部分、B旋律部分等,通过提供各个部分的对数谱作为评估数据并且提供指示各个部分的判决值作为教师数据,可以获得用于计算各个部分的判决值或判决概率的计算公式。结构分析单元134将局部对数谱输入所生成的计算公式并且提取各个划分出的区间的音乐结构。结果,获得如图39中所示的音乐结构的分析结果。以这种方式获得的音乐结构的分析结果被存储在元数据存储单元112中。此外,在图39中,Intro指示序曲部分,Verse A指示A旋律部分。并且,Chorus指示副歌部分。在图39的示例中,可见,Intro从时间0ms开始,而副歌从时间72595ms开始。
(2-4-3.和弦概率检测单元136)
接着,将描述和弦概率检测单元136。和弦概率检测单元136计算由拍子分析单元204检测到的各个拍子的拍子区间中各种和弦被演奏的概率(以下,称为和弦概率)。由和弦概率检测单元136计算出的和弦概率用于基调检测单元138的基调检测处理。此外,如图40所示,和弦概率检 测单元136包括拍子区间特征量计算单元232、根音特征量准备单元234和和弦概率计算单元236。
如上所述,对数谱和有关由拍子检测单元132检测到的拍子位置的信息被输入和弦概率检测单元136。因此,拍子区间特征量计算单元232关于由拍子分析单元204检测到的各个拍子来计算相应12个音符的能量,作为表示拍子区间中的音频信号的特征的拍子区间特征量。拍子区间特征量计算单元232计算作为拍子区间特征量的相应12个音符的能量,并且将其输出给根音特征量准备单元234。根音特征量准备单元234基于从拍子区间特征量计算单元232输入的相应12个音符的能量来生成根音特征量,根音特征量用于各个拍子区间的和弦概率计算。例如,根音特征量准备单元234通过图41和图42中所示的方法来生成根音特征量。
首先,根音特征量准备单元234针对所关注拍子区间BDi,提取所关注拍子区间BDi以及前后N个区间的相应12个音符的能量(参考图41)。所关注拍子区间BDi以及前后N个区间的相应12个音符的能量可以被认为是将音符C作为和弦的根音(基音)的特征量。在图41的示例中,由于N为2,所以提取出用音符C作为根音的5个区间的根音特征量(12×5维)。接着,根音特征量准备单元234,通过将用音符C作为根音的5个区间的根音特征量的12个音符的元素位置转移特定数目,生成11个单独的根音特征量,每个根音特征量针对5个区间并且每个根音特征量将音符C#至音符B的任何音符作为根音(参考图41)。此外,元素位置被转移的转移数是:在音符C#为根音的情况下为1,在音符D为根音的情况下为2,……,并且在音符B为根音的情况下为11。结果,由根音特征量准备单元234针对相应12个音符生成了根音特征量(分别为,12×5维),每个根音特征量将从音符C至音符B的12个音符中的一个作为根音。
根音特征量准备单元234针对所有拍子区间执行如上所述的根音特征量生成处理,并且准备用于各个区间的和弦概率计算的根音特征量。此外,在图41和图42的示例中,备用于一个拍子区间的特征量是12×5×12维向量。由根音特征量准备单元234生成的根音特征量被输入和弦概率计 算单元236。和弦概率计算单元236通过使用从根音特征量准备单元234输入的根音特征量,针对各个拍子区间来计算指示各种和弦被演奏的概率的和弦概率。这里的“各种和弦”是指例如基于根音(C,C#,D,...)、构成音符的数目(三和弦(triad)、七和弦(7th chord)、九和弦(9thchord))、调性(大调/小调)等来区分的和弦中的各种和弦。例如,通过逻辑回归分析预先习得的和弦概率公式可以用于和弦概率的计算。
例如,和弦进行计算单元236通过图43中所示的方法来生成用于和弦概率计算的和弦概率公式。和弦概率公式是针对每种和弦执行的。即,针对用于大和弦的和弦概率公式、用于小和弦的和弦概率公式、用于七和弦的和弦概率公式和用于九和弦的和弦概率公式中的每一个,执行以下描述的学习处理。
首先,提供多个根音特征量(例如,用图42描述的12×5×12维向量)作为用于逻辑回归分析的独立变量,每个根音特征量是针对正确和弦已知的拍子区间的。此外,针对各个拍子区间的根音特征量中的每一个,提供用于通过逻辑回归分析预测生成概率的哑元数据。例如,当学习用于大和弦的和弦概率公式时,如果已知的和弦是大和弦,则哑元数据的值将为真值(1),并且对于任何其它情况,哑元数据的值为假值(0)。并且,当学习用于小和弦的和弦概率公式时,如果已知的和弦是小和弦,则哑元数据的值将为真值(1),并且对于任何其它情况,哑元数据的值为假值(0)。可以说,对于七和弦和九和弦也是如此。
通过使用上述独立变量和哑元数据来对足够数目的根音特征量(每个根音特征量针对一个拍子区间)执行逻辑回归分析,生成了用于从各个拍子区间的根音特征量计算出和弦概率的和弦概率公式。然后,和弦概率计算单元236将从根音特征量准备单元234输入的根音特征量应用于所生成的和弦概率公式,并且针对各个拍子区间顺次计算各种和弦的和弦概率。由和弦进行计算单元236进行的和弦概率计算处理例如是通过如图44中所示的方法来执行的。在图44(44A)中,示出各个拍子区间的根音特征量中,用音符C作为根音的根音特征量。
例如,和弦概率计算单元236将用于大和弦的和弦概率公式应用于用音符C作为根音的根音特征量,并且针对各个拍子区间计算和弦为“C”的和弦概率CPC。此外,和弦概率计算单元236将用于小和弦的和弦概率公式应用于用音符C作为根音的根音特征量,并且针对该拍子区间计算和弦为“Cm”的和弦概率CPCm。以类似的方式,和弦概率计算单元236可以将用于大和弦的和弦概率公式和用于小和弦的和弦概率公式应用于用音符C#作为根音的根音特征量,并且可以计算和弦“C#”的和弦概率CPC#和和弦“C#m”的和弦概率CPC#m(44B)。以相同方式计算和弦“B”的和弦概率CPB和和弦“Bm”的和弦概率CPBm(44C)。
如图45中所示的和弦概率是由和弦进行计算单元236通过上述方法计算出的。参考图45,针对某一拍子区间,计算从音符C至音符B的12种音符中每一种音符的各种和弦的和弦概率,这些和弦例如是例如“Maj(大和弦)”、“m(小和弦)”、“7(七和弦)”和“m7(小七和弦)”。根据图45的示例,和弦概率CPC是0.88,CPCm是0.08,CPC7是0.01,和弦概率CPcm7是0.02并且CPB是0.01。其它和弦概率值都指示0。此外,在以上述方式计算多种和弦的和弦概率之后,和弦概率计算单元236以使得每拍子区间的所计算出的概率值的总和变成1的方式对概率值进行归一化。针对音频信号中所包括的所有拍子区间重复如上所述由和弦概率计算单元236进行的和弦概率的计算和归一化处理。
和弦概率是如上所述由和弦概率检测单元136通过拍子区间特征量计算单元232、根音特征量准备单元234和和弦进行计算单元236的处理来计算出的。然后,由和弦概率检测单元136计算出的和弦概率被输入基调检测单元138。
(2-4-4.基调检测单元138的配置)
接着,将描述基调检测单元138的配置。如上所述,由和弦概率检测单元136计算出的和弦概率被输入基调检测单元138。基调检测单元138是用于通过使用由和弦概率检测单元136针对各个拍子区间计算出的和弦概率来检测各个拍子区间的基调(调性/基本音阶)的装置。如图46中所 示,基调检测单元138包括:相对和弦概率生成单元238、特征量准备单元240、基调概率计算单元242和基调确定单元246。
首先,和弦概率从和弦概率检测单元136输入相对和弦概率生成单元238。相对和弦概率生成单元238根据从和弦概率检测单元136输入的和弦概率,生成用于针对各个拍子区间的基调概率计算的相对和弦概率。例如,相对和弦概率生成单元238通过如图47中所示的方法来生成相对和弦概率。首先,相对和弦概率生成单元238首先从某一所关注的拍子区间的和弦概率中提取出有关大和弦和小和弦的和弦概率。这里所提取的和弦概率值被表示为总共24维的向量,即,大和弦的12个音符和小和弦的12个音符。以下,包括这里所提取出的和弦概率的24维向量将被视为将音符C假定为基调的相对和弦概率。
接着,相对和弦概率生成单元238,将所提取出的大和弦和小和弦的和弦概率值的12个音符的元素位置转移特定数目。通过以这种方式进行转移,生成11个单独的相对和弦概率。此外,元素位置被转移的转移数与如使用图42所述生成根音特征量时的转移数相同。以这种方式,由相对和弦概率生成单元238生成12个单独的相对和弦概率,每个相对和弦概率假定从音符C至音符B的12个音符中的一个作为基调。相对和弦概率生成单元238针对所有拍子区间执行如上所述的相对和弦概率生成处理,并且向特征量准备单元240输出所生成的相对和弦概率。
特征量准备单元240生成要用于各个拍子区间的基调概率计算的特征量。根据从相对和弦概率生成单元238输入到特征量准备单元240的相对和弦概率所生成的各个拍子区间的和弦出现得分和和弦过渡出现得分被用作特征量准备单元240所要生成的特征量。
首先,特征量准备单元240通过如图48中所示的方法生成各个拍子区间的和弦出现得分。首先,特征量准备单元240假定音符C作为基调,针对所关注的拍子区间以及前后M个拍子区间来提供相对和弦概率CP。然后,特征量准备单元240将所关注的拍子区间以及前后M个拍子区间上相同位置处的元素的概率值进行加和,这些概率值被包括在假定音符C作为基调的相对和弦概率中。结果,获得了与各种和弦的出现概率一致的和 弦出现得分(CEC,CEC#,...,CEBm)(24维向量),出现概率是针对所关注的拍子区间和所关注的拍子区间周围的多个拍子区间的并且是假定音符C作为基调的。特征量准备单元240针对假定从音符C至音符B的12个音符中的一个作为基调的每种情况,执行上述和弦出现得分计算。根据该计算,对于一个所关注的拍子区间,获得12个单独的和弦出现得分。
接着,特征量准备单元240通过如图49中所示的方法来生成各个拍子区间的和弦过渡出现得分。首先,特征量准备单元240关于拍子区间BDi与相邻拍子区间BDi+1之间的所有和弦对(所有和弦过渡),将和弦过渡前后的相对和弦概率彼此相乘,这些相对和弦概率假定音符C作为基调。这里,“所有的和弦对”是指24×24对,即,“C”→“C”、“C”→“C#”、“C”→“D”、……“B”→“B”。接着,特征量准备单元240针对整个所关注的拍子区间和前后M个区间,对和弦过渡前后的相对和弦概率的相乘结果进行加和。结果,获得了与各种和弦过渡的出现概率一致的24×24维和弦过渡出现得分(24×24维向量),出现概率是针对所关注的拍子区间和所关注的拍子区间周围的多个拍子区间的并且是假定音符C作为基调的。例如,对于所关注的拍子区间BDi,有关从“C”至“C#”的和弦过渡的和弦过渡出现得分CTC→C#(i)由以下等式(10)给出。
[等式10]
CTC→C#(i)=CPC(i-M)·CPC#(i-M+1)+…+CPC(i+M)·CPC#(i+M+1)...(10)
以这种方式,特征量准备单元240针对假定从音符C至音符B的12种音符中的一种音符作为基调的每种情况,执行上述24×24次单独的和弦过渡出现得分CT计算。根据该计算,对于一个所关注的拍子区间,获得12个单独的和弦过渡出现得分。此外,与倾向于因各个小节而变化的和弦不同,例如,在许多情况下,乐曲的基调通常在较长一段时间保持不变。因此,对要用于和弦出现得分或和弦过渡出现得分的计算的相对和弦概率 的范围进行定义的M的值例如是可以包括许多小节(例如,几十个拍子)的合适的值。特征量准备单元240向基调概率计算单元242输入针对各个拍子区间计算出的24维和弦出现得分CE和24×24维和弦过渡出现得分,作为用于计算基调概率的特征量。
基调概率计算单元242通过使用从特征量准备单元240输入的和弦出现得分和和弦过渡出现得分,来针对各个拍子区间计算基调概率,基调概率指示各种基调被演奏的概率。“各种基调”是指例如基于12个音符(C,C#,D,...)或调性(大调/小调)来区分的基调。例如,通过逻辑回归分析预先习得的基调概率公式可以用于基调概率计算。例如,基调概率计算单元242通过如图50中所示的方法来生成用于基调概率计算的基调概率公式。对基调概率公式的学习是针对大调和小调独立执行的。因此,生成大调概率公式和小调概率公式。
如图50中所示,提供正确基调已知的各个拍子小区的多个和弦出现得分和和弦过渡出现得分,作为逻辑回归分析中的独立变量。接着,针对所提供的和弦出现得分和和弦过渡出现得分对中的每一对,提供用于通过逻辑回归分析来预测生成概率的哑元数据。例如,当学习大调概率公式时,如果已知的基调是大调,则哑元数据将为真值(1),并且当是任何其它情况时,哑元数据为假值(0)。并且,当学习小调概率公式时,如果已知的基调是小调,则哑元数据将为真值(1),并且当是任何其它情况时,哑元数据为假值(0)。
通过使用足够数目的独立变量和哑元数据对来执行逻辑回归分析,生成用于从和弦出现得分和和弦过渡出现得分对中计算出大调或小调的概率的基调概率公式。基调概率计算单元242将从特征量准备单元240输入的一对和弦出现得分和和弦过渡出现得分应用于基调概率公式中的每一个,并且针对各个拍子区间顺次计算各种基调的基调概率。例如,基调概率是通过如图51中所示的方法来计算的。
例如,在图51(51A)中,基调概率计算单元242将假定音符C为基调的一对和弦出现得分和和弦过渡出现得分应用于预先通过学习获得的大调概率公式,并且针对各个拍子区间计算基调为“C”的基调概率KPC。 同样,基调概率计算单元242将假定音符C为基调的这一对和弦出现得分和和弦过渡出现得分应用于小调概率公式,并且针对相应拍子区间计算基调为“Cm”的基调概率KPCm。类似地,基调概率计算单元242将假定音符C#为基调的一对和弦出现得分和和弦过渡出现得分应用于大调概率公式和小调概率公式,并且计算基调概率KPC#和KPC#m(51B)。可以说,对基调概率KPB和KPBm的计算同样如此(51C)。
例如,通过这样的计算,计算出如图52中所示的基调概率。参考图52,对于从音符C至音符B的12个音符中的每一个,针对某一拍子区间计算两种基调概率,一种针对“Maj(大调)”并且一种针对“m(小调)”。根据图52的示例,基调概率KPC是0.90,并且基调概率KPCm是0.03。此外,除上述基调概率以外的基调概率值都指示0。在计算了所有类型的基调的基调概率之后,基调概率计算单元242以使得每拍子区间的所计算出的概率值的总和为1的方式对概率值进行归一化。针对音频信号中所包括的所有拍子区间重复如上所述由基调概率计算单元242进行的计算和归一化处理。以这种方式针对各个拍子区间所计算出的基调概率被输入基调确定单元246。
这里,基调概率计算单元242根据针对从音符C至音符B的12种音符中的每一种音符并且针对两种基调(即,大调和小调)所计算出的基调概率来计算出不区分大调和小调的基调概率(简单基调概率)。例如,基调概率计算单元242通过如图53中所示的方法来计算简单基调概率。如图53(53A)中所示,例如,由基调概率计算单元242针对某一拍子区间计算出来的基调概率KPC、KPCm、KPA和KPAm分别是0.90、0.03、0.02和0.05。其它基调概率值全都指示0。基调概率计算单元242,通过针对从音符C至音符B的12种音符中的每一种、对为平行调关系的基调的基调概率值进行加和,来计算不区分大调和小调的简单基调概率。例如,简单基调概率SKPC是基调概率KPC和KPAm的总和,即,SKPC=0.90+0.05=0.95。这是因为C大调(基调“C”)和A小调(基调“Am”)为平行调关系。类似地针对音符C#至音符B执行简单基调概率 值的计算。由基调概率计算单元242计算出的12个单独的简单基调概率SKPC至SKPB被输入基调确定单元246。
现在,基调确定单元246基于由基调概率计算单元242针对各个拍子区间计算出的各个基调的基调概率,通过路径搜索来确定有可能的基调进行。上述Viterbi算法例如被用作由基调确定单元246进行的路径搜索的方法。Viterbi路径的路径搜索例如是通过如图54中所示的方法来执行的。此时,拍子被顺次布置为时间轴(水平轴)并且基调类型被布置为观测序列(垂直轴)。因此,基调确定单元246将所有基调类型与拍子对中的每一对作为路径搜索的对象节点,对于这些拍子,已经由基调概率计算单元242计算出了基调概率。
关于所述节点,基调确定单元246沿时间轴顺次选择这些节点中的任何一个,并且通过使用两个评估值,(1)基调概率和(2)基调过渡概率,来评估由一连串所选择的节点形成的路径。此外,在由基调确定单元246进行对节点的选择时,不允许跳过拍子。这里,要用于评估的(1)基调概率是由基调概率计算单元242计算出的基调概率。对图54中所示的各个节点给出基调概率。另一方面,(2)基调过渡概率是对节点间的过渡给出的评估值。基调过渡概率是基于正确基调已知的乐曲中转调的发生概率,针对各种转调样式预先定义的。
与针对过渡的转调量相应的12个单独的值被定义为以下4种样式的基调过渡中每种样式的基调过渡概率:从大调至大调、从大调至小调、从小调至大调和从小调至小调。图55示出与针对从大调至大调的基调过渡的转调量相应的12个单独的概率值的示例。在图55的示例中,当与转调量Δk有关的基调过渡概率是Pr(Δk)时,Pr(0)为0.9987。这指示乐曲中基调变化的概率很低。另一方面,基调过渡概率Pr(1)为0.0002。这指示基调被升高一个音调(或被降低11个音调)的概率是0.02%。类似地,在图55的示例中,Pr(2)、Pr(3)、Pr(4)、Pr(5)、Pr(7)、Pr(8)、Pr(9)和Pr(10)分别是0.0001。并且,Pr(6)和Pr(11)分别是0.0000。与转调量相应的12个单独的概率值还是针对以下过渡样式中的每种过渡样式而分别定义的:从大调至小调,从小调至大调以及从小调至小调。
基调确定单元246关于表示基调进行的各个路径,将路径中所包括的各个节点的(1)基调概率和对节点间的过渡所给出的(2)基调过渡概率彼此顺次相乘。然后,基调确定单元246确定使得作为路径评估值的相乘结果最大的路径,作为表示有可能的基调进行的最优路径。例如,如图56中所示的基调进行是由基调确定单元246确定的。在图56中,在从乐曲的开始到结束的时间尺度下,示出由基调确定单元246确定的乐曲的基调进行的示例。在该示例中,从乐曲的开始起3分钟,乐曲的基调是“Cm”。之后,乐曲的基调变为“C#m”并且基调保持不变直到乐曲结束。以这种方式通过相对和弦概率生成单元238、特征量准备单元240、基调概率计算单元242和基调确定单元246的处理所确定的基调进行被输入小节线检测单元140。
(2-4-5.小节线检测单元140的配置)
接着,将描述小节线检测单元140。由结构分析单元134计算出的类似概率、由拍子检测单元132计算出的拍子概率、由基调检测单元138计算出的基调概率和基调进行和由和弦概率检测单元136检测出的和弦概率被输入小节线检测单元140。小节线检测单元140基于拍子概率、拍子区间之间的类似概率、各个拍子区间的和弦概率、基调进行以及各个拍子区间的基调概率,确定小节线进行,小节线进行指示一连串的拍子中各个拍子对应于哪种节拍中的哪个拍数。如图57中所示,小节线检测单元140包括第一特征量提取单元252、第二特征量提取单元254、小节线概率计算单元256、小节线概率校正单元258、小节线确定单元260和小节线重新确定单元262。
第一特征量提取单元252针对各个拍子区间,根据该拍子区间以及前后L个区间的和弦概率和基调概率来提取第一特征量,作为用于稍后描述的小节线概率计算的特征量。例如,第一特征量提取单元252通过如图58中所示的方法来提取第一特征量。如图58中所示,第一特征量包括(1)无和弦变化得分和(2)相对和弦得分,它们是从所关注的拍子区间BDi以及前后L个拍子区间的和弦概率和基调概率中导出的。其中,无和弦变化得分是所具有的维数与包括所关注的拍子区间BDi以及前后L个拍子区 间在内的区间的数目相等的特征量。另一方面,相对和弦得分是对于所关注的拍子区间BDi以及前后L个拍子区间中每个区间具有24维的特征量。例如,当L是8时,无和弦变化得分是17维的而相对和弦得分是408维(17×24维)的,并且因此,第一特征量总共有425维。以下,将描述无和弦变化得分和相对和弦得分。
(1)无和弦变化得分
首先,将描述无和弦变化得分。无和弦变化得分是表示乐曲的和弦不在特定区间范围上变化的程度的特征量。无和弦变化得分是通过将接下来所要描述的和弦稳定性得分除以和弦不稳定性得分而获得的。在图59的示例中,拍子区间BDi的和弦稳定性得分包括元素CC(i-L)至CC(i+L),CC(i-L)至CC(i+L)中的每一个是针对拍子区间BDi以及前后L个拍子区间中的相应区间来确定的。这些元素中的每一个被计算出,作为目标拍子区间与紧接在前的拍子区间之间具有相同名称的和弦的和弦概率的乘积的总和值。
例如,通过对拍子区间BDi-L-1与拍子区间BDi-L之间具有相同名称的和弦的和弦概率的乘积进行加和,计算出和弦稳定性得分CC(i-L)。以类似的方式,通过对拍子区间BDi+L-1与拍子区间BDi+L的和弦概率中具有相同名称的和弦的和弦概率的乘积进行加和,计算出和弦稳定性得分CC(i+L)。第一特征量提取单元252针对整个所关注的拍子区间BDi以及前后L个拍子区间执行上述计算,并且计算2L+1个单独的和弦稳定性得分。
另一方面,如图60中所示,拍子区间BDi的和弦不稳定性得分包括元素CU(i-L)至CU(i+L),这些元素中的每一个是针对拍子区间BDi以及前后L个拍子区间中的相应区间来确定的。这些元素中的每一个被计算出,作为目标拍子区间与紧接在前的拍子区间之间所有具有不同名称的和弦对的和弦概率的乘积的总和值。例如,通过对拍子区间BDi-L-1与拍子区间BDi-L的和弦概率中具有不同名称的和弦的和弦概率的乘积进行加和,计算出和弦不稳定性得分CU(i-L)。以类似的方式,通过对拍子区间BDi+L-1与拍子区间BDi+L的和弦概率中具有不同名称的和弦的和弦概率的乘积进行 加和,计算出和弦不稳定性得分CU(i+L)。第一特征量提取单元252针对整个所关注的拍子区间BDi以及前后L个拍子区间执行上述计算,并且计算2L+1个单独的和弦不稳定性得分。
在计算了和弦稳定性得分和和弦不稳定性得分之后,第一特征量提取单元252针对所关注的拍子区间BDi,对于每组2L+1个元素,通过将和弦稳定性得分除以和弦不稳定性得分来计算无和弦变化得分。例如,假定对于所关注的拍子区间BDi,和弦稳定性得分CC是(CCi-L,...,CCi+L)并且和弦不稳定性得分CU是(CUi-L,...,CUi+L)。在这种情况中,无和弦变化得分CR是(CCi-L/CUi-L,...,CCi+L/CUi+L)。所关注拍子区间周围给定范围内的和弦变化越少,则以这种方式计算出的无和弦变化得分指示越高的值。第一特征量提取单元252以这种方式计算音频信号中所包括的所有拍子区间的无和弦变化得分。
(2)相对和弦得分
接着,将描述相对和弦得分。相对和弦得分是表示给定范围内的区间上和弦的出现概率及其样式的特征量。相对和弦得分是通过根据从基调检测单元138输入的基调进行来转移和弦概率的元素位置而生成的。例如,相对和弦得分是通过如图61所示的方法生成的。在图61(61A)中示出由基调检测单元138确定的基调进行的示例。在该示例中,乐曲的基调在从乐曲的开始起3分钟后从“B”变为“C#m”。此外,还示出所关注的拍子区间BDi的位置,拍子区间BDi在前后L个区间内包括基调改变的时间点。
此时,第一特征量提取单元252,针对基调为“B”的拍子区间生成相对和弦概率,其中,拍子区间的包括大调和小调的24维和弦概率的元素的位置被转移使得和弦概率CPB在开始处出现。同样,第一特征量提取单元252针对基调为“C#m”的拍子区间生成相对和弦概率,其中拍子区间的包括大调和小调的24维和弦概率的元素的位置被转移使得和弦概率CPC#m在开始处出现。第一特征量提取单元252针对所关注的拍子区间以及前后L个区间中的每个区间来生成这样的相对和弦概率,并且输出所生 成的相对和弦概率的集合((2L+1)×24维特征量向量)作为相对和弦得分。
从如上所述的(1)无和弦变化得分和(2)相对和弦得分形成的第一特征量从第一特征量提取单元252输出到小节线概率计算单元256。现在,除了第一特征量以外,第二特征量也被输入小节线概率计算单元256。因此,将描述第二特征量提取单元254的配置。
第二特征量提取单元254针对各个拍子区间,根据拍子区间以及前后L个区间上拍子概率中的变化特征来提取第二特征量,作为用于稍后描述的小节线概率计算的特征量。例如,第二特征量提取单元254通过如图62中所示的方法来提取第二特征量。在图62中,沿时间轴示出从拍子概率计算单元202输入的拍子概率。此外,在图中还示出通过分析拍子概率所检测到的6个拍子以及所关注拍子区间BDi。第二特征量提取单元254关于拍子概率来计算各个小区间SDj的拍子概率的平均值,小区间SDj具有特定持续时间并且被包括在整个所关注的拍子区间BDi以及前后L个区间上的拍子区间中。
例如,如图62中所示,为了主要检测音符值(N/M节拍的M)为4的节拍,优选用在拍子间隔的1/4和3/4的位置处划分拍子间隔的线来将小区间相互划分开。在这种情况中,将针对一个所关注的拍子区间BDi计算L×4+1个拍子概率平均值。因此,由第二特征量提取单元254提取出的第二特征量对于每个所关注的拍子区间将具有L×4+1维。并且,小区间的持续时间是拍子间隔的1/2。此外,为了恰当地检测乐曲中的小节线,希望分析至少若干个小节上的音频信号的特征。因此,优选定义用于第二特征量的提取的拍子概率的范围的L的值例如是8个拍子。当L为8时,由第二特征量提取单元254提取的第二特征量对于每个所关注的拍子区间是33维的。
以这种方式提取出的第二特征量从第二特征量提取单元254输入小节线概率计算单元256。因此,小节线概率计算单元256通过使用第一特征量和第二特征量来计算各个拍子的小节线概率。这里的小节线概率是指各个拍子是X节拍中的第Y个拍子的概率的集合。在随后的说明中,各种节 拍中的各个拍数成为辨别的对象,其中各种节拍是1/4节拍、2/4节拍、3/4节拍和4/4节拍中的任何一种。在这种情况中,存在X与Y的10种单独集合,即,(1,1)、(2,1)、(2,2)、(3,1)、(3,2)、(3,3)、(4,1)、(4,2)、(4,3)和(4,4)。因此,计算10种类型的小节线概率。
此外,由稍后所述的小节线概率校正单元258考虑乐曲的结构来校正由小节线概率计算单元256计算出的概率值。因此,由小节线概率计算单元256计算出的概率值是有待校正的中间数据。通过逻辑回归分析预先习得的小节线概率公式例如可以用于由小节线概率计算单元256进行的小节线概率计算。例如,用于小节线概率计算的小节线概率公式是通过如图63中所示的方法生成的。此外,小节线概率是针对上述各种小节线概率生成的。例如,当假定要辨别各个拍子在1/4节拍、2/4节拍、3/4节拍和4/4节拍中的拍数时,要生成10个单独的小节线概率公式。
首先,提供多个第一特征量和第二特征量对,作为用于逻辑回归分析的独立变量,这些第一特征量和第二特征量对是通过对正确节拍(X)和拍子的正确拍数(Y)已知的音频信号进行分析提取出来的。接着,提供用于通过逻辑回归分析来预测所提供的第一特征量与第二特征量对中每一对的生成概率的哑元数据。例如,当学习用于辨别1/4节拍中的第一个拍子以计算拍子为1/4节拍中的第一个拍子的概率的公式时,如果已知的节拍和拍数是(1,1),则哑元数据的值将为真值(1),并且对于任何其它情况,哑元数据的值将为假值(0)。同样,当学习用于辨别2/4节拍中的第一个拍子以计算拍子是2/4节拍中的第一个拍子的概率的公式时,例如,如果已知的节拍和拍数是(2,1),则哑元数据的值将为真值(1),并且对于任何其它情况,哑元数据的值将为假值(0)。可以说,对于其它节拍和拍数同样如此。
通过如上所述使用足够数目的独立变量和哑元数据对来执行逻辑回归分析,预先获得10种类型的小节线概率公式,这些小节线概率公式用于从一对第一特征量和第二特征量中计算小节线概率。然后,小节线概率计算单元256将小节线概率公式应用于分别从第一特征量提取单元252和第二特征量提取单元254输入的一对第一特征量和第二特征量,并且针对各 个拍子区间计算小节线概率。例如,小节线概率是通过如图64中所示的方法计算出的。如图64中所示,小节线概率计算单元256将预先获得的用于辨别1/4节拍中的第一个拍子的公式应用于针对所关注的节拍区间提取的一对第一特征量和第二特征量,并且计算拍子是1/4节拍中的第一个拍子的小节线概率Pbar′(1,1)。同样,小节线概率计算单元256将预先获得的用于辨别2/4节拍中的第一个拍子的公式应用于针对所关注的节拍区间提取的一对第一特征量和第二特征量,并且计算拍子是2/4节拍中的第一个拍子的小节线概率Pbar′(2,1)。可以说,对于其它节拍和拍数同样如此。
小节线概率计算单元256针对所有拍子重复小节线概率计算,并且计算各个拍子的小节线概率。由小节线概率计算单元256针对各个拍子计算出的小节线概率被输入小节线概率校正单元258。
小节线概率校正单元258基于从结构分析单元134输入的节拍区间之间的类似概率,校正从小节线概率计算单元256输入的小节线概率。例如,假定:第i个所关注的拍子是X节拍中的第Y个拍子的小节线概率(该小节线概率还有待校正)是Pbar′(i,x,y),并且第i个拍子区间与第j个拍子区间之间的类似概率是SP(i,j)。在这种情况中,校正后的小节线概率Pbar(i,x,y)例如由以下等式(11)给出。
[等式11]
如上所述,校正后的小节线概率Pbar(i,x,y)是通过使用归一化后的类似概率作为权重来对校正前的小节线概率求加权和而获得的值,其中,类似概率是与所关注的拍子相对应的配置区间与其它拍子区间之间的类似概率。通过这样的概率值校正,与校正前的小节线概率相比较,相似声音内 容的拍子的小节线概率将具有更接近的值。由小节线概率校正单元258校正后的各个拍子的小节线概率被输入小节线确定单元260。
小节线确定单元260基于从小节线概率校正单元258输入的小节线概率,通过路径搜索来确定有可能的小节线进行,小节线概率指示各个拍子是X节拍中的第Y个拍子的概率。Viterbi算法例如可以用作由小节线确定单元260进行的路径搜索的方法。路径搜索例如是由小节线确定单元260通过如图65中所示的方法来执行的。如图65中所示,拍子被顺次布置在时间轴(水平轴)上。此外,小节线概率已被计算出的拍子的类型(X节拍中的第Y个拍子)用于观测序列(垂直轴)。小节线确定单元260将所有拍子类型与从小节线概率校正单元258输入的拍子对中的每一对作为路径搜索的对象节点。
关于所述对象节点,小节线确定单元260沿时间轴顺次选择这些节点中的任何节点。然后,小节线确定单元260使用两个评估值,(1)小节线概率和(2)节拍变化概率,来评估由一连串所选择的节点形成的路径。此外,在由小节线确定单元260进行节点的选择时,例如优选施加下述约束。作为第一约束,禁止跳过拍子。作为第二约束,禁止在小节的中间从一种节拍过渡至另一种节拍(例如,从四节拍中的第一个至第三个拍子中的任何拍子或三节拍中的第一个或第二个拍子开始的过渡),或从一种节拍过渡至另一种节拍的小节的中间。作为第三约束,禁止拍数不按次序的过渡,例如,从第一个拍子至第三个或第四个拍子,或从第二个拍子至第二个拍子或第四个拍子。
现在,在用于小节线确定单元260的路径评估的评估值中,(1)小节线概率是通过由小节线概率校正单元258校正小节线概率而计算出的上述小节线概率。对图65中示出的各个节点给出小节线概率。另一方面,(2)节拍变化概率是对节点之间的过渡所给出的评估值。节拍变化概率是通过从许多普通乐曲中收集在小节线进行期间节拍变化的发生概率,针对变化前的拍子类型和变化后的拍子类型的每种组合而预先定义的。
例如,在图66中示出了节拍变化概率的示例。在图66中,示出基于变化前的4种节拍和变化后的4种节拍导出的16个单独的节拍变化概率。 在该示例中,从四节拍变为单节拍的节拍变化概率是0.05,从四节拍变为二节拍的节拍变化概率是0.03,从四节拍变为三节拍的节拍变化概率是0.02,而从四节拍变为四节拍(即,没有变化)的节拍变化概率是0.90。如在该示例中那样,节拍在乐曲中间改变的概率一般不高。此外,关于单节拍或二节拍,在所检测到的小节线位置由于小节线的检测误差而从其正确的位置偏移时,节拍变化概率可以用来自动恢复小节线的位置。因此,优选将单节拍或二节拍与另一节拍之间的节拍变化概率设置为比三节拍或四节拍与另一节拍之间的节拍变化概率高。
小节线确定单元260关于表示小节线进行的各个路径,将路径中所包括的各个节点的(1)小节线概率和对节点间的过渡所给出的(2)节拍变化概率顺次彼此相乘。然后,小节线确定单元260确定使得作为路径评估值的相乘结果最大的路径,作为表示有可能的小节线进行的最优路径。例如,基于由小节线确定单元260确定的最大似然路径获得小节线进行(参考图67)。在图67的示例中,针对第一至第八个拍子示出被小节线确定单元260确定为最大似然路径的小节线进行(参见粗线框)。在该示例中,从第一个拍子开始各个拍子的类型顺次是:四节拍中的第一个拍子、四节拍中的第二个拍子、四节拍中的第三个拍子、四节拍中的第四个拍子、四节拍中的第一个拍子、四节拍中的第二个拍子、四节拍中的第三个拍子、四节拍中的第四个拍子。由小节线确定单元260确定的小节线进行被输入小节线重新确定单元262。
现在,在普通乐曲中,拍子类型的三节拍和四节拍很少以混合的方式存在。考虑这种情况,小节线重新确定单元262首先判定对于出现在从小节线确定单元260输入的小节线进行中的拍子类型,三节拍和四节拍是否以混合的方式存在。如果拍子类型的三节拍和四节拍以混合的方式存在,则小节线重新确定单元262从搜索对象中排除较不经常出现的节拍,并且再次搜索表示小节线进行的最大似然路径。根据所述由小节线重新确定单元262进行的路径重新搜索处理,可以减少可能在路径搜索的结果中局部出现的小节线(拍子类型)识别误差。
以上,已经描述了小节线检测单元140。由小节线检测单元140检测到的小节线进行被输入和弦进行检测单元142。
(2-4-6.和弦进行检测单元142的配置)
接下来,将描述和弦进行检测单元142。各个拍子的简单基调概率、拍子区间之间的类似概率和小节线进行被输入和弦进行检测单元142。因此,和弦进行检测单元142基于这些输入值来针对各个拍子区间确定由一连串和弦形成的有可能的和弦进行。如图68中所示,和弦进行检测单元142包括:拍子区间特征量计算单元272、根音特征量准备单元274、和弦概率计算单元276、和弦概率校正单元278和和弦进行确定单元280。
与和弦概率检测单元136的拍子区间特征量计算单元232一样,拍子区间特征量计算单元272首先计算相应12个音符的能量。然而,拍子区间特征量计算单元272可以获得并且使用由和弦概率检测单元136的拍子区间特征量计算单元232计算出的相应12个音符的能量。接着,拍子区间特征量计算单元272生成扩展拍子区间特征量,扩展拍子区间特征量包括所关注的拍子区间以及前后N个区间的相应12个音符的能量以及从基调检测单元138输入的简单基调概率。例如,拍子区间特征量计算单元272通过如图69中所示的方法来生成扩展拍子区间特征量。
如图69中所示,拍子区间特征量计算单元272例如提取出了所关注拍子区间BDi以及前后N个区间各自的相应12个音符的能量BFi-2、BFi-1、BFi、BFi+1和BFi+2,。这里的N例如是2。此外,获得所关注的拍子区间BDi的简单基调概率(SKPC,...,SKPB)。拍子区间特征量计算单元272针对所有的拍子区间,生成扩展拍子区间特征量,并且将其输入根音特征量准备单元274,扩展拍子区间特征量包括简单基调概率和拍子区间以及前后N个区间的相应12个音符的能量。
根音特征量准备单元274转移从拍子区间特征量计算单元272输入的扩展拍子区间特征量的元素位置,并且生成12个单独的扩展根音特征量。根音特征量准备单元274例如通过如图70中所示的方法来生成扩展根音特征量。如图70中所示,根音特征量准备单元274将从拍子区间特征量计算单元272输入的扩展拍子区间特征量作为用音符C作为根音的扩 展根音特征量。接着,根音特征量准备单元274将用音符C作为根音的扩展根音特征量的12个音符的元素位置转移特定数目。通过该转移处理,生成11个单独的扩展根音特征量,每个扩展根音特征量将音符C#至音符B中的任何一种音符作为根音。此外,元素位置被转移的转移数与和弦概率检测单元136的根音特征量准备单元234所使用的转移数相同。
根音特征量准备单元274针对所有拍子区间执行所述扩展根音特征量生成处理,并且准备各个区间的和弦概率重新计算所要使用的扩展根音特征量。由根音特征量准备单元274生成的扩展根音特征量被输入和弦概率计算单元276。
和弦概率计算单元276针对各个拍子区间,通过使用从根音特征量准备单元274输入的根音特征量来计算指示各种和弦被演奏的概率的和弦概率。这里的“各种和弦”是指例如通过根音(C,C#,D,...)、构成音符的数目(三和弦、七和弦、九和弦)、调性(大调/小调)等来区分的和弦中的每一种和弦。通过根据逻辑回归分析的学习处理获得的扩展和弦概率公式例如可以用于和弦概率计算。例如,由和弦概率计算单元276进行的和弦概率计算所要使用的扩展和弦概率公式是通过如图71中所示的方法生成的。此外,和针对和弦概率公式的情况一样,对扩展和弦概率公式的学习是针对每种和弦来进行的。即,例如,学习处理是针对以下每种公式来执行的:用于大和弦的扩展和弦概率公式、用于小和弦的扩展和弦概率公式、用于七和弦的扩展和弦概率公式和用于九和弦的扩展和弦概率公式。
首先,分别针对正确和弦已知的拍子区间提供多个扩展根音特征量(例如,使用图70描述的12个单独的12×6维向量),作为用于逻辑回归分析的独立变量。此外,针对各个拍子区间的扩展根音特征量中的每一个,提供用于通过逻辑回归分析来预测生成概率的哑元数据。例如,当学习用于大和弦的扩展和弦概率公式时,如果已知的和弦是大和弦,则哑元数据的值将是真值(1),并且对于任何其它情况,哑元数据的值将是假值(0)。同样,当学习用于小和弦的扩展和弦概率公式时,如果已知的和弦是小和弦,则哑元数据的值将是真值(1),并且对于任何其它情 况,哑元数据的值将是假值(0)。可以说,对于七和弦和九和弦同样如此。
通过使用上述独立变量和哑元数据来对足够数目的扩展根音特征量(每个扩展根音特征量是针对一个拍子区间的)执行逻辑回归分析,获得用于从根音特征量中重新计算出各个和弦概率的扩展和弦概率公式。当生成了扩展和弦概率公式时,和弦概率计算单元276将扩展和弦概率公式应用于从根音特征量准备单元274输入的扩展根音特征量,并且顺次计算各个拍子区间的和弦概率。例如,和弦概率计算单元276通过如图72中所示的方法来重新计算和弦概率。
在图72(72A)中,示出各个拍子区间的扩展根音特征量中,用音符C作为根音的扩展根音特征量。和弦概率计算单元276将用于大和弦的扩展和弦概率公式应用于用音符C作为根音的扩展根音特征量,并且针对该拍子区间计算和弦为“C”的和弦概率CP′C。此外,和弦概率计算单元276将用于小和弦的扩展和弦概率公式应用于用音符C作为根音的扩展根音特征量,并且针对该拍子区间重新计算和弦为“Cm”的和弦概率CP′Cm。以类似的方式,和弦概率计算单元276将用于大和弦的扩展和弦概率公式和用于小和弦的扩展和弦概率公式应用于用音符C#作为根音的扩展根音特征量,并且重新计算和弦概率CP′C#和和弦概率CP′C#m(72B)。可以说,对和弦概率CP′B、和弦概率CP′Bm(72C)以及其它类型的和弦(包括七和弦、九和弦等)的和弦概率的计算也是如此。
和弦概率计算单元276针对所有所关注的拍子区间重复如上所述的和弦概率重新计算处理,并且向和弦概率校正单元278输出所重新计算出的和弦概率。
和弦概率校正单元278基于从结构分析单元134输入的拍子区间之间的类似概率,校正由和弦概率计算单元276计算出的和弦概率。例如,假定:第i个所关注的拍子区间中和弦X的和弦概率是CP′x(i),并且第i个拍子区间和第j个拍子区间之间的类似概率是SP(i,j)。然后,校正后的和弦概率CP″x(i)例如由以下等式(12)给出。
[等式12]
即,校正后的和弦概率CP″x(i)是通过利用归一化后的类似概率来对和弦概率求加权和而获得的值,其中与所关注的拍子相对应的拍子区间与另一拍子区间之间的类似概率中的每一个类似概率被用作权重。通过这样的概率值校正,具有相似声音内容的拍子区间的和弦概率相比于校正前将具有更接近的值。由和弦概率校正单元278校正后的各个拍子区间的和弦概率被输入和弦进行确定单元280。
和弦进行确定单元280基于从和弦概率校正单元278输入的各个拍子位置的和弦概率,通过路径搜索来确定有可能的和弦进行。Viterbi算法例如可以用作由和弦进行确定单元280进行的路径搜索的方法。路径搜索例如是通过如图73中所示的方法来执行的。如图73中所示,拍子被顺次布置在时间轴(水平轴)上。此外,和弦概率已被计算出的和弦类型被用作观测序列(垂直轴)。即,和弦进行确定单元280将所有和弦类型与从和弦概率校正单元278输入的拍子区间对中的每一对作为路径搜索的对象节点。
关于所述节点,和弦进行确定单元280沿时间轴顺次选择这些节点中的任何节点。然后,和弦进行确定单元280使用以下四种评估值来对由一连串所选择的节点形成的路径进行评估:(1)和弦概率,(2)依赖于基调的和弦出现概率,(3)依赖于小节线的和弦过渡概率和(4)依赖于基调的和弦过渡概率。此外,在由和弦进行确定单元280进行对节点的选择时,不允许跳过拍子。
在用于由和弦进行确定单元280进行的路径评估的评估值中,(1)和弦概率是由和弦概率校正单元278校正后的上述和弦概率。对图73中 所示的各个节点给出和弦概率。此外,(2)依赖于基调的和弦出现概率是依赖于根据从基调检测单元138输入的基调进行而针对各个拍子区间指定的基调的、各种和弦的出现概率。依赖于基调的和弦出现概率是通过针对乐曲中使用的每种基调,对大量乐曲的和弦出现概率进行合计来预先定义的。一般,在基调为“C”的乐曲中,和弦“C”、“F”和“G”中的每种和弦的出现概率高。对图73中所示的各个节点给出依赖于基调的和弦出现概率。
此外,(3)依赖于小节线的和弦过渡概率是依赖于根据从小节线检测单元140输入的小节线进行而针对各个拍子指定的拍子类型的和弦过渡概率。依赖于小节线的和弦过渡概率是通过针对乐曲的小节线进行中相邻拍子的各种类型对,对大量乐曲的和弦过渡概率进行合计来预先定义的。一般,和弦在小节线变化(过渡后的拍子是第一个拍子)时变化或在从四节拍中的第二个拍子过渡至第三个拍子时变化的概率比和弦在其它过渡时变化的概率高。对节点之间的过渡给出依赖于小节线的和弦过渡概率。此外,(4)依赖于基调的和弦过渡概率是依赖于根据从基调检测单元138输入的基调进行而针对各个拍子区间指定的基调的和弦过渡概率。依赖于基调的和弦过渡概率是通过针对乐曲中使用的各种基调,对大量乐曲的和弦过渡概率进行合计来预先定义的。对节点间的过渡给出依赖于基调的和弦过渡概率。
和弦进行确定单元280关于表示使用图73描述的和弦进行的各个路径,将路径中所包括的各个节点的上述(1)至(4)的评估值彼此顺次相乘。然后,和弦进行确定单元280确定使得作为路径评估值的相乘结果最大的路径,作为表示有可能的和弦进行的最大似然路径。例如,和弦进行确定单元280可以通过确定最大似然路径来获得如图74中所示的和弦进行。在图74的示例中,示出由和弦进行确定单元280针对第一至第六个拍子区间和第i个拍子区间确定为最大似然路径的和弦进行。(参见粗线框)。根据该示例,从第一个拍子区间开始,拍子区间的和弦顺次是:“C”、“C”、“F”、“F”、“Fm”、“Fm”……“C”。
以上,描述了和弦进行检测单元142的配置。如上所述,通过结构分析单元134至和弦进行检测单元142的处理从音乐数据中检测出了和弦进行。以这种方式提取出的和弦进行被存储到元数据存储单元112中。
(2-4-7.旋律检测单元144的配置)
接着,将描述旋律检测单元144。旋律检测单元144是用于基于从对数谱分析单元108输入的音乐数据的对数谱来检测旋律线的装置。如图75中所示,旋律检测单元144包括:旋律概率估计单元282、类别估计单元284、音调分布估计单元286、旋律线确定单元288和平滑单元290。此外,有关由基调检测单元138检测到的基调的信息被输入旋律线确定单元288。此外,有关由拍子检测单元132检测到的拍子位置的信息被输入平滑单元290。以下,将按照类别估计单元284、音调分布估计单元286、旋律概率估计单元282、旋律线确定单元288和平滑单元290的次序来详细描述各个结构元件的配置。
(类别估计单元284)
接着,将描述类别估计单元284。类别估计单元284是用于在乐曲信号输入时,估计输入信号所属于的音乐类别的装置。如稍后所述,通过考虑各个输入信号所属于的音乐类别,可以提高稍后执行的旋律线检测处理中的检测精度。如图76中所示,乐曲例如被分类,例如“老歌”、“男声,喧闹的背景(BG)”、“男声,轻柔的背景(BG)”、“女声,喧闹的背景(BG)”。例如,“老歌”具有这样的特征:由于记录它时的记录装置和音响设施的技术水平与现今的技术水平不同,所以声音质量差或背景中音量比例小。关于其它类别,对于各种类别存在如图76中所示的特征。因此,输入信号基于各个乐曲的特征被分类。此外,音乐类别不限于图76中所示出的那些。例如,可以基于声音质量等使用更精细的类别。
类别估计单元284执行如图77中所示的处理来估计音乐类别。首先,类别估计单元284通过对数谱分析单元108将要被用作评估数据的多个音频信号(乐曲1,……乐曲4)变换成对数谱。然后,类别估计单元284将这多个音频信号(乐曲1,……乐曲4)的对数谱输入给特征量计算 公式生成设备10作为评估数据。此外,如图77中所示,用作评估数据的各个音频信号(乐曲1,……乐曲4)的类别作为类别值(0或1)被给出。类别值0指示不对应,并且类别值1指示对应。例如,音频信号(乐曲1)不与类别“老歌”和“男声,轻柔的BG”对应,而与“男声,喧闹的BG”对应。类别估计单元284通过使用特征量计算公式生成设备10来生成用于计算所述类别值的估计算法(计算公式)。
因此,类别估计单元284在向特征量计算公式生成设备10输入多个音频信号(乐曲1,……乐曲4)的对数谱作为评估数据的同时还向其输入各种类别的类别值作为教师数据。因此,作为评估数据的音频信号(乐曲1,……乐曲4)的对数谱和作为教师数据的各种类别的类别值被输入特征量计算公式生成设备10。此外,一首乐曲的对数谱被用作与各个音频信号对应的评估数据。当所述评估数据和教师数据被输入时,特征量计算公式生成设备10针对各种类别生成用于从任意音频信号的对数谱中计算出各种类别的类别值的计算公式GA。此时,特征量计算公式生成设备10同时输出由最终输出的各个计算公式GA所输出的评估值(概率)。
当各种类别的计算公式GA被特征量计算公式生成设备10生成时,类别估计单元284通过对数谱分析单元108将实际希望分类的乐曲的音频信号(以下,称为处理乐曲(treated piece))变换成对数谱。然后,类别估计单元284将处理乐曲的对数谱输入由特征量计算公式生成设备10生成的各种类别的计算公式GA,并且针对处理乐曲计算各种类别的类别值。当各种类别的类别值被计算出时,类别估计单元284将处理乐曲分类到具有最高类别值的类别中。类别估计单元284也可以被配置为在分类时考虑各个计算公式的概率。在这种情况中,类别估计单元284使用通过与各种类别对应的计算公式所计算出的类别值和该计算公式的概率,来计算处理乐曲与各种类别对应的概率(以下,称为对应概率)。然后,类别估计单元284将处理乐曲指派到对应概率最高的类别中。结果,获得如图77中所示的分类结果。以这种方式获得的分类结果被输入音调分布估计单元286、旋律概率估计单元282和旋律线确定单元288。
(音调分布估计单元286)
接着,将参考图78和图79来描述音调分布估计单元286的配置。音调分布估计单元286是用于自动估计旋律线的分布的装置。由针对随时间过去而变化的旋律线的各个区间计算出的期待值和针对整首乐曲计算出的标准差来表示旋律线的分布。为了从对数谱中估计所述旋律线的分布,音调分布估计单元286通过使用特征量计算公式生成设备10来生成用于计算各个区间中旋律线的期待值的计算公式。
首先,与类别估计单元284一样,音调分布估计单元286向特征量计算公式生成设备10输入多个音频信号的对数谱作为评估数据。此外,音调分布估计单元286截取各个区间的各个音频信号的正确旋律线作为教师数据(参考图78),并且将其输入特征量计算公式生成设备10。当评估数据和教师数据被以这种方式输入时,从特征量计算公式生成设备10输出用于计算各个区间中的旋律线的期待值的计算公式。此外,类别估计单元284关于用作评估数据的各个音频信号的对数谱,计算通过计算公式计算出的输出值与用作教师数据的正确旋律线之间的误差。此外,类别估计单元284通过用正态分布逼近所获得的误差来计算旋律线的标准差。通过由音调分布估计单元286计算出的旋律线的期待值和标准差定义的范围例如被表示为图79中所示的曲线图。
以这种方式,音调分布估计单元286通过使用特征量计算公式生成设备10生成用于从对数谱的区间(时间片段)中估计区间中的旋律线的计算公式,并且使用该计算公式来估计旋律线的分布。此时,音调分布估计单元286生成针对由类别估计单元284估计出的各种音乐类别的计算公式。然后,音调分布估计单元286在逐渐偏移时间的同时从对数谱中截取时间段,并且将所截取的对数谱输入计算公式,并且计算旋律线的期待值和标准差。结果,针对对数谱的各个区间计算出了旋律线的估计值。例如,概率P(o|Wt)被计算出作为估计值,该概率是当时间t的局部对数谱Wt被输入时旋律在音调o的概率。由音调分布估计单元286以这种方式计算出的旋律线的估计值被输入旋律线确定单元288。
(旋律概率估计单元282)
接着,将参考图80至图82来描述旋律概率估计单元282的配置。旋律概率估计单元282是用于将从对数谱分析单元108输出的对数谱变换成旋律概率的装置。例如,旋律概率估计单元282将图80(80A)中所示的对数谱变换成图80(80B)中所示的旋律概率分布。即,旋律概率估计单元282基于对数谱来计算时间-音调空间中的各个坐标位置处的旋律概率。这里的旋律概率是指各个坐标位置处对数谱的值对应于旋律线的概率。首先,旋律概率估计单元282通过使用正确旋律线预先已知的音乐数据的对数谱来执行逻辑回归,来估计各个坐标位置处的旋律概率。通过该逻辑回归获得用于从对数谱中计算旋律线的函数f。然后,旋律概率估计单元282通过使用所获得的函数来计算如图80(80B)中所示的旋律概率分布。
这里,参考图81和图82,将分别详细描述旋律概率估计单元282的生成上述函数f的方法和使用函数f来计算旋律概率的方法。首先,如图81中所示,在定义对数谱的值的时间-音调空间中,旋律概率估计单元282将要针对其估计旋律概率的坐标位置(以下,称为估计位置)作为参考点并且选择具有特定大小的范围(以下,称为参考范围)。例如,旋律概率估计单元282用各个估计位置作为参考点来选择参考范围,该参考范围具有在音调轴方向上的-12至+36半音(semitone)和时间轴方向上的-2至+2帧。在图81中示意性地示出了由旋律概率估计单元282选择的参考范围的示例。在该示例中,用黑色绘出的坐标位置是估计位置而估计位置周围的阴影线部分是参考范围。
当参考范围被以这种方式针对各个估计位置选择时,旋律概率估计单元282计算与所选择的参考范围中的各个坐标位置对应的对数谱值(能量)的对数值。此外,旋律概率估计单元282以使得针对参考范围内的各个坐标位置所计算出的对数值的平均值为0的方式对各个坐标位置的对数值进行归一化。归一化之后的对数值(在图81的示例中,x=(x1,...,x245);49音调×5帧)被用于用来估计旋律概率的函数f(x)的生成处理。函数f(x)的生成处理是通过使用预先给出的、正确旋律线已知的多条音乐数据来执行的。首先,旋律概率估计单元282使用用于学习的音乐数据的对数谱并且针对各个估计位置来计算归一化之后的对数值x(以下,称为归 一化后的对数值x)。此外,旋律概率估计单元282判定正确的旋律线是否被包括在各个参考范围中。以下,在正确的旋律线被包括在参考范围中的情况中,判定结果将被表示为True(真);并且在正确的旋律线不被包括在参考范围中的情况中,判定结果将被表示为False(假)。
当获得归一化后的对数值x和判定结果时,旋律概率估计单元282使用这些结果并且生成“函数f(x),该函数用于在归一化后的对数值x被输入的情况中,输出判定结果对于与归一化后的对数值x相对应的参考范围为True的概率”。例如,旋律概率估计单元282可以通过使用逻辑回归来生成函数f(x)。逻辑回归是假定判定结果为True或False的概率的对元(1ogit)可以用输入变量的线性耦合来表示,用于通过回归分析计算耦合系数的方法。例如,当将输入变量表示为x=(x1,...,xn)时,判定结果为True的概率表示为P(True)并且耦合系数表示为β0,...,βn,则逻辑回归模型被表示为以下等式(13)。当修改以下等式(13)时,获得以下等式(14)并且获得用于从输入变量x计算判定结果True的概率P(True)的函数f(x)。
[等式13]
[等式14]
旋律概率估计单元282向以上等式(14)输入从用于学习的音乐数据中针对各个参考范围获得的归一化后的对数值x=(x1,...,x245)和判定结果, 并且计算耦合系数β0,...,β245。利用以这种方式确定的耦合系数β0,...,β245,获得用于从归一化后的对数值x中计算出判定结果为True的概率P(True)的函数f(x)。由于函数f(x)是在0.0至1.0的范围中被定义的概率并且一个时间的正确旋律线的音调数是1,所以函数f(x)被以使得对于一个时间总计的值变成1的方式进行归一化。并且,优选,函数f(x)是针对各种音乐类别而生成的。因此,旋律概率估计单元282通过使用针对各种类别给出的用于学习的音乐数据来计算各种类别的函数f(x)。
在通过这样的方法生成各种类别的函数f(x)之后,当处理乐曲数据的对数谱被输入时,旋律概率估计单元282考虑针对处理乐曲数据从类别估计单元284输入的类别,选择函数f(x)。例如,在处理乐曲被分类为“老歌”的情况中,选择针对“老歌”从用于学习的音乐数据中获得的函数f(x)。然后,旋律概率估计单元282在将处理乐曲数据的对数谱值变换成归一化后的对数值x之后,用所选择的函数f(x)来计算旋律概率。当由旋律概率估计单元282针对时间-音调空间中的各个坐标位置来计算旋律概率时,获得如图80(80B)中所示的旋律概率分布。以这种方式获得的旋律概率分布被输入旋律线确定单元288。
(函数f(x)生成处理的流程)
这里,将参考图82来简要描述旋律概率估计单元282的函数f(x)生成方法的处理的流程。
如图82中所示,首先旋律概率估计单元282开始针对时间轴方向的循环处理(S142)。此时,设置指示时间轴方向上的估计位置的时间t(帧编号t)。然后,旋律概率估计单元282开始针对音调轴方向的循环处理(S144)。此时,设置指示音调轴方向上的估计位置的音调o。然后,旋律概率估计单元282针对由在步骤S142和S144中所设置的时间t和音调o指示的估计位置的参考范围获得归一化后的对数值x(S146)。例如,估计位置(t,o)的周围的(t-2至t+2,o-12至o+36)被选作参考范围,并且归一化后的对数值x={x(t+Δt,o+Δo);-2≤Δt≤2,-12≤o≤36}被计算出。接着,旋律概率估计单元282使用通过使用用于学习的音乐数据的学习处理预先获得的函数f(x),来计算时间t和音调o处的旋律概率(S148)。
由时间t和音调o指示的估计位置的旋律概率是通过步骤S146和S148估计出的。现在,旋律概率估计单元282返回到步骤S144的处理(S150),并将估计位置的音调o递增1个半音并且重复步骤S146和S148的处理。旋律概率估计单元282通过将估计位置的音调o一次递增1个半音来针对特定音调范围(例如,o=12至72)执行步骤S146和S148的处理。在针对特定音调范围执行了步骤S146和S148的处理之后,旋律概率估计单元282继续进行到步骤S152的处理。
在步骤S152中,旋律概率估计单元282对时间t的旋律概率进行归一化使得旋律概率的加和为1(S152)。即,关于步骤S142中所设置的估计位置的时间t,在步骤S152中以使得针对特定音调范围计算出的旋律概率的加和变为1的方式对各个音调o的旋律概率进行归一化。然后,旋律概率估计单元282返回步骤S142的处理(S154),并且在将估计位置的时间t递增1帧之后重复步骤S144至S152的处理。旋律概率估计单元282通过将估计位置的时间t一次递增1帧来针对特定时间范围(例如,t=1至T)执行步骤S144至S152的处理。在针对特定时间范围(例如,t=1至T)执行了步骤S144至S152的处理之后,旋律概率估计单元282结束旋律概率的估计处理。
(旋律线确定单元288)
接着,将参考图83至图85来描述旋律线确定单元288的配置。旋律线确定单元288是用于基于由旋律概率估计单元282估计出的旋律概率和由音调分布估计单元286估计出的旋律线的期待值、标准差等来确定有可能的旋律线的装置。为了确定有可能的旋律线,旋律线确定单元288执行在时间-音调空间中搜索具有最高旋律概率的路径的处理。对于所要执行的路径搜索,使用由音调分布估计单元286计算出的P(o|Wt)和以下示出的概率p(Δo)和p(nt|nt-1)。如已经描述的,概率P(o|Wt)是旋律在某一时间t为音调o的概率。
首先,旋律线确定单元288计算各个音乐数据的正确旋律线处变化量为Δo的音调过渡的出现比率。在针对许多条音乐数据计算各个音调过渡Δo的出现比率之后,旋律线确定单元288针对各个音调过渡Δo来针对所 有各条音乐数据计算出现比率的平均值和标准差。然后,通过使用与以上述方式计算出的各个音调过渡Δo相关的出现比率的平均值和标准差,旋律线确定单元288用具有该平均值和标准差的高斯分布来逼近概率p(Δo)。
接着,将给出对概率p(nt|nt-1)的说明。概率p(nt|nt-1)指示反映从音调nt-1至音调nt的过渡时的过渡方向的概率。音调nt采用值Cdown、C#down、……、Bdown、Cup、C#up、……、Bup中的任何一个。这里,“down”是指音调下降,并且“up”是指音调上升。另一方面,nt-1不考虑音调的下降和上升,并且采用值C、C#、……、B中的任何一个。例如,概率p(Dup|C)指示音调C上升为音调D的概率。通过将实际的基调(例如,D)转移到特定基调(例如C)来使用概率(nt|nt-1)。例如,在当前基调为D并且特定基调是C的情况中,对于F#→Adown的过渡概率参考概率p(Gdown|E),这是因为由于基调的转移,F#被改为E而A被改为G。
还对于概率p(nt|nt-1),如在概率p(Δo)的情况中一样,旋律线确定单元288计算各个音乐数据的正确旋律线中各种音调过渡nt-1→nt的出现比率。在针对许多条音乐数据计算出各种音调过渡nt-1→nt的出现比率之后,旋律线确定单元288针对各种音调过渡nt-1→nt,对于所有各条音乐数据计算出现比率的平均值和标准差。然后,通过使用以上述方式计算出的与各种音调过渡nt-1→nt有关的出现比率的平均值和标准差,旋律线确定单元288用具有平均值和标准差的高斯分布来逼近概率p(nt|nt-1)。
在图84中概念性地示出这些概率。在图84的示例中,旋律线的当前音调是C4。在时间t1的旋律线的音调的过渡的情况中,参考概率p(Δo)和p(nt|nt-1)。例如,在从音调C4至音调D4的过渡的情况中,音调之间的差是+2半音。此外,在图84的示例中,过渡是朝向同一八度音阶中的更高音调的。因此,参考概率p(Δo=+2)和概率p(Dup|C)。另一方面,在从音调C4至音调G3的过渡中,音调之间的差为-5半音。此外,在图84的示例中,过渡是朝向较低八度音阶的较低音调的。因此,参考概率p(Δo=-2)和概率p(Gdown|C)。类似地,在旋律在时间t1过渡到音调D4并且之后在时间t2过渡到音调G3的情况中,参考概率p(Δo=-7)和概率 p(Gdown|D)。此外,作为音调C4、D4和G3中每一个音调的概率,参考概率P(o|Wt)。
旋律线是通过使用以上述方式获得的概率P(o|Wt)、p(Δo)和p(nt|nt-1)来确定的。然而,为了使用概率p(nt|nt-1),要估计旋律线的音乐数据的基调变得必要。如上所述,基调是由基调检测单元138给出的,因此,旋律线确定单元288通过使用由基调检测单元138给出的基调来执行稍后所述的旋律线确定处理。
旋律线确定单元288通过使用Viterbi搜索来确定旋律线。Viterbi搜索本身是公知的基于隐马尔科夫模型的路径搜索方法。除了概率P(o|Wt)、p(Δo)和p(nt|nt-1)以外,由旋律概率估计单元282针对各个估计位置估计出的旋律概率被用于旋律线确定单元288的Viterbi搜索。以下,时间t和音调o处的旋律概率将被表示为p(Mt|o,t)。使用这些概率,某一时间点t的音调o是旋律的概率P(o,t)被表示为以下等式(15)。从音调o至相同音调o的过渡的概率P(t+Δt,o|t,o)被表示为以下等式(16)。此外,从音调o至不同音调o+Δo的过渡的概率P(t+Δt,o+Δo|t,o)被表示为以下等式(17)。
[等式15]
P(o,t)=p(Mt|o,t)P(o|Wt)...(15)
[等式16]
P(o,t+Δt|o,t)=(1-∑p(nt|nt-1))p(Δo)...(16)
[等式17]
P(o+Δo,t+Δt|o,t)=p(nt|nt-1)p(Δo)...(17)
当使用这些表达式时,对于从节点q1(时间t1,音调o27)转移至节点q2(时间t2,音调o26)的情况的概率P(q1,q2)被表示为P(q1,q2)=p(nt2|nt1)p(Δo=-1)p(M1|o27,t1)p(o27|Wt1)。被如上表示的概率为整首乐曲中最大的路径被提取出作为有可能的旋律线。这里,旋律线确定单元288将各个Viterbi路径的概率的对数值作为路径搜索的参考。例如,对于log(P)(q1,q2)),将使用诸如log(p(nt2|nt1))+log(p(Δo=-1))+log(p(M1|o27,t1))+log(p(o27|Wt1))之类的对数值的加和。
此外,旋律线确定单元288可以被配置为使用通过对各种概率执行加权获得的加权和对数值作为Viterbi搜索的参考,而不是简单地使用对数值的加和作为参考。例如,旋律线确定单元288通过将所经过的节点的log(p(Mt|o,t),b1*log(p(o|Wt))和所经过的节点之间的过渡的b2*log(pnt|nt-1)和b3*log(p(Δo))进行加和来将它们作为Viterbi搜索的参考。这里,b1、b2和b3是针对各种概率给出的权重参数。即,旋律线确定单元288对于整首乐曲计算上述加权和对数值并且提取使得加和的对数值最大的路径。由旋律线确定单元288提取出的路径被确定为旋律线。
此外,优选用于Viterbi搜索的概率和加权参数根据由类别估计单元284估计出的音乐类别而不同。例如,对于对被分类为“老歌”的乐曲的旋律线的Viterbi搜索,优选使用从正确旋律线被预先给出的大量“老歌”中获得的概率和针对“老歌”调谐(tune)的参数。由旋律线确定单元288以这种方式确定的旋律线被输入平滑单元290。
(平滑单元290)
接着,将描述平滑单元290的配置。平滑单元290是用于对由旋律线确定单元288针对由乐曲的拍子确定的各个区间所确定的旋律线进行平滑的装置。平滑单元290基于由拍子检测单元132给出的拍子位置来执行平滑处理。例如,平滑单元290执行对每8个音符的旋律线的投票,并且将最经常出现的音调作为旋律线。拍子区间可以包括多个作为旋律线的音调。因此,平滑单元290针对各个拍子区间检测被确定为旋律线的音调的出现频率,并且用最经常出现的音调来平滑各个拍子区间的音调。以这种 方式针对各个拍子区间平滑后的音调被存储在元数据存储单元112中,作为旋律线。
(2-4-8.贝斯检测单元146的配置)
接着,将描述贝斯检测单元146。贝斯检测单元146是用于通过与上述旋律检测单元144的方法类似的方法来从音乐数据中检测出贝斯线的装置。如图86中所示,贝斯检测单元146包括贝斯概率估计单元292、贝斯线确定单元294和平滑单元296。此外,音乐数据的类别从类别估计单元284输入贝斯概率估计单元292和贝斯线确定单元294。此外,有关音调分布的信息从音调分布估计单元286输入贝斯线确定单元294。这里,从音调分布估计单元286输入的音调分布是与贝斯线有关的音调分布。此外,基调从基调检测单元138输入贝斯线确定单元294。此外,有关拍子位置的信息从拍子检测单元132输入平滑单元296。
(贝斯概率估计单元292)
首先,将描述贝斯概率估计单元292。贝斯概率估计单元292是用于将从对数谱分析单元108输出的对数谱变换成贝斯概率的装置。这里的贝斯概率指示各个坐标位置处的对数谱值是贝斯线的值的概率。首先,为了估计各个坐标位置的贝斯概率,贝斯概率估计单元292通过使用正确贝斯线预先已知的音乐数据的对数谱来执行逻辑回归。通过逻辑回归获得用于从对数谱计算出旋律概率的函数f。然后,贝斯概率估计单元292通过使用所获得的函数来计算贝斯概率的分布。具体地,除了旋律概率计算处理被贝斯概率计算处理替代以外,由贝斯概率估计单元292进行的处理与由旋律概率估计单元282的处理相同。因此,将省略详细描述。
(贝斯线确定单元294)
接下来,将描述贝斯线确定单元294。贝斯线确定单元294是用于基于由贝斯概率估计单元292估计出的贝斯概率和由音调分布估计单元286估计出的贝斯线的期待值、标准差等来确定有可能的贝斯线的装置。此外,音调分布估计单元286可以通过将用作用于学习的数据的教师数据改为贝斯线的教师数据来以与针对旋律线的方式相似的方式来执行对贝斯线的分布估计。现在,为了确定有可能的贝斯线,贝斯线确定单元294在时 间-音调空间中执行对具有高的贝斯概率的路径的搜索处理。这里所执行的搜索处理是将旋律概率改为贝斯概率,通过与旋律线确定单元288的处理基本相同的处理来实现的。因此,将省略详细描述。
(平滑单元296)
接着,将描述平滑单元296的配置。平滑单元296是用于针对由乐曲的拍子确定的各个区间、对由贝斯线确定单元294确定的贝斯线执行平滑的装置。此外,平滑单元296基于由拍子检测单元132提供的拍子位置来执行平滑处理。例如,平滑单元296针对每8个音符的贝斯线执行投票,并且将最经常出现的音调作为贝斯线。拍子区间可以包括多个作为贝斯线的音调。因此,平滑单元296针对各个拍子区间来检测被确定为贝斯线的音调的出现频率,并且用最经常出现的音调来平滑各个拍子区间的音调。以这种方式针对各个拍子区间平滑后的音调被存储在元数据存储单元112中,作为贝斯线。
(2-4-9.元数据检测单元148的配置)
接着,将描述元数据检测单元148的配置。元数据检测单元148是用于提取以下元数据的装置:时间序列元数据和每首乐曲的元数据,时间序列元数据指示特定时间单位中的一个音乐数据特征量,而每首乐曲的元数据指示对于一首乐曲而言的一个音乐数据特征量。
时间序列元数据例如可以是各种乐器声音的存在概率、各种乐器声音是独奏的概率(以下,称为独奏概率)、歌声的声音特征等。此外,对于各个区间,乐器声音的类型包括歌声、吉他、贝斯、键盘乐器、鼓、琴弦乐器、铜管乐器、合唱等。为了详细描述,小鼓、脚踏鼓、架子鼓、踩镲、铙钹都被包括为鼓声。即,所述每种乐器声音的存在概率或独奏概率被提取作为时间序列元数据。此外,作为与歌声有关的时间序列元数据,其是否为喊叫(shout)被提取出作为该元数据。另一方面,每首乐曲的元数据可以是音乐数据属于特定流派的概率、整首乐曲中各种乐器声音的存在概率、音乐的曲调等。特定的流派例如可以是摇滚乐、流行乐、舞曲、说唱乐、爵士乐、古典乐等。而且,音乐的曲调可以是活泼的、安静的等。
作为一个示例,将描述计算乐器声音存在概率(时间序列元数据的示例)的方法,乐器声音存在概率指示哪种乐器在哪个定时被演奏。此外,利用该方法,元数据检测单元148针对由声源分离单元106分离出的声源的组合中的每种组合来计算各种乐器声音的存在概率。首先,为了估计乐器声音的存在概率,元数据检测单元148通过使用特征量计算公式生成设备10(或其它学习算法)来生成用于计算各种乐器声音的存在概率的计算公式。此外,元数据检测单元148通过使用针对各种乐器声音所生成的计算公式来计算各种乐器声音的存在概率。
为了生成用于计算乐器声音的存在概率的计算公式,元数据检测单元148预先准备以时间序列标记的对数谱。例如,元数据检测单元148如图87中所示以特定时间(例如,1帧)为单位从被标记的对数谱中捕获局部对数谱,并且通过使用所捕获的局部对数谱来生成用于计算存在概率的计算公式。在图87中示出歌声的存在与否预先已知的音乐数据的对数谱作为示例。当所述对数谱被提供时,元数据检测单元148以特定时间为单位确定捕获区间,参考各个捕获区间中歌声的存在与否,并且向具有歌声的区间指派标签1而向没有歌声的区间指派标签0。此外,对于其它类型的乐器声音,可以说同样如此。
以这种方式捕获的按时间序列的局部对数谱被输入特征量计算公式生成设备10作为评估数据。此外,被指派给各个局部对数谱的各种乐器声音的标签被输入特征量计算公式生成设备10作为教师数据。通过提供所述评估数据和教师数据,可以获得在处理乐曲的局部对数谱输入时,输出每种乐器声音是否被包括在与输入局部对数谱对应的捕获区间中的计算公式。因此,元数据检测单元148在一点一点偏移时间轴的同时向与各种乐器声音对应的计算公式输入局部对数谱,并且根据在由特征量计算公式生成设备10进行学习处理时计算的概率分布来将输出值变换成概率值。然后,元数据检测单元148存储按时间序列计算出的概率值作为时间序列元数据。如图88中所示的各种乐器声音的存在概率例如是由如上所述的元数据检测单元148计算出来的。
尽管该描述是针对歌声存在概率的计算方法的示例做出的,但是,可以是对于其它乐器声音的存在概率或其它时间序列元数据的计算方法同样如此。此外,关于每首乐曲的元数据,通过利用整首乐曲的对数谱作为输入来生成用于计算每首乐曲的元数据的计算公式并且通过使用该计算公式来计算每首乐曲的元数据。例如,为了生成用于计算音乐的曲调的计算公式,仅有必要输入指示音乐的曲调的判定值作为教师数据以及输入多个曲调已知的音乐数据的对数谱作为评估数据。通过使用由特征量计算公式生成设备10通过学习处理从这些输入中生成的计算公式并且通过向计算公式输入整首乐曲的对数谱,计算出乐曲的音乐的曲调作为每首乐曲的元数据。当然,对于计算乐曲的流派作为每首乐曲的元数据的情况同样如此。以这种方式计算出的每首乐曲的元数据被存储在元数据存储单元112中。
以上,已经描述了信息处理设备100的结构元件中有关音乐分析方法的结构元件的功能。如上所述,有关音乐数据的各种元数据通过音乐分析单元110的分析处理被存储在元数据存储单元112中。因此,以下,将描述通过使用元数据存储单元112中所存储的各种元数据来逼真地可视化音乐数据的方法。有关可视化方法的结构元件是可视化参数确定单元114和可视化单元116。以下,将描述这些结构元件的功能。
(2-5.可视化参数确定单元114的配置)
首先,将描述可视化参数确定单元114的配置。可视化参数确定单元114是用于基于元数据存储单元112中所存储的各种元数据来确定用于控制对象的参数的装置。此外,该对象可以是被实现为CG图像的演奏场景中出现的角色、从外部连接到信息处理设备100的机器人等。以下,作为示例,将描述在被实现为CG图像的演奏场景上反映元数据存储单元112中所存储的各种元数据的方法。
(2-5-1.可视化参数确定方法的概要)
首先,参考图89,将描述由可视化参数确定单元114进行的一连串处理的流程。图89中所示的流程图示出由可视化参数确定单元114进行的总体处理流程。
如图89中所示,首先,可视化参数确定单元114从元数据存储单元112获取作为音乐分析单元110的分析处理的结果得到的元数据(S202)。例如,获取拍子、基调、和弦进行、旋律线、贝斯线、各种乐器声音的存在概率和独奏概率、音乐的曲调和流派、音乐结构等。然后,可视化参数确定单元114基于当前的时间和元数据来确定用于控制诸如舞台灯光和聚光灯之类的照明的照明参数(S204)。然后,可视化参数确定单元114确定用于控制类似观众的对象(以下,称为观众对象)的移动的观众参数(S206)。接着,可视化参数确定单元114确定用于控制类似演奏者的对象(以下,称为演奏者对象)的移动的演奏者参数(S208)。然后,可视化参数确定单元114向可视化单元116输出照明参数、观众参数和演奏者参数作为可视化参数(S210),并且结束一连串的可视化参数确定处理。以下,将详细描述各个步骤的处理。
(2-5-2.可视化参数确定方法的细节)
以下,将详细描述可视化参数确定方法。
(CG图像的演奏场景的配置)
首先,参考图90,将描述可视化单元116基于由可视化参数确定单元114确定的可视化参数而实现的演奏场景(CG图像)的一个示例。图90示出由可视化单元116实现的演奏场景的示例。CG图像包括演奏者对象,演奏者对象的一部分分别是歌唱家、吉他、贝斯、键盘乐器、鼓、琴弦乐器和铜管乐器。观众对象被布置在舞台的前面。此外,设置舞台灯光和聚光灯以用于照明。以下,将描述用于控制目标对象的参数的确定方法,其中,目标对象是演奏者对象和观众对象的移动、照明和背景颜色。当然,本实施例的应用范围不限于此,并且例如可以通过使用元数据来表示发言者的操作或可以在后面显示另一图像。
(照明参数确定方法)
首先,参考图91至96,将描述照明参数确定方法。图91是示出照明参数的基本设置示例的说明性示图。图92是示出有关背景颜色的照明参数的设置示例的说明性示图。图93是有关舞台灯光和聚光灯的照明参数的设置示例。图94是示出针对舞台灯光的照明参数的详细设置的示例的 说明性示图。图95和图96是有关照明参数确定处理的流程的说明性示图。
首先,将参考图91。如图91中所示,可视化参数确定单元114设置背景颜色的颜色和亮度、各个舞台灯光的颜色、亮度和角度以及各个聚光灯的颜色和亮度作为照明参数。例如,以使用从0至255的值指示红(R)、绿(G)和蓝(B)的各个密度的RGB来表示颜色。此外,用以特定亮度为参考从0至100%的值来表示亮度。此外,当灯光被转向舞台时,角度为0,当灯光被转向观众时,角度为90度。此外,如图90中所示,设置多个舞台灯光和聚光灯。例如,针对各个演奏者对象设置聚光灯。因此,可以针对各个灯光或者针对包括多个灯光的一个特定组来设置照明参数。由可视化参数确定单元114确定的照明参数被输入可视化单元116,并且在音乐数据的再现期间被实时反映在CG图像上。
接着,将参考图92。如图92中所示,可视化参数确定单元114可以根据当前时间来改变背景颜色。例如,当当前时间是白天时,可视化参数确定单元114将背景颜色设置为蓝色,并且将背景颜色的亮度设置为100%。此外,当当前时间是傍晚时,可视化参数确定单元114将背景颜色设置为橙色,并且将背景颜色的亮度设置为10%。此外,当当前时间是夜晚时,可视化参数确定单元114将背景颜色设置为黑色,并且将背景颜色的亮度设置为0%。通过根据当前时间来改变背景颜色,CG图像世界和现实世界中的时间相一致并且可以增强真实感。此外,可视化参数确定单元114可以使用中间颜色和中间亮度使得背景颜色与当前时间的过去相同步地在白天、傍晚和夜晚之间平缓地改变。
接着,将参考图93。如图93中所示,可视化参数确定单元114基于元数据存储单元112中所存储的元数据中指示音乐数据的流派的元数据来针对各个流派确定舞台灯光和聚光灯的可视化参数。此外,当处理根据流派要被分支时,处理被设置为被分支到这样的流派,该流派具有由元数据检测单元148检测出作为每首乐曲的元数据的各个流派的概率中的最高概率。例如,当存在五个分支时,即,流行乐、摇滚乐、舞曲、爵士乐和古 典乐,并且概率分别是80%、70%、90%、20%和0%时,处理被分支到概率最高的舞曲。
例如,当音乐数据的流派是摇滚乐时,可视化参数确定单元114随每个小节改变舞台灯光的颜色。此时,可视化参数确定单元114基于元数据存储单元112中所存储的由小节线检测单元140检测出的有关小节线的信息,来确定改变颜色的定时。此外,可视化参数确定单元114对每个四分之一音符来改变舞台灯光的颜色变化样式。此时,可视化参数确定单元114基于元数据存储单元112中所存储的元数据中由拍子检测单元132检测到的有关拍子的信息,来确定颜色变化样式的切换定时。此外,可视化参数确定单元114将舞台灯光的角度设置为30度。此外,可视化参数确定单元114将聚光灯的颜色设置为白色。
作为另一示例,当音乐数据的流派是爵士乐时,可视化参数确定单元114将舞台灯光的颜色设为暖色。然而,可视化参数确定单元114不改变舞台灯光的亮度样式。此外,可视化参数确定单元114将舞台灯光的角度设为0度。此外,可视化参数确定单元114将聚光灯的颜色设为蓝色。作为另一示例,当音乐数据的流派是古典乐时,可视化参数确定单元114将舞台灯光的颜色设为白色。然而,可视化参数确定单元114不改变舞台灯光的亮度样式。此外,可视化参数确定单元114将舞台灯光的角度设为45度。此外,可视化参数确定单元114将聚光灯的颜色设为白色。然而,当流派是摇滚乐或舞曲时,舞台灯光与拍子同步地变化。
接着,将参考图94。如上所述,当音乐数据的流派是摇滚乐时,可视化参数确定单元114随每一小节改变舞台灯光的颜色。此时,可视化参数确定单元114根据如图94中所示的特定样式来改变颜色。例如,在样式编号1的颜色变化样式的情况中,可视化参数确定单元114将舞台灯光的颜色在红和绿之间切换。此外,在样式编号2的颜色变化样式的情况中,可视化参数确定单元114将舞台灯光的颜色在紫和白之间切换。此外,在样式编号3的颜色变化样式的情况中,可视化参数确定单元114将舞台灯光的颜色在浅蓝和绿之间切换。此外,在样式编号4的颜色变化样式的情况中,可视化参数确定单元114将舞台灯光的颜色在黄和白之间切换。
接着,将参考图95和图96来描述有关照明参数确定方法的一连串处理的流程。首先,将参考图95。如图95中所示,首先,可视化参数确定单元114基于元数据存储单元112中所存储的指示流派的元数据来判定正被演奏的乐曲的流派(S220)。当流派是流行乐、摇滚乐和舞曲中的任何一种时,可视化参数确定单元114进行到步骤S222的处理。此外,当流派为爵士乐时,可视化参数确定单元114继续进行到步骤S224。此外,当流派是古典乐时,可视化参数确定单元114继续进行到步骤S226的处理。
在步骤S222中,可视化参数确定单元114将舞台灯光的角度设为30度并且将聚光灯的颜色设为白色(S222),并且继续进行到步骤S228。此外,在步骤S224中,可视化参数确定单元114将舞台灯光的颜色设为暖色并且将角度设为0度,将聚光灯的颜色设为蓝色(S224),并且继续进行到步骤S236的处理(图96)。此外,在步骤S226,可视化参数确定单元114将舞台灯光的颜色设为白色并且将角度设为45度,将聚光灯的颜色设为白色(S226),并且继续进行到步骤S236的处理(图96)。
在步骤S228中,可视化参数确定单元114基于元数据存储单元112中所存储的指示小节线位置的元数据来判定小节线变化的存在与否(S228)。当存在小节线变化时,可视化参数确定单元114继续进行到步骤S230的处理。另一方面,当不存在小节线变化时,可视化参数确定单元114继续进行到步骤S232的处理。在步骤S230中,可视化参数确定单元114根据图94中所示的表格来改变舞台灯光的颜色样式(S230)。此外,每次小节线改变时递增样式编号。然而,在最后的样式编号(4)之后,样式编号返回第一样式编号(1)。
在步骤S232中,首先,可视化参数确定单元114参考元数据存储单元112中所存储的指示拍子位置的元数据和指示音乐结构的元数据。之后,可视化参数确定单元114判定拍子是否改变以及是否副歌部分正被再现并且被再现的部分在拍子的半中间(S232)。在拍子已被改变,或副歌部分当前正被再现并且被再现的部分在拍子的半中间的情况中,可视化参数确定单元114继续进行到步骤S234的处理。相反,在其它情况中,可 视化参数确定单元114继续进行到步骤S236的处理(图96)。在步骤S234中,切换舞台灯光的颜色(S234)。即,在副歌部分以半拍的时间间隔切换颜色。此外,舞台灯光的颜色如图90所示被交替布置,并且颜色被交替切换。
现在,将参考图96。在步骤S236中,可视化参数确定单元114从元数据存储单元112中获取指示各种乐器声音的存在概率的元数据(S236)。然后,可视化参数确定单元114针对各种乐器声音的存在概率按时间序列计算移动平均(S238)。接着,可视化参数确定单元114将步骤S238中针对各种乐器声音计算出的平均值设置为针对相应乐器的演奏者的聚光灯亮度(S240)。接着,可视化参数确定单元114参考元数据存储单元112中所存储的指示音乐结构的元数据并且判定其是否是序曲(S242)。在序曲的情况中,可视化参数确定单元114继续进行到步骤S244的处理。另一方面,在不是序曲的情况中,可视化参数确定单元114继续进行到步骤S246的处理。
在步骤S244中,可视化参数确定单元114将舞台灯光的亮度设置为一半(S244)。在步骤S246中,可视化参数确定单元114从元数据存储单元112中获取指示乐曲的年代的元数据,并且根据该元数据所指示的年代来调节照明的颜色(S246)。例如,当年代久远(例如,100年前)时,颜色是单色的;当年代有些久远(例如,50年前)时,颜色被调节为深褐色;而当年代新近时,颜色被调节为鲜明的。照明参数是通过上述一连串处理来确定的。
(观众参数确定方法)
接着,参考图97至图101,将描述观众参数确定方法。图97是示出观众参数的设置的示例的说明性示图。图98是示出观众参数的类型的示例的说明性示图。图99是示出有关观众参数确定方法的处理的总体流程的说明性示图。图100是示出对于正在演奏活泼的音乐的情况,有关观众参数确定方法的处理的流程的说明性示图。图101是示出对于正在演奏安静的音乐的情况,有关观众参数确定方法的处理的流程的说明性示图。
首先,将参考图97。如图97中所示,观众参数是根据音乐的曲调来设置的。例如,当音乐的曲调是活泼的时,观众参数被设置使得观众对象在序曲部分保持静止,在副歌部分随着拍子跳跃,并且在其它部分仅上下移动头。此外,当音乐的曲调是安静的时,观众参数被设置使得使得观众对象在序曲部分保持静止,在副歌部分随着各个小节左右摆动举起的手臂,并且在其它部分仅左右移动头。此外,当音乐的曲调是古典的时,观众参数被设置使得观众对象始终保持静止。
在图98中示出基于上述观众参数设置示例的观众对象的移动。图98(98A)示出受观众参数控制的观众对象的可移动部分中头的移动。观众对象的头可以上下或左右移动。如上所述,当音乐的曲调是活泼的时,观众对象的头受控制而上下移动。此外,当音乐的曲调是安静的时,观众对象的头受控制而左右移动。此外,当音乐的曲调是古典的时,观众对象的头保持静止。
图98(98B)示出受观众参数控制的观众对象的可移动部分中身体的位置(整体位置)的移动。观众对象的整体位置能够上下移动(跳跃)。如上所述,当音乐的曲调是活泼的时,观众对象受控制而在副歌部分随着拍子跳跃。此外,当音乐的曲调是安静的或古典的时,观众对象不跳跃。图98(98C)示出受观众参数控制的观众对象的可移动部分中手臂的移动。观众对象的手臂可以举起或放下以及左右摆动。如上所述,当音乐的曲调是活泼的或古典的时,观众对象受控制而放下手臂。此外,当音乐的曲调是安静的时,观众对象在副歌部分举起手臂而并且随着每个小节左右摆动手臂。
接着,将参考图99。如图99中所示,首先,可视化参数确定单元114获取元数据存储单元112中所存储的指示音乐的曲调的元数据,并且基于该元数据来判定音乐的曲调(S250)。当音乐的曲调是活泼的时,可视化参数确定单元114进行到步骤S252的处理。此外,当音乐的曲调是安静的时,可视化参数确定单元114进行到步骤S254的处理。此外,当音乐的曲调是古典的时,可视化参数确定单元114进行到步骤S256的处理。
在步骤S252中,由可视化参数确定单元114执行执行针对活泼的音乐的参数确定处理(S252)。在步骤S254中,由可视化参数确定单元114执行针对安静的音乐的参数确定处(S254)。在步骤S256中,由可视化参数确定单元114执行针对古典音乐的参数确定处(S256)。当步骤S252、S254和S256中的任何一个步骤的参数确定处理被执行时,有关观众参数确定方法的一连串处理结束。
接着,将参考图100来描述针对活泼的音乐的参数确定处理(S252)。如图100中所示,首先,可视化参数确定单元114获取元数据存储单元112中所存储的指示音乐结构的元数据,并且基于该元数据来判定音乐结构(S258)。当音乐结构是序曲的音乐结构时,可视化参数确定单元114进行到步骤S260的处理。此外,当音乐结构是副歌部分的音乐结构时,可视化参数确定单元114进行到步骤S262的处理。此外,当音乐结构是其它部分的音乐结构时,可视化参数确定单元114进行到步骤S264的处理。
在步骤S260中,观众对象受可视化参数确定单元114控制而在默认位置处保持静止(S260)。在步骤S262中,观众对象受可视化参数确定单元114控制而在使得观众对象在拍子位置处着地的定时随着拍子跳跃(S262)。此时,可视化参数确定单元114基于元数据存储单元112中所存储的指示拍子位置的元数据来确定跳跃的定时。在步骤S264中,以使得观众对象的头随着拍子上下移动的方式来控制移动(S264)。此时,可视化参数确定单元114基于元数据存储单元112中所存储的指示拍子位置的元数据来确定上下移动头的定时。当步骤S260、S262和S264中任一步骤的处理被执行时,有关活泼的音乐的观众参数确定处理结束。
接着,将参考图101来描述针对安静的音乐的参数确定方法(S254)。如图101中所示,首先,可视化参数确定单元114获取元数据存储单元112中所存储的指示音乐结构的元数据,并且基于该元数据来判定音乐结构(S266)。当音乐结构是序曲部分的音乐结构时,可视化参数确定单元114进行到步骤S268的处理。此外,当音乐结构是副歌部分的音乐结构时,可视化参数确定单元114进行到步骤S270的处理。此外, 当音乐结构是其它部分的音乐结构时,可视化参数确定单元114进行到步骤S272的处理。
在步骤S268中,观众对象受可视化参数确定单元114控制而在默认位置处保持静止(S268)。在步骤S270中,观众对象的移动受可视化参数确定单元114控制,使得头和举起的手臂随着每个小节而左右摆动(S270)。此时,可视化参数确定单元114基于元数据存储单元112中所存储的指示拍子位置的元数据来确定摆动头和手臂的定时。在步骤S272中,由可视化参数确定单元114控制移动使得观众对象的头随着拍子左右摆动(S272)。此时,可视化参数确定单元114基于元数据存储单元112中所存储的指示拍子位置的元数据来确定左右摆动头的定时。当步骤S268、S270和S272中的任何一个步骤的处理被执行时,有关安静的音乐的观众参数确定处理结束。
(演奏者参数确定方法)
接着,将参考图102至图127来描述演奏者参数确定方法。作为演奏者参数,存在针对演奏者对象的每种类型而设置的演奏者参数并且存在不论类型如何而设置的演奏者参数。不论演奏者对象的类型如何而设置的演奏者参数例如包括演奏者对象的显示/不显示之间的切换、衣服的颜色等。
演奏者对象的显示/不显示之间的切换是基于每种乐器声音的存在概率来执行的。用于切换的每种乐器声音的存在概率是作为每首乐曲的元数据计算出来的每种乐器声音的存在概率。例如,与对于整首乐曲具有低存在概率的乐器声音对应的演奏者对象被设置为不显示(参考图102中的(C))。此外,演奏者对象的衣服是基于音乐的流派的。例如,当流派是古典乐或爵士乐时,演奏者对象的衣服设为黑色套装、无尾礼服等等。另一方面,当流派是摇滚乐时,演奏者对象的衣服例如设为针对演奏者对象的每种类型而确定的颜色的T恤,如果季节是秋季或冬季的话。
以下将详细描述对于演奏者对象的每种类型不同的演奏者参数确定方法。然而,在本实施例中,将仅对七种乐器的演奏者对象进行描述,这七种乐器是歌声、吉他、贝斯、键盘乐器、鼓、琴弦乐器和铜管乐器。当 然,根据本实施例的技术的应用范围不限于以上这些,并且其它乐器的演奏者对象的演奏者参数也可以以这种方式来确定。
(歌声)
首先,将参考图102和图103来描述适用于歌声的演奏者对象的演奏者参数确定方法。图102是示出歌声的对象参数的类型的说明性示图。图103是示出与有关歌声的演奏者参数确定方法有关的处理流程的说明性示图。
首先,将参考图102。如图102中所示,有关歌声的演奏者参数包括演奏者对象的长度和宽度大小、发型、张嘴大小、握麦克风的手的角度、没有握麦克风的手的位置、眼睛的形状(表情)等。演奏者对象的长度和宽度大小是基于由元数据检测单元148检测出作为每首乐曲的元数据的歌唱家身高、体重等来确定的。
例如,可视化参数确定单元114基于元数据存储单元112中所存储的指示歌唱家身高的元数据来确定演奏者对象的长度大小。然后,可视化参数确定单元114基于元数据存储单元112中所存储的指示歌唱家身高和体重的元数据来确定歌声演奏者对象的宽度大小。通过以这种方式在演奏者对象上反映与从音乐数据的波形估计出的歌唱家的物理特征有关的信息,每首乐曲将在视觉上是不同的,从而防止用户感到无趣。
此外,演奏者对象的发型是基于由元数据检测单元148检测到的歌唱家的性别和音乐流派来确定的。例如,当歌唱家被估计出是女性时,歌声的演奏者对象被设为拥有长发。此外,当歌唱家被估计出是男性并且音乐流派被估计出是摇滚乐时,歌声的演奏者对象被设为拥有直立的头发。此外,当流派是说唱乐时,头发设为短发。
此外,演奏者对象的张嘴大小和握麦克风的手的角度是基于歌声存在概率来确定的。例如,当歌声存在概率高时,嘴巴被设为张得宽。此外,歌声存在概率越高,麦克风被设置为离嘴巴越近。此外,没有握麦克风的手的位置(水平)是基于旋律线来确定的。例如,当旋律的音调高时,没有握麦克风的手的位置被设置为高。相反,当旋律的音调低时,没有握麦 克风的手的位置被设置为低。此外,当确定是在另一种乐器的独奏期间时,没有握麦克风的手的位置是固定的。
此外,眼睛的形状是基于元数据存储单元112中所存储的指示音乐的曲调的元数据来设置的,并且在活泼的音乐的情况中,其被设置为是正常的。另一方面,在安静的音乐的情况中,眼睛被设置为是闭上的。此外,可视化参数确定单元114基于由旋律检测单元144检测到的有关旋律线的信息使得眼睛的形状是X形的。例如,可视化参数确定单元114针对整首乐曲来计算旋律的平均音调和音调的标准差,并且当当前旋律的音调高于“平均音调+3×标准差”时或当声音是喊叫时,可视化参数确定单元114使得眼睛是一个叉。
这里,将参考图103来描述有关歌声演奏者对象的演奏者参数确定处理的流程。如图103所示,首先,可视化参数确定单元114基于歌唱家的身高和体重来确定演奏者对象的长度大小和宽度大小(S280)。此时,将参考元数据存储单元112中所存储的指示歌唱家的身高和体重的元数据。接着,可视化参数确定单元114基于音乐的流派和歌唱家的性别来确定歌声演奏者对象的发型(S282)。此时,参考元数据存储单元112中所存储的指示音乐的流派的元数据和指示歌唱家的性别的元数据。
接着,可视化参数确定单元114基于元数据存储单元112中所存储的有关旋律线的信息来确定当前旋律的音调是否是“平均值+3σ”或更大,或者歌唱家的声音是否是喊叫。该平均值是整首乐曲的旋律线的平均音调。此外,σ是整首乐曲的旋律线的音调的标准差。当旋律线的音调是“平均值+3σ”或更大时,或当歌唱家的声音是喊叫时,可视化参数确定单元114进行到步骤S286的处理。另一方面,当当前旋律的音调不满足上述条件时,可视化参数确定单元114进行到步骤S288的处理。
在步骤S286中,歌声演奏者对象的眼睛被可视化参数确定单元114设置为X形(S286)。另一方面,在步骤S288中,可视化参数确定单元114参考元数据存储单元112中所存储的指示音乐的曲调的元数据并且判定音乐的曲调(S288)。在活泼的音乐的情况中,可视化参数确定单元114进行到步骤S290的处理。另一方面,在安静的音乐的情况中,可视化 参数确定单元114进行到步骤S292的处理。在步骤S290中,演奏者对象的眼睛被可视化参数确定单元114设置为正常的眼睛(S290)。在步骤S292中,演奏者对象的眼睛被可视化参数确定单元114设置为闭上的眼睛(S292)。
当步骤S286、S290和S292中的任何一个步骤的处理完成时,可视化参数确定单元114进行到步骤S294的处理。在步骤S294中,可视化参数确定单元114从元数据存储单元112中读取有关旋律线的信息并且基于有关旋律线的信息来确定没有握麦克风的手的位置(S294)。然后,可视化参数确定单元114参考元数据存储单元112中所存储的歌声存在概率并且基于存在概率来确定演奏者对象的张嘴大小和握麦克风的手的角度(S296)。当步骤S296的处理结束时,可视化参数确定单元114结束有关歌唱家的演奏者参数确定处理。
(吉他)
接着,将参考图104至109来描述适用于吉他演奏者对象的演奏者参数确定方法。图104是示出针对吉他独奏的情况的演奏者参数设置的示例的说明性示图。图105是示出针对不是吉他独奏的情况的演奏者参数设置的示例的说明性示图。图106是示出适用于吉他演奏者对象的演奏者参数的类型的说明性示图。图107是示出与针对吉他的演奏者参数确定方法有关的总体处理的说明性示图。图108是示出针对吉他独奏的情况,与针对吉他的演奏者参数确定方法有关的处理的流程的说明性示图。图109是示出针对不是吉他独奏的情况,与针对吉他的演奏者参数确定方法有关的处理的流程的说明性示图。
首先,如图106中所示,有关吉他的演奏者参数包括弹奏吉他弦的手的角度、握吉他颈的手的位置、眼睛的形状(表情)、后仰角度(姿势)和张嘴大小。指示张嘴大小的吉他演奏者参数是基于作为时间序列数据的同音存在概率来确定的。此外,如果是吉他独奏,则指示后仰角度的吉他演奏者参数是基于旋律线来确定的。例如,旋律线的音调越高,则指示后仰角度的演奏者参数被设置得越大。另一方面,如果不是吉他独奏,则演 奏者参数被设置使得后仰角度为0(直立姿势)。对吉他是否是独奏的判定是基于吉他独奏概率是否是某一水平或更大来执行的。
此外,指示眼睛形状(表情)的吉他演奏者参数被设置使得当是吉他独奏时眼睛变成X形,并且被设置使得在其它情况中,眼睛是正常的眼睛。指示握吉他颈的手的位置的演奏者参数,如果是吉他独奏,则是基于旋律线的音调来设置的,如果不是吉他独奏,则是基于和弦名称来设置的。例如,在吉他独奏的情况中,握吉他颈的手的位置是基于图104中所示的演奏者参数设置的示例来确定的。
例如,当旋律在E2与G#2之间时,演奏者参数被设置使得手的位置在第一根吉他弦上,在E2的情况中与吉他头最接近,并且当音符越接近G#2时越接近身体。类似地,当旋律在A2与C#3之间时,演奏者参数被设置使得手的位置在第二根吉他弦上,在A2的情况中与吉他头最接近,并且音符越接近C#3时越接近身体。当旋律在D3与F#3之间时,演奏者参数被设置使得手的位置在第三根吉他弦上,在D3的情况中与吉他头最接近,并且当音符越接近F#3时越接近身体。当旋律在G3与A#3之间时,演奏者参数被设置使得手的位置在第四根吉他弦上,在G3的情况中与吉他头最接近,并且当音符越接近A#3时越接近身体。当旋律在B3与D#4之间时,演奏者参数被设置使得手的位置在第五根吉他弦上,在B3的情况中与吉他头最接近,并且当音符越接近D#4时越接近身体。当旋律高于E4时,演奏者参数被设置使得手的位置在第六根吉他弦上,在E4的情况中与吉他头最接近,并且当音符变得越高时越接近身体。
另一方面,在是吉他独奏的情况中,握吉他颈的手的位置是基于图105中所示的演奏者参数的示例来确定的。如图105中所示,在不是吉他独奏的情况中,握吉他颈的手的位置是基于元数据存储单元112中所存储的和弦的根音音符来确定的。图105的示例可以示出对于假定和弦是在与吉他头最接近的位置处被演奏的情况的位置。例如,当和弦的根音音符是E、F、F#、G和G#中的任何一个时,握吉他颈的手的位置被设置为在E的情况中离吉他头最近,并且当音符越接近G#时越接近身体。类似地,当和弦的根音音符是A、A#、B、C、C#、D和D#中的任何一个时,握吉 他颈的手的位置被设置为在A的情况中离吉他头最近,并且当音符越接近D#时越接近身体。
此外,如图106中所示,在吉他独奏的情况中,弹奏吉他弦的手的角度被设置以在旋律线的变化的精确定时弹奏吉他弦。此时,角度变化范围θ1被设置得小。另一方面,在不是吉他独奏的情况中,弹奏吉他弦的手的角度被设置以使手随着每个拍子来回移动。此外,角度变化范围θ2被设置得大。吉他存在概率越高,则变化范围被设置得越大。
这里,将参考图107至图109来描述有关吉他的演奏者参数确定方法。
首先,参考图107,将描述有关吉他的演奏者参数确定处理的总体流程。如图107中所示,首先,可视化参数确定单元114确定吉他独奏概率是否是预先设置的特定值或更大(S300)。当吉他独奏概率是特定值或更大时,可视化参数确定单元114进行到步骤S302的处理。另一方面,当吉他独奏概率小于特定值时,可视化参数确定单元114进行到步骤S304的处理。在步骤S302中,由可视化参数确定单元114执行针对吉他独奏情况的参数设置处(S302)。在步骤S304中,由可视化参数确定单元114执行针对不是吉他独奏的情况的参数设置处理(S304)。当步骤S302和S304的处理中的任一处理被执行时,可视化参数确定单元114进行到步骤S306的处理。在步骤S306中,可视化参数确定单元114参考同音存在概率并且基于同音存在概率来确定演奏者对象的张嘴大小(S306)。
接着,将参考图108来描述针对吉他独奏的情况的参数确定处理。如图108中所示,首先,可视化参数确定单元114将吉他演奏者对象的表情设置为X形眼睛(S308)。接着,可视化参数确定单元114基于旋律音调来确定演奏者对象的后仰角度(S310)。然后,可视化参数确定单元114基于旋律音调来确定握吉他颈的手的位置(S312)。然后,可视化参数确定单元114基于旋律音调变化定时和吉他存在概率来确定弹奏吉他弦的手的角度(S314)。
接着,将参考图109来描述对于不是吉他独奏的情况的参数确定处理。如图109中所示,首先,可视化参数确定单元114将吉他演奏者对象 的表情设置为正常的眼睛(S316)。接着,可视化参数确定单元114将吉他演奏者对象的后仰角度设置为0(直立姿势)(S318)。然后,可视化参数确定单元114基于当前和弦的根音来确定握吉他颈的手的位置(S320)。然后,可视化参数确定单元114判定吉他存在概率是否是预先设置的特定值或更大(S322)。
当吉他存在概率是特定值或更大时,可视化参数确定单元114进行到步骤S324的处理。另一方面,当吉他存在概率小于特定值时,可视化参数确定单元114进行到步骤S326的处理。在步骤S324中,由可视化参数确定单元114基于拍子位置和吉他存在概率来确定弹奏吉他弦的手的角度(S324)。在步骤S326中,由可视化参数确定单元114将弹奏吉他弦的手的角度设置为是固定的(S326)。当步骤S324或S326的处理被执行时,可视化参数确定单元114结束针对不是吉他独奏的情况的参数设置处理。
(贝斯)
接着,将参考图110至图114来描述适用于贝斯演奏者对象的演奏者参数确定方法。图110是示出适用于贝斯演奏者对象的演奏者参数的类型的说明性示图。图111是示出有关贝斯的演奏者参数设置的示例的说明性示图。图112是示出有关贝斯演奏者参数确定方法的总体处理流程的说明性示图。图113是示出对于贝斯独奏的情况,有关贝斯演奏者参数确定方法的处理流程的说明性示图。图114是示出对于不是贝斯独奏的情况,有关贝斯演奏者参数确定方法的处理流程的说明性示图。
首先,如图110中所示,有关贝斯的演奏者参数包括弹奏贝斯弦的手的角度、握贝斯颈的手的角度、眼睛的形状(表情)、后仰角度(姿势)和张嘴大小。指示张嘴大小的贝斯演奏者参数是基于作为时间序列数据的同音存在概率来确定的。此外,在贝斯独奏的情况中,指示后仰角度的贝斯演奏者参数是基于贝斯线来确定的。例如,贝斯线的音调越高,则指示后仰角度的演奏者参数被设置得越大。另一方面,在不是贝斯独奏的情况中,演奏者参数被设置使得后仰角度为0(直立姿势)。贝斯是否是独奏的判定是基于贝斯独奏概率是否是某一水平或更大来执行的。
此外,指示眼睛形状(表情)的贝斯演奏者参数被设置使得当是贝斯独奏时,眼睛变成X形,并且被设置使得在其它情况中眼睛是正常的眼睛。指示手握贝斯颈的位置的演奏者参数是基于贝斯线的音调来设置的。例如,手握贝斯颈的位置是基于图111中所示的演奏者参数设置的示例来确定的。
例如,当贝斯线是在E1与G#1之间时,演奏者参数被设置使得手的位置在第一根贝斯弦上,并且在E1的情况中最接近贝斯头,并且当音符越接近G#1时越接近身体。类似地,当贝斯线是在A1与C#2之间时,演奏者参数被设置使得手的位置在第二根贝斯弦上,并且在A1的情况中最接近贝斯头,并且当音符越接近C#2时越接近身体。当贝斯线是在D2与F#2之间时,演奏者参数被设置使得手的位置在第三根贝斯弦上,并且在D2的情况中最接近贝斯头,并且当音符越接近F#2时越接近身体。当贝斯线高于G2时,演奏者参数被设置使得手的位置在第四根贝斯弦上,并且在G2的情况中最接近贝斯头,并且当音符越高时越接近身体。
此外,如图110中所示,在贝斯独奏的情况中,弹奏贝斯弦的手的角度被设置使得在贝斯线变化的提取定时弹奏贝斯弦。此时,角度变化范围θ1被设置得小。另一方面,在不是贝斯独奏的情况中,弹奏贝斯弦的手的角度被设置使得手随着每个八分之一音符前后移动。此外,角度变化范围θ2被设置得大。贝斯存在概率越高,则变化范围被设置得越大。
这里,将参考图112至图114来描述有关贝斯的演奏者参数确定方法。
首先,将参考图112来描述有关贝斯的演奏者参数确定方法。如图112中所示,首先,可视化参数确定单元114确定贝斯独奏概率是否是预先设置的特定值或更大(S330)。当贝斯独奏概率是特定值或更大时,可视化参数确定单元114进行到步骤S332的处理。另一方面,当贝斯独奏概率小于特定值时,可视化参数确定单元114进行到步骤S334的处理。在步骤S332中,由可视化参数确定单元114执行针对贝斯独奏情况的参数设置处(S332)。在步骤S334中,由可视化参数确定单元114执行针对不是贝斯独奏的情况的参数设置处理(S334)。当步骤S332和S334 的处理中的任一处理被执行时,可视化参数确定单元114进行到步骤S336的处理。在步骤S336中,可视化参数确定单元114参考同音存在概率并且基于同音存在概率来确定演奏者对象的张嘴大小(S336)。然后,可视化参数确定单元114基于贝斯线的音调来确定握贝斯颈的手的位置(S338),并且结束这一连串处理。
接着,将参考图113来描述针对贝斯独奏的情况的参数确定处理。如图113中所示,首先,可视化参数确定单元114将贝斯演奏者对象的表情设置为X形眼睛(S340)。接着,可视化参数确定单元114基于贝斯线的音调来确定演奏者对象的后仰角度(S342)。然后,可视化参数确定单元114基于贝斯音调变化定时和贝斯存在概率来确定弹奏贝斯弦的手的角度(S344)。
接着,将参考图114来描述对于不是贝斯独奏的情况的参数确定处理。如图114中所示,首先,可视化参数确定单元114将贝斯演奏者对象的表情设置为正常的眼睛(S346)。接着,可视化参数确定单元114将贝斯演奏者对象的后仰角度设置为0(直立姿势)(S348)。然后,可视化参数确定单元114判定贝斯存在概率是否是预先设置的特定值或更大(S350)。当贝斯存在概率是特定值或更大时,可视化参数确定单元114进行到步骤S354的处理。另一方面,当贝斯存在概率小于特定值时,可视化参数确定单元114进行到步骤S352的处理。
在步骤S354中,可视化参数确定单元114判定流派是否是摇滚乐、流行乐或舞曲中的任何一种(S354)。当流派是摇滚乐、流行乐或舞曲中的任何一种时,可视化参数确定单元114进行到步骤S356的处理。另一方面,当流派不是摇滚乐、流行乐或舞曲中的任何一种时,可视化参数确定单元114进行到步骤S358的处理。在步骤S356中,由可视化参数确定单元114基于拍子位置和贝斯存在概率来确定弹奏贝斯弦的手的角度(S356)。
在步骤S358中,可视化参数确定单元114基于贝斯音调变化定时和贝斯存在概率来确定弹奏贝斯弦的手的角度(S358)。此外,在步骤S352中,弹奏贝斯弦的手的角度被可视化参数确定单元114设置为是固定的 (S352)。当步骤S352、S356和S358的处理中的任何处理被执行时,可视化参数确定单元114结束针对不是贝斯独奏的情况的演奏者参数确定处理。
(键盘乐器,鼓)
现在,将参考图115至图119来描述适用于键盘乐器和鼓的演奏者对象的演奏者参数确定方法。图115是示出适用于键盘乐器和鼓的演奏者对象的演奏者参数类型的说明性示图。图116是示出有关键盘乐器演奏者参数确定方法的总体处理流程的说明性示图。图117是示出如果是键盘乐器独奏,有关键盘乐器演奏者参数确定方法的处理流程的说明性示图。图118是示出如果不是键盘乐器独奏,有关键盘乐器演奏者参数确定方法的处理流程的说明性示图。图119是示出有关鼓演奏者参数确定方法的处理流程的说明性示图。
首先,将描述针对键盘乐器的演奏者参数。如图115中所示,有关键盘乐器的演奏者参数包括左右手的位置、眼睛的形状(表情)和张嘴大小。指示张嘴大小的键盘乐器演奏者参数是基于作为时间序列数据的同音存在概率来确定的。此外,指示眼睛的形状(表情)的键盘乐器演奏者参数被设置使得当为键盘乐器独奏时,眼睛变成X形,并且被设置为使得在其它情况中,眼睛为正常的眼睛。指示左手和右手的位置的演奏者参数是基于旋律线和贝斯线的音调来设置的。例如,指示手的位置的演奏者参数被设置使得音调越高,手越朝右,并且音调越低,手越朝左。然而,在不是键盘乐器独奏的情况中,手的位置基于当前的和弦被设置为预定位置。
这里,将参考图116至图118来描述有关键盘乐器的演奏者参数确定方法。
首先,将参考图116来描述有关键盘乐器的演奏者参数确定处理的总体流程。如图116中所示,首先,可视化参数确定单元114判断键盘乐器独奏概率是否是预先设置的特定值或更大(S360)。当键盘乐器独奏概率是特定值或更大时,可视化参数确定单元114进行到步骤S362的处理。另一方面,当键盘乐器独奏概率小于特定值时,可视化参数确定单元114进行到步骤S364的处理。
在步骤S362中,由可视化参数确定单元114执行针对键盘乐器独奏的情况的参数设置处理(S362)。在步骤S364中,由可视化参数确定单元114执行针对不是键盘乐器独奏的情况的参数设置处理。当步骤S362和S364的处理中的任何一个被执行时,可视化参数确定单元114进行到步骤S366的处理。在步骤S366中,可视化参数确定单元114参考同音存在概率并且基于同音存在概率来确定演奏者对象的张嘴大小(S366)。
接着,将参考图117来描述针对键盘乐器独奏的情况的参数确定处理。如图117中所示,首先,可视化参数确定单元114将键盘乐器演奏者对象的表情设置为X形眼睛(S368)。接着,可视化参数确定单元114基于贝斯线的音调来确定演奏者对象的左手的位置(S370)。然后,可视化参数确定单元114基于旋律线的音调来确定演奏者对象的右手的位置(S372)。
接着,将参考图118来描述针对不是键盘乐器独奏的情况的参数确定处理。如图118中所示,首先,可视化参数确定单元114将键盘乐器演奏者对象的表情设置为正常的眼睛(S374)。接着,可视化参数确定单元114基于当前的和弦来确定两手的位置(S376)。当步骤S376的处理被执行时,可视化参数确定单元114结束针对不是键盘乐器独奏的情况的演奏者参数设置处理。
接着,将描述针对鼓的演奏者参数。如图115中所示,有关鼓的演奏者参数包括眼睛的形状(表情)、张嘴大小和踩镲、铙钹、小鼓、脚踏鼓和架子鼓的大小。指示张嘴大小的鼓演奏者参数是基于作为时间序列数据的同音存在概率来确定的。此外,指示眼睛的形状(表情)的鼓演奏者参数被设置使得当是鼓独奏时,眼睛变成X形,并且被设置使得在其它情况中,眼睛是正常的眼睛。踩镲、铙钹、小鼓、脚踏鼓和架子鼓的大小是基于作为时间序列元数据计算出来的鼓存在概率来确定的。
这里,将参考图119来描述有关鼓的演奏者参数确定方法。如图119所示,首先,可视化参数确定单元114判断鼓独奏概率是否是预先设置的特定值或更大(S380)。当鼓独奏概率是特定值或更大时,可视化参数确定单元114进行到步骤S382的处理。另一方面,当鼓独奏概率小于特定 值时,可视化参数确定单元114进行到步骤S384的处理。在步骤S382中,可视化参数确定单元114将鼓的演奏者对象的表情设置为X形的眼睛(S382)。在步骤S384中,可视化参数确定单元114将鼓的演奏者对象的表情设置为正常的眼睛(S384)。
当步骤S382和S384的处理中的任何处理被执行时,可视化参数确定单元114进行到步骤S386的处理。在步骤S386中,可视化参数确定单元114参考同音存在概率并且基于同音存在概率来确定演奏者对象的张嘴大小(S386)。然后,可视化参数确定单元114判定鼓概率是否是预先设置的特定值或更大(S388)。当鼓概率是特定值或更大时,可视化参数确定单元114进行到步骤S390的处理。另一方面,当鼓概率小于特定值时,可视化参数确定单元114进行到步骤S392的处理。
在步骤S390中,由可视化参数确定单元114基于各种鼓的存在概率来确定各种鼓的大小(S390)。在步骤S392中,所有鼓的大小被可视化参数确定单元114设置为最小(S392)。当步骤S390和S392的处理中的任何处理被执行时,可视化参数确定单元114结束有关鼓的演奏者参数设置处理。
(琴弦乐器)
接着,将参考图120至图125来描述适用于琴弦乐器的演奏者对象的演奏者参数确定方法。图120是示出适用于琴弦乐器演奏者对象的演奏者参数类型的说明性示图。图121是示出有关琴弦乐器的演奏者参数设置的示例的说明性示图。图122是示出弹奏的宽度和琴弓的移动定时的说明性示图,弹奏的宽度和琴弓的移动定时在是琴弦乐器独奏时和不是琴弦乐器独奏时是不同的。图123是示出有关琴弦乐器演奏者参数确定方法的总体处理流程的说明性示图。图124是示出对于是琴弦乐器独奏的情况,有关琴弦乐器演奏者参数确定方法的处理流程的说明性示图。图125是示出对于不是琴弦乐器独奏的情况,有关琴弦乐器演奏者参数确定方法的处理流程的说明性示图。
首先,如图120中所示,有关琴弦乐器的演奏者参数包括琴弓的位置和握琴颈的手的位置。在琴弦乐器独奏的情况中,指示琴弓位置的演奏者 参数是基于旋律变化定时来确定的。例如,如图122(122A)中所示,指示琴弓的位置的演奏者参数被确定使得琴弓在旋律变化定时移动到弓端(tip)。在琴弦乐器独奏的情况中,弹奏被设置为是小的。此外,指示握琴颈的手的位置的演奏者参数是基于旋律线来设置的。例如,握琴颈的手的位置是基于如图121中所示的演奏者参数设置的示例来确定的。
例如,当旋律线在G2与C#2之间时,演奏者参数被设置使得手的位置在第一根琴弦上,并且在G2的情况中最接近琴头,当音符越接近C#2时越接近身体。类似地,当旋律线在D3与G#3之间时,演奏者参数被设置使得手的位置在第二根琴弦上,并且在D3的情况中最接近琴头,当音符越接近G#3时越接近身体。当旋律线在A3与D#4之间时,演奏者参数被设置使得手的位置在第三根琴弦上,并且在A3的情况中最接近琴头,当音符越接近D#4时越接近身体。当旋律线高于E4时,演奏者参数被设置使得手的位置在第四根琴弦上,并且在E4的情况中最接近琴头,当音符越高时越接近身体。
在不是琴弦乐器独奏的情况中,指示琴弓的位置的(对所有琴弦乐器演奏者是共同的)演奏者参数被确定为在小节线定时随每个小节移动到弓端。在不是琴弦乐器独奏的情况中,弹奏(stroke)被设置为是非常大的。此外,握琴颈的手的位置是基于和弦构成音符来确定的。如图120中所示,针对琴弦乐器区间,布置了多个演奏者对象。例如,最左边的演奏者对象押(handle)和弦的根音。此外,左边第二和第三个演奏者对象分别押第二和第三构成音符。在图120中示出5个琴弦乐器演奏者,并且如果和弦构成音符少于5个,则两个演奏者将一起押构成音符中的一个。此外,哪个音符被包括为构成音符预先存储在一个表中。
这里,将参考图123至图125来描述有关琴弦乐器的演奏者参数确定方法。
首先,将参考图123来描述有关有关琴弦乐器的演奏者参数确定处理的总体流程。如图123中所示,首先,可视化参数确定单元114判断琴弦乐器独奏概率是否是预先设置的特定值或更大(S400)。当琴弦乐器独奏概率是特定值或更大时,可视化参数确定单元114进行到步骤S402的处 理。另一方面,当琴弦乐器独奏概率小于特定值时,可视化参数确定单元114进行到步骤S404的处理。在步骤S402中,由可视化参数确定单元114执行针对琴弦乐器独奏的情况的参数设置处理(S402)。在步骤S404中,由可视化参数确定单元114执行针对不是琴弦乐器独奏的情况的参数设置处(S404)。当步骤S402和S404的处理中的任何处理被执行时,可视化参数确定单元114结束这一连串处理。
接着,将参考图124来描述针对琴弦乐器独奏的情况的参数确定处理。如图124中所示,首先,可视化参数确定单元114基于旋律线来确定握琴颈的手的位置(S406)。然后,可视化参数确定单元114基于旋律线变化位置来确定琴弓的位置(S408)。
接着,将参考图125来描述针对不是琴弦乐器独奏的情况的参数确定处理。如图125中所示,首先,可视化参数确定单元114判断琴弦乐器存在概率是否是预先设置的特定值或更大(S410)。当琴弦乐器存在概率是特定值或更大时,可视化参数确定单元114进行到步骤S414的处理。另一方面,当琴弦乐器存在概率小于特定值时,可视化参数确定单元114进行到步骤S412的处理。
在步骤S414中,由可视化参数确定单元114基于和弦构成音符来确定握琴颈的手的位置(S414)。接着,由可视化参数确定单元114基于小节线的位置来确定琴弓的位置(S416)。另一方面,在步骤S412中,可视化参数确定单元114将握琴颈的手的位置设置为保持不变并且将琴弓设置为从小提琴上移开(S412)。当步骤S412和S416的处理中的任何处理被执行时,可视化参数确定单元114结束针对不是琴弦乐器独奏的情况的演奏者参数确定处理。
(铜管乐器)
接着,将参考图126至图127来描述适用于铜管乐器的演奏者对象的演奏者参数确定方法。图126是适用于铜管乐器的演奏者对象的演奏者参数类型的说明性示图。图127是示出有关铜管乐器的演奏者参数确定方法的处理流程的说明性示图。
首先,如图126中所示,仅根据铜管乐器的角度参数来配置有关铜管乐器的演奏者参数。铜管乐器的角度参数被设置使得铜管乐器存在概率越高,铜管乐器看起来越朝上,并且铜管乐器存在概率越低,铜管乐器看起来越朝下。此外,当铜管乐器存在概率低于特定值时,其被设置为使得铜管乐器看起来朝下并且从嘴边移开。
如图127中所示,首先,可视化参数确定单元114确定铜管乐器独奏概率是否是预先设置的特定值或更大(S420)。当铜管乐器独奏概率是特定值或更大时,可视化参数确定单元114进行到步骤S422的处理。另一方面,当铜管乐器独奏概率小于特定值时,可视化参数确定单元114进行到步骤S424的处理。在步骤S422中,由可视化参数确定单元114基于铜管乐器存在概率来确定铜管乐器的角度参数(S422)。另一方面,在步骤S424中,可视化参数确定单元114设置角度参数使得铜管乐器看起来朝下并且从嘴边移开(S424)。当步骤S422和S424的处理中的任何处理被执行时,可视化参数确定单元114结束这一连串处理。
以上,已经描述了可视化参数确定方法。以这种方式确定的可视化参数被输入可视化单元116并且用于乐曲的可视化处理。
(2-6.硬件配置(信息处理设备100))
上述设备的各个结构元件的功能例如可以由图128中所示的硬件配置并且通过使用用于实现上述功能的计算机程序来实现。图128是示出能够实现上述设备的各个结构元件的功能的信息处理设备的硬件配置的说明性示图。信息处理设备的模式是任意的,并且包括以下诸如移动信息终端、游戏机或各种类型的信息家电之类的模式,移动信息终端例如是个人计算机、移动电话、PHS或PDA。此外,PHS是Personal Handy-phone System(个人手持式电话系统)的缩写。此外,PDA是Personal Digital Assistant(个人数字助理)的缩写。
如图128中所示,信息处理设备100包括:CPU 902、ROM 904、RAM 906、主机总线908、桥接器910、外部总线912和接口914。信息处理设备100还包括:输入单元916、输出单元918、存储单元920、驱动器922、连接端口924和通信单元926。此外,CPU是Central Processing Unit (中央处理单元)的缩写。此外,ROM是Read Only Memory(只读存储器)的缩写。此外,RAM是Random Access Memory(随机存取存储器)的缩写。
CPU 902例如用作算术处理单元或控制单元,并且基于ROM 904、RAM 906、存储单元920或可移除记录介质928上所记录的各种程序来控制结构元件或这些结构元件中的某些结构元件的整体操作。ROM 904例如存储CPU 902上所加载的程序或算术运算中所使用的数据等。RAM 906临时地或永久地存储例如CPU 902上所加载的程序或在程序的执行中任意地改变的各种参数等。这些结构元件例如通过可以执行高速数据传输的主机总线908来相互连接。例如,主机总线908通过桥接器910连接到数据传输速度相对低的外部总线912。
输入单元916例如是诸如鼠标、键盘、触摸屏、按钮、开关或控制杆之类的操作装置。输入单元916可以是能够通过使用红外射线或其它无线电波来传送控制信号的遥控装置(所谓的遥控器)。输入单元916包括用于向CPU 902发送使用上述操作装置输入的信息作为输入信号的输入控制电路等。
输出单元918例如是诸如CRT、LCD、PDP或ELD之类的显示装置。同样,输出单元918是可以在视觉上或听觉上向用户通知所获取的信息的、诸如音频输出装置(例如,扬声器或头戴式耳机)、打印机、移动电话或传真机之类的装置。存储单元920是用来存储各种数据的装置,并且例如包括诸如HDD之类的磁存储装置、半导体存储装置、光存储装置或磁光存储装置。此外,CRT是Cathode Ray Tube(阴极射线管)的缩写。同样,LCD是Liquid Crystal Display(液晶显示器)的缩写。此外,PDP是Plasma Display Panel(等离子显示面板)的缩写。此外,ELD是Electro-Luminescence Display(电致发光显示器)的缩写。此外,HDD是Hard Disk Drive(硬盘驱动)的缩写。
驱动器922是读取可移除记录介质928上所记录的信息或将信息写入可移除记录介质928中的装置,可移除记录介质928例如是磁盘、光盘、磁光盘或半导体存储器。可移除记录介质928例如是DVD介质、蓝光介 质或HD-DVD介质。此外,可移除记录介质928例如是紧凑式闪存(CF;CompactFlash)(注册商标)、记忆棒或SD存储卡。当然,可移除记录介质928例如可以是绑定了非接触IC芯片的IC卡。此外,SD是Secure Digital(安全数字)的缩写。同样,IC是Integrated Circuit(集成电路)的缩写。
连接端口924是诸如USB端口、IEEE1394端口、SCSI、RS-232C端口之类的端口,或用于连接诸如光学音频端子之类的外部连接装置930的端口。外部连接装置930例如是打印机、移动音乐播放器、数字相机或IC记录器。此外,USB是Universal Serial Bus(通用串行总线)的缩写。同样,SCSI是Small Computer System Interface(小型计算机系统接口)的缩写。
通信单元926是要连接到网络932的通信装置。通信单元926例如是用于有线或无线LAN、Bluetooth(注册商标)或WUSB的通信卡、光通信路由器、ADSL路由器或各种通信调制解调器。连接到通信单元926的网络932包括有线连接或无线连接的网络。网络932例如是因特网、家用LAN、红外通信、可见光通信、广播或卫星通信。此外,LAN是LocalArea Network(局域网)的缩写。此外,WUSB是无线USB的缩写。此外,ADSL是Asymmetric Digital Subscriber Line(非对称数字用户线)的缩写。
(2-7.总结)
最后,将简要描述本实施例的信息处理设备的功能配置和通过这些功能配置获得的效果。
首先,根据本实施例的信息处理设备的功能配置可以描述如下。该信息处理设备包括具有下述配置的元数据提取单元和参数确定单元。元数据提取单元用于分析各种乐器声音以混合方式存在于其中的音频信号,并且用于提取随着演奏时间的过去而变化的元数据作为该音频信号的特征量。作为一种用于提取该音频信号的特征量的方法,例如,可以使用基于学习算法的特征量估计方法。例如,上述元数据提取单元使用具有所希望的特征量的多个音频信号,以特定时间为单位来捕获每个音频信号的数据,并 且将所捕获的数据提供给学习算法作为评估数据。同时,上述元数据提取单元向学习算法提供每个评估数据的特征量作为教师数据。然后,可以获得基于学习算法用于从任意音频信号的输入数据计算所希望的特征量的计算公式。因此,上述元数据提取单元通过向通过学习算法获得的计算公式输入作为分析目标的音频信号的数据,计算所希望的特征量。此时,上述元数据提取单元针对特征量来选择按时间序列变化的元数据并获取计算公式,并且通过使用计算公式来提取按时间序列变化的特征量。如上所述,通过采用使用学习算法的特征量提取方法,仅从音频信号的波形中提取出特征量。现在,演奏者参数确定单元用于基于由元数据提取单元所提取出的元数据来确定用于控制与每种乐器声音相对应的演奏者对象的移动的演奏者参数。如上所述,由元数据提取单元获得按时间序列变化的元数据。因此,可以根据这些元数据来移动CG图像或机器人(演奏者对象),并且可以可视化由音频信号表示的音乐。上述演奏者参数确定单元确定用于可视化处理的参数。利用这样的配置,通过仅使用音频信号的波形就能可视化音乐。具体地,通过使用与各种乐器声音的变化相对应的时间序列元数据并且通过移动各种乐器的演奏者对象,可以更逼真地可视化音乐。通过使用对音频信号的波形进行简单的频率分析获得的特征量来实现该效果是很困难的。
例如,元数据提取单元提取从一个群组中选出的一条或多条数据作为元数据,该群组由音频信号的拍子、和弦进行、音乐结构、旋律线、贝斯线、每种乐器声音的存在概率、每种乐器声音的独奏概率和歌声的声音特征组成。如上所述,通过使用学习算法,可以从音频信号的波形中提取各种特征量。具体地,通过使用按时间序列变化的元数据和上述具有每种乐器声音的特征的元数据,音乐可以以看起来像是对象正在实际演奏该音乐这样的方式被可视化。
此外,元数据提取单元可以提取从一个群组中所选出的一条或多条数据作为元数据,该群组由音频信号所属于的音乐的流派、音频信号所属于的音乐的年代、该音频信号的有关演奏者的信息、音频信号中所包括的乐器声音的类型以及该音频信号的音乐曲调组成。因此,通过戏剧地表现演 奏场景或通过布置演奏者对象的外貌或姿势,可以增强真实感。例如,演奏者参数确定单元可以被配置为,如果有关演奏者的身高和体重的信息被提取出作为有关该演奏者的信息,则基于有关身高和体重的信息来确定指示演奏者对象的大小的演奏者参数。此外,如果有关演奏者性别的信息被提取出作为有关演奏者的信息,则可以基于有关性别的信息来确定指示演奏者对象的发型和衣服的演奏者参数。此外,应当注意,这些布置还是基于从音频信号的波形获得的信息来执行的。
此外,信息处理设备还可包括照明参数确定单元,该照明参数确定单元用于基于由元数据提取单元所提取的元数据来确定用于控制演奏者所在的舞台上的照明的照明参数。在这种情况中,照明参数确定单元确定照明参数使得照明与由元数据提取单元所检测到的拍子相同步地变化。此外,照明参数确定单元可以被配置为基于由元数据提取单元所提取出的每种乐器声音的存在概率,确定指示照射在与各种乐器声音对应的演奏者对象上的聚光灯的亮度的照明参数。照明参数确定单元可以被配置为参考由元数据提取单元所提取出的音乐结构,并且确定照明参数使得照明根据正在演奏的音乐的结构的类型而变化。此外,照明参数确定单元可以被配置为确定照明参数使得照明的颜色基于由元数据提取单元所提取出的音乐的年代而变化。如所描述的,使用通过使用从音频信号的波形中所提取出的元数据来改变照明以呈现演奏者对象所在的舞台,演奏场景会更加逼真。例如,通过使用所记录的现场直播的音频信号,可以再现实际的演奏场景,从而向用户提供新的娱乐表演。
此外,该信息处理设备还可以包括观众参数确定单元,该观众参数确定单元用于基于由元数据提取单元所提取出的元数据来确定观众参数,观众参数用于控制与舞台不同的位置中所设置的观众座位中的观众对象的移动。在该情况中,观众参数确定单元确定观众参数使得观众对象的移动与由元数据提取单元所检测出的拍子相同步地变化。此外,观众参数确定单元可以被配置为参考由元数据提取单元所提取出的音乐结构,并且确定观众参数使得观众对象的移动根据正在演奏的音乐的结构的类型而变化。在演奏场景中包括观众对象的情况中,观众的移动也可以基于元数据来控 制。实际上,音乐会中的观众的行为依赖于音乐类型而不同。基于该事实,演奏场景的真实感可以通过基于从音频信号的波形中获得的类型等来控制观众对象的移动来增强。
此外,演奏者参数确定单元可以被配置为基于由元数据提取单元所提取出的每种乐器声音的独奏概率来确定指示与每种乐器声音对应的演奏者对象的姿势和表情的演奏者参数。演奏者参数确定单元还可以被配置为基于由元数据提取单元所提取出的每种乐器声音的存在概率,来确定指示与这每种乐器声音对应的演奏者对象的正在演奏的手的移动程度的演奏者参数。演奏者参数确定单元还可以被配置为基于由元数据提取单元所提取出的歌声的存在概率,来确定指示与歌声对应的演奏者对象的张嘴大小或握麦克风的手与嘴边之间的距离的演奏者参数。以这种方式,对于每个演奏者,所要控制的参数的类型不同。
例如,演奏者参数确定单元,基于由元数据提取单元所提取出的旋律线的平均音调与每帧的旋律线的音调之间的差或基于由元数据提取单元所提取出的歌声的声音质量,来确定指示与歌声对应的演奏者对象的表情的移动的演奏者参数。此外,演奏者参数确定单元,基于由元数据提取单元所提取出的旋律线,来确定指示与歌声对应的演奏者对象的没有握麦克风的手的移动的演奏者参数。在歌唱家的情况中,通过使用如上所述的演奏者参数控制方法实现逼真的移动。
此外,演奏者参数确定单元基于由元数据提取单元所提取出的和弦进行来确定指示演奏者对象的手的位置的演奏者参数,该演奏者参数与从由吉他、键盘乐器和琴弦乐器构成的群组中选出的一个或多个区间相对应。演奏者参数确定单元基于由元数据提取单元所提取出的贝斯线来确定与贝斯对应的演奏对象的握贝斯颈的手的位置。关于歌唱家之外的演奏者,通过使用上述演奏者参数控制方法实现逼真的移动。
此外,演奏者对象可以是外部地连接的机器人或通过计算机图形实现的演奏者图像。在这种情况中,信息处理设备还包括对象控制单元,对象控制单元用于使用由演奏者参数确定单元所确定的演奏者参数来控制外部地连接的机器人的移动或用于使用由演奏者参数确定单元所确定的演奏者 参数来控制演奏者图像的移动。当然,根据本实施例的技术不限于此,并且可以使用任何表示方法、关于可以被可视化的任何东西来控制演奏者对象的移动。
(评述)
上述音乐分析单元110是元数据提取单元的一个示例。上述可视化参数确定单元114是演奏者参数确定单元、照明参数确定单元或观众参数确定单元的一个示例。上述可视化单元116是对象控制单元的一个示例。
本领域技术人员应当理解,根据设计要求和其它因素,可以进行各种修改、组合、子组合和更改,只要它们在所附权利要求及其等同物的范围以内即可。
例如,当通过使用CG图像来可视化音乐时,还可以通过下述视觉效果来增强针对演奏场景的呈现效果。
(1)首先,可以构想一种通过设计针对CG的摄影术来增强呈现效果的方法。例如,可以构想一种当独奏演奏者被检测到时,放大并且显示该独奏演奏者的方法。通过使用由音乐分析单元110获得的独奏概率可以实现该呈现方法。此外,还可以构想这样的一种显示方法,其中,设有多个虚拟相机并且这些相机根据小节线进行而被切换。通过使用由音乐分析单元110获得的小节线进行来实现该显示方法。如所描述的,通过基于由音乐分析单元110获得的元数据来自动确定针对CG的摄影术,可以向用户提供基于音乐数据的波形的逼真视觉效果。
(2)此外,通过使用由音乐分析单元110获得的各种元数据可以实现舞台呈现。例如,当正在演奏安静的音乐时,可能有在副歌部分放出烟雾的舞台呈现。相反,当正在演奏活泼的音乐时,可能有就在副歌部分之前引爆某种东西的舞台呈现。由音乐分析单元110获得的指示音乐结构和音乐曲调的元数据用于这样的舞台呈现。如所描述的,通过基于由音乐分析单元110获得的元数据来自动确定针对CG的舞台呈现,可以向用户提供基于音乐数据的波形的逼真视觉效果。
(3)在以上实施例的描述中,已经用歌声、吉他、贝斯、键盘乐器、鼓、琴弦乐器和铜管乐器作为示例进行了描述。然而,通过使用已经描述 的音乐分析单元110的配置可以更加精细地检测乐器的类型。例如,可以检测贝斯是木贝斯、电贝斯还是合成贝斯。此外,可以检测鼓是声学鼓还是电子鼓。还可以从音乐数据的波形中检测出观众的掌声或欢呼。因此,根据通过更精细地检测乐器类型而检测出的乐器类型,还可以改变演奏者对象的CG本身或演奏者对象所握的乐器。此外,可以根据所检测到的掌声使观众鼓掌或根据所检测到的欢呼使观众移动就像他们正在喊叫一样。
(4)如上所述,音乐分析单元110可以对由声源分离单元106分离出的每个声道的波形执行音乐分析。因此,通过使用音乐分析单元110并且分析每个声道的波形,有可能检测出每种乐器声音被包括在哪个声道中。因此,这样的配置也是可能的,其中,演奏者对象的位置基于针对每个声道检测出的每种乐器声音的存在概率而被改变。例如,如果在左声道中的信号波形中检测到高吉他存在概率,则吉他的演奏对象的位置移到左边。以这种方式,通过基于由音乐分析单元110获得的元数据来自动确定各种对象的位置和移动,可以向用户提供基于音频数据的波形的逼真视觉效果。
本申请包含与2008年12月5日在日本专利局提交的日本优先权专利申请JP2008-311514中所公开的主题相关的主题,其全部内容被通过引用结合于此。
Claims (18)
1.一种信息处理设备,包括:
元数据提取单元,所述元数据提取单元用于分析多种乐器声音以混合方式存在于其中的音频信号,并且用于提取随着演奏时间的过去而变化的元数据作为所述音频信号的特征量;以及
演奏者参数确定单元,所述演奏者参数确定单元用于基于由所述元数据提取单元提取出的元数据来确定用于控制与每种乐器声音相对应的演奏者对象的移动的演奏者参数,其中
所述元数据提取单元提取出一条或多条数据作为所述元数据,所述一条或多条数据是从由以下内容形成的群组中选出的:所述音频信号的拍子、和弦进行、音乐结构、旋律线、贝斯线、每种乐器声音的存在概率、每种乐器声音的独奏概率和歌声的声音特征,并且,
所述演奏者对象是外部地连接的机器人或通过计算机图形实现的演奏者图像。
2.根据权利要求1所述的信息处理设备,其中
所述元数据提取单元还提取出另外的一条或多条数据作为所述元数据,所述另外的一条或多条数据是从由以下内容形成的群组中选出的:所述音频信号所属于的音乐流派、所述音频信号所属于的音乐年代、所述音频信号的有关演奏者的信息、所述音频信号中所包括的乐器声音的类型和所述音频信号的音乐曲调。
3.根据权利要求2所述的信息处理设备,其中
所述演奏者参数确定单元
如果有关演奏者的身高和体重的信息被提取出作为有关所述演奏者的信息,则基于有关身高和体重的信息来确定指示所述演奏者对象的大小的演奏者参数,并且
如果有关所述演奏者的性别的信息被提取出作为有关所述演奏者的信息,则基于有关性别的信息来确定指示所述演奏者对象的发型和衣服的演奏者参数。
4.根据权利要求2所述的信息处理设备,还包括:
照明参数确定单元,所述照明参数确定单元用于基于由所述元数据提取单元提取出的元数据来确定用于控制所述演奏者对象所在的舞台上的照明的照明参数,
其中
所述照明参数确定单元确定所述照明参数,使得所述照明与由所述元数据提取单元检测出的拍子相同步地变化。
5.根据权利要求4所述的信息处理设备,其中
所述照明参数确定单元基于由所述元数据提取单元提取出的每种乐器声音的存在概率来确定照明参数,所述照明参数指示照射在与所述每种乐器声音相对应的演奏者对象上的聚光灯的亮度。
6.根据权利要求5所述的信息处理设备,其中
所述照明参数确定单元参考由所述元数据提取单元提取出的音乐结构,并且确定所述照明参数,使得照明根据正被演奏的音乐的结构的类型而变化。
7.根据权利要求6所述的信息处理设备,其中
所述照明参数确定单元确定所述照明参数使得所述照明的颜色基于由所述元数据提取单元提取出的所述音乐的年代而变化。
8.根据权利要求1所述的信息处理设备,还包括:
观众参数确定单元,所述观众参数确定单元用于基于由所述元数据提取单元提取出的元数据来确定观众参数,所述观众参数用于控制设置在观众座位中的观众对象的移动,所述观众座位设在与舞台不同的位置,
其中
所述观众参数确定单元确定所述观众参数使得所述观众对象的移动与由所述元数据提取单元检测出的拍子相同步地变化。
9.根据权利要求8所述的信息处理设备,其中
所述观众参数确定单元参考由所述元数据提取单元提取出的音乐结构,并且确定所述观众参数,使得所述观众对象的移动根据正被演奏的音乐的结构的类型而变化。
10.根据权利要求2所述的信息处理设备,其中
所述演奏者参数确定单元基于由所述元数据提取单元提取出的每种乐器声音的独奏概率,确定指示与所述每种乐器声音相对应的演奏者对象的姿势和表情的演奏者参数。
11.根据权利要求10所述的信息处理设备,其中
所述演奏者参数确定单元基于由所述元数据提取单元提取出的每种乐器声音的存在概率,确定指示与所述每种乐器声音相对应的演奏者对象的正在演奏的手的移动程度的演奏者参数。
12.根据权利要求1所述的信息处理设备,其中
所述演奏者参数确定单元基于由所述元数据提取单元提取出的歌声的存在概率,确定指示与所述歌声相对应的演奏者对象的张嘴大小或握麦克风的手与所述嘴之间的距离的演奏者参数。
13.根据权利要求12所述的信息处理设备,其中
所述演奏者参数确定单元基于由所述元数据提取单元提取出的旋律线的平均音调和每帧的旋律线的音调之间的差,或基于由所述元数据提取单元提取出的歌声的声音特征,确定指示与所述歌声相对应的所述演奏者对象的表情的移动的演奏者参数。
14.根据权利要求13所述的信息处理设备,其中
所述演奏者参数确定单元基于由所述元数据提取单元提取出的旋律线,确定指示与所述歌声相对应的演奏者对象的没有握麦克风的手的移动的演奏者参数。
15.根据权利要求1所述的信息处理设备,其中
所述演奏者参数确定单元基于由所述元数据提取单元提取出的和弦进行,确定指示所述演奏者对象的手的位置的演奏者参数,所述演奏者参数与从由吉他、键盘乐器和琴弦乐器形成的群组中选出的一个或多个部分相对应。
16.根据权利要求1所述的信息处理设备,其中
所述演奏者参数确定单元基于由所述元数据提取单元提取出的贝斯线,确定指示与贝斯相对应的演奏者对象的握贝斯颈的手的位置的演奏者参数。
17.根据权利要求1所述的信息处理设备,其中
所述信息处理设备还包括对象控制单元,所述对象控制单元用于使用由所述演奏者参数确定单元确定的演奏者参数来控制所述外部地连接的机器人的移动,或者用于使用由所述演奏者参数确定单元确定的演奏者参数来控制所述演奏者图像的移动。
18.一种信息处理方法,包括以下步骤:
分析多种乐器声音以混合方式存在于其中的音频信号,并且提取随着演奏时间的过去而变化的元数据作为所述音频信号的特征量;以及
基于通过分析和提取步骤提取出的元数据来确定用于控制与每种乐器声音相对应的演奏者对象的移动的演奏者参数,其中
所述元数据提取单元提取出一条或多条数据作为所述元数据,所述一条或多条数据是从由以下内容形成的群组中选出的:所述音频信号的拍子、和弦进行、音乐结构、旋律线、贝斯线、每种乐器声音的存在概率、每种乐器声音的独奏概率和歌声的声音特征,并且,
所述演奏者对象是外部地连接的机器人或通过计算机图形实现的演奏者图像。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008311514A JP5206378B2 (ja) | 2008-12-05 | 2008-12-05 | 情報処理装置、情報処理方法、及びプログラム |
JP2008-311514 | 2008-12-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101916568A CN101916568A (zh) | 2010-12-15 |
CN101916568B true CN101916568B (zh) | 2013-07-10 |
Family
ID=41718584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102536281A Expired - Fee Related CN101916568B (zh) | 2008-12-05 | 2009-12-07 | 信息处理设备、信息处理方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US8706274B2 (zh) |
EP (1) | EP2204774B1 (zh) |
JP (1) | JP5206378B2 (zh) |
CN (1) | CN101916568B (zh) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5625235B2 (ja) * | 2008-11-21 | 2014-11-19 | ソニー株式会社 | 情報処理装置、音声解析方法、及びプログラム |
JP5463655B2 (ja) * | 2008-11-21 | 2014-04-09 | ソニー株式会社 | 情報処理装置、音声解析方法、及びプログラム |
JP5593608B2 (ja) * | 2008-12-05 | 2014-09-24 | ソニー株式会社 | 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム |
US8878041B2 (en) * | 2009-05-27 | 2014-11-04 | Microsoft Corporation | Detecting beat information using a diverse set of correlations |
JP5569228B2 (ja) * | 2010-08-02 | 2014-08-13 | ソニー株式会社 | テンポ検出装置、テンポ検出方法およびプログラム |
JP5594052B2 (ja) * | 2010-10-22 | 2014-09-24 | ソニー株式会社 | 情報処理装置、楽曲再構成方法及びプログラム |
JP5658285B2 (ja) * | 2011-01-05 | 2015-01-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 興味区間抽出装置、興味区間抽出方法 |
JP5836628B2 (ja) * | 2011-04-19 | 2015-12-24 | キヤノン株式会社 | 制御系の評価装置および評価方法、並びに、プログラム |
CN102278995B (zh) * | 2011-04-27 | 2013-02-13 | 中国石油大学(华东) | 基于gps探测的贝叶斯路径规划装置及方法 |
GB2490877B (en) * | 2011-05-11 | 2018-07-18 | British Broadcasting Corp | Processing audio data for producing metadata |
US9384116B2 (en) * | 2011-05-16 | 2016-07-05 | Vmware, Inc. | Graphically representing load balance in a computing cluster |
EP2600311A1 (en) * | 2011-11-30 | 2013-06-05 | Thomson Licensing | Method and apparatus for visualizing a data set |
US8829322B2 (en) * | 2012-10-26 | 2014-09-09 | Avid Technology, Inc. | Metrical grid inference for free rhythm musical input |
EP2772904B1 (en) * | 2013-02-27 | 2017-03-29 | Yamaha Corporation | Apparatus and method for detecting music chords and generation of accompaniment. |
JP6123995B2 (ja) * | 2013-03-14 | 2017-05-10 | ヤマハ株式会社 | 音響信号分析装置及び音響信号分析プログラム |
JP6179140B2 (ja) | 2013-03-14 | 2017-08-16 | ヤマハ株式会社 | 音響信号分析装置及び音響信号分析プログラム |
JP5843074B2 (ja) * | 2013-06-14 | 2016-01-13 | ブラザー工業株式会社 | 弦楽器演奏評価装置及び弦楽器演奏評価プログラム |
JP5807754B2 (ja) * | 2013-06-14 | 2015-11-10 | ブラザー工業株式会社 | 弦楽器演奏評価装置及び弦楽器演奏評価プログラム |
US9411882B2 (en) | 2013-07-22 | 2016-08-09 | Dolby Laboratories Licensing Corporation | Interactive audio content generation, delivery, playback and sharing |
JP6532205B2 (ja) * | 2014-09-26 | 2019-06-19 | アイディアファクトリー株式会社 | コンテンツ生成装置、コンテンツ生成方法、コンテンツ生成プログラム、及びコンテンツ生成システム |
CN107210029B (zh) * | 2014-12-11 | 2020-07-17 | 优博肖德Ug公司 | 用于处理一连串信号以进行复调音符辨识的方法和装置 |
CN107430781B (zh) * | 2015-01-30 | 2021-09-17 | 株式会社电通 | 计算机图形的数据结构、信息处理装置、信息处理方法以及信息处理系统 |
US10303697B1 (en) * | 2015-06-25 | 2019-05-28 | National Technology & Engineering Solutions Of Sandia, Llc | Temporal data system |
JP6690181B2 (ja) * | 2015-10-22 | 2020-04-28 | ヤマハ株式会社 | 楽音評価装置及び評価基準生成装置 |
US11288723B2 (en) | 2015-12-08 | 2022-03-29 | Sony Corporation | Information processing device and information processing method |
EP3407683B1 (en) * | 2016-01-21 | 2020-09-16 | AlphaTheta Corporation | Lighting control device, lighting control method and lighting control program |
US10923151B2 (en) * | 2016-05-12 | 2021-02-16 | Alphatheta Corporation | Illumination control device, illumination control method and illumination control program |
US10698950B2 (en) * | 2017-03-02 | 2020-06-30 | Nicechart, Inc. | Systems and methods for creating customized vocal ensemble arrangements |
JP2018170678A (ja) * | 2017-03-30 | 2018-11-01 | 株式会社ライブ・アース | ライブ映像処理システム、ライブ映像処理方法及びプログラム |
JP6708180B2 (ja) * | 2017-07-25 | 2020-06-10 | ヤマハ株式会社 | 演奏解析方法、演奏解析装置およびプログラム |
WO2019026236A1 (ja) * | 2017-08-03 | 2019-02-07 | Pioneer DJ株式会社 | 楽曲解析装置および楽曲解析プログラム |
JP6920445B2 (ja) * | 2017-08-29 | 2021-08-18 | AlphaTheta株式会社 | 楽曲解析装置および楽曲解析プログラム |
CN109525627B (zh) * | 2017-09-20 | 2022-02-25 | 腾讯科技(上海)有限公司 | 数据传输方法、装置、存储介质及电子装置 |
US10770092B1 (en) * | 2017-09-22 | 2020-09-08 | Amazon Technologies, Inc. | Viseme data generation |
CN108305604B (zh) * | 2018-01-30 | 2020-11-24 | 浙江省公众信息产业有限公司 | 音乐可视化方法、装置及计算机可读存储介质 |
JP6699677B2 (ja) * | 2018-02-06 | 2020-05-27 | ヤマハ株式会社 | 情報処理方法、情報処理装置およびプログラム |
CN108492807B (zh) * | 2018-03-30 | 2020-09-11 | 北京小唱科技有限公司 | 展示修音状态的方法及装置 |
US11508393B2 (en) * | 2018-06-12 | 2022-11-22 | Oscilloscape, LLC | Controller for real-time visual display of music |
WO2020008255A1 (en) * | 2018-07-03 | 2020-01-09 | Soclip! | Beat decomposition to facilitate automatic video editing |
GB2578418B (en) * | 2018-07-25 | 2022-06-15 | Audio Analytic Ltd | Sound detection |
US11037583B2 (en) * | 2018-08-29 | 2021-06-15 | International Business Machines Corporation | Detection of music segment in audio signal |
US11935552B2 (en) | 2019-01-23 | 2024-03-19 | Sony Group Corporation | Electronic device, method and computer program |
US11295784B2 (en) | 2019-07-12 | 2022-04-05 | Smule, Inc. | User-generated templates for segmented multimedia performance |
US10726874B1 (en) * | 2019-07-12 | 2020-07-28 | Smule, Inc. | Template-based excerpting and rendering of multimedia performance |
US11720933B2 (en) * | 2019-08-30 | 2023-08-08 | Soclip! | Automatic adaptive video editing |
CN111710347B (zh) * | 2020-04-24 | 2023-12-05 | 中科新悦(苏州)科技有限公司 | 音频数据分析方法、电子设备及存储介质 |
JP2022075147A (ja) * | 2020-11-06 | 2022-05-18 | ヤマハ株式会社 | 音響処理システム、音響処理方法およびプログラム |
GB2603485A (en) * | 2021-02-04 | 2022-08-10 | Pei chun lin | Melody concretization identification system |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1313803A (zh) * | 1998-06-23 | 2001-09-19 | 索尼公司 | 机器人装置及信息处理系统 |
CN1604675A (zh) * | 2004-11-09 | 2005-04-06 | 北京中星微电子有限公司 | 一种移动终端播放音乐的方法 |
CN1928848A (zh) * | 2005-09-09 | 2007-03-14 | 腾讯科技(深圳)有限公司 | 一种动画与音乐交互的实现方法及播放装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0661093B2 (ja) * | 1985-12-11 | 1994-08-10 | ソニー株式会社 | 画像効果制御装置 |
JP3384314B2 (ja) * | 1997-12-02 | 2003-03-10 | ヤマハ株式会社 | 楽音応答画像生成システム、方法、装置、及び、そのための記録媒体 |
JP2000311251A (ja) * | 1999-02-26 | 2000-11-07 | Toshiba Corp | アニメーション作成装置および方法、記憶媒体 |
JP2001009152A (ja) * | 1999-06-30 | 2001-01-16 | Konami Co Ltd | ゲームシステムおよびコンピュータ読み取り可能な記憶媒体 |
JP2001129244A (ja) * | 1999-11-01 | 2001-05-15 | Konami Co Ltd | 音楽演奏ゲーム装置、演奏ガイド画像表示方法及び演奏ガイド画像形成プログラムを記録した可読記録媒体 |
JP2004029862A (ja) | 2002-05-23 | 2004-01-29 | Open Interface Inc | 動画像生成装置及び動画像生成方法並びにそのプログラム |
WO2005031627A1 (en) * | 2003-09-24 | 2005-04-07 | Nokia Corporation | Method and device for context driven content gaming |
US7806759B2 (en) * | 2004-05-14 | 2010-10-05 | Konami Digital Entertainment, Inc. | In-game interface with performance feedback |
US7297860B2 (en) * | 2004-11-12 | 2007-11-20 | Sony Corporation | System and method for determining genre of audio |
JP2007018388A (ja) * | 2005-07-08 | 2007-01-25 | Univ Of Tokyo | モーション作成装置およびモーション作成方法並びにこれらに用いるプログラム |
US20070059676A1 (en) * | 2005-09-12 | 2007-03-15 | Jinnyeo Jeong | Interactive animation for entertainment and instruction using networked devices |
JP4948118B2 (ja) | 2005-10-25 | 2012-06-06 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP4465626B2 (ja) * | 2005-11-08 | 2010-05-19 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US20070163427A1 (en) * | 2005-12-19 | 2007-07-19 | Alex Rigopulos | Systems and methods for generating video game content |
JP2008090633A (ja) * | 2006-10-02 | 2008-04-17 | Sony Corp | 動きデータ生成装置、動きデータ生成方法及び動きデータ生成プログラム |
JP4963083B2 (ja) * | 2007-05-28 | 2012-06-27 | 株式会社野村総合研究所 | 仮想空間提供装置、仮想空間管理方法及びコンピュータプログラム |
US20090075711A1 (en) * | 2007-06-14 | 2009-03-19 | Eric Brosius | Systems and methods for providing a vocal experience for a player of a rhythm action game |
JP2008311514A (ja) | 2007-06-15 | 2008-12-25 | Lintec Corp | 半導体ウエハの研削方法および表面保護用シート |
-
2008
- 2008-12-05 JP JP2008311514A patent/JP5206378B2/ja not_active Expired - Fee Related
-
2009
- 2009-10-30 EP EP09252532.8A patent/EP2204774B1/en not_active Not-in-force
- 2009-12-04 US US12/631,681 patent/US8706274B2/en not_active Expired - Fee Related
- 2009-12-07 CN CN2009102536281A patent/CN101916568B/zh not_active Expired - Fee Related
-
2014
- 2014-04-01 US US14/242,538 patent/US9557956B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1313803A (zh) * | 1998-06-23 | 2001-09-19 | 索尼公司 | 机器人装置及信息处理系统 |
CN1604675A (zh) * | 2004-11-09 | 2005-04-06 | 北京中星微电子有限公司 | 一种移动终端播放音乐的方法 |
CN1928848A (zh) * | 2005-09-09 | 2007-03-14 | 腾讯科技(深圳)有限公司 | 一种动画与音乐交互的实现方法及播放装置 |
Non-Patent Citations (1)
Title |
---|
JP特开2007-18388A 2007.01.25 |
Also Published As
Publication number | Publication date |
---|---|
EP2204774B1 (en) | 2016-10-19 |
US20140297012A1 (en) | 2014-10-02 |
US9557956B2 (en) | 2017-01-31 |
CN101916568A (zh) | 2010-12-15 |
US20100211200A1 (en) | 2010-08-19 |
JP5206378B2 (ja) | 2013-06-12 |
EP2204774A2 (en) | 2010-07-07 |
US8706274B2 (en) | 2014-04-22 |
JP2010134790A (ja) | 2010-06-17 |
EP2204774A3 (en) | 2013-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101916568B (zh) | 信息处理设备、信息处理方法 | |
CN101751912B (zh) | 信息处理设备和声音素材捕获方法 | |
CN101740013B (zh) | 信息处理设备和声音分析方法 | |
US10657934B1 (en) | Enhancements for musical composition applications | |
CN101740010B (zh) | 信息处理设备和声音分析方法 | |
CN101916564B (zh) | 信息处理装置、旋律线提取方法和低音线提取方法 | |
JP4199097B2 (ja) | 楽曲自動分類装置及び方法 | |
JP2010538335A (ja) | 音声メロディ向けの自動伴奏 | |
CN104008747A (zh) | 用于检测和弦的设备和方法 | |
WO2020029382A1 (zh) | 一种作曲模型的建立方法、系统、设备和存储介质 | |
Zhang et al. | Melody extraction from polyphonic music using particle filter and dynamic programming | |
Abeßer et al. | Deep learning for jazz walking bass transcription | |
CN112634841B (zh) | 一种基于声音识别的吉他谱自动生成方法 | |
CN109471951A (zh) | 基于神经网络的歌词生成方法、装置、设备和存储介质 | |
US20080097711A1 (en) | Information processing apparatus and method, program, and record medium | |
Oudre | Template-based chord recognition from audio signals | |
Patel et al. | Karaoke Generation from songs: recent trends and opportunities | |
JP2007240552A (ja) | 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法 | |
Joysingh et al. | Development of large annotated music datasets using HMM based forced Viterbi alignment | |
JP2005321460A (ja) | 映像データへの楽曲データ付加装置 | |
CN112528631B (zh) | 一种基于深度学习算法的智能伴奏系统 | |
Ishwar | Pitch estimation of the predominant vocal melody from heterophonic music audio recordings | |
Pauwels et al. | The influence of chord duration modeling on chord and local key extraction | |
Schwarz | Final Research Report on Auto-Tagging of Music | |
Glytsos | Music source separation on classical guitar duets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130710 Termination date: 20151207 |
|
EXPY | Termination of patent right or utility model |