CN102347022A - 音乐速度检测装置、音乐速度检测方法和程序 - Google Patents
音乐速度检测装置、音乐速度检测方法和程序 Download PDFInfo
- Publication number
- CN102347022A CN102347022A CN2011102126918A CN201110212691A CN102347022A CN 102347022 A CN102347022 A CN 102347022A CN 2011102126918 A CN2011102126918 A CN 2011102126918A CN 201110212691 A CN201110212691 A CN 201110212691A CN 102347022 A CN102347022 A CN 102347022A
- Authority
- CN
- China
- Prior art keywords
- bpm
- music
- essential characteristic
- characteristic amount
- tempo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 14
- 230000005236 sound signal Effects 0.000 claims abstract description 51
- 239000000284 extract Substances 0.000 claims abstract description 32
- 230000000737 periodic effect Effects 0.000 claims abstract description 32
- 238000001228 spectrum Methods 0.000 claims description 86
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 9
- 239000000654 additive Substances 0.000 claims description 8
- 230000000996 additive effect Effects 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- JEIPFZHSYJVQDO-UHFFFAOYSA-N ferric oxide Chemical compound O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 6
- 241000581364 Clinitrachus argentatus Species 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000004907 flux Effects 0.000 description 41
- 238000004458 analytical method Methods 0.000 description 27
- 238000010606 normalization Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241001165575 Hylotelephium telephium subsp. maximum Species 0.000 description 1
- 238000001604 Rao's score test Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/021—Indicator, i.e. non-screen output user interfacing, e.g. visual or tactile instrument status or guidance information using lights, LEDs or seven segments displays
- G10H2220/086—Beats per minute [BPM] indicator, i.e. displaying a tempo value, e.g. in words or as numerical value in beats per minute
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/031—Spectrum envelope processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
提供一种音乐速度检测装置、音乐速度检测方法和程序。该音乐速度检测装置包括:基本特征量提取部分,其从输入音频信号提取多个类型的基本特征量;加权和相加部分,其对在基本特征量提取部分中提取的多个类型的基本特征量进行加权和相加,以获得相加信号;以及音乐速度检测部分,其基于在加权和相加部分中获得的相加信号中包括的周期分量来检测指示音乐速度的BPM。
Description
技术领域
本公开涉及一种音乐速度检测装置、音乐速度检测方法和程序,尤其涉及一种对音乐的音频信号进行处理以检测音乐的音乐速度的音乐速度检测装置、音乐速度检测方法和程序。
背景技术
音乐音乐速度代表音乐的进行速度,且主要使用BPM(每分钟拍数:每分钟四分音符的数目)作为代表音乐的音乐速度的指标。为了检测音乐的BPM,在相关技术中公开了下面的技术。
日本未审专利申请2002-221240号公报公开了这样的技术:计算音乐波形信号的自相关(autocorrelation),基于计算结果分析音乐的拍结构,并且基于分析结果提取音乐的音乐速度。此外,日本未审专利申请2007-033851号公报公开了这样的技术:将输入音频信号划分为多个频带,针对每个频带检测输入音频信号的峰,计算峰位置的时间间隔,并基于频峰生成的时间间隔检测音乐速度。
发明内容
日本未审专利申请2002-221240号公报公开的技术具有这样的问题:考虑到用于便携设备的嵌入式处理器上的简要分析,计算量过量。此外,日本未审专利申请2007-033851号公报中公开的技术是为低计算量设计的,但是存在这样的问题:各个峰的时间间隔与在很多情况下的BPM不对应,且检测效率不是充分高。特别地,在很多情况下,BPM被错误地设置为两倍或一半。例如,在正确的BPM是60的情况下,可能检测到BPM=120,或在正确的BPM是100的情况下,可能检测到BPM=50。
因此,期望提供一种能够以高效率、低计算量检测音乐的音乐速度的技术。
根据本公开的实施例,提供一种音乐速度检测装置,包括:基本特征量提取部分,其从输入音频信号提取多个类型的基本特征量;加权和相加部分,其对在基本特征量提取部分中提取的多个类型的基本特征量进行加权和相加,以获得相加信号;以及音乐速度检测部分,其基于在加权和相加部分中获得的相加信号中包括的周期分量来检测指示音乐速度的BPM。
根据该实施例,基本特征量提取部分从输入音频信号提取多个类型的基本特征量。例如,基本特征量提取部分将输入音频信号划分为包括预定数量的样本数据的帧,并针对每一帧提取多个类型的基本特征量。例如,在输入音频信号的采样频率是22.050kHz的情况下,输入音频信号被划分为包括1024件样本数据的帧。
例如,基本特征量提取部分包括短时傅立叶变换部分和基本特征量计算部分。短时傅立叶变换部分对输入音频信号的每一帧进行短时傅立叶变换。基本特征量计算部分基于从短时傅立叶变换部分输出的每一帧的频谱计算多个类型的基本特征量,即“谱通量”、“谱质心”和“滚降”。
加权和相加部分对在基本特征量提取部分中提取的多个类型的基本特征量进行加权和相加,以获得相加信号。这里,例如,手动地获得权重系数,但可以通过学习自动地确定权重系数。此外,音乐速度检测部分检测在加权和相加部分中获得的相加信号中包括的周期分量,并基于周期分量检测指示音乐速度的BPM。
例如,音乐速度检测部分包括:快速傅立叶变换部分,得分计算部分和BPM确定部分。快速傅立叶变换部分对每一帧的相加信号进行快速傅立叶变换,以进行周期性分析。
得分计算部分将从快速傅立叶变换部分输出的频率轴上的各个样本划分到预定数量的连续频率区域,连续频率区域包括假设存在正确的BPM的频率区域,并且在连续频率区域中,与低通侧相邻的频率区域变为一半且与高通侧相邻的频率区域变为两倍。此外,得分计算部分针对每个频率区域以及针对每个样本计算与每个样本数据的水平相对应的得分。
BPM确定部分包括得分相加部分和最大值搜索部分。得分相加部分匹配各个频率区域的样本数,并基于在得分计算部分中计算出的针对每一频率区域以及针对每一样本的得分,对各个频率区域的针对相应样本的样本得分进行相加。最大值搜索部分计算来自假设存在正确的BPM的频率区域的、与具有由得分相加部分的相加获得的样本中的每一个样本的得分相加值中的最大值的样本相对应的频率,并确定与该频率相对应的BPM作为指示音乐速度的BPM。
这样,根据实施例,从输入音频信号提取多个类型的基本特征量;降多个类型的基本特征量加权并相加以获得相加信号;并且基于包括在相加信号中的周期分量检测指示音乐速度的BPM。因此,可以以高效率低计算量检测音乐的音乐速度。
根据实施例,例如,音乐速度检测装置还包括基于在基本特征量提取部分中提取的多个类型的基本特征量修改在音乐速度检测部分中检测到的BPM的音乐速度修改部分。音乐速度修改部分可以基于多个类型的基本特征量,获得用于确定正确的BPM是否存在于参照假设存在正确的BPM的频率区域的高通侧的第一速度感,并获得用于确定正确的BPM是否存在于参照假设存在正确的BPM的频率区域的低通侧的第二速度感。然后,当通过第一速度感确定正确的BPM存在于参照假设存在正确的BPM的频率区域的高通侧时,音乐速度修改部分可以将在音乐速度检测部分中检测到的BPM加倍,以输出BPM;当通过第二速度感确定正确的BPM存在于参照假设存在正确的BPM的频率区域的低通侧时,可以将在音乐速度检测部分中检测到的BPM减小到一半,以输出BPM;并且当通过第一速度感确定正确的BPM不存在于参照假设存在正确的BPM的频率区域的高通侧时,以及当通过第二速度感确定正确的BPM不存在于参照假设存在正确的BPM的频率区域的低通侧时,可以将在音乐速度检测部分中检测到的BPM照原样输出。
在这种情况下,通过基于多个类型的基本特征量,获得用于确定正确的BPM是否存在于参照假设存在正确的BPM的频率区域的高通侧和低通侧的第一和第二速度感,执行BPM的修改处理,且能够在正确的BPM存在于参照假设存在正确的BPM的频率区域的高通侧和低通侧的情况下适当地修改BPM。此外,在这种情况下,能够在不执行额外的基本特征量计算的情况下使用在基本特征量提取部分中提取的多个类型的基本特征量。
此外,根据实施例,例如,基本特征量提取部分将输入音频信号划分为包括预定数量的样本数据的帧,并针对每一帧提取多个类型的基本特征量,且音乐速度修改部分针对包括预定数量的帧的每个块获得第一速度感和第二速度感。这里,可以通过利用经过预先学习获得的第一系数组来加权预定数量的帧中多个类型的基本特征量的平均值和标准偏差,并通过将加权的平均值和标准偏差相加,来获得第一速度感;以及可以通过利用经过预先学习获得的第二系数组来加权预定数量的帧中多个类型的基本特征量的平均值和标准偏差,并通过将加权的平均值和标准偏差相加,来获得第二速度感。例如,多个类型的基本特征量包括“ZCR”、“谱通量”、“谱质心”和“滚降”。
根据本公开,从输入音频信号中提取多个类型的基本特征量,对多个类型的基本特征量进行加权并相加以获得相加信号,并基于包括在相加信号中的周期分量检测指示音乐速度的BPM。因此,能够以高效率低计算量来检测音乐的音乐速度。
附图说明
图1例示根据本公开第一实施例的音乐音乐速度检测装置的结构实例的框图;
图2是例示形成音乐音乐速度检测装置的基本特征量提取部分的结构的实例的框图;
图3是例示形成音乐音乐速度检测装置的临时BPM计算部分的结构的实例的框图;
图4是例示形成临时BPM计算部分的周期分量分析部分的结构的示例的框图;
图5是例示通过对多个类型的基本特征量的加权的相加信号执行快速傅立叶变换获得的结果的实例的图;
图6是例示使用快速傅立叶变换结果的每个频率区域的得分计算实例的图;
图7是例示BPM计算部分中每个块的BPM确定处理的过程的流程图;
图8是例示根据本公开第二实施例的音乐分析系统的结构的实例的框图;以及
图9是例示允许使用软件执行诸如音乐音乐速度检测或音乐分类的处理的计算机装置的结构的实例的图。
具体实施方式
下文中,将以下面的顺序描述根据本公开的各实施例:
1.第一实施例
2.第二实施例
3.变型
1.第一实施例
[音乐音乐速度检测装置的结构实例]
图1例示根据第一实施例的音乐音乐速度检测装置10的结构的实例。音乐音乐速度检测装置10检测代表音频信号的每预定时间(例如,30秒)的音乐的音乐速度的BPM(每分钟拍数)。音乐音乐速度检测装置10使用根据音频信号的时间轴和频率轴上的数据获得的各种基本特征量的值以及其周期,检测代表音乐音乐速度的BPM。音乐音乐速度检测装置10包括:基本特征量提取部分100、临时BPM计算部分200以及BPM计算部分300。
基本特征量提取部分100根据输入音频信号(PCM信号)针对每一帧计算多个类型的基本特征量。在本实施例中,多个类型的基本特征量对应于“ZCR(过零率,Zero Crossing Rate)”、“谱通量(Spectrum Flux)”、“谱质心(Spectrum Centroid)”和“滚降(Roll-Off)”。“George Tzanetakisand Perry Cook,Musical genre classification of audio signals,IEEETransactions of Speech and Audio Processing,10(5):293-302,July 2002”中公开了这些基本特征量。
“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量通常具有下面的含义。“ZCR”是输入音频信号的时间波形在单位时间期间与横轴相交的次数。“谱通量”是每帧的频谱中的能量变化。“谱质心”是每帧的频谱的中心。“滚降”是达到每帧的频谱的总和的85%的频率。
临时BPM计算部分200将由基本特征量提取部分100提取的每一帧的多种类型的基本特征量视为时间序列数据,并检测包括于多个类型的基本特征量的加权的相加信号中的周期分量(重复的分量),从而计算临时BPM。临时BPM计算部分200使用“谱通量”、“谱质心”和“滚降”的基本特征量。临时BPM计算部分200形成加权和相加部分以及音乐速度检测部分。
这里,临时BPM取BPM0到BPM0×2,并将大约75用作BPM0。即使在BPM0到BPM0×2之间不存在正确的BPM的情况下,临时BPM计算部分200输出BPM0到BPM0×2之间的值作为临时BPM。例如,在正确的BPM是180的情况下,临时BPM计算部分200输出90作为临时BPM。此外,例如,在正确BPM是50的情况下,临时BPM计算部分200输出100作为临时BPM。
BPM计算部分300基于由基本特征量提取部分100提取的基本特征量计算速度感,并确定正确的BPM是超过150的BPM(高BPM)还是低于BPM0(大约75)的BPM(低BPM)。在计算速度感时,BPM计算部分300使用“ZCR(过零率)”、“谱通量”、“谱质心”和“滚降”的基本特征量。
当确定为正确的BPM是高BPM时,BPM计算部分300将由临时BPM计算部分200计算出的临时BPM加倍,以获得BPM。此外,当确定为正确的BPM是低BPM时,BPM计算部分300将由临时BPM计算部分200计算的临时BPM减少到一半,以获得BPM。此外,当确定为正确的BPM既不是高BPM又不是低BPM时,BPM计算部分300照原样使用由临时BPM计算部分200计算出的临时BPM作为BPM。BPM计算部分300形成音乐速度修改部分。
将描述图1中所示的音乐音乐速度检测装置10的操作。输入音频信号(PCM信号)被提供到基本特征量提取部分100。在基本特征量提取部分100中,对每一帧从输入音频信号中提取“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量。
由基本特征量提取部分100提取的针对每一帧的“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量被提供到临时BPM计算部分200。在临时BPM计算部分200中,由基本特征量提取部分100针对每一帧提取的每一基本特征量被视为时间序列数据,并被加权和相加。此外,在临时BPM计算部分200中,提取包括于加权的相加信号中的周期分量(重复分量),并计算临时BPM。临时BPM是BPM0到BPM0×2之间的值(BPM是大约75)。
由临时BPM计算部分200计算的临时BPM被提供给BPM计算部分300。临时BPM是BPM0到BPM0×2之间的值(BPM是大约75)。即,在临时BPM计算部分200中,即使在BPM0到BPM0×2之间不存在正确BPM的情况下,也将BPM0到BPM0×2之间的值输出为临时BPM。此外,由基本特征量提取部分100针对每一帧提取的“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量被提供给BPM计算部分300。
在临时BPM计算部分300中,基于由基本特征量提取部分100提取的“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量计算速度感。在BPM计算部分300中,基于计算的速度感确定正确的BPM是超过BPM0×2的BPM(高BPM)(BPM0是大约75),还是低于BPM0的BPM(低BPM)。
此外,在BPM计算部分300中,当确定为正确的BPM是高BPM时,由临时BPM计算部分200计算出的临时BPM被加倍,以作为BPM输出。此外,在BPM计算部分300中,当确定正确的BPM是低BPM时,由临时BPM计算部分200计算的临时BPM被减少到一半,以作为BPM输出。此外,在BPM计算部分300中,当确定为BPM既不是高BPM也不是低BPM时,由临时BPM计算部分200计算的临时BPM被作为BPM原样输出。
[基本特征量计算部分的描述]
将描述基本特征量计算部分100的细节。如上所述,基本特征量计算部分100计算在临时BPM计算部分200中的周期分量提取处理以及BPM计算部分300中的速度感计算处理中使用的多个类型的基本特征量。多个类型的基本特征量对应于如上所述的“ZCR”、“谱通量”、“谱质心”和“滚降”。
基本特征提取部分100从输入音频信号提取“ZCR”、“谱通量”、“谱质心”和“滚降”。预先对输入音频信号进行通道变换和采样频率变换,使得输入音频信号是单声道的,并具有22.050kHz的采样频率。基本特征量提取部分100将输入音频信号划分为1024个样本帧(大约46毫秒),计算每一帧的基本特征量,然后将结果存储在缓冲器中。
图2例示基本特征量提取部分100的结构的示例。基本特征量提取部分100包括:短时傅立叶变换部分101、通量计算部分102、质心计算部分103、滚降计算部分104、ZCR计算部分105以及缓冲器106到109。
ZCR计算部分105使用输入音频信号,即时间轴上的数据,针对每一帧(1024个样本),根据下面的公式(1)计算“ZCR”。此外,ZCR计算部分105执行归一化(normalization),使得计算结果在被确定为“ZCR”的基本特征量的归一化系数中从0改变为1。这里,“xt”代表帧t中输入音频信号的采样数据,且“n”代表时间轴方向上的索引(index)。此外,“sign”是确定信号的极性的函数。在信号为正的情况下,“sign”被赋予“1”,且在信号是负的情况下,“信号”被赋予“-1”。这里,“Zt”是帧t中的“ZCR”。
短时傅立叶变换部分101针对输入音频信号(即时间轴上的数据)的每一帧,进行短时傅立叶变换(STFT)。从短时傅立叶变换部分101输出的每一帧的频谱被用于每一帧的“谱通量”、“谱质心”和“滚降”的基本特征量的计算。
通量计算部分102使用由短时傅立叶变换部分101获得的每一帧的频谱,针对每一帧,用下面的公式(2)计算“谱通量”。此外,通量计算部分102进行归一化,使得计算结果在被确定为“谱通量”的基本特征量的归一化系数中从0变到1,并且将该结果存储在缓冲器106中。这里,“N”代表帧t中的输入音频信号的频谱(被归一化为幂的总和),“M”代表谱的总数,并且“n”代表频率轴方向上的索引。此外,“Ft”代表帧t中的“谱通量”。
滚降计算部分104使用由短时傅立叶变换部分101获得的针对每一帧的频谱计算每一帧的“滚降”,并且将计算结果存储在缓冲器108中。滚降计算部分104计算“滚降”,作为满足下面的公式(3)的最小Rt。此外,滚降计算部分104执行归一化,使得计算结果在被确定为“滚降”的基本特征量的归一化系数中从0改变为1,并且将结果存储在缓冲器(缓冲器4)108中。这里,“X”代表帧t中的输入音频信号的频谱,“M”代表总谱数,且“n”代表频率轴方向上的索引。
根据下面的公式(4),质心计算部分103使用由短时傅立叶变换部分101获得的每一帧的频谱计算每一帧的“谱质心”。此外,质心计算部分103执行归一化,使得计算结果在被确定为“谱质心”的基本特征量的归一化系数中被从0改变为1,并将结果存储在缓存器107中。这里,“X”代表帧t中的输入音频信号的频谱,“M”代表总谱数,并且“n”代表频率轴方向上的索引。此外,“Ct”代表帧t中的“谱质心”。
将简要说明图2中所示的基本特征量提取部分100的操作。输入音频信号(PCM信号)被提供到短时傅立叶变换部分101和ZCR计算部分105。输入音频信号被预先进行通道变换和采样频率变换,使得输入音频信号是单声道,并具有22.050kHz的采样频率。
ZCR计算部分105使用输入音频信号,即时间轴上的数据(见公式(1)),来计算每一帧(1024个样本)的“ZCR”的基本特征量。ZCR计算部分105执行归一化,使得计算结果在被确定为“ZCR”的基本特征量的归一化系数中从0改变为1,并将结果存储在作为ZCR存储缓冲器的缓冲器109中。
此外,短时傅立叶变换部分101对输入信号(即时间轴上的数据)的每一帧执行短时傅立叶变换。由短时傅立叶变换部分101获得的每一帧的频谱被提供到通量计算部分102、质心计算部分103以及滚降计算部分104。
通量计算部分102使用由短时傅立叶变换部分101获得的每一帧的频谱来计算每一帧的“谱通量”的基本特征量(参考公式(2))。通量计算部分102执行归一化,使得计算结果在被确定为“谱通量”的基本特征量的归一化系数中从0改变为1,并将结果存储在作为通量存储缓冲器的缓冲器106中。
滚降计算部分104使用由短时傅立叶变换部分101获得的每一帧的频谱来计算每一帧的“滚降”的基本特征量(参考公式(3))。滚降计算部分104执行归一化,使得计算结果在被确定为“滚降”的基本特征量的归一化系数中从0改变为1,并将结果存储在作为滚降存储缓冲器的缓冲器108中。
质心计算部分103使用由短时傅立叶变换部分101获得的每一帧的频谱来计算每一帧的“谱质心”的基本特征量(参考公式(4))。质心计算部分103执行归一化,使得计算结果在被确定为“谱质心”的基本特征量的归一化系数中从0改变为1,并将结果存储在作为质心存储缓冲器的缓冲器107中。
[临时BPM计算部分]
将描述临时BPM计算部分200的细节。如上所述,临时BPM计算部分200将每一帧的多个类型的基本特征量视为时间序列数据,并提取包括在多个类型的基本特征量的加权的相加信号中的周期分量(重复的分量),从而计算临时BPM。
图3例示临时BPM计算部分200的结构的例子。临时BPM计算部分200包括加权和相加部分210和周期分量分析部分220。加权和相加部分210连续地从缓存器106、107和108提取各个帧的“谱通量”、“谱质心”和“滚降”的基本特征量,并执行加权和相加,从而获得加权的相加信号。
加权和相加部分210包括乘法器211到213以及加法器214。乘法器211用权重系数w1乘以从缓冲器106提取的“谱通量”以执行加权。此外,乘法器212用权重系数w2乘以从缓冲器107提取的“谱质心”以执行加权。此外,乘法器213用权重系数w3乘以从缓冲器108提取的“滚降”以执行加权。
加法器214将分别由乘法器211、212和213加权的各帧的“谱通量”、“谱质心”和“滚降”的基本特征量相加,以连续地输出各个帧的加权的相加信号。权重系数w1、w2和w3被预先手动地确定,或通过学习等自动地确定,使得周期分量被期望地检测。
“谱通量”、“谱质心”和“滚降”的所有基本特征量趋向在产生起奏信号(attacking signal)的位置增加。考虑到单独的基本特征量,因为基本特征量在聚焦的周期分量之外的位置增加,所以存在很多这在检测周期分量时变成噪声的情况,引起周期分量检测的误差。在加权的相加信号中,因为强调同时改变所有基本特征量的位置,从而提高了周期分量的检测性能。
周期分量分析部分220检测包括在由加权和相加部分210获得的加权的相加信号中的周期分量(重复的分量),并且基于周期分量检测临时BPM。周期分量分析部分220形成音乐速度检测部分。图4例示周期分量分析部分220的结构的例子。周期分量分析部分220包括:快速傅立叶变换部分221、得分计算部分222到225、相加部分226以及最大值搜索部分227。
快速傅立叶变换部分221对从加权和相加部分210连续地输出的各个帧的加权的相加信号执行快速傅立叶变换(FFT)。例如,FFT的大小(size)对应于1024个样本。在这种情况下,在时间序列数据中,因为每秒的帧数是22050/1024,所以时间序列数据被快速傅立叶变换时的采样频率变为22050/1024Hz。这时的Nyquist频率变为22050/(2×1024)Hz。在将1024个样本用作FFT的大小时,获得1024个样本的频率数据,并且一个样本对应于(22050/1024)/1024Hz。换句话说,因为BPM对应于每分钟的重复数,所以一个样本对应于每个谱的60×(22050/1024)/1024BPM。
在加权的相加信号中存在周期分量的情况下,被获得为快速傅立叶变换的结果的频率轴上的每一样本数据中的相应频率位置的样本数据的水平变为峰。图5例示加权的相加信号的快速傅立叶变换的结果的例子。在本图中,纵轴代表与频率相对应的BPM(每分钟拍数)。
得分计算部分222到225计算用于临时BPM的检测的得分。从图5中的快速傅立叶变换的结果可以看出,出现了一些峰。最大值发生的频率位置不需要限制到正确的BPM。例如,在16分音符分量强的情况下,强峰出现在正确的BPM四倍的位置。
在执行正确的BPM检测之前,临时BPM计算部分200检测假设正确的BPM是BPM0到BPM0×2时的BPM(BPM0大约是75),作为临时BPM。得分检测部分222到225根据快速傅立叶变换的结果,计算指示BPM0到BPM0×2中的哪个BPM看起来最像临时BPM的得分,从而计算临时BPM。
在对BPM=100的音乐进行处理的情况下,峰被产生到与BPM=100相对应的频率,此外,峰趋向于在与BPM=50、BPM=200和BPM=400相对应的频率位置产生。因此,周期分量分析部分220将频率区域划分为下面的4个区域,并计算各个区域中的得分。在频率划分中,在与低通侧相邻的频率区域中,得分被减小到一半,且在与高通侧相邻的频率区域中,得分被加倍。
在临时BPM的下限值被设定为BPM0的情况下,频率区域1是与BPM0/2<BPM≤BPM0相对应的频率区域,频率区域2是与BPM0<BPM≤BPM0×2相对应的频率区域,频率区域3是与BPM0×2<BPM≤BPM0×4相对应的频率区域,以及频率区域4是与BPM0×4<BPM≤BPM0×8相对应的频率区域。如果临时BPM的范围被设定为大约75到大约150,则BPM0变为60×(22050/1024)/1024×60。
得分计算部分222基于存在于频率区域1中的每一样本数据计算频率区域1的得分。得分计算部分223基于存在于频率区域2中的每一样本数据计算频率区域2的得分。得分计算部分224基于存在于频率区域3中的每一样本数据计算频率区域3的得分。得分计算部分225基于存在于频率区域4中的每一样本数据计算频率区域4的得分。
图6例示使用快速傅立叶变换的结果(参考图5)的每一频率区域的得分计算的例子。频率区域1的信号被视为与频率是两倍的位置相对应的临时BPM的一半的分量。即,在临时BPM被视为四分音符的情况下频率区域1的信号变成二分音符分量。因此,针对存在于频率区域1中的每一样本数据,计算频率区域1的得分的得分计算部分222使用其水平作为频率是两倍的位置中的样本得分。例如,存在于BPM是60的位置中的样本数据的水平被用作与BPM=120相对应的样本得分。
频率区域2的信号被视为临时BPM的分量。即,在临时BPM被视为四分音符的情况下,频率区域2的信号变为四分音符分量。因此,针对存在于频率区域2中的每一样本数据,计算频率区域2的得分的得分计算部分223使用其水平作为频率相同的位置中的样本得分。
频率区域3的信号被视为两倍与频率是一半的位置相对应的临时BPM的分量。即,在临时BPM被视为四分音符的情况下,频率区域3的信号变为八分音符分量。因此,针对存在于频率区域3中的每一样本数据,计算频率区域3的得分的得分计算部分224使用其水平作为频率是一半的位置中的样本得分。例如,存在于BPM是240的位置中的样本数据的水平被用作与BPM=120相对应的样本得分。
频率区域4的信号被视为四倍于与频率是1/4的位置相对应的临时BPM的分量。即,在临时BPM被视为四分音符的情况下,频率区域4的信号变为1/16音符分量。因此,针对存在于频率区域4中的每一样本数据,计算频率区域4的得分的得分计算部分225使用其水平作为频率是1/4的位置中的样本得分。例如,存在于BPM是480的位置中的样本数据的水平被用作与BPM=120相对应的样本得分。
返回到图4,相加部分226匹配在各个区域中的样本数,并且针对相应的样本相加由得分计算部分222到225计算的各个区域中的得分。相加部分226形成得分相加部分。相加部分226在其它频率区域中执行样本的稀疏(thin out),使得它们的样本数变得例如与样本数最小的频率区域1中相同。
如上所述,在帧频率是22.050/1024kHz且FFT尺寸是1024个样本的情况下,在快速傅立叶变换部分221中,采样频率是22.050/1024kHz,且获得样本数(数据数)是1024的频率表达(frequency expression)。在这种情况下,频率区域1的样本数是30,频率区域2的样本数是60,频率区域3的样本数是120,且频率区域4的样本数是240(参考图5)。
如下执行频率区域2中的样本的稀疏。在频率区域1中的样本数是30的同时,频率区域2中的样本数是60。因此,相加部分226将频率区域2划分为每两个样本30个块,并且只取每个块的最大值,从而将样本稀疏到30个样本。
此外,如下执行频率区域3中的样本稀疏。在频率区域1的样本数是30的同时,频率区域3的样本数是120。因此,相加部分226将频率区域3划分为每4个样本30个块,并且只取每个块的最大值,从而将样本稀疏到30个样本。
此外,如下执行频率区域4中的样本稀疏。在频率区域1的样本数是30的同时,频率区域4的样本数是240。因此,相加部分226将频率区域4划分为每8个样本30个块,并且只取每个块的最大值,从而将样本稀疏到30个样本。
最大值搜索部分227从通过在相加部分226中的相加获得的各个样本的得分相加值中搜索最大值,如图6所示。此外,将与频率区域2中的、与最大得分相加值的样本相对应的频率相对应的BPM用作临时BPM。这里,频率区域2(与BPM0<BPM≤BPM0×2相对应的频率区域)是假设存在正确的BPM的频率区域,如上所述。
将简要描述图3中所示的临时BPM计算部分200的操作。连续地提取存储在缓冲器106、107和108中的各个帧的“谱通量”、“谱质心”和“滚降”的基本特征量,然后将它们提供到加权和相加部分210。乘法器211用加权系数w1乘以从缓冲器106中提取的“谱通量”,以执行加权。此外,乘法器212用加权系数w2乘以从缓冲器107中提取的“谱质心”,以执行加权。此外,乘法器213用加权系数w3乘以从缓冲器108提取的“滚降”,以执行加权。
各个乘法器211到213的输出信号被提供到加法器214。加法器214分别地将由乘法器211到213加权的针对各个帧的“谱通量”、“谱质心”和“滚降”的基本特征量相加,以连续地获得针对各个帧的加权的相加信号。加权的相加信号被提供到周期分量分析部分220。
周期分量分析部分220检测由加权和相加部分210获得的加权的相加信号中包括的周期分量(重复的分量),并基于周期分量检测临时BPM。即,周期分量分析部分220的傅立叶变换部分221针对连续地从加权和相加部分210输出的各个帧的加权的相加信号(时间序列数据)执行快速傅立叶变换(参考图4)。快速傅立叶变换的结果被提供到得分计算部分222到225(参考图5)。
得分计算部分222到225计算用于检测临时BPM的得分(参考图6)。得分计算部分222基于存在于频率区域1(与BPM0/2<BPM≤BPM0相对应的频率区域)中的每一样本数据计算频率区域1的得分。在这种情况下,针对存在于频率区域1中的每个样本数据,水平变为频率是两倍的位置的样本得分。
得分计算部分223基于存在于频率区域2(与BPM0<BPM≤BPM0×2相对应的频率区域)中的每一样本数据计算频率区域2的得分。频率区域2是假设存在正确的BPM的频率区域。在这种情况下,针对存在于频率区域2中的每一样本数据,该水平变为频率相同的位置的样本得分。
得分计算部分224基于频率区域3(与BPM0×2<BPM≤BPM0×4相对应的频率区域)中存在的每一样本数据计算频率区域3的得分。在这种情况下,针对存在于频率区域3中的每个样本数据,该水平变为频率是一半的位置的样本得分。
得分计算部分225基于频率区域4(与BPM0×4<BPM≤BPM0×8相对应的频率区域)中存在的每一样本数据计算频率区域4的得分。在这种情况下,针对存在于频率区域4中的每一样本数据,该水平变为频率是1/4的位置的样本得分。
由得分计算部分222到225计算的各个频率区域的得分被提供到相加部分226。相加部分226匹配各个频率区域中的样本数,并分别将针对相应的样本的各个频率区域的得分相加。在这种情况下,相加部分226在其它频率区域中执行样本的稀疏,使得它们的样本数变得例如与样本数最小的频率区域1中相同。
由相加部分226获得的样本的得分相加值被提供到最大值搜索部分227(见图6)。最大值搜索部分227从各个样本的得分相加值中搜索最大值。此外,在最大值搜索部分227中,与频率区域2中的与最大得分相加值的样本相对应的频率相对应的BPM被用作临时BPM。
[BPM计算部分]
将描述BPM计算部分200的细节。BPM计算部分200基于由基本特征量提取部分100提取的基本特征量计算速度感,并确定是否应该修改由临时BPM计算部分200计算的临时BPM。临时BPM计算部分200基于BPM落入BPM0到BPM0×2的假设计算临时BPM。BPM计算部分300执行高BPM确定(确定BPM是否超过BPM0×2)以及低BPM确定(确定BPM是否低于BPM0),从而获得更准确的BPM。
如上所述,音乐音乐速度检测装置10针对音频信号,例如每30秒检测代表音乐音乐速度的BPM。BPM计算部分300进一步将30秒的信号划分为若干100毫秒的块,并针对每个块执行高BPM确定和低BPM确定。BPM计算部分300使用在上述确定中由基本特征量提取部分100提取的“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量。
如上所述,基本特征量提取部分100从输入音频信号(PCM信号)中,针对每一帧提取“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量。BPM计算部分300针对每个块计算各个基本特征量的平均和标准偏差,并使用该结果作为代表该块的特征量。因此,BPM计算部分300获得8维特征向量(f0、f1、f2、f3、f4、f5、f6和f7)作为特征量。BPM计算部分300计算特征向量和权重系数的内积,从而执行高BPM确定和低BPM确定。
首先,BPM计算部分300执行高BPM确定,即,确定BPM是否超过BPM0×2。BPM计算部分300使用上述8维特征向量和用于高BPM确定的权重系数计算高BPM确定的“速度感1”。
经过预先学习计算用于高BPM确定的权重系数。例如,如下进行学习。即,准备人感觉BPM超过BPM0×2时的一组音乐以及人感觉BPM低于BPM0×2时的一组音乐,并针对每一组中的所有音乐计算上述特征量(8维特征向量)。此外,使用Fisher的线性判别分析,并计算用于区分两个组的最优投影。作为结果获得的系数被用作用于高BPM确定的权重系数。
“速度感1”与人感觉BPM超过BPM0×2的程度相对应。BPM计算部分300通过根据下面的公式(5)计算特征量(8维特征向量)和用于高BPM确定的权重系数的内积,计算块K中的“速度感1”。这里,“a”代表用于“速度感1”的计算的用于高BPM确定的权重系数,并且“f”代表块K中的特征量。
BPM计算部分300将计算的“速度感1”与预定阈值A相比较。当“速度感1”大于阈值A时,BPM计算部分300将BPM确定为两倍的临时BPM,即“临时BPM×2”。当“速度感1”不大于阈值A时,BPM计算部分300移动到低BPM确定。在学习用于高BPM确定的权重系数时确定阈值A。
为了进行低BPM确定,即,为了确定BPM是否低于BPM0,BPM计算部分300使用上述8维特征向量和用于低BPM确定的权重系数计算“速度感2”。
经过预先学习确定用于低BPM确定的权重系数。例如,如下进行学习。即,准备人感觉BPM低于BPM0时的一组音乐以及人感觉BPM是BPM0或更高时的一组音乐,并针对每一组中的所有音乐计算上述特征量(8维特征向量)。此外,使用Fisher的线性判别分析,并计算用于区分两个组的最优投影。作为结果获得的系数被用作用于低通BPM确定的权重系数。
“速度感2”与人感觉BPM低于BPM0的程度相对应。BPM计算部分300通过根据下面的公式(6)计算特征向量(8维特征向量)和用于低BPM确定的权重系数的内积来计算块k中的“速度感2”。这里,“b”代表用于“速度感2”的计算的用于低BPM确定的权重系数,且“f”代表块k中的特征量。
BPM计算部分300将计算的“速度感2”与预定阈值B相比较。当“速度感2”大于阈值B时,BPM计算部分300将BPM确定为临时BPM的一半,即“临时BPM/2”。当“速度感2”不大于阈值B时,BPM计算部分300将BPM确定为临时BPM。
图7是例示在BPM计算部分300中针对每个块的上述BPM确定处理的过程的流程图。BPM计算部分300在步骤ST1中开始处理,然后进行到步骤ST2。在步骤ST2中,BPM计算部分300计算特征量(8维特征向量)和用于高BPM确定的权重系数的内积,从而计算用于高BPM确定的“速度感1”(参考公式(5))。
接下来,在步骤ST3中,BPM计算部分300确定“速度感1”是否大于阈值A,即,“速度感1”>阈值A。当“速度感1”大于阈值A时,在步骤ST4中,BPM计算部分300确定BPM为临时BPM的两倍,即“临时BPM×2”,然后在步骤ST5中终止处理。
当在步骤ST3中“速度感1”不大于阈值A时,BPM计算部分300进行到步骤ST6的处理。在步骤ST6中,BPM计算部分300计算特征量(8维特征向量)和用于低BPM确定的权重系数的内积,从而计算用于低BPM确定的“速度感2”(参考公式(6))。
接下来,在步骤ST7中,BPM计算部分300确定“速度感2”是否大于阈值B,即“速度感2”>阈值B。当速度感2大于阈值B时,在步骤ST8中,BPM计算部分300将BPM确定为临时BPM的一半,即确定为“临时BPM/2”,然后在步骤ST5中终止处理。
当在步骤ST7中“速度感2”不大于阈值B时,BPM计算部分300进行到步骤ST9的处理。在步骤ST9中,BPM计算部分300将BPM确定为原样的临时BPM,然后在步骤ST5终止处理。
如上所述,BPM计算部分300将30秒的信号划分为若干个100毫秒的块,并针对每个块执行高BPM确定和低BPM确定,以确定BPM。BPM计算部分300输出所有块中最频繁(most frequent)的块,作为当前处理的30秒的输入音频信号的BPM。
在BPM计算部分300中的上述高BPM确定和低BPM确定中,可以组合多个确定装置。例如,考虑这样的系统:将BPM视为BPM0×2或更高、并在在任何确定装置中获得等于或高于阈值的值的情况下将BPM修改为两倍的系统,将BPM视为小于BPM0并在所有确定装置中获得等于或高于阈值的值的情况下将BPM修改为一半的系统等。
此外,如上所述,上述音乐音乐速度检测装置10针对音频信号检测表示每预定时间(例如每30秒)的音乐的音乐速度的BPM。从而,为了确定整个音乐的BPM,需要组合所有30秒的结果。该处理例如通过将所有30秒的BPM中最频繁出现的BPM视为整个音乐的BPM来实现。
如上所述,在图1中的音乐音乐速度检测装置10中,在临时BPM计算部分200中加权并相加从输入音频信号中提取的“谱通量”、“谱质心”和“滚降”的基本特征量。此外,基于加权的相加信号计算代表音乐速度的临时BPM。在加权的相加信号中,因为强调了同时改变所有基本特征量的位置,所以可以减少噪声,从而增强周期分量的检测性能。因此,可以用由临时BPM计算部分200以高效率低计算量计算临时BPM。
此外,在图1中的音乐音乐速度检测装置10中,BPM计算部分300根据“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量计算“速度感1”和“速度感2”。此外,基于“速度感1”和“速度感”2适当地修改由临时BPM计算部分200计算的临时BPM。此外,由基本特征量提取部分100提取在BPM计算部分300中使用的“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量。因此,可以用BPM计算部分300以高效率低计算量获得BPM。
此外,在图1中的音乐音乐速度检测装置10中,因为可以以高效率低计算量检测BPM,所以即使在只能安装低资源处理器的便携设备上也能够以高效率检测音乐音乐速度。因此,即使在难以使用PC应用软件的环境中,也可以提供使用音乐音乐速度的功能,诸如,基于音乐速度的音乐搜索。
2.第二实施例
[音乐分析系统]
图8例示根据本公开第二实施例的音乐分析系统5的结构的示例。在图8中,相同附图标记被赋予与图1相对应的元件。
音乐分析系统5同时执行音乐分类和音乐音乐速度检测。在音乐分类中,音乐分析系统5基于输入音频信号将音乐分类为包括流派(诸如古典、摇滚或爵士)和情绪(组如快乐音乐或悲伤音乐)的种类,并且输出分类种类“输出种类”。在音乐音乐速度检测中,以与上述第一实施例相似的方式,基于要输出的输入音频信号检测代表音乐音乐速度的BPM。
音乐分析系统5包括音乐分类装置40和音乐音乐速度检测装置10A。首先描述音乐分类装置40。音乐分类装置40包括:基本特征量提取部分510、相似度估计部分520以及输出种类确定部分530。
基本特征量提取部分510根据输入音频信号(PCM信号),针对每一帧,计算多个类型的基本特征量。省略对基本特征量提取部分510的详细描述,其以与图1中的音乐音乐速度检测装置10的基本特征量提取部分100相似的方式构造。
相似度估计部分520使用由基本特征量提取部分510提取的针对每一帧的基本特征量,计算与指示分类种类的模型的相似度。这里,使用GMM(高斯混合模型)的似然性计算被作为相似度计算执行。为了执行似然性计算,预先作为学习数据创建包括要被分类到每一种类的音乐的数据库。
在学习中针对学习数据计算特征量之后,针对每一种类执行使用GMM的建模。可以使用EM算法来进行建模。可以离线进行建模,并将代表各个模型的参数存储在相似度估计部分520中。
相似度估计部分520使用代表各个分类的GMM参数计算各个帧的模型的对数似然性。在终止对所有帧的处理之后,取所有帧的对数似然性的总和,以用作各个情绪和流派的得分。输出种类确定部分530输出具有最大得分的种类作为处理结果,即,分类种类“输出种类”。
接下来,将描述音乐音乐速度检测装置10A。音乐音乐速度检测装置10A包括临时BPM计算部分200和BPM计算部分300。省略其详细的描述,但临时BPM计算部分200和BPM计算部分300与图1中的音乐音乐速度检测装置10中的临时BPM计算部分200和BPM计算部分300相同。
音乐音乐速度检测装置10A中的临时BPM计算部分200加权并相加由音乐分类装置40的基本特征量提取部分510提取的“谱通量”、“谱质心”和“滚降”的基本特征量。此外,临时BPM计算部分200基于加权的相加信号计算代表音乐速度的临时BPM。
此外,音乐音乐速度检测装置10A中的BPM计算部分300基于由音乐分类装置40的基本特征量提取部分510提取的基本特征量计算“速度感1”和“速度感2”。在这种情况下,使用“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量。BPM计算部分300基于“速度感1”和“速度感2”适当地修改由临时BPM计算部分200计算的临时BPM,以输出BPM。
在图8所示的音乐分析系统5中,因为音乐音乐速度检测装置10A具有与图1所示的音乐音乐速度检测装置10的结构相同的结构,所以可以获得相同的效果。此外,在音乐分析系统5中,可以在音乐音乐速度检测装置10A中高效地使用由音乐分类装置40的基本特征量提取部分510提取的基本特征量。从而,可以减小整个计算量。
尽管在图8中未示出,音乐分类装置40可以使用作为音乐音乐速度检测装置300的分析结果的BPM作为特征量。例如,针对每一种类确定BPM的下限和上限,并且输出种类确定部分530可以最终只针对落入其范围的音乐输出分类种类“输出种类”。
3.变型
上述音乐音乐速度检测装置10和音乐分析系统5可以由硬件构造,并可以使用软件执行相同的处理。图9例示允许使用软件执行处理的计算机装置50的结构的例子。计算机装置50包括:CPU181、ROM182、RAM183和数据输入/输出部分(数据I/O)184。
ROM 182存储需要的数据,诸如CPU 181的处理程序、权重系数以及阈值。RAM 183用作CPU 181的工作区域。CPU 181按需要读出存储在ROM 182中的处理程序,将读取的处理程序发送到RAM 183以进行扩展,并读出扩展的处理程序以执行诸如音乐音乐速度检测或音乐分类的处理。
在计算机装置50中,经由数据I/O 184输入音乐音频信号(PCM信号),并将音乐音频信号存储在RAM 183中。由CPU 181针对存储在RAM183中的输入音频信号执行诸如音乐音乐速度检测或音乐分类的处理。此外,按需要经由数据I/O 184向外输出处理结果(BPM,输出种类)。
上述实施例只例示了音乐音乐速度检测装置10和音乐分析系统5。音乐音乐速度检测装置10和音乐分析系统5可以安装在便携设备中并在其中使用,便携设备诸如是具有声音记录和再现功能的移动通信设备或终端或移动信息设备或终端。
本公开包含与2010年8月2日在日本专利局提交的日本优先权专利申请JP2010-173253中公开的主题相关的主题,其整个内容通过引用包含于此。
本领域技术人员将会理解:可以基于设计需要和其它因素发生各种变型、组合、子组合和替换,只要它们在所附权利要求书和其等同物的范围内即可。
Claims (8)
1.一种音乐速度检测装置,包括:
基本特征量提取部分,其从输入音频信号提取多个类型的基本特征量;
加权和相加部分,其对在所述基本特征量提取部分中提取的多个类型的所述基本特征量进行加权和相加,以获得相加信号;以及
音乐速度检测部分,其基于在所述加权和相加部分中获得的所述相加信号中包括的周期分量来检测指示音乐速度的每分钟拍数BPM。
2.根据权利要求1所述的音乐速度检测装置,其中,所述基本特征量提取部分将所述输入音频信号划分为包括预定数量的样本数据的帧,并针对每一帧提取所述多个类型的所述基本特征量。
3.根据权利要求2所述的音乐速度检测装置,其中,所述基本特征量提取部分包括:
短时傅立叶变换部分,其对所述输入音频信号的每一帧进行短时傅立叶变换;以及
基本特征量计算部分,其基于从所述短时傅立叶变换部分输出的每一帧的频谱计算所述多个类型的所述基本特征量。
4.根据权利要求3所述的音乐速度检测装置,其中,所述音乐速度检测部分包括:
快速傅立叶变换部分,其对在所述加权和相加部分中获得的每一帧的所述相加信号进行快速傅立叶变换;
得分计算部分,其将从所述快速傅立叶变换部分输出的频率轴上的各个样本划分到预定数量的连续频率区域,并且针对每个频率区域以及针对每个样本计算与每个样本数据的水平相对应的得分,所述连续频率区域包括假设存在正确的BPM的频率区域,并且在所述连续频率区域中,与低通侧相邻的频率区域变为一半且与高通侧相邻的频率区域变为两倍;
得分相加部分,其基于在所述得分计算部分中计算出的针对每一频率区域以及针对每一样本的得分,匹配所述各个频率区域的样本数,并对所述各个频率区域的针对相应样本的样本得分进行相加;以及
BPM确定部分,其将与假设存在所述正确的BPM的所述频率区域中的频率相对应的BPM确定为指示音乐速度的BPM,所述假设存在所述正确的BPM的所述频率区域中的频率与具有由所述得分相加部分的相加获得的样本中的每一个样本的得分相加值中的最大得分相加值的样本相对应。
5.根据权利要求1所述的音乐速度检测装置,还包括基于在所述基本特征量提取部分中提取的所述多个类型的基本特征量修改在所述音乐速度检测部分中检测到的BPM的音乐速度修改部分,
其中,所述音乐速度修改部分基于所述多个类型的所述基本特征量,获得用于确定所述正确的BPM是否存在于参照假设存在所述正确的BPM的所述频率区域的高通侧的第一速度感,并获得用于确定所述正确的BPM是否存在于参照假设存在所述正确的BPM的所述频率区域的低通侧的第二速度感;当通过所述第一速度感确定所述正确的BPM存在于参照假设存在所述正确的BPM的所述频率区域的所述高通侧时,将在所述音乐速度检测部分中检测到的所述BPM加倍,以输出所述BPM;当通过所述第二速度感确定所述正确的BPM存在于参照假设存在所述正确的BPM的所述频率区域的所述低通侧时,将在所述音乐速度检测部分中检测到的BPM减小到一半,以输出所述BPM;以及当通过所述第一速度感确定所述正确的BPM不存在于参照假设存在所述正确的BPM的所述频率区域的所述高通侧时,以及当通过所述第二速度感确定所述正确的BPM不存在于参照假设存在所述正确的BPM的所述频率区域的所述低通侧时,将在所述音乐速度检测部分中检测到的所述BPM照原样输出,作为所述BPM。
6.根据权利要求5所述的音乐速度检测装置,其中,
所述基本特征量提取部分将所述输入音频信号划分为包括预定数量的样本数据的帧,并针对每一帧提取所述多个类型的所述基本特征量,以及
其中,所述音乐速度修改部分针对包括预定数量的帧的每个块获得所述第一速度感和所述第二速度感;通过利用经过预先学习而获得的第一系数组加权预定数量的帧中所述多个类型的基本特征量的平均值和标准偏差,并通过将加权的平均值和标准偏差相加,来获得所述第一速度感;以及通过利用经过预先学习而获得的第二系数组加权预定数量的帧中所述多个类型的基本特征量的所述平均值和所述标准偏差,并通过将加权的平均值和标准偏差相加,来获得所述第二速度感。
7.一种音乐速度检测方法,包括:
从输入音频信号提取多个类型的基本特征量;
对在基本特征量提取中提取的多个类型的所述基本特征量进行加权和相加,以获得相加信号;以及
基于在基本特征量加权和相加中获得的所述相加信号中包括的周期分量来检测指示音乐速度的每分钟拍数BPM。
8.一种允许计算机具有包括以下内容的功能的程序,包括:
基本特征量提取装置,用于从输入音频信号提取多个类型的基本特征量;
加权和相加装置,用于对在所述基本特征量提取装置中提取的多个类型的所述基本特征量进行加权和相加,以获得相加信号;以及
音乐速度检测装置,用于基于在所述加权和相加装置中获得的所述相加信号中包括的周期分量来检测指示音乐速度的每分钟拍数BPM。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010-173253 | 2010-08-02 | ||
JP2010173253A JP5569228B2 (ja) | 2010-08-02 | 2010-08-02 | テンポ検出装置、テンポ検出方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102347022A true CN102347022A (zh) | 2012-02-08 |
Family
ID=45525391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102126918A Pending CN102347022A (zh) | 2010-08-02 | 2011-07-26 | 音乐速度检测装置、音乐速度检测方法和程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8431810B2 (zh) |
JP (1) | JP5569228B2 (zh) |
CN (1) | CN102347022A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050972A (zh) * | 2013-03-14 | 2014-09-17 | 雅马哈株式会社 | 声音信号分析设备以及声音信号分析方法和程序 |
CN106652981A (zh) * | 2016-12-28 | 2017-05-10 | 广州酷狗计算机科技有限公司 | Bpm检测方法及装置 |
CN109308910A (zh) * | 2018-09-20 | 2019-02-05 | 广州酷狗计算机科技有限公司 | 确定音频的bpm的方法和装置 |
CN113823325A (zh) * | 2021-06-03 | 2021-12-21 | 腾讯科技(北京)有限公司 | 音频节奏检测方法、装置、设备和介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8344234B2 (en) * | 2008-04-11 | 2013-01-01 | Pioneer Corporation | Tempo detecting device and tempo detecting program |
JP5569228B2 (ja) * | 2010-08-02 | 2014-08-13 | ソニー株式会社 | テンポ検出装置、テンポ検出方法およびプログラム |
JP5808711B2 (ja) * | 2012-05-14 | 2015-11-10 | 株式会社ファン・タップ | 演奏位置検出装置 |
EP3246824A1 (en) * | 2016-05-20 | 2017-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for determining a similarity information, method for determining a similarity information, apparatus for determining an autocorrelation information, apparatus for determining a cross-correlation information and computer program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050273328A1 (en) * | 2004-06-02 | 2005-12-08 | Stmicroelectronics Asia Pacific Pte. Ltd. | Energy-based audio pattern recognition with weighting of energy matches |
CN1764940A (zh) * | 2003-03-31 | 2006-04-26 | 索尼株式会社 | 拍子分析装置和拍子分析方法 |
US20070022867A1 (en) * | 2005-07-27 | 2007-02-01 | Sony Corporation | Beat extraction apparatus and method, music-synchronized image display apparatus and method, tempo value detection apparatus, rhythm tracking apparatus and method, and music-synchronized display apparatus and method |
CN101375327A (zh) * | 2006-01-25 | 2009-02-25 | 索尼株式会社 | 节拍提取设备和节拍提取方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6201176B1 (en) * | 1998-05-07 | 2001-03-13 | Canon Kabushiki Kaisha | System and method for querying a music database |
JP5041624B2 (ja) | 2000-11-21 | 2012-10-03 | アイシン精機株式会社 | クラッチの制御装置 |
US20040254660A1 (en) * | 2003-05-28 | 2004-12-16 | Alan Seefeldt | Method and device to process digital media streams |
JP4650662B2 (ja) * | 2004-03-23 | 2011-03-16 | ソニー株式会社 | 信号処理装置および信号処理方法、プログラム、並びに記録媒体 |
JP4347815B2 (ja) * | 2005-01-11 | 2009-10-21 | シャープ株式会社 | テンポ抽出装置およびテンポ抽出方法 |
US7518053B1 (en) * | 2005-09-01 | 2009-04-14 | Texas Instruments Incorporated | Beat matching for portable audio |
PL2115732T3 (pl) * | 2007-02-01 | 2015-08-31 | Museami Inc | Transkrypcja muzyczna |
CN102867526A (zh) * | 2007-02-14 | 2013-01-09 | 缪斯亚米有限公司 | 用于分布式音频文件编辑的门户网站 |
JP4973426B2 (ja) * | 2007-10-03 | 2012-07-11 | ヤマハ株式会社 | テンポクロック生成装置およびプログラム |
US8344234B2 (en) * | 2008-04-11 | 2013-01-01 | Pioneer Corporation | Tempo detecting device and tempo detecting program |
JP5206378B2 (ja) * | 2008-12-05 | 2013-06-12 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
TWI484473B (zh) * | 2009-10-30 | 2015-05-11 | Dolby Int Ab | 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統 |
JP2012015809A (ja) * | 2010-06-30 | 2012-01-19 | Kddi Corp | 楽曲選択装置、楽曲選択方法および楽曲選択プログラム |
JP5569228B2 (ja) * | 2010-08-02 | 2014-08-13 | ソニー株式会社 | テンポ検出装置、テンポ検出方法およびプログラム |
JP5641326B2 (ja) * | 2010-12-21 | 2014-12-17 | ソニー株式会社 | コンテンツ再生装置および方法、並びにプログラム |
-
2010
- 2010-08-02 JP JP2010173253A patent/JP5569228B2/ja not_active Expired - Fee Related
-
2011
- 2011-07-26 CN CN2011102126918A patent/CN102347022A/zh active Pending
- 2011-07-26 US US13/190,731 patent/US8431810B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1764940A (zh) * | 2003-03-31 | 2006-04-26 | 索尼株式会社 | 拍子分析装置和拍子分析方法 |
US20050273328A1 (en) * | 2004-06-02 | 2005-12-08 | Stmicroelectronics Asia Pacific Pte. Ltd. | Energy-based audio pattern recognition with weighting of energy matches |
US20070022867A1 (en) * | 2005-07-27 | 2007-02-01 | Sony Corporation | Beat extraction apparatus and method, music-synchronized image display apparatus and method, tempo value detection apparatus, rhythm tracking apparatus and method, and music-synchronized display apparatus and method |
CN101375327A (zh) * | 2006-01-25 | 2009-02-25 | 索尼株式会社 | 节拍提取设备和节拍提取方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050972A (zh) * | 2013-03-14 | 2014-09-17 | 雅马哈株式会社 | 声音信号分析设备以及声音信号分析方法和程序 |
CN104050972B (zh) * | 2013-03-14 | 2019-07-30 | 雅马哈株式会社 | 声音信号分析设备以及声音信号分析方法和程序 |
CN106652981A (zh) * | 2016-12-28 | 2017-05-10 | 广州酷狗计算机科技有限公司 | Bpm检测方法及装置 |
CN106652981B (zh) * | 2016-12-28 | 2019-09-13 | 广州酷狗计算机科技有限公司 | Bpm检测方法及装置 |
CN109308910A (zh) * | 2018-09-20 | 2019-02-05 | 广州酷狗计算机科技有限公司 | 确定音频的bpm的方法和装置 |
CN109308910B (zh) * | 2018-09-20 | 2022-03-22 | 广州酷狗计算机科技有限公司 | 确定音频的bpm的方法和装置 |
CN113823325A (zh) * | 2021-06-03 | 2021-12-21 | 腾讯科技(北京)有限公司 | 音频节奏检测方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2012032677A (ja) | 2012-02-16 |
US20120024130A1 (en) | 2012-02-02 |
US8431810B2 (en) | 2013-04-30 |
JP5569228B2 (ja) | 2014-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102347022A (zh) | 音乐速度检测装置、音乐速度检测方法和程序 | |
Lanjewar et al. | Implementation and comparison of speech emotion recognition system using Gaussian Mixture Model (GMM) and K-Nearest Neighbor (K-NN) techniques | |
CN108305616B (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN103280220B (zh) | 一种实时的婴儿啼哭声识别方法 | |
Davis et al. | Environmental sound classification using deep convolutional neural networks and data augmentation | |
CN103310789B (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
CN102760444B (zh) | 基于支撑向量机的基带时域音频信号分类方法 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
Huang et al. | Large-scale weakly-supervised content embeddings for music recommendation and tagging | |
Zhang et al. | Analysis of sound features for music timbre recognition | |
CN105761728A (zh) | 中国典型听觉文化符号特征选择方法 | |
Khandelwal et al. | Is your baby fine at home? Baby cry sound detection in domestic environments | |
Smolenski et al. | Usable speech processing: A filterless approach in the presence of interference | |
CN113220929A (zh) | 一种基于时间驻留与状态驻留混合模型的音乐推荐方法 | |
CN112052880A (zh) | 一种基于更新权值支持向量机的水声目标识别方法 | |
Rachman et al. | Music emotion detection using weighted of audio and lyric features | |
Reshma et al. | A survey on speech emotion recognition | |
Silovsky et al. | PLDA-based clustering for speaker diarization of broadcast streams | |
Zhang et al. | Learning frame level attention for environmental sound classification | |
Petry et al. | Fractal dimension applied to speaker identification | |
Giria et al. | Music genre classification using modified k-nearest neighbor (MK-NN) | |
Jain et al. | Implementation of bird species detection algorithm using deep learning | |
Zhang et al. | Sound isolation by harmonic peak partition for music instrument recognition | |
Wang et al. | Simulation of Sound Signal Analysis Model in Complex Environments Based on Deep Learning Algorithms | |
Xv et al. | Research on Urban Audio Classification Based on Residual Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120208 |