CN101404155A - 信号处理设备、信号处理方法及其程序 - Google Patents
信号处理设备、信号处理方法及其程序 Download PDFInfo
- Publication number
- CN101404155A CN101404155A CNA2008101614630A CN200810161463A CN101404155A CN 101404155 A CN101404155 A CN 101404155A CN A2008101614630 A CNA2008101614630 A CN A2008101614630A CN 200810161463 A CN200810161463 A CN 200810161463A CN 101404155 A CN101404155 A CN 101404155A
- Authority
- CN
- China
- Prior art keywords
- signal
- frequency
- octave
- analysis
- frequency signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 32
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 230000005236 sound signal Effects 0.000 claims abstract description 130
- 238000004458 analytical method Methods 0.000 claims abstract description 96
- 239000000284 extract Substances 0.000 claims abstract description 47
- 238000005070 sampling Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 abstract description 18
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000002045 lasting effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G3/00—Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
- G10G3/04—Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H3/00—Measuring characteristics of vibrations by using a detector in a fluid
- G01H3/04—Frequency
- G01H3/08—Analysing frequencies present in complex vibrations, e.g. comparing harmonics present
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明公开了一种信号处理设备、信号处理方法及其程序。信号处理设备针对较高频率和较低频率采用不同的分析技术对音频信号进行音调分析。当输入音频信号时,第一提取器从音频信号中提取高频信号,第二提取器从音频信号中提取低频信号。高频处理器通过应用短时傅立叶变换从高频信号中提取音调分量。低频处理器通过将低频信号分为多个八度音阶分量从低频信号中提取音调分量。然后,合成单元将如此从高频信号和低频信号中提取的音调分量合成,并输出分析结果。
Description
相关申请的交叉引用
本发明包含与2007年10月5日提交日本专利局的日本专利申请JP2007-261600相关的主题,其全部内容通过引用包含于此。
技术领域
本发明涉及一种信号处理设备、信号处理方法及其程序。本发明尤其涉及一种适合在将音频信号分解为其各个音调分量时使用的信号处理设备、信号处理方法及程序。
背景技术
此前,提出了多种音乐音调分析技术用于根据输入的音频信号自动产生乐谱的自动记谱、或用于检测输入音频信号的音乐特征。
音乐音调分析是一种通过分解为关于对应于视唱音节(哆、唻、咪等)的各个音调C、C#、D、D#、E、F、F#、G、G#、A、A#以及B的信息来对以给定采样频率进行采样的数字音频(即音乐)信号进行分析的处理。
12个音调C、C#、D、D#、E、F、F#、G、G#、A、A#以及B构成单个八度音阶(octave)。下文中,按照从低(即低频)八度音阶到高(即高频)八度音阶的顺序,将八度音阶称为八度音阶O1、O2、O3等。另外,例如将八度音阶O1的音调C称为C1,将八度音阶O2的音调A#称为A#2。
一个给定的八度音阶的音调与较低八度音阶音调相关,这是因为给定的八度音阶的音调是较低八度音阶的音调的倍数。换句话说,音调关于频率成对数(或指数)分布。例如,如果取音调A3(即八度音阶O3的音调A)具有440Hz的频率(即中心频率),则音调A4(即八度音阶O4的音调A)具有两倍于440Hz的频率,也就是880Hz。此外,诸如C和C#的相邻音调之间的频率(即中心频率)差随着八度音阶的变高而增加。例如,在低八度音阶O2(127.1Hz至254.2Hz)中,C2与C#2之间的差约为6Hz,而在高八度音阶O6中,C6与C#6之间的差约为123Hz。
另外,给定的八度音阶中每个音调各自的频带(即带宽)是接下来的较低八度音阶中相应的音调的频带的两倍。
用于音频信号的音乐音调分析的已有技术包括利用短时傅立叶变换的技术(下文中称为STFT技术)以及利用小波(wavelet)变换的技术(下文中称为小波变换技术)。另外,还有与在本申请中提出的技术类似的利用八度音阶分割和带通滤波的技术(下文中称为八度音阶分割技术)(例如,参见JP-A-2005-275068)。
STFT技术利用等间隔的频带分析音频信号的频率分量。由于该原因,如上所述,因为音调是关于频率成对数分布的,所以存在在低频时分析精度较低的趋势。
利用小波变换技术,可以通过使用能够提取八度音阶的十二分之一(即单个音调)的基本函数以理想的时间分辨率和频率分辨率估计音调。然而,小波变换技术涉及大量复杂的计算。
相比而言,利用八度音阶分割技术,可以进行音调分析而在低频时不会造成精度降低,此外与小波变换技术的计算复杂度相比,计算复杂度降低。
发明内容
在相关技术的音调分析方法中,音频信号的音调分析主要关注低频,而很少考虑针对高频的音调分析。然而,近年来已经出现了也关注高频的音调分析的趋势。
然而,虽然如上所述八度音阶分割技术在低频时优于STFT技术和小波技术,但是在高频时不存在相对于STFT技术和小波技术的优势。
因此,希望实现一种针对音调能够对音频信号中的高频信号和低频信号都进行高效分析的技术。
针对上述情况提出的本发明可以在音频信号的高频和低频侧针对音调高效地分析音频信号。
根据本发明的实施例的信号处理设备分析音频信号,并且设置有:第一提取装置,用于从输入音频信号中提取包含高频率的高频信号;第二提取装置,用于从输入音频信号中提取包含低频率的低频信号;高频处理装置,用于分析从音频信号中提取的高频信号中包含的多个音调分量,所述分析利用短时傅立叶变换来进行;低频处理装置,用于分析从音频信号中提取的低频信号中包含的多个音调分量,所述分析通过首先将低频信号分割为多个八度音阶分量、然后从各个八度音阶分量中提取多个音调分量来进行;以及合成装置,用于将包含在分析的高频信号中的多个音调分量与包含在分析的低频信号中的多个音调分量合成。
高频处理装置可以被配置为包括:短时傅立叶变换装置,用于通过利用短时傅立叶变换分析从音频信号中提取的高频信号来获得等间隔的频带分量;以及求和装置,用于通过将构成各自音调的多个频带的能量求和来分析包含在分割的高频信号中的多个音调分量。
低频处理装置可以被配置为包括:八度音阶分割装置,用于通过重复将从音频信号中提取的低频信号进一步分割为包含高频率的高频分量和包含低频率的低频分量、然后分别对该高频分量和低频分量进行降采样,将从音频信号中提取的低频信号分割为多个八度音频分量;以及滤波装置,用于通过分别对多个八度音阶分量中的每个八度音阶分量进行滤波来提取多个音调分量。
低频处理装置还可以被配置为进一步包括:再采样装置,用于对从音频信号中提取的低频信号进行再采样。
根据本发明的另一个实施例的信号处理方法用于分析音频信号的信号处理设备,包括步骤:从输入音频信号中提取包含高频率的高频信号;从输入音频信号中提取包含低频率的低频信号;分析从音频信号中提取的高频信号中包含的多个音调分量,所述分析利用短时傅立叶变换来进行;分析从音频信号中提取的低频信号中包含的多个音调分量,所述分析通过首先将低频信号分割为多个八度音阶分量、然后从各个八度音阶分量中提取多个音调分量来进行;以及将包含在分析的高频信号中的多个音调分量与包含在分析的低频信号中的多个音调分量合成。
根据本发明的另一个实施例的程序用于控制分析音频信号的信号处理设备,并且使信号处理设备的计算机执行处理,所述处理包括步骤:从输入音频信号中提取包含高频率的高频信号;从输入音频信号中提取包含低频率的低频信号;分析从音频信号中提取的高频信号中包含的多个音调分量,所述分析利用短时傅立叶变换来进行;分析从音频信号中提取的低频信号中包含的多个音调分量,所述分析通过首先将低频信号分割为多个八度音阶分量、然后从各个八度音阶分量中提取多个音调分量来进行;以及将包含在分析的高频信号中的多个音调分量与包含在分析的低频信号中的多个音调分量合成。
在本发明的实施例中,从输入的音频信号中提取高频信号和低频信号,高频信号包含较高频率的音频信号,低频信号包含较低频率的音频信号。然后,利用短时傅立叶变换对提取的高频信号进行分析,将其分解为其中包含的多个音调分量。另外,通过将低频信号分割为多个八度音阶分量,然后从每个八度音阶分量中提取多个音调分量来分析提取的低频信号,将其分解为其中包含的多个音调分量。随后,将包含在分析的高频信号中的多个音调分量与包含在分析的低频信号中的多个音调分量进行组合。
根据本发明的实施例,可以针对音调高效地分析较高频率和较低频率的音频信号。
附图说明
图1是用于说明音频信号的八度音阶、音调和频率之间的关系的图;
图2是示出应用了本发明的音频信号分析装置的示例性结构的框图;
图3是示出图2所示的高频处理器的示例性结构的框图;
图4是用于说明图3所示的STFT单元的处理的图;
图5是用于说明图3所示的STFT单元的处理的图;
图6是用于说明图3所示的能量求和单元的处理的图;
图7是示出图2所示的低频处理器的示例性结构的框图;
图8是示出图7所示的八度音阶分割块的示例性结构的框图;
图9是示出图8所示的八度音阶分割单元的示例性结构的框图;
图10是用于说明图9所示的高通滤波器的处理的图;
图11是用于说明图9所示的降采样(downsample)单元的处理的图;
图12是示出图7所示的带通滤波块的示例性结构的框图;
图13是示出图12所示的带通滤波器的频率特性的图;
图14是用于说明音频信号分析装置的分析处理的流程图;
图15是用于说明图14的步骤S2中的处理的流程图;
图16是用于说明图14的步骤S3中的处理的流程图;以及
图17是示出计算机的示例性结构的框图。
具体实施方式
下文中,将描述根据本发明的实施例的音频信号分析装置。然而,在此之前,参照图1描述音频信号分析装置要处理的音频信号。图1示出音频信号的音调与频率之间的关系。
如图1所示,要处理的音频信号包含从63.55Hz到32534.8Hz的范围内的频率分量。按照从低频侧开始的顺序,将这些频率分量分为编号为O1到O9的9个八度音阶。取每个八度音阶包含按照从低频到高频的顺序排列的12个音调C、C#、D、D#、E、F、F#、G、G#、A、A#和B。
将八度音阶O1的12个音调C、C#、D、D#、E、F、F#、G、G#、A、A#和B(下文中也称为从C到B的12个音调)分别设定为C1、C#1、D1、D#1、E1、F1、F#1、G1、G#1、A1、A#1和B1(下文中也称为从C1到B1的12个音调)。对八度音阶O2到O9的音调进行类似的设定。
在图1中,通过将八度音阶O3的音调A(即音调A3)作为具有440Hz的频率(即中心频率)的基准音调来确定每个八度音阶中的12个音调的频率。
如图1所示,例如在八度音阶3的音调A3之后接下来的最高音调是A#3,因此A#3的频率(即中心频率)变为440.0(A3的频率)乘以即466.2Hz。同样,A#3之后接下来的最高音调是B3,因此B3的频率变为A#3的频率乘以即493.9Hz。类似地,根据基准音调确定其它音调的频率。
另外,因为单个八度音阶被循环地从C到B的12个音调定界,所以单个八度音阶的频率范围从C的频率范围中的最低频率延伸到B的频率范围中的最高频率。例如,八度音阶O4的频率范围从C4的频率范围中的最低频率延伸到B4的频率范围中的最高频率,具体地是从508.4Hz到1016.7Hz。作为另一个例子,八度音阶O5的频率范围从C5的频率范围中的最低频率延伸到B5的频率范围中的最高频率,具体地是从1016.7Hz到2033.4Hz。应当认识到,在本说明书中,这里表示为从X Hz到Y Hz(其中X和Y是任意值)的频率范围意为大于等于X Hz并且小于Y Hz。
此外,应当认识到,除了八度音阶O4以及八度音阶O3和O5的一部分之外,为了简要,在图1中未示出八度音阶O1到O9中的每一个的12个音调的中心频率和频率范围。
图2示出根据本发明的实施例的音频信号分析装置的示例性结构。音频信号分析装置10对作为时序信号输入的音频信号进行处理和分析,从而针对每个八度音阶将音频信号分解为12个音调并计算每个音调的能量。
然后,音频信号分析装置10的处理结果可用于进行音乐分析。更具体地,处理结果可用于分析音频信号的音乐特征,例如旋律、和弦进行(chord progression)、节奏以及音符数量。
音频信号分析装置10包括下列部件:高通滤波器(HPF,high-passfilter)11,提取输入的音频信号中包含较高频率的信号(下文中称为高频信号);低通滤波器(LPF,low-pass filter)12,提取输入的音频信号中包含较低频率的信号(下文中称为低频信号);高频处理器13,利用STFT技术对提取的高频信号进行音调分析;低频处理器14,利用八度音阶分割技术对提取的低频音频信号进行音调分析;以及合成单元15,将来自高频处理器13的音调分析结果与来自低频处理器14的音调分析结果组合。
输入到音频信号分析装置10的音频信号是通过以预定采样率对音频进行采样获得的信号。例如,如果输入CD(光盘,compact disc)播放的音频信号,则音频信号的采样频率是44.1KHz。
高通滤波器11从输入的音频信号中提取高频信号(例如包含大于或等于4066.8Hz的频率分量的信号,该频率是对应于八度音阶O7中C7的最低频率的频率),然后将提取的高频信号输出到高频处理器13。
低通滤波器12从输入的音频信号中提取包含高通滤波器11没有提取的频率的低频信号(在本例子中,是包含小于4066.8Hz的频率分量的信号,该频率是对应于八度音阶O6中的B6的最高频率的频率),然后将提取的低频信号输出到低频处理器14。
应当认识到,高通滤波器11提取的高频信号与低通滤波器12提取的低频信号之间的边界值不固定在例如上述例子中的八度音阶O6与O7之间的边界,相反可以改变边界。例如,在下文中要描述的高频处理器13利用STFT技术将音频信号分割为等间隔的频带时,可以确定边界值使得包含在单个音调的频带的数目不小于预定数目。可选地,可以根据处理时间或最终期望的分析精度来确定边界。
如图3所示,高频处理器13包括:STFT单元21,对从高通滤波器11接收到的作为输入的高频信号施加短时傅立叶变换;以及能量求和单元22,通过对各自音调包含的频率分量的能量求和来计算每一个音调的能量。
如图4所示,STFT单元21将从高通滤波器11接收到的作为输入的高频信号分成多个具有预定持续时间的部分重叠的帧。此外,如图5所示,STFT单元21对高频信号帧中的每一个首先施加窗口函数,然后施加快速傅立叶变换(FFT,fast Fourier transform)。其结果是,高频信号帧被细分为多个等间隔的频带,并且计算每个频带的能量。
如图6所示,能量求和单元22基于来自STFT单元21的输出,通过对每个音调包含的频带的各个能量求和来计算每个音调的能量。
如图7所示,低频处理器14包括:再采样单元13,对从低通滤波器12接收到的作为输入的低频信号进行再采样;八度音阶分割块32,将再采样的低频信号分成从O1到O6的多个八度音阶;以及带通滤波器块(下文中称为BPFB,band-pass filter block)33-1至33-6,从每一个八度音阶的频率分量中分别提取从B到C的12个音调。
再采样单元31以预定采样频率对作为输入接收到的低频信号进行再采样,以使得该低频信号适合八度音阶分割块32进行后续处理。然后,再采样单元31将再采样的低频信号输出到八度音阶分割块32。
八度音阶分割块32将从再采样单元31接收到的作为输入的再采样的低频信号分成八度音阶O1至O6的频率分量,然后将八度音阶O1至O6的频率分量分别输出到相应的BPFB 33-1至33-6。换句话说,八度音阶分割块32将八度音阶O1的频率分量输出到BPFB 33-1,将八度音阶O2的频率分量输出到BPFB 33-2。类似地,将八度音阶O3至O6的频率分量输出到其余BPFB。
更具体地,在八度音阶分割块32中,作为输入接收到的低频信号进一步被细分为高频分量和低频分量。然后,将得到的分量分别降采样到当前采样频率一半的采样频率,提取高频分量的降采样结果作为八度音阶O6的音频信号。
此外,低频分量的降采样结果被继续细分为高频分量和低频分量,然后将其降采样到当前采样频率的一半。提取如此获得的高频分量的降采样结果作为下一最低的八度音阶O5的音频信号。针对其余的八度音阶O4至O1类似地提取音频信号。
以这种方式,在八度音阶分割块32中,重复进行处理,以将低频信号分成高频分量和低频分量,然后将得到的分量降采样到当前采样频率的一半,从而提取每一个八度音阶的音频信号。因此,作为通过将输入到八度音阶分割块32的音频信号的采样频率除以2n(n=1,2,...)而得到的值来给定每一个八度音阶的边界频率。
因此,如果假定不设置再采样单元31,在不进行再采样的情况下将低频信号按原样提供到八度音阶分割块32,则会产生下列问题。
例如,如果输入到音频信号分析装置10的音频信号的采样频率为44.1kHz,则在八度音阶分割块32中将该音频信号分割到多个频带,提取作为频率范围在((44.1/2)/2)kHz至44.1/2kHz的高频分量的音频信号。由于获得的音频信号的最高和最低频率与图1所示的八度音阶O1至O9的边界频率中的任意一个不匹配,因此提取的高频分量中的较低频率和/或较高频率分量缺乏希望的八度音阶中的音调的部分频率分量,或者可选地,在希望的八度音阶中包含其它邻近八度音阶中的音调的部分频率分量。
为了避免这种问题,再采样单元31被构造成:使用两个预定八度音阶之间的边界频率作为基频,对输入其中的低频信号进行再采样,其中基频乘以2的幂以产生进行再采样的采样频率。
作为更具体的示例,如果将分离八度音阶O4和O5的边界频率1016.7Hz取作基频,则使用等于基频乘以25即32534.7Hz的新的采样频率对该音频信号进行再采样。应当认识到,其中对作为基频的边界频率的选择是任意的,2的幂的选择也是任意的。例如,这些值可以根据具体要提取哪个包含特定音调的八度音阶来确定。
BPFB 33-1至33-6中的每一个包括12个内置的带通滤波器,其使频率在从C至B的12个音调的各个频率范围内的音频信号通过。因此,当BPFB 33-1至33-6中的一个对从八度音阶分割块32作为输入接收的单个八度音阶的音频信号进行滤波时,提取包含从C至B的12个音调的音频信号作为结果。
例如,BPFB 33-1对从八度音阶分割块32作为输入接收的八度音阶O1的音频信号进行滤波,从而提取从C1至B1的12个音调的信号分量。作为另一个例子,BPFB 33-2对从八度音阶分割块32作为输入接收的八度音阶O2的音频信号进行滤波,从而提取从C2至B2的12个音调的信号分量。BPFB 33-3至33-6以类似的方式工作。
接下来,参考图8和9详细描述八度音阶分割块32的示例性结构。如图8所示,八度音阶分割块32包括八度音阶分割单元51-1至51-5。此外,如图9所示,八度音阶分割单元51-1包括高通滤波器(HPF)71-1、降采样(DS)单元72-1、低通滤波器(LPF)73-1、降采样单元74-1、高通滤波器75以及降采样单元76。八度音阶分割单元51-2包括高通滤波器72-1、降采样单元72-2、低通滤波器73-2和降采样单元74-2。八度音阶分割单元51-3至51-5与八度音阶分割单元51-2类似地构成。
更具体地,八度音阶分割单元51-5设置有:高通滤波器71-5,用于取出作为输入从再采样单元31接收到的以32534.7Hz的采样频率进行了再采样的音频信号,并且从中提取包含上半部分频带的分量(下文中称为高频分量),如图10所示;降采样单元72-5,用于将提取的高频分量降采样到采样频率的一半;低通滤波器73-5,用于取出作为输入从再采样单元31接收到的以32534.7Hz的采样频率进行了再采样的音频信号,并且从中提取包含下半部分频带的分量(下文中称为低频分量);以及降采样单元74-5,用于将提取的低频分量降采样到采样频率的一半。
随后,将从降采样单元72-5输出的降采样后的高频分量作为八度音阶O6的音频信号提供给后续的BPFB 33-6。另外,将从降采样单元74-5输出的降采样后的低频分量提供给八度音阶分割单元51-4。
应当认识到,与降采样之前的高频分量相比,高通滤波器51-5提取的并且被降采样单元72-5降采样到采样频率的一半的高频分量被颠倒(reverse)。换句话说,与降采样之前的信号分量(如图10所示)相比以相反的顺序将包含在降采样后的高频分量中的音调的信号分量排列在频率轴上。因此,如图11所示,音调按照B,A#,A,G#,G,F#,F,E,D#,D,C#和C的顺序排列。
与上述类似地构成其它八度音阶分割单元51-i(i=4,3,2)。将输入音频信号分成高频分量和低频分量,将这些分量分别降采样到采样频率的一半。然后,将降采样后的高频分量作为八度音阶O(i+1)的音频信号提供给后续的BPFB 33-(i+1),同时将降采样后的低频分量提供给八度音阶分割单元51-(i-1)。
然而,在八度音阶分割单元51-1中,进一步从降采样后的低频分量中提取高频分量,然后将其降采样到采样频率的一半。然后,将降采样结果作为八度音阶O1的音频信号提供给BPFB 33-1。
现在,参考图12和13详细描述BPFB 33-1至33-6的示例性结构。图12示出BPFB 33-1的示例性结构。
BPFB 33-1包括带通滤波器(下文中称为BPF)91-1至91-12,其分别具有对应于C1至B1的12个音调的各个频率范围的通带(passband)。BPF 91-1至91-12被配置为从作为输入从八度音阶分割块32接收到的八度音阶O1的音频信号中分别提取C1至B1的12个音调。
然而,如图11所示,作为输入从八度音阶分割块32接收到的单个八度音阶的音频信号的音调在频率轴上以相反的顺序排列。由于该原因,如图13所示设计了BPF 91-1至91-12的频率特性。
更具体地,BPF 91-1具有从来自八度音阶分割块32的八度音阶分割单元51-1作为输入接收到的八度音阶O1的音频信号中提取音调C1的音频信号的特性。BPF 91-2具有从八度音阶O1的音频信号中提取音调C#1的音频信号的特性。类似地,BPF 91-3至91-12具有分别提取音调D1至B1的音频信号的特性。
与BPFB 33-1类似地构成BPFB 33-2至33-6。然而,构成BPFB 33-2至33-6中的每一个的12个BPF的频率特性自然不同于构成BPFB 33-1的BPF 91-1至91-12的频率特性。
现在,参考图14中的流程图,描述音频信号分析装置10执行的分析处理。
首先,将要分析的音频信号输入到音频信号分析装置10。在步骤S1中,当将音频信号提供给音频信号分析装置10的高通滤波器11和低通滤波器12时,高通滤波器11从输入的音频信号中提取高频信号,并将提取的高频信号提供给高频处理器13。低通滤波器12从输入的音频信号中提取低频信号,并将提取的低频信号提供给低频处理器14。
在步骤S2中,高频处理器13采用STFT技术对从高通滤波器11提供的高频信号进行音调分析,并将音调分析的结果输出到合成单元15。
现在,参考图15中的流程图描述高频处理器13在步骤S2中执行的处理(即高频信号音调分析处理)的细节。
在步骤S11中,高频处理器13的STFT单元21将从高通滤波器11提供的高频信号分成多个部分重叠的具有预定持续时间的帧。在步骤S12中,STFT单元21首先对每一个帧中的高频信号应用窗口函数,然后进行快速傅立叶变换(FFT)。然后,将从上述处理的结果获得的每一个帧的高频信号在等间隔的频带上的各自能量输出到能量求和单元22。
在步骤S13中,基于来自STFT单元21的输出,能量求和单元22通过对包含在给定音调中的频带上的能量求和来计算每一个音调的能量。然后,将求和后的能量作为高频信号的音调分析结果输出到合成单元15。这结束了对高频处理器13执行的高频信号音调分析处理的描述。
返回图14,在步骤S3中,低频处理器14采用八度音阶分割技术对从低通滤波器12提供的低频信号进行音调分析,并将音调分析结果输出到合成单元15。
现在,参考图16中的流程图描述低频处理器14在步骤S3中执行的处理(即低频信号音调分析处理)的细节。
在步骤S21中,低频处理器14的再采样单元31以预定采样频率(例如,32534.7Hz)对从低通滤波器12提供的低频信号进行再采样。然后,将再采样后的低频信号提供至八度音阶分割块32。
在步骤S22中,八度音阶分割块32将从再采样单元31提供的再采样后的低频信号分成八度音阶O1至O6的各个频率分量。然后,分别将分割后的八度音阶O1至O6的频率分量输出到相应的BPFB 33-1至33-6。
在步骤S23中,BPFB 33-1至33-6通过对作为输入从八度音阶分割块32接收到的单个八度音阶的音频信号进行滤波,分别提取从C至B的12个音调的音频信号。然后,将各个音调的音频信号作为低频信号的音调分析结果输出到合成单元15。这结束了对低频处理器14执行的低频信号音调分析处理的描述。
返回图14,应当认识到,也可以以相反的顺序或者并行执行以上描述的在步骤S2和S3中执行的处理。
在步骤S4中,合成单元15将高频处理器13获得的音调分析结果和低频处理器14获得的音调分析结果合成,并将合成结果作为对输入到音频信号分析装置10的音频信号的分析结果输出。这结束了对音频信号分析装置10执行的分析处理的描述。
如前所述,根据音频信号分析装置10,由于对音频信号中的较高频信号和较低频信号分别应用不同的音调分析技术,因此可以针对音调高效地分析音频信号。
更具体地,通过采用STFT技术分析音频信号的较高频信号,与采用八度音阶分割技术分析较高频信号的情况相比,可以在计算复杂度减小的情况下获得分析结果。
此外,由于作为副产品(byproduct)从高频处理器13获得了STFT处理结果,这些STFT处理结果也可以用于进行音乐分析或者其它用途。
可以通过硬件或软件来执行前述一系列处理。如果在软件中执行该一系列处理,则内置到专用硬件中的计算机可以从程序记录介质中读取构成该软件的程序。可选地,可以从程序记录介质将程序安装到例如通用个人计算机上,个人计算机能够通过安装各种程序来执行各种功能
图17是示出借助程序来执行以上描述的一系列处理的计算机的示例性硬件结构的框图。
在该计算机中,CPU(中央处理器,central processing unit)301、ROM(只读存储器,read only memory)302以及RAM(随机存储器,random access memory)303通过总线304相互连接。
另外,总线304还连接到输入/输出接口305。连接到输入/输出接口305的有:输入单元306,包括诸如键盘、鼠标和麦克风的部件;输出装置307,包括诸如显示器和扬声器的部件;存储单元308,包括诸如硬盘和非易失性存储器的部件;通信单元309,包括诸如网络接口的部件;以及控制可移动介质321至324的驱动310,可移动介质是磁盘、光盘、磁光盘或半导体存储器。
在如上所述构成的计算机中,可以作为例如CPU 301经由输入/输出接口305和总线304将存储在存储单元308中的程序加载到RAM 303中、随后执行该程序的结果来进行以上描述的一系列处理。
应当认识到,可以编写计算机执行的程序,使得按照在本说明书中描述的顺序以时间顺序执行这些处理、并行执行这些处理、或者根据合适的时序调用并执行这些处理。
此外,可以编写程序以由单个计算机进行处理或者由多个计算机以分布的方式进行处理。还可以编写程序以传送到远程计算机并执行。
本领域技术人员应当理解,可以根据设计需要和其它因素来进行各种变形、组合、子组合和变化,而它们均在所附权利要求或其等同物的范围内。
Claims (7)
1.一种用于分析音频信号的信号处理设备,包括:
第一提取装置,用于从输入音频信号中提取包含高频率的高频信号;
第二提取装置,用于从输入音频信号中提取包含低频率的低频信号;
高频处理装置,用于分析从音频信号中提取的高频信号中包含的多个音调分量,所述分析利用短时傅立叶变换来进行;
低频处理装置,用于分析从音频信号中提取的低频信号中包含的多个音调分量,所述分析通过首先将低频信号分割为多个八度音阶分量、然后从每个八度音阶分量中分别提取多个音调分量来进行;以及
合成装置,用于将包含在分析的高频信号中的多个音调分量与包含在分析的低频信号中的多个音调分量合成。
2.如权利要求1所述的信号处理设备,其中高频处理装置被配置为包括:
短时傅立叶变换装置,用于通过利用短时傅立叶变换分析从音频信号中提取的高频信号来获得等间隔的频带分量;以及
求和装置,用于通过将构成各自音调的多个频带的能量求和来分析包含在分割的高频信号中的多个音调分量。
3.如权利要求1所述的信号处理设备,其中低频处理装置被配置为包括:
八度音阶分割装置,用于通过重复将从音频信号中提取的低频信号进一步分割为包含高频率的高频分量和包含低频率的低频分量、然后分别对该高频分量和低频分量进行降采样,将从音频信号中提取的低频信号分割为多个八度音频分量;以及
滤波装置,用于通过分别对多个八度音阶分量中的每个八度音阶分量进行滤波来提取多个音调分量。
4.如权利要求3所述的信号处理设备,其中低频处理装置被配置为进一步包括:
再采样装置,用于对从音频信号中提取的低频信号进行再采样。
5.一种在分析音频信号的信号处理设备中使用的信号处理方法,包括步骤:
从输入音频信号中提取包含高频率的高频信号;
从输入音频信号中提取包含低频率的低频信号;
分析从音频信号中提取的高频信号中包含的多个音调分量,所述分析利用短时傅立叶变换来进行;
分析从音频信号中提取的低频信号中包含的多个音调分量,所述分析通过首先将低频信号分割为多个八度音阶分量、然后分别从每个八度音阶分量中提取多个音调分量来进行;以及
将包含在分析的高频信号中的多个音调分量与包含在分析的低频信号中的多个音调分量合成。
6.一种用于控制分析音频信号的信号处理设备的程序,所述程序使信号处理设备的计算机执行处理,所述处理包括步骤:
从输入音频信号中提取包含高频率的高频信号;
从输入音频信号中提取包含低频率的低频信号;
分析从音频信号中提取的高频信号中包含的多个音调分量,所述分析利用短时傅立叶变换来进行;
分析从音频信号中提取的低频信号中包含的多个音调分量,所述分析通过首先将低频信号分割为多个八度音阶分量、然后分别从每个八度音阶分量中提取多个音调分量来进行;以及
将包含在分析的高频信号中的多个音调分量与包含在分析的低频信号中的多个音调分量合成。
7.一种分析音频信号的信号处理设备,包括:
第一提取器,被配置为从输入音频信号中提取包含高频率的高频信号;
第二提取器,被配置为从输入音频信号中提取包含低频率的低频信号;
高频处理器,被配置为分析从音频信号中提取的高频信号中包含的多个音调分量,所述分析利用短时傅立叶变换来进行;
低频处理器,被配置为分析从音频信号中提取的低频信号中包含的多个音调分量,所述分析通过首先将低频信号分割为多个八度音阶分量、然后从每个八度音阶分量中分别提取多个音调分量来进行;以及
合成单元,被配置为将包含在分析的高频信号中的多个音调分量与包含在分析的低频信号中的多个音调分量合成。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007261600A JP4375471B2 (ja) | 2007-10-05 | 2007-10-05 | 信号処理装置、信号処理方法、およびプログラム |
JP2007-261600 | 2007-10-05 | ||
JP2007261600 | 2007-10-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101404155A true CN101404155A (zh) | 2009-04-08 |
CN101404155B CN101404155B (zh) | 2010-12-29 |
Family
ID=40523962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101614630A Expired - Fee Related CN101404155B (zh) | 2007-10-05 | 2008-09-27 | 信号处理设备、信号处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8301279B2 (zh) |
JP (1) | JP4375471B2 (zh) |
CN (1) | CN101404155B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817189A (zh) * | 2018-12-29 | 2019-05-28 | 深圳市蔚科电子科技开发有限公司 | 音频信号的调节方法、音效调节设备及系统 |
CN111052220A (zh) * | 2017-09-07 | 2020-04-21 | 雅马哈株式会社 | 和弦信息提取装置、和弦信息提取方法及和弦信息提取程序 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5552794B2 (ja) * | 2009-10-23 | 2014-07-16 | 大日本印刷株式会社 | 音響信号の符号化方法および装置 |
JP5533021B2 (ja) * | 2010-02-26 | 2014-06-25 | 大日本印刷株式会社 | 音響信号の符号化方法および装置 |
JP2012103603A (ja) | 2010-11-12 | 2012-05-31 | Sony Corp | 情報処理装置、楽曲区間抽出方法、及びプログラム |
SG193429A1 (en) * | 2011-03-31 | 2013-10-30 | Univ Nanyang Tech | Listening device and accompanying signal processing method |
US8717006B2 (en) * | 2011-07-05 | 2014-05-06 | Bae Systems National Security Solutions Inc. | Method of performing synthetic instrument based noise analysis using proportional bandwidth spectrum analysis techniques |
JP2014010275A (ja) * | 2012-06-29 | 2014-01-20 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
CN107481727B (zh) * | 2017-06-23 | 2020-05-29 | 罗时志 | 一种基于电音基调控制的音频信号处理方法及系统 |
CN110010151A (zh) * | 2018-12-31 | 2019-07-12 | 瑞声科技(新加坡)有限公司 | 一种音频信号处理方法及设备、存储介质 |
DE102019114930B3 (de) * | 2019-06-04 | 2020-06-25 | Voith Patent Gmbh | Verfahren und Anordnung zur Überwachung von Anlagen |
CN112562703A (zh) * | 2020-11-17 | 2021-03-26 | 普联国际有限公司 | 一种音频的高频优化方法、装置和介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997017692A1 (en) * | 1995-11-07 | 1997-05-15 | Euphonics, Incorporated | Parametric signal modeling musical synthesizer |
JP2001243692A (ja) * | 2000-02-25 | 2001-09-07 | Teac Corp | 記録媒体再生装置 |
US20050228518A1 (en) * | 2002-02-13 | 2005-10-13 | Applied Neurosystems Corporation | Filter set for frequency analysis |
US7179982B2 (en) * | 2002-10-24 | 2007-02-20 | National Institute Of Advanced Industrial Science And Technology | Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data |
US7026536B2 (en) * | 2004-03-25 | 2006-04-11 | Microsoft Corporation | Beat analysis of musical signals |
JP4649859B2 (ja) * | 2004-03-25 | 2011-03-16 | ソニー株式会社 | 信号処理装置および方法、記録媒体、並びにプログラム |
JP4660739B2 (ja) * | 2006-09-01 | 2011-03-30 | 独立行政法人産業技術総合研究所 | 音分析装置およびプログラム |
-
2007
- 2007-10-05 JP JP2007261600A patent/JP4375471B2/ja not_active Expired - Fee Related
-
2008
- 2008-09-27 CN CN2008101614630A patent/CN101404155B/zh not_active Expired - Fee Related
- 2008-10-03 US US12/245,067 patent/US8301279B2/en active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111052220A (zh) * | 2017-09-07 | 2020-04-21 | 雅马哈株式会社 | 和弦信息提取装置、和弦信息提取方法及和弦信息提取程序 |
CN111052220B (zh) * | 2017-09-07 | 2023-06-27 | 雅马哈株式会社 | 和弦信息提取装置、和弦信息提取方法及存储装置 |
CN109817189A (zh) * | 2018-12-29 | 2019-05-28 | 深圳市蔚科电子科技开发有限公司 | 音频信号的调节方法、音效调节设备及系统 |
CN109817189B (zh) * | 2018-12-29 | 2023-09-08 | 珠海市蔚科科技开发有限公司 | 音频信号的调节方法、音效调节设备及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20090093896A1 (en) | 2009-04-09 |
JP4375471B2 (ja) | 2009-12-02 |
CN101404155B (zh) | 2010-12-29 |
JP2009092791A (ja) | 2009-04-30 |
US8301279B2 (en) | 2012-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101404155B (zh) | 信号处理设备、信号处理方法 | |
Liutkus et al. | Adaptive filtering for music/voice separation exploiting the repeating musical structure | |
CA2448182C (en) | Segmenting audio signals into auditory events | |
Goto | A real-time music-scene-description system: Predominant-F0 estimation for detecting melody and bass lines in real-world audio signals | |
US7012183B2 (en) | Apparatus for analyzing an audio signal with regard to rhythm information of the audio signal by using an autocorrelation function | |
Peeters et al. | The timbre toolbox: Extracting audio descriptors from musical signals | |
US10134409B2 (en) | Segmenting audio signals into auditory events | |
EP2816550A1 (en) | Audio signal analysis | |
WO2014001849A1 (en) | Audio signal analysis | |
EP2962299B1 (en) | Audio signal analysis | |
JP4649859B2 (ja) | 信号処理装置および方法、記録媒体、並びにプログラム | |
WO2011103498A2 (en) | System and method for automatically remixing digital music | |
US20040068401A1 (en) | Device and method for analysing an audio signal in view of obtaining rhythm information | |
Shah et al. | Chroma feature extraction | |
CN111415644B (zh) | 一种音频舒缓度预测方法及装置、服务器、存储介质 | |
Alonso et al. | Extracting note onsets from musical recordings | |
Lordelo et al. | Investigating kernel shapes and skip connections for deep learning-based harmonic-percussive separation | |
JP2012181475A (ja) | 音響信号における特徴抽出方法及び当該特徴を用いた音響信号の処理方法 | |
Hu et al. | Singer identification based on computational auditory scene analysis and missing feature methods | |
Sofianos et al. | Towards effective singing voice extraction from stereophonic recordings | |
Theimer et al. | Definitions of audio features for music content description | |
de León et al. | A complex wavelet based fundamental frequency estimator in singlechannel polyphonic signals | |
RU2364957C1 (ru) | Способ определения параметров линейчатых спектров вокализованных звуков и система для его реализации | |
Argenti et al. | Automatic music transcription: from monophonic to polyphonic | |
Fahmeeda et al. | Voice Based Gender Recognition Using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101229 Termination date: 20150927 |
|
EXPY | Termination of patent right or utility model |