CN1828720B

CN1828720B - 音响效果授予装置、基音抽出装置、以及程序

Info

Publication number: CN1828720B
Application number: CN2006100577940A
Authority: CN
Inventors: 濑户口克
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2005-02-28
Filing date: 2006-02-27
Publication date: 2010-09-08
Anticipated expiration: 2026-02-27
Also published as: US7342168B2; US20060193478A1; EP1696419B1; JP2006243006A; JP4734961B2; EP1696419A1; CN1828720A

Abstract

本发明提供不用直接检测出声音波形的音调(Pitch)，就可以将该音调变换成作为目标的音调的技术，还提供用于将声音波形的音调准确地抽出的技术。相位补偿部25，从通过FFT部24执行的FFT，得到的频率成分的频道中，将存在原声音的基音的1倍或1倍以上的倍音的频率成分的频道，抽出2个或2个以上，并算出用于将该基音变换成作为目标的基音的缩放值，进行与该缩放值对应的相位补偿。音调转换器27，对进行了相位补偿的频率成分，在用IFFT部26进行IFFT而输出的声音数据中，进行与该缩放值对应的音调缩放，生成变换成了作为目标的基音的声音数据。

Description

音响效果授予装置、基音抽出装置、以及程序

技术领域

本发明涉及分析第1声音波形、使用该分析结果用来生成在该第1声音波形中授予了音响效果的第2声音波形的技术。

背景技术

在分析声音波形，并使用该分析结果可以生成授予了音响效果的声音波形的音响效果授予装置中，作为该音响效果一般要变换声音波形的基音(音调)。作为现有的音响效果授予装置，记载在专利第2753716号公报中。在此，为了区别生成后的声音波形、原来的的声音波形，将前者表示为『合成声音波形』，将后者表示为『原声音波形』。

变换了音调的合成声音波形的生成，有时是进行用于与将该音调作为目标的音调(目标音调)相一致。该情况的变换，传统上，一般是这样实现，即将原声音波形的音调(基本频率)直接地检测出，并进行音调缩放以使检测出的音调成为目标音调。

基本频率的音(基音)一般是在成分之中音级(Level)最高的。但是，在吉他等的拨弦乐器或钢琴等的打弦乐器中，由于弦与强度，随着时间地经过，有时第2倍音(倍频上)方面的音级变高。这意味着，在直接的方法中，不能准确地检测出音调。由此可以认为，使之不将原声音波形的音调直接地检测出，就可以将该音调变换成目标音调，是重要的。

本发明的第1课题，是提供不直接地检测出声音波形的音调，就可以将该音调变换成作为目标的音调的技术。

本发明的第2课题，是提供用于将声音波形的音调准确地抽出的技术。

发明内容

本发明，将第1声音波形用帧单位进行频率分析，并按频道抽出频率成分，从抽出频率成分的频道中，将存在是第1声音波形的基音的1倍或1倍以上的倍音的频率成分的频道，抽出2个或2个以上，算出与抽出的2个或2个以上的频道对应的频率间的最大公约数，并使用算出的最大公约数来决定基音的变换内容，将在决定的变换内容中变换第1声音波形的基音的声音波形作为第2声音波形而生成。

倍音具有基音(音调)频率的整数倍的频率。由此，与存在倍音的频率成分的2个或2个以上的频道(倍音通道)对应的频率之间的最大公约数，可以作为表示基音频率的信息来对待。为此，可以使用该最大公约数来生成将第1声音波形的基音高精度地变换((Shift))成作为目标的基音的第2声音波形。由于回避抽出(检测出)第1声音波形的基音的必要性，所以在被称为故障基频的基本频率缺少或者与其它的频率相比好像非常小的第1声音波形中，也可以准确地生成具有作为目标的基音的第2声音波形。另外，通过使用该最大公约数，也可以准确地抽出(检测出)第1声音波形的基音的频率。

附图说明

图1是安装了本实施方式的音响效果授予装置的电子乐器的结构图；

图2是本实施方式的音响效果授予装置的功能结构图；

图3是说明展开的相位差和频率的关系的图表；

图4是说明实相位差δ和频率的关系的图表；

图5是整体处理的流程图；

图6是相位补偿处理的流程图；

图7是缩放值算出处理的流程图。

具体实施方公式

以下，对本发明的实施方式，参照附图进行详细地说明。

图1是安装了本实施方式的音响效果授予装置的电子乐器的结构图。

该电子乐器，如图1所示，具备：进行乐器整体控制的CPU1，具有多个键的键盘2，具有各种开关的开关部3，存储了执行CPU1的程序或各种控制用数据等的ROM4，CPU1的工作用的RAM5，具备例如液晶显示装置(LCD)或多个LED等的显示部6，进行从话筒7输入的模拟的声音信号的A/D转换并输出该声音数据的A/D转换器8，遵照CPU1的指示生成音乐发音用的波形数据的音乐生成部9，将该生成部9生成的波形数据进行D/A转换并输出模拟的音频信号的D/A转换器10，放音该音频信号的音响系统11。在此构成中，CPU1、键盘2、开关部3、ROM4、RAM5、显示部6、A/D转换器8以及音乐生成部9之间，通过总线相互连接。此外，上述开关部3，例如除了作为用户操作对象的各种开关之外，还具备用于检测出各种开关的状态变换的检测电路。话筒7可以是内置的或者特别地连接到未图示出的端子上。

在上述构成的电子乐器中，本实施方式的音响效果授予装置，对从话筒7输入的声音，作为可以授予将该音调(基音)变换成指定的音调(目标音调)的音响效果来实现。声音的输入，可以通过外部储存装置来进行，也可以通过LAN或者公众网等的通信网络来进行。

图2是本实施方式的音响效果授予装置的功能结构图。

附加了音响效果的声音波形，也就是变换了(Shift)音调的声音波形，频率分析原来的声音波形后，按频道抽出频率成分(频谱成分)，将抽出了的频率成分进行变换，使用该变换后的频率成分进行合成(生成)。为此，具备以下的功能构成。

图2所示的A/D转换器(ADC)8是将从话筒7输出的模拟声音信号变换成数字声音数据的。例如用采样频率8021Hz、16bit进行AD变换。以后，对这个AD转换而得到的声音数据，可简单称为『原声音数据』或者『原波形数据』，对在话筒7输入的声音可称为『原声音』。

输入缓冲器21是临时存储A/D转换器8输出的原声音数据的缓冲器。帧抽出部22，通过从存储在输入缓冲器21中的原声音数据中，剪辑预先设定的大小的声音数据的帧来进行抽出。该大小也就是声音数据(样本)数例如是256。在正确的相位展开实施中，必须使帧重叠(overlap)来抽出，所以帧的剪辑通过重叠因子(factor)OVL来进行重叠。作为该因子OVL的值设定4。这时，跳跃(hop)数大小是64(256/64＝4)。另外，从原声音数据的音调(以后称为『原音调』)向目标音调的缩放值的范围是以0.5～2.0的范围作为前提。

帧抽出部22抽出的帧被输出到低通滤波器(LPF)23。该LPF23为了防止由于音调的变换而频率成分超过乃奎斯特(Nyquist)频率，而进行高频率成分的除去。FFT部24将LPF23输出的帧作为对象执行高速傅立叶变换。该FFT将FFT大小(点数)作成帧大小的2倍(256×2＝512)来执行。

相位补偿部25，将通过FFT的执行而得到的各频道的频率成分作为对象，伸缩该大小，使其补偿音调变换引起的帧的伸缩。例如，如果音调缩放值作为前提范围的最大值是2，由于音调变换帧大小缩小为1/2，所以为了补偿(维持)该大小，将帧扩大到2倍。因此，FFT大小成为帧大小的2倍。关于音调缩放值计算方法的详细内容在后面叙述。

FFT部24从LPF23输入256样本的帧，并设置在FFT大小的帧的前半部分。在后半部分中全部设置0。在后半部分设置0是为了在执行了FFT之后，产生在频率区域中的插补效果。由于产生该插补效果所以频率的分辨率提高。FFT部24，将进行了如该设置的帧作为对象来执行FFT。

IFFT部26，通过进行IFFT(逆FFT)，将相位补偿部25伸缩了大小后的各频道的频率成分返回到时间域上的数据，生成1帧的声音数据并输出。音调转换器27，根据从相位补偿部25输入的音调缩放值，进行对IFFT部26生成了帧的插补或者间疏(拉长间隔)，并将该音调进行变换。在插补、间疏中可以使用拉格朗日(Lagrange)函数或sinc函数等，但是，在本实施方式中，是通过Neville插补来进行音调变换(音调缩放)的。通过上述插补或者间疏，帧大小就成为原来的大小(256样本)。对该帧的声音数据以后称为『合成声音数据』，把根据该合成声音数据发音的声音称为『合成声音』。

输出缓冲器29，是作为声音对从音响系统11放音的合成声音数据进行存储的缓冲器。帧加算部28，用重叠因子OVL，使从音调转换器27输入的1帧的合成声音数据叠加到存储在输出缓冲器29中的合成声音数据上，来进行加算。被存储在输出缓冲器29中的合成声音数据，输出到D/A转换器(DAC)10，并进行D/A转换。

上述输入缓冲器21以及输出缓冲器29，例如是确保在RAM5中的区域。除了A/D转换器8、D/A转换器10、输入缓冲器21以及输出缓冲器29之外的各部22-28，例如将RAM5作为工作区用，并通过CPU1执行在ROM4中存储的程序来实现。虽然省略了特别详细的说明，但是目标音调例如是通过对键盘2的操作来进行指示。该目标音调可以根据标准MIDI文件等的演奏数据或者通过通信网络接收的数据等来进行指定。

其次，对上述相位补偿部25的音调缩放值的计算方法进行详细地说明。以后，该缩放值表示为ρ。

通过FFT的执行，按频率不同的频道，抽出具有实数成分和虚数成分的频率成分。将实数成分表示为real，将虚数成分表示为img，则各频道的频率振幅mag以及相位phase可以计算如下：

Mag＝(real²+img²)^1/2 ...(1)

Phase＝arctan(img/real) ...(2)

使用arctan来算出的相位Phase，被限制在-л～л之间。但是，相位Phase是角速度的积分值所以必须展开。为了容易区别有无展开，将被折叠的相位用小字母θ表示，将被展开的相位用大字母θ表示，则应为：

θ_k，t＝θ_k，t+2nлn＝01，2， ...(3)

因此，相位Phase(＝θ)求取n后必须展开。在此公式(3)的θ中作为下标添加的k、t，分别表示频道的指数、时刻。

该展开可以用以下步骤来进行。

首先，按下式计算帧间的相位差Δθ：

Δθ_i，k＝θ_i，k-θ_i-1，k ...(4)

在此，Δθ_i，k表示在原声音波形的频道k之前的帧与这次的帧之间的相位差，下标的i表示帧。这次的帧(现帧)用i表示，之前的帧用i-1表示。

公式(4)中的Δθ_i，k处于被折叠的状态。另一方面，频道k的中心角频率Ω_i，k，若将采样频率表记为fs，将FFT点数(大小)表记为N，则可用

Ω_i，k＝(2л·fs)·k/N ...(5)

来表示。若令该频率Ω_i，k时与之前的帧的时间差为Δt，则相位差ΔZ_i，k可用下公式算出。

ΔZ_i，k＝Ω_i，k·Δt ...(6)

时间差Δt为：

Δt＝N/(fs·OVL) ...(7)

公式(6)是相位展开的状态，所以可以记述为如下式：

ΔZ_i，k＝Δζ_i，k+2nл...(8)

若令在公式(4)中算出的相位差Δθ_i，k与公式(8)中的相位差Δζ_i，k的差为δ(＝Δθ_i，k-Δζ_i，k)，则可以导出下式：

Δθ_i，k-Ω_i，k·Δt＝(Δζ_i，k+δ)-(Δζ_i，k+2nл)

＝δ-2nл...(9)

因此，如果消去公式(9)右边的2nл，并将该范围限制在-л到л之间，就可以算出δ。该δ，是在原声音波形中实际检测出的相位差(以后，称为『实相位差』)。

如果在如上述算出的实相位差δ中，加算相位差ΔZ_i，k(＝Ω_i，k·Δt)，就可以求出如以下相位展开的相位差ΔΘ_i，k：

ΔΘ_i，k＝δ+Ω_i，k·Δt＝δ+(Δζ_i，k+2nл)＝Δθ_i，k+2nл ...(10)

公式(10)中的Ω_i，k·Δt，可以根据公式(5)、(7)进行如下述的变形：

Ω_i，k·Δt＝((2л·fs)/N)·k·(N/(fs·OVL))

＝(2л/OVL)·k ...(11)

在含有FFT的离散傅立叶变换(DFT)中，除了在声音数据(信号)中含有的频率成分的频率成为DFT点数的整数倍的特别情况，在全部的频道中漏出了(迁移)频率成分。为此，在分析信号的谐波构造等情况时，从DFT的结果检测出实际存在频率成分的频道的作业是必要的。

在该检测中，一般是采用这样的方法，即检测出频率振幅的峰值，而将该峰值看作频率成分存在的通道。用于此的步骤作为最简单的方法，可以举出将具有比前后2个通道的频率振幅大的频率振幅的通道视作峰值。但是，在此方法中，有时将窗口函数的旁瓣(side lobe)的峰值弄错并辨认为峰值。为此，也可以进行：在找出的峰值间的频道中抽出频率振幅为最小的频道，如果该频率振幅是峰值的频率振幅的规定值(例如峰值的频率振幅的-14db))以下，可看作是正确的峰值。

在该峰值检测中，可以更高精度地检测出峰值，但是，需要2阶段的探索处理上烦琐。由此，在本实施方式中，为了减轻处理的负担，不进行峰值检测，如下述那样考虑相位来检测出存在原声音的倍音频率成分的频道。

图3是说明展开的相位差和频率的关系的图线。纵轴是相位差，横轴是频率。图中所示的直线，是从各通道的中心频率计算的相位差，即表示根据公式(6)计算的ΔZ_i，k。以沿着该直线的形式画出的线，表示了通过具有谐波构造的声音，即有声音的公式(10)计算的相位差ΔΘ_i，k。该相位差ΔΘ_i，k，表示FFT点数512点的前半128点。

如图3所示，在具有谐波构造的声音中，在具有该声音的倍音频率成分的频道附近，线为阶梯状(平坦)。这是由于该频道的频率成分在近旁的通道中漏出。由此，可以认为在含有成为线的阶梯状的部分与直线相交的位置的频道中存在倍音的频率成分。该相交的位置，引出通过该位置的与纵轴平行的直线来表示的。

上述相交位置的频道(以下称为『倍音频道』)可以从公式(10)和(6)算出，但是在处理上有些烦杂。因此，在本实施方式中，使用公式(9)的实相位差δ来进行倍音频道的检测。

如上所述，实相位差δ是公式(4)的Δθ_i，k与公式(8)的Δζ_i，k的差。越远离实际存在频率成分的频道该δ越大，越接近该频道该δ越小。在超过频道时与0相交，在频率变大的方向超越时，随着离开该频道在负侧绝对值变大。以后，只要无特别声明，图线(线)形状的表现，假定是用在频率变大的方向的视点来进行。

图4是说明实相位差δ和频率的关系的图线。该图线是与图3相同声音的情况。纵轴是相位差，横轴是频率。在该图4中，是将与图3所示的纵轴平行的直线一起画到横轴上的相同位置。

如图4所示，表示实相位差δ的线，在直线与图3中成为线的阶梯状的部分相交的位置从正到负过零。由此，通过检测出过零的点，就可以找出倍音频道。

从该图4可知，在相邻的倍音间交错的部分也发生从正向负的过零。由此，在本实施方式中，将与下述的条件(以后称为『过零判断条件』)相一致的指数k的频道，作为存在倍音的频率成分的倍音频道来采用。指数k的频道是最接近过零点的频道。

δ[k-2]＞δ[k-1]＞δ[k]＞δ[k+1]＞δ[k+2]

通过寻找满足该过零判断条件的频道k，可以将从正到负大的最接近过零点的频道作为倍音频道进行高精度地抽出。该抽出，即使FFT点数不充分，而频率振幅的倍音频道难以抽出，也可以准确地进行。在必须进行更高精度的抽出时，可以与峰值检测一起来进行。

在本实施方式中，将满足该判断条件的频率(倍音)频道k从频率小的开始检测出2个。这是由于频率越高，误差的影响变大，而有精度变低的倾向的缘故。将这样检测出的倍音频道的指数从频率小的开始表记为hm1、hm2。以后，hm1与具有该基准指数hm1的倍音频道都称为基准频道。各倍音频道的相位差ΔΘ_i，k(k＝hm1、hm2)用公式(10)，也就是在该频道的实相位差δ中，将通过公式(11)算出的Ω_i，k·Δt进行加算来计算的。

音调缩放值ρ，由倍音频道的检测结果如以下算出。

首先，求出与检测出的2个倍音频道的指数hm1、hm2对应的频率的最大公约数。该最大公约数，可以使用欧几里得(Euclid)的互除法来算出。非负的2个整数x、y的最大公约数gcd(x，y)，可以用递归地反复『数1』来算出。公式(12)中的『x mod y』表示为x除以y的余数。最大公约数gcd(x，y)，也可以用其它的方法算出。

在本实施方式中，作为原声音假定是人的声音。由此，将原声音可以取的频率下限作为80Hz，指数值的下限假定相当该频率的6。与此相应，公式(12)中的y＝0的条件取为y＜6。算出的最大公约数表示为x。

最大公约数x，可以将与音调(基音)相当的频道作为倍音频道与是否已抽出无关地求出。为此，称为故障基频的基本频率，即使是缺落，或者在与其它的频率相比非常小的音乐也可以准确地求出。

算出最大公约数x后，对应基准指数hm1的频率计算该公约数x之比的倍数hmx。该倍数hmx通过下式求出：

Hmx＝hm1/x ....(13)

如以上求出的倍数hmx，相当于将与基准频道相当的频率用基本频率(基音(音调)的频率)相除的值。

目标音调展开的相位差ΔΘ_d，是将通过公式(13)求出的倍数hmx进行乘算来算出的。若令目标音调的基本频率为fd[Hz]，则该乘算可以通过下式进行：

ΔΘ_d·hmx＝2лfd·Δt·hmx

＝(2лfd·hmx·N)/(fs·OVL) ...(14)

用于将原声音的音调变换成目标音调的音调缩放值ρ，可以用下式算出：

ρ＝ΔΘ_d·hmx/ΔΘ_i，hm1 ...(15)

图2的相位补偿部25，如以上来算出缩放值ρ并输出到音调转换器27。由此，音调转换器27，用该缩放值ρ进行音调缩放，并使音调进行变换。

另外，相位补偿部25，通过下式进行相位的缩放。

θ’_i，k＝ΔΘ_i，k((θ’_i-1，hm1-θ_i-1，hm1)/ΔΘ_i，hm1+(ρ-1))+θ_i，k ...(16)

在公式(16)中，在进行缩放而得到的相位差上添加『’』来表示。通过进行该公式(16)的缩放，共同保存时间轴上相位的一致性(HPC：HorizontalPhase Coherence)以及频道间，即频率成分间的相位关系(VPC：Vertical PhaseCoherence)。(参照特愿2004-374090)。

相位补偿部25，由通过公式(16)进行缩放后的相位phase’以及从公式(1)算出的频率振幅mag，通过以下的欧拉(Euler)公式算出实数成分real’、虚数成分img’，变换成复数的频率成分。

real’＝mag·cos(phase’) ...(17)

img’＝mag·sin(phase’) ...(18)

IFFT部26，将这样变换的频率成分按频道从相位补偿部25输入，执行IFFT后返回到时间域上的数据。音调转换器27，根据从相位补偿部25输入的音调缩放值ρ，进行对IFFT部26生成的帧的插补或者间疏的音调缩放。由此，数据量伸缩成1/ρ，但是相位补偿部25进行ρ倍的相位缩放(公式(16))，所以该伸缩被消除，数据量维持原来的大小。帧加算部28，将如以上而得到的帧进行重叠加算，由此，具有目标音调的合成声音，通过音响系统11来放音。

以下，对实现上述功能构成的音响效果授予装置的电子乐器的动作，参照图5～图7所示的各种流程图，进行详细地说明。

图5是整体处理地流程图。首先参照图5，对该整体处理进行详细地说明。此外，该整体处理，通过CPU1执行存储在ROM4中的程序来使用电子乐器的资源(resource)来实现。

首先，在步骤SA1中，当开启电源时，执行初期化处理。在接着的步骤SA2中，执行用于与向构成开关部3的开关的用户操作相对应的开关处理。这样进行该开关处理，例如使构成开关部3的检测电路检测出各种开关的状态，并接收该检测结果，解析该检测结果并确定状态变化了的开关的种类及其变化。

在接着步骤SA2的步骤SA3中，执行用于与对键盘2的用户的操作对应的键盘处理。通过执行该键盘处理，根据对键盘2的演奏操作，从音响系统11放出音乐。在其后转移到步骤SA4。

在步骤SA4中，判断是否是从A/D转换器8输出原声音数据的采样定时。在是该定时的情况，判断为YES，在步骤SA5中将该原声音数据写入到RAM5上的输入缓冲器21中之后，转移到步骤SA6。在不是上述情况时，判断为NO，并转移到步骤SA10。

在步骤SA6中，判断是否是帧抽出定时。从成为上一次该定时后在经过了采样跳跃大小的原声音数据的时间的情况下，判断为YES并转移到步骤SA7。在不是上述情况时，判断为NO并转移到上述步骤SA10。

在步骤SA7中，将存储在输入缓冲器21中的原声音数据，抽出1帧，对抽出的帧，顺序进行除去高频成分的LPF处理，以及FFT。在接着的步骤SA8中，将通过FFT而得到的各频道的频率成分作为对象执行相位补偿处理。其执行后，转移到步骤SA9，进行将实施相位补偿处理的各频道的频率成分作为对象的IFFT、基于对通过该IFFT而得到的1帧的声音数据的执行时间缩放处理的音调变换，并将通过该音调变换而得到的合成声音数据重叠加算到存储在RAM5上的输出缓冲器29中存储的的合成声音数据中。在其后转移到步骤SA10。

图2所示的帧抽出部22、LPF23以及FFT部24，用执行上述步骤SA7的处理来实现。相位补偿部25，用执行步骤SA8的相位补偿处理来实现。IFFT部26、音调转换器27以及帧加算部28，用执行步骤SA9的处理来实现。

在步骤SA10中，判断是否是应该输出1采样的合成声音数据的定时。在是该定时的情况下，判断为YES，接着将在步骤SA11中应该输出的合成声音数据从输出缓冲器29读出，并通过音乐生成部9送到D/A转换器10，此外，在于步骤SA12中执行其它处理之后，返回到上述步骤SA2。在不是上述情况时，判断为NO，接着执行步骤SA12的处理。

被合成的合成声音数据通过音乐生成部9被发送到D/A转换器10中。由此，在音乐生成部9中，安装有将自身生成的音乐的波形数据与从其它输入的数据进行混合的功能。

图6是作为上述步骤SA8执行的相位补偿处理的流程图。

以下参照图6，对该补偿处理进行详细地说明。在该补偿处理中，给出通过进行FFT而得到的各频道的频率成分。该频率成分，如上所述，由实数部与虚数部组成。

首先，在步骤SB1中，从各频道的频率成分，通过公式(1)、(2)算出频率振幅mag、相位phase(＝θ)。在接着的步骤SB2中，开始依据公式(4)～(10)的、展开的相位差ΔΘ_i，k(图3)的算出，在算出实相位差δ的时间点(公式(10)的前面)，转移到步骤SB3。

在步骤SB3中，由在步骤SB2中得到的实相位差δ(图4)，检测出2个倍音频道。其次，在转移的步骤SB4中，通过公式(10)算出各频道的相位差ΔΘ_i，k。其算出后，转移到步骤SB5，并对在步骤SB3中检测出的2个倍音频道，通过公式(12)～(15)，执行算出缩放值ρ的缩放值算出处理。

在此，对该算出处理，参照图7所示的该流程进行详细地说明。

首先，在步骤SC1中，将与在步骤SB3中检测出的2个倍音频道的指数值hm1、hm2对应的频率，分别代入到变数h1、h2中。在此，变数h1、h2分别与公式(12)的x、y对应。在接着的步骤SC2中，判断与变数h2的值对应的指数值是否是6或6以上。在该指数值是6或6以上时，判断为YES，接着在步骤SC3中，将变数h1的值除以变数h2的值而得到的余数代入到变数t，在变数h1中代入变数h2的值，进而在变数h2中代人变数t的值后，再次进行在步骤SC2的判断。在不是上述情况时，判断为NO，并转移到步骤SC4。在步骤SC2的判断为NO之前反复执行由步骤SC2、SC3形成的处理循环，由此，在变数h1中代入与指数值hm1、hm2对应的频率间的最大公约数(公式(12))。

在步骤SC4中，在变数hmx中，代入指数值hm1对应的频率用变数h1的值(最大公约数)相除所得的值(公式(13))。在接着的步骤SC5中，将相位差ΔΘ_d乘以变数hmx的值(公式(14))，并使用该乘算结果，通过公式(15)算出缩放值ρ。其算出后，终止一系列的处理。根据该终止，在图6的相位补偿处理中，转移到步骤SB6。

在该步骤SB6中，使用在步骤SB4中算出的相位差ΔΘ_i，k，进行依据公式(16)的相位缩放处理。在接着的步骤SB7中，由执行该缩放处理后的相位phase’以及从公式(1)算出的频率振幅mag，算出实数成分rea1’(公式(17))、虚数成分img’(公式(18))，并变换成复数的频率成分。在进行该变换后，终止一系列的处理。

此外，在本实施方式中，抽出了2个倍音频道，但是也可以抽出3个或3个以上的倍音频道。在一起进行峰值检测时，可以从着眼于实相位差而抽出的倍音频道之中，考虑到频率振幅的大小来抽出2个或2个以上的倍音频道。

根据音调变换共振峰也移动。为此，当变换量(缩放值ρ)越大，合成声音越不自然。为了回避这个，可以一起来进行共振峰的补偿。

在本实施方式中，由于即使不抽出原声音的基音频率，也可以实现向目标音调的音调变换，所以未抽出该基本频率。但是，该基本频率可以使用倍数hmx来抽出。该抽出(算出)，若将基本频率表记为fi，则可以使用公式(7)，通过下式来进行：

fi＝ΔΘ_i，hm1/(2л·Δt·hmx)

＝(ΔΘ_i，hm1·fs·OVL)/(2л·N·hmx) ...(19)

适用于本发明的基音抽出装置，作为通过公式(19)算出基本频率fi的装置，可以在本实施方式中的音响效果授予装置上，或者在安装了它的电子乐器上轻易地实现。在用频率指定了目标音调时，在算出基本频率fi后，可以并且通过取得与该目标音调的频率之比，来求出缩放值ρ。另外，算出的基本频率fi，可以通过显示部6等来告知用户。关于合成声音波形的生成，也可以采用其它的方法。

实现含有如上述的变形例的音响效果授予装置，或者基音抽出装置的程序，也可以记录到CD-ROM、DVD或者光磁盘等记录媒体来散发。或者，可以通过使用公众网等传播媒体，将该程序的一部分或者全部进行分发。在这种情况时，用户取得程序并装载到计算机等数据处理装置中，由此使用该数据处理装置，可以实现适用于本分明的音响效果授予装置。因此，记录媒体可以是能存取分发程序的装置。

Claims

1.一种音响效果授予装置，其包括：

频率分析单元(24、SA7)，其用于将输入的第1声音波形用帧单位进行频率分析，并按频道抽出频率成分；

倍音通道抽出单元(25、SB3)，其用于从所述频率分析单元抽出频率成分的频道之中，将存在是所述第1声音波形的基音的1倍或1倍以上的倍音的频率成分的频道，抽出2个或2个以上；

公约数算出单元(25、SC1～SC3)，其用于算出与所述倍音通道抽出单元抽出的2个或2个以上的频道对应的频率间的最大公约数；

声音波形生成单元(26、27、SA9)，其用于可以将变换了所述第1声音波形的音调的声音波形作为所述第2声音波形而生成；和

生成控制单元(25、SC4)，其用于使用所述公约数算出单元算出的最大公约数来决定所述音调的变换内容，并在所述声音波形生成单元中生成第2声音波形，

所述生成控制单元，将所述倍音通道抽出单元抽出的2个或2个以上的频道中的1个频道作为基准通道，算出该基准通道的频率与所述最大公约数的频率比，并使用该算出的频率比来决定所述音调的变换内容。

2.根据权利要求1所述的音响效果授予装置，其中，

所述生成控制单元(25)，将所述基准通道的频率用所述最大公约数相除而得到的除算值作为所述频率比来算出，将在作为所述第2声音波形的目标的基音中的帧间的相位差乘以该除算值来算出作为目标的目标相位差，并算出该算出的目标相位差与该基准通道的帧间的相位差的相位差比来决定所述音调的变换内容。

3.根据权利要求1所述的音响效果授予装置，其中，

所述生成控制单元(25)，将所述基准通道的频率用所述最大公约数进行相除而得到的除算值作为所述频率比来算出，将该基准通道的帧间的相位差用该除算值除算而得到的、在所述第1声音波形的基音中的帧间中的相位差变换成频率，由此，算出该基音的频率，并使用该算出的基音频率来决定所述音调的变换内容。

4.根据权利要求1所述的音响效果授予装置，其中，

所述倍音通道抽出单元(25、SB3)，从所述频率分析单元按频道抽出的频率成分算出相位，并使用该算出的相位来抽出2个或2个以上的频道。

5.一种基音抽出装置，其包括：

频率分析单元(24、SA7)，其用于将输入的声音波形用帧单位进行频率分析，并按频道抽出频率成分；

倍音通道抽出单元(25、SB3)，其用于从所述频率分析单元抽出了频率成分的频道之中，将存在所述声音波形的基音的1倍或1倍以上的倍音的频率成分的频道，抽出2个或2个以上；

公约数算出单元(25、SC1～SC3)，其用于算出与所述倍音通道抽出单元抽出的2个或2个以上的频道对应的频率间的最大公约数；和

基音抽出单元(25、SC3)，其用于使用所述公约数算出单元算出的最大公约数来抽出所述声音波形的基音的频率，

所述基音抽出单元，将所述倍音通道抽出单元抽出的2个或2个以上的频道之中的1个频道作为基准通道，算出将该基准通道的频率用所述最大公约数相除而得到的除算值，将该基准通道的帧间的相位差用该除算值除算而得到的、在所述声音波形的基音中的帧间中的相位差变换成频率，由此算出该基音的频率。

6.根据权利要求5所述的基音抽出装置，其中，