JP2005208627A - Speech analysis and synthesis device, and program thereof - Google Patents
Speech analysis and synthesis device, and program thereof Download PDFInfo
- Publication number
- JP2005208627A JP2005208627A JP2004374090A JP2004374090A JP2005208627A JP 2005208627 A JP2005208627 A JP 2005208627A JP 2004374090 A JP2004374090 A JP 2004374090A JP 2004374090 A JP2004374090 A JP 2004374090A JP 2005208627 A JP2005208627 A JP 2005208627A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- speech
- phase
- waveform
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
Description
本発明は、音声波形を分析し、その分析結果を用いて音声波形を合成するための技術に関する。 The present invention relates to a technique for analyzing a speech waveform and synthesizing a speech waveform using the analysis result.
音声波形を分析し、その分析結果を用いて音声波形を合成する音声分析合成装置のなかには、音声波形の分析として周波数分析を行うものがある。そのような音声分析合成装置では、音声波形の合成は、具体的には以下のようにして行われる。ここでは、合成後の音声波形、元の音声波形を区別するために、前者を「合成音声波形」、後者を「元音声波形」と表記することとする。 Some speech analysis / synthesis apparatuses that analyze speech waveforms and synthesize speech waveforms using the analysis results perform frequency analysis as speech waveform analysis. In such a speech analysis / synthesis apparatus, the synthesis of a speech waveform is specifically performed as follows. Here, in order to distinguish the synthesized speech waveform from the original speech waveform, the former is represented as “synthesized speech waveform” and the latter as “original speech waveform”.
合成音声波形を合成するまでの過程は、分析(analysis)過程、変更(modification)過程、及び合成(synthesis)過程、の3段階に大別される。以降、従来の音声分析合成装置においてその過程毎に行われている処理について具体的に説明する。
<分析過程>
元音声波形は、所定の時間間隔で音声をサンプリングして得られるものである。その元音声波形から、予め定めた時間間隔(サンプリング数)分のサンプリングデータがフレームとして切り出され、短時間フーリエ変換(STFT)が行われる。そのSTFTにより、周波数が異なる周波数チャンネル毎に周波数成分が抽出される。その周波数成分は、実数部と虚数部からなり、各周波数チャンネルの周波数振幅、及び位相はその周波数成分から算出する。STFTは、信号データを短時間分、切り出して離散フーリエ変換(DFT)を行うものである。このことから、DFTはSTFTを含む意味で用いることにする。そのDFTでは、高速フーリエ変換(FFT)が用いられるのが普通である。
The process until the synthesized speech waveform is synthesized is roughly divided into three stages: an analysis process, a modification process, and a synthesis process. Hereinafter, processing performed for each process in the conventional speech analysis / synthesis apparatus will be described in detail.
<Analysis process>
The original speech waveform is obtained by sampling speech at a predetermined time interval. Sampling data for a predetermined time interval (sampling number) is cut out from the original speech waveform as a frame, and short-time Fourier transform (STFT) is performed. The STFT extracts a frequency component for each frequency channel having a different frequency. The frequency component consists of a real part and an imaginary part, and the frequency amplitude and phase of each frequency channel are calculated from the frequency component. The STFT cuts out signal data for a short time and performs discrete Fourier transform (DFT). For this reason, DFT is used to include STFT. In the DFT, a fast Fourier transform (FFT) is usually used.
ピッチ(音高)をシフトするピッチスケーリングを行う場合、切り出したフレームに対し補間、或いは間引きを行ってピッチをシフトさせた後にFFTを行う。
<変更過程>
元音声波形のDFT(FFT)はフレーム単位で行われることから、合成音声波形の合成もフレーム単位で行われる。その合成音声波形における周波数チャンネルkの位相θ'i,kは下記式で計算される。発音持続時間を変化させるタイムスケーリングのみを行う場合、各周波数チャンネルの周波数振幅は変化させる必要はない。
When pitch scaling for shifting the pitch (pitch) is performed, FFT is performed after the pitch is shifted by interpolating or thinning out the cut frame.
<Change process>
Since DFT (FFT) of the original speech waveform is performed in units of frames, synthesis of the synthesized speech waveform is also performed in units of frames. The phase θ ′ i, k of the frequency channel k in the synthesized speech waveform is calculated by the following equation. When only time scaling that changes the sound duration is performed, it is not necessary to change the frequency amplitude of each frequency channel.
θ'i,k=θ'i-1,k+ρ・ΔΘi,k ・・・ (1)
ここで、ΔΘi,kは元音声波形で周波数チャンネルkにおける直前のフレームと今回のフレームとの間の位相差を表し、ρはピッチスケーリングを行う程度を示すスケーリングファクタを表している。下添字のiは、フレームを表している。今回のフレーム(現フレーム)はi、直前のフレームはi−1で表されている。このようなことから、(1)式は、合成音声波形における現フレームの周波数チャンネルkの位相θ'i,kは、合成音声波形における直前フレーム時点での位相(スケーリングファクタρにより変換された後の位相差積算値)に、位相差ΔΘi,kにファクタρの乗算値を加算することで算出されることを示している。
θ ′ i, k = θ ′ i−1, k + ρ · ΔΘ i, k (1)
Here, ΔΘ i, k represents the phase difference between the previous frame and the current frame in the frequency channel k in the original speech waveform, and ρ represents a scaling factor indicating the degree of pitch scaling. The subscript i represents a frame. The current frame (current frame) is represented by i, and the immediately preceding frame is represented by i-1. For this reason, equation (1) indicates that the phase θ ′ i, k of the frequency channel k of the current frame in the synthesized speech waveform is the phase at the previous frame time in the synthesized speech waveform (after being converted by the scaling factor ρ). It is calculated by adding a multiplication value of the factor ρ to the phase difference ΔΘ i, k .
その位相差ΔΘi,kは、展開されている必要がある。音声波形の合成において、位相の展開(unwrap)、及び折り畳み(wrap)は重要な意味がある。このため、そのことについて以下に詳細に説明する。展開の有無の区別を容易にするために、折り畳まれている位相を小文字のθ、展開されている位相を大文字のΘで表記する。 The phase difference ΔΘ i, k needs to be developed. In the synthesis of speech waveforms, phase unfolding and folding are important. Therefore, this will be described in detail below. In order to easily distinguish the presence / absence of expansion, the folded phase is represented by lowercase θ, and the expanded phase is represented by uppercase Θ.
任意のチャンネルkの任意の時刻tにおける位相θk,tは次式で表現できる。 The phase θ k, t at an arbitrary time t of an arbitrary channel k can be expressed by the following equation.
その(2)式から明らかなように、位相θk,tは角速度ωkを積分することで得られる。一方、DFTにより算出される周波数成分から位相を算出する際にarctanにより得られる値は−πとπの間に制限される。すなわち折り畳まれている位相θk,tとして得られる。それにより、以下の式で表現される位相Θk,tにおいて2nπの項が欠落していることとなる。 As apparent from the equation (2), the phase θ k, t can be obtained by integrating the angular velocity ω k . On the other hand, the value obtained by arctan when calculating the phase from the frequency component calculated by DFT is limited to between −π and π. That is, it is obtained as a folded phase θ k, t . As a result, a 2nπ term is missing in the phase Θ k, t expressed by the following equation.
Θk,t=θk,t+2nπ (ただし、n=0、1,2,・・・) ・・・ (3)
(1)式により位相θ'k,tを計算するためには折り畳まれている位相θk,tを展開する必要がある。その展開は、(3)式におけるnを推定する作業であり、DFTのチャンネルkの中心周波数を基にして推定することができる。
Θ k, t = θ k, t + 2nπ (where n = 0, 1, 2,...) (3)
In order to calculate the phase θ ′ k, t by the equation (1), it is necessary to expand the folded phase θ k, t . The expansion is an operation of estimating n in the equation (3), and can be estimated based on the center frequency of the channel k of the DFT.
Δθi,k=θi,k−θi-1,k ・・・ (4)
(4)式中のΔθi,kは、チャンネルkにおける折り畳まれた位相θi,kのフレーム間の位相差を示している。そのチャンネルkの中心周波数(の角速度)Ωi,kは、サンプリング周波数をfs、DFT点数(フレームのサンプリング数)をNとすると
Ωi,k=(2π・fs/N)・k ・・・ (5)
により求めることができる。この周波数Ωi,kのとき、直前のフレームとの時間差をΔtとすると、位相差ΔZi,kは
ΔZi,k=Ωi,k・Δt ・・・ (6)
により算出できる。時間差Δt自体は
Δt=N/(fs・OVL) ・・・ (7)
で求められる。(7)式中のOVLは、フレームサイズをホップサイズ(隣り合うフレームのずれに相当するサンプリング数)で割った値であるオーバーラップファクタを示している。
Δθ i, k = θ i, k −θ i−1, k (4)
In the equation (4), Δθ i, k indicates a phase difference between frames of the folded phase θ i, k in the channel k. The center frequency (angular velocity) Ω i, k of the channel k is Ω i, k = (2π · fs / N) · k when the sampling frequency is fs and the number of DFT points (frame sampling number) is N. (5)
It can ask for. At this frequency Ω i, k , assuming that the time difference from the previous frame is Δt, the phase difference ΔZ i, k is ΔZ i, k = Ω i, k · Δt (6)
Can be calculated. The time difference Δt itself is Δt = N / (fs · OVL) (7)
Is required. OVL in the equation (7) indicates an overlap factor that is a value obtained by dividing the frame size by the hop size (the number of samplings corresponding to the shift between adjacent frames).
(6)式では位相展開されている。このため、以下の式で記述できる。
ΔZi,k=Δζi,k+2nπ ・・・ (8)
(4)式で算出される位相差Δθi,kと(8)式中の位相差Δζi,kの差をδ(=Δθi,k−Δζi,k)とすると、
Δθi,k−Ωi,k・Δt=(Δζi,k+δ)−(Δζi,k+2nπ)
=δ−2nπ ・・・ (9)
が導出できる。従って(9)式の右辺の2nπを削除してその範囲を−πからπの間に制限すればδを算出できる。そのδは、元音声波形において実際に検出される位相差(以降「実位相差」と呼ぶ)である。
In equation (6), phase expansion is performed. For this reason, it can describe with the following formula | equation.
ΔZ i, k = Δζ i, k + 2nπ (8)
If the difference between the phase difference Δθ i, k calculated by the equation (4) and the phase difference Δζ i, k in the equation (8) is δ (= Δθ i, k −Δζ i, k ),
Δθ i, k −Ω i, k · Δt = (Δζ i, k + δ) − (Δζ i, k + 2nπ)
= Δ-2nπ (9)
Can be derived. Therefore, if 2nπ on the right side of equation (9) is deleted and the range is limited to between −π and π, δ can be calculated. The δ is a phase difference actually detected in the original speech waveform (hereinafter referred to as “actual phase difference”).
そのように算出される実位相差δに位相差ΔZi,k(=Ωi,k・Δt)を加算すれば、以下のように位相展開された位相差ΔΘi,kを求めることができる。
ΔΘi,k=δ+Ωi,k・Δt=δ+(Δζi,k+2nπ)=Δθi,k+2nπ
・・・ (10)
(1)式と(10)式によりタイムスケーリングされた位相θ'i,kが算出される。ただしチャンネルの中心周波数を基に位相展開する方法では、実位相差δは|δ|<πとする必要がある。その最大値δmaxの絶対値は隣のチャンネルに信号が遷移しない限界の値であるから、
|δmax|=(2π・fs/N)・(k+0.5)・Δt−(2π・fs/N)・k・Δt
=(2π・fs/2N)・(N/(fs・OVL))=π/OVL
・・・ (11)
となる。
If the phase difference ΔZ i, k (= Ω i, k · Δt) is added to the actual phase difference δ calculated as described above, the phase difference ΔΘ i, k that has been phase-expanded can be obtained as follows. .
ΔΘ i, k = δ + Ω i, k · Δt = δ + (Δζ i, k + 2nπ) = Δθ i, k + 2nπ
(10)
The time-scaled phase θ ′ i, k is calculated by the equations (1) and (10). However, in the method of phase expansion based on the center frequency of the channel, the actual phase difference δ needs to be | δ | <π. Since the absolute value of the maximum value δ max is a limit value at which the signal does not transition to the adjacent channel,
| Δ max | = (2π · fs / N) · (k + 0.5) · Δt− (2π · fs / N) · k · Δt
= (2π · fs / 2N) · (N / (fs · OVL)) = π / OVL
(11)
It becomes.
(11)式と|δ|<πの関係よりオーバーラップファクタOVLの値はOVL>1の関係となる。すなわち位相展開するにはフレームをオーバーラップさせる必要があることがわかる。 The value of overlap factor OVL is in the relationship of OVL> 1 from the relationship of equation (11) and | δ | <π. That is, it is understood that the frames need to be overlapped for phase expansion.
さらに、DFTでは、通常1チャンネルの信号が複数のチャンネルを励起させる。正規化角周波数ω、初期位相φ、振幅1の複素正弦波fnの窓かけしない場合(窓関数として方形窓を適用した場合と等価)、そのDFTは以下のように求められる。
Further, in DFT, a signal of one channel normally excites a plurality of channels. When the normalized angular frequency ω, the initial phase φ, and the
上記複素正弦波fnは以下のように表すことができる。 The complex sine wave fn can be expressed as follows.
(12)式から、角周波数ω=(2π/N)・k以外の周波数となっているチャンネルが全て励起されることがわかる。通常は何らかの窓関数を用いるので、その窓関数の帯域幅に応じて励起されるチャンネル、その数が変化する。窓関数としてハニング窓を用いた場合、そのDFT値は
W0=(1/2)N,W1=−(1/4)N,W-1=−(1/4)N ・・・ (13)
となり、これが各チャンネルに畳み込まれる。(13)式から明らかなように、たとえ角周波数ω=(2π/N)・kの場合でも周波数振幅値が1:2:1の割合で3チャンネルが励起される。角周波数ωが隣り合う2つのチャンネルの中間にある場合には、周波数振幅値が1:5:5:1の割合で4チャンネルが励起される。
From the equation (12), it can be seen that all channels having frequencies other than the angular frequency ω = (2π / N) · k are excited. Usually, since some window function is used, the number of channels to be excited and the number thereof change according to the bandwidth of the window function. When a Hanning window is used as the window function, the DFT values are: W 0 = (1/2) N, W 1 = − (1/4) N, W −1 = − (1/4) N. 13)
This is folded into each channel. As apparent from the equation (13), even if the angular frequency ω = (2π / N) · k, the three channels are excited at a ratio of the frequency amplitude value of 1: 2: 1. When the angular frequency ω is between two adjacent channels, the four channels are excited at a ratio of the frequency amplitude value of 1: 5: 5: 1.
励起される各チャンネル全てで正しく位相展開するためには(8)式中のnが励起される各チャンネル間で等しい値とならなければならない。この制約から、窓関数として例えばハニング窓を適用した場合には、オーバーラップファクタOVLの値は4以上とする必要がある。 In order to correctly develop the phase in all the excited channels, n in the equation (8) must be equal between the excited channels. Because of this restriction, for example, when a Hanning window is applied as the window function, the value of the overlap factor OVL needs to be 4 or more.
上記分析過程では、そのような値のオーバーラップファクタOVLに従ってフレームを切り出し、切り出したフレームに窓関数を掛けた後、FFTを行う。変更過程では、上述したようにして求められるチャンネルの位相を維持させつつ、各チャンネルの周波数振幅を必要に応じて操作する。
<合成過程>
合成過程では、変更過程で変更(操作)された後の周波数成分を逆FFT(IFFT(逆高速フーリエ変換))により時間座標上の信号に戻し、1フレーム分の合成音声波形を生成する。その1フレームの音声波形は、オーバーラップファクタOVLをファクタρの値に応じて変更する値で前のフレームとオーバーラップさせて加える。それにより、ピッチスケーリング、及びタイムスケーリングを行った後の合成音声波形を生成する。
In the above analysis process, a frame is cut out in accordance with the overlap factor OVL having such a value, and a window function is applied to the cut out frame, and then FFT is performed. In the changing process, the frequency amplitude of each channel is manipulated as necessary while maintaining the phase of the channel obtained as described above.
<Synthesis process>
In the synthesizing process, the frequency component changed (operated) in the changing process is returned to a signal on time coordinates by inverse FFT (IFFT (Inverse Fast Fourier Transform)), and a synthesized speech waveform for one frame is generated. The speech waveform of one frame is added by overlapping the previous frame with a value that changes the overlap factor OVL according to the value of the factor ρ. Thus, a synthesized speech waveform after pitch scaling and time scaling is generated.
上述のようにして合成音声波形を合成する従来の音声分析合成装置では、その合成音声波形による音声(合成音)が、元音声波形の音声(原音)に対してphasiness、若しくはreverbrantと呼ばれる位相ズレ感を与えるものとなるという問題点があった。そのような位相ズレ感は、合成音における音源との距離感が、原音におけるそれと比較して遠く離れていると感じられる距離感となってしまうことにより、聴感上、悪影響を及ぼす場合があることから非常に望ましくない。それは、ピッチのシフトが比較的に非常に小さい場合においても発生する。以下、その原因について詳細に説明する。 In a conventional speech analysis and synthesis apparatus that synthesizes a synthesized speech waveform as described above, a speech (synthesized sound) based on the synthesized speech waveform has a phase shift called phasiness or reverbrant with respect to the speech (original sound) of the original speech waveform. There was a problem of giving a feeling. Such a phase shift feeling may adversely affect the sense of hearing because the sense of distance from the sound source in the synthesized sound becomes a sense of distance that is felt far away from that in the original sound. Very undesirable from. It occurs even when the pitch shift is relatively very small. Hereinafter, the cause will be described in detail.
上述したように、位相の展開を正確に実行するためにはフレームをオーバーラップさせる必要がある。そのためのオーバーラップファクタOVLに適切な値が設定されていれば正確に位相展開を実行することができ、(1)式により算出される位相θ'i,kは右辺の第2項により時間軸上の位相に関しては常に一貫性が保存される。ここでは、その時間軸上の位相の一貫性をHPC(Horizontal Phase Coherence)と呼ぶことにする。これに対し、チャンネル間、すなわち周波数成分間の位相関係はVPC(Vertical Phase Coherence)と呼ぶこととする。 As described above, it is necessary to overlap the frames in order to accurately perform the phase expansion. If an appropriate value is set for the overlap factor OVL for that purpose, the phase expansion can be executed accurately, and the phase θ ′ i, k calculated by the equation (1) can be expressed in the time axis by the second term on the right side. Consistency is always preserved for the top phase. Here, the consistency of the phase on the time axis is called HPC (Horizontal Phase Coherence). On the other hand, the phase relationship between channels, that is, between frequency components is referred to as VPC (Vertical Phase Coherence).
従来の音声分析合成装置では、このVPCが保存されないために位相ズレ感が発生する。
そのVPCが保存されない原因は、(1)式右辺第1項が正確な値を保持できないことにある。位相展開ファクタをnとすると、(1)式は(4)、(10)式を用いて以下のように変形できる。
In the conventional speech analysis / synthesis apparatus, the VPC is not stored, so that a phase shift occurs.
The reason why the VPC is not stored is that the first term on the right side of equation (1) cannot hold an accurate value. If the phase expansion factor is n, equation (1) can be modified as follows using equations (4) and (10).
θ'i,k=θ'i-1,k+ρ(θi,k−θi-1,k+2nπ) ・・・ (14)
今スケーリングファクタρの値が整数である場合を考えると、(14)式の右辺にある位相展開項2nπは削除可能であることから、次式のように表現できる。
θ ′ i, k = θ ′ i−1, k + ρ (θ i, k −θ i−1, k + 2nπ) (14)
Considering the case where the value of the scaling factor ρ is an integer, the phase expansion term 2nπ on the right side of the equation (14) can be deleted and can be expressed as the following equation.
(15)式は、初期位相θ'0,kがρθ0,kとなるように設定すると
θ'i,k=ρθi,k ・・・ (16)
となり、(1)式の右辺第1項が消去される。このため、HPCと共にVPCも保存され、位相ズレ感の無いスケーリングを行うことができる。しかし、スケーリングファクタρが整数以外の値であった場合には、その第1項は残ることになる。
When the initial phase θ ′ 0, k is set to be ρθ 0, k , the equation (15) is expressed as θ ′ i, k = ρθ i, k (16)
Thus, the first term on the right side of equation (1) is deleted. For this reason, VPC is also saved together with HPC, and scaling without phase shift can be performed. However, if the scaling factor ρ is a value other than an integer, the first term remains.
(1)式の右辺第1項は、位相展開された位相差分の変換値(=ρ・ΔΘi,k)が積算されたものである。その積算値を正確な値に維持し続けさせるには、次の点に適切に対応する必要がある。 The first term on the right side of equation (1) is obtained by integrating the phase-expanded phase difference conversion values (= ρ · ΔΘ i, k ). In order to keep the integrated value at an accurate value, it is necessary to appropriately cope with the following points.
1) 初期値の影響
2) 周波数成分のチャンネル間の遷移
3) 周波数成分の消滅/発生
1)の点に関しては、上述したように、初期位相θ'0,kをρθ0,kとなるように設定することで積算値を正確な値に維持させることができる。
1) Influence of initial value 2) Transition of frequency component between channels 3) Disappearance / generation of frequency component Regarding point 1), the initial phase θ ′ 0, k is set to ρθ 0, k as described above. By setting to, the integrated value can be maintained at an accurate value.
2)の点に関しては、周波数振幅のピークピッキングなどの方法により周波数成分が存在するチャンネルをトラッキングし、周波数成分が別のチャンネルに遷移したことの検知により、チャンネル間をまたいで位相差の計算を実施するようにした場合には、積算値を正確な値に維持させることが可能となる。周波数成分(信号)がチャンネルkからチャンネルk+1に遷移した場合、(14)式は
θ'i,k+1=θ'i-1,k+ρ(θi,k+1−θi-1,k+2nπ) ・・・ (17)
と変形させることができる。位相展開ファクタnも位相Ωi,k+1を用いて算出する。しかし、周波数成分の遷移のトラッキングに失敗したときは、その時点で積分値は不正確な値となってしまい、VPCは保存されなくなる。また、チャンネル間における周波数成分の遷移が発生した場合に、その遷移元のチャンネルに対応する直前のフレームのチャンネルが存在しないという事態が発生することがある。その場合には、チャンネルの不整合により正確な積分値は得られなくなる。
Regarding point 2), the channel where the frequency component exists is tracked by a method such as peak picking of the frequency amplitude, and the phase difference is calculated across the channels by detecting the transition of the frequency component to another channel. When implemented, the integrated value can be maintained at an accurate value. When the frequency component (signal) transitions from the channel k to the channel k + 1, the equation (14) is expressed as θ ′ i, k + 1 = θ ′ i−1, k + ρ (θ i, k + 1 −θ i−1). k + 2nπ) (17)
And can be transformed. The phase expansion factor n is also calculated using the phase Ω i, k + 1 . However, if the tracking of the frequency component transition fails, the integration value becomes inaccurate at that time, and the VPC is not stored. In addition, when a frequency component transition occurs between channels, a situation may occur in which there is no channel of the immediately preceding frame corresponding to the transition source channel. In that case, an accurate integral value cannot be obtained due to channel mismatch.
3)の点に関しては、波形が定常波のような特殊な音声を除き、通常の音声や楽音では不可避と考えられる。特に調波構造を持たないノイズでは周波数成分の発生/消滅はランダム且つ頻繁に発生するため、それを検知することはほぼ不可能である。従って、その回避も不可能と云える。 Regarding point 3), it is considered inevitable for normal voices and musical sounds except for special voices whose waveforms are standing waves. In particular, in the case of noise having no harmonic structure, generation / extinction of frequency components occurs randomly and frequently, so that it is almost impossible to detect it. Therefore, it can be said that avoidance is impossible.
このようなことから、従来の音声分析合成装置では、スケーリングファクタρの値が整数の場合を除き、VPCを保存することは実質的に不可能となっている。このため、位相ズレ感を与える音声波形の合成を確実に回避することができなかった。それにより、位相ズレ感を与える音声波形の合成を確実に回避できるようにすることが望まれていた。 For this reason, in the conventional speech analysis / synthesis apparatus, it is substantially impossible to save the VPC except when the value of the scaling factor ρ is an integer. For this reason, synthesis of a speech waveform that gives a phase shift feeling cannot be avoided reliably. Accordingly, it has been desired to reliably avoid the synthesis of a speech waveform that gives a phase shift feeling.
なお、特許文献1に記載の音声分析合成装置では、ピッチ変換された合成音声波形の位相を、フレームをオーバーラップする幅によって制御している。その制御は、上記合成過程で行われている。上記積算値((1)式右辺第1項)に正確な値を保持できないことの説明は、その制御を行うのを前提としたものである。
本発明の課題は、位相ズレ感を与える音声波形の合成を確実に回避できる音声分析合成装置を提供することにある。 An object of the present invention is to provide a speech analysis and synthesis apparatus that can reliably avoid synthesis of speech waveforms that give a phase shift feeling.
本発明の音声分析合成装置は、第1の音声波形を分析し、該分析結果を用いて第2の音声波形の合成を行うことを前提とし、第1の音声波形をフレーム単位で周波数分析して周波数チャンネル毎に周波数成分を抽出する周波数分析手段と、第1、及び第2の音声波形間の所定数前のフレームにおける位相較差量を、周波数チャンネルのなかの所定の周波数チャンネルを基準にして算出し、該位相較差量を用いる形で、現在のフレームにおける該第2の音声波形の位相を該周波数チャンネル毎に周波数分析手段が抽出した周波数成分を参照して算出する位相算出手段と、周波数分析手段が抽出した周波数成分を位相成分算出手段が算出した位相に応じて周波数チャンネル毎に変換し、該変換後の周波数成分を用いて、第2の音声波形をフレーム単位で合成する音声合成手段と、を具備する。 The speech analysis / synthesis apparatus according to the present invention analyzes the first speech waveform, and synthesizes the second speech waveform using the analysis result, and performs frequency analysis on the first speech waveform in frame units. A frequency analysis means for extracting frequency components for each frequency channel, and a phase difference in a predetermined number of frames between the first and second speech waveforms with reference to a predetermined frequency channel among the frequency channels. A phase calculation means for calculating and calculating the phase of the second speech waveform in the current frame with reference to the frequency component extracted by the frequency analysis means for each frequency channel, using the phase difference amount; The frequency component extracted by the analysis unit is converted for each frequency channel according to the phase calculated by the phase component calculation unit, and the second audio waveform is converted into a frame by using the frequency component after the conversion. To anda speech synthesis means for synthesizing at positions.
なお、上記位相算出手段は、その位相較差量の他に、所定数前のフレームから現在のフレームまでの間に生じる第1、及び第2の音声波形間の位相較差量、及び該現在のフレームにおける該第1の音声波形の位相を用いる形で、該現在のフレームにおける該第2の音声波形の位相を周波数チャンネル毎に算出する、ことが望ましい。 In addition to the phase difference amount, the phase calculation means includes the phase difference amount between the first and second speech waveforms generated between a predetermined number of previous frames and the current frame, and the current frame. Preferably, the phase of the second speech waveform in the current frame is calculated for each frequency channel using the phase of the first speech waveform at.
上記所定数前のフレームは直前のフレームであり、所定の周波数チャンネルは、周波数成分を有するもののなかで周波数が最低の周波数チャンネルである、ことが望ましい。また、音声合成手段については、周波数分析手段で用いられたオーバーラップファクタと異なるオーバーラップファクタで第2の音声波形を合成できる、ことが望ましい。或いは/及び、第1の音声波形のピッチをシフトした第2の音声波形を合成できる、ことが望ましい。 It is preferable that the predetermined number of frames before is a previous frame, and the predetermined frequency channel is a frequency channel having the lowest frequency among those having frequency components. As for the speech synthesis means, it is desirable that the second speech waveform can be synthesized with an overlap factor different from the overlap factor used in the frequency analysis means. Alternatively and / or it is desirable to be able to synthesize a second speech waveform in which the pitch of the first speech waveform is shifted.
また、上記音声合成手段は、周波数分析手段が周波数チャンネル毎に抽出した周波数成分から第1の音声波形のフォルマントを抽出し、該周波数成分に対する操作により該抽出したフォルマントのシフトを行い、該操作を変換と併せて行った後の周波数成分を用いて第2の音声波形を合成できる、ことが望ましい。フォルマントの抽出は、周波数成分から周波数チャンネル毎に周波数振幅を求め、該周波数振幅を対象にしたフィルタリング処理により行うことが望ましい。フィルタリング処理で用いる次数は、周波数チャンネル毎に求めた周波数振幅の状態を基に、必要に応じて変更する、ことが望ましい。周波数成分に対する操作としては、該周波数成分から求められる周波数振幅の値が所定値以下となっている周波数振幅をより小さい値とさせる操作を併せて行う、ことが望ましい。更には、音声合成手段が合成した第2の音声波形は第1の音声波形と併せて出力することができる、ことが望ましい。 The speech synthesis means extracts the formant of the first speech waveform from the frequency component extracted for each frequency channel by the frequency analysis means, shifts the extracted formant by an operation on the frequency component, and performs the operation. It is desirable that the second speech waveform can be synthesized using the frequency component after the conversion. It is desirable that the formant is extracted by obtaining a frequency amplitude for each frequency channel from the frequency component and performing a filtering process for the frequency amplitude. The order used in the filtering process is desirably changed as necessary based on the state of the frequency amplitude obtained for each frequency channel. As an operation for the frequency component, it is desirable to perform an operation for making the frequency amplitude smaller than the predetermined value the frequency amplitude obtained from the frequency component. Furthermore, it is desirable that the second speech waveform synthesized by the speech synthesizer can be output together with the first speech waveform.
本発明のプログラムは、第1の音声波形を分析し、該分析結果を用いて第2の音声波形の合成を行う音声分析合成装置に実行させることを前提とし、第1の音声波形をフレーム単位で周波数分析して周波数チャンネル毎に周波数成分を抽出する機能と、第1、及び第2の音声波形間の所定数前のフレームにおける位相較差量を、周波数チャンネルのなかの所定の周波数チャンネルを基準にして算出し、該位相較差量を用いる形で、現在のフレームにおける該第2の音声波形の位相を該周波数チャンネル毎に抽出する機能により抽出した周波数成分を参照して算出する機能と、抽出する機能により抽出した周波数成分を算出する機能により算出した位相に応じて周波数チャンネル毎に変換し、該変換後の周波数成分を用いて、第2の音声波形をフレーム単位で合成する機能と、を実現させる。 The program of the present invention is based on the premise that a speech analysis / synthesis apparatus that analyzes a first speech waveform and synthesizes a second speech waveform using the analysis result is executed on a frame-by-frame basis. Analyzing the frequency with the function of extracting frequency components for each frequency channel and the phase difference amount in a predetermined number of previous frames between the first and second speech waveforms with reference to a predetermined frequency channel in the frequency channel A function of calculating and referring to the frequency component extracted by the function of extracting the phase of the second speech waveform in the current frame for each frequency channel in the form using the phase difference amount, The frequency component extracted by the function for calculating is converted for each frequency channel according to the phase calculated by the function for calculating, and the second audio waveform is converted using the frequency component after the conversion. A function of combining in frame units, to realize.
本発明は、第1の音声波形をフレーム単位で周波数分析して周波数チャンネル毎に周波数成分を抽出し、第1、及び第2の音声波形間の所定数前のフレームにおける位相較差量を、周波数チャンネルのなかの所定の周波数チャンネルを基準にして算出し、その位相較差量を用いる形で、現在のフレームにおける第2の音声波形の位相を周波数チャンネル毎に算出し、抽出した周波数成分を算出した位相に応じて周波数チャンネル毎に変換し、変換後の周波数成分を用いて、第2の音声波形をフレーム単位で合成する。 In the present invention, the first speech waveform is subjected to frequency analysis in units of frames, frequency components are extracted for each frequency channel, and a phase difference amount in a predetermined number of previous frames between the first and second speech waveforms is expressed as a frequency. Calculated with reference to a predetermined frequency channel in the channel, calculated the phase of the second audio waveform in the current frame for each frequency channel using the phase difference amount, and calculated the extracted frequency component Conversion is performed for each frequency channel according to the phase, and the second audio waveform is synthesized in units of frames using the converted frequency components.
第1、及び第2の音声波形間の所定数前のフレームにおける位相較差量を、所定の周波数チャンネルを基準にして構築することにより、第2の音声波形の各周波数チャンネルの位相は、所定の周波数チャンネルを基準として相対的に表されるものとすることができる。このため、各周波数チャンネルの位相関係は常に適切に保存することができ、それによって位相ズレ感を与える第2の音声波形の合成は回避することができる。その位相較差量は所定数前のフレームであることから、それより前の時点で周波数チャンネルの何れかに発生したエラーによる悪影響は回避、或いは低減される。それにより、常に良好な第2の音声波形をより確実に合成することができることとなる。 By constructing a phase difference amount in a predetermined number of previous frames between the first and second audio waveforms with reference to a predetermined frequency channel, the phase of each frequency channel of the second audio waveform is It can be expressed relative to the frequency channel. For this reason, the phase relationship between the frequency channels can always be properly preserved, thereby avoiding the synthesis of the second speech waveform that gives a sense of phase shift. Since the phase difference amount is a predetermined number of previous frames, adverse effects due to errors occurring in any of the frequency channels before that time are avoided or reduced. As a result, it is possible to synthesize the second sound waveform that is always good more reliably.
周波数チャンネル毎に抽出した周波数成分から第1の音声波形のフォルマントを抽出し、抽出したフォルマントをシフトする操作を周波数成分に対して行い、その操作を上記変換と併せて行った後の周波数成分を用いて第2の音声波形を合成するようにした場合には、第2の音声波形におけるフォルマントを任意にシフトできるようになる。そのシフトによって第1の音声波形におけるフォルマントを保存させることができるようになる。このため、第1の音声波形におけるフォルマントを保存させたときには、位相ズレ感を与えず、且つ自然と感じられる第2の音声波形を合成することができる。 The formant of the first speech waveform is extracted from the frequency component extracted for each frequency channel, the operation for shifting the extracted formant is performed on the frequency component, and the frequency component after performing the operation together with the above conversion is obtained. When the second speech waveform is synthesized by using it, the formant in the second speech waveform can be arbitrarily shifted. The shift allows the formant in the first speech waveform to be saved. For this reason, when the formant in the first speech waveform is stored, it is possible to synthesize the second speech waveform that does not give a sense of phase shift and feels natural.
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。
<第1の実施の形態>
図1は、第1の実施の形態による音声分析合成装置を搭載した電子楽器の構成図である。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<First Embodiment>
FIG. 1 is a configuration diagram of an electronic musical instrument equipped with a speech analysis / synthesis apparatus according to the first embodiment.
その電子楽器は、図1に示すように、楽器全体の制御を行うCPU1と、複数の鍵を備えた鍵盤2と、各種スイッチを備えたスイッチ部3と、CPU1が実行するプログラムや各種制御用データ等を格納したROM4と、CPU1のワーク用のRAM5と、例えば液晶表示装置(LCD)や複数のLEDなどを備えた表示部6と、特には図示しない端子に接続されたマイク7から入力されるアナログの音声信号のA/D変換を行いその音声データを出力するA/D変換器8と、CPU1の指示に従い楽音発音用の波形データを生成する楽音生成部9と、その生成部9が生成した波形データのD/A変換を行い、アナログのオーディオ信号を出力するD/A変換器10と、そのオーディオ信号の増幅を行うアンプ11と、そのアンプ11が増幅を行った後のオーディオ信号を音声に変換するスピーカ12と、を備えて構成されている。それらの構成において、CPU1、鍵盤2、スイッチ部3、ROM4、RAM5、表示部6、A/D変換器8、及び楽音生成部9の間はバスによって接続されている。なお、上記スイッチ部3は、例えばユーザが操作の対象とする各種スイッチの他に、各種スイッチの状態変化を検出するための検出回路を備えたものである。
As shown in FIG. 1, the electronic musical instrument includes a
上記構成の電子楽器において、本実施の形態による音声分析合成装置は、マイク7から入力した音声に対し、そのピッチ(音高)を指定されたピッチに変換(シフト)する音響効果を付与できるものとして実現されている。音声の入力は、外部記憶装置を介して行っても良く、LAN、或いは公衆網等の通信ネットワークを介して行っても良い。 In the electronic musical instrument having the above-described configuration, the speech analysis / synthesis apparatus according to the present embodiment can impart an acoustic effect to the speech input from the microphone 7 by converting (shifting) the pitch (pitch) to the designated pitch. It is realized as. Voice input may be performed via an external storage device, or via a communication network such as a LAN or a public network.
図2は、第1の実施の形態による音声分析合成装置の機能構成図である。
音響効果を付加した音声波形、つまりピッチをシフトした音声波形は、元の音声波形を周波数分析して周波数チャンネル毎に周波数成分(スペクトル成分)を抽出し、抽出した周波数成分をシフトし、そのシフト後の周波数成分を用いて合成(生成)するようになっている。そのために、以下のような機能構成を備えている。
FIG. 2 is a functional configuration diagram of the speech analysis / synthesis apparatus according to the first embodiment.
A voice waveform with added acoustic effects, that is, a pitch-shifted voice waveform, analyzes the frequency of the original voice waveform, extracts frequency components (spectral components) for each frequency channel, shifts the extracted frequency components, and shifts them. Synthesis (generation) is performed using the later frequency components. For this purpose, the following functional configuration is provided.
図2に示すA/D変換器(ADC)8は、マイク7から出力されたアナログの音声信号をデジタルの音声データに変換するものである。例えばサンプリング周波数22,050Hz、16bitでAD変換を行う。以降、それがAD変換して得られる音声データについては便宜的に「元音声データ」、或いは「元波形データ」と呼び、マイク7に入力された音声については「元音声」と呼ぶことにする。 An A / D converter (ADC) 8 shown in FIG. 2 converts an analog audio signal output from the microphone 7 into digital audio data. For example, AD conversion is performed at a sampling frequency of 22,050 Hz and 16 bits. Hereinafter, the voice data obtained by AD conversion will be referred to as “original voice data” or “original waveform data” for convenience, and the voice input to the microphone 7 will be referred to as “original voice”. .
入力バッファ21は、A/D変換器8が出力する元音声データを一時的に格納するバッファである。フレーム抽出部22は、入力バッファ21に格納された元音声データから予め定められたサイズ分の音声データであるフレームを切り出すことで抽出する。そのサイズ、つまり音声データ数は例えば1024である。正確な位相展開の実施にはフレームをオーバーラップさせて抽出する必要があることから、フレームの切り出しはオーバーラップファクタOVLでオーバーラップさせて行う。そのファクタOVLの値としては4を設定している。この場合、ホップサイズは256(1024/256=4)である。
The
フレーム抽出部22が抽出したフレームはローパスフィルタ(LPF)23に出力される。そのLPF23は、ピッチのシフトにより周波数成分がナイキスト周波数を超えることを防止するために高周波成分の除去を行う。ピッチシフタ24は、ピッチスケーリングファクタρの値に応じて、LPF23から入力したフレームに対して補間、或いは間引きを行い、そのピッチをシフトする。補間、間引きには一般的なラグランジュ関数やsinc関数などが使用できるが、本実施の形態ではNeville補間によりピッチシフト(ピッチスケーリング)を行っている。
The frame extracted by the
FFT部25は、ピッチシフト後のフレームを対象にFFTを実行する。タイムスケーリング部26は、FFTの実行により得られた各周波数チャンネルの周波数成分を対象にして、合成音声のフレームの位相を算出するタイムスケーリングを行う。IFFT部27は、タイムスケーリング実施後の各周波数チャンネルの周波数成分を、IFFT(逆FFT)を行うことにより時間座標上のデータに戻し、1フレーム分の音声データを生成して出力する。その音声データについては以降「合成音声データ」と呼び、それによって発音される音声を「合成音声」と呼ぶことにする。FFT部25、タイムスケーリング部26、及びIFFT部27はフェーズボコーダを構成している。
The
出力バッファ29は、音声としてスピーカ12から放音させる合成音声データを格納するバッファである。フレーム加算部28は、IFFT部27から入力した1フレーム分の合成音声データを、出力バッファ29に格納された合成音声データにオーバーラップさせて加算する。出力バッファ29に格納された合成音声データは、D/A変換器(DAC)10に出力されてD/A変換される。
The
スケーリングファクタρの値が2であった場合、つまりピッチを2倍にする場合、ピッチシフタ24では間引きを行い、フレームサイズを1/2にする。このため、オーバーラップファクタOVLの値が同じならば、出力バッファ29に格納される合成音声波形のサイズは元の合成音声波形のサイズの約1/2となる。このことから、図6に示すように、合成音声波形はオーバーラップファクタOVLの値を1/2にした値(ここでは2である)で直前フレームにオーバーラップ加算されることになる。
When the value of the scaling factor ρ is 2, that is, when the pitch is doubled, the
上記入力バッファ21、及び出力バッファ29は、例えばRAM5に確保された領域である。A/D変換器8、D/A変換器10、入力バッファ21、及び出力バッファ29を除く各部22〜28は、例えばRAM5をワーク用にして、CPU1がROM4に格納されたプログラムを実行することで実現される。特に詳細な説明は省略するが、ピッチのシフト量は例えば鍵盤2への操作により指示し、タイムスケーリングの程度はスイッチ部3の所定のスイッチへの操作により指示するようになっている。
The
本実施の形態では、合成音声における各周波数チャンネルの位相θ'は下記の式により算出する。
θ'i,k=(ΔΘi,k/ΔΘi,B)(θ'i-1,B−θi-1,B)
+(ρ−1)ΔΘi,k+θi,k ・・・ (18)
(18)式において、下添字として表記したBは最も波長の長い、すなわち最も低い周波数成分が存在するチャンネルを示している。(18)式右辺第1項は、チャンネルBを基準にして、1フレーム前のフレームi−1までに生じた元音声と合成音声間の位相較差(変化)量を示している。その第2項は、その直前フレームi−1から現在のフレームiに移行する間(以降、便宜的に「直前フレーム間」と呼ぶ)に発生する元音声と合成音声間の位相較差量を示している。このことから、(18)式は、それら位相較差量を現フレームiでの位相θに加算することで合成音声における各チャンネルの位相θ' を求めることを示している。
In the present embodiment, the phase θ ′ of each frequency channel in the synthesized speech is calculated by the following equation.
θ ′ i, k = (ΔΘ i, k / ΔΘ i, B ) (θ ′ i−1, B −θ i−1, B )
+ (Ρ−1) ΔΘ i, k + θ i, k (18)
In the equation (18), B indicated as a subscript indicates a channel having the longest wavelength, that is, the lowest frequency component. The first term on the right side of equation (18) indicates the amount of phase difference (change) between the original speech and the synthesized speech that occurred up to frame i-1 one frame before, with reference to channel B. The second term indicates the phase difference between the original speech and the synthesized speech that occurs during the transition from the immediately preceding frame i-1 to the current frame i (hereinafter referred to as “between the immediately preceding frames” for convenience). ing. From this, equation (18) indicates that the phase θ ′ of each channel in the synthesized speech is obtained by adding these phase difference amounts to the phase θ in the current frame i.
(18)式右辺第1項はVPCを保存するための項、その第2項はHPCを保存するための項となっている。ここで、それらが保存されることを具体的に説明する。
位相θ[rad]を角速度ω[rad/sec]で除算すると、その単位は時間[sec]となる。さらに音速ν[m/sec]を乗算すれば単位は距離[m]となる。この距離を位相(位相差を含む)の表現に用いて説明することとする。
The first term on the right side of equation (18) is a term for storing VPC, and the second term is a term for storing HPC. Here, it demonstrates concretely that they are preserve | saved.
When the phase θ [rad] is divided by the angular velocity ω [rad / sec], the unit is time [sec]. Furthermore, if the speed of sound ν [m / sec] is multiplied, the unit becomes the distance [m]. This distance will be described using the expression of phase (including phase difference).
図3、及び図4は、VPCを説明する図である。図3、及び図4において、波形A(基準音)は時刻T1〜T2間、時刻T2〜T3間にそれぞれ位相がπ変化する周波数の波形である。それにより、その間に対応する距離は、波形Aの波長λの1/2(=λ/2)となる。波形Bはその波形Aの1.5倍の周波数の波形、波形Cはその波形Aの2倍の周波数の波形である。それら時刻T1〜T3は、波形上の位置や位相変化などを説明するために便宜的に付したものである。 3 and 4 are diagrams for explaining the VPC. 3 and 4, a waveform A (reference sound) is a waveform having a frequency at which the phase changes by π between times T 1 and T 2 and between times T 2 and T 3 . Thereby, the corresponding distance between them is ½ (= λ / 2) of the wavelength λ of the waveform A. Waveform B is a waveform having a frequency 1.5 times that of waveform A, and waveform C is a waveform having a frequency twice that of waveform A. These times T 1 to T 3 are given for convenience in order to explain the position on the waveform, phase change, and the like.
図3では、時刻T2を基準点にして、各波形A〜Cの位相を距離で示している。波形Aの位相は、基準点から正方向に距離ΨAだけ離れた位置に存在し、同様に波形Bは基準点から負方向に距離ΨB、波形Cは基準点から正方向に距離ΨCだけ離れた位置にそれぞれ存在していることを示している。それらの距離は、位相から求められる。その位相はarctanにより求めるため、畳まれている。それにより、何れの距離も1波長を超えない長さとなっている。 In FIG. 3, the phases of the waveforms A to C are indicated by distances with the time T 2 as a reference point. The phase of the waveform A exists at a position away from the reference point in the positive direction by a distance ψA. Similarly, the waveform B is away from the reference point in the negative direction ψB, and the waveform C is away from the reference point in the positive direction by a distance ψC. It shows that it exists in each position. Their distance is determined from the phase. The phase is folded to obtain arctan. As a result, any distance has a length that does not exceed one wavelength.
図3中の「ΔΨBA」「ΔΨCA」はそれぞれ波長Bと波長A間、波長Cと波長A間における相対的な位相の距離(相対位相距離)を示している。従って、ΔΨBA=ΨB−ΨA、ΔΨCA=ΨC−ΨA、により求められる。 “ΔψBA” and “ΔψCA” in FIG. 3 indicate relative phase distances (relative phase distances) between the wavelength B and the wavelength A and between the wavelength C and the wavelength A, respectively. Accordingly, ΔΨBA = ΨB−ΨA and ΔΨCA = ΨC−ΨA.
VPCは、そのような相対位相距離を適切に保存することに対応する。具体的には図4に示すように、時間の経過によって波形Aの距離ΨAが位置P0から位置P1に距離ΔPだけ移動した場合、他の波形B、Cにおいても距離ΨB、ΨCをそれに追随してそれぞれ距離ΔPだけ同じ移動方向に移動させ、波形Aとの相対位相距離を保存・維持することに対応する。 VPC corresponds to properly storing such relative phase distances. Specifically, as shown in FIG. 4, when the distance ΨA of the waveform A moves from the position P0 to the position P1 by the distance ΔP as time passes, the other waveforms B and C follow the distances ΨB and ΨC. This corresponds to storing and maintaining the relative phase distance with respect to the waveform A by moving the distance ΔP in the same moving direction.
そのように相対位相距離を保存するように位相を算出することにより、VPCは保存される。その結果、phasiness、reverbrantなどによる位相ズレ感を与える合成音声データの合成は常に確実に回避することができる。 By calculating the phase so that the relative phase distance is preserved, the VPC is preserved. As a result, synthesis of synthesized speech data that gives a phase shift feeling due to phases, reverbrant, etc. can always be reliably avoided.
距離の移動では、位相はarctanにより求めるため、その移動範囲は1波長内に収める必要がある。つまり、元音声の位相と合成音声の位相間の距離を計算する際にその位相は折り畳まれている必要がある。 When the distance is moved, the phase is obtained by arctan, and therefore the moving range needs to be within one wavelength. That is, when calculating the distance between the phase of the original speech and the phase of the synthesized speech, the phase needs to be folded.
今、図4において、波形Aの距離が1波長λ分、移動してそのまま巡回せずに次の波長区間に移ったとする。1波長λ分の移動であるから、波形Aの折り畳んだ位相は前と同じである。波形Aの2倍音である波形Cにおいても同様である。しかしながら、1.5倍音である波形Bでは、前と同じ位相とはならない。角度で表現すると、1波長λ分の移動は波形Aでは360度、波形Cでは720度の位相の変化にそれぞれ相当するから折り畳んだ位相は移動前と同じとなるが、波形Bでは540度の位相の変化に相当することから同じとはならない。 In FIG. 4, it is assumed that the distance of the waveform A moves by one wavelength λ and moves to the next wavelength section without going around as it is. Since the movement is one wavelength λ, the folded phase of the waveform A is the same as before. The same applies to waveform C, which is a second overtone of waveform A. However, the waveform B, which is 1.5 harmonics, does not have the same phase as before. Expressed in terms of angle, movement for one wavelength λ corresponds to a change in phase of 360 degrees in waveform A and 720 degrees in waveform C, so the folded phase is the same as before movement, but in waveform B, it is 540 degrees. It is not the same because it corresponds to a phase change.
そのように、基準とする波形(基準波形)の整数音倍とそれ以外の波形とでは、異なる波長区間では異なる位相距離関係となることから、移動範囲を1波長内に収めないことで距離の移動を巡回させない場合、基準波形の整数倍音以外の波形では相対位相距離を常に正確に維持させることができなくなる。それにより、位相距離関係を適切に保存するためには基準波形の1波長内で位相の移動を巡回させることが必要となる。この制約を設けることにより、調波構造を持った波形だけでなく、ノイズや複数の音が混じった一般的な音声にも適用できることとなる。 As described above, since the integral tone multiple of the reference waveform (reference waveform) and other waveforms have different phase distance relationships in different wavelength sections, the distance of movement can be reduced by keeping the moving range within one wavelength. If the movement is not circulated, the relative phase distance cannot always be accurately maintained in waveforms other than the integer overtones of the reference waveform. Accordingly, in order to appropriately preserve the phase distance relationship, it is necessary to cycle the phase shift within one wavelength of the reference waveform. By providing this restriction, the present invention can be applied not only to a waveform having a harmonic structure but also to a general voice in which noise and a plurality of sounds are mixed.
同様の理由により、基準波形よりも波長の長い(周波数の低い)波形が存在していると、適切な位相距離関係を常に保存できなくなる。これは長波長の波形の距離が基準波形の1波長を越えた別の波長区間に存在することがありうるためである。このため、基準波形とするチャンネルは最低の周波数成分が存在するチャンネルに設定する必要がある。上記チャンネルBは最低の周波数成分が存在するチャンネルである。 For the same reason, if there is a waveform having a longer wavelength (lower frequency) than the reference waveform, an appropriate phase distance relationship cannot always be preserved. This is because the distance of the long wavelength waveform may exist in another wavelength section exceeding one wavelength of the reference waveform. For this reason, it is necessary to set the channel as the reference waveform to a channel having the lowest frequency component. The channel B is a channel in which the lowest frequency component exists.
(18)式右辺第1項を変形すると When the first term on the right side of equation (18) is transformed
となる。(19)式中の括弧内は基準とするチャンネルであるチャンネルBにおける位相の移動距離を示し、図4中の距離ΔPに相当する。VPCを保存するためには、全てのチャンネルで位相をこの距離ΔP分、移動させれば良い。距離ΔPからの位相の算出は、音速νで除算後、角速度ωを乗算することで行うことができる。(19)式の括弧の前の項がその計算を実行するためのものである。 It becomes. The parentheses in the equation (19) indicate the phase movement distance in channel B, which is the reference channel, and correspond to the distance ΔP in FIG. In order to save the VPC, the phase may be moved by this distance ΔP in all channels. The calculation of the phase from the distance ΔP can be performed by dividing by the sound velocity ν and then multiplying by the angular velocity ω. The term before the parentheses in the equation (19) is for executing the calculation.
(18)式右辺第1項は、単純に直前フレームにおける折り畳みされたチャンネルB(基準波形)での位相の変化量に、チャンネルBと各チャンネルとの周波数比を乗算して各チャンネルの位相変化量を算出していると考えても良い。この項により、上述したように直前フレームまでのVPCが保存される。 The first term on the right side of equation (18) is simply the phase change of each channel by multiplying the amount of phase change in channel B (reference waveform) folded in the previous frame by the frequency ratio between channel B and each channel. It may be considered that the amount is calculated. With this term, the VPC up to the immediately preceding frame is stored as described above.
(18)式右辺第2項は分解すると、(16)式より
(ρ−1)ΔΘi,k=ρΔΘi,k−ΔΘi,k=ΔΘ'i,k−ΔΘi,k ・・・ (20)
と表すことができる。その第2項が示すのは直前フレーム間で発生する位相の変化量である。この項により、直前フレームから現フレームまでのHPCが保存される。その項と第1項の加算値は元音声と合成音声の間における現フレームまでの位相の変化量である。従って、その加算値を現フレームの位相θに加算すれば合成音声の位相θ'が算出される。
When the second term on the right side of equation (18) is decomposed, from equation (16), (ρ−1) ΔΘ i, k = ρΔΘ i, k −ΔΘ i, k = ΔΘ ′ i, k −ΔΘ i, k. (20)
It can be expressed as. The second term indicates the amount of phase change that occurs between the immediately preceding frames. This section stores the HPC from the previous frame to the current frame. The added value of the term and the first term is the amount of change in phase between the original speech and the synthesized speech up to the current frame. Therefore, if the added value is added to the phase θ of the current frame, the phase θ ′ of the synthesized speech is calculated.
(18)式による位相θ'の算出は、現フレーム、及び直前のフレームで取得されるスケーリング前の値を基準にして行うことができる。このため、たとえ位相を求めるうえでのエラーが何れかのチャンネルで発生しても、そのエラーが以降のフレームにおける位相θ'の算出に及ぼす悪影響が回避、或いは低減される。その理由からも、常に良好な合成音声データをより確実に合成することができることとなる。 The calculation of the phase θ ′ by the equation (18) can be performed with reference to values before scaling acquired in the current frame and the immediately preceding frame. For this reason, even if an error in obtaining the phase occurs in any of the channels, the adverse effect of the error on the calculation of the phase θ ′ in the subsequent frames is avoided or reduced. For this reason as well, it is always possible to synthesize better synthesized speech data more reliably.
図5は、本実施の形態における周波数チャンネル間の位相関係を説明する図である。(18)式により各チャンネルの位相θ'i,kを求める本実施の形態でのチャンネル間の位相関係は図5(c)、(1)式によりその位相θ'i,kを求める従来例でのチャンネル間の位相関係は図5(b)にそれぞれ示してある。そのチャンネル間の位相関係は、基準波形、その2倍音波形を例にとって、図5(a)の位相関係から変化した後のフレームにおける状態を示してある。 FIG. 5 is a diagram for explaining the phase relationship between frequency channels in the present embodiment. The phase relationship between the channels in this embodiment for obtaining the phase θ ′ i, k of each channel by the equation (18) is the conventional example in which the phase θ ′ i, k is obtained by the equation (1) in FIG. The phase relationship between the channels is shown in FIG. 5 (b). The phase relationship between the channels shows the state in the frame after changing from the phase relationship of FIG. 5A, taking the reference waveform and its doubled sound waveform as an example.
(1)式では、位相θ'i,kは個別に独立して求めることから、図5(b)に示すように、基準波形のフレームにおける位相θ'αに対応する距離、及び方向は、2倍音波形のフレームにおける位相θ'βに対応する距離、及び方向と必ずしも一致しない。それにより、チャンネル間の位相ズレは各チャンネルで求める位相θ'に応じて不適切に蓄積されることになって、チャンネル間の位相関係であるVPCは保存されない。 In the equation (1), since the phase θ ′ i, k is obtained individually and independently, as shown in FIG. 5B, the distance and direction corresponding to the phase θ′α in the frame of the reference waveform are It does not necessarily match the distance and direction corresponding to the phase θ′β in the double sound wave frame. As a result, the phase shift between the channels is improperly stored according to the phase θ ′ obtained for each channel, and the VPC that is the phase relationship between the channels is not stored.
これに対し、本実施の形態では、図5(c)に示すように、2倍音波形のフレームにおける位相θ'βは基準波形の直前フレームにおける位相θ'αに合わせて求められる。それにより、それらの位相に対応する距離、及び方向は一致させている。そのようにして、基準波形を基準にフレームにおける元音声と合成音声間の位相較差量を算出するため、各チャンネルで求める位相θ'は適切な位相関係を保存したものとなり、VPCは保存されることとなる。 On the other hand, in the present embodiment, as shown in FIG. 5C, the phase θ′β in the double sound waveform frame is obtained in accordance with the phase θ′α in the immediately preceding frame of the reference waveform. Thereby, the distance and direction corresponding to those phases are matched. In this way, the phase difference between the original speech and the synthesized speech in the frame is calculated based on the reference waveform, so that the phase θ ′ obtained in each channel stores the appropriate phase relationship, and the VPC is stored. It will be.
本実施の形態による音声分析合成装置は、上述したようにして、VPC、及びHPCを常に保存することにより、位相ズレ感を与えない合成音声データを合成し、スピーカ12から放音させるものとして実現されている。以降は、その音声分析合成装置を実現させる電子楽器の動作について、図7、及び図8に示す各種フローチャートを参照して詳細に説明する。
As described above, the voice analysis / synthesis apparatus according to the present embodiment synthesizes synthesized voice data that does not give a sense of phase shift by constantly storing the VPC and HPC, and realizes the sound to be emitted from the
図7は、全体処理のフローチャートである。始めに図7を参照して、その全体処理について詳細に説明する。なお、その全体処理は、CPU1が、ROM4に格納されたプログラムを実行して電子楽器のリソースを使用することにより実現される。
FIG. 7 is a flowchart of the entire process. First, the entire process will be described in detail with reference to FIG. Note that the overall processing is realized by the
先ず、ステップ701では、電源がオンされたことに伴い、初期化処理を実行する。続くステップ702では、スイッチ部3を構成するスイッチへのユーザの操作に対応するためのスイッチ処理を実行する。そのスイッチ処理は、例えばスイッチ部3を構成する検出回路に各種スイッチの状態を検出させてその検出結果を受け取り、その検出結果を解析して状態が変化したスイッチの種類、及びその変化を特定して行われる。
First, in
ステップ702に続くステップ703では、鍵盤2へのユーザの操作に対応するための鍵盤処理を実行する。その鍵盤処理を実行することにより、鍵盤2への演奏操作に応じて楽音がスピーカ12から放音される。ステップ704にはその後に移行する。
In
ステップ704では、A/D変換器8から元音声データが出力されるサンプリングタイミングか否か判定する。そのタイミングであった場合、判定はYESとなり、ステップ705でその元音声データをRAM5上の入力バッファ21に書き込んだ後、ステップ706に移行する。そうでない場合には、判定はNOとなってステップ710に移行する。
In
ステップ706では、フレーム抽出タイミングか否か判定する。前回そのタイミングとなってからホップサイズ分の元音声データをサンプリングする時間が経過した場合、判定はYESとなってステップ707に移行する。そうでない場合には、判定はNOとなって上記ステップ710に移行する。
In
ステップ707では、入力バッファ21に格納された元音声データを1フレーム分、抽出し、抽出したフレームに対して、高周波成分を除去するLPF処理、補間、或いは間引きによるピッチシフト、及びFFTを順次、行う。次のステップ708では、FFTによって得られる各チャンネルの周波数成分を対象に、合成音声のフレームの位相を算出するためのタイムスケーリング処理を実行する。その実行後はステップ709に移行して、タイムスケーリング処理を実施した各チャンネルの周波数成分を対象にしたIFFT、そのIFFTにより得られる1フレーム分の合成音声データをRAM5上の出力バッファ29に格納された合成音声データにオーバーラップ加算を行う。ステップ710にはその後に移行する。
In
図2に示すフレーム抽出部22、LPF23、ピッチシフタ24、及びFFT部25は、上記ステップ707の処理を実行することで実現される。タイムスケーリング部26は、ステップ708の処理を実行することで実現される。IFFT部27、及びフレーム加算部28は、ステップ709の処理を実行することで実現される。
The
ステップ710では、1サンプリング分の合成音声データを出力すべきタイミングか否か判定する。そのタイミングであった場合、判定はYESとなり、次にステップ711で出力すべき合成音声データを出力バッファ29から読み出して楽音生成部9を介しD/A変換器10に送出し、更にステップ712でその他処理を実行した後、上記ステップ702に戻る。そうでない場合には、判定はNOとなり、次にステップ712の処理を実行する。
In
合成された合成音声データは楽音生成部9を介してD/A変換器10に送られる。このことから、楽音生成部9には、自身が生成した楽音の波形データを他から入力したデータとミックスする機能が搭載されている。
The synthesized synthesized voice data is sent to the D /
図8は、上記ステップ708として実行されるタイムスケーリング処理のフローチャートである。次に図8を参照して、そのスケーリング処理について詳細に説明する。そのスケーリング処理には、FFTを行うことで得られた各周波数チャンネルの周波数成分が渡される。その周波数成分は、上述したように、実数部と虚数部からなる。図2に示すタイムスケーリング部26は、このスケーリング処理を実行することで実現される。
FIG. 8 is a flowchart of the time scaling process executed as
先ず、ステップ801では、注目する周波数チャンネルを管理するための変数kに0を代入する。次のステップ802では、変数kの値で指定されるチャンネルの周波数成分から周波数振幅を計算する。その計算は、周波数成分の実数部をreal、虚数部をimgと表記すると、周波数振幅magは
mag=(real2+img2)1/2 ・・・ (21)
により計算される。
First, in
Is calculated by
ステップ802に続くステップ803では、その周波数成分から位相を計算する。その位相をphase(=θ)と表記すると
phase=arctan(img/real) ・・・ (22)
により計算される。この位相phaseは折り畳まれたものである。それを計算した後はステップ804に移行する。
In
Is calculated by This phase phase is folded. After the calculation, the process proceeds to step 804.
ステップ804では、周波数成分が存在するチャンネルをサーチするために周波数振幅magのピーク(peak)検出を実行する。より精細なピーク検出は別に実行することから、ここでは粗い検出を実行する。具体的には前後4チャンネルの周波数振幅magより周波数振幅magが大きいチャンネルをピークとして検出し登録する。
In
ステップ804の次に移行するステップ805では、直前フレーム間(現フレームと直前のフレーム間)の位相差分Δθを(4)式により算出する。続くステップ806では、折り畳まれている位相差分Δθを位相展開して位相差分ΔΘを求める。その位相展開は(10)式により行う。その位相展開後はステップ807に移行する。
In
ステップ807では、変数kの値をインクリメントする。次のステップ808では、変数kの値がFFT点数Nより小さいか否か判定する。全ての周波数チャンネルで周波数振幅mag等の計算を行った場合、その関係が満たされなくなることから、判定はNOとなってステップ809に移行し、そうでない場合には、判定はYESとなって上記ステップ802に戻る。それにより、全ての周波数チャンネルで周波数振幅mag等の計算を行うまでの間、ステップ802〜808で形成される処理ループを繰り返し行う。
In
ステップ809では、ステップ804の処理より精細にピーク検出を実行し、ピークのチャンネルを絞り込む。これは例えば、ピークの前後で周波数振幅magが最小となるチャンネルを抽出し、そのチャンネルの周波数振幅magがピークチャンネルの周波数振幅magの−14db以下となっているものを正式なピークとして特定することで行う。その判定の基準とする−14dbはハニング窓の振幅特性から設定したものである。
In
(18)式は
θ'i,k=ΔΘi,k((θ'i-1,B−θi-1,B)/ΔΘi,B+(ρ−1))
+θi,k ・・・ (23)
と変形することができる。
The equation (18) is θ ′ i, k = ΔΘ i, k ((θ ′ i−1, B −θ i−1, B ) / ΔΘ i, B + (ρ−1))
+ Θ i, k (23)
And can be transformed.
(23)式右辺にシンボルとして示す項は何れも、ステップ808の判定がNOとなった段階で全て用意されることになる。その判定となって移行するステップ809でのピーク検出は、チャンネルBを選択するために実施している。このことから、ステップ809に続くステップ810では、そのステップ809で検出したピークのなかで最低の周波数のチャンネルをチャンネルBとして採用し、チャンネル毎に(23)式を用いて合成音声の位相θ'を算出する。
All the terms shown as symbols on the right side of equation (23) are prepared when the determination in
ステップ803、810での計算結果は、次のフレームまでは少なくとも保存される。それにより、ステップ808の判定がNOとなった段階で(23)式右辺にシンボルとして示す項は全て用意されることになる。
The calculation results in
上記タイムスケーリング処理の実行後に移行する図7のステップ709では、ステップ810で求めた位相θ'に従って各周波数チャンネルの周波数成分を操作した後、IFFTを行う。その操作は、例えば周波数振幅magを変更せずに、実数部real、虚数部imgの値を変更して、それらから求められる位相がその位相θ'と一致するように行う。そのような操作を行うことにより、各周波数チャンネルはステップ810で求めた位相θ'を持つ合成波形が合成されることとなる。
In
なお、本実施の形態では、ピッチスケーリングと併せてタイムスケーリングを行うようになっているが、タイムスケーリングのみを行うようにしても良い。音声としては、合成音声データによる合成音声のみを放音させるようにしているが、その元である元音声を放音できるようにしても良い。或いはそれらを共に放音できるようにしても良い。そのようにした場合には、元音声のピッチをシフトして合成音声データの合成を行うことにより、ハーモニー効果を付加した音声を放音させることができる。シフト量の異なる合成音データを複数、合成したときには、コード構成音を付加したような音声を放音させることができるようになる。これらは、例えば出力バッファ29に格納された合成音声データを、入力バッファ21に格納された元音声データと加算してD/A変換器10に送出することで実現させることができる。
In the present embodiment, time scaling is performed together with pitch scaling, but only time scaling may be performed. As the voice, only the synthesized voice based on the synthesized voice data is emitted, but the original voice that is the source may be emitted. Alternatively, they may be emitted together. In such a case, the synthesized voice data is synthesized by shifting the pitch of the original voice, so that the voice added with the harmony effect can be emitted. When a plurality of synthesized sound data having different shift amounts are synthesized, it is possible to emit a sound with a chord constituent sound added. These can be realized, for example, by adding the synthesized voice data stored in the
基準とするチャンネルBの検出・決定は、ピークとして抽出されたチャンネルのなかで最低周波数のチャンネルを探すことで行うようにしているが、それ以外の方法を用いてチャンネルBを決定するようにしても良い。
<第2の実施の形態>
ピッチスケーリングでピッチシフトを行うと、そのピッチシフトに伴って合成音声のフォルマントの位置(周波数)は元音声とは異なる位置に移動する。その移動は、合成音声を不自然なものとするのが普通である。このことから、第2の実施の形態は、元音声のフォルマントを保存する形でピッチスケーリング(ピッチシフト)を行うことにより、より自然と感じられる合成音声を生成できるようにしたものである。
The reference channel B is detected and determined by searching for the lowest frequency channel among the channels extracted as a peak. However, the channel B is determined by using other methods. Also good.
<Second Embodiment>
When pitch shifting is performed by pitch scaling, the position (frequency) of the formant of the synthesized speech moves to a position different from that of the original speech along with the pitch shifting. The movement usually makes the synthesized speech unnatural. Therefore, in the second embodiment, synthesized speech that feels more natural can be generated by performing pitch scaling (pitch shift) while preserving the formant of the original speech.
第2の実施の形態による音声分析合成装置は、第1の実施の形態と同様に、電子楽器に搭載されたものである。その電子楽器の構成は、第1の実施の形態による音声分析合成装置が搭載されたものと基本的に同じである。第2の実施の形態による音声分析合成装置の機能構成は、第1の実施の形態におけるそれと大部分が基本的に同じである。このようなことから、第1の実施の形態と基本的に同じものにはその第1の実施の形態で付した符号をそのまま用いつつ、第1の実施の形態から異なる部分についてのみ説明する。 The speech analysis / synthesis apparatus according to the second embodiment is mounted on an electronic musical instrument, as in the first embodiment. The configuration of the electronic musical instrument is basically the same as that equipped with the speech analysis / synthesis apparatus according to the first embodiment. The functional configuration of the speech analysis / synthesis apparatus according to the second embodiment is basically the same as that in the first embodiment. For this reason, the same reference numerals as those in the first embodiment are used as they are for the same components as those in the first embodiment, and only different portions from the first embodiment will be described.
図9は、第2の実施の形態による音声分析合成装置の機能構成図である。
第2の実施の形態では、LPF23によって高周波成分が除去されたフレームはFFT部25に入力される。それにより、タイムスケーリング部26は、ピッチをシフトする前のフレームからFFTの実行により得られる各周波数チャンネルの周波数成分を対象にタイムスケーリングを行う。
FIG. 9 is a functional configuration diagram of the speech analysis / synthesis apparatus according to the second embodiment.
In the second embodiment, the frame from which the high frequency component has been removed by the
ピッチスケーリングファクタρの値がaであれば、ピッチシフトにより周波数はa倍され、逆に1フレーム分の音声データ(フレームサイズ)は1/a倍となる。第2の実施の形態では、最終的に得られる1フレーム分の音声データ(合成音声データ)が元のままとなるように、1フレーム分の元音声データをa倍にするためのタイムスケーリングをピッチシフトの前に行っている。タイムスケーリングを行った後の各周波数チャンネルの周波数成分はフォルマントシフト部91に送られる。 If the value of the pitch scaling factor ρ is a, the frequency is multiplied by a by the pitch shift, and conversely, the audio data (frame size) for one frame is 1 / a times. In the second embodiment, time scaling for multiplying the original audio data for one frame by a is performed so that the audio data (synthesized audio data) for one frame that is finally obtained remains unchanged. This is done before the pitch shift. The frequency component of each frequency channel after time scaling is sent to the formant shift unit 91.
フォルマントシフト部91は、ピッチシフトに伴うフォルマントのシフトを補償するため、そのピッチシフトに伴うシフトを打ち消すようにフォルマントを予めシフトさせるものである。ピッチスケーリングファクタρの値がaであれば、フォルマントを1/aだけシフトさせる。そのための操作を行った後の各周波数チャンネルの周波数成分がIFFT部27に送られ、逆FFTにより時間座標上のデータに戻される。
The formant shift unit 91 preliminarily shifts the formant so as to cancel the shift accompanying the pitch shift in order to compensate the formant shift accompanying the pitch shift. If the value of the pitch scaling factor ρ is a, the formant is shifted by 1 / a. The frequency component of each frequency channel after performing the operation for that is sent to the
そのようにして時間座標上のデータに戻された音声データは、タイムスケーリング部26が行うタイムスケーリングにより、ピッチスケーリングファクタρの値に応じて1フレーム分のデータ数が元のそれとは異なっている。ピッチシフタ24は、そのような音声データに対し、ピッチスケーリングファクタρの値に応じた補間、或いは間引きを行い、ピッチをシフトさせる。そのため、補間、或いは間引き後の1フレーム分の音声データは、最終的に元のまま、つまり元音声データのフレームサイズと同じとなる。補間、或いは間引き後の音声データが合成音声データとしてフレーム加算部28に送られる。その合成音声データでは、元音声データのフォルマントが保存されているため、聴感上、位相ズレ感を与えないとともに、自然なものとなる。
The audio data thus restored to the data on the time coordinate is different from the original number of data for one frame according to the value of the pitch scaling factor ρ due to the time scaling performed by the
図10は、第2の実施の形態における全体処理のフローチャートである。次に図10を参照して、その全体処理について詳細に説明する。
その図10では、第1の実施の形態(図7)と基本的に処理内容が同じ処理ステップには同一の符号を付してある。ここでは、第1の実施の形態から異なる部分にのみ着目する形で説明する。
FIG. 10 is a flowchart of overall processing in the second embodiment. Next, the entire process will be described in detail with reference to FIG.
In FIG. 10, the same reference numerals are assigned to the processing steps that are basically the same in the processing content as in the first embodiment (FIG. 7). Here, a description will be given in the form of paying attention only to a different part from the first embodiment.
第2の実施の形態では、ステップ706の判定がYESとなるとステップ1001に移行する。そのステップ1001では、入力バッファ21に格納された元音声データを1フレーム分、抽出し、抽出したフレームに対して、高周波成分を除去するLPF処理、及びFFTを順次、行う。FFTを行った後はステップ708に移行して、図8に示すタイムスケーリング処理を実行する。その実行後にはステップ1002に移行する。
In the second embodiment, when the determination in
ステップ1002では、元音声のフォルマントを保存させるためにそのフォルマントを移動させるフォルマント移動処理を実行する。続くステップ1003では、フォルマント移動処理の実行により操作した後の各チャンネルの周波数成分を対象にしたIFFT、そのIFFTにより得られる1フレーム分の音声データを対象にした補間、或いは間引きによるピッチシフトを行い、そのピッチシフトにより得られた1フレーム分の合成音声データを、RAM5上の出力バッファ29に格納された合成音声データにオーバーラップ加算する。その後はステップ710に移行する。
In
第2の実施の形態では、ピッチシフタ24はステップ1003を実行することで実現される。フォルマントシフト部91は、ステップ1002を実行することで実現される。
図11は、上記ステップ1002として実行されるフォルマント移動処理のフローチャートである。次に図11を参照して、その移動処理について詳細に説明する。
In the second embodiment, the
FIG. 11 is a flowchart of the formant movement process executed as
先ず、ステップ1101では、各チャンネルの周波数振幅mag((21)式)からtilt成分を除去する。
一般的に音声信号からフォルマントによる共振周波数の影響を取り除いて得られる残差信号、すなわち声帯音源信号の周波数特性は周波数が高くなるほどなだらかに減衰する傾きであることが知られている。その傾きがtilt成分と呼ばれる。それにより、音声信号の周波数特性はこのtilt成分とフォルマントによる共振周波数の特性が重畳されたものとなっている。このようなことから、フォルマント成分のみを抽出する場合は、tilt成分を除去する必要がある。
First, in
In general, it is known that the residual signal obtained by removing the influence of the resonance frequency due to formants from an audio signal, that is, the frequency characteristic of the vocal cord sound source signal, has a slope that gradually attenuates as the frequency increases. The inclination is called a tilt component. As a result, the frequency characteristics of the audio signal are such that the characteristics of the resonance frequency due to the tilt component and formants are superimposed. For this reason, when extracting only the formant component, it is necessary to remove the tilt component.
tilt成分は、上述したように、声帯音源信号の周波数特性は周波数が高くなるほどなだらかに減衰する傾きであるのが普通である。このことから、音声データを一次程度の通過特性のハイパスフィルタ(HPF)に通せば良い。FFTを行った後では、各チャンネルの周波数振幅magに対する乗算として処理することができる。各チャンネルの周波数振幅magに乗算する値としては、例えば1/4周期のsin波を想定した値を採用することができる。 As described above, the tilt component generally has a slope in which the frequency characteristic of the vocal cord sound source signal is gradually attenuated as the frequency increases. For this reason, the audio data may be passed through a high-pass filter (HPF) having a pass characteristic of about the first order. After performing FFT, it can process as multiplication with respect to the frequency amplitude mag of each channel. As a value to be multiplied by the frequency amplitude mag of each channel, for example, a value assuming a sine wave having a quarter period can be employed.
フォルマントを移動させた場合、周波数成分が存在するチャンネルからの漏れ出し成分やノイズ成分をフォルマントの移動によって強調してしまう可能性がある。そのような強調を行うと、ノイズの多い音声、或いは不自然な音声を合成してしまうことになる。このことから、上記のようにしてtilt成分を除去した後に移行するステップ1102では、一定値以下の周波数振幅magはノイズと見なし、その振幅magをより小さくさせる操作を行う。
When the formant is moved, there is a possibility that the leakage component and noise component from the channel where the frequency component exists are emphasized by the movement of the formant. When such enhancement is performed, a noisy voice or an unnatural voice is synthesized. For this reason, in
本実施の形態では、周波数振幅magの最大値に対し、−58db以下となっている周波数振幅magを更に−26db減衰(低減)させる操作を行っている。それにより、一定値以下の周波数振幅magを全て0.05倍している。この操作を前処理として行うことにより、フォルマントをシフトしてもノイズ等を強調することは回避され、良好な結果を確実に得ることができる。そのように前処理を行うのは、つまり一定値以下の周波数振幅magを全て0にしないのは、そのような周波数振幅magを全て0にしてしまうと、逆に合成音声が不自然なものとなってしまうからである。このようなこともあって、強調すべきでないと考えられる周波数振幅magはフォルマントによる強調をキャンセルするように減衰させている。 In the present embodiment, an operation of further attenuating (reducing) the frequency amplitude mag that is −58 db or less with respect to the maximum value of the frequency amplitude mag is performed by −26 db. Thereby, all frequency amplitudes mag below a certain value are multiplied by 0.05. By performing this operation as pre-processing, it is possible to avoid emphasizing noise and the like even if the formants are shifted, and a good result can be obtained with certainty. The pre-processing is performed in this way, that is, the frequency amplitude mag below a certain value is not all set to 0. If the frequency amplitude mag is all set to 0, the synthesized speech is unnatural. Because it becomes. For this reason, the frequency amplitude mag that should not be emphasized is attenuated so as to cancel the emphasis caused by formants.
減衰の対象とする周波数振幅magは、その最大値を基準にして決定しているが、固定値としても良い。その対象とする周波数振幅magの範囲は適宜、決定すれば良いものである。このことは、対象とする周波数振幅magを減衰させる度合い(程度)についても同様である。 The frequency amplitude mag to be attenuated is determined based on the maximum value, but may be a fixed value. The target range of the frequency amplitude mag may be determined as appropriate. The same applies to the degree (degree) of attenuation of the target frequency amplitude mag.
ステップ1102に続くステップ1103では、上述の前処理を施した各チャンネルの周波数振幅magからフォルマントを抽出する。その抽出は、移動平均フィルタリング処理によって行っている。対応するチャンネルを下添字で表す周波数振幅、フォルマントをそれぞれA、F、移動平均フィルタリング処理(で模擬する移動平均フィルタ)の次数をMとすると、チャンネルkのフォルマントFkを求める移動平均フィルタリング処理は以下のように表現される。
In
移動平均フィルタリング処理を行うことにより、チャンネル毎にフォルマントの概形が抽出される。そのような概形を抽出してフォルマントを特定するのは、ノイズ等によって他より突出した周波数振幅magをフォルマントとして抽出してしまうようなことをより回避するためである。つまり、フォルマントをより適切に抽出するためである。 By performing the moving average filtering process, a formant outline is extracted for each channel. The reason why the formant is specified by extracting such a rough shape is to further avoid that the frequency amplitude mag that protrudes from others due to noise or the like is extracted as a formant. That is, it is for extracting a formant more appropriately.
移動平均フィルタで用いる次数は留意する必要がある。元音声がピッチの高い音であった場合、チャンネル(スペクトル)間の周波数間隔は広くなる。そのため、低い次数Mではフォルマントの概形を適切に抽出できない。抽出する概形に元のスペクトルの影響が強く反映してしまう。従って、必要十分となるような高い次数Mとする必要がある。 It is necessary to pay attention to the order used in the moving average filter. When the original sound is a high pitch sound, the frequency interval between channels (spectrums) becomes wide. Therefore, the formant outline cannot be appropriately extracted at a low order M. The influence of the original spectrum is strongly reflected in the extracted outline. Therefore, it is necessary to set the order M as high as necessary.
逆に元音声がピッチの低い音であった場合には、チャンネル(スペクトル)間の周波数間隔は狭く密となる。この場合には、高い次数Mではフォルマントの概形がつぶれた形となって、その概形を適切に抽出できなくなる。従って、次数Mは概形がつぶれない程度に低くする必要がある。 Conversely, when the original sound is a low pitch sound, the frequency interval between the channels (spectrums) is narrow and dense. In this case, when the degree M is high, the formant outline is crushed, and the outline cannot be extracted properly. Therefore, the order M needs to be lowered to such an extent that the outline is not crushed.
元音声としては様々なピッチのものがマイク7により入力される。このことから、本実施の形態では、元音声に適切な次数Mを必要に応じて設定する必要があるとして、次数Mを随時、設定(更新)するようにしている。具体的には、直前のステップ708でタイムスケーリング処理を実行することで検出した周波数振幅magのピークの状態により決定している。より具体的には、ステップ810で決定したベースチャンネルのインデクスをkとすると、実験により良好な結果が得られた以下の式で求められる次数Mを設定している。ただしM>32のときはM=32、M<8のときにはM=8を設定している。その式中の「INT」は括弧内の演算結果は整数で算出することを表している。
As the original voice, those having various pitches are inputted by the microphone 7. For this reason, in the present embodiment, the order M is set (updated) as needed, assuming that an appropriate order M for the original voice needs to be set as necessary. Specifically, it is determined based on the peak state of the frequency amplitude mag detected by executing the time scaling process in the immediately preceding
M=INT(k+3) ・・・ (25)
(25)式による次数Mの算出(設定)は移動平均フィルタリング処理の前に行っている。それにより、元音声のピッチに応じた適切な次数Mで常に移動平均フィルタリング処理を行うようにしている。そのような次数Mで移動平均フィルタリング処理を行うため、フォルマントは常に適切に抽出することができる。次数Mの設定は、周波数振幅magのピークの数に応じて、つまりその数が多いほど次数Mを低く、その数が少ないほど次数Mを高く設定する形で行っても良い。
M = INT (k + 3) (25)
The calculation (setting) of the order M by the equation (25) is performed before the moving average filtering process. As a result, the moving average filtering process is always performed with an appropriate order M corresponding to the pitch of the original speech. Since the moving average filtering process is performed with such order M, the formants can always be appropriately extracted. The order M may be set according to the number of peaks of the frequency amplitude mag, that is, the order M is set lower as the number increases, and the order M is set higher as the number decreases.
ステップ1104には、移動平均フィルタリング処理によってフォルマント(の概形)を抽出した後に移行する。そのステップ1104では、抽出したフォルマントで各チャンネルの周波数振幅magを除算する。その除算結果は、線形予測分析における残差成分の周波数領域表現に相当する。
The process moves to step 1104 after the formant (rough shape) is extracted by the moving average filtering process. In
ステップ1104に続くステップ1105では、抽出したフォルマントを移動させるためのNeville補間処理を実行する。その実行後はステップ1106に移行して、シフトしたフォルマント成分を各チャンネルの残差成分に乗算する。一連の処理はその後に終了する。
In
上記乗算により、フォルマントを移動させる操作を行った後の各チャンネルの周波数成分が得られる。移動させたフォルマントは、ステップ1003でのピッチシフトにより元の位置に戻される。それにより、フォルマントが保存されることとなる。
By the multiplication, the frequency component of each channel after the operation for moving the formants is obtained. The moved formant is returned to the original position by the pitch shift in
図12は、上記ステップ1105として実行されるNeville補間処理のフローチャートである。次にその補間処理について、図12を参照して詳細に説明する。
上記ステップ1103で抽出されたフォルマントの各チャンネルの周波数振幅(フォルマント成分)は、例えばそのチャンネルに対応する周波数と共に配列変数y、xにそれぞれ代入されて保存される。補間処理で用いられるフォルマント成分数(例えば4)は変数Nに代入される。フォルマントを移動させるべき周波数(チャンネル)は元の周波数とピッチスケーリングファクタρの値からフォルマント成分毎に算出される。算出された周波数でのフォルマント成分は、算出された周波数の周辺のN個の、配列変数y、xの各要素に代入された値を参照して算出する。図12に示すNeville補間処理は、一つのフォルマント成分に着目する形で、移動させるべき周波数でのフォルマント成分を求める部分の処理を抜粋したものである。移動させるべき周波数を示す値は変数tに代入されている。
FIG. 12 is a flowchart of Neville interpolation processing executed as
The frequency amplitude (formant component) of each formant channel extracted in
先ず、ステップ1201では、変数s1に0を代入する。次のステップ1202では、配列変数wの変数s1の値で指定される要素w[s1]に、配列変数yの変数s1の値で指定される要素y[s1]の値を代入し、変数s2に変数s1の値から1を減算した値を代入する。その後はステップ1203に移行して、変数s2の値が0以上か否か判定する。その値が0未満であった場合、判定はNOとなってステップ1206に移行する。そうでない場合には、判定はYESとなってステップ1204に移行する。
First, in
ステップ1204では、要素w[s2]に、以下の式により算出される値を代入する。その代入後は、ステップ1205で変数s2の値をデクリメントしてから上記ステップ1203に戻る。
In
w[s2]=w[s2+1]+(w[s2+1]−w[s2])×
(t−x[s1])/(x[s1]−x[s2]) ・・・ (26)
一方、ステップ1203の判定がNOとなって移行するステップ1206では、変数s1の値をインクリメントする。その次に移行するステップ1207では、変数s1の値が変数Nの値未満か否か判定する。変数s1の値が変数Nの値未満であった場合、判定はYESとなって上記ステップ1202に戻る。そうでない場合には、判定はNOとなり、ここで一連の処理を終了する。
w [s2] = w [s2 + 1] + (w [s2 + 1] −w [s2]) ×
(Tx [s1]) / (x [s1] -x [s2]) (26)
On the other hand, in
このようにして、変数s1の値を順次、インクリメントしながら、要素w[s1]への要素y[s1]の値の代入、及び代入した値の更新が行われる。その結果、変数tのときのフォルマント成分が要素w[0]に最終的に代入される。ステップ1105では、フォルマント移動後にチャンネルに対応する周波数と一致する変数tを求め、その変数(周波数)tの周辺のN個のフォルマント成分を用いて、上述したような一連の処理を実行する。そして変数(周波数)tの値を各チャンネルに対応させて順次変更し、その都度、上述したような一連の処理を実行することにより、移動させるべき周波数でのフォルマント成分を全て求めるようになっている。
In this way, the value of the element y [s1] is substituted into the element w [s1] and the value substituted is updated while sequentially incrementing the value of the variable s1. As a result, the formant component at the time of the variable t is finally substituted into the element w [0]. In
移動させるべき周波数で求めるフォルマント成分は、基本的には抽出したフォルマントに対する補間、或いは間引きを行う形で求められるものである。そのフォルマント成分はそれほど精密に求める必要は無いので、直線補間を採用しても良い。Neville補間の代わりに、Lagrange補間やNewton補間などといった別の補間法を採用しても良い。 The formant component obtained at the frequency to be moved is basically obtained by performing interpolation or thinning on the extracted formant. Since the formant component does not need to be determined so precisely, linear interpolation may be employed. Instead of Neville interpolation, another interpolation method such as Lagrange interpolation or Newton interpolation may be employed.
なお、第2の実施の形態では、タイムスケーリングの後にピッチシフトを行うようにしているが、それらは逆の順序で行うようにしても良い。しかし、その場合には、タイムスケーリングを行う前に元音声の波形は変形させるため、その変形による影響は周波数振幅magのピーク検出に及ぶことになる。このことから、フォルマントの保存をより良好に行うには、ピッチシフトはタイムスケーリングの後に行うことが望ましい。 In the second embodiment, pitch shift is performed after time scaling, but they may be performed in the reverse order. However, in this case, since the waveform of the original speech is deformed before performing time scaling, the influence of the deformation extends to the peak detection of the frequency amplitude mag. For this reason, in order to better preserve formants, it is desirable to perform the pitch shift after time scaling.
フォルマントの移動(シフト)は、ピッチシフトしてもフォルマントを保存させるために行っているが、例えば音質を変化させる目的でピッチシフトとは独立させてフォルマントの移動を行うようにしても良い。ピッチシフトした合成音声は、元音声と共に放音できるようにしても良い。 The formant movement (shift) is performed in order to preserve the formant even when the pitch is shifted. However, for example, the formant may be moved independently of the pitch shift for the purpose of changing the sound quality. The pitch-shifted synthesized voice may be emitted together with the original voice.
上述したような音声分析合成装置、或いはその変形例を実現させるようなプログラムは、CD−ROM、DVD、或いは光磁気ディスク等の記録媒体に記録させて配布しても良い。或いは、公衆網等で用いられる伝送媒体を介して、そのプログラムの一部、若しくは全部を配信するようにしても良い。そのようにした場合には、ユーザーはプログラムを取得してコンピュータなどのデータ処理装置にロードすることにより、そのデータ処理装置を用いて本発明を適用させた音声分析合成装置を実現させることができる。このことから、記録媒体は、プログラムを配信する装置がアクセスできるものであっても良い。 The speech analysis / synthesis apparatus as described above, or a program that realizes a modification example thereof may be recorded and distributed on a recording medium such as a CD-ROM, DVD, or magneto-optical disk. Alternatively, part or all of the program may be distributed via a transmission medium used in a public network or the like. In such a case, the user can obtain a program and load it into a data processing apparatus such as a computer, thereby realizing a speech analysis / synthesis apparatus to which the present invention is applied using the data processing apparatus. . Therefore, the recording medium may be accessible by a device that distributes the program.
1 CPU
3 スイッチ部
4 ROM
5 RAM
7 マイク
8 A/D変換器
9 楽音生成部
10 D/A変換器
11 アンプ
12 スピーカ
1 CPU
3 Switch
5 RAM
7 Microphone 8 A / D converter 9 Musical sound generator 10 D / A converter 11
Claims (11)
前記第1の音声波形をフレーム単位で周波数分析して周波数チャンネル毎に周波数成分を抽出する周波数分析手段と、
前記第1、及び第2の音声波形間の所定数前のフレームにおける位相較差量を、前記周波数チャンネルのなかの所定の周波数チャンネルを基準にして算出し、該位相較差量を用いる形で、現在のフレームにおける該第2の音声波形の位相を該周波数チャンネル毎に前記周波数分析手段が抽出した周波数成分を参照して算出する位相算出手段と、
前記周波数分析手段が抽出した周波数成分を前記位相成分算出手段が算出した位相に応じて周波数チャンネル毎に変換し、該変換後の周波数成分を用いて、前記第2の音声波形をフレーム単位で合成する音声合成手段と、
を具備することを特徴とする音声分析合成装置。 In a speech analysis and synthesis device that analyzes a first speech waveform and synthesizes a second speech waveform using the analysis result,
Frequency analysis means for performing frequency analysis of the first speech waveform in units of frames and extracting frequency components for each frequency channel;
A phase difference amount in a predetermined number of previous frames between the first and second audio waveforms is calculated with reference to a predetermined frequency channel in the frequency channel, and the current phase difference amount is used in the form of using the phase difference amount. Phase calculating means for calculating the phase of the second speech waveform in the frame of the frequency with reference to the frequency component extracted by the frequency analyzing means for each frequency channel;
The frequency component extracted by the frequency analyzing unit is converted for each frequency channel according to the phase calculated by the phase component calculating unit, and the second audio waveform is synthesized in units of frames using the converted frequency component. Speech synthesis means to
A speech analysis / synthesis apparatus comprising:
ことを特徴とする請求項1記載の音声分析合成装置。 In addition to the phase difference amount, the phase calculation means includes the phase difference amount between the first and second speech waveforms generated between the predetermined number of previous frames and the current frame, and the current Calculating the phase of the second speech waveform in the current frame for each frequency channel using the phase of the first speech waveform in a frame;
The speech analysis / synthesis apparatus according to claim 1.
ことを特徴とする請求項1、または2記載の音声分析合成装置。 The predetermined number of previous frames is the immediately preceding frame, and the predetermined frequency channel is a frequency channel having the lowest frequency among those having the frequency component.
The speech analysis / synthesis apparatus according to claim 1 or 2,
ことを特徴とする請求項1、2、または3記載の音声分析合成装置。 The speech synthesizer can synthesize the second speech waveform with an overlap factor different from the overlap factor used in the frequency analyzer.
The speech analysis / synthesis apparatus according to claim 1, 2, or 3.
ことを特徴とする請求項1〜4の何れか1項に記載の音声分析合成装置。 The voice synthesizer can synthesize the second voice waveform obtained by shifting the pitch of the first voice waveform.
The speech analysis / synthesis apparatus according to any one of claims 1 to 4, wherein
ことを特徴とする請求項1記載の音声分析合成装置。 The speech synthesizer extracts a formant of the first speech waveform from the frequency component extracted for each frequency channel by the frequency analysis unit, shifts the extracted formant by an operation on the frequency component, The second speech waveform can be synthesized using the frequency component after performing in combination with the conversion,
The speech analysis / synthesis apparatus according to claim 1.
ことを特徴とする請求項6記載の音声分析合成装置。 The speech synthesis means obtains a frequency amplitude for each frequency channel from the frequency component, and extracts a formant of the first speech waveform by a filtering process targeting the frequency amplitude.
The speech analysis / synthesis apparatus according to claim 6.
ことを特徴とする請求項7記載の音声分析合成装置。 The speech synthesizer changes the order used in the filtering process as necessary based on the state of the frequency amplitude obtained for each frequency channel.
The speech analysis / synthesis apparatus according to claim 7.
ことを特徴とする請求項6、または7記載の音声分析合成装置。 The speech synthesizer performs an operation for making the frequency amplitude smaller than a predetermined value as a value for the frequency component obtained from the frequency component as an operation for the frequency component,
The speech analysis / synthesis apparatus according to claim 6 or 7,
ことを特徴とする請求項1〜9の何れか1項に記載の音声分析合成装置。 The second speech waveform synthesized by the speech synthesis means can be output together with the first speech waveform,
The speech analysis / synthesis apparatus according to any one of claims 1 to 9.
前記第1の音声波形をフレーム単位で周波数分析して周波数チャンネル毎に周波数成分を抽出する機能と、
前記第1、及び第2の音声波形間の所定数前のフレームにおける位相較差量を、前記周波数チャンネルのなかの所定の周波数チャンネルを基準にして算出し、該位相較差量を用いる形で、現在のフレームにおける該第2の音声波形の位相を該周波数チャンネル毎に前記抽出する機能により抽出した周波数成分を参照して算出する機能と、
前記抽出する機能により抽出した周波数成分を前記算出する機能により算出した位相に応じて周波数チャンネル毎に変換し、該変換後の周波数成分を用いて、前記第2の音声波形をフレーム単位で合成する機能と、
を実現させるためのプログラム。 A program to be executed by a speech analysis / synthesis apparatus that analyzes a first speech waveform and synthesizes a second speech waveform using the analysis result,
A function of analyzing the frequency of the first speech waveform in units of frames and extracting a frequency component for each frequency channel;
A phase difference amount in a predetermined number of previous frames between the first and second audio waveforms is calculated with reference to a predetermined frequency channel in the frequency channel, and the current phase difference amount is used in the form of using the phase difference amount. A function of calculating the phase of the second speech waveform in the frame of the reference with reference to the frequency component extracted by the function of extracting for each frequency channel;
The frequency component extracted by the extracting function is converted for each frequency channel according to the phase calculated by the calculating function, and the second audio waveform is synthesized in units of frames using the converted frequency component. Function and
A program to realize
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004374090A JP4513556B2 (en) | 2003-12-25 | 2004-12-24 | Speech analysis / synthesis apparatus and program |
US11/311,678 US7672835B2 (en) | 2004-12-24 | 2005-12-19 | Voice analysis/synthesis apparatus and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003431630 | 2003-12-25 | ||
JP2004374090A JP4513556B2 (en) | 2003-12-25 | 2004-12-24 | Speech analysis / synthesis apparatus and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009167427A Division JP5163606B2 (en) | 2003-12-25 | 2009-07-16 | Speech analysis / synthesis apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005208627A true JP2005208627A (en) | 2005-08-04 |
JP4513556B2 JP4513556B2 (en) | 2010-07-28 |
Family
ID=34914198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004374090A Active JP4513556B2 (en) | 2003-12-25 | 2004-12-24 | Speech analysis / synthesis apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4513556B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007091205A1 (en) * | 2006-02-07 | 2007-08-16 | Nokia Corporation | Time-scaling an audio signal |
JP2008216381A (en) * | 2007-02-28 | 2008-09-18 | Casio Comput Co Ltd | Speech analyzing and synthesizing device, and program |
KR100863656B1 (en) | 2006-02-07 | 2008-10-15 | 야마하 가부시키가이샤 | Response waveform synthesizing method and apparatus, and computer-readable storage medium |
JP2015508911A (en) * | 2012-02-27 | 2015-03-23 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Phase coherence control for harmonic signals in perceptual audio codecs |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05143088A (en) * | 1991-11-19 | 1993-06-11 | Sharp Corp | Speech processor |
JPH05265486A (en) * | 1992-03-18 | 1993-10-15 | Sony Corp | Speech analyzing and synthesizing method |
JPH07248794A (en) * | 1994-03-10 | 1995-09-26 | Sony Corp | Method for processing voice signal |
JPH08202397A (en) * | 1995-01-30 | 1996-08-09 | Olympus Optical Co Ltd | Voice decoding device |
JPH0962257A (en) * | 1995-08-25 | 1997-03-07 | Yamaha Corp | Musical sound signal processing device |
JPH09222884A (en) * | 1996-02-15 | 1997-08-26 | Roland Corp | Effect sound device |
JP2001117600A (en) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | Device and method for aural signal processing |
-
2004
- 2004-12-24 JP JP2004374090A patent/JP4513556B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05143088A (en) * | 1991-11-19 | 1993-06-11 | Sharp Corp | Speech processor |
JPH05265486A (en) * | 1992-03-18 | 1993-10-15 | Sony Corp | Speech analyzing and synthesizing method |
JPH07248794A (en) * | 1994-03-10 | 1995-09-26 | Sony Corp | Method for processing voice signal |
JPH08202397A (en) * | 1995-01-30 | 1996-08-09 | Olympus Optical Co Ltd | Voice decoding device |
JPH0962257A (en) * | 1995-08-25 | 1997-03-07 | Yamaha Corp | Musical sound signal processing device |
JPH09222884A (en) * | 1996-02-15 | 1997-08-26 | Roland Corp | Effect sound device |
JP2001117600A (en) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | Device and method for aural signal processing |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007091205A1 (en) * | 2006-02-07 | 2007-08-16 | Nokia Corporation | Time-scaling an audio signal |
KR100863656B1 (en) | 2006-02-07 | 2008-10-15 | 야마하 가부시키가이샤 | Response waveform synthesizing method and apparatus, and computer-readable storage medium |
JP2008216381A (en) * | 2007-02-28 | 2008-09-18 | Casio Comput Co Ltd | Speech analyzing and synthesizing device, and program |
JP2015508911A (en) * | 2012-02-27 | 2015-03-23 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Phase coherence control for harmonic signals in perceptual audio codecs |
US10818304B2 (en) | 2012-02-27 | 2020-10-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
Also Published As
Publication number | Publication date |
---|---|
JP4513556B2 (en) | 2010-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7672835B2 (en) | Voice analysis/synthesis apparatus and program | |
US8706496B2 (en) | Audio signal transforming by utilizing a computational cost function | |
RU2487426C2 (en) | Apparatus and method for converting audio signal into parametric representation, apparatus and method for modifying parametric representation, apparatus and method for synthensising parametrick representation of audio signal | |
JP5655098B2 (en) | Apparatus and method for modifying an audio signal using an envelope shape | |
JP2006243006A (en) | Device for adding sound effect, device for extracting fundamental note, and program | |
Abe et al. | Sinusoidal model based on instantaneous frequency attractors | |
JP2008281776A (en) | Melody extraction device and melody extraction method | |
JP2018077283A (en) | Speech synthesis method | |
JP5163606B2 (en) | Speech analysis / synthesis apparatus and program | |
JP4513556B2 (en) | Speech analysis / synthesis apparatus and program | |
US20090326951A1 (en) | Speech synthesizing apparatus and method thereof | |
Verfaille et al. | Adaptive digital audio effects | |
JP3706249B2 (en) | Voice conversion device, voice conversion method, and recording medium recording voice conversion program | |
JP6834370B2 (en) | Speech synthesis method | |
JP4816507B2 (en) | Speech analysis / synthesis apparatus and program | |
JP2000010597A (en) | Speech transforming device and method therefor | |
JP2006330343A (en) | Voice quality converting device and program | |
JP2000003200A (en) | Voice signal processor and voice signal processing method | |
JP2003022100A (en) | Method of removing noise, noise removing system and program | |
JP2018077280A (en) | Speech synthesis method | |
JP2006084859A (en) | Method and program for speech synthesis | |
JP6822075B2 (en) | Speech synthesis method | |
JP3294192B2 (en) | Voice conversion device and voice conversion method | |
JP4625934B2 (en) | Sound analyzer and program | |
JP3540609B2 (en) | Voice conversion device and voice conversion method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070626 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100420 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100503 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4513556 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 3 |