JP3468337B2 - Interpolated tone synthesis method - Google Patents

Interpolated tone synthesis method

Info

Publication number
JP3468337B2
JP3468337B2 JP03491497A JP3491497A JP3468337B2 JP 3468337 B2 JP3468337 B2 JP 3468337B2 JP 03491497 A JP03491497 A JP 03491497A JP 3491497 A JP3491497 A JP 3491497A JP 3468337 B2 JP3468337 B2 JP 3468337B2
Authority
JP
Japan
Prior art keywords
interpolated
original
original sounds
tone color
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03491497A
Other languages
Japanese (ja)
Other versions
JPH10254500A (en
Inventor
直敏 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP03491497A priority Critical patent/JP3468337B2/en
Publication of JPH10254500A publication Critical patent/JPH10254500A/en
Application granted granted Critical
Publication of JP3468337B2 publication Critical patent/JP3468337B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は音声、音楽を含む
あらゆる音の中から二種類の原音の合成音色を、その二
つの原音自体を両端とし、これらの任意の割合での補間
音色を合成する補間音色合成方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention synthesizes two kinds of original tones from all sounds including voice and music, and uses the two original tones as both ends to synthesize interpolated tones at an arbitrary ratio. The present invention relates to an interpolation tone color synthesis method.

【0002】[0002]

【従来の技術】従来の電子楽器において、使用者はさま
ざまな音色を、(1)PCM音源、FM音源などの各種
方式によるプリセット、(2)使用者が音を新たに収録
することによる付加(サンプリング)、(3)FM音源
などモデルによるパラメータ表現されたものを修正編集
した再合成、(4)各種フィルタ処理、歪付加などによ
る加工などの方法により作成してきた。
2. Description of the Related Art In a conventional electronic musical instrument, a user adds various tone colors (1) preset by various methods such as PCM sound source and FM sound source, and (2) addition by user newly recording sound ( Sampling), (3) re-synthesis in which a parameter expression such as an FM sound source is modified and edited, (4) various filter processes, and processing such as distortion addition has been performed.

【0003】また音色の連続的処理、微妙な処理といっ
たものはフィルタ処理、歪付加などによる加工処理によ
ってある程度実現できた。しかし、これらは、あるひと
つの音色を崩し、変形させることであり、目標とする具
体的音色を与えてその音色に向けて補間するというより
高度な音色の制御はできなかった。
Further, continuous processing of timbre and subtle processing could be realized to some extent by processing such as filter processing and distortion addition. However, these are to destroy and transform a certain timbre, and it was not possible to perform more advanced timbre control by giving a target specific timbre and interpolating toward that timbre.

【0004】[0004]

【発明が解決しようとする課題】この発明の目的は与え
られた二つの音色の両端を含む任意の知覚的内分点とな
る音色を合成することができ、また与えられた二つの音
色の一端から他端までを連続的に変化させる音色の合成
を実現させることができる補間音色合成方法を提供する
ことにある。
SUMMARY OF THE INVENTION The object of the present invention is to synthesize a tone color which is an arbitrary perceptual internal division point including both ends of two given tone colors, and one of the two tone colors given. It is an object of the present invention to provide an interpolated timbre synthesizing method capable of realizing timbre synthesizing that continuously changes from to the other end.

【0005】[0005]

【課題を解決するための手段】この発明によれば、二つ
の原音(互いに音色が異なるもの)について、原音をモ
デル表現するパラメータを、一定時間ごとにそれぞれ推
定し、これら推定された二つの原音のパラメータ間の対
応する時点を抽出し、これら抽出された対応する時点に
おける二つの原音の各推定パラメータ間の対応するもの
を見い出し、これら見い出した対応するパラメータを、
合成音色の上記二原音への所望の近さの程度に応じて補
間する。
According to the present invention, for two original sounds (those having different tone colors), parameters for expressing the original sound as a model are estimated at regular intervals, and these estimated two original sounds are estimated. The corresponding time points between the parameters of the two are extracted, the corresponding ones between the estimated parameters of the two original sounds at these extracted time points are found, and the corresponding parameters found are
Interpolation is performed according to the desired degree of proximity of the synthesized tone color to the two original tones.

【0006】[0006]

【発明の実施の形態】実施例1 この発明方法が適用される補間音色合成装置の機能構成
を図1に示す。二つの原音波形x,yについて、原音を
信号モデルで表現するために用いられるパラメータ、例
えば部分音が、部分音分解部11で推定される。原音
x,yはこの例ではそれぞれ、例えば5msec程度の
フレーム毎に区切られた波形であって、これら波形は下
記のように表わされる。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiment 1 FIG. 1 shows the functional configuration of an interpolated tone color synthesis apparatus to which the method of the present invention is applied. With respect to the two original sound waveforms x and y, a parameter used for expressing the original sound by the signal model, for example, a partial sound is estimated by the partial sound decomposition unit 11. In this example, the original sounds x and y are waveforms separated for each frame of, for example, about 5 msec, and these waveforms are expressed as follows.

【0007】 x={xn |n=0,1,…,Nx −1} (1) y={yn |n=0,1,…,Ny −1} (2) ここでNx ,Ny はそれぞれ原音波形x,yの総フレー
ム数である。部分音分解部11は、この例では原音波形
を、正弦波重畳モデル表現による合成に必要なスペクト
ル分析および整理を行ない、部分音(正弦波)への分解
を行う。正弦波重畳モデルは下記のように表わされる。
X = {x n | n = 0,1, ..., N x −1} (1) y = {y n | n = 0,1, ..., N y −1} (2) where N x and N y are the total number of frames of the original sound waveforms x and y, respectively. In this example, the partial sound decomposing unit 11 performs spectrum analysis and rearrangement necessary for synthesis by the sine wave superimposed model representation on the original sound waveform, and decomposes into partial sounds (sine waves). The sinusoidal superposition model is expressed as follows.

【0008】 x(m) =ΣAp (m) cos (θp (m) ) (3) Σはp=0からP−1まで、x(m) はフレーム内のm番
目のサンプルの信号、pは部分音番号、Pは部分音の
数、θp (m) はm番目のサンプルの部分音pの瞬時位
相、Ap (m) は部分音pの瞬時振幅をそれぞれ表わす。
(3)式ではフレーム番号nを省略している。A,θの
他、Pも分析フレームにより異なる値をとる。
X (m) = ΣA p (m) cos (θ p (m)) (3) Σ is from p = 0 to P−1, x (m) is the signal of the m-th sample in the frame, p is the partial number, P is the number of partials, θ p (m) is the instantaneous phase of partial p of the m-th sample, and A p (m) is the instantaneous amplitude of partial p.
In equation (3), frame number n is omitted. In addition to A and θ, P takes different values depending on the analysis frame.

【0009】(3)式の表現に必要な情報は、フレーム
毎の境界の部分音のスペクトル情報であり、瞬時(サン
プル毎:添字m)の情報は合成時の補間などで算出で
き、ここでは不用である。これより原音波形xのスペク
トルパラメータについては下記が出力される。 X={Xn |n=0,1,…,Nx −1} (4) Xn ={(fxp n ,Axp n ,θxp n )|p=0,1,…,Px (n) −1}(5) fは瞬時周波数であって、θの時間微分であり、ここで
はf,A,θはそれぞれ境界値であり、 fxp n =fxp n (m=0)、Axp n =Axp n (m=
0),θxp n =θxp n (m=0) を意味する。同様に原音波形yのスペクトルパラメータ
についても以下で表わされるYが算出される。
The information necessary for the expression (3) is the spectral information of the partial sound at the boundary of each frame, and the instantaneous (for each sample: subscript m) information can be calculated by interpolation during synthesis. It is useless. From this, the following is output for the spectrum parameter of the original sound waveform x. X = {X n | n = 0,1, ..., N x −1} (4) X n = {(f xp n , A xp n , θ xp n ) | p = 0, 1, ..., P x (n) −1} (5) f is an instantaneous frequency, which is a time derivative of θ, where f, A, and θ are boundary values, respectively, and f xp n = f xp n (m = 0) , A xp n = A xp n (m =
0), θ xp n = θ xp n (m = 0). Similarly, for the spectral parameter of the original sound waveform y, Y represented below is calculated.

【0010】 Y={Yn |n=0,1,…,Ny −1} (6) Yn ={(fyp n ,Ayp n ,θyp n )|p=0,1,…,Py (n) −1}(7) (4)〜(7)式のパラメータ推定はMoorerのア
ルゴリズム(1977)以来いくつか提案されている。
代表的なものとして、FFTから得られるローカルピー
ク(雑音成分以外の各ピーク)の周波数、振幅および位
相を検出してX,Yを求めるMcAulayおよびQu
atieriによるアルゴリズム(MQアルゴリズム、
1986)がある。
Y = {Y n | n = 0,1, ..., N y −1} (6) Y n = {(f yp n , A yp n , θ yp n ) | p = 0, 1, ... , P y (n) −1} (7) Several parameter estimations of the equations (4) to (7) have been proposed since Moorer's algorithm (1977).
As a typical example, McAulay and Qu for obtaining X and Y by detecting the frequency, amplitude and phase of a local peak (each peak other than noise component) obtained from FFT.
algorithm by atieri (MQ algorithm,
1986).

【0011】次にこのようにして得られた原音波形のス
ペクトルパラメータX,Y間の対応する時点を、時点対
応抽出部12で抽出する。ここでは原音波形x,yは同
一音韻(文章)の発声音、同一メロディ音、同一リズム
音、同一演奏法による楽音などであるが、音色が互いに
異なっているものを対象とし、この原音波形x,yの知
覚的に同一事象が生起している時点の対応を求める。
Then, the corresponding time points between the spectral parameters X and Y of the original sound waveform thus obtained are extracted by the time point correspondence extraction unit 12. Here, the original sound waveforms x and y are vocal sounds of the same phoneme (sentence), the same melody sound, the same rhythm sound, the musical sounds by the same playing method, etc., but those having different tone colors are targeted. , Y, the correspondence at the time when the same phenomenon occurs perceptually.

【0012】図2にパラメータX,Yの時点の対応を取
った後に得られた結果を示す。横軸はフレーム番号で時
間を表わしている。この例ではNx =9,Ny =11で
あり、2番目(k=2)の対応データとしてX2 とY1
が対応し、3番目(k=3)の対応データとしてX3
1 が対応している。パラメータXとYの対応は時間の
非線形伸縮によるマッチングであり、従来から知られて
いるDTW(DynamicTime Worping)の手法を用いて実
現できる。この結果、時点の対応を表す情報C(k) が求
まる。
FIG. 2 shows the result obtained after the correspondence between the time points of the parameters X and Y is taken. The horizontal axis represents time by frame number. In this example, N x = 9 and N y = 11, and X 2 and Y 1 are set as the second (k = 2) corresponding data.
And X 3 and Y 1 correspond as the third (k = 3) corresponding data. The correspondence between the parameters X and Y is matching by nonlinear expansion / contraction of time, and can be realized by using a conventionally known DTW (Dynamic Time Worping) method. As a result, information C (k) representing the correspondence at the time point is obtained.

【0013】 C(k) =(Cx (k),Cy (k)),k=0,1,…,K−1 (8) Cx (k) ∈{i|i=0,1,…,Nx −1} (9) Cy (k) ∈{j|j=0,1,…,Ny −1} (10) 図2の例では(C1(0), C0(0)),(C2(1),C
1(1)),(C3(3),C1(3)),(C4(4),C2(4)),
(C4(5),C3(5)),(C5(6),C4(6))…となる。
C (k) = (C x (k), C y (k)), k = 0, 1, ..., K−1 (8) C x (k) ε {i | i = 0,1 , ..., N x −1} (9) C y (k) ε {j | j = 0,1, ..., N y −1} (10) In the example of FIG. 2, (C 1 (0), C 0 (0)), (C 2 (1), C
1 (1)), (C 3 (3), C 1 (3)), (C 4 (4), C 2 (4)),
(C 4 (5), C 3 (5)), (C 5 (6), C 4 (6)) ...

【0014】次にこのようにして抽出した対応時点C
(k) と、推定パラメータX,Yと合成音色の程度、つま
り合成音における原音波形x,yの比率αとを用いて補
間音色合成部13により補間音色波形Zを合成する。こ
の補間音色合成部13は図3に示すように初期値計算部
15と単フレーム補間音色漸化計算部16に大別され
る。初期値計算部15においてはフレームnを計数する
カウンタ記憶部19の計数値がn=0の時のみ動作され
る。第0番目フレーム(Cx (0),Cy (0))におけるパラ
メータX0 とY0 との対応するものをスペクトル対応探
査部17で探査する。
Next, the corresponding time point C extracted in this way
The interpolation tone color synthesis section 13 synthesizes the interpolation tone color waveform Z using (k), the estimated parameters X and Y, and the degree of the synthesized tone color, that is, the ratio α of the original sound waveforms x and y in the synthesized tone. As shown in FIG. 3, the interpolated timbre synthesizer 13 is roughly divided into an initial value calculator 15 and a single-frame interpolated timbre recurrence calculator 16. The initial value calculation unit 15 is operated only when the count value of the counter storage unit 19 that counts the frame n is n = 0. The spectrum correspondence search unit 17 searches for a corresponding one of the parameters X 0 and Y 0 in the 0th frame (C x (0), C y (0)).

【0015】次にスペクトル補間部18で対応したスペ
クトルOx ,Oy を補間情報つまり合成比率αに応じて
補間して新たなスペクトル(パラメータ)Z0 を得る。
対応スペクトルの探査、補間についての具体的手法は後
で説明する。この新たなスペクトルZ0 はZn として単
フレーム補間音色漸化計算部16中の単フレーム補間音
色合成部21へ供給する。一方、単フレーム補間音色漸
化計算部16内の基準時点算出部22において、n+1
における、つまり最初はn=1における補間スペクトル
n+1 の計算に用いる原音x,yのスペクトルX,Yの
フレーム番号を対応付けているZn+1 のフレーム番号k
miを先に求めた(8)式のC(k) と、補間情報αn とを
用いて算出する。
Next, the spectrum interpolator 18 interpolates the corresponding spectra O x and O y according to the interpolation information, that is, the synthesis ratio α to obtain a new spectrum (parameter) Z 0 .
A specific method for searching and interpolating the corresponding spectrum will be described later. This new spectrum Z 0 is supplied as Z n to the single-frame interpolation timbre synthesis unit 21 in the single-frame interpolation timbre recurrence calculation unit 16. On the other hand, in the reference time point calculation unit 22 in the single-frame interpolation timbre recurrence calculation unit 16, n + 1
, That is, the frame number k of Z n + 1 which is associated with the frame numbers of the spectra X and Y of the original sounds x and y used in the calculation of the interpolated spectrum Z n + 1 when n = 1 at the beginning.
The mi is calculated using C (k) of the equation (8) previously obtained and the interpolation information α n .

【0016】この様子を図4を用いて説明する。一般的
なフレームでは、時点nのスペクトルパラメータは前フ
レームの分析で知られており、n+1の時点を算出す
る。いまn+1=3とする。補間情報αn が図4中の曲
線23で示すように時間に対し変化させる場合は、図4
の例ではn=3の場合合成音色のスペクトルZ3 ′は、
x (4),Cy (4) を結ぶ線24上にあり、この線24は
k=4番目の値であり、対応時点(フレーム)Cx (4),
y (4) の各スペクトルはX4 とY2 であるから、これ
らX4 とY2 をαで補間して新スペクトルZ3 ′を求め
る。
This state will be described with reference to FIG. In a typical frame, the spectral parameters at time n are known in the analysis of the previous frame and calculate time n + 1. Now, n + 1 = 3. When the interpolation information α n changes with time as shown by the curve 23 in FIG.
In the case of n = 3, the spectrum Z 3 ′ of the synthesized tone color is
It is on a line 24 connecting C x (4) and C y (4), this line 24 is the k = fourth value, and the corresponding time (frame) C x (4),
Since each spectrum of C y (4) is X 4 and Y 2 , these X 4 and Y 2 are interpolated by α to obtain a new spectrum Z 3 ′.

【0017】一方例えばα=0.3とαを固定にし、n
+1=3の合成音色スペクトルZ3は、時点対応抽出部
12により得られた(8)式で求めた対応情報(C
x (k),C y (k))を結ぶ線上にない。そこで補間(合成
音色)スペクトルZ3 の計算に必要とする原音のスペク
トルX,Yを求めるために、Cx (k),Cy (k) を結ぶ直
線に近い番号k=kmiを求める。図4の例ではα=0.
3でn+1=3の補間スペクトルZ3 に近いCx (k),C
y (k) を結ぶ線はk=4の直線24であり、従ってその
直線24の両端のフレームCx (4),Cy (4) における
X,Yの各スペクトルX4 とY2 を用いてZ3 を求め
る。この合成音色Zn+1 を通るCx (k),Cy (k)を結ぶ
線、つまりkがない場合に、Zn+1 に最も近いk=kmi
は次式により求める。
On the other hand, for example, with α = 0.3 and α fixed, n
+ 1 = 3 synthesized tone color spectrum Z3Is the time point extraction unit
Correspondence information (C
x(k), C yNot on the line connecting (k)). So interpolation (composite)
Tone) Spectrum Z3 Of the original sound needed for the calculation of
C to find the tor X, Yx(k), Cystraight tie (k)
Find the number k = kmi close to the line. In the example of FIG. 4, α = 0.
3 and n + 1 = 3 interpolation spectrum Z3 Close to Cx(k), C
yThe line connecting (k) is a straight line 24 with k = 4, so
Frame C at both ends of straight line 24x(4), CyIn (4)
X and Y spectra XFour And Y2 Using Z3 Seeking
It This synthetic tone Zn + 1 Passing through Cx(k), Cytie (k)
Z if there is no line, that is, kn + 1 Closest to k = kmi
Is calculated by the following formula.

【0018】 kmi= arg min|(1−α)・Cx (k) +α・Cy (k) −n| (11) kmi∈(k|k=0,1,…,K−1) (12) arg min |A(k) |は与えられたkのなかでA(k) の値
が最も小さいkを求めることである。この例ではC
x (kmi=3)=4,Cy (kmi=3)=2となる。な
お、式(11)、(12)は次のようなことを意味して
いると云える。即ち、フレームごとに二原音の対応フレ
ーム(Cx (k) ,Cy (k) )を抽出し、合成音色の二原
音への所望の近さの程度αにより抽出された対応フレー
ム上を補間(これは線形補間に限られない)したときの
時点が、合成音色の新たに算出すべきフレームの表す時
点と最も近くなるように上記抽出された対応フレームを
選ぶことである。
Kmi = arg min | (1-α) · C x (k) + α · C y (k) −n | (11) kmiε (k | k = 0, 1, ..., K−1) ( 12) arg min | A (k) | is to find k having the smallest value of A (k) among given k. C in this example
x (kmi = 3) = 4 , C y (kmi = 3) = 2 and composed. It can be said that the expressions (11) and (12) mean the following. That is, the corresponding frames (C x (k), C y (k)) of the two original sounds are extracted for each frame, and the corresponding frames extracted by the degree α of the desired proximity to the two original sounds of the synthesized tone are interpolated. (This is not limited to linear interpolation) is to select the extracted corresponding frame so that the time point when it is performed is closest to the time point represented by the frame to be newly calculated for the synthesized timbre.

【0019】このようにして、補間情報αn における対
応時点(フレーム)Cx (k),Cy (k) のスペクトル
i ,Yj (i=Cx (k),j=Cy (k) )が求まると、
これら両スペクトルXi ,Yj をαn に応じて補間した
新スペクトルZn+1 を作成するが、その補間は次のよう
に行う。まずスペクトル対応探査部26で、スペクトル
i ,Yj の対応するものを求める。ここではXi ,Y
j の各要素数が異なり、かつ、フレーム内で対応する要
素が時間的に異なっているが、これら二つの異次元ベク
トルで、その要素間に距離を定義して、全体として最適
に合致するような相手を決定する。この場合、相手が見
つからないことのコストを距離と同一次元で定義すると
総合コスト最小の考えを用いてDP(動的計画法)によ
り決定すればよい。この距離尺度として、瞬時周波数、
レベルをベクトルの要素として、重み付きユークリッド
距離が考えられる。これは同ピッチの場合を考えると瞬
時周波数そのものよりも瞬時周波数を基本周波数で正規
化し、調波番号に対応する数値(実数)とした方が自然
な対応となる。すなわち、後者ではそれぞれの同一調波
同士が対応することになる。
In this way, the interpolation information αnIn
Response time (frame) Cx(k), Cyspectrum of (k)
Xi, Yj(I = Cx(k), j = Cy(k)) is obtained,
Both spectra Xi, YjΑnInterpolated according to
New spectrum Zn + 1 But the interpolation is as follows
To do. First, the spectrum correspondence search unit 26
X i, YjAsk for the corresponding. X herei, Y
jThe number of elements in each
Although the elements are different in time, these two different dimension vectors
Tor, define the distance between its elements, optimal as a whole
Determine who will match. In this case, the other person sees
If the cost of failure is defined in the same dimension as distance,
With DP (Dynamic Programming) using the idea of total cost minimum
You can make a decision. As this distance measure, the instantaneous frequency,
Weighted Euclidean, with levels as elements of the vector
Distance can be considered. This is the moment when considering the case of the same pitch
Normalized the instantaneous frequency with the fundamental frequency rather than the time frequency itself
And it is more natural to use a numerical value (real number) corresponding to the harmonic
It will be a correspondence. That is, in the latter, each of the same harmonics
They will correspond to each other.

【0020】ここではkmiと対応するフレームiのスペ
クトルXi とフレームjのスペクトルYj が与えられ、
各スペクトルの次元Px (n),Py (n) は可変長であり、
フレーム番号n,原音波形x,yにより異なる。このX
i ,Yj に対し上のアルゴリズムにより最適な相手を見
つける。このようにして見つけた対応するものを次式で
記録する。つまり見つけた対応するものを一旦記憶して
おく。
Given the spectrum X i of frame i and the spectrum Y j of frame j corresponding to km i ,
The dimension P x (n), P y (n) of each spectrum has a variable length,
It depends on the frame number n and the original sound waveforms x and y. This X
Find the best partner for i , Y j by the above algorithm. The corresponding one found in this way is recorded by the following formula. In other words, the corresponding one found is temporarily stored.

【0021】 Ox (px ),px =0,1,…,Px (i) Oy (py ),py =0,1,…,Py (j) ここで対応関係が成立する場合は次式で表わせる。 Ox (px )∈{py |py =0,1,…,Py (j) −
1} Oy (py )∈{px |px =0,1,…,Px (i) −
1} 対応のないものは Ox (px )=−1 とするなど、対応する場合に用いられる値以外の値を定
義することにより区別する。相手がない場合、冗長性が
あるのでOy (py )はあえて記録しなくてもよい。
O x (p x ), p x = 0,1, ..., P x (i) O y (p y ), p y = 0,1, ..., P y (j) If it holds, it can be expressed by the following equation. O x (p x ) ε {p y | p y = 0,1, ..., P y (j) −
1} O y (p y ) ε {p x | p x = 0,1, ..., P x (i) −
1} Those that do not correspond are distinguished by defining a value other than the value used in the case of correspondence, such as setting O x (p x ) = − 1. If there is no other party, O y (p y ) does not have to be recorded because of redundancy.

【0022】例えばXi のスペクトルが図5Aに示すよ
うに、100Hzを基本周波数とするものであって、調
波番号0,1,2,3,4の各要素Ox (0) ,Ox (1)
,O x (2) ,Ox (3) ,Ox (4) に対し、Yj のスペ
クトルが図5Bに示すように、200Hzを基本周波数
とするものであって、調波番号0,1,2の各要素O
y(0),Oy (1)、Oy (2)であったとする。この時O
x (0) はOy (0)と対応し、Ox (0) =0とし、O
x (1) は対応がないからOx (1) =−1とし、Ox (2)
はOy (1)と対応し、Ox (2) =1とし、Ox (3) はO
y (2)と対応し、Ox (3) =2とし、Ox (4)は対応が
ないからOx (4)=−1とする。同様に、Oy (0)はO
x (0)と対応しOy (0)=0,Oy (1)=2,Oy (2)
=3,Oy (3)=−1とする。
For example, XiThe spectrum of is shown in Figure 5A.
As the basic frequency is 100 Hz,
Each element O of wave number 0, 1, 2, 3, 4x(0), Ox(1)
 , O x(2), Ox(3), OxFor (4), YjSpa
As shown in Fig. 5B, Khutor has a fundamental frequency of 200 Hz.
And each element O of harmonic numbers 0, 1, 2
y(0), Oy(1), Oy(2). O at this time
x(0) is OyCorresponds to (0), Ox(0) = 0, O
xO is because there is no correspondence in (1)x(1) = -1 and Ox(2)
Is OyCorresponds to (1), Ox(2) = 1 and Ox(3) is O
yCorresponding to (2), Ox(3) = 2 and Ox(4) is compatible
O because there is nox(4) = -1. Similarly, Oy(0) is O
xCorresponds to (0) Oy(0) = 0, Oy(1) = 2, Oy(2)
= 3, Oy(3) = -1.

【0023】以上のようにしてXi ,Yj の対応したも
のを見付け記録すると、この記録したXi ,Yj とαn
を用いて、対応がついたスペクトル同士はαn により物
理補間を、対応がつかないスペクトルはゼロ値への補間
をスペクトル補間部27で行い、新しい合成音色スペク
トルZn+1 を作成する。つまり例えばOx ( )とO
y( )とが対応する場合、αOx ( )+(1−α)O
y ( )=Oz ( )を求め、対応するものがなければ、O
z ( )とする。
When the corresponding X i , Y j is found and recorded as described above, the recorded X i , Y j and α n are recorded.
Using the physical interpolation by the spectrum between the alpha n marked with correspondence, spectrum corresponding in doubt performs interpolation to zero value in the spectrum interpolation unit 27, to create a new composite tone spectrum Z n + 1. That is, for example, O x () and O
When y () corresponds, αO x () + (1-α) O
y () = O z (), and if there is no corresponding value, then O
z ().

【0024】以上のように調波番号による管理により、
異音を生じさせないで済む。原音に無声部が含まれてい
る場合は、(1)無声部と無声部の場合は、便宜的に任
意の調波帯幅を二原音共通に組む、(2)無声部と有声
部の場合は無声部の調波帯を有声部の調波帯と同一に設
定すればよい。このようにして合成した新しい音色スペ
クトルZn+1 を前のフレームで計算されたZn とから音
色波形Zn を単フレーム補間音色合成部21で算出す
る。この波形合成の手法は例えば下記の公知の各種のも
のを用いることができる。
As described above, by the management by the harmonic number,
You don't have to make noise. When the unvoiced part is included in the original sound, (1) In the unvoiced part and unvoiced part, for the sake of convenience, an arbitrary harmonic band width is commonly set for the two original sounds. (2) In the unvoiced part and unvoiced part May set the harmonic band of the unvoiced part to be the same as the harmonic band of the voiced part. The new tone color spectrum Z n + 1 thus synthesized is calculated by the single frame interpolated tone color synthesizer 21 from the tone color waveform Z n calculated from the previous frame Z n . As the method of synthesizing the waveform, for example, the following various known methods can be used.

【0025】1.フレーム毎の分析から得られたパラメ
ータでフレーム内で正弦波合成し、更に隣合うフレーム
でオーバラップアッドをする方法。2.先に述べたMQ
アルゴリズムで、瞬時位相関数を3次式で表現するも
の。3.図6に示すように、MQアルゴリズムにおい
て、フレームと次フレームのスペクトルローカルピーク
の接続において、図3で用いられているスペクトル対応
探査部26を再度用いる。
1. A method of performing sine wave synthesis within a frame using the parameters obtained from analysis for each frame and then performing overlap add on adjacent frames. 2. MQ mentioned above
An algorithm that expresses the instantaneous phase function by a cubic expression. 3. As shown in FIG. 6, in the MQ algorithm, the spectrum correspondence search unit 26 used in FIG. 3 is used again in the connection of the spectrum local peak of the frame and the next frame.

【0026】最後のこの方法は同一計算部を用いること
から装置構成が容易となる。図6でスペクトル対応探査
部26でZn とZn+1 との対応スペクトルOzn,Ozn+1
を求め、その対応するOzn,Ozn+1により、(3)式に
おける境界となるスペクトル情報が定まるから、二つの
間のサンプル点m対応に補間データ、つまり(3)式で
表される合成波形を単フレーム音合成部29で求める。
Since the last method uses the same calculation unit, the device configuration becomes easy. Corresponding spectral O zn in the spectrum corresponding search unit 26 and Z n and Z n + 1 in FIG. 6, O zn + 1
And the corresponding O zn and O zn + 1 determine the spectral information that becomes the boundary in the equation (3). Therefore, the interpolation data, that is, the equation (3), corresponds to the sample point m between the two. The single-frame sound synthesizer 29 obtains the synthesized waveform.

【0027】図3の説明において、スペクトル補間部2
7で合成音色スペクトルZn+1 が求まると、これを記憶
部28にZn として記憶し、また記憶部19のフレーム
計数値nを+1し、再び、基準時点算出部22でフレー
ムn+1におけるαn と対応するkmiを算出し、そのk
miの対応スペクトルXi ,Yj の対応スペクトルを探査
して、スペクトル補間を行ってZn+1 を求める。実施例2 両端の二つの原音が同一文章で異なる声質の事例、ある
いは、ピッチ、あるいは、パワーが異なる二つの原音の
事例など、単なる定常音より複雑な二つの原音を両端音
とする場合についてのピッチ、あるいは音量は知覚的に
独立な要素であり、補間に際してはこれらが個別に補間
されていなくてはならない。また、音韻を司るスペクト
ル包絡も音韻を保存し、音色が補間されるような物理補
間がなされるべきである。そこでこの実施例2では図7
に示すように、まず、分析の初期段階で、部分音分解を
行うのみならず、ピッチ抽出部31で原音波形x,yよ
りピッチPx ,Py をそれぞれ抽出し、またパワー抽出
部32によりパワーax ,ay をそれぞれ抽出し、更に
スペクトル包絡抽出部33によりスペクトル包絡E x
y をそれぞれ求める。
In the description of FIG. 3, the spectrum interpolation unit 2
7. Synthetic timbre spectrum Zn + 1 Remember this
Z to part 28nAs the frame of the storage unit 19
The count value n is incremented by 1 and the frame is calculated again by the reference time point calculation unit 22.
Α at m n + 1nAnd kmi corresponding to is calculated, and k
Corresponding spectrum X of mii, YjThe corresponding spectrum of
And perform spectrum interpolation to Zn + 1 Ask for.Example 2 There are cases where the two original sounds at both ends have the same sentence but different voice qualities.
Or two original sounds with different pitches or powers
Two original sounds that are more complex than simple stationary sounds such as cases
And the pitch or volume is perceptually
It is an independent element, and when interpolating, these are interpolated individually
Must have been done. Also, the spect that controls phonology
The le envelope also preserves the phoneme and is a physical supplement that interpolates the timbre.
A time should be made. Therefore, in this second embodiment, FIG.
As shown in, first, in the initial stage of analysis, partial sound decomposition is performed.
In addition to the above, the pitch extraction unit 31 uses the original waveforms x and y.
Pitch Px, PyRespectively, power extraction
Power a by the unit 32x, AyRespectively, and further
Spectral envelope E by spectral envelope extraction unit 33 x
EyRespectively.

【0028】これらパラメータを用いて、図3中のスペ
クトル補間部27でのパラメータ補間、つまりスペクト
ル補間を行うが、この場合におけるスペクトル補間は図
8に示すようになされる。つまりこのスペクトル補間部
27には、対応するフレームのフレーム番号nx (=C
x (kmi))、ny (=Cy (kmi))、これらフレー
ムのスペクトルの部分音で対応するもの同士の番号
x ,py (=Ox (px))、利用者が指定した物理
補間定数α、ピッチPx ,Py ,パワーax ,ay、ス
ペクトル包絡Ex ,Ey が入力される。
Parameter interpolation, that is, spectrum interpolation is performed by the spectrum interpolating unit 27 in FIG. 3 using these parameters. The spectrum interpolation in this case is performed as shown in FIG. In other words, the spectrum interpolator 27 has a frame number n x (= C) of the corresponding frame.
x (k mi )), n y (= C y (k mi )), the numbers p x and p y (= O x (p x )) of corresponding partial tones of the spectrum of these frames, user , The physical interpolation constant α, the pitches P x and P y , the powers a x and a y , and the spectral envelopes E x and E y are input.

【0029】そのスペクトル包絡Ex ,Ey を補間して
目標とするスペクトル包絡を所望の合成音色に付与す
る。つまりピーク等対応探査部35に対応フレーム番号
x ,ny 、スペクトル包絡Ex ,Ey 、補間情報αn
を入力して、Ex ,Ey のピーク周波数とレベルをベク
トルとした距離をもとに、スペクトル対応探査部26に
おける探査方法と同様の手法を用いて対応するピークを
算出し、その対応ピークを、スペクトル包絡補間部36
で、αn に応じた線形補間を行って、目標とするスペク
トル包絡Ez を求める。
The spectral envelopes E x and E y are interpolated to give a desired spectral envelope to a desired synthesized tone color. That is, the corresponding frame numbers n x and n y , the spectrum envelopes E x and E y , and the interpolation information α n are assigned to the peak-to-peak correspondence search unit 35.
By inputting the peak frequency of E x and E y and the distance using the level as a vector, the corresponding peak is calculated using the same method as the search method in the spectrum corresponding search unit 26, and the corresponding peak is calculated. To the spectrum envelope interpolation unit 36
Then, linear interpolation corresponding to α n is performed to obtain the target spectral envelope E z .

【0030】一方、フレームnx の原音波形xの振幅A
xpx nxとフレームny の原音波形yの振幅Aypy nyとを
補間情報αn で振幅補間部37により線形補間し、その
補間された振幅のスペクトル包絡をスペクトル包絡計算
部38で計算し、このスペクトル包絡の先に求めた目標
スペクトル包絡Ez からのずれをスペクトル包絡修正量
計算部39を計算し、このずれを、振幅補間部37で求
めた補間された瞬時振幅に加算器41で加算して、補間
された瞬時振幅のスペクトル包絡が目標とするものにな
るようにする。このようにして所望の合成音色に目標と
するスペクトル包絡が付与される。
On the other hand, the amplitude A of the original sound waveform x of the frame n x
xpx nx and the amplitude A ypy ny of the original sound waveform y of the frame n y are linearly interpolated by the amplitude interpolator 37 with the interpolation information α n , and the spectrum envelope of the interpolated amplitude is calculated by the spectrum envelope calculator 38. The shift of the spectrum envelope from the previously obtained target spectrum envelope E z is calculated by the spectrum envelope correction amount calculation unit 39, and this shift is added by the adder 41 to the interpolated instantaneous amplitude obtained by the amplitude interpolation unit 37. Thus, the spectral envelope of the interpolated instantaneous amplitude is set to be a target. In this way, the desired spectral envelope is given to the desired synthesized tone.

【0031】この所望の合成音色に目標とするスペクト
ル包絡の付与には次の処理を加えてもよい。つまりフレ
ームnx ,ny でそれぞれ抽出されたパワーax (d
B),ay (dB)を、補間情報αn でパワー補間部4
2において線形補間して目標パワー値az を求め、加算
器41よりスペクトル包絡が修正された補間振幅のレベ
ルがaz になるようにレベル調整部43で調整して、合
成音色の瞬時振幅Azp n+ 1 を得る。
The following processing may be added to give a target spectral envelope to this desired synthesized tone color. That is, the power a x (d) extracted in each of the frames n x and n y
B), a y (dB), with the interpolation information α n
2 linearly interpolates to obtain the target power value a z , and the level adjuster 43 adjusts the level of the interpolated amplitude whose spectrum envelope has been corrected by the adder 41 to be a z. Get zp n + 1 .

【0032】ピッチを補間する場合は、知覚との対応が
よくなるように、対数ピッチをとり、フレームnx ,n
y における抽出ピッチPx ,Py を補間情報αn で、ピ
ッチ補間部45により線形補間し、この補間されたピッ
チPz により、瞬時周波数を補間する際の補間定数を補
間係数再計算部46で再計算し、その計算結果αn ′を
周波数補間部47へ供給する。つまり瞬時周波数の補間
をαn で行うと補間合成波形のピッチが少しずれる、よ
ってピッチPz に応じて補間情報αn を修正した方が、
聴覚的によい。このようにして周波数補間部47では瞬
時周波数fxpx nx,fypy nyをαn ′で補間して補間瞬
時周波数fzp n+1 を得る。
When the pitch is interpolated, the correspondence with the perception is
For better results, take a logarithmic pitch and use frame nx, N
yExtraction pitch P atx, PyInterpolation information αnThen,
Linear interpolation is performed by the pitch interpolation unit 45, and the interpolated pitch
Chi PzIs used to compensate the interpolation constant when interpolating the instantaneous frequency.
Recalculation is performed by the inter-coefficient recalculation unit 46, and the calculation result αn
It is supplied to the frequency interpolation unit 47. That is, the interpolation of the instantaneous frequency
Αn, The pitch of the interpolated composite waveform will shift a little.
That's the pitch PzInterpolation information α according tonIt is better to fix
Aurally good. In this way, the frequency interpolation unit 47
Hour frequency fxpx nx, Fypy nyΑnInterpolate with ’
Hour frequency fzp n + 1To get

【0033】更に音色合成波形zn+1 の生成には、瞬時
周波数fzp n+1 、瞬時振幅Azp n+1の他に瞬時位相θzp
n+1 を必要とする。この瞬時位相θzp n+1 を求めるには
位相計算部48で原音波形の瞬時位相θxpx nx,θypy
nyを入力し、αn で補間することなく、部分音はフレー
ム内でチャープ(chirp)信号とみなして瞬時周波数のみ
で決定し、又はランダムとし、あるいは二原音のそれぞ
れの隣接フレームとの位相差を補間するなどにより決定
する。
Further, in order to generate the tone color synthesized waveform z n + 1 , in addition to the instantaneous frequency f zp n + 1 and the instantaneous amplitude A zp n + 1 , the instantaneous phase θ zp.
Requires n + 1 . In order to obtain this instantaneous phase θ zp n + 1 , the phase calculator 48 calculates the instantaneous phases θ xpx nx and θ ypy of the original sound waveform.
ny is input, and without interpolating with α n , the partial sound is regarded as a chirp signal in the frame and is determined only by the instantaneous frequency, or is made random, or the phase difference between each adjacent frame of the two original sounds Is determined by, for example, interpolating.

【0034】なお、レベル調整部43でのレベル調整は
省略してもよい。また周波数補間部47での補間情報と
してαn を使用し、ピッチ補間部45、補間係数再計算
部46を省略してもよい。実施例1(図3)でのスペク
トル補間部27は、先に述べたようにスペクトル補間で
あって、振幅補間部37、周波数補間部47、位相計算
部48により行われるものである。
The level adjustment by the level adjusting unit 43 may be omitted. Further, α n may be used as the interpolation information in the frequency interpolation unit 47, and the pitch interpolation unit 45 and the interpolation coefficient recalculation unit 46 may be omitted. The spectrum interpolation unit 27 in the first embodiment (FIG. 3) is the spectrum interpolation as described above, and is performed by the amplitude interpolation unit 37, the frequency interpolation unit 47, and the phase calculation unit 48.

【0035】上述においては時点対応抽出部12で原音
波形x,yの各対応時点として対応フレームを抽出した
が、厳密に対応する時点を求めた方がより正しい音色合
成が得られると予測され、従って、各原音波形の各サン
プル時点ごとに対応する時刻を求めてもよい。この場合
は、部分音分解を各サンプル時点ごとにある区間につい
て部分音分解を行えばよい。また上述において原音をモ
デル表現するときのパラメータとしては部分音に限ら
ず、スペクトル、波形などを用いてもよい。
In the above description, the time point correspondence extraction unit 12 extracts the corresponding frames as the corresponding time points of the original sound waveforms x and y, but it is predicted that more accurate timbre synthesis will be obtained if the corresponding time points are sought. Therefore, the time corresponding to each sampling time of each original sound waveform may be obtained. In this case, partial sound decomposition may be performed for a certain section at each sample time point. Further, in the above description, the parameter for expressing the original sound as a model is not limited to the partial sound, and a spectrum, a waveform or the like may be used.

【0036】図1において部分音分解部11、時点対応
抽出部12、補間音色合成部13はそれぞれ基本的には
実時間ではなくオフライン計算を前提としたが、事前に
部分音分解部11と時点対応抽出部12について予め計
算しておき、適度に速い演算装置を用いることにより、
αを実時間で使用者が指定して、補間音色合成部13の
計算を実時間で行わせ、つまり補間音色合成音波形を実
時間で生成することもできる。なお使用目的に応じては
補間合成音色パラメータZn+1 を得、これを他の場所で
波形合成するようにしてもよく、つまり、この発明は補
間合成音色パラメータZn+1 を得るまでに特徴がある。
In FIG. 1, the partial sound decomposition unit 11, the time point correspondence extraction unit 12, and the interpolated timbre synthesis unit 13 are basically based on offline calculation rather than real time. By calculating the correspondence extraction unit 12 in advance and using an appropriately fast arithmetic unit,
It is also possible that the user specifies α in real time to cause the interpolation tone color synthesis unit 13 to perform the calculation in real time, that is, the interpolation tone color synthesis sound waveform is generated in real time. Depending on the purpose of use, an interpolated synthesized tone color parameter Z n + 1 may be obtained and waveforms may be synthesized at another place. That is, according to the present invention, the interpolated synthesized tone color parameter Z n + 1 is obtained. There are features.

【0037】[0037]

【発明の効果】以上述べたようにこの発明によれば、例
えば成人男声と成人女声の二原音の補間音色は、人間の
声、すなわち音声であるように、二原音に共通な属性が
あれば補間音色もそれを保つことができる。これは単に
歪を加える、雑音を付加するなどの目標のない方向への
音色制御とは異なり、一方の原音と他方他原音との間で
任意の程度にその一方の原音に近い合成音色を作成する
ことができ、もちろん、その二原音の一方自体をも出力
することができ、より音色制御の自由度が大きくなる。
また一方の原音から他方の原音へ連続的に音色を変化さ
せる音色モルフィングを行うことができる。
As described above, according to the present invention, the interpolated timbres of the two tones, for example, the adult male voice and the adult female voice, are human voices, that is, voices, if the two tones have a common attribute. The interpolated timbre can also keep it. This is different from tone color control in the direction where there is no target, such as simply adding distortion or adding noise, and creates a synthesized tone color between one original sound and the other original sound to an arbitrary degree close to that original sound. Of course, one of the two original sounds can also be output, and the degree of freedom in controlling the timbre becomes greater.
Further, it is possible to perform tone color morphing in which the tone color is continuously changed from one original tone to the other original tone.

【0038】特に実施例2によれば二つの原音に共通な
音韻、韻律などの言語特徴が合成された補間音色でも確
保でき、またピッチ、パワーなど知覚的に独立な要素
も、二つの原音で異なるとき、これらも補間される。こ
れにより楽器としては、これまでにない電子楽器として
の機能を持たせることができる。またコンピュータグラ
フィックでは知覚的な連続変形はモルフィングといわ
れ、既に実用化され多用されているが、このコンピュー
タグラフィックのモルフィングと合わせて音のモルフィ
ングを行うことができる。
In particular, according to the second embodiment, it is possible to secure even an interpolated tone color in which linguistic features such as phonemes and prosody common to two original sounds are synthesized, and perceptually independent elements such as pitch and power are also included in the two original sounds. When they are different, they are also interpolated. As a result, the musical instrument can have a function as an electronic musical instrument that has never existed before. Further, in computer graphics, perceptual continuous deformation is called morphing, which has already been put to practical use and widely used, but sound morphing can be performed in combination with morphing of computer graphics.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明の方法を適用した補間音色合成装置の
機能構成を示すブロック図。
FIG. 1 is a block diagram showing a functional configuration of an interpolation tone color synthesis apparatus to which the method of the present invention is applied.

【図2】図1中の時点対応抽出部12における二原音の
対応関係例を示す図。
FIG. 2 is a diagram showing an example of a correspondence relationship between two original sounds in a time point correspondence extraction unit 12 in FIG.

【図3】図1中の補間音色合成部13の機能構成を示す
ブロック図。
FIG. 3 is a block diagram showing a functional configuration of an interpolated tone color synthesis unit 13 in FIG.

【図4】図3中の基準時点算出部22における、合成し
たい時点と補間情報αから補間に用いる二原音の各時点
を求める説明図。
FIG. 4 is an explanatory diagram for obtaining each time point of two original sounds used for interpolation from a time point to be synthesized and interpolation information α in a reference time point calculation unit 22 in FIG.

【図5】図3中のスペクトル対応探査部26で得られた
対応スペクトルを説明するための二原音のスペクトル例
を示す図。
5 is a diagram showing a spectrum example of two original sounds for explaining a corresponding spectrum obtained by a spectrum correspondence search unit 26 in FIG. 3;

【図6】図3中の単フレーム補間音色合成部21の機能
構成例を示すブロック図。
6 is a block diagram showing an example of the functional configuration of a single-frame interpolation timbre synthesizer 21 in FIG.

【図7】実施例2における初期過程の機能構成を示すブ
ロック図。
FIG. 7 is a block diagram showing a functional configuration of an initial process in the second embodiment.

【図8】実施例2における図3中のスペクトル補間部の
機能情報を示すブロック図。
FIG. 8 is a block diagram showing functional information of a spectrum interpolation unit in FIG. 3 in the second embodiment.

Claims (7)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 二つの原音からその原音への所望の近さ
の合成音色を生成する方法において、 上記二つの原音について原音をモデル表現するためのパ
ラメータを、一定時間ごとに正弦波重畳モデル表現に基
づきそれぞれ推定する過程と、 これら推定された二つの原音のパラメータ間の対応する
時点を抽出する過程と、 上記抽出した対応する時点における上記二つの原音の
次元ベクトルで、その要素間に距離を定義し、相手が見
つからないことのコストを距離と同一次元で定義し、総
合コスト最小の考えを用いてDP(動的計画法)によ
り、各推定パラメータ間の対応するものを見い出す過程
と、 上記見い出した対応するパラメータを、上記合成音色の
上記二原音への所望の近さの程度に応じて補間して新し
いパラメータを作成する過程と、 を有することを特徴とする補間音色合成方法。
1. A method for generating a synthesized timbre of two original sounds with a desired closeness to the original sounds, wherein a parameter for modeling the original sounds of the two original sounds is represented by a sine wave superposed model expression at regular intervals. Based on
Hazuki comprising the steps of: estimating each of these estimated two and the process of extracting the corresponding time points of the parameter of the original sound, different the two original at the time corresponding to the extracted
A dimension vector defines the distance between the elements,
The cost of failing is defined in the same dimension as the distance,
By using the idea of minimum total cost,
The process of finding the corresponding one between the estimated parameters and the process of interpolating the found corresponding parameter according to the degree of the desired proximity of the synthesized tone to the two tones to create a new parameter. And an interpolated tone color synthesizing method.
【請求項2】 二つの原音からその原音への所望の近さ
の合成音色を生成する方法において、 上記二つの原音について原音をモデル表現するためのパ
ラメータを、一定時間ごとにそれぞれ推定する過程と、 これら推定された二つの原音のパラメータ間の対応する
時点を抽出する過程と、 上記抽出した対応する時点における上記二つの原音の各
推定パラメータ間の対応するものを見い出す過程と、 上記見い出した対応するパラメータを、上記合成音色の
上記二原音への所望の近さの程度に応じて補間して新し
いパラメータを作成する過程とを有し上記所望の近さの程度に応じて補間して新しいパラメー
タを作成する過程は、上記二つの原音のスペクトル包絡
を抽出する過程と、これら抽出されたスペクトル包絡を
補間して目標とするスペクトル包絡を所望の合成音色に
付与する過程と、上記二つの原音の瞬時周波数を補間す
る過程と、上記合成音色の瞬時位相を決定する過程 を有
することを特徴とする補間音色合成方法。
2. A method for generating a synthesized timbre from two original sounds with a desired closeness to the original sounds, a process of estimating parameters for modeling the original sounds of the two original sounds at regular time intervals. , The process of extracting the corresponding time points between the parameters of these two estimated original sounds, the process of finding the corresponding ones between the estimated parameters of the two original sounds at the extracted corresponding time points, and the correspondence found above the parameters, and a process of creating a new parameter by interpolation according to the desired degree of proximity to the two-original sound of the synthesized tone, a new interpolated depending on the degree of the desired closeness Parame
The process of creating the
And the extracted spectral envelopes.
Interpolate the target spectral envelope to the desired synthesized tone
The process of applying and interpolating the instantaneous frequencies of the above two original sounds
And a step of determining the instantaneous phase of the synthesized timbre .
【請求項3】 上記対応する時点を抽出する過程は、上
記一定時間(フレーム)ごとの対応フレームを抽出して
時刻順に番号を付ける過程と、上記合成音色の上記二原
音への所望の近さの程度により上記抽出された対応フレ
ーム上を補間したときの時点が、合成音色の新たに算出
すべきフレームの表す時点と最も近くなるように上記抽
出された対応フレームを選び、これを上記抽出した対応
する時点とする過程より成り、上記選ばれた両対応フレ
ームにおける各パラメータを上記見い出した対応するパ
ラメータとすることを特徴とする請求項記載の補間音
色合成方法。
3. The step of extracting the corresponding time points includes the steps of extracting the corresponding frames for each fixed time (frame) and numbering them in order of time, and the desired proximity of the synthesized tone color to the two original sounds. The extracted corresponding frame is selected so that the time when the above-mentioned extracted corresponding frame is interpolated is closest to the time represented by the frame to be newly calculated in the synthesized tone color, and this is extracted as described above. 3. The interpolated tone color synthesizing method according to claim 2 , further comprising the step of setting corresponding time points, wherein each parameter in both the selected corresponding frames is set as the found corresponding parameter.
【請求項4】 上記目標とするスペクトル包絡を所望の
合成音色に付与する過程は、上記二つの原音の振幅を補
間する過程と、その補間された振幅のスペクトル包絡を
求める過程と、その求めたスペクトル包絡と上記補間し
たスペクトル包絡との差を抽出する過程と、そのスペク
トル包絡の差を上記補間された振幅に加算する過程とよ
りなることを特徴とする請求項2又は3記載の補間音色
合成方法。
4. The process of applying the target spectral envelope to a desired synthesized tone color is a process of interpolating the amplitudes of the two original sounds, a process of obtaining a spectral envelope of the interpolated amplitudes, and a process of obtaining the spectral envelope of the interpolated amplitudes. 4. The interpolated tone color synthesis according to claim 2 , further comprising a step of extracting a difference between the spectrum envelope and the interpolated spectrum envelope, and a step of adding the difference of the spectrum envelope to the interpolated amplitude. Method.
【請求項5】 上記目標とするスペクトル包絡を所望の
合成音色に付与する過程に、上記二つの原音のパワーを
抽出する過程と、これら抽出されたパワーを補間して目
標とするパワーを決定する過程と、上記所望の合成音色
のパワーが上記目標のパワーとなるように調整する過程
を含む請求項2乃至の何れかに記載の補間音色合成方
法。
5. The process of extracting the powers of the two original sounds and the process of interpolating the extracted powers to determine the target power in the process of imparting the target spectral envelope to a desired synthesized tone color. process and interpolation tone synthesis method according to any one of claims 2 to 4 powers of the desired composite tone comprising the step of adjusting so that the power of the target.
【請求項6】 上記瞬時周波数を補間する過程は、上記
二つの原音のピッチを抽出する過程と、上記これら抽出
された対応する時点のピッチを補間して目標とするピッ
チを決定する過程と、この目標とするピッチより、上記
二つの原音への所望の近さを表す定数を再計算する過程
と、この再計算された近さを表す定数を用いて上記二つ
の原音の瞬時周波数を補間する過程とからなる請求項
乃至5の何れかに記載の補間音色合成方法。
6. The process of interpolating the instantaneous frequency includes a process of extracting the pitches of the two original sounds, and a process of interpolating the extracted pitches at corresponding time points to determine a target pitch. From the target pitch, the process of recalculating a constant representing the desired closeness to the two original sounds, and the instantaneous frequency of the two original sounds is interpolated using the recalculated constant representing the closeness. 3. The process according to claim 2
6. The interpolated tone color synthesizing method according to any one of items 1 to 5.
【請求項7】 上記新しいパラメータを用いて波形合成
する過程を含むことを特徴とする請求項乃至6の何れ
かに記載の補間音色合成方法。
7. The interpolated tone color synthesizing method according to claim 2 , further comprising a step of synthesizing a waveform using the new parameter.
JP03491497A 1997-01-07 1997-02-19 Interpolated tone synthesis method Expired - Fee Related JP3468337B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03491497A JP3468337B2 (en) 1997-01-07 1997-02-19 Interpolated tone synthesis method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-830 1997-01-07
JP83097 1997-01-07
JP03491497A JP3468337B2 (en) 1997-01-07 1997-02-19 Interpolated tone synthesis method

Publications (2)

Publication Number Publication Date
JPH10254500A JPH10254500A (en) 1998-09-25
JP3468337B2 true JP3468337B2 (en) 2003-11-17

Family

ID=26333927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03491497A Expired - Fee Related JP3468337B2 (en) 1997-01-07 1997-02-19 Interpolated tone synthesis method

Country Status (1)

Country Link
JP (1) JP3468337B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ID29029A (en) * 1998-10-29 2001-07-26 Smith Paul Reed Guitars Ltd METHOD TO FIND FUNDAMENTALS QUICKLY
JP3802293B2 (en) * 1999-10-21 2006-07-26 ヤマハ株式会社 Musical sound processing apparatus and musical sound processing method
JP4654621B2 (en) * 2004-06-30 2011-03-23 ヤマハ株式会社 Voice processing apparatus and program
JP4720974B2 (en) * 2004-12-21 2011-07-13 株式会社国際電気通信基礎技術研究所 Audio generator and computer program therefor
JP2023060744A (en) * 2021-10-18 2023-04-28 ヤマハ株式会社 Acoustic processing method, acoustic processing system, and program

Also Published As

Publication number Publication date
JPH10254500A (en) 1998-09-25

Similar Documents

Publication Publication Date Title
US5749073A (en) System for automatically morphing audio information
Bonada et al. Synthesis of the singing voice by performance sampling and spectral models
Verfaille et al. Adaptive digital audio effects (A-DAFx): A new class of sound transformations
JP3985814B2 (en) Singing synthesis device
US11410637B2 (en) Voice synthesis method, voice synthesis device, and storage medium
Amatriain et al. Spectral processing
JPS63285598A (en) Phoneme connection type parameter rule synthesization system
US7379873B2 (en) Singing voice synthesizing apparatus, singing voice synthesizing method and program for synthesizing singing voice
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
US6944589B2 (en) Voice analyzing and synthesizing apparatus and method, and program
O'Brien et al. Concatenative synthesis based on a harmonic model
JP2018077283A (en) Speech synthesis method
JP3468337B2 (en) Interpolated tone synthesis method
Verfaille et al. Adaptive digital audio effects
JP2003345400A (en) Method, device, and program for pitch conversion
JP4757971B2 (en) Harmony sound adding device
Saitou et al. Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice
JP6834370B2 (en) Speech synthesis method
JP2000010597A (en) Speech transforming device and method therefor
JP2005275420A (en) Voice analysis and synthesizing apparatus, method and program
JPH07261798A (en) Voice analyzing and synthesizing device
JP2018077280A (en) Speech synthesis method
Amatriain et al. Spectral modeling for higher-level sound transformation
JP6822075B2 (en) Speech synthesis method
JP3294192B2 (en) Voice conversion device and voice conversion method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090905

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees