JPS60140298A - Speech controller - Google Patents

Speech controller

Info

Publication number
JPS60140298A
JPS60140298A JP58250781A JP25078183A JPS60140298A JP S60140298 A JPS60140298 A JP S60140298A JP 58250781 A JP58250781 A JP 58250781A JP 25078183 A JP25078183 A JP 25078183A JP S60140298 A JPS60140298 A JP S60140298A
Authority
JP
Japan
Prior art keywords
signal
time
data
phase
multiplier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58250781A
Other languages
Japanese (ja)
Inventor
俊郎 寺内
田村 震一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP58250781A priority Critical patent/JPS60140298A/en
Publication of JPS60140298A publication Critical patent/JPS60140298A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、例えば音声信号においてその音程及び速度を
任意に変えられるようにするスピーチコントロール装機
′に関する。
DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a speech control device which allows, for example, the pitch and speed of an audio signal to be changed arbitrarily.

背景技術とその問題点 音声信号の速度及び音程を任意に変更できるようにする
スピーチコントロール装置がある。このような装置にお
いて、従来、時間軸で操作して信号の速度及び音程を変
えるには以下のようにされている。例えば第1図Aに示
すような信号があった場合に、この信号の速度を上昇さ
せるには、上げる割合に応じ゛ζ間欠に信号を取り出し
、この取り出された信号を第1図Bに示すようにをつな
ぎ合せて出力する。ざらにこの信号を第1図Cに示すよ
うに時間軸伸長して音程を低下させることもできる。
Background Art and Problems There is a speech control device that allows the speed and pitch of an audio signal to be changed arbitrarily. Conventionally, in such a device, the speed and pitch of a signal are changed by operating on the time axis as follows. For example, if there is a signal as shown in Figure 1A, in order to increase the speed of this signal, the signal is extracted intermittently according to the rate of increase, and the extracted signal is as shown in Figure 1B. Connect and output. It is also possible to roughly extend the time axis of this signal as shown in FIG. 1C to lower the pitch.

しかしながらこのような装置の場合、信号のつなぎ目に
不連続点が生じ、これを例んばクロスフェードする等の
対策も行われたが、それでも不連続さを完全に解消する
ことはできず、聴感上の違和感があった。
However, in the case of such devices, discontinuities occur at the joints of signals, and although countermeasures such as crossfading have been taken, it is still not possible to completely eliminate discontinuities, and the auditory sense is affected. There was a feeling of discomfort above.

また間欠で取り出されなかった部分の情報が失なわれて
おり、信号が不完全なものになっていた。
Additionally, the information that was not retrieved intermittently was lost, making the signal incomplete.

これに刻して本願発明者は先に、信号の不連続や欠落の
ないスピーチコントロール装置を提案した。
In view of this, the inventor of the present application has previously proposed a speech control device that does not have discontinuities or dropouts in signals.

第2図においζ、入力端′子(1)に供給された音声信
号がAD変換回路(2)に供給されてデジタル信号x 
cm>とされ、バッファメモリ(3)に記憶される。こ
のメモ1月3)は例えば全体の長さがLとされ、人力が
順次シフトされて記憶される。このメモリ(3)の内容
がRシフ1−された時点(R<L)ごとにメモリ(3)
の内容が並列にバッファメモリ(4)に取り出される。
In Fig. 2, the audio signal supplied to the input terminal (1) is supplied to the AD conversion circuit (2) and the digital signal x
cm> and stored in the buffer memory (3). This memo (January 3), for example, has an overall length of L, and is stored by sequentially shifting the human power. Every time the contents of this memory (3) are R-shifted (R<L), the memory (3) is
The contents of are taken out in parallel to the buffer memory (4).

これによってメモリ(4)からは、任意の時間間隔Rご
とに任意の時間長りずつ信号が抽出される。
As a result, signals are extracted from the memory (4) at arbitrary time intervals R and for arbitrary lengths of time.

ここでRはLに対して充分小ざくされており、各信号は
互い←オーバーランプされ°ζいる。
Here, R is made sufficiently small with respect to L, and each signal is overlamped with respect to each other.

このメモ1月4)からの信号が乗算器(5)に供給され
て所定の窓係数hQIl)がH(られる。この窓係数の
B(られた信号がフーリエ変換回路(6)に供給される
The signal from this memo (January 4) is supplied to the multiplier (5) and a predetermined window coefficient hQIl) is converted to H(H).The signal obtained by B(of this window coefficient) is supplied to the Fourier transform circuit (6). .

これによっ′ζ信号の時間軸が周波数軸に変換される。As a result, the time axis of the 'ζ signal is converted to the frequency axis.

この変換された信号が乗算器(7)に供給されて、メモ
1月3)でのシフト量Rに相当する位相の1illd整
が行われる。この位相1lIIiI整された信号が処理
回路(8)に供給される。
This converted signal is supplied to a multiplier (7) to perform phase adjustment corresponding to the shift amount R in Memo January 3). This phase-adjusted signal is supplied to a processing circuit (8).

・ この処理回路(8)におい°ζ、フーリエ変換にて
周波数軸に変換された信号が所定の周波数1)域ごとに
各メモリ番地に収納される。この収納された信号が順次
読み出される。
- In this processing circuit (8), the signal converted into the frequency axis by Fourier transform is stored in each memory address for each predetermined frequency range (1). The stored signals are sequentially read out.

この処理回路(8)から統み出された信号が乗算器(9
)に供給されて、後述する出力時のシフト量R゛に相当
する位相の調整が行われる。この位相調整された信号が
逆フーリエ変換回路(10)に供給される。
The signal output from this processing circuit (8) is sent to the multiplier (9).
), and the phase adjustment corresponding to the shift amount R' at the time of output, which will be described later, is performed. This phase-adjusted signal is supplied to an inverse Fourier transform circuit (10).

これによって信号の周波数軸が時間軸に変換される。This converts the frequency axis of the signal into the time axis.

この変換された信号が乗算器(11)に供給されて、上
述の窓係数h(T11)に対応した窓係数f(2)が掛
られる。この窓係数のり)られた信号がバッファメモリ
 (12)に記憶される。このメモリ (12)の内容
が並列にバッファメモリ (13)に供給される。
This converted signal is supplied to a multiplier (11) and multiplied by a window coefficient f(2) corresponding to the above-mentioned window coefficient h(T11). The signal multiplied by this window coefficient is stored in the buffer memory (12). The contents of this memory (12) are supplied in parallel to the buffer memory (13).

このメモリ (13)は例えば全体の長さがLとされ、
内容が順次シフトされて出力される。またシフトによっ
て生じる空白部にはOが記憶される。そしてこのメモリ
 (13)の内容がR′ シフトされた時点ごとにメモ
リ (12)の内容が供給され、それ以前の内容に加算
される。
For example, the total length of this memory (13) is L,
The contents are sequentially shifted and output. Further, O is stored in the blank space created by the shift. Each time the contents of this memory (13) are shifted by R', the contents of the memory (12) are supplied and added to the previous contents.

このメモリ (13)からの信号がDA変換回路(工4
)に供給されてアナログ信号とされ、出力端子(15)
に取り出される。
The signal from this memory (13) is
) is supplied to the output terminal (15) and converted into an analog signal.
It is taken out.

さらに、入力端子(1)からの信号が/Sイバスフィル
タ(21)及びローパスフィルタ(22)に供給される
。これらの出力が比較回路(23)に供給されζそれぞ
れの帯域の信号のエネルギーが比較される。この比較出
力が窓係数Il■、f(II+)の選択回路(24)に
供給されζそれぞれの場合に応した窓係数が選択される
Furthermore, the signal from the input terminal (1) is supplied to the /S Ibus filter (21) and the low-pass filter (22). These outputs are supplied to a comparator circuit (23), and the energies of the signals in each band are compared. This comparison output is supplied to a selection circuit (24) for window coefficients I1 and f(II+), and a window coefficient corresponding to each case of ζ is selected.

この装置において、入力端子+11に第3図Aのような
信号が供給されると、この信号が時間間隔Rごとに時間
長1、ずつ抽出される。この抽出された信号がフーリエ
変換され′(第3図Bに示すように時間軸が周波数軸に
変換されたスペクトラムが形成される。
In this device, when a signal as shown in FIG. 3A is supplied to the input terminal +11, this signal is extracted for each time interval R by one time length. This extracted signal is Fourier transformed' (as shown in FIG. 3B, a spectrum in which the time axis is transformed to the frequency axis is formed).

この信号が処理回路(8)の各メモリ番地に収納されて
位相劇整される。このi1’i、411 i11+I整
されたイご号が逆フーリエ変換されて第4図A、第5図
Aに示すように順次時間間隔Rずつシフトされた信号が
形成される。これらの信号が順次メモリ (12)を通
じてメモリ (13)に供給されて加算される。
This signal is stored in each memory address of the processing circuit (8) and phase adjusted. The i1'i, 411 i11+I adjusted I symbol is subjected to inverse Fourier transform to form signals sequentially shifted by time intervals R as shown in FIGS. 4A and 5A. These signals are sequentially supplied to memory (13) through memory (12) and added.

ここで例えば信号の速度を上昇させる場合には、メモリ
 (13)においC、メモリ (12)からの信号の加
算される際のシフl−量R’ を、(R’ <R)とす
る。そしてこのシフト酸R° ごとに加算が行ねれると
、この信号は第4図Bに示すようになり、R’ この信号は周波数帯域は元のままだが時間が□に縮まっ
ζいる。
Here, for example, when increasing the speed of the signal, the shift l-amount R' when the signals C in the memory (13) and the signals from the memory (12) are added is set to (R'< R). When addition is performed for each shift acid R°, this signal becomes as shown in FIG. 4B, R' The frequency band of this signal remains the same, but the time is shortened to □.

また速度を低−トさせる場合には、R’ >Rとする。Furthermore, when the speed is to be lowered, R'>R.

これによって加算信号は第5図Bに示すようR″ に周波数帯域は元のままで、時間か□に伸びた信号とな
る。
As a result, the added signal becomes a signal whose frequency band R'' remains the same as shown in FIG.

R。R.

さらにこの信号を□のクロックで取り出すことにより、
信号の速度はそれぞれノじに戻され、第4図C1第5図
Cに示すように周波数帯域がR’ 周波数帯域か□に低下、あるいは上昇された信号が得ら
れる。
Furthermore, by extracting this signal with the clock of □,
The speeds of the signals are respectively returned to the same level, and a signal whose frequency band is lowered or increased to the R' frequency band or □ is obtained as shown in FIG. 4C and FIG. 5C.

なお第3図〜第5図で波形はアナログで示したが、これ
らは実際にはデジタル値で処理されている。
Although the waveforms in FIGS. 3 to 5 are shown in analog form, they are actually processed using digital values.

さらに上述の装置において、窓係数hQ11)、f(I
II)は以下のような関係にされる。すなわち信号XQ
I+)に対しζ xgn)−+h (SR−m) x<m)但し、Sは任
怠の整数 となり、これをフーリエ変換して、 X2 (SRI ω) = Σ h (Sll m) 
X(m)e−j″II+m−一閃 さらに、逆フーリエ変換し”ζ S=−閃 これがX(T11)に等しければよいからψ 1 であればよい。
Furthermore, in the above device, window coefficients hQ11), f(I
II) is made into the following relationship. That is, signal XQ
I+), ζ xgn)-+h (SR-m)
X(m)e-j''II+m-1F.Furthermore, inverse Fourier transform is performed to obtain ζS=-1.Since it is sufficient that this is equal to X(T11), ψ1 is sufficient.

そして上述のように入力信号のスペクトル形状を検出し
て窓係数ハflll)、f(III)を選択し°ζいる
場合には、例えば低域成分の方が小さいときはh(Tl
l)”1 fcm>= 0.5−0.5 cos (2πn / 
N −1)n=Q、・・・N−1 低域成分の方が大きいときは han+=0.54−0.46 cos (2tc n
/N −1)n=0、・・・N−1 f(Wo=2π/Σhj とするごとにより音質を向上させることができる。
Then, as described above, when the spectral shape of the input signal is detected and the window coefficients h(tl) and f(III) are selected, for example, when the low frequency component is smaller, h(Tl
l)"1 fcm>= 0.5-0.5 cos (2πn/
N-1) n=Q,...N-1 When the low frequency component is larger, han+=0.54-0.46 cos (2tc n
/N −1) n=0, . . . N−1 f(Wo=2π/Σhj) The sound quality can be improved each time.

また上述の装置h′において、乗算器(9)での位相調
整は以下のようにされる。
Further, in the above-mentioned device h', the phase adjustment in the multiplier (9) is performed as follows.

まず時刻SRでのフーリエ変換後のスペクトラムを X (St?、ωk ) その実部を XR(SR,ωk) 虚部を X、I(SR,ωk) 位相の1値を P (Si2.ωk) 但し、−π≦P (SR,ωk)<π 及び時点Sに沿って連続化した位相を p (SR,ωk) 但し、−■<’p、(S)l、ωk)く■とする。この
とき位相の連続化及び位相変形を次のように行う。
First, the spectrum after Fourier transformation at time SR is X (St?, ωk), its real part is XR (SR, ωk), its imaginary part is X, I (SR, ωk), and the single value of the phase is P (Si2.ωk). , -π≦P (SR, ωk)<π and the phase made continuous along the time point S is p (SR, ωk), where -■<'p, (S)l, ωk). At this time, phase continuity and phase transformation are performed as follows.

i)S≠0の場合 (al 最初にフーリエ変換によって、X (Si2.
ωk)をめる。
i) If S≠0 (al First, by Fourier transform, X (Si2.
ωk).

(創り) 次に1’ (311,ωk)をめる。(Creation) Next, add 1' (311, ωk).

ごごで XR(SR,ωk) 、 Xr (SR,ωk)の符号
が(+、 +)または(+、−)のときはP (SR+
 ωk) = jan−” (XI (SR,ωk)/
XR(SR,ωi+)) 符号が(−、+)のときは P (SR,(dk、 ) = tan−” (XI(
SR,ωk)/XR(SR,ωk))+π 符号が(−、−)のときは P (SR,ωk) = tan−” (XI(St?
、 ωlO/XR(SR,ωk))−π である。
When the sign of XR (SR, ωk) and Xr (SR, ωk) is (+, +) or (+, -), P (SR+
ωk) = jan-” (XI (SR, ωk)/
XR (SR, ωi +)) When the sign is (-, +), P (SR, (dk, ) = tan-" (XI (
SR, ωk)/XR(SR, ωk)) + π When the sign is (-, -), P (SR, ωk) = tan-" (XI(St?
, ωlO/XR(SR, ωk))−π.

101 さらに I P (SR,ωk ’)−P((S−1) R,ω
k) 1〈ε但し、εは定数 であるか否かを判定する。
101 Furthermore, I P (SR, ωk')-P((S-1) R, ω
k) 1<ε However, it is determined whether ε is a constant.

(di そしてこれが止しいときは P (SR,(ilk) =p((S−1)R,ωk)
 +P C5R,ωk)−P((S−1) R,ωk) とする。
(di And when this stops, P (SR, (ilk) = p ((S-1)R, ωk)
+P C5R, ωk) - P((S-1) R, ωk).

(d′)また(C)が正しくないときは、まず絶対値の
中の符号が(−)のときに p (SR,ωk) =p((S−1) +5.ωk)
 +P (St?、ωk)−P((S−1) R,ωk
)+2π 符号が(+)のときに p (SR,ωk) =p((S−1) R,ωk) 
+P (SILωk)二P((S−1) R,ωk)−
2π とする。
(d') Also, if (C) is incorrect, first, when the sign of the absolute value is (-), p (SR, ωk) = p ((S-1) +5. ωk)
+P (St?, ωk)-P((S-1) R, ωk
)+2π When the sign is (+), p (SR, ωk) = p((S-1) R, ωk)
+P (SILωk)2P((S-1) R, ωk)-
Let it be 2π.

以上によって位相が連続化されるーさらに一ヒ述の合成
時のシフト量の変更を行ゲrbsる場合に、エンコード
及びデコードに於し)て、ノくンド゛1t11+渉を防
ぐため、シフト量の変更に応じて R゛ p (SR,ωk)→p(S15.ωk) ・−とする
。これによって位相の不連続によるノイズの発生が防止
される。
As described above, the phase is made continuous.Furthermore, when changing the shift amount during synthesis as described above, in order to prevent interference in encoding and decoding, the shift amount must be changed. According to the change, Rp (SR, ωk)→p(S15.ωk) -. This prevents noise from occurring due to phase discontinuity.

こうしてスピーチコントロールが行われるねむすである
が、この装置によればフーリエ変換にて周波数軸に変換
された信号を位相1IIl11整した後Gこ合成するよ
うにしたので、極めて高品質の信号が得られ、信号の不
連続や欠落等のない良好なスピーチコントロールが行わ
れる。
This is how speech control is performed, but with this device, the signal converted to the frequency axis by Fourier transform is phase-aligned and then synthesized by G, so an extremely high quality signal can be obtained. This provides good speech control without signal discontinuities or dropouts.

ところでこの装置におい゛乙抽出される時間長しと、シ
フト量Rとの間には、音質の変化を生じないためには例
えば抽出の窓係数にハミングラインドウを用いている場
合で、R<−−−Lとする制約がある。このためスピー
チコントロールの変化の単位を細かくとろうとすると、
Lが極めて大きくなる問題を生じる。
By the way, in this device, in order to avoid a change in sound quality between the time length extracted and the shift amount R, for example, when a Hamming line is used as the extraction window coefficient, R< ---There is a restriction that it is L. For this reason, if you try to take small units of change in speech control,
A problem arises in that L becomes extremely large.

すなわち、例えば10kHzでサンプリングされた信号
に対して、L=128点でウィンドウをかけてlフレー
ムとし、これをR−32点ずつシフトして抽出を行って
いる場合に、R’ =31点とし°ζ位相1 調整し、合成を行うと、−に時間短縮された信号2 が取り出される。これによって−の時間の変化が2 得られる。
In other words, for example, if a signal sampled at 10 kHz is windowed at L = 128 points to make one frame, and this is shifted by R - 32 points for extraction, then R' = 31 points. By adjusting the °ζ phase 1 and performing synthesis, a signal 2 whose time has been shortened to - is extracted. This gives a - change in time of 2.

ところがこの変化の単位を細かくし、例えば必要になり
、抽出時間長も4 L必要になる。
However, if the unit of this change is made smaller, for example, it becomes necessary, and the extraction time length becomes 4 L.

そしてこのようにLが大きくなると、フーリエ変換の際
の演算量が増加し、処理時間が増大したり、処理のため
のハードウェアが大きくなるなどの問題があった。
When L becomes large in this way, there are problems such as an increase in the amount of calculation during Fourier transform, an increase in processing time, and an increase in the size of hardware for processing.

発明の目的 本発明はこのような点にかんがみ、演算量を増やすこと
なく、変化の(14位を細かくできるようにするもので
ある。
OBJECTS OF THE INVENTION In view of these points, the present invention makes it possible to finely refine the (14th) position of change without increasing the amount of calculations.

発明の概要 本発明は、人力された音声信号を任意の時間間隔ごとに
任意の時間長ずつ抽出する手段と、この抽出された各フ
レームごとにフーリエ変換し゛C時間軸を周波数軸に変
換する手段と、この変換された1ば号の位相を調整する
手段と、この位相IM整された信号を逆フーリエ変換し
て周波数軸を時間軸に逆変換する手段と、この逆変換さ
れた信号を所定の倍率で補間する手段と、この補間され
た信号を所望の時間間隔ごとに順次合成すると共に任意
に時間軸を一伸縮して出力する手段とを有して成るスピ
ーチコントロール装置であっC1これによれば演算量を
増やすことなく、変化の単位を細かくすることができる
SUMMARY OF THE INVENTION The present invention provides means for extracting human-generated audio signals at arbitrary time intervals and arbitrary lengths of time, and means for performing Fourier transform on each extracted frame to convert the time axis into the frequency axis. , a means for adjusting the phase of the converted signal No. 1, a means for performing an inverse Fourier transform on this phase IM adjusted signal to inversely transform the frequency axis into a time axis, and a means for inversely converting the inversely transformed signal into a predetermined value. C1 is a speech control device comprising means for interpolating at a magnification of Accordingly, the unit of change can be made finer without increasing the amount of calculation.

実施例 第6図におい°ζ、逆フーリエ変換後の乗算器(11)
の後に補間回路(31)を設ける。そしてこの補間回路
(31)に”ζ、ずば号を例えば4倍に補間する。
In FIG. 6 of the embodiment, °ζ, multiplier (11) after inverse Fourier transform
An interpolation circuit (31) is provided after. Then, the interpolation circuit (31) interpolates the "ζ" and "Zuba" numbers, for example, by four times.

ずなわら、例えば乗算器(11)から第7図Aに示すよ
うなサンプリング周期ごとのG8号がi47られた場合
に、−この各信号の間に第7図Bに示すようにそれぞれ
3点の補間を行う。なお2重丸はノじの14号を示す。
For example, when the G8 signal for each sampling period as shown in FIG. 7A is input from the multiplier (11), three points are generated between each signal as shown in FIG. 7B. performs interpolation. The double circle indicates Noji No. 14.

これによってメモリ (12) (13)によ5りる合
成では、第7図Cに示すように4R点に対して1点ずつ
のシフトを行うことができる。ずなわぢ従来′は2重丸
の元の信号の位置にしかシフトできなかったが、補間に
よりその−の位置へシフトするごとができる。例えばL
=128、R−32だった場合るごとかできる。
As a result, in the synthesis using memories (12) and (13), the 4R points can be shifted one point at a time, as shown in FIG. 7C. In the conventional Zunawaji system, it was possible to shift only to the position of the original signal of the double circle, but by interpolation, it is possible to shift to the negative position. For example, L
= 128, if it was R-32, everything would be possible.

さらにメモリ (13)からの信号の取り出しに際して
、クロック周波数を従来の4倍にし、DA変換回路(1
4)にて4倍のクロックで変換を行うか、メモリ (1
3)からの信号を−に間引いて、従来と同じDA変換を
行う。
Furthermore, when taking out the signal from the memory (13), the clock frequency is increased four times that of the conventional one, and the DA conversion circuit (13) is
4), or use memory (1
The signal from 3) is decimated to - and the same DA conversion as before is performed.

p′ 従って例えばR’=125とした場合に、処理回(12
)、(13)にてR’=125のシフト量で合成ツクで
取り出し、時間を元の信号と同じように戻下された信号
が取り出される。
p' Therefore, for example, when R' = 125, processing times (12
), (13), a signal is extracted by synthesis with a shift amount of R'=125, and a signal whose time has been returned to the same level as the original signal is extracted.

このようにして音声信号の速度及び音程を任意に変える
ことができる。そしてこの場合に、フーリエ変換及び逆
変換の演算量は従来と同じであり、この逆変換後に補間
を行うことでシフト量の変化単位が細かくなる。
In this way, the speed and pitch of the audio signal can be changed arbitrarily. In this case, the amount of calculation for the Fourier transform and the inverse transform is the same as in the conventional method, and by performing interpolation after the inverse transform, the unit of change in the shift amount becomes finer.

さらにこの補間後の信号に応じてあらかじめ位相調整を
行うことにより、音質の劣化等のない良好な制御を行う
ことができる。
Further, by performing phase adjustment in advance according to the interpolated signal, good control without deterioration of sound quality can be performed.

なお、合成時のメモリの容量が補間の分多く必要となる
が、演算部に比べてそのハードウェアの量は問題になら
ない。
Although a larger memory capacity is required for the interpolation during synthesis, the amount of hardware involved is not a problem compared to the arithmetic unit.

発明の効果 本発明によれば、演算量を増やすことなく、変化の単位
の細かい、良好なスピーチコントロールを行うことがで
きるようになった。
Effects of the Invention According to the present invention, it has become possible to perform fine speech control in units of change without increasing the amount of calculations.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来の装置の説明のための図、第2図〜第5図
は本願発明者が先に提案したスピーチコントロール装置
の説明のための図、第6図は本発明の一例の構成図、第
7図はその説明のための図である。 (1)は入力端子、(2)はAD変換回路、(3)、(
4)、(12)、(13)はバッツァメモリ、(5)、
曽、(9)、(11)は乗算器、(6)はフーリエ変換
回路、(8)は処理回路、α0)は逆フーリエ変換回路
、(14)はDA変換回路、(15)は出力端子、(3
1)は補間回路である。 手Uさネ市正宿二 昭和59年 5月 10日 特許庁長官 若 杉 和 夫 殿 メジ1、事件の表示 昭和58年 特 許 願 第250781号2°Q I
JJ O)’r511; ユ、−ヶヨッ1、。−751
3、補正をする者 事件との関係 特許出願人 住 所 東京部品用区北品用6丁目7番35号名称(2
’1B)ソニー株式会社 代表取締役 大 賀 典 雄 4、代理人 住 所 東京都新宿区西新宿1丁目8番1号置 03−
343−5821&0(新宅ビル)6、袖正により増加
する発明の数 (1) 特許請求の範囲を別紙の通り訂正する。 (2) 明細書中、第3頁2行〜第4頁2行「第2図・
・・ 供給される。」とあるを次の通り訂正する。 1−第2図において、あらかじめ、マイクロホン等によ
り電気的信号に変換され、遮断周波数3.2kllzの
低域通過フィルタを通された音声信号が入力端子(1)
に供給される。この入力音声信号は、6’、4kllz
(周期的158μs)の変換クロックにより駆動されて
いる1語12ビツトのAD変換器(2)により順次、こ
のクロンクパルスの割合で1語12ピントのデジタルデ
ータに変換される。AD変換器(2)は、6.4kll
zのクロックで駆動されている1i!12ビツトより成
る256語のシフトレジスタ(3)に接続されており、
駆動クロックの1パルスがシフトレジスタ(3)に供給
されるごとに、シフトレジスタ(3)は、1 if!、
第2図において右(以−ト、「左」、「右」という語を
、第2図において左、右という意味で用いることにする
)にシフトされ、AD変換器(2)の出力データが1語
、シフトレジスタ(3)の左より、シフトレジスタ(3
)に人いる。 Jなわちシフトレジスタ(3)には、AD変換器(2)
によって生成された、一連の256語のデジタルデータ
がはいっており、AD変換器(2)が、デジタルデータ
を1語、生成するごとに、シフトレジスタ(3)は、1
語、右にシフトされ、その内容が更新されて行く。 ここで、第2図における(4)以下の信号の具体的な流
れについて説明する前に、短時間フーリエ解析について
、一般的な事柄を述べておく。 例えば、「あいうえお」という音声信号を考えてみると
、「あ」という音が発せられている時間と、1い」とい
う音が発せられている時間とでは、音声を発しているヒ
トの口や声道の形状がことなっている。すなわち「あい
うえお」という音声信号は、時間とともにその特性が変
化してゆく物理的実体から発せられた信号であり、定常
信号とは見做せない。 このように、音声信号や音楽信号などは、それを発して
いる物理的実体の特性が、時間とともに変化しており、
一般に定常信号と見做ずことはできず、定常信号を対象
にしたフーリエスペクトラム解析を直接に適用すること
は不可能である。しかしながら、先はどの例の「あいう
えお」について百うと、「あ」、1−い」、「う」、1
゛え」。 「お」の各々の音声を発している時間内では、ヒトの口
や声道の形状は、はぼ一定しており、その時間内に信号
を限定すれば、定常信号と見做せる。 そこで、フーリエ変換する領域を、定常と見做せる時間
の区間に限定し、フーリエ変換をおこない、その区間を
次々に更新してゆき得られるフーリエスペクトラムを用
いれば、非定常ではあるが、短時間の区間については定
常であるような、音声信号や音楽信号に対してフーリエ
解析が可能になる。 このようなフーリエ解析は、短時間フーリエ解析と呼ば
れζいる。 数式を用いてさらに説明しよう。人力信号x (tlを
、サンプリングに得られるデータ列を(X(→)(m=
0.1.2.・・・・)としたとき、上述した事柄は、
定常とみなせるデータの部分列(x (m+SR) )
m=0.1.−・・; S =0.1.・・= (R,
Mはある整定数)の変数mについて、有限の部分列(x
(m+SR) ) m=0+L・・・・、 M−1の端
部がスペクトルに及ばず影響を減じる窓係数(h(−m
)) (m=0.1.・・・・、M−1)を乗じた後、
変数mについ°ζ離散的フーリエ変換をおこない、短時
間フーリエスペクトラムX (SR,k) (S=0.
1.・・・・+M−1;に=0.1,2.・・・・、M
−1)を得る、ということになる。 2π 第8図より明らかなように、Rは分析すると区間の更F
iWkであり、以下のような制約がある。 (A)式より 2π m+5R=fとおくと 2π −(B) 窓係数(h (m目(rn−0,1,2,”、 M−1
)の定義を、mについて一■〜十閃まで拡大し”乙とす
ると 9π −(C) すなわち、X(SR,k)は、第9図に示すように第1
番目の変数SRについて、データ列口+(m)) とを
、たたみ込んだデータ列、X(S、k)(S=0.1.
2.旧・)をR−1データおきに再サンプリングしたも
のになワており、デジタル信号インパルスレスポンス(
h (m) ) ヲ有−J−る線形デジタルシステムに
入力した出方を、R−1データおきに再サンプリングし
たものと解釈できる。 故に、分析する区間の更新1iRXlは、サンプリング
定理が示すように、 の第1番目の変数mについての帯 域中〕 でなければならない。 (X (m、k) ) (m=0.1.2.・・”)の
帯域中は、(m = 01112.・・・・)に依存す
るわけであるが、その上限は、図に於ける、インパルス
レスポンス(h(m))を有する線形デジタルシステム
のローパス特性でおさえられるから、 の第1番目の変数mについての帯 域中〕 ≧2x ((h(m) ) (m”’O,Lt2.−”
)の帯域+1J ) −−(D ) すなわぢRば、 一(E) でなければならない。 一例として、M=256. (h (m) )としてハ
ミング窓係数とすると窓係数b (rn) = 0.5
4−0.46 cos(2πm/ 255 ) (m=
0.11・−、255)を用いるとすると、(h (m
) ) (m=0.1,2.・−、255)のローパス
部分の帯域中は、約42dBまで減衰するかって、Rは
、上式の関係から、 R≦□−64 ■ でなければならない。 第2図において、(41、(51、(61、(71で上
述した、短時間フーリエ変換をおこなっている。M =
 256、分析窓係数として、ハミング窓係数h(rn
)−0,54−0,46Xcos (2πm/255)
 (m−0,1,2゜・・・・+ 255 ) 、R=
 64としている。上述の例で明りかなように、R=6
4は、(E)式を満たしている。 以下、具体的に述べる。 1語12ビツト、 256語より成るシフトレジスタ(
3)の内容は、AD変換器(2)の駆動クロックを64
分周したクロックの1パルス(すなわち、64x(AD
変換(2)の駆動クロック周期、約158μ5ec)(
秒))ごとに同じく、1語12ビツト、 256語より
成るシフトレジスタ(4)にランチされる。ラッチされ
た256緒のデータは、シフトレジスタ(4)に供給さ
れる8M1lz(周期125 n 5ec)のりC17
りのタイミングで、1語右ヘシフトされ、12ビツトよ
り成る2つの入力端子、および23ビツトより成る1つ
の出力端子を有する乗算器(5)の一方の入力端子へお
くりこまれる。一方、この同じクロックのタイミングで
、乗算器(5)のもう一方の入力端子へ、あらかじめR
OMに貯えである、ハミング窓係数h (m)= 0.
54−0.46cos (2πm/ 255 ) (r
n = 0.1,2゜・・・・、 255 )が、−語
ずつ、m−(L1+2+・・・・の順に、おくりこまれ
、この2つの人力の積が、乗算器(5)の出力として、
人力データがセットされ”ζから100 n sec後
に、乗算器(5)の出力端子にセットされる。 この、乗算器(5)の23ピツ]・より成る出力結果は
、乗算器(5)に人力データを送りこむタイミングクロ
ックのタイミングで(すなわぢ、125 n secご
とに) F F T (Fast Fourier T
ransform)変換器(6)へ送りこまれる。FF
T変換器(6)は、こうして送りごまれる1語23ビツ
トのデータが256語になると、この1語23ビツト、
 256語のデータに対しζ、FFTをおこない実部、
虚部ともに16ビツトから成る、256語の複素データ
を生成する。 さて、FFT変換器(6)への、256語の入力データ
を(y(m)) (m=0.1.・・・・+ 255 
)出力データを(Y (k) (k=0.1.2.・・
・・、 255 )とすると、FFTの定義より、 2π −(F) 一方、この人力データ(y (In) ) (rn=o
lil・・・・、255)の短時間フーリエスペクトラ
ムは(A)式より、 2π したが二で、(Y (10) (k=0.1.2.・・
・・、255)と(X (64S、k )) (k=0
.1.2.・・・・、 255 )とは、 2π (k=0.1,2.・・・・、 255 )−(H) という関係がある。よって、FFT変換器(6)の出2
π 人力データX(m)の短時間フーリエスペクトラムが得
られることになる。これを、乗算器(7)でおこなう。 すなわち、FFT変換器(6)で生成された、実部、虚
部ともに16ビツトから成る256語の複素データは、
周期125 n seeのクロックのタイミングで、実
部、虚部ともに16ビツトより成る2つの複素データ入
力端子、および実、虚部ともに16ビツトより成る1つ
の出力端子を有する乗算器(7)の一方の入力端子へお
くりこまれる。一方、この同じクロックのタイミングで
、乗算器(7)のもう一方の入力端子へ、あらかじめ用
窓されている、上述の係数、2π 2、・・・・、 255 )が−語ずつおくりこまれた
、この2つの人力の積が、乗算器(7)の出力として、
入力データがセントされ°ζから100 n sec後
に、乗算器(7)の出力端子にセットされる。この出力
結果は、乗算器(7)に入力データを送りこむクロック
のタイミングで1語ずつ、全部で256語がスペクトラ
ム変形回路(8)へ送りごまれる。」 (3) 同、第4頁3行、第5頁20行、第17頁7〜
8行にそれぞれ「処理回路」とあるを「スペクI・ラム
変形回路」と訂正する。 (4) 同、第4貝7行〜第5頁6行「この処理回路・
・・取り出される。」とあるを次の通り訂正する。 1゛スペクトラム変形路(8)により変形された、1語
が実部、虚部ともに16ビツトより成る256語の複素
データは、(9)、顛、(11) 、(12) 、(1
3) 。 (14)で時間領域の信号に変換される。 (9)〜(14)の流れを具体的に説明する前に、(9
)〜(14)に関しての、一般的な関係について述べて
おく。 先に述べたように、変形された短時間フーリエスペクト
ラムX (Slj’ 、 k ) (S=0.1.2.
・・・・;k = 0.1.2.・・・・、トl)は、
短時間フーリエスペクトラムX (S、k) (S=0
.1,2.・・・・;k”’Otl+2、・・・・、ト
l)を、第1番目の変数Sについ”C1R′−1データ
おきに再サンプリングしたものである。そこで、変形さ
れた短時間フーリエスペクトラムX (SR’ 、 k
) (S=0.1,2.・・・・1k=(Ll、2.・
・・・、トl)から、時間領域の信号を作成するには、
X (SR’ 、 k) (S=0.1.2.・・・・
;に=0.1,2.・・・・、トl)を補間して、X 
(S、k) (S=0.1.2.・・・・; k =0
.1,2.・・・・、ト1)を作り、X (S、k) 
(S=0.1.2.・・・・、 k = 0.1.2.
・・・・。 ト1)を逆離散的フーリエ変換すれば良い。すなわち、
X (SR’ 、 k)の第1番目の変数に関し”ζ、
各々、隣りのデータの間に0をR′−1個つめた^ データX(S、k) を1乍り、M(固のデータ(f (m) ) (m=0
.1.−・・、ト1)をインパルスレスポンスとしC持
つローパスフィルタに通して、X(S、k)を−作る。 式%式% ′ゾ(β、k)の定義より m= −■ この後、X(S、k)を第2番目の変数、kに関して、
逆離散的フーリエ変換して、出力信号(y(S))(S
=0.1.2.・・・・)を得る。これも式で書くと、
以下のようになる。 2π −(I) R’ =Rかつスペクトラムを操作しないときは、入力
信号がそのまま出力信号にならねばならない。 そのためには、上式より、 y (S) = x (S) ところで、 であるから A=S−pM(p :変数)とおく =(J) 故に、(h(m))と(f (m) )とが、全てのS
について、 m=−■ −(K) となることが必要である。さて、(I)式より、と書く
と、 ・・・・) (f (m) )はm = 0.L2+”
 ” t M−1でのみ0でないので f (S−mR’) ・x (mR’ 、S)は、S=
mR’ + mR’ + 1+ ・・・・、 mR’ 
+M −1(n =S−mR’ + n =Ot1.・
・” + M−1)の部分だけが0でない。したがって
、R′として、r−R′=M (r :正の整定数)と
、Mを割り切るように選ぶと、 (m−1)R’ +y1≦S≦mR’+M−1(m=0
.l、2.・・・・) と、有限回の加算で(−y(S)) (S=0.1.2
.・・・・)が逐次求まる。 また、x (mR+s)をめる際にFFTを使うには、
FFT変換されたデータと短時間フーリエスペクトラム
データとの間に(H)式の関係がある2π 0.11・・・・、 M−1i S−0,1,2,・・
・・;R′、整定数)を乗じたのちに、FFTを施せば
良い。 第2図において具体的に述べる。なお以下の説明ではR
’=64とする。 スペクトラム変形回路(8)により変形された、実部、
虚部ともに16ビツトより成る256語の短時間フーリ
エスペクトラムX (64S、k) (k=0.1.2
゜・・・・、 255 )は、周期125 n sec
のクロックのタイミングで、k=o、1.2.・・・・
の順に1語ずつ、実部、虚部ともに16ビツトより成る
2つの複素データ入力端子、および、実部、虚部ともに
16ビツトより成る1つの出力端子を有する乗u (9
)へおくりこまれる。一方、その同じクロックのタイミ
ングで、あらかじめ用意されている。上述の係数9π ・・+ 255 )かに−0,1,2,・・・・の順に
1語ずつ、乗算器(9)のもう一方の入力端子に送り出
され、この2つの入力の積が、乗算器(9)の出力とし
て、入力データが乗算器(9)にセントされてから、1
00 n sec後に、乗算器(9)の出力端子にセッ
トされる。この出力結果は、乗算器(9)に入力データ
を送りこむクロックのタイミングで1語ずつ、計256
語が、逆FFT変換器(lfflへ送りこまれる。 逆FFT変換器叫は、こうして送りこまれる実部、虚部
ともに16ビツトより成るデータが256語になると、
このデータに対し、逆FFTをおこない、1語16ビツ
トから成る256語の時間領域のデータを生成する。こ
の1語16ビツトから成る256語のデータは、周期1
25 n secのクロックのタイミングで、16ビツ
トより成る2つの入力端子、および16ビツトより成る
1つの出力端子を有する乗算器(11)の一方の入力端
子へおくりこまれる。 一方、この同じクロックのタイミングで、乗算器(11
)のもう一方の入力端子へ、あらかじめ、ROMに用意
されている、上述した関係式(K)がm=LL2+・・
・・の順に1語ずつ、おくりこまれ、この2つの入力の
積が、乗算器(11)の出力として、入力データがセッ
トされてから100 n sec後に、乗算器(11)
の出力端子にセットされる。 この出力結果は、乗算器(11)に入力データを送りこ
むクロックのタイミングで1語ずつ、全部で256語、
シフトレジスタ(12)へ送りこまれる。 シフトレジスタ(12)は、1語16ビツト、256語
より成り、乗算器(11)の乗算結果を送出する。 周期125 n secの同じクロックで駆動されてお
り、乗算器(11)から、乗算結果が1語おくりこまれ
るごとに、1語、右ヘシフトされる。こうして、シフト
レジスタ(12)に、256語の、乗算器(11)の乗
算結果がはいると、シフトレジスタ(12)は、シフト
禁止の状態になりシフトレジスタ(12)の256語が
、1語16ビツト、 256語より成るシフトレジスタ
(13)の各々、対応する語ごとに加算され、加算結果
が、シフトレジスタ(13)の各々の対応する語へ入れ
られる。 このシフトレジスタ(13)には、AD変換器(2)を
駆動している6、4kHzのクロックが供給されており
、上述の加算が終了すると、この6.4kHzのクロッ
ク、1パルスごとにシフトレジスタ(13)が、1語右
ヘシフトされ、16ビツトAD変換器(14)に、lデ
ータ送出される。他方、このシフトにより、シフトレジ
スタ(13)には、左より、0の値を有するデータが1
語入れられる。こうしてシフトレジスタ(13)はシフ
トをR’=64回おこない、64出力データをDA変換
器におくりこむ。 16ビツトDA変換器(14)は、6.4kllzのク
ロックのタイミングでおくられてくるli!16ビツト
のデータを逐次、アナログ電圧値に変換し、出力端子(
15)に出力する。」 (5) 同、第6頁1行「れて位相・・・信号が」とあ
るを1゛れる。この信号が」と訂正する。 (6) 同、同頁11行、15行、末社、第7頁3行に
そする。 (7) 同、第7頁IO行「に対して」の後に[窓係数
h(m)を掛けて、」を加入する。 (8) 同、同頁13行1°変換して、」の後に1−ス
ペクトラムX2 (SR,ω)は、」を加入する。 (9) 同、同頁16行 とあるを と訂正する。 (lO)同、第8頁7〜14行1h(m)=1z・・で
きる。」とあるを次の通り訂正する。 rh (m) =1 f (m) = 0.5−0.5cos (2πm/ 
(N 1) >m=0、・・・N−1 低域成分の方が大きいときは h (m) =0.54−0.46 cos (2yc
m/ (N −1) )m=0、・・・N−1 f (m)=R’ /Σh 1 とすることにより音質を向上させることができる。 なお、h (m)=Oということは、乗算器(5)につ
いては何も行わないことに相当する。」(11)同、第
9頁6〜9行1位相の1値を、・・・位相を」とあるを
次の通り訂正する。 [とする、このとき位相の1値を P (SR,ωk) とすると、P (SR,ωk)は −π≦P’ (SR,ωk)<π の値をとり、位相の不連続となる部分が存在する。 そこでこの不連続を取り除いた位相を」(12)同、第
10頁10行「さらに」の後に]゛不連続な部分を判別
するために」を加入する。 (13)同、第13頁11行〜第14頁1行1−人力さ
れた・・・スピーチコントロール装置」とあるを次の通
り訂正する。 1−人力された音声信号に任意の時間間隔ごとにその時
間間隔により制限される時間以上の長さ及び係数を有す
る窓関数を掛けて抽出する手段と、この抽出された信号
ごとにフーリエ変換して時間軸を周波数軸に変換する手
段と、この変換された信号の位相を調整する手段と、こ
の位相調整された信号を逆フーリエ変換して周波数軸を
時間軸に逆変換する手段と、この逆変換された信号を所
定の倍率で補間する手段と、この補間された信号に上記
窓関数により規定される時間長及び係数を有する窓関数
を掛けて上記任意の時間間隔ごとに順次合成すると共に
任意に時間軸を伸縮して出力する手段とを有して成るス
ピーチコントロール装置」 と訂正する。 (16)同、第17頁1行「第5図」とあるを[第5図
、第8図、第9図」と訂正する。 (17)図面中、第8図、第9図を別紙の通り追加する
。 以上 特許請求の範囲 入力された音声信号に任意の時間間隔ごとにその時間間
隔により制限される時間以上の長さ及び係数を有する窓
関数を掛けて抽出する手段と、この抽出された信号ごと
にフーリエ変換して時間軸を周波数軸に変換する手段と
、この変換された信号の位相を調整する手段と、この位
相調整された信号を逆フーリエ変換して周波数軸を時間
軸に逆変換する手段と、この逆変換された信号を所定の
倍率で補間する手段と、この補間された信号に」二記窓
関数により規定される時間長及び係数を有する窓関数を
掛け”C上記任意の時間間隔ごとに順次合成すると共に
任意に時間軸を伸縮して出力する手段とを有し°ζ成る
スピーチコントロール装置。
FIG. 1 is a diagram for explaining a conventional device, FIGS. 2 to 5 are diagrams for explaining a speech control device previously proposed by the inventor of the present application, and FIG. 6 is a configuration of an example of the present invention. 7 are diagrams for explaining the same. (1) is an input terminal, (2) is an AD conversion circuit, (3), (
4), (12), (13) are Bazza memory, (5),
Zeng, (9) and (11) are multipliers, (6) is a Fourier transform circuit, (8) is a processing circuit, α0) is an inverse Fourier transform circuit, (14) is a DA conversion circuit, and (15) is an output terminal. ,(3
1) is an interpolation circuit. Teusane City Seishuku 2 May 10, 1980 Director-General of the Patent Office Kazuo Wakasugi Tono Meji 1, Indication of the Case 1982 Patent Application No. 250781 2°Q I
JJ O)'r511; -751
3. Relationship with the case of the person making the amendment Patent applicant address: 6-7-35, Kitashina-yo, Tokyo Parts-Yo-ku Name (2
'1B) Representative Director of Sony Corporation Norio Ohga 4, Agent Address: 1-8-1 Nishi-Shinjuku, Shinjuku-ku, Tokyo 03-
343-5821&0 (Shintaku Building) 6. Number of inventions increased due to sleeve correction (1) The scope of claims is amended as shown in the attached sheet. (2) In the specification, page 3, line 2 to page 4, line 2 “Figure 2.
... will be supplied. ” is corrected as follows. 1- In Figure 2, an audio signal that has been converted into an electrical signal using a microphone or the like and passed through a low-pass filter with a cutoff frequency of 3.2kllz is input to the input terminal (1).
supplied to This input audio signal is 6', 4kllz
An AD converter (2) of 12 bits per word driven by a conversion clock (periodically 158 μs) sequentially converts each word into 12 bits of digital data at the rate of this clock pulse. AD converter (2) is 6.4kll
1i driven by the clock of z! It is connected to a 256-word shift register (3) consisting of 12 bits,
Every time one pulse of the driving clock is supplied to the shift register (3), the shift register (3) outputs 1 if! ,
In FIG. 2, the output data of the AD converter (2) is shifted to the right (the words "left" and "right" will be used to mean left and right in FIG. 2). 1 word, from the left of shift register (3), shift register (3)
) There are people in In other words, the shift register (3) has an AD converter (2).
A series of 256 words of digital data generated by the AD converter (2) is input, and each time the AD converter (2) generates one word of digital data, the shift register (3)
The word is shifted to the right and its contents are updated. Here, before explaining the specific flow of signals below (4) in FIG. 2, general matters regarding short-time Fourier analysis will be described. For example, if we consider the audio signal "Aiueo", the time when the sound "A" is being made and the time when the sound "1i" is being made differ depending on the mouth of the person making the sound. The shape of the vocal tract is different. In other words, the audio signal "Aiueo" is a signal emitted from a physical entity whose characteristics change over time, and cannot be regarded as a stationary signal. In this way, the characteristics of the physical entity that emits audio signals, music signals, etc. change over time.
In general, it cannot be regarded as a stationary signal, and it is impossible to directly apply Fourier spectrum analysis to stationary signals. However, let's talk about which examples of "aiueo" are "a", "1-i", "u", and "1".
Yeah.” The shape of the human mouth and vocal tract remains fairly constant during the time each "o" sound is uttered, and if the signal is limited to that time, it can be regarded as a steady signal. Therefore, if we limit the region to be Fourier transformed to a time interval that can be considered stationary, perform Fourier transform, and use the Fourier spectrum obtained by updating that interval one after another, it is possible to Fourier analysis becomes possible for audio signals and music signals that are stationary in the interval. This kind of Fourier analysis is called short-time Fourier analysis. Let's explain further using mathematical formulas. Let the human signal x (tl be the data string obtained by sampling (X(→)(m=
0.1.2. ), the above-mentioned matters are
Subsequence of data that can be considered stationary (x (m+SR))
m=0.1. −...; S =0.1. ...= (R,
For a variable m of a certain integer constant M, a finite subsequence (x
(m+SR)) m=0+L..., window coefficient (h(-m
)) After multiplying by (m=0.1...,M-1),
Discrete Fourier transform of °ζ is performed on the variable m, and the short-time Fourier spectrum X (SR, k) (S=0.
1. ...+M-1; = 0.1, 2. ..., M
-1). 2π As is clear from Figure 8, when analyzed, R is the length of the interval F
iWk, and has the following restrictions. From formula (A), if we set 2π m+5R=f, then 2π − (B) Window coefficient (h (mth (rn-0, 1, 2,”, M-1
) is expanded from 1 to 10 flashes with respect to m and set to 9π - (C).In other words, X(SR,k) becomes the first
For the th variable SR, the data string is convolved with the data string +(m)), X(S, k)(S=0.1.
2. The old ) is resampled every R-1 data, and the digital signal impulse response (
h(m)) It can be interpreted that the output input to the linear digital system is resampled every R-1 data. Therefore, the update 1iRXl of the interval to be analyzed must be in the band for the first variable m, as shown by the sampling theorem. In the band of (X (m, k) ) (m=0.1.2..."), it depends on (m = 01112...), but its upper limit is shown in the figure. Since it is suppressed by the low-pass characteristic of a linear digital system with an impulse response (h(m)) at , Lt2.-”
) band + 1J) --(D) That is, R must be 1 (E). As an example, M=256. If (h (m) ) is the Hamming window coefficient, the window coefficient b (rn) = 0.5
4-0.46 cos(2πm/255) (m=
0.11・−, 255), then (h (m
)) In the low-pass band of (m=0.1, 2. -, 255), it is attenuated to about 42 dB.In other words, from the relationship in the above equation, R must be R≦□-64 ■ . In FIG. 2, the short-time Fourier transform described above is performed in (41, (51, (61, (71).M =
256, Hamming window coefficient h(rn
)-0,54-0,46Xcos (2πm/255)
(m-0,1,2°...+255), R=
It is set at 64. As is clear from the example above, R=6
4 satisfies formula (E). The details will be explained below. A shift register (12 bits per word, 256 words)
The content of 3) is that the drive clock of the AD converter (2) is set to 64
One pulse of the divided clock (i.e. 64x (AD
Drive clock period of conversion (2), approximately 158μ5ec) (
Similarly, each word is launched into a shift register (4) consisting of 256 words, 12 bits per second). The latched 256 pieces of data are transferred to the 8M1lz (period 125 n 5ec) gate C17 which is supplied to the shift register (4).
At the same timing, the data is shifted one word to the right and fed into one input terminal of a multiplier (5) having two input terminals of 12 bits and one output terminal of 23 bits. On the other hand, at this same clock timing, R
Hamming window coefficient h (m) = 0. stored in OM.
54-0.46cos (2πm/255) (r
n = 0.1, 2゜..., 255) are carried in the order of m-(L1+2+...), word by word, and the product of these two human forces is calculated by the multiplier (5). As the output,
The human input data is set to the output terminal of the multiplier (5) after 100 n sec from ζ. At the timing of the timing clock that sends human data (every 125 nsec) F F T (Fast Fourier T
transform) is sent to the converter (6). FF
When the data of 23 bits per word sent in this way becomes 256 words, the T converter (6) converts the 23 bits per word,
ζ, FFT is performed on the data of 256 words, and the real part is
Generates 256 words of complex data in which both the imaginary part consists of 16 bits. Now, the input data of 256 words to the FFT converter (6) is (y(m)) (m=0.1...+255
) output data (Y (k) (k=0.1.2...
..., 255), then from the definition of FFT, 2π - (F) On the other hand, this human data (y (In) ) (rn=o
From equation (A), the short-time Fourier spectrum of lil..., 255) is 2π but 2, and (Y (10) (k=0.1.2...
..., 255) and (X (64S, k )) (k=0
.. 1.2. ..., 255) has the following relationship: 2π (k=0.1, 2..., 255) - (H). Therefore, output 2 of FFT converter (6)
π A short-time Fourier spectrum of the human power data X(m) will be obtained. This is done by the multiplier (7). In other words, the 256 words of complex data generated by the FFT converter (6), consisting of 16 bits for both the real and imaginary parts, are as follows:
One of the multipliers (7) which has two complex data input terminals each consisting of 16 bits for both the real and imaginary parts and one output terminal consisting of 16 bits for both the real and imaginary parts at the timing of a clock with a period of 125 n see. is sent to the input terminal of On the other hand, at the timing of this same clock, the above-mentioned coefficients, 2π 2,..., 255), which have been pre-windowed, are transferred - word by word to the other input terminal of the multiplier (7). In addition, the product of these two human forces is the output of the multiplier (7),
The input data is set to the output terminal of the multiplier (7) after 100 n sec from °ζ. This output result is sent word by word to the spectrum modification circuit (8), 256 words in total, at the timing of the clock that sends the input data to the multiplier (7). (3) Same, page 4, line 3, page 5, line 20, page 17, line 7-
In each of the 8th line, the words "processing circuit" are corrected to "Spec I/RAM transformation circuit." (4) Same, 4th shell, line 7 to page 5, line 6 “This processing circuit...
...is taken out. ” is corrected as follows. 1゛The complex data of 256 words, each word consisting of 16 bits for both the real and imaginary parts, transformed by the spectrum transformation path (8) is as follows: (9), (11), (12), (1
3). The signal is converted into a time domain signal in (14). Before specifically explaining the flow of (9) to (14), (9)
) to (14), the general relationships will be described below. As mentioned earlier, the transformed short-time Fourier spectrum X (Slj', k) (S=0.1.2.
...; k = 0.1.2. ..., Tol) is,
Short-time Fourier spectrum X (S, k) (S=0
.. 1, 2. . . .;k'''Otl+2, . Therefore, the transformed short-time Fourier spectrum X (SR', k
) (S=0.1, 2....1k=(Ll, 2..
..., To create a time domain signal from
X (SR', k) (S=0.1.2...
;to=0.1,2. ..., Tol) is interpolated, and X
(S, k) (S=0.1.2...; k =0
.. 1, 2. ..., make G1) and X (S, k)
(S=0.1.2..., k=0.1.2.
.... 1) may be subjected to inverse discrete Fourier transform. That is,
Regarding the first variable of X (SR', k), ``ζ,
For each, add R'-1 0 between adjacent data ^ data
.. 1. -..., G1) is passed through a low-pass filter with C as an impulse response to produce -X(S, k). From the definition of the expression % expression % ′zo(β, k), m= −■ After this, let X(S, k) be the second variable, and with respect to k,
Perform inverse discrete Fourier transform to obtain output signal (y(S))(S
=0.1.2. ...) is obtained. If we also write this as a formula,
It will look like this: 2π - (I) R' = R and when the spectrum is not manipulated, the input signal must become the output signal as it is. For that purpose, from the above formula, y (S) = x (S) By the way, since , we set A = S - pM (p: variable) = (J) Therefore, (h (m)) and (f ( m) ) is all S
It is necessary that m=-■-(K). Now, from equation (I), if we write...) (f (m)) is m = 0. L2+”
” Since t is not 0 only at M-1, f (S-mR') ・x (mR', S) is S=
mR' + mR' + 1+ ..., mR'
+M −1(n = S−mR' + n = Ot1.・
・"+M-1) is not 0. Therefore, if R' is chosen to divide M, r-R'=M (r: positive integer constant), (m-1)R '+y1≦S≦mR'+M-1 (m=0
.. l, 2. ...), and with a finite number of additions (-y(S)) (S=0.1.2
.. ...) are found sequentially. Also, to use FFT when calculating x (mR+s),
There is a relationship of equation (H) between FFT-transformed data and short-time Fourier spectrum data 2π 0.11..., M-1i S-0,1,2,...
...; R', an integer constant), and then perform FFT. This will be explained in detail in FIG. In the following explanation, R
'=64. The real part, transformed by the spectrum transformation circuit (8),
Short-time Fourier spectrum of 256 words with both imaginary parts consisting of 16 bits X (64S, k) (k=0.1.2
゜..., 255) is a period of 125 n sec
At the clock timing of k=o, 1.2.・・・・・・
The power u (9
). On the other hand, the same clock timing is prepared in advance. The above coefficients 9π...+255) are sent one word at a time in the order of -0, 1, 2,... to the other input terminal of the multiplier (9), and the product of these two inputs is , as the output of the multiplier (9), the input data is sent to the multiplier (9) and then 1
After 00 n seconds, it is set to the output terminal of the multiplier (9). This output result is a total of 256 words, word by word, at the timing of the clock that sends input data to the multiplier (9).
Words are sent to the inverse FFT converter (lffl).The inverse FFT converter outputs 256 words, both the real and imaginary parts of which are 16 bits.
An inverse FFT is performed on this data to generate time domain data of 256 words each consisting of 16 bits. This 256-word data consisting of 16 bits per word has a period of 1
At a clock timing of 25 n sec, it is fed into one input terminal of a multiplier (11) having two input terminals each consisting of 16 bits and one output terminal consisting of 16 bits. On the other hand, at the timing of this same clock, the multiplier (11
), the above-mentioned relational expression (K) prepared in advance in the ROM is m=LL2+...
The product of these two inputs is input to the multiplier (11) 100 n seconds after the input data is set.
is set to the output terminal of This output result is 256 words in total, one word at a time at the timing of the clock that sends input data to the multiplier (11).
It is sent to the shift register (12). The shift register (12) consists of 256 words of 16 bits per word, and sends out the multiplication results of the multiplier (11). They are driven by the same clock with a period of 125 n sec, and each time the multiplication result is carried over from the multiplier (11) by one word, it is shifted to the right by one word. In this way, when the multiplication result of the multiplier (11) of 256 words is entered into the shift register (12), the shift register (12) becomes in a shift prohibited state and the 256 words of the shift register (12) become 1 Each of the shift registers (13), each consisting of 16 bits and 256 words, is added for each corresponding word, and the addition result is placed into the corresponding word of each shift register (13). This shift register (13) is supplied with a 6.4kHz clock that drives the AD converter (2), and when the above-mentioned addition is completed, this 6.4kHz clock is shifted every pulse. The register (13) is shifted one word to the right and l data is sent to the 16-bit AD converter (14). On the other hand, due to this shift, data having a value of 0 is transferred to the shift register (13) from the left to 1.
It can be put into words. In this way, the shift register (13) performs shifting R'=64 times and sends 64 output data to the DA converter. The 16-bit DA converter (14) receives li! which is sent at a clock timing of 6.4kllz. The 16-bit data is sequentially converted to an analog voltage value, and the output terminal (
15). ” (5) Same, page 6, line 1, “The phase...signal” is 1. "This signal," he corrected. (6) Same page, lines 11 and 15, and Susha, page 7, line 3. (7) Similarly, on the 7th page, IO line, after "for", add "multiply by window coefficient h(m)". (8) Same page, line 13, after converting by 1 degree, 1-spectrum X2 (SR, ω) is added after ". (9) Same, same page, line 16 is corrected. (lO) Same, page 8, lines 7-14 1h(m)=1z...can be done. ” is corrected as follows. rh (m) = 1 f (m) = 0.5-0.5cos (2πm/
(N 1) >m=0,...N-1 When the low frequency component is larger, h (m) = 0.54-0.46 cos (2yc
The sound quality can be improved by setting m/(N-1))m=0,...N-1 f(m)=R'/Σh1. Note that h (m)=O corresponds to doing nothing with the multiplier (5). "(11) Same, page 9, lines 6 to 9, 1 value of 1 phase... phase" should be corrected as follows. [In this case, if one value of the phase is P (SR, ωk), P (SR, ωk) takes a value of -π≦P' (SR, ωk) < π, and the phase becomes discontinuous. Part exists. Therefore, the phase after removing this discontinuity is added.'' (12) After ``Further'' on page 10, line 10, ``To determine the discontinuous portion.'' is added. (13) In the same article, page 13, line 11 to page 14, line 1, line 1 - ``Speech control device operated manually'' is corrected as follows. 1- Means for extracting a human-generated audio signal by multiplying it at each arbitrary time interval by a window function having a length and coefficient longer than the time limited by the time interval, and Fourier transform for each extracted signal. means for converting the time axis into the frequency axis by using the method; means for adjusting the phase of the converted signal; means for inversely converting the phase-adjusted signal from the frequency axis to the time axis; means for interpolating the inversely transformed signal at a predetermined magnification, multiplying the interpolated signal by a window function having a time length and a coefficient defined by the window function, and sequentially synthesizing the signals at each arbitrary time interval; "A speech control device comprising means for arbitrarily expanding or contracting the time axis and outputting it." (16) Same, page 17, line 1, ``Figure 5'' is corrected to ``Figure 5, Figure 8, Figure 9''. (17) Figures 8 and 9 will be added to the drawings as shown in the attached sheet. What is claimed is: a means for multiplying and extracting an input audio signal for each arbitrary time interval by a window function having a length and a coefficient longer than the time limited by the time interval, and for each extracted signal. means for converting the time axis into the frequency axis by Fourier transform; means for adjusting the phase of this converted signal; and means for inversely converting the frequency axis into the time axis by performing inverse Fourier transform on the phase-adjusted signal. , a means for interpolating this inversely transformed signal at a predetermined magnification, and a means for multiplying this interpolated signal by a window function having a time length and a coefficient defined by the window function 2. A speech control device comprising: means for sequentially synthesizing each segment, and arbitrarily expanding/contracting the time axis and outputting the output.

Claims (1)

【特許請求の範囲】[Claims] 入力された音声信号を任意の時間間隔ごとに任意の時間
長ずつ抽出する手段と、この抽出された各フレームごと
にフーリエ変換し°ζ時間軸を周波数軸に変換する手段
と、この変換された信号の位相を調整する手段と、この
位相調整された信号を逆フーリエ変換し′ζ周波数軸を
時間軸に逆変換する手段と、この逆変換された信号を所
定の倍率で補間する手段と、この補間された信号を所望
の時間間隔ごとに順次合成すると共に任意に時間軸を伸
縮して出力する手段とを有して成るスピーチコントロー
ル装置。
A means for extracting an input audio signal by an arbitrary time length at an arbitrary time interval, a means for performing a Fourier transform on each extracted frame and converting the °ζ time axis into a frequency axis, means for adjusting the phase of the signal; means for performing inverse Fourier transform on the phase-adjusted signal to inversely transform the ′ζ frequency axis into the time axis; and means for interpolating the inversely transformed signal at a predetermined magnification; A speech control device comprising means for sequentially synthesizing the interpolated signals at desired time intervals and arbitrarily expanding or contracting the time axis for output.
JP58250781A 1983-12-27 1983-12-27 Speech controller Pending JPS60140298A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58250781A JPS60140298A (en) 1983-12-27 1983-12-27 Speech controller

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58250781A JPS60140298A (en) 1983-12-27 1983-12-27 Speech controller

Publications (1)

Publication Number Publication Date
JPS60140298A true JPS60140298A (en) 1985-07-25

Family

ID=17212946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58250781A Pending JPS60140298A (en) 1983-12-27 1983-12-27 Speech controller

Country Status (1)

Country Link
JP (1) JPS60140298A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62159196A (en) * 1985-12-31 1987-07-15 協同電子システム株式会社 Time base compressor/extender
JPS6348919A (en) * 1986-08-19 1988-03-01 Fujitsu Ltd Automatic gain control system by digital signal processor

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62159196A (en) * 1985-12-31 1987-07-15 協同電子システム株式会社 Time base compressor/extender
JPH0465398B2 (en) * 1985-12-31 1992-10-19 Kyodo Denshi Shisutemu Kk
JPS6348919A (en) * 1986-08-19 1988-03-01 Fujitsu Ltd Automatic gain control system by digital signal processor

Similar Documents

Publication Publication Date Title
JP4726875B2 (en) Audio signal processing method and apparatus
JPS5853352B2 (en) speech synthesizer
US7612281B2 (en) Reverberation effect adding device
US5502277A (en) Filter device and electronic musical instrument using the filter device
JPH04289900A (en) Digital pitch shifter
JPS60140298A (en) Speech controller
US4897654A (en) Digital-analog converting method, and apparatus therefor
JPH09321860A (en) Reverberation elimination method and equipment therefor
JP3419865B2 (en) Noise reduction device
JPS61286900A (en) Signal processor
JPS6017120B2 (en) Phoneme piece-based speech synthesis method
WO2002084885A1 (en) High frequency signal construction method and apparatus
JPH01144814A (en) Sound field reproducing device
JP3197648B2 (en) Digital filter
JP3419866B2 (en) Noise reduction device
JPS60140942A (en) Signal transmitter
JPS60129797A (en) Pitch controller
JPH04104200A (en) Device and method for voice speed conversion
JP5092902B2 (en) FIR filter coefficient calculation device, FIR filter device, and FIR filter coefficient calculation program
JPS60127823A (en) Band compressing and expanding device
TW305929B (en) Method of changing the tone and the speed of sounds by using differential mean absolute error
JP4132693B2 (en) equalizer
JPH02149011A (en) Sampling frequency converting device
JPH02187797A (en) Electronic musical instrument
JP3018745B2 (en) Music processing unit