JPH0833752B2 - Speech synthesizer - Google Patents

Speech synthesizer

Info

Publication number
JPH0833752B2
JPH0833752B2 JP62335476A JP33547687A JPH0833752B2 JP H0833752 B2 JPH0833752 B2 JP H0833752B2 JP 62335476 A JP62335476 A JP 62335476A JP 33547687 A JP33547687 A JP 33547687A JP H0833752 B2 JPH0833752 B2 JP H0833752B2
Authority
JP
Japan
Prior art keywords
time
current
phoneme
wave
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62335476A
Other languages
Japanese (ja)
Other versions
JPH01177098A (en
Inventor
典雄 須田
貴博 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Original Assignee
Meidensha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp filed Critical Meidensha Corp
Priority to JP62335476A priority Critical patent/JPH0833752B2/en
Priority to CA000564051A priority patent/CA1334868C/en
Priority to CN88102086A priority patent/CN1020358C/en
Priority to EP88105993A priority patent/EP0287104B1/en
Priority to DE8888105993T priority patent/DE3866926D1/en
Priority to KR88004224A priority patent/KR970011021B1/en
Publication of JPH01177098A publication Critical patent/JPH01177098A/en
Priority to US07/540,864 priority patent/US5097511A/en
Publication of JPH0833752B2 publication Critical patent/JPH0833752B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 A.産業上の利用分野 本発明は、音響管モデルを利用した音声合成装置に関
するものである。
DETAILED DESCRIPTION OF THE INVENTION A. Field of Industrial Application The present invention relates to a speech synthesizer using an acoustic tube model.

B.発明の概要 本発明は人間の声道を音響管群とみなし、これをサー
ジインピーダンス成分の回路要素群に対応させることに
よって、回路要素群の出力端の電流波に基づいて音声を
模擬的に作り出す装置において、 音節を構成する各音素毎に各音素の発生時間を複数の
時間帯に区分し、各時間毎に音響管の断面積等の音素パ
ラメータを指定し、この音素パラメータを指定関数から
取り出した漸化式に従って補間処理することによって、 滑らかで人間の音声に近似した音声を作り出すように
したものである。
B. SUMMARY OF THE INVENTION The present invention regards the human vocal tract as an acoustic tube group and associates it with a circuit element group having a surge impedance component, thereby simulating voice based on a current wave at the output end of the circuit element group. In the device to be created, the generation time of each phoneme is divided into multiple time zones for each phoneme that makes up the syllable, the phoneme parameters such as the cross-sectional area of the acoustic tube are specified for each time, and this phoneme parameter is specified. By performing the interpolation process according to the recurrence formula extracted from, the smooth voice that is close to the human voice is created.

C.従来の技術 音声合成やミュージックシンセサイザー(電子楽器)
等の所謂音を人工的に合成して出力する電子装置は、最
近になって1ないし数チップの音声認識や音声合成のLS
Iが音声情報処理と半導体の大規模集積回路技術により
低価格で実現されるようになり、その使用目的,制約条
件により種々の方式が提案されている。この音声合成に
は、人間の発生した生の音声を録音しておき、これを適
当に結合して文章に編集する録音編集方式と、人間の声
を直接的には利用せず、人間の音声のパラメータだけを
抽出し、音声合成過程で、そのパラメータを制御して人
工的に音声信号を作り出すパラメータ方式がある。
C. Conventional technology Speech synthesis and music synthesizer (electronic musical instrument)
Recently, electronic devices that artificially synthesize and output so-called sounds such as LS have been used for LS for voice recognition and voice synthesis of one or several chips.
I has come to be realized at a low price by means of voice information processing and semiconductor large-scale integrated circuit technology, and various methods have been proposed depending on the purpose of use and constraints. In this speech synthesis, a raw voice generated by a human being is recorded, and the recording and editing method in which the raw voice is appropriately combined and edited into a sentence, and the human voice is not directly used. There is a parameter method in which only the parameter of (1) is extracted and the parameter is controlled to artificially generate a voice signal in the voice synthesis process.

パラメータ方式においては、音声波形をある周期毎に
サンプリングして各サンプリング点での音声信号の値を
アナログ/ディジタル変換し、その値を0と1の符号で
表示して行われるが、アナログ信号に忠実な記録をする
ためには、ビット数を増やす必要があり、このため大き
なメモリ容量を必要とする。
In the parameter method, the voice waveform is sampled at a certain cycle, the value of the voice signal at each sampling point is converted from analog to digital, and the value is displayed as a code of 0 and 1. In order to perform faithful recording, it is necessary to increase the number of bits, which requires a large memory capacity.

そこで、この情報量を極力少なくするために各種の高
能率な符号化法が研究開発されている。
Therefore, various highly efficient coding methods have been researched and developed in order to reduce the amount of this information as much as possible.

その方法の一つとして、1つの音声信号の情報に最低
限1ビットを対応させたデルタ変調方式がある。この方
式は、1ビットの使い方として、次にくる音声信号値が
現在の値より高いか低いかを判定して、高ければ符号
“1"、低ければ符号“0"を与え、音声信号の符号化を行
うもので、実際のシステム構成としては一定の振幅ステ
ップ量(デルタ)を定めておき、誤差が蓄積されないよ
うに今までの符号化によって得られる音声の値と、入力
してくる音声信号との残差信号に対して、符号化を行
う。
As one of the methods, there is a delta modulation method in which information of one audio signal corresponds to at least 1 bit. This method uses one bit to judge whether the next audio signal value is higher or lower than the current value, and if the value is higher, the code "1" is given, and if the value is lower, the code "0" is given. In the actual system configuration, a certain amplitude step amount (delta) is set, and the audio value obtained by the encoding so far and the input audio signal are stored so that errors are not accumulated. The residual signals of and are encoded.

このような構成予測コード化といわれ、線形予測法
(何個か前のサンプル値から予測する)およびパーコー
ル方式(線形予測法の予測係数の代わりにパーコール係
数kといわれる偏自己相関関数を用いる)がある。
This type of configuration predictive coding is called linear prediction method (predicting from several previous sample values) and Percoll method (a partial autocorrelation function called Percoll coefficient k is used instead of the prediction coefficient of the linear prediction method). There is.

D.発明が解決しようとする問題点 従来の音声合成方式のうち録音編集方式は、合成でき
る語彙や文章の種類が限定されるという問題がある。
D. Problems to be Solved by the Invention Among the conventional speech synthesis methods, the recording / editing method has a problem that the vocabulary and the types of sentences that can be synthesized are limited.

また予測コードを用いた方式では、音と音との継ぎ目
に相当する調音結合が難しくて合成単位の結合法が確立
しておらず、例えば母音から子音を経て母音に至る発声
において、母音の定常から過渡を経て子音に至りまた母
音の過渡を経て母音の定常音に至る過程で母音と母音の
継ぎ目の音が跡切れてしまう。従って音の滑らかさに欠
け、人間が聞いたときに自然な感じを与えないという問
題がある。
Further, in the method using the prediction code, it is difficult to combine articulatory sounds corresponding to the joints between sounds, and a combining unit method has not been established.For example, in utterances from vowels to consonants to vowels, vowel stationary The sound of the joint between the vowel and the vowel is cut off in the process from the transition of the vowel to the consonant and the transition of the vowel to the stationary sound of the vowel. Therefore, there is a problem that the sound is not smooth and does not give a natural feeling to humans.

本発明の目的は、任意な語彙、文章を合成することが
でき、しかも音が滑らかであって人間の実際の音声に近
く、自然な感じを聞く人に与えることのできる音声合成
装置を提供することにある。
An object of the present invention is to provide a speech synthesizer capable of synthesizing an arbitrary vocabulary and sentence, and having a smooth sound and being close to an actual human voice and giving a natural feeling to a listener. Especially.

E.問題点を解決するための手段及び作用 (1) 基本概念 音声を口から外に放射するためには、音源が必要で、
この音源は声帯によって作り出される。一方声帯は2枚
のヒダを開閉することによって呼気を断続的に止める働
きがあり、その断続によってパフと呼ばれる空気流が発
声し、声帯を緊張させるとこのヒダに張力が加わりヒダ
の開閉の周波数が高くなり、周波数の高いパフ音が発生
する。そして呼気流を大きくすると大きな音となる。
E. Means and Actions for Solving Problems (1) Basic Concept A sound source is required to emit sound from the mouth,
This sound source is produced by the vocal cords. On the other hand, the vocal cords have the function of intermittently stopping exhalation by opening and closing two folds. Due to the intermittent flow, an air flow called a puff is produced, and when the vocal cords are tensioned, tension is applied to these folds and the frequency of opening and closing the folds. Becomes higher and a high frequency puff sound is generated. And when the expiratory flow is increased, a loud sound is produced.

この音源波が声道のような円筒状の音響管を通過する
と、開放端から音波は共振現象によりある成分が強調さ
れ、ある成分が減弱し複雑な母音の波形が作り出され
る。そして口から発せられる音声は、音源波が同じ波形
をもっていても、口唇から放射されるまでに通過する声
道の形によって影響を受ける。即ち、人間の発生音は、
声帯から口唇までの声道の長さや断面積及び声帯の震わ
せ方等によって決定される。
When this sound source wave passes through a cylindrical acoustic tube such as the vocal tract, a certain component of the sound wave is emphasized by the resonance phenomenon from the open end, and a certain component is attenuated to form a complicated vowel waveform. The voice uttered by the mouth is affected by the shape of the vocal tract that passes through until it is radiated from the lips, even if the source waves have the same waveform. That is, the human generated sound is
It is determined by the length and cross-sectional area of the vocal tract from the vocal cords to the lips, and how the vocal cords tremble.

本発明はこのようなことに着目してなされたものであ
り、上記の声道を複数の可変断面積の音響管群にみな
し、更に音響管の音波の伝達を表わす進行波現象をその
等価回路により実現することを出発点としている。声道
を音響管とみなすと、各音響管の中の音波の伝搬は前進
波と後進波に分けて各音響管の境界面における反射、透
過現象の繰り返しとして考えることができ、このときそ
の反射と透過は境界面における音響的特性インピーダン
スの不整合の度合い、即ち互いに隣接する音響管の各断
面積の比に応じて定量的に規定される。ここで上記の反
射,透過現象は、電気回においてインピーダンスの異な
る線路にインパルス電流を流したときの過渡現象と同じ
である。
The present invention has been made paying attention to such a point, and the above vocal tract is regarded as a group of acoustic tubes having a plurality of variable cross-sectional areas, and a traveling wave phenomenon representing transmission of sound waves of the acoustic tube is equivalent to its equivalent circuit. The starting point is to realize by. When the vocal tract is regarded as an acoustic tube, the propagation of sound waves in each acoustic tube can be divided into a forward wave and a backward wave, which can be considered as repeated reflection and transmission phenomena at the boundary surface of each acoustic tube. And transmission are quantitatively defined according to the degree of mismatch of the acoustic characteristic impedance at the boundary surface, that is, the ratio of the cross-sectional areas of adjacent acoustic tubes. Here, the above-mentioned reflection and transmission phenomena are the same as the transient phenomena when an impulse current is passed through lines having different impedances in an electric circuit.

(2) 等価回路 このようなことからn個の音響管S1〜Snよりなる音
響管モデルを第1図(ア)に示すと、このモデルは第1
図(ロ)に示すような抵抗の無い無損失のサージインピ
ーダンス成分よりなる回路要素群(T1〜Tn)を直列に
接続した電気回路として表わすことができる。A1〜An
は夫々音響管S1〜Snの断面積である。ここに本発明で
は、基本的には上記の電気回路を適用して、これに供給
するインパルス電流と各回路要素T1〜Tnのサージイン
ピーダンスを変化させることによって、音響管モデルの
音源波と各音響管の断面積とを変化させることに対応さ
せ、最終段の回路要素Tnから出力される電流をスピー
カ等の発声部に供給することによって、音響管モデルか
ら得られる音声を模擬的に作り出している。
(2) Equivalent circuit For this reason, when an acoustic tube model composed of n acoustic tubes S 1 to S n is shown in FIG.
It can be represented as an electric circuit in which a circuit element group (T 1 to T n ) composed of a lossless surge impedance component without resistance as shown in FIG. A 1 to A n
Are cross-sectional areas of the acoustic tubes S 1 to S n , respectively. In the present invention, basically, the above electric circuit is applied to change the impulse current supplied to the electric circuit and the surge impedance of each of the circuit elements T 1 to T n to obtain the sound source wave of the acoustic tube model. Corresponding to changing the cross-sectional area of each acoustic tube, the current output from the circuit element T n at the final stage is supplied to the voicing section such as a speaker to simulate the sound obtained from the acoustic tube model. Is producing.

具体的には、第1図(ウ)に示すように上記の電気回
路と等価な回路を想定し、この等価回路における電流源
の電流を時間に対して変化させると共に、後述するよう
に演算式中には音響管の断面積比が導入されるので、各
断面積A1〜Anを時間に対して変化させ、これによって
各部の電流値を演算により求めている。同図においてP
は電流源、Z0は電流源のインピーダンス、Z1〜Zn
夫々回路要素T1〜Tnのサージインピーダンス、ZL
放射インピーダンス、i0A〜i(n-1)A,i1B〜inB,a0A
(n-1)A,a1B〜anBは各々記号の該当する電流路の電
流、W0A〜W(n-1)A,W1B〜WnBは電流源、I0A〜I
(n-1)Aは後進波電流、I1B〜InBは前進波電流を示す。
この等価回路においては、例えば回路要素T1,T2の結合
部分に着目すると、回路要素T1中をT2に向かって流れ
る電流I1Bに対応させた電流源W1Aと、回路要素T2
をT1に向かって流れる電流I1Aに対応させた電流源W
1Aとを想定し、電流I1Bが回路要素T1,T2の境界にてT
1へ反射される反射波電流i1BとT2へ透過する透過波電
流a1Aとに分かれ、また電流I1Aが回路要素T2,T1の境
界にてT2へ反射される反射波電流i1AとT1へ透過する
透過波電流a1Bとに分かれることを等価的に表わしたも
のである。また同図(エ)はこうした様子を模式的に示
す模式図である。
Specifically, as shown in FIG. 1 (c), a circuit equivalent to the above electric circuit is assumed, the current of the current source in this equivalent circuit is changed with time, and an arithmetic expression as described later is given. Since the cross-sectional area ratio of the acoustic tube is introduced therein, each cross-sectional area A 1 to A n is changed with time, and the current value of each part is calculated by this. P in the figure
Is a current source, Z 0 is an impedance of the current source, Z 1 to Z n are surge impedances of the circuit elements T 1 to T n , Z L is a radiation impedance, and i 0A to i (n-1) A , i 1B to i nB , a 0A ~
a (n-1) A , a 1B to a nB are currents in corresponding current paths indicated by symbols, W 0A to W (n-1) A , W 1B to W nB are current sources, and I 0A to I
(n-1) A is backward wave current, I 1B ~I nB indicates the forward wave current.
In this equivalent circuit, for example, when attention is paid to the binding portion of the circuit element T 1, T 2, a current source W 1A made to correspond to the current I 1B flowing toward the middle circuitry T 1 to T 2, the circuit elements T 2 A current source W corresponding to a current I 1A flowing in the inside toward T 1.
Assuming a 1A, T current I 1B is at the boundary of the circuit element T 1, T 2
The reflected wave current i 1B reflected to 1 and the transmitted wave current a 1A transmitted to T 2 are separated, and the reflected wave current I 1A is reflected to T 2 at the boundary between the circuit elements T 2 and T 1. It is equivalently expressed that it is divided into i 1A and the transmitted wave current a 1B which is transmitted to T 1 . Further, FIG. 4D is a schematic diagram schematically showing such a situation.

(3) 演算 先ず第1図(ウ)の第1段目の電流源Pを含むブロッ
クは、第2図に示すように二つの回路の重ね合わせと考
えることができる。従って電流源Pの電圧をVとおく
と、同図の電流a1,a2は夫々(1),(2)式で表わさ
れ、この結果電流a0Aは(3)式で表わされる。
(3) Calculation First, the block including the first-stage current source P in FIG. 1C can be considered as a superposition of two circuits as shown in FIG. Therefore, assuming that the voltage of the current source P is V, the currents a 1 and a 2 in the figure are expressed by equations (1) and (2), respectively, and as a result, the current a 0A is expressed by equation (3).

1=V/Z0+Z1 ……(1) a2=Z0/Z0+Z1・I01 ……(2) a0A=a1+a2 =1/Z0+Z1(V+Z0・I0A) ……(3) 今、初めて等価回路中に電流を供給していくとする
と、I0Aを零とすることによりa0Aが求まる。そしてこ
の値を基にして順次に演算が実行される。図中左端に位
置する1段目のブロック及び2段目のブロックの電流値
の演算式を例にとると、以下の(4)〜(12)式のよう
に表わされる。
a 1 = V / Z 0 + Z 1 (1) a 2 = Z 0 / Z 0 + Z 1 · I 01 (2) a 0A = a 1 + a 2 = 1 / Z 0 + Z 1 (V + Z 0 · I 0A ) (3) Now, assuming that current is supplied to the equivalent circuit for the first time, a 0A can be obtained by setting I 0A to zero. Then, the calculation is sequentially executed based on this value. Taking the arithmetic expressions of the current values of the first block and the second block located at the left end in the figure as an example, they are expressed as the following equations (4) to (12).

0A′=1/Z0+Z1(V′+Z0・I0A) ……(4) i0A′=a0A′−I0A ……(5) I0A′=i1B′+a1B ……(6) a1B′=S1B(I1B+I1A) ……(7) i1B′=a1B′−I1B ……(8) I1B′=i0A′+a0A′ ……(9) a1A′=S1A(I1B+I1A) ……(10) i1A′=a1A′−I1B ……(11) I1A′=i2B′+a2B′ ……(12) このような計算を進めていくと、最終段のブロックに
関する演算式は(13)〜(15)式のように表わされる。
a 0A ′ = 1 / Z 0 + Z 1 (V ′ + Z 0 · I 0A ) (4) i 0A ′ = a 0A ′ −I 0A …… (5) I 0A ′ = i 1B ′ + a 1B …… (6) a 1B ′ = S 1B (I 1B + I 1A ) ... (7) i 1B ′ = a 1B ′ −I 1B …… (8) I 1B ′ = i 0A ′ + a 0A ′ …… (9) a 1A '= S 1A (I 1B + I 1A) ...... (10) i 1A' = a 1A '-I 1B ...... (11) I 1A' = i 2B '+ a 2B' ...... (12) such As the calculation progresses, the equations for the final block are expressed as equations (13) to (15).

nB′=ZL/Zn+ZL・InB ……(13) inB′=anB′−InBnB′=i(n-1)A+a(n-1)A ……(14) こうして最終段の音響管Snより発せられる音波に対
応する電流inBが求められる。ただしS1B,S1Aは各々互
いに隣接する音響管の断面積比で表わされる係数であ
り、夫々(15),(16)式で表わされる。
a nB ′ = Z L / Z n + Z L · I nB …… (13) i nB ′ = a nB ′ −I nB I nB ′ = i (n-1) A + a (n-1) A ...... ( 14) Thus, the current i nB corresponding to the sound wave emitted from the final stage acoustic tube S n is obtained. However, S 1B and S 1A are coefficients represented by the cross-sectional area ratios of the acoustic tubes adjacent to each other, and are represented by the equations (15) and (16), respectively.

1B=A1/A1+A2 ……(15) S1A=A2/A1+A2 ……(16) 1段目から最終段目までのブロックの電流値の一連の
演算は瞬時に実行され、これら演算が所定のタイミング
をとって次々に行われていく。ここに上記の(4)〜
(14)式において、ダッシュの付いた値は時刻tにおけ
る演算値、ダッシュの付かない値は時刻tにおける演算
の1回前における演算により求めた演算値である。こう
して求めたデジタル値であるinBをデジタル/アナログ
変換してアナログ電流を作り、この電流をスピーカー等
に供給することにより音声を得る。前記演算のタイミン
グについては、音速を考慮して決定され、例えば各音響
管の1本の伝搬時間を演算の時間間隔とすることによっ
て、後進波電流I0A〜I(n-1)A及び前進波電流I1B〜I
nBが音速と同じ速度で各回路要素T1〜InA中を流れる
状態と等価な状態を作り出し、これにより音響管モデル
と電気回路モデルとを整合させている。
S 1B = A 1 / A 1 + A 2 (15) S 1A = A 2 / A 1 + A 2 (16) A series of calculation of the current value of the block from the first stage to the final stage is instantaneous It is executed and these calculations are performed one after another at a predetermined timing. Here (4)-
In the equation (14), a value with a dash is a calculated value at the time t, and a value without a dash is a calculated value obtained by the calculation one time before the calculation at the time t. The digital value i nB thus obtained is subjected to digital / analog conversion to create an analog current, and a voice is obtained by supplying this current to a speaker or the like. The timing of the calculation is determined in consideration of the speed of sound and, for example, by setting the propagation time of one of the acoustic tubes as the time interval of the calculation, the backward wave currents I 0A to I (n-1) A and the forward wave current are forwarded. Wave current I 1B ~ I
nB is created a state equivalent to a state flowing in each circuit element T 1 ~I n A at the same speed as the speed of sound, and thereby align the acoustic tube model and the electric circuit model.

本発明は以上のような等価モデルと演算の実現を基調
としたものであり、具体的には、音節を構成する各音素
毎に各音素の発生時間を複数の時間帯に区分し、各時間
帯毎に、音源波の繰り返し周波数であるピッチ、この音
源波のエネルギー及び音響管の断面積の各初期値と当該
時間帯の前記各初期値Xoから次の時間帯の各初期値Xr
への変化の仕方を規定した時定数と音源波パターンとを
格納する音素パラメータ格納部と、入力された音素デー
タに対応する前記ピッチ,エネルギー及び断面積の補間
処理を行うパラメータ補間処理部と、ここで補間処理さ
れたパラメータに基づいて前記回路要素群の出力端から
出力される電流値を演算する演算部と、この演算部の演
算結果に基づいて音声を発生する発声部とを備え、前記
パラメータ補間処理部は、前記各時間帯の間に前記初期
値Xoと目標値に相当する前記Xrとを用いて多数回補間
演算を行い、この補間演算は、n番目の補間演算値をX
(n)、前記時定数をDで表わしたときに、 X(n)=D{Xr−X(n−1)}+X(n−1) で示される漸化式に従って実行されるようにしたもので
ある。
The present invention is based on the realization of the equivalent model and calculation as described above. Specifically, the generation time of each phoneme is divided into a plurality of time zones for each phoneme that constitutes a syllable, and each time for each band, a repetition frequency of the sound source wave pitch, each initial value X r of the next time period from the initial values Xo for the initial value and the time zone of the cross-sectional area of the energy and acoustic tube of the sound wave
A phoneme parameter storage unit that stores a time constant and a sound source wave pattern that defines the manner of change to, a parameter interpolation processing unit that performs interpolation processing of the pitch, energy, and cross-sectional area corresponding to the input phoneme data, An arithmetic unit for calculating a current value output from the output end of the circuit element group based on the parameter interpolated here, and a voicing unit for generating a voice based on the arithmetic result of the arithmetic unit, parameter interpolation processing unit performs a number of times the interpolation calculation using said X r the equivalent to the initial value Xo and the target value during each time period, the interpolation operation, the n-th interpolation operation value X
(N), when the time constant is represented by D, it is executed according to a recurrence formula represented by X (n) = D { Xr- X (n-1)} + X (n-1). It was done.

F.実施例 第1図は本発明の実施例のブロック構成を示す図であ
る。1は日本語処理部であり、入力された日本語文章に
対して文節の区切りや辞書を参照して読みがな変換等を
行う。2は文章処理部であり文章にイントネーションを
付ける処理を行う。3は音節処理部であり、文章を構成
する音節に対して、イントネーションに応じたアクセン
トを付ける。例えば「さくらがさいた」という文章に対
して「SA」,「KU」,「RA」…というように音節に分解
し、各音節に対してアクセントを付ける。音のイントネ
ーションは後述する音源波の繰り返し周波数、そのエネ
ルギー及び時間で決まることから、アクセントを付ける
とは、これらパラメータに対する係数を決定することで
ある。4は音素処理部、41は音節パラメータ格納部で
あり、音素処理部4は、入力された「SA」…等の音節デ
ータに対し、音節と母音及び子音の単位である音素との
対応関係を規定した音節パラメータ格納部41内のデー
タを参照して音素に分解する処理、例えば音節「SA」に
対し、音素「S」,「A」を取り出す。
F. Embodiment FIG. 1 is a diagram showing a block configuration of an embodiment of the present invention. Reference numeral 1 denotes a Japanese language processing unit, which performs illegible conversion and the like on the input Japanese sentence by referring to a segment break or a dictionary. Reference numeral 2 denotes a text processing unit, which performs processing to add intonation to text. A syllable processing unit 3 attaches an accent according to the intonation to the syllables forming the sentence. For example, the sentence "Sakura ga sai" is decomposed into syllables such as "SA", "KU", "RA", etc., and each syllable is accented. Since the intonation of a sound is determined by the repetition frequency of a sound source wave, its energy and time, which will be described later, adding an accent means determining the coefficient for these parameters. 4 phoneme processor, 4 1 are syllable parameter storage unit, the phoneme processor 4 is input to the "SA" ... etc. syllable data, correspondence between the phoneme is a unit of syllable and vowels and consonants Processing for decomposing into phonemes by referring to the data in the syllabic parameter storage unit 4 1 which defines, for example, the phonemes "S" and "A" are extracted for the syllable "SA".

5はパラメータ補間処理部、51は音素パラメータ格
納部、52は音源パラメータ格納部である。音素パラメ
ータ格納部51は第4図に示すように各音素の発声時間
を複数例えば3つの時間帯01〜03に区分し、各時間帯
毎に継続時間音源波の繰り返し周波数であるピッチ、こ
の音源波のエネルギー及び音響管の断面積の各初期値と
当該時間帯の前記各初期値から次の時間帯の各初期値へ
の変化の仕方を規定した時定数と音源波パターンとを格
納している。この実施例では、人間の声道(男性の場合
約17cm)を長さ1cmの音響管を17個連接したものでモデ
ル化しており、このため断面積値は1つの時間帯当たり
17個(A1〜A17)定められている。また音源パラメー
タ格納部52には、例えば第5図に示すように3種類の
音源波パターンG1〜G3の波形成分が50個のサンプルデ
ータとして格納されている。前記パラメータ補間処理部
5は、各時間帯(O1〜O3)におけるピッチ,エネルギ
ー及び断面積の補間処理を行う部分であり、この処理は
当該時間帯のピッチ,エネルギー及び断面積の各パラメ
ータの初期値をXoとし、次の時間帯の初期値をXr,n番
目の補間演算値をX(n)、各パラメータに対応する時
定数をDで表わすと、次の(17)式に示す漸化式に従っ
て当該時間帯の間にn回演算を行う処理である。ただし
初期値X(O)は上記のXoである。
Reference numeral 5 is a parameter interpolation processing unit, 5 1 is a phoneme parameter storage unit, and 5 2 is a sound source parameter storage unit. As shown in FIG. 4, the phoneme parameter storage unit 5 1 divides the utterance time of each phoneme into a plurality of, for example, three time zones 0 1 to 0 3 , and a pitch that is a repetition frequency of a continuous time source wave for each time zone. , The initial value of the energy of this sound source wave and the cross-sectional area of the acoustic tube, and the time constant and the sound source wave pattern that specify the method of changing from the initial value of the time zone to the initial value of the next time zone. Is stored. In this example, the human vocal tract (about 17 cm for a male) is modeled by connecting 17 acoustic tubes each having a length of 1 cm. Therefore, the cross-sectional area value per one time zone is calculated.
17 pieces (A 1 to A 17 ) are defined. Also the tone generator parameter storage unit 5 2, for example, three waveform components of the sound source wave pattern G 1 ~G 3 as shown in Figure 5 are stored as 50 samples data. The parameter interpolation processing unit 5 is a part that performs an interpolation process of the pitch, energy, and cross-sectional area in each time zone (O 1 to O 3 ), and this processing is each parameter of the pitch, energy, and cross-sectional area in the relevant time zone. Let Xo be the initial value of X, the initial value in the next time zone be X r , the nth interpolation calculation value be X (n), and the time constant corresponding to each parameter be D. This is a process of performing calculation n times during the time period according to the recurrence formula shown. However, the initial value X (O) is the above Xo.

X(n)=D{Xr−X(n−1)}+X(n−1) …
…(17) 例えば時間帯O1におけるピッチの補間処理について
は、XoがP1、XrがP2に相当するので(18)式に従っ
て演算される。
X (n) = D { Xr- X (n-1)} + X (n-1) ...
(17) For example, in the pitch interpolation process in the time zone O 1 , since Xo corresponds to P 1 and X r corresponds to P 2 , calculation is performed according to the equation (18).

X(n)=DP1{P2−X(n−1)}+X(n−1)…
…(18) ここで上記(17)式は次の(19)式の漸化式である。
X (n) = DP 1 { P 2 -X (n-1)} + X (n-1) ...
(18) Here, the above equation (17) is a recurrence equation of the following equation (19).

X=Xr−e-Dt ……(19) 即ち(19)式を微分すると(20)式が成立し、従って
(21)が成立する。
X = X r −e −Dt (19) That is, when the equation (19) is differentiated, the equation (20) is established, and thus the equation (21) is established.

dx/dt=De-Dt ……(20) ΔX=X(n−1)−X(n)=Δt・De-Dt(n) =Δt・D(Xr−X(n)) ……(21) よって(22)式となる。dx / dt = De -Dt (20) ΔX = X (n-1) -X (n) = Δt · De -Dt (n) = ΔtD (X r −X (n)) …… ( 21) Therefore, formula (22) is obtained.

X(n+1)=Δt・D(Xr−X(n))+X(n)
……(22) ここで補間演算の時間間隔は一定であるからΔt・D
を一括して時定数Dと置き換えることができ、(17)式
として表わされる。
X (n + 1) = Δt · D (X r −X (n)) + X (n)
(22) Here, since the time interval of interpolation calculation is constant, Δt · D
Can be collectively replaced with the time constant D, which is expressed as the equation (17).

6は演算部であり、パラメータ補間処理部5で算出し
たパラメータに基づいて、前記補間演算と同じタイミン
グで例えば100μsの時間間隔で第1図(ウ)に示す電
流inBのデジタル値を求める。7はデジタル/アナログ
(D/A)変換器であり、演算部6で求めたデジタル値に
基づいて電流波(アナログ電流)を作り出す。8はスピ
ーカー等の発声部であり、アナログ電流に基づいて音声
を発声する。
Reference numeral 6 denotes an arithmetic unit, which obtains a digital value of the current inB shown in FIG. 1C at a time interval of 100 μs, for example, at the same timing as the interpolation calculation based on the parameters calculated by the parameter interpolation processing unit 5. Reference numeral 7 denotes a digital / analog (D / A) converter, which produces a current wave (analog current) based on the digital value obtained by the calculation unit 6. Reference numeral 8 is a voicing section such as a speaker, which utters a voice based on an analog current.

次に上述実施例の作用について述べる。 Next, the operation of the above embodiment will be described.

ワードプロセッサ等により入力された日本語文章は、
日本語処理部1、文章処理部2及び音節処理部3を経て
イントネーション等が付けられて音節単位に区切られ、
更に音素処理部4によって各音節は音素に分解される。
次いでパラメータ補間処理部によって、各音素のピッ
チ,エネルギー及び断面積が音素パラメータ格納部51
から取り出され、これらパラメータについて各時間帯
(01〜03)毎に補間処理が行われる。この補間処理は
(17)式に従って行われ、例えば時間帯01におけるピ
ッチについては(18)式に従って実行される。第6図は
この様子を示す図であり、補間演算によって求められた
ピッチの各補間値P(1),P(2)…P(n)は次の
(23)式で表わされる曲線に沿って並ぶことになる。
Japanese sentences input by word processor etc.
After passing through the Japanese language processing unit 1, the sentence processing unit 2, and the syllable processing unit 3, intonation and the like are added to divide into syllable units,
Furthermore, the phoneme processing unit 4 decomposes each syllable into phonemes.
Next, the parameter interpolation processing unit calculates the pitch, energy, and cross-sectional area of each phoneme in the phoneme parameter storage unit 5 1
Retrieved from, for these parameters each time period (0 1-0 3) interpolation processing for each is performed. This interpolation processing is performed according to the equation (17), and for example, the pitch in the time zone 0 1 is performed according to the equation (18). FIG. 6 is a diagram showing this state, in which the respective interpolated values P (1), P (2) ... P (n) of the pitch obtained by the interpolating operation follow the curve expressed by the following equation (23). Will be lined up.

P=P2−e-Dt ……(23) また各時間帯01〜03毎に規定された音源波パターン
のサンプルデータが音源パラメータ格納部52から取り
出され、このサンプルデータとピッチ等の補間値が演算
部6に与えられ、演算部6にて上記のE.(3)項「演
算」にて詳述した演算が実行される。この演算におい
て、音節処理部3にて各音節単位に付けられたアクセン
トに対応する係数あるいは関数とパラメータ補間処理部
5で求められた各パラメータとが掛け合わされて、文章
のイントネーションが表われるように演算される。こう
して最終段の音響管より発せられる音波に相当する電流
波のデジタル値が求められ、この値に基づいてD/A変換
器7により電流波が作られ、発声音8より対応する音声
が発せられる。
P = P 2 -e -Dt ...... ( 23) The sample data of the sound source wave pattern defined for each time slot 0 1-0 3 is taken out from the sound source parameter storage unit 5 2, the sample data and the pitch and the like The interpolated value of 1 is given to the arithmetic unit 6, and the arithmetic unit 6 executes the arithmetic operation described in detail in the above-mentioned E. (3) item "Operation". In this calculation, the syllable processing unit 3 multiplies the coefficient or function corresponding to the accent attached to each syllable unit and each parameter obtained by the parameter interpolation processing unit 5 so that the intonation of the sentence appears. Is calculated. In this way, the digital value of the current wave corresponding to the sound wave emitted from the final stage acoustic tube is obtained, the current wave is generated by the D / A converter 7 based on this value, and the corresponding sound is emitted from the vocal sound 8. .

G.発明の効果 本発明によれば音響管モデルの音波の伝搬を等価回路
の電流の流れに置き換え、各音素毎に電流源のピッチ等
のパラメータと音響管の断面積とを規定し、音素間の継
ぎ目あるいは音素内の区分された時間帯の継ぎ目につい
て、指数関数に基づいたパラメータの補間処理を実行し
ているので、滑らかな音声を得ることができ、聞き手に
自然な感じを与える。そして指数関数の補間演算を実際
に行うのではなく、この関数から抽出した漸化式を利用
して各補間値を求めているため、演算処理が簡単であ
る。また音素間の継ぎ目に相当する領域の全パラメータ
値をメモリに格納するのではなく、音素単位あるいは時
間帯単位にデータを保存しておけば足りるのでメモリ容
量が小さくて済む。
G. Effects of the Invention According to the present invention, the sound wave propagation of the acoustic tube model is replaced by the current flow of the equivalent circuit, and parameters such as the pitch of the current source and the cross-sectional area of the acoustic tube are defined for each phoneme. Interpolation of parameters based on an exponential function is executed for a seam between seams or a seam of a time zone divided in a phoneme, so that a smooth voice can be obtained and a listener feels natural. The interpolation processing of the exponential function is not actually performed, but each interpolation value is obtained by using the recurrence formula extracted from this function. Further, it is sufficient to store data in units of phonemes or in units of time zones instead of storing all the parameter values in the area corresponding to the joint between phonemes in the memory, so that the memory capacity can be small.

【図面の簡単な説明】[Brief description of drawings]

第1図は音響管の等価モデルを示す説明図、第2図は電
流源を含むブロックを示す等価回路図、第3図は本発明
の実施例を示すブロック図、第4図は音素パラメータの
データ図、第5図は音源波パターンを示す説明図、第6
図はパラメータ補間処理の様子を示す説明図である。 4……音素処理部、41……音節パラメータ格納部、5
……パラメータ補間処理部、51……音素パラメータ格
納部、52……音源波パターン格納部、6……演算部、
7……デジタル/アナログ変換部、8……発声部。
1 is an explanatory view showing an equivalent model of an acoustic tube, FIG. 2 is an equivalent circuit diagram showing a block including a current source, FIG. 3 is a block diagram showing an embodiment of the present invention, and FIG. 4 is a phoneme parameter. Data diagram, FIG. 5 is an explanatory diagram showing a sound source wave pattern, FIG.
The figure is an explanatory diagram showing how parameter interpolation processing is performed. 4 ...... phoneme processor, 4 1 ...... syllable parameter storage unit, 5
...... Parameter interpolation processing unit, 5 1 ...... Phoneme parameter storage unit, 5 2 ...... Sound source wave pattern storage unit, 6 ...... Calculation unit,
7 ... Digital / analog converter, 8 ... speaker.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】人間の声道を縦列に接合した複数の音響管
とみなし、これら音響管群とサージインピーダンス成分
の回路要素群とを対応させると共に音声源と電流源とを
対応させることによって、音響管群の出力端から発せら
れる音声波を回路要素群の出力端の電流波に基づいて模
擬的に作り出す音声合成装置において、 音節を構成する各音素毎に各音素の発声時間を1以上の
時間帯に区分し、各時間帯毎に、音源波の繰り返し周波
数であるピッチ、この音源波のエネルギー及び音響管の
断面積の各初期値と当該時間帯の前記各初期値Xoから次
の時間帯の各初期値Xrへの変化の仕方を規定した時定
数と音源波パターンとを格納する音素パラメータ格納部
と、入力された音素データに対応する前記ピッチ,エネ
ルギー及び断面積の各補間処理を行うパラメータ補間処
理部と、ここで補間処理されたパラメータに基づいて前
記回路要素群の出力端から出力される電流値を演算する
演算部と、この演算部の演算結果に基づいて音声を発生
する発声部とを備え、 前記パラメータ補間処理部は、前記各時間帯の間に前記
初期値Xoと目標値に相当する前記Xrとを用いて多数回
補間演算を行い、この補間演算は、n番目の補間演算値
をX(n)、前記時定数をDで表わしたときに X(n)=D{Xr−X(n−1)}+X(n−1) で示される漸化式に従って実行されることを特徴とする
音声合成装置。
1. A human vocal tract is regarded as a plurality of acoustic tubes joined in cascade, and a group of these acoustic tubes and a circuit element group of a surge impedance component are made to correspond to each other, and an audio source and a current source are made to correspond to each other. In a speech synthesizer that imitates the sound wave emitted from the output end of the acoustic tube group based on the current wave at the output end of the circuit element group, the utterance time of each phoneme is set to 1 or more for each phoneme that constitutes a syllable. It is divided into time zones, and for each time zone, the pitch, which is the repetition frequency of the sound source wave, each initial value of the energy of this sound source wave and the cross-sectional area of the acoustic tube, and the following time from each initial value Xo of the relevant time zone. A phoneme parameter storage unit that stores a time constant and a sound source wave pattern that defines how the band changes to each initial value X r , and each interpolation process of the pitch, energy, and cross-sectional area corresponding to the input phoneme data. To A parameter interpolation processing section, a calculation section for calculating a current value output from the output end of the circuit element group based on the parameter interpolated here, and a sound is generated based on the calculation result of this calculation section. and a vocal portion, the parameter interpolation process unit performs a number of times the interpolation calculation using said X r the equivalent to the initial value Xo and the target value during each time period, the interpolation calculation, n The recurrence formula represented by X (n) = D { Xr- X (n-1)} + X (n-1), where X (n) is the th interpolation calculation value and D is the time constant. A speech synthesizer characterized by being executed according to the following.
JP62335476A 1987-04-14 1987-12-28 Speech synthesizer Expired - Lifetime JPH0833752B2 (en)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP62335476A JPH0833752B2 (en) 1987-12-28 1987-12-28 Speech synthesizer
CA000564051A CA1334868C (en) 1987-04-14 1988-04-13 Sound synthesizing method and apparatus
CN88102086A CN1020358C (en) 1987-04-14 1988-04-14 Sound synthesizing method and apparatus
EP88105993A EP0287104B1 (en) 1987-04-14 1988-04-14 Sound synthesizing method and apparatus
DE8888105993T DE3866926D1 (en) 1987-04-14 1988-04-14 METHOD AND DEVICE FOR SYNTHETIZING LOUD.
KR88004224A KR970011021B1 (en) 1987-04-14 1988-04-14 Sound synthesizing method and apparatus
US07/540,864 US5097511A (en) 1987-04-14 1990-06-20 Sound synthesizing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62335476A JPH0833752B2 (en) 1987-12-28 1987-12-28 Speech synthesizer

Publications (2)

Publication Number Publication Date
JPH01177098A JPH01177098A (en) 1989-07-13
JPH0833752B2 true JPH0833752B2 (en) 1996-03-29

Family

ID=18288995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62335476A Expired - Lifetime JPH0833752B2 (en) 1987-04-14 1987-12-28 Speech synthesizer

Country Status (1)

Country Link
JP (1) JPH0833752B2 (en)

Also Published As

Publication number Publication date
JPH01177098A (en) 1989-07-13

Similar Documents

Publication Publication Date Title
EP0391545B1 (en) Speech synthesizer
JPH0641557A (en) Method of apparatus for speech synthesis
JP2990693B2 (en) Speech synthesizer
JP2992995B2 (en) Speech synthesizer
JPH0833752B2 (en) Speech synthesizer
JP2990691B2 (en) Speech synthesizer
JPH05224689A (en) Speech synthesizing device
JP3081300B2 (en) Residual driven speech synthesizer
JPH01219899A (en) Speech synthesizing device
JPH01292400A (en) Speech synthesis system
JPH0833749B2 (en) Sound synthesis method
JP4305022B2 (en) Data creation device, program, and tone synthesis device
JPH01219898A (en) Speech synthesizing device
JPH0833751B2 (en) Speech synthesis method
JPH06250685A (en) Voice synthesis system and rule synthesis device
JPH0553595A (en) Speech synthesizing device
JPH01197799A (en) Articulation and sound source parameter producing method for sound synthesizer
JPH0836397A (en) Voice synthesizer
JPH056191A (en) Voice synthesizing device
Singh et al. Removal of spectral discontinuity in concatenated speech waveform
JP2573585B2 (en) Speech spectrum pattern generator
Rosenhouse Biomimetics of sound production, synthesis and recognition
JPH01177097A (en) Voice synthesizing system
JPH0464080B2 (en)
JPH01182900A (en) Voice synthesizing system