JPS5953560B2

JPS5953560B2 - 音声の合成方法

Info

Publication number: JPS5953560B2
Application number: JP52108323A
Authority: JP
Inventors: リユボミア・ヨルダノフ・アントノフ
Original assignee: EDINEN ZENTAR PHYS
Current assignee: EDINEN ZENTAR PHYS
Priority date: 1976-09-08
Filing date: 1977-09-08
Publication date: 1984-12-25
Also published as: JPS5367301A; HU176776B; BG24190A1; FR2364522A1; SE7709773L; SU691918A1; DE2740520A1; GB1592473A; DD143970A1; US4278838A; FR2364522B3

Description

【発明の詳細な説明】この発明は音声の合成方法および装置に関し、特にコン
ピユータと人間とを結合させる手段としてコンピユータ
技術に適用できるようにした方法１に関する。

従来からワード又は音節全体をもとにして音声を合成す
る方法および装置が知られているが、この装置はメモリ
デスク上に大容量のメモリを必要とする。

このように大形のメモリを用いてもこのｉ従来装置の合
成できる語数はあまり多くなかつた。従来の他の合成方
法および装置として適当な振幅および周波数の正弦波発
振波を混合することにより異なる音素を得るものがある
が、この装置は非常に構成が複数となり、複雑な調整を
必要とする多くのアナログ発振器を必要とする。

従つてこの発明の目的は、小形のメモリを用い、複雑な
構成および調整を必要としない音声の合成方法を得るこ
とを目的とする。

この発明の目的は、デジタル電子回路で合成され次にデ
ジタル−アナログ変換器でアナログ信号に変換された音
素を基にして音声の合成を行なうことによつて達成され
る。

与えられたテキストの音素の合成は、異なつたフォーマ
ット分布の音素の音声周期、雑音音素の要素、アクセン
トの位置に関する情報、各音素特有の振幅特性、与えら
れた音素の合成に必要な音声および雑音要素の順序、音
素の或る程度不規則な変化の表、イントネーシヨンに関
するセンテンス解析から得られたデータ、休止の期間、
および音素の間の主な移行を行なうに必要な音の要素等
のメモリに記憶されたデータに基づいて行なわれる。合
成されるべきテキストのセンテンスはセンテンスの基本
的特性、即ち、周波数特性としての音声の高さの変化の
形式、振幅特性としての声の大きさの変化、および休止
期間等を順次決定するために文法的なプログラムによつ
て解析される。音素の順序は、近接音素間の相互の影響
を調べるため、およびこの順序における音素変化の位置
およびモードを決定するために解析される。センテンス
の基本的な特性を観察することによつて各音素には特性
フォーマット分布および各期間および振幅を有する音声
発振の期間の決定された形式および数が関連付けられ、
同時に対応する期間およびスペクトラム分布を有する雑
音音素の要素の決定された形式および数が関連付けられ
る。上述の与えられた言語に対して決定された音声発振
期間および雑音音素の要素は、各発振の振幅の大きさの
順序としてメモリにデジタル形式で記憶される。音素の
各周波数特性を得るために発振振幅の読み出しは期間の
終了以前に中断でき、又は期間終了後にゼロ値の状態で
継続できる。音声の自然さを出すために、読み出し中の
発振期間中の振幅と長さに或る程度の不規則性が与えら
れ、雑音および混合音素の合成時に均一なスペクトラム
分布を得るために、或る程度不規則な初期アドレス、期
間および読み出し方向で雑音要素部分の読み出しが行な
われる。同一記憶要素から異なる音素を得るために、記
憶された振幅の大きさの読み出し回数が変えられ、同一
記憶要素から異なる音素を得るために、音素の振幅特性
が変えられ、混合音素を得るために音声期間および雑音
部分の混合が行なわれる。音素間の移行を円滑に行なう
ために、音素間の移行に応じてフォーマット分布を有す
る期間が用いられ、音素の移行を円滑にするため各移行
時の振幅が減少せしめられる。音素定数の解析に基づい
て得られたデジタルデータおよび所望の言語に対するセ
ンテンスの基本特性はメモリに記憶された音声要素の再
生の制御のために用いられる。音素の振幅特性は、音素
の振幅特性のデジタル値に応じて、アナログ信号によつ
て、デジタル値を変換することによつて得られた合成音
素のアナログ信号の振幅″を変えることによつて形成さ
れる。上述のこの発明による音声の合成方法を実施する
ための装置はコンピユータを有し、この出力は定数メモ
リのアドレスレジスターカウンタに供給される。

他のコンピユータ出力が計数方向レジス夕に供給され、
その出力はアドレスレジスターカウンタに接続される。
更に他の２つのコンピユータ出力が計数回数決定レジス
タおよび読み出しアドレス番地レジスタに供給され、こ
れら２つのレジスタの出力はプリセツト数および゛周波
数パルス発生回路に供給される。パルス発生器の出力は
アドレスレジスターカウンタの計数入力に供給される。
コンピユータの他の出力がデジタル−アナログ変換器に
供給され、その出力は振幅変調器の増幅度変化入力に接
続される。定数メモリの出力がｌ他のデジタル−アナロ
グ変換器に供給され、その出力は振幅一変調器の入力に
接続される。振幅変調器の出力はスピーカおよび伝送ラ
インに接続される。制御装置の出力がコンピユータの入
力に供給され、コンピユータの更に他の出力が制御装置
，の入力に供給される。この発明の目的は、期間の長さ
の変動を±４０％以内に制限し、期間の長さの変化およ
び読み出し中の発振振幅の変化の或る程度の不規則制を
±３％の範囲内に制限することによつて達成される。

，更に、音声の自然さを出すために、音声発振の期間と
その振幅、混合音素を得るための振幅一雑音発振の変調
期間、およびシリル字母゜゛Ｐ”の音素、即ちラテン文
字の゜“Ｒ”を得るために音声発振の振幅変調の期間が
或る程度不規則に変化される。この発明の特徴的な効果
としては、機械的可動部分のない比較的小形のメモリが
用いられること、複雑な調整を必要とする合成用アナロ
グ曲線発生器が不要なこと、センテンスの実際の要求に
応じて多くの種類の音素合成を行なえること、単にメモ
リの内容の変化によつて音素形態を変化させることがで
き、音声に著しい自然性を与えるように音声発振期間と
振幅の変化を或る程度不規則に変えることを模擬的に行
なうことができ、テキスト中の所望のイントネーシヨン
とアクセントを実現でき、コンピユータメモリの迅速な
応答を必要とせず、調整動作が不要なために製造が容易
になり、メモリ、マイクロコンピユータのような高集積
度の新しい電子要素の使用ができること等であり、小形
、軽量、高信頼度、低価格の装置を製造することができ
る。

以下図面を参照してこの発明の実施例を詳細に説明する
。

第１図において、この発明の実施例装置はコンピユータ
１を有し、その出力２は定数メモリ４のアドレスレジス
ターカウンタ３に供給される。コンピユータ１の出力５
は計数方向レジスタ６に供給され、この出力はアドレス
レジスターカウンタ３に供給される。コンピユータ１の
出力７，８は夫々計数回数決定レジスタ９および読み
出しアドレス番地レジスタ１０に供給され、これらのレ
ジスタ９，１０の出力はパルス発生器１１に供給される
。パルス発生器１１の出力はアドレスレジスターカウン
タ３の計数入力に接続される。コンピユータ１の出力１
２は振幅制御レジスタ１３を介してデジタル−アナログ
変換器１４に供給され、その出力は振幅変調器１５の増
幅度可変人力に接続される。定数メモリ４の出力はデジ
タル−アナログ変換器１６に供給され、その出力は振幅
変調器１５の入力に接続される。振幅変調器１５の出力
はスピーカ１７および伝送ライン１８に接続される。制
御装置１９の出力がコンピユータ１の入力２１に供給さ
れ、コンピユータ１の出力２０が制御装置１９の入力に
接続される。この明細書を通して用いられている重要な
用語がいくつかあり、これらの用語の意味を以下に補足
的に説明しておく。音声の合成：これはいくつかの装置
からの音響出力の受入を意味し、この装置中ではブルガ
リア語に限らないある言語の人間の音声が認識できる。

フォーマット分布：特定音素の対応要素の周波数分布。

音声の要素：音響作用としての音声を特徴付ける曲線部
分である。

音声に付属する音：例えば語句の最初又は最後又は句読
点における呼吸の音。

音声期間：音声音素を構成する期間。

いくつかの特性に応じて、更にこれらの合成方法に関し
て、次の音素群、即ち音声音素、雑音音素、混合音素が
試験された。

これらの群の各々には短い期間および長い期間の音素が
存在する。音声音素は、所定のフォーマット分布を特徴
付ノけるところの実際の音声又は予め合成された音声か
ら記録されメモリに記憶された音声期間の順序を順番に
再生することによつて得られる。与えられた音声音素合
成のための期間の数と形式とは、各言語の音素の特徴、
近接音素の形式と特徴、アクセントの位置、センテンス
のイントネーシヨン等によつて決定される。即ち、言語
的な１つの音素は、合成方法の点からみて、異なる期間
の連続の重なりに対応している。音声期間、その数、長
さおよび振幅の実際に必要な組み合わせは実時間で特定
のアルゴリズムによつてプログラム演算され、次にこれ
ら音声を再生する装置に供給される。

合成音声に自然性を与えることは、振幅および異なる期
間の長さを或る．程度不規則に変えることによつて行な
われる。雑音音素は、偶発的な振幅変調によるメモリか
らの読み出し又は対応する雑音音素の記憶区域の或る程
度不規則に選択された部分の連続的再生によつて合成さ
れ、振幅変調および期間は合成用アルゴリズムに応じて
決定される。混合音素は部分的に音声音素として合成さ
れ、更に音声音素の期間を持つ雑音部分の付加的な振幅
変調を有した雑音音声として部分的に合成される。

実施例シリル字母“Ｐ”の音素（即ちラテン文字の１Ｒ″）の
場合には、合成音声は舌の振動数で振幅変調された合成
音声である。

ブルガリア言語（シリル式アルフアベツト）に対しては
、゜゜Ａ”Ｅ”Ｉ”、“Ｏ″、゜“Ｉ− “Ｙ”、 “
Ｈ”、糖゛、 “Ｍ”、 “Ｈ”および゜゜Ｐ”は音
声音素として合成でき、“Φ”ＵＣ９６４― 赫Ｘ−
１Ｌ１― 赫ｑ― 赫Ｋ―゜゜１゛および゜゜Ｔ゛は雑
音ｗ素として決定でき、ＭＢ― 赫３− ６６ｒ９赫６
− −ビＴ― 赫丹ョ３”゛および゜゜八氷゛は混合
音素として合成できる。

音素間の接続は円滑移行フォーマット分布を得るために
必要な音声期間の偶発的な導入によつて実現される。

音声の合成装置は基本的な要素として定数メモリ４を有
し、このメモリ４中には前述した音声合成方法において
用いられる情報が記録される。

この情報は音声および雑音音素の部分の振幅および音声
に付属する音の振幅のデジタル値を表わして，いる。定
数メモリ４に記録された初期アドレスおよび音声の異な
る要素に対する振幅の連続的な値の長さはメモリ４から
の読み出し制御情報であつて、コンピユータ１のメモリ
中に記憶されている。特定の言語の音声の合成を行なう
ために定数メモリ４に記憶されるべき音声要素の選択は
、具体的な言語の音声学上の特徴に応じてなされ、この
結果選択された要素はその言語の音声学上の完全な体系
を表わすものとなる。コンピユータ１のメモリ中には前
述の方法が実施されるためのプログラムが記憶され、具
体的な言語のイントネーシヨンおよびアクセントに従つ
た音声が合成される。プログラムに対する入力情報はテ
キスト定数であつて、必要に応じて音声学的な記号も有
し、対応する言語中のセンテンスの記録を表わしている
。

コンピユータ１中でセンテンスは、実際の言語の規則に
応じてその周波数および振幅特性、休止の期間および位
置、音声に付属する音を決定するために、文法的、音声
学的に解析される。次に、これらの特性、およびセンテ
ンス中の近接した音素の相互の影響に従つて、各音素の
組成（構成期間の形式）、振幅特性、および期間が決定
される。更に、各音声要素に対して、合成されたセンテ
ンス中で関係する振幅、期間、定数メモリ４中の初期ア
ドレスおよび読み出しの方向が決定される。即ち、セン
テンスは音声要素および休止に順次分解される。これら
の要素は上述の振幅によつて特徴付けられている。音声
の順次要素を特徴付けるすべての振幅はプログラムによ
つて実時間状態でコンビユータ１に取り込まれ、所望の
音声の合成ｐ制御のために装置の対応プロツタに順次送
り４れる。これらのデータによつてメモリ４からは、・
；アドレスレジスターカウンタ３により指示され、計数
方向レジスタ６で決定された読み出し方向に初期アドレ
スを持つ音声要素が読み出される。定数メモリ４からの
読み出しスピードは、読み出し回数決定レジスタ９の値
および読み出しアドレス番地レジスタ１０中の値による
読み出しデータの数によつて決定される。レジスタ９，
１０中の情報はパルス発生器１１の動作を制御する。こ
のパルス発生器１１はアドレスレジスターカウンタ３の
内容を順次変化させるように制御するためのものである
。このように決定された音声要素の振幅の大きさは、レ
ジスタ９からのプリセツトされた読み出しスピードによ
つてデジタル−アナログ変換器１６に順次供給される。

このデジタル−アナログ変換器１６の出力は振幅変調器
１５の入力に接続され、その増幅度はデ．ジタルーアナ
ログ変換器１４の出力により制御される。このデジタル
−アナログ変換器１４は、デジタルデータをコンピユー
タ１で決定されたその時の合成音声部分の振幅制御レジ
スタ１３を介して再生振幅に変換するのに用いられる。
振幅変調器１５で増幅された信号は再生のためにスピー
カ１７および伝送ライン１８に供給される。音声要素の
順次再生の終了時に制御装置１９はコンピユータ１に次
の合成に関する新しいデータを得るための命令を送る。
定数メモリ４からの読み出し期間中および順次音声要素
の再生が行なわれている間中、コンピユータ１は空いて
おり、合成制御用の新しいデータを用意するために解析
を行つている。

コンピユータ１として適当に応答の早いコンピユータを
用いると、１台のコンピユータで数個の合成装置の制御
が可能である。

コンピユータ１としては汎用コンピユータ、ミニコンピ
ユータ又はマイクロコンピユータが用いられる。第２図
の波形は音素“栴゛の短かい破裂音、次に少しの期間の
“Ｈ−および長く続く “Ａ゛の振幅曲線を示す。

この記録された振幅特性は或る話し手が発声した語であ
つて、フォーマット移行の円滑さは自然の方法で行なわ
れる。第３図は合成語の波形を示し、順次、音素“．゛
、２期間の゜゜『゛、数期間の“Ｅ゛を示す。

ここでぱ“Ｈ゛と゜“Ａ゛との間のフォーマット移行を
円滑にするために、音声音素“゜Ａ”、“Ｈ゛および゜
“Ａ゛の期間と長さは基本トーンの円滑な変化を得るた
めに適当に選択される。第４図と第５図の関係は相似形
であつて、最初の“゜Ｍ゛と最初の゜“ビとの間に音素
゜“責”の導入が見られ、これにより基本フオーマント
の円滑な移行が行なわれる。

第４図、第５図の語のソノグラムが夫々第６図および第
７図に示されている。

自然音声（第６図）の語のソノグラムの方がフォーマッ
トがより豊富であるが、これにもかかわらず、耳には合
成語（第７図）の方がより正確に聞き取ることができた
。

【図面の簡単な説明】

第］図はこの発明の一実施例装置のプロツクダイヤグラ
ム、第２図は或る話し手が発声しだ゜Ａ只ＨＮ゛という
語の振幅曲線図、第３図はこの発明により合成されだＪ
１只ＨＮ゛の振幅曲線図、第４図は或る話し手が発生し
た“゜ＭＩＭＭドという語の振幅曲線図、第５図はこの
発明により合成された“ＭＩＭＭドの振幅曲線図、第６
図は或る話し手の発音による語の“ＭＩＭＭドのソノグ
ラム、第７図はこの発明により合成された語゜“ＭＩＭ
Ｍドのソノグラムを示す。１・・・・・・コンピユータ、２，５，７，８，１２，
２０・・・・・・コンピユータ１の出力、３・・・・・
・アドレスレジスターカウンタ、４・・・・・・メモリ
、６・・・・・・計数方向レジスタ、９・・・・・・計
数回数決定レジスタ、１０・・・・・・読み出しアドレ
ス番地レジスタ、１１・・・・・・パルス発生器、１３
・・・・・・振幅制御レジスタ、１４・・・・・・デジ
タル−アナログ変換器、１５・・・・・・増幅変調器、
１６・・・・・・デジタル−アナログ変換器、１７・・
・・・・スピーカ、１８・・・・・・伝送ライン、１９
・・・・・・制御装置、２１・・・・・・制御装置出力
。

Claims

【特許請求の範囲】１音声の合成方法において、人間の声から取り出され
た音声成分がメモリに記憶され、センテンスの特徴およ
び相近接した複数音素の形式に応じて各音素の形式と長
さに応じた順序、スピード、方向および数でメモリから
読み出され、一方、合成されるべきテキストは文法的お
よび発音通りにセンテンス毎に、センテンスの基本的特
徴を決定するために、言語のルールに応じて順次解析さ
れ、周波数特性として声の高さの変化、振幅特性として
声の大きさの変化、休止期間の如き音声学的な記号と共
に、テキスト定数として記録され近接音素の相互間の影
響を考えるために音素の順序が解析され、この順序の中
での音素変換の場所および変換状態が決定され、次に、
各音素に付いてセンテンスの基本的な特徴を観察するこ
とによつて、音声発振の期間の特別な形式および数が実
際の声又は人工的に合成されたものから抽出された特徴
フオルマント分布と比較され、同時に雑音音素時に段落
の特別な形式と数とが各々の期間、大きさ、スペクトル
分布と比較され、この言語のために決定された上述の音
声発振の期間および雑音音素の要素が各発振の振幅の大
きさの順序としてメモリ中にデジタル形式で記憶され、
音素の各々の周波数特性を得るために発振振幅の大きさ
の変化が周波数増加期間の終了以前に中断され、更に周
波数を減らすためにその期間の終了後にゼロの値で延長
され、音声の自然さを出すために読むときに発振の期間
と振幅にある程度の不規則な変化が与えられ、雑音と混
合音素とを合成する際に均一なスペクトル分布を得るた
めに或る程度不規則な初期アドレス、期間、読み出し方
向を有する雑音要素の部分が読み出され、同じ記憶され
た雑音要素から異なる音素を得るために要素の記憶値の
読み出し回数が変えられ、又は同じ目的で音素の振幅特
性が変化され、混合音素は音声期間と雑音部分とを適当
に結合させることにより得られ、音素変化は音素間の移
行の特性に応じてフオルマント分布を有する期間を用い
ることによつて滑らかに行なわれ、又、音素変化は各移
行時の発振振幅を減少させることによつても滑らかに行
なわれ、メモリに記憶された音声要素再生の制御は音素
構成およびセンテンスの基本特性の解析によつて用意さ
れたデジタルデータを基本にして行なわれ、音素の振幅
特性は、音素の振幅特性のデジタル的な大きさに応じて
アナログ信号によつてデジタル値の変換から得られた合
成された音素のアナログ信号の増幅を制御することによ
つて形成されることを特徴とする音声の合成方法。２期間の長さの変化が±４０％の範囲内で行なわれる
ことを特徴とする特許請求の範囲第１項による音声の合
成方法。３期間の長さの変化および読み出し中の発振振幅の変
化の或る程度の不規則制が±３％の範囲内であることを
特徴とする特許請求の範囲第１項による音声の合成方法
。４音声の自然さを出すために、音声発振の期間とその
振幅、混合音素を得るための振幅−雑音発振の変調期間
、およびキリル字母“Ｐ”の音素、即ちラテン文字の“
Ｒ”を得るために音声発振の振幅変調期間が或る程度不
規則に変化されることを特徴とした特許請求の範囲第１
項による音声の合成方法。