JPH01177097A - 音声合成方式 - Google Patents

音声合成方式

Info

Publication number
JPH01177097A
JPH01177097A JP62335475A JP33547587A JPH01177097A JP H01177097 A JPH01177097 A JP H01177097A JP 62335475 A JP62335475 A JP 62335475A JP 33547587 A JP33547587 A JP 33547587A JP H01177097 A JPH01177097 A JP H01177097A
Authority
JP
Japan
Prior art keywords
sound
syllable
consonant
data
syllables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62335475A
Other languages
English (en)
Inventor
Norio Suda
典雄 須田
Yoshimasa Sawada
沢田 喜正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP62335475A priority Critical patent/JPH01177097A/ja
Publication of JPH01177097A publication Critical patent/JPH01177097A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 本発明は、音素データを使用して音声を合成する規則音
声合成方式に関する。
B、発明の概要 本発明は音節を構成する音素を基本単位として音声を合
成するものにおいて、前記各音素を立ち上がり、定常、
立ち下がりに区分し、これら各区分毎に断面積時定数、
継続時間、ピッチ、ピッチ時定数、エネルギー、エネル
ギー時定数、音源を定めて音素データを作成し、且つ前
記音節間に音節結合データを設けると共に、該結合デー
タの少なくとも破裂系の子音と摩擦系の子音とを夫々グ
ルーピングして各1つの子音に類して処理し音節結合デ
ータの量を削減したことを特徴としたものである。
C0従来の技術 人工的に音声を合成して出力する電子装置は、最近にな
って1ないし数チップの音声認識や音声合成のLSIが
音声情報処理と半導体の大規模集積回路技術により低価
格で実現されるようになり、その使用目的、制約条件に
より種々の方式が提案されている。この音声合成には、
人間の発生した生の音声を録音しておき、これを適当に
結合して文章に編集する録音編集方式と、人間の声を直
接的には利用せず、人間の音声のパラメータだけを抽出
し、音声合成過程で、そのパラメータを制御して人工的
に音声信号を作り出す方法がある。
このパラメータ方式で良質な合成音が得られることで広
く利用されているパーコール(PARCOR)方式があ
る。
音声を電子計算機で扱う場合、音声波形をある周期毎に
サンプリングして各サンプリング点での音声信号の値を
アナログ/ディジタル変換し、その値を0と1の符号で
表示して行われるが、アナログ信号に忠実な記録をする
には、ビット数を増やす必要があるが音声合成信号は大
変多くのメモリーを必要とする。
そこで、この情報量を極力少なくするために各種の高能
率な符号化法が研究開発されている。
その方法の1つとして、1つの音声信号の情報に対し、
最低限の1ビツトとした方式で、デルタ変調方式がある
。この方式は、1ビツトの使い方として、次にくる音声
信号値が現在の値より高いか低いかを判定して、高けれ
ば符号“l”、低ければ符号“0”を与え音声信号の符
号化を行うもので、実際のシステム構成としては一定の
振幅ステップ量(デルタ)を定めておき、誤差が蓄積さ
れないように今までの符号化によって得られる音声の値
と、入力してくる音声信号との残差信号に対して、符号
化を行う。
このような構成を予測コード化といわれ、線形予測法(
何個か前のサンプル値から予測する)およびパーコール
方式(線形予測法の予測係数の代わりにパーコール係数
にといわれる偏自己相関関数を用いる)がある。
D6発明が解決しようとする問題点 前述のように予測コード化を用いたものは、音と音との
継ぎ目に相当する調音結合が難しいという問題がある。
例えば母音から子音を経て母音に至る発声において、母
音の定常から過渡を経て子音に至りまた母音の過渡を経
て母音の定常音に至る過程で母音と母音の継ぎ目の音が
跡切れ、人間が聞いたときに自然な感じを与えない。
また楽器音合成の場合は、音階の継ぎ目が重要であるが
合成手法が実際の楽器の音発生の原理と異なるため、や
はり自然な感じが無く、特に残響音において顕著にあら
れれる。これら両者において自然な音に近付けるために
は、例えば、人間の音声合成の場合には、種々の母音か
ら種々の子音あるいは母音に至る過程の入力音声信号か
ら作成した予測コードを用意する必要があるためこれを
構成するメモリや、演算器等の電子部品を多く必要とし
装置が高価になる等の問題がある。
E1問題点を解決するための手段 そこで、本願の発明者は人間の音の発生や楽器の楽音は
人間の口腔や音響管の長さや断面積等の形状変化によっ
て作り出されるので、これら音響管の音波の伝達を表す
進行波現象を音響管等価回路で解析し、音響管の断面積
がサージインピーダンスに反比例することに着目し、サ
ージインピーダンスを変化させることで断面積を模擬的
に変化させ、サージインピーダンスを連続的変化するこ
とで調音結合をスムーズに行うことができるようにして
人間の発声と同様な音の合成を容易となし音声の自然性
の向上を図るようにした音声合成方式を創案し、先に特
許出願した。(特願昭62−91705、以下、先願と
称す) この先願の発明を基に音節間の調音結合の際、日本語は
、すべての音節は最後に母音がつき、また音節の初めの
子音部の波形にもそれぞれ特色があることに着目し、本
発明は、これら特色の共通する破裂系音、摩擦系音、破
擦系音およびこれらに属さないその他に夫々グルービン
グし、これら各グループを1つの子音として結合データ
を作成し結合データ量を削減する。
F、実施例 まづ、本願の基礎となる先願の発明の詳細な説明する。
音声発生時の声道の断面積変化は、例えば「ア」の発生
の場合は、喉の奥が狭く口唇が開いた状態で肺から押し
出される呼気で声帯が呼気を断続的に開閉して声道(音
響管)の中で反射を繰り返して出てくる音波が「ア」の
音声波形となって出てくる。「イ」は喉の方が広く口唇
の先が狭いと「イ」の音声波形が出力される。
このように口の恰好で周波数が決まり、口の恰好を模擬
すれば「ア」なり「イ」が発声される。
口の恰好は音響管の断面積で模擬でき、また音響管の断
面積の変化は、サージアドミッタンスの変化で模擬でき
る。従ってサージアドミッタンスを変化すれば口の恰好
が模擬できる。サージアドミッタンスの変化は、電気回
路上極めて容易に可変できるので電気信号によって様々
な音声を合成することができる。第2図(ア)は断面積
Ar、At・・・A、と異なる断面積をもった音響管を
接続して声道を模擬したものである。同図(イ)はその
音響インピーダンスを電気回路のLC回路に置き換えた
もので、各音響管を1個のLC線路とし、全体を集中線
路のn−1の電気回路としたものである。また第2図(
つ)は進行波等価モデル図で、各音響管の音響インピー
ダンスZl、Z2・・・Znは、音響管の断面積に反比
例(音響アドミッタンスは比例)し、音波の速度C゛と
空気密度ρに比例するので となる。なお、同図でZ、は音源インピーダンス。
ZLは放射インピーダンスを示し、またブロック間の矢
印は、進行波と後進波を表している。
今「ア」という音声を発声させる場合は、口唇の先に相
当する音響管の断面積のところで「ア」の口の恰好を与
えて、インパルスPを断続的に印加することで、「ア」
の音が得られ、また「ア」から「イ」の音を発声させる
場合は、口唇の先に相当する音響管の断面積を狭め「イ
」の口の恰好を与えることで「イ」が得られる。
インパルスPが連続して断続的に与えられ、断面積全体
を「イ」の口の恰好に変化させる場合、声道は第2図に
示すn個の音響管によって模擬しているので、これらの
各断面積を「ア」から動かして口の恰好を「アーイ」と
連続的に変えることになる。この音響管の断面積を変え
るということは、サージインピーダンスを徐々に変える
ことによって行われる。
従って、断面積は連続的に変えられるので、定常状態の
「ア」、「イ」の音が得られることは勿論であるが、更
にインピーダンスは連続して可変できるので、その中間
の音、即ち音と音との間の音を得ることができる。従っ
て音の切れが無く人間の発音に近い調音結合がスムーズ
に行われる。
次に音波の伝搬速度を考えると、これは長さQでLCを
持った電線路にインパルスを印加した時の過渡現象に似
ている。
即ち第3図に示すようにLCを有する線路を等価的に表
すと第4図のようになる。ここで両端部からみたサージ
インピーダンスZ。l+ zozは、z、、=F「7で
、Zox=F丁7で となる。
ここで相手から到達してきた進行波を等価的な電流源と
考えると、 となり電流は中間にn個の遅延回路ブロックZがあれば
、n時間後に出力される。即ち左側の回路で発生したも
のがτ時間後右側に到達したということになる。
となる。但し、ディジタル計算においては、電圧または
電流を細分割するのでV、、V、は計測時刻tにおける
電圧、τは経過時間を示している。
第4図では、L、C回路にインパルスを印加すれば、τ
時間後に出力管側に出る。そしてτ時間前到達されたも
のは相手にも到達しているということを等価的に表して
いる。線路の長さCを1にするということは、遅延ブロ
ックnを正規化して1にすることで計算し易くなる。C
を3cm+こ刻む場合は遅延ブロックのnを3ブロツク
にすればよい。
第2図(ア)を人間の声道は男性で約17cmなので、
lcx刻みで17本の音響管で模擬すれば、A1から入
った波形は、半周期の電流をIOに分割しそのΔtを1
0μsecとすれば、170μseeかかってAn側か
ら出てくる。
したがって、音響管断面積A1−八〇の断面積変化に対
応した演算処理を演算処理装置で行い、音響管A、〜A
、の個々の等価回路を流れる各部の電流値を計算するに
必要なA I””’ A nに対応するインピーダンス
Z1〜Zr、の値をテーブルとして有するメモリと、当
該等価回路の各部の電流値を演算する演算手段と、この
等価回路とは相隣接する等価回路の電流値を用いて電流
値を演算する演算手段とを備えて演算処理を行えば音声
信号が得られ、その出力をD/A変換してスピーカに出
力すればスピーカより音声として出力される。
次に上記の音響管モデルを使用して文字入力信号から規
則によって音声を合成する実施例について説明する。
第5図は、本発明の一実施例を説明するためのブロック
説明図で、■は日本語処理部で、漢字かな混じりで書か
れた文章を入力として受けとり、これを辞書2と対応さ
せて文節1句1文の区切。
形態素分類の自然語解析を行い、更にアクセント処理を
行ってこれを表音変換してイントネーションをつけて文
章処理データを作る。3は音節処理部で、音節パラメー
タを有すし、文章処理されたデータの音節処理を行う。
音節パラメータは子音の110個〜140個(普通に話
せる言葉110個程度あればよい)の音節毎に音の高さ
(ピッチ)音の強さ(エネルギー)および継続時間を与
え、例えば「桜」の場合は第6図に示すようにSA。
KU、RA各音節毎にピッチP、エネルギーE。
時間Tを正規化する。4は音素処理部で、パラメータ捕
間機能をもつ音素パラメータを有する。音素パラメータ
は各音素毎に音の立ち上がり部01゜定常部01.立ち
下がり部0.に区分を行い、各区分毎に音素(断面積)
時定数、継続時間、ピッチ。
ピッチ時定数、エネルギー、エネルギー時定数。
音源を正規化し、各区分毎のデータのブロックを形成す
る。前記の「桜」に例をとれば第7図に示すようにrS
J、rAJ、rKJ、rUJ。
rRJ、rAJの各音素に区分の立ち上がり部0、であ
ればDO,、T、、P、、DP、、E、、DE、。
G、のデータユニットを形成する。これらのデータユニ
ットは第1図の音響管モデルの断面積A。
〜Anの各断面積A、・、〜An−1に対応して設けら
れている。即ち音響管モデルの断面積Aが17ある場合
は各音節毎に6X17=102のデータユニットが用意
される。前記の各時定数は、前の区分の最終値から、当
該区分のそれぞれに対応する目標値への動き方を指定す
る。時間Tは継続時間で、この時間T内に上記の処理が
行われる。また音源G +、 G t、 G 3は子音
部分では各区分毎に時間Tに応じて変化するが、おおむ
ね300パツ程度、母音部では50パフ程度のパルス列
で音源を与える。6は音響管モデル部で音響管の断面積
の変化を模擬する制御を行い、その出力を音声合成波形
部7に入力し、音声合成波形部7でデジタル信号をアナ
ログ信号に変えてスピーカ8から音声として出力させる
実際に音声を合成する場合は、後続する子音によって母
音の波形が変わったり、また子音についても連続発声に
よって子音部が短くなったり、エネルギーが変わる。従
って合成音声の質を向上させるには音節と音節の調音結
合が極めて重要である。例えば第7図の「S」からrA
Jに移るときは同−音節内あるから連続的に移れるが、
rAJからrKJに移るときは音節のデータが切りかわ
るので、継ぎ目の音が跡切れ、自然な音がでない。
そこでこの音節間の調音結合を良くするため、前段の音
節の終わりの母音(V)と次の音節の頭の子音(C)と
続く母音(■)、いわゆるVCV結合のデータを作成し
て調音結合する方式やCV結合方式が行われている。し
かしこれらの方式は、音節の数が極めて多くなり、記憶
すべきパラメータの量も増加する。即ちvCVではCV
、Vで100個、VCV、N0Vt?618個、VV、
NV。
VNが50個、合計768個の音節を必要とする。
(但しNは撥音)またCV結合でもCVは最低でllO
個程度必要であり、これに更にVCを加えることになり
、結果的にCVC結合となるので約700個程度の音節
が必要となる。
子音にはrsAJ行に代表される摩擦系のものが約30
種、rKAJ行に代表される破裂系のものが約40種、
rtsJ、rdzJの類の破擦系のものが数種類あり、
これらの各県の子音にはそれぞれ特色がある。即ち破裂
系の音の波形は、最初何もなく途中に振動波形がでてこ
れに母音の周期的な波形が現れる。従って母音から子音
に移るときはエネルギーは0となる。また摩擦系の音は
、周期性(ピッチ)の無い不規則な成分が続いた後母音
の周期的な波形が現れる。従って母音と子音の接合部は
、常に母音と子音の波形が交わる。また破擦系の音は、
1旦0になり、0から始まる。
従って子音のデータが無くとも母音のデータに結合でき
る。
そこで本発明は、子音部を上記の3種類の系とこれに属
さないその他の4種類に大分類してグルーピングし夫々
のグループ1つのデータで代表させ、音節結合データの
削減を図ったものである。
第1図は、結合データの実施例で、現音節の母音部に続
く後続音節の子音グループを、破裂基音。
摩擦基音、破擦系音、その他の音の4種類の結合データ
を作る。モして各県の特色に合わせて断面積時定数Ds
、ピッチ時定数Dp、エネルギー時定数り、u続時間T
を設定する。例えば母音から破裂基音に移す場合は、波
形が一旦0になるので、断面積、エネルギー、ピッチの
子音の先頭は0の目標値を与える。
以上のVCの調音は、第5図のパラメータ補間部5内で
行われる。
今、第7図のSAからKUに移る場合について説明する
と、電算機処理で常に次に来る音節がわかっているので
1、「S」からrAJに移るときに、すでに次にrKU
Jの破裂音がくるのがわかっている。そこで「A」の立
ち上がりOl、定常0、を処理した後、立ち下がりO5
で破裂基音のデータを使用して音節間の調音結合が行わ
れる。
以上のように破裂基音、摩擦系音、破擦系音およびその
他の音の4グループに大分類し、その各グループ内の音
節をすべてまとまでl音節と同様に取り扱うようにした
ので、Cv結合の音節として各グループは撥音Xを含め
た母音6個だけのデータでよく、従って4グループ含め
て24個の音節分のデータで足りる。即ち、従来VCV
結合、又はCVC結合の場合は700〜800個の音節
を必要としたものが1/30程度で足りこれらのデータ
を実行するためのパラメータのメモリーは極端に少なく
なる。
なお、第1図(ア)は、子音部を破裂系、摩擦系、破擦
系、およびこれらに含まれないその他の4種類にグルー
ピングした場合であるが、第1図(イ)のように破裂系
、摩擦系、その他、促音等共通できるグループ分けして
もよく、また破裂系と摩擦系で70数種類の音節があり
、子音の約70%を占めるので、この破裂系と摩擦系の
み、をグルーピングして、他はC■結合データを作って
も、データは若干増えるが本発明の目的は十分達成され
る。
G0発明の効果 以上のように、本発明は、音節の終わりの母音と、後続
の音節の初めの子音との調音結合データを、子音の少な
くとも破裂系と摩擦系とをグルーピングして、各グルー
プを1つの子音として取扱うデータを作成したので結合
データの量を非常に削減できる。
【図面の簡単な説明】
第1図は、本発明の実施例たる音節結合データの説明図
、第2図は、音響管の電気回路等価モデル図、第3図は
、音声伝搬を電気的に模擬した電気回路図、第4図は、
第3図の等価回路図、第5図は、本発明を説明するため
の文字入力信号から音声合成するブロック結線図、第6
図は音節パラメータ説明図、第7図は音素パラメータ説
明図を示す。 Ds・・・断面積時定数、Dp・・・ピッチ時定数、D
!・・・エネルギー時定数、T・・・継続時間、l・・
・日本語処理部、2・・・辞書、3・・・音節処理部、
4・・・音素処理部、5・・・パラメータ補間部、6・
・・音響管モデル部、7・・・音声合成波形部、8・・
・スピーカ。 第5図 1       宮P含Ats 第6図 第7図

Claims (1)

    【特許請求の範囲】
  1. 音節を構成する音素を基本単位として音声を合成するも
    のにおいて、前記各音素を立ち上がり、定常、立ち下が
    りに区分し、これら各区分毎に断面積時定数、継続時間
    、ピッチ、ピッチ時定数、エネルギー、エネルギー時定
    数、音源を定めて音素データを作成し、且つ前記音節間
    に音節結合データを設けると共に、該結合データの少な
    くとも破裂系と摩擦系の子音を夫々グルーピングして1
    つの子音に類して処理するようにしたことを特徴とした
    音声合成方式。
JP62335475A 1987-12-28 1987-12-28 音声合成方式 Pending JPH01177097A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62335475A JPH01177097A (ja) 1987-12-28 1987-12-28 音声合成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62335475A JPH01177097A (ja) 1987-12-28 1987-12-28 音声合成方式

Publications (1)

Publication Number Publication Date
JPH01177097A true JPH01177097A (ja) 1989-07-13

Family

ID=18288982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62335475A Pending JPH01177097A (ja) 1987-12-28 1987-12-28 音声合成方式

Country Status (1)

Country Link
JP (1) JPH01177097A (ja)

Similar Documents

Publication Publication Date Title
JPS62231998A (ja) 音声合成方法および装置
US5097511A (en) Sound synthesizing method and apparatus
JPH01177097A (ja) 音声合成方式
JPH01177096A (ja) 音声合成方式
JP2990693B2 (ja) 音声合成装置
JP2992995B2 (ja) 音声合成装置
JPH01219896A (ja) 音声合成方式
JP2990691B2 (ja) 音声合成装置
JPH01185700A (ja) 音声合成方法
JPH01292400A (ja) 音声合成方式
JPH01182900A (ja) 音声合成方式
JPH01171000A (ja) 音声合成方式
JPH0833751B2 (ja) 音声合成方式
JPH01177100A (ja) 音声合成方式
JPH01219899A (ja) 音声合成装置
JPH01219894A (ja) 音声合成方式
JP3267659B2 (ja) 日本語音声合成方法
D’Souza et al. Comparative Analysis of Kannada Formant Synthesized Utterances and their Quality
JPS63257000A (ja) 音合成方法
JPH01177098A (ja) 音声合成装置
Skare et al. Using a Recurrent Neural Network and Articulatory Synthesis to Accurately Model Speech Output
JPH01219898A (ja) 音声合成装置
JP2573587B2 (ja) ピッチパタン生成装置
JPH0833749B2 (ja) 音合成方法
Singh et al. Removal of spectral discontinuity in concatenated speech waveform