JP2573586B2

JP2573586B2 - 規則型音声合成装置

Info

Publication number: JP2573586B2
Application number: JP61257489A
Authority: JP
Inventors: 幸夫三留
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1986-10-29
Filing date: 1986-10-29
Publication date: 1997-01-22
Anticipated expiration: 2012-01-22
Also published as: JPS63110498A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、文字列などの音声を表す情報から規則によ
り音声を合成する装置に関する。

（従来の技術）音声応答システム等においては、システム開発時にあ
らかじめ決められた特定のメッセージだけでなく、運用
時に任意の文章や単語の読み等を表す文字列から音声を
合成する必要が生じる場合がある。また、人間が読むた
めのテキスト、例えば日本語ならば漢字仮名混じりの文
章を機械に音読させる場合には、テキストを解析し、読
み等を表す情報（以後、音声情報と呼ぶ）を生成し、そ
れから音声を合成することになる。

このような場合、ピッチ、音素の時間長、振幅あるい
はスペクトルパラメータなどを制御する様々な音声合成
規則を用意しておき、入力された音声情報に対してそれ
らの音声合成規則を適用することによって音声を合成す
るいわゆる音声の規則合成が知られている。

このような音声の規則合成の例は、三留と伏木田によ
る日本音響学会音声研究会資料S85−31（1985.7）、
「ホルマント、CV−VC型規則合成」に示されている。

これは、音声合成規則として、時間長規則、ピッチ規
則、ポーズ規則、パラメータ編集規則などがあり、あら
かじめ自然音声を分析して得られたCV−VC（Ｃは子音Ｖ
は母音を表す）を単位とするホルマントパラメータを編
集し、それをホルマント型音声合成器に与えることで任
意の音声を合成するものである。ここにホルマントと
は、フォルマントとも呼ばれ、音声のスペクトルの特徴
をあらわすパラメータで、スペクトルのピークを意味し
ている。これは声道、即ち声帯の上部の喉から口の中ま
での音響的共振特性に対応するものであり、共振周波数
の低い方から第一ホルマント、第二ホルマント等と呼ば
れ、音声の音韻性や個人性は第一から第三ないし第五程
度までのホルマントで特徴づけられるといわれている。

これらの諸規則の内、時間長規則は、単語の長さ、文
章中の単語の位置、アクセントの位置などに基づいて音
素の時間長を決定する規則である。なお、この結果得ら
れる時間長の値を時間長データと呼ぶこととする。この
時間長データについて簡単に説明する。読みなどを表す
文字列としては、音素系列、即ち音素（特定の子音や母
音）の系列としてあらわされるもの、例えば「こんにち
は」という言葉に対して、/k//o//N//n//i//ch//i//w//
a/というような系列が一般的である。ただし、これは概
念的なものであり、読みを表せるならばアルファベット
による音素系列に限るものではなく文字などを用いるこ
ともできる。また、上記の各音素は、それぞれある時間
にわたって継続するものである。例えば、始めの子音/k
/は50ミリ秒、次の母音/o/は100ミリ秒といったよう
に、この各音素の継続する時間の具体的数値を時間長デ
ータである。その値は、音素固有のものではなく、前後
の音素の違いや、発生の速度によって変化するものであ
る。

ポーズ規則は、文節相互の係り受けに基づいて、長い
文章を幾つかの呼気段落に分け、その間のポーズの時間
長を決定する規則である。

パラメータ編集規則は、合成すべき音声の音素系列、
即ち読みを表わす文字列に基づいてまず単位となるCV−
VC音声の番号を決定し、あらかじめ用意されたCV−VCを
単位とするホルマントデータを編集して音声を合成する
規則である。

一方、第二の従来例としては、三留、伏木田、高島に
よる、電子通信学会情報システム部門全国大会講演論文
集、No.1−131に示された「調音素片編集方式による音
声合成システム」がある。これは、第一の従来例と同様
に、調音素片と呼ばれる単位音声を編集して任意の音声
を合成するものであるが、ホルマントなどのパラメータ
ではなく、数段階のピッチレベルを有する音声波形を編
集する点が第一の例と異なる。そのため、時間長規則な
どは第一の例と同様であるが、ピッチ規則は、あらかじ
め用意されたピッチの中から選択するという点が異な
り、又、データの編集もピッチを考慮して行なうことに
なる。

いずれの例によっても、音声情報に基づいて任意の日
本語音声を合成することができる。又、時間長や、ピッ
チなどの個々のパラメータに関する制御規則についても
多くの例が知られている。

更に、英語などの他の言語の音声も同様に規則によっ
て合成することが可能であり、そのような例も多く知ら
れている。その様な例は、プロシーディングスアイシ
ーエイエスエスピー82（Proceedings ICASSP 82、1982
年音響・音声・信号処理国際会議論文集）の1589ページ
から1592ページに示されたクラット（Klatt）による論
文「ザクラットークテキストトゥースピーチ
コンバージョンシステム（The Klattalk Text−to−S
peech Conversion system）」がある。この例では、ピ
ッチ、音素のホルマントや振幅等の各種の音声合成パラ
メータのターゲット値を与え、その間をなめらかに補間
して各パラメータの時系列パタンを生成する規則を有し
ている。ここにターゲット値とは、ピッチや振幅あるい
は音素のホルマントなどの各音声合成パラメータの、い
くつかの時刻における値、たとえば音素の時間的な始
め、中央おび終端などでの値を意味するものである。

これらの例に共通するのは、入力の音声情報に対して
条件の適合する諸規則を適用し、各種のパラメータ（時
間長、ピッチ、ホルマント周波数や振幅のターゲット
値、単位音声の番号など）の値を決定し、その値に基づ
いて音声を合成することである。

（発明が解決しようとする問題点）しかしながら、このような従来の規則型音声合成装置
においては、同一の文章あるいは単語などは、常に同一
の規則が適用されるため、常に同じように発音されるこ
とになる。そのため、従来の規則型音声合成装置によっ
て生成された合成音声は機械的で不自然な印象を受け、
長時間聞くと疲れるといった問題があった。

単語や単文が長文の一部として現れる場合には、前後
関係が異なるならば、規則によっては少し異なって合成
される場合もある。しかし、単語などが句読点によって
区切られ単独で現れ、規則がその前後を考慮しないよう
な場合にはいつも同じ様に合成されることになる。

このような状況は、テキストが長くなればなるほど発
生する可能性が高くなり、不自然さが目立つことにな
る。

本発明の目的は、従来の規則型音声合成装置に若干の
回路を追加した程度の簡単な構成で、より自然の音声を
合成し得る規則型音声合成装置を提供することにある。

（問題点を解決するための手段）前述の問題点を解決するために、本発明は、入力され
た音素系列などの音声情報に基づいて、音声の規則合成
の為のピッチ、音素時間長、振幅、スペクトル等の音声
合成パラメータのターゲット値を決定する手段と、その
パラメータのターゲット値から音声合成パラメータの時
系列パタンを生成し、その時系列パタンをもとに音声を
合成する手段とを有する音声合成装置において、ランダ
ムデータを発生する手段と、そのランダムデータの値に
応じて前記の音声合成パラメータのターゲット値を変化
させる手段とを更に有することを特徴とする。

（作用）本発明は、音声合成パラメータに対する制御規則によ
り、従来と同様に音声合成パラメータの値を決定し、そ
れをランダムに変化させて音声を合成することにより、
機械的な合成音声の発声を避けようとするものである。
これは、実際に人間が同一の文章などを音読する場合に
は、韻律や音色などは発声の度に確率的に揺らぐという
性質があり、それを実現することで自然性を向上させよ
うとするものである。そのために、ランダムデータを発
声する手段によって生成されたランダムデータに応じ
て、音声合成パラメータ値を変化させる手段により、従
来と同様に決定されたパラメータ値を変化させるのであ
る。

このとき、あらかじめ実際に人間が発声した音声を分
析して、音声合成パラメータの値の統計的な分布を調べ
ておき、その分布にもとづいて音声合成パラメータ値の
変化させる量を決定する。

ランダムデータを発声する手段としては、従来から合
同法によるものやＭ系列によるもの等が知られており、
いずれの方法に基づくものでも利用可能である。

（実施例）次に、図面を参照して本発明の実施例を説明する。

第１図は、本発明を説明するための一例を示すブロッ
ク図である。この例は、前述の第二の従来例と同様に、
単位音声波形を編集して音声を合成する装置である。

図において、101は制御回路、102はデータ番号生成回
路、103は単位音声波形メモリ、104は波形編集回路、10
5は乱数発生回路、106は加算器である。

単位音声波形メモリ103には、各単位音声に対して複
数の波形データが記憶されており、それぞれに割り当て
られたデータ番号を信号線118から与えるとそのデータ
が信号線119から出力される。ここで、同一の単位音声
に対する複数の波形データの番号は連続的に割り当てて
おく。即ち、単位音声波形メモリ103内には、一つの単
位音声に対する異なった波形データがグループを成して
記憶されている。このように、記憶されているデータの
内容は異なるものの、単位音声波形メモリ103の構成
は、第二の従来例に於てあらかじめ用意しておく単位音
声の波形のデータを記憶しておくものと同様である。

データ番号生成回路102は、信号線113から入力される
単位音声名の系列から、単位音声波形メモリ103内の一
つの単位音声に対する異なった波形データのグループの
先頭のデータの番号を生成し、信号線116へ出力する。

波形編集回路104は、単位音声波形メモリ103から信号
線119を介して送られる単位音声の波形データのうち、
信号線115から入力される時間長データの示す部分のみ
を用い、各単位音声波形の間を補間することによって合
成音声波形を生成する。これら、データ番号生成回路10
2と波形編集回路104も、第二の従来例におけるものと同
様の構成で実現できる。

乱数発声回路105は、制御回路101から指示がある毎
に、乱数を発生し信号線117を介して加算器106に送る。
このとき生成される乱数は、各単位音声ごとに記憶され
ている波形データの個数をＮとすると、０から、（Ｎ−
１）の値をとるものである。

加算器106では、データ番号生成回路102からおくられ
る、一つの単位音声に対する異なった波形データのグル
ープの先頭のデータの番号に、乱数発生回路105から送
られる乱数を加算し、信号線118を介して単位音声波形
メモリ103に送る。

制御回路101は、信号線111から単位音声名の系列と時
間長データが入力されると、単位音声名の系列を信号線
113を介してデータ番号生成回路102に送りデータ番号を
発生させ、時間長データを信号線115を介して波形編集
回路104に送る。更に、信号線114を介して乱数発生回路
105に指示を送り乱数を発生させる。こうして、データ
番号生成回路102で生成されたデータ番号に、乱数発生
回路105で生成された乱数が加算され、そのデータが単
位音声波形メモリ103から読み出され、波形編集回路104
に於て編集されて合成音声波形が生成され、信号線112
から出力される。

この例では、単位音声波形データを編集するものとし
て説明したが、前述の第一の従来例のように、単位音声
のホルマントパタンなどのデータを編集する装置でもこ
の例と同様に実現することができる。即ち、波形データ
の代わりにホルマントパタン等のデータを記憶してお
き、それを編集する様にすれば良い。

第２図は、本発明の一実施例のブロック図である。本
実施例は前述の第三の従来例と同様に、ピッチ、音素の
ホルマントや振幅等の各種の音声合成パラメータのター
ゲット値を与え、その間をなめらかに補間して各パラメ
ータの時系列パタンを生成する型の装置である。

図において、201は制御回路、202はパラメータターゲ
ット値生成回路、203はデータ補間回路、204は音声合成
回路、205はデータ分布値メモリ、206は乱数発生回路、
207は乗算器、208は加算器である。

パラメータターゲット値生成回路202は、第三の従来
例におけるものと同様に、制御回路201から信号線213を
介して送られる音素系列に基づいて、パラメータターゲ
ット値を生成し、信号線220に送出する。このパラメー
タターゲット値生成回路202が、音声情報から音声合成
パラメータのターゲット値を決定する手段に対応する。

データ補間回路203も、第三の従来例におけるものと
同様に、信号線216から送られる制御信号に基づいて、
信号線221から入力されるパラメータのターゲット値の
間を補間して各パラメータの時系列パタンを生成し、そ
のデータを信号線222を介して音声合成回路204に送る。

音声合成回路204も、第三の従来例におけるものと同
様に、データ補間回路203から送られるデータをもとに
合成音声を生成し、信号線212へ出力する。以上のデー
タ補間回路203と音声合成回路204がそのパラメータのタ
ーゲット値から音声合成パラメータの時系列パタンを生
成し、その時系列パタンから音声を合成する手段に相当
する。

データ分布値メモリ205には、各パラメータのターゲ
ット値の分布する最大値が記憶されていて、制御回路20
1から信号線214を介して送られる指示に従って、その分
布の最大値を信号線217へと送り出す。

乱数発生回路206では、制御回路201から信号線215を
介して送られる指示に従って、絶対値が１以下の正負の
乱数が発生され信号線218へと送り出される。

乗算器207では、データ分布値メモリ205から送られる
データの分布の最大値に、乱数発生回路206から送られ
る乱数が乗じられ、その積が信号線219を介して加算器2
08へと送られる。

加算器208では、パラメータターゲット値生成回路202
から送られるパラメータターゲット値と、乗算器207か
ら送られるデータ分布値と乱数の積が加え合わされて新
たなパラメータターゲット値として信号線221を介して
データ補間回路203に送られる。

制御回路201は、信号線211から音素系列と時間長デー
タが入力されると、音素系列を信号線213を介してパラ
メータターゲット値生成回路202に送りパラメータター
ゲット値を発生させ、制御回路を信号線216を介してデ
ータ補間回路203に送る。更に、信号線214を介してデー
タ分布値メモリ205に指示を送りデータの分布の最大値
を発生させ、信号線215を介して乱数発生回路206に指示
を送り乱数を発生させる。

こうして、パラメータターゲット値生成回路202で生
成されたパラメータターゲット値に、データ分布値メモ
リ205で生成されたデータの分布の最大値と乱数発生回
路206で生成された乱数の積が加算され、その新たなパ
ラメータターゲット値に基づいて各音声合成パラメータ
の時系列パターンが生成され、そのデータをもとに音声
が合成される。

（発明の効果）以上説明したように、本発明によれば、合成しようと
する音声情報に同一の表現が繰り返し現れても、各種の
音声合成パラメータの値がその都度微妙に異なった値が
とられるため、明瞭性が損なわれることなく自然な合成
音が得られるという効果がある。

【図面の簡単な説明】

第１図は本発明を説明するためのの一例を示すブロック
図である。第２図は本発明の一実施例を示すブロック図
である。図において、101は制御回路、102はデータ番号生成回
路、103は単位音声波形メモリ、104は波形編集回路、10
5は乱数発生回路、106は加算器、201は制御回路、202は
パラメータターゲット値生成回路、203はデータ補間回
路、204は音声合成回路、205はデータ分布値メモリ、20
6は乱数発生回路、207は乗算器、208は加算器をそれぞ
れ表す。

Claims

(57)【特許請求の範囲】

【請求項１】入力された音声系列などの音声情報に基づ
いて、音声の規則合成の為のピッチ、音素時間長、振
幅、スペクトル等の音声合成パラメータのターゲット値
を決定する手段と、そのパラメータのターゲット値から
音声合成パラメータの時系列パタンを生成し、その時系
列パタンをもとに音声を合成する手段とを有する音声合
成装置において、ランダムデータを発生する手段と、そ
のランダムデータの値に応じて前記の音声合成パラメー
タのターゲット値を変化させる手段とを更に有すること
を特徴とする規則型音声合成装置。