JPS63285598A

JPS63285598A - 音素接続形パラメ−タ規則合成方式

Info

Publication number: JPS63285598A
Application number: JP62119122A
Authority: JP
Inventors: 誠一山本; 樋口　宜男; 徹清水
Original assignee: Kokusai Denshin Denwa KK
Current assignee: KDDI Corp
Priority date: 1987-05-18
Filing date: 1987-05-18
Publication date: 1988-11-22
Also published as: US4896359A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、規則による音声合成方式に関し、特にかな文
字列とそれに付加されたアクセント、イントネーション
等の韻律記号列を入力することによシ高品質な音声を合
成する規則による音素接続形パラメータ規則合成方式に
関する。

（従来の技術）従来、規則によシ音声を合成する際、各音素を特徴づけ
る複数個のホルマント周波数及びホルマント帯域幅等の
特徴ベクトルと隣接音素間の音素変化を表わす特徴ベク
トル係数の時系列を蓄積し、隣接音素間の過渡部は、線
形補間法を用いて各音素の特徴ベクトルおよび特徴ベク
トル係数の線形結合によシ作成する方法等がある。これ
らの方法では前後の音素、発話速度等姉より定まる各音
素の持続時間に応じて定常部分を表示している特徴ベク
トル部分を伸縮する方法が用いられる。しかし、このよ
うな方法では発話速度が異なっても過渡部分は同じであ
るという粗い近似であシ、これによシ得られる合成音は
発話速度によっては不自然な感じとなるのを免れない。

（発明が解決しようとする問題点）本発明の目的は、このような従来の欠点を改善するため
、人間の実音声の分析によシ抽出されるホルマント周波
数等の音声合成パラメータの時間的変化パターンと極め
てよく一致する時間的変化パターンを人工的に発生させ
、任意の文章を種々。

の発話速度で高品質な音声に変換する規則による音声合
成方式を提供することである。

（問題点を解決するための手段）本発明による規則による音声合成方式は、かな文字列若
しくはローマ字表現されたかな文字列とそれに付加され
たアクセント、イントネーション等の韻律記号列を入力
することにより、音素持続時間、ピッチ周波数の時間的
変化パターン、ホルマント周波数及びホルマント帯域幅
の時間的°変化パターン及び音源強度の時間的変化パタ
ーンを予め定めた規則を用いて決定し、音声波形を合成
する規則による音声合成方式において、各音素のホルマ
ント周波数等の時間的変化パターンを、当該音素の持続
長円の２つの位置（以下、ターゲット位置という）での
値（以下、ターゲツト値という）とそれらの間の接続方
法を規定し、それらの値を用いて逐次算出する規則によ
る音素接続形パラメータ規則合成方式である。

このような規則による音声合成方式において、各規則は
人間の発話を出来る限シ忠実に再現することによＱ１高
品質な音声を合成し得るように定められる。この際、ホ
ルマント周波数等の各音声合成パラメータは、人間の発
声機能の生理学的な制限等によシ、定常とみなされる部
分の開始点及び終了点が同じ位置に存在するとは限らな
い。また、各音声合成パラメータの定常とみなす部分の
開始点及び終了点を同一として規則を作ることは、規則
化ひｂではその規則による制御を困難にする。

このため、各音声合成パラメータの定常とみなす部分の
開始点及び終了点は、各音声合成パラメータ毎に異なり
ていることが望ましい。このことは、隣接する音素及び
発話速度の差異によって音素の持続時間内の一部が伸縮
する際にもあてはまる。

本発明による規則による音声合成方式は、上記のような
規則を有する音声合成方式にｂいて、予め定めた時間間
隔毎の合成パラメータ値を求めるに際し、各音素毎の持
続時間の伸縮方法に応じて時間間隔毎の当該音素の持続
時間内の相対位置を定めるテーブルを作成し、これを用
いて予め定めた時間間隔毎の値を求めることを特徴とす
る。

（実施例）本発明による規則による音声合成方式においては、各音
素を特徴づける音声合成パラメータとして、ホルマント
周波数、ホルマント帯域幅、音源強度等を用いてお）、
これらの時間的変化パターンを２つの点（ターゲット位
置）における値（ターゲツト値）とその間の接続方法を
規定し、更に、音素持続時間についても２つの点（ター
ゲット位置）の間の伸縮を規定する方法により、合成音
牢記の関係をホルマント周波数について示した図で相対
位置を示しておシ、左側の縦軸はホルマント周波数を、
右側の縦軸は時間長を示している。１は第１ホルマント
のある音素の相対位置に対する時間的変化パターンを示
している。すなわち、ある音素の相対位置の前から２０
％の所（ターゲット位置）である値をとシ、８０％の所
（ターゲット位置）で規定されている値へと線形に変化
している例を示している。２は第２ホルマント、３は第
３ホルマントに関する同様の時間的変化パターンを示し
ている。４は音素の時間伸縮の例を示しておシ、音素の
持続時間の内先頭の４０％と後方の２０％の部分につい
ては時間伸縮はないが、真中の４０％については持続時
間が１５０俤伸びている例を示している。

第１図に示したような構成で予め定めた時間間隔毎の音
声合成パラメータは、各音声合成パラメータのターゲッ
ト位置と音素持続時間に関するターゲット位置とを比較
し、音素持続時間が伸縮している範囲に入っている場合
には、その補正を行った上で、予め定めた時間間隔毎の
音声合成パラメータを定めることができる。しかし、こ
の方法は予め定めた時間間隔毎に、多数の比較演算及び
乗除演算等を実行する必要があシ、音声合成のように実
時間処理が必要なものには必ずしも適さない。これに対
し、本発明は各音素毎の時間伸縮に対応するテーブルを
作成することにより、実時間処理に適した構成方法を提
供することである。

第２図に、本発明によるテーブルの作成の方法の説明図
を示す。第２図において、横軸はある音素の絶対時間を
示しておシ、上側の縦軸はホルマント周波数を、下側の
縦軸はある時間長で正規化された相対時間を示している
。１は第１ホルマントの相対時間に対する時間的変化パ
ターンを示している。２，３は各々第１ホルマントのタ
ーゲット、４は音素の時間伸縮を示している。γ１．γ
２はターゲット１及び２の相対位置、ｐｌ、ｐ２はγ１
．γ２からの垂線が折れ線４と交わる点、ｔｌｙｔ２は
ｐｔ　＋　ｐ２からの垂線が絶対時間軸と交わる点であ
シ、すなわち、ターゲット１及び２の時間伸縮後の位置
を示している。ｎｔ、　、　ｎｔ２は時間伸縮後の位置
ｐｉ　＊　ｐ２でのターゲツト値を示している。５は時
間伸縮後の第１ホルマントの時間的変化パターンである
。

ｖｌ　＋　ｖ２　ｚ・・・＋　ｖ６　は予め定めた時間
間隔毎に描いた垂線を示し、ｈｌ、・・・、ｈ６は垂線
ｖＩ＋・・・ｒ　ｖ６が折れ線４と交差した点から引い
た水平線を示している。

即ち、予め定めた時間間隔に対する相対時間上の間隔は
、時間伸縮を示す折れ線４が決まれば一意的に決定でき
るので、これをテーブルとして有しておれば、その位置
に対するホルマント周波数等の値を、このテーブルを検
索してその位置に対して決定することができる。なお、
隣接音素とのずれによる初期値のずれを考慮してテーブ
ルを計算することは当然である。

第３図は、本発明の実施態様の一例を示す構成図である
。図中、１は韻律記号が付与されたかな文字列が入力さ
れる入力端子、２はかな文字列の各音素を前後の音素や
韻律記号を参照して音韻記号に変化させる音韻記号変換
回路、３は各音韻の特徴ベクトルを４の音韻特徴ベクト
ルテーブルから取り出すための音韻特徴ベクトル選定回
路、４は各音韻毎に持続時間長、ホルマント周波数等の
音声合成パラメータのターゲット位置とターゲツト値及
びその接続方法等の情報を記憶している音韻特徴ベクト
ルテーブル、５は予め定めた時間間隔を相対位置に対応
づけるテーブルを作成する変換テーブル作成回路、６は
作成された変換テーブルを記憶する変換テーブル、７は
予め定めた時間間隔毎の音声合成パラメータを算出する
音声合成パラメータ演算回路、８はホルマント形音声合
成器、９は合成された音声波形を出力する出力端子であ
る。

以下、図にそってその動作を説明する。入力端子１よ多
入力された韻律記号が付加されたかな文字列は、音韻記
号変換回路２によシ、各音素とそれぞれの音素に韻律記
号の付された音韻記号の列に変換される。音韻記号は３
の音韻特徴ベクトル選定回路へ入力される。音韻特徴ベ
クトル選定回路は１種のインデックスファイルであシ、
入力された各音韻毎の特徴ベクトルが記憶されている音
韻特徴ベクトルテーブル４内のアドレスを、各音韻毎に
記憶している。音韻特徴ベクトルテーブル４に記憶され
ている特徴ベクトルとしては、持続時間長とその伸縮方
法、ホルマント周波数、ホルマント帯域幅、音源強度の
時間的変化パターンに関するターゲット位置、ターゲツ
ト値及びその接続方法、及びピッチパターン情報がある
。ピッチパターン情報としては、例えば、アクセント核
の位置と戸車て成分の位置を使用する方法は公知である
。（例えば、藤崎、須藤：“日本語単語アクセントの基
本周波数パターンとその生成機構モデル“、日本音響学
会誌、２７，４４５−４５３（１９７１））。

これらの特徴ベクトルの内、持続時間長とその伸縮方法
は変換テーブル作成回路５に入力され、前述した変換テ
ーブルが作成され、その結果は変換テーブル６に記憶さ
れる。変換テーブル作成回路５は前述したように、折れ
線で示される関数の子め定めた間隔毎の値を算出するも
のであるため、演算機能を有するマイクロコンピュータ
で構成可能である。音韻特徴ベクトルテーブル４内の他
の情報は、音声合成パラメータ演算回路７に入力される
。音声合成パラメータ演算回路７は、これらの特徴ベク
トルと変換テーブル６を用いて、予め定めた時間間隔例
えば５　ｍ５ｅｃ　　毎の音声合成パラメータを算出す
る。変換テーブル６内には予め定めた時間間隔に対応す
る相対位置を示すテーブルが記憶されているため、当該
相対位置が２つのターゲット位置の中間に位置するのか
、又はその外側に位置しているのかを確認し、その位置
に応じてターゲツト値の接続方法によシ定められる。例
えば、線形接続であれば、両側のターゲット位置との差
に応じて両側のターゲツト値が荷重平均された値となる
。２つのターゲツト値の接続方法は線形接続だけでなく
、正弦・余弦関数を初め、その関数が一意の関数として
規定できるものであれば全て可能であることは当然であ
る。このため、音声合成パラメータ演算回路７は、演算
機能を有スルマイクロコンピュータで構成可能である。

予め定めた時間間隔毎の音声合成パラメータはホルマン
ト形音声合成器８に入力される。ホルマント形音声合成
器８は公知（例えば、１）Ｊ（、Ｋｌａｔｔ　：＠Ｓｏ
ｆｔｗａｒｅ　ｆｏｒ　ａ　ｃａｓｃａｄｅ　／　ｐａ
ｒａｌｌｅｌ　ｆｏｒｍａｎｔｓｙｎｔｈｅｓｉｚｅｒ
　’　、　Ｊ、　Ａｃｏｕｓｔ、　Ａｍ、、　６７−３
（１９８０））であシ、上記信号を用いて音声波形を合
成し、出力端子９へ出力する。

（発明の効果）以上説明したように、本発明によれば、任意の文章を極
めて自然性の高い音声に変換する音声合成器を記憶容量
を増大させず、かつ短時間の演算時間で、極めて簡単な
構成で実現でき、専用の高速ハードウェアを用いずに汎
用プロセッサにより実現できる。

【図面の簡単な説明】

第１図は、本発明の前提となる規則による音声合成シス
テムの構成原理を示した図、第２図は本発明によるテー
ブルの作成方法を説明した図、第３図は本発明の実施例
の構成を示す図である。１；入力端子、　　　　　２；音韻記号変換回路、３；
音韻特定ベクトル選定回路、４；音韻特徴ベクトルテーブル、５；変換テーブル作成回路、６；変換テーブル、７；音
声合成パラメータ演算回路、８；音声合成器、　　　　９；出力端子。

Claims

【特許請求の範囲】文字列とそれに付加されたアクセント、イントネーショ
ンをふくむ韻律記号列を入力することにより、音素持続
時間、ピッチ周波数の時間的変化パターン、ホルマント
周波数及びホルマント帯域幅の時間的変化パターン及び
音源強度の時間的変化パターンを予め定めた規則を用い
て決定し、音声波形を合成する規則による音声合成方式
において、各音素のホルマント周波数及びホルマント帯域幅の時間
的変化パターン及び音源強度の時間的変化パターンを、
当該音素の持続時間内の２ケ所の位置とその位置での値
、その位置間の遷移方法及び前後の音素の当該位置との
間の遷移方法を用いて規定するテーブルと、当該音素の
持続時間の伸縮方法を登録しているテーブルを検索し、
それらの値を用いて予め定める時間間隔毎の値を求める
に際し、各音素毎の持続時間の伸縮方法に応じて時間間
隔毎の当該音素の持続時間内の相対位置を定めるテーブ
ルを作成し、これを用いて予め定めた時間間隔毎の値を
求めることを特徴とする音素接続形パラメータ規則合成
方式。