JPH05134691A

JPH05134691A - 音声合成方法および装置

Info

Publication number: JPH05134691A
Application number: JP3311570A
Authority: JP
Inventors: Kazuhiro Suzuki; 和洋鈴木
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-10-31
Filing date: 1991-10-31
Publication date: 1993-05-28
Anticipated expiration: 2015-02-07
Also published as: JP3006240B2

Abstract

(57)【要約】【目的】文全体の構造を完全に分析することなく、ロー
カルな文節間の係り受けの情報と発声長等の制限とに基
づいてポーズ、イントネーション、アクセントを制御す
る。【構成】ローカル・アナリシス処理部４では辞書情報に
基づいて前後３つの文節の間の係り受けα、βおよび
α'の有無を決定し、この係り受けの有無α、βおよび
α'のパターンから暫定的なポーズ、イントネーション
を決定し、こののちグローバル・アナリシス処理部５で
発話長制限やイントネーションの継続長の制限に基づい
てポーズ、イントネーションの位置を修正する。音素片
情報生成部６で、ポーズ、イントネーション等の発話属
性をも考慮して音素片情報が生成され、音声合成部２に
供給され、発音される。

Description

【発明の詳細な説明】

【０００１】

【産業上の応用分野】この発明は日本語テキスト音声合
成に関し、とくに任意の日本語文に対して、ポーズ、ア
クセントおよびイントネーションなどの発話の属性を簡
易に求め、自然な韻律を生成できるようにしたものであ
る。

【０００２】

【従来の技術】日本語テキスト音声合成において、ポー
ズの位置、アクセント、イントネーションなどがどうな
っているかといった発話構造を正しく求め、自然な韻律
を持った合成音声を生成することは、合成音声の聞き易
さの点で重要なことである。

【０００３】しかしながら、これらの情報は文字の並び
からすぐに求められるものではない。ポーズに関してい
えば、句読点で文がある程度区分されているものの、実
際には句読点のない文は新聞を始め、非常に多くみら
れ、単なる句読点だけの処理ではポーズの挿入位置の決
定に不十分である。また、アクセントについても、前後
間で修飾、被修飾の関係があるかないかでアクセントの
形式が異なってくる。さらに、ポーズと同様に文中のあ
る程度大きな区切りでイントネーションの変化が生じて
いる。

【０００４】従来よりこれらのポーズ、アクセント、イ
ントネーションなどといった発話の属性は文の構造と関
連していることが明らかになっている（「統語構造を利
用した韻律記号導出アルゴリズム」、藤崎博也等、日本
音響学会講演論文集、昭和６１年３月ｐｐ１６７−１６
８）。しかしながら、文全体の構造を正確に求めること
は、単語の意味、文の意味、さらには文脈など様々な情
報が必要であり、しかも非常に煩雑な計算を必要とし、
実際に実現するのは大変困難である。

【０００５】また、一方において、こうした構造を用い
ず、付属語の種類や文節の前後の関係だけを考慮して、
話調構造を求めているものもある。しかしながら、こう
したものは、十分に発話の属性が実現されないため、そ
の合成音声は、切れ切れであったり、また逆に切れ目の
ないものであったりして、人間の発声する音声の自然性
を再現できていない（特開昭６０−２４６４３６号公
報、特開昭６１−７７８９６号公報）。こうしたもの
は、とくに比較的長い文章や複雑な構造を持った文章に
対しては、不向きであり、任意の文章に自然な韻律を生
成する必要のあるテキスト音声合成には十分ではない。

【０００６】他の関連特許文献としては、特開平２−１
１５８９８号公報および特開昭５１−２８７０２号公報
がある。前者では、文節の結合の強さと、発声長とでポ
ーズ挿入位置を決定している。後者では、構文ツリーの
深さと句の長さとからポーズ挿入位置を決定している。
しかしながら、いずれも部分的なかかり受け関係を用い
て発話の属性を決定することを開示していない。

【０００７】

【発明が解決しようとしている問題点】この発明は、以
上の事情を考慮した上でなされたものであり、文全体の
構造を求めることなく、簡易な処理が可能であり、しか
も発話の本来の属性に忠実にポーズ、アクセントおよび
イントネーションを決定できる音声合成方法および装置
を提供することを目的としている。

【０００８】

【問題を解決するための手段】この発明は、文の局所的
構造と人間の発声における制約とに着目しなされたもの
である。この発明では、文全体の構文解析をすることな
く、以下の二つの処理で文の話調構造を決定する。ま
ず、最初の段階では、隣合わせたＮ個の文節の間の局所
的な構造に着目して、その係り受けの関係から局所的に
決まる話調構造を求めている。Ｎはたとえば３である。
Ｎが３の場合、３つの文節の間の係り受けのパターン
は、２ｘ２ｘ２個すなわち８個である。この中の２つの
パターンは実現不可能なため他のパターンに置き換えら
れ、正しい組み合わせは６個となる。３文節間での係り
受け構造をとらえることによって、局所的な構造を正確
に求めることができる。つぎの段階では、求められた文
の局所的な構造と、人間の発声の制限や発話のスタイ
ル、発話のバランスを考慮し、文全体にわたる発話構造
を求める。人が音声を発声する場合、文の構造がいかな
るものであろうと、一息で読める長さやイントネーショ
ンは制限されてくる。本発明は、このような点に着目
し、その観点から出てくる幾つかの発話の条件をもと
に、前段階で求められた局所的な話調構造に修正を加
え、文法的にも発話的にも最適な文全体の発話構造の設
定を行なう。

【０００９】

【実施例】以下この発明を日本語テキスト音声合成に適
用した一実施例について図面を参照して説明しよう。な
おテキスト音声合成は任意の入力テキストから自動的に
音声合成を行なうものであり、一般に（１）テキスト入
力、（２）文章解析、（３）音声合成及び（４）音声出
力の４つのステージを有している。（２）のステージで
は漢字・カナ変換辞書や韻律規則を参照して音韻および
韻律のデータを決定する。（３）のステージではパラメ
ータ・ファイルを参照して合成パラメータを順次取り出
すようにする。この発明の関連するは（２）のステージ
の一部分にあたる。他のステージは従前のものと同様に
行うので、ここでは詳細な説明を省略する。

【００１０】図１は、この実施例の日本語テキスト音声
合成システムを全体として示すものであり、この図にお
いて、文章解析部１はかな漢字混じりの日本語文入力を
受け取って文章解析を行い、その結果を音声合成部２に
供給する。音声合成部２は文章解析結果に基づいて音声
合成を行う。文章解析部１は、文節分割処理部３、ロー
カル・アナリシス処理４、グローバル・アナリシス処理
部５および音素片情報生成処理部６から構成されてい
る。

【００１１】文節分割処理部３では、入力されたテキス
トを自立語辞書、付属語辞書を用いて最長一致法により
文節列に分割する。この時点で、テキストの読みの情
報、単語の文法情報およびアクセントが得られる。ロー
カル・アナリシス処理部４では、得られた文法情報をも
とに求められた文節列に対して隣接する３文節間の部分
的な係り受けの関係を求める。この時点において、文の
局所的な構造から、それに関連する話調構造（アクセン
ト結合）が得られ、また、文全体にわたる話調構造の初
期設定を行なうことができる。グローバル・アナリシス
処理部５では、ローカル・アナリシス処理部４で求めら
れた話調構造の初期設定に対し、人間の発話の制限や発
声のスタイルやバランスなどを考慮して修正し、ポーズ
の位置やイントネーションといった文全体に関連する話
調構造を最終的に決定する。音素片情報生成処理部６で
は求められた各種の話調構造をもとに、実際に音声合成
部２で音声を合成するためのデータとなる音素片データ
を作成している。作成された音素片のデータは、音声合
成部２へ渡され、ここで音声波形が生成され合成音声が
出力される。

【００１２】つぎに文節分割処理部３の処理について説
明する。図１において、入力された日本語文は、文節に
分割される。この分割に際しては、自立語辞書、および
付属語辞書を用い、二文節最長一致法を用いている。こ
の過程で、文節の係り受けの関係を明らかにするための
文節の修飾の情報を単語の品詞や付属語の種類などから
修飾情報のテーブルを用いて生成する。この文節分割の
例を図２に示す。たとえば、文章「四国の南には前線を伴う発達した低気圧がある。」の最初の３つの文節について考えてみよう。最初の文節
「四国の」は名詞「四国」と付属語「の」という２つの
単語に分解できる。この単語の並びから文節の係り受け
の性質を求めるため、係り受け情報のテーブルを参照す
る。この場合、この文節の受けの情報は先頭にくる単語
が「四国」であることから名詞ということが、また、文
節の係りの情報は付属語「の」の性質より、名詞または
用言ということになる。

【００１３】つぎにローカル・アナリシス処理部４の処
理について説明する。文節分割で分割された、係り受け
情報が割り出された文節列に対して、つぎに、ローカル
・アナリシス処理を行なう。この処理の流れを図３に示
す。ローカル・アナリシス処理では、最初に、文節間の
局所的な構造を調べ、その構造から局所的に決まる話調
構造を生成し、さらに、文全体の話調構造の候補として
の初期設定を行なう。まず、図４に示したように３つの
文節ごとに窓枠をかけ、この中の文節間の関係、文の局
所的な構造を求める。この解析の例を図５に示す。ここ
では、先頭の「四国の」、「南には」、「前線を」の３
つの文節の係り受けの可能性を調べている。

【００１４】３つの文節の係り受けは、求められた文節
の係り受けの情報をもとに、図５のα、β、α' の３つ
の矢印で示した係り受けのパターンの組み合わせで表現
される。αは第１文節Ａと第２文節Ｂとの間の係り受け
に関する。βは第１文節Ａと第３文節Ｃとの間の係り受
けに関し、α'は第２文節Ｂと第３文節Ｃとの間の係り
受けに関するものである。図５の例では「四国の」とい
う文節は「南には」にも「前線を」にも係ることが可能
であり、あいまい性を持っている。そして、「南には」
と「前線を」の間には係り受けの関係はない。

【００１５】この３つの係り受けの有り無しをそれぞれ
（１，０）で表現すると３文節間の係り受けは図６に示
した８種類となり、図５の例は (α，β，α') =（１，
１，０）のパターン（ケース６）に当たる。なお文末に
関しては、係り受けのない仮想の文節を考え、文の最終
文節には（０，０，０）というパターン、また文の最後
から２つの文節については（１，０，０）または（０，
０，０）のパターンを当てはめる。以上の処理で各文節
間に（α，β，α'）で表現される８つパターンが指定
されたが、この中で、つぎの２つのパターンは係り受け
非交差の法則から、つぎのパターンに修正することがで
きる。ケース６（１，１，０） → ケース０（１，０，０）ケース７（１，１，１） → ケース２（１，０，１）

【００１６】以上求められた計６つのパターンをもと
に、以下に示した４つの、話調構造を求めるためのルー
ルにより、文節Ａと文節Ｂとの間にどのような話調構造
を指定するかを得ることができる。これらのルールは、
文節Ａ、文節Ｂ間の結合の強さの度合いに応じている。（１）（α，β，α'）＝（１，０，０）または（１，
０，１）の場合この場合は、文節Ａ、Ｂ間は極めて強い結合を持ってい
るためアクセント結合を行なう。（２）（α，β，α'）＝（１，１，１）この場合は、文節Ａ、Ｂ間はあいまい結合となってい
る。この部分の話調構造の指定はつぎのグローバル・ア
ナリシス処理で行なう。（３）（α，β，α'）＝（０，１，１）この場合は、文節Ａ、Ｂ間にはある程度大きな切れ目が
ある。ここでは、イントネーションの変化（声の調子の
立て直し）を行なうが、これについてもつぎのグローバ
ル・アナリシス処理で文全体を考慮して決定する。（４）（α，β，α'）＝（０，０，０）または（０，
０，１）この場合は、文節Ａ、Ｂ間には極めて大きな切れ目があ
る。ここでは、ポーズを指定する。

【００１７】以上のローカル・アナリシス処理におい
て、文節間の局所的に決まるアクセント結合の位置やポ
ーズ位置の候補、イントネーションの変化の位置の候補
を得ることができた。これらの情報をもとに人間の発声
の制限や文全体のバランス、スタイルなどを考慮してグ
ローバル・アナリシス処理において、最終的な発話構造
を決定できる。

【００１８】つぎにグローバル・アナリシス処理部６の
処理について説明する。図７はグローバル・アナリシス
処理部６の処理を示す。まず、グローバル・アナリシス
処理では、発声の要因を考慮し、ローカル・アナリシス
処理部５で設定された話調構造が、制限値の範囲内であ
るかどうかをチェックする。つぎに、これらの制限を超
えている場合に分割スタイル、バランスを考慮して最適
な話調構造を指定する。

【００１９】グロバール・アナリシス処理部６で用いら
れる制限値は、以下の２つである。これらは、いずれ
も、人の発声の要因や聴感上の自然性に起因している。・一回の呼気で続けられる長さ（呼気段落）の最長値
ＬＢMAX（２５モーラ）・一回のイントネーションで続けられる長さ（話調成
分）の最長値ＬＰMAX（２２モーラ）ローカル・アナリシス処理において設定された話調構造
に対して、これらの制限値が当てはまっているかどうか
を見ていき、制限値を超えているものがある場合に、以
下のような分割を行なう。なおグローバル・アナリシス
はまず呼気段落について実行され、つぎに話調成分につ
いて実行される。

【００２０】まず、長い呼気段落または話調成分の中で
最も切れやすい文節間を求めるため、各文節間での分割
スコアを求める。ここで先頭からｉ番目の文節間での分
割スコアをＳiとするとＳiは下記のような式によって計
算される。

【数１】ここでＰＷi、ＭＷiはそれぞれその文節間の位置に関す
る重みと修飾の種類に関する重みである。

【００２１】まず、文節間の位置に関する重みＰＷiを
求めるために、制限値よりも長い呼気段落または話調成
分をいくつに分割するかの値、分割数Ｎを求める。この
とき、話調成分に関しては分割数Ｎは常に２で、呼気段
落の分割に限り、Ｎは２以上の数としている。以下に
Ｎの決定式を示す。ここで４／５の値は、経験的に求め
られたものである。

【数２】各文節間のその呼気段落の先頭からのモーラ数をＭiと
すると位置に関する重みは、つぎの式で与えられる。

【数３】ここで、Ｗ１、Ｗ２の値は呼気段落の分割と話調成分の
分割で異なり以下の通りである。この値も経験的に求め
られたものであるＷ１：６０Ｗ２：３０ (呼気段落分割の場合) Ｗ１：９０Ｗ２：０ (話調成分分割の場合)

【００２２】また、修飾の種類に関する重みＭＷiは下
記のように与えられている。

【数４】ここで、ＣＷiは修飾の種類に基づいて経験的に求めら
れた重み付けであり、図８で示されるようなテーブルが
用意されており、このテーブルの値を参照することによ
って求められる。このように計算された中で最もスコア
の高い文節間で分割することにより、最適な位置での分
割が可能となる。なおこの処理は、再帰的に繰り返さ
れ、グローバル・アナリシス処理部６の２つの条件をす
べて満たすまで続けられる。

【００２３】以上、ローカル・アナリシス処理、グロー
バル・アナリシス処理を通して求められた話調構造は、
最後に読みの情報と組み合わされ、音素片処理において
各素片ごとのデータに変換される。各素片のデータは、
素片の長さ、アクセントパターン、話調パターンを生成
するパラメーターを持っている。また、ポーズについて
は無音に対応する素片データをポーズ位置に挿入するこ
とによって実現する。このデータをもとに音声合成部２
により、合成音声が出力される。

【００２４】つぎに具体的な処理の例を下記の［表１］
〜［表７］に示す。入力日本語文は［表１］に示すよう
に、「四国の南には前線を伴う発達した低気圧があ
る。」である。この入力日本語文は、まず、形態素解析
され、［表２］に示すような文節の情報が得られる。こ
こで、ローカル・アナリシス処理を行なう場合、［表
３］に示すように３文節係り受けパターンが求められ、
［表４］に示すように話調構造の初期設定がなされる。
さらに、［表５］に示しように、グローバル・アナリシ
ス処理において、制限を当てはめる。この例において
は、全文が一つの呼気段落となり、呼気段落の最長値の
制限に当てはまる。そこで、各文節境界ごとに分割に関
する位置の重みＰＷと修飾の種類に関する重みＭＷを求
め、その積として分割スコアが与えられる。この場合は
［表６］に示すように「南には」と「前線を」の間が最
も高く、ここにポーズを挿入する。最後に、求められた
話調構造は音素片情報生成処理において、［表７］に示
すような音声合成部２で処理される音素片ごとのデータ
の形式に変換され、音声合成部２に送られる。

【００２５】［表１］入力文四国の南には前線を伴う発達した低気圧がある。［表２］文節分割処理四国の → 南には → 前線を → 伴う → 分割形態（名詞+「ノ」) (名詞+「ニ」「ハ」) (名詞+「ヲ」) (動詞(連体形)) 受け情報名詞名詞名詞動詞係り情報名詞,動詞用言動詞名詞 → 発達した低気圧がある。 (サ変名詞+「シ」「タ」) (名詞+「カ゛」「アル」) 動詞名詞,動詞名詞［表３］ローカル・アナリシス処理（その１）四国の南には前線を伴う発達した低気圧がある。 α １０１０１０ β １→０１１→０１００ α' ０１０１００モーラ数４５５４６８

【表１】［表５］グローバル・アナリシス処理（その１） (呼気段落の最長値 25モーラ＜ 32モーラ) 四国の南には前線を伴う発達した低気圧がある。 M 4 9 14 18 24 PW 45 64 83 83 60 MW 3 80 9 30 9 PW*MW 135 5120 747 2490 540 *

【表２】

【表３】

【００２６】なお以上の例では話調成分の継続長が制限
値２２を超えないので、話長成分の特性はローカル・ア
ナリシスのままであり、修正されない。２２を超えると
きには上述の呼気段落の修正と同様に行える。またアク
セントは基本的には文節または単語レベルで決定され、
アクセント結合等のローカル・アナリシスの結果で修正
が加わる。さらにポーズやイントネーションで微調整さ
れる。

【００２７】また図１の実施例は各機能を実現する複数
のブロックで構成されているが、このようなブロックを
ハードウェアで実現してもよいし、コンピュータたとえ
ばパーソナル・コンピュータのソフトウェアとして実現
してもよい。また一部をソフトウェアとし、他をハード
ウェアまたは拡張用のカードで実現してもよい。

【００２８】

【発明の効果】以上説明したように。この発明によれ
ば、文が文節に分割され、その文法情報が分かっている
場合に、文の局所的な構造と発話の制限だけを考慮し
て、比較的簡単に発話構造などを求めることができる。
この発明は日本語テキスト音声合成において、発声速度
を変化させる場合や発声のスタイルを変える場合にで
も、制限のパラメーターを変更するだけで対応ができ
る。たとえば、早い発声を実現するときは、呼気段落の
最長値を長くすることによって、よりポーズの少ない話
調構造を実現でき、逆に、呼気段落の最長値を短くすれ
ば、区切りの多い明確な発声のスタイルを実現できる。

【図面の簡単な説明】

【図１】この発明の一実施例の音声合成システムを全
体として示すブロック図である。

【図２】上述実施例の文節分割を説明する図である。

【図３】上述実施例のローカル・アナリシスを説明す
る図である。

【図４】上述実施例のローカル・アナリシスを説明す
る図である。

【図５】上述実施例のローカル・アナリシスを説明す
る図である。

【図６】上述実施例のローカル・アナリシスを説明す
る図である。

【図７】上述実施例のグローバル・アナリシスを説明
する図である。

【図８】上述実施例のグローバル・アナリシスを説明
する図である。

【符合の説明】

１…文章解析部２…音声合成部３…文節分割処理部４…ローカル・アナリシス処理部５…グローバル・アナリシス処理部６…音素片情報生成処理部

Claims

【特許請求の範囲】

【請求項１】入力文字列を文節に分割するステップ
と、隣接する文節の境界の各々において、当該境界の周囲の
所定数の文節の間の係り受け関係を辞書情報に基づいて
決定するステップと、上記境界の各々について、上記周囲の所定数の文節の間
の係り受け関係に基づいて当該境界の前後の文節の結合
度を判別するステップと、上記結合度と発声長の制約とに基づいて当該境界にポー
ズを挿入するかどうかを決定するステップとを有するこ
とを特徴とする音声合成方法。
【請求項２】上記所定数を３とした請求項１記載の音
声合成方法。
【請求項３】上記係り受け関係を、当該境界の前の１
文節、当該境界の後の１文節、および上記後の１文節の
後の１文節の間について決定する請求項２記載の音声合
成方法。
【請求項４】入力文字列を文節に分割するステップ
と、隣接する文節の境界の各々において、当該境界の周囲の
所定数の文節の間の係り受け関係を辞書情報に基づいて
決定するステップと、上記境界の各々について、上記周囲の所定数の文節の間
の係り受け関係に基づいて当該境界の前後の文節の結合
度を判別するステップと、上記結合度とイントネーション１つ当たりの継続長の制
約とに基づいて当該境界の後にイントネーションを挿入
するかどうかを決定するステップとを有することを特徴
とする音声合成方法。
【請求項５】入力文字列を文節に分割するステップ
と、隣接する文節の境界の各々において、当該境界の周囲の
所定数の文節の間の係り受け関係を辞書情報に基づいて
決定するステップと、上記境界の各々について、上記周囲の所定数の文節の間
の係り受け関係に基づいて当該境界の前後の文節の結合
度を判別するステップと、上記結合度に基づいてアクセントを修正するステップと
を有することを特徴とする音声合成方法。
【請求項６】入力文字列を文節に分割するステップ
と、隣接する文節の境界の各々において、当該境界の周囲の
所定数の文節の間の係り受け関係を辞書情報に基づいて
決定するステップと、上記境界の各々について、上記周囲の所定数の文節の間
の係り受け関係に基づいて当該境界の前後の文節の結合
度を判別するステップと、上記結合度と発声長の制約とに基づいて当該境界にポー
ズを挿入するかどうかを決定するステップと、上記結合度とイントネーション１つ当たりの継続長の制
約とに基づいて当該境界の後にイントネーションを挿入
するかどうかを決定するステップと、上記結合度に基づいてアクセントを修正するステップと
を有することを特徴とする音声合成方法。
【請求項７】上記イントネーションおよびポーズの有
無に基づいて、アクセントの修正を行う請求項６記載の
音声合成方法。
【請求項８】入力文字列を文節に分割する手段と、隣接する文節の境界の各々において、当該境界の周囲の
所定数の文節の間の係り受け関係を辞書情報に基づいて
決定する手段と、上記境界の各々について、上記周囲の所定数の文節の間
の係り受け関係に基づいて当該境界の前後の文節の結合
度を判別する手段と、上記結合度と発声長の制約とに基づいて当該境界にポー
ズを挿入するかどうかを決定する手段とを有することを
特徴とする音声合成装置。
【請求項９】入力文字列を文節に分割する手段と、隣接する文節の境界の各々において、当該境界の周囲の
所定数の文節の間の係り受け関係を辞書情報に基づいて
決定する手段と、上記境界の各々について、上記周囲の所定数の文節の間
の係り受け関係に基づいて当該境界の前後の文節の結合
度を判別する手段と、上記結合度とイントネーション１つ当たりの継続長の制
約とに基づいて当該境界の後にイントネーションを挿入
するかどうかを決定する手段とを有することを特徴とす
る音声合成装置。
【請求項１０】入力文字列を文節に分割する手段と、隣接する文節の境界の各々において、当該境界の周囲の
所定数の文節の間の係り受け関係を辞書情報に基づいて
決定する手段と、上記境界の各々について、上記周囲の所定数の文節の間
の係り受け関係に基づいて当該境界の前後の文節の結合
度を判別する手段と、上記結合度に基づいてアクセントを修正する手段とを有
することを特徴とする音声合成装置。