JPH0473697A

JPH0473697A - 音声規則合成装置および方法

Info

Publication number: JPH0473697A
Application number: JP2183947A
Authority: JP
Inventors: Shoichi Takeda; 武田　昌一; Yoshiaki Asakawa; 浅川　吉章; Hiroshi Ichikawa; 市川　熹
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1990-07-13
Filing date: 1990-07-13
Publication date: 1992-03-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

［産業上の利用分野１本発明は文章音声の規則合成方法及び装置に係わり、特
にプロミネンス情報を利用した規則合成音声の音質改善
に関する。［従来の技術１本発明に関連した技術として、以下の文献が知られてい
る。１、市川　黒、他；合成音声の自然性に関する実験的考
察、音響学会講演論文集　１〜３−８（昭４２）２、申出　剛、他；合成音声の音源特性制御による疑問
、強調の表現、電子通信学会大会　６４（昭４３）３、特開昭５９−０８１６９７号（単語規則合成に藤崎
モデルを使用）４、特開昭６０−０７４２２４号公報（段落ごとに発声
の調子を改め、更に自然な揺らぎを与える）５、特開昭
６２−１３８８９８号公報（疑問文、命令文、願望文等
のイントネーションをＵ崎モデルにより生成）６、　Ｈ，Ｆｕｊｉｓａｋｉ　ｅｔ、　ａｌ、、　　”
Ａｎａｌｙｓｉｓ　ｏｆ　ｖｏｉｃｅｆｕｎｄａｍｅｎ
ｔａｌ　　ｆｒｅｑｕｅｎｃｙ　ｃｏｎｔｏｕｒｓ　ｆ
ｏｒｄｅｃｌａｒａｔｉｖｅ　　５ｅｎｔｅｎｃｅｓ　
ｏｆ　Ｊａｐａｎｅｓｅ、”　Ｊ。＾ｃｏｕｓｔ、　Ｓｏｃ、　Ｊｐｎ、　（Ｅ）５．４　
（１９８４）。７、佐藤利男；有声、無声破裂音の時間要素の差異につ
いて、日本音響学会誌第１４巻第２号８、落合和雄；無
声破裂音におけるピッチ周波数変化の聴覚的検討、日本
音響学会講演論文集２−３−１２　（昭４３−１１）９、特開昭６３−１７４１００号公報（Ｉｍｍモモデル
更に音素制御機構、文形指定制御機構３および強調制御
機構を付加したモデル）１０、廣瀬啓吉、藤崎博也、他２；基本周波数パターン
生成過程モデルに基づく文章音声の合成、電子情報通信
学会論文誌　Ａ、　Ｊ７２−Ａ、　１゜ｐｐ、３２−４
０　（１９８９−１）１１、河井恒、廣瀬啓吉、藤崎博也；日本語音声の合成
における韻律的特徴の合成規則、電子情報通信学会技術
報告　音声、　５Ｐ８８−１２９１２、藤崎博也、廣瀬
啓吉、他２；連続音声中におけるアクセント成分の実現
、音声研究会資料。１３、武田昌−１市川　黒；４モ一ラ単語を対象とした
ピンチ制御機構モデルパラメータの推定、日本音響学会
講演論文集１−５−１３　（昭５７−３）これら文献を
参照して、従来の技術について簡単に説明する。任意の文章あるいは単語のテキストより、これに対応す
る音声を合成する手法は「規則による音声合成」あるい
は単に「規則合成」と呼ばれている。規則合成の音声で
は、一般に、音韻のつながりや、持続時間、あるいはピ
ッチ（声の高さ）の変化などの特徴を外部から規則によ
り与えているため、自然の音声のものとは異なっている
。したがって、規則合成による音声は、自然の音声の特
徴をそのまま保存している、いわゆる「分析合成」によ
る音声の音質より悪い。規則合成音声の音質劣化の要因
としては、■音韻の明瞭性の低下に起因するものや、■
文章の抑揚の不自然さに起因するものが挙げられる。文章の抑揚を支配する規則、すなわち韻律規則について
は、すでに日本語の平叙文、疑問文、命令文１強調およ
び種々の表情を持つ文章のイントネーションを生成する
規則が知られている（上記文献１．２を参照）。しかし
これらの文献で用いられたモデルは、音節単位の点ピッ
チ情報を与えるに過ぎないため、疑問文、命令文、願望
文の差異を表現するには不十分である。そのためにこの
ようなピッチパターン（基本周波数の時間変化パターン
）を与えて合成した音声の抑揚は不自然に聞こえる。　
種々の文章のイントネーションの差異を十分に表現する
ためには、音節内の基本周波数（ピッチ周波数）と時間
との関係を明確にする必要がある。このような音節内の
ピッチパターンを記述し、しかも時間構造を明確に定義
できるモデルとして、臨界制動２次線形系で記述される
「ピッチ制御機構モデル」が知られている。このピッチ制御機構モデルを適用したものとして、単語
音声合成に適用したものが特開昭５９−８１６９７号に
、疑問文、命令文、願望文等の文章音声合成に適用した
ものが特開昭６０−７４２２４号に提案されており、か
なりの音質改善効果が認められている。特開昭６３−１７４１００号公報は、更に、音韻明瞭性
の改善に効果的な音素レベルの局所的な揺らぎを表現す
る成分を付加したものである。また、疑問文に現れる尻
上がり調や、命令文、願望文等、様々な感情や表情に固
有な微妙な基本周波数の変化を表現する成分も付加され
ている。特開昭６３−１７４１００号では、これらの成
分を生成する修正型ピッチ制御機構モデルを用いて人間
らしい自然な抑揚感を持った音声を合成する方法を提供
している。［発明が解決しようとする課題］上述した各種のピッチ制御機構モデルのうち、音素制御
機構の導入により、合成音声の音韻明瞭性は改善される
に至った。しかし、感情や特別の表情の付かない通常の
文章では、発話の単調さ、機械的な感じは取り除かれて
いない。このような単調さや機械感は、特に合成音声シ
ステムを長時間利用する者にとって、大きな負担になり
、疲労をもたらす。これらの単調さや機械感を取り除か
ないかぎり、例えば新聞の校閲における読み合わせ作業
のような、長時間利用型のシステムへの適用に供するこ
とができない。他方、人間の発声する自然音声を長時間開いても、疲労
感が少ない理由の一つは、発話の中で、局所的に強めた
り、逆に弱めたりして、発話に変化をつけているからで
ある。すなわち、人間は強めたいところでは、相対的に
声の高さを高め、声を大きくし、しかもゆっくりと話す
。逆に重要でないところでは、低く小さい声で、しかも
早口で曖昧に話そうとする。即ち、書き言葉における「
カギ括弧」や「太字」等に相当する強調表現を話し言葉
でも行っているのである。この強めや弱めによって、聞
く人は常に発話に注意を傾ける必要がなくなり、負担が
軽減する。本発明は、このような自然音声が持つ強めや弱めを、規
則合成音声において実現する方法及び装置を提供するも
のである。

【課題を解決するための手段】

文音声における強めや弱めは、文中の他の部分との相対
的な強弱によって行われる。このように他の部分に対し
て相対的に引き立たせる（卓立させる）強めは、「プロ
ミネンス」あるいは「対比強調」と呼ばれている。言語学的立場からプロミネンスを分類すると、第４図の
ようになる。本発明では、これらプロミネンスの韻律的
特徴を定量的に表現するための尺度を導入する。即ち、
プロミネンスの分類に対応して、自然音声の解析結果に
基づいて求めた韻律の制御パラメータを記憶するプロミ
ネンス生成規則を用い、該プロミネンス生成規則に従っ
て、プロミネンス付加時の韻律制御パラメータを制御す
る。これらのプロミネンスは、音声情報処理的には、（１）
基本周波数、（２）音声波形振幅（パワー）、および（
３）時間長（音素あるいは「間」　（ポーズ）接続時間
）の増大や減少によって実現される。特に、本発明では、■アクセント指令の大きさの制御に
よりプロミネンスを実現する。また、必要に応じて、■
ポーズの挿入による時間長の制御、あるいは■パワーの
大きさの制御を行なう。パワーは、基本周波数との相関が強く、プロミネンスに
より基本周波数が高くなれば、それに伴いパワーの２大
きさも増大する。［作用］本発明のプロミネンス生成規則による韻律制御は、自然
音声の定量的解析に基づき求められたものなので、入力
文書（テキスト）から合成される音声に、人間らしい自
然な強め、弱めを与えることができる。本発明によれば
、現実の文章音声に起り得るほとんどすべての場合の強
め、弱めを実現することができる。従って、利用者が特
別の注意を払うことなく発話内容を容易に理解すること
ができ、利用者の負担を著しく軽減することが可能とな
る。特に、新聞校閲のような長時間の作業時の疲労軽減
効果は著しく、作業の効率向上が期待できる。【実施例）まず、本発明の実施例で用いる「ピッチ制御機構モデル
」について説明する。ここでピッチ制御機構モデルとは、以下に述べるような
モデルである。声の高さの情報を与える基本周波数は、次のような過程
で生成されると考えるのがピッチ制御機構モデルである
。声帯振動の周波数、すなわち基本周波数は、脳からの
■フレーズの切り替わりごとに発せられるインパルス指
令と、■アクセントの上げ下げごとに発せられるステッ
プ指令によって制御される。そのとき、生理機構の遅れ
特性により、■のインパルス指令は文頭から文末に向か
う緩やかな下降曲線（フレーズ成分）となり、■のステ
ップ指令は局所的な起伏の激しい曲Ｍ（アクセント成分
）となる。これらの二つの成分は、各指令の臨界制動２
次線形系の応答としてモデル化され、対数基本周波数の
時間変化パターンは、これら同成分の和として表現され
る。第２図はピッチ制御機構モデルを示す。モデル基本
周波数Ｆ。（１）（１は時刻）は、次式のように定式化される。 ■ ｊ＝１ここで、Ｆｍｔｎは最低周波数、■はフレーズ指令の数
、Ａｐｔは１番目のフレーズ指令の大きさ、Ｔｎｌは１
番目のフレーズ指令の時点、Ｊはアクセント指令の数、
Ａａｊはｊ番目のアクセント指令の大きさ。Ｔ、Ｊ、Ｔ２Ｊはそれぞれｊ番目のアクセント指令の開
始時点と終了時点である。また、Ｇｐ＋（ｔ）、　ｃａ
ａ（ｔ）はそれぞれ、フレーズ制御機構のインパルス応
答関数、アクセント制御機構のステップ応答関数であり
、次式で与えられる。Ｇｐｉ（ｔ）”　ａ　ｔｔ　ｅｘｐ（−ａ　ｔｔ）ｕ（
ｔ）　　　　　　　（２）Ｇａｉ　（ｔ）二Ｍｉｎ［１
−（１＋β、ｔ）　ｅｘｐ（−βｊｔ）ｕ（ｔ）、　ｏ
　Ｊ］ここで、α、は１番目のフレーズ指令に対するフ
レーズ制御機構の固有角周波数、βＪはｊ番目のアクセ
ント指令に対するアクセント制御機構の固有角周波数、
ｕ（ｔ）は単位ステップ関数である。また、θ−はアク
セント成分の上限値であり、例えば０．９などに選ばれ
る。なおここで、基本周波数（ピッチ周波数）およびピッチ
制御パラメータ（Ａｐｔ、　Ａ＆Ｊ＋Ｔａｌ＋　ＴＩＪ
ＩＴ２Ｊ、　　α工、β−、Ｆｍ１ｎ）の値の単位は次
のように定義される。すなわち、Ｆｏ（ｔ）およびＦｏ
。の単位は［Ｈｚ］、Ｔｏｔ　ｌ　Ｔ、　ＪおよびＴ２
Ｊの単位は［Ｓコ、α、およびβ、の単位は［ｓ−”］
とする。またＡｐｌおよびＡａｊの値は、基本周波数お
よびピッチ制御パラメータの値の単位を上記のように定
めたときの値を用いる。解析の方法としては、最適化法が用いられている。すな
わち、上記ピッチ制御機構モデルにより生成したピッチ
パターンと原音声の分析・抽出による実測値との誤差が
最小となるようなピッチ制御パラメータを求めることに
より、ピッチパターンの最良近似推定が行なわれる。次に、修正型ピッチ制御機構モデルについて説明する。第３図（ａ）は修正型ピッチ制御機構モデルを示す。この修正型モデルの特徴は、■フレーズ制御機構および
■アクセント制御機構から構成されるモデルに、更に■
音素制御機構、■文形指定制御機構、および■強調制御
機構の３つの制御機構を付加したことである。これら■
〜■の３つの制御機構の導入により、ピッチパターン上
に様々な揺らぎ成分を付加することが出来る。すなわち、上記■音素制御機構は、音素ごとの局所的な
基本周波数の揺らぎの成分を生成する機構で、例えば有
声子音／ｄ／、／ｍ／、／ｎ／＋／ｒ／＋／１１／等の
局所的な基本周波数の低下や、無声破裂音へへへ／等の
後続母音への入り渡り部にしばしば見られる高基本周波
数からの下降特性を表現することが出来る。また■文形
指定制御機構は、疑問文の文末の基本周波数の尻上がり
を表現する成分を生成する機構である。そして■強調制
御機構は、命令文や願望文等、様々な感情や表情を表現
する成分を生成することを目的とした機構である。上記修正型ピッチ制御機構モデルを簡単に記述する式と
しては、例えば以下に示す（ｉ）〜（幅）式を用いれば
良い。 ■フレーズ制御機構：Ｇｐ＋　（ｔ）＝ａ　ｔｔ　ｅｘｐ（−ａ　ｔｔ）ｕ（
ｔ）　　　　　　　（ｉ　）ｔ　　：時刻 α、＝ｉ番目の固有角周波数、（１）：単位ステップ関数 ■アクセント制御機構：ＧａＪ（ｔ）＝Ｍｉｎ［１−（１＋βａｔ）　ｅｘｐ（
−βＪｔ）ｕ（ｔ）、θ、］（ｊｉ） βＪ　：ｊ番目の固有角周波数 θＪ　：ｊ番目の上限値 ■音素制御機構：Ｇａｋ（ｔ）−Ｍｉｎ［１−（１＋γｈｔ）　ｅｘｐ（
−Ｙｋｔ）ｕ（ｔ）＋φｋ］（ｊｉｉ）あるいはｃｚｂ（ｔ）＝ｅｘｐ（−ｙ　ｋｔ）ｕ（ｔ）　　　　
　　　　　（ｉｖ）γ、＝に番目の固有角周波数 φ、二に番目の底の値 ■女形指定制御機構：Ｇｔｔ　（ｔ）＝Ｍｉｎ［１−（１＋ζａｔ）　ｅｘｐ
（−ζｔｔ）ｕ（ｔ）、　Ｏｔ＊］（Ｖ）４区　：１番目の固有角周波数 θを慮：１番目の上限値 ■強調制御機構：Ｇｓｓ（ｔ）＝Ｍｘｎ［１−（１＋　ηａｔ）　　ｅｘ
ｐ（−７１、ｔ）ｕ（ｔ）、ＯＳｓコ（ｖｉ） ηａｒｍ番目の固有角周波数Ｇｓｓ：ｒｎ番目の上限値ピッチパターン： ■ ｊ＝１に ÷Σ　ＡＺｈ（Ｇｌｋ（ｔ−Ｔ：＋ｈ）−Ｇｆｆｉｈ（
ｔ−Ｔｎｋ））ｋ＝１＋Σ　Ａｉ處（Ｇｔｔ　（ｔ−７５ｍ）−Ｇｔ露（ｔ−
Ｔｓｍ））１＝１＋Σ　Ａｓ−（Ｇｓ＋ａ　（ｔ−Ｔ、＋　−）−Ｇｓ−
（ｔ−Ｔｓ　Ｊ）ｍ：１（（■）式のＧｉｋ（ｔ）使用の場合）　　（ｖｉｉ）
あるいは ■ ｊ＝１に＋Σ　ＡｚｋＧｚｈ（ｔ−Ｔ３ｋ）ｋ＝１＋Σ　Ａｔｔ（Ｇｔｔ（ｔ−７５ｇ）−Ｇｔ□（ｔ−Ｔ
ｃｍ））１＝１と＋Σ　ＡｓｊＧｓ、（ｔ−Ｔｔｊ−Ｇｓｊｔ−Ｔｅｊ）
Ｉ１１＝１（（ｉＶ）式のＧｚｈ（ｔ）使用の場合）　　（ｖＦｉ
ｉ）ここで、Ｆｌｉｔ　ｎは最低周波数。 ■はフレーズ指令の数、Ａｐｒはｊ番目のフレーズ指令
の大きさ、ＴＯＩはｉ番目のフレーズ指令の時点、Ｊは
アクセント指令の数、Ａａｊはｊ番目のアクセント指令
の大きさ、Ｔｒｉ、Ｔ２Ｊはそれぞれｊ番目のアクセン
ト指令の開始時点と終了時点、Ｋは音素指令の数、Ａｆ
ｂはに番目の音素指令の大きさ、Ｔ３　ｋ、　７４　ｋ
はそれぞれに番目の音素指令の開始時点と終了時点、Ｌは女形指定指令の数、Ａｖｔは］番目の女形指定指令
の大きさ、１口、Ｔ１はそれぞれ１番目の女形指定指令
の開始時点と終了時点、Ｈは強調指令の数、Ａｓｓはｍ番目の強調指令の大きさ
、Ｔ７＋ａ、ｒｏｍはそれぞれｍ番「］の強調指令の開
始時点と終了時点である。ここで（ｉ）〜（■）式の各パラメータの単位は第２図
で説明したピッチ制御機構に準じて定められる。勿論具
体的に実現する式としては、上記（ｉ）〜（ｖｉｉｉ）
式のみに限定されない。また、文章音声の性質や制御方
式の選択により、（ｉ）〜（ｖｊ）式の任意の制御機構
の組み合わせでピッチパターンを生成することが出来る
。例えば、強めを強調成分を用いて表現するならば、ア
クセント指令と強調指令の関係は第３図（ｂ）の（１）
のように重畳形になる。しかし、これらの指令により得
られるピッチパターンと同一のピッチパターンを同図（
ｂ）の（２）のように、アクセント指令のみによっても
得ることが出来る。この様に一つのアクセント指令終了
時点で、別の指令値に階段状に変化することを「アクセ
ント変形」と呼んでいる。「アクセント成分に重畳され
た強調成分」と「アクセント変形」とは、Ａａ□＝ＡａｊＡｓ　　　　　　　　　　　　　　　（
４）Ｔ１２＝Ｔ７．　　　　　　　　　　　　　　　　
（５）Ｔ・パＴ・・　　　　　　　　　　　　　　　（
６）の関係により相互に変換が可能である。モデルパラメータの推定（解析）は、第２図のピッチ制
御機構モデルの場合と同じく最適化法により実行するこ
とが出来る。第５図〜第１１図は、上記ピッチ制御機構モデルによる
最良近似推定により制御パラメータを求めた例であり、
第４図のプロミネンスの分類に対応している。なお、本
解析においては、強めをアクセント変形型（第３図（ｂ
）の（２））で表現しているが、勿論強調成分付加型（
第３図（ｂ）の（１））で表現しても良い。第５図〜第１１図より、強めのある文章では、強めのな
い場合に比して、卓立している部分の（１）アクセント
指令の大きさ、（２）パワー、あるいは（３）音素持続
時間が増大し、場合によってはポーズが発生しているこ
とがわかる。また逆に、平叙文の文末弱めのように、（
１）アクセント指令の大きさ、あるいは（２）パワーが
減少する場合もある。したがって、プロミネンスによる強め、あるいは弱めは
、これら（１）−（３）（これら（１）〜（３）は総称
して「韻律」と呼ばれている）の各値を増大させたり、
逆に減少させることにより実現される。韻律の各要素（
１）〜（３）は、単独で増大、減少する場合もあるし、
組合せにより増大、減少する場合もある。当然のことな
がら１組み合わせにより増大、減少させた場合の方が卓
立の効果は大きくなる。本発明では、上記プロミネンスの韻律的特徴を定量的に
表現するための尺度を導入する。すなわち、強めのない
文章（参照音声）を基準にプロミネンス含有文（対象音
声）の強めの位置と度合いを表す尺度として、以下の諸
量を定義する。（１）Ｆｏ比（ＦＯＲ）　：参照音声の基本周波数Ｆｏ
ｒに対する対象音声の基本周波数Ｆ。Ｘの比で２次式に
より定義する。ただし、基本周波数は。藤崎モデルにより推定した値を用いた。ＦＯＲ＝２０１ｏｇ（Ｆ、ｘ／Ｆｏｒ）　　（ｄＢ）　
　　　　　　　（７）（２）アクセント指令増分（ＤＡ
ａ）　：参照音声のアクセント指令の大きさＡ□に対す
る対象音声のアクセント指令の大きさＡａｘの増分で２
次式により定義する。ＤＡａ”Ａａｘ−Ａａｒ　　　　　　　　　　　　　　
　（８）（３）パワー比（ｐｏすＲ）：参照音声のパワ
ーＰ、に対する対象音声のパワーＰ、の比で２次式によ
り定義する。ＰＯＷＲ＝１０１ｏｇ（Ｐｘ／Ｐ、）　　（ｄＢ）　　
　　　　　　（９）（４）時間変化率（ＴＩＭＥ警ＡＲ
Ｐ）　：参照音声に対する対象音声の時間伸縮の度合い
を表す。いま参照音声と対象音声の対応する音素の持続
時間をそれぞれＴｒ（１）＋丁、（ｉ）　（ｉはｉ番目
の音素の意味）としてＴ　ｘ′ｉｔｉ目の音素の時間変
化率Ｔｌｉ’（ｉ）を次式で定義する。ＴＷ（ｉ）”（Ｔｘ（ｉ）−Ｔｒ（ｉ））／Ｔｒ（ｉ）
ｘｌｏｏ　（％）　　（１０）第１２図〜第１５図は、
文章「彼の妹は起きる」の「妹は」を卓立させた場合の
解析結果の例を示したものである。この中で、第１４図
は参照音声の音素／ポーズ持続時間を横軸に、対象音声
の同持続時間を縦軸に取り、対応点の軌跡を二次元平面
にプロットした２時間伸縮パターンである。グラフ中の
一点鎖線は、音素境界時刻を表す。また、第１５図は前
述（１）〜（４）の諸量の時間変化パターンを示してい
る。ただし時間軸は参照音声を基準としている。第１２図〜第１５図の例では、■アクセン１−指令の大
きさの増大と相対的弱め（第１２．１３゜１５図）、■
直前にポーズの挿入（第１４図の時間伸縮パターンの垂
的の部分）と直前音素持続時間の伸長（第１４．．１５
図）、■パワーの増大と相対的弱め（第１２．１３．１
５図）、によりプロミネンスを実現している。上記韻律的特徴の尺度を用いて、プロミネンス定量解析
結果をまとめると以下のようになる。【１１基本周波数プロミネンスの基本周波数に関する特徴をアクセント指
令の大きさＡａ、開始時点Ｔ１、終了時点Ｔ２、および
アクセント変形開始時点Ｔ１□について調べる。なお、
アクセント開始・終了、アクセント変形開始時点は、そ
れぞれアクセントが低から高に上昇する音節境界、高か
ら低に下降する音節境界、および高から他の高に変化す
る音節境界時刻を基準とした値ΔＴ１．６丁２、および
ΔＴ１□として求めている。ただし、頭高型アクセント
や先頭音節の卓立の場合は、先頭音節始端時刻をΔＴ１
計測の基準時刻とし、平板型あるいは尾高型アクセント
や末尾音節の卓立の場合は、末尾音節終端時刻をΔＴ２
を計測の基準時刻とする。１．１　アクセント指令の大きさ１．１．１　　意図的なプロミネンス基本周波数による強めの度合いを表す尺度はアクセント
指令増分ＤＡａであるが、プロミネンスは、卓立させる
アクセント指令そのものの増大ではなく、その前後のア
クセント指令の大きさを相対的に小さくすることによっ
て実現される場合もある。この場合は、ＤＡａは大きな値を取らない。そこで、基
本周波数の値によるプロミネンス効果を表す尺度として
１次式で定義するアクセント指令増分の差により評価す
る。 ΔＤＡａ＝ＤＡａｐ−ＤＡａｎ　　　　　　　　　　　
　（１１）ここで、ＤＡａｐは卓立させるアクセント成
分の指令増分、ＤＡａｎは卓立させるアクセント成分に
隣接するアクセント成分の指令増分のうち小さい方の値
を表す。第１６図（ａ）は平叙文中に含まれる意図的なプロミネ
ンスの大きさをΔＤＡａで表してプロットしたものであ
る。ここで、Ｎ−Ｎはプロミネンスにポーズが伴わない
場合、Ｎ−Ｐはプロミネンスとともにポーズが発生する
場合を意味する。ただし、ポーズは、卓立させる語句の
直前に発生する場合と、直後に発生する場合の二通りが
ある。図より次のことがわかる。（１）アクセント指令増分の差ΔＤＡａの値は、ポーズ
の発声の有無に影響されない（有意水準５％で検定）。（２）アクセント指令増分の差ΔＤＡａの値は、韻律語
がアクセント変形（ａｃｃｅｎｔ　５ａｎｄｈｉ　）を
起こしているか否かに影響される。すなわちアクセント
型の影響を受ける（有意水準１％）。１．１．２　　疑問文文末強め第１６図（ｂ）は疑問文の文末韻律語のアクセント指令
増分の差をプロットしたものである。図より疑問文文末
強めの傾向が見られる。１．１．３　　先頭文節のプロミネンス第１７図（ａ）
は意図的なプロミネンスにおけるアクセント指令増分の
差の値を先頭文節についてのみプロットしたものである
。アクセント変形型でない場合、他の文節についてのア
クセント指令増分の差の値よりも小さい。これは、参照
用の文章の先頭文節にデフォルトのプロミネンスが存在
するためと考えられる。そこで、デフォルトのプロミネンスの存否を確認するた
めに、先頭文節に意図的なプロミネンスが付加されてい
ない文章について、先頭文節のアクセント指令の大きさ
Ａａｌと第２文節のアクセント指令の大きさＡａ２の差
の値を調べてみた。第１７図（ｂ）は平叙文（Ｄｅａｌ
）と疑問文（Ｉｎｔ）に分けてＡａｌ−Ａａ２の値をプ
ロットしたものである。図より、平微文についてはデフ
ォルトのプロミネンスの存在の傾向が見られるが、疑問
文については見られない。１．１．４　　平叙文文末弱め第１８図は、平叙文文末弱めの存否を確認するために、
文末文節のアクセント指令の大きさＡａｊとその直前文
節のアクセント指令の大きさＡａｊｘの差の値をプロッ
トしたものである。図より、３文節文章の場合は平叙文
文末弱めの存在はＪ、ｚめられないが、２文節文章では
認められる。但し、２文節文章の場合は、先頭文節のデ
フォルトのプロミネンスの影響込みの結果である。１．２　アクセント指令開始時点一部プロミネンスの付加により、進み傾向の見られる例
もあるが、全般的に、プロミネンス付加に伴う特段の特
徴は認められない。従って、ΔＴ工は０とみなすことが
できる。１．３　アクセント指令終了時点 Δ丁□と同様、プロミネンス付加に伴う特段の特徴は認
められない。従って、Δ丁、は０とみなすことができる
。１．４　アクセン）・変形開始時点 ΔＴ□、ΔＴ２と同様、プロミネンス付加に伴う特段の
特徴は認められない。従って、ΔＴ１２はＯとみなすこ
とができる。［２］パワーパワーは、基本周波数との相関が強いことが知られてい
る。このことより、プロミネンスによりで定義したアク
セント指令増分の差Δ”ｆｌａとパワー比の差ΔＰＯＷ
Ｒとの相関を調べてみた。ここで、パ浪ワー比の差ΔＰＯｖＲはアクセント指令増分の差ΔＡａ
と同様に次式で定義する。 ΔＰＯＶＲ：ＰＯＩＩＲｐ−ＰＯＷＲ１１（ｄＢ）　　
　　　　　　　　　　　　　　　（１２）ここで、ｐｏ
ｗＲｐは卓立させる語句に含まれる音節の母音部におけ
るパワー比の最大値、ＰＯＷＲｌ、は隣接韻律語（アク
セント成分）に対応する語句に含まれる音節の母音部に
おけるパワー比の最小値を表す。第１９図は横軸にアクセント指令増分の差Δｔｆｌａ、
縦軸にパワー比の差ΔＰＯＶＲを取り、データをプロッ
トしたものである。ただし、データは、前後のポーズ、
文末のばらつき等の影響を受けるので、これらの影響を
受けていないデータのみをプロットした。この場合、ΔＤＡａとΔＰＯＷＲの間に強い相関が見ら
れる（相関係数ρ功、８）。このときの回帰直線は次式
で表される。 ΔＰＯＷＲ＝６ΔＤＡａ＋４　（ｄＢ）　　　　　　　
　　　（１３）従って、式（１３）を用い４しば、プロ
ミネンスに伴うパワーの相対的増加分は、ΔＤＡａより
一意的に定めることができる。あるいは、若干の変動を許容して ΔＰＯすＲ＝６ΔＤＡａ＋４±４　（ｄＢ）　　　　　
　　　（１３）　’の範囲内で値を定めても良い。なお、この値は、基本周波数の増加によるパワーの自然
増加の値にほぼ等しいので、単に、音源信号（例えば予
測残差）の振幅値を基本周波数によらず一定値として合
成器に送り込むのみの簡易な処理でも良い。これにより
、合成音声波形のパワーは、基本周波数に依存して自然
に上昇する。［３１時間構造時間構造の主要因は、音素持続時間およびポーズ持続時
間であり、プロミネンスは、これらの持続時間の伸長に
より表現されうる（ポーズの発生は、ポーズ持続時間が
Ｏから正数値に増加する特別な場合）。ここでは、（１
）ポーズ持続時間が音素持続時間に与える影響、および
（２）疑問文末尾における音素持続時間の伸長という観
点から調べてみた。３．１　ポーズの影響第２０図は、ポーズ持続時間とポーズ直前の音素（母音
）持続時間の関係を示したものである。ここで、ポーズ持続時間ｔｐ＝０　（縦軸）上のデータ
は、ポーズが発生していない場合のデータである。また、音素持続時間は、時間変化率（Ｔｌｊ）で表して
いる。図より、次のことがいえる。（１）ポーズの発生は、有意の母音持続時間の伸長をも
たらす（有意水準１％）。伸長率のデータ平均値（話者
ＡＢ合わせて）は６６％である。また、発生したポーズ
の持続時間はほぼ１００〜３００ｍ５の間に分布してい
るが、基本的には任意に設定できる。（２）ポーズが発生していない場合は、母音持続時間の
伸縮は見られない（有意水準５％）。（３）平叙文の場合、プロミネンスの有無は、音素持続
時間に影響を与えない（有意水準５％）。３．２　疑問文文末母音の伸長第２１図は、平叙文文末および疑問文文末の母音伸縮率
を示したものである。平叙文では時間の伸縮が認められ
ないのに対し、疑問文では平均７８％の持続時間の伸長
が認められる（有意水準１％）。第１図は、第４図の各分類に対応したプロミネンスを生
成するための韻律の各要素の値（強めあるいは弱め）を
自然音声を対象とした上記定量的解析結果に基づき求め
たものである。但し、第１図の数値例は、プロミネンス
の付加されていない場合の各制御値に対する増分、ある
いは増加率で表している。第１図のプロミネンス生成規
則に従って韻律制御パラメータを制御すれば、自然なプ
ロミネンスを合成音声に付与することが出来る。第１図において、±″の記号より左側の数値は、その制
御パラメータの代表値であり、±′″の記号で数値の変
動範囲（はぼ１σに相当）を表している。すなわち、こ
の変動範囲内で数値を設定するかぎり、自然なプロミネ
ンスを生成することが出来ることを示している。なお、
第１図中のパラメータで、プロミネンスの付加されてな
い部分を相対的に弱めることによっても同様の効果を得
ることができる。この場合は、特願平１−２１４７９９
号で提案した韻律制御規則に従い、制御パラメータ値を
求め、上記式（７）〜（１３）の定義式を用いて、プロ
ミネンス付加時の韻律制御パラメータ値を求めればよい
。次に、本発明による音声規則合成装置の実施例を第１図
および第２２図〜第３０図により説明する。第２２図は任意文章の音声合成に適用できる音声規則合
成装置の一実施例の全体構成を示す。本実施例では、漢
字仮名混じり文のテキストを入力データとして与えれば
、それに対応する合成音声を出力として得ることができ
る。処理手順は以下の通りである。まず入力テキストは、日本語解析部１の形態素解析手段
により、各単語に分解され、品詞が決定され、さらに読
みが決定される。なお、解析部１の構成については、例
えば特開昭５９−９８２３６号公報を参照のこと。次に
この結果に基づき、音声言語処理部２において、各単語
あるいは文節のアクセント型が決定される。なお、処理
部２の詳細構成については、例えば特公昭５９−１３０
４０号公報、特開昭５９−０８１６９７号公報、特開昭
６１−６６９３号公報を参照のこと。以上のような構文
レベルの処理結果として、音節情報、アクセント情報、
プロミネンス情報などが得られる。なお句や文章の区切
りは、入力テキスト中の句読点等区切り記号に基づいて
決定される。文章中や文章間のポーズ長は、読点や句点
の後のスペースの数で指定できる。また疑問文、命令文
、願望文等文のタイプは、語尾の活用によって判定する
ことができる場合もあるし、あるいは文章の終止に句点
の代わりにそれぞれ「？」、「！！」および「！」など
の線上記号を使うことにより指定することもできる。例
えば同じ音韻列「川を渡る」であっても「川を渡る。」
は平叙文であり、「川を渡る？」は疑問文である。以上の■音節情報、■アクセント情報、■ポーズ情報、
０句・文章区切り情報、■（必要ならば例えば品詞基等
の）文法情報、および■プロミネンス情報は、「音節コ
ードＪと呼ばれる一連の数字によって表現される。音節
コードは制御パラメータ生成部３の入力情報である。制御パラメータ生成部３では、アクセント、イントネー
ション、音韻持続時間、および音源パワー（振＠）修正
値が規則により決定され、それに従ってピッチパターン
と音韻パラメータ時系列が生成される。ここで、音源パ
ワー修正値とは、強めの有無により、標準的な音源パワ
ーの値を増減するための係数である。この音源パワー修
正値は。強めの無い場合に対する倍率で与えても良いし、絶対数
値で与えても良い。また、アクセント型は、アクセント
情報により知ることができる。アクセント情報は、具体
的にはアクセント核のある音韻（アクセントが下降する
直前の音韻）の直後にアクセントを示す音節コード番号
を挿入することによって与えている。ただし、この音節
コートがない場合は、平板型アクセントであることを示
している。またイントネーションは、基本的には文章タ
イプ情報およびプロミネンス情報より定められる。ただ
し、語尾の音韻の並びの違いによる変形も加えられる。例えば、願望文「川を渡りたい！」と「川を渡りたいな
あ！」とではイントネーション・パターンが異なる。最
終的なピッチパターンは、アクセント型とイントネーシ
ョンの両者に基づいて生成される。ただし、後に述べる
プロミネンスを含有する文章については、アクセント変
形を伴うこともある。音韻持続時間は、子音の場合は周
囲条件の影響が少ないので、子音の種類ごとに固有長と
して決定される。それに対して、母音の場合は周囲条件
によって様々な変形を受ける。そのため、アクセント型、音節数、単語内の位置、直前
の子音の種類、その母音の種類などから持続時間を決定
する。これについては例えば、特開昭５９−０８１６９
７号公報を参照のこと。このようにして音韻持続時間が
決定されたら、Ｃ■（子音−母音連鎖）単位でファイル
に登録されている音韻パラメータ（生成源方式の場合は
スペクトル包絡パラメータと音源パラメータ、波形合成
方式の場合は音声素片）を音節コードに対応させて抽出
し、配列する。この際、長すぎれば持続時間内に収まる
ように切断する。しかる後に、切断部あるいは隙間部を
埋めるようにＣｖ単位間を補間（生成源方式ニスベクト
ル包絡パラメータは直線補間、音源パラメータは同一値
の繰り返し、波形合成方式：素片切り出し窓の最大値の
補間）により接続する（詳細は第２７図を参照）。最後
に１以上の処理によって生成された基本周波数と音韻パ
ラメータは、順次音声合成部４に送られ、音声波形が出
力される。ここで、音声合成方式としては、例えば残差
圧縮法を用いればよい。残差圧縮法については、例えば
特開昭６０−１５０１００号公報、特開昭６１−２９６
３９８号公報を参照のこと。この場合、音源パルスは基
本的には、フレームごとに１ピッチ分の残差パルス（代
表残差）を抽出し、その代表残差を外から与えるピッチ
周期の間隔で並へることによって生成している。このと
き外から与えるピッチ周期が代表残差の長さより短けれ
ば、その長さの差だけ代表残差の末尾を切り捨て、逆に
長ければ１代表残差の不足している区間だけＯを埋めて
いる。第２２図には音声合成部４に残差圧縮法を用いた
例を示しているが、勿論、音声合成方式は残差圧縮法に
限定されない。例えば、波形合成方式、特に素片編集方
式を用いても良い。以上の処理は、以下に述べるプロミネンス生成規則を除
いて、すべて公知の手段により構成することができる。以下では、本発明の最も重要な部分である、制御パラメ
ータ生成部３におけるプロミネンス生成規則の説明を中
心に第２３図〜第３０図を引用して示す。プロミネンス情報は、以下の（１）〜（５）の情報から
抽出可能である。（１）平叙文／疑問文等の文のタイプより（女形固有の
卓立）（２）構文情報（３）旧情報／新情報、慣用的な口調。（４）テキスト情報（カギ括弧、太字、アンダーライン
等）。（５）意味情報（例：先行疑問文に対する答えの部分を
強め）。上記（１）では、文章タイプ情報よりプロミネンスを実
現するパラメータを生成することができるのに対し、（
２）〜（５）では、音声言語処理部２で、プロミネンス
情報（音節コード表現）を生成しなければならない。例
えば上記（４）におけるカギ括弧からプロミネンス情報
を取得する場合、カギ括弧開きが検出されたら、アクセ
ント指令の開始時点と大きさ情報（あるいはプロミ不ン
スの分類情報（例えば第４図のような情報））を含有す
る音節コートを発行し、カギ括弧開じが検出されたら、
アクセント指令の終了時点の情報を含有する音節コード
を発行すれば良い。また、（５）の場合は、意味解析手
段が必要となる。もし意味解析手段を用いないならば、
（４）で代用することになる。すなわち、人間が強めた
いところを上記のカギ括弧等によりテキスト内で指定す
れば良い。はじめに女形固有の卓立を実現する規則の実施例を示す
。まず、第２３図において、音声言語処理部２から得ら
れた音節コート列は、文章タイプ決定手段５に入力され
る。ここでは第一段階として、文章タイプ情報辞書６中
の語尾辞書に登録されている語尾形と音節コード列の文
末の形とを照合することにより、該当する文章タイプを
決定する。なお第２３図における終止形は、現代文の場
合は動詞なら「つ」行で終わる語尾、形容詞なら「イ」
でおわる語尾等、国文法の規則に基いて定められる。命
令形の場合も同様に、現代文なら活用語尾が「工Ｊ行で
あることから定められる。以上の文章タイプの判定は、
品詞情報などの文法情報があれば、さらに確実となる。ここでもし語尾の活用が終止形と判定された場合は、こ
の文章は必ずしも平叙文とは限らない。そこで第二段階
として、この場合は文章の終始記号（文末記号）を見に
行き、この記号の種類によって文章タイプを決定する（
例えば、「。」あるいは「、」なら平叙文、「？」なら
疑問文、「！！」なら命令文、「！」なら願望文、等）
。以上の文章タイプ決定手段５の処理手順の一例を第２
４図に示す。第２３図に戻り、文章タイプ決定手段５では、上で述べ
た文章タイプ情報のみが選択的に出力される。音節コード列から音節情報抽出手段１６によって抽出さ
れた音節情報（例えば、「あ」、「い」、「う」等の音
節の種類を数字で表したもの）は、■音韻境界を決定す
るため、および■ピッチパターンにおける音素成分生成
のために用いられる。すなわち、■については、音節情
報をもとに、音韻持続時間規則部９によって各音節の音
韻持続時間が決定され、これらを配列した形で音韻境界
時刻が音韻境界決定手段７により決定される。音韻境界
時刻は、一方ではＬＳＰパラメータ等の音韻パラメータ
を生成するために用いられる。また■については、文章
ピッチ制御パラメータ生成部１１において、音素制御機
構パラメータ値を決定するために用いられる。先の文章タイプ情報は、イントネーション規則部８およ
び音源パワー（振幅）修正値計算手段１５に入力され１
文章のタイプに従い、標準イントネーション（例えば平
叙文）からの変形が加えられる。変形には時間の変形と
、ピッチ振ＩＩＩ（指令の大きさ）の変形、および音源
パワーあるいは振幅の変形の３種類がある。時間の変形
は、音韻境界決定手段７に作用し、音韻境界時刻に変更
が加えられる。他方指令の大きさの変形は、文章ピッチ
制御パラメータ生成部１１に作用し、指令の大きさが変
更されるか、あるいは新たな女形指定指令や強調指令が
追加される。この際標準イントネーションの制御パラメ
ータはアクセント規則部１０より供給される。なお文章
ピッチ制御パラメータ生成部１１では音韻情報との時間
的整合をとるため、基準となる音韻境界時刻（タイミン
グ基準情報）を音韻境界決定手段７より得る。また音源
パワーの変形は、音源パワー（振＠）修正値計算手段１
５に作用し、音源パワー値の修正値が計算され、音源生
成部に送られる。なお音源パワー値の修正値は＋　（１
２）、　（１３）、　（１３）’式を用いて計算するこ
とができるが、基本周波数増大によるパワーの自然槽を
利用するのであるならば、修正処理を省略してもよい。以上のイントネーションの規則は、規則テーブルをイン
トネーション規則部８に設けておき参照することにより
達成できる。かくして、プロミネンスのうち、女形固有
の卓立は、上記手段により実現される。他方、意図的な卓立（上記（４）、（５））やその他の
デフォルトの卓立（上記（２）、（３）等）に対するプ
ロミネンス情報は、音節コード列中からプロミネンス情
報抽出手段１４により、プロミネンス情報のコードを抽
出し、このコードがら得られる。プロミネンス情報は、
イントネーション規則部８と音源パワー（振幅）修正値
計算手段１５に作用する。ここで、音節コード列より、■文章タイプ情報、■音節
情報、■プロミネンス情報をそれぞれ抽出する方法の一
具体例を示す。例えば、音節コートの番号に応じ、第２
５図に示すように情報内容を定義しておけば、文章タイ
プ決定手段５、音節情報抽出手段１６、プロミネンス情
報抽出手段１４のそれぞれに数値大小判定機能を持たせ
ることにより、該当情報か否か判定できる。すなわち音
節コードが１〜４００であるならば音節情報と判定、９
００４〜９０２ｏであるならば文章タイプを与える情報
であるので、前述の方法により文章タイプ情報を決定す
ることが出来る。また、音節コードが９０３０〜９０３
９であるならばプロミネンス情報と判定１例えば下１桁
の数字にアクセント指令値情報を割り当てれば良い。−
例を挙げれば、音節コード下１桁の数字を工で表したと
き、プロミネンスの付加されてない場合のアクセント指
令の大きさに対する。プロミネンスによるアクセント指
令増分値ＤＡａは次式により与えることができる。ＤＡａ：０．ｌＩ　　　　　　　　　　　　　　　　（
１４）（１４）式を用いれば、音節コードにより、アク
セント指令の大きさを０．０から０．９の範囲内で０．
１ステツプで増大させることができる。もちろんより小
きざみなステップでアクセント指令の大きさを変化させ
たい場合には、音節コードを他の値の範囲に割当て（例
えば９１００〜９１９９）、下２桁にアクセント指令値
情報を割り当てれば良い。また、プロミネンスによるア
クセント指令の増大・減少をさせるタイミングは、例え
ば次のようにして決定することができる６まず、アクセ
ント指令開始時点を決定する音節境界の指定は、上記プ
ロミネンス情報をもつ音節コード（例えば９０３０〜９
０３９）を境界直前の音節に対応する音節コードと境界
直後の音節に対応する音節コートの間に挿入することに
より達成できる。次に、アクセント指令終了時点を決定
する音節境界の指定は、プロミネンス終了を意味するコ
ードとして例えば９０３０を同様に境界直前の音節に対
応する音節コードと境界直後の音節に対応する音節コー
トの間に挿入することにより達成できる。また、プロミ
ネンスの開始あるいは終了が高アクセントの領域で起き
る場合、すなわちアクセント変形型の場合は、アクセン
ト変形を起こす音節境界の指定は、同様に境界直前直後
の音節に対応する音節コートの間にプロミネンスの開始
あるいは終了のコードを挿入することにより達成できる
。かくしてプロミネンスによるアクセント指令開始・終
了時点設定のタイミング基準時刻が定まれば、実際の開
始・終了時点はこの基準時刻からのずれ量としてタイミ
ングテーブルから検索することにより求めることができ
る。第２８図に一例を示す。次に、パワーを制御しポーズを生成する方法の具体例を
示す。第２２図では、音声合成部に生成源方式（例えば
残差圧縮法＋ＬＳＰ合成器）を用いた例を示しているが
、これから示す具体例は生成源方式に限定されない。勿
論波形合成方式でもまったく同じ考え方で波形振幅のパ
ワーを制御することが出来る。第２６図は、音声合成部４に残差圧縮法を用いた場合の
例を示している。スペクトル包絡パラメータは、ＬＳＰ
パラメータ、ＰＡＲＣＯＲ係数等、任意のパラメータを
利用出来る。ちなみに、図中の接続補間処理は、例えば
第２７図のような処理により実現できる。音源パワー（
振幅）修正値計算手段１５（第２３図）で得られたパワ
ー値の平方根（振幅値で与えられるならばそのままの値
）が有声音源生成部あるいは無声音源生成部に与えらえ
、残差（音源）振幅が修正される。修正値は、実際の値
で与える場合は、例えば時間不連続を防ぐために、フレ
ームごとに、パワー実測値（例えば第５図〜第１１図）
の平方根に近似した振■包絡曲＃（例えば、第３０図）
の値として与えれば良い。もし修正値を倍率で与える場合は、合成単位が本来持っ
ている自然音声の振幅包絡形を活用出来るので３強調部
に対応するフレーム間のみで１合成単位の音源振幅値に
指定した倍率を乗ずれば良い。また所定持続時間のポーズを生成する場合は、その時間
の間だけ無音生成指令を発行して、無音（０値）を出力
すれば良い。第２９図は、音声合成部４に波形合成方式を用いた場合
の例を示している。この場合は、第２３図の音源パワー
（振幅）修正値計算手段１５は、波形パワー（振幅）修
正値計算手段と置き換えられるが、処理内容は、音源の
場合と全く同様である。違いは、単に実現値が異なるだ
けである。波形パワー（振幅）修正値計算手段で得られ
たパワー値の平方根（振幅値で与えられるならばそのま
まの値）が素片窓生成部に与えられ、素片編集時に素片
振幅が修正される。修正値の時間変化パターンは、上記
残差圧縮法の場合と全く同様の考え方で与えられる。ま
た、ポーズの生成方法も残差圧縮法の場合と同様、所定
時間長の○振幅波形を出力すれば実現出来る。他の合成方式の場合も、各波形振幅制御手段に応じて、
全く同様の方法でパワー（振幅）制御が実現できる。プロミネンスを具体的にどの様なパラメータ値により実
現するかを定めた韻律（ピンチ、パワー時間長）の制御
方法の一例を示したのが第１図である。なお、第１図に
おけるプロミネンスを含有しない場合の基準値は、例え
ば、アクセント指令の大きさおよび開始・終了時点につ
いては、公知のアクセント成分生成規則により決定すれ
ば良い。あるいはより簡便な方法としては、アクセント指令の大
きさの基準値Ａａ＝０．３．ミニ０．３．アクセント了
時点の基準音節境界からの相対値へＴ□＝ΔＴ２：ΔＴ
、　２＝Ｏとしても実用上音質にほとんど支障は無い。第１図は、自然音声の定量的解析結果（第１６図〜第２
１図）に基づき求めたものであるので、第１図のプロミ
ネンス生成規則に従った韻律制御により、音声を合成す
わば、自然な強調感をもった合成音声が得られる。勿論
、第１図はパラメータ実現値の一例であり、これらの数
値に限定されない。実際には、様々な強めの変形があり
うるので５それに対応した数値の変形の可能性は無数に
存在する。実際に第１図の韻律制御を実施した具体例を
第２８図に示す。本実施例では、プロミネンスのピッチによる強めあるい
は弱めをアクセント指令の増減により行う例を示したが
、勿論、前述のように、強調成分を用いて行っても良い
。この場合１例えば（４）〜（６）式によりパラメータ
値を変換しても良いし、新たにパラメータテーブルを作
り直しても良い。他方、音素制御パラメータは、音素ごとに指令の大きさ
、固有角周波数、境界からの相対時刻、上限値等を予め
解析して求めておき、音節情報に対応するテーブルとし
て音素規則部１３（第２３図）ニ設けておけば阜い。こ
こから音節情報列の順に従って、音素制御パラメータ列
が文章ピンチ制御パラメータ部１１に送られる。ここで
音素開始あるいは終了時点（相対時刻）は、タイミング
基準情報に基いて絶対時刻に変換される。かくして文章
ピッチ制御パラメータ生成部１１で作成されたピッチ制
御パラメータはピッチパターン生成部１２に送られ、こ
こで新ピッチ制御機構モデル（第３図及び（１）〜（■
）式）により文章ピッチパターンが生成される。本実施例におけるプロミネンス生成規則による韻律制御
は、自然文章音声の定量的解析に基づき求められたもの
なので、このプロミネンス生成規則により韻律の制御を
行えば、漢字仮名混じり文テキストから合成される音声
に、人間らしい自然な強め、弱めを与える効果をもたら
すことができる。以上実施例では、プロミネンスのピッチによる強めある
いは弱めをピッチ制御機構モデル（第２図）あるいは修
正型ピッチ制御機構モデル（第３図）により実現する方
法を示したが、勿論プロミネンス実現方法は、これらの
モデルのみに限定されない。どの様なモデルを用いても
良い。例えば、点ピッチ（折線近似ピッチパターン）で
も実現可能であるし、あるいは階段状のピッチパターン
を用いても何ら支障は無い。（発明の効果１以上示したように、本発明は、人間の発声する自然な文
章音声に含まれる強めや弱めを、規則合成において実現
する方法及び手段を提供するものである。本発明によれ
ば、現実の文章音声に起こりうるほとんど全ての場合の
強め、弱めを実現することができる。そのため、利用者
が特別の注意を払うことなく発話内容を容易に理解する
ことができるので、利用者の負担を著しく軽減すること
が可能となる。特に、例えば新聞校閲のような長時間作
業時の疲労軽減効果は著しく、作業効率向上により得ら
れる利益は大きい。

【図面の簡単な説明】

第１図はプロミネンス生成規則を示す図、第２図、第３
図はピッチ制御機構モデルを示す図、第４図はプロミネ
ンスの分類を示す図、第５図から第１１図はピッチ制御
機構モデルによる最良近似推定により制御パラメータを
求めた例を示す図５第１２図から第１５図は平叙文中の
特定語句を卓立させた場合の解析結果を示す図、第１６
図は平叙文中に含ま九る意図的なプロミネンスの大きさ
をプロットした図、第１７図は意図的なプロミネンスに
おけるアクセント指令増分の差の値を先頭文節について
のみプロットした図、第１８図は文末文節とその直前文
節との間のアクセント指令の大きさの差をプロットした
図、第１９図はアクセント指令増分の差とパワー比の差
の関係を示す図。第２０図はポーズ持続時間とポーズ直前の音素持続時間
の関係を示す図、第２１図は文末の母音伸縮率を示す図
、第２２図は本発明による任意文章合成装置の全体構成
を示す図、第２３図は制御パラメータ生成部を示す図、
第２４図は文章タイプ決定手段における処理手順を示す
図、第２５図は音節コード表を示す図、第２６図は音声
合成部に残差圧縮法を用いた図、第２７図はＣＶ単位パ
ラメータ読み出しからパラメータ接続補間までの処理概
要を示す図、第２８図は鎖車制御を実現する具体例を示
す図、第２９図は合成音声部に波形合成方式を用いた図
、第３０図は振幅包絡曲線を示す図である。符号の説明３：制御パラメータ生成部８：イントネーション規則部１０：アクセント規則部１１：文章ピッチ制御パラメータ生成部１２：ピッチパ
ターン生成部１４：プロミネンス情報抽出手段１５：音源パワー（振幅）修正値計算手段第２図第４図第３図（ａ）ピッチ制御機構モデル（＋）強調成分付加型（２）アクセント変形型（ｂ）音調によるｒ強調ｊを表現する二通りの鳥え方≠５１２
１Ｃｂ）「先１ｊと校灸」８年：ｌＬンじ３！Ｖ／θ図７　ノ１　目第１５図時間（ｓｌ第１７図（息図釣およびテフォルトフロミ不ンスλ第１６図（ａ）平叙文１（ｂ）疑問文１先頭およびズ不又如は商外し又いる。第１８図（テフオルトプ口ミ不シスノ第１９図アクセント指令増分の差 ΔＤＡａ第２１図疑問文文末における音素持続時間伸長（平叙文と比較）
第２０図Ｏ′／ａ／　Δへ／　〇へ／　マ／ｅ１０１０／α３．
　＋２）ポーズ発生時における直前音素持続時間の伸長第２２図第２３図（音源生成部へ）ｔｆｌｌｌバクメー５土凧処理部へ）第２５図第２４図第２６図第２７図

Claims

【特許請求の範囲】１、入力文章を形態素解析する言語処理手段と；上記言
語処理手段の出力に基づいて上記入力文章のタイプを判
定し、該タイプに従って制御パラメータを生成する制御
パラメータ生成部と該制御パラメータに応じて基本周波
数の時間変化パターン（以下略してピッチパターンと呼
ぶ）を生成するピッチパターン生成部とを有する第１の
韻律制御手段であって、上記言語処理手段の出力に基づ
いてプロミネンスの分類を判定し、自然音声の解析結果
に基づいて上記プロミネンスの分類対応であらかじめ求
めた上記制御パラメータの変化分に従って、上記制御パ
ラメータを制御する第１の韻律制御手段と；上記言語処理手段の出力に基づいて上記入力文章に応じ
た音韻パラメータ列を生成し、該音韻パラメータ列と上
記第１の韻律制御手段で生成したピッチパターンとによ
り順次音声を合成する音声合成手段と；を有することを特徴とする音声規則合成装置。２、上記ピッチパターン生成部は、アクセント成分の大
きさ、その開始及び終了時刻を制御するアクセント制御
機構を少なくとも有し、上記制御パラメータの変化分と
して上記アクセント成分の変化分を設定したことを特徴
とする請求項１記載の音声規則合成装置。３、上記制御パラメータの変化分を、文形が平叙文でかつプロミネンスが付加された文単位（
文節、単語、単語の一部、音節等）が、先頭文節以外でありかつアクセント型がアクセント変形
型でない場合は、プロミネンスが付加されていない場合
のアクセント成分の大きさに対する増分として定義され
る「アクセント指令増分」と、隣接するアクセント成分
に対する「アクセント指令増分」との差である変化分Δ
ＤＡａを０．７±０．２の範囲内の値に設定し、先頭文
節以外でありかつアクセント型がアクセント変形型であ
る場合は該ΔＤＡａを０．４±０．２の範囲内の値に設
定し、先頭文節の場合は該ΔＤＡａを０．３±０．２の範囲内
の値に設定し、アクセントがプロミネンスにより新たに生起した場合、
該プロミネンスが付与された文単位直前にポーズを挿入
する場合は該ΔＤＡａを０．１±０．１の範囲内の値に
設定し、ポーズを挿入しない場合は該ΔＤＡａを０．３±０．２
の範囲内の値に設定し、文形が疑問文の場合は先頭文節のアクセント成分の大き
さＡａ＿１を該Ａａ＿１と第２文節のアクセント成分の
大きさＡａ＿２の差が０．０±０．１の範囲内の値にな
るように設定し、かつ文末アクセントに対応するΔＤＡａを０．４±０．
２の範囲内の値に設定し、文形が平叙文でかつプロミネンスを文章中のいずれの文
単位にも指定していない場合は先頭文節のアクセント成
分の大きさＡａ＿１を該Ａａ＿１と第２文節のアクセン
ト成分の大きさＡａ＿２の差が０．１±０．１の範囲内
の値になるように設定し、文形が平叙文でかつ文末文節
と文末直前の文節にプロミネンスを指定していない場合
は文末文節のアクセント成分の大きさＡａｊを該Ａａｊ
と文末直前文節のアクセント成分の大きさＡａｊ＿−＿
１の差が−０．１±０．２の範囲内の値になるように設
定したことを特徴とする請求項２記載の音声規則合成装
置。４、上記音声合成手段で合成される音声のパワーを制御
する第２の韻律制御手段を有することを特徴とする請求
項１ないし３のいずれかに記載の音声規則合成装置。５、上記第２の韻律制御手段は、上記プロミネンスが付
加されていない場合のパワーの大きさに対する比として
デシベル（ｄＢ）単位で定義される「パワー比」と、隣
接する文単位に対する「パワー比」との差ΔＰＯＷＲの
値を上記アクセント成分の変化分ΔＤＡａより式 ΔＰＯＷＲ＝６ΔＤＡａ＋４±４（ｄＢ）で求まる値に設定したことを特徴とする請求項４記載の
音声規則合成装置。６、上記第２の韻律制御手段は、上記第１の韻律制御手
段によるピッチパターンの変化に伴うパワーの変化を利
用することを特徴とする請求項４記載の音声規則合成装
置。７、上記音声合成手段で合成される音声の時間長を制御
する第３の韻律制御手段を有することを特徴とする請求
項１ないし６のいずれかに記載の音声規則合成装置。８、上記第３の韻律制御手段は、上記音韻パラメータ列
に対応する音素の持続時間を制御する手段からなること
を特徴とする請求項７記載の音声規則合成装置。９、上記第３の韻律制御手段は、上記プロミネンスが付加された文単位の直後にポーズが
ある場合は、該文単位末尾の母音の持続時間を強調のな
い場合の該母音の持続時間の６６±３３％の範囲内の値
だけ伸長し、文形が疑問文の場合は、文末の母音の接続時間を平叙文
の場合の該母音の持続時間の７８±２２％の範囲内の値
だけ伸長することを特徴とする請求項８記載の音声規則
合成装置。１０、入力文章を形態素解析して音節コード
列で表現するステップと；上記音節コード列に基づいて上記入力文章のタイプを判
定し、該タイプに従って制御パラメータを生成し、該制
御パラメータに応じて基本周波数の時間変化パターン（
以下略してピッチパターンと呼ぶ）を生成するステップ
であって、上記音節コード列に基づいてプロミネンスの
分類を判定し、自然音声の解析結果に基づいて上記プロ
ミネンスの分類対応であらかじめ求めた上記制御パラメ
ータの変化分に従って、上記制御パラメータを制御する
ステップと；上記音節コード列に基づいて上記入力文章に応じた音韻
パラメータ列を生成し、該音韻パラメータ列と上記韻律
制御手段で生成したピッチパターンとにより順次音声を
合成するステップと；からなることを特徴とする音声規則合成方法。１１、上記制御パラメータとして、アクセント成分の大
きさ、その開始及び終了時刻を制御するパラメータを用
い、上記制御パラメータの変化分として上記アクセント
成分の変化分を設定したことを特徴とする請求項１０記
載の音声規則合成方法。１２、上記制御パラメータの変化分を、文形が平叙文でかつプロミネンスが付加された文単位（
文節、単語、単語の一部、音節等）が、先頭文節以外でありかつアクセント型がアクセント変形
型でない場合は、プロミネンスが付加されていない場合
のアクセント成分の大きさに対する増分として定義され
る「アクセント指令増分」と、隣接するアクセント成分
に対する「アクセント指令増分」との差である変化分Δ
ＤＡａを０．７±０．２の範囲内の値に設定し、先頭文
節以外でありかつアクセント型がアクセント変形型であ
る場合は該ΔＤＡａを０．４±０．２の範囲内の値に設
定し、先頭文節の場合は該ΔＤＡａを０．３±０．２の範囲内
の値に設定し、アクセントがプロミネンスにより新たに生起した場合、
該プロミネンスが付与された文単位直前にポーズを挿入
する場合は該ΔＤＡａを０．１±０．１の範囲内の値に
設定し、ポーズを挿入しない場合は該ΔＤＡａを０．３±０．２
の範囲内の値に設定し、文形が疑問文の場合は先頭文節のアクセント成分の大き
さＡａ＿１を該Ａａ＿１と第２文節のアクセント成分の
大きさＡａ＿２の差が０．０±０．１の範囲内の値にな
るように設定し、かつ文末アクセントに対応するΔＤＡａを０．４±０．
２の範囲内の値に設定し、文形が平叙文でかつプロミネンスを文章中のいずれの文
単位にも指定していない場合は先頭文節のアクセント成
分の大きさＡａ＿１を該Ａａ＿１と第２文節のアクセン
ト成分の大きさＡａ＿２の差が０．１±０．１の範囲内
の値になるように設定し、文形が平叙文でかつ文末文節
と文末直前の文節にプロミネンスを指定していない場合
は文末文節のアクセント成分の大きさＡａｊを該Ａａｊ
と文末直前文節のアクセント成分の大きさＡａｊ＿−＿
１の差が−０．１±０．２の範囲内の値になるように設
定したことを特徴とする請求項１１記載の音声規則合成
方法。１３、上記合成される音声パワーを制御することを特徴
とする請求項１０ないし１２のいずれかに記載の音声規
則合成方法。１４、上記パワーの制御は、上記プロミネンスが付加さ
れていない場合のパワーの大きさに対する比としてデシ
ベル（ｄＢ）単位で定義される「パワー比」と、隣接す
る文単位に対する「パワー比」との差ΔＰＯＷＲの値を
上記アクセント成分の変化分ΔＤＡａより式ΔＰＯＷＲ
＝６ΔＤＡａ＋４±４（ｄＢ）で求まる値に設定したことを特徴とする請求項１３記載
の音声規則合成方法。１５、上記パワーの制御は、上記ピッチパターンの変化
に伴うパワーの変化を利用することを特徴とする請求項
１３記載の音声規則合成方法。１６、上記合成される音声の時間長を制御することを特
徴とする請求項１０ないし１５のいずれかに記載の音声
規則合成方法。１７、上記音声の時間長の制御は、上記音韻パラメータ
列に対応する音素の接続時間を制御することによって行
なうことを特徴とする請求項１６記載の音声規則合成方
法。１８、上記音声の時間長の制御は、上記プロミネンスが付加された文単位の直後にポーズが
ある場合は、該文単位末尾の母音の接続時間を強調のな
い場合の該母音の接続時間の６６±３３％の範囲内の値
だけ伸長し、文形が疑問文の場合は、文末の母音の接続時間を平叙文
の場合の該母音の接続時間の７８±２２％の範囲内の値
だけ伸長することを特徴とする請求項１７記載の音声規
則合成方法。