JPH04130400A - 音声規則合成装置 - Google Patents
音声規則合成装置Info
- Publication number
- JPH04130400A JPH04130400A JP2250172A JP25017290A JPH04130400A JP H04130400 A JPH04130400 A JP H04130400A JP 2250172 A JP2250172 A JP 2250172A JP 25017290 A JP25017290 A JP 25017290A JP H04130400 A JPH04130400 A JP H04130400A
- Authority
- JP
- Japan
- Prior art keywords
- accent
- prominence
- speech
- sentence
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 17
- 239000002245 particle Substances 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 11
- 230000001915 proofreading effect Effects 0.000 abstract description 4
- 238000004445 quantitative analysis Methods 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000033764 rhythmic process Effects 0.000 abstract 1
- 230000007246 mechanism Effects 0.000 description 46
- 238000000034 method Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 27
- 238000012937 correction Methods 0.000 description 15
- 230000009466 transformation Effects 0.000 description 13
- 238000001308 synthesis method Methods 0.000 description 10
- 230000006835 compression Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 9
- 230000003313 weakening effect Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000008602 contraction Effects 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 7
- 238000005728 strengthening Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 101000667266 Rattus norvegicus von Willebrand factor A domain-containing protein 5A Proteins 0.000 description 1
- 235000006732 Torreya nucifera Nutrition 0.000 description 1
- 244000111306 Torreya nucifera Species 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008288 physiological mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002966 varnish Substances 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
本発明は文章音声の規則合成方式に係わり、特に規則合
成音声の音質改善に関する。
成音声の音質改善に関する。
以下に、本発明に関する技術文献
1、市川 黒、他;合成音声の自然性に関する実験的考
察、音響学会講演論文集 1−3−8 (昭42)2、
申出 剛、他;合成音声の音源特性制御による疑問、強
調の表現、電子通信学会大会 64(昭43) 3、特開昭59−081697号公報(単語規則合成に
藤崎モデルを使用) 4、特開昭60−074224号公報(段落ごとに発声
の調子を改め、更に自然な揺らぎを与える)5、特開昭
61〜138898号公報(疑問文、命令文、願望文等
のイントネーションを藤崎モデルにより生成) 6、 H,Fujisaki et、 al、、 ”A
nalysis of voicefundament
al frequency contours for
declarative 5entences of
Japanese、” J。 Acoust、 Sac、 Jpn、 (E)5,4
(1984)。 7、佐藤利男;有声、無声破裂音の時間要素の差異につ
いて、日本音響学会誌第14巻第2号(195g) 8、落合和雄;無声破裂音におけるピッチ周波数変化の
聴覚的検討、日本音響学会講演論文集2−3−12 (
昭43−11) 9、特開昭63−174100号公報(藤崎モデルに更
に音素制御機構1文形指定制御機構、および強調制御機
構を付加したモデル) 10、廣瀬啓吉、藤崎博也、他2;基本周波数パターン
生成過程モデルに基づく文章音声の合成、電子情報通信
学会論文誌 A、 J72−A、 1. pp、321
1、河井恒、廣瀬啓吉、藤崎博也;日本語音声の合成に
おける韻律的特徴の合成規則、電子情報通信学会技術報
告 音声、 SP8g−129(1989−1)12、
藤崎博也、廣瀬啓吉、化2;連続音声中におけるアクセ
ント成分の実現、音声研究会資料。 13、武田昌−1市川 蕉;4モ一ラ単語を対象とした
ピッチ制御機構モデルパラメータの推定、日本音響学会
講演論文集1−5−13 (昭57−3)これらの文献
を参照して、従来の技術について簡単に説明する。 任意の文章あるいは単語のテキストより、これに対応す
る音声を合成する手法は「規則による音声合成」あるい
は単に「規則合成」と呼ばれている。規則合成の音声で
は、一般に、音韻のつながりや、持続時間、あるいはピ
ッチ(声の高さ)の変化などの特徴を外部から規則によ
り与えているため、自然の音声のものとは異なっている
。したがって、規則合成による音声は、自然の音声の特
徴をそのまま保存しているいわゆる「分析合成Jによる
音声の音質より悪い。規則合成音声の音質劣化の要因と
しては、■音韻の明瞭性の低下に起因するものや、■文
章の抑揚の不自然さに起因するものが挙げられる。 文章の抑揚を支配する規則、すなわち韻律規則について
は、すでに日本語の平叙文、疑問文、命令文、強調およ
び種々の表情を持つ文章のイントネーションを生成する
規則が知られている(前述文献1.2を参照)。しかし
これらの文献で用いられたモデルは、音節単位の点ピッ
チ情報を与えるに過ぎないため、疑問文、命令文、願望
文の差異を表現するには不十分である。そのためにこの
ようなピッチパターン(基本周波数の時間変化パターン
)を与えて合成した音声の抑揚は不自然に聞こえる。 種々の文章のイントネーションの差異を十分に表現する
ためには、音節内の基本周波数(ピッチ周波数)と時間
との関係を明確にする必要がある。 このような音節内のピッチパターンを記述し、しかも時
間構造を明確に定義できるモデルとして、臨界制動2次
線形系で記述さ九る「ピッチ制御機構モデル」が知られ
ている。 上記このピッチ制御機構モデルを適用したものとして、
単語音声合成に適用したものが特開昭59−81697
号に、疑問文、命令文、願望文等の文章音声合成に適用
したものが特開昭60−74224号に提案されており
、かなりの音質改善効果が認められている。 特開昭63−174100号公報は、更に、音韻明瞭性
の改善に効果的な音素レベルの局所的な揺らぎを表現す
る成分を付加したものである。また、疑問文に現れる尻
上がり調や、命令文、願望文等、様々な感情や表情に固
有な微妙な基本周波数の変化を表現する成分も付加され
ている。特開昭63−174100号公報では、これら
の成分を生成する修正型ピッチ制御機構モデルを用いて
人間らしい自然な抑揚感を持った音声を合成する方法を
提供している。
察、音響学会講演論文集 1−3−8 (昭42)2、
申出 剛、他;合成音声の音源特性制御による疑問、強
調の表現、電子通信学会大会 64(昭43) 3、特開昭59−081697号公報(単語規則合成に
藤崎モデルを使用) 4、特開昭60−074224号公報(段落ごとに発声
の調子を改め、更に自然な揺らぎを与える)5、特開昭
61〜138898号公報(疑問文、命令文、願望文等
のイントネーションを藤崎モデルにより生成) 6、 H,Fujisaki et、 al、、 ”A
nalysis of voicefundament
al frequency contours for
declarative 5entences of
Japanese、” J。 Acoust、 Sac、 Jpn、 (E)5,4
(1984)。 7、佐藤利男;有声、無声破裂音の時間要素の差異につ
いて、日本音響学会誌第14巻第2号(195g) 8、落合和雄;無声破裂音におけるピッチ周波数変化の
聴覚的検討、日本音響学会講演論文集2−3−12 (
昭43−11) 9、特開昭63−174100号公報(藤崎モデルに更
に音素制御機構1文形指定制御機構、および強調制御機
構を付加したモデル) 10、廣瀬啓吉、藤崎博也、他2;基本周波数パターン
生成過程モデルに基づく文章音声の合成、電子情報通信
学会論文誌 A、 J72−A、 1. pp、321
1、河井恒、廣瀬啓吉、藤崎博也;日本語音声の合成に
おける韻律的特徴の合成規則、電子情報通信学会技術報
告 音声、 SP8g−129(1989−1)12、
藤崎博也、廣瀬啓吉、化2;連続音声中におけるアクセ
ント成分の実現、音声研究会資料。 13、武田昌−1市川 蕉;4モ一ラ単語を対象とした
ピッチ制御機構モデルパラメータの推定、日本音響学会
講演論文集1−5−13 (昭57−3)これらの文献
を参照して、従来の技術について簡単に説明する。 任意の文章あるいは単語のテキストより、これに対応す
る音声を合成する手法は「規則による音声合成」あるい
は単に「規則合成」と呼ばれている。規則合成の音声で
は、一般に、音韻のつながりや、持続時間、あるいはピ
ッチ(声の高さ)の変化などの特徴を外部から規則によ
り与えているため、自然の音声のものとは異なっている
。したがって、規則合成による音声は、自然の音声の特
徴をそのまま保存しているいわゆる「分析合成Jによる
音声の音質より悪い。規則合成音声の音質劣化の要因と
しては、■音韻の明瞭性の低下に起因するものや、■文
章の抑揚の不自然さに起因するものが挙げられる。 文章の抑揚を支配する規則、すなわち韻律規則について
は、すでに日本語の平叙文、疑問文、命令文、強調およ
び種々の表情を持つ文章のイントネーションを生成する
規則が知られている(前述文献1.2を参照)。しかし
これらの文献で用いられたモデルは、音節単位の点ピッ
チ情報を与えるに過ぎないため、疑問文、命令文、願望
文の差異を表現するには不十分である。そのためにこの
ようなピッチパターン(基本周波数の時間変化パターン
)を与えて合成した音声の抑揚は不自然に聞こえる。 種々の文章のイントネーションの差異を十分に表現する
ためには、音節内の基本周波数(ピッチ周波数)と時間
との関係を明確にする必要がある。 このような音節内のピッチパターンを記述し、しかも時
間構造を明確に定義できるモデルとして、臨界制動2次
線形系で記述さ九る「ピッチ制御機構モデル」が知られ
ている。 上記このピッチ制御機構モデルを適用したものとして、
単語音声合成に適用したものが特開昭59−81697
号に、疑問文、命令文、願望文等の文章音声合成に適用
したものが特開昭60−74224号に提案されており
、かなりの音質改善効果が認められている。 特開昭63−174100号公報は、更に、音韻明瞭性
の改善に効果的な音素レベルの局所的な揺らぎを表現す
る成分を付加したものである。また、疑問文に現れる尻
上がり調や、命令文、願望文等、様々な感情や表情に固
有な微妙な基本周波数の変化を表現する成分も付加され
ている。特開昭63−174100号公報では、これら
の成分を生成する修正型ピッチ制御機構モデルを用いて
人間らしい自然な抑揚感を持った音声を合成する方法を
提供している。
上述した各種制御機構モデルのうち、音素制御機構の導
入により、合成音声の音韻明瞭性は改善されるに至った
。しかし、感情や特別の表情の付かない通常の文章では
、発話の単調さ1機械的な感じは取り除かれていない。 このような単調さや機械感は、特に合成音声システムを
長時間利用する者にとって、大きな負担になり、疲労を
もたらす。これらの単調さや機械感を取り除かないかぎ
り、例えば新聞の校閲における読み合わせ作業のような
、長時間利用型のシステムへの適用に供することができ
ない。 他方、人間の発声する自然音声を長時間間いても、疲労
感が少ない理由の一つは、発話の中で、局所的に強めた
り、逆に弱めたりして、発話に変化をつけているからで
ある。すなわち1人間は強めたいところでは、相対的に
声の高さを高め、声を大きくし、しかもゆっくりと話す
。逆に重要でないところでは、低く小さい声で、しかも
早口で曖昧に話そうとする。即ち、書き言葉における「
カギ括弧」や「太字」等に相当する強調表現を話し言葉
でも行っているのである。この強めや弱めによって、聞
く人は常に発話に注意を傾ける必要がなくなり、負担が
軽減する。 本発明は、このような自然音声が持つ強めや弱めを、規
則合成音声において実現する方法及び装置を提供するも
のである。
入により、合成音声の音韻明瞭性は改善されるに至った
。しかし、感情や特別の表情の付かない通常の文章では
、発話の単調さ1機械的な感じは取り除かれていない。 このような単調さや機械感は、特に合成音声システムを
長時間利用する者にとって、大きな負担になり、疲労を
もたらす。これらの単調さや機械感を取り除かないかぎ
り、例えば新聞の校閲における読み合わせ作業のような
、長時間利用型のシステムへの適用に供することができ
ない。 他方、人間の発声する自然音声を長時間間いても、疲労
感が少ない理由の一つは、発話の中で、局所的に強めた
り、逆に弱めたりして、発話に変化をつけているからで
ある。すなわち1人間は強めたいところでは、相対的に
声の高さを高め、声を大きくし、しかもゆっくりと話す
。逆に重要でないところでは、低く小さい声で、しかも
早口で曖昧に話そうとする。即ち、書き言葉における「
カギ括弧」や「太字」等に相当する強調表現を話し言葉
でも行っているのである。この強めや弱めによって、聞
く人は常に発話に注意を傾ける必要がなくなり、負担が
軽減する。 本発明は、このような自然音声が持つ強めや弱めを、規
則合成音声において実現する方法及び装置を提供するも
のである。
文音声における強めや弱めは、文中の他の部分との相対
的な強弱によって行われる。このように他の部分に対し
て相対的に引き立たせる(卓立させる)強めは、「プロ
ミネンス」あるいは「対比強調Jと呼ばれている。 言語学的立場からプロミネンスを分類すると、第4図の
ようになる。本発明では、これらプロミネンスの韻律的
特徴を定量的に表現するための尺度を導入する。即ち、
プロミネンスの分類に対応して、自然音声の解析結果に
基づいて求めた韻律の制御パラメータを記憶するプロミ
ネンス生成規則を用い、該プロミネンス生成規則に従っ
て、プロミネンス付加時の韻律制御パラメータを制御す
る。 これらのプロミネンスは、音声情報処理的には、(1)
基本周波数、(2)音声波形振幅(パワー)、および(
3)時間長(音素あるいは「間」 (ポーズ)接続時間
)の増大や減少によって実現される。 特に1本発明では、■アクセント指令の大きさの制御に
よりプロミネンスを実現する。また、必要に応じて、■
ポーズの挿入による時間長の制御。 あるいは■パワーの大きさの制御を行なう。 パワーは、基本周波数との相関が強く、プロミネンスに
より基本周波数が高くなれば、それに伴いパワーの大き
さも増大する。
的な強弱によって行われる。このように他の部分に対し
て相対的に引き立たせる(卓立させる)強めは、「プロ
ミネンス」あるいは「対比強調Jと呼ばれている。 言語学的立場からプロミネンスを分類すると、第4図の
ようになる。本発明では、これらプロミネンスの韻律的
特徴を定量的に表現するための尺度を導入する。即ち、
プロミネンスの分類に対応して、自然音声の解析結果に
基づいて求めた韻律の制御パラメータを記憶するプロミ
ネンス生成規則を用い、該プロミネンス生成規則に従っ
て、プロミネンス付加時の韻律制御パラメータを制御す
る。 これらのプロミネンスは、音声情報処理的には、(1)
基本周波数、(2)音声波形振幅(パワー)、および(
3)時間長(音素あるいは「間」 (ポーズ)接続時間
)の増大や減少によって実現される。 特に1本発明では、■アクセント指令の大きさの制御に
よりプロミネンスを実現する。また、必要に応じて、■
ポーズの挿入による時間長の制御。 あるいは■パワーの大きさの制御を行なう。 パワーは、基本周波数との相関が強く、プロミネンスに
より基本周波数が高くなれば、それに伴いパワーの大き
さも増大する。
本発明のプロミネンス生成規則による韻律制御は、自然
音声の定量的解析に基づき求められたものなので、入力
文書(テキスト)から合成される音声に、人間らしい自
然な強め9弱めを与えることができる。本発明によれば
、現実の文章音声に起り得るほとんどすべての場合の強
め、弱めを実現することができる。従って、利用者が特
別の注意を払うことなく発話内容を容易に理解すること
ができ、利用者の負担を著しく軽減することが可能とな
る。特に、新聞校閲のような長時間の作業時の疲労軽減
効果は著しく1作業の効率向上が期待できる。
音声の定量的解析に基づき求められたものなので、入力
文書(テキスト)から合成される音声に、人間らしい自
然な強め9弱めを与えることができる。本発明によれば
、現実の文章音声に起り得るほとんどすべての場合の強
め、弱めを実現することができる。従って、利用者が特
別の注意を払うことなく発話内容を容易に理解すること
ができ、利用者の負担を著しく軽減することが可能とな
る。特に、新聞校閲のような長時間の作業時の疲労軽減
効果は著しく1作業の効率向上が期待できる。
まず、本発明の実施例で用いる[ピッチ制御機構モデル
」について説明する。 ここでピッチ制御機構モデルとは、以下に述べるような
モデルである。 声の高さの情報を与える基本周波数は1次のような過程
で生成されると考えるのがピッチ制御機構モデルである
。声帯振動の周波数、すなわち基本周波数は、脳からの
■フレーズの切り替わりごとに発せられるインパルス指
令と、■アクセントの上げ下げごとに発せられるステッ
プ指令によって制御される。そのとき、生理機構の遅れ
特性により、■のインパルス指令は文頭から文末に向か
う緩やかな下降曲線(フレーズ成分)となり、■のステ
ップ指令は局所的な起伏の激しい曲線(アクセント成分
)となる。これらの二つの成分は、各指令の臨界制動2
次線形系の応答としてモデル化され、対数基本周波数の
時間変化パターンは、これら両成分の和として表現され
る。第2図はピッチ制御機構モデルを示す。モデル基本
周波数F0(1)(1は時刻)は、次式のように定式化
される。 ■ j=1 ここで、F□イは最低周波数、■はフレーズ指令の数、
Apiはi番目のフレーズ指令の大きさ、TOlはi番
目のフレーズ指令の時点、Jはアクセント指令の数、A
、はj番目のアクセント指令の大きさ、Tl J、 T
2 Jはそれぞれj番目のアクセント指令の開始時点と
終了時点である。また、 Gp+(t)、 GaJ(t
)はそれぞれ、フレーズ制御機構のインパルス応答関数
、アクセント制御機構のステップ応答関数であり、 次式で与えられる。 Gp+ (t)=a tt exp(−a tt)u(
t) (2)GaJ(t)=Min[1−(1
+βJt) exp(−βJt)u(t)+θJ]ここ
で、αiはi番目のフレーズ指令に対するフレーズ制御
機構の固有角周波数、βJはj番目のアクセント指令に
対するアクセント制御機構の固有角周波数、u(t)は
単位ステップ関数である。また、θ、はアクセント成分
の上限値であり、例えば0.9などに選ばれる。 なおここで、基本周波数(ピッチ周波数)およびピッチ
制御パラメータ(Aps、 AaJtTot+ Ti1
l TzJ、α1.β4. Fat□)の値の単位は次
のように定義される。すなわち、FO(t)およびFm
1nの単位は[Hzl、 r、i、 T□1およびT2
Jの単位は[s]、α1およびβJの単位は[s、1]
とする。またAptおよびAajの値は、基本周波数お
よびピッチ制御パラメータの値の単位を上記のように定
めたときの値を用いる。 解析の方法としては、最適化法が用いられている。すな
わち、上記ピッチ制御機構モデルにより生成したピッチ
パターンと原音声の分析・抽出による実測値との誤差が
最小となるようなピッチ制御パラメータを求めることに
より、ピッチパターンの最良近似推定が行なわれる。 次に、修正型ピッチ制御機構モデルについて説明する。 第3図は修正型ピッチ制御機構モデルを示す。 この修正型モデルの特徴は、■フレーズ制御機構および
■アクセント制御機構から構成されるモデルに、更に■
音素制御機構、■文形指定制御機構、および■強調制御
機構の3つの制御機構を付加したことである。これら■
〜■の3つの制御機構の導入により、ピッチパターン上
に様々な揺らぎ成分を付加することが出来る。 すなわち、上記■音素制御機構は、音素ごとの局所的な
基本周波数の揺らぎの成分を生成する機構で、例えば有
声子音/d/、/m八/n/、/r/、/w/等の局所
的な基本周波数の低下や、無声破裂音/l/、/k1等
の後続母音への入り渡り部にしばしば見られる高基本周
波数からの下降特性を表現することが出来る。また■文
形指定制御機構は、疑問文の文末の基本周波数の尻上が
りを表現する成分を生成する機構である。そして■強調
制御機構は、命令文や願望文等、様々な感情や表情を表
現する成分を生成することを目的とした機構である6上
記修正型ピッチ制御機構モデルを簡単に記述する式とし
ては、例えば以下に示す(i)〜(vii)式を用いれ
ば良い。 ■フレーズ制御機構: Gps (t)= a tt exp(−a tt)u
(t) (i )t :時刻 α1 :i番目の固有角周波数 u(t) :単位ステップ関数 ■アクセント制御機構: Gaa(t)=Min[1−(1+βJt) exp(
−β、t)u(t)、θJ](ii) βJ :j番目の固有角周波数 θJ :j番目の上限値 ■音素制御機構: (1+zh(t)=−Min[1−(1+γht)
exp(−y bt)u(t)、φ1コ(市) あるいは G、k(t)=exe(−γkt)u (t)
(iv )γk 二に番目の固有角周波数 φk 二に番目の底の値 ■女形指定制御機構: Gtt(t)=Min[1−(1+ζmt) exp
(−Gtt)u(t)、 θ 、コ(V) ζ露 :1番目の固有角周波数 θtt:1番目の上限値 ■強調制御機構: GsJt)=Min[1−(1+ 77 at) ex
p(−77、t)u(t)、θSJ(vi ) η、二二番番目固有角周波数 θSm:m番目の上限値 ピッチパターン: 工 lnF、 (t)=1nF□n+Σ ApsGpi(t
−To + )i=1 ((■)式のGzh(t)使用の場合)(Vll) あるいは ■ に=1 履=1 ((N)式のGzh(t)使用の場合) (vi)
ここで、 Flnは最低周波数、 ■はフレーズ指令の数、APIはi番目のフレーズ指令
の大きさ、Triはi番目のフレーズ指令の時点、Jは
アクセント指令の数、AaJはj番目のアクセント指令
の大きさ、T工4、T2Jはそれぞれj番目のアクセン
ト指令の開始時点と終了時点、Kは音素指令の数、As
kはに番目の音素指令の大きさ、T3 k、 T4 k
はそれぞれに番目の音素指令の開始時点と終了時点、 Lは女形指定指令の数、Ateは1番目の女形指定指令
の大きさ、To、Toはそれぞれ1番目の女形指定指令
の開始時点と終了時点、 Nは強調指令の数、 Aswaは麿番目の強調指令の大
きさ、T0n、 T@IIはそれぞれ璽番目の強調指令
の開始時点と終了時点である。 ここで(i)〜(vi)式の各パラメータの単位は第2
図で説明したピッチ制御機構に準じて定められる。勿論
具体的に実現する式としては、上記(i)〜(%nn)
式のみに限定されない。また、文章音声の性質や制御方
式の選択により、 (i)〜(vi)式の任意の制御機
構の組み合わせでピッチパターンを生成することが出来
る。例えば、強めを強調成分を用いて表現するならば、
アクセント指令と強調指令の関係は第3図(b)の(1
)のように重畳形になる。しかし、これらの指令により
得られるピッチパターンと同一のピッチパターンを同図
(b)の(2)のように、アクセント指令のみによって
も得ることが出来る。この様に一つのアクセント指令終
了時点で、別の指令値に階段状に変化することを「アク
セント変形」と呼んでいる。「アクセント成分に重畳さ
れた強調成分」と「アクセント変形」とは、 Ag3”Aal÷As (4
)T工2=T7□ (5)
T2□=T、i (6)
の関係により相互に変換が可能である。 モデルパラメータの推定(解析)は、従来のピッチ制御
機構モデルの場合と同じく最適化法により実行すること
が出来る(公知例6)。 第5図〜第11図は、上記ピッチ制御機構モデルによる
最良近似推定により制御パラメータを求めた例であり、
第4図のプロミネンスの分類に対応している。なお1本
解析においては、強めをアクセント変形型(第3図(b
)の(2))で表現しているが、勿論強調成分付加型(
第3図(b)の(1))で表現しても良い。 第5図〜第11図より、強めのある文章では、強めのな
い場合に比して、卓立している部分の(1)アクセント
指令の大きさ、(2)パワー、あるいは(3)音素持続
時間が増大し、場合によってはポーズが発生しているこ
とがわかる。また逆に、平叙文の文末弱めのように、(
1)アクセント指令の大きさ、あるいは(2)パワーが
減少する場合もある。 したがって、プロミネンスによる強め、あるいは弱めは
、これら(1)〜(3)(これら(1)〜(3)は総称
して「韻律」と呼ばれている)の各位を増大させたり、
逆に減少させることにより実現される。韻律の各要素(
1)〜(3)は、単独で増大、減少する場合もあるし、
組合せにより増大、減少する場合もある。当然のことな
がら、組み合わせにより増大、減少させた場合の方が卓
立の効果は大きくなる。 本発明では、上記プロミネンスの韻律的特徴を定量的に
表現するための尺度を導入する。すなわち、強めのない
文章(参照音声)を基準にプロミネンス含有文(対象音
声)の強めの位置と度合いを表す尺度として、以下の諸
量を定義する。 (1)F、比(FOR) :参照音声の基本周波数F。 、に対する対象音声の基本周波数F。Xの比で9次式に
より定義する。ただし、基本周波数は、藤崎モデルによ
り推定した値を用いた。 FOR=201og(F、x/F、r) (dB)
(7)(2)アクセント指令増分(DAa) :参
照音声のアクセント指令の大きさAarに対する対象音
声のアクセント指令の大きさAaxの増分で9次式によ
り定義する。 DAa”Aax−Aar (8)(
3) ハ’7−比(POWR) :参照音声のパワーP
「に対する対象音声のパワーP、の比で2次式により定
義する。 POtjR=101og(Px/Pr) (dB)
(9)(4)時間変化率(TIME WARP)
:参照音声に対する対象音声の時間伸縮の度合いを表す
。いま参照音声と対象音声の対応する音素の持続時間を
それぞれTr(i)、Tx(i) (iはi番目の音素
の意味)として、i番目の音素の時間変化率TV(i)
を次式で定義する。 TV(i)=(Tx(i)−Tr(i))/T−(i)
X 100 (%) (10)第12図〜第15図は
、文章「彼の妹は起きる」の「妹は」を卓立させた場合
の解析結果の例を示したものである。この中で、第14
図は参照音声の音素/ポーズ持続時間を横軸に、対象音
声の同持続時間を縦軸に取り、対応点の軌跡を二次元平
面にプロットした9時間伸縮パターンである。グラフ中
の一点鎖線は、音素境界時刻を表す。また。 第15図は前述(1)−(4)の諸量の時間変化パター
ンを示している。ただし時間軸は参照音声を基準として
いる。 第12図〜第15図の例では、■アクセント指令の大き
さの増大と相対的弱め(第12.13゜15図)、■直
前にポーズの挿入(第14図の時間伸縮パターンの垂直
の部分)と直前音素持続時間の伸長(第14.15図)
、■パワーの増大と相対的弱め(第12.13.15図
)、によりプロミネンスを実現している。 上記韻律的特徴の尺度を用いて、プロミネンス定量解析
結果をまとめると以下のようになる。
」について説明する。 ここでピッチ制御機構モデルとは、以下に述べるような
モデルである。 声の高さの情報を与える基本周波数は1次のような過程
で生成されると考えるのがピッチ制御機構モデルである
。声帯振動の周波数、すなわち基本周波数は、脳からの
■フレーズの切り替わりごとに発せられるインパルス指
令と、■アクセントの上げ下げごとに発せられるステッ
プ指令によって制御される。そのとき、生理機構の遅れ
特性により、■のインパルス指令は文頭から文末に向か
う緩やかな下降曲線(フレーズ成分)となり、■のステ
ップ指令は局所的な起伏の激しい曲線(アクセント成分
)となる。これらの二つの成分は、各指令の臨界制動2
次線形系の応答としてモデル化され、対数基本周波数の
時間変化パターンは、これら両成分の和として表現され
る。第2図はピッチ制御機構モデルを示す。モデル基本
周波数F0(1)(1は時刻)は、次式のように定式化
される。 ■ j=1 ここで、F□イは最低周波数、■はフレーズ指令の数、
Apiはi番目のフレーズ指令の大きさ、TOlはi番
目のフレーズ指令の時点、Jはアクセント指令の数、A
、はj番目のアクセント指令の大きさ、Tl J、 T
2 Jはそれぞれj番目のアクセント指令の開始時点と
終了時点である。また、 Gp+(t)、 GaJ(t
)はそれぞれ、フレーズ制御機構のインパルス応答関数
、アクセント制御機構のステップ応答関数であり、 次式で与えられる。 Gp+ (t)=a tt exp(−a tt)u(
t) (2)GaJ(t)=Min[1−(1
+βJt) exp(−βJt)u(t)+θJ]ここ
で、αiはi番目のフレーズ指令に対するフレーズ制御
機構の固有角周波数、βJはj番目のアクセント指令に
対するアクセント制御機構の固有角周波数、u(t)は
単位ステップ関数である。また、θ、はアクセント成分
の上限値であり、例えば0.9などに選ばれる。 なおここで、基本周波数(ピッチ周波数)およびピッチ
制御パラメータ(Aps、 AaJtTot+ Ti1
l TzJ、α1.β4. Fat□)の値の単位は次
のように定義される。すなわち、FO(t)およびFm
1nの単位は[Hzl、 r、i、 T□1およびT2
Jの単位は[s]、α1およびβJの単位は[s、1]
とする。またAptおよびAajの値は、基本周波数お
よびピッチ制御パラメータの値の単位を上記のように定
めたときの値を用いる。 解析の方法としては、最適化法が用いられている。すな
わち、上記ピッチ制御機構モデルにより生成したピッチ
パターンと原音声の分析・抽出による実測値との誤差が
最小となるようなピッチ制御パラメータを求めることに
より、ピッチパターンの最良近似推定が行なわれる。 次に、修正型ピッチ制御機構モデルについて説明する。 第3図は修正型ピッチ制御機構モデルを示す。 この修正型モデルの特徴は、■フレーズ制御機構および
■アクセント制御機構から構成されるモデルに、更に■
音素制御機構、■文形指定制御機構、および■強調制御
機構の3つの制御機構を付加したことである。これら■
〜■の3つの制御機構の導入により、ピッチパターン上
に様々な揺らぎ成分を付加することが出来る。 すなわち、上記■音素制御機構は、音素ごとの局所的な
基本周波数の揺らぎの成分を生成する機構で、例えば有
声子音/d/、/m八/n/、/r/、/w/等の局所
的な基本周波数の低下や、無声破裂音/l/、/k1等
の後続母音への入り渡り部にしばしば見られる高基本周
波数からの下降特性を表現することが出来る。また■文
形指定制御機構は、疑問文の文末の基本周波数の尻上が
りを表現する成分を生成する機構である。そして■強調
制御機構は、命令文や願望文等、様々な感情や表情を表
現する成分を生成することを目的とした機構である6上
記修正型ピッチ制御機構モデルを簡単に記述する式とし
ては、例えば以下に示す(i)〜(vii)式を用いれ
ば良い。 ■フレーズ制御機構: Gps (t)= a tt exp(−a tt)u
(t) (i )t :時刻 α1 :i番目の固有角周波数 u(t) :単位ステップ関数 ■アクセント制御機構: Gaa(t)=Min[1−(1+βJt) exp(
−β、t)u(t)、θJ](ii) βJ :j番目の固有角周波数 θJ :j番目の上限値 ■音素制御機構: (1+zh(t)=−Min[1−(1+γht)
exp(−y bt)u(t)、φ1コ(市) あるいは G、k(t)=exe(−γkt)u (t)
(iv )γk 二に番目の固有角周波数 φk 二に番目の底の値 ■女形指定制御機構: Gtt(t)=Min[1−(1+ζmt) exp
(−Gtt)u(t)、 θ 、コ(V) ζ露 :1番目の固有角周波数 θtt:1番目の上限値 ■強調制御機構: GsJt)=Min[1−(1+ 77 at) ex
p(−77、t)u(t)、θSJ(vi ) η、二二番番目固有角周波数 θSm:m番目の上限値 ピッチパターン: 工 lnF、 (t)=1nF□n+Σ ApsGpi(t
−To + )i=1 ((■)式のGzh(t)使用の場合)(Vll) あるいは ■ に=1 履=1 ((N)式のGzh(t)使用の場合) (vi)
ここで、 Flnは最低周波数、 ■はフレーズ指令の数、APIはi番目のフレーズ指令
の大きさ、Triはi番目のフレーズ指令の時点、Jは
アクセント指令の数、AaJはj番目のアクセント指令
の大きさ、T工4、T2Jはそれぞれj番目のアクセン
ト指令の開始時点と終了時点、Kは音素指令の数、As
kはに番目の音素指令の大きさ、T3 k、 T4 k
はそれぞれに番目の音素指令の開始時点と終了時点、 Lは女形指定指令の数、Ateは1番目の女形指定指令
の大きさ、To、Toはそれぞれ1番目の女形指定指令
の開始時点と終了時点、 Nは強調指令の数、 Aswaは麿番目の強調指令の大
きさ、T0n、 T@IIはそれぞれ璽番目の強調指令
の開始時点と終了時点である。 ここで(i)〜(vi)式の各パラメータの単位は第2
図で説明したピッチ制御機構に準じて定められる。勿論
具体的に実現する式としては、上記(i)〜(%nn)
式のみに限定されない。また、文章音声の性質や制御方
式の選択により、 (i)〜(vi)式の任意の制御機
構の組み合わせでピッチパターンを生成することが出来
る。例えば、強めを強調成分を用いて表現するならば、
アクセント指令と強調指令の関係は第3図(b)の(1
)のように重畳形になる。しかし、これらの指令により
得られるピッチパターンと同一のピッチパターンを同図
(b)の(2)のように、アクセント指令のみによって
も得ることが出来る。この様に一つのアクセント指令終
了時点で、別の指令値に階段状に変化することを「アク
セント変形」と呼んでいる。「アクセント成分に重畳さ
れた強調成分」と「アクセント変形」とは、 Ag3”Aal÷As (4
)T工2=T7□ (5)
T2□=T、i (6)
の関係により相互に変換が可能である。 モデルパラメータの推定(解析)は、従来のピッチ制御
機構モデルの場合と同じく最適化法により実行すること
が出来る(公知例6)。 第5図〜第11図は、上記ピッチ制御機構モデルによる
最良近似推定により制御パラメータを求めた例であり、
第4図のプロミネンスの分類に対応している。なお1本
解析においては、強めをアクセント変形型(第3図(b
)の(2))で表現しているが、勿論強調成分付加型(
第3図(b)の(1))で表現しても良い。 第5図〜第11図より、強めのある文章では、強めのな
い場合に比して、卓立している部分の(1)アクセント
指令の大きさ、(2)パワー、あるいは(3)音素持続
時間が増大し、場合によってはポーズが発生しているこ
とがわかる。また逆に、平叙文の文末弱めのように、(
1)アクセント指令の大きさ、あるいは(2)パワーが
減少する場合もある。 したがって、プロミネンスによる強め、あるいは弱めは
、これら(1)〜(3)(これら(1)〜(3)は総称
して「韻律」と呼ばれている)の各位を増大させたり、
逆に減少させることにより実現される。韻律の各要素(
1)〜(3)は、単独で増大、減少する場合もあるし、
組合せにより増大、減少する場合もある。当然のことな
がら、組み合わせにより増大、減少させた場合の方が卓
立の効果は大きくなる。 本発明では、上記プロミネンスの韻律的特徴を定量的に
表現するための尺度を導入する。すなわち、強めのない
文章(参照音声)を基準にプロミネンス含有文(対象音
声)の強めの位置と度合いを表す尺度として、以下の諸
量を定義する。 (1)F、比(FOR) :参照音声の基本周波数F。 、に対する対象音声の基本周波数F。Xの比で9次式に
より定義する。ただし、基本周波数は、藤崎モデルによ
り推定した値を用いた。 FOR=201og(F、x/F、r) (dB)
(7)(2)アクセント指令増分(DAa) :参
照音声のアクセント指令の大きさAarに対する対象音
声のアクセント指令の大きさAaxの増分で9次式によ
り定義する。 DAa”Aax−Aar (8)(
3) ハ’7−比(POWR) :参照音声のパワーP
「に対する対象音声のパワーP、の比で2次式により定
義する。 POtjR=101og(Px/Pr) (dB)
(9)(4)時間変化率(TIME WARP)
:参照音声に対する対象音声の時間伸縮の度合いを表す
。いま参照音声と対象音声の対応する音素の持続時間を
それぞれTr(i)、Tx(i) (iはi番目の音素
の意味)として、i番目の音素の時間変化率TV(i)
を次式で定義する。 TV(i)=(Tx(i)−Tr(i))/T−(i)
X 100 (%) (10)第12図〜第15図は
、文章「彼の妹は起きる」の「妹は」を卓立させた場合
の解析結果の例を示したものである。この中で、第14
図は参照音声の音素/ポーズ持続時間を横軸に、対象音
声の同持続時間を縦軸に取り、対応点の軌跡を二次元平
面にプロットした9時間伸縮パターンである。グラフ中
の一点鎖線は、音素境界時刻を表す。また。 第15図は前述(1)−(4)の諸量の時間変化パター
ンを示している。ただし時間軸は参照音声を基準として
いる。 第12図〜第15図の例では、■アクセント指令の大き
さの増大と相対的弱め(第12.13゜15図)、■直
前にポーズの挿入(第14図の時間伸縮パターンの垂直
の部分)と直前音素持続時間の伸長(第14.15図)
、■パワーの増大と相対的弱め(第12.13.15図
)、によりプロミネンスを実現している。 上記韻律的特徴の尺度を用いて、プロミネンス定量解析
結果をまとめると以下のようになる。
【1】基本周波数
プロミネンスの基本周波数に関する特徴をアクセント指
令の大きさAa、開始時点T工、終了時点T2、および
アクセント変形開始時点T□2について調へる。なお、
アクセント開始・終了、アクセント変形開始時点は、そ
れぞれアクセントが低から高に上昇する音節境界、高か
ら低に下降する音節境界、および高から他の高に変化す
る音節境界時刻を基準とした値ΔT1.ΔT2.および
ΔT□2として求めている。ただし、頭高型アクセント
や先頭音節の卓立の場合は、先頭音節始端時刻をΔT□
計測の基準時刻とし、平板型あるいは尾高型アクセント
や末尾音節の卓立の場合は、末尾音節終端時刻をΔT2
を計測の基準時刻とする。 1.1 アクセント指令の大きさ 1.1.1 意図的なプロミネンス 基本周波数による強めの度合いを表す尺度はアクセント
指令増分DAaであるが、プロミネンスは、卓立させる
アクセント指令そのものの増大ではなく、その前後のア
クセント指令の大きさを相対的に小さくすることによっ
て実現される場合もある。 この場合は、DAaは大きな値を取らない。そこで、基
本周波数の値によるプロミネンス効果を表す尺度として
、次式で定義するアクセント指令増分の差により評価す
る。 ΔDAa=DAap−DAan (11
)ここで、 DAapは卓立させるアクセント成分の指
令増分、DAanは卓立させるアクセント成分に隣接す
るアクセント成分の指令増分のうち小さい方の値を表す
。 第16図(a)は平叙文中に含まれる意図的なプロミネ
ンスの大きさをΔDAaで表してプロットしたものであ
る。ここで、N−Nはプロミネンスにポーズが伴わない
場合、N−Pはプロミネンスとともにポーズが発生する
場合を意味する。ただし、ポーズは、卓立させる語句の
直前に発生する場合と、直後に発生する場合の二通りが
ある。図より次のことがわかる。 (1)アクセント指令増分の差ΔDAaの値は、ポーズ
の発声の有無に影響されない(有意水準5%で検定)。 (2)アクセント指令増分の差ΔDAaの値は、韻律語
がアクセント変形(accentsandhi)を起こ
しているか否かに影響される。 すなわちアクセント型の影響を受ける(有意水準1%)
。 1.1.2 疑問文文末強め 第16図(b)は疑問文の文末韻律語のアクセント指令
増分の差をプロットしたものである。図より疑問文文末
強めの傾向が見られる。 1.1.3 先頭文節のプロミネンス第17図(a)
は意図的なプロミネンスにおけるアクセント指令増分の
差の値を先頭文節についてのみプロットしたものである
。アクセント変形型でない場合、他の文節についてのア
クセント指令増分の差の値よりも小さい。これは、参照
用の文章の先頭文節にデフォルトのプロミネンスが存在
するためと考えられる。 そこで、デフォルトのプロミネンスの存否を確認するた
めに、先頭文節に意図的なプロミネンスが付加されてい
ない文章について、先頭文節のアクセント指令の大きさ
Aa、と第2文節のアクセント指令の大きさAa、の差
の値を調べてみた。第17図(b)は平叙文(Deal
)と疑問文(Int)に分けてAal−Aa2の値をプ
ロットしたものである。図より、平叙文についてはデフ
ォルトのプロミネンスの存在の傾向が見られるが、疑問
文については見られない。 1.1.4 平叙文文末弱め 第18図は、平叙文文末弱めの存否を確認するために、
文末文節のアクセント指令の大きさAaJとその直前文
節のアクセント指令の大きさAaJ’、の差の値をプロ
ットしたものである。図より、3文節文章の場合は平叙
文文末弱めの存在は認められないが、2文節文章では認
められる。但し、2文節文章の場合は、先頭文節のデフ
ォルトのプロミネンスの影響込みの結果である。 1.2 アクセント指令開始時点 一部プロミネンスの付加により、進み傾向の見られる例
もあるが、全般的に、プロミネンス付加に伴う特段の特
徴は認められない。従って、ΔT1はOとみなすことが
できる。 1.3 アクセント指令終了時点 ΔT1と同様、プロミネンス付加に伴う特段の特徴は認
められない。従って、ΔT2はOとみなすことができる
。 1.4 アクセント変形開始時点 ΔTいΔTtと同様、プロミネンス付加に伴う特段の特
徴は認められない。従って、ΔT1□は0とみなすこと
ができる。
令の大きさAa、開始時点T工、終了時点T2、および
アクセント変形開始時点T□2について調へる。なお、
アクセント開始・終了、アクセント変形開始時点は、そ
れぞれアクセントが低から高に上昇する音節境界、高か
ら低に下降する音節境界、および高から他の高に変化す
る音節境界時刻を基準とした値ΔT1.ΔT2.および
ΔT□2として求めている。ただし、頭高型アクセント
や先頭音節の卓立の場合は、先頭音節始端時刻をΔT□
計測の基準時刻とし、平板型あるいは尾高型アクセント
や末尾音節の卓立の場合は、末尾音節終端時刻をΔT2
を計測の基準時刻とする。 1.1 アクセント指令の大きさ 1.1.1 意図的なプロミネンス 基本周波数による強めの度合いを表す尺度はアクセント
指令増分DAaであるが、プロミネンスは、卓立させる
アクセント指令そのものの増大ではなく、その前後のア
クセント指令の大きさを相対的に小さくすることによっ
て実現される場合もある。 この場合は、DAaは大きな値を取らない。そこで、基
本周波数の値によるプロミネンス効果を表す尺度として
、次式で定義するアクセント指令増分の差により評価す
る。 ΔDAa=DAap−DAan (11
)ここで、 DAapは卓立させるアクセント成分の指
令増分、DAanは卓立させるアクセント成分に隣接す
るアクセント成分の指令増分のうち小さい方の値を表す
。 第16図(a)は平叙文中に含まれる意図的なプロミネ
ンスの大きさをΔDAaで表してプロットしたものであ
る。ここで、N−Nはプロミネンスにポーズが伴わない
場合、N−Pはプロミネンスとともにポーズが発生する
場合を意味する。ただし、ポーズは、卓立させる語句の
直前に発生する場合と、直後に発生する場合の二通りが
ある。図より次のことがわかる。 (1)アクセント指令増分の差ΔDAaの値は、ポーズ
の発声の有無に影響されない(有意水準5%で検定)。 (2)アクセント指令増分の差ΔDAaの値は、韻律語
がアクセント変形(accentsandhi)を起こ
しているか否かに影響される。 すなわちアクセント型の影響を受ける(有意水準1%)
。 1.1.2 疑問文文末強め 第16図(b)は疑問文の文末韻律語のアクセント指令
増分の差をプロットしたものである。図より疑問文文末
強めの傾向が見られる。 1.1.3 先頭文節のプロミネンス第17図(a)
は意図的なプロミネンスにおけるアクセント指令増分の
差の値を先頭文節についてのみプロットしたものである
。アクセント変形型でない場合、他の文節についてのア
クセント指令増分の差の値よりも小さい。これは、参照
用の文章の先頭文節にデフォルトのプロミネンスが存在
するためと考えられる。 そこで、デフォルトのプロミネンスの存否を確認するた
めに、先頭文節に意図的なプロミネンスが付加されてい
ない文章について、先頭文節のアクセント指令の大きさ
Aa、と第2文節のアクセント指令の大きさAa、の差
の値を調べてみた。第17図(b)は平叙文(Deal
)と疑問文(Int)に分けてAal−Aa2の値をプ
ロットしたものである。図より、平叙文についてはデフ
ォルトのプロミネンスの存在の傾向が見られるが、疑問
文については見られない。 1.1.4 平叙文文末弱め 第18図は、平叙文文末弱めの存否を確認するために、
文末文節のアクセント指令の大きさAaJとその直前文
節のアクセント指令の大きさAaJ’、の差の値をプロ
ットしたものである。図より、3文節文章の場合は平叙
文文末弱めの存在は認められないが、2文節文章では認
められる。但し、2文節文章の場合は、先頭文節のデフ
ォルトのプロミネンスの影響込みの結果である。 1.2 アクセント指令開始時点 一部プロミネンスの付加により、進み傾向の見られる例
もあるが、全般的に、プロミネンス付加に伴う特段の特
徴は認められない。従って、ΔT1はOとみなすことが
できる。 1.3 アクセント指令終了時点 ΔT1と同様、プロミネンス付加に伴う特段の特徴は認
められない。従って、ΔT2はOとみなすことができる
。 1.4 アクセント変形開始時点 ΔTいΔTtと同様、プロミネンス付加に伴う特段の特
徴は認められない。従って、ΔT1□は0とみなすこと
ができる。
【2】パワー
パワーは、基本周波数との相関が強いことが知られてい
る。このことより、プロミネンスにより基本周波数が高
くなれば、それに伴いパワーの大きさも増大することが
予想される。そこで、式(1)で定義したアクセント指
令増分の差ΔAaとパワー比の差ΔPOwRとの相関を
調べてみた。ここで、パワー比の差ΔPOWRはアクセ
ント指令増分の差ΔAaと同様に次式で定義する。 ΔPOWR=PO1IRp−POWRI、(dB)
(12)ここで、POWRpは卓立させる語句に含ま
れる音節の母音部におけるパワー比の最大値、POWR
nは隣接韻律語(アクセント成分)に対応する語句に含
まれる音節の母音部におけるパワー比の最小値を表す。 第19図は横軸にアクセント指令増分の差ΔAa、縦軸
にパワー比の差ΔPOWI(を取り、データをプロット
したものである。ただし、データは1前後のポーズ、文
末のばらつき等の影響を受けるので、これらの影響を受
けていないデータのみをプロットした。 この場合、ΔDAaとΔPOwF+の間に強い相関が見
られる(相関係数ρ:o、g)。このときの回帰直線は
次式で表される。 ΔPOi=6ΔDAa+4 (dB) (13
)従って、式(13)を用いれば、プロミネンスに伴う
パワーの相対的増加分は、ΔDAaより一意的に定める
ことができる。 あるいは、若干の変動を許容して ΔPOVR=6ΔDAa+4±4 (dB) (1
3) ’の範囲内で値を定めても良い。 なお、この値は、基本周波数の増加によるパワーの自然
増加の値にほぼ等しいので、単に、音源信号(例えば予
測残差)の振幅値を基本周波数によらず一定値として合
成器に送り込むのみの簡易な処理でも良い。これにより
、合成音声波形のパワーは、基本周波数に依存して自然
に上昇する。
る。このことより、プロミネンスにより基本周波数が高
くなれば、それに伴いパワーの大きさも増大することが
予想される。そこで、式(1)で定義したアクセント指
令増分の差ΔAaとパワー比の差ΔPOwRとの相関を
調べてみた。ここで、パワー比の差ΔPOWRはアクセ
ント指令増分の差ΔAaと同様に次式で定義する。 ΔPOWR=PO1IRp−POWRI、(dB)
(12)ここで、POWRpは卓立させる語句に含ま
れる音節の母音部におけるパワー比の最大値、POWR
nは隣接韻律語(アクセント成分)に対応する語句に含
まれる音節の母音部におけるパワー比の最小値を表す。 第19図は横軸にアクセント指令増分の差ΔAa、縦軸
にパワー比の差ΔPOWI(を取り、データをプロット
したものである。ただし、データは1前後のポーズ、文
末のばらつき等の影響を受けるので、これらの影響を受
けていないデータのみをプロットした。 この場合、ΔDAaとΔPOwF+の間に強い相関が見
られる(相関係数ρ:o、g)。このときの回帰直線は
次式で表される。 ΔPOi=6ΔDAa+4 (dB) (13
)従って、式(13)を用いれば、プロミネンスに伴う
パワーの相対的増加分は、ΔDAaより一意的に定める
ことができる。 あるいは、若干の変動を許容して ΔPOVR=6ΔDAa+4±4 (dB) (1
3) ’の範囲内で値を定めても良い。 なお、この値は、基本周波数の増加によるパワーの自然
増加の値にほぼ等しいので、単に、音源信号(例えば予
測残差)の振幅値を基本周波数によらず一定値として合
成器に送り込むのみの簡易な処理でも良い。これにより
、合成音声波形のパワーは、基本周波数に依存して自然
に上昇する。
【3】時間構造
時間構造の主要因は、音素持続時間およびポーズ持続時
間であり、プロミネンスは、これらの持続時間の伸長に
より表現されうる(ポーズの発生は、ポーズ持続時間が
0から正数値に増加する特別な場合)。ここでは、(1
)ポーズ持続時間が音素持続時間に与える影響、および
(2)疑問文末尾における音素持続時間の伸長という観
点から調べてみた。 3.1 ポーズの影響 第20図は、ポーズ持続時間とポーズ直前の音素(母音
)持続時間の関係を示したものである。 ここで、ポーズ持続時間tp=o (縦軸)上のデータ
は、ポーズが発生していない場合のデータである。 また、音素持続時間は、時間変化率(TV)で表してい
る。図より1次のことがいえる。 (1)ポーズの発生は、有意の母音持続時間の伸長をも
たらす(有意水準1%)。伸長率のデータ平均値(話者
AB合わせて)は66%である。 また、発生したポーズの持続時間はほぼ100〜300
m5の間に分布しているが、基本的には任意に設定でき
る。 (2)ポーズが発生していない場合は、母音持続時間の
伸縮は見られない(有意水準5%)。 (3)平叙文の場合、プロミネンスの有無は、音素持続
時間に影響を与えない(有意水準5%)。 3.2 疑問文文末母音の伸長 第21図は、平叙文文末および疑問文文末の母音伸縮率
を示したものである。平叙文では時間の伸縮が認められ
ないのに対し、疑問文では平均78%の持続時間の伸長
が認められる(有意水準1%)。 第31図は、第4図の各分類に対応したプロミネンスを
生成するための韻律の各要素の値(強めあるいは弱め)
を自然音声を対象とした上記定量的解析結果に基づき求
めたものである。但し、第31図の数値例は、プロミネ
ンスの付加されていない場合の各制御値に対する増分、
あるいは増加率で表している。第31図のプロミネンス
生成規則に従って韻律制御パラメータを制御すれば、自
然なプロミネンスを合成音声に付与することが出来る。 第31図において、±″の記号より左側の数値は、その
制御パラメータの代表値であり、′±″の記号で数値の
変動範囲(はぼ1σに相当)を表している。すなわち、
この変動範囲内で数値を設定するかぎり、自然なプロミ
ネンスを生成することが出来ることを示している。なお
、第31図中のパラメータで、プロミネンスの付加され
てない部分を相対的に弱めることによっても同様の効果
を得ることができる。この場合は、特願平1−2147
99号公報で提案した韻律制御規則に従い、制御パラメ
ータ値を求め、上記式(7)〜(13)の定義式を用い
て、プロミネンス付加時の韻律制御パラメータ値を求め
ればよい。 今までは、−船釣に用いられるプロミネンスとしては、
主として文節全体を対象とする場合について検討してき
た。この中の特別な例として、しばしば用いられるもの
に、「助詞を含む文節」が挙げられる。これについては
、先行単語と後続の助詞の組合せにより種々のアクセン
ト結合を起すという点で、プロミネンスによる影響も独
特のものが有ると考えられる。そこで次に、助詞を含む
文節のプロミネンスの韻律的(基本周波数の)特徴を文
音声を解析することにより調べてみた。 第32図は、プロミネンスの有無により、名詞十助詞の
アクセント結合型がどのように変化するかを輿入ること
を目的として作成した発話原稿である。原稿には、現代
日本語で用いられる助詞のすべてのアクセント型に、先
行する二つのアクセント型(起伏型および平板型)の名
詞を結合させたすべての組合せの文例が含まれている。 第1図に解析結果を示す。これより、この話者の場合、
はとんどすへての例において、プロミネンスのない場合
のアクセント結合型を変化させずに、単にアクセント指
令の大きさを増大させることにより、プロミネンスを実
現する傾向が見られることがわかる。 次に、本発明による音声規則合成装置実施例を第1図お
よび第22図〜第32図により説明する。 第22図は任意文章の音声合成に適用できる音声合成に
適用できる音声規則合成装置の一実施例の全体構成を示
す。本実施例では、漢字仮名混じり文のテキストを入力
データとして与えれ′ば、それに対応する合成音声を出
力として得ることができる。処理手順は以下の通りであ
る。 まず入力テキストは、日本語解析部1の形態素解析手段
により、各単語に分解され、品詞が決定され、さらに読
みが決定される。なお、解析部1の構成については、例
えば特開昭59−98236号公報を参照のこと。次に
この結果に基づき、音声言語処理部2において、各単語
あるいは文節のアクセント型が決定される。なお、処理
部2の詳細構成については、例えば特公昭59−130
40号公報、特開昭59081697公報、特開昭61
−6693号公報を参照のこと。この中には、アクセン
ト結合規則(特開昭6l−6693)が含まれているの
で、本発明における助詞を含む文節のアクセント型も決
定することができる。すなわち、例えば、「僕ぐらい」
という文節のアクセント型は、゛「僕(名詞)J+「ぐ
らい(助詞)」にアクセント結合規則を適用することに
より決定される。この場合は、「ぼ*<(頭高型)」と
[ぐ*らい(頭高型)」(本はアクセント核の意味)の
アクセントが結合して、「ぼ*くぐらい(頭高型)」あ
るいは「ぼくぐ本らい(起伏型)」のいずれかのアクセ
ント型になる。 以上のような構文レベルの処理結果として、音節情報、
アクセント情報、プロミネンス情報などが得られる。な
お句や文章の区切りは、入力テキスト中の句読点等区切
り記号に基づいて決定される。文章中や文章間のポーズ
長は、読点や句点の後のスペースの数で指定できる。ま
た疑問文、命令文、願望文等文のタイプは、語尾の活用
によって判定することができる場合もあるし、あるいは
文章の終止に句点の代わりにそれぞれ「?」、「!!」
および「!」などの路上記号を使うことにより指定する
こともできる。例えば同じ音韻列「川を渡る」であって
も「川を渡る。」は平叙文であり、「川を渡る?」は疑
問文である。 以上の■音節情報、■アクセント情報、■ポーズ情報、
■句・文章区切り情報、■(必要ならば例えば品詞名等
の)文法情報、および■プロミネンス情報は、「音節コ
ード」と呼ばれる一連の数字によって表現される。音節
コードは制御パラメータ生成部3の入力情報である。 制御パラメータ生成部3では、アクセント、イントネー
ション、音韻持続時間、および音源パワ−(振幅)修正
値が規則により決定され、それに従ってピッチパターン
と音韻パラメータ時系列が生成される。ここで、音源パ
ワー修正値とは、強めの有無により、標準的な音源パワ
ーの値を増減するための係数である。この音源パワー修
正値は、強めの無い場合に対する倍率で与えても良いし
、絶対数値で与えても良い。また、アクセント型は、ア
クセント情報により知ることができる。アクセント情報
は、具体的にはアクセント核のある音韻(アクセントが
下降する直前の音韻)の直後にアクセントを示す音節コ
ード番号を挿入することによって与えている。ただし、
この音節コードがない場合は、平板型アクセントである
ことを示している。またイントネーションは、基本的に
は文章タイプ情報およびプロミネンス情報より定められ
る。ただし、語尾の音韻の並びの違いによる変形も加え
られる。例えば、願望文「川を渡りたい!」と「川を渡
りたいなあ!」とではイントネーション・パターンが異
なる。最終的なピッチパターンは、アクセント型とイン
トネーションの両者に基づいて生成される。ただし、後
に述べるプロミネンスを含有する文章については、アク
セント変形を伴うこともある。音韻持続時間は、子音の
場合は周囲条件の影響が少ないので、子音の種類ごとに
固有長として決定される。それに対して、母音の場合は
周囲条件によって様々な変形を受ける。 そのため、アクセント型、音節数、単語内の位置、直前
の子音の種類、その母音の種類などから持続時間を決定
する。これについては例えば特開昭59−81697号
公報を参照のこと。このようにして音韻持続時間が決定
されたら、CV(子音−母音連鎖)単位でファイルに登
録されている音韻パラメータ(生成源方式の場合はスペ
クトル包絡パラメータと音源パラメータ、波形合成方式
の場合は音声素片)を音節コードに対応させて抽出し、
配列する。 この際、長すぎれば持続時間内に収まるように切断する
。しかる後に、切断部あるいは隙間部を埋めるようにC
v単位間を補間(生成源方式ニスベクトル包絡パラメー
タは直線補間、音源パラメータは同一値の繰り返し、波
形合成方式:素片切り出し窓の最大値の補間)により接
続する(詳細は第27図を参照)。最後に、以上の処理
によって生成された基本周波数と音韻パラメータは、順
次音声合成部4に送られ、音声波形が出力される。 ここで、音声合成方式としては、例えば残差圧縮法を用
いればよい。残査圧縮法については、例えば特開昭60
−150100号公報、特開昭61−29639号公報
を参照のこと。この場合、音源パルスは基本的には、フ
レームごとに1ピッチ分の残差パルス(代表残差)を抽
出し、その代表残差を外から与えるピッチ周期の間隔で
並べることによって生成している。このとき外から与え
るピッチ周期が代表残差の長さより短ければ、その長さ
の差だけ代表残差の末尾を切り捨て、逆に長ければ、代
表残差の不足している区間だけ0を埋めている。第22
図には音声合成部4に残差圧縮法を用いた例を示してい
るが、勿論、音声合成方式は残差圧縮法に限定されない
。例えば、波形合成方式、特に素片編集方式を用いても
良い。 以上の処理は、以下に述べるプロミネンス生成規則を除
いて、すべて公知の手段により構成することができる。 以下では、本発明の最も重要な部分である、制御パラメ
ータ生成部3におけるプロミネンス生成規則の実施例を
第1図および第23図〜第32図を引用して示す。 プロミネンス情報は、以下の(1)〜(5)の情報から
抽出可能である。 (1)平叙文/疑問文等の文のタイプより(女形固有の
卓立) (2)構文情報より (3)旧情報/新情報、慣用的な口調。 (4)テキスト情報(カギ括弧、太字、アンダーライン
等)。 (5)意味情報(例:先行疑問文に対する答えの部分を
強め)。 上記(1)では、文章タイプ情報よりプロミネンスを実
現するパラメータを生成することができるのに対し、(
2)〜(5)では、音声言語処理部2等で、プロミネン
ス情報(音節コード表現)を生成しなければならない。 例えば上記(4)におけるカギ括弧からプロミネンス情
報を取得する場合、カギ括弧開きが検出されたら、アク
セント指令の開始時点と大きさ情報(あるいはプロミネ
ンスの分類情報(例えば第4図のような情報))を含有
する音節コードを発行し、カギ括弧開じが検出されたら
、アクセント指令の終了時点の情報を含有する音節コー
ドを発行すれば良い。また、(5)の場合は、意味解析
手段が必要となる。もし意味解析手段を用いないならば
、(4)で代用することになる。すなわち、人間が強め
たいところを上記のカギ括弧等によりテキスト内で指定
すれば良い。 はじめに女形固有の卓立を実現する規則の実施例を示す
。まず、第23図において、音声言語処理部2から得ら
れた音節コード列は、文章タイプ決定手段5に入力され
る。ここでは第一段階として、文章タイプ情報辞書6中
の語尾辞書に登録されている語尾形と音節コード列の文
末の形とを照合することにより、該当する文章タイプを
決定する。なお第23図における終止形は、現代文の場
合は動詞なら「つ」行で終わる語尾、形容詞なら「イ」
でおわる語尾等、国文法の規則に基いて定められる。命
令形の場合も同様に、現代文なら活用語尾が「工」行で
あることから定められる。以上の文章タイプの判定は、
品詞情報などの文法情報があれば、さらに確実となる。 ここでもし語尾の活用が終止形と判定された場合は、こ
の文章は必ずしも平叙文とは限らない。そこで第二段階
として、この場合は文章の終始記号(文末記号)を見に
行き、この記号の種類によって文章タイプを決定する(
例えば、「。」あるいは「、」なら平叙文、「?」なら
疑問文、「!!」なら命令文、「!」なら願望文、等)
。以上の文章タイプ決定手段5の処理手順の一例を第2
4図に示す。 第23図に戻り、文章タイプ決定手段5では、上で述べ
た文章タイプ情報のみが選択的に出力される。音節コー
ド列から音節情報抽出手段16によって抽出された音節
情報(例えば、「あ」、「い」、「う」等の音節の種類
を数字で表したもの)は、■音韻境界を決定するため、
および■ピッチパターンにおける音素成分生成のために
用いられる。すなわち、■については、音節情報をもと
に、音韻持続時間規則部9によって各音節の音韻持続時
間が決定され、これらを配列した形で音韻境界時刻が音
韻境界決定手段7により決定される。音韻境界時刻は、
一方ではLSPパラメータ等の音韻パラメータを生成す
るために用いられる。また■については、文章ピッチ制
御パラメータ生成部11において、音素制御機構パラメ
ータ値を決定するために用いられる。 先の文章タイプ情報は、イントネーション規則部8およ
び音源パワー(振幅)修正値計算手段15に入力され1
文章のタイプに従い、標準イントネーション(例えば平
叙文)からの変形が加えられる。変形には時間の変形と
、ピッチ振@(指令の大きさ)の変形、および音源パワ
ーあるいは振幅の変形の3種類がある。時間の変形は、
音韻境界決定手段7に作用し、音韻境界時刻に変更が加
えられる。他方指令の大きさの変形は、文章ピッチ制御
パラメータ生成部11に作用し、指令の大きさが変更さ
れるか、あるいは新たな女形指定指令や強調指令が追加
される。この際iR$イントネーションの制御パラメー
タはアクセント規則部10より供給される。なお文章ピ
ッチ制御パラメータ生成部11では音韻情報との時間的
整合をとるため、基準となる音韻境界時刻(タイミング
基準情報)を音韻境界決定手段7より得る。また音源パ
ワーの変形は、音源パワー(振幅)修正値計算手段15
に作用し、音源パワー値の修正値が計算され、音源生成
部に送られる。なお音源パワー値の修正値は、(12)
、 (13)、 (13)’式を用いて計算することが
できるが、基本周波数増大によるパワーの自然槽を利用
するのであるならば、修正処理を省略してもよい。 以上のイントネーションの規則は、規則テーブルをイン
トネーション規則部8に設けておき参照することにより
達成できる。かくして、プロミネンスのうち、女形固有
の卓立は、上記手段により実現される。 他方、意図的な卓立(上記(4)、(5))やその他の
デフォルトの卓立(上記(2)、(3)等)に対するプ
ロミネンス情報は、音節コード列の中からプロミネンス
情報抽出手段14により、プロミネンス情報のコードを
抽出し、このコードから得られる。プロミネンス情報は
、イントネーション規則部8と音源パワー(振幅)修正
値計算手段15に作用する。 ここで、音節コード列より、■文章タイプ情報、■音節
情報、■プロミネンス情報をそれぞれ抽出する方法の一
具体例を示す。例えば、音節コードの番号に応じ、第2
5図に示すように情報内容を定義しておけば、文章タイ
プ決定手段5、音節情報抽出手段16、プロミネンス情
報抽出手段14のそれぞれに数値大小判定機能を持たせ
ることにより、該当情報か否か判定できる。すなわち音
節コードが1〜400であるならば音節情報と判定、9
004〜9020であるならば文章タイプを与える情報
であるので、前述の方法により文章タイプ情報を決定す
ることが出来る。また、音節コートが9030〜903
9であるならばプロミネンス情報と判定、例えば下1桁
の数字にアクセント指令値情報を割り当てれば良い。−
例を挙げれば、音節コード下1桁の数字をIで表したと
き、プロミネンスの付加されてない場合のアクセント指
令の大きさに対する、プロミネンスによるアクセント指
令増分値DAaは次式により与えることができる。 DAa”O,II (
14)(14)式を用いれば、音節コードにより、アク
セント指令の大きさを0.0から0.9の範囲内で0.
1ステツプで増大させることができる。もちろんより小
きざみなステップでアクセント指令の大きさを変化させ
たい場合には、音節コードを他の値の範囲に割当て(例
えば9100〜9199)、下2桁にアクセント指令値
情報を割り当てれば良い。また、プロミネンスによるア
クセント指令の増大・減少をさせるタイミングは、例え
ば次のようにして決定することができる。まず、アクセ
ント指令開始時点を決定する音節境界の指定は、上記プ
ロミネンス情報をもつ音節コード(例えば9030〜9
039)を境界直前の音節に対応する音節コードと境界
直後の音節に対応する音節コードの間に挿入することに
より達成できる。次に、アクセント指令終了時点を決定
する音節境界の指定は。 プロミネンス終了を意味するコードとして例えば903
0を同様に境界直前の音節に対応する音節コードと境界
直後の音節に対応する音節コードの間に挿入することに
より達成できる。また、プロミネンスの開始あるいは終
了が高アクセントの領域で起きる場合、すなわちアクセ
ント変形型の場合は、アクセント変形を起こす音節境界
の指定は。 同様に境界直前直後の音節に対応する音節コードの間に
プロミネンスの開始あるいは終了のコードを挿入するこ
とにより達成できる。かくしてプロミネンスによるアク
セント指令開始・終了時点設定のタイミング基準時刻が
定まれば、実際の開始・終了時点はこの基準時刻からの
ずれ量としてタイミングテーブルから検索することによ
り求めることができる。第28図に一例を示す。 次に、パワーを制御しポーズを生成する方法の具体例を
示す。第22図では、音声合成部に生成源方式(例えば
残差圧縮法十LSP合成器)を用いた例を示しているが
、これから示す具体例は生成源方式に限定されない。勿
論波形合成方式でもまったく同じ考え方で波形振幅のパ
ワーを制御することが出来る。 第26図は、音声合成部4に残差圧縮法を用いた場合の
例を示している。スペクトル包絡パラメータは、LSP
パラメータ、PARCOR係数等、任意のパラメータを
利用出来る。ちなみに、図中の接続補間処理は、例えば
第27図のような処理手段により実現できる。音源パワ
ー(振幅)修正値計算手段15(第23図)で得られた
パワー値の平方根(振幅値で与えられるならばそのまま
の値)が有声音源生成部あるいは無声音源生成部に与え
らえ、残差(音源)振幅が修正される。修正値は。 実際の値で与える場合は、例えば時間不連続を防ぐため
に、フレームごとに、パワー実測値(例えば第5図〜第
11図)の平方根に近似した振幅包終曲線(例えば、第
30図)の値として与えれば良い。もし修正値を倍率で
与える場合は、合成単位が本来持っている自然音声の振
幅包絡形を活用出来るので1強調部に対応するフレーム
間のみで、合成単位の音源振幅値に指定した倍率を乗ず
れば良い。また所定持続時間のポーズを生成する場合は
、その時間の間だけ無音生成指令を発行して。 無音(0値)を出力すれば良い。 第29図は、音声合成部4に波形合成方式を用いた場合
の例を示している。この場合は、第23図の音源パワー
(振幅)修正値計算手段15は、波形パワー(振幅)修
正値計算手段と置き換えられるが、処理内容は、音源の
場合と全く同様である。違いは、単に実現値が異なるだ
けである。波形パワー(振1111)修正値計算手段で
得られたパワー値の平方根(振幅値で与えられるならば
そのままの値)が素片忘失酸部に与えられ、素片編集時
に素片振幅が修正される。修正値の時間変化パターンは
、上記残差圧縮法の場合と全く同様の考え方で与えられ
る。また、ポーズの生成方法も残差圧縮法の場合と同様
、所定時間長の0振幅波形を出力すれば実現出来る。 他の合成方式の場合も、各波形振幅制御手段に応じて、
全く同様の方法でパワー(振幅)制御が実現できる。 プロミネンスを具体的にどの様なパラメータ値により実
現するかを定めた韻律(ピッチ、パワー時間長)の制御
方法の一例を示したのが第31図である。なお、第31
図におけるプロミネンスを含有しない場合の基準値は、
例えば、アクセント指令の大きさおよび開始・終了時点
については、公知のアクセント成分生成規則により決定
すれば良い。あるいはより簡便な方法としては、アクセ
ント指令の大きさの基準値Aa”0.3=アクセント指
令開始・終了時点の基準音節境界からの相対値ΔT、=
ΔT、=ΔT工2=Oとしても実用上音質にほとんど支
障は無い。第31図は、自然音声の定量的解析結果(第
16図〜第21図)に基づき求めたものであるので、第
31図のプロミネンス生成規則に従った韻律制御により
音声を合成すれば、自然な強調感をもった合成音声が得
られる。勿論、第31図はパラメータ実現値の一例であ
り、これらの数値に限定されない。実際には、様々な強
めの変形がありうるので、それに対応した数値の変形の
可能性は無数に存在する。 第1図は、助詞を含む文節のプロミネンス生成規則を示
している。すなわち、前記のように、形態素解析とアク
セント結合規則により、「先行名詞+助詞」のアクセン
ト型を決定し、更に上記プロミネンス生成規則を適用す
ることにより、所望のプロミネンス含有文音声を得るこ
とができる。 この助詞を含む文節のプロミネンス生成規則も、自然音
声(第32図のテキスト)の解析により得られた結果に
基づいて作成されたものであるので極めて自然な合成音
声を得ることができる。 実際に第1図および第31図による韻律制御を実現する
具体例を第28図に示す。 本実施例では、プロミネンスのピッチによる強めあるい
は弱めをアクセント指令の増減により行う例を示したが
、勿論、前述のように、強調成分を用いて行っても良い
。この場合、例えば(4)〜(6)式によりパラメータ
値を変換しても良いし、新たにパラメータテーブルを作
り直しても良い。
間であり、プロミネンスは、これらの持続時間の伸長に
より表現されうる(ポーズの発生は、ポーズ持続時間が
0から正数値に増加する特別な場合)。ここでは、(1
)ポーズ持続時間が音素持続時間に与える影響、および
(2)疑問文末尾における音素持続時間の伸長という観
点から調べてみた。 3.1 ポーズの影響 第20図は、ポーズ持続時間とポーズ直前の音素(母音
)持続時間の関係を示したものである。 ここで、ポーズ持続時間tp=o (縦軸)上のデータ
は、ポーズが発生していない場合のデータである。 また、音素持続時間は、時間変化率(TV)で表してい
る。図より1次のことがいえる。 (1)ポーズの発生は、有意の母音持続時間の伸長をも
たらす(有意水準1%)。伸長率のデータ平均値(話者
AB合わせて)は66%である。 また、発生したポーズの持続時間はほぼ100〜300
m5の間に分布しているが、基本的には任意に設定でき
る。 (2)ポーズが発生していない場合は、母音持続時間の
伸縮は見られない(有意水準5%)。 (3)平叙文の場合、プロミネンスの有無は、音素持続
時間に影響を与えない(有意水準5%)。 3.2 疑問文文末母音の伸長 第21図は、平叙文文末および疑問文文末の母音伸縮率
を示したものである。平叙文では時間の伸縮が認められ
ないのに対し、疑問文では平均78%の持続時間の伸長
が認められる(有意水準1%)。 第31図は、第4図の各分類に対応したプロミネンスを
生成するための韻律の各要素の値(強めあるいは弱め)
を自然音声を対象とした上記定量的解析結果に基づき求
めたものである。但し、第31図の数値例は、プロミネ
ンスの付加されていない場合の各制御値に対する増分、
あるいは増加率で表している。第31図のプロミネンス
生成規則に従って韻律制御パラメータを制御すれば、自
然なプロミネンスを合成音声に付与することが出来る。 第31図において、±″の記号より左側の数値は、その
制御パラメータの代表値であり、′±″の記号で数値の
変動範囲(はぼ1σに相当)を表している。すなわち、
この変動範囲内で数値を設定するかぎり、自然なプロミ
ネンスを生成することが出来ることを示している。なお
、第31図中のパラメータで、プロミネンスの付加され
てない部分を相対的に弱めることによっても同様の効果
を得ることができる。この場合は、特願平1−2147
99号公報で提案した韻律制御規則に従い、制御パラメ
ータ値を求め、上記式(7)〜(13)の定義式を用い
て、プロミネンス付加時の韻律制御パラメータ値を求め
ればよい。 今までは、−船釣に用いられるプロミネンスとしては、
主として文節全体を対象とする場合について検討してき
た。この中の特別な例として、しばしば用いられるもの
に、「助詞を含む文節」が挙げられる。これについては
、先行単語と後続の助詞の組合せにより種々のアクセン
ト結合を起すという点で、プロミネンスによる影響も独
特のものが有ると考えられる。そこで次に、助詞を含む
文節のプロミネンスの韻律的(基本周波数の)特徴を文
音声を解析することにより調べてみた。 第32図は、プロミネンスの有無により、名詞十助詞の
アクセント結合型がどのように変化するかを輿入ること
を目的として作成した発話原稿である。原稿には、現代
日本語で用いられる助詞のすべてのアクセント型に、先
行する二つのアクセント型(起伏型および平板型)の名
詞を結合させたすべての組合せの文例が含まれている。 第1図に解析結果を示す。これより、この話者の場合、
はとんどすへての例において、プロミネンスのない場合
のアクセント結合型を変化させずに、単にアクセント指
令の大きさを増大させることにより、プロミネンスを実
現する傾向が見られることがわかる。 次に、本発明による音声規則合成装置実施例を第1図お
よび第22図〜第32図により説明する。 第22図は任意文章の音声合成に適用できる音声合成に
適用できる音声規則合成装置の一実施例の全体構成を示
す。本実施例では、漢字仮名混じり文のテキストを入力
データとして与えれ′ば、それに対応する合成音声を出
力として得ることができる。処理手順は以下の通りであ
る。 まず入力テキストは、日本語解析部1の形態素解析手段
により、各単語に分解され、品詞が決定され、さらに読
みが決定される。なお、解析部1の構成については、例
えば特開昭59−98236号公報を参照のこと。次に
この結果に基づき、音声言語処理部2において、各単語
あるいは文節のアクセント型が決定される。なお、処理
部2の詳細構成については、例えば特公昭59−130
40号公報、特開昭59081697公報、特開昭61
−6693号公報を参照のこと。この中には、アクセン
ト結合規則(特開昭6l−6693)が含まれているの
で、本発明における助詞を含む文節のアクセント型も決
定することができる。すなわち、例えば、「僕ぐらい」
という文節のアクセント型は、゛「僕(名詞)J+「ぐ
らい(助詞)」にアクセント結合規則を適用することに
より決定される。この場合は、「ぼ*<(頭高型)」と
[ぐ*らい(頭高型)」(本はアクセント核の意味)の
アクセントが結合して、「ぼ*くぐらい(頭高型)」あ
るいは「ぼくぐ本らい(起伏型)」のいずれかのアクセ
ント型になる。 以上のような構文レベルの処理結果として、音節情報、
アクセント情報、プロミネンス情報などが得られる。な
お句や文章の区切りは、入力テキスト中の句読点等区切
り記号に基づいて決定される。文章中や文章間のポーズ
長は、読点や句点の後のスペースの数で指定できる。ま
た疑問文、命令文、願望文等文のタイプは、語尾の活用
によって判定することができる場合もあるし、あるいは
文章の終止に句点の代わりにそれぞれ「?」、「!!」
および「!」などの路上記号を使うことにより指定する
こともできる。例えば同じ音韻列「川を渡る」であって
も「川を渡る。」は平叙文であり、「川を渡る?」は疑
問文である。 以上の■音節情報、■アクセント情報、■ポーズ情報、
■句・文章区切り情報、■(必要ならば例えば品詞名等
の)文法情報、および■プロミネンス情報は、「音節コ
ード」と呼ばれる一連の数字によって表現される。音節
コードは制御パラメータ生成部3の入力情報である。 制御パラメータ生成部3では、アクセント、イントネー
ション、音韻持続時間、および音源パワ−(振幅)修正
値が規則により決定され、それに従ってピッチパターン
と音韻パラメータ時系列が生成される。ここで、音源パ
ワー修正値とは、強めの有無により、標準的な音源パワ
ーの値を増減するための係数である。この音源パワー修
正値は、強めの無い場合に対する倍率で与えても良いし
、絶対数値で与えても良い。また、アクセント型は、ア
クセント情報により知ることができる。アクセント情報
は、具体的にはアクセント核のある音韻(アクセントが
下降する直前の音韻)の直後にアクセントを示す音節コ
ード番号を挿入することによって与えている。ただし、
この音節コードがない場合は、平板型アクセントである
ことを示している。またイントネーションは、基本的に
は文章タイプ情報およびプロミネンス情報より定められ
る。ただし、語尾の音韻の並びの違いによる変形も加え
られる。例えば、願望文「川を渡りたい!」と「川を渡
りたいなあ!」とではイントネーション・パターンが異
なる。最終的なピッチパターンは、アクセント型とイン
トネーションの両者に基づいて生成される。ただし、後
に述べるプロミネンスを含有する文章については、アク
セント変形を伴うこともある。音韻持続時間は、子音の
場合は周囲条件の影響が少ないので、子音の種類ごとに
固有長として決定される。それに対して、母音の場合は
周囲条件によって様々な変形を受ける。 そのため、アクセント型、音節数、単語内の位置、直前
の子音の種類、その母音の種類などから持続時間を決定
する。これについては例えば特開昭59−81697号
公報を参照のこと。このようにして音韻持続時間が決定
されたら、CV(子音−母音連鎖)単位でファイルに登
録されている音韻パラメータ(生成源方式の場合はスペ
クトル包絡パラメータと音源パラメータ、波形合成方式
の場合は音声素片)を音節コードに対応させて抽出し、
配列する。 この際、長すぎれば持続時間内に収まるように切断する
。しかる後に、切断部あるいは隙間部を埋めるようにC
v単位間を補間(生成源方式ニスベクトル包絡パラメー
タは直線補間、音源パラメータは同一値の繰り返し、波
形合成方式:素片切り出し窓の最大値の補間)により接
続する(詳細は第27図を参照)。最後に、以上の処理
によって生成された基本周波数と音韻パラメータは、順
次音声合成部4に送られ、音声波形が出力される。 ここで、音声合成方式としては、例えば残差圧縮法を用
いればよい。残査圧縮法については、例えば特開昭60
−150100号公報、特開昭61−29639号公報
を参照のこと。この場合、音源パルスは基本的には、フ
レームごとに1ピッチ分の残差パルス(代表残差)を抽
出し、その代表残差を外から与えるピッチ周期の間隔で
並べることによって生成している。このとき外から与え
るピッチ周期が代表残差の長さより短ければ、その長さ
の差だけ代表残差の末尾を切り捨て、逆に長ければ、代
表残差の不足している区間だけ0を埋めている。第22
図には音声合成部4に残差圧縮法を用いた例を示してい
るが、勿論、音声合成方式は残差圧縮法に限定されない
。例えば、波形合成方式、特に素片編集方式を用いても
良い。 以上の処理は、以下に述べるプロミネンス生成規則を除
いて、すべて公知の手段により構成することができる。 以下では、本発明の最も重要な部分である、制御パラメ
ータ生成部3におけるプロミネンス生成規則の実施例を
第1図および第23図〜第32図を引用して示す。 プロミネンス情報は、以下の(1)〜(5)の情報から
抽出可能である。 (1)平叙文/疑問文等の文のタイプより(女形固有の
卓立) (2)構文情報より (3)旧情報/新情報、慣用的な口調。 (4)テキスト情報(カギ括弧、太字、アンダーライン
等)。 (5)意味情報(例:先行疑問文に対する答えの部分を
強め)。 上記(1)では、文章タイプ情報よりプロミネンスを実
現するパラメータを生成することができるのに対し、(
2)〜(5)では、音声言語処理部2等で、プロミネン
ス情報(音節コード表現)を生成しなければならない。 例えば上記(4)におけるカギ括弧からプロミネンス情
報を取得する場合、カギ括弧開きが検出されたら、アク
セント指令の開始時点と大きさ情報(あるいはプロミネ
ンスの分類情報(例えば第4図のような情報))を含有
する音節コードを発行し、カギ括弧開じが検出されたら
、アクセント指令の終了時点の情報を含有する音節コー
ドを発行すれば良い。また、(5)の場合は、意味解析
手段が必要となる。もし意味解析手段を用いないならば
、(4)で代用することになる。すなわち、人間が強め
たいところを上記のカギ括弧等によりテキスト内で指定
すれば良い。 はじめに女形固有の卓立を実現する規則の実施例を示す
。まず、第23図において、音声言語処理部2から得ら
れた音節コード列は、文章タイプ決定手段5に入力され
る。ここでは第一段階として、文章タイプ情報辞書6中
の語尾辞書に登録されている語尾形と音節コード列の文
末の形とを照合することにより、該当する文章タイプを
決定する。なお第23図における終止形は、現代文の場
合は動詞なら「つ」行で終わる語尾、形容詞なら「イ」
でおわる語尾等、国文法の規則に基いて定められる。命
令形の場合も同様に、現代文なら活用語尾が「工」行で
あることから定められる。以上の文章タイプの判定は、
品詞情報などの文法情報があれば、さらに確実となる。 ここでもし語尾の活用が終止形と判定された場合は、こ
の文章は必ずしも平叙文とは限らない。そこで第二段階
として、この場合は文章の終始記号(文末記号)を見に
行き、この記号の種類によって文章タイプを決定する(
例えば、「。」あるいは「、」なら平叙文、「?」なら
疑問文、「!!」なら命令文、「!」なら願望文、等)
。以上の文章タイプ決定手段5の処理手順の一例を第2
4図に示す。 第23図に戻り、文章タイプ決定手段5では、上で述べ
た文章タイプ情報のみが選択的に出力される。音節コー
ド列から音節情報抽出手段16によって抽出された音節
情報(例えば、「あ」、「い」、「う」等の音節の種類
を数字で表したもの)は、■音韻境界を決定するため、
および■ピッチパターンにおける音素成分生成のために
用いられる。すなわち、■については、音節情報をもと
に、音韻持続時間規則部9によって各音節の音韻持続時
間が決定され、これらを配列した形で音韻境界時刻が音
韻境界決定手段7により決定される。音韻境界時刻は、
一方ではLSPパラメータ等の音韻パラメータを生成す
るために用いられる。また■については、文章ピッチ制
御パラメータ生成部11において、音素制御機構パラメ
ータ値を決定するために用いられる。 先の文章タイプ情報は、イントネーション規則部8およ
び音源パワー(振幅)修正値計算手段15に入力され1
文章のタイプに従い、標準イントネーション(例えば平
叙文)からの変形が加えられる。変形には時間の変形と
、ピッチ振@(指令の大きさ)の変形、および音源パワ
ーあるいは振幅の変形の3種類がある。時間の変形は、
音韻境界決定手段7に作用し、音韻境界時刻に変更が加
えられる。他方指令の大きさの変形は、文章ピッチ制御
パラメータ生成部11に作用し、指令の大きさが変更さ
れるか、あるいは新たな女形指定指令や強調指令が追加
される。この際iR$イントネーションの制御パラメー
タはアクセント規則部10より供給される。なお文章ピ
ッチ制御パラメータ生成部11では音韻情報との時間的
整合をとるため、基準となる音韻境界時刻(タイミング
基準情報)を音韻境界決定手段7より得る。また音源パ
ワーの変形は、音源パワー(振幅)修正値計算手段15
に作用し、音源パワー値の修正値が計算され、音源生成
部に送られる。なお音源パワー値の修正値は、(12)
、 (13)、 (13)’式を用いて計算することが
できるが、基本周波数増大によるパワーの自然槽を利用
するのであるならば、修正処理を省略してもよい。 以上のイントネーションの規則は、規則テーブルをイン
トネーション規則部8に設けておき参照することにより
達成できる。かくして、プロミネンスのうち、女形固有
の卓立は、上記手段により実現される。 他方、意図的な卓立(上記(4)、(5))やその他の
デフォルトの卓立(上記(2)、(3)等)に対するプ
ロミネンス情報は、音節コード列の中からプロミネンス
情報抽出手段14により、プロミネンス情報のコードを
抽出し、このコードから得られる。プロミネンス情報は
、イントネーション規則部8と音源パワー(振幅)修正
値計算手段15に作用する。 ここで、音節コード列より、■文章タイプ情報、■音節
情報、■プロミネンス情報をそれぞれ抽出する方法の一
具体例を示す。例えば、音節コードの番号に応じ、第2
5図に示すように情報内容を定義しておけば、文章タイ
プ決定手段5、音節情報抽出手段16、プロミネンス情
報抽出手段14のそれぞれに数値大小判定機能を持たせ
ることにより、該当情報か否か判定できる。すなわち音
節コードが1〜400であるならば音節情報と判定、9
004〜9020であるならば文章タイプを与える情報
であるので、前述の方法により文章タイプ情報を決定す
ることが出来る。また、音節コートが9030〜903
9であるならばプロミネンス情報と判定、例えば下1桁
の数字にアクセント指令値情報を割り当てれば良い。−
例を挙げれば、音節コード下1桁の数字をIで表したと
き、プロミネンスの付加されてない場合のアクセント指
令の大きさに対する、プロミネンスによるアクセント指
令増分値DAaは次式により与えることができる。 DAa”O,II (
14)(14)式を用いれば、音節コードにより、アク
セント指令の大きさを0.0から0.9の範囲内で0.
1ステツプで増大させることができる。もちろんより小
きざみなステップでアクセント指令の大きさを変化させ
たい場合には、音節コードを他の値の範囲に割当て(例
えば9100〜9199)、下2桁にアクセント指令値
情報を割り当てれば良い。また、プロミネンスによるア
クセント指令の増大・減少をさせるタイミングは、例え
ば次のようにして決定することができる。まず、アクセ
ント指令開始時点を決定する音節境界の指定は、上記プ
ロミネンス情報をもつ音節コード(例えば9030〜9
039)を境界直前の音節に対応する音節コードと境界
直後の音節に対応する音節コードの間に挿入することに
より達成できる。次に、アクセント指令終了時点を決定
する音節境界の指定は。 プロミネンス終了を意味するコードとして例えば903
0を同様に境界直前の音節に対応する音節コードと境界
直後の音節に対応する音節コードの間に挿入することに
より達成できる。また、プロミネンスの開始あるいは終
了が高アクセントの領域で起きる場合、すなわちアクセ
ント変形型の場合は、アクセント変形を起こす音節境界
の指定は。 同様に境界直前直後の音節に対応する音節コードの間に
プロミネンスの開始あるいは終了のコードを挿入するこ
とにより達成できる。かくしてプロミネンスによるアク
セント指令開始・終了時点設定のタイミング基準時刻が
定まれば、実際の開始・終了時点はこの基準時刻からの
ずれ量としてタイミングテーブルから検索することによ
り求めることができる。第28図に一例を示す。 次に、パワーを制御しポーズを生成する方法の具体例を
示す。第22図では、音声合成部に生成源方式(例えば
残差圧縮法十LSP合成器)を用いた例を示しているが
、これから示す具体例は生成源方式に限定されない。勿
論波形合成方式でもまったく同じ考え方で波形振幅のパ
ワーを制御することが出来る。 第26図は、音声合成部4に残差圧縮法を用いた場合の
例を示している。スペクトル包絡パラメータは、LSP
パラメータ、PARCOR係数等、任意のパラメータを
利用出来る。ちなみに、図中の接続補間処理は、例えば
第27図のような処理手段により実現できる。音源パワ
ー(振幅)修正値計算手段15(第23図)で得られた
パワー値の平方根(振幅値で与えられるならばそのまま
の値)が有声音源生成部あるいは無声音源生成部に与え
らえ、残差(音源)振幅が修正される。修正値は。 実際の値で与える場合は、例えば時間不連続を防ぐため
に、フレームごとに、パワー実測値(例えば第5図〜第
11図)の平方根に近似した振幅包終曲線(例えば、第
30図)の値として与えれば良い。もし修正値を倍率で
与える場合は、合成単位が本来持っている自然音声の振
幅包絡形を活用出来るので1強調部に対応するフレーム
間のみで、合成単位の音源振幅値に指定した倍率を乗ず
れば良い。また所定持続時間のポーズを生成する場合は
、その時間の間だけ無音生成指令を発行して。 無音(0値)を出力すれば良い。 第29図は、音声合成部4に波形合成方式を用いた場合
の例を示している。この場合は、第23図の音源パワー
(振幅)修正値計算手段15は、波形パワー(振幅)修
正値計算手段と置き換えられるが、処理内容は、音源の
場合と全く同様である。違いは、単に実現値が異なるだ
けである。波形パワー(振1111)修正値計算手段で
得られたパワー値の平方根(振幅値で与えられるならば
そのままの値)が素片忘失酸部に与えられ、素片編集時
に素片振幅が修正される。修正値の時間変化パターンは
、上記残差圧縮法の場合と全く同様の考え方で与えられ
る。また、ポーズの生成方法も残差圧縮法の場合と同様
、所定時間長の0振幅波形を出力すれば実現出来る。 他の合成方式の場合も、各波形振幅制御手段に応じて、
全く同様の方法でパワー(振幅)制御が実現できる。 プロミネンスを具体的にどの様なパラメータ値により実
現するかを定めた韻律(ピッチ、パワー時間長)の制御
方法の一例を示したのが第31図である。なお、第31
図におけるプロミネンスを含有しない場合の基準値は、
例えば、アクセント指令の大きさおよび開始・終了時点
については、公知のアクセント成分生成規則により決定
すれば良い。あるいはより簡便な方法としては、アクセ
ント指令の大きさの基準値Aa”0.3=アクセント指
令開始・終了時点の基準音節境界からの相対値ΔT、=
ΔT、=ΔT工2=Oとしても実用上音質にほとんど支
障は無い。第31図は、自然音声の定量的解析結果(第
16図〜第21図)に基づき求めたものであるので、第
31図のプロミネンス生成規則に従った韻律制御により
音声を合成すれば、自然な強調感をもった合成音声が得
られる。勿論、第31図はパラメータ実現値の一例であ
り、これらの数値に限定されない。実際には、様々な強
めの変形がありうるので、それに対応した数値の変形の
可能性は無数に存在する。 第1図は、助詞を含む文節のプロミネンス生成規則を示
している。すなわち、前記のように、形態素解析とアク
セント結合規則により、「先行名詞+助詞」のアクセン
ト型を決定し、更に上記プロミネンス生成規則を適用す
ることにより、所望のプロミネンス含有文音声を得るこ
とができる。 この助詞を含む文節のプロミネンス生成規則も、自然音
声(第32図のテキスト)の解析により得られた結果に
基づいて作成されたものであるので極めて自然な合成音
声を得ることができる。 実際に第1図および第31図による韻律制御を実現する
具体例を第28図に示す。 本実施例では、プロミネンスのピッチによる強めあるい
は弱めをアクセント指令の増減により行う例を示したが
、勿論、前述のように、強調成分を用いて行っても良い
。この場合、例えば(4)〜(6)式によりパラメータ
値を変換しても良いし、新たにパラメータテーブルを作
り直しても良い。
以上量したように1本発明は、人間の発声する自然な文
章音声に含まれる強めや弱めを規則合成しこおいて実現
する手段を提供するものである。本発明によれば、現実
の文章音声に起こりつるほとんど全ての場合(特に助詞
を含む文節)の強め、弱めを実現することができる。そ
のため、利用者が特別の注意を払うことなく発話内容を
容易に理解することができるので、利用者の負担を著し
く軽減することが可能となる。特に、例えば新聞校閲の
ような長時間作業時の疲労軽減効果は著しく、作業効率
向上により得られる利益は大きい。
章音声に含まれる強めや弱めを規則合成しこおいて実現
する手段を提供するものである。本発明によれば、現実
の文章音声に起こりつるほとんど全ての場合(特に助詞
を含む文節)の強め、弱めを実現することができる。そ
のため、利用者が特別の注意を払うことなく発話内容を
容易に理解することができるので、利用者の負担を著し
く軽減することが可能となる。特に、例えば新聞校閲の
ような長時間作業時の疲労軽減効果は著しく、作業効率
向上により得られる利益は大きい。
第1図は助詞を含む文節のプロミネンス生成規則を示す
図、第2図、第3図はピッチ制御機構を示す図、第4図
はプロミネンスの分類を示す図、第5図から第11図は
ピッチ制御機構モデルによる最良近似推定により制御パ
ラメータを求めた例を示す図、7第12図から第15図
は平叙文中の特定語句を卓立させた場合の解析結果を示
す図、第16図は平叙文中に含まれる意図的なプロミネ
ンスの大きさをプロットした図、第17図は意図的なプ
ロミネンスにおけるアクセント指令増分の差の値を先頭
文節についてのみプロットした図、第18図は文末文節
とその直前文節との間のアクセント指令の大きさの差を
プロットした図、第19図はアクセント指令増分の差と
パワー比の差の関係を示す図、第20図はポーズ持続時
間とポーズ直前の音素持続間の関係を示す図、第21図
は文末の母音伸縮率を示す図、第22図は本発明による
任意文章合成装置の全体構成を示す図、第23図は制御
パラメータ生成部を示す図、第24図は文章タイプ決定
手段における処理手順を示す図、第25図は音節コード
表を示す図、第26図は音声合成部に残差圧縮法を用い
た図、第27図はCv単位パラメータ読み出しからパラ
メータ接続補間までの処理概要を示す図、第28図は韻
律制御を実現する具体例を示す図、第29図は合成音声
部に波形合成方式を用いた図、第30図は振幅包絡曲線
を示す図、第31図はプロミネンス生成規則を示す図、
第32図はプロミネンス含有文発話原稿を示す図である
。 符号の説明 3:制御パラメータ生成部 8:イントネーション規則部 10:アクセント規則部 11:文章ピッチ制御パラメータ生成部12:ピッチパ
ターン生成部 14:プロミネンス情報抽出手段 15:音源パワー(振幅)修正値計算手段第2図 第3図 (a) ピッチ制御機構モデル (1)強調成分付加型 (2)アクセント変形型 (b) 音調による「強肩」を表現する二通りの考え方策4図 ■sy 1、吏Yp41 似大−丈j/lゎY坊丈。文7光
朔「Lも」 と I校長」 と牟−LJせる (b) に」 ヒ にテ1ンてり 茅 /θ 図 (C)41hItJFrrI7raし Lj+14rす1Jケtrtih (軸脣シErてCりjLk7セLi+りン(僕りJkl
餐り 7 〕1 図 第15図 0.0 0.5 時間 1.0 t (sl 第16図 (a)平叙文4 (b)疑問文 ゛元類δよひ又木又節は脈外している。 第17図 第18図 第19図 アクセント指令増分の差 八〇Aa ブロミネンス含有データにおける アクセント指令の大きさとパワーの関係第20図 ・、lal Δ・lll 口:lul マ:le
/ ○°lO7α3.12) 話者”A” 話者”B”ポーズ発生
時における直前音素持続時間の伸長第21図 疑問文文末における音素持続時間伸長(平叙文と比較)
第22図 第23図 (音源生成部へ) (首頴バラメ 処理部へ) 第24図 第25図 第26図 第27図
図、第2図、第3図はピッチ制御機構を示す図、第4図
はプロミネンスの分類を示す図、第5図から第11図は
ピッチ制御機構モデルによる最良近似推定により制御パ
ラメータを求めた例を示す図、7第12図から第15図
は平叙文中の特定語句を卓立させた場合の解析結果を示
す図、第16図は平叙文中に含まれる意図的なプロミネ
ンスの大きさをプロットした図、第17図は意図的なプ
ロミネンスにおけるアクセント指令増分の差の値を先頭
文節についてのみプロットした図、第18図は文末文節
とその直前文節との間のアクセント指令の大きさの差を
プロットした図、第19図はアクセント指令増分の差と
パワー比の差の関係を示す図、第20図はポーズ持続時
間とポーズ直前の音素持続間の関係を示す図、第21図
は文末の母音伸縮率を示す図、第22図は本発明による
任意文章合成装置の全体構成を示す図、第23図は制御
パラメータ生成部を示す図、第24図は文章タイプ決定
手段における処理手順を示す図、第25図は音節コード
表を示す図、第26図は音声合成部に残差圧縮法を用い
た図、第27図はCv単位パラメータ読み出しからパラ
メータ接続補間までの処理概要を示す図、第28図は韻
律制御を実現する具体例を示す図、第29図は合成音声
部に波形合成方式を用いた図、第30図は振幅包絡曲線
を示す図、第31図はプロミネンス生成規則を示す図、
第32図はプロミネンス含有文発話原稿を示す図である
。 符号の説明 3:制御パラメータ生成部 8:イントネーション規則部 10:アクセント規則部 11:文章ピッチ制御パラメータ生成部12:ピッチパ
ターン生成部 14:プロミネンス情報抽出手段 15:音源パワー(振幅)修正値計算手段第2図 第3図 (a) ピッチ制御機構モデル (1)強調成分付加型 (2)アクセント変形型 (b) 音調による「強肩」を表現する二通りの考え方策4図 ■sy 1、吏Yp41 似大−丈j/lゎY坊丈。文7光
朔「Lも」 と I校長」 と牟−LJせる (b) に」 ヒ にテ1ンてり 茅 /θ 図 (C)41hItJFrrI7raし Lj+14rす1Jケtrtih (軸脣シErてCりjLk7セLi+りン(僕りJkl
餐り 7 〕1 図 第15図 0.0 0.5 時間 1.0 t (sl 第16図 (a)平叙文4 (b)疑問文 ゛元類δよひ又木又節は脈外している。 第17図 第18図 第19図 アクセント指令増分の差 八〇Aa ブロミネンス含有データにおける アクセント指令の大きさとパワーの関係第20図 ・、lal Δ・lll 口:lul マ:le
/ ○°lO7α3.12) 話者”A” 話者”B”ポーズ発生
時における直前音素持続時間の伸長第21図 疑問文文末における音素持続時間伸長(平叙文と比較)
第22図 第23図 (音源生成部へ) (首頴バラメ 処理部へ) 第24図 第25図 第26図 第27図
Claims (1)
- 【特許請求の範囲】 1、助詞を含む入力文章を形態素解析する言語処理手段
と; 上記言語処理手段の出力に基づいて上記入力文章のタイ
プを判定し、該タイプに従って制御パラメータを生成す
る制御パラメータ生成部と該制御パラメータに応じて基
本周波数の時間変化パターン(以下略してピッチパター
ンと呼ぶ)を生成するピッチパターン生成部とを有する
第1の韻律制御手段であって、上記言語処理手段の出力
に基づいて助詞を含む文章のプロミネンスの分類を判定
し、自然音声の解析結果に基づいて上記プロミネンスの
分類対応であらかじめ求めた上記制御パラメータの変化
分に従って、上記制御パラメータを制御する第1の韻律
制御手段と; 上記言語処理手段の出力に基づいて上記入力文章に応じ
た音韻パラメータ列を生成し、該音韻パラメータ列と上
記第1の韻律制御手段で生成したピッチパターンとによ
り順次音声を合成する音声合成手段と; を有することを特徴とする音声規則合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2250172A JPH04130400A (ja) | 1990-09-21 | 1990-09-21 | 音声規則合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2250172A JPH04130400A (ja) | 1990-09-21 | 1990-09-21 | 音声規則合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04130400A true JPH04130400A (ja) | 1992-05-01 |
Family
ID=17203892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2250172A Pending JPH04130400A (ja) | 1990-09-21 | 1990-09-21 | 音声規則合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04130400A (ja) |
-
1990
- 1990-09-21 JP JP2250172A patent/JPH04130400A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
JPH086591A (ja) | 音声出力装置 | |
Bellegarda et al. | Statistical prosodic modeling: from corpus design to parameter estimation | |
JP2006227589A (ja) | 音声合成装置および音声合成方法 | |
Sagisaka | Speech synthesis from text | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JPS62138898A (ja) | 音声規則合成方式 | |
JPS5972494A (ja) | 規則合成方式 | |
JPH04130400A (ja) | 音声規則合成装置 | |
JP3078073B2 (ja) | 基本周波数パタン生成方法 | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
JP3031691B2 (ja) | 音声規則合成装置 | |
JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
JPH06214585A (ja) | 音声合成装置 | |
Karjalainen | Review of speech synthesis technology | |
JPH0473697A (ja) | 音声規則合成装置および方法 | |
O'Shaughnessy | Fundamental frequency by rule for a text-to-speech system | |
Muralishankar et al. | Human touch to Tamil speech synthesizer | |
JP3314116B2 (ja) | 音声規則合成装置 | |
JPH0378800A (ja) | 音声規則合成方式 | |
Zaki et al. | Rules based model for automatic synthesis of F0 variation for declarative arabic sentences | |
JPH09292897A (ja) | 音声合成装置 | |
JPH09146576A (ja) | 原文対音声の人工的神経回路網にもとづく韻律の合成装置 | |
Deng et al. | Speech Synthesis |