JPH0473697A - 音声規則合成装置および方法 - Google Patents

音声規則合成装置および方法

Info

Publication number
JPH0473697A
JPH0473697A JP2183947A JP18394790A JPH0473697A JP H0473697 A JPH0473697 A JP H0473697A JP 2183947 A JP2183947 A JP 2183947A JP 18394790 A JP18394790 A JP 18394790A JP H0473697 A JPH0473697 A JP H0473697A
Authority
JP
Japan
Prior art keywords
sentence
accent
prominence
value
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2183947A
Other languages
English (en)
Inventor
Shoichi Takeda
武田 昌一
Yoshiaki Asakawa
浅川 吉章
Hiroshi Ichikawa
市川 熹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2183947A priority Critical patent/JPH0473697A/ja
Publication of JPH0473697A publication Critical patent/JPH0473697A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
[産業上の利用分野1 本発明は文章音声の規則合成方法及び装置に係わり、特
にプロミネンス情報を利用した規則合成音声の音質改善
に関する。 [従来の技術1 本発明に関連した技術として、以下の文献が知られてい
る。 1、市川 黒、他;合成音声の自然性に関する実験的考
察、音響学会講演論文集 1〜3−8(昭42) 2、申出 剛、他;合成音声の音源特性制御による疑問
、強調の表現、電子通信学会大会 64(昭43) 3、特開昭59−081697号(単語規則合成に藤崎
モデルを使用) 4、特開昭60−074224号公報(段落ごとに発声
の調子を改め、更に自然な揺らぎを与える)5、特開昭
62−138898号公報(疑問文、命令文、願望文等
のイントネーションをU崎モデルにより生成) 6、 H,Fujisaki et、 al、、  ”
Analysis of voicefundamen
tal  frequency contours f
ordeclarative  5entences 
of Japanese、” J。 ^coust、 Soc、 Jpn、 (E)5.4 
(1984)。 7、佐藤利男;有声、無声破裂音の時間要素の差異につ
いて、日本音響学会誌第14巻第2号8、落合和雄;無
声破裂音におけるピッチ周波数変化の聴覚的検討、日本
音響学会講演論文集2−3−12 (昭43−11) 9、特開昭63−174100号公報(Immモモデル
更に音素制御機構、文形指定制御機構3および強調制御
機構を付加したモデル) 10、廣瀬啓吉、藤崎博也、他2;基本周波数パターン
生成過程モデルに基づく文章音声の合成、電子情報通信
学会論文誌 A、 J72−A、 1゜pp、32−4
0 (1989−1) 11、河井恒、廣瀬啓吉、藤崎博也;日本語音声の合成
における韻律的特徴の合成規則、電子情報通信学会技術
報告 音声、 5P88−12912、藤崎博也、廣瀬
啓吉、他2;連続音声中におけるアクセント成分の実現
、音声研究会資料。 13、武田昌−1市川 黒;4モ一ラ単語を対象とした
ピンチ制御機構モデルパラメータの推定、日本音響学会
講演論文集1−5−13 (昭57−3)これら文献を
参照して、従来の技術について簡単に説明する。 任意の文章あるいは単語のテキストより、これに対応す
る音声を合成する手法は「規則による音声合成」あるい
は単に「規則合成」と呼ばれている。規則合成の音声で
は、一般に、音韻のつながりや、持続時間、あるいはピ
ッチ(声の高さ)の変化などの特徴を外部から規則によ
り与えているため、自然の音声のものとは異なっている
。したがって、規則合成による音声は、自然の音声の特
徴をそのまま保存している、いわゆる「分析合成」によ
る音声の音質より悪い。規則合成音声の音質劣化の要因
としては、■音韻の明瞭性の低下に起因するものや、■
文章の抑揚の不自然さに起因するものが挙げられる。 文章の抑揚を支配する規則、すなわち韻律規則について
は、すでに日本語の平叙文、疑問文、命令文1強調およ
び種々の表情を持つ文章のイントネーションを生成する
規則が知られている(上記文献1.2を参照)。しかし
これらの文献で用いられたモデルは、音節単位の点ピッ
チ情報を与えるに過ぎないため、疑問文、命令文、願望
文の差異を表現するには不十分である。そのためにこの
ようなピッチパターン(基本周波数の時間変化パターン
)を与えて合成した音声の抑揚は不自然に聞こえる。 
種々の文章のイントネーションの差異を十分に表現する
ためには、音節内の基本周波数(ピッチ周波数)と時間
との関係を明確にする必要がある。このような音節内の
ピッチパターンを記述し、しかも時間構造を明確に定義
できるモデルとして、臨界制動2次線形系で記述される
「ピッチ制御機構モデル」が知られている。 このピッチ制御機構モデルを適用したものとして、単語
音声合成に適用したものが特開昭59−81697号に
、疑問文、命令文、願望文等の文章音声合成に適用した
ものが特開昭60−74224号に提案されており、か
なりの音質改善効果が認められている。 特開昭63−174100号公報は、更に、音韻明瞭性
の改善に効果的な音素レベルの局所的な揺らぎを表現す
る成分を付加したものである。また、疑問文に現れる尻
上がり調や、命令文、願望文等、様々な感情や表情に固
有な微妙な基本周波数の変化を表現する成分も付加され
ている。特開昭63−174100号では、これらの成
分を生成する修正型ピッチ制御機構モデルを用いて人間
らしい自然な抑揚感を持った音声を合成する方法を提供
している。 [発明が解決しようとする課題] 上述した各種のピッチ制御機構モデルのうち、音素制御
機構の導入により、合成音声の音韻明瞭性は改善される
に至った。しかし、感情や特別の表情の付かない通常の
文章では、発話の単調さ、機械的な感じは取り除かれて
いない。このような単調さや機械感は、特に合成音声シ
ステムを長時間利用する者にとって、大きな負担になり
、疲労をもたらす。これらの単調さや機械感を取り除か
ないかぎり、例えば新聞の校閲における読み合わせ作業
のような、長時間利用型のシステムへの適用に供するこ
とができない。 他方、人間の発声する自然音声を長時間開いても、疲労
感が少ない理由の一つは、発話の中で、局所的に強めた
り、逆に弱めたりして、発話に変化をつけているからで
ある。すなわち、人間は強めたいところでは、相対的に
声の高さを高め、声を大きくし、しかもゆっくりと話す
。逆に重要でないところでは、低く小さい声で、しかも
早口で曖昧に話そうとする。即ち、書き言葉における「
カギ括弧」や「太字」等に相当する強調表現を話し言葉
でも行っているのである。この強めや弱めによって、聞
く人は常に発話に注意を傾ける必要がなくなり、負担が
軽減する。 本発明は、このような自然音声が持つ強めや弱めを、規
則合成音声において実現する方法及び装置を提供するも
のである。
【課題を解決するための手段】
文音声における強めや弱めは、文中の他の部分との相対
的な強弱によって行われる。このように他の部分に対し
て相対的に引き立たせる(卓立させる)強めは、「プロ
ミネンス」あるいは「対比強調」と呼ばれている。 言語学的立場からプロミネンスを分類すると、第4図の
ようになる。本発明では、これらプロミネンスの韻律的
特徴を定量的に表現するための尺度を導入する。即ち、
プロミネンスの分類に対応して、自然音声の解析結果に
基づいて求めた韻律の制御パラメータを記憶するプロミ
ネンス生成規則を用い、該プロミネンス生成規則に従っ
て、プロミネンス付加時の韻律制御パラメータを制御す
る。 これらのプロミネンスは、音声情報処理的には、(1)
基本周波数、(2)音声波形振幅(パワー)、および(
3)時間長(音素あるいは「間」 (ポーズ)接続時間
)の増大や減少によって実現される。 特に、本発明では、■アクセント指令の大きさの制御に
よりプロミネンスを実現する。また、必要に応じて、■
ポーズの挿入による時間長の制御、あるいは■パワーの
大きさの制御を行なう。 パワーは、基本周波数との相関が強く、プロミネンスに
より基本周波数が高くなれば、それに伴いパワーの2大
きさも増大する。 [作用] 本発明のプロミネンス生成規則による韻律制御は、自然
音声の定量的解析に基づき求められたものなので、入力
文書(テキスト)から合成される音声に、人間らしい自
然な強め、弱めを与えることができる。本発明によれば
、現実の文章音声に起り得るほとんどすべての場合の強
め、弱めを実現することができる。従って、利用者が特
別の注意を払うことなく発話内容を容易に理解すること
ができ、利用者の負担を著しく軽減することが可能とな
る。特に、新聞校閲のような長時間の作業時の疲労軽減
効果は著しく、作業の効率向上が期待できる。 【実施例) まず、本発明の実施例で用いる「ピッチ制御機構モデル
」について説明する。 ここでピッチ制御機構モデルとは、以下に述べるような
モデルである。 声の高さの情報を与える基本周波数は、次のような過程
で生成されると考えるのがピッチ制御機構モデルである
。声帯振動の周波数、すなわち基本周波数は、脳からの
■フレーズの切り替わりごとに発せられるインパルス指
令と、■アクセントの上げ下げごとに発せられるステッ
プ指令によって制御される。そのとき、生理機構の遅れ
特性により、■のインパルス指令は文頭から文末に向か
う緩やかな下降曲線(フレーズ成分)となり、■のステ
ップ指令は局所的な起伏の激しい曲M(アクセント成分
)となる。これらの二つの成分は、各指令の臨界制動2
次線形系の応答としてモデル化され、対数基本周波数の
時間変化パターンは、これら同成分の和として表現され
る。第2図はピッチ制御機構モデルを示す。モデル基本
周波数F。 (1)(1は時刻)は、次式のように定式化される。 ■ j=1 ここで、Fmtnは最低周波数、■はフレーズ指令の数
、Aptは1番目のフレーズ指令の大きさ、Tnlは1
番目のフレーズ指令の時点、Jはアクセント指令の数、
Aajはj番目のアクセント指令の大きさ。 T、J、T2Jはそれぞれj番目のアクセント指令の開
始時点と終了時点である。また、Gp+(t)、 ca
a(t)はそれぞれ、フレーズ制御機構のインパルス応
答関数、アクセント制御機構のステップ応答関数であり
、次式で与えられる。 Gpi(t)” a tt exp(−a tt)u(
t)       (2)Gai (t)二Min[1
−(1+β、t) exp(−βjt)u(t)、 o
 J]ここで、α、は1番目のフレーズ指令に対するフ
レーズ制御機構の固有角周波数、βJはj番目のアクセ
ント指令に対するアクセント制御機構の固有角周波数、
u(t)は単位ステップ関数である。また、θ−はアク
セント成分の上限値であり、例えば0.9などに選ばれ
る。 なおここで、基本周波数(ピッチ周波数)およびピッチ
制御パラメータ(Apt、 A&J+Tal+ TIJ
IT2J、  α工、β−、Fm1n)の値の単位は次
のように定義される。すなわち、Fo(t)およびFo
。の単位は[Hz]、Tot l T、 JおよびT2
Jの単位は[Sコ、α、およびβ、の単位は[s−”]
とする。またAplおよびAajの値は、基本周波数お
よびピッチ制御パラメータの値の単位を上記のように定
めたときの値を用いる。 解析の方法としては、最適化法が用いられている。すな
わち、上記ピッチ制御機構モデルにより生成したピッチ
パターンと原音声の分析・抽出による実測値との誤差が
最小となるようなピッチ制御パラメータを求めることに
より、ピッチパターンの最良近似推定が行なわれる。 次に、修正型ピッチ制御機構モデルについて説明する。 第3図(a)は修正型ピッチ制御機構モデルを示す。 この修正型モデルの特徴は、■フレーズ制御機構および
■アクセント制御機構から構成されるモデルに、更に■
音素制御機構、■文形指定制御機構、および■強調制御
機構の3つの制御機構を付加したことである。これら■
〜■の3つの制御機構の導入により、ピッチパターン上
に様々な揺らぎ成分を付加することが出来る。 すなわち、上記■音素制御機構は、音素ごとの局所的な
基本周波数の揺らぎの成分を生成する機構で、例えば有
声子音/d/、/m/、/n/+/r/+/11/等の
局所的な基本周波数の低下や、無声破裂音へへへ/等の
後続母音への入り渡り部にしばしば見られる高基本周波
数からの下降特性を表現することが出来る。また■文形
指定制御機構は、疑問文の文末の基本周波数の尻上がり
を表現する成分を生成する機構である。そして■強調制
御機構は、命令文や願望文等、様々な感情や表情を表現
する成分を生成することを目的とした機構である。 上記修正型ピッチ制御機構モデルを簡単に記述する式と
しては、例えば以下に示す(i)〜(幅)式を用いれば
良い。 ■フレーズ制御機構: Gp+ (t)=a tt exp(−a tt)u(
t)       (i )t  :時刻 α、=i番目の固有角周波数 、(1):単位ステップ関数 ■アクセント制御機構: GaJ(t)=Min[1−(1+βat) exp(
−βJt)u(t)、θ、](ji) βJ :j番目の固有角周波数 θJ :j番目の上限値 ■音素制御機構: Gak(t)−Min[1−(1+γht) exp(
−Ykt)u(t)+φk](jii) あるいは czb(t)=exp(−y kt)u(t)    
     (iv)γ、=に番目の固有角周波数 φ、二に番目の底の値 ■女形指定制御機構: Gtt (t)=Min[1−(1+ζat) exp
(−ζtt)u(t)、 Ot*](V) 4区 :1番目の固有角周波数 θを慮:1番目の上限値 ■強調制御機構: Gss(t)=Mxn[1−(1+ ηat)  ex
p(−71、t)u(t)、OSsコ(vi) ηarm番目の固有角周波数 Gss:rn番目の上限値 ピッチパターン: ■ j=1 に ÷Σ AZh(Glk(t−T:+h)−Gffih(
t−Tnk))k=1 +Σ Ai處(Gtt (t−75m)−Gt露(t−
Tsm))1=1 +Σ As−(Gs+a (t−T、+ −)−Gs−
(t−Ts J)m:1 ((■)式のGik(t)使用の場合)  (vii)
あるいは ■ j=1 に +Σ AzkGzh(t−T3k) k=1 +Σ Att(Gtt(t−75g)−Gt□(t−T
cm))1=1 と +Σ AsjGs、(t−Ttj−Gsjt−Tej)
I11=1 ((iV)式のGzh(t)使用の場合)  (vFi
i)ここで、 Flit nは最低周波数。 ■はフレーズ指令の数、Aprはj番目のフレーズ指令
の大きさ、TOIはi番目のフレーズ指令の時点、Jは
アクセント指令の数、Aajはj番目のアクセント指令
の大きさ、Tri、T2Jはそれぞれj番目のアクセン
ト指令の開始時点と終了時点、Kは音素指令の数、Af
bはに番目の音素指令の大きさ、T3 k、 74 k
はそれぞれに番目の音素指令の開始時点と終了時点、 Lは女形指定指令の数、Avtは]番目の女形指定指令
の大きさ、1口、T1はそれぞれ1番目の女形指定指令
の開始時点と終了時点、 Hは強調指令の数、Assはm番目の強調指令の大きさ
、T7+a、romはそれぞれm番「]の強調指令の開
始時点と終了時点である。 ここで(i)〜(■)式の各パラメータの単位は第2図
で説明したピッチ制御機構に準じて定められる。勿論具
体的に実現する式としては、上記(i)〜(viii)
式のみに限定されない。また、文章音声の性質や制御方
式の選択により、(i)〜(vj)式の任意の制御機構
の組み合わせでピッチパターンを生成することが出来る
。例えば、強めを強調成分を用いて表現するならば、ア
クセント指令と強調指令の関係は第3図(b)の(1)
のように重畳形になる。しかし、これらの指令により得
られるピッチパターンと同一のピッチパターンを同図(
b)の(2)のように、アクセント指令のみによっても
得ることが出来る。この様に一つのアクセント指令終了
時点で、別の指令値に階段状に変化することを「アクセ
ント変形」と呼んでいる。「アクセント成分に重畳され
た強調成分」と「アクセント変形」とは、 Aa□=AajAs               (
4)T12=T7.                
(5)T・パT・・               (
6)の関係により相互に変換が可能である。 モデルパラメータの推定(解析)は、第2図のピッチ制
御機構モデルの場合と同じく最適化法により実行するこ
とが出来る。 第5図〜第11図は、上記ピッチ制御機構モデルによる
最良近似推定により制御パラメータを求めた例であり、
第4図のプロミネンスの分類に対応している。なお、本
解析においては、強めをアクセント変形型(第3図(b
)の(2))で表現しているが、勿論強調成分付加型(
第3図(b)の(1))で表現しても良い。 第5図〜第11図より、強めのある文章では、強めのな
い場合に比して、卓立している部分の(1)アクセント
指令の大きさ、(2)パワー、あるいは(3)音素持続
時間が増大し、場合によってはポーズが発生しているこ
とがわかる。また逆に、平叙文の文末弱めのように、(
1)アクセント指令の大きさ、あるいは(2)パワーが
減少する場合もある。 したがって、プロミネンスによる強め、あるいは弱めは
、これら(1)−(3)(これら(1)〜(3)は総称
して「韻律」と呼ばれている)の各値を増大させたり、
逆に減少させることにより実現される。韻律の各要素(
1)〜(3)は、単独で増大、減少する場合もあるし、
組合せにより増大、減少する場合もある。当然のことな
がら1組み合わせにより増大、減少させた場合の方が卓
立の効果は大きくなる。 本発明では、上記プロミネンスの韻律的特徴を定量的に
表現するための尺度を導入する。すなわち、強めのない
文章(参照音声)を基準にプロミネンス含有文(対象音
声)の強めの位置と度合いを表す尺度として、以下の諸
量を定義する。 (1)Fo比(FOR) :参照音声の基本周波数Fo
rに対する対象音声の基本周波数F。Xの比で2次式に
より定義する。ただし、基本周波数は。 藤崎モデルにより推定した値を用いた。 FOR=201og(F、x/For)  (dB) 
       (7)(2)アクセント指令増分(DA
a) :参照音声のアクセント指令の大きさA□に対す
る対象音声のアクセント指令の大きさAaxの増分で2
次式により定義する。 DAa”Aax−Aar              
 (8)(3)パワー比(poすR):参照音声のパワ
ーP、に対する対象音声のパワーP、の比で2次式によ
り定義する。 POWR=101og(Px/P、)  (dB)  
      (9)(4)時間変化率(TIME警AR
P) :参照音声に対する対象音声の時間伸縮の度合い
を表す。いま参照音声と対象音声の対応する音素の持続
時間をそれぞれTr(1)+丁、(i) (iはi番目
の音素の意味)としてT x′iti目の音素の時間変
化率Tli’(i)を次式で定義する。 TW(i)”(Tx(i)−Tr(i))/Tr(i)
xloo (%)  (10)第12図〜第15図は、
文章「彼の妹は起きる」の「妹は」を卓立させた場合の
解析結果の例を示したものである。この中で、第14図
は参照音声の音素/ポーズ持続時間を横軸に、対象音声
の同持続時間を縦軸に取り、対応点の軌跡を二次元平面
にプロットした2時間伸縮パターンである。グラフ中の
一点鎖線は、音素境界時刻を表す。また、第15図は前
述(1)〜(4)の諸量の時間変化パターンを示してい
る。ただし時間軸は参照音声を基準としている。 第12図〜第15図の例では、■アクセン1−指令の大
きさの増大と相対的弱め(第12.13゜15図)、■
直前にポーズの挿入(第14図の時間伸縮パターンの垂
的の部分)と直前音素持続時間の伸長(第14..15
図)、■パワーの増大と相対的弱め(第12.13.1
5図)、によりプロミネンスを実現している。 上記韻律的特徴の尺度を用いて、プロミネンス定量解析
結果をまとめると以下のようになる。 【11基本周波数 プロミネンスの基本周波数に関する特徴をアクセント指
令の大きさAa、開始時点T1、終了時点T2、および
アクセント変形開始時点T1□について調べる。なお、
アクセント開始・終了、アクセント変形開始時点は、そ
れぞれアクセントが低から高に上昇する音節境界、高か
ら低に下降する音節境界、および高から他の高に変化す
る音節境界時刻を基準とした値ΔT1.6丁2、および
ΔT1□として求めている。ただし、頭高型アクセント
や先頭音節の卓立の場合は、先頭音節始端時刻をΔT1
計測の基準時刻とし、平板型あるいは尾高型アクセント
や末尾音節の卓立の場合は、末尾音節終端時刻をΔT2
を計測の基準時刻とする。 1.1 アクセント指令の大きさ 1.1.1  意図的なプロミネンス 基本周波数による強めの度合いを表す尺度はアクセント
指令増分DAaであるが、プロミネンスは、卓立させる
アクセント指令そのものの増大ではなく、その前後のア
クセント指令の大きさを相対的に小さくすることによっ
て実現される場合もある。 この場合は、DAaは大きな値を取らない。そこで、基
本周波数の値によるプロミネンス効果を表す尺度として
1次式で定義するアクセント指令増分の差により評価す
る。 ΔDAa=DAap−DAan           
 (11)ここで、DAapは卓立させるアクセント成
分の指令増分、DAanは卓立させるアクセント成分に
隣接するアクセント成分の指令増分のうち小さい方の値
を表す。 第16図(a)は平叙文中に含まれる意図的なプロミネ
ンスの大きさをΔDAaで表してプロットしたものであ
る。ここで、N−Nはプロミネンスにポーズが伴わない
場合、N−Pはプロミネンスとともにポーズが発生する
場合を意味する。ただし、ポーズは、卓立させる語句の
直前に発生する場合と、直後に発生する場合の二通りが
ある。図より次のことがわかる。 (1)アクセント指令増分の差ΔDAaの値は、ポーズ
の発声の有無に影響されない(有意水準5%で検定)。 (2)アクセント指令増分の差ΔDAaの値は、韻律語
がアクセント変形(accent 5andhi )を
起こしているか否かに影響される。すなわちアクセント
型の影響を受ける(有意水準1%)。 1.1.2  疑問文文末強め 第16図(b)は疑問文の文末韻律語のアクセント指令
増分の差をプロットしたものである。図より疑問文文末
強めの傾向が見られる。 1.1.3  先頭文節のプロミネンス第17図(a)
は意図的なプロミネンスにおけるアクセント指令増分の
差の値を先頭文節についてのみプロットしたものである
。アクセント変形型でない場合、他の文節についてのア
クセント指令増分の差の値よりも小さい。これは、参照
用の文章の先頭文節にデフォルトのプロミネンスが存在
するためと考えられる。 そこで、デフォルトのプロミネンスの存否を確認するた
めに、先頭文節に意図的なプロミネンスが付加されてい
ない文章について、先頭文節のアクセント指令の大きさ
Aalと第2文節のアクセント指令の大きさAa2の差
の値を調べてみた。第17図(b)は平叙文(Deal
)と疑問文(Int)に分けてAal−Aa2の値をプ
ロットしたものである。図より、平微文についてはデフ
ォルトのプロミネンスの存在の傾向が見られるが、疑問
文については見られない。 1.1.4  平叙文文末弱め 第18図は、平叙文文末弱めの存否を確認するために、
文末文節のアクセント指令の大きさAajとその直前文
節のアクセント指令の大きさAajxの差の値をプロッ
トしたものである。図より、3文節文章の場合は平叙文
文末弱めの存在はJ、zめられないが、2文節文章では
認められる。但し、2文節文章の場合は、先頭文節のデ
フォルトのプロミネンスの影響込みの結果である。 1.2 アクセント指令開始時点 一部プロミネンスの付加により、進み傾向の見られる例
もあるが、全般的に、プロミネンス付加に伴う特段の特
徴は認められない。従って、ΔT工は0とみなすことが
できる。 1.3 アクセント指令終了時点 Δ丁□と同様、プロミネンス付加に伴う特段の特徴は認
められない。従って、Δ丁、は0とみなすことができる
。 1.4 アクセン)・変形開始時点 ΔT□、ΔT2と同様、プロミネンス付加に伴う特段の
特徴は認められない。従って、ΔT12はOとみなすこ
とができる。 [2]パワー パワーは、基本周波数との相関が強いことが知られてい
る。このことより、プロミネンスによりで定義したアク
セント指令増分の差Δ”flaとパワー比の差ΔPOW
Rとの相関を調べてみた。ここで、パ浪 ワー比の差ΔPOvRはアクセント指令増分の差ΔAa
と同様に次式で定義する。 ΔPOVR:POIIRp−POWR11(dB)  
               (12)ここで、po
wRpは卓立させる語句に含まれる音節の母音部におけ
るパワー比の最大値、POWRl、は隣接韻律語(アク
セント成分)に対応する語句に含まれる音節の母音部に
おけるパワー比の最小値を表す。 第19図は横軸にアクセント指令増分の差Δtfla、
縦軸にパワー比の差ΔPOVRを取り、データをプロッ
トしたものである。ただし、データは、前後のポーズ、
文末のばらつき等の影響を受けるので、これらの影響を
受けていないデータのみをプロットした。 この場合、ΔDAaとΔPOWRの間に強い相関が見ら
れる(相関係数ρ功、8)。このときの回帰直線は次式
で表される。 ΔPOWR=6ΔDAa+4 (dB)       
   (13)従って、式(13)を用い4しば、プロ
ミネンスに伴うパワーの相対的増加分は、ΔDAaより
一意的に定めることができる。 あるいは、若干の変動を許容して ΔPOすR=6ΔDAa+4±4 (dB)     
   (13) ’の範囲内で値を定めても良い。 なお、この値は、基本周波数の増加によるパワーの自然
増加の値にほぼ等しいので、単に、音源信号(例えば予
測残差)の振幅値を基本周波数によらず一定値として合
成器に送り込むのみの簡易な処理でも良い。これにより
、合成音声波形のパワーは、基本周波数に依存して自然
に上昇する。 [31時間構造 時間構造の主要因は、音素持続時間およびポーズ持続時
間であり、プロミネンスは、これらの持続時間の伸長に
より表現されうる(ポーズの発生は、ポーズ持続時間が
Oから正数値に増加する特別な場合)。ここでは、(1
)ポーズ持続時間が音素持続時間に与える影響、および
(2)疑問文末尾における音素持続時間の伸長という観
点から調べてみた。 3.1 ポーズの影響 第20図は、ポーズ持続時間とポーズ直前の音素(母音
)持続時間の関係を示したものである。 ここで、ポーズ持続時間tp=0 (縦軸)上のデータ
は、ポーズが発生していない場合のデータである。 また、音素持続時間は、時間変化率(Tlj)で表して
いる。図より、次のことがいえる。 (1)ポーズの発生は、有意の母音持続時間の伸長をも
たらす(有意水準1%)。伸長率のデータ平均値(話者
AB合わせて)は66%である。また、発生したポーズ
の持続時間はほぼ100〜300m5の間に分布してい
るが、基本的には任意に設定できる。 (2)ポーズが発生していない場合は、母音持続時間の
伸縮は見られない(有意水準5%)。 (3)平叙文の場合、プロミネンスの有無は、音素持続
時間に影響を与えない(有意水準5%)。 3.2 疑問文文末母音の伸長 第21図は、平叙文文末および疑問文文末の母音伸縮率
を示したものである。平叙文では時間の伸縮が認められ
ないのに対し、疑問文では平均78%の持続時間の伸長
が認められる(有意水準1%)。 第1図は、第4図の各分類に対応したプロミネンスを生
成するための韻律の各要素の値(強めあるいは弱め)を
自然音声を対象とした上記定量的解析結果に基づき求め
たものである。但し、第1図の数値例は、プロミネンス
の付加されていない場合の各制御値に対する増分、ある
いは増加率で表している。第1図のプロミネンス生成規
則に従って韻律制御パラメータを制御すれば、自然なプ
ロミネンスを合成音声に付与することが出来る。 第1図において、±″の記号より左側の数値は、その制
御パラメータの代表値であり、±′″の記号で数値の変
動範囲(はぼ1σに相当)を表している。すなわち、こ
の変動範囲内で数値を設定するかぎり、自然なプロミネ
ンスを生成することが出来ることを示している。なお、
第1図中のパラメータで、プロミネンスの付加されてな
い部分を相対的に弱めることによっても同様の効果を得
ることができる。この場合は、特願平1−214799
号で提案した韻律制御規則に従い、制御パラメータ値を
求め、上記式(7)〜(13)の定義式を用いて、プロ
ミネンス付加時の韻律制御パラメータ値を求めればよい
。 次に、本発明による音声規則合成装置の実施例を第1図
および第22図〜第30図により説明する。 第22図は任意文章の音声合成に適用できる音声規則合
成装置の一実施例の全体構成を示す。本実施例では、漢
字仮名混じり文のテキストを入力データとして与えれば
、それに対応する合成音声を出力として得ることができ
る。処理手順は以下の通りである。 まず入力テキストは、日本語解析部1の形態素解析手段
により、各単語に分解され、品詞が決定され、さらに読
みが決定される。なお、解析部1の構成については、例
えば特開昭59−98236号公報を参照のこと。次に
この結果に基づき、音声言語処理部2において、各単語
あるいは文節のアクセント型が決定される。なお、処理
部2の詳細構成については、例えば特公昭59−130
40号公報、特開昭59−081697号公報、特開昭
61−6693号公報を参照のこと。以上のような構文
レベルの処理結果として、音節情報、アクセント情報、
プロミネンス情報などが得られる。なお句や文章の区切
りは、入力テキスト中の句読点等区切り記号に基づいて
決定される。文章中や文章間のポーズ長は、読点や句点
の後のスペースの数で指定できる。また疑問文、命令文
、願望文等文のタイプは、語尾の活用によって判定する
ことができる場合もあるし、あるいは文章の終止に句点
の代わりにそれぞれ「?」、「!!」および「!」など
の線上記号を使うことにより指定することもできる。例
えば同じ音韻列「川を渡る」であっても「川を渡る。」
は平叙文であり、「川を渡る?」は疑問文である。 以上の■音節情報、■アクセント情報、■ポーズ情報、
0句・文章区切り情報、■(必要ならば例えば品詞基等
の)文法情報、および■プロミネンス情報は、「音節コ
ードJと呼ばれる一連の数字によって表現される。音節
コードは制御パラメータ生成部3の入力情報である。 制御パラメータ生成部3では、アクセント、イントネー
ション、音韻持続時間、および音源パワー(振@)修正
値が規則により決定され、それに従ってピッチパターン
と音韻パラメータ時系列が生成される。ここで、音源パ
ワー修正値とは、強めの有無により、標準的な音源パワ
ーの値を増減するための係数である。この音源パワー修
正値は。 強めの無い場合に対する倍率で与えても良いし、絶対数
値で与えても良い。また、アクセント型は、アクセント
情報により知ることができる。アクセント情報は、具体
的にはアクセント核のある音韻(アクセントが下降する
直前の音韻)の直後にアクセントを示す音節コード番号
を挿入することによって与えている。ただし、この音節
コートがない場合は、平板型アクセントであることを示
している。またイントネーションは、基本的には文章タ
イプ情報およびプロミネンス情報より定められる。ただ
し、語尾の音韻の並びの違いによる変形も加えられる。 例えば、願望文「川を渡りたい!」と「川を渡りたいな
あ!」とではイントネーション・パターンが異なる。最
終的なピッチパターンは、アクセント型とイントネーシ
ョンの両者に基づいて生成される。ただし、後に述べる
プロミネンスを含有する文章については、アクセント変
形を伴うこともある。音韻持続時間は、子音の場合は周
囲条件の影響が少ないので、子音の種類ごとに固有長と
して決定される。それに対して、母音の場合は周囲条件
によって様々な変形を受ける。 そのため、アクセント型、音節数、単語内の位置、直前
の子音の種類、その母音の種類などから持続時間を決定
する。これについては例えば、特開昭59−08169
7号公報を参照のこと。このようにして音韻持続時間が
決定されたら、C■(子音−母音連鎖)単位でファイル
に登録されている音韻パラメータ(生成源方式の場合は
スペクトル包絡パラメータと音源パラメータ、波形合成
方式の場合は音声素片)を音節コードに対応させて抽出
し、配列する。この際、長すぎれば持続時間内に収まる
ように切断する。しかる後に、切断部あるいは隙間部を
埋めるようにCv単位間を補間(生成源方式ニスベクト
ル包絡パラメータは直線補間、音源パラメータは同一値
の繰り返し、波形合成方式:素片切り出し窓の最大値の
補間)により接続する(詳細は第27図を参照)。最後
に1以上の処理によって生成された基本周波数と音韻パ
ラメータは、順次音声合成部4に送られ、音声波形が出
力される。ここで、音声合成方式としては、例えば残差
圧縮法を用いればよい。残差圧縮法については、例えば
特開昭60−150100号公報、特開昭61−296
398号公報を参照のこと。この場合、音源パルスは基
本的には、フレームごとに1ピッチ分の残差パルス(代
表残差)を抽出し、その代表残差を外から与えるピッチ
周期の間隔で並へることによって生成している。このと
き外から与えるピッチ周期が代表残差の長さより短けれ
ば、その長さの差だけ代表残差の末尾を切り捨て、逆に
長ければ1代表残差の不足している区間だけOを埋めて
いる。第22図には音声合成部4に残差圧縮法を用いた
例を示しているが、勿論、音声合成方式は残差圧縮法に
限定されない。例えば、波形合成方式、特に素片編集方
式を用いても良い。 以上の処理は、以下に述べるプロミネンス生成規則を除
いて、すべて公知の手段により構成することができる。 以下では、本発明の最も重要な部分である、制御パラメ
ータ生成部3におけるプロミネンス生成規則の説明を中
心に第23図〜第30図を引用して示す。 プロミネンス情報は、以下の(1)〜(5)の情報から
抽出可能である。 (1)平叙文/疑問文等の文のタイプより(女形固有の
卓立) (2)構文情報 (3)旧情報/新情報、慣用的な口調。 (4)テキスト情報(カギ括弧、太字、アンダーライン
等)。 (5)意味情報(例:先行疑問文に対する答えの部分を
強め)。 上記(1)では、文章タイプ情報よりプロミネンスを実
現するパラメータを生成することができるのに対し、(
2)〜(5)では、音声言語処理部2で、プロミネンス
情報(音節コード表現)を生成しなければならない。例
えば上記(4)におけるカギ括弧からプロミネンス情報
を取得する場合、カギ括弧開きが検出されたら、アクセ
ント指令の開始時点と大きさ情報(あるいはプロミ不ン
スの分類情報(例えば第4図のような情報))を含有す
る音節コートを発行し、カギ括弧開じが検出されたら、
アクセント指令の終了時点の情報を含有する音節コード
を発行すれば良い。また、(5)の場合は、意味解析手
段が必要となる。もし意味解析手段を用いないならば、
(4)で代用することになる。すなわち、人間が強めた
いところを上記のカギ括弧等によりテキスト内で指定す
れば良い。 はじめに女形固有の卓立を実現する規則の実施例を示す
。まず、第23図において、音声言語処理部2から得ら
れた音節コート列は、文章タイプ決定手段5に入力され
る。ここでは第一段階として、文章タイプ情報辞書6中
の語尾辞書に登録されている語尾形と音節コード列の文
末の形とを照合することにより、該当する文章タイプを
決定する。なお第23図における終止形は、現代文の場
合は動詞なら「つ」行で終わる語尾、形容詞なら「イ」
でおわる語尾等、国文法の規則に基いて定められる。命
令形の場合も同様に、現代文なら活用語尾が「工J行で
あることから定められる。以上の文章タイプの判定は、
品詞情報などの文法情報があれば、さらに確実となる。 ここでもし語尾の活用が終止形と判定された場合は、こ
の文章は必ずしも平叙文とは限らない。そこで第二段階
として、この場合は文章の終始記号(文末記号)を見に
行き、この記号の種類によって文章タイプを決定する(
例えば、「。」あるいは「、」なら平叙文、「?」なら
疑問文、「!!」なら命令文、「!」なら願望文、等)
。以上の文章タイプ決定手段5の処理手順の一例を第2
4図に示す。 第23図に戻り、文章タイプ決定手段5では、上で述べ
た文章タイプ情報のみが選択的に出力される。 音節コード列から音節情報抽出手段16によって抽出さ
れた音節情報(例えば、「あ」、「い」、「う」等の音
節の種類を数字で表したもの)は、■音韻境界を決定す
るため、および■ピッチパターンにおける音素成分生成
のために用いられる。すなわち、■については、音節情
報をもとに、音韻持続時間規則部9によって各音節の音
韻持続時間が決定され、これらを配列した形で音韻境界
時刻が音韻境界決定手段7により決定される。音韻境界
時刻は、一方ではLSPパラメータ等の音韻パラメータ
を生成するために用いられる。また■については、文章
ピッチ制御パラメータ生成部11において、音素制御機
構パラメータ値を決定するために用いられる。 先の文章タイプ情報は、イントネーション規則部8およ
び音源パワー(振幅)修正値計算手段15に入力され1
文章のタイプに従い、標準イントネーション(例えば平
叙文)からの変形が加えられる。変形には時間の変形と
、ピッチ振III(指令の大きさ)の変形、および音源
パワーあるいは振幅の変形の3種類がある。時間の変形
は、音韻境界決定手段7に作用し、音韻境界時刻に変更
が加えられる。他方指令の大きさの変形は、文章ピッチ
制御パラメータ生成部11に作用し、指令の大きさが変
更されるか、あるいは新たな女形指定指令や強調指令が
追加される。この際標準イントネーションの制御パラメ
ータはアクセント規則部10より供給される。なお文章
ピッチ制御パラメータ生成部11では音韻情報との時間
的整合をとるため、基準となる音韻境界時刻(タイミン
グ基準情報)を音韻境界決定手段7より得る。また音源
パワーの変形は、音源パワー(振@)修正値計算手段1
5に作用し、音源パワー値の修正値が計算され、音源生
成部に送られる。なお音源パワー値の修正値は+ (1
2)、 (13)、 (13)’式を用いて計算するこ
とができるが、基本周波数増大によるパワーの自然槽を
利用するのであるならば、修正処理を省略してもよい。 以上のイントネーションの規則は、規則テーブルをイン
トネーション規則部8に設けておき参照することにより
達成できる。かくして、プロミネンスのうち、女形固有
の卓立は、上記手段により実現される。 他方、意図的な卓立(上記(4)、(5))やその他の
デフォルトの卓立(上記(2)、(3)等)に対するプ
ロミネンス情報は、音節コード列中からプロミネンス情
報抽出手段14により、プロミネンス情報のコードを抽
出し、このコードがら得られる。プロミネンス情報は、
イントネーション規則部8と音源パワー(振幅)修正値
計算手段15に作用する。 ここで、音節コード列より、■文章タイプ情報、■音節
情報、■プロミネンス情報をそれぞれ抽出する方法の一
具体例を示す。例えば、音節コートの番号に応じ、第2
5図に示すように情報内容を定義しておけば、文章タイ
プ決定手段5、音節情報抽出手段16、プロミネンス情
報抽出手段14のそれぞれに数値大小判定機能を持たせ
ることにより、該当情報か否か判定できる。すなわち音
節コードが1〜400であるならば音節情報と判定、9
004〜902oであるならば文章タイプを与える情報
であるので、前述の方法により文章タイプ情報を決定す
ることが出来る。また、音節コードが9030〜903
9であるならばプロミネンス情報と判定1例えば下1桁
の数字にアクセント指令値情報を割り当てれば良い。−
例を挙げれば、音節コード下1桁の数字を工で表したと
き、プロミネンスの付加されてない場合のアクセント指
令の大きさに対する。プロミネンスによるアクセント指
令増分値DAaは次式により与えることができる。 DAa:0.lI                (
14)(14)式を用いれば、音節コードにより、アク
セント指令の大きさを0.0から0.9の範囲内で0.
1ステツプで増大させることができる。もちろんより小
きざみなステップでアクセント指令の大きさを変化させ
たい場合には、音節コードを他の値の範囲に割当て(例
えば9100〜9199)、下2桁にアクセント指令値
情報を割り当てれば良い。また、プロミネンスによるア
クセント指令の増大・減少をさせるタイミングは、例え
ば次のようにして決定することができる6まず、アクセ
ント指令開始時点を決定する音節境界の指定は、上記プ
ロミネンス情報をもつ音節コード(例えば9030〜9
039)を境界直前の音節に対応する音節コードと境界
直後の音節に対応する音節コートの間に挿入することに
より達成できる。次に、アクセント指令終了時点を決定
する音節境界の指定は、プロミネンス終了を意味するコ
ードとして例えば9030を同様に境界直前の音節に対
応する音節コードと境界直後の音節に対応する音節コー
トの間に挿入することにより達成できる。また、プロミ
ネンスの開始あるいは終了が高アクセントの領域で起き
る場合、すなわちアクセント変形型の場合は、アクセン
ト変形を起こす音節境界の指定は、同様に境界直前直後
の音節に対応する音節コートの間にプロミネンスの開始
あるいは終了のコードを挿入することにより達成できる
。かくしてプロミネンスによるアクセント指令開始・終
了時点設定のタイミング基準時刻が定まれば、実際の開
始・終了時点はこの基準時刻からのずれ量としてタイミ
ングテーブルから検索することにより求めることができ
る。第28図に一例を示す。 次に、パワーを制御しポーズを生成する方法の具体例を
示す。第22図では、音声合成部に生成源方式(例えば
残差圧縮法+LSP合成器)を用いた例を示しているが
、これから示す具体例は生成源方式に限定されない。勿
論波形合成方式でもまったく同じ考え方で波形振幅のパ
ワーを制御することが出来る。 第26図は、音声合成部4に残差圧縮法を用いた場合の
例を示している。スペクトル包絡パラメータは、LSP
パラメータ、PARCOR係数等、任意のパラメータを
利用出来る。ちなみに、図中の接続補間処理は、例えば
第27図のような処理により実現できる。音源パワー(
振幅)修正値計算手段15(第23図)で得られたパワ
ー値の平方根(振幅値で与えられるならばそのままの値
)が有声音源生成部あるいは無声音源生成部に与えらえ
、残差(音源)振幅が修正される。修正値は、実際の値
で与える場合は、例えば時間不連続を防ぐために、フレ
ームごとに、パワー実測値(例えば第5図〜第11図)
の平方根に近似した振■包絡曲#(例えば、第30図)
の値として与えれば良い。 もし修正値を倍率で与える場合は、合成単位が本来持っ
ている自然音声の振幅包絡形を活用出来るので3強調部
に対応するフレーム間のみで1合成単位の音源振幅値に
指定した倍率を乗ずれば良い。 また所定持続時間のポーズを生成する場合は、その時間
の間だけ無音生成指令を発行して、無音(0値)を出力
すれば良い。 第29図は、音声合成部4に波形合成方式を用いた場合
の例を示している。この場合は、第23図の音源パワー
(振幅)修正値計算手段15は、波形パワー(振幅)修
正値計算手段と置き換えられるが、処理内容は、音源の
場合と全く同様である。違いは、単に実現値が異なるだ
けである。波形パワー(振幅)修正値計算手段で得られ
たパワー値の平方根(振幅値で与えられるならばそのま
まの値)が素片窓生成部に与えられ、素片編集時に素片
振幅が修正される。修正値の時間変化パターンは、上記
残差圧縮法の場合と全く同様の考え方で与えられる。ま
た、ポーズの生成方法も残差圧縮法の場合と同様、所定
時間長の○振幅波形を出力すれば実現出来る。 他の合成方式の場合も、各波形振幅制御手段に応じて、
全く同様の方法でパワー(振幅)制御が実現できる。 プロミネンスを具体的にどの様なパラメータ値により実
現するかを定めた韻律(ピンチ、パワー時間長)の制御
方法の一例を示したのが第1図である。なお、第1図に
おけるプロミネンスを含有しない場合の基準値は、例え
ば、アクセント指令の大きさおよび開始・終了時点につ
いては、公知のアクセント成分生成規則により決定すれ
ば良い。 あるいはより簡便な方法としては、アクセント指令の大
きさの基準値Aa=0.3.ミニ0.3.アクセント了
時点の基準音節境界からの相対値へT□=ΔT2:ΔT
、 2=Oとしても実用上音質にほとんど支障は無い。 第1図は、自然音声の定量的解析結果(第16図〜第2
1図)に基づき求めたものであるので、第1図のプロミ
ネンス生成規則に従った韻律制御により、音声を合成す
わば、自然な強調感をもった合成音声が得られる。勿論
、第1図はパラメータ実現値の一例であり、これらの数
値に限定されない。実際には、様々な強めの変形があり
うるので5それに対応した数値の変形の可能性は無数に
存在する。実際に第1図の韻律制御を実施した具体例を
第28図に示す。 本実施例では、プロミネンスのピッチによる強めあるい
は弱めをアクセント指令の増減により行う例を示したが
、勿論、前述のように、強調成分を用いて行っても良い
。この場合1例えば(4)〜(6)式によりパラメータ
値を変換しても良いし、新たにパラメータテーブルを作
り直しても良い。 他方、音素制御パラメータは、音素ごとに指令の大きさ
、固有角周波数、境界からの相対時刻、上限値等を予め
解析して求めておき、音節情報に対応するテーブルとし
て音素規則部13(第23図)ニ設けておけば阜い。こ
こから音節情報列の順に従って、音素制御パラメータ列
が文章ピンチ制御パラメータ部11に送られる。ここで
音素開始あるいは終了時点(相対時刻)は、タイミング
基準情報に基いて絶対時刻に変換される。かくして文章
ピッチ制御パラメータ生成部11で作成されたピッチ制
御パラメータはピッチパターン生成部12に送られ、こ
こで新ピッチ制御機構モデル(第3図及び(1)〜(■
)式)により文章ピッチパターンが生成される。 本実施例におけるプロミネンス生成規則による韻律制御
は、自然文章音声の定量的解析に基づき求められたもの
なので、このプロミネンス生成規則により韻律の制御を
行えば、漢字仮名混じり文テキストから合成される音声
に、人間らしい自然な強め、弱めを与える効果をもたら
すことができる。 以上実施例では、プロミネンスのピッチによる強めある
いは弱めをピッチ制御機構モデル(第2図)あるいは修
正型ピッチ制御機構モデル(第3図)により実現する方
法を示したが、勿論プロミネンス実現方法は、これらの
モデルのみに限定されない。どの様なモデルを用いても
良い。例えば、点ピッチ(折線近似ピッチパターン)で
も実現可能であるし、あるいは階段状のピッチパターン
を用いても何ら支障は無い。 (発明の効果1 以上示したように、本発明は、人間の発声する自然な文
章音声に含まれる強めや弱めを、規則合成において実現
する方法及び手段を提供するものである。本発明によれ
ば、現実の文章音声に起こりうるほとんど全ての場合の
強め、弱めを実現することができる。そのため、利用者
が特別の注意を払うことなく発話内容を容易に理解する
ことができるので、利用者の負担を著しく軽減すること
が可能となる。特に、例えば新聞校閲のような長時間作
業時の疲労軽減効果は著しく、作業効率向上により得ら
れる利益は大きい。
【図面の簡単な説明】
第1図はプロミネンス生成規則を示す図、第2図、第3
図はピッチ制御機構モデルを示す図、第4図はプロミネ
ンスの分類を示す図、第5図から第11図はピッチ制御
機構モデルによる最良近似推定により制御パラメータを
求めた例を示す図5第12図から第15図は平叙文中の
特定語句を卓立させた場合の解析結果を示す図、第16
図は平叙文中に含ま九る意図的なプロミネンスの大きさ
をプロットした図、第17図は意図的なプロミネンスに
おけるアクセント指令増分の差の値を先頭文節について
のみプロットした図、第18図は文末文節とその直前文
節との間のアクセント指令の大きさの差をプロットした
図、第19図はアクセント指令増分の差とパワー比の差
の関係を示す図。 第20図はポーズ持続時間とポーズ直前の音素持続時間
の関係を示す図、第21図は文末の母音伸縮率を示す図
、第22図は本発明による任意文章合成装置の全体構成
を示す図、第23図は制御パラメータ生成部を示す図、
第24図は文章タイプ決定手段における処理手順を示す
図、第25図は音節コード表を示す図、第26図は音声
合成部に残差圧縮法を用いた図、第27図はCV単位パ
ラメータ読み出しからパラメータ接続補間までの処理概
要を示す図、第28図は鎖車制御を実現する具体例を示
す図、第29図は合成音声部に波形合成方式を用いた図
、第30図は振幅包絡曲線を示す図である。 符号の説明 3:制御パラメータ生成部 8:イントネーション規則部 10:アクセント規則部 11:文章ピッチ制御パラメータ生成部12:ピッチパ
ターン生成部 14:プロミネンス情報抽出手段 15:音源パワー(振幅)修正値計算手段第2図 第4図 第3図 (a) ピッチ制御機構モデル (+)強調成分付加型 (2)アクセント変形型 (b) 音調によるr強調jを表現する二通りの鳥え方≠512
1 Cb) 「先1j と 校灸」 8年:lLンじ 3!V/θ図 7 ノ1 目 第15図 時間 (sl 第17図 (息図釣およびテフォルトフロミ不ンスλ第16図 (a)平叙文1 (b)疑問文 1先頭およびズ不又如は商外し又いる。 第18図 (テフオルトプ口ミ不シスノ 第19図 アクセント指令増分の差 ΔDAa 第21図 疑問文文末における音素持続時間伸長(平叙文と比較)
第20図 O′/a/ Δへ/ 〇へ/ マ/e1010/α3.
 +2) ポーズ発生時における直前音素持続時間の伸長第22図 第23図 (音源生成部へ) tflllバクメー5土凧 処理部へ) 第25図 第24図 第26図 第27図

Claims (1)

  1. 【特許請求の範囲】 1、入力文章を形態素解析する言語処理手段と;上記言
    語処理手段の出力に基づいて上記入力文章のタイプを判
    定し、該タイプに従って制御パラメータを生成する制御
    パラメータ生成部と該制御パラメータに応じて基本周波
    数の時間変化パターン(以下略してピッチパターンと呼
    ぶ)を生成するピッチパターン生成部とを有する第1の
    韻律制御手段であって、上記言語処理手段の出力に基づ
    いてプロミネンスの分類を判定し、自然音声の解析結果
    に基づいて上記プロミネンスの分類対応であらかじめ求
    めた上記制御パラメータの変化分に従って、上記制御パ
    ラメータを制御する第1の韻律制御手段と; 上記言語処理手段の出力に基づいて上記入力文章に応じ
    た音韻パラメータ列を生成し、該音韻パラメータ列と上
    記第1の韻律制御手段で生成したピッチパターンとによ
    り順次音声を合成する音声合成手段と; を有することを特徴とする音声規則合成装置。 2、上記ピッチパターン生成部は、アクセント成分の大
    きさ、その開始及び終了時刻を制御するアクセント制御
    機構を少なくとも有し、上記制御パラメータの変化分と
    して上記アクセント成分の変化分を設定したことを特徴
    とする請求項1記載の音声規則合成装置。 3、上記制御パラメータの変化分を、 文形が平叙文でかつプロミネンスが付加された文単位(
    文節、単語、単語の一部、音節等)が、 先頭文節以外でありかつアクセント型がアクセント変形
    型でない場合は、プロミネンスが付加されていない場合
    のアクセント成分の大きさに対する増分として定義され
    る「アクセント指令増分」と、隣接するアクセント成分
    に対する「アクセント指令増分」との差である変化分Δ
    DAaを0.7±0.2の範囲内の値に設定し、先頭文
    節以外でありかつアクセント型がアクセント変形型であ
    る場合は該ΔDAaを0.4±0.2の範囲内の値に設
    定し、 先頭文節の場合は該ΔDAaを0.3±0.2の範囲内
    の値に設定し、 アクセントがプロミネンスにより新たに生起した場合、
    該プロミネンスが付与された文単位直前にポーズを挿入
    する場合は該ΔDAaを0.1±0.1の範囲内の値に
    設定し、 ポーズを挿入しない場合は該ΔDAaを0.3±0.2
    の範囲内の値に設定し、 文形が疑問文の場合は先頭文節のアクセント成分の大き
    さAa_1を該Aa_1と第2文節のアクセント成分の
    大きさAa_2の差が0.0±0.1の範囲内の値にな
    るように設定し、 かつ文末アクセントに対応するΔDAaを0.4±0.
    2の範囲内の値に設定し、 文形が平叙文でかつプロミネンスを文章中のいずれの文
    単位にも指定していない場合は先頭文節のアクセント成
    分の大きさAa_1を該Aa_1と第2文節のアクセン
    ト成分の大きさAa_2の差が0.1±0.1の範囲内
    の値になるように設定し、文形が平叙文でかつ文末文節
    と文末直前の文節にプロミネンスを指定していない場合
    は文末文節のアクセント成分の大きさAajを該Aaj
    と文末直前文節のアクセント成分の大きさAaj_−_
    1の差が−0.1±0.2の範囲内の値になるように設
    定したことを特徴とする請求項2記載の音声規則合成装
    置。 4、上記音声合成手段で合成される音声のパワーを制御
    する第2の韻律制御手段を有することを特徴とする請求
    項1ないし3のいずれかに記載の音声規則合成装置。 5、上記第2の韻律制御手段は、上記プロミネンスが付
    加されていない場合のパワーの大きさに対する比として
    デシベル(dB)単位で定義される「パワー比」と、隣
    接する文単位に対する「パワー比」との差ΔPOWRの
    値を上記アクセント成分の変化分ΔDAaより式 ΔPOWR=6ΔDAa+4±4(dB) で求まる値に設定したことを特徴とする請求項4記載の
    音声規則合成装置。 6、上記第2の韻律制御手段は、上記第1の韻律制御手
    段によるピッチパターンの変化に伴うパワーの変化を利
    用することを特徴とする請求項4記載の音声規則合成装
    置。 7、上記音声合成手段で合成される音声の時間長を制御
    する第3の韻律制御手段を有することを特徴とする請求
    項1ないし6のいずれかに記載の音声規則合成装置。 8、上記第3の韻律制御手段は、上記音韻パラメータ列
    に対応する音素の持続時間を制御する手段からなること
    を特徴とする請求項7記載の音声規則合成装置。 9、上記第3の韻律制御手段は、 上記プロミネンスが付加された文単位の直後にポーズが
    ある場合は、該文単位末尾の母音の持続時間を強調のな
    い場合の該母音の持続時間の66±33%の範囲内の値
    だけ伸長し、 文形が疑問文の場合は、文末の母音の接続時間を平叙文
    の場合の該母音の持続時間の78±22%の範囲内の値
    だけ伸長することを特徴とする請求項8記載の音声規則
    合成装置。10、入力文章を形態素解析して音節コード
    列で表現するステップと; 上記音節コード列に基づいて上記入力文章のタイプを判
    定し、該タイプに従って制御パラメータを生成し、該制
    御パラメータに応じて基本周波数の時間変化パターン(
    以下略してピッチパターンと呼ぶ)を生成するステップ
    であって、上記音節コード列に基づいてプロミネンスの
    分類を判定し、自然音声の解析結果に基づいて上記プロ
    ミネンスの分類対応であらかじめ求めた上記制御パラメ
    ータの変化分に従って、上記制御パラメータを制御する
    ステップと; 上記音節コード列に基づいて上記入力文章に応じた音韻
    パラメータ列を生成し、該音韻パラメータ列と上記韻律
    制御手段で生成したピッチパターンとにより順次音声を
    合成するステップと; からなることを特徴とする音声規則合成方法。 11、上記制御パラメータとして、アクセント成分の大
    きさ、その開始及び終了時刻を制御するパラメータを用
    い、上記制御パラメータの変化分として上記アクセント
    成分の変化分を設定したことを特徴とする請求項10記
    載の音声規則合成方法。 12、上記制御パラメータの変化分を、 文形が平叙文でかつプロミネンスが付加された文単位(
    文節、単語、単語の一部、音節等)が、 先頭文節以外でありかつアクセント型がアクセント変形
    型でない場合は、プロミネンスが付加されていない場合
    のアクセント成分の大きさに対する増分として定義され
    る「アクセント指令増分」と、隣接するアクセント成分
    に対する「アクセント指令増分」との差である変化分Δ
    DAaを0.7±0.2の範囲内の値に設定し、先頭文
    節以外でありかつアクセント型がアクセント変形型であ
    る場合は該ΔDAaを0.4±0.2の範囲内の値に設
    定し、 先頭文節の場合は該ΔDAaを0.3±0.2の範囲内
    の値に設定し、 アクセントがプロミネンスにより新たに生起した場合、
    該プロミネンスが付与された文単位直前にポーズを挿入
    する場合は該ΔDAaを0.1±0.1の範囲内の値に
    設定し、 ポーズを挿入しない場合は該ΔDAaを0.3±0.2
    の範囲内の値に設定し、 文形が疑問文の場合は先頭文節のアクセント成分の大き
    さAa_1を該Aa_1と第2文節のアクセント成分の
    大きさAa_2の差が0.0±0.1の範囲内の値にな
    るように設定し、 かつ文末アクセントに対応するΔDAaを0.4±0.
    2の範囲内の値に設定し、 文形が平叙文でかつプロミネンスを文章中のいずれの文
    単位にも指定していない場合は先頭文節のアクセント成
    分の大きさAa_1を該Aa_1と第2文節のアクセン
    ト成分の大きさAa_2の差が0.1±0.1の範囲内
    の値になるように設定し、文形が平叙文でかつ文末文節
    と文末直前の文節にプロミネンスを指定していない場合
    は文末文節のアクセント成分の大きさAajを該Aaj
    と文末直前文節のアクセント成分の大きさAaj_−_
    1の差が−0.1±0.2の範囲内の値になるように設
    定したことを特徴とする請求項11記載の音声規則合成
    方法。 13、上記合成される音声パワーを制御することを特徴
    とする請求項10ないし12のいずれかに記載の音声規
    則合成方法。 14、上記パワーの制御は、上記プロミネンスが付加さ
    れていない場合のパワーの大きさに対する比としてデシ
    ベル(dB)単位で定義される「パワー比」と、隣接す
    る文単位に対する「パワー比」との差ΔPOWRの値を
    上記アクセント成分の変化分ΔDAaより式ΔPOWR
    =6ΔDAa+4±4(dB) で求まる値に設定したことを特徴とする請求項13記載
    の音声規則合成方法。 15、上記パワーの制御は、上記ピッチパターンの変化
    に伴うパワーの変化を利用することを特徴とする請求項
    13記載の音声規則合成方法。 16、上記合成される音声の時間長を制御することを特
    徴とする請求項10ないし15のいずれかに記載の音声
    規則合成方法。 17、上記音声の時間長の制御は、上記音韻パラメータ
    列に対応する音素の接続時間を制御することによって行
    なうことを特徴とする請求項16記載の音声規則合成方
    法。 18、上記音声の時間長の制御は、 上記プロミネンスが付加された文単位の直後にポーズが
    ある場合は、該文単位末尾の母音の接続時間を強調のな
    い場合の該母音の接続時間の66±33%の範囲内の値
    だけ伸長し、 文形が疑問文の場合は、文末の母音の接続時間を平叙文
    の場合の該母音の接続時間の78±22%の範囲内の値
    だけ伸長することを特徴とする請求項17記載の音声規
    則合成方法。
JP2183947A 1990-07-13 1990-07-13 音声規則合成装置および方法 Pending JPH0473697A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2183947A JPH0473697A (ja) 1990-07-13 1990-07-13 音声規則合成装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2183947A JPH0473697A (ja) 1990-07-13 1990-07-13 音声規則合成装置および方法

Publications (1)

Publication Number Publication Date
JPH0473697A true JPH0473697A (ja) 1992-03-09

Family

ID=16144600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2183947A Pending JPH0473697A (ja) 1990-07-13 1990-07-13 音声規則合成装置および方法

Country Status (1)

Country Link
JP (1) JPH0473697A (ja)

Similar Documents

Publication Publication Date Title
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
US6499014B1 (en) Speech synthesis apparatus
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
JPH086591A (ja) 音声出力装置
JP2006227589A (ja) 音声合成装置および音声合成方法
JPH0580791A (ja) 音声規則合成装置および方法
JPS62138898A (ja) 音声規則合成方式
Gros et al. Speech timing in Slovenian TTS
JPH0473697A (ja) 音声規則合成装置および方法
Mittrapiyanuruk et al. Improving naturalness of Thai text-to-speech synthesis by prosodic rule.
JP3113101B2 (ja) 音声合成装置
JP3078073B2 (ja) 基本周波数パタン生成方法
JP2848604B2 (ja) 音声合成装置
JPH04130400A (ja) 音声規則合成装置
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
JPH0519780A (ja) 音声規則合成装置および方法
JPH0378800A (ja) 音声規則合成方式
JPS63174100A (ja) 音声規則合成方式
JPH09146576A (ja) 原文対音声の人工的神経回路網にもとづく韻律の合成装置
JPH04149500A (ja) テキスト音声合成装置
JPH06214585A (ja) 音声合成装置
Muralishankar et al. Human touch to Tamil speech synthesizer
JP3314116B2 (ja) 音声規則合成装置
Kula et al. Prosody control in diphone-based speech synthesis system for Polish
Deng et al. Speech Synthesis