JPH0580791A

JPH0580791A - 音声規則合成装置および方法

Info

Publication number: JPH0580791A
Application number: JP3241103A
Authority: JP
Inventors: Shoichi Takeda; 昌一武田; Hiroshi Ichikawa; 熹市川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1991-09-20
Filing date: 1991-09-20
Publication date: 1993-04-02

Abstract

(57)【要約】【目的】本発明は会話音声の規則合成装置及び方法に係
わり，特にプロミネンスという音声の局所的強調を表現
する能力の改善に関する。【構成】韻律制御パラメータ（特に時間構造に関するパ
ラメータDL）を与える。【効果】極めて自然で聞きやすい会話音声を合成するこ
とができる。特に会話音声特有の強調表現が実現でき
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文章音声の規則合成装置
および方法に係わり，特に規則合成音声の品質改善に関
する。

【０００２】

【従来の技術】本発明に関連した技術として、以下の文
献が知られている。

【０００３】1. 市川熹，他；合成音声の自然性に関
する実験的考察，音響学会講演論文集1-3-8（昭42） 2. 中山剛，他；合成音声の音源特性制御による疑
問，強調の表現，電子通信学会大会 64（昭43） 3. 特開昭59-081697号公報（単語規則合成に藤崎モデル
を使用） 4. 特開昭60-074224号公報（段落ごとに発声の調子を改
め，更に自然な揺らぎを与える） 5. 特開昭62-138898号公報（疑問文，命令文，願望文等
のイントネーションを藤崎モデルにより生成） 6. H. Fujisaki et. al., "Analysis of voice fundame
ntal frequencycontours for declarative sentences o
f Japanese," J. Acoust. Soc. Jpn.(E)5,4 (1984). 7. 佐藤利男；有声，無声破裂音の時間要素の差異につ
いて，日本音響学会誌第14巻第２号（1958） 8. 落合和雄；無声破裂音におけるピッチ周波数変化の
聴覚的検討，日本音響学会講演論文集 2-3-12（昭43-1
1） 9. 特開昭63-174100号公報（藤崎モデルに更に音素制御
機構,文形指定制御機構,および強調制御機構を付加した
モデル） 10.廣瀬啓吉，藤崎博也，他２；基本周波数パターン生
成過程モデルに基づく文章音声の合成，電子情報通信学
会論文誌Ａ, J72-A, 1, pp.32-40 (1989-1） 11.河井恒，廣瀬啓吉，藤崎博也；日本語音声の合成に
おける韻律的特徴の合成規則，電子情報通信学会技術報
告音声, SP88-129 (1989-1) 12.特開平3-78800号公報（プロミネンス生成規則基本特
許出願） 13.藤崎博也，廣瀬啓吉，他２；連続音声中におけるア
クセント成分の実現，音声研究会資料, S84-36 (1984-
7) 14.武田昌一，市川熹；４モーラ単語を対象としたピ
ッチ制御機構モデルパラメータの推定，日本音響学会講
演論文集 1-5-13 (昭57-3) これらの文献を参照して，従来の技術について説明す
る。

【０００４】任意の文章あるいは単語のテキストより，
これに対応する音声を合成する手法は「規則による音声
合成」あるいは単に「規則合成」と呼ばれている。規則
合成の音声では，一般に，音韻のつながりや，持続時
間，あるいはピッチ（声の高さ）の変化などの特徴を外
部から規則により与えているため，自然の音声のものと
は異なっている。したがって，規則合成による音声は，
これらの自然の音声の特徴をそのまま保存しているいわ
ゆる「分析合成」による音声の音質より悪い。規則合成
音声の音質劣化要因として，音韻の明瞭性の低下に起
因するものや，文章の抑揚の不自然さに起因するもの
が挙げられる。

【０００５】文章の抑揚を支配する規則，すなわち韻律
規則については，すでに日本語の平叙文，疑問文，命令
文，強調および種々の表情を持つ文章のイントネーショ
ンを生成する規則の公知例がある（上記文献１，２）。
しかしここで用いたモデルは，音節単位の点ピッチ情報
を与えるに過ぎないため，疑問文，命令文，願望文の差
異を表現するには不十分である。そのためにこのような
ピッチパターンを与えて合成した音声の抑揚は不自然に
聞こえる。

【０００６】種々の文章のイントネーションの差異を十
分に表現するためには，音節内の基本周波数（ピッチ周
波数）と時間との関係を明確にする必要がある。このよ
うな音節内のピッチパターンを記述し，しかも時間構造
を明確に定義できるモデルとして，従来，臨界制動２次
線形系で記述される「ピッチ制御機構モデル」（文献
６）が用いられてきた。

【０００７】このピッチ制御機構モデルを適用したもの
として，単語音声合成に適用した例（文献３），疑問
文，命令文，願望文等の文章音声合成に適用した例（文
献５）等があり，かなりの音質改善効果が認められてい
る。

【０００８】文献９は，更に，音韻明瞭性の改善に効果
的な音素レベルの局所的な揺らぎ（文献７，８）を表現
する成分を付加したものである。また，疑問文に現れる
尻上がり調や，命令文，願望文等，様々な感情や表情に
固有な微妙な基本周波数の変化を表現する成分（文献
５）も付加されている。文献９では，これらの成分を生
成する修正型ピッチ制御機構モデルを用いて人間らしい
自然な抑揚感を持った音声を合成する方法を提供してい
る。

【０００９】

【発明が解決しようとする課題】上述した各種のピッチ
制御機構モデルのうち，音素制御機構の導入により，合
成音声の音韻明瞭性は改善されるに至った。しかし，感
情や特別の表情の付かない通常の文章では，発話の単調
さ，機械的な感じは取り除かれていない。このような単
調さや機械感は，特に合成音声システムの長時間利用者
にとって，大きな負担になり，疲労をもたらす。これら
の単調さや機械感を取り除かないかぎり，例えば新聞校
閲における読み合わせ作業のような，長時間利用型のシ
ステムへの適用に供することができない。

【００１０】他方，人間の発声する自然音声を長時間聞
いても，疲労感が少ない理由の一つは，発話の中で，局
所的に強めたり，逆に弱めたりして，発話に変化をつけ
ているからである。すなわち，人間は強めたいところで
は，相対的に声の高さを高め，声を大きくし，しかもゆ
っくりと話す。逆に重要でないところでは，低く小さい
声で，しかも早口で曖昧に話そうとする。即ち，書き言
葉における「カギ括弧」や「太字」等に相当する強調表
現を話し言葉でも行っているのである。この強めや弱め
によって，聞く人は常に発話に注意を傾ける必要がなく
なり，負担が軽減する。

【００１１】本発明は，このような自然音声が持つ強め
や弱めを合成音声において実現する装置及び方法を提供
するものである。

【００１２】

【課題を解決するための手段】上記の文音声における強
めや弱めは，文中の他の部分との相対的な強弱によって
行われる。このように他の部分に対して相対的に引き立
たせる（卓立させる）強めは，「プロミネンス」あるい
は「対比強調」と呼ばれている。

【００１３】言語学的立場からプロミネンスを分類し、
これに従い、本発明では、これらプロミネンスの韻律的
特徴を定量的に表現するための尺度を導入する。即ち、
プロミネンスの分類に対応して、自然音声の解析結果に
基づいて求めた韻律の制御パラメータを記憶するプロミ
ネンス生成規則を用い、該プロミネンス生成規則に従っ
て、プロミネンス付加時の韻律制御パラメータを制御す
る。

【００１４】これらのプロミネンスは、音声情報処理的
には、（１）基本周波数、（２）音声波形振幅（パワ
ー）、および（３）時間長（音素あるいは「間」（ポー
ズ）持続時間）の増大や減少によって実現される。特
に、本発明では、韻律制御パラメータの変化分を、プロ
ミネンスが付加された文単位に対して、プロミネンスが
付加されていない場合の文末以外の拍持続時間長に対す
る増分として定義される「第１の拍持続時間増分」DL₁
を正の値に設定する。

【００１５】

【作用】本発明のプロミネンス生成規則による韻律制御
は、自然音声の定量的解析に基づき求められたものなの
で、入力文書（テキスト）から合成される音声に、人間
らしい自然な強め、弱めを与えることができる。本発明
によれば、現実の文章音声を起り得るほとんどすべての
場合の強め、弱めを実現することができる。従って、利
用者が特別の注意を払うことなく発話内容を容易に理解
することができ、利用者の負担を著しく軽減することが
可能となる。特に、新聞校閲のような長時間の作業時の
疲労軽減効果は著しく、作業の効率向上が期待できる。

【００１６】

【実施例】まず、本発明の実施例で用いる「ピッチ制御
機構モデル」について説明する。ここでピッチ制御機構
モデルとは、以下に述べるようなモデルである。

【００１７】声の高さの情報を与える基本周波数は，次
のような過程で生成されると考えるのがピッチ制御機構
モデルである。声帯振動の周波数，すなわち基本周波数
は，脳からのフレーズの切り替わりごとに発せられる
インパルス指令と，アクセントの上げ下げごとに発せ
られるステップ指令によって制御される。そのとき，生
理機構の遅れ特性により，のインパルス指令は文頭か
ら文末に向かう緩やかな下降曲線（フレーズ成分）とな
り，のステップ指令は局所的な起伏の激しい曲線（ア
クセント成分）となる。これらの二つの成分は，各指令
の臨界制動２次線形系の応答としてモデル化され，対数
基本周波数の時間変化パターンは，これら両成分の和と
して表現される。図２はピッチ制御機構モデルを示す。
モデル基本周波数F₀(t)（ｔは時刻）は，次式のように
定式化される。

【００１８】

【数１】

【００１９】ここで，Fminは最低周波数，Iはフレーズ
指令の数，Ap(i)はi番目のフレーズ指令の大きさ，T
₀(i)はi番目のフレーズ指令の時点，Jはアクセント指令
の数，Aa(j)はj番目のアクセント指令の大きさ，T
₁(j)，T₂(j)はそれぞれj番目のアクセント指令の開始時
点と終了時点である。また，Gp(i,t)，Ga(j,t)はそれぞ
れ，フレーズ制御機構のインパルス応答関数，アクセン
ト制御機構のステップ応答関数であり，次式で与えられ
る。

【００２０】

【数２】 Gp(i,t)=α(i)t exp(-α(i)t)u(t) …（数２)

【００２１】

【数３】 Ga(j,t)=Min[1-(1+β(j)t) exp(-β(j)t)u(t),θ(j)] …（数３) ここで，α(i)はi番目のフレーズ指令に対するフレーズ
制御機構の固有角周波数，β(j)はj番目のアクセント指
令に対するアクセント制御機構の固有角周波数，u(t)は
単位ステップ関数である。また，θ(j)はアクセント成
分の上限値であり，例えば0.9などに選ばれる。

【００２２】なおここで，基本周波数（ピッチ周波数）
およびピッチ制御パラメータ(Ap(i), Aa(j),T₀(i), T
₁(j), T₂(j), α(i), β(j), Fmin)の値の単位は次のよ
うに定義される。すなわち，F₀(t)およびFminの単位は
[Hz]，T₀(i), T₁(j)およびT₂(j)の単位は[s]，α(i)お
よびβ(j)の単位は[1/s]とする。またAp(i)およびAa(j)
の値は，基本周波数およびピッチ制御パラメータの値の
単位を上記のように定めたときの値を用いる。

【００２３】解析の方法としては，最適化法が用いられ
ている。すなわち，上記ピッチ制御機構モデルにより生
成したピッチパターンと原音声の分析・抽出による実測
値との誤差が最小となるようなピッチ制御パラメータを
求めることにより，ピッチパターンの最良近似推定が行
われる（文献６）。

【００２４】次に、「修正型ピッチ制御機構モデルにつ
いて説明する。図３（ａ）は修正型ピッチ制御機構モデ
ルを示す。

【００２５】この修正型モデルの特徴は，従来のフレ
ーズ制御機構およびアクセント制御機構のみから構成
されるモデルに，更に音素制御機構，文形指定制御
機構，および強調制御機構の３つの制御機構を付加し
たことである。これら〜の３つの制御機構の導入に
より，ピッチパターン上に様々な揺らぎ成分を付加する
ことが出来る。

【００２６】すなわち，上記音素制御機構は，音素ご
との局所的な基本周波数の揺らぎの成分を生成する機構
で，例えば有声子音/d/,/m/,/n/,/r/,/w/等の局所的な
基本周波数の低下や，無声破裂音/t/,/k/等の後続母音
への入り渡り部にしばしば見られる高基本周波数からの
下降特性を表現することが出来る。また文形指定制御
機構は，疑問文の文末の基本周波数の尻上がりを表現す
る成分を生成する機構である。そして強調制御機構
は，命令文や願望文等，様々な感情や表情を表現する成
分を生成することを目的とした機構である。

【００２７】上記修正型ピッチ制御機構モデルを簡単に
記述する式としては，例えば先に示す数１７〜数２４を
用いれば良い。ここで数１７〜数２４の各パラメータの
単位は従来のピッチ制御機構に準じて定められる。勿論
具体的に実現する式としては，上記数１７〜数２４のみ
に限定されない。また，文章音声の性質や制御方式の選
択により，数１７〜数２２の任意の制御機構の組み合わ
せでピッチパターンを生成することが出来る。例えば，
強めを強調成分を用いて表現するならば，アクセント指
令と強調指令の関係は図３(b)の(1)のように重畳形にな
る。しかし，これらの指令により得られるピッチパター
ンと同一のピッチパターンを同図(b)の(2)のように，ア
クセント指令のみによっても得ることが出来る。この様
に一つのアクセント指令終了時点で，別の指令値に階段
状に変化することを「アクセント変形」と呼んでいる。
「アクセント成分に重畳された強調成分」と「アクセン
ト変形」とは，

【００２８】

【数４】 Aa₂=Aa₁+As …（数４)

【００２９】

【数５】 T₁₂=T₇₁…（数５)

【００３０】

【数６】 T₂₂=T₈₁…（数６) の関係により相互に変換が可能である。

【００３１】モデルパラメータの推定（解析）は，従来
のピッチ制御機構モデルの場合と同じく最適化法により
実行することが出来る（文献６）。

【００３２】ここで、先に本発明者らが提案した特開平
３−７８８００号公報（文献１２）、特願平２−１８３
９４７号、特願平２−２５０１７２号によれば，強めの
ある文章では，強めのない場合に比して，卓立している
部分の(1)アクセント指令の大きさ，(2)パワー，あるい
は(3)音素持続時間が増大し，場合によってはポーズが
発生することが知られている。また逆に，平叙文の文末
弱めのように，(1)アクセント指令の大きさ，あるいは
(2)パワーが減少する場合もある。したがって，プロミ
ネンスによる強め，あるいは弱めは，これら(1)〜(3)
(これら(1)〜（３）は総称して「韻律」と呼ばれてい
る）の各値を増大させたり，逆に減少させることにより
実現される。韻律の各要素（１）〜(3)は，単独で増
大，減少する場合もあるし，組合せにより増大，減少す
る場合もある。当然のことながら，組み合わせにより増
大，減少させた場合の方が卓立の効果は大きくなる。

【００３３】上記プロミネンスの韻律的特徴を定量的に
表現するための尺度を導入する。すなわち，強めのない
文章（参照音声）を基準にプロミネンス含有文（対象音
声）の強めの位置と度合いを表す尺度として，以下の諸
量を定義する。

【００３４】（１）F₀比（F0R)：参照音声の基本周波数
F₀rに対する対象音声の基本周波数F₀xの比で，次式によ
り定義する。ただし，基本周波数は，藤崎モデルにより
推定した値を用いた。

【００３５】

【数７】 F0R=20log(F₀x/F₀r) (dB) …（数７) （２）アクセント指令増分（DAa)：参照音声のアクセン
ト指令の大きさAarに対する対象音声のアクセント指令
の大きさAaxの増分で，次式により定義する。

【００３６】

【数８】 DAa=Aax-Aar …（数８) （３）パワー比（POWR)：参照音声のパワー Prに対する
対象音声のパワーPxの比で，次式により定義する。

【００３７】

【数９】 POWR=10log(Px/Pr) (dB) …（数９) （４）時間変化率（TIME WARP)：参照音声に対する対象
音声の時間伸縮の度合いを表す。いま参照音声と対象音
声の対応する音素の持続時間をそれぞれTr(i)，Tx(i)
(iはi番目の音素の意味）として，i番目の音素の時間変
化率TW(i)を次式で定義する。

【００３８】

【数１０】 TW(i)=(Tx(i)-Tr(i))/Tr(i)×100 (%) …（数１０) 上記韻律的特徴の尺度を用いて，プロミネンス定量解析
結果をまとめると以下のようになる（特願平２−１８３
９４７号、特願平２−２５０１７２号)。

【００３９】〔１〕基本周波数プロミネンスの基本周波数に関する特徴をアクセント指
令の大きさAa，開始時点T₁，終了時点T₂，およびアクセ
ント変形開始時点T₁₂について調べる。なお，アクセン
ト開始・終了，アクセント変形開始時点は，それぞれア
クセントが低から高に上昇する音節境界，高から低に下
降する音節境界，および高から他の高に変化する音節境
界時刻を基準とした値ΔT₁，ΔT₂，およびΔT₁₂として
求めている。ただし，頭高型アクセントや先頭音節の卓
立の場合は，先頭音節始端時刻をΔT₁計測の基準時刻と
し，平板型あるいは尾高型アクセントや末尾音節の卓立
の場合は，末尾音節終端時刻をΔT₂を計測の基準時刻と
する。

【００４０】意図的なプロミネンスの場合，前述のよう
に，基本周波数による強めの度合いを表す尺度としてア
クセント指令増分DAaを定義した。しかしプロミネンス
は，対象となるアクセント指令そのものの増大ではな
く，その前後のアクセント指令の大きさを相対的に小さ
くすることによって実現される場合もある。この場合
は，DAaは大きな値を取らない。そこで，基本周波数の
値によるプロミネンス効果を表す尺度として，次式で定
義するアクセント指令増分の差により評価する。

【００４１】

【数１１】 ΔDAa=DAap-DAan …（数１１）ここで，DAapはプロミネンスが置かれるアクセント成分
の指令増分，DAanはこのアクセント成分に隣接するアク
セント成分の指令増分のうち小さい方の値を表す。基
本周波数に関しては，以下に示すような傾向が見られ
た。

【００４２】（１）アクセント指令の大きさは，先頭お
よび文末文節以外のアクセント成分では，アクセント型
（アクセント変形型か否か）に依存する傾向が見られ
た。しかし，ポーズの有無の影響は認められなかった
（図５(a))。他方，文末文節のアクセント成分の場合，
アクセント指令の大きさの値のばらつきが大きい。更
に，先頭文節のアクセント成分では，話者やアクセント
型に依存せず，データは，先頭および文末文節以外のア
クセント変形型のアクセント成分のデータとほぼ同様の
分布を示している。これは，下記のデフォルトのプロミ
ネンスの影響で，意図的なプロミネンスの強めの度合い
が相対的に小さくなるためと考えられる (図６(a))。

【００４３】（２）疑問文に関しては，アクセント指令
の大きさに文末強め傾向が見られた (図５(b))。

【００４４】（３）アクセント指令の大きさに関し，平
叙文の先頭文節のアクセントはデフォルトのプロミネン
スを有する (図６(b))。ここで，デフォルトのプロミネ
ンスの大きさの尺度として，先頭文節（韻律語）のアク
セント指令の大きさAa₁と第２文節（韻律語）のアクセ
ント指令の大きさAa₂の差の値を用いた。

【００４５】（４）アクセント指令開始時点・終了時点
に関しては，プロミネンスによる顕著な影響は認められ
なかった。

【００４６】（５）アクセント変形型（通常は増大）プ
ロミネンスの変形指令開始時点に関しては，話者Ａでは
基準音素境界に対して進み傾向が見られるが，話者Ｂで
は進みも遅れも見られない (図７)。この結果より，プ
ロミネンスの変形指令開始時点は基準音素境界時刻と一
致するように設定することができると考えられる。

【００４７】〔２〕パワー図８に示すように，パワーＰと基本周波数（アクセント
指令の大きさAa）との間には高い相関が見られる（相関
係数ρ≒0.9）。このときの回帰直線は次式で表され
る。

【００４８】

【数１２】Ｐ=11Aa (dB) …（数１２) 従って，数１２を用いれば，プロミネンスに伴うパワー
の増加量は，Aaより一意的に定めることができる。

【００４９】あるいは，若干の変動を許容して

【００５０】

【数１３】Ｐ=11Aa±4 (dB) …（数１３) の範囲内で値を定めても良い。

【００５１】なお，この値は，基本周波数の増加による
パワーの自然増加の値にほぼ等しいので，単に，音源信
号（例えば予測残差）の振幅値を基本周波数によらず一
定値として合成器に送り込むのみの簡易な処理でも良
い。これにより，合成音声波形のパワーは，基本周波数
に依存して自然に上昇する。

【００５２】〔３〕時間構造時間構造の主要因は，音素持続時間およびポーズ持続時
間であり，プロミネンスは，これらの持続時間の伸長に
より表現されうる（ポーズの発生は，ポーズ持続時間が
０から正数値に増加する特別な場合）。ここでは，(1)
ポーズ持続時間が音素持続時間に与える影響，および
(2)疑問文末尾における音素持続時間の伸長という観点
から調べてみた。

【００５３】（１）音素持続時間は，直後にポーズを発
生した場合に伸長する傾向が見られた。この傾向は，話
者ＡＢに共通している (図９)。

【００５４】（２）疑問文文末母音においても伸長する
傾向があることがわかった。この傾向は，話者ＡＢに共
通している (図１０)。

【００５５】図１は，「時間構造」中のDLを除いて，図
４の各分類に対応したプロミネンスを生成するための韻
律の各要素の値（強めあるいは弱め）を自然音声を対象
とした上記定量的解析結果に基づき求めたものである。
但し，図１の数値例は，プロミネンスの付加されていな
い場合の各制御値に対する増分，あるいは増加率で表し
ている。図１に従い制御規則を作成すれば，実験室音声
（後述）に関しては自然なプロミネンスを合成音声に付
与することが出来る。

【００５６】図１において，"±"の記号より左側の数値
は，その制御パラメータの代表値であり，"±"の記号で
数値の変動範囲（ほぼ１σに相当）を表している。すな
わち，この変動範囲内で数値を設定するかぎり，自然な
プロミネンスを生成することが出来ることを示してい
る。なお，図１中のパラメータで，プロミネンスの付加
されてない部分を相対的に弱めることによっても同様の
効果を得ることができる。この場合は，従来の公知の韻
律制御規則（例えば公知例12）に従い，制御パラメータ
値を求め，上記数７〜数１３の定義式を用いて，プロミ
ネンス付加時の韻律制御パラメータ値を求めればよい。

【００５７】以上プロミネンスの韻律的特徴の解析と規
則の有効性の検証実験に基づけば，種々のプロミネンス
の実現形態は，図１１に示すように要約される。すなわ
ち，プロミネンスは次のいずれかの方法により実現され
ている。

【００５８】（１）基本周波数（アクセント指令の大き
さ）の増大とこれに伴うパワーの増大（２）ポーズの挿入更にプロミネンス対象の直前に
ポーズ挿入プロミネンス対象の直後にポーズ挿入プロミネンス対象の直前および直後にポーズ挿入（３）発話速度の低減（４）上記（１）（２）（３）の組合せところで，図１により合成されるプロミネンス含有文音
声は，自然音声と同等のプロミネンス表現力を持つが，
必ずしも最高水準のプロミネンス表現力とは言えない。
より確実な意図伝達を実現するためには，更にプロミネ
ンス表現力が高いことが望まれる。この問題に対処する
ための，最適なプロミネンス表現力を得る手段は，特願
平３−１７２１８０号に示されている。具体的には，図
１２に示した韻律制御パラメータ値を与えることによ
り，聴覚的に最適なプロミネンス表現力を実現すること
ができる。

【００５９】以上述べた手段により，原稿を読み上げる
ようなタイプの音声（「実験室音声」と呼ばれている）
のプロミネンス表現力を改善することができる。しかし
ながら，「自然な会話音声」には，実験室音声に見られ
ない特有のプロミネンスの韻律的特徴があり，この特徴
を規則化しなければ，自然な会話音声の表現力の十分な
改善は望めない。本発明は「自然な会話音声」のプロミ
ネンス表現力を改善する手段を提供するものである。以
下その内容について述べる。

【００６０】プロミネンスの音響的実現形態は，音声の
発声の仕方に大きく依存すると考えられる。すなわち，
上述のように，原稿を読み上げた発声か，原稿なしの自
然な発声かにより大きく異なるであろうし，同じ読み上
げの発声でも，原稿内容が，ニュースであるか，小説で
あるか，或いはドラマであるかによっても異なると考え
られる。そこで，音声の種類を明確に定義するために，
以下に発声様式から見た音声の分類を行う。

【００６１】

【例】上記の分類において，「実験室音声」とは，原稿を読み
上げることにより発声する音声の総称，また「自然発声
音声」とは，原稿なしに，或いは暗記した原稿を思い出
しながらではなく発声する音声の総称として定義する。

【００６２】ここで注意すべきことは，上記「実験室音
声」と「自然発声音声」の中間的な音声もありうるとい
うことである。例えば，もともと原稿はあるが，ある程
度訓練を受けて流暢に発声した場合の音声がこれに該当
する。例えば，講演とかドラマ等は話者の習熟度により
音声の性質が大きく異なると考えられる。

【００６３】以下，「自然発声の会話音声」について
も，プロミネンスが図１１に示すような形態のいずれか
により実現されるのかを確認するとともに，更に自然発
声の会話音声特有のプロミネンスの韻律的特徴の有無に
ついても検討する。

【００６４】［自然発声音声と実験室音声の差異］実験
室音声と自然発声音声との差異は，前者が原稿を読みな
がら発話するのに対し，後者はその場で発話文を頭の中
で組み立てながら発話することである。従って実験室音
声の場合は，ある程度発話を一定条件に整備した音声を
得ることが出来るが，自然発声音声の場合は，様々な周
囲環境の影響を受けるので，得られる音声は偶然性に左
右された変化に富んだものとなる。

【００６５】検討の結果，会話音声特有の顕著な特徴は
以下のとおりであることがわかった。すなわち，聴取の
結果，以下ようなの変動要因が特徴として認められた。

【００６６】（１）その場で文章を組み立てるため，し
ばしば考えながら発話する。そのためその部分で発話速
度が遅くなる（そのほか，間を置く，感嘆詞を挿入す
る，ときには吃る，等の特徴も見られる）。

【００６７】（２）プロミネンスの形態もバラエティに
富んだものとなる。例えば，基本周波数やパワーの高め
以外に，発話速度の低減もしばしば使われる。

【００６８】（３）句末の時間長の伸長，および文末の
早口傾向が顕著になる。

【００６９】（４）言葉が雑になる傾向が見られ，構文
的省略，音便，無意味音節の湧き出し等がしばしば現れ
る。

【００７０】上記の特徴のうち，（１）〜（３）は時間
構造を主要な特徴としているが，（４）は時間構造以外
の特徴が支配的である。更に（４）の特徴は話者依存性
が大きい。すなわち，この特徴は発声訓練を受けている
「アナウンサ」の声ではあまり認められないが，素人の
声には顕著に現れる。「聞きやすい」音声合成規則を作
成することを目的とした場合，（４）の特徴は，聞きや
すさにとってはむしろマイナスの要因であると考えられ
る。従って本発明では，（１）〜（３）を規則作成の対
象とし，そのための解析の対象とする。

【００７１】以下では，実際の自然発声の会話音声を時
間構造という視点から解析した結果について述べる。と
くにプロミネンスの対象と考えられる部分については，
時間構造と基本周波数との関連という観点からも考察を
行い，実験室音声との差異を明らかにする。解析の方法
としては，公知の方法として，時間構造（単音持続時
間）の計測に関してはスペクトログラム，音声波形およ
びスペクトル変化率を併用した方法，基本周波数の推定
に関しては藤崎モデルを用いた。

【００７２】［自然発声会話音声における単音持続時間
変化パターンの例］図１３(a)〜図１５(c)は男子素人
Ａ，図１６(d)は男性アナウンサＢ，図１７(e)は女子素
人Ｃ，がそれぞれ発声した文の単音（音素）持続時間の
時間変化パターンを示したものである。また図中には，
韻律句（長い韻律句は分割）ごとの平均拍持続時間Lm
（s/拍）の値も記した。但し，文末およびポーズ直前の
音節（拍）については，伸長（pre-boundary lengtheni
ng）の影響を除去するために，持続時間長の計算から除
外した。図より以下の特徴が見られる。

【００７３】（１）プロミネンスが付与されていると認
められる韻律句の平均拍持続時間Lmは，それ以外の韻律
句のLmの値より大きい（但し，１拍のプロミネンスは例
外），すなわち遅口となる。

【００７４】（２）文末韻律句の平均拍持続時間Lmは他
より小さくなる，すなわち早口になる場合が多いが，必
ずしもすべての場合に最も早口になるわけではない。例
えば，主語が倒置して文末に来るような文では，文末は
必ずしも早口にならない（図１６(d))。

【００７５】（３）考えながら話していると認められる
部分では次のような特徴が見られる。ａ．顕著なpre-boundary lengtheningの傾向が見られる
（例：図１３(a)の句末単音持続時間Lの急激な上昇）。

【００７６】ｂ．間（ポーズ）が挿入される（例：図１
３(a)の句末単音持続時間Lの急激な上昇直後の折線の途
切れ部)。

【００７７】ｃ．無意味な音節の湧き出しや吃りが発生
する（吃りの例：図１５(c)の冒頭部分)。

【００７８】ｄ．間をつなぐための感嘆詞が挿入される
（例：「えーと」)。

【００７９】［発話速度とアクセント指令の大きさの関
係］図１８は，プロミネンスという視点から上記３人の
話者が発声した上記同一文の平均拍持続時間Lmと基本周
波数のアクセント指令の大きさAaの関係を示したもので
ある。但し，図には考えながら発声した韻律句および倒
置した文末のデータは含まれていない。図より，プロミ
ネンスの対象となっている韻律句では，LmおよびAaの値
が共に他の場合より大きくなる傾向が見られる。

【００８０】図１９は，朗読文を対象として以前に行っ
た解析結果より得られた，平均拍持続時間Lmと基本周波
数のアクセント指令の大きさAaの関係を参考までに示し
たものである。話者は東京出身の二十代の女性である。
上記自然発声会話文（図１８）と比較すると，朗読文で
は文末はもとより，プロミネンス対象部においても顕著
な時間構造的特徴は見られない。

【００８１】以上より，自然発声会話文では朗読文より
も，プロミネンス対象部に時間構造的特徴がより顕著に
見られる。

【００８２】［実験室会話音声との比較］以下，図１１
に示した実験室音声におけるプロミネンスの韻律的特徴
が自然な会話音声にも見られるか否かについて調べた結
果について述べる。

【００８３】（１）基本周波数に関してプロミネンス対象部におけるアクセント指令の大きさAa
の値は，プロミネンス非対象部における値より大きいこ
とより，自然な会話音声においても基本周波数F₀の増大
は，プロミネンスの韻律的特徴の一つである言える。

【００８４】（２）ポーズ挿入に関してプロミネンス対象部の直前或いは直後では，ポーズが置
かれる場合が多く，自然な会話音声においてもポーズは
プロミネンスの韻律的特徴となっている。なお実験室音
声に見られたポーズ直前の母音の伸長（prepausal leng
thening（下の注参照)）は自然な会話音声においても見
られ，しかも伸長の度合いが実験室音声の場合よりはる
かに大きい。このことは，考えながら話す際の時間稼ぎ
のために生ずると思われる（前述)。尚、本発明では，
pre-boundary lengthening から文末伸長を除いたもの
を prepausal lengthening と呼んでいる。

【００８５】（３）発話速度に関して実験室音声に見られたように，全文の発話速度が低減す
るのではなく，例えばプロミネンス対象部におけるよう
に局所的に発話速度が低減する点が，自然な会話音声に
見られる特徴である。

【００８６】以上の解析結果より，自然な会話音声のプ
ロミネンスを合成により実現するには，基本的には公知
の実験室音声におけるプロミネンス生成規則（例えば特
願平２−１８３９４７号、特願平２−２５０１７２号、
特願平３−１７２１８０号）を基本として，更にプロミ
ネンス対象部においては発話速度を低減させるという時
間構造的な特徴を加えればよい。具体的には図１８にお
けるプロミネンスが置かれているデータの平均拍持続時
間Lmの平均値を発話速度のパラメータとして与えれば所
望の時間構造的な特徴を反映した合成音声を得ることが
出来る。また，平叙文の文末においても，発話速度を早
めればより会話音声らしい合成音声が実現できる。しか
し，平叙文の文末は必ずしもいつでも早口になるわけで
はないので，文末早口の発話速度のパラメータを得よう
とする場合は，例えば文末が早口になっているデータの
みを選択し，その平均拍持続時間Lmの平均値として計算
すればよい。

【００８７】次に、本発明による音声規則合成装置及び
方法の実施例を図１および図２０〜図２９により説明す
る。

【００８８】図２０は任意文章合成方式の全体構成を示
す。本方式では，漢字仮名混じり文のテキストを入力デ
ータとして与えれば，それに対応する合成音声を出力と
して得ることができる。処理手順は以下の通りである。

【００８９】まず入力テキストは，日本語解析部１（特
開昭５９−９８２３６号公報参照）の形態素解析手段に
より，各単語に分解され，品詞が決定され，さらに読み
が決定される。次にこの結果に基づき，音声言語処理部
２（特公昭５９−１３０４０号公報，特開昭５９−０８
１６９７号公報，特開昭６１−６６９３号公報参照）に
おいて，各単語あるいは文節のアクセント型が決定され
る。

【００９０】以上のような構文レベルの処理結果とし
て，音節情報，アクセント情報，プロミネンス情報など
が得られる。なお句や文章の区切りは，入力テキスト中
の句読点等区切り記号に基づいて決定される。文章中や
文章間のポーズ長は，読点や句点の後のスペースの数で
指定できる。また疑問文，命令文，願望文等文のタイプ
は，語尾の活用によって判定することができる場合もあ
るし，あるいは文章の終止に句点の代わりにそれぞれ
「？」，「！！」および「！」などの終止記号を使うこ
とにより指定することもできる。例えば同じ音韻列「川
を渡る」であっても「川を渡る。」は平叙文であり，
「川を渡る？」は疑問文である。

【００９１】以上の音節情報，アクセント情報，
ポーズ情報，句・文章区切り情報，（必要ならば例え
ば品詞名等の）文法情報，およびプロミネンス情報
は，「音節コード」と呼ばれる一連の数字によって表現
される。音節コードは制御パラメータ生成部３の入力情
報である。

【００９２】制御パラメータ生成部３では，アクセン
ト，イントネーション，音韻持続時間，および音源パワ
ー（振幅）修正値が規則により決定され，それに従って
ピッチパターンと音韻パラメータ時系列が生成される。
ここで，音源パワー修正値とは，強めの有無により，標
準的な音源パワーの値を増減するための係数である。こ
の音源パワー修正値は，強めの無い場合に対する倍率で
与えても良いし，絶対数値で与えても良い。また，アク
セント型は，アクセント情報により知ることができる。
アクセント情報は，具体的にはアクセント核のある音韻
（アクセントが下降する直前の音韻）の直後にアクセン
トを示す音節コード番号を挿入することによって与えて
いる。ただし，この音節コードがない場合は，平板型ア
クセントであることを示している。またイントネーショ
ンは，基本的には文章タイプ情報およびプロミネンス情
報より定められる。ただし，語尾の音韻の並びの違いに
よる変形も加えられる。例えば，願望文「川を渡りたい
！」と「川を渡りたいなあ！」とではイントネーション
・パターンが異なる。最終的なピッチパターンは，アク
セント型とイントネーションの両者に基づいて生成され
る。ただし，後に述べるプロミネンスを含有する文章に
ついては，アクセント変形を伴うこともある。音韻持続
時間は，子音の場合は周囲条件の影響が少ないので，子
音の種類ごとに固有長として決定される。それに対し
て，母音の場合は周囲条件によって様々な変形を受け
る。そのため，アクセント型，音節数，単語内の位置，
直前の子音の種類，その母音の種類などから持続時間を
決定している（特開昭５９−０８１６９７号公報）。こ
のようにして音韻持続時間が決定されたら，ＣＶ（子音
−母音連鎖）単位でファイルに登録されている音韻パラ
メータ（生成源方式の場合はスペクトル包絡パラメータ
と音源パラメータ，波形合成方式の場合は音声素片）を
音節コードに対応させて抽出し，配列する。この際，長
すぎれば持続時間内に収まるように切断する。しかる後
に，切断部あるいは隙間部を埋めるようにＣＶ単位間を
補間（生成源方式：スペクトル包絡パラメータは直線補
間，音源パラメータは同一値の繰り返し，波形合成方
式：素片切り出し窓の最大値の補間）により接続する
（詳細は図２７参照）。最後に，以上の処理によって生
成された基本周波数と音韻パラメータは，順次音声合成
部４に送られ，音声波形が出力される。ここで，音声合
成方式としては，例えば残差圧縮法（特開昭６０−１５
０１００号公報，特開昭６１−２９６３９０号公報参
照）を用いればよい。この場合，音源パルスは基本的に
は，フレームごとに１ピッチ分の残差パルス（代表残
差）を抽出し，その代表残差を外から与えるピッチ周期
の間隔で並べることによって生成している。このとき外
から与えるピッチ周期が代表残差の長さより短ければ，
その長さの差だけ代表残差の末尾を切り捨て，逆に長け
れば，代表残差の不足している区間だけ０を埋めてい
る。図２０には音声合成部に残差圧縮法を用いた例を示
しているが，勿論，音声合成方式は残差圧縮法に限定さ
れない。例えば，波形合成方式，特に素片編集方式を用
いても良い。

【００９３】以上の処理は，以下に述べるプロミネンス
生成規則を除いて，すべて公知の手段により構成するこ
とができる。

【００９４】以下では，上記任意文章合成方式の内，本
発明の最も重要な部分である，制御パラメータ生成部３
におけるプロミネンス生成規則の実施例を図１および図
２１〜図２９を引用して示す。

【００９５】まず，プロミネンス情報取得手段について
説明する。その例を以下に記す。

【００９６】（１）平叙文／疑問文等の文のタイプより
（文形固有の卓立）（２）構文情報より（文献１０参照）。

【００９７】（３）旧情報／新情報（文献１１参照），
慣用的な口調。

【００９８】（４）テキスト情報より（カギ括弧，太
字，アンダーライン等）。

【００９９】（５）意味情報より（例：先行疑問文に対
する答えの部分を強め）。

【０１００】上記（１）では，文章タイプ情報よりプロ
ミネンスを実現するパラメータを生成することができる
のに対し，（２）〜（５）では，音声言語処理部２等
で，プロミネンス情報（音節コード表現）を生成しなけ
ればならない。例えば上記（４）におけるカギ括弧の場
合，カギ括弧開きが検出されたら，アクセント指令の開
始時点と大きさ情報（あるいはプロミネンスの分類情報
(例えば図４のような情報)）を含有する音節コードを発
行し，カギ括弧閉じが検出されたら，アクセント指令の
終了時点の情報を含有する音節コードを発行すれば良
い。また，（５）の場合は，意味解析手段が必要とな
る。もし意味解析手段を用いないならば，（４）で代用
することになる。すなわち，人間が強めたいところを上
記のカギ括弧等によりテキスト内で指定すれば良い。

【０１０１】続いて，上記（１）文形固有の卓立を実現
する規則の実施例を示す。まず，図２１において，音声
言語処理部２から得られた音節コード列は，文章タイプ
決定手段５に入力される。ここでは第一段階として，文
章タイプ情報辞書６中の語尾辞書に登録されている語尾
形と音節コード列の文末の形とを照合することにより，
該当する文章タイプを決定する。なお図２１における終
止形は，現代文の場合は動詞なら「ウ」行で終わる語
尾，形容詞なら「イ」でおわる語尾等，公知の国文法の
規則に基いて定められる。命令形の場合も同様に，現代
文なら活用語尾が「エ」行であることから定められる。
以上の文章タイプの判定は，品詞情報などの文法情報が
あれば，さらに確実となる。ここでもし語尾の活用が終
止形と判定された場合は，この文章は必ずしも平叙文と
は限らない。そこで第二段階として，この場合は文章の
終始記号（文末記号）を見に行き，この記号の種類によ
って文章タイプを決定する（例えば，「。」あるいは「.」
なら平叙文，「?」なら疑問文，「!!」なら命令文，「!」なら
願望文，等）。以上の文章タイプ決定手段５の処理の一
例を図２２に示す。

【０１０２】図２１に戻り，文章タイプ決定手段５で
は，上で述べた文章タイプ情報のみが選択的に出力され
る。音節コードより音節情報抽出手段１６により抽出さ
れた音節情報（例えば，「あ」，「い」，「う」等の音節の種
類を数字で表したもの）は，音韻境界を決定するた
め，およびピッチパターンにおける音素成分生成のた
めに用いられる。すなわち，については，音節情報を
もとに，音韻持続時間規則部９において各音節の音韻持
続時間が決定され（前記文献），これらを配列した形で
音韻境界時刻が音韻境界決定手段７により決定される。
音韻境界時刻は，一方ではＬＳＰパラメータ等の音韻パ
ラメータを生成するために用いられる。またについて
は，文章ピッチ制御パラメータ生成部１１において，音
素制御機構パラメータ値を決定するために用いられる。

【０１０３】先の文章タイプ情報は，イントネーション
規則部８および音源パワー（振幅）修正値計算手段１５
に入力され，文章のタイプに従い，標準イントネーショ
ン（例えば平叙文）からの変形が加えられる。変形には
時間の変形と，ピッチ振幅（指令の大きさ）の変形，お
よび音源パワーあるいは振幅の変形の３種類がある。時
間の変形は，音韻境界決定手段７に作用し，音韻境界時
刻に変更が加えられる。他方指令の大きさの変形は，文
章ピッチ制御パラメータ生成部１１に作用し，指令の大
きさが変更されるか，あるいは新たな文形指定指令や強
調指令が追加される。この際標準イントネーションの制
御パラメータはアクセント規則部１０より供給される。
なお文章ピッチ制御パラメータ生成部１１では音韻情報
との時間的整合をとるため，基準となる音韻境界時刻
（タイミング基準情報）を音韻境界決定手段７より得
る。また音源パワーの変形は，音源パワー（振幅）修正
値計算手段１５に作用し，音源パワー値の修正値が計算
され，音源生成部に送られる。なお音源パワー値の修正
値は，数１２，数１３を用いて計算することができる
が，基本周波数増大によるパワーの自然増を利用するの
であるならば，修正処理を省略してもよい。

【０１０４】以上のイントネーションの規則は，規則テ
ーブル（文献５）をイントネーション規則部８に設けて
おき参照することにより達成できる。かくして，プロミ
ネンスのうち，文形固有の卓立は，上記手段により実現
される。

【０１０５】他方，意図的な卓立（上記（４)，（５)）
やその他のデフォルトの卓立（上記（２)，（３)等）に
対するプロミネンス情報は，音節コード中からプロミネ
ンス情報抽出手段１４により，プロミネンス情報のコー
ドを抽出し，このコードから得られる。プロミネンス情
報は，イントネーション規則部８と音源パワー（振幅）
修正値計算手段１５に作用する。

【０１０６】ここで，音節コード列より，文章タイプ
情報，音節情報，プロミネンス情報，および発話
速度情報をそれぞれ抽出する方法の一具体例を示す。例
えば，音節コードの番号に応じ，図２３，図２４に示す
ように情報内容を定義しておけば，文章タイプ決定手段
５（上記），音節情報抽出手段１６（および），
プロミネンス情報抽出手段１４（）のそれぞれに数値
大小判定機能を持たせることにより，該当情報か否か判
定できる。すなわち音節コードが１〜４００であるなら
ば音節情報と判定，９００４〜９０２０であるならば文
章タイプを与える情報であるので，前述の方法により文
章タイプ情報を決定することが出来る。また，音節コー
ドが９０３０〜９０３９であるならばプロミネンス情報
と判定，例えば下１桁の数字にアクセント指令値情報を
割り当てれば良い。一例を挙げれば，音節コード下１桁
の数字をＩで表したとき，プロミネンスの付加されてな
い場合のアクセント指令の大きさに対する，プロミネン
スによるアクセント指令増分値DAaは次式により与える
ことができる。

【０１０７】

【数１６】 DAa=0.1I …（数１６）数１６を用いれば，音節コードにより，アクセント指令
の大きさを0.0から0.9の範囲内で0.1ステップで増大さ
せることができる。もちろんより小きざみなステップで
アクセント指令の大きさを変化させたい場合には，音節
コードを他の値の範囲に割当て（例えば９１００〜９１
９９），下２桁にアクセント指令値情報を割り当てれば
良い。また，プロミネンスによるアクセント指令の増大
・減少をさせるタイミングは，例えば次のようにして決
定することができる。まず，アクセント指令開始時点を
決定する音節境界の指定は，上記プロミネンス情報をも
つ音節コード（例えば９０３０〜９０３９）を境界直前
の音節に対応する音節コードと境界直後の音節に対応す
る音節コードの間に挿入することにより達成できる。次
に，アクセント指令終了時点を決定する音節境界の指定
は，プロミネンス終了を意味するコードとして例えば９
０３０を同様に境界直前の音節に対応する音節コードと
境界直後の音節に対応する音節コードの間に挿入するこ
とにより達成できる。また，プロミネンスの開始あるい
は終了が高アクセントの領域で起きる場合，すなわちア
クセント変形型の場合は，アクセント変形を起こす音節
境界の指定は，同様に境界直前直後の音節に対応する音
節コードの間にプロミネンスの開始あるいは終了のコー
ドを挿入することにより達成できる。かくしてプロミネ
ンスによるアクセント指令開始・終了時点設定のタイミ
ング基準時刻が定まれば，実際の開始・終了時点はこの
基準時刻からのずれ量としてタイミングテーブルから検
索することにより求めることができる。

【０１０８】更に，音節コードが−１００〜−２９９で
あるならば局所的に発話速度を変化させる情報なので，
以上によりプロミネンス区間が求まれば，当該区間にお
ける発話速度を音節コード情報に基づき変化させること
ができる。例えば，−１００〜−１９９が発話速度低減
（遅め），−２００〜−２９９が発話速度の速めと定め
ておき，それぞれの値の範囲について下２桁の値が拍当
りの発話速度の変化分（単位ms）と定めておけば，発話
速度を標準値から拍当り±９９msの範囲で変化させるこ
とができる。この手段により，プロミネンス対象部の遅
めも，文末の速めも実現することができる。図２５に実
例を示す。

【０１０９】次に，パワーを制御しポーズを生成する方
法の具体例を示す。図２１では，音声合成部に生成源方
式（例えば残差圧縮法＋LSP合成器）を用いた例を示し
ているが，生成源方式に限定されない。勿論波形合成方
式でもまったく同じ考え方で波形振幅のパワーを制御す
ることが出来る。

【０１１０】図２６は，音声合成部に残差圧縮法を用い
た場合の例を示している。スペクトル包絡パラメータ
は，LSPパラメータ，PARCOR係数等，任意のパラメータ
を利用出来る。ちなみに，図中の接続補間処理は，例え
ば図２７のような手段により実現できる。音源パワー
（振幅）修正値計算手段１５（図２１）で得られたパワ
ー値の平方根（振幅値で与えられるならばそのままの
値）が有声音源生成部あるいは無声音源生成部に与えら
え，残差（音源）振幅が修正される。修正値は，実際の
値で与える場合は，例えば時間不連続を防ぐために，フ
レームごとに，パワー実測値（例えば特開平３−７８８
００号公報，特願平２−１８３９４７号，特願平２−２
５０１７２号）の平方根に近似した振幅包絡曲線（例え
ば，図２８）の値として与えれば良い。もし修正値を倍
率で与える場合は，合成単位が本来持っている自然音声
の振幅包絡形を活用出来るので，強調部に対応するフレ
ーム間のみで，合成単位の音源振幅値に指定した倍率を
乗ずれば良い。また所定持続時間のポーズを生成する場
合は，その時間の間だけ無音生成指令を発行して，無音
（０値）を出力すれば良い。

【０１１１】図２９は，音声合成部に波形合成方式を用
いた場合の例を示している。この場合は，図１７の音源
パワー（振幅）修正値計算手段１５は，波形パワー（振
幅）修正値計算手段と置き換えられるが，処理内容は，
音源の場合と全く同様である。違いは，単に実現値が異
なるだけである。波形パワー（振幅）修正値計算手段で
得られたパワー値の平方根（振幅値で与えられるならば
そのままの値）が素片窓生成部に与えられ，素片編集時
に素片振幅が修正される。修正値の時間変化パターン
は，上記残差圧縮法の場合と全く同様の考え方で与えら
れる。また，ポーズの生成方法も残差圧縮法の場合と同
様，所定時間長の０振幅波形を出力すれば実現出来る。

【０１１２】他の合成方式の場合も，各波形振幅制御手
段に応じて，全く同様の方法でパワー（振幅）制御が実
現できる。

【０１１３】プロミネンスを具体的にどの様なパラメー
タ値により実現するかを定めた韻律（ピッチ，パワー，
時間長）の制御方法の一例を示したのが図１である。な
お，図１におけるプロミネンスを含有しない場合の基準
値は，例えば，アクセント指令の大きさおよび開始・終
了時点については，公知のアクセント成分生成規則（文
献3,14）により決定すれば良い。あるいはより簡便な方
法としては，アクセント指令の大きさの基準値Aa=0.3,
アクセント指令開始・終了時点の基準音節境界からの相
対値ΔT₁=ΔT₂=ΔT₁₂=0としても実用上音質にほとんど
支障は無い。図１は，自然音声（実験室音声）の定量的
解析結果（図５〜図１０）に基づき求めたものであるの
で，図１に従い，音声を合成すれば，朗読文，解説文等
原稿に基づく文章については自然な強調感をもった合成
音声が得られる。勿論，図１はパラメータ実現値の一例
であり，これらの数値に限定されない。実際には，様々
な強めの変形がありうるので，それに対応した数値の変
形の可能性は無数に存在する。そのような数値の変形の
中で，自然な会話音声において優れた性能（すなわち優
れたプロミネンス表現力）を有するようにパラメータ値
を選ぶことができる。以下，そのようなパラメータ選定
の一実施例を示す。

【０１１４】「作用」のところで詳述した自然な会話音
声を対象とした解析結果に基づき，「自然な会話音声」
特有のプロミネンスを付与するための韻律制御パラメー
タの値を示したのが図１「時間構造」中のDLである。図
１は本発明の中枢をなすものであり，自然な会話音声に
おけるプロミネンス表現力を著しく改善する手段を提供
するものである。

【０１１５】実際に図１による韻律制御を実現する具体
例を図２５に示す。

【０１１６】本実施例では，プロミネンスのピッチによ
る強めあるいは弱めをアクセント指令の増減により行う
例を示したが，勿論，前述のように，強調成分を用いて
行っても良い。この場合，例えば数４〜数６によりパラ
メータ値を変換しても良いし，新たにパラメータテーブ
ルを作り直しても良い。

【０１１７】他方，音素制御パラメータは，音素ごとに
指令の大きさ，固有角周波数，境界からの相対時刻，底
の値等を予め解析して求めておき，音節情報に対応する
テーブルとして音素規則部１３に設けておけば良い。こ
こから音節情報列の順に従って，音素制御パラメータ列
が文章ピッチ制御パラメータ部１１に送られる。ここで
音素開始あるいは終了時点（相対時刻）は，タイミング
基準情報に基いて絶対時刻に変換される。かくして文章
ピッチ制御パラメータ生成部１１で作成されたピッチ制
御パラメータはピッチパターン生成部１２に送られ，こ
こで新ピッチ制御機構モデル（下記の数１７〜数２４）
により文章ピッチパターンが生成される。フレーズ制
御機構：

【０１１８】

【数１７】 Gp(i,t)=α(i)t exp(-α(i)t)u(t) …（数１７) t ：時刻 α(i) ：ｉ番目の固有角周波数 u(t)：単位ステップ関数アクセント制御機構：

【０１１９】

【数１８】 Ga(j,t)=Min[1-(1+β(j)t) exp(-β(j)t)u(t),θ(j)] …（数１８) β(j) ：ｊ番目の固有角周波数 θ(j) ：ｊ番目の上限値音素制御機構：

【０１２０】

【数１９】 Gf(k,t)=-Min[1-(1+γ(k)t) exp(-γ(k)t)u(t),φ(k)] …（数１９) あるいは

【０１２１】

【数２０】 Gf(k,t)=exp(-γ(k)t)u(t) …（数２０) γ(k) ：ｋ番目の固有角周波数 φ(k) ：ｋ番目の底の値文形指定制御機構：

【０１２２】

【数２１】 Gt(l,t)=Min[1-(1+ζ(l)t) exp(-ζ(l)t)u(t),θt(l)] …（数２１) ζ(l) ：ｌ番目の固有角周波数 θt(l)：ｌ番目の上限値強調制御機構：

【０１２３】

【数２２】 Gs(m,t)=Min[1-(1+η(m)t) exp(-η(m)t)u(t),θs(m)] …（数２２) η(m) ：ｍ番目の固有角周波数 θs(m)：ｍ番目の上限値ピッチパターン：

【０１２４】

【数２３】

【０１２５】あるいは

【０１２６】

【数２４】

【０１２７】ここで，Fminは最低周波数，Iはフレーズ
指令の数，Ap(i)はi番目のフレーズ指令の大きさ，T
₀(i)はi番目のフレーズ指令の時点，Jはアクセント指令
の数，Aa(j)はj番目のアクセント指令の大きさ，T
₁(j)，T₂(j)はそれぞれj番目のアクセント指令の開始時
点と終了時点，Kは音素指令の数，Af(k)はk番目の音素
指令の大きさ，T₃(k)，T₄(k)はそれぞれk番目の音素指
令の開始時点と終了時点，Lは文形指定指令の数，At(l)
はl番目の文形指定指令の大きさ，T₅(l)，T₆(l)はそれ
ぞれl番目の文形指定指令の開始時点と終了時点，Mは強
調指令の数，As(m)はm番目の強調指令の大きさ，T
₇(m)，T₈(m)はそれぞれm番目の強調指令の開始時点と終
了時点である。

【０１２８】本実施例における韻律制御方法（図１）
は，自然な会話音声の解析結果として求められたもので
あるので，この方法により韻律の制御を行えば，漢字仮
名混じり文テキストから合成される会話音声に，極めて
自然で有効な強調効果をもたらすことができる。

【０１２９】以上本実施例では，プロミネンスのピッチ
による強めあるいは弱めをピッチ制御機構モデルあるい
は新ピッチ制御機構モデルにより実現する方法を示した
が，勿論プロミネンス実現方法は，これらのモデルのみ
に限定されない。どの様なモデルを用いても良い。例え
ば，点ピッチ（折線近似ピッチパターン）でも実現可能
であるし，あるいは階段状のピッチパターンを用いても
何ら支障は無い。

【０１３０】

【発明の効果】以上示したように，本発明は，人間の発
声する自然な会話音声に含まれる強めや弱めを規則合成
において実現する手段及び方法を提供するものである。
本発明によれば，現実の会話音声に起こるような自然な
強め，弱めを実現することができる。そのため，利用者
が特別の注意を払うことなく発話内容を容易に理解する
ことができるので，利用者の負担を著しく軽減すること
が可能となる。特に長時間作業時の疲労軽減効果は著し
く，作業効率向上により得られる利益は図り知れない。

【図面の簡単な説明】

【図１】本発明の基本部分を示す図である。

【図２】本発明を実現する手段の例を示す図である。

【図３】本発明を実現する手段の例を示す図である。

【図４】本発明の基本部分を補足する図である。

【図５】本発明の考え方を例示する図である。

【図６】本発明の考え方を例示する図である。

【図７】本発明の考え方を例示する図である。

【図８】本発明の考え方を例示する図である。

【図９】本発明の考え方を例示する図である。

【図１０】本発明の考え方を例示する図である。

【図１１】本発明の考え方を例示する図である。

【図１２】本発明の考え方を例示する図である。

【図１３】本発明の考え方を例示する図である。

【図１４】本発明の考え方を例示する図である。

【図１５】本発明の考え方を例示する図である。

【図１６】本発明の考え方を例示する図である。

【図１７】本発明の考え方を例示する図である。

【図１８】本発明の考え方を例示する図である。

【図１９】本発明の考え方を例示する図である。

【図２０】本発明の実施例を示す図である。

【図２１】本発明の実施例を示す図である。

【図２２】本発明の実施例を示す図である。

【図２３】本発明の実施例を示す図である。

【図２４】本発明の実施例を示す図である。

【図２５】本発明の実施例を示す図である。

【図２６】本発明の実施例を示す図である。

【図２７】本発明の実施例を示す図である。

【図２８】本発明の実施例を示す図である。

【図２９】本発明の実施例を示す図である。

【符号の説明】

３…制御パラメータ生成部，８…イントネーション規則
部，９…音韻持続時間規則部，１０…アクセント規則
部，１１…文章ピッチ制御パラメータ生成部，１２…ピ
ッチパターン生成部，１４…プロミネンス情報抽出手
段，１５…音源パワー（振幅）修正値計算手段。

Claims

【特許請求の範囲】

【請求項１】入力文章を形態素解析する言語処理手段
と；上記言語処理手段の出力に基づいて制御パラメータ
を生成する制御パラメータ生成部を有し、該制御パラメ
ータに応じて音声の時間長を制御する第１の韻律制御手
段であって，上記言語処理手段の出力に基づいてプロミ
ネンスの有無を判定し，該有無に従って，上記制御パラ
メータを制御する第１の韻律制御手段と；を有すること
を特徴とする音声規則合成装置において，上記制御パラ
メータの変化分を，プロミネンスが付加された文単位に
対して，プロミネンスが付加されていない場合の文末以
外の拍持続時間長に対する増分として定義される「第１
の拍持続時間増分」DL₁を正の値に設定する手段を具備
することを特徴とする音声規則合成装置。
【請求項２】上記請求項１記載の第１の韻律制御手段
は，上記言語処理手段の出力に基づいて上記入力文章の
タイプを判定し，該タイプに従って制御パラメータを生
成する制御パラメータ生成部を有し、該制御パラメータ
に応じて音声の時間長を制御するように構成され，上記
入力文章のタイプが平叙文の場合，該文章の文末の拍持
続時間長をプロミネンスが付加されていない場合の文末
以外の拍持続時間長に対する増分として定義される「第
２の拍持続時間増分」DL₂を負の値に設定する手段を具
備することを特徴とする音声規則合成装置。
【請求項３】請求項１記載の第１の拍持続時間増分DL₁
設定手段と，請求項２記載の第２の拍持続時間増分DL₂
設定手段とを共に具備することを特徴とする音声規則合
成装置。
【請求項４】入力文章を形態素解析する言語処理手段
と；上記言語処理手段の出力に基づいて上記入力文章の
タイプを判定し，該タイプに従って制御パラメータを生
成する制御パラメータ生成部と該制御パラメータに応じ
て基本周波数の時間変化パターン（以下略してピッチパ
ターンと呼ぶ）を生成するピッチパターン生成部とを有
する第２の韻律制御手段であって，上記言語処理手段の
出力に基づいてプロミネンスの分類を判定し，自然音声
の解析結果に基づいて上記プロミネンスの分類対応であ
らかじめ求めた上記制御パラメータの変化分に従って，
上記制御パラメータを制御する第２の韻律制御手段と；
上記言語処理手段の出力に基づいて上記入力文章に応じ
た音韻パラメータ列を生成し，該音韻パラメータ列と上
記第２の韻律制御手段で生成したピッチパターンとによ
り順次音声を合成する音声合成手段と；を有することを
特徴とする音声規則合成装置において，上記ピッチパタ
ーン生成部は，アクセント成分の大きさ，その開始およ
び終了時刻を制御するアクセント制御機構を少なくとも
有し，上記制御パラメータの変化分として上記アクセン
ト成分の変化分を設定したことを特徴とし，上記制御パ
ラメータの変化分を，文形が平叙文でかつプロミネンス
が付加された文単位（文節，単語，単語の一部，音節
等）が，先頭文節以外でありかつアクセント型がアクセ
ント変形型でない場合は，プロミネンスが付加されてい
ない場合のアクセント成分の大きさに対する増分として
定義される「アクセント指令増分」と，隣接するアクセ
ント成分に対する「アクセント指令増分」との差である
変化分ΔDAaを0.7±0.2の範囲内に設定し，先頭文節以
外でありかつアクセント型がアクセント変形型である場
合は該ΔDAaを0.4±0.2の範囲内の値に設定し，先頭文
節の場合は該ΔDAaを0.3±0.2の範囲内の値に設定し，
アクセントがプロミネンスにより新たに生起した場合，
該プロミネンスが付与された文単位直前にポーズを挿入
する場合は該ΔDAaを0.1±0.1の範囲内の値に設定し，
ポーズを挿入しない場合は該ΔDAaを0.3±0.2の範囲内
の値に設定し，文形が疑問文の場合は先頭文節のアクセ
ント成分の大きさAa₁を該Aa₁と第２文節のアクセント成
分の大きさAa₂の差が0.0±0.1の範囲内の値になるよう
に設定し，かつ文末アクセントに対応するΔDAaを0.4±
0.2の範囲内の値に設定し，文形が平叙文でかつプロミ
ネンスを文章中のいずれの文単位にも指定していない場
合は先頭文節のアクセント成分の大きさAa₁を該Aa₁と第
２文節のアクセント成分の大きさAa₂の差が0.1±0.1の
範囲内の値になるように設定し，文形が平叙文でかつ文
末文節と文末直前の文節にプロミネンスを指定していな
い場合は文末文節のアクセント成分の大きさAa(J)を該A
a(J)と文末直前文節のアクセント成分の大きさAa(J-1)
の差が-0.1±0.2の範囲内の値になるように設定し，上
記第１の拍持続時間増分DL₁を 0.06±0.03の範囲内の値
に設定し，上記第２の拍持続時間増分DL₂を-0.02±0.02
の範囲内の値に設定する手段を有することを特徴とする
請求項１記載の音声規則合成装置。
【請求項５】上記音声合成手段で合成される音声のパワ
ーを制御する第３の韻律制御手段を有することを特徴と
する請求項４記載の音声規則合成装置。
【請求項６】上記第３の韻律制御手段は，デシベル（d
B）単位で定義されるパワーＰの値を上記アクセント成
分の指令の大きさAaより式Ｐ=11Aa±4 (dB) で求まる値に設定する手段を具備することを特徴とする
請求項５記載の音声規則合成装置。
【請求項７】上記第３の韻律制御手段は，上記第２の韻
律制御手段によるピッチパターンの変化に伴うパワーの
変化を利用する手段を具備することを特徴とする請求項
５記載の音声規則合成装置。
【請求項８】上記音声合成手段で合成される音声の時間
長を制御する第１の韻律制御手段は，上記音韻パラメー
タ列に対応する音素の持続時間を制御する手段からな
り，上記第１の韻律制御手段は，上記プロミネンスが付
加された文単位の直後にポーズがある場合は，該文単位
末尾の母音の持続時間を強調のない場合の該母音の持続
時間の66±33%の範囲内の値だけ伸長し，文形が疑問文
の場合は，文末の母音の持続時間を平叙文の場合の該母
音の持続時間の78±22%の範囲内の値だけ伸長すること
を特徴とする請求項１〜７のいずれかに記載の音声規則
合成装置。
【請求項９】入力文章を形態素解析して音節コード列で
表現するステップと；上記音節コード列に基づいて制御
パラメータを生成するステップと該制御パラメータに応
じて音声の時間長を制御するステップであって，上記音
節コード列に基づいてプロミネンスの有無を判定し，該
有無に従って，上記制御パラメータを制御するステップ
と；を有することを特徴とする音声規則合成方法におい
て，上記制御パラメータの変化分を，プロミネンスが付
加された文単位に対して，プロミネンスが付加されてい
ない場合の文末以外の拍持続時間長に対する増分として
定義される「第１の拍持続時間増分」DL₁を正の値に設
定したことを特徴とする音声規則合成方法。
【請求項１０】上記請求項９記載の音声の時間長を制御
するステップは，上記音節コード列に基づいて上記入力
文章のタイプを判定し，該タイプに従って制御パラメー
タを生成するステップと該制御パラメータに応じて音声
の時間長を制御するステップを有することを特徴とする
音声規則合成方法において，上記入力文章のタイプが平
叙文の場合，該文章の文末の拍持続時間長をプロミネン
スが付加されていない場合の文末以外の拍持続時間長に
対する増分として定義される「第２の拍持続時間増分」
DL₂を負の値に設定したことを特徴とする音声規則合成
方法。
【請求項１１】請求項９記載の第１の拍持続時間増分DL
₁設定と，請求項１０記載の第２の拍持続時間増分DL₂設
定とを共に行なうことを特徴とする音声規則合成方法。
【請求項１２】入力文章を形態素解析して音節コードで
表現するステップと；上記音節コード列に基づいて上記
入力文章のタイプを判定し，該タイプに従って制御パラ
メータを生成し，該制御パラメータに応じてピッチパタ
ーンを生成するステップであって，上記音節コード列に
基づいてプロミネンスの分類を判定し，自然音声の解析
結果に基づいて上記プロミネンスの分類対応であらかじ
め求めた上記制御パラメータの変化分に従って，上記制
御パラメータを制御するステップと；上記音節コード列
に基づいて上記入力文章に応じた音韻パラメータ列を生
成し，該音韻パラメータ列と上記韻律制御手段で生成し
たピッチパターンとにより順次音声を合成するステップ
と；からなることを特徴とする音声規則合成方法におい
て，上記制御パラメータとして，アクセント成分の大き
さ，その開始および終了時刻を制御するパラメータを用
い，上記制御パラメータの変化分として上記アクセント
成分の変化分を設定したことを特徴とし，上記制御パラ
メータの変化分を，文形が平叙文でかつプロミネンスが
付加された文単位（文節，単語，単語の一部，音節等）
が，先頭文節以外でありかつアクセント型がアクセント
変形型でない場合は，プロミネンスが付加されていない
場合のアクセント成分の大きさに対する増分として定義
される「アクセント指令増分」と，隣接するアクセント
成分に対する「アクセント指令増分」との差である変化
分ΔDAaを0.7±0.2の範囲内に設定し，先頭文節以外で
ありかつアクセント型がアクセント変形型である場合は
該ΔDAaを0.4±0.2の範囲内の値に設定し，先頭文節の
場合は該ΔDAaを0.3±0.2の範囲内の値に設定し，アク
セントがプロミネンスにより新たに生起した場合，該プ
ロミネンスが付与された文単位直前にポーズを挿入する
場合は該ΔDAaを0.1±0.1の範囲内の値に設定し，ポー
ズを挿入しない場合は該ΔDAaを0.3±0.2の範囲内の値
に設定し，文形が疑問文の場合は先頭文節のアクセント
成分の大きさAa₁を該Aa₁と第２文節のアクセント成分の
大きさAa₂の差が0.0±0.1の範囲内の値になるように設
定し，かつ文末アクセントに対応するΔDAaを0.4±0.2
の範囲内の値に設定し，文形が平叙文でかつプロミネン
スを文章中のいずれの文単位にも指定していない場合は
先頭文節のアクセント成分の大きさAa₁を該Aa₁と第２文
節のアクセント成分の大きさAa₂の差が0.1±0.1の範囲
内の値になるように設定し，文形が平叙文でかつ文末文
節と文末直前の文節にプロミネンスを指定していない場
合は文末文節のアクセント成分の大きさAa(J)を該Aa(J)
と文末直前文節のアクセント成分の大きさAa(J-1)の差
が-0.1±0.2の範囲内の値になるように設定し，上記第
１の拍持続時間増分DL₁を 0.06±0.03の範囲内の値に設
定し，上記第２の拍持続時間増分DL₂を-0.02±0.02の範
囲内の値に設定したことを特徴とする請求項９記載の音
声規則合成方法。
【請求項１３】上記合成される音声のパワーを制御する
ことを特徴とする請求項１２記載の音声規則合成方法。
【請求項１４】上記パワーの制御は，デシベル（dB）単
位で定義されるパワーＰの値を上記アクセント成分の指
令の大きさAaより式Ｐ=11Aa±4 (dB) で求まる値に設定したことを特徴とする請求項１３記載
の音声規則合成方法。
【請求項１５】上記パワーの制御は，上記ピッチパター
ンの変化に伴うパワーの変化を利用することを特徴とす
る請求項１３記載の音声規則合成方法。
【請求項１６】上記合成される音声の時間長の制御は，
上記音韻パラメータ列に対応する音素の持続時間を制御
することによって行い，上記音声の時間長制御は，上記
プロミネンスが付加された文単位の直後にポーズがある
場合は，該文単位末尾の母音の持続時間を強調のない場
合の該母音の持続時間の66±33%の範囲内の値だけ伸長
し，文形が疑問文の場合は，文末の母音の持続時間を平
叙文の場合の該母音の持続時間の78±22%の範囲内の値
だけ伸長することを特徴とする請求項９〜１５のいずれ
かに記載の音声規則合成方法。