JPH0580791A - 音声規則合成装置および方法 - Google Patents

音声規則合成装置および方法

Info

Publication number
JPH0580791A
JPH0580791A JP3241103A JP24110391A JPH0580791A JP H0580791 A JPH0580791 A JP H0580791A JP 3241103 A JP3241103 A JP 3241103A JP 24110391 A JP24110391 A JP 24110391A JP H0580791 A JPH0580791 A JP H0580791A
Authority
JP
Japan
Prior art keywords
sentence
accent
prominence
value
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3241103A
Other languages
English (en)
Inventor
Shoichi Takeda
昌一 武田
Hiroshi Ichikawa
熹 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP3241103A priority Critical patent/JPH0580791A/ja
Publication of JPH0580791A publication Critical patent/JPH0580791A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】本発明は会話音声の規則合成装置及び方法に係
わり,特にプロミネンスという音声の局所的強調を表現
する能力の改善に関する。 【構成】韻律制御パラメータ(特に時間構造に関するパ
ラメータDL)を与える。 【効果】極めて自然で聞きやすい会話音声を合成するこ
とができる。特に会話音声特有の強調表現が実現でき
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文章音声の規則合成装置
および方法に係わり,特に規則合成音声の品質改善に関
する。
【0002】
【従来の技術】本発明に関連した技術として、以下の文
献が知られている。
【0003】1. 市川 熹,他;合成音声の自然性に関
する実験的考察,音響学会講演論文集1-3-8(昭42) 2. 中山 剛,他;合成音声の音源特性制御による疑
問,強調の表現,電子通信学会大会 64(昭43) 3. 特開昭59-081697号公報(単語規則合成に藤崎モデル
を使用) 4. 特開昭60-074224号公報(段落ごとに発声の調子を改
め,更に自然な揺らぎを与える) 5. 特開昭62-138898号公報(疑問文,命令文,願望文等
のイントネーションを藤崎モデルにより生成) 6. H. Fujisaki et. al., "Analysis of voice fundame
ntal frequencycontours for declarative sentences o
f Japanese," J. Acoust. Soc. Jpn.(E)5,4 (1984). 7. 佐藤利男;有声,無声破裂音の時間要素の差異につ
いて,日本音響学会誌第14巻第2号(1958) 8. 落合和雄;無声破裂音におけるピッチ周波数変化の
聴覚的検討,日本音響学会講演論文集 2-3-12(昭43-1
1) 9. 特開昭63-174100号公報(藤崎モデルに更に音素制御
機構,文形指定制御機構,および強調制御機構を付加した
モデル) 10.廣瀬啓吉,藤崎博也,他2;基本周波数パターン生
成過程モデルに基づく文章音声の合成,電子情報通信学
会論文誌 A, J72-A, 1, pp.32-40 (1989-1) 11.河井恒,廣瀬啓吉,藤崎博也;日本語音声の合成に
おける韻律的特徴の合成規則,電子情報通信学会技術報
告 音声, SP88-129 (1989-1) 12.特開平3-78800号公報(プロミネンス生成規則基本特
許出願) 13.藤崎博也,廣瀬啓吉,他2;連続音声中におけるア
クセント成分の実現,音声研究会資料, S84-36 (1984-
7) 14.武田昌一,市川 熹;4モーラ単語を対象としたピ
ッチ制御機構モデルパラメータの推定,日本音響学会講
演論文集 1-5-13 (昭57-3) これらの文献を参照して,従来の技術について説明す
る。
【0004】任意の文章あるいは単語のテキストより,
これに対応する音声を合成する手法は「規則による音声
合成」あるいは単に「規則合成」と呼ばれている。規則
合成の音声では,一般に,音韻のつながりや,持続時
間,あるいはピッチ(声の高さ)の変化などの特徴を外
部から規則により与えているため,自然の音声のものと
は異なっている。したがって,規則合成による音声は,
これらの自然の音声の特徴をそのまま保存しているいわ
ゆる「分析合成」による音声の音質より悪い。規則合成
音声の音質劣化要因として,音韻の明瞭性の低下に起
因するものや,文章の抑揚の不自然さに起因するもの
が挙げられる。
【0005】文章の抑揚を支配する規則,すなわち韻律
規則については,すでに日本語の平叙文,疑問文,命令
文,強調および種々の表情を持つ文章のイントネーショ
ンを生成する規則の公知例がある(上記文献1,2)。
しかしここで用いたモデルは,音節単位の点ピッチ情報
を与えるに過ぎないため,疑問文,命令文,願望文の差
異を表現するには不十分である。そのためにこのような
ピッチパターンを与えて合成した音声の抑揚は不自然に
聞こえる。
【0006】種々の文章のイントネーションの差異を十
分に表現するためには,音節内の基本周波数(ピッチ周
波数)と時間との関係を明確にする必要がある。このよ
うな音節内のピッチパターンを記述し,しかも時間構造
を明確に定義できるモデルとして,従来,臨界制動2次
線形系で記述される「ピッチ制御機構モデル」(文献
6)が用いられてきた。
【0007】このピッチ制御機構モデルを適用したもの
として,単語音声合成に適用した例(文献3),疑問
文,命令文,願望文等の文章音声合成に適用した例(文
献5)等があり,かなりの音質改善効果が認められてい
る。
【0008】文献9は,更に,音韻明瞭性の改善に効果
的な音素レベルの局所的な揺らぎ(文献7,8)を表現
する成分を付加したものである。また,疑問文に現れる
尻上がり調や,命令文,願望文等,様々な感情や表情に
固有な微妙な基本周波数の変化を表現する成分(文献
5)も付加されている。文献9では,これらの成分を生
成する修正型ピッチ制御機構モデルを用いて人間らしい
自然な抑揚感を持った音声を合成する方法を提供してい
る。
【0009】
【発明が解決しようとする課題】上述した各種のピッチ
制御機構モデルのうち,音素制御機構の導入により,合
成音声の音韻明瞭性は改善されるに至った。しかし,感
情や特別の表情の付かない通常の文章では,発話の単調
さ,機械的な感じは取り除かれていない。このような単
調さや機械感は,特に合成音声システムの長時間利用者
にとって,大きな負担になり,疲労をもたらす。これら
の単調さや機械感を取り除かないかぎり,例えば新聞校
閲における読み合わせ作業のような,長時間利用型のシ
ステムへの適用に供することができない。
【0010】他方,人間の発声する自然音声を長時間聞
いても,疲労感が少ない理由の一つは,発話の中で,局
所的に強めたり,逆に弱めたりして,発話に変化をつけ
ているからである。すなわち,人間は強めたいところで
は,相対的に声の高さを高め,声を大きくし,しかもゆ
っくりと話す。逆に重要でないところでは,低く小さい
声で,しかも早口で曖昧に話そうとする。即ち,書き言
葉における「カギ括弧」や「太字」等に相当する強調表
現を話し言葉でも行っているのである。この強めや弱め
によって,聞く人は常に発話に注意を傾ける必要がなく
なり,負担が軽減する。
【0011】本発明は,このような自然音声が持つ強め
や弱めを合成音声において実現する装置及び方法を提供
するものである。
【0012】
【課題を解決するための手段】上記の文音声における強
めや弱めは,文中の他の部分との相対的な強弱によって
行われる。このように他の部分に対して相対的に引き立
たせる(卓立させる)強めは,「プロミネンス」あるい
は「対比強調」と呼ばれている。
【0013】言語学的立場からプロミネンスを分類し、
これに従い、本発明では、これらプロミネンスの韻律的
特徴を定量的に表現するための尺度を導入する。即ち、
プロミネンスの分類に対応して、自然音声の解析結果に
基づいて求めた韻律の制御パラメータを記憶するプロミ
ネンス生成規則を用い、該プロミネンス生成規則に従っ
て、プロミネンス付加時の韻律制御パラメータを制御す
る。
【0014】これらのプロミネンスは、音声情報処理的
には、(1)基本周波数、(2)音声波形振幅(パワ
ー)、および(3)時間長(音素あるいは「間」(ポー
ズ)持続時間)の増大や減少によって実現される。特
に、本発明では、韻律制御パラメータの変化分を、プロ
ミネンスが付加された文単位に対して、プロミネンスが
付加されていない場合の文末以外の拍持続時間長に対す
る増分として定義される「第1の拍持続時間増分」DL1
を正の値に設定する。
【0015】
【作用】本発明のプロミネンス生成規則による韻律制御
は、自然音声の定量的解析に基づき求められたものなの
で、入力文書(テキスト)から合成される音声に、人間
らしい自然な強め、弱めを与えることができる。本発明
によれば、現実の文章音声を起り得るほとんどすべての
場合の強め、弱めを実現することができる。従って、利
用者が特別の注意を払うことなく発話内容を容易に理解
することができ、利用者の負担を著しく軽減することが
可能となる。特に、新聞校閲のような長時間の作業時の
疲労軽減効果は著しく、作業の効率向上が期待できる。
【0016】
【実施例】まず、本発明の実施例で用いる「ピッチ制御
機構モデル」について説明する。ここでピッチ制御機構
モデルとは、以下に述べるようなモデルである。
【0017】声の高さの情報を与える基本周波数は,次
のような過程で生成されると考えるのがピッチ制御機構
モデルである。声帯振動の周波数,すなわち基本周波数
は,脳からのフレーズの切り替わりごとに発せられる
インパルス指令と,アクセントの上げ下げごとに発せ
られるステップ指令によって制御される。そのとき,生
理機構の遅れ特性により,のインパルス指令は文頭か
ら文末に向かう緩やかな下降曲線(フレーズ成分)とな
り,のステップ指令は局所的な起伏の激しい曲線(ア
クセント成分)となる。これらの二つの成分は,各指令
の臨界制動2次線形系の応答としてモデル化され,対数
基本周波数の時間変化パターンは,これら両成分の和と
して表現される。図2はピッチ制御機構モデルを示す。
モデル基本周波数F0(t)(tは時刻)は,次式のように
定式化される。
【0018】
【数1】
【0019】ここで,Fminは最低周波数,Iはフレーズ
指令の数,Ap(i)はi番目のフレーズ指令の大きさ,T
0(i)はi番目のフレーズ指令の時点,Jはアクセント指令
の数,Aa(j)はj番目のアクセント指令の大きさ,T
1(j),T2(j)はそれぞれj番目のアクセント指令の開始時
点と終了時点である。また,Gp(i,t),Ga(j,t)はそれぞ
れ,フレーズ制御機構のインパルス応答関数,アクセン
ト制御機構のステップ応答関数であり,次式で与えられ
る。
【0020】
【数2】 Gp(i,t)=α(i)t exp(-α(i)t)u(t) …(数2)
【0021】
【数3】 Ga(j,t)=Min[1-(1+β(j)t) exp(-β(j)t)u(t),θ(j)] …(数3) ここで,α(i)はi番目のフレーズ指令に対するフレーズ
制御機構の固有角周波数,β(j)はj番目のアクセント指
令に対するアクセント制御機構の固有角周波数,u(t)は
単位ステップ関数である。また,θ(j)はアクセント成
分の上限値であり,例えば0.9などに選ばれる。
【0022】なおここで,基本周波数(ピッチ周波数)
およびピッチ制御パラメータ(Ap(i), Aa(j),T0(i), T
1(j), T2(j), α(i), β(j), Fmin)の値の単位は次のよ
うに定義される。すなわち,F0(t)およびFminの単位は
[Hz],T0(i), T1(j)およびT2(j)の単位は[s],α(i)お
よびβ(j)の単位は[1/s]とする。またAp(i)およびAa(j)
の値は,基本周波数およびピッチ制御パラメータの値の
単位を上記のように定めたときの値を用いる。
【0023】解析の方法としては,最適化法が用いられ
ている。すなわち,上記ピッチ制御機構モデルにより生
成したピッチパターンと原音声の分析・抽出による実測
値との誤差が最小となるようなピッチ制御パラメータを
求めることにより,ピッチパターンの最良近似推定が行
われる(文献6)。
【0024】次に、「修正型ピッチ制御機構モデルにつ
いて説明する。図3(a)は修正型ピッチ制御機構モデ
ルを示す。
【0025】この修正型モデルの特徴は,従来のフレ
ーズ制御機構およびアクセント制御機構のみから構成
されるモデルに,更に音素制御機構,文形指定制御
機構,および強調制御機構の3つの制御機構を付加し
たことである。これら〜の3つの制御機構の導入に
より,ピッチパターン上に様々な揺らぎ成分を付加する
ことが出来る。
【0026】すなわち,上記音素制御機構は,音素ご
との局所的な基本周波数の揺らぎの成分を生成する機構
で,例えば有声子音/d/,/m/,/n/,/r/,/w/等の局所的な
基本周波数の低下や,無声破裂音/t/,/k/等の後続母音
への入り渡り部にしばしば見られる高基本周波数からの
下降特性を表現することが出来る。また文形指定制御
機構は,疑問文の文末の基本周波数の尻上がりを表現す
る成分を生成する機構である。そして強調制御機構
は,命令文や願望文等,様々な感情や表情を表現する成
分を生成することを目的とした機構である。
【0027】上記修正型ピッチ制御機構モデルを簡単に
記述する式としては,例えば先に示す数17〜数24を
用いれば良い。ここで数17〜数24の各パラメータの
単位は従来のピッチ制御機構に準じて定められる。勿論
具体的に実現する式としては,上記数17〜数24のみ
に限定されない。また,文章音声の性質や制御方式の選
択により,数17〜数22の任意の制御機構の組み合わ
せでピッチパターンを生成することが出来る。例えば,
強めを強調成分を用いて表現するならば,アクセント指
令と強調指令の関係は図3(b)の(1)のように重畳形にな
る。しかし,これらの指令により得られるピッチパター
ンと同一のピッチパターンを同図(b)の(2)のように,ア
クセント指令のみによっても得ることが出来る。この様
に一つのアクセント指令終了時点で,別の指令値に階段
状に変化することを「アクセント変形」と呼んでいる。
「アクセント成分に重畳された強調成分」と「アクセン
ト変形」とは,
【0028】
【数4】 Aa2=Aa1+As …(数4)
【0029】
【数5】 T12=T71 …(数5)
【0030】
【数6】 T22=T81 …(数6) の関係により相互に変換が可能である。
【0031】モデルパラメータの推定(解析)は,従来
のピッチ制御機構モデルの場合と同じく最適化法により
実行することが出来る(文献6)。
【0032】ここで、先に本発明者らが提案した特開平
3−78800号公報(文献12)、特願平2−183
947号、特願平2−250172号によれば,強めの
ある文章では,強めのない場合に比して,卓立している
部分の(1)アクセント指令の大きさ,(2)パワー,あるい
は(3)音素持続時間が増大し,場合によってはポーズが
発生することが知られている。また逆に,平叙文の文末
弱めのように,(1)アクセント指令の大きさ,あるいは
(2)パワーが減少する場合もある。したがって,プロミ
ネンスによる強め,あるいは弱めは,これら(1)〜(3)
(これら(1)〜(3)は総称して「韻律」と呼ばれてい
る)の各値を増大させたり,逆に減少させることにより
実現される。韻律の各要素(1)〜(3)は,単独で増
大,減少する場合もあるし,組合せにより増大,減少す
る場合もある。当然のことながら,組み合わせにより増
大,減少させた場合の方が卓立の効果は大きくなる。
【0033】上記プロミネンスの韻律的特徴を定量的に
表現するための尺度を導入する。すなわち,強めのない
文章(参照音声)を基準にプロミネンス含有文(対象音
声)の強めの位置と度合いを表す尺度として,以下の諸
量を定義する。
【0034】(1)F0比(F0R):参照音声の基本周波数
F0rに対する対象音声の基本周波数F0xの比で,次式によ
り定義する。ただし,基本周波数は,藤崎モデルにより
推定した値を用いた。
【0035】
【数7】 F0R=20log(F0x/F0r) (dB) …(数7) (2)アクセント指令増分(DAa):参照音声のアクセン
ト指令の大きさAarに対する対象音声のアクセント指令
の大きさAaxの増分で,次式により定義する。
【0036】
【数8】 DAa=Aax-Aar …(数8) (3)パワー比(POWR):参照音声のパワー Prに対する
対象音声のパワーPxの比で,次式により定義する。
【0037】
【数9】 POWR=10log(Px/Pr) (dB) …(数9) (4)時間変化率(TIME WARP):参照音声に対する対象
音声の時間伸縮の度合いを表す。いま参照音声と対象音
声の対応する音素の持続時間をそれぞれTr(i),Tx(i)
(iはi番目の音素の意味)として,i番目の音素の時間変
化率TW(i)を次式で定義する。
【0038】
【数10】 TW(i)=(Tx(i)-Tr(i))/Tr(i)×100 (%) …(数10) 上記韻律的特徴の尺度を用いて,プロミネンス定量解析
結果をまとめると以下のようになる(特願平2−183
947号、特願平2−250172号)。
【0039】〔1〕基本周波数 プロミネンスの基本周波数に関する特徴をアクセント指
令の大きさAa,開始時点T1,終了時点T2,およびアクセ
ント変形開始時点T12について調べる。なお,アクセン
ト開始・終了,アクセント変形開始時点は,それぞれア
クセントが低から高に上昇する音節境界,高から低に下
降する音節境界,および高から他の高に変化する音節境
界時刻を基準とした値ΔT1,ΔT2,およびΔT12として
求めている。ただし,頭高型アクセントや先頭音節の卓
立の場合は,先頭音節始端時刻をΔT1計測の基準時刻と
し,平板型あるいは尾高型アクセントや末尾音節の卓立
の場合は,末尾音節終端時刻をΔT2を計測の基準時刻と
する。
【0040】意図的なプロミネンスの場合,前述のよう
に,基本周波数による強めの度合いを表す尺度としてア
クセント指令増分DAaを定義した。しかしプロミネンス
は,対象となるアクセント指令そのものの増大ではな
く,その前後のアクセント指令の大きさを相対的に小さ
くすることによって実現される場合もある。この場合
は,DAaは大きな値を取らない。そこで,基本周波数の
値によるプロミネンス効果を表す尺度として,次式で定
義するアクセント指令増分の差により評価する。
【0041】
【数11】 ΔDAa=DAap-DAan …(数11) ここで,DAapはプロミネンスが置かれるアクセント成分
の指令増分,DAanはこのアクセント成分に隣接するアク
セント成分の指令増分のうち小さい方の値を表す。 基
本周波数に関しては,以下に示すような傾向が見られ
た。
【0042】(1)アクセント指令の大きさは,先頭お
よび文末文節以外のアクセント成分では,アクセント型
(アクセント変形型か否か)に依存する傾向が見られ
た。しかし,ポーズの有無の影響は認められなかった
(図5(a))。他方,文末文節のアクセント成分の場合,
アクセント指令の大きさの値のばらつきが大きい。更
に,先頭文節のアクセント成分では,話者やアクセント
型に依存せず,データは,先頭および文末文節以外のア
クセント変形型のアクセント成分のデータとほぼ同様の
分布を示している。これは,下記のデフォルトのプロミ
ネンスの影響で,意図的なプロミネンスの強めの度合い
が相対的に小さくなるためと考えられる (図6(a))。
【0043】(2)疑問文に関しては,アクセント指令
の大きさに文末強め傾向が見られた (図5(b))。
【0044】(3)アクセント指令の大きさに関し,平
叙文の先頭文節のアクセントはデフォルトのプロミネン
スを有する (図6(b))。ここで,デフォルトのプロミネ
ンスの大きさの尺度として,先頭文節(韻律語)のアク
セント指令の大きさAa1と第2文節(韻律語)のアクセ
ント指令の大きさAa2の差の値を用いた。
【0045】(4)アクセント指令開始時点・終了時点
に関しては,プロミネンスによる顕著な影響は認められ
なかった。
【0046】(5)アクセント変形型(通常は増大)プ
ロミネンスの変形指令開始時点に関しては,話者Aでは
基準音素境界に対して進み傾向が見られるが,話者Bで
は進みも遅れも見られない (図7)。この結果より,プ
ロミネンスの変形指令開始時点は基準音素境界時刻と一
致するように設定することができると考えられる。
【0047】〔2〕パワー 図8に示すように,パワーPと基本周波数(アクセント
指令の大きさAa)との間には高い相関が見られる(相関
係数ρ≒0.9)。このときの回帰直線は次式で表され
る。
【0048】
【数12】 P=11Aa (dB) …(数12) 従って,数12を用いれば,プロミネンスに伴うパワー
の増加量は,Aaより一意的に定めることができる。
【0049】あるいは,若干の変動を許容して
【0050】
【数13】 P=11Aa±4 (dB) …(数13) の範囲内で値を定めても良い。
【0051】なお,この値は,基本周波数の増加による
パワーの自然増加の値にほぼ等しいので,単に,音源信
号(例えば予測残差)の振幅値を基本周波数によらず一
定値として合成器に送り込むのみの簡易な処理でも良
い。これにより,合成音声波形のパワーは,基本周波数
に依存して自然に上昇する。
【0052】〔3〕時間構造 時間構造の主要因は,音素持続時間およびポーズ持続時
間であり,プロミネンスは,これらの持続時間の伸長に
より表現されうる(ポーズの発生は,ポーズ持続時間が
0から正数値に増加する特別な場合)。ここでは,(1)
ポーズ持続時間が音素持続時間に与える影響,および
(2)疑問文末尾における音素持続時間の伸長という観点
から調べてみた。
【0053】(1)音素持続時間は,直後にポーズを発
生した場合に伸長する傾向が見られた。この傾向は,話
者ABに共通している (図9)。
【0054】(2)疑問文文末母音においても伸長する
傾向があることがわかった。この傾向は,話者ABに共
通している (図10)。
【0055】図1は,「時間構造」中のDLを除いて,図
4の各分類に対応したプロミネンスを生成するための韻
律の各要素の値(強めあるいは弱め)を自然音声を対象
とした上記定量的解析結果に基づき求めたものである。
但し,図1の数値例は,プロミネンスの付加されていな
い場合の各制御値に対する増分,あるいは増加率で表し
ている。図1に従い制御規則を作成すれば,実験室音声
(後述)に関しては自然なプロミネンスを合成音声に付
与することが出来る。
【0056】図1において,"±"の記号より左側の数値
は,その制御パラメータの代表値であり,"±"の記号で
数値の変動範囲(ほぼ1σに相当)を表している。すな
わち,この変動範囲内で数値を設定するかぎり,自然な
プロミネンスを生成することが出来ることを示してい
る。なお,図1中のパラメータで,プロミネンスの付加
されてない部分を相対的に弱めることによっても同様の
効果を得ることができる。この場合は,従来の公知の韻
律制御規則(例えば公知例12)に従い,制御パラメータ
値を求め,上記数7〜数13の定義式を用いて,プロミ
ネンス付加時の韻律制御パラメータ値を求めればよい。
【0057】以上プロミネンスの韻律的特徴の解析と規
則の有効性の検証実験に基づけば,種々のプロミネンス
の実現形態は,図11に示すように要約される。すなわ
ち,プロミネンスは次のいずれかの方法により実現され
ている。
【0058】(1)基本周波数(アクセント指令の大き
さ)の増大とこれに伴うパワーの増大 (2)ポーズの挿入 更にプロミネンス対象の直前に
ポーズ挿入 プロミネンス対象の直後にポーズ挿入 プロミネンス対象の直前および直後にポーズ挿入 (3)発話速度の低減 (4)上記(1)(2)(3)の組合せ ところで,図1により合成されるプロミネンス含有文音
声は,自然音声と同等のプロミネンス表現力を持つが,
必ずしも最高水準のプロミネンス表現力とは言えない。
より確実な意図伝達を実現するためには,更にプロミネ
ンス表現力が高いことが望まれる。この問題に対処する
ための,最適なプロミネンス表現力を得る手段は,特願
平3−172180号に示されている。具体的には,図
12に示した韻律制御パラメータ値を与えることによ
り,聴覚的に最適なプロミネンス表現力を実現すること
ができる。
【0059】以上述べた手段により,原稿を読み上げる
ようなタイプの音声(「実験室音声」と呼ばれている)
のプロミネンス表現力を改善することができる。しかし
ながら,「自然な会話音声」には,実験室音声に見られ
ない特有のプロミネンスの韻律的特徴があり,この特徴
を規則化しなければ,自然な会話音声の表現力の十分な
改善は望めない。本発明は「自然な会話音声」のプロミ
ネンス表現力を改善する手段を提供するものである。以
下その内容について述べる。
【0060】プロミネンスの音響的実現形態は,音声の
発声の仕方に大きく依存すると考えられる。すなわち,
上述のように,原稿を読み上げた発声か,原稿なしの自
然な発声かにより大きく異なるであろうし,同じ読み上
げの発声でも,原稿内容が,ニュースであるか,小説で
あるか,或いはドラマであるかによっても異なると考え
られる。そこで,音声の種類を明確に定義するために,
以下に発声様式から見た音声の分類を行う。
【0061】
【例】 上記の分類において,「実験室音声」とは,原稿を読み
上げることにより発声する音声の総称,また「自然発声
音声」とは,原稿なしに,或いは暗記した原稿を思い出
しながらではなく発声する音声の総称として定義する。
【0062】ここで注意すべきことは,上記「実験室音
声」と「自然発声音声」の中間的な音声もありうるとい
うことである。例えば,もともと原稿はあるが,ある程
度訓練を受けて流暢に発声した場合の音声がこれに該当
する。例えば,講演とかドラマ等は話者の習熟度により
音声の性質が大きく異なると考えられる。
【0063】以下,「自然発声の会話音声」について
も,プロミネンスが図11に示すような形態のいずれか
により実現されるのかを確認するとともに,更に自然発
声の会話音声特有のプロミネンスの韻律的特徴の有無に
ついても検討する。
【0064】[自然発声音声と実験室音声の差異]実験
室音声と自然発声音声との差異は,前者が原稿を読みな
がら発話するのに対し,後者はその場で発話文を頭の中
で組み立てながら発話することである。従って実験室音
声の場合は,ある程度発話を一定条件に整備した音声を
得ることが出来るが,自然発声音声の場合は,様々な周
囲環境の影響を受けるので,得られる音声は偶然性に左
右された変化に富んだものとなる。
【0065】検討の結果,会話音声特有の顕著な特徴は
以下のとおりであることがわかった。すなわち,聴取の
結果,以下ようなの変動要因が特徴として認められた。
【0066】(1)その場で文章を組み立てるため,し
ばしば考えながら発話する。そのためその部分で発話速
度が遅くなる(そのほか,間を置く,感嘆詞を挿入す
る,ときには吃る,等の特徴も見られる)。
【0067】(2)プロミネンスの形態もバラエティに
富んだものとなる。例えば,基本周波数やパワーの高め
以外に,発話速度の低減もしばしば使われる。
【0068】(3)句末の時間長の伸長,および文末の
早口傾向が顕著になる。
【0069】(4)言葉が雑になる傾向が見られ,構文
的省略,音便,無意味音節の湧き出し等がしばしば現れ
る。
【0070】上記の特徴のうち,(1)〜(3)は時間
構造を主要な特徴としているが,(4)は時間構造以外
の特徴が支配的である。更に(4)の特徴は話者依存性
が大きい。すなわち,この特徴は発声訓練を受けている
「アナウンサ」の声ではあまり認められないが,素人の
声には顕著に現れる。「聞きやすい」音声合成規則を作
成することを目的とした場合,(4)の特徴は,聞きや
すさにとってはむしろマイナスの要因であると考えられ
る。従って本発明では,(1)〜(3)を規則作成の対
象とし,そのための解析の対象とする。
【0071】以下では,実際の自然発声の会話音声を時
間構造という視点から解析した結果について述べる。と
くにプロミネンスの対象と考えられる部分については,
時間構造と基本周波数との関連という観点からも考察を
行い,実験室音声との差異を明らかにする。解析の方法
としては,公知の方法として,時間構造(単音持続時
間)の計測に関してはスペクトログラム,音声波形およ
びスペクトル変化率を併用した方法,基本周波数の推定
に関しては藤崎モデルを用いた。
【0072】[自然発声会話音声における単音持続時間
変化パターンの例]図13(a)〜図15(c)は男子素人
A,図16(d)は男性アナウンサB,図17(e)は女子素
人C,がそれぞれ発声した文の単音(音素)持続時間の
時間変化パターンを示したものである。また図中には,
韻律句(長い韻律句は分割)ごとの平均拍持続時間Lm
(s/拍)の値も記した。但し,文末およびポーズ直前の
音節(拍)については,伸長(pre-boundary lengtheni
ng)の影響を除去するために,持続時間長の計算から除
外した。図より以下の特徴が見られる。
【0073】(1)プロミネンスが付与されていると認
められる韻律句の平均拍持続時間Lmは,それ以外の韻律
句のLmの値より大きい(但し,1拍のプロミネンスは例
外),すなわち遅口となる。
【0074】(2)文末韻律句の平均拍持続時間Lmは他
より小さくなる,すなわち早口になる場合が多いが,必
ずしもすべての場合に最も早口になるわけではない。例
えば,主語が倒置して文末に来るような文では,文末は
必ずしも早口にならない(図16(d))。
【0075】(3)考えながら話していると認められる
部分では次のような特徴が見られる。 a.顕著なpre-boundary lengtheningの傾向が見られる
(例:図13(a)の句末単音持続時間Lの急激な上昇)。
【0076】b.間(ポーズ)が挿入される(例:図1
3(a)の句末単音持続時間Lの急激な上昇直後の折線の途
切れ部)。
【0077】c.無意味な音節の湧き出しや吃りが発生
する(吃りの例:図15(c)の冒頭部分)。
【0078】d.間をつなぐための感嘆詞が挿入される
(例:「えーと」)。
【0079】[発話速度とアクセント指令の大きさの関
係]図18は,プロミネンスという視点から上記3人の
話者が発声した上記同一文の平均拍持続時間Lmと基本周
波数のアクセント指令の大きさAaの関係を示したもので
ある。但し,図には考えながら発声した韻律句および倒
置した文末のデータは含まれていない。図より,プロミ
ネンスの対象となっている韻律句では,LmおよびAaの値
が共に他の場合より大きくなる傾向が見られる。
【0080】図19は,朗読文を対象として以前に行っ
た解析結果より得られた,平均拍持続時間Lmと基本周波
数のアクセント指令の大きさAaの関係を参考までに示し
たものである。話者は東京出身の二十代の女性である。
上記自然発声会話文(図18)と比較すると,朗読文で
は文末はもとより,プロミネンス対象部においても顕著
な時間構造的特徴は見られない。
【0081】以上より,自然発声会話文では朗読文より
も,プロミネンス対象部に時間構造的特徴がより顕著に
見られる。
【0082】[実験室会話音声との比較]以下,図11
に示した実験室音声におけるプロミネンスの韻律的特徴
が自然な会話音声にも見られるか否かについて調べた結
果について述べる。
【0083】(1)基本周波数に関して プロミネンス対象部におけるアクセント指令の大きさAa
の値は,プロミネンス非対象部における値より大きいこ
とより,自然な会話音声においても基本周波数F0の増大
は,プロミネンスの韻律的特徴の一つである言える。
【0084】(2)ポーズ挿入に関して プロミネンス対象部の直前或いは直後では,ポーズが置
かれる場合が多く,自然な会話音声においてもポーズは
プロミネンスの韻律的特徴となっている。なお実験室音
声に見られたポーズ直前の母音の伸長(prepausal leng
thening(下の注参照))は自然な会話音声においても見
られ,しかも伸長の度合いが実験室音声の場合よりはる
かに大きい。このことは,考えながら話す際の時間稼ぎ
のために生ずると思われる(前述)。尚、本発明では,
pre-boundary lengthening から文末伸長を除いたもの
を prepausal lengthening と呼んでいる。
【0085】(3)発話速度に関して 実験室音声に見られたように,全文の発話速度が低減す
るのではなく,例えばプロミネンス対象部におけるよう
に局所的に発話速度が低減する点が,自然な会話音声に
見られる特徴である。
【0086】以上の解析結果より,自然な会話音声のプ
ロミネンスを合成により実現するには,基本的には公知
の実験室音声におけるプロミネンス生成規則(例えば特
願平2−183947号、特願平2−250172号、
特願平3−172180号)を基本として,更にプロミ
ネンス対象部においては発話速度を低減させるという時
間構造的な特徴を加えればよい。具体的には図18にお
けるプロミネンスが置かれているデータの平均拍持続時
間Lmの平均値を発話速度のパラメータとして与えれば所
望の時間構造的な特徴を反映した合成音声を得ることが
出来る。また,平叙文の文末においても,発話速度を早
めればより会話音声らしい合成音声が実現できる。しか
し,平叙文の文末は必ずしもいつでも早口になるわけで
はないので,文末早口の発話速度のパラメータを得よう
とする場合は,例えば文末が早口になっているデータの
みを選択し,その平均拍持続時間Lmの平均値として計算
すればよい。
【0087】次に、本発明による音声規則合成装置及び
方法の実施例を図1および図20〜図29により説明す
る。
【0088】図20は任意文章合成方式の全体構成を示
す。本方式では,漢字仮名混じり文のテキストを入力デ
ータとして与えれば,それに対応する合成音声を出力と
して得ることができる。処理手順は以下の通りである。
【0089】まず入力テキストは,日本語解析部1(特
開昭59−98236号公報参照)の形態素解析手段に
より,各単語に分解され,品詞が決定され,さらに読み
が決定される。次にこの結果に基づき,音声言語処理部
2(特公昭59−13040号公報,特開昭59−08
1697号公報,特開昭61−6693号公報参照)に
おいて,各単語あるいは文節のアクセント型が決定され
る。
【0090】以上のような構文レベルの処理結果とし
て,音節情報,アクセント情報,プロミネンス情報など
が得られる。なお句や文章の区切りは,入力テキスト中
の句読点等区切り記号に基づいて決定される。文章中や
文章間のポーズ長は,読点や句点の後のスペースの数で
指定できる。また疑問文,命令文,願望文等文のタイプ
は,語尾の活用によって判定することができる場合もあ
るし,あるいは文章の終止に句点の代わりにそれぞれ
「?」,「!!」および「!」などの終止記号を使うこ
とにより指定することもできる。例えば同じ音韻列「川
を渡る」であっても「川を渡る。」は平叙文であり,
「川を渡る?」は疑問文である。
【0091】以上の音節情報,アクセント情報,
ポーズ情報,句・文章区切り情報,(必要ならば例え
ば品詞名等の)文法情報,およびプロミネンス情報
は,「音節コード」と呼ばれる一連の数字によって表現
される。音節コードは制御パラメータ生成部3の入力情
報である。
【0092】制御パラメータ生成部3では,アクセン
ト,イントネーション,音韻持続時間,および音源パワ
ー(振幅)修正値が規則により決定され,それに従って
ピッチパターンと音韻パラメータ時系列が生成される。
ここで,音源パワー修正値とは,強めの有無により,標
準的な音源パワーの値を増減するための係数である。こ
の音源パワー修正値は,強めの無い場合に対する倍率で
与えても良いし,絶対数値で与えても良い。また,アク
セント型は,アクセント情報により知ることができる。
アクセント情報は,具体的にはアクセント核のある音韻
(アクセントが下降する直前の音韻)の直後にアクセン
トを示す音節コード番号を挿入することによって与えて
いる。ただし,この音節コードがない場合は,平板型ア
クセントであることを示している。またイントネーショ
ンは,基本的には文章タイプ情報およびプロミネンス情
報より定められる。ただし,語尾の音韻の並びの違いに
よる変形も加えられる。例えば,願望文「川を渡りたい
!」と「川を渡りたいなあ!」とではイントネーション
・パターンが異なる。最終的なピッチパターンは,アク
セント型とイントネーションの両者に基づいて生成され
る。ただし,後に述べるプロミネンスを含有する文章に
ついては,アクセント変形を伴うこともある。音韻持続
時間は,子音の場合は周囲条件の影響が少ないので,子
音の種類ごとに固有長として決定される。それに対し
て,母音の場合は周囲条件によって様々な変形を受け
る。そのため,アクセント型,音節数,単語内の位置,
直前の子音の種類,その母音の種類などから持続時間を
決定している(特開昭59−081697号公報)。こ
のようにして音韻持続時間が決定されたら,CV(子音
−母音連鎖)単位でファイルに登録されている音韻パラ
メータ(生成源方式の場合はスペクトル包絡パラメータ
と音源パラメータ,波形合成方式の場合は音声素片)を
音節コードに対応させて抽出し,配列する。この際,長
すぎれば持続時間内に収まるように切断する。しかる後
に,切断部あるいは隙間部を埋めるようにCV単位間を
補間(生成源方式:スペクトル包絡パラメータは直線補
間,音源パラメータは同一値の繰り返し,波形合成方
式:素片切り出し窓の最大値の補間)により接続する
(詳細は図27参照)。最後に,以上の処理によって生
成された基本周波数と音韻パラメータは,順次音声合成
部4に送られ,音声波形が出力される。ここで,音声合
成方式としては,例えば残差圧縮法(特開昭60−15
0100号公報,特開昭61−296390号公報参
照)を用いればよい。この場合,音源パルスは基本的に
は,フレームごとに1ピッチ分の残差パルス(代表残
差)を抽出し,その代表残差を外から与えるピッチ周期
の間隔で並べることによって生成している。このとき外
から与えるピッチ周期が代表残差の長さより短ければ,
その長さの差だけ代表残差の末尾を切り捨て,逆に長け
れば,代表残差の不足している区間だけ0を埋めてい
る。図20には音声合成部に残差圧縮法を用いた例を示
しているが,勿論,音声合成方式は残差圧縮法に限定さ
れない。例えば,波形合成方式,特に素片編集方式を用
いても良い。
【0093】以上の処理は,以下に述べるプロミネンス
生成規則を除いて,すべて公知の手段により構成するこ
とができる。
【0094】以下では,上記任意文章合成方式の内,本
発明の最も重要な部分である,制御パラメータ生成部3
におけるプロミネンス生成規則の実施例を図1および図
21〜図29を引用して示す。
【0095】まず,プロミネンス情報取得手段について
説明する。その例を以下に記す。
【0096】(1)平叙文/疑問文等の文のタイプより
(文形固有の卓立) (2)構文情報より(文献10参照)。
【0097】(3)旧情報/新情報(文献11参照),
慣用的な口調。
【0098】(4)テキスト情報より(カギ括弧,太
字,アンダーライン等)。
【0099】(5)意味情報より(例:先行疑問文に対
する答えの部分を強め)。
【0100】上記(1)では,文章タイプ情報よりプロ
ミネンスを実現するパラメータを生成することができる
のに対し,(2)〜(5)では,音声言語処理部2等
で,プロミネンス情報(音節コード表現)を生成しなけ
ればならない。例えば上記(4)におけるカギ括弧の場
合,カギ括弧開きが検出されたら,アクセント指令の開
始時点と大きさ情報(あるいはプロミネンスの分類情報
(例えば図4のような情報))を含有する音節コードを発
行し,カギ括弧閉じが検出されたら,アクセント指令の
終了時点の情報を含有する音節コードを発行すれば良
い。また,(5)の場合は,意味解析手段が必要とな
る。もし意味解析手段を用いないならば,(4)で代用
することになる。すなわち,人間が強めたいところを上
記のカギ括弧等によりテキスト内で指定すれば良い。
【0101】続いて,上記(1)文形固有の卓立を実現
する規則の実施例を示す。まず,図21において,音声
言語処理部2から得られた音節コード列は,文章タイプ
決定手段5に入力される。ここでは第一段階として,文
章タイプ情報辞書6中の語尾辞書に登録されている語尾
形と音節コード列の文末の形とを照合することにより,
該当する文章タイプを決定する。なお図21における終
止形は,現代文の場合は動詞なら「ウ」行で終わる語
尾,形容詞なら「イ」でおわる語尾等,公知の国文法の
規則に基いて定められる。命令形の場合も同様に,現代
文なら活用語尾が「エ」行であることから定められる。
以上の文章タイプの判定は,品詞情報などの文法情報が
あれば,さらに確実となる。ここでもし語尾の活用が終
止形と判定された場合は,この文章は必ずしも平叙文と
は限らない。そこで第二段階として,この場合は文章の
終始記号(文末記号)を見に行き,この記号の種類によ
って文章タイプを決定する(例えば,「。」あるいは 「.」
なら平叙文,「?」なら疑問文,「!!」なら命令文,「!」なら
願望文,等)。以上の文章タイプ決定手段5の処理の一
例を図22に示す。
【0102】図21に戻り,文章タイプ決定手段5で
は,上で述べた文章タイプ情報のみが選択的に出力され
る。音節コードより音節情報抽出手段16により抽出さ
れた音節情報(例えば,「あ」,「い」,「う」等の音節の種
類を数字で表したもの)は,音韻境界を決定するた
め,およびピッチパターンにおける音素成分生成のた
めに用いられる。すなわち,については,音節情報を
もとに,音韻持続時間規則部9において各音節の音韻持
続時間が決定され(前記文献),これらを配列した形で
音韻境界時刻が音韻境界決定手段7により決定される。
音韻境界時刻は,一方ではLSPパラメータ等の音韻パ
ラメータを生成するために用いられる。またについて
は,文章ピッチ制御パラメータ生成部11において,音
素制御機構パラメータ値を決定するために用いられる。
【0103】先の文章タイプ情報は,イントネーション
規則部8および音源パワー(振幅)修正値計算手段15
に入力され,文章のタイプに従い,標準イントネーショ
ン(例えば平叙文)からの変形が加えられる。変形には
時間の変形と,ピッチ振幅(指令の大きさ)の変形,お
よび音源パワーあるいは振幅の変形の3種類がある。時
間の変形は,音韻境界決定手段7に作用し,音韻境界時
刻に変更が加えられる。他方指令の大きさの変形は,文
章ピッチ制御パラメータ生成部11に作用し,指令の大
きさが変更されるか,あるいは新たな文形指定指令や強
調指令が追加される。この際標準イントネーションの制
御パラメータはアクセント規則部10より供給される。
なお文章ピッチ制御パラメータ生成部11では音韻情報
との時間的整合をとるため,基準となる音韻境界時刻
(タイミング基準情報)を音韻境界決定手段7より得
る。また音源パワーの変形は,音源パワー(振幅)修正
値計算手段15に作用し,音源パワー値の修正値が計算
され,音源生成部に送られる。なお音源パワー値の修正
値は,数12,数13を用いて計算することができる
が,基本周波数増大によるパワーの自然増を利用するの
であるならば,修正処理を省略してもよい。
【0104】以上のイントネーションの規則は,規則テ
ーブル(文献5)をイントネーション規則部8に設けて
おき参照することにより達成できる。かくして,プロミ
ネンスのうち,文形固有の卓立は,上記手段により実現
される。
【0105】他方,意図的な卓立(上記(4),(5))
やその他のデフォルトの卓立(上記(2),(3)等)に
対するプロミネンス情報は,音節コード中からプロミネ
ンス情報抽出手段14により,プロミネンス情報のコー
ドを抽出し,このコードから得られる。プロミネンス情
報は,イントネーション規則部8と音源パワー(振幅)
修正値計算手段15に作用する。
【0106】ここで,音節コード列より,文章タイプ
情報,音節情報,プロミネンス情報,および発話
速度情報をそれぞれ抽出する方法の一具体例を示す。例
えば,音節コードの番号に応じ,図23,図24に示す
ように情報内容を定義しておけば,文章タイプ決定手段
5(上記),音節情報抽出手段16(および),
プロミネンス情報抽出手段14()のそれぞれに数値
大小判定機能を持たせることにより,該当情報か否か判
定できる。すなわち音節コードが1〜400であるなら
ば音節情報と判定,9004〜9020であるならば文
章タイプを与える情報であるので,前述の方法により文
章タイプ情報を決定することが出来る。また,音節コー
ドが9030〜9039であるならばプロミネンス情報
と判定,例えば下1桁の数字にアクセント指令値情報を
割り当てれば良い。一例を挙げれば,音節コード下1桁
の数字をIで表したとき,プロミネンスの付加されてな
い場合のアクセント指令の大きさに対する,プロミネン
スによるアクセント指令増分値DAaは次式により与える
ことができる。
【0107】
【数16】 DAa=0.1I …(数16) 数16を用いれば,音節コードにより,アクセント指令
の大きさを0.0から0.9の範囲内で0.1ステップで増大さ
せることができる。もちろんより小きざみなステップで
アクセント指令の大きさを変化させたい場合には,音節
コードを他の値の範囲に割当て(例えば9100〜91
99),下2桁にアクセント指令値情報を割り当てれば
良い。また,プロミネンスによるアクセント指令の増大
・減少をさせるタイミングは,例えば次のようにして決
定することができる。まず,アクセント指令開始時点を
決定する音節境界の指定は,上記プロミネンス情報をも
つ音節コード(例えば9030〜9039)を境界直前
の音節に対応する音節コードと境界直後の音節に対応す
る音節コードの間に挿入することにより達成できる。次
に,アクセント指令終了時点を決定する音節境界の指定
は,プロミネンス終了を意味するコードとして例えば9
030を同様に境界直前の音節に対応する音節コードと
境界直後の音節に対応する音節コードの間に挿入するこ
とにより達成できる。また,プロミネンスの開始あるい
は終了が高アクセントの領域で起きる場合,すなわちア
クセント変形型の場合は,アクセント変形を起こす音節
境界の指定は,同様に境界直前直後の音節に対応する音
節コードの間にプロミネンスの開始あるいは終了のコー
ドを挿入することにより達成できる。かくしてプロミネ
ンスによるアクセント指令開始・終了時点設定のタイミ
ング基準時刻が定まれば,実際の開始・終了時点はこの
基準時刻からのずれ量としてタイミングテーブルから検
索することにより求めることができる。
【0108】更に,音節コードが−100〜−299で
あるならば局所的に発話速度を変化させる情報なので,
以上によりプロミネンス区間が求まれば,当該区間にお
ける発話速度を音節コード情報に基づき変化させること
ができる。例えば,−100〜−199が発話速度低減
(遅め),−200〜−299が発話速度の速めと定め
ておき,それぞれの値の範囲について下2桁の値が拍当
りの発話速度の変化分(単位ms)と定めておけば,発話
速度を標準値から拍当り±99msの範囲で変化させるこ
とができる。この手段により,プロミネンス対象部の遅
めも,文末の速めも実現することができる。図25に実
例を示す。
【0109】次に,パワーを制御しポーズを生成する方
法の具体例を示す。図21では,音声合成部に生成源方
式(例えば残差圧縮法+LSP合成器)を用いた例を示し
ているが,生成源方式に限定されない。勿論波形合成方
式でもまったく同じ考え方で波形振幅のパワーを制御す
ることが出来る。
【0110】図26は,音声合成部に残差圧縮法を用い
た場合の例を示している。スペクトル包絡パラメータ
は,LSPパラメータ,PARCOR係数等,任意のパラメータ
を利用出来る。ちなみに,図中の接続補間処理は,例え
ば図27のような手段により実現できる。音源パワー
(振幅)修正値計算手段15(図21)で得られたパワ
ー値の平方根(振幅値で与えられるならばそのままの
値)が有声音源生成部あるいは無声音源生成部に与えら
え,残差(音源)振幅が修正される。修正値は,実際の
値で与える場合は,例えば時間不連続を防ぐために,フ
レームごとに,パワー実測値(例えば特開平3−788
00号公報,特願平2−183947号,特願平2−2
50172号)の平方根に近似した振幅包絡曲線(例え
ば,図28)の値として与えれば良い。もし修正値を倍
率で与える場合は,合成単位が本来持っている自然音声
の振幅包絡形を活用出来るので,強調部に対応するフレ
ーム間のみで,合成単位の音源振幅値に指定した倍率を
乗ずれば良い。また所定持続時間のポーズを生成する場
合は,その時間の間だけ無音生成指令を発行して,無音
(0値)を出力すれば良い。
【0111】図29は,音声合成部に波形合成方式を用
いた場合の例を示している。この場合は,図17の音源
パワー(振幅)修正値計算手段15は,波形パワー(振
幅)修正値計算手段と置き換えられるが,処理内容は,
音源の場合と全く同様である。違いは,単に実現値が異
なるだけである。波形パワー(振幅)修正値計算手段で
得られたパワー値の平方根(振幅値で与えられるならば
そのままの値)が素片窓生成部に与えられ,素片編集時
に素片振幅が修正される。修正値の時間変化パターン
は,上記残差圧縮法の場合と全く同様の考え方で与えら
れる。また,ポーズの生成方法も残差圧縮法の場合と同
様,所定時間長の0振幅波形を出力すれば実現出来る。
【0112】他の合成方式の場合も,各波形振幅制御手
段に応じて,全く同様の方法でパワー(振幅)制御が実
現できる。
【0113】プロミネンスを具体的にどの様なパラメー
タ値により実現するかを定めた韻律(ピッチ,パワー,
時間長)の制御方法の一例を示したのが図1である。な
お,図1におけるプロミネンスを含有しない場合の基準
値は,例えば,アクセント指令の大きさおよび開始・終
了時点については,公知のアクセント成分生成規則(文
献3,14)により決定すれば良い。あるいはより簡便な方
法としては,アクセント指令の大きさの基準値Aa=0.3,
アクセント指令開始・終了時点の基準音節境界からの相
対値ΔT1=ΔT2=ΔT12=0としても実用上音質にほとんど
支障は無い。図1は,自然音声(実験室音声)の定量的
解析結果(図5〜図10)に基づき求めたものであるの
で,図1に従い,音声を合成すれば,朗読文,解説文等
原稿に基づく文章については自然な強調感をもった合成
音声が得られる。勿論,図1はパラメータ実現値の一例
であり,これらの数値に限定されない。実際には,様々
な強めの変形がありうるので,それに対応した数値の変
形の可能性は無数に存在する。そのような数値の変形の
中で,自然な会話音声において優れた性能(すなわち優
れたプロミネンス表現力)を有するようにパラメータ値
を選ぶことができる。以下,そのようなパラメータ選定
の一実施例を示す。
【0114】「作用」のところで詳述した自然な会話音
声を対象とした解析結果に基づき,「自然な会話音声」
特有のプロミネンスを付与するための韻律制御パラメー
タの値を示したのが図1「時間構造」中のDLである。図
1は本発明の中枢をなすものであり,自然な会話音声に
おけるプロミネンス表現力を著しく改善する手段を提供
するものである。
【0115】実際に図1による韻律制御を実現する具体
例を図25に示す。
【0116】本実施例では,プロミネンスのピッチによ
る強めあるいは弱めをアクセント指令の増減により行う
例を示したが,勿論,前述のように,強調成分を用いて
行っても良い。この場合,例えば数4〜数6によりパラ
メータ値を変換しても良いし,新たにパラメータテーブ
ルを作り直しても良い。
【0117】他方,音素制御パラメータは,音素ごとに
指令の大きさ,固有角周波数,境界からの相対時刻,底
の値等を予め解析して求めておき,音節情報に対応する
テーブルとして音素規則部13に設けておけば良い。こ
こから音節情報列の順に従って,音素制御パラメータ列
が文章ピッチ制御パラメータ部11に送られる。ここで
音素開始あるいは終了時点(相対時刻)は,タイミング
基準情報に基いて絶対時刻に変換される。かくして文章
ピッチ制御パラメータ生成部11で作成されたピッチ制
御パラメータはピッチパターン生成部12に送られ,こ
こで新ピッチ制御機構モデル(下記の数17〜数24)
により文章ピッチパターンが生成される。フレーズ制
御機構:
【0118】
【数17】 Gp(i,t)=α(i)t exp(-α(i)t)u(t) …(数17) t :時刻 α(i) :i番目の固有角周波数 u(t):単位ステップ関数 アクセント制御機構:
【0119】
【数18】 Ga(j,t)=Min[1-(1+β(j)t) exp(-β(j)t)u(t),θ(j)] …(数18) β(j) :j番目の固有角周波数 θ(j) :j番目の上限値 音素制御機構:
【0120】
【数19】 Gf(k,t)=-Min[1-(1+γ(k)t) exp(-γ(k)t)u(t),φ(k)] …(数19) あるいは
【0121】
【数20】 Gf(k,t)=exp(-γ(k)t)u(t) …(数20) γ(k) :k番目の固有角周波数 φ(k) :k番目の底の値 文形指定制御機構:
【0122】
【数21】 Gt(l,t)=Min[1-(1+ζ(l)t) exp(-ζ(l)t)u(t),θt(l)] …(数21) ζ(l) :l番目の固有角周波数 θt(l):l番目の上限値 強調制御機構:
【0123】
【数22】 Gs(m,t)=Min[1-(1+η(m)t) exp(-η(m)t)u(t),θs(m)] …(数22) η(m) :m番目の固有角周波数 θs(m):m番目の上限値 ピッチパターン:
【0124】
【数23】
【0125】あるいは
【0126】
【数24】
【0127】ここで,Fminは最低周波数,Iはフレーズ
指令の数,Ap(i)はi番目のフレーズ指令の大きさ,T
0(i)はi番目のフレーズ指令の時点,Jはアクセント指令
の数,Aa(j)はj番目のアクセント指令の大きさ,T
1(j),T2(j)はそれぞれj番目のアクセント指令の開始時
点と終了時点,Kは音素指令の数,Af(k)はk番目の音素
指令の大きさ,T3(k),T4(k)はそれぞれk番目の音素指
令の開始時点と終了時点,Lは文形指定指令の数,At(l)
はl番目の文形指定指令の大きさ,T5(l),T6(l)はそれ
ぞれl番目の文形指定指令の開始時点と終了時点,Mは強
調指令の数,As(m)はm番目の強調指令の大きさ,T
7(m),T8(m)はそれぞれm番目の強調指令の開始時点と終
了時点である。
【0128】本実施例における韻律制御方法(図1)
は,自然な会話音声の解析結果として求められたもので
あるので,この方法により韻律の制御を行えば,漢字仮
名混じり文テキストから合成される会話音声に,極めて
自然で有効な強調効果をもたらすことができる。
【0129】以上本実施例では,プロミネンスのピッチ
による強めあるいは弱めをピッチ制御機構モデルあるい
は新ピッチ制御機構モデルにより実現する方法を示した
が,勿論プロミネンス実現方法は,これらのモデルのみ
に限定されない。どの様なモデルを用いても良い。例え
ば,点ピッチ(折線近似ピッチパターン)でも実現可能
であるし,あるいは階段状のピッチパターンを用いても
何ら支障は無い。
【0130】
【発明の効果】以上示したように,本発明は,人間の発
声する自然な会話音声に含まれる強めや弱めを規則合成
において実現する手段及び方法を提供するものである。
本発明によれば,現実の会話音声に起こるような自然な
強め,弱めを実現することができる。そのため,利用者
が特別の注意を払うことなく発話内容を容易に理解する
ことができるので,利用者の負担を著しく軽減すること
が可能となる。特に長時間作業時の疲労軽減効果は著し
く,作業効率向上により得られる利益は図り知れない。
【図面の簡単な説明】
【図1】本発明の基本部分を示す図である。
【図2】本発明を実現する手段の例を示す図である。
【図3】本発明を実現する手段の例を示す図である。
【図4】本発明の基本部分を補足する図である。
【図5】本発明の考え方を例示する図である。
【図6】本発明の考え方を例示する図である。
【図7】本発明の考え方を例示する図である。
【図8】本発明の考え方を例示する図である。
【図9】本発明の考え方を例示する図である。
【図10】本発明の考え方を例示する図である。
【図11】本発明の考え方を例示する図である。
【図12】本発明の考え方を例示する図である。
【図13】本発明の考え方を例示する図である。
【図14】本発明の考え方を例示する図である。
【図15】本発明の考え方を例示する図である。
【図16】本発明の考え方を例示する図である。
【図17】本発明の考え方を例示する図である。
【図18】本発明の考え方を例示する図である。
【図19】本発明の考え方を例示する図である。
【図20】本発明の実施例を示す図である。
【図21】本発明の実施例を示す図である。
【図22】本発明の実施例を示す図である。
【図23】本発明の実施例を示す図である。
【図24】本発明の実施例を示す図である。
【図25】本発明の実施例を示す図である。
【図26】本発明の実施例を示す図である。
【図27】本発明の実施例を示す図である。
【図28】本発明の実施例を示す図である。
【図29】本発明の実施例を示す図である。
【符号の説明】
3…制御パラメータ生成部,8…イントネーション規則
部,9…音韻持続時間規則部,10…アクセント規則
部,11…文章ピッチ制御パラメータ生成部,12…ピ
ッチパターン生成部,14…プロミネンス情報抽出手
段,15…音源パワー(振幅)修正値計算手段。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】入力文章を形態素解析する言語処理手段
    と;上記言語処理手段の出力に基づいて制御パラメータ
    を生成する制御パラメータ生成部を有し、該制御パラメ
    ータに応じて音声の時間長を制御する第1の韻律制御手
    段であって,上記言語処理手段の出力に基づいてプロミ
    ネンスの有無を判定し,該有無に従って,上記制御パラ
    メータを制御する第1の韻律制御手段と;を有すること
    を特徴とする音声規則合成装置において,上記制御パラ
    メータの変化分を,プロミネンスが付加された文単位に
    対して,プロミネンスが付加されていない場合の文末以
    外の拍持続時間長に対する増分として定義される「第1
    の拍持続時間増分」DL1を正の値に設定する手段を具備
    することを特徴とする音声規則合成装置。
  2. 【請求項2】上記請求項1記載の第1の韻律制御手段
    は,上記言語処理手段の出力に基づいて上記入力文章の
    タイプを判定し,該タイプに従って制御パラメータを生
    成する制御パラメータ生成部を有し、該制御パラメータ
    に応じて音声の時間長を制御するように構成され,上記
    入力文章のタイプが平叙文の場合,該文章の文末の拍持
    続時間長をプロミネンスが付加されていない場合の文末
    以外の拍持続時間長に対する増分として定義される「第
    2の拍持続時間増分」DL2を負の値に設定する手段を具
    備することを特徴とする音声規則合成装置。
  3. 【請求項3】請求項1記載の第1の拍持続時間増分DL1
    設定手段と,請求項2記載の第2の拍持続時間増分DL2
    設定手段とを共に具備することを特徴とする音声規則合
    成装置。
  4. 【請求項4】入力文章を形態素解析する言語処理手段
    と;上記言語処理手段の出力に基づいて上記入力文章の
    タイプを判定し,該タイプに従って制御パラメータを生
    成する制御パラメータ生成部と該制御パラメータに応じ
    て基本周波数の時間変化パターン(以下略してピッチパ
    ターンと呼ぶ)を生成するピッチパターン生成部とを有
    する第2の韻律制御手段であって,上記言語処理手段の
    出力に基づいてプロミネンスの分類を判定し,自然音声
    の解析結果に基づいて上記プロミネンスの分類対応であ
    らかじめ求めた上記制御パラメータの変化分に従って,
    上記制御パラメータを制御する第2の韻律制御手段と;
    上記言語処理手段の出力に基づいて上記入力文章に応じ
    た音韻パラメータ列を生成し,該音韻パラメータ列と上
    記第2の韻律制御手段で生成したピッチパターンとによ
    り順次音声を合成する音声合成手段と;を有することを
    特徴とする音声規則合成装置において,上記ピッチパタ
    ーン生成部は,アクセント成分の大きさ,その開始およ
    び終了時刻を制御するアクセント制御機構を少なくとも
    有し,上記制御パラメータの変化分として上記アクセン
    ト成分の変化分を設定したことを特徴とし,上記制御パ
    ラメータの変化分を,文形が平叙文でかつプロミネンス
    が付加された文単位(文節,単語,単語の一部,音節
    等)が,先頭文節以外でありかつアクセント型がアクセ
    ント変形型でない場合は,プロミネンスが付加されてい
    ない場合のアクセント成分の大きさに対する増分として
    定義される「アクセント指令増分」と,隣接するアクセ
    ント成分に対する「アクセント指令増分」との差である
    変化分ΔDAaを0.7±0.2の範囲内に設定し,先頭文節以
    外でありかつアクセント型がアクセント変形型である場
    合は該ΔDAaを0.4±0.2の範囲内の値に設定し,先頭文
    節の場合は該ΔDAaを0.3±0.2の範囲内の値に設定し,
    アクセントがプロミネンスにより新たに生起した場合,
    該プロミネンスが付与された文単位直前にポーズを挿入
    する場合は該ΔDAaを0.1±0.1の範囲内の値に設定し,
    ポーズを挿入しない場合は該ΔDAaを0.3±0.2の範囲内
    の値に設定し,文形が疑問文の場合は先頭文節のアクセ
    ント成分の大きさAa1を該Aa1と第2文節のアクセント成
    分の大きさAa2の差が0.0±0.1の範囲内の値になるよう
    に設定し,かつ文末アクセントに対応するΔDAaを0.4±
    0.2の範囲内の値に設定し,文形が平叙文でかつプロミ
    ネンスを文章中のいずれの文単位にも指定していない場
    合は先頭文節のアクセント成分の大きさAa1を該Aa1と第
    2文節のアクセント成分の大きさAa2の差が0.1±0.1の
    範囲内の値になるように設定し,文形が平叙文でかつ文
    末文節と文末直前の文節にプロミネンスを指定していな
    い場合は文末文節のアクセント成分の大きさAa(J)を該A
    a(J)と文末直前文節のアクセント成分の大きさAa(J-1)
    の差が-0.1±0.2の範囲内の値になるように設定し,上
    記第1の拍持続時間増分DL1を 0.06±0.03の範囲内の値
    に設定し,上記第2の拍持続時間増分DL2を-0.02±0.02
    の範囲内の値に設定する手段を有することを特徴とする
    請求項1記載の音声規則合成装置。
  5. 【請求項5】上記音声合成手段で合成される音声のパワ
    ーを制御する第3の韻律制御手段を有することを特徴と
    する請求項4記載の音声規則合成装置。
  6. 【請求項6】上記第3の韻律制御手段は,デシベル(d
    B)単位で定義されるパワーPの値を上記アクセント成
    分の指令の大きさAaより式 P=11Aa±4 (dB) で求まる値に設定する手段を具備することを特徴とする
    請求項5記載の音声規則合成装置。
  7. 【請求項7】上記第3の韻律制御手段は,上記第2の韻
    律制御手段によるピッチパターンの変化に伴うパワーの
    変化を利用する手段を具備することを特徴とする請求項
    5記載の音声規則合成装置。
  8. 【請求項8】上記音声合成手段で合成される音声の時間
    長を制御する第1の韻律制御手段は,上記音韻パラメー
    タ列に対応する音素の持続時間を制御する手段からな
    り,上記第1の韻律制御手段は,上記プロミネンスが付
    加された文単位の直後にポーズがある場合は,該文単位
    末尾の母音の持続時間を強調のない場合の該母音の持続
    時間の66±33%の範囲内の値だけ伸長し,文形が疑問文
    の場合は,文末の母音の持続時間を平叙文の場合の該母
    音の持続時間の78±22%の範囲内の値だけ伸長すること
    を特徴とする請求項1〜7のいずれかに記載の音声規則
    合成装置。
  9. 【請求項9】入力文章を形態素解析して音節コード列で
    表現するステップと;上記音節コード列に基づいて制御
    パラメータを生成するステップと該制御パラメータに応
    じて音声の時間長を制御するステップであって,上記音
    節コード列に基づいてプロミネンスの有無を判定し,該
    有無に従って,上記制御パラメータを制御するステップ
    と;を有することを特徴とする音声規則合成方法におい
    て,上記制御パラメータの変化分を,プロミネンスが付
    加された文単位に対して,プロミネンスが付加されてい
    ない場合の文末以外の拍持続時間長に対する増分として
    定義される「第1の拍持続時間増分」DL1を正の値に設
    定したことを特徴とする音声規則合成方法。
  10. 【請求項10】上記請求項9記載の音声の時間長を制御
    するステップは,上記音節コード列に基づいて上記入力
    文章のタイプを判定し,該タイプに従って制御パラメー
    タを生成するステップと該制御パラメータに応じて音声
    の時間長を制御するステップを有することを特徴とする
    音声規則合成方法において,上記入力文章のタイプが平
    叙文の場合,該文章の文末の拍持続時間長をプロミネン
    スが付加されていない場合の文末以外の拍持続時間長に
    対する増分として定義される「第2の拍持続時間増分」
    DL2を負の値に設定したことを特徴とする音声規則合成
    方法。
  11. 【請求項11】請求項9記載の第1の拍持続時間増分DL
    1設定と,請求項10記載の第2の拍持続時間増分DL2
    定とを共に行なうことを特徴とする音声規則合成方法。
  12. 【請求項12】入力文章を形態素解析して音節コードで
    表現するステップと;上記音節コード列に基づいて上記
    入力文章のタイプを判定し,該タイプに従って制御パラ
    メータを生成し,該制御パラメータに応じてピッチパタ
    ーンを生成するステップであって,上記音節コード列に
    基づいてプロミネンスの分類を判定し,自然音声の解析
    結果に基づいて上記プロミネンスの分類対応であらかじ
    め求めた上記制御パラメータの変化分に従って,上記制
    御パラメータを制御するステップと;上記音節コード列
    に基づいて上記入力文章に応じた音韻パラメータ列を生
    成し,該音韻パラメータ列と上記韻律制御手段で生成し
    たピッチパターンとにより順次音声を合成するステップ
    と;からなることを特徴とする音声規則合成方法におい
    て,上記制御パラメータとして,アクセント成分の大き
    さ,その開始および終了時刻を制御するパラメータを用
    い,上記制御パラメータの変化分として上記アクセント
    成分の変化分を設定したことを特徴とし,上記制御パラ
    メータの変化分を,文形が平叙文でかつプロミネンスが
    付加された文単位(文節,単語,単語の一部,音節等)
    が,先頭文節以外でありかつアクセント型がアクセント
    変形型でない場合は,プロミネンスが付加されていない
    場合のアクセント成分の大きさに対する増分として定義
    される「アクセント指令増分」と,隣接するアクセント
    成分に対する「アクセント指令増分」との差である変化
    分ΔDAaを0.7±0.2の範囲内に設定し,先頭文節以外で
    ありかつアクセント型がアクセント変形型である場合は
    該ΔDAaを0.4±0.2の範囲内の値に設定し,先頭文節の
    場合は該ΔDAaを0.3±0.2の範囲内の値に設定し,アク
    セントがプロミネンスにより新たに生起した場合,該プ
    ロミネンスが付与された文単位直前にポーズを挿入する
    場合は該ΔDAaを0.1±0.1の範囲内の値に設定し,ポー
    ズを挿入しない場合は該ΔDAaを0.3±0.2の範囲内の値
    に設定し,文形が疑問文の場合は先頭文節のアクセント
    成分の大きさAa1を該Aa1と第2文節のアクセント成分の
    大きさAa2の差が0.0±0.1の範囲内の値になるように設
    定し,かつ文末アクセントに対応するΔDAaを0.4±0.2
    の範囲内の値に設定し,文形が平叙文でかつプロミネン
    スを文章中のいずれの文単位にも指定していない場合は
    先頭文節のアクセント成分の大きさAa1を該Aa1と第2文
    節のアクセント成分の大きさAa2の差が0.1±0.1の範囲
    内の値になるように設定し,文形が平叙文でかつ文末文
    節と文末直前の文節にプロミネンスを指定していない場
    合は文末文節のアクセント成分の大きさAa(J)を該Aa(J)
    と文末直前文節のアクセント成分の大きさAa(J-1)の差
    が-0.1±0.2の範囲内の値になるように設定し,上記第
    1の拍持続時間増分DL1を 0.06±0.03の範囲内の値に設
    定し,上記第2の拍持続時間増分DL2を-0.02±0.02の範
    囲内の値に設定したことを特徴とする請求項9記載の音
    声規則合成方法。
  13. 【請求項13】上記合成される音声のパワーを制御する
    ことを特徴とする請求項12記載の音声規則合成方法。
  14. 【請求項14】上記パワーの制御は,デシベル(dB)単
    位で定義されるパワーPの値を上記アクセント成分の指
    令の大きさAaより式 P=11Aa±4 (dB) で求まる値に設定したことを特徴とする請求項13記載
    の音声規則合成方法。
  15. 【請求項15】上記パワーの制御は,上記ピッチパター
    ンの変化に伴うパワーの変化を利用することを特徴とす
    る請求項13記載の音声規則合成方法。
  16. 【請求項16】上記合成される音声の時間長の制御は,
    上記音韻パラメータ列に対応する音素の持続時間を制御
    することによって行い,上記音声の時間長制御は,上記
    プロミネンスが付加された文単位の直後にポーズがある
    場合は,該文単位末尾の母音の持続時間を強調のない場
    合の該母音の持続時間の66±33%の範囲内の値だけ伸長
    し,文形が疑問文の場合は,文末の母音の持続時間を平
    叙文の場合の該母音の持続時間の78±22%の範囲内の値
    だけ伸長することを特徴とする請求項9〜15のいずれ
    かに記載の音声規則合成方法。
JP3241103A 1991-09-20 1991-09-20 音声規則合成装置および方法 Pending JPH0580791A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3241103A JPH0580791A (ja) 1991-09-20 1991-09-20 音声規則合成装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3241103A JPH0580791A (ja) 1991-09-20 1991-09-20 音声規則合成装置および方法

Publications (1)

Publication Number Publication Date
JPH0580791A true JPH0580791A (ja) 1993-04-02

Family

ID=17069335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3241103A Pending JPH0580791A (ja) 1991-09-20 1991-09-20 音声規則合成装置および方法

Country Status (1)

Country Link
JP (1) JPH0580791A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002318593A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
US7155390B2 (en) 2000-03-31 2006-12-26 Canon Kabushiki Kaisha Speech information processing method and apparatus and storage medium using a segment pitch pattern model
JP2013015693A (ja) * 2011-07-05 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> はなし言葉分析装置とその方法とプログラム
CN110622240A (zh) * 2017-05-24 2019-12-27 日本放送协会 语音向导生成装置、语音向导生成方法及广播系统
WO2021238338A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 语音合成方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7155390B2 (en) 2000-03-31 2006-12-26 Canon Kabushiki Kaisha Speech information processing method and apparatus and storage medium using a segment pitch pattern model
JP2002318593A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
US7454345B2 (en) 2003-01-20 2008-11-18 Fujitsu Limited Word or collocation emphasizing voice synthesizer
JP2013015693A (ja) * 2011-07-05 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> はなし言葉分析装置とその方法とプログラム
CN110622240A (zh) * 2017-05-24 2019-12-27 日本放送协会 语音向导生成装置、语音向导生成方法及广播系统
WO2021238338A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 语音合成方法及装置

Similar Documents

Publication Publication Date Title
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
JPH08512150A (ja) ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JPH0632020B2 (ja) 音声合成方法および装置
US5212731A (en) Apparatus for providing sentence-final accents in synthesized american english speech
KR100373329B1 (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
JP2904279B2 (ja) 音声合成方法および装置
JPH0580791A (ja) 音声規則合成装置および方法
Yakcoub et al. Speech assistive technology to improve the interaction of dysarthric speakers with machines
JPS62138898A (ja) 音声規則合成方式
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP3575919B2 (ja) テキスト音声変換装置
JP3113101B2 (ja) 音声合成装置
Niimi et al. Synthesis of emotional speech using prosodically balanced VCV segments
Hinterleitner et al. Speech synthesis
JP3078073B2 (ja) 基本周波数パタン生成方法
JP2001100777A (ja) 音声合成方法及び装置
JP2848604B2 (ja) 音声合成装置
JPH0519780A (ja) 音声規則合成装置および方法
JPH09292897A (ja) 音声合成装置
Deng et al. Speech Synthesis
JPH11161297A (ja) 音声合成方法及び装置
JP3368948B2 (ja) 音声規則合成装置
JPH06214585A (ja) 音声合成装置
Rizk et al. Arabic Text to Speech Synthesizer: Arabic Letter to Sound Rules