JP2891258B2 - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JP2891258B2 JP2891258B2 JP61232227A JP23222786A JP2891258B2 JP 2891258 B2 JP2891258 B2 JP 2891258B2 JP 61232227 A JP61232227 A JP 61232227A JP 23222786 A JP23222786 A JP 23222786A JP 2891258 B2 JP2891258 B2 JP 2891258B2
- Authority
- JP
- Japan
- Prior art keywords
- accent
- type
- size
- command
- speech synthesizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は音声合成装置、特に文字・記号等からなる
文を入力とし、規則により音声の基本周波数パタンを生
成する音声合成装置に関するものである。 〔従来の技術〕 文字・記号等からなる文を入力とした従来の音声合成
装置(たとえば、昭和61年度電子通信学会総合全国大会
講演論文集S26−5、昭和61年3月)の処理ブロック図
を第1図に示す。また上記音声合成装置への入力例を第
1表(a)に示す。 この装置への入力は、アクセント記号、フレーズ記
号、休止信号及び音節記号で表を表わされた文である。 アクセント記号は、A1(0.40)、A2(0.26)及びA0で
あり、A1とA2によってアクセント指令の立上りの音節境
界と、アクセント指令の大きさの種類を示し、A0でアク
セント指令の立下りの音節境界を示す。アクセント指令
の大きさは、A1、A2の記号に示される2種類がある。
( )内は実際に割当てるアクセント指令の大きさを示
す。 フレーズ記号は、P1(0.43)、P2(0.26)、P3(0.1
2)及びP0であり、P1、P2、P3によってフレーズ指令の
開始時点と大きさの種類を示し、P0はそれ以前にあるP
1、P2、P3によって生じたフレーズ成分を0に減らすこ
とを示している。( )内は実際に割当てるフレーズ指
令の大きさを示す。 休止記号は「。」(0.7秒)、「、」(0.3秒)「・」
(0.08秒)であり、その音節境界で休止がおかれるこ
と、すなわち間があくことを示している。( )内は休
止の長さを示す。 音節記号は「ス」「ズ」「メ」「ワ」……等の片仮名
で表わされた記号であり、音の種類を示している。 入力中、○のついたもの、たとえば「シ○」は無声化
された「シ」を示す。 入力によって合成すべき音声が指示されるが、その合
成処理は次のようにして行なう。 (1)音素的パラメータの生成 音節記号により指定される音節を蓄積パタンから選び
出し、その蓄積パタン中に記載されているその音節固有
の時間長と、休止記号によって指定される休止時間をも
とにしてその音節の時点を決定する。 次に、蓄積パタンに記載されているその音節固有の音
素的パラメータ、例えばホルマント周波数と帯域幅の時
間変化パタンを読み出し、先に定めた各音節の時点が満
たされるように、音素的パラメータを伸長・圧縮させな
がら、互いにつなぎあわせる。たとえば、ある音節C1V1
の時点をt=0とし、次の音節C2V2がt=140msecであ
り、C1V1の音素的パラメータがt=100msecの分までし
か記述されておらず、またC2V2の音素的パラメータがt
=140msecからの分からしか蓄積パタンに記述されてい
ないとした、t=100msecからt=140msecまでの間は、
V1の部分を引き伸ばすことにより補う。 以上の処理によって、合成しようとする文音声の音素
的パラメータが得られ、音声合成器(たとえばホルマン
ト合成器)に送られて、音声信号生成に用いられる。 (2)音源強度パタンの生成 音源強度は、合成する音節の種類ごとに値を定め、ま
た休止の前・後では、減少・増加させる必要がある。音
節の種類に固有な値は、やはり蓄積パタンに記載されて
おり、音素的パラメータと同様の伸縮処理を行なってつ
なぎ合わせることで、目的とする文の基礎的な音源強度
パタンが得られる。さらに、休止、特に文と文の区切り
を示す「。」の休止の前後で、音源強度規則にしたがっ
て、一定量を減少・増加させることで、最終的な音源強
度パタンが得られ、音声合成器に送られて音声信号生成
に用いられる。 (3)基本周波数(声の高さ、記号F0で表わす)パタン
の生成 入力中には、プレーズ指令及びアクセント指令の時点
が、どの音節境界にあるかが示されており、しかも前述
のように音節の時点が決定しているので、音節の時点を
基準とすることでフレーズ指令およびアクセント指令の
時点を決められる。また入力中のフレーズ記号、アクセ
ント記号の種類によって実際に用いる値が決まっている
(たとえば、A1は0.40)ので、これによりフレーズ指令
とアクセント指令の大きさと時点を決めることができ
る。フレーズ指令およびアクセント指令の時点と大きさ
をもとにしてF0パタンの生成モデルの式により、F0パタ
ンの生成を行なう。 従来のF0パタン生成モデルを第2図に示す。F0の時間
変化パタンF0(t)で表わし、次の式によって計算を行
う。 であり、1nF0(t)は自然対数軸上で表わした基本周波
数パタンであり、またGp(t)、Ga(t)はそれぞれ臨
界制動二次線形系のインパルス応答と、ステップ応答に
なっている。α、βは応答の速さを決める定数であり、
α=3.0、β=20.0程度の値を用いる。 ここで、Min{1−(1+βt)exp(−βt),θ}
は、1−(1+βt)exp(−βt)とθのどちらか小
さい方の値を選択することを意味する。 1−(1+βt)exp(−βt)は、tが増加するに
伴って目標値1.0に漸近するが、有限の時間内でGa
(t)を目標値に収束させるため、θ=0.9として処理
を行なっている。θ≦1の条件の場合Ga(t)の目標値
はθである。 Iは、入力された文内に出てくるフレーズの数を示
し、Apiはi番目に出てくるフレーズ指令の大きさを示
す。たとえば、P1(0.43)の記号で示されるフレーズが
来るならApi=0.43となる。Toiはそのフレーズ指令の時
点を示す。以上の説明から判るように、自然対数軸上で
表した基本周波数パタン1nF0(t)において、j番目の
アクセント指令によるアクセント成分による増分の漸近
値はAajθである。 Jは、入力された文内に出てくるアクセントの数を示
し、Aajはj番目に出てくるアクセント指令の大きさを
示す。たとえば、1番目のアクセントとしてA1(0.40)
の記号で示されるアクセントが来るならば、Aa1=0.40
となる。T1j、T2jは、j番目のアクセント指令の開始時
点と終了時点を示す。 1nFminは、定数項であり、声帯の振動可能最低周波数
に対応している。たとえば、男性音声を合成するとき
は、Fmin≒75Hz程度に、女性音声を合成するときはFmin
≒115Hz程度に設定する。 F0(t)を計算するときは、前述の処理によって決ま
ったフレーズ指令の大きさと時点Api、Toi(1≦i≦
I)、アクセント指令の大きさと時点Aaj、T1j、T
2j(1≦j≦J)を前掲の式に当てはめて右辺を計算
し、その結果に対して対数の逆関数、すなわち指数関数
をとることにより、F0(t)を計算する。 以上の処理によって得られたF0(t)、すなわち基本
周波数パタンは、音声合成器に送られ、音声信号の生成
に用いられる。 上述の処理に用いられるハードウェアは、音声合成器
(たとえばホルマント合成器)は、信号処理プロセッサ
により実現されており、入力信号から音声合成器への入
力を作成するまでの処理は、マイクロプロセッサによっ
て処理される。蓄積パタンは、マイクロプロセッサのア
クセスするROMに記憶される。 また、F0(t)の計算式の計算などはマイクロプロセ
ッサのプログラムで実現されている。 以上の説明では、音節記号、休止記号、アクセント記
号、フレーズ記号を入力して、音声を合成する場合の処
理を示したが、漢字仮名混じり文章(たとえば第1表
(b)参照)を入力する音声合成装置も知られている。
この場合、漢字仮名混じり文を前述した音節記号、休止
記号、アクセント記号、フレーズ記号に変換する処理が
必要である。この処理は、入力文章を単語単位に分か
ち、単語辞書を検索することにより読みを決定し、同じ
く単語辞書に書かれたアクセント型によりアクセントの
上り下りの音節境界を決定し、アクセントの大きさを割
り当てる処理によって行なわれる。 次に、アクセントの割り当て方について説明する。 いま、東京方言いわゆる標準語を合成する場合につい
て説明する。アクセント指令1つを持つ語句の単位を韻
律語とよぶことにする。韻律語のアクセント型には、頭
高型と起伏型と平板型がある。頭高型は、1拍目のあと
にアクセントの下がりがあるもので、1型とも呼ばれ
る。起伏型は、1拍目のあとにアクセントの上がりがあ
り、n拍目(n≧2)のあとにアクセントの下がりがあ
るもので、nの値に応じて、2型(n=2の場合)、3
型(n=3の場合)、……、とも呼ばれる。平板型は、
アクセントの下がりがないもので、0型とも呼ばれる。
これらのアクセント型は、アクセントの下がりの有無に
よって大別することができるので、アクセントの下がり
のある頭高型と起伏型のアクセント型をまとめてD、ア
クセントの下がりのない平板型のアクセント型をFと標
記することにする。また、この明細書では頭高型又は起
伏型に該当する場合をひとまとめにして「頭高型・起伏
型」と記す。 1つの韻律語を対象にして、アクセントの大きさを割
り当てるとき、DはA1を、FはA2を割り当てる。2つの
韻律語が連結するときのアクセントの大きさの割り当て
方を第2表に示す。1番目の韻律語をW1、2番目の韻律
語をW2とし、特に焦点(強調したい部分)を定めない場
合を<−>、W1に焦点を設定する場合を<1>、W2に焦
点を設定する場合を<2>で示す。 「かなり以前から」という語句を例にあげて、アクセ
ント記号を割り当てるまでの処理内容を次に示す。まず
「かなり」は、頭高型であり、「以前から」も頭高型で
ある。従って、第2表のアクセント型の欄はDDになる。
次に、焦点を定めないとすると<−>の場合に相当する
ので、DDの<−>の項目を見るとA1、A2になっている。
すなわち、「かなり」にはA1の大きさのアクセント指令
を、また「以前から」にはA2の大きさのアクセント指令
を与えることを示している。次に頭高型のアクセントの
場合、その韻律語の第1拍の前にアクセント指令の立上
りがあり、第1拍の後に立下がりがあるのでアクセント
記号をこの点に注意して置くと、 「A1カA0ナリ」「A2イA0ゼンカラ」となり、つなげる
と、「A1カA0ナリA2イA0ゼンカラ」となる。 次に「姉の雨具」という語句を例にとって、アクセン
ト記号の割り当て方を説明する。「姉の」は平板型であ
り「雨具を」は起伏型である。特に焦点を定めない場
合、第2表からA1A1となる。まず、それぞれの韻律後に
対して単独で、それぞれ1AとA1の大きさのアクセント記
号を割り当てて書くと次のようになる。 「アA1ネノA0」「アA1マA0グオ」 2つの韻律語をつなげて、一まとまりとして合成する
とき、平板型のあとにつながる韻律語の第1拍が低い音
のとき、平板型につながると、第1拍は高くなるという
規則がある。そこで、上記の2つの韻律語をつなげると
き、「雨具を」の第1拍を高くするには、「姉の」のA0
を、「雨具を」の第1拍の語にする。すなわち、次のよ
うにする。 「アA1ネノアA0A1マA0グオ」 以上が、従来技術によるアクセント記号の与え方であ
る。なお、参考までにつけ加えると、上の例では最初の
A0による下げ(大きさはA1)と、それにつづくA1による
上げが打ち消し合って、基本周波数には、影響を与えな
い。すなわち、 「アA1ネノアマA0グオ」 とも表記でき、この場合、アクセント指令が1つとして
処理を行なってもよい。この意味において、前記の従来
技術による文献では、FDの<−>に対しては大きさA1の
1つの起伏型のアクセント記号を割り当て、FFの<−>
に対しては、大きさA2の1つの平板型のアクセント記号
を割り当てると書いてある。 〔発明が解決しようとする問題点〕 従来の技術において用いている、アクセント記号の数
と値では、DDのアクセント型の場合<−>と<1>の内
容がどちらもA1、A2となっている。これはすなわち、<
−>と<1>を区別した音声を合成できないことを示し
ており、<1>の場合をうまく表現できないことを意味
する(<1>を表現しようとしても、<−>と同じ表現
を行なわざるを得ない)。同様のことが、DFのアクセン
ト型における<−>と<1>の場合や、FDのアクセント
型の場合の<−>と<1>の場合にも当てはまる。 音声合成装置は音声によって、情報を聴取者に伝える
ことを目的とする装置である。従って、表現力はなるべ
く豊かな方が望ましいのは言うまでもない。また、音声
合成装置と聴取者との間の恣意的な取り決めによって、
いくつかの表現方法(この場合、アクセント指令の大き
さ)を使いわけることは、聴取者にその取り決めを強い
ることになるので、利用上問題点がある。従って、音声
合成装置は、自然に存在する表現方法を使ってうまく情
報を伝える必要がある。 さらに、工学上の見地からは、音声合成装置として
は、なるべく簡単な構成と簡単な制御方法であることが
望ましい。 この発明は以上の点に鑑みて発明されたものであり、
なるべく簡単なやり方で、豊かな表現力を音声合成装置
に与えることを目的としている。 〔問題点を解決するための手段〕 従来の技術では、アクセント指令の大きさは、2種類
で十分であると思われていたので2種類しか用意してい
なかった。しかしながら、アクセント型、焦点などの条
件を制御した分析を進めた結果、2種類では不足するこ
とがわかった。 まず分析方法は次の通りである。 連体修飾語+名詞句の統語構造をもつ2韻律語からな
る名詞句に、連体修飾語として“兄の”(頭高型)ある
いは“姉の”(平板型)、および名詞句として“雨具
を”(起伏型)あるいは“絵具を”(平板型)を埋め込
み、“…買います”の形の文にした。これをさらに質問
文と対にして読み上げさせることにより、(1)特に焦
点を設定しない、(2)1番目の韻律語に焦点を設定、
(3)2番目の韻律語に焦点を設定、という3通り談話
条件を持つ発話を得た。発話者は東京方言男性話者で、
読み上げた回数は各条件当り10回とした。以上のように
して得た試料についてF0パタンの特徴抽出を行った。 以下、1番目、2番目の韻律語をそれぞれW1、W2、ま
た、頭高型・起伏型のアクセント型をD、平板型をF、
さらに、特に焦点を設定しない談話条件を<−>、W1に
設定したものを<1>、W2に設定したものを<2>と略
記する。 そして、得られたF0パタンを最もよく近似するため
の、式の各パラメータの値を定めた。その結果得られ
たアクセント指令の大きさAaを以下に示す。 第3図、第4図は分析によって求められたAaを条件別
にまとめ、μとμ±σの範囲を示したものである(μ:
平均値、σ:標準偏差)。2通りの発声がみられたもの
は、図中では、a、bと区別した。それらはいずれも平
板型のW1に焦点がおかれた場合である。D又はFの記号
に付したアンダーラインは、分析対象がその韻律語であ
る旨を示す。 まず、第3図より、頭高型・起伏型の韻律語のAaは、
ほぼ次の3種類に分類できることがわかる。 (1) すべてのW1、焦点のおかれたW2、<−>のFDの
W2、<2>のFDのW2(a)。(Aa≒0.48) (2) <−>のDDのW2と、<1>のFDのW2(b)。
(Aa≒0.29) (3) <1>のDDのW2。(Aa≒0.18) 次に、平板型については、第4図より、やはり3種類
に分類できることがわかる。 (1) W2に焦点を設定していないFDおよびFFのW1、<
2>のDFのW2、FFのW2(<1>のb以外)。(Aa≒0.3
7) (2) <2>のFD、FFのW1、<−>のDFのW2、<1>
のFFのW2(b)。(Aa≒0.24) (3) <1>のDFのW2。(Aa≒0.1) 第5図はW1のAaとW2のAaの関係を図示したものである
(Aaは平均値で代表した)。図からわかるように、DDお
よびDFの場合、談話条件を変えるとW2のAaのみが変化す
る。FDでは、W1に焦点がおかれるとW1のAaは変化せずに
W2のAaのみが小さくなるが、W2に焦点がおかれるとW2の
Aaが大きくなると同時にW1のAaが小さくなる。FFの場合
もこれとほぼ同様の変化をする。 以上で述べた頭高型・起伏型の3種類のAaを大きい方
から順にA1、A2、A3また、平板型についても同様にB1、
B2、B3と表し、発話中で実現されるAaを記号化して記述
したものを第3表に示す。 第3表において、FDの<1>は、B1A1とB1A2の2通り
の発声の仕方があり、FFの<1>は、B1B1、B1B2の2通
りの発声の仕方があることを示す。音声合成において
は、どちらか片方の方法で、合成すればよい。そこで他
の焦点条件との使い分けを考えて、FDの<1>ではB
1A2、FFの<1>ではB1B2を用いることにする。 以上のように、D、Fそれぞれのアクセント型に対
し、3つのアクセント指令の大きさを使いわけること
が、自然音声を真似て音声を合成する場合に必要である
ことがわかった。そこで、この点を実現するためには、
従来技術に比べ、アクセント指令の種類をふやし、値を
適切に定めればよいことがわかる。 以上の観点から定めた、アクセント指令の使い分け方
と、大きさを第4表と第5表に示す。 この発明を音声合成装置に適用するには、以下のよう
にして行う。即ち、従来技術においては、アクセント指
令の立上りは、A1、A2の記号で示されていたが、これの
代わりに、A1、A2、A3、B1、B2、B3の記号を用いること
とする。アクセント指令の立下りは、従来技術におい
て、A0の記号で示されているが、これはこの発明を適用
する際も、そのまま用いることができる。そして、従来
は、A1の記号に対しては、0.40の値を、A2の記号に対し
ては、0.26の値を用いて基本周波数パタンを計算してい
たが(第2図参照)、この発明を適用するには、第5表
で示される値をそれぞれの記号に対して用いればよい
(第6図参照)。上記の値を割り当ててから、基本周波
数パタンの計算を行う過程は、従来技術による計算の過
程と同様である。A1、A2、A3、B1、B2、B3の各記号に対
して割り当てることのできるアクセント指令の大きさの
範囲は、後に詳しく説明する。 次に、頭高型・起伏型のアクセントに対してアクセン
ト指令の大きさが3種類で十分であり、平板型のアクセ
ントに対して、アクセント指令の大きさが3種類であれ
ば十分であることを次に説明する。いま、第4表のDDの
欄を見るとき<−>の場合はA1A2であり、<1>の場合
はA1、A3であり、<2>の場合はA1A1であり、それぞれ
相異なっている。これはすなわち、音声を合成するとき
<−>と<1>と<2>が区別して表現できることを意
味する。同様にして、DFの<−>と<1>と<2>の場
合もそれぞれ区別して表現できることがわかる。同様の
ことがFD、FFの場合にも成り立つ。 以上の検討により、第4表による表現が、焦点の違い
を十分に表せることがわかる。すなわち、焦点の違いを
表現する上では、頭高型・起伏型のアクセントに対し
て、A1、A2、A3の3種類を用いれば十分であり、平板型
のアクセントに対しては、B1、B2、B3の3種類を用いれ
ば十分である。 〔作用〕 状況に応じてアクセント指令の大きさを指定すること
で、焦点の有無や各韻律語のアクセント型が自然に近い
形で表現された合成音声が得られる。音声を合成するの
に要する実際の処理過程は、従来技術と同様である。 〔実施例〕 いま、前述したアクセントを用いて2つの韻律語が連
続する場合の韻律語のアクセント型と焦点を表現する実
施例を第4表に示す。1番目の韻律語をW1、2番目の韻
律語をW2とする。Dは、頭高型と起伏型のアクセント型
を示し、Fは平板型のアクセント型を示す。たとえば、
FFとは、平板型のアクセントを持つ韻律語が2つ連続し
ている場合を示す。また、<−>は、特に、焦点(強調
したい韻律語)を設定しない場合であり、<1>は焦点
をW1に設定した場合、<2>は焦点をW2に設定した場合
である。たとえば、DDで<1>のときのアクセントの欄
はA1A3になっている。これは、頭高型・起伏型の韻律語
が2つ連続するとき、先頭の韻律語に焦点を置いた音声
を合成するには、第1番目の韻律語のアクセント指令の
大きさをA1にし、第2番目の韻律語のアクセント指令の
大きさをA3にすればよいことを示す。このように、第4
表の表を参照しながら、アクセント指令の大きさを定
め、音声を合成すれば、アクセント型と焦点の表現が的
確にできる。 次に、アクセント指令の大きさのとるべき範囲につい
て説明する。アクセント指令の大きさの分析結果をもと
にして、妥当な範囲を示したものが第6図(a)であ
る。アクセント指令の大きさは、自然音声において、ゆ
らぎ(ばらつき)があることからわかるように、ある程
度の範囲内であれば、所定の効果をあげることができ
る。b11はA1のとるべき範囲を示したものであり、自然
音声において出現するA1に相当するアクセント指令の大
きさは、ほぼb11内に入る。逆にいえば、b11の範囲内で
A1のアクセント指令の大きさを決めれば、ほぼ自然な音
声が合成できる。式で表わせば、 0.38≦A1≦0.6 となる。なお、上限、下限値は、この値を越えると、突
然自然な音声が合成できなくなるという意味でなく、徐
々に不自然になっていくという性質のものである。 従って、多少幅を広げて 0.36≦A1≦0.61 と考えてもよい。なお、上記の値はアクセント生成にも
ちいる式 において、θ=0.9と置いた場合、すなわち、Ga(t)
の最大値が0.9の場合を示している。従ってA1=0.6の場
合は、自然対数軸上で基本周波数パタンの、アクセント
成分による増分の漸近値は、0.6×0.9=0.54となる。特
許請求の範囲においては、このθの寄与分も含めた値、
すなわち、0.9を乗じた値を記している。 同様にして、他のアクセント指令の大きさも取るべき
範囲を示すと次のようになる。 0.18≦A2≦0.38 0.1≦A3≦0.24 0.33≦B1≦0.5 0.16≦B2≦0.3 0.07≦B3≦0.14 A1とA2、A2とA3、B1とB2、B2とB3はそれぞれ隣同士の
値である。この隣同士で、アクセントの大きさが区別で
きうるためには、アクセントの大きさにある程度の差が
必要である。この差は、実験結果から求めたアクセント
指令の大きさにおける隣同士のアクセント指令の大きさ
の差の約半分以上にすると良い。たとえば、実験結果で
はA1とA2にふさわしい値はそれぞれ、0.48と0.29になっ
ている。両者のアクセント指令の大きさの差の半分は、
(0.48−0.29)÷2=0.095である。従って、A1とA2に
は少なくとも0.09の差を設けると良い(小数点以下第3
位切り捨て)。この様にして、隣同士のアクセント指令
の大きさが満たすべき条件を示すと以下のようになる。 A1≧A2+0.09 A2≧A3+0.05 B1≧B2+0.06 B2≧B3+0.07 なお、差は上記に示した値より小さくなると、突然ア
クセントの大きさが区別できなくなるという性質のもの
ではなく、徐々に区別できなくなる性質のものである。
従って0.09の代わりに0.08と考えても誤りでない。特許
請求の範囲には、先程と同様にしてθの寄与分を含め
て、すなわち、0.9を乗じて記してある。 次にAiとBiの間の関係について説明する。韻律語のア
クセント型は、その韻律語によって決まっているので、
D(頭高型と起伏型)とF(平板型)のアクセント型の
違いによるアクセントの大きさは、必ずしも区別をつけ
なくても、聴覚上、韻律語を区別するのには、あまり差
しつかえない。しかしながら、自然性という点では、D
のアクセントの大きさは、Fのアクセントよりも総じて
大きい方がよい。よって A1≧B1 A2≧B2 A3≧B3 という、制限を満たした方がよい。 以上がアクセントの大きさの実用上の制限であるが、
この中でバランスよく、値を配置すると、次のようにな
る(第7図では☆印で表記) A1=0.48 A2=0.29 A3=0.18 B1=0.37 B2=0.24 B3=0.1 もちろん、厳密に上記の値を守らねばならないという
ものではなく、多少の幅があるので、たとえば A1=0.50 A2=0.30 A3=0.19 B1=0.38 B2=0.25 B3=0.11 という値も可能である。 なお、特許請求の範囲には、先程と同様にして、θの
寄与も含めて、すなわち、0.9を乗じた値を記してい
る。 以上の説明においては、頭高型と起伏型のアクセント
に与えるアクセント指令の大きさを同じとして説明した
が、効果の点においては、前述の許容範囲の中で互いに
異なる値を与えることもできる。たとえば、頭高型に与
えるアクセント指令の大きさを、大きい方から順にC1、
C2、C3とし、起伏型に与えるアクセント指令の大きさを
順にD1、D2、D3とすると、C1、C2、C3とD1、D2、D3は、
それぞれ前述したA1、A2、A3の値の許容範囲を満たさな
くてはならない。そして、たとえば、 C1=0.48 C2=0.29 C3=0.18 D1=0.46 D2=0.28 D3=0.17 という値を設定することができ、この場合でも、焦点や
アクセント型の違いを的確に表現できることは変わらな
い。 さらに、起伏型は、2拍目のあとにアクセントの下り
があるもの(2型という)、3拍目のあとにアクセント
の下りがあるもの(3型という)等に細かく分類するこ
とができ、それぞれの型に対して、互いに異なるアクセ
ント指令の大きさを与えることもできる。このようにし
ても焦点やアクセント型の違いを的確に表現できること
は変わらない。 〔発明の効果〕 以上のように、この発明によれば、自然音声と同じア
クセント型、焦点の表現方法を音声合成装置に用意する
ことができる。すなわち、第4表の各項目を見ると、そ
れぞれの項目は全て異なるアクセント指令の大きさを与
えられている。このことは、各韻律語のアクセント型と
焦点を十分に場合分けして表現できることを示してい
る。これにより、従来の技術よりも的確に文の内容を聴
取者に伝えることができる。
文を入力とし、規則により音声の基本周波数パタンを生
成する音声合成装置に関するものである。 〔従来の技術〕 文字・記号等からなる文を入力とした従来の音声合成
装置(たとえば、昭和61年度電子通信学会総合全国大会
講演論文集S26−5、昭和61年3月)の処理ブロック図
を第1図に示す。また上記音声合成装置への入力例を第
1表(a)に示す。 この装置への入力は、アクセント記号、フレーズ記
号、休止信号及び音節記号で表を表わされた文である。 アクセント記号は、A1(0.40)、A2(0.26)及びA0で
あり、A1とA2によってアクセント指令の立上りの音節境
界と、アクセント指令の大きさの種類を示し、A0でアク
セント指令の立下りの音節境界を示す。アクセント指令
の大きさは、A1、A2の記号に示される2種類がある。
( )内は実際に割当てるアクセント指令の大きさを示
す。 フレーズ記号は、P1(0.43)、P2(0.26)、P3(0.1
2)及びP0であり、P1、P2、P3によってフレーズ指令の
開始時点と大きさの種類を示し、P0はそれ以前にあるP
1、P2、P3によって生じたフレーズ成分を0に減らすこ
とを示している。( )内は実際に割当てるフレーズ指
令の大きさを示す。 休止記号は「。」(0.7秒)、「、」(0.3秒)「・」
(0.08秒)であり、その音節境界で休止がおかれるこ
と、すなわち間があくことを示している。( )内は休
止の長さを示す。 音節記号は「ス」「ズ」「メ」「ワ」……等の片仮名
で表わされた記号であり、音の種類を示している。 入力中、○のついたもの、たとえば「シ○」は無声化
された「シ」を示す。 入力によって合成すべき音声が指示されるが、その合
成処理は次のようにして行なう。 (1)音素的パラメータの生成 音節記号により指定される音節を蓄積パタンから選び
出し、その蓄積パタン中に記載されているその音節固有
の時間長と、休止記号によって指定される休止時間をも
とにしてその音節の時点を決定する。 次に、蓄積パタンに記載されているその音節固有の音
素的パラメータ、例えばホルマント周波数と帯域幅の時
間変化パタンを読み出し、先に定めた各音節の時点が満
たされるように、音素的パラメータを伸長・圧縮させな
がら、互いにつなぎあわせる。たとえば、ある音節C1V1
の時点をt=0とし、次の音節C2V2がt=140msecであ
り、C1V1の音素的パラメータがt=100msecの分までし
か記述されておらず、またC2V2の音素的パラメータがt
=140msecからの分からしか蓄積パタンに記述されてい
ないとした、t=100msecからt=140msecまでの間は、
V1の部分を引き伸ばすことにより補う。 以上の処理によって、合成しようとする文音声の音素
的パラメータが得られ、音声合成器(たとえばホルマン
ト合成器)に送られて、音声信号生成に用いられる。 (2)音源強度パタンの生成 音源強度は、合成する音節の種類ごとに値を定め、ま
た休止の前・後では、減少・増加させる必要がある。音
節の種類に固有な値は、やはり蓄積パタンに記載されて
おり、音素的パラメータと同様の伸縮処理を行なってつ
なぎ合わせることで、目的とする文の基礎的な音源強度
パタンが得られる。さらに、休止、特に文と文の区切り
を示す「。」の休止の前後で、音源強度規則にしたがっ
て、一定量を減少・増加させることで、最終的な音源強
度パタンが得られ、音声合成器に送られて音声信号生成
に用いられる。 (3)基本周波数(声の高さ、記号F0で表わす)パタン
の生成 入力中には、プレーズ指令及びアクセント指令の時点
が、どの音節境界にあるかが示されており、しかも前述
のように音節の時点が決定しているので、音節の時点を
基準とすることでフレーズ指令およびアクセント指令の
時点を決められる。また入力中のフレーズ記号、アクセ
ント記号の種類によって実際に用いる値が決まっている
(たとえば、A1は0.40)ので、これによりフレーズ指令
とアクセント指令の大きさと時点を決めることができ
る。フレーズ指令およびアクセント指令の時点と大きさ
をもとにしてF0パタンの生成モデルの式により、F0パタ
ンの生成を行なう。 従来のF0パタン生成モデルを第2図に示す。F0の時間
変化パタンF0(t)で表わし、次の式によって計算を行
う。 であり、1nF0(t)は自然対数軸上で表わした基本周波
数パタンであり、またGp(t)、Ga(t)はそれぞれ臨
界制動二次線形系のインパルス応答と、ステップ応答に
なっている。α、βは応答の速さを決める定数であり、
α=3.0、β=20.0程度の値を用いる。 ここで、Min{1−(1+βt)exp(−βt),θ}
は、1−(1+βt)exp(−βt)とθのどちらか小
さい方の値を選択することを意味する。 1−(1+βt)exp(−βt)は、tが増加するに
伴って目標値1.0に漸近するが、有限の時間内でGa
(t)を目標値に収束させるため、θ=0.9として処理
を行なっている。θ≦1の条件の場合Ga(t)の目標値
はθである。 Iは、入力された文内に出てくるフレーズの数を示
し、Apiはi番目に出てくるフレーズ指令の大きさを示
す。たとえば、P1(0.43)の記号で示されるフレーズが
来るならApi=0.43となる。Toiはそのフレーズ指令の時
点を示す。以上の説明から判るように、自然対数軸上で
表した基本周波数パタン1nF0(t)において、j番目の
アクセント指令によるアクセント成分による増分の漸近
値はAajθである。 Jは、入力された文内に出てくるアクセントの数を示
し、Aajはj番目に出てくるアクセント指令の大きさを
示す。たとえば、1番目のアクセントとしてA1(0.40)
の記号で示されるアクセントが来るならば、Aa1=0.40
となる。T1j、T2jは、j番目のアクセント指令の開始時
点と終了時点を示す。 1nFminは、定数項であり、声帯の振動可能最低周波数
に対応している。たとえば、男性音声を合成するとき
は、Fmin≒75Hz程度に、女性音声を合成するときはFmin
≒115Hz程度に設定する。 F0(t)を計算するときは、前述の処理によって決ま
ったフレーズ指令の大きさと時点Api、Toi(1≦i≦
I)、アクセント指令の大きさと時点Aaj、T1j、T
2j(1≦j≦J)を前掲の式に当てはめて右辺を計算
し、その結果に対して対数の逆関数、すなわち指数関数
をとることにより、F0(t)を計算する。 以上の処理によって得られたF0(t)、すなわち基本
周波数パタンは、音声合成器に送られ、音声信号の生成
に用いられる。 上述の処理に用いられるハードウェアは、音声合成器
(たとえばホルマント合成器)は、信号処理プロセッサ
により実現されており、入力信号から音声合成器への入
力を作成するまでの処理は、マイクロプロセッサによっ
て処理される。蓄積パタンは、マイクロプロセッサのア
クセスするROMに記憶される。 また、F0(t)の計算式の計算などはマイクロプロセ
ッサのプログラムで実現されている。 以上の説明では、音節記号、休止記号、アクセント記
号、フレーズ記号を入力して、音声を合成する場合の処
理を示したが、漢字仮名混じり文章(たとえば第1表
(b)参照)を入力する音声合成装置も知られている。
この場合、漢字仮名混じり文を前述した音節記号、休止
記号、アクセント記号、フレーズ記号に変換する処理が
必要である。この処理は、入力文章を単語単位に分か
ち、単語辞書を検索することにより読みを決定し、同じ
く単語辞書に書かれたアクセント型によりアクセントの
上り下りの音節境界を決定し、アクセントの大きさを割
り当てる処理によって行なわれる。 次に、アクセントの割り当て方について説明する。 いま、東京方言いわゆる標準語を合成する場合につい
て説明する。アクセント指令1つを持つ語句の単位を韻
律語とよぶことにする。韻律語のアクセント型には、頭
高型と起伏型と平板型がある。頭高型は、1拍目のあと
にアクセントの下がりがあるもので、1型とも呼ばれ
る。起伏型は、1拍目のあとにアクセントの上がりがあ
り、n拍目(n≧2)のあとにアクセントの下がりがあ
るもので、nの値に応じて、2型(n=2の場合)、3
型(n=3の場合)、……、とも呼ばれる。平板型は、
アクセントの下がりがないもので、0型とも呼ばれる。
これらのアクセント型は、アクセントの下がりの有無に
よって大別することができるので、アクセントの下がり
のある頭高型と起伏型のアクセント型をまとめてD、ア
クセントの下がりのない平板型のアクセント型をFと標
記することにする。また、この明細書では頭高型又は起
伏型に該当する場合をひとまとめにして「頭高型・起伏
型」と記す。 1つの韻律語を対象にして、アクセントの大きさを割
り当てるとき、DはA1を、FはA2を割り当てる。2つの
韻律語が連結するときのアクセントの大きさの割り当て
方を第2表に示す。1番目の韻律語をW1、2番目の韻律
語をW2とし、特に焦点(強調したい部分)を定めない場
合を<−>、W1に焦点を設定する場合を<1>、W2に焦
点を設定する場合を<2>で示す。 「かなり以前から」という語句を例にあげて、アクセ
ント記号を割り当てるまでの処理内容を次に示す。まず
「かなり」は、頭高型であり、「以前から」も頭高型で
ある。従って、第2表のアクセント型の欄はDDになる。
次に、焦点を定めないとすると<−>の場合に相当する
ので、DDの<−>の項目を見るとA1、A2になっている。
すなわち、「かなり」にはA1の大きさのアクセント指令
を、また「以前から」にはA2の大きさのアクセント指令
を与えることを示している。次に頭高型のアクセントの
場合、その韻律語の第1拍の前にアクセント指令の立上
りがあり、第1拍の後に立下がりがあるのでアクセント
記号をこの点に注意して置くと、 「A1カA0ナリ」「A2イA0ゼンカラ」となり、つなげる
と、「A1カA0ナリA2イA0ゼンカラ」となる。 次に「姉の雨具」という語句を例にとって、アクセン
ト記号の割り当て方を説明する。「姉の」は平板型であ
り「雨具を」は起伏型である。特に焦点を定めない場
合、第2表からA1A1となる。まず、それぞれの韻律後に
対して単独で、それぞれ1AとA1の大きさのアクセント記
号を割り当てて書くと次のようになる。 「アA1ネノA0」「アA1マA0グオ」 2つの韻律語をつなげて、一まとまりとして合成する
とき、平板型のあとにつながる韻律語の第1拍が低い音
のとき、平板型につながると、第1拍は高くなるという
規則がある。そこで、上記の2つの韻律語をつなげると
き、「雨具を」の第1拍を高くするには、「姉の」のA0
を、「雨具を」の第1拍の語にする。すなわち、次のよ
うにする。 「アA1ネノアA0A1マA0グオ」 以上が、従来技術によるアクセント記号の与え方であ
る。なお、参考までにつけ加えると、上の例では最初の
A0による下げ(大きさはA1)と、それにつづくA1による
上げが打ち消し合って、基本周波数には、影響を与えな
い。すなわち、 「アA1ネノアマA0グオ」 とも表記でき、この場合、アクセント指令が1つとして
処理を行なってもよい。この意味において、前記の従来
技術による文献では、FDの<−>に対しては大きさA1の
1つの起伏型のアクセント記号を割り当て、FFの<−>
に対しては、大きさA2の1つの平板型のアクセント記号
を割り当てると書いてある。 〔発明が解決しようとする問題点〕 従来の技術において用いている、アクセント記号の数
と値では、DDのアクセント型の場合<−>と<1>の内
容がどちらもA1、A2となっている。これはすなわち、<
−>と<1>を区別した音声を合成できないことを示し
ており、<1>の場合をうまく表現できないことを意味
する(<1>を表現しようとしても、<−>と同じ表現
を行なわざるを得ない)。同様のことが、DFのアクセン
ト型における<−>と<1>の場合や、FDのアクセント
型の場合の<−>と<1>の場合にも当てはまる。 音声合成装置は音声によって、情報を聴取者に伝える
ことを目的とする装置である。従って、表現力はなるべ
く豊かな方が望ましいのは言うまでもない。また、音声
合成装置と聴取者との間の恣意的な取り決めによって、
いくつかの表現方法(この場合、アクセント指令の大き
さ)を使いわけることは、聴取者にその取り決めを強い
ることになるので、利用上問題点がある。従って、音声
合成装置は、自然に存在する表現方法を使ってうまく情
報を伝える必要がある。 さらに、工学上の見地からは、音声合成装置として
は、なるべく簡単な構成と簡単な制御方法であることが
望ましい。 この発明は以上の点に鑑みて発明されたものであり、
なるべく簡単なやり方で、豊かな表現力を音声合成装置
に与えることを目的としている。 〔問題点を解決するための手段〕 従来の技術では、アクセント指令の大きさは、2種類
で十分であると思われていたので2種類しか用意してい
なかった。しかしながら、アクセント型、焦点などの条
件を制御した分析を進めた結果、2種類では不足するこ
とがわかった。 まず分析方法は次の通りである。 連体修飾語+名詞句の統語構造をもつ2韻律語からな
る名詞句に、連体修飾語として“兄の”(頭高型)ある
いは“姉の”(平板型)、および名詞句として“雨具
を”(起伏型)あるいは“絵具を”(平板型)を埋め込
み、“…買います”の形の文にした。これをさらに質問
文と対にして読み上げさせることにより、(1)特に焦
点を設定しない、(2)1番目の韻律語に焦点を設定、
(3)2番目の韻律語に焦点を設定、という3通り談話
条件を持つ発話を得た。発話者は東京方言男性話者で、
読み上げた回数は各条件当り10回とした。以上のように
して得た試料についてF0パタンの特徴抽出を行った。 以下、1番目、2番目の韻律語をそれぞれW1、W2、ま
た、頭高型・起伏型のアクセント型をD、平板型をF、
さらに、特に焦点を設定しない談話条件を<−>、W1に
設定したものを<1>、W2に設定したものを<2>と略
記する。 そして、得られたF0パタンを最もよく近似するため
の、式の各パラメータの値を定めた。その結果得られ
たアクセント指令の大きさAaを以下に示す。 第3図、第4図は分析によって求められたAaを条件別
にまとめ、μとμ±σの範囲を示したものである(μ:
平均値、σ:標準偏差)。2通りの発声がみられたもの
は、図中では、a、bと区別した。それらはいずれも平
板型のW1に焦点がおかれた場合である。D又はFの記号
に付したアンダーラインは、分析対象がその韻律語であ
る旨を示す。 まず、第3図より、頭高型・起伏型の韻律語のAaは、
ほぼ次の3種類に分類できることがわかる。 (1) すべてのW1、焦点のおかれたW2、<−>のFDの
W2、<2>のFDのW2(a)。(Aa≒0.48) (2) <−>のDDのW2と、<1>のFDのW2(b)。
(Aa≒0.29) (3) <1>のDDのW2。(Aa≒0.18) 次に、平板型については、第4図より、やはり3種類
に分類できることがわかる。 (1) W2に焦点を設定していないFDおよびFFのW1、<
2>のDFのW2、FFのW2(<1>のb以外)。(Aa≒0.3
7) (2) <2>のFD、FFのW1、<−>のDFのW2、<1>
のFFのW2(b)。(Aa≒0.24) (3) <1>のDFのW2。(Aa≒0.1) 第5図はW1のAaとW2のAaの関係を図示したものである
(Aaは平均値で代表した)。図からわかるように、DDお
よびDFの場合、談話条件を変えるとW2のAaのみが変化す
る。FDでは、W1に焦点がおかれるとW1のAaは変化せずに
W2のAaのみが小さくなるが、W2に焦点がおかれるとW2の
Aaが大きくなると同時にW1のAaが小さくなる。FFの場合
もこれとほぼ同様の変化をする。 以上で述べた頭高型・起伏型の3種類のAaを大きい方
から順にA1、A2、A3また、平板型についても同様にB1、
B2、B3と表し、発話中で実現されるAaを記号化して記述
したものを第3表に示す。 第3表において、FDの<1>は、B1A1とB1A2の2通り
の発声の仕方があり、FFの<1>は、B1B1、B1B2の2通
りの発声の仕方があることを示す。音声合成において
は、どちらか片方の方法で、合成すればよい。そこで他
の焦点条件との使い分けを考えて、FDの<1>ではB
1A2、FFの<1>ではB1B2を用いることにする。 以上のように、D、Fそれぞれのアクセント型に対
し、3つのアクセント指令の大きさを使いわけること
が、自然音声を真似て音声を合成する場合に必要である
ことがわかった。そこで、この点を実現するためには、
従来技術に比べ、アクセント指令の種類をふやし、値を
適切に定めればよいことがわかる。 以上の観点から定めた、アクセント指令の使い分け方
と、大きさを第4表と第5表に示す。 この発明を音声合成装置に適用するには、以下のよう
にして行う。即ち、従来技術においては、アクセント指
令の立上りは、A1、A2の記号で示されていたが、これの
代わりに、A1、A2、A3、B1、B2、B3の記号を用いること
とする。アクセント指令の立下りは、従来技術におい
て、A0の記号で示されているが、これはこの発明を適用
する際も、そのまま用いることができる。そして、従来
は、A1の記号に対しては、0.40の値を、A2の記号に対し
ては、0.26の値を用いて基本周波数パタンを計算してい
たが(第2図参照)、この発明を適用するには、第5表
で示される値をそれぞれの記号に対して用いればよい
(第6図参照)。上記の値を割り当ててから、基本周波
数パタンの計算を行う過程は、従来技術による計算の過
程と同様である。A1、A2、A3、B1、B2、B3の各記号に対
して割り当てることのできるアクセント指令の大きさの
範囲は、後に詳しく説明する。 次に、頭高型・起伏型のアクセントに対してアクセン
ト指令の大きさが3種類で十分であり、平板型のアクセ
ントに対して、アクセント指令の大きさが3種類であれ
ば十分であることを次に説明する。いま、第4表のDDの
欄を見るとき<−>の場合はA1A2であり、<1>の場合
はA1、A3であり、<2>の場合はA1A1であり、それぞれ
相異なっている。これはすなわち、音声を合成するとき
<−>と<1>と<2>が区別して表現できることを意
味する。同様にして、DFの<−>と<1>と<2>の場
合もそれぞれ区別して表現できることがわかる。同様の
ことがFD、FFの場合にも成り立つ。 以上の検討により、第4表による表現が、焦点の違い
を十分に表せることがわかる。すなわち、焦点の違いを
表現する上では、頭高型・起伏型のアクセントに対し
て、A1、A2、A3の3種類を用いれば十分であり、平板型
のアクセントに対しては、B1、B2、B3の3種類を用いれ
ば十分である。 〔作用〕 状況に応じてアクセント指令の大きさを指定すること
で、焦点の有無や各韻律語のアクセント型が自然に近い
形で表現された合成音声が得られる。音声を合成するの
に要する実際の処理過程は、従来技術と同様である。 〔実施例〕 いま、前述したアクセントを用いて2つの韻律語が連
続する場合の韻律語のアクセント型と焦点を表現する実
施例を第4表に示す。1番目の韻律語をW1、2番目の韻
律語をW2とする。Dは、頭高型と起伏型のアクセント型
を示し、Fは平板型のアクセント型を示す。たとえば、
FFとは、平板型のアクセントを持つ韻律語が2つ連続し
ている場合を示す。また、<−>は、特に、焦点(強調
したい韻律語)を設定しない場合であり、<1>は焦点
をW1に設定した場合、<2>は焦点をW2に設定した場合
である。たとえば、DDで<1>のときのアクセントの欄
はA1A3になっている。これは、頭高型・起伏型の韻律語
が2つ連続するとき、先頭の韻律語に焦点を置いた音声
を合成するには、第1番目の韻律語のアクセント指令の
大きさをA1にし、第2番目の韻律語のアクセント指令の
大きさをA3にすればよいことを示す。このように、第4
表の表を参照しながら、アクセント指令の大きさを定
め、音声を合成すれば、アクセント型と焦点の表現が的
確にできる。 次に、アクセント指令の大きさのとるべき範囲につい
て説明する。アクセント指令の大きさの分析結果をもと
にして、妥当な範囲を示したものが第6図(a)であ
る。アクセント指令の大きさは、自然音声において、ゆ
らぎ(ばらつき)があることからわかるように、ある程
度の範囲内であれば、所定の効果をあげることができ
る。b11はA1のとるべき範囲を示したものであり、自然
音声において出現するA1に相当するアクセント指令の大
きさは、ほぼb11内に入る。逆にいえば、b11の範囲内で
A1のアクセント指令の大きさを決めれば、ほぼ自然な音
声が合成できる。式で表わせば、 0.38≦A1≦0.6 となる。なお、上限、下限値は、この値を越えると、突
然自然な音声が合成できなくなるという意味でなく、徐
々に不自然になっていくという性質のものである。 従って、多少幅を広げて 0.36≦A1≦0.61 と考えてもよい。なお、上記の値はアクセント生成にも
ちいる式 において、θ=0.9と置いた場合、すなわち、Ga(t)
の最大値が0.9の場合を示している。従ってA1=0.6の場
合は、自然対数軸上で基本周波数パタンの、アクセント
成分による増分の漸近値は、0.6×0.9=0.54となる。特
許請求の範囲においては、このθの寄与分も含めた値、
すなわち、0.9を乗じた値を記している。 同様にして、他のアクセント指令の大きさも取るべき
範囲を示すと次のようになる。 0.18≦A2≦0.38 0.1≦A3≦0.24 0.33≦B1≦0.5 0.16≦B2≦0.3 0.07≦B3≦0.14 A1とA2、A2とA3、B1とB2、B2とB3はそれぞれ隣同士の
値である。この隣同士で、アクセントの大きさが区別で
きうるためには、アクセントの大きさにある程度の差が
必要である。この差は、実験結果から求めたアクセント
指令の大きさにおける隣同士のアクセント指令の大きさ
の差の約半分以上にすると良い。たとえば、実験結果で
はA1とA2にふさわしい値はそれぞれ、0.48と0.29になっ
ている。両者のアクセント指令の大きさの差の半分は、
(0.48−0.29)÷2=0.095である。従って、A1とA2に
は少なくとも0.09の差を設けると良い(小数点以下第3
位切り捨て)。この様にして、隣同士のアクセント指令
の大きさが満たすべき条件を示すと以下のようになる。 A1≧A2+0.09 A2≧A3+0.05 B1≧B2+0.06 B2≧B3+0.07 なお、差は上記に示した値より小さくなると、突然ア
クセントの大きさが区別できなくなるという性質のもの
ではなく、徐々に区別できなくなる性質のものである。
従って0.09の代わりに0.08と考えても誤りでない。特許
請求の範囲には、先程と同様にしてθの寄与分を含め
て、すなわち、0.9を乗じて記してある。 次にAiとBiの間の関係について説明する。韻律語のア
クセント型は、その韻律語によって決まっているので、
D(頭高型と起伏型)とF(平板型)のアクセント型の
違いによるアクセントの大きさは、必ずしも区別をつけ
なくても、聴覚上、韻律語を区別するのには、あまり差
しつかえない。しかしながら、自然性という点では、D
のアクセントの大きさは、Fのアクセントよりも総じて
大きい方がよい。よって A1≧B1 A2≧B2 A3≧B3 という、制限を満たした方がよい。 以上がアクセントの大きさの実用上の制限であるが、
この中でバランスよく、値を配置すると、次のようにな
る(第7図では☆印で表記) A1=0.48 A2=0.29 A3=0.18 B1=0.37 B2=0.24 B3=0.1 もちろん、厳密に上記の値を守らねばならないという
ものではなく、多少の幅があるので、たとえば A1=0.50 A2=0.30 A3=0.19 B1=0.38 B2=0.25 B3=0.11 という値も可能である。 なお、特許請求の範囲には、先程と同様にして、θの
寄与も含めて、すなわち、0.9を乗じた値を記してい
る。 以上の説明においては、頭高型と起伏型のアクセント
に与えるアクセント指令の大きさを同じとして説明した
が、効果の点においては、前述の許容範囲の中で互いに
異なる値を与えることもできる。たとえば、頭高型に与
えるアクセント指令の大きさを、大きい方から順にC1、
C2、C3とし、起伏型に与えるアクセント指令の大きさを
順にD1、D2、D3とすると、C1、C2、C3とD1、D2、D3は、
それぞれ前述したA1、A2、A3の値の許容範囲を満たさな
くてはならない。そして、たとえば、 C1=0.48 C2=0.29 C3=0.18 D1=0.46 D2=0.28 D3=0.17 という値を設定することができ、この場合でも、焦点や
アクセント型の違いを的確に表現できることは変わらな
い。 さらに、起伏型は、2拍目のあとにアクセントの下り
があるもの(2型という)、3拍目のあとにアクセント
の下りがあるもの(3型という)等に細かく分類するこ
とができ、それぞれの型に対して、互いに異なるアクセ
ント指令の大きさを与えることもできる。このようにし
ても焦点やアクセント型の違いを的確に表現できること
は変わらない。 〔発明の効果〕 以上のように、この発明によれば、自然音声と同じア
クセント型、焦点の表現方法を音声合成装置に用意する
ことができる。すなわち、第4表の各項目を見ると、そ
れぞれの項目は全て異なるアクセント指令の大きさを与
えられている。このことは、各韻律語のアクセント型と
焦点を十分に場合分けして表現できることを示してい
る。これにより、従来の技術よりも的確に文の内容を聴
取者に伝えることができる。
【図面の簡単な説明】
第1図は、従来技術による音声合成装置の処理構成図、
第2図は従来技術による基本周波数パタン生成モデルを
示す図、第3図は、頭高型・起伏型の韻律語のアクセン
ト指令の大きさの分布図、第4図は、平板型の韻律語の
アクセント指令の大きさの分布図、第5図は、アクセン
ト指令の大きさの相対関係図、第6図は本発明による基
本周波数パタン生成モデルを示す図、第7図の(a)お
よび(b)は、それぞれアクセント指令の大きさの許容
範囲を示す図である。
第2図は従来技術による基本周波数パタン生成モデルを
示す図、第3図は、頭高型・起伏型の韻律語のアクセン
ト指令の大きさの分布図、第4図は、平板型の韻律語の
アクセント指令の大きさの分布図、第5図は、アクセン
ト指令の大きさの相対関係図、第6図は本発明による基
本周波数パタン生成モデルを示す図、第7図の(a)お
よび(b)は、それぞれアクセント指令の大きさの許容
範囲を示す図である。
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 河井 恒
千葉県船橋市前原東5丁目50番8号
(72)発明者 若山 順彦
千葉県市川市相之川3丁目4番4号
(56)参考文献 特開 昭58−181098(JP,A)
特開 昭59−81697(JP,A)
特開 昭60−225198(JP,A)
(58)調査した分野(Int.Cl.6,DB名)
G10L 3/00
G10L 5/00 - 5/04
Claims (1)
- (57)【特許請求の範囲】 1.文字・記号等からなる文字を入力とし、入力中にあ
るアクセントを表わす記号(以下、アクセント記号とい
う。)又は入力に基づき内蔵された辞書を検索すること
によりアクセントに関する情報を得て基本周波数パタン
を生成する音声合成装置において、 基本周波数パタンの成分のうちアクセント成分を作るア
クセント指令の大きさをA1、A2、A3とすると、 自然対数軸上で表した基本周波数パタンのアクセント成
分による増分の漸近値でアクセント指令の大きさを示す
場合に、 A2+0.08≦A1 A3+0.05≦A2 となる3種類のアクセント指令があり、 頭高型又は起伏型の韻律語に対してこれらのアクセント
指令を用いることを特徴とする音声合成装置。 2.特許請求の範囲第1項の音声合成装置において、ア
クセント成分が、自然対数軸上の基本周波数パタンにお
いて、臨界制動二次線形系のステップ応答で近似するこ
とを特徴とする音声合成装置。 3.特許請求の範囲第1項又は第2項の音声合成装置に
おいて、 頭高型又は起伏型の韻律語に用いるアクセント指令の大
きさをA1、A2、A3とし、平板型の韻律語に用いるアクセ
ント指令の大きさをB1、B2、B3とすると、 自然対数軸上で表した基本周波数パタンのアクセント成
分による増分の漸近値でアクセントの大きさを示す場合
に、 0.34≦A1≦0.54 0.16≦A2≦0.34 0.09≦A3≦0.22 0.29≦B1≦0.45 0.14≦B2≦0.27 0.06≦B3≦0.13 であり、かつ A2+0.08≦A1 A3+0.05≦A2 B2+0.05≦B1 B3+0.06≦B2 となることを特徴とする音声合成装置。 4.特許請求の範囲第3項の音声合成装置において、 B1≦A1 B2≦A2 B3≦A3 が成り立つことを特徴とする音声合成装置。 5.特許請求の範囲第4項の音声合成装置において、 A1=0.43 A2=0.26 A3=0.16 B1=0.33 B2=0.22 B3=0.09 であることを特徴とする音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61232227A JP2891258B2 (ja) | 1986-09-30 | 1986-09-30 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61232227A JP2891258B2 (ja) | 1986-09-30 | 1986-09-30 | 音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6385797A JPS6385797A (ja) | 1988-04-16 |
JP2891258B2 true JP2891258B2 (ja) | 1999-05-17 |
Family
ID=16935967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61232227A Expired - Fee Related JP2891258B2 (ja) | 1986-09-30 | 1986-09-30 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2891258B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100777A (ja) * | 1999-09-28 | 2001-04-13 | Toshiba Corp | 音声合成方法及び装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5981697A (ja) * | 1982-11-01 | 1984-05-11 | 株式会社日立製作所 | 規則による音声合成方法 |
JP2840234B2 (ja) * | 1984-04-20 | 1998-12-24 | 三洋電機株式会社 | 規則による音声合成装置 |
JPS616693A (ja) * | 1984-06-20 | 1986-01-13 | 株式会社日立製作所 | アクセント決定方法 |
-
1986
- 1986-09-30 JP JP61232227A patent/JP2891258B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPS6385797A (ja) | 1988-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0710378A1 (en) | A method and apparatus for converting text into audible signals using a neural network | |
JPH086591A (ja) | 音声出力装置 | |
Koike et al. | Prosodic parameters in emotional speech | |
JP2891258B2 (ja) | 音声合成装置 | |
JPS6239753B2 (ja) | ||
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JPS5972494A (ja) | 規則合成方式 | |
JP3124791B2 (ja) | 音声合成装置 | |
JP3077981B2 (ja) | 基本周波数パタン生成装置 | |
JP3113101B2 (ja) | 音声合成装置 | |
JPH05224688A (ja) | テキスト音声合成装置 | |
JPH037995A (ja) | 歌音声合成データの作成装置 | |
JP3034554B2 (ja) | 日本語文章読上げ装置及び方法 | |
JP3031691B2 (ja) | 音声規則合成装置 | |
Khudoyberdiev | The Algorithms of Tajik Speech Synthesis by Syllable | |
JP3465326B2 (ja) | 音声合成装置 | |
JP2995814B2 (ja) | 音声合成方法 | |
JP2995774B2 (ja) | 音声合成方式 | |
JP2573587B2 (ja) | ピッチパタン生成装置 | |
JPH06214585A (ja) | 音声合成装置 | |
JPH09292897A (ja) | 音声合成装置 | |
JP2643408B2 (ja) | ピッチパタン生成装置 | |
JPH04149500A (ja) | テキスト音声合成装置 | |
Hara et al. | Development of TTS card for PCs and TTS software for WSs | |
JPH07134713A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |