JPH07334188A - 音声合成システム - Google Patents

音声合成システム

Info

Publication number
JPH07334188A
JPH07334188A JP6127423A JP12742394A JPH07334188A JP H07334188 A JPH07334188 A JP H07334188A JP 6127423 A JP6127423 A JP 6127423A JP 12742394 A JP12742394 A JP 12742394A JP H07334188 A JPH07334188 A JP H07334188A
Authority
JP
Japan
Prior art keywords
fundamental frequency
speech synthesis
free grammar
probability
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6127423A
Other languages
English (en)
Other versions
JP2941168B2 (ja
Inventor
Shigeru Fujio
茂 藤尾
Yoshinori Kosaka
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP6127423A priority Critical patent/JP2941168B2/ja
Publication of JPH07334188A publication Critical patent/JPH07334188A/ja
Application granted granted Critical
Publication of JP2941168B2 publication Critical patent/JP2941168B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 従来例に比較して音声合成に必要な入力情報
を減少させることができ、しかも自然な合成音声を得る
ことができる音声合成システムを提供する。 【構成】 入力された単語列に基づいて基本周波数を制
御して上記単語列の音声を合成して出力する音声合成制
御部を備えた音声合成システムにおいて、上記音声合成
制御部は、韻律句の構造の情報を含む確率文脈自由文法
を用いた規則を備えた韻律制御規則に従って、上記基本
周波数の立て直しが起こる境界である韻律句の境界を上
記入力された単語列において検出して上記基本周波数を
制御する。また、上記確率文脈自由文法は、所定のアル
ゴリズムに従って、予め作成された複数の文の韻律句の
構造を含む情報に基づいて学習される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自然な合成音声を得る
ために、確率文脈自由文法に従って韻律句境界を検出し
て基本周波数を制御する音声合成システムに関する。
【0002】
【従来の技術】自然な合成音声を得るために韻律句の境
界、すなわち基本周波数の立て直しが起こる境界の推定
は重要であり、このことから、韻律句の境界の推定の研
究が進められている。
【0003】図3は、入力された音声信号において基本
周波数Foの立て直しが行われていない場合の基本周波
数に対する時間的変化を示すグラフである一方、図4
は、入力された音声信号において基本周波数Foの立て
直しが行われた場合の基本周波数に対する時間的変化を
示すグラフである。複数の単語列からなる文を発声して
いるときに、基本周波数Foの立て直しが行われていな
いときは、図3に示すように、発声音声の時間経過とと
もに基本周波数Foが低下してゆくが、一方、上記文中
の韻律句の境界時に基本周波数Foの立て直しが行われ
たときは、図4に示すように、発声音声の時間経過とと
もに基本周波数Foが常に低下せずに上昇し、すなわち
基本周波数Foの立て直しが行われる。
【0004】例えば、自然な音声の合成を目的として、
韻律句境界推定を含んだ韻律制御に関する研究(以下、
従来例という。)が、箱田和雄ほか,“文章音声の音調
結合型導出規則の検討”,電子情報通信学会技術報告,
SP89−5,pp33ー38,1989年5月に開示
されている。この従来例の研究では統計的分析に基づい
たヒューリスティックな韻律制御規則、すなわち人間の
感覚に基づいた経験的に作成した韻律制御規則を用い
て、係り受け関係の情報等から韻律句境界の推定を行な
っている。
【0005】
【発明が解決しようとする課題】しかしながら、係り受
け関係は統語構造や単語間の意味的関係を反映してお
り、これを正確に定式化することは難しく、人の手によ
って与えなければならず、より自然な合成音声を得るた
めには、音声合成に必要な情報が膨大なものとなり、こ
れにより、手動の処理が繁雑となるという問題点があっ
た。
【0006】本発明の目的は以上の問題を解決し、従来
例に比較して音声合成に必要な入力情報を減少させるこ
とができ、しかも自然な合成音声を得ることができる音
声合成システムを提供することにある。
【0007】
【課題を解決するための手段】本発明に係る請求項1記
載の音声合成システムは、入力された単語列に基づいて
基本周波数を制御して上記単語列の音声を合成して出力
する音声合成手段を備えた音声合成システムにおいて、
上記音声合成手段は、韻律句の構造の情報を含む確率文
脈自由文法を用いた規則を備えた韻律制御規則に従っ
て、上記基本周波数の立て直しが起こる境界である韻律
句の境界を上記入力された単語列において検出して上記
基本周波数を制御する制御手段を備えたことを特徴とす
る。また、請求項2記載の音声合成システムは、請求項
1記載の音声合成システムにおいて、上記確率文脈自由
文法は、所定のアルゴリズムに従って、予め作成された
複数の文の韻律句の構造を含む情報に基づいて学習され
たことを特徴とする。さらに、請求項3記載の音声合成
システムは、請求項2記載の音声合成システムにおい
て、上記確率文脈自由文法は、ランダムに出現確率が与
えられた初期値の確率文脈自由文法を、インサイド・ア
ウトサイド・アルゴリズムに従って、予め作成された係
り受け構造で括弧付けされたコーパスを用いて学習され
たことを特徴とする。またさらに、請求項4記載の音声
合成システムは、請求項3記載の音声合成システムにお
いて、上記確率文脈自由文法は、上記学習された確率文
脈自由文法を、インサイド・アウトサイド・アルゴリズ
ムに従って、予め作成された基本周波数の立て直し位置
のデータで括弧付けされたコーパスを用いて学習された
ことを特徴とする。
【0008】
【作用】以上のように構成された音声合成システムにお
いては、音声合成手段は、入力された単語列に基づいて
基本周波数を制御して上記単語列の音声を合成して出力
するが、ここで、上記音声合成手段の制御手段は、韻律
句の構造の情報を含む確率文脈自由文法を用いた規則を
備えた韻律制御規則に従って、上記基本周波数の立て直
しが起こる境界である韻律句の境界を上記入力された単
語列において検出して上記基本周波数を制御する。これ
によって、韻律句の境界をより正確に検出してより自然
な音声を合成して出力することができる。また、請求項
2記載の音声合成システムにおいては、上記確率文脈自
由文法は、好ましくは、所定のアルゴリズムに従って、
予め作成された複数の文の韻律句の構造を含む情報に基
づいて学習されたものである。さらに、請求項3記載の
音声合成システムにおいては、上記確率文脈自由文法
は、好ましくは、ランダムに出現確率が与えられた初期
値の確率文脈自由文法を、インサイド・アウトサイド・
アルゴリズムに従って、予め作成された係り受け構造で
括弧付けされたコーパスを用いて学習されたものであ
る。またさらに、請求項4記載の音声合成システムにお
いては、上記確率文脈自由文法は、好ましくは、上記学
習された確率文脈自由文法を、インサイド・アウトサイ
ド・アルゴリズムに従って、予め作成された基本周波数
の立て直し位置のデータで括弧付けされたコーパスを用
いて学習されたものである。
【0009】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。上述のように、従来、韻律句境界の推
定の要因として係り受け構造、境界前後の単語などが用
いられている。このうち重要な要因である係り受け構造
は統語構造や単語間の意味的関係を反映しており、これ
を正確に定式化することは難しい。これに対して、本実
施例においては、人間が予め与えた係り受け構造および
実際の基本周波数立て直し特性に基づいて、確率文脈自
由文法(SCFG)の学習を行ない、それによって得ら
れる韻律制御規則に基づいて、韻律句境界の検出推定を
行って基本周波数を制御して音声合成を実行することを
特徴としている。すなわち、ここでは、まずSCFG確
率学習部30は、所定の初期値確率文脈自由文法(SC
FG)31に対して、インサイド・アウトサイド・アル
ゴリズムを用いて韻律句の構造を学習し、学習された確
率文脈自由文法(SCFG)32から韻律句境界推定規
則作成部34で、例えばニューラルネットワークを用い
て韻律句の境界の推定のための規則を作成して、その規
則を韻律制御規則33に含ませた後、音声合成制御部1
0は、当該韻律制御規則33に基づいて、パラメータと
境界前後の単語より韻律句境界の推定を行って音声合成
処理を実行する。
【0010】本実施例のSCFGの確率学習部30にお
いて用いる、1990年にケイ・ラリー(K.Lari)ほか
によって提案されたインサイド・アウトサイド・アルゴ
リズム(例えば、ケイ・ラリー(K.Lari)ほか,“The
estimation of stochastic context-free grammars usi
ng the Inside-Outside Algorithm",Computer Speechan
d Language,Vol.4,pp35-56,Academic Press limited,
1990年参照。)について、以下に説明する。当該イ
ンサイド・アウトサイド・アルゴリズムは、入力された
ソースが、1979年にベイカー(Baker)によって提
案された文脈自由の隠れマルコフプロセスとしてモデル
化可能であると仮定している。このアルゴリズムは、評
価された文法が任意の度合いのあいまい表現を有するこ
とを可能にしている。いま、Om=O1,O2,…,OT
を次の数1の形式の規則を有する確率文脈自由文法(S
CFG)Gによって発生された観察シーケンスとする。
【0011】
【数1】i→jk,及びi→m
【0012】ここで、i,j,kは非終端記号のそれぞ
れに対応するそれぞれ唯一の整数であり、mは終端記号
に対応する整数である。この確率文脈自由文法(SCF
G)を記述する複数のパラメータの複数のマトリックス
はA及びBであり、ここで、次式のように表わすことが
できる。
【0013】
【数2】a[i,j,k]=P(i⇒jk/G)
【数3】b[i,m]=P(i⇒m/G)
【0014】従って、a[i,j,k]は非終端記号i
が非終端記号j及びkの対を発生するときの確率であ
る。同様に、b[i,m]は非終端記号iが1つの終端
記号mを発生するときの確率を表わす。1956年にチ
ェムスキー(Chomky)によって提案された任意の文脈自
由文法は、1959年にチェムスキー(Chomky)によっ
て提案されたチェムスキーの標準形に変形することがで
きるので、これらのパラメータは任意の確率文脈自由言
語を記述するために十分である。矛盾が生じないために
は、次の数4で表される拘束条件が常に満足する必要が
ある。なお、本明細書において、例えば、i=1からn
までの級数和Σの形式を上付き文字と下付き文字を用い
て、Σi=1 nと表わすものとする。
【0015】
【数4】Σj,ka[i,j,k]+Σmb[i,m]=
1,すべてのiに対して
【0016】この拘束条件は簡単に説明すると、すべて
の非終端記号は非終端記号の対、もしくは1つの終端記
号のいずれかを発生する必要があるということを意味す
る。確率文脈自由文法(SCFG)に応用すると、2つ
の特定の問題を処理する必要があり、すなわち、認識の
問題と学習の問題を処理する必要がある。この認識の問
題は、次の数5に示すような、文法Gが与えられたとき
に観察シーケンスOを発生する開始記号Sの確率の計算
に関係している。数5において、Oに付与されたmはマ
トリックスを示し、以下同様である。
【0017】
【数5】P(S⇒*Om/G)
【0018】ここで、*は1つ又はそれ以上のステップ
からなる導出シーケンスを示している。また、⇒*の記
号は、元の論文においては、記号⇒の上に*を付してい
るが、本明細書においては、オンライン出願の制約上、
⇒*と記述する。学習の問題は、学習のシーケンスO
(1),O(2),…,O(Q)が与えられた1組の文法規則G
を決定することに関係している。従来のマルコフモデル
アルゴリズムの前向き確率(α)と後向き確率(β)と
同様に、確率文脈自由マルコフ文法の解析を容易にする
ために、内側確率(e)と外側確率(f)とを定義す
る。量e(s,t,i)は観察シーケンスO(s),
…,O(t)を発生する非終端記号iの確率として次式
のように定義される。
【0019】
【数6】e(s,t,i)=P(i⇒*O(s)…O(t)/G)
【0020】上記量eを計算するための反復手順を決定
するときに、次のように2つの場合が考えられる。
【0021】(A)場合1:(s=tのとき) ただ1つの観察は省略され、それ故、i→mの形式の遷
移規則は次式のように表される。
【0022】
【数7】e(s,s,i)=P(i⇒O(s)/G)=b[i,O(s)]
【0023】(B)場合2:(s≠iのとき) この場合において、1つを超える観察が含まれるので、
i→jkの形式の規則は適用される必要がある。内側確
率の計算を示す図7を参照すれば、量e(s,t,i)
は次式で表されることが明らかである。
【0024】
【数8】e(s,t,i)=Σj,kΣr=s t-1a[i,j,k]e(s,r,
j)e(r+1,t,k), すべてのiに対して。
【0025】従って、上記量eはすべてのシーケンス長
1に対してeを決定することによって反復法により計算
され、このとき、すべてのシーケンス長は2となり、以
下同様である。次に、外側確率を次式のように定義す
る。
【0026】
【数9】f(s,t,i)=P(S⇒*O(1)…O(s-1),i,O
(t+1)…O(T)/G)
【0027】ここで、f(s,t,i)は、書き換えプ
ロセスにおいてiが発生されるとともに、それによって
支配されていない一連の文が左側方向に対してはO
(1)…O(s−1)であり、右側方向に対してO(t
+1)…O(T)である(図8参照。)。この場合にお
いて、非終端記号iは図9において図示されているよう
に、j→ik又はj→kiの2つの可能な設定のうちの
1つである可能である。ここで、次式のように表わすこ
とができる。
【0028】
【数10】f(s,t,i)=Σj,k[Σr=1 s-1f(r,t,j)a[j,
k,i]e(r,s-1,k)+Σr=t+1 Tf(s,r,j)a[j,i,k]e(t+1,
r,k)], 並びに
【数11】f(1,T,i)=1,もしi=Sであるとき; =0,その他のとき。
【0029】上記内側確率が下から上方向に計算された
後に、外側確率が上から下方向に計算される。認識プロ
セスのためには、値eと値fは次式のように文の確率を
計算するために用いることができる。
【0030】
【数12】 P(S⇒*Om/G)=Σie(s,t,i)f(s,t,i)
【0031】上記数12はs≦tである任意のsに対し
て成立する。上記数12においてs=1及びt=Tと置
くことによって次式を得る。
【0032】
【数13】 P(S⇒*Om/G)=Σie(1,T,i)f(1,T,i) =e(1,T,S)
【0033】従って、数13の左辺であるP(S⇒*O
/G)は内側確率のみから計算することができる。同様
の式が、上記数12においてs=tと置くことによって
外側確率の項を用いて得ることができる。
【0034】
【数14】 P(S⇒*Om/G)=Σie(s,s,i)f(s,s,i) =Σib[i,O(s)]f(s,s,i)
【0035】確率文脈自由文法(SCFG)を学習する
ときの問題はもっと複雑である。次式で表される積の式
を考えることによって考察を開始する。
【0036】
【数15】e(s,t,i)f(s,t,i)=P(S⇒*Om,i⇒*
O(s)…O(t)/G) =P(S⇒*Om/G)・P(i⇒*O(s)…O(t)/S⇒*O
m,G)
【0037】上記数15の最後のステップはベイズの定
理を適用した結果である。ここで、
【0038】
【数16】P=P(S⇒*Om/G)
【0039】とすると、上記数15から次式を得る。
【0040】
【数17】P(i⇒*O(s)…O(t)/S⇒*Om,G) =(1/P)e(s,t,i)f(s,t,i)
【0041】従って、次式を得る。
【0042】
【数18】P(導出においてiが用いられるとき) =Σs=1 TΣt=s T(1/P)e(s,t,i)f(s,t,i)
【0043】ここで、ある導出に、i→jkなる規則を
適用した場合について考える。そして、数8を数17に
代入することによって次の数19を得ることができる。
【0044】
【数19】P(i⇒jk⇒*O(s)…O(t)/S⇒*Om,
G) =(1/P)Σr=s t-1a[i,j,k]e[s,r,j]e(r+1,t,k)f(s,t,i) すべてのj,k及びt>sに対して
【0045】従って、数18及び数19から次の数20
を得る。
【0046】
【数20】P(i→jk,iが用いられているとき) =Σs=1 T-1Σt=s+1 T(1/P)Σr=s t−1a[i,j,
k]e(s,r,j)e(r+1,t,k)f(s,
t,i)
【0047】次いで、次の数21の式の定義を用いる。
【0048】
【数21】a[i,j,k]=P(i→jk/iが用い
られているとき) ={P(i→jk,iが用いられているとき)}/P(iが用いられ
ているとき)
【0049】それ故、a[i,j,k]に対する再評価
の式は、数18と数20から次の数22で表される。
【0050】
【数22】ah[i,j,k] ={(1/P)Σs=1 T-1Σt=s+1 TΣr=s t-1a[i,j,k]e(s,r,j)e
(r+1,t,k)f(s,t,i)}/{(1/P)Σs=1 TΣt=s Te(s,t,i)f
(s,t,i)}, すべてのi,j,kに対して
【0051】ここで、ah[i,j,k]のhは本明細書におい
ては記号aの上に付与されるハット記号の代替記号とし
て用い、以下hを同様に用いる。さらに、同様の論証を
することによって、b[i,m]に対する再評価式は次
の数23で表わすことができる。
【0052】
【数23】bh[i,m] ={(1/P)ΣtO(t)=me(t,t,i)f(t,t,i)}/{(1/P)Σ
s=1 TΣt=s Te(s,t,i)f(s,t,i)}
【0053】実際上、確率文脈自由文法(SCFG)の
パラメータを正確に評価するためには1つの観測のみで
は不十分である。従って、上記複数の方程式は任意の数
の観測を取り扱うことに拡張する必要がある。ここで、
次の数24で表されるQ個の観測値の組を有していると
仮定する。
【0054】
【数24】O≡[O(1),O(2),…,O(Q)
【0055】さらに、次の数25及び数26のように置
くことにする。
【0056】
【数25】wq(s,t,i,j,k)=(1/Pqr=s t-1a[i,j,k]e
q(s,r,j)eq(r+1,t,k)fq(s,t,i)
【数26】vq(s,t,i)=(1/Pq)eq(s,t,i)fq(s,t,i)
【0057】上記複数個の観測値が独立であると仮定す
れば、wq及びvqの各々から数22及び数23の分子及
び分母への寄与を加算することによって、次の数27及
び数28を得ることができる。
【0058】
【数27】ah[i,j,k]={Σq=1 QΣs=1 Tq-1Σt=s+1 Tqq
(s,t,i,j,k)}/{Σq=1 QΣs=1 TqΣt=s Tqq(s,t,i)}
【数28】bh[i,m]={Σq=1 QΣtO(t)=mq(t,t,i)}
/{Σq=1 QΣs=1 TqΣt=s Tqq(s,t,i)}
【0059】インサイド・アウトサイド・アルゴリズム
は、次に示すように繰り返しの処理を行うときに、数1
3、数27及び数28を用いる。 (1)上記数4によって規定された拘束条件を仮定して
AマトリックスとBマトリックスに対する適当な初期値
を選択する。 (2)Pにおける変化が所定のしきい値よりも小さくな
るまで、次の計算を繰り返す。 A=…{数27}; B=…{数28}; P=…{数13}。
【0060】上記においては、インサイド・アウトサイ
ド・アルゴリズムについて説明したが、これを、学習用
コーパスとして、括弧付けされたテキストを用いた場合
のインサイド・アウトサイド・アルゴリズムによる学習
について(例えば、フェルナンド・ペレーラ(Fernando
Pereira)ほか,“inside-Outside Reestimation From
Partially Bracketed Corpora",The proceeing of A
CL,1992年参照。)以下に説明する。インサイド
・アウトサイド・アルゴリズムの基本的な考え方は、確
定されたタイプの導出ステップの期待された頻度を評価
するために、現在の規則の確率と学習セットWとを用い
て、これら期待された頻度の評価の適当な比のような新
しい規則の確率の評価値を計算する。これらは、最も好
都合には、相対的な頻度として表されているので、イン
サイドの確率及びアウトサイドの確率として自由に参照
したビットである。より正確には、w∈Wなるそれぞれ
のwに対して、インサイドの確率Ip w(i,j)は、A
pがijを導出するときの尤度を評価する一方、アウト
サイドの確率Op w(i,j)は、開始のシンボルA1
ら導出文の形式0ipjwの尤度を評価する。
【0061】上記インサイド・アウトサイド・アルゴリ
ズムを部分的に括弧付けされた学習テキストに適用する
ときに、括弧付けは可能な導出文に、さらには可能な句
に含ませるという拘束条件を考慮に入れる必要がある。
明らかに、インサイドの確率Ip w(i,j)とアウトサ
イドの確率Op w(i,j)とに対する非ゼロの値は、も
ijはwの括弧付けと互換性があるならば、もしくは
等価的には、もし(i,j)がwの括弧付けのために有
効であるときのみに可能であるとすべきである。従っ
て、以下においては、括弧付けされた一連の文c=
(w,B)のコーパスCを仮定し、かつ、構成要素のス
パンが一連の文の括弧付けと互換性があるときのその構
成要素を含ませるために、1979年にベイカー(Bake
r)によって明らかにされ、1990年にラリ(Lari)
とヤング(Young)によって明らかにされ、さらには1
990年にジェリネック(Jelinek)ほかによって明ら
かにされた、インサイド及びアウトサイドの確率と規則
の確率の再評価に対する標準的な式を変形することにす
る。この目的のために、各括弧付けされた一連の文c=
(w,B)に対して、次の数29で表される補助的な関
数を定義する。
【0062】
【数29】ch(i,j)=1,もし(i,j)はb∈Bに対して
有効であるならば; =0,もしそうでないならば
【0063】拡張されたアルゴリズムに対する再評価に
関する公式を以下に示す。
【0064】
【数30】Ip c(i−1,i)=Up,m, ここで、c=(w,B)及びbm=wiである。
【数31】Ip c(i,k)=ch(i,k)Σq,rΣijk
p,q,rq c(i,j)Ir c(j,k)
【数32】Op c(0,│c│)=1,もしp=1ならば; =0,もしそうでないならば
【数33】Op c(i,k)=ch(i,k)Σq,rj=0 i-1q c(j,
k)Ir c(j,i)Bq,r,pj=k+1c│Oq c(i,j)Bq,p,rr
c(k,j)}
【数34】Bhp,q,r={ΣcC(1/Pc0i<j<k≦│w
p,q,rq c(i,k)Ir c(j,k)Op c(i,k)}/(ΣcCPp c/
Pc)
【数35】Uhp,m={ΣcC(1/Pc1i≦│c│,c=(w,
B),wi=bmp,mp c(i-1,i)}/(Σc /P
【数36】P=I1 c(0,│c│)
【数37】Pp c=Σ0i<j≦│c│Ip c(i,j)Op c(i,j)
【0065】学習コーパスにおける各括弧付けされた文
cに対して、当該文cのより長いスパンのインサイドの
確率は、数30及び数31によって与えられた再現式を
有するより短いスパンに対するインサイドの確率から計
算される。上記数31は、文c=(w,B)の括弧付け
Bと互換性があるApから、ikの導出式の期待された
相対的な頻度を計算することができる。乗数ch(i,
k)は、(i,k)がBに対して有効であるとき、すな
わちApがBと同様に互換性を有してikを導出するこ
とができる。
【0066】同様に、文cのより短いスパンに対するア
ウトサイドの確率は数32及び数33によって与えられ
た再現式を用いて、より長いスパンに対する、インサイ
ドの確率とアウトサイドの確率とから計算することがで
きる。上記コーパスにおける各文に対してインサイドの
確率とアウトサイドの確率とが一旦計算されれば、2つ
の成分からなる2値表示の規則Bhp,q,rの再評価された
確率と、1つの成分からなる規則Uhp,mの再評価された
確率とは、括弧付けされていない一連の文の代わりに、
括弧付けされた一連の文を用いることを除いて、197
9年にベイカー(Baker)によって明らかにされ、19
90年にラリ(Lari)とヤング(Young)によって明ら
かにされ、さらには1990年にジェリネック(Jeline
k)ほかによって明らかにされた元の公式と同様の再評
価の公式(数34と数35)とによって計算される。
【0067】数34及び数35によって表される比の分
母は、Cにおける1つの括弧付けされた一連の文の互換
性のある導出式は少なくとも、非終端記号Apの1つの
拡張を含むときの確率を評価することができる。上記数
34の分子は、Cにおける括弧付けされた一連の文の互
換性のある導出式はAp→Aqrなる規則を含むときの
確率を評価することができる一方、数35の分子は、C
における一連の文の互換性のある導出式はApをbmに書
き換えるときの確率を評価することができる。このよう
にして、上記数34は、Cにおける括弧付けされた一連
の文の互換性のある導出式におけるApの書き換えはAp
→Aqrなる規則を使用するときの確率を評価すること
ができ、上記数35は、Cにおける一連の文の互換性の
ある導出式におけるApの生起がbmに書き換えるられる
ときの確率を評価することができる。これらは、2つの
成分からなる2値表示の規則の確率と、1つの成分から
なる規則の確率に対する最良の現在の評価値である。
【0068】次いで、上記再評価された確率を用いる処
理が、当該モデルが与えられた学習テキストの評価され
た確率における増加値が無視可能になるまで、もしくは
当該確率が総計無視可能な量となるまで又は、次の数3
8によって表される交差エントロピーの評価値(負の確
率の対数値)における減少値が無視可能となるときま
で、繰り返されて実行される。
【0069】
【数38】 Hh(C,G)=−(ΣcClogPc)/(ΣcC│c
│)
【0070】ここで、元のアルゴリズムとの比較のため
には、上記数38でない文法Gに関する括弧付けされて
いないテキストWの交差エントロピーの評価値Hh
(W,G)を用いる必要がある。
【0071】本実施例では、詳細上述したインサイド・
アウトサイド・アルゴリズムを使用して確率文脈自由文
法(SCFG)で韻律句構造の学習を行なうために、形
態素解析され係り受け構造で括弧付けされたテキストで
確率文脈自由文法(SCFG)の学習を行ない、得られ
たものを初期文法としてさらに自然音声での基本周波数
の立て直し位置のデータで括弧付けされたテキストを用
いて学習を行なった。
【0072】インサイド・アウトサイド・アルゴリズム
を用いて確率文脈自由文法(SCFG)を学習するに
は、終端記号と非終端記号数を決定する必要がある。確
率文脈自由文法(SCFG)の終端記号は単語にするの
が理想であるが、全ての単語を含むコーパスは入手困難
であり、学習時間も膨大になるため現実的ではない。従
って、本実施例では、総数が品詞の種類+数個程度とな
る終端記号を助詞を細分類して考え、23種類の品詞と
その内の格助詞のみ7分類(が、の、に、を、で、と、
その他)して合計29種類となる終端記号を、次の表1
に示すように使用した。また、非終端記号の数は20で
あり、非終端記号として1から20までの番号を用い
た。
【0073】
【表1】 ─────────────────── 終端記号 品 詞 ─────────────────── t1 形容詞 t4 普通名詞 t5 サ変名詞 t6 代名詞 t7 数 詞 t8 副 詞 t9 連体詞 t10 接続詞 t11 感動詞 t12 助動詞 t13 副助詞 t14 接続助詞 t16 終助詞 t17 接尾語 t18 接頭語 t19 補助動詞 t30 固有名詞 t31 形容名詞 t32 本動詞 t34 準体助詞 t35 並列助詞 t36 係助詞 t50 格助詞 “ga” t51 格助詞 “no” t52 格助詞 “ni” t53 格助詞 “wo” t54 格助詞 “de” t55 格助詞 “to” t56 格助詞 “others” ───────────────────
【0074】確率文脈自由文法(SCFG)がとらえて
いる確率的な統語構造を韻律句の境界の検出推定に用い
るために確率文脈自由文法(SCFG)から計算できる
以下に述べるパラメータを提案する。図5に示すよう
に、各単語について係り受けの深さmの左枝分かれ構造
を含んだ統語構造の文の出現確率(以下、左枝分かれ構
造確率mという。)及び係り受けの深さnの右枝分かれ
構造を含んだ統語構造の文の出現確率(以下、右枝分か
れ構造確率nという。)を確率文脈自由文法(SCF
G)から計算し、これらの確率を韻律句の境界の検出推
定のパラメータとして用いる。
【0075】ここで、左枝分かれ構造確率m(その記
号:Pleftm)及び右枝分かれ構造確率n(その記号:PR
ightn)の計算方法について具体例を用いて詳細に説明
する。いま、t1,t4,t5,t6,t7のような5
個の終端記号で表現可能な単語列が入力された場合、図
6の(a)乃至(n)に示すように、14通りの木構
造、すなわち統語構造が考えられます。
【0076】図6の(a)の例では、終端記号t1とt
4とで係り受けの深さ1の左枝分かれ構造を有し、ま
た、当該係り受けの深さ1の左枝分かれ構造と終端記号
t5とで係り受けの深さ2の左枝分かれ構造を有し、さ
らに、当該係り受けの深さ2の左枝分かれ構造と終端記
号t6とで係り受けの深さ3の左枝分かれ構造を有し、
またさらに、当該係り受けの深さ3の左枝分かれ構造と
終端記号t7とで係り受けの深さ4の枝分かれ構造を有
している。また、図6の(b)の例では、終端記号t4
とt5とで係り受けの深さ1の左枝分かれ構造を有し、
また、当該係り受けの深さ1の左枝分かれ構造と終端記
号t6とで係り受けの深さ2の左枝分かれ構造を有し、
さらに、当該係り受けの深さ2の左枝分かれ構造と終端
記号t7とで係り受けの深さ3の右枝分かれ構造を有
し、またさらに、当該係り受けの深さ3の右枝分かれ構
造と終端記号t1とで係り受けの深さ4の枝分かれ構造
を有している。さらに、図6の(c)の例では、終端記
号t4とt5とで係り受けの深さ1の右枝分かれ構造を
有し、また、当該係り受けの深さ1の右枝分かれ構造と
終端記号t1とで係り受けの深さ2の左枝分かれ構造を
有し、さらに、当該係り受けの深さ2の左枝分かれ構造
と終端記号t6とで係り受けの深さ3の左枝分かれ構造
を有し、またさらに、当該係り受けの深さ3の左枝分か
れ構造と終端記号t7とで係り受けの深さ4の枝分かれ
構造を有している。以下、図6の(d)乃至(n)にお
いて、図示の如く枝分かれ構造を有している。
【0077】図6に示すこれらのすべての木構造の出現
確率を確率文脈自由文法(SCFG)に基づいて計算し
てそれらの和を、全出現確率Pallとする。いま、例とし
て、終端記号t5の左枝分かれ構造確率1(PLeft1)に
ついて考える。図6において、終端記号t5を基準とし
て1個前の終端記号を含む左枝分かれ構造であるのは、
(b),(e),(j)の3通りあり、それぞれの構造
の出現確率の和をPとすると、次の数39で表される。
【0078】
【数39】PLeft1=P/Pall
【0079】本実施例では、確率文脈自由文法(SCF
G)の確率の学習のために、出願人のデータベースの5
03個の文を形態素切りして係り受け構造に基づいて人
手により括弧付けをしたコーパス(以下、係り受け情報
付きコーパスという。)と自然音声での基本周波数の立
て直し位置に基づいて括弧付けをしたテキスト(以下、
立て直し情報付きコーパスという。)を用意した。この
確率文脈自由文法(SCFG)の学習用コーパスの具体
例を以下に示す。
【0080】(A)係り受け構造で括弧付けされたコー
パス (A1)例文:あらゆる現実をすべて自分の方へねじ曲
げたのだ。 係り受け情報付きコーパス:( ( ( t9 )
( ( t4 ) ( t53 ) ) )
( ( t4 ) ( ( ( t4 ) (
t51 ) ( t4) ( t56 ) ) (
( t32 ) ( t32 ) ( t12 )
( t34 ) ( t12 ) ) ) ) ) (A2)例文:一週間ばかりニューヨークを取材した。 係り受け情報付きコーパス:( ( ( t7 ) ( t17 ) ( t
17 ) ( t13 ) ) ( ( ( t30 ) ( t53 ) ) ( ( t5 )(
t19 ) ( t12 ) ) ) ) (A3)例文:テレビゲームやパソコンでゲームをして
遊ぶ。 係り受け情報付きコーパス:( ( ( ( t4 ) ( t35 )
) ( ( t4 ) ( t54 ) ) ) ( ( ( ( t4 ) ( t53 ))
( ( t32 ) ( t14 ) ) ) ( t32 ) ) ) (A4)例文:物価の変動を考慮して給付水準を決める
必要がある。 係り受け情報付きコーパス:( ( ( ( ( ( ( t4 )
( t51 ) ) ( ( t4 ) ( t53 ) ) ) ( ( t5 ) ( t19
) ( t14 ) ) ) ( ( ( t4 ) ( t4 ) ( t53 ) ) ( t3
2 ) ) ) ( ( t4 ) (t50 ) ) ) ( t32 ) )
【0081】(B)基本周波数Foの立て直し位置のデ
ータで括弧付けされたコーパス 以下のコーパスにおいて、(↑)は基本周波数Foの立
て直しの起こる位置であって、韻律句の境界を示す。 (B1)例文:あらゆる現実を(↑)すべて(↑)自分
の方へねじ曲げたのだ。 立て直し情報付きコーパス:( t9 ( t4 t53 ) )
t4 ( ( t4 t51 t4 t56 ) ( t32 t32 t12t34
t12 ) ) (B2)例文:一週間ばかり(↑)ニューヨークを取材
した。 立て直し情報付きコーパス:( t7 t17 t17 t13 )
( ( t30 t53 ) ( t5 t19 t12 ) ) (B3)例文:テレビゲームやパソコンで(↑)ゲーム
をして(↑)遊ぶ。 立て直し情報付きコーパス:( ( t4 t35 ) ( t4
t54 ) ) ( ( t4 t53 ) ( t32 t14 ) ) t32 (B4)例文:物価の変動を考慮して(↑)給付水準を
決める必要がある。 立て直し情報付きコーパス:( ( t4 t51 ) ( t4
t53 ) ( t5 t19 t14 ) ) ( ( t4 t4 t53) t
32 ( t4 t50 ) t32 )
【0082】図2は図1のSCFG学習部30によって
実行されるSCFGの確率学習処理のフローチャートで
ある。韻律句の境界を検出推定するための出現確率など
の上記のパラメータを求める確率文脈自由文法(SCF
G)を作成するために、次の手順で学習を行なった。
【0083】図2に示すように、まず、ステップS1に
おいては、SCFGの確率学習部30は、ランダムに出
現確率が与えられた初期値SCFG31を、詳細上述の
インサイド・アウトサイド・アルゴリズムに従って、予
め上述のように作成された、係り受け構造で括弧付けさ
れたコーパスを用いて学習する。上記ステップS1の処
理は、具体的には、予め上述のように作成された係り受
け構造で括弧付けされたコーパスを入力として数34お
よび数35に従って、新しい確率を推定する。これを、
数38で表される値の減少値が無視可能となるまで繰り
返す。
【0084】次いで、ステップS2においては、SCF
Gの確率学習部30は、上記ステップS1で学習された
SCFGを詳細上述のインサイド・アウトサイド・アル
ゴリズムに従って、予め上述のように作成された、基本
周波数Foの立て直し位置のデータで括弧付けされたコ
ーパスを用いて学習して、学習されたSCFG32のデ
ータを得る。そして、図1に示すように、学習されたS
CFG32のデータを韻律制御規則33に含ませる。上
記ステップS2の処理は、具体的には、予め上述のよう
に作成された基本周波数Foの立て直し位置のデータで
括弧付けされたコーパスを入力として、数34および数
35に従って、新しい確率を推定する。これを、数38
で表される値の減少値が無視可能となるまで繰り返す。
【0085】韻律句境界推定規則作成部34における韻
律句境界推定規則の作成は、例えば、詳細後述するよう
に、公知のニューラルネットワーク又は判別分析法(例
えば、田中豊、脇本和昌著,「多変量統計解析法」現代
数学社参照。)を用いて行うことができる。この判別分
析法は、複数の変量に関してグループ毎に得られている
過去のデータのサンプルに基づき、これらの変量の値か
ら個体がどのグループに属するかを判別予測する方法で
ある。当該判別分析法の本実施例への適用は、上記複数
の変量を、上述の左枝分かれ構造確率m、右枝分かれ構
造確率nおよび品詞の種類であって、グループは韻律句
の境界か否かで分かれるように選定される。
【0086】さらに、音声合成制御部10は、上述のよ
うに、韻律句の構造を含む確率文脈自由文法(SCF
G)を備えた韻律制御規則33に従って、詳細後述する
ように、音声合成に必要な以下に示すデータを計算して
出力する。 (a)基本周波数に対応するピッチのデータ。 (b)有声/無声切換のデータ。 (c)振幅のデータ。 (d)フィルタ係数のデータ。 ここで、上記学習されたSCFG32のデータの例を以
下の表2に示す。
【0087】
【表2】 ─────────────────── 確率文脈自由文法(SCFG)の内容 ─────────────────── 1 → 1 1 5.677289731860455×10-5 1 → 1 2 0.003216677708041557 1 → 1 3 1.000394189802561×10-15 : : 1 → 1 19 1.015469740215695×10-15 1 → 1 20 1.148333794722905×10-15 1 → 2 1 0.0001832178839199974 1 → 2 2 0.000521748447310258 : : 1 → 20 19 1.374865835459389×10-15 1 → 20 20 0.001676333237389523 2 → 1 1 1.542003529882383×10-15 2 → 1 2 1.783061119126052×10-15 : : 20 → 20 19 1.586308114265936×10-10 20 → 20 20 2.291887552593505×10-6 1 → t1 1.155866936964327×10-15 1 → t4 1.004501712835847×10-15 1 → t5 1.000076431187449×10-15 1 → t6 1.00213816472346×10-15 : : 1 → t55 1.000679862632174×10-15 1 → t56 1.000019916972904×10-15 : : 20 → t55 1.196873334230712×10-15 20 → t56 1.128862755279862×10-15 ─────────────────── (注)1乃至20:非終端記号 t1乃至t56:終端記号 最後の数字:確率
【0088】上記表2において、例えば第1行目の「1
→ 1 1 5.677289731860455×10-5」は、非終端記号1
から非終端記号1と非終端記号1へに枝分かれする書き
換え規則の出現確率が5.677289731860455×10-5であ
ることを示しており、以下、同様である。
【0089】次に、図1に示す本発明に係る一実施例で
ある音声合成システムのブロック図を参照して、発声音
声がマイクロホン1に入力された後、スピーカ25から
合成音声が出力されるまでの構成及び動作について説明
する。
【0090】話者の発声音声はマイクロホン1に入力さ
れて音声信号に変換された後、特徴抽出部2に入力され
る。次いで、特徴抽出部2は、入力された音声信号をA
/D変換した後、例えばLPC分析を実行し、対数パワ
ー、16次ケプストラム係数、Δ対数パワー及び16次
Δケプストラム係数を含む34次元の特徴パラメータを
抽出する。抽出された特徴パラメータの時系列はバッフ
ァメモリ3を介して音声合成制御部10に入力される。
音声合成制御部10は、入力された特徴パラメータに基
づいて、上記学習されたSCFG32を用いた規則を含
む韻律制御規則に従って、韻律句の境界すなわち音声単
位の韻律句を検出して決定した後、決定された韻律句に
基づいて音声単位が公知の通り伸縮変形されて結合さ
れ、さらには、得られた音声単位のスペクトル特徴パラ
メータの値に基づいて、そのデータを、公知の方法によ
り、音声合成のためのピッチ、有声/無声切り換え、振
幅及びフィルタ係数のデータに変換して、それぞれパル
ス発生器21とスイッチSWと振幅変更型増幅器23と
フィルタ24とに出力する。ここで、音声合成制御部1
0は、韻律句の境界であると検出したときは、図4に示
すように基本周波数Foの立て直しを行うように基本周
波数Foを制御してピッチ情報としてパルス発生回路2
1に出力する。
【0091】音声合成部20は、パルス発生回路21と
雑音発生回路22とスイッチSWと振幅変更型増幅器2
3とフィルタ24とから構成される。パルス発生回路2
1は、有声音の励振音源であって各ピッチ周期の開始時
点で単位大きさのインパルスを発生して、スイッチSW
を介して振幅変更型増幅器23に出力する。一方、雑音
発生回路22は、無声音の励振音源であって、無相関で
かつ一様分布を有する標準偏差1と平均値0のランダム
雑音を発生して、スイッチSWを介して振幅変更型増幅
器23に出力する。従って、スイッチSWは有声音を発
生するときパルス発生回路21側に切り換える一方、無
声音を発生するときは雑音発生回路22側に切り換られ
る。さらに、振幅変更型増幅器23は、入力される振幅
情報に基づいて入力される信号の振幅を変更しかつ増幅
してフィルタ24に出力する。そして、フィルタ24
は、その伝達関数に対応するフィルタ係数を入力される
フィルタ係数に設定し、入力された信号を当該設定され
たフィルタ係数でろ波した後、スピーカ30を介して出
力する。
【0092】本実施例においては、図2のSCFGの確
率学習処理においては、ステップS1とS2とをともに
備えているが、本発明はこれに限らず、確率文脈自由文
法(SCFG)を学習する場合は、ステップS1だけの
学習処理を行うように構成してもよい。
【0093】さらに、本発明者は、本実施例で提案した
パラメータの有効性を調べるために公知のニューラルネ
ットワークを用いて韻律句の境界を検出推定した。以下
に示す韻律句の検出推定方法は、韻律句境界推定規則作
成部34および音声合成制御部10に適用することがで
きる。当該ニューラルネットワークの構造は4層の階層
型であって、入力層と第1中間層と第2中間層と出力層
からなる。ここで、入力層は50個のユニットと1個の
しきいユニットから構成され、第1の中間層は25個の
ユニットから構成され、第2中間層は25個のユニット
から構成され、出力層は2個のユニットである。この出
力データは、学習のために韻律句の境界である(0,
1)と、韻律句の境界でない(1,0)とした教師デー
タからなる一方、入力データは以下のような合計50個
の入力パラメータの組を作成して用いた。このとき、上
記教師データは使用した一話者の境界の状態、すなわち
韻律句の境界であるか否かの情報を用いて決定した。上
述の教師データと50個の入力パラメータの組からニュ
ーラルネットワークを学習し、学習されたニューラルネ
ットワークを韻律句境界推定規則とした。
【0094】(a)次の各語における左枝分かれ構造確
率mおよび右枝分かれ構造確率n、ただし、m,n=
1,2,3,4,及び5以上の合計10パラメータ (a−1)韻律句の境界の直前の単語の直前の自立語 (a−2)韻律句の境界の直前の単語 (a−3)韻律句の境界の直後の単語 (a−4)韻律句の境界の直後の単語の直後の自立語 従って、10パラメータ×4語=合計40パラメータと
なる。 (b)韻律句の境界の直前の5単語の終端記号の種類の
5パラメータ。 (c)韻律句の境界の直後の5単語の終端記号の種類の
5パラメータ。
【0095】学習されたニューラルネットワークに50
個の入力パラメータを入力し、韻律句の境界を検出推定
した。韻律句の境界の検出推定に際しては、2つの出力
データの大きさの比較しより大きいものを検出結果とし
て判断し、すなわち韻律句の境界であるか否かの検出判
断を行なった。韻律句の境界には自由度があり、話者全
員が基本周波数Foの立て直しを行なっている韻律句の
境界と、誰も基本周波数Foの立て直しを行なわない韻
律句の境界のほか、一部の話者が基本周波数Foの立て
直しを行なう境界がある。従って、すべての話者が一致
している境界について検出推定の結果を評価した。その
結果を次の表3に示す。表3に示すように、韻律句の境
界は精度良く検出推定できており、確率文脈自由文法
(SCFG)を用いた韻律句の境界の検出推定は可能で
あることが確認できた。また、確率文脈自由文法(SC
FG)の学習に韻律句の構造を用いているので、例え
ば、上述のようにニューラルネットワークを用いるなど
して学習されたSCFG32のデータに対して所定の韻
律句の構造が既知のデータを用いて評価推定して学習す
ることにより、韻律句の境界を帰納学習をすることがで
きる。
【0096】
【表3】 韻律句の境界の検出推定結果 ─────────────────────────────────── 計算データ 境界の推定の誤り率[%](誤りの数/全体の数) ────────────────────────── 全員が基本周波数の 誰も基本周波数の 立て直しを行っている 立て直しを行っていない 韻律句の境界 韻律句の境界 ─────────────────────────────────── 学習後データ 0.6(4/680) 7.6(435/5715) ─────────────────────────────────── 学習していない 7.1(48/680)16.9(964/5715) データ ───────────────────────────────────
【0097】以上説明したように、本実施例では韻律句
の境界の検出推定の入力パラメータとして、確率文脈自
由文法(SCFG)より導出されたパラメータを用いて
いる。従って、韻律句の境界の検出推定するために確率
文脈自由文法(SCFG)の利用が有効であることがわ
かった。
【0098】以上の実施例において、入力パラメータか
ら韻律句の境界を検出推定する手段としてニューラルネ
ットワークを用いているが、本発明はこれに限らず、公
知の判別分析法などのいくつかの要因(連続値)に基づ
いてそれらの要因に関係する事象の属性を予測する手法
を使用しても可能である。
【0099】また、以上の実施例において、確率文脈自
由文法(SCFG)の終端記号として、23種類の品詞
とその内の格助詞のみ7分類(が、の、に、を、で、
と、その他)した合計29種類となる終端記号、非終端
記号数として20を用いたが、本発明はこれに限らず、
確率文脈自由文法(SCFG)の終端記号および非終端
記号数に制限なく利用できる。
【0100】以上詳述したように本発明によれば、自然
な合成音声を得るために基本周波数を制御して音声合成
を行う音声合成手段を備えた音声合成システムにおい
て、上記所定の目的のための確率文脈自由文法(SCF
G)を用いて韻律句の境界、すなわち基本周波数の立て
直しが起こる境界を検出して上記基本周波数を制御する
制御手段を備える。また、上記制御手段は、言語情報と
韻律情報の使用による学習法によって韻律句構造を学習
して作成された確率文脈自由文法(SCFG)を用いた
制御している。従って、本発明に係る実施例は以下の特
有の効果を有する。 (1)従来例のように、係り受け構造等を用いて韻律句
の境界を制御する方法に比べて、入力テキストに係り受
け構造の情報の付加が必要がないので、入力情報を削減
することができる。 (2)SCFGを用いた規則を含む韻律制御規則に基づ
いて韻律句の境界を検出して基本周波数を制御するの
で、より自然な合成音声を得ることができる。
【0101】
【発明の効果】以上詳述したように本発明によれば、入
力された単語列に基づいて基本周波数を制御して上記単
語列の音声を合成して出力する音声合成手段を備えた音
声合成システムにおいて、上記音声合成手段は、韻律句
の構造の情報を含む確率文脈自由文法を用いた規則を備
えた韻律制御規則に従って、上記基本周波数の立て直し
が起こる境界である韻律句の境界を上記入力された単語
列において検出して上記基本周波数を制御する制御手段
を備えたので、韻律句の境界をより正確に検出してより
自然な音声を合成して出力することができる。また、従
来例のように、係り受け構造等を用いて韻律句の境界を
制御する方法に比べて、入力テキストに係り受け構造の
情報の付加が必要がないので、入力情報を削減すること
ができる。
【0102】また、請求項2記載の本発明によれば、上
記確率文脈自由文法は、所定のアルゴリズムに従って、
予め作成された複数の文の韻律句の構造を含む情報に基
づいて学習されているので、より自然な合成音声を得る
ことができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である音声合成システ
ムのブロック図である。
【図2】 図1のSCFG学習部30によって実行され
るSCFGの確率学習処理のフローチャートである。
【図3】 入力された音声信号において基本周波数Fo
の立て直しが行われていない場合の基本周波数に対する
時間的変化を示すグラフである。
【図4】 入力された音声信号において基本周波数Fo
の立て直しが行われた場合の基本周波数に対する時間的
変化を示すグラフである。
【図5】 図1の音声合成システムにおいて処理すべき
複数の単語列からなる文の一例を示す図であって、係り
受けの深さmの左枝分かれ構造と係り受けの深さmの右
枝分かれ構造を示す図である。
【図6】 図1の音声合成システムにおいて処理すべき
5個の単語列からなる文の一例における木構造を示す図
であって、左枝分かれ構造確率と右枝分かれ構造確率の
計算方法を示す図である。
【図7】 図1の音声合成システムにおいて用いるイン
サイド・アウトサイド・アルゴリズムにおいて実行され
る内側確率の計算方法を示す図である。
【図8】 図1の音声合成システムにおいて用いるイン
サイド・アウトサイド・アルゴリズムにおいて用いられ
る外側確率の定義を示す図である。
【図9】 図1の音声合成システムにおいて用いるイン
サイド・アウトサイド・アルゴリズムにおいて実行され
る外側確率の計算方法を示す図である。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 10…音声合成制御部、 20…音声合成部、 21…パルス発生回路、 22…雑音発生回路、 23…利得可変型増幅器、 24…フィルタ、 25…スピーカ、 30…SCFGの確率学習部、 31…初期値SCFG、 32…学習されたSCFG、 33…韻律制御規則、 34…韻律句境界推定規則作成部、 SW…スイッチ。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力された単語列に基づいて基本周波数
    を制御して上記単語列の音声を合成して出力する音声合
    成手段を備えた音声合成システムにおいて、 上記音声合成手段は、 韻律句の構造の情報を含む確率文脈自由文法を用いた規
    則を備えた韻律制御規則に従って、上記基本周波数の立
    て直しが起こる境界である韻律句の境界を上記入力され
    た単語列において検出して上記基本周波数を制御する制
    御手段を備えたことを特徴とする音声合成システム。
  2. 【請求項2】 上記確率文脈自由文法は、所定のアルゴ
    リズムに従って、予め作成された複数の文の韻律句の構
    造を含む情報に基づいて学習されたことを特徴とする請
    求項1記載の音声合成システム。
  3. 【請求項3】 上記確率文脈自由文法は、ランダムに出
    現確率が与えられた初期値の確率文脈自由文法を、イン
    サイド・アウトサイド・アルゴリズムに従って、予め作
    成された係り受け構造で括弧付けされたコーパスを用い
    て学習されたことを特徴とする請求項2記載の音声合成
    システム。
  4. 【請求項4】 上記確率文脈自由文法は、上記学習され
    た確率文脈自由文法を、インサイド・アウトサイド・ア
    ルゴリズムに従って、予め作成された基本周波数の立て
    直し位置のデータで括弧付けされたコーパスを用いて学
    習されたことを特徴とする請求項3記載の音声合成シス
    テム。
JP6127423A 1994-06-09 1994-06-09 音声合成システム Expired - Fee Related JP2941168B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6127423A JP2941168B2 (ja) 1994-06-09 1994-06-09 音声合成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6127423A JP2941168B2 (ja) 1994-06-09 1994-06-09 音声合成システム

Publications (2)

Publication Number Publication Date
JPH07334188A true JPH07334188A (ja) 1995-12-22
JP2941168B2 JP2941168B2 (ja) 1999-08-25

Family

ID=14959597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6127423A Expired - Fee Related JP2941168B2 (ja) 1994-06-09 1994-06-09 音声合成システム

Country Status (1)

Country Link
JP (1) JP2941168B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105529023A (zh) * 2016-01-25 2016-04-27 百度在线网络技术(北京)有限公司 语音合成方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60195596A (ja) * 1984-03-19 1985-10-04 三洋電機株式会社 音声合成装置
JPH03119395A (ja) * 1989-10-02 1991-05-21 Nippon Telegr & Teleph Corp <Ntt> ピッチパタン生成方法
JPH05134692A (ja) * 1991-11-14 1993-05-28 Ricoh Co Ltd 発音記号生成装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60195596A (ja) * 1984-03-19 1985-10-04 三洋電機株式会社 音声合成装置
JPH03119395A (ja) * 1989-10-02 1991-05-21 Nippon Telegr & Teleph Corp <Ntt> ピッチパタン生成方法
JPH05134692A (ja) * 1991-11-14 1993-05-28 Ricoh Co Ltd 発音記号生成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105529023A (zh) * 2016-01-25 2016-04-27 百度在线网络技术(北京)有限公司 语音合成方法和装置

Also Published As

Publication number Publication date
JP2941168B2 (ja) 1999-08-25

Similar Documents

Publication Publication Date Title
Sun et al. Voice conversion using deep bidirectional long short-term memory based recurrent neural networks
JP3854713B2 (ja) 音声合成方法および装置および記憶媒体
CN111837178A (zh) 语音处理系统和处理语音信号的方法
CN111754976A (zh) 一种韵律控制语音合成方法、系统及电子装置
Wang et al. A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural $ F_0 $ Model for Statistical Parametric Speech Synthesis
JPH04313034A (ja) 合成音声生成方法及びテキスト音声合成装置
CN1835075B (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
WO2010030742A1 (en) Method for creating a speech model
Chen et al. Modeling of speaking rate influences on Mandarin speech prosody and its application to speaking rate-controlled TTS
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Ronanki et al. A Hierarchical Encoder-Decoder Model for Statistical Parametric Speech Synthesis.
Peguda et al. Speech to sign language translation for Indian languages
Tan Neural text-to-speech synthesis
WO2021229643A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Van Nguyen et al. Development of Vietnamese speech synthesis system using deep neural networks
JP3059398B2 (ja) 自動通訳装置
Li et al. Intelligibility enhancement via normal-to-lombard speech conversion with long short-term memory network and bayesian Gaussian mixture model
JP2941168B2 (ja) 音声合成システム
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
TW200935399A (en) Chinese-speech phonologic transformation system and method thereof
Al-Radhi et al. RNN-based speech synthesis using a continuous sinusoidal model
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080618

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090618

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees