JP2826215B2 - 合成音声生成方法及びテキスト音声合成装置 - Google Patents
合成音声生成方法及びテキスト音声合成装置Info
- Publication number
- JP2826215B2 JP2826215B2 JP3200126A JP20012691A JP2826215B2 JP 2826215 B2 JP2826215 B2 JP 2826215B2 JP 3200126 A JP3200126 A JP 3200126A JP 20012691 A JP20012691 A JP 20012691A JP 2826215 B2 JP2826215 B2 JP 2826215B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- probability
- markov model
- phonetic
- states
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title description 34
- 239000013598 vector Substances 0.000 claims description 43
- 230000015572 biosynthetic process Effects 0.000 claims description 30
- 238000003786 synthesis reaction Methods 0.000 claims description 30
- 238000002372 labelling Methods 0.000 claims description 19
- 230000007704 transition Effects 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 12
- 230000002596 correlated effect Effects 0.000 claims 4
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 7
- 239000002131 composite material Substances 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 238000011867 re-evaluation Methods 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】
【産業上の利用分野】本発明は音声合成の分野に関し、
無制約の書面テキストから音声を合成する手法に関す
る。
無制約の書面テキストから音声を合成する手法に関す
る。
【0002】
【従来の技術】音声合成は、合成さるべきそれぞれの文
章について音調曲線と合成すべき音声情報を表わすスペ
クトル特徴の系列とを計算することによって得られるの
が普通である。音声を正確にスペクトル表現することは
音声合成における大きな問題である。従来方法は連結合
成と規則による合成の2つの一般的アプローチによって
いる。
章について音調曲線と合成すべき音声情報を表わすスペ
クトル特徴の系列とを計算することによって得られるの
が普通である。音声を正確にスペクトル表現することは
音声合成における大きな問題である。従来方法は連結合
成と規則による合成の2つの一般的アプローチによって
いる。
【0003】連結合成は所望の合成音声を構成するため
に、共に引きのばされ隣接する予め記録された音声部分
を適当に表現することに基づいて行なわれる。通常の場
合は線形予測符号化(LPC)によって行なわれる。
に、共に引きのばされ隣接する予め記録された音声部分
を適当に表現することに基づいて行なわれる。通常の場
合は線形予測符号化(LPC)によって行なわれる。
【0004】一方、ホルマント合成としても知られる規
則による合成はそれぞれの音素について定常状態をスペ
クトル記述することによって行なわれる。2つの隣接す
る音素間のスペクトルはその後音声学者により導き出さ
れる一連の規則に基づいて補間される。
則による合成はそれぞれの音素について定常状態をスペ
クトル記述することによって行なわれる。2つの隣接す
る音素間のスペクトルはその後音声学者により導き出さ
れる一連の規則に基づいて補間される。
【0005】従来技術の欠点は最初の方法では自然の音
声から抽出さるべき区分の集合が大きくなければならず
(数百もしくはそれ以上)、第2番目の方法では高度の
音声学的知識が必要とされるという点である。前記必要
条件は規則固有の複雑さと相まって前記方法を使用する
音声シンセサイザの普及を従来より制約してきた。更
に、全体として音声シンセサイザは厳密に言語に依存し
ている。事実、音声規則は連結合成において使用さるべ
き音声の区分と共に言語によって様々であり、その結
果、シンセサイザを別の言語にカスタマイズする複雑さ
は全く新たなものを設計する場合の複雑さに近いものと
なっている。
声から抽出さるべき区分の集合が大きくなければならず
(数百もしくはそれ以上)、第2番目の方法では高度の
音声学的知識が必要とされるという点である。前記必要
条件は規則固有の複雑さと相まって前記方法を使用する
音声シンセサイザの普及を従来より制約してきた。更
に、全体として音声シンセサイザは厳密に言語に依存し
ている。事実、音声規則は連結合成において使用さるべ
き音声の区分と共に言語によって様々であり、その結
果、シンセサイザを別の言語にカスタマイズする複雑さ
は全く新たなものを設計する場合の複雑さに近いものと
なっている。
【0006】
【発明が解決しようとする課題】本発明の目的は予め記
録された区分や明示的な規則を必要としない統計的手法
に基づいて無制約なテキストから音声を合成する新しい
手法を提供することである。本発明のシンセサイザは2
つのマルコフモデルの相互作用によるもので、モデルを
処理するために音声的に一致する音声データベースが必
要である。
録された区分や明示的な規則を必要としない統計的手法
に基づいて無制約なテキストから音声を合成する新しい
手法を提供することである。本発明のシンセサイザは2
つのマルコフモデルの相互作用によるもので、モデルを
処理するために音声的に一致する音声データベースが必
要である。
【0007】本発明の目的は、無制約のテキストから合
成音声を生成するシンセサイザ装置と方法を提供するこ
とである。本発明の場合、音声を合成する言語を音声学
的に記述すること、即ち、当該言語の音素の目録が必要
となる。かかる目録を構成する手続きは当該技術分野に
おいて周知である。また、当該言語について音声学的に
一致する現存単語の音声データベースを利用できること
が仮定されている。このことは、発声されたデータベー
スの単語についてそれぞれその音声記号への翻訳が利用
でき、それぞれの単語音素について大雑把な始点と終点
とが確認できることを意味する。データベースの大きさ
は種々のものが使用できるが、ほぼ2千語のものが適当
である。
成音声を生成するシンセサイザ装置と方法を提供するこ
とである。本発明の場合、音声を合成する言語を音声学
的に記述すること、即ち、当該言語の音素の目録が必要
となる。かかる目録を構成する手続きは当該技術分野に
おいて周知である。また、当該言語について音声学的に
一致する現存単語の音声データベースを利用できること
が仮定されている。このことは、発声されたデータベー
スの単語についてそれぞれその音声記号への翻訳が利用
でき、それぞれの単語音素について大雑把な始点と終点
とが確認できることを意味する。データベースの大きさ
は種々のものが使用できるが、ほぼ2千語のものが適当
である。
【0008】
【課題を解決するための手段及び作用】本発明のシンセ
サイザは一つの音韻プロセッサと2つのマルコフモデル
を活用する。音韻プロセッサは入力されたテキストスト
リングを一連の音声学的情報に変換する。それぞれの情
報ストリングはマルコフモデルの情報系列と考えること
ができ、以下では音声エルゴードマルコフモデル(Ph
EHMM)と称する。その後、隠れた状態の系列が計算
される。それぞれの状態に対しては一組の音声特徴ベク
トルが別のマルコフモデル(以下では音響エルゴードマ
ルコフモデル(AEHMM)と称する)を使用すること
によって関連づけられる。合成フィルタによって音声特
徴ベクトルを適当に変形して合成音声の出力をつくり出
す。本発明はPhEHMMとAEHMMの構造とそれら
の処理法を提示するものである。本発明はその音声を合
成する特定言語から大部分独立した音声シンセサイザを
構成する方法を提供する。更に、その望ましい音声特徴
ベクトルは極度に少ない人間知識と相互作用によりフル
オートマチックな処理によって得ることができる。
サイザは一つの音韻プロセッサと2つのマルコフモデル
を活用する。音韻プロセッサは入力されたテキストスト
リングを一連の音声学的情報に変換する。それぞれの情
報ストリングはマルコフモデルの情報系列と考えること
ができ、以下では音声エルゴードマルコフモデル(Ph
EHMM)と称する。その後、隠れた状態の系列が計算
される。それぞれの状態に対しては一組の音声特徴ベク
トルが別のマルコフモデル(以下では音響エルゴードマ
ルコフモデル(AEHMM)と称する)を使用すること
によって関連づけられる。合成フィルタによって音声特
徴ベクトルを適当に変形して合成音声の出力をつくり出
す。本発明はPhEHMMとAEHMMの構造とそれら
の処理法を提示するものである。本発明はその音声を合
成する特定言語から大部分独立した音声シンセサイザを
構成する方法を提供する。更に、その望ましい音声特徴
ベクトルは極度に少ない人間知識と相互作用によりフル
オートマチックな処理によって得ることができる。
【0009】
【実施例】A.音響エルゴードマルコフモデル 本発明のシンセサイザは2つの異なるマルコフモデルの
相互作用に基づいている。最初のモデルは音響エルゴー
ドマルコフモデル(AEHMM)で図1に示す。本図は
AEHMMの構成を略示したもので、qi 、qj ・・・
・はモデルの状態を表わし、ai 、j は状態qiから状
態qj への遷移確率を表わす。それぞれの状態qi 付近
のダイアグラムは特徴ベクトル出力の確率密度関数の期
待値から計算した平均出力密度スペクトルを表わす。A
EHMMは一つ又はそれ以上のステップにおいて各状態
から他の何れの状態へも移動することが可能であるから
完全に接続したモデルである。音声信号は多次元特徴空
間によって表現されるものと仮定する。前記実施例では
同空間は確率分布の場合と同様に連続している。そのこ
とは音声特徴ベクトルの各成分を分布値が、定量化され
ない実数の連続値をとることを意味する。このアプロー
チは幾つかの利点を与えることができる。然しながら、
離散的アプローチも可能である。前記一組の特徴中には
合成すべき音素の性質に従って有声音パラメータやエネ
ルギの如きその他のパラメータを含ませたり、外部知識
によって決定することもできる。AEHMMの各状態
は、局部モデル、即ち、一定の音声特徴ベクトル(以
下、観測値と称する)を発する連続的な密度分布確率を
有する特徴源と考えることができる。本発明の実施例の
場合、音声スペクトルは自己相関関数r(j)の最初の
p+1のラグ、即ち、1<j<p(p=自己相関ラグの
数)と、線形予測利得σ(シグマ)とによって表わされ
る。このことは、音声がp次の自己回帰過程によりモデ
ル化できることを意味する。音声は適当な周波数、例え
ば、10kHzでサンプリングされ、その結果得られる
定量化された音声信号が保存される。前記音声信号はそ
の後、フレームと称する同じ長さの一連のスライスに分
割される。それぞれのフレームについて自己相関関数と
LPCが計算される。pの値として適当な値は12であ
るが、他の値も使用することができる。
相互作用に基づいている。最初のモデルは音響エルゴー
ドマルコフモデル(AEHMM)で図1に示す。本図は
AEHMMの構成を略示したもので、qi 、qj ・・・
・はモデルの状態を表わし、ai 、j は状態qiから状
態qj への遷移確率を表わす。それぞれの状態qi 付近
のダイアグラムは特徴ベクトル出力の確率密度関数の期
待値から計算した平均出力密度スペクトルを表わす。A
EHMMは一つ又はそれ以上のステップにおいて各状態
から他の何れの状態へも移動することが可能であるから
完全に接続したモデルである。音声信号は多次元特徴空
間によって表現されるものと仮定する。前記実施例では
同空間は確率分布の場合と同様に連続している。そのこ
とは音声特徴ベクトルの各成分を分布値が、定量化され
ない実数の連続値をとることを意味する。このアプロー
チは幾つかの利点を与えることができる。然しながら、
離散的アプローチも可能である。前記一組の特徴中には
合成すべき音素の性質に従って有声音パラメータやエネ
ルギの如きその他のパラメータを含ませたり、外部知識
によって決定することもできる。AEHMMの各状態
は、局部モデル、即ち、一定の音声特徴ベクトル(以
下、観測値と称する)を発する連続的な密度分布確率を
有する特徴源と考えることができる。本発明の実施例の
場合、音声スペクトルは自己相関関数r(j)の最初の
p+1のラグ、即ち、1<j<p(p=自己相関ラグの
数)と、線形予測利得σ(シグマ)とによって表わされ
る。このことは、音声がp次の自己回帰過程によりモデ
ル化できることを意味する。音声は適当な周波数、例え
ば、10kHzでサンプリングされ、その結果得られる
定量化された音声信号が保存される。前記音声信号はそ
の後、フレームと称する同じ長さの一連のスライスに分
割される。それぞれのフレームについて自己相関関数と
LPCが計算される。pの値として適当な値は12であ
るが、他の値も使用することができる。
【0010】AEHMMは次の式によって表わす。
【数1】 但し、Aはモデルの大きさ、即ち、モデルの状態数であ
る。Qは状態集合、Π(パイ)は初期確率ベクトル、A
は状態遷移行列、Fは観測確率関数の集合である。各モ
デル成分の定義は次の通りである。観測確率関数Fは連
続的な多変量ガウス分布であって、それぞれの状態につ
いてパラメータベクトルOによって表現される音声事象
が当該状態から観測される確率を与える。即ち、
る。Qは状態集合、Π(パイ)は初期確率ベクトル、A
は状態遷移行列、Fは観測確率関数の集合である。各モ
デル成分の定義は次の通りである。観測確率関数Fは連
続的な多変量ガウス分布であって、それぞれの状態につ
いてパラメータベクトルOによって表現される音声事象
が当該状態から観測される確率を与える。即ち、
【数2】 但し、
【数3】 rai(j)は状態iの自己相関ベクトルのj番目のラグ
であり、rt (j)は入力音声フレームの自己相関ベク
トルのj番目のラグである。更に、βi は状態自己相関
行列の固有値であり、mvi、σviは状態iのガウス音声
確率分布を定義するパラメータである。前記状態はスペ
クトル密度から独立しているものと想定される。Nは解
析されるフレームの長さに全体として比例する一定値で
ある。この手法は例えば、「音声認識におけるマルコフ
モデルとダイナミックタイムウォーピング(時間軸正規
化整合法)について:統一見解」(AT&Tベル研技術
誌Vol.63, No.7、9月号、1984年、B.H.ジュアン」
と、「ガウス自己回帰過程の正確な最大確率評価につい
て」(音響、音声信号処理に関するIEEE紀要、Vol.
36, No.6、1988年6月、セルヌシーフリアス・J.B.ロジ
ャース)の如き論文において論ぜられている通りであ
る。
であり、rt (j)は入力音声フレームの自己相関ベク
トルのj番目のラグである。更に、βi は状態自己相関
行列の固有値であり、mvi、σviは状態iのガウス音声
確率分布を定義するパラメータである。前記状態はスペ
クトル密度から独立しているものと想定される。Nは解
析されるフレームの長さに全体として比例する一定値で
ある。この手法は例えば、「音声認識におけるマルコフ
モデルとダイナミックタイムウォーピング(時間軸正規
化整合法)について:統一見解」(AT&Tベル研技術
誌Vol.63, No.7、9月号、1984年、B.H.ジュアン」
と、「ガウス自己回帰過程の正確な最大確率評価につい
て」(音響、音声信号処理に関するIEEE紀要、Vol.
36, No.6、1988年6月、セルヌシーフリアス・J.B.ロジ
ャース)の如き論文において論ぜられている通りであ
る。
【0011】各状態は局部的な自己回帰信号源と考える
ことができる。即ち、所与の自己回帰フレームを観測す
る確率は前記(A.2)によって与えられる。これらの
信号源は以下の局部信号と称する。前記の局部信号源は
遷移確率行列により接続され、音声のホノタクティクス
による制約を表わす。M状態の集合Q≡{qi }とする
と、大域モデルは次の一組の初期確率値と遷移確率行列
とによって完全に定義される。
ことができる。即ち、所与の自己回帰フレームを観測す
る確率は前記(A.2)によって与えられる。これらの
信号源は以下の局部信号と称する。前記の局部信号源は
遷移確率行列により接続され、音声のホノタクティクス
による制約を表わす。M状態の集合Q≡{qi }とする
と、大域モデルは次の一組の初期確率値と遷移確率行列
とによって完全に定義される。
【数4】
【数5】 (A.4)は時間t=0における状態qi の絶対確率を
表わし、(A.5)は時間t−1の前記状態qi によっ
て条件づけられた時間tにおける入力状態qj の確率を
与える状態間遷移規則を表わす。
表わし、(A.5)は時間t−1の前記状態qi によっ
て条件づけられた時間tにおける入力状態qj の確率を
与える状態間遷移規則を表わす。
【0012】AEHMMの解説は「音声符号化における
有限状態マルコフ量信号」(TCASSP会議紀要、米
国、1990年4月、ファラシ、M.ギウスチニアー
ニ、pピエルッシ)及び「音声合成におけるマルコフモ
デル手法」(欧州言語処理、パリ、1989年、ファラ
シ、M.ギウスチニアーニ、M.ヴェローラ)に報告さ
れている通りである。
有限状態マルコフ量信号」(TCASSP会議紀要、米
国、1990年4月、ファラシ、M.ギウスチニアー
ニ、pピエルッシ)及び「音声合成におけるマルコフモ
デル手法」(欧州言語処理、パリ、1989年、ファラ
シ、M.ギウスチニアーニ、M.ヴェローラ)に報告さ
れている通りである。
【0013】マルコフモデルは2つの確率的過程を表わ
す。一つは直接に観測できるものであり、一つは隠れて
いるものである。AEHMMでは観測された過程は音声
から抽出された特徴の系列であるのに対し、その基礎に
ある隠れたプロセスは恐らく観察音声を生成したと思わ
れる局部信号源の系列である。このことはAEHMMが
それぞれの音声信号フレームから算出された特徴を、状
態、又は状態の集合に、従って恐らくその信号フレーム
の特徴を発声したと思われる対応信号源に対して関連づ
けることを意味する。それぞれの信号源はラベルと称さ
れる級数によって表わすことができる。かくして、ラベ
ルの総数はAEHMMの大きさに等しくなる。このこと
はAEHMMがそれぞれのフレームに対して恐らくその
フレームを発したと思われる信号源の各々のラベルを関
連づけることを意味する。この働きは音響ラベリングと
称される。
す。一つは直接に観測できるものであり、一つは隠れて
いるものである。AEHMMでは観測された過程は音声
から抽出された特徴の系列であるのに対し、その基礎に
ある隠れたプロセスは恐らく観察音声を生成したと思わ
れる局部信号源の系列である。このことはAEHMMが
それぞれの音声信号フレームから算出された特徴を、状
態、又は状態の集合に、従って恐らくその信号フレーム
の特徴を発声したと思われる対応信号源に対して関連づ
けることを意味する。それぞれの信号源はラベルと称さ
れる級数によって表わすことができる。かくして、ラベ
ルの総数はAEHMMの大きさに等しくなる。このこと
はAEHMMがそれぞれのフレームに対して恐らくその
フレームを発したと思われる信号源の各々のラベルを関
連づけることを意味する。この働きは音響ラベリングと
称される。
【0014】モデルを構築するためには一定種類の距離
又は歪みの尺度を用いる。本実施例では確率比歪み尺度
が望ましかったが、他の種類の尺度も使用することがで
きる。どんな種類の特徴表現を使用するにせよ、それら
が信号のスペクトルを表現する上で有効である限り、本
発明でAEHMMを使用する上での基本的なポイントは
一つの音声に対して多分観測された発声を発生したと思
われる信号源の系列、従って、ラベルの系列を生成する
点である。この場合、確率は通常標準的なベクトル量記
号を用いることによって発声全体について計算され、局
部的には行なわない。このことは信号の確認が局部的に
行なわれるのではなく、発声の展開全体と遷移確率行列
中に具体化された音声的制約を考慮することによって行
なわれることを意味する。
又は歪みの尺度を用いる。本実施例では確率比歪み尺度
が望ましかったが、他の種類の尺度も使用することがで
きる。どんな種類の特徴表現を使用するにせよ、それら
が信号のスペクトルを表現する上で有効である限り、本
発明でAEHMMを使用する上での基本的なポイントは
一つの音声に対して多分観測された発声を発生したと思
われる信号源の系列、従って、ラベルの系列を生成する
点である。この場合、確率は通常標準的なベクトル量記
号を用いることによって発声全体について計算され、局
部的には行なわない。このことは信号の確認が局部的に
行なわれるのではなく、発声の展開全体と遷移確率行列
中に具体化された音声的制約を考慮することによって行
なわれることを意味する。
【0015】AEHMMの初期化と処理 AEHMMはAEHMMで使用される同一の音声パラメ
ータ表現に適用される標準的なクラスタリングアルゴリ
ズムによって初期化される。再評価手続きにおける計算
上の要求条件を減らすために、モデルはAEHMMと同
じ大きさを有するベクトル定量化クラスタリング手法
(以下ではVQと称する)によって初期化することが望
ましい。前記手法はその音声がAEHMM再評価手続き
について使用される同一話者によって発せられる発声の
集合に対して適用される。ベクトル定量化は従来技術に
おいて公知である。状態観測密度に対する初期評価はベ
クトル量記号コードブック重心の音声特徴ベクトルによ
って直接得ることができると共に、提案される特徴表現
の変量は正規化されたLPC残留エネルギーである。状
態遷移確率行列の初期評価はVQ定量化発声の集合を使
用して生起したVQラベルli とラベルlj の数を順次
VQラベルli からはじまる観測された対の総数によっ
て除することによって得ることができる。
ータ表現に適用される標準的なクラスタリングアルゴリ
ズムによって初期化される。再評価手続きにおける計算
上の要求条件を減らすために、モデルはAEHMMと同
じ大きさを有するベクトル定量化クラスタリング手法
(以下ではVQと称する)によって初期化することが望
ましい。前記手法はその音声がAEHMM再評価手続き
について使用される同一話者によって発せられる発声の
集合に対して適用される。ベクトル定量化は従来技術に
おいて公知である。状態観測密度に対する初期評価はベ
クトル量記号コードブック重心の音声特徴ベクトルによ
って直接得ることができると共に、提案される特徴表現
の変量は正規化されたLPC残留エネルギーである。状
態遷移確率行列の初期評価はVQ定量化発声の集合を使
用して生起したVQラベルli とラベルlj の数を順次
VQラベルli からはじまる観測された対の総数によっ
て除することによって得ることができる。
【数6】 但し、Coc(li t-1 、lj t )は処理データにおい
て時刻t−1のVQラベルli に続いて時刻tのVQラ
ベルlj が共起することを示す。初期確率ベクトル
(A.3)の初期評価は観測ラベルの総数によって除し
たVQラベルli の生起数の場合と同様にして計算する
ことができる。
て時刻t−1のVQラベルli に続いて時刻tのVQラ
ベルlj が共起することを示す。初期確率ベクトル
(A.3)の初期評価は観測ラベルの総数によって除し
たVQラベルli の生起数の場合と同様にして計算する
ことができる。
【数7】 但し、Cnt(li )は処理データにおけるVQラベル
li の生起数である。その後、通常の順方向/逆方向回
帰とバウムウエルチ再評価式によって一定音声サンプル
に対して処理を実行する。系列データサイズの要求条件
を減らすため、また評価手続き全体を改善するために音
声データ全体は同一の話者が発するようにすることが望
ましい。更に、発声は音声時にバランスがとれているこ
と、即ち、それらは当該言語に典型的に音声事象を表わ
し、当該言語に典型的な音素確率を提供するようにする
ことが望ましい。
li の生起数である。その後、通常の順方向/逆方向回
帰とバウムウエルチ再評価式によって一定音声サンプル
に対して処理を実行する。系列データサイズの要求条件
を減らすため、また評価手続き全体を改善するために音
声データ全体は同一の話者が発するようにすることが望
ましい。更に、発声は音声時にバランスがとれているこ
と、即ち、それらは当該言語に典型的に音声事象を表わ
し、当該言語に典型的な音素確率を提供するようにする
ことが望ましい。
【0016】AEHMMの使用 AHEMMを使用して音声的に整合した音声データベー
スに対して音響ラベリングを実行する。このことはそれ
ぞれの音声フレーム毎にAEHMM中の選択状態を示す
ラベル、選択ラベルに対応する局部信号源に関連づけら
れる音声特徴ベクトル、及び音声が抽出される発声音素
を適当な音声アルファベットで音声翻訳する可能性が存
在することを意味する。音声的に整合した音声データベ
ースとAEHMMを処理するために使用される処理音声
データベースは同一話者により発せられることが望まし
い。M=256の状態モデルを処理するためには2千も
しくはそれ以上の音声的に一致する単語のサイズを有す
る音声を使用することが望ましい。
スに対して音響ラベリングを実行する。このことはそれ
ぞれの音声フレーム毎にAEHMM中の選択状態を示す
ラベル、選択ラベルに対応する局部信号源に関連づけら
れる音声特徴ベクトル、及び音声が抽出される発声音素
を適当な音声アルファベットで音声翻訳する可能性が存
在することを意味する。音声的に整合した音声データベ
ースとAEHMMを処理するために使用される処理音声
データベースは同一話者により発せられることが望まし
い。M=256の状態モデルを処理するためには2千も
しくはそれ以上の音声的に一致する単語のサイズを有す
る音声を使用することが望ましい。
【0017】B.音声エルゴードマルコフモデル 図2は本発明に使用する第2のマルコフモデルである音
声エルゴードマルコフモデル(PhEHMM)を示す。
声エルゴードマルコフモデル(PhEHMM)を示す。
【0018】PhEHMMは以下の点で先に述べたAE
HMMと類似するモデルである。即ち、両者は同じサイ
ズ、即ち、同じ状態数をもっている。またAEHMMの
遷移確率行列によって得られる状態のうちの同じ遷移確
率によって初期化される。PhEHMMの観測確率関数
はPhEHMMの各状態に対して採用された音声アルフ
ァベットの音素を発する観測確率関数が関連づけられる
点でAEHMMのものと異なっている。それぞれ合成さ
るべき発声におけるそれらの持続時間に比例する一連の
回数だけ繰返した音素系列を本文では合成観測値と称す
ることにする。
HMMと類似するモデルである。即ち、両者は同じサイ
ズ、即ち、同じ状態数をもっている。またAEHMMの
遷移確率行列によって得られる状態のうちの同じ遷移確
率によって初期化される。PhEHMMの観測確率関数
はPhEHMMの各状態に対して採用された音声アルフ
ァベットの音素を発する観測確率関数が関連づけられる
点でAEHMMのものと異なっている。それぞれ合成さ
るべき発声におけるそれらの持続時間に比例する一連の
回数だけ繰返した音素系列を本文では合成観測値と称す
ることにする。
【0019】PhEHMMの役割は、ここでは、合成観
測値のストリングと、恐らく前記合成観測値を発したと
思われる音声源の系列との間の対応関係を確立すること
である。従って、PhEHMMは以下の式によって表さ
れる。
測値のストリングと、恐らく前記合成観測値を発したと
思われる音声源の系列との間の対応関係を確立すること
である。従って、PhEHMMは以下の式によって表さ
れる。
【数8】 但し、Mはモデルの大きさ、即ち、AEHMMの場合と
同一であり、Tは状態の集合、Θは初期確率ベクトル、
Zは遷移確率行列の状態であり、Λは観察確率関数の集
合である。
同一であり、Tは状態の集合、Θは初期確率ベクトル、
Zは遷移確率行列の状態であり、Λは観察確率関数の集
合である。
【0020】各状態の観測確率関数は離散型で、それぞ
れの状態に対してその状態から音声記号Ψi が観察され
る確率を与える。
れの状態に対してその状態から音声記号Ψi が観察され
る確率を与える。
【数9】
【0021】音声記号領域の性質のため観測確率関数は
離散的である。Eは採用された音声アルファベットの大
きさである。一定の音声信号を所与とすると、PhEH
MMを使用して隠れた状態系列を構成するラベルの最も
確率の高い系列を計算する。即ちAEHMMを使用して
音声記号ストリングに対応するスペクトル特徴の最も確
率の高い系列を計算する。
離散的である。Eは採用された音声アルファベットの大
きさである。一定の音声信号を所与とすると、PhEH
MMを使用して隠れた状態系列を構成するラベルの最も
確率の高い系列を計算する。即ちAEHMMを使用して
音声記号ストリングに対応するスペクトル特徴の最も確
率の高い系列を計算する。
【0022】図2はPhEHMMの簡単な構成を示す。
但し、τi ,τj ,τk ・・・はモデルの状態を表し、
zi,j は状態τi から状態τj へ至る遷移確率を示す。
各状態に近接するダイアグラムは採用された音声アルフ
ァベットの各音素を発する離散密度確率を表す。
但し、τi ,τj ,τk ・・・はモデルの状態を表し、
zi,j は状態τi から状態τj へ至る遷移確率を示す。
各状態に近接するダイアグラムは採用された音声アルフ
ァベットの各音素を発する離散密度確率を表す。
【0023】PhEHMMの初期化と処理 PhEHMMはAEHMMに関連して先に定義した音響
的かつ音声的にラベル付けした同じ音声サンプルを用い
て初期化する。初期確率ベクトルと遷移確率行列に対す
る初期評価は、AEHMMの同じ遷移確率行列Aを遷移
確率行列Zと考えて、対応するAEHMMの統計的記述
によって得ることができる。初期確率ベクトルΘについ
ても同様のことを行う。
的かつ音声的にラベル付けした同じ音声サンプルを用い
て初期化する。初期確率ベクトルと遷移確率行列に対す
る初期評価は、AEHMMの同じ遷移確率行列Aを遷移
確率行列Zと考えて、対応するAEHMMの統計的記述
によって得ることができる。初期確率ベクトルΘについ
ても同様のことを行う。
【数10】
【0024】各状態の観測分布関数は以下の手続を経て
初期化する。先に定義した音声サンプルはAEHMMを
使用して音響的にラベル付けして、以下のAEHMM状
態系列を得る。
初期化する。先に定義した音声サンプルはAEHMMを
使用して音響的にラベル付けして、以下のAEHMM状
態系列を得る。
【数11】
【0025】同じ音声サンプルの音声的翻訳は適当な方
法を用いて得ることができ、次の音声記号の一系列が得
られる。
法を用いて得ることができ、次の音声記号の一系列が得
られる。
【数12】
【0026】さて、以下の式を用いてそれぞれの状態に
ついての観測確率関数の初期評価を得ることができる。
ついての観測確率関数の初期評価を得ることができる。
【数13】 その結果、それぞれの状態についてその状態から一定の
音声記号Ψijが得られる確率が与えられる。この式にお
いて Cnt(Ψi , τj )は音声記号Ψi 状態τj が共に
生起することが観測される数である。その後、適当な音
声的に翻訳したテキストサンプルについてPhEHMM
を周知のバウム・ウェルチアルゴリズムによって反復し
て再評価する。
音声記号Ψijが得られる確率が与えられる。この式にお
いて Cnt(Ψi , τj )は音声記号Ψi 状態τj が共に
生起することが観測される数である。その後、適当な音
声的に翻訳したテキストサンプルについてPhEHMM
を周知のバウム・ウェルチアルゴリズムによって反復し
て再評価する。
【0027】C.合成システムの解説 図3はテキスト合成シンセサイザ30のブロック線図を
示す。同図において、本発明と関連する構造のみが完全
に説明されているが、音声合成に必要であるが当該技術
分野において標準的な構成部分はごく手短かに説明す
る。シンセサイザ30はテキスト入力装置31、音声プ
ロセッサ32、音韻プロセッサ34、ラベリング装置3
3、スペクトル系列生成装置、及び合成フィルタ36を
含む。テキスト入力装置31はテキスト入力インターフ
ェースを提供するものであって入力テキストを以下の処
理のために複数の文に分割するために必要な処理を実行
する。音声プロセッサ32は図4に詳解する。
示す。同図において、本発明と関連する構造のみが完全
に説明されているが、音声合成に必要であるが当該技術
分野において標準的な構成部分はごく手短かに説明す
る。シンセサイザ30はテキスト入力装置31、音声プ
ロセッサ32、音韻プロセッサ34、ラベリング装置3
3、スペクトル系列生成装置、及び合成フィルタ36を
含む。テキスト入力装置31はテキスト入力インターフ
ェースを提供するものであって入力テキストを以下の処
理のために複数の文に分割するために必要な処理を実行
する。音声プロセッサ32は図4に詳解する。
【0028】図4について述べると、シラビフィケータ
41は音節化装置であって入力テキストを次の処理のた
めに複数の音節に分割する目的を有する。音声トランス
クライバ42は入力書記素をそれに対応する音素に変換
する。本実施例では表1に示すように29の記号の音声
アルファベットを使用したが、必要とあらば他の音声ア
ルファベットを使用することもできる。
41は音節化装置であって入力テキストを次の処理のた
めに複数の音節に分割する目的を有する。音声トランス
クライバ42は入力書記素をそれに対応する音素に変換
する。本実施例では表1に示すように29の記号の音声
アルファベットを使用したが、必要とあらば他の音声ア
ルファベットを使用することもできる。
【表1】
【0029】微音韻プロセッサ43は合成さるべき各音
素に対する全持続時間を計算する。前記プロセッサ43
は音節モデルと構文形態に関する情報を活用して所望の
出力を生成する。それは音素の固有持続時間の概念に基
づいている。各音素は音節中のその位置と字句のアクセ
ントに応じて異なるものと考える。それぞれの異なる音
素位置に対して持続時間データベース44中に保存され
た異なる持続時間値を関連づける。この種の音節モデル
は従来より文献中に提案されているものである。固有持
続時間はその後、文中の単語の品詞に従って引延ばされ
る。品詞に従って持続時間を修正するためのアルゴリズ
ムは従来技術に報告済みである。合成観測値ジェネレー
タ45は音素の系列とそれに対応する持続時間全体をP
hEHMM合成観測値に変換する役割を有する。前記ジ
ェネレータは音素のストリングを生成し、そこで各音素
はその計算された持続時間に対応するフレーム数と同回
数だけ反復される。
素に対する全持続時間を計算する。前記プロセッサ43
は音節モデルと構文形態に関する情報を活用して所望の
出力を生成する。それは音素の固有持続時間の概念に基
づいている。各音素は音節中のその位置と字句のアクセ
ントに応じて異なるものと考える。それぞれの異なる音
素位置に対して持続時間データベース44中に保存され
た異なる持続時間値を関連づける。この種の音節モデル
は従来より文献中に提案されているものである。固有持
続時間はその後、文中の単語の品詞に従って引延ばされ
る。品詞に従って持続時間を修正するためのアルゴリズ
ムは従来技術に報告済みである。合成観測値ジェネレー
タ45は音素の系列とそれに対応する持続時間全体をP
hEHMM合成観測値に変換する役割を有する。前記ジ
ェネレータは音素のストリングを生成し、そこで各音素
はその計算された持続時間に対応するフレーム数と同回
数だけ反復される。
【0030】図5について述べると、入力ストリングテ
キストのサンプルが図5の(A)に示されている。そこ
ではイタリア文”Questo e un esempio di frase”が合
成さるべきテキスト例として使用されている。図5の
(B)はその例で使用される文の音声的翻訳を示す。図
5の(C)には単語の系列とそれに対応する品詞が示さ
れている。図5の(D)は各音素がその計算された持続
時間全体に対応するフレーム数と同回数だけ反復される
ことを示す。
キストのサンプルが図5の(A)に示されている。そこ
ではイタリア文”Questo e un esempio di frase”が合
成さるべきテキスト例として使用されている。図5の
(B)はその例で使用される文の音声的翻訳を示す。図
5の(C)には単語の系列とそれに対応する品詞が示さ
れている。図5の(D)は各音素がその計算された持続
時間全体に対応するフレーム数と同回数だけ反復される
ことを示す。
【0031】図3のラベリング装置(LU)は合成観測
値の系列に対応する最もありそうな状態系列を計算する
目的を有する。ラベリング装置33は図7と図8のLU
70とLU80の2つの異なる実施例の形が示されてい
る。図7のラベリング装置は図5Dに示すような合成観
測値の系列から基礎にあるPhEHMMの状態系列を計
算する。バウムウェルチPhEHMMプロセッサ71は
周知のバウムウェルチアルゴリズムを実行する。プロセ
ッサ71はそれぞれの観測音素について図6に示すよう
な音声記号観測値を生ぜしめた各状態の確率ベクトルを
生成する目的を有する。図6の配列中の各要素はラベル
(L1,L2,L3・・・)と各観測値に対するラベル
確率(P(1),P(2),P(3)・・・)の対より
構成される。但し、一つの観測値は、先に指定の如く、
合成観測値系列の音声記号であり、表の各欄についてL
BLはPhEHMMの状態のラベルを表わし、Prob
はその観測値を生成したラベルの確率である。
値の系列に対応する最もありそうな状態系列を計算する
目的を有する。ラベリング装置33は図7と図8のLU
70とLU80の2つの異なる実施例の形が示されてい
る。図7のラベリング装置は図5Dに示すような合成観
測値の系列から基礎にあるPhEHMMの状態系列を計
算する。バウムウェルチPhEHMMプロセッサ71は
周知のバウムウェルチアルゴリズムを実行する。プロセ
ッサ71はそれぞれの観測音素について図6に示すよう
な音声記号観測値を生ぜしめた各状態の確率ベクトルを
生成する目的を有する。図6の配列中の各要素はラベル
(L1,L2,L3・・・)と各観測値に対するラベル
確率(P(1),P(2),P(3)・・・)の対より
構成される。但し、一つの観測値は、先に指定の如く、
合成観測値系列の音声記号であり、表の各欄についてL
BLはPhEHMMの状態のラベルを表わし、Prob
はその観測値を生成したラベルの確率である。
【0032】図8は図3のラベリング装置(LU)の第
2の実施例(LU80)である。合成観測値の系列から
任意の最適性基準を使用してPhEHMMの状態の最も
優れた系列を計算する。一つの状態だけ(即ち1ラベ
ル)が合成系列観測値の各項目と関連する。一例とし
て、状態系列は、ヴィテルビPhEHMMプロセッサ8
1により合成観測値系列に対して実行された周知のヴィ
テルビアルゴリズムによって計算することができる。
2の実施例(LU80)である。合成観測値の系列から
任意の最適性基準を使用してPhEHMMの状態の最も
優れた系列を計算する。一つの状態だけ(即ち1ラベ
ル)が合成系列観測値の各項目と関連する。一例とし
て、状態系列は、ヴィテルビPhEHMMプロセッサ8
1により合成観測値系列に対して実行された周知のヴィ
テルビアルゴリズムによって計算することができる。
【0033】図3のスペクトル系列生成装置(SSP
U)はラベリング装置70又は80により生成されるよ
うな入力ラベル系列をフィルタ係数の系列に変換する目
的を有する。図9と図10はそれぞれラベリング装置7
0と80の2つの実施例に対応するSSPU90と10
0の構造を示す。SSPU90は音声特徴コードブック
(SFC)92と音声補間器(FI)91とによって構
成される。SFC92は先のAEHMM処理によって決
定されるようにAEHMMの対応する原始モデルを各ラ
ベルに関連させる。このことは本実施例においては原始
パラメータの期待値のベクトルがラベリング装置によっ
て生成された各ラベルに関連づけられることを意味す
る。これは多変量ガウス分布を使用する直後である。か
かる場合にはガウス密分布自体の平均値が各ラベルに関
連づけられる。FI91は計算して合成フィルタ中に使
用される実特徴ベクトルを生成する。この目的において
それはAEHMMコードブックの音声特徴ベクトルの加
重平均を計算する。前記特徴は補間スキームに対して線
形であることが望ましいことはいうまでもない。予測係
数を使用する場合、それらを例えばログエリア比のよう
なより線形的な特徴に変換することが望ましい。特徴ベ
クトル変換処理はΓ(ri )により示され、以下の如く
特徴ベクトルの異なる集合ui を与える。
U)はラベリング装置70又は80により生成されるよ
うな入力ラベル系列をフィルタ係数の系列に変換する目
的を有する。図9と図10はそれぞれラベリング装置7
0と80の2つの実施例に対応するSSPU90と10
0の構造を示す。SSPU90は音声特徴コードブック
(SFC)92と音声補間器(FI)91とによって構
成される。SFC92は先のAEHMM処理によって決
定されるようにAEHMMの対応する原始モデルを各ラ
ベルに関連させる。このことは本実施例においては原始
パラメータの期待値のベクトルがラベリング装置によっ
て生成された各ラベルに関連づけられることを意味す
る。これは多変量ガウス分布を使用する直後である。か
かる場合にはガウス密分布自体の平均値が各ラベルに関
連づけられる。FI91は計算して合成フィルタ中に使
用される実特徴ベクトルを生成する。この目的において
それはAEHMMコードブックの音声特徴ベクトルの加
重平均を計算する。前記特徴は補間スキームに対して線
形であることが望ましいことはいうまでもない。予測係
数を使用する場合、それらを例えばログエリア比のよう
なより線形的な特徴に変換することが望ましい。特徴ベ
クトル変換処理はΓ(ri )により示され、以下の如く
特徴ベクトルの異なる集合ui を与える。
【数14】
【0034】その後、出力特徴ベクトルが合成さるべき
各フレームについてコードブックの各特徴ベクトルを時
間tにおける対応ラベルの確率によって重みをつけるこ
とによって計算される。
各フレームについてコードブックの各特徴ベクトルを時
間tにおける対応ラベルの確率によって重みをつけるこ
とによって計算される。
【数15】 但し、prob(τ i t )はラベリング装置70により
計算される各状態の確率であり、ui はコードブックの
関連する特徴ベクトルの変形であり、uav t は合成フィ
ルタに送らるべき合成特徴ベクトルである。その結果は
その後合成プロセスにふさわしいスペクトル表現に逆変
換される。本実施例の場合、反映係数kを使用して
(C.3)に示すように逆変換する。
計算される各状態の確率であり、ui はコードブックの
関連する特徴ベクトルの変形であり、uav t は合成フィ
ルタに送らるべき合成特徴ベクトルである。その結果は
その後合成プロセスにふさわしいスペクトル表現に逆変
換される。本実施例の場合、反映係数kを使用して
(C.3)に示すように逆変換する。
【数16】 但し、Δは逆変換演算子である。
【0035】図10にLU80にふさわしいSSPU1
00を示す。SSPU100はスペクトル特徴コードコ
ードブック102と特徴セレクタ101より構成され
る。本実施例では特徴セレクタ101は各ラベルに対し
て最適アルゴリズムに従って選択される音声特徴ベクト
ルコードブック102中に保存されるAEHMMの対応
する音声特徴ベクトルを関連づける。
00を示す。SSPU100はスペクトル特徴コードコ
ードブック102と特徴セレクタ101より構成され
る。本実施例では特徴セレクタ101は各ラベルに対し
て最適アルゴリズムに従って選択される音声特徴ベクト
ルコードブック102中に保存されるAEHMMの対応
する音声特徴ベクトルを関連づける。
【0036】その結果得られる音声特徴ベクトルはその
後合成フィルタ36により使用されるフィルタ係数に変
換される。反映係数kが使用される場合、合成フィルタ
は図11に示す構造をとる。図11において、利得値は
韻律プロセッサ34により計算されるエネルギー等高線
によって与えられる。
後合成フィルタ36により使用されるフィルタ係数に変
換される。反映係数kが使用される場合、合成フィルタ
は図11に示す構造をとる。図11において、利得値は
韻律プロセッサ34により計算されるエネルギー等高線
によって与えられる。
【0037】エネルギーを計算するために他の手続を使
用することができる。図11の励起源、声門脈動ジェネ
レータとノイズジェネレータは有声音パラメータにより
制御される。有声音は異なる方法で計算することができ
る。即ち、もしそれがスペクトル特徴集合の中に埋込ま
れていれば、他の特徴と同一の方法で処理される。音声
フレームを有声音、無声音に分類するためにはスレショ
ルド決定法を使用することができる。あるいは両者を混
合した励起法を使用することもできる。さもない場合に
は、有声音パラメータを合成さるべきそれぞれの音素に
関連づけて、実際に合成された音素に従って合成プロセ
ス中で変化させるべきである。
用することができる。図11の励起源、声門脈動ジェネ
レータとノイズジェネレータは有声音パラメータにより
制御される。有声音は異なる方法で計算することができ
る。即ち、もしそれがスペクトル特徴集合の中に埋込ま
れていれば、他の特徴と同一の方法で処理される。音声
フレームを有声音、無声音に分類するためにはスレショ
ルド決定法を使用することができる。あるいは両者を混
合した励起法を使用することもできる。さもない場合に
は、有声音パラメータを合成さるべきそれぞれの音素に
関連づけて、実際に合成された音素に従って合成プロセ
ス中で変化させるべきである。
【0038】D.シンセサイザの動作 いったんA節とB節に述べたようにAEHMMとPhE
HMMの2つのマルコフモデルを構築し終えると、テキ
スト合成プロセス全体を次のように要約することができ
る。 −テキスト入力31を介して書面テキストを入力した
後、音声プロセッサ32によって音声発音記号に変換す
る。音声プロセッッサ32はまた合成フィルタ36中で
使用可能な追加的なパラメータを決定する。 −微音韻プロセッサ43がそれぞれの音素について全体
の持続時間を計算する。 −持続時間データベース44によって各音素に対して異
なる持続時間を付与する。 −音素系列と各系列に関連する持続時間は合成観測値ジ
ェネレータ45によって処理される。合成観測値ジェネ
レータ45はそのサンプルを図5Dに示す合成観測値の
系列を生成する。 −その後、合成観測値系列をラベリング装置33により
処理する。ラベリング装置33は選択された最適性基準
に応じて前記合成観測値系列に対応するラベル系列、即
ちPhEHMMの状態の系列を計算する。 −スペクトル系列生成装置35は入力としてラベル系列
を受取り、対応するAEHMMの音声特徴ベクトルをそ
れらのラベルに関連づける。 −その後、その結果として得られる特徴ベクトルをフィ
ルタ係数に変換する。これらの係数は音韻プロセッサ3
4に生成される音韻とその他のパラメータと共にその後
合成フィルタ36によって合成音声出力を生成するため
に使用される。
HMMの2つのマルコフモデルを構築し終えると、テキ
スト合成プロセス全体を次のように要約することができ
る。 −テキスト入力31を介して書面テキストを入力した
後、音声プロセッサ32によって音声発音記号に変換す
る。音声プロセッッサ32はまた合成フィルタ36中で
使用可能な追加的なパラメータを決定する。 −微音韻プロセッサ43がそれぞれの音素について全体
の持続時間を計算する。 −持続時間データベース44によって各音素に対して異
なる持続時間を付与する。 −音素系列と各系列に関連する持続時間は合成観測値ジ
ェネレータ45によって処理される。合成観測値ジェネ
レータ45はそのサンプルを図5Dに示す合成観測値の
系列を生成する。 −その後、合成観測値系列をラベリング装置33により
処理する。ラベリング装置33は選択された最適性基準
に応じて前記合成観測値系列に対応するラベル系列、即
ちPhEHMMの状態の系列を計算する。 −スペクトル系列生成装置35は入力としてラベル系列
を受取り、対応するAEHMMの音声特徴ベクトルをそ
れらのラベルに関連づける。 −その後、その結果として得られる特徴ベクトルをフィ
ルタ係数に変換する。これらの係数は音韻プロセッサ3
4に生成される音韻とその他のパラメータと共にその後
合成フィルタ36によって合成音声出力を生成するため
に使用される。
【0039】
【発明の効果】本発明は、上記のように構成されている
ので、予め記録された区分や明示的な規則を必要としな
い統計的手法に基づいて無制約なテキストから音声を合
成できる優れた効果を有する。
ので、予め記録された区分や明示的な規則を必要としな
い統計的手法に基づいて無制約なテキストから音声を合
成できる優れた効果を有する。
【図1】AEHMMの概略構造図である。
【図2】PhEHMMの概略構造図である。
【図3】本発明のテキスト生成シンセサイザのブロック
線図である。
線図である。
【図4】図3の音声プロセッサのブロック線図である。
【図5】音声プロセッサによって実行されるテキストの
サンプル図である。
サンプル図である。
【図6】異なる観測値に対するラベルの配列とそれらの
確率を示す図である。
確率を示す図である。
【図7】図3のラベリング装置の実施例のブロック線図
である。
である。
【図8】図3のラベリング装置の別の実施例のブロック
線図である。
線図である。
【図9】図7のラベリング装置と共に使用されるスペク
トル系列生成装置のブロック線図である。
トル系列生成装置のブロック線図である。
【図10】図8のラベリング装置と共に使用されるスペ
クトル系列生成装置のブロック線図である。
クトル系列生成装置のブロック線図である。
【図11】実施例で使用されるラティス合成フィルタの
構造図である。
構造図である。
30 テキスト合成シンセサイザ 31 テキスト入力 32、40 音声プロセッサ 33 ラベリング装置 34 音韻プロセッサ 35 スペクトル系列生成装置 36 合成フィルタ 41 シラビフィケータ 42 音声トランスクライバ 43 微音韻プロセッサ 44 持続時間データベース 45 合成観測値ジェネレータ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−202798(JP,A) 特開 平1−276200(JP,A) 特開 平2−72399(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00,9/18
Claims (2)
- 【請求項1】 複数の状態と、該状態間の遷移確率と、
該状態に関連する一組の音声特徴ベクトル出力と、該音
声特徴ベクトル出力の確率とを含む第1のマルコフモデ
ル(AEHMM)を生成するステップと、 複数の状態と、該状態間の遷移確率と、該状態に関連す
る一組の音声記号出力と、該音声記号出力の確率とを含
み、前記第1のマルコフモデルと相関される第2のマル
コフモデル(PhEHMM)を生成するステップと、 テキストを一連の音声記号に変換するステップと、 前記一連の音声記号中の各音声記号について、前記第2
のマルコフモデルが当該音声記号を生成する確率を評価
するステップと、 前記一連の音声記号中の各音声記号について、前記第1
のマルコフモデルによって出力されるものと予想され、
前記第1のマルコフモデルと相関された前記第2のマル
コフモデルが当該音声記号を生成する確率によって重み
づけられている音声特徴ベクトルの和を含む合成特徴ベ
クトルを生成するステップと、 前記合成特徴ベクトルから合成音声を生成するステップ
と、 を具備する合成音声生成方法。 - 【請求項2】 複数の状態と、該状態間の遷移確率と、
該状態に関連する一組の音声特徴ベクトル出力と、該音
声特徴ベクトル出力の確率とを含む第1のマルコフモデ
ル(AEHMM)を生成して記憶する手段と、 複数の状態と、該状態間の遷移確率と、該状態に関連す
る一組の音声記号出力と、該音声記号出力の確率とを含
み、前記第1のマルコフモデルと相関される第2のマル
コフモデル(PhEHMM)を生成して記憶する手段
と、 テキスト入力手段と、 前記テキスト入力手段によって入力されたテキストを一
連の音声記号に変換する音声プロセッサと、 前記一連の音声記号中の各音声記号について、前記第2
のマルコフモデルが当該音声記号を生成する確率を評価
するラベリング装置と、 前記一連の音声記号中の各音声記号について、前記第1
のマルコフモデルによって出力されるものと予想され、
前記第1のマルコフモデルと相関された前記第2のマル
コフモデルが当該音声記号を生成する確率によって重み
づけられている音声特徴ベクトルの和を含む合成特徴ベ
クトルを生成するスペクトル系列生成装置と、 前記合成特徴ベクトルから合成音声を生成する合成フィ
ルタと、 を具備するテキスト音声合成装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP90119789A EP0481107B1 (en) | 1990-10-16 | 1990-10-16 | A phonetic Hidden Markov Model speech synthesizer |
IT90119789.7 | 1990-10-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04313034A JPH04313034A (ja) | 1992-11-05 |
JP2826215B2 true JP2826215B2 (ja) | 1998-11-18 |
Family
ID=8204620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3200126A Expired - Lifetime JP2826215B2 (ja) | 1990-10-16 | 1991-07-15 | 合成音声生成方法及びテキスト音声合成装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5230037A (ja) |
EP (1) | EP0481107B1 (ja) |
JP (1) | JP2826215B2 (ja) |
DE (1) | DE69022237T2 (ja) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
US5606645A (en) * | 1992-02-28 | 1997-02-25 | Kabushiki Kaisha Toshiba | Speech pattern recognition apparatus utilizing multiple independent sequences of phonetic segments |
US5383120A (en) * | 1992-03-02 | 1995-01-17 | General Electric Company | Method for tagging collocations in text |
EP0577488B9 (en) * | 1992-06-29 | 2007-10-03 | Nippon Telegraph And Telephone Corporation | Speech coding method and apparatus for the same |
KR950704772A (ko) * | 1993-10-15 | 1995-11-20 | 데이비드 엠. 로젠블랫 | 시스템 트레이닝 방법, 트레이닝된 장치 및 그 사용 방법(A method for training a system, the resulting apparatus, and method of use thereof) |
JP3450411B2 (ja) * | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
GB2290684A (en) * | 1994-06-22 | 1996-01-03 | Ibm | Speech synthesis using hidden Markov model to determine speech unit durations |
US5633983A (en) * | 1994-09-13 | 1997-05-27 | Lucent Technologies Inc. | Systems and methods for performing phonemic synthesis |
US5497337A (en) * | 1994-10-21 | 1996-03-05 | International Business Machines Corporation | Method for designing high-Q inductors in silicon technology without expensive metalization |
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
US5719996A (en) * | 1995-06-30 | 1998-02-17 | Motorola, Inc. | Speech recognition in selective call systems |
US6038533A (en) * | 1995-07-07 | 2000-03-14 | Lucent Technologies Inc. | System and method for selecting training text |
US5822731A (en) * | 1995-09-15 | 1998-10-13 | Infonautics Corporation | Adjusting a hidden Markov model tagger for sentence fragments |
US5832441A (en) * | 1996-09-16 | 1998-11-03 | International Business Machines Corporation | Creating speech models |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
JP3033514B2 (ja) * | 1997-03-31 | 2000-04-17 | 日本電気株式会社 | 大語彙音声認識方法及び装置 |
WO1999014740A1 (de) * | 1997-09-17 | 1999-03-25 | Siemens Aktiengesellschaft | Verfahren zur bestimmung einer wahrscheinlichkeit für das auftreten einer folge von mindestens zwei wörtern bei einer spracherkennung |
EP1138038B1 (en) * | 1998-11-13 | 2005-06-22 | Lernout & Hauspie Speech Products N.V. | Speech synthesis using concatenation of speech waveforms |
US6185533B1 (en) * | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
DE19915648A1 (de) * | 1999-04-07 | 2000-10-12 | Rohde & Schwarz | Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen |
US6178402B1 (en) | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US7219056B2 (en) * | 2000-04-20 | 2007-05-15 | International Business Machines Corporation | Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate |
US6999926B2 (en) * | 2000-11-16 | 2006-02-14 | International Business Machines Corporation | Unsupervised incremental adaptation using maximum likelihood spectral transformation |
US7124082B2 (en) * | 2002-10-11 | 2006-10-17 | Twisted Innovations | Phonetic speech-to-text-to-speech system and method |
US7593845B2 (en) * | 2003-10-06 | 2009-09-22 | Microsoflt Corporation | Method and apparatus for identifying semantic structures from text |
US7412377B2 (en) | 2003-12-19 | 2008-08-12 | International Business Machines Corporation | Voice model for speech processing based on ordered average ranks of spectral features |
JP2006047866A (ja) * | 2004-08-06 | 2006-02-16 | Canon Inc | 電子辞書装置およびその制御方法 |
CN1755796A (zh) * | 2004-09-30 | 2006-04-05 | 国际商业机器公司 | 文本到语音转换中基于统计技术的距离定义方法和系统 |
US7684988B2 (en) * | 2004-10-15 | 2010-03-23 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
US20060136215A1 (en) * | 2004-12-21 | 2006-06-22 | Jong Jin Kim | Method of speaking rate conversion in text-to-speech system |
US20070213987A1 (en) * | 2006-03-08 | 2007-09-13 | Voxonic, Inc. | Codebook-less speech conversion method and system |
JP2008263543A (ja) * | 2007-04-13 | 2008-10-30 | Funai Electric Co Ltd | 記録再生装置 |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US20090248647A1 (en) * | 2008-03-25 | 2009-10-01 | Omer Ziv | System and method for the quality assessment of queries |
CA2724753A1 (en) * | 2008-05-30 | 2009-12-03 | Nokia Corporation | Method, apparatus and computer program product for providing improved speech synthesis |
PL2242045T3 (pl) * | 2009-04-16 | 2013-02-28 | Univ Mons | Sposób kodowania i syntezy mowy |
WO2012063424A1 (ja) * | 2010-11-08 | 2012-05-18 | 日本電気株式会社 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
WO2012134877A2 (en) * | 2011-03-25 | 2012-10-04 | Educational Testing Service | Computer-implemented systems and methods evaluating prosodic features of speech |
CN103531196B (zh) * | 2013-10-15 | 2016-04-13 | 中国科学院自动化研究所 | 一种波形拼接语音合成的选音方法 |
WO2016011189A1 (en) * | 2014-07-15 | 2016-01-21 | The Regents Of The University Of California | Frequency-multiplexed speech-sound stimuli for hierarchical neural characterization of speech processing |
US10002543B2 (en) * | 2014-11-04 | 2018-06-19 | Knotbird LLC | System and methods for transforming language into interactive elements |
JP6672114B2 (ja) * | 2016-09-13 | 2020-03-25 | 本田技研工業株式会社 | 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム |
CN109087630B (zh) * | 2018-08-29 | 2020-09-15 | 深圳追一科技有限公司 | 语音识别的方法及相关装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4882759A (en) * | 1986-04-18 | 1989-11-21 | International Business Machines Corporation | Synthesizing word baseforms used in speech recognition |
US4852180A (en) * | 1987-04-03 | 1989-07-25 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech recognition by acoustic/phonetic system and technique |
JPH01159698A (ja) * | 1987-12-16 | 1989-06-22 | Matsushita Electric Ind Co Ltd | パターン認識用モデル作成装置 |
JP2545914B2 (ja) * | 1988-02-09 | 1996-10-23 | 日本電気株式会社 | 音声認識方法 |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
-
1990
- 1990-10-16 EP EP90119789A patent/EP0481107B1/en not_active Expired - Lifetime
- 1990-10-16 DE DE69022237T patent/DE69022237T2/de not_active Expired - Fee Related
-
1991
- 1991-06-07 US US07/716,022 patent/US5230037A/en not_active Expired - Fee Related
- 1991-07-15 JP JP3200126A patent/JP2826215B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69022237T2 (de) | 1996-05-02 |
EP0481107B1 (en) | 1995-09-06 |
JPH04313034A (ja) | 1992-11-05 |
US5230037A (en) | 1993-07-20 |
DE69022237D1 (de) | 1995-10-12 |
EP0481107A1 (en) | 1992-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2826215B2 (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
US11990118B2 (en) | Text-to-speech (TTS) processing | |
US10186252B1 (en) | Text to speech synthesis using deep neural network with constant unit length spectrogram | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
JP4176169B2 (ja) | 言語合成のためのランタイムアコースティックユニット選択方法及び装置 | |
JP4302788B2 (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
EP1168299B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
US5970453A (en) | Method and system for synthesizing speech | |
US8886538B2 (en) | Systems and methods for text-to-speech synthesis using spoken example | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US20030212555A1 (en) | System and method for compressing concatenative acoustic inventories for speech synthesis | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
JP2002244689A (ja) | 平均声の合成方法及び平均声からの任意話者音声の合成方法 | |
EP0515709A1 (en) | Method and apparatus for segmental unit representation in text-to-speech synthesis | |
JP5574344B2 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
Mullah | A comparative study of different text-to-speech synthesis techniques | |
JP2004279436A (ja) | 音声合成装置及びコンピュータプログラム | |
Hirose et al. | Superpositional modeling of fundamental frequency contours for HMM-based speech synthesis | |
EP1589524A1 (en) | Method and device for speech synthesis | |
JP2862306B2 (ja) | 音声認識装置 | |
Abe et al. | A voice conversion based on phoneme segment mapping | |
Chen et al. | MIMIC: a voice-adaptive phonetic-tree speech synthesiser. | |
JPH0527794A (ja) | 音声認識方式 | |
JPH04318600A (ja) | 音声認識方法 |