JP2011107408A - 音声合成装置、方法及びプログラム - Google Patents

音声合成装置、方法及びプログラム Download PDF

Info

Publication number
JP2011107408A
JP2011107408A JP2009262212A JP2009262212A JP2011107408A JP 2011107408 A JP2011107408 A JP 2011107408A JP 2009262212 A JP2009262212 A JP 2009262212A JP 2009262212 A JP2009262212 A JP 2009262212A JP 2011107408 A JP2011107408 A JP 2011107408A
Authority
JP
Japan
Prior art keywords
synthesis unit
unit
synthesis
candidate
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009262212A
Other languages
English (en)
Other versions
JP5052585B2 (ja
Inventor
Mitsuaki Isogai
光昭 磯貝
Hideyuki Mizuno
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009262212A priority Critical patent/JP5052585B2/ja
Publication of JP2011107408A publication Critical patent/JP2011107408A/ja
Application granted granted Critical
Publication of JP5052585B2 publication Critical patent/JP5052585B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】より適切な最適パスを選択することができる音声合成技術を提供する。
【解決手段】融合合成単位追加部5は、合成単位の探索時に、探索の候補である合成単位同士を融合して、音声データベース部2には格納されていない新たな合成単位である融合合成単位を生成して、探索パスに含める。合成単位を融合することにより、音素環境が一致し、基本周波数F0ギャップも少ない合成単位を生成し、音声合成に利用できる可能性が高くなる。
【選択図】図1

Description

この発明は、テキストに対応する合成音声を生成する技術に関する。
近年の大容量な記憶装置の使用コストの低下に伴って、数十分以上の大容量の音声データを大容量の記憶装置に蓄積し、入力されたテキスト及び韻律情報に応じて合成単位を適切に選択し、接続・変形することで高品質な音声を合成する音声合成方法が提案されている(例えば、特許文献1参照。)。
特許文献1に記載された音声合成方法では、音声データベースに存在している合成単位を探索して最適パスを選択していた。
特許第2761552号公報
特許文献1に記載された音声合成方法では、音声データベースに存在している合成単位のみを探索しており、適切な音声データを使用できない可能性があるという課題がある。
上記の課題を解決するために、この発明では、探索範囲に合成単位から生成した融合合成単位を含める。
合成単位のみならず、融合合成単位をも探索することにより、適切な音声データを使用することができる可能性が高まる。
音声合成装置の例の機能ブロック図。 音声合成方法の例の流れ図。 合成単位の例を説明するための図。 合成単位候補列挙部の処理の例を説明するための図。 融合合成単位追加部の処理の例を説明するための図。 合成単位候補の融合の例を説明するための図。 合成単位候補の融合の例を説明するための図。 合成単位候補の融合の例を説明するための図。 合成単位候補の融合の例を説明するための図。 最適パス探索部の処理の例を説明するための図。 合成音声生成部の処理の例を説明するための図。 合成音声生成部の処理の例を説明するための図。 合成音声生成部の処理の例を説明するための図。
以下、この発明の一実施形態を詳細に説明する。
図1は、この発明による音声合成装置の例の機能ブロック図である。図2は、この発明による音声合成方法の例の流れ図である。
音声合成装置は、テキスト分析部1、音声データベース部2、合成単位候補列挙部3、合成単位単体コスト計算部4、融合合成単位追加部5、融合合成単位単体コスト計算部6、最適パス探索部7、合成音声生成部8を例えば含む。
テキスト分析部1は、入力されたテキストを合成単位に分割し、分割された合成単位の継続時間長及び周波数情報を推定する(ステップS1)。合成単位への分割、継続時間長及び周波数情報の推定は、既存の手法を用いれば良い。例えば、参考文献1から3に記載された手法を用いることができる。
〔参考文献1〕特許第3420964号公報
〔参考文献2〕電子情報通信学会論文誌 A Vol.J67-A No.7 pp.629-636
〔参考文献3〕「音声情報工学」、NTTアドバンステクノロジ刊、昭和62年、第5章4節
例えば入力されたテキストについて形態素解析を行い、事前に用意した辞書を参照してテキストに対応するヨミ及びアクセントを決定する。そして、ヨミを音素に変換して、各音素の継続時間長及び周波数情報を推定する。この推定は、例えば事前に用意した辞書を参照することにより行う。その後、音素から合成単位を生成する。この場合、合成単位を構成する音素の継続時間長の合計がその合成単位の継続時間長となり、合成単位を構成する音素の周波数情報がその合成単位の周波数情報となる。
合成単位は、音声合成の単位である。この例では、合成単位として、いわゆるDiphone、Monophone、Halfphone等の音素の組み合わせ、音素、音素の一部(半音素)を用いる。テキスト分析部1によって分割された合成単位を、ターゲット合成単位と呼ぶ。
周波数情報は、例えば合成単位の継続時間長における各フレームの基本周波数である。一般に継続時間長は複数のフレームから構成されるため、合成単位の周波数情報はフレーム毎の基本周波数の列となる。
例えば入力されたテキストが「青」である場合には、[Ah]、[A:O]、[hO]の3つ合成単位に分割される。[Ah]、[A:O]、[hO]は合成単位のラベルであり、[Ah]は音素/A/の前半部分を表わすHalfphone、[A:O]は音素/A/の後半と音素/O/の前半を表わすDiphone、[hO]は音素/O/の後半部分を表わすHalfphoneである。
音声データベース部2には、各ラベルに対応する合成単位並びにその合成単位のスペクトル情報及び周波数情報が記憶されている。
スペクトル情報は、それを元に音声を合成可能な情報であり、例えばベクトルで表現されたスペクトル特徴量である。図3に例示するように、合成単位は3つの状態から構成されており、各状態にはスペクトル特徴量が対応付けられている。もちろん、合成単位が3つ以上の状態から構成されており、各状態にスペクトル特徴量が対応付けられていてもよい。
音声データベース部2に記憶された合成単位は、その合成単位の前後の音素の情報を持っていてもよい。音声データベース部2に記憶された合成単位には、元となる発話コーパス中における時間順序に沿った通し番号が付与されていてもよい。この場合、この通し番号を参照することにより、合成単位が元の発話コーパス中で連接していたか否かを知ることができる。
合成単位候補列挙部3は、分割された合成単位(ターゲット合成単位)と同じラベルを有する複数の合成単位を、音声データベース部2から読み込み、その分割された合成単位の合成単位候補とする(ステップS2)。
分割された合成単位が[Ah]、[A:O]、[hO]である場合には、図4に例示するように、ラベルが[Ah]である合成単位u1(1)−u1(4)を音声データベース部2から読み込み合成単位[Ah]の合成単位候補とし、ラベルが[A:O]である合成単位u2(1)−u2(3)を音声データベース部2から読み込み合成単位[A:O]の合成単位候補とし、ラベルが[hO]である合成単位u3(1)−u3(4)を音声データベース部2から読み込み合成単位[hO]の合成単位候補とする。
合成単位単体コスト計算部4は、分割された合成単位(ターゲット合成単位)と各合成単位候補との距離を、分割された合成単位の周波数情報及びその各合成単位候補の周波数情報を用いて計算して、その各合成単位候補のコストとする(ステップS3)。
距離は求める性能や仕様に応じて適宜設定することができるが、この例では次のように定める。
IC1×wc1+IC2×wc2
IC1は、分割された合成単位の基本周波数の平均値と、合成単位候補の基本周波数の平均値との差である。IC2は、分割された合成単位の基本周波数の傾きと、合成単位候補の基本周波数の傾きとの差である。傾きとしては、フレームごとの基本周波数の列に対して最小二乗法等により引いた直線の傾きを例えば用いる。wc1,wc2は適宜決定される重み係数である。
融合合成単位追加部5は、複数の合成単位候補から合成単位候補のペアである融合合成単位を選択して、合成単位候補とする(ステップS4)。融合合成単位の合成単位候補集合Uiへの追加は、図5に例示するように、合成単位候補集合Uiごとに行う。
合成探索の探索においては、元の発話コーパスにおいて連接しており、ターゲット合成単位との基本周波数が近い合成単位を選択するのが望ましい。また、元の発話コーパスにおいて連接していない合成単位同士を接続する場合には、接続部において可能な限りスペクトル特徴量の連続性が保たれていることが望ましい。融合合成単位を合成単位候補に含めることにより、これらの条件を満たす合成単位を選択することができる可能性が高まり、より適切な最適パスを選択することができる。
合成単位候補ui(m)及び合成単位候補ui(n)で構成される融合合成単位をfi(m,n)と表記する。
fi(m,n)=Fusion(ui(m),ui(n))
ここで、1≦m≦N、1≦n≦N、m≠nであり、Nは合成単位候補集合Uiに含まれる合成単位候補の数である。例えば、N個の合成単位候補から、例えばN(N−1)個の融合合成単位を生成することができる。Fusion(a,b)は、合成単位候補a及び合成単位候補bから融合合成単位を生成する関数を表わす。
以下、融合合成単位fi(m,n)の生成の具体例について述べる。合成単位候補ui(m)を遷移元とし、合成単位候補ui(n)を遷移先として、これらの合成単位候補ui(m),ui(n)を融合する場合を例に挙げて説明する。融合合成単位fi(m,n)は、合成単位候補ui(m)の性質と、合成単位候補ui(n)の性質とを併せ持つ。
図6は、状態2で合成単位候補ui(m)から合成単位候補ui(n)に遷移するように融合した例である。この場合、融合合成単位fi(m,n)は、状態1において合成単位候補ui(m)の状態1のスペクトル特徴量を持ち、状態2において合成単位候補ui(m)の状態2のスペクトル特徴量と合成単位候補ui(n)の状態2のスペクトル特徴量とを併せ持ち、状態3において合成単位候補ui(n)の状態3のスペクトル特徴量を持つ。
図7は、状態1と状態2の間で合成単位候補ui(m)から合成単位候補ui(n)に遷移するように融合した例である。この場合、融合合成単位fi(m,n)は、状態1において合成単位候補ui(m)の状態1のスペクトル特徴量を持ち、状態2において合成単位候補ui(n)の状態2のスペクトル特徴量を持ち、状態3において合成単位候補ui(n)の状態3のスペクトル特徴量を持つ。
図8は、状態2と状態3の間で合成単位候補ui(m)から合成単位候補ui(n)に遷移するように融合した例である。この場合、融合合成単位fi(m,n)は、状態1において合成単位候補ui(m)の状態1のスペクトル特徴量を持ち、状態2において合成単位候補ui(m)の状態2のスペクトル特徴量を持ち、状態3において合成単位候補ui(n)の状態3のスペクトル特徴量を持つ。
図9は、状態1から状態3にかけて合成単位候補ui(m)から合成単位候補ui(n)に遷移するように融合した例である。この場合、融合合成単位fi(m,n)は、各状態において合成単位候補ui(m)のその各状態のスペクトル特徴量と、合成単位候補ui(n)のその各状態のスペクトル特徴量とを併せ持つ。
このように、合成単位候補ui(m)及び合成単位候補ui(n)を融合する際の遷移の位置は自由である。遷移の位置は、状態間のスペクトル特徴量の距離や、ターゲット合成単位の基本周波数と融合合成単位fi(m,n)の基本周波数との差を最小にするように決定してもよい。
融合合成単位単体コスト計算部6は、分割された合成単位(ターゲット合成単位)と融合合成単位との距離を、分割された合成単位の周波数情報及び融合合成単位を構成する合成単位候補の周波数情報を用いて計算して、融合合成単位のコストとする(ステップS5)。
距離は求める性能や仕様に応じて適宜設定することができるが、この例では次のように定める。
IC1×wc3+IC2×wc4+FC1×wf1
IC1は、分割された合成単位の基本周波数の平均値と、融合合成単位の基本周波数の平均値との差である。IC2は、分割された合成単位の基本周波数の傾きと、融合合成単位の基本周波数の傾きとの差である。傾きとしては、フレームごとの基本周波数の列に対して最小二乗法等により引いた直線の傾きを例えば用いる。融合合成単位の基本周波数は近似的に、例えば前半部分については遷移元の合成単位候補ui(m)の基本周波数を、後半部分については遷移先の合成単位候補ui(n)の基本周波数を用いる。FC1は、遷移元の合成単位候補ui(m)の遷移の位置に対応するフレームのスペクトル特徴量と、遷移先の合成単位候補ui(n)の遷移の位置に対応するフレームのスペクトル特徴量との距離(例えば、ユークリッド距離)である。wc3,wc4,wf1は適宜決定される重み係数である。
最適パス探索部7は、合成単位単体コスト、融合合成単位コスト及び合成単位接続コストを重み付け加算した値である総コストを最小にする合成単位候補を、分割された合成単位の合成単位候補から選択して、最適パスを構成する合成単位とする(ステップS6)。
合成単位接続コストは、パスを構成する合成単位の中の連続する2つの合成単位候補の距離であり、例えば以下のように定義される。連続する2つの合成単位候補の中の、先行する合成単位候補を先行合成単位と呼び、後続する合成単位候補を後続合成単位と呼ぶ。
CC1×wc5+CC2×wc6+CC3×wc7+CC4×wc8+CC5×wc9+CC6×wc10
CC1は、先行合成単位と後続合成単位とが元の発話コーパスにおいて連接していれば0であり、連接していなければ1となる。元の発話コーパスにおいて連接しているかどうかは、先行合成単位に付与された番号及び後続合成単位に付与された番号を参照することにより判断することができる。
CC2は、先行合成単位の元の発話コーパス中の後続音素カテゴリと、後続合成単位の音素カテゴリとが一致していれば0であり、一致していなければ1となる。
CC3は、先行合成単位の音素カテゴリと、後続合成単位の元の発話コーパス中の先行音素カテゴリとが一致していれば0であり、一致していなければ1となる。
CC4は、先行合成単位の最後の状態のスペクトル特徴量と、後続合成単位の最初の状態のスペクトル特徴量との距離(例えば、ユークリッド距離)である。
CC5は、先行合成単位の最後のフレームの基本周波数と、後続合成単位の最初のフレームの基本周波数との差である。
CC6は、先行合成単位の後半フレームの基本周波数の傾きと、後続合成単位の前半フレームの基本周波数の傾きとの差である。
wc5,…,wc10は適宜決定される重み係数である。
最適パス探索部7は、各合成単位候補集合から1つずつ選ばれた合成単位候補の組で構成されるパスのそれぞれについての総コストを計算する。
図10のように、合成単位候補集合U1に含まれる合成単位候補の数が16であり、合成単位候補集合U2に含まれる合成単位候補の数が9であり、合成単位候補集合U3に含まれる合成単位候補の数が16である場合には、最適パス探索部7は、16×9×16=2304個のパスのそれぞれの総コストを計算して、総コストを最小にするパスを選択する。もちろん、必要に応じて枝刈りを行い、総コストが高いと思われるパスについての総コストの計算を省いてもよい。図10は、u1(3)→u2(2)→f3(1,2)を通るパスが、最適パスとして選択された例を示している。
最適パス探索部7は、例えば次のように仮説を生成して、各仮説の総コストを計算する。Mを分割された合成単位の数、すなわち合成単位候補集合の数とする。仮説とは、各合成単位候補集合Uiから1つずつ選ばれた合成単位を時間方向に並べたものである。
≪ステップ1≫まず、初期仮説を生成する。最初の合成単位候補集合U1に含まれる各合成単位候補が、初期仮説となる。
≪ステップ2≫t=1,…,M−1まで、ステップ2の処理を行う。ステップ2においては、既に存在する合成単位候補集合Utまで到達した仮説から、次の合成単位候補集合Ut+1に接続するような新たな仮説を生成して、各仮説の総コストを計算する。
≪ステップ3≫ステップ2の処理の後に、総コストを最小となる仮説を選択して、最適パスとして採用する。
合成音声生成部8は、最適パスを構成する合成単位のスペクトル情報を用いて、推定された継続時間長が長いほど合成単位に対応する合成音声の再生時間を長くすることにより、最適パスを構成する合成単位に対応する合成音声を生成する(ステップS7)。具体的には、以下のように各フレームのスペクトル特徴量を定めて、その後にフレームごとのスペクトル特徴量に基づいて合成音声を生成する。
図11に例示するように、最適パスを構成する合成単位の各状態のスペクトル特徴量を、テキスト分析部1で推定した継続時間長に応じて時間軸方向に繰り返すことにより伸張して連結し、フレーム単位で構成したスペクトル特徴量系列を生成する。例えば、合成単位の状態の数がK、ある合成単位の推定された継続時間長から算出されるフレームの数がLの場合、k番目の状態にあたるスペクトル特徴量を、└((k−1)×(L/K))┘+1番目のフレームから└(k×(L/K))┘番目のフレームまで繰り返す。なお、└x┘は、いわゆる床関数であり、xの小数点以下の切り捨てを意味する。
最適パスを構成する合成単位が融合合成単位である場合には、そのスペクトル情報として、その融合合成単位を構成する合成単位候補のペアのそれぞれのスペクトル情報を重み付き加算したスペクトル情報を用いる。融合合成単位fi(m,n)を構成する合成単位候補をui(m),ui(n)として、合成単位候補ui(m)のフレームkのスペクトル特徴量をSm(k)、合成単位候補ui(n)のフレームkのスペクトル特徴量をSn(k)、w(k)を0≦w(k)≦1の重み係数とすると、融合合成単位のフレームkのスペクトル特徴量S(k)は、例えば次のように求められる。w(k)は例えばkについての広義単調減少関数である。
S(k)=Sm(k)×w(k)+Sn(k)×(1−w(k))
図6のように状態2で合成単位候補ui(m)から合成単位候補ui(n)に遷移するように融合した融合合成単位のスペクトル特徴量を図12に例示する。この例では、状態2に対応するフレームについて、上記式により、合成単位候補ui(m)の状態2のスペクトル特徴量と、合成単位候補ui(n)の状態2のスペクトル特徴量と広義単調減少関数である重みw(k)により重み付き加算して、融合合成単位fi(m,n)のスペクトル特徴量を計算している。
図12の例では、融合合成単位fi(m,n)のスペクトル特徴量が滑らかに変化するように重みw(k)を設定しているが、これは必須ではない。例えば図7のように状態1と状態2の間で合成単位候補ui(m)から合成単位候補ui(n)に遷移するように融合した融合合成単位fi(m,n)においては、状態1に対応するフレームkについての重みw(k)=1として、状態2及び3に対応するフレームkについての重みw(k)=0として、スペクトル特徴量をある位置で切り替えるようにしてもよい。
合成音声生成部8は、最適パスを構成する合成単位の中の連続する2つの合成単位のそれぞれのスペクトル情報を重み付き加算したスペクトル情報を用いて、その連続する2つの合成単位の境界に対応する合成音声を生成してもよい。連続する2つの合成単位の中で、先行する合成単位を先行合成単位と呼び、後続する合成単位を後続合成単位と呼ぶことにする。この処理を行うことにより、先行合成単位と後続合成単位とが元の発話コーパスにおいて連接していない場合においても、スペクトル特徴量の変化を滑らかにすることができる。
先行合成単位のフレームpのスペクトル特徴量をSa(p)、後続合成単位のフレームpのスペクトル特徴量をSb(p)、w(p)を0≦w(p)≦1の重み係数とすると、先行合成単位と後続合成単位の境界を含む区間のフレームpのスペクトル特徴量S(p)は、例えば次のように求められる。w(p)は例えばpについての広義単調減少関数である。
S(p)=Sa(p)×w(p)+Sb(p)×(1−w(p))
上記式によるSa(p)とSb(p)の重み付け加算の例を図13に示す。図13の例では、合成単位のスペクトル情報には、元の発話コーパスにおいて連接していた合成単位のスペクトル情報を含むとする。具体的には、先行合成単位のスペクトル情報には元の発話コーパスにおいてその先行合成単位に後続していた合成単位の最初の状態のスペクトル特徴量が含まれ、後続合成単位のスペクトル情報には元の発話コーパスにおいてその後続合成単位に先行していた合成単位の最後の状態のスペクトル特徴量が含まれるとする。
音声合成装置は、コンピュータによって実現することができる。この場合、この装置が有すべき各機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、これ装置における各処理機能が、コンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
1 テキスト分析部
2 音声データベース部
3 合成単位候補列挙部
4 合成単位単体コスト計算部
5 融合合成単位追加部
6 融合合成単位単体コスト計算部
7 最適パス探索部
8 合成音声生成部

Claims (7)

  1. 各ラベルに対応する合成単位並びにその合成単位のスペクトル情報及び周波数情報を記憶する音声データベース部と、
    各ターゲット合成単位と同じラベルを有する複数の合成単位を、上記音声データベース部から読み込み、上記各ターゲット合成単位の合成単位候補とする合成単位候補列挙部と、
    上記各ターゲット合成単位と各上記合成単位候補との距離を、上記各ターゲット合成単位の周波数情報及び上記各合成単位候補の周波数情報を用いて計算して、上記各合成単位候補のコストとする合成単位単体コスト計算部と、
    上記複数の合成単位候補から合成単位候補のペアである融合合成単位を選択して、上記各ターゲット合成単位の合成単位候補とする融合合成単位追加部と、
    上記各ターゲット合成単位と上記融合合成単位との距離を、上記各ターゲット合成単位の周波数情報並びに上記ペアを構成する合成単位候補の周波数情報及びスペクトル情報を用いて計算して、上記融合合成単位のコストとする融合合成単位単体コスト計算部と、
    合成単位単体コスト、融合合成単位コスト及び連続する2つの合成単位候補の距離である合成単位接続コストを重み付け加算した値を最小にする合成単位候補を、各上記ターゲット合成単位の合成単位候補から選択して、最適パスを構成する合成単位とする最適パス探索部と、
    を含む音声合成装置。
  2. 請求項1の音声合成装置において、
    上記最適パスを構成する合成単位のスペクトル情報及び上記推定された継続時間長を用いて、上記最適パスを構成する合成単位に対応する合成音声を生成する合成音声生成部を更に含む、
    ことを特徴とする音声合成装置。
  3. 請求項2の音声合成装置において、
    上記合成音声生成部は、上記最適パスを構成する合成単位が融合合成単位である場合には、そのスペクトル情報として、その融合合成単位を構成する合成単位候補のペアのそれぞれのスペクトル情報を重み付き加算したスペクトル情報を用いる、
    ことを特徴とする音声合成装置。
  4. 請求項2又は3の音声合成装置において、
    上記合成音声生成部は、上記最適パスを構成する連続する2つの合成単位のそれぞれのスペクトル情報を重み付き加算したスペクトル情報を用いて、その連続する2つの合成単位の境界に対応する合成音声を生成する、
    ことを特徴とする音声合成装置。
  5. 請求項1から4の何れかの音声合成装置において、
    入力されたテキストを合成単位に分割し、分割された合成単位であるターゲット合成単位の継続時間長及び周波数情報を推定するテキスト分析部を更に含む、
    ことを特徴とする音声合成装置。
  6. 合成単位候補列挙部が、各ターゲット合成単位と同じラベルを有する複数の合成単位を、各ラベルに対応する合成単位並びにその合成単位のスペクトル情報及び周波数情報が記憶された音声データベース部から読み込み、上記各ターゲット合成単位の合成単位候補とする合成単位候補列挙ステップと、
    合成単位単体コスト計算部が、上記各ターゲット合成単位と各上記合成単位候補との距離を、上記各ターゲット合成単位の周波数情報及び上記各合成単位候補の周波数情報を用いて計算して、上記各合成単位候補のコストとする合成単位単体コスト計算ステップと、
    融合合成単位追加部が、上記複数の合成単位候補から合成単位候補のペアである融合合成単位を選択して、上記各ターゲット合成単位の合成単位候補とする融合合成単位追加ステップと、
    融合合成単位単体コスト計算部が、上記各ターゲット合成単位と上記融合合成単位との距離を、上記各ターゲット合成単位の周波数情報並びに上記ペアを構成する合成単位候補の周波数情報及びスペクトル情報を用いて計算して、上記融合合成単位のコストとする融合合成単位単体コスト計算ステップと、
    最適パス探索部が、合成単位単体コスト、融合合成単位コスト及び連続する2つの合成単位候補の距離である合成単位接続コストを重み付け加算した値を最小にする合成単位候補を、各上記ターゲット合成単位の合成単位候補から選択して、最適パスを構成する合成単位とする最適パス探索ステップと、
    を含む音声合成方法。
  7. 請求項1から5の何れかの音声合成装置の各部としてコンピュータを機能させるための音声合成プログラム。
JP2009262212A 2009-11-17 2009-11-17 音声合成装置、方法及びプログラム Active JP5052585B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009262212A JP5052585B2 (ja) 2009-11-17 2009-11-17 音声合成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009262212A JP5052585B2 (ja) 2009-11-17 2009-11-17 音声合成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011107408A true JP2011107408A (ja) 2011-06-02
JP5052585B2 JP5052585B2 (ja) 2012-10-17

Family

ID=44230942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009262212A Active JP5052585B2 (ja) 2009-11-17 2009-11-17 音声合成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5052585B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06250691A (ja) * 1993-02-25 1994-09-09 N T T Data Tsushin Kk 音声合成装置
JP2005164749A (ja) * 2003-11-28 2005-06-23 Toshiba Corp 音声合成方法、音声合成装置および音声合成プログラム
JP2008033133A (ja) * 2006-07-31 2008-02-14 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2009133890A (ja) * 2007-11-28 2009-06-18 Toshiba Corp 音声合成装置及びその方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06250691A (ja) * 1993-02-25 1994-09-09 N T T Data Tsushin Kk 音声合成装置
JP2005164749A (ja) * 2003-11-28 2005-06-23 Toshiba Corp 音声合成方法、音声合成装置および音声合成プログラム
JP2008033133A (ja) * 2006-07-31 2008-02-14 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2009133890A (ja) * 2007-11-28 2009-06-18 Toshiba Corp 音声合成装置及びその方法

Also Published As

Publication number Publication date
JP5052585B2 (ja) 2012-10-17

Similar Documents

Publication Publication Date Title
JP4130190B2 (ja) 音声合成システム
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
US9767790B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
US8175881B2 (en) Method and apparatus using fused formant parameters to generate synthesized speech
US20080027727A1 (en) Speech synthesis apparatus and method
CN101710488B (zh) 语音合成方法及装置
US9754024B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
JP2011013454A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
CN105609097A (zh) 语音合成装置及其控制方法
JP5434587B2 (ja) 音声合成装置及び方法とプログラム
US20110054903A1 (en) Rich context modeling for text-to-speech engines
JPWO2016042659A1 (ja) 音声合成装置、音声合成方法およびプログラム
JP5320363B2 (ja) 音声編集方法、装置及び音声合成方法
KR20130059476A (ko) 음성 인식용 탐색 공간 생성 방법 및 장치
JP5512597B2 (ja) 音声合成装置とその方法とプログラム
JP4639932B2 (ja) 音声合成装置
JP5052585B2 (ja) 音声合成装置、方法及びプログラム
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP2009133890A (ja) 音声合成装置及びその方法
Barbot et al. Large linguistic corpus reduction with SCP algorithms
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4476855B2 (ja) 音声合成装置及びその方法
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
KR101650739B1 (ko) 음성 합성 방법, 서버 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110722

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120724

R150 Certificate of patent or registration of utility model

Ref document number: 5052585

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350