JP5512597B2

JP5512597B2 - 音声合成装置とその方法とプログラム

Info

Publication number: JP5512597B2
Application number: JP2011108025A
Authority: JP
Inventors: 光昭磯貝; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-05-13
Filing date: 2011-05-13
Publication date: 2014-06-04
Anticipated expiration: 2031-05-13
Also published as: JP2012237925A

Description

この発明は、自然なイントネーションの合成音声を生成することの出来る音声合成装置とその方法と、プログラムに関する。

従来の音声合成方法は、限定された小量の音声素片を変形させ、その変形させた音声素片を組み合わせて合成音声を生成する方法が一般的であった。しかし、音声素片の変形量によっては音声の品質が低下してしまう場合がある。そこで最近では、記憶装置の大容量化に伴い大量の音声素片を用意しておき、その音声素片を変形しないで合成音声を生成する方式の音声合成方法が主流になって来ている。

図５に、大量の音声素片の中から音声素片を選択して合成音声を生成する従来の音声合成装置９００の機能構成例を示す。音声合成装置９００は、テキスト解析部９０と、韻律生成部９１と、候補素片選択部９２と、音声合成部９３と、音声データベース９４とを備える。音声データベース９４は、例えば音声波形素片を記憶する音声波形データ９４０と、音声情報を登録したテーブルである音声情報インデックス９４１とを備える。

図６に、音声情報インデックス９４１のテーブル構造を示す。各音素は、音声波形データ９４０に対応して、候補素片の通し番号である素片番号、候補素片の音素を分類する音素ラベル、候補素片の継続時間長を示す音継続時間（ｍｓ）、候補素片の声高の時間推移を表したＦ０パターン情報（Ｈｚ）、音声波形データ９４０中での各候補素片の格納場所情報である素片データ位置を、組みとして登録される。素片データ位置は、具体的には音声波形データ９４０を記憶するハードディスク等のメモリアドレスである。例えば、素片番号１番の候補素片は音素ラベル「ａ」に分類されるデータである。言い換えれば、素片番号１番の候補素片は音素ラベル「ａ」に分類される候補素片の一つである。

素片データ位置０に格納されている素片番号１の候補素片の音素継続時間長は８５（ｍｓ）で、そのＦ０（基本周波数）は３００→３０２→３０３→…→３０１（Ｈｚ）と時間推移する。また、素片番号２番の候補素片は音素ラベル「ｓ」に分類される候補素片の一つであり、声帯の振動を伴わない無声音である。無声音の発声時には、声帯の振動が停止するため基本周波数（以下単にＦ０と称する場合もある。）が存在しない。このため無声音である音素のＦ０パターン情報には、Ｆ０情報が存在しないことを意味する数値として例えば−１が格納されているものとする。

図７に、音声合成装置９００の動作フローを示す。テキスト解析部９０は、音声合成装置９００に入力されたテキストを取得して形態素解析し、形態素解析結果から音素列とアクセント型とを生成する（ステップＳ９０）。韻律生成部９１は、テキスト解析部９０が生成した音素列とアクセント型とを入力として、音素毎にＦ０パターンと音素継続時間長とを推定してターゲットとして出力する（ステップＳ９１）。

候補素片選択部９２は、韻律生成部９１が推定したターゲットを入力として、そのターゲットとの歪みが小さく、且つ候補素片同士を接続した際の接続歪みが小さくなるような候補素片の組み合わせを、音声情報インデックス９４１から選択し、選択した候補素片の素片番号を音声合成部９３に出力する（ステップＳ９２）。ターゲットとの歪みは、候補素片とターゲットとの距離尺度で表されコストと称する。

ここでコストについて具体的に説明する。テキスト解析部９０が出力した音素列のうちｊ番目（ｊは１以上の整数）の音素のターゲットをt(j)とする。前述したようにターゲットは、音素毎のＦ０パターン情報と音素継続時間長の情報とから成る。音素波形データ９４０に格納されている音声波形素片のうちターゲットt(j)に対応する候補素片群をU(j)と表す。候補素片群U(j)は、音声情報インデックス９４１に格納された候補素片のうち、ターゲットt(j)と音素ラベルが合致する全ての候補素片を表すものとする。

候補素片群U(j)のうちの任意の１の候補素片をu(j)と表し、以下の説明に用いる。ターゲットt(j)と候補素片u(j)の歪みを表す距離尺度をターゲットコストCt(t(j),u(j))とする。ターゲットコストCt(t(j),u(j))は、後述する２つのサブコストの重み付き和として式（１）で定義する。

ここで、Stf(t(j),u(j))はターゲットt(j)と候補素片u(j)の間でのＦ０パターンの歪みを表し、式（２）で定義する。以下、Stf(t(j),u(j))をターゲットＦ０サブコストと称する。Wtfは、ターゲットＦ０サブコストStf(t(j),u(j))の重みである。

ここで、Ft(t(j))はターゲットt(j)のＦ０パターン、Fu(u(j))は候補素片u(j)のＦ０パターンである。

また、式（１）のStdur(t(j),u(j))はターゲットt(j) と候補素片u(j)の間での継続時間長の時間方向で見た歪みを表し、式（３）で定義する。以下、Stdur(t(j),u(j))をターゲット継続時間長サブコストと称する。Wtdurは、ターゲット継続時間長サブコストの重みである。

ここで、DURt(t(j))はターゲットt(j)の継続時間長、DURu(u(j))は候補素片u(j)の継続時間長である。

そして、候補素片間u(j-1)とu(j)の間の接続歪みを接続コストCc(u(j-1),u(j))として式（４）で定義する。

ここで、Scf(u(j-1),u(j))は候補素片u(j)と先行する候補素片u(j-1)の接続点でのＦ０の歪みを表し、式（５）で定義する。以下、Scf(u(j-1),u(j))を接続Ｆ０サブコストと称する。Wcfは、接続Ｆ０サブコストScf(u(j-1),u(j))の重みである。

ここで、FSu(u(j))は候補素片u(j)の始点のＦ０、FEu(u(j-1))は先行する候補素片u(j-1)の終点のＦ０である。なお、候補素片u(j)と候補素片u(j-1)の何れか一方、或いはその双方が無声音である場合は、候補素片がＦ０値を持たないことにより接続Ｆ０サブコストScf(u(j-1),u(j))を求めることが出来ないため、その値は一定値の例えば０とする。

また、式（４）のScenv(u(j−１),u(j))は候補素片u(j)と先行する候補素片u(j-1)との間の音素環境の違いを表し、ターゲットt(j)と音声情報インデックス９４１の中で候補素片u(j-1)に接続する候補素片u(j)の音響的類似度、及びターゲットt(j-1)と音声情報インデックス９４１の中で候補素片u(j)に先行する候補素片の音響的類似度から定義される。以下、Scenv(u(j−１),u(j))を接続音素環境サブコストと称する。ターゲットt(j)と候補素片u(j-1)の後続音素、及びターゲットt(j-1)と候補素片u(j)の先行音素の音響的類似度が高いほど、この接続音素環境サブコストScenv(u(j−１),u(j))の値は小さくなる。例えばターゲットt(j)と音声情報インデックス９４１の中の候補素片u(j-1)に後続する音素ラベルが一致し、且つ、ターゲットt(j-1)と音声情報インデックス９４１の中で候補素片u(j)に先行する音素ラベルが一致すれば、接続音素環境サブコストScenv(u(j−１),u(j))＝０である。

上記した各サブコストの計算に必要な候補素片u(j)のＦ０パターンと継続時間長等は、音声データベース９４から得ることが出来る。候補素片群U(j)に候補素片u(j)が２個以上存在する場合（同じ音素の候補が２個以上存在する場合）、各サブコストの計算は候補素片の数だけ繰り返される。

以上説明したターゲットＦ０コストStf(t(j),u(j))とターゲット継続時間長サブコストStdur(t(j),u(j))との重み付け和であるターゲットコストCt(t(j),u(j))と、接続Ｆ０サブコストScf(u(j-1),u(j))と接続音素環境サブコストScenv(u(j−１),u(j))との重み付け和である接続コストCc(u(j-1),u(j))とを用いて、合成対象の文全体に対する総コストＣを式（６）で定義する。

ここでＮは、合成対象の文の音素数である。

候補素片選択部９２は、総コストＣを最小にする候補素片の組み合わせを、例えば動的計画法等の方法で求めることによりターゲットt(j)に対応する最適な候補素片番号を決定する。最適な候補素片番号は、ターゲットt(j)に対応する候補素片U(j)の一つの系列である探索仮説の総コストＣが最小となる候補素片列の番号列（図６の素片番号の列）を形成する。

音声合成部９３は、候補素片選択部９２が選択した候補素片番号列を入力として、素片番号と対応する候補素片列を音声波形データ９４０から読み出し、これらの候補素片列を接続して合成音声を生成する（ステップＳ９３）。

候補素片選択部９２の動作をより詳細に説明する。図８に、候補素片選択部９２のより具体的な機能構成例を示す。候補素片選択部９２は、サブコスト計算手段９２０と、探索仮説展開手段９２１と、選択手段９２２と、を備える。その動作フローを図９に示す。

サブコスト計算手段９２０は、ｊ番目のターゲットt(j)のＦ０パターンと、j番目の候補素片群U(j)のＦ０パターンとを用いて、ターゲットＦ０サブコストStf(t(j),u(j))とターゲット継続時間長サブコストStdur(t(j),u(j))を計算する。と共に、ターゲットt(j)に対応する一つの候補素片系列をh(j)、その候補素片系列の集合である探索仮説群をH(j)と表した時の探索仮説群H(j-1)の候補素片u(j-1)の終点のＦ０と、j番目の候補素片群U(j)の始点のＦ０とを用いて接続Ｆ０サブコストScf(u(j-1),u(j))を計算する。と共に、探索仮説群H(j-1)の候補素片u(j-1)とj番目の候補素片群U(j)との音響的類似度を接続音素環境サブコストScenv(u(j−１),u(j))として計算する（ステップＳ９２０）。

探索仮説展開手段９２１は、探索仮説群H(j-1)の各仮説h(j-1)に上記した各サブコストを加算した場合に、最も低いコストとなる一つの探索仮説h(j-1)に候補素片u(j)を追加し、新たな探索仮説h(j)とする（ステップＳ９２１）。このようにして候補素片群U(j)の各候補素片u(j)に対し、ステップＳ９２ｂ〜Ｓ９２ｃの処理が繰り返し実行され、サブコストの計算と探索仮説の展開が行われる。このステップＳ９２ｂ〜Ｓ９２ｃの処理は、ターゲットの数分繰り返し実行（ステップＳ９２ａ〜Ｓ９２ｄ）され、最終的に最もコストの低い探索仮説の系列に含まれる候補素片の候補素片番号列が音声合成部９３に出力される（ステップＳ９２２）。

広川智久著「波形辞書を用いた規則合成法」、電子情報通信学会技術研究報告、1988,SP88-9

図１０に、合成音「エサキ」を合成する場合の候補素片を例示する。ここで「エサキ」は、有声音の間に無声音が含まれる例として説明するためのものであり、特に意味を持たない。図１０の横軸は時間（ｍｓ）、縦軸は周波数（Ｈｚ）である。図１０中に破線で示す曲線は、韻律生成部９１が生成したターゲットのＦ０パターン（以降、ターゲットＦ０パターン）である。縦の破線は音素の区切りである区間を表す。音素毎に区切られた範囲について時間の早い順からターゲット３１（/Ｅ/）、ターゲット３２（/Ｓ/）、ターゲット３３（/Ａ/）、ターゲット３４(/Ｋ/)、ターゲット３５（/Ｉ/）と呼ぶこととする。ターゲット３３の区間には、２つの候補素片２３と２４が存在する例である。また、候補素片２３と２４の継続時間長は等しいものとする。

このように無声音（ターゲット３２）を挟むターゲット３１とターゲット３３との間では、その間に基本周波数を持たない無声音(/Ｓ/)が存在するため、従来の音声合成装置９００では、その間の接続性を評価せずにターゲットのＦ０と候補素片とのコストのみを評価する。この例では、ターゲット３１の区間では、ターゲット３１と候補素片２１との間でターゲットＦ０サブコストStf(t(j),u(j))が計算される。その計算は例えばフレーム単位で行われる。

ターゲット３３の区間では、候補素片が２つ存在するため、それぞれの候補素片２３，２４とターゲット３３との間の２つのターゲットＦ０サブコストStf(t(j),u(j))が計算される。その結果、候補素片２４の方がターゲットのＦ０に近いのでその総コストＣが小さな値となる。この例では、素片候補２１→素片候補２３→素片候補２５の組合せの方が自然なイントネーションが期待できる。しかし、候補素片２４のターゲットＦ０サブコストが小さいために、候補素片選択部９２は素片候補２１→素片候補２４→素片候補２５の組合せを選択してしまいイントネーションが不自然になってしまう課題がある。

この発明は、このような課題に鑑みてなされたものであり、図１０に例示したように有声音同士が無声音を介して接続されるようなターゲットに対しても、合成音声のイントネーションの連続性を保ち、合成音声が高品質となるような候補素片を選択することが出来る音声合成装置とその方法とプログラムを提供することを目的とする。

この発明の音声合成装置は、音声データベースから探索された候補素片を結合して合成音声を生成する音声合成装置であって、候補素片を上記音声データベースから探索する候補素片選択部は、ターゲットＦ０変形量算出手段と、ターゲットＦ０変形手段と、Ｆ０変形サブコスト計算手段と、サブコスト計算手段と、探索仮説展開手段と、選択手段と、を具備する。

ターゲットＦ０変形量算出手段は、ターゲットＦ０パターンを入力として、当該ターゲットＦ０パターンを変形する変形量aを、所定の範囲内において１個以上算出する。ターゲットＦ０変形手段は、ターゲットＦ０パターンを変形量aの周波数分シフトして１個以上のターゲット変形Ｆ０パターンを生成する。Ｆ０変形サブコスト計算手段は、変形量aに対応するＦ０変形サブコストを計算する。サブコスト計算手段は、ターゲット変形Ｆ０パターンと音声データベースに格納された候補素片を入力として、ターゲット変形Ｆ０パターンと候補素片との間の歪みを表す複数のサブコストを計算する。探索仮説展開手段は、複数のサブコストと、Ｆ０変形サブコストを入力として、合成対象の文全体に対する総コストを、探索仮説ごとに計算して上記総コストが最も小さくなる候補素片番号列を出力する。上記候補素片選択部の各手段は上記ターゲット変形Ｆ０パターンの数＋１回の回数繰り返して処理を行い、更に候補素片選択部は、候補素片番号列に対応する候補素片列を上記音声データベースから読み出して出力する選択手段を具備する。

この発明の音声合成装置の候補素片選択部は、ターゲットＦ０パターンを基準として所定の範囲内で変形した１個以上のターゲット変形Ｆ０パターンを生成し、変形量に応じたＦ０変形サブコストを計算する。そして、そのターゲット変形Ｆ０パターンと候補素片との間の歪みを表す複数のサブコストと、Ｆ０変形サブコストとから成る総コストが最小となる候補素片を出力する。その結果、少なくともターゲットＦ０パターンと１個以上のターゲット変形Ｆ０パターンに対応する複数の総コストの中から、総コストが最小となる候補素片を選択することが出来る。したがって、有声音同士が無声音を介して接続されるようなターゲットに対しても、合成音声のイントネーションの連続性を保った候補素片列を出力することが可能となる。

この発明の音声合成装置１００の機能構成例を示す図。この発明の候補素片選択部１０の構成例を示す図。候補素片選択部１０の動作フローを示す図。候補素片選択部１０が選択する候補素片を例示する図。従来の音声合成装置９００の機能構成例を示す図。音声情報インデックス９４１の一部を例示する図。音声合成装置９００の動作フローを示す図。従来の候補素片選択部９２の機能構成例を示す図。候補素片選択部９２の動作フローを示す図。候補素片選択部９２が選択する候補素片を例示する図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音声合成装置１００の機能構成例を示す。音声合成装置１００は、従来の音声合成装置９００に対して候補素片選択部１０のみの構成が異なるものである。音声合成装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

テキスト解析部９０、韻律生成部９１、音声合成部９３、音声データベース９４は、音声合成装置９００（図５）と同じであるのでその説明は省略する。図２に、より具体的な候補素片選択部１０の機能構成例を示してその動作を説明する。その動作フローを図３に示す。

候補素片選択部１０は、ターゲットＦ０変形量算出手段１１と、ターゲットＦ０変形手段１２と、Ｆ０変形サブコスト計算手段１３と、サブコスト計算手段９２０と、探索仮説展開手段１４と、選択手段９２２と、を具備する。ターゲットＦ０変形量算出手段１１は、韻律生成部９１が出力するターゲットＦ０パターンを入力として、当該ターゲットＦ０パターンを変形する変形量aを、所定の範囲内において１個以上算出する（ステップＳ１１）。ターゲットＦ０変形量算出手段１１は、変形量aの変形幅をh（０以上）、当該変形量aの上限をK（０以上）とした時に、変形量a=hi,iは｜hi｜≦Kを満たす整数、この条件を満たすiの数の分、つまりターゲットＦ０変形数の数分の変形量aを生成し、i+1回、ステップＳ１４a〜ステップＳ１４bの処理を繰り返す。ここで、i回ではなくi+1回であるのは、変形量aが０、すなわち変形前（オリジナルデータ）のターゲットＦ０に対しても候補素片の探索を行うからである。なお、変形幅hと変形量aの上限値Kは、予めターゲットＦ０変形量算出手段１１に設定しておいても良いし、図２に破線で示すように外部から適宜設定出来るようにしても良い。

ターゲットＦ０変形手段１２は、韻律生成部９１が出力するターゲットＦ０パターンを変形量aの周波数分シフトしてターゲット変形Ｆ０パターンを生成する（ステップＳ１２）。
ターゲット変形Ｆ０パターンf′(t)は、式（７）のように求められる。

これはすなわち、ターゲットＦ０パターン全体を変形量aの周波数分だけ並行移動する処理に相当する。Ｆ０変形サブコスト計算手段１３は、変形量aに対応するＦ０変形サブコストSmf(a)を例えば式（８）で計算する（ステップＳ１３）。

変形量a=0の場合のＦ０変形サブコストSmf(a)はSmf(a)=0、変形量aの絶対値が大きくなればＦ０変形サブコストSmf(a)も大きくなる。

サブコスト計算手段９２０では、このターゲット変形Ｆ０パターンf′(t)を入力として従来技術で説明済みのターゲットＦ０サブコストStf(t(j),u(j))（式（２））とターゲット継続時間長サブコストStdur(t(j),u(j))（式（３））と、接続Ｆ０サブコストScf(u(j-1),u(j))(式（５）)と、探索仮説群H(j-1)の候補素片u(j-1)とj番目の候補素片群U(j)との音響的類似度である接続音素環境サブコストScenv(u(j−１),u(j))を計算する（ステップＳ９２０）。

探索仮説展開手段１４は、探索仮説群H(j-1)の各仮説h(j-1)ごとに、Ｆ０変形サブコストSmf(a)を加えた総コストＣ（式（９））を計算し、最も低いコストとなる１の探索仮説h(j-1)に候補素片u(j)を追加し、新たな探索仮説h(j)とする（ステップＳ１４ｅ）。

ここでWmはＦ０変形サブコストの重みである。式（９）の右辺第２項までは式（６）と同じである。探索仮説展開手段１４は、総コストＣをＦ０変形サブコストSmf(a)を加えて求める点で新しい。探索仮説展開手段１４は、音素区間毎（ステップＳ１４ｄ〜Ｓ１４ｆ）に、ターゲットの数分繰り返す（ステップＳ１４ｃ〜Ｓ１４ｇ）と共に、ターゲットＦ０変形数＋１回の数繰り返して（ステップＳ１４ａ〜Ｓ１４ｄ）、候補素片番号列を選択手段９２２に出力する。選択手段９２２は、候補素片番号列に対応する候補素片列を音声データベース９４から読み出して音声合成部９３に出力する（ステップＳ９２２）。

以上説明したように、候補素片選択部１０は韻律生成部９１が出力するターゲットＦ０パターンを、所定の変形幅hの変形量a=hiの分の周波数をシフトさせたi個のターゲット変形Ｆ０パターンを生成させ、それぞれのターゲット変形Ｆ０パターンと候補素片との間の総コストを計算する。そして、全ての探索仮説群の総コストを参照して最も総コストの低い探索仮説の候補素片列の素片番号列を出力する。したがって、所定の範囲で周波数シフトされた複数のターゲット変形Ｆ０パターンに近い候補素片列が選択されるので、イントネーションの連続性を確保した候補素片列を出力することが出来る。所定の範囲の周波数シフト量を適切な値に設定しておくことで合成音声も違和感の無いものにすることが出来る。

図４を参照して候補素片選択部１０の候補素片選択処理を具体的に説明する。図４は、従来技術の説明に用いた図１０に、ターゲットＦ０パターンを変形量aの周波数分シフトさせたターゲット変形Ｆ０パターンを追記したものである。追記されたターゲット変形Ｆ０パターンの音素毎に区切られた範囲のターゲットを、時間の早い順からターゲット４１、４２、４３、４４、４５としている。

説明を簡略化するため、ここでは、ステップＳ１４ａ〜Ｓ１４ｂ（図３）におけるターゲットＦ０の変形数ｉをi=1として説明する。実際は変形数iは複数回数であり、周波数のシフトする方向も正負両方に対して行われる。

まず、最初のステップＳ１４ａ〜Ｓ１４ｂの処理は、ターゲットＦ０の変形量が０の場合の処理が行われる。つまり、ターゲットＦ０パターンのターゲット３１〜３５と候補素片間の総コストＣが計算される。

次に、ステップＳ１４ａ〜Ｓ１４ｂの２回目の処理は、変形量aの周波数分シフトしたターゲット変形Ｆ０パターンのターゲット４１〜４５と、候補素片間の総コストＣを計算する。この結果、ターゲットＦ０パターンに対する総コストＣは、ターゲット３１と３５のターゲットＦ０サブコストStf(t(j),u(j))の値が大きいので、ターゲット変形Ｆ０パターンに対する総コストＣよりも大きくなる。よって、候補素片選択部１０は、候補素片２１と２３と２５の候補素片列の候補素片番号列を出力する。

このように従来の音声合成装置９００で選択していた候補素片２１と２４と２５の組み合わせに対して、この発明の音声合成装置１００は、有声音同士が無声音を介して接続されるような音声に対しても自然なイントネーションが期待できる候補素片２１と２３と２５の組み合わせを選択することが出来る。

なお、ターゲット変形Ｆ０パターンを、変形量aの分の周波数を加算する方法で生成する例を説明したが、式（１１）に示すように変形比率rを乗じて生成するようにしても良い。

変形比率rの変更単位をp（０以上）、変形比率rの上限をL（０以上）としたとき、変形比率r=1+piとする。ここでiは｜pi｜≦L，-1<piを満たす整数である。例えばL=0.2,p=0.1のとき、i=-2,-1,0,1,2であり、このとき変形比率r=0.8,0.9,1.0,1.1,1.2となる。

また、変形比率rを乗じて変形量を求める場合、Ｆ０変形サブコストは式（１２）で定義するものとする。

また、上記した実施例では、候補素片を音声波形データの形式で保持するものとして説明を行ったが、候補素片は波形データそのものでは無く、例えば、ケプストラム等の音声特徴量パラメータの形式で音声情報を保持するようにしても良く、その場合、候補素片はその音声特徴量パラメータを用いて生成される。よって、音声データベース９４は、候補素片そのものを格納するものに限定されない。また、ターゲット変形Ｆ０パターンの変形量を、線形に可変する例で説明したが、対数スケール等の線形ではないスケールの変形量にしても良い。

上記した音声合成装置の各機能部における処理手段をコンピュータによって実現する場合、各機能部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各機能部における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。

Claims

音声データベースから探索された候補素片を結合して合成音声を生成する音声合成装置であって、
上記候補素片を上記音声データベースから探索する候補素片選択部は、
ターゲットＦ０パターンを入力として、当該ターゲットＦ０パターンを変形する変形量aを、所定の範囲内において１個以上算出するターゲットＦ０変形量算出手段と、
上記ターゲットＦ０パターンを上記変形量aの周波数分シフトして１個以上のターゲット変形Ｆ０パターンを生成するターゲットＦ０変形手段と、
上記変形量aに対応するＦ０変形サブコストを計算するＦ０変形サブコスト計算手段と、
上記ターゲット変形Ｆ０パターンと上記音声データベースに格納された候補素片を入力として、上記ターゲット変形Ｆ０パターンと上記候補素片との間の歪みを表す複数のサブコストを計算するサブコスト計算手段と、
上記複数のサブコストと、上記Ｆ０変形サブコストを入力として、合成対象の文全体に対する総コストを、探索仮説ごとに計算して上記総コストが最も小さくなる候補素片番号列を出力する探索仮説展開手段と、
を備え、上記候補素片選択部の各手段は上記ターゲット変形Ｆ０パターンの数＋１回の回数繰り返して処理を行い、
上記候補素片選択部は、更に上記候補素片番号列に対応する候補素片列を上記音声データベースから読み出して出力する選択手段を具備することを特徴とする音声合成装置。
請求項１に記載した音声合成装置において、
上記ターゲットＦ０変形量算出手段は、上記変形量ａの変形幅をh(０以上)、上記所定の範囲をK（０以上）とした時に、上記変形量ａ＝hi,iは｜hi｜≦Kを満たす整数、とすることを特徴とする音声合成装置。
音声データベースから探索された候補素片を結合して合成音声を生成する音声合成装置であって、
上記候補素片を上記音声データベースから探索する候補素片選択部は、
ターゲットＦ０パターンを入力として、当該ターゲットＦ０パターンを変形する変形比率rを、所定の範囲内において１個以上算出するターゲットＦ０変形量算出手段と、
上記ターゲットＦ０パターンを上記変形比率rの周波数分シフトして１個以上のターゲット変形Ｆ０パターンを生成するターゲットＦ０変形手段と、
上記変形比率rに対応するＦ０変形サブコストを計算するＦ０変形サブコスト計算手段と、
上記ターゲット変形Ｆ０パターンと上記音声データベースに格納された候補素片を入力として、上記ターゲット変形Ｆ０パターンと上記候補素片との間の歪みを表す複数のサブコストを計算するサブコスト計算手段と、
上記複数のサブコストと、上記Ｆ０変形サブコストを入力として、合成対象の文全体に対する総コストを、探索仮説ごとに計算して上記総コストが最も小さくなる候補素片番号列を出力する探索仮説展開手段と、
を備え、上記候補素片選択部の各手段は上記ターゲット変形Ｆ０パターンの数＋１回の回数繰り返して処理を行い、
上記候補素片選択部は、更に上記候補素片番号列に対応する候補素片列を上記音声データベースから読み出して出力する選択手段を具備することを特徴とする音声合成装置。
請求項３に記載した音声合成装置において、
上記ターゲットＦ０変形量算出手段は、上記変形比率rの変形単位をp(０以上)、上記所定の範囲をL（０以上）とした時に、上記変形比率r＝1+pi,iは｜pi｜≦L,-1<piを満たす整数、とすることを特徴とする音声合成装置。
音声データベースから探索された候補素片を結合して合成音声を生成する音声合成方法であって、
上記候補素片を上記音声データベースから探索する候補素片選択過程は、
ターゲットＦ０パターンを入力として、当該ターゲットＦ０パターンを変形する変形量aを、所定の範囲内において１個以上算出するターゲットＦ０変形量算出ステップと、
上記ターゲットＦ０パターンを上記変形量aの周波数分シフトして１個以上のターゲット変形Ｆ０パターンを生成するターゲットＦ０変形ステップと、
上記変形量aに対応するＦ０変形サブコストを計算するＦ０変形サブコスト計算手段と、
上記ターゲット変形Ｆ０パターンと上記音声データベースに格納された候補素片を入力として、上記ターゲット変形Ｆ０パターンと上記候補素片との間の歪みを表す複数のサブコストを計算するサブコスト計算ステップと、
上記複数のサブコストと、上記Ｆ０変形サブコストを入力として、合成対象の文全体に対する総コストを、探索仮説ごとに計算して上記総コストが最も小さくなる候補素片番号列を出力する探索仮説展開ステップと、
を含み、上記候補素片選択過程の各ステップは上記ターゲット変形Ｆ０パターンの数＋１回の回数繰り返して処理を行い、
上記候補素片選択過程は、更に上記候補素片番号列に対応する候補素片列を上記音声データベースから読み出して出力する選択ステップを含むことを特徴とする音声合成方法。
請求項５に記載した音声合成方法において、
上記ターゲットＦ０変形量算出ステップは、上記変形量ａの変形幅をh(０以上)、上記所定の範囲をK（０以上）とした時に、上記変形量ａ＝hi,iは｜hi｜≦Kを満たす整数、とすることを特徴とする音声合成方法。
音声データベースから探索された候補素片を結合して合成音声を生成する音声合成方法であって、
上記候補素片を上記音声データベースから探索する候補素片選択過程は、
ターゲットＦ０パターンを入力として、当該ターゲットＦ０パターンを変形する変形比率rを、所定の範囲内において１個以上算出するターゲットＦ０変形量算出ステップと、
上記ターゲットＦ０パターンを上記変形比率rの周波数分シフトして１個以上のターゲット変形Ｆ０パターンを生成するターゲットＦ０変形ステップと、
上記変形比率rに対応するＦ０変形サブコストを計算するＦ０変形サブコスト計算ステップと、
上記ターゲット変形Ｆ０パターンと上記音声データベースに格納された候補素片を入力として、上記ターゲット変形Ｆ０パターンと上記候補素片との間の歪みを表す複数のサブコストを計算するサブコスト計算ステップと、
上記複数のサブコストと、上記Ｆ０変形サブコストを入力として、合成対象の文全体に対する総コストを、探索仮説ごとに計算して上記総コストが最も小さくなる候補素片番号列を出力する探索仮説展開ステップと、
を含み、上記候補素片選択過程の各ステップは上記ターゲット変形Ｆ０パターンの数＋１回の回数繰り返して処理を行い、
上記候補素片選択過程は、更に上記候補素片番号列に対応する候補素片列を上記音声データベースから読み出して出力する選択ステップを含むことを特徴とする音声合成方法。
請求項７に記載した音声合成方法において、
上記ターゲットＦ０変形量算出ステップは、上記変形比率rの変形単位をp(０以上)、上記所定の範囲をL（０以上）とした時に、上記変形比率r＝1+pi,iは｜pi｜≦L,-1<piを満たす整数、とすることを特徴とする音声合成方法。
請求項１乃至４の何れかに記載した音声合成装置としてコンピュータを機能させるためのプログラム。