JP5512597B2 - 音声合成装置とその方法とプログラム - Google Patents

音声合成装置とその方法とプログラム Download PDF

Info

Publication number
JP5512597B2
JP5512597B2 JP2011108025A JP2011108025A JP5512597B2 JP 5512597 B2 JP5512597 B2 JP 5512597B2 JP 2011108025 A JP2011108025 A JP 2011108025A JP 2011108025 A JP2011108025 A JP 2011108025A JP 5512597 B2 JP5512597 B2 JP 5512597B2
Authority
JP
Japan
Prior art keywords
deformation
target
candidate segment
candidate
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011108025A
Other languages
English (en)
Other versions
JP2012237925A (ja
Inventor
光昭 磯貝
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011108025A priority Critical patent/JP5512597B2/ja
Publication of JP2012237925A publication Critical patent/JP2012237925A/ja
Application granted granted Critical
Publication of JP5512597B2 publication Critical patent/JP5512597B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、自然なイントネーションの合成音声を生成することの出来る音声合成装置とその方法と、プログラムに関する。
従来の音声合成方法は、限定された小量の音声素片を変形させ、その変形させた音声素片を組み合わせて合成音声を生成する方法が一般的であった。しかし、音声素片の変形量によっては音声の品質が低下してしまう場合がある。そこで最近では、記憶装置の大容量化に伴い大量の音声素片を用意しておき、その音声素片を変形しないで合成音声を生成する方式の音声合成方法が主流になって来ている。
図5に、大量の音声素片の中から音声素片を選択して合成音声を生成する従来の音声合成装置900の機能構成例を示す。音声合成装置900は、テキスト解析部90と、韻律生成部91と、候補素片選択部92と、音声合成部93と、音声データベース94とを備える。音声データベース94は、例えば音声波形素片を記憶する音声波形データ940と、音声情報を登録したテーブルである音声情報インデックス941とを備える。
図6に、音声情報インデックス941のテーブル構造を示す。各音素は、音声波形データ940に対応して、候補素片の通し番号である素片番号、候補素片の音素を分類する音素ラベル、候補素片の継続時間長を示す音継続時間(ms)、候補素片の声高の時間推移を表したF0パターン情報(Hz)、音声波形データ940中での各候補素片の格納場所情報である素片データ位置を、組みとして登録される。素片データ位置は、具体的には音声波形データ940を記憶するハードディスク等のメモリアドレスである。例えば、素片番号1番の候補素片は音素ラベル「a」に分類されるデータである。言い換えれば、素片番号1番の候補素片は音素ラベル「a」に分類される候補素片の一つである。
素片データ位置0に格納されている素片番号1の候補素片の音素継続時間長は85(ms)で、そのF0(基本周波数)は300→302→303→…→301(Hz)と時間推移する。また、素片番号2番の候補素片は音素ラベル「s」に分類される候補素片の一つであり、声帯の振動を伴わない無声音である。無声音の発声時には、声帯の振動が停止するため基本周波数(以下単にF0と称する場合もある。)が存在しない。このため無声音である音素のF0パターン情報には、F0情報が存在しないことを意味する数値として例えば−1が格納されているものとする。
図7に、音声合成装置900の動作フローを示す。テキスト解析部90は、音声合成装置900に入力されたテキストを取得して形態素解析し、形態素解析結果から音素列とアクセント型とを生成する(ステップS90)。韻律生成部91は、テキスト解析部90が生成した音素列とアクセント型とを入力として、音素毎にF0パターンと音素継続時間長とを推定してターゲットとして出力する(ステップS91)。
候補素片選択部92は、韻律生成部91が推定したターゲットを入力として、そのターゲットとの歪みが小さく、且つ候補素片同士を接続した際の接続歪みが小さくなるような候補素片の組み合わせを、音声情報インデックス941から選択し、選択した候補素片の素片番号を音声合成部93に出力する(ステップS92)。ターゲットとの歪みは、候補素片とターゲットとの距離尺度で表されコストと称する。
ここでコストについて具体的に説明する。テキスト解析部90が出力した音素列のうちj番目(jは1以上の整数)の音素のターゲットをt(j)とする。前述したようにターゲットは、音素毎のF0パターン情報と音素継続時間長の情報とから成る。音素波形データ940に格納されている音声波形素片のうちターゲットt(j)に対応する候補素片群をU(j)と表す。候補素片群U(j)は、音声情報インデックス941に格納された候補素片のうち、ターゲットt(j)と音素ラベルが合致する全ての候補素片を表すものとする。
候補素片群U(j)のうちの任意の1の候補素片をu(j)と表し、以下の説明に用いる。ターゲットt(j)と候補素片u(j)の歪みを表す距離尺度をターゲットコストCt(t(j),u(j))とする。ターゲットコストCt(t(j),u(j))は、後述する2つのサブコストの重み付き和として式(1)で定義する。
Figure 0005512597
ここで、Stf(t(j),u(j))はターゲットt(j)と候補素片u(j)の間でのF0パターンの歪みを表し、式(2)で定義する。以下、Stf(t(j),u(j))をターゲットF0サブコストと称する。Wtfは、ターゲットF0サブコストStf(t(j),u(j))の重みである。
Figure 0005512597
ここで、Ft(t(j))はターゲットt(j)のF0パターン、Fu(u(j))は候補素片u(j)のF0パターンである。
また、式(1)のStdur(t(j),u(j))はターゲットt(j) と候補素片u(j)の間での継続時間長の時間方向で見た歪みを表し、式(3)で定義する。以下、Stdur(t(j),u(j))をターゲット継続時間長サブコストと称する。Wtdurは、ターゲット継続時間長サブコストの重みである。
Figure 0005512597
ここで、DURt(t(j))はターゲットt(j)の継続時間長、DURu(u(j))は候補素片u(j)の継続時間長である。
そして、候補素片間u(j-1)とu(j)の間の接続歪みを接続コストCc(u(j-1),u(j))として式(4)で定義する。
Figure 0005512597
ここで、Scf(u(j-1),u(j))は候補素片u(j)と先行する候補素片u(j-1)の接続点でのF0の歪みを表し、式(5)で定義する。以下、Scf(u(j-1),u(j))を接続F0サブコストと称する。Wcfは、接続F0サブコストScf(u(j-1),u(j))の重みである。
Figure 0005512597
ここで、FSu(u(j))は候補素片u(j)の始点のF0、FEu(u(j-1))は先行する候補素片u(j-1)の終点のF0である。なお、候補素片u(j)と候補素片u(j-1)の何れか一方、或いはその双方が無声音である場合は、候補素片がF0値を持たないことにより接続F0サブコストScf(u(j-1),u(j))を求めることが出来ないため、その値は一定値の例えば0とする。
また、式(4)のScenv(u(j−1),u(j))は候補素片u(j)と先行する候補素片u(j-1)との間の音素環境の違いを表し、ターゲットt(j)と音声情報インデックス941の中で候補素片u(j-1)に接続する候補素片u(j)の音響的類似度、及びターゲットt(j-1)と音声情報インデックス941の中で候補素片u(j)に先行する候補素片の音響的類似度から定義される。以下、Scenv(u(j−1),u(j))を接続音素環境サブコストと称する。ターゲットt(j)と候補素片u(j-1)の後続音素、及びターゲットt(j-1)と候補素片u(j)の先行音素の音響的類似度が高いほど、この接続音素環境サブコストScenv(u(j−1),u(j))の値は小さくなる。例えばターゲットt(j)と音声情報インデックス941の中の候補素片u(j-1)に後続する音素ラベルが一致し、且つ、ターゲットt(j-1)と音声情報インデックス941の中で候補素片u(j)に先行する音素ラベルが一致すれば、接続音素環境サブコストScenv(u(j−1),u(j))=0である。
上記した各サブコストの計算に必要な候補素片u(j)のF0パターンと継続時間長等は、音声データベース94から得ることが出来る。候補素片群U(j)に候補素片u(j)が2個以上存在する場合(同じ音素の候補が2個以上存在する場合)、各サブコストの計算は候補素片の数だけ繰り返される。
以上説明したターゲットF0コストStf(t(j),u(j))とターゲット継続時間長サブコストStdur(t(j),u(j))との重み付け和であるターゲットコストCt(t(j),u(j))と、接続F0サブコストScf(u(j-1),u(j))と接続音素環境サブコストScenv(u(j−1),u(j))との重み付け和である接続コストCc(u(j-1),u(j))とを用いて、合成対象の文全体に対する総コストCを式(6)で定義する。
Figure 0005512597
ここでNは、合成対象の文の音素数である。
候補素片選択部92は、総コストCを最小にする候補素片の組み合わせを、例えば動的計画法等の方法で求めることによりターゲットt(j)に対応する最適な候補素片番号を決定する。最適な候補素片番号は、ターゲットt(j)に対応する候補素片U(j)の一つの系列である探索仮説の総コストCが最小となる候補素片列の番号列(図6の素片番号の列)を形成する。
音声合成部93は、候補素片選択部92が選択した候補素片番号列を入力として、素片番号と対応する候補素片列を音声波形データ940から読み出し、これらの候補素片列を接続して合成音声を生成する(ステップS93)。
候補素片選択部92の動作をより詳細に説明する。図8に、候補素片選択部92のより具体的な機能構成例を示す。候補素片選択部92は、サブコスト計算手段920と、探索仮説展開手段921と、選択手段922と、を備える。その動作フローを図9に示す。
サブコスト計算手段920は、j番目のターゲットt(j)のF0パターンと、j番目の候補素片群U(j)のF0パターンとを用いて、ターゲットF0サブコストStf(t(j),u(j))とターゲット継続時間長サブコストStdur(t(j),u(j))を計算する。と共に、ターゲットt(j)に対応する一つの候補素片系列をh(j)、その候補素片系列の集合である探索仮説群をH(j)と表した時の探索仮説群H(j-1)の候補素片u(j-1)の終点のF0と、j番目の候補素片群U(j)の始点のF0とを用いて接続F0サブコストScf(u(j-1),u(j))を計算する。と共に、探索仮説群H(j-1)の候補素片u(j-1)とj番目の候補素片群U(j)との音響的類似度を接続音素環境サブコストScenv(u(j−1),u(j))として計算する(ステップS920)。
探索仮説展開手段921は、探索仮説群H(j-1)の各仮説h(j-1)に上記した各サブコストを加算した場合に、最も低いコストとなる一つの探索仮説h(j-1)に候補素片u(j)を追加し、新たな探索仮説h(j)とする(ステップS921)。このようにして候補素片群U(j)の各候補素片u(j)に対し、ステップS92b〜S92cの処理が繰り返し実行され、サブコストの計算と探索仮説の展開が行われる。このステップS92b〜S92cの処理は、ターゲットの数分繰り返し実行(ステップS92a〜S92d)され、最終的に最もコストの低い探索仮説の系列に含まれる候補素片の候補素片番号列が音声合成部93に出力される(ステップS922)。
広川智久著「波形辞書を用いた規則合成法」、電子情報通信学会技術研究報告、1988,SP88-9
図10に、合成音「エサキ」を合成する場合の候補素片を例示する。ここで「エサキ」は、有声音の間に無声音が含まれる例として説明するためのものであり、特に意味を持たない。図10の横軸は時間(ms)、縦軸は周波数(Hz)である。図10中に破線で示す曲線は、韻律生成部91が生成したターゲットのF0パターン(以降、ターゲットF0パターン)である。縦の破線は音素の区切りである区間を表す。音素毎に区切られた範囲について時間の早い順からターゲット31(/E/)、ターゲット32(/S/)、ターゲット33(/A/)、ターゲット34(/K/)、ターゲット35(/I/)と呼ぶこととする。ターゲット33の区間には、2つの候補素片23と24が存在する例である。また、候補素片23と24の継続時間長は等しいものとする。
このように無声音(ターゲット32)を挟むターゲット31とターゲット33との間では、その間に基本周波数を持たない無声音(/S/)が存在するため、従来の音声合成装置900では、その間の接続性を評価せずにターゲットのF0と候補素片とのコストのみを評価する。この例では、ターゲット31の区間では、ターゲット31と候補素片21との間でターゲットF0サブコストStf(t(j),u(j))が計算される。その計算は例えばフレーム単位で行われる。
ターゲット33の区間では、候補素片が2つ存在するため、それぞれの候補素片23,24とターゲット33との間の2つのターゲットF0サブコストStf(t(j),u(j))が計算される。その結果、候補素片24の方がターゲットのF0に近いのでその総コストCが小さな値となる。この例では、素片候補21→素片候補23→素片候補25の組合せの方が自然なイントネーションが期待できる。しかし、候補素片24のターゲットF0サブコストが小さいために、候補素片選択部92は素片候補21→素片候補24→素片候補25の組合せを選択してしまいイントネーションが不自然になってしまう課題がある。
この発明は、このような課題に鑑みてなされたものであり、図10に例示したように有声音同士が無声音を介して接続されるようなターゲットに対しても、合成音声のイントネーションの連続性を保ち、合成音声が高品質となるような候補素片を選択することが出来る音声合成装置とその方法とプログラムを提供することを目的とする。
この発明の音声合成装置は、音声データベースから探索された候補素片を結合して合成音声を生成する音声合成装置であって、候補素片を上記音声データベースから探索する候補素片選択部は、ターゲットF0変形量算出手段と、ターゲットF0変形手段と、F0変形サブコスト計算手段と、サブコスト計算手段と、探索仮説展開手段と、選択手段と、を具備する。
ターゲットF0変形量算出手段は、ターゲットF0パターンを入力として、当該ターゲットF0パターンを変形する変形量aを、所定の範囲内において1個以上算出する。ターゲットF0変形手段は、ターゲットF0パターンを変形量aの周波数分シフトして1個以上のターゲット変形F0パターンを生成する。F0変形サブコスト計算手段は、変形量aに対応するF0変形サブコストを計算する。サブコスト計算手段は、ターゲット変形F0パターンと音声データベースに格納された候補素片を入力として、ターゲット変形F0パターンと候補素片との間の歪みを表す複数のサブコストを計算する。探索仮説展開手段は、複数のサブコストと、F0変形サブコストを入力として、合成対象の文全体に対する総コストを、探索仮説ごとに計算して上記総コストが最も小さくなる候補素片番号列を出力する。上記候補素片選択部の各手段は上記ターゲット変形F0パターンの数+1回の回数繰り返して処理を行い、更に候補素片選択部は、候補素片番号列に対応する候補素片列を上記音声データベースから読み出して出力する選択手段を具備する。
この発明の音声合成装置の候補素片選択部は、ターゲットF0パターンを基準として所定の範囲内で変形した1個以上のターゲット変形F0パターンを生成し、変形量に応じたF0変形サブコストを計算する。そして、そのターゲット変形F0パターンと候補素片との間の歪みを表す複数のサブコストと、F0変形サブコストとから成る総コストが最小となる候補素片を出力する。その結果、少なくともターゲットF0パターンと1個以上のターゲット変形F0パターンに対応する複数の総コストの中から、総コストが最小となる候補素片を選択することが出来る。したがって、有声音同士が無声音を介して接続されるようなターゲットに対しても、合成音声のイントネーションの連続性を保った候補素片列を出力することが可能となる。
この発明の音声合成装置100の機能構成例を示す図。 この発明の候補素片選択部10の構成例を示す図。 候補素片選択部10の動作フローを示す図。 候補素片選択部10が選択する候補素片を例示する図。 従来の音声合成装置900の機能構成例を示す図。 音声情報インデックス941の一部を例示する図。 音声合成装置900の動作フローを示す図。 従来の候補素片選択部92の機能構成例を示す図。 候補素片選択部92の動作フローを示す図。 候補素片選択部92が選択する候補素片を例示する図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の音声合成装置100の機能構成例を示す。音声合成装置100は、従来の音声合成装置900に対して候補素片選択部10のみの構成が異なるものである。音声合成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
テキスト解析部90、韻律生成部91、音声合成部93、音声データベース94は、音声合成装置900(図5)と同じであるのでその説明は省略する。図2に、より具体的な候補素片選択部10の機能構成例を示してその動作を説明する。その動作フローを図3に示す。
候補素片選択部10は、ターゲットF0変形量算出手段11と、ターゲットF0変形手段12と、F0変形サブコスト計算手段13と、サブコスト計算手段920と、探索仮説展開手段14と、選択手段922と、を具備する。ターゲットF0変形量算出手段11は、韻律生成部91が出力するターゲットF0パターンを入力として、当該ターゲットF0パターンを変形する変形量aを、所定の範囲内において1個以上算出する(ステップS11)。ターゲットF0変形量算出手段11は、変形量aの変形幅をh(0以上)、当該変形量aの上限をK(0以上)とした時に、変形量a=hi,iは|hi|≦Kを満たす整数、この条件を満たすiの数の分、つまりターゲットF0変形数の数分の変形量aを生成し、i+1回、ステップS14a〜ステップS14bの処理を繰り返す。ここで、i回ではなくi+1回であるのは、変形量aが0、すなわち変形前(オリジナルデータ)のターゲットF0に対しても候補素片の探索を行うからである。なお、変形幅hと変形量aの上限値Kは、予めターゲットF0変形量算出手段11に設定しておいても良いし、図2に破線で示すように外部から適宜設定出来るようにしても良い。
ターゲットF0変形手段12は、韻律生成部91が出力するターゲットF0パターンを変形量aの周波数分シフトしてターゲット変形F0パターンを生成する(ステップS12)。
ターゲット変形F0パターンf′(t)は、式(7)のように求められる。
Figure 0005512597
これはすなわち、ターゲットF0パターン全体を変形量aの周波数分だけ並行移動する処理に相当する。F0変形サブコスト計算手段13は、変形量aに対応するF0変形サブコストSmf(a)を例えば式(8)で計算する(ステップS13)。
Figure 0005512597
変形量a=0の場合のF0変形サブコストSmf(a)はSmf(a)=0、変形量aの絶対値が大きくなればF0変形サブコストSmf(a)も大きくなる。
サブコスト計算手段920では、このターゲット変形F0パターンf′(t)を入力として従来技術で説明済みのターゲットF0サブコストStf(t(j),u(j))(式(2))とターゲット継続時間長サブコストStdur(t(j),u(j))(式(3))と、接続F0サブコストScf(u(j-1),u(j))(式(5))と、探索仮説群H(j-1)の候補素片u(j-1)とj番目の候補素片群U(j)との音響的類似度である接続音素環境サブコストScenv(u(j−1),u(j))を計算する(ステップS920)。
探索仮説展開手段14は、探索仮説群H(j-1)の各仮説h(j-1)ごとに、F0変形サブコストSmf(a)を加えた総コストC(式(9))を計算し、最も低いコストとなる1の探索仮説h(j-1)に候補素片u(j)を追加し、新たな探索仮説h(j)とする(ステップS14e)。
Figure 0005512597
ここでWmはF0変形サブコストの重みである。式(9)の右辺第2項までは式(6)と同じである。探索仮説展開手段14は、総コストCをF0変形サブコストSmf(a)を加えて求める点で新しい。探索仮説展開手段14は、音素区間毎(ステップS14d〜S14f)に、ターゲットの数分繰り返す(ステップS14c〜S14g)と共に、ターゲットF0変形数+1回の数繰り返して(ステップS14a〜S14d)、候補素片番号列を選択手段922に出力する。選択手段922は、候補素片番号列に対応する候補素片列を音声データベース94から読み出して音声合成部93に出力する(ステップS922)。
以上説明したように、候補素片選択部10は韻律生成部91が出力するターゲットF0パターンを、所定の変形幅hの変形量a=hiの分の周波数をシフトさせたi個のターゲット変形F0パターンを生成させ、それぞれのターゲット変形F0パターンと候補素片との間の総コストを計算する。そして、全ての探索仮説群の総コストを参照して最も総コストの低い探索仮説の候補素片列の素片番号列を出力する。したがって、所定の範囲で周波数シフトされた複数のターゲット変形F0パターンに近い候補素片列が選択されるので、イントネーションの連続性を確保した候補素片列を出力することが出来る。所定の範囲の周波数シフト量を適切な値に設定しておくことで合成音声も違和感の無いものにすることが出来る。
図4を参照して候補素片選択部10の候補素片選択処理を具体的に説明する。図4は、従来技術の説明に用いた図10に、ターゲットF0パターンを変形量aの周波数分シフトさせたターゲット変形F0パターンを追記したものである。追記されたターゲット変形F0パターンの音素毎に区切られた範囲のターゲットを、時間の早い順からターゲット41、42、43、44、45としている。
説明を簡略化するため、ここでは、ステップS14a〜S14b(図3)におけるターゲットF0の変形数iをi=1として説明する。実際は変形数iは複数回数であり、周波数のシフトする方向も正負両方に対して行われる。
まず、最初のステップS14a〜S14bの処理は、ターゲットF0の変形量が0の場合の処理が行われる。つまり、ターゲットF0パターンのターゲット31〜35と候補素片間の総コストCが計算される。
次に、ステップS14a〜S14bの2回目の処理は、変形量aの周波数分シフトしたターゲット変形F0パターンのターゲット41〜45と、候補素片間の総コストCを計算する。この結果、ターゲットF0パターンに対する総コストCは、ターゲット31と35のターゲットF0サブコストStf(t(j),u(j))の値が大きいので、ターゲット変形F0パターンに対する総コストCよりも大きくなる。よって、候補素片選択部10は、候補素片21と23と25の候補素片列の候補素片番号列を出力する。
このように従来の音声合成装置900で選択していた候補素片21と24と25の組み合わせに対して、この発明の音声合成装置100は、有声音同士が無声音を介して接続されるような音声に対しても自然なイントネーションが期待できる候補素片21と23と25の組み合わせを選択することが出来る。
なお、ターゲット変形F0パターンを、変形量aの分の周波数を加算する方法で生成する例を説明したが、式(11)に示すように変形比率rを乗じて生成するようにしても良い。
Figure 0005512597
変形比率rの変更単位をp(0以上)、変形比率rの上限をL(0以上)としたとき、変形比率r=1+piとする。ここでiは|pi|≦L,-1<piを満たす整数である。例えばL=0.2,p=0.1のとき、i=-2,-1,0,1,2であり、このとき変形比率r=0.8,0.9,1.0,1.1,1.2となる。
また、変形比率rを乗じて変形量を求める場合、F0変形サブコストは式(12)で定義するものとする。
Figure 0005512597
また、上記した実施例では、候補素片を音声波形データの形式で保持するものとして説明を行ったが、候補素片は波形データそのものでは無く、例えば、ケプストラム等の音声特徴量パラメータの形式で音声情報を保持するようにしても良く、その場合、候補素片はその音声特徴量パラメータを用いて生成される。よって、音声データベース94は、候補素片そのものを格納するものに限定されない。また、ターゲット変形F0パターンの変形量を、線形に可変する例で説明したが、対数スケール等の線形ではないスケールの変形量にしても良い。
上記した音声合成装置の各機能部における処理手段をコンピュータによって実現する場合、各機能部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各機能部における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。

Claims (9)

  1. 音声データベースから探索された候補素片を結合して合成音声を生成する音声合成装置であって、
    上記候補素片を上記音声データベースから探索する候補素片選択部は、
    ターゲットF0パターンを入力として、当該ターゲットF0パターンを変形する変形量aを、所定の範囲内において1個以上算出するターゲットF0変形量算出手段と、
    上記ターゲットF0パターンを上記変形量aの周波数分シフトして1個以上のターゲット変形F0パターンを生成するターゲットF0変形手段と、
    上記変形量aに対応するF0変形サブコストを計算するF0変形サブコスト計算手段と、
    上記ターゲット変形F0パターンと上記音声データベースに格納された候補素片を入力として、上記ターゲット変形F0パターンと上記候補素片との間の歪みを表す複数のサブコストを計算するサブコスト計算手段と、
    上記複数のサブコストと、上記F0変形サブコストを入力として、合成対象の文全体に対する総コストを、探索仮説ごとに計算して上記総コストが最も小さくなる候補素片番号列を出力する探索仮説展開手段と、
    を備え、上記候補素片選択部の各手段は上記ターゲット変形F0パターンの数+1回の回数繰り返して処理を行い、
    上記候補素片選択部は、更に上記候補素片番号列に対応する候補素片列を上記音声データベースから読み出して出力する選択手段を具備することを特徴とする音声合成装置。
  2. 請求項1に記載した音声合成装置において、
    上記ターゲットF0変形量算出手段は、上記変形量aの変形幅をh(0以上)、上記所定の範囲をK(0以上)とした時に、上記変形量a=hi,iは|hi|≦Kを満たす整数、とすることを特徴とする音声合成装置。
  3. 音声データベースから探索された候補素片を結合して合成音声を生成する音声合成装置であって、
    上記候補素片を上記音声データベースから探索する候補素片選択部は、
    ターゲットF0パターンを入力として、当該ターゲットF0パターンを変形する変形比率rを、所定の範囲内において1個以上算出するターゲットF0変形量算出手段と、
    上記ターゲットF0パターンを上記変形比率rの周波数分シフトして1個以上のターゲット変形F0パターンを生成するターゲットF0変形手段と、
    上記変形比率rに対応するF0変形サブコストを計算するF0変形サブコスト計算手段と、
    上記ターゲット変形F0パターンと上記音声データベースに格納された候補素片を入力として、上記ターゲット変形F0パターンと上記候補素片との間の歪みを表す複数のサブコストを計算するサブコスト計算手段と、
    上記複数のサブコストと、上記F0変形サブコストを入力として、合成対象の文全体に対する総コストを、探索仮説ごとに計算して上記総コストが最も小さくなる候補素片番号列を出力する探索仮説展開手段と、
    を備え、上記候補素片選択部の各手段は上記ターゲット変形F0パターンの数+1回の回数繰り返して処理を行い、
    上記候補素片選択部は、更に上記候補素片番号列に対応する候補素片列を上記音声データベースから読み出して出力する選択手段を具備することを特徴とする音声合成装置。
  4. 請求項3に記載した音声合成装置において、
    上記ターゲットF0変形量算出手段は、上記変形比率rの変形単位をp(0以上)、上記所定の範囲をL(0以上)とした時に、上記変形比率r=1+pi,iは|pi|≦L,-1<piを満たす整数、とすることを特徴とする音声合成装置。
  5. 音声データベースから探索された候補素片を結合して合成音声を生成する音声合成方法であって、
    上記候補素片を上記音声データベースから探索する候補素片選択過程は、
    ターゲットF0パターンを入力として、当該ターゲットF0パターンを変形する変形量aを、所定の範囲内において1個以上算出するターゲットF0変形量算出ステップと、
    上記ターゲットF0パターンを上記変形量aの周波数分シフトして1個以上のターゲット変形F0パターンを生成するターゲットF0変形ステップと、
    上記変形量aに対応するF0変形サブコストを計算するF0変形サブコスト計算手段と、
    上記ターゲット変形F0パターンと上記音声データベースに格納された候補素片を入力として、上記ターゲット変形F0パターンと上記候補素片との間の歪みを表す複数のサブコストを計算するサブコスト計算ステップと、
    上記複数のサブコストと、上記F0変形サブコストを入力として、合成対象の文全体に対する総コストを、探索仮説ごとに計算して上記総コストが最も小さくなる候補素片番号列を出力する探索仮説展開ステップと、
    を含み、上記候補素片選択過程の各ステップは上記ターゲット変形F0パターンの数+1回の回数繰り返して処理を行い、
    上記候補素片選択過程は、更に上記候補素片番号列に対応する候補素片列を上記音声データベースから読み出して出力する選択ステップを含むことを特徴とする音声合成方法。
  6. 請求項5に記載した音声合成方法において、
    上記ターゲットF0変形量算出ステップは、上記変形量aの変形幅をh(0以上)、上記所定の範囲をK(0以上)とした時に、上記変形量a=hi,iは|hi|≦Kを満たす整数、とすることを特徴とする音声合成方法。
  7. 音声データベースから探索された候補素片を結合して合成音声を生成する音声合成方法であって、
    上記候補素片を上記音声データベースから探索する候補素片選択過程は、
    ターゲットF0パターンを入力として、当該ターゲットF0パターンを変形する変形比率rを、所定の範囲内において1個以上算出するターゲットF0変形量算出ステップと、
    上記ターゲットF0パターンを上記変形比率rの周波数分シフトして1個以上のターゲット変形F0パターンを生成するターゲットF0変形ステップと、
    上記変形比率rに対応するF0変形サブコストを計算するF0変形サブコスト計算ステップと、
    上記ターゲット変形F0パターンと上記音声データベースに格納された候補素片を入力として、上記ターゲット変形F0パターンと上記候補素片との間の歪みを表す複数のサブコストを計算するサブコスト計算ステップと、
    上記複数のサブコストと、上記F0変形サブコストを入力として、合成対象の文全体に対する総コストを、探索仮説ごとに計算して上記総コストが最も小さくなる候補素片番号列を出力する探索仮説展開ステップと、
    を含み、上記候補素片選択過程の各ステップは上記ターゲット変形F0パターンの数+1回の回数繰り返して処理を行い、
    上記候補素片選択過程は、更に上記候補素片番号列に対応する候補素片列を上記音声データベースから読み出して出力する選択ステップを含むことを特徴とする音声合成方法。
  8. 請求項7に記載した音声合成方法において、
    上記ターゲットF0変形量算出ステップは、上記変形比率rの変形単位をp(0以上)、上記所定の範囲をL(0以上)とした時に、上記変形比率r=1+pi,iは|pi|≦L,-1<piを満たす整数、とすることを特徴とする音声合成方法。
  9. 請求項1乃至4の何れかに記載した音声合成装置としてコンピュータを機能させるためのプログラム。
JP2011108025A 2011-05-13 2011-05-13 音声合成装置とその方法とプログラム Active JP5512597B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011108025A JP5512597B2 (ja) 2011-05-13 2011-05-13 音声合成装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011108025A JP5512597B2 (ja) 2011-05-13 2011-05-13 音声合成装置とその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2012237925A JP2012237925A (ja) 2012-12-06
JP5512597B2 true JP5512597B2 (ja) 2014-06-04

Family

ID=47460857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011108025A Active JP5512597B2 (ja) 2011-05-13 2011-05-13 音声合成装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP5512597B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087622B2 (en) 2019-03-18 2021-08-10 Subaru Corporation Attention calling apparatus for vehicle, method of calling attention to driving of vehicle, and computer-readable recording medium containing program

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6291887B2 (ja) * 2014-02-14 2018-03-14 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
JP6519096B2 (ja) * 2014-02-14 2019-05-29 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
JP2016065900A (ja) * 2014-09-22 2016-04-28 カシオ計算機株式会社 音声合成装置、方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3437472B2 (ja) * 1998-12-25 2003-08-18 松下電器産業株式会社 音声合成方法とその装置
JP3576066B2 (ja) * 1999-03-25 2004-10-13 松下電器産業株式会社 音声合成システム、および音声合成方法
JP4223783B2 (ja) * 2002-10-16 2009-02-12 シャープ株式会社 音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体
JP2005091747A (ja) * 2003-09-17 2005-04-07 Mitsubishi Electric Corp 音声合成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087622B2 (en) 2019-03-18 2021-08-10 Subaru Corporation Attention calling apparatus for vehicle, method of calling attention to driving of vehicle, and computer-readable recording medium containing program

Also Published As

Publication number Publication date
JP2012237925A (ja) 2012-12-06

Similar Documents

Publication Publication Date Title
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US7219060B2 (en) Speech synthesis using concatenation of speech waveforms
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
US8108216B2 (en) Speech synthesis system and speech synthesis method
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP5434587B2 (ja) 音声合成装置及び方法とプログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US9754024B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
US20130325477A1 (en) Speech synthesis system, speech synthesis method and speech synthesis program
JPWO2015092936A1 (ja) 音声合成装置、音声合成方法およびプログラム
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP5512597B2 (ja) 音声合成装置とその方法とプログラム
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
Van Do et al. Non-uniform unit selection in Vietnamese speech synthesis
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5366919B2 (ja) 音声合成方法、装置、及びプログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6479637B2 (ja) 文章セット生成装置、文章セット生成方法、プログラム
JP4297496B2 (ja) 音声合成方法及びその装置
JP5449022B2 (ja) 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム
JP2016151709A (ja) 音声合成装置及び音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140326

R150 Certificate of patent or registration of utility model

Ref document number: 5512597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150