JP5366919B2 - Speech synthesis method, apparatus, and program - Google Patents
Speech synthesis method, apparatus, and program Download PDFInfo
- Publication number
- JP5366919B2 JP5366919B2 JP2010272560A JP2010272560A JP5366919B2 JP 5366919 B2 JP5366919 B2 JP 5366919B2 JP 2010272560 A JP2010272560 A JP 2010272560A JP 2010272560 A JP2010272560 A JP 2010272560A JP 5366919 B2 JP5366919 B2 JP 5366919B2
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- target
- sub
- candidate segment
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、例えば波形接続型の音声合成における音声波形素片選択過程に用いられ、高品質なイントネーションを持つ音声合成を可能とする音声合成方法、装置、及びプログラムに関する。 The present invention relates to a speech synthesis method, apparatus, and program that are used, for example, in a speech waveform segment selection process in waveform-connected speech synthesis and enable speech synthesis with high quality intonation.
近年の音声合成の分野では、大容量の記憶装置に数十分から数十時間の大量の肉声データを格納して音声波形データベースとし、入力されたテキストに応じて適切な基準で音声波形データベースから適切な長さの音声波形を切り出して音声波形素片とし、それらを接続して合成音声を作成する音声合成方法や音声合成装置が提案されている(特許文献1)。以下、図1及び図2を参照して従来の音声合成装置90を詳細に説明する。図1は従来の音声合成装置90の構成を示すブロック図である。図2は従来の音声合成装置90が備える音声情報インデックス952を例示する図である。従来の音声合成装置90は、テキスト解析部91と、韻律生成部92と、候補素片選択部93と、音声合成部94と、音声波形データベース95とを備える。音声波形データベース95は音声波形データ951と、音声情報インデックス952とを備える。音声合成装置90はテキスト情報を入力とし、合成音声を出力する装置である。音声波形データベース95はハードディスクなどの記憶媒体で構成されており、音声波形データ951と、音声情報インデックス952とを記憶している。音声波形データ951には、単語や文章を読み上げた音声データにAD変換を施した音声波形素片が記憶されている。音声波形データ951が記憶する音声波形素片は、音声合成において、音声合成の候補となる素片であるため、以下、これらの音声波形素片を候補素片という。また、2以上の候補素片をまとめて呼ぶ場合は候補素片群という。音声情報インデックス952は、図2に例示するように音素を単位とするエントリーからなるテーブルである。各エントリーは音声波形データ951に対応して、候補素片の通し番号である素片番号、候補素片の音素を分類する音素ラベル、候補素片の継続時間長を示す音素継続時間(ms)、候補素片の音高の時間推移を表したF0パターン情報(Hz)、音声波形データ951中での各候補素片の格納場所情報である素片データ位置とを備えている。素片データ位置は、具体的には音声波形データ951を記憶するハードディスクのメモリアドレスなどを示している。例えば、素片番号1番の候補素片は音素ラベル「a」に分類されるデータである。言い換えれば、素片番号1番の候補素片は音素ラベル「a」に分類される候補素片のひとつである。素片番号1番の候補素片の音素継続時間長は85(ms)で、そのF0は300→302→303→・・・→301(Hz)と時間推移する。また、素片番号1番の候補素片は素片データ位置0に格納されている。具体的には、素片番号1番の候補素片は、音声波形データ951を記憶するハードディスクのメモリアドレス0番地に格納されている。また、素片番号2番の候補素片は音素ラベル「s」に分類される候補素片の一つであり、音素「s」は、声帯の振動を伴わない無声音である。無声音の発声時には、声帯の振動が停止するため、無声音には基本周波数(F0)が存在しない。このため、例えば素片番号2番のように、無声音であるエントリーのF0パターン情報(Hz)には、F0情報が存在しないことを意味する数値として例えば−1を格納しておくものとする。
In the field of speech synthesis in recent years, a large amount of tens of minutes to several tens of hours of real voice data is stored in a large-capacity storage device as a speech waveform database. A speech synthesis method and speech synthesizer have been proposed in which speech waveforms of appropriate lengths are cut out to form speech waveform segments and connected to create synthesized speech (Patent Document 1). Hereinafter, a
次に、前述の図1及び図2と併せて図3を参照し、従来の音声合成装置90が行う音声合成動作について詳細に説明する。図3は従来の音声合成装置90の動作を示すフローチャートである。音声合成装置90に音声合成対象となるテキストが入力されたことを前提に説明を進める。テキスト解析部91は、音声合成装置90に入力されたテキストを取得して、当該取得したテキストを形態素解析し、当該形態素解析結果から音素列とアクセント型とを生成して、当該音素列とアクセント型とを韻律生成部92に出力する(S91)。韻律生成部92は、テキスト解析部91が出力した音素列とアクセント型とを取得して、音素毎にF0パターンと音素継続時間長とを推定して、当該推定されたF0パターンと音素継続時間長とを音素毎に番号付けして、ターゲットとして候補素片選択部93に出力する(S92)。候補素片選択部93は、韻律生成部92が出力したターゲットを取得して、これらターゲットとの歪みが小さく、かつ候補素片同士を接続した際の接続歪みが小さくなるような候補素片の組み合わせを音声情報インデックス952から選択して、当該選択した候補素片の素片番号を音声合成部94に出力する(S93)。上記の歪みを定義する距離尺度をコストと呼ぶ。候補素片選択部93は、コストが最小となる候補素片の組み合わせを決定する。コストが最小となる候補素片の組み合わせの決定には動的計画法などを用いる。候補素片選択部93が行うコスト計算の詳細については後述する。音声合成部94は、候補素片選択部93が出力した候補素片の素片番号を取得して、素片番号と対応する候補素片を音声波形データ951から読み出し、これらの候補素片を接続して音声を生成し、合成音声として出力する(S94)。
Next, referring to FIG. 3 in conjunction with FIG. 1 and FIG. 2 described above, the speech synthesis operation performed by the conventional
次に、候補素片選択部93が計算するコストについて具体的に説明する。テキスト解析部91が出力した音素列のうちj番目(jは1以上の整数)の音素のターゲットをt(j)とする。前述のようにターゲットは音素毎のF0パターン情報と音素継続時間長の情報とからなる。音声波形データ951に格納されている音声波形素片のうちターゲットt(j)に対応する候補素片群をU(j)と表す。候補素片群U(j)は、音声情報インデックス952に格納されたエントリーのうち、ターゲットt(j)と音素ラベルが合致するエントリー全てを表すものとする。候補素片群U(j)のうちの任意の1の候補素片をu(j)と表し、以下の説明に用いる。t(j)とu(j)の歪みを表す距離尺度をターゲットコストCt(t(j),u(j))とする。ターゲットコストCt(t(j),u(j))は、後述する各種サブコストの重みつき和として、
Ct(t(j),u(j))=Wtf・Stf(t(j),u(j))+Wtdur・Stdur(t(j),u(j))
と定義する。また、u(j-1)とu(j)の間の接続歪みを表す接続コストを、Cc(u(j-1),u(j))とする。接続コストCc(u(j-1),u(j))は、後述する各種サブコストの重みつき和として、
Cc(u(j-1),u(j))=Wcf・Scf(u(j-1),u(j))+Wcenv・Scenv(u(j-1),u(j))
と定義する。WtfはStf(t(j),u(j))に対する重み、WtdurはStdur(t(j),u(j))に対する重み、WcfはScf(u(j-1),u(j))に対する重み、WcenvはScenv(u(j-1),u(j))に対する重みである。Stf(t(j),u(j))はターゲットt(j)と候補素片u(j)の間でのF0パターンの歪みを表し、ターゲットt(j)のF0パターンをFt(t(j))、u(j)のF0パターンをFu(u(j))としたとき、Ft(t(j))とFu(u(j))の差の二乗
Stf(t(j),u(j))={Ft(t(j))-Fu(u(j))}2
とする。以下これを、ターゲットF0サブコストと呼ぶ。なお、ここで候補素片が無声音である場合は、F0パターンを持っていないことにより、ターゲットF0サブコストを求めることができないため、Stf(t(j),u(j))の値を一定値(例えば0)とする。Stdur(t(j),u(j))はターゲット音素t(j)と候補素片u(j)の間での継続時間長の歪みを表し、t(j)の継続時間長をDURt(t(j))、u(j)の継続時間長をDURu(u(j))としたとき、DURt(t(j))とDURu(u(j))の差の二乗
Stdur(t(j),u(j))={DURt(t(j))-DURu(u(j))}2
とする。以下これを、ターゲット継続時間長サブコストと呼ぶ。Scf(u(j-1),u(j))は候補素片u(j)と、先行する候補素片u(j-1)の接続点でのF0の歪みを表し、u(j)の始点のF0をFSu(u(j))、u(j-1)の終点のF0をFEu(u(j-1))としたとき、FSu(u(j))とFEu(u(j-1))の差の二乗
Scf(u(j-1),u(j))={FSu(u(j))-FEu(u(j-1))}2
とする。以下これを、接続F0サブコストと呼ぶ。なお、ここでu(j-1)とu(j)のいずれか、あるいは双方が無声音である場合は、F0値を持っていないことにより、F0サブコストを求めることができないため、Scf(u(j-1),u(j))の値を一定値(例えば0)とする。Scenv(u(j-1),u(j))は候補素片u(j)と、先行する候補素片u(j-1)の前後の音素環境の違いを表し、ターゲットt(j)と音素情報インデックス952中でu(j-1)に後続する音素ラベルの音響的類似度、および、ターゲットt(j-1)と音素情報インデックス952中でu(j)に先行する音素ラベルの音響的類似度から定義される。以下これを、接続音素環境サブコストと呼ぶ。ターゲットt(j)とu(j-1)の後続音素、および、ターゲットt(j-1)とu(j)の先行音素の音響的類似度が高いほど、当該サブコストの値は小さくなり、例えば、t(j)と音素情報インデックス952中でu(j-1)に後続する音素ラベルが一致し、かつ、t(j-1)と音素情報インデックス952中でu(j)に先行する音素ラベルが一致すれば、Scenv(u(j-1),u(j))=0である。これらのサブコストのうち、Stf(t(j),u(j))、Stdur(t(j),u(j))は、韻律生成部92で推定したターゲットに対する、候補素片群の持つF0パターンや音素継続時間長の差からなるサブコストである。また、Scf(u(j-1),u(j))、Scenv(u(j-1),u(j))は、候補素片間でのF0パターンや音素環境の違いからなるサブコストである。前記サブコストの計算に必要なu(j)のF0パターンや継続時間長は、音声情報インデックス952から得ることができる。候補素片群U(j)に候補素片u(j)が2以上存在する場合(つまり、同じ音素の候補が2以上存在する場合)、上記の計算は候補素片の数分だけ繰り返される。合成対象の文全体に対する総コストCを
Next, the cost calculated by the candidate
Ct (t (j), u (j)) = Wtf ・ Stf (t (j), u (j)) + Wtdur ・ Stdur (t (j), u (j))
It is defined as Further, the connection cost representing the connection distortion between u (j-1) and u (j) is Cc (u (j-1), u (j)). The connection cost Cc (u (j-1), u (j)) is a weighted sum of various subcosts to be described later.
Cc (u (j-1), u (j)) = Wcf ・ Scf (u (j-1), u (j)) + Wcenv ・ Scenv (u (j-1), u (j))
It is defined as Wtf is the weight for Stf (t (j), u (j)), Wtdur is the weight for Stdur (t (j), u (j)), Wcf is Scf (u (j-1), u (j)) Wcenv is a weight for Scenv (u (j-1), u (j)). Stf (t (j), u (j)) represents the distortion of the F0 pattern between the target t (j) and the candidate segment u (j), and the F0 pattern of the target t (j) is expressed as Ft (t ( j)), when the F0 pattern of u (j) is Fu (u (j)), the square of the difference between Ft (t (j)) and Fu (u (j))
Stf (t (j), u (j)) = {Ft (t (j))-Fu (u (j))} 2
And This is hereinafter referred to as target F0 sub cost. If the candidate segment is an unvoiced sound, the target F0 subcost cannot be obtained because it does not have an F0 pattern, so the value of Stf (t (j), u (j)) is a constant value. (For example, 0). Stdur (t (j), u (j)) represents the distortion of the duration between the target phoneme t (j) and the candidate unit u (j), and the duration of t (j) is expressed as DURt ( t (j)), when the duration of u (j) is DURu (u (j)), the square of the difference between DURt (t (j)) and DURu (u (j))
Stdur (t (j), u (j)) = {DURt (t (j))-DURu (u (j))} 2
And Hereinafter, this is referred to as a target duration long sub-cost. Scf (u (j-1), u (j)) represents the distortion of F0 at the connection point between the candidate element u (j) and the preceding candidate element u (j-1), and u (j) Where Fu (u (j)) and FEu (u (j ()) are Fu (u (j)) and Fu (u (j-1)) is Fu (u (j-1)). -1)) squared difference
Scf (u (j-1), u (j)) = {FSu (u (j))-FEu (u (j-1))} 2
And Hereinafter, this is referred to as connection F0 sub-cost. Note that if either u (j-1) or u (j) or both are unvoiced sounds, the F0 sub-cost cannot be obtained because it does not have an F0 value, so Scf (u ( The values of j-1) and u (j)) are set to constant values (for example, 0). Scenv (u (j-1), u (j)) represents the difference between the phoneme environment before and after the candidate unit u (j) and the preceding candidate unit u (j-1), and the target t (j) And the phonetic label of the phoneme label that precedes u (j-1) in the
と定義したとき(ここで、Nは合成対象の文の音素数)、Cを最小にするような候補素片の組み合わせを、例えば動的計画法等の方法で求めることにより、ターゲットに対して最適な候補素片を決定する。 (Where N is the number of phonemes in the sentence to be synthesized), the candidate segment combination that minimizes C is determined by a method such as dynamic programming. The optimal candidate segment is determined.
次に、図4、図5を参照して候補素片選択部93が行う動作について詳細に説明する。図4は従来の音声合成装置90が備える候補素片選択部93の詳細を示すブロック図である。図5は従来の音声合成装置90が備える候補素片選択部93の動作を示すフローチャートである。候補素片選択部93は、ターゲットF0サブコスト計算手段931と、ターゲット継続時間長サブコスト計算手段932と、接続F0サブコスト計算手段934と、接続音素環境サブコスト計算手段935と、探索仮説展開手段936と、選択手段937とを備える。ターゲットF0サブコスト計算手段931は、j番目のターゲットt(j)のF0パターンと、j番目の候補素片群U(j)のF0パターンとを用いて、ターゲットF0サブコストを計算する(S931)。ターゲット継続時間長サブコスト計算手段932は、j番目のターゲットt(j)の継続時間長と、j番目の候補素片群U(j)の継続時間長群とを用いて、ターゲット継続時間長サブコストを計算する(S932)。ここで、ターゲットt(j)に対応する探索仮説群をH(j)と表す。また、H(j)のうち任意の1の探索仮説をh(j)と表す。接続F0サブコスト計算手段934は、探索仮説群H(j-1)の候補素片u(j-1)の終点のF0と、j番目の候補素片群U(j)の始点のF0とを用いて、接続F0サブコストを計算する(S934)。接続音素環境サブコスト計算手段935は、探索仮説群H(j-1)の候補素片u(j-1)と、j番目の候補素片群U(j)との音響的類似度を接続音素環境サブコストとして計算する(S935)。次に探索仮説展開手段936は、探索仮説群H(j-1)の各仮説h(j-1)に上記計算したサブコストを加算したと仮定した場合に、最も低いコストとなる1の探索仮説h(j-1)に候補素片u(j)を追加し、新たな探索仮説h(j)とする(S936)。このようにして候補素片群U(j)の各候補素片u(j)に対し、ステップS931〜ステップS936が繰り返し実行され、上記サブコストの計算及び探索仮説の展開が行われる(S93b、S93c)。さらに各ターゲットに対し、ステップS931〜ステップS936が繰り返し実行され(S93b、S93c)、各ターゲットの候補素片群に対応する探索仮説群が展開される(S93a、S93d)。次に、選択手段937は上記展開した探索仮説群を参照して、最終的に最もコストの低い探索仮説のパスに含まれる候補素片の素片番号が音声合成部94に出力される。素片番号を取得した音声合成部94の動作は前述のとおりである。このようにして、音声合成装置90は、入力されたテキストから生成した音素毎のターゲットに最適な候補素片を選択し、当該選択した候補素片同士を接続することで入力されたテキストに対応する合成音声を生成することができる。
Next, the operation performed by the candidate
接続F0サブコスト計算手段934において、隣接する候補素片のいずれかもしくは双方が無声音である場合には、これら無声音の候補素片はF0パターンが存在しないため、接続F0サブコストを計算することができない。この場合は前述したように接続F0サブコストの値を一定値、例えば0とみなすこととしている。このため、例えば音素列/A/−/S/―/U/における二番目の音素/S/のように候補素片間のF0の距離が評価されないため、選択手段936で選択される候補素片のイントネーションについて、その連続性は必ずしも保証されないという問題がある。この典型的な例を図6を用いて具体的に説明する。図6は従来の音声合成装置90の候補素片選択部93が選択する候補素片を例示する図である。図6のグラフは横軸を時間(ms)、縦軸を周波数(Hz)とする。図6中破線で表された曲線は韻律生成部92が生成したターゲットのF0パターンである。ターゲットのF0パターンは音素の区間毎に区切られて候補素片と比較される。図6では破線で表された曲線を、音素毎に区切られた範囲についてターゲット31、ターゲット32、ターゲット33、ターゲット35、ターゲット36と呼ぶこととする。具体的にはターゲットのF0パターンの音素/E/で区切られる範囲をターゲット31、音素/S/で区切られる範囲をターゲット32、音素/A/で区切られる範囲をターゲット33、音素/K/で区切られる範囲をターゲット35、音素/I/で区切られる範囲をターゲット36と呼ぶ。ターゲット31に対応する候補素片は候補素片21であるものとする。ターゲット33に対応する候補素片群は候補素片23および候補素片24であるものとし、候補素片を2つ有している。ターゲット36に対応する候補素片は候補素片26であるものとする。ターゲット32およびターゲット35の候補素片については図示を省略する。
In the connection F0 sub cost calculation means 934, if either or both of the adjacent candidate segments are unvoiced sounds, the connection segment F0 sub cost cannot be calculated because there is no F0 pattern for these unvoiced sound candidate segments. In this case, as described above, the value of the connection F0 sub-cost is assumed to be a constant value, for example, 0. For this reason, since the distance of F0 between candidate segments is not evaluated as in the second phoneme / S / in the phoneme string / A / − / S / − / U /, for example, the candidate element selected by the
ここで、候補素片23、候補素片24の音素環境はともに前環境/S/、後環境/K/であって、接続音素環境サブコストの値は0であるものとする。また、候補素片23と候補素片24の音素継続時間長は等しいものとし、ターゲット継続時間長サブコストの値は互いに等しいものとする。この場合、選択可能な候補素片の組み合わせ(音声波形素片列)は、候補素片21→候補素片23→候補素片26の組み合わせAか、候補素片21→候補素片24→候補素片26の組み合わせBの何れかである。ここで、組み合わせAのほうが大局的なF0パターンの連続性が保たれるため、自然なイントネーションが期待できる。しかしながら前述のターゲットF0サブコスト計算手段931は、候補素片23のターゲットF0サブコストよりも候補素片24のターゲットF0サブコストを小さな値に計算してしまう。また、候補素片23および候補素片24はいずれも先行音素が無声音の/S/であるため、接続F0サブコストが計算できず、その値は0となる。前述したように、候補素片23、候補素片24の接続音素環境サブコスト、ターゲット継続時間長サブコストの値は互いに等しい。従って、ターゲットコストと接続コストの和を比較すると、候補素片23よりも候補素片24のほうがコストの和が小さくなるため、自然なイントネーションが期待できない候補素片24が選択されてしまう。本発明は、図6のように有声音同士が無声音を介して接続されているようなターゲットに対しても、合成音声のイントネーションの連続性を保ち、合成音声が高品質となるよう候補素片を選択することができる音声合成装置を提供することを目的とする。
Here, the phoneme environments of the
本発明の音声合成装置は、音声波形データベースに記憶された複数の候補素片(候補素片群)から、音素ラベル毎に番号付けした合成音声目標(ターゲット)に適した候補素片を選択し、当該選択した候補素片を接続して合成音声を生成する。本発明の音声合成装置は少なくとも先行有声候補素片探索手段と、接続F0サブコスト計算手段と、選択手段とを備えることを特徴とする。先行有声候補素片探索手段は、i番目のターゲット(iは3以上の自然数)が有声音であって、(i-1)番目のターゲットが無声音であった場合に、kが2以上であってkが最小となる(i-k)番目の有声音となるターゲットに適した候補素片として選択されている候補素片(以下、(i-k)番目の候補素片という)を探索する。接続F0サブコスト計算手段は、(i-k)番目の候補素片の終端位置のF0値とi番目のターゲットに対応する候補素片群(以下、i番目の候補素片群という)の各候補素片の先頭位置のF0値群から接続F0サブコストを計算する。選択手段は、接続F0サブコストに基づいてi番目の候補素片群から、i番目のターゲットに適した1の候補素片を選択してi番目の候補素片とする。 The speech synthesizer of the present invention selects candidate segments suitable for a synthesized speech target (target) numbered for each phoneme label from a plurality of candidate segments (candidate segment group) stored in the speech waveform database. Then, the selected candidate segments are connected to generate a synthesized speech. The speech synthesizer of the present invention comprises at least a preceding voiced candidate segment search means, a connected F0 sub-cost calculation means, and a selection means. In the preceding voiced candidate segment search means, when the i-th target (i is a natural number of 3 or more) is a voiced sound and the (i-1) -th target is an unvoiced sound, k is 2 or more. The candidate segment selected as the candidate segment suitable for the target of the (ik) th voiced sound with the smallest k is searched (hereinafter referred to as the (ik) th candidate segment). The connected F0 sub-cost calculating means calculates each candidate segment of the candidate segment group (hereinafter referred to as the i-th candidate segment group) corresponding to the F0 value of the terminal position of the (ik) th candidate segment and the i-th target. The connection F0 sub-cost is calculated from the F0 value group at the head position of. The selection means selects one candidate segment suitable for the i-th target from the i-th candidate segment group based on the connection F0 sub-cost and sets it as the i-th candidate segment.
本発明の音声合成装置によれば、有声音同士が無声音を介して接続されているようなターゲットに対しても、合成音声のイントネーションの連続性を保ち、合成音声が高品質となるよう候補素片を選択することができる。 According to the speech synthesizer of the present invention, even if a target in which voiced sounds are connected via unvoiced sound, the candidate speech is maintained so that the synthesized speech can be of high quality while maintaining the continuity of the synthesized speech intonation. A piece can be selected.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
図7を参照して、実施例1に係る音声合成装置10について詳細に説明する。図7は本実施例に係る音声合成装置10の構成例を示すブロック図である。本実施例の音声合成装置10は、テキスト解析部91と、韻律生成部92と、候補素片選択部13と、音声合成部94と、音声波形データベース95とを備える。音声波形データベース95は音声波形データ951と、音声情報インデックス952とを備える。従来技術の音声合成装置90と異なる番号を付した候補素片選択部13(図中太枠で表示)以外の各構成部については、従来技術の音声合成装置90と全く同じ動作をするため、その説明を省略する。次に、図8、図9を参照して、従来技術と異なる候補素片選択部13について詳細に説明する。図8は本実施例に係る音声合成装置10が備える候補素片選択部13の詳細を示すブロック図である。図9は本実施例に係る音声合成装置10が備える候補素片選択部13の動作を示すフローチャートである。候補素片選択部13は、ターゲットF0サブコスト計算手段931と、ターゲット継続時間長サブコスト計算手段932と、先行有声候補素片探索手段133と、接続F0サブコスト計算手段134と、接続音素環境サブコスト計算手段935と、探索仮説展開手段936と、選択手段937とを備える。従来技術の音声合成装置90と異なる番号を付した先行有声候補素片探索手段133および接続F0サブコスト計算手段134(図中太枠で表示)以外の各構成部については、従来技術の音声合成装置90と全く同じ動作をするため、その説明を省略する。
With reference to FIG. 7, the
先行有声候補素片探索手段133は、i番目のターゲット(iは3以上の自然数)が有声音であって、(i-1)番目のターゲットが無声音であった場合に(S13aY)、kが2以上であってkが最小となる(i-k)番目の有声音となるターゲットに適した候補素片として選択されている候補素片((i-k)番目の候補素片)を、(i-1)番目の候補素片の探索仮説のパスをt(1)の方向に辿って探索する(S133)。先行する有声音の候補素片が存在する場合に(S13bY)、接続F0サブコスト計算手段134は、前記(i-k)番目の候補素片の終端位置のF0値と前記i番目のターゲットに対応する候補素片群(i番目の候補素片群)の各候補素片の先頭位置のF0値群から接続F0サブコストを計算する(S134)。一方、ステップS13aの条件を満たさない場合(例えば、u(i)が無声音である場合、u(i)が有声音であるが、先行音素も有声音である場合、S13aN)、ステップS134に移り、従来技術の音声合成装置90と同様に(i-1)番目の候補素片の終端位置のF0値とi番目の候補素片群の各候補素片の先頭位置のF0値群から接続F0サブコストを計算する(S134)。また、ステップS13bの条件を満たさない場合(例えば、探索の結果、無声音が文頭に来ており、先行する有声音が無かった場合など、S13bN)、従来技術と同様、(i-1)番目の候補素片の終端位置のF0値とi番目の候補素片群の各候補素片の先頭位置のF0値群から接続F0サブコストを計算する(S134)。
The preceding voiced candidate segment searching means 133, when the i-th target (i is a natural number of 3 or more) is a voiced sound and the (i-1) -th target is an unvoiced sound (S13aY), A candidate segment ((ik) th candidate segment) selected as a candidate segment suitable for the target of the (ik) th voiced sound that is 2 or more and has the smallest k is (i-1). The search hypothesis path of the first candidate segment is traced in the direction of t (1) to search (S133). When there is a preceding voiced sound candidate segment (S13bY), the connected F0
次に、図10を参照して、本実施例の音声合成装置が従来技術の音声合成装置90よりも優れた効果を発揮する典型例として、図6の例を再度用いて具体的に説明する。図10は本実施例に係る音声合成装置10の候補素片選択部13が選択する候補素片を例示する図であり、図6との相違点は音素/E/と音素/S/の境界を位置L、音素/S/と音素/A/の境界を位置Tとして示した点、候補素片21の終端部を*21a、候補素片23の先頭部を○23a、候補素片24の先頭部を△24aとして示した点のみである。本実施例の候補素片選択部13の先行有声候補素片探索手段133は、音素/A/の候補素片を決定する際に、音素/A/の先行音素が無声音/S/であるため、音素/A/に先行する有声音の候補素片を探索する(S133)。先行する候補素片として音素/E/のターゲットに適しているとして選択されている候補素片21が存在するため、接続F0サブコスト計算手段134は、候補素片21の終端位置LのF0値(図の*21a)と候補素片23の先頭位置TのF0値(図の○23a)から接続F0サブコストを計算する(S134)。同様に、接続F0サブコスト計算手段134は、候補素片21の終端位置LのF0値(図の*21a)と候補素片24の先頭位置TのF0値(図の△24a)から接続F0サブコストを計算する(S134)。このようにして計算した接続F0サブコストおよび、従来と同様にして計算したターゲットF0サブコスト、ターゲット継続時間長サブコスト、接続音素環境サブコストを用いて、ターゲットコストと接続コストの和を比較すると、候補素片24よりも候補素片23のほうがコストの和が小さくなるため、自然なイントネーションが期待できる候補素片23が選択される。このようにして本実施例に係る音声合成装置10によれば、有声音同士が無声音を介して接続されているようなターゲットに対しても、合成音声が自然なイントネーションを有するように候補素片を選択することができる。
Next, with reference to FIG. 10, as a typical example in which the speech synthesizer of the present embodiment exhibits an effect superior to that of the
Claims (5)
i番目のターゲット(iは3以上の自然数)が有声音であって、(i-1)番目のターゲットが無声音であった場合に、kが2以上であってkが最小となる(i-k)番目の有声音となるターゲットに適した候補素片として選択されている候補素片(以下、(i-k)番目の候補素片という)を探索する先行有声候補素片探索サブステップと、
前記(i-k)番目の候補素片の終端位置のF0値と前記i番目のターゲットに対応する候補素片群(以下、i番目の候補素片群という)の各候補素片の先頭位置のF0値群から接続F0サブコストを計算する接続F0サブコスト計算サブステップと、
前記接続F0サブコストに基づいて前記i番目の候補素片群から、前記i番目のターゲットに適した1の候補素片を選択してi番目の候補素片とする選択サブステップと
を有する候補素片選択ステップを有すること
を特徴とする音声合成方法。 Select a candidate segment suitable for a synthesized speech target (hereinafter referred to as a target) numbered for each phoneme label from a plurality of candidate segments (hereinafter referred to as a candidate segment group) stored in the speech waveform database, A speech synthesis method for generating synthesized speech by connecting the selected candidate segments,
When the i-th target (i is a natural number of 3 or more) is a voiced sound and the (i-1) -th target is an unvoiced sound, k is 2 or more and k is minimized (ik) A preceding voiced candidate segment search substep for searching for a candidate segment (hereinafter referred to as (ik) th candidate segment) selected as a candidate segment suitable for the target that is the th voiced sound;
The F0 value of the end position of the (ik) th candidate element and the F0 of the leading position of each candidate element of the candidate element group corresponding to the i th target (hereinafter referred to as the i th candidate element group) A connection F0 subcost calculation substep for calculating a connection F0 subcost from a value group; and
A candidate element having a selection sub-step of selecting one candidate element suitable for the i-th target from the i-th candidate element group based on the connection F0 sub-cost and making it the i-th candidate element A speech synthesis method comprising a single selection step.
前記候補素片選択ステップが、
前記i番目のターゲットのF0パターンと、前記i番目の候補素片群のF0パターン群とを用いて、ターゲットF0サブコストを計算するターゲットF0サブコスト計算サブステップと、
前記i番目のターゲットの継続時間長と、前記i番目の候補素片群の継続時間長群とを用いて、ターゲット継続時間長サブコストを計算するターゲット継続時間長サブコスト計算サブステップと、
(i-1)番目の候補素片と、前記i番目の候補素片群との音響的類似度を接続音素環境サブコストとして計算する接続音素環境サブコスト計算サブステップと、
を有し、
前記選択サブステップが、前記接続F0サブコストに加え、前記ターゲットF0サブコスト、前記ターゲット継続時間長サブコスト、前記接続音素環境サブコストに基づいて前記i番目の候補素片群から、前記i番目のターゲットに適した1の候補素片を選択してi番目の候補素片とすること
を特徴とする音声合成方法。 The speech synthesis method according to claim 1,
The candidate segment selection step includes:
Using the F0 pattern of the i th target and the F0 pattern group of the i th candidate segment group, a target F0 sub cost calculation substep for calculating a target F0 sub cost;
A target duration length sub-cost calculation sub-step for calculating a target duration length sub-cost using the duration length of the i-th target and the duration length group of the i-th candidate segment group;
(I-1) a connected phoneme environment sub-cost calculation substep for calculating an acoustic similarity between the i th candidate segment and the i th candidate segment group as a connected phoneme environment sub cost;
Have
The selection sub-step is suitable for the i-th target from the i-th candidate segment group based on the target F0 sub-cost, the target duration length sub-cost, and the connected phoneme environment sub-cost in addition to the connection F0 sub-cost. A speech synthesis method, wherein one candidate segment is selected as the i-th candidate segment.
テキストを取得して、当該取得したテキストを形態素解析し、当該形態素解析結果から音素列とアクセント型とを生成して、当該音素列とアクセント型とを出力するテキスト解析ステップと、
前記出力された音素列とアクセント型とを取得して、音素毎にF0パターンと音素継続時間長とを推定して、当該推定されたF0パターンと音素継続時間長とを音素毎に番号付けして前記ターゲットとして出力する韻律生成ステップとをさらに有すること
を特徴とする音声合成方法。 The speech synthesis method according to claim 1 or 2,
A text analysis step of acquiring text, performing morphological analysis on the acquired text, generating a phoneme string and an accent type from the morpheme analysis result, and outputting the phoneme string and the accent type;
Obtain the output phoneme string and accent type, estimate the F0 pattern and phoneme duration for each phoneme, and number the estimated F0 pattern and phoneme duration for each phoneme. And a prosody generation step of outputting the target as the target.
i番目のターゲット(iは3以上の自然数)が有声音であって、(i-1)番目のターゲットが無声音であった場合に、kが2以上であってkが最小となる(i-k)番目の有声音となるターゲットに適した候補素片として選択されている候補素片(以下、(i-k)番目の候補素片という)を探索する先行有声候補素片探索手段と、
前記(i-k)番目の候補素片の終端位置のF0値と前記i番目のターゲットに対応する候補素片群(以下、i番目の候補素片群という)の各候補素片の先頭位置のF0値群から接続F0サブコストを計算する接続F0サブコスト計算手段と、
前記接続F0サブコストに基づいて前記i番目の候補素片群から、前記i番目のターゲットに適した1の候補素片を選択してi番目の候補素片とする選択手段と
を備える候補素片選択部を備えること
を特徴とする音声合成装置。 Select a candidate segment suitable for a synthesized speech target (hereinafter referred to as a target) numbered for each phoneme label from a plurality of candidate segments (hereinafter referred to as a candidate segment group) stored in the speech waveform database, A speech synthesizer that connects the selected candidate segments to generate synthesized speech,
When the i-th target (i is a natural number of 3 or more) is a voiced sound and the (i-1) -th target is an unvoiced sound, k is 2 or more and k is minimized (ik) A preceding voiced candidate segment search means for searching for a candidate segment selected as a candidate segment suitable for the target to be the voiced sound (hereinafter referred to as (ik) th candidate segment);
The F0 value of the end position of the (ik) -th candidate element and the F0 of the leading position of each candidate element of the candidate element group corresponding to the i-th target (hereinafter referred to as the i-th candidate element group) A connection F0 subcost calculating means for calculating a connection F0 subcost from the value group;
A candidate unit comprising: a selecting unit that selects one candidate unit suitable for the i-th target from the i-th candidate unit group based on the connection F0 sub-cost and sets it as the i-th candidate unit A speech synthesizer comprising a selection unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010272560A JP5366919B2 (en) | 2010-12-07 | 2010-12-07 | Speech synthesis method, apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010272560A JP5366919B2 (en) | 2010-12-07 | 2010-12-07 | Speech synthesis method, apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012123096A JP2012123096A (en) | 2012-06-28 |
JP5366919B2 true JP5366919B2 (en) | 2013-12-11 |
Family
ID=46504624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010272560A Expired - Fee Related JP5366919B2 (en) | 2010-12-07 | 2010-12-07 | Speech synthesis method, apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5366919B2 (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000066695A (en) * | 1998-08-18 | 2000-03-03 | Ntt Data Corp | Element dictionary, and voice synthesizing method and device therefor |
JP2002297175A (en) * | 2001-03-29 | 2002-10-11 | Sanyo Electric Co Ltd | Device and method for text voice synthesis, program, and computer-readable recording medium with program recorded thereon |
JP2004125843A (en) * | 2002-09-30 | 2004-04-22 | Sanyo Electric Co Ltd | Voice synthesis method |
JP4274852B2 (en) * | 2003-05-20 | 2009-06-10 | 日本電信電話株式会社 | Speech synthesis method and apparatus, computer program and information storage medium storing the same |
JP4533255B2 (en) * | 2005-06-27 | 2010-09-01 | 日本電信電話株式会社 | Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor |
CN101617359B (en) * | 2007-02-20 | 2012-01-18 | 日本电气株式会社 | Speech synthesizing device, and method |
-
2010
- 2010-12-07 JP JP2010272560A patent/JP5366919B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012123096A (en) | 2012-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4080989B2 (en) | Speech synthesis method, speech synthesizer, and speech synthesis program | |
JP4241762B2 (en) | Speech synthesizer, method thereof, and program | |
JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP4406440B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP5269668B2 (en) | Speech synthesis apparatus, program, and method | |
JP2010049196A (en) | Voice conversion apparatus and method, and speech synthesis apparatus and method | |
JP2009047837A (en) | Speech synthesis method and its device | |
KR20070077042A (en) | Apparatus and method of processing speech | |
CN101131818A (en) | Speech synthesis apparatus and method | |
JP5929909B2 (en) | Prosody generation device, speech synthesizer, prosody generation method, and prosody generation program | |
US9129596B2 (en) | Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality | |
JP4639932B2 (en) | Speech synthesizer | |
JP5512597B2 (en) | Speech synthesis apparatus, method and program thereof | |
JP6669081B2 (en) | Audio processing device, audio processing method, and program | |
JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
JP2009133890A (en) | Voice synthesizing device and method | |
JP4829605B2 (en) | Speech synthesis apparatus and speech synthesis program | |
WO2012032748A1 (en) | Audio synthesizer device, audio synthesizer method, and audio synthesizer program | |
JP5366919B2 (en) | Speech synthesis method, apparatus, and program | |
JP2013156472A (en) | Speech synthesizer and speech synthesis method | |
JP5387410B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
Formiga et al. | Adaptation of the URL-TTS system to the 2010 Albayzin Evaluation Campaign | |
Dong et al. | A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese. | |
JP2006084854A (en) | Device, method, and program for speech synthesis | |
Lin et al. | A corpus-based singing voice synthesis system for Mandarin Chinese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130910 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5366919 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131011 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |