JP5198200B2

JP5198200B2 - 音声合成装置及び方法

Info

Publication number: JP5198200B2
Application number: JP2008245966A
Authority: JP
Inventors: 大威徐
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-09-25
Filing date: 2008-09-25
Publication date: 2013-05-15
Anticipated expiration: 2028-09-25
Also published as: JP2010078808A

Description

本発明は、テキスト音声合成のための音声合成装置及び方法に関する。

非特許文献１（素片選択接続方式）には、韻律情報に対する適合具合を表す目標コストと音声素片間の接続具合を表す接続コストの両方を評価することで、目標音声に対する目標コストと接続コストとの総和が最小になるように一連の音声素片を選択し、それらを接続することで音声を生成する方法が開示されている。

非特許文献２には、固定なdiphone単位の音声素片を接続する音声合成方式において、接続境界の不連続を克服するために、当該接続境界に不連続がない別途の音素単位の素片から抽出したスペクトル情報を基に、音声素片のスペクトル情報を補正する方法が開示されている。
Hunt, A. and Black, A., "Unit selection in a concatenative speech synthesis system using a large speech database", Proc. ICASSP 96, vol 1, pp 373-376, Atlanta, Georgia, 1996. J. Wouters and M. W. Macon, "Unit Fusion for Concatenative Speech Synthesis," Proc. ICSLP2000, Vol.3, pp.302-305, 2000.

非特許文献１記載の技術では、目標音声に対し接続コストの総和が最小になるように一連の音声素片を選択するので、音声素片の数が限定される応用においては、音声素片の前後とも最良な接続が得られるという条件は満たされない場合がある。その結果、音声素片の前後の接続のうち一方の接続が最良でない状態になることがある。

非特許文献２では、接続境界の不連続問題を克服するために、接続素片の単位（ここではdiphone）と交錯した単位（ここでは音素）の音声素片を融合素片として、融合素片から抽出したスペクトル特徴を用いて接続素片のスペクトル特徴を補正する。素片選択接続方式の音声合成方法の音質を向上させるためには、目標音声の各種変化に合うように融合素片も大量に用意する必要があるので、非特許文献２記載の手法は、素片の数が限定される組込み向けの応用などには適用できないという問題点がある。また、非特許文献２に示した素片融合手法は計算量が多いために、組み込み向けの応用に適用するには困難である。

本発明は、上記従来技術の問題点を解決するためになされたものであって、限られた数の音声素片で、（音声素片間の接続を改善することにより）高い音質の合成音声を容易に生成することができる音声合成装置及び方法を提供することを目的とする。

本発明の音声合成装置は、音声素片群と、その各音声素片の音素環境及び韻律情報とを記憶手段に記憶し、目標音声の音素環境及び韻律情報との違いを表す目標コストと、音声素片間の接続のずれの大きさを表す接続コストとの重み付き和が最小となるように、前記目標音声に対応する素片系列を前記音声素片群の中から選択し、前記素片系列中の連続する２つの音声素片毎に、音声素片間の接続のずれの大きさを表す局所的接続コストに第１の重みを付けた値を含む第１の局所コストを計算し、前記素片系列の中から、前記第１の局所コストが予め定められた閾値を越える音声素片対、または前記第１の局所コストが最大の音声素片対を補正対象素片対として選択し、前記音声素片群の中から、前記局所的接続コストに第２の重みを付けた値を含む第２の局所コストが第２の閾値より小さく、且つ、前記第１の局所コストが前記補正対象素片対の前記第１の局所コストよりも小さい２つの音声素片を、前記補正対象素片対を補正するための補正用素片対として選択し、前記補正用素片対と前記補正対象素片対とを、その接続境界に近いほど前記補正用素片対に対する重みを大きくして加算することにより、前記補正対象素片対を補正し、補正後の前記補正対象素片対を含む素片系列中の音声素片を接続することにより合成音声を生成する。

限られた数の音声素片で、高い音質の合成音声を容易に生成することができる。

以下、本発明の実施形態について説明する。

（第１の実施形態）
図１は、第１の実施形態に係る音声合成装置は、図１に示すように、言語解析部１、韻律情報生成部２、波形生成部３、及び音声素片記憶部４を含む。

言語解析部１は入力テキストに対して言語解析を行い、テキストに対応する読み情報である音素列（音韻系列）、文法情報、アクセント情報などの言語情報（各音素に関する音素環境）を韻律生成部２へ出力する。

韻律生成部２は入力された言語情報（音素環境）を基に、韻律生成部２に記憶されている韻律辞書を参照して音素列中の各音素の基本周波数、継続時間長、ポーズなどの目標音声の韻律情報を推定し、ポーズを含む音素列、アクセント情報などの言語情報（音素環境）とともに、該韻律情報を波形生成部３へ出力する。

音声素片記憶部４は、合成単位（例えば、音素、半音素など）毎の音声素片をその音素環境（音素名または半音素名、その前後の音素名や半音素名、アクセント情報など）や韻律情報（基本周波数、継続時間長など）とともに記憶する。

波形生成部３は、素片選択部３１、補正対象選択部３２、補正用素片選択部３３、素片補正部３４、及び素片接続部３５を含む。

素片選択部３１は、音声素片記憶部４に記憶されている音声素片の中から、目標音声に関するポーズを含む音素列、アクセント情報、韻律情報（各音素の基本周波数、及び継続時間長など）に適合する音声素片を選択し、素片系列を得る。

補正対象選択部３２は、素片系列中の連続する（隣り合う）２つの音声素片毎に当該２つの音声素片間の接続の具合（ずれの大きさ）及び目標音声との適合度（違い）を表す局所評価値を計算する。そして、隣り合う２つの音声素片対毎の局所評価値を基に、素片系列から、補正すべき音声素片対（補正対象素片対）を選択する。

補正用素片選択部３３は、音声素片記憶部４に記憶されている音声素片の中から、補正対象素片対を補正する際に用いる音声素片対（補正用音声素片対）を選択する。

素片補正部３４は、補正用音声素片対を用いて補正対象素片対を補正する。

波形接続部３５は、補正対象素片対を素片補正部３４で補正された音声素片対に置き換えた素片系列中の各音声素片を、韻律情報（各音素の基本周波数、継続時間長など）を基に変形した後、ＰＳＯＬＡアルゴリズムなどを用いて、音声素片を接続することで音声波形を生成する。

図１の音声合成装置の処理動作は、まず、音声素片記憶部４に、合成単位毎の音声素片をその音素環境（音素名または半音素名、その前後の音素名や半音素名、アクセント情報など）や韻律情報（基本周波数、継続時間長など）とともに予め記憶する。その後、言語解析部１は入力テキストに対して言語解析を行い、テキストに対応する読み情報である音素列、文法情報、アクセント情報などの言語情報（各音素に関する音素環境）を韻律生成部２へ出力する。韻律生成部２は入力された言語情報（音素環境）を基に、韻律生成部２に記憶されている韻律辞書を参照して音素列中の各音素の基本周波数、継続時間長、ポーズなどの目標音声の韻律情報を推定し、ポーズを含む音素列、アクセント情報などの言語情報（音素環境）とともに、該韻律情報を波形生成部３へ出力する。波形生成部３の処理動作について図２を参照して詳細に説明する。

ステップＳ１において、素片選択部３１は、目標音声の音韻系列（音素列）を合成単位で区切ることにより得られる各音声セグメント（すなわち合成単位）に対し、音声素片記憶部４に記憶されている音声素片の中から、目標音声に関するポーズを含む音素列などの言語情報（音素環境）、韻律情報（各音素の基本周波数及び継続時間長など）に適合する複数の音声素片を選択する。

ここでは、目標音声の各音素の音素環境及び韻律情報と、音声素片記憶部４に記憶されている各音声素片の音素環境及び韻律情報との間の適合度（違いまたは距離）を表す目標コストを計算し、適合度の高い（例えばここでは目標コストが小さい）音声素片を選択する。目標コストは、音声素片の音素環境と目標音声の音素環境との間の違いを表す音素環境サブコスト、音声素片の基本周波数と目標音声の基本周波数との間の違いを表す基本周波数サブコスト、音声素片の継続時間長と目標音声の継続時間長との間の違いを表す時間長サブコストなどの複数種類のサブコストを含み、これら複数種類のサブコストの重み付き和が目標コストである。

目標コストの各種サブコストを計算するための関数（サブコスト関数）をＣ_p ^(t)(t_i,u_i)と表す。ここで、ｔ_iは目標音声の音声セグメント（合成単位）の音素環境または基本周波数または継続時間長などである。番号ｉ（ｉ＝1、２、…Ｉ）は当該音声セグメントの位置を表す。ｕ_ｉは音声セグメントｔ_ｉに対応する1つの音声素片に対応し、ここでは、その音声素片の音素環境または基本周波数または継続時間長などである。ｐ（ｐ＝１、２、…Ｐ）はサブコスト関数の種類を表す。

目標コストを計算するための関数（目標コスト関数）は各種サブコストの重み付き和であって、次式で表すことができる。

目標音声の音声セグメント毎に、音声素片記憶部４に記憶されている各音声素片について（１）式から目標コストを算出して、目標コストが最も小さいものから順に予め定められた値以下の複数の音声素片を選択する。

次に、ステップＳ２へ進む。ステップＳ２では、まず連続する２つの音声セグメント間で、各音声セグメントに対し選択された音声素片を接続したときのずれの大きさを表す接続コスト計算する。

接続コストは、連続する２つの音声セグメント間で音声素片を接続したときの音声素片のスペクトル情報の接続具合（ずれの大きさ）を表すスペクトル接続サブコストと、音声素片のパワー包絡の接続具合（ずれの大きさ）を表すパワー接続サブコストと、音声素片の基本周波数包絡の接続具合（ずれの大きさ）を表す基本周波数接続サブコストとなどの複数種類のサブコストを含み、これら複数種類のサブコストの重み付け和が接続コストである。

連続する２つの音声セグメントｔ_iとｔ_i+1に対し選択された音声素片ｕ_iとｕ_i+1の接続コストの各種サブコストを計算するための関数（サブコスト関数）をＣ_q ^(c)(u_i,u_i+1)と表す。ここでｑ（ｑ＝１、２、…Ｑ）はサブコスト関数の種類を表す。接続コストを計算するための関数（接続コスト関数）は各種サブコストの重み付き和であって、次式で表すことができる。

各音声セグメントｔ_iについて、上述の目標コストに基づき選択された各音声素片のスペクトル情報、パワー包絡、基本周波数包絡を式（２）のｕ_i，ｕ_i+1に当てはめて目標コストを計算する。

次に、ステップＳ３へ進む。ステップＳ３では、各音声セグメントｔ_iに対し上述の目標コストに基づき選択され複数の音声素片の中から、目標コストと接続コストの総和（全体コスト）が最小の音声素片を音声素片候補として選択する。

ここでは、目標コストと接続コストの重要度を勘案し、目標コストと接続コストとに適切な重みをつけた、目標コストと接続コストとの重み付け和を全体コストとする。全体コストは次式（３）に示す全体コスト関数Ｃを用いて計算する。

各音声セグメントにステップＳ１で選択された音声素片を用いたときの目標音声の音素環境及び韻律情報との違いを表す目標コストと、当該音声セグメントに隣接する音声セグメントの音声素片との間の接続のずれの大きさを表す接続コストとの重み付き和（式（３））が最小となるように、各音声セグメントに対し１個の音声素片からなる素片系列を選択する。

各音声セグメントｔ_iに対し上記のように音声素片候補を選択することにより、ステップＳ３では、各音声セグメントに対し選択された音声素片候補からなる素片系列を得る。

次に、ステップＳ４へ進み、補正対象選択部３２は、得られた素片系列中の連続する２つの音声素片毎に、少なくとも当該２つの音声素片間の接続コストを含む第１の局所コストを計算し、この第１の局所コストが予め定められた基準を満たす音声素片（素片対）を補正対象として選択する。この基準は、例えば、第１の局所コストが予め定められた閾値（第１の閾値）を越えることでもよいし、素片系列中の連続する２つの音声素片からなる複数の素片対の中で第１の局所コストが最大であることでもよい。

素片系列中の連続する任意の２つの音声素片からなる素片対（ｕ_i、ｕ_i+1）についての第１の局所コストは、例えば、次式（４）に示すような、２つの音声素片と目標音声との音素環境及び韻律情報の違い表す局所的目標コストと、前記２つの音声素片間の前記局所的接続コストとの重み付き和である第１の局所評価関数を用いて計算する。

式（４）に示すように、第１の局所コストは、素片系列中の連続する任意の２つの音声素片（ｕ_i、ｕ_i+1）について、当該２つの音声素片を接続したときのずれの大きさを（接続コスト関数を用いて）局所的に評価する（局所的接続コスト）を含むとともに、さらに、（目標コスト関数を用いて）目標音声の韻律や音素環境との違いをも局所的に評価する局所的目標コストを含む。なお、式（４）の第１の局所評価関数は、接続コスト関数（局所的接続コスト）と目標コスト関数（局所的目標コスト）の両方が含まれているが、この場合に限らず、少なくとも接続コスト関数（局所的接続コスト）が含まれていればよい。

第１の局所評価関数を用いて計算された第１の局所コストに基づき選択された補正対象の各素片対（補正対象素片対）を（ｕ_i ⁽¹⁾、ｕ_i+1 ⁽¹⁾）と表す。

次にステップＳ５へ進む。ステップＳ５では、補正用素片選択部３３は、ステップＳ４で選択された各補正対象素片対に対し、その補正に用いる音声素片対（補正用素片対）を音声素片記憶部４に記憶されている音声素片の中から選択する。

ここでは、各補正対象素片対（ｕ_i ⁽¹⁾、ｕ_i+1 ⁽¹⁾）の２つの補正対象の音声素片のそれぞれに対応する（補正対象の）音声セグメント（ｔ_i、ｔ_i+1）について、例えばステップＳ１で当該音声セグメントに対し選択された複数の音声素片、すなわち、当該音声セグメントの目標音声の音素環境や韻律情報との適合度（目標コスト）が予め定められた基準を満たす（予め定められた値以下の複数の音声素片（補正対象の音声素片も含む）の中から、第２の局所コストに基づき、補正対象素片対（ｕ_i ⁽¹⁾、ｕ_i+1 ⁽¹⁾）の補正に用いる音声素片対（補正用素片対）を選択する。

第２の局所コストは、補正対象の２つの音声セグメントにおける目標音声と音声素片との間の局所的目標コストと、当該２つの音声セグメント間の音声素片の局所的接続コストとを含む。

ステップＳ５では、補正対象素片対についても第２の局所コストが計算されるので、補正対象素片対よりも第２の局所コストが小さい音声素片対を補正用素片対として選択する。

補正対象の２つの音声セグメントについて、補正対象素片対の（ｕ_i ⁽¹⁾、ｕ_i+1 ⁽¹⁾）の補正用素片を選択するための第２の局所コストは、例えば、次式（５）に示すような局所的目標コストと局所的接続コストとの重み付き和である第２の局所評価関数を用いて計算する。

式（５）の第２の局所評価関数は第１の局所評価関数と同様であるが、補正対象素片対よりも第１の局所コストの小さい素片対を選ぶために、少なくとも、第２の局所評価関数に含まれる接続コスト（局所的接続コスト）の重みＷ_n ^(c,2)は、第１の局所評価関数に含まれている接続コスト（局所的接続コスト）Ｗ_n ^(c,1)より大きい値に設定する。好ましくは、第２の局所評価関数に含まれる局所的目標コスト及び局所的接続コストの各種サブコストの重みＷ_m ^(t,2)、Ｗ_n ^(c,2)は、第１の局所評価関数に含まれる局所的目標コスト及び局所的接続コストの重みＷ_m ^(t,1)、Ｗ_n ^(c,1)より大きい値に設定する。

また、第２の局所評価関数は接続境界の種類によって、目標コストと接続コストに適切な重みをかけて、両者の重み付き和で第２の局所コストを計算してもよい。たとえば、半音素を合成単位とした場合、音素は左半音素と右半音素とからなる。この場合、補正対象の２つの音声セグメントの接続境界は、音素境界（音素間の境界）と音素定常部境界（ある１つの音素中の左半音素と右半音素との境界）の２種類がある。例えば、補正対象の２つの音声セグメントの接続境界が音素境界の場合には、接続音素定常部境界の場合に比べて、第２の局所評価関数の目標コスト中の音素環境サブコストに、より大きな重みを設定する。また、英語のアクセントは音素の定常部により大きな影響を与える。従って、英語の合成音声を生成する場合には、補正対象の２つの音声セグメントの音素定常部境界であるとき、第２の局所評価関数の目標コストのうち、音素定常部境界にアクセントを含む言語情報サブコストにより大きな重みを設定する。

第２の局所評価関数を用いて計算された第２の局所コストが最も小さい素片対または第２の閾値（例えば補正対象素片対の第２の局所コスト）より小さい素片対（ｕ_i ⁽²⁾、ｕ_i+1 ⁽²⁾）について、その第１局所コストＣ⁽¹⁾を式（４）からもう一度計算し、その値が補正対象素片対（ｕ_i ⁽¹⁾、ｕ_i+1 ⁽¹⁾）の第１の局所コストよりも小さければ、（ｕ_i ⁽²⁾、ｕ_i+1 ⁽²⁾）を補正用素片対と決定する。あるいは、（ｕ_i ⁽²⁾、ｕ_i+1 ⁽²⁾）について求めた第１の局所コストが予め定められた第３の閾値よりも小さければ、（ｕ_i ⁽²⁾、ｕ_i+1 ⁽²⁾）を補正用素片対と決定する。

次に、ステップＳ６へ進み、素片補正部３４は、補正用素片対を用いて補正対象素片対を補正する。素片接続境界に近ければ近いほど補正用素片に大きな重みを設定して、補正用素片対の２つの音声素片と補正対象素片対の２つの音声素片との重み付き重畳（重み付け和、重み付け合成）を求めることにより、補正対象素片を補正する。

最後にステップＳ７では、素片接続部３５は、ステップＳ３で求めた素片系列中の補正対象素片対を補正後の補正対象素片対に置き換えられた補正後の素片系列を接続する。すなわち、この補正後の素片系列中の各音声素片を目標音声の各音素の継続時間長に従って伸縮し、目標音声の基本周波数に従って時間軸上に並びなおして、音声素片の波形を接続することによって音声波形を生成する。

以下、図１の音声合成装置の処理動作について、例えば、入力テキスト“I am fine.”に対応する合成音声を生成する場合を例にとり、より具体的に説明する。

上記テキストが入力されると、まず、言語解析部１における言語解析処理により、/ai/, /a/, /m/, /f/, /ai/, /n/の6つの音素で構成される音素列を得る。

全体コストの目標コストを計算するための式（１）の目標コスト関数は、(1)音声素片の音素環境と目標音声の音素環境との適合具合（違い）を表す音素環境サブコスト関数と、(2)音声素片のアクセント情報が目標音声にあるかどうかという（すなわち音声素片と目標音声との間のアクセントの違いを示す）アクセントサブコスト関数と、(3)音声素片の基本周波数と目標音声の基本周波数との適合具合（違い）を表す基本周波数サブコスト関数と、(4)音声素片の音韻継続時間長と目標音声の音韻継続時間長との適合具合（違い）を表す時間長サブコスト関数とを含む。

一方、全体コストの接続コストを計算するための式（２）の接続コスト関数は、(1)連続する２つの音声素片の境界近傍におけるスペクトル包絡の類似具合（違い）を表すスペクトル接続サブコスト関数と、(2)連続する２つの音声素片のパワー包絡の連続度合（ずれの大きさ）を表すパワー包絡接続サブコスト関数と、(3)連続する２つの音声素片の基本周波数の連続度合（ずれの大きさ）を表す基本周波数接続サブコスト関数とを含む。

合成単位は半音素とする。図２のステップ３までの処理により、全体コスト関数を用いて選択された素片系列を＜表１＞に示す。なお、ここでは、合成単位が半音素であるので、１つの音素に対し左半音素と右半音素の音声素片が選択され、そのそれぞれの番号（素片番号）を＜表１＞に示している。

次に、ステップＳ４において、得られた素片系列中の連続する２つの音声素片毎に、式（４）を用いて第1の局所コストを計算し、第１の局所コストが予め定められた第１の閾値を越える補正対象素片対を選択する。

第1の局所コストの目標コストを計算するための式（４）の第１の局所評価関数の目標コスト関数には、(1)音声素片の音素環境と目標音声の音素環境の適合具合（違い）を表す音素環境サブコスト関数と、(2)音声素片のアクセント情報が目標音声にあるかどうかという（すなわち音声素片と目標音声との間のアクセントの違いを示す）アクセントサブコスト関数とが含まれる。

一方、第1の局所コストの接続コストを計算するための式（４）の第１の局所評価関数の接続コスト関数には、(1)連続する２つの音声素片の境界近傍におけるスペクトル包絡の類似具合（違い）を表すスペクトル接続コスト関数が含まれる。サブコスト関数の重みＷ_m ^(t,1)、Ｗ_n ^(c,1)はそれぞれ「１０．０」とする。＜表１＞に示した音声素片のうち、第１の局所コストが第１の閾値を越える隣り合う音声素片対、すなわち、補正対象素片対を＜表２＞に示す。＜表２＞に示した１つ目の補正対象素片対は、音声セグメント番号が「２」「３」の音声素片であり、２つ目の補正対象素片対は、音声セグメント番号が「９」「１０」の音声素片である。

次に、ステップＳ５において、第２の局所コストを用いて、選択された各補正対象素片対の補正に用いる音声素片対（補正用素片対）を選択する。

第２の局所コストを計算するために用いる式（５）の第２の局所評価関数に含まれる各種サブコストは上述の第１の局所評価関数のものと同じだが、サブコスト関数の重みＷ_m ^(t,2)、Ｗ_n ^(c,2)は、第１の局所評価関数よりも大きい「２０．０」を設定する。

音声セグメント番号が「２」「３」の補正対象素片対と、音声セグメント番号が「９」「１０」の補正対象素片対とのそれぞれに対し、第２の局所コストが最小の音声素片対を選択する。さらに当該２組の補正対象素片対のそれぞれに対し選択された各音声素片対に対し、再度第１の局所コストを計算する。当該２組の補正対象素片対のそれぞれに対し選択された各音声素片対の第１の局所コストは、当該補正対象素片対の第１の局所コストよりも小さいので、＜表３＞に示すように、当該２組の音声素片対を補正用素片対として選択する。＜表３＞では、音声セグメント番号「２」「３」に対し、素片番号「１１０２」と「１２０１」との素片対が補正用素片対として選択され、音声セグメント番号「９」「１０」に対し、素片番号「２５０１」と「２５０２」との素片対が補正用素片対として選択されている。

ステップＳ６では、＜表３＞に示した２組の補正用素片対を用いて＜表２＞に示した２組の補正対象素片対を補正する。

以上説明したように、上記実施形態によれば、（ステップＳ３において）全体コストに基づき選択された素片系列の中で、接続具合が相対的に悪い（接続する際のずれの大きさが相対的に大きい）補正対象素片対に対し、当該補正対象素片よりも接続の具合が相対的によい（接続する際のずれが相対的に小さい）補正用素片対を用いて補正する。補正対象素片対を補正する際には、補正用素片対と補正対象素片対とを、接続境界に近いほど補正用素片対に対する重みを大きくして加算する。これにより、素片系列中の不自然な素片間の接続を改善することが可能となり、限られた数の音声素片で合成音声の音質を容易に向上することができる。

補正用素片対自体は音声素片記憶部４に予め記憶されているものの中から選択したものであるため、非特許文献２のように別途用意することは不要である。また、補正対象素片対の選択の際、及び補正用素片対の選択の際には、接続コストだけでなく目標音声に対する目標コストも考慮しているため、目標音声の音素環境や韻律に適合する補正用素片対を選択することができる。

本発明の実施の形態に記載した本発明の手法（言語解析部１、韻律生成部２、波形生成部３、及び音声素片記憶部４の機能）は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記録媒体に格納して頒布することもできる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の実施形態に係る音声合成装置の構成例を示すブロック図。図１の音声合成装置の処理動作を説明するためのフローチャート。

符号の説明

１…言語解析部
２…韻律生成部
３…波形生成部
４…音声素片記憶部
３１…素片系列選択部
３２…補正対象選択部
３３…補正用素片選択部
３４…素片補正部
３５…素片接続部

Claims

音声素片群と、その各音声素片の音素環境及び韻律情報とを記憶する記憶手段と、
目標音声の音素環境及び韻律情報との違いを表す目標コストと、音声素片間の接続のずれの大きさを表す接続コストとの重み付き和が最小となるように、前記目標音声に対応する素片系列を前記音声素片群の中から選択する第１の選択手段と、
前記素片系列中の連続する２つの音声素片毎に、音声素片間の接続のずれの大きさを表す局所的接続コストに第１の重みを付けた値を含む第１の局所コストを計算し、前記素片系列の中から、前記第１の局所コストが第１の閾値を越える音声素片対、または前記第１の局所コストが最大の音声素片対を補正対象素片対として選択する第２の選択手段と、
前記音声素片群の中から、前記局所的接続コストに第２の重みを付けた値を含む第２の局所コストが第２の閾値より小さく、且つ、前記第１の局所コストが前記補正対象素片対の前記第１の局所コストよりも小さい２つの音声素片を、前記補正対象素片対を補正するための補正用素片対として選択する第３の選択手段と、
前記補正用素片対と前記補正対象素片対とを、その接続境界に近いほど前記補正用素片対に対する重みを大きくして加算することにより、前記補正対象素片対を補正する補正手段と、
補正後の前記補正対象素片対を含む素片系列中の音声素片を接続することにより合成音声を生成する生成手段と、
を含む音声合成装置。
前記第１の選択手段は、前記目標音声に対応する音素列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し１個の音声素片からなる前記素片系列を前記音声素片群の中から選択することを特徴とする請求項１記載の音声合成装置。
前記第３の選択手段は、前記補正対象素片対に対応する２つのセグメントにおける前記目標音声の音素環境及び韻律情報との違いが予め定められた基準以内の複数の音声素片の中から、前記第２の局所コストが前記第２の閾値より小さく、且つ、前記第１の局所コストが前記補正対象素片対の前記第１の局所コストよりも小さい前記補正用素片対を選択する請求項２記載の音声合成装置。
前記第２の局所コストは、前記補正対象素片対に対応する２つのセグメントにおける目標音声の音素環境及び韻律情報との違いを表す局所的目標コストと、前記局所的接続コストとの重み付き和であることを特徴とする請求項２記載の音声合成装置。
前記第１の局所コストは、前記連続する２つの音声素片と目標音声との音素環境及び韻律情報の違い表す局所的目標コストと、前記連続する２つの音声素片間の前記局所的接続コストとの重み付き和であることを特徴とする請求項１記載の音声合成装置。
前記第２の局所コストに含まれる前記局所的接続コストに付けられた前記第２の重みは、前記第１の局所コストに含まれる前記局所的接続コストに付けられる前記第１の重みよりも大きいことを特徴とする請求項１記載の音声合成装置。
前記合成単位は半音素であり、
前記局所的目標コストは、目標音声の音素環境との違いを示す音素環境サブコストを含む複数種類のサブコストの重み付き和であり、
前記２つのセグメントの境界が音素間の境界である場合と、１つの音素中の左半音素と右半音素との境界である場合とで、前記音素環境サブコストに付ける重みが異なることを特徴とする請求項４記載の音声合成装置。
前記合成単位は半音素であり、
前記局所的目標コストは目標音声のアクセントとの違いを示すアクセントサブコストを含む複数種類のサブコストの重み付き和であり、
前記２つのセグメントの境界が音素間の境界である場合と、１つの音素中の左半音素と右半音素との境界である場合とで、前記アクセントサブコストに付ける重みが異なることを特徴とする請求項４記載の音声合成装置。
音声素片群と、その各音声素片の音素環境及び韻律情報とを記憶手段に記憶するステップと、
目標音声の音素環境及び韻律情報との違いを表す目標コストと、音声素片間の接続のずれの大きさを表す接続コストとの重み付き和が最小となるように、前記目標音声に対応する素片系列を前記音声素片群の中から選択する第１の選択ステップと、
前記素片系列中の連続する２つの音声素片毎に、音声素片間の接続のずれの大きさを表す局所的接続コストに第１の重みを付けた値を含む第１の局所コストを計算し、前記素片系列の中から、前記第１の局所コストが第１の閾値を越える音声素片対、または前記第１の局所コストが最大の音声素片対を補正対象素片対として選択する第２の選択ステップと、
前記音声素片群の中から、前記局所的接続コストに第２の重みを付けた値を含む第２の局所コストが第２の閾値より小さく、且つ、前記第１の局所コストが前記補正対象素片対の前記第１の局所コストよりも小さい２つの音声素片を、前記補正対象素片対を補正するための補正用素片対として選択する第３の選択ステップと、
前記補正用素片対と前記補正対象素片対とを、その接続境界に近いほど前記補正用素片対に対する重みを大きくして加算することにより、前記補正対象素片対を補正する補正ステップと、
補正後の前記補正対象素片対を含む素片系列中の音声素片を接続することにより合成音声を生成する生成ステップと、
を含む音声合成方法。
前記第１の局所コストは、前記連続する２つの音声素片と目標音声との音素環境及び韻律情報の違いを表す局所的目標コストと、前記連続する２つの音声素片間の前記局所的接続コストとの重み付き和であることを特徴とする請求項９記載の音声合成方法。
前記第２の局所コストに含まれる前記局所的接続コストに付けられた前記第２の重みは、前記第１の局所コストに含まれる前記局所的接続コストに付けられる前記第１の重みよりも大きいことを特徴とする請求項９記載の音声合成方法。
コンピュータを、
音声素片群と、その各音声素片の音素環境及び韻律情報とを記憶する記憶手段、
目標音声の音素環境及び韻律情報との違いを表す目標コストと、音声素片間の接続のずれの大きさを表す接続コストとの重み付き和が最小となるように、前記目標音声に対応する素片系列を前記音声素片群の中から選択する第１の選択手段、
前記素片系列中の連続する２つの音声素片毎に、音声素片間の接続のずれの大きさを表す局所的接続コストに第１の重みを付けた値を含む第１の局所コストを計算し、前記素片系列の中から、前記第１の局所コストが第１の閾値を越える音声素片対、または前記第１の局所コストが最大の音声素片対を補正対象素片対として選択する第２の選択手段、
前記音声素片群の中から、前記局所的接続コストに第２の重みを付けた値を含む第２の局所コストが第２の閾値より小さく、且つ、前記第１の局所コストが前記補正対象素片対の前記第１の局所コストよりも小さい２つの音声素片を、前記補正対象素片対を補正するための補正用素片対として選択する第３の選択手段、
前記補正用素片対と前記補正対象素片対とを、その接続境界に近いほど前記補正用素片対に対する重みを大きくして加算することにより、前記補正対象素片対を補正する補正手段と、
補正後の前記補正対象素片対を含む素片系列中の音声素片を接続することにより合成音声を生成する生成手段、
として機能させるためのプログラム。