JP5198200B2 - 音声合成装置及び方法 - Google Patents

音声合成装置及び方法 Download PDF

Info

Publication number
JP5198200B2
JP5198200B2 JP2008245966A JP2008245966A JP5198200B2 JP 5198200 B2 JP5198200 B2 JP 5198200B2 JP 2008245966 A JP2008245966 A JP 2008245966A JP 2008245966 A JP2008245966 A JP 2008245966A JP 5198200 B2 JP5198200 B2 JP 5198200B2
Authority
JP
Japan
Prior art keywords
speech
cost
local
target
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008245966A
Other languages
English (en)
Other versions
JP2010078808A (ja
Inventor
大威 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008245966A priority Critical patent/JP5198200B2/ja
Publication of JP2010078808A publication Critical patent/JP2010078808A/ja
Application granted granted Critical
Publication of JP5198200B2 publication Critical patent/JP5198200B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、テキスト音声合成のための音声合成装置及び方法に関する。
非特許文献1(素片選択接続方式)には、韻律情報に対する適合具合を表す目標コストと音声素片間の接続具合を表す接続コストの両方を評価することで、目標音声に対する目標コストと接続コストとの総和が最小になるように一連の音声素片を選択し、それらを接続することで音声を生成する方法が開示されている。
非特許文献2には、固定なdiphone単位の音声素片を接続する音声合成方式において、接続境界の不連続を克服するために、当該接続境界に不連続がない別途の音素単位の素片から抽出したスペクトル情報を基に、音声素片のスペクトル情報を補正する方法が開示されている。
Hunt, A. and Black, A., "Unit selection in a concatenative speech synthesis system using a large speech database", Proc. ICASSP 96, vol 1, pp 373-376, Atlanta, Georgia, 1996. J. Wouters and M. W. Macon, "Unit Fusion for Concatenative Speech Synthesis," Proc. ICSLP2000, Vol.3, pp.302-305, 2000.
非特許文献1記載の技術では、目標音声に対し接続コストの総和が最小になるように一連の音声素片を選択するので、音声素片の数が限定される応用においては、音声素片の前後とも最良な接続が得られるという条件は満たされない場合がある。その結果、音声素片の前後の接続のうち一方の接続が最良でない状態になることがある。
非特許文献2では、接続境界の不連続問題を克服するために、接続素片の単位(ここではdiphone)と交錯した単位(ここでは音素)の音声素片を融合素片として、融合素片から抽出したスペクトル特徴を用いて接続素片のスペクトル特徴を補正する。素片選択接続方式の音声合成方法の音質を向上させるためには、目標音声の各種変化に合うように融合素片も大量に用意する必要があるので、非特許文献2記載の手法は、素片の数が限定される組込み向けの応用などには適用できないという問題点がある。また、非特許文献2に示した素片融合手法は計算量が多いために、組み込み向けの応用に適用するには困難である。
本発明は、上記従来技術の問題点を解決するためになされたものであって、限られた数の音声素片で、(音声素片間の接続を改善することにより)高い音質の合成音声を容易に生成することができる音声合成装置及び方法を提供することを目的とする。
本発明の音声合成装置は、音声素片群と、その各音声素片の音素環境及び韻律情報とを記憶手段に記憶し、目標音声の音素環境及び韻律情報との違いを表す目標コストと、音声素片間の接続のずれの大きさを表す接続コストとの重み付き和が最小となるように、前記目標音声に対応する素片系列を前記音声素片群の中から選択し、前記素片系列中の連続する2つの音声素片毎に、音声素片間の接続のずれの大きさを表す局所的接続コストに第1の重みを付けた値を含む第1の局所コストを計算し、前記素片系列の中から、前記第1の局所コストが予め定められた閾値を越える音声素片対、または前記第1の局所コストが最大の音声素片対を補正対象素片対として選択し、前記音声素片群の中から、前記局所的接続コストに第2の重みを付けた値を含む第2の局所コストが第2の閾値より小さく、且つ、前記第1の局所コストが前記補正対象素片対の前記第1の局所コストよりも小さい2つの音声素片を、前記補正対象素片対を補正するための補正用素片対として選択し、前記補正用素片対と前記補正対象素片対とを、その接続境界に近いほど前記補正用素片対に対する重みを大きくして加算することにより、前記補正対象素片対を補正し、補正後の前記補正対象素片対を含む素片系列中の音声素片を接続することにより合成音声を生成する。
限られた数の音声素片で、高い音質の合成音声を容易に生成することができる。
以下、本発明の実施形態について説明する。
(第1の実施形態)
図1は、第1の実施形態に係る音声合成装置は、図1に示すように、言語解析部1、韻律情報生成部2、波形生成部3、及び音声素片記憶部4を含む。
言語解析部1は入力テキストに対して言語解析を行い、テキストに対応する読み情報である音素列(音韻系列)、文法情報、アクセント情報などの言語情報(各音素に関する音素環境)を韻律生成部2へ出力する。
韻律生成部2は入力された言語情報(音素環境)を基に、韻律生成部2に記憶されている韻律辞書を参照して音素列中の各音素の基本周波数、継続時間長、ポーズなどの目標音声の韻律情報を推定し、ポーズを含む音素列、アクセント情報などの言語情報(音素環境)とともに、該韻律情報を波形生成部3へ出力する。
音声素片記憶部4は、合成単位(例えば、音素、半音素など)毎の音声素片をその音素環境(音素名または半音素名、その前後の音素名や半音素名、アクセント情報など)や韻律情報(基本周波数、継続時間長など)とともに記憶する。
波形生成部3は、素片選択部31、補正対象選択部32、補正用素片選択部33、素片補正部34、及び素片接続部35を含む。
素片選択部31は、音声素片記憶部4に記憶されている音声素片の中から、目標音声に関するポーズを含む音素列、アクセント情報、韻律情報(各音素の基本周波数、及び継続時間長など)に適合する音声素片を選択し、素片系列を得る。
補正対象選択部32は、素片系列中の連続する(隣り合う)2つの音声素片毎に当該2つの音声素片間の接続の具合(ずれの大きさ)及び目標音声との適合度(違い)を表す局所評価値を計算する。そして、隣り合う2つの音声素片対毎の局所評価値を基に、素片系列から、補正すべき音声素片対(補正対象素片対)を選択する。
補正用素片選択部33は、音声素片記憶部4に記憶されている音声素片の中から、補正対象素片対を補正する際に用いる音声素片対(補正用音声素片対)を選択する。
素片補正部34は、補正用音声素片対を用いて補正対象素片対を補正する。
波形接続部35は、補正対象素片対を素片補正部34で補正された音声素片対に置き換えた素片系列中の各音声素片を、韻律情報(各音素の基本周波数、継続時間長など)を基に変形した後、PSOLAアルゴリズムなどを用いて、音声素片を接続することで音声波形を生成する。
図1の音声合成装置の処理動作は、まず、音声素片記憶部4に、合成単位毎の音声素片をその音素環境(音素名または半音素名、その前後の音素名や半音素名、アクセント情報など)や韻律情報(基本周波数、継続時間長など)とともに予め記憶する。その後、言語解析部1は入力テキストに対して言語解析を行い、テキストに対応する読み情報である音素列、文法情報、アクセント情報などの言語情報(各音素に関する音素環境)を韻律生成部2へ出力する。韻律生成部2は入力された言語情報(音素環境)を基に、韻律生成部2に記憶されている韻律辞書を参照して音素列中の各音素の基本周波数、継続時間長、ポーズなどの目標音声の韻律情報を推定し、ポーズを含む音素列、アクセント情報などの言語情報(音素環境)とともに、該韻律情報を波形生成部3へ出力する。波形生成部3の処理動作について図2を参照して詳細に説明する。
ステップS1において、素片選択部31は、目標音声の音韻系列(音素列)を合成単位で区切ることにより得られる各音声セグメント(すなわち合成単位)に対し、音声素片記憶部4に記憶されている音声素片の中から、目標音声に関するポーズを含む音素列などの言語情報(音素環境)、韻律情報(各音素の基本周波数及び継続時間長など)に適合する複数の音声素片を選択する。
ここでは、目標音声の各音素の音素環境及び韻律情報と、音声素片記憶部4に記憶されている各音声素片の音素環境及び韻律情報との間の適合度(違いまたは距離)を表す目標コストを計算し、適合度の高い(例えばここでは目標コストが小さい)音声素片を選択する。目標コストは、音声素片の音素環境と目標音声の音素環境との間の違いを表す音素環境サブコスト、音声素片の基本周波数と目標音声の基本周波数との間の違いを表す基本周波数サブコスト、音声素片の継続時間長と目標音声の継続時間長との間の違いを表す時間長サブコストなどの複数種類のサブコストを含み、これら複数種類のサブコストの重み付き和が目標コストである。
目標コストの各種サブコストを計算するための関数(サブコスト関数)をCp (t)(ti,ui)と表す。ここで、tiは目標音声の音声セグメント(合成単位)の音素環境または基本周波数または継続時間長などである。番号i(i=1、2、…I)は当該音声セグメントの位置を表す。uは音声セグメントtに対応する1つの音声素片に対応し、ここでは、その音声素片の音素環境または基本周波数または継続時間長などである。p(p=1、2、…P)はサブコスト関数の種類を表す。
目標コストを計算するための関数(目標コスト関数)は各種サブコストの重み付き和であって、次式で表すことができる。
Figure 0005198200
目標音声の音声セグメント毎に、音声素片記憶部4に記憶されている各音声素片について(1)式から目標コストを算出して、目標コストが最も小さいものから順に予め定められた値以下の複数の音声素片を選択する。
次に、ステップS2へ進む。ステップS2では、まず連続する2つの音声セグメント間で、各音声セグメントに対し選択された音声素片を接続したときのずれの大きさを表す接続コスト計算する。
接続コストは、連続する2つの音声セグメント間で音声素片を接続したときの音声素片のスペクトル情報の接続具合(ずれの大きさ)を表すスペクトル接続サブコストと、音声素片のパワー包絡の接続具合(ずれの大きさ)を表すパワー接続サブコストと、音声素片の基本周波数包絡の接続具合(ずれの大きさ)を表す基本周波数接続サブコストとなどの複数種類のサブコストを含み、これら複数種類のサブコストの重み付け和が接続コストである。
連続する2つの音声セグメントtiとti+1に対し選択された音声素片uiとui+1の接続コストの各種サブコストを計算するための関数(サブコスト関数)をCq (c)(ui,ui+1)と表す。ここでq(q=1、2、…Q)はサブコスト関数の種類を表す。接続コストを計算するための関数(接続コスト関数)は各種サブコストの重み付き和であって、次式で表すことができる。
Figure 0005198200
各音声セグメントtiについて、上述の目標コストに基づき選択された各音声素片のスペクトル情報、パワー包絡、基本周波数包絡を式(2)のui,ui+1に当てはめて目標コストを計算する。
次に、ステップS3へ進む。ステップS3では、各音声セグメントtiに対し上述の目標コストに基づき選択され複数の音声素片の中から、目標コストと接続コストの総和(全体コスト)が最小の音声素片を音声素片候補として選択する。
ここでは、目標コストと接続コストの重要度を勘案し、目標コストと接続コストとに適切な重みをつけた、目標コストと接続コストとの重み付け和を全体コストとする。全体コストは次式(3)に示す全体コスト関数Cを用いて計算する。
Figure 0005198200
各音声セグメントにステップS1で選択された音声素片を用いたときの目標音声の音素環境及び韻律情報との違いを表す目標コストと、当該音声セグメントに隣接する音声セグメントの音声素片との間の接続のずれの大きさを表す接続コストとの重み付き和(式(3))が最小となるように、各音声セグメントに対し1個の音声素片からなる素片系列を選択する。
各音声セグメントtiに対し上記のように音声素片候補を選択することにより、ステップS3では、各音声セグメントに対し選択された音声素片候補からなる素片系列を得る。
次に、ステップS4へ進み、補正対象選択部32は、得られた素片系列中の連続する2つの音声素片毎に、少なくとも当該2つの音声素片間の接続コストを含む第1の局所コストを計算し、この第1の局所コストが予め定められた基準を満たす音声素片(素片対)を補正対象として選択する。この基準は、例えば、第1の局所コストが予め定められた閾値(第1の閾値)を越えることでもよいし、素片系列中の連続する2つの音声素片からなる複数の素片対の中で第1の局所コストが最大であることでもよい。
素片系列中の連続する任意の2つの音声素片からなる素片対(ui、ui+1)についての第1の局所コストは、例えば、次式(4)に示すような、2つの音声素片と目標音声との音素環境及び韻律情報の違い表す局所的目標コストと、前記2つの音声素片間の前記局所的接続コストとの重み付き和である第1の局所評価関数を用いて計算する。
Figure 0005198200
式(4)に示すように、第1の局所コストは、素片系列中の連続する任意の2つの音声素片(ui、ui+1)について、当該2つの音声素片を接続したときのずれの大きさを(接続コスト関数を用いて)局所的に評価する(局所的接続コスト)を含むとともに、さらに、(目標コスト関数を用いて)目標音声の韻律や音素環境との違いをも局所的に評価する局所的目標コストを含む。なお、式(4)の第1の局所評価関数は、接続コスト関数(局所的接続コスト)と目標コスト関数(局所的目標コスト)の両方が含まれているが、この場合に限らず、少なくとも接続コスト関数(局所的接続コスト)が含まれていればよい。
第1の局所評価関数を用いて計算された第1の局所コストに基づき選択された補正対象の各素片対(補正対象素片対)を(ui (1)、ui+1 (1))と表す。
次にステップS5へ進む。ステップS5では、補正用素片選択部33は、ステップS4で選択された各補正対象素片対に対し、その補正に用いる音声素片対(補正用素片対)を音声素片記憶部4に記憶されている音声素片の中から選択する。
ここでは、各補正対象素片対(ui (1)、ui+1 (1))の2つの補正対象の音声素片のそれぞれに対応する(補正対象の)音声セグメント(ti、ti+1)について、例えばステップS1で当該音声セグメントに対し選択された複数の音声素片、すなわち、当該音声セグメントの目標音声の音素環境や韻律情報との適合度(目標コスト)が予め定められた基準を満たす(予め定められた値以下の複数の音声素片(補正対象の音声素片も含む)の中から、第2の局所コストに基づき、補正対象素片対(ui (1)、ui+1 (1))の補正に用いる音声素片対(補正用素片対)を選択する。
第2の局所コストは、補正対象の2つの音声セグメントにおける目標音声と音声素片との間の局所的目標コストと、当該2つの音声セグメント間の音声素片の局所的接続コストとを含む。
ステップS5では、補正対象素片対についても第2の局所コストが計算されるので、補正対象素片対よりも第2の局所コストが小さい音声素片対を補正用素片対として選択する。
補正対象の2つの音声セグメントについて、補正対象素片対の(ui (1)、ui+1 (1))の補正用素片を選択するための第2の局所コストは、例えば、次式(5)に示すような局所的目標コストと局所的接続コストとの重み付き和である第2の局所評価関数を用いて計算する。
Figure 0005198200
式(5)の第2の局所評価関数は第1の局所評価関数と同様であるが、補正対象素片対よりも第1の局所コストの小さい素片対を選ぶために、少なくとも、第2の局所評価関数に含まれる接続コスト(局所的接続コスト)の重みWn (c,2)は、第1の局所評価関数に含まれている接続コスト(局所的接続コスト)Wn (c,1)より大きい値に設定する。好ましくは、第2の局所評価関数に含まれる局所的目標コスト及び局所的接続コストの各種サブコストの重みWm (t,2)、Wn (c,2)は、第1の局所評価関数に含まれる局所的目標コスト及び局所的接続コストの重みWm (t,1)、Wn (c,1)より大きい値に設定する。
また、第2の局所評価関数は接続境界の種類によって、目標コストと接続コストに適切な重みをかけて、両者の重み付き和で第2の局所コストを計算してもよい。たとえば、半音素を合成単位とした場合、音素は左半音素と右半音素とからなる。この場合、補正対象の2つの音声セグメントの接続境界は、音素境界(音素間の境界)と音素定常部境界(ある1つの音素中の左半音素と右半音素との境界)の2種類がある。例えば、補正対象の2つの音声セグメントの接続境界が音素境界の場合には、接続音素定常部境界の場合に比べて、第2の局所評価関数の目標コスト中の音素環境サブコストに、より大きな重みを設定する。また、英語のアクセントは音素の定常部により大きな影響を与える。従って、英語の合成音声を生成する場合には、補正対象の2つの音声セグメントの音素定常部境界であるとき、第2の局所評価関数の目標コストのうち、音素定常部境界にアクセントを含む言語情報サブコストにより大きな重みを設定する。
第2の局所評価関数を用いて計算された第2の局所コストが最も小さい素片対または第2の閾値(例えば補正対象素片対の第2の局所コスト)より小さい素片対(ui (2)、ui+1 (2))について、その第1局所コストC(1)を式(4)からもう一度計算し、その値が補正対象素片対(ui (1)、ui+1 (1))の第1の局所コストよりも小さければ、(ui (2)、ui+1 (2))を補正用素片対と決定する。あるいは、(ui (2)、ui+1 (2))について求めた第1の局所コストが予め定められた第3の閾値よりも小さければ、(ui (2)、ui+1 (2))を補正用素片対と決定する。
次に、ステップS6へ進み、素片補正部34は、補正用素片対を用いて補正対象素片対を補正する。素片接続境界に近ければ近いほど補正用素片に大きな重みを設定して、補正用素片対の2つの音声素片と補正対象素片対の2つの音声素片との重み付き重畳(重み付け和、重み付け合成)を求めることにより、補正対象素片を補正する。
最後にステップS7では、素片接続部35は、ステップS3で求めた素片系列中の補正対象素片対を補正後の補正対象素片対に置き換えられた補正後の素片系列を接続する。すなわち、この補正後の素片系列中の各音声素片を目標音声の各音素の継続時間長に従って伸縮し、目標音声の基本周波数に従って時間軸上に並びなおして、音声素片の波形を接続することによって音声波形を生成する。
以下、図1の音声合成装置の処理動作について、例えば、入力テキスト“I am fine.”に対応する合成音声を生成する場合を例にとり、より具体的に説明する。
上記テキストが入力されると、まず、言語解析部1における言語解析処理により、/ai/, /a/, /m/, /f/, /ai/, /n/の6つの音素で構成される音素列を得る。
全体コストの目標コストを計算するための式(1)の目標コスト関数は、(1)音声素片の音素環境と目標音声の音素環境との適合具合(違い)を表す音素環境サブコスト関数と、(2)音声素片のアクセント情報が目標音声にあるかどうかという(すなわち音声素片と目標音声との間のアクセントの違いを示す)アクセントサブコスト関数と、(3)音声素片の基本周波数と目標音声の基本周波数との適合具合(違い)を表す基本周波数サブコスト関数と、(4)音声素片の音韻継続時間長と目標音声の音韻継続時間長との適合具合(違い)を表す時間長サブコスト関数とを含む。
一方、全体コストの接続コストを計算するための式(2)の接続コスト関数は、(1)連続する2つの音声素片の境界近傍におけるスペクトル包絡の類似具合(違い)を表すスペクトル接続サブコスト関数と、(2)連続する2つの音声素片のパワー包絡の連続度合(ずれの大きさ)を表すパワー包絡接続サブコスト関数と、(3)連続する2つの音声素片の基本周波数の連続度合(ずれの大きさ)を表す基本周波数接続サブコスト関数とを含む。
合成単位は半音素とする。図2のステップ3までの処理により、全体コスト関数を用いて選択された素片系列を<表1>に示す。なお、ここでは、合成単位が半音素であるので、1つの音素に対し左半音素と右半音素の音声素片が選択され、そのそれぞれの番号(素片番号)を<表1>に示している。
Figure 0005198200
次に、ステップS4において、得られた素片系列中の連続する2つの音声素片毎に、式(4)を用いて第1の局所コストを計算し、第1の局所コストが予め定められた第1の閾値を越える補正対象素片対を選択する。
第1の局所コストの目標コストを計算するための式(4)の第1の局所評価関数の目標コスト関数には、(1)音声素片の音素環境と目標音声の音素環境の適合具合(違い)を表す音素環境サブコスト関数と、(2)音声素片のアクセント情報が目標音声にあるかどうかという(すなわち音声素片と目標音声との間のアクセントの違いを示す)アクセントサブコスト関数とが含まれる。
一方、第1の局所コストの接続コストを計算するための式(4)の第1の局所評価関数の接続コスト関数には、(1)連続する2つの音声素片の境界近傍におけるスペクトル包絡の類似具合(違い)を表すスペクトル接続コスト関数が含まれる。サブコスト関数の重みWm (t,1)、Wn (c,1)はそれぞれ「10.0」とする。<表1>に示した音声素片のうち、第1の局所コストが第1の閾値を越える隣り合う音声素片対、すなわち、補正対象素片対を<表2>に示す。<表2>に示した1つ目の補正対象素片対は、音声セグメント番号が「2」「3」の音声素片であり、2つ目の補正対象素片対は、音声セグメント番号が「9」「10」の音声素片である。
Figure 0005198200
次に、ステップS5において、第2の局所コストを用いて、選択された各補正対象素片対の補正に用いる音声素片対(補正用素片対)を選択する。
第2の局所コストを計算するために用いる式(5)の第2の局所評価関数に含まれる各種サブコストは上述の第1の局所評価関数のものと同じだが、サブコスト関数の重みWm (t,2)、Wn (c,2)は、第1の局所評価関数よりも大きい「20.0」を設定する。
音声セグメント番号が「2」「3」の補正対象素片対と、音声セグメント番号が「9」「10」の補正対象素片対とのそれぞれに対し、第2の局所コストが最小の音声素片対を選択する。さらに当該2組の補正対象素片対のそれぞれに対し選択された各音声素片対に対し、再度第1の局所コストを計算する。当該2組の補正対象素片対のそれぞれに対し選択された各音声素片対の第1の局所コストは、当該補正対象素片対の第1の局所コストよりも小さいので、<表3>に示すように、当該2組の音声素片対を補正用素片対として選択する。<表3>では、音声セグメント番号「2」「3」に対し、素片番号「1102」と「1201」との素片対が補正用素片対として選択され、音声セグメント番号「9」「10」に対し、素片番号「2501」と「2502」との素片対が補正用素片対として選択されている。
Figure 0005198200
ステップS6では、<表3>に示した2組の補正用素片対を用いて<表2>に示した2組の補正対象素片対を補正する。
以上説明したように、上記実施形態によれば、(ステップS3において)全体コストに基づき選択された素片系列の中で、接続具合が相対的に悪い(接続する際のずれの大きさが相対的に大きい)補正対象素片対に対し、当該補正対象素片よりも接続の具合が相対的によい(接続する際のずれが相対的に小さい)補正用素片対を用いて補正する。補正対象素片対を補正する際には、補正用素片対と補正対象素片対とを、接続境界に近いほど補正用素片対に対する重みを大きくして加算する。これにより、素片系列中の不自然な素片間の接続を改善することが可能となり、限られた数の音声素片で合成音声の音質を容易に向上することができる。
補正用素片対自体は音声素片記憶部4に予め記憶されているものの中から選択したものであるため、非特許文献2のように別途用意することは不要である。また、補正対象素片対の選択の際、及び補正用素片対の選択の際には、接続コストだけでなく目標音声に対する目標コストも考慮しているため、目標音声の音素環境や韻律に適合する補正用素片対を選択することができる。
本発明の実施の形態に記載した本発明の手法(言語解析部1、韻律生成部2、波形生成部3、及び音声素片記憶部4の機能)は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の実施形態に係る音声合成装置の構成例を示すブロック図。 図1の音声合成装置の処理動作を説明するためのフローチャート。
符号の説明
1…言語解析部
2…韻律生成部
3…波形生成部
4…音声素片記憶部
31…素片系列選択部
32…補正対象選択部
33…補正用素片選択部
34…素片補正部
35…素片接続部

Claims (12)

  1. 音声素片群と、その各音声素片の音素環境及び韻律情報とを記憶する記憶手段と、
    目標音声の音素環境及び韻律情報との違いを表す目標コストと、音声素片間の接続のずれの大きさを表す接続コストとの重み付き和が最小となるように、前記目標音声に対応する素片系列を前記音声素片群の中から選択する第1の選択手段と、
    前記素片系列中の連続する2つの音声素片毎に、音声素片間の接続のずれの大きさを表す局所的接続コストに第1の重みを付けた値を含む第1の局所コストを計算し、前記素片系列の中から、前記第1の局所コストが第1の閾値を越える音声素片対、または前記第1の局所コストが最大の音声素片対を補正対象素片対として選択する第2の選択手段と、
    前記音声素片群の中から、前記局所的接続コストに第2の重みを付けた値を含む第2の局所コストが第2の閾値より小さく、且つ、前記第1の局所コストが前記補正対象素片対の前記第1の局所コストよりも小さい2つの音声素片を、前記補正対象素片対を補正するための補正用素片対として選択する第3の選択手段と、
    前記補正用素片対と前記補正対象素片対とを、その接続境界に近いほど前記補正用素片対に対する重みを大きくして加算することにより、前記補正対象素片対を補正する補正手段と、
    補正後の前記補正対象素片対を含む素片系列中の音声素片を接続することにより合成音声を生成する生成手段と、
    を含む音声合成装置。
  2. 前記第1の選択手段は、前記目標音声に対応する音素列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し1個の音声素片からなる前記素片系列を前記音声素片群の中から選択することを特徴とする請求項1記載の音声合成装置。
  3. 前記第3の選択手段は、前記補正対象素片対に対応する2つのセグメントにおける前記目標音声の音素環境及び韻律情報との違いが予め定められた基準以内の複数の音声素片の中から、前記第2の局所コストが前記第2の閾値より小さく、且つ、前記第1の局所コストが前記補正対象素片対の前記第1の局所コストよりも小さい前記補正用素片対を選択する請求項2記載の音声合成装置。
  4. 前記第2の局所コストは、前記補正対象素片対に対応する2つのセグメントにおける目標音声の音素環境及び韻律情報との違い表す局所的目標コストと、前記局所的接続コストとの重み付き和であることを特徴とする請求項2記載の音声合成装置。
  5. 前記第1の局所コストは、前記連続する2つの音声素片と目標音声との音素環境及び韻律情報の違い表す局所的目標コストと、前記連続する2つの音声素片間の前記局所的接続コストとの重み付き和であることを特徴とする請求項1記載の音声合成装置。
  6. 前記第2の局所コストに含まれる前記局所的接続コストに付けられた前記第2の重みは、前記第1の局所コストに含まれる前記局所的接続コストに付けられる前記第1の重みよりも大きいことを特徴とする請求項1記載の音声合成装置。
  7. 前記合成単位は半音素であり、
    前記局所的目標コストは、目標音声の音素環境との違いを示す音素環境サブコストを含む複数種類のサブコストの重み付き和であり、
    前記2つのセグメントの境界が音素間の境界である場合と、1つの音素中の左半音素と右半音素との境界である場合とで、前記音素環境サブコストに付ける重みが異なることを特徴とする請求項4記載の音声合成装置。
  8. 前記合成単位は半音素であり、
    前記局所的目標コストは目標音声のアクセントとの違いを示すアクセントサブコストを含む複数種類のサブコストの重み付き和であり、
    前記2つのセグメントの境界が音素間の境界である場合と、1つの音素中の左半音素と右半音素との境界である場合とで、前記アクセントサブコストに付ける重みが異なることを特徴とする請求項4記載の音声合成装置。
  9. 音声素片群と、その各音声素片の音素環境及び韻律情報とを記憶手段に記憶するステップと、
    目標音声の音素環境及び韻律情報との違いを表す目標コストと、音声素片間の接続のずれの大きさを表す接続コストとの重み付き和が最小となるように、前記目標音声に対応する素片系列を前記音声素片群の中から選択する第1の選択ステップと、
    前記素片系列中の連続する2つの音声素片毎に、音声素片間の接続のずれの大きさを表す局所的接続コストに第1の重みを付けた値を含む第1の局所コストを計算し、前記素片系列の中から、前記第1の局所コストが第1の閾値を越える音声素片対、または前記第1の局所コストが最大の音声素片対を補正対象素片対として選択する第2の選択ステップと、
    前記音声素片群の中から、前記局所的接続コストに第2の重みを付けた値を含む第2の局所コストが第2の閾値より小さく、且つ、前記第1の局所コストが前記補正対象素片対の前記第1の局所コストよりも小さい2つの音声素片を、前記補正対象素片対を補正するための補正用素片対として選択する第3の選択ステップと、
    前記補正用素片対と前記補正対象素片対とを、その接続境界に近いほど前記補正用素片対に対する重みを大きくして加算することにより、前記補正対象素片対を補正する補正ステップと、
    補正後の前記補正対象素片対を含む素片系列中の音声素片を接続することにより合成音声を生成する生成ステップと、
    を含む音声合成方法。
  10. 前記第1の局所コストは、前記連続する2つの音声素片と目標音声との音素環境及び韻律情報の違い表す局所的目標コストと、前記連続する2つの音声素片間の前記局所的接続コストとの重み付き和であることを特徴とする請求項9記載の音声合成方法。
  11. 前記第2の局所コストに含まれる前記局所的接続コストに付けられた前記第2の重みは、前記第1の局所コストに含まれる前記局所的接続コストに付けられる前記第1の重みよりも大きいことを特徴とする請求項9記載の音声合成方法。
  12. コンピュータを、
    音声素片群と、その各音声素片の音素環境及び韻律情報とを記憶する記憶手段、
    目標音声の音素環境及び韻律情報との違いを表す目標コストと、音声素片間の接続のずれの大きさを表す接続コストとの重み付き和が最小となるように、前記目標音声に対応する素片系列を前記音声素片群の中から選択する第1の選択手段、
    前記素片系列中の連続する2つの音声素片毎に、音声素片間の接続のずれの大きさを表す局所的接続コストに第1の重みを付けた値を含む第1の局所コストを計算し、前記素片系列の中から、前記第1の局所コストが第1の閾値を越える音声素片対、または前記第1の局所コストが最大の音声素片対を補正対象素片対として選択する第2の選択手段、
    前記音声素片群の中から、前記局所的接続コストに第2の重みを付けた値を含む第2の局所コストが第2の閾値より小さく、且つ、前記第1の局所コストが前記補正対象素片対の前記第1の局所コストよりも小さい2つの音声素片を、前記補正対象素片対を補正するための補正用素片対として選択する第3の選択手段、
    前記補正用素片対と前記補正対象素片対とを、その接続境界に近いほど前記補正用素片対に対する重みを大きくして加算することにより、前記補正対象素片対を補正する補正手段と、
    補正後の前記補正対象素片対を含む素片系列中の音声素片を接続することにより合成音声を生成する生成手段、
    として機能させるためのプログラム。
JP2008245966A 2008-09-25 2008-09-25 音声合成装置及び方法 Expired - Fee Related JP5198200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008245966A JP5198200B2 (ja) 2008-09-25 2008-09-25 音声合成装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008245966A JP5198200B2 (ja) 2008-09-25 2008-09-25 音声合成装置及び方法

Publications (2)

Publication Number Publication Date
JP2010078808A JP2010078808A (ja) 2010-04-08
JP5198200B2 true JP5198200B2 (ja) 2013-05-15

Family

ID=42209359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008245966A Expired - Fee Related JP5198200B2 (ja) 2008-09-25 2008-09-25 音声合成装置及び方法

Country Status (1)

Country Link
JP (1) JP5198200B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014017024A1 (ja) * 2012-07-27 2016-07-07 日本電気株式会社 音声合成装置、音声合成方法、及び音声合成プログラム
JP6398523B2 (ja) * 2014-09-22 2018-10-03 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
CN112216275A (zh) * 2019-07-10 2021-01-12 阿里巴巴集团控股有限公司 一种语音信息的处理方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4454780B2 (ja) * 2000-03-31 2010-04-21 キヤノン株式会社 音声情報処理装置とその方法と記憶媒体
JP4963345B2 (ja) * 2004-09-16 2012-06-27 株式会社国際電気通信基礎技術研究所 音声合成方法及び音声合成プログラム
JP4664194B2 (ja) * 2005-11-29 2011-04-06 パナソニック株式会社 声質制御装置および方法およびプログラム記憶媒体
JP2008033133A (ja) * 2006-07-31 2008-02-14 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2008139631A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、装置、プログラム
WO2008102710A1 (ja) * 2007-02-20 2008-08-28 Nec Corporation 音声合成装置及び方法とプログラム

Also Published As

Publication number Publication date
JP2010078808A (ja) 2010-04-08

Similar Documents

Publication Publication Date Title
JP3913770B2 (ja) 音声合成装置および方法
JP4966048B2 (ja) 声質変換装置及び音声合成装置
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
US20080027727A1 (en) Speech synthesis apparatus and method
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2006276528A (ja) 音声合成装置及びその方法
US8630857B2 (en) Speech synthesizing apparatus, method, and program
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
JP5198200B2 (ja) 音声合成装置及び方法
US7765103B2 (en) Rule based speech synthesis method and apparatus
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP5512597B2 (ja) 音声合成装置とその方法とプログラム
JP2012042974A (ja) 音声合成装置
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4476855B2 (ja) 音声合成装置及びその方法
JP5862667B2 (ja) 波形処理装置、波形処理方法および波形処理プログラム
JP2005091747A (ja) 音声合成装置
JP5054632B2 (ja) 音声合成装置及び音声合成プログラム
JP2004354644A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JPH06318094A (ja) 音声規則合成装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3423276B2 (ja) 音声合成方法
WO2014017024A1 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees