JP4476855B2

JP4476855B2 - 音声合成装置及びその方法

Info

Publication number: JP4476855B2
Application number: JP2005096472A
Authority: JP
Inventors: 勝美土谷; 岳彦籠嶋; 竜也水谷; 正統田村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-03-29
Filing date: 2005-03-29
Publication date: 2010-06-09
Anticipated expiration: 2025-03-29
Also published as: JP2006276522A

Description

本発明は、例えばテキスト合成に用いられる音声合成装置及びその方法に関する。

任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の３つの段階によって行われる。

まず、入力されたテキストは、言語処理部において形態素解析や構文解析などが行われ、次に韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報（基本周波数、音韻継続時間長、パワーなど）が出力される。最後に、音声信号合成部で音韻系列・韻律情報から音声波形が生成される。

高品質な合成音声を生成する方法として、合成すべき音声に対応する音韻系列を合成単位に区切ることにより得られる複数セグメントのそれぞれに対し、入力された音韻系列・韻律情報を目標にして、大量の音声素片から複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成した後、それらを接続して音声を合成する複数素片選択型の音声合成方法がある（非特許文献１）。

図２５に、従来の複数素片選択型のテキスト音声合成装置の構成を示す。このテキスト音声合成装置は、テキスト入力部３１、言語処理部３２、韻律処理部３３、音声合成部３４、音声波形出力部１０から構成される。言語処理部３２は、テキスト入力部３１から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部３３へ送る。韻律処理部３３は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列（音韻記号列）及び韻律情報を生成し、音声合成部３４へ送る。音声合成部３４は、音韻記号列及び韻律情報から音声波形を生成する。こうして生成された音声波形は、音声波形出力部１０で出力される。

音声合成部３４は、音声素片記憶部１、音素環境記憶部２、音韻系列・韻律情報入力部７、音声素片選択部１２、素片融合部８、素片編集・接続部９により構成される。

音韻系列・韻律情報入力部７には、韻律処理部３３から出力された目標音声の音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部７に入力される韻律情報としては、基本周波数、音韻継続時間長、パワーなどがある。以下、音韻系列・韻律情報入力部７に入力される音韻系列と韻律情報を、それぞれ入力音韻系列、入力韻律情報と呼ぶ。入力音韻系列は、例えば音韻記号の系列である。

音声素片記憶部１には大量の音声素片が蓄積されており、それらの音声素片の音素環境の情報（音素環境情報）が音素環境記憶部２に蓄積されている。音声素片記憶部１には、合成音声を生成する際に用いる音声の単位（合成単位）の音声素片が、合成単位に対応する音声信号の波形あるいはその特徴を表すパラメータ系列などの形で記憶されている。

音声素片選択部１２は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、入力韻律情報を基に音声素片記号部１に記憶されている音声素片の中から複数の音声素片を選択する。

素片融合部８は、複数のセグメントのそれぞれに対し音声素片選択部１２で選択された複数の音声素片を融合して、新たな音声素片を生成し、入力音韻系列の音韻記号の系列に対応する新たな音声素片の系列を生成する。

素片融合部８で生成された新たな音声素片の系列は、素片編集・接続部９において、入力韻律情報に基づいて変形及び接続され、合成音声の音声は慶賀生成される。こうして生成された音声波形は音声波形出力部１０で出力される。
上述したように、複数素片選択型の音声合成方法は、複数個の音声素片を融合して新たな音声素片を生成しているため、素片選択で品質の悪い音声素片が選択されたとしても、融合する他の音声素片によって補われ、合成音声の品質の劣化が抑えられる。その結果、高品質かつ安定感のある合成音声の生成が可能となっている。

また、さらなる品質改善の手法として、素片融合部８において、ピッチ波形の位相処理を行ったのち融合する方法や、ピッチ波形を複数の帯域に分割したのち融合する方法や、閉ループ学習と呼ばれる技術（例えば、特許文献１参照）を用いて融合する方法などがある。
水谷竜也、籠嶋岳彦：「複数素片選択融合方式による音声合成」、日本音響学会春季研究発表会講演論文集I、pp．217-218、Mar．2004 特許第３２８１２８１号公報

しかしながら、従来の複数素片選択型の音声合成技術では、ピッチ波形の平均によって融合素片を生成する場合は計算量は問題ないが、上述したような品質改善の手法（例えば、閉ループ学習）を適用した場合、素片融合の処理において膨大な計算量が必要となり、貧弱なコンピュータリソースの下では、リアルタイムな処理が実現できないという問題があった。

そこで、本発明は、上記従来技術の問題点を解決するためになされたものであって、貧弱なコンピュータリソースの下であっても、自然で高品質な合成音声をリアルタイムな処理で生成することのできる音声合成装置及びその方法を提供することを目的とする。

本発明は、合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第１の音声素片を選択する第１の音声素片選択手段と、前記複数の第１の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第２の音声素片を生成する第２の音声素片生成手段と、前記第２の音声素片を接続することによって合成音声を生成する合成音声生成手段と、前記合成音声の高品質化のために前記複数の第１の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御手段と、を備え、前記融合制御手段は、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、前記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択することを特徴とする音声合成装置である。

本発明によれば、融合方式、融合素片数、重み付け係数、相関計算の範囲、帯域分割数及び帯域分割フィルタの次数の少なくともいずれかを適応的に制御することにより、自然で高品質な合成音声をリアルタイムな処理で生成することができる。

以下、本発明の実施形態について説明する。

［第１の実施形態］
以下、本発明の第１の実施形態に係るテキスト音声合成装置について説明する。

（１）テキスト音声合成装置の構成
図１は、本実施形態に係るテキスト音声合成装置の構成を示すブロック図である。

このテキスト音声合成装置は、テキスト入力部３１、言語処理部３２、韻律処理部３３、音声合成部３４、音声波形出力部１０から構成される。

言語処理部３２は、テキスト入力部３１から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部３３へ送る。韻律処理部３３は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列（音韻記号列）及び韻律情報を生成し、音声合成部３４へ送る。音声合成部３４は、音韻記号列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部１０で出力される。

（２）音声合成部３４の構成
図２は、本実施形態の特徴的な部分である音声合成部３４の構成例を示すブロック図である。

図２において、音声合成部３４は、音声素片記憶部１、音素環境記憶部２、音韻系列・韻律情報入力部７、音声素片選択部１２、第１の素片融合部５、第２の素片融合部６、リソース分析部１３、融合方式決定部１４、素片編集・接続部９により構成される。図２５の従来技術と大きく異なる点は、リソース分析部１３及び融合方式決定部１４が設けられていることと、素片融合部が複数設けられていることである。以下に、図３のフローチャートを用いながら、各処理の動作を説明する。

音韻系列・韻律情報入力部７には、韻律処理部３３から出力された合成すべき音声（目標音声）の音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部７に入力される韻律情報としては、基本周波数、音韻継続時間長、パワーなどがある。また、入力音韻系列は、例えば音韻記号の系列である（ステップＳ１）。

リソース分析部１３は、合成音声の生成に用いられるコンピュータのＣＰＵパワーの情報を獲得し、その情報を融合方式決定部１４に送る。コンピュータのＣＰＵパワーの情報は、公知の技術を用いてコンピュータのリソース情報から獲得可能である（ステップＳ２）。

融合方式決定部１４は、リソース分析部１３において獲得されたコンピュータのＣＰＵパワーの情報から、予め決定されているコンピュータのＣＰＵパワーと融合方式の対応関係を参照して、どの融合方式を用いるかを決定する。

例えば、コンピュータのＣＰＵパワーと融合方式との対応関係を、コンピュータのＣＰＵパワーが予め設定したしきい値より小さいとき（コンピュータの能力が低いとき）は計算量の少ない融合方式を選択し、逆に、コンピュータのＣＰＵパワーがしきい値より大きいとき（コンピュータの能力が高いとき）は計算量が多くても性能の優れた融合方式を選択するように決定しておけば、貧弱なＣＰＵパワーを持つコンピュータを利用する場合でも高速な処理が行える。

また、コンピュータのＣＰＵパワーの情報及び合成音声の時間長の情報から、リアルタイムに合成音声を生成するための計算量の上限を求めることができるので、融合方式とその計算量の対応関係を予め求めて記憶しておけば、コンピュータのＣＰＵパワーの情報から、よりリアルタイムに近い処理で合成音声を生成することが可能となる（ステップＳ３）。

一方、音声素片選択部１２は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、入力韻律情報を基に音素環境記憶部２に記憶されている音素環境情報を参照しながら、音声素片記憶部１に記憶されている音声素片の中から複数の音声素片を選択する。各セグメントに対し選択される複数の音声素片は、いずれも当該セグメントの音韻に対応するとともに、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴と一致あるいは類似する音声素片である。各セグメントに対し選択される複数の音声素片のそれぞれは、合成音声を生成するために入力韻律情報に基づき当該音声素片を変形したときに生ずる当該合成音声の目標音声に対する歪の度合いができるだけ少なくなるような音声素片である。しかも、各セグメントに対し選択される複数の音声素片のそれぞれは、合成音声を生成するために当該音声素片を当該セグメントの隣のセグメントの音声素片と接続した際に生ずる当該合成音声の目標音声に対する歪の度合いができるだけ少なくなるような音声素片である。本実施形態では、セグメント毎に、後述するコスト関数を用いて、目標音声に対する合成音声の歪の度合いを推定しながら、このような複数の音声素片を選択する。

なお、音声素片記憶部１には、合成音声を生成する際に用いる音声の単位（合成単位）の音声素片が、合成単位に対応する音声信号の波形あるいはその特徴を表すパラメータ系列などの形で大量に蓄積されている。ここで、合成単位とは、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素（C、V）、ダイフォン（CV、VC、VV）、トライフォン（CVC、VCV）、音節（CV、V）などのことであって（Vは母音、Cは子音を表す）、これらが混在した可変長のものであってもよい。

また、音素環境記憶部２には、音声素片の音素環境の情報（音素環境情報）が蓄積されている。音声素片の音素環境とは、当該音声素片にとっての環境となる要因の組み合わせである。要因としては、例えば、当該音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある（ステップＳ４）。

音声素片選択部１２で選択された複数セグメントのそれぞれに対する音声素片は、第１の融合方式を適用した第１の素片融合部５あるいは第２の融合方式を適用した第２の素片融合部６のうち、融合方式決定部１４で決定されたいずれかの融合部で融合が行われ、新たな音声素片が生成される。その結果、入力音韻系列の音韻記号の系列に対応する新たな音声素片の系列が得られる（ステップＳ５）。

そして、新たな音声素片の系列は、素片編集・接続部９において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される（ステップＳ６）。

こうして生成された音声波形は音声波形出力部１０で出力される（ステップＳ７）。

（２）音声合成部３４の各処理
以下、音声合成部３４の各処理について詳しく説明する。ここでは、合成単位の音声素片は音素であるとする。

音声素片記憶部１には、図４に示すように、各音素の音声信号の波形が当該音素を識別するための素片番号とともに記憶されている。また、音素環境記憶部２には、図５に示すように、音声素片記憶部１に記憶されている各音素の音素環境情報が、当該音素の素片番号４１に対応付けて記憶されている。ここでは、音素環境として、音素記号４２、基本周波数４３、音韻継続時間長４４が記憶されている。

音声素片記憶部１に記憶されている各音声素片は、別途収集された多数の音声データ対して音素毎にラベリングを行い、音素毎に音声波形を切り出したものを、音声素片として蓄積したものである。

例えば、図６には、音声データ７１に対し、音素毎にラベリングを行った結果を示している。図６では、ラベル境界７２により区切られた各音素の音声データ（音声波形）について、ラベルデータ７３として音素記号を付与している。なお、この音声データから、各音素についての音素環境の情報（例えば、音韻（この場合、音素名（音素記号））、基本周波数、音韻継続時間長など）も抽出する。このようにして音声データ７１から求めた各音声波形と、当該音声波形に対応する音素環境の情報には、同じ素片番号が与えられて、図４及び図５に示すように、音声素片記憶部１と音素環境記憶部２にそれぞれ記憶される。ここでは、音素環境情報には、音声素片の音韻とその基本周波数及び音韻継続時間長を含むものとする。

次に、音声素片選択部１２において素片系列を求める際に用いられるコスト関数について説明する。まず、音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数Ｃｎ（ｕｉ、ｕｉ−１、ｔｉ）（ｎ：１、…、Ｎ、Ｎはサブコスト関数の数）を定める。ここで、ｔｉは、入力音韻系列及び入力韻律情報に対応する目標とする音声（目標音声）をｔ＝（ｔ１、…、ｔＩ）としたときのｉ番目のセグメントに対応する部分の音声素片の目標とする音素環境情報を表し、ｕｉは音声素片記憶部１に記憶されている音声素片のうち、ｔｉと同じ音韻の音声素片を表す。

サブコスト関数は、音声素片記憶部１に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。当該コストを算出するために、ここでは、具体的には、当該音声素片を使用することによって生じる合成音声の目標音声に対する歪みの度合いを推定する目標コストと、当該音声素片を他の音声素片と接続したときに生じる当該合成音声の目標音声に対する歪みの度合いを推定する接続コストという２種類のサブコストがある。

目標コストとしては、音声素片記憶部１に記憶されている音声素片の基本周波数と目標の基本周波数との違い（差）を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い（差）を表す音韻継続時間長コストを用いる。接続コストとしては、接続境界でのスペクトルの違い（差）を表すスペクトル接続コストを用いる。具体的には、基本周波数コストは、

から算出する。ここで、ｖｉは音声素片記憶部１に記憶されている音声素片ｕｉの音素環境を、ｆは音素環境ｖｉから平均基本周波数を取り出す関数を表す。また、音韻継続時間長コストは、

から算出する。ここで、ｇは音素環境ｖｉから音韻継続時間長を取り出す関数を表す。スペクトル接続コストは、２つの音声素片間のケプストラム距離：

から算出する。ここで、ｈは音声素片ｕｉの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する：

ここで、ｗｎはサブコスト関数の重みを表す。本実施例では、簡単のため、ｗｎはすべて「１」とする。上記式（４）は、ある合成単位に、ある音声素片を当てはめた場合の当該音声素片の合成単位コストである。

入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式（４）から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式（５）に示すように定義する：

音声素片選択部１２では、上記（１）〜（５）に示したコスト関数を使って２段階で１セグメントあたり（すなわち、１合成単位あたり）複数の音声素片を選択する。

（３）素片選択処理
図７は、素片選択処理を説明するためのフローチャートである。

まず、１段階目の素片選択として、ステップＳ１１１では、音声素片記憶部１に記憶されている音声素片群のなかから、上記式（５）で算出されるコストの値が最小の音声素片の系列を求める。このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶこととする。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適音声素片系列中の各音声素片から算出された上記合成単位コストと式（５）より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法（ＤＰ：ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）を用いることでより効率的に行うことができる。

次に、ステップＳ１１２に進み、２段階目の素片選択では、最適素片系列を用いて、１セグメントあたり複数の音声素片を選ぶ。ここでは、セグメントの数をＪ個とし、セグメントあたりＭ個の音声素片を選ぶこととして、ステップＳ１１２の詳細を説明する。

ステップＳ１１３及びＳ１１４では、Ｊ個のセグメントのうちの１つを注目セグメントとする。ステップＳ１１３及びＳ１１４はＪ回繰り返され、Ｊ個のセグメントが１回ずつ注目セグメントとなるように処理を行う。まず、ステップＳ１１３では、注目セグメント以外のセグメントには、それぞれ最適素片系列の音声素片を固定する。この状態で、注目セグメントに対して音声素片記憶部１に記憶されている音声素片を式（５）のコストの値に応じて順位付けし、上位Ｍ個を選択する。

例えば、図８に示すように、入力音韻系列が「ｔｓ・ｉ・ｉ・ｓ・ａ・…」であるとする。この場合、合成単位は、音素「ｔｓ」、「ｉ」、「ｉ」、「ｓ」、「ａ」、…のそれぞれに対応し、これら音素のそれぞれが１つのセグメントに対応する。図８では、入力された音韻系列中の３番目の音素「ｉ」に対応するセグメントを注目セグメントとし、この注目セグメントについて、複数の音声素片を求める場合を示している。この３番目の音素「ｉ」に対応するセグメント以外のセグメントに対しては、最適素片系列中の音声素片５１ａ、５１ｂ、５１ｄ、５１ｅ…を固定する。

この状態で、音声素片記憶部１に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ音声素片のそれぞれについて、式（５）を用いてコストを算出する。但し、それぞれの音声素片に対してコストを求める際に、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。すなわち、次の手順となる。

（手順１）音声素片記憶部１に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ音声素片のうちの１つを音声素片ｕ３とする。音声素片ｕ３の基本周波数ｆ（ｖ３）と、目標の基本周波数ｆ（ｔ３）とから、式（１）を用いて、基本周波数コストを算出する。

（手順２）音声素片ｕ３の音韻継続時間長ｇ（ｖ３）と、目標の音韻継続時間長ｇ（ｔ３）とから、式（２）を用いて、音韻継続時間長コストを算出する。

（手順３）音声素片ｕ３のケプストラム係数ｈ（ｕ３）と、音声素片５１ｂ（ｕ２）のケプストラム係数ｈ（ｕ２）とから、式（３）を用いて、第１のスペクトル接続コストを算出する。また、音声素片ｕ３のケプストラム係数ｈ（ｕ３）と、音声素片５１ｄ（ｕ４）のケプストラム係数ｈ（ｕ４）とから、式（３）を用いて、第２のスペクトル接続コストを算出する。

（手順４）上記（手順１）〜（手順３）で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第１及び第２のスペクトル接続コストの重み付け和を算出して、音声素片ｕ３のコストを算出する。

（手順５）音声素片記憶部１に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ各音声素片について、上記（手順１）〜（手順４）に従って、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う（図７のステップＳ１１３）。そして、上位Ｍ個の音声素片を選択する（図７のステップＳ１１４）。例えば、図８では、音声素片５２ａが最も順位が高く、音声素片５２ｄが最も順位が低い。

以上の（手順１）〜（手順５）をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、Ｍ個ずつの音声素片が得られる。なお、上記目標コストは、合成音声を生成するために入力韻律情報を基に、融合された音声素片の基本周波数や音韻継続時間長などを素片編集・接続部９で変えることにより生ずる当該合成音声の目標音声に対する歪をできるだけ正確に推定（評価）するものであることが望ましい。そのような目標コストの一例である式（１）、（２）から算出される目標コストは、当該歪の度合いを、目標音声の韻律情報と音声素片記憶部１に記憶されている音声素片の韻律情報の違いに基づき算出されるものである。また、接続コストは、合成音声を生成するために融合された音声素片を接続することにより生ずる当該合成音声の目標音声に対する歪をできるだけ正確に推定（評価）するものであることが望ましい。そのような接続コストの一例である、式（３）から算出される接続コストは、音声素片記憶部１に記憶されている音声素片の接続境界のケプストラム係数の違いに基づき算出されるものである。

次に、第１の素片融合部５及び第２の素片融合部６の処理について説明する。それぞれの素片融合部５，６では、素片選択部１２で求めた複数のセグメントのそれぞれについて選択されたＭ個の音声素片から、セグメント毎に当該Ｍ個の音声素片を融合し、新たな音声素片（融合された音声素片）を生成する。有声音の波形は周期があるが、無声音の波形は周期がないため、このステップは音声素片が有声音である場合と無声音である場合とで別の処理を行う。そして、第１の素片融合部５よりも第２の素片融合部６の方がリソースが少なくて処理を行える。

（４）第１の融合部５
まずは、第１の融合部５において、有声音の場合について説明する。

有声音の場合には、音声素片からピッチ波形を取り出し、ピッチ波形のレベルで融合し、新たなピッチ波形を作り出す。ピッチ波形とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すようなものを意味する。

その抽出方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やＰＳＥ分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪が小さくなるようなピッチ波形を求める方法など様々なものがある。

ここでは、基本周期同期窓で切り出す方法を用いてピッチ波形を抽出する場合を例にとり、図９のフローチャートを参照して説明する。ここでは、複数のセグメントのうちのある１つのセグメントについて、Ｍ個の音声素片を融合して１つの新たな音声素片を生成する場合の処理手順を説明する。

ステップＳ１２１において、Ｍ個の音声素片のそれぞれの音声波形に、その周期間隔毎にマーク（ピッチマーク）を付ける。図１０（ａ）には、Ｍ個の音声素片のうちの１つの音声素片の音声波形６１に対し、その周期間隔毎にピッチマーク６２が付けられている場合を示している。ステップＳ１２２では、図１０（ｂ）に示すように、ピッチマークを基準として窓掛けを行ってピッチ波形を切り出す。窓にはハニング窓６３を用い、その窓長は基本周期の２倍とする。そして、図１０（ｃ）に示すように、窓掛けされた波形６４をピッチ波形として切り出す。Ｍ個の音声素片のそれぞれについて、図１０に示すような処理（ステップＳ１２２の処理）を施す。その結果、Ｍ個の音声素片のそれぞれについて、複数個のピッチ波形からなるピッチ波形の系列が求まる。

次にステップＳ１２３に進み、当該セグメントのＭ個の音声素片のそれぞれのピッチ波形の系列のなかで、最もピッチ波形の数が多いものに合わせて、Ｍ個全てのピッチ波形の系列中のピッチ波形の数が同じになるように、（ピッチ波形の数が少ないピッチ波形の系列については）ピッチ波形を複製して、ピッチ波形の数をそろえる。

図１１には、当該セグメントのＭ個（例えば、ここでは、３個）の音声素片ｄ１〜ｄ３のそれぞれから、ステップＳ１２２で切り出されたピッチ波形の系列ｅ１〜ｅ３を示している。ピッチ波形の系列ｅ１中のピッチ波形の数は７個、ピッチ波形の系列ｅ２中のピッチ波形の数は５個、ピッチ波形の系列ｅ３中のピッチ波形の数は６個であるので、ピッチ波形の系列ｅ１〜ｅ３のうち最もピッチ波形の数が多いものは、系列ｅ１である。従って、この系列ｅ１中のピッチ波形の数（例えば、ここでは、ピッチ波形の数は、７個）に合わせて、他の系列ｅ２、ｅ３については、それぞれ、当該系列中のピッチ波形のいずれかをコピーして、ピッチ波形の数を７個にする。その結果得られた、系列ｅ２、ｅ３のそれぞれに対応する新たなピッチ波形の系列がｅ２’ｅ３’である。

次に、ステップＳ１２４に進む。このステップでは、ピッチ波形毎に処理を行う。ステップＳ１２４では、当該セグメントのＭ個のそれぞれの音声素片に対応するピッチ波形をその位置毎に平均化し、新たなピッチ波形の系列を生成する。この生成された新たなピッチ波形の系列を融合された音声素片とする。

図１２には、当該セグメントのＭ個（例えば、ここでは、３個）の音声素片ｄ１〜ｄ３のそれぞれからステップＳ１２３で求めたピッチ波形の系列ｅ１、ｅ２’ｅ３’を示している。各系列中には、７個のピッチ波形があるので、ステップＳ１２４では、１番目から７番目のピッチ波形をそれぞれ３つの音声素片で平均化し、７個の新たなピッチ波形からなる新たなピッチ波形の系列ｆ１を生成している。すなわち、例えば、系列ｅ１の１番目とピッチ波形と、系列ｅ２’の１番目のピッチ波形と、系列ｅ３’の１番目のピッチ波形のセントロイドを求めて、それを新たなピッチ波形の系列ｆ１の１番目のピッチ波形とする。新たなピッチ波形の系列ｆ１の２番目〜７番目のピッチ波形についても同様である。ピッチ波形の系列ｆ１が、上記「融合された音声素片」である。

（５）第２の素片融合部６
一方、第２の素片融合部６では、第１の融合部５と比較して、計算量は増加するが品質が改善されるような手法を用いる。例えば、閉ループ学習を使うことで、それぞれの音声素片のピッチ波形を取り出すことなく、合成音のレベルで最適なピッチ波形系列を作り出すことができる。閉ループ学習とは、実際に基本周波数や韻律継続時間長を変更して合成された合成音声のレベルで、自然音声に対する歪が小さくなるような代表音声素片を生成する方法である。閉ループ学習では、合成音声のレベルで歪が小さくなるような素片を生成するため、第１の素片融合部５のように、ピッチ波形の平均化によって新たな音声素片を作成する場合よりも、高品質な音声素片が作成される（特許第３２８１２８１号参照）。

以下に、閉ループ学習を用いて、有声音の音声素片を融合する場合について説明する。

融合によって求められる音声素片は、第１の素片融合部５によって作成される音声素片と同様に、ピッチ波形の系列として求められる。これらのピッチ波形を連結して構成されるベクトルｕで音声素片をあらわすこととする。

まず、音声素片の初期値を用意する。初期値としては、第１の素片融合部５と同様の手法によって求められるピッチ波形の系列を用いてもよいし、ランダムなデータを用いても良い。ここで、素片選択部１２で求められた当該セグメントに対するＭ個の音声素片の波形を表すベクトルをｒｊ（ｊ＝１、２、…、Ｍ）とする。次に、ｕを用いて、ｒｊを目標としてそれぞれ音声信号を合成する。生成された合成音声セグメントをｓｊと表す。ｓｊは、次式（６）のように、ピッチ波形の重畳を表す行列Aｊとｕの積で表される。

ｒｊのピッチマークとｕのピッチ波形とのマッピング、及びｒｊのピッチマーク位置より行列Aｊは決定される。行列Aｊの例を図１３に示す。

次に、合成音声セグメントｓｊとｒｊの誤差を評価する。ｓｊとｒｊの誤差ｅｊを次式（７）で定義する。

但し、次式（８）、（９）に示すように、ｇｊは２つの波形の平均的なパワーを補正して、波形の歪のみを評価するためのゲインであり、ｅｊが最小となるような最適ゲインを用いている。

ベクトルｒｊ全てに対する総和を表す評価関数Ｅを次式（１０）で定義する。

Ｅを最小にする最適なベクトルｕは、Ｅをｕで片微分して「０」とおくことで得られる次式（１１）、（１２）を解くことによって求められる。

式（１２）は、ｕについての連立方程式であり、これを解くことによって新たな音声素片ｕを一意に求めることができる。ベクトルｕが更新されることによって、最適ゲインｇｊが変化するため、上述したプロセスをＥの値が収束するまで繰り返し、収束した時点のベクトルを、融合によって生成された音声素片として用いる。

一方、素片融合部の処理において、無声音のセグメントの場合には、音声素片選択部１２で選択された当該セグメントのＭ個の音声素片のうち、当該Ｍ個の音声素片のそれぞれに付けられている順位が１位の音声素片の音声波形をそのまま使用する。

（６）素片編集・接続部９
素片編集・接続部９では、第１あるいは第２の素片融合部５，６で求めたセグメント毎の融合された音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。融合された音声素片は、実際にはピッチ波形の形になっているので、当該融合された音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。

図１４は、素片編集・接続部９の処理を説明するための図である。図１４では、音素「ｍ」、「ａ」、「ｄ」、「ｏ」の各合成単位について素片融合部で求めた融合された音声素片を変形・接続して、「まど」という音声波形を生成する場合を示している。図１４に示すように、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて、セグメント（合成単位）毎に、融合された音声素片中の各ピッチ波形の基本周波数を変えたり（音の高さを変えたり）、ピッチ波形の数を増やしたり（時間長を変えたり）する。その後に、セグメント内、セグメント間で、隣り合うピッチ波形を接続して合成音声を生成する。

上述したように、本実施形態では、コンピュータリソースに応じて素片融合方式を適応的に切り替えることで、コンピュータのリソースが貧弱な場合であっても、リアルタイムな音声合成処理を実現することが可能になる。

（７）本実施形態の変更例
（７−１）変更例１
なお、本実施形態は、コンピュータのリソースが貧弱な場合であっても、素片融合方式を切り替えることにより、自然で高品質な合成音声をリアルタイムな処理で生成することを目的としている。しかし、図１５に示されるように、図２におけるリソース分析部１３の代わりに音声素片記憶部１の容量やそこに格納されている音声素片の特性を分析する音声素片分析部１５を設け、音声素片記憶部１の容量やそこに格納さている音声素片の特性に応じて素片融合部を適切に切り替えることにより、合成音声の品質を改善することも可能である。

（７−２）変更例２
また、音声素片選択部１２で算出されたコストに応じて素片融合部を適切に切り替えることにより、合成音声の品質を改善することも可能である。

例えば、音声素片記憶部１の容量が大きい場合や、音声素片選択部１２で算出されたコストが小さい場合などは、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴に選択された音声素片が類似する度合いが高く、素片融合による音声素片の変形を積極的に行わなくても高品質な合成音声を生成することが可能である。

逆に、音声素片記憶部１の容量が小さい場合や、音声素片選択部１２で算出されたコストが大きい場合などは、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴に選択された音声素片が類似する度合いが低いため、高品質な合成音声を生成するためには、素片融合による音声素片の変形を積極的に行う必要がある。

従って、上述したように、音声素片記憶部１のサイズやそこに格納されている音声素片の特性あるいは素片選択部１２で算出されるコストに応じて素片融合部を適切に制御することで、合成音声の品質を改善することが可能となる。

（７−３）変更例３
更には、図１６に示されるように、音韻系列及び韻律情報に応じて、素片融合方式を切り替えることも可能である。予め、音韻系列及び韻律情報に対する最適な（合成音声の品質が良くなる）素片融合方式を求めておけば、生成される合成音声の品質を大きく改善することが可能となる。

（７−４）変更例４
なお、本実施形態では、素片融合方式を２つ設け、それらを切り替えて使用する構成になっているが、素片融合方式は２つに限定される必要はなく、３つ以上の素片融合方式を設けて、それらを適応的に切り替えるような構成にしても良い。

［第２の実施形態］
本発明の第２の実施形態に係るテキスト音声合成装置について説明する。

（１）音声合成部３４の構成
図１７は、本発明の第２の実施形態に係るテキスト音声合成装置の音声合成部３４の構成を示すブロック図である。

図１７において、音声合成部３４は、音声素片記憶部１、音素環境記憶部２、音韻系列・韻律情報入力部７、素片選択部１２、素片融合部８、リソース分析部１３、融合素片数決定部１６、素片編集・接続部９により構成される。

図２に示される第１の実施形態と大きく異なる点は、素片融合部が１つ設けられ、融合方式決定部１４の代わりに融合素片数決定部１６が設けられていることである。また、図２５に示される従来技術と異なる点は、リソース分析部１３及び融合素片数決定部１６が設けられていることと、後述するように、音声素片選択部１２は、融合素片数決定部１６で決定された数の音声素片を各セグメントに対して選択することである。以下に、図１７を用いて、従来技術と異なる部分を中心に各処理の動作を説明する。

リソース分析部１３は、合成音声の生成に用いられるコンピュータのＣＰＵパワーの情報を獲得し、その情報を融合素片数決定部１６に送る。

融合素片数決定部１６は、リソース分析部１３において獲得されたコンピュータのＣＰＵパワーの情報から、予め決定されているコンピュータのＣＰＵパワーと融合素片数の対応関係を参照して、各セグメントに対し選択される音声素片の数を決定する。

例えば、音声素片数の候補を２つ用意し（Ｋ、Ｌ：Ｋ＝＜Ｌ）、コンピュータのＣＰＵパワーと融合素片数の対応関係を、コンピュータのＣＰＵパワーが予め設定したしきい値よりも小さいとき（コンピュータの能力が低いとき）は小さい候補Ｋを採用し、逆に、コンピュータのＣＰＵパワーがしきい値より大きいとき（コンピュータの能力が高いとき）は大きい候補Ｌを採用するように決定しておけば、貧弱なＣＰＵパワーを持つコンピュータを利用する場合でも高速な処理が行える。

ここで、音声素片数の候補の一方を１に設定すると、コンピュータの能力が低い場合は素片融合を行わず、コンピュータの能力が高い場合は素片融合を行うことになる。このような切り替えを行うことで、リアルタイム処理で合成音声を生成することが可能になる。また、コンピュータのＣＰＵパワーの情報及び合成音声の時間長の情報から、リアルタイムに合成音声を生成するための計算量の上限を求めることができるので、融合素片数とそのときの計算量の対応関係を予め求めて記憶しておけば、コンピュータのＣＰＵパワーの情報から、リアルタイム処理で合成音声を生成するために必要な融合素片数を決定することができる。

通常、融合素片数が多くなれば合成音声の生成に必要な計算量は多くなり、逆に、融合素片数が少なくなれば合成音声の生成に必要な計算量は少なくなるので、コンピュータのＣＰＵパワーが小さいときは融合素片数を少なくし、コンピュータのＣＰＵパワーが大きいときは融合素片数を大きくなるような対応関係を用意することが望ましい。
一方、音声素片選択部１２は、融合素片数決定部１６の結果を受けて、そこで決定された数の音声素片を各セグメントに対して音声素片記憶部１から選択し、それらを素片融合部８に送る。複数の音声素片の選択は第１の実施形態で述べた手法で実施できる。

素片融合部８では、音声素片選択部１２で選択された複数セグメントのそれぞれに対する複数の音声素片が融合され、新たな音声素片の系列が生成される。融合方式は、第１の実施形態で述べた、ピッチ波形を平均する手法や、閉ループ学習に基づく手法、あるいはそれ以外の手法のいずれを用いても構わない。

新たな音声素片の系列は、素片編集・接続部９において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。

そして、こうして生成された音声波形は音声波形出力部１０で出力される。

上述したように、本実施形態では、コンピュータリソースに応じて融合素片数を適応的に制御することで、コンピュータリソースが貧弱な場合であっても、リアルタイムな音声合成処理を実現することが可能になる。

（２）第２の実施形態の変更例
（２−１）変更例１
なお、本実施形態は、コンピュータのリソースが貧弱な場合であっても、融合素片数を適応的に制御することにより、自然で高品質な合成音声をリアルタイムな処理で生成することを目的としている。しかし、図１８に示されるように、図１７におけるリソース分析部１３の代わりに音声素片記憶部１の容量やそこに格納されている音声素片の特性を分析する音声素片分析部１５を設け、音声素片記憶部１の容量やそこに格納さている音声素片の特性に応じて融合素片数を適応的に制御することにより、合成音声の品質を改善することも可能である。また、音声素片選択部１２で算出されたコストに応じて融合素片数を適応的に制御することにより、合成音声の品質を改善することも可能である。

例えば、音声素片記憶部１の容量が大きい場合や、音声素片選択部１２で算出されたコストが小さい場合などは、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴に選択された音声素片が類似する度合いが高く、素片融合による音声素片の変形を積極的に行わなくても高品質な合成音声を生成することが可能である。逆に、音声素片記憶部１の容量が小さい場合や、音声素片選択部１２で算出されたコストが大きい場合などは、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴に、選択された音声素片の類似する度合いが低いため、高品質な合成音声を生成するためには、素片融合による音声素片の変形を積極的に行う必要がある。通常、融合素片数が少ないと素片融合による音声素片の変形量が少なく、逆に、融合素片数が多いと素片融合による音声素片の変形量が大きくなる。従って、音声素片記憶部１の容量が大きい場合や音声素片選択部１２で算出されるコストが小さい場合は融合素片数を少なく、逆に、音声素片記憶部１の容量が小さい場合や音声素片選択部１２で算出されるコストが大きい場合は融合素片数を多くすることが望ましい。例えば、融合素片数の候補を１とそれ以外のＬに設定しておき、音声素片記憶部１の容量が予め設定したしきい値より大きければ融合素片数として１を採用し、逆に、しきい値より小さければ融合素片数としてＬを採用する。同様に、融合素片数の候補を１とそれ以外のＬに設定しておき、音声素片選択部１２で算出されるコストが予め設定したしきい値より小さければ融合素片数として１を採用し、逆に、しきい値より大きければ融合素変数としてＬを採用する。また、融合素片数を適応的に制御する方法として、コストが予め設定されたしきい値より小さくなる素片が存在する場合は、それらの素片のみを使う方法なども考えられる。

（２−２）変更例２
更には、図１９に示されるように、音韻系列及び韻律情報に応じて、融合素片数を適応的に制御することも可能である。予め、音韻系列及び韻律情報に対する最適な（合成音声の品質が良くなる）融合素片数を求めておき、入力音韻系列及び韻律情報に応じて融合素片数を適応的に制御すれば、生成される合成音声の品質を大きく改善することが可能である。

［第３の実施形態］
図２０は、本発明の第３の実施形態に係るテキスト音声合成装置の音声合成部の構成を示すブロック図である。

図２０において、音声合成部３４は、音声素片記憶部１、音素環境記憶部２、音韻系列・韻律情報入力部７、音声素片選択部１２、音声素片分析部１５、重み付け素片融合部１８、融合重み付け係数決定部１７、素片編集・接続部９により構成される。

図１５に示される第１の実施形態の変形と大きく異なる点は、重み付け素片融合部１８が１つ設けられ、融合方式決定部１４の代わりに融合重み付け係数決定部１７が設けられていることである。また、図２５に示される従来技術と異なる点は、音声素片分析部１５及び融合重み付け係数決定部１７が設けられていることと、後述するように、重み付け素片融合部１８において、音声素片選択部１２で選択された音声素片に対して、融合重み付け係数決定部１７で決定された重み付け係数を用いた重み付けをして音声素片の融合を行うことである。以下に、図２０を用いて、従来技術と異なる部分を中心に各処理の動作を説明する。

音声素片分析部１５は、音声素片記憶部１の容量あるいはそこに格納されている音声素片の特性を分析し、その結果を融合重み付け係数決定部１７に送る。

融合重み付け係数決定部１７は、音声素片分析部１５で求められた音声素片記憶部１の容量あるいはそこに格納されている音声素片の特性から、予め決定されている融合重み付け係数との対応関係を参照して、各セグメントに対し選択された複数の音声素片それぞれに対する融合重み付け係数を決定する。例えば、音声素片記憶部１５の容量と融合重み付け係数の対応関係を、音声素片記憶部１５の容量が大きくなるにつれて音声素片の第１候補に対する重み付け係数がその他の候補に対する重み付け係数より大きくなるように決定する。つまり、音声素片記憶部１の容量が大きくなるにつれて、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴に、音声素片選択部１２で選択された素片の類似する度合いが高くなるので、このような重み付け係数を与えることで素片融合による音声素片の変形を積極的に行わないようにする。

重み付け素片融合部１８では、音声素片選択部１２で選択された複数の音声素片に対して、融合重み付け決定部１７で決定された重み付け係数を用いた音声素片の融合が行われ、生成された新たな音声素片の系列が生成される。
そして、新たな音声素片の系列は、素片編集・接続部９において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。

こうして生成された音声波形は、音声波形出力部１０で出力される。

上述したように、本実施形態では、音声素片記憶部１の容量あるいはそこに格納されている音声素片の特性に応じて融合重み付け係数を適応的に制御することで、合成音声の品質を改善することが可能である。

また、図２１に示されるように、第１候補のコストの値に従って第１候補に対する重み付け係数の値を適応的に変えることにより、合成音声の品質は改善される。例えば、コストの値が小さいときは重み付け係数の値を大きくし、逆に、コストの値が大きいときは重み付け係数の値を小さくする。つまり、コストの値が小さければ音声素片の類似度は高く、このときの第１候補の重みを大きく設定すれば、融合による変形量が抑えられ、その結果、合成音声の品質が改善される。

更には、図２２に示されるように、音韻系列及び韻律情報に応じて、融合重み付け係数を適応的に制御することも可能である。予め、音韻系列及び韻律情報に対する最適な融合重み付け係数を求めておき、入力音韻系列及び韻律情報に応じて融合重み付け係数を適応的に制御すれば、生成される合成音声の品質を改善することが可能となる。

［第４の実施形態］
図２３は、本発明の第４の実施形態に係るテキスト音声合成装置の音声合成部の構成を示すブロック図である。

図２３において、音声合成部３４は、音声素片記憶部１、音素環境記憶部２、音韻系列・韻律情報入力部７、音声素片選択部１２、リソース分析部１３、相関計算範囲決定部１９、相関計算付き素片融合部２０、素片編集・接続部９により構成される。

図２に示される第１の実施形態と大きく異なる点は、素片融合部として、相関計算付き素片融合部２０が１つ設けられ、融合方式決定部１４の代わりに相関計算範囲決定部１９が設けられていることである。また、図２５に示される従来技術と異なる点は、リソース分析部１３及び相関計算範囲決定部１９が設けられていることと、後述するように、相関計算付き素片融合部２０において、相関計算範囲決定部１９で決定された範囲で相関計算を行って素片の融合を行うことである。以下に、図２３を用いて、従来技術と異なる部分を中心に各処理の動作を説明する。

リソース分析部１３は、合成音声の生成に用いられるコンピュータのＣＰＵパワーの情報を獲得し、その情報を相関計算範囲決定部１９に送る。

相関計算範囲決定部１９は、リソース分析部１３において獲得されたコンピュータのパワーの情報から、予め決定されているコンピュータのＣＰＵパワーと相関計算範囲の対応関係を参照して、相関計算範囲を決定する。

一方、音声素片選択部１２は、予め決定された数の音声素片を各セグメントに対して音声素片記憶部１から選択し、それらを相関計算付き素片融合部２０に送る。

相関計算付き素片融合部２０では、音声素片選択部１２で選択された複数セグメントのそれぞれに対する複数の音声素片が、第１の実施形態で述べたピッチ波形を平均化する手法により融合される。但し、各ピッチ波形の位相にずれが生じた状態でピッチ波形の平均化を行うと合成音声の品質が劣化するため、平均化を行う前にピッチ波形の位相のずれを補正するような位相処理を行う。位相のずれは、ピッチ波形の相関を計算して相関値が最大になるように探索されるので、この探索範囲（相関計算範囲）を制御することで素片融合に伴う計算量を制御することが可能となる。つまり、演算量を削減したい場合は相関計算範囲を小さく設定すればよい。もちろん、相関計算範囲を小さく設定する影響で合成音声の品質が劣化することも考えられるので、計算量に余裕がある場合は、合成音声の品質を保持するために相関計算範囲を大きくすることが望ましい。

そして、新たな音声素片の系列は、素片編集・接続部９において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。

このように、コンピュータのリソースに応じて素片融合における相関計算の範囲を適応的に制御することで、コンピュータのリソースが貧弱な場合であっても、リアルタイムな音声合成処理を実現することが可能になる。

［第５の実施形態］
図２４は、本発明の第５の実施形態に係るテキスト音声合成装置の音声合成部の構成を示すブロック図である。

図２４において、音声合成部３４は、音声素片記憶部１、音素環境記憶部２、音韻系列・韻律情報入力部７、音声素片選択部１２、リソース分析部１３、帯域分割数決定部２１、帯域分割素片融合部２２、素片編集・接続部９により構成される。

図２に示される第１の実施形態と大きく異なる点は、素片融合部として、帯域分割素片融合部２２が１つ設けられ、融合方式決定部１４の代わりに帯域分割数決定部２１が設けられていることである。また、図２５に示される従来技術と異なる点は、リソース分析部１３及び帯域分割数決定部２１が設けられていることと、後述するように、帯域分割素片融合部２２において、帯域分割数決定部２１で決定された数の帯域分割を行って素片の融合を行うことである。以下に、図２４を用いて、従来技術と異なる部分を中心に各処理の動作を説明する。

リソース分析部１３は、合成音声の生成に用いられるコンピュータのＣＰＵパワーの情報を獲得し、その情報を帯域分割数決定部２１に送る。

帯域分割数決定部２１は、予め決定されているＣＰＵパワーと帯域分割数の対応関係を参考に、コンピュータのＣＰＵパワーの情報から、融合における音声素片の帯域分割の数を決定する。

帯域分割素片融合部２２は、帯域分割数決定部２１により決定された数の帯域に音声素片を分割した後、帯域毎に素片の融合処理を行い、新たな音声素片を生成する。帯域分割を行ったのち、帯域毎に素片の融合を行うことで、各帯域の特徴が強く残された波形を生成することが可能である。なお、素片の帯域分割処理は、帯域分割フィルタを用いる方法や、ＦＦＴを用いる方法などの公知の技術を用いて実現可能である。
通常、帯域分割数が増えるに従い素片融合に伴う計算量は増加すると考えられるので、帯域分割決定部２１において、コンピュータのＣＰＵパワーが小さいときは帯域分割の数が少なくなるように、逆に、コンピュータのＣＰＵパワーが大きいときは帯域分割の数が多くなるように帯域分割数を制御すれば、貧弱なＣＰＵパワーを持つコンピュータを利用する場合でも高速な処理が可能となる。

また、帯域分割素片融合部２２において、帯域分割フィルタを用いて音声素片の帯域分割を行う場合、コンピュータのＣＰＵパワーが小さいときは帯域分割フィルタの次数（タップ数）を小さくなるように、帯域分割フィルタの次数を適応的に制御することで、貧弱なＣＰＵパワーを持つコンピュータを利用する場合でも高速な処理が可能となる。もちろん、帯域分割フィルタの次数を増やせば、帯域分割の精度が向上するので、コンピュータのＣＰＵパワーに余裕がある場合は、帯域分割フィルタの次数を増やすことが望ましい。

［変更例］
以上、本発明の実施形態を幾つか説明したが、本発明は上述した実施形態に限られるものではなく、種々変形して実施が可能である。例えば、音声素片の抽出単位、コスト関数、融合方式を変えて本発明を実施することも可能である。

また、上述した本発明に基づく音声合成処理は、ハードウェアにより実現することも可能であるが、コンピュータを用いてソフトウェア処理により実現することも可能である。従って、本発明によれば上述した音声合成処理をコンピュータに行わせるためのプログラムを提供することもできる。

本発明の第１の実施形態に係るテキスト音声合成装置の全体構成を示すブロック図である。図１における音声合成部３４の詳細な構成を示すブロック図である。図２における音声合成部３４の処理を示すフローチャートである。図２における音声素片記憶部１のデータ構成を模式的に示す図である。図２における音素環境記憶部２のデータ構成を模式的に示す図である。音声データに対し、音素毎にラベリングを行った結果を示す図である。図２における音声素片選択部１２の処理を示すフローチャートである。図２における音声素片選択部１２の処理を示す図である。図２における第１の素片融合部５の処理を示すフローチャートである。ステップＳ１２２におけるピッチ波形を切り出す処理を示す図である。ステップＳ１２３におけるピッチ波形の数をそろえる処理を示す図である。ステップＳ１２４におけるピッチ波形の平均を計算する処理を示す図である。行列Ａｊの例を示す図である。図２における素片編集・接続部９の処理を示す図である。本発明の第１の実施形態に係る音声合成部３４の第１の変形を示すブロック図である。本発明の第１の実施形態に係る音声合成部３４の第２の変形を示すブロック図である。本発明の第２の実施形態に係る音声合成部３４の詳細な構成を示すブロック図である。本発明の第２の実施形態に係る音声合成部３４の第１の変形を示すブロック図である。本発明の第２の実施形態に係る音声合成部３４の第２の変形を示すブロック図である。本発明の第３の実施形態に係る音声合成部３４の詳細な構成を示すブロック図である。本発明の第３の実施形態に係る音声合成部３４の第１の変形を示すブロック図である。本発明の第３の実施形態に係る音声合成部３４の第２の変形を示すブロック図である。本発明の第４の実施形態に係る音声合成部３４の詳細な構成を示すブロック図である。本発明の第５の実施形態に係る音声合成部３４の詳細な構成を示すブロック図である。従来の複数素片選択型のテキスト音声合成装置の構成を示すブロック図である。

符号の説明

１・・・音声素片記憶部
２・・・音素環境記憶部
５・・・第１の素片融合部
６・・・第２の素片融合部
７・・・音韻系列・韻律情報入力部
８・・・素片融合部
９・・・素片編集・接続部
１０・・・音声波形出力部
１２・・・音声素片選択部
１３・・・リソース分析部
１４・・・融合方式決定部
１５・・・音声素片分析部
１６・・・融合素片数決定部
１７・・・融合重み付け係数決定部
１８・・・重み付け素片融合部
１９・・・相関計算範囲決定部
２０・・・相関計算付き素片融合部
２１・・・帯域分割数決定部
２２・・・帯域分割素片融合部
３１・・・テキスト入力部
３２・・・言語処理部
３３・・・韻律情報処理部
３４・・・音声合成部
４１・・・素片番号
４２・・・音素記号
４３・・・基本周波数
４４・・・音韻継続時間長
７１・・・音声データ
７２・・・ラベル境界
７３・・・ラベルデータ

Claims

合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第１の音声素片を選択する第１の音声素片選択手段と、
前記複数の第１の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第２の音声素片を生成する第２の音声素片生成手段と、
前記第２の音声素片を接続することによって合成音声を生成する合成音声生成手段と、
前記合成音声の高品質化のために前記複数の第１の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御手段と、
を備え、
前記融合制御手段は、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、前記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択する
ことを特徴とする音声合成装置。
前記生成した合成音声と前記合成すべき音声との歪の度合いを、前記韻律情報を用いて推定する歪度合い推定手段を備える
ことを特徴とする請求項１に記載の音声合成装置。
コンピュータが、合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第１の音声素片を選択する第１の音声素片選択ステップと、
前記コンピュータが、前記複数の第１の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第２の音声素片を生成する第２の音声素片生成ステップと、
前記コンピュータが、前記第２の音声素片を接続することによって合成音声を生成する合成音声生成ステップと、
前記コンピュータが、前記合成音声の高品質化のために前記複数の第１の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御ステップと、
を備え、
前記融合制御ステップにおいては、前記コンピュータが、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、前記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択する
ことを特徴とする音声合成方法。
コンピュータに、
合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第１の音声素片を選択する第１の音声素片選択機能と、
前記複数の第１の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第２の音声素片を生成する第２の音声素片生成機能と、
前記第２の音声素片を接続することによって合成音声を生成する合成音声生成機能と、
前記合成音声の高品質化のために前記複数の第１の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御機能と、
を実現させるための音声合成プログラムであり、
前記融合制御機能においては、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、前記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択する
ことを特徴とする音声合成プログラム。