JP4328698B2

JP4328698B2 - 素片セット作成方法および装置

Info

Publication number: JP4328698B2
Application number: JP2004268714A
Authority: JP
Inventors: 俊明深田; 雅章山田; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-09-15
Filing date: 2004-09-15
Publication date: 2009-09-09
Anticipated expiration: 2024-09-15
Also published as: US20060069566A1; US7603278B2; JP2006084715A

Description

本発明は、音声合成に使用される音声素片の集合である素片セットを作成する技術に関する。

近年、カーナビゲーションシステムなどの様々な機器で音声合成技術が利用されている。音声合成における合成音声波形の生成方式としては、（１）フォルマントやケプストラムなどの音声の特徴パラメータを用いて音声合成フィルタを構成し、これに基本周波数や有声・無声情報から求まる励振信号で音声合成フィルタを駆動することによって合成音声を得るパラメータ合成方式、（２）ＰＳＯＬＡ（ピッチ同期波形重畳）に代表されるダイフォンやトライフォンなどの音声波形単位を所望の韻律（基本周波数、継続時間長、パワー）となるように変形し接続する波形編集方式（波形重畳方式）、（３）音節、単語、句などの音声波形単位を接続する波形接続方式（セグメント接続方式）、の３つの方式に大別できる。一般的に、パラメータ合成方式や波形編集方式は、音声の特徴パラメータのセットや音声波形単位のセット（素片セット）の記憶容量を波形接続方式に比べ小さくできるため、記憶容量に限りがある機器に適している。一方、波形接続方式は、パラメータ合成方式や波形編集方式よりも長い音声波形単位を用いており、一話者あたりの素片セットの記憶容量は、十数ＭＢから数百ＭＢ程度を要するため、汎用のコンピュータなど記憶容量に余裕のある機器に適している。

パラメータ合成方式または波形編集方式において高音質な合成音声を生成するためには、音韻環境の違いを考慮して素片セットを作成する必要がある。例えば、前後の音素環境を考慮しない音素コンテキスト非依存の素片セット（モノフォンセット）よりも、前後の音素環境を考慮した音素コンテキスト依存の素片セット（トライフォンセット）を用いる方が高音質な合成音声が生成できる。ここで、素片セットにおける素片数は、言語や音素の定義の仕方によって多少異なるが、モノフォンの場合は数十種類、ダイフォンの場合は数百から千数百種類、トライフォンの場合は数千から数万種類となる。ここで、携帯電話や家電製品などのようにリソースに限りがある機器上で音声合成を動作させる場合、トライフォンやダイフォンなど音韻環境を考慮した素片セットでは、ＲＯＭなどの記憶容量の制約から素片数を削減する必要に迫られる場合がある。

素片セットの素片数を削減する方法としては、素片セットを作成するための音声単位の集合（学習用音声データベース全体）に対するクラスタリングを粗く行う方法と、何らかの方法によって作成された素片セットに対してクラスタリングを適用する方法の２つが考えられる。

前者に関する方法、すなわち、学習用音声データベース全体に対してクラスタリングを行うことによって素片セットを作成する方法としては、学習用音声データベース全体に対して音素環境を考慮したデータドリブンなクラスタリングを行い、各クラスタのセントロイドパターンを求め、これを合成時に選択することによって音声合成を行う方法（例えば特許文献１）、同一視できる音素集合をグループ化した音韻環境を考慮した知識ベースのクラスタリングを行う方法（例えば特許文献２）などがある。後掲の非特許文献１、２もこの方法に関するものである。

また、後者に関する方法、すなわち、何らかの方法によって作成された素片セットに対してクラスタリングを適用する方法としては、ＨＭｎｅｔを予め用意したＣＶ、ＶＣ単位の素片セットに適用することによって素片数を削減する方法がある（例えば特許文献３）。

特許第２５８３０７４号公報特開平９−９０９７２号公報特開２００１−９２４８１号公報中嶌，「多層音韻環境クラスタリング法−ＭＬ−ＣＯＣ法−による英語音声規則合成の検討」，信学技報，ＳＰ９２−９，１９９２年橋本、斉藤，「環境依存性を考慮した音節を合成単位とする音声合成 −環境依存クラスタリングによる音素クラスターの生成−」，日本音響学会講演論文集，ｐ．２４５−２４６，１９９５年９月

これらの従来法には以下のような問題点がある。

まず特許文献１に記載の手法では、言語的・音韻論的・音声学的な専門知識を用いることなく、音素パターン（素片集合）の距離尺度のみに基づいてクラスタリングを行うため、音韻的に類似していない（同一視できない）素片集合からセントロイドパターンが生成されることがある。このようなセントロイドパターンを用いて合成音声を生成すると、明瞭性に欠ける、異音を生じるなどの問題を生じる。すなわち、トライフォンなど音素の環境を単純にクラスタリングするのではなく、音韻性の類似したトライフォンを同一視してクラスタリングする必要がある。

特許文献２には、上記した特許文献１の問題に対処するために、同一視できる音素集合をグループ化した音韻環境を考慮したクラスタリング手法が開示されている。しかしながら、特許文献２で用いられている方法は、具体的には、先行音素が長母音の場合は先行音素が短母音のものと同一視する、後続音素が長母音の場合は後続音素が短母音のものと同一視する、当該音素が無声破裂音の場合は先行音素を一つの短母音で代表し、後続音素が無声破裂音の場合には後続音素を一つの無声破裂音で代表させる、といった知識ベースのクラスタリング手法である。また、適用している知識も極めて単純なものであり、音声単位がトライフォンの場合にのみ適用し得るものである。つまり、特許文献２では、ダイフォンなどトライフォン以外の素片セットへの適用、日本語以外の言語への対応、素片セットの数を所望のものとする（スケーラブルな素片セットの作成）といったことが行えないという問題がある。

非特許文献１および非特許文献２には、特許文献１および特許文献２における前記問題点に対処するために、音韻環境に基づくクラスタリングと音素環境に基づくクラスタリングを併用する方法が開示されている。非特許文献１および非特許文献２によれば、音韻性の類似したトライフォンを同一視したクラスタリング、トライフォン以外の素片セットへの適用、日本語以外の言語への対応、スケーラブルな素片セットの作成が可能である。しかしながら、非特許文献１および非特許文献２では、素片セットを求めるために学習用の音声素片全体に対してクラスタリングを行うことによって素片セットを決定しているため、クラスタ内の変形歪は考慮されるが、素片間の接続点における歪（接続歪）は考慮されないという問題がある。また、非特許文献２では母音よりも子音が重視された選択がなされ、結果的に母音の音質が悪くなったと説明されているとおり、選択結果に偏りが生じることがあるという問題がある。すなわち、素片セットを作成する際に、自動的な手法で選ばれた素片セットは、必ずしも最適なものである保証はなく、いくつかの素片を人手によって別の素片に交換することによって音質が向上できる場合が少なくない。このため、学習用の音声素片全体に対してクラスタリングを行うのではなく、素片セットに対してクラスタリングを施す方法が求められる。

特許文献３では、ＨＭｎｅｔをＣＶ、ＶＣ単位の素片セットに適用することによって素片数を削減する方法が開示されている。しかしながら、この方法で用いられているＨＭｎｅｔは、逐次状態分割法という尤度最大基準によるコンテキストクラスタリングである。すなわち、得られるＨＭｎｅｔは結果的にはいくつかの音素集合が一つの状態で共有されることもあるが、その共有のされ方は完全にデータ依存であり、特許文献２、あるいは、非特許文献１，２で用いられているように、同一視できる音素集合をグループ化し、このグループを制約としてクラスタリングすることがなされていない。つまり、同一視し得ない音素集合が同じ状態として共有されるため、特許文献１と同様の問題が生じる。

この他、複数話者の素片セット作成に関して、次のような問題もある。すなわち、特許文献１には、発声者という要因を音素環境要因に加えてクラスタリングを行う方法が開示されているが、クラスタリングを行う際の特徴パラメータは音声スペクトル情報であり、声の高さ（基本周波数）などの韻律情報が含まれていない。これは、男性話者と女性話者に対する素片セットを作成する場合など、韻律情報がかなり異なる複数話者に対して特許文献１の手法を適用した場合、韻律情報が無視された、すなわち、音声合成時に適用され得る韻律情報を考慮しないクラスタリングがなされるという問題がある。

本発明は上記のような問題の少なくともいずれかを解決すべくなされたものである。具体的には、本発明の第１の目的は、音声合成に用いられる素片セットの素片数を、合成音の音質劣化を抑制しつつ削減することができる素片セット作成方法および装置を提供することである。

本発明の第２の目的は、複数話者の素片セットに対しても、音質の劣化を抑制しつつ素片数を削減することが可能な素片セット作成方法および装置を提供することである。

さらに、本発明の第３の目的は、複数言語の素片セットに対しても、音質の劣化を抑制しつつ素片数を削減することが可能な素片セット作成方法および装置を提供することである。

本発明の一側面によれば、複数言語に対応可能な音声合成に使用される音声素片の集合である素片セットを作成する素片セット作成方法が提供される。この方法は、前記複数言語の言語別に定義された音素ラベルのセットを、前記複数言語に共通の音素ラベルのセットに変換するとともに、前記複数言語の言語別に定義された韻律ラベルのセットを、前記複数言語に共通の韻律ラベルのセットに変換する変換ステップと、前記複数言語に共通の音素ラベル及び韻律ラベルを用いて記述された音韻環境と素片データの格納場所を示すアドレス情報と素片データとがそれぞれ対応付けられて記憶されている第１の素片セットに対して、前記音韻環境を考慮した決定木によるクラスタリングを行うクラスタリングステップと、前記クラスタリングステップで得られた各クラスタごとに、そのクラスタに属する素片集合を用いてセントロイド素片を代表素片として生成する生成ステップであって、前記素片集合のピッチ周期数が最も多いもののうち素片の時間長が最も長いものをセントロイド素片のためのテンプレートとして選択し、前記クラスタに属する各素片を前記テンプレートのピッチ周期数及びピッチ周期長となるように変形し、変形された各素片とテンプレートとして選択された素片の各サンプルの平均を求めることによってセントロイド素片を生成する生成ステップと、各クラスタごとに、そのクラスタ内の各音韻環境に対するアドレス情報を前記代表素片の格納場所を示すアドレス情報に変更するとともに、前記代表素片以外の素片データを前記第１の素片セットから削除することにより、前記第１の素片セットよりも素片数が削減された第２の素片セットを作成する作成ステップとを有することを特徴とする。

本発明によれば、音声合成に用いられる素片セットの素片数を、音質の劣化を抑制しつつ削減することが可能な素片セット作成方法および装置を提供することができる。

また、本発明によれば、複数話者の素片セットに対しても、音質の劣化を抑制しつつ素片数を削減することができる。

さらに、本発明によれば、複数言語の素片セットに対しても、音質の劣化を抑制しつつ素片数を削減することができる。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、以下ではさまざまな実施形態を示すが、各実施形態間で共通する構成および処理については同一の参照番号を付し、これにより重複した説明を回避している点に留意されたい。

（第１の実施形態）
図１は、本実施形態における素片セット作成装置のハードウェア構成を示すブロック図である。この素片セット作成装置は典型的にはパーソナルコンピュータ等のコンピュータシステム（情報処理装置）によって実現されうる。

１０１はこの装置全体の制御をつかさどるＣＰＵで、ＲＯＭ１０２あるいは外部記憶装置１０４からＲＡＭ１０３にロードされた各種プログラムを実行する。ＲＯＭ１０２は各種パラメータやＣＰＵ１０１が実行する制御プログラムなどを格納している。ＲＡＭ１０３は、ＣＰＵ１０１による各種制御の実行時に作業領域を提供するとともに、主記憶装置としてＣＰＵ１０１により実行される各種プログラムを記憶する。

１０４はハードディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカード等の外部記憶装置で、この外部記憶装置がハードディスクの場合には、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等に格納されたプログラムやデータがインストールされる。この外部記憶装置１０４には、ＯＳ１０４ａをはじめ、素片セット作成処理を実現するための素片セット作成プログラム１０４ｂ、あらかじめ登録されている素片セット５０６、後述するクラスタリング情報５０７などが記憶されている。

１０５はキーボード、マウス、ペン、マイクロフォン、タッチパネルなどによる入力装置であり、処理内容の設定に関する入力を行う。１０６はＣＲＴ、液晶ディスプレイなどの表示装置であり、処理内容の設定・入力に関する表示・出力を行う。１０７はスピーカーなどの音声出力装置であり、処理内容の設定・入力に関する音声の出力および合成音声の出力を行う。１０８は上記各部を接続するバスである。なお、素片セット作成処理の対象となる更新前または更新後の素片セットは、上記のように１０４に保持してもよいし、ネットワーク接続された外部装置に保持するようにしてもよい。

図２は、素片セット作成プログラム１０４ａのモジュール構成を示すブロック図である。
２０１は、入力装置１０５を介して入力されるデータを処理する入力処理部である。
２０２は、入力処理部２０１が受理した終了条件を保持する終了条件保持部である。
２０３は、現在の状況が終了条件を満たすか否かを判定する終了条件判定部である。
２０４は、更新前の素片セットに対して音韻環境を考慮したクラスタリングを行う音韻環境クラスタリング部である。
２０５は、音韻環境クラスタリング部２０５の結果から更新後の素片セットとして用いる代表素片を決定する代表素片決定部である。
２０６は、更新前の素片セットを保持する更新前素片セット保持部である。
２０７は、代表素片決定部２０５で決定された代表素片を新しい素片セットとして更新する素片セット更新部である。
２０８は、素片セット更新部２０７で更新された更新後の素片セットを保持する更新後素片セット保持部である。

本実施形態における素片セット作成処理は基本的に、あらかじめ用意された音声合成用の音声素片の集合である素片セット（第１の素片セット）を音韻環境クラスタリングし、各クラスタから代表素片を決定し、この代表素片に基づいて、より小さなサイズの素片セット（第２の素片セット）を作成するものである。

素片セットの種類としては、パラメータ合成方式で用いられるケプストラム、ＬＰＣ、ＬＳＰなど音声スペクトルを表現した特徴量を含んだデータ構造体を音声素片とする素片セットと、波形編集方式で用いられる音声波形自体を音声素片とする素片セットの２つに大別できる。本発明はいずれの素片セットについても適用できるものであるが、以下では、素片セットの種類に依存する処理についてはその都度説明を加える。

また、代表素片を決定する際には、各クラスタに含まれる素片集合からセントロイド素片を生成しこれを代表素片とする方法（セントロイド素片生成法）と、各クラスタに含まれる素片集合から代表素片を選択する方法（代表素片選択法）の２通りが考えられる。本実施形態では、前者のセントロイド素片生成法について説明し、後者の代表素片選択法については後述の第２の実施形態において説明する。

図５は、本実施形態におけるセントロイド素片生成法による素片作成処理を示すフローチャートである。

まず、ステップＳ５０１で、処理対象の素片セット（更新前素片セット５０６）を更新前素片セット保持部２０６から読み込む。更新前素片セット５０６は、トライフォン、バイフォン、ダイフォン、音節、音素など様々な単位やこれらの単位を併用したものなどが考えられるが、以下ではトライフォンを素片セットの単位とする場合について説明する。トライフォンの数は、言語や音素の定義によって異なるが、日本語の場合には約３０００種類のトライフォンが存在する。ここで、更新前素片セット５０６には、必ずしも全てのトライフォンの音声素片が含まれている必要はなく、一部のトライフォンは他のトライフォンと共有されているような素片セットであってもよい。なお、更新前素片セット５０６は、いかなる方法を用いて作成してもよいが、本実施形態では、クラスタリング時に音声素片間の接続歪は陽には考慮されていないため、更新前素片セット５０６は接続歪を考慮した手法によって作成されていることが望ましい。

次に、ステップＳ５０２で、音韻環境を考慮したクラスタリングを行うために必要な情報（クラスタリング情報５０７）を読み込み、更新前素片セット５０６に対して音韻環境を考慮したクラスタリングを行う。クラスタリング情報としては、例えば決定木を用いることができる。

図３は、音韻環境を考慮したクラスタリングを行う際に用いられる決定木の一例である。この木は、当該音素（トライフォンの中心音素）が／ａ／の場合の木であり、更新前素片セットのトライフォンの中で、当該音素が／ａ／である音声素片がこの決定木を用いてクラスタリングされる。３０１のノードでは、「先行音素が母音であるか否か」という質問によってクラスタリングがなされる。たとえば、「母音−ａ＋＊」である音声素片（例えば、ａ−ａ＋ｋやｕ−ａ＋ｏ）は３０２のノードへクラスタリングされ、「子音−ａ＋＊」である音声素片（例えば、ｋ−ａ＋ｋやｂ−ａ＋ｏ）は３０９のノードへクラスタリングされる。ここで、「−」および「＋」はそれぞれ、先行および後続環境を表す記号であり、ｕ−ａ＋ｏは、先行音素がｕ、当該音素がａ、後続音素がｏである音声素片を意味する。

以下同様に、３０２、３０３、３０５、３０９、３１１の各中間ノード（図３の白丸）における質問に応じてクラスタリングを行うことにより、３０４、３０６、３０７、３０８、３１０、３１２、３１３の各リーフノード（図３の黒丸）において、各クラスタに属する音声素片集合が求まる。例えば、３０７のクラスタには、「ｉ−ａ＋ｂ」および「ｅ−ａ＋ｂ」の２種類の素片集合が属し、３０８のクラスタには、「ｉ−ａ＋ｄ」、「ｉ−ａ＋ｇ」、「ｅ−ａ＋ｄ」、「ｅ−ａ＋ｇ」の４種類の素片集合が属する。他の音素に対しても同様の決定木を用いることによってクラスタリングがなされる。ここで、図３の決定木には、「母音」、「ｂ、ｄ、ｇ」、「ｐ、ｔ、ｋ」など音素ではなく、音韻的性質の似ている（同一視できる）音素集合に関する質問が含まれている。このような決定木の作成手順を図４に示す。

まず、ステップＳ４０１において、音声特徴量とそれに対する音素ラベルを含む学習用音声データベース４０３からトライフォンモデルを作成する。トライフォンモデルは、例えば、音声認識で広く用いられる隠れマルコフモデル（ＨＭＭ）の手法を利用して、トライフォンＨＭＭを作成することができる。

次に、ステップＳ４０２において、あらかじめ用意しておいた音韻環境に関する質問セット４０４を用いて、例えば尤度最大基準などのクラスタリング基準を適用することによって、クラスタリング基準を最も満足する質問セットから順にクラスタリングを行う。ここで、音韻環境質問セット４０４は、音韻的性質の似ている音素集合に関するものが含まれていればいかなるものを用いてもよい。また、クラスタリングの終了は、入力処理部２０１などで設定され、終了条件保持部２０２に格納されているクラスタリング終了条件を用いて、終了条件判定部２０３で判定される。終了判定は、全てのリーフノードに対して個別に行われる。終了条件は、例えば、リーフノードに含まれる音声素片集合のサンプル数が所定数以下となった場合、リーフノードのクラスタリング前後で有意な差が見られない場合（クラスタリング前後の総尤度の差が所定の値以下となった場合）などを用いることができる。以上の決定木作成手順を、全ての当該音素に対して同時に適用することによって、図３に示されるような音韻環境を考慮した決定木が全ての当該音素に対して作成される。

説明を図５のフローチャートに戻す。

次に、ステップＳ５０３で、各クラスタに属する素片集合から代表素片としてのセントロイド素片を生成する。セントロイド素片の生成は、パラメータ合成方式および波形編集方式のいずれに対しても行うことができる。以下、図６および図７を用いて、それぞれの方式おけるセントロイド素片の生成方法を説明する。

図６は、パラメータ合成方式におけるセントロイド素片の生成方法の一例を示す説明図である。いま、あるクラスタに属する素片集合として、（６ａ）、（６ｂ）、（６ｃ）の３つがあるとする。ここで、（６ａ）は５フレームの特徴パラメータ系列からなる音声素片であり、同様に、（６ｂ）、（６ｃ）はそれぞれ、６フレーム、８フレームの特徴パラメータ系列からなる音声素片である。ここで、１フレームの特徴パラメータ６０１（（６ａ）のグレー部分）は、（６ｈ）または（６ｉ）に示されるようなデータ構造の音声の特徴ベクトルである。例えば、（６ｈ）はＭ＋１次元のケプストラム係数ｃ（０）〜ｃ（Ｍ）、（６ｉ）はＭ＋１次元のケプストラム係数ｃ（０）〜ｃ（Ｍ）およびそれらのデルタ係数Δｃ（０）〜Δｃ（Ｍ）である。

上記の素片集合（６ａ）、（６ｂ）、（６ｃ）のうち最大フレーム数をもつものは（６ｃ）で、そのフレーム数は８である。ここで、（６ａ）、（６ｂ）のフレーム数をそれぞれ、（６ｄ）、（６ｅ）のようにフレーム数を伸張させて、各素片集合のフレーム数を最大フレーム数８に合わせる。フレーム数の伸張にはいかなる方法を用いてもよいが、例えば、時間軸の線形伸縮、特徴パラメータの線形補間によって行うことが可能である。また、（６ｆ）は（６ｃ）と同じパラメータ系列を用いる。

次に、（６ｄ）、（６ｅ）、（６ｆ）の各フレームの特徴パラメータの加算平均を求めることによって、（６ｇ）に示されるセントロイド素片が生成できる。なお、この例では、パラメータ合成方式における特徴量が音声パラメータ時系列であるものについて説明したが、他にも音声パラメータの統計量（平均、分散など）から音声合成を行う確率モデルに基づく手法もある。このような場合には、特徴ベクトルの加算平均を求めるのではなく、個々の統計量を用いてセントロイド素片としての統計量を計算すればよい。

図７は、波形編集方式におけるセントロイド素片の生成方法の一例を示す説明図である。いま、あるクラスタに属する素片集合として、（７ａ）、（７ｂ）、（７ｃ）の３つがあるとする（破線はピッチマーク位置を表す）。ここで、（７ａ）は４周期の音声波形からなる音声素片であり、同様に、（７ｂ）、（７ｃ）はそれぞれ、３ピッチ周期、４ピッチ周期の音声波形からなる音声素片である。

この中から、素片集合のピッチ周期数が最も多いものの中で、素片の時間長が最も長いものを、セントロイド素片作成のためのテンプレートとして選択する。この例では、ピッチ周期数が最も多いのは（７ａ）および（７ｃ）で、共に４ピッチ周期であるが、（７ｃ）の方が素片の時間長が長いので、この（７ｃ）がセントロイド素片作成のためのテンプレートとして選択される。

次に、（７ａ）および（７ｂ）が、（７ｃ）のピッチ周期数およびピッチ周期長となるように、それぞれ（７ｄ）および（７ｅ）のように変形する。ここで、この変形はいかなるものを用いてもよいが、例えば、ＰＳＯＬＡで利用されている公知の方法を用いればよい。なお、（７ｆ）は（７ｃ）と同じ音声波形である。

そして、（７ｄ）、（７ｅ）、（７ｆ）の各サンプルの加算平均を求めることによって、（７ｇ）に示されるセントロイド素片が生成できる。

再び、説明を図５のフローチャートに戻す。

ステップＳ５０４では、各クラスタに属する音声素片をすべて、前述のようにして生成されたセントロイド素片で代替するかの決定を行う。ここで、更新後の素片セットのサイズ（メモリ、素片数など）の上限が予め設定されている場合には、決定木のリーフノードにおける素片集合を全てセントロイド素片で代替すると、所望のサイズより大きくなる場合がある。このような場合には、リーフノードよりも一つ上の中間ノードにおけるセントロイド素片を作成し、これを代替素片とすればよい。この場合の対象リーフノードの決定は、ステップＳ４０２の決定木の作成における決定木の情報として、各ノードがクラスタリングされた順序を保持し、この順序の逆に中間ノードにおけるセントロイド素片を作成する手順を所望のサイズになるまで繰り返せばよい。

続くステップＳ５０５では、代替素片を更新後の素片セット５０８として外部記憶装置１０４に保存し、本処理を終了する。

図１１は、更新前の素片セット（素片テーブル（１１ａ）、素片データ（１１ｃ））と更新後の素片セット（素片テーブル（１１ｂ）、素片データ（１１ｄ））の一例を示す図である。それぞれの素片テーブルは、ＩＤ、音韻環境（トライフォン環境）、素片が格納されている先頭アドレスの情報を含み、また、それぞれの素片データには音声素片のデータ（音声特徴パラメータ系列、音声波形など）が格納されている。同図において、更新後の素片セットでは、ＩＤ＝１、ＩＤ＝２の２つの音声素片は１つの音声素片（素片格納アドレスａｄｄ２１）で共有化され、ＩＤ＝３〜６の４つの音声素片は１つの音声素片（素片格納アドレスａｄｄ２２）で共有化されている。これによって、全体として音声素片データが削減されていることが分かる。

なお、本実施形態では、クラスタリング情報として２分木による決定木を用いたが、本発明はこれに限定されるものではなく、いかなるタイプの決定木を用いてもよい。さらに、決定木に限らず、例えば、Ｃ４．５などの手法により得られる決定木から抽出される規則をクラスタリング情報として利用してもよい。

以上の説明から明らかなように、本実施形態によれば、予め作成された素片セットに対して、同一視できる音素集合をグループ化した音韻環境を考慮したクラスタリングを適用することによって、音質の劣化を抑えつつ素片セットを削減することができる。

（第２の実施形態）
上述の第１の実施形態は、各クラスタごとに、そのクラスタに属する素片集合からセントロイド素片を生成し（ステップＳ５０３）、これを代表素片とするものであった。一方、以下説明する第２の実施形態は、セントロイド素片を生成するかわりに、各クラスタごとに、そのクラスタに含まれる素片集合からそのクラスタに対する適合度が高い代表素片を選択するもの（代表素片選択法）である。

図９は、本実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。

まず、第１の実施形態で説明したステップＳ５０１およびＳ５０２と同様の処理を行う。すなわち、ステップＳ５０１で、処理対象の素片セット（更新前素片セット５０６）を更新前素片セット保持部２０６から読み込み、ステップＳ５０２で、更新前素片セット５０６に対して音韻環境を考慮したクラスタリングを行う。

次に、ステップＳ９０３で、ステップＳ５０２で得られた各クラスタに属する素片集合から代表素片を選択する。代表素片の選択は、例えば、各クラスタに属する素片集合から第１の実施形態で述べた方法でセントロイド素片を作成し、これに最も近い素片を選択する方法も考えられるが、以下では、学習用音声データベースから得られるクラスタ統計量を用いた方法について説明する。

図８は、本実施形態におけるクラスタ統計量を生成する処理を示すフローチャートである。

まず、第１の実施形態で説明したステップＳ４０１およびＳ４０２と同様の処理を行う。すなわち、ステップＳ４０１において、音声特徴量とそれに対する音素ラベルを含む学習用音声データベース４０３からトライフォンモデルを作成する。次に、ステップＳ４０２において、あらかじめ用意しておいた音韻環境に関する質問セット４０４を用いて、例えば尤度最大基準などのクラスタリング基準を適用することによって、クラスタリング基準を最も満足する質問セットから順にクラスタリングを行う。これらステップＳ４０１，Ｓ４０２の処理によって、音韻環境を考慮した決定木が全ての当該音素に対して作成される。

次に、ステップＳ８０３で、ステップＳ４０２で作成された決定木から得られるトライフォンの共有情報を用いて、トライフォンの音素ラベルを共有トライフォンの音素ラベルに変換する。例えば、図３の３０７に対しては、「ｉ−ａ＋ｂ」と「ｅ−ａ＋ｂ」の２種類のトライフォンラベルが共に「ｉｅ−ａ＋ｂ」という共有トライフォンラベルに変換される。その後、この音素ラベルとそれに対応する音声特徴量を含む学習用音声データベース４０３から共有トライフォンモデルを作成し、このモデルの統計量をクラスタ統計量とする。例えば、共有トライフォンモデルを単一分布連続ＨＭＭ（例えば３状態モデル）として作成する場合には、クラスタ統計量は、各状態の音声特徴ベクトルの平均と分散、および状態間の遷移確率である。以上のようにして生成されたクラスタ統計量はクラスタ統計量９０８として外部記憶装置１０４に保持される。

説明を図９のフローチャートに戻す。

ステップＳ９０３では、クラスタ統計量９０８を用いて、素片集合の中からクラスタに対する適合度が高い素片を選択する。適合度の計算方法としては、例えば、上記のＨＭＭを用いた場合には、クラスタＨＭＭに対する音声素片の尤度が最も高いものを選択することができる。

図１０は、パラメータ合成方式における代表素片の選択方法を説明する図である。

（１０ａ）は３状態のＨＭＭであり、各状態に対して、Ｍ_S1、Ｍ_S2、Ｍ_S3からなるクラスタ統計量（平均、分散、遷移確率）を保持している。いま、あるクラスタに属する素片集合として、（１０ｂ）、（１０ｃ）、（１０ｄ）の３つがあるとする。このとき、（１０ａ）に対する（１０ｂ）の尤度は、音声認識の分野で用いられているビタビ計算を行うことによって、（１０ｂ）の全体の尤度（あるいは対数尤度）を求めることができる。同様に、（１０ｃ）、（１０ｄ）に対しても尤度を求め、この３つの中から尤度が最大となる素片を代表素片とすればよい。ここで、尤度を計算する際に、フレーム数が異なるため、各尤度をフレーム数で除した正規化尤度で比較することが望ましい。

再び、説明を図９のフローチャートに戻す。

ステップＳ９０４では、各クラスタに属する音声素片をすべて、前述のようにして選択された代表素片で代替するかの決定を行う。ここで、更新後の素片セットのサイズ（メモリ、素片数など）の上限が予め設定されている場合には、決定木のリーフノードにおける素片集合を全て代表素片で代替すると、所望のサイズより大きくなる場合がある。このような場合には、リーフノードよりも一つ上の中間ノードにおける代表素片を選択し、これを代替素片とすればよい。この場合の対象リーフノードの決定は、ステップＳ４０２の決定木の作成における決定木の情報として、各ノードがクラスタリングされた順序を保持し、この順序の逆に中間ノードにおける代表素片を選択する手順を、所望のサイズになるまで繰り返せばよい。なお、この場合には、中間ノードにおける統計量もクラスタ統計量９０８に保持しておく必要がある。

続くステップＳ９０５では、代替素片を更新後の素片セット９０９として外部記憶装置１０４に保存する。あるいは、更新前の素片セット５０５から代替素片以外の素片データを削除したもの更新後の素片セット９０９として外部記憶装置１０４に保存する。その後、本処理を終了する。

以上の説明は、パラメータ合成方式における代表素片の選択方法の説明であったが、波形編集方式に対しては、一旦音声素片を音声分析することによって特徴パラメータを表現すれば、前述の方法を適用することが可能となる。そして、選択された特徴パラメータ系列に対応する音声素片を代表素片とすればよい。

（第３の実施形態）
上述した第１および第２の実施形態では、トライフォンモデルに対して音韻環境を考慮したクラスタリングを行っていたが、本発明はこれに限定されるものではなく、更に詳細なクラスタリングを行ってもよい。具体的には、上述の実施形態１，２におけるステップＳ４０２の決定木作成において、トライフォンＨＭＭ全体に対して決定木を作成するのではなく、トライフォンＨＭＭの各状態ごとに決定木を作成するようにしてもよい。なお、各状態ごとに異なる決定木を用いる場合には、音声素片を分割し、各状態に割り当てる必要がある。各状態への割り当てはいかなる方法を用いてもよいが、簡単には線形伸縮によって割り当てることができる。

また、音韻環境の影響を最も受ける状態（例えば、ダイフォンの場合、音素の入り渡りおよび出渡りの部分）に関する決定木を作成し、この決定木を他の状態（例えば、ダイフォンの場合、同じ音素に接続される部分）に対しても適用することも可能である。

（第４の実施形態）
上述の各実施形態は、明記はしなかったものの、基本的には素片セットが１話者であることを想定したものであった。しかし、本発明はこれに限らず、複数話者からなる素片セットに対しても適用が可能である。ただしこの場合には、音韻環境として話者を考慮する必要がある。具体的には、ステップＳ４０１において、話者依存のトライフォンモデルを作成し、音韻環境質問セット４０４に話者に関する質問を加え、ステップＳ４０２で話者情報も含んだ決定木を作成する。

音韻環境として音素環境および話者を考慮したクラスタリングを行う際に用いられる決定木の例を、図１７（当該音素が／ａ／の場合）および図１８（当該音素が／ｔ／の場合）に示す。また、複数話者の素片セットに対する更新後の素片セットの例を図１９に示す。図１９から分かるように、本実施形態によれば、複数の話者に対して共通の音声素片が利用され得るため（ａｄｄ３２の素片）、各話者に対して個別に更新後の素片セットを作成するよりも効率的な素片セットの作成が可能となる。

（第５の実施形態）
上述した第４の実施形態では、音韻環境として話者を考慮することによって、複数話者の素片セットに対しても本発明を適用できることを示した。

ところで、第１の実施形態では、図６の（６ｈ）あるいは（６ｉ）を参照して説明したように、クラスタリング情報を作成する際の音声の特徴量としてケプストラム係数を用いた例について説明した。もっとも、ケプストラム係数のかわりに、ＬＰＣやＬＳＰなどの別の音声スペクトル情報を用いることもできる。ただし、これらの音声スペクトル情報には、基本周波数に関する情報が含まれていないため、例えば、男性と女性の話者からなる素片セットをクラスタリングする場合には、たとえ音韻環境として話者を考慮していても、基本周波数情報を含まずに作成されたクラスタリング情報を用いる場合には、音声スペクトルの差異のみに着目したクラスタリングがなされてしまう。すなわち、男性の母音の素片が女性の母音の素片と共有されてしまうといったことが生じる可能性があり、その結果、合成音声の音質劣化を引き起こすという問題がある。このような問題を防ぐにためは、基本周波数などの韻律に関する情報をクラスタリング情報を作成する際に利用する必要がある。

図１２は、音声スペクトル情報および韻律情報を含む特徴ベクトルの例を示す図である。（１２ａ）はＭ＋１次の音声スペクトル情報（ケプストラムｃ（０）〜ｃ（Ｍ））に加えて、対数基本周波数（Ｆ０）、波形パワーのｌｏｇ値（ｐｏｗｅｒ）、音素継続時間長（ｄｕｒａｔｉｏｎ）の３つの韻律情報を持った特徴ベクトルの例である。また、（１２ｂ）は、（１２ａ）に加え、それぞれのデルタ係数を持った特徴ベクトルである。なお、継続時間長は音素の継続時間長を用いればよい。なお、Ｆ０、ｐｏｗｅｒ、ｄｕｒａｔｉｏｎの全てを用いることは必須ではない。例えば、ｐｏｗｅｒを用いる場合にはｃ（０）は用いないなど、この中の任意の組み合わせを用いてもよいし、他の韻律情報を用いてもよい。また、無声音に対するＦ０の値は、−１などの特別な値を用いてもよいし、無声音に対してはＦ０を用いない（すなわち有声音に対して次元数が少なくなる）などとしてもよい。

以下では、このような韻律情報を含む特徴ベクトルで構成される素片データについて、第１の実施形態、すなわち、セントロイド素片を生成しこれを代表素片とする方法、への適用、ならびに、第２の実施形態、すなわち、各クラスタに含まれる素片集合から代表素片を選択する方法、への適用をそれぞれ検討する。

まず、第１の実施形態への適用について説明する。図１３は、本実施形態におけるセントロイド素片生成法による素片セット作成処理を示すフローチャートである。この処理フローは基本的に図５に示したフローと同様である。ただし、ステップＳ５０２で用いられるクラスタリング情報は韻律情報を考慮して作成されたクラスタリング情報１３０１である点が異なっている。

図１４は、セントロイド素片生成法による素片セット作成処理の変形例を示すフローチャートである。ここでは、まず、ステップＳ５０１に代えて、音声スペクトル情報と韻律情報を特徴量に含む学習用音声素片１４０１を読み込み（ステップＳ１４０１）、次のステップＳ５０２では、この学習用音声素片１４０１に対して音韻環境クラスタリングを行う。図１３との違いは、ステップＳ５０１に代わるステップＳ１４０１が、素片セットを対象とした処理ではなく、学習用音声素片全体に対する処理となっている点である。

次に、第２の実施形態への適用について説明する。図１５は、本実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。この処理フローは基本的に図９に示したフローと同様である。ただし、ステップＳ５０１で用いられる更新前素片セットは韻律情報が付与された素片セット１５０６である点、ステップＳ５０２で用いられるクラスタリング情報は韻律情報を考慮して作成されたクラスタリング情報１５０７である点、ステップＳ９０３で用いられるクラスタ統計量は韻律情報を含んだクラスタ統計量１５０８である点が異なっている。

図１６は、本実施形態における代表素片選択法による素片セット作成処理の変形例を示すフローチャートである。ここでは、まず、ステップＳ５０１に代えて、音声スペクトル情報と韻律情報を特徴量に含む学習用音声素片１６０６を読み込み（ステップＳ１６０１）、次のステップＳ５０２では、この学習用音声素片１６０６に対して音韻環境クラスタリングを行う。図１５との違いは、ステップＳ５０１に代わるＳ１６０１が、素片セットを対象とした処理ではなく、学習用音声素片全体に対する処理となっている点である。

以上説明した第５の実施形態によれば、基本周波数などの韻律に関する情報をクラスタリングする際に利用するため、例えば、男性の母音の素片が女性の母音の素片と共有されてしまうという不都合を回避することができる。

（第６の実施形態）
上述の各実施形態は、明記はしなかったものの、基本的には素片セットが１言語であることを想定したものであった。しかし、本発明はこれに限らず、複数言語からなる素片セットに対しても適用が可能である。

図２０は、本実施形態における素片セット作成プログラム１０４ａのモジュール構成を示すブロック図である。

図２と対比すると分かるように、図２０に示された構成は、図２の構成に音素ラベル変換部２０９および韻律ラベル変換部２１０が付加された構成である。音素ラベル変換部２０９は、各言語で定義されている音素ラベルセットを一種類の音素ラベルセットに変換する。韻律ラベル変換部２１０は、各言語で定義されている韻律ラベルセットを一種類の韻律ラベルセットに変換する。

以下の説明では、音素ラベル変換部２０９と韻律ラベル変換部２１０を両方用いた場合について説明するが、韻律ラベルを考慮しない音声素片を用いる場合には、音素ラベル変換部２０９のみを用いた処理を行えばよい。

図２１は、日本語、英語、中国語の３言語に関する音素ラベル変換規則の例である。ここでは第一列に変換前の音素ラベルおよびその言語を記し、第二列に変換後の音素ラベルを記している。このような音素ラベルの変換規則は、人手によって作成してもよいし、音声スペクトル情報の類似度など物理的な基準に従って作成してもよい。また、この例では、前後の音素環境を考慮していないが、前後の音素環境を考慮したより詳細な音素ラベル変換を行ってもよい。

図２２は、日本語、英語、中国語の３言語に関する韻律ラベル変換規則の例である。ここでは第一列に変換前の韻律ラベルおよびその言語を記し、第二列に変換後の韻律ラベルを記している。これらの韻律ラベル変換規則は、高品質な音声合成を行うために、例えば、日本語の場合はアクセント核の有無を、英語の場合はストレスレベルの違いを、中国語の場合は四声に依存した素片セットを、利用する場合がある。こういった複数言語の素片セットに対して、本発明を適用するためには、アクセント核、ストレス、四声といった異なる韻律情報を共通の韻律情報へ変換する必要がある。図２２の例では、日本語のアクセント核があるもの、英語の第一ストレス、中国語の第２声と第４声をそれぞれ共通の韻律ラベル「Ｐ（Ｐｒｉｍａｒｙ）」に変換、以下同様にＳ、Ｎの合計３種類の韻律ラベルに変換している。これらの韻律ラベルの変換規則は、人手によって作成してもよいし、韻律情報の類似度など物理的な基準に従って作成してもよい。また、この例では、前後の韻律環境を考慮していないが、前後の韻律環境を考慮したより詳細な韻律ラベル変換を行ってもよい。

まず、第１の実施形態への適用について説明する。図２３は、本実施形態におけるセントロイド素片生成法による素片セット作成処理を示すフローチャートである。この処理フローは基本的に図５に示したフローと同様である。ただし、更新前の素片セットは音素ラベルおよび韻律ラベル変換された複数言語の素片セット２３０６を用いる点、ステップＳ５０２で使用されるクラスタリング情報は音素ラベルおよび韻律ラベル変換されたクラスタリング情報２３０７を用いる点が異なっている。

図２４は、セントロイド素片生成法による素片セット作成処理の変形例を示すフローチャートである。ここでは、まず、ステップＳ５０１に代えて、複数言語の学習用音声素片２４０６を読み込み（ステップＳ２４０１）、次のステップＳ５０２では、この学習用音声素片２４０６に対して音韻環境クラスタリングを行う。図２３との違いは、ステップＳ５０１に代わるステップＳ２４０１が、素片セットを対象とした処理ではなく、学習用音声素片全体に対する処理となっている点である。

次に、第２の実施形態への適用について説明する。図２５は、本実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。この処理フローは基本的に図９に示したフローと同様である。ただし、更新前の素片セットは音素ラベルおよび韻律ラベル変換された複数言語の素片セット２３０６を用いる点、ステップＳ５０２で使用されるクラスタリング情報は音素ラベルおよび韻律ラベル変換されたクラスタリング情報２３０７を用いる点が異なっている。

図２６は、本実施形態における代表素片選択法による素片セット作成処理の変形例を示すフローチャートである。ここでは、まず、ステップＳ５０１に代えて、複数言語の学習用音声素片２４０６を読み込み（ステップＳ２６０１）、次のステップＳ５０２では、この学習用音声素片２６０６に対して音韻環境クラスタリングを行う。図２５との違いは、ステップＳ５０１に代わるＳ２６０１が、素片セットを対象とした処理ではなく、学習用音声素片全体に対する処理となっている点である。

また、音韻環境として音素環境と韻律環境を考慮した複数言語の素片セットに対してクラスタリングを行う際に用いられる決定木の例を、図２７に示す。

以上の第６の実施形態により、音韻環境として音素環境と韻律環境を考慮することで、複数言語の素片セットに対しても本発明を適用できることが示された。

（第７の実施形態）
上述の実施形態では、各クラスタに属する素片集合からセントロイド素片を生成する、あるいは、素片集合の中からクラスタに対する適合度が高い代表素片を選択する、ことによって代表素片を決定していた。すなわち、これらの方法においては、各クラスタ内の素片集合もしくはクラスタ統計量のみを用いて代表素片が決定されており、各クラスタが接続し得るクラスタ群もしくはそのクラスタ群に属する素片集合群に対する適合度が考慮されていない。しかし、これについては、以下の２通りの方法によって考慮することが可能となる。

第１の方法は、あるクラスタ（「クラスタ１」とする。）に属するトライフォンが、「ｉ−ａ＋ｂ」と「ｅ−ａ＋ｂ」であったとする。このとき、クラスタ１の前に接続し得るトライフォンは「＊−＊＋ｉ」もしくは「＊−＊＋ｅ」であり、また、クラスタ１の後に接続し得るトライフォンは「ｂ−＊＋＊」である。このとき、「ｉ−ａ＋ｂ」の前に「＊−＊＋ｉ」および「＊−＊＋ｅ」が接続し、「ｉ−ａ＋ｂ」の後に「ｂ−＊＋＊」が接続する場合の適合度と、「ｅ−ａ＋ｂ」の前に「＊−＊＋ｉ」および「＊−＊＋ｅ」が接続し、「ｅ−ａ＋ｂ」の後に「ｂ−＊＋＊」が接続する場合の適合度を求め、この２つの適合度を比較し、高い方を代表素片とすることができる。ここで適合度としては、例えば、接続点におけるスペクトル歪などを用いることができる（スペクトル歪が大きいほど適合度は低い）。接続点におけるスペクトル歪を考慮した代表素片の選択の方法としては、他にも特開２００１−２８２２７３号公報に開示されている方法などを用いることによって求めることが可能である。

第２の方法は、上記第１の方法のように「ｉ−ａ＋ｂ」もしくは「ｅ−ａ＋ｂ」とこれに接続し得る素片集合群との適合度を求めるのではなく、これに接続し得る素片集合群が属するクラスタ群のクラスタ統計量に対して適合度を求めるものである。具体的には、「ｉ−ａ＋ｂ」の適合度（Ｓ１）を「＊−＊＋ｉ」および「＊−＊＋ｅ」が属するクラスタ群に対する「ｉ−ａ＋ｂ」の適合度（Ｓ１1）と「ｂ−＊＋＊」が属するクラスタ群に対する「ｉ−ａ＋ｂ」の適合度（Ｓ１2）の和として求める（Ｓ１＝Ｓ１１＋Ｓ１２）。同様に、「ｅ−ａ＋ｂ」の適合度（Ｓ２）を「＊−＊＋ｉ」および「＊−＊＋ｅ」が属するクラスタ群に対する「ｅ−ａ＋ｂ」の適合度（Ｓ２１）と「ｂ−＊＋＊」が属するクラスタ群に対する「ｅ−ａ＋ｂ」の適合度（Ｓ２２）の和として求める（Ｓ２＝Ｓ２１＋Ｓ２２）。次に、Ｓ１とＳ２を比較し、高い方を代表素片とすることができる。ここで適合度としては、例えば、各クラスタ群の統計量に対する接続点における素片集合の特徴パラメータの尤度として求めることができる（尤度が高いほど適合度が高い）。

なお、前述の例では、「ｉ−ａ＋ｂ」と「ｅ−ａ＋ｂ」の適合度を単純に比較していたが、より精密には、接続し得る素片数やクラスタ数に応じて正規化（重み付け）する方が望ましい。

（第８の実施形態）
これまで説明してきた各実施形態では、音韻環境にはトライフォンもしくは話者に関する情報を用いて説明したが、本発明はこれに限らず、他にも、音素や音節に関するもの（ダイフォンなど）、話者の性別（男性、女性）に関するもの、話者の年齢層（子供、学生、成人、高齢者など）に関するもの、話者の声質（明るい、暗いなど）に関するもの、話者の方言（関東方言、関西方言など）や言語（日本語、英語など）に関するもの、素片の韻律的特徴（基本周波数、継続時間長、パワーなど）に関するもの、素片の品質（ＳＮ比など）に関するもの、素片を収録した際の環境（収録場所やマイクロフォンなど）に関するものの任意の組み合わせに対しても適用可能である。

（他の実施形態）
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。

従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

実施形態における素片セット作成装置のハードウェア構成を示すブロック図である。第１の実施形態における素片セット作成プログラムのモジュール構成を示すブロック図である。第１の実施形態における音韻環境を考慮したクラスタリングに用いられる決定木の例を示す図である。第１の実施形態における音韻環境を考慮したクラスタリングに用いる決定木を作成する処理を示すフローチャートである。第１の実施形態におけるセントロイド素片生成法による素片作成処理を示すフローチャートである。パラメータ合成方式におけるセントロイド素片の生成方法を説明する図である。波形編集方式におけるセントロイド素片の生成方法を説明する図である。第２の実施形態におけるクラスタ統計量を生成する処理を示すフローチャートである。第２の実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。パラメータ合成方式における代表素片の選択方法を示す説明図である。第１の実施形態における更新前の素片セットと更新後の素片セットの一例を示す図である。第５の実施形態における音声スペクトル情報および韻律情報を含む特徴ベクトルの例を示す図である。第５の実施形態におけるセントロイド素片生成法による素片セット作成処理を示すフローチャートである。第５の実施形態におけるセントロイド素片生成法による素片セット作成処理の変形例を示すフローチャートである。第５の実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。第５の実施形態における代表素片選択法による素片セット作成処理の変形例を示すフローチャートである。、第４の実施形態における音韻環境として音素環境および話者を考慮したクラスタリングを行う際に用いられる決定木の例を示す図である。第４の実施形態における更新前の素片セットと更新後の素片セットの一例を示す図である。第６の実施形態における素片セット作成プログラムのモジュール構成を示すブロック図である。第６の実施形態における音素ラベル変換規則の例を示す図である。第６の実施形態における韻律ラベル変換規則の例を示す図である。第６の実施形態におけるセントロイド素片生成法による素片セット作成処理を示すフローチャートである。第６の実施形態におけるセントロイド素片生成法による素片セット作成処理の変形例を示すフローチャートである。第６の実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。第６の実施形態における代表素片選択法による素片セット作成処理の変形例を示すフローチャートである。第６の実施形態における音韻環境として音素環境と韻律環境を考慮した複数言語の素片セットに対してクラスタリングを行う際に用いられる決定木の例を示す図である。

Claims

複数言語に対応可能な音声合成に使用される音声素片の集合である素片セットを作成する素片セット作成方法であって、
前記複数言語の言語別に定義された音素ラベルのセットを、前記複数言語に共通の音素ラベルのセットに変換するとともに、前記複数言語の言語別に定義された韻律ラベルのセットを、前記複数言語に共通の韻律ラベルのセットに変換する変換ステップと、
前記複数言語に共通の音素ラベル及び韻律ラベルを用いて記述された音韻環境と素片データの格納場所を示すアドレス情報と素片データとがそれぞれ対応付けられて記憶されている第１の素片セットに対して、前記音韻環境を考慮した決定木によるクラスタリングを行うクラスタリングステップと、
前記クラスタリングステップで得られた各クラスタごとに、そのクラスタに属する素片集合を用いてセントロイド素片を代表素片として生成する生成ステップであって、前記素片集合のピッチ周期数が最も多いもののうち素片の時間長が最も長いものをセントロイド素片のためのテンプレートとして選択し、前記クラスタに属する各素片を前記テンプレートのピッチ周期数及びピッチ周期長となるように変形し、変形された各素片とテンプレートとして選択された素片の各サンプルの平均を求めることによってセントロイド素片を生成する生成ステップと、
各クラスタごとに、そのクラスタ内の各音韻環境に対するアドレス情報を前記代表素片の格納場所を示すアドレス情報に変更するとともに、前記代表素片以外の素片データを前記第１の素片セットから削除することにより、前記第１の素片セットよりも素片数が削減された第２の素片セットを作成する作成ステップと、
を有することを特徴とする素片セット作成方法。
複数言語に対応可能な音声合成に使用される音声素片の集合である素片セットを作成する素片セット作成装置であって、
前記複数言語の言語別に定義された音素ラベルのセットを、前記複数言語に共通の音素ラベルのセットに変換するとともに、前記複数言語の言語別に定義された韻律ラベルのセットを、前記複数言語に共通の韻律ラベルのセットに変換する変換手段と、
前記複数言語に共通の音素ラベル及び韻律ラベルを用いて記述された音韻環境と素片データの格納場所を示すアドレス情報と素片データとがそれぞれ対応付けられて記憶されている第１の素片セットに対して、前記音韻環境を考慮した決定木によるクラスタリングを行うクラスタリング手段と、
前記クラスタリング手段で得られた各クラスタごとに、そのクラスタに属する素片集合を用いてセントロイド素片を代表素片として生成する生成手段であって、前記素片集合のピッチ周期数が最も多いもののうち素片の時間長が最も長いものをセントロイド素片のためのテンプレートとして選択し、前記クラスタに属する各素片を前記テンプレートのピッチ周期数及びピッチ周期長となるように変形し、変形された各素片とテンプレートとして選択された素片の各サンプルの平均を求めることによってセントロイド素片を生成する生成手段と、
各クラスタごとに、そのクラスタ内の各音韻環境に対するアドレス情報を前記代表素片の格納場所を示すアドレス情報に変更するとともに、前記代表素片以外の素片データを前記第１の素片セットから削除することにより、前記第１の素片セットよりも素片数が削減された第２の素片セットを作成する作成手段と、
を有することを特徴とする素片セット作成装置。
請求項１に記載の素片セット作成方法をコンピュータに実行させるためのプログラム。