JP5449022B2

JP5449022B2 - 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム

Info

Publication number: JP5449022B2
Application number: JP2010112373A
Authority: JP
Inventors: 光昭磯貝; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-05-14
Filing date: 2010-05-14
Publication date: 2014-03-19
Anticipated expiration: 2030-05-14
Also published as: JP2011242465A

Description

この発明は、人間が発声した音声を記録した音声波形データベースから、テキスト音声合成技術に用いることができる音声素片データベースを作成する音声素片データベース作成装置に関する。

音素、音節、あるいは音韻連鎖といった単語より短い単位の音声を音声合成単位として、この音声合成単位を連結して合成音声を生成する技術が知られている。音声合成単位は発声者が文リストを読み上げた音声を記録した音声波形データベースより収集する。音声合成単位として以下が知られている（非特許文献１、２参照）。

音素単位：母音（Ｖｏｗｅｌ）、子音（Ｃｏｎｓｏｎａｎｔ）を音声合成単位とする。収集しなければならない音声合成単位の総数が少なくて済む。しかし、音声の調音結合情報が含まれていないため、合成音声の音質は低い。

音節（ＣＶ）単位：子音（Ｃｏｎｓｏｎａｎｔ）と母音（Ｖｏｗｅｌ）の組み合わせを音声合成単位とする。日本語の音節に適しており、子音から母音に変化する際の調音結合が保存されている。収集しなければならない音声合成単位の総数が少なくて済む。しかし音節（ＣＶ）単位前後の調音結合情報が含まれていないため、やはり合成音声の音質は低い。

ダイフォン単位：ＣＶ、ＶＣ、ＶＶなど、２個の音素の組み合わせを音声合成単位とする。音声合成単位間の連結は音素の中心部にて行われる。日本語に出現する全ての調音結合情報を含んでいるため、音節（ＣＶ）単位よりも必要な音声合成単位の総数が多くなるが、合成音声は高品質となる。

音素単位とダイフォン単位とを併用する方法（非特許文献３参照）：母音同士を連結する場合にはダイフォン単位を音声合成単位に用いるが、それ以外の連結には音素単位を用いる。ダイフォン単位を用いる場合には、音声合成単位間の連結は音素の中心部にて行われる。音素単位を用いる場合には、音声合成単位間の連結は音素の境界部にて行われる。母音同士を連結する場合には、音素中心部において連結するほうが音素境界部において連結する場合よりもなめらかな音声合成結果が得られる。したがってこの方法によれば、音素境界部と音素中心部のうち、より滑らかに連結することができる連結点において、合成音声単位を連結することができる。音素単位のみを音声合成単位とする場合よりも自然な合成が可能であり、合成音声は高品質となる。しかし、音声合成時の素片探索処理量が大きいという問題がある。

この他に、環境付音素（トライフォン）や、合成の都度音声コーパスから適切な音声合成単位を選択する、可変長合成単位などが提案されている。

阿部匡伸、「コーパスベース音声合成技術の動向［II］」、電子情報通信学会誌、社団法人電子情報通信学会、平成１６年２月、第８７巻、第２号、pp129〜134. 小池恒彦著、「音声情報工学」、ＮＴＴアドバンステクノロジ社、昭和６２年、pp66〜67. 戸田智基、河合恒、津崎実、鹿野清宏、「素片接続型日本語テキスト音声合成における音素単位とダイフォン単位に基づく素片選択」、電子情報通信学会論文誌、社団法人電子情報通信学会、平成１４年１２月、D-II、vol.J85-D-II、no.12、pp1760〜1770.

ダイフォン単位を音声合成単位として用いれば、音節（ＣＶ）単位を音声合成単位として用いた場合と比較して必要な音声合成単位の総数がそれほど多くはならずに、品質の良い合成音声を得ることができる。しかしながら発声者が文リストを読み上げた音声を記録した音声波形データベースから、ダイフォン単位による音声合成に必要な音声合成単位を収集する場合、前記文リストの規模が十分でなく、音声波形データベースから必要な全ての音声合成単位を収集できない場合がある。この場合には、必要な全ての音声合成単位を音声モデルとして保有する音声素片データベースを作成することができず、この不完全な音声素片データベースによっては、音声の欠落なしに合成音声を作成することができない。

前述の音素単位とダイフォン単位とを併用する方法によれば、ダイフォン単位による音声合成に必要な音声合成単位は母音同士の連結に限られるため、音声合成単位の総数が少なくて済む。従って前記文リストが小規模であっても、必要な全ての音声合成単位を得ることは容易である。しかしながら、音声合成時の素片探索の範囲が広がることにより、素片探索処理量が大きくなってしまう。

本発明では、音声波形データベースから必要な全ての音声モデルを生成できなかった場合に、代替音声モデルを生成して完全な音声素片データベースを生成することができる音声素片データベース作成装置が提供される。本発明の音声素片データベース作成装置は、音素−ダイフォン区間変換部と、音声パラメータ系列変換部と、音声モデル生成部と、欠落ダイフォンラベル出力部と、ハーフフォン生成部と、代替音声モデル生成部とを備える。

前記音素−ダイフォン区間変換部は、音素区間長さごとに音素ラベルを付与された音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する。

前記音声パラメータ系列変換部は、前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換し、ダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する。

前記音声モデル生成部は、前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから１以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する。

前記欠落ダイフォンラベル出力部は、前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する。

前記ハーフフォン生成部は、前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力する。

前記代替音声モデル生成部は、前記ハーフフォンと、前記ハーフフォンラベルと、前記欠落ダイフォンラベルとを入力とし、任意の欠落ダイフォンラベルの前半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンとを連結し、代替音声モデルとして出力する。

これらにより、ハーフフォンを連結して代替音声モデルを生成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。

また、本発明の音声素片データベース作成装置における代替音声モデル生成部は、任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンとのＦ０ギャップが最小となる組み合わせを当該欠落ダイフォンラベルの連結対象として選択してもよい。

これにより、代替音声モデルの接続部のＦ０変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。

また、本発明の音声素片データベース作成装置における代替音声モデル生成部は、任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンを、予め定義されたＦ０値域で区切られた２以上のカテゴリに分類し、同一もしくは近接するカテゴリに分類された前記前半部のハーフフォンと前記後半部のハーフフォンとからなる組み合わせを当該欠落ダイフォンラベルの連結対象として選択してもよい。

これにより、代替音声モデルの接続部のＦ０変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。また、このようにして作成された音声素片データベースは、同一の欠落ダイフォンラベルについて、平均Ｆ０の異なる代替音声モデルを複数（最多の場合、カテゴリ数と同数）有する可能性が高くなる。このため、上記音声素片データベースを用いて音声合成処理を行う場合、韻律生成によって生成したＦ０に近似したＦ０値を持つ音声モデルを、前記音声素片データベースから選択できる可能性が高くなり、Ｆ０変化量が減少することにより合成音声がさらに高品質となる。また、同一もしくは近接するカテゴリに分類されたハーフフォン同士を組み合わせて代替音声モデルとするため、すべてのハーフフォンの組み合わせを代替音声モデルとして記憶することとした場合に比べ、音声素片データベースに記憶する代替音声モデルの総数を著しく少なく抑えることができ、素片探索時間の増加やデータベースサイズの増加を避けることができる。

また、本発明の音声素片データベース作成装置における代替音声モデル生成部は、任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォン、もしくは任意の欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンが存在しない場合に、予め定義された音素間距離マトリクスが最小となるハーフフォンを、前記存在しないハーフフォンの替わりに当該欠落ダイフォンラベルの連結対象として選択してもよい。

これにより、音声波形データベース中に全く存在しない音素についても、代替音声モデルを生成することができるため、必要な全ての音声モデルを保有する音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。

また、あらかじめダイフォンラベルを付与された音声モデルを入力することとすれば、音素−ダイフォン区間変換部と、音声パラメータ系列変換部と、音声モデル生成部とを省略することができる。したがって、本発明では、欠落ダイフォンラベル出力部と、ハーフフォン生成部と、代替音声モデル生成部とを備える代替音声モデル作成装置が提供される。この代替音声モデル作成装置における各部の働きは、前記音声素片データベース作成装置における同一名称の各部における働きと同じである。

また本発明は、上記の音声素片データベース作成装置、もしくは代替音声モデル作成装置によって作成された音声素片データベースを用いて、テキストから音声を合成する音声合成装置を提供する。この音声合成装置は、テキスト解析部と、韻律生成部と、音声モデル選択部と、音声合成部とを有する。

テキスト解析部は、テキストを入力とし、読み、アクセント、音韻系列を出力する。韻律生成部は、読み、アクセントを入力とし、Ｆ０、パワー、音韻長を出力する。音声モデル選択部は、Ｆ０、パワー、音韻系列を入力とし、音声素片データベースから音声モデルを選択して出力する。音声合成部は、音声モデル、Ｆ０、パワー、音韻長を入力とし、合成音声を出力する。

これらにより、ハーフフォンを連結して代替音声モデルを生成し、音声素片データベースを作成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。

以上のように、本発明では、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、代替音声モデルを生成することにより完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。

音声素片データベース作成装置、代替音声モデル作成装置の構成を示すブロック図。音声素片データベース作成装置、代替音声モデル作成装置の動作を示すフローチャート。音声素片データベース作成装置の音素セグメンテーション部と、音素−ダイフォン区間変換部の出力例を示す図。音声素片データベース作成装置の音声パラメータ系列変換部と、音声モデル生成部の出力例を示す図。音声素片データベース作成装置の代替音声モデル生成部の構成を示すブロック図。音声素片データベース作成装置の代替音声モデル生成部のハーフフォン選択手段の出力例を示す図。音声合成装置の構成を示すブロック図。音声合成装置の動作を示すフローチャート。音声合成装置の音声合成部の出力例を示す図。音声素片データベースに記憶される音声モデル、代替音声モデルの例を示す表。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

図１〜６、図１０を参照して本発明の音声素片データベース作成装置および、音声素片データベース作成方法を説明する。図１に示した音声素片データベース作成装置１０００は、音素セグメンテーション部１１００と、音素−ダイフォン区間変換部１２００と、音声パラメータ系列変換部１３００と、音声モデル生成部１４００と、定義済ダイフォンラベルリスト１５００と、欠落ダイフォンラベル出力部１６００と、ハーフフォン生成部１８００と、代替音声モデル生成部１９００と、を有する。図３に示した音素セグメンテーション部１１００は、音素区間分割手段１１１０と、音素ラベル付与手段１１２０とを有する。音素−ダイフォン区間変換部１２００は、ダイフォン区間分割手段１２１０と、ダイフォンラベル付与手段１２２０とを有する。図５に示した代替音声モデル生成部１９００は、ハーフフォン配置手段１９１０と、欠落ダイフォンラベルリスト１９２０と、決定木確定手段１９３０と、音素間距離マトリクステーブル１９４０と、ハーフフォン選択手段１９５０と、ハーフフォン連結手段１９６０とを有する。

図２、３を参照して、音素セグメンテーション部１１００では、音声波形データベース９１中の音声波形データ１１１１を入力として、音素区間分割手段１１１０が、音声波形データ１１１１を音素区間１１１２に分割し、音声波形データ１１１１と音素区間１１１２を対応付けて出力する。音声波形データ１１１１と音素区間１１１２を入力として、音素ラベル付与手段１１２０が、音素区間１１１２ごとに音素ラベル１１２１を付与して、音声波形データ１１１１と、音素区間１１１２と、音素ラベル１１２１とを対応付けて出力する（Ｓ１１００）。この処理は、セグメンテーションを自動的に行う方法として知られている従来方法（参考特許文献１：特開２００４−７７９０１）を用いることができる。

音素−ダイフォン区間変換部１２００では、音素区間１１１２ごとに音素ラベル１１２１を付与された音声波形データ１１１１を入力とし、ダイフォン区間分割手段１２１０が、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間１２１２とし、ダイフォン区間１２１２と、音素ラベル１１２１とを音声波形データ１１１１に対応付けて出力する。ダイフォン区間１２１２と、音素ラベル１１２１と、音声波形データ１１１１とを入力とし、ダイフォンラベル付与手段１２２０は、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベル１２２１とし、当該ダイフォン区間１２１２と当該ダイフォンラベル１２２１とを対応付けて出力する（Ｓ１２００）。

図３では、音素セグメンテーション部１１００に、音声波形データ「ＯＮＳｅ」が入力された場合の音素セグメンテーション部１１００と音素−ダイフォン区間変換部１２００の動作について例示した。図３中の「Ｓｉｌ」は無音区間の音素ラベルを意味する。「Ｓｉｌ」を付与された無音区間については前半部と後半部に分割せず、無音区間全体を、後の音素区間の前半部もしくは先の音素区間の後半部と連結してダイフォン区間１２１２を生成するものとする。図３中の「Ｓｉｌ：Ｏ」、「Ｏ：Ｎ」、「Ｎ：Ｓ」、「Ｓ：ｅ」、「ｅ：Ｓｉｌ」は何れもダイフォンラベル１２２１である。

図２、４を参照して、音声パラメータ系列変換部１３００は、音声波形データ１１１１とダイフォンラベル１２２１とダイフォン区間１２１２とを入力とし、前記音声波形データ１１１１をダイフォン区間１２１２ごとに、一定のフレーム長（例えば５ｍｓ）ごとにＮ個の音声パラメータよりなる音声パラメータ系列１３０１−１〜Ｎに変換し、当該音声パラメータ系列１３０１−１〜Ｎをダイフォン区間１２１２と対応付けて出力する（Ｓ１３００）。音声パラメータの表現方法としては、例えばケプストラム（非特許文献２参照）などを用いることができる。

音声モデル生成部１４００は、音声パラメータ系列１３０１−１〜Ｎとダイフォンラベル１２２１とダイフォン区間１２１２とを入力とし、ダイフォン区間１２１２ごとに、ダイフォン区間１２１２に対応付けられた音声パラメータ系列を状態１〜３に分割し、状態１〜３から１つずつ音声パラメータを選択して代表パタン１４０１−１〜３とする。これら３つの代表パタンよりなる３状態の音声モデル１４０２を生成し、当該ダイフォン区間１２１２と対応付いたダイフォンラベル１２２１と、当該音声モデル１４０２とを対応付けて出力する（Ｓ１４００）。本実施例では状態数を３としたが、状態数についてはこれ以外の値とすることもでき、例えば長母音のような長い音韻長を含むダイフォン区間については５状態とし、選択する代表パタン数を５として、５状態からなる音声モデルを生成することとしてもよい。各状態の長さは、ダイフォン区間を均等に分割することとしてもよいし、例えば音声パラメータが急激に変動する中心部を密に分割するような非均一な分割を行うこととしてもよい。また、各状態の代表パタンの選択方法としては、各状態の時間的中心部分のフレームにある音声パラメータを選択する方法、各状態における全てのフレームの音声パラメータの平均値を用いる方法、この平均値に最も近い音声パラメータを各状態から選択する方法がある。

図４では、ダイフォン区間に分割された音声波形データ「ＯＮＳｅ」、対応するダイフォンラベル「Ｓｉｌ：Ｏ」、「Ｏ：Ｎ」、「Ｎ：Ｓ」、「Ｓ：ｅ」、「ｅ：Ｓｉｌ」が入力された場合、例えばダイフォンラベル「Ｎ：Ｓ」に対応付けられた音声パラメータ系列１３０１−１〜Ｎにおける音声パラメータ系列変換部１３００と、音声モデル生成部１４００の動作について例示した。

図１、２を参照して、欠落ダイフォンラベル出力部１６００は、ダイフォンラベル１２２１と、定義済ダイフォンラベルリスト１５００とを入力とし、定義済ダイフォンラベルリスト１５００に存在するが、ダイフォンラベル１２２１として入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する（Ｓ１６００）。なお、定義済ダイフォンラベルリスト１５００とは、音声合成に必要な全てのダイフォンのダイフォンラベルをリストとして予め生成したものである。

なお、欠落ダイフォンラベル出力部１６００は、音声波形データベース９１の規模が不十分で、音声波形データベース９１に必要な全てのダイフォンが含まれていない場合、当該含まれていないダイフォンを欠落ダイフォンラベルとして特定して出力することを目的として存在している。従って、欠落ダイフォンラベル出力部１６００は、音声波形データベース９１に含まれる全ての音声波形データに対応付いた全てのダイフォンラベルと、定義済ダイフォンラベルリスト１５００との比較により、欠落しているダイフォンを特定して欠落ダイフォンラベルとして出力する。この点に注意を要する。

ここで、欠落ダイフォンラベルが存在する場合には、ハーフフォン生成部１８００の動作（Ｓ１８００）、代替音声モデル生成部１９００の動作（Ｓ１９００）を実行するが、欠落ダイフォンラベルが存在しない場合には、Ｓ１８００、Ｓ１９００は行われない（Ｓ１７００）。以下、欠落ダイフォンラベルが存在した場合のハーフフォン生成部１８００、代替音声モデル生成部１９００の各動作について説明する。

ハーフフォン生成部１８００は、音声モデル１４０２とダイフォンラベル１２２１とを入力とし、音声モデル１４０２を前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力する（Ｓ１８００）。例えば音声モデル１４０２の状態数がＬであった場合、前半部のハーフフォンは第１状態〜第（Ｌ／２）状態（小数点以下繰り上げ）の代表パタンを保持し、残りの状態を削除し、後半部のハーフフォンは第（Ｌ／２）＋１状態〜第Ｌ状態（小数点以下繰り下げ）の代表パタンを保持し、残りの状態を削除することによって生成する。Ｌが奇数である場合には、音声モデル１４０２の状態数Ｌのちょうど中間に位置する状態の代表パタンについては、前半部のハーフフォンと後半部のハーフフォンの双方において保持されるものとする。従って音声モデル１４０２の状態数が３である場合には、前半部のハーフフォンは音声モデルの第１状態〜第２状態の代表パタンを保持し、後半部のハーフフォンは音声モデルの第２状態〜第３状態の代表パタンを保持する。３状態のちょうど中間に位置する状態２の代表パタンについては、前半部のハーフフォンと後半部のハーフフォンの双方において保持される。なお、ハーフフォン生成部１８００は、音声波形データベース９１に含まれる全ての音声波形データから生成された音声モデルを分割してハーフフォンを生成する。従って音声波形データベース９１に含まれる全ての音声波形データと対応するハーフフォンが生成されることに注意する。

図２、５を参照して、代替音声モデル生成部１９００は、前記ハーフフォンと、前記ハーフフォンラベルと、前記欠落ダイフォンラベルとを入力とし、任意の欠落ダイフォンラベルの前半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンとを連結し、代替音声モデルとして出力する（Ｓ１９００）。

詳細には、代替音声モデル生成部１９００において、ハーフフォン配置手段１９１０は、ハーフフォンと、ハーフフォンラベルとを入力とし、入力されたハーフフォンを予め用意された決定木に配置する。決定木は、音素前後の音素環境をコンテキストとして生成し、音素ごとに各１つずつ用意されているものである。前述のハーフフォンは、ハーフフォンラベルに示された音素と同一の音素について用意された決定木のリーフノードに配置される。ハーフフォン配置手段１９１０は、ハーフフォン生成部１８００において生成された全てのハーフフォンを、音素ごとに用意された決定木のリーフノードに配置する。つまり決定木のリーフノードには、音声波形データベース９１に含まれる全ての音声波形データに基づいて生成した全てのハーフフォンを配置する。この点に注意を要する。

欠落ダイフォンラベルリスト１９２０は、欠落ダイフォンラベルを入力とし、入力された欠落ダイフォンラベルを自身に記憶する。決定木確定手段１９３０は、欠落ダイフォンラベルリスト１９２０と、ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として欠落ダイフォンラベルに対応付けて出力する。ここで、参照すべき決定木のリーフノードに、ハーフフォンが１つも配置されていない場合には、音素間距離マトリクス１９４０を参照し、参照すべき決定木の音素と最も音素間距離が短くなる音素の決定木を代替の決定木として確定する。ここで、音素間距離マトリクスは、調音点や調音方法などの弁別素性を考慮し、予め定義したマトリクステーブルである。

上記のように決定木を利用することにより、コンテキスト情報を考慮した絞り込みが容易になるという利点がある。例えば、決定木を利用するのでなく、音素単位でハーフフォンの集合を構成することとすると、前後の音素環境があまりにも合致しないハーフフォンが連結対象として選択されてしまう。このため決定木を利用して前後の音素環境を考慮したクラスタリングを行い、連結対象の候補の絞り込みを行う。決定木は音素単位で作成されるため、音声データベース９１に含まれる音素と同種別、同数の決定木が作成される。決定木の分岐条件の質問には、音素のコンテキスト情報（前後の音素環境の一致など）を用いることとする。例えば、「ダイフォンの前半部に相当するか」、「後続音素が母音か」、「後続音素が／Ａ／であるか」「先行音素が破裂子音か」「先行音素が／Ｐ／か」など、大まかな分類から詳細な分類へと徐々に絞り込むように構成されている。

図６を参照して、ハーフフォン選択手段１９５０は、欠落ダイフォンラベルリスト１９２０と、前半ハーフフォン決定木１９５１と、後半ハーフフォン決定木１９５２とを入力とし、欠落ダイフォンラベルごとに、前半ハーフフォン決定木１９５１、後半ハーフフォン決定木１９５２から各１つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力する。

ここで、前半ハーフフォン決定木１９５１と、後半ハーフフォン決定木１９５２の、少なくともいずれか一方の参照すべきリーフノードにハーフフォンが複数存在し、双方のハーフフォンラベルの音素が有声音である場合には、前半ハーフフォン決定木に存在するハーフフォンと、後半ハーフフォン決定木に存在するハーフフォンとのＦ０ギャップが最小となる組み合わせを欠落ダイフォンラベルの連結対象となるハーフフォンとして選択することとしてもよい。Ｆ０ギャップはハーフフォンのＦ０平均値の差分から求める。ここで、ハーフフォンのＦ０平均値は、前半部のハーフフォンの各状態の代表パタンのＦ０値を平均した値、後半部のハーフフォンの各状態の代表パタンのＦ０値を平均した値をそれぞれ用いる。

また、参照すべきリーフノードに存在するハーフフォンを、予め定義されたＦ０値域で区切られた２以上のＦ０カテゴリ１９５３に分類し、同一もしくは近接するカテゴリに分類されたハーフフォン同士からなる組み合わせを欠落ダイフォンラベルの連結対象として選択してもよい。ここでＦ０カテゴリとはＦ０値を量子化幅Ｄにて分類したものである。Ｆ０値の量子化幅Ｄを例えば５０Ｈｚとして、１００Ｈｚ未満、１００Ｈｚ以上１５０Ｈｚ未満、１５０Ｈｚ以上２００Ｈｚ未満、２００Ｈｚ以上２５０Ｈｚ未満、２５０Ｈｚ以上３００Ｈｚ未満、３００Ｈｚ以上からなる６カテゴリとすることができる。また、別の方法として、対数Ｆ０領域で量子化幅Ｄを設定しても良い。量子化幅Ｄについては、音声合成処理における信号処理方式のＦ０変形耐性に応じて適切な分類を行うことができるように決定するものとする。同一のＦ０カテゴリに含まれるハーフフォンが複数存在する場合には、それぞれのＦ０平均値を比較し、Ｆ０平均値の差分が最も小さくなる組み合わせを連結対象として選択する。等しいＦ０カテゴリにどちらか一方のハーフフォンが含まれていない場合には、互いに隣接するＦ０カテゴリのハーフフォン同士を連結対象として選択する。このようにして、最低でも１つ、最高でＦ０カテゴリ数と等しい数のハーフフォンの組み合わせを得ることができる。なお、前記の連結対象の選択は、平均Ｆ０の代わりとして音響パラメータ（例えばスペクトル間距離など）の差分を基準とすることとしてもよい。

なお、平均Ｆ０を基準として連結対象となるハーフフォンを決定するのは、連結対象のハーフフォンがいずれも有声音である場合に限られる。組み合わせる素片の何れか、あるいは両方が無声音の場合は、リーフノードに含まれる全てのハーフフォンの集合のセントロイド（平均（重心）に最も近いある一つの音声モデル）を代表パタンとする。もしくは、リーフノードに含まれる全てのハーフフォンについて、両者の音響パラメータ（例えばスペクトル間距離など）が最も近くなる組み合わせを選択することとしてもよい。無声音は、周期的な振動を伴わない音であるため、Ｆ０情報を持たない。従ってＦ０ギャップを考慮する必要がないため、有声音同士の連結と、無声音を含む連結とで連結方法が異なる。

図５に戻り、ハーフフォン連結手段１９６０は、連結対象となるハーフフォンと、欠落ダイフォンラベルリスト１９２０とを入力とし、欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、欠落ダイフォンラベルと対応付けて出力する。

ハーフフォンの連結は、連結後の代替音声モデルの状態数が奇数であるとき、前半部のハーフフォンの最初の状態〜最後から数えて２番目の状態の代表パタンと、後半部のハーフフォンの最初から数えて２番目の状態〜最後の状態の代表パタンを用いて連結する。連結後にちょうど中間に位置する、前半部のハーフフォンの最後の状態と、後半部のハーフフォンの最初の状態については、双方の状態における内分値を用いた重みづけ加算により求めた値を用いる。内分比率には例えばシグモイド関数を用いることができる。

例えば音声モデルの代表パタン数が３であった場合、前半部のハーフフォンの最初の状態の代表パタンが連結後の代替音声モデルの第１状態の代表パタンとして用いられ、後半部のハーフフォンの最後の状態の代表パタンが連結後の代替音声モデルの第３状態の代表パタンとして用いられる。連結後の代替音声モデルの第２状態については、前半部のハーフフォンの最後の状態と、後半部のハーフフォンの最初の状態との内分値を用いた重みづけ加算により求めた値を用いる。なお、代替音声モデルの状態数が偶数である場合には、前半ハーフフォンの各状態、後半ハーフフォンの各状態の代表パタンをそれぞれ用いて連結すればよい。

図１、図１０を参照して、音声素片データベース９２は、音声モデルと、代替音声モデルとを入力とし、入力された音声モデルと、代替音声モデルとを記憶する（Ｓ９２）。図１０は、音声素片データベース９２に記憶された音声モデル、代替音声モデルを例示した表である。音声素片データベース９２には、ダイフォンラベルごとに平均周波数Ｆ０（Ｈｚ）、平均周波数Ｆ０の傾斜（Ｈｚ／ｍｓ）、パワー（ｄＢ）、音声パラメータが記憶される。

なお、あらかじめダイフォンラベルを付与された音声モデルを入力とする場合には、欠落ダイフォンラベルリスト１５００、欠落ダイフォンラベル出力部１６００、ハーフフォン生成部１８００、代替音声モデル生成部１９００のみを備える代替音声モデル作成装置１００００によって、代替音声モデルを作成する構成としても良い。

この代替音声モデル作成装置１００００における各部の働きは、前記音声素片データベース作成装置１０００における同一名称の各部における働きと同じである。代替音声モデル作成装置１００００に入力されるダイフォンラベルを付与された音声モデルは、予め用意された音声波形データベースに含まれる全ての音声波形データを用いて予め別の装置にて作成されているものとする。なお、代替音声モデル作成装置１００００における欠落ダイフォンラベル出力部１６００の働きは、音声素片データベース作成装置１０００における欠落ダイフォンラベル出力部１６００の働きと同じであり、予め用意された音声波形データベースに含まれる全ての音声波形データから生成した全てのダイフォンラベルを入力として、定義済ダイフォンラベルリスト１５００との比較により、欠落しているダイフォンを特定して欠落ダイフォンラベルとして出力する。同様に、代替音声モデル作成装置１００００のハーフフォン生成部１８００は、音声波形データベースに含まれる全ての音声波形データを用いてハーフフォンを生成し、代替音声モデル作成装置１００００のハーフフォン配置手段１９１０は、ハーフフォン生成部１８００において生成された全てのハーフフォンを音素ごとに用意された決定木のリーフノードに配置する。この点に注意を要する。

本実施例の音声素片データベース作成装置１０００によれば、ハーフフォンを連結して代替音声モデルを生成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。

また、Ｆ０ギャップが最小となるハーフフォンの組み合わせを欠落ダイフォンラベルの連結対象となるハーフフォンとして選択する場合には、代替音声モデルの接続部のＦ０変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。

また、予め定義されたＦ０値域で区切られた２以上のＦ０カテゴリに分類し、同一もしくは近接するカテゴリに分類されたハーフフォン同士からなる組み合わせを欠落ダイフォンラベルの連結対象として選択する場合には、代替音声モデルの接続部のＦ０変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。また、このようにして作成された音声素片データベースは、同一の欠落ダイフォンラベルについて、平均Ｆ０の異なる代替音声モデルを複数（最多の場合、カテゴリ数と同数）有する可能性が高くなる。このため、上記音声素片データベースを用いて音声合成処理を行う場合、韻律生成によって生成したＦ０に近似したＦ０値を持つ音声モデルを、前記音声素片データベースから選択できる可能性が高くなり、Ｆ０変化量が減少することにより合成音声がさらに高品質となる。また、同一もしくは近接するカテゴリに分類されたハーフフォン同士を組み合わせて代替音声モデルとするため、すべてのハーフフォンの組み合わせを代替音声モデルとして記憶することとした場合に比べ、音声素片データベースに記憶する代替音声モデルの総数を著しく少なく抑えることができ、素片探索時間の増加やデータベースサイズの増加を避けることができる。同時に、前述のＦ０カテゴリは、Ｆ０変形耐性に応じて適切な量子化幅から設定するため、音声合成に最適な代替音声モデルはなお音声素片データベースに記憶されることとなり、これにより合成音声が高品質となる。

また、任意の音素におけるハーフフォンが、全く存在しない場合に、予め定義された音素間距離マトリクスが最小となるハーフフォンを、前記存在しないハーフフォンの替わりに当該欠落ダイフォンラベルの連結対象として選択することとすれば、音声波形データベース中に全く存在しない音素についても、代替音声モデルを生成することができるため、必要な全ての音声モデルを保有する音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。

図７〜９を参照して本発明の音声合成装置および、音声合成方法を説明する。図７に示す音声合成装置７０００は、テキスト解析部７１００と、テキスト解析用辞書７２００と、韻律生成部７３００と、音声モデル選択部７４００と、音声合成部７６００とを有する。テキスト解析部７１００は、テキストを入力とし、テキスト解析用辞書７２００を用いて、読み、アクセント、音韻系列を出力する（Ｓ７１００）。韻律生成部７３００は、読み、アクセントを入力とし、Ｆ０、パワー、音韻長を出力する（Ｓ７３００）。音声モデル選択部７４００は、Ｆ０、パワー、音韻系列を入力とし、音声素片データベースから音声モデルを選択して出力する（Ｓ７４００）。音声合成部７６００は、音声モデル、Ｆ０、パワー、音韻長を入力とし、合成音声を出力する（Ｓ７６００）。詳細には、図９に示す音声合成部７６００は、音声パラメータ系列生成手段７６１０と、音声パラメータ系列補間手段７６２０と、合成音声波形生成手段７６３０とを有する。

音声パラメータ系列生成手段７６１０は、入力された音声モデル１４０２の各代表パタンを、入力された音韻長に応じて繰り返して連結する。図９の例では、音声モデル１４０２の３つの代表パタンである音声パラメータの各々が、音韻長を３等分した長さ分だけ繰り返し複製され連結される。入力された音声モデルの全てについて音声パラメータの複製−連結処理が行われ、音声モデルごとに複製−連結処理が行われた音声パラメータ系列は、対応するダイフォンラベルの順序ごとに全て連結される。例えば音声モデルの状態数がＰ、音韻長から算出されるフレーム数がＱの場合、ｊ番目の状態の代表パタンである音声パラメータは、フレーム番号（ｊ−１）×（Ｑ／Ｐ）＋１番から、ｊ×（Ｑ／Ｐ）番まで繰り返され、連結される。

音声パラメータ系列補間手段７６２０は、音声パラメータ系列を、滑らかに遷移するように補間する。ここでの補間方法としては、例えば、音声パラメータの分布列から、最尤パラメータ列を生成する方法（参考非特許文献１：徳田恵一、益子貴史、小林隆夫、今井聖、「動的特徴量を用いたＨＭＭからの音声パラメータ生成アルゴリズム」、日本音響学会誌、社団法人日本音響学会、平成９年３月、第５３巻、第３号、pp192〜200）などが適用可能である。

合成音声波形生成手段７６３０は、音声パラメータ系列から、合成音声波形を生成する。ここでの合成音声波形生成方法としては、例えばＳＴＲＡＩＧＨＴ法(参考非特許文献２：Hideki Kawahara, Ikuyo Masuda-Katsuse and Alain de Cheveigne, “Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instanta- neous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds”, Speech Communication, 27, 3-4, pp.187-207 (1999))などを用いることができる。

本実施例の音声合成装置７０００によれば、ハーフフォンを連結して代替音声モデルを生成し、音声素片データベースを作成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音素区間長さごとに音素ラベルを付与された音声波形データから音声素片データベースを作成する音声素片データベース作成装置であって、
前記音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する音素−ダイフォン区間変換部と、
前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換し、ダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する音声パラメータ系列変換部と、
前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから１以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する音声モデル生成部と、
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力部と、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成部と、
前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置手段と、
前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、
前記欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定手段と、
前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各１つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択手段と、
前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結手段と、
を備えることを特徴とする音声素片データベース作成装置。
請求項１に記載の音声素片データベース作成装置であって、
前記ハーフフォン選択手段は、
任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンとのＦ０ギャップが最小となる組み合わせを当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。
請求項１に記載の音声素片データベース作成装置であって、
前記ハーフフォン選択手段は、
任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンを、予め定義されたＦ０値域で区切られた２以上のカテゴリに分類し、同一もしくは近接するカテゴリに分類された前記前半部のハーフフォンと前記後半部のハーフフォンとからなる組み合わせを当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。
請求項１から３の何れかに記載の音声素片データベース作成装置であって、
前記ハーフフォン選択手段は、
任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォン、もしくは任意の欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンが存在しない場合に、予め定義された音素間距離マトリクスが最小となるハーフフォンを、前記存在しないハーフフォンの替わりに当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。
ダイフォンラベルを付与された音声モデルから、代替音声モデルを作成する代替音声モデル作成装置であって、
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力部と、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成部と、
前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置手段と、
前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、
前記欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定手段と、
前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各１つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択手段と、
前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結手段と、
を備えることを特徴とする代替音声モデル作成装置。
音素区間長さごとに音素ラベルを付与された音声波形データから音声素片データベースを作成する音声素片データベース作成方法であって、
前記音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する音素−ダイフォン区間変換ステップと、
前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換してダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する音声パラメータ系列変換ステップと、
前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから１以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する音声モデル生成ステップと、
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力ステップと、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成ステップと、
前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置ステップと、
前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定ステップと、
前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各１つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択ステップと、
前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結ステップと、
を備えることを特徴とする音声素片データベース作成方法。
ダイフォンラベルを付与された音声モデルから、代替音声素片データベースを作成する代替音声モデル作成方法であって、
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力ステップと、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成ステップと、
前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置ステップと、
前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定ステップと、
前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各１つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択ステップと、
前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結ステップと、
を備えることを特徴とする代替音声モデル作成方法。
コンピュータを、請求項１から４の何れかに記載の音声素片データベース作成装置として機能させるためのプログラム。
コンピュータを、請求項５に記載の代替音声モデル作成装置として機能させるためのプログラム。