JP5411845B2

JP5411845B2 - 音声合成方法、音声合成装置及び音声合成プログラム

Info

Publication number: JP5411845B2
Application number: JP2010292223A
Authority: JP
Inventors: 勇祐井島; 光昭磯貝; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-12-28
Filing date: 2010-12-28
Publication date: 2014-02-12
Anticipated expiration: 2030-12-28
Also published as: JP2012141354A

Description

本発明は、対象テキストに対応し、任意話者の特徴を持つ音声を合成する音声合成方法、音声合成装置及び音声合成プログラムに関する。

特許文献１記載の音声合成装置１０が従来技術として知られている。図１を用いて、音声合成装置１０の概要を説明する。

音声合成の対象となるテキスト（以下、「対象テキスト」という）が入力されると、まず、テキスト解析部１１において、係り受けや品詞解析等の形態素解析、漢字かな変換及びアクセント処理が行われ、素片選択接続部１４に対して音韻の区別を示す記号列を出力し、韻律生成部１２に対して呼気段落内モーラ数、アクセント形、発声スピードを出力する。

次に、韻律生成部１２において、受け取った情報を基にピッチパターン、各音素の時間長パターン及び振幅パターンを韻律モデル１３により生成し素片選択接続部１４に出力する。
最後に、素片選択接続部１４は、音韻の区別を示す記号列、ピッチパターン、時間長パターン及び振幅パターンに基づき、音声データベース１５より最適な波形を選択し、接続することにより音声を合成し、出力する。

特許文献１の場合、音声データベース１５中に、同一コンテキストの素片が大量に存在すれば、ピッチパターン、時間長パターン及び振幅パターンのバリエーションが増加し、合成音声の品質が向上する。しかし、十分な品質の合成音声を得るためには、大量の音声が必要となる。そのため、多くの音声合成装置では、合成可能な話者の人数は予め用意されている数名程度と限られている。ユーザが自由に好みの話者の音声を生成または選択しようと思った場合には、合成したい話者（以下「目標話者」という）の大量の音声（最低でも数時間程度の音声）が必要となる。

このような課題を解決した従来技術として非特許文献１記載の音声合成装置２０が知られている。図２を用いて音声合成装置２０を説明する。
多数話者音声データベース２１には予め多数の話者の音声データを収録しておく。
モデル学習部２２は、多数話者音声データベース２１から多数の話者の音声データを受け取り、多数の話者の平均的な音声の特徴を持つ平均声モデルを学習する。

変換規則学習部２３は、平均声モデルと目標話者の音声データとから、平均声モデルを適応モデルに変換するための変換規則を学習し、これを適応部２４に出力する。なお、適応モデルとは、目標話者の大量の音声データから得られる音声モデルに似た音声モデルである。

適応部２４は、変換規則を平均声モデルに適応し、適応モデルに変換する。
合成部２５は、対象テキストが入力されると、適応モデルに基づき、合成音声を生成し、出力する。

特許２７６１５５２号公報

田村正統、益子貴史、徳田恵一、小林隆夫、"ＨＭＭに基づく音声合成におけるピッチ・スペクトルの話者適応"、電子情報通信学会論文誌、２００２年４月、ｖｏｌ．Ｊ８５−Ｄ−ＩＩ、ｎｏ．４、ｐｐ．５４５−５５３

非特許文献１は特許文献１に比べ、音声合成に必要なデータベースやモデルを作成するために必要な目標話者の音声データの量を大幅に減らすことができる。しかしながら、非特許文献１も変換規則を学習するために目標話者の音声データが数分程度必要となる。そのため、音声収録の際に目標話者を長時間拘束しなければならない。例えば、５分の音声データを収録するには、３０分程度の拘束時間が必要となる。

そこで本発明は、さらに少ない量の目標話者の音声データから得られる類似話者音声データベースを用いて、対象テキストに対応し、目標話者の特徴を持つ音声を合成する音声合成方法、音声合成装置及び音声合成プログラムを提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する。２つの音声データが類似しているか否かを示す指標を話者類似度とし、目標話者の音声データとの話者類似度が高い複数の音声データを合成音声を組み立てる上で適切な合成単位に分割した部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースが予め記憶される。対象テキストを解析して、対象テキストの読み情報を取得する。読み情報を音素の並びである音素コンテキストに変換する。音素情報に基づいて、音素コンテキストに合成単位で適合する音声素片候補を類似話者音声データベースから探索する。各音声素片候補の類似話者識別子に対応する話者類似度を少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する。選択音声素片に対応する部分音声データを類似話者音声データベースから読み込み、この部分音声データを接続して合成音声を得る。

上記の課題を解決するために、本発明の第二の態様によれば、対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する。合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースと、類似話者識別子と、その類似話者識別子の対応する話者類似度とを記憶する話者類似度記憶部と、対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、音素情報に基づいて、音素コンテキストに合成単位で適合する音声素片候補を類似話者音声データベースから探索する音声素片候補探索部と、各音声素片候補の類似話者識別子に対応する話者類似度を少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、選択音声素片に対応する部分音声データを類似話者音声データベースから読み込み、この部分音声データを接続して合成音声を得る素片接続部と、を有する。

本発明は、話者類似度が高い複数の音声データからなる類似話者音声データベースと、話者類似度を用いて、音声合成を行うので、目標話者により類似している話者の音声データが音声合成の際に使用されやすくなり、合成音声の目標話者に対する類似性を向上させることができる。

従来の音声合成装置１０の構成を示すブロック図。従来の音声合成装置２０の構成を示すブロック図。音声合成装置１００、２００、３００の機能構成例を示すブロック図。音声合成装置１００、２００、３００の処理フローを示す図。音声素片のデータ構造を示す図。類似話者音声データベース構築部１１０の機能構成例を示すブロック図。類似話者選択部１１１の機能構成例を示すブロック図。類似話者選択部１１１の処理フローを示す図。話者統合部１１５の処理フローを示す図。音声合成部１５０の機能構成例を示すブロック図。音声合成部１５０の処理フローを示す図。類似話者音声データベース構築部２１０の機能構成例を示すブロック図。類似話者音声データベース構築部２１０の処理フローを示す図。話者変換規則学習部２１３及び話者単位変換部２１４の処理フローを示す図。類似話者音声データベース構築部３１０の機能構成例を示すブロック図。類似話者音声データベース構築部３１０の処理フローを示す図。

以下、本発明の実施形態について説明する。
＜第一実施形態に係る音声合成装置１００＞
図３及び図４を用いて第一実施形態に係る音声合成装置１００を説明する。音声合成装置１００は、多数話者音声データベース構築部１０１と多数話者音声データベース１０３と類似話者音声データベース構築部１１０と類似話者音声データベース１３０と話者類似度記憶部１４０とを備える。

＜多数話者音声データベース構築部１０１及び多数話者音声データベース１０３＞
多数話者音声データベース構築部１０１は、事前に多数話者（Ｎ名分）の音声を収録し、類似話者音声データベース構築部１１０で用いる多数話者音声データベース１０３を構築する（ｓ１０１）。

なお、収録する多数話者の音声は、類似話者音声データベース構築部１１０と音声合成部１５０で使用されるため以下の要件（１）、（２）を満たすことが望ましい。（１）収録する１名あたりの音声データ量（無音区間を除いた音声区間の時間）は、音声合成用のモデルを学習可能な時間以上である。なお、学習可能な時間は、使用する音声合成システムにより異なり、例えば、素片選択型音声合成では数時間程度の音声データ量が必要となる。（２）収録する話者数Ｎは、性別毎に最低でも１００名以上、計２００名以上であることが望ましい。

さらに、音声収録の終了後、収録した音声データに対して、音声素片を付与する。よって、多数話者音声データベース１０３はＮ名分の音声素片付音声データを保持する。
ここで、音声データとは、単語や文章を読み上げた肉声の音声信号に対してＡ／Ｄ変換を行い、ディジタルデータ化した音声波形データである。この音声波形データは、波形接続型音声合成の素材として利用できる。

図５に音声素片からなるデータ構造（テーブル）の例を示す。音声素片とは、合成音声を組み立てる上で適切な単位（以下「合成単位」という）の音声データ（以下「部分音声データ」という）の諸情報を示すものであり、少なくとも部分音声データを発した話者を示す話者識別子と、合成単位の発声音素を示す音素情報を含む。また、例えば、全音声データに対する部分音声データの位置を示す位置情報（開始時間、終了時間）や、部分音声データのＦ０パターン情報等を含んでもよい。なお、音声素片の付与は、人手により行ってもよいし、コンピュータにより自動的に行ってもよい。例えば、音素情報と位置情報は以下の参考文献１記載の技術を用いてコンピュータにより自動的に行ってもよい。
（参考文献１）特開２００４−７７９０１号公報

なお、この実施形態では説明を具体的なものとする観点から合成単位を音素とする。この他、例えば音節、半音節としてもよいし、あるいは音素・音節・半音節などの組み合わせを合成単位とすることなども可能であり、任意に決めることができる。

＜類似話者音声データベース構築部１１０、類似話者音声データベース１３０及び話者類似度記憶部１４０＞
類似話者音声データベース構築部１１０は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する（ｓ１１０）。図６に示すように類似話者音声データベース構築部１１０は、類似話者選択部１１１と話者統合部１１５を有する。

＜類似話者選択部１１１＞
類似話者選択部１１１は、多数話者音声データベース１０３に保存されている複数の音声データを入力とし、これを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択し（ｓ１１１）、類似話者の音声素片付音声データを話者統合部１１５に出力する。なお、話者類似度とは２つの音声データが類似しているか否かを示す指標である。

例えば、話者識別・認証で使用されている混合正規分布（Gaussian Mixture Model；ＧＭＭ）を用いた参考文献２記載の技術に基づき話者類似度を求める。
（参考文献２）D. A. Reynolds, “Speaker identification and verification using Gaussian mixture speaker models”, Speech Communication, 1995, vol.17, pp.91-108
この場合、図７に示すように類似話者選択部１１１は混合正規分布学習部１１１ａと多数話者混合正規分布記憶部１１１ｂと話者類似度計算部１１１ｃと類似話者抽出部１１１ｄとを有する。

（混合正規分布学習部１１１ａ及び多数話者混合正規分布記憶部１１１ｂ）
混合正規分布学習部１１１ａは、Ｎ名分の音声データを入力とし、全ての話者の音声データに対して以下の処理（図８中のｓ１１１ａ−２、ｓ１１１ａ−３）を行う（ｓ１１１ａ−１，ｓ１１１ａ−４，ｓ１１１ａ−５）。各話者ｎの音声データを用いて、それぞれの音声データからスペクトルパラメータ（ケプストラム、メルケプストラム等）を取得する（ｓ１１１ａ−２）。さらに、それぞれの音声データから得られるスペクトルパラメータを用いて、混合正規分布λ_ｎを学習し、モデルパラメータである混合重みｗ_ｎ（ｍ）、平均ベクトルμ_ｎ（ｍ）、分散ベクトルν_ｎ（ｍ）を推定し（ｓ１１１ａ−３）、これらの値を多数話者混合正規分布記憶部１１１ｂに出力する。但し、ｍ＝１，２，…，Ｍであり、Ｍは混合正規分布の混合数である。

さらに、混合正規分布学習部１１１ａは、同様に全て（Ｎ名分）の音声データから得られるスペクトルパラメータを利用して、全ての音声データに対する混合正規分布λ_Ｕ（Universal Background Model；ＵＢＭ）を学習し、モデルパラメータである混合重みｗ_Ｕ（ｍ）、平均ベクトルμ_Ｕ（ｍ）、分散ベクトルν_Ｕ（ｍ）を推定し（ｓ１１１ａ−６）、これらの値を多数話者混合正規分布記憶部１１１ｂに出力する。

（話者類似度計算部１１１ｃ）
話者類似度計算部１１１ｃは、多数話者混合正規分布記憶部１１１ｂから混合重みｗ_ｎ（ｍ）、ｗ_Ｕ（ｍ）、平均ベクトルμ_ｎ（ｍ）、μ_Ｕ（ｍ）、分散ベクトルν_ｎ（ｍ）、ν_Ｕ（ｍ）を取得し、これらの値と目標話者の音声データを入力とする。まず、話者類似度計算部１１１ｃは、目標話者の音声データからスペクトルパラメータ系列Ｘを取得する。次に、各話者ｎの話者類似度Ｌ_ｎを以下の対数尤度として計算する（ｓ１１１ｃ−２）。全ての話者ｎの話者類似度Ｌ_ｎを計算し（ｓ１１１ｃ−１，ｓ１１１ｃ−３，ｓ１１１ｃ−４）、類似話者抽出部１１１ｄに出力する。

スペクトルパラメータ系列Ｘの次元数とフレーム数はそれぞれＲとＴであり、ｘ（ｔ）は第ｔフレーム目のスペクトルパラメータのベクトルであり、χ_ｔ（ｒ）は第ｔフレームの第ｒ次元目のスペクトルパラメータである。また、μ_ｉ（ｍ，ｒ）、σ_ｉ（ｍ，ｒ）は、混合正規分布λ_ｉのパラメータであり、第ｍ混合目の分布の第ｒ次元目の平均、標準偏差を表す。式（１）〜（４）より、話者類似度Ｌ_ｎは、目標話者の音声データが持つ音声特徴と類似する音声特徴を有する音声データのほうが大きくなる。

（類似話者抽出部１１１ｄ）
類似話者抽出部１１１ｄは、話者類似度Ｌ_ｎを受け取り、その中で話者類似度の大きい上位Ｓ名を抽出する（ｓ１１１ｄ）。但し、この上位Ｓ名の話者を類似話者ｓと呼び、２≦Ｓ≦Ｎとし、ｓ＝１，２，…，Ｓとする。類似話者抽出部１１１ｄは、抽出した上位Ｓ名の話者類似度Ｌ_ｓを話者類似度記憶部１４０へ出力し、抽出した上位Ｓ名の音声素片付音声データを話者統合部１１５へ出力する。例えば、話者類似度記憶部１４０には、類似話者の話者識別子（以下、「類似話者識別子」という）とその類似話者に対応する話者類似度を格納する。

＜話者統合部１１５＞
話者統合部１１５は、複数選択した音声素片付音声データを統合して、部分音声データと、その部分音声データの音声素片とからなる類似話者音声データベースを構築する（ｓ１１５）。

例えば、図９に示すように、音声データを統合する。まず類似話者ｓの音声データ中に含まれる合成単位の音素ｐの部分音声データと、それに対応する音声素片を全て取り出す（ｓ１１５ｃ）。これを全ての類似話者に対して行い（ｓ１１５ｂ、ｓ１１５ｄ、ｓ１１５ｅ）、取り出した合成単位の音素ｐに対応する部分音声データを類似話者音声データベース１３０に追加する。その際、部分音声データに対応する音声素片は多数話者音声データベースと同様の構成（図５参照）となるが、音声素片番号を追加した順番に変更し、開始時間、終了時間を類似話者音声データベース１３０上の各部分音声データの位置に変更する。全ての音素に対して上記処理を行い（ｓ１１５ａ、ｓ１１５ｇ、ｓ１１５ｈ）、類似話者の音声データを統合する。

なお、通常、複数の話者の音声データを統合して、一つの音声データベースを作成すると、各話者間の音声特徴量が大きく異なるため、波形接続時に異音等が生じてしまう可能性があり、合成音声の品質が低下してしまう。しかし、類似話者選択部１１１で、類似話者を選択するため、各話者間の音声特徴量の差が小さくなる。そのため、合成音声の品質劣化が生じにくくなる。さらに、複数名の類似話者の音声データを統合することで、類似話者音声データベース１３０には、抑揚や前後の音素環境等の音声データのバリエーションが増加する。これにより、合成音声の自然性が向上する。

＜音声合成部１５０＞
音声合成部１５０は、類似話者音声データベース１３０に記憶された類似話者の音声素片付音声データと、話者類似度記憶部１４０に記憶された話者類似度を用いて、対象テキストに対応する合成音声を生成する（図４のｓ１５０）。

図１０に示すように、音声合成部１５０は、テキスト解析部１５１と韻律生成部１５２と韻律モデル記憶部１５３と音素コンテキスト変換部１５４と音声素片候補探索部１５５と素片選択部１５６と素片接続部１５７とを有する。

音声合成部１５０に入力される対象テキストは、図示しない入力部から入力されるものとしてもよいし、予め図示しない記憶部に記憶されていてもよい。また、本発明において対象テキストの種類などに格別の限定はなく、この実施形態では、漢字かな混合の日本語テキストとする。

＜テキスト解析部１５１＞
まず、テキスト解析部１５１が、対象テキストを取得し、この対象テキストを形態素解析して、対象テキストに対応した読み情報を音素コンテキスト変換部１５４に、韻律情報を韻律生成部１５２に出力する（ｓ１５１）。

形態素解析の概要について説明すると、テキスト解析部１５１は、単語モデル、漢字かな変換モデル等（これらは必要に応じて図示しない記憶部に記憶されている）を参照して、対象テキストをかなに変換する（読み情報の取得）。また、対象テキストが日本語の場合、複数の単語が集まって文節などを構成すると、アクセントが移動・消失するなどの現象が起こるので、予めこれらの規則（アクセント結合規則）をデータとして記憶部に記憶しておき、テキスト解析部１５１は、このアクセント結合規則に従って、対象テキストのアクセント型を決定する。さらに、対象テキストが日本語の場合、意味的ないし文法的なまとまり毎にアクセントが１つ付く特徴的傾向があるので、予めこれらの規則（フレーズ規則）をデータとして記憶部に記憶しておき、テキスト解析部１５１は、このフレーズ規則に従って、アクセントの１つ付いたまとまりがいくつか接続したものを呼気段落として決定する（韻律情報の取得）。この他、韻律情報にポーズ位置を含めることもできる。

なお、ここで説明した形態素解析の概要は、形態素解析の一例であって、その他の形態素解析手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、種々の形態素解析を用いることができ、これらは従来手法（例えば参考文献３、４参照）によって達成されるので、その詳細を省略する。
（参考文献３）特許３３７９６４３号公報
（参考文献４）特許３５１８３４０号公報

＜韻律生成部１５２及び韻律モデル記憶部１５３＞
次に、韻律生成部１５２が、テキスト解析部１５１が出力した韻律情報を入力として、韻律モデル記憶部１５３を参照して、韻律に関する情報である韻律パラメータを推定してこれを出力する（ｓ１５２）。

韻律パラメータとして、Ｆ０パターン(基本周波数パターン)、Ｆ０パターンの平均値、Ｆ０パターンの傾き、音素継続時間長(音素の発声の長さ)等を例示できる。例えば、音素継続時間長は、予め規則化された、呼気段落内における音素の位置、発声速度、当該音素の前後の音素環境などに従って適宜に設定することができる。また、Ｆ０パターンについては、いわゆる藤崎モデルなどによって求めることができる。なお、藤崎モデル等の韻律モデルは、予め韻律モデル記憶部１５３に記憶しておく。なお、「推定」とは、音声合成のために必要となる情報（Ｆ０パターン、音素継続時間長等）を、ある特定のものに決定することを意味する。

ここで説明した韻律パラメータ取得の概要は一例に過ぎず、その他の手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、韻律パラメータの取得には、従来の韻律パラメータ取得手法を用いることができるので、その詳細を省略する。Ｆ０パターンの取得については例えば参考文献５、６を、音素継続時間長については例えば参考文献７、８を参照されたい。
（参考文献５）特許３４２０９６４号公報
（参考文献６）特許３３４４４８７号公報
（参考文献７）海木佳延、武田一哉、匂坂芳典、「言語情報を利用した母音継続時間長の制御」、電子情報通信学会誌 Vol. J75-A, No.3, pp.467-473, 1992.
（参考文献８）M.D.Riley, "Tree-based modeling for speech synthesis", In G. Bailly, C. Benoit, and T. R. Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.

＜音素コンテキスト変換部１５４＞
音素コンテキスト変換部１５４は、テキスト解析部１５１が出力した読み情報を入力として、音素コンテキストを求めてこれを出力する（ｓ１５４）。

音素コンテキストとは音素の並びのことであり、例えば、読み情報が、“キョウワハレ”であれば音素コンテキストは、“／ｋ／／ｙ／／Ｏ／／Ｗ／／Ａ／／Ｈ／／Ａ／／Ｒ／／Ｅ／”となる。音素コンテキスト変換部１５４は、かな音素変換モデルなど（必要に応じて記憶部に記憶されている。）を参照して、読み情報を音素列に変換する（音素コンテキストの取得）。

＜音声素片候補探索部１５５＞
次に、音声素片候補探索部１５５が、音素コンテキストを入力として、音素情報に基づいて、音素コンテキストに合成単位で適合する音声素片の候補（以下、「音声素片候補」という）を類似話者音声データベース１３０から探索してこれを出力する（ｓ１５５）。

音声素片候補の探索方法として、種々の方法を採用できる。例えば、参考文献９記載の方法により実施することができる。
（参考文献９）特開２００９−１２２３８１号公報

音素情報が音素コンテキストの一部と一致する音声素片を類似話者音声データベース１３０から全て探索して、音声素片候補とする。

合成単位が音素の例では、音素コンテキストが“／ｋ／／ｙ／／Ｏ／／Ｗ／／Ａ／／Ｈ／／Ａ／／Ｒ／／Ｅ／”である場合を例にすると、音素コンテキストの各音素“／ｋ／”、“／ｙ／”、“／Ｏ／”、“／Ｗ／”、“／Ａ／”、“／Ｈ／”、“／Ａ／”、“／Ｒ／”、“／Ｅ／”毎に、当該音素に一致する音素情報を持つ音声素片を類似話者音声データベース１３０から全て探索して、これら音声素片を音素コンテキストの音素毎に音声素片候補とする。つまり、この例では、音素コンテキストの音素毎に一つまたは複数の音声素片候補が決まる。

＜素片選択部１５６＞
素片選択部１５６は、各音声素片候補の類似話者識別子に対応する話者類似度Ｌ_ｓを少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する（ｓ１５６）。

例えば、音声素片候補を入力として、一つまたは複数のサブコスト関数を用いて、音声素片候補それぞれのサブコストを計算し、さらにサブコストからなる総合コストを計算し、総合コストを用いて、波形接続に用いる選択音声素片を特定して、これを出力する。

例えば、サブコストそれぞれは、対象テキストから得られる韻律パラメータと、音声素片候補の韻律パラメータとの適合度を表す。

サブコストの計算方法であるが、任意に種々の方法を採用できる。一例として、参考文献１０に示されるようなサブコスト関数を用いて計算することができる。
（参考文献１０）「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10, pp.239-240, 1990/9

音声素片候補の韻律パラメータのＦ０パターン平均値Ｖｐと、対象テキストの合成単位の音声素片候補のＦ０パターン平均値Ｖｓに対応するサブコスト関数は、
Ｃ_１（Ｖｐ，Ｖｓ）＝（Ｖｐ−Ｖｓ）^２（１１）
である。

音声素片候補の韻律パラメータのＦ０パターンの傾きＦｐと、対象テキストの合成単位の音声素片候補のＦ０パターンの傾きＦｓに対応するサブコスト関数は、
Ｃ_２（Ｆｐ，Ｆｓ）＝（Ｆｐ−Ｆｓ）^２（１２）
である。

音声素片候補の韻律パラメータの音素継続時間長Ｔｐと、対象テキストの合成単位の音声素片候補の音素継続時間長Ｔｓに対応するサブコスト関数は、
Ｃ_３（Ｔｐ，Ｔｓ）＝（Ｔｐ−Ｔｓ）^２（１３）
である。

話者類似度をサブコスト関数の一つとして使用する場合、サブコスト関数は、
Ｃ_４（Ｌ_１，Ｌ_ｓ）＝（Ｌ_１−Ｌ_ｓ）^２（１４）
である。なお、Ｌ_１は類似話者選択部１１１でＳ個の話者類似度Ｌ_ｓの中で最も大きい話者類似度であり、Ｌ_ｓはサブコスト計算の対象となる音声素片候補の類似話者ｓ（ｓ＝１，２，…，Ｓ）の話者類似度である。サブコスト計算の対象となる音声素片が最も話者類似度が高い話者の場合、Ｃ_４（Ｌ_１，Ｌ_ｓ）は０となり、話者類似度が低い話者ほどＣ（Ｌ_１，Ｌ_ｓ）は大きな値となる。なお、話者類似度は、音声素片候補の類似話者識別子をキーとして、話者類似度記憶部１４０から取得する。

次に、素片選択部１５６が、これらのサブコストからなる総合コストを計算する。総合コストには種々の方式を採用することができる。一例として、以下のように、各サブコスト値に重みｗ_ｋを掛けて総和を計算することで、これを総合コストＱとする。

但し、Ｋはサブコストの個数である（例えばＫ＝４）。総合コストＱは、対象テキストの合成単位毎に、一つまたは複数の音声素片候補に対してそれぞれ求められる。但し、重みｗ_ｋは何れも正値とし、任意に設定することができる。上記の例では、各サブコストＣ_ｋは０以上の値をとり、音素コンテキストに対して優れた音声素片候補ほどそれらの値は０に近いから、総合コストＱは０以上の値をとり、総合コストＱが０に近いほど良好な素片候補と判定することができる。

そして、素片選択部１５６は、総合コストＱの総和が最良（この例では最小）となるように、対象テキストの合成単位毎に、音声素片候補を一つ特定し、対象テキストの音素コンテキストに対応する一連の音声素片を決定する。この特定された音声素片候補が、選択音声素片である。

＜素片接続部１５７＞
最後に、素片接続部１５７が、類似話者音声データベース１３０から選択音声素片に対応する部分音声データを読み込み、この部分音声データを一連の音声素片の並びに従って接続することで合成音声を生成する（ｓ１５７）。

選択音声素片に対応する部分音声データを時間的な順に単に接続してもよいが、異なる部分音声波形データ間を時間的又は周波数的に補間して波形接続してもよい（参考文献１１参照）。
（参考文献１１）特開平７−０７２８９７号公報

＜効果＞
このような構成とすることで、目標話者により類似している話者の音声データが音声合成の際に使用されやすくなり、合成音声の目標話者に対する類似性を向上させることができる。

また、類似話者の選択は、非特許文献１の平均声モデルからの変換規則の学習に比べ、数秒〜数十秒程度の少量の音声データで十分な性能が得られるため、音声合成を行うために必要な目標話者の音声データ量を削減することができる。また、目標話者の多量の音声データが必要でなくなるため、音声収録の拘束時間を極めて短時間とすることができる。

さらに、複数名の音声データを統合することで、統合後の音声データベース中に存在する同一コンテキストの素片が増加させ、合成音声の自然性が向上させることができる。

＜変形例１＞
第一実施形態と異なる部分についてのみ説明する。
図１０の素片選択部１５６’において、各音声素片候補の類似話者識別子に対応する話者類似度Ｌ_ｓを少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を、以下のようにして総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する（図１１のｓ１５６’）。

なお、重みｗ_ｓは、話者類似度が最も高い話者の場合に１となり、それ以外の類似話者の場合には、話者類似度に応じて１より大きくなれば、別の計算式で求めても構わない。また、この重みは総合コスト全体に使用しても、個別のサブコスト関数の重みとして使用しても構わない（例えば、Ｆ０平均値のサブコスト関数Ｃ_１のみに使用する等）。

また、この場合、話者類似度Ｌ_ｓをサブコストとして利用してもよいし、利用しなくてもよい。
このような構成とすることで第一実施形態と同様の効果を得ることができ、さらに、柔軟性のある素片選択が可能となる。

＜その他の変形例＞
音声合成装置１００は、必ずしも多数話者音声データベース構築部１０１を備えなくともよい。その場合、他の装置等で構成した多数話者音声データベース１０３を、記録媒体から、あるいは通信回線を介してダウンロードして取得し記憶すればよい。さらに、音声合成装置１００は、多数話者音声データベース１０３及び類似話者音声データベース構築部１１０を備えなくともよい。その場合、他の装置等で構成した類似話者音声データベース１３０及び類似話者の話者類似度を、記録媒体から、あるいは通信回線を介してダウンロードして取得し記憶すればよい。音声合成部１５０は、このように得られた類似話者音声データベース１３０と話者類似度を用いても第一実施形態と同様の音声合成を行うことができる。

また、音声データは、音声波形データではなく、音声波形データに対して信号処理を行った結果、得られる音声特徴量（音高パラメータ（基本周波数等）、スペクトルパラメータ（ケプストラム、メルケプストラム等））でもよい。この場合、類似話者選択部１１１内で音声波形データからスペクトルパラメータ（ケプストラム、メルケプストラム等）を取得する処理を省略することができる。また、素片接続部１５７では、接続した部分音声データ（音声特徴量）を用いて、音声波形データを生成し、出力する。

音声素片は、アクセント情報（アクセント型、アクセント句長）や品詞情報等を含んでもよい。また、多数話者音声データベース１０３には、話者の情報（性別、年齢、出身地）、収録環境（マイクロホンの種類、収録ブースの情報）等を含んでもよい。目標話者の音声データにもこのような情報を付加することで、より精度の高い合成音声を生成することができる。

類似話者選択部１１１における話者類似度の求め方は、他の方法によってもよい。例えば、スペクトルパラメータを用いずに、音声波形データから直接類似度を求めてもよい。

類似話者音声データベースには、必ずしも音声波形データを記憶しなくともよい。音声素片のみからなるデータベースであってもよい。この場合、音声波形データは、類似話者音声データベース内の音声素片をキーとして、多数話者音声データベース１０３から取得する構成とする。

本実施形態では、サブコストとして、Ｆ０パターンの平均値、Ｆ０パターンの傾き、音素継続時間長、話者類似度を用いているが、少なくとも話者類似度を用いていればよい。最も目標話者に近いと判定された話者の音声素片が選択されやすくなり、合成音声の目標話者に対する類似性が向上する。さらに他の情報からサブコストを求めてもよい。例えば、素片選択部１５６において、音素コンテキストを入力として（図１０中破線で示す）、読みに対応するサブコストを計算してもよい。なお、読みに対応するサブコスト関数は、
Ｃ（ｊ）＝１／ｅ^ｊ（２３）
である。但し、対象テキストの音素コンテキストと、合成単位の音声素片候補の音素コンテキストが一致する音素数をｊとする。

＜第二実施形態＞
図３を用いて第二実施形態に係る音声合成装置２００を説明する。第一実施形態と異なる部分についてのみ説明する。音声合成装置２００は、多数話者音声データベース構築部１０１と多数話者音声データベース１０３と類似話者音声データベース構築部２１０と類似話者音声データベース１３０と話者類似度記憶部１４０とを備える。類似話者音声データベース構築部２１０の構成が第一実施形態と異なる。

［ポイント］
第一実施形態では、話者統合部１１５において、抽出したＳ名の話者を統合する際に、話者間の音声特徴量の差が大きいと、合成音声の品質の劣化を引き起こす恐れがある。そのため、第二実施形態では、話者統合部２１５で目標話者の音声特徴量を用いて、抽出した話者の音声特徴量を目標話者の特徴量へ正規化することで、話者間の音声特徴量の差を軽減し、合成音声の品質劣化を防ぐ。

＜類似話者音声データベース構築部２１０＞
図１２及び図１３を用いて、類似話者音声データベース構築部２１０を説明する。
類似話者音声データベース構築部２１０は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する（ｓ２１０）。図１２に示すように類似話者音声データベース構築部２１０は、類似話者選択部１１１と、さらに、音声素片付与部２１２と、話者変換規則学習部２１３と話者単位変換部２１４と話者統合部２１５を有する。

＜音声素片付与部２１２＞
音声素片付与部２１２は、入力された目標話者の音声データに対して、音声素片を付与する（ｓ２１２）。音声素片として付与される情報は、多数話者音声データベース構築部１０１で付与される音声素片と同様である。但し、音素番号や各音素の開始時間、終了時間は、目標話者の音声データに対するものとする。この音声素片は、人手により付与するか、音声データと発話テキストから自動で付与してもよい。

＜話者変換規則学習部２１３＞
話者変換規則学習部２１３は、目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴量を持つ音声データに変換する話者変換規則を学習する（ｓ２１３）。例えば、参考文献１２記載の方法により話者変換規則を学習する。
（参考文献１２） M. J. F Gales and P. C. Woodland, “Mean and variance adaptation within the MLLR framework,” Computer Speech and Language, 1996, vol.10, pp.249-264

まず、類似話者選択部１１１で選択されたＳ名分の類似話者の音声データから得られる音声特徴量と、その音声データに対応する音声素片から統計モデル（例えば、Hidden Markov Model（ＨＭＭ）やＧＭＭ等）を学習する（図１４中のｓ２１３ｂ）。なお、多数話者音声データベース１０３の音声データを用いて、事前に全ての話者（Ｎ名分）の統計モデルを求めておき、多数話者音声データベース内に記憶しておいてもよい。

次に、目標話者の全スペクトルパラメータ及び音声素片と、類似話者ｓの統計モデルとを用いて、類似話者ｓのスペクトルパラメータを目標話者のスペクトルパラメータへ変換するＣＭＬＬＲ変換行列Ｗ（話者変換規則φ_ｓ）を学習する（ｓ２１３ｃ）。話者単位変換部２１４に話者変換規則φ_ｓを出力する。変換行列Ｗは以下の方程式を解くことで求める。

ここで、（・）’は・の転置行列を表す。ｘ_ｔは時刻ｔの目標話者のスペクトルパラメータ、μ_ｇ，Ｕ_ｇ ^−１はそれぞれＨＭＭの状態ｇの平均と共分散行列の逆行列である。また、γ_ｇ（ｔ）は状態ｇにおいてｘ_ｔが出力される確率であり、ｘ_ｔとμ_ｇ，Ｕ_ｇ ^−１とから得られる。この変換行列Ｗは、ＨＭＭの状態毎に求めることが可能であるが、本実施形態では全ての状態を共有することにより、一つの変換行列を求める。なお、各類似話者ｓに対して、話者変換規則φ_ｓを学習する。

＜話者単位変換部２１４＞
話者単位変換部２１４は各類似話者の音声データを話者変換規則φ_ｓに従って変換する（ｓ２１４）。例えば、類似話者ｓの音声データベース中の時刻ｔにおけるスペクトルパラメータｘ_ｓ，ｔを、変換行列Ｗ（話者変換規則φ_ｓ）を用いて変換することで、目標話者の特徴へ変換した類似話者ｓのスペクトルパラメータｘ￣_ｓ，ｔを得る。

この処理を各類似話者の全時刻の音声データに対して行う。
以下、Ｆ０パラメータの変換の一例として、以下の処理で行う線形変換手法について説明する。目標話者の音声データから得られる全ての対数Ｆ０値から平均μ_ｈと分散ν_ｈを求める。また類似話者ｓの音声データから得られる全ての対数Ｆ０値から平均μ_ｓと分散ν_ｓを求める。そして、類似話者ｓの変換後の対数Ｆ０値を以下の式により求める。

ここで、ｚ_ｔは変換前の類似話者ｓの第ｔ番目の対数Ｆ０値であり、ｙ_ｔは変換後の類似話者ｓの第ｔ番目の対数Ｆ０値である。Ｔは類似話者ｓの対数Ｆ０の全フレーム数であり、ｔ＝１，２，…，Ｔである。

全ての類似話者の音声データに対して、同様の処理（ｓ２１３ｂ〜ｓ２１４）を行い（ｓ２１３ａ，ｓ２１３ｄ，ｓ２１３ｅ）、話者単位の変換処理を行った音声データを話者統合部２１５に出力する。

＜話者統合部２１５＞
話者統合部２１５は、類似話者ｓの音声データそのものではなく、話者変換規則φ_ｓを使って変換された音声データを統合して、類似話者音声データベースを構築する（ｓ２１５）。構築方法は、第一実施形態と同様である。

＜効果＞
このような構成とすることで、第一実施形態に比べ、話者間の音声特徴量の差を軽減し、合成音声の品質劣化を防ぐ。

＜変形例＞
話者変換規則学習部２１３において、目標話者の音声データと複数選択した類似話者の音声データのみを用いて、各類似話者の音声データを目標話者の音声データに変換する話者変換規則を学習してもよい。その場合、音声素片付与部２１２は設けなくともよい。

＜第三実施形態＞
図３を用いて第三実施形態に係る音声合成装置３００を説明する。第二実施形態と異なる部分についてのみ説明する。音声合成装置３００は、多数話者音声データベース構築部１０１と多数話者音声データベース１０３と類似話者音声データベース構築部３１０と類似話者音声データベース１３０と話者類似度記憶部１４０とを備える。類似話者音声データベース構築部３１０の構成が第一実施形態と異なる。

［ポイント］
第一実施形態及び第二実施形態では、目標話者に類似した複数名の話者から類似話者音声データベース１３０を生成したが、本実施形態では、話者統合部２１５で得られる音声データを基として、さらに音声合成単位毎にモデル適応技術を用いて、音声データを変換することで、目標話者により近いモデルを生成することが可能である。

＜類似話者音声データベース構築部３１０＞
図１５及び図１６を用いて、類似話者音声データベース構築部３１０を説明する。
類似話者音声データベース構築部３１０は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する（ｓ３１０）。図１５に示すように類似話者音声データベース構築部３１０は、類似話者選択部１１１と、音声素片付与部２１２と、話者変換規則学習部２１３と話者単位変換部２１４と話者統合部２１５と、さらに、合成単位変換規則学習部３１７と、合成単位変換部３１８を有する。

＜合成単位変換規則学習部３１７＞
合成単位変換規則学習部３１７は、目標話者の音声データと第一類似話者音声データベース１３０の部分音声データを用いて、同一の状態毎に各類似話者の部分音声データを目標話者の音声特徴を持つ部分音声データに変換する合成単位変換規則を学習する（ｓ３１７）。例えば、非特許文献１記載の方法により合成単位変換規則を学習する。なお、第一類似話者音声データベース１３０内の音声データは、第一実施形態及び第二実施形態の類似話者音声データベース１３０内の音声データと同様の方法により構成される。

まず、合成単位変換規則学習部３１７は、第一類似話者音声データベース１３０を用いて、同一の状態を持つ部分音声データ毎に、そのスペクトルパラメータと音声素片を用いて、統計モデル（ＨＭＭ）を学習する。この統計モデルは、類似話者の平均的な統計モデルとなる。

次に、合成単位変換規則学習部３１７は、目標話者の部分音声データから得られるスペクトルパラメータ及びその部分音声データに対する音声素片と、第一類似話者音声データベース１３０を用いて学習した統計モデルとから、全類似話者の平均的な音声データから得られるスペクトルパラメータ及び音声素片を、目標話者のスペクトルパラメータ及び音声素片に変換する変換行列を学習する。なお、同一の状態毎に変換行列を学習する。学習方法は実施例２と同様である。このＭＬＬＲ変換行列を合成単位変換規則として取得する。

なお、合成単位変換規則は、同一の状態毎に学習を行うが、目標話者の音声データが少量の場合、全ての状態に対応する音声データの合成単位変換規則を学習することはできない。本実施形態では、リーフノードが各音声となる二分木を作成し、目標話者のデータ量が一定値以上となる最下位ノードにおいて合成単位変換規則を学習する。これにより、目標話者の音声データが少量の場合でも、全ての状態に対して、合成単位変換規則を学習することができる。

＜合成単位変換部３１８＞
合成単位変換部３１８は、各類似話者の音声データを合成単位毎の合成単位変換規則に従って変換する（ｓ３１８）。学習した合成単位変換規則を、第一類似話者音声データベース１３０へ適用し、第二類似話者音声データベース３３０を得る。なお、合成単位変換規則の適用手法は非特許文献１記載の手法を用いることができる。
このような構成とすることで、第二実施形態よりもさらに、目標話者により近い合成音声を生成することができる。

＜プログラム及び記憶媒体＞
上述した音声合成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置（各種実施例で図に示した機能構成をもつ装置）として機能させるためのプログラム、またはその処理手順（各実施例で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

＜その他＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

１００，２００，３００音声合成装置
１０１多数話者音声データベース構築部
１０３多数話者音声データベース
１１０，２１０，３１０類似話者音声データベース構築部
１１１類似話者選択部
１１１ａ混合正規分布学習部
１１１ｂ多数話者混合正規分布記憶部
１１１ｃ話者類似度計算部
１１１ｄ類似話者抽出部
１１５，２１５話者統合部
１３０類似話者音声データベース
１３０第一類似話者音声データベース
１４０話者類似度記憶部
１５０音声合成部
１５１テキスト解析部
１５２韻律生成部
１５３韻律モデル記憶部
１５４音素コンテキスト変換部
１５５音声素片候補探索部
１５６素片選択部
１５６素片選択部
１５７素片接続部
２１２音声素片付与部
２１３話者変換規則学習部
２１４話者単位変換部
３１７合成単位変換規則学習部
３１８合成単位変換部
３３０第二類似話者音声データベース

Claims

対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成方法であって、
２つの音声データが類似しているか否かを示す指標を話者類似度とし、複数の話者の音声データを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択する類似話者選択ステップと、
複数選択した音声データを統合して、合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースを構築する話者統合ステップと、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析ステップと、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索ステップと、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択ステップと、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続ステップと、を有する、
音声合成方法。
対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成方法であって、
２つの音声データが類似しているか否かを示す指標を話者類似度とし、目標話者の音声データとの話者類似度が高い複数の音声データを合成音声を組み立てる上で適切な合成単位に分割した部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースが予め記憶され、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析ステップと、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索ステップと、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択ステップと、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続ステップと、を有する、
音声合成方法。
請求項１または請求項２記載の音声合成方法であって、
各類似話者ｓの音声データの話者類似度をＬ_ｓとし、最も話者類似度が高い話者の話者類似度をＬ_１とし、
前記素片選択ステップにおいて、
Ｋ個のサブコストＣ_ｋの和を総合コストＱとし、少なくともサブコストの一つとして、
Ｃ（Ｌ_１，Ｌ_ｓ）＝（Ｌ_１−Ｌ_ｓ）^２
を用いる、
音声合成方法。
請求項１または請求項２記載の音声合成方法であって、
各類似話者ｓの音声データの話者類似度をＬ_ｓとし、最も話者類似度が高い話者の話者類似度をＬ_１とし、
前記素片選択ステップにおいて、
Ｋ個のサブコストＣ_ｋの和を総合コストＱとし、各サブコストに対する重みをｗ_ｋとし、総合コストを

として求める、
音声合成方法。
請求項１記載の音声合成方法であって、
目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する話者変換規則を学習する話者変換規則学習ステップと、
各類似話者の音声データを前記話者変換規則に従って変換する話者単位変換ステップと、をさらに備え、
前記話者統合ステップは、複数選択した類似話者の音声データをそれぞれ変換した音声データを統合して、前記部分音声データと、その部分音声データの前記音声素片とからなる類似話者音声データベースを構築する、
音声合成方法。
請求項１記載の音声合成方法であって、
目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する話者変換規則を学習する話者変換規則学習ステップと、
各類似話者の音声データを前記話者変換規則に従って変換する話者単位変換ステップと、をさらに備え、
前記話者統合ステップは、複数選択した類似話者の音声データをそれぞれ変換した音声データを統合して、前記部分音声データと、その部分音声データの前記音声素片とからなる類似話者音声データベースを構築し、
目標話者の音声データと前記類似話者音声データベースの部分音声データを用いて、同一の状態毎に各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する合成単位変換規則を学習する合成単位変換規則学習ステップと、
各類似話者の部分音声データを合成単位毎の合成単位変換規則に従って変換する合成単位変換ステップと、をさらに備える、
音声合成方法。
対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成装置であって、
２つの音声データが類似しているか否かを示す指標を話者類似度とし、複数の話者の音声データを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択する類似話者選択部と、
複数選択した音声データを統合して、合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースを構築する話者統合部と、
前記類似話者識別子と、その類似話者識別子の対応する前記話者類似度とを記憶する話者類似度記憶部と、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索部と、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続部と、を有する、
音声合成装置。
対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成装置であって、
合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースと、
２つの音声データが類似しているか否かを示す指標を話者類似度とし、前記類似話者識別子と、その類似話者識別子の対応する前記話者類似度とを記憶する話者類似度記憶部と、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索部と、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続部と、を有する、
音声合成装置。
請求項１から請求項６の何れかに記載の音声合成方法を、コンピュータに実行させるための音声合成プログラム。