JP2017167526A

JP2017167526A - 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現

Info

Publication number: JP2017167526A
Application number: JP2017029713A
Authority: JP
Inventors: 佳代子柳澤; Kayoko Yanagisawa; マイアラニーリー; Maia Ranniery; スチリアノヤニス; Stylianou Yannis
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-03-14
Filing date: 2017-02-21
Publication date: 2017-09-21
Anticipated expiration: 2037-02-21
Also published as: US20170263239A1; GB2548356A; JP6330069B2; US10446133B2; GB201604334D0; GB2548356B

Abstract

【課題】統計的パラメトリック音声合成において、より人間の声らしく聞こえる効率的な音声処理のシステムおよび方法を提供する。
【解決手段】音声合成装置は、１つまたは複数の言語単位を、音声合成するための一連の音声ベクトルに変換し、一連の音声ベクトルを出力することとを行うように構成されたプロセッサを備える。変換は、１つまたは複数の統計モデルの第１のセットをより高いスペクトル周波数に、１つまたは複数の統計モデルの第２のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える。
【選択図】図３ｂ

Description

本明細書で説明する実施形態は、広義には、音声処理（speech processing）のシステムおよび方法、ならびにテキスト読み上げシステム（text-to-speech system）のためのモデルをトレーニングするシステムおよび方法に関する。

テキスト読み上げシステムは、テキストファイルの受け取りに応答してオーディオ音声またはオーディオ音声ファイルが出力されるシステムである。

テキスト読み上げシステムは、電子ゲーム、電子ブックリーダー、電子メールリーダー、衛星ナビゲーション、自動電話システム、自動警告システムなど、幅広いアプリケーションで用いられている。

隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）ベースの合成など、統計的パラメトリック音声合成（statistical parametric speech synthesis）では、問題の１つは、合成された出力におけるこもった感覚（muffled sensation）につながる、パラメータのオーバースムージングである。

より人間の声らしく聞こえる効率的なシステムを作り出すことが、絶えず必要とされている。

非限定的な実施形態によるシステムおよび方法について、これから添付の図面を参照して説明することにする。

テキスト読み上げシステムを示す図。テキスト読み上げ方法を示す図。単一のスペクトルストリームを有するシステムに関するストリームのクラスタリング（マッピング）を示す図。２つのスペクトルストリームを有するシステムに関するストリームのクラスタリング（マッピング）を示す図。２２．０５ｋＨｚのサンプリング周波数と３９のメルスケールラインスペクトルペア（ＭＬＳＰ）を有するモデルのトレーニングデータに関するＭＬＳＰ係数の分布を示す図。重複する低周波（ｓｐｌ）および高周波（ｓｐｈ）スペクトルストリームを示す図。トレーニングデータサンプルのセットに基づいて境界係数を決定する方法を示す図。一実施形態によるテキスト読み上げシステムをトレーニングする方法を示す図。一実施形態による音声を合成する方法を示す図。テストセット内の発話に対する自然の非合成ＬＳＰ軌道を示す図。単一のスペクトルストリームを備えるＨＭＭで合成された発話のＬＳＰ軌道を示す図。一実施形態によるマルチスペクトルストリームＨＭＭで合成された発話のＬＳＰ軌跡を示す図。

一実施形態によれば、一連の言語単位を一連の音声ベクトルに変換するために音声合成装置をトレーニングする方法が提供される。本方法は、コントローラを備えるトレーニングシステムにおいて、音声データおよび関連する言語単位を受け取り、その音声データおよび関連する言語単位にモデルのセットを適合（fitting）させることを備える。前記適合させることは、高周波スペクトルストリームを形成するために、１つまたは複数の統計モデルの第１のセットを音声データのより高いスペクトル周波数に適合させ、別の低周波スペクトルストリームを形成するために、１つまたは複数の統計モデルの第２のセットを音声データのより低いスペクトル周波数に適合させることを備える。本方法は、モデルのセットを出力することをさらに備える。

より高周波のスペクトルストリームとより低周波のスペクトルストリームを別個にモデリングすることにより、より自然な響きの音声合成装置が作り出される。これは、より低周波のスペクトルストリームが、より大きな度合いの言語情報を伝達するのに対して、より高周波のスペクトルストリームが、話者のより多くの個々の特性を伝達するからである。これは、これらのストリームが、一緒にモデリングされるのに比べて、より効果的に別個にモデリングされ得ることを意味する。

「高」および「低」は相対的な用語であり、周波数の実際の値を示すものではない。３つ以上のストリームがスペクトルに使用されてもよい。たとえば、３つ以上のスペクトルストリームが利用されてもよい。モデルは、メモリに記憶することによって、またはネットワークを介して別のデバイスに転送することによって出力され得る。モデルのセットは、音声データ内の各言語単位の音声、ならびに音声データ中に存在しない、気づかれないコンテキスト（unseen contexts）をモデリングする。

一実施形態では、１つまたは複数の統計モデルの第１のセットは、１つまたは複数の統計モデルの第２のセットと比べて、より緊密に音声データに適合される。これは、より自然な音声サンプルを生成することを試行するために、より少ない言語情報を伝達するが、個々の話者のより多くの特徴を伝達する、より高いスペクトル周波数が、音声データに対してより緊密にモデリングされることを意味する。

一実施形態では、高周波スペクトルストリームは、１つまたは複数のデシジョンツリーの第１のセットを使用してモデリングされ、低周波スペクトルストリームは、１つまたは複数のデシジョンツリーの第２のセットを使用してモデリングされ、１つまたは複数のデシジョンツリーの第１のセットは１つまたは複数のデシジョンツリーの第２のセットよりも大きいか、または低周波スペクトルストリームはディープニューラルネットワークを使用してモデリングされる。低周波スペクトルストリームよりも大きなデシジョンツリーを使用して高周波スペクトルストリームをモデリングすることは、音声データにより緊密に適合するモデルを提供することになる。同様に、ディープニューラルネットワークは、言語的コンテキストをモデリングする上でより効果的である一方で、より自然な響きの音声を提供するために大きなデシジョンツリーを高周波スペクトルストリームで用いることを依然として可能にすることから、低周波スペクトルストリームをモデリングするためにディープニューラルネットワークを利用することは、改善されたモデリングをもたらす。

デシジョンツリーがより大きいことは、より多くのリーフノードが存在することを意味する。一実施形態では、ストリームごとのステートごとに１つのデシジョンツリーが生成され、各言語単位はいくつかのステートを備える。一実施形態では、２つ以上のストリームがスペクトルに対して使用され、デシジョンツリーが各ストリームに対して利用される。より高周波のデシジョンツリーはそれぞれ、より低周波のストリームの等価デシジョンツリーよりも大きい。各言語単位はいくつかのステートを備え、１つのデシジョンツリーがストリームごとのステートごとに生成され、異なるストリームにおける等価デシジョンツリーは同じステートを表す。

一実施形態では、１つまたは複数の統計モデルの第１のセットを適合させることは、１つまたは複数のツリーの各ノードをデシジョンツリーの第２のセットよりも深いレベルに分割することによって、１つまたは複数のデシジョンツリーの第１のセットを形成することを備える。一実施形態では、デシジョンツリーの第１セットは、各ノードが、少なくともいくつかのノードにおいて、受け取られた言語単位のうちの１つの関連する言語単位のみを備えるまで分割される。これは、最小リーフノード占有率を１、最小記述長をゼロとしてトレーニングすることによって達成され得る。これは、気づかれないコンテキストをモデリングすることを依然として可能にする一方で、元のトレーニングサンプルに可能な限り近い音声を生成するのに役立つ。

一実施形態では、各言語単位はいくつかのステートを備え、１つまたは複数の統計モデルの第１および第２のセットは、各ステートについて、ラインスペクトルペアの第１および第２のセットをそれぞれ生成するように構成され、ここにおいて、ラインスペクトルペアの第１および第２のセットは、そのステートに関して複合スペクトル（combined spectrum）を形成するために連結され得る。ラインスペクトルペアを利用することにより、別個のスペクトルストリームを効果的に連結させて複合スペクトルを生成することが可能となる。

一実施形態では、本方法は、高周波スペクトルストリームと低周波スペクトルストリームとの間の境界を設定する境界ラインスペクトルペアインデックスを定義することを備え、ここにおいて、同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用されるか、または各言語単位の各ステートがそれら自体の固有の境界を割り当てられるか、または各ステートがいくつかのフレームを備え、各ステート内の各フレームがそれら自体の固有の境界を割り当てられる。すべてのステートに同じ境界を適用することは、計算的により簡潔となるのに対し、各ステートまたはフレームに基づいて境界を変化させることは、より自然な響きの合成音声をもたらす。

一実施形態では、同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用され、境界ラインスペクトルペアインデックスを定義することは、受け取られた音声データの各ステートについてラインスペクトルペアの周波数を決定することと、所定のしきい値周波数に対して、すべてのステートにわたるラインスペクトルペアの各々の中間周波数（median frequency）に基づいて、境界ラインスペクトルペアインデックスを定義することとを備える。境界ラインスペクトルペアインデックスは、しきい値周波数に最も近い中間周波数または周波数のしきい値範囲内に入る中間周波数を有するラインスペクトルペアインデックスに基づき得る。

一実施形態では、低周波スペクトルストリームは、１つまたは複数のデシジョンツリーの第２のセットを使用してモデリングされ、１つまたは複数のデシジョンツリーの第１のセットは、１つまたは複数のデシジョンツリーの第２のセットよりも大きく、各言語単位の各ステートはそれら自体の固有の境界を割り当てられる。高周波および低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたりすべてのステートについて重複するように定義され、ここにおいて、重複範囲は、各ラインスペクトルペアインデックスが所定の周波数範囲内に入る周波数を有する受け取られた音声データからの少なくとも１つのステートを有するラインスペクトルペアインデックスとして定義される。高スペクトルストリームと低スペクトルストリームとを重複させることによって、境界は、ストリームを再トレーニングする必要なしに、ステートに応じて変更され得る。

一実施形態では、各ステートについて境界ラインスペクトルペアインデックスを定義することは、低周波スペクトルストリームの各デシジョンツリーにおける各リーフノードについて、リーフノードにおいて受け取られた音声データのすべてのステートにわたり各ラインスペクトルペアインデックスの中間周波数を決定することと、所定のしきい値周波数に対する各ラインスペクトルペアインデックスの中間周波数に基づいて、リーフノードにおけるステートの境界ラインスペクトルペアインデックスを決定することとを備える。所与のリーフノードの境界ラインスペクトルペアインデックスは、しきい値周波数に最も近い中間周波数または周波数のしきい値範囲内に入る中間周波数を有するラインスペクトルペアインデックスに基づき得る。

一実施形態によれば、音声合成装置において、１つまたは複数の言語単位を受け取ることと、音声を合成するための一連の音声ベクトルに前記１つまたは複数の言語単位を変換することとを備える音声合成方法が提供される。前記変換は、１つまたは複数の統計モデルの第１のセットを音声データのより高いスペクトル周波数に、１つまたは複数の統計モデルの第２のセットを音声データのより低いスペクトル周波数に適用することによって、より高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える。本方法は、一連の音声ベクトルを出力することをさらに備える。

本方法は、テキストを受け取り、合成されるべき言語単位にテキストを変換することを備え得る。出力することは、音声波形を生成するためのボコーダを介してもよく、あるいは音声ベクトルは記憶されても、別のデバイスに転送されてもよい。

一実施形態では、１つまたは複数の統計モデルの第１のセットは、１つまたは複数の統計モデルの第２のセットと比べて、より緊密に元のトレーニング音声データセットに適合される。

一実施形態では、高周波スペクトルストリームは、１つまたは複数のデシジョンツリーの第１のセットを使用してモデリングされ、低周波スペクトルストリームは、１つまたは複数のデシジョンツリーの第２のセットを使用してモデリングされ、１つまたは複数のデシジョンツリーの第１のセットは１つまたは複数のデシジョンツリーの第２のセットよりも大きいか、あるいは低周波スペクトルストリームはディープニューラルネットワークを使用してモデリングされる。

一実施形態では、前記１つまたは複数の言語単位を一連の音声ベクトルに変換することは、１つまたは複数の言語単位の各々について、言語単位に関していくつかのステートを割り当てることを備える。言語単位の各ステートについて、１つまたは複数のラインスペクトルペアが、高周波および低周波スペクトルストリームの各々に対して生成され、高周波および低周波スペクトルストリームのラインスペクトルペアは、複合スペクトルを形成するように境界において連結される。音声ベクトルは、ステートについて複合スペクトルを使用して生成される。

一実施形態では、同じ境界が各言語単位に適用されるか、または各言語単位の各ステートがそれ自体の固有の境界を割り当てられるか、または各ステートがいくつかのフレームを備え、各ステート内の各フレームがそれ自体の固有の境界を割り当てられる。

一実施形態では、高周波スペクトルストリームと低周波スペクトルストリームは、部分的な重複を伴ってトレーニングされる。高周波スペクトルストリームと低周波スペクトルストリームはしたがって重複を伴って生成され、次いで、生成されている各ステートに割り当てられた固有の境界に基づいて連結されてもよい。

一実施形態では、高周波スペクトルストリームと低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたって、すべてのステートについて重複し、また、各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、そのステートの境界を設定するために各ステートについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各ステートについて境界ラインスペクトルペアインデックスを定義することは、そのステートの低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定することと、所定のしきい値周波数に対してステートのラインスペクトルペアの周波数のアセスメントに基づいて境界ラインスペクトルペアインデックスを決定することとを備えるか、または、各言語単位の各ステートはいくつかのフレームを備え、ここにおいて、各フレーム単位はそれ自体の固有の境界を割り当てられ、そのフレームの境界を設定するために各フレームについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各フレームについて境界ラインスペクトルペアインデックスを定義することは、そのフレームの低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定することと、所定のしきい値周波数に対してフレームのラインスペクトルペアの周波数のアセスメントに基づいて境界ラインスペクトルペアインデックスを決定することとを備える。

これにより、高スペクトルストリームと低スペクトルストリームとの間の境界を、合成中にリアルタイムで、合成されている各ステートまたは各フレームについて定義することが可能となる。各フレームの境界は、所定のしきい値周波数を下回る周波数を有する最高のラインスペクトルペア、または所定のしきい値周波数を上回る周波数を有する最低のラインスペクトルペアに基づいて割り当てられ得る。

一実施形態では、コンピュータに上記の方法のうちのいずれかを実施させるように構成されたコンピュータ可読コードを備えるキャリア媒体が提供される。

一実施形態によれば、１つまたは複数の言語単位を受け取ることと、音声を合成するための一連の音声ベクトルへと前記１つまたは複数の言語単位を変換することと、一連の音声ベクトルを出力することとを行うように構成されたプロセッサを備える音声合成装置が提供される。前記変換は、１つまたは複数の統計モデルの第１のセットを音声データのより高いスペクトル周波数に、１つまたは複数の統計モデルの第２のセットを音声データのより低いスペクトル周波数に適用することによって、より高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える。

一実施形態によれば、音声合成装置が一連の言語単位を一連の音声ベクトルに変換するためのトレーニングシステムであって、音声データおよび関連する言語単位を受け取ることと、モデルのセットを音声データおよび関連する言語単位に適合させることと、モデルのセットを出力することとを行うように構成されたコントローラを備えるトレーニングシステムが提供される。前記適合させることは、高周波スペクトルストリームを形成するために、１つまたは複数の統計モデルの第１のセットを音声データのより高いスペクトル周波数に適合させ、別個の低周波スペクトルストリームを形成するために、１つまたは複数の統計モデルの第２のセットを音声データのより低いスペクトル周波数に適合させることを備える。

テキスト読み上げ（Text to Speech）
本明細書で説明する諸実施形態は、音声の高周波スペクトルを、低周波スペクトルとは別個にモデリングする。多くの言語情報を伝達しない高周波帯域は、自然な音声サンプルに可能な限り近いパラメータを生成するように、大きなデシジョンツリーを使用してクラスタリングされる。高周波スペクトルと低周波スペクトルとの間の境界周波数は、各ステートの合成の際に調整され得る。主観的なリスニング試験は、提案する手法が、単一のスペクトルストリームを使用する従来の手法よりも著しく好ましいことを示している。提案する手法を使用して合成されたサンプルは、こもりが少なく、より自然に響く。

統計的パラメトリック音声合成は、不連続アーチファクトおよび疎データに対処する能力の点では単位選択システムより優れているが、合成出力におけるこもった感覚につながるオーバースムージングに関する問題があることが知られている。隠れマルコフモデル（ＨＭＭ）ベースの合成の領域におけるこの問題に対処するために、いくつかの手法が提案されている。この問題を解決するには、統計モデリングにおける改善、およびボコーディングにおける改善の２つの主な方向がある。諸実施形態は、より不自然さのない合成音声を提供するために、改善された統計的モデリングを実装する。

図１は、テキスト読み上げシステム１を示している。テキスト読み上げシステム１は、プログラム５を実行するプロセッサ３を備えている。プロセッサ３は、本明細書で説明するテキスト読み上げ方法を実演（enact）するように構成された処理回路を備えている。テキスト読み上げシステム１はストレージ７をさらに備えている。ストレージ７は、テキストを音声に変換するためにプログラム５によって使用されるデータを記憶するメモリである。ストレージ７はまた、プロセッサ３によって実行されると、プロセッサ３に、本明細書に記載された方法を実演するように命令するコンピュータ実行可能コードを記憶する。

テキスト読み上げシステム１は、入力インターフェース１１と出力インターフェース１３とをさらに備えている。入力インターフェース１１は、テキスト入力部１５に接続されている。テキスト入力部１５は、テキストを受け取る。テキスト入力部１５は、たとえば、キーボードであってもよい。代替的に、テキスト入力部１５は、外部記憶媒体またはネットワークからテキストデータを受け取るための手段であってもよい。

出力インターフェース１３に、オーディオ用の出力部１７が接続されている。オーディオ出力部１７は、テキスト入力部１５に入力されたテキストから変換された音声信号を出力するために使用される。オーディオ出力部１７は、たとえば、直接的なオーディオ出力部、たとえばスピーカであってもよく、たとえば、記憶媒体に送られ得る、ネットワークで送られ得るオーディオデータファイル用の出力部であってもよい。代替的に、テキスト読み上げシステム１は、出力インターフェース１３を介して、たとえばボコーダによって音声信号を生成するために使用され得る音声パラメータのセットを出力してもよい。

使用時には、テキスト読み上げシステム１は、テキスト入力部１５を通じてテキストを受け取る。プロセッサ３上で実行されるプログラム５は、ストレージ７に記憶されたデータを使用してテキストを音声データに変換する。音声は、出力モジュール１３を介してオーディオ出力部１７に出力される。

テキスト読み上げシステム１は、音声を合成するためのモデルを記憶する。これらのモデルは、トレーニングデータの１つまたは複数のセットを分析することによって、テキスト読み上げシステム１自体によってトレーニングされてもよく、あるいは、外部システムによってトレーニングされ、テキスト読み上げシステム１にロードされてもよい。

ここで、簡略化されたテキスト読み上げプロセスについて、図２を参照して説明する。このプロセスは、図１のテキスト読み上げシステムなどのデバイスによって実演され得る。第１のステップ１０１において、テキストが入力される。テキストは、キーボード、タッチスクリーン、テキストプレディクタなどを介して入力され得る。

テキストは次いで、一連の言語単位に変換される（１０３）。これらの言語単位は、音素（phonemes）または書記素（graphemes）であってもよく、あるいは、サブ音素（sub-phonemes）またはサブ書記素（sub-graphemes）など、音素または書記素の一部分であってもよい。

言語的コンテキストの特徴を含んだテキスト内の言語情報は、各言語単位に関連付けられる。言語的コンテキストの特徴は、テキストから得られる任意の情報であり得る。言語的コンテキストの特徴は、音声情報（phonetic information）（たとえば、最初の音（first phone）または最後の音（last phone））、韻律情報（prosodic information）（たとえば、アクセントグループにおける音節の位置）、または他の任意の形態の情報であり得る。言語的コンテキストの特徴は、意味論的（たとえば、否定的な語の対語としての肯定的）および／または構文的（たとえば、動詞および名詞など）情報をさらに備え得る。

テキストの言語単位への変換および言語的コンテキストの特徴の決定は、当技術分野で知られている。１つの例が、エジンバラ大学（ＵｎｉｖｅｒｓｉｔｙｏｆＥｄｉｎｂｕｒｇｈ）のＦｅｓｔｉｖａｌＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＳｙｓｔｅｍである。

各言語単位は、ある特定の持続時間を有する。すなわち、各言語単位は、いくつかのステートに分割され、各ステートは１つまたは複数のフレームを備える。一実施形態では、各言語単位は５つのステートに分けられる。

ステップ１０５において、各言語単位の各ステートに関する対応音響モデルが、関連する言語的コンテキストの特徴（コンテキスト情報）に基づいて探索される。各音響モデルは、関連する言語単位を音声パラメータのセットに関連付ける確率分布を備える。音声パラメータは、音声ベクトルモデルに従って言語単位によって包含されるフレームにわたる音声信号輪郭の線形パラメータ化に対応する。音声ベクトルモデルのトレーニング中のパラメータ化のプロセスについて、以下で説明する。

一実施形態では、言語単位から音響モデルへのマッピングは、デシジョンツリーを使用して実行され、これについては後述する。各ストリームについて、ステートごとに１つのデシジョンツリーが利用される（すなわち、言語単位ごとに５つのステートが存在する場合、ストリームごとに５つのデシジョンツリーが存在する）。

別の実施形態では、マッピングは、ニューラルネットワークモデルを採用することによって達成される。これは、たとえば、参照によってその全体が本明細書に組み込まれる、Ｂｉｓｈｏｐ、Ｃ．Ｍ．（１９９５）、ＮｅｕｒａｌＮｅｔｗｏｒｋｆｏｒＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、ＣｌａｒｅｎｄｏｎＰｒｅｓｓ、Ｃｈａｐｔｅｒ６に記載されている。

さらなる代替的な方法は、ディープニューラルネットワーク（ＤＮＮ：deep neural networks）を利用する。各フレームについて出力特徴を決定するために、デシジョンツリーおよびＨＭＭを使用するのではなく、ＤＮＮがステップ１０５および１０７で使用される。コンテキストを有する言語単位は、入力ベクトルのセットに変換され、次いでそれらが、トレーニングされたＤＮＮによって出力ベクトルに直接マッピングされる。

さらに別の実施形態では、マッピングは、線形モデルを使用して達成される。

音声−音響マップは、モデルを言語単位に適合させるために、たとえばシステムのトレーニングを通じて予め定められている。このトレーニングは、テキスト読み上げシステム１自体によって、またはトレーニングされたモデルをテキスト読み上げシステム１に提供する外部システムによって実施され得る。

ステップ１０７において、各音響モデルは、経時的に一連の音声パラメータまたは音声ベクトルを生成するために使用される。合成中、各言語単位は、音声ベクトルとの明確な１対１の対応を有していない、あるいは当技術分野の用語を借りて言えば「観測値」を有していないと想定される。多くの言語単位は、同様の方式で発音されるか、周囲の言語単位、単語または文章内の位置によって影響を受けるか、または異なる話者によって別様に発音される。したがって、各言語単位は、音声ベクトルに関連付けられる確率のみを有し、テキスト読み上げシステムは、多くの確率を計算し、一連の言語単位が与えられた場合に一連の観測値を選択する。

本実施形態では、音響モデルは隠れマルコフモデル（ＨＭＭ）である。一実施形態では、音響モデルの確率分布は、平均および分散によって定義されるガウス分布である。しかしながら、ポアソン、スチューデントｔ、ラプラシアンまたはガンマ分布などのような他の分布を使用することも可能であり、そのうちのいくつかは平均および分散以外の変数によって定義される。

各音響モデルは、フィルタを通過する励起信号として音声を別個にモデリングする。励起信号は、基本周波数（ｆ０）および帯域非周期性（ｂａｐ）を別個のストリームとして含み得る。フィルタは一般に、スペクトルストリームを備える。ストリームは、音声を生成するための隠れマルコフモデルのセットを形成する。各ストリームは、それぞれのＨＭＭによって生成された音声パラメータを備える、それ自体の音声ベクトルを有する。

音響モデル（ＨＭＭ）は、たとえば、一連の音声パラメータを決定するために使用される単一のＨＭＭを生成するために、文全体にわたって連結される。したがって、スペクトルｆ０およびバンドの非周期性パラメータは経時的に決定される。各言語単位の持続時間も同様に決定される。持続時間は、音声パラメータを生成するのに先立って、または音声パラメータの生成後に決定され得る。

一連の音声ベクトルが決定されると、合成音声がステップ１０９において出力される。出力音声信号は、音声パラメータであっても、音声ベクトルであってもよい。出力ベクトルは、ボコーダを使用して出力音声波形を生成するために使用され得る。代替的に、音声波形が生成され出力されてもよい。基本周波数および帯域非周期性の特徴は、スペクトルストリームを介して生成されたフィルタを通過する励起信号を生成するために使用される。励起信号は、合成音声を生成するためにフィルタにより畳み込まれる。

ＨＭＭベースの合成は、比較的小さなトレーニングデータセットからコヒーレントな音声を生成することが可能であるが、しかしながら、この音声は一般に、モデリングの統計的性質が原因で、こもった品質（muffled quality）を有する。代替的な方法は、記録された音の短いサンプルを連結する波形ベースの合成（連結合成）である。これは、ＨＭＭベースの合成よりも自然な響きの音声を提供することが可能であるが、しかしながら、モデルをトレーニングするためにはるかに大きなサンプルサイズを必要とする。

多くのハイブリッド手法は、波形ベースの合成とＨＭＭベースの合成とを組み合わせて、波形ベースの手法の自然さの恩恵と、ＨＭＭ手法の平滑さとを組み合わせている。ＨＭＭは、最も良くマッチングする波形セグメントを選択するために後に使用されるパラメータを生成するために使用される。他の方法は、時間領域においてＨＭＭベースの音声セグメントと波形ベースの音声セグメントとを混合させるが、このことは、セグメントがあるタイプから他のタイプに切り替わるときに音声品質のミスマッチにつながり得る。

諸実施形態は、周波数領域で分離された複数のストリームでスペクトルがモデリングされる統計的フレームワーク（隠れマルコフモデル（ＨＭＭ）フレームワークまたはディープニューラルネットワーク（ＤＮＮ）フレームワークなど）に完全に含まれる手法を実装する。

ＨＭＭテキスト読み上げ（ＨＭＭ−ＴＴＳ：HMM text to speech）では、スペクトルは通常、１つのストリームとしてモデリングされる。いくつかのＨＭＭシステムのこもった品質は、類似の言語単位の統計的なぶれ（statistical blurring）によって生み出される。低周波領域におけるスペクトルエンベロープは、言語学的に重要な情報を伝達するのに対し、上の領域はそのような制約がほとんどなく、声道の共鳴を反映すると推定され、それによって個々の話者に顕著に関連する情報を伝達する。高周波領域が言語コンテンツに関する相対的に少量の情報を伝達することを考えれば、スペクトルストリームを高／低周波帯域に分割し、コンテキストを別個にクラスタリングすることによって、より良好な品質の合成音声が実現され得ることを本発明者らは認識している。加えて、高周波スペクトルのデシジョンツリーが無制限に拡大することが許容される場合、これは、高周波帯域において自然な音声サンプルを使用することとほぼ等しくなり、それによってオーバースムージング効果が低減され、より明瞭な音声が生成される。

したがって、上方および下方の周波数スペクトルが独立してモデリングされ、それによって、特定のトレーニングデータをより精確に反映する（コンテキスト依存性がより低くなる）ように、より高いスペクトルを特定のトレーニングデータにより緊密に適合させることが可能となることを、本発明者らは認識している。これにより、より低周波のスペクトルがコンテキスト依存性を維持することが可能になる一方で、より高周波のスペクトル（コンテキスト依存性がより低い）は、他のＨＭＭシステムに存在するこもった品質の少ない、より自然なサウンドを生成する。

高周波帯域のサンプルベースのスペクトルは、低周波帯域の統計的に生成されたスペクトルと組み合わされ得るが、高周波帯域は、自然な響きの音声を生成するために大きなサンプルサイズを必要とする。さらに、これは、統計的に生成されたスペクトルをサンプルベースのスペクトルと連結するときに問題を生じる。

高周波スペクトルと低周波スペクトルの両方の統計モデルを利用することにより、２つのスペクトルストリームを独立してモデリングする一方で、連結を単純化することも可能になる。これはまた、疎なトレーニングデータにより効果的に対処することが可能なシステムを生み出す。高周波帯域のデシジョンツリーは無制限に成長することが許可され得、それによって自然な音声に可能な限り近い豊かなモデルが得られる。

メルスケールラインスペクトルペア（ＭＬＳＰ：Mel-scaled Line Spectral Pair）のパラメータ化が採用され、そのため、合成時に、全帯域スペクトルエンベロープを生成するために、低周波スペクトルパラメータと高周波スペクトルパラメータとが連結され得る。高周波スペクトルと低周波スペクトルとを分ける境界は、デシジョンツリーの各リーフに関連する境界決定に従って合成時にステートごとに調整され得る。

マルチストリームスペクトルモデリング
言語情報および話者情報の要素分解（factorisation）が、音声変換および話者識別において使用され得る。ある程度の話者特性が低周波帯域に存在し、いくらかの言語情報が高周波帯域に存在する（たとえば、歯擦音）ことが原因で、完全な要素分解が可能ではないこともあるが、２つの周波数帯域は、別個により良くモデリングされる異なるコンテキスト上のバリエーションを有すると想定され得る。

６０３〜２２１２Ｈｚに相当する１２〜２２ＥＲＢ（等価矩形帯域幅：Equivalent Rectangular Bandwidth）の周波数帯域は主に母音特性を含み、この範囲を超えるスペクトル包絡線は主に話者の個人的特徴を含む。男性の声に対する基本母音の第２のフォルマントの平均範囲は５９５Ｈｚ〜２４００Ｈｚである。これらの周波数は、女性の声の場合はさらに高くなり、時には、話者および言語に応じて２５００Ｈｚを超えて広がることもある。

周波数領域で選択的モーフィングを用いる、２人の話者間のアクセントモーフィングにおいて、最良の明瞭度は、２人の話者間のスペクトル特性が補間される１ｋＨｚの遷移帯域を伴ってスペクトルが３．５ｋＨｚで分割されるときに達成され得る。この条件では、４ｋＨｚを超えるすべてのスペクトル情報は標的話者に由来する。

現在の実施形態では、Ｆ_b＝４ｋＨｚの周波数境界が採用され、ラインスペクトルペア（ＬＳＰ）係数ω_bに変換される。

デシジョンツリー
デシジョンツリーは、コンテキスト依存モデルのステート結合（state-tying）を制御するために使用され得る。ＨＭＭモデルをトレーニングするとき、各ノードが２元的なコンテキスト関連の質問（たとえば、前の音素は無音か？次の音素は母音か？）を表すデシジョンツリーが形成される。質問の各回答に含まれるステートは、互いにクラスタリングされ、それぞれのブランチを介して引き渡される。モデルは、結果としてクラスタリングされたステートに適合される。各ノードの質問は、分割基準の適合度（結果として得られるクラスタにまたがるステートの確度（likelihood）を最大にする質問、またはモデルの記述長を最も短くする質問など）に基づいて選択される。

クラスタは、停止基準が達成されるまで引き続き分割される。停止基準は、確度の増加（likelihood gain）がしきい値未満に低下すること、またはノードのステートの最小数が達成されることであり得る。最小記述長ＭＤＬ（Minimum Description Length）が停止基準として使用されてもよい。ＭＤＬの原理では、データの与えられたセットに対する最良のモデルは、データの最良の圧縮をもたらすものであると言える。モデルの記述長は、各ノードのステートの数およびモデルの複雑さに依存する。分割が、指定されたしきい値を下回る記述長の短縮を達成すると、ノードは分割されない。

エンドノード（リーフノード）のステートは互いにクラスタリングされ、同じモデルがノード内の各ステートについて音声を生成するために使用される。トレーニングデータから欠落している任意のコンテキストのステートは、ステートが含まれるリーフノードに基づいて（欠落しているコンテキストの発音に関する質問への回答に基づいて）モデリングされる。すなわち、最も類似したリーフノードがステートを合成するために使用される。

デシジョンツリーは、気づかれない言語単位（トレーニングデータに存在しないコンテキスト）のために音声を合成する効果的な方法を提供する。それでもやはり、複数のステートが確率に基づいて単一のモデルによって記述されるので、これはまた、パラメータのオーバースムージングを引き起こし、合成出力のこもった感覚につながる。

ツリーサイズの増大はリーフノードのサンプルを少なくすることにつながり、したがって平均化効果を緩和し、それによってより自然な響きの音声を生成することになる。ツリーサイズは、停止基準を緩和すること（たとえば、ＭＤＬしきい値、確率しきい値または最小リーフノード占有率を低減すること）によって増大され得る。

一実施形態によれば、低周波スペクトルは、トレーニングコーパスにおける希薄さ（sparseness）に対処するために、ロバストなデシジョンツリーを用いてモデリングされる。その一方で、高周波スペクトルは、コンテキスト的ファクタの影響を受けにくく、したがってそのツリーはより大きく成長することが許容され得る。したがって、より低周波のスペクトルのデシジョンツリーをトレーニングするときに、より高周波のスペクトルをトレーニングするときと比べて、より厳しい停止基準が使用される。一実施形態では、より高周波のスペクトルのデシジョンツリーは、各リーフノードがトレーニングデータから単一のステートを備えるように形成される。すなわち、使用される唯一の停止基準は、１に設定される最小リーフノード占有率である。加えて、０の最小記述長が使用されてもよい。

上記の実施形態はデシジョンツリーを実装するが、音声データをトレーニングおよびモデリングする他の方法が利用されてもよい。２つのスペクトルの特性が異なる（より低い周波数はよりコンテキストに依存し、より高い周波数は個々の話者に関連するより多くの特徴を含む）ことにより、より高周波のスペクトルとより低周波のスペクトルとを独立してトレーニングすることが一般に有益である。より高周波のスペクトルはよりコンテキストに依存しないので、より多くのモデルを含むようにトレーニングされてもよく、各モデルは、トレーニングデータのより小さなセットに、より特定的に適合される。これにより、統計モデリングの平均化効果が低減され、より自然な響きの音声が生成される。

一実施形態では、低周波スペクトルはディープニューラルネットワークを使用してモデリングされるのに対し、高周波スペクトルは大きなデシジョンツリー（たとえば、１の最小リーフノード占有率）を有するＨＭＭを使用してモデリングされる。ＤＮＮは一般に、より少ないぶれでより明瞭なスペクトルをもたらすので、ＨＭＭよりも良好に言語的コンテキストをモデリングする。それでもやはり、ＤＮＮの出力は依然として統計的にモデリングされる。高周波スペクトルにおける大きなデシジョンツリーを有するＨＭＭは、より自然な響きの音声を提供することが可能となり得る。スペクトルを高周波ストリームと低周波ストリームとに分割することにより、各スペクトルに対して最も適切なマッピング方法が使用され得る。

さらなる実施形態では、スペクトルは３つ以上のスペクトルに分割されてもよい。各スペクトルは別個にモデリングされてもよい。トレーニングデータに対するモデリングの緊密さ（ステート全体にわたって平均化する量）は、周波数が増加するにつれて、各スペクトルについて徐々に増加する。たとえば、最も低周波のスペクトルは、ディープニューラルネットワークまたは比較的小さなデシジョンツリーを使用してモデリングされ得る。その次に低周波のスペクトルは、わずかに大きなデシジョンツリーを介してモデリングされ得る。この傾向は、トレーニングデータの各ステートを単一のモデルにマッピングするデシジョンツリーを介してモデリングされ得る最高周波のスペクトルまで継続し得る。

図３ａおよび３ｂは、それぞれ単一のスペクトルストリームおよび２つのスペクトルストリームを有するシステムに関するストリームのクラスタリング（マッピング）を示している。

図３ａは、言語単位を互いにクラスタリングする方法を示している。スペクトルストリーム（ｓｐ）、基本周波ストリーム（ｆ０）、および帯域非周期性ストリーム（ｂａｐ）の３つのストリームが利用される。したがって、この場合、スペクトルは、０ｋＨｚからナイキスト周波数まで広がる単一のストリームとしてモデリングされる。

各ストリームは、それ自体のデシジョンツリーを生成するために別個にトレーニングされ、それによって上記で説明したように言語的コンテキストをクラスタリングする。音声を合成するとき、まず言語的コンテキストが入力される。ストリームのデシジョンツリーは、言語的コンテキストのモデルを決定するために使用される。モデルは次いで、音響出力を生成するために使用され得る音響パラメータを生成するために使用される。

基本周波数および帯域非周期性のストリームは、励起信号を形成するために使用される。スペクトルストリームは、フィルタを生成するために使用される。励起信号は、音声波形を生成するためにフィルタに通される。

図３ｂは、一実施形態による、言語単位を互いにクラスタリングする方法を示している。この方法は、図３ａの方法に類似しているが、しかしながら、スペクトルストリームは、高周波帯域（ｓｐｈ）と低周波帯域（ｓｐｌ）とに分割されている。

スペクトルの低周波領域（たとえば、４ｋＨｚ未満）は、（たとえばフォルマントの形態の）音声の言語的コンテキストに関するより多くの量の情報を伝達する。他方で、スペクトルの高周波領域は、より多くの話者固有の情報を伝達する（ただし、言語的コンテキストに関する情報はより少ない）。したがって、異なる周波数帯域に対して、異なるコンテキストクラスタリングが適切となり得ることになる。スペクトルはしたがって高周波ストリームと低周波ストリームとに分割され、そのため、これらの２つの周波数範囲は別個にモデリングされてもよい。

高周波スペクトルストリームのデシジョンツリーは、低周波スペクトルストリームのデシジョンツリーよりも大きく成長することが許可される。この結果として、高周波スペクトルストリームのより多数のモデルが得られ、各モデルはトレーニングデータからのより少数のステートに適合する。一実施形態では、高周波スペクトルストリームのデシジョンツリーは、各リーフノードが単一のステートを含むまで（特定の状況では、いくつかのステートが分割され得ず、したがって互いにグループ化されなければならない可能性もあるが）成長することが許可される。これは、一般にトレーニングデータの各ステートが、パラメータの異なるセットでモデリングされることを意味する。これは、元のトレーニングサンプルに可能な限り近い音声を生成するのに役立つ。デシジョンツリーは、トレーニングデータに見出されない「気づかれない（unseen）」コンテキストが合成され得るために、周波数ストリームにおいて依然として必要とされる。結果として得られるモデルが、気づかれないコンテキストを効果的に再現する見込みはないので、そのような無限のトレーニングは、スペクトルストリーム全体には適用されない。このことは、高周波スペクトルストリームが含むコンテキスト情報がはるかに少ないので、高周波スペクトルストリームではあまり問題とならない。

低周波スペクトルストリームは、たとえば、上記で説明したＭＤＬまたは確度停止基準を用いて、デシジョンツリーが制限された状態で、正常にトレーニングされる。これにより、より多量のコンテキスト情報を含む低周波スペクトルストリームにおいて、気づかれないコンテキストをモデリングする上でより効果的となるモデルが生成される。代替的に、低周波スペクトルストリームは、ディープニューラルネットワークを使用してモデリングされる。

ラインスペクトルペア（ＬＳＰ）のパラメータ化
一実施形態では、スペクトルを記述するために、ラインスペクトルペア（ＬＳＰ）が使用される。これにより、より高周波のスペクトルとより低周波のスペクトルとをより容易に組み合わせることが可能になる。各ケプストラム係数はスペクトルの周波数成分に影響を及ぼすので、ケプストラムが使用される場合はスペクトルを連結することがより困難になる。

スペクトルの線形予測係数を記述するために、ラインスペクトルペアが使用され得る。線形予測係数は、モデルを記述するものであり、トレーニングデータに適合される。

スペクトル包絡線に対する以下の全極表現が定義される。
ここでＡ（ｚ）は線形予測多項式である。
ここで、ａ_kはｋ番目の予測係数であり、ｐはモデルの次数である。線形予測係数ａ_kは、トレーニング中に計算される（それらはトレーニングサンプルに適合される）。これは、自己相関法によってトレーニングサンプルと合成音声との間の平均二乗誤差を最小化することによって達成され得る。

Ａ（ｚ）は、回文多項式（palindromic polynomial）Ｐと反回文多項式（antipalindromic polynomial）Ｑとの組み合わせとして表現され得、
上式において、
であり、ここで、ｚはｚ平面上における複素数である（ｚ＝ｅ^iω）。ラインスペクトル係数は、複素平面（ｚ平面）におけるＰおよびＱの根の位置である。根は複素平面内の単位円上に位置するので、それらは複素平面におけるそれらの角度（ω_k）として定義される（ω_kは
となるものであり、ここで、Ｐ（ｚ）またはＱ（ｚ）は０に等しい）。角度（ω_k）はしたがって、ラジアンで表現されるラインスペクトル周波数であり、これらは、スペクトルパラメータの生成のためのラインスペクトル係数として使用される。

回文多項式Ｐ（ｚ）は、声門を閉鎖された状態の声道に対応し、反回文多項式Ｑ（ｚ）は、声門を開放された状態の声道に対応する。

ラインスペクトル周波数は、パワースペクトルを決定するために使用され得る。ラインスペクトル周波数（ω_k − Ｐ（ｚ）およびＱ（ｚ）の根）が与えられると、Ｐ（ｚ）およびＱ（ｚ）の値は、次のように決定され得ることが示され得る。
次いでパワースペクトルは次のように計算され得る。
したがって、次式が得られる。

したがって、ラインスペクトルペア係数（ラインスペクトル周波数）は、スペクトルを決定するために使用され得る。

一実施形態では、ＬＳＰ係数は、メルＬＳＰ（ＭＬＳＰ）係数であってもよい。これらは、メルスケールに適合されたＬＳＰ係数（ω_k）である。

スペクトルを表現するためにＬＳＰ係数を使用することにより、マルチストリーム手法が容易となる。別個のストリームから生成された高周波および低周波係数を単純に連結することが可能である。連結されたＬＳＰ係数は次いで、スペクトルを生成するために使用される。各ケプストラム係数がスペクトルの周波数成分のすべてに影響を及ぼすので、ケプストラム表現を使用すると、周波数領域を分割することがより困難になる。

静的境界係数
最も簡潔な実施形態では、すべてのステートについてより高周波のスペクトルとより低周波のスペクトルとを分割するために、同じ分割境界係数が使用され得る。

各フレームのＬＳＰ係数を抽出するために、トレーニングデータは既知の信号処理方法を使用して解析される。トレーニングデータ内のすべてのステートにわたる中間周波数度が、各ＬＳＰ係数について決定される。次いで、境界係数インデックスが、どのＬＳＰ係数が所定の周波数範囲（たとえば３．５ｋＨｚ〜４ｋＨｚ）内の中間周波数を有するかに基づいて選択される。

図４は、２２．０５ｋＨｚのサンプリング周波数と３９のＭＬＳＰを有するモデルのトレーニングデータに対するＬＳＰ係数の分布を示している。ω₁₀〜ω₁₈に対する分布が示されている。各ＬＳＰ係数（ω₁₀からω₁₈まで）について、ＬＳＰ係数が特定の周波数を有するトレーニングデータ内のステートの数が、周波数に対してプロットされている。

周波数帯域は、陰影付き領域（３．５ｋＨｚ〜４ｋＨｚ）として示されている。図４から、ω₁₄とω₁₅のみが３．５ｋＨｚから４ｋＨｚの周波数範囲内に入る中間周波数を有していることがわかる。ＬＳＰは通常、ペアとして現れるので、偶数の後に分割するのが合理的である。したがって、ω₁₄はすべてのステートの境界係数になるように選択される。

上記の実施形態は、境界係数を決定するために一定の範囲の周波数を利用しているが、これは単一のしきい値を使用して等しく決定されることもできる。たとえば、境界係数は、所定のしきい値（たとえば、４ｋＨｚ）に最も近い中央値、所定のしきい値を超える最低の中央値を有するＬＳＰ係数、または所定のしきい値よりも小さい最大のＬＳＰ係数を有するＬＳＰ係数となるように選択され得る。したがって、すべての可能なステートにわたって適用されるのに最も適した境界係数が選択され得る。

それでもやはり、特定の周波数（たとえば３．５ｋＨｚ〜４ｋＨｚ付近の領域）に対応するＬＳＰ係数のインデックスは、ステート間で変化する。より一般的には、音素のタイプおよびコンテキストによって異なると想定され得る。したがって、各ステートについて特定の境界係数を割り当てることが有利となり得る。

フレキシブルな境界係数
デシジョンツリーベースのコンテキストクラスタリングは、各ステートの境界を調整する方法をもたらす。デシジョンツリーは、低周波および高周波スペクトルストリームの各々について形成される。本明細書で説明するように、異なる停止基準が、２つのデシジョンツリーの形成において使用される。それでもやはり、高周波スペクトルストリームおよび低周波スペクトルストリームのデシジョンツリーを形成するために、ステートのすべてにわたる可能な境界係数の範囲がまず考慮されなければならない。

所与のＬＳＰ係数インデックスの周波数はステートに依存して変化するので、高スペクトルストリームと低スペクトルストリームは、ＬＳＰ係数インデックスにおける重複を伴って形成されなければならない。これにより、特定の境界係数を各ステートに割り当てることが可能となる。

重複範囲は、スペクトル全体（高周波スペクトルストリームと低周波スペクトルストリームとを含む非分割スペクトル）のデシジョンツリーを使用して決定される。静的境界法と同様に、トレーニングデータのＬＳＰ係数は、トレーニングに先立って既知の信号処理技法を使用して取得され得る。重複範囲は、所定の周波数範囲内に含まれる周波数をＬＳＰ係数が有する少なくとも１つのトレーニングサンプルを有するＬＳＰ係数インデックスを取り上げることによって選択される。

所定の周波数範囲は、下限しきい値周波数と上限しきい値周波数（たとえば、３．５ｋＨｚ〜４ｋＨｚ）との間に及ぶ。したがって、低周波スペクトルストリームは、上限しきい値周波数以下である少なくとも１つのトレーニングサンプルを備えるＬＳＰ係数インデックスを備えることになり、高周波スペクトルストリームは、下限しきい値周波数以上である少なくとも１つのトレーニングサンプルを備えるＬＳＰ係数インデックスを備えることになる。言い換えれば、重複領域は、上限および下限の周波数しきい値（たとえば、３．５ｋＨｚ〜４ｋＨｚ）の間の所定の周波数範囲にわたるすべてのＬＳＰ係数インデックス（トレーニングデータにおけるステートの全セットから）を含むように選択される。

図４に戻ると、３９のＭＬＳＰを有するこの特定の２２．０５ｋＨｚモデルの場合、３．５ｋＨｚ〜４ｋＨｚの周波数範囲内の少なくとも１つのサンプルを備える係数はω₁₂〜ω₁₇であることがわかる。したがって、この実施形態では、低周波スペクトルストリームはω₁〜ω₁₇からなり、高周波スペクトルストリームはω₁₂〜ω₃₉からなる。

図５は、上記の実施形態の重複する低周波（ｓｐｌ）スペクトルストリームと高周波（ｓｐｈ）スペクトルストリームを示している。スペクトルストリームがω₁₂〜ω₁₇のＬＳＰ係数で重複しており、すなわち、低周波スペクトルストリームと高周波スペクトルストリームとの両方がＬＳＰ係数ω₁₂〜ω₁₇を備えることがわかる。ログゲイン（ｌｏｇＫ）は、ＬＳＰベクトルの一部として低周波ストリームに含められるが、しかしながら、代替的な実施形態は、それ自体のストリーム内にログゲインを含む。これらの重複するストリームは次いで、デシジョンツリーを形成して各クラスタの固有の境界係数を決定するために使用され得る。

重複する高スペクトルストリームと低スペクトルストリームのデシジョンツリーが形成される。低周波スペクトルストリームのツリーについては、ツリー内の各クラスタについて境界係数が決定される。ここでも、既知の信号処理方法を介してトレーニングデータから決定されたＬＳＰ係数が利用される。境界周波数に影響を及ぼす種類のコンテキスト上の差異に対してより敏感となる可能性が高いため、高周波スペクトルではなく低周波スペクトルに対するデシジョンツリーがこの決定を導くために使用される。

第１の実施形態では、各クラスタの境界係数が決定され、合成中に取り出され得るように記憶される。第２の実施形態では、境界係数は、合成中にオンザフライで生成されてもよい。

第１の実施形態では、低周波スペクトルストリームのデシジョンツリーにおける各クラスタについて、そのクラスタ内のすべてのトレーニングサンプルに関する各ＬＳＰ係数ω_kの周波数の統計値が収集される。クラスタ全体の中間周波数が所定のしきい値周波数Ｆ_b（たとえば、４ｋＨｚ）を超える最低の係数が、次いで、そのクラスタのしきい値係数ω_bとして設定される。各クラスタ（デシジョンツリー内の各リーフノード）のしきい値係数ω_bは、次いで、音声合成中にアクセスされ得るように、ルックアップテーブルなどのメモリに記憶される。この方法は、固有の境界係数をクラスタに割り当てるために、低周波デシジョンツリーの各クラスタに適用される。

重複範囲を設けることにより、所定のしきい値周波数Ｆ_bは、デシジョンツリーを再計算する必要なしに、コンテキストに応じて容易に変更され得る。

図６は、トレーニングデータサンプルのセットに基づいて境界係数を決定する方法を示している。この方法は、図１に示すようなシステムによって実装され得る。

ステップ６０１において、トレーニングサンプル（ラベルおよび音響パラメータ、たとえばＬＳＰ）が受け取られる。次いで、全体的な（非分割）スペクトルについてデシジョンツリーが形成される（６０３）。これは、各言語単位の各ステートを取り、上記で説明したように類似のステートをクラスタリングすることを伴う。

ＬＳＰ係数の分布は、高周波および低周波スペクトルストリームの重複範囲を決定する（６０５）ために使用される。重複範囲は、所定の周波数範囲にまたがる係数のセットであり、すなわち、重複範囲は、所定の周波数範囲内に入るトレーニング音声サンプルからの少なくとも１つのステートを有する係数のセットである。重複範囲は次いで、高周波および低周波スペクトルストリームにおけるＬＳＰ係数を決定するために使用される。

次いで、重複する高周波スペクトルストリームと低周波スペクトルストリームのデシジョンツリーが、ＬＳＰ係数を高周波と低周波に分割して同じトレーニングサンプルを使用して形成され、クラスタがモデリングされる（６０７）。次いで、低周波スペクトルストリームにおける各クラスタの境界係数が決定される（６０９）。この実施形態では、境界係数は、所定のしきい値周波数よりも大きい（クラスタ内のトレーニングサンプルからの）中間周波数を有する最低のＬＳＰ係数となるように取られる。各クラスタの境界係数は次いで、低周波デシジョンツリーに格納される（６１１）。

したがって、境界係数は、音声を合成するときに、低周波デシジョンツリーから探索され得る。

第２の実施形態では、境界係数は、デシジョンツリーを参照することなく、合成時にオンザフライで決定される。境界係数は、そのフレームの低周波ストリームに関して生成されたＬＳＰ係数に基づいて、各フレームについて決定されてもよい。ここでも、低周波ストリームは、上記で説明したように、高周波ストリームと部分的に重複するようにトレーニングされている。この場合、低周波ストリームにおけるＬＳＰ係数の周波数が決定され、所定のしきい値周波数Ｆ_b（たとえば４ｋＨｚ）の下での最高のＬＳＰ係数がそのフレームの境界係数として取られ、上記のすべてのＬＳＰ係数が高周波ストリームに割り当てられる。

２つのストリームのＬＳＰ係数が、全帯域を形成するように、境界係数において互いに連結され得る。次いで、連結されたＬＳＰ係数は、励起信号をフィルタリングするために使用される。いくつかの実施形態では、スペクトルストリームは、いくつかの対応する境界係数を有する３つ以上のストリームに分割され得る。この場合、これらは、全帯域を形成するように境界係数で互いに連結される。

トレーニング
図７は、一実施形態によるテキスト読み上げシステムをトレーニングする方法を示している。この方法は、図１のシステム１によって実装されてもよく、または、モデルがシステム１上に記憶される前に、モデルを生成するための別のデバイスによって実装されてもよい。

最初に、ラベル付けされたトレーニング音声サンプルが受け取られる（７０１）。各ストリームごとに、モデルがトレーニングデータに適合される（７０３）。そのようなストリームは、帯域非周期性ストリーム（ｂａｐ）と、基本周波ストリーム（ｆ０）と、高周波スペクトルストリーム（ｓｐｈ）と、低周波スペクトルストリーム（ｓｐｌ）とを含む。

上記で説明したように、高周波および低周波ストリームは、重複範囲を伴ってモデリングされる（図６を参照）。境界係数が各固有のステートごとに予め決定されている場合、次いで低周波ストリームにおける各クラスタに関する境界係数が決定される（７０５）（図７を参照）。デシジョンツリー、モデルおよび境界係数は、次いで、音声を合成する際に使用するために記憶される（７０７）。

境界係数が上述の第２の実施形態を使用して決定される場合、境界係数は記憶される必要がなく、その代わりに合成中に導出されてもよい。したがって、システムをトレーニングすることは、デシジョンツリーおよびモデルが記憶される前のステップ７０１および７０３のみを備えてもよい。境界係数は、次いで生成されている各フレームについて合成中に決定され得る。当然、この場合は、ｓｐｌとｓｐｈのストリームは重複することになる。

音声合成
図８は、一実施形態による音声を合成する方法を示している。この方法は、図１のシステムによって実装され得る。

最初に、言語単位のセットが受け取られる（８０１）。言語単位は、言語の音素、サブ音素または任意の他のセグメントであり得る。コンテキストは、言語単位から導出され得るものであり、たとえば、各言語単位は、その前後に現れる１つまたは複数の言語単位のコンテキストにおいて考慮され得る。あるいは、受け取られた言語単位は、コンテキストラベリングを既に備えていてもよい。

各言語単位について、ＨＭＭは、言語単位のコンテキストに基づいて、事前にトレーニングされたデシジョンツリーから抽出される。これは、各デシジョンツリー（すなわち、各ストリームについて）について、言語単位が含まれるクラスタ（リーフノード）を決定することを伴う。各言語単位（またはそのステート）はしたがって、高周波および低周波ストリームのＬＳＰ係数のセットに変換される（８０３）。各言語単位について、境界係数のインデックスが、低周波スペクトルストリームのデシジョンツリーから抽出される。代替的な実施形態では、境界インデックスは予め定義され、（上述のように）すべての言語単位について同じである。

次いで、高周波および低周波ＬＳＰ係数が、全帯域ＬＳＰを形成するように境界係数で連結される（８０５）。一実施形態では、境界係数以下のインデックスを有するすべてのＬＳＰ係数は、低周波スペクトルストリームから取られ、残りのＬＳＰ係数は、高周波スペクトルストリームから取られる。これにより、より多量の言語情報を提供する低周波スペクトルストリームから、より多くの情報が提供される。

代替的な実施形態では、境界係数のインデックスより小さいインデックスを有するすべてのＬＳＰ係数は、低周波スペクトルストリームから取られ、境界係数のインデックス以上のインデックスを有するすべてのＬＳＰ係数は、高周波スペクトルストリームから取られる。

本実施形態では、次いでポストフィルタリングが全帯域ＬＳＰ係数に適用されるが（８０７）、しかしながらこれは任意である。また、任意選択により、ＬＳＰ係数は安定性についてチェックされてもよく、またＬＳＰ係数の順序が必要に応じて再整理される。別の実施形態では、ポストフィルタリングは、低周波スペクトルのみに適用されても、あるいはまったく適用されなくてもよい。

ＬＳＰ係数は次いで、最小位相インパルス応答に変換され（８０９）、この最小位相インパルス応答は、帯域非周期性および基本周波ストリームから生成された励起信号をフィルタリングするために使用される（８１１）。帯域非周期性および基本周波ストリームは、当該技術分野で知られている方法を使用して生成されるものであり、したがってこれ以上は説明しない。励起信号は、合成音声波形を生成するために、最小位相インパルス応答により畳み込まれる。次いで、この音声波形が出力される（８１３）。生成されたＬＳＰ係数を励起パラメータで変換するための代替的な方法が存在し、本発明にも同様に適用可能である。

合成音声
図９〜図１１は、テストセットにおける発話に関するＬＳＰ軌道を示している。図９は、自然の非合成軌道を示している。図１０は、単一のスペクトルストリームを備えるＨＭＭで合成された軌道を示している。図１１は、一実施形態によるマルチスペクトルストリームＨＭＭで合成された軌跡を示している。

より詳細な細部が、自然の軌跡において観察され得る（図９）。軌跡は、ＨＭＭ生成パラメータにおいてより平滑化され、それにより、統計的モデリングによって引き起こされた平滑化効果が示される（図１０）。それでもやはり、別個の高スペクトルストリームと低スペクトルストリームを使用して生成された軌跡（図１１）は、より高次のＬＳＰ（４ｋＨｚの境界より上）において、ゆらぎの度合いが増大することを示している。これにより、モデリングされている個々の話者の特徴がより精確に表現されるので、より自然な響きの音声が得られる。

上記の実施形態は、スペクトルストリームを２つのストリームに分割するが、スペクトルがより多数のストリームに分割され得ることが理解されよう。これにより、スペクトルのモデリングについてフレキシビリティをさらに高めることが可能となり、さらなる周波数範囲をそれぞれの特性に基づいて別個にモデリングすることが可能となる。より多数のストリームに分割することは、上述した方法と同じ方法によって達成され得る（たとえば、境界係数の特定のセットが各分割ごとに決定されてもよい）。最低のスペクトル帯域より上の各スペクトル帯域は、トレーニングデータにより一層緊密にモデリングされ得る。最低の（またはより低い）スペクトル帯域は、ディープニューラルネットワークを介してモデリングされ得るのに対し、より上位のスペクトル帯域は、ＨＭＭおよび一層増大するデシジョンツリーを使用してモデリングされ得る。

特定の実施形態について説明したが、これらの実施形態は単なる例として提示されたものであり、本発明の範囲を限定することを意図するものではない。実際に、本明細書に記載された新規な方法およびシステムが、様々な他の形態で実施され得、さらに、本明細書に記載された方法およびシステムの形態における様々な省略、置換および変更が、本発明の精神から逸脱することなく行われ得る。添付の特許請求の範囲およびそれらの等価物は、本発明の範囲および精神に含まれるような、そのような形態の改変を包含することを意図したものである。

Claims

音声合成方法であって、
音声合成装置において、
１つまたは複数の言語単位を受け取ることと、
前記１つまたは複数の言語単位を、音声を合成するための一連の音声ベクトルに変換することと、ここで、前記変換は、１つまたは複数の統計モデルの第１のセットをより高いスペクトル周波数に、１つまたは複数の統計モデルの第２のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える、
前記一連の音声ベクトルを出力することと、
を備える、音声合成方法。
１つまたは複数の統計モデルの前記第１のセットは、１つまたは複数の統計モデルの前記第２のセットと比べて、より緊密に元のトレーニング音声データセットに適合される、請求項１に記載の音声合成方法。
前記高周波スペクトルストリームは、１つまたは複数のデシジョンツリーの第１のセットを使用してモデリングされ、
前記低周波スペクトルストリームは、１つまたは複数のデシジョンツリーの第２のセットを使用してモデリングされ、１つまたは複数のデシジョンツリーの前記第１のセットは、１つまたは複数のデシジョンツリーの前記第２のセットよりも大きく、
前記低周波スペクトルストリームは、ディープニューラルネットワークを使用してモデリングされる、請求項１または２に記載の音声合成方法。
一連の音声ベクトルに前記１つまたは複数の言語単位を変換することは、前記１つまたは複数の言語単位の各々について、
前記言語単位に関していくつかのステートを割り当てることと、
前記言語単位の各ステートについて、
前記高周波および低周波スペクトルストリームの各々について１つまたは複数のラインスペクトルペアを生成することと、
複合スペクトルを形成するために境界において前記高周波および低周波スペクトルストリームの前記ラインスペクトルペアを連結することと、
前記ステートについて前記複合スペクトルを使用して音声ベクトルを生成することと、
を備える、請求項１〜３のいずれか一項に記載の音声合成方法。
同じ境界が各言語単位に適用される、または
各言語単位の各ステートがそれ自体の固有の境界を割り当てられる、または
各ステートがいくつかのフレームを備え、各ステート内の各フレームはそれ自体の固有の境界を割り当てられる、請求項４に記載の音声合成方法。
前記高周波スペクトルストリームと低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたって、すべてのステートについて重複し、そしてまた、
各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、そのステートの境界を設定するために各ステートについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各ステートについて前記境界ラインスペクトルペアインデックスを定義することは、そのステートの前記低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定することと、所定のしきい値周波数に対して前記ステートの前記ラインスペクトルペアの前記周波数のアセスメントに基づいて前記境界ラインスペクトルペアインデックスを決定することとを備える、または
各言語単位の各ステートはいくつかのフレームを備え、ここにおいて、各フレーム単位はそれ自体の固有の境界を割り当てられ、そのフレームの境界を設定するために各フレームについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各フレームについて前記境界ラインスペクトルペアインデックスを定義することは、そのフレームの前記低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定すること、および所定のしきい値周波数に対して前記フレームの前記ラインスペクトルペアの前記周波数のアセスメントに基づいて前記境界ラインスペクトルペアインデックスを決定することを備える、
請求項４に記載の音声合成方法。
一連の言語単位を一連の音声ベクトルに変換するために音声合成装置をトレーニングする方法であって、コントローラを備えるトレーニングシステムにおいて、
音声データおよび関連する言語単位を受け取ることと、
モデルのセットを前記音声データおよび関連する言語単位に適合させることと、ここにおいて、前記適合させることは、高周波スペクトルストリームを形成するために１つまたは複数の統計モデルの第１のセットを前記音声データのより高いスペクトル周波数に適合させること、および別個の低周波スペクトルストリームを形成するために１つまたは複数の統計モデルの第２のセットを前記音声データのより低いスペクトル周波数に適合させることを備える、
モデルの前記セットを出力することと、
を備える方法。
１つまたは複数の統計モデルの前記第１のセットは、１つまたは複数の統計モデルの前記第２のセットと比べて、より緊密に音声データに適合される、請求項７に記載の方法。
前記高周波スペクトルストリームは、１つまたは複数のデシジョンツリーの第１のセットを使用してモデリングされ、そしてまた、
前記低周波スペクトルストリームは、１つまたは複数のデシジョンツリーの第２のセットを使用してモデリングされ、１つまたは複数のデシジョンツリーの前記第１のセットは、１つまたは複数のデシジョンツリーの前記第２のセットよりも大きい、または、
前記低周波スペクトルストリームは、ディープニューラルネットワークを使用してモデリングされる、
請求項７または８に記載の方法。
各言語単位がいくつかのステートを備え、
１つまたは複数の統計モデルの前記第１および第２のセットは、各ステートについて、ラインスペクトルペアの第１および第２のセットをそれぞれ生成するように構成される、ここにおいて、ラインスペクトルペアの前記第１および第２のセットは、前記ステートに関して複合スペクトルを形成するように連結され得る、請求項７〜９のいずれか一項に記載の方法。
前記高周波スペクトルストリームと低周波スペクトルストリームとの間の境界を設定する境界ラインスペクトルペアを定義することをさらに備え、ここにおいて、
同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用される、または
各言語単位の各ステートがそれ自体の固有の境界を割り当てられる、または
各ステートがいくつかのフレームを備え、各ステート内の各フレームがそれ自体の固有の境界を割り当てられる、
請求項１０に記載の方法。
前記同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用され、前記境界ラインスペクトルペアインデックスを定義することは、前記受け取られた音声データの各ステートについて前記ラインスペクトルペアの周波数を決定することと、所定のしきい値周波数に対してすべてのステートにわたり前記ラインスペクトルペアの各々の中間周波数に基づいて前記境界ラインスペクトルペアインデックスを定義することとを備える、請求項１１に記載の方法。
請求項８に従属するとき、
前記低周波スペクトルストリームは、１つまたは複数のデシジョンツリーの第２のセットを使用してモデリングされ、１つまたは複数のデシジョンツリーの前記第１のセットは、１つまたは複数のデシジョンツリーの前記第２のセットよりも大きく、
各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、前記高周波および低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたりすべてのステートについて重複するように定義され、ここにおいて、前記重複範囲は、前記それぞれのラインスペクトルペアインデックスが所定の周波数範囲内に入る周波数を有する前記受け取られた音声データからの少なくとも１つのステートを有するラインスペクトルペアインデックスとして定義される、請求項１１に記載の方法。
各ステートについて前記境界ラインスペクトルペアインデックスを定義することは、前記低周波スペクトルストリームの各デシジョンツリーにおける各リーフノードについて、
前記リーフノードにおいて前記受け取られた音声データの前記ステートのすべてにわたり各ラインスペクトルペアインデックスについて中間周波数を決定することと、
所定のしきい値周波数に対する各ラインスペクトルペアインデックスの前記中間周波数に基づいて、前記リーフノードにおいて前記ステートについて境界ラインスペクトルペアインデックスを決定することと、
を備える、請求項１３に記載の方法。
コンピュータに請求項１〜１４のいずれか一項に記載の方法を実施させるように構成されたコンピュータ可読コードを備えるキャリア媒体。
音声合成装置であって、
１つまたは複数の言語単位を受け取ることと、
前記１つまたは複数の言語単位を、音声を合成するための一連の音声ベクトルに変換することと、ここで、前記変換は、１つまたは複数の統計モデルの第１のセットをより高いスペクトル周波数に、１つまたは複数の統計モデルの第２のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える、
前記一連の音声ベクトルを出力することと、
を行うように構成されたプロセッサを備える、音声合成装置。
音声合成装置が一連の言語単位を一連の音声ベクトルに変換するためのトレーニングシステムであって、
音声データおよび関連する言語単位を受け取ることと、
モデルのセットを前記音声データおよび関連する言語単位に適合させることと、ここにおいて、前記適合させることは、高周波スペクトルストリームを形成するために１つまたは複数の統計モデルの第１のセットを前記音声データのより高いスペクトル周波数に適合させること、および別個の低周波スペクトルストリームを形成するために１つまたは複数の統計モデルの第２のセットを前記音声データのより低いスペクトル周波数に適合させることを備える、
モデルの前記セットを出力することと、
を行うように構成されたコントローラを備える、トレーニングシステム。