JP2017167526A - 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 - Google Patents

統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 Download PDF

Info

Publication number
JP2017167526A
JP2017167526A JP2017029713A JP2017029713A JP2017167526A JP 2017167526 A JP2017167526 A JP 2017167526A JP 2017029713 A JP2017029713 A JP 2017029713A JP 2017029713 A JP2017029713 A JP 2017029713A JP 2017167526 A JP2017167526 A JP 2017167526A
Authority
JP
Japan
Prior art keywords
speech
frequency
stream
state
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017029713A
Other languages
English (en)
Other versions
JP6330069B2 (ja
Inventor
佳代子 柳澤
Kayoko Yanagisawa
佳代子 柳澤
マイア ラニーリー
Maia Ranniery
マイア ラニーリー
スチリアノ ヤニス
Stylianou Yannis
スチリアノ ヤニス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2017167526A publication Critical patent/JP2017167526A/ja
Application granted granted Critical
Publication of JP6330069B2 publication Critical patent/JP6330069B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

【課題】統計的パラメトリック音声合成において、より人間の声らしく聞こえる効率的な音声処理のシステムおよび方法を提供する。
【解決手段】音声合成装置は、1つまたは複数の言語単位を、音声合成するための一連の音声ベクトルに変換し、一連の音声ベクトルを出力することとを行うように構成されたプロセッサを備える。変換は、1つまたは複数の統計モデルの第1のセットをより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える。
【選択図】図3b

Description

本明細書で説明する実施形態は、広義には、音声処理(speech processing)のシステムおよび方法、ならびにテキスト読み上げシステム(text-to-speech system)のためのモデルをトレーニングするシステムおよび方法に関する。
テキスト読み上げシステムは、テキストファイルの受け取りに応答してオーディオ音声またはオーディオ音声ファイルが出力されるシステムである。
テキスト読み上げシステムは、電子ゲーム、電子ブックリーダー、電子メールリーダー、衛星ナビゲーション、自動電話システム、自動警告システムなど、幅広いアプリケーションで用いられている。
隠れマルコフモデル(HMM:Hidden Markov Model)ベースの合成など、統計的パラメトリック音声合成(statistical parametric speech synthesis)では、問題の1つは、合成された出力におけるこもった感覚(muffled sensation)につながる、パラメータのオーバースムージングである。
より人間の声らしく聞こえる効率的なシステムを作り出すことが、絶えず必要とされている。
非限定的な実施形態によるシステムおよび方法について、これから添付の図面を参照して説明することにする。
テキスト読み上げシステムを示す図。 テキスト読み上げ方法を示す図。 単一のスペクトルストリームを有するシステムに関するストリームのクラスタリング(マッピング)を示す図。 2つのスペクトルストリームを有するシステムに関するストリームのクラスタリング(マッピング)を示す図。 22.05kHzのサンプリング周波数と39のメルスケールラインスペクトルペア(MLSP)を有するモデルのトレーニングデータに関するMLSP係数の分布を示す図。 重複する低周波(spl)および高周波(sph)スペクトルストリームを示す図。 トレーニングデータサンプルのセットに基づいて境界係数を決定する方法を示す図。 一実施形態によるテキスト読み上げシステムをトレーニングする方法を示す図。 一実施形態による音声を合成する方法を示す図。 テストセット内の発話に対する自然の非合成LSP軌道を示す図。 単一のスペクトルストリームを備えるHMMで合成された発話のLSP軌道を示す図。 一実施形態によるマルチスペクトルストリームHMMで合成された発話のLSP軌跡を示す図。
一実施形態によれば、一連の言語単位を一連の音声ベクトルに変換するために音声合成装置をトレーニングする方法が提供される。本方法は、コントローラを備えるトレーニングシステムにおいて、音声データおよび関連する言語単位を受け取り、その音声データおよび関連する言語単位にモデルのセットを適合(fitting)させることを備える。前記適合させることは、高周波スペクトルストリームを形成するために、1つまたは複数の統計モデルの第1のセットを音声データのより高いスペクトル周波数に適合させ、別の低周波スペクトルストリームを形成するために、1つまたは複数の統計モデルの第2のセットを音声データのより低いスペクトル周波数に適合させることを備える。本方法は、モデルのセットを出力することをさらに備える。
より高周波のスペクトルストリームとより低周波のスペクトルストリームを別個にモデリングすることにより、より自然な響きの音声合成装置が作り出される。これは、より低周波のスペクトルストリームが、より大きな度合いの言語情報を伝達するのに対して、より高周波のスペクトルストリームが、話者のより多くの個々の特性を伝達するからである。これは、これらのストリームが、一緒にモデリングされるのに比べて、より効果的に別個にモデリングされ得ることを意味する。
「高」および「低」は相対的な用語であり、周波数の実際の値を示すものではない。3つ以上のストリームがスペクトルに使用されてもよい。たとえば、3つ以上のスペクトルストリームが利用されてもよい。モデルは、メモリに記憶することによって、またはネットワークを介して別のデバイスに転送することによって出力され得る。モデルのセットは、音声データ内の各言語単位の音声、ならびに音声データ中に存在しない、気づかれないコンテキスト(unseen contexts)をモデリングする。
一実施形態では、1つまたは複数の統計モデルの第1のセットは、1つまたは複数の統計モデルの第2のセットと比べて、より緊密に音声データに適合される。これは、より自然な音声サンプルを生成することを試行するために、より少ない言語情報を伝達するが、個々の話者のより多くの特徴を伝達する、より高いスペクトル周波数が、音声データに対してより緊密にモデリングされることを意味する。
一実施形態では、高周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの第1のセットは1つまたは複数のデシジョンツリーの第2のセットよりも大きいか、または低周波スペクトルストリームはディープニューラルネットワークを使用してモデリングされる。低周波スペクトルストリームよりも大きなデシジョンツリーを使用して高周波スペクトルストリームをモデリングすることは、音声データにより緊密に適合するモデルを提供することになる。同様に、ディープニューラルネットワークは、言語的コンテキストをモデリングする上でより効果的である一方で、より自然な響きの音声を提供するために大きなデシジョンツリーを高周波スペクトルストリームで用いることを依然として可能にすることから、低周波スペクトルストリームをモデリングするためにディープニューラルネットワークを利用することは、改善されたモデリングをもたらす。
デシジョンツリーがより大きいことは、より多くのリーフノードが存在することを意味する。一実施形態では、ストリームごとのステートごとに1つのデシジョンツリーが生成され、各言語単位はいくつかのステートを備える。一実施形態では、2つ以上のストリームがスペクトルに対して使用され、デシジョンツリーが各ストリームに対して利用される。より高周波のデシジョンツリーはそれぞれ、より低周波のストリームの等価デシジョンツリーよりも大きい。各言語単位はいくつかのステートを備え、1つのデシジョンツリーがストリームごとのステートごとに生成され、異なるストリームにおける等価デシジョンツリーは同じステートを表す。
一実施形態では、1つまたは複数の統計モデルの第1のセットを適合させることは、1つまたは複数のツリーの各ノードをデシジョンツリーの第2のセットよりも深いレベルに分割することによって、1つまたは複数のデシジョンツリーの第1のセットを形成することを備える。一実施形態では、デシジョンツリーの第1セットは、各ノードが、少なくともいくつかのノードにおいて、受け取られた言語単位のうちの1つの関連する言語単位のみを備えるまで分割される。これは、最小リーフノード占有率を1、最小記述長をゼロとしてトレーニングすることによって達成され得る。これは、気づかれないコンテキストをモデリングすることを依然として可能にする一方で、元のトレーニングサンプルに可能な限り近い音声を生成するのに役立つ。
一実施形態では、各言語単位はいくつかのステートを備え、1つまたは複数の統計モデルの第1および第2のセットは、各ステートについて、ラインスペクトルペアの第1および第2のセットをそれぞれ生成するように構成され、ここにおいて、ラインスペクトルペアの第1および第2のセットは、そのステートに関して複合スペクトル(combined spectrum)を形成するために連結され得る。ラインスペクトルペアを利用することにより、別個のスペクトルストリームを効果的に連結させて複合スペクトルを生成することが可能となる。
一実施形態では、本方法は、高周波スペクトルストリームと低周波スペクトルストリームとの間の境界を設定する境界ラインスペクトルペアインデックスを定義することを備え、ここにおいて、同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用されるか、または各言語単位の各ステートがそれら自体の固有の境界を割り当てられるか、または各ステートがいくつかのフレームを備え、各ステート内の各フレームがそれら自体の固有の境界を割り当てられる。すべてのステートに同じ境界を適用することは、計算的により簡潔となるのに対し、各ステートまたはフレームに基づいて境界を変化させることは、より自然な響きの合成音声をもたらす。
一実施形態では、同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用され、境界ラインスペクトルペアインデックスを定義することは、受け取られた音声データの各ステートについてラインスペクトルペアの周波数を決定することと、所定のしきい値周波数に対して、すべてのステートにわたるラインスペクトルペアの各々の中間周波数(median frequency)に基づいて、境界ラインスペクトルペアインデックスを定義することとを備える。境界ラインスペクトルペアインデックスは、しきい値周波数に最も近い中間周波数または周波数のしきい値範囲内に入る中間周波数を有するラインスペクトルペアインデックスに基づき得る。
一実施形態では、低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの第1のセットは、1つまたは複数のデシジョンツリーの第2のセットよりも大きく、各言語単位の各ステートはそれら自体の固有の境界を割り当てられる。高周波および低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたりすべてのステートについて重複するように定義され、ここにおいて、重複範囲は、各ラインスペクトルペアインデックスが所定の周波数範囲内に入る周波数を有する受け取られた音声データからの少なくとも1つのステートを有するラインスペクトルペアインデックスとして定義される。高スペクトルストリームと低スペクトルストリームとを重複させることによって、境界は、ストリームを再トレーニングする必要なしに、ステートに応じて変更され得る。
一実施形態では、各ステートについて境界ラインスペクトルペアインデックスを定義することは、低周波スペクトルストリームの各デシジョンツリーにおける各リーフノードについて、リーフノードにおいて受け取られた音声データのすべてのステートにわたり各ラインスペクトルペアインデックスの中間周波数を決定することと、所定のしきい値周波数に対する各ラインスペクトルペアインデックスの中間周波数に基づいて、リーフノードにおけるステートの境界ラインスペクトルペアインデックスを決定することとを備える。所与のリーフノードの境界ラインスペクトルペアインデックスは、しきい値周波数に最も近い中間周波数または周波数のしきい値範囲内に入る中間周波数を有するラインスペクトルペアインデックスに基づき得る。
一実施形態によれば、音声合成装置において、1つまたは複数の言語単位を受け取ることと、音声を合成するための一連の音声ベクトルに前記1つまたは複数の言語単位を変換することとを備える音声合成方法が提供される。前記変換は、1つまたは複数の統計モデルの第1のセットを音声データのより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットを音声データのより低いスペクトル周波数に適用することによって、より高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える。本方法は、一連の音声ベクトルを出力することをさらに備える。
本方法は、テキストを受け取り、合成されるべき言語単位にテキストを変換することを備え得る。出力することは、音声波形を生成するためのボコーダを介してもよく、あるいは音声ベクトルは記憶されても、別のデバイスに転送されてもよい。
一実施形態では、1つまたは複数の統計モデルの第1のセットは、1つまたは複数の統計モデルの第2のセットと比べて、より緊密に元のトレーニング音声データセットに適合される。
一実施形態では、高周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの第1のセットは1つまたは複数のデシジョンツリーの第2のセットよりも大きいか、あるいは低周波スペクトルストリームはディープニューラルネットワークを使用してモデリングされる。
一実施形態では、前記1つまたは複数の言語単位を一連の音声ベクトルに変換することは、1つまたは複数の言語単位の各々について、言語単位に関していくつかのステートを割り当てることを備える。言語単位の各ステートについて、1つまたは複数のラインスペクトルペアが、高周波および低周波スペクトルストリームの各々に対して生成され、高周波および低周波スペクトルストリームのラインスペクトルペアは、複合スペクトルを形成するように境界において連結される。音声ベクトルは、ステートについて複合スペクトルを使用して生成される。
一実施形態では、同じ境界が各言語単位に適用されるか、または各言語単位の各ステートがそれ自体の固有の境界を割り当てられるか、または各ステートがいくつかのフレームを備え、各ステート内の各フレームがそれ自体の固有の境界を割り当てられる。
一実施形態では、高周波スペクトルストリームと低周波スペクトルストリームは、部分的な重複を伴ってトレーニングされる。高周波スペクトルストリームと低周波スペクトルストリームはしたがって重複を伴って生成され、次いで、生成されている各ステートに割り当てられた固有の境界に基づいて連結されてもよい。
一実施形態では、高周波スペクトルストリームと低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたって、すべてのステートについて重複し、また、各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、そのステートの境界を設定するために各ステートについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各ステートについて境界ラインスペクトルペアインデックスを定義することは、そのステートの低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定することと、所定のしきい値周波数に対してステートのラインスペクトルペアの周波数のアセスメントに基づいて境界ラインスペクトルペアインデックスを決定することとを備えるか、または、各言語単位の各ステートはいくつかのフレームを備え、ここにおいて、各フレーム単位はそれ自体の固有の境界を割り当てられ、そのフレームの境界を設定するために各フレームについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各フレームについて境界ラインスペクトルペアインデックスを定義することは、そのフレームの低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定することと、所定のしきい値周波数に対してフレームのラインスペクトルペアの周波数のアセスメントに基づいて境界ラインスペクトルペアインデックスを決定することとを備える。
これにより、高スペクトルストリームと低スペクトルストリームとの間の境界を、合成中にリアルタイムで、合成されている各ステートまたは各フレームについて定義することが可能となる。各フレームの境界は、所定のしきい値周波数を下回る周波数を有する最高のラインスペクトルペア、または所定のしきい値周波数を上回る周波数を有する最低のラインスペクトルペアに基づいて割り当てられ得る。
一実施形態では、コンピュータに上記の方法のうちのいずれかを実施させるように構成されたコンピュータ可読コードを備えるキャリア媒体が提供される。
一実施形態によれば、1つまたは複数の言語単位を受け取ることと、音声を合成するための一連の音声ベクトルへと前記1つまたは複数の言語単位を変換することと、一連の音声ベクトルを出力することとを行うように構成されたプロセッサを備える音声合成装置が提供される。前記変換は、1つまたは複数の統計モデルの第1のセットを音声データのより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットを音声データのより低いスペクトル周波数に適用することによって、より高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える。
一実施形態によれば、音声合成装置が一連の言語単位を一連の音声ベクトルに変換するためのトレーニングシステムであって、音声データおよび関連する言語単位を受け取ることと、モデルのセットを音声データおよび関連する言語単位に適合させることと、モデルのセットを出力することとを行うように構成されたコントローラを備えるトレーニングシステムが提供される。前記適合させることは、高周波スペクトルストリームを形成するために、1つまたは複数の統計モデルの第1のセットを音声データのより高いスペクトル周波数に適合させ、別個の低周波スペクトルストリームを形成するために、1つまたは複数の統計モデルの第2のセットを音声データのより低いスペクトル周波数に適合させることを備える。
テキスト読み上げ(Text to Speech)
本明細書で説明する諸実施形態は、音声の高周波スペクトルを、低周波スペクトルとは別個にモデリングする。多くの言語情報を伝達しない高周波帯域は、自然な音声サンプルに可能な限り近いパラメータを生成するように、大きなデシジョンツリーを使用してクラスタリングされる。高周波スペクトルと低周波スペクトルとの間の境界周波数は、各ステートの合成の際に調整され得る。主観的なリスニング試験は、提案する手法が、単一のスペクトルストリームを使用する従来の手法よりも著しく好ましいことを示している。提案する手法を使用して合成されたサンプルは、こもりが少なく、より自然に響く。
統計的パラメトリック音声合成は、不連続アーチファクトおよび疎データに対処する能力の点では単位選択システムより優れているが、合成出力におけるこもった感覚につながるオーバースムージングに関する問題があることが知られている。隠れマルコフモデル(HMM)ベースの合成の領域におけるこの問題に対処するために、いくつかの手法が提案されている。この問題を解決するには、統計モデリングにおける改善、およびボコーディングにおける改善の2つの主な方向がある。諸実施形態は、より不自然さのない合成音声を提供するために、改善された統計的モデリングを実装する。
図1は、テキスト読み上げシステム1を示している。テキスト読み上げシステム1は、プログラム5を実行するプロセッサ3を備えている。プロセッサ3は、本明細書で説明するテキスト読み上げ方法を実演(enact)するように構成された処理回路を備えている。テキスト読み上げシステム1はストレージ7をさらに備えている。ストレージ7は、テキストを音声に変換するためにプログラム5によって使用されるデータを記憶するメモリである。ストレージ7はまた、プロセッサ3によって実行されると、プロセッサ3に、本明細書に記載された方法を実演するように命令するコンピュータ実行可能コードを記憶する。
テキスト読み上げシステム1は、入力インターフェース11と出力インターフェース13とをさらに備えている。入力インターフェース11は、テキスト入力部15に接続されている。テキスト入力部15は、テキストを受け取る。テキスト入力部15は、たとえば、キーボードであってもよい。代替的に、テキスト入力部15は、外部記憶媒体またはネットワークからテキストデータを受け取るための手段であってもよい。
出力インターフェース13に、オーディオ用の出力部17が接続されている。オーディオ出力部17は、テキスト入力部15に入力されたテキストから変換された音声信号を出力するために使用される。オーディオ出力部17は、たとえば、直接的なオーディオ出力部、たとえばスピーカであってもよく、たとえば、記憶媒体に送られ得る、ネットワークで送られ得るオーディオデータファイル用の出力部であってもよい。代替的に、テキスト読み上げシステム1は、出力インターフェース13を介して、たとえばボコーダによって音声信号を生成するために使用され得る音声パラメータのセットを出力してもよい。
使用時には、テキスト読み上げシステム1は、テキスト入力部15を通じてテキストを受け取る。プロセッサ3上で実行されるプログラム5は、ストレージ7に記憶されたデータを使用してテキストを音声データに変換する。音声は、出力モジュール13を介してオーディオ出力部17に出力される。
テキスト読み上げシステム1は、音声を合成するためのモデルを記憶する。これらのモデルは、トレーニングデータの1つまたは複数のセットを分析することによって、テキスト読み上げシステム1自体によってトレーニングされてもよく、あるいは、外部システムによってトレーニングされ、テキスト読み上げシステム1にロードされてもよい。
ここで、簡略化されたテキスト読み上げプロセスについて、図2を参照して説明する。このプロセスは、図1のテキスト読み上げシステムなどのデバイスによって実演され得る。第1のステップ101において、テキストが入力される。テキストは、キーボード、タッチスクリーン、テキストプレディクタなどを介して入力され得る。
テキストは次いで、一連の言語単位に変換される(103)。これらの言語単位は、音素(phonemes)または書記素(graphemes)であってもよく、あるいは、サブ音素(sub-phonemes)またはサブ書記素(sub-graphemes)など、音素または書記素の一部分であってもよい。
言語的コンテキストの特徴を含んだテキスト内の言語情報は、各言語単位に関連付けられる。言語的コンテキストの特徴は、テキストから得られる任意の情報であり得る。言語的コンテキストの特徴は、音声情報(phonetic information)(たとえば、最初の音(first phone)または最後の音(last phone))、韻律情報(prosodic information)(たとえば、アクセントグループにおける音節の位置)、または他の任意の形態の情報であり得る。言語的コンテキストの特徴は、意味論的(たとえば、否定的な語の対語としての肯定的)および/または構文的(たとえば、動詞および名詞など)情報をさらに備え得る。
テキストの言語単位への変換および言語的コンテキストの特徴の決定は、当技術分野で知られている。1つの例が、エジンバラ大学(University of Edinburgh)のFestival Speech Synthesis Systemである。
各言語単位は、ある特定の持続時間を有する。すなわち、各言語単位は、いくつかのステートに分割され、各ステートは1つまたは複数のフレームを備える。一実施形態では、各言語単位は5つのステートに分けられる。
ステップ105において、各言語単位の各ステートに関する対応音響モデルが、関連する言語的コンテキストの特徴(コンテキスト情報)に基づいて探索される。各音響モデルは、関連する言語単位を音声パラメータのセットに関連付ける確率分布を備える。音声パラメータは、音声ベクトルモデルに従って言語単位によって包含されるフレームにわたる音声信号輪郭の線形パラメータ化に対応する。音声ベクトルモデルのトレーニング中のパラメータ化のプロセスについて、以下で説明する。
一実施形態では、言語単位から音響モデルへのマッピングは、デシジョンツリーを使用して実行され、これについては後述する。各ストリームについて、ステートごとに1つのデシジョンツリーが利用される(すなわち、言語単位ごとに5つのステートが存在する場合、ストリームごとに5つのデシジョンツリーが存在する)。
別の実施形態では、マッピングは、ニューラルネットワークモデルを採用することによって達成される。これは、たとえば、参照によってその全体が本明細書に組み込まれる、Bishop、C.M.(1995)、Neural Network for Pattern Recognition、Clarendon Press、Chapter 6に記載されている。
さらなる代替的な方法は、ディープニューラルネットワーク(DNN:deep neural networks)を利用する。各フレームについて出力特徴を決定するために、デシジョンツリーおよびHMMを使用するのではなく、DNNがステップ105および107で使用される。コンテキストを有する言語単位は、入力ベクトルのセットに変換され、次いでそれらが、トレーニングされたDNNによって出力ベクトルに直接マッピングされる。
さらに別の実施形態では、マッピングは、線形モデルを使用して達成される。
音声−音響マップは、モデルを言語単位に適合させるために、たとえばシステムのトレーニングを通じて予め定められている。このトレーニングは、テキスト読み上げシステム1自体によって、またはトレーニングされたモデルをテキスト読み上げシステム1に提供する外部システムによって実施され得る。
ステップ107において、各音響モデルは、経時的に一連の音声パラメータまたは音声ベクトルを生成するために使用される。合成中、各言語単位は、音声ベクトルとの明確な1対1の対応を有していない、あるいは当技術分野の用語を借りて言えば「観測値」を有していないと想定される。多くの言語単位は、同様の方式で発音されるか、周囲の言語単位、単語または文章内の位置によって影響を受けるか、または異なる話者によって別様に発音される。したがって、各言語単位は、音声ベクトルに関連付けられる確率のみを有し、テキスト読み上げシステムは、多くの確率を計算し、一連の言語単位が与えられた場合に一連の観測値を選択する。
本実施形態では、音響モデルは隠れマルコフモデル(HMM)である。一実施形態では、音響モデルの確率分布は、平均および分散によって定義されるガウス分布である。しかしながら、ポアソン、スチューデントt、ラプラシアンまたはガンマ分布などのような他の分布を使用することも可能であり、そのうちのいくつかは平均および分散以外の変数によって定義される。
各音響モデルは、フィルタを通過する励起信号として音声を別個にモデリングする。励起信号は、基本周波数(f0)および帯域非周期性(bap)を別個のストリームとして含み得る。フィルタは一般に、スペクトルストリームを備える。ストリームは、音声を生成するための隠れマルコフモデルのセットを形成する。各ストリームは、それぞれのHMMによって生成された音声パラメータを備える、それ自体の音声ベクトルを有する。
音響モデル(HMM)は、たとえば、一連の音声パラメータを決定するために使用される単一のHMMを生成するために、文全体にわたって連結される。したがって、スペクトルf0およびバンドの非周期性パラメータは経時的に決定される。各言語単位の持続時間も同様に決定される。持続時間は、音声パラメータを生成するのに先立って、または音声パラメータの生成後に決定され得る。
一連の音声ベクトルが決定されると、合成音声がステップ109において出力される。出力音声信号は、音声パラメータであっても、音声ベクトルであってもよい。出力ベクトルは、ボコーダを使用して出力音声波形を生成するために使用され得る。代替的に、音声波形が生成され出力されてもよい。基本周波数および帯域非周期性の特徴は、スペクトルストリームを介して生成されたフィルタを通過する励起信号を生成するために使用される。励起信号は、合成音声を生成するためにフィルタにより畳み込まれる。
HMMベースの合成は、比較的小さなトレーニングデータセットからコヒーレントな音声を生成することが可能であるが、しかしながら、この音声は一般に、モデリングの統計的性質が原因で、こもった品質(muffled quality)を有する。代替的な方法は、記録された音の短いサンプルを連結する波形ベースの合成(連結合成)である。これは、HMMベースの合成よりも自然な響きの音声を提供することが可能であるが、しかしながら、モデルをトレーニングするためにはるかに大きなサンプルサイズを必要とする。
多くのハイブリッド手法は、波形ベースの合成とHMMベースの合成とを組み合わせて、波形ベースの手法の自然さの恩恵と、HMM手法の平滑さとを組み合わせている。HMMは、最も良くマッチングする波形セグメントを選択するために後に使用されるパラメータを生成するために使用される。他の方法は、時間領域においてHMMベースの音声セグメントと波形ベースの音声セグメントとを混合させるが、このことは、セグメントがあるタイプから他のタイプに切り替わるときに音声品質のミスマッチにつながり得る。
諸実施形態は、周波数領域で分離された複数のストリームでスペクトルがモデリングされる統計的フレームワーク(隠れマルコフモデル(HMM)フレームワークまたはディープニューラルネットワーク(DNN)フレームワークなど)に完全に含まれる手法を実装する。
HMMテキスト読み上げ(HMM−TTS:HMM text to speech)では、スペクトルは通常、1つのストリームとしてモデリングされる。いくつかのHMMシステムのこもった品質は、類似の言語単位の統計的なぶれ(statistical blurring)によって生み出される。低周波領域におけるスペクトルエンベロープは、言語学的に重要な情報を伝達するのに対し、上の領域はそのような制約がほとんどなく、声道の共鳴を反映すると推定され、それによって個々の話者に顕著に関連する情報を伝達する。高周波領域が言語コンテンツに関する相対的に少量の情報を伝達することを考えれば、スペクトルストリームを高/低周波帯域に分割し、コンテキストを別個にクラスタリングすることによって、より良好な品質の合成音声が実現され得ることを本発明者らは認識している。加えて、高周波スペクトルのデシジョンツリーが無制限に拡大することが許容される場合、これは、高周波帯域において自然な音声サンプルを使用することとほぼ等しくなり、それによってオーバースムージング効果が低減され、より明瞭な音声が生成される。
したがって、上方および下方の周波数スペクトルが独立してモデリングされ、それによって、特定のトレーニングデータをより精確に反映する(コンテキスト依存性がより低くなる)ように、より高いスペクトルを特定のトレーニングデータにより緊密に適合させることが可能となることを、本発明者らは認識している。これにより、より低周波のスペクトルがコンテキスト依存性を維持することが可能になる一方で、より高周波のスペクトル(コンテキスト依存性がより低い)は、他のHMMシステムに存在するこもった品質の少ない、より自然なサウンドを生成する。
高周波帯域のサンプルベースのスペクトルは、低周波帯域の統計的に生成されたスペクトルと組み合わされ得るが、高周波帯域は、自然な響きの音声を生成するために大きなサンプルサイズを必要とする。さらに、これは、統計的に生成されたスペクトルをサンプルベースのスペクトルと連結するときに問題を生じる。
高周波スペクトルと低周波スペクトルの両方の統計モデルを利用することにより、2つのスペクトルストリームを独立してモデリングする一方で、連結を単純化することも可能になる。これはまた、疎なトレーニングデータにより効果的に対処することが可能なシステムを生み出す。高周波帯域のデシジョンツリーは無制限に成長することが許可され得、それによって自然な音声に可能な限り近い豊かなモデルが得られる。
メルスケールラインスペクトルペア(MLSP:Mel-scaled Line Spectral Pair)のパラメータ化が採用され、そのため、合成時に、全帯域スペクトルエンベロープを生成するために、低周波スペクトルパラメータと高周波スペクトルパラメータとが連結され得る。高周波スペクトルと低周波スペクトルとを分ける境界は、デシジョンツリーの各リーフに関連する境界決定に従って合成時にステートごとに調整され得る。
マルチストリームスペクトルモデリング
言語情報および話者情報の要素分解(factorisation)が、音声変換および話者識別において使用され得る。ある程度の話者特性が低周波帯域に存在し、いくらかの言語情報が高周波帯域に存在する(たとえば、歯擦音)ことが原因で、完全な要素分解が可能ではないこともあるが、2つの周波数帯域は、別個により良くモデリングされる異なるコンテキスト上のバリエーションを有すると想定され得る。
603〜2212Hzに相当する12〜22ERB(等価矩形帯域幅:Equivalent Rectangular Bandwidth)の周波数帯域は主に母音特性を含み、この範囲を超えるスペクトル包絡線は主に話者の個人的特徴を含む。男性の声に対する基本母音の第2のフォルマントの平均範囲は595Hz〜2400Hzである。これらの周波数は、女性の声の場合はさらに高くなり、時には、話者および言語に応じて2500Hzを超えて広がることもある。
周波数領域で選択的モーフィングを用いる、2人の話者間のアクセントモーフィングにおいて、最良の明瞭度は、2人の話者間のスペクトル特性が補間される1kHzの遷移帯域を伴ってスペクトルが3.5kHzで分割されるときに達成され得る。この条件では、4kHzを超えるすべてのスペクトル情報は標的話者に由来する。
現在の実施形態では、Fb=4kHzの周波数境界が採用され、ラインスペクトルペア(LSP)係数ωbに変換される。
デシジョンツリー
デシジョンツリーは、コンテキスト依存モデルのステート結合(state-tying)を制御するために使用され得る。HMMモデルをトレーニングするとき、各ノードが2元的なコンテキスト関連の質問(たとえば、前の音素は無音か?次の音素は母音か?)を表すデシジョンツリーが形成される。質問の各回答に含まれるステートは、互いにクラスタリングされ、それぞれのブランチを介して引き渡される。モデルは、結果としてクラスタリングされたステートに適合される。各ノードの質問は、分割基準の適合度(結果として得られるクラスタにまたがるステートの確度(likelihood)を最大にする質問、またはモデルの記述長を最も短くする質問など)に基づいて選択される。
クラスタは、停止基準が達成されるまで引き続き分割される。停止基準は、確度の増加(likelihood gain)がしきい値未満に低下すること、またはノードのステートの最小数が達成されることであり得る。最小記述長MDL(Minimum Description Length)が停止基準として使用されてもよい。MDLの原理では、データの与えられたセットに対する最良のモデルは、データの最良の圧縮をもたらすものであると言える。モデルの記述長は、各ノードのステートの数およびモデルの複雑さに依存する。分割が、指定されたしきい値を下回る記述長の短縮を達成すると、ノードは分割されない。
エンドノード(リーフノード)のステートは互いにクラスタリングされ、同じモデルがノード内の各ステートについて音声を生成するために使用される。トレーニングデータから欠落している任意のコンテキストのステートは、ステートが含まれるリーフノードに基づいて(欠落しているコンテキストの発音に関する質問への回答に基づいて)モデリングされる。すなわち、最も類似したリーフノードがステートを合成するために使用される。
デシジョンツリーは、気づかれない言語単位(トレーニングデータに存在しないコンテキスト)のために音声を合成する効果的な方法を提供する。それでもやはり、複数のステートが確率に基づいて単一のモデルによって記述されるので、これはまた、パラメータのオーバースムージングを引き起こし、合成出力のこもった感覚につながる。
ツリーサイズの増大はリーフノードのサンプルを少なくすることにつながり、したがって平均化効果を緩和し、それによってより自然な響きの音声を生成することになる。ツリーサイズは、停止基準を緩和すること(たとえば、MDLしきい値、確率しきい値または最小リーフノード占有率を低減すること)によって増大され得る。
一実施形態によれば、低周波スペクトルは、トレーニングコーパスにおける希薄さ(sparseness)に対処するために、ロバストなデシジョンツリーを用いてモデリングされる。その一方で、高周波スペクトルは、コンテキスト的ファクタの影響を受けにくく、したがってそのツリーはより大きく成長することが許容され得る。したがって、より低周波のスペクトルのデシジョンツリーをトレーニングするときに、より高周波のスペクトルをトレーニングするときと比べて、より厳しい停止基準が使用される。一実施形態では、より高周波のスペクトルのデシジョンツリーは、各リーフノードがトレーニングデータから単一のステートを備えるように形成される。すなわち、使用される唯一の停止基準は、1に設定される最小リーフノード占有率である。加えて、0の最小記述長が使用されてもよい。
上記の実施形態はデシジョンツリーを実装するが、音声データをトレーニングおよびモデリングする他の方法が利用されてもよい。2つのスペクトルの特性が異なる(より低い周波数はよりコンテキストに依存し、より高い周波数は個々の話者に関連するより多くの特徴を含む)ことにより、より高周波のスペクトルとより低周波のスペクトルとを独立してトレーニングすることが一般に有益である。より高周波のスペクトルはよりコンテキストに依存しないので、より多くのモデルを含むようにトレーニングされてもよく、各モデルは、トレーニングデータのより小さなセットに、より特定的に適合される。これにより、統計モデリングの平均化効果が低減され、より自然な響きの音声が生成される。
一実施形態では、低周波スペクトルはディープニューラルネットワークを使用してモデリングされるのに対し、高周波スペクトルは大きなデシジョンツリー(たとえば、1の最小リーフノード占有率)を有するHMMを使用してモデリングされる。DNNは一般に、より少ないぶれでより明瞭なスペクトルをもたらすので、HMMよりも良好に言語的コンテキストをモデリングする。それでもやはり、DNNの出力は依然として統計的にモデリングされる。高周波スペクトルにおける大きなデシジョンツリーを有するHMMは、より自然な響きの音声を提供することが可能となり得る。スペクトルを高周波ストリームと低周波ストリームとに分割することにより、各スペクトルに対して最も適切なマッピング方法が使用され得る。
さらなる実施形態では、スペクトルは3つ以上のスペクトルに分割されてもよい。各スペクトルは別個にモデリングされてもよい。トレーニングデータに対するモデリングの緊密さ(ステート全体にわたって平均化する量)は、周波数が増加するにつれて、各スペクトルについて徐々に増加する。たとえば、最も低周波のスペクトルは、ディープニューラルネットワークまたは比較的小さなデシジョンツリーを使用してモデリングされ得る。その次に低周波のスペクトルは、わずかに大きなデシジョンツリーを介してモデリングされ得る。この傾向は、トレーニングデータの各ステートを単一のモデルにマッピングするデシジョンツリーを介してモデリングされ得る最高周波のスペクトルまで継続し得る。
図3aおよび3bは、それぞれ単一のスペクトルストリームおよび2つのスペクトルストリームを有するシステムに関するストリームのクラスタリング(マッピング)を示している。
図3aは、言語単位を互いにクラスタリングする方法を示している。スペクトルストリーム(sp)、基本周波ストリーム(f0)、および帯域非周期性ストリーム(bap)の3つのストリームが利用される。したがって、この場合、スペクトルは、0kHzからナイキスト周波数まで広がる単一のストリームとしてモデリングされる。
各ストリームは、それ自体のデシジョンツリーを生成するために別個にトレーニングされ、それによって上記で説明したように言語的コンテキストをクラスタリングする。音声を合成するとき、まず言語的コンテキストが入力される。ストリームのデシジョンツリーは、言語的コンテキストのモデルを決定するために使用される。モデルは次いで、音響出力を生成するために使用され得る音響パラメータを生成するために使用される。
基本周波数および帯域非周期性のストリームは、励起信号を形成するために使用される。スペクトルストリームは、フィルタを生成するために使用される。励起信号は、音声波形を生成するためにフィルタに通される。
図3bは、一実施形態による、言語単位を互いにクラスタリングする方法を示している。この方法は、図3aの方法に類似しているが、しかしながら、スペクトルストリームは、高周波帯域(sph)と低周波帯域(spl)とに分割されている。
スペクトルの低周波領域(たとえば、4kHz未満)は、(たとえばフォルマントの形態の)音声の言語的コンテキストに関するより多くの量の情報を伝達する。他方で、スペクトルの高周波領域は、より多くの話者固有の情報を伝達する(ただし、言語的コンテキストに関する情報はより少ない)。したがって、異なる周波数帯域に対して、異なるコンテキストクラスタリングが適切となり得ることになる。スペクトルはしたがって高周波ストリームと低周波ストリームとに分割され、そのため、これらの2つの周波数範囲は別個にモデリングされてもよい。
高周波スペクトルストリームのデシジョンツリーは、低周波スペクトルストリームのデシジョンツリーよりも大きく成長することが許可される。この結果として、高周波スペクトルストリームのより多数のモデルが得られ、各モデルはトレーニングデータからのより少数のステートに適合する。一実施形態では、高周波スペクトルストリームのデシジョンツリーは、各リーフノードが単一のステートを含むまで(特定の状況では、いくつかのステートが分割され得ず、したがって互いにグループ化されなければならない可能性もあるが)成長することが許可される。これは、一般にトレーニングデータの各ステートが、パラメータの異なるセットでモデリングされることを意味する。これは、元のトレーニングサンプルに可能な限り近い音声を生成するのに役立つ。デシジョンツリーは、トレーニングデータに見出されない「気づかれない(unseen)」コンテキストが合成され得るために、周波数ストリームにおいて依然として必要とされる。結果として得られるモデルが、気づかれないコンテキストを効果的に再現する見込みはないので、そのような無限のトレーニングは、スペクトルストリーム全体には適用されない。このことは、高周波スペクトルストリームが含むコンテキスト情報がはるかに少ないので、高周波スペクトルストリームではあまり問題とならない。
低周波スペクトルストリームは、たとえば、上記で説明したMDLまたは確度停止基準を用いて、デシジョンツリーが制限された状態で、正常にトレーニングされる。これにより、より多量のコンテキスト情報を含む低周波スペクトルストリームにおいて、気づかれないコンテキストをモデリングする上でより効果的となるモデルが生成される。代替的に、低周波スペクトルストリームは、ディープニューラルネットワークを使用してモデリングされる。
ラインスペクトルペア(LSP)のパラメータ化
一実施形態では、スペクトルを記述するために、ラインスペクトルペア(LSP)が使用される。これにより、より高周波のスペクトルとより低周波のスペクトルとをより容易に組み合わせることが可能になる。各ケプストラム係数はスペクトルの周波数成分に影響を及ぼすので、ケプストラムが使用される場合はスペクトルを連結することがより困難になる。
スペクトルの線形予測係数を記述するために、ラインスペクトルペアが使用され得る。線形予測係数は、モデルを記述するものであり、トレーニングデータに適合される。
スペクトル包絡線に対する以下の全極表現が定義される。
ここでA(z)は線形予測多項式である。
ここで、akはk番目の予測係数であり、pはモデルの次数である。線形予測係数akは、トレーニング中に計算される(それらはトレーニングサンプルに適合される)。これは、自己相関法によってトレーニングサンプルと合成音声との間の平均二乗誤差を最小化することによって達成され得る。
A(z)は、回文多項式(palindromic polynomial)Pと反回文多項式(antipalindromic polynomial)Qとの組み合わせとして表現され得、
上式において、
であり、ここで、zはz平面上における複素数である(z=e)。ラインスペクトル係数は、複素平面(z平面)におけるPおよびQの根の位置である。根は複素平面内の単位円上に位置するので、それらは複素平面におけるそれらの角度(ωk)として定義される(ωk
となるものであり、ここで、P(z)またはQ(z)は0に等しい)。角度(ωk)はしたがって、ラジアンで表現されるラインスペクトル周波数であり、これらは、スペクトルパラメータの生成のためのラインスペクトル係数として使用される。
回文多項式P(z)は、声門を閉鎖された状態の声道に対応し、反回文多項式Q(z)は、声門を開放された状態の声道に対応する。
ラインスペクトル周波数は、パワースペクトルを決定するために使用され得る。ラインスペクトル周波数(ωk − P(z)およびQ(z)の根)が与えられると、P(z)およびQ(z)の値は、次のように決定され得ることが示され得る。
次いでパワースペクトルは次のように計算され得る。
したがって、次式が得られる。
したがって、ラインスペクトルペア係数(ラインスペクトル周波数)は、スペクトルを決定するために使用され得る。
一実施形態では、LSP係数は、メルLSP(MLSP)係数であってもよい。これらは、メルスケールに適合されたLSP係数(ωk)である。
スペクトルを表現するためにLSP係数を使用することにより、マルチストリーム手法が容易となる。別個のストリームから生成された高周波および低周波係数を単純に連結することが可能である。連結されたLSP係数は次いで、スペクトルを生成するために使用される。各ケプストラム係数がスペクトルの周波数成分のすべてに影響を及ぼすので、ケプストラム表現を使用すると、周波数領域を分割することがより困難になる。
静的境界係数
最も簡潔な実施形態では、すべてのステートについてより高周波のスペクトルとより低周波のスペクトルとを分割するために、同じ分割境界係数が使用され得る。
各フレームのLSP係数を抽出するために、トレーニングデータは既知の信号処理方法を使用して解析される。トレーニングデータ内のすべてのステートにわたる中間周波数度が、各LSP係数について決定される。次いで、境界係数インデックスが、どのLSP係数が所定の周波数範囲(たとえば3.5kHz〜4kHz)内の中間周波数を有するかに基づいて選択される。
図4は、22.05kHzのサンプリング周波数と39のMLSPを有するモデルのトレーニングデータに対するLSP係数の分布を示している。ω10〜ω18に対する分布が示されている。各LSP係数(ω10からω18まで)について、LSP係数が特定の周波数を有するトレーニングデータ内のステートの数が、周波数に対してプロットされている。
周波数帯域は、陰影付き領域(3.5kHz〜4kHz)として示されている。図4から、ω14とω15のみが3.5kHzから4kHzの周波数範囲内に入る中間周波数を有していることがわかる。LSPは通常、ペアとして現れるので、偶数の後に分割するのが合理的である。したがって、ω14はすべてのステートの境界係数になるように選択される。
上記の実施形態は、境界係数を決定するために一定の範囲の周波数を利用しているが、これは単一のしきい値を使用して等しく決定されることもできる。たとえば、境界係数は、所定のしきい値(たとえば、4kHz)に最も近い中央値、所定のしきい値を超える最低の中央値を有するLSP係数、または所定のしきい値よりも小さい最大のLSP係数を有するLSP係数となるように選択され得る。したがって、すべての可能なステートにわたって適用されるのに最も適した境界係数が選択され得る。
それでもやはり、特定の周波数(たとえば3.5kHz〜4kHz付近の領域)に対応するLSP係数のインデックスは、ステート間で変化する。より一般的には、音素のタイプおよびコンテキストによって異なると想定され得る。したがって、各ステートについて特定の境界係数を割り当てることが有利となり得る。
フレキシブルな境界係数
デシジョンツリーベースのコンテキストクラスタリングは、各ステートの境界を調整する方法をもたらす。デシジョンツリーは、低周波および高周波スペクトルストリームの各々について形成される。本明細書で説明するように、異なる停止基準が、2つのデシジョンツリーの形成において使用される。それでもやはり、高周波スペクトルストリームおよび低周波スペクトルストリームのデシジョンツリーを形成するために、ステートのすべてにわたる可能な境界係数の範囲がまず考慮されなければならない。
所与のLSP係数インデックスの周波数はステートに依存して変化するので、高スペクトルストリームと低スペクトルストリームは、LSP係数インデックスにおける重複を伴って形成されなければならない。これにより、特定の境界係数を各ステートに割り当てることが可能となる。
重複範囲は、スペクトル全体(高周波スペクトルストリームと低周波スペクトルストリームとを含む非分割スペクトル)のデシジョンツリーを使用して決定される。静的境界法と同様に、トレーニングデータのLSP係数は、トレーニングに先立って既知の信号処理技法を使用して取得され得る。重複範囲は、所定の周波数範囲内に含まれる周波数をLSP係数が有する少なくとも1つのトレーニングサンプルを有するLSP係数インデックスを取り上げることによって選択される。
所定の周波数範囲は、下限しきい値周波数と上限しきい値周波数(たとえば、3.5kHz〜4kHz)との間に及ぶ。したがって、低周波スペクトルストリームは、上限しきい値周波数以下である少なくとも1つのトレーニングサンプルを備えるLSP係数インデックスを備えることになり、高周波スペクトルストリームは、下限しきい値周波数以上である少なくとも1つのトレーニングサンプルを備えるLSP係数インデックスを備えることになる。言い換えれば、重複領域は、上限および下限の周波数しきい値(たとえば、3.5kHz〜4kHz)の間の所定の周波数範囲にわたるすべてのLSP係数インデックス(トレーニングデータにおけるステートの全セットから)を含むように選択される。
図4に戻ると、39のMLSPを有するこの特定の22.05kHzモデルの場合、3.5kHz〜4kHzの周波数範囲内の少なくとも1つのサンプルを備える係数はω12〜ω17であることがわかる。したがって、この実施形態では、低周波スペクトルストリームはω1〜ω17からなり、高周波スペクトルストリームはω12〜ω39からなる。
図5は、上記の実施形態の重複する低周波(spl)スペクトルストリームと高周波(sph)スペクトルストリームを示している。スペクトルストリームがω12〜ω17のLSP係数で重複しており、すなわち、低周波スペクトルストリームと高周波スペクトルストリームとの両方がLSP係数ω12〜ω17を備えることがわかる。ログゲイン(log K)は、LSPベクトルの一部として低周波ストリームに含められるが、しかしながら、代替的な実施形態は、それ自体のストリーム内にログゲインを含む。これらの重複するストリームは次いで、デシジョンツリーを形成して各クラスタの固有の境界係数を決定するために使用され得る。
重複する高スペクトルストリームと低スペクトルストリームのデシジョンツリーが形成される。低周波スペクトルストリームのツリーについては、ツリー内の各クラスタについて境界係数が決定される。ここでも、既知の信号処理方法を介してトレーニングデータから決定されたLSP係数が利用される。境界周波数に影響を及ぼす種類のコンテキスト上の差異に対してより敏感となる可能性が高いため、高周波スペクトルではなく低周波スペクトルに対するデシジョンツリーがこの決定を導くために使用される。
第1の実施形態では、各クラスタの境界係数が決定され、合成中に取り出され得るように記憶される。第2の実施形態では、境界係数は、合成中にオンザフライで生成されてもよい。
第1の実施形態では、低周波スペクトルストリームのデシジョンツリーにおける各クラスタについて、そのクラスタ内のすべてのトレーニングサンプルに関する各LSP係数ωkの周波数の統計値が収集される。クラスタ全体の中間周波数が所定のしきい値周波数Fb(たとえば、4kHz)を超える最低の係数が、次いで、そのクラスタのしきい値係数ωbとして設定される。各クラスタ(デシジョンツリー内の各リーフノード)のしきい値係数ωbは、次いで、音声合成中にアクセスされ得るように、ルックアップテーブルなどのメモリに記憶される。この方法は、固有の境界係数をクラスタに割り当てるために、低周波デシジョンツリーの各クラスタに適用される。
重複範囲を設けることにより、所定のしきい値周波数Fbは、デシジョンツリーを再計算する必要なしに、コンテキストに応じて容易に変更され得る。
図6は、トレーニングデータサンプルのセットに基づいて境界係数を決定する方法を示している。この方法は、図1に示すようなシステムによって実装され得る。
ステップ601において、トレーニングサンプル(ラベルおよび音響パラメータ、たとえばLSP)が受け取られる。次いで、全体的な(非分割)スペクトルについてデシジョンツリーが形成される(603)。これは、各言語単位の各ステートを取り、上記で説明したように類似のステートをクラスタリングすることを伴う。
LSP係数の分布は、高周波および低周波スペクトルストリームの重複範囲を決定する(605)ために使用される。重複範囲は、所定の周波数範囲にまたがる係数のセットであり、すなわち、重複範囲は、所定の周波数範囲内に入るトレーニング音声サンプルからの少なくとも1つのステートを有する係数のセットである。重複範囲は次いで、高周波および低周波スペクトルストリームにおけるLSP係数を決定するために使用される。
次いで、重複する高周波スペクトルストリームと低周波スペクトルストリームのデシジョンツリーが、LSP係数を高周波と低周波に分割して同じトレーニングサンプルを使用して形成され、クラスタがモデリングされる(607)。次いで、低周波スペクトルストリームにおける各クラスタの境界係数が決定される(609)。この実施形態では、境界係数は、所定のしきい値周波数よりも大きい(クラスタ内のトレーニングサンプルからの)中間周波数を有する最低のLSP係数となるように取られる。各クラスタの境界係数は次いで、低周波デシジョンツリーに格納される(611)。
したがって、境界係数は、音声を合成するときに、低周波デシジョンツリーから探索され得る。
第2の実施形態では、境界係数は、デシジョンツリーを参照することなく、合成時にオンザフライで決定される。境界係数は、そのフレームの低周波ストリームに関して生成されたLSP係数に基づいて、各フレームについて決定されてもよい。ここでも、低周波ストリームは、上記で説明したように、高周波ストリームと部分的に重複するようにトレーニングされている。この場合、低周波ストリームにおけるLSP係数の周波数が決定され、所定のしきい値周波数Fb(たとえば4kHz)の下での最高のLSP係数がそのフレームの境界係数として取られ、上記のすべてのLSP係数が高周波ストリームに割り当てられる。
2つのストリームのLSP係数が、全帯域を形成するように、境界係数において互いに連結され得る。次いで、連結されたLSP係数は、励起信号をフィルタリングするために使用される。いくつかの実施形態では、スペクトルストリームは、いくつかの対応する境界係数を有する3つ以上のストリームに分割され得る。この場合、これらは、全帯域を形成するように境界係数で互いに連結される。
トレーニング
図7は、一実施形態によるテキスト読み上げシステムをトレーニングする方法を示している。この方法は、図1のシステム1によって実装されてもよく、または、モデルがシステム1上に記憶される前に、モデルを生成するための別のデバイスによって実装されてもよい。
最初に、ラベル付けされたトレーニング音声サンプルが受け取られる(701)。各ストリームごとに、モデルがトレーニングデータに適合される(703)。そのようなストリームは、帯域非周期性ストリーム(bap)と、基本周波ストリーム(f0)と、高周波スペクトルストリーム(sph)と、低周波スペクトルストリーム(spl)とを含む。
上記で説明したように、高周波および低周波ストリームは、重複範囲を伴ってモデリングされる(図6を参照)。境界係数が各固有のステートごとに予め決定されている場合、次いで低周波ストリームにおける各クラスタに関する境界係数が決定される(705)(図7を参照)。デシジョンツリー、モデルおよび境界係数は、次いで、音声を合成する際に使用するために記憶される(707)。
境界係数が上述の第2の実施形態を使用して決定される場合、境界係数は記憶される必要がなく、その代わりに合成中に導出されてもよい。したがって、システムをトレーニングすることは、デシジョンツリーおよびモデルが記憶される前のステップ701および703のみを備えてもよい。境界係数は、次いで生成されている各フレームについて合成中に決定され得る。当然、この場合は、splとsphのストリームは重複することになる。
音声合成
図8は、一実施形態による音声を合成する方法を示している。この方法は、図1のシステムによって実装され得る。
最初に、言語単位のセットが受け取られる(801)。言語単位は、言語の音素、サブ音素または任意の他のセグメントであり得る。コンテキストは、言語単位から導出され得るものであり、たとえば、各言語単位は、その前後に現れる1つまたは複数の言語単位のコンテキストにおいて考慮され得る。あるいは、受け取られた言語単位は、コンテキストラベリングを既に備えていてもよい。
各言語単位について、HMMは、言語単位のコンテキストに基づいて、事前にトレーニングされたデシジョンツリーから抽出される。これは、各デシジョンツリー(すなわち、各ストリームについて)について、言語単位が含まれるクラスタ(リーフノード)を決定することを伴う。各言語単位(またはそのステート)はしたがって、高周波および低周波ストリームのLSP係数のセットに変換される(803)。各言語単位について、境界係数のインデックスが、低周波スペクトルストリームのデシジョンツリーから抽出される。代替的な実施形態では、境界インデックスは予め定義され、(上述のように)すべての言語単位について同じである。
次いで、高周波および低周波LSP係数が、全帯域LSPを形成するように境界係数で連結される(805)。一実施形態では、境界係数以下のインデックスを有するすべてのLSP係数は、低周波スペクトルストリームから取られ、残りのLSP係数は、高周波スペクトルストリームから取られる。これにより、より多量の言語情報を提供する低周波スペクトルストリームから、より多くの情報が提供される。
代替的な実施形態では、境界係数のインデックスより小さいインデックスを有するすべてのLSP係数は、低周波スペクトルストリームから取られ、境界係数のインデックス以上のインデックスを有するすべてのLSP係数は、高周波スペクトルストリームから取られる。
本実施形態では、次いでポストフィルタリングが全帯域LSP係数に適用されるが(807)、しかしながらこれは任意である。また、任意選択により、LSP係数は安定性についてチェックされてもよく、またLSP係数の順序が必要に応じて再整理される。別の実施形態では、ポストフィルタリングは、低周波スペクトルのみに適用されても、あるいはまったく適用されなくてもよい。
LSP係数は次いで、最小位相インパルス応答に変換され(809)、この最小位相インパルス応答は、帯域非周期性および基本周波ストリームから生成された励起信号をフィルタリングするために使用される(811)。帯域非周期性および基本周波ストリームは、当該技術分野で知られている方法を使用して生成されるものであり、したがってこれ以上は説明しない。励起信号は、合成音声波形を生成するために、最小位相インパルス応答により畳み込まれる。次いで、この音声波形が出力される(813)。生成されたLSP係数を励起パラメータで変換するための代替的な方法が存在し、本発明にも同様に適用可能である。
合成音声
図9〜図11は、テストセットにおける発話に関するLSP軌道を示している。図9は、自然の非合成軌道を示している。図10は、単一のスペクトルストリームを備えるHMMで合成された軌道を示している。図11は、一実施形態によるマルチスペクトルストリームHMMで合成された軌跡を示している。
より詳細な細部が、自然の軌跡において観察され得る(図9)。軌跡は、HMM生成パラメータにおいてより平滑化され、それにより、統計的モデリングによって引き起こされた平滑化効果が示される(図10)。それでもやはり、別個の高スペクトルストリームと低スペクトルストリームを使用して生成された軌跡(図11)は、より高次のLSP(4kHzの境界より上)において、ゆらぎの度合いが増大することを示している。これにより、モデリングされている個々の話者の特徴がより精確に表現されるので、より自然な響きの音声が得られる。
上記の実施形態は、スペクトルストリームを2つのストリームに分割するが、スペクトルがより多数のストリームに分割され得ることが理解されよう。これにより、スペクトルのモデリングについてフレキシビリティをさらに高めることが可能となり、さらなる周波数範囲をそれぞれの特性に基づいて別個にモデリングすることが可能となる。より多数のストリームに分割することは、上述した方法と同じ方法によって達成され得る(たとえば、境界係数の特定のセットが各分割ごとに決定されてもよい)。最低のスペクトル帯域より上の各スペクトル帯域は、トレーニングデータにより一層緊密にモデリングされ得る。最低の(またはより低い)スペクトル帯域は、ディープニューラルネットワークを介してモデリングされ得るのに対し、より上位のスペクトル帯域は、HMMおよび一層増大するデシジョンツリーを使用してモデリングされ得る。
特定の実施形態について説明したが、これらの実施形態は単なる例として提示されたものであり、本発明の範囲を限定することを意図するものではない。実際に、本明細書に記載された新規な方法およびシステムが、様々な他の形態で実施され得、さらに、本明細書に記載された方法およびシステムの形態における様々な省略、置換および変更が、本発明の精神から逸脱することなく行われ得る。添付の特許請求の範囲およびそれらの等価物は、本発明の範囲および精神に含まれるような、そのような形態の改変を包含することを意図したものである。

Claims (17)

  1. 音声合成方法であって、
    音声合成装置において、
    1つまたは複数の言語単位を受け取ることと、
    前記1つまたは複数の言語単位を、音声を合成するための一連の音声ベクトルに変換することと、ここで、前記変換は、1つまたは複数の統計モデルの第1のセットをより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える、
    前記一連の音声ベクトルを出力することと、
    を備える、音声合成方法。
  2. 1つまたは複数の統計モデルの前記第1のセットは、1つまたは複数の統計モデルの前記第2のセットと比べて、より緊密に元のトレーニング音声データセットに適合される、請求項1に記載の音声合成方法。
  3. 前記高周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、
    前記低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、
    前記低周波スペクトルストリームは、ディープニューラルネットワークを使用してモデリングされる、請求項1または2に記載の音声合成方法。
  4. 一連の音声ベクトルに前記1つまたは複数の言語単位を変換することは、前記1つまたは複数の言語単位の各々について、
    前記言語単位に関していくつかのステートを割り当てることと、
    前記言語単位の各ステートについて、
    前記高周波および低周波スペクトルストリームの各々について1つまたは複数のラインスペクトルペアを生成することと、
    複合スペクトルを形成するために境界において前記高周波および低周波スペクトルストリームの前記ラインスペクトルペアを連結することと、
    前記ステートについて前記複合スペクトルを使用して音声ベクトルを生成することと、
    を備える、請求項1〜3のいずれか一項に記載の音声合成方法。
  5. 同じ境界が各言語単位に適用される、または
    各言語単位の各ステートがそれ自体の固有の境界を割り当てられる、または
    各ステートがいくつかのフレームを備え、各ステート内の各フレームはそれ自体の固有の境界を割り当てられる、請求項4に記載の音声合成方法。
  6. 前記高周波スペクトルストリームと低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたって、すべてのステートについて重複し、そしてまた、
    各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、そのステートの境界を設定するために各ステートについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各ステートについて前記境界ラインスペクトルペアインデックスを定義することは、そのステートの前記低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定することと、所定のしきい値周波数に対して前記ステートの前記ラインスペクトルペアの前記周波数のアセスメントに基づいて前記境界ラインスペクトルペアインデックスを決定することとを備える、または
    各言語単位の各ステートはいくつかのフレームを備え、ここにおいて、各フレーム単位はそれ自体の固有の境界を割り当てられ、そのフレームの境界を設定するために各フレームについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各フレームについて前記境界ラインスペクトルペアインデックスを定義することは、そのフレームの前記低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定すること、および所定のしきい値周波数に対して前記フレームの前記ラインスペクトルペアの前記周波数のアセスメントに基づいて前記境界ラインスペクトルペアインデックスを決定することを備える、
    請求項4に記載の音声合成方法。
  7. 一連の言語単位を一連の音声ベクトルに変換するために音声合成装置をトレーニングする方法であって、コントローラを備えるトレーニングシステムにおいて、
    音声データおよび関連する言語単位を受け取ることと、
    モデルのセットを前記音声データおよび関連する言語単位に適合させることと、ここにおいて、前記適合させることは、高周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第1のセットを前記音声データのより高いスペクトル周波数に適合させること、および別個の低周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第2のセットを前記音声データのより低いスペクトル周波数に適合させることを備える、
    モデルの前記セットを出力することと、
    を備える方法。
  8. 1つまたは複数の統計モデルの前記第1のセットは、1つまたは複数の統計モデルの前記第2のセットと比べて、より緊密に音声データに適合される、請求項7に記載の方法。
  9. 前記高周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、そしてまた、
    前記低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きい、または、
    前記低周波スペクトルストリームは、ディープニューラルネットワークを使用してモデリングされる、
    請求項7または8に記載の方法。
  10. 各言語単位がいくつかのステートを備え、
    1つまたは複数の統計モデルの前記第1および第2のセットは、各ステートについて、ラインスペクトルペアの第1および第2のセットをそれぞれ生成するように構成される、ここにおいて、ラインスペクトルペアの前記第1および第2のセットは、前記ステートに関して複合スペクトルを形成するように連結され得る、請求項7〜9のいずれか一項に記載の方法。
  11. 前記高周波スペクトルストリームと低周波スペクトルストリームとの間の境界を設定する境界ラインスペクトルペアを定義することをさらに備え、ここにおいて、
    同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用される、または
    各言語単位の各ステートがそれ自体の固有の境界を割り当てられる、または
    各ステートがいくつかのフレームを備え、各ステート内の各フレームがそれ自体の固有の境界を割り当てられる、
    請求項10に記載の方法。
  12. 前記同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用され、前記境界ラインスペクトルペアインデックスを定義することは、前記受け取られた音声データの各ステートについて前記ラインスペクトルペアの周波数を決定することと、所定のしきい値周波数に対してすべてのステートにわたり前記ラインスペクトルペアの各々の中間周波数に基づいて前記境界ラインスペクトルペアインデックスを定義することとを備える、請求項11に記載の方法。
  13. 請求項8に従属するとき、
    前記低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、
    各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、前記高周波および低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたりすべてのステートについて重複するように定義され、ここにおいて、前記重複範囲は、前記それぞれのラインスペクトルペアインデックスが所定の周波数範囲内に入る周波数を有する前記受け取られた音声データからの少なくとも1つのステートを有するラインスペクトルペアインデックスとして定義される、請求項11に記載の方法。
  14. 各ステートについて前記境界ラインスペクトルペアインデックスを定義することは、前記低周波スペクトルストリームの各デシジョンツリーにおける各リーフノードについて、
    前記リーフノードにおいて前記受け取られた音声データの前記ステートのすべてにわたり各ラインスペクトルペアインデックスについて中間周波数を決定することと、
    所定のしきい値周波数に対する各ラインスペクトルペアインデックスの前記中間周波数に基づいて、前記リーフノードにおいて前記ステートについて境界ラインスペクトルペアインデックスを決定することと、
    を備える、請求項13に記載の方法。
  15. コンピュータに請求項1〜14のいずれか一項に記載の方法を実施させるように構成されたコンピュータ可読コードを備えるキャリア媒体。
  16. 音声合成装置であって、
    1つまたは複数の言語単位を受け取ることと、
    前記1つまたは複数の言語単位を、音声を合成するための一連の音声ベクトルに変換することと、ここで、前記変換は、1つまたは複数の統計モデルの第1のセットをより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える、
    前記一連の音声ベクトルを出力することと、
    を行うように構成されたプロセッサを備える、音声合成装置。
  17. 音声合成装置が一連の言語単位を一連の音声ベクトルに変換するためのトレーニングシステムであって、
    音声データおよび関連する言語単位を受け取ることと、
    モデルのセットを前記音声データおよび関連する言語単位に適合させることと、ここにおいて、前記適合させることは、高周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第1のセットを前記音声データのより高いスペクトル周波数に適合させること、および別個の低周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第2のセットを前記音声データのより低いスペクトル周波数に適合させることを備える、
    モデルの前記セットを出力することと、
    を行うように構成されたコントローラを備える、トレーニングシステム。
JP2017029713A 2016-03-14 2017-02-21 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 Expired - Fee Related JP6330069B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1604334.1 2016-03-14
GB1604334.1A GB2548356B (en) 2016-03-14 2016-03-14 Multi-stream spectral representation for statistical parametric speech synthesis

Publications (2)

Publication Number Publication Date
JP2017167526A true JP2017167526A (ja) 2017-09-21
JP6330069B2 JP6330069B2 (ja) 2018-05-23

Family

ID=55952302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017029713A Expired - Fee Related JP6330069B2 (ja) 2016-03-14 2017-02-21 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現

Country Status (3)

Country Link
US (1) US10446133B2 (ja)
JP (1) JP6330069B2 (ja)
GB (1) GB2548356B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036371B (zh) * 2018-07-19 2020-12-18 北京光年无限科技有限公司 用于语音合成的音频数据生成方法及系统
US11368799B2 (en) * 2020-02-04 2022-06-21 Securboration, Inc. Hearing device customization systems and methods
CN113555007B (zh) * 2021-09-23 2021-12-14 中国科学院自动化研究所 语音拼接点检测方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194388A (ja) * 1998-12-25 2000-07-14 Mitsubishi Electric Corp 音声合成装置
JP2009109805A (ja) * 2007-10-31 2009-05-21 Toshiba Corp 音声処理装置及びその方法
JP2012048154A (ja) * 2010-08-30 2012-03-08 Toshiba Corp 音声合成装置、音声合成方法およびプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5926791A (en) * 1995-10-26 1999-07-20 Sony Corporation Recursively splitting the low-frequency band with successively fewer filter taps in methods and apparatuses for sub-band encoding, decoding, and encoding and decoding
DE10047172C1 (de) * 2000-09-22 2001-11-29 Siemens Ag Verfahren zur Sprachverarbeitung
US7328151B2 (en) * 2002-03-22 2008-02-05 Sound Id Audio decoder with dynamic adjustment of signal modification
US20080106370A1 (en) * 2006-11-02 2008-05-08 Viking Access Systems, Llc System and method for speech-recognition facilitated communication to monitor and control access to premises
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
GB0815587D0 (en) * 2008-08-27 2008-10-01 Applied Neural Technologies Ltd Computer/network security application
US8537978B2 (en) * 2008-10-06 2013-09-17 International Business Machines Corporation Method and system for using conversational biometrics and speaker identification/verification to filter voice streams
JP5115509B2 (ja) * 2009-03-26 2013-01-09 ブラザー工業株式会社 コンテンツ配信システム、ノード装置、離脱処理遅延方法及び離脱処理遅延制御プログラム
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
US8914287B2 (en) * 2010-12-31 2014-12-16 Echostar Technologies L.L.C. Remote control audio link
US20120284026A1 (en) * 2011-05-06 2012-11-08 Nexidia Inc. Speaker verification system
US9031842B2 (en) * 2011-07-28 2015-05-12 Blackberry Limited Methods and devices for facilitating communications
US20150366504A1 (en) * 2014-06-20 2015-12-24 Medibotics Llc Electromyographic Clothing
US20140214676A1 (en) * 2013-01-29 2014-07-31 Dror Bukai Automatic Learning Fraud Prevention (LFP) System
US10203762B2 (en) * 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US10255903B2 (en) * 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10225365B1 (en) * 2014-12-19 2019-03-05 Amazon Technologies, Inc. Machine learning based content delivery
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194388A (ja) * 1998-12-25 2000-07-14 Mitsubishi Electric Corp 音声合成装置
JP2009109805A (ja) * 2007-10-31 2009-05-21 Toshiba Corp 音声処理装置及びその方法
JP2012048154A (ja) * 2010-08-30 2012-03-08 Toshiba Corp 音声合成装置、音声合成方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高木信二: "Deep Neural Networkに基づく音響特徴抽出・音響モデルを用いた統計的音声合成システム", 情報処理学会研究報告 音声言語情報処理(SLP) 2015−SLP−105 [ONLINE], JPN6018001790, 27 February 2015 (2015-02-27), JP, pages 1 - 6, ISSN: 0003723508 *

Also Published As

Publication number Publication date
US20170263239A1 (en) 2017-09-14
GB2548356A (en) 2017-09-20
JP6330069B2 (ja) 2018-05-23
US10446133B2 (en) 2019-10-15
GB201604334D0 (en) 2016-04-27
GB2548356B (en) 2020-01-15

Similar Documents

Publication Publication Date Title
US11990118B2 (en) Text-to-speech (TTS) processing
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
JP5768093B2 (ja) 音声処理システム
US8321222B2 (en) Synthesis by generation and concatenation of multi-form segments
US20200410981A1 (en) Text-to-speech (tts) processing
US11763797B2 (en) Text-to-speech (TTS) processing
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
US7558389B2 (en) Method and system of generating a speech signal with overlayed random frequency signal
US10699695B1 (en) Text-to-speech (TTS) processing
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP5039865B2 (ja) 声質変換装置及びその方法
WO2022046526A1 (en) Synthesized data augmentation using voice conversion and speech recognition models
WO2016172871A1 (zh) 基于循环神经网络的语音合成方法
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
Mullah A comparative study of different text-to-speech synthesis techniques
Sharma et al. Polyglot speech synthesis: a review
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
EP1589524B1 (en) Method and device for speech synthesis
Govender et al. The CSTR entry to the 2018 Blizzard Challenge
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
i Barrobes Voice Conversion applied to Text-to-Speech systems
EP1640968A1 (en) Method and device for speech synthesis
Shah et al. Influence of various asymmetrical contextual factors for TTS in a low resource language

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180423

R150 Certificate of patent or registration of utility model

Ref document number: 6330069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees