JP6092293B2 - テキスト読み上げシステム - Google Patents

テキスト読み上げシステム Download PDF

Info

Publication number
JP6092293B2
JP6092293B2 JP2015096807A JP2015096807A JP6092293B2 JP 6092293 B2 JP6092293 B2 JP 6092293B2 JP 2015096807 A JP2015096807 A JP 2015096807A JP 2015096807 A JP2015096807 A JP 2015096807A JP 6092293 B2 JP6092293 B2 JP 6092293B2
Authority
JP
Japan
Prior art keywords
speaker
parameter set
voice
parameter
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015096807A
Other languages
English (en)
Other versions
JP2015172769A (ja
Inventor
政巳 赤嶺
政巳 赤嶺
ラトーレ・マルティネス・ハビエル
ワン・ビンセント・ピン・ルン
チン・カン・クホン
ゲールズ・マーク・ジョン・フランシス
ニル・キャサリン・マリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2015172769A publication Critical patent/JP2015172769A/ja
Application granted granted Critical
Publication of JP6092293B2 publication Critical patent/JP6092293B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

実施形態は、ここで一般的に記述されているように、テキスト読み上げシステム及び方法に関する。
テキスト読み上げシステムは、テキストファイルの受け取りに応じて、オーディオ音声またはオーディオ音声ファイルが出力されるシステムである。テキスト読み上げシステムは、電子ゲーム、電子ブックリーダ、電子メールリーダ、衛星航法、自動電話システム、自動警告システムのような広範な種々のアプリケーションにおいて使用される。システムをより人間の声らしく聞こえさせるという持続的な要求が存在する。
(関連出願の相互参照)
この出願は、2012年3月30日に提出された英国特許出願第1205791.5(これの全内容は参照によってここに組み込まれる)に基づいており、これによる優先権の利益を主張する。
制限されない実施形態に従うシステム及び方法が、これから添付図面を参照しながら記述される。
図1は、テキスト読み上げシステムの概略図である。 図2は、音声処理システムによって行なわれるステップを示すフロー図である。 図3は、ガウス確率関数の概略図である。 図4は、実施形態に従う音声処理方法のフロー図である。 図5は、声特性がどのように選択され得るかを示すシステムの概略図である。 図6は、図5のシステムの変形である。 図7は、図5のシステムの追加的な変形である。 図8は、図5のシステムの更なる追加的な変形である。 図9は、トレーニング可能なテキスト読み上げシステムの概略図である。 図10は、実施形態に従う音声処理システムをトレーニングする方法を実証するフロー図である。 図11は、図10のうち話者クラスタをトレーニングするためのステップのいくつかをより詳細に示すフロー図である。 図12は、図10のうち属性に関するクラスタをトレーニングするためのステップのいくつかをより詳細に示すフロー図である。 図13は、実施形態によって使用される決定木の概略図である。 図14は、図10の方法を使用してシステムをトレーニングするのに適した様々なタイプのデータの集積(collection)を示す概略図である。 図15は、実施形態に従うシステムの適応(adapting)を示すフロー図である。 図16は、追加的な実施形態に従うシステムの適応(adapting)を示すフロー図である。 図17は、異なる話者間で感情がどのように移植(transplant)可能であるかを示すプロットである。 図18は、情緒的な音声の移植を示す音響空間のプロットである。
実施形態において、選択された話者の声及び選択された話者の属性を持つ音声を出力するように構成された方法が提供される。上記方法は、テキストを入力することと、入力された上記テキストを音響単位の系列へと分割することと、入力テキストの話者を選択することと、上記入力テキストの話者属性を選択することと、音響モデルを用いて上記音響単位の系列を音声ベクトルの系列へと変換することと、上記選択された話者の声及び選択された話者属性を持つオーディオとして上記音声ベクトルの系列を出力することとを具備する。上記音響モデルは、話者の声に関連する第1のパラメータ・セットと、話者属性に関連する第2のパラメータ・セットとを備える。第1及び第2のパラメータ・セットは重複しない。話者の声を選択することは、話者の声を与えるパラメータを第1のパラメータ・セットから選択することを備える。話者属性を選択することは、選択された話者属性を与えるパラメータを第2のセットから選択することを備える。
上記方法は、話者の声及び属性の因子分解(factorisation)を使用する。第1のパラメータ・セットは「話者モデル」を提供するとみなすことができ、第2のパラメータ・セットは「属性モデル」を提供するとみなすことができる。2つのパラメータ・セットの間には重複がないので、これらは、属性が様々な話者の範囲と合成され得るように、それぞれ独立して変更可能である。
実施形態の一部に従う方法は、複数の話者の声及び複数の表現(expression)及び/または他の種類の声特徴(話し方(speaking style)、訛りなど)を持つ音声を合成する。
パラメータ・セットは、話者の声が連続的な範囲に亘って可変であるように、ならびに、声属性が連続的な範囲に亘って可変であるように、連続的であってもよい。連続的な制御は、「悲しい」または「怒っている」などの正当な(just)表現だけでなく任意の中間的な表現をも可能にする。第1及び第2のパラメータ・セットの値は、オーディオ、テキスト、外部エージェントまたはその任意の組み合わせを用いて定義されてよい。
実行可能な属性は、感情、話し方または訛りに関連する。
一実施形態において、話者モデルを、感情をモデル化する第1の属性モデル及び訛りをモデル化する第2の属性モデルと合成することが可能であるように、複数の独立した属性モデル(例えば、感情、属性)がある。ここで、様々な話者属性に関連する複数のパラメート・セットが存在する可能性があるが、複数のパラメータ・セットは重複しない。
更なる実施形態において、音響モデルは音響単位を音声ベクトルの系列に関連付ける確率分布関数を備えており、第1及び第2のパラメータ・セットの選択は上記確率分布を変形する。一般に、これらの確率密度関数はガウシアンと呼ばれ、平均及び分散によって記述される。しかしながら、他の確率分布関数も可能である。
更なる実施形態において、話者の声及び属性の制御は上記確率分布の平均の重み付き和を通じて達成され、第1及び第2のパラメータ・セットの選択は使用される重み及びオフセットを制御する。例えば、次の通りである。
ここで、μxpr spkrModelは表現xprと合成された話者モデルの確率分布の平均であり、μspkrModelは表現がない場合の話者モデルの平均であり、μxprModelは話者から独立した表現モデルの平均であり、λspkrは話者依存の重み付けであり、λxprは表現依存の重み付けである。
出力音声の制御は、それぞれの声特徴が平均及び重みの独立したセットによって制御されるように、重み付き平均によって達成可能である。
上記のものは、クラスタ適応トレーニング(CAT)型アプローチを用いて達成されてもよく、ここで第1のパラメータ・セット及び第2のパラメータ・セットはクラスタ内で提供され、各クラスタは少なくとも1つのサブクラスタを備え、重み付けはサブクラスタ毎に導出される。
実施形態において、上記第2のパラメータ・セットは、例えば次のように、第1のパラメータ・セットの少なくとも一部に加えられるオフセットに関連する。
ここで、μneu spkrModelはニュートラルな感情の話者モデルであり、Δxprはオフセットである。この具体例において、オフセットは、ニュートラルな感情の話者モデルに適用されることになるが、当該オフセットがニュートラルな感情に関して計算されたのかそれとも別の感情に関して計算されたのか次第で異なる感情の話者モデルにも適用可能である。
クラスタベースの方法が使用される場合に、ここでのオフセットΔは重み付き平均とみなすことができる。しかしながら、後述されるように他の方法も可能である。
これは、1つまたはより多くの所望の声特徴をモデル化するオフセット・ベクトルを目標モデルの平均に加えることによって、ある統計モデルの声特徴を目標統計モデルにエクスポート(export)することを可能にする。
本発明の実施形態に従う方法には、音声属性がある話者から別の話者へ移植されること(例えば、第1の話者から第2の話者へ、第1の話者の音声から得られる第2のパラメータを第2の話者の音声に加えることによって)を可能にするものもある。
一実施形態において、これは、移植される属性を伴って話している第1の話者から音声データを受け取ることと、第2の話者の音声データに最も近い第1の話者の音声データを識別することと、移植される属性を伴って話している第1の話者から得られる音声データと第2の話者の音声データに最も近い第1の話者の音声データとの間の差分を判定することと、上記差分から第2のパラメータを判定することとによって達成され得るが、例えば第2のパラメータは次の関数fによって差分に関連付けられてよい。
ここで、μxpr xprModelは、移植される属性xprを伴って話している所与の話者の表現モデルの平均であり、μ^neu xprModelは属性が適用される話者の音声データに最高に合致する所与の話者のモデルの平均ベクトルである。この例において、最高の合致はニュートラルな感情データについて示されているが、それは2人の話者について共通または類似である任意の他の感情についてあり得る。
差分は、音響単位を音声ベクトルの系列に関連付ける確率分布の平均ベクトル同士の差分から判定されてよい。
「第1の話者」モデルは、多数の話者からのデータの組み合わせから構築された平均的な声モデルなどの合成的なものであってもよいことに注意されたい。
更なる実施形態において、第2のパラメータは、上記差分の関数として定義され、上記関数は例えば次の線形関数である。
ここで、A及びbはパラメータである。上記関数を制御するためのパラメータ(例えば、Aまたはb)及び/または話者モデルの平均ベクトルに最も類似する表現の平均ベクトルは、表現モデルセットのパラメータと、話者依存のモデルの確率分布のパラメータまたは係る話者依存のモデルをトレーニングするために使用されるデータ、話者依存のモデルの声特徴についての情報のうち1つ以上とから自動的に計算されてよい。
第2の話者の音声データに最も近い第1の話者の音声データを識別することは、例えば次の数式を用いて、第1の話者の音声データ及び第2の話者の音声データの確率分布に依存する距離関数を最小化することを備えてもよい。
ここで、μneu spkrModel及びΣneu spkrModelは話者モデルの平均及び分散であり、μ xprModel及びΣ xprModelは感情モデルの平均及び分散である。
距離関数は、ユークリッド距離、バタチャリヤ(Bhattacharyya)距離、または、カルバックライブラ(Kullback-Leibler)距離であってよい。
更なる実施形態において、テキスト読み上げシステム用の音響モデルをトレーニングする方法が提供され、上記音響モデルは音響単位の系列を音声ベクトルの系列へと変換する。上記方法は、様々な属性を伴って話している複数の話者から音声データを受け取ることと、受け取られた音声データから共通の属性を伴って話している話者に関連する音声データを分離(isolate)することと、共通の属性を伴って話している複数の話者から受け取られた音声データを用いて第1の音響サブモデルをトレーニングすること(上記トレーニングすることは第1のパラメータ・セットを導出することを備え、上記第1のパラメータ・セットは音響モデルを複数の話者の音声に適応させるために変更される)と、残余の音声から第2の音響サブモデルをトレーニングすること(上記トレーニングすることは上記残余の音声から複数の属性を識別することと第2のパラメータ・セットを導出することとを備え、上記第2のパラメータ・セットは音響モデルを複数の属性の音声に適応させるために変更される)と、合成された音響モデルが話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備えるように第1及び第2の音響サブモデルを合成することによって音響モデルを出力することとを具備する。第1及び第2のパラメータ・セットは重複しない。話者の声を選択することは、第1のパラメータ・セットから話者の声を与えるパラメータを選択することを備える。話者属性を選択することは、第2のパラメータから選択された話者属性を与えるパラメータを選択することを備える。
例えば、共通の属性は、ニュートラルな感情を伴って話している話者のサブセット、または、全て同じ感情、同じ訛りなどを伴って話している話者のサブセットであってよい。全ての話者が全ての属性について記録される必要はない。ここで、1つの属性の音声データのみが第1のモデルをトレーニングするために使用された話者のいずれでもない1人の話者から得られる場合には、(属性の移植に関連して上に説明したように)システムはこの属性に関してトレーニング可能である。
トレーニングデータのグルーピングは、声特徴毎にユニークであってもよい。
更なる実施形態において、音響モデルは音響単位を音声ベクトルの系列に関連付ける確率分布関数を備え、第1の音響サブモデルをトレーニングすることは確率分布をクラスタに配置すること(各クラスタは少なくとも1つのサブクラスタを含み、上記第1のパラメータ・セットはサブクラスタあたり1つの重みがあるように適用される話者依存の重みである)を備え、第2の音響サブモデルをトレーニングすることは確率分布をクラスタに配置すること(各クラスタは少なくとも1つのサブクラスタを含み、上記第2のパラメータはサブクラスタあたり1つの重みがあるように適用される属性依存の重みである)を備える。
一実施形態において、トレーニングは反復処理を介して行われ、方法は、収束基準が満足されるまで、繰り返し、第2の音響サブモデルのパラメータの部分を固定したまま第1の音響モデルのパラメータを再推定し、それから第1の音響サブモデルのパラメータの部分を固定したまま第2の音響サブモデルのパラメータを再推定することを備える。収束基準は、再推定が固定回数実行されることに取って代わられてもよい。
更なる実施形態において、テキスト読み上げシステムは、選択された話者の声及び選択された話者属性、複数の異なる声特徴を持つ音声のシミュレート用に提供されてよい。上記システムは、入力テキストを受け取るためのテキスト入力と、上記入力テキストを音響単位の系列へと分割し、入力テキストの話者を選択させ、入力テキストの話者属性を選択させ、音響モデルを用いて上記音響単位の系列を音声ベクトルの系列へと変換し(上記モデルは音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ)、選択された話者及び選択された話者属性を持つオーディオとして上記音声ベクトルの系列を出力するように構成されたプロセッサとを具備する。上記音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備える。第1及び第2のパラメータ・セットは重複しない。話者の声を選択することは、第1のパラメータ・セットから話者の声を与えるパラメータを選択することを備える。話者属性を選択することは、第2のセットから選択された話者属性を与えるパラメータを選択することを備える。
本発明の実施形態に従う方法は、ハードウェアにおいて、または、汎用コンピュータ中のソフトウェア上で実装可能である。本発明の実施形態に従う更なる方法は、ハードウェア及びソフトウェアの組み合わせにおいて実装可能である。本発明の実施形態に従う方法は、単一の処理装置、または、処理装置の分散型ネットワークによっても実装可能である。
実施形態に従う方法にはソフトウェアによって実装可能なものもあるので、実施形態には任意の適した搬送媒体で汎用コンピュータに提供されるコンピュータコードを包含するものもある。搬送媒体は、フロッピー(登録商標)ディスク、CD ROM、磁気デバイス、プログラム可能なメモリデバイスなどの任意の記憶媒体、または、任意の信号(例えば、電気、光またはマイクロ波信号)などの任意の一時的な媒体を備えることができる。
図1は、テキスト読み上げシステム1を示す。テキスト読み上げシステム1は、プログラム5を実行するプロセッサ3を備える。テキスト読み上げシステム1は、ストレージ7を更に備える。ストレージ7は、テキストを音声に変換するプログラム5によって使用されるデータを保存する。テキスト読み上げシステム1は、入力モジュール11及び出力モジュール13を更に備える。入力モジュール11は、テキスト入力15に接続される。テキスト入力15は、テキストを受け取る。テキスト入力15は、例えばキーボードであってよい。或いは、テキスト入力は、外部の記憶媒体またはネットワークからテキストデータを受け取るための手段であってもよい。
出力モジュール13が接続されるのは、オーディオ用の出力17である。オーディオ出力17は、テキスト入力15に入力されたテキストから変換された音声信号を出力するために使用される。オーディオ出力17は、例えば、直接的なオーディオ出力(例えば、スピーカ)であってもよいし、記憶媒体、ネットワークなどに送信され得るオーディオデータファイル用の出力であってもよい。
使用時に、テキスト読み上げシステム1は、テキスト入力15を通じてテキストを受け取る。プロセッサ3上で実行されるプログラム5は、ストレージ7に保存されたデータを用いてテキストを音声データへと変換する。音声は、出力モジュール13を介してオーディオ出力17へと出力される。
簡略化された処理が、図2を参照してこれから記述される。最初のステップ(S101)において、テキストが入力される。テキストは、キーボード、タッチスクリーン、テキスト予測器(predictor)などを介して入力されてよい。テキストは、それから、音響単位の系列へと変換される。これらの音響単位は、音素であってもよいし、書記素であってもよい。単位は、コンテキスト依存(例えば、選択された音素だけでなく前後の音素を考慮に入れるトライフォン(triphone))であってもよい。テキストは、技術分野において周知であるがここではこれ以上説明されない技術を用いて、音響単位の系列へと変換される。
ステップS105において、音響単位を音声パラメータへと関連付ける確率分布がルックアップされる。この実施形態において、確率分布は、平均及び分散によって定義されるガウス分布となる。ポアソン分布、スチューデントのt(Student-t)分布、ラプラス分布またはガンマ分布などの他の分布を使用することも可能であるが、これらの一部は平均及び分散以外の変数によって定義される。
各音響単位が、技術分野の術語を使用するために音声ベクトルまたは「観測」に対して決定的な一対一対応を持つことは不可能である。多くの音響単位は、同様のやり方で発音されることもあるし、単語またはセンテンス内に位置する周囲の音響単位によって影響されることもあるし、様々な話者によって違ったように発音されることもある。故に、各音響単位は、音声ベクトルへ関連付けられることの確率を持つに過ぎず、テキスト読み上げシステムは、多くの確率を計算し、音響単位の系列を仮定した場合に最も適当な観測の系列を選択する。
ガウス分布が図3に示される。図3は、音声ベクトルに関連する音響単位の確率分布であると考えることができる。例えば、Xとして示される音声ベクトルは、図3に示される分布を持つ音素または他の音響単位に対応することについて確率P1を持つ。
ガウシアンの形状及び位置は、その平均及び分散によって定義される。これらのパラメータは、システムのトレーニングの間に決定される。
これらのパラメータは、それから、ステップS107において音響モデルの中で使用される。この記述において、音響モデルは隠れマルコフモデル(HMM)である。しかしながら、他のモデルも使用可能である。
テキスト読み上げシステムは、音響単位(即ち、音素、書記素、単語またはその品詞)を音声パラメータに関連付ける多くの確率密度関数を保存する。ガウス分布が一般的に使用されるので、これらは一般的にガウシアンまたはコンポーネントと呼ばれる。
隠れマルコフモデルまたは他の種別の音響モデルにおいて、特定の音響単位に関連する全ての潜在的な音声ベクトルの確率が考慮されなければならない。それから、音響ユニットの系列に最も対応しそうな音声ベクトルの系列が考慮に入れられることになる。これは、2つの単位が互いに影響し合うやり方を考慮に入れる、系列に属する音響単位の全体に亘るグローバルな最適化を暗示する。結果として、特定の音響単位に対して最も適当な音声ベクトルが、音響単位の系列が考慮される場合の最高の音声ベクトルではない、ということが起こり得る。
一旦、音声ベクトルの系列が決定されたならば、ステップS109において音声が出力される。
図4は、実施形態に従うテキスト読み上げシステムのプロセスのフローチャートである。ステップS201において、テキストは、図2を参照して述べられたものと同じやり方で受け取られる。それから、ステップS203において、テキストは、音響単位(音素、書記素、コンテキスト依存の音素または書記素、単語、単語の一部などであってよい)の系列へと変換される。
図4のシステムは、多数の様々な声属性を持つ多数の様々な話者を用いて音声を出力できる。例えば、実施形態において、声属性は、幸福そうに聞こえる声、悲しげに聞こえる声、怒っているように聞こえる声、緊張しているように聞こえる声、落ち着いているように聞こえる声、威圧的に聞こえる声などから選択されてよい。話者は、男性の声、若い女性の声などの潜在的な話し声の範囲から選択されてよい。
ステップS204において、所望の話者が決定される。これは、多数の様々な方法によってなされてよい。選択される話者を決定するための実行可能な方法のうちいくつかが図5乃至図8を参照して説明される。
ステップS206において、声に使用される話者属性が選択される。話者属性は、多数の様々なカテゴリから選択されてよい。例えば、カテゴリは、感情、訛りなどから選択されてよい。実施形態に従う方法において、属性は、幸福、悲しい、怒っている、などであってよい。
図4を参照して述べられる方法において、各ガウシアンコンポーネントは平均及び分散によって記述される。この特定の方法においても同様に、使用される音響モデルは、クラスタに分類されているモデルパラメータに重みを適用することによって話者及び話者属性が集積されるクラスタ適応トレーニング(CAT)方法を用いてトレーニングされている。しかしながら、他の技法も可能であり、後述される。
いくつかの実施形態において、ガウシアンを用いてそれぞれモデル化される複数の様々な状態がある。例えば、実施形態において、テキスト読み上げシステムは、多数のストリーム(stream)を備える。係るストリームは、スペクトルパラメータ(スペクトル)、基本周波数の対数(対数F)、対数Fの一次微分(デルタ対数F)、対数Fの二次微分(デルタ−デルタ対数F)、帯域非周期性パラメータ、持続期間のうちの1つ以上から選択されてよい。ストリームは、無音(sil)、短休止(pau)及び音声(spe)などのクラスへと更に分割されてもよい。実施形態において、ストリーム及びクラスの各々からのデータは、HMMを用いてモデル化される。HMMは様々な数の状態を備えてよく、例えば、実施形態において5状態HMMが上記ストリーム及びクラスのうちいくつかからのデータをモデル化するために使用されてよい。ガウシアンコンポーネントは、HMM状態毎に決定される。
図4のシステムにおいて、選択された話者のガウシアンの平均が独立したガウシアンの平均の重み付き和として表現される、CATベースの方法が使用される。故に、次の通りである。
ここで、μ (s,e1,・・・eF)は選択された話者の声s及び属性e,・・・eのコンポーネントmについての平均であり、i∈{1,.......,P}は総クラスタ数Pのクラスタのインデックスであり、λ (s,e1,・・・eF)は話者s及び属性e,・・・eについてのi番目のクラスタの話者及び属性依存の補間重みである。μc(m,i)は、クラスタiにおけるコンポーネントmの平均である。クラスタのうち1つ(通常はクラスタi=1)について、全ての重みが常に1.0に設定される。このクラスタは、「バイアスクラスタ」と呼ばれる。
各要素の独立制御を得るために、重みは次のように定義される。
その結果、数式1は次のように書き換え可能である。
ここで、μc(m,1)はバイアスクラスタに関連付けられる平均を表し、μ(s) c(m,i)は話者クラスタの平均であり、μ(ef) c(m,i)は属性fの平均である。
各クラスタは、少なくとも1つの決定木を備える。クラスタにおいて、コンポーネント毎に決定木がある。表現を簡略化するために、c(m,i)∈{1,.......,N}は、i番目のクラスタの平均ベクトル決定木においてコンポーネントmの一般的な葉ノードインデックスを示す(Nは全てのクラスタの決定木の全域での葉ノードの総数)。決定木の詳細は、後で説明される。
ステップS207において、システムは、アクセス可能なやり方で保存される平均及び分散をルックアップする。
ステップS209において、システムは、所望の話者及び属性のための平均の重み付けをルックアップする。話者及び属性依存の重み付けがステップS207において平均がルックアップされる前にルックアップされても後にルックアップされてもよいことは、当業者によって理解されるであろう。
故に、ステップS209の後に、話者及び属性依存の平均を得る(即ち、平均を用いて重み付けを適用する)ことは可能であり、それからこれらはステップS211において図2のステップS107を参照して記述されたものと同じやり方で音響モデルの中で使用される。それから、音声はステップS213において出力される。
ガウシアンの平均はクラスタリングされる。実施形態において、各クラスタは、少なくとも1つの決定木を含み、前述の木において用いられる決定は、言語的変動、音声的変動及び韻律的変動に基づいている。実施形態において、クラスタのメンバである各コンポーネントの決定木がある。韻律的コンテキスト(context)、音声的コンテキスト及び言語的コンテキストは、最終的な音声波形に影響する。音声的コンテキストは典型的には声道に影響し、韻律的(例えば、音節)コンテキスト及び言語的(例えば、単語の品詞)コンテキストは、持続期間(リズム)及び基本周波数(声調)などの韻律に影響する。各クラスタは、1以上のサブクラスタを備えてよい(ここで、各サブクラスタは少なくとも1つの前述の決定木を備える)。
上記のものは、各サブクラスタの重みまたは各クラスタの重みベクトル(重みベクトルの要素は、各サブクラスタの重み付けである)を検索することと考えることができる。
以下の構成は、標準的な実施形態を示す。このデータをモデル化するために、この実施形態において、5状態HMMが使用される。データは、この例に関して3つのクラス(無音、短休止及び音声)へと分離される。この特定の実施形態において、サブクラスタ毎の決定木及び重みの割り当ては次の通りである。
この特定の実施形態において、以下のストリームがクラスタ毎に使用される。
スペクトル:1ストリーム、5状態、状態毎に1本の木×3クラス
対数F0:3ストリーム、ストリーム毎に5状態、状態及びストリーム毎に1本の木×3クラス
BAP:1ストリーム、5状態、状態毎に1本の木×3クラス
持続期間:1ストリーム、5状態、1本の木×3クラス(各木は全ての状態を横断して共有される)
合計:3×26=78本の決定木
上記のものに関して、声特性(例えば、話者)毎に各ストリームに以下の重みが適用される。
スペクトル:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
対数F0:3ストリーム、ストリーム毎に5状態、ストリーム毎に1個の重み×3クラス
BAP:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
持続期間:1ストリーム、5状態、状態及びストリーム毎に1個の重み×3クラス
合計:3×10=30個の重み
この例において示されるように、異なる決定木(スペクトル)に同一の重みを割り当てることも、同一の決定木(持続期間)に1個よりも多くの重みを割り当てることも、他の任意の組み合わせも可能である。ここで用いられるように、同じ重み付けが適用される決定木はサブクラスタを形成すると考えられる。
実施形態において、選択された話者及び属性のガウス分布の平均は、ガウシアンコンポーネントの平均の重み付き和として表現され、ここで、加算は各クラスタからの1つの平均を用い、この平均は現在処理されている音響単位の韻律的コンテキスト、言語的コンテキスト及び音声的コンテキストに基づいて選択されている。
図5は、出力音声のために話者及び属性を選択する、実行可能な方法を示す。ここで、ユーザが、例えばスクリーン上のポイントをドラッグ・アンド・ドロップするマウス、数字(figure)を入力するキーボードなどを用いて重み付けを直接的に選択する。図5において、マウス、キーボードなどを備える選択部251は、ディスプレイ253を用いて重み付けを選択する。ディスプレイ253は、この例では、2つのレーダーチャート(1つは属性用、1つは重み付けを示す声用)を備える。ユーザは、レーダーチャートを介して様々なクラスタの優位(dominance)を変更するために選択部251を使用できる。他の表示方法が使用されてよいことは当業者によって理解されるであろう。
いくつかの実施形態において、重み付けはそれら自身の空間(最初に各次元を表す重みを備える「重み空間」)に射影可能である。この空間は、次元が異なる声属性を表現する異なる空間へ再配置できる。例えば、モデル化された声特性が、1つの次元が幸福な声特性を示して別の次元が緊張した声特性などを示すという表現であるならば、ユーザは幸福な声特性が優位を占めるようにこの声特性の重み付けを増やすことを選択してもよい。その場合に、新たな空間の次元数は、元の重み空間の次元数より低い。それから、元の空間の重みベクトルλ(s)は、新たな空間の座標ベクトルα(s)の関数として得られる。
一実施形態において、この次元の削減された重み空間への元の重み空間の射影は、λ(s)=Hα(s)という型の一次方程式を用いてまとめられ、ここでHは射影行列である。一実施形態において、行列Hは、その列に手動で選択されたd名の代表話者の元のλ(s)を設定するように定義され、ここでdは新たな空間の所望の次元である。重み空間の次元を削減したり、いくらかの話者についてα(s)の値が事前定義されているならば制御α空間を元のλ重み空間へマッピングする関数を自動的に見つけ出したりするために、他の技法が使用可能である。
更なる実施形態において、システムは、重み付けベクトルの所定のセットを保存するメモリを備え付けられている。各ベクトルは、異なる声特性及び話者の組み合わせと共にテキストが出力されることを可能にするように設計されてよい。例えば、幸福な声、怒り狂った声、などが任意の話者と組み合わせられる。そのような実施形態に従うシステムが、図6に示されている。ここで、ディスプレイ253は、選択部251によって選択され得る様々な声特性及び話者を示す。
システムは、所定のセットの属性に基づく話者選択のセットを示してもよい。ユーザは、それから、必要とされる話者を選択してもよい。
更なる実施形態において、図7に示されるように、システムは重み付けを自動的に決定する。例えば、システムは、命令または質問であると認識するテキストに対応する音声を出力する必要があるかもしれない。システムは、電子書籍を出力するように構成されてもよい。システムは、ナレータに対立するものとして書籍内のキャラクタによって何かが話される時(例えば、引用符)をテキストから認識し、出力に新たな声特性を導入するために重み付けを変更してよい。システムは、この様々な音声のための話者を決定するように構成されてもよい。システムは、テキストが反復されているかどうかを認識するように構成されてもよい。係る状況において、2回目の出力に関して声特性が変化してもよい。更に、システムは、幸福な瞬間に言及しているかどうか、または、不安な瞬間に言及しているかどうかを認識するように構成されてもよく、テキストは適切な声特性と共に出力される。
上記システムにおいて、テキストにおいてチェックされる属性及び規則を保存するメモリ261が用意される。入力テキストは、ユニット263によってメモリ261へ提供される。テキストに対する規則がチェックされ、それから、声特性の種別に関する情報が選択部265へと渡される。選択部265は、それから、選択された声特性のための重み付けをルックアップする。
上記システム及び考察は、ゲーム内のキャラクタが話すコンピュータゲームにおいて使用されるシステムに適用されてもよい。
更なる実施形態において、システムは、更なるソース(source)から出力されるテキストについての情報を受け取る。係るシステムの一例が図8に示される。例えば、電子書籍の場合において、システムは、テキストの特定の部分がどのように出力されるべきか、ならびに、テキストの当該部分の話者、を示す入力を受け取るかもしれない。
コンピュータゲームにおいて、システムは、話しているキャラクタが、負傷しているかどうか、ささやくために隠れているのかどうか、誰かの注意を引き付けようとしているかどうか、ゲームのステージを首尾よく終えたかどうか、などをゲームから判定できるだろう。
図8のシステムにおいて、テキストがどのように出力されるべきかについての更なる情報がユニット271から受け取られる。ユニット271は、それから、この情報をメモリ273へと送る。メモリ273は、それから、声がどのように出力されるべきかに関する情報を検索し、これをユニット725へと送る。ユニット275は、それから、話者及び所望の属性の所望の音声出力のための重み付けを検索する。
次に、実施形態に従うシステムのトレーニングが、図9乃至図13を参照して記述される。最初に、CATベースのシステムに関するトレーニングが記述される。
図9のシステムは、図1を参照して記述されたものと類似する。故に、いくらかの不要な反復を避けるために、類似の参照番号が類似の特徴(feature)を表示するために使用される。
図1を参照して記述された特徴に加えて、図9はオーディオ入力23及びオーディオ入力モジュール21も備える。システムをトレーニングする時に、テキスト入力15を介して入力されるテキストに合致する音声入力を得ることが必要である。隠れマルコフモデル(HMMs)に基づく音声処理システムにおいて、HMMはしばしば次のように表現される。
ここで、A={aij i,j=1は状態遷移確率分布であり、B={b(o)} j=1は状態出力確率分布であり、Π={π i=1は初期状態確率分布であり、NはHMMの状態数である。
HMMがテキスト読み上げシステムにおいてどのように使用されるかは、技術分野において周知であり、ここでは述べられない。
現在の実施形態において、状態遷移確率分布A及び初期状態確率分布は、技術分野において周知の手続に従って決定される。故に、この記述の残部は状態出力確率分布に関係する。
一般的に、テキスト読み上げシステムにおいて、モデルセットMのm番目のガウシアンコンポーネントからの状態出力ベクトルまたは音声ベクトルo(t)は、次の通りである。
ここで、μ (s,e)及びΣ (s,e)は、話者s及び表現eについてのm番目のガウシアンコンポーネントの平均及び共分散である。
従来のテキスト読み上げシステムをトレーニングする時の目標は、所与の観測系列に対する尤度を最大化するモデルパラメータセットMを推定することである。従来のモデルでは、単一の話者及び表現が存在し、故にモデルパラメータは全てのコンポーネントmについてμ (s,e)=μかつΣ (s,e)=Σである。
純粋かつ分析的にいわゆる最尤(ML)基準に基づいて上記モデルセットを得ることは不可能なので、この問題は、従来、期待値最大化(EM)アルゴリズム(しばしば、バウム−ウェルチアルゴリズムと呼ばれる)として知られる反復的なアプローチを用いて扱われる。ここで、補助関数(「Q」関数)は次の通り導出される。
ここで、γ(t)は、現在のモデルパラメータM’を仮定した場合にコンポーネントmが観測o(t)を生成することの事後確率であり、Mは新たなパラメータ・セットである。各反復の後に、パラメータ・セットM’は、Q(M,M’)を最大化する新たなパラメータ・セットMに置き換えられる。p(o(t),m|M)は、例えばGMM、HMMなどの生成モデルである。
本実施形態において、次の状態出力ベクトルを持つHMMが使用される。
ここで、m∈{1,.......,MN}、t∈{1,.......,T}、s∈{1,.......,S}及びe∈{1,.......,E}は、それぞれ、コンポーネント、時間、話者及び表現のためのインデックスであり、ここでMN、T、S及びEは、それぞれ、コンポーネント、フレーム、話者及び表現の総数である。
μ^ (s,e)及びΣ^ (s,e)の正確な形式は、適用される話者及び表現依存の変換の種別に依存する。最も一般的なやり方では、話者依存の変換は、次のものを含む。
話者−表現依存の重みのセットλq(m) (s,e)
話者−表現依存のクラスタμc(m,x) (s,e)
線形変換のセット[Ar(m) (s,e),br(m) (s,e)](これらの変換は、話者にだけ依存するかもしれないし、表現のみに依存するかもしれないし、両方に依存するかもしれない。)
ステップS211において、全ての実行可能な話者依存の変換を適用した後に、話者s及び表現eについての確率分布mの平均ベクトルμ (s,e)及び共分散行列Σ (s,e)は、次のようになる。
ここで、μc(m,i)は、数式1において記述されたようにコンポーネントmについてのクラスタIの平均であり、μc(m,x) (s,e)は、話者s、表現sの追加的なクラスタのコンポーネントmについての平均ベクトルであり(後述される)、Ar(m) (s,e)及びbr(m) (s,e)は、線形変換行列及び話者s、表現eについての回帰(regression)クラスr(m)に関連付けられるバイアスベクトルを表す。Rは、回帰クラスの総数であり、r(m)∈{1,.......,R}はコンポーネントmが属する回帰クラスを表示する。
線形変換が全く適用されなければ、Ar(m) (s,e)及びbr(m) (s,e)は、それぞれ、単位行列及び零ベクトルになる。
後で説明される理由により、この実施形態において、共分散は決定木へとクラスタリング及び配置され、ここでv(m)∈{1,.......,V}はコンポーネントmの共分散行列が属する共分散決定木中の葉ノードを表示し、Vは分散決定木葉ノードの総数である。
上記のものを用いて、補助関数は次のように表現可能である。
ここで、Cは、Mから独立した定数である。
故に、上記のものを用い、数式8に数式6及び数式7を代入すると、補助関数はモデルパラメータが4つの別個の部分に分割されてよいことを示す。
第1の部分は、規範的(canonical)モデルのパラメータ、即ち、話者及び表現から独立した平均{μ}及び話者及び表現から独立した共分散{Σ}であり、上記インデックスn及びkは後述される平均及び分散決定木の葉ノードを示す。第2の部分は、話者−表現依存の重み{λ (s,e)s,e,iであり、ここでsは話者を示し、eは表現を示し、iはクラスタインデックスパラメータである。第3の部分は話者−表現依存のクラスタの平均μc(m,x)であり、第4の部分は制約付き最尤線形回帰(CMLLR)変換{A (s,e),b (s,e)s,e,dであり、ここで、sは話者を示し、eは表現であり、dはコンポーネントまたはコンポーネントmが属する話者−表現回帰クラスを示す。
一旦、上記のやり方で補助関数が表現されると、話者及び声特性のパラメータ、話者依存のパラメータ、声特性依存のパラメータのML値を得るために、補助関数は変数の各々に関して順番に最大化される。
詳細には、平均のML推定を決定するために、次の手続が行われる。
以下の数式を簡略化するために、線形変換が全く適用されないことを仮定する。線形変換が適用されるならば、元の観測ベクトル{o(t)}は、変換観測ベクトルによって置き換えられなければならない。
同様に、追加的なクラスタが全くないことを仮定する。トレーニングの間にその余分なクラスタを含めることは、単位行列であるAr(m) (s,e)及び{br(m) (s,e)=μc(m,x) (s,e)}に線形変換を加えることとちょうど等価である。
最初に、数式4の補助関数が、以下のように、μに関して微分される。
ij (m)及びk (m)は、統計量の累積である。
導関数を零に設定することにより通常のやり方で数式を最大化することによって、以下の数式がμのML推定(即ち、μ^)について得られる。
μのML推定が、μ(kはnと等しくない)にも依存することに留意すべきである。インデックスnは、平均ベクトルの決定木の葉ノードを表現するために使用されるが、インデックスkは共分散決定木の葉ノードを表現する。故に、収束までμの全体に亘って反復することによって、最適化が行われる必要がある。
これは、以下の数式を解くことにより全てのμを同時に最適化することによって、行うことができる。
しかしながら、トレーニングデータが小さい、または、Nがかなり大きいならば、数式7の係数行列はフルランクを持つことができない。この問題は、特異値分解または他の周知の行列因子分解技法を使用することによって回避可能である。
それから、同じ処理が共分散のML推定を行うために行われる(即ち、数式8に示される補助関数がΣに関して微分され、次の数式を与える)。
話者依存の重み及び話者依存の線形変換についてのML推定も同じやり方で得ることができる(即ち、ML推定が必要とされるパラメータに関して補助関数を微分し、それから微分値を0に設定する)。
表現依存の重みについて、これは次のものをもたらす。
そして、同様に、話者依存の重みについて、次の通りである。
実施形態において、処理は反復的なやり方で行われる。この基本的なシステムは、図10乃至図12のフロー図を参照して説明される。
ステップS401において、オーディオ音声の複数入力が受け取られる。この説明的な例において、4話者が使用される。
次に、ステップS403において、ニュートラルな感情で話している4つの声の各々について、音響モデルがトレーニングされて作り出される。この実施形態において、4つのモデルの各々は、1つの声からのデータを用いてトレーニングされるだけである。S403は、図11のフローチャートを参照してより詳細に説明される。
図11のステップS305において、クラスタ数PはV+1に設定され、ここでVは声の数(4)である。
ステップS307において、1つのクラスタ(クラスタ1)が、バイアスクラスタとして決定される。バイアスクラスタ及び関連クラスタの平均ベクトルのための決定木は、ステップS303において最高のモデルを作り出した声を用いて初期化される。この例において、各声は、タグ「声A」、「声B」、「声C」及び「声D」を与えられ、ここで声Aは最高のモデルを作り出したと仮定される。共分散行列、多空間上の確率分布(MSD)の空間重み、ならびに、それらのパラメータ共有構造も、声Aモデルのものに初期化される。
各二分決定木は、全てのコンテキストを表現する単一のルートノードで始まる局所最適法で構築される。この実施形態において、コンテキストによって、以下のベース(bases)が、使用され、音声的であり、言語的であり、韻律的である。各ノードが作り出される時に、コンテキストについての次の最適な質問が選択される。質問は、どの質問が尤度について最大の増分を引き起こすか、ならびに、トレーニング例において生成される終端ノード、を基準に選択される。
それから、終端ノードのセットが探索され、トレーニングデータに対する合計の尤度について最も大きな増分を提供するその最適な質問を用いて分割可能なものが見つけ出される。この増分が閾値を超過するならば、ノードは最適な質問を用いて分割され、2つの新たな終端ノードが作り出される。処理は、いかなる更なる分割も尤度分割に適用される閾値を超過しないために新たな終端ノードを形成することができなくなると、停止する。
この処理は、例えば図13に示される。平均決定木におけるn番目の終端ノードは、質問qによって2つの新たな終端ノードn 及びn に分割される。この分割によって獲得される尤度利得は、以下のように計算できる。
ここで、S(n)はノードnに関連付けられたコンポーネントのセットを表示する。μに関して一定である項は含まれないことに注意されたい。
ここで、Cはμから独立した定数項である。μの最大尤度は、数式13により与えられる。故に、上記のものは、次のように書き換えることができる。
故に、ノードnをn 及びn へと分割することによって増す尤度は、次の通り与えられる。
故に、上記のものを用いて、各クラスタの決定木を構築することが可能であり、木は、最適な質問が当該木の最初に問われ、決定が尤度分割に従う階層的な順序で配置されるように、配置される。それから、重み付けが各クラスタに適用される。
決定木は、分散のために構築されてもよい。共分散決定木は、以下のように構築される。共分散決定木中の終端ノードが質問qによって2つの新たな終端ノードk 及びk に分割される場合に、クラスタ共分散行列及び分割による利得は以下のように表現される。
ここで、Dは{Σ}とは独立した定数である。故に、尤度についての増分は、次の通りである。
ステップS309において、特定の声タグがクラスタ2,...,P(例えば、クラスタ2,3,4及び5はそれぞれスピーカB,C,D及びAのためのものである)の各々に割り当てられる。声Aはバイアスクラスタを初期化するために使用されたので最後のクラスタを初期化するために割り当てられることに注意されたい。
ステップS311において、CAT補間重みのセットは、割り当てられた声タグに従って1または0に簡便に設定される。
この実施形態において、話者あたり、ストリームあたりのグローバルな重みがある。
ステップS313において、各クラスタ2,...,(P−1)について順番に、クラスタが以下のように初期化される。関連する声(例えば、クラスタ2についての声B)の声データは、ステップS303においてトレーニングされた関連する声のための1話者(mono-speaker)モデルを用いて整列(align)させられる。これらの整列(alignment)が与えられると、統計量が計算され、クラスタの決定木及び平均値が推定される。クラスタの平均値は、ステップS311において設定された重みを用いてクラスタ平均を正規化重み付き和として計算される(即ち、実際には、これは、所与のコンテキストに対するバイアスクラスタ平均とクラスタ2における当該コンテキストに対する声Bモデル平均との重み付き和(両方の場合において重みは1)である、当該コンテキストの平均値に帰着する)。
ステップS315において、決定木は全4つの声からのデータの全てを用いてバイアスクラスタのために再構築され、関連する平均及び分散パラメータが再推定される。
声B、C及びDのためのクラスタを加えた後に、バイアスクラスタは全4つの音声を同時に用いて再推定される。
ステップS317において、クラスタP(声A)が、今度は、声Aからのデータのみを用いて、他のクラスタに関してステップS313で述べられたように、初期化される。
一旦、上記のようにクラスタが初期化されたならば、CATモデルは、それから、以下のように更新/トレーニングされる。
ステップS319において、CAT重みを固定しながら、決定木はクラスタ1からクラスタPまでクラスタ毎に再構築される。ステップS321において、新たな平均及び分散がCATモデルの中で推定される。次にステップS323において、新たなCAT重みが各クラスタについて推定される。実施形態において、処理は、収束までステップS321へと折り返す。パラメータ及び重みは、当該パラメータのより良い推定を得るために、バウム−ウェルチアルゴリズムの補助関数を用いて行われる最尤計算を用いて推定される。
前述のように、パラメータは反復処理を介して推定される。
更なる実施形態において、ステップS323では、処理は、各反復の間に決定木が再構築されるように収束までステップS319へと折り返す。
処理はそれから図10のステップS405へと戻り、モデルはそれから様々な属性についてトレーニングされる。この特定の例において、属性は感情である。
この実施形態において、話者の声の感情は、ステップS403における話者の音声のモデル化について記述されたのと同じやり方でクラスタ適応トレーニングを用いてモデル化される。最初に、ステップS405において「感情クラスタ」が初期化される。これは、図12を参照してより詳細に説明される。
それから、データが少なくとも1人の話者について収集され、ここで話者の声は感情的である。ただ1人の話者からデータを収集することも可能であるし(ここで話者は多数のデータサンプルを提供し、その各々が様々な感情を示す)、様々な感情を伴う音声データを提供する複数の話者からデータを収集することも可能である。この実施形態において、感情を示すようにシステムをトレーニングするために用意される音声サンプルは、ステップS403において初期CATモデルをトレーニングするためにデータを集められた話者に由来すると推定される。しかしながら、システムはステップS403においてデータを使用されなかった話者からのデータを用いて感情を示すようにトレーニング可能であり、これは後述される。
それから、ステップS451において、非ニュートラルな感情のデータがN個のグループにグループ化される。ステップS453において、N個の追加的なクラスタが感情をモデル化するために追加される。クラスタは、各感情グループに関連付けられる。例えば、クラスタは「幸福」などに関連付けられる。
これらの感情クラスタは、ステップS403において形成されたニュートラルな話者クラスタに加えて用意される。
ステップS455において、音声データがある感情を示すトレーニングに用いられるのであればその感情に関連付けられるクラスタが「1」に設定されて他の全ての感情クラスタが「0」で重み付けられるように、感情クラスタ重み付けのためのバイナリベクトルを初期化する。
この初期化フェーズの間に、ニュートラルな感情の話者クラスタは、データの話者に関連付けられる重み付けに設定される。
次に、ステップS457において各感情クラスタについて決定木が構築される。最終的に、ステップS459において全てのデータに基づいて重みが再推定される。
上に説明されたように感情クラスタが初期化された後に、ステップS407においてガウシアン平均及び分散が全てのクラスタ、バイアス、話者及び感情について再推定される。
次に、ステップS409において上述のように感情クラスタのための重みが再推定される。それから、ステップS411において、決定木が再計算される。次に、処理はステップS407に折り返し、モデルパラメータ、それに続くステップS409における重み付け、それに続くステップS411における決定木の再構築が収束まで行われる。実施形態において、ループS407−S409は数回反復される。
次に、ステップS413において、モデル分散及び平均が全てのクラスタ、バイアス、話者及び感情について再推定される。ステップS415において重みが話者クラスタについて再推定され、ステップS417において決定木が再構築される。それから、処理はステップS413に折り返し、ループは収束まで反復される。それから、処理はステップS407に折り返し、感情に関するループが収束まで反復される。処理は、両方のループについて共に収束が達成されるまで、継続する。
図13は、決定木の形をしたクラスタ1乃至Pを示す。この簡略化された例において、クラスタ1にはちょうど4つの終端ノードがあり、クラスタPには3つの終端ノードがある。決定木が対称である必要がないこと、即ち、各決定木は異なる数の終端ノードを持つことが可能であること、に注目することが重要である。木の中の終端ノードの数及び分岐の数は純粋に対数尤度分割によって決定され、対数尤度分割は、最初の決定において最大の分割を達成し、それから、より大きな分割を生じる質問の順に質問が問われる。一旦、分割が閾値を下回れば、ノードの分割は終了する。
上記のものは、以下の合成が行われることを可能にする規範的モデルを作り出す。
1. 4つの声のいずれも、システムがトレーニングされた感情などの任意の属性と組み合わせた声に対応する最終的な重みベクトルのセットを用いて合成可能である。故に、話者1について「幸福な」データのみが存在する場合に、システムが他の声の少なくとも1つについて「怒っている」データを用いてトレーニングされているならば、システムが「怒っている感情」を伴う話者1の声を出力することが可能である。
2. 任意の位置に重みベクトルを設定することによって、CATモデルにより張られた(span)音響空間からランダムな声を合成可能であり、トレーニングされた属性のいずれもこの新たな声に適用可能である。
3. システムは、2つ以上の異なる属性を伴う声を出力するために使用されてもよい。例えば、話者の声が、2つの異なる属性(例えば、感情及び訛り)を伴って出力されてよい。
訛り及び感情などの組み合わせ可能な異なる属性をモデル化するために、組み合わせられる2つの異なる属性は、上記数式3に関して述べられたように組み込まれてもよい。
係る配置において、あるクラスタのセットは様々な話者のためのものとなり、別のクラスタのセットは感情のためのものとなり、最後のクラスタのセットは訛りのためのものとなる。図10に再び言及すると、感情クラスタは図12を参照して説明されるように初期化され、訛りクラスタもまた感情に関して図12を参照して説明されるように追加的なクラスタのグループとして初期化される。図10は、感情をトレーニングするための個別のループと、それから、話者をトレーニングするための個別のループとがあることを示す。声の属性が、訛り及び感情などの2つのコンポーネントを持つならば、訛りのための個別のループと感情のための個別のループとがある。
上の実施形態の枠組みは、モデルが共にトレーニングされることを許容し、故に、生成される音声の可制御性(controllability)及び品質の両方を向上させる。上記のものは、トレーニングデータの範囲についての要求がより緩和されることを可能にする。例えば、図14に示されるトレーニングデータ構成が使用可能であり、ここでは次のものがある。
3人の女性話者fs1、fs2及びfs3
3人の男性話者ms1、ms2及びms3
ここで、fs1及びfs2は、アメリカ訛りを持ち、ニュートラルな感情を伴う発話を記録され、fs3は、中国訛りを持ち、3ロットのデータ(ここで、あるデータセットはニュートラルな感情を示し、あるデータセットは幸福な感情を示し、あるデータセットは怒っている感情を示す)についての発話を記録されている。男性話者ms1は、アメリカ訛りを持ち、ニュートラルな感情を伴う発話を記録され、男性話者ms2は、スコットランド訛りを持ち、怒っている感情、幸福な感情及び悲しい感情を伴って話している3つのデータセットについて記録されている。第3の男性話者ms3は、中国訛りを持ち、ニュートラルな感情を伴う発話を記録されている。上記システムは、6人の話者のいずれかの声が記録された訛り及び感情の任意の組み合わせを伴って、声データが出力されることを可能にする。
実施形態において、クラスタをトレーニングするために使用されるデータのグルーピングが各声特性についてユニークであるように、声の属性及び話者の間には重複がある。
更なる例において、アシスタント(assistant)が声特性の合成に使用されてよく、ここで、システムは当該システムを新たな話者に適応させる目標話者の声の入力を与えられ、或いは、システムは訛りまたは感情などの新たな声特性を伴うデータを与えられてもよい。
実施形態に従うシステムは、新たな話者、及び/または、属性に適応してもよい。
図15は、ニュートラルな感情を伴う新たな話者に適応するシステムの一例を示す。最初に、入力目標話音声がステップ501において受け取られる。次に、ステップS503において、規範的モデルの重み付け、即ち、以前にトレーニングされたクラスタの重み付けが、目標の声に合致するよう調整される。
それから、オーディオが、ステップS503において導出された新たな重み付けを用いて出力される。
更なる実施形態において、新たなニュートラルな感情の話者クラスタが、図10及び図11を参照して説明されたように、初期化及びトレーニングされてよい。
更なる実施形態において、システムは新たな感情などの新たな属性に適応するために使用されてよい。これは、図16を参照して述べられる。
図15のように、最初に、ステップS601において目標の声が受け取られ、新たな属性を伴って話している声についてデータが収集される。最初に、ステップS603において、ニュートラルな話者クラスタの重み付けが、目標の声に最高に合致するように調整される。
それから、ステップS607において、新たな感情のために、新たな感情クラスタが既存の感情クラスタへと追加される。次に、図12のステップS455以降に関して述べられたように、新たなクラスタの決定木が初期化される。それから、図11を参照して述べられたように、重み付け、モデルパラメータ及び木は、全てのクラスタについて再推定及び再構築される。
システムによって生成され得る任意の話者の声が、新たな感情を伴って出力可能である。
図17は、話者の声及び属性がどのように関連付けられるかを視覚化するのに役立つプロットを示す。図17のプロットは、3次元で示されているが、より高い次元順へ拡張可能である。
話者は、z軸に沿ってプロットされる。この簡略化されたプロットにおいて話者重み付けは1次元として定義されるが、実際には、対応する数の軸上で表現される2以上の話者重み付けがありそうである。
表現は、x−y平面上で表現される。x軸に沿った表現1及びy軸に沿った表現2を用いて、怒っている及び悲しいに対応する重み付けが示されている。この配置を用いると、「怒っている」話者a及び「悲しい」話者bに必要とされる重み付けを生成することが可能である。新たな感情または属性に対応するx−y平面上の点を導出することによって、新たな感情または属性が既存の話者にどのように適用できるのかを理解できる。
図18は、音響空間を参照して上に説明される原理を示す。変換が視覚化されることを可能にするために、2次元の音響空間がここに示される。しかしながら、実際には、音響空間は、多くの次元に拡張される。
表現CATにおいて、所与の表現の平均ベクトルは次の通りである。
ここで、μxprは、表現xprを伴って話す話者を表す平均ベクトルであり、λ xprは、表現xprのコンポーネントkに対するCAT重み付けであり、μは、コンポーネントkのコンポーネントk平均ベクトルである。
感情依存である唯一の部分は重みである。故に、2つの異なる表現(xpr1及びxpr2)の間の差分は、平均ベクトルの単なるシフトである。
これが、図18に示される。
故に、表現2(xpr2)の特性を異なる話者の声(Spk2)へと移植(port)するためには、Spk2の話者モデルの平均ベクトルに適切なΔを加えることで十分である。この場合には、適切なΔは話者から導出され、ここで、データが、xpr2を伴って話すこの話者に利用可能である。この話者は、Spk1と呼ばれる。Δは、所望の表現xpr2を伴って話すSpk1の平均ベクトルと表現xprを伴って話すSpk1の平均ベクトルとの間の差分として、Spk1から導出される。表現xprは、話者1及び話者2の両方に共通の表現である。例えば、ニュートラルな表現のデータがSpk1及びSpk2の両方に利用可能であるならば、xprはニュートラルな表現であり得る。しかしながら、xprは、両方の話者について合致している、或いは、厳密に合致している任意の表現であり得る。実施形態において、Spk1及びSpk2について厳密に合致している表現を決定するために、話者に利用可能な様々な表現についてSpk1及びSpk2の間で距離関数が構成可能であり、距離関数が最小化されてよい。距離関数は、ユークリッド距離、バタチャリヤ距離、または、カルバックライブラ距離から選択されてよい。
適切なΔは、それから、下に示されるように、Spk2についての最も合致した平均ベクトルに加算されてよい。
上記の例はCATベースの技術を主に使用したが、Δの識別は、原理上は、様々なタイプの表現が出力されることを可能にする任意のタイプの統計的モデルに適用可能である。
いくつかの実施形態を記述したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。確かに、ここに記述された新規な方法及び装置は、その他の様々な形態で具体化可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。係る変形は、発明の範囲や要旨に含まれるとともに、添付の特許請求の範囲及びその均等物に含まれる。

Claims (17)

  1. 選択された話者の声及び選択された話者属性を持つ音声を出力するように構成されたテキスト読み上げ方法であって、前記方法は、
    入力されたテキストを音響単位の系列へと分割することと、
    音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換することと
    を具備し、
    前記音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備え、
    前記第1のパラメータ・セット及び第2のパラメータ・セットは重複せず、
    前記第1のパラメータ・セットから前記選択された話者の声を与えるパラメータを選択し、
    前記第2のパラメータ・セットから前記選択された話者属性を与えるパラメータを選択し、
    前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、独立して変更可能であって、
    前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、話者の声および話者属性の少なくとも一方に関する少なくとも一つの決定木を含むクラスタのパラメータに基づき定められる
    方法。
  2. 前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、クラスタ適応トレーニング(CAT)方法を用いてトレーニングされている、請求項1の方法。
  3. 前記話者属性は、少なくとも、感情、話し方および訛りのいずれか1つである、請求項1の方法。
  4. 異なる複数の話者属性に関連する複数のパラメータ・セットがあり、当該複数のパラメータ・セットは重複しない、請求項1の方法。
  5. 前記音響モデルは、前記音響単位を前記音声ベクトルの系列に関連付ける確率分布関数を備え、
    前記第1のパラメータ・セット及び前記第2のパラメータ・セットの選択が確率分布を変形する、
    請求項1の方法。
  6. 前記第2のパラメータ・セットは、前記第1のパラメータ・セットの少なくとも一部のパラメータに加えられるオフセットに関連する、請求項5の方法。
  7. 前記話者の声及び前記話者属性の制御は、前記確率分布の平均の重み付き和を介して達成され、
    前記第1のパラメータ・セット及び第2のパラメータ・セットの選択は、使用される前記重みを制御する、
    請求項5の方法。
  8. 前記話者の声が連続的な範囲に亘って可変であり、かつ、前記話者属性が連続的な範囲に亘って可変であるように、前記第1および第2のパラメータ・セットが連続的である、請求項1の方法。
  9. 前記第1のパラメータ・セット及び第2のパラメータ・セットの値は、オーディオ、テキストまたはこれらの任意の組み合わせを用いて定義される、請求項1の方法。
  10. 前記方法は、第1の話者から受け取られる音声データから得られる第2のパラメータを第2の話者の話者モデルのモデルパラメータに加えることによって、第1の話者から第2の話者へ音声属性を移植するように構成される、請求項6の方法。
  11. 前記第2のパラメータは、
    移植される属性を伴って話している前記第1の話者から音声データを受け取ることと、
    前記第2の話者の音声データに最も近い前記第1の話者の音声データを識別することと、
    前記移植される属性を伴って話している前記第1の話者から得られる前記音声データと前記第2の話者の音声データに最も近い前記第1の話者の音声データとの間の差分を判定することと、
    前記差分から前記第2のパラメータを判定することと
    によって得られる、請求項10の方法。
  12. 前記差分は、前記音響単位を前記音声ベクトルの系列に関連付ける前記確率分布の平均同士で判定される、請求項11の方法。
  13. 前記第2のパラメータは、前記差分の関数として判定され、
    前記関数は、線形関数である、
    請求項11の方法。
  14. 前記第2の話者の前記音声データに最も近い前記第1の話者の音声データを識別することは、前記第1の話者の前記音声データ及び前記第2の話者の前記音声データの前記確率分布に依存する距離関数を最小化することを備える、請求項12の方法。
  15. 前記距離関数は、ユークリッド距離、バタチャリヤ距離、または、カルバックライブラ距離である、請求項14の方法。
  16. 選択された話者の声及び選択された話者属性、複数の異なる声特徴を持つ音声のシミュレート用のテキスト読み上げ装置であって、前記装置は、
    入力テキストを音響単位の系列へと分割し、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換するように構成されたプロセッサと、
    前記音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備え、
    前記第1のパラメータ・セット及び第2のパラメータ・セットは重複せず、
    前記プロセッサは、前記第1のパラメータ・セットから前記選択された話者の声を与えるパラメータを選択し、前記第2のパラメータ・セットから前記選択された話者属性を与えるパラメータを選択するようにさらに構成され、
    前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、独立して変更可能であって、
    前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、話者の声および話者属性の少なくとも一方に関する少なくとも一つの決定木を含むクラスタのパラメータに基づき定められる
    装置。
  17. コンピュータを
    入力されたテキストを音響単位の系列へと分割する手段、
    音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換する手段
    として機能させ、
    前記音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットを備え、
    前記第1のパラメータ・セット及び第2のパラメータ・セットは重複せず、
    前記コンピュータを、
    前記第1のパラメータ・セットから選択された話者の声を与えるパラメータを選択する手段、
    前記第2のパラメータ・セットから選択された話者属性を与えるパラメータを選択する手段
    としてさらに機能させ、
    前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、独立して変更可能であって、
    前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、話者の声および話者属性の少なくとも一方に関する少なくとも一つの決定木を含むクラスタのパラメータに基づき定められる
    プログラム。
JP2015096807A 2012-03-30 2015-05-11 テキスト読み上げシステム Active JP6092293B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1205791.5 2012-03-30
GB1205791.5A GB2501067B (en) 2012-03-30 2012-03-30 A text to speech system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013056399A Division JP2013214063A (ja) 2012-03-30 2013-03-19 テキスト読み上げシステム

Publications (2)

Publication Number Publication Date
JP2015172769A JP2015172769A (ja) 2015-10-01
JP6092293B2 true JP6092293B2 (ja) 2017-03-08

Family

ID=46160121

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2013056399A Pending JP2013214063A (ja) 2012-03-30 2013-03-19 テキスト読み上げシステム
JP2015096807A Active JP6092293B2 (ja) 2012-03-30 2015-05-11 テキスト読み上げシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2013056399A Pending JP2013214063A (ja) 2012-03-30 2013-03-19 テキスト読み上げシステム

Country Status (5)

Country Link
US (1) US9269347B2 (ja)
EP (1) EP2650874A1 (ja)
JP (2) JP2013214063A (ja)
CN (1) CN103366733A (ja)
GB (1) GB2501067B (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10088976B2 (en) * 2009-01-15 2018-10-02 Em Acquisition Corp., Inc. Systems and methods for multiple voice document narration
GB2501062B (en) * 2012-03-14 2014-08-13 Toshiba Res Europ Ltd A text to speech method and system
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
GB2517212B (en) 2013-08-16 2018-04-25 Toshiba Res Europe Limited A Computer Generated Emulation of a subject
US9311430B2 (en) * 2013-12-16 2016-04-12 Mitsubishi Electric Research Laboratories, Inc. Log-linear dialog manager that determines expected rewards and uses hidden states and actions
CN104765591A (zh) * 2014-01-02 2015-07-08 腾讯科技(深圳)有限公司 一种软件配置参数更新的方法、终端服务器及系统
GB2524503B (en) * 2014-03-24 2017-11-08 Toshiba Res Europe Ltd Speech synthesis
GB2524505B (en) * 2014-03-24 2017-11-08 Toshiba Res Europe Ltd Voice conversion
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
US9892726B1 (en) * 2014-12-17 2018-02-13 Amazon Technologies, Inc. Class-based discriminative training of speech models
CN104485100B (zh) * 2014-12-18 2018-06-15 天津讯飞信息科技有限公司 语音合成发音人自适应方法及系统
US9685169B2 (en) * 2015-04-15 2017-06-20 International Business Machines Corporation Coherent pitch and intensity modification of speech signals
RU2632424C2 (ru) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для синтеза речи по тексту
EP3151239A1 (en) 2015-09-29 2017-04-05 Yandex Europe AG Method and system for text-to-speech synthesis
US10148808B2 (en) 2015-10-09 2018-12-04 Microsoft Technology Licensing, Llc Directed personal communication for speech generating devices
US9679497B2 (en) 2015-10-09 2017-06-13 Microsoft Technology Licensing, Llc Proxies for speech generating devices
US10262555B2 (en) 2015-10-09 2019-04-16 Microsoft Technology Licensing, Llc Facilitating awareness and conversation throughput in an augmentative and alternative communication system
CN105635158A (zh) * 2016-01-07 2016-06-01 福建星网智慧科技股份有限公司 一种基于sip的语音电话自动告警方法
GB2546981B (en) * 2016-02-02 2019-06-19 Toshiba Res Europe Limited Noise compensation in speaker-adaptive systems
US10235994B2 (en) * 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
CN107704482A (zh) * 2016-08-09 2018-02-16 松下知识产权经营株式会社 方法、装置以及程序
US10163451B2 (en) * 2016-12-21 2018-12-25 Amazon Technologies, Inc. Accent translation
JP2018155774A (ja) * 2017-03-15 2018-10-04 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム
CN107316635B (zh) * 2017-05-19 2020-09-11 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
US10943601B2 (en) * 2017-05-31 2021-03-09 Lenovo (Singapore) Pte. Ltd. Provide output associated with a dialect
EP3739572A4 (en) * 2018-01-11 2021-09-08 Neosapience, Inc. METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM
US11238843B2 (en) * 2018-02-09 2022-02-01 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
CN108615533B (zh) * 2018-03-28 2021-08-03 天津大学 一种基于深度学习的高性能语音增强方法
US10810993B2 (en) * 2018-10-26 2020-10-20 Deepmind Technologies Limited Sample-efficient adaptive text-to-speech
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
CN109523986B (zh) * 2018-12-20 2022-03-08 百度在线网络技术(北京)有限公司 语音合成方法、装置、设备以及存储介质
US10957304B1 (en) * 2019-03-26 2021-03-23 Audible, Inc. Extracting content from audio files using text files
CN110097890B (zh) * 2019-04-16 2021-11-02 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置
US11062691B2 (en) 2019-05-13 2021-07-13 International Business Machines Corporation Voice transformation allowance determination and representation
JP7143955B2 (ja) * 2019-08-19 2022-09-29 日本電信電話株式会社 推定装置、推定方法、および、推定プログラム
CN110718208A (zh) * 2019-10-15 2020-01-21 四川长虹电器股份有限公司 基于多任务声学模型的语音合成方法及系统
CN111583900B (zh) * 2020-04-27 2022-01-07 北京字节跳动网络技术有限公司 歌曲合成方法、装置、可读介质及电子设备
CN113808576A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 语音转换方法、装置及计算机系统
US11605370B2 (en) 2021-08-12 2023-03-14 Honeywell International Inc. Systems and methods for providing audible flight information

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
DE60215296T2 (de) * 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
US7454348B1 (en) * 2004-01-08 2008-11-18 At&T Intellectual Property Ii, L.P. System and method for blending synthetic voices
US7596499B2 (en) * 2004-02-02 2009-09-29 Panasonic Corporation Multilingual text-to-speech system with limited resources
JP4736511B2 (ja) 2005-04-05 2011-07-27 株式会社日立製作所 情報提供方法および情報提供装置
JP5321058B2 (ja) * 2006-05-26 2013-10-23 日本電気株式会社 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体
CN101295504B (zh) * 2007-04-28 2013-03-27 诺基亚公司 用于仅文本的应用的娱乐音频
US8175879B2 (en) * 2007-08-08 2012-05-08 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
US20090326948A1 (en) * 2008-06-26 2009-12-31 Piyush Agarwal Automated Generation of Audiobook with Multiple Voices and Sounds from Text
GB2484615B (en) * 2009-06-10 2013-05-08 Toshiba Res Europ Ltd A text to speech method and system
JP2011028130A (ja) 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置
US8660835B2 (en) * 2009-10-30 2014-02-25 International Business Machines Corporation System and a method for automatically detecting text type and text orientation of a bidirectional (BIDI) text
TWI413105B (zh) * 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法

Also Published As

Publication number Publication date
JP2015172769A (ja) 2015-10-01
CN103366733A (zh) 2013-10-23
JP2013214063A (ja) 2013-10-17
US20130262119A1 (en) 2013-10-03
GB2501067B (en) 2014-12-03
EP2650874A1 (en) 2013-10-16
US9269347B2 (en) 2016-02-23
GB2501067A (en) 2013-10-16
GB201205791D0 (en) 2012-05-16

Similar Documents

Publication Publication Date Title
JP6092293B2 (ja) テキスト読み上げシステム
JP6246777B2 (ja) 音声合成方法、装置及びプログラム
EP2846327B1 (en) Acoustic model training method and system
JP5768093B2 (ja) 音声処理システム
JP6109901B2 (ja) コンピュータ生成ヘッド
JP5398909B2 (ja) テキスト音声合成方法及びシステム
EP3304544A1 (en) Speech recognition system and method using an adaptive incremental learning approach
JP2016029576A (ja) コンピュータ生成ヘッド
GB2524505A (en) Voice conversion
Yamagishi et al. Model adaptation approach to speech synthesis with diverse voices and styles
GB2537907A (en) Speech synthesis using dynamical modelling with global variance

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170208

R151 Written notification of patent or utility model registration

Ref document number: 6092293

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350