JP5768093B2 - 音声処理システム - Google Patents

音声処理システム Download PDF

Info

Publication number
JP5768093B2
JP5768093B2 JP2013149244A JP2013149244A JP5768093B2 JP 5768093 B2 JP5768093 B2 JP 5768093B2 JP 2013149244 A JP2013149244 A JP 2013149244A JP 2013149244 A JP2013149244 A JP 2013149244A JP 5768093 B2 JP5768093 B2 JP 5768093B2
Authority
JP
Japan
Prior art keywords
speech
feature vector
expression
model
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013149244A
Other languages
English (en)
Other versions
JP2014056235A (ja
Inventor
政巳 赤嶺
政巳 赤嶺
ランジョウ・チェン
マーク・ジョン・フランクルズ・ゲールズ
キャサリン・メリー・ニル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2014056235A publication Critical patent/JP2014056235A/ja
Application granted granted Critical
Publication of JP5768093B2 publication Critical patent/JP5768093B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

(関連出願への相互参照)
この出願は、2012年7月18日付け提出の英国特許出願第1212783.3号に基づくものであり、また、その優先権の利益を主張する。そして、その内容の全体が参照によって本明細書に組み込まれる。
(技術分野)
本明細書で一般に説明される実施形態は、音声処理システム及び方法に関係する。
音声処理システムは、一般に、二つの主なグループすなわちテキスト音声合成システムと音声認識システムに分類される。
テキスト音声合成システムは、テキストファイルの受理に応じてオーディオ音声又はオーディオ音声ファイルが出力されるシステムである。テキスト音声合成システムは、多種多様のアプリケーション(例えば、電子ゲーム、電子ブック・リーダー、電子メール・リーダー、衛星ナビゲーション、自動電話システム、自動警報システムなど)で使用される。
そのようなシステムはいくつかのレベルの表現(expression)で音声を出力できる必要がある。しかし、これを達成する現行方法は、人間のオペレーターによる感情の管理(supervision)又はタグ付けを要求する。
これから添付の図面を参照して限定されない実施形態に従うシステム及び方法が説明される。それら添付の図面において各図は次の通りである。
図1は、テキスト音声合成システムの概略図である。 図2は、周知の音声処理システムにより実行されるステップを示すフローチャートである。 図3は、ガウス確率関数の概略図である。 図4は、一実施形態に従った合成方法の概略図である。 図5は、一実施形態に従った訓練方法の概略図である。 図6は、複数のレベルの情報から表現特徴ベクトル(expressive feature vector)を抽出するための並列システムを示す概略図である。 図7は、複数のレベルの情報から表現特徴ベクトルを抽出するための階層システム(hierarchical system)を示す概略図である。 図8は、CAT法で用いられる総和の概略図である。 図9は、合成ベクトル(synthesis vector)を抽出するためのCATベースのシステムの概略図である。 図10は、一実施形態に従った合成方法の概略図である。 図11は、一実施形態に従った方法で用いるための変換ブロック及び入力ベクトルの概略図である。 図12は、CATベースのシステムを訓練するための訓練プロセスを示すフローチャートである。 図13は、CATベースの方法のためのパラメータをクラスター化するために決定木がどのように構築されるかを示すための図である。
詳細な説明
一実施態様において、テキスト音声合成方法が提供される。この方法は、入力テキストを受信することと、上記入力テキストを、音響単位のシーケンスに分割することと、音響モデルを使用して、上記音響単位のシーケンスを、音声ベクトルのシーケンスに変換することと、ここで、上記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを含む、上記音声ベクトルのシーケンスを音声として出力すること、を含み、上記方法は、第1の空間において構成される表現言語特徴ベクトルを生成するために上記入力テキストから表現特徴を抽出することと、上記表現言語特徴ベクトルを、第2の空間において構成される表現合成特徴ベクトルにマッピングすることによって、上記モデル・パラメータのうちの少なくとも一部を決定することを更に含む。
一実施態様において、上記表現言語特徴ベクトルを表現合成特徴ベクトルにマッピングすることは、機械学習アルゴリズム(例えば、ニューラル・ネットワーク)を使用することを含む。
上記第2の空間は、多次元連続空間であっても良い。これは、出力される音声における表現の滑らかな変化を可能にする。
一実施態様において、上記入力テキストから上記表現特徴を抽出することは、複数の抽出プロセスを含み、上記複数の抽出プロセスは、上記テキストの異なる複数の情報レベルにおいて実行される。例えば、上記異なる複数の情報レベルは、単語ベースの言語特徴を生成するための単語ベースの言語特徴抽出レベル、フルコンテキストフォンベースの言語特徴を生成するためのフルコンテキストフォンベースの言語特徴抽出レベル、品詞(POS)ベースの特徴を生成するためのPOSベースの言語特徴抽出レベル及びナレーションスタイル情報を生成するためのナレーションスタイルベースの言語特徴抽出レベルから選択される。
一実施態様において、複数の情報レベルから表現特徴が抽出され、上記複数の抽出プロセスのそれぞれが、特徴ベクトルを生成し、上記方法は、上記第2の空間にマッピングするための言語特徴ベクトルを生成するために、上記異なる複数の情報レベルから生成される複数の上記言語特徴ベクトルを連結することを更に含む。
更なる実施態様において、複数の情報レベルから表現特徴が抽出され、上記表現言語特徴ベクトルを表現合成特徴ベクトルにマッピングすることは、上記異なる複数の情報レベルのそれぞれに対応する複数の階層的なステージを含む。
一実施態様において、第1の空間から第2の空間にマッピングすることは、フルコンテキスト情報を使用する。更なる実施態様において、上記音響モデルは、上記入力テキストからフルコンテキスト情報を受信し、この情報は、上記音響モデルにおける上記表現合成特徴ベクトルから得られる上記モデル・パラメータと結合される。更なる実施態様において、フルコンテキスト情報は、マッピング・ステップでも使用され、また、マッピング・ステップから独立した音響モデルへの入力としても受信される。
幾つかの実施形態において、上記音響モデルの上記モデル・パラメータは、同一のタイプの複数のモデル・パラメータの重み付き加算として表され、各重みは、上記第2の空間において表される。例えば、上記モデル・パラメータは、複数のガウス分布の平均の重み付き加算として表される。更なる実施態様において、上記複数のパラメータがクラスター化され、上記合成特徴ベクトルが、それぞれのクラスターごとの重みを含む。
それぞれのクラスターは、少なくとも一つの決定木を含んでも良い。該決定木は、言語上の変動、音声上の変動又は韻律上の変動のうちの少なくとも一つに関連する質問に基づく。また、上記クラスターの上記決定木の間に、構造における相違が存在し得る。
いくつかの実施態様において、テキスト音声合成システムを訓練する方法が提供される。この方法は、訓練データを受信することと、ここで、上記訓練データは、テキストのデータと該テキストのデータに対応する音声データを含む、第1の空間において構成される表現言語特徴ベクトルを生成するために、入力した上記テキストから表現特徴を抽出することと、上記音声データから表現特徴を抽出し、第2の空間において構成される表現特徴合成ベクトルを生成することと、機械学習アルゴリズムを訓練することを含み、上記機械学習アルゴリズムの訓練の入力は、表現言語特徴ベクトルであり、上記訓練の出力は、上記訓練の入力に対応する表現特徴合成ベクトルである。
一実施態様において、機械学習アルゴリズムは、ニューラル・ネットワークである。
上記方法は、上記表現合成特徴を音声合成装置に出力することを更に含んでも良い。上記音声合成装置は、音響モデルを含み、上記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する。そのようなアレンジにおいて、上記音響モデルのパラメータ及び上記機械学習アルゴリズム(例えばニューラル・ネットワークなど)が一緒に訓練される。例えば、上記音響モデルの上記モデル・パラメータは、同一のタイプの複数のモデル・パラメータの重み付き加算として表されても良く、各重みは、上記第2の空間において表される。そのようなアレンジにおいて、上記第2の空間において表される各重み及び上記ニューラル・ネットが一緒に訓練されても良い。
幾つかの実施形態において、テキスト音声合成装置が提供される。この装置は、入力テキストを受信するための受信部と、プロセッサと、音声出力とを含み、上記プロセッサは、上記入力テキストを、音響単位のシーケンスに分割し、音響モデルを使用して、上記音響単位のシーケンスを、音声ベクトルのシーケンスに変換するように構成され、ここで、上記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを含む、上記音声出力は、上記音声ベクトルのシーケンスを音声として出力するように構成され、上記プロセッサは、第1の空間において構成される表現言語特徴ベクトルを生成するために上記入力テキストから表現特徴を抽出することと、上記表現言語特徴ベクトルを、第2の空間において構成される表現合成特徴ベクトルにマッピングすることによって、上記モデル・パラメータのうちの少なくとも一部を決定するように更に構成される。
実施形態に従う幾つかの方法はソフトウェアにより実施することができるので、幾つかの実施形態は任意の適したキャリア媒体上の汎用コンピュータに提供されるコンピュータコードを含む。キャリア媒体は、例えばフロッピー(登録商標)ディスク、CD ROM、磁気デバイス若しくはプログラマブル・メモリ・デバイスのような任意の記憶媒体、又は、例えば任意の信号(例えば、電気的信号、光学的信号若しくはマイクロ波信号)のような任意の一時的な媒体を含むことができる。
はじめに、実施態様に従ったシステム(それはテキスト音声合成システムに関係する)が説明される。
図1は、テキスト音声合成システム1を示す。テキスト音声合成システム1は、プログラム5を実行するプロセッサ3を含む。テキスト音声合成システム1は、記憶装置7を更に含む。記憶装置7は、テキストを音声に変換するプログラム5により使用されるデータを記憶する。テキスト音声合成システム1は、入力モジュール11及び出力モジュール13を更に含む。入力モジュール11は、テキスト入力15に接続される。テキスト入力15は、テキストを受ける。テキスト入力15は、例えば、キーボードであっても良い。あるいは、テキスト入力15は、外部記憶媒体又はネットワークから、テキスト・データを受信するための手段であっても良い。
出力モジュール13に接続されるのは、音声用出力17である。音声出力(オーディオ出力)17は、テキスト入力15へ入力されるテキストから変換された音声信号を出力するために使用される。音声出力17は、例えば、直接の音声出力(例えば、スピーカ)であっても良いし、又は、記憶媒体、ネットワークなどに送信され得るオーディオ・データ・ファイル用の出力であっても良い。
使用するときは、テキスト音声合成システム1は、テキスト入力15を通してテキストを受け取る。プロセッサ3上で実行されるプログラム5は、記憶装置7に記憶されたデータを使用して、テキストを音声データに変換する。音声は、出力モジュール13を介して音声出力17へ出力される。
これから図2を参照して単純化したプロセスが説明される。最初のステップS101において、テキストが入力される。テキストは、キーボード、タッチ・スクリーン、テキスト予測機能又は同様のものを介して入力されても良い。その後、テキストは、音響単位のシーケンスに変換される。これらの音響単位は、音素又は書記素であっても良い。該単位は、コンテキスト依存(例えば、選択された音素に加えて先行する音素及び後続する音素も考慮に入れるトライフォン)であっても良い。該テキストは、当該技術において周知の(本明細書では更に説明されない)技術を使用して、音響単位のシーケンスに変換される。
S105において、音響単位を音声パラメータに関連付ける確率分布が検索される。この実施形態において、確率分布は、平均及び分散により定義されるガウス分布であることがある。例えばポアソン分布、スチューデントt分布、ラプラス分布又はガンマ分布のような他の分布を使用することが可能であるが、それらのうちの幾つかは、平均及び分散とは異なる変数により定義される。
各々の音響単位が、音声ベクトル又は当該技術の専門用語を使用する「観測(observation)」に対して明確な一対一の対応を有することはとても有り得ない。多くの音響単位は、類似する方法で発音され、また、周囲の音響単位によって、或いは、単語若しくは文におけるそれらの位置によって、影響を受け、又は、異なる話者(speakers)若しくは表現(expressions)により異なった風に発音される。したがって、各々の音響単位は、音声ベクトルに関連付けられる確率を有するのみであり、また、テキスト音声合成システムは、多くの確率を計算して、音響単位のシーケンスを与えられた複数の観測のうち、最も起こり得るシーケンスを選択する。
ガウス分布は図3に示される。図3は、音声ベクトルに関係する音響単位の確率分布であるものとして考えることができる。例えば、Xとして示された音声ベクトルは、図3に示される分布を有する音素又は他の音響単位に対応する確率P1を有する。
ガウス分布の形状及び位置は、その平均及び分散により定義される。これらのパラメータは、システムの訓練の間に決定される。
その後、ステップS107において、これらのパラメータが音響モデルにおいて使用される。この説明において、音響モデルは、隠れマルコフモデル(HMM)である。しかしながら、他のモデルを使用することもできる。
音声システムのテキストは、音響単位(すなわち、音素、書記素、単語又はその部分)を音声パラメータに関連付ける多数の確率密度関数を記憶する。ガウス分布が一般に使用されるように、これらは一般にガウシアン又はコンポーネントと呼ばれる。
隠れマルコフモデル又は他のタイプの音響モデルにおいて、特定の音響単位に関係するすべての可能性のある音声ベクトルの確率が考慮される必要がある。そして、その音響単位のシーケンスに最大の可能性をもって対応する音声ベクトルのシーケンスが考慮される。これは、二つの単位が互いに影響を及ぼす方法(way)を考慮に入れる、シーケンスのすべての音響単位にわたる、大域的最適化(global optimization)を意味する。その結果、複数の音響単位からなるシーケンスが考慮される場合に、特定の音響単位に対する最有望な音声ベクトルが最良の音声ベクトルにならないことがあり得る。
音声ベクトルのシーケンスが決定されると、ステップS109において、音声が出力される。
図4は、実施態様に従ったテキスト音声合成システムの概略図である。
テキスト入力201において、テキストが入力される。次に、セクション203において、該入力テキストから表現特徴(expressive features)が抽出される。例えば、人間のテキストの朗読者は、そのテキスト自体から、そのテキストが、心配な声、幸せな声などで朗読されるべきかどうか分かるであろう。このシステムはまた、そのテキストがどのように出力されるべきかについて指示するために人間のインタラクションを要求することなく、そのテキスト自体から、この情報を導く。
この情報が自動的に収集される方法は、後で更に詳細に説明される。また一方、その出力は第1の、多次元空間(multi-dimensional space)における数値をもつ特徴ベクトルである。これは、その後、第2の、連続多次元表現合成空間(continuous multi-dimension expressive synthesis space)205にマッピングされる。第2の連続多次元空間における値は、シンセサイザー(合成装置)207において音響モデルを修正するために直接用いることができる。シンセサイザー207はまた、入力として上記テキストも受信する。
実施態様に従う方法において、該テキストを多次元連続空間における点にマッピングするためのプロセスとして、表現TTS(expressive TTS)が考えられる。この多次元連続空間において、それぞれの点は、合成プロセスに直接関連している特定の表現情報を表す。
多次元連続空間は、無数の点を含む;したがって、提案方法は、潜在的に無数の異なるタイプの感情に対応することができ、非常により豊かな表現の情報(expressive information)をもつ音声を合成することができる。
まず、実施態様に従った方法及びシステムの訓練が説明される。
図5を参照して訓練が説明される。訓練データ251は、テキストとテキスト入力に対応する音声(speech)とにより提供される。
訓練データ251におけるそれぞれの発話(utterance)が固有の表現情報を含むと仮定する。この固有の表現情報は、音声データから判定することが可能であり、また、同様に、音声のトランスクリプション(すなわち、テキストのデータ)から読み取ることも可能である。訓練データでは、スピーチ文(speech sentences)とテキスト文(text sentences)が図5で示すように同時に起こる。
訓練データ中のそれぞれのテキスト文を、表現言語特徴ベクトル(expressive linguistic feature vector)と呼ばれるベクトルに変換する「表現言語特徴抽出(expressive linguistic feature extraction)」ブロック253が、提供される。
表現言語特徴抽出ブロック253によって任意のテキスト文を言語特徴として変換することができ、そして、すべての有り得る表現言語特徴が、表現言語空間(expressive linguistic space)と呼ばれる第1の空間255を構成する。訓練文(training sentence)のそれぞれのトランスクリプションは、この表現言語空間における点と考えることができる。表現言語特徴ベクトルは、テキスト文における感情の情報をキャッチするはずである。
訓練の間、テキストから表現言語特徴を抽出するだけでなく、それぞれのスピーチ文を、表現合成特徴ベクトル(expressive synthesis feature vector)と呼ばれるベクトルに変換する「表現合成特徴抽出(expressive synthesis feature extraction)」ブロック257が、提供される。
「表現合成特徴抽出」ブロック257によって任意のスピーチ文を表現合成特徴として変換することができ、そして、すべての有り得る表現合成特徴が、表現合成空間(expressive synthesis space)259を構成する。表現合成特徴に要求されることは、それが、オリジナルのスピーチ文の固有の表現情報をキャッチするということである;一方、この表現情報は、合成プロセスにおいて再生することができる。
訓練データのトランスクリプションからの言語特徴及び訓練スピーチ文からの合成特徴を所与として、実施態様に従った方法及びシステムは、言語特徴空間255における言語特徴ベクトルを合成特徴空間259における合成特徴ベクトルに変換するための変換261を訓練する。
合成ステージでは、「表現言語特徴抽出」ブロック253が、合成されるべきテキストを、言語特徴空間255中の言語特徴ベクトルに変換し、そして、変換ブロック261により、言語特徴が、表現合成空間259中の合成特徴にマッピングされる。この合成特徴ベクトルは、オリジナルのテキストのデータにおける感情の情報を含み、また、直接、表現に富む音声(expressive speech)を合成するために、シンセサイザー207(図4)により用ることができる。
一実施態様において、機械学習方法(例えば、ニューラル・ネットワーク(NN))は、変換ブロック261を提供し、そして、表現言語空間255から表現合成空間259への変換を訓練するために用いられる。訓練データ251中のそれぞれの文ごとに、合成特徴空間259中の表現合成特徴ベクトルを生成するために、音声データが用いられ、また、言語特徴空間255中の表現言語特徴を生成するために、音声データのトランスクリプションが用いられる。言語特徴空間から合成特徴空間へのマッピングを学習するために、NNの入力である訓練データの言語特徴と目標出力である訓練データの合成特徴とを使用して、NNのパラメータを更新することができる。
「言語特徴抽出」ブロック253は、テキスト・データを言語特徴ベクトルに変換する。この特徴ベクトルは、区別となる情報を含まなければならない。すなわち、2つのテキスト・データが異なる感情を含むならば、それらの言語特徴は、言語特徴空間において区別できなければならない。
一実施態様において、言語特徴を生成するためにバッグオブワーズ(Bag-of-word)(BoW)技術が用いられる。BoW方法は、テキスト・データを単語頻度のベクトルとして表す。ベクトルの次元は語彙のサイズと等しく、それぞれの要素は語彙中の特定の単語の頻度を含む。様々な十分に開発されたBoW技術、例えば、潜在的意味解析(LSA)、確率的潜在的意味解析(pLSA)、潜在的ディリクレ配分法(LDA)などが、適用可能である。これらの技術によって、その次元が語彙サイズに等しいオリジナルの単語頻度ベクトルは、非常に低い次元に圧縮(compacted)することができる。
更なる実施態様では、より正確にテキスト・データ中の感情の情報をモデル化するために、テキスト・データからの異なるレベルの知識が言語特徴の生成に使用される。
一実施態様では、単語レベル情報だけでなく、より低いレベルの情報(例えば、フルコンテキスト・フォン・シーケンス(full context phone sequence)など)及びより高いレベルの情報(例えば、品詞(POS)、ナレーションスタイルなど)も、言語特徴の生成に用いられる。
一実施態様において、異なるレベルからの情報を一緒に結合するために、図6に示すような並列構造が使用される。並列構造では、異なるレベルの特徴が別々に抽出され、そして、該異なるレベルの特徴が変換ブロックのための入力である一つの大きいベクトルに連結される。
図6は、一実施態様に従ったシステムにおいて使用され得る言語特徴を抽出するための並列構造を示す。ステップS301において、テキスト・データが単語頻度ベクトルに変換される。次に、ステップS305において、単語頻度ベクトルを単語レベルの特徴ベクトルに変換するために、単位として単語をつかうLDAモデル303が使用される。ステップS305において、推論プロセスを通じて、変分事後ディリクレ・パラメータ(variantial posterior dirichlet parameters)が推定される。
同時に、ステップS307において、テキスト・データは、フルコンテキスト・フォン(full context phones)のシーケンスとして変換される。S311において、このフルコンテキスト・フォン・シーケンスは、単位としてフルコンテキスト・フォンをつかうLDAモデル309を使用して、フルコンテキスト・フォン・レベルの特徴ベクトルに変換される。
その後、S313において、言語特徴ベクトルを生成するために、単語レベルの特徴ベクトル及びフルコンテキスト・フォン・レベルの特徴ベクトルが、言語特徴として連結される。
図6は、言語特徴を抽出する方法の一例を表すのに用いられる。更なる実施態様では、ハイレベル知識(例えばPOSなど)、ナレーションスタイル及びテキスト・データからの他の有益な情報を、言語特徴に統合することができる。
さらに、LDA以外のBoW方法も言語特徴を抽出するために同様に用いることができる。
異なるレベルの情報から判定された言語特徴はまた階層構造を使用して同様に結合することができる。そのような階層構造の一つの実施態様において、異なるレベルの知識による言語特徴は、図7に示すように、カスケードのNNをもつシステムに組み込まれる。
図7において、言語特徴1と言語特徴2は、異なるレベルの知識から判定される言語特徴(例えば、単語レベルの特徴、フルコンテキスト・フォン・レベルの特徴など)を表す。
NN1の入力351として特徴1が使用される。そして、出力357において音響特性を生成するために、NN1の出力353が、NN2の入力355である特徴2と結合される。
図5に戻って、音声データの表現情報を表すために、表現合成特徴抽出ブロック257が用いられる。表現合成特徴空間259中のそれぞれの点は、音声における固有の表現の情報を表す。
一実施態様に従った方法及びシステムにおいて、表現合成特徴は、次の二つの必要条件を満たす:
必要条件1−音声データを所与として、関連する合成特徴は、この音声データの表現情報をキャッチする。
必要条件2−表現合成特徴に記録される表現情報は、同一の表現力(expressiveness)をもつ音声を生成するために、合成ステージで使用される。すなわち、合成特徴は、合成パラメータを決定する。
それら合成パラメータに関係する基底(basis)を構築することができる。そして、それぞれの特定の度合い(degree)の表現力ごとの合成パラメータは、この基底の上に投影することができる。これは、この投影におけるそれらの座標に関して、表現合成パラメータの表現を定義する。
一実施態様において、クラスター適応可能な訓練(cluster adaptive training)(CAT)が使用される。ここでは、クラスターHMMモデル(cluster HMM models)が基底として定義され、表現力依存のHMMパラメータ(expressiveness dependent HMM parameters)が、この基底の上に投影される(アペンディックスを参照下さい)。
これは、表現力依存のHMMパラメータを複数のクラスター・モデルの線形補間として表現することを可能にし、各クラスターHMMモデルごとの補間重み(interpolation weights)が、表現力情報を表現するために使用される。
図8に示すように、CATモデルは、バイアス・クラスターHMMモデル及びP−1個のノンバイアス・クラスターHMMモデル(non-bias cluster HMM model)を含む。特定のガウス分布について、分散及び事前(prior)はすべてのクラスターにわたって同一であるものと仮定され、一方、平均パラメータは、すべてのクラスター平均の線形補間により決定される。
観測ベクトルを所与として、コンポーネントmの確率密度関数は、次のように表現できる。
ここで、M(m)=[μ(m,1) μ(m,2) μ(m,P)]は、異なるクラスター・モデルからのコンポーネントmの平均ベクトルの行列であり、Σ (m)は、すべてのクラスターにより共有されるコンポーネントmの分散である。
Λ(e)=[1 λ(e,2) λ(e,P)]は、感情eのためのCAT重みベクトルである。クラスター1は、バイアス・モデルであり、バイアス・モデルのためのCAT重みは1として固定される。
表現音声合成(expressive speech synthesis)をするのにCATモデルが使用される場合に、感情依存情報(emotion dependent information)がCAT重みに記録される。訓練プロセスにおいて、感情依存のCAT重みは、感情依存の訓練データを使用して、最尤基準によって訓練される。合成ステージでは、感情依存のCAT重みは、特定の感情をもつ音声を合成するために使用される。
CAT重みは、提案方法における表現合成特徴ベクトルとして使用するのに適している。それは、合成特徴に対する上記の二つの必要条件を満足する。すなわち、それは、音声データの感情の情報を含み、同一の感情をもつ音声を合成するために、特定の感情のためのCAT重みを使用することができる。すべての有り得るCAT重みを含むCAT重み空間は、提案方法における合成特徴空間として使用することができる。CATの規範的なモデル(canonical models)(すなわち、バイアスHMMモデルと各クラスターHMMモデル)を所与として、それぞれの訓練文は、このスピーチ文の尤度を最大にすることによって、CAT重み空間における点として表現することができる。CAT重み空間の概念は図9に示される。
CAT重み空間では、それぞれの訓練文は、この文のための固有の感情の情報を含む点として表現することができる。訓練データ中にN個の文があるならば、CAT重み空間では、訓練データを表現するためにN個の点が使用され得る。さらにまた、CAT空間において互いに隣接する訓練文は類似する感情の情報を含むと仮定することができる。
したがって、訓練データはグループに分類することができ、そして、グループ依存のCAT重みは、このグループにおけるすべての訓練文を使用して推定することができる。N個の訓練文がM固のグループに分類されるならば(M<<N)、訓練データは、CAT重み空間におけるM個の点として表現することができる。
一実施態様において、言語特徴を合成特徴にマッピングする変換として使用されるNN及び表現合成特徴空間を構成するために使用されるCATモデルを、一緒に訓練することができる。統合訓練プロセスは次のように説明することができる。
(1)初期規範的モデルM0及びすべての訓練文のためのCAT重みからなる初期CAT重みΛ0を生成するために、CATモデル訓練を初期化し、また、繰り返し番号i=0にセットする。
(2)訓練文の表現言語特徴及び訓練文のCAT重みセットΛiが所与として、繰り返しiのためのNN(すなわち、NNi)は、最小二乗誤差基準を使用して訓練される。
(3)入力として訓練文の表現言語特徴を使用して、NNiは、訓練文の出力CAT重みセットOiを生成する。
(4)Λi+1=Oi. 訓練データの尤度を最大にするように、所与のΛi+1がCAT規範的モデルMi+1を再訓練する。
(5)i=i+1. アルゴリズムが収束したならば、6へ進む。そうでなければ、2に進む。
(6)終了
上記のプロセスによってNN及びCATモデルが一緒に更新され、それは合成ステージにおけるパフォーマンスを向上させることができる。
この統合訓練プロセスは、NN及びCATモデルに制限されない。一般に、NN以外の、言語特徴空間から合成特徴空間への変換、及び、CAT以外の、合成特徴空間を構成する方法は、同一のフレームワークにおける統合訓練を使用してアップデートすることができる。
上記は、システムのための訓練を説明した。これから図10を参照してテキスト音声合成が説明される。
図10に示される合成システムは、訓練に関して説明されたような、表現言語空間403における表現特徴ベクトルを抽出する表現言語特徴抽出ブロック401を含む。合成ステージにおいてこのベクトルを抽出する方法は、訓練ステージで説明されたプロセスと同一である。
そして、表現特徴ベクトルは、変換ブロック405によって、表現合成空間407における表現合成ベクトルにマッピングされる。変換ブロック405は、先に述べたように訓練された。
そして、判定された表現合成ベクトルが、シンセサイザー409である出力音声(output speech)の統合において直接使用される。先に述べたように、一実施態様では、変換ブロック405は、表現言語特徴ベクトルを、表現合成特徴空間407中のCAT重みに直接マッピングする。
一実施態様において、合成すべきテキストはまた、直接、シンセサイザー409に送信される。このアレンジにおいて、シンセサイザー409は、コンテキスト依存情報を判定するために、合成すべきテキストを受信する。他の実施態様では、表現言語空間から表現合成特徴空間へのマッピングは、コンテキスト依存情報を使用しても良い。これは、シンセサイザーにより直接受信される情報に加えても良いし又はシンセサイザーにより直接受信される情報の代わりであっても良い。
一実施態様に従った方法において、特別な訓練データを準備する必要はなく、訓練データの評価を人間のインタラクションに要求する必要はない。さらに、合成すべきテキストは、直接、言語特徴ベクトルに変換される。この言語特徴ベクトルは、単一の感情IDより非常に多くの感情の情報を含む。変換ブロックは、言語特徴ベクトルを、同一の感情をもつ表現合成特徴に変換する。さらに、この合成特徴は、オリジナルのテキスト・データ中と同一の感情をもつ音声を合成するために使用することができる。
表現合成特徴空間において、それぞれの訓練文が固有の合成特徴ベクトルに関係するならば、それぞれの文における固有の感情の情報が、変換(例えばNN)により学習される。それは、合成のための非常に豊富な感情資源をユーザに提供することができる。
合成特徴空間における訓練文は、グループに分類することができ、また、一つのグループにおけるすべての訓練文は、感情の情報を共有する。この方法によって、学習する必要があるパターンの数が削減されるので、変換の訓練が改善される。したがって、推定される変換は、よりロバストであることができる。文ベースの合成特徴又はグループ・ベースの合成特徴を選択すること、訓練データのためのグループの数を調整することは、実施態様に従った方法においてより簡単に合成パフォーマンスのための表現力とロバスト性との間のバランスを取り得る。
上記の方法において、硬判定感情認識(hard decision emotion recognition)を避けることができ、そして、これはエラーを低減するであろう。NNの有り得る出力は、無数にある。それは、提案方法が、潜在的に、合成のための異なる感情に関係する無数の異なる合成特徴を生成することができることを意味する。さらに、上記の方法は、簡単に表現力とロバスト性との間のバランスを取ることができる。
上記の合成プロセスにおいて、テキスト・データの感情の情報は、既知であるか又は人間若しくは他のソースにより明確に認識される必要はない。訓練は、完全に自動である。上記の方法は、人間が訓練データに感情のタグ付けをする必要なしに、表現合成システムを構築することを目指す。合成プロセスの間、入力テキストに起因する感情を分類する必要はない。提案方法は、表現合成システムの訓練のコストを潜在的に低減することができる。一方、合成プロセスにおいて、より表現に富む音声(more expressive speech)を生成する。
上記の実施態様では、空間におけるあらゆる点が表現音声合成システムのためのパラメータを定義するように、多次元連続表現音声合成空間が定義される。また、テキスト特徴を表現空間中の点にマッピングし、そして、表現音声合成プロセスのためのパラメータを定義することができるプロセスが、訓練される。
合成方法を説明するために、表現合成のための実験的なシステムが、4.8kの訓練文に基づいて訓練された。一つのバイアス・モデル及び4つのクラスター・モデルをもつCATモデルが訓練された。個々のCAT重みは、訓練音声における各文ごとに訓練された。一方、訓練データは20のグループに分類され、グループ・ベースのCAT重みが同様に訓練された。文ベースのCAT重みとグループ・ベースのCAT重みの両方が、同一のCAT重み空間(すなわち、提案方法の音響空間)中の点として表現された。
訓練文のトランスクリプションのそれぞれの文が、20次元のLDAの変分事後特徴ベクトル(variational posterior feature vector)として表現され、また、それは、言語特徴を生成するために使用された。また、訓練文のナレーションスタイルが、言語特徴を生成するために使用された。それは、その文が、ダイレクト・スピーチ(direct speech)、ナレーション・スピーチ(narration speech)又はキャリア・スピーチ(carrier speech)であったことを示す1次元の値であった。この実験で使用される言語特徴はまた、以前の文(previous sentence)及びすぐ前(last sentence)の文からの言語情報を含んだ。この実験では、言語特徴は、並列構造を使用して生成された。
言語空間から音響空間への非線形変換は、多層パーセプトロン(MLP)ニューラル・ネットワークによって訓練された。2セットのNNが訓練され、一つは、言語特徴を文ベースのCAT重みにマッピングし、他は、言語特徴をグループ・ベースのCAT重みにマッピングしていた。
この実験で使われる言語特徴及び音響特性の構造は、図11に示される。
合成された音声の表現力は、クラウドフラワー(CrowdFlower)を介してリスニング試験によって評価された。参照として人間により読まれるオリジナルの表現音声データを使用して、リスナーは、スピーチ文の2つの合成バージョンのうちのいずれが、該参照に対してより類似しているように聞こえたかについて選択するように、質問された。
5つの異なるシステムが実験で比較された。
(1)sup_sent:管理された訓練(supervised training)により生成される文ベースのCAT重み
(2)sup_grp:管理された訓練により生成されるグループ・ベースのCAT重み
(3)nn_sent:提案方法により生成される文ベースのCAT重み
(4)nn_grp:提案方法により生成されるグループ・ベースのCAT重み
(5)rand:訓練文からランダムに選択されるCAT重み
表1に表現力テストの結果が示される。
実験の結果は、提案方法に基づき、文ベースのCAT重みとグループ・ベースのCAT重みの両方が、有意に、ランダムなCAT重みよりパフォーマンスが優れていることを示した。それは、提案方法が、文における正しい感情の情報をある程度キャッチしたことを意味する。一方、グループ・ベースのCAT重みについては、管理され訓練されたCAT重みと、提案方法により生成されるCAT重みとの相違は、有意ではなかった(p>0.025)。これは、グループ・ベースのCAT重みの場合、提案方法のパフォーマンスがそれらの上限(すなわち、管理された訓練)に近いことを意味する。
[アペンディックス]
幾つかの実施形態において、表現合成特徴空間は、音声の合成において使用されるべきコンポーネントに対する重みを含む。
幾つかの実施形態においては、それぞれであろう複数の異なる状態が、ガウス分布を用いてモデル化されるであろう。例えば、一つの実施形態では、テキスト音声合成システムは、複数のストリームを含む。それらのようなストリームは、一つ又は複数のスペクトル・パラメータ(Spectrum)、基本周波数の対数(Log F0)、Log F0の一次微分(Delta Log F0)、Log F0の二次微分(Delta-Delta Log F0)、バンド非周期性パラメータ(Band aperiodicity parameters)(BAP)、継続期間(duration)などから選択されても良い。ストリームはまた、クラス(例えば、無音(silence)(sil)、短いポーズ(short pause)(pau)及び音声(speech)(spe)など)に更に分けられても良い。一つの実施形態では、ストリーム及びクラスのそれぞれからのデータは、HMMを使用してモデル化される。HMMは、異なる数の状態を含んでも良い。例えば、一つの実施形態において、上記のストリーム及びクラスのうちの一部からのデータをモデル化するために、5状態HMM(5 state HMMs)が用いられても良い。ガウシアン・コンポーネントは、各HMM状態ごとに決定される。
特定の表現特性(expressive characteristic)をもつガウス分布の平均は、複数のガウス分布の表現特性非依存平均の重み付き加算(a weighted sum of expressive characteristic independent means of the Gaussians)として表現される。したがって、次のようになる。
ここで、μ(s) は、表現特性sにおけるコンポーネントmのための平均であり、i∈{1,........,P}は、クラスターのインデックスであり、Pは、クラスターの総数であり、λ(s) i,q(m)は、表現特性s及び回帰クラスq(m)のための第i番目のクラスターの表現特性依存補間重み(expressive characteristic dependent interpolation weight)であり、μc(m,i)は、クラスターiにおけるコンポーネントmのための平均である。一実施形態において、複数のクラスターのうちの一つ(通常、クラスターi=1)に対して、すべての重みが常に1.0にセットされる。このクラスターは、“バイアス・クラスター”と呼ばれる。それぞれのクラスターは、少なくとも一つの決定木を含む。決定木は、クラスター中の各コンポーネントごとに存在する。表現を単純化するために、c(m,i)∈{1,........,N}は、クラスターiのための平均ベクトル決定木におけるコンポーネントmのための総合リーフノード・インデックスを示す。Nは、すべてのクラスターの決定木にわたるリーフノードの総数である。決定木の詳細は、後で説明される。
CATを使用する一実施態様において、表現合成空間は、表現特性重みの空間であり、表現言語空間は、表現合成空間にマッピングする。
複数の表現特性非依存平均は、クラスター化される。一つの実施形態では、それぞれのクラスターは、少なくとも一つの決定木を含み、木において使用される決定は、言語上の変動、音声上の変動又は韻律上の変動に基づく。一つの実施形態では、決定木は、クラスターのメンバーである各コンポーネントごとに存在する。韻律上のコンテキスト、音声上のコンテキスト及び言語上のコンテキストは、最終的な音声波形に影響を及ぼす。音声上のコンテキストは、典型的には、声道に影響を及ぼし、韻律上のコンテキスト(例えば音節)及び言語上のコンテキスト(例えば単語の品詞)は、例えば継続時間(リズム)および基本周波数(トーン)のような韻律に影響を及ぼす。それぞれのクラスターは、1又は複数のサブクラスターを含んでも良い。それぞれのサブクラスターは、それら決定木のうちの少なくとも一つを含む。
一つの実施形態に従って以下の構成が使用されても良い。このデータをモデル化するために、この実施形態では、5状態HMMが使用される。この例に関して、データは、無音、短いポーズ、音声の三つのクラスに分けられる。この特定の実施形態において、サブクラスターごとの決定木及び重みの割り当ては、次のとおりである。
この特定の実施形態では、クラスターごとに次のストリームが使用される。
Spectrum:1つのストリーム、5つの状態、状態ごとに1つの木×3クラス
LogF0:3つのストリーム、ストリームごとに5つの状態、状態及びストリームごとに、1つの木×3クラス
BAP:1つのストリーム、5つの状態、状態ごとに1つの木×3クラス
継続期間:1つのストリーム、5つの状態、1つの木×3クラス(各木は、すべての状態にわたって共有される)
合計:3×26=78の決定木
上記に関して、次の重みが、声特性(voice characteristic)(例えば話者又は表現)ごとに、各々のストリームに適用される。
Spectrum:1つのストリーム、5つの状態、ストリームごとに1つの重み×3クラス
LogF0:3つのストリーム、ストリームごとに5つの状態、ストリームごとに1つの重み×3クラス
BAP:1つのストリーム、5つの状態、ストリームごとに1つの重み×3クラス
継続時間:1つのストリーム、5つの状態、状態及びストリームごとに1つの重み×3クラス
合計:3×10=30の重み
この例で示されるように、異なる決定木(spectrum)に同一の重みを割り当てること、あるいは、同一の決定木(継続時間)に2以上の重みを割り当てること、又は、任意の他の組み合せが、可能である。本明細書で使用されるように、同一の重みが適用されるべき決定木は、サブクラスターを形成するために考慮される。
次に、表現特性重みを導き出す方法が説明される。隠れマルコフモデル(HMM)に基づく音声処理システムにおいて、HMMはしばしば次のように表現される。
ここで、Aは状態遷移確率分布であり、次のようである。
また、Bは状態出力確率分布であり、次のようである。
また、Πは初期状態確率分布であり、次のようである。
ここで、Nは、HMMにおける状態の数である。
テキスト音声合成システムにおいてHMMがどのように使用されるかについては、当該技術では周知であり、ここでは説明されない。
現在の実施形態において、状態遷移確率分散A及び初期状態確率分布は、当該技術において周知の手続きに従って決定される。したがって、この説明の残りは、状態出力確率分布に関係している。
一般に、表現テキスト音声合成システムにおいて、モデルセットMにおける表現特性sのための第m番目のガウシアン・コンポーネントからの状態出力ベクトル又は音声ベクトルo(t)は、次のようになる。
ここで、μ(s) とΣ(s) は、表現特性sのための第m番目のガウシアン・コンポーネントの平均と共分散である。
従来のテキスト音声合成システムを訓練する場合の目標は、与えられた観測シーケンスに対する尤度を最大化するモデル・パラメータ・セットMを推定することである。従来のモデルでは、単一の話者又は表現が存在し、したがって、モデル・パラメータ・セットは、すべてのコンポーネントmについて、μ(s) =μ及びΣ(s) =Σである。
いわゆる最尤(ML)基準に純粋に分析的に基づいて上記のモデルセットを得ることは可能でないので、従来、その問題は、バウム・ウェルチ・アルゴリズムと大抵呼ばれる期待値最大化(EM)アルゴリズムとして知られている反復アプローチを使用することによって対処される。ここで、次のような補助関数(“Q”関数)が得られる。
ここで、γm(t)は、観測o(t)を生成するコンポーネントmの事後確率であり、現在のモデル・パラメータはM’、Mは新たなパラメータ・セットとする。各々の反復の後で、パラメータ・セットM’は、Q(M,M’)を最大化する新たなパラメータ・セットMと置き換えられる。p(o(t),m|M)は、例えばGMM、HMMなどのような生成モデルである。
現在の実施形態において、次式の状態出力ベクトルを有するHMMが使用される。
ここで、m∈{1,.......,MN}、t∈{1,.......,T}、及び、s∈{1,.......,S}は、それぞれ、コンポーネント、時間及び表現のインデックスである。また、M、T及びSは、それぞれ、コンポーネント、フレーム及び表現の総数である。
の正確な形は、適用される表現依存変換のタイプに依存する。
CATのフレームワークにおいて、コンポーネントm及び表現sのための平均ベクトル
は、式(1)として書くことができる。
共分散
は、表現sに対して非依存である。
すなわち、
である。ここで、v(m)は、共分散決定木のリーフノードを表す。
後で説明される理由のために、この実施形態では、複数の共分散は、クラスター化され、複数の決定木に配置される。ここで、v(m)∈{1,.......,V}は、コンポーネントmの共分散行列が属する共分散決定木中のリーフノードを表し、Vは、分散決定木のリーフノードの総数である。
上記を使用すると、補助関数は、次のように表現することができる。
ここで、Cは、Mとは独立した定数である。
CATのパラメータ推定は、三つの部分に分割することができる。
最初の部分は、クラスター・モデルのためのガウス分布のパラメータ(つまり、表現非依存平均{μn}及び表現非依存共分散{Σk})である。上記のインデックスn及びkは、後で説明される平均及び分散決定木のリーフノードを示す。
第2の部分は、次の表現依存重みである。
ここで、sは表現を示し、iは、クラスター・インデックス・パラメータを示し、q(m)は、コンポーネントmのための回帰クラス・インデックスを示す。
第3の部分は、クラスター依存決定木である。
補助関数が上記の方法で表現されれば、それは、表現依存及び非依存パラメータのML値を得るために、各々の変数に関して順に最大化される。
詳しくは、平均のML推定を決定するために、下記手続きが実行される。
最初に、式(4)の補助関数が、以下のようにμnで微分される。
ここで、
である。
(m) ij及びk(m) iは、蓄積された統計データ(accumulated statistics)である。
導関数を0にセットして法線方向において式を最大化することによって、μnのML推定、すなわち、
について次の式が得られる。
μnのML推定はまた、μkに依存することに留意されるべきである(ここで、kはnと等しくない)。インデックスnは、平均ベクトルの判定木のリーフノードを表わすために用いられるのに対して、インデックスkは、共分散決定木のリーフノードを表わす。したがって、収束するまですべてのμnにわたり繰り返すことによって最適化を実行することが必要である。
これは、次式を解くことによりすべてのμnを同時に最適化することによって実行することができる。
しかしながら、訓練データが小さいか又はNが非常に大きい場合、式(11)の係数行列はフルランクを有することができない。この問題は、特異値分解又は他の良く知られた行列因数分解技術を用いることにより回避することができる。
その後、同じプロセスが、共分散のML推定を実行するために行われる。つまり、式(6)に示される補助関数がΣkで微分され、次式が与えられる。
である。
表現依存重みのためのML推定も、同じ方法で、つまり、ML推定が求められるパラメータに関して補助関数を微分し、そして、微分の値を0にセットすることで、得ることができる。
表現依存重みのために、これは次を与える。
式(14)は、バイアス・クラスターをもたないCAT重み推定であり、バイアス・クラスターをもつCAT重み推定は次のように書き直すことができる。
ここで、μc(m,1)は、バイアス・クラスター・モデルのためのコンポーネントmの平均ベクトルであり、M1は、コンポーネントmのためのノンバイアス平均ベクトルの行列である。
パラメータ推定の第3の部分は、決定木の形成である。クラスター依存の決定木は、一つのクラスターごとに形成される。クラスターの決定木が形成されるとき、ツリー構造、ガウス平均ベクトル及び共分散マトリックスを含む他のクラスターのパラメータは固定される。
各々の二分決定木は、すべてのコンテキストを表現する単一のルート・ノードから始まる局所的最適化法で構築される。この実施形態において、コンテキストによって、次のベース(音声ベース、言語ベース、及び、韻律ベース)が使用される。各々のノードが作成されるとともに、コンテキストに関する次の最適な質問が選択される。いずれの質問が尤度の最大の増加をもたらすか及び訓練例において生成される終端ノードに基づいて、質問が選択される。
その後、訓練データに総尤度の最大の増加を提供するために、その最適の質問を用いて分割することができる終端ノードを発見するために、終端ノードのセットが検索される。この増加が閾値を越えるとすれば、該ノードは最適な質問を用いて分割され、2つの新たな終端ノードが作成される。更に分割しても、尤度分割に適用される閾値を越えないことにより、新たな終端ノードを形成することができない場合、そのプロセスは停止する。
このプロセスは例えば図13に示される。平均決定木中の第n番目の終端ノードは、質問qにより2の新たな終端ノードn+ q及びn- qに分割される。この分割により達成される尤度の増加は、以下のように計算することができる。
ここで、S(n)は、ノードnに関連するコンポーネントのセットを示す。μnに関して不変である項は含まれない点に留意されるべきである。
μnの最大尤度は式(10)により与えられる。それゆえ、上記は、次のように書くことができる。
したがって、ノードnをn+ q及びn- qへ分割することにより得られる尤度は、次式により与えられる。
したがって、上記を使用して、各々のクラスターの決定木を構築することは可能である。ここで、木は、最初に木において最適な質問が尋ねられ、分割の尤度に従う階層の順に決定が配列されるように、配列される。その後、重みが各々のクラスターに適用される。
更なる実施態様において、決定木はまた、分散のために構築され得る。共分散決定木は、以下のように構築される:共分散決定木中のケース終端ノードが、質問qにより2の新たな終端ノードk+ q及びk- qに分割されるならば、クラスター分散行列及び分割による増加は、以下のように表現される。
ここで、Dは、{Σk}とは独立した定数である。
したがって、尤度の増加は、次のようになる。
一実施態様において、本プロセスは反復的な方法で実行される。図12のフローチャートを参照して、この基本的なシステムが説明される。
ステップS1301において、オーディオ音声(audio speech)の複数の入力が受信される。この実例となる例では、4つの表現が使用される。
次に、ステップS1303において、表現非依存の音響モデルは、様々な表現をもつ訓練データを使用して訓練される。
クラスター適応可能なモデルは、以下のように初期化され訓練される。
ステップS1305において、クラスターPの数はV+1にセットされる。ここで、Vは、データ(4)が利用できる異なる表現の数である。
ステップS1307において、1つのクラスター(クラスター1)が、バイアス・クラスターとして決定される。バイアス・クラスターのための決定木及び関連するクラスター平均ベクトルは、ステップS1303において表現非依存のモデルを作成した声を使用して初期化される。また。共分散マトリックス、多空間確率分布(MSD)のための空間重み及び構造を共有しているそれらのパラメータは、表現非依存のモデルのそれらに初期化される。
ステップS1309において、クラスター2,…,P(例えば、クラスター2,3,4,5はそれぞれ表現A,B,C,Dのためのものである)のそれぞれに特定の表現タグ(expression tag)が割り当てられる。
ステップS1311において、CAT補間重みのセットは、割り当てられた表現タグに従って、以下のように単に1又は0にセットされる。
この具体例では、ストリームごと表現ごとに大域的な重み(global weights)が存在する。表現/ストリームの組み合せごとに、3セットの重みがセットされる:無音、音声及びポーズについて。
ステップS1313において、各々のクラスター2,…,(P−1)について順番に、以下のようにクラスターが初期化される。関連する声(voice)のための音声データ(例えば、クラスター2のための音声B)は、ステップS1303で訓練された表現非依存モデルを使用して、調整(aligned)される。これらの調整を所与として、統計値が計算され、そして、クラスターのための決定木及び平均値が推定される。所与のコンテキストのための平均値は、ステップS1311でセットされた重みを使用して、クラスター平均の重み付き加算として、計算される。すなわち、実際には、これは、所与のコンテキストに関する平均値(そのコンテキストに関するバイアス・クラスターの平均の重み付き加算(いずれの場合も重み1)である)を、そして、クラスター2におけるそのコンテキストに関する声Aのモデルの平均をもたらす。
クラスターが上記のように初期化されたならば、その後、CATモデルは、以下のように、更新され/訓練される。
ステップS1319において、CAT重みが固定された状態で、クラスター1からPまで、1クラスターずつ、決定木が構成される。ステップS1321において、新たな平均及び分散がCATモデルで推定される。次に、ステップS1323において、各クラスターごとに、新たなCAT重みが推定される。一つの実施形態では、該プロセスは、収束するまでS1321へループバックする。パラメータ及び重みは、上記パラメータのより良い推定を得るために、バウム・ウェルチ・アルゴリズムの補助関数を用いて実行される最尤計算を使用して、推定される。
前述のとおり、パラメータは反復的なプロセスによって推定される。
更なる実施態様では、ステップS1323において、それぞれの繰り返しの間で決定木が再構成されるように、該プロセスは収束するまでステップS1319へループバックする。
さらに、多次元連続空間における発話レベルの点に基づく感情表現(expressive representation)を使用してCATシステムを最適化することが可能である。ここでは、上記のプロセスは、繰り返されることができる。しかし、ステップS1323は、それぞれの表現ラベルよりはむしろ、それぞれの音声発話(speech utterance)のための点を計算することによって、置き換えられる。また、モデル・パラメータ、空間における点(重み)及び決定木を更新することを繰り返すことが可能である。
図13は、決定木の形をとるクラスター1〜Pを示す。この単純化された例では、ちょうどクラスター1に4つの終端ノードが存在し、クラスターPに3つの終端ノードが存在する。決定木は対称である必要がない、つまり、各々の決定木が異なる数の終端ノードを有することができることに留意することは重要である。木における終端ノードの数及びブランチの数は、純粋に対数尤度分割によって決定される。対数尤度分割は、最初の決定において最大の分割を達成し、次いで、より大きな分割をもたらす質問の順に質問が尋ねられる。達成された分割が閾値未満ならば、終端ノードの分割は終了する。
特定の実施形態が説明されたが、これらの実施形態はただ例として示されたものであり、本発明の範囲を制限することが意図されるものではない。実際に、本明細書で説明された新規な方法及び装置は、種々の他の形で実施されても良い;更に、本明細書で説明された方法及び装置の形における様々な省略、置き換え及び変更は、本発明の精神を逸脱せずになされ得る。添付の特許請求の範囲及びそれらの均等物は、本発明の範囲及び精神に含まれるであろうそのような修正の形をカバーすることが意図される。

Claims (20)

  1. テキスト音声合成方法において、前記方法は、
    入力テキストを受信することと、
    前記入力テキストを、音響単位のシーケンスに分割することと、
    音響モデルを使用して、前記音響単位のシーケンスを、音声ベクトルのシーケンスに変換することと、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
    前記音声ベクトルのシーケンスを音声として出力すること、
    を含み、
    前記方法は、
    第1の空間において構成される表現言語特徴ベクトルを生成するために前記入力テキストから表現特徴を抽出することと、前記表現言語特徴ベクトルを、第2の空間において構成される表現合成特徴ベクトルにマッピングすることによって、
    前記モデル・パラメータのうちの少なくとも一部を決定することを更に含む、
    方法。
  2. 前記表現言語特徴ベクトルを表現合成特徴ベクトルにマッピングすることは、機械学習アルゴリズムを使用することを含む、請求項1に記載の方法。
  3. 前記第2の空間は多次元連続空間である、請求項1に記載の方法。
  4. 前記入力テキストから前記表現特徴を抽出することは、複数の抽出プロセスを含み、
    前記複数の抽出プロセスは、前記テキストの異なる複数の情報レベルにおいて実行される、請求項1に記載の方法。
  5. 前記異なる複数の情報レベルは、単語ベースの言語特徴ベクトルを生成するための単語ベースの言語特徴抽出レベル、フルコンテキストフォンベースの言語特徴を生成するためのフルコンテキストフォンベースの言語特徴抽出レベル、品詞(POS)ベースの特徴を生成するためのPOSベースの言語特徴抽出レベル及びナレーションスタイル情報を生成するためのナレーションスタイルベースの言語特徴抽出レベルから選択される、請求項4に記載の方法。
  6. 前記複数の抽出プロセスのそれぞれが、特徴ベクトルを生成し、
    前記方法は、前記第2の空間にマッピングするための言語特徴ベクトルを生成するために、前記異なる複数の情報レベルから生成される複数の前記言語特徴ベクトルを連結することを更に含む、請求項4に記載の方法。
  7. 前記表現言語特徴ベクトルを表現合成特徴ベクトルにマッピングすることは、前記異なる複数の情報レベルのそれぞれに対応する複数の階層的なステージを含む、請求項4に記載の方法。
  8. 前記マッピングはフルコンテキスト情報を使用する、請求項1に記載の方法。
  9. 前記音響モデルは、前記入力テキストからフルコンテキスト情報を受信し、この情報は、前記音響モデルにおける前記表現合成特徴ベクトルから得られる前記モデル・パラメータと結合される、請求項1に記載の方法。
  10. 前記音響モデルの前記モデル・パラメータは、同一のタイプの複数のモデル・パラメータの重み付き加算として表され、各重みは、前記第2の空間において表される、請求項1に記載の方法。
  11. 前記同一のタイプの複数のモデル・パラメータの重み付き加算として表される前記モデル・パラメータは、ガウス分布の平均である、請求項10に記載の方法。
  12. 前記同一のタイプの複数のパラメータがクラスター化され、前記表現合成特徴ベクトルが、それぞれのクラスターごとの重みを含む、請求項10に記載の方法。
  13. それぞれのクラスターは、少なくとも一つの決定木を含み、前記決定木は、言語上の変動、音声上の変動又は韻律上の変動のうちの少なくとも一つに関連する質問に基づく、請求項12に記載の方法。
  14. 前記クラスターの前記決定木の間に、構造における相違が存在する、請求項13に記載の方法。
  15. テキスト音声合成システムを訓練する方法において、前記方法は、
    訓練データを受信することと、ここで、前記訓練データは、テキストのデータと該テキストのデータに対応する音声データを含む、
    第1の空間において構成される表現言語特徴ベクトルを生成するために、入力した前記テキストから表現特徴を抽出することと、
    前記音声データから表現特徴を抽出し、第2の空間において構成される表現合成特徴ベクトルを生成することと、
    機械学習アルゴリズムを訓練することを含み、
    前記機械学習アルゴリズムの訓練の入力は、表現言語特徴ベクトルであり、前記訓練の出力は、前記訓練の入力に対応する表現合成特徴ベクトルである、
    方法。
  16. 前記方法は、前記表現合成特徴ベクトルを音声合成装置に出力することを更に含み、
    前記音声合成装置は、音響モデルを含み、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、請求項15に記載の方法。
  17. 前記音響モデルのパラメータ及び前記機械学習アルゴリズムが一緒に訓練される、請求項16に記載の方法。
  18. 前記音響モデルの前記モデル・パラメータは、同一のタイプの複数のモデル・パラメータの重み付き加算として表され、各重みは、前記第2の空間において表され、前記第2の空間において表される各重み及び前記機械学習アルゴリズムが一緒に訓練される、請求項16に記載の方法。
  19. テキスト音声合成装置において、前記装置は、
    入力テキストを受信するための受信部と、
    プロセッサと、
    音声出力とを含み、
    前記プロセッサは、
    前記入力テキストを、音響単位のシーケンスに分割し、
    音響モデルを使用して、前記音響単位のシーケンスを、音声ベクトルのシーケンスに変換するように構成され、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを含む、
    前記音声出力は、前記音声ベクトルのシーケンスを音声として出力するように構成され、
    前記プロセッサは、
    第1の空間において構成される表現言語特徴ベクトルを生成するために前記入力テキストから表現特徴を抽出することと、前記表現言語特徴ベクトルを、第2の空間において構成される表現合成特徴ベクトルにマッピングすることによって、
    前記モデル・パラメータのうちの少なくとも一部を決定するように更に構成される、
    装置。
  20. コンピュータをテキスト音声合成装置として機能させるためのプログラムであって、
    前記プログラムは、
    前記コンピュータに、入力テキストを受信させ、
    前記コンピュータに、前記入力テキストを、音響単位のシーケンスに分割させ、
    前記コンピュータに、音響モデルを使用して、前記音響単位のシーケンスを、音声ベクトルのシーケンスに変換させ、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
    前記コンピュータに、前記音声ベクトルのシーケンスを音声として出力させるように構成され、
    前記プログラムは、
    前記コンピュータに、第1の空間において構成される表現言語特徴ベクトルを生成するために前記入力テキストから表現特徴を抽出することと、前記表現言語特徴ベクトルを、第2の空間において構成される表現合成特徴ベクトルにマッピングすることによって、前記モデル・パラメータのうちの少なくとも一部を決定させるように更に構成される、プログラム。
JP2013149244A 2012-07-18 2013-07-18 音声処理システム Active JP5768093B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1212783.3 2012-07-18
GB1212783.3A GB2505400B (en) 2012-07-18 2012-07-18 A speech processing system

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015122790A Division JP2015180966A (ja) 2012-07-18 2015-06-18 音声処理システム

Publications (2)

Publication Number Publication Date
JP2014056235A JP2014056235A (ja) 2014-03-27
JP5768093B2 true JP5768093B2 (ja) 2015-08-26

Family

ID=46799804

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2013149244A Active JP5768093B2 (ja) 2012-07-18 2013-07-18 音声処理システム
JP2015122790A Abandoned JP2015180966A (ja) 2012-07-18 2015-06-18 音声処理システム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2015122790A Abandoned JP2015180966A (ja) 2012-07-18 2015-06-18 音声処理システム

Country Status (4)

Country Link
US (1) US20140025382A1 (ja)
JP (2) JP5768093B2 (ja)
CN (1) CN103578462A (ja)
GB (1) GB2505400B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015180966A (ja) * 2012-07-18 2015-10-15 株式会社東芝 音声処理システム

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558743B2 (en) * 2013-03-15 2017-01-31 Google Inc. Integration of semantic context information
GB2517503B (en) 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
KR102222122B1 (ko) * 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기
US9846836B2 (en) * 2014-06-13 2017-12-19 Microsoft Technology Licensing, Llc Modeling interestingness with deep neural networks
US10127901B2 (en) * 2014-06-13 2018-11-13 Microsoft Technology Licensing, Llc Hyper-structure recurrent neural networks for text-to-speech
CN105869641A (zh) * 2015-01-22 2016-08-17 佳能株式会社 语音识别装置及语音识别方法
US20160300573A1 (en) * 2015-04-08 2016-10-13 Google Inc. Mapping input to form fields
US20160343366A1 (en) * 2015-05-19 2016-11-24 Google Inc. Speech synthesis model selection
JP6580911B2 (ja) * 2015-09-04 2019-09-25 Kddi株式会社 音声合成システムならびにその予測モデル学習方法および装置
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
CN105185372B (zh) * 2015-10-20 2017-03-22 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN105355193B (zh) * 2015-10-30 2020-09-25 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN106708789B (zh) * 2015-11-16 2020-07-14 重庆邮电大学 一种文本处理方法及装置
CN105529023B (zh) * 2016-01-25 2019-09-03 百度在线网络技术(北京)有限公司 语音合成方法和装置
JP6523998B2 (ja) * 2016-03-14 2019-06-05 株式会社東芝 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN106971709B (zh) 2017-04-19 2021-10-15 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
EP3393083B1 (en) * 2017-04-20 2021-09-29 Nokia Technologies Oy Method and device for configuring a data transmission and processing system
JP6806619B2 (ja) * 2017-04-21 2021-01-06 株式会社日立ソリューションズ・テクノロジー 音声合成システム、音声合成方法、及び音声合成プログラム
KR102071582B1 (ko) 2017-05-16 2020-01-30 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
WO2018212584A2 (ko) * 2017-05-16 2018-11-22 삼성전자 주식회사 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치
CN107481713B (zh) * 2017-07-17 2020-06-02 清华大学 一种混合语言语音合成方法及装置
CN107452369B (zh) * 2017-09-28 2021-03-19 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN107464554B (zh) * 2017-09-28 2020-08-25 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
JP6647475B2 (ja) * 2017-11-29 2020-02-14 三菱電機株式会社 言語処理装置、言語処理システムおよび言語処理方法
CN108417205B (zh) * 2018-01-19 2020-12-18 苏州思必驰信息科技有限公司 语义理解训练方法和系统
CN110599998B (zh) * 2018-05-25 2023-08-18 阿里巴巴集团控股有限公司 一种语音数据生成方法及装置
CN109192200B (zh) * 2018-05-25 2023-06-13 华侨大学 一种语音识别方法
KR102136464B1 (ko) * 2018-07-31 2020-07-21 전자부품연구원 어텐션 메커니즘 기반의 오디오 분할 방법
KR102147496B1 (ko) * 2018-08-30 2020-08-25 네이버 주식회사 유사 댓글의 연속 입력을 차단하기 위한 방법 및 시스템
CN111048062B (zh) * 2018-10-10 2022-10-04 华为技术有限公司 语音合成方法及设备
CN109308892B (zh) * 2018-10-25 2020-09-01 百度在线网络技术(北京)有限公司 语音合成播报方法、装置、设备及计算机可读介质
KR20200119217A (ko) * 2019-04-09 2020-10-19 네오사피엔스 주식회사 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템
CN110097890B (zh) * 2019-04-16 2021-11-02 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置
US11417313B2 (en) 2019-04-23 2022-08-16 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
WO2020235696A1 (ko) * 2019-05-17 2020-11-26 엘지전자 주식회사 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법
CN111862984B (zh) * 2019-05-17 2024-03-29 北京嘀嘀无限科技发展有限公司 一种信号输入方法、装置、电子设备和可读存储介质
CN111383628B (zh) * 2020-03-09 2023-08-25 第四范式(北京)技术有限公司 一种声学模型的训练方法、装置、电子设备及存储介质
US11322133B2 (en) * 2020-07-21 2022-05-03 Adobe Inc. Expressive text-to-speech utilizing contextual word-level style tokens
CN111833843B (zh) 2020-07-21 2022-05-10 思必驰科技股份有限公司 语音合成方法及系统
CN113112987B (zh) * 2021-04-14 2024-05-03 北京地平线信息技术有限公司 语音合成方法、语音合成模型的训练方法及装置
CN113823257B (zh) * 2021-06-18 2024-02-09 腾讯科技(深圳)有限公司 语音合成器的构建方法、语音合成方法及装置
CN115831089B (zh) * 2021-12-27 2023-12-01 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品
CN114613353B (zh) * 2022-03-25 2023-08-08 马上消费金融股份有限公司 语音合成方法、装置、电子设备及存储介质
CN115098647B (zh) * 2022-08-24 2022-11-01 中关村科学城城市大脑股份有限公司 用于文本表征的特征向量生成方法、装置和电子设备
CN115457931B (zh) * 2022-11-04 2023-03-24 之江实验室 一种语音的合成方法、装置、设备及存储介质

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
US6324532B1 (en) * 1997-02-07 2001-11-27 Sarnoff Corporation Method and apparatus for training a neural network to detect objects in an image
JP3159242B2 (ja) * 1997-03-13 2001-04-23 日本電気株式会社 感情生成装置およびその方法
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
US6236966B1 (en) * 1998-04-14 2001-05-22 Michael K. Fleming System and method for production of audio control parameters using a learning machine
US6327565B1 (en) * 1998-04-30 2001-12-04 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on eigenvoices
US6178402B1 (en) * 1999-04-29 2001-01-23 Motorola, Inc. Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network
WO2002067194A2 (en) * 2001-02-20 2002-08-29 I & A Research Inc. System for modeling and simulating emotion states
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
JP2003233388A (ja) * 2002-02-07 2003-08-22 Sharp Corp 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JP2004086001A (ja) * 2002-08-28 2004-03-18 Sony Corp 会話処理装置、および会話処理方法、並びにコンピュータ・プログラム
US7313523B1 (en) * 2003-05-14 2007-12-25 Apple Inc. Method and apparatus for assigning word prominence to new or previous information in speech synthesis
US8073696B2 (en) * 2005-05-18 2011-12-06 Panasonic Corporation Voice synthesis device
JP5031269B2 (ja) * 2005-05-30 2012-09-19 京セラ株式会社 文書表示装置及び文書読み上げ方法
WO2007098560A1 (en) * 2006-03-03 2007-09-07 The University Of Southern Queensland An emotion recognition system and method
US7716221B2 (en) * 2006-06-02 2010-05-11 Behrens Clifford A Concept based cross media indexing and retrieval of speech documents
US8024193B2 (en) * 2006-10-10 2011-09-20 Apple Inc. Methods and apparatus related to pruning for concatenative text-to-speech synthesis
JP4455610B2 (ja) * 2007-03-28 2010-04-21 株式会社東芝 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
US8229729B2 (en) * 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
KR101181785B1 (ko) * 2008-04-08 2012-09-11 가부시키가이샤 엔.티.티.도코모 미디어 처리 서버 장치 및 미디어 처리 방법
US8401849B2 (en) * 2008-12-18 2013-03-19 Lessac Technologies, Inc. Methods employing phase state analysis for use in speech synthesis and recognition
JP5574344B2 (ja) * 2009-03-09 2014-08-20 国立大学法人豊橋技術科学大学 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP5457706B2 (ja) * 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
GB2484615B (en) * 2009-06-10 2013-05-08 Toshiba Res Europ Ltd A text to speech method and system
JP5293460B2 (ja) * 2009-07-02 2013-09-18 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
GB2480108B (en) * 2010-05-07 2012-08-29 Toshiba Res Europ Ltd A speech processing method an apparatus
CN102385858B (zh) * 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
JP3173022U (ja) * 2011-11-01 2012-01-19 サイバークローン株式会社 音声合成を伴う動く画像システム
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015180966A (ja) * 2012-07-18 2015-10-15 株式会社東芝 音声処理システム

Also Published As

Publication number Publication date
JP2015180966A (ja) 2015-10-15
CN103578462A (zh) 2014-02-12
GB2505400A (en) 2014-03-05
JP2014056235A (ja) 2014-03-27
GB2505400B (en) 2015-01-07
GB201212783D0 (en) 2012-08-29
US20140025382A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
JP5768093B2 (ja) 音声処理システム
US10140972B2 (en) Text to speech processing system and method, and an acoustic model training system and method
KR102401512B1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
JP6246777B2 (ja) 音声合成方法、装置及びプログラム
JP6092293B2 (ja) テキスト読み上げシステム
JP5398909B2 (ja) テキスト音声合成方法及びシステム
Takaki et al. Speaker adaptation of various components in deep neural network based speech synthesis
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
Rashmi et al. Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
Patil et al. Hidden-Markov-model based statistical parametric speech synthesis for Marathi with optimal number of hidden states
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
Mohanty et al. Double ended speech enabled system in Indian travel & tourism industry
Coto-Jiménez et al. Speech Synthesis Based on Hidden Markov Models and Deep Learning.
Ekpenyong et al. Intelligent Speech Features Mining for Robust Synthesis System Evaluation
Singh Speech Synthesis Using Linear Dynamical Models
Razavi et al. On the Application of Automatic Subword Unit Derivation and Pronunciation Generation for Under-Resourced Language ASR: A Study on Scottish Gaelic
Chanjaradwichai et al. Tree-based context clustering using speech recognition features for acoustic model training of speech synthesis

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150622

R151 Written notification of patent or utility model registration

Ref document number: 5768093

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350