JP2015072490A - テキスト音声合成方法及びシステム - Google Patents

テキスト音声合成方法及びシステム Download PDF

Info

Publication number
JP2015072490A
JP2015072490A JP2014241271A JP2014241271A JP2015072490A JP 2015072490 A JP2015072490 A JP 2015072490A JP 2014241271 A JP2014241271 A JP 2014241271A JP 2014241271 A JP2014241271 A JP 2014241271A JP 2015072490 A JP2015072490 A JP 2015072490A
Authority
JP
Japan
Prior art keywords
speech
text
sequence
cluster
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014241271A
Other languages
English (en)
Other versions
JP5847917B2 (ja
Inventor
政巳 赤嶺
Masami Akamine
政巳 赤嶺
ラトーレ・マルティネス・ハビエル
Latorre-Martinez Javier
ワン・ビンセント・ピン・ルン
Vincent Ping Leung Wan
チン・カン・クホン
Kean Kheong Chin
ゲールズ・マーク・ジョン・フランシス
John Francis Gales Mark
ニル・キャサリン・マリー
Mary Knill Katherine
チュン・ビュン・ハ
Jun Ha Jeon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2015072490A publication Critical patent/JP2015072490A/ja
Application granted granted Critical
Publication of JP5847917B2 publication Critical patent/JP5847917B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】複数の異なる音声特性をシミュレートするために使用するテキスト音声合成方法を提供する。【解決手段】入力されたテキストを音響単位のシーケンスに分割し、テキストのために音声特性を選択し、音響モデルを使用して、音響単位のシーケンスを音声ベクトルのシーケンスに変換する。音響モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、音声ベクトルのシーケンスを、選択された音声特性をもつ音声として出力することを含み、選択された音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性に依存する。音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された音声特性のための該音声特性依存加重値を検索することを含み、パラメータは、各クラスターで提供される。【選択図】図4

Description

(関連出願への相互参照)
この出願は、2012年3月14日付け提出の英国特許出願第1204502.7号に基づくものであり、また、その優先権の利益を主張する。そして、その内容の全体が参照によって本明細書に組み込まれる。
(技術分野)
本明細書で一般に説明される実施形態は、テキスト音声合成システム及び方法に関係する。
テキスト音声合成システムは、テキストファイルの受理に応じてオーディオ音声又はオーディオ音声ファイルが出力されるシステムである。
テキスト音声合成システムは、多種多様のアプリケーション(例えば、電子ゲーム、電子ブック・リーダー、電子メール・リーダー、衛星ナビゲーション、自動電話システム、自動警報システム)で使用される。より人間らしい声のようにシステムに音を出させる要求が継続して存在する。
これから添付の図面を参照して、限定されない実施形態に従うシステム及び方法が説明される。添付の図面において各図は次の通りである。
図1は、テキスト音声合成システムの概略図である。 図2は、既知の音声処理システムにより実行されるステップを示すフローチャートである。 図3は、ガウス確率関数の概略図である。 図4は、一実施形態に従った音声処理方法のフローチャートである。 図5は、音声特性がどのようにして選択され得るかについて示すシステムの概略図である。 図6は、図5のシステムに関するバリエーションである。 図7は、図5のシステムに関する更なるバリエーションである。 図8は、図5のシステムに関する更に他のバリエーションである。 図9aは、更なる実施形態に従った音声処理方法のフローチャートである。 図9bは、図9aを参照して説明されるステップの一部の図的表現である。 図10は、訓練可能なテキスト音声合成システムの概略図である。 図11は、実施形態に従って音声処理システムを訓練する方法を示すフローチャートである。 図12は、実施形態により用いられる決定木の概略図である。 図13は、実施形態に従ったシステムの適応を示すフローチャートである。 図14は、更なる実施形態に従ったシステムの適応を示すフローチャートである。
詳細な説明
一つの実施形態において、複数の異なる音声特性(voice characteristics)をシミュレートするために使用するテキスト音声合成方法が提供される。該方法は、テキストを入力することと、入力された該テキストを音響単位のシーケンスに分割することと、入力された該テキストのために音声特性を選択することと、音響モデルを使用して、該音響単位のシーケンスを音声ベクトル(speech vectors)のシーケンスに変換することと、ここで、該モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、該音声ベクトルのシーケンスを、選択された該音声特性をもつ音声(audio)として出力することを含み、選択された該音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、該音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された該音声特性のための該音声特性依存加重値を検索することを含み、該パラメータは、各クラスターにおいて提供され、各々のクラスターは、少なくとも一つのサブクラスターを含み、該音声特性依存加重値は、各クラスターごとに検索され、サブクラスターあたりに一つの加重値が存在する。
各々のサブクラスターは、少なくとも一つの決定木を含んでも良く、該決定木は、言語上の相違、音声上の相違又は韻律上の相違のうちの少なくとも一つに関連する質問に基づいている。上記クラスターの決定木の間及び上記サブクラスターの木の間に、構造における相違が存在しても良い。
上記確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントt分布又はラプラス分布から選択されても良い。
一つの実施形態において、上記複数の音声特性は、異なる話者音声(speaker voices)、異なる話者スタイル(speaker styles)、異なる話者感情(speaker emotions)又は異なるアクセント(accents)のうちの少なくとも一つから選択される。音声特性を選択することは、入力を提供することを含んでも良く、該入力は、上記加重値が該入力を介して選択されることを可能にする。また、音声特性を選択することは、出力される上記テキストから、使用されるべき上記加重値を予測することを含んでも良い。また、更なる実施形態において、音声特性を選択することは、話者のタイプに関する外部情報から、使用されるべき上記加重値を予測することを含んでも良い。
該方法が新たな音声特性に適応することもまた可能である。例えば、音声特性を選択することは、音声(voice)を含んでいる音声入力(audio input)を受信することと、上記音声入力の上記音声の上記音声特性をシミュレートするために上記加重値を変更することを含んでも良い。
更なる実施形態において、音声特性を選択することは、複数の予め記憶された複数の加重値セットから、ランダムに一つの加重値セットを選択することを含み、それぞれの加重値セットは、すべてのサブクラスターのための複数の上記加重値を含む。
更なる実施形態において、音声特性を選択することは、入力を受信することと、ここで、上記入力は、複数の値を含む、上記複数の値を、複数の上記加重値にマッピングすることを含む。例えば、上記の値はn次元の値空間を占有し、上記加重値はw次元加重値空間を占有し、ここで、nとwは整数であり、wはnより大きく、上記変換は上記入力値をより高い次元の空間に変換し得る。それら値は、認識できる話者特性(例えば、うれしい声(happy voice)、気が立っている声(nervous voice)、怒った声(angry voice)など)を直接表現しても良い。そして、それら値の空間は、ユーザが又はテキストのコンテキストに関する何らかの他のインジケーションが、出力される声が感情空間の上のどこにあるべきかを示す「感情空間」と考えることができる。これは「感情空間」より非常に大きなディメンションをしばしば有するであろう加重値空間の上へマッピングされる。
他の実施形態において、テキスト音声合成システムをオーディオ・ファイルに含まれる音声特性に適応する方法が提供され、該テキスト音声合成システムは、テキストを入力し、入力された該テキストを音響単位のシーケンスに分割し、入力された該テキストのために音声特性を選択し、音響モデルを使用して、該音響単位のシーケンスを音声ベクトルのシーケンスに変換し、ここで、該モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、該音声ベクトルのシーケンスを、選択された該音声特性をもつ音声として出力するように構成されたプロセッサを含み、選択された該音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、該音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された該音声特性のための該音声特性依存加重値を検索することを含み、該パラメータは、各クラスターにおいて提供され、各々のクラスターは、少なくとも一つのサブクラスターを含み、該音声特性依存加重値は、各クラスターごとに検索され、サブクラスターあたりに一つの加重値が存在し、該方法は、新たな入力オーディオ・ファイルを受信することと、生成された該音声と該新たなオーディオ・ファイルとの間の類似を最大にするために、該クラスターに適用される該加重値を計算することを含む。
更なる実施形態において、上記新たなオーディオ・ファイルからのデータを使用して新たなクラスターが生成され、生成された上記音声と上記新たなオーディオ・ファイルとの間の上記類似を最大にするために、上記新たなクラスターを含む上記クラスターに適用される上記加重値が計算される。
より厳密に新たなオーディオ・ファイルの音声にマッチするように、上記加重値に加えて話者変換(例えば、CMLLR変換)が適用されても良い。生成された上記音声と上記新たなオーディオ・ファイルとの間の上記類似を最大にするために、上記の線形変換が適用されても良い。新たな話者クラスターを生成することなく適合が行われる場合及び新たな話者クラスターが生成される場合の両方において、追加の変換(extra transform)を適用するこの技術が使用されても良い。
更なる実施形態において、複数の異なる音声特性をシミュレートするために使用されるテキスト音声合成システムが提供され、該システムは、入力されたテキストを受信するためのテキスト入力と、プロセッサとを含み、該プロセッサは、入力された該テキストを音響単位のシーケンスに分割し、入力された該テキストのための音声特性の選択を可能にし、音響モデルを使用して、該音響単位のシーケンスを音声ベクトルのシーケンスに変換し、ここで、該モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、該音声ベクトルのシーケンスを、選択された該音声特性をもつ音声として出力するように構成され、選択された該音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、該音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された該音声特性のための該音声特性依存加重値を検索することを含み、該パラメータは、各クラスターにおいて提供され、各々のクラスターは、少なくとも一つのサブクラスターを含み、該音声特性依存加重値は、各クラスターごとに検索され、サブクラスターあたりに一つの加重値が存在する、システム。
更なる実施形態において、オーディオ・ファイルにおいて提供される音声特性をもつ音声を出力するように構成された、適応性のあるテキスト音声合成システムが提供され、該テキスト音声合成システムは、入力されたテキストを受信し、入力された該テキストを音響単位のシーケンスに分割し、入力された該テキストのために音声特性を選択し、音響モデルを使用して、該音響単位のシーケンスを音声ベクトルのシーケンスに変換し、ここで、該モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、該音声ベクトルのシーケンスを、選択された該音声特性をもつ音声として出力するように構成されたプロセッサを含み、選択された該音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、該音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された該音声特性のための該音声特性依存加重値を検索することを含み、該パラメータは、各クラスターにおいて提供され、各々のクラスターは、少なくとも一つのサブクラスターを含み、該音声特性依存加重値は、各クラスターごとに検索され、サブクラスターあたりに一つの加重値が存在し、該システムは、クラスター及びサブクラスターにおいて提供される該パラメータと、該サブクラスターのための該加重値とを記憶するように構成されたメモリを更に含み、該システムは、新たな入力オーディオ・ファイルを受信するように更に構成され、該プロセッサは、生成された該音声と該新たなオーディオ・ファイルとの間の類似を最大にするために、該サブクラスターに適用される該加重値を再計算するように構成される。
本発明の実施形態に従う方法は、ハードウェアでも汎用コンピュータ中のソフトウェアでも実施することができる。本実施形態に従う更なる方法は、ハードとソフトとの組み合せで実施することができる。本発明の実施形態に従う方法はまた、単一の処理装置、又は複数の処理装置からなる分散ネットワークにより実施することができる。
実施形態に従う幾つかの方法はソフトウェアにより実施することができるので、幾つかの実施形態は任意の適したキャリア媒体上の汎用コンピュータに提供されるコンピュータコードを含む。キャリア媒体は、例えばフロッピー(登録商標)ディスク、CD ROM、磁気デバイス若しくはプログラマブル・メモリ・デバイスのような任意の記憶媒体、又は、例えば任意の信号(例えば、電気的信号、光学的信号若しくはマイクロ波信号)のような任意の一時的な媒体を含むことができる。
図1は、テキスト音声合成システム1を示す。テキスト音声合成システム1は、プログラム5を実行するプロセッサ3を含む。テキスト音声合成システム1は、記憶装置7を更に含む。記憶装置7は、テキストを音声に変換するプログラム5により使用されるデータを記憶する。テキスト音声合成システム1は、入力モジュール11及び出力モジュール13を更に含む。入力モジュール11は、テキスト入力15に接続される。テキスト入力15は、テキストを受ける。テキスト入力15は、例えば、キーボードであっても良い。あるいは、テキスト入力15は、外部記憶媒体又はネットワークから、テキストデータを受信するための手段であっても良い。
出力モジュール13に接続されるのは、音声用出力17である。音声出力17は、テキスト入力15へ入力されるテキストから変換された音声信号を出力するために使用される。音声出力17は、例えば、直接の音声出力(例えば、スピーカ)であっても良いし、又は、記憶媒体、ネットワークなどに送信され得るオーディオ・データ・ファイル用の出力であっても良い。
使用するときは、テキスト音声合成システム1は、テキスト入力15を通してテキストを受け取る。プロセッサ3上で実行されるプログラム5は、記憶装置7に記憶されたデータを使用して、テキストを音声データに変換する。音声は、出力モジュール13を介して音声出力17へ出力される。
これから図2を参照して単純化したプロセスが説明される。最初のステップS101において、テキストが入力される。テキストは、キーボード、タッチ・スクリーン、テキスト予測機能又は同様のものを介して入力されても良い。その後、テキストは、音響単位のシーケンスに変換される。これらの音響単位は、音素又は書記素であっても良い。該単位は、コンテキスト依存(例えば、選択された音素に加えて先行する音素及び後続する音素も考慮に入れるトライフォン)であっても良い。該テキストは、当該技術において周知の(本明細書では更に説明されない)技術を使用して、音響単位のシーケンスに変換される。
S105において、音響単位を音声パラメータに関連付ける確率分布が検索される。この実施形態において、確率分布は、平均及び分散により定義されるガウス分布であることがある。例えばポアソン分布、スチューデントt分布、ラプラス分布又はガンマ分布のような他の分布を使用することが可能であるが、それらのうちの幾つかは、平均及び分散とは異なる変数により定義される。
各々の音響単位が、音声ベクトル又は当該技術の専門用語を使用する「観測(observation)」に対して明確な一対一の対応を有することはとても有り得ない。多くの音響単位は、類似する方法で発音され、また、周囲の音響単位によって、或いは、単語若しくは文におけるそれらの位置によって、影響を受け、又は、異なる話者により異なった風に発音される。したがって、各々の音響単位は、音声ベクトルに関連付けられる確率を有するのみであり、また、テキスト音声合成システムは、多くの確率を計算して、音響単位のシーケンスを与えられた複数の観測のうち、最も起こり得るシーケンスを選択する。
ガウス分布は図3に示される。図3は、音声ベクトルに関係する音響単位の確率分布であるものとして考えることができる。例えば、Xとして示された音声ベクトルは、図3に示される分布を有する音素又は他の音響単位に対応する確率P1を有する。
ガウス分布の形状及び位置は、その平均及び分散により定義される。これらのパラメータは、システムの訓練の間に決定される。
その後、ステップS107において、これらのパラメータが音響モデルにおいて使用される。この説明において、音響モデルは、隠れマルコフモデル(HMM)である。しかしながら、他のモデルを使用することもできる。
音声システムのテキストは、音響単位(すなわち、音素、書記素、単語又はその部分)を音声パラメータに関連付ける多数の確率密度関数を記憶する。ガウス分布が一般に使用されるように、これらは一般にガウシアン又はコンポーネントと呼ばれる。
隠れマルコフモデル又は他のタイプの音響モデルにおいて、特定の音響単位に関係するすべての可能性のある音声ベクトルの確率が考慮される必要がある。そして、その音響単位のシーケンスに最大の可能性をもって対応する音声ベクトルのシーケンスが考慮される。これは、二つの単位が互いに影響を及ぼす方法(way)を考慮に入れる、シーケンスのすべての音響単位にわたる、大域的最適化(global optimization)を意味する。その結果、複数の音響単位からなるシーケンスが考慮される場合に、特定の音響単位に対する最有望な音声ベクトルが最良の音声ベクトルにならないことがあり得る。
音声ベクトルのシーケンスが決定されると、ステップS109において、音声が出力される。
図4は、一実施形態に従ったテキスト音声合成システムのためのプロセスのフローチャートである。ステップS201において、図2を参照して説明された方法と同じ方法で、テキストが受信される。その後、ステップS203において、該テキストは、音素、書記素、コンテキスト依存の音素又は書記素、及び、単語又はその部分であり得る音響単位のシーケンスに変換される。
図4のシステムは、幾つかの異なる音声特性を使用して音声を出力することができる。例えば、実施形態において、特性は、うれしい(happy)、悲しい(sad)、怒った(angry)、気が立っている(nervous)、穏やかな(calm)、威圧する(commanding)などのように聞こえる声から選択されても良い。
ステップS205において、要求される音声特性が判定される。これは、幾つかの異なる方法によってなされても良い。選択された音声特性を判定する幾つかの可能な方法の例が、図5〜8を参照して説明される。
図4を参照して説明される方法において、各々のガウシアン・コンポーネントが平均及び分散により記述される。幾つかの実施形態においては、それぞれであろう複数の異なる状態が、ガウス分布を用いてモデル化されるであろう。例えば、一つの実施形態では、テキスト音声合成システムは、複数のストリームを含む。それらのようなストリームは、一つ又は複数のスペクトル・パラメータ(Spectrum)、基本周波数の対数(Log F0)、Log F0の一次微分(Delta Log F0)、Log F0の二次微分(Delta-Delta Log F0)、バンド非周期性パラメータ(Band aperiodicity parameters)(BAP)、継続期間(duration)などから選択されても良い。ストリームはまた、クラス(例えば、無音(silence)(sil)、短いポーズ(short pause)(pau)及び音声(speech)(spe)など)に更に分けられても良い。一つの実施形態では、ストリーム及びクラスのそれぞれからのデータは、HMMを使用してモデル化される。HMMは、異なる数の状態を含んでも良い。例えば、一つの実施形態において、上記のストリーム及びクラスのうちの一部からのデータをモデル化するために、5状態HMM(5 state HMMs)が用いられても良い。ガウシアン・コンポーネントは、各HMM状態ごとに決定される。
図4のシステムにおいて、選択された音声特性をもつガウス分布の平均は、ガウス分布の非依存平均(independent means)の加重和として表現される。したがって、次のようになる。
ここで、μ(s) は、選択された話者音声sにおけるコンポーネントmのための平均であり、i∈{1,........,P}は、クラスターのインデックスであり、Pは、クラスターの総数であり、λ(s) は、話者sのための第i番目のクラスターの話者依存補間加重値(speaker dependent interpolation weight)であり、μc(m,i)は、クラスターiにおけるコンポーネントmのための平均である。複数のクラスターのうちの一つ(通常、クラスターi=1)に対して、すべての加重値が常に1.0にセットされる。このクラスターは、“バイアス・クラスター”と呼ばれる。それぞれのクラスターは、少なくとも一つの決定木を含む。決定木は、クラスター中の各コンポーネントごとに存在する。表現を単純化するために、c(m,i)∈{1,........,N}は、クラスターiのための平均ベクトル決定木におけるコンポーネントmのための総合リーフ・ノード・インデックスを示す。Nは、すべてのクラスターの決定木にわたるリーフ・ノードの総数である。決定木の詳細は、後で説明される。
ステップS207において、システムは、アクセス可能な方法で記憶される平均及び分散を検索する。
ステップS209において、システムは、それら平均について音声特性依存加重値を検索する。それら音声特性依存加重値は、それら平均が検索される前又は後に検索されても良いことは当業者により認識されるであろう。
したがって、ステップS209の後で、それら音声特性依存平均を得ること、すなわち、それら平均を使用すること及びそれら加重値を適用すること、が可能である。その後、これらは、図2中のステップS107を参照して説明された方法と同じ方法でステップS211中の音響モデルにおいて使用される。その後、ステップS213において、音声が出力される。
音声特性非依存平均は、クラスター化される。一つの実施形態では、それぞれのクラスターは、少なくとも一つの決定木を含み、木において使用される決定は、言語上の変動、音声上の変動又は韻律上の変動に基づく。一つの実施形態では、決定木は、クラスターのメンバーである各コンポーネントごとに存在する。韻律上のコンテキスト、音声上のコンテキスト及び言語上のコンテキストは、最終的な音声波形に影響を及ぼす。音声上のコンテキストは、典型的には、声道に影響を及ぼし、韻律上のコンテキスト(例えば音節)及び言語上のコンテキスト(例えば単語の品詞)は、例えば継続時間(リズム)および基本周波数(トーン)のような韻律に影響を及ぼす。それぞれのクラスターは、1又は複数のサブクラスターを含んでも良い。それぞれのサブクラスターは、それら決定木のうちの少なくとも一つを含む。
上記は、各サブクラスターごとに加重値を検索することも又は各クラスターごとに加重値ベクトルを検索することも考慮することができる。ここで、加重値ベクトルの要素は、各サブクラスターのための加重値である。
一つの実施形態に従って以下の構成が使用されても良い。このデータをモデル化するために、この実施形態では、5状態HMMが使用される。この例に関して、データは、無音、短いポーズ、音声の三つのクラスに分けられる。この特定の実施形態において、サブクラスターごとの決定木及び加重値の割り当ては、次のとおりである。
この特定の実施形態では、クラスターごとに次のストリームが使用される。
Spectrum:1つのストリーム、5つの状態、状態ごとに1つの木×3クラス
LogF0:3つのストリーム、ストリームごとに5つの状態、状態及びストリームごとに、1つの木×3クラス
BAP:1つのストリーム、5つの状態、状態ごとに1つの木×3クラス
継続期間:1つのストリーム、5つの状態、1つの木×3クラス(各木は、すべての状態にわたって共有される)
合計:3×26=78の決定木
上記に関して、次の加重値が、音声特性(例えば話者)ごとに、各々のストリームに適用される。
Spectrum:1つのストリーム、5つの状態、ストリームごとに1つの加重値×3クラス
LogF0:3つのストリーム、ストリームごとに5つの状態、ストリームごとに1つの加重値×3クラス
BAP:1つのストリーム、5つの状態、ストリームごとに1つの加重値×3クラス
継続時間:1つのストリーム、5つの状態、状態及びストリームごとに1つの加重値×3クラス
合計:3×10=30の加重値
この例で示されるように、異なる決定木(spectrum)に同一の加重値を割り当てること、あるいは、同一の決定木(継続時間)に2以上の加重値を割り当てること、又は、任意の他の組み合せが、可能である。本明細書で使用されるように、同一の加重値が適用されるべき決定木は、サブクラスターを形成するために考慮される。
一つの実施形態において、選択された音声特性をもつガウス分布の平均は、複数のガウシアン・コンポーネントの平均の加重和として表現される。ここで、該加重和は、各々のクラスターから1つずつの平均を使用する。該平均は、現在処理されている音響単位の韻律上のコンテキスト、言語上のコンテキスト及び音声上のコンテキストに基づいて選択される。
図5は、音声特性を選択する可能な方法を示す。ここでは、ユーザは、例えば、スクリーン上でポイントをドラッグアンドドロップするためのマウス、数量を入力するためのキーボードなどを使用して、加重値を直接選択する。図5において、マウス、キーボード又は同様のものを含む選択ユニット251は、ディスプレイ253を使用して、加重値を選択する。この例では、ディスプレイ253は、加重値を示すレーダー・チャートを有する。ユーザは、レーダー・チャートを介して様々なクラスターの優位性(dominance)を変えるために、選択ユニット251を使用することができる。他の表示方法が使用され得ることは、当業者により認識されるであろう。
幾つかの実施形態においては、加重値は、それら自身の空間、すなわち「加重値空間」に射影されることができる。加重値空間は、初期的にそれぞれのディメンションを表す加重値をもつ。この空間は、異なる空間に再配置されることができる。異なる空間のディメンションは、異なる音声属性(voice attributes)を表す。例えば、モデル化された音声特性が表現(expression)であるならば、一つのディメンションは、うれしい音声特性(happy voice characteristics)を示し、他のディメンションは、気が立っている(nervous)音声特性を示すなどとしても良い。ユーザは、うれしい声のディメンション(happy voice dimension)に関して、この音声特性が優位を占めるように、加重値を増加させるように選択しても良い。この場合、新たな空間のディメンションの数は、オリジナルの加重値空間のそれより少ない。
そして、オリジナルの空間λ(s)の加重値ベクトルは、新たな空間α(s)の座標ベクトルの関数として得ることができる。
一つの実施形態では、低減されたディメンション加重値空間の上への、このオリジナルの加重値空間の射影は、タイプλ(s)=Hα(s)の一次方程式を使用して形成される。ここで、Hは、射影行列である。一つの実施形態では、行列Hは、マニュアルで選択されたdの代表的な話者に対するオリジナルのλ(s)を、その列にセットするように定義される。ここで、dは、新たな空間の要求されるディメンションである。加重値空間の次元を減らすために、あるいは、α(s)の値が幾つかの話者についてあらかじめ定義される場合に、制御α空間をオリジナルのλ加重値空間にマッピングする関数を自動的に見出すために、他の技術を使用し得る。
更なる実施形態では、システムは、予め定められた複数の加重値ベクトル・セットを記憶するメモリにより提供される。各々のベクトルは、テキストが、異なる音声特性で出力されていることを可能にするようにデザインされても良い。例えば、うれしい声、激怒した声など。図6に、そのような実施形態に従うシステムが示される。ここでは、ディスプレイ253は、選択ユニット251により選択され得る異なる音声属性を示す。
システムは、予め定められた複数セットの属性に基づいて、話者出力の選択肢のセットを示しても良い。ユーザは、それから、求められる話者を選択しても良い。
更なる実施形態において、図7で示されるように、システムは、自動的に加重値を判定する。例えば、システムは、それが命令又は質問であると認識するテキストに対応する音声を出力する必要がある場合がある。システムは、電子ブックを出力するように構成される場合がある。システムは、語り手とは対照的に本の登場人物により何かが話されているときにテキストから、例えば引用符から、認識しても良く、また、新たな音声特性を出力に導入するために、加重値を変更しても良い。同様に、システムは、テキストが繰り返されるかどうか認識するように構成されても良い。そのような状況において、音声特性は、2番目の出力を変更しても良い。更に、システムは、テキストが、うれしい瞬間又は不安な瞬間に言及するかどうか、そして、テキストが、適切な音声特性で出力されるかどうか、認識するように構成されても良い。
上記のシステムにおいて、テキストにおいてチェックされるべき属性及びルールを記憶するメモリ261が、提供される。入力テキストは、ユニット263によりメモリ261に提供される。テキストに対してルールがチェックされ、そして、音声特性のタイプに関する情報が選択ユニット265に渡される。選択ユニット265は、それから、選択された音声特性のための加重値を検索する。
上記のシステム及び考慮点はまた、ゲーム中のキャラクターが話すコンピュータ・ゲームにおいて使用されるシステムに適用されても良い。
更なる実施形態において、システムは、更なるソースから出力されるテキストに関する情報を受信する。図8に、そのようなシステムの例が示される。例えば、電子ブックの場合に、システムは、テキストの特定の部分がどのようにして出力されるべきかについて示す入力を受信しても良い。
コンピュータ・ゲームにおいて、システムは、話しているキャラクターが、負傷したかどうか、キャラクターが隠れていて、ささやかなければならないかどうか、誰かの注目を集めているキャラクターが、ゲームのステージをうまく完了したかどうか、などを、ゲームから判定することができる。
図8のシステムにおいて、テキストがどのようにして出力されるべきかという詳しい情報が、ユニット271から受信される。ユニット271は、それから、この情報をメモリ273に送信する。メモリ273は、それから、音声(voice)がどのように出力されるべきかに関する情報を検索して、これをユニット275に送信する。ユニット275は、それから、要求される音声出力のための加重値を検索する。
上記に加えて、本方法は、MLLR、CMLLR変換又は同様のものを使用することによって、更に音声変換(voice transform)を実装する。具体的には、モデル化された音声特性が話者変動性(speaker variation)であるとき、この追加の変換は、クラスターの加重値により提供される任意の話者変動に加えて、追加のモデリング能力(extra modelling power)を加える。この追加の変換を使用するプロセスは、図9a及び図9bで説明される。
図9aでは、ステップS206において、話者音声が選択される。話者音声は、既知の話者変換により実装可能な、複数の予め記憶された話者プロファイルから選択される。選択された話者プロファイルは、システムの初期セットアップの間に判定可能であり、毎回システムが使用されるとは限らない。
前に説明されたように、システムは、それから、S207においてモデル・パラメータを検索し、ステップS209において要求に応じ話者加重値を検索する。
システムが、要求される話者を知っているとき、ステップS210において、システムは追加の話者変換を検索することができる。それから、ステップS211において、話者依存加重値及び話者変換が一緒に適用される。前述のとおり、ステップS212で音声ベクトルのセットが判定され、そして、ステップS213で音声が出力される。この具体例では、上記変換は、音声ベクトルの生成の前に、モデルに適用される。
図9bは、図9aに関して説明されるプロセスの概略図である。図9aのステップS209において、話者加重値が検索される。これらの加重値は、図9bの決定木401に適用される。各々の決定木からの加重値平均は、403において合計される。405において、話者変換(使用されるならば)が適用され、そして、407において、最終的な話者モデルが出力される。
次に、図10及び図11を参照して、本発明の一実施形態に従ったシステムの訓練が説明される。
図10のシステムは、図1を参照して説明されたシステムに類似している。したがって、不必要な重複を避けるために、同様の特徴を示すために同様の参照番号が使用される。
図1を参照して説明された特徴に加えて、図10は、音声入力23及び音声入力モジュール21を更に含む。システムを訓練する場合、テキスト入力15を介して入力されているテキストにマッチする音声入力を有することが必要である。
隠れマルコフモデル(HMM)に基づく音声処理システムにおいて、HMMはしばしば次のように表現される。
ここで、Aは状態遷移確率分布であり、次のようである。
また、Bは状態出力確率分布であり、次のようである。
また、Πは初期状態確率分布であり、次のようである。
ここで、Nは、HMMにおける状態の数である。
テキスト音声合成システムにおいてHMMがどのように使用されるかについては、当該技術では周知であり、ここでは説明されない。
現在の実施形態において、状態遷移確率分散A及び初期状態確率分布は、当該技術において周知の手続きに従って決定される。したがって、この説明の残りは、状態出力確率分布に関係している。
一般に、テキスト音声合成システムにおいて、モデルセットMにおける第m番目のガウシアン・コンポーネントからの状態出力ベクトル又は音声ベクトルo(t)は、次のようになる。
ここで、μ(s) とΣ(s) は、話者sのための第m番目のガウシアン・コンポーネントの平均と共分散である。
従来のテキスト音声合成システムを訓練する場合の目標は、与えられた観測シーケンスに対する尤度を最大化するモデル・パラメータ・セットMを推定することである。従来のモデルでは、単一の話者が存在し、したがって、モデル・パラメータ・セットは、すべてのコンポーネントmについて、μ(s) =μ及びΣ(s) =Σである。
いわゆる最尤(ML)基準に純粋に分析的に基づいて上記のモデルセットを得ることは可能でないので、従来、その問題は、バウム・ウェルチ・アルゴリズムと大抵呼ばれる期待値最大化(EM)アルゴリズムとして知られている反復アプローチを使用することによって対処される。ここで、次のような補助関数(“Q”関数)が得られる。
ここで、γm(t)は、観測o(t)を生成するコンポーネントmの事後確率であり、現在のモデル・パラメータはM’、Mは新たなパラメータ・セットとする。各々の反復の後で、パラメータ・セットM’は、Q(M,M’)を最大化する新たなパラメータ・セットMと置き換えられる。p(o(t),m|M)は、例えばGMM、HMMなどのような生成モデルである。
現在の実施形態において、次式の状態出力ベクトルを有するHMMが使用される。
ここで、m∈{1,.......,MN}、t∈{1,.......,T}、及び、s∈{1,.......,S}は、それぞれ、コンポーネント、時間及び話者のインデックスである。また、M、T及びSは、それぞれ、コンポーネント、フレーム及び話者の総数である。
の正確な形は、適用される話者依存変換のタイプに依存する。
最も一般的な方法において、話者依存変換は、以下を含む。
ここで、μc(m,i)は、式(1)に記述されるように、コンポーネントmのためのクラスターIの平均であり、μ(s) c(m,x)は、以下で説明する、話者sのための追加のクラスターのコンポーネントmのための平均ベクトルである。
(s) r(m)及びB(s) r(m)は、話者sのための回帰クラスr(m)に関連する線形変換行列及びバイアス・ベクトルである。
Rは、回帰クラスの総数であり、r(m)∈{1,.......,R}は、コンポーネントmが属する回帰クラスを示す。
いかなる一次変換も適用されないならば、A(s) r(m)及びB(s) r(m)は、それぞれ、単位行列及びゼロベクトルになる。
後で説明される理由のために、この実施形態では、複数の共分散は、クラスター化され、複数の決定木に配置される。ここで、v(m)∈{1,.......,V}は、コンポーネントmの共同分散行列が属する共分散決定木中のリーフ・ノードを表し、Vは、分散決定木のリーフ・ノードの総数である。
上記を使用すると、補助関数は、次のように表現することができる。
ここで、Cは、Mとは独立した定数である。
したがって、上記を使用し、式(6)、式(7)及び(8)を上記に代入すると、補助関数は、モデル・パラメータが4つの互いに異なる部分に分割され得ることを示す。
最初の部分は、規範的モデルのパラメータ(つまり、話者非依存平均{μn}及び話者非依存共分散{Σk})である。上記のインデックスn及びkは、後で説明される平均及び分散決定木のリーフ・ノードを示す。
第2の部分は、次の話者依存加重値である。
ここで、sは話者を示し、iは、クラスター・インデックス・パラメータを示す。
第3の部分は、話者依存クラスターμc(m,x)の平均であり、第4の部分は、次のCMLLR制約付き最尤線形回帰変換である。
ここで、sは話者を示し、dはコンポーネント又はコンポーネントmが属する話者回帰クラスを示す。
補助関数が上記の方法で表現されれば、それは、話者及び音声特性パラメータのML値、話者依存パラメータのML値、並びに、音声特性依存パラメータのML値を得るために、各々の変数に関して順に最大化される。
詳しくは、平均のML推定を決定するために、下記手続きが実行される。
以下の方程式を単純化するために、線形変換が適用されないものと仮定する。線形変換が適用されるならば、オリジナルの観測ベクトル{o(t)}は、次の変換ベクトルにより置き換えられる必要がある。
同様に、追加のクラスターは存在しないものと仮定する。
訓練の間に追加のクラスターを含むことは、A(s) r(m)が単位行列であり且つ
である線形変換を付加することにちょうど等しい。
最初に、式(4)の補助関数が、以下のようにμnで微分される。
ここで、
である。
(m) ij及びk(m) iは、蓄積された統計データ(accumulated statistics)である。
導関数を0にセットして法線方向において式を最大化することによって、μnのML推
定、すなわち、
について次の式が得られる。
μnのML推定はまた、μkに依存することに留意されるべきである(ここで、kはnと等しくない)。インデックスnは、平均ベクトルの判定木のリーフ・ノードを表わすために用いられるのに対して、インデックスkは、共分散決定木のリーフ・ノードを表わす。したがって、収束するまですべてのμnにわたり繰り返すことによって最適化を実行することが必要である。
これは、次式を解くことによりすべてのμnを同時に最適化することによって実行することができる。
しかしながら、訓練データが小さいか又はNが非常に大きい場合、式(7)の係数行列はフルランクを有することができない。この問題は、特異値分解又は他の良く知られた行列因数分解技術を用いることにより回避することができる。
その後、同じプロセスが、共分散のML推定を実行するために行われる。つまり、式(8)に示される補助関数がΣkで微分され、次式が与えられる。
ここで、
である。
話者依存加重値及び話者依存線形変換のためのML推定も、同じ方法で、つまり、ML推定が求められるパラメータに関して補助関数を微分し、そして、微分の値を0にセットすることで、得ることができる。
話者依存加重値のために、これは次を与える。
一つの実施形態において、該プロセスは反復する方法で、実行される。図11のフローチャートを参照して、この基本的なシステムが説明される。
ステップS301において、複数のオーディオ音声の入力が受信される。この実例となる例において、4人の話者が使用される。
次に、ステップS303において、4人の音声のそれぞれごとに、音響モデルが訓練され生成される。この実施形態において、4つのモデルのそれぞれは、一つの音声からのデータを使用して訓練されるだけである。
クラスター適応可能なモデルは、次のように、初期化され訓練される。ステップS305において、クラスターPの個数が、V+1にセットされる。ここで、Vは、音声の個数(4)である。
ステップS307において、一つのクラスター(クラスター1)が、バイアス・クラスターとして決定される。バイアス・クラスターのための各決定木と、関連する各クラスター平均ベクトルは、ステップS303において最良のモデルを生成した音声を使用して初期化される。この例では、各々の音声は、タグ「音声A」、「音声B」、「音声C」及び「音声D」を与えられる。ここで、音声Aが最良のモデルを生成したものと仮定する。共分散マトリックス、マルチ空間確率分布(multi-space probability distributions)(MSD)に関する空間加重値、及び、構造を共有しているそれらのパラメータもまた、音声Aモデルのそれらに初期化される。
各々の二分決定木は、すべてのコンテキストを表現する単一のルート・ノードから始まる局所的最適化法で構築される。この実施形態において、コンテキストによって、次のベース(音声ベース、言語ベース、及び、韻律ベース)が使用される。各々のノードが作成されるとともに、コンテキストに関する次の最適な質問が選択される。いずれの質問が尤度の最大の増加をもたらすか及び訓練例において生成される終端ノードに基づいて、質問が選択される。
その後、訓練データに総尤度の最大の増加を提供するために、その最適の質問を用いて分割することができる終端ノードを発見するために、終端ノードのセットが検索される。この増加が閾値を越えるとすれば、該ノードは最適な質問を用いて分割され、2つの新たな終端ノードが作成される。更に分割しても、尤度分割に適用される閾値を越えないことにより、新たな終端ノードを形成することができない場合、そのプロセスは停止する。
このプロセスは例えば図12に示される。平均決定木中の第n番目の終端ノードは、質問qにより2の新たな終端ノードn+ q及びn- qに分割される。この分割により達成される尤度の増加は、以下のように計算することができる。
S(n)は、ノードnに関連するコンポーネントのセットを示す。μnに関して不変である項は含まれない点に留意されるべきである。
ここで、Cは、μnとは独立した定数項である。μnの最大尤度は式(13)により与えられる。それゆえ、上記は、次のように書くことができる。
したがって、ノードnをn+ q及びn- qへ分割することにより得られる尤度は、次式により与えられる。
したがって、上記を使用して、各々のクラスターの決定木を構築することは可能である。ここで、木は、最初に木において最適な質問が尋ねられ、分割の尤度に従う階層の順に決定が配列されるように、配列される。その後、加重値が各々のクラスターに適用される。
決定木は、同様に、分散のために構築され得る。共分散決定木は、以下のように構築される:共分散決定木中のケース終端ノードが、質問qにより2の新たな終端ノードk+ q及びk- qに分割されるならば、クラスター分散行列及び分割による増加は、以下のように表現される。
ここで、Dは、{Σk}とは独立した定数である。したがって、尤度の増加は、次のようになる。
ステップS309において、クラスター2,…,Pの各々に特定の音声タグ(voice tag)が割り当てられる。例えば、クラスター2,3,4及び5が、それぞれ話者B、C、D及びAに対する。音声Aがバイアス・クラスターを初期化するのに用いられたので、それは初期化されるべき最後のクラスターに割り当てられることに留意されるべきである。ステップS311において、CAT補間加重値のセットは、割り当てられた音声タグに従って、以下のように単に1又は0にセットされる。
この具体例では、ストリームごと話者ごとに大域的な加重値(global weights)が存在する。話者/ストリームの組み合せごとに、3セットの加重値がセットされる:無音、音声及びポーズについて。
ステップS313において、各々のクラスター2,…,(P−1)について順番に、以下のようにクラスターが初期化される。関連する音声(voice)のための音声データ(例えば、クラスター2のための音声B)は、ステップS303で訓練される関連する音声のための単一話者モデルを使用して、調整(aligned)される。これらの調整を所与として、統計値が計算され、そして、クラスターのための決定木及び平均値が推定される。クラスターのための平均値は、ステップS311でセットされた加重値を使用して、クラスター平均の正規化された加重和として、計算される。すなわち、実際には、これは、所与のコンテキストに関する平均値(そのコンテキストに関するバイアス・クラスターの平均の加重和(いずれの場合も加重値1)である)、そして、クラスター2におけるそのコンテキストに関する音声Bモデルの平均をもたらす。
それから、ステップS315において、全4つの音声からのすべてのデータを使用して、バイアス・クラスターのために決定木が再構築され、関連する平均及び分散パラメータが再推定される。
音声B、C及びDのためのクラスターを加えた後に、バイアス・クラスターは、同時に全4つの音声を使用して、再推定される。
ステップS317において、クラスターP(音声A)は、ステップS313で説明されるように、音声Aだけからのデータを使用して、他のクラスターに関して、初期化される。
クラスターが上記のように初期化されたならば、その後、CATモデルは、以下のように、更新され/訓練される。
ステップS319において、CAT加重値が固定された状態で、クラスター1からPまで、1クラスターずつ、決定木が再構成される。ステップS321において、新たな平均及び分散がCATモデルで推定される。次に、ステップS323において、各クラスターごとに、新たなCAT加重値が推定される。一つの実施形態では、該プロセスは、収束するまでS321へループバックする。パラメータ及び加重値は、上記パラメータのより良い推定を得るために、バウム・ウェルチ・アルゴリズムの補助関数を用いて実行される最尤計算を使用して、推定される。
前に説明されたように、パラメータは反復プロセスにより推定される。
更なる実施形態では、ステップS323において、プロセスは、収束するまで各々の繰り返しの間に決定木が再構成されるように、ステップS319へループバックする。
更なる実施形態では、前述のような話者依存変換が使用される。ここでは、該変換が適用されるように、ステップS323の後、話者依存変換が挿入され、それから、変換モデルは、収束するまで繰り返される。一つの実施形態では、該変換は、各々の繰り返しにおいて、更新されるであろう。
図12は、決定木の形をとるクラスター1〜Pを示す。この単純化された例では、ちょうどクラスター1に4つの終端ノードが存在し、クラスターPに3つの終端ノードが存在する。決定木は対称である必要がない、つまり、各々の決定木が異なる数の終端ノードを有することができることに留意することは重要である。木における終端ノードの数及びブランチの数は、純粋に対数尤度分割によって決定される。対数尤度分割は、最初の決定において最大の分割を達成し、次いで、より大きな分割をもたらす質問の順に質問が尋ねられる。達成された分割が閾値未満ならば、終端ノードの分割は終了する。
上記は、実行されるべき次の合成を可能にする規範的モデルを生成する:
1.4つの音声のうちの任意のものが、その音声に対応する加重値ベクトルの最終的なセットを使用して合成されることができる。
2.ランダムな音声は、加重値ベクトルを任意の位置にセットすることによって、CATモデルが及ぶ音響空間から合成することができる。
更なる例において、音声特性を合成するために、アシスタントが使用される。ここで、該システムは、同一の特徴をもつ目標音声(target voice)の入力を与えられる。
図13は、一つの例を示す。最初に、入力目標音声がステップ501で受信される。次に、規範的モデルの加重値(すなわち、前もって訓練されたクラスターの加重値)は、ステップ503で、目標音声にマッチするように調整される。
それから、ステップS503で得られる新たな加重値を使用して、音声(audio)が出力される。
更なる実施形態では、新たな音声のために新たなクラスターが提供される、より複雑な方法が使用される。これは、図14を参照して説明される。
図13のように、最初に、ステップS501において、目標音声が受信される。加重値は、それから、ステップS503において、目標音声に最もマッチするように調整される。
それから、ステップS507において、新たなクラスターが、目標音声のモデルに追加される。次に、図11を参照して説明された方法と同様な方法で、新たな話者依存クラスターについて、決定木が構築される。
それから、ステップS511において、新たなクラスターについて、音響モデル・パラメータ(すなわち、この例では、平均)が計算される。
次に、ステップS513において、すべてのクラスターについて、加重値が更新される。それから、ステップS515において、新たなクラスターの構造が更新される。
前述のように、ステップS505において、新たなクラスターをもつ新たな加重値を使用して、新たな目標音声をもつオーディオが出力される。
この実施形態では、これは訓練データが合成時間に利用できることを要求するであろうから、ステップS515において、他のクラスターはこのときに更新されないことに留意されるべきである。
更なる実施形態では、ステップS515の後で、各クラスターが更新される。それゆえ、フローチャートは、収束するまでステップS509へループバックする。
最後に、目標話者との類似を更に改善するために、該モデルの上に、例えばCMLLRのような線形変換を適用することができる。この変換の回帰クラスは、大域的であることができ、あるいは、話者依存であることができる。
もう一つのケースでは、回帰クラスの共有構造(tying structure)は、話者依存クラスターの決定木から、又は、話者依存加重値を規範的モデルに適用し、追加のクラスターを加えた後に得られる分布のクラスタリングから、得ることが出来る。
初めは、バイアス・クラスターは、話者/音声非依存特性を表し、一方、他のクラスターは、それらの関連する音声データセットを表す。訓練が進むにつれて、音声に対するクラスターの正確な割り当ては、より正確さの低いものになる。クラスター及びCAT加重値は、幅広い音響空間(broad acoustic space)を表す。
特定の実施形態が説明されたが、これらの実施形態はただ例として示されたものであり、本発明の範囲を制限することが意図されるものではない。実際に、本明細書で説明された新規な方法及び装置は、種々の他の形で実施されても良い;更に、本明細書で説明された方法及び装置の形における様々な省略、置き換え及び変更は、本発明の精神を逸脱せずになされ得る。添付の特許請求の範囲及びそれらの均等物は、本発明の範囲及び精神に含まれるであろうそのような修正の形をカバーすることが意図される。

Claims (20)

  1. 複数の異なる音声特性をシミュレートするために使用するテキスト音声合成方法において、前記方法は、
    テキストを入力することと、
    入力された前記テキストを音響単位のシーケンスに分割することと、
    入力された前記テキストのために音声特性を選択することと、
    音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
    前記音声ベクトルのシーケンスを、選択された前記音声特性をもつ音声として出力することを含み、
    選択された前記音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された前記音声特性のための前記音声特性依存加重値を検索することを含み、前記パラメータは、各クラスターにおいて提供され、前記音声特性依存加重値は、各クラスターごとに検索される、方法。
  2. 各々のクラスターは、少なくとも一つの決定木を含み、
    前記決定木は、言語上の相違、音声上の相違又は韻律上の相違のうちの少なくとも一つに関連する質問に基づいている、請求項1に従うテキスト音声合成方法。
  3. 前記クラスターの前記決定木の間に、構造における相違が存在する、請求項2に従うテキスト音声合成方法。
  4. 前記複数の音声特性は、異なる話者音声、異なる話者スタイル、異なる話者感情又は異なるアクセントのうちの少なくとも一つから選択される、請求項1に従うテキスト音声合成方法。
  5. 前記確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントt分布又はラプラス分布から選択される、請求項1に従うテキスト音声合成方法。
  6. 音声特性を選択することは、入力を提供することを含み、該入力は、前記加重値が該入力を介して選択されることを可能にする、請求項1に従うテキスト音声合成方法。
  7. 音声特性を選択することは、出力される前記テキストから、使用されるべき前記加重値を予測することを含む、請求項1に従うテキスト音声合成方法。
  8. 音声特性を選択することは、話者のタイプに関する外部情報から、使用されるべき前記加重値を予測することを含む、請求項1に従うテキスト音声合成方法。
  9. 音声特性を選択することは、音声を含んでいる音声入力を受信することと、前記音声入力の前記音声の前記音声特性をシミュレートするために前記加重値を変更することを含む、請求項1に従うテキスト音声合成方法。
  10. 音声特性を選択することは、複数の予め記憶された複数の加重値セットから、ランダムに一つの加重値セットを選択することを含み、
    それぞれの加重値セットは、すべてのクラスターのための複数の前記加重値を含む、請求項1に従うテキスト音声合成方法。
  11. 音声特性を選択することは、
    入力を受信することと、ここで、前記入力は、複数の値を含む、
    前記複数の値を、複数の前記加重値にマッピングすることを含む、請求項1に従うテキスト音声合成方法。
  12. 前記値はn次元の値空間を占有し、前記加重値はw次元加重値空間を占有し、ここで、nとwは整数であり、wはnより大きく、前記変換は前記入力値をより高い次元の空間に変換する、請求項11に従うテキスト音声合成方法。
  13. 前記複数の値は、認識できる話者特徴を直接表現する、請求項12に従うテキスト音声合成方法。
  14. テキスト音声合成システムをオーディオ・ファイルにおいて提供される音声特性に適応する方法において、前記テキスト音声合成システムは、
    テキストを入力し、
    入力された前記テキストを音響単位のシーケンスに分割し、
    入力された前記テキストのために音声特性を選択し、
    音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換し、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
    前記音声ベクトルのシーケンスを、選択された前記音声特性をもつ音声として出力するように構成されたプロセッサを含み、
    選択された前記音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された前記音声特性のための前記音声特性依存加重値を検索することを含み、前記パラメータは、各クラスターにおいて提供され、前記音声特性依存加重値は、各クラスターごとに検索され、
    前記方法は、
    新たな入力オーディオ・ファイルを受信することと、
    生成された前記音声と前記新たなオーディオ・ファイルとの間の類似を最大にするために、前記クラスターに適用される前記加重値を計算することを含む、方法。
  15. 前記新たなオーディオ・ファイルからのデータを使用して新たなクラスターを生成することと、
    生成された前記音声と前記新たなオーディオ・ファイルとの間の前記類似を最大にするために、前記新たなクラスターを含む前記クラスターに適用される前記加重値を計算することを更に含む、請求項14に従う方法。
  16. 生成された前記音声と前記新たなオーディオ・ファイルとの間の前記類似を最大にするために適用される線形変換を判定することを更に含む、請求項14による方法。
  17. 複数の異なる音声特性をシミュレートするために使用されるテキスト音声合成システムにおいて、前記システムは、
    入力されたテキストを受信するためのテキスト入力と、
    プロセッサとを含み、
    前記プロセッサは、
    入力された前記テキストを音響単位のシーケンスに分割し、
    入力された前記テキストのための音声特性の選択を可能にし、
    音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換し、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
    前記音声ベクトルのシーケンスを、選択された前記音声特性をもつ音声として出力するように構成され、
    選択された前記音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された前記音声特性のための前記音声特性依存加重値を検索することを含み、前記パラメータは、各クラスターにおいて提供され、前記音声特性依存加重値は、各クラスターごとに検索される、システム。
  18. オーディオ・ファイルにおいて提供される音声特性をもつ音声を出力するように構成された、適応性のあるテキスト音声合成システムにおいて、前記テキスト音声合成システムは、
    入力されたテキストを受信し、
    入力された前記テキストを音響単位のシーケンスに分割し、
    入力された前記テキストのために音声特性を選択し、
    音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換し、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
    前記音声ベクトルのシーケンスを、選択された前記音声特性をもつ音声として出力するように構成されたプロセッサを含み、
    選択された前記音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された前記音声特性のための前記音声特性依存加重値を検索することを含み、前記パラメータは、各クラスターにおいて提供され、前記音声特性依存加重値は、各クラスターごとに検索され、
    前記システムは、クラスターにおいて提供される前記パラメータと、前記クラスターのための前記加重値とを記憶するように構成されたメモリを更に含み、
    前記システムは、新たな入力オーディオ・ファイルを受信するように更に構成され、
    前記プロセッサは、生成された前記音声と前記新たなオーディオ・ファイルとの間の類似を最大にするために、前記クラスターに適用される前記加重値を再計算するように構成される、システム。
  19. 請求項1の方法を実行するようにコンピュータを制御するためのコンピュータプログラム。
  20. 請求項14の方法を実行するようにコンピュータを制御するためのコンピュータプログラム。
JP2014241271A 2012-03-14 2014-11-28 テキスト音声合成方法及びシステム Active JP5847917B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1204502.7 2012-03-14
GB1204502.7A GB2501062B (en) 2012-03-14 2012-03-14 A text to speech method and system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013051519A Division JP5659258B2 (ja) 2012-03-14 2013-03-14 テキスト音声合成方法及びシステム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015228796A Division JP6246777B2 (ja) 2012-03-14 2015-11-24 音声合成方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2015072490A true JP2015072490A (ja) 2015-04-16
JP5847917B2 JP5847917B2 (ja) 2016-01-27

Family

ID=46026532

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2013051519A Active JP5659258B2 (ja) 2012-03-14 2013-03-14 テキスト音声合成方法及びシステム
JP2014241271A Active JP5847917B2 (ja) 2012-03-14 2014-11-28 テキスト音声合成方法及びシステム
JP2015228796A Active JP6246777B2 (ja) 2012-03-14 2015-11-24 音声合成方法、装置及びプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2013051519A Active JP5659258B2 (ja) 2012-03-14 2013-03-14 テキスト音声合成方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2015228796A Active JP6246777B2 (ja) 2012-03-14 2015-11-24 音声合成方法、装置及びプログラム

Country Status (5)

Country Link
US (1) US9454963B2 (ja)
EP (1) EP2639791B1 (ja)
JP (3) JP5659258B2 (ja)
CN (1) CN103310784B (ja)
GB (1) GB2501062B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200123689A (ko) * 2019-04-22 2020-10-30 서울시립대학교 산학협력단 외형 이미지를 고려한 음성 합성 장치 및 음성 합성 방법

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014093778A1 (en) * 2012-12-14 2014-06-19 Robert Bosch Gmbh System and method for event summarization using observer social media messages
GB2510200B (en) 2013-01-29 2017-05-10 Toshiba Res Europe Ltd A computer generated head
US9569424B2 (en) * 2013-02-21 2017-02-14 Nuance Communications, Inc. Emotion detection in voicemail
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
GB2517212B (en) 2013-08-16 2018-04-25 Toshiba Res Europe Limited A Computer Generated Emulation of a subject
GB2517503B (en) * 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
JP6342428B2 (ja) * 2013-12-20 2018-06-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6266372B2 (ja) * 2014-02-10 2018-01-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US9472182B2 (en) * 2014-02-26 2016-10-18 Microsoft Technology Licensing, Llc Voice font speaker and prosody interpolation
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
CN104464716B (zh) * 2014-11-20 2018-01-12 北京云知声信息技术有限公司 一种语音播报系统和方法
JP6523893B2 (ja) * 2015-09-16 2019-06-05 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
US20180064403A1 (en) * 2016-09-06 2018-03-08 Toshiba Medical Systems Corporation Medical image diagnostic apparatus
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
EP3415943A1 (en) 2017-06-13 2018-12-19 Veoneer Sweden AB Error estimation for a vehicle environment detection system
JP6523423B2 (ja) * 2017-12-18 2019-05-29 株式会社東芝 音声合成装置、音声合成方法およびプログラム
CN108053696A (zh) * 2018-01-04 2018-05-18 广州阿里巴巴文学信息技术有限公司 一种根据阅读内容进行声音播放的方法、装置和终端设备
EP3919464A4 (en) * 2019-01-29 2022-11-09 Nippon Shokubai Co., Ltd. CURING AGENTS, METHOD OF PRODUCTION OF CEMENT STRUCTURE WITH COATING FILM, METHOD OF SHRINKAGE REDUCTION AND METHOD OF SUPPRESSING DRYING-OUT OF A CEMENT MOLDING, AND METHOD OF SUPPRESSING INTRODUCTION OF DETERIORATION FACTOR IN CEMENT STRUCTURE
US10957304B1 (en) * 2019-03-26 2021-03-23 Audible, Inc. Extracting content from audio files using text files
CN113421591A (zh) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 语音标注方法、装置、设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09127970A (ja) * 1995-09-01 1997-05-16 At & T Ipm Corp 合成音声の音声特性を修正するための方法と装置
JP2003233388A (ja) * 2002-02-07 2003-08-22 Sharp Corp 音声合成装置および音声合成方法、並びに、プログラム記録媒体
WO2005071664A1 (ja) * 2004-01-27 2005-08-04 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP2007183421A (ja) * 2006-01-06 2007-07-19 Matsushita Electric Ind Co Ltd 音声合成装置
US7454348B1 (en) * 2004-01-08 2008-11-18 At&T Intellectual Property Ii, L.P. System and method for blending synthetic voices
WO2010142928A1 (en) * 2009-06-10 2010-12-16 Toshiba Research Europe Limited A text to speech method and system
JP2011028130A (ja) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0515709A1 (en) * 1991-05-27 1992-12-02 International Business Machines Corporation Method and apparatus for segmental unit representation in text-to-speech synthesis
JPH09138767A (ja) * 1995-11-14 1997-05-27 Fujitsu Ten Ltd 感情表現の通信装置
JP2003177772A (ja) * 2001-07-13 2003-06-27 Sony France Sa 感情合成装置の処理を制御する方法及び装置
EP1300831B1 (en) * 2001-10-05 2005-12-07 Sony Deutschland GmbH Method for detecting emotions involving subspace specialists
JP2003337592A (ja) * 2002-05-21 2003-11-28 Toshiba Corp 音声合成方法及び音声合成装置及び音声合成プログラム
CN1259631C (zh) * 2002-07-25 2006-06-14 摩托罗拉公司 使用韵律控制的中文文本至语音拼接合成系统及方法
US8005677B2 (en) * 2003-05-09 2011-08-23 Cisco Technology, Inc. Source-dependent text-to-speech system
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
CN101271687B (zh) 2007-03-20 2012-07-18 株式会社东芝 字音转换预测以及语音合成的方法和装置
CN101471071A (zh) 2007-12-26 2009-07-01 中国科学院自动化研究所 一种基于混合隐马尔可夫模型的语音合成系统
US8548807B2 (en) * 2009-06-09 2013-10-01 At&T Intellectual Property I, L.P. System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
JP2011028131A (ja) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置
EP2595143B1 (en) * 2011-11-17 2019-04-24 Svox AG Text to speech synthesis for texts with foreign language inclusions
GB2501067B (en) * 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
US8571871B1 (en) * 2012-10-02 2013-10-29 Google Inc. Methods and systems for adaptation of synthetic speech in an environment

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09127970A (ja) * 1995-09-01 1997-05-16 At & T Ipm Corp 合成音声の音声特性を修正するための方法と装置
JP2003233388A (ja) * 2002-02-07 2003-08-22 Sharp Corp 音声合成装置および音声合成方法、並びに、プログラム記録媒体
US7454348B1 (en) * 2004-01-08 2008-11-18 At&T Intellectual Property Ii, L.P. System and method for blending synthetic voices
WO2005071664A1 (ja) * 2004-01-27 2005-08-04 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP2007183421A (ja) * 2006-01-06 2007-07-19 Matsushita Electric Ind Co Ltd 音声合成装置
WO2010142928A1 (en) * 2009-06-10 2010-12-16 Toshiba Research Europe Limited A text to speech method and system
JP2011028130A (ja) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200123689A (ko) * 2019-04-22 2020-10-30 서울시립대학교 산학협력단 외형 이미지를 고려한 음성 합성 장치 및 음성 합성 방법
KR102287325B1 (ko) * 2019-04-22 2021-08-06 서울시립대학교 산학협력단 외형 이미지를 고려한 음성 합성 장치 및 음성 합성 방법

Also Published As

Publication number Publication date
GB2501062B (en) 2014-08-13
JP2016066088A (ja) 2016-04-28
GB2501062A (en) 2013-10-16
US9454963B2 (en) 2016-09-27
CN103310784B (zh) 2015-11-04
EP2639791A1 (en) 2013-09-18
GB201204502D0 (en) 2012-04-25
EP2639791B1 (en) 2014-12-17
JP6246777B2 (ja) 2017-12-13
JP2013190792A (ja) 2013-09-26
US20130262109A1 (en) 2013-10-03
JP5659258B2 (ja) 2015-01-28
JP5847917B2 (ja) 2016-01-27
CN103310784A (zh) 2013-09-18

Similar Documents

Publication Publication Date Title
JP6246777B2 (ja) 音声合成方法、装置及びプログラム
JP6092293B2 (ja) テキスト読み上げシステム
JP5768093B2 (ja) 音声処理システム
JP5398909B2 (ja) テキスト音声合成方法及びシステム
US11514887B2 (en) Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
EP2846327B1 (en) Acoustic model training method and system
CN106688034B (zh) 具有情感内容的文字至语音转换
KR20230003056A (ko) 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식
US11763797B2 (en) Text-to-speech (TTS) processing
JP2016042362A (ja) コンピュータ生成ヘッド
JP2017058513A (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
GB2524505A (en) Voice conversion
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
Coto-Jiménez et al. Speech Synthesis Based on Hidden Markov Models and Deep Learning.
JP2015194781A (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151125

R151 Written notification of patent or utility model registration

Ref document number: 5847917

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350