JP2015057651A - 音声処理システム及び方法 - Google Patents
音声処理システム及び方法 Download PDFInfo
- Publication number
- JP2015057651A JP2015057651A JP2014169878A JP2014169878A JP2015057651A JP 2015057651 A JP2015057651 A JP 2015057651A JP 2014169878 A JP2014169878 A JP 2014169878A JP 2014169878 A JP2014169878 A JP 2014169878A JP 2015057651 A JP2015057651 A JP 2015057651A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speaker
- factor
- audio
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 185
- 238000012545 processing Methods 0.000 title description 9
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 98
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 96
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 39
- 230000014509 gene expression Effects 0.000 claims description 258
- 239000013598 vector Substances 0.000 claims description 171
- 230000006978 adaptation Effects 0.000 claims description 31
- 230000007935 neutral effect Effects 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 16
- 238000012417 linear regression Methods 0.000 claims description 8
- 238000001308 synthesis method Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 55
- 238000003066 decision tree Methods 0.000 description 45
- 230000001419 dependent effect Effects 0.000 description 44
- 230000006870 function Effects 0.000 description 33
- 238000009826 distribution Methods 0.000 description 27
- 238000000354 decomposition reaction Methods 0.000 description 26
- 230000009466 transformation Effects 0.000 description 21
- 230000008451 emotion Effects 0.000 description 20
- 238000012549 training Methods 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000013216 cat model Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 13
- 238000013459 approach Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004138 cluster model Methods 0.000 description 10
- 239000002131 composite material Substances 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 101150087667 spk1 gene Proteins 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000005192 partition Methods 0.000 description 6
- 238000000844 transformation Methods 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000000737 ABX test Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000002054 transplantation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000282461 Canis lupus Species 0.000 description 1
- 235000012571 Ficus glomerata Nutrition 0.000 description 1
- 244000153665 Ficus glomerata Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 101150085333 xpr1 gene Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【課題】テキスト音声合成システムのための音響モデルを学習する方法を提供する。
【解決手段】第1の音声ファクターの異なる値に対応するデータを含んだ音声データを受信することと、音声データの所与のアイテムについて第1の音声ファクターが未知であるように、ラベル付けせず、第1の音声ファクターの値に従って、第1のクラスター・セットにクラスタリングすることと、音響モデルが、第1の音声ファクターの異なる値の音声を表すように、第1のパラメータ・セットを推定することを含み、クラスタリング及び第1のパラメータの推定が、共通の最尤基準に従って一緒に実行される。
【選択図】図1
【解決手段】第1の音声ファクターの異なる値に対応するデータを含んだ音声データを受信することと、音声データの所与のアイテムについて第1の音声ファクターが未知であるように、ラベル付けせず、第1の音声ファクターの値に従って、第1のクラスター・セットにクラスタリングすることと、音響モデルが、第1の音声ファクターの異なる値の音声を表すように、第1のパラメータ・セットを推定することを含み、クラスタリング及び第1のパラメータの推定が、共通の最尤基準に従って一緒に実行される。
【選択図】図1
Description
(関連出願の相互参照)
この出願は、2013年8月23日付け提出の英国特許出願第1315139.4号に基づくものであり、また、その優先権の利益を主張する。そして、その内容の全体が参照によって本明細書に組み込まれる。
(技術分野)
本明細書で一般に説明される本発明の実施形態は、テキスト音声合成システム及び方法に関係する。
この出願は、2013年8月23日付け提出の英国特許出願第1315139.4号に基づくものであり、また、その優先権の利益を主張する。そして、その内容の全体が参照によって本明細書に組み込まれる。
(技術分野)
本明細書で一般に説明される本発明の実施形態は、テキスト音声合成システム及び方法に関係する。
テキスト音声合成システム(text-to-speech system)は、テキストファイルの受理に応じてオーディオ音声(audio speech)又はオーディオ音声ファイルが出力されるシステムである。
テキスト音声合成システムは、多種多様のアプリケーション(例えば、電子ゲーム、電子ブック・リーダー、電子メール・リーダー、衛星ナビゲーション、自動電話システム、自動警報システムなど)で使用される。
より人間らしい声(voice)のようにシステムに音を出させる要求が継続して存在する。
これから添付の図面を参照して、限定されない実施形態に従うシステム及び方法が説明される。添付の図面において各図は次の通りである。
一実施形態において、テキスト音声合成システムのための音響モデルを学習する方法が提供され、該方法は、音声データを受信することと、ここで、上記音声データは、第1の音声ファクターの異なる値に対応するデータを含み、更に、上記音声データは、音声データの所与のアイテムについて上記第1の音声ファクターが未知であるように、ラベル付けされておらず、上記第1の音声ファクターの上記値に従って、上記音声データを、第1のクラスター・セットにクラスタリングすることと、上記音響モデルが、上記第1の音声ファクターの上記異なる値の音声を(ひととおり)表すことができるように、第1のパラメータ・セットを推定することを含み、上記クラスタリング及び上記第1のパラメータの推定が、共通の最尤基準に従って一緒に実行される。第1の音声ファクターは、話者、表現、ノイズ、キャラクター・ボイス(character voice)(例えば、「王」「オオカミ」などのような)、又は、他の任意の音声ファクターを含んでも良い。表現は、話者に共通(independent)の音声属性(attribute of speech)を含む。表現の例は、感情(例えば、喜び、悲しみ、などのような)、強調、及び、発話形式(speaking style)を含む。表現はまた、上記のうちの2以上の組み合せに対応し得る。ニュートラルな音声は、表現のない音声(例えば、感情又は強調のない音声)である。ラベル付けされていない音声データは、そのデータについて、例えば、第1の音声ファクターが表現である場合に、どの表現が該音声データの所与の部分に対応するかが既知でないような、データである。
一実施形態において、上記第1のクラスター・セットは、少なくとも一つのサブクラスターを含む。上記第1のパラメータ・セットは、適用されるべき重みであり、サブクラスターごとに一つの重みが存在し、上記重みは、上記第1の音声ファクターに依存しても良い。重みは、クラスター適応学習(cluster adaptive training)(CAT)重みであっても良い。それぞれのクラスターが、少なくとも一つの決定木を含んでも良い。該決定木は、言語上の相違、音声上の相違又は韻律上の相違のうちの少なくとも一つに関連する質問に基づく。上記クラスターの決定木の間及び上記サブクラスターにおける木の間で構造の相違が存在し得る。
一実施形態において、上記第1のパラメータ・セットは、上記第1の音声ファクターに依存する制約付き尤度線形回帰変換である。
一実施形態において、上記第1の音声ファクターは、話者であり、上記音声データは、ニュートラルな音声で話す1人又は複数人の話者からの音声データを更に含む。
一実施形態において、音声データは、第2の音声ファクターの異なる値に対応するデータを更に含む。第2の音声ファクターは、話者、表現、ノイズ、アクセント(訛り)(accent)、又は、他の任意の音声ファクターを含んでも良い。第2の音声ファクターの値は、未知であっても良い。
一実施形態において、上記方法は、受信された上記音声データに対応するテキストデータを受信することと、第1の空間において構築される表現言語特徴ベクトルを形成するために、入力された上記テキストから表現特徴を抽出することと、上記音声データから表現特徴を抽出し、第2の空間において構築される表現特徴合成ベクトルを形成することと、機械学習アルゴリズムを学習することを更に含み、上記機械学習アルゴリズムの学習の入力は、表現言語特徴ベクトルであり、上記機械学習アルゴリズムの学習の出力は、上記音声データ及び上記テキストデータに対応する表現特徴合成ベクトルである。テキストデータを含むテキストの発話に音声データが対応するように、テキストデータが音声データに対応する。
一実施形態において、第2の空間は、第1の話者の音響空間である。また、上記方法は、表現合成特徴ベクトルを第2の話者の音響空間に変換するように構成される。これは、音声は第2の話者の声で合成されるが、表現予測(expression prediction)は第1の話者のそれに対応することを意味する。
一実施形態において、上記方法は、上記第2の音声ファクターの値に従って、上記音声データを、第2のクラスター・セットにクラスタリングすることと、上記音響モデルが、上記第2の音声ファクターの上記異なる値の音声を()表すことができるように、第2のパラメータ・セットを推定することを更に含み、上記クラスタリング及び上記第2のパラメータの推定が、上記第2のパラメータの推定及び上記第2のクラスター・セットへのクラスタリングの両方に共通である単一の最尤基準に従って一緒に実行される。
上記第2のクラスター・セットが、少なくとも一つのサブクラスターを含んでも良い。上記第2のパラメータ・セットは、適用されるべき重みであり、サブクラスターごとに一つの重みが存在しても良い。上記重みは、上記第2の音声ファクターに依存しても良い。重みは、クラスター適応学習(CAT)重みであっても良い。
上記第2のパラメータ・セットは、上記第2の音声ファクターに依存する制約付き尤度線形回帰変換であっても良い。
一実施形態において、音響モデルを学習することは、ニュートラルな音声で話す話者から受信した音声データを用いて、第1の音響サブモデルを学習することと、第2の音声ファクターの異なる値に対応する音声データを用いて、第2の音響サブモデルを学習することを更に含む。
一実施形態において、音響モデルは、音響ユニットを音声ベクトルのシーケンスに関連付ける確率分布関数を含む。確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントt分布又はラプラス分布から選択されても良い。
一実施形態において、音声ファクターの対象となる値を有する音声を出力するように構成されたテキスト音声合成方法が提供され、該方法は、上記音声ファクターの対象となる値を有する適応データを入力することと、上記音声ファクターの対象となる値に音響モデルを適応させることと、テキストを入力することと、入力された上記テキストを音響単位のシーケンスに分割することと、上記音響モデルを使用して、上記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、上記音声ファクターの対象となる値によるオーディオとして上記音声ベクトルのシーケンスを出力することを含み、上記音響モデルは、上記音声ファクターに関係する音声ファクター・パラメータ・セット及び上記音声ファクターに関係する音声ファクター・クラスター・セットを含み、所与の1又は複数のクラスター及び所与の1又は複数のパラメータについて、それらが関係する上記音声ファクターが未知であるように、上記音声ファクターに関係する上記音声ファクター・パラメータ・セット及び上記音声ファクター・クラスター・セットが、ラベル付けされていない。第1のクラスター・セット及び第1のパラメータ・セットは、音響モデルの適応の前にラベル付けされていない。適応データ(adaptation data)は、オーディオを含んでも良い。一実施形態において、上記音声ファクターは、表現であり、上記音響モデルは、話者に関係するパラメータ・セット及び話者に関係するクラスター・セットを含み、上記表現パラメータ・セットと、上記話者パラメータ・セットと、上記表現クラスター・セットと、上記話者クラスター・セットとが、オーバーラップしない。更なる実施形態において、上記方法は、第2の話者の音声とともに第1の話者の音声から得られる表現パラメータを使用することによって、第1の話者から第2の話者に表現を移植するように構成される。
一実施形態において、音声ファクターの対象となる値を有する音声を出力するように構成されたテキスト音声合成方法が提供され、該方法は、上記音声ファクターの対象となる値を有するオーディオ・データを入力することと、上記音声ファクターの対象となる値に音響モデルを適応させることと、テキストを入力することと、入力された上記テキストを音響単位のシーケンスに分割することと、上記音響モデルを使用して、上記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、上記音声ファクターの対象となる値によるオーディオとして上記音声ベクトルのシーケンスを出力することを含み、上記音響モデルは、上記音声ファクターに関係する音声ファクター・パラメータ・セット及び上記音声ファクターに関係する音声ファクター・クラスター・セットを含み、上記音響モデルは、音声データを受信することと、ここで、上記音声データは、音声ファクターの異なる値に対応するデータを含み、更に、上記音声データは、音声データの所与のアイテムについて上記音声ファクターが未知であるように、ラベル付けされておらず、上記音声ファクターの上記値に従って、上記音声データを、第1のクラスター・セットにクラスタリングすることと、上記音響モデルが、上記音声ファクターの上記異なる値の音声を(ひととおり)表すことができるように、第1のパラメータ・セットを推定することを含み、上記クラスタリング及び上記第1のパラメータの推定が、共通の最尤基準に従って一緒に実行される方法を使用して学習された。
第1のクラスター・セット及び第1のパラメータ・セットは、音響モデルの適応の前にラベル付けされない。適応データは、オーディオを含んでも良い。一実施形態において、上記音声ファクターは、表現であり、上記音響モデルは、話者に関係するパラメータ・セット及び話者に関係するクラスター・セットを含み、上記表現パラメータ・セットと、上記話者パラメータ・セットと、上記表現クラスター・セットと、上記話者クラスター・セットとが、オーバーラップしない。更なる実施形態において、上記方法は、第2の話者の音声とともに第1の話者の音声から得られる表現パラメータを使用することによって、第1の話者から第2の話者に表現を移植するように構成される。これは、適応データは、表現をもって話す第1の話者からのデータを含み得ることを意味する。これから、同じ表現で話す異なる話者の声が合成される。
一実施形態において、テキスト音声合成方法が提供され、上記方法は、入力テキストを受信することと、上記入力テキストを音響単位のシーケンスに分割することと、音響モデルを使用して、上記音響単位のシーケンスを音響ベクトルのシーケンスに変換することと、ここで、上記音響モデルは、話者の声に関係する第1のパラメータ・セット及び表現に関係する第2のパラメータ・セットを含み、上記第1及び第2のパラメータ・セットが、オーバーラップせず、上記音声ベクトルをのシーケンスをオーディオとして出力することを含み、上記方法は、第1の空間において構築される表現言語特徴ベクトルを形成するために、上記入力テキストから表現特徴を抽出し、上記表現言語特徴ベクトルを、第2の空間において構築される表現合成特徴ベクトルにマッピングすることによって、表現に関係する上記パラメータのうちの少なくとも一部を判定することを更に含む。所与の第2のパラメータについて、それが対応する表現が未知であり、また、所与の第1のパラメータについて、それが対応する話者の声が未知であるように、第1及び第2のパラメータが、ラベル付けされていなくても良い。第1及び第2のパラメータ・セットの一方又は両方が、ラベル付けされていなくても良い。一実施形態において、上記第2の空間は、第1の話者の上記音響空間であり、上記方法は、上記表現合成特徴ベクトルを第2の話者の上記音響空間に移植するように構成される。
一実施形態において、第1のクラスター・セット及び第1のパラメータ・セットが共通の最尤基準により推定されるように、音響モデルが学習される。他の実施形態において、第2のクラスター・セット及び第2のパラメータ・セットが共通の最尤基準により推定されるように、音響モデルが学習される。
一実施形態において、テキスト音声合成システムのための音響モデルを学習するためのシステムが提供され、上記システムは、第1の音声ファクターの異なる値に対応する音声データを受信するための入力と、ここで、所定のデータ・アイテムについて、上記第1の音声ファクターの値が未知であるように、上記音声データは、ラベル付けされていない、上記第1の音声ファクターの上記の値に従って上記音声データを第1のクラスター・セットにクラスタリングし、上記音響モデルが、上記第1の音声ファクターの上記異なる値の音声を(ひととおり)表すことができるように、第1のパラメータ・セットを推定する、ように構成されたプロセッサとを含み、上記クラスタリング及び上記第1のパラメータの推定は、記第1のパラメータの推定及び上記第1のクラスター・セットへの上記クラスタリングの両方に共通の単一の最尤基準に従って、一緒に実行される。
一実施形態において、音声ファクターの対象となる値を有する音声を出力するように構成されるシステムが提供され、上記システムは、上記音声ファクターの対象となる値を有する適応データを受信するための入力と、テキストを受信するための入力と、上記音声ファクターの対象となる値に音響モデルを適応させ、上記入力テキストを音響単位のシーケンスに分割し、上記音響モデルを使用して、上記音響単位のシーケンスを音声ベクトルのシーケンスに変換し、上記音声ファクターの対象となる値によるオーディオとして上記音声ベクトルのシーケンスを出力する、ように構成されたプロセッサとを含み、上記音響モデルは、上記音声ファクターに関係する第1のパラメータ・セット及び上記音声ファクターに関係する第1のクラスター・セットを含み、所与の1又は複数のクラスター及び所与の1又は複数のパラメータについて、上記第1の音声ファクターの上記値が未知であるように、上記音声ファクターに関係する上記第1のパラメータ・セット及び上記第1のクラスター・セットが、ラベル付けされていない。
一実施形態において、テキスト音声合成システムが提供され、上記システムは、入力テキストを受信するための入力と、上記入力テキストを音響単位のシーケンスに分割し、音響モデルを使用して、上記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、ここで、上記音響モデルは、話者の声に関係する第1のパラメータ・セット及び表現に関係する第2のパラメータ・セットを含み、上記第1及び第2のパラメータ・セット並びに上記第1及び第2のクラスター・セットは、オーバーラップせず、上記音声ベクトルのシーケンスをオーディオとして出力し、第1の空間において構築される表現言語特徴ベクトルを形成するために、上記入力テキストから表現特徴を抽出し、上記表現言語特徴ベクトルを、第2の空間において構築される表現合成特徴ベクトルにマッピングすることによって、表現に関係する上記パラメータのうちの少なくとも一部を判定する、ように構成されたプロセッサと、を含む。所与の第2のパラメータについて、それが対応する表現が未知であり、また、所与の第1のパラメータについて、それが対応する話者の声が未知であるように、第1及び第2のパラメータが、ラベル付けされていなくても良い。第1及び第2のパラメータ・セットの一方又は両方が、ラベル付けされていなくても良い。一実施形態において、上記第2の空間は、第1の話者の上記音響空間であり、上記方法は、上記表現合成特徴ベクトルを第2の話者の上記音響空間に移植するように構成される。
一実施形態において、表現若しくは話者又は表現及び話者の情報がラベル付けされていない学習データに基づいて表現及び話者を同時にモデリングするための音声合成学習方法が提供される。一実施形態において、表現及び話者情報がともに混合されるラベル付けされていないデータから、独立した表現及び話者情報(independent expression and speaker information)が抽出される。一実施形態において、表現クラスタリング・プロセス及びパラメータ推定が単一のプロセスとして統合される。表現クラスタリング・プロセス及びパラメータ推定プロセスが、共通の最尤(ML)基準で同時に実行されても良い。該方法の出力は、それぞれの表現クラスターごとで話者に共通の表現CAT重みベクトル(speaker independent expression CAT weight vectors for each expression cluster)及びそれぞれの話者ごとで表現に共通の話者CAT重みベクトル(expression independent speaker CAT weight vectors for each speaker)を含んでも良い。該方法の出力は、それぞれの表現クラスターごとで話者に共通のCAT重みベクトル(speaker independent CAT weight vectors for each expression cluster)及びそれぞれの話者ごとで表現に共通の話者制約付き最尤線形回帰(CMLLR)変形(expression independent speaker CMLLR transforms for each speaker)を含んでも良い。該方法の出力は、それぞれの表現クラスターごとで話者に共通の表現CMLLR変換(speaker independent expression CMLLR transforms for each expression cluster)及びそれぞれの話者ごとで表現に共通のCAT重みベクトル(expression independent CAT weight vectors for each speaker)を含んでも良い。該方法の出力は、それぞれの表現クラスターごとで話者に共通の表現CMLLR変換(speaker independent expression CMLLR transforms for each expression cluster)及びそれぞれの話者ごとで表現に共通の話者CMLLR変換(expression independent speaker CMLLR transforms for each speaker)を含んでも良い。
一実施形態において、テキスト音声合成システムが提供され、上記システムは、入力テキストを受信するための入力と、上記入力テキストを音響単位のシーケンスに分割し、音響モデルを使用して、上記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、ここで、上記音響モデルは、話者の声に関係する第1のパラメータ・セット及び第1のクラスター・セット並びに、表現に関係する第2のパラメータ・セット及び第2のクラスター・セットを含み、上記第1及び第2のパラメータ・セット並びに上記第1及び第2のクラスター・セットは、オーバーラップせず、上記音声ベクトルのシーケンスをオーディオとして出力し、第1の空間において構築される表現言語特徴ベクトルを形成するために、上記入力テキストから表現特徴を抽出し、上記表現言語特徴ベクトルを、第2の空間において構築される表現合成特徴ベクトルにマッピングすることによって、表現に関係する上記パラメータのうちの少なくとも一部を判定する、ように構成されたプロセッサと、を含む。
実施形態に従う方法は、ハードウェアでも汎用コンピュータ中のソフトウェアでも実施することができる。本発明の実施形態に従う更なる各方法は、ハードとソフトとの組み合せで実施することができる。実施形態に従う各方法はまた、単一の処理装置、又は複数の処理装置からなる分散ネットワークにより実施することができる。
実施形態に従う幾つかの方法はソフトウェアにより実施することができるので、幾つかの実施形態は任意の適したキャリア媒体上の汎用コンピュータに提供されるコンピュータコードを含む。キャリア媒体は、例えばフロッピー(登録商標)ディスク、CD ROM、磁気デバイス若しくはプログラマブル・メモリ・デバイスのような任意の記憶媒体、又は、例えば任意の信号(例えば、電気的信号、光学的信号若しくはマイクロ波信号)のような任意の一時的な媒体を含むことができる。
テキスト音声合成システムの音響モデルを学習するためのクラスター適応学習(Cluster Adaptive Training)(CAT)法及び制約付き最尤線形回帰(Constrained Maximum Likelihood Linear Regression)(CMLLR)法の詳細は、アペンディックスで説明される。CAT法及びCMLLR法を使用する話者表現分解(Speaker and expression factorization)(SEF)もまた、そこで説明される。例えば話者と表現のような音声データのファクターをモデリングするために、これらの方法を使用することができる。
図1は、一実施形態に従った学習フレームワークを示す。この実施形態では、ラベル付けされていない(unlabelled)データの表現及び/又は話者クラスタリングが単一のプロセスにおいてSEFと統合される。
SEFは、異なる話者及び表現のための学習データにマニュアルでラベル付けをすることによって実行することができる。しかしながら、あいにく、幾つかの複雑で高度な多様性のある学習データ(例えばオーディオブックのデータなどのような)について、そのデータに対してマニュアルで表現ラベル又は話者ラベルを付け加えることは高くつき(expensive)、また、そのデータの高度な多様性に起因するプアなアノテーション間の呼応(poor inter-annotation agreement)がしばしば存在する。例えば、電子ブックの音声合成(synthesizing)は、様々の話者の声(voices)により物語を表情豊かに(expressively)読むことをTTSシステムに要求するかもしれない。表現学習データが常にすべての話者について利用可能であるとは限らないので、話者と表現のすべての組み合せを直接モデリングすることは大抵非実用的である。これらの場合に、話者又は表現に従って学習データをラベル付け又はクラスタリングすることを、モデルの学習の一部として実行する必要がある。
図1の実施形態において、学習データは、表現情報(expression information)ではなく、話者情報(speaker information)によりラベル付けされている(labelled)。この実施形態では、表現クラスタリング(expression clustering)及び表現依存パラメータ推定(expression dependent parameter estimation)が、最尤基準(maximum likelihood criteria)に従って同時に行われる。すなわち、次のようである。
ここで、E={e1,e2,...,ek}は、表現依存クラスター(expression dependent clusters)である。Λe(E)={λe 1,λe 2,...,λe k}は、表現依存パラメータ(expression dependent parameters)であり、表現依存クラスターにそれら自身依存する。Λs={λs 1,λs 2,...,λs l}は、話者依存パラメータ(speaker dependent parameters)である。U={u1,u2,...,un}は、学習発話(training utterances)である。Hは、学習データのトランスクリプト(transcripts)である。そして、Mは、これまでのように、クラスター平均行列(cluster mean matrices)である。
図1のフレームワークにおいて、学習発話U={u1,u2,...,un}及び話者パラメータΛs={λs 1,λs 2,...,λs l}が、単一の教師無しSEFプロセス(unsupervised SEF process)(27)へ入力(25)される。このプロセスは、Uの尤度を最大化するように、表現クラスター
及び表現依存パラメータΛe(E)={λe 1,λe 2,...,λe k}を同時に生成する。そして、表現依存パラメータが出力される(29)。
このアプローチにおいて、全過程(表現クラスタリングと表現依存パラメータの決定との両方)が最尤基準を使用して実行される。これは、学習基準に一貫性(consistency)が存在することを保証する。さらに、複数話者データ(multi-speaker data)を扱う場合には、表現クラスタリングの結果は話者ファクター(speaker factors)に影響されない。話者情報が表現クラスタリング・プロセスから明確に分離されるので、これは、話者クラスターと表現クラスターとの効果的な分解(factorization)を保証する。このアプローチは、最尤基準に基づく他の分解方法とともに使用することができる。潜在的変数モデル(latent variable models)のための他の最大尤推定ベースの基準(maximum likelihood based criterion)と同様に、補助関数(auxiliary function)が最大化される。しかしながら、異なる方法の分解に対して、補助関数は異なる。
以下、本実施形態に従ったCATベースの分解法及びCMLLRベースの分解法が説明される。しかしながら、本実施形態のアプローチにおいて、任意の最尤ベースの分解法(maximum-likelihood based factorization method)を使用することができる。
一実施形態において、CATベースの分解(CAT based factorization)は、アペンディックスにおいて説明されるように、教師無し話者表現分解(unsupervised speaker and expression factorization)のために使用される。この実施形態において、学習発話E={e1,e2,…,ek}の特定のパーティションについて、補助関数(詳細に関してはアペンディックスを参照)は、次のように表すことができる。
ここで、十分統計量(sufficient statistics)は、次のようである。
ここで、γt (m)は、時刻tにおけるコンポーネントmの占有確率(occupancy probability)であり、μ(m,1)は、バイアス・クラスターからのコンポーネントmの平均ベクトルである。
教師無しSEFにおいて、学習データのパーティション
及びこのパーティションに関連する表現依存CAT重みベクトル
は、補助関数が最大化されるように見出される。
一実施形態において、これはk型アルゴリズム(k-style algorithm)を使用して行われる。クラスター(つまり、学習データのパーティション)及び重みベクトルは、同時に計算される。K−means法クラスタリング(K-means clustering)は、当技術分野において周知であり、計算が割り当てステップ及び更新ステップに分割されることを述べることは別として、ここではK−means法クラスタリングの詳細は説明されない。
割り当てステップにおいて、次の基準を用いて、表現クラスターe(i)がそれぞれの発話iに割り当てられる。
更新ステップにおいて、表現CAT重みベクトル
は、次の式を用いて再計算される。
割り当てステップ及び更新ステップは、収束するまで繰り返し実行される。
この実施形態において、表現クラスタリングは、話者ファクターが明確に取り除かれるSEFの補助関数に基づく;したがって、話者に依存しない表現クラスタリングを達成することができる。表現クラスタリング及びCAT重みベクトル推定は、最尤基準に基づいた単一のプロセスへ統合される。また、学習プロセスに矛盾(inconsistency)は存在しない。また、複数話者データを扱う場合には、表現クラスタリングの結果は、話者ファクターに影響されない。話者情報は、表現クラスタリング・プロセスから明確に分離される。
図2〜図9のフローチャートを参照して、この実施形態に従った学習の方法が説明される。
図2のステップS401において、複数のオーディオ音声の入力が受信される。この実施形態において、ニュートラルな表現(neutral expression)によりすべての話者について、及び、異なる表現で話す何人かの話者について、オーディオ音声(audio speech)が受信される。この実例となる例では、4人の話者が使用される。
次に、ステップS403において、それぞれがニュートラルな表現で話す4人の声(voices)のそれぞれごとに、音響モデルが学習され生成される。この実施形態において、4つのモデルはそれぞれ一つの声からのデータを使用して学習されるだけである。図3のフローチャートを参照して、S403がより詳細に説明される。
図3のステップS303において、4人の声のそれぞれごとに、音響モデルが学習され生成される。この実施形態において、4つのモデルはそれぞれ一つの声からのデータを使用して学習されるだけである。
図3のステップS305において、クラスターPの個数が、V+1にセットされる。ここで、Vは、声の個数(4)である。
ステップS307において、一つのクラスター(クラスター1)が、バイアス・クラスターとして決定される。バイアス・クラスターのための決定木(decision trees)と、関連するクラスター平均ベクトル(cluster mean vectors)は、ステップS303において最良のモデルを生成した声を使用して初期化される。この例では、それぞれの声は、タグ「声A」、「声B」、「声C」及び「声D」を与えられる。ここで、声Aが最良のモデルを生成したものと仮定する。共分散行列、マルチ空間確率分布(multi-space probability distributions)(MSD)に関する空間重み、及び、構造を共有しているそれらのパラメータもまた、声Aモデルのそれらに初期化される。
それぞれの二分決定木(binary decision tree)は、すべてのコンテキストを表す単一のルート・ノードから始まる局所的最適化法で構築される。この実施形態において、コンテキストによって、次のベースが使用される;音声ベース、言語ベース、韻律ベース。それぞれのノードが作成されるとともに、コンテキストに関する次の最適な質問が選択される。いずれの質問が尤度の最大の増加をもたらすか及び学習例において生成される終端ノードに基づいて、質問が選択される。このプロセスは、アペンディックス中の図26を参照して詳細に説明される。
ステップS309において、クラスター2,…,Pのそれぞれに特定の声タグ(voice tag)が割り当てられる。例えば、クラスター2,3,4及び5が、それぞれ話者B、C、D及びAに対する。声Aがバイアス・クラスターを初期化するのに用いられたので、それは初期化されるべき最後のクラスターに割り当てられることに留意されるべきである。
ステップS311において、CAT補間重みのセットは、割り当てられた声タグ(voice tag)に従って、以下のように単に1又は0にセットされる。
この具体例では、ストリームごと話者ごとに大域的な重み(global weights)が存在する。
ステップS313において、各々のクラスター2,…,(P−1)について順番に、以下のようにクラスターが初期化される。関連する声(voice)のための声データ(例えば、クラスター2のための声B)は、ステップS303で学習される関連する声のための単一話者モデルを使用して、調整(aligned)される。これらの調整を所与として、統計値が計算され、そして、クラスターのための決定木及び平均値が推定される。クラスターのための平均値は、ステップS311でセットされた重みを使用して、クラスター平均の正規化された加重和(normalised weighted sum)として、計算される。すなわち、実際には、これは、所与のコンテキストに関する平均値(そのコンテキストに関するバイアス・クラスターの平均の加重和(いずれの場合も重み1)である)、そして、クラスター2におけるそのコンテキストに関する声Bモデルの平均をもたらす。
それから、ステップS315において、全4つの声からのすべてのデータを使用して、バイアス・クラスターのために決定木が再構築され、関連する平均及び分散パラメータが再推定される。
声B、C及びDのためのクラスターを加えた後に、バイアス・クラスターは、同時に全4つの声を使用して、再推定される。
ステップS317において、他のクラスターについては、ステップS313で説明されたように、声Aだけからのデータを使用して、クラスターP(声A)が初期化される。
各クラスターが上記のように初期化されたならば、その後、CATモデルは、以下のように、更新され/学習される。
ステップS319において、CAT重みが固定された状態で、クラスター1からPまで、1クラスターずつ、決定木が再構成される。ステップS321において、新たな平均及び分散がCATモデルで推定される。次に、ステップS323において、各クラスターごとに、新たなCAT重みが推定される。一つの実施形態では、該プロセスは、収束するまでS321へループバックする。パラメータ及び重みは、上記パラメータのより良い推定を得るために、バウム・ウェルチ・アルゴリズム(Baum-Welch algorithm)の補助関数を用いて実行される最尤計算を使用して、推定される。
前述のように、パラメータは反復プロセスにより推定される。
更なる実施態様では、ステップS323において、それぞれの繰り返しの間で決定木が再構成されるように、該プロセスは収束するまでステップS319へループバックする。
その後、プロセスは図2のステップS405に戻り、そこで、表現のためにモデルが学習される。この実施形態において、ステップS403における話者の声のモデリングについて説明されたものと同じ方法で、クラスター適応学習(CAT)を用いて、話者の声における表現がモデリングされる。しかしながら、話者の声と異なり、表現情報は学習データにおいてラベル付けされていない。
最初に、ステップS405において「表現クラスター」(expression clusters)が初期化される。これは、図4を参照して詳細に説明される。
そして、話者のうちの少なくとも1人(ここで、その話者の声は、表現のある(expressive)ものである)についてデータが収集される。ちょうど1人の話者(ここで、その話者は多数のデータ・サンプルを提供し、それぞれが異なる表現を表出する)又は異なる表現で音声データ・サンプルを提供する複数の話者からデータを収集することは可能である。この実施形態において、表現を表出するようにシステムを学習するために提供される音声サンプルは、ステップS403における初期CATモデル(initial CAT model)を学習するためにそのデータが収集された話者から発せられることが仮定されるであろう。
ステップS453において、表現クラスターが初期化される。一実施形態において、これは、いわゆる教師有り話者表現分解(supervised speaker and expression factorization)とともに自動表現クラスタリングのプロセスを使用して行われる。一実施形態において、音響特徴ベースのクラスタリングが使用される。しかしながら、他の方法又はクラスタリングも使用し得る。音響特徴ベースのクラスタリングにおいて、それぞれの音声ベクトルは、音響特徴ベクトルとして表わされ、クラスタリングは、特徴ベクトルの距離メジャーメントに基づく基準に従って実行される。一実施形態において、学習発話U={u1,u2,...,un}は、次の基準に従って、表現クラスターE={e1,e2,...,ek}へグルーピングされる。
ここで、vjは、発話jから抽出された音響特徴であり、ciは、クラスターiからの平均値である。
これらの自動クラスタリングの結果を話者ラベルとして使用して、話者表現分解が実行される。それぞれの表現ラベルごとの表現依存パラメータ(それらは学習データの尤度を最大化する)が判定される。すなわち、次のようである。
ステップS455において、初期表現部分空間(initial expression subspace)において教師無し分解が実行される。すなわち、ステップS453において決定される初期表現クラスターE及び表現依存CAT重みベクトルΛe(E)が、式1に入力される。表現クラスター及び表現依存重みベクトルは、上記の式6−7に関して説明されたK−means型クラスタリング(k-means style clustering)を使用して同時に再計算される。
次に、ステップS457において、それぞれの表現クラスターごとに、決定木が構築される。最後に、ステップS459において、データのすべてに基づいて、重みが再推定される。
上で説明されたように表現クラスターが初期化された後に、ステップS407において、すべてのクラスター(バイアス、話者及び表現)について、ガウス平均及び分散が再評価される。
ステップS409において、一実施形態では、表現クラスターは、一定に保持される。また、それらが式10を満たすように、表現クラスターのための重みが再推定される。他の実施形態では、それらが式1を満たすように、表現重み及びクラスターの両方が同時に再推定される。いずれの実施形態においても、その後、ステップS411において決定木が再計算される。次に、プロセスはステップS407にループバックし、モデル・パラメータが、続いてステップS409において重み又は重み及びクラスターが、続いてステップS411において決定木の再構築が、収束まで実行される。一実施形態において、ループS407−S411は数回繰り返される。
次に、ステップS413では、すべてのクラスター(バイアス、話者及び表現)について、モデル分散及び平均が再評価される。ステップS415において、話者クラスターについて、重みが再推定され、ステップS417において、決定木が再構築される。その後、そのプロセスはステップS413にループする。また、このループは収束まで繰り返される。その後、そのプロセスはステップS407にループする。また、表現に関するループが収束まで繰り返される。両方のループについて一緒に収束に到達するまで、そのプロセスは継続する。
上記の実施形態では、表現CAT重み及びクラスター・モデルが学習された後に、話者CAT重みベクトル及びクラスター・モデルが同様の方法で再評価される。しかしながら、計算のための時間が制限される場合、このステップはスキップすることができる。この実施形態において、プロセスは次のステップを含む。
1.選択されたニュートラルな音声を使用して、話者クラスター・モデルを構築し、収束するまで、話者決定木、話者CAT重みベクトル及び話者クラスター・モデルを繰り返し更新する。
2.音響特徴ベースの表現クラスタリングを使用して、学習音声(training speech)をPE個のクラスターにグルーピングする(ここで、PEは、表現CAT重みベクトルの次元である)。
3.話者CAT重みベクトルを固定しておく。
それぞれの表現クラスターごとに、CAT重みをを、そのクラスターについて1にセットし、他のものについて0にセットする。
4.それぞれの表現クラスターのための決定木を構築する。
5.それぞれの個別の表現状態(expression state)ごとに、式10に基づいて、表現CAT重みベクトルを再評価する。
6.すべてのクラスターについて、クラスター・モデル・パラメータを更新する。
7.収束するまで、4へ進む。
8.それぞれの発話iについて、表現統計(expression statistics)XEE (i)、XES (i)及びyE (i)を、式2のように蓄積(accumulate)する。
9.K−means型クラスタリング、ML基準に基づく表現クラスタリング及び表現CAT重み推定を再度行う。
10.それぞれの表現クラスターについて、決定木を再構築する。
11.固定された話者CAT重みベクトルを使って、表現CAT重みベクトルを再評価する。
12.すべてのクラスターについて、クラスター・モデル・パラメータを更新する。
13.収束するまで、10へ進む。
1.選択されたニュートラルな音声を使用して、話者クラスター・モデルを構築し、収束するまで、話者決定木、話者CAT重みベクトル及び話者クラスター・モデルを繰り返し更新する。
2.音響特徴ベースの表現クラスタリングを使用して、学習音声(training speech)をPE個のクラスターにグルーピングする(ここで、PEは、表現CAT重みベクトルの次元である)。
3.話者CAT重みベクトルを固定しておく。
それぞれの表現クラスターごとに、CAT重みをを、そのクラスターについて1にセットし、他のものについて0にセットする。
4.それぞれの表現クラスターのための決定木を構築する。
5.それぞれの個別の表現状態(expression state)ごとに、式10に基づいて、表現CAT重みベクトルを再評価する。
6.すべてのクラスターについて、クラスター・モデル・パラメータを更新する。
7.収束するまで、4へ進む。
8.それぞれの発話iについて、表現統計(expression statistics)XEE (i)、XES (i)及びyE (i)を、式2のように蓄積(accumulate)する。
9.K−means型クラスタリング、ML基準に基づく表現クラスタリング及び表現CAT重み推定を再度行う。
10.それぞれの表現クラスターについて、決定木を再構築する。
11.固定された話者CAT重みベクトルを使って、表現CAT重みベクトルを再評価する。
12.すべてのクラスターについて、クラスター・モデル・パラメータを更新する。
13.収束するまで、10へ進む。
上で説明された学習プロセスにおいて、ステップ2−7は、表現クラスタリングに教師有りSEFを加えたプロセスを実行する。このプロセスは、初期表現空間(initial expression space)を構築する。また、ステップ8において、この初期表現空間に基づいて、教師無しSEFに関する十分統計量が蓄積される。最後に、ステップ9〜13において、教師無しSEF学習が実行される。
他の実施形態において、教師無しSEFは、CMLLRベースの分解(CMLLR based factorization)を使用して実行される。この実施形態において、補助関数、式49(アペンディックスを参照)は、次のようになる。
ここで、s(i)は発話iの話者インデックスである。P(m,s(i))及びμ(m,s(i))は、それぞれ、話者依存変換(speaker dependent transforms)As s(i)により変換されるガウシアン・コンポーネントmの精度行列(precision matrix)及び平均ベクトルである。すなわち、次のようである。
十分統計量β(i),kE(i,l),GE(i,l,n)は、以下のように定義される。
前述のCATベースの分解と類似して、補助関数が最大化されるように、表現に従った学習データのパーティション
及びこのパーティションに関連するCMLLR変換
を見出すように、K−means型アルゴリズム(k-means style algorithm)を実行することができる。
割り当てステップにおいて、それぞれの発話iについて、表現クラスターe(i)は、以下によって、それに割り当てられる。
更新ステップにおいて、それぞれの表現クラスターのためのCMLLRは、以下のように推定することができる。
ここで、αは、二次方程式の根である。
図5のフローチャートを参照して、この実施形態に従った学習の方法が説明される。
ステップS1001において、複数のオーディオ音声の入力が受信される。
この実施形態において、ニュートラルな表現による複数の話者について、及び、異なる表現で話す何人かの話者について、オーディオ音声が受信される。
次に、ステップS1003において、学習データをすべて使用して、音響モデルが学習される。この音響モデルは規範的モデル(canonical model)になる。この方法で規範的モデルを学習することは、当技術分野において周知であり、ここでは説明されない。
ステップS1007において、ニュートラルな表現で話すそれぞれの声ごとに、CMLLR変換が評価される。これは、アペンディックスで式61−68に関して説明される。
ステップS1009において、表現クラスターが初期化される。一実施形態において、これは、教師有り話者表現分解(supervised speaker speaker and expression factorization)の技法を使用して行われる。これは、式9に関して上で説明された自動表現クラスタリング(automatic expression clustering)を含む。このような方法で、一旦、表現クラスターが決定されたならば、初期表現CMLLR変換(initial expression CMLLR transforms)は、アペンディックスにおいて式61〜68に関して標準CMLLR技法(standard CMLLR technique)を使用して推定される。
ステップS1011において、教師無し話者表現分解が実行される。表現クラスタリング及びCMLLR表現変換(expression clustering and CMLLR expression transforms)は、式1を使用して同時に評価される。
ステップ1013において、式61−68を使用して、話者変換(speaker transforms)が再評価される。
次に、そのプロセスはステップS1011にループバックし、このループは収束まで繰り返される。一実施形態において、ループS1011−S1013は数回繰り返される。
次に、ステップS1015において、規範的モデルが再学習される。
そのプロセスはステップS1011にループし、このループは収束まで繰り返される。その後、ループS1011−1015は数回繰り返される。
他の実施形態において、モデルを学習するためにCATとCMLLRの組み合せが使用される。
一例として、我々は、表現をモデリングするためにCATが使用され、話者をモデリングするためにCMLLRが使用されるケースについて説明する。しかしながら、この実施形態に従って逆の組み合せもまた可能である。
この例において、補助関数は、次のようになる。
再び、教師無しSEFのパラメータ推定を実行するために、K−means型アルゴリズムが使用される。割り当てステップにおいて、それぞれの発話iについて、表現クラスターe(i)は、以下によって、それに割り当てられる。
更新ステップにおいて、それぞれの表現クラスターのための表現CAT重みベクトルは、以下を使用して、再計算される。
図6のフローチャートを参照して、この実施形態に従った学習の方法が説明される。
ステップS1101において、複数のオーディオ音声の入力が受信される。この実施形態において、ニュートラルな表現によりすべての話者について、及び、異なる表現で話す何人かの話者について、オーディオ音声が受信される。
次に、ステップS1103において、ニュートラルな表現で話す話者からの学習データをすべて使用して、音響モデルが学習される。この音響モデルは規範的モデルになる。
ステップS1107において、ニュートラルな表現で話すすべての声について、CMLLR変換が評価される。これは、アペンディックスにおいて式61〜68に関して記述される方法に従って実行される。
ステップS1109において、表現クラスターが初期化される。これは、図4のフローチャートに関して記述された方法に従って進行する。
一実施形態では、ステップS1111において、初期化された表現クラスターは、一定に保持され、表現クラスターのためのCAT重みは、式10を満たすように再推定される。他の実施形態では、ステップS1111において、表現重み及びクラスターの両方が、式1を満たすように同時に再推定される。いずれの実施形態においても、その後、ステップS1113において、決定木が再計算される。次に、そのプロセスはステップS1111にループし、モデル・パラメータを評価するプロセスが、続いてステップS1113において決定木を再構築することが、収束まで実行される。一実施形態において、ループS1111−S1113は数回繰り返される。
次に、ステップS1115では、CMLLR話者変換が再計算される。その後、そのプロセスはステップS1111にループする。一実施形態において、ループS1111−S1115は数回繰り返される。
上で、我々は、分解(factorization)の3つの方法を使用する実施形態について説明した:CAT、CMLLR、そして、CATとCMLLRの組み合せ。しかしながら、教師無しSEFの方法は、最尤ベースの分解の任意の方法に適用することができる。以下、一般的な場合が説明される。
一般的な最尤分解(maximum-likelihood factorization)の補助関数は、次のように表すことができる。
ここで、ΓS及びΓEは、それぞれ、話者依存パラメータ及び表現依存パラメータを表す。ΓS及びΓEのフォームは、異なるタイプのモデルに対して、異なるであろう。例えば、CATについては、それらはCAT重みベクトルである。CMLLRについては、それらは、CMLLR変換であり、前述の両方の方法の組み合せについては、ΓSは、CMLLR変換であり、ΓEは、CAT重みベクトルである。Φ(m)は、コンポーネントmのためのパラメータである。Φ(m)は、CAT法における平均ベクトル行列及び共分散行列からなる。しかしながら、ノーマルHMMについては、それは平均ベクトル及び共分散行列を含む。そして、式28は、以下のように記述することができる。
ここで、ΔE(i,ΓS)は、表現推定のための発話iの十分統計量である。前述のCAT法において、十分統計量は、XEE (i)、XES (i)及びyE (i)であった。CMLLRのケースにおいて、それらは、β(i),kE(i,l),GE(i,l,n)により与えられた。CMLLRとCATの組み合せにおいては、前述のように、それらは、XE (i)及びZE (i)になる。話者ファクターがΔE(i,ΓS)の計算から明示的に取り除かれる必要があるので、ΔE(i,ΓS)は、話者依存パラメータΓSの関数であることに、留意されるべきである。
この一般的な実施形態では、K−means型アルゴリズムは以下のように記述することができる。
割り当てステップにおいて、表現クラスターe(i)は、以下のように、それぞれの発話iに割り当てられる。
上記の実施形態のフレームワークは、一般的であり、最尤基準による分解の様々な技法を使用してインプリメントすることができる。上で与えられた例は、話者表現分解に関連するが、一実施形態において、2より多いファクター(例えば、ノイズ環境、話者及び表現)により同じ技法が使用される。3つのファクターを使う実施形態において、CATベースの分解は、次の表現を用いて、達成することができる。
ここで、Nはノイズ環境を示す。
そして、この実施形態において、補助方程式、式49は、次のように書き直すことができる。
ここで、λN (i)は、ノイズのためのCAT重みベクトルである。
一実施形態において、その後、表現パラメータは、上で詳しく説明されたK−means型アルゴリズムを使用して評価される。
前述の一実施形態において、音声データにおける表現情報はラベル付けされていないのに対して、話者データはラベル付けされている。一実施形態において、しかしながら、2以上の音声ファクターがラベル付けされていなくても良い。例えば、話者と表現の両方がラベル付けされていなくても良い。
話者と表現がラベル付けされていない場合、話者変形及び表現変換を同時に推定することはできない。代わりに、それらは反復する方法で更新される必要がある。
この実施形態において、表現クラスタリング及び表現依存パラメータは、補助関数、式2を使用して同時に計算される。話者クラスタリング及び話者依存パラメータを計算するための対応する式は、次のようである。
図7に、話者と表現の両方についてラベル付けされていない音声データによりシステムが提供される場合の実施形態に従ったモデルのフローチャートが示される。この図は、話者及び表現データの両方の分解へのCATアプローチに対応する。しかしながら、本実施形態に従ってCMLLR又はML基準に基づく他のアプローチを使用するもでき得る。
ステップS1201において、複数のオーディオ音声の入力が受信される。この実施形態において、ニュートラルな表現によりすべての話者について、及び、異なる表現で話す何人かの話者について、オーディオ音声が受信される。
S1203において、話者クラスターが初期化される。図8に、話者クラスター初期化のためのフローチャートが示される。ステップS1305において、初期話者クラスターS={s1,s2,…,sk}を得るために、自動クラスタリング法が使用される。話者情報が未知の場合、それぞれの学習発話に話者IDを自動的に割り当てるために、自動話者適応法(automatic speaker adaptation methods)が使用される。自動話者クラスタリング法は、非常に多くあり、当技術分野において周知である。一例において、クラスタリングは、次の式で定義される音声ベクトルの距離尺度に基づいて実行される。
ステップS1307において、話者クラスターのうちの1つが、バイアス・クラスターとして割り当てられる。
ステップ1309において、声タグ(voice tag)がクラスターのそれぞれに割り当てられる。バイアス・クラスターを初期化するために使用される話者クラスターに対応する声タグは、初期化される最後のクラスターに割り当てられる。
ステップS1311−S1325は、図3のステップS311−S325のように進行する。
さて、図7に戻って、図4で説明されたように、ステップS1205において、話者クラスター及びパラメータは一定に保持され、表現クラスターが初期化される。
表現クラスターが初期化された後に、ステップS1207において、すべてのクラスター(バイアス、話者及び表現)のために、ガウス平均及び分散が再評価される。
一実施形態では、ステップS1209において、表現及び話者クラスターは、一定に保持され、表現クラスターのための重みは、式10を使用して再推定される。他の実施形態では、話者クラスターは、一定に保持され、一方、表現重み及びクラスターの両方が式1を使用して同時に再推定さる。これは、式2を最大化することを含む。
いずれの実施形態においても、ステップS1211において、決定木が再計算される。
次に、プロセスはS1207へループバックし、モデル・パラメータが、続いてステップS1209において表現重みが、続いてステップS1211において決定木の再構築が、収束まで実行される。一実施形態において、ループS1207−S1209は数回繰り返される。
次に、ステップS1213において、すべてのクラスター(バイアス、話者及び表現)のために、モデルの分散及び平均が再評価される。ステップS1215において、話者クラスターのために、重み及び/又はクラスターが再推定され、ステップS1217において、決定木が再構築される。表現クラスター及び変換は、一定に保持され、新たな話者クラスター及び変換を得るために、式34が最大化される。
その後、そのプロセスはステップS1213にループする。また、このループは収束まで繰り返される。その後、そのプロセスはステップS1207にループする。また、表現に関するループが収束まで繰り返される。両方のループについて一緒に収束に到達するまで、そのプロセスは継続する。
次に、図9を参照して、一実施形態に従って学習されるシステムによるテキスト音声合成が説明される。
図9は、一実施形態に従って学習されるテキスト音声合成システムのプロセスのフローチャートである。
ステップS201において、テキストが入力される。テキストは、キーボード、タッチ・スクリーン、テキスト予測機能又は同様のものを介して入力されても良い。
そして、ステップS203において、テキストは、音響単位のシーケンスに変換される。これらの音響単位は、音素又は書記素であっても良い。該単位は、コンテキスト依存(例えば、選択された音素に加えて先行する音素及び後続する音素も考慮に入れるトライフォン)であっても良い。該テキストは、当該技術において周知の(本明細書では更に説明されない)技法を使用して、音響単位のシーケンスに変換される。
ステップS204において、所望の話者が選択される。
ステップS206において、所望の表現が選択される。
表現及び話者の選択は、多くの方法で実行され得る。これは、図11〜図21に関して下で説明される。
ステップS207において、システムは、アクセス可能な方法で記憶される平均及び分散を検索する。
ステップS209において、システムは、所望の話者及び属性(attribute)のためのパラメータを検索する。CAT学習されたシステムの場合には、これが、平均及び分散のための重みを含むであろう。CMLLR学習されたシステムでは、これが、規範的モデルの平均及び分散のための変換を含むであろう。ステップS207において、平均が検索される前又は後に、話者及び属性依存パラメータが検索され得ることは、当業者に認識されるであろう。
したがって、ステップS209の後、話者及び属性依存の平均を得ること(すなわち、ス平均を使用し、パラメータを適用して)が可能であり、そして、これらは、テップS211で音響モデルの中で使用される。そして、ステップS213において、その音声が出力される。
学習データがラベル付けされているケースでは、適切な話者又は表現は、モデルを学習するために使用される話者及び/又は表現から直接に選択することができる。これは、話者変換又はクラスター重みが、話者及び表現の学習について、既知であるからである。例えば、これは、図10に示されるようなユーザ・インターフェースを介して行われても良い。ここで、ディスプレイ253は、選択ユニット(selecting unit)251により選択され得る種々の表現を示す。種々の話者を選択するために、同様のユーザ・インターフェースを使用し得る。他のディスプレイ方式が使用され得ることは当業者により認識されるであろう。
しかしながら、学習データ中の表現及び/又は話者情報がラベル付けされていないケースでは、適切な変換又はクラスター重みが話者及び/又は表現についてラベル付けされていないので、そのようなアプローチは可能ではない。モデルがそのために学習されていない新しい話者又は新しい表現が望まれれば、これはさらにそうである。
一実施形態において、話者及び表現の選択は、ユーザ・インターフェースを介してマニュアルで実行される。図11のユーザ・インターフェースにおいて、ユーザは、例えば、スクリーン上のポイントをドラッグ・アンド・ドロップするためのマウス、図を入力するためのキーボードなどを使用して、話者又は表現依存のパラメータを直接選択する。図11では、マウス、キーボード又は同種のものを含む選択ユニット251は、ディスプレイ253を使用して、パラメータを選択する。この例では、ディスプレイ253は、2つのレーダー・チャート(表現用に一つ、パラメータを示す声用に一つ)を有する。ユーザは、様々な(ラベル付けされていない)クラスターに対応するパラメータの間で変更するために、選択ユニット251を使用することができる。CAT学習方法において、パラメータがクラスター重みである場合、この選択ユニットでは、レーダー・チャートにより各クラスターの重要度(dominance)のパターンを様々に変更できる。CMLLR学習方法において、パラメータが話者及び表現変換である場合、選択ユニットでは、種々な変換パターンを選択できる。他の表示方法が使用されても良いことは当業者により認識されるであろう。
他の実施形態において、特定の話者又は表現のためのCMLLR変換又はCATクラスター重みは、ラベル付けされている適応データにモデルを適応させることによって、得なければならない。
ここで留意すべきは、モデルを学習するのに必要な学習データの量が非常に多いことである。したがって、学習データにラベル付けするのは難しくまた高くつく(expensive)かもしれない。しかしながら、適応の場合は、必要なデータ量は小さいため、そのラベル付けも安く済む。新たな話者について、話者適応を実行するためには、少量のニュートラルな音声さえあればよく、その一方で、適応データから抽出される表現情報は、任意の新たな話者により共有することができる。
一実施形態において、所望の話者又は表現を選択するために、適応データが入力される。一実施形態において、適応データはオーディオ・データを含む。
図12は、オーディオ・データとともに提供される既知の話者及び/又は表現に適応するシステムの一例を示す。最初に、ステップ501で、入力対象となる適応オーディオ・データ(input target adaptation audio data)が受信される。
システムが表現に適応しているならば、オーディオ・データの話者がモデルの学習のために使用された話者のうちの1人でない限り、ニュートラルな感情で話す話者のサンプルも入力される必要がある。しかしながら、留意すべきことは、オーディオ表現データの話者が、合成音声の出力のための所望の話者に対応する必要がないことである;表現データは、話者データとは無関係に、ある話者から他の話者に「移植」(transplanted)され得る。これは下で詳細に説明される。
次に、規範的モデルのCAT重み、すなわち、前に学習されたクラスターの重み、又は、CMLLR変換は、必要に応じて、ステップ503において、対象となる適応データに最もマッチするように、調整される。このプロセスは、適応データの尤度を最大化することを含む。話者クラスター重みは、ニュートラルなオーディオ・データの話者にマッチするように調整される。そして、感情クラスター重みは、表現データにマッチするように適応される。
他の実施形態において、図13を参照して説明されるように、オーディオ適応データへのCATモデルの適応が進行し得る。
図12にあるように、最初に、ステップS601において、対象となる声が受信され、対象となる表現で話す声についてデータが収集される。最初に、ステップS603において、ニュートラルな話者クラスターのための重みが、対象となる声に最もマッチするように、調整される。
そして、ステップS607において、新たな表現クラスターが、対象となる表現のための既存の表現クラスターに加えられる。次に、ステップS609において、ステップS455から進んで図4に関して説明されたように、新たなクラスターのための決定木が初期化される。そして、ステップS611において、図2に関して説明されたように、すべてのクラスターのために、重み、モデル・パラメータ及び木が、再推定及び再構築される。
システムにより生成され得る任意の話者の声は、対象となる表現により出力することができる。同様に、システムにより生成され得る任意の表現は、対象となる話者の声で出力することができる。
ここで留意すべきは、モデルが適応した話者又は表現が、モデルがそのために学習された話者又は表現であることができ、又は、それが新たな話者又は表現であり得ることである。
一実施形態に従って学習されたシステムは、次の合成が実行されることを可能にする。
1.任意の話者の声は、その声に対応する最終的な話者パラメータ・セットと、任意の属性(例えば、システムがそのために図13又は図14に関して上で説明された適応方法に従って適応された表現などのような)とを組み合わせて使用して、合成することができる。
したがって、話者1のために「喜び」(happy)のデータだけが存在するケースにおいて、もしシステムが他の声のうちの少なくとも一つのための「怒り」(angry)のデータに適応したならば、システムが「怒り表現」(angry expression)で話者1の声を出力することが可能である。
2.CATにより学習されたシステムでは、任意の位置に重みベクトルをセットすることによって、CATモデルにより広げられた(spanned)音響空間からランダムな声を合成することができ、また、任意のモデルが適応した属性を、この新たな声に適用することができる。
3.システムはまた、2つ以上の異なる属性をもつ声を出力するために使用され得る。
例えば、話者の声が、2つの異なる属性(例えば、表現及びアクセント(訛り))で出力され得る。
1.任意の話者の声は、その声に対応する最終的な話者パラメータ・セットと、任意の属性(例えば、システムがそのために図13又は図14に関して上で説明された適応方法に従って適応された表現などのような)とを組み合わせて使用して、合成することができる。
したがって、話者1のために「喜び」(happy)のデータだけが存在するケースにおいて、もしシステムが他の声のうちの少なくとも一つのための「怒り」(angry)のデータに適応したならば、システムが「怒り表現」(angry expression)で話者1の声を出力することが可能である。
2.CATにより学習されたシステムでは、任意の位置に重みベクトルをセットすることによって、CATモデルにより広げられた(spanned)音響空間からランダムな声を合成することができ、また、任意のモデルが適応した属性を、この新たな声に適用することができる。
3.システムはまた、2つ以上の異なる属性をもつ声を出力するために使用され得る。
例えば、話者の声が、2つの異なる属性(例えば、表現及びアクセント(訛り))で出力され得る。
例えばアクセント(訛り)と表現のような、組み合わせることができる複数の異なる属性をモデリングするために、上で式32に関して説明されたように、組み合わせられる2つの異なる属性が合体される(incorporated)。
そのようなアレンジメントにおいて、一つのクラスター・セットは、異なる話者のためのものであり、他のクラスター・セットは、表現のためのものであり、最後のクラスター・セットは、ノイズのためのものであろう。一実施形態において、CAT分解が使用される。図2を参照して、表現クラスターは、図4を参照して説明されたように、初期化され、ノイズ・クラスターもまた、表現に関して図4を参照して説明されたような追加のクラスター・グループとして初期化されるであろう。図2において、話者を学習するための個別のループ、それから、表現を学習するための個別のループが存在する。声が、例えばノイズと表現のような2つのコンポーネントを有するならば、ノイズのための個別のループ及び表現のための個別のループが存在するであろう。
上記の実施形態のフレームワークは、モデルが一緒に学習され適応されることを可能にし、それにより、可制御性(controllability)及び生成された音声の品質の両方を向上させる。上記のものはまた、適応又は学習データのレンジに関する必要条件をより緩やかにすることを可能にする。例えば、図14に示される適応データ構成(adaptation data configuration)を使用し得る。ここで、次が存在する。
3人の女性話者 − fs1,fs2,及び,fs3
3人の男性話者 − ms1,ms2,及び,ms3
fs1とfs2は、アメリカ訛り(American accent)を有し、ニュートラルな表現(neutral expression)で発話が記録される。fs3は、中国訛り(Chinese accent)を有し、3ロットのデータについて発話が記録される。ここで、1つのデータセットはニュートラルな表現を示し、1つのデータセットは喜びの表現(happy expression)を示し、1つのデータセットは怒りの表現(angry expression)を示す。
男性話者ms1は、アメリカ訛りを有し、ただニュートラルな表現で発話が記録され、男性話者ms2は、スコットランド訛り(Scottish accent)を有し、怒り、喜び、悲しみの表現により3つのデータセットについて記録される。
第3の男性話者ms3は、中国訛りを有し、ニュートラルな表現で発話が記録される。
上記のシステムは、訛り(accent)と表現の記録された組み合せのうちの任意のものにより、そして、6人の話者の声のうちの任意のものにより、声データが出力されることを可能にする。
3人の女性話者 − fs1,fs2,及び,fs3
3人の男性話者 − ms1,ms2,及び,ms3
fs1とfs2は、アメリカ訛り(American accent)を有し、ニュートラルな表現(neutral expression)で発話が記録される。fs3は、中国訛り(Chinese accent)を有し、3ロットのデータについて発話が記録される。ここで、1つのデータセットはニュートラルな表現を示し、1つのデータセットは喜びの表現(happy expression)を示し、1つのデータセットは怒りの表現(angry expression)を示す。
男性話者ms1は、アメリカ訛りを有し、ただニュートラルな表現で発話が記録され、男性話者ms2は、スコットランド訛り(Scottish accent)を有し、怒り、喜び、悲しみの表現により3つのデータセットについて記録される。
第3の男性話者ms3は、中国訛りを有し、ニュートラルな表現で発話が記録される。
上記のシステムは、訛り(accent)と表現の記録された組み合せのうちの任意のものにより、そして、6人の話者の声のうちの任意のものにより、声データが出力されることを可能にする。
一実施形態において、クラスターのために使用されるデータのグルーピングが、それぞれの声特性(voice characteristic)について固有(unique)になるように、声属性と話者との間にオーバーラップが存在する。
図15は、話者の声と表現とがどのように関連付けられるかについて可視化するのに役立つプロットを示す。図15のプロットは3次元で示されるが、より高い次元数に拡張することができる。
話者は、z軸に沿ってプロットされる。この単純化されたプロットにおいて、話者重みは、一次元として実際上定義される。軸の対応する番号の上で表わされた2以上の話者重みが有り得る。
表現は、x−y平面上に表わされる。y軸に沿った表現1及びx軸に沿った表現2で、怒り(怒っている)及び悲しみ(悲しい)に対応する重みが示される。このアレンジメントを使用して、「怒っている」話者a及び「悲しい」話者bに必要な重みを生成することが可能である。新たな表現又は属性に対応するx−y平面上のポイントを得ることによって、どのように新たな表現又は属性を既存の話者に適用することができるかが理解できる。
図16は、音響空間を参照して上で説明された原理を示す。変換を視覚化することを可能にするために、ここでは、2次元の音響空間が示される。しかしながら、実際上、音響空間は、多数の次元に拡張するであろう。
表現CATモデルでは、所与の表現のための平均ベクトルは、次のようである。
ここで、μxprは、表現xprで話す話者を表わす平均ベクトルであり、λk xprは、表現xprのためのコンポーネントkのためのCAT重みであり、μkは、コンポーネントkのコンポーネントk平均ベクトルである。
表現依存である唯一の部分は、重みである。したがって、2つの異なる表現(xpr1及びxpr2)の間の差は、ちょうど、平均ベクトルのシフトである。
これは図16に示される。
したがって、表現2の特性(xpr2)を異なる話者の声(Spk2)へ移植する(port)ためには、Spk2のための話者モデルの平均ベクトルに適切なΔを加えることで十分である。この場合、適切なΔは話者から得られる。ここで、データは、xpr2で話すこの話者のために利用可能である。この話者は、Spk1と呼ばれるであろう。Δは、所望の表現xpr2で話すSpk1の平均ベクトルと、表現xprで話すSpk1の平均ベクトルとの間の差として、Spk1から得られる。表現xprは、話者1及び話者2の両方に共通の表現である。例えば、ニュートラルな表現のためのデータがSpk1とSpk2の両方のために利用可能である場合、xprはニュートラルな表現であり得る。しかしながら、それは、両方の話者にマッチする又は厳密に(closely)マッチする任意の表現であり得る。一実施形態において、Spk1とSpk2に厳密にマッチする表現を判定するために、話者のために利用可能である異なる表現のためにSpk1とSpk2との間で距離関数(distance function)を構築することができ、また、距離関数は最小化され得る。距離関数は、ユークリッド距離(euclidean distance)、バタチャリヤ距離(Bhattacharyya distance)又はカルバック・ライブラー距離(Kullback-Leibler distance)から選択されても良い。
そして、下で示されるように、適切なΔが、Spk2のための最もマッチする平均ベクトルに加えられても良い。
上記の例は、CATベースの技法を主として使用したが、原理上は、Δを識別することは、異なるタイプの表現が出力されることを可能にする任意のタイプの統計モデルに適用することができる。
図17は、一実施形態に従った合成ステップにおいて教師有り適応(supervised adaptation)がどのように実行されるかについて示す。合成発話のための表現情報は、生来(naturally)、表現音声(expressive speech)であった表現適応データ174から抽出される。この実施形態において、表現適応データは、図17中の「話者1」としてラベル付けされている学習話者のうちの1人からであり、したがって、話者CAT重みは既知である。話者CAT重み175を所与として、表現適応データは、表現適応データの尤度を最大化するために、表現CAT重みベクトル175に関連する表現空間におけるポイント172に投影される。そして、生成された表現CAT重みは、異なる話者にわたって共有される。図17に示されるように、新たな話者「話者2」(ニュートラルな音声177だけがそれについて提供される)のために、話者適応データの尤度を最大化する話者空間におけるポイント173を見つけるために、話者適応が実行される。最後に、表現CAT重み175は、「話者1」からのデータと同じ表現をもつ「話者2」のための合成発話179を生成するために、話者CAT重み178で連結される(176)。
他の実施形態において、SEFは、多重次元連続空間(multi-dimension continuous space)において或るテキストデータ・ポイントを或るポイントにマッピングするためのプロセスとして見做されるテキスト音声合成システムに対して表現的テキストを学習する部分として使用される。
図18を参照して学習が説明される。学習データ263は、テキストとテキスト入力に対応する音声(speech)とにより提供される。
学習データ263におけるそれぞれの発話(utterance)が固有の表現情報を含むと仮定する。この固有の表現情報は、音声データから判定することが可能であり、また、同様に、音声のトランスクリプション(すなわち、テキストのデータ)から読み取ることも可能である。学習データでは、スピーチ文(speech sentences)とテキスト文(text sentences)が図18で示すように同時に起こる。
学習データ中のそれぞれのテキスト文を、表現言語特徴ベクトル(expressive linguistic feature vector)と呼ばれるベクトルに変換する「表現言語特徴抽出(expressive linguistic feature extraction)」ブロック265が、提供される。
表現言語特徴抽出ブロック265によって任意のテキスト文を言語特徴として変換することができ、そして、すべての有り得る表現言語特徴が、表現言語空間(expressive linguistic space)と呼ばれる第1の空間255を構成する。学習文(training sentence)のそれぞれのトランスクリプションは、この表現言語空間における点と考えることができる。表現言語特徴ベクトルは、テキスト文における感情の情報をキャッチするはずである。
学習の間、テキストから表現言語特徴を抽出するだけでなく、それぞれのスピーチ文を、表現合成特徴ベクトル(expressive synthesis feature vector)と呼ばれるベクトルに変換する「表現合成特徴抽出(expressive synthesis feature extraction)」ブロック257が、提供される。
「表現合成特徴抽出」ブロック257によって任意のスピーチ文を表現合成特徴として変換することができ、そして、すべての有り得る表現合成特徴が、表現合成空間(expressive synthesis space)259を構成する。表現合成特徴に要求されることは、それが、オリジナルのスピーチ文の固有の表現情報をキャッチするということである;一方、この表現情報は、合成プロセスにおいて再生することができる。
学習データのトランスクリプションからの言語特徴及び学習スピーチ文からの合成特徴を所与として、この実施態様に従った方法及びシステムは、言語特徴空間255における言語特徴ベクトルを合成特徴空間259における合成特徴ベクトルに変換するための変換261を学習する。
合成ステージでは、「表現言語特徴抽出」ブロック265が、合成されるべきテキストを、言語特徴空間255中の言語特徴ベクトルに変換し、そして、変換ブロック261により、言語特徴が、表現合成空間259中の合成特徴にマッピングされる。この合成特徴ベクトルは、オリジナルのテキストのデータにおける感情の情報を含み、また、直接、表現音声(expressive speech)を合成するために、シンセサイザーにより用ることができる。
一実施態様において、機械学習方法(例えば、ニューラル・ネットワーク(NN))は、変換ブロック261を提供し、そして、表現言語空間255から表現合成空間259への変換を学習するために用いられる。学習データ263中のそれぞれの文ごとに、合成特徴空間259中の表現合成特徴ベクトルを生成するために、音声データが用いられ、また、言語特徴空間255中の表現言語特徴を生成するために、音声データのトランスクリプションが用いられる。言語特徴空間から合成特徴空間へのマッピングを学習するために、NNの入力である学習データの言語特徴と対象となる出力である学習データの合成特徴とを使用して、NNのパラメータを更新することができる。
「言語特徴抽出」ブロック265は、テキストデータを言語特徴ベクトルに変換する。この特徴ベクトルは、区別となる情報を含まなければならない。すなわち、2つのテキストデータが異なる感情を含むならば、それらの言語特徴は、言語特徴空間において区別できなければならない。
一実施態様において、言語特徴を生成するためにバッグオブワーズ(Bag-of-word)(BoW)技法が用いられる。BoW方法は、テキストデータを単語頻度のベクトルとして表す。ベクトルの次元は語彙のサイズと等しく、それぞれの要素は語彙中の特定の単語の頻度を含む。様々な十分に開発されたBoW技法、例えば、潜在的意味解析(latent semantic analysis)(LSA)、確率的潜在的意味解析(probabilistic latent semantic analysis)(pLSA)、潜在的ディリクレ配分法(latent Dirichlet allocation)(LDA)などが、適用可能である。これらの技法によって、その次元が語彙サイズに等しいオリジナルの単語頻度ベクトルは、非常に低い次元に圧縮(compacted)することができる。
更なる実施態様では、より正確にテキストデータ中の感情の情報をモデル化するために、テキストデータからの異なるレベルの知識が言語特徴の生成に使用される。
一実施態様では、単語レベル情報だけでなく、より低いレベルの情報(例えば、フルコンテキスト・フォン・シーケンス(full context phone sequence)など)及びより高いレベルの情報(例えば、品詞(POS)、ナレーションスタイルなど)も、言語特徴の生成に用いられる。
一実施態様において、異なるレベルからの情報を一緒に結合するために、図19に示すような並列構造が使用される。並列構造では、異なるレベルの特徴が別々に抽出され、そして、該異なるレベルの特徴が変換ブロックのための入力である一つの大きいベクトルに連結される。
図19は、一実施態様に従ったシステムにおいて使用され得る言語特徴を抽出するための並列構造を示す。ステップS5301において、テキストデータが単語頻度ベクトルに変換される。次に、ステップS5305において、単語頻度ベクトルを単語レベルの特徴ベクトルに変換するために、単位として単語をつかうLDAモデル5303が使用される。ステップS5305において、推論プロセスを通じて、変分事後ディリクレ・パラメータ(variantial posterior dirichlet parameters)が推定される。
同時に、ステップS5307において、テキストデータは、フルコンテキスト・フォン(full context phones)のシーケンスとして変換される。S5311において、このフルコンテキスト・フォン・シーケンスは、単位としてフルコンテキスト・フォンをつかうLDAモデル309を使用して、フルコンテキスト・フォン・レベルの特徴ベクトルに変換される。
その後、S5313において、言語特徴ベクトルを生成するために、単語レベルの特徴ベクトル及びフルコンテキスト・フォン・レベルの特徴ベクトルが、言語特徴として連結される。
図19は、言語特徴を抽出する方法の一例を表すのに用いられる。更なる実施態様では、ハイレベル知識(例えばPOSなど)、ナレーションスタイル及びテキストデータからの他の有益な情報を、言語特徴に統合することができる。
さらに、LDA以外のBoW方法も言語特徴を抽出するために同様に用いることができる。
異なるレベルの情報から判定された言語特徴はまた階層構造を使用して同様に結合することができる。そのような階層構造の一つの実施態様において、異なるレベルの知識による言語特徴は、図20に示すように、カスケードのNNをもつシステムに組み込まれる。
図20において、言語特徴1と言語特徴2は、異なるレベルの知識から判定される言語特徴(例えば、単語レベルの特徴、フルコンテキスト・フォン・レベルの特徴など)を表す。
NN1の入力351として特徴1が使用される。そして、出力357において音響特性を生成するために、NN1の出力353が、NN2の入力355である特徴2と結合される。
図18に戻って、音声データの表現情報を表すために、表現合成特徴抽出ブロック257が用いられる。話者依存音響空間259中のそれぞれの点は、音声における固有の表現の情報を表す。
一実施形態において、上で説明されたテキスト音声合成システムは、音声に表現を導入するために、「表現重み」(expression weights)を使用する。図18〜20を参照して上で説明された表現抽出部(expression deriving section)は、これらの表現依存の重みを直接出力することができる。
これは、表現力依存のHMMパラメータ(expressiveness dependent HMM parameters)がクラスター・モデルの直線補間として表わされることを可能にし、また、表現力の情報を表わすために、それぞれのクラスターHMMモデルごとの補間重みが使用される。
したがって、学習データはグループに分類することができ、そして、グループ依存のCAT重みは、このグループにおけるすべての学習文を使用して推定することができる。N個の学習文がM固のグループに分類されるならば(M<<N)、学習データは、CAT重み空間におけるM個の点として表すことができる。
一実施態様において、言語特徴を合成特徴にマッピングする変換として使用されるNN及び話者依存音響空間を構成するために使用されるCATモデルを、一緒に学習することができる。統合学習プロセスは以下のように記述することができる。
1.初期規範的モデルM0及びすべての学習文のためのCAT重みからなる初期CAT重みΛ0を生成するために、話者表現分解を用いて、CATモデル学習を初期化し、また、繰り返し番号i=0にセットする。
2.学習文の表現言語特徴及び学習文のCAT重みセットΛiが所与として、繰り返しiのためのNN(すなわち、NNi)は、最小二乗誤差基準を使用して学習される。
これは、言語空間から音響空間への話者依存のマッピングがそれぞれの話者ごとに学習されるように、各話者ごとに個々になされる。
3.入力として学習文の表現言語特徴を使用して、NNiは、学習文の出力CAT重みセットOiを生成する。
これは、それぞれの話者からのそれぞれの発話ごとになされる。
4Λi+1=Oi. 学習データの尤度を最大化するように、所与のΛi+1がCAT規範的モデルMi+1を再学習する。
5i=i+1. アルゴリズムが収束したならば、6へ進む。そうでなければ、2に進む。
6.終了
上記のプロセスによってNN及びCATモデルが一緒に更新され、それは合成ステージにおけるパフォーマンスを向上させることができる。
1.初期規範的モデルM0及びすべての学習文のためのCAT重みからなる初期CAT重みΛ0を生成するために、話者表現分解を用いて、CATモデル学習を初期化し、また、繰り返し番号i=0にセットする。
2.学習文の表現言語特徴及び学習文のCAT重みセットΛiが所与として、繰り返しiのためのNN(すなわち、NNi)は、最小二乗誤差基準を使用して学習される。
これは、言語空間から音響空間への話者依存のマッピングがそれぞれの話者ごとに学習されるように、各話者ごとに個々になされる。
3.入力として学習文の表現言語特徴を使用して、NNiは、学習文の出力CAT重みセットOiを生成する。
これは、それぞれの話者からのそれぞれの発話ごとになされる。
4Λi+1=Oi. 学習データの尤度を最大化するように、所与のΛi+1がCAT規範的モデルMi+1を再学習する。
5i=i+1. アルゴリズムが収束したならば、6へ進む。そうでなければ、2に進む。
6.終了
上記のプロセスによってNN及びCATモデルが一緒に更新され、それは合成ステージにおけるパフォーマンスを向上させることができる。
上記の学習方法(該学習方法において、マッピングは、それぞれの話者のために個々に学習される)は、異なる話者が異なる方法で同じ感情を表わし得ることを可能にする。しかしながら、初期規範的モデルを生成するために使用される話者表現分解のために、1人の話者からの音声データにより学習されたマッピングにより得られる表現合成ベクトルは、図14〜17に関して上で説明されたように使用して、他の話者に移植され得る。
他の実施形態において、話者共通言語空間(speaker independent linguistic space)の音響空間へのマッピングは、上記のステップ2で学習される。これは、すべての話者に共通するNNを学習するために、異なる話者のためのすべての学習サンプルをマージすることを含む。
この統合学習プロセスは、NN及びCATモデルに制限されない。一般に、NN以外の、言語特徴空間から合成特徴空間への変換、及び、CAT以外の、合成特徴空間を構成する方法は、同一のフレームワークにおける統合学習を使用してアップデートすることができる。例えば、CMLLRとともに統合学習プロセス(joint training process)を使用することができ得る。
上記のステップ1において使用される話者表現分解は、教師無し又は教師有り話者表現分解を含んでも良い。一実施形態に従った前述の教師無し話者表現分解は、学習データのラベル付けを要求せず、また更に、多重話者データに対処する場合に、表現クラスタリングの結果が話者ファクターに影響されないことを保証する。したがって、教師無しSEFにより生成される表現クラスターは、話者から完全に独立しており(話者に共通であり)(completely independent)、また、1人の話者の音響空間から他の話者の音響空間への表現の有効な移植を可能にする。このプロセスは下で詳細に説明される。
上記は、システムのための学習を説明した。
これから図21を参照してテキスト音声合成が説明される。
図21に示される合成システムは、学習に関して説明されたような、表現言語空間403におけるダイアログ・セクション(dialogue section)により生成されるレスポンスから表現特徴ベクトルを抽出する表現言語特徴抽出ブロック401を含む。合成ステージにおいてこのベクトルを抽出する方法は、学習ステージで説明されたプロセスと同一である。
そして、表現特徴ベクトルは、変換ブロック405によって、表現合成空間407における表現合成ベクトルにマッピングされる。この表現合成空間は、表現マッピングがそのために学習された話者の音響空間の部分を形成する。変換ブロック405は、先に述べたように学習された。
そして、判定された表現合成ベクトルが、シンセサイザー409である出力音声(output speech)の統合において使用される。一実施形態において、それは、最初に、他の話者411の音響空間に移植される。この実施形態は以下で説明される。先に述べたように、一実施態様では、変換ブロック405は、表現言語特徴ベクトルを、話者依存音響空間407中のCAT重みに直接マッピングする。
ここで留意すべきは、モデルを学習するためにSEFを使用する場合に、話者依存の音響空間が、話者空間及び表現空間に分割されることである。上で説明された話者依存の音響空間は、表現マッピングがそのために学習された話者の音響空間である。しかしながら、話者表現分解(SEF)を使用して、モデルが学習されたので、このように決定される表現合成ベクトルは、話者に共通である(independent)。したがって、一実施形態において、第2の話者の声がテキストから予測された表現により合成され得るように、それは、第2の話者の音響空間に移植され得る。したがって、表現は、或る話者から他の話者に移植され得る。移植のプロセスは、上で図14−17に関して説明された。
SEFを使用する学習により構築された言語空間及び表現合成空間の両方は、話者共通(speaker independent)である。しかしながら、話者空間、及び、言語空間と表現合成空間との間のマッピングを構築する非線形変換は、話者共通でない。したがって、合成ステップにおいて、話者共通の言語特徴、及び、第1の話者の話者データを使用して学習された非線形変換を使用して、我々は、表現予測を使用して第1の話者の表現合成空間におけるポイントを得る。そして、SEFを使用して学習されたモデルにおいて、表現空間は話者共通であるので、この表現は、第2の話者に移植することができる。従って、第2の話者は、第1の話者と同じスタイルでテキストを読むことができる。
一実施態様に従った方法において、特別な学習データを準備する必要はなく、学習データの評価を人間のインタラクションに要求する必要はない。さらに、合成すべきテキストは、直接、言語特徴ベクトルに変換される。この言語特徴ベクトルは、単一の感情IDより非常に多くの感情の情報を含む。変換ブロックは、言語特徴ベクトルを、同一の感情をもつ表現合成特徴に変換する。さらに、この合成特徴は、オリジナルのテキストデータ中と同一の感情をもつ音声を合成するために使用することができる。
表現合成特徴空間において、それぞれの学習文が固有の合成特徴ベクトルに関係するならば、それぞれの文における固有の感情の情報が、変換(例えばNN)により学習される。それは、合成のための非常に豊富な感情資源(very rich emotion resources)をユーザに提供することができる。
一実施態様に従った方法において、特別な学習データを準備する必要はなく、学習データの評価を人間のインタラクションに要求する必要はない。さらに、合成すべきテキストは、直接、言語特徴ベクトルに変換される。この言語特徴ベクトルは、単一の感情IDより非常に多くの感情の情報を含む。変換ブロックは、言語特徴ベクトルを、同一の感情をもつ表現合成特徴に変換する。さらに、この合成特徴は、複数の話者によりオリジナルのテキストデータ中と同一の感情をもつ音声を合成するために使用することができる。
表現合成特徴空間において、それぞれの学習文が固有の合成特徴ベクトルに関係するならば、それぞれの文における固有の感情の情報が、変換(例えばNN)により学習される。それは、合成のための非常に豊富な感情資源をユーザに提供することができる。
合成特徴空間における学習文は、グループに分類することができ、また、一つのグループにおけるすべての学習文は、感情の情報を共有する。この方法によって、学習する必要があるパターンの数が削減されるので、変換の学習が改善される。したがって、推定される変換は、よりロバストであることができる。文ベースの合成特徴又はグループ・ベースの合成特徴を選択すること、学習データのためのグループの数を調整することは、本発明の実施態様に従った方法においてより簡単に合成パフォーマンスのための表現力とロバスト性との間のバランスを取り得る。
上記の方法において、硬判定感情認識(hard decision emotion recognition)を避けることができ、そして、これはエラーを低減するであろう。NNの有り得る出力は、無数にある。それは、提案方法が、潜在的に、合成のための異なる感情に関係する無数の異なる合成特徴を生成することができることを意味する。さらに、上記の方法は、簡単に表現力とロバスト性との間のバランスを取ることができる。
上記の合成プロセスにおいて、テキストデータの感情の情報は、既知であるか又は人間若しくは他のソースにより明確に認識される必要はない。学習は、完全に自動である。
上記の実施態様では、空間におけるあらゆる点が表現音声合成システム(expressive speech synthesis system)のためのパラメータを定義するように、多次元連続表現音声合成空間(multi-dimensional continuous expressive speech synthesis space)が定義される。また、テキスト特徴を表現空間中の点にマッピングし、そして、表現音声合成プロセスのためのパラメータを定義することができるプロセスが、学習される。
CAT分解法を使用する、教師無し話者表現分解(SEF)の方法を説明するために、ラベル付けされていない表現情報をもつ4つのオーディオブックからの28時間の学習データを使用して、この方法を使用して、2つのシステムが学習された。1つのシステムは、教師有りSEFが別々に後続する音響特徴に基づいた自動表現クラスタリングによる従来のモデルによって学習された。他のシステムは、一実施形態に従った教師無しSEF方法を使用して、学習された。ここでは、表現クラスタリング及びSEFは単一のプロセスへ結合される。両システムにより生成される音声を比較するABXテストが実行された。ABXテストは、当技術分野において周知である。リスナーは、合成声のうちのいずれが、最も基準の人間の声のように聞こえたかを選択することを要求された。そのテストは、モデルの学習のために使用する話者及びテスト話者の両方を使用して実行された。学習話者のためのABXテストの結果は、テーブル1に示される。また、テスト話者のためのABXテストの結果は、テーブル2に示される。
ここで、パーセンテージは、声を選んだリスナーのパーセンテージを示し、Pは、p値を示す。p値は、当技術分野において周知であり、ここでは説明されない。0.025未満のp値は、有意差を示す。
実験結果は、教師有りSEFの従来方法よりも提案方法が、かなりパフォーマンスが優れていることを示す。
上記の実施形態に従う方法及びシステムは、表現音声合成、テキスト音声合成、電子ブック読み上げ、音声翻訳(speech to speech translation)又は音声が使用され得る任意の他の状況(situation)の一部として使用されても良い。
ある実施形態は記述されているが、これらの実施形態は例のみ経由で示されており、発明の範囲を制限するようには意図されない。確かに、ここに記述された新しい方法およびシステムは様々な他の形式で具体化されるかもしれない;更に、ここに記述された方法とシステムの形をしている様々な省略、置換および変更は発明の精神から外れずになされるかもしれない。付属のは要求する。また、それらの均等物は、発明の範囲および趣旨以内にあるだろうように、そのような形式あるいは修正をカバーするように意図される。
[アペンディックス]
図22は、テキスト音声合成システム1を示す。テキスト音声合成システム1は、プログラム5を実行するプロセッサ3を含む。テキスト音声合成システム1は、記憶装置7を更に含む。記憶装置7は、テキストを音声に変換するプログラム5により使用されるデータを記憶する。テキスト音声合成システム1は、入力モジュール11及び出力モジュール13を更に含む。入力モジュール11は、テキスト入力15に接続される。テキスト入力15は、テキストを受ける。テキスト入力15は、例えば、キーボードであっても良い。あるいは、テキスト入力15は、外部記憶媒体又はネットワークから、テキストデータを受信するための手段であっても良い。一実施形態において、上記システムは、表現抽出部を更に含む。この表現抽出部の役割は、図18−21に関して説明される。
図22は、テキスト音声合成システム1を示す。テキスト音声合成システム1は、プログラム5を実行するプロセッサ3を含む。テキスト音声合成システム1は、記憶装置7を更に含む。記憶装置7は、テキストを音声に変換するプログラム5により使用されるデータを記憶する。テキスト音声合成システム1は、入力モジュール11及び出力モジュール13を更に含む。入力モジュール11は、テキスト入力15に接続される。テキスト入力15は、テキストを受ける。テキスト入力15は、例えば、キーボードであっても良い。あるいは、テキスト入力15は、外部記憶媒体又はネットワークから、テキストデータを受信するための手段であっても良い。一実施形態において、上記システムは、表現抽出部を更に含む。この表現抽出部の役割は、図18−21に関して説明される。
出力モジュール13に接続されるのは、音声用出力17である。音声出力(オーディオ出力)17は、テキスト入力15へ入力されるテキストから変換された音声信号を出力するために使用される。音声出力17は、例えば、直接の音声出力(例えば、スピーカ)であっても良いし、又は、記憶媒体、ネットワークなどに送信され得るオーディオ・データ・ファイル用の出力であっても良い。
使用するときは、テキスト音声合成システム1は、テキスト入力15を通してテキストを受け取る。プロセッサ3上で実行されるプログラム5は、記憶装置7に記憶されたデータを使用して、テキストを音声データに変換する。音声は、出力モジュール13を介して音声出力17へ出力される。
これから図23を参照して単純化したプロセスが説明される。最初のステップS101において、テキストが入力される。テキストは、キーボード、タッチ・スクリーン、テキスト予測機能又は同様のものを介して入力されても良い。その後、テキストは、音響単位のシーケンスに変換される。これらの音響単位は、音素又は書記素であっても良い。該単位は、コンテキスト依存(例えば、選択された音素に加えて先行する音素及び後続する音素も考慮に入れるトライフォン)であっても良い。該テキストは、当該技術において周知の(本明細書では更に説明されない)技法を使用して、音響単位のシーケンスに変換される。
S105において、音響単位を音声パラメータに関連付ける確率分布が検索される。この実施形態において、確率分布は、平均及び分散により定義されるガウス分布であることがある。例えばポアソン分布、スチューデントt分布、ラプラス分布又はガンマ分布のような他の分布を使用することが可能であるが、それらのうちの幾つかは、平均及び分散とは異なる変数により定義される。
各々の音響単位が、音声ベクトル又は当該技術の専門用語を使用する「観測(observation)」に対して明確な一対一の対応を有することはとても有り得ない。多くの音響単位は、類似する方法で発音され、また、周囲の音響単位によって、或いは、単語若しくは文におけるそれらの位置によって、影響を受け、又は、異なる話者(speakers)により異なった風に発音される。したがって、各々の音響単位は、音声ベクトルに関連付けられる確率を有するのみであり、また、テキスト音声合成システムは、多くの確率を計算して、音響単位のシーケンスを与えられた複数の観測のうち、最も起こり得るシーケンスを選択する。
ガウス分布は図24に示される。図24は、音声ベクトルに関係する音響単位の確率分布であるものとして考えることができる。例えば、Xとして示された音声ベクトルは、図3に示される分布を有する音素又は他の音響単位に対応する確率P1を有する。
ガウス分布の形状及び位置は、その平均及び分散により定義される。これらのパラメータは、システムの学習の間に決定される。
その後、ステップS107において、これらのパラメータが音響モデルにおいて使用される。この説明において、音響モデルは、隠れマルコフモデル(HMM)である。しかしながら、他のモデルを使用することもできる。
音声システムのテキストは、音響単位(すなわち、音素、書記素、単語又はその部分)を音声パラメータに関連付ける多数の確率密度関数を記憶する。ガウス分布が一般に使用されるように、これらは一般にガウシアン又はコンポーネントと呼ばれる。
隠れマルコフモデル又は他のタイプの音響モデルにおいて、特定の音響単位に関係するすべての可能性のある音声ベクトルの確率が考慮される必要がある。そして、その音響単位のシーケンスに最大の可能性をもって対応する音声ベクトルのシーケンスが考慮される。これは、二つの単位が互いに影響を及ぼす方法(way)を考慮に入れる、シーケンスのすべての音響単位にわたる、大域的最適化(global optimization)を意味する。その結果、複数の音響単位からなるシーケンスが考慮される場合に、特定の音響単位に対する最有望な音声ベクトルが最良の音声ベクトルにならないことがあり得る。
幾つかの実施形態においては、それぞれであろう複数の異なる状態が、ガウス分布を用いてモデル化されるであろう。例えば、一つの実施形態では、テキスト音声合成システムは、複数のストリームを含む。それらのようなストリームは、一つ又は複数のスペクトル・パラメータ(Spectrum)、基本周波数の対数(Log F0)、Log F0の一次微分(Delta Log F0)、Log F0の二次微分(Delta-Delta Log F0)、バンド非周期性パラメータ(Band aperiodicity parameters)(BAP)、継続期間(duration)などから選択されても良い。ストリームはまた、クラス(例えば、無音(silence)(sil)、短いポーズ(short pause)(pau)及び音声(speech)(spe)など)に更に分けられても良い。一つの実施形態では、ストリーム及びクラスのそれぞれからのデータは、HMMを使用してモデル化される。HMMは、異なる数の状態を含んでも良い。例えば、一つの実施形態において、上記のストリーム及びクラスのうちの一部からのデータをモデル化するために、5状態HMM(5 state HMMs)が用いられても良い。ガウシアン・コンポーネントは、各HMM状態ごとに決定される。
音声ベクトルのシーケンスが決定されると、ステップS109において、音声が出力される。
図25は、テキスト音声合成システムで用いる音響モデルを学習するためのシステムを示す。図25のシステムは、図22を参照して説明されたそれに類似している。したがって、不要な繰り返しを回避するために、同等の特徴を示すために同等の参照番号が使用される。
図22を参照して記述された特徴に加えて、図25は、音声入力24及び音声入力モジュール22を更に含む。システムを学習する場合に、テキスト入力15を介して入力されているテキストにマッチする音声入力を有することが必要である。
隠れマルコフモデル(HMM)に基づく音声処理システムにおいて、HMMはしばしば次のように表現される。
ここで、Aは状態遷移確率分布であり、次のようである。
また、Bは状態出力確率分布であり、次のようである。
また、Πは初期状態確率分布であり、次のようである。
ここで、Nは、HMMにおける状態の数である。
テキスト音声合成システムにおいてHMMがどのように使用されるかについては、当該技術では周知であり、ここでは説明されない。
以下で説明される実施形態において、状態遷移確率分散A及び初期状態確率分布は、当該技術において周知の手続きに従って決定される。したがって、この説明の残りは、状態出力確率分布に関係している。
従来のテキスト音声合成システムを学習する場合の目標は、所与の観測シーケンスのための尤度を最大化するモデル・パラメータ・セットを推定することである。
一般に、テキスト音声合成システムにおいて、モデルセットMにおける第m番目のガウシアン・コンポーネントからの状態出力ベクトル又は音声ベクトルo(t)は、次のようになる。
ここで、μmとΣmは、第m番目のガウシアン・コンポーネントの平均と共分散である。
いわゆる最尤(ML)基準に純粋に分析的に基づいて上記のモデルセットを得ることは可能でないので、従来、その問題は、バウム・ウェルチ・アルゴリズムと大抵呼ばれる期待値最大化(EM)アルゴリズムとして知られている反復アプローチを使用することによって対処される。
ここで、次のような補助関数(“Q”関数)が得られる。
ここで、次のような補助関数(“Q”関数)が得られる。
ここで、γm(t)は、観測o(t)を生成するコンポーネントmの事後確率であり、現在のモデル・パラメータはM’、Mは新たなパラメータ・セットとする。各々の反復の後で、パラメータ・セットM’は、Q(M,M’)を最大化する新たなパラメータ・セットMと置き換えられる。p(o(t),m|M)は、例えばGMM、HMMなどのような生成モデルである。
モデルは、例えば話者、表現又はノイズ環境のような音声データのファクター、又は他の何らかの音声データのファクターを組み込んでも良い。そして、モデルは、次の状態出力ベクトルをもつ。
ここで、m∈{1,.......,MN}、t∈{1,.......,T}、及び、s∈{1,.......,S}は、それぞれ、コンポーネント、時間及び話者、又は表現、又はノイズ環境、又は音声データの何らかの他のファクターである。また、MN、T及びSは、それぞれ、コンポーネント、フレーム及び話者(又は、表現、又はノイズ環境、又は音声データの何らかの他のファクター)の総数である。以下の説明では、音声ファクターが話者であると仮定されている。
の正確な形は、適用される表現依存変換に依存する。そのような話者依存のアプローチへの2つのアプローチが下で説明される。しかしながら、さらに、他のものも可能である。
クラスター適応学習(Cluster Adaptive Training)(CAT)は、多様性のあるデータ(diverse data)を学習し合成するために効果を発揮するアプローチである。CATは、もとは音声認識のために開発された。それは、統計的音声合成においてコンテキストの増加した重要性を支援するために修正された。
従来のCAT方法では、異なる話者は、クラスターへアレンジされたパラメータをモデリングするために重みを適用することによって適応される。個別の決定木は、各クラスターごとに使用される。これは、モデル・パラメータの数を著しく増加させずに、コンテキストの非常に微細な表現を可能にする、コンテキスト実現(context realisation)のためのモデルの交差するフォーム(intersect form)を生成する。
一つの実施形態では、木において使用される決定は、言語上の変動、音声上の変動又は韻律上の変動に基づく。一つの実施形態では、決定木は、クラスターのメンバーである各コンポーネントごとに存在する。韻律上のコンテキスト、音声上のコンテキスト及び言語上のコンテキストは、最終的な音声波形に影響を及ぼす。音声上のコンテキストは、典型的には、声道に影響を及ぼし、韻律上のコンテキスト(例えば音節)及び言語上のコンテキスト(例えば単語の品詞)は、例えば継続時間(リズム)および基本周波数(トーン)のような韻律に影響を及ぼす。それぞれのクラスターは、1又は複数のサブクラスターを含んでも良い。それぞれのサブクラスターは、それら決定木のうちの少なくとも一つを含む。
上記のものは、それぞれのサブクラスターごとの重み又はそれぞれのクラスターごとの重みベクトル(ここで、重みベクトルの要素は、それぞれのサブクラスターごとの重みである)を検索すると考えることができる。
以下の構成(configuration)は、標準的な実施形態を示す。このデータをモデル化するために、この実施形態では、5状態HMMが使用される。この例に関して、データは、無音、短いポーズ、音声の三つのクラスに分けられる。この特定の実施形態において、サブクラスターごとの決定木及び重みの割り当ては、次のとおりである。
この特定の実施形態では、クラスターごとに次のストリームが使用される。
Spectrum:1つのストリーム、5つの状態、状態ごとに1つの木×3クラス
LogF0:3つのストリーム、ストリームごとに5つの状態、状態及びストリームごとに、1つの木×3クラス
BAP:1つのストリーム、5つの状態、状態ごとに1つの木×3クラス
継続期間:1つのストリーム、5つの状態、1つの木×3クラス(各木は、すべての状態にわたって共有される)
合計:3×26=78の決定木
上記に関して、次の重みが、声特性(voice characteristic)(例えば話者)ごとに、各々のストリームに適用される。
Spectrum:1つのストリーム、5つの状態、ストリームごとに1つの重み×3クラス
LogF0:3つのストリーム、ストリームごとに5つの状態、ストリームごとに1つの重み×3クラス
BAP:1つのストリーム、5つの状態、ストリームごとに1つの重み×3クラス
継続時間:1つのストリーム、5つの状態、状態及びストリームごとに1つの重み×3クラス
合計:3×10=30の重み
この例で示されるように、異なる決定木(spectrum)に同一の重みを割り当てること、あるいは、同一の決定木(継続時間)に2以上の重みを割り当てること、又は、任意の他の組み合せが、可能である。本明細書で使用されるように、同一の重みが適用されるべき決定木は、サブクラスターを形成するために考慮される。
Spectrum:1つのストリーム、5つの状態、状態ごとに1つの木×3クラス
LogF0:3つのストリーム、ストリームごとに5つの状態、状態及びストリームごとに、1つの木×3クラス
BAP:1つのストリーム、5つの状態、状態ごとに1つの木×3クラス
継続期間:1つのストリーム、5つの状態、1つの木×3クラス(各木は、すべての状態にわたって共有される)
合計:3×26=78の決定木
上記に関して、次の重みが、声特性(voice characteristic)(例えば話者)ごとに、各々のストリームに適用される。
Spectrum:1つのストリーム、5つの状態、ストリームごとに1つの重み×3クラス
LogF0:3つのストリーム、ストリームごとに5つの状態、ストリームごとに1つの重み×3クラス
BAP:1つのストリーム、5つの状態、ストリームごとに1つの重み×3クラス
継続時間:1つのストリーム、5つの状態、状態及びストリームごとに1つの重み×3クラス
合計:3×10=30の重み
この例で示されるように、異なる決定木(spectrum)に同一の重みを割り当てること、あるいは、同一の決定木(継続時間)に2以上の重みを割り当てること、又は、任意の他の組み合せが、可能である。本明細書で使用されるように、同一の重みが適用されるべき決定木は、サブクラスターを形成するために考慮される。
それぞれのクラスター・モデルは、ガウス分散がすべてのクラスターにわたって共有されるガウス平均パラメータ・セットを含む。
したがって、CATモデルについて、以下のようである。
ここで、μc(m,i)は、コンポーネントmのためのクラスターIの平均であり、v(m)∈{1,.......,V}は、コンポーネントmの共分散行列が属する共分散決定木におけるリーフノードを示し、Vは、分散決定木のリーフノードの総数である。
式43は、次のように書き直すことができる。
は、コンポーネントmのためのPクラスター平均ベクトルの行列である。したがって、CATモデルでは、使用される平均ベクトルは、すべてのクラスター平均の直線補間である。
このフォームの表現を、表現状態のそれぞれによる重回帰クラスを含むように、拡張することは、単純である。回帰クラスは、当技術分野において周知であり、ここでは説明されない。
標準のCATアプローチと同様に、第1のクラスターは、バイアス・クラスターとして次のように指定される。
CATモデルの学習は、3つの部分に分割することができる:クラスター・モデル学習、CAT重み推定及び決定木構築。
このモデルのための補助関数は、次のように表すことができる。
ここで、Cは、Mとは独立した定数である。
したがって、上記のもの及び式10に式5及び6を代入することを使用して、補助関数は、モデル・パラメータが3つの別個の部分に分割され得ることを示す。
最初の部分は、規範的モデルのパラメータ(つまり、話者非依存平均{μn}及び話者非依存共分散{Σk})である。インデックスn及びkは、後で説明される平均及び分散決定木のリーフノードを示す。第2の部分は、話者依存重みλi (s)である。ここで、sは話者を示し、iは、クラスター・インデックス・パラメータを示す。第3の部分は、話者依存クラスターμc(m,x)の平均である。
補助関数が上記の方法で表現されれば、それは、話者及び声特性パラメータ、話者依存パラメータ及び声特性依存パラメータのML値を得るために、各々の変数に関して順に最大化される。
CAT学習の第1の部分を実行するために、クラスター・モデル・パラメータの推定、式49の補助関数は、ガウシアン平均ベクトルμnに関して、以下のように微分される。
蓄積された統計量Gij (m)及びki (m)は、次のようである。
導関数を0にセットして法線方向において式を最大化することによって、μnのML推定、すなわち、
について次の式が得られる。
μnのML推定はまた、μkに依存することに留意されるべきである(ここで、kはnと等しくない)。インデックスnは、平均ベクトルの判定木のリーフノードを表わすために用いられるのに対して、インデックスkは、共分散決定木のリーフノードを表わす。したがって、収束するまですべてのμnにわたり繰り返すことによって最適化を実行することが必要である。
これは、次式を解くことによりすべてのμnを同時に最適化することによって実行することができる。
しかしながら、学習データが小さいか又はNが非常に大きい場合、式15の係数行列はフルランクを有することができない。この問題は、特異値分解又は他の良く知られた行列因数分解技法を用いることにより回避することができる。
その後、同じプロセスが、共分散のML推定を実行するために行われる。つまり、式49に示される補助関数がΣkで微分され、次式が与えられる。
話者依存重み及び話者依存線形変換のためのML推定も、同じ方法で、つまり、ML推定が求められるパラメータに関して補助関数を微分し、そして、微分の値を0にセットすることで、得ることができる。
学習の第2の部分は、CAT重みベクトルを推定することを含む。そして、λ(s)に関して補助関数を微分し、0に等しいとして、次が与えられる。
ここで、μc(m,l)は、コンポーネントmのためのバイアス・クラスターの平均ベクトルである。
そのプロセスは、繰り返し実行される。
CAT学習モデルの第3の部分は、決定木の形成である。クラスター依存の決定木は、一つのクラスターごとに形成される。クラスターの決定木が形成されるとき、ツリー構造、ガウス平均ベクトル及び共分散行列を含む他のクラスターのパラメータは固定される。
各々の二分決定木は、すべてのコンテキストを表す単一のルート・ノードから始まる局所的最適化法で構築される。この実施形態において、コンテキストによって、次のベース(音声ベース、言語ベース、及び、韻律ベース)が使用される。各々のノードが作成されるとともに、コンテキストに関する次の最適な質問が選択される。いずれの質問が尤度の最大の増加をもたらすか及び学習例において生成される終端ノードに基づいて、質問が選択される。
その後、学習データに総尤度の最大の増加を提供するために、その最適の質問を用いて分割することができる終端ノードを発見するために、終端ノードのセットが検索される。この増加が閾値を越えるとすれば、該ノードは最適な質問を用いて分割され、2つの新たな終端ノードが作成される。更に分割しても、尤度分割に適用される閾値を越えないことにより、新たな終端ノードを形成することができない場合、そのプロセスは停止する。
このプロセスは例えば図26に示される。
平均決定木中の第n番目の終端ノードは、質問qにより2の新たな終端ノードn+ q及びn- qに分割される。この分割により達成される尤度の増加は、以下のように計算することができる。
ここで、S(n)は、ノードnに関連するコンポーネントのセットを示す。μnに関して不変である項は含まれない点に留意されるべきである。
決定木の形成は、一つのクラスターの木が構築されるときに他のクラスターのパラメータは固定されるという仮定に基づく。μnの最大尤度は式53により与えられる。それゆえ、ノードnの尤度は、次のように書き直すことができる。
したがって、ノードnをn+ q及びn- qへ分割することにより得られる尤度は、次式により与えられる。
また、アルゴリズムを生成する決定木は、この関数を最大化する分割に従って、ノードを分割する。
したがって、上記を使用して、各々のクラスターの決定木を構築することは可能である。ここで、木は、最初に木において最適な質問が尋ねられ、分割の尤度に従う階層の順に決定が配列されるように、配列される。その後、重みが各々のクラスターに適用される。
また、決定木は、同様の原理を用いて、分散のために構築され得る。
制約付き最尤線形回帰(CMLLR)は、複数の話者についてモデルを学習するための他の技法である。該モデルは、それぞれの話者ごとの観測ベクトルを規範的モデルのそれに関連付けるために、線形回帰の技法を使用することにより、異なる話者ごとに学習される。
モデルの学習は、学習データのすべてからのデータを使用して、最初に規範的モデルを学習することを含む。一実施形態において、これは標準の期待値最大化アルゴリズム(standard expectation-maximization algorithm)を使用して実行される。その後、CMLLR変換パラメータが、個々の話者ごとに学習される。
CMLLR変換パラメータは、規範的モデルの平均μm及び共分散Σmを変換する、1セットの話者依存の線形の変換W(s)=[b(s)TA(s)T]Tを含む。ここで、A及びbは、それぞれ、変換行列及びバイアス・ベクトルである。
これらの変換を用いて、観測ベクトルの確率は、次のように表すことができる。
CMLLR変換パラメータWを推定するために、最尤基準を用いて、次の補助関数が使用される。
CMLLRのパラメータ推定は、一列ずつ実行される。
ここで、ci (s)は、
の第iの列ベクトルの拡張されたコファクター列ベクトルであり、Xiは、目標CMLLR変換とは独立した項である。対角共分散行列のケースにおいて、統計量β(s),G(s)(i)及びk(s)(i)は、以下のように定義される。
wi (s)に関して微分すると、次が与えられる。
ここで、αは、次の二次方程式の根である。
二次方程式について2つの根がある。最終的な解は、次の補助関数を最大化する解である。
いくつかのタスクについては、2以上のファクターを同時にモデリングすることが必要である。例えば、電子ブックの読み上げのための声の合成は、表現のある声による幾つかの声の合成を要求しても良い。しかしながら、表現学習データがすべての話者のために利用可能であるとは限らないかもしれないので、話者と表現のそれぞれの組み合せ又は表現のためのモデルを直接作成することは、しばしば実用的でない。
この問題への解決策は、複数の属性及び話者をもつ学習データを使用する場合、話者と表現を独立してモデリングする分解技法を使用することによって、提供される。分解技法は、CAT、CMLLR、CATとCMLLRの組み合せ又は他の最尤技法(maximum likelihood techniques)に基づくことができる。CAT学習方法に基づいた話者表現分解(SEF)は、話者及び表現情報の両方を表すためにCAT重みベクトルを使用することを含んでいる。すなわち、話者をモデリングするために、CAT重みベクトルのいくつかの次元が使用され、一方、表現をモデリングするために、他の次元が使用される。ニュートラルな話者に対応するパラメータ及び表現に対応するパラメータは、個別のクラスターへアレンジされる。そして、式43は、次のように書き直すことができる。
ここで、λs及びλeは、それぞれ、話者及び表現をモデリングするためのCAT重みベクトルである。Ms (m)及びMe (m)は、それぞれ、表現CAT重みベクトル及び話者CAT重みベクトルに関連するコンポーネントmのためのクラスター平均行列である。μ(m,1)は、バイアス・クラスターにおけるコンポーネントmのための平均ベクトルである。
SEFはまた、上で説明されたCMLLR学習フレームワーク内で実現することができる。アプローチは、2つの線形変換のカスケードを含んでいる。一つは、話者をモデル化することであり、他の一つは、表現をモデル化することである。すなわち、観察ベクトルは、次のような変換を受ける。
SEFはまた、CATとCMLLRを組み合わせることにより適用することができる。この場合、表現情報は、CAT重みベクトルによってモデリングすることができ、一方、話者情報は、CMLLR変換によってモデリングすることができる。したがって、観測ベクトルのための確率関数は、次のようになる。
あるいは、CMLLRは、表現をモデリングするために使用することができ、CAT重みベクトルは、話者をモデリングするために使用することができる。そのケースにおいて、観測ベクトルのための確率関数は、次のようになる。
Claims (24)
- テキスト音声合成システムのための音響モデルを学習する方法において、
前記方法は、
音声データを受信することと、ここで、前記音声データは、第1の音声ファクターの異なる値に対応するデータを含み、更に、前記音声データは、音声データの所与のアイテムについて前記第1の音声ファクターが未知であるように、ラベル付けされておらず、
前記第1の音声ファクターの前記値に従って、前記音声データを、第1のクラスター・セットにクラスタリングすることと、
前記音響モデルが、前記第1の音声ファクターの前記異なる値の音声を表すことができるように、第1のパラメータ・セットを推定することを含み、
前記クラスタリング及び前記第1のパラメータの推定が、共通の最尤基準に従って一緒に実行される、方法。 - 前記第1のクラスター・セットのそれぞれのクラスターは、少なくとも一つのサブクラスターを含み、
前記第1のパラメータ・セットは、適用されるべき重みであり、サブクラスターごとに一つの重みが存在し、
前記重みは、前記第1の音声ファクターに依存する、請求項1に記載の方法。 - 前記第1のパラメータ・セットは、前記第1の音声ファクターに依存する制約付き尤度線形回帰変換である、請求項1に記載の方法。
- 前記第1の音声ファクターは、話者であり、
前記音声データは、ニュートラルな音声で話す1人又は複数人の話者からの音声データを更に含む、請求項1に記載の方法。 - 前記第1の音声ファクターは、表現である、請求項1に記載の方法。
- 受信された前記音声データに対応するテキストデータを受信することと、
第1の空間において構築される表現言語特徴ベクトルを形成するために、入力された前記テキストから表現特徴を抽出することと、
前記音声データから表現特徴を抽出し、第2の空間において構築される表現特徴合成ベクトルを形成することと、
機械学習アルゴリズムを学習することを更に含み、
前記機械学習アルゴリズムの学習の入力は、表現言語特徴ベクトルであり、前記機械学習アルゴリズムの学習の出力は、前記音声データ及び前記テキストデータに対応する表現特徴合成ベクトルである、請求項5に記載の方法。 - 前記音声データは、第2の音声ファクターの異なる値に対応するデータを更に含む、請求項1に記載の方法。
- 前記第2の音声ファクターの値は、未知であり、
前記方法は、
前記第2の音声ファクターの値に従って、前記音声データを、第2のクラスター・セットにクラスタリングすることと、
前記音響モデルが、前記第2の音声ファクターの前記異なる値の音声を表すことができるように、第2のパラメータ・セットを推定することを更に含み、
前記第1及び第2のパラメータ・セット並びに前記第1及び第2のクラスター・セットが、オーバーラップせず、
前記クラスタリング及び前記第2のパラメータの推定が、前記第2のパラメータの推定及び前記第2のクラスター・セットへのクラスタリングの両方に共通である単一の最尤基準に従って一緒に実行される、請求項7に記載の方法。 - 第2のクラスター・セットのそれぞれは、少なくとも一つのサブクラスターを含み、
前記第2のパラメータ・セットは、適用されるべき重みであり、サブクラスターごとに一つの重みが存在し、
前記重みは、前記第2の音声ファクターに依存する、請求項8に記載の方法。 - 前記第2のパラメータ・セットは、前記第2の音声ファクターに依存する制約付き尤度線形回帰変換である請求項8に記載の方法。
- 前記音声データは、第2の音声ファクターの異なる値に対応するデータを更に含み、
前記音響モデルを学習することは、
前記第2の音声ファクターの値に従って、前記音声データを、第2のクラスター・セットにクラスタリングすることと、
前記音響モデルが、前記第2の音声ファクターの前記異なる値の音声を表すことができるように、第2のパラメータ・セットを推定することを更に含み、
前記クラスタリング及び前記第2のパラメータの推定が、前記第2のパラメータの推定及び前記第2のクラスター・セットへのクラスタリングの両方に共通である単一の最尤基準に従って一緒に実行され、
前記第1及び第2のパラメータ・セット並びに前記第1及び第2のクラスター・セットが、オーバーラップしない、請求項4に記載の方法。 - 前記第2の音声ファクターは、表現である、請求項11に記載の方法。
- 前記音響モデルは、前記音響ユニットを音声ベクトルのシーケンスに関連付ける確率分布関数を含む、請求項1に記載の方法。
- 音声ファクターの対象となる値を有する音声を出力するように構成されたテキスト音声合成方法において、
前記音声ファクターの対象となる値を有するオーディオ・データを入力することと、
前記音声ファクターの対象となる値に音響モデルを適応させることと、
テキストを入力することと、
入力された前記テキストを音響単位のシーケンスに分割することと、
前記音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、
前記音声ファクターの対象となる値によるオーディオとして前記音声ベクトルのシーケンスを出力することを含み、
前記音響モデルは、前記音声ファクターに関係する音声ファクター・パラメータ・セット及び前記音声ファクターに関係する音声ファクター・クラスター・セットを含み、
所与の1又は複数のクラスター及び所与の1又は複数のパラメータについて、それらが関係する前記音声ファクターが未知であるように、前記音声ファクターに関係する前記音声ファクター・パラメータ・セット及び前記音声ファクター・クラスター・セットが、ラベル付けされていない、方法。 - 前記音声ファクターは、表現であり、
前記音響モデルは、話者に関係するパラメータ・セット及び話者に関係するクラスター・セットを含み、
前記表現パラメータ・セットと、前記話者パラメータ・セットと、前記表現クラスター・セットと、前記話者クラスター・セットとが、オーバーラップせず、
前記方法は、
第2の話者の音声とともに第1の話者の音声から得られる表現パラメータを使用することによって、第1の話者から第2の話者に表現を移植するように構成される、請求項14に記載のテキスト音声合成方法。 - テキスト音声合成方法において、前記方法は、
入力テキストを受信することと、
前記入力テキストを音響単位のシーケンスに分割することと、
音響モデルを使用して、前記音響単位のシーケンスを音響ベクトルのシーケンスに変換することと、ここで、前記音響モデルは、話者の声に関係する話者パラメータ・セット及び話者クラスター・セット並びに表現に関係する表現パラメータ・セット及び表現パラメータ・セットを含み、前記話者及び表現パラメータ・セット並びに前記話者及び表現クラスター・セットが、オーバーラップせず、
前記音声ベクトルをのシーケンスをオーディオとして出力することを含み、
前記方法は、
第1の空間において構築される表現言語特徴ベクトルを形成するために、前記入力テキストから表現特徴を抽出し、
前記表現言語特徴ベクトルを、第2の空間において構築される表現合成特徴ベクトルにマッピングすることによって、
表現に関係する前記パラメータのうちの少なくとも一部を判定することを更に含む、方法。 - 前記第2の空間は、第1の話者の前記音響空間であり、
前記方法は、前記表現合成特徴ベクトルを第2の話者の前記音響空間に移植するように構成される、請求項16に記載の方法。 - テキスト音声合成方法において、
入力テキストを受信することと、
前記入力テキストを音響単位のシーケンスに分割することと、
音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、ここで、前記音響モデルは、請求項12の方法を用いて学習される、
前記音声ベクトルのシーケンスをオーディオとして出力することを含み、
前記方法は、
第1の空間において構築される表現言語特徴ベクトルを形成するために、前記入力テキストから表現特徴を抽出し、
前記表現言語特徴ベクトルを、第2の空間において構築される表現合成特徴ベクトルにマッピングすることによって、
前記第2のパラメータのうちの少なくとも一部を判定することを更に含む、方法。 - テキスト音声合成システムのための音響モデルを学習するためのシステムにおいて、前記システムは、
第1の音声ファクターの異なる値に対応する音声データを受信するための入力と、ここで、所定のデータ・アイテムについて、前記第1の音声ファクターの値が未知であるように、前記音声データは、ラベル付けされていない、
前記第1の音声ファクターの前記の値に従って前記音声データを第1のクラスター・セットにクラスタリングし、
前記音響モデルが、前記第1の音声ファクターの前記異なる値の音声を表すことができるように、第1のパラメータ・セットを推定する、
ように構成されたプロセッサとを含み、
前記クラスタリング及び前記第1のパラメータの推定は、前記第1のパラメータの推定及び前記第1のクラスター・セットへの前記クラスタリングの両方に共通の単一の最尤基準に従って、一緒に実行される、システム。 - 音声ファクターの対象となる値を有する音声を出力するように構成されるシステムにおいて、前記システムは、
前記音声ファクターの対象となる値を有する適応データを受信するための入力と、
テキストを受信するための入力と、
前記音声ファクターの対象となる値に音響モデルを適応させ、
前記入力テキストを音響単位のシーケンスに分割し、
前記音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換し、
前記音声ファクターの対象となる値によるオーディオとして前記音声ベクトルのシーケンスを出力する、
ように構成されたプロセッサとを含み、
前記音響モデルは、前記音声ファクターに関係する第1のパラメータ・セット及び前記音声ファクターに関係する第1のクラスター・セットを含み、
所与の1又は複数のクラスター及び所与の1又は複数のパラメータについて、前記第1の音声ファクターの前記値が未知であるように、前記音声ファクターに関係する前記第1のパラメータ・セット及び前記第1のクラスター・セットが、ラベル付けされていない、システム。 - テキスト音声合成システムにおいて、前記システムは、
入力テキストを受信するための入力と、
前記入力テキストを音響単位のシーケンスに分割し、
音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、ここで、前記音響モデルは、話者の声に関係する第1のパラメータ・セット及び第1のクラスター・セット並びに、表現に関係する第2のパラメータ・セット及び第2のクラスター・セットを含み、前記第1及び第2のパラメータ・セット並びに前記第1及び第2のクラスター・セットは、オーバーラップせず、
前記音声ベクトルのシーケンスをオーディオとして出力し、
第1の空間において構築される表現言語特徴ベクトルを形成するために、前記入力テキストから表現特徴を抽出し、
前記表現言語特徴ベクトルを、第2の空間において構築される表現合成特徴ベクトルにマッピングすることによって、
表現に関係する前記パラメータのうちの少なくとも一部を判定する、
ように構成されたプロセッサと、
を含むシステム。 - コンピュータに請求項1の方法を実行させるように構成されたコンピュータ読み取り可能なコードを含む記憶媒体。
- コンピュータに請求項14の方法を実行させるように構成されたコンピュータ読み取り可能なコードを含む記憶媒体。
- コンピュータに請求項16の方法を実行させるように構成されたコンピュータ読み取り可能なコードを含む記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1315139.4A GB2517503B (en) | 2013-08-23 | 2013-08-23 | A speech processing system and method |
GB1315139.4 | 2013-08-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015057651A true JP2015057651A (ja) | 2015-03-26 |
Family
ID=49355862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014169878A Pending JP2015057651A (ja) | 2013-08-23 | 2014-08-22 | 音声処理システム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10140972B2 (ja) |
EP (3) | EP3282444A1 (ja) |
JP (1) | JP2015057651A (ja) |
CN (2) | CN104424943B (ja) |
GB (1) | GB2517503B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019044401A1 (ja) * | 2017-08-29 | 2019-03-07 | 大学共同利用機関法人情報・システム研究機構 | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム |
JP2021177228A (ja) * | 2020-05-08 | 2021-11-11 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | 多言語多話者個性表現音声合成のための電子装置およびこの処理方法 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102222122B1 (ko) * | 2014-01-21 | 2021-03-03 | 엘지전자 주식회사 | 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기 |
US9805028B1 (en) * | 2014-09-17 | 2017-10-31 | Google Inc. | Translating terms using numeric representations |
CN106157959B (zh) * | 2015-03-31 | 2019-10-18 | 讯飞智元信息科技有限公司 | 声纹模型更新方法及系统 |
US20160343366A1 (en) * | 2015-05-19 | 2016-11-24 | Google Inc. | Speech synthesis model selection |
JP6483578B2 (ja) * | 2015-09-14 | 2019-03-13 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
WO2017135148A1 (ja) * | 2016-02-02 | 2017-08-10 | 日本電信電話株式会社 | 音響モデル学習方法、音声認識方法、音響モデル学習装置、音声認識装置、音響モデル学習プログラムおよび音声認識プログラム |
US9864743B2 (en) * | 2016-04-29 | 2018-01-09 | Fujitsu Limited | Textual emotion detection |
CN107516511B (zh) * | 2016-06-13 | 2021-05-25 | 微软技术许可有限责任公司 | 意图识别和情绪的文本到语音学习系统 |
US20180082679A1 (en) * | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10810380B2 (en) * | 2016-12-21 | 2020-10-20 | Facebook, Inc. | Transliteration using machine translation pipeline |
US10475438B1 (en) * | 2017-03-02 | 2019-11-12 | Amazon Technologies, Inc. | Contextual text-to-speech processing |
US9741337B1 (en) * | 2017-04-03 | 2017-08-22 | Green Key Technologies Llc | Adaptive self-trained computer engines with associated databases and methods of use thereof |
CN106971709B (zh) * | 2017-04-19 | 2021-10-15 | 腾讯科技(上海)有限公司 | 统计参数模型建立方法和装置、语音合成方法和装置 |
US10565982B2 (en) | 2017-11-09 | 2020-02-18 | International Business Machines Corporation | Training data optimization in a service computing system for voice enablement of applications |
US10553203B2 (en) | 2017-11-09 | 2020-02-04 | International Business Machines Corporation | Training data optimization for voice enablement of applications |
CN108447470A (zh) * | 2017-12-28 | 2018-08-24 | 中南大学 | 一种基于声道和韵律特征的情感语音转换方法 |
EP3739572A4 (en) * | 2018-01-11 | 2021-09-08 | Neosapience, Inc. | METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM |
US10937438B2 (en) * | 2018-03-29 | 2021-03-02 | Ford Global Technologies, Llc | Neural network generative modeling to transform speech utterances and augment training data |
EP3690875B1 (en) * | 2018-04-12 | 2024-03-20 | Spotify AB | Training and testing utterance-based frameworks |
CN109192200B (zh) * | 2018-05-25 | 2023-06-13 | 华侨大学 | 一种语音识别方法 |
CN110634466B (zh) | 2018-05-31 | 2024-03-15 | 微软技术许可有限责任公司 | 具有高感染力的tts处理技术 |
CN111192568B (zh) * | 2018-11-15 | 2022-12-13 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
WO2020136948A1 (ja) * | 2018-12-26 | 2020-07-02 | 日本電信電話株式会社 | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム |
WO2020173912A1 (en) * | 2019-02-27 | 2020-09-03 | 3Shape A/S | Method for generating objects using an hourglass predictor |
CN111881253B (zh) * | 2019-04-15 | 2024-04-16 | 阿里巴巴集团控股有限公司 | 同义实体对的确定方法及装置 |
JP7143955B2 (ja) * | 2019-08-19 | 2022-09-29 | 日本電信電話株式会社 | 推定装置、推定方法、および、推定プログラム |
CN111916049B (zh) * | 2020-07-15 | 2021-02-09 | 北京声智科技有限公司 | 一种语音合成方法及装置 |
US11341953B2 (en) * | 2020-09-21 | 2022-05-24 | Amazon Technologies, Inc. | Synthetic speech processing |
CN113299295B (zh) * | 2021-05-11 | 2022-12-30 | 支付宝(杭州)信息技术有限公司 | 声纹编码网络的训练方法及装置 |
US20230099732A1 (en) * | 2021-09-30 | 2023-03-30 | Microsoft Technology Licensing, Llc | Computing system for domain expressive text to speech |
CN113887216A (zh) * | 2021-10-20 | 2022-01-04 | 美的集团(上海)有限公司 | 词向量增量方法、电子设备及计算机存储介质 |
US20230214454A1 (en) * | 2022-01-04 | 2023-07-06 | International Business Machines Corporation | Intelligent expansion of reviewer feedback on training data |
CN116821594B (zh) * | 2023-05-24 | 2023-12-05 | 浙江大学 | 基于频谱选择机制的图神经网络工业控制系统异常检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6478300A (en) * | 1987-09-18 | 1989-03-23 | Nippon Telegraph & Telephone | Voice synthesization |
JP2012529664A (ja) * | 2009-06-10 | 2012-11-22 | 株式会社東芝 | テキスト音声合成方法及びシステム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271171A (ja) * | 2002-03-14 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 音声合成方法、音声合成装置および音声合成プログラム |
US7684988B2 (en) * | 2004-10-15 | 2010-03-23 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
WO2007098560A1 (en) * | 2006-03-03 | 2007-09-07 | The University Of Southern Queensland | An emotion recognition system and method |
CN1835074B (zh) * | 2006-04-07 | 2010-05-12 | 安徽中科大讯飞信息科技有限公司 | 一种结合高层描述信息和模型自适应的说话人转换方法 |
US8244534B2 (en) * | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
CN102651217A (zh) * | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
US20130185070A1 (en) * | 2012-01-12 | 2013-07-18 | Microsoft Corporation | Normalization based discriminative training for continuous speech recognition |
CN102568476B (zh) * | 2012-02-21 | 2013-07-03 | 南京邮电大学 | 基于自组织特征映射网络聚类和径向基网络的语音转换法 |
GB2501062B (en) * | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
GB2505400B (en) | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
-
2013
- 2013-08-23 GB GB1315139.4A patent/GB2517503B/en not_active Expired - Fee Related
-
2014
- 2014-08-17 EP EP17191462.5A patent/EP3282444A1/en not_active Withdrawn
- 2014-08-17 EP EP20140195489 patent/EP2860725A1/en not_active Withdrawn
- 2014-08-17 EP EP14181207.3A patent/EP2846327B1/en not_active Not-in-force
- 2014-08-22 US US14/466,340 patent/US10140972B2/en not_active Expired - Fee Related
- 2014-08-22 JP JP2014169878A patent/JP2015057651A/ja active Pending
- 2014-08-22 CN CN201410419320.0A patent/CN104424943B/zh not_active Expired - Fee Related
- 2014-08-22 CN CN201810145526.7A patent/CN108364639A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6478300A (en) * | 1987-09-18 | 1989-03-23 | Nippon Telegraph & Telephone | Voice synthesization |
JP2012529664A (ja) * | 2009-06-10 | 2012-11-22 | 株式会社東芝 | テキスト音声合成方法及びシステム |
Non-Patent Citations (1)
Title |
---|
JPN6015044622; J.Ajmera, C.Wooters: 'A Robust Speaker Clustering Algorithm' IEEE , 200312 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019044401A1 (ja) * | 2017-08-29 | 2019-03-07 | 大学共同利用機関法人情報・システム研究機構 | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム |
JP2021177228A (ja) * | 2020-05-08 | 2021-11-11 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | 多言語多話者個性表現音声合成のための電子装置およびこの処理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108364639A (zh) | 2018-08-03 |
EP2846327A1 (en) | 2015-03-11 |
US20150058019A1 (en) | 2015-02-26 |
EP2860725A1 (en) | 2015-04-15 |
CN104424943B (zh) | 2019-07-12 |
GB201315139D0 (en) | 2013-10-09 |
EP2846327B1 (en) | 2018-05-30 |
US10140972B2 (en) | 2018-11-27 |
GB2517503B (en) | 2016-12-28 |
CN104424943A (zh) | 2015-03-18 |
EP3282444A1 (en) | 2018-02-14 |
GB2517503A (en) | 2015-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2846327B1 (en) | Acoustic model training method and system | |
JP6092293B2 (ja) | テキスト読み上げシステム | |
JP5768093B2 (ja) | 音声処理システム | |
JP6246777B2 (ja) | 音声合成方法、装置及びプログラム | |
US20180203946A1 (en) | Computer generated emulation of a subject | |
JP5398909B2 (ja) | テキスト音声合成方法及びシステム | |
JP2016042362A (ja) | コンピュータ生成ヘッド | |
CN111696522B (zh) | 基于hmm和dnn的藏语语音识别方法 | |
KR20190088126A (ko) | 인공 지능 기반 외국어 음성 합성 방법 및 장치 | |
Rashmi et al. | Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model | |
JP4282609B2 (ja) | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム | |
JP2008058679A (ja) | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160112 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160621 |