JP6330069B2 - 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 - Google Patents
統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 Download PDFInfo
- Publication number
- JP6330069B2 JP6330069B2 JP2017029713A JP2017029713A JP6330069B2 JP 6330069 B2 JP6330069 B2 JP 6330069B2 JP 2017029713 A JP2017029713 A JP 2017029713A JP 2017029713 A JP2017029713 A JP 2017029713A JP 6330069 B2 JP6330069 B2 JP 6330069B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- stream
- spectrum
- speech
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000003595 spectral effect Effects 0.000 title claims description 105
- 230000015572 biosynthetic process Effects 0.000 title claims description 27
- 238000003786 synthesis reaction Methods 0.000 title claims description 26
- 238000001228 spectrum Methods 0.000 claims description 278
- 238000003066 decision tree Methods 0.000 claims description 107
- 238000012549 training Methods 0.000 claims description 70
- 238000000034 method Methods 0.000 claims description 63
- 238000013179 statistical model Methods 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000001308 synthesis method Methods 0.000 claims description 13
- 230000002194 synthesizing effect Effects 0.000 claims description 11
- 239000002131 composite material Substances 0.000 claims description 10
- 241000257465 Echinoidea Species 0.000 claims 2
- 230000005284 excitation Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 7
- 238000009499 grossing Methods 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000010237 hybrid technique Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
本明細書で説明する諸実施形態は、音声の高周波スペクトルを、低周波スペクトルとは別個にモデリングする。多くの言語情報を伝達しない高周波帯域は、自然な音声サンプルに可能な限り近いパラメータを生成するように、大きなデシジョンツリーを使用してクラスタリングされる。高周波スペクトルと低周波スペクトルとの間の境界周波数は、各ステートの合成の際に調整され得る。主観的なリスニング試験は、提案する手法が、単一のスペクトルストリームを使用する従来の手法よりも著しく好ましいことを示している。提案する手法を使用して合成されたサンプルは、こもりが少なく、より自然に響く。
言語情報および話者情報の要素分解(factorisation)が、音声変換および話者識別において使用され得る。ある程度の話者特性が低周波帯域に存在し、いくらかの言語情報が高周波帯域に存在する(たとえば、歯擦音)ことが原因で、完全な要素分解が可能ではないこともあるが、2つの周波数帯域は、別個により良くモデリングされる異なるコンテキスト上のバリエーションを有すると想定され得る。
デシジョンツリーは、コンテキスト依存モデルのステート結合(state-tying)を制御するために使用され得る。HMMモデルをトレーニングするとき、各ノードが2元的なコンテキスト関連の質問(たとえば、前の音素は無音か?次の音素は母音か?)を表すデシジョンツリーが形成される。質問の各回答に含まれるステートは、互いにクラスタリングされ、それぞれのブランチを介して引き渡される。モデルは、結果としてクラスタリングされたステートに適合される。各ノードの質問は、分割基準の適合度(結果として得られるクラスタにまたがるステートの確度(likelihood)を最大にする質問、またはモデルの記述長を最も短くする質問など)に基づいて選択される。
一実施形態では、スペクトルを記述するために、ラインスペクトルペア(LSP)が使用される。これにより、より高周波のスペクトルとより低周波のスペクトルとをより容易に組み合わせることが可能になる。各ケプストラム係数はスペクトルの周波数成分に影響を及ぼすので、ケプストラムが使用される場合はスペクトルを連結することがより困難になる。
最も簡潔な実施形態では、すべてのステートについてより高周波のスペクトルとより低周波のスペクトルとを分割するために、同じ分割境界係数が使用され得る。
デシジョンツリーベースのコンテキストクラスタリングは、各ステートの境界を調整する方法をもたらす。デシジョンツリーは、低周波および高周波スペクトルストリームの各々について形成される。本明細書で説明するように、異なる停止基準が、2つのデシジョンツリーの形成において使用される。それでもやはり、高周波スペクトルストリームおよび低周波スペクトルストリームのデシジョンツリーを形成するために、ステートのすべてにわたる可能な境界係数の範囲がまず考慮されなければならない。
図7は、一実施形態によるテキスト読み上げシステムをトレーニングする方法を示している。この方法は、図1のシステム1によって実装されてもよく、または、モデルがシステム1上に記憶される前に、モデルを生成するための別のデバイスによって実装されてもよい。
図8は、一実施形態による音声を合成する方法を示している。この方法は、図1のシステムによって実装され得る。
図9〜図11は、テストセットにおける発話に関するLSP軌道を示している。図9は、自然の非合成軌道を示している。図10は、単一のスペクトルストリームを備えるHMMで合成された軌道を示している。図11は、一実施形態によるマルチスペクトルストリームHMMで合成された軌跡を示している。
以下、本願出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
音声合成方法であって、
音声合成装置において、
1つまたは複数の言語単位を受け取ることと、
前記1つまたは複数の言語単位を、音声を合成するための一連の音声ベクトルに変換することと、ここで、前記変換は、1つまたは複数の統計モデルの第1のセットをより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える、
前記一連の音声ベクトルを出力することと、
を備える、音声合成方法。
[C2]
1つまたは複数の統計モデルの前記第1のセットは、1つまたは複数の統計モデルの前記第2のセットと比べて、より緊密に元のトレーニング音声データセットに適合される、[C1]に記載の音声合成方法。
[C3]
前記高周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、
前記低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、
前記低周波スペクトルストリームは、ディープニューラルネットワークを使用してモデリングされる、[C1]または[C2]に記載の音声合成方法。
[C4]
一連の音声ベクトルに前記1つまたは複数の言語単位を変換することは、前記1つまたは複数の言語単位の各々について、
前記言語単位に関していくつかのステートを割り当てることと、
前記言語単位の各ステートについて、
前記高周波および低周波スペクトルストリームの各々について1つまたは複数のラインスペクトルペアを生成することと、
複合スペクトルを形成するために境界において前記高周波および低周波スペクトルストリームの前記ラインスペクトルペアを連結することと、
前記ステートについて前記複合スペクトルを使用して音声ベクトルを生成することと、
を備える、[C1]〜[C3]のいずれか一項に記載の音声合成方法。
[C5]
同じ境界が各言語単位に適用される、または
各言語単位の各ステートがそれ自体の固有の境界を割り当てられる、または
各ステートがいくつかのフレームを備え、各ステート内の各フレームはそれ自体の固有の境界を割り当てられる、[C4]に記載の音声合成方法。
[C6]
前記高周波スペクトルストリームと低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたって、すべてのステートについて重複し、そしてまた、
各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、そのステートの境界を設定するために各ステートについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各ステートについて前記境界ラインスペクトルペアインデックスを定義することは、そのステートの前記低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定することと、所定のしきい値周波数に対して前記ステートの前記ラインスペクトルペアの前記周波数のアセスメントに基づいて前記境界ラインスペクトルペアインデックスを決定することとを備える、または
各言語単位の各ステートはいくつかのフレームを備え、ここにおいて、各フレーム単位はそれ自体の固有の境界を割り当てられ、そのフレームの境界を設定するために各フレームについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各フレームについて前記境界ラインスペクトルペアインデックスを定義することは、そのフレームの前記低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定すること、および所定のしきい値周波数に対して前記フレームの前記ラインスペクトルペアの前記周波数のアセスメントに基づいて前記境界ラインスペクトルペアインデックスを決定することを備える、
[C4]に記載の音声合成方法。
[C7]
一連の言語単位を一連の音声ベクトルに変換するために音声合成装置をトレーニングする方法であって、コントローラを備えるトレーニングシステムにおいて、
音声データおよび関連する言語単位を受け取ることと、
モデルのセットを前記音声データおよび関連する言語単位に適合させることと、ここにおいて、前記適合させることは、高周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第1のセットを前記音声データのより高いスペクトル周波数に適合させること、および別個の低周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第2のセットを前記音声データのより低いスペクトル周波数に適合させることを備える、
モデルの前記セットを出力することと、
を備える方法。
[C8]
1つまたは複数の統計モデルの前記第1のセットは、1つまたは複数の統計モデルの前記第2のセットと比べて、より緊密に音声データに適合される、[C7]に記載の方法。
[C9]
前記高周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、そしてまた、
前記低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きい、または、
前記低周波スペクトルストリームは、ディープニューラルネットワークを使用してモデリングされる、
[C7]または[C8]に記載の方法。
[C10]
各言語単位がいくつかのステートを備え、
1つまたは複数の統計モデルの前記第1および第2のセットは、各ステートについて、ラインスペクトルペアの第1および第2のセットをそれぞれ生成するように構成される、ここにおいて、ラインスペクトルペアの前記第1および第2のセットは、前記ステートに関して複合スペクトルを形成するように連結され得る、[C7]〜[C9]のいずれか一項に記載の方法。
[C11]
前記高周波スペクトルストリームと低周波スペクトルストリームとの間の境界を設定する境界ラインスペクトルペアを定義することをさらに備え、ここにおいて、
同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用される、または
各言語単位の各ステートがそれ自体の固有の境界を割り当てられる、または
各ステートがいくつかのフレームを備え、各ステート内の各フレームがそれ自体の固有の境界を割り当てられる、
[C10]に記載の方法。
[C12]
前記同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用され、前記境界ラインスペクトルペアインデックスを定義することは、前記受け取られた音声データの各ステートについて前記ラインスペクトルペアの周波数を決定することと、所定のしきい値周波数に対してすべてのステートにわたり前記ラインスペクトルペアの各々の中間周波数に基づいて前記境界ラインスペクトルペアインデックスを定義することとを備える、[C11]に記載の方法。
[C13]
[C8]に従属するとき、
前記低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、
各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、前記高周波および低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたりすべてのステートについて重複するように定義され、ここにおいて、前記重複範囲は、前記それぞれのラインスペクトルペアインデックスが所定の周波数範囲内に入る周波数を有する前記受け取られた音声データからの少なくとも1つのステートを有するラインスペクトルペアインデックスとして定義される、[C11]に記載の方法。
[C14]
各ステートについて前記境界ラインスペクトルペアインデックスを定義することは、前記低周波スペクトルストリームの各デシジョンツリーにおける各リーフノードについて、
前記リーフノードにおいて前記受け取られた音声データの前記ステートのすべてにわたり各ラインスペクトルペアインデックスについて中間周波数を決定することと、
所定のしきい値周波数に対する各ラインスペクトルペアインデックスの前記中間周波数に基づいて、前記リーフノードにおいて前記ステートについて境界ラインスペクトルペアインデックスを決定することと、
を備える、[C13]に記載の方法。
[C15]
コンピュータに[C1]〜[C14]のいずれか一項に記載の方法を実施させるように構成されたコンピュータ可読コードを備えるキャリア媒体。
[C16]
音声合成装置であって、
1つまたは複数の言語単位を受け取ることと、
前記1つまたは複数の言語単位を、音声を合成するための一連の音声ベクトルに変換することと、ここで、前記変換は、1つまたは複数の統計モデルの第1のセットをより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える、
前記一連の音声ベクトルを出力することと、
を行うように構成されたプロセッサを備える、音声合成装置。
[C17]
音声合成装置が一連の言語単位を一連の音声ベクトルに変換するためのトレーニングシステムであって、
音声データおよび関連する言語単位を受け取ることと、
モデルのセットを前記音声データおよび関連する言語単位に適合させることと、ここにおいて、前記適合させることは、高周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第1のセットを前記音声データのより高いスペクトル周波数に適合させること、および別個の低周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第2のセットを前記音声データのより低いスペクトル周波数に適合させることを備える、
モデルの前記セットを出力することと、
を行うように構成されたコントローラを備える、トレーニングシステム。
Claims (13)
- 音声合成装置における音声合成方法であって、
1つまたは複数の言語単位を受け取り、
1つまたは複数の統計モデルの第1のセットをより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高い周波数スペクトルのストリームおよび低い周波数スペクトルのストリームとしてモデリングして、前記1つまたは複数の言語単位を、音声を合成するための一連の音声ベクトルに変換し、
前記一連の音声ベクトルを出力し、
前記高い周波数スペクトルのストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、および、
前記低い周波数スペクトルのストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、または、前記低い周波数スペクトルのストリームは、ディープニューラルネットワークを使用してモデリングされる、
音声合成方法。 - 一連の音声ベクトルに前記1つまたは複数の言語単位を変換することは、前記1つまたは複数の言語単位の各々について、
前記言語単位に関していくつかのステートを割り当てることと、
前記言語単位の各ステートについて、
前記高い周波数スペクトルおよび低い周波数スペクトルのストリームの各々について1つまたは複数のラインスペクトルペアを生成することと、
複合スペクトルを形成するために境界において前記高い周波数スペクトルおよび低い周波数スペクトルのストリームの前記ラインスペクトルペアを連結することと、
前記ステートについて前記複合スペクトルを使用して音声ベクトルを生成することと、
を備える、請求項1に記載の音声合成方法。 - 同じ境界が各言語単位に適用される、または
各言語単位の各ステートがそれ自体の固有の境界を割り当てられる、または
各ステートがいくつかのフレームを備え、各ステート内の各フレームはそれ自体の固有の境界を割り当てられる、請求項2に記載の音声合成方法。 - 前記高い周波数スペクトルのストリームと前記低い周波数スペクトルのストリームは、ラインスペクトルペアインデックスの重複範囲にわたって、すべてのステートについて重複し、および、
各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、そのステートの境界を設定するために各ステートについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各ステートについて前記境界ラインスペクトルペアインデックスを定義することは、そのステートの前記低い周波数スペクトルのストリームにおける各ラインスペクトルペアの対応周波数を決定し、所定のしきい値周波数に対して前記ステートの前記ラインスペクトルペアの前記対応周波数のアセスメントに基づいて前記境界ラインスペクトルペアインデックスを決定し、または、各言語単位の各ステートはいくつかのフレームを備え、ここにおいて、各フレーム単位はそれ自体の固有の境界を割り当てられ、そのフレームの境界を設定するために各フレームについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各フレームについて前記境界ラインスペクトルペアインデックスを定義することは、そのフレームの前記低い周波数スペクトルのストリームにおける各ラインスペクトルペアの対応周波数を決定し、および所定のしきい値周波数に対して前記フレームの前記ラインスペクトルペアの前記対応周波数のアセスメントに基づいて前記境界ラインスペクトルペアインデックスを決定する、のいずれかである、
請求項2に記載の音声合成方法。 - コントローラを備えるトレーニングシステムによって、一連の言語単位を一連の音声ベクトルに変換するために音声合成装置をトレーニングする方法であって、
音声データおよび関連する言語単位を受け取り、
高い周波数スペクトルのストリームを形成するために1つまたは複数の統計モデルの第1のセットを前記音声データのより高いスペクトル周波数に適合させ、別個の低い周波数スペクトルのストリームを形成するために1つまたは複数の統計モデルの第2のセットを前記音声データのより低いスペクトル周波数に適合させて、モデルのセットを前記音声データおよび関連する言語単位に適合させ、
モデルの前記セットを出力し、
前記高い周波数スペクトルのストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、および、
前記低い周波数スペクトルのストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、または、前記低い周波数スペクトルのストリームは、ディープニューラルネットワークを使用してモデリングされる、
方法。 - 各言語単位がいくつかのステートを備え、
1つまたは複数の統計モデルの前記第1および第2のセットは、各ステートについて、ラインスペクトルペアの第1および第2のセットをそれぞれ生成するように構成される、ここにおいて、ラインスペクトルペアの前記第1および第2のセットは、前記ステートに関して複合スペクトルを形成するように連結され得る、請求項5に記載の方法。 - さらに、前記高い周波数スペクトルのストリームと低い周波数スペクトルのストリームとの間の境界を設定する境界ラインスペクトルペアを定義し、
ここにおいて、
同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用される、または
各言語単位の各ステートがそれ自体の固有の境界を割り当てられる、または
各ステートがいくつかのフレームを備え、各ステート内の各フレームがそれ自体の固有の境界を割り当てられる、
請求項6に記載の方法。 - 前記同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用され、
前記境界ラインスペクトルペアインデックスを定義することは、前記受け取られた音声データの各ステートについて前記ラインスペクトルペアの周波数を決定し、所定のしきい値周波数に対してすべてのステートにわたり前記ラインスペクトルペアの各々の中間周波数に基づいて前記境界ラインスペクトルペアインデックスを定義する、
請求項7に記載の方法。 - 前記低い周波数スペクトルのストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、
各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、前記高い周波数スペクトルおよび低い周波数スペクトルのストリームは、ラインスペクトルペアインデックスの重複範囲にわたりすべてのステートについて重複するように定義され、ここにおいて、前記重複範囲は、前記それぞれのラインスペクトルペアインデックスが所定の周波数範囲内に入る周波数を有する前記受け取られた音声データからの少なくとも1つのステートを有するラインスペクトルペアインデックスとして定義される、
請求項7に記載の方法。 - 各ステートについて前記境界ラインスペクトルペアインデックスを定義することは、
前記低い周波数スペクトルのストリームの各デシジョンツリーにおける各リーフノードについて、
前記リーフノードにおいて前記受け取られた音声データの前記ステートのすべてにわたり各ラインスペクトルペアインデックスについて中間周波数を決定し、
所定のしきい値周波数に対する各ラインスペクトルペアインデックスの前記中間周波数に基づいて、前記リーフノードにおいて前記ステートについて境界ラインスペクトルペアインデックスを決定する、
請求項9に記載の方法。 - コンピュータに請求項1〜10のいずれか一項に記載の方法を実施させるように構成されたコンピュータ可読コードを備える記憶媒体。
- 音声合成装置であって、
1つまたは複数の言語単位を受け取り、
1つまたは複数の統計モデルの第1のセットをより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高い周波数スペクトルのストリームおよび低い周波数スペクトルのストリームとしてモデリングして、前記1つまたは複数の言語単位を、音声を合成するための一連の音声ベクトルに変換し、
前記一連の音声ベクトルを出力する、
ように構成されたプロセッサを備え、
前記高い周波数スペクトルのストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、および、
前記低い周波数スペクトルのストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、または、前記低い周波数スペクトルのストリームは、ディープニューラルネットワークを使用してモデリングされる、
音声合成装置。 - 一連の言語単位を一連の音声ベクトルに変換するための音声合成装置のためのトレーニングシステムであって、
音声データおよび関連する言語単位を受け取り、
高い周波数スペクトルのストリームを形成するために1つまたは複数の統計モデルの第1のセットを前記音声データのより高いスペクトル周波数に適合させ、別個の低い周波数スペクトルのストリームを形成するために1つまたは複数の統計モデルの第2のセットを前記音声データのより低いスペクトル周波数に適合させて、モデルのセットを前記音声データおよび関連する言語単位に適合させ、
モデルの前記セットを出力する、
ように構成されたコントローラを備え、
前記高い周波数スペクトルのストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、および、
前記低い周波数スペクトルのストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、または、前記低い周波数スペクトルのストリームは、ディープニューラルネットワークを使用してモデリングされる、
トレーニングシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1604334.1A GB2548356B (en) | 2016-03-14 | 2016-03-14 | Multi-stream spectral representation for statistical parametric speech synthesis |
GB1604334.1 | 2016-03-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017167526A JP2017167526A (ja) | 2017-09-21 |
JP6330069B2 true JP6330069B2 (ja) | 2018-05-23 |
Family
ID=55952302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017029713A Expired - Fee Related JP6330069B2 (ja) | 2016-03-14 | 2017-02-21 | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10446133B2 (ja) |
JP (1) | JP6330069B2 (ja) |
GB (1) | GB2548356B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036371B (zh) * | 2018-07-19 | 2020-12-18 | 北京光年无限科技有限公司 | 用于语音合成的音频数据生成方法及系统 |
US11368799B2 (en) * | 2020-02-04 | 2022-06-21 | Securboration, Inc. | Hearing device customization systems and methods |
CN113555007B (zh) * | 2021-09-23 | 2021-12-14 | 中国科学院自动化研究所 | 语音拼接点检测方法及存储介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5926791A (en) * | 1995-10-26 | 1999-07-20 | Sony Corporation | Recursively splitting the low-frequency band with successively fewer filter taps in methods and apparatuses for sub-band encoding, decoding, and encoding and decoding |
JP3495275B2 (ja) * | 1998-12-25 | 2004-02-09 | 三菱電機株式会社 | 音声合成装置 |
DE10047172C1 (de) * | 2000-09-22 | 2001-11-29 | Siemens Ag | Verfahren zur Sprachverarbeitung |
US7328151B2 (en) * | 2002-03-22 | 2008-02-05 | Sound Id | Audio decoder with dynamic adjustment of signal modification |
US20080106370A1 (en) * | 2006-11-02 | 2008-05-08 | Viking Access Systems, Llc | System and method for speech-recognition facilitated communication to monitor and control access to premises |
US8229106B2 (en) * | 2007-01-22 | 2012-07-24 | D.S.P. Group, Ltd. | Apparatus and methods for enhancement of speech |
KR100930584B1 (ko) * | 2007-09-19 | 2009-12-09 | 한국전자통신연구원 | 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 |
JP2009109805A (ja) * | 2007-10-31 | 2009-05-21 | Toshiba Corp | 音声処理装置及びその方法 |
GB0815587D0 (en) * | 2008-08-27 | 2008-10-01 | Applied Neural Technologies Ltd | Computer/network security application |
US8537978B2 (en) * | 2008-10-06 | 2013-09-17 | International Business Machines Corporation | Method and system for using conversational biometrics and speaker identification/verification to filter voice streams |
JP5115509B2 (ja) * | 2009-03-26 | 2013-01-09 | ブラザー工業株式会社 | コンテンツ配信システム、ノード装置、離脱処理遅延方法及び離脱処理遅延制御プログラム |
US9031834B2 (en) * | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
JP5085700B2 (ja) * | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US8914287B2 (en) * | 2010-12-31 | 2014-12-16 | Echostar Technologies L.L.C. | Remote control audio link |
US20120284026A1 (en) * | 2011-05-06 | 2012-11-08 | Nexidia Inc. | Speaker verification system |
US9031842B2 (en) * | 2011-07-28 | 2015-05-12 | Blackberry Limited | Methods and devices for facilitating communications |
US20150366504A1 (en) * | 2014-06-20 | 2015-12-24 | Medibotics Llc | Electromyographic Clothing |
US20140214676A1 (en) * | 2013-01-29 | 2014-07-31 | Dror Bukai | Automatic Learning Fraud Prevention (LFP) System |
US10203762B2 (en) * | 2014-03-11 | 2019-02-12 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
US10255903B2 (en) * | 2014-05-28 | 2019-04-09 | Interactive Intelligence Group, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
US10225365B1 (en) * | 2014-12-19 | 2019-03-05 | Amazon Technologies, Inc. | Machine learning based content delivery |
US10366687B2 (en) * | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
-
2016
- 2016-03-14 GB GB1604334.1A patent/GB2548356B/en not_active Expired - Fee Related
-
2017
- 2017-02-21 JP JP2017029713A patent/JP6330069B2/ja not_active Expired - Fee Related
- 2017-02-24 US US15/441,547 patent/US10446133B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
GB2548356B (en) | 2020-01-15 |
GB201604334D0 (en) | 2016-04-27 |
JP2017167526A (ja) | 2017-09-21 |
US10446133B2 (en) | 2019-10-15 |
US20170263239A1 (en) | 2017-09-14 |
GB2548356A (en) | 2017-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11990118B2 (en) | Text-to-speech (TTS) processing | |
JP4302788B2 (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
EP2179414A1 (en) | Synthesis by generation and concatenation of multi-form segments | |
JP2008545995A (ja) | ハイブリッド音声合成装置、方法および用途 | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
WO2011151956A1 (ja) | 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム | |
WO2022046526A1 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP5574344B2 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
Mullah | A comparative study of different text-to-speech synthesis techniques | |
Narendra et al. | Time-domain deterministic plus noise model based hybrid source modeling for statistical parametric speech synthesis | |
Chunwijitra et al. | A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis | |
Sharma et al. | Polyglot speech synthesis: a review | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
EP1589524B1 (en) | Method and device for speech synthesis | |
EP1640968A1 (en) | Method and device for speech synthesis | |
JP2002268672A (ja) | 音声データベース用文セットの選択方法 | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language | |
Khaw et al. | A fast adaptation technique for building dialectal malay speech synthesis acoustic model | |
Kuczmarski | Overview of HMM-based Speech Synthesis Methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180123 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6330069 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |