JP5398909B2 - テキスト音声合成方法及びシステム - Google Patents
テキスト音声合成方法及びシステム Download PDFInfo
- Publication number
- JP5398909B2 JP5398909B2 JP2012514523A JP2012514523A JP5398909B2 JP 5398909 B2 JP5398909 B2 JP 5398909B2 JP 2012514523 A JP2012514523 A JP 2012514523A JP 2012514523 A JP2012514523 A JP 2012514523A JP 5398909 B2 JP5398909 B2 JP 5398909B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- parameters
- speaker
- dependent
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Description
上記を使用すると、補助関数は、次のように表現することができる。
λi (l)=1 − 言語lのためのクラスターiのためのモデルセット
λi (l)=0 − それ以外
{μn}n及びそれらの決定木を初期化することは、言語依存モデルセットを使用することによって実行される。好ましい実施形態において、{Σk}k及びそれらの決定木を初期化するために、言語非依存モデルセットのうちの一つのセットが使用される。
以下、本特許出願の当初の特許請求の範囲に記載された各請求項1−20に対応する発明を付記する。
[1]複数の言語で使用されるテキスト音声合成方法において、前記方法は、選択された言語のテキストを入力することと、入力された前記テキストを音響単位のシーケンスに分割することと、音響単位を音声ベクトルに関連付ける確率分布を表す複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力することを含み、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法。
[2]前記所定のタイプのパラメータは、平均である[1]に記載のテキスト音声合成方法。
[3]前記確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントt分布又はラプラス分布から選択される[1]に記載のテキスト音声合成方法。
[4]前記音声出力のための声を選択することと、前記声のための変換パラメータを得ることと、前記変換パラメータを使用して、前記選択された言語のための前記音声ベクトル及び/又はモデル・パラメータを、前記選択された声へ変換することを更に含む[1]ないし[3]のいずれか1項に記載のテキスト音声合成方法。
[5]前記音響単位は、音素、書記素、コンテキスト依存の音素若しくは書記素、トライフォン、又は音節である[1]ないし[4]のいずれか1項に記載のテキスト音声合成方法。
[6]前記音響モデルは、隠れマルコフモデル又は隠れセミマルコフモデルである[1]ないし[5]のいずれか一つに記載のテキスト音声合成方法。
[7]テキスト音声合成システムを訓練する方法において、前記テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスに変換するために使用される音響モデルを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者独立パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記方法は、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信することと、ここで、少なくとも二つの入力は異なる言語を有する、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を得ることと、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化することと、前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含む方法。
[8]一つのパラメータ・グループは、前記言語及び話者非依存パラメータを含み、一つのパラメータ・グループは、前記言語依存パラメータを含み、一つのパラメータ・グループは、前記話者依存パラメータを含み、前記補助関数を最大化することは、繰り返す方法で、各々のパラメータ・グループに関して前記関数を最大化することを含む[7]に記載の方法。
[9]一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である[7]または[8]に記載の方法。
[10]前記所定のタイプのパラメータは、確率分布の平均である[9]に記載の方法。
[11]前記平均は、クラスター化され、言語依存加重値は、各々の言語に対する各々のクラスターに適用される[10]に記載の方法。
[12]各々のクラスターは、決定木であり、前記木により表現される決定は、言語変動、音声変動又は韻律変動に関係するものである[11]に記載の方法。
[13]前記決定木の構築は、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに話者依存パラメータに関して前記補助関数を最大化するサイクルの後に実行される[12]に記載の方法。
[14]前記話者及び言語非依存パラメータは、前記確率分布の分散を含み、前記分散は、クラスター化され、決定木は、各々のクラスターごとに形成される[7]ないし[13]のいずれか一つに記載の方法。
[15]前記話者依存パラメータは、音声ベクトルに適用される変換パラメータ及び/又は話者非依存モデル・パラメータを含む[7]ないし[14]のいずれか一つに記載の方法。
[16]多言語テキスト音声合成システムを新しい言語で動作するように適応させる方法において、前記多言語テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルと、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記方法は、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信することと、前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を得ることと、前記新しい言語のための前記言語依存パラメータの初期推定を得ることと、すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化することと、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含む方法。
[17][1]ないし[17]のいずれか一つに記載の方法を実行するようにコンピュータを制御するためのコンピュータ読み取り可能な命令を搬送する搬送媒体。
[18]複数の言語で使用されるテキスト音声合成処理システムにおいて、前記システムは、入力されたテキストを受理するように構成されるテキスト入力と、プロセッサとを含み、前記プロセッサは、入力された前記テキストを音響単位のシーケンスへ分割し、音響単位を音声ベクトルに関連付ける確率分布を表わす複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力するように構成され、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法。
[19]訓練可能なテキスト音声合成システムにおいて、前記システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換する音響モデルを動かすように構成されるプロセッサを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信し、ここで、少なくとも二つの入力は異なる言語を有する、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を取得し、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化し、前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化を繰り返すシステム。
[20]新しい言語に適用される多言語テキスト音声合成システムにおいて、前記多言語テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを実行するように構成されるプロセッサを含み、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信し、前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を取得し、前記新しい言語のための前記言語依存パラメータの初期推定を取得し、すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化し、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すように更に構成される多言語テキスト音声合成システム。
Claims (11)
- 複数の言語で使用されるテキスト音声合成方法において、
前記方法は、
選択された言語のテキストを入力することと、
入力された前記テキストを音響単位のシーケンスに分割することと、
音響単位を音声ベクトルに関連付ける確率分布を表す複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、
前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力することを含み、
前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存である加重値であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存である加重値を検索することを含むテキスト音声合成方法。 - 前記音声として出力するための声を選択することと、
前記声のための変換パラメータを得ることと、
前記変換パラメータを使用して、前記選択された言語のための前記音声ベクトル及び/又はモデル・パラメータを、前記選択された声へ変換することを更に含む請求項1に記載のテキスト音声合成方法。 - テキスト音声合成システムを訓練する方法において、前記テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスに変換するために使用される音響モデルを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、
前記方法は、
言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信することと、ここで、少なくとも二つの入力は異なる言語を有する、
前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を得ることと、
言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化することと、
前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含み、
一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である方法。 - 前記所定のタイプのパラメータは、確率分布の平均である請求項3に記載の方法。
- 前記平均は、クラスター化され、言語依存加重値は、各々の言語に対する各々のクラスターに適用される請求項4に記載の方法。
- 各々のクラスターは、決定木であり、前記木により表現される決定は、言語変動、音声変動又は韻律変動に関係するものである請求項5に記載の方法。
- 多言語テキスト音声合成システムを新しい言語で動作するように適応させる方法において、
前記多言語テキスト音声合成システムは、
音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを含み、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、
前記方法は、
言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信することと、
前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を得ることと、
前記新しい言語のための前記言語依存パラメータの初期推定を得ることと、
すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化することと、
前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含み、
一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である方法。 - 請求項1ないし7のいずれか1項の方法を実行するようにコンピュータを制御するためのプログラム。
- 複数の言語で使用されるテキスト音声合成処理システムにおいて、
前記システムは、
入力されたテキストを受理するように構成されるテキスト入力と、
プロセッサとを含み、
前記プロセッサは、
入力された前記テキストを音響単位のシーケンスへ分割し、
音響単位を音声ベクトルに関連付ける確率分布を表わす複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、
前記音声ベクトルのシーケンスを、選択された言語の音声として出力するように構成され、
前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存である加重値であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存である加重値を検索することを含むテキスト音声合成処理システム。
- 訓練可能なテキスト音声合成システムにおいて、前記システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換する音響モデルを動かすように構成されるプロセッサを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、
言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信し、ここで、少なくとも二つの入力は異なる言語を有する、
前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を取得し、
言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化し、
前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化を繰り返すように構成され、
一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値であるシステム。 - 新しい言語に適用される多言語テキスト音声合成システムにおいて、
前記多言語テキスト音声合成システムは、
音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを実行するように構成されるプロセッサを含み、
ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、
前記プロセッサは、
言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信し、
前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を取得し、
前記新しい言語のための前記言語依存パラメータの初期推定を取得し、
すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化し、
前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すように更に構成され、
一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である多言語テキスト音声合成システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/GB2009/001464 WO2010142928A1 (en) | 2009-06-10 | 2009-06-10 | A text to speech method and system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012529664A JP2012529664A (ja) | 2012-11-22 |
JP5398909B2 true JP5398909B2 (ja) | 2014-01-29 |
Family
ID=41278515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012514523A Active JP5398909B2 (ja) | 2009-06-10 | 2009-06-10 | テキスト音声合成方法及びシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US8825485B2 (ja) |
JP (1) | JP5398909B2 (ja) |
GB (1) | GB2484615B (ja) |
WO (1) | WO2010142928A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10347237B2 (en) | 2014-07-14 | 2019-07-09 | Kabushiki Kaisha Toshiba | Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method, and computer program product |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
US8478278B1 (en) | 2011-08-12 | 2013-07-02 | Amazon Technologies, Inc. | Location based call routing to subject matter specialist |
GB2501062B (en) * | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
GB2501067B (en) * | 2012-03-30 | 2014-12-03 | Toshiba Kk | A text to speech system |
JP5706368B2 (ja) * | 2012-05-17 | 2015-04-22 | 日本電信電話株式会社 | 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
GB2508411B (en) * | 2012-11-30 | 2015-10-28 | Toshiba Res Europ Ltd | Speech synthesis |
GB2508417B (en) * | 2012-11-30 | 2017-02-08 | Toshiba Res Europe Ltd | A speech processing system |
GB2510200B (en) | 2013-01-29 | 2017-05-10 | Toshiba Res Europe Ltd | A computer generated head |
JP6091938B2 (ja) * | 2013-03-07 | 2017-03-08 | 株式会社東芝 | 音声合成辞書編集装置、音声合成辞書編集方法及び音声合成辞書編集プログラム |
GB2516965B (en) | 2013-08-08 | 2018-01-31 | Toshiba Res Europe Limited | Synthetic audiovisual storyteller |
GB2517503B (en) | 2013-08-23 | 2016-12-28 | Toshiba Res Europe Ltd | A speech processing system and method |
JP7178028B2 (ja) * | 2018-01-11 | 2022-11-25 | ネオサピエンス株式会社 | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
GB201804073D0 (en) * | 2018-03-14 | 2018-04-25 | Papercup Tech Limited | A speech processing system and a method of processing a speech signal |
CN111798832A (zh) * | 2019-04-03 | 2020-10-20 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN113488020B (zh) * | 2021-07-02 | 2024-04-12 | 科大讯飞股份有限公司 | 语音合成方法和相关设备、装置、介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
US7496498B2 (en) | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
US8244534B2 (en) * | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
US8583418B2 (en) * | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
-
2009
- 2009-06-10 JP JP2012514523A patent/JP5398909B2/ja active Active
- 2009-06-10 US US13/377,706 patent/US8825485B2/en active Active
- 2009-06-10 WO PCT/GB2009/001464 patent/WO2010142928A1/en active Application Filing
- 2009-06-10 GB GB1200335.6A patent/GB2484615B/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10347237B2 (en) | 2014-07-14 | 2019-07-09 | Kabushiki Kaisha Toshiba | Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
GB2484615B (en) | 2013-05-08 |
US20120278081A1 (en) | 2012-11-01 |
US8825485B2 (en) | 2014-09-02 |
WO2010142928A1 (en) | 2010-12-16 |
GB201200335D0 (en) | 2012-02-22 |
JP2012529664A (ja) | 2012-11-22 |
GB2484615A (en) | 2012-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5398909B2 (ja) | テキスト音声合成方法及びシステム | |
JP6246777B2 (ja) | 音声合成方法、装置及びプログラム | |
JP5768093B2 (ja) | 音声処理システム | |
EP2846327B1 (en) | Acoustic model training method and system | |
JP6092293B2 (ja) | テキスト読み上げシステム | |
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
JP5242724B2 (ja) | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
US7603278B2 (en) | Segment set creating method and apparatus | |
US8301445B2 (en) | Speech recognition based on a multilingual acoustic model | |
US6006186A (en) | Method and apparatus for a parameter sharing speech recognition system | |
KR100932538B1 (ko) | 음성 합성 방법 및 장치 | |
Zen et al. | An introduction of trajectory model into HMM-based speech synthesis | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP2009237336A (ja) | 音声認識装置及び音声認識プログラム | |
JP2018146821A (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
WO2023157066A1 (ja) | 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム | |
Nakamura | STATISTICAL APPROACH TO SPEECH AND SINGING VOICE SYNTHESIS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130709 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131001 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131022 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5398909 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |