JP2022526668A - オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム - Google Patents
オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2022526668A JP2022526668A JP2021560105A JP2021560105A JP2022526668A JP 2022526668 A JP2022526668 A JP 2022526668A JP 2021560105 A JP2021560105 A JP 2021560105A JP 2021560105 A JP2021560105 A JP 2021560105A JP 2022526668 A JP2022526668 A JP 2022526668A
- Authority
- JP
- Japan
- Prior art keywords
- input
- text
- spectra
- audio waveform
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000004590 computer program Methods 0.000 title claims 2
- 230000015572 biosynthetic process Effects 0.000 title description 7
- 238000003786 synthesis reaction Methods 0.000 title description 7
- 230000002123 temporal effect Effects 0.000 claims abstract description 34
- 238000001228 spectrum Methods 0.000 claims description 87
- 238000012549 training Methods 0.000 claims description 24
- 230000002996 emotional effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 description 22
- 230000007246 mechanism Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013477 bayesian statistics method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
- G10L2013/105—Duration
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
本願は2019年8月23日に米国特許商標庁に出願された米国特許出願第16/549,068号による優先権を主張しており、その開示内容は参照により全体的に本願に援用される。
背景
本願で説明される実施形態は入力から音声及びビデオ情報を生成する方法及び装置に関する。
2019年4月29日付で出願された米国出願第16/397,349号は参照により全体的に本願に援用される。
最近、Tacotron(タコトロン)のようなエンド・ツー・エンドの音声合成システムは、合成された音声の自然さとプロソディ(prosody)の観点から素晴らしいテキスト・ツー・スピーチ(TTS)の結果を示している。しかしながら、このようなシステムは、音声を合成する際に入力テキスト中の幾つかの言葉がスキップされたり又は繰り返されたりする点で重大な欠点を有する。この問題は、制御不能なアテンション・メカニズムが音声の生成に使用されるエンド・ツー・エンドの性質に起因する。
本願で説明される実施形態は、音声と話している顔のビデオ情報の両方を、一部の実施形態では同時に、モデル化及び生成する方法及び装置に関する。これらの実施形態は、新しいモデル、即ちデュレーション・インフォームド・アテンション・ネットワーク(Duration Informed Attention Network,DurIAN)に基づいており、これは本願で説明されるが、上述した米国出願第16/397,349号でも説明されており、同出願は本開示に全体的に組み込まれている。
幾つかの可能な実装によれば、方法は:テキスト構成要素のシーケンスを含むテキスト入力を、デバイスにより受信するステップ;テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用してデバイスにより決定するステップ;テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットをデバイスにより生成するステップ;スペクトルの第1セットとテキスト構成要素のシーケンスの個々のテンポラル継続時間とに基づいて、スペクトルの第2セットをデバイスにより生成するステップ;スペクトルの第2セットに基づいて、スペクトログラム・フレームをデバイスにより生成するステップ;スペクトログラム・フレームに基づいて、オーディオ波形をデバイスにより生成するステップ;オーディオ波形に対応するビデオ情報を、デバイスにより生成するステップ;及びビデオ情報に基づいて、オーディオ波形及び対応するビデオをデバイスの出力として、デバイスにより提供するステップを含むことが可能である。
対応する入力オーディオ波形を含む入力ビデオを、入力として受信するステップ;入力オーディオ波形に対応する入力ビデオ情報を、デバイスにより生成するステップ;入力オーディオ波形に基づいて、入力スペクトログラム・フレームを、デバイスにより生成するステップ;入力スペクトログラム・フレームに基づいて、スペクトルの第1入力セットをデバイスにより生成するステップ;スペクトルの第1入力セットに基づいて、スペクトルの第2入力セットをデバイスにより生成するステップ;及びテキスト入力を、継続時間モデルを利用してデバイスにより決定するステップにより取得されてもよい。
(付記1)
テキスト構成要素のシーケンスを含むテキスト入力を、デバイスにより受信するステップ;
前記テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用して前記デバイスにより決定するステップ;
前記テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを前記デバイスにより生成するステップ;
前記スペクトルの第1セットと前記テキスト構成要素のシーケンスの前記個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを前記デバイスにより生成するステップ;
前記スペクトルの第2セットに基づいて、スペクトログラム・フレームを前記デバイスにより生成するステップ;
前記スペクトログラム・フレームに基づいて、オーディオ波形を前記デバイスにより生成するステップ;
前記オーディオ波形に対応するビデオ情報を、前記デバイスにより生成するステップ;及び
前記ビデオ情報に基づいて、前記オーディオ波形及び対応するビデオを前記デバイスの出力として、前記デバイスにより提供するステップ;
を含む方法。
(付記2)
前記継続時間モデルを訓練するステップ;
を更に含む付記1に記載の方法。
(付記3)
前記テキスト入力は:
対応する入力オーディオ波形を含む入力ビデオを、入力として受信するステップ;
前記入力オーディオ波形に対応する入力ビデオ情報を、前記デバイスにより生成するステップ;
前記入力オーディオ波形に基づいて、入力スペクトログラム・フレームを前記デバイスにより生成するステップ;
前記入力スペクトログラム・フレームに基づいて、スペクトルの第1入力セットを前記デバイスにより生成するステップ;
前記スペクトルの第1入力セットに基づいて、スペクトルの第2入力セットを前記デバイスにより生成するステップ;及び
前記テキスト入力を、前記継続時間モデルを利用して前記デバイスにより決定するステップ;
によって取得される、付記1に記載の方法。
(付記4)
前記テキスト構成要素は音素又は文字である、付記1に記載の方法。
(付記5)
前記テキスト入力に関連付けられる感情状態に対応する情報を、前記デバイスにより受信するステップ;
を更に含み、前記出力として提供される前記オーディオ波形及び対応するビデオは、前記感情状態に対応する前記情報に基づいている、付記1に記載の方法。
(付記6)
前記ビデオ情報に基づいて、前記オーディオ波形及び前記対応するビデオを前記デバイスの出力として、前記デバイスにより提供する前記ステップは、同時に実行される、付記1に記載の方法。
(付記7)
前記継続時間モデルを訓練する前記ステップは、マルチ・タスク・トレーニングを含む、付記2に記載の方法。
(付記8)
出力の前記オーディオ波形及び出力の前記対応するビデオは、仮想的な人物に適用される、付記1に記載の方法。
(付記9)
前記スペクトルの第2セットは、メル周波数ケプストラム・スペクトルを含む、付記1に記載の方法。
(付記10)
前記継続時間モデルを訓練する前記ステップは、予測フレームと訓練テキスト構成要素のセットを利用するステップを含む、付記2に記載の方法。
(付記11)
デバイスであって:
プログラム・コードを記憶するように構成された少なくとも1つのメモリ;及び
前記プログラム・コードを読み込み、前記プログラム・コードにより指示されるように動作するように構成された少なくとも1つのプロセッサ;
を含み、前記プログラム・コードは:
テキスト構成要素のシーケンスを含むテキスト入力を受信することを、前記少なくとも1つのプロセッサに行わせるように構成された受信コード;
前記テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用して決定することを、前記少なくとも1つのプロセッサに行わせるように構成された決定コード;
前記テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを生成すること;前記スペクトルの第1セットと前記テキスト構成要素のシーケンスの前記個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを生成すること;前記スペクトルの第2セットに基づいて、スペクトログラム・フレームを生成すること;前記スペクトログラム・フレームに基づいて、オーディオ波形を生成すること;及び前記オーディオ波形に対応するビデオ情報を生成することを、前記少なくとも1つのプロセッサに行わせるように構成された生成コード;及び
前記オーディオ波形及び対応するビデオを出力として提供することを、前記少なくとも1つのプロセッサに行わせるように構成された提供コード;
を含む、デバイス。
(付記12)
前記プログラム・コードは、前記継続時間モデルを訓練するように構成された訓練コードを更に含む、付記11に記載のデバイス。
(付記13)
前記受信コードが前記少なくとも1つのプロセッサに受信させる前記テキスト入力は:
対応する入力オーディオ波形を含む入力ビデオを入力として受信することを、前記少なくとも1つのプロセッサに行わせるように構成された入力受信コード;
前記入力オーディオ波形に対応する入力ビデオ情報を生成すること;前記入力オーディオ波形に基づいて、入力スペクトログラム・フレームを生成すること;前記入力スペクトログラム・フレームに基づいて、スペクトルの第1入力セットを生成すること;及び前記スペクトルの第1入力セットに基づいて、スペクトルの第2入力セットを生成することを前記少なくとも1つのプロセッサに行わせるように構成された入力生成コード;及び
前記スペクトルの第2入力セットに関して前記継続時間モデルを使用することによって、前記テキスト入力を提供するように構成された入力決定コード;
を更に含む前記プログラム・コードによって取得される、付記11に記載のデバイス。
(付記14)
前記テキスト構成要素は音素又は文字である、付記11に記載のデバイス。
(付記15)
前記受信コードは、前記テキスト入力に関連付けられる感情状態に対応する情報を受信することを、前記少なくとも1つのプロセッサに行わせるように更に構成されており、
前記提供コードは、前記感情状態に対応する前記情報に基づいて、前記オーディオ波形及び前記対応するビデオを前記出力として提供するように更に構成されている、付記11に記載のデバイス。
(付記16)
前記提供コードは、前記オーディオ波形及び前記対応するビデオを前記出力として同時に提供するように更に構成されている、付記11に記載のデバイス。
(付記17)
前記訓練コードは、マルチ・タスク・トレーニングを用いて前記継続時間モデルを訓練するように構成されている、付記12に記載のデバイス。
(付記18)
前記提供コードは、前記オーディオ波形及び前記対応するビデオを、仮想的な人物に適用される前記出力として提供するように更に構成されている、付記11に記載のデバイス。
(付記19)
前記訓練コードは、予測フレームと訓練テキスト構成要素のセットを利用して前記継続時間モデルを訓練するように構成されている、付記12に記載のデバイス。
(付記20)
1つ以上の命令を含む命令を記憶する非一時的なコンピュータ読み取り可能な媒体であって、前記命令は、デバイスの1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに:
テキスト構成要素のシーケンスを含むテキスト入力を受信するステップ;
前記テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用して決定するステップ;
前記テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを生成するステップ;
前記スペクトルの第1セットと前記テキスト構成要素のシーケンスの前記個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを生成するステップ;
前記スペクトルの第2セットに基づいて、スペクトログラム・フレームを生成するステップ;
前記スペクトログラム・フレームに基づいて、オーディオ波形を生成するステップ;
前記オーディオ波形に対応するビデオ情報を生成するステップ;及び
前記オーディオ波形及び対応するビデオを出力として提供するステップ;
を実行させる、記憶媒体。
Claims (12)
- テキスト構成要素のシーケンスを含むテキスト入力を、デバイスにより受信するステップ;
前記テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用して前記デバイスにより決定するステップ;
前記テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを前記デバイスにより生成するステップ;
前記スペクトルの第1セットと前記テキスト構成要素のシーケンスの前記個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを前記デバイスにより生成するステップ;
前記スペクトルの第2セットに基づいて、スペクトログラム・フレームを前記デバイスにより生成するステップ;
前記スペクトログラム・フレームに基づいて、オーディオ波形を前記デバイスにより生成するステップ;
前記オーディオ波形に対応するビデオ情報を、前記デバイスにより生成するステップ;及び
前記ビデオ情報に基づいて、前記オーディオ波形及び対応するビデオを前記デバイスの出力として、前記デバイスにより提供するステップ;
を含む方法。 - 前記継続時間モデルを訓練するステップ;
を更に含む請求項1に記載の方法。 - 前記テキスト入力は:
対応する入力オーディオ波形を含む入力ビデオを、入力として受信するステップ;
前記入力オーディオ波形に対応する入力ビデオ情報を、前記デバイスにより生成するステップ;
前記入力オーディオ波形に基づいて、入力スペクトログラム・フレームを前記デバイスにより生成するステップ;
前記入力スペクトログラム・フレームに基づいて、スペクトルの第1入力セットを前記デバイスにより生成するステップ;
前記スペクトルの第1入力セットに基づいて、スペクトルの第2入力セットを前記デバイスにより生成するステップ;及び
前記テキスト入力を、前記継続時間モデルを利用して前記デバイスにより決定するステップ;
によって取得される、請求項1又は2に記載の方法。 - 前記テキスト構成要素は音素又は文字である、請求項1-3のうちの何れか1項に記載の方法。
- 前記テキスト入力に関連付けられる感情状態に対応する情報を、前記デバイスにより受信するステップ;
を更に含み、前記出力として提供される前記オーディオ波形及び対応するビデオは、前記感情状態に対応する前記情報に基づいている、請求項1-4のうちの何れか1項に記載の方法。 - 前記ビデオ情報に基づいて、前記オーディオ波形及び前記対応するビデオを前記デバイスの出力として、前記デバイスにより提供する前記ステップは、同時に実行される、請求項1-5のうちの何れか1項に記載の方法。
- 前記継続時間モデルを訓練する前記ステップは、マルチ・タスク・トレーニングを含む、請求項2に記載の方法。
- 出力の前記オーディオ波形及び出力の前記対応するビデオは、仮想的な人物に適用される、請求項1-7のうちの何れか1項に記載の方法。
- 前記スペクトルの第2セットは、メル周波数ケプストラム・スペクトルを含む、請求項1に記載の方法。
- 前記継続時間モデルを訓練する前記ステップは、予測フレームと訓練テキスト構成要素のセットを利用するステップを含む、請求項2に記載の方法。
- デバイスであって:
プログラム・コードを記憶するように構成された少なくとも1つのメモリ;及び
前記プログラム・コードを読み込み、前記プログラム・コードにより指示されるように動作するように構成された少なくとも1つのプロセッサ;
を含み、前記プログラム・コードは、請求項1-10のうちの何れか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる、デバイス。 - 請求項1-10のうちの何れか1項に記載の方法を、デバイスの1つ以上のプロセッサに実行させるコンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/549,068 US11151979B2 (en) | 2019-08-23 | 2019-08-23 | Duration informed attention network (DURIAN) for audio-visual synthesis |
US16/549,068 | 2019-08-23 | ||
PCT/US2020/045142 WO2021040989A1 (en) | 2019-08-23 | 2020-08-06 | Duration informed attention network (durian) for audio-visual synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022526668A true JP2022526668A (ja) | 2022-05-25 |
JP7237196B2 JP7237196B2 (ja) | 2023-03-10 |
Family
ID=74646329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021560105A Active JP7237196B2 (ja) | 2019-08-23 | 2020-08-06 | オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム |
Country Status (5)
Country | Link |
---|---|
US (2) | US11151979B2 (ja) |
EP (1) | EP3942548A4 (ja) |
JP (1) | JP7237196B2 (ja) |
CN (1) | CN114041183A (ja) |
WO (1) | WO2021040989A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116457870A (zh) * | 2020-10-21 | 2023-07-18 | 谷歌有限责任公司 | 并行化Tacotron:非自回归且可控的TTS |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007279776A (ja) * | 2004-07-23 | 2007-10-25 | Matsushita Electric Ind Co Ltd | Cgキャラクタエージェント装置 |
US10186252B1 (en) * | 2015-08-13 | 2019-01-22 | Oben, Inc. | Text to speech synthesis using deep neural network with constant unit length spectrogram |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5586215A (en) | 1992-05-26 | 1996-12-17 | Ricoh Corporation | Neural network acoustic and visual speech recognition system |
US6208356B1 (en) * | 1997-03-24 | 2001-03-27 | British Telecommunications Public Limited Company | Image synthesis |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
US7117231B2 (en) * | 2000-12-07 | 2006-10-03 | International Business Machines Corporation | Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data |
US6633839B2 (en) | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
US7168953B1 (en) * | 2003-01-27 | 2007-01-30 | Massachusetts Institute Of Technology | Trainable videorealistic speech animation |
US7664644B1 (en) | 2006-06-09 | 2010-02-16 | At&T Intellectual Property Ii, L.P. | Multitask learning for spoken language understanding |
KR100845428B1 (ko) * | 2006-08-25 | 2008-07-10 | 한국전자통신연구원 | 휴대용 단말기의 음성 인식 시스템 |
US8340965B2 (en) * | 2009-09-02 | 2012-12-25 | Microsoft Corporation | Rich context modeling for text-to-speech engines |
JP5085700B2 (ja) * | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US20120130717A1 (en) * | 2010-11-19 | 2012-05-24 | Microsoft Corporation | Real-time Animation for an Expressive Avatar |
EP2705515A4 (en) | 2011-05-06 | 2015-04-29 | Seyyer Inc | GENERATING VIDEO BASED ON TEXT |
US20130012566A1 (en) | 2011-07-10 | 2013-01-10 | Aura Biosciences, Inc. | Virion Derived Protein Nanoparticles For Delivering Diagnostic Or Therapeutic Agents For The Treatment of Alopecia |
US9542939B1 (en) * | 2012-08-31 | 2017-01-10 | Amazon Technologies, Inc. | Duration ratio modeling for improved speech recognition |
GB2510200B (en) * | 2013-01-29 | 2017-05-10 | Toshiba Res Europe Ltd | A computer generated head |
GB2517212B (en) * | 2013-08-16 | 2018-04-25 | Toshiba Res Europe Limited | A Computer Generated Emulation of a subject |
US9305530B1 (en) * | 2014-09-30 | 2016-04-05 | Amazon Technologies, Inc. | Text synchronization with audio |
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
US10319374B2 (en) | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
US9792900B1 (en) * | 2016-04-13 | 2017-10-17 | Malaspina Labs (Barbados), Inc. | Generation of phoneme-experts for speech recognition |
CN108806656B (zh) * | 2017-04-26 | 2022-01-28 | 微软技术许可有限责任公司 | 歌曲的自动生成 |
US10872596B2 (en) * | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10347238B2 (en) * | 2017-10-27 | 2019-07-09 | Adobe Inc. | Text-based insertion and replacement in audio narration |
EP3739572A4 (en) * | 2018-01-11 | 2021-09-08 | Neosapience, Inc. | METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM |
US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
US10971170B2 (en) * | 2018-08-08 | 2021-04-06 | Google Llc | Synthesizing speech from text using neural networks |
-
2019
- 2019-08-23 US US16/549,068 patent/US11151979B2/en active Active
-
2020
- 2020-08-06 JP JP2021560105A patent/JP7237196B2/ja active Active
- 2020-08-06 EP EP20856809.7A patent/EP3942548A4/en active Pending
- 2020-08-06 WO PCT/US2020/045142 patent/WO2021040989A1/en unknown
- 2020-08-06 CN CN202080030508.XA patent/CN114041183A/zh active Pending
-
2021
- 2021-08-06 US US17/396,182 patent/US11670283B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007279776A (ja) * | 2004-07-23 | 2007-10-25 | Matsushita Electric Ind Co Ltd | Cgキャラクタエージェント装置 |
US10186252B1 (en) * | 2015-08-13 | 2019-01-22 | Oben, Inc. | Text to speech synthesis using deep neural network with constant unit length spectrogram |
Non-Patent Citations (3)
Title |
---|
LI ET AL.: "EMPHASIS: An Emotional Phoneme-based Acoustic Model for Speech Synthesis System", ARXIV:1806.09276V2, JPN6022038970, 26 June 2018 (2018-06-26), ISSN: 0004877897 * |
REN ET AL.: "FastSpeech: Fast, Robust and Controllable Text to Speech", ARXIV:1905.09263V4, JPN6022038968, 29 May 2019 (2019-05-29), ISSN: 0004877896 * |
YU ET AL.: "DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS", ARXIV:1909.01700V1, JPN6022038972, 4 September 2022 (2022-09-04), ISSN: 0004877898 * |
Also Published As
Publication number | Publication date |
---|---|
EP3942548A1 (en) | 2022-01-26 |
US20210375259A1 (en) | 2021-12-02 |
US11670283B2 (en) | 2023-06-06 |
WO2021040989A1 (en) | 2021-03-04 |
US20210056949A1 (en) | 2021-02-25 |
EP3942548A4 (en) | 2022-05-11 |
CN114041183A (zh) | 2022-02-11 |
US11151979B2 (en) | 2021-10-19 |
JP7237196B2 (ja) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468879B2 (en) | Duration informed attention network for text-to-speech analysis | |
JP7280386B2 (ja) | 多言語音声合成およびクロスランゲージボイスクローニング | |
CN110050302B (zh) | 语音合成 | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
JP6752872B2 (ja) | 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム | |
US8527276B1 (en) | Speech synthesis using deep neural networks | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
US11823656B2 (en) | Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech | |
EP3776531A1 (en) | Clockwork hierarchical variational encoder | |
JP2017032839A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
US11842728B2 (en) | Training neural networks to predict acoustic sequences using observed prosody info | |
JP2019179257A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP7237196B2 (ja) | オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム | |
KR20230088434A (ko) | 스피치 인식을 사용한 교차 언어 스피치 합성 개선 | |
JP2024019082A (ja) | システム、コンピュータ実装方法、及びコンピュータプログラム(自動音声検出を改善するためのボイスアクティビティ検出統合) | |
WO2023046016A1 (en) | Optimization of lip syncing in natural language translated video | |
CN114999440A (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
US20230386479A1 (en) | Techniques for improved zero-shot voice conversion with a conditional disentangled sequential variational auto-encoder | |
US11908454B2 (en) | Integrating text inputs for training and adapting neural network transducer ASR models | |
Shwetha | Language to language Translation using GRU method | |
CN117711375A (zh) | 语音生成方法、装置、计算机设备和存储介质 | |
CN114822492A (zh) | 语音合成方法及装置、电子设备、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7237196 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |