JP2022526668A - オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム - Google Patents

オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム Download PDF

Info

Publication number
JP2022526668A
JP2022526668A JP2021560105A JP2021560105A JP2022526668A JP 2022526668 A JP2022526668 A JP 2022526668A JP 2021560105 A JP2021560105 A JP 2021560105A JP 2021560105 A JP2021560105 A JP 2021560105A JP 2022526668 A JP2022526668 A JP 2022526668A
Authority
JP
Japan
Prior art keywords
input
text
spectra
audio waveform
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021560105A
Other languages
English (en)
Other versions
JP7237196B2 (ja
Inventor
リュ,ホン
ユィ,チョンジュ
ユィ,ドン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2022526668A publication Critical patent/JP2022526668A/ja
Application granted granted Critical
Publication of JP7237196B2 publication Critical patent/JP7237196B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

方法及び装置は、テキスト構成要素のシーケンスを含むテキスト入力を受信することを含む。テキスト構成要素の個々のテンポラル継続時間は継続時間モデルを利用して決定される。継続時間モデルに基づいて、スペクトログラム・フレームが生成される。スペクトログラム・フレームに基づいて、オーディオ波形が生成される。オーディオ波形に基づいて、ビデオ情報が生成される。オーディオ波形が、対応するビデオとともに出力として提供される。

Description

関連出願
本願は2019年8月23日に米国特許商標庁に出願された米国特許出願第16/549,068号による優先権を主張しており、その開示内容は参照により全体的に本願に援用される。
背景
技術分野
本願で説明される実施形態は入力から音声及びビデオ情報を生成する方法及び装置に関する。
関連出願
2019年4月29日付で出願された米国出願第16/397,349号は参照により全体的に本願に援用される。
関連技術の説明
最近、Tacotron(タコトロン)のようなエンド・ツー・エンドの音声合成システムは、合成された音声の自然さとプロソディ(prosody)の観点から素晴らしいテキスト・ツー・スピーチ(TTS)の結果を示している。しかしながら、このようなシステムは、音声を合成する際に入力テキスト中の幾つかの言葉がスキップされたり又は繰り返されたりする点で重大な欠点を有する。この問題は、制御不能なアテンション・メカニズムが音声の生成に使用されるエンド・ツー・エンドの性質に起因する。
特定の実施形態の効果及び利点
本願で説明される実施形態は、音声と話している顔のビデオ情報の両方を、一部の実施形態では同時に、モデル化及び生成する方法及び装置に関する。これらの実施形態は、新しいモデル、即ちデュレーション・インフォームド・アテンション・ネットワーク(Duration Informed Attention Network,DurIAN)に基づいており、これは本願で説明されるが、上述した米国出願第16/397,349号でも説明されており、同出願は本開示に全体的に組み込まれている。
従来、エンド・ツー・エンドのアテンション・ベースのモデルは、伝統的な非エンド・ツー・エンドのTTSフレームワークを上回る改善を示してきた。しかしながら、エンド・ツー・エンド・アテンション・ベースのモデルは、生の入力テキスト中の言葉を省略したり繰り返したりすることにも悩まされており、これはエンド・ツー・エンド・アテンション・フレームワークにおいて一般的に見受けられる欠陥である。
本開示の実施形態は、独立した音素継続時間のモデリング(independent phone duration modeling)を、エンド・ツー・エンドのアテンション・フレームワークに導入し、従来のエンド・ツー・エンドのアテンション・フレームワークにおける問題を首尾良く解決する。本開示の実施形態は、新たに提案されるデュレーション・インフォームド・アテンション・ネットワーク(DurIAN)のフレームワークを用いて、音声と話している顔のビデオ情報の両方を同時にモデル化する。本開示の実施形態は、従来のオーディオ・ビジュアル・モデリング方法を上回る優れたパフォーマンスを示す。本開示の実施形態はまた、例えば幸せな、悲しい、迷惑な、自然な等の様々なスタイルとともに声と顔をモデリング及び合成することもサポートしている。また、本開示の実施形態は、従来のフレームワークを上回る良好な継続時間及びシステム制御性も示す。
本開示の実施形態は、仮想的な人物、仮想的な顔などに適用することもできる。
本開示の実施形態は、DurIANモデルを使用してより良好でより同期したオーディオ・ビジュアル・モデリング及び合成方法を提供する。
本開示の実施形態は、マルチ・スタイルのオーディオ・ビジュアル・モデリング及び合成をサポートする。
本開示の実施形態は、オーディオ・ビジュアル・モデリング及び合成に関し、従来の方法よりも良好な制御性を提供する。
本開示の実施形態は、オーディオのみ又は視覚的特徴のみに適用することも可能であり、あるいはそれらをマルチ・タスク・トレーニングとしてモデル化することも可能である。
概要
幾つかの可能な実装によれば、方法は:テキスト構成要素のシーケンスを含むテキスト入力を、デバイスにより受信するステップ;テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用してデバイスにより決定するステップ;テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットをデバイスにより生成するステップ;スペクトルの第1セットとテキスト構成要素のシーケンスの個々のテンポラル継続時間とに基づいて、スペクトルの第2セットをデバイスにより生成するステップ;スペクトルの第2セットに基づいて、スペクトログラム・フレームをデバイスにより生成するステップ;スペクトログラム・フレームに基づいて、オーディオ波形をデバイスにより生成するステップ;オーディオ波形に対応するビデオ情報を、デバイスにより生成するステップ;及びビデオ情報に基づいて、オーディオ波形及び対応するビデオをデバイスの出力として、デバイスにより提供するステップを含むことが可能である。
幾つかの可能な実装によれば、方法は継続時間モデルを訓練するステップを含んでもよい。
幾つかの可能な実装によれば、方法において、テキスト入力は:
対応する入力オーディオ波形を含む入力ビデオを、入力として受信するステップ;入力オーディオ波形に対応する入力ビデオ情報を、デバイスにより生成するステップ;入力オーディオ波形に基づいて、入力スペクトログラム・フレームを、デバイスにより生成するステップ;入力スペクトログラム・フレームに基づいて、スペクトルの第1入力セットをデバイスにより生成するステップ;スペクトルの第1入力セットに基づいて、スペクトルの第2入力セットをデバイスにより生成するステップ;及びテキスト入力を、継続時間モデルを利用してデバイスにより決定するステップにより取得されてもよい。
幾つかの可能な実装によれば、テキスト構成要素は音素(phonemes)又は文字(characters)であってもよい。
幾つかの可能な実装によれば、方法は:テキスト入力に関連付けられる感情状態に対応する情報を、デバイスにより受信するステップを更に含み、出力として提供されるオーディオ波形及び対応するビデオは、感情状態に対応する前記情報に基づいていてもよい。
幾つかの可能な実装によれば、方法において、ビデオ情報に基づくことが可能なオーディオ波形及び対応するビデオは、出力として同時に提供されてもよい。
幾つかの可能な実装によれば、方法において、継続時間モデルを訓練するステップは、マルチ・タスク・トレーニングを含んでもよい。
幾つかの可能な実装によれば、方法において、出力オーディオ波形及び対応するビデオの出力は、仮想的な人物に適用されてもよい。
幾つかの可能な実装によれば、方法において、スペクトルの第2セットは、メル周波数ケプストラム・スペクトル(mel-frequency cepstrum spectra)を含んでもよい。
幾つかの可能な実装によれば、方法において、継続時間モデルを訓練するステップは、予測フレームと訓練テキスト構成要素のセットを利用するステップを含んでもよい。
幾つかの可能な実装によれば、デバイスは:プログラム・コードを記憶するように構成された少なくとも1つのメモリ;及びプログラム・コードを読み込み、プログラム・コードにより指図されるように動作するように構成された少なくとも1つのプロセッサを含み、プログラム・コードは:テキスト構成要素のシーケンスを含むテキスト入力を受信することを、少なくとも1つのプロセッサに行わせるように構成された受信コード;テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用して決定することを、少なくとも1つのプロセッサに行わせるように構成された決定コード;テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを生成すること;スペクトルの第1セットとテキスト構成要素のシーケンスの個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを生成すること;スペクトルの第2セットに基づいて、スペクトログラム・フレームを生成すること;スペクトログラム・フレームに基づいて、オーディオ波形を生成すること;及びオーディオ波形に対応するビデオ情報を生成することを、少なくとも1つのプロセッサに行わせるように構成された生成コード;及びオーディオ波形及び対応するビデオを出力として提供することを、少なくとも1つのプロセッサに行わせるように構成された提供コードを含むことが可能である。
幾つかの可能な実装によれば、プログラム・コードは、継続時間モデルを訓練するように構成された訓練コードを更に含んでもよい。
幾つかの可能な実装によれば、受信コードが少なくとも1つのプロセッサに受信させるテキスト入力は:対応する入力オーディオ波形を含む入力ビデオを入力として受信することを、少なくとも1つのプロセッサに行わせるように構成された入力受信コード;入力オーディオ波形に対応する入力ビデオ情報を生成すること;入力オーディオ波形に基づいて、入力スペクトログラム・フレームを生成すること;入力スペクトログラム・フレームに基づいて、スペクトルの第1入力セットを生成すること;及びスペクトルの第1入力セットに基づいて、スペクトルの第2入力セットを生成することを、少なくとも1つのプロセッサに行わせるように構成された入力生成コード;スペクトルの第2入力セットに関して継続時間モデルを使用することによって、テキスト入力を提供するように構成された入力決定コードを更に含むプログラム・コードによって取得されてもよい。
幾つかの可能な実装によれば、テキスト構成要素は音素又は文字であってもよい。
幾つかの可能な実装によれば、受信コードは、テキスト入力に関連付けられる感情状態に対応する情報を受信することを、少なくとも1つのプロセッサに行わせるように更に構成されてもよく、提供コードは、感情状態に対応する情報に基づいて、オーディオ波形及び対応するビデオを出力として提供するように更に構成されている。
幾つかの可能な実装によれば、提供コードは、オーディオ波形及び対応するビデオを出力として同時に提供するように更に構成されてもよい。
幾つかの可能な実装によれば、訓練コードは、マルチ・タスク・トレーニングを用いて継続時間モデルを訓練するように構成されてもよい。
幾つかの可能な実装によれば、提供コードは、オーディオ波形及び対応するビデオを、仮想的な人物に適用される出力として提供するように更に構成されてもよい。
幾つかの可能な実装によれば、訓練コードは、予測フレームと訓練テキスト構成要素のセットを利用して継続時間モデルを訓練するように構成されてもよい。
幾つかの可能な実装によれば、1つ以上の命令を含む命令を記憶する非一時的なコンピュータ読み取り可能な媒体を提供することが可能であり、命令は、デバイスの1つ以上のプロセッサにより実行されると、1つ以上のプロセッサに:テキスト構成要素のシーケンスを含むテキスト入力を受信するステップ;テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用して決定するステップ;テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを生成するステップ;スペクトルの第1セットとテキスト構成要素のシーケンスの個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを生成するステップ;スペクトルの第2セットに基づいて、スペクトログラム・フレームを生成するステップ;スペクトログラム・フレームに基づいて、オーディオ波形を生成するステップ;オーディオ波形に対応するビデオ情報を生成するステップ;及びオーディオ波形及び対応するビデオを出力として提供するステップを実行させる。
本願で説明される実施例の概要の図である。
本願で説明されるシステム及び/又は方法が実装され得る例示的な環境の図である。
図2の1つ以上のデバイスの例示的な構成要素の図である。
実施形態に従ってオーディオ波形及び対応するビデオを生成するための例示的なプロセスのフローチャートである。
実施形態による継続時間モデルの入力及び出力を含む図である。 実施形態による継続時間モデルの入力及び出力を含む図である。
TTSシステムは多様なアプリケーションを有する。しかしながら、主に採用されている商用システムは、自然な人間の発話と比較して大きなギャップを有するパラメトリック・システムに大抵は基づいている。Tacotronは、従来のパラメトリック・ベースのTTSシステムとは著しく異なるTTS合成システムであり、非常に自然な音声文を生成することができる。システム全体は、エンド・ツー・エンド方式で訓練することが可能であり、従来の複雑な言語特性抽出部分を、エンコーダ-畳み込み-バンク-ハイウェイ・ネットワーク-双方向-ゲート-リカレント・ユニット(CBHG)モジュールに置き換える。
従来のパラメトリック・システムで使用されてきた継続時間モデルは、エンド・ツー・エンドのアテンション・メカニズムに置き換えられ、入力テキスト(又は音素シーケンス)と音声信号との間のアライメントは、隠れマルコフ・モデル(HMM)ベースのアライメントではなく、アテンション・モデルから学習される。Tacotronシステムに関連する別の主要な相違は、高品質な音声を合成するためにウェーブネット(Wavenet)及びウェーブRNN(WaveRNN)のような進歩したボコーダによって直接的に使用することが可能なメル/リニア・スペクトルを直接的に予測する点にある。
Tacotronベースのシステムは、より正確で自然な音声の会話を生成することができる。しかしながら、Tacotronシステムは、入力テキストをスキップしたり及び/又は反復したりするような不安定性を含み、これは音声波形を合成する際の固有の欠点である。
本願における幾つかの実装は、Tacotronベース・システムに伴う上述した入力テキストのスキップ及び反復の問題に対処する一方、その優れた合成品質を維持する。更に、本願の幾つかの実装は、これらの不安定性の問題に対処し、合成された音声における大幅に改善された自然さを達成する。
Tacotronの不安定性は、主としてその制御不能なアテンション・メカニズムに起因しており、各入力テキストがスキップも反復もせずに順に合成できる保証はない。
本願の一部の実装は、この不安定で制御不能なアテンション・メカニズムを、継続時間ベースのアテンション・メカニズムに置き換え、入力テキストがスキップも反復もなしに順に合成されるように保証される。Tacotronベースのシステムでアテンションが必要とされる主な理由は、ソース・テキストとターゲット・スペクトログラムとの間の位置合わせ情報が欠けていることである。
典型的には、入力テキストの長さは、生成されるスペクトログラムの長さよりもかなり短い。入力テキストからの単一の文字/音素は、スペクトログラムの複数フレームを生成する可能性がある一方、この情報は、何らかのニューラル・ネットワーク・アーキテクチャで入力/出力の関係をモデリングするために必要とされる。
Tacotronベースのシステムは、主にエンド・ツー・エンドのメカニズムでこの問題に対処しており、スペクトログラムの生成は、ソース入力テキストに関して学習したアテンションを当てにしている。しかしながら、このようなアテンション・メカニズムは、そのアテンションが極めて制御不能であるので、根本的に不安定である。本願における幾つかの実装は、Tacotronシステム内のエンド・ツー・エンド・アテンション・メカニズムを、継続時間モデルで置き換え、継続時間モデルは単一の入力文字及び/又は音素がどの程度継続するのかを予測する。換言すれば、出力スペクトログラムと入力テキストとの間のアライメントは、各入力文字及び/又は音素を、所定の継続時間にわたって複製することによって達成される。筆者らのシステムから学習されるものに対する入力テキストのグランド・トゥルース継続時間は、HMMベースの強制アライメントで達成される。予想される継続時間を用いて、スペクトログラム内の各ターゲット・フレームは、入力テキスト内の1文字/音素と一致させることができる。モデル・アーキテクチャ全体は以下の図に描かれている。
図1は、本願で説明される実施形態の概観の図である。図1において参照番号110により示されるように、プラットフォーム(例えば、サーバー)は、テキスト構成要素のシーケンスを含むテキスト入力を受け取ることができる。図示されるように、テキスト入力は、「This is a cat(これは猫である)」のようなフレーズを含むことが可能である。テキスト入力は、文字「DH」、「IH」、「S」、「IH」、「Z」、「AX」、「K」、「AE」、及び「T」として示される一連のテキスト構成要素を含んでもよい。
図1において及び参照番号120により更に示されるように、プラットフォームは、継続時間モデルを用いて、テキスト構成要素の個々のテンポラル継続時間を決定することができる。継続時間モデルは、入力テキスト構成要素を受け取り、テキスト構成要素のテンポラル継続時間を決定するモデルを含むことができる。一例として、「this is a cat(これは猫である)」というフレーズは、聴覚的に出力する場合に、1秒という全体的なテンポラル継続時間を含むことができる。フレーズの個々のテキスト構成要素は異なるテンポラル継続時間を含んでもよく、それらはまとまって全体的なテンポラル継続時間を形成する。
一例として、“this”という言葉は400ミリ秒のテンポラル継続時間を含むことが可能であり、“is”という言葉は200ミリ秒のテンポラル継続時間を含むことが可能であり、“a”という言葉は100ミリ秒のテンポラル継続時間を含むことが可能であり、“cat”という言葉は300ミリ秒のテンポラル継続時間を含むことが可能である。継続時間モデルは、テキスト構成要素の個々の構成要素のテンポラル継続時間を決定することが可能である。
図1において参照番号130により更に示されるように、プラットフォームは、テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを生成することができる。例えば、プラットフォームは、入力テキスト構成要素に基づいて出力スペクトルを生成するモデルにテキスト構成要素を入力することができる。図示されるように、スペクトルの第1セットは、(例えば、“1,”“2,”“3,”“4,”“5,”“6,”“7,”“8,”及び“9”のような)各テキスト構成要素の個々のスペクトルを含むことが可能である。
図1において参照番号140により更に示されるように、プラットフォームは、スペクトルの第1セットと、テキスト構成要素のシーケンスの個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを生成することができる。プラットフォームは、スペクトルの個々のテンポラル継続時間に基づいてスペクトルを複製することによって、スペクトルの第2セットを生成することができる。一例として、スペクトル“1”は、スペクトルの第2セットが、スペクトル“1”に対応する3つのスペクトル構成要素を含むように複製されること等々が可能である。プラットフォームは、継続時間モデルの出力を使用して、スペクトルの第2セットを生成する仕方を決定することができる。
図1において参照番号140により更に示されるように、プラットフォームは、スペクトルの第2セットに基づいて、スペクトログラム・フレームを生成することができる。スペクトログラム・フレームは、スペクトルの第2セットの個々の成分のスペクトル構成要素によって形成することができる。図1に示されるように、スペクトログラム・フレームは、予測フレームに整合することが可能である。言い換えれば、プラットフォームによって生成されたスペクトログラム・フレームは、テキスト入力の意図されるオーディオ出力に正確に整合することが可能である。
図1に示すように、音素継続時間モードが、エンド・ツー・エンド・アテンション・フレームワークに導入され、入力言語テキストを出力音声特性に整合させることができる。また、図1に示されるように、オーディオ及びビジュアル双方の特徴が自己回帰出力として使用されてもよい。更に、スタイル及び感情のタイプもまた、オーディオ・ビジュアル・スタイル制御のために、エンコードされた言語特徴に追加することも可能である。
プラットフォームは、様々な技術を用いて、スペクトログラム・フレームに基づいてオーディオ波形を生成し、オーディオ波形を出力として提供することができる。同様に、プラットフォームは、対応するビデオを生成及び出力することもできる。
このように、本願の一部の実装は、入力テキスト構成要素の個々のテンポラル継続時間を決定する継続時間モデルを利用することによって、スピーチ・ツー・テキスト合成に関連する、より正確なオーディオ及びビデオ出力の生成を可能にする。
図2は、本願で説明されるシステム及び/又は方法が実装され得る例示的な環境200の図である。図2に示すように、環境200は、ユーザー・デバイス210、プラットフォーム220、及びネットワーク230を含む可能性がある。環境200のデバイスは、有線接続、無線接続、又は有線と無線接続の組み合わせを介して相互接続してもよい。
ユーザー・デバイス210は、プラットフォーム220に関連する情報を受信、生成、記憶、処理、及び/又は提供することが可能な1つ以上のデバイスを含む。例えば、ユーザー・デバイス210は、コンピューティング・デバイス(例えば、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、ハンドヘルド・コンピュータ、スマート・スピーカ、サーバーなど)、携帯電話(例えば、スマート・フォン、無線電話など)、ウェアラブル・デバイス(例えば、一対のスマート・グラス又はスマート・ウォッチ)、又は類似のデバイスを含んでもよい。幾つかの実装において、ユーザー・デバイス210は、プラットフォーム220から情報を受信し及び/又はプラットフォーム220へ情報を送信することができる。
プラットフォーム220は、本願の他の箇所でも説明されるように、テキスト・ツー・スピーチ合成のためのデュレーション・インフォームド・アテンション・ネットワークを使用して、オーディオ波形を生成することが可能な1つ以上のデバイスを含む。幾つかの実装では、プラットフォーム220は、クラウド・サーバー又はクラウド・サーバーのグループを含んでもよい。幾つかの実装では、プラットフォーム220は、特定のニーズに応じて、特定のソフトウェア・コンポーネントを交換できるように、モジュール式に設計されてもよい。そのように、プラットフォーム220は、異なる用途のために、簡易に及び/又は迅速に再構成することができる。
幾つかの実装では、図示されるように、プラットフォーム220はクラウド・コンピューティング環境222でホストされることが可能である。特に、本願で説明される実装は、プラットフォーム220を、クラウド・コンピューティング環境222でホストされるものとして説明するが、一部の実装では、プラットフォーム220は、クラウド・ベースではなく(即ち、クラウド・コンピューティング環境の外部で実装されてもよい)、あるいは部分的にクラウド・ベースであってもよい。
クラウド・コンピューティング環境222は、プラットフォーム220をホストする環境を含む。クラウド・コンピューティング環境222は、プラットフォーム220をホストするシステム及び/又は装置の物理的な位置及び構成に関する情報を、エンド・ユーザー(例えば、ユーザー・デバイス210)に要求しない計算、ソフトウェア、データ・アクセス、ストレージなどのサービスを提供することができる。従って、クラウド・コンピューティング環境222は、コンピューティング・リソース224のグループ(まとめて「コンピューティング・リソース224」、個々に「コンピューティング・リソース224」と言及される)を含んでもよい。
計算リソース224は、1つ以上のパーソナル・コンピュータ、ワークステーション・コンピュータ、サーバー・デバイス、又はその他の種類の計算及び/又は通信デバイスを含む。幾つかの実装では、コンピューティング・リソース224は、プラットフォーム220をホストすることができる。クラウド・リソースは、コンピューティング・リソース224において実行する計算インスタンス、コンピューティング・リソース224において提供される記憶デバイス、コンピューティング・リソース224によって提供されるデータ転送デバイスなどを含む可能性がある。幾つかの実装では、コンピューティング・リソース224は、有線接続、無線接続、又は有線と無線接続の組み合わせを介して、他のコンピューティング・リソース224と通信することができる。
図2に更に示すように、コンピューティング・リソース224は、1つ以上のアプリケーション(「APP」)224-1、1つ以上の仮想マシン(「VM」)224-2、仮想化されたストレージ(「VS」)224-3、1つ以上のハイパーバイザ(「HYP」)224-4などのクラウド・リソースのグループを含む。
アプリケーション224-1は、ユーザー・デバイス210及び/又はセンサ・デバイス220に提供するか又はそれらによりアクセスされ得る1つ以上のソフトウェア・アプリケーションを含む。アプリケーション224-1は、ユーザー・デバイス210にソフトウェア・アプリケーションをインストールして実行する必要性をなくすことができる。例えば、アプリケーション224-1は、プラットフォーム220に関連するソフトウェア、及び/又はクラウド・コンピューティング環境222を介して提供されることが可能な他の任意のソフトウェアを含んでもよい。幾つかの実装では、1つのアプリケーション224-1は、1つ以上の他のアプリケーション224-1へ/それらから、仮想マシン224-2を介して情報を送信/受信することができる。
仮想マシン224-2は、物理マシンのようなプログラムを実行するマシン(例えば、コンピュータ)のソフトウェア実装を含む。仮想マシン224-2は、仮想マシン224-2による何らかの実際のマシンに対する用途及び対応の程度に応じて、システム仮想マシン又はプロセス仮想マシンの何れであってもよい。システム仮想マシンは、完全なオペレーティング・システム(「OS」)の実行をサポートする完全なシステム・プラットフォームを提供することができる。プロセス仮想マシンは、単一のプログラムを実行し、単一のプロセスをサポートすることができる。幾つかの実装では、仮想マシン224-2は、ユーザー(例えば、ユーザー・デバイス210)に代わって実行することが可能であり、データ管理、同期化、又は長時間データ転送のようなクラウド・コンピューティング環境222のインフラストラクチャを管理することが可能である。
仮想化記憶装置224-3は、ストレージ・システム又はコンピューティング・リソース224のデバイス内で仮想化技術を使用する1つ以上のストレージ・システム及び/又は1つ以上のデバイスを含む。幾つかの実装では、ストレージ・システムの状況において、仮想化のタイプは、ブロック仮想化及びファイル仮想化を含んでもよい。ブロック仮想化は、物理ストレージ又はヘテロジニアス構造に関係なくストレージ・システムがアクセスされ得るように、物理ストレージからの論理ストレージの抽象化(又はセパレーション)を参照することができる。セパレーションは、ストレージ・システムの管理者に、その管理者がエンド・ユーザーのストレージを管理する仕方に関する柔軟性を持たせることができる。ファイル仮想化は、ファイル・レベルでアクセスされるデータとファイルが物理的に格納される場所との間の依存関係を排除することができる。これは、ストレージの使用、サーバーの統合、及び/又は継続的なファイル移行のパフォーマンスの最適化を可能にする可能性がある。ハイパーバイザ224-4は、複数のオペレーティング・システム(例えば、「ゲスト・オペレーティング・システム」)が、コンピューティング・リソース224のようなホスト・コンピュータ上で同時に動作することを可能にするハードウェア仮想化技術を提供することができる。ハイパーバイザ224-4は、仮想オペレーティング・プラットフォームをゲスト・オペレーティング・システムに提示することが可能であり、ゲスト・オペレーティング・システムの実行を管理することが可能である。様々なオペレーティング・システムの複数のインスタンスは、仮想化されたハードウェア・リソースを共有することができる。
ネットワーク230は、1つ以上の有線及び/又は無線ネットワークを含む。例えば、ネットワーク230は、セルラー・ネットワーク(例えば、第5世代(5G)ネットワーク、ロング・ターム・エボリューション(LTE)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA)ネットワークなど)、公衆陸上移動通信網(PLMN)、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、メトロポリタン・エリア・ネットワーク(MAN)、電話網(例えば、公衆交換電話網(PSTN))、プライベート・ネットワーク、アドホック・ネットワーク、イントラネット、インターネット、光ファイバ・ベースのネットワークなど、及び/又はこれら又は他のタイプのネットワークの組み合わせを含んでもよい。
図2に示されるデバイス及びネットワークの数や配置は一例として提供されている。実際には、図2に示すものに対して、追加のデバイス及び/又はネットワーク、より少ないデバイス及び/又はネットワーク、異なるデバイス及び/又はネットワーク、又は別の仕方で配置されたデバイス及び/又はネットワークが存在する可能性がある。更に、図2に示す2つ以上のデバイスは、単一のデバイス内で実装されてもよいし、又は図2に示す単一のデバイスは、複数の分散されたデバイスとして実装されてもよい。追加的又は代替的に、環境200のうちの一組のデバイス(例えば、1つ以上のデバイス)は、環境200のうちの別の一組のデバイスによって実行されるように説明された1つ以上の機能を実行してもよい。
図3はデバイス300の例示的なコンポーネントの図である。デバイス300は、ユーザー・デバイス210及び/又はプラットフォーム220に対応してもよい。図3に示すように、デバイス300は、バス310、プロセッサ320、メモリ330、ストレージ・コンポーネント340、入力コンポーネント350、出力コンポーネント360、及び通信インターフェース370を含む可能性がある。
バス310は、デバイス300のコンポーネント間の通信を可能にするコンポーネントを含む。プロセッサ320は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実装される。プロセッサ320は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、加速処理ユニット(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、又は別のタイプの処理コンポーネントである。幾つかの実装では、プロセッサ320は、機能を実行するようにプログラムすることが可能な1つ以上のプロセッサを含む。メモリ330は、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、及び/又は、他のタイプのダイナミック又はスタティック・ストレージ・デバイス(例えば、フラッシュ・メモリ、磁気メモリ、及び/又は、光メモリ)であって、プロセッサ320による使用のための情報及び/又は命令を記憶するものを含む。
ストレージ・コンポーネント340は、デバイス300の動作及び利用に関連する情報及び/又はソフトウェアを記憶する。例えば、ストレージ・コンポーネント340は、ハード・ディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、及び/又はソリッド・ステート・ディスク)、コンパクト・ディスク(CD)、デジタル多用途ディスク(DVD)、フロッピー・ディスク、カートリッジ、磁気テープ、及び/又は他のタイプの非一時的コンピュータ読み取り可能な媒体を、対応するドライブと共に含む可能性がある。
入力コンポーネント350は、ユーザー入力(例えば、タッチ・スクリーン・ディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び/又はマイクロホン)等を介して、デバイス300が情報を受信することを可能にするコンポーネントを含む。追加的又は代替的に、入力コンポーネント350は、情報を感知するためのセンサ(例えば、グローバル・ポジショニング・システム(GPU)コンポーネント、加速度計、ジャイロスコープ、及び/又はアクチュエータ)を含んでもよい。出力コンポーネント360は、デバイス300(例えば、ディスプレイ、スピーカ、及び/又は1つ以上の発光ダイオード(LED))から出力情報を提供するコンポーネントを含む。
通信インターフェース370は、デバイス300が有線接続、無線接続、又は有線と無線接続の組み合わせ等を介して他のデバイスと通信することを可能にするトランシーバのようなコンポーネント(例えば、トランシーバ及び/又は別個の受信機及び送信機)を含む。通信インターフェース370は、デバイス300が他のデバイスから情報を受信し、及び/又は他のデバイスへ情報を提供することを可能にすることができる。例えば、通信インターフェース370は、イーサーネット・インターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数(RF)インターフェース、ユニバーサル・シリアル・バス(USB)インターフェース、Wi-Fiインターフェース、セルラー・ネットワーク・インターフェースなどを含んでもよい。
デバイス300は、本願で説明される1つ以上のプロセスを実行することができる。デバイス300は、メモリ330及び/又はストレージ・コンポーネント340のような非一時的なコンピュータ読み取り可能な媒体によって記憶されるソフトウェア命令を実行するプロセッサ320に応答して、これらのプロセスを実行することができる。コンピュータ読み取り可能な媒体は、本願では、非一時的なメモリ・デバイスとして定義される。メモリ・デバイスは、単一の物理ストレージ・デバイス内のメモリ・スペース、又は複数の物理ストレージ・デバイスにわたって分散されたメモリ・スペースを含む。
ソフトウェア命令は、別のコンピュータ読み取り可能な媒体から、又は通信インターフェース370を介して別のデバイスから、メモリ330及び/又はストレージ・コンポーネント340に読み込むことができる。メモリ330及び/又はストレージ・コンポーネント340に記憶されているソフトウェア命令は、実行されると、本願で説明される1つ以上のプロセスを、プロセッサ320に実行させることができる。
追加的又は代替的に、本願で説明される1つ以上のプロセスを実行するために、ソフトウェア命令の代わりに又はそれと組み合わせて、ハードワイヤード回路が使用されてもよい。従って、本願で説明される実装は、ハードウェア回路とソフトウェアの何らかの特定の組み合わせに限定されない。
図3に示すコンポーネントの数と配置は一例として提供されている。実際には、デバイス300は、図3に示されるものに対して、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は異なる仕方で配置されたコンポーネントを含むことが可能である。追加的又は代替的に、デバイス300の一組のコンポーネント(例えば、1つ以上のコンポーネント)は、デバイス300の別の一組のコンポーネントによって実行されるものとして説明された1つ以上の機能を実行してもよい。
図4は、テキスト・ツー・スピーチ合成のためのデュレーション・インフォームド・アテンション・ネットワークを使用して、オーディオ波形及び対応するビデオを生成する例示的なプロセス400のフローチャートである。幾つかの実装形態において、図4の1つ以上のプロセス・ブロックは、プラットフォーム220によって実行されてもよい。幾つかの実装では、図4の1つ以上のプロセス・ブロックは、ユーザー・デバイス210のような、プラットフォーム220から分離された又はプラットフォーム220を含む、別のデバイス又は一群のデバイスによって実行されてもよい。
図4に示されるように、プロセスは、テキスト構成要素のシーケンスを含むテキスト入力を、デバイスにより受信することを含むことが可能である(ブロック410)。
例えば、プラットフォーム220は、オーディオ出力に変換されるべきテキスト入力を受け取ることができる。テキスト構成要素は、キャラクタ、音素、n-グラム、言葉、文字及び/又はそれに類するものを含む可能性がある。テキスト構成要素のシーケンスは、センテンス、フレーズ、及び/又はそれに類するものを形成することができる。
図4に更に示されるように、このプロセスは、テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用してデバイスにより決定することを含むことが可能である(ブロック420)。
継続時間モデルは、入力テキスト構成要素を受信し、入力テキスト構成要素のテンポラル継続時間を決定するモデルを含むことが可能である。プラットフォーム220は、継続時間モデルを訓練することができる。例えば、プラットフォーム220は機械学習技術を使用して、データ(例えば、履歴データのような訓練データ)を分析し、継続時間モデルを作成することができる。機械学習技術は、例えば、人工ネットワーク、ベイズ統計、学習オートマトン、隠れマルコフ・モデリング、線形分類器、二次分類器、決定木、関連ルール学習のような教師あり及び/又は教師なし技術を含むことができる。
プラットフォーム220は、既知の継続時間のスペクトログラム・フレームとテキスト構成要素のシーケンスとを整列させることによって、継続時間モデルを訓練することができる。例えば、プラットフォーム220は、HMMベースの強制アライメントを使用して、テキスト構成要素の入力テキスト・シーケンスのグランド・トゥルース継続時間を決定することができる。プラットフォーム220は、テキスト構成要素を含む既知の入力テキスト・シーケンス及び既知の継続時間の予測又はターゲット・スペクトログラム・フレームを利用することによって、継続時間モデルを訓練することができる。
プラットフォーム220は、テキスト構成要素を継続時間モデルに入力し、モデルの出力に基づいて、テキスト構成要素の個々のテンポラル継続時間を識別するか又はそれに関連付けられる情報を決定することができる。個々のテンポラル継続時間を識別するか又はそれに関連付けられる情報は、以下に説明されるように、スペクトルの第2セットを生成するために使用することができる。
図4に更に示されるように、このプロセスは、テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを生成することを含むことが可能である(ブロック430)。
例えば、プラットフォーム220は、テキスト構成要素の入力シーケンスのテキスト構成要素に対応する出力スペクトルを生成することができる。プラットフォーム220は、出力スペクトルを生成するためにCBHGモジュールを利用することができる。CBHGモジュールは、1-D畳み込みフィルタのバンク、一組のハイウェイ・ネットワーク、双方向ゲート付きリカレント・ユニット(GRU)、リカレント・ニューラル・ネットワーク(RNN)、及び/又は他の構成要素を含んでもよい。
一部の実装では、出力スペクトルはメル周波数ケプストラム(MFC)スペクトルであってもよい。出力スペクトルは、スペクトログラム・フレームを生成するために使用される任意のタイプのスペクトルを含む可能性がある。
図4に更に示されるように、このプロセスは、スペクトルの第1セットとテキスト構成要素のシーケンスの個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを生成することを含むことが可能である(ブロック440)。
例えば、プラットフォーム220は、スペクトルの第1セットと、テキスト構成要素の個々のテンポラル継続時間を識別するか又はそれに関連付けられる情報とを使用して、スペクトルの第2セットを生成することができる。
一例として、プラットフォーム220は、スペクトルに対応する前提とするテキスト構成要素の個々のテンポラル継続時間に基づいて、スペクトルの第1セットの様々なスペクトルを複製することができる。場合によっては、プラットフォーム220は、複製ファクタ、時間ファクタ、及び/又はそれに類するものに基づいてスペクトルを複製してもよい。換言すれば、継続時間モデルの出力はあるファクタを決定するために使用されてもよく、そのファクタにより、特定のスペクトルを複製し、追加のスペクトルを生成し、及び/又はそれに類することを行う。
図4に更に示されるように、このプロセスは、スペクトルの第2セットに基づいて、スペクトログラム・フレームを生成することを含むことが可能である(ブロック450)。
例えば、プラットフォーム220は、スペクトルの第2セットに基づいてスペクトログラム・フレームを生成することができる。まとめると、スペクトルの第2セットはスペクトログラム・フレームを形成する。本願の他の箇所でも言及されるように、継続時間モデルを使用して生成されるスペクトログラム・フレームは、ターゲット又は予測フレームに、より正確に類似することが可能である。このように、本願の幾つかの実装は、TTS合成の精度を改善し、生成される会話の自然さを改善し、生成される会話のプロソディを改善し、及び/又はそれに類するものを改善する。
図4に更に示されるように、このプロセスは、スペクトログラム・フレームに基づいて、オーディオ波形を生成することを含むことが可能である(ブロック460)。
例えば、プラットフォーム220は、スペクトログラム・フレームに基づいてオーディオ波形を生成し、出力にオーディオ波形を提供することができる。例として、プラットフォーム220は、オーディオ波形を出力コンポーネント(例えば、スピーカなど)に提供してもよいし、オーディオ波形を別のデバイス(例えば、ユーザー・デバイス210)へ提供してもよいし、オーディオ波形をサーバー又は別の端末へ送信してもよいし、及び/又はそれに類することを行うことができる。
図4に更に示されるように、このプロセスは、オーディオ波形に対応するビデオ情報を、デバイスにより生成することを含むことが可能である。
最終的に、図4に示されるように、このプロセスは、オーディオ波形及び対応するビデオを出力として提供することを含むことが可能である。
図4は、プロセス400の例示的なブロックを示しているが、幾つかの実装において、プロセス400は、図4に示されているものに対して、追加のブロック、より少ないブロック、異なるブロック、又は別の仕方で配置されるブロックを含んでもよい。追加的又は代替的に、プロセス400のうちの2つ以上のブロックは、並行して実行されてもよい。
前述の開示は、説明及び記述を提供しているが、包括的なものであるようには意図されておらず、また、開示される詳細な形態に実装を限定するようにも意図されていない。修正及び変形が上記の開示に関して可能であり、あるいは実装の慣行から得られる可能性がある。
本願で使用されるように、コンポーネントという用語は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせとして広く解釈されるように意図されている。
本願で説明されるシステム及び/又は方法は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせの様々な形態で実装されてもよいことは明らかであろう。これらのシステム及び/又は方法を実装するために使用される実際の特化された制御ハードウェア又はソフトウェア・コードは、実装を制限するものではない。従って、システム及び/又は方法の動作及び挙動は、特定のソフトウェア・コードを参照することなく本願において説明されており、ソフトウェア及びハードウェアは、本願の記載に基づいてシステム及び/又は方法を実施するように設計されてもよいことが理解される。
たとえ特徴の特定の組み合わせが特許請求の範囲に記載され、及び/又は明細書に開示されていたとしても、これらの組み合わせは、可能性のある実装の開示を限定するようには意図されていない。実際、これらの特徴のうちの多くは、特許請求の範囲で具体的に記載されていない、及び/又は明細書で開示されていない方法で組み合わせられる可能性がある。以下に列挙される各従属請求項は、1の請求項のみに直接的に従属する場合があるかもしれないが、可能な実装の開示は、各従属請求項を、特許請求の範囲における他の全ての請求項との組み合わせにおいて包含する。
本願で使用される何れの要素、動作、命令も、明示的に記述されていない限り、重要な又は不可欠なものとして解釈されるべきではない。また、本願で使用されるように「ある(“a” and “an”)」という語は、1つ以上の項目を含むように意図されており、「1つ以上」と可換に使用されてもよい。更に、本願で使用されるように、「セット」という用語は、1つ以上の項目(例えば、関連項目、非関連項目、関連及び非関連項目の組み合わせなど)を含むように意図されており、「1つ以上」と可換に使用されてもよい。1つの項目のみが意図される場合、要素「1つの」又は類似の言葉が使用される。また、本願で使用されるように、用語「含む」、「有する」、「有している」又は類似の用語は、オープン・エンドな用語であるように意図されている。更に、「基づいて」というフレーズは、明示的に別意に指定しない限り、「少なくとも部分的に基づいて」を意味するように意図される。
<付記>
(付記1)
テキスト構成要素のシーケンスを含むテキスト入力を、デバイスにより受信するステップ;
前記テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用して前記デバイスにより決定するステップ;
前記テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを前記デバイスにより生成するステップ;
前記スペクトルの第1セットと前記テキスト構成要素のシーケンスの前記個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを前記デバイスにより生成するステップ;
前記スペクトルの第2セットに基づいて、スペクトログラム・フレームを前記デバイスにより生成するステップ;
前記スペクトログラム・フレームに基づいて、オーディオ波形を前記デバイスにより生成するステップ;
前記オーディオ波形に対応するビデオ情報を、前記デバイスにより生成するステップ;及び
前記ビデオ情報に基づいて、前記オーディオ波形及び対応するビデオを前記デバイスの出力として、前記デバイスにより提供するステップ;
を含む方法。
(付記2)
前記継続時間モデルを訓練するステップ;
を更に含む付記1に記載の方法。
(付記3)
前記テキスト入力は:
対応する入力オーディオ波形を含む入力ビデオを、入力として受信するステップ;
前記入力オーディオ波形に対応する入力ビデオ情報を、前記デバイスにより生成するステップ;
前記入力オーディオ波形に基づいて、入力スペクトログラム・フレームを前記デバイスにより生成するステップ;
前記入力スペクトログラム・フレームに基づいて、スペクトルの第1入力セットを前記デバイスにより生成するステップ;
前記スペクトルの第1入力セットに基づいて、スペクトルの第2入力セットを前記デバイスにより生成するステップ;及び
前記テキスト入力を、前記継続時間モデルを利用して前記デバイスにより決定するステップ;
によって取得される、付記1に記載の方法。
(付記4)
前記テキスト構成要素は音素又は文字である、付記1に記載の方法。
(付記5)
前記テキスト入力に関連付けられる感情状態に対応する情報を、前記デバイスにより受信するステップ;
を更に含み、前記出力として提供される前記オーディオ波形及び対応するビデオは、前記感情状態に対応する前記情報に基づいている、付記1に記載の方法。
(付記6)
前記ビデオ情報に基づいて、前記オーディオ波形及び前記対応するビデオを前記デバイスの出力として、前記デバイスにより提供する前記ステップは、同時に実行される、付記1に記載の方法。
(付記7)
前記継続時間モデルを訓練する前記ステップは、マルチ・タスク・トレーニングを含む、付記2に記載の方法。
(付記8)
出力の前記オーディオ波形及び出力の前記対応するビデオは、仮想的な人物に適用される、付記1に記載の方法。
(付記9)
前記スペクトルの第2セットは、メル周波数ケプストラム・スペクトルを含む、付記1に記載の方法。
(付記10)
前記継続時間モデルを訓練する前記ステップは、予測フレームと訓練テキスト構成要素のセットを利用するステップを含む、付記2に記載の方法。
(付記11)
デバイスであって:
プログラム・コードを記憶するように構成された少なくとも1つのメモリ;及び
前記プログラム・コードを読み込み、前記プログラム・コードにより指示されるように動作するように構成された少なくとも1つのプロセッサ;
を含み、前記プログラム・コードは:
テキスト構成要素のシーケンスを含むテキスト入力を受信することを、前記少なくとも1つのプロセッサに行わせるように構成された受信コード;
前記テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用して決定することを、前記少なくとも1つのプロセッサに行わせるように構成された決定コード;
前記テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを生成すること;前記スペクトルの第1セットと前記テキスト構成要素のシーケンスの前記個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを生成すること;前記スペクトルの第2セットに基づいて、スペクトログラム・フレームを生成すること;前記スペクトログラム・フレームに基づいて、オーディオ波形を生成すること;及び前記オーディオ波形に対応するビデオ情報を生成することを、前記少なくとも1つのプロセッサに行わせるように構成された生成コード;及び
前記オーディオ波形及び対応するビデオを出力として提供することを、前記少なくとも1つのプロセッサに行わせるように構成された提供コード;
を含む、デバイス。
(付記12)
前記プログラム・コードは、前記継続時間モデルを訓練するように構成された訓練コードを更に含む、付記11に記載のデバイス。
(付記13)
前記受信コードが前記少なくとも1つのプロセッサに受信させる前記テキスト入力は:
対応する入力オーディオ波形を含む入力ビデオを入力として受信することを、前記少なくとも1つのプロセッサに行わせるように構成された入力受信コード;
前記入力オーディオ波形に対応する入力ビデオ情報を生成すること;前記入力オーディオ波形に基づいて、入力スペクトログラム・フレームを生成すること;前記入力スペクトログラム・フレームに基づいて、スペクトルの第1入力セットを生成すること;及び前記スペクトルの第1入力セットに基づいて、スペクトルの第2入力セットを生成することを前記少なくとも1つのプロセッサに行わせるように構成された入力生成コード;及び
前記スペクトルの第2入力セットに関して前記継続時間モデルを使用することによって、前記テキスト入力を提供するように構成された入力決定コード;
を更に含む前記プログラム・コードによって取得される、付記11に記載のデバイス。
(付記14)
前記テキスト構成要素は音素又は文字である、付記11に記載のデバイス。
(付記15)
前記受信コードは、前記テキスト入力に関連付けられる感情状態に対応する情報を受信することを、前記少なくとも1つのプロセッサに行わせるように更に構成されており、
前記提供コードは、前記感情状態に対応する前記情報に基づいて、前記オーディオ波形及び前記対応するビデオを前記出力として提供するように更に構成されている、付記11に記載のデバイス。
(付記16)
前記提供コードは、前記オーディオ波形及び前記対応するビデオを前記出力として同時に提供するように更に構成されている、付記11に記載のデバイス。
(付記17)
前記訓練コードは、マルチ・タスク・トレーニングを用いて前記継続時間モデルを訓練するように構成されている、付記12に記載のデバイス。
(付記18)
前記提供コードは、前記オーディオ波形及び前記対応するビデオを、仮想的な人物に適用される前記出力として提供するように更に構成されている、付記11に記載のデバイス。
(付記19)
前記訓練コードは、予測フレームと訓練テキスト構成要素のセットを利用して前記継続時間モデルを訓練するように構成されている、付記12に記載のデバイス。
(付記20)
1つ以上の命令を含む命令を記憶する非一時的なコンピュータ読み取り可能な媒体であって、前記命令は、デバイスの1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに:
テキスト構成要素のシーケンスを含むテキスト入力を受信するステップ;
前記テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用して決定するステップ;
前記テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを生成するステップ;
前記スペクトルの第1セットと前記テキスト構成要素のシーケンスの前記個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを生成するステップ;
前記スペクトルの第2セットに基づいて、スペクトログラム・フレームを生成するステップ;
前記スペクトログラム・フレームに基づいて、オーディオ波形を生成するステップ;
前記オーディオ波形に対応するビデオ情報を生成するステップ;及び
前記オーディオ波形及び対応するビデオを出力として提供するステップ;
を実行させる、記憶媒体。

Claims (12)

  1. テキスト構成要素のシーケンスを含むテキスト入力を、デバイスにより受信するステップ;
    前記テキスト構成要素の個々のテンポラル継続時間を、継続時間モデルを利用して前記デバイスにより決定するステップ;
    前記テキスト構成要素のシーケンスに基づいて、スペクトルの第1セットを前記デバイスにより生成するステップ;
    前記スペクトルの第1セットと前記テキスト構成要素のシーケンスの前記個々のテンポラル継続時間とに基づいて、スペクトルの第2セットを前記デバイスにより生成するステップ;
    前記スペクトルの第2セットに基づいて、スペクトログラム・フレームを前記デバイスにより生成するステップ;
    前記スペクトログラム・フレームに基づいて、オーディオ波形を前記デバイスにより生成するステップ;
    前記オーディオ波形に対応するビデオ情報を、前記デバイスにより生成するステップ;及び
    前記ビデオ情報に基づいて、前記オーディオ波形及び対応するビデオを前記デバイスの出力として、前記デバイスにより提供するステップ;
    を含む方法。
  2. 前記継続時間モデルを訓練するステップ;
    を更に含む請求項1に記載の方法。
  3. 前記テキスト入力は:
    対応する入力オーディオ波形を含む入力ビデオを、入力として受信するステップ;
    前記入力オーディオ波形に対応する入力ビデオ情報を、前記デバイスにより生成するステップ;
    前記入力オーディオ波形に基づいて、入力スペクトログラム・フレームを前記デバイスにより生成するステップ;
    前記入力スペクトログラム・フレームに基づいて、スペクトルの第1入力セットを前記デバイスにより生成するステップ;
    前記スペクトルの第1入力セットに基づいて、スペクトルの第2入力セットを前記デバイスにより生成するステップ;及び
    前記テキスト入力を、前記継続時間モデルを利用して前記デバイスにより決定するステップ;
    によって取得される、請求項1又は2に記載の方法。
  4. 前記テキスト構成要素は音素又は文字である、請求項1-3のうちの何れか1項に記載の方法。
  5. 前記テキスト入力に関連付けられる感情状態に対応する情報を、前記デバイスにより受信するステップ;
    を更に含み、前記出力として提供される前記オーディオ波形及び対応するビデオは、前記感情状態に対応する前記情報に基づいている、請求項1-4のうちの何れか1項に記載の方法。
  6. 前記ビデオ情報に基づいて、前記オーディオ波形及び前記対応するビデオを前記デバイスの出力として、前記デバイスにより提供する前記ステップは、同時に実行される、請求項1-5のうちの何れか1項に記載の方法。
  7. 前記継続時間モデルを訓練する前記ステップは、マルチ・タスク・トレーニングを含む、請求項2に記載の方法。
  8. 出力の前記オーディオ波形及び出力の前記対応するビデオは、仮想的な人物に適用される、請求項1-7のうちの何れか1項に記載の方法。
  9. 前記スペクトルの第2セットは、メル周波数ケプストラム・スペクトルを含む、請求項1に記載の方法。
  10. 前記継続時間モデルを訓練する前記ステップは、予測フレームと訓練テキスト構成要素のセットを利用するステップを含む、請求項2に記載の方法。
  11. デバイスであって:
    プログラム・コードを記憶するように構成された少なくとも1つのメモリ;及び
    前記プログラム・コードを読み込み、前記プログラム・コードにより指示されるように動作するように構成された少なくとも1つのプロセッサ;
    を含み、前記プログラム・コードは、請求項1-10のうちの何れか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる、デバイス。
  12. 請求項1-10のうちの何れか1項に記載の方法を、デバイスの1つ以上のプロセッサに実行させるコンピュータ・プログラム。
JP2021560105A 2019-08-23 2020-08-06 オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム Active JP7237196B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/549,068 US11151979B2 (en) 2019-08-23 2019-08-23 Duration informed attention network (DURIAN) for audio-visual synthesis
US16/549,068 2019-08-23
PCT/US2020/045142 WO2021040989A1 (en) 2019-08-23 2020-08-06 Duration informed attention network (durian) for audio-visual synthesis

Publications (2)

Publication Number Publication Date
JP2022526668A true JP2022526668A (ja) 2022-05-25
JP7237196B2 JP7237196B2 (ja) 2023-03-10

Family

ID=74646329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021560105A Active JP7237196B2 (ja) 2019-08-23 2020-08-06 オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム

Country Status (5)

Country Link
US (2) US11151979B2 (ja)
EP (1) EP3942548A4 (ja)
JP (1) JP7237196B2 (ja)
CN (1) CN114041183A (ja)
WO (1) WO2021040989A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116457870A (zh) * 2020-10-21 2023-07-18 谷歌有限责任公司 并行化Tacotron:非自回归且可控的TTS

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007279776A (ja) * 2004-07-23 2007-10-25 Matsushita Electric Ind Co Ltd Cgキャラクタエージェント装置
US10186252B1 (en) * 2015-08-13 2019-01-22 Oben, Inc. Text to speech synthesis using deep neural network with constant unit length spectrogram

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586215A (en) 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
US7117231B2 (en) * 2000-12-07 2006-10-03 International Business Machines Corporation Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
US6633839B2 (en) 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US7168953B1 (en) * 2003-01-27 2007-01-30 Massachusetts Institute Of Technology Trainable videorealistic speech animation
US7664644B1 (en) 2006-06-09 2010-02-16 At&T Intellectual Property Ii, L.P. Multitask learning for spoken language understanding
KR100845428B1 (ko) * 2006-08-25 2008-07-10 한국전자통신연구원 휴대용 단말기의 음성 인식 시스템
US8340965B2 (en) * 2009-09-02 2012-12-25 Microsoft Corporation Rich context modeling for text-to-speech engines
JP5085700B2 (ja) * 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
EP2705515A4 (en) 2011-05-06 2015-04-29 Seyyer Inc GENERATING VIDEO BASED ON TEXT
US20130012566A1 (en) 2011-07-10 2013-01-10 Aura Biosciences, Inc. Virion Derived Protein Nanoparticles For Delivering Diagnostic Or Therapeutic Agents For The Treatment of Alopecia
US9542939B1 (en) * 2012-08-31 2017-01-10 Amazon Technologies, Inc. Duration ratio modeling for improved speech recognition
GB2510200B (en) * 2013-01-29 2017-05-10 Toshiba Res Europe Ltd A computer generated head
GB2517212B (en) * 2013-08-16 2018-04-25 Toshiba Res Europe Limited A Computer Generated Emulation of a subject
US9305530B1 (en) * 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
KR20160058470A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 음성 합성 장치 및 그 제어 방법
US10319374B2 (en) 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
US9792900B1 (en) * 2016-04-13 2017-10-17 Malaspina Labs (Barbados), Inc. Generation of phoneme-experts for speech recognition
CN108806656B (zh) * 2017-04-26 2022-01-28 微软技术许可有限责任公司 歌曲的自动生成
US10872596B2 (en) * 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US10347238B2 (en) * 2017-10-27 2019-07-09 Adobe Inc. Text-based insertion and replacement in audio narration
EP3739572A4 (en) * 2018-01-11 2021-09-08 Neosapience, Inc. METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM
US11238843B2 (en) * 2018-02-09 2022-02-01 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
US10971170B2 (en) * 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007279776A (ja) * 2004-07-23 2007-10-25 Matsushita Electric Ind Co Ltd Cgキャラクタエージェント装置
US10186252B1 (en) * 2015-08-13 2019-01-22 Oben, Inc. Text to speech synthesis using deep neural network with constant unit length spectrogram

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI ET AL.: "EMPHASIS: An Emotional Phoneme-based Acoustic Model for Speech Synthesis System", ARXIV:1806.09276V2, JPN6022038970, 26 June 2018 (2018-06-26), ISSN: 0004877897 *
REN ET AL.: "FastSpeech: Fast, Robust and Controllable Text to Speech", ARXIV:1905.09263V4, JPN6022038968, 29 May 2019 (2019-05-29), ISSN: 0004877896 *
YU ET AL.: "DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS", ARXIV:1909.01700V1, JPN6022038972, 4 September 2022 (2022-09-04), ISSN: 0004877898 *

Also Published As

Publication number Publication date
EP3942548A1 (en) 2022-01-26
US20210375259A1 (en) 2021-12-02
US11670283B2 (en) 2023-06-06
WO2021040989A1 (en) 2021-03-04
US20210056949A1 (en) 2021-02-25
EP3942548A4 (en) 2022-05-11
CN114041183A (zh) 2022-02-11
US11151979B2 (en) 2021-10-19
JP7237196B2 (ja) 2023-03-10

Similar Documents

Publication Publication Date Title
US11468879B2 (en) Duration informed attention network for text-to-speech analysis
JP7280386B2 (ja) 多言語音声合成およびクロスランゲージボイスクローニング
CN110050302B (zh) 语音合成
CN106688034B (zh) 具有情感内容的文字至语音转换
JP6752872B2 (ja) 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム
US8527276B1 (en) Speech synthesis using deep neural networks
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
US11823656B2 (en) Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech
EP3776531A1 (en) Clockwork hierarchical variational encoder
JP2017032839A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US11842728B2 (en) Training neural networks to predict acoustic sequences using observed prosody info
JP2019179257A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP7237196B2 (ja) オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム
KR20230088434A (ko) 스피치 인식을 사용한 교차 언어 스피치 합성 개선
JP2024019082A (ja) システム、コンピュータ実装方法、及びコンピュータプログラム(自動音声検出を改善するためのボイスアクティビティ検出統合)
WO2023046016A1 (en) Optimization of lip syncing in natural language translated video
CN114999440A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
US20230386479A1 (en) Techniques for improved zero-shot voice conversion with a conditional disentangled sequential variational auto-encoder
US11908454B2 (en) Integrating text inputs for training and adapting neural network transducer ASR models
Shwetha Language to language Translation using GRU method
CN117711375A (zh) 语音生成方法、装置、计算机设备和存储介质
CN114822492A (zh) 语音合成方法及装置、电子设备、计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230228

R150 Certificate of patent or registration of utility model

Ref document number: 7237196

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150