JP3664474B2 - 視覚的スピーチの言語透過的合成 - Google Patents

視覚的スピーチの言語透過的合成 Download PDF

Info

Publication number
JP3664474B2
JP3664474B2 JP2001013157A JP2001013157A JP3664474B2 JP 3664474 B2 JP3664474 B2 JP 3664474B2 JP 2001013157 A JP2001013157 A JP 2001013157A JP 2001013157 A JP2001013157 A JP 2001013157A JP 3664474 B2 JP3664474 B2 JP 3664474B2
Authority
JP
Japan
Prior art keywords
language
phoneme
vocabulary
base
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001013157A
Other languages
English (en)
Other versions
JP2001215985A (ja
Inventor
タンヴィー・アフザイ・ファルクイエ
チャパティ・ネティ
ニテンドラ・ラジプト
エル・ヴェンカタ・スブラマニアム
アシシ・ヴェルマ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001215985A publication Critical patent/JP2001215985A/ja
Application granted granted Critical
Publication of JP3664474B2 publication Critical patent/JP3664474B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Description

【0001】
【発明の属する技術分野】
本発明は一般に視覚的スピーチの合成に関し、より詳細には、異なる言語の音声認識システムおよびヴァイジーム(viseme:口形素)を使用して、任意の言語によるオーディオ駆動型の顔アニメーション・システムを実施する方法に関する。
【0002】
【従来の技術】
関連出願の相互参照
本出願の主題は、米国特許出願第09/384763号に関する。米国特許出願第09/384763号の開示を参照により本明細書に組み込む。
【0003】
ヒューマン・コンピュータ対話の分野で、オーディオ駆動型の顔アニメーションは、興味深く、かつ進化しつつある技術である。ヒューマン・コンピュータ・インタフェースでは、自然でフレンドリなインタフェースの実現が非常に重要である。マシンとの情報対話のための入力手段として、音声認識およびコンピュータ読唇が開発されてきた。また、情報をレンダリングするための自然で使いやすい手段を提供することも重要である。この点に関連して、視覚的スピーチの合成が非常に重要である。というのは、これは、非常に現実的に見える様々なアニメーテッド・コンピュータ・エージェントを実現することができるからである。さらにこれは、遠距離学習アプリケーションに使用して、ビデオの伝送を不要にすることもできる。またこれは、聴覚障害者が聴覚情報の不足を補うための有用な道具にもなり得る。
【0004】
テキストがシステムに入力されれば音声を合成する技術は存在する。これらのテキスト音声合成器は、発音されることになるテキストの音素の時間整合を作成し、次いで、対応する音へのスムーズな変換を生成して所望の文を得ることによって機能する。R. E. DonovanおよびE. M. Eideの「The IBM Trainable Speech Synthesis System」, International Conference on Speech and Language Processing, 1998を参照されたい。2モードの音声認識における最近の研究は、オーディオとそれに対応するビデオ信号とが有する依存性を活用して音声認識の正確度を向上させることができることを利用する。T. ChenおよびR. R. Raoの「Audio-Visual Integration in Multimodal Communication」, Proceedings of the IEEE, vol. 86, no. 5, May 1998, pp. 837〜852と、E. D. Petajan、B. Bischolf、D. Bodolf、およびN. M. Brookeの「An Improved Automatic Lipreading System to Enhance Speech Recognition」, Proc. OHI, 1998, pp. 19〜25を参照されたい。ビデオ空間からオーディオ空間にスコアを変換するには、口形素から音素へのマッピングが必要とされる。このようなマッピングと、テキストから音声への合成を利用して、テキストからビデオへの合成器を構築することができる。この合成すなわち顔アニメーションは、アプリケーションの希望に応じて、テキストでも音声オーディオでも駆動することができる。後者の場合、音素の時間整合は、話される語を表す本物の語のストリングを利用してオーディオから生成される。
【0005】
研究者らは、所与のオーディオ信号から視覚的スピーチを合成する様々な方式を試みてきた F. Lavagetto、Arzarello、およびM. Caranzanoの「Lipreadable Frame Automation Driven by Speech Parameters」, International Symposium on Speech, Image Processing and Neural Networks, 1994, ISSIPNNでは、次のようにオーディオ機能とビデオ機能を両方とも使用して訓練された隠れマルコフ・モデル(HMM、Hidden Markov Model)が使用されている。訓練期間中、ビタビ・アルゴリズムを使用して、所与の音声に対する最尤HMM状態シーケンスが得られる。このとき、所与のHMM状態に対し、対応するすべての画像フレームが選択され、それらの視覚パラメータの平均がそのHMM状態に割り当てられる。合成時には、ビタビ復号を使用して、入力音声が最尤HMMシーケンスに整合される。最尤HMM状態シーケンスに対応する画像パラメータが検索され、この視覚パラメータ・シーケンスが、適切な平滑化によってアニメートされる。
【0006】
最近では、口形素ベースのHMMを使用し、かつオーディオ信号から口形素の時間整合を生成する新しい方式が、米国特許出願第09/384763号に記載されている。この手法では、所与の口形素に対応するすべてのオーディオ・ベクトルが、単一のクラスにマージされる。この場合、この口形素ベースのオーディオ・データを使用して、口形素ベースのオーディオHMMが訓練される。合成時間中は、入力音声が口形素ベースのHMM状態シーケンスと整合される。この場合、これら口形素ベースのHMM状態シーケンスに対応する画像パラメータが、必要な平滑化によって動画化される。T. EzzaiおよびT. Poggioの「Miketalk: A Talking Facial Display Based on Morphing Visemes」, Proceedings of IEEE Computer Animation '98, Philadelphia, PA, June 1998, pp. 96〜102も参照されたい。
【0007】
前述のすべての手法では、合成に必要な入力音声の時間整合を生成するのに使用される音声認識システムを訓練することが必要である。さらに、これらの手法では、オーディオを提供するのに使用される言語の音声認識システムが、オーディオ信号の音素のシーケンスに対して時間整合を得ることが必要である。しかし、音声認識システムの構築は、非常に単調で時間のかかる作業である。
【0008】
【発明が解決しようとする課題】
したがって、本発明の一目的は、ただ1つの言語、例えば英語に対する音声認識システムがある場合に言語独立のオーディオ駆動型顔アニメーション用システムを実施する、新しい方式を提供することである。同じ方法を、テキスト・オーディオビジュアル音声合成に使用することもできる。
【0009】
【課題を解決するための手段】
本発明は、時間整合が生成された後はマッピングおよびアニメーションにほぼどんな言語依存性もないという認識に基づく。時間整合生成の第1ステップを音声独立にすることができれば、視覚的スピーチのトランスリンガル(translingual:言語透過的合成を達成することができる。以下に、視覚的スピーチ言語透過的な合成を実施する方法を提案する。すなわち本発明は、ある言語(ベース言語)用の音声認識システムがあれば、ビデオを、入力としての他のどんな言語(新規言語)のスピーチとも合成する方法を提供する。
【0010】
【発明の実施の形態】
本発明による言語透過的な合成を理解するために、まず、シーケンスを動画化するのに必要なステップを以下に呈示する。
【0011】
1.所与の入力オーディオまたは本物のテキストから音素の時間整合を生成する。これには、テキストの音ベース形を理解することのできる音声認識エンジンが必要とされる。
これは、入力オーディオが、認識システムの訓練に使用された言語と同じ言語である場合にうまく機能することになる。
【0012】
2.ビデオの合成に使用すべき言語が異なる言語である場合は、その異なる言語の音素のセットは、訓練された言語以外のものである可能性がある。しかし、時間整合ジェネレータシステムは、それ自体の音素のセットを使用して、最良の音境界に基づく時間整合を生成する。次いで、新規言語の音素のセットにおける効果的な時間整合を得るために、一方の言語からの音を他方の言語の音に変換することのできるマッピングが必要である。
【0013】
3.次いで、音素から口形素へのマッピングを使用して、対応する口形素の時間整合を得ることができる。この時間整合により、所望のビデオを得るために動画化されることになる口形素のシーケンスが生成される。
【0014】
4.口形素のシーケンスに対応する画像動画化して、入力オーディオ信号と整合された所望のビデオ合成出力を得る。
【0015】
本発明は、ある言語の音声認識システムを利用して、任意の言語による所与のオーディオ信号から視覚的スピーチを合成する、新しい手法を提供する。これ以後、音声認識システムを訓練する言語をベース言語と呼び、ビデオの合成に使用すべき言語を新規言語と呼ぶ。例では、新規言語にヒンディー語を、ベース言語に英語を選択した。
【0016】
新規言語の語時間整合ジェネレータに呈示される場合、時間整合ジェネレータは、
そのような語が訓練システムの音素の語彙中にないために、その語に対して時間整合を生成することができないことになる。さらに、新規言語の語音素のスペルが、ベース言語の音素のセットでは完全に表されない可能性がある。以下に、これらの問題を克服して、最終的に言語独立の時間整合生成システムを得る技法を呈示する。このシステムは、ベース言語用の訓練済み時間整合生成システムおよび口形素の画像を有することになるが、任意の言語のオーディオ入力に対してアニメーションを生成するように機能させることができる。
【0017】
語彙適応レイヤ
新規言語の語に対する時間整合を生成するために、この言語の音素の語彙が最初に作成されるが、この中で語は、新規言語の音素のセットを使用した音素のベース形で表される。認識システムはベース言語の音素のセットに対して訓練されているため、これらの語が今度はベース言語の音素のセットでベース形を表すように、語彙を修正する必要がある。このような修正は、語彙修正レイヤ(Vocabulary Modification Layer)によって可能にされる。このレイヤは、一方の言語の音素のセットから他方の言語へのマッピングを使用することによって機能する。例示のために、ヒンディー語の音素から英語の音素へのマッピングを表1に示す。
表1.ヒンディー語から英語への音素マッピング
【表1】
Figure 0003664474
【0018】
表1には、ヒンディー語の音素から英語の音素のセットへのマッピングの一例が示されている。見れば分かるように、英語の音素のすべてがこの新規言語に使用されるわけではない。また、多数の音素には、厳密な1つのマッピングが存在する。これらは、その行にアスタリスク3つ(***)を付けて示す。行にアスタリスクが2つ(**)あるのは、そのマッピングが厳密ではないが、音響上最も近いマップであることを意味する。マッピング中にアスタリスクが1つ(*)あるのは、音響上の類似性から、新規言語の音素が英語からの2つ以上の音(または音素)の繋がりに近いものとされていることを示す。
【0019】
以下の3つの場合があり得る。
【0020】
1.新規言語の語がベース言語の音素で表せる。このような語の場合、ベース形は、単純にベース言語の音素のセットを使用して書くことができる。
【0021】
2.新規言語の語がベース言語の音素のセットで表せない。この場合、この語は新規言語の音素のセットで書かれ、表1にあるようなマッピングを使用して、ベース形がベース言語に変換される。
【0022】
3.ベース言語の音素が新規言語の語にまったく現れない。このような場合、ベース言語のこの特定の音素は余分であり、「配慮しない」として残される。
【0023】
音素の時間整合によって最良の音境界を生成することが音素のセットをマッピングする目的であるため、マッピングは、類似する響きを有する音素に基づく。すなわち、新規言語の音素に関連付けることのできる、厳密に類似する音素がベース言語中にない場合は、音響上類似するベース言語の音素が選択される。ただし両方とも、異なる口形素にマッピングすることができる。
【0024】
前述の語彙修正レイヤは、新規言語オーディオのベース言語の時間整合を生成する際に役立つ。次に、どのようにベース言語の口形素の時間整合を抽出するかを述べる。
【0025】
口形素の時間整合の生成
このシステムは、ベース言語の訓練済み時間整合ジェネレータ、音素から口形素へのマッピング、および口形素セットを使用して、どんな新規言語に対しても機能しなければならないため、口形素の時間整合は、従来生成されているように音素の時間整合から単純に生成することはできない。上に示したように、語彙修正レイヤは、音響上類似する音に基づくマッピングを基礎としていた。しかし、このマッピングは、このような各音に対応する口形素を考慮していないため、口形素の時間整合を歪める可能性がある。したがって、ベース言語の音セットで新規言語の語を表す追加の語彙が作成される。これには、
表1のマッピングは使用されない。同じ行にある2つの音口形素の類似性に基づくマッピングが使用される。この追加の語彙、ベース言語の時間整合、およびベース言語の音素から口形素へのマッピングを使用して、口形素の時間整合が得られる。この口形素の時間整合を使用して、動画化されたビデオ・シーケンスが生成される。マッピングは1対1ではない。したがって、ベース言語の単一の音が新規言語の2つ以上の音を表す場合がある。しかし、語彙修正レイヤが多対1のマッピングを考慮した後に新規言語で出力するため、このことは矛盾を生じない。
【0026】
また、アプリケーションはアニメーションの目的で口形素の時間整合を使用するため、ある口形素から別の口形素へのモーフィングも行われる。したがって、表1で**および*で表された音が不正確にマッピングされたために、生成された時間整合が厳密な音境界を表さない場合があるが、これは、これらの境界中で口形素が常に遷移しているため動画化されたビデオ中では目に留まらない。したがって、どんな不正確な音境界も反映しない、スムーズで連続的なビデオが生成される。
【0027】
図面の説明
ここで図面、特に図1を参照すると、ベース言語の口形素のデータベースを有するアニメーション・システムのブロック図が示されている。最初に、ベース言語によって修正された語彙を使用して、ベース言語で音素の時間整合が生成される。新規言語のオーディオまたはテキストが音素の時間整合ジェネレータ101に入力され、この音素の時間整合ジェネレータは、音素の彙修正機構102から対応するベース言語の音素による語彙VocabP Bを受け取る。音素の時間整合ジェネレータ101の出力はAlignmentP Bであり、次いでこれは、口形素の時間整合ジェネレータ103を使用することによって、ベース言語の口形素の時間整合に変換される。この口形素の時間整合ジェネレータは、口形素の語彙修正機構104を使用して訂正を取り込むことによって形成された、ベース言語の口形素の語彙VocabV Bを使用する。この口形素の語彙修正機構は、ベース言語から新規言語への、口形素からみた類似のマッピングを使用して、VocabV Bを生成する。次いで、生成されたベース言語の口形素の時間整合AlignmentV Bを使用して、動画化されたビデオを生成するために口形素の画像がビデオ・アニメーション105中で駆動される。
【0028】
本発明の代替実施形態では、口形素のセットが新規言語用に利用可能な場合、その言語の音素から口形素へのマッピングを使用して口形素の時間整合を直接与えるように下位レイヤを修正することができる。この場合、ベース言語で生成された音素の時間整合は、2つの言語中の対応する語彙エントリを使用することによって新規言語に変換される。次いで、新規言語の音素から口形素へのマッピングが適用される。このように生成される口形素の時間整合は新規言語によるものであり、これは口形素がベース言語ではなくその言語で利用可能なために望まれたものであることに留意されたい。
【0029】
図2は、新規言語の口形素のデータベースを有するアニメーション・システムのブロック図である。図1と同様、最初に、ベース言語によって修正された語彙を使用して、ベース言語で音素の時間整合が生成される。新規言語のオーディオまたはテキストが音素の時間整合ジェネレータ201に入力され、この音素の時間整合ジェネレータ201は、音素の語彙修正機構202から対応するベース言語の音素による語彙VocabP Bを受け取る。音素の時間整合ジェネレータ201の出力はAlignmentP Bであり、次いでこれは、口形素の時間整合ジェネレータ203中で変換される。ベース言語の音素の時間整合は、ベース言語の口形素による語彙VocabV Bに加えて新規言語の口形素による語彙Vocab V N を使用して、新規言語の口形素の時間整合に変換される。次いで、新規言語の口形素の時間整合AlignmentV Nを使用して、動画化されたビデオを生成するために画像(新規言語の口形素を表す)がビデオ・アニメーション204中で駆動される。
【0030】
図3は、ベース言語の音素セットを使用した変形体で表された新規言語の語を有する語彙を作成するのに使用されるプロセスの流れ図である。このような語彙を使用して、音素の時間整合が生成される。新規な言語LangN中の各語Vocab N について、それがベース言語LangBVocab B中に存在するかどうかが決定ブロック301中で判定される。存在する場合は、機能ブロック302で、その語がとる特定のベース形が選択される。次いでその語は、機能ブロック303でベース言語の語彙中にコピーされる。一方、その語がベース言語中に存在しないと決定ブロック301で判定された場合は、それが語彙に書き込めるようになる前にベース形表現が必要となる。決定ブロック304で、語彙が2つの言語の音素の類似性に基づくべきか口形素の類似性に基づくべきかが判定される。音素の類似性が使用される場合は、機能ブロック305で、音素の類似マッピングを使用した対応する変形体がベース言語Vocab Bから選択される。一方、口形素の類似性が使用される場合は、機能ブロック306で、口形素の類似音素セットがベース言語から選択されて、新規言語の語からベース言語の語への変換が行われる。機能ブロック303で、ベース言語に近づけられたこの語の表現が書き込まれ、ベース言語語彙が形成される。このように生成されたこれらの音素の口形素の語彙は、次いで、図1および2に示したようにアニメーションに使用される。
【0031】
【発明の効果】
本発明を使用する利点は、視覚的スピーチを合成するのに使用すべき言語と同じ言語用のスピーチ認識エンジンを構築する必要がないことである。いずれか所与の言語用の音声認識システムがあれば、2層のレイヤを容易かつ迅速にカスマイズして、他のどんな言語でも合成ビデオを得ることができる。さらに、口形素の画像もまた、時間整合生成システムの構築に使用されている言語のものだけがあればよく、したがって、言語ごとに毎回新しいヴァイジーム画像を生成する必要が除去される。このシステムはまた、代替手法に示したように、新規言語がベース言語の口形素と完全に異なる口形素を有する場合にも機能する。同様に、テキスト・オーディオビジュアル音声合成の場合も、合成を行うのに使用しなければならない言語と同じ言語のテキスト音声合成器は必要ない。
【0032】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0033】
(1) 第2の言語による音声認識システムを利用して、第1の言語による所与のオーディオ信号から視覚的スピーチを言語透過的に合成する方法であって、
前記第1の言語の入力オーディオまたはテキストを受け取るステップと、
前記第2の言語の前記音声認識システムおよびそれ自体の音素のセットを使用して最良の音素境界に基づく音素の時間整合を生成し、前記第1の言語の音素のセットにおける効果的な時間整合を得るために前記第の言語からの音素を前記第の言語の音素に変換するためのマッピングを行うステップと、
音素から口形素へのマッピングを行って、対応する口形素の時間整合を得るステップであって、前記口形素の時間整合は、所望のビデオを得るために動画化されるべき口形素のシーケンスを生成する、ステップと、
口形素の前記シーケンスに対応する画像を動画化して、前記第1の言語の前記入力オーディオ信号と整合された所望のビデオ合成出力を得るステップと
を含む方法。
(2) 音素から口形素へのマッピングを行う前記ステップが、前記第2の言語の口形素のデータベースを使用して行われる、(1)に記載の方法。
(3) 音素から口形素へのマッピングを行う前記ステップが、前記第1の言語の口形素のデータベースを使用して行われる、(1)に記載の方法。
(4) 以下でベース言語と呼ばれる第2の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第1の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、そして前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係がある場合に前記ベース言語の対応する音素を選択し、前記対応関係がない場合に、前記新規言語の音素に最もよく合致する、前記ベース言語の最も近い音素を検出するステップをさらに含み、
前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
を含む方法。
(5) 以下でベース言語と呼ばれる第2の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第1の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、
(1)前記対応関係がある場合に、前記ベース言語の対応する音素を選択し、
(2)前記対応関係がない場合に、前記ベース言語の音素の類似性に基づくかどうかを判断し、
(a)該ベース言語の音素の類似性に基づく場合、前記ベース言語において音素上最も近い音素を検出し、
(b)該ベース言語の音素の類似性に基づかない場合、前記ベース言語において口形素上最も近い音素を検出するステップと、
前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
を含む方法。
(6) 音素上最も近い音素が選択される、()に記載の方法。
(7) 口形素からみて最も近い音素が選択される、()に記載の方法。
(8) 時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の音素による語彙との時間整合を生成するステップを含む、(4)又は)に記載の方法。
(9) 時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の口形素による語彙との時間整合を生成するステップをさらに含む、(8)に記載の方法。
(10) 前記オーディオ音声信号とそれに対応する前記ベース言語語彙の口形素の語彙との時間整合を使用し、ビデオ・アニメーション中で画像を駆動して、前記第1の言語の前記顔アニメーション・システムにおいて動画化されたビデオを生成するステップをさらに含む、(9)に記載の方法。
【図面の簡単な説明】
【図1】 ベース言語の口形素のデータベースを有するアニメーション・システムを示すブロック図である。
【図2】 新規言語の口形素のデータベースを有するアニメーション・システムを示すブロック図である。
【図3】 ベース言語のベース形を使用した新規言語の語を有する語彙を作成するプロセスを示す流れ図である。
【符号の説明】
101 音素の時間整合ジェネレータ
102 音素の語彙修正機構
103 口形素の時間整合ジェネレータ
104 口形素の語彙修正機構
105 ビデオ・アニメーション
201 音素の時間整合ジェネレータ
202 音素の語彙修正機構
203 口形素の時間整合ジェネレータ
204 ビデオ・アニメーション

Claims (10)

  1. 第2の言語による音声認識システムを利用して、第1の言語による所与のオーディオ信号から視覚的スピーチを言語透過的に合成する方法であって、
    前記第1の言語の入力オーディオまたはテキストを受け取るステップと、
    前記第2の言語の前記音声認識システムおよびそれ自体の音素のセットを使用して最良の音素境界に基づく音素の時間整合を生成し、前記第1の言語の音素のセットにおける効果的な時間整合を得るために前記第の言語からの音素を前記第の言語の音素に変換するためのマッピングを行うステップと、
    音素から口形素へのマッピングを行って、対応する口形素の時間整合を得るステップであって、前記口形素の時間整合は、所望のビデオを得るために動画化されるべき口形素のシーケンスを生成する、ステップと、
    口形素の前記シーケンスに対応する画像を動画化して、前記第1の言語の前記入力オーディオ信号と整合された所望のビデオ合成出力を得るステップと
    を含む方法。
  2. 音素から口形素へのマッピングを行う前記ステップが、前記第2の言語の口形素のデータベースを使用して行われる、請求項1に記載の方法。
  3. 音素から口形素へのマッピングを行う前記ステップが、前記第1の言語の口形素のデータベースを使用して行われる、請求項1に記載の方法。
  4. 以下でベース言語と呼ばれる第2の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第1の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
    前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、そして前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係がある場合に前記ベース言語の対応する音素を選択し、前記対応関係がない場合に、前記新規言語の音素に最もよく合致する、前記ベース言語の最も近い音素を検出するステップをさらに含み、
    前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
    前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
    を含む方法。
  5. 以下でベース言語と呼ばれる第2の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第1の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
    前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、
    (1)前記対応関係がある場合に、前記ベース言語の対応する音素を選択し、
    (2)前記対応関係がない場合に、前記ベース言語の音素の類似性に基づくかどうかを判断し、
    (a)該ベース言語の音素の類似性に基づく場合、前記ベース言語において音素上最も近い音素を検出し、
    (b)該ベース言語の音素の類似性に基づかない場合、前記ベース言語において口形素上最も近い音素を検出するステップと、
    前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
    前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
    を含む方法。
  6. 音素上最も近い音素が選択される、請求項に記載の方法。
  7. 口形素からみて最も近い音素が選択される、請求項に記載の方法。
  8. 時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の音素による語彙との時間整合を生成するステップを含む、請求項4又は5に記載の方法。
  9. 時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の口形素による語彙との時間整合を生成するステップをさらに含む、請求項8に記載の方法。
  10. 前記オーディオ音声信号とそれに対応する前記ベース言語語彙の口形素の語彙との時間整合を使用し、ビデオ・アニメーション中で画像を駆動して、前記第1の言語の前記顔アニメーション・システムにおいて動画化されたビデオを生成するステップをさらに含む、請求項9に記載の方法。
JP2001013157A 2000-01-31 2001-01-22 視覚的スピーチの言語透過的合成 Expired - Fee Related JP3664474B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/494,582 US6813607B1 (en) 2000-01-31 2000-01-31 Translingual visual speech synthesis
US09/494582 2000-01-31

Publications (2)

Publication Number Publication Date
JP2001215985A JP2001215985A (ja) 2001-08-10
JP3664474B2 true JP3664474B2 (ja) 2005-06-29

Family

ID=23965062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001013157A Expired - Fee Related JP3664474B2 (ja) 2000-01-31 2001-01-22 視覚的スピーチの言語透過的合成

Country Status (2)

Country Link
US (1) US6813607B1 (ja)
JP (1) JP3664474B2 (ja)

Families Citing this family (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10127558A1 (de) * 2001-06-06 2002-12-12 Philips Corp Intellectual Pty Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit Überprüfung der Benutzungsberechtigung von Sprach-, Gestik-, Mimik- und/oder Verhaltensprofilen zur Synthese
US7177794B2 (en) * 2002-04-12 2007-02-13 Babu V Mani System and method for writing Indian languages using English alphabet
US7257538B2 (en) * 2002-10-07 2007-08-14 Intel Corporation Generating animation from visual and audio input
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US7168953B1 (en) * 2003-01-27 2007-01-30 Massachusetts Institute Of Technology Trainable videorealistic speech animation
US7596499B2 (en) * 2004-02-02 2009-09-29 Panasonic Corporation Multilingual text-to-speech system with limited resources
US20060009978A1 (en) * 2004-07-02 2006-01-12 The Regents Of The University Of Colorado Methods and systems for synthesis of accurate visible speech via transformation of motion capture data
JP4553667B2 (ja) * 2004-09-10 2010-09-29 日本信号株式会社 発話識別方法及びこれを用いたパスワード照合装置
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100082327A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for mapping phonemes for text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US20100198577A1 (en) * 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8751228B2 (en) 2010-11-04 2014-06-10 Microsoft Corporation Minimum converted trajectory error (MCTE) audio-to-video engine
WO2012088403A2 (en) 2010-12-22 2012-06-28 Seyyer, Inc. Video transmission and sharing over ultra-low bitrate wireless communication channel
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN103650002B (zh) * 2011-05-06 2018-02-23 西尔股份有限公司 基于文本的视频生成
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
KR101378811B1 (ko) * 2012-09-18 2014-03-28 김상철 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9940932B2 (en) * 2016-03-02 2018-04-10 Wipro Limited System and method for speech-to-text conversion
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
TWI603259B (zh) * 2016-05-27 2017-10-21 華碩電腦股份有限公司 動畫顯示系統及嘴型動畫顯示方法
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10910001B2 (en) * 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
EP3739477A4 (en) * 2018-01-11 2021-10-27 Neosapience, Inc. PROCESS AND SYSTEM FOR SPEECH TRANSLATION USING A MULTILINGUAL TEXT-SPEECH SYNTHESIS MODEL
US10699705B2 (en) * 2018-06-22 2020-06-30 Adobe Inc. Using machine-learning models to determine movements of a mouth corresponding to live speech
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE674315C (de) * 1937-06-24 1939-04-12 Bauer & Schaurte Passsitzbolzen fuer Sicherheitsverschraubungen
JP3083630B2 (ja) 1992-03-26 2000-09-04 株式会社新興製作所 自動せり処理システム
US6122616A (en) * 1993-01-21 2000-09-19 Apple Computer, Inc. Method and apparatus for diphone aliasing
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
US5995119A (en) * 1997-06-06 1999-11-30 At&T Corp. Method for generating photo-realistic animated characters
US6317716B1 (en) * 1997-09-19 2001-11-13 Massachusetts Institute Of Technology Automatic cueing of speech
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
EP0982684A4 (en) 1998-03-11 2001-05-09 Mitsubishi Electric Corp MOTION IMAGE GENERATION DEVICE AND LEARNING DEVICE VIA IMAGE CONTROL NETWORK
JP4236815B2 (ja) * 1998-03-11 2009-03-11 マイクロソフト コーポレーション 顔合成装置および顔合成方法
US6250928B1 (en) * 1998-06-22 2001-06-26 Massachusetts Institute Of Technology Talking facial display method and apparatus
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation

Also Published As

Publication number Publication date
JP2001215985A (ja) 2001-08-10
US6813607B1 (en) 2004-11-02

Similar Documents

Publication Publication Date Title
JP3664474B2 (ja) 視覚的スピーチの言語透過的合成
US6735566B1 (en) Generating realistic facial animation from speech
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
EP4118641A1 (en) Speech recognition using unspoken text and speech synthesis
US20060290699A1 (en) System and method for audio-visual content synthesis
KR102306844B1 (ko) 비디오 번역 및 립싱크 방법 및 시스템
JP4543263B2 (ja) アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP2022518721A (ja) 発話アニメーションのリアルタイム生成
Malcangi Text-driven avatars based on artificial neural networks and fuzzy logic
CN113077537A (zh) 一种视频生成方法、存储介质及设备
Nakamura Statistical multimodal integration for audio-visual speech processing
CN116309984A (zh) 一种基于文本驱动的口型动画生成方法及系统
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
Liu et al. Real-time speech-driven animation of expressive talking faces
Minnis et al. Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis
EP0982684A1 (en) Moving picture generating device and image control network learning device
Kim et al. 3D Lip‐Synch Generation with Data‐Faithful Machine Learning
JP2002099295A (ja) 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体
D’alessandro et al. Reactive statistical mapping: Towards the sketching of performative control with data
Campr et al. Automatic fingersign to speech translator
Pan et al. VOCAL: Vowel and Consonant Layering for Expressive Animator-Centric Singing Animation
Barve et al. Synchronized Speech and Video Synthesis
Faruquie et al. Translingual visual speech synthesis
Chen et al. Text to avatar in multimodal human computer interface
Edge et al. Model-based synthesis of visual speech movements from 3D video

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20010122

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20020624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20030618

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20030916

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20030919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20031205

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20031205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20031216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20031205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20031216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040422

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050317

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20050317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050328

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090408

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100408

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100408

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100408

Year of fee payment: 5

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100408

Year of fee payment: 5

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110408

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120408

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120408

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees