JP3664474B2 - 視覚的スピーチの言語透過的合成 - Google Patents
視覚的スピーチの言語透過的合成 Download PDFInfo
- Publication number
- JP3664474B2 JP3664474B2 JP2001013157A JP2001013157A JP3664474B2 JP 3664474 B2 JP3664474 B2 JP 3664474B2 JP 2001013157 A JP2001013157 A JP 2001013157A JP 2001013157 A JP2001013157 A JP 2001013157A JP 3664474 B2 JP3664474 B2 JP 3664474B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- phoneme
- vocabulary
- base
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Description
【発明の属する技術分野】
本発明は一般に視覚的スピーチの合成に関し、より詳細には、異なる言語の音声認識システムおよびヴァイジーム(viseme:口形素)を使用して、任意の言語によるオーディオ駆動型の顔アニメーション・システムを実施する方法に関する。
【0002】
【従来の技術】
関連出願の相互参照
本出願の主題は、米国特許出願第09/384763号に関する。米国特許出願第09/384763号の開示を参照により本明細書に組み込む。
【0003】
ヒューマン・コンピュータ対話の分野で、オーディオ駆動型の顔アニメーションは、興味深く、かつ進化しつつある技術である。ヒューマン・コンピュータ・インタフェースでは、自然でフレンドリなインタフェースの実現が非常に重要である。マシンとの情報対話のための入力手段として、音声認識およびコンピュータ読唇が開発されてきた。また、情報をレンダリングするための自然で使いやすい手段を提供することも重要である。この点に関連して、視覚的スピーチの合成が非常に重要である。というのは、これは、非常に現実的に見える様々なアニメーテッド・コンピュータ・エージェントを実現することができるからである。さらにこれは、遠距離学習アプリケーションに使用して、ビデオの伝送を不要にすることもできる。またこれは、聴覚障害者が聴覚情報の不足を補うための有用な道具にもなり得る。
【0004】
テキストがシステムに入力されれば音声を合成する技術は存在する。これらのテキスト音声合成器は、発音されることになるテキストの音素の時間整合を作成し、次いで、対応する音素へのスムーズな変換を生成して所望の文を得ることによって機能する。R. E. DonovanおよびE. M. Eideの「The IBM Trainable Speech Synthesis System」, International Conference on Speech and Language Processing, 1998を参照されたい。2モードの音声認識における最近の研究は、オーディオとそれに対応するビデオ信号とが有する依存性を活用して音声認識の正確度を向上させることができることを利用する。T. ChenおよびR. R. Raoの「Audio-Visual Integration in Multimodal Communication」, Proceedings of the IEEE, vol. 86, no. 5, May 1998, pp. 837〜852と、E. D. Petajan、B. Bischolf、D. Bodolf、およびN. M. Brookeの「An Improved Automatic Lipreading System to Enhance Speech Recognition」, Proc. OHI, 1998, pp. 19〜25を参照されたい。ビデオ空間からオーディオ空間にスコアを変換するには、口形素から音素へのマッピングが必要とされる。このようなマッピングと、テキストから音声への合成を利用して、テキストからビデオへの合成器を構築することができる。この合成すなわち顔アニメーションは、アプリケーションの希望に応じて、テキストでも音声オーディオでも駆動することができる。後者の場合、音素の時間整合は、話される語を表す本物の語のストリングを利用してオーディオから生成される。
【0005】
研究者らは、所与のオーディオ信号から視覚的スピーチを合成する様々な方式を試みてきた。 F. Lavagetto、Arzarello、およびM. Caranzanoの「Lipreadable Frame Automation Driven by Speech Parameters」, International Symposium on Speech, Image Processing and Neural Networks, 1994, ISSIPNNでは、次のようにオーディオ機能とビデオ機能を両方とも使用して訓練された隠れマルコフ・モデル(HMM、Hidden Markov Model)が使用されている。訓練期間中、ビタビ・アルゴリズムを使用して、所与の音声に対する最尤HMM状態シーケンスが得られる。このとき、所与のHMM状態に対し、対応するすべての画像フレームが選択され、それらの視覚パラメータの平均がそのHMM状態に割り当てられる。合成時には、ビタビ復号を使用して、入力音声が最尤HMMシーケンスに整合される。最尤HMM状態シーケンスに対応する画像パラメータが検索され、この視覚パラメータ・シーケンスが、適切な平滑化によってアニメートされる。
【0006】
最近では、口形素ベースのHMMを使用し、かつオーディオ信号から口形素の時間整合を生成する新しい方式が、米国特許出願第09/384763号に記載されている。この手法では、所与の口形素に対応するすべてのオーディオ・ベクトルが、単一のクラスにマージされる。この場合、この口形素ベースのオーディオ・データを使用して、口形素ベースのオーディオHMMが訓練される。合成時間中は、入力音声が口形素ベースのHMM状態シーケンスと整合される。この場合、これら口形素ベースのHMM状態シーケンスに対応する画像パラメータが、必要な平滑化によって動画化される。T. EzzaiおよびT. Poggioの「Miketalk: A Talking Facial Display Based on Morphing Visemes」, Proceedings of IEEE Computer Animation '98, Philadelphia, PA, June 1998, pp. 96〜102も参照されたい。
【0007】
前述のすべての手法では、合成に必要な入力音声の時間整合を生成するのに使用される音声認識システムを訓練することが必要である。さらに、これらの手法では、オーディオを提供するのに使用される言語の音声認識システムが、オーディオ信号の音素のシーケンスに対して時間整合を得ることが必要である。しかし、音声認識システムの構築は、非常に単調で時間のかかる作業である。
【0008】
【発明が解決しようとする課題】
したがって、本発明の一目的は、ただ1つの言語、例えば英語に対する音声認識システムがある場合に言語独立のオーディオ駆動型顔アニメーション用システムを実施する、新しい方式を提供することである。同じ方法を、テキスト・オーディオビジュアル音声合成に使用することもできる。
【0009】
【課題を解決するための手段】
本発明は、時間整合が生成された後はマッピングおよびアニメーションにほぼどんな言語依存性もないという認識に基づく。時間整合生成の第1ステップを音声独立にすることができれば、視覚的スピーチのトランスリンガル(translingual:言語透過的)に合成を達成することができる。以下に、視覚的スピーチの言語透過的な合成を実施する方法を提案する。すなわち本発明は、ある言語(ベース言語)用の音声認識システムがあれば、ビデオを、入力としての他のどんな言語(新規言語)のスピーチとも合成する方法を提供する。
【0010】
【発明の実施の形態】
本発明による言語透過的な合成を理解するために、まず、シーケンスを動画化するのに必要なステップを以下に呈示する。
【0011】
1.所与の入力オーディオまたは本物のテキストから音素の時間整合を生成する。これには、テキストの音ベース形を理解することのできる音声認識エンジンが必要とされる。
これは、入力オーディオが、認識システムの訓練に使用された言語と同じ言語である場合にうまく機能することになる。
【0012】
2.ビデオの合成に使用すべき言語が異なる言語である場合は、その異なる言語の音素のセットは、訓練された言語以外のものである可能性がある。しかし、時間整合ジェネレータシステムは、それ自体の音素のセットを使用して、最良の音素境界に基づく時間整合を生成する。次いで、新規言語の音素のセットにおける効果的な時間整合を得るために、一方の言語からの音素を他方の言語の音素に変換することのできるマッピングが必要である。
【0013】
3.次いで、音素から口形素へのマッピングを使用して、対応する口形素の時間整合を得ることができる。この時間整合により、所望のビデオを得るために動画化されることになる口形素のシーケンスが生成される。
【0014】
4.口形素のシーケンスに対応する画像を動画化して、入力オーディオ信号と整合された所望のビデオ合成出力を得る。
【0015】
本発明は、ある言語の音声認識システムを利用して、任意の言語による所与のオーディオ信号から視覚的スピーチを合成する、新しい手法を提供する。これ以後、音声認識システムを訓練する言語をベース言語と呼び、ビデオの合成に使用すべき言語を新規言語と呼ぶ。例では、新規言語にヒンディー語を、ベース言語に英語を選択した。
【0016】
新規言語の語彙が時間整合ジェネレータに呈示される場合、時間整合ジェネレータは、
そのような語彙が訓練システムの音素の語彙中にないために、その語彙に対して時間整合を生成することができないことになる。さらに、新規言語の語彙の音素のスペルが、ベース言語の音素のセットでは完全に表されない可能性がある。以下に、これらの問題を克服して、最終的に言語独立の時間整合生成システムを得る技法を呈示する。このシステムは、ベース言語用の訓練済み時間整合生成システムおよび口形素の画像を有することになるが、任意の言語のオーディオ入力に対してアニメーションを生成するように機能させることができる。
【0017】
語彙適応レイヤ
新規言語の語彙に対する時間整合を生成するために、この言語の音素の語彙が最初に作成されるが、この中で語彙は、新規言語の音素のセットを使用した音素のベース形で表される。認識システムはベース言語の音素のセットに対して訓練されているため、これらの語彙が今度はベース言語の音素のセットでベース形を表すように、語彙を修正する必要がある。このような修正は、語彙修正レイヤ(Vocabulary Modification Layer)によって可能にされる。このレイヤは、一方の言語の音素のセットから他方の言語へのマッピングを使用することによって機能する。例示のために、ヒンディー語の音素から英語の音素へのマッピングを表1に示す。
表1.ヒンディー語から英語への音素マッピング
【表1】
【0018】
表1には、ヒンディー語の音素から英語の音素のセットへのマッピングの一例が示されている。見れば分かるように、英語の音素のすべてがこの新規言語に使用されるわけではない。また、多数の音素には、厳密な1つのマッピングが存在する。これらは、その行にアスタリスク3つ(***)を付けて示す。行にアスタリスクが2つ(**)あるのは、そのマッピングが厳密ではないが、音響上最も近いマップであることを意味する。マッピング中にアスタリスクが1つ(*)あるのは、音響上の類似性から、新規言語の音素が英語からの2つ以上の音(または音素)の繋がりに近いものとされていることを示す。
【0019】
以下の3つの場合があり得る。
【0020】
1.新規言語の語彙がベース言語の音素で表せる。このような語彙の場合、ベース形は、単純にベース言語の音素のセットを使用して書くことができる。
【0021】
2.新規言語の語彙がベース言語の音素のセットで表せない。この場合、この語彙は新規言語の音素のセットで書かれ、表1にあるようなマッピングを使用して、ベース形がベース言語に変換される。
【0022】
3.ベース言語の音素が新規言語の語彙にまったく現れない。このような場合、ベース言語のこの特定の音素は余分であり、「配慮しない」として残される。
【0023】
音素の時間整合によって最良の音素境界を生成することが音素のセットをマッピングする目的であるため、マッピングは、類似する響きを有する音素に基づく。すなわち、新規言語の音素に関連付けることのできる、厳密に類似する音素がベース言語中にない場合は、音響上類似するベース言語の音素が選択される。ただし両方とも、異なる口形素にマッピングすることができる。
【0024】
前述の語彙修正レイヤは、新規言語オーディオのベース言語の時間整合を生成する際に役立つ。次に、どのようにベース言語の口形素の時間整合を抽出するかを述べる。
【0025】
口形素の時間整合の生成
このシステムは、ベース言語の訓練済み時間整合ジェネレータ、音素から口形素へのマッピング、および口形素セットを使用して、どんな新規言語に対しても機能しなければならないため、口形素の時間整合は、従来生成されているように音素の時間整合から単純に生成することはできない。上に示したように、語彙修正レイヤは、音響上類似する音素に基づくマッピングを基礎としていた。しかし、このマッピングは、このような各音素に対応する口形素を考慮していないため、口形素の時間整合を歪める可能性がある。したがって、ベース言語の音素セットで新規言語の語を表す追加の語彙が作成される。これには、
表1のマッピングは使用されない。同じ行にある2つの音素の口形素の類似性に基づくマッピングが使用される。この追加の語彙、ベース言語の時間整合、およびベース言語の音素から口形素へのマッピングを使用して、口形素の時間整合が得られる。この口形素の時間整合を使用して、動画化されたビデオ・シーケンスが生成される。マッピングは1対1ではない。したがって、ベース言語の単一の音素が新規言語の2つ以上の音素を表す場合がある。しかし、語彙修正レイヤが多対1のマッピングを考慮した後に新規言語で出力するため、このことは矛盾を生じない。
【0026】
また、アプリケーションはアニメーションの目的で口形素の時間整合を使用するため、ある口形素から別の口形素へのモーフィングも行われる。したがって、表1で**および*で表された音素が不正確にマッピングされたために、生成された時間整合が厳密な音素境界を表さない場合があるが、これは、これらの境界中で口形素が常に遷移しているため動画化されたビデオ中では目に留まらない。したがって、どんな不正確な音素境界も反映しない、スムーズで連続的なビデオが生成される。
【0027】
図面の説明
ここで図面、特に図1を参照すると、ベース言語の口形素のデータベースを有するアニメーション・システムのブロック図が示されている。最初に、ベース言語によって修正された語彙を使用して、ベース言語で音素の時間整合が生成される。新規言語のオーディオまたはテキストが音素の時間整合ジェネレータ101に入力され、この音素の時間整合ジェネレータは、音素の語彙修正機構102から対応するベース言語の音素による語彙VocabP Bを受け取る。音素の時間整合ジェネレータ101の出力はAlignmentP Bであり、次いでこれは、口形素の時間整合ジェネレータ103を使用することによって、ベース言語の口形素の時間整合に変換される。この口形素の時間整合ジェネレータは、口形素の語彙修正機構104を使用して訂正を取り込むことによって形成された、ベース言語の口形素の語彙VocabV Bを使用する。この口形素の語彙修正機構は、ベース言語から新規言語への、口形素からみた類似のマッピングを使用して、VocabV Bを生成する。次いで、生成されたベース言語の口形素の時間整合AlignmentV Bを使用して、動画化されたビデオを生成するために口形素の画像がビデオ・アニメーション105中で駆動される。
【0028】
本発明の代替実施形態では、口形素のセットが新規言語用に利用可能な場合、その言語の音素から口形素へのマッピングを使用して口形素の時間整合を直接与えるように下位レイヤを修正することができる。この場合、ベース言語で生成された音素の時間整合は、2つの言語中の対応する語彙エントリを使用することによって新規言語に変換される。次いで、新規言語の音素から口形素へのマッピングが適用される。このように生成される口形素の時間整合は新規言語によるものであり、これは口形素がベース言語ではなくその言語で利用可能なために望まれたものであることに留意されたい。
【0029】
図2は、新規言語の口形素のデータベースを有するアニメーション・システムのブロック図である。図1と同様、最初に、ベース言語によって修正された語彙を使用して、ベース言語で音素の時間整合が生成される。新規言語のオーディオまたはテキストが音素の時間整合ジェネレータ201に入力され、この音素の時間整合ジェネレータ201は、音素の語彙修正機構202から対応するベース言語の音素による語彙VocabP Bを受け取る。音素の時間整合ジェネレータ201の出力はAlignmentP Bであり、次いでこれは、口形素の時間整合ジェネレータ203中で変換される。ベース言語の音素の時間整合は、ベース言語の口形素による語彙VocabV Bに加えて新規言語の口形素による語彙Vocab V N を使用して、新規言語の口形素の時間整合に変換される。次いで、新規言語の口形素の時間整合AlignmentV Nを使用して、動画化されたビデオを生成するために画像(新規言語の口形素を表す)がビデオ・アニメーション204中で駆動される。
【0030】
図3は、ベース言語の音素セットを使用した変形体で表された新規言語の語を有する語彙を作成するのに使用されるプロセスの流れ図である。このような語彙を使用して、音素の時間整合が生成される。新規な言語LangN中の各語Vocab N について、それがベース言語LangBのVocab B中に存在するかどうかが決定ブロック301中で判定される。存在する場合は、機能ブロック302で、その語がとる特定のベース形が選択される。次いでその語は、機能ブロック303でベース言語の語彙中にコピーされる。一方、その語がベース言語中に存在しないと決定ブロック301で判定された場合は、それが語彙に書き込めるようになる前にベース形表現が必要となる。決定ブロック304で、語彙が2つの言語の音素の類似性に基づくべきか口形素の類似性に基づくべきかが判定される。音素の類似性が使用される場合は、機能ブロック305で、音素の類似マッピングを使用した対応する変形体がベース言語Vocab Bから選択される。一方、口形素の類似性が使用される場合は、機能ブロック306で、口形素の類似音素セットがベース言語から選択されて、新規言語の語からベース言語の語彙への変換が行われる。機能ブロック303で、ベース言語に近づけられたこの語彙の表現が書き込まれ、ベース言語語彙が形成される。このように生成されたこれらの音素の/口形素の語彙は、次いで、図1および2に示したようにアニメーションに使用される。
【0031】
【発明の効果】
本発明を使用する利点は、視覚的スピーチを合成するのに使用すべき言語と同じ言語用のスピーチ認識エンジンを構築する必要がないことである。いずれか所与の言語用の音声認識システムがあれば、2層のレイヤを容易かつ迅速にカスタマイズして、他のどんな言語でも合成ビデオを得ることができる。さらに、口形素の画像もまた、時間整合生成システムの構築に使用されている言語のものだけがあればよく、したがって、言語ごとに毎回新しいヴァイジーム画像を生成する必要が除去される。このシステムはまた、代替手法に示したように、新規言語がベース言語の口形素と完全に異なる口形素を有する場合にも機能する。同様に、テキスト・オーディオビジュアル音声合成の場合も、合成を行うのに使用しなければならない言語と同じ言語のテキスト音声合成器は必要ない。
【0032】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0033】
(1) 第2の言語による音声認識システムを利用して、第1の言語による所与のオーディオ信号から視覚的スピーチを言語透過的に合成する方法であって、
前記第1の言語の入力オーディオまたはテキストを受け取るステップと、
前記第2の言語の前記音声認識システムおよびそれ自体の音素のセットを使用して最良の音素境界に基づく音素の時間整合を生成し、前記第1の言語の音素のセットにおける効果的な時間整合を得るために前記第1の言語からの音素を前記第2の言語の音素に変換するためのマッピングを行うステップと、
音素から口形素へのマッピングを行って、対応する口形素の時間整合を得るステップであって、前記口形素の時間整合は、所望のビデオを得るために動画化されるべき口形素のシーケンスを生成する、ステップと、
口形素の前記シーケンスに対応する画像を動画化して、前記第1の言語の前記入力オーディオ信号と整合された所望のビデオ合成出力を得るステップと
を含む方法。
(2) 音素から口形素へのマッピングを行う前記ステップが、前記第2の言語の口形素のデータベースを使用して行われる、(1)に記載の方法。
(3) 音素から口形素へのマッピングを行う前記ステップが、前記第1の言語の口形素のデータベースを使用して行われる、(1)に記載の方法。
(4) 以下でベース言語と呼ばれる第2の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第1の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、そして前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係がある場合に前記ベース言語の対応する音素を選択し、前記対応関係がない場合に、前記新規言語の音素に最もよく合致する、前記ベース言語の最も近い音素を検出するステップをさらに含み、
前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
を含む方法。
(5) 以下でベース言語と呼ばれる第2の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第1の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、
(1)前記対応関係がある場合に、前記ベース言語の対応する音素を選択し、
(2)前記対応関係がない場合に、前記ベース言語の音素の類似性に基づくかどうかを判断し、
(a)該ベース言語の音素の類似性に基づく場合、前記ベース言語において音素上最も近い音素を検出し、
(b)該ベース言語の音素の類似性に基づかない場合、前記ベース言語において口形素上最も近い音素を検出するステップと、
前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
を含む方法。
(6) 音素上最も近い音素が選択される、(4)に記載の方法。
(7) 口形素からみて最も近い音素が選択される、(4)に記載の方法。
(8) 時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の音素による語彙との時間整合を生成するステップを含む、(4)又は(5)に記載の方法。
(9) 時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の口形素による語彙との時間整合を生成するステップをさらに含む、(8)に記載の方法。
(10) 前記オーディオ音声信号とそれに対応する前記ベース言語語彙の口形素の語彙との時間整合を使用し、ビデオ・アニメーション中で画像を駆動して、前記第1の言語の前記顔アニメーション・システムにおいて動画化されたビデオを生成するステップをさらに含む、(9)に記載の方法。
【図面の簡単な説明】
【図1】 ベース言語の口形素のデータベースを有するアニメーション・システムを示すブロック図である。
【図2】 新規言語の口形素のデータベースを有するアニメーション・システムを示すブロック図である。
【図3】 ベース言語のベース形を使用した新規言語の語を有する語彙を作成するプロセスを示す流れ図である。
【符号の説明】
101 音素の時間整合ジェネレータ
102 音素の語彙修正機構
103 口形素の時間整合ジェネレータ
104 口形素の語彙修正機構
105 ビデオ・アニメーション
201 音素の時間整合ジェネレータ
202 音素の語彙修正機構
203 口形素の時間整合ジェネレータ
204 ビデオ・アニメーション
Claims (10)
- 第2の言語による音声認識システムを利用して、第1の言語による所与のオーディオ信号から視覚的スピーチを言語透過的に合成する方法であって、
前記第1の言語の入力オーディオまたはテキストを受け取るステップと、
前記第2の言語の前記音声認識システムおよびそれ自体の音素のセットを使用して最良の音素境界に基づく音素の時間整合を生成し、前記第1の言語の音素のセットにおける効果的な時間整合を得るために前記第1の言語からの音素を前記第2の言語の音素に変換するためのマッピングを行うステップと、
音素から口形素へのマッピングを行って、対応する口形素の時間整合を得るステップであって、前記口形素の時間整合は、所望のビデオを得るために動画化されるべき口形素のシーケンスを生成する、ステップと、
口形素の前記シーケンスに対応する画像を動画化して、前記第1の言語の前記入力オーディオ信号と整合された所望のビデオ合成出力を得るステップと
を含む方法。 - 音素から口形素へのマッピングを行う前記ステップが、前記第2の言語の口形素のデータベースを使用して行われる、請求項1に記載の方法。
- 音素から口形素へのマッピングを行う前記ステップが、前記第1の言語の口形素のデータベースを使用して行われる、請求項1に記載の方法。
- 以下でベース言語と呼ばれる第2の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第1の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、そして前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係がある場合に前記ベース言語の対応する音素を選択し、前記対応関係がない場合に、前記新規言語の音素に最もよく合致する、前記ベース言語の最も近い音素を検出するステップをさらに含み、
前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
を含む方法。 - 以下でベース言語と呼ばれる第2の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第1の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、
(1)前記対応関係がある場合に、前記ベース言語の対応する音素を選択し、
(2)前記対応関係がない場合に、前記ベース言語の音素の類似性に基づくかどうかを判断し、
(a)該ベース言語の音素の類似性に基づく場合、前記ベース言語において音素上最も近い音素を検出し、
(b)該ベース言語の音素の類似性に基づかない場合、前記ベース言語において口形素上最も近い音素を検出するステップと、
前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
を含む方法。 - 音素上最も近い音素が選択される、請求項4に記載の方法。
- 口形素からみて最も近い音素が選択される、請求項4に記載の方法。
- 時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の音素による語彙との時間整合を生成するステップを含む、請求項4又は5に記載の方法。
- 時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の口形素による語彙との時間整合を生成するステップをさらに含む、請求項8に記載の方法。
- 前記オーディオ音声信号とそれに対応する前記ベース言語語彙の口形素の語彙との時間整合を使用し、ビデオ・アニメーション中で画像を駆動して、前記第1の言語の前記顔アニメーション・システムにおいて動画化されたビデオを生成するステップをさらに含む、請求項9に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/494,582 US6813607B1 (en) | 2000-01-31 | 2000-01-31 | Translingual visual speech synthesis |
US09/494582 | 2000-01-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001215985A JP2001215985A (ja) | 2001-08-10 |
JP3664474B2 true JP3664474B2 (ja) | 2005-06-29 |
Family
ID=23965062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001013157A Expired - Fee Related JP3664474B2 (ja) | 2000-01-31 | 2001-01-22 | 視覚的スピーチの言語透過的合成 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6813607B1 (ja) |
JP (1) | JP3664474B2 (ja) |
Families Citing this family (140)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10127558A1 (de) * | 2001-06-06 | 2002-12-12 | Philips Corp Intellectual Pty | Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit Überprüfung der Benutzungsberechtigung von Sprach-, Gestik-, Mimik- und/oder Verhaltensprofilen zur Synthese |
US7177794B2 (en) * | 2002-04-12 | 2007-02-13 | Babu V Mani | System and method for writing Indian languages using English alphabet |
US7257538B2 (en) * | 2002-10-07 | 2007-08-14 | Intel Corporation | Generating animation from visual and audio input |
US7133535B2 (en) * | 2002-12-21 | 2006-11-07 | Microsoft Corp. | System and method for real time lip synchronization |
US7168953B1 (en) * | 2003-01-27 | 2007-01-30 | Massachusetts Institute Of Technology | Trainable videorealistic speech animation |
US7596499B2 (en) * | 2004-02-02 | 2009-09-29 | Panasonic Corporation | Multilingual text-to-speech system with limited resources |
US20060009978A1 (en) * | 2004-07-02 | 2006-01-12 | The Regents Of The University Of Colorado | Methods and systems for synthesis of accurate visible speech via transformation of motion capture data |
JP4553667B2 (ja) * | 2004-09-10 | 2010-09-29 | 日本信号株式会社 | 発話識別方法及びこれを用いたパスワード照合装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US20100082327A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for mapping phonemes for text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US20100198577A1 (en) * | 2009-02-03 | 2010-08-05 | Microsoft Corporation | State mapping for cross-language speaker adaptation |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
US8751228B2 (en) | 2010-11-04 | 2014-06-10 | Microsoft Corporation | Minimum converted trajectory error (MCTE) audio-to-video engine |
WO2012088403A2 (en) | 2010-12-22 | 2012-06-28 | Seyyer, Inc. | Video transmission and sharing over ultra-low bitrate wireless communication channel |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN103650002B (zh) * | 2011-05-06 | 2018-02-23 | 西尔股份有限公司 | 基于文本的视频生成 |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
KR101378811B1 (ko) * | 2012-09-18 | 2014-03-28 | 김상철 | 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법 |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US20150279364A1 (en) * | 2014-03-29 | 2015-10-01 | Ajay Krishnan | Mouth-Phoneme Model for Computerized Lip Reading |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9940932B2 (en) * | 2016-03-02 | 2018-04-10 | Wipro Limited | System and method for speech-to-text conversion |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
TWI603259B (zh) * | 2016-05-27 | 2017-10-21 | 華碩電腦股份有限公司 | 動畫顯示系統及嘴型動畫顯示方法 |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10910001B2 (en) * | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
EP3739477A4 (en) * | 2018-01-11 | 2021-10-27 | Neosapience, Inc. | PROCESS AND SYSTEM FOR SPEECH TRANSLATION USING A MULTILINGUAL TEXT-SPEECH SYNTHESIS MODEL |
US10699705B2 (en) * | 2018-06-22 | 2020-06-30 | Adobe Inc. | Using machine-learning models to determine movements of a mouth corresponding to live speech |
US11410642B2 (en) * | 2019-08-16 | 2022-08-09 | Soundhound, Inc. | Method and system using phoneme embedding |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE674315C (de) * | 1937-06-24 | 1939-04-12 | Bauer & Schaurte | Passsitzbolzen fuer Sicherheitsverschraubungen |
JP3083630B2 (ja) | 1992-03-26 | 2000-09-04 | 株式会社新興製作所 | 自動せり処理システム |
US6122616A (en) * | 1993-01-21 | 2000-09-19 | Apple Computer, Inc. | Method and apparatus for diphone aliasing |
US5878396A (en) * | 1993-01-21 | 1999-03-02 | Apple Computer, Inc. | Method and apparatus for synthetic speech in facial animation |
US5608839A (en) * | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
US5657426A (en) * | 1994-06-10 | 1997-08-12 | Digital Equipment Corporation | Method and apparatus for producing audio-visual synthetic speech |
US5995119A (en) * | 1997-06-06 | 1999-11-30 | At&T Corp. | Method for generating photo-realistic animated characters |
US6317716B1 (en) * | 1997-09-19 | 2001-11-13 | Massachusetts Institute Of Technology | Automatic cueing of speech |
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
EP0982684A4 (en) | 1998-03-11 | 2001-05-09 | Mitsubishi Electric Corp | MOTION IMAGE GENERATION DEVICE AND LEARNING DEVICE VIA IMAGE CONTROL NETWORK |
JP4236815B2 (ja) * | 1998-03-11 | 2009-03-11 | マイクロソフト コーポレーション | 顔合成装置および顔合成方法 |
US6250928B1 (en) * | 1998-06-22 | 2001-06-26 | Massachusetts Institute Of Technology | Talking facial display method and apparatus |
US6366885B1 (en) * | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
-
2000
- 2000-01-31 US US09/494,582 patent/US6813607B1/en not_active Expired - Fee Related
-
2001
- 2001-01-22 JP JP2001013157A patent/JP3664474B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001215985A (ja) | 2001-08-10 |
US6813607B1 (en) | 2004-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3664474B2 (ja) | 視覚的スピーチの言語透過的合成 | |
US6735566B1 (en) | Generating realistic facial animation from speech | |
CN110880315A (zh) | 一种基于音素后验概率的个性化语音和视频生成系统 | |
EP4118641A1 (en) | Speech recognition using unspoken text and speech synthesis | |
US20060290699A1 (en) | System and method for audio-visual content synthesis | |
KR102306844B1 (ko) | 비디오 번역 및 립싱크 방법 및 시스템 | |
JP4543263B2 (ja) | アニメーションデータ作成装置及びアニメーションデータ作成プログラム | |
JP2022518721A (ja) | 発話アニメーションのリアルタイム生成 | |
Malcangi | Text-driven avatars based on artificial neural networks and fuzzy logic | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
Nakamura | Statistical multimodal integration for audio-visual speech processing | |
CN116309984A (zh) | 一种基于文本驱动的口型动画生成方法及系统 | |
Brooke et al. | Two-and three-dimensional audio-visual speech synthesis | |
Liu et al. | Real-time speech-driven animation of expressive talking faces | |
Minnis et al. | Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis | |
EP0982684A1 (en) | Moving picture generating device and image control network learning device | |
Kim et al. | 3D Lip‐Synch Generation with Data‐Faithful Machine Learning | |
JP2002099295A (ja) | 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体 | |
D’alessandro et al. | Reactive statistical mapping: Towards the sketching of performative control with data | |
Campr et al. | Automatic fingersign to speech translator | |
Pan et al. | VOCAL: Vowel and Consonant Layering for Expressive Animator-Centric Singing Animation | |
Barve et al. | Synchronized Speech and Video Synthesis | |
Faruquie et al. | Translingual visual speech synthesis | |
Chen et al. | Text to avatar in multimodal human computer interface | |
Edge et al. | Model-based synthesis of visual speech movements from 3D video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20010122 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20020624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20030618 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20030916 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20030919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20031205 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20031205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20031216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20031205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20031216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040422 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050317 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20050317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050328 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090408 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100408 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100408 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100408 Year of fee payment: 5 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100408 Year of fee payment: 5 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110408 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120408 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120408 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130408 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130408 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130408 Year of fee payment: 8 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130408 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130408 Year of fee payment: 8 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130408 Year of fee payment: 8 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130408 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140408 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |