JP3664474B2

JP3664474B2 - 視覚的スピーチの言語透過的合成

Info

Publication number: JP3664474B2
Application number: JP2001013157A
Authority: JP
Inventors: タンヴィー・アフザイ・ファルクイエ; チャパティ・ネティ; ニテンドラ・ラジプト; エル・ヴェンカタ・スブラマニアム; アシシ・ヴェルマ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-01-31
Filing date: 2001-01-22
Publication date: 2005-06-29
Anticipated expiration: 2021-01-22
Also published as: JP2001215985A; US6813607B1

Description

【０００１】
【発明の属する技術分野】
本発明は一般に視覚的スピーチの合成に関し、より詳細には、異なる言語の音声認識システムおよびヴァイジーム（viseme：口形素）を使用して、任意の言語によるオーディオ駆動型の顔アニメーション・システムを実施する方法に関する。
【０００２】
【従来の技術】
関連出願の相互参照
本出願の主題は、米国特許出願第０９／３８４７６３号に関する。米国特許出願第０９／３８４７６３号の開示を参照により本明細書に組み込む。
【０００３】
ヒューマン・コンピュータ対話の分野で、オーディオ駆動型の顔アニメーションは、興味深く、かつ進化しつつある技術である。ヒューマン・コンピュータ・インタフェースでは、自然でフレンドリなインタフェースの実現が非常に重要である。マシンとの情報対話のための入力手段として、音声認識およびコンピュータ読唇が開発されてきた。また、情報をレンダリングするための自然で使いやすい手段を提供することも重要である。この点に関連して、視覚的スピーチの合成が非常に重要である。というのは、これは、非常に現実的に見える様々なアニメーテッド・コンピュータ・エージェントを実現することができるからである。さらにこれは、遠距離学習アプリケーションに使用して、ビデオの伝送を不要にすることもできる。またこれは、聴覚障害者が聴覚情報の不足を補うための有用な道具にもなり得る。
【０００４】
テキストがシステムに入力されれば音声を合成する技術は存在する。これらのテキスト音声合成器は、発音されることになるテキストの音素の時間整合を作成し、次いで、対応する音素へのスムーズな変換を生成して所望の文を得ることによって機能する。R. E. DonovanおよびE. M. Eideの「The IBM Trainable Speech Synthesis System」, International Conference on Speech and Language Processing, 1998を参照されたい。２モードの音声認識における最近の研究は、オーディオとそれに対応するビデオ信号とが有する依存性を活用して音声認識の正確度を向上させることができることを利用する。T. ChenおよびR. R. Raoの「Audio-Visual Integration in Multimodal Communication」, Proceedings of the IEEE, vol. 86, no. 5, May 1998, pp. 837〜852と、E. D. Petajan、B. Bischolf、D. Bodolf、およびN. M. Brookeの「An Improved Automatic Lipreading System to Enhance Speech Recognition」, Proc. OHI, 1998, pp. 19〜25を参照されたい。ビデオ空間からオーディオ空間にスコアを変換するには、口形素から音素へのマッピングが必要とされる。このようなマッピングと、テキストから音声への合成を利用して、テキストからビデオへの合成器を構築することができる。この合成すなわち顔アニメーションは、アプリケーションの希望に応じて、テキストでも音声オーディオでも駆動することができる。後者の場合、音素の時間整合は、話される語を表す本物の語のストリングを利用してオーディオから生成される。
【０００５】
研究者らは、所与のオーディオ信号から視覚的スピーチを合成する様々な方式を試みてきた。 F. Lavagetto、Arzarello、およびM. Caranzanoの「Lipreadable Frame Automation Driven by Speech Parameters」, International Symposium on Speech, Image Processing and Neural Networks, 1994, ISSIPNNでは、次のようにオーディオ機能とビデオ機能を両方とも使用して訓練された隠れマルコフ・モデル（ＨＭＭ、Hidden Markov Model）が使用されている。訓練期間中、ビタビ・アルゴリズムを使用して、所与の音声に対する最尤ＨＭＭ状態シーケンスが得られる。このとき、所与のＨＭＭ状態に対し、対応するすべての画像フレームが選択され、それらの視覚パラメータの平均がそのＨＭＭ状態に割り当てられる。合成時には、ビタビ復号を使用して、入力音声が最尤ＨＭＭシーケンスに整合される。最尤ＨＭＭ状態シーケンスに対応する画像パラメータが検索され、この視覚パラメータ・シーケンスが、適切な平滑化によってアニメートされる。
【０００６】
最近では、口形素ベースのＨＭＭを使用し、かつオーディオ信号から口形素の時間整合を生成する新しい方式が、米国特許出願第０９／３８４７６３号に記載されている。この手法では、所与の口形素に対応するすべてのオーディオ・ベクトルが、単一のクラスにマージされる。この場合、この口形素ベースのオーディオ・データを使用して、口形素ベースのオーディオＨＭＭが訓練される。合成時間中は、入力音声が口形素ベースのＨＭＭ状態シーケンスと整合される。この場合、これら口形素ベースのＨＭＭ状態シーケンスに対応する画像パラメータが、必要な平滑化によって動画化される。T. EzzaiおよびT. Poggioの「Miketalk: A Talking Facial Display Based on Morphing Visemes」, Proceedings of IEEE Computer Animation '98, Philadelphia, PA, June 1998, pp. 96〜102も参照されたい。
【０００７】
前述のすべての手法では、合成に必要な入力音声の時間整合を生成するのに使用される音声認識システムを訓練することが必要である。さらに、これらの手法では、オーディオを提供するのに使用される言語の音声認識システムが、オーディオ信号の音素のシーケンスに対して時間整合を得ることが必要である。しかし、音声認識システムの構築は、非常に単調で時間のかかる作業である。
【０００８】
【発明が解決しようとする課題】
したがって、本発明の一目的は、ただ１つの言語、例えば英語に対する音声認識システムがある場合に言語独立のオーディオ駆動型顔アニメーション用システムを実施する、新しい方式を提供することである。同じ方法を、テキスト・オーディオビジュアル音声合成に使用することもできる。
【０００９】
【課題を解決するための手段】
本発明は、時間整合が生成された後はマッピングおよびアニメーションにほぼどんな言語依存性もないという認識に基づく。時間整合生成の第１ステップを音声独立にすることができれば、視覚的スピーチのトランスリンガル（translingual：言語透過的）に合成を達成することができる。以下に、視覚的スピーチの言語透過的な合成を実施する方法を提案する。すなわち本発明は、ある言語（ベース言語）用の音声認識システムがあれば、ビデオを、入力としての他のどんな言語（新規言語）のスピーチとも合成する方法を提供する。
【００１０】
【発明の実施の形態】
本発明による言語透過的な合成を理解するために、まず、シーケンスを動画化するのに必要なステップを以下に呈示する。
【００１１】
１．所与の入力オーディオまたは本物のテキストから音素の時間整合を生成する。これには、テキストの音ベース形を理解することのできる音声認識エンジンが必要とされる。
これは、入力オーディオが、認識システムの訓練に使用された言語と同じ言語である場合にうまく機能することになる。
【００１２】
２．ビデオの合成に使用すべき言語が異なる言語である場合は、その異なる言語の音素のセットは、訓練された言語以外のものである可能性がある。しかし、時間整合ジェネレータシステムは、それ自体の音素のセットを使用して、最良の音素境界に基づく時間整合を生成する。次いで、新規言語の音素のセットにおける効果的な時間整合を得るために、一方の言語からの音素を他方の言語の音素に変換することのできるマッピングが必要である。
【００１３】
３．次いで、音素から口形素へのマッピングを使用して、対応する口形素の時間整合を得ることができる。この時間整合により、所望のビデオを得るために動画化されることになる口形素のシーケンスが生成される。
【００１４】
４．口形素のシーケンスに対応する画像を動画化して、入力オーディオ信号と整合された所望のビデオ合成出力を得る。
【００１５】
本発明は、ある言語の音声認識システムを利用して、任意の言語による所与のオーディオ信号から視覚的スピーチを合成する、新しい手法を提供する。これ以後、音声認識システムを訓練する言語をベース言語と呼び、ビデオの合成に使用すべき言語を新規言語と呼ぶ。例では、新規言語にヒンディー語を、ベース言語に英語を選択した。
【００１６】
新規言語の語彙が時間整合ジェネレータに呈示される場合、時間整合ジェネレータは、
そのような語彙が訓練システムの音素の語彙中にないために、その語彙に対して時間整合を生成することができないことになる。さらに、新規言語の語彙の音素のスペルが、ベース言語の音素のセットでは完全に表されない可能性がある。以下に、これらの問題を克服して、最終的に言語独立の時間整合生成システムを得る技法を呈示する。このシステムは、ベース言語用の訓練済み時間整合生成システムおよび口形素の画像を有することになるが、任意の言語のオーディオ入力に対してアニメーションを生成するように機能させることができる。
【００１７】
語彙適応レイヤ
新規言語の語彙に対する時間整合を生成するために、この言語の音素の語彙が最初に作成されるが、この中で語彙は、新規言語の音素のセットを使用した音素のベース形で表される。認識システムはベース言語の音素のセットに対して訓練されているため、これらの語彙が今度はベース言語の音素のセットでベース形を表すように、語彙を修正する必要がある。このような修正は、語彙修正レイヤ（Vocabulary Modification Layer）によって可能にされる。このレイヤは、一方の言語の音素のセットから他方の言語へのマッピングを使用することによって機能する。例示のために、ヒンディー語の音素から英語の音素へのマッピングを表１に示す。
表１．ヒンディー語から英語への音素マッピング
【表１】

【００１８】
表１には、ヒンディー語の音素から英語の音素のセットへのマッピングの一例が示されている。見れば分かるように、英語の音素のすべてがこの新規言語に使用されるわけではない。また、多数の音素には、厳密な１つのマッピングが存在する。これらは、その行にアスタリスク３つ（＊＊＊）を付けて示す。行にアスタリスクが２つ（＊＊）あるのは、そのマッピングが厳密ではないが、音響上最も近いマップであることを意味する。マッピング中にアスタリスクが１つ（＊）あるのは、音響上の類似性から、新規言語の音素が英語からの２つ以上の音（または音素）の繋がりに近いものとされていることを示す。
【００１９】
以下の３つの場合があり得る。
【００２０】
１．新規言語の語彙がベース言語の音素で表せる。このような語彙の場合、ベース形は、単純にベース言語の音素のセットを使用して書くことができる。
【００２１】
２．新規言語の語彙がベース言語の音素のセットで表せない。この場合、この語彙は新規言語の音素のセットで書かれ、表１にあるようなマッピングを使用して、ベース形がベース言語に変換される。
【００２２】
３．ベース言語の音素が新規言語の語彙にまったく現れない。このような場合、ベース言語のこの特定の音素は余分であり、「配慮しない」として残される。
【００２３】
音素の時間整合によって最良の音素境界を生成することが音素のセットをマッピングする目的であるため、マッピングは、類似する響きを有する音素に基づく。すなわち、新規言語の音素に関連付けることのできる、厳密に類似する音素がベース言語中にない場合は、音響上類似するベース言語の音素が選択される。ただし両方とも、異なる口形素にマッピングすることができる。
【００２４】
前述の語彙修正レイヤは、新規言語オーディオのベース言語の時間整合を生成する際に役立つ。次に、どのようにベース言語の口形素の時間整合を抽出するかを述べる。
【００２５】
口形素の時間整合の生成
このシステムは、ベース言語の訓練済み時間整合ジェネレータ、音素から口形素へのマッピング、および口形素セットを使用して、どんな新規言語に対しても機能しなければならないため、口形素の時間整合は、従来生成されているように音素の時間整合から単純に生成することはできない。上に示したように、語彙修正レイヤは、音響上類似する音素に基づくマッピングを基礎としていた。しかし、このマッピングは、このような各音素に対応する口形素を考慮していないため、口形素の時間整合を歪める可能性がある。したがって、ベース言語の音素セットで新規言語の語を表す追加の語彙が作成される。これには、
表１のマッピングは使用されない。同じ行にある２つの音素の口形素の類似性に基づくマッピングが使用される。この追加の語彙、ベース言語の時間整合、およびベース言語の音素から口形素へのマッピングを使用して、口形素の時間整合が得られる。この口形素の時間整合を使用して、動画化されたビデオ・シーケンスが生成される。マッピングは１対１ではない。したがって、ベース言語の単一の音素が新規言語の２つ以上の音素を表す場合がある。しかし、語彙修正レイヤが多対１のマッピングを考慮した後に新規言語で出力するため、このことは矛盾を生じない。
【００２６】
また、アプリケーションはアニメーションの目的で口形素の時間整合を使用するため、ある口形素から別の口形素へのモーフィングも行われる。したがって、表１で＊＊および＊で表された音素が不正確にマッピングされたために、生成された時間整合が厳密な音素境界を表さない場合があるが、これは、これらの境界中で口形素が常に遷移しているため動画化されたビデオ中では目に留まらない。したがって、どんな不正確な音素境界も反映しない、スムーズで連続的なビデオが生成される。
【００２７】
図面の説明
ここで図面、特に図１を参照すると、ベース言語の口形素のデータベースを有するアニメーション・システムのブロック図が示されている。最初に、ベース言語によって修正された語彙を使用して、ベース言語で音素の時間整合が生成される。新規言語のオーディオまたはテキストが音素の時間整合ジェネレータ１０１に入力され、この音素の時間整合ジェネレータは、音素の語彙修正機構１０２から対応するベース言語の音素による語彙Ｖｏｃａｂ^P _Bを受け取る。音素の時間整合ジェネレータ１０１の出力はＡｌｉｇｎｍｅｎｔ^P _Bであり、次いでこれは、口形素の時間整合ジェネレータ１０３を使用することによって、ベース言語の口形素の時間整合に変換される。この口形素の時間整合ジェネレータは、口形素の語彙修正機構１０４を使用して訂正を取り込むことによって形成された、ベース言語の口形素の語彙Ｖｏｃａｂ^V _Bを使用する。この口形素の語彙修正機構は、ベース言語から新規言語への、口形素からみた類似のマッピングを使用して、Ｖｏｃａｂ^V _Bを生成する。次いで、生成されたベース言語の口形素の時間整合Ａｌｉｇｎｍｅｎｔ^V _Bを使用して、動画化されたビデオを生成するために口形素の画像がビデオ・アニメーション１０５中で駆動される。
【００２８】
本発明の代替実施形態では、口形素のセットが新規言語用に利用可能な場合、その言語の音素から口形素へのマッピングを使用して口形素の時間整合を直接与えるように下位レイヤを修正することができる。この場合、ベース言語で生成された音素の時間整合は、２つの言語中の対応する語彙エントリを使用することによって新規言語に変換される。次いで、新規言語の音素から口形素へのマッピングが適用される。このように生成される口形素の時間整合は新規言語によるものであり、これは口形素がベース言語ではなくその言語で利用可能なために望まれたものであることに留意されたい。
【００２９】
図２は、新規言語の口形素のデータベースを有するアニメーション・システムのブロック図である。図１と同様、最初に、ベース言語によって修正された語彙を使用して、ベース言語で音素の時間整合が生成される。新規言語のオーディオまたはテキストが音素の時間整合ジェネレータ２０１に入力され、この音素の時間整合ジェネレータ２０１は、音素の語彙修正機構２０２から対応するベース言語の音素による語彙Ｖｏｃａｂ^P _Bを受け取る。音素の時間整合ジェネレータ２０１の出力はＡｌｉｇｎｍｅｎｔ^P _Bであり、次いでこれは、口形素の時間整合ジェネレータ２０３中で変換される。ベース言語の音素の時間整合は、ベース言語の口形素による語彙Ｖｏｃａｂ^V _Bに加えて新規言語の口形素による語彙Ｖｏｃａｂ ^V _Nを使用して、新規言語の口形素の時間整合に変換される。次いで、新規言語の口形素の時間整合Ａｌｉｇｎｍｅｎｔ^V _Nを使用して、動画化されたビデオを生成するために画像（新規言語の口形素を表す）がビデオ・アニメーション２０４中で駆動される。
【００３０】
図３は、ベース言語の音素セットを使用した変形体で表された新規言語の語を有する語彙を作成するのに使用されるプロセスの流れ図である。このような語彙を使用して、音素の時間整合が生成される。新規な言語Ｌａｎｇ_N中の各語Ｖｏｃａｂ _Nについて、それがベース言語Ｌａｎｇ_BのＶｏｃａｂ _B中に存在するかどうかが決定ブロック３０１中で判定される。存在する場合は、機能ブロック３０２で、その語がとる特定のベース形が選択される。次いでその語は、機能ブロック３０３でベース言語の語彙中にコピーされる。一方、その語がベース言語中に存在しないと決定ブロック３０１で判定された場合は、それが語彙に書き込めるようになる前にベース形表現が必要となる。決定ブロック３０４で、語彙が２つの言語の音素の類似性に基づくべきか口形素の類似性に基づくべきかが判定される。音素の類似性が使用される場合は、機能ブロック３０５で、音素の類似マッピングを使用した対応する変形体がベース言語Ｖｏｃａｂ _Bから選択される。一方、口形素の類似性が使用される場合は、機能ブロック３０６で、口形素の類似音素セットがベース言語から選択されて、新規言語の語からベース言語の語彙への変換が行われる。機能ブロック３０３で、ベース言語に近づけられたこの語彙の表現が書き込まれ、ベース言語語彙が形成される。このように生成されたこれらの音素の／口形素の語彙は、次いで、図１および２に示したようにアニメーションに使用される。
【００３１】
【発明の効果】
本発明を使用する利点は、視覚的スピーチを合成するのに使用すべき言語と同じ言語用のスピーチ認識エンジンを構築する必要がないことである。いずれか所与の言語用の音声認識システムがあれば、２層のレイヤを容易かつ迅速にカスタマイズして、他のどんな言語でも合成ビデオを得ることができる。さらに、口形素の画像もまた、時間整合生成システムの構築に使用されている言語のものだけがあればよく、したがって、言語ごとに毎回新しいヴァイジーム画像を生成する必要が除去される。このシステムはまた、代替手法に示したように、新規言語がベース言語の口形素と完全に異なる口形素を有する場合にも機能する。同様に、テキスト・オーディオビジュアル音声合成の場合も、合成を行うのに使用しなければならない言語と同じ言語のテキスト音声合成器は必要ない。
【００３２】
まとめとして、本発明の構成に関して以下の事項を開示する。
【００３３】
（１）第２の言語による音声認識システムを利用して、第１の言語による所与のオーディオ信号から視覚的スピーチを言語透過的に合成する方法であって、
前記第１の言語の入力オーディオまたはテキストを受け取るステップと、
前記第２の言語の前記音声認識システムおよびそれ自体の音素のセットを使用して最良の音素境界に基づく音素の時間整合を生成し、前記第１の言語の音素のセットにおける効果的な時間整合を得るために前記第１の言語からの音素を前記第２の言語の音素に変換するためのマッピングを行うステップと、
音素から口形素へのマッピングを行って、対応する口形素の時間整合を得るステップであって、前記口形素の時間整合は、所望のビデオを得るために動画化されるべき口形素のシーケンスを生成する、ステップと、
口形素の前記シーケンスに対応する画像を動画化して、前記第１の言語の前記入力オーディオ信号と整合された所望のビデオ合成出力を得るステップと
を含む方法。
（２）音素から口形素へのマッピングを行う前記ステップが、前記第２の言語の口形素のデータベースを使用して行われる、（１）に記載の方法。
（３）音素から口形素へのマッピングを行う前記ステップが、前記第１の言語の口形素のデータベースを使用して行われる、（１）に記載の方法。
（４）以下でベース言語と呼ばれる第２の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第１の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、そして前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係がある場合に前記ベース言語の対応する音素を選択し、前記対応関係がない場合に、前記新規言語の音素に最もよく合致する、前記ベース言語の最も近い音素を検出するステップをさらに含み、
前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
を含む方法。
（５）以下でベース言語と呼ばれる第２の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第１の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、
（１）前記対応関係がある場合に、前記ベース言語の対応する音素を選択し、
（２）前記対応関係がない場合に、前記ベース言語の音素の類似性に基づくかどうかを判断し、
（ａ）該ベース言語の音素の類似性に基づく場合、前記ベース言語において音素上最も近い音素を検出し、
（ｂ）該ベース言語の音素の類似性に基づかない場合、前記ベース言語において口形素上最も近い音素を検出するステップと、
前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
を含む方法。
（６）音素上最も近い音素が選択される、（４）に記載の方法。
（７）口形素からみて最も近い音素が選択される、（４）に記載の方法。
（８）時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の音素による語彙との時間整合を生成するステップを含む、（４）又は（５）に記載の方法。
（９）時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の口形素による語彙との時間整合を生成するステップをさらに含む、（８）に記載の方法。
（１０）前記オーディオ音声信号とそれに対応する前記ベース言語語彙の口形素の語彙との時間整合を使用し、ビデオ・アニメーション中で画像を駆動して、前記第１の言語の前記顔アニメーション・システムにおいて動画化されたビデオを生成するステップをさらに含む、（９）に記載の方法。
【図面の簡単な説明】
【図１】ベース言語の口形素のデータベースを有するアニメーション・システムを示すブロック図である。
【図２】新規言語の口形素のデータベースを有するアニメーション・システムを示すブロック図である。
【図３】ベース言語のベース形を使用した新規言語の語を有する語彙を作成するプロセスを示す流れ図である。
【符号の説明】
１０１音素の時間整合ジェネレータ
１０２音素の語彙修正機構
１０３口形素の時間整合ジェネレータ
１０４口形素の語彙修正機構
１０５ビデオ・アニメーション
２０１音素の時間整合ジェネレータ
２０２音素の語彙修正機構
２０３口形素の時間整合ジェネレータ
２０４ビデオ・アニメーション

Claims

第２の言語による音声認識システムを利用して、第１の言語による所与のオーディオ信号から視覚的スピーチを言語透過的に合成する方法であって、
前記第１の言語の入力オーディオまたはテキストを受け取るステップと、
前記第２の言語の前記音声認識システムおよびそれ自体の音素のセットを使用して最良の音素境界に基づく音素の時間整合を生成し、前記第１の言語の音素のセットにおける効果的な時間整合を得るために前記第１の言語からの音素を前記第２の言語の音素に変換するためのマッピングを行うステップと、
音素から口形素へのマッピングを行って、対応する口形素の時間整合を得るステップであって、前記口形素の時間整合は、所望のビデオを得るために動画化されるべき口形素のシーケンスを生成する、ステップと、
口形素の前記シーケンスに対応する画像を動画化して、前記第１の言語の前記入力オーディオ信号と整合された所望のビデオ合成出力を得るステップと
を含む方法。
音素から口形素へのマッピングを行う前記ステップが、前記第２の言語の口形素のデータベースを使用して行われる、請求項１に記載の方法。
音素から口形素へのマッピングを行う前記ステップが、前記第１の言語の口形素のデータベースを使用して行われる、請求項１に記載の方法。
以下でベース言語と呼ばれる第２の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第１の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、そして前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係がある場合に前記ベース言語の対応する音素を選択し、前記対応関係がない場合に、前記新規言語の音素に最もよく合致する、前記ベース言語の最も近い音素を検出するステップをさらに含み、
前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
を含む方法。
以下でベース言語と呼ばれる第２の言語の音声認識システムを使用して、以下で新規言語と呼ばれる第１の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、
前記新規言語のオーディオ音声信号と前記ベース言語の音素との間に対応関係があるかどうかを判定し、
（１）前記対応関係がある場合に、前記ベース言語の対応する音素を選択し、
（２）前記対応関係がない場合に、前記ベース言語の音素の類似性に基づくかどうかを判断し、
（ａ）該ベース言語の音素の類似性に基づく場合、前記ベース言語において音素上最も近い音素を検出し、
（ｂ）該ベース言語の音素の類似性に基づかない場合、前記ベース言語において口形素上最も近い音素を検出するステップと、
前記新規言語の語彙をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップと
前記新しい語彙を使用して、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語の語彙との時間整合を生成するステップと
を含む方法。
音素上最も近い音素が選択される、請求項４に記載の方法。
口形素からみて最も近い音素が選択される、請求項４に記載の方法。
時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の音素による語彙との時間整合を生成するステップを含む、請求項４又は５に記載の方法。
時間整合を生成する前記ステップが、前記新規言語のオーディオ音声信号とそれに対応する前記ベース言語語彙の口形素による語彙との時間整合を生成するステップをさらに含む、請求項８に記載の方法。
前記オーディオ音声信号とそれに対応する前記ベース言語語彙の口形素の語彙との時間整合を使用し、ビデオ・アニメーション中で画像を駆動して、前記第１の言語の前記顔アニメーション・システムにおいて動画化されたビデオを生成するステップをさらに含む、請求項９に記載の方法。