JP7500582B2

JP7500582B2 - 発話アニメーションのリアルタイム生成

Info

Publication number: JP7500582B2
Application number: JP2021541507A
Authority: JP
Inventors: サガー、マーク; ウー、ティム; タン、シアニ; チャン、シュエユアン
Original assignee: ソウルマシーンズリミティド
Priority date: 2019-01-25
Filing date: 2020-01-27
Publication date: 2024-06-17
Anticipated expiration: 2040-01-27
Also published as: EP3915108C0; AU2020211809A1; EP3915108A1; US20220108510A1; EP3915108B1; CA3128047A1; EP3915108A4; JP2022518721A; WO2020152657A1; KR20210114521A; CN113383384A

Description

本発明の実施形態は、発話アニメーションのリアルタイム生成に関する。

発話をアニメーション化するための顔アニメーションコンピュータ技術としては、手続き型、データ駆動型、又はパフォーマンスキャプチャベースの技術が挙げられる。

コーパス（テキストのコレクション）内のそれぞれの文は、音素のシーケンス（別個の発話／音声の単位）として、及び口形素のシーケンス（発音されている音素を示す音素の視覚的等価物）として表すことができる。手続き型発話アニメーションは、音素を口形素に変換するルール又はルックアップテーブルを含む。発話に対する３Ｄアニメーション曲線のオンラインリアルタイム生成は、音素を使用して、口形素のアニメーションシーケンスを探索することによって実行され得る。このようなアプローチは、アニメーションシーケンスのわずかなセットによって制限され、ロボットのような非現実的な反復式アニメーションが、特に口形素の遷移で頻繁に観察される。

データ駆動型（統計的）方法は、大きなコーパスからの顔アニメーションデータのスニペットをつなぎ合わせて、入力発話トラックに一致させる。顔の動態は、多次元モーフィングモデル、隠れマルコフモデル、及びアクティブアピアランスモデル（active appearance model、ＡＡＭ）によってキャプチャされる。データ駆動型アプローチの質は、多くの場合、利用可能なデータによって制限される。統計的モデルは、アニメータから制御権を奪い、顔を直接駆動する。

パフォーマンスキャプチャベースの発話アニメーションは、人間のパフォーマから取得したモーションデータをデジタル顔モデルに転送する。１つのアプローチは、リアルタイムでオーディオ入力から音素確率を抽出するように訓練されたディープニューラルネットワークと共に、事前にキャプチャされたデータベースを使用してパフォーマンスキャプチャを補正する。このようなモデルを訓練するには、手作りのアニメーションシーケンス又はパフォーマンスの大きなデータセットが必要とされる。結果として得られるモデルは、複雑であることが多く、再生及び推論をリアルタイムで達成することが困難になる。アニメーションの質は、キャプチャされる発話者の能力によって制限され、アニメータが改良することは困難である。

従来の発話アニメーション技術はまた、発話アニメーションと感情表現アニメーションとの組み合わせに適切に適応することができない。

本発明の目的は、発話アニメーションのリアルタイム生成を改善すること、又は少なくとも公衆若しくは業界に有用な選択肢を提供することである。

発話をアニメーション化するための方法であって、アニメーション化されるストリングであって、ストリングは、複数の伝達発声（例えば、発話）アトムを含む、ストリングと、複数のコレクションであって、それぞれのコレクションは、一意のアトムストリングを含む複数の項目を含み、それぞれのコレクションは、異なる長さの項目を記憶する、複数のコレクションと、項目の少なくとも１つのアニメーションスニペットを含むそれぞれの項目と、を受信することと、ストリングのサブストリングに一致する項目のコレクションを階層的に検索することと、一致した項目のアニメーションスニペットを取得して、発話アトムを包含することと、取得したアニメーションスニペットを組み合わせてストリングをアニメーション化することと、を含む、方法。

発話をアニメーション化するための方法であって、アニメーション化される音素のストリングと、音素の最も安定している部分で又はその部分付近で連結されるように構成された多音字（polyphone）及び部分音素のストリングを含む複数のアニメーションスニペットと、を受信することと、音素のストリングのサブストリングに一致するアニメーションスニペットを検索して取得し、音素のストリングを包含することと、取得したアニメーションスニペットを組み合わせてストリングをアニメーション化することと、を含む、方法。

文脈の中で音素をアニメーション化するための方法であって、モデル口形素と、文脈の中で発音される音素のアニメーションの重みの時系列に対応するアニメーションスニペットと、を受信することと、モデル口形素のアニメーションの重みとアニメーションスニペットのアニメーションの重みとをブレンドして文脈の中で音素をアニメーション化することと、を含む、方法。

表情のある発話アニメーションのための方法であって、筋肉ベースの記述子情報に関連付けられた第１のアニメーション入力と、筋肉ベースの記述子情報に関連付けられた第２のアニメーション入力と、を受信することと、表情のある発話アニメーションをアニメーション化するために、アニメーション入力を筋肉ベースの記述子の重み付けにマッピングするように構成された出力重み付け関数の引数として、第１のアニメーション入力及び第２のアニメーション入力を使用することであって、出力重み付け関数は、第１及び第２のアニメーション入力からの筋肉ベースの記述子情報を調整するように構成されている、ことと、マッピングされた筋肉ベースの記述子の重み付けを使用してアニメーション化することと、を含む、方法。

図１は、発話アニメーションを生成するためのプロセスのフロー図を示す。図２は、ルックアップテーブルを作製するフロー図を示す。図３は、発話をアニメーション化する方法のフロー図を示す。図４は、ルックアップテーブルの構築のためのテキスト処理を示す。図５は、異なるコレクションのサブストリングを文に一致させる例を示す。図６は、図５のストリングをアニメーション化するために取得されたアニメーションスニペットの組み合わせを示す。図７は、異なるコレクションのサブストリングを文に一致させる例を示す。図８は、図７のストリングをアニメーション化するために取得されたアニメーションスニペットの組み合わせを示す。図９は、口形素ポーズの例を示す。図１０は、修正ガウスの例を示す。図１１は、２つの重なり合うガウス曲線の例を示す。図１２は、アニメーションシステムを示す。図１３は、一実施形態によるアニメーションの優先度値の表を示す。図１４は、アニメーションコンポーザで使用される乗数値の表を示す。図１５は、発話を優先して嬉しい表情とブレンドされた口形素ポーズの例を示す。図１６は、発話を優先して不安な表情にブレンドさせた口形素ポーズの例を示す。

パート１「階層的ルックアップ及び多音字連結」に記載されているように、記録されたパフォーマンスからアニメーションシーケンスが再生されて、口形素シーケンスが作製され、ルックアップテーブルに入力される。これにより、口形素の遷移の動態に変化がもたらされ、個人のスタイルが組み込まれる。記録されたアニメーションシーケンスの選択は、（階層的検索アルゴリズムを使用して）計算効率的な連結単位選択モデルに基づく。

手動で作製されるか又は具体的に選択された口形素の（モデル）アニメーションシーケンスが、読唇を目的とした視覚的キューの完全な開発を確実にするために、音素（パート１に記載されている方法から得られたアニメーションシーケンスとブレンドされた）の始まりに導入されてもよい。これは、パート２「モデル口形素とのブレンド」で詳細に記載されている。生成された発話アニメーションシーケンスは、視覚的アーチファクトを低減するために、平滑化されブレンドされてもよい。パート３は、パート１及びパート２に開示されている方法が、発話のアニメーションを超えてジェスチャのアニメーションにどのように適用され得るかを説明する。

パート４は、感情的変化を発話に導入するために、顔の表情を発話アニメーション上に重ね合わせることを可能にするための技術を記載する。出力重み付け関数は、発話及び表情の筋肉が矛盾しないように表現されることを確実にする。

本明細書に記載される技術は、アバター、デジタルキャラクタ、又は自律エージェントとしても知られる仮想キャラクタ又はデジタルエンティティの発話をアニメーション化するために使用されてもよい。
１．階層的ルックアップ及び多音字連結
技術的問題

手続き型発話アニメーション及び３Ｄアニメーションのオンラインリアルタイム生成は、アニメーションシーケンスのわずかなセットによって制限され、ロボットのような非現実的な反復式アニメーションが、特に口形素の遷移で頻繁に観察される。

発話のアニメーション化における更なる課題は、人間が調音結合していること、換言すれば、口形素が互いに重なり合い、混ざり合う場合があり、発話の視覚的表現を複雑にしていることである。口の動きはそれらの文脈（先行及び／又は後続の口形素など）に従って変化し得るため、口形素シーケンスを一緒につなぎ合わせるだけでは、発話で生じる自然な変化をキャプチャすることはできない。すなわち、音素に対応する口形状は、発せられる音素自体だけでなく、瞬間的音素の前及び／又は後に発せられる音素に依存する。口形状は、それらの口形状の使用と矛盾しない文脈の中で発せられる音素と併せて使用され得るため、調音結合効果を考慮しないアニメーション方法は、観る側から人工として知覚されるであろう。

更に、従来の発話アニメーション技術は、発話スタイル、すなわち、発話の意図的な変化によって現れる連続した口形素形状、及び／又は人に依存する発話スタイル（視覚的アクセントに類似）を明示的にモデル化することができない。
技術的解決法

発話のストリング（文など）を現実的にアニメーション化するために、ストリングのサブストリングの記憶された例（アニメーションスニペット）をサブストリングの長さの降順で検索し、取得したサブストリングを一緒につなぎ合わせて、それらが発話アニメーションのストリングを完成させるようにするための階層的検索アルゴリズムが提供される。

サブストリングは、多音字及び部分（又は半）音素の一意な部分音素ストリングであってもよい。サブストリングは、一般に音素の最も安定した部分である（少なくとも隣接する音素に関係なく変化する）音素の中間点で連結されてもよく、連結されたサブストリング間の平滑な遷移の可能性を高める。
詳細な説明
モデルの作製

音素に富んだコーパスは、ルックアップテーブル内の項目ごとにアニメーションスニペットの複数の例が密に入力されたルックアップテーブルを生成する。図２は、ルックアップテーブルを作製するためのフロー図を示す。工程２０２で、発話者による音素に富んだコーパスの発話パフォーマンスのモーションキャプチャが実行される。発話者は、ニュートラルの顔の表情で発話パフォーマンスを実施する（例えば、コーパスを読む）。顔のランドマークが、発話パフォーマンス中に追跡されてもよい。話すときの顔の筋肉の動きを追跡する基準ランドマークが識別され、例えば、明るい色の顔用塗料を使用して発話者の顔面にマークが付けられてもよい。基準ランドマークは、好ましくは、顔、特に口領域内の良好な適用範囲と、ビデオ記録内の発話者の顔の特徴に対する良好なコントラストと、を有する。基準ランドマークは、ビデオ記録の全てのフレーム内で手動又は自動で追跡されてもよい。

工程２０４は、発話の文脈情報、例えば、韻律及び品詞タグを生成する自然言語処理などにより、タイムスタンプを用いた発話パフォーマンスの自動音素ラベリングを含む。工程２０６は、ブレンドシェイプの重みの時系列を生成するため、発話パフォーマンスへの３Ｄブレンドシェイプリグの顔の再標的化を含む。顔の基準ランドマークの動きは、ＦＡＣＳ動作単位（action unit、ＡＵ）に再標的化される。国際公開第２０１７０４４４９９Ａ１号（本出願人によって所有され、参照により本明細書に組み込まれる）に記載されている画像規則化及び再標的化システムは、連結モデルのためのデータを作製する際に顔のパフォーマンスを再標的化するために使用されてもよい。工程２０８は、顔のブレンドシェイプの重みの時系列を記憶するルックアップテーブルの作製を含む。
ルックアップテーブルの作製

発話アニメーションモデルのルックアップテーブルは、コーパス内の音素、音節、単語、及び文に基づいて階層的に整理され、構築される。このような情報は、トークン化、テキスト正規化、品詞タグ付け、及び音素生成を含むテキスト処理モジュールから得られ得る。一実施形態では、ルックアップテーブルは、９つの項目のコレクション、すなわち、左半音素（halfpho）、右半音素、二音素（dipho）、文境界の二音素、母音中心の三音素（tripho）、子音中心の三音素、文境界の三音素、音節、及び単語のコレクションを含む。ルックアップテーブルのそれぞれのコレクションには、コレクションの説明に合う１つ以上の項目が存在し得る。ルックアップテーブル内の項目は、部分（例えば、半）音素のストリングであってもよい。

ダイフォン（diphone）連結システムは、発話合成において、音素は左半音素及び右半音素に分割されてもよい、という特徴をもつ。ダイフォン（又は二音素）は、ある音素の中間から次の音素の中間まで延在する音響単位である（すなわち、前部の右半音素及び後部の左半音素で構成され、それぞれの部分（又は半）音素間の遷移を含む）。それぞれのダイフォンは、始まりの音素及び終わりの音素が定常状態に達している隣接するダイフォンと連結されるため、かつそれぞれのダイフォンは音素から音素への実際の遷移を記録するため、ダイフォンの連結を使用する合成は、良質な音質を提供する。同様の方法で、発話アニメーションでは、口形素画像をダイフォンにマッピングするため、唇、歯、及び舌の位置決めを動的に描写する一続きの画像を含む「ディセーム（diseme）」が２つの口形素間の遷移を捉える。ディセームは（ダイフォンと同様）、１つの口形素（音）中のどこかで始まり、続く口形素（音）中のどこかで終わる。

多音字及び半音素を含むコレクションによって分類された項目への文の分解を示す例が、図４に示されている。図４は、アニメーションスニペットをルックアップテーブルに追加するための、「ＡｕｔｈｏｒｏｆｔｈｅｄａｎｇｅｒｔｒａｉｌＰｈｉｌｌｉｐＳｔｅｅｌｓｅｔｃｅｔｅｒａ」という文のテキスト処理を示す。ルックアップテーブルを構築するとき、コーパス内のそれぞれの文は、発話分析を受けて、その文の音声の生成に関与する音素のシーケンスを明らかにする。音素のシーケンスが網羅的に検索されて、ルックアップテーブルの項目のコレクションごとに例示的なアニメーションスニペットが提供される。ルックアップテーブルのそれぞれのコレクション内の項目は、アニメーションスニペットのいずれの例も含まないか、又はそれらの持続時間に従ってソートされた１つ又は複数の例を含み得る。

一実施形態では、コレクションは、異なる多音字単位の項目を含む。多音字は、２つ（ダイフォン）、３つ（トライフォン）（triphone）又はより多くの音からなる群を含み、安定領域（一般的に中間音素）において所望の音の群を分節化することによって記憶され得る。したがって、多音字を基本の副単位として処理することによって、２つの隣接する音の間の遷移は、記録された副単位内に保存され、類似した発話ポーズ間の連結が実施される。したがって、ルックアップテーブル内のアニメーションスニペットの最初の音素及び最後の音素は、それぞれ右半音素及び左半音素であり、異なる時点のアニメーションスニペットが、音素の中間点で又はその中間点付近でブレンドされる。ある音素から別の音素への遷移は、生成されたアニメーションの平滑な流れを確実にするために、連続したアニメーションスニペット片から得られる。

単語コレクションは、２つ以上の音節の単語に対するアニメーションスニペットを含む。例文「ＡｕｔｈｏｒｏｆｔｈｅｄａｎｇｅｒｔｒａｉｌＰｈｉｌｉｐＳｔｅｅｌｓｅｔｃｅｔｅｒａ．」は、２つ以上の音節を有する４つの単語を有していた。これらの単語のアニメーションスニペットは、単語コレクション内の別個のルックアップテーブルの項目である。この例にはない反復単語及び同音単語は、異なる例として同じルックアップ項目に入ることになる。音節は、１つ以上の音素を含む発音単位であるが、それらのうちの１つのみが母音である。音節コレクションは、音節及び単一音節の単語のアニメーションスニペットを含む。

図４の例文は、単一音節の５つの単語を有する。これらの単語のアニメーションスニペットは、音節コレクション内の別個／独自のルックアップテーブルの項目である。複数の音節を有する単語も音節に分割されて、音節ルックアップ項目の例示的なアニメーションスニペットを提供する。例えば、単語「ａｕｔｈｏｒ」は、音節「Ｏ」及び「Ｄ＠」に分割される。これらの音節のそれぞれは、異なるルックアップ項目に入っている。同音の音節は、異なる例として同じルックアップ項目に入ることになる。

三音素は、前部の右半音素、中間部の全音素、及び後部の右半音素からなる音声の単位である。母音中心の三音素コレクションは、中央の音素が母音である全ての三音素のアニメーションスニペットを含む。例文における音素のシーケンスからは、母音中心の三音素が網羅的に検索される。音素を有する例文における最初の母音中心の三音素「／Ｄ＠Ｏ／」は、単語「ａｕｔｈｏｒ」の母音音素「＠」を有していた。「＠」の前及び後の音素は、それぞれ単語「ａｕｔｈｏｒ」の「Ｄ」及び単語「ｏｆ」の「Ｏ」である。子音中心の三音素コレクションは、中央の音素が子音である全ての三音素に対するアニメーションスニペットを含む。文境界の三音素コレクションは、文の始まり又は文の終わりの三音素に対するアニメーションスニペットを含む。このコレクションでは、沈黙の前又は後の沈黙は、半音素と見なされる。それぞれの文には２つの文境界の三音素があり、これは文中の最初の音素及び最後の音素に由来する。例文では、それらは、単語「ａｕｔｈｏｒ」の／ＯＴ／及び単語「ｃｅｔｅｒａ」の／ｒ＠／である。このコレクションでは、文の前又は後の沈黙も半音素と見なされるため、／ＯＴ／例は、文の前の沈黙の右半分、音素／Ｏ／の全体、及び／Ｔ／の左半音素を含んでいた。同様に、／ｒ＠／例は、／ｒ／の右半音素、音素／＠／の全体、及び文の後の沈黙の左半分を含んでいた。

二音素コレクションは、全ての二音素に対するアニメーションスニペットを含む。文境界の二音素コレクションは、文の始まり又は文の終わりのアニメーションスニペットを含む。このコレクションでは、沈黙の前及び後の沈黙は、半音素と見なされる。したがって、このコレクションは、文の始まりの最初の半音素に対するアニメーションスニペットと、文の終わりの最後の右半音素に対するアニメーションスニペットと、を含む。それぞれの文には２つの文境界の二音素があり、これらは文中の最初の音素及び最後の音素に由来する。例文では、第１の文境界の二音素は、文の前の沈黙の左半分、単語「ａｕｔｈｏｒ」の右半音素／Ｏ／である。第２の文境界の二音素は、単語「ｃｅｔｅｒａ」の右半音素／＠／、及び文の後の沈黙の左半分である。

左半音素コレクションは、全ての左半音素に対するアニメーションスニペットを含み、右半音素コレクションは、全ての右半音素に対するアニメーションスニペットを含む。

上記のコレクションの分類は、あくまでも１つの可能な分類であり、他の実施形態では、コレクションは、文コレクション又は複数語コレクションなどのより粒度の低いコレクションを含んでもよい。
アニメーションのリアルタイム生成：

図３は、発話をアニメーション化する方法のフロー図を示す。工程３０２では、入力文の音素タイムスタンプ及び文脈情報が生成される。文脈情報は、ピッチ、強調、音節、及び単語情報などを含む。工程３０４では、工程３０２で提供された情報に基づいて選択された顔のブレンドシェイプの重みの時系列が連結されて、「発話アニメーションの生成」で説明したように連続的な「データ駆動型」発話アニメーションの一片が形成される。工程３０６では、明確な口形状（例えば、ｐ、ｂ、ｍ、ｆ、ｗ）に関連する音素が、より良好な視覚的キューを得るために手動でポージングされた口形素例とブレンドされる（パート２「モデル口形素とのブレンド」で更に詳細に記載される）。工程３０８では、アニメーションが平滑化され、ブレンドされる。工程３１０では、発話アニメーションがエネルギに基づいて変調される。工程３１２では、アニメーションが再生され、オーディオに同期される。
発話アニメーションの生成

発話に変換されるテキストを受信した後、発話分析ソフトウェアによって音素のシーケンスが生成される。ルックアップテーブルからのアニメーションスニペットの選択は、階層的アルゴリズムを使用して実行される。アニメーションスニペットのより大きな連続片が、可能なときはいつでも使用される。ルックアップテーブルのコレクションの検索は網羅的であり、追加の一致が見つからない場合のみ、階層内で次に下のコレクションに進む。

図５及び図７は、１２３１文のコーパスを使用して構築されたルックアップテーブルからの、アニメーションスニペット連結の例を示す。

図７は文「ＡｎｄｗｅｗｉｌｌｇｏｍｅｅｔｈｅｒＷｅｄｎｅｓｄａｙａｔｔｈｅｔｒａｉｎｓｔａｔｉｏｎ」を示す。７０２では、ルックアップテーブルの単語コレクションで一致する単語が検索される。２音節以上の単語が例文中で特定されている。単語「ｗｅｄｎｅｓｄａｙ」及び「ｓｔａｔｉｏｎ」は、コーパス内に存在し、それらの対応するアニメーションスニペットが選択される。これらのアニメーションスニペットの最初の半音素及び最後の半音素でブレンドが実行される。７０４では、ルックアップテーブルの音節コレクションで、工程７０２で検出された単語によって既に扱われている音節以外の音節が検索される。単一音節の単語及び複数音節語の個々の音節が、階層的検索プロセスを受ける。一致する音節は、図の「音節」行に列挙されている。７０６では、母音中心の三音素コレクションが検索される。単語及び音節コレクションを使用して、音素のほとんどに対して一致するアニメーションスニペットが検出されたが、音節コレクション内の単語「ｔｒａｉｎ」（／ｔｒＥＩｎ／）について一致は見つからなかった。したがって、検索階層は、母音中心の三音素コレクションに進み、／ｒＥＩｎ／に対する例を検出した。例文中に選択されたアニメーションスニペットを有さない残りの半音素から、一致する子音中心の三音素７０８シーケンス／＠ｓｄ／が検出されている。文の最初の音素の右半音素と文の最後の音素の左半音素に対するアニメーションは既に割り当てられているため、文境界の三音素コレクション内で一致する例は取得されない。

前部の音節の最後の音素の右半分と、後部の音節の最初の音素の左半分と、を含む、２つの連続音節のそれぞれの対の間の間隙には、二音素７１０コレクション内の一致するアニメーションスニペットが入力される。２つの例文の最初の半音素及び最後の半音素には、文境界の二音素コレクション内の一致するアニメーションスニペットが入力される。２つの例文にいずれの間隙も残っていない場合、階層的検索は完了する。全ての間隙には、分類内のより上位のコレクションからのアニメーションスニペットが完全に入力されているため、左半音素及び右半音素コレクションでの検索は不要である。
アニメーションスニペットの選択

発話パフォーマンスの記録における記録インデックス、開始時間、及び終了時間が、ルックアップテーブル内のアニメーションスニペットごとに記録される。照会されている所与の項目に対して２つ以上のアニメーションスニペットが存在する場合、アニメーションスニペットは任意の好適な方法で取得されてもよい。一実施形態では、アニメーションスニペットはランダムに取得される。別の実施形態では、対応する発話スニペットに最も近い持続時間（終了時間から開始時間を引いたもの）を有するアニメーションスニペットである。アニメーションスニペットは、発話特徴、又は生成される入力文の文脈情報に基づいて選択されてもよい。文脈情報は、ピッチ、強調、音節、及び単語情報などを含んでもよい。一実施形態では、アニメーションスニペットの選択は、対応する発話スニペットの持続時間と一定範囲内で一致するが、特定の対応する発話スニペットの長さを与えられた同じ（すなわち、最も近い）アニメーションスニペットを確定的に戻さないように擬似ランダム化されてもよい。

ソース（関連付けられたアニメーションスニペット記録）発話及びターゲット（合成された）発話は、ほとんどの場合、異なるオーディオ持続時間を有する。したがって、ソースアニメーションは、ターゲットオーディオ持続時間内に収まるように伸張される（又は圧縮される）。この伸張（又は圧縮）は、ソースアニメーション上の音素境界が、ターゲットオーディオに一致するように変換される区分的多項式補間を使用して行われてもよい。

一実施形態では、アニメーションスニペットは、それらが描写する元の発話及び／又は他の音／オーディオに関連付けられる。これは、例えば、工程２０２の工程で記載されるように、発話者が発話パフォーマンスを実施するときに、ビデオと共にオーディオをキャプチャすることによって達成され得る。カメラ（単数又は複数）が発話者の口の動きの記録を妨害しないように、高品質のマイクロホンブームが発話者の周りに位置付けられてもよい。代替的及び／又は追加的に、画像／ビデオキャプチャ装置全体が、オーディオ記録用に構成された防音室内にあってもよい。したがって、アニメーションスニペットは、連結された視覚情報及びオーディオ情報の組み合わせとして記憶されてもよく、又はアニメーションスニペットは、それらの対応するソースオーディオ情報に関連付けられてもよい。

ビタビ（Viterbi）ベースの動的プログラミングを適用して、ターゲットコスト及び接合コストを併せて最小化することもできる。この場合のターゲットコストは、ソース（コレクション）とターゲット（合成された）発話との間の音素持続時間、エネルギ及びピッチなどの差として定義され得る。接合コストは、２つの音素を連結するときの筋肉チャネルの差の合計である。
２．モデル口形素とのブレンド
技術的問題

発話アニメーションのいくつかの手続き型モデルは、現実的な調音結合方式、例えば、重なり合う優位関数を使用する優位モデルを含む場合があり、所与の口形素が、その近隣の音素を考えた場合にそのターゲット形状にどのくらいで達するかを示す値を与える。しかしながら、優位モデルは、両唇の唇閉鎖（／ｍｂｐ／）及び特定の他の音素の適切な描写を十分に確実にすることができない。
技術的解決法

一実施形態では、発話アニメーションのリアルタイム生成は、モデル口形素を使用して、口形素の始まりのアニメーションシーケンスを予測し、ルックアップテーブルに基づいた（データ駆動型）アルゴリズムを使用して、口形素の遷移における動態を予測する。具体的にポージングされたモデル口形素は、それらの口形素が表現されるときに、アニメーション内の対応する時点で別の方法（パート１「階層的ルックアップ及び多音字連結」で記載した方法など）を使用して生成された発話アニメーションとブレンドされてもよい。
詳細な説明
モデル口形素

口形素として知られる１つ以上の音素の視覚的な例は、口形素をそれらの始まりに現実的に示すモデルの視覚的例（以降「モデル口形素」）として手動でポージングされるか又は意図的に選択されてもよい。モデル口形素は、明確な口形状に関連する音素に対して作製される読唇可能な口形素であってもよく、読唇を目的として完全に開発された視覚的キューを描写する助けとなり得る。口形素の静的ポーズは、単一フレームの表情の重みを変更することによって、経験豊富なアーティストによって手動で作製されてもよい。図９は、ニュートラルな音素／ｍ／、音素／ｆ／、音素／ｗ／の口形素ポーズ例（左から右）を示す。

口形素の静的ポーズは、経験豊富なアーティストが表情（ＦＡＣＳ）の重みを変更することによって、又は実際の対象をスキャンし、ブレンドシェイプモデル内に漸進的な組み合わせのブレンドシェイプとして追加することによって、手動で作製されてもよい。一実施形態では、唇又は歯をくっつける必要がある音素、例えば、／ｂ／、／ｐ／、／ｍ／、／ｆ／、及び／ｖ／と、唇を漏斗形にする必要がある音素、例えば、／ｏ／及び／ｗ／の口形素が作製される。それらの対応する音素の持続時間にわたるこれらのスナップショットの活性化のレベルは、フラットトップ及びピーク１（完全活性化）を有する修正ガウス関数によって記載される。

フラットトップガウス関数は、ユーザに可視であるように、音素の視覚的描写が、その完全活性化にて一定の持続時間（例えば、少なくとも１つのフレーム）保持されることを確実にする。この修正ガウス関数は、左に歪んでいてもよい。これは、口形素の完全活性化が音声中の任意の点で生じ得るという事実を反映したものである。例えば、唇は、音素「ｂ」又は「ｐ」の音声が生成される前に、完全にくっつけられる。ガウス分布の歪み及び広がりは、現在の音素の持続時間、並びに現在の音素の前（左）及び後（右）の持続時間に基づいて自動的に調整される。
活性化曲線

それらの対応する音素の持続時間にわたるこれらのスナップショットの活性化のレベルは、フラップトップ（これはフラップトップガウス関数と異なることに注意されたい）及びピーク１（完全活性化）を有する修正ガウス関数によって説明される。修正ガウス関数の重みはまた、連結されたアニメーションスニペットと、口形素の手動でポージングされたスナップショットとの間のブレンドの重みとして機能する。フレームにおける修正ガウス関数の重みが１であるとき、このフレームの表情の重みは、対応する口形素の手動で作製されたスナップショットのみに由来する。修正ガウス関数の重みが０であるとき、表情の重みは、連結されたアニメーションスニペットのみに由来する。

複数のガウス関数が重なり合う場合、より優先度の低い形状の強度を調整するために正規化工程が実行される。この正規化は、ユーザがそれぞれの音素に割り当てた優先度の重みに基づいて実行される。例えば、／ｂ／の口形素ガウス曲線が／ｏ／の口形素ガウス曲線と重なり合う場合、／ｂ／音素を発する間の唇の閉鎖を維持するために、／ｂ／がアニメーションで優位に立つように、それらの強度が調整され得る。図１１は、２つの重なり合うガウス曲線の（ａ）正規化前及び（ｂ）正規化後の例を示す。これらのパラメータは、経験を通して、又は調音の場所などの生理学的及び解剖学的観察に基づいて割り当てられ得る。

一実施形態では、アニメーションは、ＦＡＣＳＡＵなどの筋肉ベースの記述子のブレンドシェイプに基づき、モデル口形素は、上記の「階層的ルックアップ及び多音字連結」を使用して生成されるアニメーションシーケンスとブレンドされる。結果として得られた音素ガウス曲線は、アーティストによって定義されたマッピングを使用してＦＡＣＳにマッピングされ、連結されたアニメーションスニペットにブレンドされる。修正ガウス関数の重みは、連結されたアニメーションスニペットと、口形素の手動でポージングされたスナップショットとの間のブレンドの重みとして機能する。フレームにおける修正ガウス関数の重みが１であるとき、このフレームの表情の重みは、対応する口形素の手動で作製されたスナップショットのみに由来する。修正ガウス関数の重みが０であるとき、表情の重みは、連結されたアニメーションスニペットのみに由来する。

より一般的なアプローチでは、修正ガウス関数の代わりに、音素の形成のそれぞれの段階における唇形状を説明するパラメータ化されたスプラインモデルが使用され得る。
連結されたアニメーションの平滑化

一実施形態では、生成されたＦＡＣＳアニメーションは、２段階の平滑化及び拡張プロセスを受ける。平滑化の第１段階は、音節の領域にわたる表情の重みに作用する。追加の平滑化が必要とされる場合、平滑化の第２段階は、文の領域にわたる表情の重みに作用する。

平滑化の第１の段階は、階層的フィルタリング方法を使用し、ローパスのバターワースフィルタがそれぞれの音節に、次いでそれぞれの単語に、次いでそれぞれのフレーズに適用される。それぞれのレベルにおいて、バターワースフィルタのカットオフ周波数は、前のレベルから高められる。これにより、音節境界と比較してより高い平滑化が音節内に適用され、同様に単語境界と比較してより高い平滑化が単語内に適用されることが確実になる。加えて、音節及び単語のカットオフ周波数は、複合音素の平均持続時間に基づいて調整される。これにより、平滑度が発話の速度とは無関係に維持されることが確実になる。

平滑化の第２の段階は、アニメーションの重みを制限する、スプライン曲線を当てはめて外れ値を除去する、及び口形状が発話終了後に所望の静止位置に戻ることを確実にするために、シグモイドウィンドウイング操作を適用するなど、標準的なアニメーションクリーンアップ操作の集まりで構成される。加えて、アニメーションの重みは、発話のエネルギに基づいて更に拡張される。例えば、より大きい声の発話は、顎の開きなどのいくつかのアニメーションチャネルに対するより大きな動きに変換される。
３．連結を介した頭部及び眉のアニメーションの生成

頭部の動き及び眉のアニメーションは、「階層的ルックアップ及び多音字連結」に記載されているものと同様の方法で生成される。頭部の動きのアニメーションの場合、傾斜、ピッチ、及びヨー、並びに肩の並進運動が連結される。眉のアニメーションの場合、眉の運動に関連するＡＵ（例えば、眉の内側及び外側を上げる、眉を下げる、など）が連結される。しかしながら、リップシンクアニメーションとは異なり、頭部及び眉のアニメーションは、フレーズ単位で動作する。

頭部及び眉のアニメーションのリアルタイム生成は、以下の工程を含む。
１．文及び単語のタイムスタンプ並びに入力文の文脈情報を生成する。
２．工程１で提供された情報に基づいて選択された、頭部の回転及び並進運動の時系列を連結する。
３．工程１で提供された情報に基づいて選択される、眉のアニメーションの時系列を連結する。
４．アニメーションを平滑化し、ブレンドする。
５．アニメーション信号に感情を追加する。
６．オーディオに同期したアニメーションを再生する。
フレーズコレクション

フレーズのそれぞれの音節数を集めて、一致するアニメーションスニペットを検出する。複数のアニメーションスニペットが検出された場合、それらは、フレーズ内の強調音節位置の類似性に基づいてランク付けされる。一致する強調音節位置を有する複数のフレーズが検出された場合、それらはフレーズの持続時間によって再びランク付けされる。一致するアニメーションスニペットが入力フレーズ上で検出されない場合、フレーズは、複合語の単語境界でサブフレーズに分離される。複合語が検出されない場合、システムは、フレーズ内の強調の数のみを一致させるように切り替える。依然として一致が検出されない場合、システムは、フレーズの中点に最も近い単語境界でフレーズの破断（すなわち、二分裂）を開始する。
キーワードコレクション

Ｇｏｏｄ、ｂａｄ、ｙｅｓ、及びｎｏなどの一定のキーワードは、多くの場合、特定の頭部及び眉の動き（すなわち、うなずく、頭を振る、眉を上げるなど）に関連付けられる。これらのキーワードがフレーズ内で検出された場合、これらの単語のアニメーションは、このコレクション内で検出されたアニメーションスニペットに置き換えられる。アニメーションが生成されると、次に、ノイズを平滑化し、連結アーチファクトを除去するために、アニメーションシーケンスがフィルタリングされる。
例示的ポーズからの舌のアニメーションの生成

通常の発話中に舌の動きをモーションキャプチャすることは困難であるため、舌のアニメーションは、音素ごとに手動で作製された例示的ポーズから生成される。例示的ポーズは、「モデル口形素とのブレンド」に記載されているようにアニメーションとブレンドされてもよい。同様に、正規化重みは、それらの音素の調音の場所に基づいて導出されてもよい。
４．感情的な発話
技術的問題

従来のアプローチは、種々の感情状態で取られた発話アニメーションのいくつかの例を予め記録し、所望の感情を有する発話アニメーションを選択することによって感情的な発話を生成していた。しかしながら、記録される発話の量には、発話中に表わされ得る感情状態の数が乗じられるため、このようなアニメーションモデルを作製するには時間がかかる。これは拡張性がなく、微妙な感情状態を容易に散在させ、発話と統合させることができない。他のアプローチは、顔を話し領域及び感情表現領域に分割し、それらの領域を別々に制御して感情及び発話の両方をアニメーション化してきた。その結果は、顔全体が感情を表現し得るため、自然にも現実的にも見えず、関与する筋肉は相互に排他的ではない。
技術的解決法

出力重み付け関数を使用して、筋肉ベースの記述子の重み付けへの発話入力及び表情入力をマッピングする。
詳細な説明

発話アニメーションは、表情のある発話アニメーションを形成するために表情アニメーションと複合され得る。図１２は、アニメーションシステムを示す。簡略化された実施形態では、アニメーションコンポーザ１２０５は、発話アニメーション及び表情アニメーションを含む２つのアニメーション入力を受信する。アニメーションコンポーザ１２０５は、出力重み付け関数を使用して、受信したアニメーション入力を調整する。例えば、発話アニメーションが表情アニメーションと同時に受信されるときは常に、「発話優位」として定義されるアニメーションチャネル（動作単位）が抑制され（又は制約される、換言すれば、重み付け基準で抑止される／重みが引き下げられる）、それらのアニメーションチャネルの出力アニメーションは、発話アニメーションエンジンからのそれぞれの入力のみ又は主にその入力による影響を受けるようになる。

表情アニメーションは、任意の好適な方法で生成され得る。一実施形態では、アニメーションは、アニメーション化されている対象の内部感情状態をモデリングする神経行動モデル／仮想中枢神経系を使用して生成される。仮想オブジェクト又はデジタルエンティティをアニメーション化するための神経行動モデルの使用は、本発明の譲受人にも譲渡された国際公開第２０１５０１６７２３Ａ１号に更に開示され、参照により本明細書に組み込まれる。別の実施形態では、アニメーションは、相互作用中に対象の共感的ミラーリングを介して提供されてもよい。代替的及び／又は追加的に、感情表現又は伝達表現の事前記録されたアニメーションが提供されてもよい。任意の好適なアニメーション入力の組み合わせが、上記のように、ないしは別の方法で提供されてもよい。表情アニメーションは、発話（リップシンク）アニメーションに追加される、時間的に変化するＦＡＣＳＡＵの重みの集まりとして提示されてもよい。
筋肉ベースの記述子クラスの重み付け

表情アニメーションが発話リップシンクアニメーションに干渉すること又はその逆を防止するために、２つの筋肉ベースの記述子クラス、すなわち、表情ＡＵ及び発話ＡＵが定義される。次いで、それぞれのＡＵに、２つのクラスの重み付け（合計１．０にする）が割り当てられ、異なるタイプのアニメーションシーケンス（発話シーケンス又は表情シーケンスなど）を表現する際のそれぞれのＡＵの相対的重要性が決定される。いくつかの実施形態では、筋肉ベースの記述子クラスの重み付けは、出力重み付け関数における発話アニメーション入力及び表情アニメーション入力に対する係数であってもよい。

いくつかの実施形態では、アニメーションに対する最終的な筋肉の重みが１以下、すなわちＳｕｍ（ＡＵ）＜＝１に制約されるように、制約が適用され得る。例えば、発話駆動型の大頬骨筋ＡＵ１２の活性化と組み合わされる笑顔の完全活性化（大頬骨筋ＡＵ１２の活性化）は、感情の重み付けと発話の重み付けとの両方の活性化を使用して最終的なアニメーションを駆動するが、大頬骨筋の最終活性化を１に制約することによって活性化されてもよい。例えば、半笑い（ＡＵ１２＝０．５）、及び単語「ｓｈｅｅｐ」を発すること（ＡＵ１２＝０．７５）は、Ｓｕｍ（ＡＵ１２）＝０．５＋０．７５＝１．２５となり、これが１に制約される。
優先度の重み付け

アニメーションの複合中、それぞれのアニメーション入力は、クラスごとの優先度値を有してもよい（同じく合計１．０にする）。この優先度値は、優先順位付けされるか又はより明確に描写されることが望ましいアニメーションシーケンスのタイプとして考えられ得る。例えば、アニメーションが明確かつ理解可能な方法で発話を示すことを意図する場合、発話に対する優先度の重み付けは増加されてもよい。逆に、アニメーションが、デジタルキャラクタはデジタルキャラクタの発話を妨げるほど感情的であることを示すことを意図する場合、表情又は感情に対する優先度の重み付けは、発話のものよりも大きくてもよく、又は少なくとも増加されてもよい。
アニメーションコンポーザ

アニメーションコンポーザは、優先度の重み付けを受信し、また、アニメーションコンポーザは、入力シーケンスを拡張するために使用する乗数を決定する。一実施形態では、関数は以下のように定義される。
ｗ＝α_ｓ．ｗ_ｓ＋α_ｅ．ｗ_ｅ
α_ｓ＝ｐ_ｓ＋ｐ_ｅ．（ｃ_ｓ－ｃ_ｅ）
α_ｅ＝ｐ_ｅ＋ｐ_ｓ．（ｃ_ｅ－ｃ_ｓ）
式中、
ｗ_ｓ＝入力発話の重み
ｗ_ｅ＝入力表情の重み
ｐ_ｓ＝発話に対する優先度の重み付け
ｐ_ｅ＝表情に対する優先度の重み付け
ｃ_ｓ＝発話に対する筋肉ベースの記述子クラスの重み付け（分類の重み）
ｃ_ｅ＝表情に対する筋肉ベースの記述子クラスの重み付け
α_ｓ＝発話に対する出力乗数
α_ｅ＝表情に対する出力乗数
並びにα_ｓ及びα_ｅは、０～１の間に制限される。

図１３は、ＡＵ１２、ＡＵ２２、及びＡＵ２６（それぞれ、口角を引き上げる、漏斗型にする、及び顎を下げるＡＵ）のアニメーション優先度を示す。この例では、ＡＵ１２は、高い表情クラスの重み付けを有し、発話クラスの重み付けを有さないが、ＡＵ２２は、高い発話クラスの重み付けを有し、表情クラスの重み付けを有さない。一方、ＡＵ２６は、この２つの混合である。表情アニメーションに優先度が与えられると、表情アニメーションエンジンからのＡＵ１２は（単位乗数を用いて）通過するが、発話アニメーションエンジンからのＡＵ１２は完全に抑制され、それが表情優位アニメーションに干渉することが防止される（例えば、これは、対象が悲しい表情をしているときに、対象が口角を引き上げることを防止する）。しかしながら、対象は話し言葉を形成しようとする（例えば、泣きながら話そうとする）ため、発話アニメーションエンジンからのＡＵ２２は通過を許可される。ＡＵ２２は、感情と矛盾しないため、妨げられない。クラスの重み付けが等しい（すなわち、ＡＵ２６）場合、発話チャネルはまた、それが二重活性化して、表情アニメーションが壊れることを防止するために抑止される。

発話アニメーションに優先度が与えられると、表情アニメーションエンジン及び発話アニメーションエンジンの両方のＡＵ１２が通過する。これは、ＡＵ１２が、表情優位のＡＵであり、発話アニメーションに干渉しないためである。発話アニメーションエンジンからのＡＵ２２は、話し言葉を形成するために通過を許可されるが、表情アニメーションエンジンは、干渉を防止するために抑止される。同様に、表情アニメーションエンジンからのＡＵ２６もまた抑止されるが、発話アニメーションエンジンからのＡＵ２６は通過する。

他のクラスの重み付けの組み合わせ（例えば、ＡＵ２４（唇を押さえ付ける）は、表情アニメーション及び発話アニメーションにおいてクラスの重み付け０．２及び０．８をそれぞれ有する）について、アニメーションコンポーザは、干渉を軽減するために入力アニメーションシーケンスに０～１の非単位乗数を適用する。

図１４は、ＡＵ２４に対するアニメーションコンポーザの拡張の例を示す。図１５は、発話に優先度を有する嬉しい表情とブレンドされた口形素ポーズの例、（左上）嬉しい表情、（右上）音素／ｍ／、（左下）音素／ｆ／、（右下）音素／ｗ／を示す。ＡＵ２６（顎を下げる）は抑制されるが、ＡＵ０６（頬を持ち上げる）及びＡＵ１２（口角を引き上げる）は、口形素形状を形成する際に存在したままである。図１６は、発話に優先度を有する不安な表情とブレンドされた口形素ポーズの例、（左上）不安な表情、（右上）音素／ｍ／、（左下）音素／ｆ／、（右下）音素／ｗ／を示す。ＡＵ２４（唇を押さえ付ける）は抑制されるが、ＡＵ０４（眉を下げる）は、口形素形状を形成する際に存在したままである。
発話アニメーションの「アクセント」のカスタマイズ

口形素の例示的なポーズ及びガウス関数修飾子のカスタマイズ性は、ユーザがアバターの発話スタイル及び個性を調整することを可能にする。これは、解剖学的構造、顔の表情、並びに肌のきめを変形させ得るデジタルキャラクタブレンドシステム（ニュージーランド仮特許出願第７４７６２６号に記載される）と組み合わせて、一意の発話個性を用いて新しいキャラクタを作製することを可能にする。

加えて、このシステムは、異なる言語、アクセント、又は発音スタイルで話す異なる人々からのキャプチャである、複数のルックアップテーブルを組み込むことができる。アニメーション生成段階で、ユーザは、ブレンドされたアバターの視覚的外観に一致させるために、アニメーションを再構成するためのテーブルを選択し得る。
補間との組み合わせ

結果として得られた発話アニメーションをＢｅｎｄｓｈａｐｅＩｎｔｅｒｐｏｌａｔｉｏｎａｎｄＡｎｉｍａｔｉｏｎＦｒａｍｅｗｏｒｋ［ニュージーランド仮特許出願第７４７６２７号］に供給して、組み合わせ及び漸進的形状の非線形補間を用いた信用できるブレンドシェイプアニメーションを生成する。加えて、口形素の例示的なポーズを発話者の３Ｄスキャンから作製することも、デジタルアーティストがスカルプトすることもできる。次いで、これらの例示的なポーズを漸進的な組み合わせ形状として追加して、これらの音素に対して結果として得られる唇形状への追加のカスタマイズを可能にすることができる。

更に、ＦＡＣＳブレンドシェイプで操作する代わりに、口形素ベースのブレンド形状を使用することができる。ニュージーランド仮特許出願第７４７６２７号で定義された名前付け方式を使用して、ＡｎｉｍａｔｉｏｎＦｒａｍｅｗｏｒｋにより、アニメーション段階で口形素ベースのブレンドシェイプをＦＡＣＳＡＵに分解することができる。このアプローチの利点は、ユーザにとってより直感的な制御を提供することである。加えて、これにより、口形素ベースのブレンドシェイプでのみ解決するように顔の再標的化システムを制約することにもなり、したがって、発話シーケンスに対してよりクリーンな解決結果がもたらされる。
例示的実施形態

一実施形態では、ＡＵチャネルは、以下の群に分類される。
・発話の口のＡＵ。例えば、ＡＵ０８（唇を互いに接近させる）、ＡＵ１８（唇をすぼめる）、ＡＵ２２（唇を漏斗型にする）など。
・感情の口のＡＵ、例えば、ＡＵ１２（口角を引き上げる）、ＡＵ１５（口角を下げる）、ＡＵ２１（首を引き締める）など。
・他の口のＡＵ、例えば、ＡＵ１６（下唇を下げる）、ＡＵ２５（唇を離す）、ＡＵ３５（頬を吸い込む）など。
・口以外のＡＵ、例えば、ＡＵ０１（眉の内側を上げる）、ＡＵ０５（上瞼を上げる）、ＡＵ０９（鼻にしわを寄せる）など。

一実施形態では、アニメーション化されているデジタルキャラクタ／仮想エンティティが話し始めると、時間的に平滑化された抑止信号が活性化される。抑止信号は最初にゼロであり、アバターが話を進めるにつれて最大１まで徐々に増加する（増加速度は、約１００ｍｓに設定され得る調整可能なパラメータである）。抑止信号は、感情の流れ（表情アニメーション入力）に由来する特定のＡＵ群の寄与を低減する。抑止率は、他のネットワークによって手動で設定されてもよく、かつ／又は動的に変更されてもよい。一実施形態では、上に定義されたＡＵ分類は、以下のように低減される。
・発話の口のＡＵ－１００％低減
・感情の口のＡＵ－５０％低減
・他の口のＡＵ－１００％低減
・口以外のＡＵ－１０％低減

ＡＵ群に加えて、個々のＡＵに特定の低減係数が設定され得る。アバターが話し終えると、抑止信号は徐々に減少し、ゼロに戻る。減少速度は、通常はより遅いペース（約５００ｍｓ）に設定され、アバターが話し終えた後に完全な表現度を顔に戻すことを可能にする。

解釈
上記の方法及び技術は、英語を基準にして記載されてきたが、本発明はこの点において限定されない。実施形態は、任意の言語の発話アニメーションを促進するように変更されてもよい。骨ベースのアニメーションリギング、又は任意の他の好適なアニメーション技術が、ブレンドシェイプアニメーションの代わりに使用されてもよい。

上記の実施形態のうちのいくつかにおいて、筋肉変形記述子は、ＦａｃｉａｌＡｃｔｉｏｎＣｏｄｉｎｇＳｙｓｔｅｍ（ＦＡＣＳ）によって特定される動作単位（ＡＵ）４２０である。動作単位の例としては、「眉の内側を上げる」、「眉の外側を上げる」、「口角を引き上げる」、「顎を下げる」、及び「口角を引き上げて顎を下げる」が挙げられる。しかしながら、筋肉変形記述子の任意の好適な分類法が使用されてもよい。例えば、筋肉変形記述子はまた、統計的に計算されてもよい。例えば、アニメーション内のフレームのメッシュ形状の変化の主成分は、主成分分析（ＰＣＡ）を使用して計算することができる。対象とする筋肉のみがアニメーションに関与する場合、計算された主成分は、筋肉変形記述子として使用され得る。

記載の方法及びシステムは、任意の好適な電子コンピューティングシステム上で利用されてもよい。以下に記載される実施形態によれば、電子コンピューティングシステムは、様々なモジュール及びエンジンを使用して本発明の方法を利用する。

電子コンピューティングシステムは、少なくとも１つのプロセッサ、１つ以上のメモリデバイス、又は１つ以上のメモリデバイスに接続するためのインターフェースと、システムが１人以上のユーザ又は１つ以上の外部システムからの命令を受信し操作することを可能にするために外部デバイスに接続するための入力及び出力インターフェースと、様々な構成要素間の内部及び外部通信用のデータバスと、好適な電源と、を含んでもよい。更に、電子コンピューティングシステムは、外部及び内部デバイスと通信するための１つ以上の通信デバイス（有線又は無線）と、ディスプレイ、ポインティングデバイス、キーボード、又は印刷デバイスなどの１つ以上の入出力デバイスと、を含んでもよい。

プロセッサは、メモリデバイス内のプログラム命令として記憶されたプログラムの工程を実行するように配置される。プログラム命令は、本明細書に記載されるような本発明を実行する様々な方法が実行されることを可能にする。プログラム命令は、例えば、Ｃベースの言語及びコンパイラなどの任意の好適なソフトウェアプログラミング言語及びツールキットを使用して開発又は実装されてもよい。更に、プログラム命令は、例えば、コンピュータ可読媒体上に記憶されるなど、メモリデバイスに転送される又はプロセッサによって読み取られることが可能であるように、任意の好適な方法で記憶されてもよい。コンピュータ可読媒体は、例えば、ソリッドステートメモリ、磁気テープ、コンパクトディスク（ＣＤ－ＲＯＭ又はＣＤ－Ｒ／Ｗ）、メモリカード、フラッシュメモリ、光ディスク、磁気ディスク、又は任意の他の好適なコンピュータ可読媒体などのプログラム命令を有形に記憶するための任意の好適な媒体であってもよい。電子コンピューティングシステムは、関連データを取得するために、データ記憶システム又はデバイス（例えば、外部データ記憶システム又はデバイス）と通信するように配置される。

本明細書に記載されるシステムは、本明細書に記載される様々な機能及び方法を実行するように配置された１つ以上の要素を含むことが理解されよう。本明細書に記載される実施形態は、システムの要素を構成する様々なモジュール及び／又はエンジンが、機能の実装を可能にするためにどのように相互接続され得るかを示す例を読者に提供することを目的とする。更に、記載される実施形態は、システム関連詳細において、本明細書に記載される方法の工程がどのように実行され得るかを説明する。概念図は、様々な異なるモジュール及び／又はエンジンによって様々なデータ要素が異なる段階でどのように処理されるかを読者に示すために提供される。

したがって、モジュール又はエンジンの配置及び構成は、様々な機能が本明細書に記載されるものとは異なるモジュール又はエンジンによって実行され得るように、かつ、特定のモジュール又はエンジンが単一のモジュール又はエンジンに組み合わされ得るように、システム及びユーザ要件に応じて適合され得ることが理解されよう。

記載されるモジュール及び／又はエンジンは、任意の好適な形態の技術を使用して実装され、命令を提供され得ることが理解されよう。例えば、モジュール又はエンジンは、任意の好適な言語で書かれた任意の好適なソフトウェアコードを使用して実装又は作製されてもよく、コードはその後、任意の好適なコンピューティングシステム上で実行され得る実行可能プログラムを生成するようにコンパイルされる。代替的に、又は実行可能プログラムと併せて、モジュール又はエンジンは、ハードウェア、ファームウェア、及びソフトウェアの任意の好適な混合物を使用して実装されてもよい。例えば、モジュールの一部は、特定用途向け集積回路（ＡＳＩＣ）、システムオンチップ（ＳｏＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は任意の他の好適な適応可能若しくはプログラム可能な処理デバイスを使用して実装されてもよい。

本明細書に記載される方法は、記載された工程を実行するように具体的にプログラムされた汎用コンピューティングシステムを使用して実装されてもよい。あるいは、本明細書に記載される方法は、データ分類及び可視化コンピュータ、データベースクエリコンピュータ、グラフィック分析コンピュータ、データ分析コンピュータ、製造データ分析コンピュータ、ビジネスインテリジェンスコンピュータ、人工知能コンピュータシステムなど、特定の分野に関連付けられた環境からキャプチャされた特異的なデータに対して、記載された工程を実行するように具体的に適合されている、特定の電子コンピュータシステムを使用して実装されてもよい。

１アニメーションスニペット
２ルックアップテーブル
３コレクション
４項目
５インスタンス
６モデル口形素
７ストリング
８筋肉ベースの記述子クラスの重み付け
９優先度の重み付け
１０出力重み付け関数
１１発話
１２表情
１３筋肉ベースの記述子
１４アニメーションコンポーザ

Claims

伝達発声をアニメーション化するための方法であって、
アニメーション化される一連の伝達発声の内容を含むストリングと、
複数のコレクションであって、それぞれのコレクションは、前記ストリングを言語的又は音声的に区分した項目に基づいて階層的に整理し、前記項目に関するアニメーションの断片を示すアニメーションスニペットを含み、複数の音素に関する前記アニメーションスニペットを含む音素コレクションを含む、複数のコレクションと、
を受信することと、
前記コレクションで前記ストリングを区分した、前記ストリングの一部分であるサブストリングと一致する項目を階層的に検索することと、
一致した項目に対するアニメーションスニペットを取得することと、
前記取得したアニメーションスニペットを組み合わせて、前記ストリングをアニメーション化することと、を含み、
前部の音節の最後の音素の右半分と、後部の音節の最初の音素の左半分と、を含む、２つの連続音節のそれぞれの対の間の間隙には、前記音素コレクション内の一致するアニメーションスニペットを組み合わせる、
方法。
前記伝達発声が発話である、請求項１に記載の方法。
前記階層的な順序により長い項目が優先される、請求項１に記載の方法。
少なくとも１つの項目が複数のアニメーションスニペットを含み、アニメーションスニペットは、その持続時間に基づいて取得される、請求項１に記載の方法。
少なくとも１つの項目が複数のアニメーションスニペットを含み、アニメーションスニペットは、対応する発話特徴に基づいて取得される、請求項１に記載の方法。
アニメーションスニペットは、前記アニメーションに対応する音声に関連付けられている、請求項１に記載の方法。
アニメーションスニペットを圧縮及び／又は伸張して、前記アニメーションに対応する前記音声と一致させる工程を含む、請求項６に記載の方法。
前記項目が部分音素ストリングを含む、請求項１に記載の方法。
アニメーションスニペットは、筋肉ベースの記述子の重みを記憶する、請求項１に記載の方法。