JP2005346721A - 自動的に動画を生み出すシステム - Google Patents

自動的に動画を生み出すシステム Download PDF

Info

Publication number
JP2005346721A
JP2005346721A JP2005163428A JP2005163428A JP2005346721A JP 2005346721 A JP2005346721 A JP 2005346721A JP 2005163428 A JP2005163428 A JP 2005163428A JP 2005163428 A JP2005163428 A JP 2005163428A JP 2005346721 A JP2005346721 A JP 2005346721A
Authority
JP
Japan
Prior art keywords
data
moving image
scenario template
scenario
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005163428A
Other languages
English (en)
Inventor
Tse-Jen Lu
澤人 盧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Reallusion Inc
Original Assignee
Reallusion Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Reallusion Inc filed Critical Reallusion Inc
Publication of JP2005346721A publication Critical patent/JP2005346721A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Abstract

【課題】 自動的に動画を生み出すシステムと方法を提供する。
【解決手段】 主に音声変化分析のデータを通してシナリオテンプレートデータベース中の顔表情調整パラメーターを自動的に対応し保存し、顔表情は時間軸に従い調整され、自動的に音声及び表情変化を具えた動画効果を生み出すシステム及び方法である。該シナリオテンプレートデータベースは複数の顔の表情の調整パラメーターを含み、異なる顔表情調整パラメーターの配列組合せを通して異なる表情変化シナリオを生み出すことができる。さらに、音声屈折の変化を対応させ、豊富で変化に富んだ動画効果を自動的に発生することができる。
【選択図】 図 1

Description

本発明は一種の自動的に動画を生み出すシステムに関する。特に、音声分析に顔の表情変化を組合せ自動的に動画を生み出すシステムと方法で、その係音声分析のデータに自動的に顔の表情を対応させパラメーターを調整し、音声及び表情の変化を具えた動画効果を生み出すシステム及び方法に係る。
従来公知の動画編集技術において、例えば、特許文献1等に開示されており、音声分析技術を利用し、対応する音声時間軸の口唇形状データを導き、該データにより映像を駆動し、擬似で話しをするキャラクターを生み出す。このような処理は自動化されてはいるが、生み出される動画は口唇形状のみであるため、表情の変化に乏しく、生命力とリアリティに欠ける。
現行の方法において表情の変化をプラスするためには、使用者は対応する音声の時間軸上において、時間毎編集(Timeline Editor)などの適当な制作ツールを利用し動画編集を行い(これはKey Frame Animation方法と呼ばれる)、表情変化の効果を生み出す必要がある。このような制作ツールでは通常は音声波形を時間軸画像表示の制作インターフェースとし、画面上である時間点を選択し、該時間点上にキーフレーム(Key Frame(動画フレーム))を加え、このキーフレーム(Key Frame(動画フレーム))の内容を編集し、変更(Transition)指定をするなどのステップを含み、前記ステップを数回繰り返した後、豊富な表情を具えた動画編集を完成することができる。通常は、制作の便のため、刪除、コピーなどの基本の編集機能も該制作ツールに含んでいる。
特開平11−219446号公報
上述した従来公知の編集技術には、以下の欠点があった。
すなわち、公知方式の時間軸上で行う表情変化の編集は非常に複雑で、通常使用者は高度な動画制作の専門知識が必要である。
さらに、時間軸上で行う動画の編集には煩雑な編集ツール及び入力装置が必要で、結果が出るまでには非常に長い時間がかかる。 しかも限られた入力装置(携帯電話端末など)上でのこのような機能の実現は容易ではない。
加えて、編集結果は特定の音声時間軸で行われる編集に対応するため、音声データが変化すると再度編集し直さなければならず、データを繰返し利用することができない。
本発明は上記構造の問題点を解決した自動的に動画を生み出すシステムを提供するものである。
上記課題を解決するため、本発明は、下記の自動的に動画を生み出すシステムを提供する。
それは、主に自動的に動画を生み出すシステムと方法で、特に音声分析に顔の表情変化を組合せ自動的に動画を生み出すシステムと方法で、音声分析のデータに対して自動的に顔の表情を対応させパラメーターを調整し、音声及び表情の変化を具えた動画効果を生み出すシステム及び方法で、
さらに、音声或いはイベント駆動を通して、シナリオテンプレートを当てはめるシステム及び方法で、音声入力後、使用者は好みの「シナリオ」(Scenario)を選択するだけで、豊富な表情を具えた動画を自動的に生じることができる。ここで、イベント駆動とは、特徴的な出来事やイベントを分割点と見なし、シナリオテンプレート処理モジュールのパート対応を行うオペレーションの方式である。
また、シナリオテンプレートデータベースを提供し、シナリオテンプレートは元々のキーフレーム(Key Frame(動画フレーム))中の顔の表情調整パラメーターデータを異なるシナリオに基づき分類し、分類後のデータはシナリオテンプレートを形成し、シナリオテンプレートデータベース中に保存し、使用者がシナリオを選択後、本発明システム及び方法は入力された音声に対して分析を行い、異なる特性のパートを探し、選択されたシナリオに基づき異なる動画変化を当てはめ、こうして同様のテンプレートは長さが異なる音声に運用され、加えて、それは簡単な動画発生システム及び方法を提供し、該システム及び方法を通して、使用者は写真を入力し、音声を入力し、テンプレートを選択するだけで豊富な動画出力を完成することができ、限られた入力装置で頻繁に使用する状況下(携帯電話端末でメールを送信するなど)での操作使用に非常に適していることを特徴とする自動的に動画を生み出すシステムである。
すなわち、請求項1の発明は、主に音声或いは出来事の動きを通して、使用者の選択のシナリオに基づき自動的に発生する動画であって、それはシナリオ選択インターフェース、シナリオテンプレートデータベース、シナリオテンプレート処理モジュール、動画発生モジュールから構成され、該シナリオ選択インターフェースにより使用者はシナリオテンプレートを選択し、該シナリオテンプレートデータベースはシナリオテンプレートデータを保存し、該シナリオテンプレート処理モジュールは入力したシナリオに基づき選択したシナリオテンプレートデータを配置し、動画パラメーターを生じ、該動画発生モジュールは配置が完成した動画パラメーターに基づき、動画データを発生させることを特徴とする自動的に動画を生み出すシステムである。
請求項2の発明は、前記動画を生み出すシステムは、さらに特徴点識別モジュール、特徴点対応モジュール、音声分析モジュールの構成が付加され、該特徴点識別モジュールは影像の特徴点を識別し、該特徴点対応モジュールは該識別が完了した影像の特徴点によりメッシュデータを形成し、該音声分析モジュールは音声データを識別及び分析することを特徴とする請求項1記載の自動的に動画を生み出すシステムである。
請求項3の発明は、前記動画発生モジュールは、前記配置が完成した動画パラメーターに基づきメッシュデータを調整し、音声再生及び口唇データに対応し動画を生み出すことを特徴とする請求項2記載の自動的に動画を生み出すシステムである。
請求項4の発明は、前記特徴点対応モジュールは漸進的特徴点対応方式 (Progressive Geometry Construction)を採用し、以下のステップを含むものであって、
(a)ポートレイト影像の顔の最も精密な特徴点を五官特性に基づき異なるグループに区分し、
(b)前記影像により生み出した最も精密な特徴点を数個のレベル(水準(Level))毎に区分し、各レベル間の対応関係を確立し、
(c)特徴点識別結果を入力し、
(d)該特徴点を利用しさらに精密なレベルの特徴点に調整し、
(e)ステップ(d)を繰返し、最も精密な特徴点を獲得し、
(f)最も精密な特徴点を利用し顔のメッシュデータを確立することを特徴とする請求項2記載の自動的に動画を生み出すシステムである。
請求項5の発明は、前記シナリオテンプレートデータは、さらに以下のデータを含むものであって、
(a)複数組の動画パートのデータは順番通りの動画を表示し、
(b) 各動画パートは複数組の動画状態のデータを含み、インデックス或いは確率によって前記音声セクションに対応し、
(c)対応する各組の動画状態の動画データ、
(d)上記各データのデータ構造を記録し、階層に応じて配置することを特徴とする請求項1或いは2記載の自動的に動画を生み出すシステムである。
請求項6の発明は、前記シナリオテンプレート処理モジュールの処理過程は以下のステップを含むものであって、
(a)入力した音声或いはシナリオを動画パート数量と同数のセクションに分割し、
(b)シナリオテンプレートデータ中の動画パートに対応し、動画パートの手順の不変を維持し、
(c)シナリオテンプレートデータ中の動画状態に対応し、インデックス或いは確率に基づき対応し、動画パートを組成し、
(d)シナリオテンプレートデータ中の動画データを展開し、各動画状態が対応するキーフレームデータを展開し、結果を出力することを特徴とする請求項1或いは2記載の自動的に動画を生み出すシステムである。
請求項7の発明は、前記シナリオテンプレートは動態連続の顔表情或いは五官比率、位置、サイズ、回転変化の動画パラメーターであることを特徴とする請求項1或いは2記載の自動的に動画を生み出すシステムである。
請求項8の発明は、前記シナリオテンプレートは人の皮膚質感(テクスチャー)或いは影像色調、明暗変化の動画パラメーターであることを特徴とする請求項1或いは2記載の自動的に動画を生み出すシステムである。
請求項9の発明は、前記シナリオテンプレートは動態連続の漫画符号効果を組合せた動画パラメーターを対応可能であることを特徴とする請求項1或いは2記載の自動的に動画を生み出すシステムである。
請求項10の発明は、主に以下のステップを含むものであって、
(a)動画発生モジュールを初期化し、
(b)シナリオ選択インターフェースにより、シナリオテンプレートデータベース中より手動或いは自動でシナリオテンプレートデータを選択し、
(c)シナリオテンプレート処理モジュールにより、該選択したシナリオテンプレートデータに対応し、動画パラメーターを展開し、
(d)動画発生モジュールにより、該完成した動画パラメーターに基づき、メッシュデータ調整し、動画データを発生させることを特徴とする自動的に動画を生み出すシステムである。
請求項11の発明は、前記ステップ(a)はさらに以下のステップを含み、
(a1)あるポートレイト影像を入力し、
(a2)特徴点識別モジュールにより該ポートレイト影像のポートレイト特徴を識別及び定位し、
(a3)特徴点対応モジュールにより該識別が完了したポートレイト影像の特徴点をメッシュデータに生成させることを特徴とする請求項10記載の自動的に動画を生み出すシステム。
請求項12の発明は、前記ステップ(c)はさらに以下のステップを含むものであって、
(c1)音声データを入力、
(c2)音声分析モジュールにより該音声データを分析し複数の音声セクションに区分し、
(c3)シナリオテンプレート処理モジュールにより該選択したシナリオテンプレートを音声セクションに配置し、動画パラメーターを出力することを特徴とする請求項10記載の自動的に動画を生み出すシステムである。
請求項13の発明は、前記ステップ(c3)はさらに以下のステップを含むものであって、
(c3-1) 入力した音声セクションを動画パートの数量と同量のセクションに分割し、
(c3-2) シナリオテンプレートデータ中の動画パートに対応し、動画パートの順序の不変を維持し、
(c3-3) シナリオテンプレートデータ中の動画状態に対応し、インデックス或いは確率により対応し、動画パートを組成し、
(c3-4) シナリオテンプレートデータ中の動画データを展開し、各動画状態がそれぞれ対応するキーフレームデータを展開し、結果を出力することを特徴とする請求項10記載の自動的に動画を生み出すシステムである。
請求項14の発明は、前記ステップの順序は(a)(b)(c)(d)を(b)(c)(a)(d)に変更可能であることを特徴とする請求項10、11、或いは12記載の自動的に動画を生み出すシステムである。
請求項15の発明は、前記シナリオテンプレートは動態連続の顔の表情の変化、五官比率、位置、回転、或いはサイズの動画パラメーターであることを特徴とする請求項10、11、或いは12記載の自動的に動画を生み出すシステムである。
請求項16の発明は、前記シナリオテンプレートは人の皮膚質感(テクスチャー)或いは影像色調、明暗変化の動画パラメーターであることを特徴とする請求項10、11、或いは12記載の自動的に動画を生み出すシステムである。
請求項17の発明は、前記シナリオテンプレートは動態連続の漫画符号効果を組合わせた動画パラメーターであることを特徴とする請求項10、11、或いは12記載の自動的に動画を生み出すシステムである。
上記のように、本発明は音声分析のデータに自動的に顔の表情を対応させパラメーターを調整し、音声及び表情の変化を具えた動画効果を生み出すことができる。さらに本発明では音声入力後、使用者は好みの「シナリオ」(Scenario)を選択するだけで、豊富な表情を具えた動画を自動的に生じることができる。また本発明は簡単なシステム及び方法であるため、使用者は写真入力、音声入力、テンプレート選択のステップを踏むだけで豊富な動画出力を完成することができ、限られた入力装置で頻繁に使用する状況下での操作に適している。
図1に示すように、本発明の自動的に動画を生み出すシステム1は、シナリオ選択インターフェース151、シナリオテンプレートデータベース16、シナリオテンプレート処理モジュール15、動画発生モジュール17からなる。該シナリオテンプレート選択インターフェース151により使用者はシナリオテンプレートを選択する。該シナリオテンプレートデータベース16により使用者はシナリオテンプレートデータを保存する。該シナリオテンプレート処理モジュール15は使用者が選択したシナリオテンプレートデータを処理する。該動画発生モジュール17により、使用者はシナリオテンプレート及びポートレイトデータを配置しキーフレーム(Key Frame)データを完成し、動画データを生じる。
先ず、本発明の動画発生モジュール初期化により動画状態を生じ、動画発生モジュール初期化後、使用者は該シナリオ選択インターフェース151を用い、該シナリオテンプレートデータベース16中からシナリオテンプレートを選択する。
次に、該オリジナルポートレイト影像122及び該選択したシナリオテンプレートを、該シナリオテンプレート処理モジュール15により処理し、最後に本発明の動画発生モジュール17は該シナリオテンプレートの配置データにより、動画データ18を生じる。
次に、図2に、本発明の別の実施例のシステム構造を示すが、本発明の自動的に動画を生み出すシステム1はさらに特徴点検出モジュール(Feature Detection Module)12、特徴点対応モジュール(Geometry Construction Module)13、音声分析モジュール(Audio Analysis Module)14からなる。
本発明の自動的に動画を生み出すシステム外部の該影像読み取りユニットは、先ずオリジナルポートレイト影像121を読み取る。該オリジナルポートレイト影像121の読み取り後、該特徴点検出モジュール12中に入力し、特徴点の識別を行う。識別完成後、関連するポートレイト特徴は定位を完了される。
続いて、該特徴点対応モジュール(Geometry Construction Module)13は、特徴点検出モジュールを利用し発生する特徴点に対して予め内蔵する1組の一般的メッシュ(Generic Mesh)131により比較調整を行い、動画処理を行うことができるメッシュデータ131とする。ここで、メッシュデータとは特徴点を線で繋いだ(図4に示すような)網の目(mesh)のデータである。
図3に示すように、本システムは漸進的特徴点対応方式(Progressive Geometry Construction)を採用する。この方式は、特徴点を五官特性に基づきグループに区分し、さらに画質に応じて数個のレベル(Level)に区分し、各レベル間の対応関係を確立するものである。また、一般的メッシュ(Generic Mesh)も特徴点(Feature Point)と対応し区分され、処理時には該特徴点(Feature Point)は対応する一般的メッシュ(Generic Mesh)の調整を担当し、絶え間ない調整演算により正確なメッシュ出力を得ることができる。上記調整演算は、演算リソースが十分なシステム(ディスクトップPCなど)において執行するなら、特徴点は完全に検出され、精密な結果を得ることができる。
しかし、演算リソースが限られたハンドヘルドデバイス(携帯電話端末及びPDAなど)で実行し、低いレベルの検出しかなされなくとも、やはり近似した結果を得ることができる。
実際の応用状況においては、前者はコンテンツプロバイダーが提供するデータで、後者は使用者がハンドヘルドデバイス上でリアルタイムに操作し得られるものである。該オリジナルポートレイト影像121は該特徴点検出モジュール12及び該特徴点対応モジュール13により処理され、図4に示すような結果を生じる。
本発明の音声分析モジュール14(図2参照)は公知の技術により制作される音声識別ユニット、及び音声特性を分析する特性分析ユニットを含む。
使用者は、一定時間の音声データを録音することができ、該音声分析モジュール14により音声の識別及び分析を行う。該音声分析ユニットは入力された音声を音声表記に識別し、各音声表記はそれが発生した時間を含む。該特性分析ユニット音声の特性に基づき、音声を異なる特性のセクション区分し、該セクションの特性データ(音声強度など)及び時間情報(開始時間、音声の長さなど)を記録する。音声が識別及び分析を経た結果は図5に示す。
図5に示すように、音声データは該音声分析モジュール14(図2参照)により識別を完了後、5個の音声屈折点41、42、43、44、45に区分され、ある人のある状況下(怒り、喜びなど)での話し声の音声変化の状態を表す。
該音声データが該音声分析モジュールにより処理され、数個の特性データを含む音声セクションに区分された後(図6参照)、本発明のシナリオ処理モジュールは音声セクションとシナリオテンプレート中のデータの対応(match)を行う。
図7に示すように、シナリオテンプレートデータは動画パート(Animation Part) 061、動画状態(Animation State) 062、動画データ(Animation Parameter) 063の3個の主要な階層に区分される。
該動画パート061では動画の手順性を表示し、1個の該動画パート061は1個或いは1個以上の音声セクションに対応可能である。
該動画状態062ではそれが所属する動画パート061を構成し、該動画パート061中の1個の動画状態062は1個の音声セクションにのみ対応可能であるが、繰返し出現可能で、該動画状態062中にはインデックスを含む。
該動画データ063ではそれが所属する動画状態062が位置する相対時間軸上のキーフレームデータ(Key Frame Data)を表示し、動画発生モジュールを駆動可能な動画データを生じる。
図8は”喜びが極まって泣く”シナリオテンプレートの構造を示す。シナリオテンプレート処理モジュールは4項の主要ステップを通して、シナリオテンプレートと音声セクションの対応を行う。該3項とは分割音声セクション、動画パート対応、動画状態対応、動画データ展開で、その過程は図9に示す。
動画パート対応はシナリオテンプレート中の動画パートの数量に基づき、先ず音声セクションに等量分割を行い、音声セクションのエネルギーの差異を計算する。次に分割点を移動させ改めて音声セクションのエネルギーの差異を計算し、エネルギーの最大差異を得るまで繰返し演算する。この時の分割点は最良の分割点と見なされ、対応処理の結果動画パート手順は不変で、かつ分割点は最良の位置に位置する。
さらに”喜びが極まって泣く”シナリオテンプレートの動画パート対応の状況を表す図10に示すように、それは”喜”と”泣”の2組の動画パート、091等量分割による対応結果表示、092最良の分割後の対応結果取得表示からなる。
動画状態対応は各1組の動画パート中の動画状態に対して処理を行う。その目的は動画パート中の各1個の音声セクションをすべて1個の動画状態に対応させ、かつ動画状態を繰返し出現可能とすることである。処理方式はインデックス音声特性により分析された確率などの方法に基づく。
続いて”喜びが極まって泣く”動画状態対応結果を示す図11で説明する101は対応が完成した動画パート、102はインデックスに基づき対応した動画状態、103は音声特性により対応した確率対応の動画状態である。
動画データの展開は対応後の動画状態を時間軸上の動画キーフレームに転換する。シナリオテンプレート中の各1個の動画状態はすべて相対時間軸上に位置する、ある段階の動画トラック(Animation Track)を含む。該段階の動画が繰返し標記されていないかどうかは、動画状態対応後に、それが表示する動画トラックを対応する音声セクション開始時間まで移動させ、該段動画データを完成することができる。さらに、該動画データが繰返し標記されていないかどうかに基づき、動画データを音声セクションに繰返しコピーし終了する。
前記のように、本発明シナリオテンプレート処理モジュール(Scenario Template…)の機能はポートレイト影像と音声データを適当に対応(match)させ、動画を生じるものである。
該シナリオテンプレート(Scenario Template)は通常用いられる一種のテンプレート(Template)で、ある特定の顔の表情動画シナリオの表示に用いる。それは動画パート(Animation Part)、動画状態(Animation State)、動画データ(Animation Parameter)を含む。該シナリオテンプレート(Scenario Template)はまたツールが予め制作したデータを利用し、シナリオテンプレートデータベース(Scenario Template Database)中或いは一般の保存装置中に保存することができ、テンプレートによりインターフェース151を選択後、本発明のシステム中において使用することができる。実際の状況では、異なる応用ニーズに応じて異なるシナリオテンプレートを設計し、その数量は応用状況に応じて決定する。また、シナリオテンプレート(Scenario Template)はネットワーク(インターネットなど)或いは他の伝送方式(携帯電話端末など)を利用し応用の設備中にダウンロードしデータを拡充可能なシステムを達成する。
ポートレイト影像データと音声データが上記手順処理を経て本発明の動画発生モジュールに入力されると、最終の動画影像を生じる。
本発明の動画発生モジュールは2D或いは3Dのモジュールとすることができ、音声再生及びキーフレームデータ(Key frame Data)に応じて動画出力を行う。
本発明の音声駆動の自動表情動画発生システム中の各実行ユニット相互間のシステム関係について説明するために、本発明の音声駆動の自動表情動画発生システムの操作過程について以下に記載する。
図12の本発明システム操作フローチャートに示すように、本発明の音声駆動の自動表情動画発生システムは外部の影像読み取りユニットによりオリジナルポートレイト影像(ステップ111)を読み取り、該オリジナルポートレイト影像は読み取り後に本発明システム中の特徴点検出モジュール(Feature Detection Module)中に入力され、特徴点の識別(ステップ112)を行い、識別完成後は、関連するポートレイト特徴の定位を完了される。
続いて、本発明中の特徴点対応モジュール(Geometry Construction Module)は特徴点検出モジュールが発生する特徴点を利用し、1組の既に予め内蔵する一般的メッシュ(Generic Mesh)に対してデータ比較調整を行い、動画処理を行うことができるメッシュ(mesh)データ(ステップ113)とする。
上記オリジナルポートレイト影像識別手順処理の前、後、或いは同時に、使用者は一定時間の音声データを録音することができ、本発明の音声分析モジュールにより音声の識別及び分析(ステップ114)を行う。音声分析ユニットは入力された音声を音声表記に識別し、各音声表記はそれが発生した時間を含む。特性分析ユニットは音声の特性に基づき、音声を異なる特性のセクションに区分する。該セクションの時間情報を含む。
ポートレイト影像の特徴点検出及び特徴点対応の処理手順処理が完了し、かつ音声データの音声分析モジュールによる識別及び分析が完了すると、処理が完了したポートレイト影像データ及び音声データは本発明シナリオテンプレート処理モジュール(Scenario Template Module)に入力される。
本発明シナリオテンプレート処理モジュールのシナリオテンプレート(Scenario Template)は一種のテンプレート(Template)で、特定の動画シナリオの表示に用いる。この手順においては、使用者は手動或いは自動的方式で、シナリオテンプレートデータベース中(Scenario Template Database)より特定のシナリオを選択し、選択されたシナリオは自動的に識別が完了した音声データに基づき対応(Distribution)の処理(ステップ115)を行う。
例えば、使用者が「喜びが極まって泣く」のシナリオを選択すると、本発明のシナリオテンプレート処理モジュールは自動的に音声データ中の挫折抑揚の音声変化に「喜」及び「泣」シナリオ中の顔影像を対応させパラメーターを調整し、音声再生を形成する時に同時に「喜びが極まって泣く」顔の影像変化を表示する。
ポートレイト影像データ、顔の映像調整パラメーター、音声データが上記手順により処理後は本発明の動画発生モジュール(ステップ116)に入力され次の処理が行われ、最終の動画影像(ステップ117)が生じる。
上記システム中において、もし音声分析モジュールの音声特性データをうっかり忘れてしまったなら、3個の動画パートのみを具えたシステムに単純化することができる。該3個の動画パートはそれぞれイントロパート(Intro Part)、再生パート(Play Part)、終了パート(Ending Part)で、音声開始及び音声終了を分割点とし、シナリオテンプレート処理モジュールのパート対応を行う。
この種の簡易システム中において、イントロパート及び終了パートは1個の動画状態のみを含み、かつ繰り返さない。再生パートは1個或いは数個の動画状態で、インデックス或いは再配置が可能である。このようなシステムはハンドヘルドデバイス、携帯電話などの演算リソースが限られたシステムにおいて、音声が比較的短い音声データへの応用に非常に適している。
前記システムで明らかなように、もし音声分析を行わなくても音声再生に従い豊富な顔動画の効果を発生することができる。そのオペレーションの方式はイベント駆動(Event Driven)により、すなわち、特徴的な出来事やイベントを分割点と見なし、シナリオテンプレート処理モジュールのパート対応を行うものである。
本システムのシナリオテンプレート処理モジュールは音声分析モジュールが分析し導き出す音声特性データを直接駆動動画パートのイベント(Event)とすることができる。その方法は異なる音声特性を異なる動画パートに対応させ、シナリオテンプレート過程中に当てはめることができ、音声特性を利用し直接動画を制御する目的を達成することができる。
図12、13に示すように、例えば音程が高い音声121は驚喜を表現する動画パート123に対応し、音程が低い音声122は悲しみを表現する動画パート124に対応すると、この2組の動画パートは音程の高低により制御され、対応する音声特性を分析し導き出す時、直接出現する。
音声分析モジュールは音声を分割する時にも音声の全体特性を考慮することができる。例えば音楽のリズムの分析を分割点とし、シナリオテンプレート処理モジュールを利用し、各音楽の小節に動画を当てはめる。こうしてもし該動画発生モジュールが人体全身のキャラクター動画システムを含むなら、自動的に音楽リズムに従いダンスのステップを生じる。
本発明の実施例のシステム構造図である。 本発明の別の実施例のシステム構造図である。 本発明のポートレイト特徴識別実施例の指示図である。 本発明のポートレイト特徴識別実施例の別種の指示図である。 本発明の音声識別実施例の指示図である。 本発明のシナリオテンプレートと音声配置実施例の指示図である。 本発明のシナリオテンプレートの指示図である。 本発明のシナリオテンプレートの実施例指図である。 本発明のシナリオテンプレート処理モジュールのフローチャートである。 本発明のシナリオテンプレートの動画パート対応の指示図である。 本発明の別種のシナリオテンプレートの動画状態対応の指示図である。 本発明のシステムフローチャートである。 本発明のさらに別種のシナリオテンプレートの動画状態対応の指示図である。
符号の説明
1 本発明
12 特徴点検出モジュール
13 特徴点対応モジュール
14 音声分析モジュール
15 シナリオテンプレート処理モジュール
16 シナリオテンプレートデータベース
17 動画発生モジュール
121 オリジナルポートレイト影像
122 オリジナルポートレイト影像
131 一般的な顔のメッシュデータ
141 音声入力
151 シナリオテンプレート選択インターフェース
18 動画出力
41、42、43、44、45 音声屈折点
50、51、52、5N、5N+1 シナリオテンプレート状態
061 動画パート
062 動画状態
063 動画データ
091 対応ステップ
092 対応ステップ
101 対応ステップ
102 対応ステップ
103 対応ステップ
111、112、113、114、115、116、117 ステップ
21 音程が高い音声
122 音程が低い音声
23 驚喜の動画パート
124 悲しみの動画パート

Claims (17)

  1. 主に音声或いはイベント駆動を通して、使用者の選択のシナリオに基づき自動的に発生する動画であって、それはシナリオ選択インターフェース、シナリオテンプレートデータベース、シナリオテンプレート処理モジュール、動画発生モジュールから構成され、
    該シナリオ選択インターフェースにより使用者はシナリオテンプレートを選択し、
    該シナリオテンプレートデータベースはシナリオテンプレートデータを保存し、
    該シナリオテンプレート処理モジュールは入力したシナリオに基づき選択したシナリオテンプレートデータを配置し、動画パラメーターを生じ、
    該動画発生モジュールは配置が完成した動画パラメーターに基づき、動画データを発生することを特徴とする自動的に動画を生み出すシステム。
  2. 前記動画を生み出すシステムは、さらに特徴点識別モジュール、特徴点対応モジュール、音声分析モジュールの構成が付加され、
    該特徴点識別モジュールは影像の特徴点を識別し、
    該特徴点対応モジュールは該識別が完了した影像の特徴点によりメッシュデータを形成し、
    該音声分析モジュールは音声データを識別及び分析することを特徴とする請求項1記載の自動的に動画を生み出すシステム。
  3. 前記動画発生モジュールは、前記配置が完成した動画パラメーターに基づきメッシュデータを調整し、音声再生及び口唇データに対応し動画を生み出すことを特徴とする請求項2記載の自動的に動画を生み出すシステム。
  4. 前記特徴点対応モジュールは漸進的特徴点対応方式を採用し、以下のステップを含むものであって、
    (a)ポートレイト影像の顔の最も精密な特徴点を五官特性に基づき異なるグループに区分し、(b)前記影像により生み出した最も精密な特徴点を数個のレベルに区分し、各レベル間の対応関係を確立し、
    (c)特徴点識別結果を入力し、
    (d)該特徴点を利用しさらに精密なレベルの特徴点に調整し、
    (e)ステップ(d)を繰返し、最も精密な特徴点を獲得し、
    (f)最も精密な特徴点を利用し顔のメッシュデータを確立することを特徴とする請求項2記載の自動的に動画を生み出すシステム。
  5. 前記シナリオテンプレートデータは、さらに以下のデータを含むものであって、
    (a)複数組の動画パートのデータは順番通りの動画を表示し、
    (b)各動画パートは複数組の動画状態のデータを含み、インデックス或いは確率によって前記音声セクションに対応し、
    (c)対応する各組の動画状態の動画データ、
    (d)上記各データのデータ構造を記録し、階層に応じて配置することを特徴とする請求項1或いは2記載の自動的に動画を生み出すシステム。
  6. 前記シナリオテンプレート処理モジュールの処理過程は以下のステップを含むものであって、
    (a)入力した音声或いはシナリオを動画パート数量と同数のセクションに分割し、
    (b)シナリオテンプレートデータ中の動画パートに対応し、動画パートの手順の不変を維持し、
    (c)シナリオテンプレートデータ中の動画状態に対応し、インデックス或いは確率に基づき対応し、動画パートを組成し、
    (d)シナリオテンプレートデータ中の動画データを展開し、各動画状態が対応するキーフレームデータを展開し、結果を出力することを特徴とする請求項1或いは2記載の自動的に動画を生み出すシステム。
  7. 前記シナリオテンプレートは動態連続の顔表情或いは五官比率、位置、サイズ、回転変化の動画パラメーターであることを特徴とする請求項1或いは2記載の自動的に動画を生み出すシステム。
  8. 前記シナリオテンプレートは人の皮膚質感(テクスチャー)或いは影像色調、明暗変化の動画パラメーターであることを特徴とする請求項1或いは2記載の自動的に動画を生み出すシステム。
  9. 前記シナリオテンプレートは、動態連続の漫画符号効果を組合せた動画パラメーターに対応可能であることを特徴とする請求項1或いは2記載の自動的に動画を生み出すシステム。
  10. 主に以下のステップを含むものであって、
    (a)動画発生モジュールを初期化し、
    (b)シナリオ選択インターフェースにより、シナリオテンプレートデータベース中より手動或いは自動でシナリオテンプレートデータを選択し、
    (c)シナリオテンプレート処理モジュールにより、該選択したシナリオテンプレートデータに対応し、動画パラメーターを展開し、
    (d)動画発生モジュールにより、該完成した動画パラメーターに基づき、メッシュデータを調整し、動画データを発生させることを特徴とする自動的に動画を生み出すシステム。
  11. 前記ステップ(a)はさらに以下のステップを含み、
    (a1)あるポートレイト影像を入力し、
    (a2)特徴点識別モジュールにより該ポートレイト影像のポートレイト特徴を識別及び定位し、
    (a3)特徴点対応モジュールにより該識別が完了したポートレイト影像の特徴点をメッシュデータに生成させることを特徴とする請求項10記載の自動的に動画を生み出すシステム。
  12. 前記ステップ(c)はさらに以下のステップを含むものであって、
    (c1)音声データを入力、
    (c2)音声分析モジュールにより該音声データを分析し複数の音声セクションに区分し、
    (c3)シナリオテンプレート処理モジュールにより該選択したシナリオテンプレートを音声セクションに配置し、動画パラメーターを出力することを特徴とする請求項10記載の自動的に動画を生み出すシステム。
  13. 前記ステップ(c3)はさらに以下のステップを含むものであって、
    (c3-1) 入力した音声セクションを動画パートの数量と同量のセクションに分割し、
    (c3-2) シナリオテンプレートデータ中の動画パートに対応し、動画パートの順序の不変を維持し、
    (c3-3) シナリオテンプレートデータ中の動画状態に対応し、インデックス或いは確率により対応し、動画パートを組成し、
    (c3-4) シナリオテンプレートデータ中の動画データを展開し、各動画状態がそれぞれ対応するキーフレームデータを展開し、結果を出力することを特徴とする請求項10記載の自動的に動画を生み出すシステム。
  14. 前記ステップの順序は(a)(b)(c)(d)を(b)(c)(a)(d)に変更可能であることを特徴とする請求項10、11、或いは12記載の自動的に動画を生み出すシステム。
  15. 前記シナリオテンプレートは動態連続の顔の表情の変化、五官比率、位置、回転、或いはサイズの動画パラメーターであることを特徴とする請求項10、11、或いは12記載の自動的に動画を生み出すシステム。
  16. 前記シナリオテンプレートは人の皮膚質感(テクスチャー)或いは影像色調、明暗変化の動画パラメーターであることを特徴とする請求項10、11、或いは12記載の自動的に動画を生み出すシステム。
  17. 前記シナリオテンプレートは動態連続の漫画符号効果を組合わせた動画パラメーターであることを特徴とする請求項10、11、或いは12記載の自動的に動画を生み出すシステム。
JP2005163428A 2004-06-04 2005-06-03 自動的に動画を生み出すシステム Pending JP2005346721A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW093116054A TW200540732A (en) 2004-06-04 2004-06-04 System and method for automatically generating animation

Publications (1)

Publication Number Publication Date
JP2005346721A true JP2005346721A (ja) 2005-12-15

Family

ID=35450131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005163428A Pending JP2005346721A (ja) 2004-06-04 2005-06-03 自動的に動画を生み出すシステム

Country Status (3)

Country Link
US (1) US20050273331A1 (ja)
JP (1) JP2005346721A (ja)
TW (1) TW200540732A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217447A (ja) * 2007-03-05 2008-09-18 Nippon Hoso Kyokai <Nhk> コンテンツ生成装置及びコンテンツ生成プログラム
JP2010020781A (ja) * 2008-07-14 2010-01-28 Samsung Electronics Co Ltd アニメーション製作方法及び装置
CN102509333A (zh) * 2011-12-07 2012-06-20 浙江大学 基于动作捕获数据驱动的二维卡通表情动画制作方法
US8306824B2 (en) 2008-10-14 2012-11-06 Samsung Electronics Co., Ltd. Method and apparatus for creating face character based on voice

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202854A (ja) * 2004-01-19 2005-07-28 Nec Corp 画像処理装置、画像処理方法及び画像処理プログラム
US7403188B2 (en) 2005-04-04 2008-07-22 Research In Motion Limited Handheld electronic device with text disambiquation employing advanced word frequency learning feature
EP1710667B1 (en) * 2005-04-04 2022-06-08 BlackBerry Limited Handheld electronic device with text disambiguation employing advanced word frequency learning feature
US8347213B2 (en) * 2007-03-02 2013-01-01 Animoto, Inc. Automatically generating audiovisual works
EP2225758A2 (en) * 2007-12-21 2010-09-08 Koninklijke Philips Electronics N.V. Method and apparatus for playing pictures
AU2009330607B2 (en) * 2008-12-04 2015-04-09 Cubic Corporation System and methods for dynamically injecting expression information into an animated facial mesh
US8933960B2 (en) * 2009-08-14 2015-01-13 Apple Inc. Image alteration techniques
CN102270352B (zh) * 2010-06-02 2016-12-07 腾讯科技(深圳)有限公司 动画播放的方法和装置
US9466127B2 (en) * 2010-09-30 2016-10-11 Apple Inc. Image alteration techniques
TWI423149B (zh) * 2010-10-13 2014-01-11 Univ Nat Cheng Kung 一種影像處理裝置
US20150039314A1 (en) * 2011-12-20 2015-02-05 Squarehead Technology As Speech recognition method and apparatus based on sound mapping
KR101862128B1 (ko) * 2012-02-23 2018-05-29 삼성전자 주식회사 얼굴을 포함하는 영상 처리 방법 및 장치
TWI521469B (zh) * 2012-06-27 2016-02-11 Reallusion Inc Two - dimensional Roles Representation of Three - dimensional Action System and Method
CN103198504B (zh) * 2013-03-01 2015-08-19 北京国双科技有限公司 过渡动画的控制方法和装置
CN104581396A (zh) * 2014-12-12 2015-04-29 北京百度网讯科技有限公司 一种推广信息的处理方法及装置
CN106875955A (zh) * 2015-12-10 2017-06-20 掌赢信息科技(上海)有限公司 一种声音动画的制作方法及电子设备
CN106251389B (zh) * 2016-08-01 2019-12-24 北京小小牛创意科技有限公司 制作动画的方法和装置
CN107333071A (zh) * 2017-06-30 2017-11-07 北京金山安全软件有限公司 视频处理方法、装置、电子设备及存储介质
CN110413239B (zh) * 2018-04-28 2021-08-06 腾讯科技(深圳)有限公司 终端设置参数调节方法、装置及存储介质
CN110634174B (zh) * 2018-06-05 2023-10-10 深圳市优必选科技有限公司 一种表情动画过渡方法、系统及智能终端
TWI694384B (zh) * 2018-06-07 2020-05-21 鴻海精密工業股份有限公司 人臉圖像處理方法、電子裝置和存儲介質
CN108921919A (zh) * 2018-06-08 2018-11-30 北京小小牛创意科技有限公司 动画展示、制作方法及装置
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、系统、电子设备及存储介质
US20230410396A1 (en) * 2022-06-17 2023-12-21 Lemon Inc. Audio or visual input interacting with video creation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003337956A (ja) * 2002-03-13 2003-11-28 Matsushita Electric Ind Co Ltd コンピュータグラフィックス・アニメーション装置及びコンピュータグラフィックス・アニメーション方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2087523C (en) * 1990-07-17 1997-04-15 Mark Andrew Shackleton Method of processing an image
US6301370B1 (en) * 1998-04-13 2001-10-09 Eyematic Interfaces, Inc. Face recognition from video images
US20030040916A1 (en) * 1999-01-27 2003-02-27 Major Ronald Leslie Voice driven mouth animation system
IT1320002B1 (it) * 2000-03-31 2003-11-12 Cselt Centro Studi Lab Telecom Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio.
US7027054B1 (en) * 2002-08-14 2006-04-11 Avaworks, Incorporated Do-it-yourself photo realistic talking head creation system and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003337956A (ja) * 2002-03-13 2003-11-28 Matsushita Electric Ind Co Ltd コンピュータグラフィックス・アニメーション装置及びコンピュータグラフィックス・アニメーション方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
八木康史,外6名: ""顔情報処理のための共通プラットホームの構築"", 情報処理学会研究報告, vol. 98, no. 26, JPN6007015740, 19 March 1998 (1998-03-19), pages 65 - 72, ISSN: 0000950531 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217447A (ja) * 2007-03-05 2008-09-18 Nippon Hoso Kyokai <Nhk> コンテンツ生成装置及びコンテンツ生成プログラム
JP2010020781A (ja) * 2008-07-14 2010-01-28 Samsung Electronics Co Ltd アニメーション製作方法及び装置
US8306824B2 (en) 2008-10-14 2012-11-06 Samsung Electronics Co., Ltd. Method and apparatus for creating face character based on voice
CN102509333A (zh) * 2011-12-07 2012-06-20 浙江大学 基于动作捕获数据驱动的二维卡通表情动画制作方法

Also Published As

Publication number Publication date
US20050273331A1 (en) 2005-12-08
TW200540732A (en) 2005-12-16

Similar Documents

Publication Publication Date Title
JP2005346721A (ja) 自動的に動画を生み出すシステム
US9984724B2 (en) System, apparatus and method for formatting a manuscript automatically
US20060204214A1 (en) Picture line audio augmentation
US11721081B2 (en) Virtual reality experience scriptwriting
US20010042057A1 (en) Emotion expressing device
US20180226101A1 (en) Methods and systems for interactive multimedia creation
JP7252266B2 (ja) オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム
CN113365134B (zh) 音频分享方法、装置、设备及介质
US7827034B1 (en) Text-derived speech animation tool
JP2016038601A (ja) Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
CN112188266A (zh) 视频生成方法、装置及电子设备
CN112040271A (zh) 可视化编程的云端智能剪辑系统及其方法
Liu et al. Generative disco: Text-to-video generation for music visualization
KR101720635B1 (ko) 웹 기반의 3d 영상 컨텐츠 제작 방법 및 이를 운영하는 서버
TW202016922A (zh) 有聲播放裝置及其播放方法
Gu et al. Innovative Digital Storytelling with AIGC: Exploration and Discussion of Recent Advances
JP4720974B2 (ja) 音声発生装置およびそのためのコンピュータプログラム
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
Qudratovich THE TYPES OF SOFTWARE FOR EDITING MULTIMEDIA INFORMATION
JP4063566B2 (ja) 番組制作方法
Schedel et al. Generative techniques in hypermedia performance
JP2004062615A (ja) 番組制作方法
Paul The Voice Actor and Their Double: Working as a voice actor and teaching voice acting in the age of AI voice cloning
CN117478975A (zh) 视频生成方法、装置、计算机设备和存储介质
Anitha et al. NextGen Dynamic Video Generator using AI

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080609