JP7182919B2 - 映像処理方法、コンピュータプログラムおよび記録媒体 - Google Patents

映像処理方法、コンピュータプログラムおよび記録媒体 Download PDF

Info

Publication number
JP7182919B2
JP7182919B2 JP2018124807A JP2018124807A JP7182919B2 JP 7182919 B2 JP7182919 B2 JP 7182919B2 JP 2018124807 A JP2018124807 A JP 2018124807A JP 2018124807 A JP2018124807 A JP 2018124807A JP 7182919 B2 JP7182919 B2 JP 7182919B2
Authority
JP
Japan
Prior art keywords
components
landmark
values
angle
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018124807A
Other languages
English (en)
Other versions
JP2019012526A (ja
Inventor
チョル ヒョン
シン キム
ビョンチョ パク
ビョンゴン ユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Line Corp
Original Assignee
Line Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Line Corp filed Critical Line Corp
Publication of JP2019012526A publication Critical patent/JP2019012526A/ja
Application granted granted Critical
Publication of JP7182919B2 publication Critical patent/JP7182919B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/60Rotation of a whole image or part thereof
    • G06T3/604Rotation of a whole image or part thereof using a CORDIC [COordinate Rotation Digital Compute] device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Description

以下の説明は、映像処理方法およびシステムに関し、より詳細には、入力される映像に含まれたユーザの顔のような客体を特定のキャラクタの顔のような仮想客体にマッピングし、客体に対して予め定義されているコンポーネントの値の組み合わせによるイベントを仮想客体に適用することにより、ユーザの顔の表情や特定のイベントなどをキャラクタにリアルタイムでマッピングすることができる映像処理方法およびシステム、コンピュータ装置と結合して映像処理方法を実行させるためにコンピュータで読み取り可能な記録媒体に格納されたコンピュータプログラム等に関する。
アバターのような特定のキャラクタを制御するための従来技術として、ユーザの顔の表情をアバターに反映することによってアバターをよりリアルに表現するための技術が存在する。例えば、特許文献1は、表情制御点を利用したアバター制御装置および方法に関するものであって、ユーザの顔の表情から追跡される特徴点位置にしたがってアバターの特徴点位置を制御し、ユーザの顔の表情をアバターに適用することができる。
しかし、ユーザの顔から追跡される特徴点位置をそのままアバターに適用すれば、ユーザの顔の表情をアバターに適用することはできても、アバターの観点ではアバターの表情が不自然になってしまうという問題があった。例えば、ユーザの顔とまったく似ていないキャラクタの顔にユーザの顔の表情をそのまま特徴点位置をマッピングしても、キャラクタの顔にまったく似ていない表情になってしまうという問題がある。
韓国公開特許第10-2012-0059994号
入力される映像に含まれている客体(一例として、ユーザの顔)に対して予め定義されているコンポーネント(一例として、目、鼻、口、眉毛、顔の角度など)の値を決定し、決定された値の組み合わせによって仮想客体に対して予め設定されているイベントのうちから1つを選択して仮想客体に適用することにより、客体の変化(一例として、顔の表情の変化)を仮想客体に反映すると同時に、仮想客体の観点においては、より自然な変化を適用することができる映像処理方法およびシステム、コンピュータ装置と結合して映像処理方法を実行させるためにコンピュータで読み取り可能な記録媒体に格納されたコンピュータプログラム等を提供する。
映像処理装置のコンピュータに映像処理方法を実行させるコンピュータプログラムであって、前記映像処理方法は、入力される映像が含む客体に対するランドマーク情報を抽出する段階、前記ランドマーク情報に基づき、前記入力される映像が含む客体と仮想客体とをマッピングする段階、前記ランドマーク情報に基づき、前記客体に対して予め定義されている複数のコンポーネントそれぞれの値を決定する段階、前記決定された複数のコンポーネントの値の組み合わせに対応するイベントを決定する段階、および前記決定されたイベントを、前記客体にマッピングされた仮想客体に適用する段階を含むことを特徴とする、コンピュータプログラムを提供する。
入力される映像が含む客体に対するランドマーク情報を抽出する段階、前記ランドマーク情報に基づき、前記入力される映像が含む客体と仮想客体とをマッピングする段階、前記ランドマーク情報に基づき、前記客体に対して予め定義されている複数のコンポーネントそれぞれの値を決定する段階、前記決定された複数のコンポーネントの値の組み合わせに対応するイベントを決定する段階、および前記決定されたイベントを、前記客体にマッピングされた仮想客体に適用する段階を含むことを特徴とする、映像処理方法を提供する。
前記映像処理方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体を提供する。
入力される映像に含まれている客体(一例として、ユーザの顔)に対して予め定義されているコンポーネント(一例として、目、鼻、口、眉毛、顔の角度など)の値を決定し、決定された値の組み合わせによって仮想客体に対して予め設定されているイベントのうちから1つを選択して仮想客体に適用することにより、客体の変化(一例として、顔の表情の変化)を仮想客体に反映すると同時に、仮想客体の観点においては、より自然な変化を適用することができる。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、映像処理方法の例を示した図である。 本発明の一実施形態における、顔客体のランドマークコンポーネントの例を示した図である。 本発明の一実施形態における、顔客体の角度コンポーネントの例を示した図である。 本発明の一実施形態における、仮想客体にイベントを適用する方法の例を示したフローチャートである。 本発明の一実施形態における、モーションファイルが含む複数のモーションフレームの例を示した図である。 本発明の一実施形態における、ランドマーク座標を正規化する例を示した図である。 本発明の一実施形態における、ランドマーク座標を補正する例を示した図である。 本発明の一実施形態における、両目のまばたきとウィンクを区分するための方法の例を示したフローチャートである。 本発明の一実施形態における、サービス全体の流れの例を示したフローチャートである。
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態に係る映像処理システムは、以下で説明される電子機器またはサーバのようなコンピュータ装置によって実現されてよく、本発明の実施形態に係る映像処理方法は、このような電子機器またはサーバによって実行されてよい。例えば、電子機器には、本発明の一実施形態に係るコンピュータプログラムとして実現されるアプリケーションがインストールおよび駆動されてよく、電子機器は、駆動するアプリケーションの制御にしたがって入力される映像を処理して仮想客体にイベントを適用してよい。コンピュータプログラムは、電子機器と結合して映像処理方法を実行させるためにコンピュータで読み取り可能な記録媒体に格納されてよい。他の実施形態として、サーバが上述したアプリケーションの制御にしたがって映像処理方法を実行してもよい。
一実施形態として、電子機器やサーバのようなコンピュータ装置は、入力される映像に含まれている客体(一例として、ユーザの顔)に対して予め定義されているコンポーネント(一例として、目、鼻、口、眉毛、顔の角度など)の値を決定し、決定された値の組み合わせによって仮想客体に対して予め設定されているイベントのうちから1つを選択して仮想客体に適用することにより、客体の変化(一例として、顔の表情の変化)を仮想客体に反映すると同時に、仮想客体の観点においては、より自然な変化を適用することができる。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器1(110)の例としてスマートフォンの形状を示しているが、本発明の実施形態では、実質的に無線または有線通信方式を利用してネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な機器のうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を活用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的(hierarchical)ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供するコンピュータ装置または複数のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第1サービスを提供するシステムであってよく、サーバ160も、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第2サービスを提供するシステムであってよい。より具体的な例として、サーバ160は、第2サービスとして、アプリケーション(コンピュータプログラム)のインストールのためのインストールファイル(一例として、応用プログラムパッケージファイル)を複数の電子機器110、120、130、140に提供するシステムであってよい。また、サーバ150は、第1サービスとして、上述したアプリケーションと関連するサービス(一例として、メッセージングサービス、ソーシャルネットワークサービス、コンテンツ提供サービスなど)を複数の電子機器110、120、130、140に提供してよい。このようなサービスは、ネットワーク環境を説明するための1つの実施形態に過ぎず、実際のネットワーク環境においてサーバ150、160それぞれが提供するサービスは、さらに多様であってよい。
上述したように、本発明の実施形態に係る映像処理方法は、電子機器によって実行されてもよいし、電子機器と通信するサーバによって実行されてもよい。
図2は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図2では、電子機器に対する例として電子機器1(110)の内部構成を、サーバに対する例としてサーバ150の内部構成を説明する。他の電子機器120、130、140やサーバ160も、上述した電子機器1(110)またはサーバ150と同一または類似の内部構成を有してよい。
電子機器1(110)とサーバ150は、メモリ211、221、プロセッサ212、222、通信モジュール213、223、および入力/出力インタフェース214、224を含んでよい。メモリ211、221は、コンピュータで読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROMとディスクドライブのような永久大容量記憶装置は、メモリ211、221とは区分される別の永久格納装置として電子機器1(110)やサーバ150に含まれてもよい。また、メモリ211、221には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電気機器1(110)にインストールされ駆動するブラウザや上述した特定のサービスを提供するために電子機器1(110)にインストールされたアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ211、221とは別のコンピュータで読み取り可能な記録媒体からロードされてよい。このような別のコンピュータで読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール213、223を通じてメモリ211、221にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、サーバ150)がネットワーク170を介して提供するファイルによってインストールされるプログラム(一例として、上述したアプリケーション)に基づいてメモリ211、221にロードされてよい。
プロセッサ212、222は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ211、221または通信モジュール213、223によって、プロセッサ212、222に提供されてよい。例えば、プロセッサ212、222は、メモリ211、221のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信モジュール213、223は、ネットワーク170を介して電子機器1(110)とサーバ150とが互いに通信するための機能を提供してもよいし、電子機器1(110)および/またはサーバ150が他の電子機器(一例として、電子機器2(120))または他のサーバ(一例として、サーバ160)と通信するための機能を提供してもよい。一例として、電子機器1(110)のプロセッサ212がメモリ211のような記録装置に格納されたプログラムコードにしたがって生成した要求が、通信モジュール213の制御にしたがってネットワーク170を介してサーバ150に伝達されてよい。これとは逆に、サーバ150のプロセッサ222の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール223とネットワーク170を経て電子機器1(110)の通信モジュール213を通じて電子機器1(110)に受信されてもよい。例えば、通信モジュール213を通じて受信したサーバ150の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ212やメモリ211に伝達されてよく、コンテンツやファイルなどは、電子機器1(110)がさらに含むことのできる格納媒体(上述した永久格納装置)に格納されてよい。
入力/出力インタフェース214は、入力/出力装置215とのインタフェースのための手段であってよい。例えば、入力装置は、キーボードまたはマウスなどの装置を含んでよく、出力装置は、ディスプレイのような装置を含んでよい。他の例として、入力/出力インタフェース214は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置215は、電子機器1(110)と1つの装置によって構成されてもよい。また、サーバ150の入力/出力インタフェース224は、サーバ150と連結してもよいし、サーバ150が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってもよい。より具体的な例として、電子機器1(110)のプロセッサ212は、メモリ211にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ150や電子機器2(120)が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース214を通じてディスプレイに表示されてよい。
また、他の実施形態において、電子機器1(110)およびサーバ150は、図2の構成要素よりも多くの構成要素を含んでもよい。しかし、実施形態の説明の簡明化のため、大部分の従来技術の構成要素に対する詳細な説明は省略される。例えば、電子機器1(110)は、上述した入力/出力装置215のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器1(110)がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が、電子機器1(110)にさらに含まれるように実現されてもよい。
図3は、本発明の一実施形態における、映像処理方法の例を示した図である。本実施形態に係る映像処理方法は、上述した電子機器1(110)やサーバ150のようなコンピュータ装置によって実行されてよい。本実施形態では、電子機器1(110)が映像処理方法を実行する過程について説明する。電子機器1(110)のプロセッサ212は、メモリ211が含むオペレーティングシステムのコードや、少なくとも1つのコンピュータプログラムのコードによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ212は、電子機器1(110)に格納されたコードが提供する制御命令にしたがって電子機器1(110)が図3の実施形態に係る映像処理方法に含まれる段階310~350を実行するように電子機器1(110)を制御してよい。
段階310で、電子機器1(110)は、入力される映像が含む客体に対してランドマーク情報を抽出してよい。ここで、客体は、映像に含まれたユーザの顔のように仮想客体と代替される対象を含んでよく、ランドマーク情報は、特徴点位置(一例として、映像と関連する仮想座標系における特徴点の座標)を含んでよい。アバターのような仮想客体は、特徴点位置にしたがって制御されることが可能である。ランドマーク情報を抽出する具体的な技術は、当業者であれば周知の従来技術から容易に理解することができるであろう。
段階320で、電子機器1(110)は、ランドマーク情報に基づき、入力される映像が含む客体と仮想客体をマッピングしてよい。上述した例のように、客体が、映像に含まれたユーザの顔であれば、仮想客体は、ユーザのアバターや特定のキャラクタの顔のように、映像に含まれた客体に対応する仮想の客体を意味してよい。
例えば、電子機器1(110)は、映像に含まれたユーザの顔を特定のキャラクタの顔に代替して提供したり、特定のキャラクタの顔を提供したりするときに、映像に含まれたユーザの顔の表情などを特定のキャラクタの顔に適用して提供することが望まれる場合がある。より具体的な例として、電子機器1(110)は、映像通話のためにカメラを通じて入力された映像において、ユーザの顔を特定のキャラクタの顔に代替して提供することがある。また他の具体的な例として、電子機器1(110)は、映像通話のための映像の代わりに、特定のキャラクタの顔が含まれた代替映像を提供しながら、カメラを通じて入力される映像において、ユーザの顔の表情を代替映像のキャラクタの顔に適用して提供することが望まれる場合もある。
さらに他の例として、電子機器1(110)は、ユーザの顔の表情や、これと関連するエフェクトのようなイベントが適用されたキャラクタの顔の画面を動画録画し、録画された動画ファイルや、動くGIFフォーマットのファイルを生成および提供することも考えられる。生成および提供されるファイルは、メッセージングサービスやソーシャルネットワークサービスなどで他のユーザと共有されてよい。この場合、電子機器1(110)は、結果映像に追加的な効果(一例として、デコレーション効果)を追加してもよい。
上述したように、映像処理方法は、電子機器1(110)によって実行される場合だけでなく、サーバ150によって実行されてもよい。例えば、電子機器1(110)は、カメラを通じて入力された映像を順に(すなわち、リアルタイムに)サーバ150に送信してもよいし、あるいは、電子機器1(110)に予め格納された映像ファイルを後に一括してサーバ150に送信してもよい。このとき、サーバ150は、電子機器1(110)から送信されて入力される映像に対して本発明の実施形態に係る映像処理方法を実行し、生成される結果物を電子機器1(110)や他の電子機器に提供してよい。
以下の段階では、抽出されたランドマーク情報に基づいて特定のイベントが仮想客体に適用される過程について説明する。
段階330で、電子機器1(110)は、ランドマーク情報に基づき、客体に対して予め定義されている複数のコンポーネントそれぞれの値を決定してよい。このような複数のコンポーネントは、客体の種類によって予め定義されてよい。例えば、客体が映像に含まれたユーザの顔であれば、複数のコンポーネントは、目、鼻、口、眉毛、客体の角度などのような項目を含んでよい。このとき、特定のコンポーネントの値は、該当のコンポーネントと関連する形状や角度を示す値であってよい。例えば、「左目」に該当するコンポーネントは、「開いた目」、「閉じた目」、「半ば開いた目(あるいは半ば閉じた目)」のような3種類の予め設定されている値のうちの1つの値を有してよい。言い換えれば、入力される映像の現在フレームに含まれたユーザの顔で「左目」が開いている場合、「左目」コンポーネントの値は「開いた目」に決定されてよい。このようなコンポーネントとコンポーネントの値については、以下でさらに詳しく説明する。
段階340で、電子機器1(110)は、決定された複数のコンポーネントの値の組み合わせに対応するイベントを決定してよい。例えば、「左目」コンポーネントの値が「開いた目」であり、「右目」コンポーネントの値が「閉じた目」であるとき、電子機器1(110)は、「右目ウィンク」のようなイベントを決定してよい。このとき、口の形状などのように「口」コンポーネントの値がさらに組み合わされれば、イベントがより確実に決定されるようになる。また、複数のコンポーネントの値の組み合わせに関し、すべての値の組み合わせの指定が可能であってもよいが、それは必須ではない。例えば、一般的な値を除いた特別な1つのコンポーネントの値や特別な2つ以上のコンポーネントの値の組み合わせが活用されてもよい。
段階350で、電子機器1(110)は、決定されたイベントを、客体にマッピングされた仮想客体に適用してよい。ここで、イベントは、特定の客体にマッチングされる仮想客体に対して予め設定されてよい。言い換えれば、仮想客体別に該当の仮想客体に適した予め設定されたイベントが存在し、客体を通じて決定されたが仮想客体に適用されるべきイベントとして決定され、その仮想客体のイベントが仮想客体に適用されるので、より自然な変化を仮想客体に適用することができるようになる。例えば、ユーザの顔の表情がそのままアバターに適用されるのではなく、ユーザの顔の表情に対応するアバターの顔の表情(イベント)がアバターに適用されるようになる。ここで、イベントは、複数のコンポーネントの値の組み合わせごとに予め定義されてよいため、複数のコンポーネントの個数と各々のコンポーネントに対して予め定義されることが可能な値の個数とに応じて、極めて多くの数のイベントを定義することが可能になる。例えば、「左目」コンポーネントに対して3つの値が定義され、「右目」コンポーネントに対して3つの値が定義され、「口」に対して3つの値が定義される場合、その組み合わせによって合計27(3×3×3)種類のイベントが該当の仮想客体に対して予め定義されてよい。
実施形態によっては、予め定義されている複数のコンポーネントは、客体が含む複数のランドマークコンポーネントおよび客体の回転を示すための複数の角度コンポーネントを含んでよい。例えば、ランドマークコンポーネントは、目、鼻、口、眉毛などのような客体のランドマークに対応してよく、角度コンポーネントは、客体のX-軸、Y-軸、Z-軸のような複数の回転軸にそれぞれ対応してよい。
図3の実施形態で説明した電子機器1(110)は、段階310以前に、複数のランドマークコンポーネントごとに2つ以上の互いに異なる形状を示す複数の形状値を設定して管理してよい。上述したように、「左目」に該当するランドマークコンポーネントに対応して「開いた目」、「閉じた目」、および「半ば開いた目(あるいは半ば閉じた目)」のような3種類の形状値が予め設定され管理されてよい。
図4は、本発明の一実施形態における、顔客体のランドマークコンポーネントの例を示した図である。図4は、顔客体410に含まれたランドマークコンポーネントとして「左眉毛(eye Brow Left:BL)」、「右眉毛(eye Brow Right:BR)」、「左目(Eye Left:EL)」、「右目(Eye Right:ER)」、「口(Mouth:MO)」をそれぞれ示している。また、以下の表1は、このようなランドマークコンポーネントに対する識別子と値の説明例を示している。
Figure 0007182919000001
表1では、理解を助けるために、コンポーネントの値をテキスト形態で表現したが、システム内部では、該当の形状に対応する数値やその他の形態で設定および格納されてもよい。
この場合、電子機器1(110)は、図3の段階330で、第1ランドマークコンポーネントに対して管理される複数の形状値のうちでランドマーク情報に基づいて決定される第1ランドマークコンポーネントの形状に対応する模様値を、第1ランドマークコンポーネントの値として決定してよい。上述した表1の例において、第1ランドマークコンポーネントが「左目」であり、ランドマーク情報に基づいて決定される第1ランドマークコンポーネントの形状が「閉じた目」であれば、表1において「EL」が「閉じた目」であることは「値:1」に対応するので、第1ランドマークコンポーネントの値は、「EL1」のように左目が閉じた目を示す値に決定されてよい。
また、図3の実施形態で説明した電子機器1(110)は、段階310以前に、複数の回転軸ごとに2つ以上の互いに異なる角度を示す複数の角度値を設定して管理してよい。
図5は、本発明の一実施形態における、顔客体の角度コンポーネントの例を示した図である。図5は、顔客体510をX-軸を中心に回転させることによって現れる形状(520および530)、Y-軸を中心に回転させることによって現れる形状(540および550)、そしてZ-軸を中心に回転させることによって現れる形状(560および570)の例をそれぞれ示している。また、以下の表2は、このような角度コンポーネントに対する識別子と値の説明例を示している。
Figure 0007182919000002
表2に示されたコンポーネントの値も、理解を助けるためにテキストの形態で表現したが、システム内部では、回転の仕方に対応する数値やその他の形態で設定および格納されてもよい。
この場合、電子機器1(110)は、図3の段階330で、複数の回転軸のうちの第1回転軸に対する客体の角度をランドマーク情報に基づいて決定し、第1回転軸に対して管理される複数の角度値のうちで決定された客体の角度に対応する角度値を、第1回転軸に対応する角度コンポーネントの値として決定してよい。例えば、第1回転軸がZ-軸であり、ランドマーク情報に基づいて決定されるZ-軸に対する客体の角度が「右下端向き」である場合、角度コンポーネントの値は、「RA1」のように、Z-軸中心回転の右下端向きを示すための値で設定されてよい。
以下の表3は、コンポーネントの値の組み合わせに対応するイベントの例を示している。
Figure 0007182919000003
例えば、表3の「EL1+ER2」は、表1で「左目」に対する「閉じた目」と「右目」に対する「開いた目」の組み合わせを示し、これは左目ウィンクを意味してよい。このとき、仮想客体(一例として、ユーザの顔に対応するキャラクタの顔)には、「左目ウィンク」イベントが適用されてよい。また、ユーザの表情だけではなく、ユーザの口の開閉に応じてハート型の客体を出現させるアニメーションなどのような多様なエフェクトが仮想客体に適用されてよい。
例えば、図3の実施形態で説明した電子機器1(110)は、段階310以前に、複数のコンポーネントに対して設定可能な値の組み合わせごとにイベントを設定し、組み合わせに対する複数のイベントを管理してよい。この場合、電子機器1(110)は、段階340で、管理される複数のイベントのうちから決定された値の組み合わせに対応するイベントを抽出してよく、段階350で、抽出されたイベントを仮想客体に適用してよい。
このように、イベントは、コンポーネントの値の組み合わせによって決定されるため、映像で客体の変化(一例として、ユーザの顔の表情や顔の角度)を反映することができると同時に、イベントが仮想客体に適合するように製作されるため、仮想客体に自然にマッチするイベントが適用されるようになる。このようにして決定されたイベントが、以後の段階350で適用されてもよい。あるいは、決定されたイベントをユーザが変更し、変更後のイベントが段階350で適用されてもよい。後者の場合、ユーザの意図を更に強調することがかのうになる。
図6は、本発明の一実施形態における、仮想客体にイベントを適用する方法の例を示したフローチャートである。図6の段階610~630は、図3を参照しながら説明した段階350に含まれて実行されてよい。
段階610で、電子機器1(110)は、決定されたイベントに対応するモーションファイルをロードしてよい。コンポーネント値の組み合わせに対してイベントが予め決定されるように、イベントに対応してモーションファイルが予め生成および管理されてよい。このようなモーションファイルは、仮想客体のためのアニメーションを適用するために少なくとも1つのモーションフレームを含んでよい。例えば、「ハート出現」に対応するモーションファイルは、ハートが出現されるアニメーションを仮想客体に適用するためのモーションフレームを含んでよい。
段階620で、電子機器1(110)は、フレーム単位でロードされたモーションファイルを実行してよい。例えば、電子機器1(110)は、仮想客体を表示するための現在フレームに、モーションファイルが含む1番目のモーションフレームを適用してよい。
段階630で、電子機器1(110)は、モーションファイルの終了を確認してよい。このとき、モーションファイルが終了した場合にはイベントの適用は終了してよく、モーションファイルが終了していない場合には段階620が再び実行されてよい。例えば、モーションファイルが3つのモーションフレームを含んでいる場合、仮想客体を表示するためのフレームには順に3つのモーションフレームが適用されてよい。このようなモーションフレームがすべて適用されることが、モーションファイルの終了を意味してよい。
言い換えれば、電子機器1(110)は、段階620および段階630を繰り返し実行しながら、ロードされたモーションファイルが含むアニメーションのモーションフレームを、仮想客体を表示するためのフレームにフレーム単位で順に適用してよい。
また、図3の実施形態において、電子機器1(110)は、段階310以後に、抽出されたランドマーク情報を利用して前記客体の大きさおよび角度を正規化してよい。
図7は、本発明の一実施形態における、モーションファイルが含む複数のモーションフレームの例を示した図である。人間がまばたきする実際の速度は非常に速く、図7に示すように、目が開いている状態710と目を閉じている状態720だけをそのままアバターにマッピングすれば、不自然なモーションが出力されてしまう。そこで、電子機器1(110)は、図7に示すように、複数のモーションフレーム730~770を利用することにより、より自然な仮想客体のモーションを提供してよい。
モーションファイルの形式は、一例として、(ランドマークコンポーネントの識別子=「、」で区分される値の変化)の形態で表現されてよい。例えば、図7の実施形態において、両目を閉じるモーションファイルは、(EL=1.0、0.8、0.6、0.2、0.0、ER=1.0、0.8、0.6、0.2、0.0)のように表現されてよい。このような表現は、左目と右目がそれぞれ1.0の値を有する第1モーションフレーム、左目と右目がそれぞれ0.8の値を有する第2モーションフレーム、左目と右目がそれぞれ0.6の値を有する第3モーションフレーム、左目と右目がそれぞれ0.2の値を有する第4モーションフレーム、および左目と右目がそれぞれ0.0の値を有する第5モーションフレームのように、5つのモーションフレームが含まれたモーションファイルを意味してよい。
図8は、本発明の一実施形態における、ランドマーク座標を正規化する例を示した図である。電子機器1(110)は、入力された映像フレーム810に含まれた客体811を、ランドマーク座標正規化アルゴリズム820を利用して出力フレーム830の客体831のように正規化してよい。
例えば、カメラを利用して写真を撮影したときに、顔の大きさ、位置(映像内における相対的な位置)、および/または角度が映像内で互いに異なる場合、目の大きさや位置が異なるようになる。このとき、電子機器1(110)は、ランドマークを正規化する過程により、同一人物の場合には、顔が同じような大きさ、位置、および/または角度を有するように調節してよい。例えば、ランドマーク座標正規化アルゴリズム820は、顔で認識される瞳の相対的な位置を調節してランドマークを正規化してよいが、これに限定されることはなく、周知の多様な正規化アルゴリズムが活用されてもよいことは、当業者であれば容易に理解することができるであろう。
このようなランドマーク座標正規化により、入力される映像において客体(顔)の大きさや位置、角度などが異なったとしても、正規化されたランドマーク座標に基づいて相対的な値を求めることができるようになる。このために、電子機器1(110)は、スケールファクタによって認識された顔の大きさを標準の大きさに変換する過程と、ピッチ(Pitch)、ロール(Roll)、ヨー(yaw)を利用した回転により、客体のランドマーク座標を正規化してよい。正規化された座標値は二次元座標であってよい。
また、図3の実施形態において、電子機器1(110)は、段階310以後または上述したランドマーク座標の正規化以後に、映像の現在フレームから抽出されたランドマーク情報によって認識される客体のランドマークコンポーネントの座標を、映像の以前フレームから抽出されたランドマーク情報を利用して補正してよい。例えば、ユーザのモバイルフォンカメラなどによって撮影されて入力される映像は、手振れなどによってランドマーク座標が不均等に決定されることがある。これにより、電子機器1(110)は、顔認識の際に、以前フレームの顔の角度(ピッチ(Pitch)、ロール(Roll)、ヨー(Yaw))の偏差を利用した加重値関数を反映して結果座標を均等にしてよい。
図9は、本発明の一実施形態における、ランドマーク座標を補正する例を示した図である。電子機器1(110)は、客体910に対するランドマークと角度を感知(920)してよい。このようなランドマークと角度の感知(920)は、図3を参照しながら説明した段階310でランドマーク情報を抽出すること、あるいは段階310のようにランドマーク情報を抽出した後、図8を参照しながら説明したようにランドマーク座標を正規化することに対応してよい。
また、電子機器1(110)は、ランドマーク座標を補正(930)してよい。例えば、電子機器1(110)は、上述したように、顔認識の際に、以前フレームの顔の角度(ピッチ(Pitch)、ロール(Roll)、ヨー(Yaw))の偏差を利用した加重値関数を反映して結果座標を均等にしてよい。このとき、加重値関数は、一例として、以下の数式(1)のように定義されてよい。
Figure 0007182919000004
ここで、yはi番目のフレームの出力、xはi番目フレームの入力、αは0と1の間の値を有する信頼度をそれぞれ意味してよい。また、αは、以前フレームの顔の角度(ピッチ(Pitch)、ロール(Roll)、ヨー(yaw))の差(difference)に対する割合であり、一例として以下の数式(2)のように計算されてよい。
Figure 0007182919000005
ここで、yawはi番目フレームにおける顔角度のヨー(Yaw)に、rollはi番目フレームにおける顔角度のロール(Roll)に、pitchはi番目フレームにおけるピッチ(Pitch)にそれぞれ対応してよい。
また、yawmax、rollmax、pitchmaxはそれぞれ、ピッチ(Pitch)、ロール(Roll)、ヨー(yaw)の最大変化量の値を意味してよい。
また、電子機器1(110)は、座標が補正されたランドマーク情報を利用することにより、図3の実施形態を参照しながら説明したように、ユーザの顔の表情やイベントを仮想客体(ユーザの顔に対応するキャラクタの顔)にマッピング940してよい。
一方、電子機器1(110)は、ユーザの顔において、両目のまばたきとウィンクとを区分するための別の方法を利用してもよい。
図10は、本発明の一実施形態における、両目のまばたきとウィンクとを区分するための方法の例を示したフローチャートである。
電子機器1(110)は、アプリケーションが開始されると(1010)、まばたきに関する情報をバッファリング(1020)してよい。例えば、電子機器1(110)は、ユーザの顔が含む両目の開き程度を示す相対的な値を、映像の連続する予め設定された数のフレームに対してそれぞれ測定してバッファに格納してよい。ここで、相対的な値の例は、図7を参照しながら説明したとおりである。
このとき、電子機器1(110)は、過程1030で、現在は両目がすべて開いているか(Open)閉じているか(Close)を確認(1030)してよい。「両目がすべて開いている」または「両目がすべて閉じている」場合、フローは両目モーション動作(1040)に進み、これにより、アバターモーション動作(1050)が決定されてよい。
一方、「両目がすべて開いていない」および「両目かすべて閉じていない」場合、電子機器1(110)は、バッファを確認する。例えば、電子機器1(110)は、バッファで特定の時間内に両目がすべて同一イベント(両目とも開いているか閉じている場合)であるか否かを確認(1070)してよい。特定の時間は、例えば、予め設定された数のフレームに対応してよい。例えば、電子機器1(110)は、バッファで予め設定された数の連続的なフレームの相対的な値を分析し、該当のフレームで両目の同一イベントが存在すれば、フローは両目モーション動作(1040)に進み、該当のフレームで両目の同一イベントが存在しなければ、フローは片目モーション動作(1080)に進む。後者の場合、電子機器1(110)は、片目モーション動作(1080)にしたがってアバターモーション動作(1050)を決定してよい。
図11は、本発明の一実施形態における、サービス全体の流れの例を示したフローチャートである。図11は、アバターにユーザの顔の表情などをマッピングする全体過程の一例を示している。
過程1(1111)は、電子機器1(110)がカメラを起動させて初期ランドマーク情報を抽出する過程であってよい。ユーザの顔のような客体が含まれた映像から目、鼻、口、眉毛などのようなランドマークの情報を抽出すること自体は、上述したように周知の技術であるため、当業者であれば容易に理解することができるであろう。
過程2(1112)は、電子機器1(110)が、図8を参照しながら説明したように、ランドマーク座標正規化アルゴリズムを利用してランドマーク座標を正規化する過程であってよい。
過程3(1113)は、電子機器1(110)が表情に対する値を抽出する過程であってよい。例えば、電子機器1(110)は、目が開かれた程度、口が開けられた程度、眉毛と目の距離、眉毛の角度などを抽出してよい。
過程4(1114)は、電子機器1(110)が抽出された値に基づいて表情モデルを生成する過程であってよい。
過程5(1115)は、電子機器1(110)がカメラを起動させて起動中のランドマーク情報を抽出する過程であってよい。
過程6(1116)は、電子機器1(110)が、抽出されたランドマーク情報に基づく顔の表情モデルを標準モデルと比較する過程であってよい。標準モデルとは、サービスを始めるときに最初に抽出した顔の状態を意味してよい。例えば、過程1~4は、サービスを利用しようとするユーザの顔に対するランドマーク(一例として、目、鼻、口、眉毛など)の初期座標を基盤とした情報であってよい。過程6は、このような標準モデルとの比較により、顔の表情が変化するとき、変化したランドマークの位置と角度を比較してコンポーネントの変化した状態を確認するための過程であってよい。人物ごとに目、鼻、口、眉毛などのランドマークの形状や大きさが異なるため、コンポーネントの絶対的な大きさで状態値を特徴することには困難がある。例えば、左目を大きく開いた人物の左目の大きさが2cmである人物Aと1cmである人物Bが存在する場合、人物それぞれの標準モデルを活用して比率に応じて左目の変化を計算することによって正確な測定が可能となる。言い換えれば、左目を大きく開けた人物の左目の大きさが2cmである人物Aの左目の大きさが1cmに変化すれば、人物Aは左目を半分閉じていると判断されるようになる。
過程7(1117)は、電子機器1(110)が、図9を参照しながら説明したように、ランドマーク座標を以前フレームに基づいて補正する過程であってよい。
過程8(1118)は、電子機器1(110)がAU(Action Unit)の属性値を抽出する過程であってよい。このようなAUの属性値は、上述した標準モデルとの比較によって計算された変化値を意味してよい。言い換えれば、標準モデルは最初の値の集合を意味してよく、AUの属性値は変化する値の集合を意味してよい。例えば、標準モデルの左目の開きが2cmである場合、左目を半分閉じれば1cmになるため、このときの左目に対するAUの属性値は0.5になってよい。
過程9(1119)は、電子機器1(110)が、図10を参照しながら説明したように、両目まばたき同期化を処理する過程であってよい。言い換えれば、電子機器1(110)は、過程9(1119)において、まばたきバッファリング(1020)などを活用することによって両目モーション動作(1040)およびユーザの片目モーション動作(1080)のうちから1つを選択してよい。
過程10(1120)は、電子機器1(110)が、図3の段階320を参照しながら説明したように、ランドマーク情報に基づいてユーザの顔とアバターの顔をマッピングする過程であってよい。
過程11(1121)は、電子機器1(110)が、図3の段階330および段階340を参照しながら説明したように、イベントを決定する過程であってよい。
過程12(1122)は、電子機器1(110)が、図6および図7を参照しながら説明したモーションファイルを利用して表情アニメーションを決定する過程であってよい。
過程10(1120)、過程11(1121)、および過程12(1122)の結果はそれぞれ、並列的にアバターに適用されてよい。
過程13(1123)は、電子機器1(110)が後処理を実行する過程であってよい。後処理は、ユーザの顔の表情や各種エフェクトなどが適用されたアバターの画面に対する動画録画、録画された動画の編集、編集された動画の保存、編集された映像の動くGIFファイルへの変換、編集された動画やGIFファイルの共有(一例として、メッセージングサービスやソーシャルネットワークサービスなどで共有)のような処理を含んでよい。
このように、本発明の実施形態によると、入力される映像に含まれている客体(一例として、ユーザの顔)に対して予め定義されているコンポーネント(一例として、目、鼻、口、眉毛、顔の角度など)の値のうち何れかの値を決定し、決定された値の組み合わせによって仮想客体に対して予め設定されているイベントのうちから1つを選択して仮想客体に適用することにより、客体の変化(一例として、顔の表情の変化)を仮想客体に反映すると同時に、仮想客体の観点においては、より自然な変化を適用することができる。
上述したシステムまたは装置は、ハードウェア構成要素、ソフトウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に永久的または一時的に具現化されてもよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてもよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。前記コンピュータで読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでもよい。前記媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであってもよいし、コンピュータソフトウェア当業者に公知な使用可能なものであってもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を格納して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
110、120、130、140:電子機器
150、160:サーバ
170:ネットワーク

Claims (19)

  1. 映像処理装置のコンピュータに映像処理方法を実行させるコンピュータプログラムであって、
    前記映像処理方法は、
    入力される映像が含む客体に対するランドマーク情報を抽出する段階、
    前記ランドマーク情報に基づき、前記入力される映像が含む客体と仮想客体とをマッピングする段階、
    前記ランドマーク情報に基づき、前記客体に対して予め定義されている複数のコンポーネントそれぞれの値を決定する段階、
    前記決定された複数のコンポーネントの値の組み合わせに対応するイベントを決定する段階、および
    前記決定されたイベントを、前記客体にマッピングされた仮想客体に適用する段階
    を含み、前記予め定義されている複数のコンポーネントは、少なくとも前記客体の回転を示すための複数の角度コンポーネントを含み、前記映像の現在フレームから抽出されたランドマーク情報によって認識される前記客体のランドマークコンポーネントの座標は、前記客体の回転の変化量に基づいて計算された信頼値を利用して補正されることを特徴とする、コンピュータプログラム。
  2. 前記予め定義されている複数のコンポーネントは、前記客体の特徴点の位置を示す複数のランドマークコンポーネントを更に含むことを特徴とする、請求項1に記載のコンピュータプログラム。
  3. 前記複数のランドマークコンポーネントごとに2つ以上の互いに異なる形状を示す複数の形状値が設定および管理されており、
    前記客体に対して予め定義されている複数のコンポーネントそれぞれの値を決定する段階は、
    第1ランドマークコンポーネントに対して管理される複数の形状値のうちで前記ランドマーク情報に基づいて決定される前記第1ランドマークコンポーネントの形状に対応する形状値を、前記第1ランドマークコンポーネントの値として決定することを特徴とする、請求項2に記載のコンピュータプログラム。
  4. 前記複数の角度コンポーネントは、前記客体に対して設定可能な複数の回転軸に対応し、
    前記複数の回転軸ごとに2つ以上の互いに異なる角度を示す複数の角度値が設定および管理されており、
    前記客体に対して予め定義されている複数のコンポーネントそれぞれの値を決定する段階は、
    前記複数の回転軸のうちで第1回転軸に対する前記客体の角度を前記ランドマーク情報に基づいて決定する段階、および
    前記第1回転軸に対して管理される複数の角度値のうちで前記決定された客体の角度に対応する角度値を、前記第1回転軸に対応する角度コンポーネントの値として決定する段階
    を含むことを特徴とする、請求項2に記載のコンピュータプログラム。
  5. 前記映像処理方法は、
    前記複数のコンポーネントに対して設定可能な値の組み合わせごとにイベントが設定され、組み合わせに対する複数のイベントが管理されており、
    前記イベントを決定する段階は、
    前記管理される複数のイベントのうちから、前記決定された値の組み合わせに対応するイベントを抽出することを特徴とする、請求項1に記載のコンピュータプログラム。
  6. 前記決定されたイベントを前記客体にマッピングされた仮想客体に適用する段階は、
    前記決定されたイベントに対応するモーションファイルをロードする段階、および
    前記ロードされたモーションファイルが含むアニメーションのモーションフレームを、前記仮想客体を表示するためのフレームにフレーム単位で順に適用する段階
    を含むことを特徴とする、請求項1に記載のコンピュータプログラム。
  7. 前記映像処理方法は、
    前記抽出されたランドマーク情報を利用して前記客体の大きさ、位置、および角度を正規化する段階
    をさらに含むことを特徴とする、請求項1に記載のコンピュータプログラム。
  8. 前記映像処理方法は、
    前記映像の現在フレームから抽出されたランドマーク情報によって認識される前記客体のランドマークコンポーネントの座標を、前記映像の以前フレームから抽出されたランドマーク情報を利用して補正する段階
    をさらに含むことを特徴とする、請求項1に記載のコンピュータプログラム。
  9. 前記補正する段階は、
    前記現在フレームで認識される前記客体の回転軸別の角度と前記以前フレームで認識される前記客体の回転軸別の角度の変化量に基づいて計算される信頼値を前記客体の回転の変化量として利用し、前記現在フレームに基づいて前記客体のランドマークコンポーネントの座標を補正することを特徴とする、請求項8に記載のコンピュータプログラム。
  10. 映像処理装置のコンピュータに映像処理方法を実行させるコンピュータプログラムであって、
    前記映像処理方法は、
    入力される映像が含む客体に対するランドマーク情報を抽出する段階、
    前記ランドマーク情報に基づき、前記入力される映像が含む客体と仮想客体とをマッピングする段階、
    前記ランドマーク情報に基づき、前記客体に対して予め定義されている複数のコンポーネントそれぞれの値を決定する段階、
    前記決定された複数のコンポーネントの値の組み合わせに対応するイベントを決定する段階、および
    前記決定されたイベントを、前記客体にマッピングされた仮想客体に適用する段階
    を含み、前記客体は、カメラを通じて入力される前記映像に含まれたユーザの顔を含み、前記仮想客体は、前記ユーザの顔にリアルタイムでマッピングさせようとするキャラクタの顔を含み、前記映像処理方法は、
    前記ユーザの顔が含む両目の開き程度を示す相対的な値を、前記映像の連続する予め設定された数のフレームに対してそれぞれ測定してバッファに格納する段階、
    前記測定された相対的な値に基づき、両目を開いてはおらず且つ両目を閉じてもいない場合、前記バッファに格納された予め設定された数のフレームの相対的な値を分析して片目モーション動作を選択する段階、および
    前記選択された片目モーション動作を前記キャラクタの顔に適用する段階
    を含むことを特徴とする、コンピュータプログラム。
  11. 請求項1~10のうちのいずれか一項に記載のコンピュータプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体。
  12. 入力される映像が含む客体に対するランドマーク情報を抽出する段階、
    前記ランドマーク情報に基づき、前記入力される映像が含む客体と仮想客体とをマッピングする段階、
    前記ランドマーク情報に基づき、前記客体に対して予め定義されている複数のコンポーネントそれぞれの値を決定する段階、
    前記決定された複数のコンポーネントの値の組み合わせに対応するイベントを決定する段階、および
    前記決定されたイベントを、前記客体にマッピングされた仮想客体に適用する段階
    を含み、前記予め定義されている複数のコンポーネントは、少なくとも前記客体の回転を示すための複数の角度コンポーネントを含み、前記映像の現在フレームから抽出されたランドマーク情報によって認識される前記客体のランドマークコンポーネントの座標は、前記客体の回転の変化量に基づいて計算された信頼値を利用して補正されることを特徴とする、映像処理方法。
  13. 前記予め定義されている複数のコンポーネントは、前記客体の特徴点の位置を示す複数のランドマークコンポーネントを更に含むことを特徴とする、請求項12に記載の映像処理方法。
  14. 前記複数のランドマークコンポーネントごとに2つ以上の互いに異なる形状を示す複数の形状値が設定および管理されており、
    前記客体に対して予め定義されている複数のコンポーネントそれぞれの値を決定する段階は、
    第1ランドマークコンポーネントに対して管理される複数の形状値のうちで前記ランドマーク情報に基づいて決定される前記第1ランドマークコンポーネントの形状に対応する形状値を、前記第1ランドマークコンポーネントの値として決定することを特徴とする、請求項13に記載の映像処理方法。
  15. 前記複数の角度コンポーネントは、前記客体に対して設定可能な複数の回転軸に対応し、
    前記複数の回転軸ごとに2つ以上の互いに異なる角度を示す複数の角度値が設定および管理されており、
    前記客体に対して予め定義されている複数のコンポーネントそれぞれの値を決定する段階は、
    前記複数の回転軸のうちで第1回転軸に対する前記客体の角度を前記ランドマーク情報に基づいて決定する段階、および
    前記第1回転軸に対して管理される複数の角度値のうちで前記決定された客体の角度に対応する角度値を、前記第1回転軸に対応する角度コンポーネントの値として決定する段階
    を含むことを特徴とする、請求項13に記載の映像処理方法。
  16. 前記複数のコンポーネントに対して設定可能な値の組み合わせごとにイベントが設定され、組み合わせに対する複数のイベントが管理されており、
    前記イベントを決定する段階は、
    前記管理される複数のイベントのうちから、前記決定された値の組み合わせに対応するイベントを抽出することを特徴とする、請求項12に記載の映像処理方法。
  17. 前記決定されたイベントを前記客体にマッピングされた仮想客体に適用する段階は、
    前記決定されたイベントに対応するモーションファイルをロードする段階、および
    前記ロードされたモーションファイルが含むアニメーションのモーションフレームを、前記仮想客体を表示するためのフレームにフレーム単位で順に適用する段階
    を含むことを特徴とする、請求項12に記載の映像処理方法。
  18. 前記映像の現在フレームから抽出されたランドマーク情報によって認識される前記客体のランドマークコンポーネントの座標を、前記映像の以前フレームから抽出されたランドマーク情報を利用して補正する段階
    をさらに含むことを特徴とする、請求項12に記載の映像処理方法。
  19. 前記補正する段階は、
    前記現在フレームで認識される前記客体の回転軸別の角度と前記以前フレームで認識される前記客体の回転軸別の角度の変化量に基づいて計算される信頼値を前記客体の回転の変化量として利用し、前記現在フレームに基づいて前記客体のランドマークコンポーネントの座標を補正することを特徴とする、請求項18に記載の映像処理方法。
JP2018124807A 2017-06-29 2018-06-29 映像処理方法、コンピュータプログラムおよび記録媒体 Active JP7182919B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0082472 2017-06-29
KR1020170082472A KR101966384B1 (ko) 2017-06-29 2017-06-29 영상 처리 방법 및 시스템

Publications (2)

Publication Number Publication Date
JP2019012526A JP2019012526A (ja) 2019-01-24
JP7182919B2 true JP7182919B2 (ja) 2022-12-05

Family

ID=64738694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018124807A Active JP7182919B2 (ja) 2017-06-29 2018-06-29 映像処理方法、コンピュータプログラムおよび記録媒体

Country Status (4)

Country Link
US (1) US10878224B2 (ja)
JP (1) JP7182919B2 (ja)
KR (1) KR101966384B1 (ja)
CN (1) CN109215102B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020129959A1 (ja) * 2018-12-18 2020-06-25 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び表示方法
CN109948542B (zh) 2019-03-19 2022-09-23 北京百度网讯科技有限公司 手势识别方法、装置、电子设备和存储介质
CN110136231B (zh) * 2019-05-17 2023-02-24 网易(杭州)网络有限公司 虚拟角色的表情实现方法、装置及存储介质
CN110443872B (zh) * 2019-07-22 2021-04-02 北京科技大学 一种具备动态纹理细节的表情合成方法
CN112784622B (zh) * 2019-11-01 2023-07-25 抖音视界有限公司 图像的处理方法、装置、电子设备及存储介质
CN111291674B (zh) * 2020-02-04 2023-07-14 清华珠三角研究院 一种虚拟人物表情动作的提取方法、系统、装置及介质
CN111367580B (zh) * 2020-02-28 2024-02-13 Oppo(重庆)智能科技有限公司 一种应用启动方法、装置及计算机可读存储介质
WO2022024274A1 (ja) * 2020-07-29 2022-02-03 日本電気株式会社 画像処理装置、画像処理方法、及び、記録媒体
JP2022096058A (ja) * 2020-12-17 2022-06-29 トヨタ自動車株式会社 移動体
KR102547358B1 (ko) * 2022-11-15 2023-06-23 엠앤앤에이치 주식회사 볼류메트릭 동영상을 이용한 아바타 퍼포밍 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202188A (ja) 2005-01-24 2006-08-03 Oki Electric Ind Co Ltd 画像合成装置およびそのパターン確認方法
JP2011070623A (ja) 2009-08-31 2011-04-07 Sony Corp 画像処理装置および画像処理方法、並びにプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2440015A1 (en) * 2003-09-03 2005-03-03 National Research Council Of Canada Second order change detection in video
KR20050078757A (ko) * 2004-02-02 2005-08-08 주식회사 비즈모델라인 게임 캐릭터 대체 방법과 게임 캐릭터 대체 시스템과 게임서버 또는 게임 장치 및 기록매체
CN101098241A (zh) * 2006-06-26 2008-01-02 腾讯科技(深圳)有限公司 虚拟形象实现方法及其系统
KR20060104980A (ko) * 2006-09-26 2006-10-09 주식회사 비즈모델라인 이모티콘과 아바타 연동처리 방법 및 시스템
JP4886645B2 (ja) * 2007-09-20 2012-02-29 日本放送協会 仮想顔モデル変形装置及び仮想顔モデル変形プログラム
US9579576B2 (en) * 2008-07-22 2017-02-28 Daybreak Game Company Llc System and method for providing persistent character personalities in a simulation
KR20110021330A (ko) * 2009-08-26 2011-03-04 삼성전자주식회사 3차원 아바타 생성 장치 및 방법
KR101630304B1 (ko) * 2010-02-04 2016-06-14 삼성전자주식회사 디지털 촬영 장치, 그 제어 방법, 및 컴퓨터 판독가능 매체
KR20120059994A (ko) 2010-12-01 2012-06-11 삼성전자주식회사 표정 제어점을 이용한 아바타 제어 장치 및 방법
KR20140061481A (ko) * 2011-08-31 2014-05-21 록스 인터내셔널 그룹 피티이 엘티디 가상 광고 플랫폼
US9049355B2 (en) * 2012-09-21 2015-06-02 Htc Corporation Methods for image processing of face regions and electronic devices using the same
WO2015139231A1 (en) * 2014-03-19 2015-09-24 Intel Corporation Facial expression and/or interaction driven avatar apparatus and method
KR102314274B1 (ko) * 2014-08-18 2021-10-20 삼성전자주식회사 컨텐츠 처리 방법 및 그 전자 장치
KR102205498B1 (ko) * 2014-09-18 2021-01-20 삼성전자주식회사 입력 영상으로부터 특징을 추출하는 방법 및 장치
CN106605258B (zh) * 2014-09-25 2021-09-07 英特尔公司 促进计算设备上的图像的高效自由平面内旋转界标跟踪
KR102383425B1 (ko) * 2014-12-01 2022-04-07 현대자동차주식회사 전자 장치, 전자 장치의 제어 방법, 컴퓨터 프로그램 및 컴퓨터 판독 가능한 기록 매체
KR20160149959A (ko) * 2015-06-19 2016-12-28 라인 가부시키가이샤 사용자들간의 협업을 통해 컨텐츠를 생성하는 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202188A (ja) 2005-01-24 2006-08-03 Oki Electric Ind Co Ltd 画像合成装置およびそのパターン確認方法
JP2011070623A (ja) 2009-08-31 2011-04-07 Sony Corp 画像処理装置および画像処理方法、並びにプログラム

Also Published As

Publication number Publication date
KR20190002081A (ko) 2019-01-08
KR101966384B1 (ko) 2019-08-13
JP2019012526A (ja) 2019-01-24
CN109215102B (zh) 2023-08-18
US10878224B2 (en) 2020-12-29
US20190005309A1 (en) 2019-01-03
CN109215102A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
JP7182919B2 (ja) 映像処理方法、コンピュータプログラムおよび記録媒体
US11972529B2 (en) Augmented reality system
US11875439B2 (en) Augmented expression system
US10600150B2 (en) Utilizing an inertial measurement device to adjust orientation of panorama digital images
WO2023020622A1 (zh) 一种显示方法、装置、电子设备、计算机可读存储介质、计算机程序及计算机程序产品
US11335022B2 (en) 3D reconstruction using wide-angle imaging devices
US11514132B2 (en) Automatic website data migration
US11915400B2 (en) Location mapping for large scale augmented-reality
WO2022017305A1 (en) Mixed-reality teleconferencing across multiple locations
US11017567B2 (en) Dynamic content providing method and system for face recognition camera
CN110322571B (zh) 一种页面处理方法、装置及介质
KR20180097912A (ko) 사용자 단말을 이용하여 사용자의 감정을 분석하는 감정 분석 방법 및 시스템
KR102238036B1 (ko) 영상 처리 방법 및 시스템
KR102252191B1 (ko) 사용자 얼굴 정보를 인식하여 움직이는 캐릭터를 표현하는 방법 및 시스템
JP2020510936A (ja) 補正パターン分析による映像補正方法およびシステム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20181210

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210412

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221122

R150 Certificate of patent or registration of utility model

Ref document number: 7182919

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350