JP6753314B2 - エフェクト生成装置およびエフェクト生成方法、並びにプログラム - Google Patents

エフェクト生成装置およびエフェクト生成方法、並びにプログラム Download PDF

Info

Publication number
JP6753314B2
JP6753314B2 JP2016568320A JP2016568320A JP6753314B2 JP 6753314 B2 JP6753314 B2 JP 6753314B2 JP 2016568320 A JP2016568320 A JP 2016568320A JP 2016568320 A JP2016568320 A JP 2016568320A JP 6753314 B2 JP6753314 B2 JP 6753314B2
Authority
JP
Japan
Prior art keywords
face
unit
effect
objects
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016568320A
Other languages
English (en)
Other versions
JPWO2016111174A1 (ja
Inventor
理央 山崎
理央 山崎
貴晶 中川
貴晶 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2016111174A1 publication Critical patent/JPWO2016111174A1/ja
Application granted granted Critical
Publication of JP6753314B2 publication Critical patent/JP6753314B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Description

本開示は、エフェクト生成装置およびエフェクト生成方法、並びにプログラムに関し、特に、物理オブジェクトどうしのインタラクションに応じて新しいエフェクトを生成することができるようにしたエフェクト生成装置およびエフェクト生成方法、並びにプログラムに関する。
従来、スマートフォンやゲーム機器などの画面の中において、現実世界のオブジェクトと仮想世界のオブジェクトとをインタラクションさせる拡張現実(AR:Augmented Reality)技術を応用した商品やサービスが広まっている。その中には、例えば、カードゲームなどのような、複数のカード(物理オブジェクト)を使用して、それぞれのカードに対応するキャラクタ(仮想オブジェクト)を、画面の中(仮想世界)においてインタラクションさせる技術がある。
この技術では、主に物理オブジェクトどうしの位置関係のみに基づいてインタラクション内容を決定しているため、物理世界において行われる操作内容と、それらの操作内容に対応する仮想オブジェクトのインタラクション内容とは限られたものとなっていた。
これに対して、例えば、特許文献1では、顔や物などそれぞれの特徴点解析を行い、その特徴点解析の結果を利用して、それぞれに付随させる仮想エフェクトの種類や出し方を変化させる方法が提案されている。
また、特許文献2では、顔や物などそれぞれの特徴点解析を行って意味づけ(手の指が縮こまる動きをしたら「つかんでいる」など)まで行い、その意味づけを行った結果を利用する方法が提案されている。これにより、例えば、対応する仮想オブジェクト(画面の中の手など)や、それが作用を及ぼす仮想オブジェクト(画面の中のボールなど)を変形させたり、それらをインタラクションさせたり(画面の中の手がボールをつかむなど)することが実現されている。
特開2014−006912号公報 特表2012−521039号公報
ところで、上述した特許文献1および2のどちらにおいても、複数の物理オブジェクトが現実世界でインタラクションした際に、それぞれ対応する仮想オブジェクトがインタラクションされるだけであって、そこに新しい仮想エフェクトを表示させることは実現されていなかった。例えば、手でコップを持って傾けるという動作を現実世界で行った際に、手とコップに対応する仮想オブジェクトによって仮想世界においても同様のインタラクションが行われるだけであって、コップの水を飲むという仮想エフェクトが表示されることはなかった。
本開示は、このような状況に鑑みてなされたものであり、物理オブジェクトどうしのインタラクションに応じて新しいエフェクトを生成することができるようにするものである。
本開示の一側面のエフェクト生成装置は、入力画像から、2つ以上の対象物を検出する検出部と、前記検出部により検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成するエフェクト生成部と、前記対象物の位置前記対象物の状態、および前記対象物の奥行きを含む前記対象物どうしの関係性を特定する特定部とを備え、前記エフェクト生成部は、前記特定部により特定された前記対象物どうしの関係性に基づいて、前記エフェクトを生成する。
本開示の一側面のエフェクト生成方法またはプログラムは、入力画像から、2つ以上の対象物を検出し、検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成し、前記対象物の位置前記対象物の状態、および前記対象物の奥行きを含む前記対象物どうしの関係性を特定するステップを含み、特定された前記対象物どうしの関係性に基づいて、前記エフェクトが生成される。
本開示の一側面においては、入力画像から、2つ以上の対象物検出され、その検出された対象物どうしの関係から、対応する所定のエフェクトが生成され、対象物の位置対象物の状態、および対象物の奥行きを含む対象物どうしの関係性が特定される。そして、特定された対象物どうしの関係性に基づいて、エフェクトが生成される。
本開示の一側面によれば、物理オブジェクトどうしのインタラクションに応じて新しいエフェクトを生成することができる。
本技術を適用した画像処理装置の一実施の形態の構成例を示すブロック図である。 画像処理装置による画像処理の一例を説明する図である。 顔解釈処理において参照されるモデルデータの一例を示す図である。 検出された物体の一例を示す図である。 物体解釈処理において参照されるモデルデータの一例を示す図である。 インタラクション解釈処理において参照されるインタラクションモデルデータの一例を示す図である。 マップ作成処理について説明する図である。 画像処理を説明するフローチャートである。 顔関連処理を説明するフローチャートである。 物体関連処理を説明するフローチャートである。 二人の被写体の顔どうしのインタラクションに対応した仮想エフェクトについて説明する図である。 多数のインタラクションに対応した仮想エフェクトについて説明する図である。 仮想エフェクトを変化させる例について説明する図である。 画像処理装置による画像処理の他の例を説明する図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
図1は、本技術を適用したエフェクト生成装置である画像処理装置の一実施の形態の構成例を示すブロック図である。
図1に示す画像処理装置11は、撮像部12により撮像された画像を入力画像として、記録部13に記録されている各種のデータを使用して入力画像に対して画像処理を施し、その画像処理が施された画像を出力画像として出力して、表示部14に表示させることができる。例えば、画像処理装置11は、デジタルカメラなどの撮像装置により提供される一機能として、撮像装置に組み込むことができる。
画像処理装置11は、デジタル信号処理部21、顔検出部22、物体検出部23、距離測定部24、顔特徴点解析部25、物体特徴点解析部26、顔解釈部27、物体解釈部28、インタラクション解釈部29、マップ作成部30、および、表示画像作成部31を備えて構成される。
デジタル信号処理部21には、撮像部12により撮像される動画像が1フレームごと供給される。そして、デジタル信号処理部21は、1フレームごとの画像に対して順次、画像処理装置11において画像処理を行うのに必要な各種のデジタル信号処理を施し、顔検出部22、物体検出部23、および距離測定部24に供給する。
顔検出部22は、デジタル信号処理部21から供給される画像から、検出を行う対象物として被写体の顔を検出する顔検出処理を行い、顔の検出に成功した場合には、顔が写されている領域を画像から切り出した顔領域を顔特徴点解析部25に供給する。また、顔検出部22は、画像における顔の位置を示す顔位置情報(例えば、画像上のX座標およびY座標)を求め、インタラクション解釈部29およびマップ作成部30に供給する。
物体検出部23は、デジタル信号処理部21から供給される画像から、検出を行う対象物として特定の物体を検出する物体検出処理を行い、物体の検出に成功した場合には、物体が写されている領域を画像から切り出した物体領域を物体特徴点解析部26に供給する。また、物体検出部23は、画像における物体の位置を示す物体位置情報(例えば、画像上のX座標およびY座標)を求め、インタラクション解釈部29およびマップ作成部30に供給する。
距離測定部24は、デジタル信号処理部21から供給される画像の全体に亘り、画像に写されている全ての物に対する撮像装置12からの距離を測定し、例えば、画像を構成する画素ごとの奥行き情報(例えば、画像面に対して直交するZ方向の距離)を求める。そして、距離測定部24は、デジタル信号処理部21から供給される画像とともに、画素ごとの奥行き情報をインタラクション解釈部29およびマップ作成部30に供給する。なお、距離測定部24は、例えば、顔検出部22により検出された顔、および、物体検出部23により検出された物体までの距離を、少なくとも測定することができるように構成してもよい。
顔特徴点解析部25は、顔検出部22から顔領域が供給されると、その顔領域に含まれる複数の特徴点(例えば、目や鼻、口などの顔を構成する各部分を特定する点)を抽出する解析処理を行う。そして、顔特徴点解析部25は、それらの特徴点の位置を解析結果として取得して、顔解釈部27に供給する。
物体特徴点解析部26は、物体検出部23から物体領域が供給されると、その物体領域に含まれている複数の特徴点(例えば、外形やロゴなどの物体を構成する各部分を特定する点)を抽出する解析処理を行う。そして、物体特徴点解析部26は、それらの特徴点の位置を解析結果として取得して、物体解釈部28に供給する。
顔解釈部27は、顔特徴点解析部25から供給される解析結果に基づき、後述する図3に示すようなモデルデータを参照し、画像に写されている顔の状態を解釈して、その顔の状態に対して意味づけする顔解釈処理を行う。そして、顔解釈部27は、顔解釈処理により特定された顔の状態を示すフラグ名をインタラクション解釈部29に供給する。なお、顔解釈部27による顔解釈処理については、図3に示すモデルデータを参照して後述する。
物体解釈部28は、物体特徴点解析部26から供給される解析結果に基づき、後述する図5に示すようなモデルデータを参照し、画像に写されている物体の状態を解釈して、その物体の状態に対して意味づけする物体解釈処理を行う。そして、物体解釈部28は、物体解釈処理により特定された物体の状態を示すフラグ名をインタラクション解釈部29に供給する。なお、物体解釈部28による物体解釈処理については、図5に示すモデルデータを参照して後述する。
インタラクション解釈部29には、顔検出部22から顔位置情報が供給され、物体検出部23から物体位置情報が供給され、距離測定部24から画素ごとの奥行き情報が供給され、顔解釈部27から顔の状態を示すフラグ名が供給され、物体解釈部28から物体の状態を示すフラグ名が供給される。これらの情報を用いて、インタラクション解釈部29は、後述する図6に示すようなインタラクションモデルデータを参照し、顔と物体との関係性を解釈(特定)して、その関係性に対して意味づけするインタラクション解釈処理を行う。そして、インタラクション解釈部29は、インタラクション解釈処理により特定された顔と物体との関係性を示すインタラクションのフラグ名をマップ作成部30および表示画像作成部31に供給する。なお、インタラクション解釈部29によるインタラクション解釈処理については、図6に示すインタラクションモデルデータを用いて後述する。
マップ作成部30には、顔検出部22から顔位置情報が供給され、物体検出部23から物体位置情報が供給され、距離測定部24から画素ごとの奥行き情報が供給され、インタラクション解釈部29からインタラクションのフラグ名が供給される。これらの情報を用いて、マップ作成部30は、仮想エフェクトが正しく表示されるように表示画像を表示画像作成部31に作成させるためのマップデータを作成するマップ作成処理を行い、作成したマップデータを表示画像作成部31に供給する。なお、マップ作成部30によるマップ作成処理については、図7を参照して後述する。
表示画像作成部31は、インタラクション解釈部29から供給されるインタラクションのフラグ名に従って、顔および物体をマスクする仮想オブジェクト、および、顔および物体の関係性に対応する仮想エフェクトを生成する。そして、表示画像作成部31は、生成した仮想オブジェクトおよび仮想エフェクトを、画像処理装置11に入力される画像に対して付加した画像を作成する。例えば、表示画像作成部31は、顔および物体が隠れるように、それぞれ対応する仮想オブジェクトを重畳させるとともに、さらにその上に仮想エフェクトを重畳させた表示画像を作成する。また、このとき、表示画像作成部31は、マップ作成部30から供給されるマップデータに従って、仮想エフェクトが正しく表示されるように表示画像を作成する。なお、表示画像作成部31による表示画像作成処理については、図7を参照して後述する。
このように構成される画像処理装置11は、現実世界における顔および物体の動作に対応してそれぞれの仮想オブジェクトが動作するとともに、顔および物体の相互的な関係性に応じて仮想エフェクトが表示される表示画像を作成することができる。
ここで、図2を参照して、画像処理装置11による画像処理の一例について説明する。
図2の左側には、画像処理装置11に入力される画像から検出された顔および物体の例が示されており、図2の右側には、表示画像作成部31により作成される画像における仮想エフェクト例が示されている。
図2には、顔の口の開閉状態と、コップの傾き状態との組み合わせに従って、コップの飲み物を飲んでいる仮想エフェクトが表示される例が示されている。即ち、画像処理装置11では、顔の口が開いている状態であり、かつ、コップが顔の方に傾いている状態であるとき(さらには、顔とコップとが接触する位置関係にあるとき)、コップの飲み物を飲んでいる仮想エフェクトが表示される。
具体的には、図2の左側の上から1番目には、顔の口が閉じている状態と、コップが顔の方に傾いている状態との組み合わせが示されており、この組み合わせでは、コップの飲み物を飲んでいる仮想エフェクトは表示されない。同様に、図2の上から2番目には、顔の口が開いている状態と、コップが顔の反対側に傾いている状態との組み合わせが示されており、この組み合わせでは、コップの飲み物を飲んでいる仮想エフェクトは表示されない。また、図2の上から3番目には、顔の口が閉じている状態と、コップが顔の反対側に傾いている状態との組み合わせが示されており、この組み合わせでは、コップの飲み物を飲んでいる仮想エフェクトは表示されない。
一方、図2の上から4番目には、顔の口が開いている状態と、コップが顔の方に傾いている状態との組み合わせが示されており、この組み合わせにおいて、コップの飲み物を飲んでいる仮想エフェクトが表示される。
例えば、インタラクション解釈部29は、顔の状態を示すフラグ名「口を開けている」が供給され、かつ、物体の状態を示すフラグ名「こぼれる」が供給されたとき、顔と物体との位置情報に基づいて、コップが所定角度以上に傾いている方向が顔の方であれば、インタラクションのフラグ名「人が物体を飲んでいる」を出力する。これに従い、表示画像作成部31は、口を開けて飲み物を飲んでいるマスク画像を生成して、撮像部12により撮像された画像に合成する。さらに、図示しないが、コップから飲料が流れ出る仮想エフェクトや、「ゴクゴク」という擬音を表現する仮想エフェクトを表示してもよい。
また、図2の例では、被写体の顔がマスク画像で隠されており、入力画像に写されているコップがそのまま、表示画像に表示されている。このとき、コップがマスク画像で隠れた状態では、飲み物を飲んでいるという状況を正しく認識することは困難になってしまう。そこで、画像処理装置11では、マップ作成部30が作成するマップデータに従って、マスク画像の上にコップが表示されるような表示画像を生成することができる。これにより、コップがマスク画像に隠れることが回避され、飲み物を飲んでいるという状況を正しく認識することができる表示画像を生成することができる。
次に、図3には、顔解釈部27が顔解釈処理において参照するモデルデータの一例が示されている。
図3に示すように、モデルデータでは、顔の特徴的な表情や動作について、各特徴点の位置関係や動きが定義されている。具体的には、モデルデータは、顔の状態を表すフラグ名(口をあけている、笑っている、すねているなど)と、複数の特徴点の位置(顔領域におけるX座標およびY座標)とが対応付けられて登録されている。
顔解釈部27は、顔解釈処理において、顔特徴点解析部25から供給される解析結果の顔の特徴点の位置と、モデルデータに登録されているフラグ名ごとの特徴点の位置とについて、それぞれ対応する特徴点どうしのマッチングを行う。そして、顔解釈部27は、マッチングにより求められたマッチング度が所定の閾値以上である場合には、顔の状態に対する意味づけが成功したとして、最もマッチング度が高いものに対応付けられているフラグ名を、画像に写されている顔の状態として特定する。これにより、顔解釈部27は、その顔の状態を示すフラグ名をインタラクション解釈部29に供給する。
次に、図4には、物体検出部23により検出された物体の一例として、飲料のビンが示されている。また、図5には、物体解釈部28が物体解釈処理において参照するモデルデータの一例として、図4の飲料のビンのモデルデータが示されている。
例えば、物体特徴点解析部26は、飲料のビンの外形を特定する特徴点や、ビン内における飲料の液面を特定する特徴点、ビンのロゴマークを特定する特徴点などを抽出して、解析結果として物体解釈部28に供給する。
物体解釈部28は、物体解釈処理において、物体特徴点解析部26から供給される解析結果の物体の特徴点の位置に基づいて、検出された物体が飲料のビンであることを特定し、それに対応するモデルデータを参照する。そして、物体解釈部28は、ビンのロゴマークを特定する特徴点からビンのロゴマークを特定したり、飲料のビンの外形を特定する特徴点から傾きを特定したり、ビン内における飲料の液面を特定する特徴点から飲料の残量や液面の動きなどを特定したりする。
その結果、物体解釈部28は、飲料のビンの傾きが40°より大きければ、物体の状態を示すフラグ名「こぼれる」を出力する。また、物体解釈部28は、ビン内の液面が瓶の底に近ければ、物体の状態を示すフラグ名「もうすぐなくなる」を出力し、ビン内の液面が上下に繰り返し動いていれば、物体の状態を示すフラグ名「振られている」を出力する。
このように、物体解釈部28は、検出された物体の状態を解釈した結果に従って、その物体の状態を示すフラグ名をインタラクション解釈部29に供給する。
次に、図6には、インタラクション解釈部29がインタラクション解釈処理において参照するインタラクションモデルデータの一例が示されている。
図6に示すように、インタラクションモデルデータでは、顔の意味フラグ(顔の状態を示すフラグ名)、物体の意味フラグ(物体の状態を示すフラグ名)、顔と物体の位置関係、顔と物体の奥行き関係、インタラクションのフラグ名、および、表示エフェクト名が対応付けられて登録されている。
例えば、インタラクション解釈部29は、このようなインタラクションモデルデータを参照し、顔解釈部27から供給される顔の状態を示すフラグ名、物体解釈部28から供給される物体の状態を示すフラグ名、顔検出部22から供給される顔位置情報、物体検出部23から供給される物体位置情報、距離測定部24から供給される奥行き情報に従って、対応するインタラクションのフラグ名を特定する。
具体的には、インタラクション解釈部29は、顔の状態を示すフラグ名が「口をあけている」であり、物体の状態を示すフラグ名が「こぼれる」であり、顔と物体の位置関係が「顔と物体が接触している」であり、顔と物体の奥行き関係が「物体が顔より前」であるとき、インタラクションのフラグ名「人が物体を飲んでいる」を特定する。
これに従い、表示画像作成部31は、インタラクションのフラグ名「人が物体を飲んでいる」に対応する表示エフェクト名「ごくごく」に対応する顔および物体をマスクする仮想オブジェクト、および、顔および物体の関係性に対応する仮想エフェクトを記録部13から読み出して、表示画像を作成する。なお、記録部13には、インタラクションモデルデータに登録されている仮想エフェクト名に対応する仮想オブジェクトおよびエフェクト部品が格納されている。
次に、図7を参照して、マップ作成部30によるマップ作成処理、および、表示画像作成部31による表示画像作成処理について説明する。
図7では、飲料のビンを持っている人物が写された画像P1が画像処理装置11に入力され、ビンの飲料が人物にかかるような仮想エフェクトが表示される画像処理が施された画像P2が表示部14に表示される例が示されている。
マップ作成部30は、距離測定部24から供給される奥行き情報に従って、ビンが人物の手前にあると認識して、画像P1の全体のうち、検出されたビンの領域が区別できるように表現したマップデータMを作成する。
表示画像作成部31は、マップ作成部30により作成されたマップデータMと、記録部13から読み出した仮想オブジェクトV1とを合成することにより、ビンの領域が欠けた仮想オブジェクトV1’を作成する。また、表示画像作成部31は、マップ作成部30により作成されたマップデータMと、記録部13から読み出した仮想エフェクトV2とを合成することにより、ビンの領域が欠けた仮想オブジェクトV2’を作成する。
そして、表示画像作成部31は、画像P1に、仮想オブジェクトV1’を重畳し、さらに仮想オブジェクトV2’を重畳することにより、画像P2を作成することができる。即ち、画像P2では、ビンが仮想オブジェクトに隠れることが回避されるとともに、仮想オブジェクトの上に仮想エフェクトが表示されている。
次に、図8は、画像処理装置11において行われる画像処理を説明するフローチャートである。
例えば、撮像部12により動画像の撮像が開始されて、その動画像を構成する1フレームごとの画像が供給されると処理が開始され、ステップS11において、顔検出部22、顔特徴点解析部25、および顔解釈部27により顔関連処理が行われる。顔関連処理では、図9のフローチャートを参照して後述するように、顔の検出に成功し、顔の状態に対する意味づけに成功すると、顔の状態を示すフラグ名がインタラクション解釈部29に供給される。
ステップS12において、物体検出部23、物体特徴点解析部26、および物体解釈部28により物体関連処理が行われる。物体関連処理では、図10のフローチャートを参照して後述するように、物体の検出に成功し、物体の状態に対する意味づけに成功すると、物体の状態を示すフラグ名がインタラクション解釈部29に供給される。
ステップS13において、距離測定部24は、画像を構成する画素ごとの奥行き情報を求めて、インタラクション解釈部29およびマップ作成部30に供給する。
ステップS14において、インタラクション解釈部29は、顔の状態を示すフラグ名、および物体の状態を示すフラグ名が供給されたか否かを判定する。
例えば、ステップS11の顔関連処理において顔の検出に成功しなかった場合、または、顔の状態に対する意味づけに成功しなかった場合には、顔の状態を示すフラグ名はインタラクション解釈部29に供給されない。同様に、ステップS12の物体関連処理において物体の検出に成功しなかった場合、または、物体の状態に対する意味づけに成功しなかった場合には、物体の状態を示すフラグ名はインタラクション解釈部29に供給されない。従って、これらの場合、ステップS14において、インタラクション解釈部29は、顔の状態を示すフラグ名、および物体の状態を示すフラグ名が供給されなかったと判定して、処理はステップS11に戻り、次のフレームの画像を処理対象として、以下、同様の処理が繰り返される。
一方、ステップS11の顔関連処理において顔の状態を示すフラグ名が供給され、かつ、ステップS12の物体関連処理において物体の状態を示すフラグ名が供給されていれば、ステップS14において、インタラクション解釈部29は、顔の状態を示すフラグ名、および物体の状態を示すフラグ名が供給されたと判定して、処理はステップS15に進む。
ステップS15において、インタラクション解釈部29は、顔と物体のインタラクションを解析する。即ち、インタラクション解釈部29は、図6に示したようなインタラクションモデルデータを参照してインタラクション解釈処理を行い、顔と物体との関係性を示すインタラクションのフラグ名をマップ作成部30および表示画像作成部31に供給する。
ステップS16において、マップ作成部30は、仮想エフェクトが正しく表示されるように表示画像を表示画像作成部31に作成させるためのマップデータを作成するマップ作成処理を行い、作成したマップデータを表示画像作成部31に供給する。
ステップS17において、表示画像作成部31は、インタラクション解釈部29から供給されるインタラクションのフラグ名に従って、顔および物体をマスクする仮想オブジェクト、および、顔および物体の関係性に対応する仮想エフェクトを記録部13から読み出す。そして、マップ作成部30から供給されるマップデータに従って、仮想オブジェクトおよび仮想エフェクトを加工した後、画像処理装置11に入力される画像に対して付加した画像を作成する。ステップS17の処理後、処理はステップS11に戻り、次のフレームの画像を処理対象として、以下、同様の処理が繰り返して行われる。
次に、図9は、図8のステップS11で行われる顔関連処理を説明するフローチャートである。
ステップS21において、顔検出部22はデジタル信号処理部21から供給される画像を取得し、ステップS22において、その画像から顔を検出する顔検出処理を行う。
ステップS23において、顔検出部22は、ステップS22の顔検出処理において顔検出に成功したか否かを判定する。例えば、画像に顔が写されていない場合には顔を検出することができず、ステップS23において、顔検出部22は、顔検出に成功しなかったと判定して、処理は終了される。
一方、ステップS22の顔検出処理において画像から顔を検出することができていれば、ステップS23において、顔検出部22は、顔検出に成功したと判定して、処理はステップS24に進む。
ステップS24において、顔検出部22は、ステップS22で検出した顔が写されている領域を画像から切り出した顔領域を顔特徴点解析部25に供給し、顔特徴点解析部25は、その顔領域に含まれる複数の特徴点を抽出する解析処理を行う。そして、顔特徴点解析部25は、解析処理において抽出した特徴点の位置情報を、解析結果として顔解釈部27に供給する。
ステップS25において、顔解釈部27は、ステップS24で供給された解析結果に基づき、画像に写されている顔の状態を解釈して、その顔の状態に対して意味づけする顔解釈処理を行う。
ステップS26において、顔解釈部27は、ステップS25の顔解釈処理において顔の状態に対する意味づけに成功したか否かを判定し、意味づけに成功しなかったと判定した場合には、処理は終了される。
一方、ステップS26において、顔解釈部27が、ステップS25の顔解釈処理において顔の状態に対する意味づけに成功したと判定した場合、処理はステップS27に進む。ステップS27において、顔解釈部27は、ステップS25で意味づけした顔の状態を示すフラグ名をインタラクション解釈部29に供給し、処理は終了される。
次に、図10は、図8のステップS12で行われる物体関連処理を説明するフローチャートである。
ステップS31において、物体検出部23はデジタル信号処理部21から供給される画像を取得し、ステップS32において、その画像から物体を検出する物体検出処理を行う。
ステップS33において、物体検出部23は、ステップS32の物体検出処理において物体検出に成功したか否かを判定する。例えば、画像に物体が写されていない場合には物体を検出することができず、ステップS33において、物体検出部23は、物体検出に成功しなかったと判定して、処理は終了される。
一方、ステップS32の物体検出処理において画像から物体を検出することができていれば、ステップS33において、物体検出部23は、物体検出に成功したと判定して、処理はステップS34に進む。
ステップS34において、物体検出部23は、検出した物体が写されている領域を画像から切り出した物体領域を物体特徴点解析部26に供給し、物体特徴点解析部26は、その物体領域に含まれる複数の特徴点を抽出する解析処理を行う。そして、物体特徴点解析部26は、解析処理において抽出した特徴点の位置情報を、解析結果として物体解釈部28に供給する。
ステップS35において、物体解釈部28は、ステップS34で供給された解析結果に基づき、画像に写されている物体の状態を解釈して、その物体の状態に対して意味づけする物体解釈処理を行う。
ステップS36において、物体解釈部28は、ステップS35の物体解釈処理において物体の状態に対する意味づけに成功したか否かを判定し、意味づけに成功しなかったと判定した場合には、処理は終了される。
一方、ステップS36において、物体解釈部28が、ステップS35の物体解釈処理において物体の状態に対する意味づけに成功したと判定した場合、処理はステップS37に進む。ステップS37において、物体解釈部28は、ステップS35で意味づけした物体の状態を示すフラグ名をインタラクション解釈部29に供給し、処理は終了される。
以上のように、画像処理装置11では、顔の状態を示すフラグ名と物体の状態を示すフラグ名とに従った顔と物体との関係性を示すインタラクションのフラグ名に基づいて、仮想オブジェクトおよび仮想エフェクトを付加した表示画像を作成することができる。
なお、以上の実施の形態では、顔と物体とのインタラクションについて説明したが、画像処理装置11は、例えば、複数の顔どうしのインタラクションに対応した仮想エフェクトを表示することができる。
図11を参照して、二人の被写体の顔どうしのインタラクションに対応した仮想エフェクトについて説明する。
図11の左側には、画像処理装置11に入力される画像が示されており、図11の右側には画像処理装置11で画像処理が施された表示画像が示されている。
図11の上側に示すように、二人の被写体が並んで正面を向いて写っている画像が入力されると、それぞれの被写体の顔に顔用の仮想オブジェクトが重畳された表示画像が生成される。そして、図11の下側に示すように、一方の被写体の顔が他方の被写体に向かって近づき口をとがらすと、インタラクション解釈部29は、インタラクション解釈処理において「頬にキスをしている」という、それらの顔どうしの関係性を特定する。これに従い、図11の下側に示す表示画像では、一方の被写体の顔用の仮想オブジェクトの口をとがらせるとともに、他方の被写体の顔用の仮想オブジェクトの目にハートマークの仮想エフェクトが表示される。さらに、二人の間に複数のハートマークの仮想エフェクトが表示される。
このように、画像処理装置11は、複数の顔どうしのインタラクションに対応した仮想エフェクトを表示することもできる。
また、画像処理装置11は、顔と物体、または、顔と顔のように、2つのもののインタラクションに対応するだけでなく、3つ以上の多数のもののインタラクションにも対応することができる。
図12を参照して、三人の被写体と、3つの物体とのインタラクションに対応した仮想エフェクトについて説明する。
図12の左側には、画像処理装置11に入力される画像が示されており、図12の右側には画像処理装置11で画像処理が施された表示画像が示されている。
図12の上側に示すように、三人の被写体が並んで正面を向いて、それぞれがビールの入ったジョッキを単に持っている画像が入力されると、それぞれの被写体の顔に顔用の仮想オブジェクトが重畳されるとともに、ビールの泡が溢れるような物体用の仮想オブジェクトがジョッキに重畳された表示画像が生成される。
そして、図12の下側に示すように、三人のジョッキが接触すると、インタラクション解釈部29は、インタラクション解釈処理において「皆で乾杯をしている」という、それらの関係性を特定する。これに従い、図12の下側に示す表示画像では、乾杯で盛り上がっているような顔用の仮想オブジェクトが表示されるとともに、ビールの泡が乾杯の勢いで飛び出すような仮想エフェクトが表示される。さらに、乾杯音を表すような仮想エフェクトが表示される。
このように、画像処理装置11は、複数の被写体および物体が写されている場合に、顔と顔や、複数の顔と複数の物体などの組み合わせ用の仮想エフェクトを表示することができる。
また、画像処理装置11は、例えば、図示しない通信部を介してインターネットなどのネットワークに接続することができ、表示部14に表示される表示画像を、ネットワークを介して配信することができる。その際、画像処理装置11は、ネットワークを介して接続された他のユーザと相互影響を受けるように、仮想エフェクトを変化させることができる。
例えば、図13に示すように、あるユーザがある特定のドーナツを食べた後、「おいしい表情」をしたとき、画像処理装置11は、そのドーナッツを食べて「おいしい表情」をしたという情報を、ネットワークを介してサーバ装置に送信する。このとき、画像処理装置11は、「おいしく食べている」エフェクトを表示する。
そして、サーバ装置において、特定のドーナツ(同一の商品)を食べた後の「おいしい表情」をした回数(「おいしく食べている」エフェクトを使用した回数)を計数したカウント値を、ドーナッツの横に数値で表示するような仮想エフェクトとして表示することができる。即ち、画像処理装置11は、ネットワークを介して接続された他の画像処理装置11との間でサーバ装置を介してカウント値を送受信することができ、他の画像処理装置11でのカウント値を含めた合計に従って、仮想エフェクトを変化(例えば、数値を増加)させることができる。従って、「おいしい表情」をしたユーザが増加するのに応じて、仮想エフェクトの数値が増加することになり、例えば、図13の表示例では、最新のカウント値「3562うまい!!」が表示されている。
このように、画像処理装置11は、特定のドーナッツに対して「おいしいかどうか」の評価を付けることができ、おいしいと評価したのが自分で累計何人目だったかを表すように仮想エフェクトをリアルタイムに変化させていくことができる。つまり、「おいしく食べている」エフェクトの内容は不変であるが、「おいしく食べている」エフェクトを使用した回数に従って、どれだけ多くの人が、そのドーナッツをおいしいと評価しているかを視覚的に認識することができる。
このように、画像処理装置11は、インタラクションの意味づけ結果とそれに対応する仮想エフェクトを、単一ユーザだけでなく、例えば、世界中の全ユーザと共同で変化させていけるようにすることができる。もちろん、画像処理装置11は、他のユーザの影響を受けずに単体で、所定の関係性が特定された回数などの様々な状況に応じて、仮想オブジェクトまたは仮想エフェクトを変化させてもよい。
また、このように他のユーザとの相互影響を受けて仮想エフェクトを変化させる他、画像処理装置11は、時系列的に、インタラクションの意味づけを変化させることができる。
例えば、画像処理装置11は、「ビールを飲んでいる」を一定時間内に1度だけ行ったときには、通常の「ビールを飲んでいる」エフェクトが表示される。そして、「ビールを飲んでいる」を一定時間内に5回以上行った場合、画像処理装置11は、「ビールを大量に飲んでいる」と意味づけすることができ、通常から変化させて「ビールを飲んで酔っ払った」エフェクトを表示することができる。
また、画像処理装置11は、複数のユーザが写った画像において、特定のユーザにだけ特定の仮想エフェクトを表示させることができる。
例えば、図14を参照して、画像処理装置11による画像処理の他の例について説明する。
図14には、複数のユーザがカラオケを行っている画像に対して画像処理装置11により画像処理を行っている例が示されている。図14の左側には、画像処理装置11に入力される画像から検出された顔および物体の例が示されており、図14の右側には、表示画像作成部31により作成される画像における仮想エフェクト例が示されている。
図14には、顔の口の開閉状態と、マイクの向きとの組み合わせに従って、カラオケで歌っている仮想エフェクトが表示される例が示されている。即ち、画像処理装置11では、図14の左側の一番下に示すように、顔の口が開いている状態であり、かつ、マイクが顔の方に向いている状態であるとき(さらには、顔とマイクとが接触する位置関係にあるとき)、マイクに向かって歌を歌っている仮想エフェクトが表示される。
例えば、従来、カラオケではマイクの音声入力から歌っていることを認識することはできたが、複数のユーザのうち誰が歌っているのかを特定することが困難であり、歌っているユーザにスポットするような仮想エフェクトを表示することは困難であった。また、その歌っているユーザ以外のユーザが楽器を使用しているとき、その楽器に仮想エフェクトを表示することも困難であった。
これに対し、画像処理装置11では、マイクの音声入力とともに、ユーザの口の開閉、並びに、マイクの位置および向きを認識することで、歌っているユーザを特定して、そのユーザにスポットするような仮想エフェクトを表示することができる。このように、画像処理装置11では、顔とマイクとのインタラクションに基づいた仮想エフェクトを表示することで、より盛り上げることができる。
さらに、画像処理装置11では、特定のジェスチャを予め登録しておくことで、歌っているユーザが、そのジェスチャをしたときに、特定の仮想エフェクトを発生させることもできる。なお、マイクの位置情報を認識するために、物体検出部23による物体検出処理に加えて、マイクに位置を特定するための仕組み(例えば、発信機や発光体など)を組み込んでおくことで、より正確にマイクを認識することができる。
なお、上述した図6に示すインタラクションモデルデータは、一例であり、インタラクション解釈部29がインタラクション解析処理を行うのに、図6に示したような情報だけに使用するのに限定されることはない。例えば、インタラクション解釈部29は、音声認識情報や、ジェスチャ認識情報、日時情報、現在地情報、天気情報、周辺のイベント情報、ネットワークを介して取得できる情報などを補助的に使用して、インタラクション解析処理を行ってもよい。例えば、画像処理装置11では、ある特定の地域でビールを飲んでいる場合、その地域に関連したキャラクタが酔っぱらった仮想エフェクトを、背景に合成した表示画像を作成することができる。
さらに、画像処理装置11では、顔解釈部27が顔解釈処理において参照するモデルデータは、図3に示したような予め定義されたものを使用するのに限定されることはない。例えば、ユーザ自身で、表情や動作などに対応した特徴点の組み合わせを決定してモデルデータに登録し、顔解釈部27が、ユーザが登録した特徴点の組み合わせとマッチングを行って顔の状態を特定してもよい。同様に、物体解釈部28が物体解釈処理において参照するモデルデータや、インタラクション解釈部29がインタラクション解釈処理において参照するインタラクションモデルデータについても、ユーザが登録したデータを使用することができる。
また、画像処理装置11では、物体検出部23が画像から物体を検出する方法として、物体のロゴマークを検出する方法や、物体に付されている所定のコード、物体の輪郭または色を検出する方法などを用いることができる。さらに、物体検出部23は、距離測定部24により求められる奥行き情報を利用して、物体の凹凸などの表面形状を検出してもよい。
また、画像処理装置11では、物体に重畳させる仮想オブジェクトに対して、その物体を購入することができるオンラインページへのリンクや、商品情報ページへのリンクなどを追加することができる。これにより、その画像を閲覧した閲覧者が、仮想オブジェクトに対する操作(タッチ)を行うことで、物体を容易に購入したり、その物体の詳細な情報を得たりすることができる。
さらに、画像処理装置11では、表示画像作成部31は、仮想エフェクトとして、画像を用いる他、アニメーションを用いることができる。また、表示画像作成部31は、画像に写されている顔や物体などの対象物以外の箇所に仮想エフェクトを表示させたり、仮想オブジェクト自体を変形させたりすることができる。即ち、顔および物体をマスクする仮想オブジェクトを表示させることなく、顔および物体以外の箇所に仮想エフェクトのみを表示させてもよい。
以上のように、画像処理装置11では、人体の一部である顔と、それ以外の物理オブジェクト同士のインタラクションを、対応する仮想オブジェクト同士のインタラクションに反映させることができる。これにより、画像処理装置11は、人が現実世界の物を使うシチュエーションにおいて、より多くの現実世界での行動をトリガとして、より多くの仮想エフェクトを発現させることができる。
このように、顔や手などの様な人体の一部である物理オブジェクトと、コップや眼鏡などの様な人体の一部以外の物理オブジェクトを考えた場合に、それらの物理オブジェクトが現実世界でインタラクションした際に、それぞれ対応する仮想オブジェクトをインタラクションさせるだけでなく、新しい仮想エフェクトを表示させることによって、よりユニークなコミュニケーションを提供することができる。
なお、本技術は、画像処理装置11に適用するのに限定されることはなく、例えば、エフェクトとして、効果音や音声、におい、発光などのような様々なエフェクトを生成するエフェクト生成装置に適用することができる。そして、エフェクト生成装置は、それらの仮想エフェクトのいくつかの要素を組み合わせて使用することができる。例えば、エフェクト生成装置は、所定の飲料を飲むインタラクションに従って、その飲料のコマーシャルソングを出力することができる。また、本技術は、上述した撮像装置の他、例えば、スマートフォンまたはウェアラブル端末のような携帯型装置や、ウェブカメラを備えたパーソナルコンピュータなどに適用することができる。
なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、1のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
また、上述した一連の処理(情報処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU101)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
なお、本技術は以下のような構成も取ることができる。
(1)
入力画像から、少なくとも顔を含む2つ以上の対象物を検出する検出部と、
前記検出部により検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成するエフェクト生成部と
を備えるエフェクト生成装置。
(2)
複数の前記対象物の位置と、少なくとも一つの前記対象物の状態とを含む前記対象物どうしの関係性を特定する特定部をさらに備え、
前記エフェクト生成部は、前記特定部により特定された前記対象物どうしの関係性に基づいて、前記エフェクトを生成する
上記(1)に記載のエフェクト生成装置。
(3)
前記特定部は、前記対象物の状態として、前記検出部により検出された顔を構成する部分の状態と、前記検出部により検出された物体の状態とを特定するとともに、前記対象物どうしの関係性として、前記顔と前記物体との位置関係を特定し、
前記エフェクト生成部は、前記特定部により特定された前記顔を構成する部分の状態、前記物体の状態、および前記顔と前記物体との位置関係の変化に基づいて、前記エフェクトを生成する
上記(2)に記載のエフェクト生成装置。
(4)
前記エフェクト生成部は、前記対象物をマスクするマスク画像、および、前記対象物どうしの関係性を表現する表示エフェクトを生成し、前記入力画像に対して前記マスク画像および前記表示エフェクトを重畳して表示する出力画像を作成する
上記(1)から(3)までのいずれかに記載のエフェクト生成装置。
(5)
前記入力画像から検出された前記対象物である顔を構成する部分を特定する複数の特徴点を抽出する顔特徴点解析部をさらに備え、
前記特定部は、前記顔特徴点解析部により検出された複数の前記特徴点に基づいて、前記入力画像から検出された前記顔を構成する部分の状態を特定する
上記(2)から(4)までのいずれかにエフェクト生成装置。
(6)
前記入力画像から検出された前記顔以外の前記対象物である物体を構成する部分を特定する複数の特徴点を抽出する物体特徴点解析部をさらに備え、
前記特定部は、前記物体特徴点解析部により検出された複数の前記特徴点に基づいて、前記入力画像から検出された前記物体の状態を特定する
上記(2)から(5)までのいずれかに記載のエフェクト生成装置。
(7)
前記特定部は、前記顔を構成する部分の状態、前記物体の状態、および、前記顔と前記物体との前記入力画像上の位置関係に基づいて、前記顔と前記物体と相互的な関係性を特定する
上記(2)から(6)までのいずれかに記載のエフェクト生成装置。
(8)
前記入力画像に写されている前記顔および前記物体までの距離を測定して、前記入力画像に対して直交する方向の奥行きを求める距離測定部をさらに備え、
前記特定部は、前記顔と前記物体との奥行き関係を用いて、前記顔と前記物体との間における相互的な関係性を特定する
上記(2)から(7)までのいずれかに記載のエフェクト生成装置。
(9)
前記入力画像から検出された前記顔と、前記入力画像から検出された前記物体とについて前記距離測定部により求められた奥行き関係に基づいて、前記顔をマスクする顔用のマスク画像が前記物体をマスクすることを回避させるためのマップデータを作成するマップ作成部
をさらに備える上記(8)に記載のエフェクト生成装置。
(10)
前記エフェクト生成部は、前記マスク画像または前記表示エフェクトを状況に応じて変化させる
上記(4)から(9)までのいずれかに記載のエフェクト生成装置。
(11)
前記エフェクト生成部は、前記特定部により所定の前記対象物どうしの所定の関係性が特定された回数に従って、前記マスク画像または前記表示エフェクトを変化させる
上記(10)に記載のエフェクト生成装置。
(12)
前記エフェクト生成部は、所定の前記表示エフェクトが使用された回数を計数したカウント値に従って、その表示エフェクトを変化させる
上記(10)または(11)に記載のエフェクト生成装置。
(13)
前記エフェクト生成部は、ネットワークを介して接続された他の前記エフェクト生成装置との間で送受信される前記カウント値の合計に従って、所定の前記表示エフェクトを変化させる
上記(12)に記載のエフェクト生成装置。
(14)
前記特定部は、音声認識情報、ジェスチャ認識情報、日時情報、現在地情報、天気情報、周辺のイベント情報、または、ネットワークを介して取得できる情報にも基づいて、前記対象物どうしの関係性を特定する
上記(2)から(13)までのいずれかに記載のエフェクト生成装置。
(15)
入力画像から、少なくとも顔を含む2つ以上の対象物を検出し、
検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成する
ステップを含むエフェクト生成方法。
(16)
入力画像から、少なくとも顔を含む2つ以上の対象物を検出し、
検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成する
ステップを含む処理をコンピュータに実行させるプログラム。
なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
11 画像処理装置, 12 撮像部, 13 記録部, 14 表示部, 21 デジタル信号処理部, 22 顔検出部, 23 物体検出部, 24 距離測定部, 25 顔特徴点解析部, 26 物体特徴点解析部, 27 顔解釈部, 28 物体解釈部, 29 インタラクション解釈部, 30 マップ作成部, 31 表示画像作成部

Claims (18)

  1. 入力画像から、2つ以上の対象物を検出する検出部と、
    前記検出部により検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成するエフェクト生成部と、
    前記対象物の位置前記対象物の状態、および前記対象物の奥行きを含む前記対象物どうしの関係性を特定する特定部と
    を備え、
    前記エフェクト生成部は、前記特定部により特定された前記対象物どうしの関係性に基づいて、前記エフェクトを生成する
    エフェクト生成装置。
  2. 前記対象物は少なくとも1つの顔を含み、その顔が写されている領域である顔領域は、前記顔を構成する各部を特定する特徴点を含む
    請求項1に記載のエフェクト生成装置。
  3. 前記特定部は、前記対象物の状態として、前記検出部により検出された顔の表情を特定し、
    前記エフェクト生成部は、前記特定部により特定された顔の表情の変化に基づいて、前記エフェクトを生成する
    請求項1または2に記載のエフェクト生成装置。
  4. 前記エフェクト生成部は、ジェスチャ認識に基づいて、特定のジェスチャが認識されたときに前記エフェクトを生成する
    請求項1乃至3のいずれかに記載のエフェクト生成装置。
  5. 前記特定部は、前記対象物の状態として、前記検出部により検出された顔を構成する部分の状態と、前記検出部により検出された物体の状態とを特定するとともに、前記対象物どうしの関係性として、前記顔と前記物体との位置関係を特定し、
    前記エフェクト生成部は、前記特定部により特定された前記顔を構成する部分の状態、前記物体の状態、および前記顔と前記物体との位置関係に基づいて、前記エフェクトを生成する
    請求項1乃至4のいずれかに記載のエフェクト生成装置。
  6. 前記エフェクト生成部は、前記対象物をマスクするマスク画像、および、前記対象物どうしの関係性を表現する表示エフェクトを生成し、前記入力画像に対して前記マスク画像および前記表示エフェクトを重畳して表示する出力画像を作成する
    請求項1乃至5のいずれかに記載のエフェクト生成装置。
  7. 前記入力画像から検出された前記対象物である顔を構成する部分を特定する複数の特徴点を抽出する顔特徴点解析部をさらに備え、
    前記特定部は、前記顔特徴点解析部により検出された複数の前記特徴点に基づいて、前記入力画像から検出された前記顔を構成する部分の状態を特定する
    請求項6に記載のエフェクト生成装置。
  8. 前記入力画像から検出された前記顔以外の前記対象物である物体を構成する部分を特定する複数の特徴点を抽出する物体特徴点解析部をさらに備え、
    前記特定部は、前記物体特徴点解析部により検出された複数の前記特徴点に基づいて、前記入力画像から検出された前記物体の状態を特定する
    請求項7に記載のエフェクト生成装置。
  9. 前記特定部は、前記顔を構成する部分の状態、前記物体の状態、および、前記顔と前記物体との前記入力画像上の位置関係に基づいて、前記顔と前記物体と相互的な関係性を特定する
    請求項8に記載のエフェクト生成装置。
  10. 前記入力画像に写されている前記顔および前記物体までの距離を測定して、前記入力画像に対して直交する方向の前記奥行きを求める距離測定部をさらに備え、
    前記特定部は、前記顔と前記物体との奥行き関係を用いて、前記顔と前記物体との間における相互的な関係性を特定する
    請求項9に記載のエフェクト生成装置。
  11. 前記入力画像から検出された前記顔と、前記入力画像から検出された前記物体とについて前記距離測定部により求められた奥行き関係に基づいて、前記顔をマスクする顔用のマスク画像が前記物体をマスクすることを回避させるためのマップデータを作成するマップ作成部
    をさらに備える請求項10に記載のエフェクト生成装置。
  12. 前記エフェクト生成部は、前記マスク画像または前記表示エフェクトを状況に応じて変化させる
    請求項6乃至11のいずれかに記載のエフェクト生成装置。
  13. 前記エフェクト生成部は、前記特定部により所定の前記対象物どうしの所定の関係性が特定された回数に従って、前記マスク画像または前記表示エフェクトを変化させる
    請求項12に記載のエフェクト生成装置。
  14. 前記エフェクト生成部は、所定の前記表示エフェクトが使用された回数を計数したカウント値に従って、その表示エフェクトを変化させる
    請求項12に記載のエフェクト生成装置。
  15. 前記エフェクト生成部は、ネットワークを介して接続された他の前記エフェクト生成装置との間で送受信される前記カウント値の合計に従って、所定の前記表示エフェクトを変化させる
    請求項14に記載のエフェクト生成装置。
  16. 前記特定部は、音声認識情報、ジェスチャ認識情報、日時情報、現在地情報、天気情報、周辺のイベント情報、または、ネットワークを介して取得できる情報にも基づいて、前記対象物どうしの関係性を特定する
    請求項1乃至15のいずれかに記載のエフェクト生成装置。
  17. 入力画像から、2つ以上の対象物を検出し、
    検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成し、
    前記対象物の位置前記対象物の状態、および前記対象物の奥行きを含む前記対象物どうしの関係性を特定する
    ステップを含み、
    特定された前記対象物どうしの関係性に基づいて、前記エフェクトが生成される
    エフェクト生成方法。
  18. 入力画像から、2つ以上の対象物を検出し、
    検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成し、
    前記対象物の位置前記対象物の状態、および前記対象物の奥行きを含む前記対象物どうしの関係性を特定する
    ステップを含み、
    特定された前記対象物どうしの関係性に基づいて、前記エフェクトが生成される
    処理をコンピュータに実行させるプログラム。
JP2016568320A 2015-01-06 2015-12-24 エフェクト生成装置およびエフェクト生成方法、並びにプログラム Active JP6753314B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015001148 2015-01-06
JP2015001148 2015-01-06
PCT/JP2015/085941 WO2016111174A1 (ja) 2015-01-06 2015-12-24 エフェクト生成装置およびエフェクト生成方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2016111174A1 JPWO2016111174A1 (ja) 2017-10-12
JP6753314B2 true JP6753314B2 (ja) 2020-09-09

Family

ID=56355874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016568320A Active JP6753314B2 (ja) 2015-01-06 2015-12-24 エフェクト生成装置およびエフェクト生成方法、並びにプログラム

Country Status (5)

Country Link
US (1) US10489949B2 (ja)
EP (1) EP3244372B1 (ja)
JP (1) JP6753314B2 (ja)
CN (1) CN107004290B (ja)
WO (1) WO2016111174A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US10424121B1 (en) * 2016-11-06 2019-09-24 Oded Melinek Generated offering exposure
US10636175B2 (en) * 2016-12-22 2020-04-28 Facebook, Inc. Dynamic mask application
CN108305317B (zh) 2017-08-04 2020-03-17 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
US11014242B2 (en) * 2018-01-26 2021-05-25 Microsoft Technology Licensing, Llc Puppeteering in augmented reality
JP7082543B2 (ja) * 2018-07-30 2022-06-08 株式会社第一興商 カラオケ装置
US11302040B2 (en) 2019-06-24 2022-04-12 Samsung Electronics Co., Ltd. System and method for providing weather effect in image
EP3891707A4 (en) 2019-02-18 2022-02-23 Samsung Electronics Co., Ltd. SYSTEM AND METHOD FOR GENERATION OF WEATHER EFFECT IN IMAGES
JP6783919B1 (ja) 2019-12-27 2020-11-11 グリー株式会社 情報処理システム、情報処理方法およびコンピュータプログラム
SG10201913763WA (en) * 2019-12-30 2021-04-29 Sensetime Int Pte Ltd Image processing methods and apparatuses, electronic devices, and storage media
CN113362432B (zh) * 2020-03-04 2024-04-19 Tcl科技集团股份有限公司 一种面部动画生成方法及装置
JP7369669B2 (ja) 2020-06-14 2023-10-26 株式会社スクウェア・エニックス 拡張現実表示装置及びプログラム
CN112053370A (zh) * 2020-09-09 2020-12-08 脸萌有限公司 基于增强现实的显示方法、设备及存储介质
JP2022123692A (ja) * 2021-02-12 2022-08-24 ソニーグループ株式会社 画像処理装置、画像処理方法、画像処理システム
WO2022270558A1 (ja) * 2021-06-25 2022-12-29 株式会社Jvcケンウッド 画像処理装置、画像処理方法、プログラム
US11783555B2 (en) * 2021-11-16 2023-10-10 Peer Inc System and method for transferring content from one virtual environment to another
JP2023091953A (ja) * 2021-12-21 2023-07-03 株式会社セガ プログラム及び情報処理装置
WO2023189554A1 (ja) * 2022-03-31 2023-10-05 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1839410B (zh) * 2003-07-18 2015-05-20 佳能株式会社 图像处理设备、摄像设备、图像处理方法
JP4962218B2 (ja) * 2007-08-30 2012-06-27 カシオ計算機株式会社 合成画像出力装置および合成画像出力処理プログラム
JP5630541B2 (ja) 2009-01-20 2014-11-26 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9256282B2 (en) 2009-03-20 2016-02-09 Microsoft Technology Licensing, Llc Virtual object manipulation
JP5343676B2 (ja) * 2009-04-08 2013-11-13 ソニー株式会社 画像処理装置、画像処理方法およびコンピュータプログラム
CN101739712B (zh) * 2010-01-25 2012-01-18 四川大学 基于视频的3d人脸表情动画驱动方法
JP2013080413A (ja) * 2011-10-05 2013-05-02 Sony Corp 入力装置、入力認識方法
JP5928757B2 (ja) * 2012-11-06 2016-06-01 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置

Also Published As

Publication number Publication date
CN107004290A (zh) 2017-08-01
JPWO2016111174A1 (ja) 2017-10-12
EP3244372A1 (en) 2017-11-15
US10489949B2 (en) 2019-11-26
EP3244372A4 (en) 2018-08-15
US20170309051A1 (en) 2017-10-26
WO2016111174A1 (ja) 2016-07-14
EP3244372B1 (en) 2019-09-04
CN107004290B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
JP6753314B2 (ja) エフェクト生成装置およびエフェクト生成方法、並びにプログラム
US11587297B2 (en) Virtual content generation
CN110612533B (zh) 用于根据表情对图像进行识别、排序和呈现的方法
JP4481663B2 (ja) 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム
CN107798653B (zh) 一种图像处理的方法和一种装置
KR101832693B1 (ko) 직관적 컴퓨팅 방법들 및 시스템들
US8549418B2 (en) Projected display to enhance computer device use
US20120028577A1 (en) Mobile devices and methods employing haptics
KR101743763B1 (ko) 감성 아바타 이모티콘 기반의 스마트 러닝 학습 제공 방법, 그리고 이를 구현하기 위한 스마트 러닝 학습 단말장치
CN106062673A (zh) 使用姿势来控制基于计算的设备
US20150006281A1 (en) Information processor, information processing method, and computer-readable medium
EP3274916A1 (en) Automated three dimensional model generation
US10423978B2 (en) Method and device for playing advertisements based on relationship information between viewers
WO2021036624A1 (zh) 交互方法、装置、设备以及存储介质
US20150215674A1 (en) Interactive streaming video
US11604859B2 (en) Method and system for incorporating marketing in user authentication
EP3062195A1 (en) Interactive mirror
KR20200105446A (ko) 감정 인식 장치 및 감정 인식 방법
WO2021036622A1 (zh) 交互方法、装置、设备以及存储介质
JP2012073299A (ja) 言語訓練装置
KR102482841B1 (ko) 인공지능 미러링 놀이 가방
JP2011197276A (ja) 広告画像表示装置、広告画像表示方法
CN110879946A (zh) 手势结合ar特效的方法、存储介质、设备及系统
CN110009560B (zh) 图像处理装置
US20230394773A1 (en) Smart Interactivity for Scanned Objects using Affordance Regions

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200803

R151 Written notification of patent or utility model registration

Ref document number: 6753314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151