JP6753314B2

JP6753314B2 - エフェクト生成装置およびエフェクト生成方法、並びにプログラム

Info

Publication number: JP6753314B2
Application number: JP2016568320A
Authority: JP
Inventors: 理央山崎; 貴晶中川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-01-06
Filing date: 2015-12-24
Publication date: 2020-09-09
Anticipated expiration: 2035-12-24
Also published as: US20170309051A1; CN107004290A; US10489949B2; JPWO2016111174A1; EP3244372B1; CN107004290B; EP3244372A4; EP3244372A1; WO2016111174A1

Description

本開示は、エフェクト生成装置およびエフェクト生成方法、並びにプログラムに関し、特に、物理オブジェクトどうしのインタラクションに応じて新しいエフェクトを生成することができるようにしたエフェクト生成装置およびエフェクト生成方法、並びにプログラムに関する。

従来、スマートフォンやゲーム機器などの画面の中において、現実世界のオブジェクトと仮想世界のオブジェクトとをインタラクションさせる拡張現実（AR：Augmented Reality）技術を応用した商品やサービスが広まっている。その中には、例えば、カードゲームなどのような、複数のカード（物理オブジェクト）を使用して、それぞれのカードに対応するキャラクタ（仮想オブジェクト）を、画面の中（仮想世界）においてインタラクションさせる技術がある。

この技術では、主に物理オブジェクトどうしの位置関係のみに基づいてインタラクション内容を決定しているため、物理世界において行われる操作内容と、それらの操作内容に対応する仮想オブジェクトのインタラクション内容とは限られたものとなっていた。

これに対して、例えば、特許文献１では、顔や物などそれぞれの特徴点解析を行い、その特徴点解析の結果を利用して、それぞれに付随させる仮想エフェクトの種類や出し方を変化させる方法が提案されている。

また、特許文献２では、顔や物などそれぞれの特徴点解析を行って意味づけ（手の指が縮こまる動きをしたら「つかんでいる」など）まで行い、その意味づけを行った結果を利用する方法が提案されている。これにより、例えば、対応する仮想オブジェクト（画面の中の手など）や、それが作用を及ぼす仮想オブジェクト（画面の中のボールなど）を変形させたり、それらをインタラクションさせたり（画面の中の手がボールをつかむなど）することが実現されている。

特開２０１４−００６９１２号公報特表２０１２−５２１０３９号公報

ところで、上述した特許文献１および２のどちらにおいても、複数の物理オブジェクトが現実世界でインタラクションした際に、それぞれ対応する仮想オブジェクトがインタラクションされるだけであって、そこに新しい仮想エフェクトを表示させることは実現されていなかった。例えば、手でコップを持って傾けるという動作を現実世界で行った際に、手とコップに対応する仮想オブジェクトによって仮想世界においても同様のインタラクションが行われるだけであって、コップの水を飲むという仮想エフェクトが表示されることはなかった。

本開示は、このような状況に鑑みてなされたものであり、物理オブジェクトどうしのインタラクションに応じて新しいエフェクトを生成することができるようにするものである。

本開示の一側面のエフェクト生成装置は、入力画像から、２つ以上の対象物を検出する検出部と、前記検出部により検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成するエフェクト生成部と、前記対象物の位置、前記対象物の状態、および前記対象物の奥行きを含む前記対象物どうしの関係性を特定する特定部とを備え、前記エフェクト生成部は、前記特定部により特定された前記対象物どうしの関係性に基づいて、前記エフェクトを生成する。

本開示の一側面のエフェクト生成方法またはプログラムは、入力画像から、２つ以上の対象物を検出し、検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成し、前記対象物の位置、前記対象物の状態、および前記対象物の奥行きを含む前記対象物どうしの関係性を特定するステップを含み、特定された前記対象物どうしの関係性に基づいて、前記エフェクトが生成される。

本開示の一側面においては、入力画像から、２つ以上の対象物が検出され、その検出された対象物どうしの関係から、対応する所定のエフェクトが生成され、対象物の位置、対象物の状態、および対象物の奥行きを含む対象物どうしの関係性が特定される。そして、特定された対象物どうしの関係性に基づいて、エフェクトが生成される。

本開示の一側面によれば、物理オブジェクトどうしのインタラクションに応じて新しいエフェクトを生成することができる。

本技術を適用した画像処理装置の一実施の形態の構成例を示すブロック図である。画像処理装置による画像処理の一例を説明する図である。顔解釈処理において参照されるモデルデータの一例を示す図である。検出された物体の一例を示す図である。物体解釈処理において参照されるモデルデータの一例を示す図である。インタラクション解釈処理において参照されるインタラクションモデルデータの一例を示す図である。マップ作成処理について説明する図である。画像処理を説明するフローチャートである。顔関連処理を説明するフローチャートである。物体関連処理を説明するフローチャートである。二人の被写体の顔どうしのインタラクションに対応した仮想エフェクトについて説明する図である。多数のインタラクションに対応した仮想エフェクトについて説明する図である。仮想エフェクトを変化させる例について説明する図である。画像処理装置による画像処理の他の例を説明する図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

図１は、本技術を適用したエフェクト生成装置である画像処理装置の一実施の形態の構成例を示すブロック図である。

図１に示す画像処理装置１１は、撮像部１２により撮像された画像を入力画像として、記録部１３に記録されている各種のデータを使用して入力画像に対して画像処理を施し、その画像処理が施された画像を出力画像として出力して、表示部１４に表示させることができる。例えば、画像処理装置１１は、デジタルカメラなどの撮像装置により提供される一機能として、撮像装置に組み込むことができる。

画像処理装置１１は、デジタル信号処理部２１、顔検出部２２、物体検出部２３、距離測定部２４、顔特徴点解析部２５、物体特徴点解析部２６、顔解釈部２７、物体解釈部２８、インタラクション解釈部２９、マップ作成部３０、および、表示画像作成部３１を備えて構成される。

デジタル信号処理部２１には、撮像部１２により撮像される動画像が１フレームごと供給される。そして、デジタル信号処理部２１は、１フレームごとの画像に対して順次、画像処理装置１１において画像処理を行うのに必要な各種のデジタル信号処理を施し、顔検出部２２、物体検出部２３、および距離測定部２４に供給する。

顔検出部２２は、デジタル信号処理部２１から供給される画像から、検出を行う対象物として被写体の顔を検出する顔検出処理を行い、顔の検出に成功した場合には、顔が写されている領域を画像から切り出した顔領域を顔特徴点解析部２５に供給する。また、顔検出部２２は、画像における顔の位置を示す顔位置情報（例えば、画像上のＸ座標およびＹ座標）を求め、インタラクション解釈部２９およびマップ作成部３０に供給する。

物体検出部２３は、デジタル信号処理部２１から供給される画像から、検出を行う対象物として特定の物体を検出する物体検出処理を行い、物体の検出に成功した場合には、物体が写されている領域を画像から切り出した物体領域を物体特徴点解析部２６に供給する。また、物体検出部２３は、画像における物体の位置を示す物体位置情報（例えば、画像上のＸ座標およびＹ座標）を求め、インタラクション解釈部２９およびマップ作成部３０に供給する。

距離測定部２４は、デジタル信号処理部２１から供給される画像の全体に亘り、画像に写されている全ての物に対する撮像装置１２からの距離を測定し、例えば、画像を構成する画素ごとの奥行き情報（例えば、画像面に対して直交するＺ方向の距離）を求める。そして、距離測定部２４は、デジタル信号処理部２１から供給される画像とともに、画素ごとの奥行き情報をインタラクション解釈部２９およびマップ作成部３０に供給する。なお、距離測定部２４は、例えば、顔検出部２２により検出された顔、および、物体検出部２３により検出された物体までの距離を、少なくとも測定することができるように構成してもよい。

顔特徴点解析部２５は、顔検出部２２から顔領域が供給されると、その顔領域に含まれる複数の特徴点（例えば、目や鼻、口などの顔を構成する各部分を特定する点）を抽出する解析処理を行う。そして、顔特徴点解析部２５は、それらの特徴点の位置を解析結果として取得して、顔解釈部２７に供給する。

物体特徴点解析部２６は、物体検出部２３から物体領域が供給されると、その物体領域に含まれている複数の特徴点（例えば、外形やロゴなどの物体を構成する各部分を特定する点）を抽出する解析処理を行う。そして、物体特徴点解析部２６は、それらの特徴点の位置を解析結果として取得して、物体解釈部２８に供給する。

顔解釈部２７は、顔特徴点解析部２５から供給される解析結果に基づき、後述する図３に示すようなモデルデータを参照し、画像に写されている顔の状態を解釈して、その顔の状態に対して意味づけする顔解釈処理を行う。そして、顔解釈部２７は、顔解釈処理により特定された顔の状態を示すフラグ名をインタラクション解釈部２９に供給する。なお、顔解釈部２７による顔解釈処理については、図３に示すモデルデータを参照して後述する。

物体解釈部２８は、物体特徴点解析部２６から供給される解析結果に基づき、後述する図５に示すようなモデルデータを参照し、画像に写されている物体の状態を解釈して、その物体の状態に対して意味づけする物体解釈処理を行う。そして、物体解釈部２８は、物体解釈処理により特定された物体の状態を示すフラグ名をインタラクション解釈部２９に供給する。なお、物体解釈部２８による物体解釈処理については、図５に示すモデルデータを参照して後述する。

インタラクション解釈部２９には、顔検出部２２から顔位置情報が供給され、物体検出部２３から物体位置情報が供給され、距離測定部２４から画素ごとの奥行き情報が供給され、顔解釈部２７から顔の状態を示すフラグ名が供給され、物体解釈部２８から物体の状態を示すフラグ名が供給される。これらの情報を用いて、インタラクション解釈部２９は、後述する図６に示すようなインタラクションモデルデータを参照し、顔と物体との関係性を解釈（特定）して、その関係性に対して意味づけするインタラクション解釈処理を行う。そして、インタラクション解釈部２９は、インタラクション解釈処理により特定された顔と物体との関係性を示すインタラクションのフラグ名をマップ作成部３０および表示画像作成部３１に供給する。なお、インタラクション解釈部２９によるインタラクション解釈処理については、図６に示すインタラクションモデルデータを用いて後述する。

マップ作成部３０には、顔検出部２２から顔位置情報が供給され、物体検出部２３から物体位置情報が供給され、距離測定部２４から画素ごとの奥行き情報が供給され、インタラクション解釈部２９からインタラクションのフラグ名が供給される。これらの情報を用いて、マップ作成部３０は、仮想エフェクトが正しく表示されるように表示画像を表示画像作成部３１に作成させるためのマップデータを作成するマップ作成処理を行い、作成したマップデータを表示画像作成部３１に供給する。なお、マップ作成部３０によるマップ作成処理については、図７を参照して後述する。

表示画像作成部３１は、インタラクション解釈部２９から供給されるインタラクションのフラグ名に従って、顔および物体をマスクする仮想オブジェクト、および、顔および物体の関係性に対応する仮想エフェクトを生成する。そして、表示画像作成部３１は、生成した仮想オブジェクトおよび仮想エフェクトを、画像処理装置１１に入力される画像に対して付加した画像を作成する。例えば、表示画像作成部３１は、顔および物体が隠れるように、それぞれ対応する仮想オブジェクトを重畳させるとともに、さらにその上に仮想エフェクトを重畳させた表示画像を作成する。また、このとき、表示画像作成部３１は、マップ作成部３０から供給されるマップデータに従って、仮想エフェクトが正しく表示されるように表示画像を作成する。なお、表示画像作成部３１による表示画像作成処理については、図７を参照して後述する。

このように構成される画像処理装置１１は、現実世界における顔および物体の動作に対応してそれぞれの仮想オブジェクトが動作するとともに、顔および物体の相互的な関係性に応じて仮想エフェクトが表示される表示画像を作成することができる。

ここで、図２を参照して、画像処理装置１１による画像処理の一例について説明する。

図２の左側には、画像処理装置１１に入力される画像から検出された顔および物体の例が示されており、図２の右側には、表示画像作成部３１により作成される画像における仮想エフェクト例が示されている。

図２には、顔の口の開閉状態と、コップの傾き状態との組み合わせに従って、コップの飲み物を飲んでいる仮想エフェクトが表示される例が示されている。即ち、画像処理装置１１では、顔の口が開いている状態であり、かつ、コップが顔の方に傾いている状態であるとき（さらには、顔とコップとが接触する位置関係にあるとき）、コップの飲み物を飲んでいる仮想エフェクトが表示される。

具体的には、図２の左側の上から１番目には、顔の口が閉じている状態と、コップが顔の方に傾いている状態との組み合わせが示されており、この組み合わせでは、コップの飲み物を飲んでいる仮想エフェクトは表示されない。同様に、図２の上から２番目には、顔の口が開いている状態と、コップが顔の反対側に傾いている状態との組み合わせが示されており、この組み合わせでは、コップの飲み物を飲んでいる仮想エフェクトは表示されない。また、図２の上から３番目には、顔の口が閉じている状態と、コップが顔の反対側に傾いている状態との組み合わせが示されており、この組み合わせでは、コップの飲み物を飲んでいる仮想エフェクトは表示されない。

一方、図２の上から４番目には、顔の口が開いている状態と、コップが顔の方に傾いている状態との組み合わせが示されており、この組み合わせにおいて、コップの飲み物を飲んでいる仮想エフェクトが表示される。

例えば、インタラクション解釈部２９は、顔の状態を示すフラグ名「口を開けている」が供給され、かつ、物体の状態を示すフラグ名「こぼれる」が供給されたとき、顔と物体との位置情報に基づいて、コップが所定角度以上に傾いている方向が顔の方であれば、インタラクションのフラグ名「人が物体を飲んでいる」を出力する。これに従い、表示画像作成部３１は、口を開けて飲み物を飲んでいるマスク画像を生成して、撮像部１２により撮像された画像に合成する。さらに、図示しないが、コップから飲料が流れ出る仮想エフェクトや、「ゴクゴク」という擬音を表現する仮想エフェクトを表示してもよい。

また、図２の例では、被写体の顔がマスク画像で隠されており、入力画像に写されているコップがそのまま、表示画像に表示されている。このとき、コップがマスク画像で隠れた状態では、飲み物を飲んでいるという状況を正しく認識することは困難になってしまう。そこで、画像処理装置１１では、マップ作成部３０が作成するマップデータに従って、マスク画像の上にコップが表示されるような表示画像を生成することができる。これにより、コップがマスク画像に隠れることが回避され、飲み物を飲んでいるという状況を正しく認識することができる表示画像を生成することができる。

次に、図３には、顔解釈部２７が顔解釈処理において参照するモデルデータの一例が示されている。

図３に示すように、モデルデータでは、顔の特徴的な表情や動作について、各特徴点の位置関係や動きが定義されている。具体的には、モデルデータは、顔の状態を表すフラグ名（口をあけている、笑っている、すねているなど）と、複数の特徴点の位置（顔領域におけるＸ座標およびＹ座標）とが対応付けられて登録されている。

顔解釈部２７は、顔解釈処理において、顔特徴点解析部２５から供給される解析結果の顔の特徴点の位置と、モデルデータに登録されているフラグ名ごとの特徴点の位置とについて、それぞれ対応する特徴点どうしのマッチングを行う。そして、顔解釈部２７は、マッチングにより求められたマッチング度が所定の閾値以上である場合には、顔の状態に対する意味づけが成功したとして、最もマッチング度が高いものに対応付けられているフラグ名を、画像に写されている顔の状態として特定する。これにより、顔解釈部２７は、その顔の状態を示すフラグ名をインタラクション解釈部２９に供給する。

次に、図４には、物体検出部２３により検出された物体の一例として、飲料のビンが示されている。また、図５には、物体解釈部２８が物体解釈処理において参照するモデルデータの一例として、図４の飲料のビンのモデルデータが示されている。

例えば、物体特徴点解析部２６は、飲料のビンの外形を特定する特徴点や、ビン内における飲料の液面を特定する特徴点、ビンのロゴマークを特定する特徴点などを抽出して、解析結果として物体解釈部２８に供給する。

物体解釈部２８は、物体解釈処理において、物体特徴点解析部２６から供給される解析結果の物体の特徴点の位置に基づいて、検出された物体が飲料のビンであることを特定し、それに対応するモデルデータを参照する。そして、物体解釈部２８は、ビンのロゴマークを特定する特徴点からビンのロゴマークを特定したり、飲料のビンの外形を特定する特徴点から傾きを特定したり、ビン内における飲料の液面を特定する特徴点から飲料の残量や液面の動きなどを特定したりする。

その結果、物体解釈部２８は、飲料のビンの傾きが４０°より大きければ、物体の状態を示すフラグ名「こぼれる」を出力する。また、物体解釈部２８は、ビン内の液面が瓶の底に近ければ、物体の状態を示すフラグ名「もうすぐなくなる」を出力し、ビン内の液面が上下に繰り返し動いていれば、物体の状態を示すフラグ名「振られている」を出力する。

このように、物体解釈部２８は、検出された物体の状態を解釈した結果に従って、その物体の状態を示すフラグ名をインタラクション解釈部２９に供給する。

次に、図６には、インタラクション解釈部２９がインタラクション解釈処理において参照するインタラクションモデルデータの一例が示されている。

図６に示すように、インタラクションモデルデータでは、顔の意味フラグ（顔の状態を示すフラグ名）、物体の意味フラグ（物体の状態を示すフラグ名）、顔と物体の位置関係、顔と物体の奥行き関係、インタラクションのフラグ名、および、表示エフェクト名が対応付けられて登録されている。

例えば、インタラクション解釈部２９は、このようなインタラクションモデルデータを参照し、顔解釈部２７から供給される顔の状態を示すフラグ名、物体解釈部２８から供給される物体の状態を示すフラグ名、顔検出部２２から供給される顔位置情報、物体検出部２３から供給される物体位置情報、距離測定部２４から供給される奥行き情報に従って、対応するインタラクションのフラグ名を特定する。

具体的には、インタラクション解釈部２９は、顔の状態を示すフラグ名が「口をあけている」であり、物体の状態を示すフラグ名が「こぼれる」であり、顔と物体の位置関係が「顔と物体が接触している」であり、顔と物体の奥行き関係が「物体が顔より前」であるとき、インタラクションのフラグ名「人が物体を飲んでいる」を特定する。

これに従い、表示画像作成部３１は、インタラクションのフラグ名「人が物体を飲んでいる」に対応する表示エフェクト名「ごくごく」に対応する顔および物体をマスクする仮想オブジェクト、および、顔および物体の関係性に対応する仮想エフェクトを記録部１３から読み出して、表示画像を作成する。なお、記録部１３には、インタラクションモデルデータに登録されている仮想エフェクト名に対応する仮想オブジェクトおよびエフェクト部品が格納されている。

次に、図７を参照して、マップ作成部３０によるマップ作成処理、および、表示画像作成部３１による表示画像作成処理について説明する。

図７では、飲料のビンを持っている人物が写された画像Ｐ１が画像処理装置１１に入力され、ビンの飲料が人物にかかるような仮想エフェクトが表示される画像処理が施された画像Ｐ２が表示部１４に表示される例が示されている。

マップ作成部３０は、距離測定部２４から供給される奥行き情報に従って、ビンが人物の手前にあると認識して、画像Ｐ１の全体のうち、検出されたビンの領域が区別できるように表現したマップデータＭを作成する。

表示画像作成部３１は、マップ作成部３０により作成されたマップデータＭと、記録部１３から読み出した仮想オブジェクトＶ１とを合成することにより、ビンの領域が欠けた仮想オブジェクトＶ１’を作成する。また、表示画像作成部３１は、マップ作成部３０により作成されたマップデータＭと、記録部１３から読み出した仮想エフェクトＶ２とを合成することにより、ビンの領域が欠けた仮想オブジェクトＶ２’を作成する。

そして、表示画像作成部３１は、画像Ｐ１に、仮想オブジェクトＶ１’を重畳し、さらに仮想オブジェクトＶ２’を重畳することにより、画像Ｐ２を作成することができる。即ち、画像Ｐ２では、ビンが仮想オブジェクトに隠れることが回避されるとともに、仮想オブジェクトの上に仮想エフェクトが表示されている。

次に、図８は、画像処理装置１１において行われる画像処理を説明するフローチャートである。

例えば、撮像部１２により動画像の撮像が開始されて、その動画像を構成する１フレームごとの画像が供給されると処理が開始され、ステップＳ１１において、顔検出部２２、顔特徴点解析部２５、および顔解釈部２７により顔関連処理が行われる。顔関連処理では、図９のフローチャートを参照して後述するように、顔の検出に成功し、顔の状態に対する意味づけに成功すると、顔の状態を示すフラグ名がインタラクション解釈部２９に供給される。

ステップＳ１２において、物体検出部２３、物体特徴点解析部２６、および物体解釈部２８により物体関連処理が行われる。物体関連処理では、図１０のフローチャートを参照して後述するように、物体の検出に成功し、物体の状態に対する意味づけに成功すると、物体の状態を示すフラグ名がインタラクション解釈部２９に供給される。

ステップＳ１３において、距離測定部２４は、画像を構成する画素ごとの奥行き情報を求めて、インタラクション解釈部２９およびマップ作成部３０に供給する。

ステップＳ１４において、インタラクション解釈部２９は、顔の状態を示すフラグ名、および物体の状態を示すフラグ名が供給されたか否かを判定する。

例えば、ステップＳ１１の顔関連処理において顔の検出に成功しなかった場合、または、顔の状態に対する意味づけに成功しなかった場合には、顔の状態を示すフラグ名はインタラクション解釈部２９に供給されない。同様に、ステップＳ１２の物体関連処理において物体の検出に成功しなかった場合、または、物体の状態に対する意味づけに成功しなかった場合には、物体の状態を示すフラグ名はインタラクション解釈部２９に供給されない。従って、これらの場合、ステップＳ１４において、インタラクション解釈部２９は、顔の状態を示すフラグ名、および物体の状態を示すフラグ名が供給されなかったと判定して、処理はステップＳ１１に戻り、次のフレームの画像を処理対象として、以下、同様の処理が繰り返される。

一方、ステップＳ１１の顔関連処理において顔の状態を示すフラグ名が供給され、かつ、ステップＳ１２の物体関連処理において物体の状態を示すフラグ名が供給されていれば、ステップＳ１４において、インタラクション解釈部２９は、顔の状態を示すフラグ名、および物体の状態を示すフラグ名が供給されたと判定して、処理はステップＳ１５に進む。

ステップＳ１５において、インタラクション解釈部２９は、顔と物体のインタラクションを解析する。即ち、インタラクション解釈部２９は、図６に示したようなインタラクションモデルデータを参照してインタラクション解釈処理を行い、顔と物体との関係性を示すインタラクションのフラグ名をマップ作成部３０および表示画像作成部３１に供給する。

ステップＳ１６において、マップ作成部３０は、仮想エフェクトが正しく表示されるように表示画像を表示画像作成部３１に作成させるためのマップデータを作成するマップ作成処理を行い、作成したマップデータを表示画像作成部３１に供給する。

ステップＳ１７において、表示画像作成部３１は、インタラクション解釈部２９から供給されるインタラクションのフラグ名に従って、顔および物体をマスクする仮想オブジェクト、および、顔および物体の関係性に対応する仮想エフェクトを記録部１３から読み出す。そして、マップ作成部３０から供給されるマップデータに従って、仮想オブジェクトおよび仮想エフェクトを加工した後、画像処理装置１１に入力される画像に対して付加した画像を作成する。ステップＳ１７の処理後、処理はステップＳ１１に戻り、次のフレームの画像を処理対象として、以下、同様の処理が繰り返して行われる。

次に、図９は、図８のステップＳ１１で行われる顔関連処理を説明するフローチャートである。

ステップＳ２１において、顔検出部２２はデジタル信号処理部２１から供給される画像を取得し、ステップＳ２２において、その画像から顔を検出する顔検出処理を行う。

ステップＳ２３において、顔検出部２２は、ステップＳ２２の顔検出処理において顔検出に成功したか否かを判定する。例えば、画像に顔が写されていない場合には顔を検出することができず、ステップＳ２３において、顔検出部２２は、顔検出に成功しなかったと判定して、処理は終了される。

一方、ステップＳ２２の顔検出処理において画像から顔を検出することができていれば、ステップＳ２３において、顔検出部２２は、顔検出に成功したと判定して、処理はステップＳ２４に進む。

ステップＳ２４において、顔検出部２２は、ステップＳ２２で検出した顔が写されている領域を画像から切り出した顔領域を顔特徴点解析部２５に供給し、顔特徴点解析部２５は、その顔領域に含まれる複数の特徴点を抽出する解析処理を行う。そして、顔特徴点解析部２５は、解析処理において抽出した特徴点の位置情報を、解析結果として顔解釈部２７に供給する。

ステップＳ２５において、顔解釈部２７は、ステップＳ２４で供給された解析結果に基づき、画像に写されている顔の状態を解釈して、その顔の状態に対して意味づけする顔解釈処理を行う。

ステップＳ２６において、顔解釈部２７は、ステップＳ２５の顔解釈処理において顔の状態に対する意味づけに成功したか否かを判定し、意味づけに成功しなかったと判定した場合には、処理は終了される。

一方、ステップＳ２６において、顔解釈部２７が、ステップＳ２５の顔解釈処理において顔の状態に対する意味づけに成功したと判定した場合、処理はステップＳ２７に進む。ステップＳ２７において、顔解釈部２７は、ステップＳ２５で意味づけした顔の状態を示すフラグ名をインタラクション解釈部２９に供給し、処理は終了される。

次に、図１０は、図８のステップＳ１２で行われる物体関連処理を説明するフローチャートである。

ステップＳ３１において、物体検出部２３はデジタル信号処理部２１から供給される画像を取得し、ステップＳ３２において、その画像から物体を検出する物体検出処理を行う。

ステップＳ３３において、物体検出部２３は、ステップＳ３２の物体検出処理において物体検出に成功したか否かを判定する。例えば、画像に物体が写されていない場合には物体を検出することができず、ステップＳ３３において、物体検出部２３は、物体検出に成功しなかったと判定して、処理は終了される。

一方、ステップＳ３２の物体検出処理において画像から物体を検出することができていれば、ステップＳ３３において、物体検出部２３は、物体検出に成功したと判定して、処理はステップＳ３４に進む。

ステップＳ３４において、物体検出部２３は、検出した物体が写されている領域を画像から切り出した物体領域を物体特徴点解析部２６に供給し、物体特徴点解析部２６は、その物体領域に含まれる複数の特徴点を抽出する解析処理を行う。そして、物体特徴点解析部２６は、解析処理において抽出した特徴点の位置情報を、解析結果として物体解釈部２８に供給する。

ステップＳ３５において、物体解釈部２８は、ステップＳ３４で供給された解析結果に基づき、画像に写されている物体の状態を解釈して、その物体の状態に対して意味づけする物体解釈処理を行う。

ステップＳ３６において、物体解釈部２８は、ステップＳ３５の物体解釈処理において物体の状態に対する意味づけに成功したか否かを判定し、意味づけに成功しなかったと判定した場合には、処理は終了される。

一方、ステップＳ３６において、物体解釈部２８が、ステップＳ３５の物体解釈処理において物体の状態に対する意味づけに成功したと判定した場合、処理はステップＳ３７に進む。ステップＳ３７において、物体解釈部２８は、ステップＳ３５で意味づけした物体の状態を示すフラグ名をインタラクション解釈部２９に供給し、処理は終了される。

以上のように、画像処理装置１１では、顔の状態を示すフラグ名と物体の状態を示すフラグ名とに従った顔と物体との関係性を示すインタラクションのフラグ名に基づいて、仮想オブジェクトおよび仮想エフェクトを付加した表示画像を作成することができる。

なお、以上の実施の形態では、顔と物体とのインタラクションについて説明したが、画像処理装置１１は、例えば、複数の顔どうしのインタラクションに対応した仮想エフェクトを表示することができる。

図１１を参照して、二人の被写体の顔どうしのインタラクションに対応した仮想エフェクトについて説明する。

図１１の左側には、画像処理装置１１に入力される画像が示されており、図１１の右側には画像処理装置１１で画像処理が施された表示画像が示されている。

図１１の上側に示すように、二人の被写体が並んで正面を向いて写っている画像が入力されると、それぞれの被写体の顔に顔用の仮想オブジェクトが重畳された表示画像が生成される。そして、図１１の下側に示すように、一方の被写体の顔が他方の被写体に向かって近づき口をとがらすと、インタラクション解釈部２９は、インタラクション解釈処理において「頬にキスをしている」という、それらの顔どうしの関係性を特定する。これに従い、図１１の下側に示す表示画像では、一方の被写体の顔用の仮想オブジェクトの口をとがらせるとともに、他方の被写体の顔用の仮想オブジェクトの目にハートマークの仮想エフェクトが表示される。さらに、二人の間に複数のハートマークの仮想エフェクトが表示される。

このように、画像処理装置１１は、複数の顔どうしのインタラクションに対応した仮想エフェクトを表示することもできる。

また、画像処理装置１１は、顔と物体、または、顔と顔のように、２つのもののインタラクションに対応するだけでなく、３つ以上の多数のもののインタラクションにも対応することができる。

図１２を参照して、三人の被写体と、３つの物体とのインタラクションに対応した仮想エフェクトについて説明する。

図１２の左側には、画像処理装置１１に入力される画像が示されており、図１２の右側には画像処理装置１１で画像処理が施された表示画像が示されている。

図１２の上側に示すように、三人の被写体が並んで正面を向いて、それぞれがビールの入ったジョッキを単に持っている画像が入力されると、それぞれの被写体の顔に顔用の仮想オブジェクトが重畳されるとともに、ビールの泡が溢れるような物体用の仮想オブジェクトがジョッキに重畳された表示画像が生成される。

そして、図１２の下側に示すように、三人のジョッキが接触すると、インタラクション解釈部２９は、インタラクション解釈処理において「皆で乾杯をしている」という、それらの関係性を特定する。これに従い、図１２の下側に示す表示画像では、乾杯で盛り上がっているような顔用の仮想オブジェクトが表示されるとともに、ビールの泡が乾杯の勢いで飛び出すような仮想エフェクトが表示される。さらに、乾杯音を表すような仮想エフェクトが表示される。

このように、画像処理装置１１は、複数の被写体および物体が写されている場合に、顔と顔や、複数の顔と複数の物体などの組み合わせ用の仮想エフェクトを表示することができる。

また、画像処理装置１１は、例えば、図示しない通信部を介してインターネットなどのネットワークに接続することができ、表示部１４に表示される表示画像を、ネットワークを介して配信することができる。その際、画像処理装置１１は、ネットワークを介して接続された他のユーザと相互影響を受けるように、仮想エフェクトを変化させることができる。

例えば、図１３に示すように、あるユーザがある特定のドーナツを食べた後、「おいしい表情」をしたとき、画像処理装置１１は、そのドーナッツを食べて「おいしい表情」をしたという情報を、ネットワークを介してサーバ装置に送信する。このとき、画像処理装置１１は、「おいしく食べている」エフェクトを表示する。

そして、サーバ装置において、特定のドーナツ（同一の商品）を食べた後の「おいしい表情」をした回数（「おいしく食べている」エフェクトを使用した回数）を計数したカウント値を、ドーナッツの横に数値で表示するような仮想エフェクトとして表示することができる。即ち、画像処理装置１１は、ネットワークを介して接続された他の画像処理装置１１との間でサーバ装置を介してカウント値を送受信することができ、他の画像処理装置１１でのカウント値を含めた合計に従って、仮想エフェクトを変化（例えば、数値を増加）させることができる。従って、「おいしい表情」をしたユーザが増加するのに応じて、仮想エフェクトの数値が増加することになり、例えば、図１３の表示例では、最新のカウント値「３５６２うまい！！」が表示されている。

このように、画像処理装置１１は、特定のドーナッツに対して「おいしいかどうか」の評価を付けることができ、おいしいと評価したのが自分で累計何人目だったかを表すように仮想エフェクトをリアルタイムに変化させていくことができる。つまり、「おいしく食べている」エフェクトの内容は不変であるが、「おいしく食べている」エフェクトを使用した回数に従って、どれだけ多くの人が、そのドーナッツをおいしいと評価しているかを視覚的に認識することができる。

このように、画像処理装置１１は、インタラクションの意味づけ結果とそれに対応する仮想エフェクトを、単一ユーザだけでなく、例えば、世界中の全ユーザと共同で変化させていけるようにすることができる。もちろん、画像処理装置１１は、他のユーザの影響を受けずに単体で、所定の関係性が特定された回数などの様々な状況に応じて、仮想オブジェクトまたは仮想エフェクトを変化させてもよい。

また、このように他のユーザとの相互影響を受けて仮想エフェクトを変化させる他、画像処理装置１１は、時系列的に、インタラクションの意味づけを変化させることができる。

例えば、画像処理装置１１は、「ビールを飲んでいる」を一定時間内に１度だけ行ったときには、通常の「ビールを飲んでいる」エフェクトが表示される。そして、「ビールを飲んでいる」を一定時間内に５回以上行った場合、画像処理装置１１は、「ビールを大量に飲んでいる」と意味づけすることができ、通常から変化させて「ビールを飲んで酔っ払った」エフェクトを表示することができる。

また、画像処理装置１１は、複数のユーザが写った画像において、特定のユーザにだけ特定の仮想エフェクトを表示させることができる。

例えば、図１４を参照して、画像処理装置１１による画像処理の他の例について説明する。

図１４には、複数のユーザがカラオケを行っている画像に対して画像処理装置１１により画像処理を行っている例が示されている。図１４の左側には、画像処理装置１１に入力される画像から検出された顔および物体の例が示されており、図１４の右側には、表示画像作成部３１により作成される画像における仮想エフェクト例が示されている。

図１４には、顔の口の開閉状態と、マイクの向きとの組み合わせに従って、カラオケで歌っている仮想エフェクトが表示される例が示されている。即ち、画像処理装置１１では、図１４の左側の一番下に示すように、顔の口が開いている状態であり、かつ、マイクが顔の方に向いている状態であるとき（さらには、顔とマイクとが接触する位置関係にあるとき）、マイクに向かって歌を歌っている仮想エフェクトが表示される。

例えば、従来、カラオケではマイクの音声入力から歌っていることを認識することはできたが、複数のユーザのうち誰が歌っているのかを特定することが困難であり、歌っているユーザにスポットするような仮想エフェクトを表示することは困難であった。また、その歌っているユーザ以外のユーザが楽器を使用しているとき、その楽器に仮想エフェクトを表示することも困難であった。

これに対し、画像処理装置１１では、マイクの音声入力とともに、ユーザの口の開閉、並びに、マイクの位置および向きを認識することで、歌っているユーザを特定して、そのユーザにスポットするような仮想エフェクトを表示することができる。このように、画像処理装置１１では、顔とマイクとのインタラクションに基づいた仮想エフェクトを表示することで、より盛り上げることができる。

さらに、画像処理装置１１では、特定のジェスチャを予め登録しておくことで、歌っているユーザが、そのジェスチャをしたときに、特定の仮想エフェクトを発生させることもできる。なお、マイクの位置情報を認識するために、物体検出部２３による物体検出処理に加えて、マイクに位置を特定するための仕組み（例えば、発信機や発光体など）を組み込んでおくことで、より正確にマイクを認識することができる。

なお、上述した図６に示すインタラクションモデルデータは、一例であり、インタラクション解釈部２９がインタラクション解析処理を行うのに、図６に示したような情報だけに使用するのに限定されることはない。例えば、インタラクション解釈部２９は、音声認識情報や、ジェスチャ認識情報、日時情報、現在地情報、天気情報、周辺のイベント情報、ネットワークを介して取得できる情報などを補助的に使用して、インタラクション解析処理を行ってもよい。例えば、画像処理装置１１では、ある特定の地域でビールを飲んでいる場合、その地域に関連したキャラクタが酔っぱらった仮想エフェクトを、背景に合成した表示画像を作成することができる。

さらに、画像処理装置１１では、顔解釈部２７が顔解釈処理において参照するモデルデータは、図３に示したような予め定義されたものを使用するのに限定されることはない。例えば、ユーザ自身で、表情や動作などに対応した特徴点の組み合わせを決定してモデルデータに登録し、顔解釈部２７が、ユーザが登録した特徴点の組み合わせとマッチングを行って顔の状態を特定してもよい。同様に、物体解釈部２８が物体解釈処理において参照するモデルデータや、インタラクション解釈部２９がインタラクション解釈処理において参照するインタラクションモデルデータについても、ユーザが登録したデータを使用することができる。

また、画像処理装置１１では、物体検出部２３が画像から物体を検出する方法として、物体のロゴマークを検出する方法や、物体に付されている所定のコード、物体の輪郭または色を検出する方法などを用いることができる。さらに、物体検出部２３は、距離測定部２４により求められる奥行き情報を利用して、物体の凹凸などの表面形状を検出してもよい。

また、画像処理装置１１では、物体に重畳させる仮想オブジェクトに対して、その物体を購入することができるオンラインページへのリンクや、商品情報ページへのリンクなどを追加することができる。これにより、その画像を閲覧した閲覧者が、仮想オブジェクトに対する操作（タッチ）を行うことで、物体を容易に購入したり、その物体の詳細な情報を得たりすることができる。

さらに、画像処理装置１１では、表示画像作成部３１は、仮想エフェクトとして、画像を用いる他、アニメーションを用いることができる。また、表示画像作成部３１は、画像に写されている顔や物体などの対象物以外の箇所に仮想エフェクトを表示させたり、仮想オブジェクト自体を変形させたりすることができる。即ち、顔および物体をマスクする仮想オブジェクトを表示させることなく、顔および物体以外の箇所に仮想エフェクトのみを表示させてもよい。

以上のように、画像処理装置１１では、人体の一部である顔と、それ以外の物理オブジェクト同士のインタラクションを、対応する仮想オブジェクト同士のインタラクションに反映させることができる。これにより、画像処理装置１１は、人が現実世界の物を使うシチュエーションにおいて、より多くの現実世界での行動をトリガとして、より多くの仮想エフェクトを発現させることができる。

このように、顔や手などの様な人体の一部である物理オブジェクトと、コップや眼鏡などの様な人体の一部以外の物理オブジェクトを考えた場合に、それらの物理オブジェクトが現実世界でインタラクションした際に、それぞれ対応する仮想オブジェクトをインタラクションさせるだけでなく、新しい仮想エフェクトを表示させることによって、よりユニークなコミュニケーションを提供することができる。

なお、本技術は、画像処理装置１１に適用するのに限定されることはなく、例えば、エフェクトとして、効果音や音声、におい、発光などのような様々なエフェクトを生成するエフェクト生成装置に適用することができる。そして、エフェクト生成装置は、それらの仮想エフェクトのいくつかの要素を組み合わせて使用することができる。例えば、エフェクト生成装置は、所定の飲料を飲むインタラクションに従って、その飲料のコマーシャルソングを出力することができる。また、本技術は、上述した撮像装置の他、例えば、スマートフォンまたはウェアラブル端末のような携帯型装置や、ウェブカメラを備えたパーソナルコンピュータなどに適用することができる。

なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。また、プログラムは、１のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。

また、上述した一連の処理（情報処理方法）は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。

図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５及びバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU１０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア１１１をドライブ１１０に装着することにより、入出力インタフェース１０５を介して、記憶部１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１０９で受信し、記憶部１０８にインストールすることができる。その他、プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

なお、本技術は以下のような構成も取ることができる。
（１）
入力画像から、少なくとも顔を含む２つ以上の対象物を検出する検出部と、
前記検出部により検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成するエフェクト生成部と
を備えるエフェクト生成装置。
（２）
複数の前記対象物の位置と、少なくとも一つの前記対象物の状態とを含む前記対象物どうしの関係性を特定する特定部をさらに備え、
前記エフェクト生成部は、前記特定部により特定された前記対象物どうしの関係性に基づいて、前記エフェクトを生成する
上記（１）に記載のエフェクト生成装置。
（３）
前記特定部は、前記対象物の状態として、前記検出部により検出された顔を構成する部分の状態と、前記検出部により検出された物体の状態とを特定するとともに、前記対象物どうしの関係性として、前記顔と前記物体との位置関係を特定し、
前記エフェクト生成部は、前記特定部により特定された前記顔を構成する部分の状態、前記物体の状態、および前記顔と前記物体との位置関係の変化に基づいて、前記エフェクトを生成する
上記（２）に記載のエフェクト生成装置。
（４）
前記エフェクト生成部は、前記対象物をマスクするマスク画像、および、前記対象物どうしの関係性を表現する表示エフェクトを生成し、前記入力画像に対して前記マスク画像および前記表示エフェクトを重畳して表示する出力画像を作成する
上記（１）から（３）までのいずれかに記載のエフェクト生成装置。
（５）
前記入力画像から検出された前記対象物である顔を構成する部分を特定する複数の特徴点を抽出する顔特徴点解析部をさらに備え、
前記特定部は、前記顔特徴点解析部により検出された複数の前記特徴点に基づいて、前記入力画像から検出された前記顔を構成する部分の状態を特定する
上記（２）から（４）までのいずれかにエフェクト生成装置。
（６）
前記入力画像から検出された前記顔以外の前記対象物である物体を構成する部分を特定する複数の特徴点を抽出する物体特徴点解析部をさらに備え、
前記特定部は、前記物体特徴点解析部により検出された複数の前記特徴点に基づいて、前記入力画像から検出された前記物体の状態を特定する
上記（２）から（５）までのいずれかに記載のエフェクト生成装置。
（７）
前記特定部は、前記顔を構成する部分の状態、前記物体の状態、および、前記顔と前記物体との前記入力画像上の位置関係に基づいて、前記顔と前記物体と相互的な関係性を特定する
上記（２）から（６）までのいずれかに記載のエフェクト生成装置。
（８）
前記入力画像に写されている前記顔および前記物体までの距離を測定して、前記入力画像に対して直交する方向の奥行きを求める距離測定部をさらに備え、
前記特定部は、前記顔と前記物体との奥行き関係を用いて、前記顔と前記物体との間における相互的な関係性を特定する
上記（２）から（７）までのいずれかに記載のエフェクト生成装置。
（９）
前記入力画像から検出された前記顔と、前記入力画像から検出された前記物体とについて前記距離測定部により求められた奥行き関係に基づいて、前記顔をマスクする顔用のマスク画像が前記物体をマスクすることを回避させるためのマップデータを作成するマップ作成部
をさらに備える上記（８）に記載のエフェクト生成装置。
（１０）
前記エフェクト生成部は、前記マスク画像または前記表示エフェクトを状況に応じて変化させる
上記（４）から（９）までのいずれかに記載のエフェクト生成装置。
（１１）
前記エフェクト生成部は、前記特定部により所定の前記対象物どうしの所定の関係性が特定された回数に従って、前記マスク画像または前記表示エフェクトを変化させる
上記（１０）に記載のエフェクト生成装置。
（１２）
前記エフェクト生成部は、所定の前記表示エフェクトが使用された回数を計数したカウント値に従って、その表示エフェクトを変化させる
上記（１０）または（１１）に記載のエフェクト生成装置。
（１３）
前記エフェクト生成部は、ネットワークを介して接続された他の前記エフェクト生成装置との間で送受信される前記カウント値の合計に従って、所定の前記表示エフェクトを変化させる
上記（１２）に記載のエフェクト生成装置。
（１４）
前記特定部は、音声認識情報、ジェスチャ認識情報、日時情報、現在地情報、天気情報、周辺のイベント情報、または、ネットワークを介して取得できる情報にも基づいて、前記対象物どうしの関係性を特定する
上記（２）から（１３）までのいずれかに記載のエフェクト生成装置。
（１５）
入力画像から、少なくとも顔を含む２つ以上の対象物を検出し、
検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成する
ステップを含むエフェクト生成方法。
（１６）
入力画像から、少なくとも顔を含む２つ以上の対象物を検出し、
検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成する
ステップを含む処理をコンピュータに実行させるプログラム。

なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

１１画像処理装置，１２撮像部，１３記録部，１４表示部，２１デジタル信号処理部，２２顔検出部，２３物体検出部，２４距離測定部，２５顔特徴点解析部，２６物体特徴点解析部，２７顔解釈部，２８物体解釈部，２９インタラクション解釈部，３０マップ作成部，３１表示画像作成部

Claims

入力画像から、２つ以上の対象物を検出する検出部と、
前記検出部により検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成するエフェクト生成部と、
前記対象物の位置、前記対象物の状態、および前記対象物の奥行きを含む前記対象物どうしの関係性を特定する特定部と
を備え、
前記エフェクト生成部は、前記特定部により特定された前記対象物どうしの関係性に基づいて、前記エフェクトを生成する
エフェクト生成装置。
前記対象物は少なくとも１つの顔を含み、その顔が写されている領域である顔領域は、前記顔を構成する各部を特定する特徴点を含む
請求項１に記載のエフェクト生成装置。
前記特定部は、前記対象物の状態として、前記検出部により検出された顔の表情を特定し、
前記エフェクト生成部は、前記特定部により特定された顔の表情の変化に基づいて、前記エフェクトを生成する
請求項１または２に記載のエフェクト生成装置。
前記エフェクト生成部は、ジェスチャ認識に基づいて、特定のジェスチャが認識されたときに前記エフェクトを生成する
請求項１乃至３のいずれかに記載のエフェクト生成装置。
前記特定部は、前記対象物の状態として、前記検出部により検出された顔を構成する部分の状態と、前記検出部により検出された物体の状態とを特定するとともに、前記対象物どうしの関係性として、前記顔と前記物体との位置関係を特定し、
前記エフェクト生成部は、前記特定部により特定された前記顔を構成する部分の状態、前記物体の状態、および前記顔と前記物体との位置関係に基づいて、前記エフェクトを生成する
請求項１乃至４のいずれかに記載のエフェクト生成装置。
前記エフェクト生成部は、前記対象物をマスクするマスク画像、および、前記対象物どうしの関係性を表現する表示エフェクトを生成し、前記入力画像に対して前記マスク画像および前記表示エフェクトを重畳して表示する出力画像を作成する
請求項１乃至５のいずれかに記載のエフェクト生成装置。
前記入力画像から検出された前記対象物である顔を構成する部分を特定する複数の特徴点を抽出する顔特徴点解析部をさらに備え、
前記特定部は、前記顔特徴点解析部により検出された複数の前記特徴点に基づいて、前記入力画像から検出された前記顔を構成する部分の状態を特定する
請求項６に記載のエフェクト生成装置。
前記入力画像から検出された前記顔以外の前記対象物である物体を構成する部分を特定する複数の特徴点を抽出する物体特徴点解析部をさらに備え、
前記特定部は、前記物体特徴点解析部により検出された複数の前記特徴点に基づいて、前記入力画像から検出された前記物体の状態を特定する
請求項７に記載のエフェクト生成装置。
前記特定部は、前記顔を構成する部分の状態、前記物体の状態、および、前記顔と前記物体との前記入力画像上の位置関係に基づいて、前記顔と前記物体と相互的な関係性を特定する
請求項８に記載のエフェクト生成装置。
前記入力画像に写されている前記顔および前記物体までの距離を測定して、前記入力画像に対して直交する方向の前記奥行きを求める距離測定部をさらに備え、
前記特定部は、前記顔と前記物体との奥行き関係を用いて、前記顔と前記物体との間における相互的な関係性を特定する
請求項９に記載のエフェクト生成装置。
前記入力画像から検出された前記顔と、前記入力画像から検出された前記物体とについて前記距離測定部により求められた奥行き関係に基づいて、前記顔をマスクする顔用のマスク画像が前記物体をマスクすることを回避させるためのマップデータを作成するマップ作成部
をさらに備える請求項１０に記載のエフェクト生成装置。
前記エフェクト生成部は、前記マスク画像または前記表示エフェクトを状況に応じて変化させる
請求項６乃至１１のいずれかに記載のエフェクト生成装置。
前記エフェクト生成部は、前記特定部により所定の前記対象物どうしの所定の関係性が特定された回数に従って、前記マスク画像または前記表示エフェクトを変化させる
請求項１２に記載のエフェクト生成装置。
前記エフェクト生成部は、所定の前記表示エフェクトが使用された回数を計数したカウント値に従って、その表示エフェクトを変化させる
請求項１２に記載のエフェクト生成装置。
前記エフェクト生成部は、ネットワークを介して接続された他の前記エフェクト生成装置との間で送受信される前記カウント値の合計に従って、所定の前記表示エフェクトを変化させる
請求項１４に記載のエフェクト生成装置。
前記特定部は、音声認識情報、ジェスチャ認識情報、日時情報、現在地情報、天気情報、周辺のイベント情報、または、ネットワークを介して取得できる情報にも基づいて、前記対象物どうしの関係性を特定する
請求項１乃至１５のいずれかに記載のエフェクト生成装置。
入力画像から、２つ以上の対象物を検出し、
検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成し、
前記対象物の位置、前記対象物の状態、および前記対象物の奥行きを含む前記対象物どうしの関係性を特定する
ステップを含み、
特定された前記対象物どうしの関係性に基づいて、前記エフェクトが生成される
エフェクト生成方法。
入力画像から、２つ以上の対象物を検出し、
検出された前記対象物どうしの関係から、対応する所定のエフェクトを生成し、
前記対象物の位置、前記対象物の状態、および前記対象物の奥行きを含む前記対象物どうしの関係性を特定する
ステップを含み、
特定された前記対象物どうしの関係性に基づいて、前記エフェクトが生成される
処理をコンピュータに実行させるプログラム。