JP2016042661A - 情報処理装置、システム、情報処理方法及びプログラム - Google Patents

情報処理装置、システム、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2016042661A
JP2016042661A JP2014166064A JP2014166064A JP2016042661A JP 2016042661 A JP2016042661 A JP 2016042661A JP 2014166064 A JP2014166064 A JP 2014166064A JP 2014166064 A JP2014166064 A JP 2014166064A JP 2016042661 A JP2016042661 A JP 2016042661A
Authority
JP
Japan
Prior art keywords
image
wide area
display
mask
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014166064A
Other languages
English (en)
Inventor
秀和 世渡
Hidekazu Seto
秀和 世渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014166064A priority Critical patent/JP2016042661A/ja
Publication of JP2016042661A publication Critical patent/JP2016042661A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

【課題】広域画像像から不要な対象オブジェクトを除去する際、違和感の低減と情報量の維持とを両立させることを目的とする。
【解決手段】第1のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成手段と、マスク画像に基づき広域画像を生成する広域画像生成手段と、広域画像と、第2のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成手段と、表示用画像を出力する出力手段と、を有することによって課題を解決する。
【選択図】図5

Description

本発明は、情報処理装置、システム、情報処理方法及びプログラムに関する。
パノラマ画像を一つの静止画として記録するためでなく、遠隔地にいる人物に現在の状況をわかりやすく伝えるために利用する技術が考案されている(非特許文献1)。この技術では撮影者のカメラから生成したパノラマ画像をリアルタイムに生成し続け、その画像を遠隔地に送信する。遠隔地では、仮想的に撮影者が一度に撮影する範囲より広い範囲を見られるため、撮影者をとりまく状況の把握が容易になる。
一方で、パノラマ写真に動体が含まれると、写真の貼りあわせがうまくいかず、複数の領域に同じ物体が写り込んでしまったり、不自然に物体が伸びたりする広域画像が得られてしまう場合がある。このような問題に対し、広域画像を生成する際、動体を除いた部分から広域画像を生成する技術がある(特許文献1)。
特開2011−82920号公報
笠原 俊一,暦本 純一,JackIn:一人称視点と体外離脱視点を融合した人間−人間オーグメンテーションの枠組み,情報処理学会インタラクション2014(http://rekimotolab.files.wordpress.com/2014/03/a46−kasahara.pdf)
特許文献1の動体除去技術は撮影画像から動体とみなされた領域を一律に削除するものである。そのため、ある状況下では削除する必然性のない領域であっても一律に削除してしまい、本来残存させるべき情報も欠落させてしまう場合がある。また、例えば非特許文献1のように、リアルタイムに連続的にパノラマ画像を生成するような場合、過去に撮影した画像によって作成された部分については動体を削除する一方、最新のフレームについてはたとえ動体であっても除去されない方が好ましい場合がある。なぜならば、最新のフレームについて動体を除去してしまうと、撮影者自身の行動や、撮影者の目前で刻々と変化している状況が情報として欠落されてしまい、撮影者をとりまく状況が把握しづらくなってしまうためである。
本発明は、広域画像像から不要な対象オブジェクトを除去する際、違和感の低減と情報量の維持とを両立させることを目的とする。
そこで、本発明の情報処理装置は、第1のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成手段と、前記マスク画像に基づき広域画像を生成する広域画像生成手段と、前記広域画像と、第2のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成手段と、前記表示用画像を出力する出力手段と、を有する。
本発明によれば、広域画像像から不要な対象オブジェクトを除去する際、違和感の低減と情報量の維持とを両立させることができる。
映像伝達システムのシステム構成の一例を示す図である。 カメラデバイスのハードウェア構成の一例を示す図である。 処理サーバーのハードウェア構成の一例を示す図である。 PCのハードウェア構成の一例を示す図である。 処理サーバーにおける画像転送処理の一例を示すフローチャートである。 処理サーバーにおける広域画像更新処理の一例を示すフローチャートである。 マスク画像を広域画像に重畳する際の位置関係を示す図である。 PCの表示更新処理の一例を示すフローチャートである。 PCのディスプレイ上で表示する転送画像表示UIの一例を示す図である。 入力画像の一例を示す図である。 画像転送処理及び広域画像更新処理の結果の一例を示す図である。 マスク処理を施さなかった場合の表示用画像の変遷を示す図である。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
図1は、映像伝達システムのシステム構成の一例を示す図である。映像伝達システム100は、撮影者が装着している情報記録装置(以下、カメラデバイスという)110、ワイヤレスアクセスポイント120、処理サーバー130、パーソナルコンピュータ(以下、PCという)140を含む。そして、カメラデバイス110とワイヤレスアクセスポイント120とは無線通信を行う。カメラデバイス110は、ワイヤレスアクセスポイント120を介して有線のネットワークと接続されている。また、処理サーバー130とPC140とワイヤレスアクセスポイント120とは有線のネットワークを介して接続されている。処理サーバー130と、カメラデバイス110、PC140とは、無線及び/又は有線のネットワークを介して通信可能に接続されている。
処理サーバー130又はPC140は、情報処理装置の一例である。また、PC140は、出力デバイスの一例である。
図2は、カメラデバイス110のハードウェア構成の一例を示す図である。
本実施形態におけるカメラデバイス110は、図1にあるように眼鏡のフレームのような形態で頭部に装着するようになっており、カメラ210によって、撮影者の目に近い視点で撮影することが可能である。また、カメラデバイス110は、マイク220によって、カメラデバイス110の装着者本人や近くにいる人の声、周囲の音等の音声データを取得することができる。
カメラデバイス110は、CPU201、ROM202、メインメモリ203、データ記憶装置204、バッテリー205、LANI/F207、カメラ210、マイク220、距離画像センサー240をハードウェア構成として有する。
バッテリー205は、電力をカメラデバイス110全体に供給する。
LANI/F207は、ネットワークやワイヤレスアクセスポイント120を介して接続されている処理サーバー130等の他の機器とCPU201との間で情報の送受信を行う。
ROM202は、ブートローダプログラム及びカメラデバイス制御プログラムが格納されている。
データ記憶装置204は、書き換え可能な記憶領域であり、カメラ210で撮影された画像のデータやマイク220で取得した音声データ等が格納される。
メインメモリ203は、揮発性メモリであり、ROM202に記憶されているプログラムや一時的に使用するデータ等の情報が格納される。カメラデバイス110の電源投入時には、CPU201がROM202からブートローダプログラムを読み出して実行し、ROM202に格納されているカメラデバイス制御プログラムを取り出し、メインメモリ203に格納する。そして、CPU201がメインメモリ203に格納されているカメラデバイス制御プログラムを実行することによって、カメラデバイス110の機能等が実現される。
カメラ210は、レンズから入ってきた光を撮像素子によって電気信号に変換し、更にデジタルデータに変換して画像データを生成する。
マイク220は、周囲の音声を電気信号に変換し、更にデジタルデータに変換して音声データを生成する。
距離画像センサー240は、カメラデバイスから物体までの距離を二次元的に表現する距離画像データを生成する。
図3は、処理サーバー130のハードウェア構成の一例を示す図である。処理サーバー130は、CPU301、メインメモリ302、及びHDD303、LAN I/F304をハードウェア構成として有する。
LAN I/F304は、ネットワークやワイヤレスアクセスポイント120を介して接続されている他の機器と、CPU301との間で情報の送受信を行う。
HDD303は、ブートローダプログラム及び処理サーバー制御プログラムが格納されている。
メインメモリ302は、揮発性メモリであり、HDD303に記憶されている情報や一時的に使用する情報が格納される。処理サーバー130の電源投入時には、CPU301がブートローダプログラムを読み出して実行し、HDD303に格納されている処理サーバー制御プログラムを取り出し、メインメモリ302に格納する。そして、CPU301がメインメモリ302に格納された処理サーバー制御プログラムを実行することによって、処理サーバー130の機能及び後述する処理サーバー130のフローチャートの処理が実現される。
図4は、PC140のハードウェア構成の一例を示す図である。PC140は、CPU401、メインメモリ402、HDD403、LAN I/F404、ディスプレイ405、及びマウス406で構成される。
LAN I/F404は、ネットワークやワイヤレスアクセスポイント120を介して接続されている他の機器と、CPU401との間で情報の送受信を行う。
HDD403は、ブートローダプログラム及びPC制御プログラムが格納されている。メインメモリ402は、揮発性メモリであり、HDD403に記憶されている情報や一時的に使用する情報が格納される。PC140の電源投入時には、CPU401がブートローダプログラムを読み出して実行し、HDD403に格納されているPC制御プログラムを取り出し、メインメモリ402に格納する。そして、CPU401がメインメモリ402に格納されたPC制御プログラムを実行することによって、PC140の機能及び後述するPC140のフローチャートの処理が実現される。
ディスプレイ405は、CPU301で実行されるPC制御プログラムの出力を表示する。
マウス406は、ユーザーからの入力を受け付ける。
図5は、処理サーバー130における画像転送処理の一例を示すフローチャートである。
この処理は任意のタイミングで実行される。
ステップS101において、CPU301は、LAN I/F304及びネットワークを介してカメラデバイス110から撮影データを取得する。撮影データとは、カメラデバイス110のカメラ210によって取得されたRGB画像(撮影画像又はフレーム画像)と距離画像センサー240によって取得された距離画像である。撮影データの取得は以下の流れで行う。まず、CPU301は、LAN I/F304及びネットワークを介してカメラデバイス110に撮影データ取得要求を送信する。カメラデバイス110のCPU201は、LAN I/F207を介して撮影データ取得要求が来たことに応答して、カメラ210によりRGB画像を取得する。また、カメラデバイス110のCPU201は、同時に距離画像センサー240により距離画像を取得する。CPU201は、RGB画像と距離画像とを合わせて撮影データとして処理サーバー130に返送する。処理サーバー130のCPU301は、撮影データを受信し、HDD303に記録する。
ステップS102において、CPU301は、ステップS101で取得したRGB画像の複製を作成し、その複製データに対して作業者の手領域を検出し、削除する(以下、マスク処理という)。マスク処理に用いられるRGB画像は、第1のフレーム画像、又は最新フレーム画像以外のフレーム画像の一例である。また、作業者の手領域は、対象オブジェクトの一例である。
手領域が削除された画像(以下、マスク画像という)は赤色(R)、緑色(G)、青色( B)、不透明度(A)がそれぞれ8bitずつ、合計32bitの画素値が各画素に付与された画像データである。不透明度が最小(0)のときその画素は透明であることを表す。CPU301が、ある画像に対して他の画像を重畳する場合は、この不透明度を利用してアルファブレンディングによって行う。アルファブレンディングは不透明度を考慮して二つの画像を重畳して一つの画像に合成する手法である。アルファブレンディングによってある画像Aに別の画像Bが重畳された場合、合成された画像において、画像Bで不透明度が1の領域には画像Bの画素値が残り、画像Bで不透明度が0の領域には画像Aの画素値が残る。ステップS102において、CPU301は、対象の画素の不透明度を0にすることで作業者の手領域を削除する。CPU301は、マスク画像をHDD303に記録する。
CPU301は、例えば、カメラ210から所定距離の範囲に存在する物体を手の領域として抽出する。なお、手の領域の検出技術はこれに限らず、CPU301は、別の技術を利用して手の領域を検出してもよい。また、CPU301は、手だけでなく、腕や足等、他の作業者の体の一部であることを検出するようにしてもよいし、手に持った工具や道具、そして身に付けた装備(手袋等)を含めて検出するようにしてもよい。また、手領域の抽出は厳密に行われる必要はなく、本来の手領域より若干広めに検出されてもよい。何故なら、仮に広めに手領域が削除されたとしても、後述のステップS205の処理によって、先に手が無い状態で同じ場所が撮影された場合はその画像で置き換えられるためである。この様子は図11を用いて後述する。
ステップS102の処理は、マスク画像生成の処理の一例である。
ステップS103において、CPU301は、後述する図6の広域画像更新処理を行い、その結果として広域画像を得る。
ステップS103の処理は、広域画像生成の処理の一例である。
ステップS104において、CPU301は、図6のステップS203で得られる射影変換行列をステップS101で取得された撮影画像に適用し、ステップS103で得られた広域画像に重ね合わせることで表示用画像を生成する。ここで、重ねあわせられるのはマスク画像ではなく撮影画像であり、作業者の手が削除されていない。なお、図6のステップS201で初回実行と判定された場合、CPU301は、ステップS103で得られた広域画像をそのまま表示用画像とする。
ステップS104の処理は、表示用画像生成の処理の一例である。また、重ねあわせられる撮影画像は、第1のフレーム画像以外の第2のフレーム画像、又は最新フレーム画像の一例である。
ステップS105において、CPU301は、表示情報をPC140に送信する。表示情報とは、ステップS104で得られた表示用画像と図6のステップS203で得られる状態変化フラグとを含むデータである。CPU301は、LAN I/F304及びネットワークを介して表示情報をPC140に送信する。なお、この表示情報は後述する表示更新処理で利用される。状態変化フラグは、状態変化情報の一例である。
ステップS106において、CPU301は、カメラデバイス110やPC140に対してネットワークを介して処理を終了すべきかを問い合わせ、終了指示があった場合には処理を終了する。終了指示がなかった場合にはCPU301は、処理をステップS101に戻す。
図6は、処理サーバー130における広域画像更新処理の一例を示すフローチャートである。
この処理は処理サーバー130のCPU301によって、ステップS103で実行される。また、終了時に呼び出し元に『現在の広域画像』を結果として返す。
ステップS201において、CPU301は、この処理が前述の画像転送処理の中で初回に実行されたものか調べ、もし初回であった場合、ステップS202に移行し、初回で無ければS203に移行する。例えば、CPU301は、メインメモリ302等に記憶されている回数カウンタに前記画像転送処理の中で実行された回数の情報を記憶する。例えば、CPU301は、前記回数カウンタが0を示している場合は、初回であると判定し、前記回数カウンタが1以上の整数を示している場合は、初回出ないと判定する。
ステップS202において、CPU301は、現在のマスク画像(ステップS102で得られた画像)を『現在の広域画像』としてHDD303に記録する。この時点ではマスク画像と広域画像とは同じものを示すこととなる。
ステップS203において、CPU301は、HDD303に記録された『現在の広域画像』とステップS102で得られるマスク画像との位置関係を調べる。位置関係は射影変換行列によって表現される。式(1)は射影変換行列Hを表す。
Figure 2016042661
但し、(式1)中のa〜hは射影変換行列のパラメータである。
CPU301は、射影変換行列を利用することで式(2)のように、座標(x,y)を座標(X,Y)に変換できる。
Figure 2016042661
またこれを画像の全画素に適用することで、CPU301は、画像を変形させることができる。
また、(式2)を変換することで(式3)が求められる。CPU301は、これを解くことでパラメータa〜hを求めることができる。
Figure 2016042661
(式3)において既知の対応点(x,y),(X,Y)が4組あれば、CPU301は、パラメータa〜hを求めることができる。2つの画像の対応点を得るために、本実施形態ではSIFT(Scale−Invariant Feature Transform)を用いるものとする。SIFTは回転・スケール・照明変化に強い特徴点の検出及び特徴量の算出が可能な特徴点の検出及び特徴量の算出が可能な技術である。カメラデバイス110を装着したユーザーは頭や体を任意の方向に変更する可能性があり、撮影画像が回転したり、スケールしたりし得る。また、前記ユーザーの周囲の照明状況が急激に変更される状況で使用される可能性もある。CPU301がSIFTを利用することでこれらのような影響が軽減され、より正確に2つの画像の対応点を取得できる。
ステップS203において、CPU301は、『現在の広域画像』とマスク画像とでSIFTを用いて特徴点のマッチングを行う。より具体的には、CPU301は、『現在の広域画像』、マスク画像それぞれからSIFTを用いて特徴点の検出を行うと共に、それぞれの特徴点の特徴量を算出する。続いて、CPU301は、それぞれの画像中の各特徴点について、他方の画像の各特徴点それぞれと特徴量の差分を計算し、全特徴点の組み合わせから特徴量の差分が小さい方から順に4つの組み合わせを選出し、対応点とする。続いて、CPU301は、取得した対応点4組の座標値を利用し(式3)から射影変換行列パラメータを求める。CPU301は、xn,ynにマスク画像上の特徴点の座標を用い、Xn、Ynに広域画像上の特徴点の座標を使う(nは各特徴点の番号を表す)。これは、マスク画像を広域画像に位置合わせする射影変換行列を求めることに相当する(求めた射影変換行パラメータを(式1)に代入したものが射影変換行列である)。CPU301は、特徴量の差分が所定値以内の点が4点見つからない場合には位置関係の取得に失敗したと判定するする。CPU301は、特徴量の差分が所定値以内の点が4点見つかった場合は、位置関係の取得に成功したと判定する。CPU301は、この成功/失敗判定の結果をステップS204で利用する。なお、撮影画像、マスク画像、広域画像の座標値は全て画像の左上端を原点(0,0)とし(広域画像については最初につくられた広域画像の左上端を原点とする)右に行くほどx座標が大きくなり、下に行くほどy座標が大きくなるものとする。
なお、広域画像とマスク画像との位置関係の取得は、射影変換行列が得られ、成功/失敗判定ができるものであれば、これに限らず別の方法を用いてもよい。
ステップS204において、CPU301は、前記成功/失敗判定の結果に基づき、位置関係の取得(又は検出)に成功したか否かを判定する。CPU301は、位置関係の取得に成功したと判定した場合、ステップS206に移行し、そうでない場合、ステップS207に移行する。
ステップS205において、CPU301は、マスク画像を広域画像に重畳する。
図7は、マスク画像を広域画像に重畳する際の位置関係を示す図である。以下、図7を参照しながらステップS205の処理を説明する。図7(a)は広域画像を示す。図7(b)はマスク画像(1201)と変形後の領域(1202)を示す。図7(c)は変形後の画像を示す。図7(d)は拡張済み広域画像を示す。図7(e)は合成後の画像を示す。
まず、CPU301は、マスク画像の左上、右上、左下、右下4点の座標値(x1,y1)〜(x4〜y4)に対して、ステップS203で取得した射影変換行列を適用(式2を利用)し、変換後座標値(X1,Y1)〜(X4,Y4)を取得する。
続いて、CPU301は、その4点及び(0,0)を全て含む長方形領域(辺はx軸またはy軸と平行)を抽出する(変換後長方形領域1202)。
次に、CPU301は、その長方形領域と同じ大きさの透過画像(全ての画素値の不透明度が0の画像)を生成する。このとき、透過画像の原点は長方形領域の(0,0)の位置とする。
次に、CPU301は、マスク画像の全画素に対して、ステップS203で取得した射影変換行列を適用し、変形後の座標値を取得すると共に、生成した透過画像の位置に、その画素の画素値をコピーする。これにより変形画像1203が生成される。
続いて、CPU301は、広域画像1204を、変形画像1203を包含できる大きさに拡張する(拡張画像済み画像1205)。このとき、CPU301は、拡張前から存在する領域の画素値は変化させない。また、CPU301は、拡張される領域の画素値に不透明度0の画素を設定する。
そして、CPU301は、拡張済み画像1205に対して、変形画像1203をアルファブレンディングすることで合成画像1206を生成する。
CPU301は、このようにして生成した合成画像を新たな『現在の広域画像』としてHDD303に上書きする。更に、CPU301は、後述する状態変化フラグを降ろす(例えば、状態変化フラグに0を設定する)。
ステップS206において、CPU301は、ステップS202のように、現在のマスク画像を『現在の広域画像』としてHDD303に記録する。またCPU301は、状態変化フラグを立てる(例えば、状態変化フラグに1を設定する)。この状態変化フラグはステップ105の画像転送処理及びステップS302の表示更新処理で利用される。状態変化フラグは、フラグが立っているとき、広域画像とマスク画像との位置関係の取得に失敗したことを意味する。位置関係の取得の成功とは、ステップS203に詳述したとおり、広域画像とマスク画像とで特徴量の差分が所定以下の点が4点取れたことを意味する。位置関係の取得に失敗する状況としては、例えばカメラデバイス110が大きく動く等して状態が変わったことによって発生する。
なお、上述の通り、広域画像はマスク画像を貼りあわせて生成される。これは手領域が画像中に存在した場合、過去に既に撮影したその領域に含まれる手以外の物体を優先的に表示するためのものである。したがって、過去に撮影した手以外の物体がないのであれば、削除するよりもむしろ最新の手の画像を残した方が自然な場合もあり、CPU301は、このように処理してもよい。即ち、CPU301は、上述の広域画像更新処理によりマスク画像の広域画像を生成する他、同様にしてマスク画像の代わりに撮影画像を利用することで、撮影画像の広域画像を生成する。そして、CPU301は、撮影画像の広域画像に対してマスク画像の広域画像をアルファブレンディングする。これにより、マスク画像の広域画像における透過領域には、撮影画像の同じ領域の画素が表示される。
図8は、PC140の表示更新処理の一例を示すフローチャートである。
この処理は画像転送処理のステップS105で処理サーバー130が表示情報を送信し、それがPC140で受信された度にCPU401で実行される。
ステップS301において、CPU401は、処理サーバー130から送信された表示情報を取得し、メインメモリ402に記録する。前述の通り、表示情報は表示用画像とステップS205又はS206で設定される状態変化フラグとを含む情報である。
ステップS302において、CPU401は、状態変化フラグが立っているか否か(状態変化フラグに1が設定されているか否か)を調べる。CPU401は、状態変化フラグが立っていたらS303に移行し、そうでなければステップS304に移行する。
ステップS303において、CPU401は、前回受信した表示用画像を過去広域画像としてHDD403に記録(又は追加)する。
ステップS304において、CPU401は、表示用画像を後述する主表示領域801に設定し、また、過去画像の一覧を過去画像表示領域802に設定して、ディスプレイ405に表示する。但し、後述する過去表示モードにおいては、CPU401は、選択されている過去画像を主表示領域801に表示する。
図9は、PC140のディスプレイ405上で表示する転送画像表示UIの一例を示す図である。
転送画面表示UIは主表示領域801と過去画像表示領域802とから構成される。主表示領域801には最後に取得した表示用画像が表示される。過去画像表示領域802にはこれまでにステップS303で記録された画像の一覧と最新の表示用画像とが表示される。CPU401は、過去画像表示領域802に対するマウス406を通じて行われた選択操作を受付け、過去画像が選択された場合には過去表示モードに移行する。過去表示モードでは主表示領域に現在選択されている過去画像が表示され、マウスのスクロール操作やドラッグ操作に応じて過去画像が拡大・縮小・移動して表示される。CPU401は、現在画像が選択された場合にはリアルタイム表示モードに移行する。リアルタイム表示モードでは最近取得された表示用画像が主表示領域801に表示される。即ち、PCの利用者は過去表示モードではユーザー好きなように好きな場所を閲覧でき、リアルタイム表示モードでは最新の状況を見ることができる。
以下、図10と図11とを用いて画像転送処理及び広域画像更新処理のより具体的な例を示す。
図10は、入力画像の一例を示す図である。入力画像とは、ステップS101で取得される、カメラデバイス110で撮影されたRGB画像のことで、図10はその変遷を表しており、下にあるほど時間的に後に得られた画像である。
入力画像1は最初に撮影された画像である。
入力画像2は入力画像1と同じ位置で、手が写り込んだときに撮影された画像(手領域901を含む画像)である。
入力画像3は手が動かされない状態で、撮影向きが入力画像2を撮影したときよりも上に動いたタイミングで撮影されたものである。
入力画像4は手が動かされ写り込まなくなった状態で、入力画像3を撮影したときよりも右が撮影されたものである。
入力画像5は手が動かされ再び写り込んだ状態で、入力画像4を撮影したときよりも下が撮影されたものである。
図11は、画像転送処理及び広域画像更新処理の結果の一例を示す図である。図11は(a)〜(c)はそれぞれ、ステップS101において図10の画像群が順次取得された場合に順次生成されるマスク画像(図11(a))、広域画像(図11(b))、表示用画像(図11(c))である。以下入力画像1〜5を使用した場合の広域画像更新処理をフローに沿って説明する。
ステップS101で入力画像1が取得される。すると、まずステップS102では何も除去されず、入力画像1と同じ内容のマスク画像A1が生成される。続いてステップS201では初回の実行のためS202に処理が移行する。続いてステップS202では『現在の広域画像』としてマスク画像1と同じ広域画像A1が設定される。続いてステップS104では広域画像A1が表示用画像として設定される。このようにして表示用画像A1が生成される。
続いてステップS101で入力画像2が取得される。すると、ステップS102で手領域901が削除された(透過画素で置き換えられた)マスク画像A2が生成される。続いてステップS201では二回目の実行のためステップS203に処理が移行する。続いてステップS203では位置関係が同じ画像が取得されるような射影変換行列が得られる。続いて、ステップS204において、位置関係の検出が成功したため、処理はステップS205に移行する。続いてステップS205では『現在の広域画像』である広域画像A1に対して、マスク画像A2にステップS203で得られた射影変換行列が適用された画像が重畳される。これにより広域画像A2が生成される。なお、広域画像A2中の、入力画像2で手の存在した領域(透過領域1001)は、広域画像A1で同じ位置の領域が見えている状態である。『現在の広域画像』は広域画像A2で上書きされる。続いてステップS104では『現在の広域画像』に対して、入力画像2にステップS203で取得され、射影変換行列が適用された画像が重畳される。そして、表示用画像A2が生成される。
続いてステップS101で入力画像3が取得される。すると、ステップS102で手領域が削除されたマスク画像A3が生成される。続いてステップS201では二回目以降の実行のためステップS203に処理が移行する。続いてステップS203では現在の広域画像の上方に配置されるような変換をなす射影変換行列が得られる。続いてステップS204では位置関係の検出が成功したため、処理はステップS205に移行する。続いてステップS205では『現在の広域画像』である広域画像A2に対して、マスク画像A3にステップS203で得られた射影変換行列が適用された画像が重畳される。これにより広域画像A3が生成される。なお、広域画像A3中の、入力画像3で手の存在した領域は、広域画像A2で同じ位置の領域が見えている状態である。『現在の広域画像』は広域画像A3で上書きされる。続いてステップS104では『現在の広域画像』に対して、入力画像3にステップS203で取得した射影変換行列が適用された画像が重畳される。そして、表示用画像A3が生成される。
続いてステップS101で入力画像4が取得される。すると、ステップS102で何も除去されていないマスク画像A4が生成される。続いてステップS201では二回目以降の実行のためステップS203に処理が移行する。続いてステップS203では現在の広域画像の右上部に配置されるような変換をなす射影変換行列が得られる。続いてステップS204では位置関係の検出が成功したため、処理はステップS205に移行する。続いてステップS205では『現在の広域画像』である広域画像A3に対して、マスク画像A4にステップS203で得られた射影変換行列が適用された画像が重畳される。これにより広域画像A4が生成される。『現在の広域画像』は広域画像A4で上書きされる。続いてステップS104では『現在の広域画像』に対して、入力画像4にステップS203で取得した射影変換行列が適用された画像が重畳される。そして、表示用画像A4が生成される。
続いてステップS101で入力画像5が取得される。すると、ステップS102で手領域が削除されたマスク画像A5が生成される。続いてステップS201では二回目以降の実行のためステップS203に処理が移行する。続いてステップS203では位置関係が現在の広域画像の右下に配置されるような変換をなす射影変換行列が得られる。続いてステップS204では位置関係の検出が成功したため、処理はステップS205に移行する。続いてステップS205では『現在の広域画像』である広域画像A4に対してマスク画像A5に射影変換行列が適用された画像が重畳される。これにより広域画像A5が生成される。なお、広域画像A5中の、入力画像5で手の存在した領域は、広域画像A4で同じ位置の領域が見えている状態である。『現在の広域画像』は広域画像A5で上書きされる。続いてステップS104では『現在の広域画像』に対して、入力画像5にステップS203で取得した射影変換行列が適用された画像が重畳される。そして、表示用画像A5が生成される。
図12は、画像転送処理において図10のように入力画像が変遷したとき、ステップS102でマスク処理を施さなかった場合の表示用画像の変遷を示す図である。本実施形態の処理を適用した表示用画像群(図11(c))に比較して、特に最後の表示用画像B5を見ると本来あるはずのない領域が存在していることがわかる。一方で、表示用画像全てにマスク処理をしてしまう場合は広域画像A1〜A5がそのまま表示用画像となり、最新の状況でも手領域が削除されてしまう。そのため今現在指しているものが何かを知ることはできない。この点、本実施形態の処理を適用した場合はあるはずのない手領域のみを削除でき、違和感を軽減しながら必要な情報を残存させることができる。
以上のようにして、本実施形態によれば、最新の状況を含む画像ではマスク処理を行わず、過去の状況から生成される広域画像にのみマスク処理を行うことによって、重要なリアルタイムの情報を維持しながら、全体の違和感を軽減することができる。
なお、本実施形態において、広域画像更新処理は処理サーバーで、表示更新処理はPCで行う例を説明したが、これの処理の両方をPCで行うようにしてもよい。
<実施形態2>
実施形態1において、CPU301は、ステップS103の広域画像更新処理において、ステップS101で取得した最新の撮影画像を重畳した。つまり、実施形態1では、CPU301は、しかし、CPU301は、重畳する画像を別の方法によって決定してもよい。本実施形態においては、CPU301は、ユーザーが重要であることを示す行動を行った場面の画像を重畳表示する。
以降は実施形態1との差分について主に説明する。
広域画像更新処理のステップS101において、CPU301は、更に、撮影データと音声データとの取得要求をカメラデバイス110に対して送信する。カメラデバイス110はマイク220により取得した音声データを処理サーバー130に返送する。CPU301は、返送された音声データをHDD303に記録する。ステップS203において、CPU301は、更に、ステップS101で取得した音声データから例えば直近1秒間分を取り出し、音声認識処理を施す。そして、CPU301は、HDD303から事前に登録された重要語一覧データを取り出す。重要語の例としては例えば「ここ」という言葉である。このような重要語が音声データに含まれと判定した場合、CPU301は、現在の撮影データを射影変換行列と共に優先表示情報としてHDD303に記録する。ステップS104において、CPU301は、更に、これまで記録された優先表示情報内の撮影データを、それに紐づけられた射影変換行列を使って広域画像に重畳する。
つまり、CPU301は、複数の撮影画像のうち対応する音声データに設定された重要後が含まれない撮影画像から手領域等を削除し、マスク画像を生成し、複数のマスク画像に基づき広域画像を生成する。そして、CPU301は、前記広域画像と、複数の撮影画像のうち対応する音声データに設定された重要後が含まれる撮影画像と、を重畳して表示用画像を生成するようにしてもよい。
重要語は、設定された言葉の一例を示す図である。
なお、CPU301は、音声データを用いてユーザーの重要な行動を抽出したが、これを映像によって行ってもよい。より具体的には、ステップS102おいて、CPU301は、手領域の抽出に加え、ジェスチャー認識技術を用い、撮影画像から所定のジェスチャー(例えば、指差し行為等)を検出する。指差し行為が検出した場合、CPU301は、上述のように、撮影データと後に計算される射影変換行列とを記録し、ステップS105でそれらの画像を広域画像に重畳する。
つまり、CPU301は、複数の撮影画像のうち指差し行為等のジェスチャーが含まれない撮影画像から手領域等を削除し、マスク画像を生成し、複数のマスク画像に基づき広域画像を生成する。そして、CPU301は、前記広域画像と、前記複数の撮影画像のうち指差し行為等のジェスチャーが含まれる撮影画像と、を重畳して表示用画像を生成するようにしてもよい。
本実施形態によれば、ユーザーの行動を観測して、重要な行動をとった場合にはその行動を記録し、それらを同時に表示する事ができる。これにより従来技術よりも広域画像領域における違和感を軽減でき、かつ、撮影者の重要な行動という遠隔地の人物にとって必要な情報を残すことができる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、上述した各実施形態によれば、広域画像像から不要な対象オブジェクトを除去する際、違和感の低減と情報量の維持とを両立させることができる。
また、撮影者が現在見ている情報と周辺の状況とを同時に表示する際、違和感の軽減と必要な情報の残存可能性向上との両立が可能となる。
110 カメラデバイス、130 処理サーバー、140 PC

Claims (12)

  1. 第1のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成手段と、
    前記マスク画像に基づき広域画像を生成する広域画像生成手段と、
    前記広域画像と、第2のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成手段と、
    前記表示用画像を出力する出力手段と、
    を有する情報処理装置。
  2. 前記マスク画像生成手段は、最新フレーム画像以外のフレーム画像を前記第1のフレーム画像として前記最新フレーム画像以外のフレーム画像から対象オブジェクトを削除し、マスク画像を生成し、
    前記広域画像生成手段は、複数の前記マスク画像に基づき広域画像を生成し、
    前記表示用画像生成手段は、前記最新フレーム画像を第2のフレーム画像として、前記広域画像と、前記最新フレーム画像と、を重畳して表示用画像を生成する請求項1記載の情報処理装置。
  3. 前記マスク画像生成手段は、対応する音声データに設定された言葉が含まれないフレーム画像を前記第1のフレーム画像として前記対応する音声データに設定された言葉が含まれないフレーム画像から対象オブジェクトを削除し、マスク画像を生成し、
    前記広域画像生成手段は、複数の前記マスク画像に基づき広域画像を生成し、
    前記表示用画像生成手段は、前記対応する音声データに設定された言葉が含まれるフレーム画像を第2のフレーム画像として、前記広域画像と、前記対応する音声データに設定された言葉が含まれるフレーム画像と、を重畳して表示用画像を生成する請求項1記載の情報処理装置。
  4. 前記マスク画像生成手段は、設定されたジェスチャーが含まれないフレーム画像を前記第1のフレーム画像として前記設定されたジェスチャーが含まれないフレーム画像から対象オブジェクトを削除し、マスク画像を生成し、
    前記広域画像生成手段は、複数の前記マスク画像に基づき広域画像を生成し、
    前記表示用画像生成手段は、前記設定されたジェスチャーが含まれるフレーム画像を第2のフレーム画像として、前記広域画像と、前記設定されたジェスチャーが含まれるフレーム画像と、を重畳して表示用画像を生成する請求項1記載の情報処理装置。
  5. ネットワークを介して通信可能なカメラデバイスよりフレーム画像を取得する取得手段を更に有し、
    前記マスク画像生成手段は、前記取得手段により取得されたフレーム画像のうち、前記第1のフレーム画像から対象オブジェクトを削除し、マスク画像を生成し、
    前記表示用画像生成手段は、前記広域画像と、前記取得手段により取得されたフレーム画像のうち、第2のフレーム画像と、を重畳して表示用画像を生成する請求項1乃至4何れか1項記載の情報処理装置。
  6. 前記出力手段は、ネットワークを介して通信可能な出力デバイスに前記表示用画像を送信する請求項1乃至5何れか1項記載の情報処理装置。
  7. カメラデバイスと、情報処理装置と、出力デバイスと、を含むシステムであって、
    前記情報処理装置は、
    前記カメラデバイスよりフレーム画像を取得する取得手段と、
    前記フレーム画像のうち第1のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成手段と、
    前記マスク画像に基づき広域画像を生成する広域画像生成手段と、
    前記広域画像と、前記フレーム画像のうち第2のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成手段と、
    前記表示用画像を前記出力デバイスに出力する出力手段と、
    を有するシステム。
  8. 前記出力デバイスは、
    前記表示用画像を受信する受信手段と、
    前記受信された前記表示用画像を表示する表示手段と、
    を更に有する請求項7記載のシステム。
  9. 前記出力手段は、前記表示用画像と前記カメラデバイスに係る状態変化情報とを前記出力デバイスに出力し、
    前記受信手段は、前記表示用画像と前記状態変化情報とを受信し、
    前記表示手段は、前記受信された前記状態変化情報に応じて、前回受信した前記表示用画像を過去画像表示領域に追加するか否かを切り替え、前記表示用画像を表示する請求項8記載のシステム。
  10. 情報処理装置が実行する情報処理方法であって、
    第1のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成ステップと、
    前記マスク画像に基づき広域画像を生成する広域画像生成ステップと、
    前記広域画像と、第2のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成ステップと、
    前記表示用画像を出力する出力ステップと、
    を含む情報処理方法。
  11. カメラデバイスと、情報処理装置と、出力デバイスと、を含むシステムにおける情報処理方法であって、
    前記情報処理装置が、前記カメラデバイスよりフレーム画像を取得する取得ステップと、
    前記情報処理装置が、前記フレーム画像のうち第1のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成ステップと、
    前記情報処理装置が、前記マスク画像に基づき広域画像を生成する広域画像生成ステップと、
    前記情報処理装置が、前記広域画像と、前記フレーム画像のうち第2のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成ステップと、
    前記情報処理装置が、前記表示用画像を前記出力デバイスに出力する出力ステップと、
    を含む情報処理方法。
  12. コンピュータに、
    第1のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成ステップと、
    前記マスク画像に基づき広域画像を生成する広域画像生成ステップと、
    前記広域画像と、第2のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成ステップと、
    前記表示用画像を出力する出力ステップと、
    を実行させるためのプログラム。
JP2014166064A 2014-08-18 2014-08-18 情報処理装置、システム、情報処理方法及びプログラム Pending JP2016042661A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014166064A JP2016042661A (ja) 2014-08-18 2014-08-18 情報処理装置、システム、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014166064A JP2016042661A (ja) 2014-08-18 2014-08-18 情報処理装置、システム、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2016042661A true JP2016042661A (ja) 2016-03-31

Family

ID=55592224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014166064A Pending JP2016042661A (ja) 2014-08-18 2014-08-18 情報処理装置、システム、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2016042661A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180091A (ja) * 2017-04-05 2018-11-15 京セラドキュメントソリューションズ株式会社 表示装置
WO2021169851A1 (zh) * 2020-02-26 2021-09-02 维沃移动通信有限公司 拍摄方法及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180091A (ja) * 2017-04-05 2018-11-15 京セラドキュメントソリューションズ株式会社 表示装置
WO2021169851A1 (zh) * 2020-02-26 2021-09-02 维沃移动通信有限公司 拍摄方法及电子设备

Similar Documents

Publication Publication Date Title
JP6525617B2 (ja) 画像処理装置およびその制御方法
JP2022118201A (ja) 画像処理システム、画像処理方法及びプログラム
JP5886242B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US10771761B2 (en) Information processing apparatus, information processing method and storing unit
JP2009194644A (ja) 画像処理装置,画像処理方法及び撮像装置
JP2018026064A (ja) 画像処理装置、画像処理方法、システム
WO2019163558A1 (ja) 画像処理装置および画像処理方法、並びにプログラム
JP2019135810A (ja) 画像処理装置、画像処理方法およびプログラム
JP2015126326A (ja) 電子機器及び画像処理方法
CN109981989B (zh) 渲染图像的方法、装置、电子设备和计算机可读存储介质
EP3293960A1 (en) Information processing device, information processing method, and program
JP2016042661A (ja) 情報処理装置、システム、情報処理方法及びプログラム
WO2015072091A1 (ja) 画像処理装置、画像処理方法及びプログラム記憶媒体
JP7458713B2 (ja) 画像処理装置、画像処理システム、制御方法、および、プログラム
JP2007102478A (ja) 画像処理装置、画像処理方法、及び半導体集積回路
JP6673459B2 (ja) 画像処理装置、画像処理システム及びプログラム
JP2015201734A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
JP2015184986A (ja) 複合現実感共有装置
JP6694907B2 (ja) 判定装置、判定方法及び判定プログラム
JP7319575B2 (ja) 画像処理装置と、その処理方法、プログラム
US20230388471A1 (en) Image processing apparatus, image processing method, and program
JP6234200B2 (ja) 画像処理装置、画像処理方法およびプログラム
TWI784645B (zh) 擴增實境系統及其操作方法
JP6670918B2 (ja) 生成装置、生成方法及び生成プログラム
JP2014222471A (ja) 表示装置、及びそのプログラム