JP2016042661A

JP2016042661A - 情報処理装置、システム、情報処理方法及びプログラム

Info

Publication number: JP2016042661A
Application number: JP2014166064A
Authority: JP
Inventors: 秀和世渡; Hidekazu Seto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-08-18
Filing date: 2014-08-18
Publication date: 2016-03-31

Abstract

【課題】広域画像像から不要な対象オブジェクトを除去する際、違和感の低減と情報量の維持とを両立させることを目的とする。
【解決手段】第１のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成手段と、マスク画像に基づき広域画像を生成する広域画像生成手段と、広域画像と、第２のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成手段と、表示用画像を出力する出力手段と、を有することによって課題を解決する。
【選択図】図５

Description

本発明は、情報処理装置、システム、情報処理方法及びプログラムに関する。

パノラマ画像を一つの静止画として記録するためでなく、遠隔地にいる人物に現在の状況をわかりやすく伝えるために利用する技術が考案されている（非特許文献１）。この技術では撮影者のカメラから生成したパノラマ画像をリアルタイムに生成し続け、その画像を遠隔地に送信する。遠隔地では、仮想的に撮影者が一度に撮影する範囲より広い範囲を見られるため、撮影者をとりまく状況の把握が容易になる。
一方で、パノラマ写真に動体が含まれると、写真の貼りあわせがうまくいかず、複数の領域に同じ物体が写り込んでしまったり、不自然に物体が伸びたりする広域画像が得られてしまう場合がある。このような問題に対し、広域画像を生成する際、動体を除いた部分から広域画像を生成する技術がある（特許文献１）。

特開２０１１−８２９２０号公報

笠原俊一，暦本純一，ＪａｃｋＩｎ：一人称視点と体外離脱視点を融合した人間−人間オーグメンテーションの枠組み，情報処理学会インタラクション２０１４（ｈｔｔｐ：／／ｒｅｋｉｍｏｔｏｌａｂ．ｆｉｌｅｓ．ｗｏｒｄｐｒｅｓｓ．ｃｏｍ／２０１４／０３／ａ４６−ｋａｓａｈａｒａ．ｐｄｆ）

特許文献１の動体除去技術は撮影画像から動体とみなされた領域を一律に削除するものである。そのため、ある状況下では削除する必然性のない領域であっても一律に削除してしまい、本来残存させるべき情報も欠落させてしまう場合がある。また、例えば非特許文献１のように、リアルタイムに連続的にパノラマ画像を生成するような場合、過去に撮影した画像によって作成された部分については動体を削除する一方、最新のフレームについてはたとえ動体であっても除去されない方が好ましい場合がある。なぜならば、最新のフレームについて動体を除去してしまうと、撮影者自身の行動や、撮影者の目前で刻々と変化している状況が情報として欠落されてしまい、撮影者をとりまく状況が把握しづらくなってしまうためである。
本発明は、広域画像像から不要な対象オブジェクトを除去する際、違和感の低減と情報量の維持とを両立させることを目的とする。

そこで、本発明の情報処理装置は、第１のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成手段と、前記マスク画像に基づき広域画像を生成する広域画像生成手段と、前記広域画像と、第２のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成手段と、前記表示用画像を出力する出力手段と、を有する。

本発明によれば、広域画像像から不要な対象オブジェクトを除去する際、違和感の低減と情報量の維持とを両立させることができる。

映像伝達システムのシステム構成の一例を示す図である。カメラデバイスのハードウェア構成の一例を示す図である。処理サーバーのハードウェア構成の一例を示す図である。ＰＣのハードウェア構成の一例を示す図である。処理サーバーにおける画像転送処理の一例を示すフローチャートである。処理サーバーにおける広域画像更新処理の一例を示すフローチャートである。マスク画像を広域画像に重畳する際の位置関係を示す図である。ＰＣの表示更新処理の一例を示すフローチャートである。ＰＣのディスプレイ上で表示する転送画像表示ＵＩの一例を示す図である。入力画像の一例を示す図である。画像転送処理及び広域画像更新処理の結果の一例を示す図である。マスク処理を施さなかった場合の表示用画像の変遷を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。

＜実施形態１＞
図１は、映像伝達システムのシステム構成の一例を示す図である。映像伝達システム１００は、撮影者が装着している情報記録装置（以下、カメラデバイスという）１１０、ワイヤレスアクセスポイント１２０、処理サーバー１３０、パーソナルコンピュータ（以下、ＰＣという）１４０を含む。そして、カメラデバイス１１０とワイヤレスアクセスポイント１２０とは無線通信を行う。カメラデバイス１１０は、ワイヤレスアクセスポイント１２０を介して有線のネットワークと接続されている。また、処理サーバー１３０とＰＣ１４０とワイヤレスアクセスポイント１２０とは有線のネットワークを介して接続されている。処理サーバー１３０と、カメラデバイス１１０、ＰＣ１４０とは、無線及び／又は有線のネットワークを介して通信可能に接続されている。
処理サーバー１３０又はＰＣ１４０は、情報処理装置の一例である。また、ＰＣ１４０は、出力デバイスの一例である。

図２は、カメラデバイス１１０のハードウェア構成の一例を示す図である。
本実施形態におけるカメラデバイス１１０は、図１にあるように眼鏡のフレームのような形態で頭部に装着するようになっており、カメラ２１０によって、撮影者の目に近い視点で撮影することが可能である。また、カメラデバイス１１０は、マイク２２０によって、カメラデバイス１１０の装着者本人や近くにいる人の声、周囲の音等の音声データを取得することができる。
カメラデバイス１１０は、ＣＰＵ２０１、ＲＯＭ２０２、メインメモリ２０３、データ記憶装置２０４、バッテリー２０５、ＬＡＮＩ／Ｆ２０７、カメラ２１０、マイク２２０、距離画像センサー２４０をハードウェア構成として有する。
バッテリー２０５は、電力をカメラデバイス１１０全体に供給する。
ＬＡＮＩ／Ｆ２０７は、ネットワークやワイヤレスアクセスポイント１２０を介して接続されている処理サーバー１３０等の他の機器とＣＰＵ２０１との間で情報の送受信を行う。
ＲＯＭ２０２は、ブートローダプログラム及びカメラデバイス制御プログラムが格納されている。
データ記憶装置２０４は、書き換え可能な記憶領域であり、カメラ２１０で撮影された画像のデータやマイク２２０で取得した音声データ等が格納される。

メインメモリ２０３は、揮発性メモリであり、ＲＯＭ２０２に記憶されているプログラムや一時的に使用するデータ等の情報が格納される。カメラデバイス１１０の電源投入時には、ＣＰＵ２０１がＲＯＭ２０２からブートローダプログラムを読み出して実行し、ＲＯＭ２０２に格納されているカメラデバイス制御プログラムを取り出し、メインメモリ２０３に格納する。そして、ＣＰＵ２０１がメインメモリ２０３に格納されているカメラデバイス制御プログラムを実行することによって、カメラデバイス１１０の機能等が実現される。
カメラ２１０は、レンズから入ってきた光を撮像素子によって電気信号に変換し、更にデジタルデータに変換して画像データを生成する。
マイク２２０は、周囲の音声を電気信号に変換し、更にデジタルデータに変換して音声データを生成する。
距離画像センサー２４０は、カメラデバイスから物体までの距離を二次元的に表現する距離画像データを生成する。

図３は、処理サーバー１３０のハードウェア構成の一例を示す図である。処理サーバー１３０は、ＣＰＵ３０１、メインメモリ３０２、及びＨＤＤ３０３、ＬＡＮＩ／Ｆ３０４をハードウェア構成として有する。
ＬＡＮＩ／Ｆ３０４は、ネットワークやワイヤレスアクセスポイント１２０を介して接続されている他の機器と、ＣＰＵ３０１との間で情報の送受信を行う。
ＨＤＤ３０３は、ブートローダプログラム及び処理サーバー制御プログラムが格納されている。
メインメモリ３０２は、揮発性メモリであり、ＨＤＤ３０３に記憶されている情報や一時的に使用する情報が格納される。処理サーバー１３０の電源投入時には、ＣＰＵ３０１がブートローダプログラムを読み出して実行し、ＨＤＤ３０３に格納されている処理サーバー制御プログラムを取り出し、メインメモリ３０２に格納する。そして、ＣＰＵ３０１がメインメモリ３０２に格納された処理サーバー制御プログラムを実行することによって、処理サーバー１３０の機能及び後述する処理サーバー１３０のフローチャートの処理が実現される。

図４は、ＰＣ１４０のハードウェア構成の一例を示す図である。ＰＣ１４０は、ＣＰＵ４０１、メインメモリ４０２、ＨＤＤ４０３、ＬＡＮＩ／Ｆ４０４、ディスプレイ４０５、及びマウス４０６で構成される。
ＬＡＮＩ／Ｆ４０４は、ネットワークやワイヤレスアクセスポイント１２０を介して接続されている他の機器と、ＣＰＵ４０１との間で情報の送受信を行う。
ＨＤＤ４０３は、ブートローダプログラム及びＰＣ制御プログラムが格納されている。メインメモリ４０２は、揮発性メモリであり、ＨＤＤ４０３に記憶されている情報や一時的に使用する情報が格納される。ＰＣ１４０の電源投入時には、ＣＰＵ４０１がブートローダプログラムを読み出して実行し、ＨＤＤ４０３に格納されているＰＣ制御プログラムを取り出し、メインメモリ４０２に格納する。そして、ＣＰＵ４０１がメインメモリ４０２に格納されたＰＣ制御プログラムを実行することによって、ＰＣ１４０の機能及び後述するＰＣ１４０のフローチャートの処理が実現される。
ディスプレイ４０５は、ＣＰＵ３０１で実行されるＰＣ制御プログラムの出力を表示する。
マウス４０６は、ユーザーからの入力を受け付ける。

図５は、処理サーバー１３０における画像転送処理の一例を示すフローチャートである。
この処理は任意のタイミングで実行される。
ステップＳ１０１において、ＣＰＵ３０１は、ＬＡＮＩ／Ｆ３０４及びネットワークを介してカメラデバイス１１０から撮影データを取得する。撮影データとは、カメラデバイス１１０のカメラ２１０によって取得されたＲＧＢ画像（撮影画像又はフレーム画像）と距離画像センサー２４０によって取得された距離画像である。撮影データの取得は以下の流れで行う。まず、ＣＰＵ３０１は、ＬＡＮＩ／Ｆ３０４及びネットワークを介してカメラデバイス１１０に撮影データ取得要求を送信する。カメラデバイス１１０のＣＰＵ２０１は、ＬＡＮＩ／Ｆ２０７を介して撮影データ取得要求が来たことに応答して、カメラ２１０によりＲＧＢ画像を取得する。また、カメラデバイス１１０のＣＰＵ２０１は、同時に距離画像センサー２４０により距離画像を取得する。ＣＰＵ２０１は、ＲＧＢ画像と距離画像とを合わせて撮影データとして処理サーバー１３０に返送する。処理サーバー１３０のＣＰＵ３０１は、撮影データを受信し、ＨＤＤ３０３に記録する。

ステップＳ１０２において、ＣＰＵ３０１は、ステップＳ１０１で取得したＲＧＢ画像の複製を作成し、その複製データに対して作業者の手領域を検出し、削除する（以下、マスク処理という）。マスク処理に用いられるＲＧＢ画像は、第１のフレーム画像、又は最新フレーム画像以外のフレーム画像の一例である。また、作業者の手領域は、対象オブジェクトの一例である。
手領域が削除された画像（以下、マスク画像という）は赤色（Ｒ）、緑色（Ｇ）、青色（Ｂ）、不透明度（Ａ）がそれぞれ８ｂｉｔずつ、合計３２ｂｉｔの画素値が各画素に付与された画像データである。不透明度が最小（０）のときその画素は透明であることを表す。ＣＰＵ３０１が、ある画像に対して他の画像を重畳する場合は、この不透明度を利用してアルファブレンディングによって行う。アルファブレンディングは不透明度を考慮して二つの画像を重畳して一つの画像に合成する手法である。アルファブレンディングによってある画像Ａに別の画像Ｂが重畳された場合、合成された画像において、画像Ｂで不透明度が１の領域には画像Ｂの画素値が残り、画像Ｂで不透明度が０の領域には画像Ａの画素値が残る。ステップＳ１０２において、ＣＰＵ３０１は、対象の画素の不透明度を０にすることで作業者の手領域を削除する。ＣＰＵ３０１は、マスク画像をＨＤＤ３０３に記録する。
ＣＰＵ３０１は、例えば、カメラ２１０から所定距離の範囲に存在する物体を手の領域として抽出する。なお、手の領域の検出技術はこれに限らず、ＣＰＵ３０１は、別の技術を利用して手の領域を検出してもよい。また、ＣＰＵ３０１は、手だけでなく、腕や足等、他の作業者の体の一部であることを検出するようにしてもよいし、手に持った工具や道具、そして身に付けた装備（手袋等）を含めて検出するようにしてもよい。また、手領域の抽出は厳密に行われる必要はなく、本来の手領域より若干広めに検出されてもよい。何故なら、仮に広めに手領域が削除されたとしても、後述のステップＳ２０５の処理によって、先に手が無い状態で同じ場所が撮影された場合はその画像で置き換えられるためである。この様子は図１１を用いて後述する。
ステップＳ１０２の処理は、マスク画像生成の処理の一例である。

ステップＳ１０３において、ＣＰＵ３０１は、後述する図６の広域画像更新処理を行い、その結果として広域画像を得る。
ステップＳ１０３の処理は、広域画像生成の処理の一例である。
ステップＳ１０４において、ＣＰＵ３０１は、図６のステップＳ２０３で得られる射影変換行列をステップＳ１０１で取得された撮影画像に適用し、ステップＳ１０３で得られた広域画像に重ね合わせることで表示用画像を生成する。ここで、重ねあわせられるのはマスク画像ではなく撮影画像であり、作業者の手が削除されていない。なお、図６のステップＳ２０１で初回実行と判定された場合、ＣＰＵ３０１は、ステップＳ１０３で得られた広域画像をそのまま表示用画像とする。
ステップＳ１０４の処理は、表示用画像生成の処理の一例である。また、重ねあわせられる撮影画像は、第１のフレーム画像以外の第２のフレーム画像、又は最新フレーム画像の一例である。
ステップＳ１０５において、ＣＰＵ３０１は、表示情報をＰＣ１４０に送信する。表示情報とは、ステップＳ１０４で得られた表示用画像と図６のステップＳ２０３で得られる状態変化フラグとを含むデータである。ＣＰＵ３０１は、ＬＡＮＩ／Ｆ３０４及びネットワークを介して表示情報をＰＣ１４０に送信する。なお、この表示情報は後述する表示更新処理で利用される。状態変化フラグは、状態変化情報の一例である。
ステップＳ１０６において、ＣＰＵ３０１は、カメラデバイス１１０やＰＣ１４０に対してネットワークを介して処理を終了すべきかを問い合わせ、終了指示があった場合には処理を終了する。終了指示がなかった場合にはＣＰＵ３０１は、処理をステップＳ１０１に戻す。

図６は、処理サーバー１３０における広域画像更新処理の一例を示すフローチャートである。
この処理は処理サーバー１３０のＣＰＵ３０１によって、ステップＳ１０３で実行される。また、終了時に呼び出し元に『現在の広域画像』を結果として返す。
ステップＳ２０１において、ＣＰＵ３０１は、この処理が前述の画像転送処理の中で初回に実行されたものか調べ、もし初回であった場合、ステップＳ２０２に移行し、初回で無ければＳ２０３に移行する。例えば、ＣＰＵ３０１は、メインメモリ３０２等に記憶されている回数カウンタに前記画像転送処理の中で実行された回数の情報を記憶する。例えば、ＣＰＵ３０１は、前記回数カウンタが０を示している場合は、初回であると判定し、前記回数カウンタが１以上の整数を示している場合は、初回出ないと判定する。
ステップＳ２０２において、ＣＰＵ３０１は、現在のマスク画像（ステップＳ１０２で得られた画像）を『現在の広域画像』としてＨＤＤ３０３に記録する。この時点ではマスク画像と広域画像とは同じものを示すこととなる。

ステップＳ２０３において、ＣＰＵ３０１は、ＨＤＤ３０３に記録された『現在の広域画像』とステップＳ１０２で得られるマスク画像との位置関係を調べる。位置関係は射影変換行列によって表現される。式（１）は射影変換行列Ｈを表す。

但し、（式１）中のａ〜ｈは射影変換行列のパラメータである。
ＣＰＵ３０１は、射影変換行列を利用することで式（２）のように、座標（ｘ，ｙ）を座標（Ｘ，Ｙ）に変換できる。

またこれを画像の全画素に適用することで、ＣＰＵ３０１は、画像を変形させることができる。

また、（式２）を変換することで（式３）が求められる。ＣＰＵ３０１は、これを解くことでパラメータａ〜ｈを求めることができる。

（式３）において既知の対応点（ｘ，ｙ），（Ｘ，Ｙ）が４組あれば、ＣＰＵ３０１は、パラメータａ〜ｈを求めることができる。２つの画像の対応点を得るために、本実施形態ではＳＩＦＴ（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）を用いるものとする。ＳＩＦＴは回転・スケール・照明変化に強い特徴点の検出及び特徴量の算出が可能な特徴点の検出及び特徴量の算出が可能な技術である。カメラデバイス１１０を装着したユーザーは頭や体を任意の方向に変更する可能性があり、撮影画像が回転したり、スケールしたりし得る。また、前記ユーザーの周囲の照明状況が急激に変更される状況で使用される可能性もある。ＣＰＵ３０１がＳＩＦＴを利用することでこれらのような影響が軽減され、より正確に２つの画像の対応点を取得できる。

ステップＳ２０３において、ＣＰＵ３０１は、『現在の広域画像』とマスク画像とでＳＩＦＴを用いて特徴点のマッチングを行う。より具体的には、ＣＰＵ３０１は、『現在の広域画像』、マスク画像それぞれからＳＩＦＴを用いて特徴点の検出を行うと共に、それぞれの特徴点の特徴量を算出する。続いて、ＣＰＵ３０１は、それぞれの画像中の各特徴点について、他方の画像の各特徴点それぞれと特徴量の差分を計算し、全特徴点の組み合わせから特徴量の差分が小さい方から順に４つの組み合わせを選出し、対応点とする。続いて、ＣＰＵ３０１は、取得した対応点４組の座標値を利用し（式３）から射影変換行列パラメータを求める。ＣＰＵ３０１は、ｘｎ，ｙｎにマスク画像上の特徴点の座標を用い、Ｘｎ、Ｙｎに広域画像上の特徴点の座標を使う（ｎは各特徴点の番号を表す）。これは、マスク画像を広域画像に位置合わせする射影変換行列を求めることに相当する（求めた射影変換行パラメータを（式１）に代入したものが射影変換行列である）。ＣＰＵ３０１は、特徴量の差分が所定値以内の点が４点見つからない場合には位置関係の取得に失敗したと判定するする。ＣＰＵ３０１は、特徴量の差分が所定値以内の点が４点見つかった場合は、位置関係の取得に成功したと判定する。ＣＰＵ３０１は、この成功／失敗判定の結果をステップＳ２０４で利用する。なお、撮影画像、マスク画像、広域画像の座標値は全て画像の左上端を原点（０，０）とし（広域画像については最初につくられた広域画像の左上端を原点とする）右に行くほどｘ座標が大きくなり、下に行くほどｙ座標が大きくなるものとする。
なお、広域画像とマスク画像との位置関係の取得は、射影変換行列が得られ、成功／失敗判定ができるものであれば、これに限らず別の方法を用いてもよい。

ステップＳ２０４において、ＣＰＵ３０１は、前記成功／失敗判定の結果に基づき、位置関係の取得（又は検出）に成功したか否かを判定する。ＣＰＵ３０１は、位置関係の取得に成功したと判定した場合、ステップＳ２０６に移行し、そうでない場合、ステップＳ２０７に移行する。
ステップＳ２０５において、ＣＰＵ３０１は、マスク画像を広域画像に重畳する。

図７は、マスク画像を広域画像に重畳する際の位置関係を示す図である。以下、図７を参照しながらステップＳ２０５の処理を説明する。図７（ａ）は広域画像を示す。図７（ｂ）はマスク画像（１２０１）と変形後の領域（１２０２）を示す。図７（ｃ）は変形後の画像を示す。図７（ｄ）は拡張済み広域画像を示す。図７（ｅ）は合成後の画像を示す。
まず、ＣＰＵ３０１は、マスク画像の左上、右上、左下、右下４点の座標値（ｘ１，ｙ１）〜（ｘ４〜ｙ４）に対して、ステップＳ２０３で取得した射影変換行列を適用（式２を利用）し、変換後座標値（Ｘ１，Ｙ１）〜（Ｘ４，Ｙ４）を取得する。
続いて、ＣＰＵ３０１は、その４点及び（０，０）を全て含む長方形領域（辺はｘ軸またはｙ軸と平行）を抽出する（変換後長方形領域１２０２）。
次に、ＣＰＵ３０１は、その長方形領域と同じ大きさの透過画像（全ての画素値の不透明度が０の画像）を生成する。このとき、透過画像の原点は長方形領域の（０，０）の位置とする。
次に、ＣＰＵ３０１は、マスク画像の全画素に対して、ステップＳ２０３で取得した射影変換行列を適用し、変形後の座標値を取得すると共に、生成した透過画像の位置に、その画素の画素値をコピーする。これにより変形画像１２０３が生成される。

続いて、ＣＰＵ３０１は、広域画像１２０４を、変形画像１２０３を包含できる大きさに拡張する（拡張画像済み画像１２０５）。このとき、ＣＰＵ３０１は、拡張前から存在する領域の画素値は変化させない。また、ＣＰＵ３０１は、拡張される領域の画素値に不透明度０の画素を設定する。
そして、ＣＰＵ３０１は、拡張済み画像１２０５に対して、変形画像１２０３をアルファブレンディングすることで合成画像１２０６を生成する。
ＣＰＵ３０１は、このようにして生成した合成画像を新たな『現在の広域画像』としてＨＤＤ３０３に上書きする。更に、ＣＰＵ３０１は、後述する状態変化フラグを降ろす（例えば、状態変化フラグに０を設定する）。

ステップＳ２０６において、ＣＰＵ３０１は、ステップＳ２０２のように、現在のマスク画像を『現在の広域画像』としてＨＤＤ３０３に記録する。またＣＰＵ３０１は、状態変化フラグを立てる（例えば、状態変化フラグに１を設定する）。この状態変化フラグはステップ１０５の画像転送処理及びステップＳ３０２の表示更新処理で利用される。状態変化フラグは、フラグが立っているとき、広域画像とマスク画像との位置関係の取得に失敗したことを意味する。位置関係の取得の成功とは、ステップＳ２０３に詳述したとおり、広域画像とマスク画像とで特徴量の差分が所定以下の点が４点取れたことを意味する。位置関係の取得に失敗する状況としては、例えばカメラデバイス１１０が大きく動く等して状態が変わったことによって発生する。
なお、上述の通り、広域画像はマスク画像を貼りあわせて生成される。これは手領域が画像中に存在した場合、過去に既に撮影したその領域に含まれる手以外の物体を優先的に表示するためのものである。したがって、過去に撮影した手以外の物体がないのであれば、削除するよりもむしろ最新の手の画像を残した方が自然な場合もあり、ＣＰＵ３０１は、このように処理してもよい。即ち、ＣＰＵ３０１は、上述の広域画像更新処理によりマスク画像の広域画像を生成する他、同様にしてマスク画像の代わりに撮影画像を利用することで、撮影画像の広域画像を生成する。そして、ＣＰＵ３０１は、撮影画像の広域画像に対してマスク画像の広域画像をアルファブレンディングする。これにより、マスク画像の広域画像における透過領域には、撮影画像の同じ領域の画素が表示される。

図８は、ＰＣ１４０の表示更新処理の一例を示すフローチャートである。
この処理は画像転送処理のステップＳ１０５で処理サーバー１３０が表示情報を送信し、それがＰＣ１４０で受信された度にＣＰＵ４０１で実行される。
ステップＳ３０１において、ＣＰＵ４０１は、処理サーバー１３０から送信された表示情報を取得し、メインメモリ４０２に記録する。前述の通り、表示情報は表示用画像とステップＳ２０５又はＳ２０６で設定される状態変化フラグとを含む情報である。
ステップＳ３０２において、ＣＰＵ４０１は、状態変化フラグが立っているか否か（状態変化フラグに１が設定されているか否か）を調べる。ＣＰＵ４０１は、状態変化フラグが立っていたらＳ３０３に移行し、そうでなければステップＳ３０４に移行する。
ステップＳ３０３において、ＣＰＵ４０１は、前回受信した表示用画像を過去広域画像としてＨＤＤ４０３に記録（又は追加）する。
ステップＳ３０４において、ＣＰＵ４０１は、表示用画像を後述する主表示領域８０１に設定し、また、過去画像の一覧を過去画像表示領域８０２に設定して、ディスプレイ４０５に表示する。但し、後述する過去表示モードにおいては、ＣＰＵ４０１は、選択されている過去画像を主表示領域８０１に表示する。

図９は、ＰＣ１４０のディスプレイ４０５上で表示する転送画像表示ＵＩの一例を示す図である。
転送画面表示ＵＩは主表示領域８０１と過去画像表示領域８０２とから構成される。主表示領域８０１には最後に取得した表示用画像が表示される。過去画像表示領域８０２にはこれまでにステップＳ３０３で記録された画像の一覧と最新の表示用画像とが表示される。ＣＰＵ４０１は、過去画像表示領域８０２に対するマウス４０６を通じて行われた選択操作を受付け、過去画像が選択された場合には過去表示モードに移行する。過去表示モードでは主表示領域に現在選択されている過去画像が表示され、マウスのスクロール操作やドラッグ操作に応じて過去画像が拡大・縮小・移動して表示される。ＣＰＵ４０１は、現在画像が選択された場合にはリアルタイム表示モードに移行する。リアルタイム表示モードでは最近取得された表示用画像が主表示領域８０１に表示される。即ち、ＰＣの利用者は過去表示モードではユーザー好きなように好きな場所を閲覧でき、リアルタイム表示モードでは最新の状況を見ることができる。

以下、図１０と図１１とを用いて画像転送処理及び広域画像更新処理のより具体的な例を示す。
図１０は、入力画像の一例を示す図である。入力画像とは、ステップＳ１０１で取得される、カメラデバイス１１０で撮影されたＲＧＢ画像のことで、図１０はその変遷を表しており、下にあるほど時間的に後に得られた画像である。
入力画像１は最初に撮影された画像である。
入力画像２は入力画像１と同じ位置で、手が写り込んだときに撮影された画像（手領域９０１を含む画像）である。
入力画像３は手が動かされない状態で、撮影向きが入力画像２を撮影したときよりも上に動いたタイミングで撮影されたものである。
入力画像４は手が動かされ写り込まなくなった状態で、入力画像３を撮影したときよりも右が撮影されたものである。
入力画像５は手が動かされ再び写り込んだ状態で、入力画像４を撮影したときよりも下が撮影されたものである。

図１１は、画像転送処理及び広域画像更新処理の結果の一例を示す図である。図１１は（ａ）〜（ｃ）はそれぞれ、ステップＳ１０１において図１０の画像群が順次取得された場合に順次生成されるマスク画像（図１１（ａ））、広域画像（図１１（ｂ））、表示用画像（図１１（ｃ））である。以下入力画像１〜５を使用した場合の広域画像更新処理をフローに沿って説明する。
ステップＳ１０１で入力画像１が取得される。すると、まずステップＳ１０２では何も除去されず、入力画像１と同じ内容のマスク画像Ａ１が生成される。続いてステップＳ２０１では初回の実行のためＳ２０２に処理が移行する。続いてステップＳ２０２では『現在の広域画像』としてマスク画像１と同じ広域画像Ａ１が設定される。続いてステップＳ１０４では広域画像Ａ１が表示用画像として設定される。このようにして表示用画像Ａ１が生成される。

続いてステップＳ１０１で入力画像２が取得される。すると、ステップＳ１０２で手領域９０１が削除された（透過画素で置き換えられた）マスク画像Ａ２が生成される。続いてステップＳ２０１では二回目の実行のためステップＳ２０３に処理が移行する。続いてステップＳ２０３では位置関係が同じ画像が取得されるような射影変換行列が得られる。続いて、ステップＳ２０４において、位置関係の検出が成功したため、処理はステップＳ２０５に移行する。続いてステップＳ２０５では『現在の広域画像』である広域画像Ａ１に対して、マスク画像Ａ２にステップＳ２０３で得られた射影変換行列が適用された画像が重畳される。これにより広域画像Ａ２が生成される。なお、広域画像Ａ２中の、入力画像２で手の存在した領域（透過領域１００１）は、広域画像Ａ１で同じ位置の領域が見えている状態である。『現在の広域画像』は広域画像Ａ２で上書きされる。続いてステップＳ１０４では『現在の広域画像』に対して、入力画像２にステップＳ２０３で取得され、射影変換行列が適用された画像が重畳される。そして、表示用画像Ａ２が生成される。
続いてステップＳ１０１で入力画像３が取得される。すると、ステップＳ１０２で手領域が削除されたマスク画像Ａ３が生成される。続いてステップＳ２０１では二回目以降の実行のためステップＳ２０３に処理が移行する。続いてステップＳ２０３では現在の広域画像の上方に配置されるような変換をなす射影変換行列が得られる。続いてステップＳ２０４では位置関係の検出が成功したため、処理はステップＳ２０５に移行する。続いてステップＳ２０５では『現在の広域画像』である広域画像Ａ２に対して、マスク画像Ａ３にステップＳ２０３で得られた射影変換行列が適用された画像が重畳される。これにより広域画像Ａ３が生成される。なお、広域画像Ａ３中の、入力画像３で手の存在した領域は、広域画像Ａ２で同じ位置の領域が見えている状態である。『現在の広域画像』は広域画像Ａ３で上書きされる。続いてステップＳ１０４では『現在の広域画像』に対して、入力画像３にステップＳ２０３で取得した射影変換行列が適用された画像が重畳される。そして、表示用画像Ａ３が生成される。

続いてステップＳ１０１で入力画像４が取得される。すると、ステップＳ１０２で何も除去されていないマスク画像Ａ４が生成される。続いてステップＳ２０１では二回目以降の実行のためステップＳ２０３に処理が移行する。続いてステップＳ２０３では現在の広域画像の右上部に配置されるような変換をなす射影変換行列が得られる。続いてステップＳ２０４では位置関係の検出が成功したため、処理はステップＳ２０５に移行する。続いてステップＳ２０５では『現在の広域画像』である広域画像Ａ３に対して、マスク画像Ａ４にステップＳ２０３で得られた射影変換行列が適用された画像が重畳される。これにより広域画像Ａ４が生成される。『現在の広域画像』は広域画像Ａ４で上書きされる。続いてステップＳ１０４では『現在の広域画像』に対して、入力画像４にステップＳ２０３で取得した射影変換行列が適用された画像が重畳される。そして、表示用画像Ａ４が生成される。
続いてステップＳ１０１で入力画像５が取得される。すると、ステップＳ１０２で手領域が削除されたマスク画像Ａ５が生成される。続いてステップＳ２０１では二回目以降の実行のためステップＳ２０３に処理が移行する。続いてステップＳ２０３では位置関係が現在の広域画像の右下に配置されるような変換をなす射影変換行列が得られる。続いてステップＳ２０４では位置関係の検出が成功したため、処理はステップＳ２０５に移行する。続いてステップＳ２０５では『現在の広域画像』である広域画像Ａ４に対してマスク画像Ａ５に射影変換行列が適用された画像が重畳される。これにより広域画像Ａ５が生成される。なお、広域画像Ａ５中の、入力画像５で手の存在した領域は、広域画像Ａ４で同じ位置の領域が見えている状態である。『現在の広域画像』は広域画像Ａ５で上書きされる。続いてステップＳ１０４では『現在の広域画像』に対して、入力画像５にステップＳ２０３で取得した射影変換行列が適用された画像が重畳される。そして、表示用画像Ａ５が生成される。

図１２は、画像転送処理において図１０のように入力画像が変遷したとき、ステップＳ１０２でマスク処理を施さなかった場合の表示用画像の変遷を示す図である。本実施形態の処理を適用した表示用画像群（図１１（ｃ））に比較して、特に最後の表示用画像Ｂ５を見ると本来あるはずのない領域が存在していることがわかる。一方で、表示用画像全てにマスク処理をしてしまう場合は広域画像Ａ１〜Ａ５がそのまま表示用画像となり、最新の状況でも手領域が削除されてしまう。そのため今現在指しているものが何かを知ることはできない。この点、本実施形態の処理を適用した場合はあるはずのない手領域のみを削除でき、違和感を軽減しながら必要な情報を残存させることができる。

以上のようにして、本実施形態によれば、最新の状況を含む画像ではマスク処理を行わず、過去の状況から生成される広域画像にのみマスク処理を行うことによって、重要なリアルタイムの情報を維持しながら、全体の違和感を軽減することができる。
なお、本実施形態において、広域画像更新処理は処理サーバーで、表示更新処理はＰＣで行う例を説明したが、これの処理の両方をＰＣで行うようにしてもよい。

＜実施形態２＞
実施形態１において、ＣＰＵ３０１は、ステップＳ１０３の広域画像更新処理において、ステップＳ１０１で取得した最新の撮影画像を重畳した。つまり、実施形態１では、ＣＰＵ３０１は、しかし、ＣＰＵ３０１は、重畳する画像を別の方法によって決定してもよい。本実施形態においては、ＣＰＵ３０１は、ユーザーが重要であることを示す行動を行った場面の画像を重畳表示する。

以降は実施形態１との差分について主に説明する。
広域画像更新処理のステップＳ１０１において、ＣＰＵ３０１は、更に、撮影データと音声データとの取得要求をカメラデバイス１１０に対して送信する。カメラデバイス１１０はマイク２２０により取得した音声データを処理サーバー１３０に返送する。ＣＰＵ３０１は、返送された音声データをＨＤＤ３０３に記録する。ステップＳ２０３において、ＣＰＵ３０１は、更に、ステップＳ１０１で取得した音声データから例えば直近１秒間分を取り出し、音声認識処理を施す。そして、ＣＰＵ３０１は、ＨＤＤ３０３から事前に登録された重要語一覧データを取り出す。重要語の例としては例えば「ここ」という言葉である。このような重要語が音声データに含まれと判定した場合、ＣＰＵ３０１は、現在の撮影データを射影変換行列と共に優先表示情報としてＨＤＤ３０３に記録する。ステップＳ１０４において、ＣＰＵ３０１は、更に、これまで記録された優先表示情報内の撮影データを、それに紐づけられた射影変換行列を使って広域画像に重畳する。
つまり、ＣＰＵ３０１は、複数の撮影画像のうち対応する音声データに設定された重要後が含まれない撮影画像から手領域等を削除し、マスク画像を生成し、複数のマスク画像に基づき広域画像を生成する。そして、ＣＰＵ３０１は、前記広域画像と、複数の撮影画像のうち対応する音声データに設定された重要後が含まれる撮影画像と、を重畳して表示用画像を生成するようにしてもよい。
重要語は、設定された言葉の一例を示す図である。

なお、ＣＰＵ３０１は、音声データを用いてユーザーの重要な行動を抽出したが、これを映像によって行ってもよい。より具体的には、ステップＳ１０２おいて、ＣＰＵ３０１は、手領域の抽出に加え、ジェスチャー認識技術を用い、撮影画像から所定のジェスチャー（例えば、指差し行為等）を検出する。指差し行為が検出した場合、ＣＰＵ３０１は、上述のように、撮影データと後に計算される射影変換行列とを記録し、ステップＳ１０５でそれらの画像を広域画像に重畳する。
つまり、ＣＰＵ３０１は、複数の撮影画像のうち指差し行為等のジェスチャーが含まれない撮影画像から手領域等を削除し、マスク画像を生成し、複数のマスク画像に基づき広域画像を生成する。そして、ＣＰＵ３０１は、前記広域画像と、前記複数の撮影画像のうち指差し行為等のジェスチャーが含まれる撮影画像と、を重畳して表示用画像を生成するようにしてもよい。

本実施形態によれば、ユーザーの行動を観測して、重要な行動をとった場合にはその行動を記録し、それらを同時に表示する事ができる。これにより従来技術よりも広域画像領域における違和感を軽減でき、かつ、撮影者の重要な行動という遠隔地の人物にとって必要な情報を残すことができる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上、上述した各実施形態によれば、広域画像像から不要な対象オブジェクトを除去する際、違和感の低減と情報量の維持とを両立させることができる。
また、撮影者が現在見ている情報と周辺の状況とを同時に表示する際、違和感の軽減と必要な情報の残存可能性向上との両立が可能となる。

１１０カメラデバイス、１３０処理サーバー、１４０ＰＣ

Claims

第１のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成手段と、
前記マスク画像に基づき広域画像を生成する広域画像生成手段と、
前記広域画像と、第２のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成手段と、
前記表示用画像を出力する出力手段と、
を有する情報処理装置。
前記マスク画像生成手段は、最新フレーム画像以外のフレーム画像を前記第１のフレーム画像として前記最新フレーム画像以外のフレーム画像から対象オブジェクトを削除し、マスク画像を生成し、
前記広域画像生成手段は、複数の前記マスク画像に基づき広域画像を生成し、
前記表示用画像生成手段は、前記最新フレーム画像を第２のフレーム画像として、前記広域画像と、前記最新フレーム画像と、を重畳して表示用画像を生成する請求項１記載の情報処理装置。
前記マスク画像生成手段は、対応する音声データに設定された言葉が含まれないフレーム画像を前記第１のフレーム画像として前記対応する音声データに設定された言葉が含まれないフレーム画像から対象オブジェクトを削除し、マスク画像を生成し、
前記広域画像生成手段は、複数の前記マスク画像に基づき広域画像を生成し、
前記表示用画像生成手段は、前記対応する音声データに設定された言葉が含まれるフレーム画像を第２のフレーム画像として、前記広域画像と、前記対応する音声データに設定された言葉が含まれるフレーム画像と、を重畳して表示用画像を生成する請求項１記載の情報処理装置。
前記マスク画像生成手段は、設定されたジェスチャーが含まれないフレーム画像を前記第１のフレーム画像として前記設定されたジェスチャーが含まれないフレーム画像から対象オブジェクトを削除し、マスク画像を生成し、
前記広域画像生成手段は、複数の前記マスク画像に基づき広域画像を生成し、
前記表示用画像生成手段は、前記設定されたジェスチャーが含まれるフレーム画像を第２のフレーム画像として、前記広域画像と、前記設定されたジェスチャーが含まれるフレーム画像と、を重畳して表示用画像を生成する請求項１記載の情報処理装置。
ネットワークを介して通信可能なカメラデバイスよりフレーム画像を取得する取得手段を更に有し、
前記マスク画像生成手段は、前記取得手段により取得されたフレーム画像のうち、前記第１のフレーム画像から対象オブジェクトを削除し、マスク画像を生成し、
前記表示用画像生成手段は、前記広域画像と、前記取得手段により取得されたフレーム画像のうち、第２のフレーム画像と、を重畳して表示用画像を生成する請求項１乃至４何れか１項記載の情報処理装置。
前記出力手段は、ネットワークを介して通信可能な出力デバイスに前記表示用画像を送信する請求項１乃至５何れか１項記載の情報処理装置。
カメラデバイスと、情報処理装置と、出力デバイスと、を含むシステムであって、
前記情報処理装置は、
前記カメラデバイスよりフレーム画像を取得する取得手段と、
前記フレーム画像のうち第１のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成手段と、
前記マスク画像に基づき広域画像を生成する広域画像生成手段と、
前記広域画像と、前記フレーム画像のうち第２のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成手段と、
前記表示用画像を前記出力デバイスに出力する出力手段と、
を有するシステム。
前記出力デバイスは、
前記表示用画像を受信する受信手段と、
前記受信された前記表示用画像を表示する表示手段と、
を更に有する請求項７記載のシステム。
前記出力手段は、前記表示用画像と前記カメラデバイスに係る状態変化情報とを前記出力デバイスに出力し、
前記受信手段は、前記表示用画像と前記状態変化情報とを受信し、
前記表示手段は、前記受信された前記状態変化情報に応じて、前回受信した前記表示用画像を過去画像表示領域に追加するか否かを切り替え、前記表示用画像を表示する請求項８記載のシステム。
情報処理装置が実行する情報処理方法であって、
第１のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成ステップと、
前記マスク画像に基づき広域画像を生成する広域画像生成ステップと、
前記広域画像と、第２のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成ステップと、
前記表示用画像を出力する出力ステップと、
を含む情報処理方法。
カメラデバイスと、情報処理装置と、出力デバイスと、を含むシステムにおける情報処理方法であって、
前記情報処理装置が、前記カメラデバイスよりフレーム画像を取得する取得ステップと、
前記情報処理装置が、前記フレーム画像のうち第１のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成ステップと、
前記情報処理装置が、前記マスク画像に基づき広域画像を生成する広域画像生成ステップと、
前記情報処理装置が、前記広域画像と、前記フレーム画像のうち第２のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成ステップと、
前記情報処理装置が、前記表示用画像を前記出力デバイスに出力する出力ステップと、
を含む情報処理方法。
コンピュータに、
第１のフレーム画像から対象オブジェクトを削除し、マスク画像を生成するマスク画像生成ステップと、
前記マスク画像に基づき広域画像を生成する広域画像生成ステップと、
前記広域画像と、第２のフレーム画像と、を重畳して表示用画像を生成する表示用画像生成ステップと、
前記表示用画像を出力する出力ステップと、
を実行させるためのプログラム。