JP7029486B2

JP7029486B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7029486B2
Application number: JP2020071064A
Authority: JP
Inventors: 伸行松下
Original assignee: Exa Wizards Inc
Current assignee: Exa Wizards Inc
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2022-03-03
Anticipated expiration: 2040-04-10
Also published as: JP2021168040A

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

動画のためのタグ付けを自動的に行うことが可能なタグ付け装置が従来技術として知られている。特許文献１には、動画ファイルを音声認識して、テキスト情報に変換し、テキスト情報から予め定められた規則に従ってタグを自動的に付与する動画のためのタグ付け装置が記載されている。

特願２０１８－２１２０７６号公報（２０２０年３月１８日公開）

一方、画像内に含まれる被写体の位置情報を抽出し、タグ付けに利用したいというニーズも存在する。このようなニーズに対して、上述のような従来技術を適用しても、音声情報が存在しない場合には位置情報を決定することができない。また、音声によって表現される情報に基づくため、位置情報を精度よく決定することが難しいという問題がある。

本発明の一態様は、上述した課題を解決するためになされたものであり、画像内の被写体の位置を好適に特定することのできる技術を実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、対象領域の少なくとも一部を撮像範囲に含む画像を取得する取得部と、前記取得部が取得した画像と前記対象領域に関する３次元モデルとを参照することによって、前記取得部が取得した前記画像に含まれる被写体の前記３次元モデル中の位置を特定する位置特定部とを備える。

本発明の一態様によれば、画像内の被写体の位置を好適に特定することができる。

本発明の一実施形態に係る情報処理システムの機能的な構成を示すブロック図である。本発明の一実施形態に係る情報処理システムによる処理の流れを示すフローチャートである。本発明の一実施形態に係る情報処理装置が実行する情報処理の流れを説明するに際し、前提の一例となる現実の空間を示す模式図である。本発明の一実施形態に係る情報処理装置における３次元モデル生成部が生成した３次元モデルの一例を示す図である。本発明の一実施形態に係る情報処理システムが取得した画像の一例を示す図である。本発明の一実施形態に係る情報処理装置による被写体検出処理を示す図である本発明の一実施形態に係る情報処理装置が特定した撮像位置を示す図である。本発明の一実施形態に係る情報処理装置が特定した被写体の位置を示す図である。本発明の一実施形態に係る情報処理装置によって各フレームに関連付けられた各情報を示すテーブルである。本発明の一実施形態に係る情報処理装置が生成した重畳画像の一例を示す図である。図１０に示した重畳画像を異なる視点から見た図である。情報処理装置及び端末装置として用いられるコンピュータの物理的構成を例示したブロック図である。

以下、本発明の一実施形態に係る情報処理システム１について説明する。

＜情報処理システム１の概要＞
図１は、本発明の一実施形態に係る情報処理システム１の機能的な構成を示すブロック図である。図１に示すように、情報処理システム１は、情報処理装置１０及びユーザが操作する端末装置２０を含んでいる。ここで、図１に示す例では、情報処理システム１が、端末装置２０を１つ含んでいるが、これは本実施形態を限定するものではない。情報処理システム１は、端末装置２０を複数含む構成としてもよい。

情報処理装置１０及び端末装置２０は、ネットワークＮ１を介して通信可能に接続される。情報処理装置１０及び端末装置２０を接続するネットワークＮ１は、有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、無線ＬＡＮ、インターネット、公衆回線網、モバイルデータ通信網、またはこれらの組み合わせである。

情報処理システム１は、一例として、画像及び動画を編集する編集者、又は画像及び動画を閲覧する閲覧者により使用されることを想定している。ここで、編集者及び閲覧者は、本実施形態における「ユーザ」の一例である。

情報処理装置１０は、対象領域の少なくとも一部を撮像範囲に含む画像を取得し、取得した画像と対象領域に関する３次元モデルとを参照することによって、当該画像中の対象領域に含まれる被写体の３次元モデル中の位置を特定する。

ここで、対象領域とは、３次元モデルが構築された領域のことを指す。対象領域の一例として、店舗、スポーツ施設、介護施設、飲食店、テーマパーク、市街地、公道、公共施設等が挙げられるが、これは本実施形態を限定するものではない。

また、３次元モデルとは、現実の空間の対象領域内に含まれる複数の対象物等を、相対的な位置関係が保たれるように仮想的に再現したモデルである。３次元モデルは、現実の空間中に設定された１又は複数の対象領域の各々に対応して個別に作成しておくことができる。また、３次元モデルには、現実の空間における位置情報が関連付けられていることが好ましい。

また、被写体とは、撮像範囲内に含まれる人、動物、又は物（乗り物でもよい）であるが、これらに限定されるものではない。

（端末装置２０の構成）
情報処理装置１０の構成の説明に先立ち、図１を参照して端末装置２０の構成について説明する。図１に示すように、端末装置２０は、通信部２１と、撮像部２２と、表示部２３と、操作部２４と、制御部２５とを含む。端末装置２０は、デジタルカメラ、ＰＣ（Personal Computer）、タブレット端末、及びスマートフォン等として実現できるが、これらの具体的態様は本実施形態を限定するものではない。

通信部２１は、ネットワークＮ１を介して情報処理装置１０と通信を行うことによって、情報処理装置１０からデータを取得したり、情報処理装置１０にデータを提供したりする。

撮像部２２は、撮像機能を備え、画像を撮像する。一例として撮像部２２は、ＣＣＤカメラである。撮像部２２によって撮像される画像は、静止画像であってもよいし、動画像であってもよい。

表示部２３は、制御部２５による制御に従って画面表示を行う。操作部２４は、端末装置２０の使用者からの入力を受け付け、受け付けた入力を示す操作情報を制御部２５に供給する。制御部２５は、端末装置２０の各部を制御する。

（情報処理装置１０の構成）
続いて、図１を参照して情報処理装置１０の構成について説明する。図１に示すように、情報処理装置１０は、通信部１１と、制御部１３と、記憶部１５とを含む。制御部１３は、取得部１３１と、位置特定部１３２と、第１の関連付け部１３３と、第１の抽出部１３４と、第２の関連付け部１３５と、第２の抽出部１３６と、第３の関連付け部１３７と、画像生成部１３８と、検索部１３９と、３次元モデル生成部１４０とを含む。

通信部１１は、ネットワークＮ１を介して端末装置２０と通信を行うことによって、端末装置２０からデータを取得したり、端末装置２０にデータを提供したりする。

記憶部１５には、一例として、以下の各種のデータが格納される。
・端末装置２０によって撮像された画像、及び、それらの画像に対して後述する処理を行うことによって得られた画像
・１又は複数の対象領域の各々に関する３次元モデル
・撮像画像の現実の空間中の位置情報、及び、撮像画像に含まれる被写体の３次元モデル中の位置情報
・被写体に関する骨格情報、顔情報、及び被写体識別情報

３次元モデル生成部１４０は、１又は複数の対象領域の各々に関する３次元モデルを生成する。３次元モデル生成部１４０による３次元モデル生成処理の例については後述する。

取得部１３１は、端末装置２０が撮像した対象画像を、通信部１１又は記憶部１５から取得する。ここで、当該対象画像が示す撮像範囲には、１又は複数の対象領域の何れかの少なくとも一部が含まれる。

位置特定部１３２は、取得部１３１が取得した対象画像と、記憶部１５に格納されている３次元モデルであって、当該対象画像が示す撮像範囲に含まれる対象領域に関する３次元モデルとを参照することによって、当該対象画像に含まれる被写体の３次元モデル中の位置を特定する。

ここで、取得部１３１が取得した対象画像が動画像である場合、位置特定部１３２による被写体の位置特定処理は、当該動画像に含まれる複数のフレームの各々に対して行う構成としてもよいし、複数のフレームにつき１枚のフレームに対して行う構成としてもよい。

第１の関連付け部１３３は、位置特定部１３２が特定した３次元モデル中の被写体の位置を示す位置情報を、対象画像に関連付けて、記憶部１５に格納する。

ここで、取得部１３１が取得した対象画像が動画像である場合には、位置特定部１３２による被写体の位置特定処理を行ったフレームに対して位置情報を関連付ける構成とすればよい。ただし、これは本実施形態を限定するものではなく、位置特定処理を行ったフレームの時間的に近傍のフレームに位置情報を関連付ける構成としてもよい。

第１の抽出部１３４は、対象画像から被写体の骨格情報を抽出する。第２の関連付け部１３５は、第１の抽出部１３４が抽出した被写体の骨格情報を、対象画像に関連付けて記憶部１５に格納する。

第２の抽出部１３６は、対象画像から被写体の顔情報を抽出する。第３の関連付け部１３７は、第１の抽出部１３４が抽出した被写体の顔情報を参照して、当該被写体の識別情報である被写体識別情報を特定する。一例として、第２の抽出部１３６は、顔情報と被写体識別情報とが対応付けられた対応情報を参照して、被写体識別情報を特定する。そして、第２の抽出部１３６は、特定した被写体識別情報を、対象画像に関連付けて記憶部１５に格納する。なお、取得部１３１が取得した対象画像が動画像である場合には、骨格情報抽出処理、及び顔情報抽出処理を行ったフレームに対して、それぞれ、骨格情報及び被写体識別情報を関連付ける構成とすればよい。ただし、これは本実施形態を限定するものではなく、骨格情報抽出処理、及び顔情報抽出処理を行ったフレームの時間的に近傍のフレームに、それぞれ、骨格情報及び被写体識別情報を関連付ける構成としてもよい。

また、第２の抽出部１３６は、被写体の顔情報を対象画像に関連付ける構成としてもよい。

画像生成部１３８は、位置特定部１３２が特定した３次元モデル中の被写体の位置に、被写体の代替画像を重畳することによって重畳画像を生成し、生成した重畳画像を記憶部１５に格納する。

検索部１３９は、記憶部１５に格納された複数の画像の各々に関連付けられた位置情報、骨格情報、及び被写体識別情報の少なくとも何れかを参照して、検索のターゲットとなる画像を検索する。一例として、検索部１３９は、端末装置２０の操作部２４を介して入力されたユーザからの検索指示に含まれる位置情報、骨格情報、及び被写体識別情報の少なくとも何れかを特定し、特定した情報が関連付けられた画像を、記憶部１５に格納された複数の画像から検索する。

なお、検索部１３９による検索処理は、図１に示す端末装置２０からの指示に基づくものに限定されるものではない、端末装置２０以外の端末装置や他の情報処理装置から、位置情報、骨格情報、及び被写体識別情報の少なくとも何れかを含む検索指示を取得し、取得した検索指示に基づいて画像の検索を行う構成としてもよい。

＜情報処理システム１による処理の流れ＞
以下では、本発明の一実施形態に係る情報処理システム１による処理の流れについて、詳細に説明する。

図２は、情報処理システム１が実行する情報処理の流れを示すフローチャートである。図３は、情報処理システム１が実行する情報処理の流れを説明するに際し、前提の一例となる現実の空間を示す模式図である。図３に示す例では、建物や道路等が配置された現実の空間中を移動する被写体ｏｂを、当該被写体ｏｂと共に移動する端末装置２０によって動画撮影する状況が示されている。なお、図３において時刻ｔ１における被写体及び端末装置２０（撮像装置）を、それぞれ、符号ｏｂ（ｔ１）、２０（ｔ１）で示し、時刻ｔ２における被写体及び端末装置２０を、それぞれ、符号ｏｂ（ｔ２）、２０（ｔ２）で示し、時刻ｔ３における被写体及び端末装置２０を、それぞれ、符号ｏｂ（ｔ３）、２０（ｔ３）で示している。ここで、ｔ１＜ｔ２＜ｔ３である。

（ステップＳ１０１）
まず、ステップＳ１０１において、情報処理装置１０の３次元モデル生成部１４０は、対象領域の３次元モデルを生成する。一例として、３次元モデル生成部１４０は、予め深度カメラ、及びステレオカメラなどで撮影した画像を合成することによって３次元モデルを生成する。また、３次元モデル生成部１４０は、ソリッドモデル、サーフェスモデル、ワイヤーフレームモデル、メッシュモデル等の３次元モデルを生成する構成としてもよい。３次元モデル生成部１４０による３次元モデルの生成方法は本実施形態を限定するものではなく、一例として既知の手法を用いてもよい。生成された対象領域の３次元モデルは、記憶部１５に保存される。

また、３次元モデル生成部１４０は、一例として、生成した３次元モデルに、現実空間中の位置情報（緯度経度高度、住所、地名、施設名）を関連付ける構成とすることが好ましい。

図４は、３次元モデル生成部１４０が生成した３次元モデルの一例を示す図である。図４に示すように、一例として、３次元モデルは、現実の空間の対象領域内に含まれる複数の対象物等を、相対的な位置関係が保たれるように仮想的に再現したものであり、仮想空間上において実際の建物の構造、表面の色及びテクスチャ等を表現するデータを含んでいる。

（ステップＳ１０２）
続いて、ステップＳ１０２において、情報処理装置１０の取得部１３１は、端末装置２０から、対象領域において撮影された画像を取得する。

図５は、本ステップにおいて取得した画像の一例を示す図である。より具体的には、時刻ｔ１において端末装置２０が撮像したフレームｆ１、時刻ｔ２において端末装置２０が撮像したフレームｆ２、及び時刻ｔ３において端末装置２０が撮像したフレームｆ３を示している。

（ステップＳ１０３）
続いて、ステップＳ１０３において、情報処理装置１０の位置特定部１３２は、ステップＳ１０２において取得した画像から被写体を検出する。

図６は、位置特定部１３２による被写体検出処理を示す図である。図６に示すように、本ステップにおいて、位置特定部１３２は、フレームｆ１～ｆ３から被写体を検出し、当該被写体に被写体情報Ｈ１を付与する。ここで、位置特定部１３２は、検出した被写体を連続するフレームにおいてトラッキングすることによって同一の被写体には同一の被写体情報を付与するよう構成されている。また、被写体情報Ｈ１は、図６に示す例では被写体を囲むバウンディングボックスと共に示されているが、これは本実施形態を限定するものではない。

なお、被写体の検出アルゴリズムは本実施形態を限定するものではないが、一例として、機械学習を用いた物体検出アルゴリズムを適用することができる。また、図６に示す例では、１つの被写体を検出する様子を示しているがこれは本実施形態を限定するものではなく、本ステップにおいて複数の被写体を検出する構成としてもよい。更に言えば、本ステップにおいて。同一カテゴリの複数の被写体（複数の人等）を検出する構成としても良いし、互いに異なるカテゴリの複数の被写体（人、自動車、動物等）を検出する構成としてもよい。

また、本ステップにおいて、位置特定部１３２が備える第１の抽出部１３４が被写体の骨格情報を抽出する構成としてもよい。ここで、骨格情報とは被写体の各骨格の位置を示す情報である。

図６には、本ステップにおいて第１の抽出部１３４が抽出した骨格情報Ｂ１～Ｂ３が示されている。図６に示すように、第１の抽出部１３４は、フレームｆ１から被写体の骨格情報Ｂ１を抽出し、フレームｆ２から被写体の骨格情報Ｂ２を抽出し、フレームｆ３から被写体の骨格情報Ｂ３を抽出する。

ここで、一例として、第１の抽出部１３４は、被写体の骨格情報として、画像中の座標を抽出する。本ステップにおいて抽出された被写体の骨格情報には、一例として後述するステップＳ１０５において、３次元モデル中の座標を示す情報が追加される。

なお、被写体の骨格情報は、本ステップでは行わず、後述するステップＳ１０５において行う構成としてもよい。

また、本ステップにおいて、位置特定部１３２が備える第２の関連付け部１３５が、本ステップにて抽出された被写体の骨格情報を、各フレームに関連付ける構成としてもよい。より具体的には、第２の関連付け部１３５は、フレームｆ１～ｆ３からそれぞれ抽出された骨格情報Ｂ１～Ｂ３を、それぞれ、フレームｆ１～ｆ３に関連付ける構成としてもよい。

また、本ステップにおいて、位置特定部１３２が備える第２の抽出部１３６が被写体の顔情報を抽出する構成としてもよい。

また、本ステップにおいて、位置特定部１３２が備える第３の関連付け部１３７が、本ステップにて抽出された顔情報を参照して得られる被写体識別情報を、各フレームに関連付ける構成としてもよい。

ここで、第３の関連付け部１３７は、予め複数の顔情報と複数の被写体識別情報とが関連付けられて格納されている顔データベースを参照することによって、顔情報から被写体識別情報を特定する構成としてもよい。

（ステップＳ１０４）
続いて、ステップＳ１０４において、位置特定部１３２は、ステップＳ１０２において取得した画像と３次元モデルとを比較し、３次元モデルにおける撮像位置を特定する。ここで、位置特定部１３２は、通信部１１を介して、端末装置２０の撮像部２２から撮像条件に関する撮像条件情報を取得し、取得した撮像条件情報を参照して、前記撮像位置を特定する構成とすることができる。ここで、「撮影条件情報」は、一例として、撮像部２２の画角及びズーム倍率の少なくとも何れかが含まれる。

ここで、位置特定部１３２による撮像位置の特定処理は、一例として３次元モデルと、ステップＳ１０２において取得した画像とのマッチング処理を行うことによって行うことができるが、これは本実施形態を限定するものではなく、任意の手法を用いることができる。

また、本ステップにおいて位置特定部１３２が特定する撮像位置は、３次元モデル中の３次元位置であることが好ましい。

図７は、位置特定部１３２が特定した撮像位置を示す図である。図７には、フレームｆ１と３次元モデルとを比較することによって特定された撮影位置ｐｃｆ１、フレームｆ２と３次元モデルとを比較することによって特定された撮影位置ｐｃｆ２、及び、フレームｆ３と３次元モデルとを比較することによって特定された撮影位置ｐｃｆ３が示されている。

なお、本ステップにおいて位置特定部１３２は、撮像位置に加え、撮像方向を特定する構成とすることが好ましい。ここで撮像方向の特定は、３次元モデルとステップＳ１０２において取得した画像とのマッチング処理によって特定する構成としてもよいし、端末装置２０から撮像方向に関する撮像方向情報をフレーム毎に取得しておく構成としてもよい。

また、現実空間中の位置情報が特定されている３次元モデルを用いる場合、本ステップの処理により、位置特定部１３２は、３次元モデルにおける撮像位置と、現実空間中の３次元モデルの位置情報とを参照して、現実空間中の撮像位置を特定することもできる。

（ステップＳ１０５）
続いて、ステップＳ１０５において、位置特定部１３２は、ステップＳ１０４にて特定した撮像位置及び撮影方向を参照して、３次元モデルにおける被写体の位置を特定する。

ここで、位置特定部１３２は、一例として、各フレーム中の被写体の大きさを参照して、端末装置２０から被写体までの距離を推定し、推定した距離と、ステップＳ１０５において特定した撮影位置及び撮影方向とを用いて、３次元モデルにおける被写体の位置と特定する構成とすることができる。ただし、これは本実施形態を限定するものではなく、他のアルゴリズムを採用してもよい。

また、本ステップにおいて位置特定部１３２が特定する被写体の位置は、３次元モデル中の３次元位置であることが好ましい。また、位置特定部１３２が特定する被写体の位置は、一例として、被写体に対応するバウンディングボックスの四隅を３次元モデル内の座標系で表現したものとすることができる。

図８は、本ステップにおいて、位置特定部１３２が特定した被写体の位置を示す図である。図８には、３次元モデルにおけるフレームｆ１の撮像位置及び撮像方向を参照して特定された被写体の位置ｐｏｆ１、３次元モデルにおけるフレームｆ２の撮像位置及び撮像方向を参照して特定された被写体の位置ｐｏｆ２、及び、３次元モデルにおけるフレームｆ３の撮像位置及び撮像方向を参照して特定された被写体の位置ｐｏｆ３が示されている。

なお、現実空間中の位置情報が特定されている３次元モデルを用いる場合、本ステップの処理により、位置特定部１３２は、３次元モデルにおける被写体の位置情報と、現実空間中の３現モデルの位置情報とを参照して、現実空間中の被写体の位置を特定することもできる。

また、本ステップでは、位置特定部１３２がステップＳ１０３において抽出した骨格情報に、被写体の骨格の３次元モデル中の座標を示す情報を追加する構成としてもよい。

また、上述したように、ステップＳ１０３において骨格情報を抽出しない構成の場合、本ステップにて、位置特定部１３２が、被写体の骨格の画像中の座標、及び被写体の骨格の３次元モデル中の座標を示す情報を骨格情報として抽出する構成としてもよい。

（ステップＳ１０６）
続いて、ステップＳ１０６において、第１の関連付け部１３３は、ステップＳ１０５において特定した３次元モデルにおける被写体の位置情報を、ステップＳ１０２において取得した画像に関連付ける。

図９は、位置特定部１３２によって各フレームに関連付けられた各情報を示すテーブルである。図９に示すように、本ステップにおいて、第１の関連付け部１３３は、フレームｆ１に被写体の位置情報ｐｏｆ１を関連付け、フレームｆ２に被写体の位置情報ｐｏｆ２を関連付ける。より一般には、インデックスｘで特定されるフレームｆｘに対して、被写体の位置情報ｐｏｆｘを関連付ける。

また、本ステップにおいて、位置特定部１３２は、ステップＳ１０４において特定した撮像位置を、各フレームに関連付ける。より具体的には、図９に示すように、フレームｆ１に撮像位置ｐｃｆ１を関連付け、フレームｆ２に撮像位置ｐｃｆ２を関連付ける。より一般には、フレームｆｘに対して、撮像位置ｐｃｆｘを関連付ける。

なお、図９に示す例では、各フレーム（ｆ１、ｆ２、・・・ｆｘ）には、ステップＳ１０３又はステップＳ１０５にて抽出した骨格情報（Ｂ１、Ｂ２、・・・Ｂｘ）も関連付けられている。

また、図９に示す例では、各フレームにおける被写体の位置情報及び骨格情報が、被写体情報Ｈ１に含まれるデータ構造を採用している。

なお、図９に示す例では、Ｓ１０２において取得した全ての画像（全てのフレーム）に対して、被写体の位置情報を関連付ける例を示ししているが、これは本実施形態を限定するものではない。

例えば、ステップＳ１０５による被写体の位置情報特定処理を、所定枚数のフレーム毎（例えば、５フレーム毎）に実行する構成とし、更に本ステップにおいて、被写体の位置情報の関連付け処理も所定枚数のフレーム毎（例えば、５フレーム毎）に行う構成としてもよい。

また、本ステップにおいて関連付けられる被写体の位置情報には、図６に示した各フレームにおけるバウンティングボックスの大きさを示す情報を含める構成としてもよい。

また、各フレームには当該フレームが撮像された時刻を示す時刻情報を更に関連付ける構成としてもよい。

（ステップＳ１０７）
続いて、ステップＳ１０７において、情報処理装置１０の画像生成部１３８は、３次元モデル上に被写体を示す代替画像を重畳することによって、３次元モデルと代替画像とを含む重畳画像を生成する。

ここで、画像生成部１３８が生成する重畳画像は静止画像であってもよいし、動画像であってもよい。また、画像生成部１３８が生成した重畳画像は、一例として端末装置２０に供給され、表示部２３に表示される。

また、画像生成部１３８は被写体を示す代替画像としてアイコン等の予め定められた画像を用いる構成としてもよいし、被写体の骨格情報が示す骨格を表現する画像を代替画像として用いる構成としてもよい。

図１０は、画像生成部１３８が生成した重畳画像の一例を示す図であり、表示部２３に表示される重畳画像を示す図である。図１０に示すように、図３に示した現実の被写体ｏｂの現実空間中の各位置に対応する３次元モデル中の各位置に、当該被写体ｏｂの代替画像ｓｏｂが表示される。図１０では時刻ｔ１、ｔ２、ｔ３に対応する代替画像ｓｏｂを、それぞれｓｏｂ（ｔ１）、ｓｏｂ（ｔ２）、ｓｏｂ（ｔ３）と表記した。

図１１は、図１０に示した重畳画像を異なる視点から見た図であり、図１０と同じく表示部２３に表示される重畳画像を示す図である。

画像生成部１３８は、一例として端末装置２０の操作部２４を介して、３次元モデルの回転、拡大、縮小等のユーザ操作を示す操作情報を取得する。そして、取得した操作情報に応じて、３次元モデルに対して回転、拡大、縮小等の処理を適用すると共に、当該処理適用後の３次元モデルに対して代替画像を重畳する。

上述のように、情報処理装置１０では、撮像画像に含まれる被写体に関し、３次元モデル中の当該被写体の位置を特定するので、被写体の代替画像を、３次元モデル中に好適に配置することができる。

＜情報処理システム１による効果＞
情報処理システム１によれば、上述したように、画像中の被写体に対して自動的に、被写体の位置情報及び撮像位置を付与することができる。これにより、一例として複数の静止画像又は動画像から、特定の位置に被写体が存在する画像、及び特定の位置から撮像した画像を検索することができる。

例えば、情報処理装置１０が備える検索部１３９は、ユーザから入力された検索指示に含まれる被写体の位置情報を有する画像を、複数の画像から検索することによって、当該位置情報が示す位置に被写体を含む画像を検索することができる。

より具体的な例を挙げると、ユーザが「横断歩道」を被写体の位置情報として指定した場合、検索部１３９は、「横断歩道」に対応する位置情報を有する画像を検索することによって、横断歩道を被写体が渡っている画像を検索することができる。

また、動画像ファイルが複数存在する場合、それらの動画像ファイルに含まれる各フレームに対して被写体の位置情報、及び撮像位置を関連付けておくことによって、これら複数の動画像ファイルから、被写体が特定の位置に存在するフレームを含む動画像ファイル、及び、特定の位置から撮像したフレームを含む動画像ファイルを検索することができる。

〔ソフトウェアによる実現例〕
情報処理装置１０の制御ブロック（特に取得部１３１、位置特定部１３２、画像生成部１３８および検索部１３９）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、情報処理装置１０は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば１つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

（情報処理装置１０の物理的構成）
図１２は、情報処理装置１０および端末装置２０として用いられるコンピュータの物理的構成を例示したブロック図である。情報処理装置１０は、図１２に示すように、バス１１０と、プロセッサ１０１と、主メモリ１０２と、補助メモリ１０３と、通信インタフェース１０４とを備えたコンピュータによって構成可能である。プロセッサ１０１、主メモリ１０２、補助メモリ１０３、および通信インタフェース１０４は、バス１１０を介して互いに接続されている。

プロセッサ１０１としては、例えば、ＣＰＵ（Central Processing Unit）、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、またはこれらの組み合わせ等が用いられる。

主メモリ１０２としては、例えば、半導体ＲＡＭ（random access memory）等が用いられる。

補助メモリ１０３としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、またはこれらの組み合わせ等が用いられる。補助メモリ１０３には、上述した情報処理装置１０の動作をプロセッサ１０１に実行させるためのプログラムが格納されている。プロセッサ１０１は、補助メモリ１０３に格納されたプログラムを主メモリ１０２上に展開し、展開したプログラムに含まれる各命令を実行する。

通信インタフェース１０４は、ネットワークＮ１に接続するインタフェースである。

この例で、プロセッサ１０１および通信インタフェース１０４は、制御部１３および通信部１１を実現するハードウェア要素の一例である。また、主メモリ１０２および補助メモリ１０３は、記憶部１５を実現するハードウェア要素の一例である。

（端末装置２０の物理的構成）
端末装置２０は、図１２に示すように、バス２１０と、プロセッサ２０１と、主メモリ２０２と、補助メモリ２０３と、通信インタフェース２０４と、入出力インタフェース２０５とを備えたコンピュータによって構成可能である。プロセッサ２０１、主メモリ２０２、補助メモリ２０３、通信インタフェース２０４、および入出力インタフェース２０５は、バス２１０を介して互いに接続されている。入出力インタフェース２０５には、カメラ２０６およびタッチパネル２０７が接続されている。

入出力インタフェース２０５としては、例えば、ＵＳＢインタフェース、赤外線やBluetooth（登録商標）等の近距離通信インタフェース、またはこれらの組み合わせが用いられる。

この例で、プロセッサ２０１および通信インタフェース２０４は、制御部２５を実現するハードウェア要素の一例である。また、カメラ２０６は、撮像部２２を実現するハードウェア要素の一例である。また、タッチパネル２０７は、表示部２３及び操作部２４を実現するハードウェア要素の一例である。

〔まとめ〕
各実施形態の一態様に係る情報処理装置は、対象領域の少なくとも一部を撮像範囲に含む画像を取得する取得部と、前記取得部が取得した画像と前記対象領域に関する３次元モデルとを参照することによって、前記対象画像に含まれる被写体の前記３次元モデル中の位置を特定する位置特定部とを備えている。

上記構成によれば、被写体の３次元モデル中の位置を好適に特定することができる。

各実施形態の一態様に係る情報処理装置において、前記位置特定部は、前記位置特定部が特定した前記３次元モデル中の前記被写体の位置を示す位置情報を、前記画像に関連付ける第１の関連付け部を更に備えていることが好ましい。

上記構成によれば、被写体の位置情報を画像に関連付けるので、被写体の位置情報を参照した検索処理等を好適に行うことができる。

各実施形態の一態様に係る情報処理装置において、前記位置特定部は、前記３次元モデルにおける前記画像の撮像位置及び撮影方向を特定したうえで、前記被写体の前記３次元モデル中の位置を特定することが好ましい。

上記の構成によれば、被写体の３次元モデル中の位置を好適に特定することができる。

各実施形態の一態様に係る情報処理装置において、前記位置特定部は、前記画像から、前記被写体の骨格情報を抽出する第１の抽出部を更に備え、前記位置特定部は、前記第１の抽出部が抽出した前記被写体の骨格情報を、前記画像に関連付ける第２の関連付け部を更に備えていることが好ましい。

上記の構成によれば、被写体の骨格情報を抽出し、画像に関連付けるので、骨格情報に基づいて推定可能な被写体の姿勢（座位等）や動作（歩行等）を検索条件とした検索を好適に行うことができる。

各実施形態の一態様に係る情報処理装置において、前記位置特定部は、前記画像から、前記被写体の顔情報を抽出する第２の抽出部を更に備え、前記位置特定部は、前記第１の抽出部が抽出した前記被写体の顔情報を参照して得られる被写体識別情報を、前記画像に関連付ける第３の関連付け部を更に備えていることが好ましい。

上記の構成によれば、被写体の顔情報を抽出し、当該顔情報によって特定される被写体識別情報を画像に関連付けるので、被写体識別情報を検索条件とした検索を好適に行うことができる。

各実施形態の一態様に係る情報処理装置において、前記位置特定部が特定した前記３次元モデル中の前記被写体の位置に、前記被写体の代替画像を重畳することによって重畳画像を生成する画像生成部を更に備えていることが好ましい。

上記の構成によれば、被写体の代替画像と３次元モデルとを含む重畳画像を生成するので、ユーザに対して視覚的に被写体の位置を示すことができる。また、被写体の骨格情報が画像に関連づけられている場合には、骨格情報を有する代替画像を含む重畳画像を生成できる（図１０及び図１１参照）。これにより、ユーザに対して視覚的に被写体の動作を示すことができる。

各実施形態の一態様に係る情報処理方法は、対象領域の少なくとも一部を撮像範囲に含む画像を取得する取得工程と、前記取得工程にて取得した画像と前記対象領域に関する３次元モデルとを参照することによって、前記取得工程にて取得した前記画像に含まれる被写体の前記３次元モデル中の位置を特定する位置特定工程とを含んでいる。

上記のように構成された情報処理方法によれば、上記情報処理装置と同様の効果を奏する。

各実施形態の一態様に係るプログラムは、上述した情報処理装置としてコンピュータを機能させるためのプログラムであって、上記各部としてコンピュータを機能させる。

上記の構成によれば、上述した情報処理装置と同様の効果を奏する。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

１情報処理システム
１０情報処理装置
１１、２１通信部
１３、２５制御部
１５記憶部
２０端末装置
１３１取得部
１３２位置特定部
１３４第１の抽出部
１３６第２の抽出部
１３８画像生成部
１３９検索部
１４０３次元モデル生成部

Claims

対象領域の少なくとも一部を撮像範囲に含む画像を取得する取得部と、
前記取得部が取得した画像と前記対象領域に関する３次元モデルとを参照することによって、前記取得部が取得した前記画像に含まれる被写体の前記３次元モデル中の位置を特定する位置特定部とを備え、
前記位置特定部は、前記画像から、前記被写体の顔情報を抽出する第１の抽出部を備え、
前記位置特定部は、
前記第１の抽出部が抽出した前記被写体の顔情報を参照して得られる被写体識別情報を、前記画像に関連付ける第１の関連付け部と、
前記位置特定部が特定した前記３次元モデル中の前記被写体の位置を示す位置情報を、前記画像に関連付ける第２の関連付け部と、
前記画像から、前記被写体の骨格情報を抽出する第２の抽出部と、
前記第２の抽出部が抽出した前記被写体の骨格情報を、前記画像に関連付ける第３の関連付け部と、
を更に備え、
ユーザからの検索指示に含まれる位置情報、骨格情報、及び前記被写体識別情報を特定し、特定した位置情報、骨格情報、及び前記被写体識別情報が共に関連付けられた画像を検索する検索部を、
更に備えていることを特徴とする情報処理装置。
前記位置特定部は、前記３次元モデルにおける前記画像の撮像位置及び撮影方向を特定したうえで、前記被写体の前記３次元モデル中の位置を特定する
ことを特徴とする請求項１に記載の情報処理装置。
前記位置特定部が特定した前記３次元モデル中の前記被写体の位置に、前記被写体の代替画像を重畳することによって重畳画像を生成する画像生成部を更に備えている
ことを特徴とする請求項１又は２に記載の情報処理装置。
対象領域の少なくとも一部を撮像範囲に含む画像を取得する取得工程と、
前記取得工程にて取得した画像と前記対象領域に関する３次元モデルとを参照することによって、前記取得工程にて取得した前記画像に含まれる被写体の前記３次元モデル中の位置を特定する位置特定工程とを含み、
前記位置特定工程は、前記画像から、前記被写体の顔情報を抽出する第１の抽出工程を含み、
前記位置特定工程は、
前記第１の抽出工程が抽出した前記被写体の顔情報を参照して得られる被写体識別情報を、前記画像に関連付ける第１の関連付け工程と、
前記位置特定工程が特定した前記３次元モデル中の前記被写体の位置を示す位置情報を、前記画像に関連付ける第２の関連付け工程と、
前記画像から、前記被写体の骨格情報を抽出する第２の抽出工程と、
前記第２の抽出工程が抽出した前記被写体の骨格情報を、前記画像に関連付ける第３の関連付け工程と、
を更に含み、
ユーザからの検索指示に含まれる位置情報、骨格情報、及び前記被写体識別情報を特定し、特定した位置情報、骨格情報、及び前記被写体識別情報が共に関連付けられた画像を検索する検索工程を、
更に含んでいることを特徴とする情報処理方法。
請求項１に記載の情報処理装置としてコンピュータを機能させるためのプログラムであって、前記取得部、前記位置特定部、前記第１の抽出部、前記第１の関連付け部、前記第２の関連付け部、前記第２の抽出部、前記第３の関連付け部、及び前記検索部としてコンピュータを機能させるためのプログラム。