JP4755156B2

JP4755156B2 - 画像提供装置及び画像提供プログラム

Info

Publication number: JP4755156B2
Application number: JP2007229969A
Authority: JP
Inventors: 光洋我妻; 行信谷口; 陽介鳥井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-09-05
Filing date: 2007-09-05
Publication date: 2011-08-24
Anticipated expiration: 2027-09-05
Also published as: JP2009065324A

Description

本発明は、特定の場所で撮影された膨大な動画像や静止画像の中から、ユーザが見たいと考えている画像を検索してユーザに提供する画像提供装置と、その画像提供装置の実現に用いられる画像提供プログラムとに関し、特に、撮影位置や撮影方向や撮影時刻を手がかりにして、ユーザが見たいと考えている画像を検索してユーザに提供する画像提供装置と、その画像提供装置の実現に用いられる画像提供プログラムとに関する。

サッカーや野球のようなスポーツイベントを多数のカメラで撮影し、撮影映像を好みの方向、位置から目的の選手を映したシーンを検索したいといったニーズがある。

さらに、運動会など多くの人が撮影した映像、写真をコミュニティでアーカイブ、共有することで、自分が取り逃がしたハイライトシーンを検索して視聴するといった用途も考えられる。

このようなことを背景にして、多くのユーザが撮影した同一の撮影対象についてのデジタル情報を共有するウェブサイトも提供されている。

一方、デジタル製品の記憶媒体が大きくなっており、共有する全ての写真や映像を見るには時間がかかりすぎてしまう。

そこで素早い、直感的な方法で検索を行いたいという要求がある。例えば、特定の時間帯に特定の場所から撮った写真をまとめて見たい、といった検索である。

画像検索の従来技術として、画像が共有された後に個々の画像にタグを付与し、そのタグを元に検索する技術がある。

例えば、写真や映像ごとに「評価」や「人気度」を設定し、写真公開後にそれを見る人が評価を入力したり、見られた回数などで人気を算出したりすることで、評価や人気の高さなどを利用し、評価や人気の高いものを検索する技術がある。

このような画像検索技術は閲覧する側のアクションを前提とするものであるが、アップロードする側のアクションを前提とするものとして、それぞれの写真や映像にコメントを付与することで、それらのコメントから特定の用語を検索して画像を検索する技術もある。

また、ユーザの挙動を記録しておくことで、多くの人が続けて見ている写真、映像群を抽出しておき、特定の写真を見た人にそれと同じ群に属する写真、映像を紹介する技術もある。

また、デジタル写真を共有できるコミュニティサイトの写真を地図上に表示し、地図を用いて検索をするというサービスを提供するサイトも提供されている（例えば、非特許文献１の７６頁参照）。
Ambient Findability,出版社：Oreilly & Associates Inc (2005/10),ISBN-10：0596007655,ISBN-13：978-0596007652

前述したように、画像検索の従来技術として、閲覧する側のアクションを前提とするものと、アップロードする側のアクションを前提とするものとがある。

このうち、閲覧する側のアクションを前提としたサービスでは、不特定多数のユーザが積極的に使用した後で初めて利用可能である。したがって、画像や映像を公開した直後はその情報を検索することは難しく、また、特定のコミュニティに対してのみ公開される情報ではユーザの数が限定されており、これらの技術で検索できるようにするのは困難である。

一方、アップロードする側のアクションを前提とするサービスでは、撮影位置などの情報を手動で入力することになる。しかし、数百枚程度の写真が保存可能である記憶媒体は珍しくない。特定のイベントに参加する際、１日に１００枚を超えて撮影するようなことが考えられるが、それらの写真に手動で情報を付与することは現実的ではない。

ＧＰＳ機能を使って撮影位置を自動検出してメタデータとして用いることも可能であるが、ＧＰＳ機能のある携帯電話に付属するカメラは解像度に限界があり、解像度の高いデジタルカメラをＧＰＳと共に持ち歩き、写真に撮影位置を付与させるサービスは、そもそもＧＰＳをカメラと共に持ち歩く煩わしさが伴う。

しかも、現在、カメラと共に用いられているＧＰＳサービスは１０［ｍ］程度の誤差が付きまとい、特定のイベント会場の中でどの場所なのかを特定するには不十分な精度である。

また、デジタル写真にはｅｘｉｆ（Exchangeable Image File Format) と呼ばれるメタデータが付与されているのに対して、映像ファイルには撮影時刻をメタデータとして保持できないフォーマットもある。そのようなファイルでは撮影時刻での検索はできない。

本発明は、これらの問題点を解決するためになされたものであり、特定の場所で撮影された膨大な動画像や静止画像の中から、ユーザが見たいと考えている画像を検索してユーザに提供することを実現するために、閲覧ユーザ、投稿ユーザの積極的なアクションを必要とせず、ＧＰＳより高い精度で撮影位置情報を取得し、それによって直感的な検索を可能とする新たな画像提供技術の提供を目的とする。

この目的を達成するために、本発明の画像提供装置は、特定の場所で撮影された画像の中から、ユーザの閲覧要求を満たす画像を検索してユーザに提供することを実現するために、（１）特定の場所で撮影された動画像又は静止画像を入力して蓄積手段に保存する入力手段と、（２）入力手段の入力した画像と特定の場所の環境モデルとを照合することで、入力手段の入力した画像の撮影位置及び撮影角度を推定する推定手段と、（３）蓄積手段に保存される画像に対応付けて、推定手段の推定したその画像の撮影位置及び撮影角度の情報を記録する記録手段と、（４）ユーザから視点位置及び／又は視線角度の情報を指定する画像の閲覧要求がある場合に、蓄積手段に保存される撮影位置及び撮影角度の情報を検索することで、ユーザの指定する視点位置及び／又は視線方向から見えることになる画像を検索する検索手段と、（５）ユーザの指定する視点位置及び／又は視線方向から見えることになる特定の場所の環境モデルの画像をディスプレイに表示するとともに、その画像上に、検索手段の検索した画像の概要を示す要約画像の一覧を表示する表示手段とを備え、さらに次のように構成される。

第１の本発明では、上記（１）〜（５）の手段に加えて、蓄積手段に保存される画像の持つ音声の類似点を検出して、それに基づいて、蓄積手段に保存される撮影時刻の情報を持たない画像について、その撮影時刻を推定する第２の推定手段を備える。

第２の推定手段を備える場合には、記録手段は、入力手段の入力した画像の内の撮影時刻の情報を持つ画像については、その撮影時刻の情報をさらに記録し、撮影時刻の情報を持たない画像については、第２の推定手段の推定した撮影時刻の情報をさらに記録することになる。そして、検索手段は、ユーザから撮影時刻の情報についても指定する画像の閲覧要求がある場合には、蓄積手段に保存される撮影時刻の情報についても検索することで、ユーザの指定する撮影時刻に撮影された画像を検索することになる。

以上の各処理手段はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてＣＰＵなどの制御手段上で動作することにより本発明を実現することになる。

このように構成される本発明の画像提供装置では、特定の場所で撮影された動画像又は静止画像を入力して蓄積手段に保存すると、その入力した画像と特定の場所の環境モデルとを照合することで、その入力した画像の撮影位置及び撮影角度を推定して、蓄積手段に保存した画像に対応付けて、その推定した撮影位置及び撮影角度の情報を記録する。このとき、入力した画像の内の撮影時刻の情報を持つ画像については、その撮影時刻の情報についても記録する。

また、第２の本発明では、上記（１）〜（５）の手段における（２）の推定手段が、画像の撮影位置及び撮影角度の推定を確かなものとするために、動画像を入力する場合には、その動画像の中から選択される最もズームアウトした画像を用いて特定の場所の環境モデルとの照合を行うことで、その動画像の撮影位置及び撮影角度を推定する。
また、第３の本発明では、上記（２）の推定手段が、その動画像から作成されるパノラマ画像を用いて特定の場所の環境モデルとの照合を行うことで、その動画像の撮影位置及び撮影角度を推定する。

このようにして、蓄積手段には、特定の場所において多数の投稿ユーザにより撮影された動画像や静止画像が保存されていくことになるとともに、それらの画像の撮影位置及び撮影角度の情報が記録されていくことになる。

このとき、撮影時刻の情報を持つ画像については、さらに、その撮影時刻の情報についても記録していくことになるので、撮影時刻の情報を持たない画像については、蓄積手段に保存される画像の持つ音声の類似点を検出して、それに基づいて、その撮影時刻を推定して記録していくことになる。

これから、蓄積手段には、最終的に、特定の場所において多数の投稿ユーザにより撮影された動画像や静止画像が保存されていくことになるとともに、それらの画像の撮影位置及び撮影角度の情報と、それらの画像の撮影時刻の情報とが記録されていくことになる。

この蓄積手段の保存する画像およびそれらの画像の持つ属性情報を受けて、閲覧ユーザから視点位置や視線角度の情報を指定する画像の閲覧要求があると、蓄積手段に保存される撮影位置及び撮影角度の情報を検索することで、閲覧ユーザの指定する視点位置や視線方向から見えることになる画像を検索する。

そして、その検索結果を閲覧ユーザに提供すべく、閲覧ユーザの指定する視点位置や視線方向から見えることになる特定の場所の環境モデルの画像をディスプレイに表示するとともに、その画像上に、その検索した画像の概要を示す要約画像の一覧を表示する。

このとき、閲覧ユーザから撮影時刻の情報についても指定する画像の閲覧要求がある場合には、蓄積手段に保存される撮影時刻の情報についても検索することで、閲覧ユーザの指定する撮影時刻に撮影された画像を検索することになる。

また、第４の本発明では、上記（２）の推定手段が、入力した画像と特定の場所の環境モデルとを照合するときに、その照合の度合いに基づいて、入力した画像の撮影位置及び撮影角度の推定の確信度を算出し、上記（４）の検索手段が、閲覧ユーザに対して、より閲覧要求に合致する画像を提供すべく、検索した画像の中から確信度の大きな画像を優先する形で画像を選択することで最終的な検索結果を得る。

また、第５の本発明では、上記（５）の表示手段が、閲覧ユーザに対して、どの撮影場所の画像が提供されるのかということを把握できるようにするために、検索した画像の撮影位置及び撮影角度の指す撮影場所に対応付けられる環境モデルの画像上位置に検索結果の要約画像を表示する。

また、第６の本発明では、上記（５）の表示手段が、閲覧ユーザに対して、どのような傾きを持つ画像が提供されるのかということを把握できるようにするために、検索した画像の撮影角度に応じて、閲覧ユーザが閲覧するときの状態に合わせる形態で検索結果の要約画像を傾けて表示する。

また、第７の本発明では、上記（５）の表示手段が、閲覧ユーザに対して、遠くで撮影された画像であるのか近くで撮影された画像であるのかということを把握できるようにするために、検索した画像の撮影位置に応じて、遠くで撮影された画像ほど小さくなる形態で検索結果の要約画像の大きさを変えて表示する。

本発明によれば、複数の動画像や静止画像を登録し環境モデルを構築する段階を有することにより、ＧＰＳよりも高い精度で撮影位置情報を取得する効果があり、撮影角度も定めることができる効果がある。

また、多数の動画像や静止画像のそれぞれに撮影位置や撮影角度や撮影時刻を自動的に付与し、それらを利用することで、検索のために閲覧者・投稿者の積極的なアクションを必要としない効果がある。

また、環境モデルを作成し、それを表示することで閲覧者に直感的な検索を提供できる効果がある。

また、時刻情報を持たない動画像に関しても、すでに登録されている画像との音声の同期を試みることで時刻情報を推定し、検索の対象をより広げる効果がある。

以下、実施の形態に従って本発明を詳細に説明する。

図１に、本発明を具備する画像提供システムのシステム構成を図示する。

本発明を具備する画像提供システムは、特定のイベント会場などで撮影された動画像や静止画像の中から、閲覧ユーザの閲覧要求を満たす動画像や静止画像（以下、動画像や静止画像を画像と総称することがある）を検索して閲覧ユーザに提供する処理を行うものであり、この処理を行うために、図１に示すように、環境モデル計算情報入力装置１０と、環境モデル計算装置１１と、環境モデル記憶装置１２と、画像入力装置１３と、画像記憶装置１４と、推定装置１５と、画像属性情報記憶装置１６と、検索条件入力装置１７と、画像検索装置１８と、出力装置１９とを備える。

環境モデル計算情報入力装置１０は、撮影対象となる特定のイベント会場の環境モデル（３次元立体モデル）の計算に必要となる情報を入力する。環境モデル計算装置１１は、環境モデル計算情報入力装置１０の入力した情報に基づいて、撮影対象となるイベント会場の環境モデルを計算する。環境モデル記憶装置１２は、環境モデル計算装置１１の計算した環境モデルを記憶する。

画像入力装置１３は、特定のイベント会場で撮影された動画像や静止画像を入力する。画像記憶装置１４は、画像入力装置１３の入力した画像を記憶する。

この画像記憶装置１４の記憶する情報についてさらに説明するならば、画像入力装置１３の入力した画像が静止画像である場合には、その静止画像のファイルを記憶することに加えて、図２（ａ）に示すように、画像ＩＤ、画像ファイルの型、投稿者ＩＤ、ファイル名などの情報を記憶する。また、画像入力装置１３の入力した画像が動画像である場合には、その動画像のファイルとその動画像から抽出された代表画像のファイルとを記憶することに加えて、図２（ｂ）に示すように、動画ＩＤ、動画像ファイルの型、代表画像ファイルの型、投稿者ＩＤ、動画像のファイル名、代表画像のファイル名などの情報を記憶する。

推定装置１５は、画像記憶装置１４に記憶される画像と環境モデル記憶装置１２に記憶される環境モデルとを照合することで、画像入力装置１３の入力した画像の撮影位置及び撮影方向（撮影角度）を推定し、さらに、画像記憶装置１４に記憶される画像の持つ音声の類似点を検出して、それに基づいて、画像記憶装置１４に記憶される撮影時刻の情報を持たない画像について、その撮影時刻を推定する。

下記の参考文献１に記載されるように、画像処理を用いて、画像の撮影位置だけでなく画像の撮影方向を推定する技術が開示されている。この技術では、環境モデルを実際に撮影し、撮影された画像列から特徴点を抽出し、被写体の３Ｄモデルを復元すると共に撮影された場所を推定するものである。

この推定装置１５では、例えば、この参考文献１に記載される技術を使って、画像記憶装置１４に記憶される画像と環境モデル記憶装置１２に記憶される環境モデルとを照合することで、画像入力装置１３の入力した画像の撮影位置及び撮影方向を推定するように処理する。

〔参考文献１〕Carlo Tomasi, Takeo Kanade : "Shape and Motion from Image Stream s", International Journal of Computer Vision Volume 9, Number 2, pp.137-154 (1992).
画像属性情報記憶装置１６は、画像記憶装置１４に記憶される画像と対応をとりつつ、推定装置１５の推定した画像の撮影位置及び撮影角度の情報を記憶するとともに、画像の撮影時刻の情報（画像入力装置１３の入力した画像の持つ撮影時刻の情報や、推定装置１５の推定した撮影時刻の情報）を記憶する。

ここで、画像記憶装置１４および画像属性情報記憶装置１６が特許請求の範囲に記載する蓄積手段に相当するものである。

この画像属性情報記憶装置１６の記憶する情報についてさらに説明するならば、画像記憶装置１４に記憶される画像が静止画像である場合には、図３（ａ）に示すように、画像ＩＤに対応付けて、撮影時刻、撮影位置、撮影角度、推定の確信度、被写体の人数、人気などの情報を記憶する。また、画像記憶装置１４に記憶される画像が動画像である場合には、図３（ｂ）に示すように、動画ＩＤに対応付けて、撮影開始時刻、撮影終了時刻、撮影位置、撮影角度、同期リスト、推定の確信度、人気などの情報を記憶する。

検索条件入力装置１７は、閲覧ユーザの発行する検索要求を受け取るものであり、視点位置や視線角度の情報を指定する画像の検索条件を入力する。画像検索装置１８は、検索条件入力装置１７の入力した検索条件をキーにして画像属性情報記憶装置１６に記憶される画像の撮影位置、撮影角度及び撮影時刻の情報を検索することで、検索条件入力装置１７の入力した検索条件の指す画像を検索して、その検索結果を表す３次元描画データ（３Ｄ化したイベント会場に対応付けて検査結果の画像を示す３Ｄマップの描画データ）を生成する。出力装置１９は、画像検索装置１８の生成した検索結果を表す３次元描画データを出力する。

図４に、このように構成される本発明を具備する画像提供システムの実行するフローチャートを図示する。

次に、このフローチャートに従って、このように構成される本発明を具備する画像提供システムの実行する処理について説明する。

本発明を具備する画像提供システムは、図４のフローチャートに示すように、先ず最初に、ステップＳ１００で、管理ユーザが撮影対象となるイベント会場の環境モデルを計算により求めて環境モデル記憶装置１２に登録する。

この環境モデルの構築には、具体的には以下のような方法がある。

（イ）方法１
管理ユーザが環境モデル計算装置１１にＣＡＤや３Ｄを扱うことができるソフトウェアを用意しておき、３Ｄ化したいイベント会場の設計図に書かれている情報を環境モデル計算情報入力装置１０から入力して環境モデル計算装置１１に代入し、その結果得られたイベント会場の環境モデルを環境モデル記憶装置１２に転送し格納する。

（ロ）方法２
管理ユーザが十分離れた二か所以上の場所から、３Ｄに復元したいイベント会場をビデオカメラで撮影する。撮影した動画像をａｖｉ(Audio Video Interleaving)や、ｍｐｇ(Moving Picture Experts Group)などの形式で符号化し、環境モデル計算情報入力装置１０から環境モデル計算装置１１にデータを転送する。環境モデル計算装置１１では、特徴点を抽出し、不動なものを検出した上で、特徴点の照合によりイベント会場の３Ｄ化された環境モデルを構築する。その得られた環境モデルを環境モデル記憶装置１２に転送し格納する。

ここで、特徴点の抽出には、下記の参考文献２に記載されるHarris作用素、Moravec 作用素などを用いることができる。また、不動なものの検出は、特徴点を追跡することで可能であり、特徴点の抽出はＫＬＴ法などを用いることができる。また、特徴点の照合から３Ｄ化するには、前述の参考文献１に記載されるTomasi、Kanadeの因子分解法を用いることができる。また、環境モデル計算情報入力装置１０から環境モデル計算装置１１へのデータの転送はインターネットを介して転送する。また、携帯電話で撮影した動画像をｍｐｇなどの形式でアップロードすることもできる。もちろん、環境モデル計算情報入力装置１０と環境モデル計算装置１１が一つの装置となることもでき、その場合にはネットワークを介する必要はない。

〔参考文献２〕金澤靖, 金谷健一：“コンピュータビジョンのための画像の特徴点の抽出”電子情報通信学会誌 Vol.87, No.12 pp.1043-1048 (2004).
（ハ）方法３
管理ユーザが３Ｄに復元したいイベント会場の静止画像を十分多く撮影し、ｊｐｇ(Joint Photographic Experts Group)などの形式で符号化し、環境モデル計算情報入力装置１０から環境モデル計算装置１１にデータを転送する。環境モデル計算装置１１では、特徴点を抽出し、特徴点の照合によりイベント会場の３Ｄ化された環境モデルを構築する。その得られた環境モデルを環境モデル記憶装置１２に転送し格納する。

ここで、方法２や方法３によってイベント会場の環境モデルを構築する場合、カメラやビデオカメラでイベント会場を撮影し、画像ごとに特徴点を抽出する必要がある。このとき、環境モデルの精度を高めるためには、イベント会場以外の被写体が画像に含まれないようにする必要があり、また、イベント会場以外の被写体が画像に含まれている場合には、ズームアウトした画像を使用したり、パノラマ画像を生成して使用するというような工夫を用いることが好ましい。

これらの方法を使って、ステップＳ１００で、撮影対象となるイベント会場の環境モデルを求めて環境モデル記憶装置１２に登録すると、続いて、ステップＳ１０１で、投稿ユーザがイベント会場で撮影した画像と自分の名前などの情報を画像入力装置１３から入力し、画像記憶装置１４に転送する。

これにより、画像記憶装置１４には、図２に示したように、投稿ユーザがイベント会場で撮影した画像とその投稿者の名前などの情報が格納されることになる。

続いて、ステップＳ１０２で、前述した参考文献１に記載される方法に従って、画像記憶装置１４に格納されている各画像について特徴点を抽出し、環境モデル記憶装置１２に格納されている特徴点座標と照合し、それぞれの画像の撮影された場所、撮影の方向を推定する。さらに、画像の持つ音声の類似点を抽出することで撮影時刻が不明の画像についてその撮影時刻を推定する。そして、その推定した座標（場所）、方向、時刻などの情報を画像ＩＤや動画ＩＤと共に画像属性情報記憶装置１６に格納する。

これにより、画像属性情報記憶装置１６には、図３に示したように、画像記憶装置１４に格納されている各画像と対応をとりつつ、それらの画像の撮影時刻や撮影場所や撮影角度などの情報が格納されることになる。

このステップＳ１０２の処理については、後述する図５及び図６のフローチャートに従って詳細に説明する。

続いて、ステップＳ１０３で、閲覧ユーザが視点位置、角度、時刻の範囲、顔が写っている写真限定にするか、などの検索条件を検索条件入力装置１７から入力し、その検索条件を満たす３Ｄマップを生成して出力装置１９に出力表示する。

すなわち、環境モデル記憶装置１２の記憶する特徴点の情報に基づいて、検索条件で指定されるイベント会場の画像（閲覧ユーザから見えることになるイベント会場の画像）を出力装置１９に出力表示するとともに、画像属性情報記憶装置１６の記憶する情報に基づいて検索条件を満たす画像を割り出し、画像記憶装置１４からその割り出した画像（動画像の場合には代表画像）を読み出しサムネイルを作成してイベント会場の画像に重畳表示する形で出力装置１９に出力表示することで、出力装置１９に対して、３Ｄ化したイベント会場に対応付けて検索結果の画像を示す３Ｄマップを出力表示するのである。

このステップＳ１０３の処理については、後述する図９のフローチャートに従って詳細に説明する。

次に、図５及び図６のフローチャートに従って、ステップＳ１０２で実行する処理について詳細に説明する。

ステップＳ１０２の処理に入る前に、図５のフローチャートに示すように、先ず最初に、ステップＳ２００で、投稿ユーザがイベント会場で撮影した写真（静止画像）や動画像と自分の名前などの情報を画像入力装置１３から入力し、これらの情報が画像記憶装置１４に転送されることになる。すなわち、図４のフローチャートのステップＳ１０１の処理が実行されることになる。

この後、ステップＳ２０１の処理に入って、ステップＳ２０１〜ステップＳ２１４で、入力したファイル（写真あるいは動画像）に対して、以下に説明する処理を繰り返し実行する。ここで、この処理については推定装置１５が実行することになる。

すなわち、ステップＳ２０２で、入力ファイルの拡張子やファイルヘッダなどから、入力ファイルが静止画像ファイルであるのか動画像ファイルであるのかを判断する。

このステップＳ２０２の判断処理に従って、入力ファイルが動画像ファイルであることを判断するときには、ステップＳ２０３に進んで、その動画像ファイルのパノラマ画像が作成可能であるのか検証する。パノラマ画像とは、パン、チルト、ズームなどのカメラ操作が含まれる区間から画像列を合成することで生成される画像であり、下記の参考文献３に記載される方法によってパノラマ画像の作成可否を判定することが可能である。

〔参考文献３〕谷口行信, 阿久津明人, 外村佳伸："Panorama Excerpts：パノラマ画像の自動生成・レイアウトによる映像一覧" 電子情報通信学会論文誌 D-II Vol.J82-D-II, No.3 pp.390-398 (1999).
このステップＳ２０３の判断処理に従って、入力した動画像ファイルのパノラマ画像の作成が可能であることを判断するときには、ステップＳ２０４に進んで、参考文献３に記載される方法によって、入力した動画像ファイルからパノラマ画像を作成し、それを代表画像として画像記憶装置１４に格納する。このようにパノラマ画像を代表画像として用いることでイベント会場が背景として多く含まれることになり、これにより、より多くの特徴を抽出することができるようになることで、後述する処理に従って画像の撮影場所や撮影方向を推定する場合に、その推定精度を高めることができるようになる。

一方、ステップＳ２０３の判断処理に従って、入力した動画像ファイルのパノラマ画像の作成が不可能であることを判断するときには、ステップＳ２０５に進んで、動画像の持つ画像の中で、ピントの合っている画像の中から最もズームアウトしている画像を選択して、それを代表画像として画像記憶装置１４に格納する。このように最もズームアウトしている画像を代表画像として用いることでイベント会場が背景として多く含まれることになり、これにより、より多くの特徴を抽出することができるようになることで、後述する処理に従って画像の撮影場所や撮影方向を推定する場合に、その推定精度を高めることができるようになる。

続いて、ステップＳ２０６で、すでに登録された動画像から同時刻に撮影されたものを推定、検出し、検出された場合には同期リスト（図３（ｂ）に示す同期リスト）に登録する。動画像の時間同期をとる手法については、後述する図６のフローチャートに従って詳細に説明する。

続いて、ステップＳ２０７で、この時間同期処理に従って、同時刻に撮影された撮影時刻の情報を検出できたのか否かを判断して、検出できないことを判断するときには、ステップＳ２０８に進んで、撮影時刻の自動検出を諦めて、変数time＿ｓ＝０（未設定）とする。

一方、ステップＳ２０２の判断処理に従って、入力ファイルが静止画像ファイル（写真）であることを判断するときには、ステップＳ２０９に進んで、その静止画像ファイルがexif情報を保持しているのかを確認する。

このステップＳ２０２の確認処理に従って、入力した静止画像ファイルがexif情報を保持していることを確認するときには、ステップＳ２１０に進んで、exif情報に記録されている撮影時刻を変数timeに保持し、一方、入力した静止画像ファイルがexif情報を保持していないことを判断するときには、ステップＳ２０８に進んで、撮影時刻の自動検出を諦めて、変数time＝０（未設定）とする。

続いて、ステップＳ２１１で、入力した画像が静止画像である場合には、その静止画像の中から人の顔を抽出して、その抽出した顔の数を保持し、一方、入力した画像が動画像である場合には、その動画像の代表画像の中から人の顔を抽出して、その抽出した顔の数を保持する。

続いて、ステップＳ２１２で、入力した画像が静止画像である場合には、その静止画像の特徴点を抽出し、一方、入力した画像が動画像である場合には、その動画像の代表画像の特徴点を抽出する。その上で、環境モデル記憶装置１２に記憶されている特徴点と照合することで、入力した画像がどの位置、どの方向から撮影されたものかを推定し、確信度と共に保持する。ここで、確信度は特徴点の中で、撮影位置推定に用いられたものの数と、用いられなかったものの数の関数として算出する。

続いて、ステップＳ２１３で、ステップＳ２００からの操作で得られた情報（図３に示す情報の内の人気を除く情報）の値を画像属性情報記憶装置１６に格納する。

次に、図６のフローチャートに従って、ステップＳ２０６で実行する動画像の時間同期処理について説明する。

ステップＳ２０６の処理に入ると、図６のフローチャートに示すように、先ず最初に、ステップＳ３００で、投稿ユーザから処理対象となる動画像ファイル（ステップＳ２００で入力した動画像ファイル）を入力する。

続いて、ステップＳ３０１で、入力した動画像ファイルが撮影時刻のメタデータ（撮影の開始、終了時刻について記録するメタデータ）を持っているのか否かを判断する。

このステップＳ３０１の判断処理に従って、入力した動画像ファイルが撮影時刻のメタデータを持っていないことを判断するときには、ステップＳ３０２に進んで、撮影時刻が設定されていないことを示すべく、変数time＿ｓ＝０（未設定）とし、一方、撮影時刻のメタデータを持っていることを判断するときには、ステップＳ３０３に進んで、撮影の開始、終了時刻をそれぞれtime＿ｓ，time＿ｅに代入する。

続いて、ステップＳ３０４で、入力した動画像ファイルの音声を取り出し、ステップＳ３０５〜ステップＳ３１５で、この取り出し音声を処理対象として、過去に登録した全ての動画像ファイルについて、以下に説明する処理を繰り返し実行する。

すなわち、ステップＳ３０６で、過去に登録した動画像ファイルの音声を抽出し、入力した動画像ファイルの音声と一致する部分（同期する箇所）を探索する。

具体的には、例えば、入力した動画像ファイルの音声と、過去に登録した動画像ファイルの音声とを共に５００［ｍｓ］間隔でカットし、カットしたそれぞれがある閾値を超える音圧を持っている場合、過去に登録した動画像ファイルの音声のどこかと一致しないかを調べる。具体的には、下記の参考文献４に記載される方法を用いることができる。そして、一致する部分の数が閾値を超えるとき、二つの音声は同期したとする。

〔参考文献４〕柏野邦夫, ガビンスミス, 村瀬洋： "ヒストグラム特徴を用いた音響信号の高速探索法" 電子情報通信学会論文誌 D-II Vol.J82-D-II, No.9 pp.1365-1373 (1999).
続いて、ステップＳ３０７で、ステップＳ３０６の探索処理に従って同期する音声を検出できたのか否かを判断して、同期する音声を検出できなかったことを判断するときには、ステップＳ３１５に進んで、次の過去に登録した動画像ファイルに処理を移行する。

一方、ステップＳ３０７の判断処理に従って、同期する音声を検出できたことを判断するときには、ステップＳ３０８に進んで、お互いの同期リスト（図３（ｂ）に示す同期リスト）にお互いのＩＤ（動画ＩＤ）を加える。

続いて、ステップＳ３０９で、現在処理している過去に登録した動画像ファイルが時刻情報を持っておらず、かつ、入力した動画像ファイルの時刻情報が確定している状態にあるのか否かを判断する。

このステップＳ３０９の判断処理に従って、現在処理している過去に登録した動画像ファイルが時刻情報を持っておらず、かつ、入力した動画像ファイルの時刻情報が確定している状態にないことを判断するときには、ステップＳ３１０に進んで、現在処理している過去に登録した動画像ファイルの時刻情報が確定しており、かつ、入力した動画像ファイルが時刻情報を持っていない状態にあるのか否かを判断する。

このステップＳ３１０の判断処理に従って、現在処理している過去に登録した動画像ファイルの時刻情報が確定しており、かつ、入力した動画像ファイルが時刻情報を持っていない状態にないことを判断するときには、ステップＳ３１５に進んで、次の過去に登録した動画像ファイルに処理を移行する。

一方、ステップＳ３１０の判断処理に従って、現在処理している過去に登録した動画像ファイルの時刻情報が確定しており、かつ、入力した動画像ファイルが時刻情報を持っていない状態にあることを判断するときには、ステップＳ３１１に進んで、入力した動画像ファイルの音声と現在処理している過去に登録した動画像ファイルの音声との同期箇所から、入力した動画像ファイルの撮影開始時刻、終了時刻を推定して、それらを入力した動画像ファイルの持つtime＿ｓ，time＿ｅに代入してから、ステップＳ３１５に進んで、次の過去に登録した動画像ファイルに処理を移行する。

一方、ステップＳ３０９の判断処理に従って、現在処理している過去に登録した動画像ファイルが時刻情報を持っておらず、かつ、入力した動画像ファイルの時刻情報が確定している状態にあることを判断するときには、ステップＳ３１２に進んで、入力した動画像ファイルの音声と現在処理している過去に登録した動画像ファイルの音声との同期箇所から、現在処理している過去に登録した動画像ファイルの撮影開始時刻、終了時刻を推定して、それらを現在処理している過去に登録した動画像ファイルの持つtime＿ｓ，time＿ｅに代入する。

続いて、ステップＳ３１３で、過去に登録した動画像ファイルの持つ同期リストに撮影時刻が不明のものがあるのか否かを判断する。

このステップＳ３１３の判断処理に従って、過去に登録した動画像ファイルの持つ同期リストに撮影時刻が不明のものがないことを判断するときには、ステップＳ３１５に進んで、次の過去に登録した動画像ファイルに処理を移行する。

一方、ステップＳ３１３の判断処理に従って、過去に登録した動画像ファイルの持つ同期リストに撮影時刻が不明のものがあることを判断するときには、ステップＳ３１４に進んで、同期リストで連結される動画像ファイルで撮影時刻が不明のものについて全て再帰的に撮影時刻を推定し、代入してから、ステップＳ３１５に進んで、次の過去に登録した動画像ファイルに処理を移行する。

以上に説明した図６のフローチャートで実行する動画像の時間同期処理では、動画像は同じイベント会場で撮影されたものであることから、例えば、野球の応援歌やサッカーのゴール時の歓声や運動会の場内アナウンスのように環境音が他の動画像にも収音されており、これから、音の同期で撮影時刻を推定することが可能であるということに着目して、撮影時刻が不明の動画像の撮影時刻を推定するようにしている。

例えば、図７に示すように、動画像Ａの撮影時刻が分かっており、動画像Ｂの撮影時刻が分かっていない場合に、動画像Ａの音声と動画像Ｂの音声との一致箇所を求めて、それに基づいて、動画像Ｂの撮影時刻（撮影開始時刻及び撮影終了時刻）を推定するのである。さらに、例えば、図８に示すように、動画像Ａ、動画像Ｂ、動画像Ｃ、動画像Ｄの順に投稿されたときにあって、動画像Ｄの撮影時刻しか分かっていない場合に、動画像Ａの音声と動画像Ｂの音声との一致箇所と、動画像Ｂの音声と動画像Ｃの音声との一致箇所と、動画像Ｃの音声と動画像Ｄの音声との一致箇所とを求めて、それに基づいて、動画像Ａ，Ｂ，Ｃの撮影時刻（撮影開始時刻及び撮影終了時刻）を推定するのである。

このようにして、本発明を具備する画像提供システムは、図４のフローチャートに従って、撮影対象となるイベント会場の環境モデルを求めて環境モデル記憶装置１２に登録し（ステップＳ１００）、投稿ユーザがイベント会場で撮影した画像とその投稿者の名前などの情報を画像記憶装置１４に格納すると（ステップＳ１０１）、ステップＳ１０２の処理に入って、図５及び図６のフローチャートを実行することで、画像記憶装置１４に格納されている各画像について特徴点を抽出し、環境モデル記憶装置１２に格納されている特徴点座標と照合し、それぞれの画像の撮影された場所、撮影の方向を推定する。さらに、画像の持つ音声の類似点を抽出することで撮影時刻が不明の画像についてその撮影時刻を推定して、その推定した座標（場所）、方向、時刻などの情報を画像ＩＤや動画ＩＤと共に画像属性情報記憶装置１６に格納するのである。

これにより、画像属性情報記憶装置１６には、図３に示したように、画像記憶装置１４に格納されている各画像と対応をとりつつ、それらの画像の撮影の時刻や撮影の場所や撮影の角度などの情報が格納されることになる。

図４のフローチャートのステップＳ１０３で説明したように、投稿ユーザにより撮影された画像の撮影の時刻や撮影の場所や撮影の角度などの情報を画像属性情報記憶装置１６に格納すると、それらの情報を使って、閲覧ユーザに対して閲覧要求のある画像を提供するように処理する。

次に、図９のフローチャートに従って、ステップＳ１０３で実行する処理について詳細に説明する。ここで、このフローチャートの処理について画像検索装置１８が実行することになる。

ステップＳ１０３の処理に入ると、図９のフローチャートに示すように、先ず最初に、ステップＳ４００で、検索条件入力装置１７を介して、閲覧ユーザから、視点位置、角度、時刻の範囲、顔が写っている画像に限定するかということについて記述する検索条件を入力する。

続いて、ステップＳ４０１で、環境モデル記憶装置１２に記憶される特徴点の情報に基づいて、入力した視点位置、角度から見えるイベント会場の見やすい３Ｄマップを作成して、それを出力装置１９に描画出力する。

ここで、見やすさの指標は視点位置、角度の関数である。視点位置から、地上に立っているように見ているのか、上から俯瞰しているのかを割り出し、それにより遠近感のある図にするかどうかを定める。

続いて、ステップＳ４０２で、画像属性情報記憶装置１６の記憶する情報を検索することで、（１）検索条件で指定される視点位置、角度から見える画像で、（２）検索条件で指定される時刻範囲に撮影された画像で、（３）検索条件で顔が写っている画像であることが限定される場合には、それを満たしている画像で、（４）３Ｄマップ上の撮影された場所にサムネイルを描画可能である画像、という条件を満たす画像のＩＤを抽出する。

このステップＳ４０２で、上記の条件を満たす画像のＩＤを抽出できない場合には、処理を終了し、一方、上記の条件を満たす画像のＩＤを抽出できた場合には、ステップＳ４０３に進んで、その抽出した画像（動画像の場合には代表画像を用いる）の中から最も評価の高い画像を選ぶ。ここで、画像の評価は撮影場所の確信度、人気、写っている顔の数などの関数である。

続いて、ステップＳ４０４で、３Ｄマップ上の撮影位置にサムネイルを描画する際に、新たな画像のサムネイルが既に表示されている他の画像のサムネイルに隠れてその面積が半分以上表示できるかどうかを判断する。

例えば、現在の出力が図１０のようになっているときに、次の画像が図１１に示す画像Ｇであった場合、画像Ｇの面積の半分以上が画像Ｂ，Ｃによって隠れてしまい表示できない。このような状態になるのか否かを判断するのである。ここで、サムネイルの大きさは３Ｄマップの書き方と視点位置からの距離の関数である。

このステップＳ４０４の判断処理で、ステップＳ４０３で選んだ画像が半分以上表示できない画像であることを判断するときには、ステップＳ４０５に進んで、ステップＳ４０３で選んだ画像は描画不能とみなして描画を諦めると共に、その画像がＳ４０２で選ばれないよう条件から外してから、ステップＳ４０２の処理に戻る。

一方、ステップＳ４０４の判断処理で、ステップＳ４０３で選んだ画像が半分以上表示できる画像であることを判断するときには、ステップＳ４０６に進んで、画像記憶装置１４から、ステップＳ４０３で選んだ画像ＩＤの指す画像（動画像の場合には代表画像）を読み出し、その読み出した画像のサムネイルを生成して、出力装置１９の３Ｄマップ上の画像の撮影位置に描画出力してから、ステップＳ４０２の処理に戻る。

このようにして、本発明を具備する画像提供システムは、図５及び図６のフローチャートを実行することで、投稿ユーザにより撮影された画像の撮影の時刻や撮影の場所や撮影の角度などの情報を画像属性情報記憶装置１６に格納すると、図９のフローチャートを実行することで、閲覧ユーザから見えることになるイベント会場の画像を出力装置１９に出力表示するとともに、画像属性情報記憶装置１６の記憶する情報に基づいて検索条件を満たす画像を割り出し、画像記憶装置１４からその割り出した画像（動画像の場合には代表画像）を読み出しサムネイルを作成してイベント会場の画像に重畳表示する形で出力装置１９に出力表示することで、出力装置１９に対して、３Ｄ化したイベント会場に対応付けて検索結果の画像を示す３Ｄマップを出力表示するのである。

図１０〜図１３に、検索結果の画像を示す３Ｄマップの出力表示の一例を図示する。

図１０は、イベント会場を俯瞰した様子である。時刻範囲だけを定め、イベント会場全体を俯瞰することで、より詳しく調べたい場所を特定できる。図の画像Ｆは動画像から作成されたパノラマ画像である。

図１１は、図１０の表示を行っている場合にあって、画像Ｇが検索された場合に、この画像Ｇが描画対象とならないことを説明するための図である。

図１２は、地上から見た場合である。遠くで撮影された画像は小さく出力される。さらに撮影された角度を用いて検索をしたい場合には画像にも角度をつけてやればよい。図１３は、角度をつけた画像を用いた例を示す。

このような表示形態の切り替えを可能にすることで、時刻を入力し、イベント会場を俯瞰することで大まかな画像の配置を把握することができる。そして、地上の視点から見た出力に切り替えれば、実際にそこに立っている感覚で画像を検索できる。さらに、推定された撮影の角度を用いた出力に切り替えれば、画像を特定の被写体を写したものなどの限定することができ、検索がより容易になる。

このようにして表示するサムネイルの中から閲覧ユーザが一つのサムネイルを選択して詳細表示を要求すると、その選択したサムネイルの作成元となった原画像を表示するように処理することになる。

本発明は、特定の場所で撮影された膨大な動画像や静止画像の中から、ユーザが見たいと考えている画像を検索してユーザに提供する場合に適用できるものであり、撮影位置や撮影方向や撮影時刻を手がかりにして、ユーザが見たいと考えている画像を検索してユーザに提供することができるようになる。

本発明を具備する画像提供システムのシステム構成図である。画像記憶装置の記憶する情報の説明図である。画像属性情報記憶装置の記憶する情報の説明図である。本発明を具備する画像提供システムの実行するフローチャートである。本発明を具備する画像提供システムの実行するフローチャートである。本発明を具備する画像提供システムの実行するフローチャートである。動画像の時間同期処理の説明図である。動画像の時間同期処理の説明図である。本発明を具備する画像提供システムの実行するフローチャートである。検索結果の出力表示の一例を示す図である。検索結果の出力表示の一例を示す図である。検索結果の出力表示の一例を示す図である。検索結果の出力表示の一例を示す図である。

符号の説明

１０環境モデル計算情報入力装置
１１環境モデル計算装置
１２環境モデル記憶装置
１３画像入力装置
１４画像記憶装置
１５推定装置
１６画像属性情報記憶装置
１７検索条件入力装置
１８画像検索装置
１９出力装置

Claims

特定の場所で撮影された画像の中から、ユーザの閲覧要求を満たす画像を検索してユーザに提供する画像提供装置であって、
前記場所で撮影された動画像又は静止画像を入力して蓄積手段に保存する入力手段と、
前記入力手段の入力した画像と前記場所の環境モデルとを照合することで、前記入力手段の入力した画像の撮影位置及び撮影角度を推定する第１の推定手段と、
前記蓄積手段に保存される画像に対応付けて、前記第１の推定手段の推定したその画像の撮影位置及び撮影角度の情報を記録する記録手段と、
ユーザから視点位置及び／又は視線方向の情報を指定する画像の閲覧要求がある場合に、前記蓄積手段に保存される撮影位置及び撮影角度の情報を検索することで、ユーザの指定する視点位置及び／又は視線方向から見えることになる画像を検索する検索手段と、
ユーザの指定する視点位置及び／又は視線方向から見えることになる前記環境モデルの画像をディスプレイに表示するとともに、その画像上に、前記検索手段の検索した画像の概要を示す要約画像の一覧を表示する表示手段とを備え、
かつ、前記蓄積手段に保存される画像の持つ音声の類似点を検出して、それに基づいて、前記蓄積手段に保存される撮影時刻の情報を持たない画像について、その撮影時刻を推定する第２の推定手段を備え、
前記記録手段は、前記入力手段の入力した画像の内の撮影時刻の情報を持つ画像については、その撮影時刻の情報をさらに記録し、撮影時刻の情報を持たない画像については、前記第２の推定手段の推定した撮影時刻の情報をさらに記録し、
前記検索手段は、ユーザから撮影時刻の情報についても指定する画像の閲覧要求がある場合には、前記蓄積手段に保存される撮影時刻の情報についても検索することで、ユーザの指定する撮影時刻に撮影された画像を検索することを、
特徴とする画像提供装置。
特定の場所で撮影された画像の中から、ユーザの閲覧要求を満たす画像を検索してユーザに提供する画像提供装置であって、
前記場所で撮影された動画像又は静止画像を入力して蓄積手段に保存する入力手段と、
前記入力手段の入力した画像と前記場所の環境モデルとを照合することで、前記入力手段の入力した画像の撮影位置及び撮影角度を推定する推定手段と、
前記蓄積手段に保存される画像に対応付けて、前記推定手段の推定したその画像の撮影位置及び撮影角度の情報を記録する記録手段と、
ユーザから視点位置及び／又は視線方向の情報を指定する画像の閲覧要求がある場合に、前記蓄積手段に保存される撮影位置及び撮影角度の情報を検索することで、ユーザの指定する視点位置及び／又は視線方向から見えることになる画像を検索する検索手段と、
ユーザの指定する視点位置及び／又は視線方向から見えることになる前記環境モデルの画像をディスプレイに表示するとともに、その画像上に、前記検索手段の検索した画像の概要を示す要約画像の一覧を表示する表示手段とを備え、
かつ、前記推定手段は、前記入力手段が動画像を入力する場合には、その動画像の中から選択される最もズームアウトした画像を用いて前記環境モデルとの照合を行うことで、その動画像の撮影位置及び撮影角度を推定することを、
特徴とする画像提供装置。
特定の場所で撮影された画像の中から、ユーザの閲覧要求を満たす画像を検索してユーザに提供する画像提供装置であって、
前記場所で撮影された動画像又は静止画像を入力して蓄積手段に保存する入力手段と、
前記入力手段の入力した画像と前記場所の環境モデルとを照合することで、前記入力手段の入力した画像の撮影位置及び撮影角度を推定する推定手段と、
前記蓄積手段に保存される画像に対応付けて、前記推定手段の推定したその画像の撮影位置及び撮影角度の情報を記録する記録手段と、
ユーザから視点位置及び／又は視線方向の情報を指定する画像の閲覧要求がある場合に、前記蓄積手段に保存される撮影位置及び撮影角度の情報を検索することで、ユーザの指定する視点位置及び／又は視線方向から見えることになる画像を検索する検索手段と、
ユーザの指定する視点位置及び／又は視線方向から見えることになる前記環境モデルの画像をディスプレイに表示するとともに、その画像上に、前記検索手段の検索した画像の概要を示す要約画像の一覧を表示する表示手段とを備え、
かつ、前記推定手段は、前記入力手段が動画像を入力する場合には、その動画像から作成されるバノラマ画像を用いて前記環境モデルとの照合を行うことで、その動画像の撮影位置及び撮影角度を推定することを、
特徴とする画像提供装置。
特定の場所で撮影された画像の中から、ユーザの閲覧要求を満たす画像を検索してユーザに提供する画像提供装置であって、
前記場所で撮影された動画像又は静止画像を入力して蓄積手段に保存する入力手段と、
前記入力手段の入力した画像と前記場所の環境モデルとを照合することで、前記入力手段の入力した画像の撮影位置及び撮影角度を推定する推定手段と、
前記蓄積手段に保存される画像に対応付けて、前記推定手段の推定したその画像の撮影位置及び撮影角度の情報を記録する記録手段と、
ユーザから視点位置及び／又は視線方向の情報を指定する画像の閲覧要求がある場合に、前記蓄積手段に保存される撮影位置及び撮影角度の情報を検索することで、ユーザの指定する視点位置及び／又は視線方向から見えることになる画像を検索する検索手段と、
ユーザの指定する視点位置及び／又は視線方向から見えることになる前記環境モデルの画像をディスプレイに表示するとともに、その画像上に、前記検索手段の検索した画像の概要を示す要約画像の一覧を表示する表示手段とを備え、
前記推定手段は、前記照合の度合いに基づいて前記推定の確信度を算出し、
前記検索手段は、検索した画像の中から前記確信度の大きな画像を優先する形で画像を選択することで最終的な検索結果を得ることを、
特徴とする画像提供装置。
特定の場所で撮影された画像の中から、ユーザの閲覧要求を満たす画像を検索してユーザに提供する画像提供装置であって、
前記場所で撮影された動画像又は静止画像を入力して蓄積手段に保存する入力手段と、
前記入力手段の入力した画像と前記場所の環境モデルとを照合することで、前記入力手段の入力した画像の撮影位置及び撮影角度を推定する推定手段と、
前記蓄積手段に保存される画像に対応付けて、前記推定手段の推定したその画像の撮影位置及び撮影角度の情報を記録する記録手段と、
ユーザから視点位置及び／又は視線方向の情報を指定する画像の閲覧要求がある場合に、前記蓄積手段に保存される撮影位置及び撮影角度の情報を検索することで、ユーザの指定する視点位置及び／又は視線方向から見えることになる画像を検索する検索手段と、
ユーザの指定する視点位置及び／又は視線方向から見えることになる前記環境モデルの画像をディスプレイに表示するとともに、その画像上に、前記検索手段の検索した画像の概要を示す要約画像の一覧を表示する表示手段とを備え、
前記表示手段は、前記検索手段の検索した画像の撮影位置及び撮影角度の指す撮影場所に対応付けられる前記環境モデルの画像上位置に前記要約画像を表示することを、
特徴とする画像提供装置。
特定の場所で撮影された画像の中から、ユーザの閲覧要求を満たす画像を検索してユーザに提供する画像提供装置であって、
前記場所で撮影された動画像又は静止画像を入力して蓄積手段に保存する入力手段と、
前記入力手段の入力した画像と前記場所の環境モデルとを照合することで、前記入力手段の入力した画像の撮影位置及び撮影角度を推定する推定手段と、
前記蓄積手段に保存される画像に対応付けて、前記推定手段の推定したその画像の撮影位置及び撮影角度の情報を記録する記録手段と、
ユーザから視点位置及び／又は視線方向の情報を指定する画像の閲覧要求がある場合に、前記蓄積手段に保存される撮影位置及び撮影角度の情報を検索することで、ユーザの指定する視点位置及び／又は視線方向から見えることになる画像を検索する検索手段と、
ユーザの指定する視点位置及び／又は視線方向から見えることになる前記環境モデルの画像をディスプレイに表示するとともに、その画像上に、前記検索手段の検索した画像の概要を示す要約画像の一覧を表示する表示手段とを備え、
前記表示手段は、前記検索手段の検索した画像の撮影角度に応じて、ユーザが閲覧するときの状態に合わせる形態で前記要約画像を傾けて表示することを、
特徴とする画像提供装置。
特定の場所で撮影された画像の中から、ユーザの閲覧要求を満たす画像を検索してユーザに提供する画像提供装置であって、
前記場所で撮影された動画像又は静止画像を入力して蓄積手段に保存する入力手段と、
前記入力手段の入力した画像と前記場所の環境モデルとを照合することで、前記入力手段の入力した画像の撮影位置及び撮影角度を推定する推定手段と、
前記蓄積手段に保存される画像に対応付けて、前記推定手段の推定したその画像の撮影位置及び撮影角度の情報を記録する記録手段と、
ユーザから視点位置及び／又は視線方向の情報を指定する画像の閲覧要求がある場合に、前記蓄積手段に保存される撮影位置及び撮影角度の情報を検索することで、ユーザの指定する視点位置及び／又は視線方向から見えることになる画像を検索する検索手段と、
ユーザの指定する視点位置及び／又は視線方向から見えることになる前記環境モデルの画像をディスプレイに表示するとともに、その画像上に、前記検索手段の検索した画像の概要を示す要約画像の一覧を表示する表示手段とを備え、
前記表示手段は、前記検索手段の検索した画像の撮影位置に応じて、遠くで撮影された画像ほど小さくなる形態で前記要約画像の大きさを変えて表示することを、
特徴とする画像提供装置。
請求項１ないし７のいずれか１項に記載の画像提供装置を構成する各手段としてコンピュータを機能させるための画像提供プログラム。