JP5647523B2

JP5647523B2 - 画像と位置による画像環境の認識

Info

Publication number: JP5647523B2
Application number: JP2010545006A
Authority: JP
Inventors: ハオ，ウェイ; ルオ，ジエボ; エフマッキンタイアー，デール
Original assignee: インテレクチュアルベンチャーズファンド８３エルエルシー
Priority date: 2008-01-30
Filing date: 2009-01-27
Publication date: 2014-12-24
Anticipated expiration: 2029-01-27
Also published as: US8116596B2; US20090190797A1; WO2009134292A3; WO2009134292A2; CN101911098A; JP2011511365A; CN101911098B; EP2238561A2; EP2320351A1

Description

本発明は、画像コンテンツとその画像を撮った場所に関する位置情報とを用いた画像環境の認識に関する。

コンピュータを用いたデジタルメディアアセットのコンテンツの意味の分析と識別は、意味論的理解（semantic understanding）として知られており、デジタルアセットを用いてユーザ体験を充実できる重要な分野である。デジタルイメージングの領域における意味論的理解のタイプとして、誕生日、野球の試合、コンサート、その他の画像撮影したイベントのタイプである、ユーザが撮ったイベントのタイプを識別する分析がある。一般的には、こうしたイベントを、トレーニング画像（a set of training images）を用いて学習した確率的グラフィックモデルを用いて認識し、新しく分析する画像があるイベントタイプに属する確率を計算する。このタイプのモデルは、例えば、L-J. Li、L. Fei-Fei著「What, where and who? Classifying event by scene and object recognition」（Proceedings of ICCV, ２００７）に記載されている。

イベントタイプの認識を、ベイジアンネットワークのような古典的アプローチにより現在得られるもの以上に改善する必要がある。多くの場合、地域参照名前空間データベースへのエントリが、イベントの分類に十分役立つ。場所に関する追加的な意味論的知識を得て、その場所で撮影した画像の分類に役立てる必要がある。

本発明によれば、画像と、前記画像に関連する位置情報とから前記画像の環境を認識する方法を提供する。該方法は、
（ａ）前記画像とそれに関連する位置情報とを取得する段階と、
（ｂ）前記位置情報を用いて前記位置情報に関連する空間像を取得する段階と、
（ｃ）前記関連する空間像から前記画像の環境を特定する段階と、
（ｄ）後で使用するために前記画像と関連付けて前記画像の環境を記憶する段階とを有する。

本発明の特徴と利点には、画像の位置情報に関連する参照画像を用いて、画像の環境のタイプをよりよく理解し、イベントやアクティビティの潜在的な性質の理解を容易にすることが含まれる。

本発明を利用できるシステムを示す図である。本発明の一実施形態を実施するフローチャートである。環境タイプの例のオントロジ構造を示す表である。画像例とそれに対応する環境の空間像（aerial images）とを示す図である。画像例とそれに対応する環境の空間像（aerial images）とを示す図である。

図１にシステム１０を示した。システム１０は、本発明を実施するのに必要な要素を有し、計算デバイス１２、インデックスサーバ１４、空間像サーバ１６、及び通信ネットワーク２０を含む。計算デバイス１２は画像を格納するパーソナルコンピュータでよい。ここで、画像とは静止画像と動画像すなわちビデオ画像とを両方とも含むものとする。計算デバイス１２は、デジタルカメラや携帯電話カメラ（図示せず）などにより撮られた画像を格納するために、これらの様々なデバイスと通信する。撮影されたこれらの画像はさらに、撮影デバイスにより提供されるグローバルポジショニングシステム（ＧＰＳ）データなどの位置情報を含み得る。計算デバイス１２は通信ネットワーク２０を介してインターネットサービスとも通信できる。インターネットサービスは、位置情報無しで撮影された画像を利用し、その画像に対する位置情報をユーザに追加させる。いずれの場合であっても、位置情報を有する画像は本技術分野において周知である。

インデックスサーバ１４は、画像のコンテンツを分析してイベントタイプなどの意味論的情報を求めるコンピュータ命令の形式のアルゴリズムを実行するための、通信ネットワーク２０上で利用できる別のコンピュータ処理デバイスである。言うまでもなく、インデックスサーバ１４によるウェブサービスとしてシステム１０のこの機能を提供することは、本発明を限定しない。計算デバイス１２も、インデックスのために提供された画像の分析をするアルゴリズムを実行するように構成してもよい。

空間像サーバ１６は、通信ネットワーク２０を介して他の計算デバイスと通信し、要求があれば、提供される位置情報に関連する空間像を提供する。空間像サーバ１６に格納された空間像は、飛行機を含む有人操縦航空機や衛星を含む無人操縦航空機により撮影される。空間像は、特定の高度を真上から見下ろすカメラにより撮影してもよいし、撮影画像の３次元情報を保存するように斜めに撮影してもよい。Pictometry International Corp.は、位置情報と関連付けた、斜めに撮影した空間像を提供する会社の１つである。周知のインターネットサービスが、物理的アドレス、ＧＰＳデータ、その他の形式の位置情報（例えば、位置が知られた企業名）などの位置情報に関連づけられた衛星空間像を提供している。空間像はそれに関連するメタデータを有してもよい。メタデータは空間像サーバ上に空間像と関連付けて格納できる。空間像と関連するメタデータは、その画像により表される物理的エリア内にある企業名、歴史的建造物、公園その他の情報を含んでいてもよい。これらのメタデータは要求に応じて空間像とともに提供してもよい。また、空間像は、特定の高度から実際に撮影または撮影のシミュレーションを表すいろいろな解像度で提供できる。高解像度の空間像はより詳細を表すものであり、一般的には撮影により多くの費用がかかる。高解像度の空間像はより大きなファイルであり、より大きな帯域幅を要し、そのため送信に時間がかかる。

図２には、本発明を実施するのに必要なステップのシーケンスを示すプロセス図を示した。ステップ２２において、ＧＰＳデータなどの関連位置情報を含む画像を取得する。位置情報は、好ましくはメタデータの形で画像と関連付けられているが、本発明の範囲から逸脱することなく、単に画像と関連づけて供給されてもよい。画像は、計算デバイス１２により、その内部記憶装置から提供されてもよいし、または計算デバイス１２がアクセスできる任意の記憶デバイスやシステム（例えば、ローカルネットワーク記憶デバイスやオンライン画像記憶サイト）から提供されてもよい。ステップ２２において提供される位置情報を用いて、計算デバイス１２は、ステップ２４において空間像サーバ１４に位置情報を提供し、その位置情報と関連する空間像を取得する。

ステップ２４で取得した空間像を用いて、計算デバイス１２は、ステップ２６において分類子を用いて次のように画像の環境を特定する。近年、多数人が画像を非順序画像パッチ（unordered set of image patches）すなわち「ビジュアルワードのバッグ（bag of visual words）」として表すと効率がよいことを示した(F.-F. Li and P. Perona, A Bayesian hierarchical model for learning natural scene categories, Proceedings of CVPR, ２００５; S. Lazebnik, C. Schmid, and J. Ponce, Beyond bags of features: spatial pyramid matching for recognizing natural scene categories, Proceedings of CVPR, ２００６)。各トレーニング画像について好適な記述（例えば、いわゆるＳＩＦＴ記述子）を計算し、この記述をさらにビンにクラスター分けして、「ビジュアルワード」よりなる「ビジュアルボキャブラリ」を構成する。これは、ＳＩＦＴ記述子を「ビジュアルワード」にクラスター分けして、その出現頻度により画像を表すためである。これらの記述子をクラスター化するため、周知のk-meansアルゴリズムをコサイン距離尺度とともに用いる。

この表示はこれらのパッチの空間的な構成に関する情報を捨ててしまうが、分類や認識のタスクにおけるこのタイプの表示を用いるシステムの性能はすばらしい。具体的には、画像を固定のグリッドでパーティションして、順序付けされていない一組の画像パッチ（unordered set of image patches）として表す。好適な記述を各画像パッチに対して計算し、ビンにクラスター化して、「ビジュアルボキャブラリ（visual vocabulary）」を構成する。本発明では、各画像グリッドを特徴付けるために、同じ方法論を適合させて、その方法論をカラーフィーチャとテクスチャフィーチャの両方を考慮するように拡張する。

カラーフィーチャを抽出するため、画像グリッドをさらに２×２の等サイズのサブグリッドにパーティションする。次に、各サブグリッドについて、Ｒ、Ｇ、Ｂの平均値を抽出して、４×３＝１２個のフィーチャのベクトルを構成する。このフィーチャベクトルは４つのサブグリッドのカラー情報を特徴付けるものである。テクスチャフィーチャを抽出するため、各サブグリッドで８つの方向ビンを有するヒストグラムの２×２配列を使ってもよい。このように、４×８＝３２次元のＳＩＦＴ記述子を使って各画像グリッド内の構造を特徴付ける。これはLazebnik et al.の考え方と同様である。本発明の好ましい一実施形態では、画像が２０万画素より大きければ、まず２０万画素にサイズ変更する。そして画像グリッドサイズを１６×１６に設定し、重なるサンプリング区間を８×８とする。典型的には１つの画像からこのようなグリッドが１１７個できる。

本発明では、画像グリッドから原画像フィーチャをすべて抽出してから、k-meansクラスター化によりトレーニングデータセットのすべての画像グリッドをクラスター化して、カラーボキャブラリとテクスチャボキャブラリを別々に構成する。本発明では、両方のボキャブラリのサイズを５００に設定する。トレーニング画像のセットのグリッドをすべて集約して、イベントに対する２つの規格化されたヒストグラムｈｅ、ｈｔを求める。これらはそれぞれカラーボキャブラリとテクスチャボキャブラリのワード分布に対応している。ｈｅとｈｔとを連結すると、その結果はサイズが１０００の規格化されたワードヒストグラムとなる。ヒストグラムの各ビンは対応するワードの出現頻度を示す。

位置座標に基づき求めた各入力空間像に対して、上記の通り、カラーワードのバッグとテクスチャワードのバッグとを両方とも計算する。あるタイプ（すなわちクラス）の環境に対応する画像はそのクラスのトレーニングセットを構成する。すべてのクラスのトレーニングセットが、トータルトレーニングセットを構成する。このトレーニングセットを用いて分類子をトレーニングする。

本発明の好ましい実施形態では、ＳＡＭＭＥ(by J. Zhu, S. Rosset, H. Zou, and T. Hastie. Multi-class Adaboost. Technique Report, ２００５)として知られる分類子を、マルチクラス問題を解く分類子として選択する。AdaBoost.MHと呼ばれる別のアルゴリズムはK回の１対全分類（K one-against-all classifications）を実行する必要があるが、これと比較してＳＡＭＭＥはKクラス分類を直接実行する。ＳＡＭＭＥは、当てずっぽうよりは良い（例えば、正しい確率が１／Ｋより大きい）弱い分類子（weak classifiers）があればよく、標準的な２クラスAdaBoostが必要とするような１／２より大きいものは必要としない。

分類を要する各入力空間像に対して、上記の通り、カラーワードのバッグとテクスチャワードのバッグとを両方とも計算する。トレーニングされた分類子を入力画像のワードのバッグに適用して、その入力画像の環境のクラスを生成する。

言うまでもなく、場所によっては複数の環境を有していてもよい。例えば、ニューヨーク州ハニオイェフォールスのノースメインストリートにあるロータリーパークには駐車環境、ピクニック環境、フィッシング環境、サッカー環境がある。限定としてではなく例として、環境には、野球場、フットボール場、テニスコート、ゴルフコース、居住エリア、商業施設、学校、ショッピングモール、遊び場、公園、海岸、森林、テーマパークがある。図３の表３５に示す通り、環境には所定の単純化された環境オントロジが付随していてもよい。コンピュータ化学と情報科学において、オントロジとは、ドメイン内の一組のコンセプトと、そのコンセプト間の関係とを表すデータモデルである。オントロジを用いてそのドメイン内のオブジェクトについて推論する。図３の例では、非常に簡単なオントロジを２つの環境例に対して示した。図３に列挙したコンセプト間の関係は示していないが、関係を設ければ、アクティビティやイベントの性質を推論するために環境のオントロジの使用を支援できる。

ステップ２８において、画像について特定された環境はその画像と関連付けて格納される。好ましくは、上記環境は、画像とともにＥＸＩＦデータなどのメタデータとして格納される。ステップ３０において、データベース中のデータとして、画像と関連させて環境を格納できる。格納された画像の環境により、その画像に関連するイベントやアクティビティの性質に関する推論を行う。インデックスサーバ１４または計算デバイス１２は、格納された画像の環境により、例えば野球場であれば、イベントの性質が野球の試合であると推論できる。推論によりそのイベントが野球の試合として正しく分類できる。インデックスサーバ１４が図４ａに示したように画像を分析して、野球のグローブとベースボールがあることを検出した場合、これらのオブジェクトが野球場環境のオントロジに見つかると、そのイベントが野球の試合として適切に分類されているという、より確実な証拠となる。しかし、図４ｂに示したように、画像を分析して、ギター、人、ドラムセットなどのオブジェクトを判断して、それでも環境が野球場であるとされた場合には、イベントを野球の試合と分類することはおそらく正しくない。格納された画像の環境とその画像とを両方とも見ることによって、コンサートであるとの正しい推論をできる。空間像とともにメタデータが与えられていれば、その画像に関連するイベントやアクティビティの性質に関する推論をするときに、さらにその情報を他のデータと合わせて考慮することができる。後で使用したいときには、格納された環境のオントロジに加えて、空間像とともに提供されたメタデータを、格納することもできる。

アクティビティやイベントの性質を推論したので、計算デバイス１２は、ステップ３２において、推論されたイベントの画像（collection of images）を検索できる。イベントタイプ、格納された環境、格納された環境の要素、画像または空間像に関連するオントロジまたはメタデータを、単独または組み合わせて用いて、画像の検索を構成してもよい。検索する画像は、計算デバイス１２のユーザのものでも、計算デバイス１２に常駐のものであってもよし、計算デバイス１２上で実行されたウェブブラウザにより実装されたグーグルイメージサーチなどのツールを用いて通信ネットワーク２０を解して検索できる、公開された画像であってもよい。もう１つ、ウェブブラウザを用いてオンラインで検索できる画像コレクションでよく使われるものは、www.flickr.comにおいてFlickR（商標）により運営されている。ここではテキストタグを用いて画像を検索する。

図４ａにおいて、画像４０を、それに関連する位置情報の提供に応じて空間像サーバ１４により提供される空間像４２とともに示した。リスト４４は、画像４０のインデックス分析により決定されたオブジェクトを示し、リスト４６は空間像４２に関連するメタデータを示す。イベントの潜在的な性質が野球の試合であるという推論はほぼ確実であり、リスト中の用語を用いて同様のコンテンツを有する画像（images in the collection）を検索できる。同様に、図４ｂにおいて、異なる日時に同じ位置情報でもって撮影された画像４８を、空間像４２とともに示した。リスト５０は、画像４０のインデックス分析により決定されたオブジェクトを示す。リスト５０とリスト４６とを比較すると、このイベントの潜在的な性質が野球の試合であるとの推論は正しくない。格納された画像の環境とその画像とを両方とも考慮することによって、コンサートであるとの得心のいく推論をできる。

１０システム
１２計算デバイス
１４インデックスサーバ
１６空間像サーバ
２０通信ネットワーク
２２ステップ
２４ステップ
２６ステップ
２８ステップ
３０ステップ
３２ステップ
３５表
４０画像
４２取得空間像
４４リスト
４６リスト
４８画像
５０リスト

Claims

取得したデジタル画像に関連する位置情報から前記取得したデジタル画像の環境を認識する方法であって、
（ａ）画像キャプチャ装置を用いて前記デジタル画像とそれに関連する位置情報とを取得する段階と、
（ｂ）前記位置情報を用いて、前記位置情報に関連する衛星画像または航空機から取得した画像である屋外デジタル空間像をサーバから取得する段階と、
（ｃ）計算装置を用いて、前記取得した屋外デジタル空間像を分析することにより、前記取得したデジタル画像の環境を特定する段階と、
（ｄ）前記取得したデジタル画像と関連付けて前記取得したデジタル画像の特定された環境を記憶する段階と、
（ｅ）前記取得したデジタル画像の特定され記憶された環境から、前記取得したデジタル画像に関連するイベントまたはアクティビティの潜在的性質に関する推論を行う段階とを有する方法。
前記環境には、野球場、フットボール場、テニスコート、ゴルフコース、居住エリア、商業施設、学校、ショッピングモール、遊び場、公園、海岸、森林、またはテーマパークを含む、請求項１に記載の方法。
前記推論は、前記取得したデジタル画像の前記記憶した環境と、前記取得したデジタル画像とから行う、請求項１に記載の方法。
前記記憶した環境を用いて、前記イベントの複数のデジタル画像を検索する、請求項１に記載の方法。
前記取得した屋外デジタル空間像に関連するメタデータを取得する段階と、かかるメタデータを後で使うため、前記記憶した環境に関連づけて記憶する段階とを含む、請求項１に記載の方法。
前記取得したデジタル画像の前記記憶した環境と、前記記憶したメタデータから、前記取得したデジタル画像に関連するイベントまたはアクティビティの潜在的性質に関する推論を行う段階と、
前記イベントの複数のデジタル画像を検索する段階とをさらに含む、請求項５に記載の方法。
前記推論は、前記取得したデジタル画像の前記記憶した環境、前記取得したデジタル画像、及び前記メタデータから行う、請求項６に記載の方法。
前記位置情報を用いて、前記取得したデジタル画像の環境を特定するのに必要な適切な解像度を選択する段階をさらに含む、請求項１に記載の方法。