JP2009252237A

JP2009252237A - 最適画像方向を決定する方法、命令セットを実行するプログラム、および最適画像方向を決定するシステム

Info

Publication number: JP2009252237A
Application number: JP2008249439A
Authority: JP
Inventors: Dong Wang; ワンドン; Matthew Cooper; クーパーマシュー
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-04-10
Filing date: 2008-09-29
Publication date: 2009-10-29
Anticipated expiration: 2028-09-29
Also published as: US8150212B2; JP5146229B2; US20090257682A1

Abstract

【課題】内容が非常に多様であるオンライン公開写真を活用して、効果的な特徴を、レイアウト情報とともに抽出する、最適画像方向を決定する方法を提供する。
【解決手段】本発明の最適画像方向を決定する方法は、入力画像を取得することと、入力画像の画像特徴を抽出することと、画像の代替方向に対応する回転画像特徴を生成することと、抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析することと、重み付き多数決を用いて最近傍候補の方向を組み合わせることと、組合せの結果を用いて、入力画像の最適画像方向を決定することと、を含む。
【選択図】図８

Description

本発明は、主として、デジタル画像の解析に関し、特に、デジタル画像の自動方向検出に関する。すなわち、最適画像方向を決定する方法、命令セットを実行するプログラム、および最適画像方向を決定するシステムに関する。

現在のマルチメディア解析の研究の多くは、デジタルコンテンツの情報検索を主眼としている。しかしながら、コンテンツベースの画像処理および画像認識の技術の多くは、入力画像が正しく方向づけられていることを前提としている。画像の生成時に、メカニカルセンサが、画像の正しい方向を示すメタデータを生成することが可能であるが、低価格のデジタルカメラ、携帯電話のカメラ、およびスキャナの場合は、依然として、ユーザが手動で正しく方向づけることが必要である。この方向の指定は、写真管理タスクに不可欠な要素なので、自動化できれば間違いなく有益である。

画像方向識別（classification）に関しては、様々な研究がある。これらの研究は、大まかに、低レベル特徴のみを用いる方法と、高レベルセマンティクスを追加で組み込む方法とに分けられる。最近の研究の多くは、この問題におけるさらなる改良のために、物体認識のレベルでより深いセマンティック画像解析が必要であることを論じている。他の多くの研究は、低レベル特徴のみをベースとする方式を採用する。

最初期のいくつかの研究の中では、非特許文献１に記載された研究が、画像方向識別に関して、ＳＶＭおよび最近傍法を含む、いくつかの標準的な識別方法を比較していた。上記研究の研究者らは、Ｃｏｒｅｌ画像データセットを使用し、方向識別にプライアを組み込むために、ベイズ方式を提示した。最小記述長による次元削減は、部分空間の次元数を選択する。この研究者らの考えでは、最良の総合効率およびパフォーマンスを実現する方法は、非特許文献２に記載された学習ベクトル量子化器（ＬＶＱ）を使用し、線形判別分析（ＬＤＡ）に基づいて次元特徴を削減していた。この研究者らは、ＮＮ法を、計算が複雑であることから、好まなかった。この研究者らはまた、識別の高速化のための、近似最近傍法またはデータ構造の使用をまったく報告していない。

非特許文献３は、新規なテクスチャ特徴およびブースティングに基づく手法を提示し、この手法は、不特定のデータセットに対して良好なパフォーマンスを示していた。非特許文献４に記載された研究は、低レベル特徴をＳＶＭと組み合わせて使用し、非特許文献５に記載された、Ｃｏｒｅｌデータセットに関する研究と同様の結果を報告していた。彼らはまた、ＳＶＭを使用した場合のパフォーマンスが、非特許文献１の、ＬＶＱを使用した場合より良好であることを報告している。

非特許文献６に記載された研究は、Ｗｅｂ配布画像の膨大なコレクションを使用した実験の結果を提示していた。この研究者らはまた、識別にＳＶＭを用いて、様々な特徴を比較した。この研究は、実質的には、Ｃｏｒｅｌ画像よりインターネット画像に対しての方がパフォーマンスが低いこと、ならびに、Ｖａｉｌａｙａらによる前述の研究よりＣｏｒｅｌに対しての方がパフォーマンスが低いことを示している。この研究者らはまた、画像カテゴリによってパフォーマンスが異なることを分析した。

非特許文献５に記載された研究は、セマンティックベースの方式を推進することに関して注目に値する。この研究者らは、顔用、青空用、曇り空用、草用、天井および壁用などにわたる、かなり多くのセマンティック概念検出器を組み込んだベイズフレームワークを使用した。しかしながら、消費者の写真が非常に多様であるために、限定的な検出器では、依然として、スケーリングが不十分である。さらに、予想されるとおり、これらの検出器は、動作に非常に時間がかかる。この研究者らは、Ｃｏｒｅｌ画像および何枚かの消費者写真をテストに使用し、Ｃｏｒｅｌ画像および消費者写真の両方のテストで、Ｖａｉｌａｙａらの研究よりパフォーマンスがかなり低いことを報告した（この研究者らは、Ｖａｉｌａｙａらの研究の結果を再現することができなかった）。この研究者らは、ベイズネットワークにおいてセマンティック検出器と低レベル特徴に基づくＳＶＭとを組み合わせることにより、Ｃｏｒｅｌ画像と消費者写真とを合わせたテストセットに対する精度がほぼ９０％になったことを報告している。この研究でのベイズネットワークの使用が示した、Ｃｏｒｅｌデータに対するＳＶＭの場合からのパフォーマンス向上は非常にわずかであったと考えられた。このシステムは強力な機械学習方式を採用しているが、このシステムが、大量のトレーニングセットを活用するためのスケーリングが可能だったかどうかは明らかでない。この一連の研究では、非特許文献７が、顔の方向、空の位置、テクスチャ化された物体、および対称性を含む、慎重に選択された方向キューを、ベイズフレームワークを用いて組み合わせ、一体化していた。この研究者らは、彼らの方法論を、一般的な画像より多くの顔を均等に含むことが知られている私的な写真についてテストして、９０％前後の精度が得られたことを報告している。非特許文献８に記載の研究は、ブースティングと屋内および屋外識別とを組み合わせた方式を提示している。この研究者らはまた、ＳＶＭおよび約５０００枚の画像のトレーニングセットを使用した実験を報告している。この研究者らは、彼らのアルゴリズムをＣｏｒｅｌデータに対してテストし、高レベルの棄却により、優れた結果が得られたことを報告しており、この結果は、前述のＬｕｏらおよびＷａｎｇらの結果と実質的に同等である。

しかしながら、前述の成功にもかかわらず、従来の技術は、正しい画像方向のスケーラブルかつ効果的な自動検出を可能にしていない。
アディチャヴァイラヤ（ＡｄｉｔｙａＶａｉｌａｙａ）、ホンジャンチャン（ＨｏｎｇＪｉａｎｇＺｈａｎｇ）、チャンジャンヤン（ＣｈａｎｇｊｉａｎｇＹａｎｇ）、フェン―イリュー（Ｆｅｎｇ−ＩＬｉｕ）、アンイルＫ．ヤイン（ＡｎｉｌＫ．Ｊａｉｎ）、「自動画像方向検出（Ａｕｔｏｍａｔｉｃｉｍａｇｅｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎ）」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、１１（７）：７４６〜７５５頁、２００２年トイヴォコホネン（ＴｅｕｖｏＫｏｈｏｎｅｎ）、ジャシィヒンニネン（ＪｕｓｓｉＨｙｎｎｉｎｅｎ）、ヤリカンガス（ＪａｒｉＫａｎｇａｓ）、ヨルマラークソネン（ＪｏｒｍａＬａａｋｓｏｎｅｎ）、カリトルッコラ（ＫａｒｉＴｏｒｋｋｏｌａ）「Ｌｖｑｐａｋ：ベクトル量子化アルゴリズム学習の適切なアプリケーションのためのプログラムパッケージ（Ａｐｒｏｇｒａｍｐａｃｋａｇｅｆｏｒｔｈｅｃｏｒｒｅｃｔａｐｐｌｉｃａｔｉｏｎｏｆｌｅａｒｎｉｎｇｖｅｃｔｏｒｑｕａｎｔｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍｓ）」、Ｉｎｔｌ．ＪｏｉｎｔＣｏｎｆ．ｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ、Ｉ７２５〜７３０頁、ＮｅｗＹｏｒｋ、１９９２年、ＡＣＭエカテリーナトルスタヤ（ＥｋａｔｅｒｉｎａＴｏｌｓｔａｙａ）、「コンテンツベース画像方向認識（Ｃｏｎｔｅｎｔ−ｂａｓｅｄｉｍａｇｅｏｒｉｅｎｔａｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ）」（Ｇｒａｐｈｉｃｏｎ２００７）ヤンメイワン（ＹｏｎｇｍｅｉＷａｎｇ）、ホンジャンチャン（ＨｏｎｇｊｉａｎｇＺｈａｎｇ）、「低レベルビジュアルコンテンツに基づく画像方向検出（Ｄｅｔｅｃｔｉｎｇｉｍａｇｅｏｒｉｅｎｔａｔｉｏｎｂａｓｅｄｏｎｌｏｗ−ｌｅｖｅｌｖｉｓｕａｌｃｏｎｔｅｎｔ）」、ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ（ＣＶＩＵ）、９３（３）：３２８〜３４６頁、２００４年ジーボルオ（ＪｉｅｂｏＬｕｏ）、マシューボウテル（ＭａｔｔｈｅｗＢｏｕｔｅｌｌ）、「低レベルおよびセマンティックキューの信頼性に基づく統合を介した自動画像方向検出（Ａｕｔｏｍａｔｉｃｉｍａｇｅｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎｖｉａｃｏｎｆｉｄｅｎｃｅ−ｂａｓｅｄｉｎｔｅｇｒａｔｉｏｎｏｆｌｏｗ−ｌｅｖｅｌａｎｄｓｅｍａｎｔｉｃｃｕｅｓ）」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、２７（５）：７１５〜７２６頁、２００５年５月シュミートバルジャ（ＳｈｕｍｅｅｔＢａｌｕｊａ）、ヘンリーＡ．ロウウェイ（ＨｅｎｒｙＡ．Ｒｏｗｌｅｙ）、「コンテンツベースの自動化された画像方向認識の大規模パフォーマンス測定（Ｌａｒｇｅｓｃａｌｅｐｅｒｆｏｒｍａｎｃｅｍｅａｓｕｒｅｍｅｎｔｏｆｃｏｎｔｅｎｔ−ｂａｓｅｄａｕｔｏｍａｔｅｄｉｍａｇｅ−ｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎ）」、Ｐｒｏｃ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇＩＣＩＰ２００５、巻２、ＩＩ−５１４〜１７頁、２００５年レイワン（ＬｅｉＷａｎｇ）、フーリュー（ＸｕＬｉｕ）、ライロンシャ（ＬｉｒｏｎｇＸｉａ）、グァンユーフー（ＧｕａｎｇｙｏｕＸｕ）、アルフレッドＭ．ブルックスタイン（ＡｌｆｒｅｄＭ．Ｂｒｕｃｋｓｔｅｉｎ）、「人間知覚キューを統合した画像方向検出（Ｉｍａｇｅｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎｗｉｔｈｉｎｔｅｇｒａｔｅｄｈｕｍａｎｐｅｒｃｅｐｔｉｏｎｃｕｅｓ（ｏｒｗｈｉｃｈｗａｙｉｓｕｐ））」、ＩＣＩＰ（２）、５３９〜５４２頁、２００３年レイチャン（ＬｅｉＺｈａｎｇ）、ミンジンリー（ＭｉｎｇｊｉｎｇＬｉ）、ホン―ジャンチャン（Ｈｏｎｇ−ＪｉａｎｇＺｈａｎｇ）、「屋内対屋外識別を用いたブースティング画像方向検出（Ｂｏｏｓｔｉｎｇｉｍａｇｅｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎｗｉｔｈｉｎｄｏｏｒｖｓ．ｏｕｔｄｏｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎ）」、ＷＡＣＶ ‘０２：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳｉｘｔｈＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、９５頁、Ｗａｓｈｉｎｇｔｏｎ、ＤＣ、ＵＳＡ、２００２年、ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ

本発明は、従来の画像方向検出手法に関連する前述の問題およびその他の問題のうちの１つまたは複数を実質的に未然に回避する方法およびシステムを対象とする。

本発明の第１の態様は、最適画像方向を決定する方法であって、（ａ）入力画像を取得することと、（ｂ）入力画像の画像特徴を抽出することと、（ｃ）画像の代替方向に対応する回転画像特徴を生成することと、（ｄ）抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析することと、（ｅ）重み付き多数決を用いて最近傍候補の方向を組み合わせることと、（ｆ）（ｅ）の結果を用いて、入力画像の最適画像方向を決定することと、を含む。

本発明の第２の態様は、第１の態様の最適画像方向を決定する方法であって、複数の探索木を用いて解析することはさらに、ｋ次元木を用い、空間ブロック、特徴次元、または空間ブロックおよび特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けることを含む。

本発明の第３の態様は、第１の態様の最適画像方向を決定する方法であって、抽出された画像特徴に対して分解を実行することをさらに含む。

本発明の第４の態様は、第１の態様の最適画像方向を決定する方法であって、抽出された画像特徴は、エッジ方向ヒストグラムを含む。

本発明の第５の態様は、第１の態様の最適画像方向を決定する方法であって、エッジ方向ヒストグラムは、均一な空間グリッドを用いて生成される。

本発明の第６の態様は、第５の態様の最適画像方向を決定する方法であって、エッジ方向ヒストグラムは、各空間グリッド要素において、エッジを、均等分割されたビンに量子化することによって生成される。

本発明の第７の態様は、第１の態様の最適画像方向を決定する方法であって、色モーメント特徴を計算することをさらに含む。

本発明の第８の態様は、第１の態様の最適画像方向を決定する方法であって、抽出された画像特徴を正規化することをさらに含む。

本発明の第９の態様は、第１の態様の最適画像方向を決定する方法であって、回転画像特徴は、ブロックの並べ替えとエッジ方向回転とを用いて生成される。

本発明の第１０の態様は、第１の態様の最適画像方向を決定する方法であって、複数の探索木は、既知の方向の画像のトレーニングセットを用いて生成される。

本発明の第１１の態様は、命令セットを実行するプログラムであって、命令セットは、１つまたは複数のプロセッサで実行された場合に、最適画像方向を決定する機能を、１つまたは複数のプロセッサに実施させるように動作可能であり、機能は、（ａ）入力画像を取得するステップと、（ｂ）入力画像の画像特徴を抽出するステップと、（ｃ）画像の代替方向に対応する回転画像特徴を生成するステップと、（ｄ）抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析するステップと、（ｅ）重み付き多数決を用いて最近傍候補の方向を組み合わせるステップと、（ｆ）（ｅ）のステップの結果を用いて、入力画像の最適画像方向を決定するステップと、を含む。

本発明の第１２の態様は、第１１の態様のプログラムであって、探索木を構築することはさらに、ｋ次元木を用い、空間ブロック、特徴次元、または空間ブロックおよび特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けするステップを含む。

本発明の第１３の態様は、第１１の態様のプログラムであって、抽出された画像特徴に対して分解を実行するステップをさらに含む。

本発明の第１４の態様は、第１１の態様のプログラムであって、抽出された画像特徴は、エッジ方向ヒストグラムを含む。

本発明の第１５の態様は、第１１の態様のプログラムであって、エッジ方向ヒストグラムは、均一な５×５空間グリッドを用いて生成される。

本発明の第１６の態様は、第１５の態様のプログラムであって、エッジ方向ヒストグラムは、各空間グリッドにおいて、エッジを、均等分割されたビンに量子化することによって生成される。

本発明の第１７の態様は、第１１の態様のプログラムであって、色モーメント特徴を計算するステップをさらに含む。

本発明の第１８の態様は、第１１の態様のプログラムであって、抽出された画像特徴を正規化するステップをさらに含む。

本発明の第１９の態様は、第１１の態様のプログラムであって、回転画像特徴は、ブロックの並べ替えとエッジ方向回転とを用いて生成される。

本発明の第２０の態様は、第１１の態様のプログラムであって、複数の探索木は、既知の方向の画像のトレーニングセットを用いて生成される。

本発明の第２１の態様は、最適画像方向を決定するシステムであって、（ａ）入力画像を取得するように動作可能な入力モジュールと、（ｂ）入力画像の画像特徴を抽出するように動作可能な画像特徴抽出モジュールと、（ｃ）画像の代替方向に対応する回転画像特徴を生成するように動作可能な回転画像特徴生成モジュールと、（ｄ）抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析するように動作可能な探索木モジュールと、（ｅ）重み付き多数決を用いて最近傍候補の方向を組み合わせるように動作可能な組み合わせモジュールと、を備え、入力画像の最適画像方向は、組み合わせの結果に基づいて決定される。

本発明の第２２の態様は、第２２の態様のシステムであって、探索木を構築することはさらに、ｋ次元木を用い、空間ブロック、特徴次元、または空間ブロックおよび特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けることを含む。

本発明によれば、効率を犠牲にせずに、一般的なデータセットに対して、最先端システムを大きくしのぐパフォーマンスを示すことができる。

本発明に関連するさらなる態様が、一部は以下の説明で示され、一部はその説明から明白になるか、本発明の実施によって知られることが可能であろう。本発明の諸態様は、以下の詳細説明および添付の請求項において特に指摘された要素ならびに様々な要素と態様との組み合わせによって実現および達成されることが可能である。

前述および後述の説明は、いずれも例示的かつ説明的に過ぎず、いかなる様式でも、請求対象の発明またはその応用を制限するものではまったくないことを理解されたい。

添付図面は、本明細書に組み込まれ、本明細書の一部を構成し、本発明の実施形態を例示し、本明細書とともに、本発明の手法の原理を説明および図示することに役立つ。

以下の詳細説明では、添付図面を参照する。添付図面においては、同一機能要素は、類似の参照符号で指定される。添付図面は、限定ではなく例示として、本発明の原理と合致する具体的な実施形態および実装を示す。これらの実装は、当業者であれば本発明を実践できるよう、十分詳細に説明されており、他の実装も利用可能であること、ならびに、本発明の範囲および趣旨から逸脱することなく、各種要素の構造の変更および置換のいずれか一方を行うことが可能であることを理解されたい。したがって、以下の詳細説明は、限定的であると解釈されるべきではない。さらに、本発明の各種実施形態は、説明されるとおり、汎用コンピュータで実行されるソフトウェアのかたちで、または専用ハードウェアのかたちで、またはソフトウェアとハードウェアの組み合わせのかたちで実装されることが可能である。

本発明の方法において、識別は、効率を犠牲にせずに、大量のトレーニングセットに良好にスケーリングする近似最近傍方式を用いて進められる。本願発明者らは、３００００枚近くのＦｌｉｃｋｒ写真からなる、これまでで最大のデータセットと、両方とも高難度かつ典型的である、消費者の利用シナリオとに対して本方法をテストし、成功した。制限されたデータは、異なったシステムを比較するのに使用可能だが、提案のシステムは、一般的なデータセットに対して、最先端システムを大きくしのぐパフォーマンスを示す。

図１は、方向検出の例示的な問題を示す。正しい方向は、左端の画像１０１である。

当業者には知られていることであるが、ＳＶＭ、ベイズネットワーク、ブースティングなどの、どちらかと言えば異種である学習手法が、Ｃｏｒｅｌデータに対しては、ほぼ同等のパフォーマンスを示す。Ｃｏｒｅｌデータセットは、シンプルすぎるという意見が多いが、それでも、様々なタスクに使用され続けている。一方、本願発明者らは、よりデータ集約型の方式が必要であると考える。本発明の方法の実施形態は、近傍ベースのノンパラメトリック識別および大規模な汎用トレーニング（およびテスト）セットの使用を前提とする。この方式は、コンテンツ、または何らかのメタデータの利用可能性に関して限定的な仮定を行わず、また、専用のセマンティック識別器に依存しない。

本発明の手法の一実施形態は、近似手法および効率的なデータ構造を用いて、効率を犠牲にせずに、最近傍識別をより高い次元特徴および大量のトレーニングセットにスケーリングする、高パフォーマンスの画像方向識別方式を提供する。この方法は、ｋ次元木を用い、空間ブロック、特徴次元、またはこれら２つの何らかの組み合わせまたは射影に基づいて、特徴にインデックスを付ける。個々の木は、重み付き多数決によって識別の最近傍候補を生成するために使用される。前述のように、本発明の方法は、この問題が、最小限のプライア仮定と大規模な汎用トレーニングセットとによる識別方法を必要としていることが前提である。そのようなトレーニングデータは、現在では、インターネット上で普通に入手可能である。本願発明者らがここで使用しているものよりさらに大規模なトレーニングセットを使用すれば、計算効率に顕著な影響を与えることなく、さらなる改善が可能であると考えられている。本発明の方式の各種実施形態は、これらの新規に入手可能な、急速に増えつつある配布データコレクションを活用するように設計されている。

本発明の原理体系の一実施形態によれば、方向検出に対するスケーラブルなアプローチが提供される。本発明の一実施形態は、モデルトレーニング目的のための、Ｗｅｂからの豊富な人間情報に依存する。どの学習方法にも２つの構成要素があり、それらはデータとモデルである。ジェームズヘイズ（ＪａｍｅｓＨａｙｓ）、アレクセイＡ．エフロス（ＡｌｅｘｅｉＡＥｆｒｏｓ）らの「何百枚もの写真を用いたシーンコンプリーション（Ｓｃｅｎｅｃｏｍｐｌｅｔｉｏｎｕｓｉｎｇｍｉｌｌｉｏｎｓｏｆｐｈｏｔｏｇｒａｐｈｓ）」（ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ（ＳＩＧＧＲＡＰＨ２００７）、２６（３）、２００７年）で詳しく説明されている、自然言語処理とコンピュータグラフィックスにおける過去の調査では、シンプルなモデルでも十分なデータが与えられれば、より複雑なモデルと同等の働きが可能であることが鮮明に示されている。そこで、本発明の一実施形態は、誰でも入手できる大規模なトレーニングデータを活用し、改良された標準特徴を抽出し、怠惰な最近傍法（ＮＮ）ベースのインデックスを用いて、トレーニングデータの低レベル表現を行う。この問題の中心的な課題は、種々の写真カテゴリが、方向識別に関して非常に多様な難題を提示することである。こうした多様性については、シュミートバルジャ（ＳｈｕｍｅｅｔＢａｌｕｊａ）、ヘンリーＡ．ロウウェイ（ＨｅｎｒｙＡ．Ｒｏｗｌｅｙ）らの「コンテンツベースの自動化された画像方向認識の大規模パフォーマンス測定（Ｌａｒｇｅｓｃａｌｅｐｅｒｆｏｒｍａｎｃｅｍｅａｓｕｒｅｍｅｎｔｏｆｃｏｎｔｅｎｔ−ｂａｓｅｄａｕｔｏｍａｔｅｄｉｍａｇｅ−ｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎ）」（Ｐｒｏｃ、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇＩＣＩＰ２００５、巻２、ＩＩ−５１４〜１７頁、２００５年）で、念入りに詳述されており、これによれば、この問題に関する以前の研究で使用された一般的なテストセットは、非現実的であると考えられ、空や他の強い方向手がかりを含む風景画像が過度に含まれることが多かった。この問題の最近の扱い方は、２種類のアプローチに明白に分かれている。シンプルな方は低レベル特徴のみを用い、一方、複雑な方は、何らかの明示的なセマンティック情報が画像方向の認識に不可欠であることを前提としている。本発明概念の実施形態によれば、暗黙的なセマンティック統計情報が埋め込まれた十分なデータが低レベル特徴に与えられていれば、低レベル特徴は、適切に処理された場合に、「顔検出」や「屋内および屋外のいずれか一方」のようなセマンティック識別器の支援がなくても、単独で高レベルのパフォーマンスを示すことが可能であることを、説得力を持って示すことが可能である。これは、最近傍法が、十分なトレーニングデータが利用可能な場合に、非常に良好なパフォーマンスを示すためであることに注意されたい。結果が示すように、「花」、「鳥」、「カメラ付き携帯電話」などの、最も難度が高い画像方向タスクでも、本発明の方法の実施形態によれば、９５％を超える検出精度で解決可能である。

当業者にはよく知られているが、最近傍法の主たる弱点は、単純な実装の計算の複雑さである。しかしながら、このことは、本発明の少なくともいくつかの実施形態では、制限になっていない。これは、それらの実施形態が近似最近傍法（ＡＮＮ）の実装を用いていて、抽出された画像特徴が与えられれば、通常は、数ミリ秒で結果を返すためである。ティンリュー（ＴｉｎｇＬｉｕ）、チャックローゼンバーグ（ＣｈｕｃｋＲｏｓｅｎｂｅｒｇ）、ヘンリーロウウェイ（ＨｅｎｒｙＲｏｗｌｅｙ）らの「大規模最近傍探索を用いた多量の画像のクラスタリング（ＣｌｕｓｔｅｒｉｎｇＢｉｌｌｉｏｎｓｏｆＩｍａｇｅｓｗｉｔｈＬａｒｇｅＳｃａｌｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒＳｅａｒｃｈ）」、（Ｐｒｏｃ．ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、２００７年）に記載されているように、近似最近傍探索のための先進的なデータ構造および分散実装により、本明細書で検討されているより格段に大規模なデータセットを処理することが可能になっている。

同時に、計算の複雑さは、これらの方法を消費者領域に導入するうえでクリティカルな検討事項である。したがって、本明細書では、大規模なトレーニングセットおよびテストセットに対する識別の平均実行時間を報告する。
技術的詳細
以下では、デジタル写真に使用される、本発明の各種実施形態を説明する。当業者であれば理解されるように、本発明概念の一実施形態の、記載された様々な特徴（特に、エッジヒストグラム特徴）は、画像方向検出用の過去のアルゴリズムと比較して、きわめて強力である。しかしながら、低レベル特徴および距離関数に関しては他の選択も可能であり、状況によっては、そちらの方が適切な場合もある。
特徴抽出
本発明の手法の一実施形態によれば、画像方向に関係なく、均一な５×５空間グリッドのかたちの各ブロックから、エッジ方向ヒストグラムが抽出される。この均一な５×５ブロックは、風景画像およびポートレート画像の両方に適している。次に各グリッドにおいては、Ｃａｎｎｙフィルタ応答の取得後に、それらのエッジが、ヒストグラムを形成する方向の、均等分割された１６個のビンに量子化される。各画素のエッジの大きさが、対応する方向範囲に入るビンの重みとしてカウントされる。さらに、しきい値を下回るエッジ大きさの代わりに（すなわち、平滑点を収集するために）１つの追加ビンが使用される。このビンは、検出できる顕著なエッジがないブロックのヒストグラムを支配する。したがって、各ブロックは１７次元を有し、結果として得られるこの特徴の次元数は、２５×１７＝４２５である。

方向識別システムで一般的に使用される色モーメント特徴も、計算されている。この特徴の場合は、色特徴が低次元記述子であるため、画像は、ＬＵＶ色空間に変換され、より細かい７×７空間グリッドが使用される。各ブロックでは、各ＬＵＶチャネルの第１および第２のモーメントが計算され、保存される。結果として得られる次元数は４９×６＝２９４である。

本発明の手法の一実施形態によれば、特徴は、次元ごとの最小−最大スタイルで正規化される。次元ｉに対し、その次元の最小値をｆ^m _i、最大値をｆ^M _iとすると、各特徴値ｆ_iは、ｆ_i（ｆはイタリック体）＝ｆ_i−ｆ^m _i／ｆ^M _i−ｆ^m _iに正規化される。ここで、ｆ_i（ｆはイタリック体）は、後続の処理のために正規化された特徴である。
識別方式
本発明の一実施形態は、４つの方向すべての識別を目標とするので、本発明の一実施形態では、４クラス識別方式が採用される。本発明のシステムの一実施形態は、入力画像が与えられると、その画像を左に回転すべきか、右に回転すべきか、上下反転すべきか、そのままにすべきかを決定しようとする。この識別方式は、可能な方向ごとの画像特徴を抽出することと等価である。回転画像に対応する、回転された特徴は、ブロックの並べ替えと、そのエッジ特徴のエッジ方向回転とによって得られる。そして、これは、利用可能なトレーニングセットを増やし、効率的な識別方法の使用をさらに必要とする。
最近傍解析
実験において膨大な数のトレーニング例が与えられた場合、そのすべてのデータセットを用いてサポートベクトルマシン（ＳＶＭ）識別器をトレーニングするのは、Ｏ（Ｎ²）さらにはＯ（Ｎ³）トレーニング時間が必要であることから、非現実的である。一方では、サポートベクトルがそのデータサイズに比例するために、テスト時間がかなり長くなる可能性がある。これは、シュミートバルジャ（ＳｈｕｍｅｅｔＢａｌｕｊａ）の「自動画像方向検出：スケーラブルブースティングアプローチ（Ａｕｔｏｍａｔｅｄｉｍａｇｅ−ｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎ：ａｓｃａｌａｂｌｅｂｏｏｓｔｉｎｇａｐｐｒｏａｃｈ）」、（ＰａｔｔｅｒｎＡｎａｌ．Ａｐｐｌ．、１０（３）：２４７〜２６３頁、２００７年）で説明されているとおりである。これに対し、ＮＮ方式は、近似が組み込まれると、格段に効率的になり、大規模なデータセットを良好に処理することが可能である。
特徴に基づく部分空間
本発明の一実施形態によれば、低レベル特徴が与えられた場合に、近似最近傍法（ＡＮＮ）と、デイヴィッドＭ．マウント（ＤａｖｉｄＭ．Ｍｏｕｎｔ）、スニルアラヤ，アン（ＳｕｎｉｌＡｒｙａ，Ａｎｎ）らの「近似最近傍探索のためのライブラリ、ヴァージョン１．１．１（Ａｌｉｂｒａｒｙｆｏｒａｐｐｒｏｘｉｍａｔｅｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｅａｒｃｈｉｎｇ，ｖｅｒｓｉｏｎ１．１．１）」に記載のソフトウェアパッケージ（メリーランド大学コンピュータ科学科から入手可能）とを用いて、一連の探索木が構築される。

アンドリュームーア（ＡｎｄｒｅｗＭｏｏｒｅ）の「ｋｄ木についてのチュートリアル（A tutorial on kd-trees）」、（博士論文、1991年)からの抜粋であり、カーネギーメロン大学から入手可能）に記載のｋ次元木は、特徴次元が３０次元を超える場合には、スケーリングがうまくできないため（ティンリュー（ＴｉｎｇＬｉｕ）、チャックローゼンバーグ（ＣｈｕｃｋＲｏｓｅｎｂｅｒｇ）、ヘンリーロウウェイ（ＨｅｎｒｙＲｏｗｌｅｙ）らの「大規模最近傍探索を用いた多量の画像のクラスタリング（ＣｌｕｓｔｅｒｉｎｇＢｉｌｌｉｏｎｓｏｆＩｍａｇｅｓｗｉｔｈＬａｒｇｅＳｃａｌｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒＳｅａｒｃｈ）」、（Ｐｒｏｃ．ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、２００７年）を参照)、特徴を分割して、ｋ次元木あたり３０次元を超えない部分空間の集まりにするために、スケーリングの前に、分解の１ステップが追加される。具体的には、測定は、空間ブロック全体にわたる１７個のエッジヒストグラムビンのそれぞれに対応して分けられる。すなわち、ブロックエッジヒストグラムは、１７個の２５次元ベクトルとして再インデックス付けされる。そして、これらのトレーニング特徴から、１７個のｋ次元木が計算される。

本発明の一実施形態によれば、識別は、以下のように進められる。テスト画像が与えられると、部分並べ替え手順を用いて、１７個の木のそれぞれから１０個の最近傍が識別される。このステップにより、１７０個のトレーニングサンプルが生成され、ここから、全距離を再計算することによって、テストサンプルに最も近い１０個が決定される。これら１０個のサンプルを用いて、距離重み付けスコアによる、テストサンプルのクラスに関する多数決が行われる。１０個のトレーニングサンプルを｛ｔ_i：ｉ＝１，・・・，１０｝とし、クエリ画像をｑとする。簡単のために、１０個のサンプルは、ｔ₁がｑに最も近いトレーニングサンプルになるように、ｑからの距離に応じて並べ替えられているものとする。１０個のサンプルのうちの、ｉ番目に遠いサンプルからの距離を、ｄ（ｔ_i，ｑ）と定義する。すると、各クラスｃのスコアは、次式のとおりである。

ここで、Ｉ_iは、トレーニングサンプルｔ_iのラベルであり、δ（Ｉ_i−ｃ）は、Ｉ_i＝ｃの場合のみ１であり、それ以外の場合は０であるデルタ関数である。予測クラスは、上記スコアの単純な最大化（次式の（重み付き）多数決と等価）によって決定される。

特徴ベクトルは、ｋ次元木内で、単独に、ヒストグラムビンに応じてインデックス付けされる。これは、ｋ次元木のパフォーマンスが特徴とうまく対応しないためである。しかしながら、そのような近似最近傍方式のパフォーマンスは、計算を大幅に減らしても、厳密な方法のパフォーマンスに近いことが多い。

識別をさらに高速化するために、最近傍探索は、各木において、優先キューを用いて切り詰められる。一般に、ｋ次元木を使用することは、木内のトレーニング点の広範囲にわたるチェックを必要としない。木の構造は、距離を計算する必要があるトレーニング点を著しく限定するように設計される。実験では、各画像について、評価される点の数を３００または４００に制限するように、パラメータｍを設定する。詳細については、スニルアラヤ（ＳｕｎｉｌＡｒｙａ）、デイヴィッドＭ．マウント（ＤａｖｉｄＭ．Ｍｏｕｎｔ）、ネイサンＳ．ネタンヤフ（ＮａｔｈａｎＳ．Ｎｅｔａｎｙａｈｕ）、ルースシルヴァーマン（ＲｕｔｈＳｉｌｖｅｒｍａｎ）、アンジェラＹ．ウー（ＡｎｇｅｌａＹ．Ｗｕ）らの「固定次元近似最近傍探索のための最適化アルゴリズム（Ａｎｏｐｔｉｍａｌａｌｇｏｒｉｔｈｍｆｏｒａｐｐｒｏｘｉｍａｔｅｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｅａｒｃｈｉｎｇｆｉｘｅｄｄｉｍｅｎｓｉｏｎｓ）」（Ｊ．ＡＣＭ，４５（６）：８９１〜９２３頁、１９９８年）、およびデイヴィッドＭ．マウント（ＤａｖｉｄＭ．Ｍｏｕｎｔ）、スニルアラヤ，アン（ＳｕｎｉｌＡｒｙａ，Ａｎｎ）らの「近似最近傍探索のためのライブラリ、ヴァージョン１．１．１（Ａｌｉｂｒａｒｙｆｏｒａｐｐｒｏｘｉｍａｔｅｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｅａｒｃｈｉｎｇ，ｖｅｒｓｉｏｎ１．１．１）」に記載のソフトウェアパッケージ（メリーランド大学コンピュータ科学科から入手可能）を参照されたい。
射影に基づく部分空間
上述の方式には、興味深い代替実施形態がいくつもある。特徴に基づく射影方式は、より一般的なランダム射影に基づく部分空間の一具体例であり、これについては、ドミートリィフラドキン（ＤｍｉｔｒｉｙＦｒａｄｋｉｎ）、デイヴィッドマディガン（ＤａｖｉｄＭａｄｉｇａｎ）らの「機械学習のためのランダムプロジェクションを用いた実験（Ｅｘｐｅｒｉｍｅｎｔｓｗｉｔｈｒａｎｄｏｍｐｒｏｊｅｃｔｉｏｎｓｆｏｒｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）」、（ＫＤＤ ’０３：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｎｉｎｔｈＡＣＭＳＩＧＫＤＤｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙａｎｄｄａｔａｍｉｎｉｎｇ、５１７〜５２２頁、ＮｅｗＹｏｒｋ、ＮＹ、ＵＳＡ、２００３年、ＡＣＭ）に記載されている。一実施形態では、一般的なランダム射影が実装され、特徴に基づく射影と比較される。
評価
本発明の方式の実施形態を、人気のある写真共有サイトＦｌｉｃｋｒから集めた大規模なデータセットを使用して評価した。５６３１５枚の写真をダウンロードし、人気のあるタグのセットの中の少なくとも１つを、処理用として選択した。これらの写真はすべて、２００７年のある１０か月間のものである。これらの写真を無作為に、ほぼ同数のトレーニングセットとテストセットとに分けた（トレーニング用が２８１５７枚、テスト用が２８１５８枚）。以下では、このデータを使用した実験について説明する。さらに、入手可能な写真コレクションから、別の３つの、より小規模なテストデータセットを集めた。テストセット１および２は、いずれも、数年間にわたる私的写真コレクションである。「ＵＷ」コレクションは、私的写真コレクションではなく、物体認識のベンチマーク実験に使用された写真のセットである。人気のあるタグが付いた最も一般的な画像に偏るのを避けるために、６つの多少オーバーラップするカテゴリの写真をＦｌｉｃｋｒから追加抽出した。これらは、ジーボルオ（ＪｉｅｂｏＬｕｏ）、マシューボウテル（ＭａｔｔｈｅｗＢｏｕｔｅｌｌ）、「低レベルおよびセマンティックキューの信頼性に基づく統合を介した自動画像方向検出（Ａｕｔｏｍａｔｉｃｉｍａｇｅｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎｖｉａｃｏｎｆｉｄｅｎｃｅ−ｂａｓｅｄｉｎｔｅｇｒａｔｉｏｎｏｆｌｏｗ−ｌｅｖｅｌａｎｄｓｅｍａｎｔｉｃｃｕｅｓ）」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、２７（５）：７１５〜７２６頁、２００５年５月、およびシュミートバルジャ（ＳｈｕｍｅｅｔＢａｌｕｊａ）の「自動画像方向検出：スケーラブルブースティングアプローチ（Ａｕｔｏｍａｔｅｄｉｍａｇｅ−ｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎ：ａｓｃａｌａｂｌｅｂｏｏｓｔｉｎｇａｐｐｒｏａｃｈ）」、（ＰａｔｔｅｒｎＡｎａｌ．Ａｐｐｌ．、１０（３）：２４７〜２６３頁、２００７年）に記載されている、これまでの方式では困難であると考えられたものであり、具体的には、「鳥」、「植物」、「動物」、「蝶」、「花」、および「カメラ付き携帯電話」である。各カテゴリは、２０００枚の写真からなり、カメラ付き携帯電話だけは、入手可能なデータが限られていたために、１５８３枚である。結果はすべて、２ＧＢのＲＡＭを擁するＩｎｔｅｌＣｏｒｅＤｕｏ２．４ＧＨｚマシンを用いて取得された。本発明の一実施形態の現在の実装はマルチスレッディングを採用していないが、マルチスレッディングは、明らかに、ｋ次元木の構築および探索の両方の並列化に適している。

実践的に言えば、本システムが現実世界で使用される場合、画像は、デジタルカメラによって生成される可能性が高い。この使い方の場合、ユーザは、カメラを非常に頻繁に回転させる可能性があるが、風景画像に関しては、カメラを回転させることはかなりまれである。したがって、風景の方向は１つだけと見なすことにより、効率が上がり、通常は精度も上がる。本願発明者らはまた、システムが確信して方向を決定することができない場合の、シンプルな棄却方式を検討した。棄却は、最大値と、次いで２番目に大きい値との識別スコア比を所与の値でしきい値処理することによって組み込まれる。したがって、識別器が確信を持てない写真は、手動検査に回すべく保持される。

過去のシステムの動作はすべて、入手不可能なＣｏｒｅｌデータセットに基づいていたため、ＵＷセットの７つのサブセットについて、Ｂａｌｕｊａの総合的な動作との比較を行った。しかしながら、本発明のシステムの一実施形態のパフォーマンスは、Ｂａｌｕｊａのパフォーマンスよりすぐれていることがわかった。
Ｆｌｉｃｋｒテストセットについての結果
図２に示された表２００の結果は、大規模な汎用消費者データセットの方向識別に関して、非常に良好なパフォーマンスを示している。非常に大規模なトレーニングセットを使用したにもかかわらず、前述の修正された最近傍探索を用いて、各方法の、画像あたりの識別時間が５ミリ秒を下回ったことが報告されている。低レベル特徴の融合、３つのクラスの識別、および異常値棄却のすべてにおいて、パフォーマンスがいっそう向上した。木の数は、低レベル特徴の次元数に基づく。ノードの次元数は、特徴が計算される空間ブロックの総数である。これは、各木の特徴ベクトルの次元数である。「ｎｎ」の行は、識別に使用される近似最近傍の数である。「ｍ」の行は、探索を切り詰める前に近似最近傍を決定するために探索される点の数を支配するパラメータである。表２００はさらに、総合精度と、ポートレート写真および風景写真の個々の認識率を示している。棄却を組み込んだ結果を、図３の表３００に示す。棄却率はきわめて低く、これは、本方法が、実践時にユーザ側の手動修正をほとんど必要としないことをさらに示している。
他のテストセットについての結果
第２の実験では、Ｆｌｉｃｋｒからダウンロードしたトレーニングデータを用いる、前述の設計された木を用いて、様々な、より小さい、入手可能な写真コレクションの方向を識別した。前に３つのデータセットを紹介した。同じＦｌｉｃｋｒトレーニングデータを使用した、これらのテストセットについての識別結果を、図４の表４００に示す。消費者領域では、円対称性が高い、平滑パターン、またはテクスチャパターン、または他のコンテンツがあまり一般的ではないため、問題はいくぶん簡単である。しかしながら、これらの結果は、この問題に大規模な汎用トレーニングセットを用いることが非常に効果的であることを示している。

様々なタグを有するこれらのテストセットの画像は、より広い領域に対するオーバーフォーカスや、見過ごされてきたいくつかの高難度の画像についての、可能性のある疑問に答えようとする。前述のＢａｌｕｊａにおいて指摘されたように、それらのタグに関連付けられた画像は、きわめて難度が高く、犬の画像は７５％しか正しくなく、鳥は６０〜７８％、花および蝶は、それぞれ４６％および５４％と低くなる可能性がある（これらはすべての３方向のタスクである）。一方、カメラ付き携帯電話で取り込まれた写真は、近い将来の潜在的な応用である。ここでそれらが選択されているのは、そのためである。カメラ付き携帯電話で撮られた画像の報告された精度は、Ｂａｌｕｊａの場合で７１％である。これらのタグのテストセットについての識別結果を、図５の表５００に示す。

結果が示すように、本発明のシステムの、使用された実施形態は、これらの難度の高いタグに対して非常に良好なパフォーマンスを示す。本発明のシステムの実施形態が、これらの、あまり注目されない、高難度のカテゴリに良好に適合することは明らかであろう。なお、識別器を各テストコレクションに適合させる必要はまったくない。
最先端システムとの比較
入手可能なデータが限られていたために、本発明のシステムの一実施形態を、先述のＢａｌｕｊａに記載のシステムとのみ、ＵＷセットからの５５０枚の写真で比較することが可能であった。これは、Ｂａｌｕｊａが、親切にも、Ｂａｌｕｊａの（表２の）８カテゴリのＵＷデータについて詳細な結果を提供してくれたためである。しかしながら、Ｂａｒｃｅｌｏｎａ２サブセットはＷｅｂサイトで入手できなかったので、比較は、残りの７つのサブセットとのみ行われた。結果を、図６の表６００に示す。ここでも、結果は、３方向タスク（棄却あり）と４方向（棄却なし）について示されている。

本発明の方法の一実施形態の実行時間はまた、公開されているシステムのうちの最も高速な部類に入る。Ｌｕｏは、特徴抽出を除き、１枚の写真について６秒かかり、シュミートバルジャ（ＳｈｕｍｅｅｔＢａｌｕｊａ）、ヘンリーＡ．ロウウェイ（ＨｅｎｒｙＡ．Ｒｏｗｌｅｙ）、「コンテンツベースの自動化された画像方向認識の大規模パフォーマンス測定（Ｌａｒｇｅｓｃａｌｅｐｅｒｆｏｒｍａｎｃｅｍｅａｓｕｒｅｍｅｎｔｏｆｃｏｎｔｅｎｔ−ｂａｓｅｄａｕｔｏｍａｔｅｄｉｍａｇｅ−ｏｒｉｅｎｔａｔｉｏｎｄｅｔｅｃｔｉｏｎ）」、Ｐｒｏｃ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇＩＣＩＰ２００５、巻２、ＩＩ−５１４〜１７頁、２００５年）に記載された研究では、３９３０個の特徴についてＳＶＭを採用したが、これは低速であるはずである。これに対し、本発明のシステムの実施形態の実行時間は、やはり特徴抽出を除き、わずか４ミリ秒である。Ｂａｌｕｊａとの比較を行うことが好ましいが、その点では、実行時間の情報が提供されていない。それらの実験は、使用された単一ＰＣではなく、大規模分散コンピューティング環境で実施されることも可能であった。
追加データの効果
本願発明者らは、最後に、１８６１画像の私的写真コレクションであるテストセット１を用いて実験を行い、より小さいトレーニングセットを用いた場合のパフォーマンスを評価した。その結果を、図７の表７００に示す。トレーニングのために使用する、Ｆｌｉｃｋｒセットからの写真が５０００枚しかない場合、精度が低下するが、画像あたりの平均識別時間が３６％短くなる。トレーニングセットをより大きくすれば、複雑さが特に増すことなく、さらなるパフォーマンス向上が可能であると考えられている。
例示的な操作手順
図８は、本発明の手法の一実施形態の例示的操作手順８００を示す。ステップ８０１で、入力画像が取得される。ステップ８０２で、本システムは、入力画像の画像特徴（エッジ方向ヒストグラム）を抽出する。ステップ８０３で、本システムは、画像（回転画像）の代替方向に対応する画像特徴を生成する。ステップ８０４で、本システムは、近似最近傍手法を実装する複数の探索木を用いて、抽出および生成された特徴を解析する。ステップ８０５で、本システムは、重み付き多数決を用いて最近傍候補を識別する。ステップ８０６で、本システムは、識別結果に基づいて入力画像の最適画像方向を決定する。

本発明の別の実施形態では、回転画像に対応する特徴を生成する代わりに、実際に回転した画像から同等の特徴を抽出する。
例示的なコンピュータプラットフォーム
図９は、本発明の原理体系の一実施形態を実装することが可能なコンピュータおよびサーバシステム９００の一実施形態を示すブロック図である。システム９００は、コンピュータおよびサーバプラットフォーム９０１、周辺装置９０２、およびネットワークリソース９０３を含む。

コンピュータプラットフォーム９０１は、コンピュータプラットフォーム９０１の各種要素全体への（かつ要素間の）情報伝達のためのデータバス９０４または他の通信メカニズムと、バス９０４に結合されて、情報を処理し、他の計算タスクおよび制御タスクを実行するプロセッサ９０５とを含むことが可能である。コンピュータプラットフォーム９０１はさらに、バス９０４に結合されて、各種情報ならびにプロセッサ９０５によって実行されるべき命令を格納する揮発性記憶装置９０６（ランダムアクセスメモリ（ＲＡＭ）または他の動的記憶装置など）を含む。揮発性記憶装置９０６はさらに、プロセッサ９０５による命令の実行時に、一時変数または他の中間情報を格納するために使用されることが可能である。コンピュータプラットフォーム９０１はさらに、バス９０４に結合されて、静的情報およびプロセッサ９０５用の命令（基本入出力システム（ＢＩＯＳ）、ならびに各種システム構成パラメータなど）を格納する読み出し専用メモリ（ＲＯＭまたはＥＰＲＯＭ）９０７または他の静的記憶装置を含むことが可能である。情報および命令を格納するために、永続的記憶装置９０８（磁気ディスク、光ディスク、半導体フラッシュメモリ装置など）が設けられ、バス９０４に結合されている。

コンピュータプラットフォーム９０１は、情報をコンピュータプラットフォーム９０１のシステム管理者またはユーザに対して表示するために、バス９０４を介して、ディスプレイ９０９（ブラウン管ディスプレイ（ＣＲＴ）、プラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）など）に結合されることが可能である。情報およびコマンド選択をプロセッサ９０５に伝達するために、英数字キーおよびその他のキーを含む入力装置９１０がバス９０４に結合される。別のタイプのユーザ入力装置として、方向情報およびコマンド選択をプロセッサ９０４に伝達し、ディスプレイ９０９上のカーソルの動きを制御するカーソル制御装置９１１（マウス、トラックボール、カーソル方向キーなど）がある。この入力装置は、典型的には、平面内の位置を指定できるように、２つの軸（第１の軸（たとえば、ｘ）および第２の軸（たとえば、ｙ））のかたちで２自由度を有する。

コンピュータプラットフォーム９０１用の追加記憶容量またはリムーバブル記憶容量を提供するために、バス９０４経由で、外部記憶装置９１２をコンピュータプラットフォーム９０１に接続することが可能である。本コンピュータシステム９００の一実施形態では、外部リムーバブル記憶装置９１２を用いて、他のコンピュータシステムとのデータ交換を推進することが可能である。

本発明は、本明細書に記載の手法を実装するためのコンピュータシステム９００の使用に関する。一実施形態では、本発明のシステムは、コンピュータプラットフォーム９０１のようなマシンに配置されることが可能である。本発明の一実施形態によれば、本明細書に記載の手法は、揮発性メモリ９０６に含まれた１つまたは複数の命令の１つまたは複数のシーケンスをプロセッサ９０５が実行することに対する応答として、コンピュータシステム９００によって実行される。そのような命令は、別のコンピュータ可読媒体（永続的記憶装置９０８など）から揮発性メモリ９０６に読み込まれることが可能である。揮発性メモリ９０６に含まれる命令のシーケンスの実行によって、プロセッサ９０５が、本明細書に記載の処理ステップを実行する。代替実施形態では、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路を用いて本発明を実装することが可能である。したがって、本発明の実施形態は、ハードウェア回路およびソフトウェアのどのような特定の組み合わせにも限定されない。

「コンピュータ可読媒体」という用語は、本明細書では、実行のための命令をプロセッサ９０５に提供することに関与する任意の媒体を意味する。コンピュータ可読媒体は、本明細書に記載の方法およびプログラムの少なくともいずれか一方を実施する命令を搬送することが可能なマシン可読媒体の一例に過ぎない。そのような媒体は、不揮発性媒体、揮発性媒体、伝送媒体などを含む、様々な形態をとることが可能であり、これらに限定されない。不揮発性媒体としては、たとえば、光ディスクや磁気ディスク（記憶装置９０８など）がある。揮発性媒体としては、揮発性記憶装置９０６のような動的メモリがある。伝送媒体としては、データバス９０４を構成するワイヤを含め、同軸ケーブル、銅線、光ファイバなどがある。伝送媒体はまた、無線および赤外線のデータ通信において生成されるような音波または光波の形態をとることも可能である。

コンピュータ可読媒体の一般的な形態としては、たとえば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープなどの磁気媒体、ＣＤ−ＲＯＭなどの光媒体、パンチカード、紙テープなどの、穴のパターンを有する物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、フラッシュドライブ、メモリカードなどのメモリチップまたはメモリカートリッジ、後述の搬送波、または他の任意の、コンピュータによる読み取りが可能な媒体がある。

１つまたは複数の命令の１つまたは複数のシーケンスを実行のためにプロセッサ９０５に搬送する際に、様々な形態のコンピュータ可読媒体を関与させることが可能である。たとえば、命令は、最初に、リモートコンピュータから磁気ディスク上に搬送されることが可能である。代替として、リモートコンピュータがその動的メモリに命令をロードし、その命令を、モデムを使用して電話線経由で送信することが可能である。コンピュータシステム９００のそばにあるモデムが、電話線上のデータを受信し、赤外線送信機を使用して、そのデータを赤外線信号に変換することが可能である。赤外線検出器が、赤外線信号として搬送されたデータを受信することが可能であり、しかるべき回路がそのデータをデータバス９０４に載せることが可能である。バス９０４は、データを揮発性記憶装置９０６まで搬送し、プロセッサ９０５がそこから命令を取り出して実行することが可能である。揮発性メモリ９０６で受け取られた命令は、オプションで、プロセッサ９０５による実行の前または後に、永続的記憶装置９０８に格納されることが可能である。これらの命令はまた、当該技術分野では周知である様々なネットワークデータ通信プロトコルを用いて、インターネット経由でコンピュータプラットフォーム９０１にダウンロードされることも可能である。

コンピュータプラットフォーム９０１はさらに、データバス９０４に結合されたネットワークインターフェースカード９１３のような通信インターフェースを含む。通信インターフェース９１３は、ローカルネットワーク９１５と接続されたネットワークリンク９１４に結合される二方向データ通信を提供する。たとえば、通信インターフェース９１３は、対応するタイプの電話線とのデータ通信接続を提供する統合サービスデジタルネットワーク（ＩＳＤＮ）カードまたはモデムであってよい。別の例として、通信インターフェース９１３は、互換ＬＡＮとのデータ通信接続を提供するローカルエリアネットワークインターフェースカード（ＬＡＮＮＩＣ）であってよい。よく知られる８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、Ｂｌｕｅｔｏｏｔｈなどの無線リンクも、ネットワーク実装に使用可能である。そのような、どの実装においても、通信インターフェース９１３は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁信号、または光信号を送受信する。

ネットワークリンク９１３は、典型的には、１つまたは複数のネットワークを介する、他のネットワークリソースとのデータ通信を可能にする。たとえば、ネットワーク９１４は、ローカルネットワーク９１５を介する、ホストコンピュータ９１６またはネットワーク記憶装置もしくはサーバ９１７への接続を提供することが可能である。さらに、あるいは、代替として、ネットワークリンク９１３は、ゲートウェイ／ファイアウォール９１７を介して、ワイドエリアネットワークまたはグローバルネットワーク９１８（インターネットなど）に接続することが可能である。したがって、コンピュータプラットフォーム９０１は、インターネット９１８上の任意の場所にあるネットワークリソース（たとえば、リモートネットワーク記憶装置／サーバ９１９）にアクセスすることが可能である。一方、コンピュータプラットフォーム９０１は、ローカルエリアネットワーク９１５上および／またはインターネット９１８上の任意の場所にあるクライアントからアクセスされることも可能である。ネットワーククライアント９２０および９２１は、それぞれが、プラットフォーム９０１と同様のコンピュータプラットフォームに基づいて実装されてよい。

ローカルネットワーク９１５およびインターネット９１８は、両方とも、デジタルデータストリームを搬送する電気信号、電磁信号、または光信号を使用する。様々なネットワークを通る信号、および、コンピュータプラットフォーム９０１からのデジタルデータを搬送する、ネットワークリンク９１４上にあって通信インターフェース９１３を通る信号は、情報を輸送する搬送波の例示的形態である。

コンピュータプラットフォーム９０１は、インターネット９１８およびＬＡＮ９１５を含む様々なネットワーク、ネットワークリンク９１４、および通信インターフェース９１３を介して、メッセージを送信し、プログラムコードを含むデータを受信することが可能である。インターネットの例では、システム９０１は、ネットワークサーバとして動作する場合には、クライアント９２０および／または９２１で実行されるアプリケーションプログラムのために要求されたコードまたはデータを、インターネット９１８、ゲートウェイ／ファイアウォール９１７、ローカルエリアネットワーク９１５、および通信インターフェース９１３を介して送信することが可能である。同様に、システム９０１は、他のネットワークリソースからコードを受信することが可能である。

受信されたコードは、受信されたときにプロセッサ９０５によって実行されるか、かつ／または、後刻の実行のために、永続的記憶装置９０８または揮発性記憶装置９０６、あるいは他の不揮発性記憶装置に格納されることが可能である。このようにして、コンピュータシステム９０１は、アプリケーションコードを、搬送波の形態で取得することが可能である。

本発明は、どの特定のファイアウォールシステムにも限定されないことに注意されたい。本発明のポリシーベースのコンテンツ処理システムは、３つのファイアウォール動作モード（具体的には、ＮＡＴモード、ルータモード、および透過モード）のいずれでも使用可能である。

最後に、本明細書に記載のプロセスおよび手法は、どの特定の装置とも本質的に関連するものではないこと、ならびに構成要素の任意の好適な組み合わせによって実装可能であることを理解されたい。さらに、本明細書に記載の教示に従って、様々なタイプの汎用装置を使用することが可能である。また、本明細書に記載の方法ステップを実行する専用装置を構築することも有利であろう。本発明を、特定の実施例に関して説明してきたが、それらは、すべての態様において、制限的ではなく例示的であるものとする。当業者であれば理解されるように、ハードウェア、ソフトウェア、およびファームウェアの多様な組み合わせが、本発明の実践に好適であろう。たとえば、説明されたソフトウェアは、Ａｓｓｅｍｂｌｅｒ、Ｃ／Ｃ＋＋、ｐｅｒｌ、ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）などのような、多彩なプログラミング言語およびスクリプト言語で実装されることが可能である。

さらに、当業者であれば、本明細書で開示された本発明の明細および実践を考察することにより、本発明の他の実装が明らかとなろう。説明された実施形態の各種態様および／または構成要素は、画像方向識別のためにコンピュータ化されたシステムにおいて、単独で使用されることも、任意の組み合わせのかたちで使用されることも可能である。本明細および実施例は例示的であるに過ぎず、本発明の真の範囲および趣旨は、添付の請求項によって示されるものとする。

方向検出の例示的な問題を示した図である。大規模な汎用消費者データセットの方向識別に関する、本発明の手法の一実施形態の良好なパフォーマンスを示した図である。棄却を組み込んだ結果を示した図である。Ｆｌｉｃｋｒトレーニングデータを用いた、テストセットの識別結果を示した図である。これらのタグテストセットの識別結果を示した図である。本発明のシステムの一実施形態を最先端システムと比較した結果を示した図である。１８６１画像の私的写真コレクションであるテストセットに対応する結果を示した図である。本発明の手法の一実施形態の例示的操作手順を示した図である。本発明のシステムを実装することが可能なコンピュータプラットフォームの一例示的実施形態を示した図である。

Claims

最適画像方向を決定する方法であって、
（ａ）入力画像を取得することと、
（ｂ）前記入力画像の画像特徴を抽出することと、
（ｃ）前記画像の代替方向に対応する回転画像特徴を生成することと、
（ｄ）前記抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析することと、
（ｅ）重み付き多数決を用いて前記最近傍候補の方向を組み合わせることと、
（ｆ）前記（ｅ）の結果を用いて、前記入力画像の前記最適画像方向を決定することと、を含む、方法。
前記複数の探索木を用いて解析することはさらに、ｋ次元木を用い、空間ブロック、特徴次元、または前記空間ブロックおよび前記特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けることを含む、請求項１に記載の方法。
前記抽出された画像特徴に対して分解を実行することをさらに含む、請求項１に記載の方法。
前記抽出された画像特徴は、エッジ方向ヒストグラムを含む、請求項１に記載の方法。
前記エッジ方向ヒストグラムは、均一な空間グリッドを用いて生成される、請求項１に記載の方法。
前記エッジ方向ヒストグラムは、各空間グリッド要素において、エッジを、均等分割されたビンに量子化することによって生成される、請求項５に記載の方法。
色モーメント特徴を計算することをさらに含む、請求項１に記載の方法。
前記抽出された画像特徴を正規化することをさらに含む、請求項１に記載の方法。
前記回転画像特徴は、ブロックの並べ替えとエッジ方向回転とを用いて生成される、請求項１に記載の方法。
前記複数の探索木は、既知の方向の画像のトレーニングセットを用いて生成される、請求項１に記載の方法。
命令セットを実行するプログラムであって、前記命令セットは、１つまたは複数のプロセッサで実行された場合に、最適画像方向を決定する機能を、前記１つまたは複数のプロセッサに実施させるように動作可能であり、前記機能は、
（ａ）入力画像を取得するステップと、
（ｂ）前記入力画像の画像特徴を抽出するステップと、
（ｃ）前記画像の代替方向に対応する回転画像特徴を生成するステップと、
（ｄ）前記抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析するステップと、
（ｅ）重み付き多数決を用いて前記最近傍候補の方向を組み合わせるステップと、
（ｆ）前記（ｅ）のステップの結果を用いて、前記入力画像の前記最適画像方向を決定するステップと、
を含む、プログラム。
探索木を構築することはさらに、ｋ次元木を用い、空間ブロック、特徴次元、または前記空間ブロックおよび前記特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けするステップを含む、請求項１１に記載のプログラム。
前記抽出された画像特徴に対して分解を実行するステップをさらに含む、請求項１１に記載のプログラム。
前記抽出された画像特徴は、エッジ方向ヒストグラムを含む、請求項１１に記載のプログラム。
前記エッジ方向ヒストグラムは、均一な５×５空間グリッドを用いて生成される、請求項１１に記載のプログラム。
前記エッジ方向ヒストグラムは、各空間グリッドにおいて、エッジを、均等分割されたビンに量子化することによって生成される、請求項１５に記載のプログラム。
色モーメント特徴を計算するステップをさらに含む、請求項１１に記載のプログラム。
前記抽出された画像特徴を正規化するステップをさらに含む、請求項１１に記載のプログラム。
前記回転画像特徴は、ブロックの並べ替えとエッジ方向回転とを用いて生成される、請求項１１に記載のプログラム。
前記複数の探索木は、既知の方向の画像のトレーニングセットを用いて生成される、請求項１１に記載のプログラム。
最適画像方向を決定するシステムであって、
（ａ）入力画像を取得するように動作可能な入力モジュールと、
（ｂ）前記入力画像の画像特徴を抽出するように動作可能な画像特徴抽出モジュールと、
（ｃ）前記画像の代替方向に対応する回転画像特徴を生成するように動作可能な回転画像特徴生成モジュールと、
（ｄ）前記抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析するように動作可能な探索木モジュールと、
（ｅ）重み付き多数決を用いて前記最近傍候補の方向を組み合わせるように動作可能な組み合わせモジュールと、を備え、前記入力画像の最適画像方向は、前記組み合わせの結果に基づいて決定される、
システム。
探索木を構築することはさらに、ｋ次元木を用い、空間ブロック、特徴次元、または前記空間ブロックおよび前記特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けることを含む、請求項２１に記載のシステム。