JP2009252237A - 最適画像方向を決定する方法、命令セットを実行するプログラム、および最適画像方向を決定するシステム - Google Patents

最適画像方向を決定する方法、命令セットを実行するプログラム、および最適画像方向を決定するシステム Download PDF

Info

Publication number
JP2009252237A
JP2009252237A JP2008249439A JP2008249439A JP2009252237A JP 2009252237 A JP2009252237 A JP 2009252237A JP 2008249439 A JP2008249439 A JP 2008249439A JP 2008249439 A JP2008249439 A JP 2008249439A JP 2009252237 A JP2009252237 A JP 2009252237A
Authority
JP
Japan
Prior art keywords
image
features
feature
extracted
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008249439A
Other languages
English (en)
Other versions
JP5146229B2 (ja
Inventor
Dong Wang
ワン ドン
Matthew Cooper
クーパー マシュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2009252237A publication Critical patent/JP2009252237A/ja
Application granted granted Critical
Publication of JP5146229B2 publication Critical patent/JP5146229B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】内容が非常に多様であるオンライン公開写真を活用して、効果的な特徴を、レイアウト情報とともに抽出する、最適画像方向を決定する方法を提供する。
【解決手段】本発明の最適画像方向を決定する方法は、入力画像を取得することと、入力画像の画像特徴を抽出することと、画像の代替方向に対応する回転画像特徴を生成することと、抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析することと、重み付き多数決を用いて最近傍候補の方向を組み合わせることと、組合せの結果を用いて、入力画像の最適画像方向を決定することと、を含む。
【選択図】図8

Description

本発明は、主として、デジタル画像の解析に関し、特に、デジタル画像の自動方向検出に関する。すなわち、最適画像方向を決定する方法、命令セットを実行するプログラム、および最適画像方向を決定するシステムに関する。
現在のマルチメディア解析の研究の多くは、デジタルコンテンツの情報検索を主眼としている。しかしながら、コンテンツベースの画像処理および画像認識の技術の多くは、入力画像が正しく方向づけられていることを前提としている。画像の生成時に、メカニカルセンサが、画像の正しい方向を示すメタデータを生成することが可能であるが、低価格のデジタルカメラ、携帯電話のカメラ、およびスキャナの場合は、依然として、ユーザが手動で正しく方向づけることが必要である。この方向の指定は、写真管理タスクに不可欠な要素なので、自動化できれば間違いなく有益である。
画像方向識別(classification)に関しては、様々な研究がある。これらの研究は、大まかに、低レベル特徴のみを用いる方法と、高レベルセマンティクスを追加で組み込む方法とに分けられる。最近の研究の多くは、この問題におけるさらなる改良のために、物体認識のレベルでより深いセマンティック画像解析が必要であることを論じている。他の多くの研究は、低レベル特徴のみをベースとする方式を採用する。
最初期のいくつかの研究の中では、非特許文献1に記載された研究が、画像方向識別に関して、SVMおよび最近傍法を含む、いくつかの標準的な識別方法を比較していた。上記研究の研究者らは、Corel画像データセットを使用し、方向識別にプライアを組み込むために、ベイズ方式を提示した。最小記述長による次元削減は、部分空間の次元数を選択する。この研究者らの考えでは、最良の総合効率およびパフォーマンスを実現する方法は、非特許文献2に記載された学習ベクトル量子化器(LVQ)を使用し、線形判別分析(LDA)に基づいて次元特徴を削減していた。この研究者らは、NN法を、計算が複雑であることから、好まなかった。この研究者らはまた、識別の高速化のための、近似最近傍法またはデータ構造の使用をまったく報告していない。
非特許文献3は、新規なテクスチャ特徴およびブースティングに基づく手法を提示し、この手法は、不特定のデータセットに対して良好なパフォーマンスを示していた。非特許文献4に記載された研究は、低レベル特徴をSVMと組み合わせて使用し、非特許文献5に記載された、Corelデータセットに関する研究と同様の結果を報告していた。彼らはまた、SVMを使用した場合のパフォーマンスが、非特許文献1の、LVQを使用した場合より良好であることを報告している。
非特許文献6に記載された研究は、Web配布画像の膨大なコレクションを使用した実験の結果を提示していた。この研究者らはまた、識別にSVMを用いて、様々な特徴を比較した。この研究は、実質的には、Corel画像よりインターネット画像に対しての方がパフォーマンスが低いこと、ならびに、Vailayaらによる前述の研究よりCorelに対しての方がパフォーマンスが低いことを示している。この研究者らはまた、画像カテゴリによってパフォーマンスが異なることを分析した。
非特許文献5に記載された研究は、セマンティックベースの方式を推進することに関して注目に値する。この研究者らは、顔用、青空用、曇り空用、草用、天井および壁用などにわたる、かなり多くのセマンティック概念検出器を組み込んだベイズフレームワークを使用した。しかしながら、消費者の写真が非常に多様であるために、限定的な検出器では、依然として、スケーリングが不十分である。さらに、予想されるとおり、これらの検出器は、動作に非常に時間がかかる。この研究者らは、Corel画像および何枚かの消費者写真をテストに使用し、Corel画像および消費者写真の両方のテストで、Vailayaらの研究よりパフォーマンスがかなり低いことを報告した(この研究者らは、Vailayaらの研究の結果を再現することができなかった)。この研究者らは、ベイズネットワークにおいてセマンティック検出器と低レベル特徴に基づくSVMとを組み合わせることにより、Corel画像と消費者写真とを合わせたテストセットに対する精度がほぼ90%になったことを報告している。この研究でのベイズネットワークの使用が示した、Corelデータに対するSVMの場合からのパフォーマンス向上は非常にわずかであったと考えられた。このシステムは強力な機械学習方式を採用しているが、このシステムが、大量のトレーニングセットを活用するためのスケーリングが可能だったかどうかは明らかでない。この一連の研究では、非特許文献7が、顔の方向、空の位置、テクスチャ化された物体、および対称性を含む、慎重に選択された方向キューを、ベイズフレームワークを用いて組み合わせ、一体化していた。この研究者らは、彼らの方法論を、一般的な画像より多くの顔を均等に含むことが知られている私的な写真についてテストして、90%前後の精度が得られたことを報告している。非特許文献8に記載の研究は、ブースティングと屋内および屋外識別とを組み合わせた方式を提示している。この研究者らはまた、SVMおよび約5000枚の画像のトレーニングセットを使用した実験を報告している。この研究者らは、彼らのアルゴリズムをCorelデータに対してテストし、高レベルの棄却により、優れた結果が得られたことを報告しており、この結果は、前述のLuoらおよびWangらの結果と実質的に同等である。
しかしながら、前述の成功にもかかわらず、従来の技術は、正しい画像方向のスケーラブルかつ効果的な自動検出を可能にしていない。
アディチャ ヴァイラヤ(Aditya Vailaya)、ホンジャン チャン(HongJiang Zhang)、チャンジャン ヤン(Changjiang Yang)、フェン―イ リュー(Feng−I Liu)、アンイル K.ヤイン(Anil K.Jain)、「自動画像方向検出(Automatic image orientation detection)」、IEEE Transactions on Image Processing、11(7):746〜755頁、2002年 トイヴォ コホネン(Teuvo Kohonen)、ジャシィ ヒンニネン(Jussi Hynninen)、ヤリ カンガス(Jari Kangas)、ヨルマ ラークソネン(Jorma Laaksonen)、カリ トルッコラ(Kari Torkkola)「Lvq pak:ベクトル量子化アルゴリズム学習の適切なアプリケーションのためのプログラムパッケージ(A program package for the correct application of learning vector quantization algorithms)」、Intl. Joint Conf. on Neural Networks、I 725〜730頁、New York、1992年、ACM エカテリーナ トルスタヤ(Ekaterina Tolstaya)、「コンテンツベース画像方向認識(Content−based image orientation recognition)」(Graphicon 2007) ヤンメイ ワン(Yongmei Wang)、ホンジャン チャン(Hongjiang Zhang)、「低レベルビジュアルコンテンツに基づく画像方向検出(Detecting image orientation based on low−level visual content)」、Computer Vision and Image Understanding (CVIU)、93(3):328〜346頁、2004年 ジーボ ルオ(Jiebo Luo)、マシュー ボウテル(Matthew Boutell)、「低レベルおよびセマンティックキューの信頼性に基づく統合を介した自動画像方向検出(Automatic image orientation detection via confidence−based integration of low−level and semantic cues)」、IEEE Transactions on Pattern Analysis and Machine Intelligence、27(5):715〜726頁、2005年5月 シュミート バルジャ(Shumeet Baluja)、ヘンリー A.ロウウェイ(Henry A. Rowley)、「コンテンツベースの自動化された画像方向認識の大規模パフォーマンス測定(Large scale performance measurement of content−based automated image−orientation detection)」、Proc. IEEE International Conference on Image Processing ICIP 2005、巻2、II−514〜17頁、2005年 レイ ワン(Lei Wang)、フー リュー(Xu Liu)、ライロン シャ(Lirong Xia)、グァンユー フー(Guangyou Xu)、アルフレッド M.ブルックスタイン(Alfred M. Bruckstein)、「人間知覚キューを統合した画像方向検出(Image orientation detection with integrated human perception cues (or which way is up))」、ICIP (2)、539〜542頁、2003年 レイ チャン(Lei Zhang)、ミンジン リー(Mingjing Li)、ホン―ジャン チャン(Hong−Jiang Zhang)、「屋内対屋外識別を用いたブースティング画像方向検出(Boosting image orientation detection with indoor vs. outdoor classification)」、WACV ‘02: Proceedings of the Sixth IEEE Workshop on Applications of Computer Vision、95頁、Washington、DC、USA、2002年、IEEE Computer Society
本発明は、従来の画像方向検出手法に関連する前述の問題およびその他の問題のうちの1つまたは複数を実質的に未然に回避する方法およびシステムを対象とする。
本発明の第1の態様は、最適画像方向を決定する方法であって、(a)入力画像を取得することと、(b)入力画像の画像特徴を抽出することと、(c)画像の代替方向に対応する回転画像特徴を生成することと、(d)抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析することと、(e)重み付き多数決を用いて最近傍候補の方向を組み合わせることと、(f)(e)の結果を用いて、入力画像の最適画像方向を決定することと、を含む。
本発明の第2の態様は、第1の態様の最適画像方向を決定する方法であって、複数の探索木を用いて解析することはさらに、k次元木を用い、空間ブロック、特徴次元、または空間ブロックおよび特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けることを含む。
本発明の第3の態様は、第1の態様の最適画像方向を決定する方法であって、抽出された画像特徴に対して分解を実行することをさらに含む。
本発明の第4の態様は、第1の態様の最適画像方向を決定する方法であって、抽出された画像特徴は、エッジ方向ヒストグラムを含む。
本発明の第5の態様は、第1の態様の最適画像方向を決定する方法であって、エッジ方向ヒストグラムは、均一な空間グリッドを用いて生成される。
本発明の第6の態様は、第5の態様の最適画像方向を決定する方法であって、エッジ方向ヒストグラムは、各空間グリッド要素において、エッジを、均等分割されたビンに量子化することによって生成される。
本発明の第7の態様は、第1の態様の最適画像方向を決定する方法であって、色モーメント特徴を計算することをさらに含む。
本発明の第8の態様は、第1の態様の最適画像方向を決定する方法であって、抽出された画像特徴を正規化することをさらに含む。
本発明の第9の態様は、第1の態様の最適画像方向を決定する方法であって、回転画像特徴は、ブロックの並べ替えとエッジ方向回転とを用いて生成される。
本発明の第10の態様は、第1の態様の最適画像方向を決定する方法であって、複数の探索木は、既知の方向の画像のトレーニングセットを用いて生成される。
本発明の第11の態様は、命令セットを実行するプログラムであって、命令セットは、1つまたは複数のプロセッサで実行された場合に、最適画像方向を決定する機能を、1つまたは複数のプロセッサに実施させるように動作可能であり、機能は、(a)入力画像を取得するステップと、(b)入力画像の画像特徴を抽出するステップと、(c)画像の代替方向に対応する回転画像特徴を生成するステップと、(d)抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析するステップと、(e)重み付き多数決を用いて最近傍候補の方向を組み合わせるステップと、(f)(e)のステップの結果を用いて、入力画像の最適画像方向を決定するステップと、を含む。
本発明の第12の態様は、第11の態様のプログラムであって、探索木を構築することはさらに、k次元木を用い、空間ブロック、特徴次元、または空間ブロックおよび特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けするステップを含む。
本発明の第13の態様は、第11の態様のプログラムであって、抽出された画像特徴に対して分解を実行するステップをさらに含む。
本発明の第14の態様は、第11の態様のプログラムであって、抽出された画像特徴は、エッジ方向ヒストグラムを含む。
本発明の第15の態様は、第11の態様のプログラムであって、エッジ方向ヒストグラムは、均一な5×5空間グリッドを用いて生成される。
本発明の第16の態様は、第15の態様のプログラムであって、エッジ方向ヒストグラムは、各空間グリッドにおいて、エッジを、均等分割されたビンに量子化することによって生成される。
本発明の第17の態様は、第11の態様のプログラムであって、色モーメント特徴を計算するステップをさらに含む。
本発明の第18の態様は、第11の態様のプログラムであって、抽出された画像特徴を正規化するステップをさらに含む。
本発明の第19の態様は、第11の態様のプログラムであって、回転画像特徴は、ブロックの並べ替えとエッジ方向回転とを用いて生成される。
本発明の第20の態様は、第11の態様のプログラムであって、複数の探索木は、既知の方向の画像のトレーニングセットを用いて生成される。
本発明の第21の態様は、最適画像方向を決定するシステムであって、(a)入力画像を取得するように動作可能な入力モジュールと、(b)入力画像の画像特徴を抽出するように動作可能な画像特徴抽出モジュールと、(c)画像の代替方向に対応する回転画像特徴を生成するように動作可能な回転画像特徴生成モジュールと、(d)抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析するように動作可能な探索木モジュールと、(e)重み付き多数決を用いて最近傍候補の方向を組み合わせるように動作可能な組み合わせモジュールと、を備え、入力画像の最適画像方向は、組み合わせの結果に基づいて決定される。
本発明の第22の態様は、第22の態様のシステムであって、探索木を構築することはさらに、k次元木を用い、空間ブロック、特徴次元、または空間ブロックおよび特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けることを含む。
本発明によれば、効率を犠牲にせずに、一般的なデータセットに対して、最先端システムを大きくしのぐパフォーマンスを示すことができる。
本発明に関連するさらなる態様が、一部は以下の説明で示され、一部はその説明から明白になるか、本発明の実施によって知られることが可能であろう。本発明の諸態様は、以下の詳細説明および添付の請求項において特に指摘された要素ならびに様々な要素と態様との組み合わせによって実現および達成されることが可能である。
前述および後述の説明は、いずれも例示的かつ説明的に過ぎず、いかなる様式でも、請求対象の発明またはその応用を制限するものではまったくないことを理解されたい。
添付図面は、本明細書に組み込まれ、本明細書の一部を構成し、本発明の実施形態を例示し、本明細書とともに、本発明の手法の原理を説明および図示することに役立つ。
以下の詳細説明では、添付図面を参照する。添付図面においては、同一機能要素は、類似の参照符号で指定される。添付図面は、限定ではなく例示として、本発明の原理と合致する具体的な実施形態および実装を示す。これらの実装は、当業者であれば本発明を実践できるよう、十分詳細に説明されており、他の実装も利用可能であること、ならびに、本発明の範囲および趣旨から逸脱することなく、各種要素の構造の変更および置換のいずれか一方を行うことが可能であることを理解されたい。したがって、以下の詳細説明は、限定的であると解釈されるべきではない。さらに、本発明の各種実施形態は、説明されるとおり、汎用コンピュータで実行されるソフトウェアのかたちで、または専用ハードウェアのかたちで、またはソフトウェアとハードウェアの組み合わせのかたちで実装されることが可能である。
本発明の方法において、識別は、効率を犠牲にせずに、大量のトレーニングセットに良好にスケーリングする近似最近傍方式を用いて進められる。本願発明者らは、30000枚近くのFlickr写真からなる、これまでで最大のデータセットと、両方とも高難度かつ典型的である、消費者の利用シナリオとに対して本方法をテストし、成功した。制限されたデータは、異なったシステムを比較するのに使用可能だが、提案のシステムは、一般的なデータセットに対して、最先端システムを大きくしのぐパフォーマンスを示す。
図1は、方向検出の例示的な問題を示す。正しい方向は、左端の画像101である。
当業者には知られていることであるが、SVM、ベイズネットワーク、ブースティングなどの、どちらかと言えば異種である学習手法が、Corelデータに対しては、ほぼ同等のパフォーマンスを示す。Corelデータセットは、シンプルすぎるという意見が多いが、それでも、様々なタスクに使用され続けている。一方、本願発明者らは、よりデータ集約型の方式が必要であると考える。本発明の方法の実施形態は、近傍ベースのノンパラメトリック識別および大規模な汎用トレーニング(およびテスト)セットの使用を前提とする。この方式は、コンテンツ、または何らかのメタデータの利用可能性に関して限定的な仮定を行わず、また、専用のセマンティック識別器に依存しない。
本発明の手法の一実施形態は、近似手法および効率的なデータ構造を用いて、効率を犠牲にせずに、最近傍識別をより高い次元特徴および大量のトレーニングセットにスケーリングする、高パフォーマンスの画像方向識別方式を提供する。この方法は、k次元木を用い、空間ブロック、特徴次元、またはこれら2つの何らかの組み合わせまたは射影に基づいて、特徴にインデックスを付ける。個々の木は、重み付き多数決によって識別の最近傍候補を生成するために使用される。前述のように、本発明の方法は、この問題が、最小限のプライア仮定と大規模な汎用トレーニングセットとによる識別方法を必要としていることが前提である。そのようなトレーニングデータは、現在では、インターネット上で普通に入手可能である。本願発明者らがここで使用しているものよりさらに大規模なトレーニングセットを使用すれば、計算効率に顕著な影響を与えることなく、さらなる改善が可能であると考えられている。本発明の方式の各種実施形態は、これらの新規に入手可能な、急速に増えつつある配布データコレクションを活用するように設計されている。
本発明の原理体系の一実施形態によれば、方向検出に対するスケーラブルなアプローチが提供される。本発明の一実施形態は、モデルトレーニング目的のための、Webからの豊富な人間情報に依存する。どの学習方法にも2つの構成要素があり、それらはデータとモデルである。ジェームズ ヘイズ(James Hays)、アレクセイ A.エフロス(Alexei A Efros)らの「何百枚もの写真を用いたシーンコンプリーション(Scene completion using millions of photographs)」(ACM Transactions on Graphics(SIGGRAPH 2007)、26(3)、2007年)で詳しく説明されている、自然言語処理とコンピュータグラフィックスにおける過去の調査では、シンプルなモデルでも十分なデータが与えられれば、より複雑なモデルと同等の働きが可能であることが鮮明に示されている。そこで、本発明の一実施形態は、誰でも入手できる大規模なトレーニングデータを活用し、改良された標準特徴を抽出し、怠惰な最近傍法(NN)ベースのインデックスを用いて、トレーニングデータの低レベル表現を行う。この問題の中心的な課題は、種々の写真カテゴリが、方向識別に関して非常に多様な難題を提示することである。こうした多様性については、シュミート バルジャ(Shumeet Baluja)、ヘンリー A.ロウウェイ(Henry A. Rowley)らの「コンテンツベースの自動化された画像方向認識の大規模パフォーマンス測定(Large scale performance measurement of content−based automated image−orientation detection)」(Proc、IEEE International Conference on Image Processing ICIP 2005、巻2、II−514〜17頁、2005年)で、念入りに詳述されており、これによれば、この問題に関する以前の研究で使用された一般的なテストセットは、非現実的であると考えられ、空や他の強い方向手がかりを含む風景画像が過度に含まれることが多かった。この問題の最近の扱い方は、2種類のアプローチに明白に分かれている。シンプルな方は低レベル特徴のみを用い、一方、複雑な方は、何らかの明示的なセマンティック情報が画像方向の認識に不可欠であることを前提としている。本発明概念の実施形態によれば、暗黙的なセマンティック統計情報が埋め込まれた十分なデータが低レベル特徴に与えられていれば、低レベル特徴は、適切に処理された場合に、「顔検出」や「屋内および屋外のいずれか一方」のようなセマンティック識別器の支援がなくても、単独で高レベルのパフォーマンスを示すことが可能であることを、説得力を持って示すことが可能である。これは、最近傍法が、十分なトレーニングデータが利用可能な場合に、非常に良好なパフォーマンスを示すためであることに注意されたい。結果が示すように、「花」、「鳥」、「カメラ付き携帯電話」などの、最も難度が高い画像方向タスクでも、本発明の方法の実施形態によれば、95%を超える検出精度で解決可能である。
当業者にはよく知られているが、最近傍法の主たる弱点は、単純な実装の計算の複雑さである。しかしながら、このことは、本発明の少なくともいくつかの実施形態では、制限になっていない。これは、それらの実施形態が近似最近傍法(ANN)の実装を用いていて、抽出された画像特徴が与えられれば、通常は、数ミリ秒で結果を返すためである。ティン リュー(Ting Liu)、チャック ローゼンバーグ(Chuck Rosenberg)、ヘンリー ロウウェイ(Henry Rowley)らの「大規模最近傍探索を用いた多量の画像のクラスタリング(Clustering Billions of Images with Large Scale Nearest Neighbor Search)」、(Proc. IEEE Workshop on Applications of Computer Vision、2007年)に記載されているように、近似最近傍探索のための先進的なデータ構造および分散実装により、本明細書で検討されているより格段に大規模なデータセットを処理することが可能になっている。
同時に、計算の複雑さは、これらの方法を消費者領域に導入するうえでクリティカルな検討事項である。したがって、本明細書では、大規模なトレーニングセットおよびテストセットに対する識別の平均実行時間を報告する。
技術的詳細
以下では、デジタル写真に使用される、本発明の各種実施形態を説明する。当業者であれば理解されるように、本発明概念の一実施形態の、記載された様々な特徴(特に、エッジヒストグラム特徴)は、画像方向検出用の過去のアルゴリズムと比較して、きわめて強力である。しかしながら、低レベル特徴および距離関数に関しては他の選択も可能であり、状況によっては、そちらの方が適切な場合もある。
特徴抽出
本発明の手法の一実施形態によれば、画像方向に関係なく、均一な5×5空間グリッドのかたちの各ブロックから、エッジ方向ヒストグラムが抽出される。この均一な5×5ブロックは、風景画像およびポートレート画像の両方に適している。次に各グリッドにおいては、Cannyフィルタ応答の取得後に、それらのエッジが、ヒストグラムを形成する方向の、均等分割された16個のビンに量子化される。各画素のエッジの大きさが、対応する方向範囲に入るビンの重みとしてカウントされる。さらに、しきい値を下回るエッジ大きさの代わりに(すなわち、平滑点を収集するために)1つの追加ビンが使用される。このビンは、検出できる顕著なエッジがないブロックのヒストグラムを支配する。したがって、各ブロックは17次元を有し、結果として得られるこの特徴の次元数は、25×17=425である。
方向識別システムで一般的に使用される色モーメント特徴も、計算されている。この特徴の場合は、色特徴が低次元記述子であるため、画像は、LUV色空間に変換され、より細かい7×7空間グリッドが使用される。各ブロックでは、各LUVチャネルの第1および第2のモーメントが計算され、保存される。結果として得られる次元数は49×6=294である。
本発明の手法の一実施形態によれば、特徴は、次元ごとの最小−最大スタイルで正規化される。次元iに対し、その次元の最小値をfm i、最大値をfM iとすると、各特徴値fiは、fi(fはイタリック体)=fi−fm i/fM i−fm iに正規化される。ここで、fi(fはイタリック体)は、後続の処理のために正規化された特徴である。
識別方式
本発明の一実施形態は、4つの方向すべての識別を目標とするので、本発明の一実施形態では、4クラス識別方式が採用される。本発明のシステムの一実施形態は、入力画像が与えられると、その画像を左に回転すべきか、右に回転すべきか、上下反転すべきか、そのままにすべきかを決定しようとする。この識別方式は、可能な方向ごとの画像特徴を抽出することと等価である。回転画像に対応する、回転された特徴は、ブロックの並べ替えと、そのエッジ特徴のエッジ方向回転とによって得られる。そして、これは、利用可能なトレーニングセットを増やし、効率的な識別方法の使用をさらに必要とする。
最近傍解析
実験において膨大な数のトレーニング例が与えられた場合、そのすべてのデータセットを用いてサポートベクトルマシン(SVM)識別器をトレーニングするのは、O(N2)さらにはO(N3)トレーニング時間が必要であることから、非現実的である。一方では、サポートベクトルがそのデータサイズに比例するために、テスト時間がかなり長くなる可能性がある。これは、シュミート バルジャ(Shumeet Baluja)の「自動画像方向検出:スケーラブルブースティングアプローチ(Automated image−orientation detection: a scalable boosting approach)」、(Pattern Anal. Appl.、10(3):247〜263頁、2007年)で説明されているとおりである。これに対し、NN方式は、近似が組み込まれると、格段に効率的になり、大規模なデータセットを良好に処理することが可能である。
特徴に基づく部分空間
本発明の一実施形態によれば、低レベル特徴が与えられた場合に、近似最近傍法(ANN)と、デイヴィッド M.マウント(David M. Mount)、スニル アラヤ,アン(Sunil Arya, Ann)らの「近似最近傍探索のためのライブラリ、ヴァージョン1.1.1(A library for approximate nearest neighbor searching, version 1.1.1)」に記載のソフトウェアパッケージ(メリーランド大学コンピュータ科学科から入手可能)とを用いて、一連の探索木が構築される。
アンドリュー ムーア(Andrew Moore)の「kd木についてのチュートリアル(A tutorial on kd-trees)」、(博士論文、1991年)からの抜粋であり、カーネギーメロン大学から入手可能)に記載のk次元木は、特徴次元が30次元を超える場合には、スケーリングがうまくできないため(ティン リュー(Ting Liu)、チャック ローゼンバーグ(Chuck Rosenberg)、ヘンリー ロウウェイ(Henry Rowley)らの「大規模最近傍探索を用いた多量の画像のクラスタリング(Clustering Billions of Images with Large Scale Nearest Neighbor Search)」、(Proc. IEEE Workshop on Applications of Computer Vision、2007年)を参照)、特徴を分割して、k次元木あたり30次元を超えない部分空間の集まりにするために、スケーリングの前に、分解の1ステップが追加される。具体的には、測定は、空間ブロック全体にわたる17個のエッジヒストグラムビンのそれぞれに対応して分けられる。すなわち、ブロックエッジヒストグラムは、17個の25次元ベクトルとして再インデックス付けされる。そして、これらのトレーニング特徴から、17個のk次元木が計算される。
本発明の一実施形態によれば、識別は、以下のように進められる。テスト画像が与えられると、部分並べ替え手順を用いて、17個の木のそれぞれから10個の最近傍が識別される。このステップにより、170個のトレーニングサンプルが生成され、ここから、全距離を再計算することによって、テストサンプルに最も近い10個が決定される。これら10個のサンプルを用いて、距離重み付けスコアによる、テストサンプルのクラスに関する多数決が行われる。10個のトレーニングサンプルを{ti:i=1,・・・,10}とし、クエリ画像をqとする。簡単のために、10個のサンプルは、t1がqに最も近いトレーニングサンプルになるように、qからの距離に応じて並べ替えられているものとする。10個のサンプルのうちの、i番目に遠いサンプルからの距離を、d(ti,q)と定義する。すると、各クラスcのスコアは、次式のとおりである。
ここで、Iiは、トレーニングサンプルtiのラベルであり、δ(Ii−c)は、Ii=cの場合のみ1であり、それ以外の場合は0であるデルタ関数である。予測クラスは、上記スコアの単純な最大化(次式の(重み付き)多数決と等価)によって決定される。
特徴ベクトルは、k次元木内で、単独に、ヒストグラムビンに応じてインデックス付けされる。これは、k次元木のパフォーマンスが特徴とうまく対応しないためである。しかしながら、そのような近似最近傍方式のパフォーマンスは、計算を大幅に減らしても、厳密な方法のパフォーマンスに近いことが多い。
識別をさらに高速化するために、最近傍探索は、各木において、優先キューを用いて切り詰められる。一般に、k次元木を使用することは、木内のトレーニング点の広範囲にわたるチェックを必要としない。木の構造は、距離を計算する必要があるトレーニング点を著しく限定するように設計される。実験では、各画像について、評価される点の数を300または400に制限するように、パラメータmを設定する。詳細については、スニル アラヤ(Sunil Arya)、デイヴィッド M.マウント(David M. Mount)、ネイサン S.ネタンヤフ(Nathan S. Netanyahu)、ルース シルヴァーマン(Ruth Silverman)、アンジェラ Y.ウー(Angela Y.Wu)らの「固定次元近似最近傍探索のための最適化アルゴリズム(An optimal algorithm for approximate nearest neighbor searching fixed dimensions)」(J. ACM, 45(6):891〜923頁、1998年)、およびデイヴィッド M.マウント(David M. Mount)、スニル アラヤ,アン(Sunil Arya, Ann)らの「近似最近傍探索のためのライブラリ、ヴァージョン1.1.1(A library for approximate nearest neighbor searching, version 1.1.1)」に記載のソフトウェアパッケージ(メリーランド大学コンピュータ科学科から入手可能)を参照されたい。
射影に基づく部分空間
上述の方式には、興味深い代替実施形態がいくつもある。特徴に基づく射影方式は、より一般的なランダム射影に基づく部分空間の一具体例であり、これについては、ドミートリィ フラドキン(Dmitriy Fradkin)、デイヴィッド マディガン(David Madigan)らの「機械学習のためのランダムプロジェクションを用いた実験(Experiments with random projections for machine learning)」、(KDD ’03: Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining、517〜522頁、New York、NY、USA、2003年、ACM)に記載されている。一実施形態では、一般的なランダム射影が実装され、特徴に基づく射影と比較される。
評価
本発明の方式の実施形態を、人気のある写真共有サイトFlickrから集めた大規模なデータセットを使用して評価した。56315枚の写真をダウンロードし、人気のあるタグのセットの中の少なくとも1つを、処理用として選択した。これらの写真はすべて、2007年のある10か月間のものである。これらの写真を無作為に、ほぼ同数のトレーニングセットとテストセットとに分けた(トレーニング用が28157枚、テスト用が28158枚)。以下では、このデータを使用した実験について説明する。さらに、入手可能な写真コレクションから、別の3つの、より小規模なテストデータセットを集めた。テストセット1および2は、いずれも、数年間にわたる私的写真コレクションである。「UW」コレクションは、私的写真コレクションではなく、物体認識のベンチマーク実験に使用された写真のセットである。人気のあるタグが付いた最も一般的な画像に偏るのを避けるために、6つの多少オーバーラップするカテゴリの写真をFlickrから追加抽出した。これらは、ジーボ ルオ(Jiebo Luo)、マシュー ボウテル(Matthew Boutell)、「低レベルおよびセマンティックキューの信頼性に基づく統合を介した自動画像方向検出(Automatic image orientation detection via confidence−based integration of low−level and semantic cues)」、IEEE Transactions on Pattern Analysis and Machine Intelligence、27(5):715〜726頁、2005年5月、およびシュミート バルジャ(Shumeet Baluja)の「自動画像方向検出:スケーラブルブースティングアプローチ(Automated image−orientation detection: a scalable boosting approach)」、(Pattern Anal. Appl.、10(3):247〜263頁、2007年)に記載されている、これまでの方式では困難であると考えられたものであり、具体的には、「鳥」、「植物」、「動物」、「蝶」、「花」、および「カメラ付き携帯電話」である。各カテゴリは、2000枚の写真からなり、カメラ付き携帯電話だけは、入手可能なデータが限られていたために、1583枚である。結果はすべて、2GBのRAMを擁するIntel Core Duo 2.4GHzマシンを用いて取得された。本発明の一実施形態の現在の実装はマルチスレッディングを採用していないが、マルチスレッディングは、明らかに、k次元木の構築および探索の両方の並列化に適している。
実践的に言えば、本システムが現実世界で使用される場合、画像は、デジタルカメラによって生成される可能性が高い。この使い方の場合、ユーザは、カメラを非常に頻繁に回転させる可能性があるが、風景画像に関しては、カメラを回転させることはかなりまれである。したがって、風景の方向は1つだけと見なすことにより、効率が上がり、通常は精度も上がる。本願発明者らはまた、システムが確信して方向を決定することができない場合の、シンプルな棄却方式を検討した。棄却は、最大値と、次いで2番目に大きい値との識別スコア比を所与の値でしきい値処理することによって組み込まれる。したがって、識別器が確信を持てない写真は、手動検査に回すべく保持される。
過去のシステムの動作はすべて、入手不可能なCorelデータセットに基づいていたため、UWセットの7つのサブセットについて、Balujaの総合的な動作との比較を行った。しかしながら、本発明のシステムの一実施形態のパフォーマンスは、Balujaのパフォーマンスよりすぐれていることがわかった。
Flickrテストセットについての結果
図2に示された表200の結果は、大規模な汎用消費者データセットの方向識別に関して、非常に良好なパフォーマンスを示している。非常に大規模なトレーニングセットを使用したにもかかわらず、前述の修正された最近傍探索を用いて、各方法の、画像あたりの識別時間が5ミリ秒を下回ったことが報告されている。低レベル特徴の融合、3つのクラスの識別、および異常値棄却のすべてにおいて、パフォーマンスがいっそう向上した。木の数は、低レベル特徴の次元数に基づく。ノードの次元数は、特徴が計算される空間ブロックの総数である。これは、各木の特徴ベクトルの次元数である。「nn」の行は、識別に使用される近似最近傍の数である。「m」の行は、探索を切り詰める前に近似最近傍を決定するために探索される点の数を支配するパラメータである。表200はさらに、総合精度と、ポートレート写真および風景写真の個々の認識率を示している。棄却を組み込んだ結果を、図3の表300に示す。棄却率はきわめて低く、これは、本方法が、実践時にユーザ側の手動修正をほとんど必要としないことをさらに示している。
他のテストセットについての結果
第2の実験では、Flickrからダウンロードしたトレーニングデータを用いる、前述の設計された木を用いて、様々な、より小さい、入手可能な写真コレクションの方向を識別した。前に3つのデータセットを紹介した。同じFlickrトレーニングデータを使用した、これらのテストセットについての識別結果を、図4の表400に示す。消費者領域では、円対称性が高い、平滑パターン、またはテクスチャパターン、または他のコンテンツがあまり一般的ではないため、問題はいくぶん簡単である。しかしながら、これらの結果は、この問題に大規模な汎用トレーニングセットを用いることが非常に効果的であることを示している。
様々なタグを有するこれらのテストセットの画像は、より広い領域に対するオーバーフォーカスや、見過ごされてきたいくつかの高難度の画像についての、可能性のある疑問に答えようとする。前述のBalujaにおいて指摘されたように、それらのタグに関連付けられた画像は、きわめて難度が高く、犬の画像は75%しか正しくなく、鳥は60〜78%、花および蝶は、それぞれ46%および54%と低くなる可能性がある(これらはすべての3方向のタスクである)。一方、カメラ付き携帯電話で取り込まれた写真は、近い将来の潜在的な応用である。ここでそれらが選択されているのは、そのためである。カメラ付き携帯電話で撮られた画像の報告された精度は、Balujaの場合で71%である。これらのタグのテストセットについての識別結果を、図5の表500に示す。
結果が示すように、本発明のシステムの、使用された実施形態は、これらの難度の高いタグに対して非常に良好なパフォーマンスを示す。本発明のシステムの実施形態が、これらの、あまり注目されない、高難度のカテゴリに良好に適合することは明らかであろう。なお、識別器を各テストコレクションに適合させる必要はまったくない。
最先端システムとの比較
入手可能なデータが限られていたために、本発明のシステムの一実施形態を、先述のBalujaに記載のシステムとのみ、UWセットからの550枚の写真で比較することが可能であった。これは、Balujaが、親切にも、Balujaの(表2の)8カテゴリのUWデータについて詳細な結果を提供してくれたためである。しかしながら、Barcelona2サブセットはWebサイトで入手できなかったので、比較は、残りの7つのサブセットとのみ行われた。結果を、図6の表600に示す。ここでも、結果は、3方向タスク(棄却あり)と4方向(棄却なし)について示されている。
本発明の方法の一実施形態の実行時間はまた、公開されているシステムのうちの最も高速な部類に入る。Luoは、特徴抽出を除き、1枚の写真について6秒かかり、シュミート バルジャ(Shumeet Baluja)、ヘンリー A.ロウウェイ(Henry A. Rowley)、「コンテンツベースの自動化された画像方向認識の大規模パフォーマンス測定(Large scale performance measurement of content−based automated image−orientation detection)」、Proc. IEEE International Conference on Image Processing ICIP 2005、巻2、II−514〜17頁、2005年)に記載された研究では、3930個の特徴についてSVMを採用したが、これは低速であるはずである。これに対し、本発明のシステムの実施形態の実行時間は、やはり特徴抽出を除き、わずか4ミリ秒である。Balujaとの比較を行うことが好ましいが、その点では、実行時間の情報が提供されていない。それらの実験は、使用された単一PCではなく、大規模分散コンピューティング環境で実施されることも可能であった。
追加データの効果
本願発明者らは、最後に、1861画像の私的写真コレクションであるテストセット1を用いて実験を行い、より小さいトレーニングセットを用いた場合のパフォーマンスを評価した。その結果を、図7の表700に示す。トレーニングのために使用する、Flickrセットからの写真が5000枚しかない場合、精度が低下するが、画像あたりの平均識別時間が36%短くなる。トレーニングセットをより大きくすれば、複雑さが特に増すことなく、さらなるパフォーマンス向上が可能であると考えられている。
例示的な操作手順
図8は、本発明の手法の一実施形態の例示的操作手順800を示す。ステップ801で、入力画像が取得される。ステップ802で、本システムは、入力画像の画像特徴(エッジ方向ヒストグラム)を抽出する。ステップ803で、本システムは、画像(回転画像)の代替方向に対応する画像特徴を生成する。ステップ804で、本システムは、近似最近傍手法を実装する複数の探索木を用いて、抽出および生成された特徴を解析する。ステップ805で、本システムは、重み付き多数決を用いて最近傍候補を識別する。ステップ806で、本システムは、識別結果に基づいて入力画像の最適画像方向を決定する。
本発明の別の実施形態では、回転画像に対応する特徴を生成する代わりに、実際に回転した画像から同等の特徴を抽出する。
例示的なコンピュータプラットフォーム
図9は、本発明の原理体系の一実施形態を実装することが可能なコンピュータおよびサーバシステム900の一実施形態を示すブロック図である。システム900は、コンピュータおよびサーバプラットフォーム901、周辺装置902、およびネットワークリソース903を含む。
コンピュータプラットフォーム901は、コンピュータプラットフォーム901の各種要素全体への(かつ要素間の)情報伝達のためのデータバス904または他の通信メカニズムと、バス904に結合されて、情報を処理し、他の計算タスクおよび制御タスクを実行するプロセッサ905とを含むことが可能である。コンピュータプラットフォーム901はさらに、バス904に結合されて、各種情報ならびにプロセッサ905によって実行されるべき命令を格納する揮発性記憶装置906(ランダムアクセスメモリ(RAM)または他の動的記憶装置など)を含む。揮発性記憶装置906はさらに、プロセッサ905による命令の実行時に、一時変数または他の中間情報を格納するために使用されることが可能である。コンピュータプラットフォーム901はさらに、バス904に結合されて、静的情報およびプロセッサ905用の命令(基本入出力システム(BIOS)、ならびに各種システム構成パラメータなど)を格納する読み出し専用メモリ(ROMまたはEPROM)907または他の静的記憶装置を含むことが可能である。情報および命令を格納するために、永続的記憶装置908(磁気ディスク、光ディスク、半導体フラッシュメモリ装置など)が設けられ、バス904に結合されている。
コンピュータプラットフォーム901は、情報をコンピュータプラットフォーム901のシステム管理者またはユーザに対して表示するために、バス904を介して、ディスプレイ909(ブラウン管ディスプレイ(CRT)、プラズマディスプレイ、液晶ディスプレイ(LCD)など)に結合されることが可能である。情報およびコマンド選択をプロセッサ905に伝達するために、英数字キーおよびその他のキーを含む入力装置910がバス904に結合される。別のタイプのユーザ入力装置として、方向情報およびコマンド選択をプロセッサ904に伝達し、ディスプレイ909上のカーソルの動きを制御するカーソル制御装置911(マウス、トラックボール、カーソル方向キーなど)がある。この入力装置は、典型的には、平面内の位置を指定できるように、2つの軸(第1の軸(たとえば、x)および第2の軸(たとえば、y))のかたちで2自由度を有する。
コンピュータプラットフォーム901用の追加記憶容量またはリムーバブル記憶容量を提供するために、バス904経由で、外部記憶装置912をコンピュータプラットフォーム901に接続することが可能である。本コンピュータシステム900の一実施形態では、外部リムーバブル記憶装置912を用いて、他のコンピュータシステムとのデータ交換を推進することが可能である。
本発明は、本明細書に記載の手法を実装するためのコンピュータシステム900の使用に関する。一実施形態では、本発明のシステムは、コンピュータプラットフォーム901のようなマシンに配置されることが可能である。本発明の一実施形態によれば、本明細書に記載の手法は、揮発性メモリ906に含まれた1つまたは複数の命令の1つまたは複数のシーケンスをプロセッサ905が実行することに対する応答として、コンピュータシステム900によって実行される。そのような命令は、別のコンピュータ可読媒体(永続的記憶装置908など)から揮発性メモリ906に読み込まれることが可能である。揮発性メモリ906に含まれる命令のシーケンスの実行によって、プロセッサ905が、本明細書に記載の処理ステップを実行する。代替実施形態では、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路を用いて本発明を実装することが可能である。したがって、本発明の実施形態は、ハードウェア回路およびソフトウェアのどのような特定の組み合わせにも限定されない。
「コンピュータ可読媒体」という用語は、本明細書では、実行のための命令をプロセッサ905に提供することに関与する任意の媒体を意味する。コンピュータ可読媒体は、本明細書に記載の方法およびプログラムの少なくともいずれか一方を実施する命令を搬送することが可能なマシン可読媒体の一例に過ぎない。そのような媒体は、不揮発性媒体、揮発性媒体、伝送媒体などを含む、様々な形態をとることが可能であり、これらに限定されない。不揮発性媒体としては、たとえば、光ディスクや磁気ディスク(記憶装置908など)がある。揮発性媒体としては、揮発性記憶装置906のような動的メモリがある。伝送媒体としては、データバス904を構成するワイヤを含め、同軸ケーブル、銅線、光ファイバなどがある。伝送媒体はまた、無線および赤外線のデータ通信において生成されるような音波または光波の形態をとることも可能である。
コンピュータ可読媒体の一般的な形態としては、たとえば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープなどの磁気媒体、CD−ROMなどの光媒体、パンチカード、紙テープなどの、穴のパターンを有する物理媒体、RAM、PROM、EPROM、FLASH−EPROM、フラッシュドライブ、メモリカードなどのメモリチップまたはメモリカートリッジ、後述の搬送波、または他の任意の、コンピュータによる読み取りが可能な媒体がある。
1つまたは複数の命令の1つまたは複数のシーケンスを実行のためにプロセッサ905に搬送する際に、様々な形態のコンピュータ可読媒体を関与させることが可能である。たとえば、命令は、最初に、リモートコンピュータから磁気ディスク上に搬送されることが可能である。代替として、リモートコンピュータがその動的メモリに命令をロードし、その命令を、モデムを使用して電話線経由で送信することが可能である。コンピュータシステム900のそばにあるモデムが、電話線上のデータを受信し、赤外線送信機を使用して、そのデータを赤外線信号に変換することが可能である。赤外線検出器が、赤外線信号として搬送されたデータを受信することが可能であり、しかるべき回路がそのデータをデータバス904に載せることが可能である。バス904は、データを揮発性記憶装置906まで搬送し、プロセッサ905がそこから命令を取り出して実行することが可能である。揮発性メモリ906で受け取られた命令は、オプションで、プロセッサ905による実行の前または後に、永続的記憶装置908に格納されることが可能である。これらの命令はまた、当該技術分野では周知である様々なネットワークデータ通信プロトコルを用いて、インターネット経由でコンピュータプラットフォーム901にダウンロードされることも可能である。
コンピュータプラットフォーム901はさらに、データバス904に結合されたネットワークインターフェースカード913のような通信インターフェースを含む。通信インターフェース913は、ローカルネットワーク915と接続されたネットワークリンク914に結合される二方向データ通信を提供する。たとえば、通信インターフェース913は、対応するタイプの電話線とのデータ通信接続を提供する統合サービスデジタルネットワーク(ISDN)カードまたはモデムであってよい。別の例として、通信インターフェース913は、互換LANとのデータ通信接続を提供するローカルエリアネットワークインターフェースカード(LAN NIC)であってよい。よく知られる802.11a、802.11b、802.11g、Bluetoothなどの無線リンクも、ネットワーク実装に使用可能である。そのような、どの実装においても、通信インターフェース913は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁信号、または光信号を送受信する。
ネットワークリンク913は、典型的には、1つまたは複数のネットワークを介する、他のネットワークリソースとのデータ通信を可能にする。たとえば、ネットワーク914は、ローカルネットワーク915を介する、ホストコンピュータ916またはネットワーク記憶装置もしくはサーバ917への接続を提供することが可能である。さらに、あるいは、代替として、ネットワークリンク913は、ゲートウェイ/ファイアウォール917を介して、ワイドエリアネットワークまたはグローバルネットワーク918(インターネットなど)に接続することが可能である。したがって、コンピュータプラットフォーム901は、インターネット918上の任意の場所にあるネットワークリソース(たとえば、リモートネットワーク記憶装置/サーバ919)にアクセスすることが可能である。一方、コンピュータプラットフォーム901は、ローカルエリアネットワーク915上および/またはインターネット918上の任意の場所にあるクライアントからアクセスされることも可能である。ネットワーククライアント920および921は、それぞれが、プラットフォーム901と同様のコンピュータプラットフォームに基づいて実装されてよい。
ローカルネットワーク915およびインターネット918は、両方とも、デジタルデータストリームを搬送する電気信号、電磁信号、または光信号を使用する。様々なネットワークを通る信号、および、コンピュータプラットフォーム901からのデジタルデータを搬送する、ネットワークリンク914上にあって通信インターフェース913を通る信号は、情報を輸送する搬送波の例示的形態である。
コンピュータプラットフォーム901は、インターネット918およびLAN915を含む様々なネットワーク、ネットワークリンク914、および通信インターフェース913を介して、メッセージを送信し、プログラムコードを含むデータを受信することが可能である。インターネットの例では、システム901は、ネットワークサーバとして動作する場合には、クライアント920および/または921で実行されるアプリケーションプログラムのために要求されたコードまたはデータを、インターネット918、ゲートウェイ/ファイアウォール917、ローカルエリアネットワーク915、および通信インターフェース913を介して送信することが可能である。同様に、システム901は、他のネットワークリソースからコードを受信することが可能である。
受信されたコードは、受信されたときにプロセッサ905によって実行されるか、かつ/または、後刻の実行のために、永続的記憶装置908または揮発性記憶装置906、あるいは他の不揮発性記憶装置に格納されることが可能である。このようにして、コンピュータシステム901は、アプリケーションコードを、搬送波の形態で取得することが可能である。
本発明は、どの特定のファイアウォールシステムにも限定されないことに注意されたい。本発明のポリシーベースのコンテンツ処理システムは、3つのファイアウォール動作モード(具体的には、NATモード、ルータモード、および透過モード)のいずれでも使用可能である。
最後に、本明細書に記載のプロセスおよび手法は、どの特定の装置とも本質的に関連するものではないこと、ならびに構成要素の任意の好適な組み合わせによって実装可能であることを理解されたい。さらに、本明細書に記載の教示に従って、様々なタイプの汎用装置を使用することが可能である。また、本明細書に記載の方法ステップを実行する専用装置を構築することも有利であろう。本発明を、特定の実施例に関して説明してきたが、それらは、すべての態様において、制限的ではなく例示的であるものとする。当業者であれば理解されるように、ハードウェア、ソフトウェア、およびファームウェアの多様な組み合わせが、本発明の実践に好適であろう。たとえば、説明されたソフトウェアは、Assembler、C/C++、perl、shell、PHP、Java(登録商標)などのような、多彩なプログラミング言語およびスクリプト言語で実装されることが可能である。
さらに、当業者であれば、本明細書で開示された本発明の明細および実践を考察することにより、本発明の他の実装が明らかとなろう。説明された実施形態の各種態様および/または構成要素は、画像方向識別のためにコンピュータ化されたシステムにおいて、単独で使用されることも、任意の組み合わせのかたちで使用されることも可能である。本明細および実施例は例示的であるに過ぎず、本発明の真の範囲および趣旨は、添付の請求項によって示されるものとする。
方向検出の例示的な問題を示した図である。 大規模な汎用消費者データセットの方向識別に関する、本発明の手法の一実施形態の良好なパフォーマンスを示した図である。 棄却を組み込んだ結果を示した図である。 Flickrトレーニングデータを用いた、テストセットの識別結果を示した図である。 これらのタグテストセットの識別結果を示した図である。 本発明のシステムの一実施形態を最先端システムと比較した結果を示した図である。 1861画像の私的写真コレクションであるテストセットに対応する結果を示した図である。 本発明の手法の一実施形態の例示的操作手順を示した図である。 本発明のシステムを実装することが可能なコンピュータプラットフォームの一例示的実施形態を示した図である。

Claims (22)

  1. 最適画像方向を決定する方法であって、
    (a)入力画像を取得することと、
    (b)前記入力画像の画像特徴を抽出することと、
    (c)前記画像の代替方向に対応する回転画像特徴を生成することと、
    (d)前記抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析することと、
    (e)重み付き多数決を用いて前記最近傍候補の方向を組み合わせることと、
    (f)前記(e)の結果を用いて、前記入力画像の前記最適画像方向を決定することと、を含む、方法。
  2. 前記複数の探索木を用いて解析することはさらに、k次元木を用い、空間ブロック、特徴次元、または前記空間ブロックおよび前記特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けることを含む、請求項1に記載の方法。
  3. 前記抽出された画像特徴に対して分解を実行することをさらに含む、請求項1に記載の方法。
  4. 前記抽出された画像特徴は、エッジ方向ヒストグラムを含む、請求項1に記載の方法。
  5. 前記エッジ方向ヒストグラムは、均一な空間グリッドを用いて生成される、請求項1に記載の方法。
  6. 前記エッジ方向ヒストグラムは、各空間グリッド要素において、エッジを、均等分割されたビンに量子化することによって生成される、請求項5に記載の方法。
  7. 色モーメント特徴を計算することをさらに含む、請求項1に記載の方法。
  8. 前記抽出された画像特徴を正規化することをさらに含む、請求項1に記載の方法。
  9. 前記回転画像特徴は、ブロックの並べ替えとエッジ方向回転とを用いて生成される、請求項1に記載の方法。
  10. 前記複数の探索木は、既知の方向の画像のトレーニングセットを用いて生成される、請求項1に記載の方法。
  11. 命令セットを実行するプログラムであって、前記命令セットは、1つまたは複数のプロセッサで実行された場合に、最適画像方向を決定する機能を、前記1つまたは複数のプロセッサに実施させるように動作可能であり、前記機能は、
    (a)入力画像を取得するステップと、
    (b)前記入力画像の画像特徴を抽出するステップと、
    (c)前記画像の代替方向に対応する回転画像特徴を生成するステップと、
    (d)前記抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析するステップと、
    (e)重み付き多数決を用いて前記最近傍候補の方向を組み合わせるステップと、
    (f)前記(e)のステップの結果を用いて、前記入力画像の前記最適画像方向を決定するステップと、
    を含む、プログラム。
  12. 探索木を構築することはさらに、k次元木を用い、空間ブロック、特徴次元、または前記空間ブロックおよび前記特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けするステップを含む、請求項11に記載のプログラム。
  13. 前記抽出された画像特徴に対して分解を実行するステップをさらに含む、請求項11に記載のプログラム。
  14. 前記抽出された画像特徴は、エッジ方向ヒストグラムを含む、請求項11に記載のプログラム。
  15. 前記エッジ方向ヒストグラムは、均一な5×5空間グリッドを用いて生成される、請求項11に記載のプログラム。
  16. 前記エッジ方向ヒストグラムは、各空間グリッドにおいて、エッジを、均等分割されたビンに量子化することによって生成される、請求項15に記載のプログラム。
  17. 色モーメント特徴を計算するステップをさらに含む、請求項11に記載のプログラム。
  18. 前記抽出された画像特徴を正規化するステップをさらに含む、請求項11に記載のプログラム。
  19. 前記回転画像特徴は、ブロックの並べ替えとエッジ方向回転とを用いて生成される、請求項11に記載のプログラム。
  20. 前記複数の探索木は、既知の方向の画像のトレーニングセットを用いて生成される、請求項11に記載のプログラム。
  21. 最適画像方向を決定するシステムであって、
    (a)入力画像を取得するように動作可能な入力モジュールと、
    (b)前記入力画像の画像特徴を抽出するように動作可能な画像特徴抽出モジュールと、
    (c)前記画像の代替方向に対応する回転画像特徴を生成するように動作可能な回転画像特徴生成モジュールと、
    (d)前記抽出および生成された特徴を、既知の方向の画像の大規模な集合から構築された、最近傍候補を含む複数の探索木を用いて解析するように動作可能な探索木モジュールと、
    (e)重み付き多数決を用いて前記最近傍候補の方向を組み合わせるように動作可能な組み合わせモジュールと、を備え、前記入力画像の最適画像方向は、前記組み合わせの結果に基づいて決定される、
    システム。
  22. 探索木を構築することはさらに、k次元木を用い、空間ブロック、特徴次元、または前記空間ブロックおよび前記特徴次元の組み合わせまたは射影に基づく、既知の方向のトレーニングデータから抽出された画像特徴にインデックスを付けることを含む、請求項21に記載のシステム。
JP2008249439A 2008-04-10 2008-09-29 最適画像方向を決定する方法、命令セットを実行するプログラム、および最適画像方向を決定するシステム Expired - Fee Related JP5146229B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/101,119 2008-04-10
US12/101,119 US8150212B2 (en) 2008-04-10 2008-04-10 System and method for automatic digital image orientation detection

Publications (2)

Publication Number Publication Date
JP2009252237A true JP2009252237A (ja) 2009-10-29
JP5146229B2 JP5146229B2 (ja) 2013-02-20

Family

ID=41164044

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008249439A Expired - Fee Related JP5146229B2 (ja) 2008-04-10 2008-09-29 最適画像方向を決定する方法、命令セットを実行するプログラム、および最適画像方向を決定するシステム

Country Status (2)

Country Link
US (1) US8150212B2 (ja)
JP (1) JP5146229B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011052201A1 (ja) 2009-11-02 2011-05-05 パナソニック株式会社 通信端末および通信方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210179B2 (en) * 2008-11-18 2019-02-19 Excalibur Ip, Llc Dynamic feature weighting
WO2012145273A1 (en) * 2011-04-21 2012-10-26 The Trustees Of Columbia University In The City Of New York Systems and methods for automatically determining an improved view for a visual query in a mobile search
CN103544501B (zh) * 2013-10-28 2016-08-17 哈尔滨商业大学 基于傅里叶变换的室内室外场景分类方法
US9275306B2 (en) * 2013-11-13 2016-03-01 Canon Kabushiki Kaisha Devices, systems, and methods for learning a discriminant image representation
US9704300B2 (en) * 2015-03-06 2017-07-11 Siemens Medical Solutions Usa, Inc. Detection of anatomy orientation using learning-based regression
JP6719724B2 (ja) * 2016-02-05 2020-07-08 富士ゼロックス株式会社 データ分類装置およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7215828B2 (en) * 2002-02-13 2007-05-08 Eastman Kodak Company Method and system for determining image orientation
US8989453B2 (en) * 2003-06-26 2015-03-24 Fotonation Limited Digital image processing using face detection information
US7519200B2 (en) * 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011052201A1 (ja) 2009-11-02 2011-05-05 パナソニック株式会社 通信端末および通信方法

Also Published As

Publication number Publication date
US8150212B2 (en) 2012-04-03
JP5146229B2 (ja) 2013-02-20
US20090257682A1 (en) 2009-10-15

Similar Documents

Publication Publication Date Title
Roy et al. MOXA: A deep learning based unmanned approach for real-time monitoring of people wearing medical masks
JP5146229B2 (ja) 最適画像方向を決定する方法、命令セットを実行するプログラム、および最適画像方向を決定するシステム
US10380173B2 (en) Dynamic feature selection for joint probabilistic recognition
US8594385B2 (en) Predicting the aesthetic value of an image
US8805018B2 (en) Method of detecting facial attributes
CN103443804B (zh) 面部标志检测方法
US20110293188A1 (en) Processing image data
US8515127B2 (en) Multispectral detection of personal attributes for video surveillance
US10223580B2 (en) Methods and systems for action recognition using poselet keyframes
CN103617432A (zh) 一种场景识别方法及装置
CN113298080B (zh) 目标检测增强模型、目标检测方法、装置及电子装置
Zhang et al. Fast face detection on mobile devices by leveraging global and local facial characteristics
Dantone et al. Augmented faces
CN111090763A (zh) 一种图片自动标签方法及装置
JP2023176023A (ja) 分散型データ分析のためのシステムおよび方法
CN111898418A (zh) 一种基于t-tiny-yolo网络的人体异常行为检测方法
CN116363538B (zh) 一种基于无人机的桥梁检测方法及系统
JP2006293720A (ja) 顔検出装置、顔検出方法、及び顔検出プログラム
Mukherjee et al. Energy efficient face recognition in mobile-fog environment
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置
Naveen et al. Pose and head orientation invariant face detection based on optimised aggregate channel feature
Shanmuhappriya Automatic attendance monitoring system using deep learning
Nesvadba et al. Towards a real-time and distributed system for face detection, pose estimation and face-related features
Ahmad et al. Toward cross‐domain object detection in artwork images using improved YoloV5 and XGBoosting

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121112

R150 Certificate of patent or registration of utility model

Ref document number: 5146229

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees