JP2009064434A - 判定方法、判定システムおよびコンピュータ読み取り可能な媒体 - Google Patents

判定方法、判定システムおよびコンピュータ読み取り可能な媒体 Download PDF

Info

Publication number
JP2009064434A
JP2009064434A JP2008217667A JP2008217667A JP2009064434A JP 2009064434 A JP2009064434 A JP 2009064434A JP 2008217667 A JP2008217667 A JP 2008217667A JP 2008217667 A JP2008217667 A JP 2008217667A JP 2009064434 A JP2009064434 A JP 2009064434A
Authority
JP
Japan
Prior art keywords
color
edge direction
orientation
vector
digital image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008217667A
Other languages
English (en)
Inventor
Michael Guerzhoy
グルゾイ マイケル
Hui Zhou
ゾウ フイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Publication of JP2009064434A publication Critical patent/JP2009064434A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3877Image rotation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/44Analysis of texture based on statistical description of texture using image operators, e.g. filters, edge density metrics or local histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20064Wavelet transform [DWT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】デジタル画像の配向を自動的に判定する新規な方法、システムを提供すること。
【解決手段】デジタル画像の配向を自動的に判定する方法はデジタル画像の特徴を抽出し
、多様な分類器を用いて抽出された特徴を処理し、多様な分類器の組み合わせられた出力
に基づきデジタル画像の配向を判定することを有する。
【選択図】図1

Description

本発明は一般的に画像処理に関し、具体的にデジタル画像の配向を自動的に判定する方
法、システム、およびコンピュータ・プログラムを具現するコンピュータ読み取り可能な
媒体に関する。
電子媒体管理システムにおいては、デジタル画像を正しい配向で記憶および/または検
索できるよう、デジタル形式で記憶された消費者の写真および他の画像の配向を検出でき
ることが望ましい。多数のデジタル画像を手動で検索、閲覧、および配向することは非常
に時間がかかり、従って非現実的な作業である。果たして、デジタル画像を自動的に判定
する手法が検討されている。
例えば、Luoの米国特許第6512846号明細書は画像配向を判定する方法、画像
認識システム、およびコンピュータ・プログラムを開示している。画像内で空と見込まれ
るピクセルは色で分類され、空と見込まれるピクセルに空間上連続している領域が特定さ
れる。実際の空領域は空間上連続している領域の内所定のテクスチャ閾値を越えるテクス
チャを有する領域を除外することにより特定され、実際の空領域の飽和度低下勾配が計算
される。画像は実際の各空領域内における水平および垂直飽和度低下勾配の平均絶対値に
基づき縦長および横長のいずれかに分類される。画像の配向は平均水平および垂直飽和度
低下勾配の極性により判定され、実際の空領域は飽和度低下勾配を空に対する所定飽和度
低下勾配と比較することにより真の空領域と確認される。
Arbuckleの米国特許第5842194号明細書は特徴検出および統計的手順を
実施するニューラル・ネットワークまたはコンピュータ、ならびに複数の解像度において
顔または他の物体を認識する問題を解くファジー論理を有してなるシステムを開示してい
る。局部的自動相関係数および線形判別分析を用い顔(または他の物体)を認識する複数
のシステムがデータ・セットに対し各々特定の解像度において顔画像を認識するよう訓練
される。第2の訓練段階において、各システムは第2の訓練セットでテストされ、テスト
において認識システムに提示される画像は第1の訓練セットのものと合致する解像度を有
する。第2の訓練段階の統計的実績を用いてファジー整数というファジーな組み合わせ手
法を訓練する。テスト段階において、分類器からの複数解像度における結果はファジーな
組み合わせを用いて組み合わされ、個々のシステムの性能より優れた集合的システムを実
現する。
Wang他の米国特許第6915025号明細書は画像の周辺部分から特徴を抽出する
ことにより画像の配向を特定する処置および手順を開示している。手順は画像特徴の配向
分類モデルが画像の配向を特定するよう訓練することに基づき抽出された特徴を評価する
Luoの米国特許出願公開第2003/0152289号明細書はデジタル画像の配向
を判定する方法を開示している。意味オブジェクト検出方法を用いて意味オブジェクトの
存在および配向が検出される。情景レイアウト検出方法を用いて情景レイアウトの配向が
検出される。アービトレーション方法を用いて検出された意味オブジェクトの配向および
検出された情景レイアウトの配向から画像配向の推定がもたらされる。
Chen他の米国特許出願公開第2004/0151371号明細書はデジタル・カラ
ー画像における顔の配向を判定するデジタル画像処理方法を開示しており、これは複数の
サンプル顔画像から平均格子パターン要素画像を、およびデジタル・カラー画像から総和
画像を生成する。総和画像を用い複数の有効な解像度において平均格子パターン要素画像
およびデジタル・カラー画像間で相関テストを実施することによりカラー・デジタル画像
内で顔の位置決めをする。デジタル・カラー画像は異なった有効な解像度において複数の
格子パターン要素画像にされ、平均格子パターン要素画像は複数の格子パターン要素画像
と相関される。複数の異なった配向において平均格子パターン要素画像または格子パター
ン要素画像のいずれかが提供される。カラー・デジタル画像における顔の配向は相関テス
トにおいて異なった配向の画像を用いることにより判定される。
Satoh他の米国特許出願公開第2005/0261573号明細書は撮像装置の撮
影した画像からの情景に配列された指標の画像座標を検出する指標検出器を開示している
。配向センサが撮像装置に装着され、測定配向を出力する。配向センサにより得られた測
定配向に基づき配向予測装置が撮像装置の配向を予測する。位置/配向計算器が撮像装置
の予測配向および各指標の画像座標およびワールド座標のセットを受信し、撮像装置の位
置および配向センサの方位角ドリフト・エラー補正値の更新値を判定した上、撮像装置の
位置および配向を計算する。
Ray他の米国特許出願公開第2005/0264658号明細書は少なくとも2つの
アルゴリズムを用いて画像データから顔の存在を判定する方法を開示している。第1アル
ゴリズムは色および形状情報に基づき顔を含む可能性のある画像ウィンドウを特定するパ
ターン照合手法を利用して複数の顔候補を判定することにより画像データを予備選別する
。第2アルゴリズムは第1アルゴリズムにより判定された顔候補を処理し、事後確率関数
分類器を用いて顔の存在を判定する。
Huangの米国特許出願公開第2006/0083441号明細書は画像編集環境に
おいてデジタル画像を再配向する方法を開示しており、ユーザが画像配向を主導で補正す
る労力を省くために画像はデフォルトとして横長モードでロードされる。画像を分析して
再配向が必要か判定することによりデジタル画像のインテリジェント再配向が実現される
。一実施形態でこれは画像ゾーンの分析プロセスおよび顔特徴分析を用いることにより達
成される。
Yu他の米国特許出願公開第2006/0061599号明細書は(i)必要な回転を
示す注釈に基づき表示時点で画像を視覚的に具現するシステムおよび方法;(ii)自動配
向認識に基づき画像の必要な回転を判定することにより表示時点で画像を視覚的に具現す
るシステムおよび方法;(iii)ファジー論理を利用し、画像に適用されるコンピュータ
・ビジョンまたは信号処理により生成される不正確なマーキングに基づき画像に対する最
良の回転角を判定することにより表示時点で画像を視覚的に具現するシステムおよび方法
;および(iv)自動画像配向認識、必要な回転を指定するユーザ入力、および画像取り込
み機構の検知配向の1つ以上を用い画像取り込み時点、画像表示時点、またはその間の任
意の時点で画像に注釈を付けるシステムおよび方法;を開示している。
Guzzwell他の米国特許出願公開第2006/0067591号明細書は複数の
特徴を有する画像の配向を特定する方法、システム、およびコンピュータ・プログラム製
品を開示している。方法は、複数の特徴における各特徴が複数の特徴種における関連特徴
種に対応するように複数の特徴種を定義すること、および複数の特徴種を順序付ける特徴
種分類順序を提供することを有してなる。方法はさらに画像を調べて特徴種分類順序に基
づき画像内の複数の特徴において特徴のセットを特定することを有してなり、特徴のセッ
トは少なくとも1つの特徴を有してなり、特徴のセットにおける各特徴は定義する特徴種
に対応する。特徴のセットは分類され、画像の配向が判定される。
下記引例はデジタル画像を配向させる手法を開示しているが、改良が望まれる。
米国特許出願公開第2006/0067591号明細書 米国特許出願公開第2006/0061599号明細書
従って本発明の目的はデジタル画像の配向を自動的に判定する新規な方法、システム、
およびコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体を提供する
ことである。
本発明の判定方法は、デジタル画像の配向を自動的に判定する判定方法であって、デジ
タル画像の特徴を抽出するステップと、多様な分類器を用いて前記抽出された特徴を処理
して、前記多様な分類器の総合された出力に基づき前記デジタル画像の配向を判定するス
テップとを有する。
本発明の判定方法において、前記抽出された特徴は、高レベルおよび低レベル特徴を有
することが好ましい。
本発明の判定方法において、前記低レベル特徴は、色干渉性ベクトル、色モーメント、
エッジ方向ヒストグラム、およびエッジ方向干渉性ベクトルの内の少なくとも2つを有し
ていることが好ましい。
本発明の判定方法において、前記高レベル特徴は、顔的特徴を有していることが好まし
い。
本発明の判定方法において、前記多様な分類器は、誤差逆転伝播ニューラル・ネットワ
ーク分類器および混合エキスパート・ネットワーク分類器を有することが好ましい。
本発明の判定方法において、前記混合エキスパート・ネットワーク分類器は、ゲート・
ネットワークおよび複数のエキスパート・ネットワークを有していることが好ましい。
本発明の判定方法において、前記抽出するステップの前に、前記デジタル画像を前処理
するステップをさらに有していてもよい。
本発明の判定方法において、前記前処理は、デジタル画像をYIQ色空間に変換するス
テップと、変換されたデジタル画像と、前記変換されたデジタル画像を各々90度、18
0度、および270度回転させたもののコピーと、を含むデジタル画像のセットを作成す
るステップとを有することが好ましい。
本発明の判定方法において、前記抽出するステップは、前記デジタル画像のセットにお
ける各画像について、各ピクセルを隣接ピクセルと比較するステップと、前記各ピクセル
のその隣接ピクセルに対する色干渉性に基づき、前記セットにおける前記各デジタル画像
のYIQ成分各々について色干渉性ベクトルを埋めるステップとを有することが好ましい
本発明の判定方法において、前記YIQ色空間の各成分は8つのバケットに量子化され
ること特徴とする。
また、本発明の判定方法において、前記ピクセルは同じ色バケットにおける少なくとも
5個のピクセルに連結している場合色成分に関し色干渉性であることを特徴とする。
本発明の判定方法において、前記抽出された特徴の処理は、混合エキスパート・ネット
ワーク分類器を用いて色干渉性ベクトルを処理し、色干渉性に基づく配向ベクトルを得る
ステップを有することを特徴とする。
本発明の判定方法において、前記抽出するステップは、前記デジタル画像のセット内の
各デジタル画像について、各ピクセルを隣接ピクセルと比較するステップと、前記各ピク
セルのその隣接ピクセルに対するエッジ方向干渉性に基づき、前記デジタル画像のセット
内の各デジタル画像についてエッジ方向干渉性ベクトルを埋めるステップとを有すること
を特徴とする。
本発明の判定方法において、エッジ方向ビンが17個あり、前記エッジ方向ビンのうち
16個のビンが各々方向を表し、1個のビンは非エッジのピクセルを表すことを特徴とす
る。
また、本発明の判定方法において、前記抽出するステップはさらに、前記埋められた各
エッジ方向干渉性ベクトルについて、各々90度、180度、および270度の特徴回転
を計算するステップを有することを特徴とする。
本発明の判定方法において、前記抽出された特徴の処理は、混合エキスパート・ネット
ワーク分類器を用いてエッジ方向干渉性ベクトルおよび特徴回転されたエッジ方向干渉性
ベクトルを処理し、エッジ方向干渉性ベクトルに基づく配向ベクトルを得るステップを有
することを特徴とする。
本発明の判定方法において、前記抽出するステップはさらに、前記デジタル画像のセッ
トの各デジタル画像を複数の同サイズの長方形領域に分割するステップと、前記領域の各
々から低レベル特徴を抽出するステップとを有することを特徴とする。
本発明の判定方法において、前記抽出するステップはさらに、前記デジタル画像のセッ
トの各デジタル画像の各領域におけるそれぞれの色成分について平均および分散色モーメ
ントを計算するステップと、前記計算された色モーメントを正規化するステップとを有す
ることを特徴とする。
また、前記抽出された特徴の処理は、誤差逆転伝播ニューラル・ネットワークを用いて
正規化された色モーメントを処理し、色モーメントに基づく配向ベクトルを得るステップ
を有していてもよい。
ここで、前記抽出するステップは、前記デジタル画像のセットにおける各デジタル画像
のYチャンネルに基づき、各領域のエッジ方向ヒストグラムを各領域における各ピクセル
の検出されたエッジ配向に基づき埋めるステップと、前記埋められた各エッジ方向ヒスト
グラムについて、エッジ方向ヒストグラムの特徴回転を90度、180度、および270
度の各々で計算するステップとを有していてもよい。
また、前記処理するステップは、誤差逆転伝播ニューラル・ネットワーク分類器を用い
てエッジ方向ヒストグラムおよび特徴回転をしたエッジ方向ヒストグラムを処理し、エッ
ジ方向ヒストグラムに基づいた配向ベクトルを得るステップを有することを特徴とする。
ここで、本発明のデジタル画像の配向を自動的に判定する判定システムは、デジタル画
像の特徴を抽出する特徴抽出器と、多様な分類器を用いて前記抽出された特徴を処理して
、前記多様な分類器の総合された出力に基づき前記デジタル画像の配向を判定する処理ネ
ットワークとを有することを特徴とする。
本発明の判定システムにおいて、前記処理ネットワークは、誤差逆転伝播ニューラル・
ネットワーク分類器および混合エキスパート・ネットワーク分類器を有することが好まし
い。
また、本発明の判定システムにおいて、前記混合エキスパート・ネットワーク分類器は
各々ゲート・ネットワークおよび複数のエキスパート・ネットワークを有することが好ま
しい。
また、本発明の判定システムにおいて、前記特徴抽出器は、前記デジタル画像から色干
渉性ベクトルを抽出し、前記処理ネットワークは、前記混合エキスパート・ネットワーク
分類器を用いて色干渉性ベクトルを処理し、色干渉性ベクトルに基づく配向ベクトルを形
成することが好ましい。
また、本発明の判定システムにおいて、前記特徴抽出器は、前記デジタル画像からエッ
ジ方向干渉性ベクトルを抽出し、前記処理ネットワークは、前記混合エキスパート・ネッ
トワーク分類器を用いて前記エッジ方向干渉性ベクトルを処理し、前記エッジ方向干渉性
ベクトルに基づく配向ベクトルを形成することを特徴とする。
本発明の判定システムにおいて、前記特徴抽出器は、前記デジタル画像から色モーメン
ト特徴を抽出し、前記処理ネットワークは、前記誤差逆転伝播ニューラル・ネットワーク
分類器を用いて色モーメント特徴を処理し、前記色モーメントに基づく配向ベクトルを形
成することを特徴とする。
また、本発明の判定システムにおいて、前記特徴抽出器は、前記デジタル画像からエッ
ジ方向ヒストグラム特徴を抽出し、前記処理ネットワークは、前記誤差逆転伝播ニューラ
ル・ネットワーク分類器を用いてエッジ方向ヒストグラム特徴を処理し、前記エッジ方向
ヒストグラムに基づく配向ベクトルを形成することを特徴とする。
また、本発明の判定システムにおいて、前記デジタル画像をYIQ色空間に変換し、前
記変換されたデジタル画像と、前記変換されたデジタル画像を各々90度、180度、お
よび270度回転したものと、を含むデジタル画像のセットを作成する前処理器をさらに
有することを特徴とする。
また、本発明の判定システムにおいて、前記セット内の各デジタル画像を処理し、その
中の顔的特徴を特定する顔的特徴処理器をさらに有することを特徴とする。
また、本発明の判定システムにおいて、前記特徴抽出器は、前記デジタル画像に基づき
、色モーメント特徴、エッジ方向ヒストグラム特徴、色干渉性ベクトル特徴およびエッジ
方向干渉性ベクトル特徴の内少なくとも2つを抽出することを特徴とする。
一方本発明のコンピュータ読み取り可能な媒体は、デジタル画像の配向を自動的に判定
するコンピュータ・プログラムを有するコンピュータ読み取り可能な媒体であって、デジ
タル画像の特徴を抽出するコンピュータ・プログラム・コードと、多様な分類器を用いて
抽出された特徴を処理し、多様な分類器の総合された出力に基づきデジタル画像の配向を
判定するコンピュータ・プログラム・コードとを有することを特徴とする。
本明細書において説明される、デジタル入力画像の配向を自動的に判定する方法、シス
テム、およびコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体は頑
強で、演算およびメモリ・リソースを効率的に使用する。色干渉性ベクトルCCVおよび
エッジ方向干渉性ベクトルEDCVの低レベル特徴をデジタル入力画像の配向判定に用い
ることにより結果において統計的に有意な改良が提供される。さらに、デジタル入力画像
からの低レベル特徴の抽出は以前に比べリソース効率がより高い方法で実施される。
YIQ色空間の使用は、YIQ空間がデジタル入力画像が通常保存されるRGB色空間
の線形変換であるため、YUV色空間を用いる従来技術の方法に比べより優れた性能を提
供する。
以下の説明において、デジタル入力画像の配向を自動的に判定する方法、コンピュータ
読み取り可能な媒体、およびシステムの実施形態が提供される。デジタル入力画像は上端
が0度または「北」方向を向いて適切に配向されるか、または上端が90度もしくは「東
」方向、180度もしくは「南」方向、または270度もしくは「西」方向を向いて不適
切に配向されることができる。例えば、図1は上端が270度または西方向を向くように
配向されたデジタル入力画像を示す。デジタル入力画像の配向判定方法の際、各デジタル
入力画像から特徴が抽出され、多様な分類器を用いて処理され、多様な分類器の総合され
た出力に基づきデジタル入力画像の配向を判定する。判定された配向情報は、上端が0度
または北方向を向くようにデジタル入力画像を再配向するのにデジタル入力画像をどれだ
け回転する必要があるか判定するために用いることができる。このように、垂直でないデ
ジタル入力画像を検出でき、閲覧を楽にするために再配向することができる。
次に図2を見ると、デジタル入力画像の配向を自動的に判定する判定システム10が示
されている。本実施形態で、判定システム10はデジタル入力画像の前処理器12、前処
理器12に連結された低レベル特徴抽出器14、低レベル特徴抽出器14に連結された低
レベル特徴処理ネットワーク18、前処理器12に連結された顔的特徴処理器16、なら
びに低レベル特徴処理ネットワーク18および顔的特徴処理器16双方に連結された配向
ベクトル合計器50を有してなる。
前処理器12は単一かつ演算的に低コストの線形RGB−YIQ色空間変形関数を有し
てなり、各デジタル入力画像に対し4つのYIQ画像からなるセットを生成する。YIQ
画像は低レベル特徴抽出器14および顔的特徴処理器16双方に適用される。YIQ画像
の受信に応答して、低レベル特徴抽出器14はYIQ画像から複数の低レベル特徴、すな
わちエッジ方向ヒストグラムEDH、色モーメントCM、色干渉性ベクトルCCV、およ
びエッジ方向干渉性ベクトルEDCV、を抽出する。抽出された低レベル特徴は低レベル
特徴処理ネットワーク18に提供され、後者は次に抽出された低レベル特徴を処理し低レ
ベル特徴配向ベクトルを生成する。YIQ画像の受信に応答して、顔的特徴処理器16は
高レベル特徴を生成し、これはすなわち「Robust Real-Time Object Detection」(「頑
強なリアルタイムのオブジェクト検出」);Second International Workshop on Statist
ical and Computerized Theories of Vision-Modeling, Learning, Computing and Sampl
ing(視覚モデル化、学習、演算、およびサンプリングの統計およびコンピュータ化理論
に関する第2国際ワークショップ)、カナダバンクーバー市、2001年7月、と題する論文
で記述されるようにアダブーストにより選択されたハール・ウェーブレット的特徴を用い
る分類器のカスケート経由で顔的特徴配向ベクトルである。配向ベクトル合計器50は低
レベル特徴処理ネットワーク18から低レベル特徴配向ベクトルを、および顔的特徴処理
器16からから顔的特徴配向ベクトルを受信し、各デジタル入力画像に対し出力する配向
ベクトル60を生成する。
配向ベクトル60は成分a〜成分dと記される4つの成分を有し、各成分は北(0度)
、東(90度)、南(180度)、および西(270度)のデジタル入力画像配向に対応
する。配向ベクトル60の成分aは0度または北の上端配向に結び付き、成分bは90度
または東の上端配向に結び付き、成分cは180度または南の上端配向に結び付き、成分
dは270度または西の上端配向に結び付いている。配向ベクトル60の成分aが最高値
を有する場合、デジタル入力画像は直立し適切に配向されているとみなされる。配向ベク
トルの成分b〜成分dの1つが最高値を有する場合、デジタル入力画像は不適切に配向さ
れているとみなされる。この場合配向ベクトル60は回転モジュール(図示せず)に適用
することができ、回転モジュールはデジタル入力画像の上端が0度または北の位置を取る
ようデジタル入力画像を適切な量回転させることができる。
図3は低レベル特徴処理ネットワーク18のブロック図である。見られるように、低レ
ベル特徴処理ネットワーク18はエッジ方向ヒストグラムEDH、色モーメントCM、色
干渉性ベクトルCCV、およびエッジ方向干渉性ベクトルEDCVを有してなる低レベル
特徴を低レベル特徴抽出器14から受信し、低レベル特徴を次に説明するように平行経路
に沿って処理する。
低レベル特徴処理ネットワークの1つの経路は特徴変換器20および特徴変換器20に
連結した単一隠れ層の誤差逆転伝播人口ニューラル・ネットワーク(以降、ANNという
)22を有してなる。ANN22は60個の隠れユニットを有する。ANN22は入力と
して各エッジ方向ヒストグラムEDHを受信し、各々のエッジ方向ヒストグラムEDHに
基づく配向ベクトルOVEDHを出力する。エッジ方向ヒストグラムEDHに基づく配向ベ
クトルOVEDHは、0度、90度、180度、および270度の可能な上端配向各々を1
成分とする4つの成分を有する。エッジ方向ヒストグラムEDHに基づく配向ベクトルO
EDHの成分に割り当てられる値は、ANN22が各々の入力されたエッジ方向ヒストグ
ラムEDHに基づき、デジタル入力画像の上端が4つの可能な方向の各々に向いていると
信じる度合いを示す。例えば、エッジ方向ヒストグラムEDHに基づく配向ベクトルOV
EDH=(0.6,12.0,0.8,0.65)、はANN22がデジタル入力画像の上端
が他の可能な方向に比べ、東または90度の方向を向いていると高度に信じていることを
示す。このようにANN22は配向分類器の役割を果たす。合計器24がANN22と通
信し、以下に説明するようにANN22により出力されるエッジ方向ヒストグラムEDH
に基づく配向ベクトルOVEDHを合計し、エッジ方向ヒストグラムEDHに基づく合成配
向ベクトル26をもたらす。
低レベル特徴処理ネットワーク18の第2の経路は第2の単一隠れ層の誤差逆転伝播人
口ニューラル・ネットワーク(以降、ANNという)28を有してなる。ANN28は8
0個の隠れユニットを有する。ANN28はそれぞれの色モーメントCMを入力として受
信し、各々の色モーメントCMに基づく配向ベクトルOVCMを出力する。エッジ方向ヒス
トグラムEDHに基づく配向ベクトルと同様、色モーメントCMに基づく各配向ベクトル
OVCMは0度、90度、180度、および270度の可能な上端配向各々を1つの成分と
する4つの成分を有する。さらにエッジ方向ヒストグラムEDHに基づく配向ベクトル同
様、色モーメントCMに基づく配向ベクトルOVCMの成分に割り当てられる値はANN2
8が各々の入力された色モーメントCMに基づき、デジタル入力画像の上端が4つの可能
な方向の各々に向いていると信じる度合いを示す。合計器30がANN28と通信し、以
下に説明するようにANN28により出力された色モーメントCMに基づく配向ベクトル
OVCMを合計し、色モーメントCMに基づく合成配向ベクトル32をもたらす。
低レベル特徴処理ネットワーク18の第3の経路は混合エキスパート・ネットワーク(
以降、MOEという)34を有してなる。MOE34は60個の隠れユニットを有するゲ
ート・ネットワーク、および各々60個の隠れユニットを有する10個のエキスパート・
ネットワークを含む。MOE34はそれぞれの色干渉性ベクトルCCVを入力として受信
し、各々の色干渉性ベクトルCCVに基づく配向ベクトルOVCCVを出力する。上述の配
向ベクトルと同様、色干渉性ベクトルCCVに基づく配向ベクトルは0度、90度、18
0度、および270度の可能な上端配向各々を1つの成分とする4つの成分を有する。さ
らに上述の各配向ベクトル同様、色干渉性ベクトルCCVに基づく配向ベクトルOVCCV
の成分に割り当てられる値はMOE34が各々の入力された色干渉性ベクトルCCVに基
づき、デジタル入力画像の上端が4つの可能な方向の各々に向いていると信じる度合いを
示す。合計器36がMOE34と通信し、後述のようにMOE34により出力される色干
渉性ベクトルCCVに基づく配向ベクトルOVCCVを合計し、色干渉性ベクトルCCVに
基づく合成配向ベクトル38をもたらす。
低レベル特徴処理ネットワーク18の第4の経路は特徴変換器40および特徴変換器4
0と通信する混合エキスパート・ネットワーク(以降、MOEという)42。MOE42
は60個の隠れユニットを有するゲート・ネットワークおよび各々60個の隠れユニット
を有する10個のエキスパート・ネットワークを含む。MOE42は各エッジ方向干渉性
ベクトルEDCVを入力として受信し、各々のエッジ方向干渉性ベクトルEDCVに基づ
く配向ベクトルOVEDCVを出力する。上述の配向ベクトル同様、エッジ方向干渉性ベクト
ルEDCVに基づく配向ベクトルは0度、90度、180度、および270度の可能な上
端配向各々を1つの成分とする4つの成分を有する。さらに上述の各配向ベクトル同様、
エッジ方向干渉性ベクトルEDCVに基づく配向ベクトルOVEDCVの成分に割り当てられ
る値はMOE42が各々の入力されたエッジ方向干渉性ベクトルEDCVに基づき、デジ
タル入力画像の上端が4つの可能な方向の各々に向いていると信じる度合いを示す。合計
器44がMOE42と通信し、後述のようにMOE42により出力されるエッジ方向干渉
性ベクトルEDCVに基づく配向ベクトルOVEDCVを合計し、エッジ方向干渉性ベクトル
EDCVに基づく合成配向ベクトル38をもたらす。
理解されるように、低レベル特徴処理ネットワーク18はエッジ方向ヒストグラムED
Hに基づく合成配向ベクトル、色モーメントCMに基づく合成配向ベクトル、色干渉性ベ
クトルCCVに基づく合成配向ベクトル、およびエッジ方向干渉性ベクトルEDCVに基
づく合成配向ベクトルを生成する複数の多様な分類器を含む。これらの合成配向ベクトル
は顔的特徴処理器16の配向ベクトル出力とともに配向ベクトル合計器50に適用され、
後者は受信された配向ベクトルを合計し、その結果、配向ベクトル60をもたらす。
図4はANN22およびANN28の一般構造を示す図である。ANNの入力層は隠れ
層に完全に接続され、隠れ層は生の出力層に完全に接続されている。入力層における各ユ
ニットの出力は単にそこに入れられる特徴の値である。隠れ層および生の出力層双方にお
ける各ユニットの出力は次の方程式(1)に従ったシグモイド・ユニットの標準出力であ
る:
可能なデジタル入力画像配向{北、東、南、西}、(または{0,90,180,27
0})はANNの4つの出力ユニット{O1,O2,O3,O4}の各々に割り当てられる。
より具体的に、O1は画像の上端が北を向いていると信じる度合いを表し、O2は画像の上
端が東を向いていると信じる度合いを表し、O3は画像の上端が南を向いていると信じる
度合いを表し、O4は画像の上端が西を向いていると信じる度合いを表す。
4つの出力ユニット{O1,O2,O3,O4}からの出力はO1+O2+O3+O4=1とな
るように正規化され、デジタル入力画像11の上端が特定の方向を向いている確率を表せ
るようにする。
本実施形態で、MOE34およびMOE42は「Adaptive Mixtures of Local Experts
」(「ローカル・エキスパートの適応混合」);R. A. Jacobs, M. I. Jordan, S. J. No
wlan, G. E. Hinton, Neural Computation 3,79-87(1991年)と題する論文に規定される
ような混合エキスパート・ネットワークである。MOE34、MOE42は各々ゲート・
ネットワークとしてソフトマックス・ネットワーク、および数個の通常のエキスパート・
ネットワークを有してなる。
ソフトマックス・ネットワークの出力を得るために、生の出力ユニット値は次の方程式
(2)に従い正規化される:
MOE34およびMOE42の訓練の際、各エキスパート・ネットワークおよびゲート
・ネットワークに訓練データが提供される。それにより次の方程式(3)に示される誤差
関数が最小化される:
この訓練方法は、組み合わせ係数が適応型であるので周知のバギングの方法より好まし
い。さらに、異なったエキスパート・ネットワークはデジタル入力画像の各々の種類によ
り良く特化することができ、ゲート・ネットワークは特定のデジタル入力画像に対しどの
エキスパート・ネットワークが最も良く分類できるかを裁定することができる。例えば、
エキスパート・ネットワークの1つまたはサブセットは暗いデジタル入力画像(例えば微
小光または夜中に撮られた写真である可能性の高いデジタル入力画像)に特化することが
でき、他方エキスパート・ネットワークの別の1つまたはサブセットは淡青色の写真(例
えば情景写真の可能性が高いデジタル入力画像)に特化することができる。
ANN22およびANN28の訓練の際、分類器関数を学習するために適応学習率を有
する誤差逆転伝播が用いられ、確率的勾配降下法を用いて各分類器が訓練される。すなわ
ち、訓練サンプルがランダムな順序で誤差逆転伝播ネットワークに送り込まれ、誤差がネ
ットワークを逆に伝播し上述のように加重を調節する。予期される誤差を推定するために
検証セットが訓練に使用しないで維持される。検証セットの誤差は定期的に演算され、ネ
ットワークの「スナップショット」が取られる。検証セットの誤差がグローバルな最小値
に到達したと判定されると、最も小さい最小値を有するネットワークのスナップショット
がデジタル入力画像の配向を判定するのに選択される。
図5はデジタル入力画像配向判定の際、判定システム10により実施されるステップを
示すフローチャート90である。デジタル入力画像が判定システム10により受信される
と、デジタル入力画像はまず前処理器12により前処理される(ステップS100)。前
述のとおり、前処理の際、デジタル入力画像は線形RGB−YIQ色空間変形関数を用い
てYIQ画像に変換される。それにより各々90度、180度、および270度回転され
たYIQ画像の追加コピーが3つ生成され、4つのYIQ画像のセットが得られる。
前処理の後、4つのYIQ画像は顔的特徴処理器16に送り込まれ、処理器はYIQ画
像を処理してその中の高レベル特徴、すなわち顔、を検出する。顔的特徴処理器16は「
Robust Real-time Object Detection」(「頑強でリアルタイムのオブジェクト検出」)
;P. Viola およびM. Jones、Second International Workshop on Statistical and Comp
uterized Theories of Vision-Modeling, Learning, Computing and Sampling(視覚モデ
ル化、学習、演算、およびサンプリングの統計およびコンピュータ化理論に関する第2国
際ワークショップ)、カナダバンクーバー市、2001年7月、と題する論文に記述される視
覚オブジェクトの検出枠組みに類似した方法で高レベルな顔的特徴を検出し、同論文の内
容は引用により本明細書に組み入れられる。方法の実施の際、各種サイズのスライド式ウ
ィンドウのカスケード用いられ、ウィンドウ内に顔的特徴が見出されるか判定される。特
定のサイズおよび位置のウィンドウが顔的特徴を含むと判定されると、適合が記録される
。分類器は小程度の並進不変性に対し訓練されているという前提に基づき、類似サイズの
ウィンドウを有する顔検出数および顔検出の近接を信頼度得点として用いることができる
。Viola他の方法は高検出率および迅速な処理を提供する一方、デジタル入力画像の
配向判定の目的からはViolaが提案するいくつかの異なったサイズのウィンドウの内
小さなサブセットからの結果で充分であることが見出されている。結果はそれだけを取る
と精度が落ちるが、より速くかつ必要なメモリおよび処理条件がより少なくして結果を得
られ、低レベル特徴処理ネットワーク18の結果と組み合わせるとデジタル入力画像の配
向判定において非常に良い結果を提供する。
顔的特徴処理器16における分類器のカスケードはセット内の4つのYIQ画像各々を
処理し、各YIQ画像における顔的特徴の数を特定する。4つの可能なデジタル入力画像
配向各々において特定された顔的特徴は次に総計され顔的特徴配向ベクトルを形成する(
ステップS200)。顔的特徴配向ベクトルは顔的特徴処理器16は4つの方向の内どれ
にデジタル入力画像の上端が配向していると信じるかを表す。例えば、各成分が各々0度
、90度、180度、および270度を表すとして、顔的特徴配向ベクトルOVFLF=(
2,12,1,0)は、顔的特徴処理器16がデジタル入力画像の上端が東(または90
度)を向いていると顔的特徴処理器16が強く信じていることを示す。理解されるように
、顔的特徴配向ベクトルの生成はデジタル入力画像における顔は画像が正しく配向してい
る場合通常直立であり、最大数の顔的特徴に対応する方向がデジタル入力画像の上端に対
応するとみなされるという前提に基づいている。
前処理の後、4つのYIQ画像は低レベル特徴抽出器14にも送り込まれる(ステップ
S300)。低レベル特徴抽出器14は応答してYIQ画像から低レベル特徴、すなわち
エッジ方向ヒストグラムEDH、色モーメントCM、色干渉性ベクトルCCV、およびエ
ッジ方向干渉性ベクトルEDCV、を抽出する。エッジ方向ヒストグラムEDHおよび色
モーメントCMを抽出するために、各YIQ画像は50から100の等しいサイズの長方
形領域の格子に分割される。周知の非最大抑制手法を使用の上、Yチャンネルのピクセル
値のみを用い各長方形領域からエッジ方向ヒストグラムEDHが抽出される。各エッジ方
向ヒストグラムEDHは16個のエッジ方向ビンおよび1個の無方向ビンの合計17個の
ビンを含み、エッジは16個の方向に量子化される。無方向ビンはエッジ方向が非最大抑
制により「切り取られた」ピクセルに割り当てられることが理解されよう。図6はYIQ
画像の長方形領域から抽出された3×3のピクセル・ブロックで、エッジ方向ヒストグラ
ムを生成するのに用いられるピクセルの量子化されたエッジ方向を示す。方向矢印のない
ピクセルは無方向評価を表す。
各長方形領域について、Y、I、およびQの色成分各々に対し平均および分散された色
モーメントCMが演算される。それぞれの色モーメントCMは次に正規化され、約ゼロか
ら1の値がもたらされる。正規化された値は次の方程式4に従い計算される:
セット内の各YIQ画像からY、I、およびQの色成分各々に対応し3つの色干渉性ベ
クトルCCVが抽出される。抽出の際、各ピクセルは隣接ピクセルと比較され、色干渉性
ベクトルCCVは各ピクセルの隣接ピクセルに対する色干渉性に基づき埋められる。より
具体的に、YIQ画像におけるY、I、およびQのそれぞれの色成分は8個の明度のバケ
ットに量子化され、YIQ画像の第1行にあるピクセルに対し、それらが結び付いたバケ
ット(すなわちそのピクセルの値が範囲内に入るバケット)に基づき連結成分ラベルが割
り当てられる。次に後続する行をスキャンする際、隣接する4個の前以てスキャンされた
ピクセル(隣接するピクセルの内4個はまだスキャンされていないことが分かっているの
で、隣接する8個すべてのピクセルではなく)の内1個に対する各々の色連結に基づき連
結成分ラベルが割り当てられる。隣接する4個の前以てスキャンされたピクセルの少なく
とも1個が現在のピクセルと同じ色バケットにある場合色連結が生じるとみなされる。色
連結が特定された場合、対応する連結成分のサイズは1個分増える。そうでない場合、ピ
クセルは新成分とみなされ、従って初期成分サイズが1ピクセルに等しい新規成分ラベル
が割り当てられる。前以てスキャンされた隣接ピクセル1個のみが同じ色バケットを有す
る場合、その1個の隣接ピクセルのラベルが現在のピクセルに割り当てられ、成分サイズ
は1個分増分される。前以てスキャンされた隣接ピクセルの複数が同じ色バケットを有す
る場合、それらのラベルの内1つが現在のピクセルに割り当てられ、その成分サイズが1
個分増分され、複数成分の等値のものが記憶される。
スキャン後、異なったラベルを有する連結成分は等値と記録された場合「融合」される
。つまり2つの成分は、互いに隣接しており同じ色バケットに結び付いているピクセルを
有してなる場合融合される。融合の際、成分の各々のサイズは合計され、成分内のピクセ
ルは共通の連結成分ラベルでラベル付けされる。
それぞれの色バケットについて、色干渉性ベクトルは5ピクセルの干渉性閾値を以って
成分サイズの比較に基づく非干渉性ピクセルの数および干渉性ピクセルの数を計算するこ
とにより埋められる。
干渉性および非干渉性ピクセルを判定し、色干渉性ベクトルを埋めるためのソフトウェ
ア擬似コードが表1及び表2に示される。表1及び表2は3つの手順を含むことが特記さ
れる。手順getCoherenceVectorsはgetNonReducedGr
aphを呼び出し、それぞれの色成分が8個の色バケットを有するよう量子化されたYI
Q画像を渡す。手順getNonReducedGraphはYIQ画像をスキャンし第
1行にラベルを割り当てる。この手順はさらに続けてYIQ画像の後続行におけるピクセ
ルをスキャンし、一致する色バケットを判定し、ピクセルにラベルを割り当て、連結成分
のサイズを追跡し、等値を記録する。1つのスキャンが完了すると手順getNonRe
ducedGraphはsetEquivalenciesを呼び出し等値を照合して上
述のとおりラベルを割り当てる。これが実施されると、手順getCoherenceV
ectorsは連結成分が少なくともminComponentSizeピクセルを有す
るか判定し、それに従って干渉性ベクトルを埋める。擬似コード自体にminCompo
nentSizeは明示的に定義されていないが、5ピクセルに設定することが好ましい
色干渉性ベクトルを埋める際、ラベルは一度に1行のピクセルい対してのみ追跡され、
異なった連結成分のサイズは連結成分の判定の際、追跡されることが分かる。従って、色
干渉性ベクトルを埋めるにはデジタル入力画像のすべてのピクセルにわたり一回のパスの
みが必要である。
エッジ方向干渉性ベクトルEDCVは周知の非最大抑制手法を用いてセットにおける各
YIQ画像のYチャンネルから抽出される。抽出の際、各ピクセルは隣接ピクセルと比較
され、エッジ方向干渉性ベクトルEDCVは各ピクセルの隣接ピクセルに対するエッジ干
渉性に基づき埋められる。より具体的に、Yチャンネルは16個のエッジ方向バケット、
および非エッジ・ピクセルの1個のバケット、合計17個のバケットに量子化される。Y
IQ画像の第1行にあるピクセルに対し、それらが結び付いたバケット(すなわちそのピ
クセルのエッジ方向が範囲内に入るバケット)に基づき連結成分ラベルが割り当てられる
。次に後続する行をスキャンする際、前以てスキャンされたピクセル対する各々のエッジ
方向連結に基づき連結成分ラベルが割り当てられる。おなじバケットにあるピクセルが現
在のピクセルに隣接している場合エッジ方向連結が生じるとみなされる。エッジ方向連結
が特定された場合、対応する連結成分のサイズは1個分増える。そうでない場合、現在の
ピクセルに新規成分ラベルが割り当てられ新規ラベルの成分サイズは1に設定される。前
以てスキャンされた隣接ピクセル1個のみが同じエッジ方向バケットを有する場合、その
ラベルが現在のピクセルに割り当てられ、成分サイズは1個分増分される。前以てスキャ
ンされた隣接ピクセルの複数が同じエッジ方向バケットを有する場合、それらのラベルの
内1つが現在のピクセルに割り当てられ、その成分サイズが1個分増分され、複数成分の
等値のものが記憶される。スキャン後、異なったラベルを有する連結成分は等値と記録さ
れた場合「融合」される。つまり2つの成分は、互いに隣接しており同じエッジ方向バケ
ットに結び付いているピクセルを有してなる場合融合される。融合の際、成分の各々のサ
イズは合計され、成分内のピクセルは共通の連結成分ラベルでラベル付けされる。
各エッジ方向バケットについて、エッジ方向干渉性ベクトルEDCVは5ピクセルの干
渉性閾値を以って成分サイズの比較に基づく非干渉性ピクセルの数および干渉性ピクセル
の数を計算することにより埋められる。エッジ方向干渉性ベクトルEDCVを埋めること
は色干渉性ベクトルCCVのそれに非常に似ていることが理解できよう。表1及び表2の
擬似コードは色の代わりにエッジ方向を扱うよう修正してYIQ画像のエッジ方向干渉性
ベクトルEDCVを演算するのに用いることができる。
一旦、エッジ方向ヒストグラムEDH、色モーメントCM、色干渉性ベクトルCCV、
およびエッジ方向干渉性ベクトルEDCVがセット内のYIQ画像から抽出されると、こ
れらは低レベル特徴処理ネットワーク18に提供され、合成されたエッジ方向ヒストグラ
ムEDH、合成された色モーメントCM、合成された色干渉性ベクトルCCV、および合
成されたエッジ方向干渉性ベクトルEDCVに基づく配向ベクトルが判定される。
低レベル特徴処理ネットワーク18において、エッジ方向ヒストグラムEDHは特徴変
換器20を用い90度、180度、および270度の各々回転される。その結果、回転後
のエッジ方向ヒストグラムEDHの数は4倍になる。異なった回転角についてデジタル入
力画像上のエッジ検出に用いられる標準非最大抑制アルゴリズムの結果得られるエッジの
追加情報を利用するために回転が実施される。色モーメントCMおよび色干渉性ベクトル
CCVの回転は追加情報をもたらさないため、回転はEDH特徴(および後述のようにE
DCV特徴)に対し行われる。
エッジ方向ヒストグラムEDHの各々はANN22に適用され、後者は続いて各入力さ
れたエッジ方向ヒストグラムEDHに対しエッジ方向ヒストグラムEDHに基づく出力配
向ベクトルを生成する。エッジ方向ヒストグラムEDHに基づく配向ベクトルは次に合計
器24に適用される。合計器24はエッジ方向ヒストグラムEDHに基づく配向ベクトル
の対応する成分が合計されることを保証する。以下の表3は4つYIQ画像の各々から抽
出された各種のエッジ方向ヒストグラムEDHおよびエッジ方向ヒストグラムEDH特徴
の回転に応答して低レベル特徴処理ネットワーク18により生成されたエッジ方向ヒスト
グラムEDHに基づく配向ベクトルを示す。表3の配向ベクトルにおいて「a」で表され
る値はすべて対応する成分で、従っていっしょに合計される。同様に「b」で表される値
がすべて合計され、「c」で表される値がすべて合計され、「d」で表される値がすべて
合計される。
色モーメントCMの各々はANN28に適用され、後者は続いて各入力された色モーメ
ントCMに対し色干渉性ベクトルCCVに基づく出力配向ベクトルを生成する。ANN2
8により出力された色モーメントCMに基づく配向ベクトルは次に合計器30により成分
上合計され、色モーメントCMに基づく合成配向ベクトル32をもたらす。
色干渉性ベクトルCCVの各々はMOE34に提供され、各入力された色干渉性ベクト
ルCCVに対し色干渉性ベクトルCCVに基づく出力配向ベクトルが提供される。MOE
34により出力されもたらされた色干渉性ベクトルCCVに基づく配向ベクトルは次に合
計器36により成分上合計され、色干渉性ベクトルCCVに基づく合成配向ベクトル38
をもたらす。
エッジ方向干渉性ベクトルEDCVは各々特徴変換器40により90度、180度、お
よび270度の各々回転される。その結果、回転後のエッジ方向干渉性ベクトルEDCV
の数は4倍になる。上述のように、エッジ検出に用いられる標準非最大抑制アルゴリズム
の結果得られるエッジの追加情報を利用するために回転が実施される。
エッジ方向干渉性ベクトルEDCVの各々は次にMOE42に適用され、後者は各入力
されたエッジ方向干渉性ベクトルEDCVに対しエッジ方向干渉性ベクトルEDCVに基
づく出力配向ベクトルを提供する。エッジ方向干渉性ベクトルEDCVに基づく配向ベク
トルは次に合計器44により合計され、エッジ方向干渉性ベクトルEDCVに基づく合成
配向ベクトル46をもたらす。エッジ方向ヒストグラムEDHに基づく配向ベクトルの合
計と同様、合計器44はエッジ方向干渉性ベクトルEDCVに基づく配向ベクトルの対応
する成分が合計されることを保証する。
エッジ方向ヒストグラムEDHに基づく合成配向ベクトル、色モーメントCMに基づく
合成配向ベクトル、色干渉性ベクトルCCVに基づく合成配向ベクトル、エッジ方向干渉
性ベクトルEDCVに基づく合成配向ベクトル、および顔的特長の合成配向ベクトルの各
々は次に配向ベクトル合計器50により成分上合計され、その結果配向ベクトル60がも
たらされる(ステップS400)。次に全体的な配向ベクトル60内で最も高い値を有す
る成分に対応する方向を判定することによりデジタル入力画像の配向が判定される(ステ
ップS500)。例えば、全体的な配向ベクトル60としてのOOV=(5241,968
2,230000,1200)で、成分は各々0度、90度、180度、および270度
を表す場合、南の位置が最も高い値(すなわち「230000」)を有する成分に対応す
るので、判定システム10はデジタル入力画像の上端は180度または南位置に位置合わ
せされると信じる。従って、デジタル入力画像を正しく配向するために、デジタル入力画
像はその上端が0度位置に位置合わせされるよう180度回転させる必要がある。
配向判定の際、色干渉性ベクトルCCVおよびエッジ方向干渉性ベクトルEDCVの低
レベル特徴を使用すると統計的に有意な精度の向上が提供される。
上述の実施形態で、具体的な分類器が引用されている。当業者であれば各種の分類器が
多様である限り代わりの分類器を用い得ることを理解しよう。
本明細書では連結成分を演算する単独スキャン方法が説明されたが、連結成分を演算す
る代替方法を用いることができる。例えば、ダジタル入力画像の第1スキャンの際にラベ
ルがピクセルに割り当てられラベルは共通の色に基づき等値と判定され、第2スキャンの
際に記録された等値に基づきラベルが付け直されるといった周知の従来技術の方法を用い
ることができる。連結成分を見出すこのような2度スキャンのアルゴリズムの例は「Conn
ected Components Labelling」(「連結成分のラベル付け」);Fisher、S. Perkins、A.
Walker、E. Wolfart、2003年(http://homepages.inf.ed.ac.uk/rbf/HIPR2/label.htm;
2007年8月16日に最後にアクセス);において提供される。しかし、単独スキャン方法は
N×Nのピクセル画像について、連結成分を演算するメモリ・サイズの条件がO(N2
からO(N)に削減されるという利点を有することが理解されよう。
デジタル入力画像の配向を自動的に判定する方法はパソコンまたは他の演算システム環
境などの処理装置により実行されるコンピュータ実行可能な命令を含むソフトウェア・ア
プリケーションにより実施することができる。ソフトウェア・アプリケーションは独立し
た画像配向ツールとして稼動することができ、またはメディア管理システムに組み入れて
それらのメディア管理システムに拡張した機能を提供することができる。ソフトウェア・
アプリケーションがルーチン、プログラム、オブジェクト・コンポーネント、データ構造
、等々を有してなることができ、コンピュータ読み取り可能な媒体に記憶されたコンピュ
ータ読み取り可能なプログラム・コードとして具現されることができる。コンピュータ読
み取り可能な媒体は後でコンピュータ・システムが読み取れるデータを記憶できる任意の
データ記憶装置である。コンピュータ読み取り可能な媒体の例として例えば読み取り専用
メモリ、ランダムアクセス・メモリ、CD−ROM、磁気テープ、および光データ記憶装
置が挙げられる。コンピュータ読み取り可能なプログラム・コードは連結コンピュータを
含むネットワーク上に分散し、コンピュータ読み取り可能なプログラム・コードが分散し
て記憶され実行されることもできる。
実施形態が説明されたが、当業者であれば添付クレームにより定義されるその精神およ
び範囲を逸脱することなく変形および修正を加え得ることを理解しよう。
上端が270度または「西」方向に配向したデジタル画像を示す図。 デジタル入力画像の配向を自動的に判定するシステムのブロック図。 図2におけるシステムの一部を形成する低レベル特徴処理ネットワークのブロック図。 図3における低レベル特徴処理ネットワーク内の人口ニューラル・ネットワークのブロック図。 デジタル入力画像の配向判定の際、図2におけるシステムが実施するステップを示すフローチャート。 画像内の各ピクセルの量子化されたエッジ方向を示すYIQ画像から抽出された3×3のピクセル・ブロック。
符号の説明
10…判定システム、11…デジタル入力画像、12…前処理器、14…低レベル特徴
抽出器、16…顔的特徴処理器、18…低レベル特徴処理ネットワーク、20,40…特
徴変換器、22,28…誤差逆転伝播人口ニューラル・ネットワーク(ANN)、24,
30,36,44…合計器、26,32,38,46…合成配向ベクトル、34,42…
混合エキスパート・ネットワーク(MOE)、50…配向ベクトル合計器、60,OVCC
V,OVCM,OVEDCV,OVEDH…配向ベクトル、a,b,c,d…成分、CCV…色干渉
性ベクトル、CM…色モーメント、EDCV…エッジ方向干渉性ベクトル、EDH…エッ
ジ方向ヒストグラム、O1,O2,O3,O4…出力ユニット。

Claims (32)

  1. デジタル画像の配向を自動的に判定する判定方法であって、
    デジタル画像の特徴を抽出するステップと、
    多様な分類器を用いて前記抽出された特徴を処理して、前記多様な分類器の総合された
    出力に基づき前記デジタル画像の配向を判定するステップとを有することを特徴とする判
    定方法。
  2. 前記抽出された特徴は、高レベルおよび低レベル特徴を有することを特徴とする請求項
    1に記載の判定方法。
  3. 前記低レベル特徴は、色干渉性ベクトル、色モーメント、エッジ方向ヒストグラム、お
    よびエッジ方向干渉性ベクトルの内の少なくとも2つを有していることを特徴とする請求
    項2に記載の判定方法。
  4. 前記高レベル特徴は、顔的特徴を有していることを特徴とする請求項2に記載の判定方
    法。
  5. 前記多様な分類器は、誤差逆転伝播ニューラル・ネットワーク分類器および混合エキス
    パート・ネットワーク分類器を有することを特徴とする請求項1に記載の判定方法。
  6. 前記混合エキスパート・ネットワーク分類器は、ゲート・ネットワークおよび複数のエ
    キスパート・ネットワークを有していることを特徴とする請求項5に記載の判定方法。
  7. 前記抽出するステップの前に、前記デジタル画像を前処理するステップをさらに有する
    ことを特徴とする請求項1に記載の判定方法。
  8. 前記前処理は、
    デジタル画像をYIQ色空間に変換するステップと、
    変換されたデジタル画像と、前記変換されたデジタル画像を各々90度、180度、お
    よび270度回転させたもののコピーと、を含むデジタル画像のセットを作成するステッ
    プとを有することを特徴とする請求項7に記載の判定方法。
  9. 前記抽出するステップは、
    前記デジタル画像のセットにおける各画像について、各ピクセルを隣接ピクセルと比較
    するステップと、
    前記各ピクセルのその隣接ピクセルに対する色干渉性に基づき、前記セットにおける前
    記各デジタル画像のYIQ成分各々について色干渉性ベクトルを埋めるステップとを有す
    ることを特徴とする請求項8に記載の判定方法。
  10. 前記YIQ色空間の各成分は8つのバケットに量子化されることを特徴とする請求項9
    に記載の判定方法。
  11. 前記ピクセルは同じ色バケットにおける少なくとも5個のピクセルに連結している場合
    色成分に関し色干渉性であることを特徴とすることを特徴とする請求項10に記載の判定
    方法。
  12. 前記抽出された特徴の処理は、
    混合エキスパート・ネットワーク分類器を用いて色干渉性ベクトルを処理し、色干渉性
    に基づく配向ベクトルを得るステップを有することを特徴とする請求項9に記載の判定方
    法。
  13. 前記抽出するステップは、
    前記デジタル画像のセット内の各デジタル画像について、各ピクセルを隣接ピクセルと
    比較するステップと、
    前記各ピクセルのその隣接ピクセルに対するエッジ方向干渉性に基づき、前記デジタル
    画像のセット内の各デジタル画像についてエッジ方向干渉性ベクトルを埋めるステップと
    を有することを特徴とする請求項8に記載の判定方法。
  14. エッジ方向ビンが17個あり、前記エッジ方向ビンのうち16個のビンが各々方向を表
    し、1個のビンは非エッジのピクセルを表すことを特徴とする請求項13に記載の判定方
    法。
  15. 前記抽出するステップはさらに、
    前記埋められた各エッジ方向干渉性ベクトルについて、各々90度、180度、および
    270度の特徴回転を計算するステップを有することを特徴とする請求項13に記載の判
    定方法。
  16. 前記抽出された特徴の処理は、
    混合エキスパート・ネットワーク分類器を用いてエッジ方向干渉性ベクトルおよび特徴
    回転されたエッジ方向干渉性ベクトルを処理し、エッジ方向干渉性ベクトルに基づく配向
    ベクトルを得るステップを有することを特徴とする請求項15に記載の方法。
  17. 前記抽出するステップはさらに、
    前記デジタル画像のセットの各デジタル画像を複数の同サイズの長方形領域に分割する
    ステップと、
    前記領域の各々から低レベル特徴を抽出するステップとを有することを特徴とする請求
    項8に記載の判定方法。
  18. 前記抽出するステップはさらに、
    前記デジタル画像のセットの各デジタル画像の各領域におけるそれぞれの色成分につい
    て平均および分散色モーメントを計算するステップと、
    前記計算された色モーメントを正規化するステップとを有することを特徴とする請求項
    17に記載の判定方法。
  19. 前記抽出された特徴の処理は、誤差逆転伝播ニューラル・ネットワークを用いて正規化
    された色モーメントを処理し、色モーメントに基づく配向ベクトルを得るステップを有す
    ることを特徴とする請求項18に記載の判定方法。
  20. 前記抽出するステップは、
    前記デジタル画像のセットにおける各デジタル画像のYチャンネルに基づき、各領域の
    エッジ方向ヒストグラムを各領域における各ピクセルの検出されたエッジ配向に基づき埋
    めるステップと、
    前記埋められた各エッジ方向ヒストグラムについて、エッジ方向ヒストグラムの特徴回
    転を90度、180度、および270度の各々で計算するステップとを有することを特徴
    とする請求項17に記載の判定方法。
  21. 前記処理するステップは、
    誤差逆転伝播ニューラル・ネットワーク分類器を用いてエッジ方向ヒストグラムおよび
    特徴回転をしたエッジ方向ヒストグラムを処理し、エッジ方向ヒストグラムに基づいた配
    向ベクトルを得るステップを有することを特徴とする請求項20に記載の判定方法。
  22. デジタル画像の配向を自動的に判定する判定システムであって、
    デジタル画像の特徴を抽出する特徴抽出器と、
    多様な分類器を用いて前記抽出された特徴を処理して、前記多様な分類器の総合された
    出力に基づき前記デジタル画像の配向を判定する処理ネットワークとを有することを特徴
    とする判定システム。
  23. 前記処理ネットワークは、誤差逆転伝播ニューラル・ネットワーク分類器および混合エ
    キスパート・ネットワーク分類器を有することを特徴とする請求項22に記載の判定シス
    テム。
  24. 前記混合エキスパート・ネットワーク分類器は各々ゲート・ネットワークおよび複数の
    エキスパート・ネットワークを有することを特徴とする請求項23に記載のシステム。
  25. 前記特徴抽出器は、前記デジタル画像から色干渉性ベクトルを抽出し、
    前記処理ネットワークは、前記混合エキスパート・ネットワーク分類器を用いて色干渉
    性ベクトルを処理し、色干渉性ベクトルに基づく配向ベクトルを形成することを特徴とす
    る請求項23に記載の判定システム。
  26. 前記特徴抽出器は、前記デジタル画像からエッジ方向干渉性ベクトルを抽出し、
    前記処理ネットワークは、前記混合エキスパート・ネットワーク分類器を用いて前記エ
    ッジ方向干渉性ベクトルを処理し、前記エッジ方向干渉性ベクトルに基づく配向ベクトル
    を形成することを特徴とする請求項23に記載の判定システム。
  27. 前記特徴抽出器は、前記デジタル画像から色モーメント特徴を抽出し、
    前記処理ネットワークは、前記誤差逆転伝播ニューラル・ネットワーク分類器を用いて
    色モーメント特徴を処理し、前記色モーメントに基づく配向ベクトルを形成することを特
    徴とする請求項23に記載の判定システム。
  28. 前記特徴抽出器は、前記デジタル画像からエッジ方向ヒストグラム特徴を抽出し、
    前記処理ネットワークは、前記誤差逆転伝播ニューラル・ネットワーク分類器を用いて
    エッジ方向ヒストグラム特徴を処理し、前記エッジ方向ヒストグラムに基づく配向ベクト
    ルを形成することを特徴とする請求項23に記載の判定システム。
  29. 前記デジタル画像をYIQ色空間に変換し、前記変換されたデジタル画像と、前記変換
    されたデジタル画像を各々90度、180度、および270度回転したものと、を含むデ
    ジタル画像のセットを作成する前処理器をさらに有することを特徴とする請求項22に記
    載の判定システム。
  30. 前記セット内の各デジタル画像を処理し、その中の顔的特徴を特定する顔的特徴処理器
    をさらに有することを特徴とする請求項29に記載の判定システム。
  31. 前記特徴抽出器は、前記デジタル画像に基づき、色モーメント特徴、エッジ方向ヒスト
    グラム特徴、色干渉性ベクトル特徴およびエッジ方向干渉性ベクトル特徴の内少なくとも
    2つを抽出することを特徴とする請求項30に記載の判定システム。
  32. デジタル画像の配向を自動的に判定するコンピュータ・プログラムを有するコンピュー
    タ読み取り可能な媒体であって、
    デジタル画像の特徴を抽出するコンピュータ・プログラム・コードと、
    多様な分類器を用いて抽出された特徴を処理し、多様な分類器の総合された出力に基づ
    きデジタル画像の配向を判定するコンピュータ・プログラム・コードとを有することを特
    徴とするコンピュータ読み取り可能な媒体。
JP2008217667A 2007-09-05 2008-08-27 判定方法、判定システムおよびコンピュータ読み取り可能な媒体 Withdrawn JP2009064434A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/850,383 US8094971B2 (en) 2007-09-05 2007-09-05 Method and system for automatically determining the orientation of a digital image

Publications (1)

Publication Number Publication Date
JP2009064434A true JP2009064434A (ja) 2009-03-26

Family

ID=40407591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008217667A Withdrawn JP2009064434A (ja) 2007-09-05 2008-08-27 判定方法、判定システムおよびコンピュータ読み取り可能な媒体

Country Status (2)

Country Link
US (1) US8094971B2 (ja)
JP (1) JP2009064434A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8934709B2 (en) 2008-03-03 2015-01-13 Videoiq, Inc. Dynamic object classification
US8896632B2 (en) * 2008-09-12 2014-11-25 Qualcomm Incorporated Orienting displayed elements relative to a user
US8686953B2 (en) * 2008-09-12 2014-04-01 Qualcomm Incorporated Orienting a displayed element relative to a user
TW201224955A (en) * 2010-12-15 2012-06-16 Ind Tech Res Inst System and method for face detection using face region location and size predictions and computer program product thereof
US20120328160A1 (en) * 2011-06-27 2012-12-27 Office of Research Cooperation Foundation of Yeungnam University Method for detecting and recognizing objects of an image using haar-like features
US10169661B2 (en) * 2014-03-28 2019-01-01 International Business Machines Corporation Filtering methods for visual object detection
CN105809621B (zh) * 2016-02-29 2019-03-01 哈尔滨超凡视觉科技有限公司 一种基于分辨率提升的照片翻新方法
US9984305B2 (en) * 2016-04-19 2018-05-29 Texas Instruments Incorporated Efficient SIMD implementation of 3x3 non maxima suppression of sparse 2D image feature points
WO2018187953A1 (zh) * 2017-04-12 2018-10-18 邹霞 基于神经网络的人脸识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842194A (en) * 1995-07-28 1998-11-24 Mitsubishi Denki Kabushiki Kaisha Method of recognizing images of faces or general images using fuzzy combination of multiple resolutions
US6512846B1 (en) * 1999-11-29 2003-01-28 Eastman Kodak Company Determining orientation of images containing blue sky
US6940545B1 (en) * 2000-02-28 2005-09-06 Eastman Kodak Company Face detecting camera and method
US6915025B2 (en) * 2001-11-27 2005-07-05 Microsoft Corporation Automatic image orientation detection based on classification of low-level image features
US7215828B2 (en) * 2002-02-13 2007-05-08 Eastman Kodak Company Method and system for determining image orientation
US7120279B2 (en) * 2003-01-30 2006-10-10 Eastman Kodak Company Method for face orientation determination in digital color images
JP4593968B2 (ja) * 2004-05-14 2010-12-08 キヤノン株式会社 位置姿勢計測方法および装置
US20060061599A1 (en) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. Method and apparatus for automatic image orientation normalization
CA2479664A1 (en) * 2004-09-24 2006-03-24 Edythe P. Lefeuvre Method and system for detecting image orientation
US7376287B2 (en) * 2004-10-15 2008-05-20 Cyberlink Corp. Method for intelligent auto-orientation of digital images

Also Published As

Publication number Publication date
US20090060346A1 (en) 2009-03-05
US8094971B2 (en) 2012-01-10

Similar Documents

Publication Publication Date Title
JP7149692B2 (ja) 画像処理装置、画像処理方法
JP2009064434A (ja) 判定方法、判定システムおよびコンピュータ読み取り可能な媒体
US7940985B2 (en) Salient object detection
US9235902B2 (en) Image-based crack quantification
US8792722B2 (en) Hand gesture detection
US8750573B2 (en) Hand gesture detection
KR101548928B1 (ko) 불변적인 시각적 장면 및 객체 인식
WO2019114036A1 (zh) 人脸检测方法及装置、计算机装置和计算机可读存储介质
US20130251246A1 (en) Method and a device for training a pose classifier and an object classifier, a method and a device for object detection
US20120183212A1 (en) Identifying descriptor for person or object in an image
US20100128927A1 (en) Image processing apparatus and image processing method
Zhang et al. Boosting image orientation detection with indoor vs. outdoor classification
US20140341421A1 (en) Method for Detecting Persons Using 1D Depths and 2D Texture
US20150161465A1 (en) Text recognition for textually sparse images
JP2010102725A (ja) デジタル画像におけるオブジェクト検出方法
US20080285849A1 (en) Two-Level Scanning For Memory Saving In Image Detection Systems
WO2009152509A1 (en) Method and system for crowd segmentation
CN106407978B (zh) 一种结合似物度的无约束视频中显著物体检测方法
JP2008102611A (ja) 画像処理装置
KR20190080388A (ko) Cnn을 이용한 영상 수평 보정 방법 및 레지듀얼 네트워크 구조
Pollicelli et al. RoI detection and segmentation algorithms for marine mammals photo-identification
US7580563B1 (en) Detection of objects in an image using color analysis
JP2008003749A (ja) 特徴点検出装置および方法並びにプログラム
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
JP2006293720A (ja) 顔検出装置、顔検出方法、及び顔検出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110812

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20120305