JP2004265407A

JP2004265407A - デジタル画像におけるカラーオブジェクトの検出方法

Info

Publication number: JP2004265407A
Application number: JP2004048340A
Authority: JP
Inventors: David J Crandall; ジェイクランダールデイヴィッド; Jiebo Luo; ルオジエボ
Original assignee: Eastman Kodak Co
Current assignee: Eastman Kodak Co
Priority date: 2003-02-28
Filing date: 2004-02-24
Publication date: 2004-09-24
Also published as: US7263220B2; EP1452995B1; US20040170318A1; EP1452995A3; DE602004008984T2; DE602004008984D1; EP1452995A2

Abstract

【課題】デジタル画像におけるカラーオブジェクトのより効果的かつ効率的な検出を実現するための方法を提供する。
【解決手段】カラーオブジェクトを含むサーチ画像を取得するステップと、カラーオブジェクトのモデル画像を取得するステップと、モデル画像の空間カラー結合確率関数（ＳＣＪＰＦ）を計算するステップと、オブジェクトモデル画像の最小のカラー数を有すサーチ画像の領域内の複数のサーチウィンドウのステップと、各サーチウィンドウのＳＣＪＰＦを計算するステップと、モデル画像と複数のサーチウィンドウのＳＣＪＰＦの類似度を評価するステップと、サーチ閾値を上回るモデル画像ＳＣＪＰＦとの類似度を有するサーチウィンドウを、検出対象オブジェクトを指定するステップとからなり、モデル画像ＳＣＪＰＦはカラー間の空間関係とカラー分布でもあり、サーチウィンドウＳＣＪＰＦはサーチウィンドウのカラー間の空間関係とカラー分布でもある。
【選択図】図２ａ

Description

本発明は、一般にデジタル画像処理技術に関し、より詳細にはデジタル画像におけるカラーオブジェクトの検出方法に関する。

ユーザ画像におけるオブジェクト検出は、重要な画像解析作業である。特に、画像中のオブジェクトの検出及び認識を行うことができるアルゴリズムでは、コンピュータにより実質的に人間が画像を見るときに認識できるものをシミュレートすることによって、画像から意味のある情報を大量に自動抽出することができる。このような意味のある情報は、自動画像カテゴリ化、情景分類、画像の向き決定のような広範囲の画像理解への応用を向上させることができるであろう。

しかしながら近年の研究にもかかわらず、制約なしの画像において任意のオブジェクトを確実に検出することができる単一のコンピュータアルゴリズムの開発はほとんど成果があがっていない。最近の研究において最も優れたものとしては、例えば、顔（Ｍ．Ｈ．Ｙａｎｇ，Ｄ．Ｋｒｉｅｇｍａｎ，Ｎ．Ａｈｕｊａらによる「画像における顔検出：サーベイ（ＤｅｔｅｃｔｉｎｇＦａｃｅｓｉｎＩｍａｇｅｓ：ＡＳｕｒｖｅｙ）」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．２４：１，ｐｐ．３４−５８，２００２）、人間の体（Ｎ．ＳｐｒａｇｕｅａｎｄＪ．Ｌｕｏらによる「静止画像における服を着た人間の検出（ＣｌｏｔｈｅｄＰｅｏｐｌｅＤｅｔｅｃｔｉｏｎｉｎＳｔｉｌｌＩｍａｇｅｓ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００２）、馬（Ｄ．Ａ．ＦｏｒｓｙｔｈａｎｄＭ．Ｍ．Ｆｌｅｃｋらによる「ボディープラン（ＢｏｄｙＰｌａｎｓ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，１９９７）、ナンバープレート（Ｊ．Ｗ．Ｈｓｉｅｈ，Ｓ．Ｈ．Ｙｕ，Ｙ．Ｓ．Ｃｈｅｎらによる「複雑な情景からの形態ベースのナンバープレート検出（Ｍｏｒｐｈｏｌｏｇｙ−ｂａｓｅｄＬｉｃｅｎｓｅＰｌａｔｅＤｅｔｅｃｔｉｏｎｆｒｏｍＣｏｍｐｌｅｘＳｃｅｎｅｓ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００２）、衛星写真における自動車（Ｈ．Ｍｏｏｎ，Ｒ．Ｃｈｅｌｌａｐｐａ，Ａ．Ｒｏｓｅｎｆｅｌｄらによる「最適エッジベース形状検出（ＯｐｔｉｍａｌＥｄｇｅ−ＢａｓｅｄＳｈａｐｅＤｅｔｅｃｔｉｏｎ）」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，（１１）１１，Ｎｏｖｅｍｂｅｒ２００２）、道路標識（Ｙ．Ｌａｕｚｉｅｒｅ，Ｄ．Ｇｉｎｇｒａｓ，Ｆ．Ｆｅｒｒｉｅらによる「モデルベース道路標識識別システム（ＡＭｏｄｅｌ−ＢａｓｅｄＲｏａｄＳｉｇｎＩｄｅｎｔｉｆｉｃａｔｉｏｎＳｙｓｔｅｍ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００１）などの特定のオブジェクトあるいはオブジェクトクラス、あるいは特定条件下での個別アルゴリズムの構築である。

オブジェクト検出アルゴリズムの構築は、典型的には、時間のかかる骨の折れる作業である。新しいオブジェクトまたはオブジェクトクラスの検出アルゴリズムの構築にはしばしば２つの基本的なアプローチがある。第1のアプローチは、対象オブジェクトを含む大量の画像データを収集し、真のデータに基づき学習エンジンを訓練するというものである（Ｈ．ＳｃｈｎｅｉｄｅｒｍａｎａｎｄＴ．Ｋａｎａｄｅらによる「顔及び自動車に適用される3次元オブジェクトの検出のための統計的方法（ＡＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏｄｆｏｒ３Ｄｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｐｐｌｉｅｄｔｏｆａｃｅｓａｎｄｃａｒｓ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０００、及びＨ．Ｒｏｗｌｅｙ，Ｓ．Ｂａｌｕｊａ，Ｔ．Ｋａｎａｄｅらによる「回転不変ニューラルネットワークべースの顔検出（ＲｏｔａｔｉｏｎＩｎｖａｒｉａｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ−ＢａｓｅｄＦａｃｅＤｅｔｅｃｔｉｏｎ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，１９９８）。しかしながら、基になる真のデータを大量に収集することは時間のかかる作業であり、オブジェクトによっては困難あるいは不可能であるかもしれない。また、学習エンジンの設計及び適切な画像特徴の選択には多くの人的作業が必要となる。もう１つのアプローチは、人間の直感を利用して対象オブジェクト検出のためのルールを作成するというものである。しかしながら、このアプローチも人手を要する作業であり、単なるオペレータだけでなくより専門的知識をもったエキスパートが必要とされ、結果として得られる検出器は、各オブジェクトタイプに対し新しいルールセットの作成を必要とする極めて特化したものとなってしまう。

本発明は、画像中の対象オブジェクトの様相を変化させる大域的及び局所的変形を受けた、一意的かつ不変的な空間レイアウトにおいて配置されたある特定の複数カラーを有するオブジェクトとして定義される「複合カラーオブジェクト（ｃｏｍｐｏｕｎｄｃｏｌｏｒｏｂｊｅｃｔ）」の検出に関するものである。これには、比較的広い範囲のオブジェクトクラス、例えば、旗、マンガのキャラクタ、ロゴ、ユニフォーム、標識などが含まれる。複合カラーオブジェクトの様相は情景ごとに大きく変化するため、このような問題は非自明なものとなる。旗やロゴのようなオブジェクトはしばしばフレキシブルな素材に表され、その様相は素材の変形と共に変化する。例えば、旗は風の状態により自己閉塞（ｓｅｌｆ−ｏｃｃｌｕｓｉｏｎ）及び非アファイン変形（ｎｏｎ−ａｆｆｉｎｅｄｉｓｔｏｒｔｉｏｎ）を受ける。画像の向きは必ずしも既知のものではなく、多くの複合カラーオブジェクトは固定の向きを有していないので、検出器は回転に対し不変でなければならない。オブジェクト毎の発光変化及び色差による色のシフトにロウバストである必要がある。

どのオブジェクト検出システムでも、対象オブジェクトモデルと入力画像との比較に利用される適切な表現の選択が必要となる。この表現選択は、典型的には、異なる画像における対象オブジェクトに関し予想される変形のタイプの関数である。例えば、あるオブジェクトにおいて大きなカラー変化が予想される場合、画像エッジに基づく表現が選択されねばならないし（例えば、Ｍｏｏｎ，ＣｈｅｌｌａｐｐａａｎｄＲｏｓｅｎｆｅｌｄ）、一方で大きな空間変化が予想される場合には、大域的なカラーヒストグラムを利用した表現が賢明であるかもしれない（例えば、Ｍ．ＳｗａｉｎａｎｄＤ．Ｂａｌｌａｒｄらによる「カラーインデックシング（ＣｏｌｏｒＩｎｄｅｘｉｎｇ）」、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，（７）１，ｐｐ．１１−３２，１９９１）。適応可能な空間変形の程度に応じた連続的な可能な表示形態がある。この連続的な表示形態の一方において、画素単位テンプレートマッチングが行われる。このアプローチは固定的なオブジェクトに対し使用される（例えば、顔検出）。表示形態のもう一方では、オブジェクトを構成要素に分解し、それらの可能な空間的関係をキャプチャする柔軟なモデルがある。これら表示形態の前者から後者に移るに従い、これらのアプローチが扱うことができる変形タイプはよりフレキシブルになっていく。しかしながら同時に、これらのアプローチは対象オブジェクトについての高いレベルの知識が必要となり、誤った警告により影響を受けやすくなる。後者に近いアプローチは、その空間配置が大きく変化するオブジェクト（例えば、歩行者など）に必要なものである。ここでの複合カラーオブジェクト検出問題では、ちょうど連続した表示形態の中間あたりのアプローチが必要となる。定義により、複合カラーオブジェクトの空間レイアウトは固定されるが、依然として、繊維上の旗やロゴのような非固定的表面上のオブジェクトのカメラアングル及び投影による変形が生じる可能性がある。

オブジェクト検出は、コンピュータビジョンにおける基本的問題であり、多くの注目がなされてきた分野である。上述のように、オブジェクトマッチングが実行される抽象レベルに応じて、異なるアプローチのオブジェクト認識が存在する。ここで、当該分野における関連性のあるオブジェクト検出技術が述べられる。これらの技術は抽象レベルの高さ順に列挙される。

Ｒｏｗｌｅｙらによると、画像の強度平面（ｉｎｔｅｎｓｉｔｙｐｌａｎｅ）におけるテンプレートマッチングを利用した顔検出が行われる。入力画像に前処理が行われ、照明変化の補正及びコントラストの強調が行われる。発光画素値に直接適用されるニューラルネットワーク分類器を利用することにより、画像領域が顔部分と非顔部分に分類される。ここでのニューラルネットワークは約１０，０００個の基になる真の画像により訓練される。

ＳｃｈｎｅｉｄｅｒｍａｎとＫａｎａｄｅらによると、ウェーブレット特徴の結合ヒストグラムを利用して画像中の顔が検出される。彼らの統計アプローチは、異なる角度の顔の向きのような顔の様相に関する変化にロウバストなものである。

Ｏｒｅｎらによると（Ｍ．Ｏｒｅｎ，Ｃ．Ｐａｐａｇｅｏｒｇｉｏｕ，Ｐ．Ｓｈｉｈａ，Ｅ．Ｏｓｕｎａ，Ｔ．Ｐｏｇｇｉｏらによる「ウェーブレットテンプレートを利用した歩行者検出（ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｉｏｎＵｓｉｎｇＷａｖｅｌｅｔＴｅｍｐｌａｔｅｓ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，１９９７）、ウェーブレット特徴を利用した画像中の歩行者の検出が行われる。入力画像は、異なるサイズのウィンドウを利用して歩行者に対しスキャンされ、サポートベクトルマシーン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を利用した分類が行われる。

ＳｅｌｉｎｇｅｒとＮｅｌｓｏｎらによると（Ａ．Ｓｅｌｉｎｇｅｒ，Ｒ．Ｃ．Ｎｅｌｓｏｎらによる「複数の視点を利用した様相ベースのオブジェクト認識（Ａｐｐｅａｒａｎｃｅ−ｂａｓｅｄＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＭｕｌｔｉｐｌｅＶｉｅｗｓ）」、ＰｒｏｃｅｅｄｉｎｇｓｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００１）、異なる角度から撮影された複数の2次元画像による3次元オブジェクトが表現される。この2次元画像はさらに等高線として抽象化される。これら等高線の網羅的テンプレートマッチングにより認識が行われる。

Ｈｕｔｔｅｎｌｏｃｈｅｒらによると（Ｄ．Ｐ．Ｈｕｔｔｅｎｌｏｃｈｅｒ，Ｇ．Ａ．ＫｌａｎｄｅｒｍａｎａｎｄＷ．Ｊ．Ｒｉｃｋｌｉｄｇｅらによる「ハウスドルフ距離を利用した画像比較（ＣｏｍｐａｒｉｎｇＩｍａｇｅｓＵｓｉｎｇｔｈｅＨａｕｓｄｏｒｆｆＤｉｓｔａｎｃｅ）」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，（15）ｐｐ．８５０−８６３，１９９３）、エッジ画素マップを利用することによりオブジェクトが表現され、エッジ画素位置間のハウスドルフ距離を利用することにより画像の比較が行われる。ハウスドルフ距離により、単純な画素単位のテンプレートマッチングよりもより耐故障性の高い幾何変形が可能となる。

Ｆａｎらによると（Ｌ．Ｆａｎ，Ｋ．Ｋ．Ｓｕｎｇ，Ｔ．Ｋ．Ｎｇ．らによる「制約なし背景による静止画像における歩行者登録（Ｐｅｄｅｓｔｒｉａｎｒｅｇｉｓｔｒａｔｉｏｎｉｎｓｔａｔｉｃｉｍａｇｅｓｗｉｔｈｕｎｃｏｎｓｔｒａｉｎｅｄｂａｃｋｇｒｏｕｎｄ）」、ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，３６（２００３），ｐｐ．１０１９−１０２９，２００３）、特徴点系列とラインセグメントを利用した歩行者輪郭が表される。歩行者の様相に関する可変性を説明するために、特徴ベースの画像ワーピング（ｉｍａｇｅｗａｒｐｉｎｇ）技術が利用される。

Ｃｏｏｔｅｓらによると（Ｔ．Ｆ．Ｃｏｏｔｅｓ，Ｇ．Ｊ．Ｅｄｗａｒｄｓ，Ｃ．Ｊ．Ｔａｙｌｏｒらによる「アクティブ様相モデル（Ａｃｔｉｖｅａｐｐｅａｒａｎｃｅｍｏｄｅｌｓ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ｐｐ．４８４−４９８，１９９８）、オブジェクトの形状及びグレースケールによる様相をモデル化したアクティブ様相モデル（ＡＡＭ）を利用することによりオブジェクトが表される。このモデルでは、顔のようなフレキシブルなオブジェクトの検出が可能となる。

Ｓｐｒａｇｕｅ、Ｌｕｏによると、画像中の人がフレキシブルなモデルに従って位置、形状、サイズ、カラー及び向きのような特徴を利用した細分化された領域のグループ化によって検出される。ベイズネットワーク分類器が利用される。

Ｆｏｒｓｙｔｈ、Ｆｌｅｃｋらによると、同様のアプローチを利用して画像中の馬が検出される。彼らのシステムによると、画像をカラーやテクスチャの特徴を利用して候補となる馬領域に細分化し、関連する幾何学的推論をサポートする「ボディープラン（ｂｏｄｙｐｌａｎ）」を利用してこれらの領域を再構成する。このグラフモデルべースのマッチングアプローチは、非常に強力なものであるが、基礎となる大量の真のデータをオブジェクトの様相における許容されうる変化を学習するか、あるいは専門化の直感により特定されるルールが必要となる。

米国特許第６，４７７，２７２号「最適オブジェクト認識処理パラメータを選択するための共起ヒストグラムと誤警告確率分析によるオブジェクト認識（Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｃｏｏｃｃｕｒｒｅｎｃｅｈｉｓｔｇｒａｍｓａｎｄｆａｌｓｅａｌａｒｍｐｒｏｂａｂｉｌｉｔｙａｎａｌｙｓｉｓｆｏｒｃｈｏｏｓｉｎｇｏｐｔｉｍａｌｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｐｒｏｃｅｓｓｐａｒａｍｅｔｅｒｓ）」において、ＫｒｕｍｍとＣｈａｎｇは、空間レイアウト情報と共に、共起ヒストグラムとオブジェクト内の色をキャプチャする特徴を利用したオブジェクト検出アルゴリズムを提案している。そこでは、ｋミーンズクラスタリングアルゴリズム（ｋ−ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ）を利用して複数のオブジェクトモデルを少数の色に量子化し、同色のクラスタを利用してテスト画像が量子化される。そして、これらオブジェクトモデルのカラー共起ヒストグラムが計算される。ヒストグラムの共通部分を使って当該モデルと比較される大きな重複領域のカラー共起ヒストグラムを計算することによって、テスト画像の走査が行われる。この粗い走査においてモデルと高い類似性を示す領域において山登り探索（ｈｉｌｌ−ｃｌｉｍｂｉｎｇｓｅａｒｃｈ）によりオブジェクトの位置が精査される。この開示では、誤警告を最小化するアルゴリズムのパラメータ設定のための詳細な分析に注力がなされている。
米国特許第６，４７７，２７２号「ＤｅｔｅｃｔｉｎｇＦａｃｅｓｉｎＩｍａｇｅｓ：ＡＳｕｒｖｅｙ」、Ｍ．Ｈ．Ｙａｎｇ，Ｄ．Ｋｒｉｅｇｍａｎ，Ｎ．Ａｈｕｊａ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．２４：１，ｐｐ．３４−５８，２００２「ＣｌｏｔｈｅｄＰｅｏｐｌｅＤｅｔｅｃｔｉｏｎｉｎＳｔｉｌｌＩｍａｇｅｓ」、Ｎ．ＳｐｒａｇｕｅａｎｄＪ．Ｌｕｏ，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００２「ＢｏｄｙＰｌａｎｓ」、Ｄ．Ａ．ＦｏｒｓｙｔｈａｎｄＭ．Ｍ．Ｆｌｅｃｋ，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，１９９７「Ｍｏｒｐｈｏｌｏｇｙ−ｂａｓｅｄＬｉｃｅｎｓｅＰｌａｔｅＤｅｔｅｃｔｉｏｎｆｒｏｍＣｏｍｐｌｅｘＳｃｅｎｅｓ」、Ｊ．Ｗ．Ｈｓｉｅｈ，Ｓ．Ｈ．Ｙｕ，Ｙ．Ｓ．Ｃｈｅｎ，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００２「ＯｐｔｉｍａｌＥｄｇｅ−ＢａｓｅｄＳｈａｐｅＤｅｔｅｃｔｉｏｎ」、Ｈ．Ｍｏｏｎ，Ｒ．Ｃｈｅｌｌａｐｐａ，Ａ．Ｒｏｓｅｎｆｅｌｄ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，（１１）１１，Ｎｏｖｅｍｂｅｒ２００２「ＡＭｏｄｅｌ−ＢａｓｅｄＲｏａｄＳｉｇｎＩｄｅｎｔｉｆｉｃａｔｉｏｎＳｙｓｔｅｍ」、Ｙ．Ｌａｕｚｉｅｒｅ，Ｄ．Ｇｉｎｇｒａｓ，Ｆ．Ｆｅｒｒｉｅ，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００１「ＡＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏｄｆｏｒ３Ｄｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｐｐｌｉｅｄｔｏｆａｃｅｓａｎｄｃａｒｓ」、Ｈ．ＳｃｈｎｅｉｄｅｒｍａｎａｎｄＴ．Ｋａｎａｄｅ，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０００「ＲｏｔａｔｉｏｎＩｎｖａｒｉａｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ−ＢａｓｅｄＦａｃｅＤｅｔｅｃｔｉｏｎ」、Ｈ．Ｒｏｗｌｅｙ，Ｓ．Ｂａｌｕｊａ，Ｔ．Ｋａｎａｄｅ，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，１９９８「ＣｏｌｏｒＩｎｄｅｘｉｎｇ」、Ｍ．ＳｗａｉｎａｎｄＤ．Ｂａｌｌａｒｄ，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，（７）１，ｐｐ．１１−３２，１９９１「ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｉｏｎＵｓｉｎｇＷａｖｅｌｅｔＴｅｍｐｌａｔｅｓ」、Ｍ．Ｏｒｅｎ，Ｃ．Ｐａｐａｇｅｏｒｇｉｏｕ，Ｐ．Ｓｈｉｈａ，Ｅ．Ｏｓｕｎａ，Ｔ．Ｐｏｇｇｉｏ，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，１９９７「Ａｐｐｅａｒａｎｃｅ−ｂａｓｅｄＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＭｕｌｔｉｐｌｅＶｉｅｗｓ」、Ａ．Ｓｅｌｉｎｇｅｒ，Ｒ．Ｃ．Ｎｅｌｓｏｎ，ＰｒｏｃｅｅｄｉｎｇｓｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００１「ＣｏｍｐａｒｉｎｇＩｍａｇｅｓＵｓｉｎｇｔｈｅＨａｕｓｄｏｒｆｆＤｉｓｔａｎｃｅ」、Ｄ．Ｐ．Ｈｕｔｔｅｎｌｏｃｈｅｒ，Ｇ．Ａ．ＫｌａｎｄｅｒｍａｎａｎｄＷ．Ｊ．Ｒｉｃｋｌｉｄｇｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，（15）ｐｐ．８５０−８６３，１９９３「Ｐｅｄｅｓｔｒｉａｎｒｅｇｉｓｔｒａｔｉｏｎｉｎｓｔａｔｉｃｉｍａｇｅｓｗｉｔｈｕｎｃｏｎｓｔｒａｉｎｅｄｂａｃｋｇｒｏｕｎｄ」、Ｌ．Ｆａｎ，Ｋ．Ｋ．Ｓｕｎｇ，Ｔ．Ｋ．Ｎｇ，ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，３６（２００３），ｐｐ．１０１９−１０２９，２００３「Ａｃｔｉｖｅａｐｐｅａｒａｎｃｅｍｏｄｅｌｓ」、Ｔ．Ｆ．Ｃｏｏｔｅｓ，Ｇ．Ｊ．Ｅｄｗａｒｄｓ，Ｃ．Ｊ．Ｔａｙｌｏｒ，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ｐｐ．４８４−４９８，１９９８

ここで、ＫｒｕｍｍとＣｈａｎｇの方法は、厳格に制御された条件下でキャプチャされる画像を対象として設計されたものである。具体的には、照明状態及びカメラ設定が、すべてのモデル及びテスト画像に対し一定に保たれる必要がある。オブジェクトのサイズや向きもまたすべてのモデル及びテスト画像において同一でなければならない。そうのような仮定は照明やオブジェクトサイズのような要素が画像ごとに大きく異なりうる制約のないユーザ画像に対しては成り立つものでない。すなわち、ＫｒｕｍｍとＣｈａｎｇのアプローチは、制約のないユーザ画像に一般化できないことは明らかであろう。彼らにより提起されたアルゴリズムの問題点が具体的に以下に示される。

カラーシフトに対し不変でない。開示されたアルゴリズムでは、制御された照明状態が仮定され、従って異なるユーザ画像において典型的なカラーシフトには対処することができない。

また、スケーリングに対し不変でない。開示されたアルゴリズムでは、対象オブジェクトは画像が固定されてることを仮定している。

また、オブジェクト向きに対し不変でない。

また、開示されたアルゴリズムでは、各テスト画像において対象画像はちょうど1回だけしか出現しないと仮定されている。ゼロまたは複数の対象オブジェクトを含む画像の処理機能は与えられていない。

また、最良の適合向きに対し仮説のオブジェクト位置を繰り返しスライドさせることにより、当該オブジェクトの位置を検出する山登り法に基づいている。そのような方法によると、大域的な最適解でない局所的な最適値に陥る傾向がある。

また、高い頻度の誤警告を生じさせる類似度が使用されている。

また、アルゴリズムの実行に要する計算量が大きい。

従って、大部分の複合カラーオブジェクトに対し容易に対処可能な複合カラーオブジェクト検出方法の必要性がある。大量の見本データや人間の直感を要する代わりに、本発明による方法は、１つあるいは少数のモデル画像の利用により十分機能する。また、モデル画像を単に変えることにより他の複合オブジェクトに対しても容易に対処することができる。特に、上記問題点を解決するオブジェクト検出テクニックの必要性がある。

上記課題を解決するために、本発明は、デジタル画像中のカラーオブジェクトの検出方法であって、前記カラーオブジェクトを潜在的に含むサーチ画像を取得するステップと、前記カラーオブジェクトのモデルを含むモデル画像を取得するステップと、前記モデル画像に対し空間カラー結合確率関数（ＳＣＪＰＦ）を計算するステップと、前記オブジェクトモデル画像に与えられる最小の所定のカラー数を有する前記サーチ画像の領域内にある部分から構成される複数のサーチウィンドウを生成するステップと、各サーチウィンドウに対しＳＣＪＰＦを計算するステップと、前記モデル画像のＳＣＪＰＦと前記複数のサーチウィンドウのＳＣＪＰＦの各々との類似度を評価するステップと、所定のサーチ閾値を上回る前記モデル画像ＳＣＪＰＦとの類似度を有するサーチウィンドウＳＣＪＰＦと関連するサーチウィンドウを、検出対象オブジェクトを潜在的に含むものとして指定するステップとからなり、前記モデル画像ＳＣＪＰＦは前記モデル画像におけるカラー間の空間関係と同時にカラー分布でもあり、前記サーチウィンドウＳＣＪＰＦは前記サーチウィンドウのカラー間の空間関係と同時にカラー分布でもあることを特徴とする。

また、上記課題を解決するために、本発明は、さらに、前記モデル画像と前記サーチ画像の両方に対しカラー量子化処理を実行するステップを有し、前記２つの画像における一意的なカラー数は所定の知覚的に関連したカラー名の集合に限定されることを特徴とする。

また、上記課題を解決するために、本発明は、前記カラー量子化ステップは、さらに、前記モデル画像と前記サーチ画像における各画素値を適切なカラー空間に変換するステップと、各画素に前記カラー空間内の前記画素のカラー値の所在に基づきカラー名を割り当てるステップと、各画素に該画素に割り当てられたカラー名に基づき量子化されたカラー値を割り当てるステップとを有することを特徴とする。

本発明は、オブジェクト検出率の向上、非オブジェクト検出率の低下を実現する。特に、知覚的なカラー量子化、異なるサイズのオブジェクトの検出、新たな類似度評価メトリックの採用、画像エッジ解析の利用により、従来技術との比較においてオブジェクト検出率の向上が実現される。本発明はまた、前選別処理によるより効率的な検索処理を実現する。

以下、通常ソフトウェアプログラムとして通常実現される本発明の好適な実施例が説明される。そのようなソフトウェアと同様の機能を有するハードウェアが構築できるということは、当業者には容易に理解されうるであろう。画像処理アルゴリズム及びシステムは周知のものであるので、ここでの説明は、本発明によるシステム及び方法の一部を構成するか、あるいは直接的に協調するようなアルゴリズム及びシステムに向けられる。本発明に関する画像信号の生成及び処理のためのアルゴリズム、システム、ハードウェア及び/またはソフトウェアは、既知のシステム、アルゴリズム、構成要素から選択的に取り入れられてもよい。以下で説明される本発明によるシステムが与えられたとき、本発明の実現に利用されるが、ここでは説明及び例示されないソフトウェアは当業者には既知のものであるかもしれない。

さらに、ここで利用されるコンピュータプログラムは、コンピュータによる読み出し可能な記憶媒体に記録することができる。そのような記録媒体としては、例えば、磁気ディスク（ハードディスクやフロッピー（登録商標）ディスク）や磁気テープのような磁気記憶媒体、光ディスク、光学テープまたは機械読取り可能なバーコードのような光学記憶媒体、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）のような半導体電子記憶装置、あるいはコンピュータプログラムの格納に利用可能な他の物理装置またはメディアから構成される。

本発明を説明する前に、本発明はパーソナルコンピュータのような任意の既知のコンピュータシステムにおいて好適に利用されうるということを述べることは理解の一助となるであろう。図1を参照するに、本発明を実現するコンピュータシステム１１０が示される。コンピュータシステム１１０は好適な実施例を説明するために示されたものであり、本発明は例示されたコンピュータシステム１１０に限定されるものではない。本発明は、例えば、家庭のコンピュータ、キオスク（ｋｉｏｓｋ）、リテール及びホールセール向け現像サービス、あるいはその他のデジタル画像処理システムにおいて利用可能である。コンピュータシステム１１０は、ソフトウェアプログラムの受信及び処理、並びに他の処理機能を実行するマイクロプロセッサベースユニット１１２を備える。ディスプレイ１１４は、例えば、グラフィカルユーザインタフェースによりソフトウェアについてのユーザ関連情報を表示するためのものであり、マイクロプロセッサベースユニット１１２に電気的に接続される。キーボード１１６はまた、ユーザがソフトウェアに情報を入力するためのものであり、マイクロプロセッサベースユニット１１２に接続される。入力にキーボード１１６を使用する代わりに、マウス１１８を使って、周知のように、ディスプレイ１１４上のセレクタ１２０を動かし、セレクタ１２０上のアイテムを選択するようにしてもよい。

典型的にはソフトウェアプログラムを有するＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２４が、マイクロプロセッサベースユニット１１２へのソフトウェアプログラム及び他の情報の入力のため、マイクロプロセッサベースユニット１１２に挿入される。さらに、フロッピー（登録商標）ディスク１２６もまたソフトウェアプログラムを格納することが可能であり、当該ソフトウェアプログラムの入力のためマイクロプロセッサベースユニット１１２に挿入される。ＣＤ−ＲＯＭ１２４やフロッピー（登録商標）ディスク１２６はまた、マイクロプロセッサベースユニット１１２に接続された外部に設置されているディスクドライブユニット１２２に挿入されてもよい。さらに、周知のように、マイクロプロセッサベースユニット１１２は、ソフトウェアプログラムを内部的に格納するようプログラミングされていてもよい。マイクロプロセッサベースユニット１１２はまた、例えば、電話線のような、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットなどの外部ネットワークへのネットワーク接続１２７を備えていてもよい。また、コンピュータシステム１１０からの出力をプリントアウトするため、プリンタ１２８がマイクロプロセッサベースユニット１１２に接続されていてもよい。

また、電子的に実現可能なデジタル画像を含む既知の（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒＭｅｍｏｒｙＣａｒｄＩｎｔｅｒｎａｔｉｏｎａｌＡｓｓｏｃｉａｔｉｏｎの規格に基づく）ＰＣＭＣＩＡカードのようなパーソナルコンピュータ（ＰＣ）カード１３０を介し、画像はディスプレイ１１４に表示される。ＰＣカード１３０は、ディスプレイ１１４上への画像の表示を行うためマイクロプロセッサベースユニット１１２に挿入される。または、ＰＣカード１３０は、マイクロプロセッサベースユニット１１２に接続された外部に設置されているＰＣカードリーダ１３２に挿入されてもよい。また、画像は、ＣＤ１２４、フロッピー（登録商標）ディスク１２６、あるいはネットワーク接続１２７を介し入力されてもよい。ＰＣカード１３０、フロッピー（登録商標）ディスク１２６またはＣＤ１２４に記録されている画像、あるいはネットワーク接続１２７を介した入力は、デジタルカメラ１３４やスキャナ（図示せず）のような様々なソースから取得するよう構成されてもよい。また画像は、マイクロプロセッサベースユニット１１２に接続されたカメラドッキングポート１３６を介し直接入力されてもよいし、マイクロプロセッサベースユニット１１２へのケーブル接続１３８を介しデジタルカメラ１３４から直接入力されてもよいし、マイクロプロセッサベースユニット１１２への無線接続１４０を介し入力されてもよい。本発明によると、その好適実施例において開示されるオブジェクト検出アルゴリズムは、前述の記憶装置の何れかに格納されてもよく、オブジェクト検出及び特定オブジェクトの位置のため画像に適用されてもよい。

本発明の好適な実施例において開示されるオブジェクト検出アルゴリズムは、様々なユーザ状況及び環境において利用可能である。以下限定することを意図したものではないが、一例となる状況及び環境として、例えば、ホールセールデジタル写真現像（フィルムイン、デジタル処理、プリントアウトのような一例となる処理ステップまたはステージに関する）、リテールデジタル写真現像（フィルムイン、デジタル処理、プリントアウト）、家庭における印刷（家庭におけるスキャニングフィルムやデジタル画像、デジタル処理、プリントアウト）、デスクトップソフトウェア（改良または単なる変換のためアルゴリズムをデジタルプリントに適用するソフトウェア）、デジタル実現（メディア、ウェブ、デジタル処理からのデジタル画像入力、及びメディアにおけるデジタル形式、ウェブ上におけるデジタル形式またはハードコピー印刷での画像出力）、キオスク（デジタルまたはスキャン入力、デジタル処理、デジタルまたはハードコピー出力）、携帯装置（例えば、処理ユニット、表示ユニットまたは処理インストラクションを与えるユニットとして利用可能なＰＤＡ（ＰｅｒｓｏｎａｌＤｅｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）または携帯電話）、及びワールドワイドウェブを介し提供されるサービスなどが含まれる。

各場合においても、当該アルゴリズムはスタンドアローンタイプでもよいし、より大きなシステムソリューションの一構成要素ととして構成されてもよい。さらに、アルゴリズム、スキャニングまたは入力、デジタル処理、ディスプレイとユーザとのインタフェース（必要に応じて）、ユーザリクエストまたは処理インストラクションの入力（必要に応じて）、出力は、同一の装置に備えられてもよいし、異なる場所に設置された異なる装置として構成されてもよい。またこれらの装置及び設置場所との通信は公衆または私有ネットワーク接続を介し行われてもよいし、あるいはメディアベースで通信が行われてもよい。本発明の前述の開示に従い、アルゴリズムは完全に自動化されていてもよいし、ユーザによる入力を要するものであってもよいし（完全または部分的手動）、ユーザまたはオペレータに結果の受理または不受理を決定させてもよいし、メタデータによる支援がなされてもよい（メタデータはユーザにより提供されてもよいし、（例えば、カメラの中の）測定装置により提供されてもよいし、アルゴリズムにより決定されてもよい）。さらに、アルゴリズムは様々なワークフローユーザインタフェーススキームとインタフェースをとってもよい。

図２ａを参照するに、本発明により利用されるアルゴリズムの好適実施例のフローチャートが示される。フローチャートにおける各ステップの説明が与えられる。また、より詳細な説明がさらに後述される。アルゴリズムは検出処理において探索されるオブジェクトのモデルを含むデジタル画像２０８を受け取る。このオブジェクトモデル画像２０８に対しカラー量子化アルゴリズムが実行され（２１０）、より少ないカラーを有する第２画像が生成される。量子化されたオブジェクトモデル画像に対し特徴抽出が実行され（２１２）、モデル画像の特定の特性が計算される。アルゴリズムはまた、1以上の対象オブジェクトを潜在的に含むデジタル画像２００を受け取る。サーチ画像２００に対し同様のカラー量子化アルゴリズムが実行され、より少ないカラーを有する第２画像が生成される。画像解析結果に基づき、量子化されたサーチ画像における複数の可能なサーチウィンドウが特定され（２０４）、オブジェクトの可能な位置及びサイズが示される。これら可能なサーチウィンドウの各々に対し同様の特徴抽出が実行され（２０６）、それぞれの特定の特性が計算される。各サーチウィンドウの特徴はオブジェクトモデルの特徴と比較され、各サーチウィンドウに対し類似度が評価される（２１４）。この比較に基づき、０以上のサーチウィンドウが対象オブジェクトを含むものとして指定される（２１６）。

以下の説明の簡単化のため、サーチウィンドウ２００はＩ、モデルオブジェクト画像２０８はＭとして参照される。ここで、本発明の明らかな拡張は、各画像に対しこの好適実施例を複数回繰り返すことにより、逐次的または並列的に複数の画像から対象オブジェクトを探索するというものである。同様にして、各オブジェクトモデル画像に対しカラー量子化２１０と特徴抽出２１２を実行し、サーチウィンドウと各モデル画像を比較することにより、サーチ画像において複数のオブジェクトが探索される。

オブジェクトのカラーの様相は、明るさのばらつき、知覚カラーサラウンド効果、画像圧縮によるノイズなどの影響を受け、画像ごとに大きく異なる。同一オブジェクトの異なるインスタンスもまた、それらは知覚的には同一のものと考えられるが、色の変化を有しているかもしれない。例えば、異なる製造業者による米国旗は、異なる赤染料が利用され、やや異なるストライプカラーを有するかもしれない。従って、オブジェクト検出アルゴリズムでは、入力画像の色空間（典型的には、赤、緑お呼び青の各色に対し２５６以上のレベルを有する）をより少ないカラーに量子化することが望ましい。この量子化は、知覚的に類似した色が同一の量子化カラー値にマッピングされる一方、非類似の色が異なるカラー値にマッピングされることを確実にするため、注意深く設計されねばならない。

本発明のカラー量子化アルゴリズム２０２及び２１０は、標準的なＩＳＣＣ−ＮＢＳカラー名称辞典（Ｋ．ＫｅｌｌｙとＤ．Ｊｕｄｄによる「ＣｏｌｏｒＵｎｉｖｅｒｓａｌＬａｎｇｕａｇｅａｎｄＤｉｃｔｉｏｎａｒｙｏｆＮａｍｅｓ」ＮａｔｉｏｎａｌＢｕｒｅａｕｏｆＳｔａｎｄａｒｄｓＳｐｅｃｉａｌＰｕｂｌｉｃａｔｉｏｎ４４０．ワシントンＤＣ．米国政府印刷局、１９７６年、ｐｐ．１−３４）を利用している。ＩＳＣＣ−ＮＢＳシステムは、各々が標準カラー名と標準代表カラー仕様（セントロイドカラーと呼ばれる）を有する２６７の標準カラー区分を定義している。ＩＳＣＣ−ＮＢＳカラー名は、例えば、「鮮明な赤（ＶｉｖｉｄＲｅｄ）」、「濃赤茶色（ＳｔｒｏｎｇＲｅｄｄｉｓｈＢｒｏｗｎ）」、「淡灰黄茶色（ＬｉｇｈｔＧｒａｙｉｓｈＹｅｌｌｏｗｉｓｈＢｒｏｗｎ）」などの１以上の接頭語を有する基本カラーである。

図３を参照するに、まず入力画像Ｉの画素が「ＣＩＥＬ＊ａ＊ｂ＊カラー空間」に変換される（３００）（例えば、Ｅ．ＧｉｏｒｇｉａｎｎｉａｎｄＴ．Ｍａｄｄｅｎ，ＤｉｇｉｔａｌＣｏｌｏｒＭａｎａｇｅｍｅｎｔ：ＥｎｃｏｄｉｎｇＳｏｌｕｔｉｏｎ，Ｒｅａｄｉｎｇ，ＭＡ：Ａｄｄｉｓｏｎ−Ｗｅｓｌｅｙ，１９９７，ｐｐ．４３９−４４５を参照せよ）。その後、Ｉの各画素がＩＳＣＣ−ＮＢＳシステムによって定義される２６７の標準カラーの１つに割り当てられる（３０２）。例えば、この処理は、各画素のＬ＊ａ＊ｂ＊カラー値と２６７の各区分のセントロイドカラー値とを比較し、ある距離測度（例えば、

により与えられる３次元ユークリッド距離）に従い最も近いものを選ぶことにより行われる。各画素には、決定されたセントロイドカラーのＩＳＣＣ−ＮＢＳカラー名が割り当てられる（３０４）。最後に、参照テーブルを利用して、各画素は割り当てられたカラー名に基づき基本カラー名の集合Ｑ_Ｃからの量子化カラー値が割り当てられる。Ｑ_Ｃには、例えば、赤、緑、黄色、青、オレンジ、紫、茶、白、黒及び灰色などが含まれる。この参照テーブルは、例えば、各ＩＳＣＣ−ＮＢＳカラー名をそこから形容詞をすべて取り除いた名前にマッピングする（例えば、「鮮明な赤」を「赤」に、「淡灰黄茶色」を「茶色」などに）ことにより構成される。結果として得られる参照テーブルは、観察者からの入力、あるいは当該オブジェクト検出タスクの特定ニーズに基づき、必要に応じ適宜カスタマイズされてもよい。例えば、当該タスクが人間を含む画像に関するものであれば、肌色が基本カラーセットに追加されてもよい。

ここで、ＩＳＣＣ−ＮＢＳカラー名とＱ_Ｃの基本カラーとの間のマッピングは１対１である必要はない。特に、同一のＩＳＣＣ−ＮＢＳカラー名が複数の基本カラーにマッピングされてもよい。これが役に立つのは、例えば、ＩＳＣＣ−ＮＢＳセントロイドカラーがある基本カラーの境界近くにある場合や、異なる色順応（ｃｈｒｏｍａｔｉｃａｄａｐｔａｔｉｏｎ）での観察者によるあるカラーの複数の解釈を考慮する必要がある場合などである。

カラー量子化アプローチは概念的には４つのステップ（３００から３０６）に分けられるが、実際、ＲＧＢカラー値から量子化カラー値へのマッピングは１つのステップを使って行われる（例えば、単一構成３Ｄ参照テーブルを利用して）。

本発明は、モデル画像特徴抽出ステップ２１２、サーチウィンドウ生成ステップ２０４及びサーチウィンドウ特徴抽出ステップ２０６の実行中、空間カラー結合確率関数（ＳＣＩＰＦ）を利用する。ＳＣＪＰＦは、画像中のカラー間の空間関係だけでなくカラー分布をも表す。このアプローチは、画素単位テンプレートマッチングより優れたものである。なぜなら、このアプローチはある程度の非厳格さ（すなわち、ひずみ）を許容するが、大量の訓練データや専門家による設計なくモデルの構築が可能となるだけの十分な単純さを有するものであるからである。例えば、前述の米国特許第６，４７７，２７２号においてＫｒｕｍｍとＣｈａｎｇにより使用されたカラー共起ヒストグラム（ＣＣＨ）と、「カラーコレログラムを利用した画像インデック処理（ＩｍａｇｅＩｎｄｅｘｉｎｇＵｓｉｎｇＣｏｌｏｒＣｏｒｒｅｌｏｇｒａｍｓ）」（ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ．７６２−７６８，１９９７）においてＨｕａｎｇ，Ｓ．Ｋｕｍａｒ，Ｍ．Ｍｉｔｒａ，Ｗ．Ｊ．Ｚｈｕ，Ｒ．Ｚａｂｉｈらにより利用されたカラーコレログラムは、ＳＣＪＰＦの２つの典型例である。ＫｒｕｍとＣｈａｎｇの特許に与えられるように、一連の画素特性範囲の同一の組み合わせに入る規定された画素特性を示し、一連の距離範囲の同一のものに入る距離により分離される画素ペアのカウントを生成することによりＣＣＨは計算される。本発明の好適な実施例は、カラー共起ヒストグラム（ＣＣＨ）とカラーエッジ共起ヒストグラム（ＣＥＣＨ）の２つのＳＣＪＰＦを利用する。さらに、「分布」という単語の利用は他の関係を含むことを限定することなく理解されるべきである。例えば、ヒストグラムは「カウント」に関するものであるとき、ＳＣＪＰＦはカウント以外により導かれる。例えば、チェック模様のパターンのように極めて規則的なオブジェクトに対しては、直接「カウント」することなくＳＣＪＰＦを定義することができる。

カラー共起ヒストグラム（ＣＣＨ）は、２つの次元におけるカラーと、残る次元における空間距離によりインデックスされる３次元ヒストグラムである。ヒストグラムの各区間（ｂｉｎ）は、所与の空間分割において、与えられた２つのカラー画素が起こる頻度を記録したものである。より形式的には以下のように定義することができる。集合Ｑ_Ｃのカラーに量子化された画像Ｉのある領域をＪとし、量子化されたＩにおける画素ｐのカラーをＩ（ｐ）により表すこととする。このとき、ＣＣＨ演算子は以下のように定義される。すなわち、Ａ＝ＣＣＨ｛Ｊ，Ｉ｝である場合、Ａは、すべての

と非負整数ｄ≦Ｔ_ｄに対して、

を満たす３次元行列である。ここで、Ｔ_ｄは所定の定数（例えば、１６画素）、ｓｉｚｅは集合の要素数、ｑｄｉｓｔは量子化された距離関数を表す。Ｔ_ｄは、ＣＣＨ計算中に考慮される近傍サイズを特定するものである。非負整数に量子化された２つの画素間の距離のある測度を返す任意の関数がｑｄｉｓｔととして利用可能である。好適なテクニックでは、量子化ユークリッド距離関数

が使われる。他のものとしては、街中のブロック距離に利用される

が使われてもよい。後者の距離メトリックを利用することのメリットは、ＣＣＨのより効率的な計算が可能となるということである（Ｈｕａｎｇ，Ｓ．Ｋｕｍａｒ，Ｍ．Ｍｉｔｒａ，Ｗ．Ｊ．Ｚｈｕ，Ｒ．Ｚａｂｉｈらによる「カラーコレログラムを利用した画像インデック処理（ＩｍａｇｅＩｎｄｅｘｉｎｇＵｓｉｎｇＣｏｌｏｒＣｏｒｒｅｌｏｇｒａｍｓ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ．７６２−７６８，１９９７）。しかしながら、後者のデメリットとして、距離メトリックが回転に対し不変ではないということであり、このためオブジェクト検出システムには適当ではない。

ＣＣＨには基本的問題点がある。すなわち、カラーの固定領域がヒストグラムに不適当なエネルギー量を与え、ＣＣＨ比較メトリックに影響を与えるというものである。これによりＣＣＨは、類似の固定カラー領域を有する２つの画像領域間で類似性を示すが、当該領域間の空間関係は明らかに異なるものとなってしまう。本発明の好適な実施例では、この問題はカラーエッジ共起ヒストグラム（ＣＥＣＨ）と呼ばれる新たな手法により解決される。このヒストグラムは、カラー移行やカラーエッジに沿って存在する画素間の分離分布をキャプチャしたものである。ここで、カラーエッジは非類似カラー領域間の境界をとして定義される。カラー移行は複合カラーオブジェクトの内部構造の識別のために、知覚的に極めて重要なものであるので、ＣＥＣＨは当該オブジェクトを含む画像領域の一意的な空間シグネチャ（ｓｉｇｎａｔｕｒｅ）の補足により良好に機能する。

ＣＥＣＨは、画像Ｉの領域Ｊに対し、Ａ＝ＣＥＣＨ｛Ｊ，Ｉ｝である場合、

として定義される。ここで、ｅｄｇｅｓ（Ｉ）は、Ｉにおけるエッジ画素の集合であり、例えば、異なるカラーの８近傍の少なくとも１つを有する画素、あるいはＩの画像境界に存在する画素である。

実際上、典型的な領域のＣＥＣＨは、同一領域のＣＣＨよりもより高速な計算が可能である。これは、エッジ特性を示さない画素は即座に無視され、計算から除外されるからである。例えば、あるオブジェクトの典型的な画像に対し、エッジ画素は画総数の１０％以下であり、このためＣＥＣＨの計算はＣＣＨに要する時間のごく一部にしか過ぎない。

ここで、ＣＣＨとＣＥＣＨは、１入力カラーあたり複数の量子化カラーを生成するカラー量子化アルゴリズムの出力と同様に、１画素あたり複数の基本カラーを有する画像、例えば、同時に「赤」と「白」の両方を有すると考えられるピンク色の画素などに対し動作するよう拡張することができる。

図４を参照するに、サーチウィンドウ２０４の候補を生成する処理のフローチャートが示される。ここで、当該生成処理は、オブジェクトを含むＩにおいてサーチ領域候補を特定するステップ（４００）と、Ｉにおいて可能なオブジェクトサイズのリストを生成するステップ（４０２）と、Ｉにおける可能な各サイズの可能なオブジェクト位置のリストを生成するステップ（４０４）から構成される。

以下の説明において、サーチ画像カラー量子化ステップ２０２の結果はＩ_Ｑと、オブジェクトモデル画像カラー量子化ステップ２１０の結果はＭ_Ｑとして表される。

図５ａは、対象オブジェクトを含みうる可能領域４００を特定するため、画像Ｉの前選別（ｐｒｅｓｃｒｅｅｎｉｎｇ）を実行する好適な方法を示す図である。前選別ステップ４００を含める目的は、対象オブジェクトを含まず、さらなる処理を保証しない画像領域を早めに削除することである。前選別ステップは、不要な処理を避けることにより、アルゴリズムの実行時間を大きく短縮することができる。さらに、前選別ステップはまた、以下で詳細に説明されるように、画像中の対象オブジェクトの潜在的なサイズ範囲を提供する。

本発明は、まずＭ_Ｑの領域の大きな部分（例えば、１０％以上）を占めるカラーの集合Ｓ_１を検出することにより、モデル画像Ｍ_Ｑの重要カラーを特定する（５００）。その後、所定のサイズのウィンドウ５０２が、量子化されたサーチ画像Ｉ_Ｑ上でパスされる。ウィンドウは、例えば、ｃをＩのより長い時限の長さの１０分の１としたとき、ｃ×ｃのサイズを有するよう構成される。所与の画素位置（ｘ，ｙ）を中心とする各ウィンドウに対し、当該ウィンドウ領域の大きな部分（例えば、１０％以上）を占めるカラーの集合Ｓ_{（ｘ、ｙ）}を特定する。その後、予想されるオブジェクト位置に対応する画素を１とし、背景領域を０として特定する、以下のようなオブジェクトバイナリマスク画像Ｐ_１が生成される（５０４）。

ここで、Ｔ_Ａは、例えば、定数０．５に設定される。連結要素解析（Ｒ．Ｃ．ＧｏｎｚａｌｅｚａｎｄＲ．Ｅ．Ｗｏｏｄｓ，ＤｉｇｉｔａｌＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，Ｒｅａｄｉｎｇ，ＭＡ：ＡｄｄｉｓｏｎＷｅｓｌｅｙ，１９９３，ｐｐ．４０−４３）がＰ_１に対し実行され、連続画素領域が検出される。連結要素すべてを含む最小サイズの長方形（閉包矩形）が決定される（５２４）。これらの長方形は、対象オブジェクトを含みうるサーチ領域の集合Ｒを構成している。これらの領域のみがアルゴリズムにおける以降のステップにおいて処理対象となる。

図５ｂにおいて、他の前選別方法が与えられる。局所的空間カラー構成が対象オブジェクトにおける構成と一致するかをチェックするため、マスク画像Ｐ_２が計算される。まず、量子化オブジェクトモデル画像Ｍ_Ｑのカラー共起ヒストグラム（ＣＣＨ）が計算される（５１０）。図８において、Ｐ_２の計算処理がさらに詳細に示される。Ｉ_ＱからＴ_ｄ画素離れていない画素ペアをランダムに選ぶことにより（８００）、Ｐ_２が計算される。距離ｄでの各ペア（ｐ_１，ｐ_２）に対し、モデルＣＣＨにおける対応する入力（Ｉ_Ｑ（ｐ_１），Ｉ_Ｑ（ｐ_２），ｄ）がチェックされ、モデル画像ＣＣＨの入力数により正規化することにより、出現確率ｐが計算される（８０２）。この確率がＰ_２の当該２つの画素に加えられる（８０４）。すなわち、ｐがＰ_２（ｐ_１）とＰ_２（ｐ_２）に加えられる。この処理が複数回繰り返される（８０６）（ｍ×ｎをＩのサイズとしたとき、１０ｍｎ回）。結果として得られる画像Ｐ_２は、各画素位置における値が対象オブジェクトにおける当該画素の確率を表す確率マップと同種のものである。確率マップは入力画像のランダムサンプリングにより生成されるので、生成される確率マップは実行毎に異なるものとなるかもしれない。そのような変動を最小化するため、ローパスフィルタ（例えば、サイズが２１×２１の平均フィルタ）がＰ_２に適用される（５１４）。その後、閾値（例えば、０．１の固定閾値）を上回る値を有する画素は１として、他の画素は０としてマークされるようＰ_２が閾値処理される。その後、連結要素解析が実行され（５２２）、最小サイズの閉包矩形が検出され（５２４）、サーチ領域の集合Ｒが生成される。

図９において、モデル画像として米国旗による前選別処理の例が示される。ここで図９（ａ）の画像がサーチ画像である。図９（ｂ）では、カラー量子化ステップ２０２の結果が示され、図９（ｃ）では、重要カラー前選別ステップ５１４の結果が示され、図９（ｄ）では、他の前選別処理５１６の結果が示されている。

図４を参照するに、前選別ステップ４００においてサーチ領域候補の集合Ｒが決定された後、各サーチ領域に対し可能なウィンドウサイズのリストが生成される（４０２）。各サーチ領域Ｒ_ｉ∈Ｒに対し、そのアスペクト比を保持する一方、Ｒ_ｉ内でフィットするモデルＭの最大スケーリングが決定される。この最大スケーリング係数γ_Ｈは以下のように計算される。

ここで、ｍ_ｉ×ｎ_ｉはＲ_ｉのサイズであり、ｍ_ｍ×ｎ_ｍはＭのサイズである。従って、Ｒ_ｉ内の最大予想オブジェクトのサイズは、γ_Ｈｍ_ｍ×γ_Ｈｎ_ｍとなる。ｍ_ｍ×ｎ_ｍは、サーチ画像Ｉにおいてオブジェクトが有すると予想される最小サイズであると仮定する。１．０とγ_Ｈとの間の複数のスケーリング係数を、例えば、

（αは定数）のように選ぶことにより、可能なサーチウィンドウサイズのリスト｛γ_０，γ_１，γ_２，…，γ_ｎ｝が生成される（４０２）。ここで、本発明の明らかな変形として、スケーリング係数の選択に異なる方法を用いるというものがある。

各スケーリング係数γ_ｊに対し、サーチ領域候補Ｒ_ｉ内の予想されるオブジェクト位置のリストが生成される（４０４）。この処理は、例えば、サーチ領域候補の境界内において、あるグリッドにより量子化されたγ_ｊｍ_ｍ×γ_ｊｎ_ｍのサイズを有するウィンドウがフィットしうる一意的なすべての可能な位置をリストすることにより行われる。すなわち、スケーリング係数γ_ｊでのＲ_ｉ内のサーチウィンドウの左上端に対応する座標の集合は、

となる。ここで、ΔｘとΔｙは一定であり（例えば、１０画素分、または画像サイズのある割合）、Ｚ^＊は非負整数の集合である。

再び図２ａを参照するに、サーチウィンドウ生成ステップ２０４からのサーチウィンドウのサイズは、モデル画像と同じサイズを有するサーチウィンドウの縮尺されたコピーを生成することにより正規化される（２０５）。この正規化ステップは、例えば、周知の双線形補間（ｂｉ−ｌｉｎｅａｒｉｎｔｅｒｐｏｌａｔｉｏｎ）などのサブサンプリングアルゴリズムにより実現される。次に、各サブサンプリングサーチウィンドウに対し、空間カラー連結確率関数（ＳＣＪＰＦ）とエッジＳＣＪＰＦが計算される（２０６）。本発明の好適な実施例では、エッジＳＣＪＰＦにはカラーエッジ共起ヒストグラム（ＣＥＣＨ）が利用され、ＳＣＪＰＦにはカラーヒストグラム（ＣＨ）が利用される。好適な実施例では、ＣＥＣＨとＣＨＧはまた、オブジェクトモデル特徴抽出ステップ２１２におけるオブジェクト画像に対しても計算される。

次のステップ２１４では、各サーチウィンドウのＳＣＪＰＦとエッジＳＣＪＰＦとモデル画像のＳＣＪＰＦとエッジＳＣＪＰＦとの類似度が評価される。図６は、この評価を実行する好適なテクニックを示す。簡単化のため、任意の画像領域Ｉ_ｒとモデルＭとの類似度が評価されると仮定する。まず、Ｉ_ｒのＣＥＣＨの平均区分高さ計算され、それを当該各区分から減じる。ＭのＣＥＣＨの平均がまた計算され、それを当該各区分から減じる。結果として得られる正規化されたＣＥＣＨは、それぞれＣ_ｒとＣ_ｍと呼ばれる。本好適なテクニックでは、最小二乗線形回帰（Ｇ．Ｂｏｘ，Ｗ．ＨｕｎｔｅｒａｎｄＪ．Ｈｕｎｔｅｒらによる「ＳｔａｔｉｓｔｉｃｓｆｏｒＥｘｐｅｒｉｍｅｎｔｓ」ＮｅｗＹｏｒｋ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，１９７８，ｐｐ．４５３−４６２）を利用して、以下の値ｃｃとｂ

を計算することにより、Ｃ_ｍとＣ_ｒとの関係の量子化が行われる（６０２）。

Ｃ_ｍとＣ_ｒとの間の適合度が高いほど、相関係数ｃｃは大きくなる（１．０に近づく）。ｃｃが１．０に近くなるということは、各ＣＥＣＨにおけるヒストグラムの区分の高さが部分的に類似しているということを示すものであり、ｂの値が１．０に近いということは、Ｉ_ｒのサイズが対象オブジェクトのサイズに近いということを示すものである。類似度Ｄ_ｅは、これら２つの基準の組み合わせとして以下のように計算される。

ここで、ｋ_１は、０から１．０の間の定数である（例えば、ｋ_１＝０．９）。

カラーヒストグラムＭとＩ_ｒとの類似度がまた計算される（６０４）。これには、ＭとＩ_ｒが同一のカラー構成を含んでいるかのチェックが必要とされる。ＭとＩ_ｒのカラーヒストグラムをそれぞれＣＨ_ｍとＣＨ_ｒと呼ぶことにする。本発明の好適な実施例では、カラーベース距離Ｄ_Ｃが以下のように計算される（６０４）。

ここで、ｋ_２は、０から１．０の間の定数である（例えば、ｋ_２＝０．９）。その後、ＭとＩ_ｒとの間の全体的な類似評価スコアが、以下の等式に従い計算される（６０６）。

ここで、ｋ_３は、０から１．０の間の定数である（例えば、ｋ_３＝０．５）。

モデル画像と各サーチウィンドウとの類似度を評価するステップ２１４を実行するため、図６の処理が各サーチウィンドウに対し実行される。すなわち、サーチウィンドウ生成ステップ２０４において特定されたすべてのサーチウィンドウＩ_ｒに対しＤ（Ｍ，Ｉ_ｒ）が計算される。

モデル画像と各サーチウィンドウとの類似度が評価されると（２１４）、対象オブジェクトを含むものとして指定するため、類似度評価スコアがチェックされる（２１６）。サーチウィンドウの指定における部分ステップが、図７において示される。類似度スコアがチェックされ、サーチウィンドウサイズとサーチ領域の各組み合わせに対し、最も高い類似度スコアを有するサーチウィンドウが特定される（７０２）。各サーチ領域Ｒ_ｉに対するベストなサーチウィンドウは、ステップ７０２の各サイズにおいて特定された最も高いスコアの中で、最も高い類似度スコアを有するサーチウィンドウを選ぶことにより特定される（７０４）。その後、すべてのサイズの中から選択されたサーチウィンドウの当該スコアが、所定のスコア閾値と比較され、当該スコアがこの閾値を上回れば、対象オブジェクトを含むものとして指定される。当該閾値は、定数（例えば、０．６）であってもよいし、モデル及び/またはサーチ画像の特性分析により決定された値であってもよい。

ここで、本アルゴリズムを利用して、一度に複数の複合カラーオブジェクトを効率的に検索することができる。ＣＣＨが計算されると、類似度Ｄは高速計算が可能である。従って、画像を検索し、単に複数のモデルを比較することにより一度に複数のオブジェクトを検出することができる。

モデルＭが循環的である場合、ＣＥＣＨの内部的回転不変性により、回転不変検索が自動的に実行される。同様に、Ｍが１．０に近いアスペクト比を有する正方形または長方形である場合、実質的に回転不変が達成された。他のケースでは、サーチウィンドウ生成ステップ２０４はまた、異なる向きのサーチウィンドウを生成しなければならない。多くのケースにおいて、ＣＣＨの許容度の高さから、対象オブジェクトが他の向き（非直交）で並んでいても、モデルの向きは２つ（水平方向と垂直方向）だけ考慮されればよい。

本発明の他の実施例のブロック図が、図２ｂにおいて示される。本実施例では、オブジェクトモデル画像特徴抽出ステップ２１２は、オブジェクトモデル画像のＳＣＪＰＦ（例えば、ＣＣＨ）の計算から構成され、サーチウィンドウ特徴抽出ステップ２０６は、サーチウィンドウ生成ステップ２０４において特定された各サーチウィンドウのＳＣＪＰＦの計算から構成される。特徴比較ステップ２１４は、各サーチウィンドウとオブジェクトモデル画像のＳＣＪＰＦ間の類似度を評価することから構成される。

本発明の第３実施例のブロック図が、図２ｃに示される。本実施例では、オブジェクトモデル画像特徴抽出ステップ２１２が、オブジェクトモデル画像のエッジＳＣＪＰＦ（例えば、ＣＥＣＨ）の計算から構成され、サーチウィンドウ特徴抽出ステップ２０６が、サーチウィンドウ生成ステップ２０４において特定された各サーチウィンドウのエッジＳＣＪＰＦの計算から構成される。特徴比較ステップ２１４は、各サーチウィンドウとオブジェクトモデル画像のエッジＳＣＪＰＦ間の類似度を評価することから構成される。

本発明を実現するコンピュータプログラムにおいて必要となる計算を効率的に実行するために利用されるいくつかのテクニックがある。まず、ある領域のＣＥＣＨは、そのサブ領域のＣＥＣＨの区分ごとの和に等しくなるという意味で、ＣＥＣＨは加法性を満たしている。すなわち、画像Ｉにおける３つの画像領域Ａ、Ｂ及びＣに対して、

が成り立つ。

典型的には、サーチウィンドウ生成ステップ２０４により特定されるサーチウィンドウの多くは、互いに重複している。本発明の好適な実施例では、サーチウィンドウＣＥＣＨ計算ステップ２０６は、サーチウィンドウに対し計算されるＣＥＣＨの記録を保持している。サーチウィンドウＳ_１のＣＥＣＨの計算が必要となるとき、ＣＥＣＨ計算ステップ２０６はまず、同一サイズの重複したサーチウィンドウのＣＥＣＨが計算済みかどうか確認する。まだ計算されていなければ、Ｓ_１のＣＥＣＨは通常通り計算される。しかしながら、重複サーチウィンドウＳ_２のＣＥＣＨが計算済みである場合、図１１に示されるように、Ｓ_１のＣＥＣＨが、Ｓ_１と重複していないＳ_２の部分（図１１における領域Ｒ_２）のＣＥＣＨを計算し、それをＳ_２のＣＥＣＨから差し引き、その結果をＳ_２と重複していないＳ_１の部分のＣＥＣＨに加えることにより計算が行われる。すなわち、

本発明の主題は、認識対象のデジタル画像をデジタル処理して、人間に理解可能なオブジェクト、属性または状態に有益な意味を割り当て、さらなる画像処理において得られる結果を利用するデジタル画像認識技術に関するものである。

図１は、本発明を実現するためのコンピュータシステムを示す図である。図２ａは、本発明による画像中のオブジェクトを検出する好適なテクニックのブロック図である。図２ｂは、本発明による画像中のオブジェクトを検出する他のテクニックのブロック図である。図２ｃは、本発明による画像中のオブジェクトを検出する他のテクニックのブロック図である。図３は、図２ａ、２ｂ及び２ｃに示されるカラー量子化を実行するための方法の詳細なフローチャートである。図４は、図２ａ、２ｂ及び２ｃに示されるサーチウィンドウの生成を実行するための方法の詳細なフローチャートである。図５ａは、図４に示される前選別ステップを実行するための方法の詳細なフローチャートである。図５ｂは、図４に示される前選別ステップを実行するための他の方法の詳細なフローチャートである。図６は、図２ａ、２ｂ及び２ｃに示される類似度評価ステップを実行するための方法の詳細なフローチャートである。図７は、図２ａ、２ｂ及び２ｃに示されるサーチウィンドウ指定ステップの詳細なフローチャートである。図８は、図５に示される確率マップ生成ステップの詳細なフローチャートである。図９は、図４に示されるオブジェクト前選別ステップのサンプル結果である。図１０は、オブジェクト検出アルゴリズムのサンプル結果である。図１１は、図２ａ、２ｂ及び２ｃに示される特徴抽出ステップを実現する効率的方法を示す図である。

符号の説明

１１０コンピュータシステム
１１２マイクロプロセッサベースユニット
１１４ディスプレイ
１１６キーボード
１１８マウス
１２０ディスプレイ上のセレクタ
１２２ディスクドライブユニット
１２４ＣＤ−ＲＯＭ
１２６フロッピー（登録商標）ディスク
１２７ネットワーク接続
１２８プリンタ
１３０ＰＣカード
１３２ＰＣカードリーダ
１３４デジタルカメラ
１３６カメラドッキングポート
１３８ケーブル接続
１４０無線接続
２００カラーサーチ画像

Claims

デジタル画像中のカラーオブジェクトの検出方法であって：
前記カラーオブジェクトを潜在的に含むサーチ画像を取得するステップ；
前記カラーオブジェクトのモデルを含むモデル画像を取得するステップ；
前記モデル画像に対し空間カラー結合確率関数（ＳＣＪＰＦ）を計算するステップ；
前記オブジェクトモデル画像に与えられる最小の所定のカラー数を有する前記サーチ画像の領域内にある部分から構成される複数のサーチウィンドウを生成するステップ；
各サーチウィンドウに対しＳＣＪＰＦを計算するステップ；
前記モデル画像のＳＣＪＰＦと前記複数のサーチウィンドウのＳＣＪＰＦの各々との類似度を評価するステップ；及び
所定のサーチ閾値を上回る前記モデル画像ＳＣＪＰＦとある類似度を有するサーチウィンドウＳＣＪＰＦに関するサーチウィンドウを、検出対象オブジェクトを潜在的に含むものとして指定するステップ；
からなり、前記モデル画像ＳＣＪＰＦは前記モデル画像におけるカラー間の空間関係と同時にカラー分布でもあり、前記サーチウィンドウＳＣＪＰＦは前記サーチウィンドウのカラー間の空間関係と同時にカラー分布でもあることを特徴とする方法。
請求項１記載の検出方法であって、さらに：
前記モデル画像と前記サーチ画像の両方に対しカラー量子化処理を実行するステップ；
を有し、前記２つの画像における一意的なカラー数は所定の知覚的に関連したカラー名の集合に限定されることを特徴とする方法。
請求項２記載の検出方法であって、前記カラー量子化ステップは、さらに：
前記モデル画像と前記サーチ画像における各画素値を適切なカラー空間に変換するステップ；
各画素に前記カラー空間内の前記画素のカラー値の所在に基づきカラー名を割り当てるステップ；及び
各画素に該画素に割り当てられたカラー名に基づき量子化されたカラー値を割り当てるステップ；
を有することを特徴とする方法。