JP2004265407A - デジタル画像におけるカラーオブジェクトの検出方法 - Google Patents

デジタル画像におけるカラーオブジェクトの検出方法 Download PDF

Info

Publication number
JP2004265407A
JP2004265407A JP2004048340A JP2004048340A JP2004265407A JP 2004265407 A JP2004265407 A JP 2004265407A JP 2004048340 A JP2004048340 A JP 2004048340A JP 2004048340 A JP2004048340 A JP 2004048340A JP 2004265407 A JP2004265407 A JP 2004265407A
Authority
JP
Japan
Prior art keywords
color
image
search
scjpf
model image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004048340A
Other languages
English (en)
Inventor
David J Crandall
ジェイ クランダール デイヴィッド
Jiebo Luo
ルオ ジエボ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eastman Kodak Co
Original Assignee
Eastman Kodak Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eastman Kodak Co filed Critical Eastman Kodak Co
Publication of JP2004265407A publication Critical patent/JP2004265407A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 デジタル画像におけるカラーオブジェクトのより効果的かつ効率的な検出を実現するための方法を提供する。
【解決手段】 カラーオブジェクトを含むサーチ画像を取得するステップと、カラーオブジェクトのモデル画像を取得するステップと、モデル画像の空間カラー結合確率関数(SCJPF)を計算するステップと、オブジェクトモデル画像の最小のカラー数を有すサーチ画像の領域内の複数のサーチウィンドウのステップと、各サーチウィンドウのSCJPFを計算するステップと、モデル画像と複数のサーチウィンドウのSCJPFの類似度を評価するステップと、サーチ閾値を上回るモデル画像SCJPFとの類似度を有するサーチウィンドウを、検出対象オブジェクトを指定するステップとからなり、モデル画像SCJPFはカラー間の空間関係とカラー分布でもあり、サーチウィンドウSCJPFはサーチウィンドウのカラー間の空間関係とカラー分布でもある。
【選択図】 図2a

Description

本発明は、一般にデジタル画像処理技術に関し、より詳細にはデジタル画像におけるカラーオブジェクトの検出方法に関する。
ユーザ画像におけるオブジェクト検出は、重要な画像解析作業である。特に、画像中のオブジェクトの検出及び認識を行うことができるアルゴリズムでは、コンピュータにより実質的に人間が画像を見るときに認識できるものをシミュレートすることによって、画像から意味のある情報を大量に自動抽出することができる。このような意味のある情報は、自動画像カテゴリ化、情景分類、画像の向き決定のような広範囲の画像理解への応用を向上させることができるであろう。
しかしながら近年の研究にもかかわらず、制約なしの画像において任意のオブジェクトを確実に検出することができる単一のコンピュータアルゴリズムの開発はほとんど成果があがっていない。最近の研究において最も優れたものとしては、例えば、顔(M.H.Yang,D.Kriegman,N.Ahujaらによる「画像における顔検出:サーベイ(Detecting Faces in Images: A Survey)」、IEEE Transactions on Pattern Recognition and Machine Intelligence,vol.24:1,pp.34−58,2002)、人間の体(N.Sprague and J.Luoらによる「静止画像における服を着た人間の検出(Clothed People Detection in Still Images)」、Proceedings of the International Conference on Pattern Recognition,2002)、馬(D.A.Forsyth and M.M.Fleckらによる「ボディープラン(Body Plans)」、Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition,1997)、ナンバープレート(J.W.Hsieh,S.H.Yu,Y.S.Chenらによる「複雑な情景からの形態ベースのナンバープレート検出(Morphology−based License Plate Detection from Complex Scenes)」、Proceedings of the International Conference on Pattern Recognition,2002)、衛星写真における自動車(H.Moon,R.Chellappa,A.Rosenfeldらによる「最適エッジベース形状検出(Optimal Edge−Based Shape Detection)」、IEEE Transactions on Image Processing,(11)11,November 2002)、道路標識(Y.Lauziere,D.Gingras,F.Ferrieらによる「モデルベース道路標識識別システム(A Model−Based Road Sign Identification System)」、Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2001)などの特定のオブジェクトあるいはオブジェクトクラス、あるいは特定条件下での個別アルゴリズムの構築である。
オブジェクト検出アルゴリズムの構築は、典型的には、時間のかかる骨の折れる作業である。新しいオブジェクトまたはオブジェクトクラスの検出アルゴリズムの構築にはしばしば2つの基本的なアプローチがある。第1のアプローチは、対象オブジェクトを含む大量の画像データを収集し、真のデータに基づき学習エンジンを訓練するというものである(H.Schneiderman and T.Kanadeらによる「顔及び自動車に適用される3次元オブジェクトの検出のための統計的方法(A Statistical Method for 3D object detection applied to faces and cars)」、Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2000、及びH.Rowley,S.Baluja,T.Kanadeらによる「回転不変ニューラルネットワークべースの顔検出(Rotation Invariant Neural Network−Based Face Detection)」、Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,1998)。しかしながら、基になる真のデータを大量に収集することは時間のかかる作業であり、オブジェクトによっては困難あるいは不可能であるかもしれない。また、学習エンジンの設計及び適切な画像特徴の選択には多くの人的作業が必要となる。もう1つのアプローチは、人間の直感を利用して対象オブジェクト検出のためのルールを作成するというものである。しかしながら、このアプローチも人手を要する作業であり、単なるオペレータだけでなくより専門的知識をもったエキスパートが必要とされ、結果として得られる検出器は、各オブジェクトタイプに対し新しいルールセットの作成を必要とする極めて特化したものとなってしまう。
本発明は、画像中の対象オブジェクトの様相を変化させる大域的及び局所的変形を受けた、一意的かつ不変的な空間レイアウトにおいて配置されたある特定の複数カラーを有するオブジェクトとして定義される「複合カラーオブジェクト(compound color object)」の検出に関するものである。これには、比較的広い範囲のオブジェクトクラス、例えば、旗、マンガのキャラクタ、ロゴ、ユニフォーム、標識などが含まれる。複合カラーオブジェクトの様相は情景ごとに大きく変化するため、このような問題は非自明なものとなる。旗やロゴのようなオブジェクトはしばしばフレキシブルな素材に表され、その様相は素材の変形と共に変化する。例えば、旗は風の状態により自己閉塞(self−occlusion)及び非アファイン変形(non−affine distortion)を受ける。画像の向きは必ずしも既知のものではなく、多くの複合カラーオブジェクトは固定の向きを有していないので、検出器は回転に対し不変でなければならない。オブジェクト毎の発光変化及び色差による色のシフトにロウバストである必要がある。
どのオブジェクト検出システムでも、対象オブジェクトモデルと入力画像との比較に利用される適切な表現の選択が必要となる。この表現選択は、典型的には、異なる画像における対象オブジェクトに関し予想される変形のタイプの関数である。例えば、あるオブジェクトにおいて大きなカラー変化が予想される場合、画像エッジに基づく表現が選択されねばならないし(例えば、Moon,Chellappa and Rosenfeld)、一方で大きな空間変化が予想される場合には、大域的なカラーヒストグラムを利用した表現が賢明であるかもしれない(例えば、M.Swain and D.Ballardらによる「カラーインデックシング(Color Indexing)」、International Journal of Computer Vision,(7)1,pp.11−32,1991)。適応可能な空間変形の程度に応じた連続的な可能な表示形態がある。この連続的な表示形態の一方において、画素単位テンプレートマッチングが行われる。このアプローチは固定的なオブジェクトに対し使用される(例えば、顔検出)。表示形態のもう一方では、オブジェクトを構成要素に分解し、それらの可能な空間的関係をキャプチャする柔軟なモデルがある。これら表示形態の前者から後者に移るに従い、これらのアプローチが扱うことができる変形タイプはよりフレキシブルになっていく。しかしながら同時に、これらのアプローチは対象オブジェクトについての高いレベルの知識が必要となり、誤った警告により影響を受けやすくなる。後者に近いアプローチは、その空間配置が大きく変化するオブジェクト(例えば、歩行者など)に必要なものである。ここでの複合カラーオブジェクト検出問題では、ちょうど連続した表示形態の中間あたりのアプローチが必要となる。定義により、複合カラーオブジェクトの空間レイアウトは固定されるが、依然として、繊維上の旗やロゴのような非固定的表面上のオブジェクトのカメラアングル及び投影による変形が生じる可能性がある。
オブジェクト検出は、コンピュータビジョンにおける基本的問題であり、多くの注目がなされてきた分野である。上述のように、オブジェクトマッチングが実行される抽象レベルに応じて、異なるアプローチのオブジェクト認識が存在する。ここで、当該分野における関連性のあるオブジェクト検出技術が述べられる。これらの技術は抽象レベルの高さ順に列挙される。
Rowleyらによると、画像の強度平面(intensity plane)におけるテンプレートマッチングを利用した顔検出が行われる。入力画像に前処理が行われ、照明変化の補正及びコントラストの強調が行われる。発光画素値に直接適用されるニューラルネットワーク分類器を利用することにより、画像領域が顔部分と非顔部分に分類される。ここでのニューラルネットワークは約10,000個の基になる真の画像により訓練される。
SchneidermanとKanadeらによると、ウェーブレット特徴の結合ヒストグラムを利用して画像中の顔が検出される。彼らの統計アプローチは、異なる角度の顔の向きのような顔の様相に関する変化にロウバストなものである。
Orenらによると(M.Oren, C.Papageorgiou, P.Shiha, E.Osuna, T.Poggioらによる「ウェーブレットテンプレートを利用した歩行者検出(Pedestrian Detection Using Wavelet Templates)」、Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,1997)、ウェーブレット特徴を利用した画像中の歩行者の検出が行われる。入力画像は、異なるサイズのウィンドウを利用して歩行者に対しスキャンされ、サポートベクトルマシーン(Support Vector Machine)を利用した分類が行われる。
SelingerとNelsonらによると(A.Selinger, R.C.Nelsonらによる「複数の視点を利用した様相ベースのオブジェクト認識(Appearance−based Object Recognition Using Multiple Views)」、Proceedings the IEEE Conference on Computer Vision and Pattern Recognition,2001)、異なる角度から撮影された複数の2次元画像による3次元オブジェクトが表現される。この2次元画像はさらに等高線として抽象化される。これら等高線の網羅的テンプレートマッチングにより認識が行われる。
Huttenlocherらによると(D.P.Huttenlocher, G.A.Klanderman and W.J.Ricklidgeらによる「ハウスドルフ距離を利用した画像比較(Comparing Images Using the Hausdorff Distance)」、IEEE Transactions on Pattern Analysis and Machine Intelligence,(15)pp.850−863,1993)、エッジ画素マップを利用することによりオブジェクトが表現され、エッジ画素位置間のハウスドルフ距離を利用することにより画像の比較が行われる。ハウスドルフ距離により、単純な画素単位のテンプレートマッチングよりもより耐故障性の高い幾何変形が可能となる。
Fanらによると(L.Fan, K.K.Sung, T.K.Ng.らによる「制約なし背景による静止画像における歩行者登録(Pedestrian registration in static images with unconstrained background)」、Pattern Recognition,36(2003),pp.1019−1029,2003)、特徴点系列とラインセグメントを利用した歩行者輪郭が表される。歩行者の様相に関する可変性を説明するために、特徴ベースの画像ワーピング(image warping)技術が利用される。
Cootesらによると(T.F.Cootes, G.J.Edwards, C.J.Taylorらによる「アクティブ様相モデル(Active appearance models)」、Proceedings of the European Conference on Computer Vision,pp.484−498,1998)、オブジェクトの形状及びグレースケールによる様相をモデル化したアクティブ様相モデル(AAM)を利用することによりオブジェクトが表される。このモデルでは、顔のようなフレキシブルなオブジェクトの検出が可能となる。
Sprague、Luoによると、画像中の人がフレキシブルなモデルに従って位置、形状、サイズ、カラー及び向きのような特徴を利用した細分化された領域のグループ化によって検出される。ベイズネットワーク分類器が利用される。
Forsyth、Fleckらによると、同様のアプローチを利用して画像中の馬が検出される。彼らのシステムによると、画像をカラーやテクスチャの特徴を利用して候補となる馬領域に細分化し、関連する幾何学的推論をサポートする「ボディープラン(body plan)」を利用してこれらの領域を再構成する。このグラフモデルべースのマッチングアプローチは、非常に強力なものであるが、基礎となる大量の真のデータをオブジェクトの様相における許容されうる変化を学習するか、あるいは専門化の直感により特定されるルールが必要となる。
米国特許第6,477,272号「最適オブジェクト認識処理パラメータを選択するための共起ヒストグラムと誤警告確率分析によるオブジェクト認識(Object recognition with cooccurrence histgrams and false alarm probability analysis for choosing optimal object recognition process parameters)」において、KrummとChangは、空間レイアウト情報と共に、共起ヒストグラムとオブジェクト内の色をキャプチャする特徴を利用したオブジェクト検出アルゴリズムを提案している。そこでは、kミーンズクラスタリングアルゴリズム(k−means clustering algorithm)を利用して複数のオブジェクトモデルを少数の色に量子化し、同色のクラスタを利用してテスト画像が量子化される。そして、これらオブジェクトモデルのカラー共起ヒストグラムが計算される。ヒストグラムの共通部分を使って当該モデルと比較される大きな重複領域のカラー共起ヒストグラムを計算することによって、テスト画像の走査が行われる。この粗い走査においてモデルと高い類似性を示す領域において山登り探索(hill−climbing search)によりオブジェクトの位置が精査される。この開示では、誤警告を最小化するアルゴリズムのパラメータ設定のための詳細な分析に注力がなされている。
米国特許第6,477,272号 「Detecting Faces in Images: A Survey」、M.H.Yang,D.Kriegman,N.Ahuja,IEEE Transactions on Pattern Recognition and Machine Intelligence,vol.24:1,pp.34−58,2002 「Clothed People Detection in Still Images」、N.Sprague and J.Luo,Proceedings of the International Conference on Pattern Recognition,2002 「Body Plans」、D.A.Forsyth and M.M.Fleck,Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition,1997 「Morphology−based License Plate Detection from Complex Scenes」、J.W.Hsieh,S.H.Yu,Y.S.Chen,Proceedings of the International Conference on Pattern Recognition,2002 「Optimal Edge−Based Shape Detection」、H.Moon,R.Chellappa,A.Rosenfeld,IEEE Transactions on Image Processing,(11)11,November 2002 「A Model−Based Road Sign Identification System」、Y.Lauziere,D.Gingras,F.Ferrie,Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2001 「A Statistical Method for 3D object detection applied to faces and cars」、H.Schneiderman and T.Kanade,Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2000 「Rotation Invariant Neural Network−Based Face Detection」、H.Rowley,S.Baluja,T.Kanade,Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,1998 「Color Indexing」、M.Swain and D.Ballard,International Journal of Computer Vision,(7)1,pp.11−32,1991 「Pedestrian Detection Using Wavelet Templates」、M.Oren, C.Papageorgiou, P.Shiha, E.Osuna, T.Poggio,Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,1997 「Appearance−based Object Recognition Using Multiple Views」、A.Selinger, R.C.Nelson,Proceedings the IEEE Conference on Computer Vision and Pattern Recognition,2001 「Comparing Images Using the Hausdorff Distance」、D.P.Huttenlocher, G.A.Klanderman and W.J.Ricklidge,IEEE Transactions on Pattern Analysis and Machine Intelligence,(15)pp.850−863,1993 「Pedestrian registration in static images with unconstrained background」、L.Fan, K.K.Sung, T.K.Ng,Pattern Recognition,36(2003),pp.1019−1029,2003 「Active appearance models」、T.F.Cootes, G.J.Edwards, C.J.Taylor,Proceedings of the European Conference on Computer Vision,pp.484−498,1998
ここで、KrummとChangの方法は、厳格に制御された条件下でキャプチャされる画像を対象として設計されたものである。具体的には、照明状態及びカメラ設定が、すべてのモデル及びテスト画像に対し一定に保たれる必要がある。オブジェクトのサイズや向きもまたすべてのモデル及びテスト画像において同一でなければならない。そうのような仮定は照明やオブジェクトサイズのような要素が画像ごとに大きく異なりうる制約のないユーザ画像に対しては成り立つものでない。すなわち、KrummとChangのアプローチは、制約のないユーザ画像に一般化できないことは明らかであろう。彼らにより提起されたアルゴリズムの問題点が具体的に以下に示される。
カラーシフトに対し不変でない。開示されたアルゴリズムでは、制御された照明状態が仮定され、従って異なるユーザ画像において典型的なカラーシフトには対処することができない。
また、スケーリングに対し不変でない。開示されたアルゴリズムでは、対象オブジェクトは画像が固定されてることを仮定している。
また、オブジェクト向きに対し不変でない。
また、開示されたアルゴリズムでは、各テスト画像において対象画像はちょうど1回だけしか出現しないと仮定されている。ゼロまたは複数の対象オブジェクトを含む画像の処理機能は与えられていない。
また、最良の適合向きに対し仮説のオブジェクト位置を繰り返しスライドさせることにより、当該オブジェクトの位置を検出する山登り法に基づいている。そのような方法によると、大域的な最適解でない局所的な最適値に陥る傾向がある。
また、高い頻度の誤警告を生じさせる類似度が使用されている。
また、アルゴリズムの実行に要する計算量が大きい。
従って、大部分の複合カラーオブジェクトに対し容易に対処可能な複合カラーオブジェクト検出方法の必要性がある。大量の見本データや人間の直感を要する代わりに、本発明による方法は、1つあるいは少数のモデル画像の利用により十分機能する。また、モデル画像を単に変えることにより他の複合オブジェクトに対しても容易に対処することができる。特に、上記問題点を解決するオブジェクト検出テクニックの必要性がある。
上記課題を解決するために、本発明は、デジタル画像中のカラーオブジェクトの検出方法であって、前記カラーオブジェクトを潜在的に含むサーチ画像を取得するステップと、前記カラーオブジェクトのモデルを含むモデル画像を取得するステップと、前記モデル画像に対し空間カラー結合確率関数(SCJPF)を計算するステップと、前記オブジェクトモデル画像に与えられる最小の所定のカラー数を有する前記サーチ画像の領域内にある部分から構成される複数のサーチウィンドウを生成するステップと、各サーチウィンドウに対しSCJPFを計算するステップと、前記モデル画像のSCJPFと前記複数のサーチウィンドウのSCJPFの各々との類似度を評価するステップと、所定のサーチ閾値を上回る前記モデル画像SCJPFとの類似度を有するサーチウィンドウSCJPFと関連するサーチウィンドウを、検出対象オブジェクトを潜在的に含むものとして指定するステップとからなり、前記モデル画像SCJPFは前記モデル画像におけるカラー間の空間関係と同時にカラー分布でもあり、前記サーチウィンドウSCJPFは前記サーチウィンドウのカラー間の空間関係と同時にカラー分布でもあることを特徴とする。
また、上記課題を解決するために、本発明は、さらに、前記モデル画像と前記サーチ画像の両方に対しカラー量子化処理を実行するステップを有し、前記2つの画像における一意的なカラー数は所定の知覚的に関連したカラー名の集合に限定されることを特徴とする。
また、上記課題を解決するために、本発明は、前記カラー量子化ステップは、さらに、前記モデル画像と前記サーチ画像における各画素値を適切なカラー空間に変換するステップと、各画素に前記カラー空間内の前記画素のカラー値の所在に基づきカラー名を割り当てるステップと、各画素に該画素に割り当てられたカラー名に基づき量子化されたカラー値を割り当てるステップとを有することを特徴とする。
本発明は、オブジェクト検出率の向上、非オブジェクト検出率の低下を実現する。特に、知覚的なカラー量子化、異なるサイズのオブジェクトの検出、新たな類似度評価メトリックの採用、画像エッジ解析の利用により、従来技術との比較においてオブジェクト検出率の向上が実現される。本発明はまた、前選別処理によるより効率的な検索処理を実現する。
以下、通常ソフトウェアプログラムとして通常実現される本発明の好適な実施例が説明される。そのようなソフトウェアと同様の機能を有するハードウェアが構築できるということは、当業者には容易に理解されうるであろう。画像処理アルゴリズム及びシステムは周知のものであるので、ここでの説明は、本発明によるシステム及び方法の一部を構成するか、あるいは直接的に協調するようなアルゴリズム及びシステムに向けられる。本発明に関する画像信号の生成及び処理のためのアルゴリズム、システム、ハードウェア及び/またはソフトウェアは、既知のシステム、アルゴリズム、構成要素から選択的に取り入れられてもよい。以下で説明される本発明によるシステムが与えられたとき、本発明の実現に利用されるが、ここでは説明及び例示されないソフトウェアは当業者には既知のものであるかもしれない。
さらに、ここで利用されるコンピュータプログラムは、コンピュータによる読み出し可能な記憶媒体に記録することができる。そのような記録媒体としては、例えば、磁気ディスク(ハードディスクやフロッピー(登録商標)ディスク)や磁気テープのような磁気記憶媒体、光ディスク、光学テープまたは機械読取り可能なバーコードのような光学記憶媒体、RAM(Random Access Memory)やROM(Read Only Memory)のような半導体電子記憶装置、あるいはコンピュータプログラムの格納に利用可能な他の物理装置またはメディアから構成される。
本発明を説明する前に、本発明はパーソナルコンピュータのような任意の既知のコンピュータシステムにおいて好適に利用されうるということを述べることは理解の一助となるであろう。図1を参照するに、本発明を実現するコンピュータシステム110が示される。コンピュータシステム110は好適な実施例を説明するために示されたものであり、本発明は例示されたコンピュータシステム110に限定されるものではない。本発明は、例えば、家庭のコンピュータ、キオスク(kiosk)、リテール及びホールセール向け現像サービス、あるいはその他のデジタル画像処理システムにおいて利用可能である。コンピュータシステム110は、ソフトウェアプログラムの受信及び処理、並びに他の処理機能を実行するマイクロプロセッサベースユニット112を備える。ディスプレイ114は、例えば、グラフィカルユーザインタフェースによりソフトウェアについてのユーザ関連情報を表示するためのものであり、マイクロプロセッサベースユニット112に電気的に接続される。キーボード116はまた、ユーザがソフトウェアに情報を入力するためのものであり、マイクロプロセッサベースユニット112に接続される。入力にキーボード116を使用する代わりに、マウス118を使って、周知のように、ディスプレイ114上のセレクタ120を動かし、セレクタ120上のアイテムを選択するようにしてもよい。
典型的にはソフトウェアプログラムを有するCD−ROM(Compact Disk−Read Only Memory)124が、マイクロプロセッサベースユニット112へのソフトウェアプログラム及び他の情報の入力のため、マイクロプロセッサベースユニット112に挿入される。さらに、フロッピー(登録商標)ディスク126もまたソフトウェアプログラムを格納することが可能であり、当該ソフトウェアプログラムの入力のためマイクロプロセッサベースユニット112に挿入される。CD−ROM124やフロッピー(登録商標)ディスク126はまた、マイクロプロセッサベースユニット112に接続された外部に設置されているディスクドライブユニット122に挿入されてもよい。さらに、周知のように、マイクロプロセッサベースユニット112は、ソフトウェアプログラムを内部的に格納するようプログラミングされていてもよい。マイクロプロセッサベースユニット112はまた、例えば、電話線のような、LAN(Local Area Network)やインターネットなどの外部ネットワークへのネットワーク接続127を備えていてもよい。また、コンピュータシステム110からの出力をプリントアウトするため、プリンタ128がマイクロプロセッサベースユニット112に接続されていてもよい。
また、電子的に実現可能なデジタル画像を含む既知の(Personal Computer Memory Card International Associationの規格に基づく)PCMCIAカードのようなパーソナルコンピュータ(PC)カード130を介し、画像はディスプレイ114に表示される。PCカード130は、ディスプレイ114上への画像の表示を行うためマイクロプロセッサベースユニット112に挿入される。または、PCカード130は、マイクロプロセッサベースユニット112に接続された外部に設置されているPCカードリーダ132に挿入されてもよい。また、画像は、CD124、フロッピー(登録商標)ディスク126、あるいはネットワーク接続127を介し入力されてもよい。PCカード130、フロッピー(登録商標)ディスク126またはCD124に記録されている画像、あるいはネットワーク接続127を介した入力は、デジタルカメラ134やスキャナ(図示せず)のような様々なソースから取得するよう構成されてもよい。また画像は、マイクロプロセッサベースユニット112に接続されたカメラドッキングポート136を介し直接入力されてもよいし、マイクロプロセッサベースユニット112へのケーブル接続138を介しデジタルカメラ134から直接入力されてもよいし、マイクロプロセッサベースユニット112への無線接続140を介し入力されてもよい。本発明によると、その好適実施例において開示されるオブジェクト検出アルゴリズムは、前述の記憶装置の何れかに格納されてもよく、オブジェクト検出及び特定オブジェクトの位置のため画像に適用されてもよい。
本発明の好適な実施例において開示されるオブジェクト検出アルゴリズムは、様々なユーザ状況及び環境において利用可能である。以下限定することを意図したものではないが、一例となる状況及び環境として、例えば、ホールセールデジタル写真現像(フィルムイン、デジタル処理、プリントアウトのような一例となる処理ステップまたはステージに関する)、リテールデジタル写真現像(フィルムイン、デジタル処理、プリントアウト)、家庭における印刷(家庭におけるスキャニングフィルムやデジタル画像、デジタル処理、プリントアウト)、デスクトップソフトウェア(改良または単なる変換のためアルゴリズムをデジタルプリントに適用するソフトウェア)、デジタル実現(メディア、ウェブ、デジタル処理からのデジタル画像入力、及びメディアにおけるデジタル形式、ウェブ上におけるデジタル形式またはハードコピー印刷での画像出力)、キオスク(デジタルまたはスキャン入力、デジタル処理、デジタルまたはハードコピー出力)、携帯装置(例えば、処理ユニット、表示ユニットまたは処理インストラクションを与えるユニットとして利用可能なPDA(Personal Degital Assistance)または携帯電話)、及びワールドワイドウェブを介し提供されるサービスなどが含まれる。
各場合においても、当該アルゴリズムはスタンドアローンタイプでもよいし、より大きなシステムソリューションの一構成要素ととして構成されてもよい。さらに、アルゴリズム、スキャニングまたは入力、デジタル処理、ディスプレイとユーザとのインタフェース(必要に応じて)、ユーザリクエストまたは処理インストラクションの入力(必要に応じて)、出力は、同一の装置に備えられてもよいし、異なる場所に設置された異なる装置として構成されてもよい。またこれらの装置及び設置場所との通信は公衆または私有ネットワーク接続を介し行われてもよいし、あるいはメディアベースで通信が行われてもよい。本発明の前述の開示に従い、アルゴリズムは完全に自動化されていてもよいし、ユーザによる入力を要するものであってもよいし(完全または部分的手動)、ユーザまたはオペレータに結果の受理または不受理を決定させてもよいし、メタデータによる支援がなされてもよい(メタデータはユーザにより提供されてもよいし、(例えば、カメラの中の)測定装置により提供されてもよいし、アルゴリズムにより決定されてもよい)。さらに、アルゴリズムは様々なワークフローユーザインタフェーススキームとインタフェースをとってもよい。
図2aを参照するに、本発明により利用されるアルゴリズムの好適実施例のフローチャートが示される。フローチャートにおける各ステップの説明が与えられる。また、より詳細な説明がさらに後述される。アルゴリズムは検出処理において探索されるオブジェクトのモデルを含むデジタル画像208を受け取る。このオブジェクトモデル画像208に対しカラー量子化アルゴリズムが実行され(210)、より少ないカラーを有する第2画像が生成される。量子化されたオブジェクトモデル画像に対し特徴抽出が実行され(212)、モデル画像の特定の特性が計算される。アルゴリズムはまた、1以上の対象オブジェクトを潜在的に含むデジタル画像200を受け取る。サーチ画像200に対し同様のカラー量子化アルゴリズムが実行され、より少ないカラーを有する第2画像が生成される。画像解析結果に基づき、量子化されたサーチ画像における複数の可能なサーチウィンドウが特定され(204)、オブジェクトの可能な位置及びサイズが示される。これら可能なサーチウィンドウの各々に対し同様の特徴抽出が実行され(206)、それぞれの特定の特性が計算される。各サーチウィンドウの特徴はオブジェクトモデルの特徴と比較され、各サーチウィンドウに対し類似度が評価される(214)。この比較に基づき、0以上のサーチウィンドウが対象オブジェクトを含むものとして指定される(216)。
以下の説明の簡単化のため、サーチウィンドウ200はI、モデルオブジェクト画像208はMとして参照される。ここで、本発明の明らかな拡張は、各画像に対しこの好適実施例を複数回繰り返すことにより、逐次的または並列的に複数の画像から対象オブジェクトを探索するというものである。同様にして、各オブジェクトモデル画像に対しカラー量子化210と特徴抽出212を実行し、サーチウィンドウと各モデル画像を比較することにより、サーチ画像において複数のオブジェクトが探索される。
オブジェクトのカラーの様相は、明るさのばらつき、知覚カラーサラウンド効果、画像圧縮によるノイズなどの影響を受け、画像ごとに大きく異なる。同一オブジェクトの異なるインスタンスもまた、それらは知覚的には同一のものと考えられるが、色の変化を有しているかもしれない。例えば、異なる製造業者による米国旗は、異なる赤染料が利用され、やや異なるストライプカラーを有するかもしれない。従って、オブジェクト検出アルゴリズムでは、入力画像の色空間(典型的には、赤、緑お呼び青の各色に対し256以上のレベルを有する)をより少ないカラーに量子化することが望ましい。この量子化は、知覚的に類似した色が同一の量子化カラー値にマッピングされる一方、非類似の色が異なるカラー値にマッピングされることを確実にするため、注意深く設計されねばならない。
本発明のカラー量子化アルゴリズム202及び210は、標準的なISCC−NBSカラー名称辞典(K.KellyとD.Juddによる「Color Universal Language and Dictionary of Names」National Bureau of Standards Special Publication 440.ワシントンDC.米国政府印刷局、1976年、pp.1−34)を利用している。ISCC−NBSシステムは、各々が標準カラー名と標準代表カラー仕様(セントロイドカラーと呼ばれる)を有する267の標準カラー区分を定義している。ISCC−NBSカラー名は、例えば、「鮮明な赤(Vivid Red)」、「濃赤茶色(Strong Reddish Brown)」、「淡灰黄茶色(Light Grayish Yellowish Brown)」などの1以上の接頭語を有する基本カラーである。
図3を参照するに、まず入力画像Iの画素が「CIE L*a*b*カラー空間」に変換される(300)(例えば、E.Giorgianni and T.Madden, Digital Color Management: Encoding Solution, Reading, MA: Addison−Wesley, 1997, pp.439−445を参照せよ)。その後、Iの各画素がISCC−NBSシステムによって定義される267の標準カラーの1つに割り当てられる(302)。例えば、この処理は、各画素のL*a*b*カラー値と267の各区分のセントロイドカラー値とを比較し、ある距離測度(例えば、
Figure 2004265407
により与えられる3次元ユークリッド距離)に従い最も近いものを選ぶことにより行われる。各画素には、決定されたセントロイドカラーのISCC−NBSカラー名が割り当てられる(304)。最後に、参照テーブルを利用して、各画素は割り当てられたカラー名に基づき基本カラー名の集合Qからの量子化カラー値が割り当てられる。Qには、例えば、赤、緑、黄色、青、オレンジ、紫、茶、白、黒及び灰色などが含まれる。この参照テーブルは、例えば、各ISCC−NBSカラー名をそこから形容詞をすべて取り除いた名前にマッピングする(例えば、「鮮明な赤」を「赤」に、「淡灰黄茶色」を「茶色」などに)ことにより構成される。結果として得られる参照テーブルは、観察者からの入力、あるいは当該オブジェクト検出タスクの特定ニーズに基づき、必要に応じ適宜カスタマイズされてもよい。例えば、当該タスクが人間を含む画像に関するものであれば、肌色が基本カラーセットに追加されてもよい。
ここで、ISCC−NBSカラー名とQの基本カラーとの間のマッピングは1対1である必要はない。特に、同一のISCC−NBSカラー名が複数の基本カラーにマッピングされてもよい。これが役に立つのは、例えば、ISCC−NBSセントロイドカラーがある基本カラーの境界近くにある場合や、異なる色順応(chromatic adaptation)での観察者によるあるカラーの複数の解釈を考慮する必要がある場合などである。
カラー量子化アプローチは概念的には4つのステップ(300から306)に分けられるが、実際、RGBカラー値から量子化カラー値へのマッピングは1つのステップを使って行われる(例えば、単一構成3D参照テーブルを利用して)。
本発明は、モデル画像特徴抽出ステップ212、サーチウィンドウ生成ステップ204及びサーチウィンドウ特徴抽出ステップ206の実行中、空間カラー結合確率関数(SCIPF)を利用する。SCJPFは、画像中のカラー間の空間関係だけでなくカラー分布をも表す。このアプローチは、画素単位テンプレートマッチングより優れたものである。なぜなら、このアプローチはある程度の非厳格さ(すなわち、ひずみ)を許容するが、大量の訓練データや専門家による設計なくモデルの構築が可能となるだけの十分な単純さを有するものであるからである。例えば、前述の米国特許第6,477,272号においてKrummとChangにより使用されたカラー共起ヒストグラム(CCH)と、「カラーコレログラムを利用した画像インデック処理(Image Indexing Using Color Correlograms)」(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pp.762−768,1997)においてHuang, S.Kumar, M.Mitra, W.J.Zhu, R.Zabihらにより利用されたカラーコレログラムは、SCJPFの2つの典型例である。KrumとChangの特許に与えられるように、一連の画素特性範囲の同一の組み合わせに入る規定された画素特性を示し、一連の距離範囲の同一のものに入る距離により分離される画素ペアのカウントを生成することによりCCHは計算される。本発明の好適な実施例は、カラー共起ヒストグラム(CCH)とカラーエッジ共起ヒストグラム(CECH)の2つのSCJPFを利用する。さらに、「分布」という単語の利用は他の関係を含むことを限定することなく理解されるべきである。例えば、ヒストグラムは「カウント」に関するものであるとき、SCJPFはカウント以外により導かれる。例えば、チェック模様のパターンのように極めて規則的なオブジェクトに対しては、直接「カウント」することなくSCJPFを定義することができる。
カラー共起ヒストグラム(CCH)は、2つの次元におけるカラーと、残る次元における空間距離によりインデックスされる3次元ヒストグラムである。ヒストグラムの各区間(bin)は、所与の空間分割において、与えられた2つのカラー画素が起こる頻度を記録したものである。より形式的には以下のように定義することができる。集合Qのカラーに量子化された画像Iのある領域をJとし、量子化されたIにおける画素pのカラーをI(p)により表すこととする。このとき、CCH演算子は以下のように定義される。すなわち、A=CCH{J,I}である場合、Aは、すべての
Figure 2004265407
と非負整数d≦Tに対して、
Figure 2004265407
を満たす3次元行列である。ここで、Tは所定の定数(例えば、16画素)、sizeは集合の要素数、qdistは量子化された距離関数を表す。Tは、CCH計算中に考慮される近傍サイズを特定するものである。非負整数に量子化された2つの画素間の距離のある測度を返す任意の関数がqdistととして利用可能である。好適なテクニックでは、量子化ユークリッド距離関数
Figure 2004265407
が使われる。他のものとしては、街中のブロック距離に利用される
Figure 2004265407
が使われてもよい。後者の距離メトリックを利用することのメリットは、CCHのより効率的な計算が可能となるということである(Huang, S.Kumar, M.Mitra, W.J.Zhu, R.Zabihらによる「カラーコレログラムを利用した画像インデック処理(Image Indexing Using Color Correlograms)」、Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pp.762−768,1997)。しかしながら、後者のデメリットとして、距離メトリックが回転に対し不変ではないということであり、このためオブジェクト検出システムには適当ではない。
CCHには基本的問題点がある。すなわち、カラーの固定領域がヒストグラムに不適当なエネルギー量を与え、CCH比較メトリックに影響を与えるというものである。これによりCCHは、類似の固定カラー領域を有する2つの画像領域間で類似性を示すが、当該領域間の空間関係は明らかに異なるものとなってしまう。本発明の好適な実施例では、この問題はカラーエッジ共起ヒストグラム(CECH)と呼ばれる新たな手法により解決される。このヒストグラムは、カラー移行やカラーエッジに沿って存在する画素間の分離分布をキャプチャしたものである。ここで、カラーエッジは非類似カラー領域間の境界をとして定義される。カラー移行は複合カラーオブジェクトの内部構造の識別のために、知覚的に極めて重要なものであるので、CECHは当該オブジェクトを含む画像領域の一意的な空間シグネチャ(signature)の補足により良好に機能する。
CECHは、画像Iの領域Jに対し、A=CECH{J,I}である場合、
Figure 2004265407
として定義される。ここで、edges(I)は、Iにおけるエッジ画素の集合であり、例えば、異なるカラーの8近傍の少なくとも1つを有する画素、あるいはIの画像境界に存在する画素である。
実際上、典型的な領域のCECHは、同一領域のCCHよりもより高速な計算が可能である。これは、エッジ特性を示さない画素は即座に無視され、計算から除外されるからである。例えば、あるオブジェクトの典型的な画像に対し、エッジ画素は画総数の10%以下であり、このためCECHの計算はCCHに要する時間のごく一部にしか過ぎない。
ここで、CCHとCECHは、1入力カラーあたり複数の量子化カラーを生成するカラー量子化アルゴリズムの出力と同様に、1画素あたり複数の基本カラーを有する画像、例えば、同時に「赤」と「白」の両方を有すると考えられるピンク色の画素などに対し動作するよう拡張することができる。
図4を参照するに、サーチウィンドウ204の候補を生成する処理のフローチャートが示される。ここで、当該生成処理は、オブジェクトを含むIにおいてサーチ領域候補を特定するステップ(400)と、Iにおいて可能なオブジェクトサイズのリストを生成するステップ(402)と、Iにおける可能な各サイズの可能なオブジェクト位置のリストを生成するステップ(404)から構成される。
以下の説明において、サーチ画像カラー量子化ステップ202の結果はIと、オブジェクトモデル画像カラー量子化ステップ210の結果はMとして表される。
図5aは、対象オブジェクトを含みうる可能領域400を特定するため、画像Iの前選別(prescreening)を実行する好適な方法を示す図である。前選別ステップ400を含める目的は、対象オブジェクトを含まず、さらなる処理を保証しない画像領域を早めに削除することである。前選別ステップは、不要な処理を避けることにより、アルゴリズムの実行時間を大きく短縮することができる。さらに、前選別ステップはまた、以下で詳細に説明されるように、画像中の対象オブジェクトの潜在的なサイズ範囲を提供する。
本発明は、まずMの領域の大きな部分(例えば、10%以上)を占めるカラーの集合Sを検出することにより、モデル画像Mの重要カラーを特定する(500)。その後、所定のサイズのウィンドウ502が、量子化されたサーチ画像I上でパスされる。ウィンドウは、例えば、cをIのより長い時限の長さの10分の1としたとき、c×cのサイズを有するよう構成される。所与の画素位置(x,y)を中心とする各ウィンドウに対し、当該ウィンドウ領域の大きな部分(例えば、10%以上)を占めるカラーの集合S(x、y)を特定する。その後、予想されるオブジェクト位置に対応する画素を1とし、背景領域を0として特定する、以下のようなオブジェクトバイナリマスク画像Pが生成される(504)。
Figure 2004265407
ここで、Tは、例えば、定数0.5に設定される。連結要素解析(R.C.Gonzalez and R.E.Woods,Digital Image Processing,Reading,MA:Addison Wesley,1993,pp.40−43)がPに対し実行され、連続画素領域が検出される。連結要素すべてを含む最小サイズの長方形(閉包矩形)が決定される(524)。これらの長方形は、対象オブジェクトを含みうるサーチ領域の集合Rを構成している。これらの領域のみがアルゴリズムにおける以降のステップにおいて処理対象となる。
図5bにおいて、他の前選別方法が与えられる。局所的空間カラー構成が対象オブジェクトにおける構成と一致するかをチェックするため、マスク画像Pが計算される。まず、量子化オブジェクトモデル画像Mのカラー共起ヒストグラム(CCH)が計算される(510)。図8において、Pの計算処理がさらに詳細に示される。IからT画素離れていない画素ペアをランダムに選ぶことにより(800)、Pが計算される。距離dでの各ペア(p,p)に対し、モデルCCHにおける対応する入力(I(p),I(p),d)がチェックされ、モデル画像CCHの入力数により正規化することにより、出現確率pが計算される(802)。この確率がPの当該2つの画素に加えられる(804)。すなわち、pがP(p)とP(p)に加えられる。この処理が複数回繰り返される(806)(m×nをIのサイズとしたとき、10mn回)。結果として得られる画像Pは、各画素位置における値が対象オブジェクトにおける当該画素の確率を表す確率マップと同種のものである。確率マップは入力画像のランダムサンプリングにより生成されるので、生成される確率マップは実行毎に異なるものとなるかもしれない。そのような変動を最小化するため、ローパスフィルタ(例えば、サイズが21×21の平均フィルタ)がPに適用される(514)。その後、閾値(例えば、0.1の固定閾値)を上回る値を有する画素は1として、他の画素は0としてマークされるようPが閾値処理される。その後、連結要素解析が実行され(522)、最小サイズの閉包矩形が検出され(524)、サーチ領域の集合Rが生成される。
図9において、モデル画像として米国旗による前選別処理の例が示される。ここで図9(a)の画像がサーチ画像である。図9(b)では、カラー量子化ステップ202の結果が示され、図9(c)では、重要カラー前選別ステップ514の結果が示され、図9(d)では、他の前選別処理516の結果が示されている。
図4を参照するに、前選別ステップ400においてサーチ領域候補の集合Rが決定された後、各サーチ領域に対し可能なウィンドウサイズのリストが生成される(402)。各サーチ領域R∈Rに対し、そのアスペクト比を保持する一方、R内でフィットするモデルMの最大スケーリングが決定される。この最大スケーリング係数γは以下のように計算される。
Figure 2004265407
ここで、m×nはRのサイズであり、m×nはMのサイズである。従って、R内の最大予想オブジェクトのサイズは、γ×γとなる。m×nは、サーチ画像Iにおいてオブジェクトが有すると予想される最小サイズであると仮定する。1.0とγとの間の複数のスケーリング係数を、例えば、
Figure 2004265407
(αは定数)のように選ぶことにより、可能なサーチウィンドウサイズのリスト{γ,γ,γ,…,γ}が生成される(402)。ここで、本発明の明らかな変形として、スケーリング係数の選択に異なる方法を用いるというものがある。
各スケーリング係数γに対し、サーチ領域候補R内の予想されるオブジェクト位置のリストが生成される(404)。この処理は、例えば、サーチ領域候補の境界内において、あるグリッドにより量子化されたγ×γのサイズを有するウィンドウがフィットしうる一意的なすべての可能な位置をリストすることにより行われる。すなわち、スケーリング係数γでのR内のサーチウィンドウの左上端に対応する座標の集合は、
Figure 2004265407
となる。ここで、ΔxとΔyは一定であり(例えば、10画素分、または画像サイズのある割合)、Zは非負整数の集合である。
再び図2aを参照するに、サーチウィンドウ生成ステップ204からのサーチウィンドウのサイズは、モデル画像と同じサイズを有するサーチウィンドウの縮尺されたコピーを生成することにより正規化される(205)。この正規化ステップは、例えば、周知の双線形補間(bi−linear interpolation)などのサブサンプリングアルゴリズムにより実現される。次に、各サブサンプリングサーチウィンドウに対し、空間カラー連結確率関数(SCJPF)とエッジSCJPFが計算される(206)。本発明の好適な実施例では、エッジSCJPFにはカラーエッジ共起ヒストグラム(CECH)が利用され、SCJPFにはカラーヒストグラム(CH)が利用される。好適な実施例では、CECHとCHGはまた、オブジェクトモデル特徴抽出ステップ212におけるオブジェクト画像に対しても計算される。
次のステップ214では、各サーチウィンドウのSCJPFとエッジSCJPFとモデル画像のSCJPFとエッジSCJPFとの類似度が評価される。図6は、この評価を実行する好適なテクニックを示す。簡単化のため、任意の画像領域IとモデルMとの類似度が評価されると仮定する。まず、IのCECHの平均区分高さ計算され、それを当該各区分から減じる。MのCECHの平均がまた計算され、それを当該各区分から減じる。結果として得られる正規化されたCECHは、それぞれCとCと呼ばれる。本好適なテクニックでは、最小二乗線形回帰(G.Box,W.Hunter and J.Hunterらによる「Statistics for Experiments」New York,John Wiley&Sons,1978,pp.453−462)を利用して、以下の値ccとb
Figure 2004265407
Figure 2004265407
を計算することにより、CとCとの関係の量子化が行われる(602)。
とCとの間の適合度が高いほど、相関係数ccは大きくなる(1.0に近づく)。ccが1.0に近くなるということは、各CECHにおけるヒストグラムの区分の高さが部分的に類似しているということを示すものであり、bの値が1.0に近いということは、Iのサイズが対象オブジェクトのサイズに近いということを示すものである。類似度Dは、これら2つの基準の組み合わせとして以下のように計算される。
Figure 2004265407
ここで、kは、0から1.0の間の定数である(例えば、k=0.9)。
カラーヒストグラムMとIとの類似度がまた計算される(604)。これには、MとIが同一のカラー構成を含んでいるかのチェックが必要とされる。MとIのカラーヒストグラムをそれぞれCHとCHと呼ぶことにする。本発明の好適な実施例では、カラーベース距離Dが以下のように計算される(604)。
Figure 2004265407
Figure 2004265407
Figure 2004265407
ここで、kは、0から1.0の間の定数である(例えば、k=0.9)。その後、MとIとの間の全体的な類似評価スコアが、以下の等式に従い計算される(606)。
Figure 2004265407
ここで、kは、0から1.0の間の定数である(例えば、k=0.5)。
モデル画像と各サーチウィンドウとの類似度を評価するステップ214を実行するため、図6の処理が各サーチウィンドウに対し実行される。すなわち、サーチウィンドウ生成ステップ204において特定されたすべてのサーチウィンドウIに対しD(M,I)が計算される。
モデル画像と各サーチウィンドウとの類似度が評価されると(214)、対象オブジェクトを含むものとして指定するため、類似度評価スコアがチェックされる(216)。サーチウィンドウの指定における部分ステップが、図7において示される。類似度スコアがチェックされ、サーチウィンドウサイズとサーチ領域の各組み合わせに対し、最も高い類似度スコアを有するサーチウィンドウが特定される(702)。各サーチ領域Rに対するベストなサーチウィンドウは、ステップ702の各サイズにおいて特定された最も高いスコアの中で、最も高い類似度スコアを有するサーチウィンドウを選ぶことにより特定される(704)。その後、すべてのサイズの中から選択されたサーチウィンドウの当該スコアが、所定のスコア閾値と比較され、当該スコアがこの閾値を上回れば、対象オブジェクトを含むものとして指定される。当該閾値は、定数(例えば、0.6)であってもよいし、モデル及び/またはサーチ画像の特性分析により決定された値であってもよい。
ここで、本アルゴリズムを利用して、一度に複数の複合カラーオブジェクトを効率的に検索することができる。CCHが計算されると、類似度Dは高速計算が可能である。従って、画像を検索し、単に複数のモデルを比較することにより一度に複数のオブジェクトを検出することができる。
モデルMが循環的である場合、CECHの内部的回転不変性により、回転不変検索が自動的に実行される。同様に、Mが1.0に近いアスペクト比を有する正方形または長方形である場合、実質的に回転不変が達成された。他のケースでは、サーチウィンドウ生成ステップ204はまた、異なる向きのサーチウィンドウを生成しなければならない。多くのケースにおいて、CCHの許容度の高さから、対象オブジェクトが他の向き(非直交)で並んでいても、モデルの向きは2つ(水平方向と垂直方向)だけ考慮されればよい。
本発明の他の実施例のブロック図が、図2bにおいて示される。本実施例では、オブジェクトモデル画像特徴抽出ステップ212は、オブジェクトモデル画像のSCJPF(例えば、CCH)の計算から構成され、サーチウィンドウ特徴抽出ステップ206は、サーチウィンドウ生成ステップ204において特定された各サーチウィンドウのSCJPFの計算から構成される。特徴比較ステップ214は、各サーチウィンドウとオブジェクトモデル画像のSCJPF間の類似度を評価することから構成される。
本発明の第3実施例のブロック図が、図2cに示される。本実施例では、オブジェクトモデル画像特徴抽出ステップ212が、オブジェクトモデル画像のエッジSCJPF(例えば、CECH)の計算から構成され、サーチウィンドウ特徴抽出ステップ206が、サーチウィンドウ生成ステップ204において特定された各サーチウィンドウのエッジSCJPFの計算から構成される。特徴比較ステップ214は、各サーチウィンドウとオブジェクトモデル画像のエッジSCJPF間の類似度を評価することから構成される。
本発明を実現するコンピュータプログラムにおいて必要となる計算を効率的に実行するために利用されるいくつかのテクニックがある。まず、ある領域のCECHは、そのサブ領域のCECHの区分ごとの和に等しくなるという意味で、CECHは加法性を満たしている。すなわち、画像Iにおける3つの画像領域A、B及びCに対して、
Figure 2004265407
が成り立つ。
典型的には、サーチウィンドウ生成ステップ204により特定されるサーチウィンドウの多くは、互いに重複している。本発明の好適な実施例では、サーチウィンドウCECH計算ステップ206は、サーチウィンドウに対し計算されるCECHの記録を保持している。サーチウィンドウSのCECHの計算が必要となるとき、CECH計算ステップ206はまず、同一サイズの重複したサーチウィンドウのCECHが計算済みかどうか確認する。まだ計算されていなければ、SのCECHは通常通り計算される。しかしながら、重複サーチウィンドウSのCECHが計算済みである場合、図11に示されるように、SのCECHが、Sと重複していないSの部分(図11における領域R)のCECHを計算し、それをSのCECHから差し引き、その結果をSと重複していないSの部分のCECHに加えることにより計算が行われる。すなわち、
Figure 2004265407
本発明の主題は、認識対象のデジタル画像をデジタル処理して、人間に理解可能なオブジェクト、属性または状態に有益な意味を割り当て、さらなる画像処理において得られる結果を利用するデジタル画像認識技術に関するものである。
図1は、本発明を実現するためのコンピュータシステムを示す図である。 図2aは、本発明による画像中のオブジェクトを検出する好適なテクニックのブロック図である。 図2bは、本発明による画像中のオブジェクトを検出する他のテクニックのブロック図である。 図2cは、本発明による画像中のオブジェクトを検出する他のテクニックのブロック図である。 図3は、図2a、2b及び2cに示されるカラー量子化を実行するための方法の詳細なフローチャートである。 図4は、図2a、2b及び2cに示されるサーチウィンドウの生成を実行するための方法の詳細なフローチャートである。 図5aは、図4に示される前選別ステップを実行するための方法の詳細なフローチャートである。 図5bは、図4に示される前選別ステップを実行するための他の方法の詳細なフローチャートである。 図6は、図2a、2b及び2cに示される類似度評価ステップを実行するための方法の詳細なフローチャートである。 図7は、図2a、2b及び2cに示されるサーチウィンドウ指定ステップの詳細なフローチャートである。 図8は、図5に示される確率マップ生成ステップの詳細なフローチャートである。 図9は、図4に示されるオブジェクト前選別ステップのサンプル結果である。 図10は、オブジェクト検出アルゴリズムのサンプル結果である。 図11は、図2a、2b及び2cに示される特徴抽出ステップを実現する効率的方法を示す図である。
符号の説明
110 コンピュータシステム
112 マイクロプロセッサベースユニット
114 ディスプレイ
116 キーボード
118 マウス
120 ディスプレイ上のセレクタ
122 ディスクドライブユニット
124 CD−ROM
126 フロッピー(登録商標)ディスク
127 ネットワーク接続
128 プリンタ
130 PCカード
132 PCカードリーダ
134 デジタルカメラ
136 カメラドッキングポート
138 ケーブル接続
140 無線接続
200 カラーサーチ画像

Claims (3)

  1. デジタル画像中のカラーオブジェクトの検出方法であって:
    前記カラーオブジェクトを潜在的に含むサーチ画像を取得するステップ;
    前記カラーオブジェクトのモデルを含むモデル画像を取得するステップ;
    前記モデル画像に対し空間カラー結合確率関数(SCJPF)を計算するステップ;
    前記オブジェクトモデル画像に与えられる最小の所定のカラー数を有する前記サーチ画像の領域内にある部分から構成される複数のサーチウィンドウを生成するステップ;
    各サーチウィンドウに対しSCJPFを計算するステップ;
    前記モデル画像のSCJPFと前記複数のサーチウィンドウのSCJPFの各々との類似度を評価するステップ;及び
    所定のサーチ閾値を上回る前記モデル画像SCJPFとある類似度を有するサーチウィンドウSCJPFに関するサーチウィンドウを、検出対象オブジェクトを潜在的に含むものとして指定するステップ;
    からなり、前記モデル画像SCJPFは前記モデル画像におけるカラー間の空間関係と同時にカラー分布でもあり、前記サーチウィンドウSCJPFは前記サーチウィンドウのカラー間の空間関係と同時にカラー分布でもあることを特徴とする方法。
  2. 請求項1記載の検出方法であって、さらに:
    前記モデル画像と前記サーチ画像の両方に対しカラー量子化処理を実行するステップ;
    を有し、前記2つの画像における一意的なカラー数は所定の知覚的に関連したカラー名の集合に限定されることを特徴とする方法。
  3. 請求項2記載の検出方法であって、前記カラー量子化ステップは、さらに:
    前記モデル画像と前記サーチ画像における各画素値を適切なカラー空間に変換するステップ;
    各画素に前記カラー空間内の前記画素のカラー値の所在に基づきカラー名を割り当てるステップ;及び
    各画素に該画素に割り当てられたカラー名に基づき量子化されたカラー値を割り当てるステップ;
    を有することを特徴とする方法。
JP2004048340A 2003-02-28 2004-02-24 デジタル画像におけるカラーオブジェクトの検出方法 Pending JP2004265407A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/377,362 US7263220B2 (en) 2003-02-28 2003-02-28 Method for detecting color objects in digital images

Publications (1)

Publication Number Publication Date
JP2004265407A true JP2004265407A (ja) 2004-09-24

Family

ID=32771526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004048340A Pending JP2004265407A (ja) 2003-02-28 2004-02-24 デジタル画像におけるカラーオブジェクトの検出方法

Country Status (4)

Country Link
US (1) US7263220B2 (ja)
EP (1) EP1452995B1 (ja)
JP (1) JP2004265407A (ja)
DE (1) DE602004008984T2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044438A (ja) * 2008-08-08 2010-02-25 Toshiba Corp 特徴抽出装置、特徴抽出方法、画像処理装置、及び、プログラム
JP2010182295A (ja) * 2008-12-31 2010-08-19 Intel Corp グローバルな類似性に基づく分類法を用いた物体認識
WO2011033657A1 (ja) * 2009-09-18 2011-03-24 株式会社東芝 特徴抽出装置
RU2727462C1 (ru) * 2016-12-28 2020-07-21 Омрон Хэлткэа Ко., Лтд. Оконечное устройство
JP2020526759A (ja) * 2017-07-11 2020-08-31 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレーテッドSiemens Healthcare Diagnostics Inc. 複数の候補を用いた画像ベースの管頭部円検出

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6981876B2 (en) * 2002-03-01 2006-01-03 Accelerized Golf, Llc Ergonomic motion and athletic activity monitoring and training system and method
US7426296B2 (en) * 2004-03-18 2008-09-16 Sony Corporation Human skin tone detection in YCbCr space
US20050276454A1 (en) * 2004-06-14 2005-12-15 Rodney Beatson System and methods for transforming biometric image data to a consistent angle of inclination
US7119838B2 (en) * 2004-08-19 2006-10-10 Blue Marlin Llc Method and imager for detecting the location of objects
US7848567B2 (en) * 2004-09-23 2010-12-07 Fuji Xerox Co., Ltd. Determining regions of interest in synthetic images
US7724959B2 (en) * 2004-09-23 2010-05-25 Fuji Xerox Co., Ltd. Determining regions of interest in photographs and images
JP4677753B2 (ja) * 2004-10-01 2011-04-27 株式会社ニコン 動画像処理装置及び方法
GB2431797B (en) * 2005-10-31 2011-02-23 Sony Uk Ltd Image processing
US7904455B2 (en) * 2005-11-03 2011-03-08 Fuji Xerox Co., Ltd. Cascading cluster collages: visualization of image search results on small displays
JP2007206920A (ja) * 2006-02-01 2007-08-16 Sony Corp 画像処理装置および方法、検索装置および方法、プログラム、並びに記録媒体
TWI386032B (zh) * 2006-04-20 2013-02-11 Realtek Semiconductor Corp 型樣偵測方法與相關的影像處理裝置
TWI323435B (en) * 2006-05-10 2010-04-11 Realtek Semiconductor Corp Pattern detecting method and apparatus thereof
TWI342154B (en) * 2006-05-17 2011-05-11 Realtek Semiconductor Corp Method and related apparatus for determining image characteristics
KR101180160B1 (ko) 2006-05-22 2012-09-10 엑시스 에이비 비디오 감시 카메라에 의해 검출되는 물체의 특성을 식별하는 방법 및 장치
US20080089591A1 (en) * 2006-10-11 2008-04-17 Hui Zhou Method And Apparatus For Automatic Image Categorization
US8473525B2 (en) * 2006-12-29 2013-06-25 Apple Inc. Metadata generation for image files
TWI348657B (en) * 2007-03-07 2011-09-11 Himax Tech Ltd Determination method of edge direction
US7840037B2 (en) * 2007-03-09 2010-11-23 Seiko Epson Corporation Adaptive scanning for performance enhancement in image detection systems
CN101324920B (zh) * 2007-06-15 2011-06-15 上海银晨智能识别科技有限公司 搜索人脸显著特征点的方法及人脸比对方法
US7869664B2 (en) * 2007-06-21 2011-01-11 F. Hoffmann-La Roche Ag Systems and methods for alignment of objects in images
EP2036045A1 (en) * 2007-07-11 2009-03-18 Cairos technologies AG Video tracking method and appartus arrangement for performing the method
KR101552188B1 (ko) * 2007-09-07 2015-09-10 삼성전자 주식회사 콤포넌트 모델 및 아키텍쳐 설계를 위한 내제된 가변성규칙을 제공하는 방법 및 장치
US20090185742A1 (en) * 2008-01-17 2009-07-23 Faraday Technology Corp. Method for image compensation
JP2009199232A (ja) * 2008-02-20 2009-09-03 Seiko Epson Corp 画像処理装置
US8265339B2 (en) * 2008-04-25 2012-09-11 Panasonic Corporation Image processing device, image processing method, and integrated circuit for processing images
JP4791598B2 (ja) 2008-09-17 2011-10-12 富士通株式会社 画像処理装置および画像処理方法
US8004576B2 (en) 2008-10-31 2011-08-23 Digimarc Corporation Histogram methods and systems for object recognition
US8214742B2 (en) * 2008-12-23 2012-07-03 International Business Machines Corporation Method of rapidly creating visual aids for presentation without technical knowledge
KR101242659B1 (ko) * 2009-03-19 2013-03-19 한국전자통신연구원 영상 검색 방법
US20130121565A1 (en) * 2009-05-28 2013-05-16 Jue Wang Method and Apparatus for Local Region Selection
CN101599122B (zh) * 2009-07-02 2013-06-19 阿里巴巴集团控股有限公司 一种图像识别方法及装置
US8218823B2 (en) * 2009-08-11 2012-07-10 Eastman Kodak Company Determining main objects using range information
JP5417185B2 (ja) * 2010-01-07 2014-02-12 1stホールディングス株式会社 オブジェクト処理装置およびオブジェクト選択方法
US8693743B1 (en) 2010-02-19 2014-04-08 Olive Tree Media, LLC Analysis and display of multiple biomarker co-expression in cells and tissues
TWI503758B (zh) * 2010-03-10 2015-10-11 Alibaba Group Holding Ltd Image recognition method and apparatus
US8358830B2 (en) * 2010-03-26 2013-01-22 The Boeing Company Method for detecting optical defects in transparencies
US8300938B2 (en) * 2010-04-09 2012-10-30 General Electric Company Methods for segmenting objects in images
KR101247136B1 (ko) * 2011-11-03 2013-04-01 한양대학교 산학협력단 로봇의 물체 인식 방법
JP5959923B2 (ja) * 2012-04-26 2016-08-02 キヤノン株式会社 検出装置、その制御方法、および制御プログラム、並びに撮像装置および表示装置
US9256927B2 (en) * 2012-07-06 2016-02-09 Yissum Research Development Companyof The Hebrew University of Jerusalem Ltd. Method and apparatus for enhancing a digital photographic image
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
EP2713307B1 (en) 2012-09-28 2018-05-16 Accenture Global Services Limited Liveness detection
US8995772B2 (en) * 2012-11-09 2015-03-31 Microsoft Technology Licensing, Llc Real-time face detection using pixel pairs
CN103136766B (zh) * 2012-12-28 2015-10-14 上海交通大学 一种基于颜色对比和颜色分布的物体显著性检测方法
US20140368642A1 (en) * 2013-06-17 2014-12-18 General Electric Company Lighting audit docking station device and method thereof
US9665606B2 (en) * 2014-02-14 2017-05-30 Nant Holdings Ip, Llc Edge-based recognition, systems and methods
CN104123720B (zh) * 2014-06-24 2017-07-04 小米科技有限责任公司 图像重定位方法、装置及终端
US9665925B2 (en) 2014-06-24 2017-05-30 Xiaomi Inc. Method and terminal device for retargeting images
DE102014019157B4 (de) * 2014-12-19 2020-02-13 Audi Ag Verfahren und Einstellen von fahrdynamischen Eigenschaften eines Fahrzeugs und Fahrzeug zum Durchführen eines entsprechenden Verfahrens
CN108431824B (zh) * 2015-12-23 2022-04-29 快图有限公司 图像处理系统
US10460198B2 (en) 2015-12-23 2019-10-29 Fotonation Limited Image processing system
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10553015B2 (en) * 2017-03-31 2020-02-04 Google Llc Implicit view-dependent quantization
CN107918767B (zh) * 2017-11-27 2019-11-08 北京旷视科技有限公司 目标检测方法、装置、电子设备及计算机可读介质
CN110110734B (zh) * 2018-02-01 2023-04-07 富士通株式会社 开集识别方法、信息处理设备以及存储介质
US10986617B2 (en) * 2018-08-07 2021-04-20 FG Innovation Company Limited Method and apparatus for activating PUCCH spatial relation
US10726246B1 (en) 2019-06-24 2020-07-28 Accenture Global Solutions Limited Automated vending machine with customer and identification authentication
USD963407S1 (en) 2019-06-24 2022-09-13 Accenture Global Solutions Limited Beverage dispensing machine
EP3869395A1 (en) 2020-02-21 2021-08-25 Accenture Global Solutions Limited Identity and liveness verification
CN114401365B (zh) * 2021-12-31 2024-05-14 广东省教育研究院 目标人物识别方法、视频切换方法及装置
DE102022112291A1 (de) 2022-05-17 2023-11-23 Bayerische Motoren Werke Aktiengesellschaft Fahrassistenzsystem und Fahrassistenzverfahren für ein Fahrzeug

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6430312B1 (en) * 1997-12-29 2002-08-06 Cornell Research Foundation, Inc. Image subregion querying using color correlograms
GB2349460B (en) * 1999-04-29 2002-11-27 Mitsubishi Electric Inf Tech Method of representing colour images
US6477272B1 (en) 1999-06-18 2002-11-05 Microsoft Corporation Object recognition with co-occurrence histograms and false alarm probability analysis for choosing optimal object recognition process parameters
US6584221B1 (en) * 1999-08-30 2003-06-24 Mitsubishi Electric Research Laboratories, Inc. Method for image retrieval with multiple regions of interest
US6611622B1 (en) * 1999-11-23 2003-08-26 Microsoft Corporation Object recognition system and process for identifying people and objects in an image of a scene
US7039229B2 (en) * 2000-08-14 2006-05-02 National Instruments Corporation Locating regions in a target image using color match, luminance pattern match and hill-climbing techniques
US7062084B2 (en) * 2000-12-01 2006-06-13 Sharp Laboratories Of America, Inc. Method for image description using color and local spatial information
US7065521B2 (en) * 2003-03-07 2006-06-20 Motorola, Inc. Method for fuzzy logic rule based multimedia information retrival with text and perceptual features

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044438A (ja) * 2008-08-08 2010-02-25 Toshiba Corp 特徴抽出装置、特徴抽出方法、画像処理装置、及び、プログラム
JP2010182295A (ja) * 2008-12-31 2010-08-19 Intel Corp グローバルな類似性に基づく分類法を用いた物体認識
WO2011033657A1 (ja) * 2009-09-18 2011-03-24 株式会社東芝 特徴抽出装置
JP5337252B2 (ja) * 2009-09-18 2013-11-06 株式会社東芝 特徴抽出装置
US9008434B2 (en) 2009-09-18 2015-04-14 Kabushiki Kaisha Toshiba Feature extraction device
RU2727462C1 (ru) * 2016-12-28 2020-07-21 Омрон Хэлткэа Ко., Лтд. Оконечное устройство
JP2020526759A (ja) * 2017-07-11 2020-08-31 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレーテッドSiemens Healthcare Diagnostics Inc. 複数の候補を用いた画像ベースの管頭部円検出
JP7087058B2 (ja) 2017-07-11 2022-06-20 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレーテッド 複数の候補を用いた画像ベースの管頭部円検出

Also Published As

Publication number Publication date
EP1452995B1 (en) 2007-09-19
DE602004008984D1 (de) 2007-10-31
US7263220B2 (en) 2007-08-28
DE602004008984T2 (de) 2008-06-19
EP1452995A3 (en) 2005-12-14
EP1452995A2 (en) 2004-09-01
US20040170318A1 (en) 2004-09-02

Similar Documents

Publication Publication Date Title
JP2004265407A (ja) デジタル画像におけるカラーオブジェクトの検出方法
US11983944B2 (en) Object detection and image cropping using a multi-detector approach
Luo et al. Color object detection using spatial-color joint probability functions
US7039239B2 (en) Method for image region classification using unsupervised and supervised learning
Lin et al. Shape-based human detection and segmentation via hierarchical part-template matching
JP5050075B2 (ja) 画像判別方法
Adam et al. Robust fragments-based tracking using the integral histogram
US7194134B2 (en) Hierarchical, probabilistic, localized, semantic image classifier
Yi et al. Text detection in natural scene images by stroke gabor words
US8537409B2 (en) Image summarization by a learning approach
JP5202148B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
US7689011B2 (en) Extracting features from face regions and auxiliary identification regions of images for person recognition and other applications
US20070041638A1 (en) Systems and methods for real-time object recognition
US20230099984A1 (en) System and Method for Multimedia Analytic Processing and Display
Wei et al. Face detection for image annotation
Aldasouqi et al. Human face detection system using HSV
Crandall et al. Robust color object detection using spatial-color joint probability functions
Marqués et al. Face segmentation and tracking based on connected operators and partition projection
Keren Recognizing image “style” and activities in video using local features and naive bayes
Fang et al. 1-D barcode localization in complex background
Wang Integrated content-aware image retargeting system
Nazarbakhsh et al. Image pre-processing techniques for enhancing the performance of real-time face recognition system using PCA
Raducanu et al. Face localization based on the morphological multiscale fingerprints
Chen et al. UAV-based distributed ATR under realistic simulated environmental effects
van Vroonhoven et al. Text Spotting In Unconstrained Environments