JP5555221B2 - 着目物の適応的な色モデル・パラメータ推定に係る方法および装置 - Google Patents

着目物の適応的な色モデル・パラメータ推定に係る方法および装置 Download PDF

Info

Publication number
JP5555221B2
JP5555221B2 JP2011500748A JP2011500748A JP5555221B2 JP 5555221 B2 JP5555221 B2 JP 5555221B2 JP 2011500748 A JP2011500748 A JP 2011500748A JP 2011500748 A JP2011500748 A JP 2011500748A JP 5555221 B2 JP5555221 B2 JP 5555221B2
Authority
JP
Japan
Prior art keywords
pixels
estimated
color
model
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011500748A
Other languages
English (en)
Other versions
JP2011517526A (ja
Inventor
ヂェン リ
シャオアン ル
ゴミラ クリスティーナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2011517526A publication Critical patent/JP2011517526A/ja
Application granted granted Critical
Publication of JP5555221B2 publication Critical patent/JP5555221B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/24Systems for the transmission of television signals using pulse code modulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N11/00Colour television systems
    • H04N11/04Colour television systems using pulse code modulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30088Skin; Dermal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Color Television Systems (AREA)
  • Processing Of Color Television Signals (AREA)
  • Color Image Communication Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明の原理は、一般に、ビデオ・エンコーディングに関し、特に、着目物(feature of interest)の適応的な色モデル・パラメータ推定に係る方法および装置に関する。
人間の肌色の画素の色成分は、色空間の或る領域に限定される傾向があり、本明細書において肌色モデルと称する特定の統計的モデルにより近似することができる。堅牢で正確なこの肌色モデルは、ハンド・トラッキング、顔認識、画像およびビデオ・データのインデキシングおよび取り出し、画像およびビデオの圧縮、等のような、肌の検出および肌の分類が必要となるアプリケーションに対して不可欠である。画像およびビデオの圧縮アルゴリズムの場合、肌色の画素を最初に検出し、次に、高い符号化優先度レベルを割り当てて、より高い視覚品質を達成することができる。ハンド・トラッキングまたは顔認識の場合、肌色の画素が最初に検出され、さらなる改良検出および認識のための候補となりうる。
係る統計的な肌色モデルを用いる典型的なアプリケーションでは、肌色モデルのモデル・パラメータが時間的、空間的に不変であることを前提としていることが多い。この前提は、様々な理由のため実際のアプリケーションでは成り立たない。例えば、種々の画像およびビデオにおいては、対象の肌の多様性がとても高いことがあり、または、画像およびビデオの取得状況の多様性がとても高いことがある。係る例の1つは、画像またはビデオを捕捉する場合に、照明条件が異なる場合である。肌色モデル・パラメータにおける係る不整合は、非常に不正確なまたは誤った検出結果の原因となり、肌色の画素が肌色ではない画素として分類され、肌色ではない画素が肌色の画素として分類されるおそれがある。
人の肌色の色成分を、色空間内における特定の統計分布でモデル化することができる。多数の色空間をモデリングに用いることができるが、色空間の選択により、モデルの精度に及ぼす影響を限定することが分かっている。例示のため、以下の議論はYUVの色空間に関する。典型的な肌色モデルでは、人の肌色の成分を二次元の正規分布と見なし、その分布を次のように色成分UおよびVの平均および共分散行列により定義することができる。
Figure 0005555221
Figure 0005555221
色成分付きの画素(X=u,v)が肌色である確率は次式で表される。
Figure 0005555221
ここで、d(x)はマハラノビス距離と呼ばれ、次式で表すことができる。
Figure 0005555221
肌モデルのパラメータμとΣは、一般に、肌データベースでのトレーニング後に推定される。次のパラメータは、上記の式1に対応し、ビデオ会議アプリケーションにおいて広く用いられている。
Figure 0005555221
典型的なアプリケーションでは、モデル・パラメータμとΣが決まると、それらはすべての画像またはビデオに用いられる。しかし、真の肌色モデルのパラメータが動的に変化して静的パラメータと異なる場合は、係る静的パラメータは不整合となる可能性がある。係る不整合は、非常に不正確な、または誤った検出結果の原因となり、肌色の画素が肌色でない画素として分類され、肌色でない画素が肌色の画素として分類されるおそれがある。
結果的に、動的に変化するモデル・パラメータを有する画像およびビデオに適合する適応的な肌色モデル・パラメータの推定を提供するアプローチが強く求められる。より正確な肌色モデル・パラメータにより検出結果を大幅に改良することができ、したがって、係るモデルが用らいれるアプリケーションの性能を大幅に改良することができる。
図1を参照すると、従来技術による例示的な肌の検出方法が一般的に参照番号100で示されている。
方法100は、ループ・リミット・ブロック110に制御を渡す開始ブロック105を備える。ループ・リミット・ブロック110は、iが1から画像中の画素数までの値を有するとして、変数iを用いて画像中の各画素に対してループするループを開始し、機能ブロック115に制御を渡す。ループに関して画像を用いたが、本発明の原理の精神を保ちつつ、例えば画像領域のような他の単位を本発明の原理に従って用いてもよいことは理解されよう。
機能ブロック115は、肌色の確率pを肌色モデルで計算し、決定ブロック120に制御を渡す。決定ブロック120は、pが閾値より大きいかどうかを判定する。pが閾値より大きければ、次に制御は機能ブロック125に渡される。pが閾値以下であれば、制御は機能ブロック150に渡される。
機能ブロック125は、評価されている現画素を肌色の画素の候補として指定して、決定ブロック130に制御を渡す。決定ブロック130は、(現画素が実際に肌色の画素であるかどうかの判定に関する)追加の基準が在るかどうかを判定する。追加の基準が在る場合、制御は機能ブロック135に渡される。追加の基準がない場合、制御は機能ブロック155に渡される。
機能ブロック135は、上記の追加の基準をチェックして、決定ブロック140に制御を渡す。決定ブロック140は、現画素が実際に肌色の画素であるかどうかの判定に用いられる追加の基準に現画素が合格するかどうかを判定する。合格の場合は、制御は機能ブロック145に渡される。不合格の場合は、制御は機能ブロック160に渡される。
機能ブロック145は、現画素を肌色の画素として指定し、ループ・リミット・ブロック175に制御を渡す。ループ・リミット・ブロック175は、ループを終了し、終了ブロック199に制御を渡す。
機能ブロック150は、現画素を肌色でない画素として指定し、ループ・リミット・ブロック175に制御を渡す。
機能ブロック155は、現画素を肌色の画素として指定し、ループ・リミット・ブロック175に制御を渡す。
機能ブロック160は、現画素は肌色でない画素として指定し、ループ・リミット・ブロック175に制御を渡す。
方法100は画素ドメインで実行される。画素ごとに、その対応する確率を、式(2)を用いて機能ブロック115により計算する。
従来技術のこれらおよび他の欠点および不都合は本発明の原理によって解決される。本発明の原理は、着目物の適応的な色モデル・パラメータ推定に係る方法および装置に関する。
本発明の原理の一態様によると、色を検出する装置が提供される。この装置は、着目物の色モデル・パラメータ推定器と着目物検出器とを含む。着目物の色モデル・パラメータ推定器は、少なくとも一組の画素を少なくとも1つの画像から抽出するものである。この少なくとも一組の画素は着目物に対応している。この少なくとも一組の画素ごとに、着目物の色モデル・パラメータ推定器は、その少なくとも一組の画素内の画素の色成分を統計的モデルでモデル化し、モデル化した色成分に基づいて着目物の色モデル・パラメータを推定して少なくとも1つの推定した着目物の色モデルを取得する。着目物検出器は、少なくとも1つの推定した着目物の色モデルを用いて少なくとも一組の画素から着目物の画素を検出するものである。
本発明の原理の別の態様によれば、色を検出する方法が提供される。この方法は、少なくとも一組の画素を少なくとも1つの画像から抽出することを含む。その少なくとも一組の画素は着目物に対応している。
少なくとも一組の画素ごとに、この方法は、さらに、少なくとも一組の画素内の画素の色成分を統計的モデルでモデル化すること、モデル化した色成分に基づいて着目物の色モデル・パラメータを推定して少なくとも1つの推定した着目物の色モデルを取得すること、および、少なくとも1つの推定した着目物の色モデルを用いて少なくとも一組の画素から着目物の画素を検出することを含む。
発明の原理のこれらおよび他の態様、特徴および利点は、以下の例示的な実施形態の詳細な説明から明らかになり、この詳細な説明は添付図面と関連させて読むべきである。
本発明の原理は、以下の例示的な図に従ってよりよく理解することができる。
従来技術に従う例示的な肌色検出方法に関するフロー図である。 本発明の原理の実施形態に従う、本発明の原理を適用できるレート制御向けの例示的な装置に関するブロック図である。 本発明の原理の実施形態に従う、本発明の原理を適用できる例示的な予測ビデオ・エンコーダに関するブロック図である。 本発明の原理の実施形態に従う、着目物の適応的な色モデル・パラメータ推定に関する例示的な方法のフロー図である。 本発明の原理の実施形態に従う、適応的な肌色モデル・パラメータ推定に関する例示的な方法のフロー図である。 本発明の原理の実施形態に従う、適応的な肌色モデル・パラメータ推定に関する別の例示的な方法に関するフロー図である。 本発明の原理の実施形態に従う、複数の推定方法を用いた共同型肌色モデル・パラメータ推定に関する例示的な方法のフロー図である。
本発明の原理は、着目物の適応的な色モデル・パラメータ推定に係る方法および装置に関する。
ここでの説明は本発明の原理を例示するものである。したがって、本明細書では明示的に記載または図示してはいないが、当業者が本発明の原理を具現化し、その趣旨および範囲に含まれる様々な構成を考案できることは理解されよう。
本明細書に記載した全ての例と条件付き言語(conditional language)は、当分野を進展させるために発明者(複数可)が寄与した本発明の原理と概念を読者が理解するのを支援する教育的な目的のためであり、係る具体的に記載した例と条件に限定されないとして解釈すべきである。
さらに、本発明の原理の原理、態様、および実施形態、ならびにその具体的な例を述べる本明細書における全ての言及は、それらの構造的均等物および機能的均等物の両方を包含することを意図している。さらに、係る均等物には、現時点で公知な均等物だけでなく将来開発される均等物、すなわち、構造と無関係に同一の機能を実施する開発される任意の要素、の両方が含まれることを意図している。
したがって、例えば、本明細書で提示したブロック図が、本発明の原理を具現化する例示的な回路の概念的な図を表すことは当業者には理解されよう。同様に、任意のフローチャート、フロー図、状態遷移図、擬似コード、等が、実質的にコンピュータ可読媒体において表現でき、コンピュータまたはプロセッサが明示的に図示されているか否かに関わらず、それらによって実質的に実行できる、様々なプロセスを表すことは理解されよう。
図に示した様々な要素の機能を、専用ハードウェア、および適切なソフトウェアと関連してソフトウェアを実行できるハードウェアを用いて提供することができる。機能がプロセッサによって提供される場合、その機能を、単一の専用プロセッサ、単一の共用プロセッサ、または複数の独立プロセッサによって提供することができ、そのうちいくつかは共有されていてもよい。さらに、「プロセッサ」または「制御器」という用語を明示的に用いたことは、ソフトウェアを実行できるハードウェアを専ら指すとは解釈するべきではなく、DSP(digital signal processor)ハードウェア、ソフトウェアを記憶するためのROM(read−only memory)、RAM(random access memory)、および不揮発性記憶装置を暗に含んでもよいが、それに限定しない。
他の従来型および/またはカスタムのハードウェアを備えてもよい。同様に、図に示したいかなるスイッチも単に概念的なものである。これらの機能は、プログラム・ロジックの動作、専用ロジック、プログラム制御および専用ロジックの相互作用を通して、または手動であっても、文脈からより具体的に理解されるように実装者によって選択可能な特定の技術を通して、実行することができる。
特許請求の範囲において、指定された機能を実行する手段として示したいかなる要素も、その機能を実行する任意の方法を包含することを意図している。その方法には、例えば、a)その機能を実行する回路要素の組合せ、または、b)任意の形態のソフトウェア、したがって、ファームウェア、マイクロコード等を含むソフトウェアが含まれ、これらは、上記の機能を実行するための当該ソフトウェアを実行するための適切な回路と結合される。係る特許請求の範囲によって定義される本発明の原理は、様々な記載した手段によって提供される機能が、特許請求の範囲が求めるように組み合わされているという事実に存する。したがって、これらの機能性を提供できる任意の手段が、本明細書に示した手段と等価であると見なされる。
本明細書における本発明の原理の「一実施形態」に対する言及は、その実施形態に関して説明した特定の機能、構造、または特徴等が本発明の原理の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書の種々の箇所で「一実施形態では」という語句が現れるが、これは必ずしも全て同じ実施形態を指すものではない。
「および/または」および「少なくとも1つの」という用語を用いることは、例えば、「Aおよび/またはB」および、「AおよびBのうちの少なくとも1つ」という場合は、最初に列挙した選択肢(A)のみを選択すること、または2番目に列挙した選択肢(B)のみを選択すること、または両選択肢(AおよびB)を選択することを含むことを意図していることは理解されよう。さらなる例として、「A、B、および/またはC」および「A、B、およびCのうちの少なくとも1つ」の場合、係る言い回しは、最初に列挙した選択肢(A)のみを選択すること、または2番目に列挙した選択肢(B)のみを選択すること、または3番目に列挙した選択肢(C)のみを選択すること、または最初および2番目に列挙した選択肢(AおよびB)のみを選択すること、または最初および3番目に列挙した選択肢(AおよびC)のみを選択すること、または2番目および3番目に列挙した選択肢(BおよびC)のみを選択すること、または3つ全ての選択肢(AおよびBおよびC)を選択することを含むことを意図している。これは、当業者には容易に明らかであるように、列挙しただけの数の項目に拡張することができる。
さらに、本発明の原理は、いかなる特定のビデオ・コーディング規格、勧告、および/またはその拡張にも限定されないことも理解されよう。したがって、例えば、本発明の原理を、ISO/IEC(International Organization for Standardization/International Electrotechnical Commission)のMPEG−4(Moving Picture Experts Group−4)Part 10 AVC(Advanced Video Coding)standard/ITU−T(International Telecommunication Union,Telecommunication Sector)H.264勧告(以降「MPEG−4 AVC規格」と称する)、およびSMPTE(Society of Motion Picture and Television Engineers)VC−1(Video Codec−1)Standardとともに用いてもよいが、これらに限定されない。
さらに、本発明の原理の1つまたは複数の実施形態を、主に肌色に関して説明したが、一般に、本発明の原理はモデル化できる特徴(以降、「着目物」と同じ意味で称する)に設定された任意の色の検出に適用できることは理解されよう。したがって、肌色は本発明の原理を適用できる特徴の一例にすぎない。例えば、本発明の原理の他の実施形態を、以下の例示的な特徴、すなわち、草、空、レンガ、様々な種類の建築材料、等に適用することができるが、これらに限定されない。本発明の原理の趣旨を保ちつつ、本発明の原理を適用できるこれらおよび他の特徴は、当業者には容易に想到される。
図2を参照すると、本発明の原理を適用できるレート制御のための例示的な装置が参照番号200で概略的に示されている。装置200は、本発明の原理の様々な実施形態に従って本明細書で説明する着目物(例えば、肌、草、空、等)の色モデル・パラメータ推定を適用するように構成される。
装置200は、着目物の色モデル・パラメータ推定器210、着目物検出器220、レート制御器240、およびビデオ・エンコーダ250を備える。
着目物の色モデル・パラメータ推定器210の出力を、着目物検出器220の入力と信号通信するように接続される。着目物検出器220の出力は、レート制御器240の第1の入力と信号通信するように接続される。レート制御器240の出力は、ビデオ・エンコーダ250の第1の入力と信号通信するように接続される。
着目物の色モデル・パラメータ推定器210の入力とビデオ・エンコーダ250の第2の入力は、入力されたビデオおよび/または画像(複数可)を受信するために、装置200の入力として利用可能である。レート制御器240の第2の入力は、レート条件を受信するために、装置の入力として利用可能である。
ビデオ・エンコーダ250の出力は、ビットストリームを出力するために、装置200の出力として利用可能である。
図3を参照すると、本発明の原理を適用できる例示的な予測ビデオ・エンコーダが、参照番号300として概略的に示されている。例えば、エンコーダ300を、図2におけるエンコーダ250として用いることができる。係る場合には、エンコーダ300は、図2の装置200に対応する(レート制御器240による)レート制御を適用するように構成される。
ビデオ・エンコーダ300は、結合器385の第1の入力と信号通信するための出力を有するフレーム順序バッファ(frame ordering buffer)310を備える。結合器385の出力は、変換器および量子化器325の第1の入力と信号通信するように接続される。変換器および量子化器325の出力は、エントロピ符号化器345の第1の入力と逆変換器および逆量子化器350の入力とに信号通信するように接続される。エントロピ符号化器345の出力は結合器390の第1の入力と信号通信するように接続される。結合器390の出力は出力バッファ335の入力と信号通信するように接続される。出力バッファの第1の出力はエンコーダ制御器305の入力と信号通信するように接続される。
エンコーダ制御器305の出力は、画像タイプ決定モジュール315の入力と、マクロブロック・タイプ(MB−タイプ)決定モジュール320の第1の入力と、変換器および量子化器325の第2の入力と、SPS(Sequence Parameter Set)およびPPS(Picture Parameter Set)挿入器340の入力と、信号通信するように接続される。
画像タイプ決定モジュール315の第1の出力は、フレーム順序バッファ310の第2の入力と信号通信するように接続される。画像タイプ決定モジュール315の第2の出力は、マクロブロック・タイプ決定モジュール320の第2の入力と信号通信するように接続される。
SPS(Sequence Parameter Set)およびPPS(Picture Parameter Set)挿入器340の出力は、結合器390の第3の入力と信号通信するように接続される。
逆量子化器および逆変換器350の出力は結合器327の第1の入力と信号通信するように接続される。結合器327の出力は、イントラ予測モジュール360の入力と、デブロッキング・フィルタ365の入力と信号通信するように接続される。デブロッキング・フィルタ365の出力は参照画像バッファ380の入力と信号通信するように接続される。参照画像バッファ380の出力は、動き推定器375の入力と、動き補償器370の第1の入力と信号通信するように接続される。動き推定器375の第1の出力は動き補償器370の第2の入力と信号通信するように接続される。動き推定器375の第2の出力はエントロピ符号化器345の第2の入力と信号通信するように接続される。
動き補償器370の出力はスイッチ397の第1の入力にと信号通信するように接続される。イントラ予測モジュール360の出力はスイッチ397の第2の入力と信号通信するように接続される。マクロブロック・タイプ決定モジュール320の出力はスイッチ397の第3の入力と信号通信するように接続される。スイッチ397の出力は結合器327の第2の入力と信号通信するように接続される。
フレーム順序バッファ310の入力は、入力画像を受信するために、エンコーダ300の入力として利用可能である。さらに、SEI(Supplemental Enhancement Information)挿入器330の入力は、メタデータを受信するために、エンコーダ300の入力として利用可能である。出力バッファ335の第2の出力は、ビットストリームを出力するために、エンコーダ300の出力として利用可能である。
図4を参照すると、着目物の適応的な色モデル・パラメータ推定に関する例示的な方法が、参照番号400により概略的に示されている。
方法400は、機能ブロック410に制御を渡す開始ブロック405を含む。機能ブロック410は、着目物に対応する少なくとも1つの一組の画素を、少なくとも1つの画像から抽出し、ループ・リミット・ブロック415に制御を渡す。ループ・リミット・ブロック415は、画素の組ごとにループを開始し、機能ブロック420に制御を渡す。機能ブロック420は、(現在の)(処理されている)組の中の画素の色成分を統計的モデルでモデル化し、機能ブロック425に制御を渡す。機能ブロック425は、モデル化した色成分に基づいて着目物の色モデル・パラメータを推定し、少なくとも1つの推定した着目物の色モデルを取得し、機能ブロック430に制御を渡す。機能ブロック430は、少なくとも1つの推定した着目物の色モデルを用いて一組の画素から着目物の画素を検出し、ループ・リミット・ブロック435に制御を渡す。ループ・リミット・ブロックは(現在の組に対する)ループを終了させ、決定ブロック440に制御を渡す。決定ブロック440は、画素の組がまだ存在するか否かを判定する。もし存在すれば、制御は機能ブロック420に戻る。存在しなければ、制御は終了ブロック499に渡される。
上述したように、本発明の原理は、着目物の適応的な色モデル・パラメータ推定に係る方法および装置に関する。上述したように、肌色は、本発明の原理を適用できる1つの例示的な着目物にすぎない。人間の肌の色成分は、一般的には色空間の或る領域に限定され、本明細書では肌色モデルと称する特定の統計的モデルで近似することができる。本発明の原理に従う実施形態では、肌色モデルのパラメータは、種々の画像およびビデオに対して変化しうるという事実を考慮している。
実施形態では、一組の画素の全てに対して、対応する肌色モデル・パラメータが推定される。別のアプリケーションでは、係る一組の画素を別々に定義することができる。例えば、係る一組の画素により、画像のサブセット、全体画像、一組の画像、等を定義することができる。肌色モデル・パラメータ推定方法を一組の画素それぞれに適用できる。種々の肌色モデル・パラメータ推定のアプローチが提示されている。これらの肌色モデル・パラメータ推定のアプローチには、画像およびビデオの肌色モデルの特徴を、より捕捉できるという利点がある。すなわち、本発明の原理による実施形態では、適応的に推定されたパラメータを用いて、より正確かつ堅牢に検出することを提供する。
本発明の原理による実施形態に関して提案する第1の方法は、本明細書において色範囲法(Color Range method)と称するものであり、肌色画素が正規分布としてモデル化され、肌画素が発生しそうな色空間の領域からモデル・パラメータを推定する。本発明の原理による実施形態に関して提案する第2の方法は、本明細書でカラー・クラスタリング法(Color Clustering method)と称するものであり、すべての画素の色成分は混合正規モデルであると見なされる。カラー・クラスタリング法では、正規モデルごとにモデル・パラメータを推定し、次にそれらのうちの1つを肌色モデルとして選択する。本発明の原理による実施形態に関して提案する第3の方法は、推定性能をさらに向上させるために、複数の推定方法による推定結果を組み合わせるものである。
画素は、その対応する確率が所定の閾値より大きければ、肌色画素の候補として分類される。閾値以下であれば、画素は肌色でない画素として分類される。上記のモデリングでは画素の輝度成分を直接に用いてはいないが、画素の輝度成分は、肌の画素の分類においても有用でありうることに留意されたい。一実施形態では、画素の輝度成分を用いて、一組の画素の照明条件を決定することがきる。一実施形態では、照明条件が決まれば、照明補償手段を用いて、画素の色度成分の値を調整することができる。他の情報を考慮したさらに改良された基準を肌色画素の候補に適用して、誤検出(すなわち、肌色でない画素を誤って肌色画素として分類すること)を少なくすることができる。上記の他の情報には、サイズ情報、テクスチャ情報、輝度情報、動き情報、等が含まれるがこれらに限らない。係るアプリケーションの性能は、肌色モデル・パラメータに大きく依存している。真の肌色モデル・パラメータが静的なモデル・パラメータと異なる場合は、検出結果に対してペナルティを招くこととなる。
<色範囲法>
肌色モデルが抽出される一組の画素について、本明細書において提案する色範囲法は、先ず、予め選択した範囲ul≦u≦uhおよびvl≦v≦vhにある色成分を有するすべての画素を収集する。閾値ul、uh、vl、およびvhは、実際のアプリケーションにおいて肌色画素の大部分を含むことができるように選択される。係る閾値を理論的に導き出すか、または実証的にトレーニングすることができる。一実施形態では、係る閾値を、画像データベースまたはビデオ・データベース内の所定割合の肌色画素がこの範囲内に含まれるように選択することができる。この範囲に入る画素数をNとする。N=0の場合、色範囲法は、NULLのモデル・パラメータをリターンし、この一組の画素には肌色画素がないという結果を返す。N>0の場合、色範囲法は、統計的推定方法を用いてこれらのN画素の平均および共分散行列を推定する。一実施形態では、以下の方程式を用いて係る平均および共分散行列を推定することができる。
Figure 0005555221
Figure 0005555221
ここで、i=1,...,Nである(ui,vi)は画素の色成分である。
図5を参照すると、適応可能な肌色モデル・パラメータ推定に関する例示的な方法が、参照番号400として概略的に示されている。方法500は本明細書で説明した色範囲法に対応していることが理解されよう。
方法500は、機能ブロック510に制御を渡す開始ブロックを含む。機能ブロック510は、対象とする画像およびビデオを、複数の一組の画素に分割して、ループ・リミット・ブロック515に制御を渡す。ループ・リミット・ブロック515は、iが1から一組の数までの値を有するものとして変数iを用いて、一組の画素のそれぞれに対してループするループを開始し、機能ブロック520に制御を渡す。機能ブロック520は、予め選択した範囲内の色成分を有する画素を選択し、画素の総数をNとして、決定ブロック525に制御を渡す。決定ブロック525は、Nがゼロより大きいか否かを判定する。ゼロより大きければ、制御は機能ブロック530に渡される。そうでなければ、制御は機能ブロック540に渡される。
機能ブロック530は、N個の選択された画素の平均および共分散行列を推定およびリターンし、ループ・リミット・ブロック535に制御を渡す。
ループ・リミット・ブロック535は、一組の画素のそれぞれに対するループを終了させ、終了ブロック599に制御を渡す。
機能ブロック540は、評価対象である現在の一組の画素において肌の画素がないことを指定し、NULLのモデル・パラメータをリターンし、ループ・リミット・ブロック535に制御を渡す。
<カラー・クラスタリング法>
カラー・クラスタリング法は、一組の画素における肌色画素の色成分を正規分布としてモデル化する。カラー・クラスタリング法はまた、一組の画素における肌色でない画素の色成分を正規分布の混合としてモデル化する。したがって、この一組の画素における色成分はM個の正規分布の混合である。カラー・クラスタリング法は先ず、この一組の画素内の画素ごとに色成分値を収集し、次に、統計的推定方法を用いて正規分布ごとに平均および共分散行列を計算する。Mの値は統計的推定方法を用いて推定することができ、または、実証的検討により予め選択することができる。具体的な実施形態として、Mが予め選択され、Nが当該一組における画素の全数を表すと仮定して、係る平均のおよび共分散行列を、以下のEM(Expectation−Maximization)アルゴリズムを用いて推定することができる。
1. 各分布を、任意の組のパラメータ
Figure 0005555221
で初期化する。
2. i=1,...,Mについて当該パラメータを、
Figure 0005555221
Figure 0005555221
Figure 0005555221
Figure 0005555221
で更新する。
ここで、添字tはt回の更新の後のインデックスであり、p(i|(uj,vj))は、画素の画素値(uj,vj)を所与として画素が混合正規分布中のi番目の分布に属する確率であり、πiは画素が混合正規分布中のi番目の分布に属する割合である。
3. パラメータが収束するまでステップ2を継続してパラメータを更新するか、または、Kが予め選択されているとして、推定されたパラメータがK回の繰り返し後に収束しない場合に終了する。
各モデルのパラメータを推定した後、特定の条件に基づいて、モデルうちの1つがこの一組の画素に対する肌色モデルとして選択される。一実施形態では、係る条件は、VとUの推定平均間の最大差、すなわち、
Figure 0005555221
の最大値を用いてモデルを選択する条件であることができる。勿論、本発明の原理の趣旨を保ちつつ、本発明の原理は、前述の選択基準のみに限定されず、したがって、他の選択基準を用いて特定のモデルを選択してもよい。
図6を参照すると、適応可能な肌色モデル・パラメータ推定に関する他の例示的な方法が、参照番号600として概略的に示されている。方法600は本明細書において説明したカラー・クラスタリング法に対応していることは理解されよう。
方法600は機能ブロック610に制御を渡す開始ブロックを含む。機能ブロック610は、対象とする画像およびビデオを複数の一組の画素に分割して、ループ・リミット・ブロック615に制御を渡す。ループ・リミット・ブロック615は、iが1から一組の数までの値を有するものとして、変数iを用いて一組の画素それぞれに対してループするループを開始し、機能ブロック620に制御を渡す。機能ブロック620は混合正規分布中の正規分布の番号(M)を選択し、機能ブロック625に制御を渡す。機能ブロック625は、混合正規分布中のM番目の正規分布の平均および共分散行列を推定し、機能ブロック630に制御を渡す。機能ブロック630は、所定の条件(複数可)に基づいてモデルのうちの1つを肌色モデルとして選択し、機能ブロック635に制御を渡す。機能ブロック635は、選択されたモデルの推定された平均および共分散行列を返し、ループ・リミット・ブロック640に制御を渡す。ループ・リミット・ブロック640は、一組の画素のそれぞれに対するループを終了させ、終了ブロック699に制御を渡す。
<複数の推定方法による共同型推定>
一実施形態では、複数の肌色モデル・パラメータ推定方法の結果を組み合わせる方法も提案する。L個の異なる肌色モデル・パラメータ推定方法に対して、i=1,...,Lとしてそれぞれがパラメータ推定結果
Figure 0005555221
Figure 0005555221
Figure 0005555221
ここで、woiおよびw1iはそれぞれ平均および共分散行列に対する重み係数である。
図7を参照すると、複数の推定方法を用いた共同型の肌色モデル・パラメータ推定に関する例示的な方法が、参照番号600として概略的に示されている。
方法700は、機能ブロック710に制御を渡す開始ブロックを含む。機能ブロック710は、対象とする画像およびビデオを複数の一組の画素に分割して、ループ・リミット・ブロック715に制御を渡す。ループ・リミット・ブロック715は、iが1から一組の数までの値を有するものとして、変数iを用いて一組の画素のそれぞれに対してループする第1のループを開始し、機能ブロック720に制御を渡す。ループ・リミット・ブロック720は、jが1から使用される推定方法の数までの値を有するとして、変数jを用いて使用される各推定方法に対して第2のループを開始し、機能ブロック725に制御を渡す。機能ブロック725は、方法jで肌色モデル・パラメータを推定して返し、ループ・リミット・ブロック730に制御を渡す。ループ・リミット・ブロック730は、各推定方法に対する第2のループを終了させ、機能ブロック735に制御を渡す。機能ブロック735は、肌色パラメータの重み平均を計算して、ループ・リミット・ブロック740に制御を渡す。ループ・リミット・ブロック740は、一組の画素のそれぞれに対する第1のループを終了させ、終了ブロック799に制御を渡す。
ここで、本発明の多くの付随する利点または特徴のいくつかについて説明する。そのうちのいくつかは既に上述した。例えば、1つの利点または特徴は、着目物の色モデル・パラメータ推定器と着目物検出器とを有する、色検出のための装置である。着目物の色モデル・パラメータ推定器は、少なくとも一組の画素を少なくとも1つの画像から抽出するものである。少なくとも一組の画素は着目物に対応する。少なくとも一組の画素ごとに、着目物の色モデル・パラメータ推定器は、その少なくとも一組の画素における画素の色成分を統計的モデルでモデル化し、モデル化した色成分に基づいて着目物の色モデル・パラメータを推定して少なくとも1つの推定した着目物の色モデルを取得する。着目物検出器は、少なくとも1つの推定した着目物の色モデルを用いて少なくとも一組の画素から着目物の画素を検出するものである。
別の利点または特徴は、少なくとも一組の画素の各々がそれぞれ少なくとも1つの画像のうちの1つに対応する、上述した色検出のための装置である。
さらに別の利点または特徴は、少なくとも一組の画素の各々がそれぞれ幾つかの画像を含むビデオ・シーンに対応する、上述した色検出のための装置である。
さらに別の利点または特徴は、着目物の色モデル・パラメータ推定器が着目物の色モデル・パラメータを推定して少なくとも1つの非着目物の色モデルも取得する、上述した色検出のための装置である。この少なくとも1つの非着目物の色モデルは混合正規分布としてモデル化される。
さらなる利点または特徴は、少なくとも1つの推定された着目物の色モデルのうち少なくとも1つが正規分布としてモデル化される、上述した色検出のための装置である。
さらに、別の利点または特徴は、推定された着目物の色モデル・パラメータが、正規分布としてモデル化される少なくとも1つの推定された着目物の色モデルのうち少なくとも1つに対応し、予め選択された範囲内の画素でそのように推定される、上述した色検出のための装置である。
さらに、別の利点または特徴は、予め選択された範囲が着目物のデータベースにおける着目物の画素の所定の割合に基づく、上述した色検出のための装置である。
また、別の利点または特徴は、推定されたV色成分と推定されたU色成分の間の最小差に基づいて着目物の色モデル・パラメータが選択される、上述した色検出のための装置である。
さらに、別の利点または特徴は、着目物の色モデル・パラメータが混合正規モデルを用いて推定される、上述した色検出のための装置である。
さらに、別の利点または特徴は、着目物の色モデル・パラメータが複数のモデル・パラメータ推定方法を用いて推定される、上述した色検出のための装置である。
また、別の利点または特徴は、最終的な推定されたパラメータを取得するために、複数のモデル・パラメータ推定方法を用いて推定された着目物の色モデル・パラメータが共同的に推定される、上述した色検出のための装置である。
さらに、別の利点または特徴は、着目物の色モデル・パラメータ推定器が、演算重みを用いて最終的な推定されたパラメータの平均を重み付けする、上述した色検出のための装置である。
さらに、別の利点または特徴は、着目物の色モデル・パラメータ推定器が、幾何重みを用いて最終的な推定されたパラメータの平均を重み付けする、上述した色検出のための装置である。
さらに、別の利点または特徴は、ビデオ・エンコーダ内で利用される上述した色検出のための装置である。
また、別の利点または特徴は、ビデオ・エンコーダが複数の領域を、International Organization for Standardization/International Electrotechnical Commision Moving Picture Experts Group−4 Part 10 Advanced Video Coding standard/International Telecommunication Union,Telecommunication Sector H.264勧告に準拠するビットストリームにエンコードする、上述した色検出のための装置である。
さらに、別の利点または特徴は、ビデオ・エンコーダが複数の領域を、Society of Motion Picture and Television Engineers Video Codec−1 Standardに準拠するビットストリームにエンコードする、上述した色検出のための装置である。
さらには、別の利点または特徴は、着目物には肌、草、および空のうち少なくとも1つが含まれる、上述した色検出のための装置である。
本発明の原理のこれらおよび他の特徴および利点は、本明細書の教示に基づいて当業者により容易に確認することができる。本発明の原理が教示するものを、様々な形態のハードウェア、ソフトウェア、ファームウェア、特殊目的プロセッサ、またはそれらの組合せで実装できることは理解されよう。
本発明の原理が教示するものを、ハードウェアおよびソフトウェアの組合せで実装することが最も好ましい。さらに、このソフトウェアを、プログラム記憶装置上で明確に具現化したアプリケーション・プログラムとして実装してもよい。アプリケーション・プログラムを、任意の適切なアーキテクチャを含む機械へアップロードし、その機械によって実行することができる。その機械は、1つまたは複数のCPU(central processing units)、RAM(random access memory)、およびI/O(input/output)インタフェースのようなハードウェアを有するコンピュータ・プラットフォーム上で実装することが好ましい。コンピュータ・プラットフォームはまた、オペレーティング・システムとマイクロ命令コードを備えてもよい。本明細書に記載した様々なプロセスと機能は、マイクロ命令コードの一部もしくはアプリケーション・プロブラムの一部の何れか、またはそれらの任意の組合せであってもよく、それらをCPUによって実行することができる。さらに、他の様々な周辺装置を、追加のデータ記憶装置や印刷装置のようなコンピュータ・プラットフォームに接続してもよい。
さらに、添付の図面に示した構成要素であるシステム・コンポーネントおよび方法のうち幾つかはソフトウェアで実装することが好ましいため、そのシステム・コンポーネントまたはプロセス機能ブロック間の実際の接続は、本発明の原理をプログラムする方法に応じて異なってもよいことは理解されよう。本明細書の教示が与えられれば、当業者は、本発明の原理のこれらのおよび同様な実装形態または構成を想到しうるであろう。
本明細書では例示的な実施形態を添付の図面を参照して説明したが、本発明の原理はこれらの明確な実施形態には限定されず、当業者によって、本発明の原理の範囲または精神から逸脱することなく、様々な変更および修正を加えてもよいことは理解されよう。係る変更と修正がすべて、添付の特許請求の範囲において説明する本発明の原理の範囲内に含まれることを意図している。
(付記1)
着目物に対応する一組の画素を画像から抽出し、前記一組の画素における画素の色成分を統計的モデルでモデル化し、前記モデル化された色成分に基づいてパラメータを推定して、推定された着目物の色モデルを取得するための推定器と、
前記推定された色モデルを用いて前記一組の画素から画素を検出するための検出器と
を備える色検出のための装置。
(付記2)
前記画像はビデオの一部である、付記1に記載の装置。
(付記3)
前記推定器は、前記パラメータを推定して非着目物の色モデルをさらに取得し、
前記非着目物の色モデルは、混合正規モデルとしてモデル化される、付記1に記載の装置。
(付記4)
前記推定された着目物の色モデルは正規分布としてモデル化される、付記1に記載の装置。
(付記5)
正規分布としてモデル化される前記推定された着目物の色モデルに対応する前記パラメータは、予め選択された範囲内にある画素で推定される、付記4に記載の装置。
(付記6)
前記予め選択された範囲は、着目物のデータベースにおける着目物の画素の所定の割合に基づく、付記5に記載の装置。
(付記7)
前記パラメータは、推定されたV色成分と推定されたU色成分との間の最小差に基づいて選択される、付記6に記載の装置。
(付記8)
前記パラメータは、混合正規モデルを用いて推定される、付記1に記載の装置。
(付記9)
前記パラメータは、複数のモデル・パラメータ推定方法を用いて推定される、付記1に記載の装置。
(付記10)
前記複数のモデル・パラメータ推定方法を用いて推定された前記パラメータを共同的に推定して最終的な推定されたパラメータを取得する、付記10に記載の装置。
(付記11)
前記推定器は、演算重みを用いて前記最終的な推定されたパラメータの平均を重み付けする、付記10に記載の装置。
(付記12)
前記推定器は、幾何重みを用いて前記最終的な推定されたパラメータの平均を重み付けする、付記10に記載の装置。
(付記13)
前記装置は、ビデオ・エンコーダで利用される、付記1に記載の装置。
(付記14)
前記ビデオ・エンコーダは、複数の領域を、International Organization for Standardization/International Electrotechnical Commision Moving Picture Experts Group−4 Part 10 Advanced Video Coding standard/International Telecommunication Union,Telecommunication Sector H.264勧告に準拠するビットストリームにエンコードする、付記13に記載の装置。
(付記15)
前記ビデオ・エンコーダは、複数の領域を、Society of Motion Picture and Television Engineers Video Codec−1 Standardに準拠するビットストリームにエンコードする、付記13に記載の装置。
(付記16)
前記着目物は、肌、草、および空のうち少なくとも1つを含む、付記1に記載の装置。
(付記17)
画像から一組の画素を抽出するステップと、
前記一組の画素の色成分を統計的モデルでモデル化して、モデル化した色成分を生成するステップと、
前記モデル化した色成分に基づいてパラメータを推定して、第1の色モデルを取得するステップと、
前記第1の色モデルを用いて前記一組の画素から画素を検出するステップと
を含む、色検出の方法。
(付記18)
前記推定ステップは、前記パラメータを推定して、混合正規モデルとしてモデル化される第2の色モデルを取得するステップをさらに含む、付記17に記載の方法。
(付記19)
第1の色モデルは、正規分布としてモデル化される、付記17に記載の方法。
(付記20)
パラメータは、予め選択した範囲内の画素で推定される、付記19に記載の方法。
(付記21)
前記予め選択された範囲は、着目物のデータベースにおける着目物の画素の所定の割合に基づく、付記20に記載の方法。
(付記22)
前記パラメータは、推定されたV色成分と推定されたU色成分との間の最小差に基づいて選択される、付記21に記載の方法。
(付記23)
前記着目物の色モデル・パラメータは、混合正規モデルを用いて推定される、付記17に記載の方法。
(付記24)
前記着目物の色モデル・パラメータは、複数のモデル・パラメータ推定方法を用いて推定される、付記17に記載の方法。
(付記25)
前記複数のモデル・パラメータ推定方法を用いて推定される前記着目物の色モデル・パラメータは、最終的な推定されたパラメータを取得するために共同して推定される、付記24に記載の方法。
(付記26)
前記最終的な推定されたパラメータの平均は、演算重みを用いて重み付けされる、付記24に記載の方法。
(付記27)
前記最終的な推定されたパラメータの平均は、幾何重みを用いて重み付けされる、付記24に記載の方法。
(付記28)
前記方法は、ビデオ・エンコーダに利用される、付記17に記載の方法。
(付記29)
前記ビデオ・エンコーダは、複数の領域を、International Organization for Standardization/International Electrotechnical Commision Moving Picture Experts Group−4 Part 10 Advanced Video Coding standard/International Telecommunication Union,Telecommunication Sector H.264勧告に準拠するビットストリームにエンコードする、付記28に記載の方法。
(付記30)
前記ビデオ・エンコーダは、複数の領域を、Society of Motion Picture and Television Engineers Video Codec−1 Standardに準拠するビットストリームにエンコードする、付記28に記載の方法。
(付記31)
前記画素は、肌、草、および空のうち少なくとも1つを含む、付記17に記載の方法。

Claims (31)

  1. 着目物に対応する一組の画素を画像から抽出し、前記一組の画素のU色成分及びV色成分を統計的モデルでモデル化してモデル化した色成分を生成し、前記一組の画素の輝度成分を利用して前記一組の画素の照明条件を決定し、前記照明条件に基づいて前記一組の画素の前記色成分を調整し、調整された前記モデル化した色成分に基づいて、平均及び共分散行列に関するパラメータを推定して、第1の色モデルを取得するための推定器と、
    前記推定された前記第1の色モデルを用いて前記一組の画素から画素を検出するための検出器と
    を備える色検出のための装置。
  2. 前記画像はビデオの一部であることを特徴とする請求項1に記載の装置。
  3. 前記推定器は、前記パラメータを推定して非着目物の色モデルをさらに取得し、
    前記非着目物の色モデルは、混合正規モデルとしてモデル化されることを特徴とする請求項1に記載の装置。
  4. 前記推定された着目物の色モデルは正規分布としてモデル化されることを特徴とする請求項1に記載の装置。
  5. 正規分布としてモデル化される前記推定された着目物の色モデルに対応する前記パラメータは、前記抽出される画素のうちの予め選択された範囲内にある画素で推定されることを特徴とする請求項4に記載の装置。
  6. 前記予め選択された範囲は、着目物のデータベースにおける着目物の画素の所定の割合に基づくことを特徴とする請求項5に記載の装置。
  7. 前記パラメータは、推定されたV色成分と推定されたU色成分との間の最大差に基づいて選択されることを特徴とする請求項6に記載の装置。
  8. 前記パラメータは、混合正規モデルを用いて推定されることを特徴とする請求項1に記載の装置。
  9. 前記パラメータは、複数のモデル・パラメータ推定方法を用いて推定されることを特徴とする請求項1に記載の装置。
  10. 前記複数のモデル・パラメータ推定方法を用いて推定された前記パラメータを共同的に推定して最終的な推定されたパラメータを取得することを特徴とする請求項9に記載の装置。
  11. 前記推定器は、演算重みを用いて前記最終的な推定されたパラメータの平均を重み付けすることを特徴とする請求項10に記載の装置。
  12. 前記推定器は、幾何重みを用いて前記最終的な推定されたパラメータの平均を重み付けすることを特徴とする請求項10に記載の装置。
  13. 前記装置は、ビデオ・エンコーダで利用されることを特徴とする請求項1に記載の装置。
  14. 前記ビデオ・エンコーダは、複数の領域を、International Organization for Standardization/International Electrotechnical Commision Moving Picture Experts Group−4 Part 10 Advanced Video Coding standard/International Telecommunication Union,Telecommunication Sector H.264勧告に準拠するビットストリームにエンコードすることを特徴とする請求項13に記載の装置。
  15. 前記ビデオ・エンコーダは、複数の領域を、Society of Motion Picture and Television Engineers Video Codec−1 Standardに準拠するビットストリームにエンコードすることを特徴とする請求項13に記載の装置。
  16. 前記着目物は、肌、草、および空のうち少なくとも1つを含むことを特徴とする請求項1に記載の装置。
  17. 着目物に対応する一組の画素を画像から抽出するステップと、
    前記一組の画素のU色成分及びV色成分を統計的モデルでモデル化して、モデル化した色成分を生成するステップと、
    前記一組の画素の輝度成分を利用して前記一組の画素の照明条件を決定するステップと、
    前記照明条件に基づいて前記一組の画素の前記色成分を調整するステップと、
    調整された前記モデル化した色成分に基づいて、平均及び共分散行列に関するパラメータを推定して、第1の色モデルを取得するステップと、
    推定された前記第1の色モデルを用いて前記一組の画素から画素を検出するステップと
    を含むことを特徴とする色検出の方法。
  18. 前記取得するステップは、前記パラメータを推定して、混合正規モデルとしてモデル化される第2の色モデルを取得するステップをさらに含むことを特徴とする請求項17に記載の方法。
  19. 第1の色モデルは、正規分布としてモデル化されることを特徴とする請求項17に記載の方法。
  20. パラメータは、前記抽出される画素のうちの予め選択した範囲内の画素で推定されることを特徴とする請求項19に記載の方法。
  21. 前記予め選択された範囲は、着目物のデータベースにおける着目物の画素の所定の割合に基づくことを特徴とする請求項20に記載の方法。
  22. 前記パラメータは、推定されたV色成分と推定されたU色成分との間の最大差に基づいて選択されることを特徴とする請求項21に記載の方法。
  23. 前記着目物の色モデル・パラメータは、混合正規モデルを用いて推定されることを特徴とする請求項17に記載の方法。
  24. 前記着目物の色モデル・パラメータは、複数のモデル・パラメータ推定方法を用いて推定されることを特徴とする請求項17に記載の方法。
  25. 前記複数のモデル・パラメータ推定方法を用いて推定される前記着目物の色モデル・パラメータは、最終的な推定されたパラメータを取得するために共同して推定されることを特徴とする請求項24に記載の方法。
  26. 前記最終的な推定されたパラメータの平均は、演算重みを用いて重み付けされることを特徴とする請求項25に記載の方法。
  27. 前記最終的な推定されたパラメータの平均は、幾何重みを用いて重み付けされることを特徴とする請求項25に記載の方法。
  28. 前記方法は、ビデオ・エンコーダに利用されることを特徴とする請求項17に記載の方法。
  29. 前記ビデオ・エンコーダは、複数の領域を、International Organization for Standardization/International Electrotechnical Commision Moving Picture Experts Group−4 Part 10 Advanced Video Coding standard/International Telecommunication Union,Telecommunication Sector H.264勧告に準拠するビットストリームにエンコードすることを特徴とする請求項28に記載の方法。
  30. 前記ビデオ・エンコーダは、複数の領域を、Society of Motion Picture and Television Engineers Video Codec−1 Standardに準拠するビットストリームにエンコードすることを特徴とする請求項28に記載の方法。
  31. 前記画素は、肌、草、および空のうち少なくとも1つを含むことを特徴とする請求項17に記載の方法。
JP2011500748A 2008-03-18 2008-03-18 着目物の適応的な色モデル・パラメータ推定に係る方法および装置 Expired - Fee Related JP5555221B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2008/003522 WO2009116965A1 (en) 2008-03-18 2008-03-18 Method and apparatus for adaptive feature of interest color model parameters estimation

Publications (2)

Publication Number Publication Date
JP2011517526A JP2011517526A (ja) 2011-06-09
JP5555221B2 true JP5555221B2 (ja) 2014-07-23

Family

ID=40220131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011500748A Expired - Fee Related JP5555221B2 (ja) 2008-03-18 2008-03-18 着目物の適応的な色モデル・パラメータ推定に係る方法および装置

Country Status (6)

Country Link
US (1) US20100322300A1 (ja)
EP (1) EP2266099A1 (ja)
JP (1) JP5555221B2 (ja)
KR (1) KR101528895B1 (ja)
CN (1) CN101960491A (ja)
WO (1) WO2009116965A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US8902971B2 (en) * 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
EP2130381A2 (en) 2007-01-23 2009-12-09 Euclid Discoveries, LLC Computer method and apparatus for processing image data
US8050494B2 (en) * 2008-05-23 2011-11-01 Samsung Electronics Co., Ltd. System and method for human hand motion detection by skin color prediction
US8406482B1 (en) * 2008-08-28 2013-03-26 Adobe Systems Incorporated System and method for automatic skin tone detection in images
CN102172026B (zh) 2008-10-07 2015-09-09 欧几里得发现有限责任公司 基于特征的视频压缩
US8996445B2 (en) * 2009-04-07 2015-03-31 The Regents Of The University Of California Collaborative targeted maximum likelihood learning
US8588309B2 (en) * 2010-04-07 2013-11-19 Apple Inc. Skin tone and feature detection for video conferencing compression
EP2713871B1 (en) * 2011-05-31 2018-12-26 Koninklijke Philips N.V. Method and system for monitoring the skin color of a user
US8411112B1 (en) 2011-07-08 2013-04-02 Google Inc. Systems and methods for generating an icon
US9335826B2 (en) 2012-02-29 2016-05-10 Robert Bosch Gmbh Method of fusing multiple information sources in image-based gesture recognition system
CN102915521A (zh) * 2012-08-30 2013-02-06 中兴通讯股份有限公司 一种移动终端图像处理方法及装置
CN105393528B (zh) * 2013-07-22 2018-11-02 松下电器(美国)知识产权公司 信息处理装置、信息处理装置的控制方法以及记录介质
WO2015138008A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
CN105096347B (zh) * 2014-04-24 2017-09-08 富士通株式会社 图像处理装置和方法
FR3023699B1 (fr) * 2014-07-21 2016-09-02 Withings Procede et dispositif de surveillance d'un bebe et d'interaction
CN104282002B (zh) * 2014-09-22 2018-01-30 厦门美图网科技有限公司 一种数字图像的快速美容方法
US11263432B2 (en) 2015-02-06 2022-03-01 Veridium Ip Limited Systems and methods for performing fingerprint based user authentication using imagery captured using mobile devices
US9361507B1 (en) 2015-02-06 2016-06-07 Hoyos Labs Ip Ltd. Systems and methods for performing fingerprint based user authentication using imagery captured using mobile devices
US9424458B1 (en) 2015-02-06 2016-08-23 Hoyos Labs Ip Ltd. Systems and methods for performing fingerprint based user authentication using imagery captured using mobile devices
JP6339962B2 (ja) * 2015-03-31 2018-06-06 富士フイルム株式会社 画像処理装置及び方法、並びにプログラム
US10437862B1 (en) * 2015-09-29 2019-10-08 Magnet Forensics Inc. Systems and methods for locating and recovering key populations of desired data
US10015504B2 (en) 2016-07-27 2018-07-03 Qualcomm Incorporated Compressing image segmentation data using video coding
US10477220B1 (en) * 2018-04-20 2019-11-12 Sony Corporation Object segmentation in a sequence of color image frames based on adaptive foreground mask upsampling
US11569056B2 (en) * 2018-11-16 2023-01-31 Fei Company Parameter estimation for metrology of features in an image

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236736B1 (en) * 1997-02-07 2001-05-22 Ncr Corporation Method and apparatus for detecting movement patterns at a self-service checkout terminal
JP2000048184A (ja) * 1998-05-29 2000-02-18 Canon Inc 画像処理方法及び顔領域抽出方法とその装置
AUPP400998A0 (en) * 1998-06-10 1998-07-02 Canon Kabushiki Kaisha Face detection in digital images
JP2002208013A (ja) * 2001-01-12 2002-07-26 Victor Co Of Japan Ltd 画像領域抽出装置及び画像領域抽出方法
JP3432816B2 (ja) * 2001-09-28 2003-08-04 三菱電機株式会社 頭部領域抽出装置およびリアルタイム表情追跡装置
KR100543706B1 (ko) * 2003-11-28 2006-01-20 삼성전자주식회사 비젼기반 사람 검출방법 및 장치
US7376270B2 (en) * 2003-12-29 2008-05-20 Canon Kabushiki Kaisha Detecting human faces and detecting red eyes
US7542600B2 (en) * 2004-10-21 2009-06-02 Microsoft Corporation Video image quality
US8019170B2 (en) * 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US7728904B2 (en) * 2005-11-08 2010-06-01 Qualcomm Incorporated Skin color prioritized automatic focus control via sensor-dependent skin color detection
US7634108B2 (en) * 2006-02-14 2009-12-15 Microsoft Corp. Automated face enhancement
JP2007257087A (ja) * 2006-03-20 2007-10-04 Univ Of Electro-Communications 肌色領域検出装置及び肌色領域検出方法
US7885463B2 (en) * 2006-03-30 2011-02-08 Microsoft Corp. Image segmentation using spatial-color Gaussian mixture models
US7933469B2 (en) * 2006-09-01 2011-04-26 Texas Instruments Incorporated Video processing
CN100426320C (zh) * 2006-11-20 2008-10-15 山东大学 一种彩色图像颜色不变性阈值分割方法

Also Published As

Publication number Publication date
EP2266099A1 (en) 2010-12-29
WO2009116965A1 (en) 2009-09-24
KR20100136972A (ko) 2010-12-29
US20100322300A1 (en) 2010-12-23
CN101960491A (zh) 2011-01-26
KR101528895B1 (ko) 2015-06-15
JP2011517526A (ja) 2011-06-09

Similar Documents

Publication Publication Date Title
JP5555221B2 (ja) 着目物の適応的な色モデル・パラメータ推定に係る方法および装置
Babu et al. A survey on compressed domain video analysis techniques
US9215467B2 (en) Analytics-modulated coding of surveillance video
AU2010241260B2 (en) Foreground background separation in a scene with unstable textures
Chao et al. A novel rate control framework for SIFT/SURF feature preservation in H. 264/AVC video compression
US11095899B2 (en) Image processing apparatus, image processing method, and storage medium
KR102440329B1 (ko) 영상 선택 방법 및 그 장치
KR102261669B1 (ko) 인공신경망 기반 객체영역 검출방법, 장치 및 이에 대한 컴퓨터 프로그램
WO2005006762A2 (en) Optical flow estimation method
CN109547803B (zh) 一种时空域显著性检测及融合方法
CN104160703A (zh) 经对象检测所通知的编码
EP2670143A1 (en) Video encoding device, video encoding method and video encoding program
EP2842325A1 (en) Macroblock partitioning and motion estimation using object analysis for video compression
CN110933415B (zh) 对象区域检测方法、装置及对其的非临时性计算机可读介质
Moriyama et al. Moving object detection in HEVC video by frame sub-sampling
WO2012123321A1 (en) Method for reconstructing and coding an image block
KR102345258B1 (ko) 객체영역 검출방법, 장치 및 이에 대한 컴퓨터 프로그램
Marvasti-Zadeh et al. A novel boundary matching algorithm for video temporal error concealment
Roy et al. Graph-based transform with weighted self-loops for predictive transform coding based on template matching
Tong et al. Human centered perceptual adaptation for video coding
Zheng et al. H. 264 ROI coding based on visual perception
JP4763241B2 (ja) 動き予測情報検出装置
Fu et al. Fast global motion estimation based on local motion segmentation
KR20220157832A (ko) 움직임이 존재하는 프레임의 검출방법
MAHESH et al. Saliency-Aware Video Compression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120420

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140530

R150 Certificate of patent or registration of utility model

Ref document number: 5555221

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees