JP5194201B2 - グラフカットの初期値を設定する方法、端末装置、及びコンピュータ読み取り可能な記録媒体 - Google Patents

グラフカットの初期値を設定する方法、端末装置、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP5194201B2
JP5194201B2 JP2012537799A JP2012537799A JP5194201B2 JP 5194201 B2 JP5194201 B2 JP 5194201B2 JP 2012537799 A JP2012537799 A JP 2012537799A JP 2012537799 A JP2012537799 A JP 2012537799A JP 5194201 B2 JP5194201 B2 JP 5194201B2
Authority
JP
Japan
Prior art keywords
area
person
initial value
background
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012537799A
Other languages
English (en)
Other versions
JP2013511076A (ja
Inventor
ヒュン チョイ、ジョン
フン キム、テ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2013511076A publication Critical patent/JP2013511076A/ja
Application granted granted Critical
Publication of JP5194201B2 publication Critical patent/JP5194201B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、グラフカット(graph cut)の初期値を設定する方法、端末装置、及びコンピュータ読み取り可能な記録媒体に関する。より詳しくは、本発明は、既に格納されている複数の人物領域パターンを用いてグラフカットのための初期値を獲得することによって、グラフカットを用いたイメージの編集がより正確、かつ、効果的に実行され得るようにするための方法、端末装置及びコンピュータ読み取り可能な記録媒体に関する。
近年、相手の顔を見ながら通話できる携帯電話や画像チャットに用いられるウェブカメラ、人の顔を撮影できるデジタルカメラなどのデジタル機器が広く普及することにより、日常生活で人物のイメージを撮影及び編集しようとするユーザの数が大きく増加するようになった。
これと関連して、最近、人物イメージにおいて人物領域を除いた背景領域を他の興味深い背景に替えることで、ユーザの興味を誘発する人物イメージの編集方法が紹介されている。前記のような人物イメージ編集方法を実行するためには、人物イメージに含まれている人物領域と背景領域とを区分する技術が必須的に要求されるが、このような技術として、グラフカットを一例として挙げられる。グラフカットは、イメージの任意の領域に付与された初期値に基づいて該当イメージに含まれている互いに異なる客体を区分する技術であって、所定のイメージにおいて前景(foreground)領域(即ち、人物領域)と背景(background)領域とを区分するのに有用に活用され得る。
一方、グラフカットの初期値を設定するための従来技術として、ユーザの手動的な入力に基づいてグラフカットの初期値を設定する技術があるが、これによれば、ユーザが自身の編集しようとする人物イメージ毎に人物領域に該当する部分を直接設定しなければならないため、ユーザの入力が過度に多く要求され、ユーザの便宜性が低下してしまうという問題がある。また、グラフカットの初期値を設定するための他の従来技術として、混合ガウス分布モデル(GMM:Gaussian Mixture Model)などの数値モデルを利用する技術が挙げられるが、これによれば、過度に多くの演算量が要求され、演算速度も遅いため、PCのような高性能プロセッサが搭載され難い携帯用端末装置上で実行されるには不適切であるという問題がある。
そのため、携帯用端末装置上で人物イメージ編集サービスをリアルタイムで正確に提供できるようにグラフカットの初期値を効果的に設定する技術の必要性が浮上している。
本発明の目的は、前述した問題をすべて解決することにある。
また、本発明の他の目的は、既に格納されている複数の人物領域パターンを用いて入力イメージで初期顔領域及び初期背景領域を設定し、これらの領域に対してグラフカットのための初期値をそれぞれ付与することによって、グラフカットを用いたイメージの編集がより正確、かつ、効果的に実行され得るようにすることにある。
前記目的を達成するための本発明の代表的な構成は、以下の通りである。
本発明の一態様によれば、イメージにおいて人物領域と背景領域とを区分するために、グラフカットの初期値を設定する方法であって、(a)入力イメージから顔領域を検出するステップ、(b)既に格納されている複数の人物領域パターンのうち、前記検出された顔領域との類似度が既に設定されている値以上である顔領域を含む基準人物領域パターンを決定するステップ、及び(c)前記検出された顔領域を基準として入力イメージ上に前記基準人物領域パターンを整列させる場合、前記入力イメージの領域のうち、前記整列された基準人物領域パターンのうちのいずれか1つによってもカバーされない第1領域に背景用初期値を付与し、前記入力イメージの領域のうち、前記整列された基準人物領域パターンの全てによってカバーされる第2領域に人物用初期値を付与するステップを含む方法が提供される。
本発明の他の態様によれば、イメージにおいて人物領域と背景領域とを区分するために、グラフカットの初期値を設定する端末装置であって、入力イメージから顔領域を検出する顔領域検出部、及び既に格納されている複数の人物領域パターンのうち、前記検出された顔領域との類似度が既に設定されている値以上である顔領域を含む基準人物領域パターンを決定し、前記検出された顔領域を基準として入力イメージ上に前記基準人物領域パターンを整列させる場合、前記入力イメージの領域のうち、前記整列された基準人物領域パターンのうちのいずれか1つによってもカバーされない第1領域に背景用初期値を付与し、前記入力イメージの領域のうち、前記整列された基準人物領域パターンの全てによってカバーされる第2領域に人物用初期値を付与する初期値設定部を含む端末装置が提供される。
この他にも、本発明を実現するための他の方法、端末装置及び前記方法を実行するためのコンピュータプログラムを記録するためのコンピュータ読み取り可能な記録媒体が更に提供される。
本発明によれば、既に格納されている複数の人物領域パターンを用いて入力イメージ上で初期顔領域及び初期背景領域を設定し、これらの領域に対してグラフカットのための初期値をそれぞれ付与してグラフカットを用いたイメージの編集がより正確、かつ、効果的に行われるようにすることができるので、携帯用端末装置上で人物イメージ編集サービスをリアルタイムで提供可能になるという効果を奏する。
本発明の一実施形態に係る端末装置100の内部構成を例示的に示す図である。 本発明の一実施形態に係る人物領域パターンを例示的に示す図である。 本発明の一実施形態によって初期背景領域及び初期人物領域を設定する構成を例示的に示す図である。 本発明の一実施形態によって初期背景領域及び初期人物領域を設定する構成を例示的に示す図である。 本発明の一実施形態によって顔領域に外接する楕円を基準として初期人物領域を補完する構成を例示的に示す図である。 本発明の一実施形態によってグラフカットの初期値が設定される構成を例示的に示す図である。 本発明の一実施形態によってグラフカットを実行して入力イメージにおいて顔領域と背景領域とを区分させ、前記区分された顔領域を他の背景イメージと合成する構成を順次示す図である。
後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施形態を例として示す添付の図面を参照する。これらの実施形態は、当業者が本発明を実施できるのに十分なように詳細に説明される。本発明の多様な実施形態は互いに異なるが、相互排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施形態について本発明の精神及び範囲から逸脱することなく、他の実施形態で実現され得る。また、それぞれの開示された実施形態内の個別構成要素の位置又は配置は、本発明の精神及び範囲から逸脱することなく、変更され得ることが理解されるべきである。従って、後述する詳細な説明は限定的な意味として取ろうとするものではなく、本発明の範囲は、適切に説明されるのであれば、その請求項が主張するものと均等なあらゆる範囲と共に添付された請求項によってのみ限定される。図面において類似する参照符号は、多様な側面にわたって同一であるか、類似する機能を示す。
以下では、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の好適な実施形態について添付された図面を参照して詳細に説明する。
(端末装置の構成)
以下では、本発明の実現のために重要な機能を実行する端末装置100の内部構成及び各構成要素の機能について説明する。
本発明の一実施形態によれば、個人用コンピュータ(例えば、デスクトップコンピュータ、ノートブックコンピュータなど)、ワークステーション、PDA、ウェブパッド、移動電話機などのようにメモリ手段を備え、マイクロ・プロセッサを搭載して演算能力を備えたデジタル機器であれば、いくらでも本発明の端末装置100として採択され得る。
図1は、本発明の一実施形態に係る端末装置100の内部構成を例示的に示す図である。
図1を参照すれば、本発明の一実施形態に係る端末装置100は、顔領域検出部110、初期値設定部120、グラフカット実行部130、イメージ合成部140、通信部150及び制御部160を含むことができる。本発明の一実施形態によれば、顔領域検出部110、初期値設定部120、グラフカット実行部130、イメージ合成部140、通信部150及び制御部160は、そのうちの少なくとも一部が外部システム(図示せず)と通信するプログラムモジュールであり得る。このようなプログラムモジュールは、オペレーティングシステム、応用プログラムモジュール及びその他プログラムモジュールの形態で端末装置100に含まれ得、物理的には多様な公知となっている記憶装置上に格納され得る。また、このようなプログラムモジュールは、端末装置100と通信可能な遠隔記憶装置に格納されることもできる。一方、このようなプログラムモジュールは、本発明によって後述する特定の業務を行ったり、特定の抽象データタイプを実行するルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを包括するが、これに制限されるものではない。
まず、本発明の一実施形態によれば、顔領域検出部110は、所定の顔検出技術を利用して入力イメージに含まれている人物の顔領域を検出する機能を実行する。顔領域検出部110により検出された顔領域は、後述する初期値設定部120がグラフカットの初期値を設定する過程で活用され得る。
前述したように、顔領域検出部110が入力イメージに含まれている人物の顔領域を検出するためには、所定の顔検出技術を利用しなければならないが、このような顔検出技術として、Chang HUANG外3人が共同で著述し、2005年にICCV(International Conference on Computer Vision)で発表された“Vector Boosting for Rotation Invariant Multi-View Face detection”という論文が参照できる(前記論文の内容は、その全体が本明細書に併合されているものと考慮されるべきである)。前記論文にはイメージに含まれている多様な客体の角度を区別できるvector boostingアルゴリズムを用いてイメージに含まれている顔が特定角度でずれていても顔領域を正確に検出する方法について記載されている。もちろん、本発明に適用可能な顔検出技術が前記論文に記載された方法にのみ限定されるものではなく、多様な変形例を適用して本発明を実現できる。
次に、本発明の一実施形態によれば、初期値設定部120は、入力イメージにおいて人物領域と背景領域とを区分させるグラフカットが実行され得るようにするために、入力イメージの少なくとも一部を初期人物領域及び初期背景領域としてそれぞれ設定し、前記初期人物領域及び初期背景領域に対してそれぞれ初期値を付与する機能を実行する。
より具体的に、本発明の一実施形態に係る初期値設定部120は、入力イメージから検出された顔領域と既に格納されている複数の人物領域パターンに含まれている顔領域とを比較して、既に格納されている複数の人物領域パターンのうち、前記検出された顔領域との類似度が既に設定されている値以上である顔領域を含む少なくとも1つの人物領域パターンを基準人物領域パターンとして決定する機能を行える。
以下では、少なくとも2つの人物領域パターンを基準人物領域パターンとして決定する実施形態について主に叙述されているが、本発明の実施形態が必ずしもこれに限定されるものではなく、本発明がただ1つの人物パターン領域のみを基準人物パターン領域として決定する実施形態を排除しないものと理解されるべきである。
ここで、既に格納されている人物領域パターンは、ユーザがカメラ、携帯電話などの端末装置100を用いて人物を撮影する場合に得られる多様なイメージに含まれている人物領域を予めパターン化したものであって、所定のメモリ手段(図示せず)又はデータベース(図示せず)に予め格納されていてもよい。そして、本発明の一実施形態によれば、各人物領域パターンは、該当人物領域パターンに含まれている顔領域に関する情報(顔領域の位置、大きさなど)と連係して格納されていてもよく、前記顔領域に関する情報は、入力イメージから検出された顔領域と複数の人物領域パターンに含まれている顔領域の類似度を算出するにおいて活用され得る。
図2は、本発明の一実施形態に係る人物領域パターンを例示的に示す図である。図2を参照すれば、人物領域パターン210、220、230は、多様な状況で撮影された人物イメージから抽出されて格納され得、前述したように、各人物領域パターンに含まれる顔領域215、225、235に関する情報が共に格納され得る。
一方、本発明の一実施形態によれば、入力イメージから検出された顔領域と複数の人物領域パターンに含まれている顔領域間の類似度は、両顔領域が互いに重なる領域の大きさ又は比率を基準に決定されることができる。即ち、本発明によれば、入力イメージに含まれている人物の顔領域と類似する顔領域を含んでいる少なくとも2つの人物領域パターンを後述するグラフカットの初期値設定の基準となる基準人物領域パターンとして選択することによって、入力イメージにおいて人物領域をより正確に区分できるようにする効果が達成される。
また、本発明の一実施形態によれば、初期値設定部120は、入力イメージの顔領域と基準人物領域パターンの顔領域が互いに重なるように、入力イメージ上に少なくとも2つの基準人物領域パターンを整列させた状態で、入力イメージのうち、少なくとも2つの基準人物領域パターンのうちのいずれか1つによってもカバーされない領域を初期背景領域として設定し、入力イメージのうち、少なくとも2つの基準人物領域パターンの全てによってカバーされる領域を初期人物領域として設定することができる。即ち、入力イメージのうち、n個の基準人物領域パターンによってカバーされる領域をそれぞれA、A、...、Aとするとき、初期背景領域は(A∪ A∪ ...∪ Aに該当する領域として設定され得、初期人物領域は(A∩ A∩ ...∩ A)に該当する領域として設定されることができる。
更に、本発明の一実施形態に係る初期値設定部120は、初期背景領域及び初期人物領域に対して背景用初期値及び人物用初期値をそれぞれ付与することができ、前記背景用初期値は、該当領域が背景領域である確率を示し、前記人物用初期値は、該当領域が人物領域である確率を示す。
前記のように、本発明によれば、基準人物領域パターンを用いて入力イメージのうち、人物に該当する確率が高い領域と背景に該当する確率が高い領域を統計的に区分することができ、これは後述するグラフカットの初期値として活用されることができる。
図3及び図4は、本発明の一実施形態によって初期背景領域及び初期人物領域を設定する構成を例示的に示す図である。
図3を参照すれば、初期背景領域は、顔領域310を基準として入力イメージ上に整列された少なくとも2つの基準人物領域パターンのうちのいずれか1つによってもカバーされない領域320として設定されることができる。
また、図4を参照すれば、初期人物領域は、顔領域410を基準として入力イメージ上に整列された少なくとも2つの基準人物領域パターンの全てによってカバーされる領域420として設定されることができる。
一方、本発明の一実施形態によれば、初期値設定部120は、基準人物領域パターンを用いて初期人物領域及び初期背景領域を設定する方法以外にも、人物の顔部分に対するグラフカットの初期値をより正確に設定するために、入力イメージで検出された顔領域に外接する楕円の内部に該当する領域を追加的に初期人物領域として設定することができ、楕円の内部に該当する初期人物領域に人物用初期値を付与することができる。このとき、楕円の長軸と短軸の長さは、検出された顔領域の大きさと形状によって適応的に設定されることができる。
即ち、本発明によれば、入力イメージから検出された顔領域に外接する楕円内部の領域をグラフカットに対する初期人物領域として追加的に設定することによって、当初基準人物領域パターンのみに基づいて設定された初期人物領域を補完することができるので、人物の顔部分におけるグラフカットがより正確に実行されることうになる。
図5は、本発明の一実施形態によって顔領域に外接する楕円を基準として初期人物領域を補完する構成を例示的に示す図である。図5を参照すれば、入力イメージで抽出された顔領域510に外接する楕円520の内部領域を追加的に初期人物領域として設定することによって、初期人物領域を補完することができる。
図6は、本発明の一実施形態によってグラフカットの初期値が設定される構成を例示的に示す図である。図6を参照すれば、初期背景領域620には背景用初期値が付与され得、初期人物領域630には人物用初期値が付与されることができる。
次に、本発明の一実施形態によれば、グラフカット実行部130は、初期値設定部120によって設定された初期値に基づいてグラフカットを実行することによって、入力イメージにおいて人物領域と背景領域とを区分させる機能を実行する。
前記で言及したように、グラフカット実行部130が所定の初期値に基づいて入力イメージにおいて人物領域と背景領域とを区分させるためには、所定のグラフカット技術を利用しなければならないが、このようなグラフカット技術として、Yuri Boykov外2人が共同で著述し、2001年11月に“IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 23, NO. 11”に掲載された“Fast Approximate Energy Minimization via Graph Cuts”という論文が参照できる(前記論文の内容は、その全体が本明細書に併合されているものと考慮されるべきである)。前記論文にはグラフカットを実行するにおいて近似化したエネルギー最小化アルゴリズムを用いてイメージに含まれている不連続性を検出する方法について記載されている。もちろん、本発明に適用可能なグラフカット技術が前記論文に記載された方法にのみ限定されるものではなく、多様な変形例を適用して本発明を実現することができる。
また、本発明の一実施形態によれば、グラフカット実行部130は、グラフカットを行った結果、導き出された人物領域と背景領域とのカラーヒストグラムを比較することによって、グラフカットによって人物領域と背景領域との区分が成功的になされたか否かを判断することによって、グラフカットにより行われる人物領域及び背景領域の区分の信頼度を高める機能を行える。より具体的に、本発明の一実施形態に係るグラフカット実行部130は、所定のグラフカットを行った結果、導き出された人物領域及び背景領域のカラーヒストグラム分布間の異質性の程度(例えば、カイ二乗距離(chi square distance))が既に設定されている臨界値以上である場合にのみ前記所定のグラフカットの実行結果を有効なものとして認めることができる。
前記で言及したように、グラフカット実行部130が人物領域及び背景領域のカラーヒストグラム分布間の異質性の程度を算出するためには、所定のカラーヒストグラム分析技術を利用しなければならないが、このような技術として、Gagunashvili, N. D.が著述し、2009年5月に刊行された“Chi-Square Tests for Comparing Weighted Histograms”という論文が参照できる(前記論文の内容は、その全体が本明細書に併合されているものと考慮されるべきである)。前記論文には、カイ二乗検定を用いてヒストグラム間の同質性如何を判断する方法について記載されている。もちろん、本発明に適用可能なカラーヒストグラム分析技術が前記論文に記載された方法にのみ限定されるものではなく、多様な変形例を適用して本発明を実現することができる。
また、本発明の一実施形態によれば、グラフカット実行部130は、多様な条件でグラフカットを繰り返し行い、これにより導き出された多様な人物領域(又は背景領域)のうち、最も信頼度の高い人物領域(又は背景領域)を最終人物領域(又は最終背景領域)として決定することができる。より具体的に、本発明の一実施形態に係るグラフカット実行部130は、グラフカットをn回繰り返し実行するにおいて各回での基準人物領域パターンの組み合わせがすべて異なるように決定されるようにすることによって、n回のグラフカットによって互いに異なるn個の人物領域(又は背景領域)が導き出されるようにすることができ、このように導き出された互いに異なるn個の人物領域(又は背景領域)のうち、最も信頼度の高い人物領域(又は背景領域)を最終人物領域(又は最終背景領域)として決定することができる。
前述したように、基準人物領域パターンの組み合わせは、グラフカットに対する初期人物領域及び初期背景領域を決定する主要な基準となるものであって、各回での基準人物領域パターンの組み合わせは、前述したように、顔領域の類似度に対する既に設定されている値を適切に変更することによって多様に決定されることができる。例えば、計3回にわたってグラフカットを繰り返し実行する場合を仮定するとき、1回目ないし3回目のグラフカットの実行に対する基準人物領域パターンとして人物領域パターンA及びB、人物領域パターンA、B及びC、人物領域パターンA、B、C及びDがそれぞれ決定され得、これにより、1回目ないし3回目のグラフカットに対する各初期人物領域(又は各初期背景領域)がすべて異なるように決定され得、1回目ないし3回目のグラフカットを行った結果、導き出される各人物領域(又は背景領域)がすべて異なるように決定されることができる。
また、例えば、人物領域の信頼度は、グラフカットによって導き出された人物領域及び背景領域のカラーヒストグラム間のカイ二乗距離を基準として算出され得るが、前記カイ二乗距離が大きいほど該当人物領域の信頼度が高いと判断することができる。
次に、本発明の一実施形態によれば、イメージ合成部140は、グラフカットを行った結果、導き出された人物領域を他の背景イメージと合成する機能を実行する。より具体的に、本発明の一実施形態に係るイメージ合成部140は、より自然なイメージ合成のために、アルファ(α)ブレンディング(alpha blending)などのイメージ処理技術を利用することができる。
図7は、本発明の一実施形態によってグラフカットを実行して入力イメージにおいて顔領域と背景領域とを区分させ、前記区分された顔領域を他の背景イメージと合成する構成を順次示すフローチャートである。参考までに、図7は、本発明の多様な実施形態の1つを例示的に示すものであって、本発明の構成が図7に示すものに限定されるわけではないことを明確にしておく。
図7を参照すれば、本発明の一実施形態に係る端末装置100は、入力イメージから顔領域を検出することができ(S710)、検出された顔領域が入力イメージ内で有効な領域に位置するかどうかを判断することができる(S720)。仮りに、入力イメージから検出された顔領域が該当入力イメージの縁部分などに位置する場合にはグラフカットの正確度を保障することができないため、グラフカットを実行しないこともあり得る。
次に、図7を参照すれば、本発明の一実施形態に係る端末装置100は、グラフカットを実行するための初期値を設定することができる(S730)。より具体的に、端末装置100は、データベースに格納された少なくとも2つの人物領域パターンを入力イメージ上に整列させることができ(S731)、整列された少なくとも2つの人物領域パターンを基準として初期人物領域及び初期背景領域を設定することができ(S732、S733)、入力イメージから検出された顔領域に外接する楕円を基準として初期人物領域を補完することができる(S734)。グラフカットの初期値を設定する具体的な方法については、前述した初期値設定部120部分で詳細に言及されたので、これについての詳細な説明は省略する。
次に、図7を参照すれば、本発明の一実施形態に係る端末装置100は、以前ステップで設定された初期値に基づいてグラフカットを実行することができ、これにより入力イメージにおいて人物領域と背景領域とを区分させることができるようになる(S740)。また、図7を参照すれば、本発明の一実施形態に係る端末装置100は、互いに異なる条件でグラフカットをn回繰り返し行えるが、特に、n回繰り返し行われたグラフカットにより導き出されたn個の人物領域と背景領域とのカラーヒストグラム間のカイ二乗距離をそれぞれ算出し(S750)、n回のグラフカットにより導き出されたn対の人物領域及び背景領域のうち、前記カイ二乗距離が最も大きく算出された人物領域及び背景領域を最適な人物領域及び背景領域として決定することができる(S760)。参考までに、人物領域及び背景領域のカラーヒストグラム間のカイ二乗距離が大きいほど該当人物領域と該当背景領域との色分布が異なることを意味し得る。
次に、図7を参照すれば、本発明の一実施形態に係る端末装置100は、最適な人物領域及び背景領域に対して算出されたカイ二乗距離を既に設定されている臨界値と比較することによって、最適な人物領域及び背景領域が信頼できるか否かを判断することができる(S780)。
最後に、図7を参照すれば、本発明の一実施形態に係る端末装置100は、信頼できると判断された人物領域及び背景領域を基準として入力イメージの人物領域を他の興味深い背景イメージと合成することができる(S790)。
一方、本発明の一実施形態によれば、データベース(図示せず)には各複数の人物領域パターンが該当人物領域パターンに含まれている顔領域に関する情報(顔領域の位置、大きさなど)と連係して格納されることができる。本発明においてデータベース(図示せず)は、狭義のデータベースだけでなく、コンピュータファイルシステムに基づくデータの記録などを含む広い意味のデータベースまで含む概念であって、単純な演算処理ログの集合でもこれを検索して所定のデータを抽出できるのであれば、本発明でいうデータベースに含まれ得ることが理解されるべきである。また、本発明の一実施形態に係るデータベース(図示せず)は、本発明を実現する当業者の必要に応じて端末装置100に含まれて構成されてもよく、端末装置100と別個で構成されてもよい。
次に、本発明の一実施形態に係る通信部150は、端末装置100が移動通信サーバ(図示せず)、ウェブサーバ(図示せず)などの外部装置と通信できるようにする機能を実行する。
最後に、本発明の一実施形態に係る制御部160は、顔領域検出部110、初期値設定部120、グラフカット実行部130、イメージ合成部140及び通信部150間のデータの流れを制御する機能を実行する。即ち、制御部160は、外部からの又は端末装置100の各構成要素間のデータの流れを制御することによって、顔領域検出部110、初期値設定部120、グラフカット実行部130、イメージ合成部140及び通信部150でそれぞれ固有機能を実行するように制御する。
以上説明された本発明による実施形態は、多様なコンピュータ構成要素を通じて実行され得るプログラム命令語の形態で実現されてコンピュータ読み取り可能な記録媒体に記録されることができる。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独又は組み合わせにより含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され構成されたものであってもよく、コンピュータソフトウェア分野の当業者に公知となって使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピーディスク(登録商標)及び磁気テープのような磁気媒体、CD-ROM、DVDのような光気録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納し、実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例としては、コンパイラにより作られるもののような機械語コードだけでなく、インタープリタなどを用いてコンピュータにより実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために1つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定の事項と限定された実施形態及び図面により説明されたが、これは、本発明のより全般的な理解を促進するために提供されるだけで、本発明が前記実施形態に限定されるものではなく、本発明の属する技術分野において通常の知識を有する者であれば、このような記載から多様な修正及び変形を図ることができる。
従って、本発明の思想は、前記説明された実施形態に限定されて定められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等に又は等価的に変形された全てのものが本発明の思想の範疇に属すると言える。
100 端末装置
110 顔領域検出部
120 初期値設定部
130 グラフカット実行部
140 イメージ合成部
150 通信部
160 制御部

Claims (21)

  1. イメージにおいて人物領域と背景領域とを区分するために、グラフカットの初期値を設定する方法であって、
    (a)入力イメージから顔領域を検出するステップ、
    (b)既に格納されている複数の人物領域パターンのうち、前記検出された顔領域との類似度が既に設定されている値以上である顔領域を含む基準人物領域パターンを決定するステップ、及び
    (c)前記検出された顔領域を基準として入力イメージ上に前記基準人物領域パターンを整列させる場合、前記入力イメージの領域のうち、前記整列された基準人物領域パターンのうちのいずれか1つによってもカバーされない第1領域に背景用初期値を付与し、前記入力イメージの領域のうち、前記整列された基準人物領域パターンの全てによってカバーされる第2領域に人物用初期値を付与するステップ
    を含む方法。
  2. 前記既に格納されている複数の人物領域パターンは、前記既に格納されている複数の人物領域パターンに含まれている顔領域に関する情報と連係して格納されていることを特徴とする請求項1に記載の方法。
  3. 前記(b)ステップで、
    前記類似度は、前記入力イメージから検出された顔領域と前記既に格納されている複数の人物領域パターンに含まれる顔領域とが互いに共通する面積を参照して算出されることを特徴とする請求項1に記載の方法。
  4. 前記(c)ステップで、
    前記背景用初期値は、該当領域が背景領域である確率を示し、前記人物用初期値は、該当領域が人物領域である確率を示すことを特徴とする請求項1に記載の方法。
  5. 前記(c)ステップで、
    前記第2領域以外に、前記入力イメージから検出された顔領域に外接する楕円の内部に該当する領域にも前記人物用初期値を付与することを特徴とする請求項1に記載の方法。
  6. (d)前記人物用初期値及び前記背景用初期値のうちの少なくとも1つに基づいてグラフカットを実行することによって、前記入力イメージにおいて人物領域及び背景領域を区分するステップを更に含むことを特徴とする請求項1に記載の方法。
  7. 前記(d)ステップで、
    前記区分された人物領域のカラーヒストグラムと前記区分された背景領域のカラーヒストグラムとのカイ二乗距離が臨界値よりも大きければ、前記区分された人物領域及び前記区分された背景領域をそれぞれ最終人物領域及び最終背景領域として決定することを特徴とする請求項6に記載の方法。
  8. 前記(b)、(c)及び(d)ステップをn回繰り返し行い、前記n回の繰り返し実行の結果導き出されたn個の人物領域及び背景領域のうち、カラーヒストグラム間のカイ二乗距離が最も大きい人物領域及び背景領域を最終人物領域及び最終背景領域として決定し、前記(b)ステップの前記既に設定されている値をすべて異なるように設定することによって、前記第1領域及び前記第2領域が前記n回の繰り返し実行毎にすべて異なるように設定されることを特徴とする請求項6に記載の方法。
  9. (e)前記入力イメージのうち、前記区分された人物領域に該当する部分を任意の他のイメージと合成することによって出力イメージを生成するステップを更に含むことを特徴とする請求項6に記載の方法。
  10. 前記(e)ステップで、
    アルファ(α)ブレンディング技術を利用して前記出力イメージをブレンディング処理することを特徴とする請求項9に記載の方法。
  11. イメージにおいて人物領域と背景領域とを区分するために、グラフカットの初期値を設定する端末装置であって、
    入力イメージから顔領域を検出する顔領域検出部、及び
    既に格納されている複数の人物領域パターンのうち、前記検出された顔領域との類似度が既に設定されている値以上である顔領域を含む基準人物領域パターンを決定し、前記検出された顔領域を基準として入力イメージ上に前記基準人物領域パターンを整列させる場合、前記入力イメージの領域のうち、前記整列された基準人物領域パターンのうちのいずれか1つによってもカバーされない第1領域に背景用初期値を付与し、前記入力イメージの領域のうち、前記整列された基準人物領域パターンの全てによってカバーされる第2領域に人物用初期値を付与する初期値設定部
    を含む端末装置。
  12. 前記既に格納されている複数の人物領域パターンが前記既に格納されている複数の人物領域パターンに含まれている顔領域に関する情報と連係して格納されているデータベースを更に含むことを特徴とする請求項11に記載の端末装置。
  13. 前記類似度は、前記入力イメージから検出された顔領域と前記既に格納されている複数の人物領域パターンに含まれる顔領域とが互いに共通する面積を参照して算出されることを特徴とする請求項11に記載の端末装置。
  14. 前記背景用初期値は、該当領域が背景領域である確率を示し、前記人物用初期値は、該当領域が人物領域である確率を示すことを特徴とする請求項11に記載の端末装置。
  15. 前記初期値設定部は、
    前記第2領域以外に、前記入力イメージから検出された顔領域に外接する楕円の内部に該当する領域にも前記人物用初期値を付与することを特徴とする請求項11に記載の端末装置。
  16. 前記人物用初期値及び前記背景用初期値のうちの少なくとも1つに基づいてグラフカットを実行することによって、前記入力イメージにおいて人物領域及び背景領域を区分するグラフカット実行部を更に含むことを特徴とする請求項11に記載の端末装置。
  17. 前記グラフカット実行部は、
    前記区分された人物領域のカラーヒストグラムと前記区分された背景領域のカラーヒストグラムとのカイ二乗距離が臨界値よりも大きければ、前記区分された人物領域及び前記区分された背景領域を最終人物領域及び最終背景領域として決定することを特徴とする請求項16に記載の端末装置。
  18. 前記初期値の設定及び前記グラフカットの実行をn回繰り返し行い、前記n回の繰り返し実行の結果導き出されたn個の人物領域及び背景領域のうち、カラーヒストグラム間のカイ二乗距離が最も大きい人物領域及び背景領域を最終人物領域及び最終背景領域として決定し、前記初期値設定部の前記既に設定されている値をすべて異なるように設定することによって、前記第1領域及び前記第2領域が前記n回の繰り返し実行毎にすべて異なるように設定されることを特徴とする請求項16に記載の端末装置。
  19. 前記入力イメージのうち、前記区分された人物領域に該当する部分を任意の他のイメージと合成することによって、出力イメージを生成するイメージ合成部を更に含むことを特徴とする請求項16に記載の端末装置。
  20. 前記イメージ合成部は、
    アルファ(α)ブレンディング技術を利用して前記出力イメージをブレンディング処理することを特徴とする請求項19に記載の端末装置。
  21. 請求項1ないし10の何れか一項による方法を実行するためのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2012537799A 2009-11-04 2010-10-29 グラフカットの初期値を設定する方法、端末装置、及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP5194201B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020090106214A KR100967379B1 (ko) 2009-11-04 2009-11-04 그래프 컷의 초기값을 설정하는 방법, 단말 장치, 및 컴퓨터 판독 가능한 기록 매체
KR10-2009-0106214 2009-11-04
PCT/KR2010/007515 WO2011055930A2 (ko) 2009-11-04 2010-10-29 그래프 컷의 초기값을 설정하는 방법, 단말 장치, 및 컴퓨터 판독 가능한 기록 매체

Publications (2)

Publication Number Publication Date
JP2013511076A JP2013511076A (ja) 2013-03-28
JP5194201B2 true JP5194201B2 (ja) 2013-05-08

Family

ID=42645098

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012537799A Expired - Fee Related JP5194201B2 (ja) 2009-11-04 2010-10-29 グラフカットの初期値を設定する方法、端末装置、及びコンピュータ読み取り可能な記録媒体

Country Status (5)

Country Link
US (1) US8437550B2 (ja)
EP (1) EP2498221A4 (ja)
JP (1) JP5194201B2 (ja)
KR (1) KR100967379B1 (ja)
WO (1) WO2011055930A2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5955723B2 (ja) * 2012-09-27 2016-07-20 富士フイルム株式会社 画像処理装置および画像処理方法、並びに、画像処理プログラム
CN103489107B (zh) * 2013-08-16 2015-11-25 北京京东尚科信息技术有限公司 一种制作虚拟试衣模特图像的方法和装置
JP5811416B2 (ja) 2013-10-09 2015-11-11 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
JP6364837B2 (ja) * 2014-03-14 2018-08-01 オムロン株式会社 画像処理装置および領域分割方法
JP6467817B2 (ja) * 2014-08-22 2019-02-13 カシオ計算機株式会社 画像処理装置、画像処理方法、およびプログラム
JPWO2017009910A1 (ja) * 2015-07-10 2017-07-13 楽天株式会社 電子書籍表示装置、電子書籍表示方法、及びプログラム
JP6156855B2 (ja) * 2016-03-02 2017-07-05 富士フイルム株式会社 分類装置、分類プログラムおよび分類装置の動作方法
CN107729891A (zh) * 2017-12-01 2018-02-23 旗瀚科技有限公司 一种非对齐情况下人脸特征区域划分方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070023357A (ko) * 2005-08-24 2007-02-28 주식회사 케이티 사람 영역의 매스크 이미지를 이용한 배경 변조 장치 및 그방법
KR100698845B1 (ko) 2005-12-28 2007-03-22 삼성전자주식회사 인물 외형 추출 알고리즘을 이용한 영상 편집 방법 및 그장치
KR100813168B1 (ko) 2006-06-08 2008-03-17 삼성전자주식회사 사전 모양 정보를 이용한 디지털 영상에서의 물체를추출하기 위한 방법 및 상기 방법을 수행하는 시스템
JP4699298B2 (ja) * 2006-06-28 2011-06-08 富士フイルム株式会社 人体領域抽出方法および装置並びにプログラム
JP4905931B2 (ja) * 2006-07-04 2012-03-28 富士フイルム株式会社 人体領域抽出方法および装置並びにプログラム
US8233676B2 (en) * 2008-03-07 2012-07-31 The Chinese University Of Hong Kong Real-time body segmentation system
JP5141317B2 (ja) * 2008-03-14 2013-02-13 オムロン株式会社 対象画像検出デバイス、制御プログラム、および該プログラムを記録した記録媒体、ならびに対象画像検出デバイスを備えた電子機器
US8135182B2 (en) * 2008-04-22 2012-03-13 Eastman Kodak Company Method for creating photo cutouts and collages

Also Published As

Publication number Publication date
US8437550B2 (en) 2013-05-07
WO2011055930A3 (ko) 2011-08-11
JP2013511076A (ja) 2013-03-28
US20120093414A1 (en) 2012-04-19
EP2498221A4 (en) 2015-02-11
WO2011055930A2 (ko) 2011-05-12
EP2498221A2 (en) 2012-09-12
KR100967379B1 (ko) 2010-07-05

Similar Documents

Publication Publication Date Title
JP5194201B2 (ja) グラフカットの初期値を設定する方法、端末装置、及びコンピュータ読み取り可能な記録媒体
US11361526B2 (en) Content-aware selection
US10679146B2 (en) Touch classification
US9058644B2 (en) Local image enhancement for text recognition
US10616475B2 (en) Photo-taking prompting method and apparatus, an apparatus and non-volatile computer storage medium
CN111488791A (zh) 将指尖运动模式实时地设备上分类为手势
US9575566B2 (en) Technologies for robust two-dimensional gesture recognition
Seidenari et al. Deep artwork detection and retrieval for automatic context-aware audio guides
GB2549554A (en) Method and system for detecting an object in an image
US20180349509A1 (en) System and method for graph search enhancement
US10769808B2 (en) Apparatus and methods of automated tracking and counting of objects on a resource-constrained device
Shivakumara et al. New gradient-spatial-structural features for video script identification
Simond et al. Image aesthetics depends on context
US10440313B2 (en) Method, system and apparatus for spatially arranging a plurality of video frames for display
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
Jeong et al. Automatic detection of slide transitions in lecture videos
US20140050404A1 (en) Combining Multiple Image Detectors
Tsai et al. A one-shot face detection and recognition using deep learning method for access control system
Zhou et al. Research on recognition and application of hand gesture based on skin color and SVM
Wang et al. A convolutional neural network combined with aggregate channel feature for face detection
CN112232890A (zh) 数据处理方法、装置、设备及存储介质
AU2014277851A1 (en) Detecting a gap between text columns from text line fragments
EP3718080A1 (en) Surface color segmentation
da Silva Eleuterio et al. Identification of high-resolution images of child and adolescent pornography at crime scenes
CN114565967B (zh) 工牌人脸检测方法、终端以及存储介质

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120925

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5194201

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees