JP3256474B2 - 色映像信号における皮膚のトーンを定める装置およびその方法、ならびに、皮膚領域を符号化する装置およびその方法 - Google Patents

色映像信号における皮膚のトーンを定める装置およびその方法、ならびに、皮膚領域を符号化する装置およびその方法

Info

Publication number
JP3256474B2
JP3256474B2 JP27596397A JP27596397A JP3256474B2 JP 3256474 B2 JP3256474 B2 JP 3256474B2 JP 27596397 A JP27596397 A JP 27596397A JP 27596397 A JP27596397 A JP 27596397A JP 3256474 B2 JP3256474 B2 JP 3256474B2
Authority
JP
Japan
Prior art keywords
shape
pixel
color
skin
skin area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP27596397A
Other languages
English (en)
Other versions
JPH10162128A (ja
Inventor
浩行 岡田
デビッド ローゼンバーグ ジョナサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Nokia of America Corp
Original Assignee
Sharp Corp
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=24924381&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP3256474(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Sharp Corp, Lucent Technologies Inc filed Critical Sharp Corp
Publication of JPH10162128A publication Critical patent/JPH10162128A/ja
Application granted granted Critical
Publication of JP3256474B2 publication Critical patent/JP3256474B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/152Data rate or code amount at the encoder output by measuring the fullness of the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Processing Of Color Television Signals (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、映像を用いた電話
会議システムといった、マルチメディアへの応用向けの
低ビット速度通信システムに関するものである。より特
定すると、映像における皮膚領域の認識を行う方法及
び、システムに関するものである。
【0002】
【従来の技術】フルカラー、フルモーションの画像の保
存及び伝送への需要は増加しつつある。これらの画像
は、映画やテレビの製作におけるようなエンターテイメ
ント(娯楽)向けのみならず、技術的解析及び医療用画
像といった解析及び診断業務にも用いられている。
【0003】これらの画像をデジタル形式で提供するこ
とには、幾つもの利点がある。例えば、デジタル画像
は、画質の向上(強調)や操作がより行い易いのであ
る。また、デジタル映像の場合、最小限の信号劣化で、
何回にもわたって精緻に再生がなされることが可能であ
る。
【0004】一方、デジタル映像は、保存に相当量のメ
モリ容量を必要とし、同様に、伝送に高バンド幅(高帯
域幅)のチャネルを必要とする。例えば、256段階のグ
レーレベル(濃度レベル)を有する、512×512画素のグ
レースケール(無彩色スケール)での単一の画像は、そ
の保存に256,000バイト以上を必要とする。フルカラー
の画像では、ほぼ800,000バイトを必要とする。動きが
自然に見えるには、毎秒少なくとも30回は画像が更新さ
れることを要する。
【0005】従って、動きが自然に見える、フルカラー
の動画像向けの伝送チャネルは、毎秒およそ190メガビ
ット提供するものでなくてはならない。しかしながら、
テレビ電話、ビデオオンディマンド用セットトップボッ
クス、映像による電話会議システムを含めた、今日のデ
ジタル通信の応用例では、伝送チャネルにハンド幅(帯
域幅)の限界があり、映像情報を伝送するのに利用可能
なビット数は、毎秒190メガビット以下である。
【0006】その結果、デジタル映像信号を保存及び伝
送するに必要とされる情報量を低減させるのに、例え
ば、離散コサイン変換(discrete cosine transformati
on,DCT)といった、幾つもの画像圧縮技術が用いら
れてきた。これらの技術は一般に、デジタル映像を伝
送、記録、複製するために用いられたデータ量を低減さ
せるべく、本来の画像に存する多量の冗長性を利用する
ものである。
【0007】例えば、伝送される画像が、晴天の空の画
像であるとすれば、離散コサイン変換(DCT)による
画像データ情報は、多くのゼロデータ成分を有している
こととなる。というのは、そのような画像で描写された
対象(物)においては、変化がごく僅かか、あるいはほ
とんど存在していないからである。そこで、晴天の空の
画像情報は、少数の非ゼロデータ成分のみを伝送するこ
とで圧縮されるのである。
【0008】離散コサイン変換(DCT)のような画像
圧縮技術に関連した、一つの問題点は、このような技術
では、損失画像が生じるということである。というの
は、ビット速度を低減させるため、部分的な画像情報の
みが伝送されるからである。損失画像とは、復号された
画像内容を元の画像内容と比較すると、描かれた対象
(物)にひずみを含んでいる映像のことである。
【0009】映像による電話会議や電話による応用例の
ほとんどの場合、背景よりもむしろ人を含んでいる画像
へ関心が向けられていることから、ひずみのない映像を
伝送する能力が重要視されるのである。これは、見る者
(ビューアー)は自らの注意を、例えば衣服や背景とい
ったものに対する代わりに、映像シーケンスに含まれ
た、当該場面に存する人の顔、手、あるいはその他の皮
膚領域といった特定の特徴(対象)へ向ける傾向がある
と考えられるからである。
【0010】幾つかの状況では、映像シーケンスに含ま
れた顔の特徴を極めてうまく表現するということは、そ
の理解しやすさにとって優れたものとなるのである。例
えば、読唇術に依存していることが考えられる聴力障害
のあるビューアーの場合が、そのような例である。その
ような応用例の場合、顔の領域についてひずみを受けた
ものを含んでいる、復号された映像シーケンスは、見る
者(ビューアー)にとって困ったものとなりうる。
【0011】というのは。そのような画像シーケンス
は、顔の特徴が過度に平滑化されて描かれている場合が
多く、顔に人工的な特質を与えるのである。例えば、元
の映像に見られる顔に存するしわのような、細かい顔の
特徴は、圧縮され伝送された映像を復号したものにおい
ては消われている傾向があり、このようなことから、映
像を見る際の障害となるのである。
【0012】伝送されている画像の皮膚領域におけるひ
ずみを低減させる、幾つかの技術では、場面に存する人
の顔、手、その他の皮膚領域を含む映像の内容について
の、質に関する情報を抽出することに注目してきた。こ
れは、より少ないデータ圧縮成分を用いて、そのような
認識された領域を符号化するためである。従って、これ
らの認識された領域は、より大きな値のビット速度(ビ
ット/秒)を用いて、符号化され、伝送される。そこ
で、当該映像が復号された際、そのような認識された領
域が、ひずみを受けた特徴を含む程度は少なくなるわけ
である。
【0013】ある技術では、映像イメージのシーケンス
を、対称な形状を求めてサーチ(検索)する。ここで、
対称な形状とは、対称軸について同一のもの半分ずつに
分割可能な形状として定義される。対称軸とは、対象
(物)を等しい部分へと分割する線分のことである。対
称な形状の例としては、正方形、円、楕円などがある。
映像における対象(物)が、対称な形状を求めてサーチ
(検索)される場合、映像に示された顔や頭の一部につ
いては認識可能である。対称に描かれた顔や頭は、典型
的な場合、楕円の形状に近いものであり、目の間、鼻の
中心を通って、口の中間を横切って縦方向に位置する、
対称軸を有している。
【0014】半楕円のそれぞれは、対称である。という
のは、それぞれ、一つの目、鼻の半分、口の半分を含ん
でいるからである。しかしながら、映像において対称的
に描かれている顔及び頭のみが、認識可能であって、側
面で(側面の輪郭で)みた際には(左側を向いた場合あ
るいは右側を向いた場合)、顔や頭の認識はできない。
なぜなら、側面で(側面の輪郭で)みた顔や頭は、対称
軸を含んでいないからである。場面に存する人の手やそ
の他の皮膚領域についても、同様に対称なものではない
し、また、対称をベースとした技術を用いては認識不可
能である。
【0015】別の技術では、例えば楕円形、矩形、三角
形といった、特定の幾何学的形状を求めて映像をサーチ
(検索)するものがある。特定の幾何学的形状につき映
像をサーチ(検索)することで、しばしば頭及び顔を探
し出すことが可能となるが、それでもなお、場面に存す
る人の手やその他の皮膚領域を認識することはできな
い。というのは、そのような領域は、典型的な場合、特
定された幾何学的形状で表されることがないからであ
る。さらに、特定された幾何学的形状に近似するもので
ない、部分的に遮られたところのある顔及び頭も、同様
に認識可能ではない。
【0016】さらに別の技術では、映像のシーケンス
は、頭、顔、手を含む皮膚領域を認識するのに、色(色
相)を用いてサーチ(検索)される。色(色相)をベー
スにした認識は、特定された皮膚のトーン(色調)の集
合を用いて、適合する皮膚の色を有する対象(物)を求
めて、映像シーケンスをサーチ(検索)することに依存
している。色(色相)をベースにした認識は、ある場面
について手、顔、その他の皮膚領域を認識するに有用で
ある場合もある一方で、そのような領域の他の多くの場
合、認識されることができない。
【0017】なぜなら、すべての人が、皮膚の同じトー
ンを有しているということはないからである。さらに、
映像シーケンスの多くの皮膚領域における色の変化につ
いてもまた、検出不可能であろう。その理由としては、
適合する皮膚領域をサーチ(検索)するのに、特定され
た皮膚のトーンについての集合を用いるため、色をベー
スとした技術では、背景の照明あるいはシェーディング
による変化といった、対象(物)の色への予見不可能な
変化を補償することができないことがある。
【0018】
【発明が解決しようとする課題】このようなことから、
場面に存する人の手、顔、及びその他の皮膚領域を認識
する皮膚認識技術が、求められ続けているのである。
【0019】
【課題を解決するための手段】本発明は、映像における
皮膚領域を認識するための皮膚領域検出器に向けられた
ものであり、例示的な実施例では、映像符号化/復号化
(Codec)装置の映像符号器(ビデオ・コーダ)と結び
つけて用いられている。皮膚領域検出器は、映像シーケ
ンスにおけるすべての対象(物)の形状を最初に解析
し、皮膚領域を含んでいる可能性のある対象(物)の位
置を割り出すことで、映像フレームにおける皮膚領域を
認識する。皮膚領域を含んでいる可能性のある対象
(物)はさらに解析され、そのような対象(物)の画素
が、皮膚領域に特徴的な信号エネルギーを有しているか
を判断する。
【0020】ここで用いられた信号エネルギーという語
は、映像信号における、特定された画素グループについ
ての輝度(明るさ)パラメーターの二乗の合計を示して
いる。信号エネルギーは、2つの成分を含んでいる。即
ち、直流(DC)信号エネルギーと交流(AC)信号エ
ネルギーである。さらに、皮膚領域に特徴的な信号エネ
ルギーを有する画素を伴った対象(物)についての色パ
ラメーターが、サンプリング(標本化)され、対象
(物)に対する皮膚のトーンの値についての範囲を決定
する。そこで、解析された対象(物)についての皮膚の
トーンの値で、このようにサンプリングされたものの範
囲は、映像に含まれたすべてのトーンと比較される。
【0021】これは、皮膚のトーンの値で同一の値を有
する他の領域を、当該映像シーケンスにおいて認識する
ようにするためである。皮膚領域に特徴的な信号エネル
ギーの判断及び形状解析を基に、対象(物)における皮
膚領域の可能性のある部分を認識するのは有効であると
いえる。というのは、皮膚のトーンの値についての範囲
を判断するため、そのように認識された対象(物)の色
サンプリングを続いて行うことで、対象(物)における
色の変化を自動的に補償し、映像シーケンスの内容(コ
ンテンツ)に関する皮膚検出は動的なものとなるからで
ある。
【0022】ここでの例示的な具体例では、皮膚領域検
出器は統合されているが、符号器、復号器、符号化コン
トローラーといったものを含む映像符号化/復号化(Co
dec)装置の他の構成要素部分とは独立して機能してい
る。一つの実施例では、皮膚領域検出器は、入力映像信
号と符号化コントローラーの間に挿入されており、映像
の符号化に先だって、映像シーケンスにおける皮膚領域
の位置に関連した入力を提供している。
【0023】本発明の一つの例においては、皮膚領域検
出器は、形状ロケーター(形状位置決め器)とトーン検
出器を含んでいる。形状ロケーター(形状位置決め器)
は、入力映像シーケンスを解析し、映像フレームにおけ
るすべての対象(物)のエッジ(端部)を認識し、その
ようなエッジが、皮膚領域を含んでいる可能性のある形
状の輪郭に近似しているかを判断する。形状ロケーター
(形状位置決め器)は、皮膚領域を含んでいる可能性の
ある、ある形状を認識するようにうまくプログラムされ
ている。例えば、人の顔はおおよそ楕円の形状を有して
いることから、形状ロケーター(形状位置決め器)は、
映像信号において楕円形状をした対象(物)をサーチ
(検索)するようプログラムされている。
【0024】映像フレーム全体は、あまりに大きすぎる
ため、全体にわたって解析することはできないため、入
力映像シーケンスの映像フレームは、最初に幾つかの画
像領域に区切られている方が有利である。各画像領域に
ついてはさらに、隣接する画素に対する、画素強度の大
きさにおける変化を元に、対象(物)のエッジが決定さ
れる。各画像領域において、隣接する画素に対する画素
強度の大きさにおける変化が、特定された大きさよりも
大きい場合には、そのような画像領域の位置は、対象
(物)のエッジあるいはエッジの一部を含むものとして
認識されるのである。
【0025】その後、認識されたエッジあるいは認識さ
れたエッジの一部は、さらに解析され、対象(物)の輪
郭を表している、そのようなエッジが、皮膚領域を含ん
でいる可能性のある形状に近似しているのかを判断す
る。皮膚領域は、大抵の場合、人間の形状のより滑らか
な曲線(例えば、首筋やあご先の曲線)により画定され
ていることから、角張った境界は、典型的な場合、皮膚
領域を示しているものではない。
【0026】従って、より滑らかな人間の形状と関連し
ている輪郭は、大抵、皮膚領域を含んでいる可能性のあ
るものとして選択される。例えば、楕円形は、人の顔や
頭の形状に近似していることから、楕円形に近似してい
る対象(物)の輪郭を認識するのに、映像シーケンスの
解析を行うことで、当該映像シーケンスにおいて皮膚領
域を含んでいる可能性のある位置をうまく決定すること
となる。また、映像による会議の場合、典型的には、少
なくとも任意の人間がカメラに面していることから、誰
かが部屋に在室しているとすれば、楕円形状が認識され
る可能性がある。
【0027】皮膚領域を含んでいる可能性のある対象
(物)について、一旦、形状ロケーター(形状位置決め
器)により位置が突き止められると、トーン検出器は、
位置が定められた対象(物)の画素を検証し、そのよう
な画素が皮膚領域に特徴的な信号エネルギーを有してい
るかを判断する。さらに、そのような認識された対象
(物)について、皮膚のトーンについての範囲をサンプ
リングし、サンプリングされた皮膚のトーンについての
範囲をフレーム全体におけるトーンと比較し、適合する
皮膚のトーンをすべて決定する。本実施例においては、
輝度パラメーターの信号エネルギー成分(DC及びAC
エネルギーなる構成要素)は、離散コサイン変換(DC
T)技術を用いてうまく決定される。
【0028】本発明の技術では、皮膚領域を含んでいる
可能性があるものとして認識された対象(物)におけ
る、特定された画素グループについての信号エネルギー
の離散コサイン変換(DCT)が演算される。その後、
各画素のACエネルギーによる成分は、当該離散コサイ
ン変換(DCT)から、各画素のDCエネルギーによる
成分を引く(減ずる)ことで決定される。
【0029】各画素についてのACエネルギーによる成
分の値を元に、当該画素が、皮膚領域に特徴的なAC信
号エネルギーを有しているかについての判断がなされ
る。検証された画素についてのAC信号エネルギーが、
特定された値よりも小さい場合には、典型的には、その
ような画素は皮膚に関する画素として認識される。その
後、トーン検出器は、そのような認識された画素の色パ
ラメーターをサンプリングして、対象(物)の領域内に
含まれる、皮膚のトーンを示している色パラメーターの
範囲を決定する。
【0030】トーン検出器によりサンプリングされた色
パラメーターは、有利なことに、クロミナンスパラメー
ターCr、Cbとなっている。ここで用いられているクロ
ミナンスパラメーターという語は、映像信号についての
色差の値を示しており、ここで、Crとは、赤色の成分
と映像信号の輝度パラメーター(Y)との間の差として
定義され、Cbとは、青色の成分と映像信号の輝度パラ
メーター(Y)との間の差として定義される。続いて、
トーン検出器は、サンプリングされた対象(物)から認
識された皮膚のトーンの値についての範囲を映像フレー
ムの残りについての色パラメーターと比較して、他の皮
膚領域を認識する。
【0031】その後、本発明の皮膚領域検出器は、映像
シーケンスの次のフレームを解析して、皮膚のトーンの
値についての範囲を決定し、次の映像フレームにおける
皮膚領域を認識する。皮膚領域検出器は、選択的には、
映像シーケンスの一つのフレームで認識された、皮膚の
トーンの値についての範囲を用いて、映像シーケンスの
次のフレームにおける皮膚領域を認識することも行う。
【0032】皮膚領域検出器は、選択的には、人の顔あ
るいは頭の形状に近似する対象(物)を解析するのに、
目−鼻−口(eyes-nose-mouth,ENM)領域検出器を含
んで、目−鼻−口(eyes-nose-mouth,ENM)領域の位
置を決定する。一実施例では、ENM検出器は、形状ロ
ケーター(形状位置決め器)とトーン検出器の間に挿入
され、ENM領域の位置を認識し、そのような領域をト
ーン検出器による解析のベースとして用いる。目−鼻−
口(eyes-nose-mouth,ENM)領域検出器は、対称性を
ベースとした方法を利用して、人の顔あるいは頭の形状
に近似している対象(物)内に位置したENM領域を認
識するものである。目−鼻−口(eyes-nose-mouth,EN
M)領域が認識されるのは有効であるといえる。
【0033】というのは、顔のそのような領域は、例え
ば、目の色についてのパラメーター、眉毛の色のパラメ
ーター、唇の色のパラメーター、及び髪の色のパラメー
ターといった、皮膚のトーンについてのパラメーターよ
り他の色パラメーターはもちろん、皮膚の色についての
パラメーターも含んでいるからである。また、目−鼻−
口(eyes-nose-mouth,ENM)領域の認識は、演算上の
複雑さを低減させるものである。なぜなら、皮膚のトー
ンについてのパラメーターは、認識された対象(物)の
僅かな領域からサンプリングされるからである。
【0034】
【発明の実施の形態】図1は、本発明の例示的な応用例
を示しており、ここで、皮膚領域検出器12は、例え
ば、映像コーデック(codec、符号器/復号器)10と
いった、映像符号化/復号化システムと結びつけて用い
られている。映像コーデック(codec、符号器/復号
器)10のような映像符号化/復号化システムは、主と
して、画像圧縮技術をベースとして映像シーケンスの符
号化及び復号化を行う、電話会議に関連する産業におい
て利用されている。
【0035】映像シーケンスの符号化及び復号化にとっ
て有用な、画像圧縮技術の例としては、ITU−T勧告
H.263(「狭帯域通信チャネル用映像符号化」)に
おいて記述された、離散コサイン変換(Discrete Cosin
e Transform,DCT)による方法がある。もちろん、本発明
は、映像符号器/復号器(codec、コーデック)より他
の、例えば、映画編集装置といった映像システムについ
ても有用であることは理解されるべきである。実際、本
発明は、デジタルカラー映像信号が入力である任意の装
置において利用に供されるべく応用可能である。
【0036】本発明の一実施例は、図1に例示されてい
る。これは、映像コーデック(codec、符号器/復号
器)10内に配置された、皮膚領域検出器12(点線で
囲まれた部分)を示している。皮膚領域検出器12は、
統合されているものの、映像コーデック(codec、符号
器/復号器)10の他の構成要素部分とは独立して機能
している。例えば、映像コーデック(codec、符号器/
復号器)10は、映像符号器22、映像復号器24、符
号化コントローラー16といった付加的な構成要素部分
を含んでいる。そのような構成要素部分については、映
像コーデック(codec、符号器/復号器)10の動作に
関する以下の説明と結びつけて議論されることとなろ
う。
【0037】図2のブロック線図でより詳細に示され
た、皮膚領域検出器12は、形状ロケーター(形状位置
決め器)50及びトーン検出器56を含んでいる。形状
ロケーター(形状位置決め器)50及びトーン検出器5
6により提示された機能は、ソフトウエアを実行させる
ことの可能なハードウエアを含めた、共有ないしは専用
ハードウエアを利用することを通じて選択的に提供され
る。例えば、形状ロケーター(形状位置決め器)50及
びトーン検出器56の機能は、単一の共有プロセッサー
か、あるいは複数の個々のプロセッサーによって選択的
に提供される。
【0038】また、形状ロケーター(形状位置決め器)
50及びトーン検出器56を表している、個々の機能的
なブロックを用いていることは、ソフトウエアを実行可
能なハードウエアに専ら限って示しているものと解され
るべきではない。上で記述された機能的ブロックについ
ての付加的な例示的実施例としては、例えば、AT&T
社のDSP16あるいはDSP32Cといった、デジタ
ルシグナルプロセッサー(DSP)というハードウエ
ア、以下で論じられる動作を実行するソフトウエアを保
存するための読み出し専用メモリ(ROM)、デジタル
シグナルプロセッサー(DSP)の結果を保存するラン
ダムアクセスメモリー(RAM)を含んでいる。
【0039】また、選択的には、汎用デジタルシグナル
プロセッサー(DSP)回路と組み合わせたカスタムV
LSI回路同様に、超大規模集積(VLSI)ハードウ
エアによる実施例も考えられる。そういった実施例の任
意のもの、あるいはすべてのものは、形状ロケーター
(形状位置決め器)50及びトーン検出器56と表記さ
れた機能的ブロックの意味の中に入るものと考えられ
る。
【0040】本発明は、映像シーケンスにおける皮膚領
域を認識するものである。形状ロケーター(形状位置決
め器)50は、映像フレームにおけるすべての対象
(物)のエッジの認識、及び、そういったエッジの任意
のものが所定の形状の輪郭に近似しているかについての
判断を基にして、映像フレームにおいて皮膚領域と目さ
れる部分を最初に探し出す。所定の形状に対する近似を
基にエッジの解析を行うことは、重要なことといえる。
【0041】というのは、皮膚領域を含んでいる可能性
のある対象(物)は、認識される高い確率を有している
からである。例えば、幾つかの例においては、人の顔あ
るいは頭は、楕円形の形状にほとんど近似していること
になろう。従って、楕円形を認識するべく映像フレーム
の解析を行うことで、一部の皮膚領域の位置割り出しに
ついて高い確率を提供するといえる。
【0042】皮膚領域の可能性があるものとして認識さ
れた対象(物)は、その後、トーン検出器56により解
析されて、そのような対象(物)の任意のものについて
の画素が、皮膚領域に特徴的な信号エネルギーを有して
いるかを判断する。ここでの開示で用いられた、信号エ
ネルギーなる語とは、映像信号における特定の画素グル
ープについての、輝度(明るさ)パラメーターの二乗の
合計を示しており、直流(DC)信号エネルギーと交流
(AC)信号エネルギーという2つのエネルギー成分を
含んでいる。そこで、皮膚領域に特徴的な信号エネルギ
ーを有している画素を伴った対象(物)の色パラメータ
ーがサンプリングされて、当該対象(物)に対する皮膚
のトーン(色)の値についての範囲を決定する。
【0043】当該対象(物)に対する皮膚のトーンの値
についての範囲はさらに、映像に含まれたすべてのトー
ンと比較される。これは、当該映像シーケンスにおい
て、皮膚のトーンについて同一の値を有する他の領域を
認識するようにするためである。信号エネルギーについ
ての解析、さらに、皮膚のトーンの値についてのサンプ
リングがなされることをベースとして皮膚領域が認識さ
れる際には、皮膚検出は、映像シーケンスの内容(コン
テンツ)に関して動的になされているといえる。という
のは、認識された対象(物)について皮膚のトーンのサ
ンプリングを行うことで、背景の照明あるいはシェーデ
ィングによる変化といった、対象(物)のトーンに対す
る予見不可能な変化を自動的に補償するからである。
【0044】形状ロケーター(形状位置決め器)50及
びトーン検出器56の両方の構成要素部分は、図2を参
照して、皮膚領域検出器12の動作の説明の一部として
以下で記述されている。対象(物)の画像に対応するフ
レームシーケンスを時間の関数として表現している入力
映像信号26は、従来の映像カメラ(ビデオカメラ)
(示されていない)から形状ロケーター(形状位置決め
器)50へと供給されている。従来の映像カメラ(ビデ
オカメラ)としては、例えば、シャープ株式会社により
製造されている、View Camがある。
【0045】形状ロケーター(形状位置決め器)50
は、入力映像信号26のフレームの少なくとも一つを解
析して、フレーム内のすべての対象(物)のエッジを認
識し、エッジあるいはエッジの一部が、皮膚領域を含ん
でいる可能性のある形状に近似しているかを判断する。
皮膚領域を含んでいる可能性のある形状の例としては、
楕円形、弧形、及び曲線等がある。ここでの開示におい
て用いられた曲線という語とは、直線ではないエッジの
一部を少なくとも有している形状のことを示している。
【0046】形状ロケーター(形状位置決め器)50の
構成要素部分は、図3で例示されており、粗スキャナー
100、精細(細密)スキャナー102、形状フィッタ
ー104、はもちろん、形状位置プリプロセッサー94
を含んでいる。形状フィッター104は、形状ロケータ
ー(形状位置決め器)信号106を生成し、これは、ト
ーン検出器56へと供給される。
【0047】形状位置プリプロセッサー94は、映像領
域を解析し、映像フレームに含まれた対象(物)のエッ
ジを認識するよう機能する。これらの形状位置プリプロ
セッサー94は、ダウンサンプラ118、フィルター1
20、デシメーター122、エッジ検出器124、しき
い値回路126を含む、図4で例示されるような、プリ
プロセッシング回路を組み込んでいる。
【0048】時間に関するダウンサンプラ118は、入
力映像信号26において利用可能な全フレーム数から、
解析目的のため、少数のフレームのみを選択することに
よって、形状認識のために利用可能な映像信号のフレー
ム数を制限するよう機能する。例示的な具体例として
は、入力映像信号26のような映像信号についての典型
的なフレームレートとしては、おおよそ毎秒30フレー
ム(30fps)で近似され、この場合、連続する各フレ
ームは、前のフレームと本質的に同一の情報を含んでい
る。
【0049】連続する各フレームが本質的に同一の情報
を含んでいることから、形状解析のためには、映像信号
から少数のフレームのみを選択することで、演算上の複
雑さを低減させることが有効といえる。そこで、本例に
関しては、演算上の複雑さを低減させるため、ダウンサ
ンプラは、形状解析のため入力映像信号について全フレ
ームの4分の1のフレームのみを選択するものとする。
その結果、ダウンサンプラーは、形状ロケーター(形状
位置決め器)50への入力としてのフレームレートを、
毎秒およそ30フレーム(30fps)というレートから
毎秒およそ7.5フレーム(7.5fps)というレート
へと低減させる。
【0050】フィルター120は、典型的には、ダウン
サンプリングされた映像フレームの空間フィルタリング
を実行するための分離形フィルターであり、360×2
40の画素サイズを有し、π/cという遮断周波数(カ
ットオフ周波数)を有している。ここでcとは、有利な
ことに、以下で論じるデシメーション(分割)ファクタ
ーに等しいものである。典型的な場合、フィルター12
0のようなフィルターは、周波数の範囲を画定する。
【0051】ダウンサンプリングされた入力映像信号2
6のような信号がフィルター120へ供給されると、映
像信号に含まれた周波数で、当該フィルターについて画
定された周波数の範囲内にあるもののみが出力となる。
映像信号に含まれた周波数で、当該フィルターについて
画定された周波数の範囲外にあるものについては、抑制
されることとなる。フィルター120の例としては、有
限インパルス応答(finite impulse response、FIR)フ
ィルター及び無限インパルス応答(infinite impulse r
esponse,IIR)フィルターがある。
【0052】フィルターを通された映像信号は、デシメ
ーター122への入力となる。ここで、エッジ解析のた
め、映像フレームの水平方向及び垂直方向の広がりは、
所定のより小さいサイズを持つ画像領域へと分割され
る。例示的な具体例として、デシメーター122のよう
なデシメーターが、c=8というデシメーションファク
ター(デシメーション因子)を有しており、かつ、映像
フレームが360×240の画素寸法を有しているとす
れば、映像フレームは、45×30の画素寸法を有する
画像領域へと分割される。
【0053】エッジ検出器124は、映像フレームの分
割された画像領域のそれぞれについてエッジ検出を実行
し、対象(物)のエッジを求めてサーチ(検索)を行
う。任意の映像フレームにおける対象(物)のエッジ
は、典型的には、隣接する各画素についての画素強度の
大きさにおける変化により特徴付けられる。例えば、3
×3の画素サイズの画像領域が、対象(物)のエッジを
含んでいないとすれば、そのような画像領域を表してい
る、隣接する各画素についての画素強度の大きさは、以
下の行列A(数1)に示されるようにほとんど等しいも
のとなる。
【数1】
【0054】一方、3×3の画素サイズの同様の画像領
域が、対象(物)のエッジを含んでいるとすれば、その
ような画像領域を表している、隣接する各画素について
の画素強度の大きさは、以下の行列B(数2)に示され
るように、鋭い遷移(変化)を含むこととなる。
【数2】
【0055】エッジ検出器124といった、エッジ検出
器は、ソーベル(Sobel)演算子を含む技術を利用して、
分割された画像領域について、例えば行列AあるいはB
で示された、隣接する画素についての画素強度の大きさ
と、δxおよびδyといった二次元ソーベル(Sobel)演算
子の畳み込みの二乗を合計することで、対象(物)のエ
ッジを認識する。例示的な具体例としては、ソーベル
(Sobel)演算子技術を用いて、水平方向にはδxという
演算子、垂直方向にはδyという演算子により二次元形
式で表現された、ソーベル(Sobel)演算子が以下の数3
のように記述されているとすれば、
【数3】
【0056】これらの演算子は、例えば行列Aについて
の隣接する画素に対する画素強度のような、対象(物)
のエッジを含んでいない画像領域における、隣接する画
素についての画素強度の大きさをもって畳み込まれる。
これは以下(数4)のように示される。
【数4】 結果としての畳み込みは、部分的には以下(数5)で示
すような結果を生成する。
【数5】
【0057】ここでの大きさは、二次元において0に近
似しているものである。一方、例えば行列Bにおいて示
された、隣接する画素についての画素強度のように、対
象(物)のエッジを含む画像領域における隣接する画素
についての画素強度の大きさをもって、ソーベル(Sobe
l)演算子が畳み込まれる場合には、結果としての畳み込
みは、部分的には以下(数6)で示すような結果を生成
する。
【数6】 ここでの大きさは0に近似するものではない。例えば、
上で記述したソーベル(Sobel)演算子技術を利用してい
るエッジ検出技術は、映像フレームについての分割され
た45×30の画素領域のそれぞれにつき実行される。
【0058】さらに、しきい値回路126は、分割され
た45×30の各画素領域における画素を認識する。そ
のような認識された画素に0でない数値を割り当てる際
には、隣接する画素についての、畳み込まれ、二乗さ
れ、合計された画素強度の大きさは、特定された値より
も大きなものとなる。隣接する画素についての、畳み込
まれ、二乗され、合計された画素強度の大きさが、しき
い値回路126の特定された値よりも小さい場合には、
画素には0という数値が割り当てられる。
【0059】引き続いて、0でない画素の値に対応する
エッジデータ信号128が、しきい値回路126により
生成される。しきい値回路126のような、しきい値回
路を組み込むことで、輪郭を付けられた皮膚領域でエッ
ジでないものが、エッジとして誤って認識されることを
うまく防いでいる。というのは、隣接する画素について
画素強度の大きさにおける僅かな変化によって、典型的
な場合、畳み込まれ、二乗され、合計された(画素強度
の)大きさが、しきい値回路126の特定された値より
も小さいものとなるからである。
【0060】再度、図3を参照すると、形状位置プリプ
ロセッサー94により生成されたエッジデータ信号12
8は、形状ロケーター(形状位置決め器)50の粗スキ
ャナー100への入力となる。粗スキャナー100は、
形状位置プリプロセッサー94により供給されたエッジ
データ信号128をB×Bの画素サイズのブロックへと
セグメント化する(切り出す)。例えば、5×5の画素
サイズのブロックへとセグメント化する。ブロックにお
ける画素の少なくとも一つが、上で論じたように、0で
ない値を有している場合には、各ブロックは、さらに粗
スキャナー100によりマーキングされる。
【0061】そこで、セグメント化されたB×Bのブロ
ックのアレーは、例えば、左から右へ、上部から下部へ
といったようにしてスキャンされ、マーキングされたブ
ロックの隣接するランを求めてサーチ(検索)がなされ
る。マーキングされたブロックについての、そのような
各ランについて、精細(細密)スキャニングと形状フィ
ッティングが実行される。形状ロケーター(形状位置決
め器)50の構成要素部分として粗スキャナー100を
含めることは、利用されるシステムについての演算上の
複雑さによって、選択の余地がある。
【0062】精細(細密)スキャナー102は、セグメ
ント化され、マーキングされたB×Bのブロックについ
ての隣接するランそれぞれにおける画素を、例えば、左
から右へ、上部から下部へといったようにしてスキャン
し、画素の各列において、0でない値を有している最初
の画素と0でない値を有している最後の画素を検出す
る。各列について検出された、0でない最初と最後の画
素は、それぞれ、座標(xstart,y)及び(xend,y)とラベ
ル付けされる。
【0063】形状フィッター104は、画素の各列につ
いて(xstart,y)及び(xend,y)とラベル付けされた座標
をスキャンする。形状フィッター104のメモリに保存
された、様々なサイズ及びアスペクト比を持った幾何学
的形状で、皮膚領域を含んでいる可能性のあるものは、
そこで、ラベル付けされた座標領域と比較される。これ
は、おおよその形状の適合を判断するためである。所定
の形状についてよく適合する組み合わせから、例えば、
楕円形といったような皮膚領域を含む可能性のある形状
の輪郭を判断すると、形状ロケーター(形状位置決め
器)50は、よく適合した形状についての座標を基に、
形状位置信号106を生成し、そのような形状位置信号
106をトーン検出器56へと供給する。
【0064】対象(物)が皮膚領域を含んでいる可能性
を示している境界を伴った、当該対象(物)の位置につ
いて形状ロケーター(形状位置決め器)50が認識する
と、トーン検出器56は、そのような対象(物)が、皮
膚領域に特徴的な信号エネルギーを含んでいるかについ
て解析を行うよう機能する。当該対象(物)が、皮膚領
域に特徴的な信号エネルギーを含んでいる場合には、皮
膚のトーンの値についての範囲を認識するため、トーン
検出器56は、当該対象(物)の色パラメーターをサン
プリングする。さらにトーン検出器56は、皮膚のトー
ンの値についての認識された範囲を映像フレームの残り
についての色パラメーターと比較して、皮膚のトーンの
同じ値を含む他の領域を認識する。
【0065】カラーデジタル映像信号は、赤色(R)、
緑色(G)、青色(B)という成分を含んでおり、典型
的には、標準YUVカラー映像フォーマットで利用可能
である。ここで、Yとは、輝度パラメーターを表してお
り、U及びVはクロミナンスパラメーターを表してい
る。輝度(Y)パラメーターは映像の明るさを特徴付け
ており、一方、クロミナンス(U,V)パラメーター
は、2つの色差の値、Cr、Cbを定義している。輝度
(Y)パラメーター、色差の値、Cr、Cbと3つの色の
成分R、G、Bとの間の関係は、典型的には次のように
表現される。 Y=0.299R+0.587G=0.114B Cr=R−Y Cb=B−Y
【0066】本発明の一実施例では、図5で示されたよ
うに、トーン検出器56は、皮膚領域検出器200、C
rヒストグラム生成器201、Cbヒストグラム生成器2
03、Cr範囲検出器205、Cb範囲検出器207、ト
ーン比較器209を含んでいる。
【0067】皮膚領域検出器200は、入力映像信号2
6を形状位置信号106と相互に関連付け、そこで、映
像フレームにおいて認識された対象(物)は、形状ロケ
ーター(形状位置決め器)50によりD×Dの画素ブロ
ックへとセグメント化される。D=2のときには、皮膚
領域検出器200は、認識された形状を2×2の画素ブ
ロックへとうまくセグメント化する。これは、2×2の
画素ブロックすべてについて、一つのCrの値と一つの
bの値を得るためはもちろん、各画素について一つの
輝度パラメーターを得るためである。
【0068】例示的な具体例として、図6は、画素30
0についての4×4のブロックを示している。輝度パラ
メーター(Y)301は、各画素300について存在し
ている。一方、画素300についての2×2の各ブロッ
クは、一つのCrの値302と一つのCbの値303を有
しており、水平及び垂直の両方向における中間点に存在
している。このように、2×2の画素ブロックそれぞれ
は、一つのCrの値302と一つのCbの値303はもち
ろん、4つの輝度(Y)パラメーター301を含んでい
る。上で論じたように、認識された対象(物)について
皮膚のトーンのサンプリングが実行される際には、一つ
のCrの値のみと一つのCbの値のみを含めるべく、その
ようなセグメント化を行うことは重要であるといえる。
【0069】D×Dの各画素ブロックが皮膚領域に特徴
的な信号エネルギーを有しているかを判断することで、
皮膚領域検出器200は、認識された対象(物)周辺に
あるD×Dの画素ブロックいずれが皮膚領域を表してい
るのかを解析するよう機能している。カラー映像信号の
輝度(Y)パラメーターは、2つの信号エネルギー成分
を有している。すなわち、交流(AC)エネルギー成分
と直流(DC)エネルギー成分である。皮膚領域の画素
は、典型的には、特定されたしきい値エネルギーTen
りも小さい値を伴った交流(AC)エネルギー成分を有
している。
【0070】本発明の実施例では、カラー映像信号の輝
度(Y)パラメーターについての交流(AC)エネルギ
ー成分に関する演算に基づいて、皮膚領域が検出され
る。ITU−T勧告H.263(「狭帯域通信チャネル
用映像符号化」)において記述された、離散コサイン変
換(Discrete Cosine Transform,DCT)技術を含む方法
が、輝度(Y)パラメーターの信号エネルギーを演算す
るのに有用である。
【0071】例示的な具体例として、D×Dの各画素ブ
ロックについての輝度パラメーターに関する交流(A
C)エネルギー成分と直流(DC)エネルギー成分は、
以下に示されているように、数7の式から、各画素につ
いて離散コサイン変換(DCT)の関数F(u,v)を最初
に演算することで決定される。
【数7】 ここでF(u,v)とは、離散コサイン変換(DCT)の関
数を表しており、C(u)及びC(v)は、以下のよう
に定義される。 C(ω)=1/21/2 (ω=0) C(ω)=1 (ω=1,2,3,...) これらは、D×Dの画素ブロックについての各画素位置
F(u,v)につき合計される。
【0072】さらに、交流(AC)信号エネルギーE
(m,l)は、以下の数8の式に示されているように、
離散コサイン変換の関数F(u,v)の二乗から直流
(DC)信号エネルギーFm,l(0,0)の二乗を引く
ことで決定される。
【数8】 そこで、交流(AC)信号エネルギーE(m,l)は、
しきい値エネルギーTenと比較される。D×Dの各画素
ブロックについて、交流(AC)信号エネルギーE
(m,l)が、あらかじめ選択されたしきい値エネルギ
ーTenよりも小さい場合には、画素ブロックは、以下に
示されるように、皮膚領域として認識される。 E(m,l)<Ten 皮膚領域 E(m,l)≧Ten 非皮膚領域
【0073】典型的には、D×Dの画素ブロックが、12
0,000よりも小さい交流(AC)信号エネルギーの値を
有している際には、そのような画素ブロックは皮膚領域
として認識される。皮膚領域を判断するのに輝度パラメ
ーターの信号エネルギー成分を利用するのは有効である
といえる。というのは、非皮膚領域は、皮膚領域より
も、より高い信号エネルギー成分を有する傾向があるか
らである。そのような非皮膚領域を認識し、色サンプリ
ングプロセスからそれらの領域を取り除くことで、サン
プリングされた画素の色が、実際に皮膚領域の画素とな
る確率が増加し、従って、サンプリングされるトーンの
範囲の精度が改善されることになる。
【0074】D×Dの画素ブロックが、皮膚領域検出器
200により皮膚領域として一旦認識されると、当該D
×Dの画素ブロックについてのCrの値とCbの値は、そ
れぞれ、Crヒストグラム生成器201及びCbヒストグ
ラム生成器203によりサンプリングされる。前に論じ
たように、D×Dの画素ブロックが、2×2の画素ブロ
ックであるとすれば有効である。というのは、そのよう
なブロックは、一つのCrの値のみと一つのCbの値のみ
を含んでいるからである。そこで、Crヒストグラム生
成器201とCbヒストグラム生成器203の両方は、
サンプリングされたCrとCbの値それぞれについてのヒ
ストグラムを生成する。
【0075】一旦、CrのヒストグラムとCbのヒストグ
ラムが生成されると、サンプリングされた対象(物)に
ついての皮膚のトーンを表している色パラメーターの範
囲は、統計解析技術を用いて、Cr範囲検出器205及
びCb範囲検出器207を用いて決定される。例えば、
サンプリングされたD×Dの各画素ブロックに対する、
rとCbの値の平均値とモード値が、各データセットに
ついて決定される。CrとCbの値の平均値とモード値
が、それぞれについて特定された距離Dp内にある際に
は、そのようなCrとCbの値の平均値とモード値は、単
一のピークを表しているものとして認識される。
【0076】その後、D×Dの各画素ブロックについ
て、画素の色パラメーターが、単一のピークを表すCr
とCbの値の平均値とモード値についての所定の距離、
例えば、ある標準偏差、の範囲内にある場合には、当該
画素の色パラメーターは、皮膚のトーンの値についての
範囲に含まれる。平均値とモード値が、特定された距離
pよりも大きい際には、CrとCbの値の平均値とモー
ド値は2つの個別なピークを表しているものとして認識
される。D×Dの画素ブロックについての画素の色パラ
メーターが、2つの個別なピークを表している、Cr
bの値の平均値とモード値を伴っている場合には、そ
れらは皮膚のトーンの値についての範囲に含まれない。
【0077】Cr範囲検出器205及びCb範囲検出器2
07それぞれにおいて生成された、CrとCbの値の範囲
を基に、トーン比較器209は、入力映像信号26の全
フレームを解析し、同一のクロミナンスパラメーターを
含む、他のすべての領域の位置を探し出す。そのような
他の領域の位置が明らかにされると、皮膚領域の位置を
示している皮膚情報信号211がトーン比較器209に
より生成される。
【0078】皮膚領域検出器12は、映像シーケンスの
各フレームについて上述の解析を実行するか、あるい
は、選択的には単一のフレームを解析し、さらに、トー
ン比較器209は、皮膚のトーンの値についての範囲を
利用して、次の、幾つかの特定された数のフレームにお
いて皮膚領域を認識する。
【0079】本発明の実施例においては、形状ロケータ
ー(形状位置決め器)50により認識された対象(物)
の輪郭が、楕円形とうまく適合しており、そのような形
状が皮膚領域を含んでいることが確かめられる以前に、
形状ロケーター(形状位置決め器)50により生成され
た形状位置信号106が、選択的に、図7で示されるよ
うに、目−鼻−口(eyes-nose-mouth,ENM)領域検出
器52へと供給される。
【0080】目−鼻−口(eyes-nose-mouth,ENM)領
域検出器52は、形状ロケーター(形状位置決め器)5
0から、うまく適合した楕円形の輪郭の座標を受け取
り、図8に示されているように、当該楕円領域を矩形ウ
インドウ60及び相補領域62(矩形ウインドウ60内
に位置していない、楕円形の残りの部分を含んでいる)
へとセグメント化する。ENM領域検出器52は、楕円
形のパラメーターを受け取り、矩形ウインドウ60が、
目、鼻、口の領域に対応する楕円領域を把握すべく配置
されるように、それらを処理する。
【0081】ENM領域検出器52は、サーチ(検索)
領域識別子108を用いて矩形ウインドウ60の位置決
めを行うサーチ(検索)領域を決定する。ここで、図8
で示されているような楕円形の輪郭についての中心点
(x0,y0)の座標は、矩形ウインドウ60の位置決め
のためのおおよそを得るため用いられる。ENM領域の
中心点の位置決めを行うサーチ(検索)領域は、例えば
12×15の画素といったように、S×Tの画素サイズ
の矩形であり、楕円形状の輪郭の長軸及び短軸について
決まったサイズを有するようにうまく選択される。
【0082】ここでの開示で用いられた長軸という語
は、図8に関連して定義されるものであり、点y1及び
2の間で楕円形を二分する線分のことを示している。
ここでの開示で用いられた短軸という語はまた、図8に
関連して定義されるものであり、点x1及びx2の間で楕
円形を二分する線分のことを示している。例示的な具体
例として、楕円形が、長軸に沿って50画素の長さ、短
軸に沿って30画素の長さを有しているものとする。矩
形ウインドウ60のサイズは、25×15の画素サイズ
を有するようにうまく選択される。このサイズは、長軸
と短軸の両方に沿って楕円形の半分の長さに近似してい
るものであり、当該形状の目−鼻−口領域について、も
っとも考えられる配置をとらえているものである。
【0083】矩形ウインドウ60が楕円形内に一旦位置
を定められると、サーチ(検索)領域スキャナー110
は、矩形ウインドウを解析し、当該楕円形の目−鼻−口
領域に関しての対称軸についての候補となる各位置を決
定する。例えば、サーチ(検索)領域スキャナー110
は、左から右といった手法で、長軸に並行に置かれた線
分64を用いて、矩形ウインドウ60内の縦の画素行そ
れぞれを選択する。これは、鼻の中心を通り、口の半分
を通過し、両目の間に位置した、対称軸を求めてサーチ
(検索)するためである。
【0084】顔の軸に関する対称軸が決定された後に
は、ENM領域検出器52は、矩形ウインドウ60につ
いての結果として得られる目−鼻−口領域の座標に対応
するENM領域信号54を生成する。ENM信号54
は、対象(物)の目−鼻−口領域の位置に対する座標を
トーン検出器56へ通知し、そこで、そのような領域に
含まれていない画素は、以降の色パラメーター解析から
は取り除かれることになる。
【0085】目−鼻−口領域が認識されるのは有効とい
える。というのは、そのような顔の領域は、例えば、目
の色のパラメーター、眉毛の色のパラメーター、唇の色
のパラメーター、髪の色のパラメーターを含む、皮膚の
トーンのパラメーターより他の色パラメーターはもちろ
ん、皮膚の色のパラメーターを含んでいるからである。
目−鼻−口領域で皮膚の色のパラメーターを認識するこ
とは、サンプリングされる色パラメーターの範囲につい
ての精度を改善することになる。なぜなら、ENM領域
の認識は、皮膚領域の存在を強く示すものであるからで
ある。また、ENM領域は、それが導かれている、適切
に適合した楕円形よりも小さいものであることから、演
算上の複雑さも有効に低減される。
【0086】目−鼻−口領域の検出はまた、主体が直接
カメラをみていないという場合に、影響が及ぼされう
る。これは、例えば、映像による電話会議の状況におい
てしばしば生じることである。ENM領域検出器52は
また、入力映像についての目−鼻−口領域の検出も包含
しており、この場合、主体はカメラに直接面と向かって
いるわけではなく、顔に髪の毛がかかっていたり、眼鏡
をかけていたりする。
【0087】ENM領域検出器52は、鼻を経て口を横
切る縦軸につき、顔の特徴についての代表的な対称性を
活用している。ここで、対称軸は、図8で示されている
ように、画像の縦軸に関して、角θ1で傾斜されうる。
そのような傾斜された楕円形については、目−鼻−口領
域の検出におけるロバストネス(強健さ)を提供するた
め、矩形ウインドウ60は、ウインドウの中心について
別個の値の角度だけ回転される。角θ1は、−10゜か
ら10゜の範囲内の値を有していると都合がよい。
【0088】皮膚領域検出器12は、選択的には、映像
コーデック(codec、符号器/復号器)10のような映
像符号器/復号器(コーデック、codec)と結びつけて
用いられる。以下の説明は、図1で示されたような映像
コーデック(codec、符号器/復号器)10の他の構成
要素に関する皮膚領域検出器12の動作を論じるもので
ある。映像コーデック(codec、符号器/復号器)10
は、映像符号器22及び映像復号器24を含んでおり、
ここで、映像符号器22は、符号化コントローラー16
によりコントロールされている。
【0089】符号化操作のため、映像コーデック(code
c、符号器/復号器)10は入力映像信号26を受け取
る。これは皮膚領域検出器12と映像符号器22へと前
送りされる。皮膚領域検出器12は、上述のように入力
映像信号を解析し、皮膚領域の位置に関係した情報を符
号化コンロローラー16へと供給する。映像符号器22
は、符号化コントローラー16のコントロールの下で入
力映像信号を符号化し、符号化ビットストリーム出力3
0を生成する。
【0090】ここで、上述の皮膚領域検出器を用いて認
識された皮膚領域は、そのように認識されていない領域
よりも高いビット数をもって符号化されている。例え
ば、符号化コントローラー16のような符号化コントロ
ーラーは、典型的な場合、あるしきい値(量子化ファク
ター)以上の値を有する、離散コサイン変換のデータ成
分のみを符号化し、伝送する。例示的な具体例として、
16×16の画素領域が、1から16の範囲の値を有す
るデータ成分を有しており、しきい値が8に選択された
ものとする。すると、符号化コントローラーは、8とい
うしきい値よりも大きい値を有する、DCTデータ成分
のみを符号化することになろう。
【0091】しかしながら、本発明の実施例において
は、皮膚領域を含むものとして認識されている映像信号
の部分について、しきい値以下の値を有するデータ成分
は、ここで、しきい値以上の値を有するデータ成分とい
っしょに符号化される。結果として、皮膚領域として認
識されている映像領域は、そのように認識されない領域
よりも高いビット数をもって符号化される。一実施例で
は、映像符号器22は、ソース符号器32、映像多重符
号器34,伝送バッファー36、伝送符号器38を用い
て入力映像信号26を符号化し、符号化ビットストリー
ム出力30を生成する。
【0092】復号化操作については、映像コーデック
(codec、符号器/復号器)10は、符号化ビットスト
リーム入力40を受け取る。映像復号器24は、映像信
号出力70を生成するため、受信復号器42,受信バッ
ファー44、映像多重復号器46、及びソース復号器4
8を用いて、符号化ビットストリーム入力40を復号す
る。
【0093】
【発明の効果】本発明により、映像における人の手、
顔、及びその他の皮膚領域の認識を行う皮膚認識技術に
おいて、従来の技術にみられた問題点を解決した皮膚領
域検出方法及びシステムが実現された。とりわけ、本発
明は、映像を用いた電話会議システムといった、マルチ
メディア環境での応用を目指した通信システムへ適用さ
れることが期される。
【図面の簡単な説明】
【図1】図1は、本発明の原理についての例示的な応用
例を具体化している、映像符号器/復号器(コーデッ
ク、Codec)のブロック線図である。
【図2】図2は、本発明の皮膚領域検出器のブロック線
図である。
【図3】図3は、図2の形状ロケーター(形状位置決め
器)のブロック線図を示している。
【図4】図4は、図3の形状ロケーター(形状位置決め
器)についてのプリプロセッサー回路のブロック線図で
ある。
【図5】図5は、図2のトーン検出器のブロック線図を
示している。
【図6】図6は、4×4の画素ブロックを例示してい
る。
【図7】図7は、目−鼻−口(eyes-nose-mouth,EN
M)領域検出器を含む、皮膚領域検出器のブロック線図
を示している
【図8】図8は、楕円形内に配置された矩形ウインドウ
を例示している。
【符号の説明】
10 映像コーデック(codec、符号器/復号器) 12 皮膚領域検出器 16 符号化コントローラー 18 バッファーレート変調器 20 バッファーサイズ変調器 22 映像符号器 24 映像復号器 26 入力映像信号 30 符号化ビットストリーム出力 32 ソース符号器 34 映像多重符号器 36 伝送バッファー 38 伝送符号器 40 符号化ビットストリーム入力 42 受信復号器 44 受信バッファー 46 映像多重復号器 48 ソース復号器 50 形状ロケーター(形状位置決め器) 52 目−鼻−口(eyes-nose-mouth,ENM)領域検出器 54 目−鼻−口(eyes-nose-mouth,ENM)領域信号 56 トーン検出器 60 矩形ウインドウ 62 相補領域 70 出力映像信号 80 出力信号 94 形状位置プリプロセッサー(形状ロケータープリ
プロセッサー) 100 粗スキャナー 102 精細(細密)スキャナー 104 形状フィッター 106 形状位置信号(形状ロケーター信号) 108 サーチ(検索)領域識別子 110 サーチ(検索)領域スキャナー 118 (時間)ダウンサンプラ 120 フィルター 122 デシメータ 124 エッジ検出器 126 しきい値回路 128 エッジデータ信号 200 皮膚領域検出器 201 Crヒストグラム生成器 203 Cbヒストグラム生成器 205 Cr範囲検出器 207 Cb範囲検出器 209 トーン比較器 211 皮膚情報信号(出力) 300 4×4の画素ブロック 301 輝度パラメーター(Y) 302 Crの値 303 Cbの値
フロントページの続き (73)特許権者 596077259 600 Mountain Avenue, Murray Hill, New J ersey 07974−0636U.S.A. (72)発明者 岡田 浩行 千葉県千葉市緑区誉田町2−24−7−C 208 (72)発明者 ジョナサン デビッド ローゼンバーグ アメリカ合衆国、07751 ニュージャー ジー、モーガンビル、タングルウッド プレイス 137 (56)参考文献 特開 平6−233292(JP,A) 特開 平2−44881(JP,A) 特開 平7−168932(JP,A) 特開 平6−309433(JP,A) 特開 平7−311833(JP,A) 特開 平7−332054(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06T 1/00 G06T 7/00 H04N 7/24 - 7/68

Claims (43)

    (57)【特許請求の範囲】
  1. 【請求項1】 映像信号の少なくとも一部分から所定
    の形状を有する対象を認識するロケーターと、解析される 画素が皮膚領域を示す所定の範囲内に信号エ
    ネルギーを有しているかを判断するために、前記所定
    形状を有する、認識された前記対象の少なくとも1つ
    、少なくとも1つの画素を解析する検出器と を有することを特徴とする映像信号における皮膚のト
    ーンを定める装置。
  2. 【請求項2】 前記所定の形状は、皮膚領域を含む可能
    性が高い形状であることを特徴とする請求項1の装置。
  3. 【請求項3】 前記所定の形状は、人間の形状特有の弧
    形に対応する弧形を有することを特徴とする請求項2の
    装置。
  4. 【請求項4】 前記所定の形状は、楕円形であることを
    特徴とする請求項3の装置。
  5. 【請求項5】 前記解析される画素は前記皮膚領域を示
    輝度パラメーターを有し、前記輝度パラメータは前記
    解析される画素についての交流(AC)信号エネルギー
    成分を含むことを特徴とする請求項1の装置。
  6. 【請求項6】 前記検出器が、前記解析される画素の
    なくとも1つの色パラメーターを定めるために、前記解
    析される画素をさらにサンプリングすることを特徴とす
    る請求項1の装置。
  7. 【請求項7】 前記少なくとも1つの色パラメーター
    は、クロミナンスパラメーターであることを特徴とする
    請求項6の装置。
  8. 【請求項8】 前記検出器が、さらに比較器を有し、 この比較器は、前記解析される画素についての前記少な
    くとも1つの色パラメーターと同一となっている、未解
    析の画素における複数の色パラメーターを認識するため
    に、前記解析される画素について定められた前記少なく
    とも1つの色パラメーターを、前記映像信号について
    の未解析の画素における該複数の色パラメーターと比較
    することを特徴とする請求項6の装置。
  9. 【請求項9】 前記解析される画素についての前記少な
    くとも1つの色パラメーターの位置を基に、符号器が符
    号セグメントを生成することを特徴とする請求項6の装
    置。
  10. 【請求項10】 前記形状が目−鼻−口領域と関連した
    画素を含んでいるかを判断するために、前記人間の形状
    特有の弧形に対応する前記弧形について解析がなされる
    ことを特徴とする請求項3の装置。
  11. 【請求項11】 前記目−鼻−口領域と関連のない画素
    については、前記検出器により解析から省かれることを
    特徴とする請求項10の装置。
  12. 【請求項12】 色映像信号の少なくとも一部分から所
    の形状を有する対象を認識するステップと、解析される 画素が皮膚領域を示す所定の範囲内に信号エ
    ネルギーを有しているかを判断するために、前記所定
    形状を有する、認識された前記対象の少なくとも1つか
    ら、少なくとも1つの画素を解析するステップと、 を有することを特徴とする映像信号における皮膚のト
    ーンを定める方法。
  13. 【請求項13】 前記所定の形状は、皮膚領域を含む可
    能性が高い形状であることを特徴とする請求項12の方
    法。
  14. 【請求項14】 前記所定の形状は、人間の形状特有の
    弧形に対応する弧形を有することを特徴とする請求項1
    3の方法。
  15. 【請求項15】 前記所定の形状は、楕円形であること
    を特徴とする請求項14の方法。
  16. 【請求項16】 前記解析される画素は前記皮膚領域を
    示す輝度パラメーターを有し、前記輝度パラメーターは
    前記解析される画素についての交流(AC)信号エネル
    ギー成分を含むことを特徴とする請求項12の方法。
  17. 【請求項17】 画素の少なくとも1つの色パラメータ
    ーを定めるために、前記解析される画素をサンプリング
    するステップをさらに有することを特徴とする請求項1
    2の方法。
  18. 【請求項18】 前記少なくとも1つの色パラメーター
    は、クロミナンスパラメーターであることを特徴とする
    請求項17の方法。
  19. 【請求項19】 前記解析される画素についての前記少
    なくとも1つの色パラメーターと同一となっている、未
    解析の画素における複数の色パラメーターを認識するた
    めに、前記解析される画素について定められた前記少な
    くとも1つの色パラメーターを、前記映像信号につい
    ての未解析の画素における該複数の色パラメーターと比
    較するステップをさらに有することを特徴とする請求項
    17の方法。
  20. 【請求項20】 前記解析される画素についての前記
    なくとも1つの色パラメーターの位置を基に、符号セグ
    メントを生成するステップをさらに有することを特徴と
    する請求項17の方法。
  21. 【請求項21】 前記形状が目−鼻−口領域と関連した
    画素を含んでいるかを判断するために、前記人間の形状
    特有の弧形に対応する前記弧形を解析するステップをさ
    らに有することを特徴とする請求項14の方法。
  22. 【請求項22】 前記目−鼻−口領域と関連のない画素
    については、解析から省かれることを特徴とする請求項
    21の方法。
  23. 【請求項23】 所定の形状を有する対象を認識するた
    めに色映像信号の少なくとも一部分を解析する形状ロケ
    ーターと、 解析した画素が皮膚領域を示す信号エネルギーについて
    の所定の範囲内に信号エネルギーを有する輝度パラメー
    ターを有しているかを判断するために、前記所定の形状
    を有する、認識された前記対象の少なくとも1つから、
    少なくとも1つの画素を解析するトーン検出器と、 前記少なくとも1つの認識された対象が皮膚領域を示す
    信号エネルギーを有する輝度パラメーターを有している
    と判断された表示を受信し、該前記受信に応じて、前記
    少なくとも1つの認識された対象をより高いビット数で
    符号化するために映像符号器を制御する映像コントロー
    ラーと、 を有することを特徴とする、入力色映像信号において皮
    膚領域を定め、皮膚領域であると決定された領域をより
    高いビット数で符号化する装置。
  24. 【請求項24】 前記色映像信号の少なくとも一部分は
    フレームを有し、前記形状ロケーターは前記フレーム内
    の所定の形状を有するすべての対象を認識することを特
    徴とする請求項23の装置。
  25. 【請求項25】 前記少なくとも1つの画素の色をテス
    トする色サンプリングプロセッサーを有することを特徴
    とする請求項24の装置。
  26. 【請求項26】 前記トーン検出器は非皮膚領域の判断
    も動作可能であり、 前記映像コントローラーは前記色サ
    ンプリングプロセッサーによるテストから前記非皮膚領
    域を除去することを特徴とする請求項25の装置。
  27. 【請求項27】 前記信号エネルギーは前記輝度パラメ
    ーターの二乗の和であることを特徴とする請求項23の
    装置。
  28. 【請求項28】 前記解析される対象のすべての画素
    は、前記解析される対象に対する皮膚のトーンの値につ
    いての範囲を決定するためにサンプリングされることを
    特徴とする請求項23の装置。
  29. 【請求項29】 前記皮膚のトーンの値についての範囲
    は、同じ皮膚のトーンの値を有する他の領域を認識する
    ために映像イメージに含まれたすべてのトーンと比較さ
    れることを特徴とする請求項28の装置。
  30. 【請求項30】 所定の形状を有する対象を認識するた
    めに色映像信号の少なくとも一部分を解析する第1解析
    ステップと、 解析される画素が皮膚領域を示す信号エネルギーについ
    ての所定の範囲内に信号エネルギーを有する輝度パラメ
    ーターを有しているかを判断するために、前記所定の形
    状を有する、認識された前記対象の少なくとも1つか
    ら、少なくとも1つの画素を解析する第2解析ステップ
    と、 前記少なくとも1つの認識された対象がより高いビット
    数で符号化されるように映像符号器を制御するために、
    前記少なくとも1つの認識された対象が皮膚領域を示す
    信号エネルギーを有する輝度パラメーターを有している
    と判断された表示を利用するステップと、 を有することを特徴とする、入力色映像信号において皮
    膚領域を定め、皮膚領域であると決定された領域をより
    高いビット数で符号化する方法。
  31. 【請求項31】 前記色映像信号の少なくとも一部分は
    フレームを有し、 前記第1解析ステップは、 前記フレーム内の所定の形状を有するすべての対象を認
    識するステップを有することを特徴とする請求項30の
    方法。
  32. 【請求項32】 前記少なくとも1つの画素の色をテス
    トするステップをさらに有することを特徴とする請求項
    31の方法。
  33. 【請求項33】 非皮膚領域を決定するステップと、 色テストから前記非皮膚領域を除去するステップと、 をさらに有することを特徴とする請求項32の方法。
  34. 【請求項34】 前記信号エネルギーは前記輝度パラメ
    ーターの二乗の和であることを特徴とする請求項30の
    方法。
  35. 【請求項35】 前記解析される対象のすべての画素
    は、前記解析される対象に対する皮膚のトーンの値につ
    いての範囲を決定するためにサンプリングされることを
    特徴とする請求項30の方法。
  36. 【請求項36】 同じ皮膚のトーンの値を有する他の領
    域を認識するために、前記皮膚のトーンの値についての
    範囲を映像イメージに含まれたすべてのトーンと比較す
    るステップをさらに有することを特徴とする請求項30
    の方法。
  37. 【請求項37】 色映像信号の少なくとも一部分から所
    定の形状を有する対象を認識する手段と、 解析される画素が皮膚領域を示す所定の範囲内に信号エ
    ネルギーを有しているかを判断するために、前記所定の
    形状を有する、認識された前記対象の少なくとも1つか
    ら、少なくとも1つの画素を解析する手段と、 前記少なくとも1つの認識された対象が皮膚領域を示す
    信号エネルギーを有する輝度パラメーターを有している
    と判断された表示を受信し、該前記受信に応じて、前記
    少なくとも1つの認識された対象をより高いビット数で
    符号化するために、映像符号器を制御する手段と、 を有することを特徴とする、入力色映像信号において皮
    膚領域を定め、皮膚領域であると決定された領域をより
    高いビット数で符号化する装置。
  38. 【請求項38】 前記色映像信号の少なくとも一部分は
    フレームを有し、前記認識する手段は、前記フレーム内
    の所定の形状を有するすべての対象を認識することを特
    徴とする請求項37の装置。
  39. 【請求項39】 前記少なくとも1つの画素の色をテス
    トする手段をさらに有することを特徴とする請求項37
    の装置。
  40. 【請求項40】 前記解析する手段は、非皮膚領域の判
    断も可能であり、前記制御する手段は、前記テストする
    手段によるテストから前記非皮膚領域を除去することも
    可能であることを特徴とする請求項39の装置。
  41. 【請求項41】 前記信号エネルギーは、前記少なくと
    も1つの画素に対する前記輝度パラメーターの二乗の和
    であることを特徴とする請求項37の装置。
  42. 【請求項42】 前記解析される対象のすべての画素
    は、前記解析される対象に対する皮膚のトーンの値につ
    いての範囲を決定するためにサンプリングされることを
    特徴とする請求項37の装置。
  43. 【請求項43】 前記皮膚のトーンの値についての範囲
    は、同じ皮膚のトーンの値を有する他の領域を認識する
    ために映像イメージに含まれたすべてのトーンと比較さ
    れることを特徴とする請求項42の装置。
JP27596397A 1996-10-08 1997-10-08 色映像信号における皮膚のトーンを定める装置およびその方法、ならびに、皮膚領域を符号化する装置およびその方法 Expired - Lifetime JP3256474B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/727862 1996-10-08
US08/727,862 US6343141B1 (en) 1996-10-08 1996-10-08 Skin area detection for video image systems

Publications (2)

Publication Number Publication Date
JPH10162128A JPH10162128A (ja) 1998-06-19
JP3256474B2 true JP3256474B2 (ja) 2002-02-12

Family

ID=24924381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27596397A Expired - Lifetime JP3256474B2 (ja) 1996-10-08 1997-10-08 色映像信号における皮膚のトーンを定める装置およびその方法、ならびに、皮膚領域を符号化する装置およびその方法

Country Status (3)

Country Link
US (1) US6343141B1 (ja)
EP (1) EP0836326A3 (ja)
JP (1) JP3256474B2 (ja)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1278385A (zh) 1997-10-28 2000-12-27 西门子公司 数字化图象的处理方法和装置
US6593956B1 (en) 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
AU728290B2 (en) * 1998-06-10 2001-01-04 Canon Kabushiki Kaisha Face detection in digital images
AUPP400998A0 (en) 1998-06-10 1998-07-02 Canon Kabushiki Kaisha Face detection in digital images
KR100282147B1 (ko) * 1998-11-13 2001-02-15 구자홍 압축 영상 복원 방법
JP3748172B2 (ja) * 1998-12-09 2006-02-22 富士通株式会社 画像処理装置
US6263113B1 (en) 1998-12-11 2001-07-17 Philips Electronics North America Corp. Method for detecting a face in a digital image
US7057636B1 (en) * 1998-12-22 2006-06-06 Koninklijke Philips Electronics N.V. Conferencing system and method for the automatic determination of preset positions corresponding to participants in video-mediated communications
JP4421761B2 (ja) * 1999-12-27 2010-02-24 富士フイルム株式会社 画像処理方法および装置並びに記録媒体
DE10018143C5 (de) * 2000-04-12 2012-09-06 Oerlikon Trading Ag, Trübbach DLC-Schichtsystem sowie Verfahren und Vorrichtung zur Herstellung eines derartigen Schichtsystems
US6774908B2 (en) * 2000-10-03 2004-08-10 Creative Frontier Inc. System and method for tracking an object in a video and linking information thereto
US6711286B1 (en) * 2000-10-20 2004-03-23 Eastman Kodak Company Method for blond-hair-pixel removal in image skin-color detection
US6690822B1 (en) * 2000-10-20 2004-02-10 Eastman Kodak Company Method for detecting skin color in a digital image
US20080040227A1 (en) * 2000-11-03 2008-02-14 At&T Corp. System and method of marketing using a multi-media communication system
US6976082B1 (en) 2000-11-03 2005-12-13 At&T Corp. System and method for receiving multi-media messages
US7203648B1 (en) 2000-11-03 2007-04-10 At&T Corp. Method for sending multi-media messages with customized audio
US7091976B1 (en) * 2000-11-03 2006-08-15 At&T Corp. System and method of customizing animated entities for use in a multi-media communication application
US6963839B1 (en) 2000-11-03 2005-11-08 At&T Corp. System and method of controlling sound in a multi-media communication application
US6990452B1 (en) 2000-11-03 2006-01-24 At&T Corp. Method for sending multi-media messages using emoticons
US6903782B2 (en) * 2001-03-28 2005-06-07 Koninklijke Philips Electronics N.V. System and method for performing segmentation-based enhancements of a video image
JP2003036438A (ja) * 2001-07-25 2003-02-07 Minolta Co Ltd 画像中の赤目を特定するプログラム、記録媒体、画像処理装置及び赤目特定方法
KR100422709B1 (ko) * 2001-10-05 2004-03-16 엘지전자 주식회사 영상 의존적인 얼굴 영역 추출방법
US7671861B1 (en) * 2001-11-02 2010-03-02 At&T Intellectual Property Ii, L.P. Apparatus and method of customizing animated entities for use in a multi-media communication application
EP1353516A1 (en) * 2002-04-08 2003-10-15 Mitsubishi Electric Information Technology Centre Europe B.V. A method and apparatus for detecting and/or tracking one or more colour regions in an image or sequence of images
US7356190B2 (en) * 2002-07-02 2008-04-08 Canon Kabushiki Kaisha Image area extraction method, image reconstruction method using the extraction result and apparatus thereof
JP2004147288A (ja) * 2002-10-25 2004-05-20 Reallusion Inc 顔画像の補正方法
JP3925476B2 (ja) * 2003-08-08 2007-06-06 セイコーエプソン株式会社 撮影場面の判定および撮影場面に応じた画像処理
US7426296B2 (en) * 2004-03-18 2008-09-16 Sony Corporation Human skin tone detection in YCbCr space
JP4683200B2 (ja) * 2004-04-30 2011-05-11 花王株式会社 髪領域の自動抽出方法
JP4324044B2 (ja) 2004-07-15 2009-09-02 キヤノン株式会社 画像処理装置およびその方法
JP4324043B2 (ja) * 2004-07-15 2009-09-02 キヤノン株式会社 画像処理装置およびその方法
US7706576B1 (en) * 2004-12-28 2010-04-27 Avaya Inc. Dynamic video equalization of images using face-tracking
US7564476B1 (en) 2005-05-13 2009-07-21 Avaya Inc. Prevent video calls based on appearance
JP4654773B2 (ja) * 2005-05-31 2011-03-23 富士フイルム株式会社 情報処理装置、動画像符号化装置、情報処理方法及び情報処理プログラム
CN1955907A (zh) * 2005-10-27 2007-05-02 Ge医疗系统环球技术有限公司 诊断成像辅助方法和设备
TWI279146B (en) * 2005-10-27 2007-04-11 Princeton Technology Corp Image compensation device and method
US20070116328A1 (en) * 2005-11-23 2007-05-24 Sezai Sablak Nudity mask for use in displaying video camera images
GB2432659A (en) * 2005-11-28 2007-05-30 Pixology Software Ltd Face detection in digital images
US7869043B2 (en) * 2006-01-06 2011-01-11 Sparta, Inc. Automated passive skin detection system through spectral measurement
US8150155B2 (en) * 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US8265349B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
US8265392B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
US8031936B2 (en) * 2006-03-20 2011-10-04 Accenture Global Services Limited Image processing system for skin detection and localization
US8165282B1 (en) 2006-05-25 2012-04-24 Avaya Inc. Exploiting facial characteristics for improved agent selection
US7774951B2 (en) * 2006-10-04 2010-08-17 Northwestern University Sensing device with whisker elements
AU2007221976B2 (en) 2006-10-19 2009-12-24 Polycom, Inc. Ultrasonic camera tracking system and associated methods
JP4492706B2 (ja) * 2008-01-21 2010-06-30 セイコーエプソン株式会社 撮影場面の判定および撮影場面に応じた画像処理
WO2010082942A1 (en) * 2008-02-01 2010-07-22 Canfield Scientific, Incorporated Automatic mask design and registration and feature detection for computer-aided skin analysis
US8406482B1 (en) 2008-08-28 2013-03-26 Adobe Systems Incorporated System and method for automatic skin tone detection in images
WO2010025457A1 (en) * 2008-09-01 2010-03-04 Mitsubishi Digital Electronics America, Inc. Systems and methods for picture enhancement
US20100128181A1 (en) * 2008-11-25 2010-05-27 Advanced Micro Devices, Inc. Seam Based Scaling of Video Content
US8320634B2 (en) * 2009-07-11 2012-11-27 Richard Deutsch System and method for monitoring protective garments
JP5421739B2 (ja) * 2009-11-19 2014-02-19 株式会社日立国際電気 動画像符号化装置、動画像復号化装置、および、動画像符号化方法
US8244004B2 (en) * 2010-01-25 2012-08-14 Apple Inc. Image preprocessing
US8254646B2 (en) * 2010-01-25 2012-08-28 Apple Inc. Image preprocessing
US8244003B2 (en) * 2010-01-25 2012-08-14 Apple Inc. Image preprocessing
US8358812B2 (en) 2010-01-25 2013-01-22 Apple Inc. Image Preprocessing
US20110238589A1 (en) * 2010-03-25 2011-09-29 Don Willis Commodity identification, verification and authentication system and methods of use
EP2393039A1 (en) 2010-06-03 2011-12-07 Mitsubishi Electric R&D Centre Europe B.V. Method for accurate detection of image content
IT1402430B1 (it) 2010-09-17 2013-09-04 St Microelectronics Srl "procedimento e dispositivo per l'elaborazione di segnali video, trasmettitore o prodotto informatico relativi"
TW201222432A (en) * 2010-11-26 2012-06-01 Inst Information Industry System, device, method, and computer program product for facial defect analysis using angular facial image
GB201209846D0 (en) 2012-06-01 2012-07-18 Bennett Conor A method and apparatus for protective clothing compliance
US8441548B1 (en) * 2012-06-15 2013-05-14 Google Inc. Facial image quality assessment
US20150051461A1 (en) * 2013-08-16 2015-02-19 Xerox Corporation System and method for performing a remote medical diagnosis
KR102153539B1 (ko) * 2013-09-05 2020-09-08 한국전자통신연구원 영상 처리 장치 및 방법
GB2528044B (en) 2014-07-04 2018-08-22 Arc Devices Ni Ltd Non-touch optical detection of vital signs
CN104282002B (zh) * 2014-09-22 2018-01-30 厦门美图网科技有限公司 一种数字图像的快速美容方法
US9854973B2 (en) 2014-10-25 2018-01-02 ARC Devices, Ltd Hand-held medical-data capture-device interoperation with electronic medical record systems
US20170300742A1 (en) * 2016-04-14 2017-10-19 Qualcomm Incorporated Systems and methods for recognizing an object in an image
CN106067176B (zh) * 2016-06-12 2018-11-23 成都甄识科技有限公司 一种基于像素信号能量的图像边缘roi的确定算法
JP6822121B2 (ja) * 2016-12-19 2021-01-27 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
US10506926B2 (en) 2017-02-18 2019-12-17 Arc Devices Limited Multi-vital sign detector in an electronic medical records system
US10492684B2 (en) 2017-02-21 2019-12-03 Arc Devices Limited Multi-vital-sign smartphone system in an electronic medical records system
JP2018160799A (ja) * 2017-03-23 2018-10-11 ソニーセミコンダクタソリューションズ株式会社 制御装置、制御方法、プログラム、及び、電子機器システム
US10602987B2 (en) 2017-08-10 2020-03-31 Arc Devices Limited Multi-vital-sign smartphone system in an electronic medical records system
US10485431B1 (en) 2018-05-21 2019-11-26 ARC Devices Ltd. Glucose multi-vital-sign system in an electronic medical records system
US11067448B2 (en) 2018-10-05 2021-07-20 Parsons Corporation Spectral object detection
WO2021247300A1 (en) 2020-06-01 2021-12-09 Arc Devices Limited Apparatus and methods for measuring blood pressure and other vital signs via a finger
CN112929622B (zh) * 2021-02-05 2022-04-12 浙江大学 一种基于深度学习的欧拉视频颜色放大方法
US20230370653A1 (en) * 2022-05-16 2023-11-16 Microsoft Technology Licensing, Llc Streaming video with internally-variable frame quality based on intelligent identification of high-relevance regions

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0860988B1 (en) 1991-02-20 2002-06-19 Canon Kabushiki Kaisha Image processing apparatus
US5488429A (en) 1992-01-13 1996-01-30 Mitsubishi Denki Kabushiki Kaisha Video signal processor for detecting flesh tones in am image
JP3298072B2 (ja) 1992-07-10 2002-07-02 ソニー株式会社 ビデオカメラシステム
US5327228A (en) * 1992-07-30 1994-07-05 North American Philips Corporation System for improving the quality of television pictures using rule based dynamic control
US5550928A (en) * 1992-12-15 1996-08-27 A.C. Nielsen Company Audience measurement system and method
US5477345A (en) 1993-12-15 1995-12-19 Xerox Corporation Apparatus for subsampling chrominance

Also Published As

Publication number Publication date
JPH10162128A (ja) 1998-06-19
US6343141B1 (en) 2002-01-29
EP0836326A3 (en) 2004-03-31
EP0836326A2 (en) 1998-04-15

Similar Documents

Publication Publication Date Title
JP3256474B2 (ja) 色映像信号における皮膚のトーンを定める装置およびその方法、ならびに、皮膚領域を符号化する装置およびその方法
EP0863671B1 (en) Object-oriented adaptive prefilter for low bit-rate video systems
US5852669A (en) Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
US5832115A (en) Ternary image templates for improved semantic compression
JP3133517B2 (ja) 画像領域検出装置、該画像検出装置を用いた画像符号化装置
US8588309B2 (en) Skin tone and feature detection for video conferencing compression
JP4335565B2 (ja) 画像あるいは一連の画像内の1つあるいは複数の色領域を検出しかつ/または追跡するための方法および装置
US20100060783A1 (en) Processing method and device with video temporal up-conversion
Menser et al. Face detection and tracking for video coding applications
Hartung et al. Object-oriented H. 263 compatible video coding platform for conferencing applications
JPH08205149A (ja) ビデオ信号の符号化方法
Chai et al. Automatic face location for videophone images
KR100464079B1 (ko) 화상 통신에서의 얼굴 검출 및 추적 시스템
JPH1063855A (ja) 画像領域抽出方法
JP2916057B2 (ja) 動画像の顔領域抽出装置
JP2919236B2 (ja) 画像符号化装置
Doulamis et al. Improving the performance of MPEG compatible encoding at low bit rates using adaptive neural networks
KR100367409B1 (ko) 대칭 특성을 이용한 mpeg-4의 객체 분할장치 및 그방법
Dumitras et al. An automatic method for unequal and omni-directional anisotropic diffusion filtering of video sequences
JPH0750832A (ja) 顔領域検出方法及び画像符号化装置
Chen et al. Region-of-interest video coding based on face detection
Koufakis et al. Linear combination of face views for low bit rate face video compression
Chen et al. An approach to region coding for content-based scalable video
KR100298184B1 (ko) 동영상부호화장치에서눈동자영상처리방법
Goswami et al. Low complexity in-loop skin tone detection for ROI coding in the HEVC encoder

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 12

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term