JP3256474B2

JP3256474B2 - 色映像信号における皮膚のトーンを定める装置およびその方法、ならびに、皮膚領域を符号化する装置およびその方法

Info

Publication number: JP3256474B2
Application number: JP27596397A
Authority: JP
Inventors: 浩行岡田; デビッドローゼンバーグジョナサン
Original assignee: Sharp Corp; Lucent Technologies Inc
Current assignee: Sharp Corp; Nokia of America Corp
Priority date: 1996-10-08
Filing date: 1997-10-08
Publication date: 2002-02-12
Anticipated expiration: 2017-10-08
Also published as: JPH10162128A; US6343141B1; EP0836326A3; EP0836326A2

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、映像を用いた電話
会議システムといった、マルチメディアへの応用向けの
低ビット速度通信システムに関するものである。より特
定すると、映像における皮膚領域の認識を行う方法及
び、システムに関するものである。

【０００２】

【従来の技術】フルカラー、フルモーションの画像の保
存及び伝送への需要は増加しつつある。これらの画像
は、映画やテレビの製作におけるようなエンターテイメ
ント（娯楽）向けのみならず、技術的解析及び医療用画
像といった解析及び診断業務にも用いられている。

【０００３】これらの画像をデジタル形式で提供するこ
とには、幾つもの利点がある。例えば、デジタル画像
は、画質の向上（強調）や操作がより行い易いのであ
る。また、デジタル映像の場合、最小限の信号劣化で、
何回にもわたって精緻に再生がなされることが可能であ
る。

【０００４】一方、デジタル映像は、保存に相当量のメ
モリ容量を必要とし、同様に、伝送に高バンド幅（高帯
域幅）のチャネルを必要とする。例えば、256段階のグ
レーレベル（濃度レベル）を有する、512×512画素のグ
レースケール（無彩色スケール）での単一の画像は、そ
の保存に256,000バイト以上を必要とする。フルカラー
の画像では、ほぼ800,000バイトを必要とする。動きが
自然に見えるには、毎秒少なくとも30回は画像が更新さ
れることを要する。

【０００５】従って、動きが自然に見える、フルカラー
の動画像向けの伝送チャネルは、毎秒およそ190メガビ
ット提供するものでなくてはならない。しかしながら、
テレビ電話、ビデオオンディマンド用セットトップボッ
クス、映像による電話会議システムを含めた、今日のデ
ジタル通信の応用例では、伝送チャネルにハンド幅（帯
域幅）の限界があり、映像情報を伝送するのに利用可能
なビット数は、毎秒190メガビット以下である。

【０００６】その結果、デジタル映像信号を保存及び伝
送するに必要とされる情報量を低減させるのに、例え
ば、離散コサイン変換（discrete cosine transformati
on,ＤＣＴ）といった、幾つもの画像圧縮技術が用いら
れてきた。これらの技術は一般に、デジタル映像を伝
送、記録、複製するために用いられたデータ量を低減さ
せるべく、本来の画像に存する多量の冗長性を利用する
ものである。

【０００７】例えば、伝送される画像が、晴天の空の画
像であるとすれば、離散コサイン変換（ＤＣＴ）による
画像データ情報は、多くのゼロデータ成分を有している
こととなる。というのは、そのような画像で描写された
対象（物）においては、変化がごく僅かか、あるいはほ
とんど存在していないからである。そこで、晴天の空の
画像情報は、少数の非ゼロデータ成分のみを伝送するこ
とで圧縮されるのである。

【０００８】離散コサイン変換（ＤＣＴ）のような画像
圧縮技術に関連した、一つの問題点は、このような技術
では、損失画像が生じるということである。というの
は、ビット速度を低減させるため、部分的な画像情報の
みが伝送されるからである。損失画像とは、復号された
画像内容を元の画像内容と比較すると、描かれた対象
（物）にひずみを含んでいる映像のことである。

【０００９】映像による電話会議や電話による応用例の
ほとんどの場合、背景よりもむしろ人を含んでいる画像
へ関心が向けられていることから、ひずみのない映像を
伝送する能力が重要視されるのである。これは、見る者
（ビューアー）は自らの注意を、例えば衣服や背景とい
ったものに対する代わりに、映像シーケンスに含まれ
た、当該場面に存する人の顔、手、あるいはその他の皮
膚領域といった特定の特徴（対象）へ向ける傾向がある
と考えられるからである。

【００１０】幾つかの状況では、映像シーケンスに含ま
れた顔の特徴を極めてうまく表現するということは、そ
の理解しやすさにとって優れたものとなるのである。例
えば、読唇術に依存していることが考えられる聴力障害
のあるビューアーの場合が、そのような例である。その
ような応用例の場合、顔の領域についてひずみを受けた
ものを含んでいる、復号された映像シーケンスは、見る
者（ビューアー）にとって困ったものとなりうる。

【００１１】というのは。そのような画像シーケンス
は、顔の特徴が過度に平滑化されて描かれている場合が
多く、顔に人工的な特質を与えるのである。例えば、元
の映像に見られる顔に存するしわのような、細かい顔の
特徴は、圧縮され伝送された映像を復号したものにおい
ては消われている傾向があり、このようなことから、映
像を見る際の障害となるのである。

【００１２】伝送されている画像の皮膚領域におけるひ
ずみを低減させる、幾つかの技術では、場面に存する人
の顔、手、その他の皮膚領域を含む映像の内容について
の、質に関する情報を抽出することに注目してきた。こ
れは、より少ないデータ圧縮成分を用いて、そのような
認識された領域を符号化するためである。従って、これ
らの認識された領域は、より大きな値のビット速度（ビ
ット／秒）を用いて、符号化され、伝送される。そこ
で、当該映像が復号された際、そのような認識された領
域が、ひずみを受けた特徴を含む程度は少なくなるわけ
である。

【００１３】ある技術では、映像イメージのシーケンス
を、対称な形状を求めてサーチ（検索）する。ここで、
対称な形状とは、対称軸について同一のもの半分ずつに
分割可能な形状として定義される。対称軸とは、対象
（物）を等しい部分へと分割する線分のことである。対
称な形状の例としては、正方形、円、楕円などがある。
映像における対象（物）が、対称な形状を求めてサーチ
（検索）される場合、映像に示された顔や頭の一部につ
いては認識可能である。対称に描かれた顔や頭は、典型
的な場合、楕円の形状に近いものであり、目の間、鼻の
中心を通って、口の中間を横切って縦方向に位置する、
対称軸を有している。

【００１４】半楕円のそれぞれは、対称である。という
のは、それぞれ、一つの目、鼻の半分、口の半分を含ん
でいるからである。しかしながら、映像において対称的
に描かれている顔及び頭のみが、認識可能であって、側
面で（側面の輪郭で）みた際には（左側を向いた場合あ
るいは右側を向いた場合）、顔や頭の認識はできない。
なぜなら、側面で（側面の輪郭で）みた顔や頭は、対称
軸を含んでいないからである。場面に存する人の手やそ
の他の皮膚領域についても、同様に対称なものではない
し、また、対称をベースとした技術を用いては認識不可
能である。

【００１５】別の技術では、例えば楕円形、矩形、三角
形といった、特定の幾何学的形状を求めて映像をサーチ
（検索）するものがある。特定の幾何学的形状につき映
像をサーチ（検索）することで、しばしば頭及び顔を探
し出すことが可能となるが、それでもなお、場面に存す
る人の手やその他の皮膚領域を認識することはできな
い。というのは、そのような領域は、典型的な場合、特
定された幾何学的形状で表されることがないからであ
る。さらに、特定された幾何学的形状に近似するもので
ない、部分的に遮られたところのある顔及び頭も、同様
に認識可能ではない。

【００１６】さらに別の技術では、映像のシーケンス
は、頭、顔、手を含む皮膚領域を認識するのに、色（色
相）を用いてサーチ（検索）される。色（色相）をベー
スにした認識は、特定された皮膚のトーン（色調）の集
合を用いて、適合する皮膚の色を有する対象（物）を求
めて、映像シーケンスをサーチ（検索）することに依存
している。色（色相）をベースにした認識は、ある場面
について手、顔、その他の皮膚領域を認識するに有用で
ある場合もある一方で、そのような領域の他の多くの場
合、認識されることができない。

【００１７】なぜなら、すべての人が、皮膚の同じトー
ンを有しているということはないからである。さらに、
映像シーケンスの多くの皮膚領域における色の変化につ
いてもまた、検出不可能であろう。その理由としては、
適合する皮膚領域をサーチ（検索）するのに、特定され
た皮膚のトーンについての集合を用いるため、色をベー
スとした技術では、背景の照明あるいはシェーディング
による変化といった、対象（物）の色への予見不可能な
変化を補償することができないことがある。

【００１８】

【発明が解決しようとする課題】このようなことから、
場面に存する人の手、顔、及びその他の皮膚領域を認識
する皮膚認識技術が、求められ続けているのである。

【００１９】

【課題を解決するための手段】本発明は、映像における
皮膚領域を認識するための皮膚領域検出器に向けられた
ものであり、例示的な実施例では、映像符号化／復号化
（Codec）装置の映像符号器（ビデオ・コーダ）と結び
つけて用いられている。皮膚領域検出器は、映像シーケ
ンスにおけるすべての対象（物）の形状を最初に解析
し、皮膚領域を含んでいる可能性のある対象（物）の位
置を割り出すことで、映像フレームにおける皮膚領域を
認識する。皮膚領域を含んでいる可能性のある対象
（物）はさらに解析され、そのような対象（物）の画素
が、皮膚領域に特徴的な信号エネルギーを有しているか
を判断する。

【００２０】ここで用いられた信号エネルギーという語
は、映像信号における、特定された画素グループについ
ての輝度（明るさ）パラメーターの二乗の合計を示して
いる。信号エネルギーは、２つの成分を含んでいる。即
ち、直流（ＤＣ）信号エネルギーと交流（ＡＣ）信号エ
ネルギーである。さらに、皮膚領域に特徴的な信号エネ
ルギーを有する画素を伴った対象（物）についての色パ
ラメーターが、サンプリング（標本化）され、対象
（物）に対する皮膚のトーンの値についての範囲を決定
する。そこで、解析された対象（物）についての皮膚の
トーンの値で、このようにサンプリングされたものの範
囲は、映像に含まれたすべてのトーンと比較される。

【００２１】これは、皮膚のトーンの値で同一の値を有
する他の領域を、当該映像シーケンスにおいて認識する
ようにするためである。皮膚領域に特徴的な信号エネル
ギーの判断及び形状解析を基に、対象（物）における皮
膚領域の可能性のある部分を認識するのは有効であると
いえる。というのは、皮膚のトーンの値についての範囲
を判断するため、そのように認識された対象（物）の色
サンプリングを続いて行うことで、対象（物）における
色の変化を自動的に補償し、映像シーケンスの内容（コ
ンテンツ）に関する皮膚検出は動的なものとなるからで
ある。

【００２２】ここでの例示的な具体例では、皮膚領域検
出器は統合されているが、符号器、復号器、符号化コン
トローラーといったものを含む映像符号化／復号化（Co
dec）装置の他の構成要素部分とは独立して機能してい
る。一つの実施例では、皮膚領域検出器は、入力映像信
号と符号化コントローラーの間に挿入されており、映像
の符号化に先だって、映像シーケンスにおける皮膚領域
の位置に関連した入力を提供している。

【００２３】本発明の一つの例においては、皮膚領域検
出器は、形状ロケーター（形状位置決め器）とトーン検
出器を含んでいる。形状ロケーター（形状位置決め器）
は、入力映像シーケンスを解析し、映像フレームにおけ
るすべての対象（物）のエッジ（端部）を認識し、その
ようなエッジが、皮膚領域を含んでいる可能性のある形
状の輪郭に近似しているかを判断する。形状ロケーター
（形状位置決め器）は、皮膚領域を含んでいる可能性の
ある、ある形状を認識するようにうまくプログラムされ
ている。例えば、人の顔はおおよそ楕円の形状を有して
いることから、形状ロケーター（形状位置決め器）は、
映像信号において楕円形状をした対象（物）をサーチ
（検索）するようプログラムされている。

【００２４】映像フレーム全体は、あまりに大きすぎる
ため、全体にわたって解析することはできないため、入
力映像シーケンスの映像フレームは、最初に幾つかの画
像領域に区切られている方が有利である。各画像領域に
ついてはさらに、隣接する画素に対する、画素強度の大
きさにおける変化を元に、対象（物）のエッジが決定さ
れる。各画像領域において、隣接する画素に対する画素
強度の大きさにおける変化が、特定された大きさよりも
大きい場合には、そのような画像領域の位置は、対象
（物）のエッジあるいはエッジの一部を含むものとして
認識されるのである。

【００２５】その後、認識されたエッジあるいは認識さ
れたエッジの一部は、さらに解析され、対象（物）の輪
郭を表している、そのようなエッジが、皮膚領域を含ん
でいる可能性のある形状に近似しているのかを判断す
る。皮膚領域は、大抵の場合、人間の形状のより滑らか
な曲線（例えば、首筋やあご先の曲線）により画定され
ていることから、角張った境界は、典型的な場合、皮膚
領域を示しているものではない。

【００２６】従って、より滑らかな人間の形状と関連し
ている輪郭は、大抵、皮膚領域を含んでいる可能性のあ
るものとして選択される。例えば、楕円形は、人の顔や
頭の形状に近似していることから、楕円形に近似してい
る対象（物）の輪郭を認識するのに、映像シーケンスの
解析を行うことで、当該映像シーケンスにおいて皮膚領
域を含んでいる可能性のある位置をうまく決定すること
となる。また、映像による会議の場合、典型的には、少
なくとも任意の人間がカメラに面していることから、誰
かが部屋に在室しているとすれば、楕円形状が認識され
る可能性がある。

【００２７】皮膚領域を含んでいる可能性のある対象
（物）について、一旦、形状ロケーター（形状位置決め
器）により位置が突き止められると、トーン検出器は、
位置が定められた対象（物）の画素を検証し、そのよう
な画素が皮膚領域に特徴的な信号エネルギーを有してい
るかを判断する。さらに、そのような認識された対象
（物）について、皮膚のトーンについての範囲をサンプ
リングし、サンプリングされた皮膚のトーンについての
範囲をフレーム全体におけるトーンと比較し、適合する
皮膚のトーンをすべて決定する。本実施例においては、
輝度パラメーターの信号エネルギー成分（ＤＣ及びＡＣ
エネルギーなる構成要素）は、離散コサイン変換（ＤＣ
Ｔ）技術を用いてうまく決定される。

【００２８】本発明の技術では、皮膚領域を含んでいる
可能性があるものとして認識された対象（物）におけ
る、特定された画素グループについての信号エネルギー
の離散コサイン変換（ＤＣＴ）が演算される。その後、
各画素のＡＣエネルギーによる成分は、当該離散コサイ
ン変換（ＤＣＴ）から、各画素のＤＣエネルギーによる
成分を引く（減ずる）ことで決定される。

【００２９】各画素についてのＡＣエネルギーによる成
分の値を元に、当該画素が、皮膚領域に特徴的なＡＣ信
号エネルギーを有しているかについての判断がなされ
る。検証された画素についてのＡＣ信号エネルギーが、
特定された値よりも小さい場合には、典型的には、その
ような画素は皮膚に関する画素として認識される。その
後、トーン検出器は、そのような認識された画素の色パ
ラメーターをサンプリングして、対象（物）の領域内に
含まれる、皮膚のトーンを示している色パラメーターの
範囲を決定する。

【００３０】トーン検出器によりサンプリングされた色
パラメーターは、有利なことに、クロミナンスパラメー
ターＣ_r、Ｃ_bとなっている。ここで用いられているクロ
ミナンスパラメーターという語は、映像信号についての
色差の値を示しており、ここで、Ｃ_rとは、赤色の成分
と映像信号の輝度パラメーター（Ｙ）との間の差として
定義され、Ｃ_bとは、青色の成分と映像信号の輝度パラ
メーター（Ｙ）との間の差として定義される。続いて、
トーン検出器は、サンプリングされた対象（物）から認
識された皮膚のトーンの値についての範囲を映像フレー
ムの残りについての色パラメーターと比較して、他の皮
膚領域を認識する。

【００３１】その後、本発明の皮膚領域検出器は、映像
シーケンスの次のフレームを解析して、皮膚のトーンの
値についての範囲を決定し、次の映像フレームにおける
皮膚領域を認識する。皮膚領域検出器は、選択的には、
映像シーケンスの一つのフレームで認識された、皮膚の
トーンの値についての範囲を用いて、映像シーケンスの
次のフレームにおける皮膚領域を認識することも行う。

【００３２】皮膚領域検出器は、選択的には、人の顔あ
るいは頭の形状に近似する対象（物）を解析するのに、
目−鼻−口（eyes-nose-mouth,ＥＮＭ）領域検出器を含
んで、目−鼻−口（eyes-nose-mouth,ＥＮＭ）領域の位
置を決定する。一実施例では、ＥＮＭ検出器は、形状ロ
ケーター（形状位置決め器）とトーン検出器の間に挿入
され、ＥＮＭ領域の位置を認識し、そのような領域をト
ーン検出器による解析のベースとして用いる。目−鼻−
口（eyes-nose-mouth,ＥＮＭ）領域検出器は、対称性を
ベースとした方法を利用して、人の顔あるいは頭の形状
に近似している対象（物）内に位置したＥＮＭ領域を認
識するものである。目−鼻−口（eyes-nose-mouth,ＥＮ
Ｍ）領域が認識されるのは有効であるといえる。

【００３３】というのは、顔のそのような領域は、例え
ば、目の色についてのパラメーター、眉毛の色のパラメ
ーター、唇の色のパラメーター、及び髪の色のパラメー
ターといった、皮膚のトーンについてのパラメーターよ
り他の色パラメーターはもちろん、皮膚の色についての
パラメーターも含んでいるからである。また、目−鼻−
口（eyes-nose-mouth,ＥＮＭ）領域の認識は、演算上の
複雑さを低減させるものである。なぜなら、皮膚のトー
ンについてのパラメーターは、認識された対象（物）の
僅かな領域からサンプリングされるからである。

【００３４】

【発明の実施の形態】図１は、本発明の例示的な応用例
を示しており、ここで、皮膚領域検出器１２は、例え
ば、映像コーデック（codec、符号器／復号器）１０と
いった、映像符号化／復号化システムと結びつけて用い
られている。映像コーデック（codec、符号器／復号
器）１０のような映像符号化／復号化システムは、主と
して、画像圧縮技術をベースとして映像シーケンスの符
号化及び復号化を行う、電話会議に関連する産業におい
て利用されている。

【００３５】映像シーケンスの符号化及び復号化にとっ
て有用な、画像圧縮技術の例としては、ＩＴＵ−Ｔ勧告
Ｈ．２６３（「狭帯域通信チャネル用映像符号化」）に
おいて記述された、離散コサイン変換（Discrete Cosin
e Transform,DCT)による方法がある。もちろん、本発明
は、映像符号器／復号器（codec、コーデック）より他
の、例えば、映画編集装置といった映像システムについ
ても有用であることは理解されるべきである。実際、本
発明は、デジタルカラー映像信号が入力である任意の装
置において利用に供されるべく応用可能である。

【００３６】本発明の一実施例は、図１に例示されてい
る。これは、映像コーデック（codec、符号器／復号
器）１０内に配置された、皮膚領域検出器１２（点線で
囲まれた部分）を示している。皮膚領域検出器１２は、
統合されているものの、映像コーデック（codec、符号
器／復号器）１０の他の構成要素部分とは独立して機能
している。例えば、映像コーデック（codec、符号器／
復号器）１０は、映像符号器２２、映像復号器２４、符
号化コントローラー１６といった付加的な構成要素部分
を含んでいる。そのような構成要素部分については、映
像コーデック（codec、符号器／復号器）１０の動作に
関する以下の説明と結びつけて議論されることとなろ
う。

【００３７】図２のブロック線図でより詳細に示され
た、皮膚領域検出器１２は、形状ロケーター（形状位置
決め器）５０及びトーン検出器５６を含んでいる。形状
ロケーター（形状位置決め器）５０及びトーン検出器５
６により提示された機能は、ソフトウエアを実行させる
ことの可能なハードウエアを含めた、共有ないしは専用
ハードウエアを利用することを通じて選択的に提供され
る。例えば、形状ロケーター（形状位置決め器）５０及
びトーン検出器５６の機能は、単一の共有プロセッサー
か、あるいは複数の個々のプロセッサーによって選択的
に提供される。

【００３８】また、形状ロケーター（形状位置決め器）
５０及びトーン検出器５６を表している、個々の機能的
なブロックを用いていることは、ソフトウエアを実行可
能なハードウエアに専ら限って示しているものと解され
るべきではない。上で記述された機能的ブロックについ
ての付加的な例示的実施例としては、例えば、ＡＴ＆Ｔ
社のＤＳＰ１６あるいはＤＳＰ３２Ｃといった、デジタ
ルシグナルプロセッサー（ＤＳＰ）というハードウエ
ア、以下で論じられる動作を実行するソフトウエアを保
存するための読み出し専用メモリ（ＲＯＭ）、デジタル
シグナルプロセッサー（ＤＳＰ）の結果を保存するラン
ダムアクセスメモリー（ＲＡＭ）を含んでいる。

【００３９】また、選択的には、汎用デジタルシグナル
プロセッサー（ＤＳＰ）回路と組み合わせたカスタムＶ
ＬＳＩ回路同様に、超大規模集積（ＶＬＳＩ）ハードウ
エアによる実施例も考えられる。そういった実施例の任
意のもの、あるいはすべてのものは、形状ロケーター
（形状位置決め器）５０及びトーン検出器５６と表記さ
れた機能的ブロックの意味の中に入るものと考えられ
る。

【００４０】本発明は、映像シーケンスにおける皮膚領
域を認識するものである。形状ロケーター（形状位置決
め器）５０は、映像フレームにおけるすべての対象
（物）のエッジの認識、及び、そういったエッジの任意
のものが所定の形状の輪郭に近似しているかについての
判断を基にして、映像フレームにおいて皮膚領域と目さ
れる部分を最初に探し出す。所定の形状に対する近似を
基にエッジの解析を行うことは、重要なことといえる。

【００４１】というのは、皮膚領域を含んでいる可能性
のある対象（物）は、認識される高い確率を有している
からである。例えば、幾つかの例においては、人の顔あ
るいは頭は、楕円形の形状にほとんど近似していること
になろう。従って、楕円形を認識するべく映像フレーム
の解析を行うことで、一部の皮膚領域の位置割り出しに
ついて高い確率を提供するといえる。

【００４２】皮膚領域の可能性があるものとして認識さ
れた対象（物）は、その後、トーン検出器５６により解
析されて、そのような対象（物）の任意のものについて
の画素が、皮膚領域に特徴的な信号エネルギーを有して
いるかを判断する。ここでの開示で用いられた、信号エ
ネルギーなる語とは、映像信号における特定の画素グル
ープについての、輝度（明るさ）パラメーターの二乗の
合計を示しており、直流（ＤＣ）信号エネルギーと交流
（ＡＣ）信号エネルギーという２つのエネルギー成分を
含んでいる。そこで、皮膚領域に特徴的な信号エネルギ
ーを有している画素を伴った対象（物）の色パラメータ
ーがサンプリングされて、当該対象（物）に対する皮膚
のトーン（色）の値についての範囲を決定する。

【００４３】当該対象（物）に対する皮膚のトーンの値
についての範囲はさらに、映像に含まれたすべてのトー
ンと比較される。これは、当該映像シーケンスにおい
て、皮膚のトーンについて同一の値を有する他の領域を
認識するようにするためである。信号エネルギーについ
ての解析、さらに、皮膚のトーンの値についてのサンプ
リングがなされることをベースとして皮膚領域が認識さ
れる際には、皮膚検出は、映像シーケンスの内容（コン
テンツ）に関して動的になされているといえる。という
のは、認識された対象（物）について皮膚のトーンのサ
ンプリングを行うことで、背景の照明あるいはシェーデ
ィングによる変化といった、対象（物）のトーンに対す
る予見不可能な変化を自動的に補償するからである。

【００４４】形状ロケーター（形状位置決め器）５０及
びトーン検出器５６の両方の構成要素部分は、図２を参
照して、皮膚領域検出器１２の動作の説明の一部として
以下で記述されている。対象（物）の画像に対応するフ
レームシーケンスを時間の関数として表現している入力
映像信号２６は、従来の映像カメラ（ビデオカメラ）
（示されていない）から形状ロケーター（形状位置決め
器）５０へと供給されている。従来の映像カメラ（ビデ
オカメラ）としては、例えば、シャープ株式会社により
製造されている、View Camがある。

【００４５】形状ロケーター（形状位置決め器）５０
は、入力映像信号２６のフレームの少なくとも一つを解
析して、フレーム内のすべての対象（物）のエッジを認
識し、エッジあるいはエッジの一部が、皮膚領域を含ん
でいる可能性のある形状に近似しているかを判断する。
皮膚領域を含んでいる可能性のある形状の例としては、
楕円形、弧形、及び曲線等がある。ここでの開示におい
て用いられた曲線という語とは、直線ではないエッジの
一部を少なくとも有している形状のことを示している。

【００４６】形状ロケーター（形状位置決め器）５０の
構成要素部分は、図３で例示されており、粗スキャナー
１００、精細（細密）スキャナー１０２、形状フィッタ
ー１０４、はもちろん、形状位置プリプロセッサー９４
を含んでいる。形状フィッター１０４は、形状ロケータ
ー（形状位置決め器）信号１０６を生成し、これは、ト
ーン検出器５６へと供給される。

【００４７】形状位置プリプロセッサー９４は、映像領
域を解析し、映像フレームに含まれた対象（物）のエッ
ジを認識するよう機能する。これらの形状位置プリプロ
セッサー９４は、ダウンサンプラ１１８、フィルター１
２０、デシメーター１２２、エッジ検出器１２４、しき
い値回路１２６を含む、図４で例示されるような、プリ
プロセッシング回路を組み込んでいる。

【００４８】時間に関するダウンサンプラ１１８は、入
力映像信号２６において利用可能な全フレーム数から、
解析目的のため、少数のフレームのみを選択することに
よって、形状認識のために利用可能な映像信号のフレー
ム数を制限するよう機能する。例示的な具体例として
は、入力映像信号２６のような映像信号についての典型
的なフレームレートとしては、おおよそ毎秒３０フレー
ム（３０fps）で近似され、この場合、連続する各フレ
ームは、前のフレームと本質的に同一の情報を含んでい
る。

【００４９】連続する各フレームが本質的に同一の情報
を含んでいることから、形状解析のためには、映像信号
から少数のフレームのみを選択することで、演算上の複
雑さを低減させることが有効といえる。そこで、本例に
関しては、演算上の複雑さを低減させるため、ダウンサ
ンプラは、形状解析のため入力映像信号について全フレ
ームの４分の１のフレームのみを選択するものとする。
その結果、ダウンサンプラーは、形状ロケーター（形状
位置決め器）５０への入力としてのフレームレートを、
毎秒およそ３０フレーム（３０fps）というレートから
毎秒およそ７．５フレーム（７．５fps）というレート
へと低減させる。

【００５０】フィルター１２０は、典型的には、ダウン
サンプリングされた映像フレームの空間フィルタリング
を実行するための分離形フィルターであり、３６０×２
４０の画素サイズを有し、π／ｃという遮断周波数（カ
ットオフ周波数）を有している。ここでｃとは、有利な
ことに、以下で論じるデシメーション（分割）ファクタ
ーに等しいものである。典型的な場合、フィルター１２
０のようなフィルターは、周波数の範囲を画定する。

【００５１】ダウンサンプリングされた入力映像信号２
６のような信号がフィルター１２０へ供給されると、映
像信号に含まれた周波数で、当該フィルターについて画
定された周波数の範囲内にあるもののみが出力となる。
映像信号に含まれた周波数で、当該フィルターについて
画定された周波数の範囲外にあるものについては、抑制
されることとなる。フィルター１２０の例としては、有
限インパルス応答（finite impulse response、FIR）フ
ィルター及び無限インパルス応答（infinite impulse r
esponse,IIR)フィルターがある。

【００５２】フィルターを通された映像信号は、デシメ
ーター１２２への入力となる。ここで、エッジ解析のた
め、映像フレームの水平方向及び垂直方向の広がりは、
所定のより小さいサイズを持つ画像領域へと分割され
る。例示的な具体例として、デシメーター１２２のよう
なデシメーターが、ｃ＝８というデシメーションファク
ター（デシメーション因子）を有しており、かつ、映像
フレームが３６０×２４０の画素寸法を有しているとす
れば、映像フレームは、４５×３０の画素寸法を有する
画像領域へと分割される。

【００５３】エッジ検出器１２４は、映像フレームの分
割された画像領域のそれぞれについてエッジ検出を実行
し、対象（物）のエッジを求めてサーチ（検索）を行
う。任意の映像フレームにおける対象（物）のエッジ
は、典型的には、隣接する各画素についての画素強度の
大きさにおける変化により特徴付けられる。例えば、３
×３の画素サイズの画像領域が、対象（物）のエッジを
含んでいないとすれば、そのような画像領域を表してい
る、隣接する各画素についての画素強度の大きさは、以
下の行列Ａ（数１）に示されるようにほとんど等しいも
のとなる。

【数１】

【００５４】一方、３×３の画素サイズの同様の画像領
域が、対象（物）のエッジを含んでいるとすれば、その
ような画像領域を表している、隣接する各画素について
の画素強度の大きさは、以下の行列Ｂ（数２）に示され
るように、鋭い遷移（変化）を含むこととなる。

【数２】

【００５５】エッジ検出器１２４といった、エッジ検出
器は、ソーベル（Sobel)演算子を含む技術を利用して、
分割された画像領域について、例えば行列ＡあるいはＢ
で示された、隣接する画素についての画素強度の大きさ
と、δ_xおよびδ_yといった二次元ソーベル（Sobel)演算
子の畳み込みの二乗を合計することで、対象（物）のエ
ッジを認識する。例示的な具体例としては、ソーベル
（Sobel)演算子技術を用いて、水平方向にはδ_xという
演算子、垂直方向にはδ_yという演算子により二次元形
式で表現された、ソーベル（Sobel)演算子が以下の数３
のように記述されているとすれば、

【数３】

【００５６】これらの演算子は、例えば行列Ａについて
の隣接する画素に対する画素強度のような、対象（物）
のエッジを含んでいない画像領域における、隣接する画
素についての画素強度の大きさをもって畳み込まれる。
これは以下（数４）のように示される。

【数４】結果としての畳み込みは、部分的には以下（数５）で示
すような結果を生成する。

【数５】

【００５７】ここでの大きさは、二次元において０に近
似しているものである。一方、例えば行列Ｂにおいて示
された、隣接する画素についての画素強度のように、対
象（物）のエッジを含む画像領域における隣接する画素
についての画素強度の大きさをもって、ソーベル（Sobe
l)演算子が畳み込まれる場合には、結果としての畳み込
みは、部分的には以下（数６）で示すような結果を生成
する。

【数６】ここでの大きさは０に近似するものではない。例えば、
上で記述したソーベル（Sobel)演算子技術を利用してい
るエッジ検出技術は、映像フレームについての分割され
た４５×３０の画素領域のそれぞれにつき実行される。

【００５８】さらに、しきい値回路１２６は、分割され
た４５×３０の各画素領域における画素を認識する。そ
のような認識された画素に０でない数値を割り当てる際
には、隣接する画素についての、畳み込まれ、二乗さ
れ、合計された画素強度の大きさは、特定された値より
も大きなものとなる。隣接する画素についての、畳み込
まれ、二乗され、合計された画素強度の大きさが、しき
い値回路１２６の特定された値よりも小さい場合には、
画素には０という数値が割り当てられる。

【００５９】引き続いて、０でない画素の値に対応する
エッジデータ信号１２８が、しきい値回路１２６により
生成される。しきい値回路１２６のような、しきい値回
路を組み込むことで、輪郭を付けられた皮膚領域でエッ
ジでないものが、エッジとして誤って認識されることを
うまく防いでいる。というのは、隣接する画素について
画素強度の大きさにおける僅かな変化によって、典型的
な場合、畳み込まれ、二乗され、合計された（画素強度
の）大きさが、しきい値回路１２６の特定された値より
も小さいものとなるからである。

【００６０】再度、図３を参照すると、形状位置プリプ
ロセッサー９４により生成されたエッジデータ信号１２
８は、形状ロケーター（形状位置決め器）５０の粗スキ
ャナー１００への入力となる。粗スキャナー１００は、
形状位置プリプロセッサー９４により供給されたエッジ
データ信号１２８をＢ×Ｂの画素サイズのブロックへと
セグメント化する（切り出す）。例えば、５×５の画素
サイズのブロックへとセグメント化する。ブロックにお
ける画素の少なくとも一つが、上で論じたように、０で
ない値を有している場合には、各ブロックは、さらに粗
スキャナー１００によりマーキングされる。

【００６１】そこで、セグメント化されたＢ×Ｂのブロ
ックのアレーは、例えば、左から右へ、上部から下部へ
といったようにしてスキャンされ、マーキングされたブ
ロックの隣接するランを求めてサーチ（検索）がなされ
る。マーキングされたブロックについての、そのような
各ランについて、精細（細密）スキャニングと形状フィ
ッティングが実行される。形状ロケーター（形状位置決
め器）５０の構成要素部分として粗スキャナー１００を
含めることは、利用されるシステムについての演算上の
複雑さによって、選択の余地がある。

【００６２】精細（細密）スキャナー１０２は、セグメ
ント化され、マーキングされたＢ×Ｂのブロックについ
ての隣接するランそれぞれにおける画素を、例えば、左
から右へ、上部から下部へといったようにしてスキャン
し、画素の各列において、０でない値を有している最初
の画素と０でない値を有している最後の画素を検出す
る。各列について検出された、０でない最初と最後の画
素は、それぞれ、座標（x_start,y)及び(x_end,y)とラベ
ル付けされる。

【００６３】形状フィッター１０４は、画素の各列につ
いて（x_start,y)及び(x_end,y)とラベル付けされた座標
をスキャンする。形状フィッター１０４のメモリに保存
された、様々なサイズ及びアスペクト比を持った幾何学
的形状で、皮膚領域を含んでいる可能性のあるものは、
そこで、ラベル付けされた座標領域と比較される。これ
は、おおよその形状の適合を判断するためである。所定
の形状についてよく適合する組み合わせから、例えば、
楕円形といったような皮膚領域を含む可能性のある形状
の輪郭を判断すると、形状ロケーター（形状位置決め
器）５０は、よく適合した形状についての座標を基に、
形状位置信号１０６を生成し、そのような形状位置信号
１０６をトーン検出器５６へと供給する。

【００６４】対象（物）が皮膚領域を含んでいる可能性
を示している境界を伴った、当該対象（物）の位置につ
いて形状ロケーター（形状位置決め器）５０が認識する
と、トーン検出器５６は、そのような対象（物）が、皮
膚領域に特徴的な信号エネルギーを含んでいるかについ
て解析を行うよう機能する。当該対象（物）が、皮膚領
域に特徴的な信号エネルギーを含んでいる場合には、皮
膚のトーンの値についての範囲を認識するため、トーン
検出器５６は、当該対象（物）の色パラメーターをサン
プリングする。さらにトーン検出器５６は、皮膚のトー
ンの値についての認識された範囲を映像フレームの残り
についての色パラメーターと比較して、皮膚のトーンの
同じ値を含む他の領域を認識する。

【００６５】カラーデジタル映像信号は、赤色（Ｒ）、
緑色（Ｇ）、青色（Ｂ）という成分を含んでおり、典型
的には、標準ＹＵＶカラー映像フォーマットで利用可能
である。ここで、Ｙとは、輝度パラメーターを表してお
り、Ｕ及びＶはクロミナンスパラメーターを表してい
る。輝度（Ｙ）パラメーターは映像の明るさを特徴付け
ており、一方、クロミナンス（Ｕ，Ｖ）パラメーター
は、２つの色差の値、Ｃ_r、Ｃ_bを定義している。輝度
（Ｙ）パラメーター、色差の値、Ｃ_r、Ｃ_bと３つの色の
成分Ｒ、Ｇ、Ｂとの間の関係は、典型的には次のように
表現される。Ｙ＝０．２９９Ｒ＋０．５８７Ｇ＝０．１１４ＢＣ_r＝Ｒ−ＹＣ_b＝Ｂ−Ｙ

【００６６】本発明の一実施例では、図５で示されたよ
うに、トーン検出器５６は、皮膚領域検出器２００、Ｃ
_rヒストグラム生成器２０１、Ｃ_bヒストグラム生成器２
０３、Ｃ_r範囲検出器２０５、Ｃ_b範囲検出器２０７、ト
ーン比較器２０９を含んでいる。

【００６７】皮膚領域検出器２００は、入力映像信号２
６を形状位置信号１０６と相互に関連付け、そこで、映
像フレームにおいて認識された対象（物）は、形状ロケ
ーター（形状位置決め器）５０によりＤ×Ｄの画素ブロ
ックへとセグメント化される。Ｄ＝２のときには、皮膚
領域検出器２００は、認識された形状を２×２の画素ブ
ロックへとうまくセグメント化する。これは、２×２の
画素ブロックすべてについて、一つのＣ_rの値と一つの
Ｃ_bの値を得るためはもちろん、各画素について一つの
輝度パラメーターを得るためである。

【００６８】例示的な具体例として、図６は、画素３０
０についての４×４のブロックを示している。輝度パラ
メーター（Ｙ）３０１は、各画素３００について存在し
ている。一方、画素３００についての２×２の各ブロッ
クは、一つのＣ_rの値３０２と一つのＣ_bの値３０３を有
しており、水平及び垂直の両方向における中間点に存在
している。このように、２×２の画素ブロックそれぞれ
は、一つのＣ_rの値３０２と一つのＣ_bの値３０３はもち
ろん、４つの輝度（Ｙ）パラメーター３０１を含んでい
る。上で論じたように、認識された対象（物）について
皮膚のトーンのサンプリングが実行される際には、一つ
のＣ_rの値のみと一つのＣ_bの値のみを含めるべく、その
ようなセグメント化を行うことは重要であるといえる。

【００６９】Ｄ×Ｄの各画素ブロックが皮膚領域に特徴
的な信号エネルギーを有しているかを判断することで、
皮膚領域検出器２００は、認識された対象（物）周辺に
あるＤ×Ｄの画素ブロックいずれが皮膚領域を表してい
るのかを解析するよう機能している。カラー映像信号の
輝度（Ｙ）パラメーターは、２つの信号エネルギー成分
を有している。すなわち、交流（ＡＣ）エネルギー成分
と直流（ＤＣ）エネルギー成分である。皮膚領域の画素
は、典型的には、特定されたしきい値エネルギーＴ_enよ
りも小さい値を伴った交流（ＡＣ）エネルギー成分を有
している。

【００７０】本発明の実施例では、カラー映像信号の輝
度（Ｙ）パラメーターについての交流（ＡＣ）エネルギ
ー成分に関する演算に基づいて、皮膚領域が検出され
る。ＩＴＵ−Ｔ勧告Ｈ．２６３（「狭帯域通信チャネル
用映像符号化」）において記述された、離散コサイン変
換（Discrete Cosine Transform,DCT)技術を含む方法
が、輝度（Ｙ）パラメーターの信号エネルギーを演算す
るのに有用である。

【００７１】例示的な具体例として、Ｄ×Ｄの各画素ブ
ロックについての輝度パラメーターに関する交流（Ａ
Ｃ）エネルギー成分と直流（ＤＣ）エネルギー成分は、
以下に示されているように、数７の式から、各画素につ
いて離散コサイン変換（DCT)の関数Ｆ（ｕ，ｖ）を最初
に演算することで決定される。

【数７】ここでＦ（ｕ，ｖ）とは、離散コサイン変換（DCT)の関
数を表しており、Ｃ（ｕ）及びＣ（ｖ）は、以下のよう
に定義される。Ｃ（ω）＝１／２１／２（ω＝０）Ｃ（ω）＝１（ω＝１，２，３，．．．）これらは、Ｄ×Ｄの画素ブロックについての各画素位置
Ｆ（ｕ，ｖ）につき合計される。

【００７２】さらに、交流（ＡＣ）信号エネルギーＥ
（ｍ，ｌ）は、以下の数８の式に示されているように、
離散コサイン変換の関数Ｆ（ｕ，ｖ）の二乗から直流
（ＤＣ）信号エネルギーＦ_m,l（０，０）の二乗を引く
ことで決定される。

【数８】そこで、交流（ＡＣ）信号エネルギーＥ（ｍ，ｌ）は、
しきい値エネルギーＴ_enと比較される。Ｄ×Ｄの各画素
ブロックについて、交流（ＡＣ）信号エネルギーＥ
（ｍ，ｌ）が、あらかじめ選択されたしきい値エネルギ
ーＴ_enよりも小さい場合には、画素ブロックは、以下に
示されるように、皮膚領域として認識される。Ｅ（ｍ，ｌ）＜Ｔ_en 皮膚領域Ｅ（ｍ，ｌ）≧Ｔ_en 非皮膚領域

【００７３】典型的には、Ｄ×Ｄの画素ブロックが、12
0，000よりも小さい交流（ＡＣ）信号エネルギーの値を
有している際には、そのような画素ブロックは皮膚領域
として認識される。皮膚領域を判断するのに輝度パラメ
ーターの信号エネルギー成分を利用するのは有効である
といえる。というのは、非皮膚領域は、皮膚領域より
も、より高い信号エネルギー成分を有する傾向があるか
らである。そのような非皮膚領域を認識し、色サンプリ
ングプロセスからそれらの領域を取り除くことで、サン
プリングされた画素の色が、実際に皮膚領域の画素とな
る確率が増加し、従って、サンプリングされるトーンの
範囲の精度が改善されることになる。

【００７４】Ｄ×Ｄの画素ブロックが、皮膚領域検出器
２００により皮膚領域として一旦認識されると、当該Ｄ
×Ｄの画素ブロックについてのＣ_rの値とＣ_bの値は、そ
れぞれ、Ｃ_rヒストグラム生成器２０１及びＣ_bヒストグ
ラム生成器２０３によりサンプリングされる。前に論じ
たように、Ｄ×Ｄの画素ブロックが、２×２の画素ブロ
ックであるとすれば有効である。というのは、そのよう
なブロックは、一つのＣ_rの値のみと一つのＣ_bの値のみ
を含んでいるからである。そこで、Ｃ_rヒストグラム生
成器２０１とＣ_bヒストグラム生成器２０３の両方は、
サンプリングされたＣ_rとＣ_bの値それぞれについてのヒ
ストグラムを生成する。

【００７５】一旦、Ｃ_rのヒストグラムとＣ_bのヒストグ
ラムが生成されると、サンプリングされた対象（物）に
ついての皮膚のトーンを表している色パラメーターの範
囲は、統計解析技術を用いて、Ｃ_r範囲検出器２０５及
びＣ_b範囲検出器２０７を用いて決定される。例えば、
サンプリングされたＤ×Ｄの各画素ブロックに対する、
Ｃ_rとＣ_bの値の平均値とモード値が、各データセットに
ついて決定される。Ｃ_rとＣ_bの値の平均値とモード値
が、それぞれについて特定された距離Ｄ_p内にある際に
は、そのようなＣ_rとＣ_bの値の平均値とモード値は、単
一のピークを表しているものとして認識される。

【００７６】その後、Ｄ×Ｄの各画素ブロックについ
て、画素の色パラメーターが、単一のピークを表すＣ_r
とＣ_bの値の平均値とモード値についての所定の距離、
例えば、ある標準偏差、の範囲内にある場合には、当該
画素の色パラメーターは、皮膚のトーンの値についての
範囲に含まれる。平均値とモード値が、特定された距離
Ｄ_pよりも大きい際には、Ｃ_rとＣ_bの値の平均値とモー
ド値は２つの個別なピークを表しているものとして認識
される。Ｄ×Ｄの画素ブロックについての画素の色パラ
メーターが、２つの個別なピークを表している、Ｃ_rと
Ｃ_bの値の平均値とモード値を伴っている場合には、そ
れらは皮膚のトーンの値についての範囲に含まれない。

【００７７】Ｃ_r範囲検出器２０５及びＣ_b範囲検出器２
０７それぞれにおいて生成された、Ｃ_rとＣ_bの値の範囲
を基に、トーン比較器２０９は、入力映像信号２６の全
フレームを解析し、同一のクロミナンスパラメーターを
含む、他のすべての領域の位置を探し出す。そのような
他の領域の位置が明らかにされると、皮膚領域の位置を
示している皮膚情報信号２１１がトーン比較器２０９に
より生成される。

【００７８】皮膚領域検出器１２は、映像シーケンスの
各フレームについて上述の解析を実行するか、あるい
は、選択的には単一のフレームを解析し、さらに、トー
ン比較器２０９は、皮膚のトーンの値についての範囲を
利用して、次の、幾つかの特定された数のフレームにお
いて皮膚領域を認識する。

【００７９】本発明の実施例においては、形状ロケータ
ー（形状位置決め器）５０により認識された対象（物）
の輪郭が、楕円形とうまく適合しており、そのような形
状が皮膚領域を含んでいることが確かめられる以前に、
形状ロケーター（形状位置決め器）５０により生成され
た形状位置信号１０６が、選択的に、図７で示されるよ
うに、目−鼻−口（eyes-nose-mouth,ＥＮＭ）領域検出
器５２へと供給される。

【００８０】目−鼻−口（eyes-nose-mouth,ＥＮＭ）領
域検出器５２は、形状ロケーター（形状位置決め器）５
０から、うまく適合した楕円形の輪郭の座標を受け取
り、図８に示されているように、当該楕円領域を矩形ウ
インドウ６０及び相補領域６２（矩形ウインドウ６０内
に位置していない、楕円形の残りの部分を含んでいる）
へとセグメント化する。ＥＮＭ領域検出器５２は、楕円
形のパラメーターを受け取り、矩形ウインドウ６０が、
目、鼻、口の領域に対応する楕円領域を把握すべく配置
されるように、それらを処理する。

【００８１】ＥＮＭ領域検出器５２は、サーチ（検索）
領域識別子１０８を用いて矩形ウインドウ６０の位置決
めを行うサーチ（検索）領域を決定する。ここで、図８
で示されているような楕円形の輪郭についての中心点
（ｘ₀，ｙ₀）の座標は、矩形ウインドウ６０の位置決め
のためのおおよそを得るため用いられる。ＥＮＭ領域の
中心点の位置決めを行うサーチ（検索）領域は、例えば
１２×１５の画素といったように、Ｓ×Ｔの画素サイズ
の矩形であり、楕円形状の輪郭の長軸及び短軸について
決まったサイズを有するようにうまく選択される。

【００８２】ここでの開示で用いられた長軸という語
は、図８に関連して定義されるものであり、点ｙ₁及び
ｙ₂の間で楕円形を二分する線分のことを示している。
ここでの開示で用いられた短軸という語はまた、図８に
関連して定義されるものであり、点ｘ₁及びｘ₂の間で楕
円形を二分する線分のことを示している。例示的な具体
例として、楕円形が、長軸に沿って５０画素の長さ、短
軸に沿って３０画素の長さを有しているものとする。矩
形ウインドウ６０のサイズは、２５×１５の画素サイズ
を有するようにうまく選択される。このサイズは、長軸
と短軸の両方に沿って楕円形の半分の長さに近似してい
るものであり、当該形状の目−鼻−口領域について、も
っとも考えられる配置をとらえているものである。

【００８３】矩形ウインドウ６０が楕円形内に一旦位置
を定められると、サーチ（検索）領域スキャナー１１０
は、矩形ウインドウを解析し、当該楕円形の目−鼻−口
領域に関しての対称軸についての候補となる各位置を決
定する。例えば、サーチ（検索）領域スキャナー１１０
は、左から右といった手法で、長軸に並行に置かれた線
分６４を用いて、矩形ウインドウ６０内の縦の画素行そ
れぞれを選択する。これは、鼻の中心を通り、口の半分
を通過し、両目の間に位置した、対称軸を求めてサーチ
（検索）するためである。

【００８４】顔の軸に関する対称軸が決定された後に
は、ＥＮＭ領域検出器５２は、矩形ウインドウ６０につ
いての結果として得られる目−鼻−口領域の座標に対応
するＥＮＭ領域信号５４を生成する。ＥＮＭ信号５４
は、対象（物）の目−鼻−口領域の位置に対する座標を
トーン検出器５６へ通知し、そこで、そのような領域に
含まれていない画素は、以降の色パラメーター解析から
は取り除かれることになる。

【００８５】目−鼻−口領域が認識されるのは有効とい
える。というのは、そのような顔の領域は、例えば、目
の色のパラメーター、眉毛の色のパラメーター、唇の色
のパラメーター、髪の色のパラメーターを含む、皮膚の
トーンのパラメーターより他の色パラメーターはもちろ
ん、皮膚の色のパラメーターを含んでいるからである。
目−鼻−口領域で皮膚の色のパラメーターを認識するこ
とは、サンプリングされる色パラメーターの範囲につい
ての精度を改善することになる。なぜなら、ＥＮＭ領域
の認識は、皮膚領域の存在を強く示すものであるからで
ある。また、ＥＮＭ領域は、それが導かれている、適切
に適合した楕円形よりも小さいものであることから、演
算上の複雑さも有効に低減される。

【００８６】目−鼻−口領域の検出はまた、主体が直接
カメラをみていないという場合に、影響が及ぼされう
る。これは、例えば、映像による電話会議の状況におい
てしばしば生じることである。ＥＮＭ領域検出器５２は
また、入力映像についての目−鼻−口領域の検出も包含
しており、この場合、主体はカメラに直接面と向かって
いるわけではなく、顔に髪の毛がかかっていたり、眼鏡
をかけていたりする。

【００８７】ＥＮＭ領域検出器５２は、鼻を経て口を横
切る縦軸につき、顔の特徴についての代表的な対称性を
活用している。ここで、対称軸は、図８で示されている
ように、画像の縦軸に関して、角θ₁で傾斜されうる。
そのような傾斜された楕円形については、目−鼻−口領
域の検出におけるロバストネス（強健さ）を提供するた
め、矩形ウインドウ６０は、ウインドウの中心について
別個の値の角度だけ回転される。角θ１は、−１０゜か
ら１０゜の範囲内の値を有していると都合がよい。

【００８８】皮膚領域検出器１２は、選択的には、映像
コーデック（codec、符号器／復号器）１０のような映
像符号器／復号器（コーデック、codec）と結びつけて
用いられる。以下の説明は、図１で示されたような映像
コーデック（codec、符号器／復号器）１０の他の構成
要素に関する皮膚領域検出器１２の動作を論じるもので
ある。映像コーデック（codec、符号器／復号器）１０
は、映像符号器２２及び映像復号器２４を含んでおり、
ここで、映像符号器２２は、符号化コントローラー１６
によりコントロールされている。

【００８９】符号化操作のため、映像コーデック（code
c、符号器／復号器）１０は入力映像信号２６を受け取
る。これは皮膚領域検出器１２と映像符号器２２へと前
送りされる。皮膚領域検出器１２は、上述のように入力
映像信号を解析し、皮膚領域の位置に関係した情報を符
号化コンロローラー１６へと供給する。映像符号器２２
は、符号化コントローラー１６のコントロールの下で入
力映像信号を符号化し、符号化ビットストリーム出力３
０を生成する。

【００９０】ここで、上述の皮膚領域検出器を用いて認
識された皮膚領域は、そのように認識されていない領域
よりも高いビット数をもって符号化されている。例え
ば、符号化コントローラー１６のような符号化コントロ
ーラーは、典型的な場合、あるしきい値（量子化ファク
ター）以上の値を有する、離散コサイン変換のデータ成
分のみを符号化し、伝送する。例示的な具体例として、
１６×１６の画素領域が、１から１６の範囲の値を有す
るデータ成分を有しており、しきい値が８に選択された
ものとする。すると、符号化コントローラーは、８とい
うしきい値よりも大きい値を有する、ＤＣＴデータ成分
のみを符号化することになろう。

【００９１】しかしながら、本発明の実施例において
は、皮膚領域を含むものとして認識されている映像信号
の部分について、しきい値以下の値を有するデータ成分
は、ここで、しきい値以上の値を有するデータ成分とい
っしょに符号化される。結果として、皮膚領域として認
識されている映像領域は、そのように認識されない領域
よりも高いビット数をもって符号化される。一実施例で
は、映像符号器２２は、ソース符号器３２、映像多重符
号器３４，伝送バッファー３６、伝送符号器３８を用い
て入力映像信号２６を符号化し、符号化ビットストリー
ム出力３０を生成する。

【００９２】復号化操作については、映像コーデック
（codec、符号器／復号器）１０は、符号化ビットスト
リーム入力４０を受け取る。映像復号器２４は、映像信
号出力７０を生成するため、受信復号器４２，受信バッ
ファー４４、映像多重復号器４６、及びソース復号器４
８を用いて、符号化ビットストリーム入力４０を復号す
る。

【００９３】

【発明の効果】本発明により、映像における人の手、
顔、及びその他の皮膚領域の認識を行う皮膚認識技術に
おいて、従来の技術にみられた問題点を解決した皮膚領
域検出方法及びシステムが実現された。とりわけ、本発
明は、映像を用いた電話会議システムといった、マルチ
メディア環境での応用を目指した通信システムへ適用さ
れることが期される。

【図面の簡単な説明】

【図１】図１は、本発明の原理についての例示的な応用
例を具体化している、映像符号器／復号器（コーデッ
ク、Codec）のブロック線図である。

【図２】図２は、本発明の皮膚領域検出器のブロック線
図である。

【図３】図３は、図２の形状ロケーター（形状位置決め
器）のブロック線図を示している。

【図４】図４は、図３の形状ロケーター（形状位置決め
器）についてのプリプロセッサー回路のブロック線図で
ある。

【図５】図５は、図２のトーン検出器のブロック線図を
示している。

【図６】図６は、４×４の画素ブロックを例示してい
る。

【図７】図７は、目−鼻−口（eyes-nose-mouth,ＥＮ
Ｍ）領域検出器を含む、皮膚領域検出器のブロック線図
を示している

【図８】図８は、楕円形内に配置された矩形ウインドウ
を例示している。

【符号の説明】

１０映像コーデック（codec、符号器／復号器）１２皮膚領域検出器１６符号化コントローラー１８バッファーレート変調器２０バッファーサイズ変調器２２映像符号器２４映像復号器２６入力映像信号３０符号化ビットストリーム出力３２ソース符号器３４映像多重符号器３６伝送バッファー３８伝送符号器４０符号化ビットストリーム入力４２受信復号器４４受信バッファー４６映像多重復号器４８ソース復号器５０形状ロケーター（形状位置決め器）５２目−鼻−口（eyes-nose-mouth,ENM)領域検出器５４目−鼻−口（eyes-nose-mouth,ENM)領域信号５６トーン検出器６０矩形ウインドウ６２相補領域７０出力映像信号８０出力信号９４形状位置プリプロセッサー（形状ロケータープリ
プロセッサー）１００粗スキャナー１０２精細（細密）スキャナー１０４形状フィッター１０６形状位置信号（形状ロケーター信号）１０８サーチ（検索）領域識別子１１０サーチ（検索）領域スキャナー１１８（時間）ダウンサンプラ１２０フィルター１２２デシメータ１２４エッジ検出器１２６しきい値回路１２８エッジデータ信号２００皮膚領域検出器２０１Ｃ_rヒストグラム生成器２０３Ｃ_bヒストグラム生成器２０５Ｃ_r範囲検出器２０７Ｃ_b範囲検出器２０９トーン比較器２１１皮膚情報信号（出力）３００４×４の画素ブロック３０１輝度パラメーター（Ｙ）３０２Ｃ_rの値３０３Ｃ_bの値

フロントページの続き (73)特許権者 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者岡田浩行千葉県千葉市緑区誉田町２−24−７−Ｃ 208 (72)発明者ジョナサンデビッドローゼンバーグアメリカ合衆国、07751 ニュージャージー、モーガンビル、タングルウッドプレイス 137 (56)参考文献特開平６−233292（ＪＰ，Ａ) 特開平２−44881（ＪＰ，Ａ) 特開平７−168932（ＪＰ，Ａ) 特開平６−309433（ＪＰ，Ａ) 特開平７−311833（ＪＰ，Ａ) 特開平７−332054（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06T 1/00 G06T 7/00 H04N 7/24 - 7/68

Claims

(57)【特許請求の範囲】

【請求項１】色映像信号の少なくとも一部分から所定
の形状を有する対象を認識するロケーターと、解析される画素が皮膚領域を示す所定の範囲内に信号エ
ネルギーを有しているかを判断するために、前記所定の
形状を有する、認識された前記対象の少なくとも１つか
ら、少なくとも１つの画素を解析する検出器と、を有することを特徴とする色映像信号における皮膚のト
ーンを定める装置。
【請求項２】前記所定の形状は、皮膚領域を含む可能
性が高い形状であることを特徴とする請求項１の装置。
【請求項３】前記所定の形状は、人間の形状特有の弧
形に対応する弧形を有することを特徴とする請求項２の
装置。
【請求項４】前記所定の形状は、楕円形であることを
特徴とする請求項３の装置。
【請求項５】前記解析される画素は前記皮膚領域を示
す輝度パラメーターを有し、前記輝度パラメータは前記
解析される画素についての交流（ＡＣ）信号エネルギー
成分を含むことを特徴とする請求項１の装置。
【請求項６】前記検出器が、前記解析される画素の少
なくとも１つの色パラメーターを定めるために、前記解
析される画素をさらにサンプリングすることを特徴とす
る請求項１の装置。
【請求項７】前記少なくとも１つの色パラメーター
は、クロミナンスパラメーターであることを特徴とする
請求項６の装置。
【請求項８】前記検出器が、さらに比較器を有し、この比較器は、前記解析される画素についての前記少な
くとも１つの色パラメーターと同一となっている、未解
析の画素における複数の色パラメーターを認識するため
に、前記解析される画素について定められた前記少なく
とも１つの色パラメーターを、前記色映像信号について
の未解析の画素における該複数の色パラメーターと比較
することを特徴とする請求項６の装置。
【請求項９】前記解析される画素についての前記少な
くとも１つの色パラメーターの位置を基に、符号器が符
号セグメントを生成することを特徴とする請求項６の装
置。
【請求項１０】前記形状が目−鼻−口領域と関連した
画素を含んでいるかを判断するために、前記人間の形状
特有の弧形に対応する前記弧形について解析がなされる
ことを特徴とする請求項３の装置。
【請求項１１】前記目−鼻−口領域と関連のない画素
については、前記検出器により解析から省かれることを
特徴とする請求項１０の装置。
【請求項１２】色映像信号の少なくとも一部分から所
定の形状を有する対象を認識するステップと、解析される画素が皮膚領域を示す所定の範囲内に信号エ
ネルギーを有しているかを判断するために、前記所定の
形状を有する、認識された前記対象の少なくとも１つか
ら、少なくとも１つの画素を解析するステップと、を有することを特徴とする色映像信号における皮膚のト
ーンを定める方法。
【請求項１３】前記所定の形状は、皮膚領域を含む可
能性が高い形状であることを特徴とする請求項１２の方
法。
【請求項１４】前記所定の形状は、人間の形状特有の
弧形に対応する弧形を有することを特徴とする請求項１
３の方法。
【請求項１５】前記所定の形状は、楕円形であること
を特徴とする請求項１４の方法。
【請求項１６】前記解析される画素は前記皮膚領域を
示す輝度パラメーターを有し、前記輝度パラメーターは
前記解析される画素についての交流（ＡＣ）信号エネル
ギー成分を含むことを特徴とする請求項１２の方法。
【請求項１７】画素の少なくとも１つの色パラメータ
ーを定めるために、前記解析される画素をサンプリング
するステップをさらに有することを特徴とする請求項１
２の方法。
【請求項１８】前記少なくとも１つの色パラメーター
は、クロミナンスパラメーターであることを特徴とする
請求項１７の方法。
【請求項１９】前記解析される画素についての前記少
なくとも１つの色パラメーターと同一となっている、未
解析の画素における複数の色パラメーターを認識するた
めに、前記解析される画素について定められた前記少な
くとも１つの色パラメーターを、前記色映像信号につい
ての未解析の画素における該複数の色パラメーターと比
較するステップをさらに有することを特徴とする請求項
１７の方法。
【請求項２０】前記解析される画素についての前記少
なくとも１つの色パラメーターの位置を基に、符号セグ
メントを生成するステップをさらに有することを特徴と
する請求項１７の方法。
【請求項２１】前記形状が目−鼻−口領域と関連した
画素を含んでいるかを判断するために、前記人間の形状
特有の弧形に対応する前記弧形を解析するステップをさ
らに有することを特徴とする請求項１４の方法。
【請求項２２】前記目−鼻−口領域と関連のない画素
については、解析から省かれることを特徴とする請求項
２１の方法。
【請求項２３】所定の形状を有する対象を認識するた
めに色映像信号の少なくとも一部分を解析する形状ロケ
ーターと、解析した画素が皮膚領域を示す信号エネルギーについて
の所定の範囲内に信号エネルギーを有する輝度パラメー
ターを有しているかを判断するために、前記所定の形状
を有する、認識された前記対象の少なくとも１つから、
少なくとも１つの画素を解析するトーン検出器と、前記少なくとも１つの認識された対象が皮膚領域を示す
信号エネルギーを有する輝度パラメーターを有している
と判断された表示を受信し、該前記受信に応じて、前記
少なくとも１つの認識された対象をより高いビット数で
符号化するために映像符号器を制御する映像コントロー
ラーと、を有することを特徴とする、入力色映像信号において皮
膚領域を定め、皮膚領域であると決定された領域をより
高いビット数で符号化する装置。
【請求項２４】前記色映像信号の少なくとも一部分は
フレームを有し、前記形状ロケーターは前記フレーム内
の所定の形状を有するすべての対象を認識することを特
徴とする請求項２３の装置。
【請求項２５】前記少なくとも１つの画素の色をテス
トする色サンプリングプロセッサーを有することを特徴
とする請求項２４の装置。
【請求項２６】前記トーン検出器は非皮膚領域の判断
も動作可能であり、前記映像コントローラーは前記色サ
ンプリングプロセッサーによるテストから前記非皮膚領
域を除去することを特徴とする請求項２５の装置。
【請求項２７】前記信号エネルギーは前記輝度パラメ
ーターの二乗の和であることを特徴とする請求項２３の
装置。
【請求項２８】前記解析される対象のすべての画素
は、前記解析される対象に対する皮膚のトーンの値につ
いての範囲を決定するためにサンプリングされることを
特徴とする請求項２３の装置。
【請求項２９】前記皮膚のトーンの値についての範囲
は、同じ皮膚のトーンの値を有する他の領域を認識する
ために映像イメージに含まれたすべてのトーンと比較さ
れることを特徴とする請求項２８の装置。
【請求項３０】所定の形状を有する対象を認識するた
めに色映像信号の少なくとも一部分を解析する第１解析
ステップと、解析される画素が皮膚領域を示す信号エネルギーについ
ての所定の範囲内に信号エネルギーを有する輝度パラメ
ーターを有しているかを判断するために、前記所定の形
状を有する、認識された前記対象の少なくとも１つか
ら、少なくとも１つの画素を解析する第２解析ステップ
と、前記少なくとも１つの認識された対象がより高いビット
数で符号化されるように映像符号器を制御するために、
前記少なくとも１つの認識された対象が皮膚領域を示す
信号エネルギーを有する輝度パラメーターを有している
と判断された表示を利用するステップと、を有することを特徴とする、入力色映像信号において皮
膚領域を定め、皮膚領域であると決定された領域をより
高いビット数で符号化する方法。
【請求項３１】前記色映像信号の少なくとも一部分は
フレームを有し、前記第１解析ステップは、前記フレーム内の所定の形状を有するすべての対象を認
識するステップを有することを特徴とする請求項３０の
方法。
【請求項３２】前記少なくとも１つの画素の色をテス
トするステップをさらに有することを特徴とする請求項
３１の方法。
【請求項３３】非皮膚領域を決定するステップと、色テストから前記非皮膚領域を除去するステップと、をさらに有することを特徴とする請求項３２の方法。
【請求項３４】前記信号エネルギーは前記輝度パラメ
ーターの二乗の和であることを特徴とする請求項３０の
方法。
【請求項３５】前記解析される対象のすべての画素
は、前記解析される対象に対する皮膚のトーンの値につ
いての範囲を決定するためにサンプリングされることを
特徴とする請求項３０の方法。
【請求項３６】同じ皮膚のトーンの値を有する他の領
域を認識するために、前記皮膚のトーンの値についての
範囲を映像イメージに含まれたすべてのトーンと比較す
るステップをさらに有することを特徴とする請求項３０
の方法。
【請求項３７】色映像信号の少なくとも一部分から所
定の形状を有する対象を認識する手段と、解析される画素が皮膚領域を示す所定の範囲内に信号エ
ネルギーを有しているかを判断するために、前記所定の
形状を有する、認識された前記対象の少なくとも１つか
ら、少なくとも１つの画素を解析する手段と、前記少なくとも１つの認識された対象が皮膚領域を示す
信号エネルギーを有する輝度パラメーターを有している
と判断された表示を受信し、該前記受信に応じて、前記
少なくとも１つの認識された対象をより高いビット数で
符号化するために、映像符号器を制御する手段と、を有することを特徴とする、入力色映像信号において皮
膚領域を定め、皮膚領域であると決定された領域をより
高いビット数で符号化する装置。
【請求項３８】前記色映像信号の少なくとも一部分は
フレームを有し、前記認識する手段は、前記フレーム内
の所定の形状を有するすべての対象を認識することを特
徴とする請求項３７の装置。
【請求項３９】前記少なくとも１つの画素の色をテス
トする手段をさらに有することを特徴とする請求項３７
の装置。
【請求項４０】前記解析する手段は、非皮膚領域の判
断も可能であり、前記制御する手段は、前記テストする
手段によるテストから前記非皮膚領域を除去することも
可能であることを特徴とする請求項３９の装置。
【請求項４１】前記信号エネルギーは、前記少なくと
も１つの画素に対する前記輝度パラメーターの二乗の和
であることを特徴とする請求項３７の装置。
【請求項４２】前記解析される対象のすべての画素
は、前記解析される対象に対する皮膚のトーンの値につ
いての範囲を決定するためにサンプリングされることを
特徴とする請求項３７の装置。
【請求項４３】前記皮膚のトーンの値についての範囲
は、同じ皮膚のトーンの値を有する他の領域を認識する
ために映像イメージに含まれたすべてのトーンと比較さ
れることを特徴とする請求項４２の装置。