JP2007047949A - 口トラッキング装置及びコンピュータプログラム - Google Patents

口トラッキング装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2007047949A
JP2007047949A JP2005230162A JP2005230162A JP2007047949A JP 2007047949 A JP2007047949 A JP 2007047949A JP 2005230162 A JP2005230162 A JP 2005230162A JP 2005230162 A JP2005230162 A JP 2005230162A JP 2007047949 A JP2007047949 A JP 2007047949A
Authority
JP
Japan
Prior art keywords
lip
pixel
pixels
space
mouth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005230162A
Other languages
English (en)
Inventor
Gurbuz Sabri
サブリ・グルブズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005230162A priority Critical patent/JP2007047949A/ja
Publication of JP2007047949A publication Critical patent/JP2007047949A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】サンプルを事前にトレーニングすることなく、リアルタイムでトラッキングするのに適した口トラッキング装置を提供する。
【解決手段】口をトラッキングするための装置は、強度分布に基づいて、ビデオフレームの各々における顔領域と顔領域中の口区域との場所を特定するための手段44、46及び48と、ビデオフレームの各々について、顔領域の画素の色分布と画素の各々の色とに基づいて、口区域の画素の各々に予め定められた2つのラベルのうち一つを決定するための手段50と、第1のラベルを有する画素中で、口区域内の唇輪郭候補を特定し、唇輪郭候補に、特定のパラメータ形状を当てはめる手段52とを含む。
【選択図】 図1

Description

この発明はカメラベースの、口及びその唇の外側輪郭をトラッキングする方法とシステムとに関し、特に、口と唇の外側輪郭とをトラッキングしてこれらを他の顔の特徴とともに、視覚的音声処理、セキュリティのための視覚ベースの人物特定、2D/3Dの仮想現実のアプリケーション、先進的な人とコンピュータとのインターフェイスシステム、及びロボットの応用等に用いるための、リアルタイムの視覚に基づいた方法とシステムとに関する。
従来、コンピュータ及びロボットは人間の命令によって割当てられた仕事を行なうことのできるツールであると考えられてきた。最近、本発明者らは、機械が人間と同様なやり方でこの世界で動き、特にそれらが他の人間と相互に有益な関係で仲間として相互作用するような、共生システムを考えるようになった。
このような人と機械との交流では、複数の方法による人と機械との相互作用が不可欠である。特に、多くの方法を用いる人とコンピュータとのインターフェイスのアプリケーションでは、頑健な、リアルタイムの唇(または口)のトラッキングが重要な研究課題の一つである。例えば、音声認識装置に視覚的音声情報を付加すれば、少なくとも2つの実際的な基準を満たす。すなわち、音声認識における人の視覚的な知覚を模倣するので、音響的領域に常に存在するとは限らない情報を含むかもしれない(非特許文献1)。別のアプリケーション例は、人とヒューマノイドエージェントとの社交的な対話を、発話の間に人と同様に口を動かすことでより向上させることである(非特許文献2)。
パタジャンは、特許文献2において、彼の研究のための顔トラッキングシステムにおいて、口トラッキングのために、グレースケール画像における、鼻孔を基準とした連続した口輪郭の符号化を行なっている。このアプローチには2つの欠点がある。第1に、鼻孔の検出はそれらが見える場合は非常に安定しているが、顔の向きによってはさえぎられてしまう。従って、鼻孔を基準として用いるのは一般に実用的なアプローチであるとは言いがたい。第2に、この方法は口輪郭の連続性とともに、グレースケールのしきい値処理に依存している。しかし、特に光の状態が変化すると顔の輪郭はかなり変化するため、トラッキングの失敗につながる。
研究者の中には、唇の外側輪郭をトラッキングするために、非特許文献3に記載のアクティブ輪郭モデル(スネークス)のフレームワークを利用している者がいる。アクティブ輪郭モデルは、カスらにより1987年に初めて導入された。輪郭モデルは、対象の境界または何か他の画像特徴量をパラメータ曲線として表す。ユーザ又はより上位レベルのプロセスが、曲線の位置を対象物の境界近くに初期化する。繰返しにより、最終的には曲線は唇の輪郭の周りに縮んでいく(shrink wrap around)と予測される。一般に、輪郭の制約は内部(弾性及び曲げ)エネルギと外部(境界)エネルギとによって規定される。皺やひげなど、人の口の周囲は複雑であるため、外部エネルギが良好に規定できるか否かはパラメータの選択にかかっている。従って、唇の対象領域(Region of Interest:ROI)が整っていない場合、スネークスのアルゴリズムは正しい境界に収束しないおそれがある。
クー及びプリンスは、非特許文献4において、対象物の境界トラッキングのために、勾配ベクトルフロー(Gradient Vector Flow:GVF)と呼ばれる、スネークスのための新たな外部エネルギを定義している。スネークスの対象物の境界への吸引を改良するベクトル場としてGVF場が定義されている。一般的に従来のスネークスのアルゴリズムよりかなり改良されるものの、GVFスネークスのアルゴリズムもまたパラメータの選択に敏感であり、計算コストも大きい。
チャンらは、非特許文献5において、唇輪郭のトラッキングに、基準形状モデルを用いた反復Bスプラインアプローチを採用している。彼らのアルゴリズムもまた、他の多くのものと同様に、ユーザの口をトラッキングするためにユーザについて予め特定の知識を必要とする。
特開2004-157778 E.D.パタジャン、「電子的顔トラッキング及び検出システム、ならびに自動音声認識のための方法及び装置」、米国特許第4,975,960号、1990年。(E. D. Petajan, “Electronic facial tracking and detection system and method and apparatus for automated speech recognition,” in US. Pat. No. 4,975,960, 1990.) S.グルブズ、Z.トゥフェクチ、E.パターソン及びJ.ガウディ、「オーディオ‐ビジュアルな音声認識のためのアフィン不変フーリエ記述子の唇読取への適用」、ICASSP予稿集、2001年。(S. Gurbuz, Z. Tufekci, E. Patterson, and J. Gowdy, "Application of affine-invariant fourier descriptors to lipreading for audio-visual speech recognition," in Proceedings of ICASSP, 2001) S.グルブズ、K.キノシタ、M.レイリー、及びS.ヤノ、「話すヒューマノイドロボットのための生物学的に有効な顎の動き」IEEE-RAS/RSJ ヒューマノイドロボットに関する国際会議(ヒューマノイズ 2004)、ロサンゼルス、カリフォルニア、USA、2004年。(S. Gurbuz, K. Kinoshita, M. Riley, and S. Yano, "Biologically valid jaw movements for talking humanoid robots," in IEEE-RAS/RSJ International Conference on Humanoid Robots (Humanoids 2004), Los Angeles, CA, USA, 2004.) M.カス、A.ウィトキン、及びD.テルゾポーラス、「スネークス:活性輪郭モデル」、コンピュータビジョンに関する第1回国際会議、259−268ページ、1987年。(M. Kass, A. Witkin, and D. Terzopoulos, "Snakes: Active contour models," in Proceedings of 1st international Conference on Computer Vision, pp. 259-268, 1987.) C.クー及びJ. P.プリンス、「スネークス、形状及び勾配ベクトルフロー」、IEEE画像処理トランザクション、第7巻第3号、1998年。(C. Xu and J.P. Prince, "Snakes, shapes, and gradient vector flow," IEEE Transactions on Image Processing, vol. 7, no. 3, 1998.) M.T.チャン、Y.ツァン、及びT.S.ハン、「リアルタイムの唇トラッキングとバイモーダル連続音声認識」、IEEE信号処理学会1998、マルチメディア信号処理ワークショップ1998年。(M.T. Chan, Y. Zhang, and T.S. Huang, "Real-time lip tracking and bimodal continuous speech recognition," in IEEE Signal Processing Society 1998 Workshop on Multimedia Signal Processing, 1998.) J.A及びA.エレフテリアディス、「ビデオシーケンスにおける顔と顔特徴量の自動位置決めトラッキング」、自動的な顔と身振りの認識に関する国際ワークショップ、チューリッヒ、スイス、1995年。(J. A and A. Eleftheriadis, "Automatic location tracking of faces and facial features in video sequences," in International Workshop on Automatic Face and Gesture Recognition, Zurich, Switzerland, 1995.) C.C,チャン、W.K. タイ、M.T.ヤン、Y.T.ハン及びC.J.ハン、「リアルタイムで唇、目及び顔を検出する新規な方法」リアルタイム画像処理、第9巻、277−287ページ、2003年。(C.C. Chiang, W.K. Tai, M.T. Yang, Y.T. Huang, and C.J. Huang, "A Novel Method for Detecting Lips, Eyes and Faces in Real-Time," Real-Time Imaging Vol. 9, pp. 277-287, 2003) H.J. 及びA.ゼリンスキー、「頑健なリアルタイムの顔トラッキング及び身振りの認識」人口知能に関する国際連合会議予稿集、1997年。(H.J and A. Zelinsky, "Robust real-time face tracking and gesture recognition," in Proceedings of the International Joint Conference on Artificial Intelligence, 1997) S.カワト及びN.テツタニ、「ssrフィルタ及びサポートベクトルマシンによる、リアルタイムスケール適応顔検出及びトラッキング」、ACCV予稿集、第1巻、2004年。(S. Kawato, and N. Tetsutani, "Scale adaptive face detection and tracking in real time with ssr filter and support vector machine," in Proc. of ACCV, vol. 1, 2004) P.バイオラ及びM.ジョーンズ、「頑健なリアルタイム物体検出」、視覚モデリング、学習、コンピューティング及びサンプリングに関する統計的及びコンピュータ関連理論に関する第2回国際ワークショップ、カナダ、バンクーバー、2001年。(P. Viola and M. Jones, "Robust real-time object detection," in Second International Workshop on Statistical and Computational Theories of Vision-Modeling, Learning, Computing, and Sampling, Vancouver, Canada, 2001) S.グルブズ、K.キノシタ、及びS.カワト、「ジオメトリ及び照明に変化のある場合のリアルタイムの人の鼻梁トラッキング」マン−マシンシンバイオティックシステム第2回国際会議、京都、日本、2004年。(S. Gurbuz, K. Kinoshita, and S. Kawato, "Real-time human nose bridge tracking in presence of geometry and illumination changes," in Second International Workshop on Man-Machine Symbiotic systems, Kyoto, Japan, 2004) J.ヤン、R.スティフェルハーゲン、U.メイヤー及びA.ウェイベル、「マルチモーダルな人とコンピュータの相互作用のための視覚的トラッキング」コンピュータシステムにおける人のファクタに関するSIGCHI会議予稿集、1998年。(J. Yang, R. Stiefelhagen, U. Meier, and A. Waibel, "Visual tracking for multimodal human computer interaction," in Proceedings of the SIGCHI conference on Human factors in computing systems, 1998)
ほとんどのアプローチは成功したと報告されているが、これらのアプローチは計算が複雑であることと、ユーザの肌の色や口の形状を前もって知る必要があることから、多くの実際的な用途には不利である。従って、ユーザについての事前の知識を必要としないオンライン学習アルゴリズムを付加することによって、これらの試みを遍在的な唇トラッキングシステムに拡張する必要がある。すなわち、この装置は、肌の色、唇の色、又は照明等に関わりなく、唇の輪郭をトラッキングできるものでなければならない。
従って、この発明の目的は、個々人のサンプルを事前にトレーニングすることなく、リアルタイムでトラッキングするのに計算上適した、口トラッキング装置を提供することである。
この発明の別の目的は、影や照明の変化に対し頑健な、口トラッキング装置を提供することである。
この発明のさらに別の目的は、顔の正面の向きとスケールの変化に対し不変な、口トラッキングのための方法及び装置を提供することである。
この発明の別の目的は、肌の色及び顔の寸法に対し不変な、口トラッキング技術のための装置を提供することである。
従って、この発明のさらなる目的は、個々人の肌の色についてなんら仮定を用いることなく、さらに、個々人から何らかのトレーニング用データを要求することなく、唇の色の特性のオンライン学習に基づいて口のトラッキングを行なう装置を提供することである。
この発明のさらなる目的は、トラッキング作業の間に、個々人の唇であるデータと唇でないデータとのサンプルの、オンラインの(フレームごとの)学習と抽出とを行なうことである。
この発明の他の目的、特徴及び利点は、パターン分析及び認識分野の当業者には、以下の概要、図面及び発明の詳細な説明とその好ましい実施の形態とから明らかとなるであろう。
この発明の第1の局面によれば、カラーのビデオフレームのシーケンス中において口をトラッキングするための装置は、ビデオフレームの各々について、前記各フレームの強度分布に基づいて、前期ビデオフレームの各々における顔領域と顔領域中の口区域とを特定するための手段と、ビデオフレームの各々について、顔領域の画素の色分布と前記画素の各々の色とに基づいて、口区域の画素の各々に対し、予め定められた二つのラベルのうち一つを決定するための手段とを含む。このラベルは唇画素候補を示す第1のラベルと、非唇画素を示す第2のラベルとを含む。装置は、第1のラベルを有する画素中で、口区域内の唇輪郭候補を特定するための手段と、特定するための手段によって特定された唇輪郭候補に、特定のパラメータによる形状を当てはめる手段とをさらに含む。
好ましくは、当てはめるための手段は、特定するための手段によって特定された唇輪郭候補に楕円を当てはめるための手段を含む。
さらに好ましくは、前記特定するための手段は、口区域内で第1のラベルを有する画素の各々について、その画素が口区域内のいずれかの垂直な画素線における第1のラベルを有する最も上の画素または最も下の画素であるか否かを検査することによって、画素が唇候補であるか否かを決定するための手段を含む。
さらに好ましくは、前記特定するための手段はさらに、口区域内の画素の各々に対し予め定められた空間フィルタを適用することによって唇画素候補のノイズを消去し、決定するための手段に画素が与えられる前にその画素にラベルを再付与するための手段をさらに含む。
さらに好ましくは、空間フィルタは、ある画素候補の予め定められた近傍が非唇画素候補より唇画素候補をより多く含む場合、その画素を唇画素候補と判断する。
ビデオフレームの各々は赤‐緑‐青の画像としてキャプチャされ、決定するための手段は、顔領域中で口区域以外の領域を選択するための手段と、選択するための手段によって選択された領域内の画素の各々の赤成分及び緑成分を、画素の全体強度によって、正規化された赤成分及び正規化された緑成分に正規化するための手段と、正規化された赤と正規化された緑との空間内に唇空間を規定するための手段とを含み、規定するための手段は、選択するための手段によって選択された領域内の所定の割合の画素が唇空間内に収まるように唇空間を規定し、唇空間は正規化された緑成分を基準として上側境界と下側境界とによって境界が定められており、決定するための手段はさらに、ビデオフレームの各々の口区域内の各画素について、その画素が唇空間内に収まっているか否かを判断するための手段を含んでもよく、唇空間内に収まっていると判断された画素には第1のラベルが付され、唇空間内に収まっていないと判断された画素には第2のラベルが付される。
好ましくは、唇画素と非唇画素とに対しそれぞれ第1のクラスと第2のクラスとが規定され、特定するための手段が、画像フレーム中の各画素について観測ベクトルを形成するための手段を含み、前記観測ベクトルは画素の各々の赤‐緑‐青の属性から形成され、特定するための手段はさらに、形成するための手段によって形成された画像フレームの観測ベクトルに基づいて、特定の観測ベクトルを有する画素が対応するクラスに分類される事前確率を示す確率モデルを各クラスについて計算するための手段と、特定の観測ベクトルを有する画素が第1及び第2のクラスに分類される確率を計算するための手段と、確率を計算するための手段によって計算された確率に基づき、ある画素のクラスを決定するための手段と、をさらに含む。
この発明の第2の局面に従えば、コンピュータで実行可能なプログラムは、コンピュータ上で実行されると、上述の装置のいずれかの全ての機能をコンピュータに実行させる。
第1の実施の形態
−概観−
以下に説明するこの発明の実施の形態は、人間の鼻の曲線が持つ光測定上の属性の利点を眼のトラッキング技術と組合せ、口トラッキングに関して従来から認識されていた問題点を克服するものである。初めに、眼の位置を見出して顔のROIを推定し、その後この方法は鼻梁と鼻先端との両方に沿った鼻の曲線の光強度プロファイルを利用する。さらに、鼻先端を基準として口区域を規定し、口区域の画素を「唇空間」を利用してクラスに分類する。すなわち、唇画素と非唇画素とである。提案されたアプローチでは、この口トラッキング装置は照明条件、肌の色合い、及び正面から見た顔の幾何学的形状の変化並びに顔の動きに対し頑健となる。
図1は口をトラッキングするための、この実施の形態に従ったトラッキング装置30の概観ブロック図である。図1を参照して、トラッキング装置30は、予め定められたフレームレートで人の顔の画像フレームシーケンスを撮影するためのカラービデオカメラ40と、ビデオカメラによって撮影された各フレームを記憶するためのフレームメモリ42と、フレームメモリ42に記憶された各フレーム内で眼の位置を検出するための眼検出モジュール44と、カメラ40によって撮影された人の顔の鼻梁を検出するとともに鼻梁線位置データを出力するための、鼻梁検出モジュール46とを含む。
トラッキング装置30はさらに、鼻梁検出モジュール46から出力された鼻梁線データに基づいて、ユーザの鼻先端を検出するための鼻先端検出モジュール48と、鼻先端位置、目の位置、及びユーザの顔画像に基づいて、後述の「唇空間」を規定するための唇空間規定モジュール50と、唇空間とそのフレーム中のユーザの顔画像の画素の色分布とを用いて、各フレームについてユーザの唇輪郭を規定する唇輪郭規定モジュール52とを含む。
各フレームに対し、この実施の形態のトラッキング装置30はビデオカメラ40からの画像フレームを得る。眼検出モジュール44は光強度平面を用いて各フレームの眼の位置を検出する。こうして、顔の支配的な特徴である眼がまず眼検出モジュール44によって基準点としてトラッキングされる。眼の検出については、周知のどのようなアルゴリズムでも用いることができる。
鼻梁検出モジュール46は人の鼻曲線の相対的強度情報(強度分布)を眼検出技術と組合わせて用いる。この実施の形態では、撮影された画像は赤、緑、青(red−green−blue:RGB)の画像である。従って、鼻梁検出モジュール46は色平面の一つを光強度情報の尺度として用いることによって計算時間を節約する。この実施の形態では、光強度情報を代表するものとして、緑平面を用いる。
その後、鼻先端が、鼻先端検出モジュール48によって、各画像フレームについてリアルタイムで、過去のトラッキング結果に依拠することなく検出される。
鼻先端を検出した後、唇空間規定モジュール50が「唇空間」を規定する。「唇空間」とは、(r,g)空間中で、唇の画素のうち、正規化された赤(以降「r」)と正規化された緑(以降「g」)との組合せのほとんどがプロットされるような区域をいう。
眼検出モジュール44、鼻梁検出モジュール46、鼻先端検出モジュール48及び唇輪郭規定モジュール52で用いられるアルゴリズムについては後述する。
−眼の検出とトラッキング−
図5を参照して、トラッキング装置30では、キャプチャされた画像130中の顔の眼の位置132及び134が最初に検出される。このステップで用いられる眼の検出及びトラッキングアルゴリズムは非特許文献9に詳述されている。
次に、顔の対象領域(ROI)136がキャプチャされた画像130から規定される。簡単に言えば、両眼の間のパターンを検出し、更新されたテンプレートマッチングでトラッキングする。顔の大きさの変化に対処するため、検出のために様々な縮尺の画像を考慮し、両眼間の距離に従って適切な縮尺を選択する。
このアルゴリズムは、非特許文献10に記載の「統合画像」(Integral image)と呼ばれる入力画像の中間表現を計算する。その後、6セグメント直交(six−segmented rectangular:SSR)フィルタを用いて、画像中の眼の領域の明暗関係を高速フィルタリングする。結果として得られる顔候補をさらに、サポートベクトルマシン(support vector machine:SVM)アルゴリズムによって検証する。
図5を参照して、キャプチャされた画像130中の眼の位置132及び134を利用した顔のROI選択処理は、おおよそ1.2×両眼間の距離の幅と、1.6×両眼間の距離の高さの寸法を有する、回転補正された矩形領域136を選択することを含む。結果として得られるROI候補136は切出され、回転されて、図5の右側に示すように、顔ROI140の画像が得られる。顔ROI140は眼の位置142及び144によって規定される眼のレベルから始まり、典型的には首上部までである。
−鼻梁及び鼻先端の検出−
人の鼻は、凸形状を有し、眼のレベルから鼻先端までの鼻梁は一線上に延びる。一般に、或る点での光の強度の測定値は、その点と光源との距離が増加するにつれて小さくなる。これは、光がその光源の位置から離れるにつれて広がるからである。従って、曲率に関する情報は光強度プロファイルで表現される。図6の右側に、図6の左側の顔ROI140から抽出された行セグメント160の光強度プロファイル170を示す。
この実施の形態では、この物理的現象をノイズ減少及びパターン検索と関連させて利用する。
鼻は凸形状を有する。従って、鼻梁には側面に比べより多くの光強度が集まっている。光強度プロファイルのために顔のROI画像の単一の行を用いる代わりに、複数の行を用いて垂直の矩形162によって示される画素の垂直線の光強度値の和をとることにより、ビデオノイズの影響を大幅に削減できる。従って、ノイズの影響が相殺されるのと同時に、光強度値が鼻の側部よりも鼻梁においてより速い速度で累積される。眼の線(ライン142と144とを結ぶ線)より下の、互いに重複する部分を持つセグメントに対しこの処理を繰返すことにより、光強度プロファイル170の3Dパターンが生成される。
すなわち、凸曲面上の点は側部より高い光強度を有することとなる。ここで、この実施の形態では行セグメント160の光強度プロファイルを用いて鼻梁のトレースを行なうために高速フィルタリングのアプローチを利用している。
非特許文献9に記載された両眼間の検出フィルタと同様に、この実施の形態では最大値フィルタと呼ばれる、3セグメントの畳込みフィルタを用い、光強度の積分値を用いて鼻梁候補の位置のトレーシングを行なう。ここで中央のセグメントは側部のセグメントと等しいかまたは大きく、3個のセグメント全ての定数を乗じた光強度の合計は、鼻梁の位置で最大値となる。図6及び図7は眼の線から始めて各行の最大光強度パターンをトレースする、3個のセグメント182、184及び186を備えた最大値フィルタ180を示す。基準は以下の通りである。
ここでSは図7に示す最大値フィルタのセグメント182、184及び186の光強度の積分値を示し、A、B及びCは全て予め定められた定数であり、jは現在の積分光強度プロファイルにおけるフィルタの中心位置である。好ましくは、定数Bは定数A及びCより大きい。定数Aは定数Cと等しくてもよい。例えば、B=3でありA=C=1である。
フィルタは顔のROI画像の全ての行セグメントに対し畳込みされる。行セグメントは典型的には顔ROI画像の5から10行にわたり、顔のROI画像は典型的には20個の行セグメントを含む。
行セグメントの積分光強度プロファイルを処理して、顔ROIの端部に達するか、または式(1)が満足されなくなるまで、式(1)を用いて図8に示す外殻(hull)点200を見出す。すなわち、鼻梁候補点のうち幾つかは鼻梁上にはなく、鼻先端よりも下の場合がある。従って、本願発明者は、修正処理として、水平積分強度プロファイルの第1次導関数が鼻先端で最大であり、第2次導関数が鼻孔レベルでゼロであることを見出した(非特許文献11)。
図9を参照して、垂直列セグメント220は、積分強度プロファイルが最大となる点から出発して典型的には顔ROIの下端まで延びるように規定される。列セグメント220の各行セグメントについて、累積積分強度が計算され、列セグメント220の水平積分強度の平滑化されたプロファイルを形成する。このプロファイルを検討することで、第1次導関数が最大となり、第2次導関数がゼロとなる点を見出すことができる。前者が鼻梁の先端を示し、後者が鼻孔レベルを示す。
−鼻梁線及び鼻先端を得るためのアルゴリズム−
図10を参照して、鼻梁から鼻先端まで、式(1)を用いて抽出された点全てを、図10の線232によって示されるように鼻梁を表す線に当てはめる。図10において、鼻梁点230Aから230Nまでを線232に当てはめる。線232は鼻梁を表すものと想定される。
鼻先端は、鼻梁線232上の鼻梁の先端と、先のステップで見出された鼻孔線との間のどこかの点である。従って、鼻先端は、線232と交差する線上にあると想定される。図10の線234がこの線を示す。鼻先端は、鼻梁線232と線234との交差点236である。
−唇トラッキングのためのアルゴリズム−
鼻先端の場所は、初期の口ROI選択に利用される。各フレームに対し、口空間が(r,g)空間上で規定される。これについては後述する。その後、口ROI内の画素が(r,g)空間にプロットされる。画素は、唇空間内でプロットされていれば唇の画素であると仮定される。そうでなければ、これは唇でない(非唇)画素と仮定される。このようにして見出された唇画素を平滑化した後、唇輪郭候補が唇の上輪郭と下輪郭との両方について唇画素から見出される。最後に、上輪郭と下輪郭との両方の唇輪郭候補に対して、楕円を当てはめる。詳細を以下で説明する。
・オンライン学習と唇データ及び非唇データの抽出
サンプルデータへの周囲照明の影響を軽減するために、色表示に対してクロマ色変換を適用する(非特許文献8及び12)。非特許文献12において、ヤンらは、人の肌の色はクロマ色空間ではRGB色空間よりも変動が少ないことを指摘している。一般に各個人の肌の色分布は多変数正規分布でモデル化可能であるが、異なる人、異なる照明条件では、分布のパラメータが異なる。従って、異なる肌の色合いと照明の変化に対処するためには、オンラインでの学習とサンプルデータの抽出とが重要な鍵となる。
これら二つの問題を解決するために、非特許文献12の著者らは、先に開発された色モデルを、先行するフレームから既知のパラメータの組合せによって新たな環境に変換する適応的アプローチを提案している。一般にこのアプローチには二つの欠点がある。開始するに当たって初期モデルを必要とすることと、全く肌の色が異なるユーザがこのシステムを使い始めるときに失敗するおそれがあることである。
この実施の形態では、唇と非唇のクラスのサンプルを抽出してリアルタイムでそれらの分布を推定する、オンライン学習アプローチを用いる。チャンらは、非特許文献7において、このアプローチに対するヒントを与えている。彼らは、唇の色が、(r,g)面の緑のチャンネルの下側範囲に分布する、と指摘している。従って、本発明での課題は、鼻先端の場所情報を基準として用いながら、唇の(r,g)空間の上側境界を学習するアルゴリズムを見つけることである。
まず、図11に示すように、眼の線と鼻先端との間の行セグメント240を選択する。行セグメント240は、その行全体が非唇領域にある限り、眼の線と鼻先端との間のどこに選択されてもよい。この実施の形態では、行は、その行の頂部が底(鼻先端)から上へ80%のレベルにあり、その高さが眼の線と鼻先端との距離の10%となるように選択された。その後、この行内の全ての画素を(r,g)空間にプロットする。
図12は選択された行の正規化された(r,g)空間における唇及び非唇の色分布例250を示す。
鼻先端を利用して、唇と非唇との時間に依存した(r,g)空間を、非唇の散布点のε%(典型的には10%)が唇(r,g)空間に入るように、各フレームについて推定した。この場合、唇の(r,g)空間(簡潔に「唇空間」とも呼ぶ)256は、図12に示すように、唇の下側境界多項式252と上側境界多項式254との間の空間である。ここでcはゼロに固定され、各フレームについてcのみが推定される。上側境界多項式254より上の画素は非唇空間258内にある。これらの多項式は何回かの実験結果から得られたものである。
得られた(r,g)空間情報を用いて、サンプルデータセット抽出プロセスでは、鼻孔線より下で唇空間に入る画素が唇画素と考えられ、他の画素は非唇画素とされ、画素のRGB色値がそれぞれクラス属性として記憶される。
・口区域の決定
図13を参照して、次の課題は、口区域260を見出すことである。始めに、眼の線と口ROIの下端との間の垂直強度プロファイル262を得る。この実施の形態では、プロファイル262の第2のピーク264が口区域260の上側境界を規定する。ピーク264の隣のピーク266が口区域260の下側境界を規定する。従って、口区域の高さHはピーク264と266との間の距離である。口区域260の幅Wは眼の距離と等しく選ばれる。
・口輪郭の規定
次に、図14に示すように、口区域260内の各画素に対し3×3フィルタ270を適用する。フィルタは一種の空間フィルタであって、中心画素とそれに隣接する8個の画素とを含むフィルタ270内の画素のうち5個から9個が唇画素である場合、中心の画素は唇画素であると判断される。そうでなければ、その画素は非唇画素であると判断される。このフィルタリング処理により、ノイズを除去する。
図15を参照して、口区域260内の垂直線290の各々を、上から下へと唇画素を求めて下る。このようにして、垂直線290の各々で見出された上端唇画素、例えば画素280、282、284等が、唇の粗い上輪郭を形成する。同様に、口区域260内の垂直線310の各々を、下から上へと唇画素を求めて昇る。画素300、302等のこれらの下端画素が、唇の粗い下輪郭を形成する。この段階では、画素284等の異常点は許容される。
図16を参照して、次のステップで、外輪郭全体を、推定された輪郭データを用いて得られた一般化された楕円320としてパラメータ化する。このフィッティング(当てはめ)により、画素284等の異常点が消去され、唇輪郭は楕円320として表現される。以下の一般的2次方程式に対応するパラメータ輪郭が見出される。
ただし全てのiについてaは定数であり、a及びaはゼロでない。外唇輪郭点の各々がaパラメータについて線形である一つの等式を与え、これは行列の式で以下のように書くことができる。
ここで[x1, y1; x2, y2; …; xN, yN]はトレースされた外唇輪郭の2D位置である。行列式における楕円パラメータ推定で用いられる基本形は、Ma=0、a=(aである。Mの次元はN×6であり、Nはセグメント内の点の数である。Mの各行はセグメント内の各点に対応する。各輪郭のi=1、2、…について、パラメータaを最小2乗法を用いて解く。
推定されたパラメータを用いて、各画像フレームについてパラメータ唇輪郭データを再生成することができる。一般的な楕円形状を表すには、5個の点で十分であり、これにより、典型的な輪郭で見出される100個から200個の2D点から相当のデータを削減することができ、さらに、口の幅対高さの比から、唇が開いているか、閉じているかさらに相対的に突出しているかの情報を有する唇形状の表現が与えられる。
−コンピュータによる実現−
この実施の形態の唇トラッキング装置30は、肌の色の違い及び照明条件によってパラメータを微調整する必要がない。どのユーザがいつ、カメラの前に現れても、トラッキング装置30は自動的にその人の眼、鼻梁及び鼻先端のトラッキングを、学習なしで開始する。
図2に戻って、コンピュータにこの実施の形態の装置30の機能を達成させるプログラムの全体の制御構造を説明する。ここで、各ステップの処理の詳細説明は繰返さない。プログラムはステップ60で始まる。各フレームについて、システム30はステップ60で画像フレームを撮影する。ステップ62で、ステップ60で撮影された画像内で眼が検出される。ステップ64で、顔のROIが抽出される。
次に、ステップ66で、鼻梁線が見出される。ステップ66に続いて、ステップ68で鼻先端が見出される。
ステップ70で、(r,g)空間内で唇空間が規定される。このようにして規定された唇空間を利用して、ステップ72で唇輪郭が見出される。
図3は唇空間が規定されるステップ70の詳細を示す。図3を参照して、眼の線と鼻先端との間の領域(行)がステップ90で選択される。ステップ92で、選択された領域内の赤(R)及び緑(G)の色成分が(r,g)表現に正規化される。ステップ94で、正規化された画素が(r,g)空間にプロットされる。
ステップ96で、唇の下側境界多項式252に従って(図12を参照)、(r,g)空間内に唇の下側境界線が描かれる。ここでc=0である。ステップ98で、図12に示す唇の上側境界多項式254が(r,g)空間に描かれ、ここでcは微小量δに選ばれる。
ステップ100で、上側境界線254より下の画素の割合を計算する。ステップ102で、この割合が10%より大きいか否かを判断する。もし大きければステップ106に進む。そうでなければ、ステップ104に進む。ステップ104で、上側境界をδだけ上げる、すなわち、上側境界多項式254の定数cにδを加える。その後、ステップ100に戻る。
唇空間の上側境界線は、唇空間内の画素の割合が10%より大きくなるまで、繰返しのたびごとに量δだけ上げられる。そうなった時に、この線はステップ106で上唇境界として規定され、制御はこのルーチンを抜ける。
図4は図2に示したステップ72の処理の詳細な制御構造を示す。図4を参照して、鼻先端より下の行セグメントの画素がステップ120で水平方向に投影され、水平強度プロファイル(図13に示すプロファイル262)を形成する。ステップ122で、口区域の高さが強度投影プロファイルから決定される。ステップ124で、口区域の幅が眼の距離から決定される。こうして、おおまかな口区域の場所が特定される。
次に、ステップ126で、画素が口空間内にあるか否かを検討することによって、おおまかな口区域内で唇画素候補が見出される。もしそれが口空間内にあれば、唇画素候補を示す第1のラベルがその画素に与えられる。そうでなければ、非唇画素候補を示す第2のラベルがその画素に与えられる。ステップ128で、口区域内の各画素に3×3フィルタを適用して、ノイズを除去する。
ステップ130で、おおまかな上唇輪郭及びおおまかな下唇輪郭を形成する唇画素が見出される。ステップ132で、唇のおおまかな輪郭に楕円を当てはめる。この楕円が、対象となっているフレームの唇輪郭を表す。
こうして、図2から図4に示す処理を各フレームについて繰返すことによって、トラッキング装置30はユーザの唇輪郭をトラッキングすることができる。各フレームの唇輪郭は楕円によって表される。従って、トラッキング装置30の負荷は軽く、装置は困難なく速い速度でトラッキングを行なうことができる。唇輪郭は先行するフレームからの知識無しで決定できるので、全く違う肌の色の別のユーザがシステムを使い始めても、トラッキング装置30は正確に唇のトラッキングを行なうことができる。唇輪郭は、異なる向き、異なる照明の設定であっても正確にトラッキングされる。
図17は上述のプログラムを実行してこの実施の形態の装置30を実現するコンピュータシステム330の概観を示し、図18はシステム330の構造をブロック図で示す。
図17を参照して、コンピュータシステム330は、FD(Flexible Disk)ドライブ352及びCD−ROM(Compact Disc Read Only Memory)ドライブ350を含むコンピュータ340と、キーボード346と、マウス348と、モニタ342と、ビデオカメラ40とを含む。
図18を参照して、コンピュータ340は、FDドライブ352及びCD−ROMドライブ350に加えて、CPU(Central Processing Unit)356と、CPU356、CD−ROMドライブ350及びFDドライブ352に接続されたバス366と、ブートアッププログラム等のプログラムを記憶するためのRead−Only Memory(ROM)358と、CPU356に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRandom Access Memory(RAM)360と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク354とを含む。ここでは図示しないが、コンピュータ340はさらに、ローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330にこの実施の形態のトラッキング装置30の機能を実行させるプログラムは、CD−ROM362又はFD364に記憶されて、CD−ROMドライブ350又はFDドライブ352に挿入され、さらにハードディスク354に転送されてもよい。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ340に送信され、ハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。プログラムはCD−ROM362、FD364又はネットワークから直接ロードされてもよい。
プログラムは、コンピュータ340にこの実施の形態のトラッキング装置30の機能を実行させるための幾つかの命令を含む。必要とされる基本的機能の幾つかは、コンピュータ340上で実行されるオペレーティングシステム(OS)又はサードパーティプログラム、若しくはコンピュータ340にインストールされたモジュールによって提供されるので、プログラムはこの実施の形態のトラッキング装置30を実現するための基本的機能全てを必ずしも含まなくてもよい。プログラムは、制御された様態で適切な機能を呼出し、所望の結果が得られるようにする命令の部分のみを含んでいればよい。コンピュータシステム330がどのように動作するかは周知であり、従ってここでは繰返さない。
第2の実施の形態
上述の実施の形態では、口区域内の画素は、3×3フィルタリングを利用して最終的に二つのクラス(唇画素と非唇画素)に分類される。しかしこの発明は、このような実施の形態に限定されるものではない。例えば、画素は最大尤度推定を利用して分類されてもよい。
第2の実施の形態では、上述の実施の形態と同様に(r,g)空間情報が得られる。その後、得られた(r,g)空間情報を用いて、サンプルデータセット抽出処理で、唇空間に入る、鼻孔線より下の画素が唇画素とされ、他の画素は非唇画素とされ、画素のRGB色値がそれぞれクラスの属性として記憶される。
ほとんどの場合、サンプルデータは分散が大きく、データをその時間により変わる強度平均に従って部分集合(サブセット)に分けることが好ましい。avgとDとを、それぞれ強度平均と唇クラスのk番目の部分集合とする。唇クラスの部分集合は以下のように、クラスの強度平均に従って分離される。
式(2)と同じ概念を用いて、非唇のデータサンプルもまた、非唇のクラスの強度平均に従って部分集合に分ける。図21は非唇クラスと仮定された部分集合の、1Dの簡潔化された条件付濃度プロットである。
クラス条件の最大尤度推定
−多変量正規化密度−
正規化密度の分布を完全に説明するには、平均ベクトルと共分散行列とで十分である。ここでは、以下の式(3)で示されるクラス条件付多変量正規化密度を推定するのに、最大尤度推定法を用いた。ここでiはw又はwであっても、クラスの部分集合であってもよい。
μ=E[x]はi番目のクラスの平均値である。Σは以下の式(4)で規定されるn×n(この実施の形態では、RGB色属性が用いられるので、n=3である)の共分散行列である。
パラメータμ及びΣの不偏推定値は、サンプル平均及びサンプル共分散行列を用いて推定される。
−ベイズの決定基準−
xを、ある画像フレームの画素の場所のRGB属性から形成された観測ベクトルとする。ここでの目標は、xが二つのクラスの分類問題でwに属するかwに属するかを決定するためのベイズ分類器を設計することである。事後確率を用いたベイズのテストは、次のように書くことができる。
ここでp(w1|x)は所与のxに対するwの事後確率である。式(5)は、所与のxに対するwの確率が所与のxに対するwの確率より大きければ、xはwに属するものと宣言でき、その逆も成立つことを示している。c=1、2について直接p(wc|x)を計算することは現実的でないので、wの事後確率を、ベイズの定理を用いて、事前確率と条件付密度関数p(x|wc)で以下のように書換えることができる。
ここでp(x)は密度関数であり、全てのクラスについて正の定数である。両辺を並替えることにより、以下の式が得られる。
ここでL(x)は尤度率と呼ばれ、p(w2)/p(w1)は決定のための尤度率のしきい値と呼ばれる。
式(7)には密度の指数の形が含まれているので、対数をとることによって得られる以下のような単調な判別関数での処理が好ましい。
一般に式(9)は単に非線形2次式の形と和とをとるだけであり、この式を用いて、クラスごとに2以上のクラスタがある場合、ベイズの公式は本発明のリアルタイム唇トラッキングに対し以下のように実現することができる。
ここでi=w,wについて
である。
図21に示すように、クラスタは3個あり、qi *(x)は評価された画素の属性xに依存する3個のクラスタの条件付尤度値の最大値である。式(7)に示された尤度率のしきい値は、事前クラス確率に基づく。この実施の形態では、同様に尤らしい事前クラス確率が仮定される。
トラッキングの結果
図19は第2の実施の形態に従って唇輪郭を自動的にトラッキングした処理の例を示す。図19(A)に示すように、口区域260が眼の位置、鼻先端、及び鼻孔線より下の水平強度プロファイルにより規定される。次に、図19(B)に示すように、粗い上下の唇輪郭380が規定される。最後に、図19(C)に示すように、楕円382を唇輪郭に当てはめる。
図20は、何ら特別のマーカやペイントを用いることなく、肌の色の違う人々について照明の設定を変えてトラッキングした唇の輪郭、眼の線及び鼻梁線のいくつかの例を示す。図20に示されるように、商業的に入手可能なCCD(電荷結合素子)カメラを用いた顔特徴量トラッキングアルゴリズムは、通常のOSプラットフォームの2GHzのノートブック型コンピュータで毎秒30フレームで動作した。提案のアルゴリズムはC++で実現した。
実験によれば、装置は(1)肌の色が異なり、(2)正面の顔の向きとスケールが異なり、(3)照明が変化しても、個々人のトラッキングに成功した。
この発明の装置と方法とを、鼻梁のトラッキングを参照して説明した。しかし、他の顔の特徴点をトラッキングするために、さまざまな変更や修正が可能であろう。
上述の実施の形態では、唇輪郭の候補に楕円を当てはめた。しかしこの発明はそのような実施の形態に限定されるものではなく、他のパラメータ形状を用いてもよい。例えば、唇輪郭候補に矩形又は角を丸くした矩形を当てはめてもよい。唇輪郭候補に最もよく当てはまるように、これらの形状をさらに変形してもよい。
上述の実施の形態では、唇空間は唇の下側境界多項式(図12を参照)と唇の上側境界多項式とで規定された。
しかし、上側境界及び下側境界は図12に示されるものに限定されない。例えば、上側境界及び下側境界は水平な直線であってもよく、又は図12に示されるものと実質的に同じ形状の他の曲線であってもよい。図3のステップ102で用いたしきい値のパーセンテージは必ずしも10%に等しくなくてもよい。これは、境界の形状に従って、より高くても低くてもよい。
以上、この発明を特定の実施の形態を参照して説明した。しかし、この発明のより広い精神と範囲から逸脱することなく、他の顔特徴点トラッキングのためにさまざまな修正及び変更が可能であることは明らかであろう。
この発明の第1の実施の形態のトラッキング装置30のブロック図である。 実施の形態のトラッキング装置30を実現するためにコンピュータ上で実行されるプログラムのフローチャートである。 唇空間を規定する処理のフローチャートである。 唇輪郭を見出す処理のフローチャートである。 顔ROIの抽出を示す図である。 顔ROIからどのように行セグメント160の強度プロファイル170を抽出するかを示す図である。 実施の形態で用いられる3セグメントの畳込みフィルタを示す図である。 成功裏に抽出された鼻梁候補200と、鼻梁及び鼻先端のさらなる処理により正確に見出されたいくつかの不正確な鼻梁候補とを示す図である。 列セグメント220を示す図である。 鼻先端をどのように決定するかを示す図である。 唇空間を規定するために用いられる行セグメント240を示す図である。 (r,g)空間内の唇画素及び非唇画素の分布を示す図である。 口区域260をどのように規定するかを示す図である。 3×3フィルタを示す図である。 粗い唇輪郭をどのように規定するかを示す図である。 粗い唇輪郭に当てはめた楕円320を示す図である。 上述のプログラムを実行し、この実施の形態の装置30を実現するコンピュータシステム330の外観を示す図である。 図17に示すコンピュータ340の構造を示す図である。 第2の実施の形態の実験例を示す図である。 ユーザの肌の色が異なり光の設定が異なる場合の、第2の実施の形態の別の実験例を示す図である。 第2の実施の形態の簡潔化した条件付密度プロットを示す図である。
符号の説明
30 トラッキング装置
40 ビデオカメラ
42 フレームメモリ
44 眼検出モジュール
46 鼻梁検出モジュール
48 鼻先端検出モジュール
50 唇空間規定モジュール
52 唇輪郭規定モジュール
130 キャプチャされた画像
132、134、142、144 眼の位置
136、140 顔の対象領域(ROI)
160、240 行セグメント
170 光強度プロファイル
180 最大値フィルタ
200 外殻点
220 列セグメント
230Aから230N 鼻梁点
260 口区域
262 垂直強度プロファイル
270 3×3フィルタ
320 楕円
330 コンピュータシステム
340 コンピュータ

Claims (8)

  1. カラーのビデオフレームのシーケンス中において口をトラッキングするための装置であって、
    前記ビデオフレームの各々について、前記各フレームの強度分布に基づいて、前記ビデオフレームの各々における顔領域と当該顔領域中の口区域とを特定するための手段と、
    前記ビデオフレームの各々について、前記顔領域の画素の色分布と前記画素の各々の色とに基づいて、前記口区域の画素の各々に対し、予め定められた二つのラベルのうちの一つを決定するための手段とを含み、前記ラベルは唇画素候補を示す第1のラベルと、非唇画素を示す第2のラベルとを含み、
    前記第1のラベルを有する画素中で、前記口区域内の唇輪郭候補を特定するための手段と、
    前記特定するための手段によって特定された唇輪郭候補に、特定のパラメータによる形状を当てはめるための手段とをさらに含む、装置。
  2. 前記当てはめるための手段は、前記特定するための手段によって特定された唇輪郭候補に楕円を当てはめるための手段を含む、請求項1に記載の装置。
  3. 前記特定するための手段は、前記口区域内で前記第1のラベルを有する画素の各々について、その画素が前記口区域内のいずれかの垂直な画素線における前記第1のラベルを有する最も上の画素または最も下の画素であるか否かを検査することによって、画素が唇候補であるか否かを決定するための手段を含む、請求項1又は請求項2に記載の装置。
  4. 前記特定するための手段はさらに、前記口区域内の画素の各々に対し予め定められた空間フィルタを適用することによって、前記唇画素候補のノイズを消去し、前記決定するための手段に画素が与えられる前にその画素にラベルを再付与するための手段をさらに含む、請求項3に記載の装置。
  5. 前記空間フィルタは、ある画素候補の予め定められた近傍が非唇画素候補より唇画素候補をより多く含む場合、その画素を唇画素候補と判断する、請求項4に記載の方法。
  6. 前記ビデオフレームの各々は赤‐緑‐青の画像としてキャプチャされ、
    前記決定するための手段は、
    前記顔領域中で前記口区域以外の領域を選択するための手段と、
    前記選択するための手段によって選択された前記領域内の画素の各々の赤成分及び緑成分を、画素の全体強度によって正規化された赤成分及び正規化された緑成分に正規化するための手段と、
    正規化された赤と正規化された緑との空間内に唇空間を規定するための手段とを含み、前記規定するための手段は、前記選択するための手段によって選択された前記領域内の所定の割合の画素が前記唇空間内に収まるようにする前記唇空間を規定し、前記唇空間は正規化された緑成分を基準として上側境界と下側境界とによって境界が定められており、
    前記決定するための手段はさらに、前記ビデオフレームの各々の前記口区域内の各画素について、その画素が前記唇空間内に収まっているか否かを判断するための手段を含み、
    前記唇空間内に収まっていると判断された画素には前記第1のラベルが付され、唇空間内に収まっていないと判断された画素には前記第2のラベルが付される、請求項1から請求項4のいずれかに記載の装置。
  7. 前記唇画素と前記非唇画素とに対しそれぞれ第1のクラスと第2のクラスとが規定され、
    前記特定するための手段が、
    前記画像フレーム中の各画素について観測ベクトルを形成するための手段を含み、前記観測ベクトルは前記画素の各々の赤‐緑‐青の属性から形成され、前記特定するための手段はさらに、
    前記形成するための手段によって形成された前記画像フレームの前記観測ベクトルに基づいて、特定の観測ベクトルを有する画素が対応するクラスに分類される事前確率を示す確率モデルを各クラスについて計算するための手段と、
    特定の観測ベクトルを有する画素が前記第1及び前記第2のクラスに分類される確率を計算するための手段と、
    前記確率を計算するための手段によって計算された確率に基づき、ある画素のクラスを決定するための手段とをさらに含む、請求項1又は請求項2に記載の装置。
  8. コンピュータ上で実行されると、当該コンピュータに請求項1から請求項7のいずれかに記載の全ての機能を実行させる、コンピュータで実行可能なプログラム。
JP2005230162A 2005-08-08 2005-08-08 口トラッキング装置及びコンピュータプログラム Pending JP2007047949A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005230162A JP2007047949A (ja) 2005-08-08 2005-08-08 口トラッキング装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005230162A JP2007047949A (ja) 2005-08-08 2005-08-08 口トラッキング装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2007047949A true JP2007047949A (ja) 2007-02-22

Family

ID=37850737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005230162A Pending JP2007047949A (ja) 2005-08-08 2005-08-08 口トラッキング装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2007047949A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242833A (ja) * 2007-03-27 2008-10-09 National Institute Of Information & Communication Technology 3次元の人の顔の表面データを再構築するための装置及びプログラム
CN106373128A (zh) * 2016-09-18 2017-02-01 上海斐讯数据通信技术有限公司 一种嘴唇精确定位的方法和系统
JP2022532443A (ja) * 2019-07-18 2022-07-14 ロレアル 制御されていない照明条件の画像中の肌色を識別する技術

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111942A (ja) * 1996-10-04 1998-04-28 Nippon Hoso Kyokai <Nhk> 動画像領域分割装置
JP2000348173A (ja) * 1999-06-04 2000-12-15 Matsushita Electric Ind Co Ltd 唇抽出方法
JP2002191044A (ja) * 2001-10-15 2002-07-05 Toshiba Corp 顔画像監視システム
JP2002197465A (ja) * 2000-03-31 2002-07-12 Fujitsu Ltd 自動口形状検出装置とそれを用いた自動単語認識装置
JP2003303093A (ja) * 1992-11-02 2003-10-24 Matsushita Electric Ind Co Ltd 音声入力装置
JP2004030007A (ja) * 2002-06-24 2004-01-29 Digital Fashion Ltd 化粧シミュレーション装置、化粧シミュレーション方法、化粧シミュレーションプログラム及びそのプログラムを記録した記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003303093A (ja) * 1992-11-02 2003-10-24 Matsushita Electric Ind Co Ltd 音声入力装置
JPH10111942A (ja) * 1996-10-04 1998-04-28 Nippon Hoso Kyokai <Nhk> 動画像領域分割装置
JP2000348173A (ja) * 1999-06-04 2000-12-15 Matsushita Electric Ind Co Ltd 唇抽出方法
JP2002197465A (ja) * 2000-03-31 2002-07-12 Fujitsu Ltd 自動口形状検出装置とそれを用いた自動単語認識装置
JP2002191044A (ja) * 2001-10-15 2002-07-05 Toshiba Corp 顔画像監視システム
JP2004030007A (ja) * 2002-06-24 2004-01-29 Digital Fashion Ltd 化粧シミュレーション装置、化粧シミュレーション方法、化粧シミュレーションプログラム及びそのプログラムを記録した記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242833A (ja) * 2007-03-27 2008-10-09 National Institute Of Information & Communication Technology 3次元の人の顔の表面データを再構築するための装置及びプログラム
CN106373128A (zh) * 2016-09-18 2017-02-01 上海斐讯数据通信技术有限公司 一种嘴唇精确定位的方法和系统
CN106373128B (zh) * 2016-09-18 2020-01-14 上海斐讯数据通信技术有限公司 一种嘴唇精确定位的方法和系统
JP2022532443A (ja) * 2019-07-18 2022-07-14 ロレアル 制御されていない照明条件の画像中の肌色を識別する技術
JP7181437B2 (ja) 2019-07-18 2022-11-30 ロレアル 制御されていない照明条件の画像中の肌色を識別する技術

Similar Documents

Publication Publication Date Title
US11600013B2 (en) Facial features tracker with advanced training for natural rendering of human faces in real-time
JP4625074B2 (ja) サインに基づく人間−機械相互作用
Hasan et al. RETRACTED ARTICLE: Static hand gesture recognition using neural networks
Dornaika et al. On appearance based face and facial action tracking
Dornaika et al. Fast and reliable active appearance model search for 3-d face tracking
KR100421740B1 (ko) 객체 활동 모델링 방법
CN108171133B (zh) 一种基于特征协方差矩阵的动态手势识别方法
JP2001056861A (ja) 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
CN108446672B (zh) 一种基于由粗到细脸部形状估计的人脸对齐方法
CN111158491A (zh) 一种应用于车载hud的手势识别人机交互方法
Hussain et al. Hand gesture recognition system with real-time palm tracking
Huang et al. Emotion recognition based on a novel triangular facial feature extraction method
JP2022546643A (ja) 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法
CN111158457A (zh) 一种基于手势识别的车载hud人机交互系统
Ibrahim et al. Geometrical-based lip-reading using template probabilistic multi-dimension dynamic time warping
EP1801731B1 (en) Adaptive scene dependent filters in online learning environments
Bhuyan et al. Trajectory guided recognition of hand gestures having only global motions
De la Torre et al. A probabilistic framework for rigid and non-rigid appearance based tracking and recognition
CN114973389A (zh) 一种基于耦合级联回归的眼动追踪方法
Wimmer et al. Facial expression recognition for human-robot interaction–a prototype
JP2007047949A (ja) 口トラッキング装置及びコンピュータプログラム
Caplier et al. Comparison of 2D and 3D analysis for automated cued speech gesture recognition
Hasan et al. Gesture feature extraction for static gesture recognition
CN110826495A (zh) 基于面部朝向的身体左右肢体一致性跟踪判别方法及系统
CN100377164C (zh) 用于检测图像中的人脸肤色区域的方法、装置和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110301