JP3432816B2 - Head region extraction device and real-time facial tracking device - Google Patents

Head region extraction device and real-time facial tracking device

Info

Publication number
JP3432816B2
JP3432816B2 JP2001304116A JP2001304116A JP3432816B2 JP 3432816 B2 JP3432816 B2 JP 3432816B2 JP 2001304116 A JP2001304116 A JP 2001304116A JP 2001304116 A JP2001304116 A JP 2001304116A JP 3432816 B2 JP3432816 B2 JP 3432816B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
region
head
image
means
step
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001304116A
Other languages
Japanese (ja)
Other versions
JP2003108980A (en )
Inventor
昭二 田中
聡 田中
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、 人物を撮像した映 BACKGROUND OF THE INVENTION [0001] [Technical Field of the Invention The present invention is, movies were captured person
像から人物の頭部領域を抽出する頭部領域抽出装置に関 About the head region extracting device for extracting the head region of a person from the image
する。 To. また、本発明は、本人の顔を送信する代わりにC Further, the present invention is, C instead of sending the face of the person
Gキャラクタの映像を相手に送信することによって人物映像を互いに通信するテレビ電話など通信システムに適用され、特にカメラによって撮像された顔の映像から頭部の3次元的な姿勢情報と顔の表情を計測し、この計測結果に基づいてCGキャラクタの動きを制御する代理応答によるリアルタイム表情追跡装置に関するものである。 Apply the image of G character communication system such as a television telephone communication with one another the person image by sending to the other party, in particular expression of the 3-dimensional posture information of the head from the image of the captured face by the camera and the face measured, it relates to real-time facial tracking apparatus according to proxy response for controlling the movement of the CG character based on the measurement result. 【0002】 【従来の技術】例えば、図30は、特開2000−33 [0002] For example, FIG. 30, JP 2000-33
1190号公報に示された従来の仮想変身装置(第1の従来技術)を示すものであり、この仮想変身装置は、顔画像を入力するビデオカメラと、ビデオカメラを回転させる電動雲台と、ビデオカメラから入力された顔画像から顔の軸の回転、あるいは顔の軸周りの回転と視線方向を検出し、両目および口の形状変化を検出する顔画像認識装置と、この計測結果に基づいてCG(コンピュータグラフィックス)で構築された仮想空間のキャラクタを制御する仮想環境合成装置とを備えている。 Is indicative of a conventional virtual makeover device shown in 1190 JP (first prior art), the virtual makeover apparatus includes a video camera for inputting a face image, an electric pan head for rotating the video camera, rotation of the shaft of the face from the face image input from the video camera, or to detect the rotation and viewing direction about the axis of the face, the face image recognition apparatus for detecting a shape change of the eyes and the mouth, on the basis of the measurement result CG and a virtual environment synthesizing apparatus for controlling a character in the virtual space constructed with (computer graphics). 【0003】この第1の従来技術では、ビデオカメラから入力された顔画像を、予め設定したRGB空間上に構築された肌色モデルに従って肌色を1、肌色以外を0とする2値化処理を行う。 [0003] In this first prior art, the face image input from the video camera, for 1, the binarization processing for the non-skin color and 0 skin color according skin color model built on RGB space to a preset . 次に、2値化した顔領域の重心を求め、重心が画像の中心になるように電動雲台装置を制御し、カメラのアングルを修正する。 Next, determine the centroid of the binarized face area, the center of gravity is operated pan head system to be the center of the image, modifying the camera angle. 次に、重心位置に基づき顔領域内に存在する穴を両目および口として検出する。 Next, to detect the holes existing in the face region based on the gravity center position as the eyes and mouth. 次に、予め設定したテンプレートを用いたテンプレートマッチングにより目領域を追跡し、黒目の位置から視線方向を求める。 Then, track the eye region by template matching using a template which is set in advance, obtains the viewing direction from the position of the iris. また、両目を結んだ直線と画像の水平軸との角度を計測し、さらに、両目間の距離から、顔の軸周りの回転を検出する。 Further, the angle between the horizontal axis of the linear image connecting the both eyes was measured, further, the distance between the eyes, detects the rotation about the axis of the face. そして、両目および口の周囲画像を離散コサイン変換したときの各周波数帯域での電力変化を捉えることで、両目および口の形状変化を計測する。 Then, by capturing the change in power at each frequency band when the discrete cosine transform around images of the eyes and mouth to measure the change in shape of the eyes and mouth. 以上の計測結果に基づいてCGで構築された仮想空間のキャラクタの頭部および表情を制御する。 Controlling the head and facial expression of the character in the virtual space constructed with CG based on the above measurement results. 【0004】また、特開2000-259831号公報の表情検出装置(第2の従来技術)では、連続する各フレームの画像において、選択した複数の特徴点を追跡し、各フレーム毎に前記複数の特徴点を頂点とするドロネー網を構成し、このドロネー網を用いて表情筋モデルを特徴点の移動に基づき変位させることにより、表情筋モデルの変化を求めるようにしている。 [0004] In the expression detection device of JP 2000-259831 (second prior art), the image of each successive frames, to track a plurality of feature points selected, of the plurality for each frame configure the Delaunay network whose vertices feature points, by displacing based on the movement of feature points facial muscles model using the Delaunay network, and to determine a change in the facial muscles models. 【0005】また、特開平11−306348号公報(第3の従来技術)においては、大きさが固定のウィンドウマスクを画像全体に走査し、マスク内の輝度分散を正規化することにより、照明条件が変化しても安定して対象物の特徴量を抽出可能とした対象物検出装置に関する発明が開示されている。 Further, in JP-A-11-306348 (third prior art), by the size scan window mask fixed to the entire image, normalizing the luminance dispersion in the mask, the illumination conditions There stably invention relates to an object detecting device capable extracts features of an object is disclosed vary. 【0006】 【発明が解決しようとする課題】第1の従来技術では、 [Problems that the Invention is to Solve] [0006] In the first prior art,
カメラで撮影した顔画像を肌色モデルに基づいて2値化し、顔領域内の穴を見つけ、顔領域の重心位置からそれらを目および口に対応させている。 A face image photographed by the camera is binarized based on the skin color model, find a hole in the face region, and so as to correspond to their eyes and mouth from the gravity center position of the face region. しかしながら、本来、顔の凹凸から生じる影やハイライトの影響があるので、第1の従来技術では、照明条件を慎重に設定しなければ目および口のみを穴として検出するのは非常に困難である。 However, inherently, because of the influence of shadows and highlights arising from irregularities of the face, in the first prior art, unless carefully setting the illumination condition to detect only the eyes and mouth as well it is very difficult is there. また、この第1の従来技術は、頭部の3軸(X Further, the first prior art, three axes (X head
軸、Y軸、Z軸)周りの回転を同時に計測することができず、さらに、顔の軸周りの回転を、両目間の距離により求めているため、例えば顔がカメラから遠ざかるあるいは近づくと、必然的に両目間の距離が変化することから、実際には回転させていないのにも関わらず、回転しているとみなされるなど問題があった。 Axis, Y-axis, it is impossible to simultaneously measure the rotation of the Z axis), further rotation about the axis of the face, for seeking the distance between the eyes, for example, the face approaches or moves away from the camera, from inevitably that the distance between the eyes varies actually spite of not rotate, it has been such a problem is considered to be rotating. 【0007】また、第2の従来技術では、3次元姿勢を計測するために顔画像中の多数の特徴点を追跡する必要があるため、計算能力の低いハードウェアではリアルタイム処理が困難である問題があった。 [0007] In the second prior art, it is necessary to keep track of the number of feature points in the face image in order to measure the three-dimensional posture, a low computing power hardware is real-time processing is difficult problem was there. 【0008】また、第3の従来技術では、大きさが固定されたマスク領域を用いることから、個人差や撮影距離によって顔領域の大きさが変化することへの対応処理が困難である。 [0008] In the third prior art, since the use of the mask area where the size is fixed, it is difficult to support processing of the individual difference and the shooting distance to be varied the size of the face region. 【0009】この発明は上記に鑑みてなされたもので、 [0009] The present invention has been made in view of the above,
任意の照明条件で撮影された、不特定人物の顔画像から、 簡易な演算によって計算能力が低いハードウェアでも実時間で、頭部領域を正確に抽出し得る頭部領域抽出 Taken with any illumination condition, from an unspecified person's face image, in real-time computing power is low hardware by a simple operation, the head region may accurately extract the head region extraction
装置を得ることを目的としている。 Aims at obtaining a device. また、この発明は、 In addition, the present invention,
簡易な演算によって頭部領域を抽出し、頭部の3次元的な動きを計測し、かつ両目および口の開閉状態を計測し、その結果を用いてCGキャラクタの頭部の動きおよび表情を制御するリアルタイム表情追跡装置を得ることを目的としている。 Extracting the head region by a simple operation, to measure the 3-dimensional motion of the head, and to measure the opening and closing states of the eyes and mouth, control the movement and the facial expression of the head of the CG character using the result It is intended to obtain a real-time facial tracking apparatus. 【0010】 【課題を解決するための手段】上記目的を達成するためこの発明にかかる頭部領域抽出装置は、人物を撮像した [0010] Means for Solving the Problems] head region extraction apparatus according to the present invention for achieving the above object, capturing a person
映像から人物の頭部領域を抽出する頭部領域抽出装置に The head region extracting device for extracting the head region of a person from the image
おいて、対象人物を撮像した画像の各画素データをR, Fraud and mitigating risk each pixel data of an image obtained by imaging an object person R,
G,B成分毎に下式 c1=arctan(R/max(G,B)) c2=arctan(G/max(R,B)) c3=arctan(B/max(R,G)) に従って正規化して正規化データc1,c2,c3を取 G, normalized according to the following for each B-component type c1 = arctan (R / max ( G, B)) c2 = arctan (G / max (R, B)) c3 = arctan (B / max (R, G)) retrieve the normalized data c1, c2, c3 Te
得する正規化手段と、正規化データc1,c2,c3を A normalizing means for Tokusuru, the normalized data c1, c2, c3
含む各画素データを次式 C1=c2/c1 C2=c3/c2 に従ってC1−C2空間のデータを含む画素データに夫 Husband pixel data including the data of the C1-C2 space each pixel data in accordance with the following equation C1 = c2 / c1 C2 = c3 / c2 comprising
々変換するデータ変換手段と、変換した画素データのC A data converting means for people converting, C of the converted pixel data
1データおよびC2データが下式 th1<C1<th2 th1,th2;肌色抽出パラメータ th3<C2<th4 th3,th4;肌色抽出パラメータ を満足すると、この画素データを肌色画素として判断す 1 data and C2 data following formula th1 <C1 <th2 th1, th2 ; skin color extraction parameter th3 <C2 <th4 th3, th4 ; to satisfy the flesh color extraction parameter to determine the pixel data as a skin color pixel
ることにより、撮像した画像から頭部領域を抽出する頭 Head Rukoto by, extracting the head region from the captured image
部領域抽出手段とを備えたことを特徴とする。 Characterized in that a part region extraction unit. 【0011】 つぎの発明にかかる頭部領域抽出装置は、 [0011] next head region extraction apparatus according to the invention,
上記の発明において、当該対象人物を撮像するときと同 In the above invention, the as when imaging the target person
じ照明環境下で、対象人物の顔の一部の所定の領域の画 Flip under lighting environment, image of a part of the predetermined region of the face of the target person
像をサンプリングする肌色サンプリング手段と、該肌色 A skin color sampling means for sampling the image,該肌color
サンプリング手段によってサンプリングした所定の領域 Predetermined area sampled by the sampling means
の画像の各画素データを前記正規化手段を用いて正規化 Normalizing each pixel data of the image using the normalization means
した後、前記データ変換手段を用いてC1−C2空間の After, the C1-C2 space using the data conversion means
画素データに変換し、該変換した前記所定の領域の複数 Is converted into pixel data, a plurality of the predetermined regions the conversion
の画素データを用いてC1データについての最大値およ Oyo maximum value for the C1 data using the pixel data
び最小値とC2データについての最大値および最小値を The maximum and minimum values for the fine minimum and C2 data
求め、これらの最大値および最小値で前記肌色抽出パラ Determined, the skin color extracted para with these maximum and minimum values
メータth1、th2、th3およびth4を補正する To correct the meter th1, th2, th3 and th4
肌色抽出パラメータ調整手段とをさらに備えることを特 JP further comprising a skin color extraction parameter adjusting means
徴とする。 And butterflies. 【0012】つぎの発明にかかる頭部領域抽出は、上記の発明において、 前記頭部領域抽出手段は、肌色領域抽 [0012] head region extraction according to the next invention, in the above invention, the head region extracting means, the skin color region extraction
出結果から最大領域を抽出することにより頭部領域を抽 Extract the head region by extracting the maximum area from the output results
出することを特徴とする。 Characterized in that it out. 【0013】 つぎの発明にかかる頭部領域抽出は、上記 [0013] head region extraction according to the next invention, the
の発明において、前記頭部領域抽出手段は、頭部領域抽 In the invention, the head region extracting means, the head region extracted
出後の2値画像に膨張収縮処理を加えることを特徴とす It is characterized by the addition of expansion and contraction processing to the binary image of Dego
る。 That. 【0014】つぎの発明にかかる頭部領域抽出装置は、 [0014] next head region extraction apparatus according to the invention,
上記の発明において、前記頭部領域抽出手段は、前記膨張収縮処理後の2値画像と、画素値が全て肌色に対応する論理値レベルであるマスク画像との排他的論理和を求め、この排他的論理和がとられた画像の頭部領域以外を非肌色に対応する論理値レベルとした画像と前記膨張収縮処理後の2値画像との論理和を求めることで、頭部領域全体を抽出することを特徴とする。 In the above-mentioned invention, the head region extraction means obtains the binary image after the expansion and contraction processing, the exclusive OR of the mask image is a logical value level pixel values ​​corresponding to all the skin color, the exclusive by obtaining the logical sum of the binary image after the expansion and contraction processing and image a logical value level logical sum corresponds to the non-skin-color other than the head area of ​​the image taken, extracted the entire head region characterized in that it. 【0015】 つぎの発明にかかるリアルタイム表情追跡 [0015] The real-time facial expression tracking according to another aspect of the present invention
装置は、順次所定のフレームレートで入力される映像を The imaging apparatus, which is input sequentially at a predetermined frame rate
キャプチャする映像入力手段と、前記キャプチャした画 Video input means for capturing, image described above captures
像から頭部画像を抽出する頭部領域抽出手段と、前記抽 A head region extracting means for extracting a head image from the image, the extraction
出した頭部領域から両目および口を含む各部位の候補領 Candidate territory of each site, including the eyes and mouth from the head region which issued
域を抽出する部位領域候補抽出手段と、抽出した候補領 A site region candidate extracting means for extracting a frequency, extracted candidate territory
域の中から各部位の位置を検出する部位検出追跡手段 Site detection tracking means for detecting the position of each part from the band
と、前記検出した両目、口の検出位置に基づいて頭部の When the detected eyes, the head based on the detected position of the mouth
3次元姿勢を計測するとともに、両目および口の開閉状 As well as measure the three-dimensional posture, the eyes and mouth of the opening and closing like
態を計測する頭部3次元姿勢・表情計測手段とを備え、 And a head 3-dimensional posture and facial expression measurement means for measuring the state,
前記計測した頭部の3次元姿勢および両目および口の開 Opening of the 3-dimensional posture and eyes and mouth of a head that was the measurement
閉状態に基づいてCGキャラクタの動きを制御するリア Rear to control the movement of the CG character based on the closed state
ルタイム表情追跡装置であって、前記頭部領域抽出手段 A-time facial expression tracking device, the head region extracting means
は、対象人物を撮像した画像の各画素データをR,G, Is the pixel data of an image obtained by imaging an object person R, G,
B成分毎に下式 c1=arctan(R/max(G,B)) c2=arctan(G/max(R,B)) c3=arctan(B/max(R,G)) に従って正規化して正規化データc1,c2,c3を取 B component following formula for each c1 = arctan (R / max ( G, B)) c2 = arctan (G / max (R, B)) c3 = arctan (B / max (R, G)) normalized by normalizing according to retrieve the data c1, c2, c3
得する正規化手段と、正規化データc1,c2,c3を A normalizing means for Tokusuru, the normalized data c1, c2, c3
含む各画素データを次式 C1=c2/c1 C2=c3/c2 に従ってC1−C2空間のデータを含む画素データに夫 Husband pixel data including the data of the C1-C2 space each pixel data in accordance with the following equation C1 = c2 / c1 C2 = c3 / c2 comprising
々変換するデータ変換手段と、変換した画素データが下 Under a data converting means for people conversion, it is converted pixel data
th1<C1<th2 th1,th2;肌色抽出パラメータ th3<C2<th4 th3,th4;肌色抽出パラメータ を満足すると、この画素データを肌色画素として判断す Wherein th1 <C1 <th2 th1, th2 ; skin color extraction parameter th3 <C2 <th4 th3, th4 ; to satisfy the flesh color extraction parameter to determine the pixel data as a skin color pixel
ることにより、撮像した画像から肌色領域を抽出する肌 Skin Rukoto by extracts a skin color region from the captured image
色領域抽出手段とを備えたことを特徴とする。 Characterized by comprising a color region extracting means. 【0016】つぎの発明にかかるリアルタイム表情追跡装置は、 上記の発明において、当該対象人物を撮像する [0016] Real-time facial tracking apparatus according to the next invention, in the above invention, imaging the target person
ときと同じ照明環境下で、対象人物の顔の一部の所定の In the same lighting environment and time, the part of the face of the target person given
領域の画像をサンプリングする肌色サンプリング手段 Skin color sampling means for sampling the image of the region
と、該肌色サンプリング手段によってサンプリングした If, sampled by該肌color sampling means
所定の領域の画像の各画素データを前記正規化手段を用 Use the normalization means each pixel data of the image in a predetermined area
いて正規化した後、前記データ変換手段を用いてC1− After normalization have, using said data converting means C1-
C2空間の画素データに変換し、該変換した前記所定の Into a C2 space of pixel data, said predetermined that the conversion
領域の複数の画素データを用いてC1データについての Using a plurality of pixel data in the region for C1 Data
最大値および最小値とC2データについての最大値およ Oyo maximum value for the maximum and minimum value and the C2 data
び最小値を求め、これらの最大値および最小値で前記肌 It obtains a fine minimum value, the skin of these maximum and minimum values
色抽出パラメータth1、th2、th3およびth4 Color extraction parameter th1, th2, th3 and th4
を補正する肌色抽出パラメータ調整手段とをさらに備え Anda skin color extraction parameter adjusting means for correcting the
ることを特徴とする。 And wherein the Rukoto. 【0017】 つぎの発明にかかるリアルタイム表情追跡 [0017] The real-time facial expression tracking according to another aspect of the present invention
装置は、上記の発明において、前記頭部領域抽出手段 Device, in the above invention, the head region extracting means
は、前記肌色領域抽出手段による肌色領域抽出結果から From the skin color region extraction result obtained by the skin color area extracting means
最大領域を抽出することにより頭部領域を抽出すること Extracting the head region by extracting the maximum area
を特徴とする。 The features. 【0018】つぎの発明にかかるリアルタイム表情追跡装置は、上記の発明において、 前記頭部領域抽出手段 The next real-time facial tracking device according to the invention, in the above invention, the head region extracting means
は、前記肌色領域抽出手段による肌色領域抽出後の2値 The 2 values after the skin color region extraction by the skin color area extracting means
画像に膨張収縮処理を加えることを特徴とする。 Characterized in that the addition of expansion and contraction processing on the image. 【0019】 つぎの発明にかかるリアルタイム表情追跡 [0019] The real-time facial expression tracking according to another aspect of the present invention
装置は、上記の発明において、前記頭部領域抽出手段 Device, in the above invention, the head region extracting means
は、前記膨張収縮処理後の2値画像と、画素値が全て肌 Includes a binary image, the pixel values are all skin after the expansion and contraction processing
色に対応する論理値レベルであるマスク画像との排他的 Exclusive of the mask image is a logical value level corresponding to the color
論理和を求め、この排他的論理和がとられた画像の頭部 It obtains the logical sum, the head of the image to which the exclusive OR is taken
領域以外を非肌色に対応する論理値レベルとした画像と And image a logical value level corresponding to other than the area on the non-skin-color
前記膨張収縮処理後の2値画像との論理和を求めること Obtaining the logical sum of the binary image after the expansion and contraction processing
で、頭部領域全体を抽出することを特徴とする。 In, and extracts the entire head region. 【0020】 【0021】 【0022】 【0023】 【0024】 【0025】 【0026】 【0027】 【0028】 【0029】 【0030】 【0031】 【0032】 【発明の実施の形態】以下に添付図面を参照して、この発明にかかる頭部領域抽出装置およびリアルタイム表情追跡装置の好適な実施の形態を詳細に説明する。 [0020] [0021] [0022] [0023] [0024] [0025] [0026] [0027] [0028] [0029] [0030] [0031] [0032] DETAILED DESCRIPTION OF THE INVENTION below in the accompanying drawings see, for explaining the preferred embodiment of the head region extraction device and real-time facial tracking apparatus according to the present invention in detail. このリアルタイム表情追跡装置は、本人の顔を送信する代わりにCGキャラクタの映像を相手に送信することによって人物映像を互いに通信するテレビ電話など通信システムに適用される。 This real-time facial tracking apparatus is applied to a communication system such as a videophone to communicate with each other the person image by sending instead of sending the face of the person image of the CG character to the other party. 【0033】以下、本発明の実施の形態を図1〜図20 [0033] Hereinafter, embodiments of the present invention FIGS 20
を用いて説明する。 It will be described with reference to. 図1は、本実施の形態のリアルタイム表情追跡装置の概念的構成を示すものである。 Figure 1 shows a conceptual configuration of the real-time facial tracking apparatus of this embodiment. 【0034】この図1に示すリアルタイム表情追跡装置は、例えばパーソナルコンピュータ、ワークステーションに実行させるプログラムの機能構成を示すものである。 [0034] Real-time facial tracking apparatus shown in FIG. 1, for example, a personal computer, shows the functional structure of a program executed by the workstation. この図1に示すリアルタイム表情追跡装置は、ビデオカメラ80などの映像取込手段から入力された映像を取り込むための映像入力手段1と、映像入力手段1を介して入力された人物映像から頭部領域を検出する頭部領域検出手段2と、頭部領域検出手段2で抽出された頭部領域から両目および口となる候補領域を抽出する部位領域候補抽出手段3と、部位領域候補抽出手段3で抽出した候補領域から両目、口領域を検出し、毎時変化する位置を追跡し、さらに各部位の開閉状態を計測する部位検出追跡手段4と、部位検出追跡手段4で検出した両目および口位置から頭部の3次元姿勢および表情を計測する頭部3次元姿勢・表情計測手段5とを備えている。 Real-time facial tracking apparatus shown in Figure 1, the head and the image input unit 1 for capturing the image inputted from the image capturing means such as a video camera 80, from the person image input through the image input unit 1 a head region detection means 2 for detecting a region, a part region candidate extracting unit 3 for extracting a candidate region to be a eyes and mouth from the head region extracted in the head region detection unit 2, part region candidate extracting section 3 in the extracted eyes from the candidate region to detect the mouth area, track hourly changing position, the part detection tracking means 4, further measuring the open and closed states of the respective portions, eyes and mouth positions detected by the part detection tracking means 4 and a 3D head pose and facial expression measuring means 5 for measuring a three-dimensional posture and facial expression head from. 【0035】さらに、頭部領域検出手段2は、撮影される環境下(照明環境下など)で人物の肌色をサンプリングする肌色サンプリング手段6と、肌色サンプリング手段6でサンプリングした肌色情報に基づいて肌色抽出パラメータを調整する肌色抽出パラメータ調整手段7と、 Furthermore, the head region detection means 2, a skin color sampling means 6 for sampling the skin color of a person in an environment that is captured (such as under illumination environment), skin color based on the skin color information sampled at the skin color sampling means 6 a skin color extraction parameter adjusting means 7 for adjusting the extraction parameters,
肌色抽出パラメータ調整手段7で調整された肌色抽出パラメータに基づいて入力映像から肌色画素を抽出し、抽出した画素を塊(領域)ごとに分類する肌色領域抽出手段8と、抽出した肌色領域の中から頭部領域を選択し頭部領域中の穴、裂け目などの小領域などを全て埋める(肌色に置換する)ことにより人物の頭部に関わる全ての画素を領域として抽出する頭部領域抽出手段9とを備えている。 Based on skin color extraction parameter adjusting means 7 skin color extraction parameter adjusted by extracting skin color pixel from the input video, a skin color area extracting means 8 extracted pixels to be classified for each mass (area), among the extracted skin color area select the head region from and holes in the head region, padding the entire like small areas such as fissures (substituting skin color) every head region extracting means for extracting a pixel as a region involved in the head of a person by and a 9. 【0036】部位領域候補抽出手段3は、頭部領域の輝度値を平均化する頭部領域輝度平均化手段10と、両目および口の候補領域を抽出する画素選別手段11とを備えている。 The site area candidate extraction unit 3 is provided with a head region luminance averaging means 10 for averaging the luminance values ​​of the head region, and a pixel selection means 11 for extracting a candidate region of the eyes and mouth. 【0037】部位検出追跡手段4は、部位領域候補抽出手段3で抽出された両目および口の候補領域からそれぞれに対応する領域を特定する部位検出手段12と、部位検出手段12で検出した両目および口の初期位置を記憶する初期位置設定手段13と、前フレームまでに記憶した各部位の位置から現フレームにおける位置を検出する部位追跡手段14とを備えている。 The part detection tracking means 4 includes a location detector 12 for specifying a region corresponding to each of the site area candidate extracting means both eyes is extracted with 3 and mouth candidate regions, both eyes detected by the location detector 12 and initial position setting means 13 for storing the initial position of the mouth, and a site tracking means 14 for detecting a position in the current frame from the position of each part stored in up to the previous frame. 【0038】頭部3次元姿勢・表情計測手段5は、初期位置設定手段13で設定された各部位の初期位置に基づき頭部3次元姿勢を求めるための基準となるアフィン基底を設定するアフィン基底設定手段15と、頭部の水平軸および垂直軸周りの暫定的な回転量を求める頭部回転量推定手段16と、部位検出手段12で検出した各部位の位置からアフィン基底設定手段15で設定した仮想3 The 3D head pose and facial expression measurement means 5, affine basis for setting the affine base serving as a reference for determining the 3D head pose based on the initial position of each region set in the initial position setting means 13 and setting means 15, a head rotation amount estimating means 16 for determining the provisional rotation amount about the horizontal and vertical axes of the head, set in the affine base setting means 15 from the position of each part detected by the location detector 12 virtual 3
次元空間上の点に対応する映像中の2次元の点から頭部の3次元姿勢を計測する姿勢計測手段17と、各部位(両目、口)の開閉状態を計測することで表情を追跡する開閉状態計測手段18とを備えている。 The orientation measurement means 17 for measuring the three-dimensional posture of the head from the 2D point in a video image corresponding to a point on dimensional space, to track facial expression by measuring the open and closed states of the respective parts (eyes, mouth) and a closing state measurement means 18. 【0039】キャラクタ制御装置90は、頭部3次元姿勢・表情計測手段5から入力された頭部の3次元姿勢および各部位(両目、口)の開閉状態を用いて三次元のC The character control device 90, C of the three-dimensional with the opening and closing state of the three-dimensional posture and each part of the head that is input from the 3D head pose and facial expression measurement means 5 (eyes, mouth)
Gキャラクタを制御することで、ビデオカメラ80で撮像した利用者の動き、表情に追従させてCGキャラクタの動き、表情をリアルタイムに変化させる。 By controlling the G character, the user of the movement captured by a video camera 80, to follow the facial expression of the CG character motion, to change the facial expression in real time. 【0040】図2は、図1のリアルタイム表情追跡装置のキャリブレーションフェーズの動作の概要を説明するためのフローチャートである。 [0040] Figure 2 is a flowchart for explaining the outline of the operation of the calibration phase of the real-time facial tracking apparatus of FIG. 図3は、図1のリアルタイム表情追跡装置のトラッキングフェーズの動作の概要を説明するためのフローチャートである。 Figure 3 is a flowchart for explaining the outline of the operation of the tracking phase of the real-time facial tracking apparatus of FIG. これら図2および図3を用いてリアルタイム表情追跡装置の動作の概略を説明する。 Using these FIGS. 2 and 3 for explaining the outline of the operation of the real-time facial tracking device. 【0041】リアルタイム表情追跡装置で行われる動作手順には、頭部の動きを追跡するための情報として両目および口の位置および無表情時の状態等を取得するキャリブレーションフェーズと、実際に頭部の動きおよび両目および口を追跡し、頭部姿勢と両目および口の開閉状態つまり表情を計測するトラッキングフェーズがある。 [0041] The operation procedure performed by the real-time facial tracking device, and calibration phase for acquiring the state of the time position and expressionless eyes and the mouth as information to track the movement of the head, actually head track movement and eyes and mouth, there is a tracking phase of measuring the open and closed states, that expression of head pose and eyes and mouth. 【0042】キャリブレーションフェーズでは、まず、 [0042] In the calibration phase, first of all,
映像入力手段1によってビデオカメラ80からの映像をキャプチャする(ステップS100)。 It captures images from the video camera 80 by the image input unit 1 (step S100). なお、人物の映像をビデオカメラ80で撮像する際に、ユーザに対して「カメラに対して正面を向き、両目を開け、口を閉じる」ように指示することで、無表情時の人物映像を得る。 At the time of imaging the image of the person in the video camera 80, the user "face the front with respect to the camera, open the eyes, close the mouth" By instructed to, a person image during expressionless obtain. つぎに、頭部領域検出手段2において、撮影環境下におけるユーザの肌色をサンプリングし(ステップS1 Then, in the head region detection unit 2, samples the skin color of the user under the imaging environment (step S1
10)、このサンプリングデータを用いて予め設定した肌色抽出パラメータの調整を行う(ステップS12 10) adjusts the skin tone extraction parameters set in advance by using the sampling data (step S12
0)。 0). そして、調整した肌色抽出パラメータを用いて実際に肌色領域を抽出し(ステップS130)、抽出した領域の中から頭部領域を検出する(ステップS14 Then, actually extracted skin color region by using a skin color extraction parameter adjusted (step S130), the head region from the extracted region is detected (steps S14
0)。 0). 次に、部位領域候補抽出手段3において、抽出した頭部領域から両目、口の候補領域を抽出し(ステップS150)、部位検出追跡手段4において両目領域および口領域をそれぞれ検出し(ステップS160)、検出した両目および口領域から各部位の位置、大きさ、テンプレートの初期値を記憶する(ステップS170)。 Then, the part region candidate extracting means 3, extracted eyes from the head area, and extracts a candidate region of the mouth (step S150), the eyes area and mouth area detection, respectively, in part detection tracking means 4 (Step S160) , the position of each part from the detected eyes and mouth area, size, and stores the initial value of the template (step S170). 最後に、頭部3次元姿勢・表情計測手段5において、求めた両目および口の位置に基づき、トラッキングフェーズにおいて頭部の3次元的姿勢情報を求めるためのアフィン基底(3次元空間上の仮想点)を設定する(ステップS180)。 Finally, the 3D head pose and facial expression measurement means 5, obtained on the basis of the positions of the eyes and mouth, affine basis for determining the three-dimensional posture information of the head in the tracking phase (virtual point in a three-dimensional space ) to set (step S180). 【0043】トラッキングフェーズでは、映像入力手段1によってビデオカメラ80からの映像をキャプチャする(ステップS200)。 [0043] In the tracking phase, to capture images from the video camera 80 by the image input unit 1 (step S200). 頭部領域検出手段2においては、キャリブレーションフェーズで設定した肌色抽出パラメータを用いてキャプチャした映像中から肌色を抽出し(ステップS210)、抽出した領域から頭部領域を検出する(ステップS220)。 In the head region detection means 2, using the skin color extracting parameters set in the calibration phase is extracted skin color from the video captured (step S210), and detects the head region from the extracted region (Step S220). 次に、部位領域候補抽出手段3において、両目および口の候補領域を抽出する(ステップS230)。 Then, the part region candidate extracting section 3 extracts a candidate region of the eyes and the mouth (step S230). つぎに、部位検出追跡手段4 Then, the part detection tracking means 4
は、前フレームで検出した両目および口位置に基づき、 On the basis of the detected eyes and mouth position in the previous frame,
部位領域候補抽出手段3で抽出した候補領域の中から現フレームにおける両目および口領域を検出する(ステップS240)。 Detecting the eyes and mouth region in the current frame from the candidate region extracted in the site region candidate extracting unit 3 (step S240). 次に、頭部3次元姿勢・表情計測手段5 Then, the head 3-dimensional posture and facial expression measurement means 5
において、部位検出追跡手段4で検出した両目および口位置(2次元画像点)と予め設定した3次元空間上の仮想点から頭部の3次元的姿勢情報を計測し(ステップS In to measure the three-dimensional posture information of the head from the virtual point of the three-dimensional space set eyes and mouth positions detected by the part detection tracking means 4 and (2-dimensional image point) in advance (step S
250)、その計測情報に基づいて両目および口の開閉状態を計測する(ステップS260)。 250), measuring the open and closed states of the eyes and mouth on the basis of the measurement information (step S260). 最後に、計測した両目および口の開閉状態情報及び頭部の姿勢情報はキャラクタ制御装置90に入力され、キャラクタ制御装置90によってCGキャラクタの頭部の動きおよび表情が制御される(ステップS270)。 Finally, the posture information of the opening and closing state information and the head of the measured eyes and mouth are input to the character control unit 90, the character control unit 90 moves and expression of the head of the CG character is controlled (step S270). 【0044】[キャリブレーションフェーズ]次に、図1のリアルタイム表情追跡装置のキャリブレーションフェーズにおける動作を図4〜図17を用いて詳細に説明する。 [0044] Calibration phase will now be described in detail with reference to FIGS. 4 to 17 the operation in the calibration phase of the real-time facial tracking apparatus of FIG. 【0045】(a)頭部領域検出手段2での処理まず、図4〜図10を用いて頭部領域検出手段2が行う図2のステップS110〜S140の処理の詳細について説明する。 [0045] (a) first treated with the head region detection unit 2, details of the processing in step S110~S140 of FIG. 2 performed by the head area detection unit 2 with reference to FIGS. 4-10. 【0046】図4は、頭部領域検出手段2における肌色サンプリング手段6の動作を説明するための図である。 [0046] Figure 4 is a diagram for explaining the operation of the skin color sampling means 6 in the head region detection unit 2.
図5は、肌色サンプリング手段6および肌色抽出パラメータ調整手段7の動作を説明するためのフローチャートである。 Figure 5 is a flowchart for explaining the operation of the skin color sampling means 6 and the skin color extraction parameter adjusting means 7. 【0047】まず、使用する照明環境下におけるユーザの肌色をサンプリングするために、図4に示すように、 Firstly, in order to sample the user's skin color under the lighting environment using, as shown in FIG. 4,
キャプチャ映像19に重ねて、サンプリング領域を指定するためのサンプリングウィンドウ20を表示する(ステップS300)。 To overlap the captured images 19 to display the sampling window 20 for designating a sampling area (step S300). 次に、ユーザは、マウスあるいはその他のポインティングデバイスやキーボード等を用いて、サンプリングウィンドウ20を頬あるいは額などの肌色のみ抽出可能な位置に移動させ、サンプリング可能であることをシステムに伝える(ステップS310)。 Then, the user can use the mouse or other pointing device and a keyboard, a sampling window 20 is moved to the skin color only extractable location, such as the cheeks or the forehead, telling that it is possible sampling system (step S310 ).
なお、最初に表示したサンプリングウィンドウ20の位置に合わせてユーザ自身が頭を動かして位置を調整しても良い。 Note that the user himself may adjust the position by moving the head in accordance with the position of the first to display the sampling window 20. 【0048】次に、サンプリングウィンドウ20内の全ての画素の色を肌色抽出のための色空間(肌色モデル空間)に写像し(ステップS320)、写像画素の写像空間での最大値および最小値を用いて予め設定した肌色抽出パラメータを調整する(ステップS330)。 Next, mapping the colors of all the pixels within the sampling window 20 to the color space for skin color extraction (skin color model space) (step S320), the maximum and minimum values ​​of the mapping space mapping pixels adjust the skin tone extraction parameters set in advance by using (step S330). 【0049】ここで、肌色抽出空間は、例えば、輝度変化に比較的ロバストな色空間を新たに構築するとか、画素の色データ空間(R、G、B空間)上で構築するなどの方法を用いる。 [0049] Here, the skin color extraction space could for instance be newly constructed relatively robust color space to luminance variation, color data space of the pixels (R, G, B space) a method such as to build on used. ここでは、下記のような、輝度変化に比較的ロバストな色空間を用いることにする。 Here, as described below, to the use of relatively robust color space to luminance variation. 【0050】R(レッド),G(グリーン),B(ブルー)を各画素の色の3原色の成分だとすると、まず、次式により色を正規化する。 [0050] R (red), G (green) and B (blue) and it components of three primary colors of each pixel, first, to normalize the color by the following equation. 【0051】 c1=arctan(R/max(G,B))……式(1) c2=arctan(G/max(R,B))……式(2) c3=arctan(B/max(R,G))……式(3) 【0052】上記式で正規化した色をさらに次式で変換する。 [0051] c1 = arctan (R / max (G, B)) ...... equation (1) c2 = arctan (G / max (R, B)) ...... formula (2) c3 = arctan (B / max (R , G)) ...... (3) [0052] to convert further the following equation colors normalized by the above formula. 【0053】 C1=c2/c1 ……式(4) C2=c3/c2 ……式(5) 【0054】肌色領域抽出手段8では、式(4)および式(5)でRGB空間からC1−C2空間に変換した色が、次式(6),(7)で定義した肌色範囲に入っているか否かを判断することにより入力画像から肌色領域を抽出する。 [0053] In C1 = c2 / c1 ...... formula (4) C2 = c3 / c2 ...... formula (5) [0054] skin-color region extraction section 8, from the RGB space by the formula (4) and (5) C1- colors converted to C2 space, the following equation (6), extracts a skin color region from the input image by determining whether or not entered the skin color range defined in (7). th1<C1<th2 ……式(6) th3<C2<th4 ……式(7) 【0055】肌色抽出パラメータ調整手段7では、この肌色抽出の際に用いる肌色抽出パラメータ(閾値)th th1 <C1 <th2 ...... formula (6) th3 <C2 <In th4 ...... formula (7) [0055] skin color extraction parameter adjusting means 7, a skin color extracting parameters to be used in the skin color extraction (threshold) th
1〜th4を、肌色サンプリング手段6のサンプリングデータを用いて異なる照明条件あるいは各人の肌色の違いに適応して可変するようにしている。 The 1~Th4, so that variable to adapt to differences in different lighting conditions or individual's skin color using the sampling data of the skin color sampling means 6. すなわち、肌色抽出パラメータ調整手段7は、肌色サンプリング手段6 That is, the skin color extraction parameter adjusting means 7, skin color sampling means 6
でサンプリングした画素のRGBデータをC1-C2空間に写像し、その時の最大値、最小値をC1、C2についてそれぞれ求め、C1についての最小値で閾値th1 In the RGB data of the sampled pixel mapped onto the C1-C2 space, respectively determined maximum value at that time, the minimum values ​​for C1, C2, thresholds th1 a minimum value for C1
を、C1についての最大値で閾値th2を、C2についての最小値で閾値th3を、C2についての最大値で閾値th4を夫々変更する。 And the threshold value th2 at the maximum value for C1, the threshold th3 a minimum value for C2, respectively changes the threshold value th4 the maximum value for C2. 【0056】以上のように、使用する照明環境下において利用者の肌色をサンプリングすることにより肌色抽出性能を向上させることができ、また、照明の輝度変化に頑強な色空間を用いることにより簡易なパラメータ調整でも肌色抽出性能をさらに向上させることが可能となる。 [0056] As described above, it is possible to improve the skin color extraction performance by sampling the skin color of the user under illumination environment to be used, also, simple by using a robust color space to the luminance change of illumination it becomes possible to further improve the skin color extraction performance parameter adjustment. 【0057】次に図6〜図10を用いて肌色領域抽出手段8および頭部領域抽出手段9の動作を説明する。 [0057] Next will be described the operation of the skin color area extracting means 8 and the head region extracting means 9 with reference to Figures 6-10. 図6 Figure 6
は、肌色領域抽出手段8と頭部領域抽出手段9の動作を説明するためのフローチャートである。 Is a flow chart for explaining the operation of the skin color area extracting means 8 and the head region extracting means 9. 【0058】肌色抽出パラメータ調整手段7で調整した肌色抽出パラメータを用いてもなお照明環境によっては顔の一部にハイライトが発生したり、皺や影などにより頭部領域を肌色抽出のみで正確に抽出することは困難である。 [0058] flesh color extraction parameter using skin color extraction parameter adjusted by the adjusting means 7 or generated highlight a part of the face by the still lighting environment, accurate head region skin color extracted only by wrinkles and shadows it is difficult to extract to. そのため、肌色領域抽出手段8で抽出された肌色領域の中で最も大きい領域を頭部領域として判定し、抽出漏れによる穴や裂け目などの目、鼻、口などの部位以外の小領域を頭部領域から除去する頭部領域修復処理を行うことにより頭部全体を適切に抽出可能とする。 Therefore, the largest area in the skin color region extracted skin color area extracting means 8 determines the head region, the eye, such as holes or tears by extraction failure, nasal, a small area of ​​the other portion such as the mouth head properly extractable and the entire head by performing head region repair process to remove from the area. 【0059】肌色領域抽出手段8においては、キャプチャした画像の全ての画素の色データを肌色モデル空間に写像し(ステップS400)、式(6)および式(7) [0059] In the skin color area extracting means 8, and mapping the color data of all the pixels of the captured image to the skin color model space (step S400), the formula (6) and (7)
で定めた閾値th1〜th4内にある画素を抽出し(ステップS410)、抽出した画素を4連結あるいは8連結で統合するラベリング処理(連続した図形をグループ分けして番号付けする処理)を実行することにより、個々のブロック領域(塊)に領域分割する(ステップS4 Run in extracting pixels within the threshold th1~th4 that defines (step S410), extracted labeling process for integrating pixels 4 connected or 8-connected (the process of numbered consecutively grouped figures were) it allows regions divided into individual block area (mass) (step S4
20)。 20). そして、ラベリング処理の結果、得られるブロック領域の中から面積(画素数)が最大の領域を選択し、それを頭部領域とする(ステップS430)。 As a result of the labeling process, and select the largest region area (number of pixels) from the resulting block region, make it a head region (step S430). 【0060】図7に、このようにして選択された頭部領域を含む画像を示す。 [0060] Figure 7 shows an image including a head region which has been selected in this way. この時点では、ハイライトや影、 At this point, highlight and shadow,
両目、口、鼻などの暗い部分が抽出されていないため、 Eyes, mouth, since a dark portion, such as nose not extracted,
頭部領域には、図7に示すように、穴や裂け目などの小領域21が発生している場合が多い。 The head region, as shown in FIG. 7, in many cases small regions 21, such as holes and tears occurs. 【0061】そこで、頭部領域抽出手段9は、まず裂け目部分を修復する。 [0061] Therefore, the head region extracting unit 9, first to repair tears portion. 裂け目部分の修復は、肌色領域抽出後の肌色画素を1、それ以外を0とした2値画像に対して、膨張収縮処理を行うことで達成する。 Repair of cleft portion of skin color pixels after the skin color region extracted, the rest on the binary image is 0, achieved by performing the expansion and contraction process. 膨張収縮処理は、図8に示すような膨張マスク22および収縮マスク23を設定し、以下の膨張処理と収縮処理を繰り返し行うことで、前述の裂け目や小さい穴などを埋めるものである。 Expansion and contraction processing, sets the expansion mask 22 and contract the mask 23 as shown in FIG. 8, by repeating the expansion processing and contraction processing hereinafter is intended to fill such as the aforementioned crevices and small holes. 膨張処理は、注目画素の近傍の画素値を膨張マスク22で設定した画素値に置き換えることにより領域を膨張させるものである。 Expansion processing is to inflate the region by replacing the pixel values ​​adjacent to the pixel of interest in the pixel value set in the expansion mask 22. 収縮処理は、注目画素の近傍画素の内、収縮マスク23で設定した0でない画素の画素値が収縮マスク23の画素値と同値である場合に注目画素を残し、同値で無い場合に注目画素の値を0とすることにより領域を収縮するものである。 Shrinking process, of the neighboring pixels of the target pixel, the pixel value of the pixel non-zero set in contracted mask 23 leaves the pixel of interest if the pixel value equivalent to the contraction mask 23, the pixel of interest if not the same value the value is to shrink the region by zero. 上記膨張収縮処理により、図9(a)に示すような裂け目24が修復され、図9(b)のようになる。 By the expansion and contraction processing is repaired tear 24 as shown in FIG. 9 (a), is shown in FIG. 9 (b). また、この処理により微小の穴も埋めることが可能である。 Further, it is possible to fill even the holes of the small by this treatment. 【0062】膨張収縮処理により頭部領域に発生した裂け目が修復されたことにより、後は頭部領域内の全ての穴に対応する小領域を埋めることにより頭部全体を一領域として抽出することが可能となる。 [0062] extracting by tear generated in the head region by the expansion and contraction processing is repaired, the entire head by filling the small regions corresponding to all the holes in the head region the following as an area it is possible. この穴埋め処理には、図10に示すような、論理演算処理が用いられる。 The filling process, as shown in FIG. 10, logical operation is used. 【0063】まず、裂け目修復処理により得られた頭部領域画像26と、画素値が全て1のマスク27との排他的論理和を求める。 [0063] First, the head region image 26 obtained by the cleft repair process, the pixel value is exclusive ORed with all first mask 27. その結果、背景領域と頭部領域内の穴が得られる。 As a result, the holes in the background region and the head region obtained. 次に、得られた画像28から、画像の外辺に接している領域(背景領域)を除去し、除去した画像29と元の頭部領域画像26との論理和を求めることにより、頭部全体を一領域として抽出することが可能となる(30が論理和がとられた画像、ステップS44 Next, from the obtained image 28, by removing the region (background region) in contact with the outer sides of the image, obtaining the logical sum of the image 29 and the original head region image 26 is removed, the head image the entire can be extracted as a region (30 taken the logical sum step S44
0)。 0). 【0064】このように、簡単な論理演算処理により頭部領域を抽出できるので、高速処理が可能となる。 [0064] Thus, it is possible to extract the head region by a simple logical operation, high-speed processing is possible. 【0065】(b)部位領域候補抽出手段3での処理つぎに、図11および図12を用いて部位領域候補抽出手段3が行う図2のステップS150の処理の詳細について説明する。 [0065] Processing Next at (b) part region candidate extracting means 3, details of processing in step S150 in FIG. 2 performed by the part region candidate extracting section 3 with reference to FIGS. 11 and 12. 図11は、部位領域候補抽出手段3の動作を説明するためのフローチャートである。 Figure 11 is a flowchart for explaining the operation of the site region candidate extracting section 3. 【0066】部位領域候補抽出手段3では、照明条件が変化することに応じた輝度変化に頑強に対応可能とするために、頭部領域検出手段2によって抽出された頭部領域に対して適応型ヒストグラム平均化法を用いて頭部領域のコントラストを一定に保つ処理を行う。 [0066] At location area candidate extraction unit 3, in order to robustly can correspond to the luminance change corresponding to the illumination conditions change, adaptive relative to the head region extracted by the head region detection means 2 It performs a process of keeping the contrast of the head region constant using histogram averaging method. まず、頭部領域輝度平均化手段10は、頭部領域の外接矩形を求め、その外接矩形領域を例えば8×8の小領域に分割する(ステップS500)。 First, the head region luminance averaging means 10 obtains a circumscribed rectangle of the head region, divides the circumscribed rectangular area into small areas, for example, 8 × 8 (step S500). つぎに、頭部領域輝度平均化手段10は、各小領域毎にヒストグラム平均化処理を行う(ステップS510)。 Next, the head region luminance averaging means 10 performs the histogram averaging processing for each small area (step S510). 【0067】ヒストグラム平均化処理は、次のようにして行う。 [0067] histogram averaging process is carried out as follows. まず、各小領域毎に画素値と頻度の関係を示すヒストグラムを求める。 First, a histogram showing the relationship between the pixel value and frequency for each small area. 次に、累積頻度(頻度の各階級(画素値)までの累計)を求め、各累積頻度を累積頻度の最大値で割って、各累積頻度の比率を求める。 Next, determine the cumulative frequency (cumulative to each class frequency (pixel value)), each cumulative frequency divided by the maximum value of the cumulative frequency, determining the ratio of the cumulative frequency. そして、求めた比率に小領域内の画素値の最大値を掛け合わせ、四捨五入により小数点以下を丸める。 Then, multiplying the maximum value of the pixel values ​​in the small area to the ratio obtained, round the decimal due to rounding. ここで得られた値が、平均化後の画素値となる。 The value obtained here becomes the pixel value after the averaging. 最後に、平均化後の画素値の頻度を、平均化前の頻度から求める。 Finally, the frequency of the pixel value after the averaging is obtained from the frequency before averaging. 【0068】例えば、図13に示すように小領域内の画素値が0から7の範囲内にあり、その頻度が図13に示す通りであった場合、平均化後のそれぞれの画素値の頻度は図14に示す通りになる。 [0068] For example, the pixel values ​​of the small area as shown in Figure 13 in the range 0-7, when the frequency was as shown in FIG. 13, the frequency of each pixel value after the averaging is as shown in FIG. 14. 例えば、平均化後の画素値が4の場合、画素値4に対応する平均前の画素値は2 For example, if the pixel value after the averaging 4, the average before the pixel values ​​corresponding to pixel values ​​4 2
と3であるため、その頻度は、9+2=11となる。 Since the is 3, the frequency becomes 9 + 2 = 11. 【0069】ここで、上記のとおり適応型ヒストグラム平均化法では、特にコントラストが低い小領域において、領域内の大半の画素値がヒストグラムの極大点に割り当てられることから、ノイズが多く発生する可能性がある。 [0069] In the following adaptive histogram averaging method described above, particularly in low contrast small area, since the majority of the pixel values ​​in the area is assigned to the maximum point of the histogram, a possibility that noise may occur there is. そこで、図12(a)に示すようにある閾値を超えた頻度をもつ画素値31が存在する場合には、図12 Therefore, if the pixel value 31 with a frequency that exceeds a certain threshold value as shown in FIG. 12 (a) is present, FIG. 12
(b)に示すように、それらの頻度を他の画素値に分散させる処理を行うようにしており、これによりノイズの発生を抑えることが可能である。 (B), the has to perform a process of dispersing their frequencies in other pixel values, thereby it is possible to suppress the generation of noise. 【0070】以上の処理により、常に一定のコントラストを得られることから、画素選別手段11では、一定の閾値thaを用い、頭部領域内の輝度値が閾値tha以下の画素(暗い画素)を論理レベル1とし、それ以外を論理レベル0とし(ステップS520)、さらに、画素値が1の画素を4連結あるいは8連結で結合し領域分割する(ステップS530)。 [0070] By the above process, constantly since it obtained a certain contrast, the pixel selecting unit 11, a constant using the threshold tha, the luminance value in the head region is equal to or smaller than the threshold tha pixel (dark pixel) logic level 1, and the others at logic level 0 (step S520), further, the pixel values ​​are combined region dividing one pixel in four-connected or 8-connected (step S530). 最後に、微小領域を除去することにより、各部位(両目と口と鼻)の候補領域を抽出できる(ステップS540)。 Finally, by removing the small areas, it can be extracted candidate region of each part (eyes and mouth and nose) (step S540). 【0071】以上のように、頭部全体を一領域として抽出し、その頭部領域のコントラストを常に一定にする処理を施すことにより、両目や口の部位領域の抽出処理を固定の閾値thaを用いて実行することができる。 [0071] As described above, the entire head is extracted as one region, by performing constantly the process of constant contrast of the head region, the threshold tha of fixing the extraction process site region of the eyes and mouth it can be performed using. したがって、高速処理が可能となり、かつ輝度変化に頑強なシステムを構築することができる。 Therefore, high speed processing can be the result, and it is possible to build a robust system to the luminance change. 【0072】(c)部位検出追跡手段4での処理次に、図15および図16を用いて部位検出追跡手段4 [0072] treatment with (c) part detection tracking means 4 then part detection tracking means 4 with reference to FIGS. 15 and 16
がキャリブレーションフェーズにおいて行う図2のステップS160およびS170の動作を説明する。 There will be described the operations of steps S160 and S170 in FIG. 2 performed in the calibration phase. 図15 Figure 15
は、キャリブレーションフェーズにおける部位検出追跡手段4の動作を説明するためのフローチャートである。 Is a flow chart for explaining the operation of the part detection tracking means 4 in the calibration phase. 【0073】まず、部位検出手段12は、頭部領域検出手段2で抽出した頭部領域の重心を求める(ステップS [0073] First, location detector 12 obtains the center of gravity of the head region extracted by the head region detecting unit 2 (step S
600)。 600). この重心位置は、周知の距離変換処理などを用いて求める。 The barycentric position is obtained by using a known distance transform processing. 【0074】距離変換処理とは、画像中のオブジェクトの各画素値を、各画素位置から背景領域への最短距離に置き換える変換処理である。 [0074] The distance conversion process, each pixel value of the object in the image is a conversion processing for replacing a pixel located the shortest distance to the background area. 距離の概念としては、最も単純な市街地距離(4連結距離)とチェス盤距離(8連結距離)がよく使われる。 The notion of distance, the simplest city block distance (fourth connecting distance) between the chessboard distance (8 connecting distance) is often used. ここでは、市街地距離を用いたアルゴリズムを説明する。 Here, a description will be given algorithm using city block distance. 【0075】Step1. まず、入力画像を二値化した各画素データをf i,jとし、D i,jを初期化変換された多値データとした場合、次のように初期化変換する。 [0075] Step1. First, each pixel data by binarizing the input image f i, and j, D i, when the multi-valued data of the j converted initialized, initializes converted as follows. すなわち、画素値が1の頭部領域内の画素は、多値データ∞ That is, the pixels in the area of ​​the head pixel value 1, multivalue data ∞
(実際には、100などの大きな値)に置換し、画素値が0の背景画素は、0に置換する。 (In practice, a large value such as 100) is replaced with, the background pixel of the pixel value 0 is replaced with 0. 【数1】 [Number 1] 【0076】Step2. 初期化した画像を左上から右下に向かって走査し、次の規則で逐次D´ i,jを更新する。 [0076] Step2. Initialization image scanned from the upper left toward the lower right, to update the sequential D'i, j in the following rules. D″ i,j =min(D′ i,j ,D″ i-1,j +1,D″ i,j-1 +1)……式(9) 【0077】Step3. 先のStep2で得られたD″ i,jに対して、右下から左上に向かって走査し、次の規則で逐次D″ i,jを更新する。 D i,j =min(D′ i,j ,D″ i+1,j +1,D″ i,j+1 +1)……式(10) 【0078】上式(10)によって得られたD i,jが距離画像の各画素データとなる。したがって、これら得られた距離画像から、距離値が最大となる画素を求め、この画素を頭部領域の重心とする。 【0079】距離画像変換の特徴は、領域の形が変化しても安定した重心位置を求めることがある。なお、距離画像変換を用いず、画素の座標値の平均により重心を求めても良い。 【0080】部位検出手段12は、部位領域候補抽出手段3で抽出された両目、口、鼻に D obtained in "i, j = min (D 'i, j, D" i-1, j + 1, D "i, j-1 +1) ...... (9) [0077] Step3. Destination of Step2 D "i, with respect to j, scans from the lower right towards the upper left, the successive D the following rules" i, and updates the j. D i, j = min (D 'i, j, D "i + 1, a j + 1, D "i, j + 1 +1) ...... (10) [0078] the above formula (D i obtained by 10), each pixel data of the j-distance image. Accordingly, they give from obtained distance image, obtains a pixel distance value is maximum, of the pixel and the center of gravity of the head region. [0079] the distance image conversion feature, the center of gravity position of the shape of the region is stabilized also vary determining that there is. Incidentally, without using the distance image conversion, both eyes may be determined centroid by averaging the coordinates of the pixel. [0080] location detector 12 was extracted at the site region candidate extracting unit 3, the mouth , on the nose いての候補領域の中から、先のステップS600で求めた頭部領域の重心に最も近い候補領域を鼻領域とみなす(ステップS61 From the candidate region of have, closest candidate region to the center of gravity of the head region obtained in the previous step S600 regarded as a nasal region (step S61
0)。 0). 【0081】つぎに、部位検出手段12は、図16に示すように、上記特定した鼻領域から一定の方向と距離に頭部領域の大きさに比例した大きさの左目マスク33、 [0081] Next, location detector 12, as shown in FIG. 16, the specified magnitude proportional to the size of the head region from the nose area in a predetermined direction and distance of the eye mask 33,
右目マスク34、口マスク35を設定する。 Eye mask 34, to set the mouth mask 35. 【0082】設定したマスク領域の中からそれぞれ重心位置に最も近い領域をそれぞれ右目、左目、口領域とする(ステップS620)。 [0082] Each of the area closest to the respective center-of-gravity position from the set mask region the right eye, the left eye, and mouth area (step S620). 【0083】次に初期位置設定手段13において、各部位領域の中心位置と両目の外側の端点36a、37aの位置を記憶する(ステップS630)。 [0083] Then, in the initial position setting means 13, the outer end points 36a of the center position and eyes of each part region, and stores the position of 37a (step S630). 最後に、右目、 Finally, the right eye,
左目および鼻に関する検出領域のうち、右目、左目、口領域内の画素値を1とし、それ以外を0とした部位領域マスク画像を各部位について夫々生成し、これらの部位領域マスク画像を記憶する。 Among the detection regions for the left eye and nose, eye, and left eye, and a pixel value in the mouth region 1, respectively generated for each site part region mask image and zero otherwise, and stores these site region mask image . (ステップS640)。 (Step S640). この部位領域マスク画像は、トラッキングフェーズでの第1番目のフレームについての部位追跡処理に用いられる。 The part region mask image is used in the site tracking processing for the first frame in the tracking phase. また、部位検出手段12は、各部位領域(左目、右目、口)の、中心位置における画像垂直方向(Y方向) Also, location detector 12, the part region (left, right, mouth) of the image vertical direction (Y-direction) at the center position
の長さを測定し、これら測定値を初期位置設定手段13 The length was measured, the initial position setting means these measurements 13
に記憶する。 And stores it in. この記憶された各部位領域(左目、右目、 The stored each part regions (left, right,
口)の画像垂直方向(Y方向)の長さは、その後のトラッキングフェーズで、各部位の開閉状態情報を得るために利用される。 Image vertical length (Y direction) of the mouth) is a subsequent tracking phase, it is utilized in order to obtain the opening and closing state information of each part. 【0084】(d)頭部3次元姿勢・表情計測手段5での処理次に、図17〜図19を用いて頭部3次元姿勢・表情計測手段5がキャリブレーションフェーズにおいて行う図2のステップS180の動作を説明する。 [0084 (d) The treatment with 3D head pose and facial expression measurement means 5 Next, the steps of FIG. 2 where the 3D head pose and facial expression measurement means 5 with reference to FIGS. 17 to 19 carried out in the calibration phase the operation of the S180 will be described below. 図17は、キャリブレーションフェーズにおける頭部3次元姿勢・表情計測手段5の動作を説明するためのフローチャートである。 Figure 17 is a flow chart for explaining the operation of the 3D head pose and facial expression measurement means 5 in the calibration phase. 【0085】アフィン基底設定手段15は、図18に示すように、部位検出追跡手段4で求めた両目の外側の端点36a,37aを結ぶ直線38を求める(ステップS [0085] Affine basis setting unit 15, as shown in FIG. 18, the outer end points 36a of the eyes obtained by the part detection tracking means 4 obtains a straight line 38 connecting the 37a (step S
700)。 700). 次に、左目あるいは右目どちらかの端点を基準に直線38が水平になるように画像を回転させる(ステップS710)。 Next, the image is rotated so that the straight line 38 is horizontal relative to the left or right either end point (step S710). そして、口の中心位置を通り、求めた直線に平行でかつ同じ長さの直線39を求める(ステップS720)。 Then, through the center position of the mouth, and parallel to the line determined obtaining the linear 39 of the same length (step S720). この2つの直線38,39の両端点、 Both end points of the two straight lines 38 and 39,
すなわち4点36a,37a,36b,37bでできる矩形の中心座標40を求める(ステップS730)。 That 4 points 36a, 37a, 36b, a rectangular center coordinate 40 that can be in 37b obtains (step S730). さらに、矩形39の中心40を基準に、矩形の4頂点の相対座標を求め、これらを3次元空間上の仮想点として記憶する(ステップS740)。 Further, with respect to the center 40 of the rectangular 39 obtains a rectangular four vertexes of relative coordinates, and stores these as a virtual point in a three-dimensional space (step S740). 【0086】この3次元空間上の仮想点は、トラッキングフェーズにおける頭部3次元姿勢計測のための基準点となる。 [0086] a virtual point on the three-dimensional space, a reference point for the 3D head orientation measurement in the tracking phase. 【0087】次に、頭部回転量推定手段16は、図19 Next, head rotation amount estimating means 16, FIG. 19
に示すように、両目の端点36a,37aを結ぶ直線をX軸、口の中心を通りX軸に垂直な直線をY軸として座標系を規定し、頭部領域に外接する外接矩形のX軸方向の長さを1としたときに、左目あるいは右目の内側の端点と外接矩形の左右の辺との距離La,Lbを求める(ステップS750)。 As shown in both eyes of the end points 36a, a straight line connecting the 37a X-axis, a straight line perpendicular to the street X axis the center of the mouth to define a coordinate system as Y-axis, X-axis of the circumscribing rectangle which circumscribes the head region when the direction of a length of 1, the distance between the left eye or the right eye of the inner end point and the circumscribed rectangle of the left and right sides La, seek Lb (step S750). 同様に、外接矩形のY軸方向の長さを1としたときに、口の中心位置から外接矩形の上下の辺までの距離Lc、Ldを求める(ステップS76 Similarly, when the length of the circumscribed rectangle in the Y-axis direction and 1, the distance Lc from the center position of the mouth to the upper and lower sides of the circumscribed rectangles, obtaining the Ld (step S76
0)。 0). 【0088】この相対位置がトラッキングフェーズにおける頭部の上下左右方向の回転量を予測するための基準となる。 [0088] The relative position as a reference for predicting the amount of rotation of the vertical and horizontal directions of the head in the tracking phase. 【0089】以上がキャリブレーションフェーズにおけるリアルタイム表情追跡装置の動作である。 [0089] The above is the operation of the real-time facial tracking device in the calibration phase. 【0090】[トラッキングフェーズ]次に、図1のリアルタイム表情追跡装置のトラッキングフェーズにおける動作を図20〜図29を用いて詳細に説明する。 [0090] Tracking Phase will now be described in detail with reference to FIGS. 20 to 29 the operation in the tracking phase of the real-time facial tracking apparatus of FIG. 【0091】(a)′頭部領域検出手段2での処理頭部領域検出手段2では、肌色領域抽出手段8と頭部領域抽出手段9を動作させることで、映像入力手段1を介して所定のフレームレートで順次入力される現フレームの映像に対し、キャリブレーションフェーズ同様の処理を行い、肌色領域を抽出し、頭部領域を抽出する(図3 [0091] (a) 'In the process the head region detection unit 2 in the head region detection unit 2, by operating the skin color region extraction section 8 and the head region extracting means 9, predetermined through the image input unit 1 to video of the current frame are sequentially inputted at a frame rate, calibrate phase similar processing to extract the skin color region, extracting the head region (Fig. 3
ステップS200〜S220)。 Step S200~S220). ただし、このトラッキングフェーズでは、肌色サンプリング手段6による肌色サンプリングおよび肌色抽出パラメータ調整手段7による肌色パラメータの調整は行わない。 However, this tracking phase, is not performed adjustment of skin tone parameters by skin color sampling and skin color extraction parameter adjusting means 7 by skin color sampling means 6. 【0092】(b)′部位領域候補抽出手段3での処理部位領域候補抽出手段3では、キャリブレーションフェーズと同様の処理を実行することにより、現フレームの映像から部位(目、口、鼻)領域候補を抽出する(図3 [0092] In the process site region candidate extracting means 3 at (b) 'site region candidate extracting unit 3, by executing the same process as the calibration phase, the site from a video of the current frame (eyes, mouth, nose) extracting a region candidates (Fig. 3
ステップS230)。 Step S230). すなわち、頭部領域検出手段2によって抽出された頭部領域に対して適応型ヒストグラム平均化法を用いて頭部領域のコントラストを一定に保つ処理を行い、さらに、一定の閾値thaを用い、頭部領域内の輝度値が閾値tha以下の画素(暗い画素)を1、それ以外を0とし、さらに、画素値が1の画素を4 That is, relative to the head region extracted by the head region detection unit 2 by using the adaptive histogram averaging method performs the processing to maintain the contrast of the head region constant, further, using a constant threshold tha, the head 1 the luminance value is the threshold tha following pixel (dark pixel) parts area, the others set to 0, further, the pixel value is a pixel 4
連結あるいは8連結で結合して領域分割し、最後に、微小領域を除去することにより、各部位(両目と口と鼻) Divided into regions linked by a connecting or 8-connected, finally, by removing the small areas, each part (eyes and mouth and nose)
の候補領域を抽出する。 To extract a candidate region. 【0093】(c)′部位検出追跡手段4での処理図20〜図23を用いて部位検出追跡手段4のトラッキングフェーズにおける動作を詳細に説明する。 [0093] detailed description of the operation in the tracking phase of the part detection tracking means 4 with the process diagram. 20 to FIG. 23 at (c) 'site detection tracking means 4. 図20および図21は、トラッキングフェーズにおける部位検出追跡手段4の動作を説明するためのフローチャートである。 20 and 21 are flowcharts for explaining the operation of the part detection tracking means 4 in the tracking phase. 【0094】部位追跡手段14では、記憶されている前フレームについての部位領域の中心座標を中心に、一定の大きさの矩形領域を設定する。 [0094] At location tracking means 14, around the center coordinates of the site region of the previous frame stored sets a rectangular region of a predetermined size. その矩形領域に存在する現フレームの候補領域を求める(ステップS82 Determining a candidate region of the current frame exists in the rectangular area (step S82
0)。 0). つぎに、各候補領域に対して次に示すような判別式(11)を用いて評価値Eを得る。 Next, to obtain an evaluation value E using the discriminant (11) as shown below for each candidate region. 【数2】 [Number 2] 【0095】ここで、Eは評価値、SPは前フレームにおける部位領域の画素数、SCは現フレームにおける候補領域の画素数、OPは現フレームにおける候補領域のマスク画像(候補領域の画素のみが1で、それ以外は0 [0095] Here, E represents the evaluation value, SP is the number of pixels in the part region in the previous frame, SC is the number of pixels of the candidate region in the current frame, OP only pixels of the mask image (candidate region of the candidate region in the current frame 1, 0 otherwise
の画像)と前フレームにおける部位領域のマスク画像(部位領域の画素のみが1で、それ以外は0の画像)との排他的論理和を求めたときに、画素値が1となる画素数、Dは前フレームにおける部位領域の中心と候補領域の中心との距離である。 In the image) before and only the pixels of the mask image (part region of the part region in the frame 1, when otherwise obtained the exclusive OR of the zero image), the number of pixels having a pixel value of 1, D is the distance between a center of the candidate region part region in the previous frame. 【0096】上記式(11)で求めた値Eが最も小さいものを対象領域として選択することにより、前フレームの部位領域の位置を基準とした一定範囲内に存在する現フレームの候補領域の中から対象領域を特定する(ステップS830)。 [0096] By selecting the ones above formula (11) obtained value E is the smallest as the target region, the candidate region of the current frame is present the position of the part region of the previous frame within a certain range based identifying a region of interest from (step S830). すなわち、図22に示すような小さいノイズ領域47が前フレームの部位領域に完全に包含されたとしても、その場合は式(11)の|SP−SC| That is, even a small noise region 47 as shown in FIG. 22 is completely included in the part region of the previous frame, in which case the formula (11) | SP-SC |
とOPの値が大きくなるため、このようなノイズ領域を除去できる。 And the value of OP is increased, it can remove such noise region. 【0097】このような処理を、左目、右目、口の領域について夫々実行する(ステップS810〜S84 [0097] Such processing is left, right, for the mouth region each run (step S810~S84
0)。 0). 【0098】以上の処理により全ての部位を検出できた場合は、部位領域マスク画像を、現在のフレームのもので更新し、かつ各部位(左目、右目、口)についての検出領域の中心位置を求め、これを記憶する(ステップS [0098] If it can be detected all the sites by the above process, a part region mask image is updated with that of the current frame, and each part (left, right, mouth) the center position of the detection area for determined, and stores (step S
850およびS860)。 850 and S860). 【0099】見つからない部位が存在した場合は(ステップS870)、現フレームで検出された部位の移動ベクトルから、検出できなかった部位の現フレームでの位置を予測する。 [0099] If the site is not found to exist (step S870), the motion vector of a portion detected in the current frame, predicts the position of the current frame portion can not be detected. 例えば、図23に示すように、現フレームで検出できなかった部位(対象部位)54が存在した場合、現フレームで検出された他の部位48の位置とその部位の前フレームでの位置49からフレーム間の移動ベクトル50を求める。 For example, as shown in FIG. 23, if the site (target site) 54 that could not be detected in the current frame is present, from the position 49 in the previous frame of the site and the location of the other portions 48 detected in the current frame calculating the moving vector 50 between frames. そして、対象部位54の前フレームにおける位置51に、他の部位の検出位置から求めた移動ベクトル50を加算して、現フレームでの推定位置を求める(ステップS890)。 Then, the position 51 in the previous frame of the target region 54, by adding the motion vector 50 obtained from the detection position of the other sites to determine the estimated position of the current frame (step S890). そして、求めた位置を含む所定の矩形領域(例えば16×16)53中の画素に着目し、この矩形領域中の画素に対し前述したステップS820およびステップS830の処理を実行することで、対象部位54を検出する(ステップS90 Then, focusing on the pixels in a predetermined rectangular area (for example, 16 × 16) 53 containing the obtained position, by executing the processing of step S820 and step S830 described above with respect to the pixels in the rectangular region, the target site 54 to detect the (step S90
0)。 0). 【0100】矩形領域53内に全く候補領域が存在しない場合は、顔の傾きなどによる隠れが生じているものとし、ステップS890で推定した位置を現フレームでの対象部位の位置とし、矩形領域53自体をその部位領域として記憶する(ステップS910,S920)。 [0100] If the rectangular area 53 at all the candidate regions in the absence, and those caused hidden due inclination of the face, the position estimated in step S890 and the position of the target region in the current frame, the rectangular area 53 storing itself as a site region (step S910, S920). 【0101】なお、ステップS870で、現フレームの部位領域を全く検出できなかった場合は、部位検出手段12によって図15のステップS600〜S640の処理を再度行い、部位領域を再検出する(ステップS88 [0102] In step S870, if it can not be detected part region of the current frame at all, again performs steps S600~S640 of FIG. 15 by the location detector 12, rediscover site region (step S88
0)。 0). 【0102】このように、部位を1つ検出できれば、他の部位を検出漏れしても、検出した部位の移動ベクトルから検出漏れした部位の現フレームでの位置を予測しているので、頑強な部位追跡が行える。 [0102] Thus, if detected one portion, it is detected leaks to other sites, because it predicts the position of the current frame of the portion detected leakage from the movement vector of the detected sites, robust perform site-tracking. さらに、隠れなどにより映像中に対象となる部位が現れない場合でも暫定的な部位領域を設定することから、隠れた部位が出現したときにその部位を即座に追跡可能となり、つまりは、 Furthermore, since setting a temporary site region even if does not appear sites of interest in the video or the like hidden immediately enables tracking the site when the hidden sites appeared, that is,
頭部の各部位の滑らかな動きを再現可能となる。 A smooth movement of each part of the head becomes reproducible. 【0103】(d)′頭部3次元姿勢・表情計測手段5 [0103] (d) 'head 3-dimensional posture and facial expression measurement means 5
での処理次に、図24〜図29を用いて頭部3次元姿勢・表情計測手段5のトラッキングフェーズにおける動作を詳細に説明する。 Treatment with now be described in detail the operation in the tracking phase of the 3D head pose and facial expression measurement means 5 with reference to FIGS. 24 to 29. 図24および図27は、トラッキングフェーズにおける頭部3次元姿勢・表情計測手段5の動作を説明するためのフローチャートである。 24 and 27 are flowcharts for explaining the operation of the 3D head pose and facial expression measurement means 5 in the tracking phase. 【0104】まず、頭部回転量推定手段16においては、図25に示すように、部位検出追跡手段4で求められた現フレームの両目領域から、両目の外側の端点7 [0104] First, in the head rotation amount estimation means 16, as shown in FIG. 25, the eyes region of the current frame obtained by the part detection tracking means 4, the outer eyes endpoints 7
0,71を求め、これら端点70,71を結ぶ直線55 Seek 0,71, connecting these end points 70 and 71 linear 55
を求める(ステップS1000)。 The seek (step S1000). また、直線55に直交し、口の中心位置59を通る直線56を求める(ステップS1010)。 Also, orthogonal to the straight line 55, obtains a straight line 56 passing through the center position 59 of the mouth (step S1010). 求めた直線55をX軸とし、直線5 The straight line 55 obtained by the X-axis, the straight line 5
6をY軸とするローカル座標系を設定し、X軸55およびY軸56のそれぞれに平行な辺を持ち、抽出された頭部領域に外接する外接矩形57を求める(ステップS1 6 to set the local coordinate system with the Y-axis, has sides parallel to each of the X axis 55 and Y-axis 56, obtaining the circumscribed rectangle 57 circumscribing the extracted head region was (step S1
020)。 020). 外接矩形57のX軸方向の辺の長さを1とし、キャリブレーションフェーズで計測した方の目の内側の端点58とY軸に並行な2辺72,73までの相対距離La′,Lb′を夫々求める(ステップS103 The length in the X-axis direction side of the circumscribed rectangle 57 as 1, the relative distances to the calibration phase measured in the direction of the eye of the inner end point 58 and the Y-axis in parallel two sides 72 and 73 La ', Lb' respectively seek (step S103
0)。 0). 同様に、外接矩形のY軸方向の長さを1とし、口の中心59とX軸に平行な2辺74,75までの相対距離Lc′,Ld′を夫々求める(ステップS104 Similarly, the length of the circumscribed rectangle in the Y axis direction is 1, the relative distance Lc to the center 59 and the X-axis parallel to the two sides 74, 75 of the mouth ', Ld' respectively determined (step S104
0)。 0). 【0105】次に、両目の外側の端点70,71と、端点70,71を通りY軸に平行な直線と口の中心を通りX軸に平行な直線との交点(2点)76,77とでできる矩形60を求める(ステップS1050)。 Next, the outer end points 70, 71 of the eyes, the intersection of a straight line parallel to the street X axis the center of a straight line parallel and mouth as Y-axis end points 70, 71 (2 points) 76 and 77 the rectangle 60 that can be in the determined (step S1050). 【0106】ここで、X軸については右方向を正方向、 [0106] In this case, the right direction for the X-axis positive direction,
Y軸については上方向を正方向としたとき、片目のX軸正方向の相対距離dec(=Lb′)と、キャリブレーションフェーズで記憶したX軸正方向の相対距離dei When the upper direction is a positive direction for the Y axis, and one eye of the X-axis positive direction relative distance dec (= Lb '), X-axis positive direction in the relative distance stored in the calibration phase dei
(=Lb)とから次式(12)で頭部の左右方向の回転量を求める。 Determining the amount of rotation of the right and left direction of the head (= Lb) from the following equation (12). Rf E =dec/dei ……式(12) 【0107】ここで、Rf Eは左右方向の回転量、de Rf E = dec / dei ...... formula (12) [0107] Here, Rf E is the lateral direction rotation amount, de
cは現フレームでの目のX軸正方向の相対距離、dei c is the X-axis positive direction in the relative distance eye in the current frame, dei
はキャリブレーションフェーズで記憶した目のX軸正方向の相対距離である。 Is a positive X-axis direction of the relative distance of the eye stored in the calibration phase. 【0108】もし、回転量Rf Eが1よりも大きい場合、頭部は左方向に回転していることになる。 [0108] If the amount of rotation Rf E is greater than 1, the head will be rotating to the left. 逆に回転量Rf Eが1よりも小さい場合、頭部は右方向に回転していることになる。 If the rotational amount Rf E conversely smaller than 1, the head will be rotating in the right direction. 【0109】同様に、口のY軸正方向の相対距離dmc [0109] Similarly, the mouth of the Y-axis positive direction in the relative distance dmc
(=Ld′)と、キャリブレーションフェーズで記憶したY軸正方向の相対距離dmi(=Ld)とから次式(13)で頭部の上下方向の回転量を求める。 (= Ld ') and to determine the amount of rotation of the vertical direction of the head in the calibration phase at the stored Y-axis positive direction relative distance dmi (= Ld) from the following equation (13). Rf m =dmc/dmi ……式(13) 【0110】ここで、Rf mは上下方向の回転量、dm Rf m = dmc / dmi ...... formula (13) [0110] Here, Rf m is the amount of rotation of the vertical direction, dm
cは現フレームでの口のY軸正方向の相対距離、dmi c is the Y-axis positive direction in the relative distance of the mouth in the current frame, dmi
はキャリブレーションフェーズで記憶した口のY軸正方向の相対距離である。 Is a Y-axis positive direction of the relative distance of the stored mouth with calibration phase. 【0111】もし、回転量Rf mが1よりも大きい場合、頭部は下方向に回転していることになる。 [0111] If the amount of rotation Rf m is greater than 1, the head will be rotating in a downward direction. 逆に1よりも小さい場合、頭部は上方向に回転していることになる。 If less than 1 Conversely, the head will be rotating in the upward direction. 【0112】つぎに、式(12)および式(13)で求めた左右上下の回転量Rf E ,Rf mに基づき次のようにして矩形60を歪ませる(ステップS1060)。 [0112] Next, equation (12) and wherein the left and right vertical obtained in (13) the rotation amount Rf E, distort the rectangle 60 as follows based on the Rf m (step S1060). 【0113】Rf E >1の場合:矩形の左側の辺(Y軸に平行な辺でX軸の負方向にある辺)の長さを次式(1 [0113] Rf E> 1 in the case: the following equation the length of (the side which is parallel to the sides in the Y axis in the negative direction of the X axis) square to the left side (1
4)を用いて短くする。 Shortening using a 4). l=w・Rf E・ol ……式(14) lは計算した長さ、olは元の長さ、wは重み係数である。 l = w · Rf E · ol ...... formula (14) the length l is calculated, ol the original length, w is a weighting factor. 【0114】Rf E <1の場合:矩形の右側の辺(Y軸に平行な辺でX軸の正方向にある辺)の長さを式(1 [0114] When the Rf E <1: the length of the rectangle on the right side (the side in the positive direction of the Y-axis X-axis at sides parallel to) the formula (1
4)を用いて短くする。 Shortening using a 4). 【0115】Rf m >1の場合:矩形の下側の辺(X軸に平行な辺でY軸の負方向にある辺)の長さを次式(1 [0115] When the Rf m> 1: the following equation the length of (the side which is parallel to the sides in the X-axis in the negative direction of the Y axis) square of the lower edge (1
5)を用いて短くする。 5) to shorten using. l=w・Rf m・ol ……式(15) lは計算した長さ、olは元の長さ、wは重み係数である。 l = w · Rf m · ol ...... formula (15) the length l is calculated, ol the original length, w is a weighting factor. 【0116】Rf m <1の場合:矩形の上側の辺(X軸に平行な辺でY軸の正方向にある辺)の長さを式(1 [0116] When the Rf m <1: rectangular upper side (positive direction is the side of the Y-axis at sides parallel to the X axis) the length formula (1
5)を用いて短くする。 5) to shorten using. 【0117】例えば、図26(a)に示すように、左方向に頭部を回転した場合、矩形60は左側の辺が短くなり、図26(b)に示すように、上方向に回転した場合、矩形60は上側の辺が短くなる。 [0117] For example, as shown in FIG. 26 (a), when rotating the head to the left, a rectangle 60 is left side becomes shorter, as shown in FIG. 26 (b), rotated upward If, rectangle 60 is the upper side is shorter. そして、このようにして変形した矩形の各頂点座標を変形前の矩形60の中心座標を基準にして求める。 Then, determined on the basis of the center coordinates of the thus rectangular 60 before deformation of the vertex coordinates of the rectangle deformed. 【0118】つぎに、姿勢計測手段17は、以上のようにして求めた4つの頂点座標(2次元座標)と、それらに対応するアフィン基底設定手段15で設定された3次元空間上の仮想点を基に、頭部の3次元姿勢計測を行う。 [0118] Next, the posture measuring means 17, the above way four vertex coordinates obtained (two-dimensional coordinates), a virtual point in a three-dimensional space that has been set in the affine base setting means 15 corresponding to them based on, the three-dimensional orientation measurement of the head. ここでは、つぎのような手法を用いて、3次元姿勢計測を行う。 Here, using a procedure such as the following, the three-dimensional orientation measurement. 【0119】カメラで撮影された画像と3次元空間上のオブジェクトとの関係は図28のようになっている。 [0119] relationship between objects in the captured image and the three-dimensional space by the camera is as shown in FIG 28. 図28において63は、アフィン基底設定手段15で設定した3次元空間上の平面、64はカメラ画像平面、65 63 In FIG. 28, the plane of the three-dimensional space set in the affine base setting means 15, 64 is a camera image plane, 65
はカメラ座標系である。 Is a camera coordinate system. 【0120】3次元空間上の平面63の座標系における点(X f ,Y f ,Z f )と、それに対応するカメラ座標系65における点(X c ,Y c ,Z c )は次式(16)の関係がある。 [0120] point in the coordinate system of the plane 63 of the three-dimensional space (X f, Y f, Z f) and the point in the camera coordinate system 65 corresponding thereto (X c, Y c, Z c) the following equation ( a relationship of 16). 【数3】 [Number 3] 【0121】式(16)におけるRが回転成分を、Tが並進成分を表しており、これが、頭部の3次元姿勢情報に等しい。 [0121] wherein R is a rotational component in (16), T is represents a translational component, which is equal to the three-dimensional posture information of the head. 【0122】一方、カメラ座標系65における3次元空間上の点(X c ,Y c ,Z c )とカメラ画像平面64における2次元の点(dX c ,dY c )とは、次式(17)に示す関係がある。 [0122] On the other hand, the point of the three-dimensional space in the camera coordinate system 65 (X c, Y c, Z c) a two-dimensional points in the camera image plane 64 (dX c, dY c), the following equation (17 ) to the relationship shown. 【数4】 [Number 4] 【0123】ここで、Pを含む行列は使用するビデオカメラ80の透視投影行列であり、周知のカメラキャリブレーション技術を用いて予め求めることができる。 [0123] Here, matrix containing P is perspective projection matrix of the video camera 80 to be used, can be obtained in advance by a known camera calibration technique. 【0124】さて、頭部回転量推定手段16で得られた矩形(カメラ画像平面64)は、3次元空間上では上下と左右の辺は平行している。 [0124] Now, a rectangle obtained by head rotation amount estimating means 16 (camera image plane 64), upper and lower right and left sides are parallel in the three-dimensional space. この二組の平行した辺から矩形の3次元空間上の上下方向と左右方向の方向ベクトル(X軸、Y軸)を求めることができる。 It can be obtained vertical and horizontal direction of the direction vector of the three-dimensional space of rectangular from the two sets of parallel sides (X-axis, Y-axis). 【0125】平行する辺のカメラ画像平面64上における直線の方程式をa 1 x+b 1 y+c 1 =0 ……式(18) a 2 x+b 2 y+c 2 =0 ……式(19) とすると、カメラ座標系65におけるこれらの各直線を含む3次元の平面の方程式は次式(20)(21)であらわすことができる。 [0125] When the equation of a straight line on the side of the camera image plane 64 parallel a 1 x + b 1 y + c 1 = 0 ...... formula (18) a 2 x + b 2 y + c 2 = 0 ...... (19), the camera coordinate equations of 3-dimensional plane including each of these straight lines in the system 65 can be expressed by the following equation (20) (21). 【0126】 a 111c +(a 112 +b 122 )Y c +(a 113 +b 123 +c 1 )Z c =0 ……式(20) a 211c +(a 212 +b 122 )Y c +(a 213 +b 223 +c 2 )Z c =0 ……式(21) 【0127】これら2つの平面の法線ベクトル(X、 [0126] a 1 P 11 X c + ( a 1 P 12 + b 1 P 22) Y c + (a 1 P 13 + b 1 P 23 + c 1) Z c = 0 ...... formula (20) a 2 P 11 X c + (a 2 P 12 + b 1 P 22) Y c + (a 2 P 13 + b 2 P 23 + c 2) Z c = 0 ...... formula (21) [0127] normal vectors of these two planes (X ,
Y、Zの係数)の外積を求めると上記方向ベクトル(X Y, when determining the cross product of Z factor) the direction vector (X
軸、Y軸)を求めることができる。 Axis, Y-axis) can be determined. 【0128】以上で、カメラ座標系65における矩形のX軸、Y軸に相当する方向ベクトルを求めることができるが、画像から得られる情報の誤差により、得られた方向ベクトルが図29に示すように直交していない場合がある。 [0128] In the above, X-axis of the rectangle in the camera coordinate system 65, can be obtained direction vector corresponding to the Y-axis, the errors of the information obtained from the image, the resulting direction vector is as shown in FIG. 29 there is a case that is not perpendicular to. そこで、求めた方向ベクトルをS1、S2としたとき、そのベクトルS1、S2を基に直交ベクトルV Therefore, when the direction vector of S1, S2 obtained, orthogonal vectors V on the basis of the vector S1, S2
1、V2を求める。 1, determine the V2. Z軸方向のベクトルは、求めたV1 Vector in the Z-axis direction, obtained V1
とV2の外積から求められる。 Once obtained from the cross product of V2. この3つの方向ベクトルが式(16)における回転成分Rとなる。 The three direction vectors is rotation component R in formula (16). 【0129】回転成分Rが分かれば、2次元座標と3次元座標の対応点を式(16)と式(17)に代入することにより並進成分Tを求めることができる。 [0129] If the rotation component R are known, it is possible to determine the translation components T by the corresponding point of the two-dimensional coordinates and three-dimensional coordinates into equation (16) and (17). 【0130】姿勢計測手段17では、まず頭部回転量推定手段16で求めた矩形の4頂点の座標から式(18) [0130] orientation in the measurement means 17, firstly the formula from the coordinates of the four vertices of the rectangle obtained by head rotation amount estimating means 16 (18)
に示す各辺の直線パラメータ(方程式)を求め(ステップS1100)、求めた直線パラメータを用いて式(2 The linear parameters (equations) of each side shown in determined (step S1100), using a linear parameter obtained equation (2
0)および式(21)に基づき、アフィン基底設定手段15で設定した仮想3次元平面のX軸、Y軸を求める(ステップS1110)。 0) and based on equation (21), X axis of the virtual three-dimensional plane set in the affine base setting means 15 obtains a Y-axis (step S1110). そして、前述したように、求めた軸が直交するように修正し、更にこの修正したX Then, as described above, modified as determined axes are orthogonal, and further this modified X
軸、Y軸からZ軸を求め、これら3軸(X軸、Y軸、Z Axis, obtains the Z-axis from the Y-axis, these three axes (X axis, Y axis, Z
軸)の方向ベクトルから回転行列(回転成分)Rを求め(ステップS1120)、さらにこの回転成分Rを用いて得られた2次元座標と3次元座標の対応点を式(1 The rotation matrix from the direction vector of the axis) (calculated rotational component) R (step S1120), further corresponding points formula 2D coordinates and three-dimensional coordinates obtained using the rotation component R (1
6)(17)に代入することで、並進行列(並進成分) 6) (by substituting 17), the translation matrix (translation component)
Tを求める(ステップS1130)。 Determine the T (step S1130). 【0131】以上のようにして求めた投影行列を用いて、実際に3次元空間上の仮想点をカメラ画像平面に投影したときの誤差に応じて投影行列を修正し(ステップS1140)、誤差が閾値以下になったときの投影行列を頭部の3次元姿勢情報とし(ステップS1150)、 [0131] Using the above manner determined projection matrices, actually modify the projection matrix in accordance with a virtual point in a three-dimensional space to an error when projected onto the camera image plane (step S1140), error the projection matrix when it becomes below the threshold and 3-dimensional posture information of the head (step S 1150),
この3次元姿勢情報をキャラクタ制御装置90に出力することで、CGキャラクタの頭部の3次元姿勢を制御する。 By outputting the three-dimensional posture information to the character controller 90, controls the three-dimensional posture of the head of the CG character. 【0132】このように、顔画像から検出する両目および口の3点から3次元空間上の矩形(仮想平面)を規定し、追跡時に両目および口の3点から作成した矩形を頭部の動きに応じて歪ませることにより、3次元平面を2 [0132] Thus, to define a rectangular on the three-dimensional space from the three points of the eyes and mouth detected from a face image (virtual plane), rectangular head movement created from the three points of the eyes and mouth during tracking by distorting in response to a 3-dimensional plane 2
次元に投影したときの歪みを擬似的に再現し、本来4点以上の3次元と2次元の対応点がなければ求めることができない3次元姿勢情報を画像から得られる両目および口の3点のみで推定するようにしている。 Distortion when projected onto the dimension artificially reproduced, only three points of the eyes and the mouth to obtain a three-dimensional orientation information can not be obtained if there is no corresponding point of the three-dimensional and two-dimensional or four original from the image in is to be estimated. 【0133】次に開閉状態計測手段18の動作を説明する。 [0133] Next will be described the operation of the opening and closing state measurement means 18. 開閉状態計測手段18では、姿勢計測手段17で求めた投影行列、すなわち頭部の3次元姿勢情報を用いて、ユーザが正面を向いたときのカメラ画像における両目および口領域を再現し、再現した領域の画像垂直方向(Y方向)の長さと、初期位置設定手段13に記憶されている初期状態における各部位領域の画像垂直方向の長さとの比率を求める。 In closing state measuring unit 18, a projection matrix obtained by the orientation measurement unit 17, i.e., using a 3-dimensional posture information of the head, the user reproduces the eyes and mouth region in the camera image when facing forward and reproduced and length of the image vertical section (Y-direction), the image vertical direction of each part region in the initial state stored in the initial position setting means 13 the ratio of the length determined. この比率が、両目および口がどの程度開閉しているかを示す開閉状態情報となる。 This ratio becomes a close state information indicating whether the eyes and the mouth are what extent opening. 【0134】このように3次元姿勢情報を用いてユーザが正面を向いたときのカメラ画像における両目および口領域を推定しているので、例えば頭部が横や上を向いている画像においても正面を向いた場合の画像を推定でき、2次元画像のみから両目および口の開閉状態をより正確に求めることができる。 [0134] the front in this manner since the user using the 3-dimensional posture information is estimated eyes and mouth region in the camera image when facing forward, for example, the image head is facing alongside or above You can estimate image when facing can be obtained from only two-dimensional image close state of the eyes and mouth more precisely. 【0135】このようにして、求められた頭部の3次元姿勢情報および両目および口の開閉状態情報は、キャラクタ制御装置90に入力される。 [0135] Thus, three-dimensional posture information and the eyes and the open or closed state information of the mouth of the obtained head is input to the character control unit 90. キャラクタ制御装置9 Character control unit 9
0は、入力された頭部の3次元姿勢情報および両目および口の開閉状態情報を用いてCGキャラクタの頭部の動きおよび両目および口の開閉状態を可変制御することで、ビデオカメラ80で撮像した利用者の動き、表情に追従させてCGキャラクタの動き、表情をリアルタイムに変化させる。 0, by variably controlling the opening and closing state of motion and the eyes and mouth of the head of the CG character using the opening and closing state information of the three-dimensional posture information and the eyes and mouth of the input head, captured by the video camera 80 the user's movements, to follow the facial expression of the CG character motion, to change the facial expression in real time. 【0136】 【発明の効果】以上説明したように、この発明によれば、 対象人物を撮像した画像の各画素データをR,G, [0136] As has been described in the foregoing, according to the present invention, each pixel data of an image obtained by imaging an object person R, G,
B成分毎に正規化した後、C1−C2空間のデータを含 After normalizing for each B component, contains the data of the C1-C2 space
む画素データに変換し、これら変換した画素データのC Converted into free pixel data, C of these converted pixel data
1データおよびC2データが所定の肌色抽出パラメータ 1 data and C2 data predetermined skin color extraction parameter
の範囲内に入ると、画素データを肌色画素として判断す Once in the range of, to determine the pixel data as a skin color pixel
ることにより撮像した画像から頭部領域を抽出するよう To extract the head area from the image captured by Rukoto
にしているので、簡易な演算によって肌色成分を極めて Since it is the very skin color components by simple calculation
正確に抽出することができる。 It is possible to accurately extract. したがって、対象人物の Therefore, of the target person
動きに合わせてCGキャラクタの頭部の動きおよび表情 Movements and facial expressions of the head of the CG character according to the movement
を正確に制御することができる。 It can be accurately controlled. また、使用する照明環境下で対象人物(利用者)の肌色をサンプリングし、このサンプリングデータを用いて肌色抽出のための肌色抽出パラメータを調整するようにしているので、任意の照明環境あるいいは利用者毎の個人差に適応して利用者の頭部領域を正確に抽出することができる。 Moreover, sampling the skin color of the target person (user) under the illumination environment to be used, since to adjust the skin color extraction parameters for the skin color extracted using this sampling data, say some arbitrary illumination environment the head region of the user can be accurately extracted to adapt to individual differences for each user. 【0137】 【0138】 【0139】 【0140】 【0141】 【0142】 【0143】 【0144】 【0145】 【0146】 [0137] [0138] [0139] [0140] [0141] [0142] [0143] [0144] [0145] [0146]

【図面の簡単な説明】 【図1】 この発明にかかるリアルタイム表情追跡装置の実施の形態を示すブロック図である。 BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing an embodiment of a real-time facial tracking apparatus according to the present invention. 【図2】 図1のリアルタイム表情追跡装置のキャリブレーションフェーズの動作の概要を説明するためのフローチャートである。 It is a flowchart for explaining the outline of the operation of the calibration phase of the real-time facial tracking device of FIG. 1. FIG. 【図3】 図1のリアルタイム表情追跡装置のトラッキングフェーズの動作の概要を説明するためのフローチャートである。 3 is a flowchart for explaining the outline of the operation of the tracking phase of the real-time facial tracking apparatus of FIG. 【図4】 肌色サンプリングを説明するための図である。 4 is a diagram for explaining a skin color sampling. 【図5】 肌色サンプリング手段および肌色抽出パラメータ調整手段の動作を説明するためのフローチャートである。 5 is a flowchart for explaining the operation of the flesh color sampling means and a skin color extracting parameter adjustment means. 【図6】 肌色領域抽出手段と頭部領域抽出手段9の動作を説明するためのフローチャートである。 6 is a flowchart for explaining the operation of the skin color area extracting means and the head region extraction means 9. 【図7】 肌色領域抽出手段で肌色領域を抽出した結果の一例を示した図である。 7 is a diagram showing an example of a result of extracting skin color region in the skin color region extraction means. 【図8】 膨張マスクおよび収縮マスクを例示する図である。 8 is a diagram illustrating the expansion mask and contraction mask. 【図9】 検出した頭部領域に発生した裂け目を埋める処理を説明するための図である。 9 is a diagram for explaining the process of filling the tear occurring to the detected head region. 【図10】 頭部領域内の全ての穴を埋める論理演算処理を説明するための図である。 10 is a diagram for explaining the logical operation process of filling all the holes in the head region. 【図11】 部位領域候補抽出手段の動作を説明するためのフローチャートである。 11 is a flowchart for explaining the operation of the site region candidate extracting means. 【図12】 適応型ヒストグラム平均化法の欠点であるノイズ発生を抑える処理を説明するための図である。 12 is a diagram for explaining a process of suppressing the noise generation is a disadvantage of the adaptive histogram averaging method. 【図13】 適応型ヒストグラム平均化法を説明するための図である。 13 is a diagram for explaining the adaptive histogram averaging method. 【図14】 適応型ヒストグラム平均化法を説明するための図である。 14 is a diagram for explaining the adaptive histogram averaging method. 【図15】 キャリブレーションフェーズにおける部位検出追跡手段の動作を説明するためのフローチャートである。 15 is a flowchart for explaining the operation of the part detection tracking means in the calibration phase. 【図16】 部位検出手段において両目および口領域を特定する際に用いるマスク領域を示した図である。 16 is a diagram showing a mask region used in identifying eyes and mouth regions in the location detector. 【図17】 キャリブレーションフェーズにおける頭部3次元姿勢・表情計測手段5動作を説明するためのフローチャートである。 17 is a flowchart illustrating a 3D head pose and facial expression measurement means 5 operate in the calibration phase. 【図18】 アフィン基底設定手段で設定する3次元空間上の仮想点を示した図である。 18 is a diagram showing a virtual point in a three-dimensional space to be set in the affine base setting means. 【図19】 頭部移動量推定手段で求める両目の端点および口の中心点の頭部領域の外接矩形に対する相対位置を説明するための図である。 19 is a diagram for explaining the relative position of the center point of the end point and the mouth of the eyes calculated by the head movement amount estimating means for enclosing rectangle of the head region. 【図20】 トラッキングフェーズにおける部位検出追跡手段の動作を説明するためのフローチャートである(その1)。 20 is a flowchart for explaining the operation of the part detection tracking means in the tracking phase (Part 1). 【図21】 トラッキングフェーズにおける部位検出追跡手段の動作を説明するためのフローチャートである(その2)。 FIG. 21 is a flowchart for explaining the operation of the part detection tracking means in the tracking phase (Part 2). 【図22】 部位追跡手段での現フレームにおける部位領域の追跡方法を説明するための図である。 22 is a diagram for explaining a method of tracking site region in the current frame at the site tracking means. 【図23】 検出できなかった部位領域を検出できた部位領域の位置から予測する処理を説明するための図である。 23 is a diagram for explaining a process of predicting the position of the site area can detect site region can not be detected. 【図24】 トラッキングフェーズにおける頭部3次元姿勢・表情計測手段の動作を説明するためのフローチャートである。 24 is a flowchart for explaining the operation of the 3D head pose and facial expression measurement means in the tracking phase. 【図25】 頭部回転量推定手段での左右上下方向の頭部回転量を推定する処理を説明するための図である。 25 is a diagram for explaining the process of estimating the head rotation amount of the horizontal and vertical directions of the head rotation amount estimating means. 【図26】 頭部回転量推定手段において3次元空間上の仮想点(アフィン基底)に対応する対応点を求める処理を説明するための図である。 26 is a diagram for explaining a process for obtaining the corresponding point corresponding to the virtual point in a three-dimensional space in head rotation amount estimating means (affine basis). 【図27】 トラッキングフェーズにおける頭部3次元姿勢・表情計測手段の動作を説明するためのフローチャートである。 27 is a flowchart for explaining the operation of the 3D head pose and facial expression measurement means in the tracking phase. 【図28】 姿勢計測手段での3次元と2次元の対応点から頭部の3次元姿勢情報を求める処理を説明するための図である。 28 is a diagram for explaining a process for obtaining the 3-dimensional posture information of the head from the three-dimensional and two-dimensional corresponding points in attitude measuring unit. 【図29】 姿勢情報を求める際の誤差を補正する処理を説明するための図である。 It is a diagram for explaining a process of correcting an error in determining the Figure 29 orientation information. 【図30】 従来技術を示す図である。 30 is a diagram showing a conventional art. 【符号の説明】 1 映像入力手段、2 頭部領域検出手段、3 部位領域候補抽出手段、4部位検出追跡手段、5 3次元姿勢・表情計測手段、6 肌色サンプリング手段、7 肌色抽出パラメータ調整手段、8 肌色領域抽出手段、9 [Reference Numerals] 1 image input means, 2 a head region detection unit, 3 site region candidate extracting means, 4 part detection tracking means, 5 3-dimensional posture and facial expression measurement means, 6 skin color sampling means, 7 skin color extraction parameter adjusting means , 8 skin color area extracting means, 9
頭部領域抽出手段、10 頭部領域輝度平均化手段、1 Head region extracting means, 10 the head region luminance averaging means, 1
1 画素選別手段、12 部位検出手段、13 初期位置設定手段、14 部位追跡手段、15 アフィン基底設定手段、16 頭部回転量推定手段、17 姿勢計測手段、18 開閉状態計測手段、20 サンプリングウィンドウ、22 膨張マスク、23 収縮マスク、33 1 pixel selection means, 12 location detector, 13 an initial position setting means, 14 parts tracking means, 15 affine base setting means 16 head rotation amount estimating means, 17 position measurement means, 18 closing state measurement means, 20 sampling window, 22 expansion mask, 23 contraction mask, 33
左目マスク、34 右目マスク、35 口マスク、50 Eye mask, 34 right-eye mask, 35-necked mask, 50
移動ベクトル、53矩形領域、57 外接矩形、64 Movement vector, 53 rectangular area 57 circumscribed rectangle, 64
カメラ画像平面、80 ビデオカメラ、90キャラクタ制御装置。 Camera image plane, 80 video cameras, 90 character control device.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開2000−331190(JP,A) 特開 平8−272948(JP,A) 特開 平8−272973(JP,A) 特開 平11−85988(JP,A) 特開 平11−15947(JP,A) (58)調査した分野(Int.Cl. 7 ,DB名) G06T 1/00 340 G06T 7/00 100 G06T 7/20 300 H04N 7/14 JSTPlusファイル(JOIS) ────────────────────────────────────────────────── ─── of the front page continued (56) reference Patent 2000-331190 (JP, a) JP flat 8-272948 (JP, a) JP flat 8-272973 (JP, a) JP flat 11-85988 (JP, a) JP flat 11-15947 (JP, a) (58 ) investigated the field (Int.Cl. 7, DB name) G06T 1/00 340 G06T 7/00 100 G06T 7/20 300 H04N 7 / 14 JSTPlus file (JOIS)

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 人物を撮像した映像から人物の頭部領域 (57) Patent Claims 1. A head region of a person from an image obtained by imaging a person
    を抽出する頭部領域抽出装置において、 対象人物を撮像した画像の各画素データをR,G,B成 In the head area extraction apparatus for extracting the pixel data of an image obtained by imaging an object person R, G, B formed
    分毎に下式 c1=arctan(R/max(G,B)) c2=arctan(G/max(R,B)) c3=arctan(B/max(R,G)) に従って正規化して正規化データc1,c2,c3を取 The formula c1 = arctan per minute (R / max (G, B )) c2 = arctan (G / max (R, B)) c3 = arctan normalized by normalizing according to (B / max (R, G )) retrieve the data c1, c2, c3
    得する正規化手段と、 正規化データc1,c2,c3を含む各画素データを次 A normalizing means for Tokusuru, each pixel data containing normalized data c1, c2, c3 following
    C1=c2/c1 C2=c3/c2 に従ってC1−C2空間のデータを含む画素データに夫 Husband pixel data including the data of the C1-C2 space according to the equation C1 = c2 / c1 C2 = c3 / c2
    々変換するデータ変換手段と、 変換した画素データのC1データおよびC2データが下 A data converting means for people converting, lower C1 data and C2 data of the converted pixel data
    th1<C1<th2 th1,th2;肌色抽出パラメータ th3<C2<th4 th3,th4;肌色抽出パラメータ を満足すると、この画素データを肌色画素として判断す Wherein th1 <C1 <th2 th1, th2 ; skin color extraction parameter th3 <C2 <th4 th3, th4 ; to satisfy the flesh color extraction parameter to determine the pixel data as a skin color pixel
    ることにより、撮像した画像から頭部領域を抽出する頭 Head Rukoto by, extracting the head region from the captured image
    部領域抽出手段と、 を備えたことを特徴とする頭部領域抽出装置。 Head region extraction apparatus characterized by comprising: a part region extraction means. 【請求項2】 当該対象人物を撮像するときと同じ照明 Wherein same illumination as when imaging the target person
    環境下で、対象人物の顔の一部の所定の領域の画像をサ In an environment, support an image of a portion of a predetermined region of the face of the target person
    ンプリングする肌色サンプリング手段と、 該肌色サンプリング手段によってサンプリングした所定 A skin color sampling means for sampling a predetermined sampled by該肌color sampling means
    の領域の画像の各画素データを前記正規化手段を用いて And each pixel data in the area of the image using said normalization means
    正規化した後、前記データ変換手段を用いてC1−C2 After normalization, using said data conversion means C1-C2
    空間の画素データに変換し、該変換した前記所定の領域 Into a space of the pixel data, the predetermined regions the conversion
    の複数の画素データを用いてC1データについての最大 Maximum for the C1 data using a plurality of pixel data
    値および最小値とC2データについての最大値および最 Maximum value for the value and the minimum value and the C2 data and outermost
    小値を求め、これらの最大値および最小値で前記肌色抽 Seek small value, the skin color extraction at these maximum and minimum values
    出パラメータth1、th2、th3およびth4を補 Complement the parameters th1, th2, th3 and th4 out
    正する肌色抽出パラメータ調整手段と、 をさらに備えることを特徴とする請求項1に記載の頭部 Head according to claim 1 in which the skin color extracting parameter adjustment means positively to, further comprising a to
    領域抽出装置。 Region extraction device. 【請求項3】 前記頭部領域抽出手段は、肌色領域抽出 Wherein the head region extracting means, the skin color region extraction
    結果から最大領域を抽出することにより頭部領域を抽出 Extracting the head region by extracting the maximum area from results
    することを特徴とする請求項1または2に記載の頭部領 Head territory of claim 1 or 2, characterized in that
    域抽出装置。 Frequency extraction apparatus. 【請求項4】 前記頭部領域抽出手段は、頭部領域抽出 Wherein said head region extracting means, the head region extracted
    後の2値画像に膨張収縮処理を加えることを特徴とする Characterized in that the addition of expansion and contraction processing to the binary image after
    請求項1〜3のいずれか一つに記載の頭部領域抽出装 Head region extraction instrumentation according to any one of claims 1 to 3
    置。 Location. 【請求項5】 前記頭部領域抽出手段は、前記膨張収縮処理後の2値画像と、画素値が全て肌色に対応する論理値レベルであるマスク画像との排他的論理和を求め、この排他的論理和がとられた画像の頭部領域以外を非肌色に対応する論理値レベルとした画像と前記膨張収縮処理後の2値画像との論理和を求めることで、頭部領域全体を抽出することを特徴とする請求項に記載の頭部領域抽出装置。 Wherein said head region extracting means, the determined and the binary image after the expansion and contraction processing, the exclusive OR of the mask image is a logical value level pixel values ​​corresponding to all the skin color, the exclusive by obtaining the logical sum of the binary image after the expansion and contraction processing and image a logical value level logical sum corresponds to the non-skin-color other than the head area of ​​the image taken, extracted the entire head region head region extraction apparatus according to claim 4, characterized in that. 【請求項6】 順次所定のフレームレートで入力される Entered in 6. sequential predetermined frame rate
    映像をキャプチャする映像入力手段と、 前記キャプチャした画像から頭部画像を抽出する頭部領 Video input means for capturing an image, the head territory of extracting head image from the captured image
    域抽出手段と、 前記抽出した頭部領域から両目および口を含む各部位の A frequency extracting means, from the head region of each site comprising eyes and mouth and the extracted
    候補領域を抽出する部位領域候補抽出手段と、 抽出した候補領域の中から各部位の位置を検出する部位 Site for detecting the part region candidate extracting means for extracting a candidate region, the position of each part from the extracted candidate areas
    検出追跡手段と、 前記検出した両目、口の検出位置に基づいて頭部の3次 A detection tracking means, the detected eyes, 3 of the head based on the detected position of the mouth-order
    元姿勢を計測するとともに、両目および口の開閉状態を With measuring the original position, the opening and closing states of the eyes and mouth
    計測する頭部3次元姿勢・表情計測手段とを備え、前記 And a head 3-dimensional posture and facial expression measurement means for measuring, the
    計測した頭部の3次元姿勢および両目および口の開閉状 Closing like 3-dimensional posture and eyes and mouth of the measured head
    態に基づいてCGキャラクタの動きを制御するリアルタ Real controlling the movement of the CG character based on state
    イム表情追跡装置であって、 前記頭部領域抽出手段は、 対象人物を撮像した画像の各画素データをR,G,B成 A im facial tracking device, the head region extracting means, each pixel data of an image obtained by imaging an object person R, G, B formed
    分毎に下式 c1=arctan(R/max(G,B)) c2=arctan(G/max(R,B)) c3=arctan(B/max(R,G)) に従って正規化して正規化データc1,c2,c3を取 The formula c1 = arctan per minute (R / max (G, B )) c2 = arctan (G / max (R, B)) c3 = arctan normalized by normalizing according to (B / max (R, G )) retrieve the data c1, c2, c3
    得する正規化手段と、 正規化データc1,c2,c3を含む各画素データを次 A normalizing means for Tokusuru, each pixel data containing normalized data c1, c2, c3 following
    C1=c2/c1 C2=c3/c2 に従ってC1−C2空間のデータを含む画素データに夫 Husband pixel data including the data of the C1-C2 space according to the equation C1 = c2 / c1 C2 = c3 / c2
    々変換するデータ変換手段と、 変換した画素データが下式 th1<C1<th2 th1,th2;肌色抽出パラメータ th3<C2<th4 th3,th4;肌色抽出パラメータ を満足すると、この画素データを肌色画素として判断す A data converting means for people converting the converted pixel data is the following formula th1 <C1 <th2 th1, th2 ; skin color extraction parameter th3 <C2 <th4 th3, th4 ; to satisfy the flesh color extraction parameter, the pixel data as a skin color pixel It is judged
    ることにより、撮像した画像から肌色領域を抽出する肌 Skin Rukoto by extracts a skin color region from the captured image
    色領域抽出手段と、 を備えたことを特徴とするリアルタイム表情追跡装置。 Real-time facial tracking apparatus comprising: the color region extracting means. 【請求項7】 当該対象人物を撮像するときと同じ照明 7. same illumination as when imaging the target person
    環境下で、対象人物の顔の一部の所定の領域の画像をサ In an environment, support an image of a portion of a predetermined region of the face of the target person
    ンプリングする肌色サンプリング手段と、 該肌色サンプリング手段によってサンプリングした所定 A skin color sampling means for sampling a predetermined sampled by該肌color sampling means
    の領域の画像の各画素データを前記正規化手段を用いて And each pixel data in the area of the image using said normalization means
    正規化した後、前記データ変換手段を用いてC1−C2 After normalization, using said data conversion means C1-C2
    空間の画素データに変換し、該変換した前記所定の領域 Into a space of the pixel data, the predetermined regions the conversion
    の複数の画素データを用いてC1データについての最大 Maximum for the C1 data using a plurality of pixel data
    値および最小値とC2データについての最大値および最 Maximum value for the value and the minimum value and the C2 data and outermost
    小値を求め、これらの最大値および最小値で前記肌色抽 Seek small value, the skin color extraction at these maximum and minimum values
    出パラメータth1、th2、th3およびth4を補 Complement the parameters th1, th2, th3 and th4 out
    正する肌色抽出パラメータ調整手段と、 をさらに備えることを特徴とする請求項6に記載のリア The rear of claim 6, the skin color extraction parameter adjustment means positively to, further comprising a
    ルタイム表情追跡装置。 -Time facial expression tracking device. 【請求項8】 前記頭部領域抽出手段は、前記肌色領域 Wherein said head region extracting means, wherein the skin color area
    抽出手段による肌色領域抽出結果から最大領域を抽出す To extract maximum area from the skin color region extraction result by the extracting means
    ることにより頭部領域を抽出することを特徴とする請求 Claims and extracting the head region by Rukoto
    項6または7に記載のリアルタイム表情追跡装置。 Real-time facial tracking device according to claim 6 or 7. 【請求項9】 前記頭部領域抽出手段は、前記肌色領域 Wherein said head region extracting means, wherein the skin color area
    抽出手段による肌色領域抽出後の2値画像に膨張収縮処 Expansion and contraction processing to the binary image after the skin color region extraction by the extraction means
    理を加えることを特徴とする請求項6〜8のいずれか一 One claim 6-8, characterized in that the addition of physical
    つに記載のリアルタイム表情追跡装置。 Real-time facial tracking apparatus according to One. 【請求項10】 前記頭部領域抽出手段は、前記膨張収縮処理後の2値画像と、画素値が全て肌色に対応する論理値レベルであるマスク画像との排他的論理和を求め、 Wherein said head region extraction means obtains the binary image after the expansion and contraction processing, the exclusive OR of the mask image is a logical value level pixel values ​​for all skin tone,
    この排他的論理和がとられた画像の頭部領域以外を非肌色に対応する論理値レベルとした画像と前記膨張収縮処理後の2値画像との論理和を求めることで、頭部領域全体を抽出することを特徴とする請求項に記載のリアルタイム表情追跡装置。 By obtaining the logical sum of the binary image after the exclusive image and the expansion and contraction processing the logical value levels of the logical sum corresponding to the non-skin-color other than the head area of ​​the image taken, the entire head region Real-time facial tracking device according to claim 9, characterized in that the extract.
JP2001304116A 2001-09-28 2001-09-28 Head region extraction device and real-time facial tracking device Expired - Fee Related JP3432816B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001304116A JP3432816B2 (en) 2001-09-28 2001-09-28 Head region extraction device and real-time facial tracking device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001304116A JP3432816B2 (en) 2001-09-28 2001-09-28 Head region extraction device and real-time facial tracking device

Publications (2)

Publication Number Publication Date
JP2003108980A true JP2003108980A (en) 2003-04-11
JP3432816B2 true JP3432816B2 (en) 2003-08-04

Family

ID=19124088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001304116A Expired - Fee Related JP3432816B2 (en) 2001-09-28 2001-09-28 Head region extraction device and real-time facial tracking device

Country Status (1)

Country Link
JP (1) JP3432816B2 (en)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4479194B2 (en) 2003-08-29 2010-06-09 富士ゼロックス株式会社 Operation identification device, and orientation identification device of the object
JP3879732B2 (en) 2003-11-27 2007-02-14 コニカミノルタホールディングス株式会社 Object detection device, an object detection method, and computer program
JP4540456B2 (en) * 2004-12-01 2010-09-08 三菱電機ビルテクノサービス株式会社 Suspicious person detection device
JP4516516B2 (en) * 2005-12-07 2010-08-04 本田技研工業株式会社 Human detection device, human detection method and the person detecting program
JP4972013B2 (en) * 2008-02-28 2012-07-11 日本電信電話株式会社 Information presentation apparatus, an information presentation method, the information presentation program and recording medium recording the program
US20100322300A1 (en) * 2008-03-18 2010-12-23 Zhen Li Method and apparatus for adaptive feature of interest color model parameters estimation
JP2010033220A (en) * 2008-07-28 2010-02-12 Fujifilm Corp Skin color model generation device, method, and program
JP2010033221A (en) * 2008-07-28 2010-02-12 Fujifilm Corp Skin color detection apparatus, method, and program
JP2010122879A (en) 2008-11-19 2010-06-03 Sony Ericsson Mobile Communications Ab Terminal device, display control method, and display control program
JP5087532B2 (en) 2008-12-05 2012-12-05 ソニーモバイルコミュニケーションズ株式会社 Terminal, a display control method and a display control program
JP5538909B2 (en) * 2010-01-05 2014-07-02 キヤノン株式会社 Detection apparatus and method thereof
JP5834253B2 (en) 2013-03-27 2015-12-16 パナソニックIpマネジメント株式会社 Image processing apparatus, image processing method, and image processing program
JP5849206B2 (en) 2013-03-27 2016-01-27 パナソニックIpマネジメント株式会社 Image processing apparatus, image processing method, and image processing program
JP5899475B2 (en) 2013-04-05 2016-04-06 パナソニックIpマネジメント株式会社 Image processing apparatus, image processing method, and image processing program
US9971411B2 (en) 2013-12-10 2018-05-15 Htc Corporation Method, interactive device, and computer readable medium storing corresponding instructions for recognizing user behavior without user touching on input portion of display screen
JP6045625B2 (en) * 2015-03-20 2016-12-14 株式会社Pfu Image processing apparatus, the region detecting method and computer program

Also Published As

Publication number Publication date Type
JP2003108980A (en) 2003-04-11 application

Similar Documents

Publication Publication Date Title
US6301370B1 (en) Face recognition from video images
US6757444B2 (en) Image extraction apparatus and method
Chen et al. A highly accurate and computationally efficient approach for unconstrained iris segmentation
US7057636B1 (en) Conferencing system and method for the automatic determination of preset positions corresponding to participants in video-mediated communications
US20110254950A1 (en) Visual tracking of objects in images, and segmentation of images
US20120075331A1 (en) System and method for changing hair color in digital images
US20070126921A1 (en) Adjusting digital image exposure and tone scale
US6278460B1 (en) Creating a three-dimensional model from two-dimensional images
EP0967574A2 (en) Method for robust human face tracking in presence of multiple persons
US6181806B1 (en) Apparatus for identifying a person using facial features
US20050271264A1 (en) Three-dimensional image measuring apparatus and method
US6768509B1 (en) Method and apparatus for determining points of interest on an image of a camera calibration object
US20110176722A1 (en) System and method of processing stereo images
US20070121094A1 (en) Detecting objects of interest in digital images
Izquierdo Disparity/segmentation analysis: Matching with an adaptive window and depth-driven segmentation
US20030146901A1 (en) Eye tracking using image data
US20110299774A1 (en) Method and system for detecting and tracking hands in an image
US20100128927A1 (en) Image processing apparatus and image processing method
JPH11250267A (en) Method and device for detecting position of eye and record medium recording program for detecting position of eye
US20090196475A1 (en) Automatic mask design and registration and feature detection for computer-aided skin analysis
JPH09251534A (en) Device and method for authenticating person
US20120313937A1 (en) Coupled reconstruction of hair and skin
US20090010546A1 (en) Edge-Guided Morphological Closing in Segmentation of Video Sequences
JP2000339468A (en) Method and device for positioning three-dimensional data
JPH10233929A (en) Image processor and image processing method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080523

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090523

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100523

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees