JP5153434B2 - Information processing apparatus and information processing method - Google Patents

Information processing apparatus and information processing method Download PDF

Info

Publication number
JP5153434B2
JP5153434B2 JP2008111843A JP2008111843A JP5153434B2 JP 5153434 B2 JP5153434 B2 JP 5153434B2 JP 2008111843 A JP2008111843 A JP 2008111843A JP 2008111843 A JP2008111843 A JP 2008111843A JP 5153434 B2 JP5153434 B2 JP 5153434B2
Authority
JP
Japan
Prior art keywords
face
step
example
unit
mouth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008111843A
Other languages
Japanese (ja)
Other versions
JP2009265774A (en
Inventor
崇士 鈴木
克彦 森
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Priority to JP2008111843A priority Critical patent/JP5153434B2/en
Publication of JP2009265774A publication Critical patent/JP2009265774A/en
Application granted granted Critical
Publication of JP5153434B2 publication Critical patent/JP5153434B2/en
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置及び情報処理方法に関する。 The present invention relates to an information processing apparatus and an information processing method.

顔画像による個人認識は、指紋認識或いは静脈認識と比較して、非接触で行え、かつ、使用者に犯罪捜査等のマイナスイメージを与えない認識技術として注目されている。 Personal recognition by the face image, compared with fingerprint recognition or vein recognition, performed in a non-contact, and has attracted attention as a recognition technique which does not give negative image such as a criminal investigation to the user. 顔認識技術では、予め認識対象となる人物の顔画像より特徴量を抽出し、生成される辞書データを基にして行う。 The face recognition technology, the feature quantity extracted from a face image of a person to be previously recognized, performing dictionary data generated based on. したがって、その識別能力は、辞書データの顔画像の照明状況、又は姿勢変動に依存する。 Therefore, the identification capability is dependent lighting conditions of the dictionary face image, or the posture variation.

また、顔認識技術では、被認識者と十分な距離がある場合の認識も可能であるので、オープンな環境下での複数人同時の認識システムの実現が期待されている。 Also, in the face recognition technology, since it is also possible recognition when there is sufficient distance and the perceiver, realization of a plurality of persons simultaneous recognition system under open environment is expected. ここで、オープンな環境とは、被認識者に立ち位置の指定、撮像装置への正対指定、照明条件の適正化、又は表情の指定といった制約条件を課さない一般的な環境下のことである。 Here, an open environment, the designated position standing the perceiver, directly facing designated to the imaging apparatus, optimize the lighting conditions, or that of a typical environment that does not impose constraints such specified expression is there. つまり、顔認識技術は、サイズ変動、姿勢変動、照明変動又は表情変動といった変動に対して、頑健さが必要である。 In other words, the face recognition technology, size variations, attitude change, to variations such as illumination variation or expression variations, it is necessary robustness.

これらのことから顔認識技術では、辞書データ作成時に様々な変動の画像を取得し、変動を許容する仕組みを導入している(非特許文献1参照)。 The face recognition technology From these, (see Non-Patent Document 1) which dictionary to retrieve the images of various fluctuations during data creation, it introduces a mechanism that allows variation. より具体的に説明すると、例えば姿勢変動を許容する辞書データを構築したい場合、登録者が様々な姿勢状態である画像を複数取得することで、前述した目的を達成する。 To be more specific, for example, when you want to build a dictionary data that allows the posture variation, that registrant acquires a plurality of images is a different posture state, to achieve the object mentioned above. また、姿勢変動以外に表情変動や照明変動を許容する場合も同様の考えで対応する。 Further, corresponding with the same idea may permit expression change and illumination variations besides posture variation.

また、特許文献1の技術では、予め複数の任意画像より照明変動を除去する知識を学習により獲得する。 Further, in the technique of Patent Document 1, it is acquired by learning knowledge of removing previously illumination variation of a plurality of arbitrary images. そして、特許文献1の技術では、学習によって得られた照明変動に係る知識に基づいて、入力画像及び辞書画像より照明変動の影響がない特徴量を抽出し、比較照合する技術が開示されている。 Then, in the technique of Patent Document 1, based on knowledge of the illumination variation obtained by learning, it extracts the feature amount of no effect illumination variations from the input image and dictionary image, comparing and collating discloses a technique .

更に、特許文献2では、入力画像と辞書画像とにおける顔解像度の相違による精度の不安定化を防止する技術が開示されている。 Further, Patent Document 2, a technique for preventing the destabilization of accuracy due to differences in the facial resolution of the input image and dictionary images is disclosed. より具体的に説明すると、特許文献2の技術では、例えば目の中心位置を基準として画像を規格化し、解像度を同一にすることで安定化を図っている。 To be more specific, in the technique of Patent Document 2, for example, the center position of the eye images normalized basis, is to stabilize by the resolution to the same.

更に、特許文献3では、一連の画像より姿勢変動や表情変動に関する特徴量を抽出し、その特徴量が認識処理に適正であるかどうかの判定を行い、適正であると判定された画像のフレームを用いて、認識する技術が開示されている。 Further, in Patent Document 3, a feature quantity extracted regarding the attitude change and the expression change of a series of images, the feature amount is performed to determine whether a proper recognition processing is determined to be a proper image frame using recognized techniques have been disclosed. なお、適正であると判定された画像のフレームとは、被写体が撮像装置に対して正対している、又は目を不自然な形式で開けていない画像のことである。 Note that the frame of the determined image to be appropriate, it is that the subject is an image that is not opened, which directly faces or eyes with unnatural form to the imaging apparatus.

特開2004−145576公報 JP 2004-145576 Laid 特開2005−084979公報 JP 2005-084979 Laid 特開平6−259534公報 Hei 6-259534 Publication

特許文献1は、変動に対する認識精度の安定化を目的として、学習により変動パターンの知識を獲得する手段と、変動を規格化する手段と、を用いることで対処している。 Patent Document 1, for the purpose of stabilization of the recognition accuracy for variations has addressed by using a means for acquiring the knowledge of the variation pattern, and means for normalizing the change, the by learning. しかし、変動パターンの知識を学習により網羅的に獲得することは、大量のデータが必要となり、現実的に困難である。 However, be comprehensively acquired by learning the knowledge of the fluctuation pattern, a large amount of data is required, it is practically difficult.

また、特許文献2は、変動に対する認識精度の安定化を目的として、変動を規格化する手段を用いることで対処している。 Further, Patent Document 2, for the purpose of stabilization of the recognition accuracy for variations has addressed by using a means for normalizing the change. しかし、変動パターン、例えば姿勢(2次元画像において)、又は表情の規格化は困難であり、規格化処理の精度により認識精度の劣化が問題となる。 However, the variation pattern, for example, the posture (in a two-dimensional image), or the expression normalization is difficult, deterioration in recognition accuracy by the accuracy of the normalization process is a problem.

また、特許文献3は、一連の画像より、変動が小さい複数の有効フレームを抽出し、抽出した複数の有効フレームにより認識するものである。 Further, Patent Document 3, of a series of the image, and recognizing a plurality of valid frames variation multiple extracts valid frame small extracted. 特許文献3は、一連の画像より、変動が小さい有効フレームが複数取得できるという前提の上で成り立っている。 Patent Document 3, of a series of images, the variation is small valid frame is composed on the assumption that more can be obtained. しかし、オープンな環境下での顔認識システムは、必ずしもそのような前提条件が成立するとは限らない。 However, face recognition system under an open environment, not necessarily that such a precondition is met. よって、一般環境下での顔認識システムを実現する上で、特許文献3は不十分である。 Therefore, in order to realize the face recognition system in the general environment, patent document 3 is insufficient.

よって、前述した従来技術では、オープンな撮影環境下における姿勢変動、又は表情変動といった前述した変動パターンに対する対策が不十分である。 Therefore, in the conventional art described above, the posture variation under open shooting environment, or measures against variation pattern as described earlier such as facial expression variation is insufficient.

本発明はこのような問題点に鑑みなされたもので、変動が存在する画像が入力された場合であっても、精度のよい、安定した物体認識を実現することを目的とする。 The present invention has been made in view of such problems, even if the change has been input image existing, good accuracy, and to realize a stable object recognition.

そこで、本発明は、 物体を含む時系列画像を受け取る受け取り手段と、前記時系列画像の各画像より前記物体に関する複数の特徴点を抽出する特徴点抽出手段と、 前記特徴点抽出手段で抽出された複数の特徴点に基づいて前記物体の表情の判定を行う表情判定手段と、前記表情判定手段で前記物体に表情があると判定された場合、前記表情に応じて、前記特徴点抽出手段で抽出された複数の特徴点の座標値に基づいて複数の領域を設定し、前記設定した領域の配置情報又は形状情報を含む特徴ベクトルを生成し、前記特徴ベクトルと、物体に関する辞書データと、を照合し、照合結果の信頼度を算出する照合手段と、 前記各画像について前記照合手段で算出された信頼度を前記時系列画像の複数の画像にわたって累積して前記物体に関する照 Accordingly, the present invention includes a receiving means for receiving the time-series images containing an object, a feature point extracting means for extracting a plurality of feature points regarding the object from each image of the time-series images, extracted by the feature point extracting means a facial expression determining means for determining the expression of the object based on the plurality of feature points, the facial expression determination if the facial expression to the object is determined is means, in accordance with the expression, in the feature point extracting means based on the coordinate values of the extracted plurality of feature points set a plurality of regions, and generates a feature vector including the arrangement information or shape information of said set region, and the feature vector, and dictionary data relating to an object, the collating the collation means for calculating the reliability of the verification result, the accumulated to a reliability calculated by said matching means for each image over a plurality of images of the time-series image irradiation relating to the object 結果信頼度に係る累積値を算出する累積値算出手段と、前記累積値算出手段で算出された前記累積値に基づいて前記照合手段での照合結果を出力するか否かを判定する出力判定手段と、を有することを特徴とする。 A cumulative value calculating means for calculating a cumulative value according to the result of the reliability, output determination determines whether to output a matching result in the matching unit based on the cumulative value calculated by the cumulative value calculation means and having a means.

本発明によれば、変動が存在する画像が入力された場合であっても、精度のよい、安定した物体認識を実現することができる。 According to the present invention, even when a variation has been input image present, it is possible to realize good accuracy, a stable object recognition.

以下、本発明の実施形態について図面に基づいて説明する。 Hereinafter, it will be described with reference to the drawings an embodiment of the present invention.

<第1の実施形態> <First embodiment>
図1は、情報処理装置(コンピュータ)の一例である物体認識装置のハードウェア構成の一例を示す図である。 Figure 1 is a diagram illustrating an example of a hardware configuration of an object recognition apparatus which is an example of an information processing apparatus (computer). 図1に示されるように、物体認識装置は、撮像部100と、制御部101と、顔検出部102と、特徴抽出部103と、顔照合部104と、辞書データDB部105と、を含む。 As shown in FIG. 1, the object recognition device includes an imaging unit 100, a control unit 101, a face detection unit 102, a feature extraction unit 103, a face collation section 104, a dictionary data DB 105, the . また、物体認識装置は、累積信頼度算出部106と、出力判定部107と、記憶部108と、表示部109と、を更に含む。 Also, the object recognition apparatus further comprises a cumulative reliability calculation unit 106, an output judging section 107, a storage unit 108, a display unit 109, a.

撮像部100は、制御部101からの制御信号に基づいて、画像を撮像し、入力画像データ(物体を含む時系列画像)を取得する(又は時系列画像受け取り)。 Imaging unit 100, based on a control signal from the control unit 101 captures an image, and acquires the input image data (time-series image including an object) (or chronological image receiving). 制御部101は全体の制御を行い、撮像部100、顔検出部102、特徴抽出部103、顔照合部104、累積信頼度算出部106、出力判定部107、記憶部108、表示部109に接続されている。 The control unit 101 performs the overall control, the imaging unit 100, face detecting unit 102, the feature extraction unit 103, a face collation section 104, the cumulative reliability calculation unit 106, the output determination unit 107, a storage unit 108, connected to the display unit 109 It is. なお、撮像部100は、物体認識装置に外部接続されているようにして、物体認識装置が撮像部100より入力画像データを受け取る構成としてもよい。 The imaging unit 100, as is externally connected to the object recognition apparatus may be configured to object recognition device receives input image data from the imaging unit 100.

顔検出部102は、撮像部100で取得した画像データより顔領域を抽出する。 The face detection unit 102 extracts from the face region image data acquired by the imaging unit 100. 顔検出部102は、顔の位置、顔の個数、顔のサイズ、向きを検出し、顔領域周辺の画像(顔領域画像)を切り出し、切り出した顔領域画像を特徴抽出部103に出力する。 The face detection unit 102, the position of the face, the number of faces, the face size, and detect the orientation, cut out image (face area image) near the face region, and outputs the cut-out face region image feature extraction unit 103. 顔検出部102の処理内容については、後述する。 The processing contents of the face detection unit 102 will be described later. 特徴抽出部103は、顔検出部102で切り出された顔領域画像に対し、目、鼻、又は口等の顔の部位の座標値を抽出する。 Feature extraction unit 103 informs the clipped facial area image in the face detecting section 102 extracts eyes, nose, or the coordinate values ​​of the face part of the mouth or the like. 顔照合部104は、特徴抽出部103で抽出された情報と、辞書データDB部105の辞書データと、を基に、照合を行い、検出された顔が誰のものであるかの判定を行う。 Face recognition unit 104 performs the information extracted by the feature extraction unit 103, the dictionary data dictionary data DB 105, based on, collates, and determines whether the detected face is Whose . 累積信頼度算出部106は、顔照合部104の照合結果を基に、一連の画像に対して、例えば照合類似度等の値の累積値を算出する(累積値算出)。 Cumulative reliability calculation unit 106, based on the collation result of the face collation section 104, for a series of images, for example, to calculate the cumulative value of the values ​​of the matching similarity, etc. (cumulative value calculation). 出力判定部107は、累積値を予め定められた閾値と比較することで、照合結果の出力判定を行う。 Output determination unit 107, by comparing a predetermined threshold the accumulated value, to output the determination result of matching. 記憶部108は、取得した入力画像データや各構成要素の中間的出力値等を記録する。 Storage unit 108 records the intermediate output value or the like of the acquired input image data and the respective components. 表示部109は、CRTやLCD等であり、撮像部100で撮像された入力画像、又は種々の演算結果を表示する。 Display unit 109 is a CRT or LCD, and displays an input image, or various operation results obtained by the image pickup section 100.

図2は、第1の実施形態における物体認識装置の全体処理の一例を示すフローチャートである。 Figure 2 is a flow chart showing an example of the overall processing of the object recognition device of the first embodiment.
ステップS200において累積信頼度算出部106は、累積信頼度の初期化処理を行う。 Cumulative reliability calculation unit 106 in step S200 performs initialization processing of the accumulated reliability. ステップS201において、顔検出部102は、顔を含む画像データを撮像部100より受け取る。 In step S201, the face detection unit 102 receives from the imaging unit 100 the image data including the face. 次に、ステップS202において、顔検出部102は、入力画像データより顔を検出する処理(顔検出処理)を行う。 Next, in step S202, the face detection unit 102 performs a process of detecting a face from the input image data (face detection process). 顔検出処理に関する詳細は後述する。 For more information on the face detection processing will be described later.

なお、顔を検出する方法としては、ユーザがポインティングデバイス等を用いて指定した顔領域の情報を顔検出部102が受け取る構成としてもよい。 As a method for detecting a face, it may be configured that the user face detection unit 102 receives the information of the specified face area using a pointing device or the like. また、顔検出部102は、顔検出テンプレート等のフィルタを用いて顔を検出してもよい。 The face detecting unit 102 may detect a face by using a filter such as a face detection template. 但し、本実施形態では顔検出部102は、ニューラルネットワークベースの顔検出技術を用いて顔検出を行うものとする。 However, the face detection unit 102 in the present embodiment, it is assumed that the face detection using a neural network-based face detection technique. ここで、本実施形態における顔検出部102におけるニューラルネットワークを用いた顔検出処理の一例を、図3を用いて説明する。 Here, an example of the face detection processing using a neural network in the face detection unit 102 in this embodiment will be described with reference to FIG.

図3は、ニューラルネットワークを用いた顔検出部102における顔検出処理の一例を説明するための図である。 Figure 3 is a diagram for explaining an example of the face detection processing in the face detection unit 102 using a neural network. 図3に示されるように、本実施形態で用いる顔検出に係るニューラルネットワークは、階層的構造をとり、低次特徴から高次特徴まで、順次認識する処理工程をとる。 As shown in FIG. 3, the neural network according to face detection used in this embodiment, it takes a hierarchical structure, the low-level features to high-order features, taking sequential recognizing process. つまり、第1階層レベル301では検出層において入力画像データ300からプリミティブな特徴(例えばエッジ)を抽出し、統合層において統合された結果を用い、第2階層レベル302でより高次の特徴(例えば目・口を構成するエッジ)を検出する。 That is, first extracts the input in a hierarchical level detection layer in 301 image data 300 from the primitive feature (eg edges), using the result of the integration in the integration layer, higher order features in the second hierarchical level 302 (e.g. to detect the edge) that make up the eyes and mouth. 同様に、第3階層レベル303では第2階層レベル302の統合結果を用いて高次特徴を検出する。 Similarly, to detect the high-level features using the integration results of the third hierarchical level 303 second hierarchical level 302. 最後に、第4階層レベル304で第3階層レベル303の統合結果を用いて顔を検出する。 Finally, detecting a face using a fourth hierarchical level 304 integrates the results of the third hierarchical level 303.

次に、顔検出処理で検出される特徴について図4を用いて説明する。 Next, will be described with reference to FIG feature detected by the face detection process. 図4は、顔検出処理で検出される特徴を説明するための図である。 Figure 4 is a diagram for explaining the characteristics detected by the face detection process.
ここで、顔検出処理を説明する上で必要となる人間の顔は、図4(a)のモデル顔とする。 Here, the human face to be required for explaining the face detection processing, a model face of FIG. 4 (a). なお、以後、顔に関する記述は、図4(a)のモデル顔を用いて説明する。 Incidentally, hereinafter, description of the face will be explained using a model face of FIG. 4 (a).
本実施形態では、顔検出処理に伴い、顔検出部102は、両目の目頭及び目尻・口両端・目・口の特徴近辺においてニューロンの発火分布を取得する。 In the present embodiment, along with the face detection processing, the face detection unit 102 obtains the firing distribution of neurons in the feature around the inner corner and the outer or mouth ends, the eyes and mouth of the eyes. これらを中間出力分布或いは検出出力分布と呼ぶ。 These are referred to as intermediate output distribution or detection output distribution. 第1階層レベル301は、顔の造作を保存する最も低次の特徴を検出する(本実施形態で用いる顔検出ニューラルネットワークは、第1階層レベルにおいて第1から第8までの8つの検出部を有する)。 The first hierarchical level 301, the face detection neural network used in the lowest order, wherein detecting the (present embodiment stores the facial features, eight detector from the first in the first hierarchical level to the eighth a). 第1階層レベル301における特徴の検出は、例えば、輝度変化或いは線分方向の抽出程度の検出レベルでよい。 Feature detection in the first hierarchical level 301 may be, for example, a detection level of the brightness degree change or line segment direction extraction.

次に第2階層レベル302は、図4(b)の右開きV字エッジ検出出力分布、図4(c)の左開きV字エッジ検出出力分布、図4(d)の線分エッジ1検出出力分布、図4(e)の線分エッジ2検出出力分布、等の出力分布を出力する。 Then the second level 302, right-open V-shaped edge detection output distribution of FIG. 4 (b), the left-open V-shaped edge detection output distribution in FIG. 4 (c), the line segment edge 1 detection shown in FIG. 4 (d) power distribution, and outputs a line segment edge 2 detection output distribution, power distribution etc. in FIG. 4 (e). ここで、図4(b)の右開きV字エッジ検出出力分布(黒領域がV字エッジの検出出力分布を示し、灰色線分が顔の部位を示している)は、左目目尻、右目目頭、眉毛の左端及び口の左端が検出された結果を示している。 Here, the right-open V-shaped edge detection output distribution in Figure 4 (b) (black area shows the detection output distribution of the V-shaped edge, gray line indicates the site of the face) is, left eye area, eye inner corner shows the results of left is detected at the left end and mouth of eyebrows. 402〜407についても同様に、検出出力分布は黒領域で示され、顔造作は灰色線分で示されている。 Similarly, for 402 to 407, the detection output distribution is shown by black region, face features are indicated in gray line. このように、V字エッジ特徴は口の左右両端特徴408及び409、両目の目尻特徴410及び411、又は両目の目頭特徴412及び413、眉毛418の端を検出するのに有効である。 Thus, V-shaped edge feature mouth of the left and right end features 408 and 409, both eyes outer canthus features 410 and 411 or both eyes of inner canthus features 412 and 413, is effective to detect the end of eyebrow 418. また、線分エッジ1及び線分エッジ2は、目の上下まぶた414及び415又は上下唇416及び417の検出に有効である。 Further, the line segment edge 1 and line segment edge 2 is effective for the detection of eye of the upper and lower eyelids 414 and 415 or the upper and lower lips 416 and 417.

次に、第3階層レベル303は、第2階層レベル302の特徴検出を受けて図4(f)の目検出出力分布及び図4(g)の口検出出力分布406を出力する。 Next, the third hierarchical level 303, outputs the mouth detection output distribution 406 of receiving a feature detection of the second hierarchical level 302 4 eyes detection output distribution and 4 (f) (g). 最後の第4階層レベル304は、第3階層レベル303の目及び口検出結果より、図4(h)の顔検出出力分布を出力する。 The last fourth hierarchical level 304, from the eyes and mouth detection result of the third hierarchical level 303, and outputs face detection output distribution in Figure 4 (h). このとき、第4階層レベル304の顔検出層における顔の検出に使用する受容野構造として、各サイズや各回転量に適したものを用意しておく。 At this time, as the receptive field structure used for the detection of the face in the face detection layer of the fourth hierarchical level 304, it is prepared to be suitable for each size and each amount of rotation. 顔検出処理において、顔が存在するという結果を得たときに、どの受容野構造を用いて検出したかによって、顔検出部102は、その顔の大きさや向き等の顔データを得ることができる。 In face detection processing, when obtaining the result that there is a face, depending on whether detected using any receptive field structure, the face detection unit 102 can obtain the face data size and orientation, etc. of the face .
以上が顔検出ニューラルネットワークを用いたステップS202の処理で生成される一連の検出出力分布である。 Over a series of detection output distributions generated by the processing in step S202 using the face detection neural network.

なお、ステップS201における顔検出手法は、前述した方式に限定するものではなく、例えばEigen Face等の方法を用いてもよい。 Note that the face detection method in step S201 is not limited to method described above may be used, for example methods Eigen Face like.
更に、ステップS202において、顔検出部102は、顔検出処理で取得した顔の大きさを用いて、顔領域周辺の顔領域画像を切り出す。 Further, in step S202, the face detection unit 102 uses the magnitude of the acquired face by the face detection processing, cut out a face region image of the peripheral face area. 顔検出部102は、ステップS203の判定においてOKと判定した場合、切り出した顔領域画像を特徴抽出部103へ出力する。 The face detection unit 102, when it is determined that OK is determined in step S203, outputs the cut-out face region images to the feature extraction unit 103.

ステップS204において、特徴抽出部103は、目、口及び鼻等の顔を構成する部位の特徴点を抽出し、座標値を算出する。 In step S204, the feature extraction unit 103, the eyes, and extracts feature points of the parts constituting the face such as the mouth and nose, to calculate the coordinate value. なお、目、口及び鼻の特徴点の抽出方法は、顔部位のテンプレートをスキャンして求めるテンプレートマッチング等の技術を応用したものであってもよいが、本実施形態では、図4(f)の目検出出力分布及び図4(g)の口検出出力分布を用いて行うものとする。 Incidentally, the eyes, the extraction method of the mouth and nose of the feature points, which may be an application of the technique of template matching or the like that obtained by scanning the template of the face region, in this embodiment, FIG. 4 (f) It shall be performed using the output distribution of eye detection and mouth detection output distribution in Figure 4 (g). より具体的に説明すると、特徴抽出部103は、各検出出力分布に対し重心を算出し、各重心の座標値を特徴点の座標値とする。 More specifically, the feature extraction unit 103 calculates the center of gravity for each detection output distribution, and the coordinate values ​​of the feature point coordinates of each centroid. なお、このとき、特徴抽出部103は、予め定められた閾値で各検出出力分布を2値化し、2値化した分布に対して重心を算出してもよい。 At this time, the feature extraction unit 103 binarizes the respective detection output distribution with a predetermined threshold value, it may calculate the center of gravity with respect to binarized distribution.

図5は、特徴抽出部103が抽出した特徴点の一例を示す図である。 Figure 5 is a diagram illustrating an example of feature points feature extraction unit 103 has extracted. 図5において、目、口又は鼻といった部位上に存在する黒点が各部位の特徴点である。 5, eyes, black spot present on the site such as the mouth or nose is a characteristic point of each part. 抽出特徴点の呼称は、右目特徴点500、左目特徴点501、鼻特徴点502及び口特徴点503とする。 Designation of the extraction feature points right feature point 500, the left eye feature point 501, and a nose feature point 502 and mouth feature point 503.

次に、ステップS205において、特徴抽出部103は、ステップS204で抽出した特徴点(特徴点の座標値)の配置関係をチェックする。 Next, in step S205, the feature extraction unit 103 checks the positional relationship between feature points extracted in step S204 (the coordinate values ​​of the feature points). 即ち抽出した特徴点の座標値が、対象物体を記述する上で不適切であった場合、特徴抽出部103は、処理をステップS201へと戻す。 That coordinate values ​​of the extracted feature points, indicating an inadequate in describing the object, the feature extraction unit 103 returns the process to step S201. より具体的に説明すると、特徴抽出部103は、本実施形態では両目それぞれの位置が顔検出ステップS202において抽出された顔領域の中心位置より下方の場合、特徴点の座標値が、対象物体を記述する上で不適切であると判断する。 To be more specific, the feature extraction unit 103, when both eyes of each position in the present embodiment is lower than the center position of the face region extracted in the face detection step S202, the coordinate values ​​of the feature points, the target object it is judged to be inappropriate in describing. 但し、上下逆の顔画像の入力を容認する場合、この条件は成り立たない。 However, if you want to accept the input of the upside-down face image, this condition does not hold. これはシステムの使用シーンに依存する。 This is dependent on the use scene of the system. 但し、認識すべき対象の種類に応じた特徴の配置法則に基づく特徴の整合性チェックは必要である。 However, integrity checking feature based on the arrangement rule of the features according to the type of the object to be recognized is required. つまり、特徴抽出部103は、例えば記憶部108等に保存されている配置法則(配置法則ファイル)等に基づき、特徴点の座標値の配置が配置法則を満たしているか否かをステップS205において判定する。 That is, the feature extraction unit 103 determines, for example based on the arrangement rule stored in the storage unit 108 or the like (located law file) or the like, whether or not the arrangement of the coordinate values ​​of the feature points meets arranged law in step S205 to.

次に、ステップS206において、顔照合部104は、入力画像データのサイズ及び回転の正規化を行う。 Next, in step S206, the face collation section 104 performs normalization of the size and rotation of the input image data. 顔照合部104は、例えば、図6に示すように、ステップS204で抽出された両目の特徴点の座標値602及び603より算出される両目間距離600が、全ての画像に対し同一になるようアフィン変換を施す。 Face collation section 104, for example, as shown in FIG. 6, both eyes distance 600 calculated from the coordinate values ​​602 and 603 of the eyes of the feature points extracted in step S204 is to be the same for all images subjected to the affine transformation. ここで、図6は、サイズ正規化及び回転変動を説明するための図である。 Here, FIG. 6 is a diagram for explaining the size normalization and rotation fluctuation. また、顔照合部104は、両目間を結ぶ直線の傾き601を検出し、回転を考慮したアフィン変換補正を加える。 The face collation section 104 detects the slope of the line 601 connecting the eyes, adding affine transformation correction considering rotation. このことで、顔照合部104は、サイズ変動と面内回転変動とを実現する。 In this, the face collation section 104, to realize the size change and in-plane rotation variation.
次に、ステップS207において、顔照合部104は、辞書データDB部105の辞書データと、入力画像データ(又は入力画像データに含まれる物体の一例である人物の顔)と、の照合を行う。 Next, in step S207, the face collation section 104 performs a dictionary data dictionary data DB 105, and the input image data (or the face of a person is an example of an object included in the input image data), the matching.

なお、ステップS207の処理の詳細は、図7を用いて説明する。 The details of the process in step S207, will be described with reference to FIG. 図7は、照合処理の一例を示すフローチャートである。 Figure 7 is a flowchart illustrating an example of a matching process.
まず、ステップS701において、顔照合部104は、特徴抽出部103より図4に示したような検出出力分布を取得し、検出出力分布に応じて、入力画像データに対して領域を設定する。 First, in step S701, the face recognition unit 104 obtains the detection output distribution as shown in FIG. 4 from the feature extraction unit 103, in accordance with the detection output distribution, and sets an area on the input image data.
ここで、顔照合部104が設定する領域には、局所的領域と、大局的領域とがある。 Here, in a region where the face collation section 104 sets, there are a local area, and a global region. 以下、局所的領域及び大局的領域について説明する。 The following describes the local area and global areas.

個人差を示す情報は、目、鼻又は口等の特徴の形状や、特徴の配置関係である。 Information indicating the individual differences, the eyes, and the shape of features such as the nose or mouth, a positional relationship between the features. ここで、局所的領域は、目、鼻又は口等の個人差を示す特徴の形状情報を抽出するために設定される。 Here, the local region, the eye is set to extract the shape information feature indicating the individual differences such as the nose or mouth. 図8は、顔照合部104が設定する局所的領域の一例を示す図(その1)である。 Figure 8 is a diagram showing an example of a local region set by the face matching section 104 (Part 1).

図8において、目領域の局所的領域800は、両目の左右端点及び上下まぶた頂点近辺に設定されている。 8, the local region 800 of the eye region is set near the right and left end points and vertical eyelids vertices of both eyes. また口領域の局所的領域801は、口の両端点及び上下唇頂点近辺に設定されている。 The local region 801 of the mouth area is set near both end points and the upper and lower lips vertex of the mouth. 更に鼻周辺の局所的領域802は、鼻の頂点及び左右小鼻特徴点近辺に設定されている。 Further local region 802 near the nose is set near the apex of the nose and the left and right nostril feature point. これら局所的領域が示す情報、例えば輝度情報は、目、鼻又は口等の特徴の形状を反映している。 Information indicating that these localized areas, for example, luminance information reflects eyes, the shape of features such as the nose or mouth. 即ち、目が大きい人物の上まぶたのラインと下まぶたのラインとは、目が細い人物より傾向的に鈍角で交差する。 That is, eyes on the eyelid line and the lower eyelid line large person, eyes intersect tendency to an obtuse angle from a thin person. したがって、目端点周辺の局所的領域における情報は、目の形状を反映している。 Therefore, the information in the local area around the eye endpoint reflects the eye shape. また、目尻近辺の局所的領域は、目が切れ長である等の形状を反映している。 Also, the local area around eye area reflects the shape of the equal eye is Kirenaga.

よって、顔照合部104は、目の両端点及び上下まぶた頂点に配置した複数の局所的領域より、目の形状情報を抽出することができる。 Therefore, the face collation section 104, a plurality of local regions disposed in both end points and the upper and lower eyelids apex of the eye, can be extracted eye shape information. 更に、顔照合部104は、口及び鼻に関しても同様に、それぞれに設定した複数の局所的領域より、各々の形状情報を抽出することができる。 Further, the face collation section 104, similarly with respect to the mouth and nose, a plurality of local regions set in each, it is possible to extract each of the shape information. なお、局所的領域の設置は、図8に示されるものに限定されるものではなく、眉等に設定されてもよい。 Incidentally, the installation of a local area, is not limited to that shown in Figure 8, it may be set to eyebrows like. また、顔照合部104は、図9に示すように、右目局所的領域900、左目局所的領域901、鼻局所的領域902、口局所的領域903のように設定してもよい。 The face collation section 104, as shown in FIG. 9, the right eye local region 900, the left eye local region 901, nose local region 902 may be set so that the mouth local region 903. 但し、このように設定した場合、物体認識装置は、姿勢変動又は目或いは口等の形状変動に敏感になる。 However, when set in this way, the object recognition apparatus, be sensitive to the shape change such as posture variation or eyes or mouth. 図9は、顔照合部104が設定する局所的領域の一例を示す図(その2)である。 Figure 9 is a diagram showing an example of a local region set by the face matching section 104 (Part 2).

次に、大局的領域について説明する。 Next, a description will be given coarse region.
大局的領域は、複数の特徴を含むことで、目、鼻又は口等の特徴間の配置情報を獲得するために設定される。 Global area, by including a plurality of features, eye, is set to acquire the arrangement information between features, such as the nose or mouth. 図10は、顔照合部104が設定する大局的領域の一例を示す図(その1)である。 Figure 10 is a diagram showing an example of a global area to be set the face collation section 104 (Part 1). 顔照合部104は、両目間の大局的領域1000より、両目を含んでいるため予め定められた特徴点間距離で規格化された画像を用いて、両目の離れ具合情報を抽出することができる。 Face collation section 104 may be from coarse region 1000 between the eyes, using the image normalized by the distance between the predetermined feature point because it contains both eyes, to extract away degree information of the eyes . また、目−口間の大局的領域1001は、目特徴点と口特徴点とをベースに設定されるので、顔照合部104は、同様に規格化された画像を用いて、目と口との離れ具合情報を抽出することができる。 Also, the eyes - coarse region 1001 between the mouth, since it is set based on the eye point feature and mouth feature point, the face collation section 104, likewise using the normalized image, the eyes and mouth it can be extracted away condition information. なお、大局的領域の設置は、図10に限定されるものではない。 Incidentally, establishment of global areas is not limited to the Figure 10. 顔照合部104は、図11に示すように、顔全体を含む大局的領域1101、更に目或いは口等の特徴以外に顎の輪郭を含む大局的領域1103を設定してもよい。 Face collation section 104, as shown in FIG. 11, may set the global area 1103 including the global area 1101, the contour of the jaw in addition to further eyes or features of the mouth, such as including the entire face. 図11は、顔照合部104が設定する大局的領域の一例を示す図(その2)である。 Figure 11 is a diagram showing an example of a global area to be set the face collation section 104 (Part 2).

顔照合部104は、ステップS701の検出出力分布の取得処理において、局所的領域及び/又は大局的領域より形状情報及び/又は配置情報を取得する。 Face collation section 104, the acquisition process of the detection output distribution of the step S701, the obtaining shape information and / or configuration information from the local region and / or global region.
顔照合部104は、形状情報を獲得する局所的領域を、図3に示す第1階層レベルの8つの検出出力分布の内、特徴形状を保存する一のエッジ抽出ライクな検出出力分布に基づいて設定する。 Face collation section 104, a local region for acquiring the shape information, the eight detection output distribution of the first hierarchical level shown in FIG. 3, in accordance with one of the edge extraction like detection output distribution to store the characteristic shape set to.

図12は、エッジ抽出ライクな検出出力分布の一例を示す図である。 Figure 12 is a diagram showing an example of an edge extraction like detection output distribution. エッジ抽出ライクな出力分布とは、一例として図12の(a)の黒実線である。 An edge extraction like output distribution is black solid line in (a) of FIG. 12 as an example. 黒実線は目の輪郭や口の輪郭情報を反映している。 Black solid line reflects the contour information of the eye contour and mouth. 図12の(a)の検出出力分布に複数の局所的領域を適用した図が図12の(b)である。 FIG applying a plurality of local regions on the detection output distributions of (a) of FIG. 12 is (b) in FIG. 12. なお、図12の(b)の局所的領域は、右目特徴点1201、左目特徴点1202、口特徴点1203及び鼻特徴点1204をベースに設定される。 Incidentally, the local region of (b) of FIG. 12, right feature points 1201, the left eye feature point 1202 is set the mouth feature point 1203 and nasal feature point 1204 based.

一方、配置情報を獲得するための図10の両目間の大局的領域1000は、図4(b)の右開きV字エッジ検出出力分布或いは図4(c)の左開きV字エッジ検出出力分布の何れか一方、又は両方の出力分布に基づいて設定される。 On the other hand, global area 1000 between the eyes in FIG. 10 for acquiring arrangement information, left-open V-shaped edge detection output distribution in Figure 4 the right-open V-shaped edge detection output distribution or FIG. 4 (b) (c) either one, or is set based on both the output distribution.

図13は、両目間の大局的領域の設定の一例を示す図である。 Figure 13 is a diagram showing an example of the setting of the global area between the eyes. 図4(b)及び図4(c)は、V字エッジを検出した結果であり、目の両端点或いは口の両端点を検出したことに相当する。 FIG. 4 (b) and FIG. 4 (c), the result of detecting the V-shaped edge, corresponding to the detection of the end points of the end points or mouth eye. よって、顔照合部104は、図13に示すように両目間の大局的領域1303を、右目特徴点と左目特徴点の中点である両目間中点1301を起点に設定することで、両目の配置情報を取得することができる。 Therefore, the face collation section 104, the global area 1303 between the eyes, as shown in FIG. 13, by setting the starting point between eyes midpoint 1301 is the midpoint of the right feature points and the left eye feature point, of the eyes it is possible to acquire the arrangement information. 図13(a)の検出出力分布は、左右のV字エッジ検出出力分布の重ねあわせた分布に相当する。 Detection output distribution shown in FIG. 13 (a) corresponds to the overlapping distribution of the V-shaped edge detection output distribution of the right and left. このようにすることで、顔照合部104は、それぞれの目の幅情報を取得することができる。 In this way, the face collation section 104 can acquire the width information of each eye.

同様の考えで、配置情報を獲得するための目−口間の大局的領域1001は、図4(d)の線分エッジ1検出出力分布或いは図4(e)の線分エッジ2検出出力分布404の何れか一方、又は両方の出力分布に基づいて設定される。 Similar in thinking, eye for acquiring location information - global area 1001 between the mouth, the line edge 2 detection output distribution of the line segment edge 1 detection output distribution or Fig 4 (e) shown in FIG. 4 (d) either the 404 or be set based on both the output distribution.

図14は、目−口間の大局的領域の設定の一例を示す図である。 14, the eye - is a diagram showing an example of a setting of a global area between the mouth. 図4(d)或いは図4(e)は、線分を検出した結果であり、言い換えると上下のまぶた又は上下唇を検出したことに相当する。 Figure 4 (d) or FIG. 4 (e) is the result of detecting the line segment, corresponding to the detection of the upper and lower eyelids or the upper and lower lips in other words. よって、顔照合部104は、図14に示すように目−口間の大局的領域1404を、両目間中点1401と口特徴点1402とを起点として設定することで、目−口の配置情報を取得することができる。 Therefore, the face collation section 104, the eye as shown in FIG. 14 - the global area 1404 between the mouth and setting the eyes midpoint between 1401 and mouth feature point 1402 as a starting point, the eye - the arrangement information of the mouth it is possible to get.
以上、顔照合部104は、検出出力分布に応じて、領域を設定する。 Above, the face collation section 104, in response to the detection output distribution, setting the area.

次に、ステップS702の高次元特徴ベクトルの取得処理について説明する。 Next, a description process of acquiring high-dimensional feature vectors of Step S702. 高次元特徴ベクトルを求めるためのデータは、前述したような顔照合部104が各検出出力分布に対して適用した領域から生成される。 Data for obtaining the high-dimensional feature vector is generated from the region in which the face collation section 104 as described above is applied to each detection output distribution. 図15は、高次元特徴ベクトルの定義を示す図である。 Figure 15 is a diagram showing the definition of a high-dimensional feature vectors. なお、図15では、一例として局所的領域1500の特徴ベクトルの生成方法と、高次特徴ベクトルの定義と、を示している。 In FIG 15, illustrates a method of generating the feature vectors of the local regions 1500, definition and high-order feature vectors, as an example. 図15に示すように、高次特徴ベクトルFは、局所的領域及び/又は大局的領域より生成される1次元のベクトルデータf kを、1つにすることで生成される。 As shown in FIG. 15, the high-order feature vector F is a vector data f k one-dimensional generated from the local region and / or the global area, are generated by one. ここで、顔照合部104は、局所的領域1500内の検出出力値f iの2次元配列を、予め定められた方向へスキャンすることで1次元のベクトルデータf kを生成する。 Here, the face collation section 104, a two-dimensional array of detection output values f i of the local area 1500 to produce a one-dimensional vector data f k by scanning the predetermined direction.

次に、ステップS703の照合処理について説明する。 It will now be described verification process in step S703. ステップS703において、顔照合部104は、高次特徴ベクトルFをサポートベクトルマシン(以下、SVMという)に入力し、辞書データDB部105の辞書データを用いたマッチングを行う。 In step S703, the face collation section 104, a support vector machine order feature vector F (hereinafter, referred to as SVM) entered, performs the matching using the dictionary data of the dictionary data DB unit 105.
ここで、SVMは学習アルゴリズムの一つである。 Here, SVM is one of the learning algorithm. 本実施形態では、SVMの一例としてlisvmを用いるものとする。 In the present embodiment, it is assumed to use lisvm as an example of a SVM.

次に、辞書データを用いて、入力データ(高次特徴ベクトル)を分類する処理について説明する。 Then, by using the dictionary data, a description will be given of a process for classifying input data (high-order feature vector). なお、辞書データの生成処理については後述する。 It will be described later generation processing of the dictionary data. lisvmは、2クラス分類する分類器(又は分類関数としてもよい)を複数有する形式を持つ。 lisvm has a format having a plurality of two-class classifier to classifier (or as the classification function). 例えば、登録者(辞書作成者又は学習者)を4人とし、それぞれをAクラス、Bクラス、Cクラス、Dクラス、登録者以外のクラスをEクラスと仮定する。 For example, the four registrant (dictionary creator or learner), A class, respectively, B class, C class, D class, it is assumed that E class class other than the registrant. このとき2クラス分類する分類器とは、AorBのどちらが最もらしいか閾値判別(閾値は辞書データを生成する際に、2クラス間毎生成される)する分類器である。 The classifier that this time 2 classification, plausible or threshold determination which is AorB (threshold when generating the dictionary data, the generated every between 2 class) is a classifier that. よって入力された特徴ベクトルは、AorB、AorC、AorD、AorE、BorC・・・のように全てのクラス間で2クラス分類が行われ、それら分類結果の多数決処理により最終的なクラスが決定される。 Thus feature vector input is, AorB, AorC, AorD, AorE, two classification among all classes as BorC · · · performed, the final class is determined by the majority processing thereof classification results .

ここで、辞書データの生成の一例を、図16を用いて説明する。 Here, an example of generation of the dictionary data will be described with reference to FIG. 16. 図16は、辞書データ生成処理の一例を示すフローチャートである。 Figure 16 is a flow chart showing an example of dictionary data generation processing.
ステップS1600において、例えば制御部101等は、学習者の有無を判定する。 In step S1600, for example, the control unit 101 or the like determines whether the learner. 例えば制御部101等は、学習者が存在する場合、ステップS1601に処理を進め、学習者が存在しない場合、ステップS1611に処理を進める。 For example, the control unit 101 or the like, if the learner is present, the process proceeds to step S1601, if the learner does not exist, the process proceeds to step S1611.

ステップS1611において、例えば顔照合部104等は、lisvmを用いた学習処理を実行する。 In step S1611, for example the face collation section 104 and the like, and executes a learning process using Lisvm. 一方、ステップS1601において、例えば制御部101等は、予め定められた領域等に学習者の画像が存在するか否かの判定を行う。 On the other hand, in step S1601, for example, such as the control unit 101, it is determined whether or not the image of the learner is present in a predetermined area, and the like. 例えば制御部101等は、学習者の画像が存在する場合、ステップS1602に処理を進め、学習者の画像が存在しない場合、ステップS1600に処理を戻す。 For example, the control unit 101 or the like, when the image of the learner is present, the process proceeds to step S1602, when the image of the learner does not exist, the process returns to step S1600.

ステップS1602において、顔検出部102は、顔を含む画像データをメモリ上に確保する。 In step S1602, the face detection unit 102, to ensure the image data including the face on the memory. 以下、ステップS1603からステップS1607までの処理は、図2のステップS202からステップS206までの処理と同様である。 Hereinafter, processing from step S1603 to step S1607 is the same as the processing from step S202 in FIG. 2 to step S206.
また、ステップS1608及びステップS1609の処理は、図7のステップS701及びステップS702と同様の処理と同様である。 The processing of step S1608 and step S1609 are the same as the same process as in step S701 and step S702 in FIG.

ステップS1609までの処理で生成された高次特徴ベクトルは、ステップS1610において、例えば制御部101等によって、メモリ等の記憶部に記録される。 Order feature vectors generated by the processing up to step S1609, in step S1610, for example by the control unit 101 and the like, are recorded in a storage unit such as a memory.
高次特徴ベクトルの記録後、物体認識装置は、別の画像(画像ファイル)の取得を行い、ステップS1601を実行する。 After recording of the high-order feature vectors, object recognition apparatus performs acquisition of another image (an image file), the processing is executed at step S1601. このとき、ステップS1601において、例えば制御部101等は、処理中の人物の画像がない場合、別の人物の画像をサーチするよう処理を行う。 In this case, in step S1601, for example the control unit 101 or the like, if there is no image of a person in the process, performs a process to search for an image of another person.

次に、図2のステップS208の累積信頼度算出処理について説明する。 Next, a description will be given cumulative reliability calculation process in step S208 of FIG. 累積信頼度算出処理では、累積信頼度算出部106は、後述する信頼度を、時系列画像に対して累積的に算出する。 The cumulative reliability calculation process, accumulative reliability calculation unit 106, the reliability will be described later, it is calculated cumulatively against time-series images. なお、本実施形態では、累積信頼度算出部106は、ステップS703の照合処理で用いたSVMの出力値を基に信頼度の算出を行うものとする。 In the present embodiment, the cumulative reliability calculation unit 106 is assumed to calculate the reliability based on the output value of the SVM used in the verification process in step S703. 信頼度算出の詳細を以下に示す。 The details of the reliability calculation are shown below.

累積信頼度算出部106は、SVMの多数決処理により決定された最終判定結果の賛成票数が所定閾値を超えた場合、信頼度が高い判別結果であるとし、インクリメントすることで信頼度を求める。 Cumulative reliability calculation unit 106, if the final determination results determined by the majority processing of the SVM favor votes exceeds a predetermined threshold value, and the reliability is high discrimination result, obtains the reliability by incrementing. この所定閾値は、例えば判別クラス数(入力を5つのクラスに分類したい場合、判別クラス数は5となる)の過半数以上に設定されているものとする。 The predetermined threshold is, for example, (if you want to classify inputs into five classes, the number of discrimination class is 5) The number of discrimination class is assumed to be set to at least a majority of the. また、賛成票数とは、複数の分類器の結果が最終判定結果と同じになった分類器の数のことを指すものとする。 Further, the favor votes, is intended to refer to that multiple classifier result is the number of classifier the same as the final determination result. より具体的に、信頼度を算出する処理を、図17のフローチャートを用いて説明する。 More specifically, the process of calculating the reliability will be described with reference to the flowchart of FIG. 17.

図17は、信頼度を算出する処理の一例を示すフローチャートである。 Figure 17 is a flow chart showing an example of a process for calculating the reliability. なお、図17に示されるフローチャートは、ステップS207の被写体照合の処理対象となった顔の個数分実行される。 The flowchart shown in FIG. 17 is executed the number fraction of the face to be processed of the object matching step S207.
ステップS1701において、累積信頼度算出部106は、個々の顔に割り当てられた要素番号を示す変数faceにゼロを代入し、初期化する。 In step S1701, the cumulative reliability calculation unit 106 substitutes zero for the variable face showing the element number assigned to each face, it is initialized.

ステップS1702において、累積信頼度算出部106は、顔個数分処理を実行したか否かの確認を行う。 In step S1702, the cumulative reliability calculation unit 106 confirms whether or not executing the face number minute treatment. ここで、定数faceNumは処理対象である顔の総数を示している。 Here, the constant faceNum indicates the total number of faces to be processed. 図18は、顔に要素番号を指定する様子を示す図である。 Figure 18 is a diagram showing how to specify the element number on the face. 図18(a)の画像データ1800は、取得された入力画像の顔に対して、要素番号を割り当てる様子を示している。 Figure 18 image data 1800 (a) is the face of the obtained input image shows how to assign the element number. 累積信頼度算出部106は、累積信頼度を算出する間、同じ顔に対して同じ番号(要素番号)を割り当てる。 Cumulative reliability calculation unit 106, while calculating the cumulative reliability, assign the same number (element number) for the same face. つまり、画像データ1800が画像データ1801に時系列的に変化したとき、画像データ1801において、各顔は点線の顔から実線の顔へと移動したとする。 That is, when the image data 1800 has changed time series image data 1801, second, the image data 1801, each face is to have moved from the dotted line of the face to the solid line of the face. このとき実線の顔は、点線の顔即ち過去の顔と同じ要素番号を割り当てられる。 The solid line of the face at this time is assigned to the same element numbers as the dotted line of the face i.e. past the face. よって、前述の動作を行うためには、顔を画面内でトラッキングする技術が必要である。 Therefore, in order to perform the above-described operation, there is a need in the art to track a face in the screen. トラッキングは、公知の技術を用いて行う。 Tracking is performed using known techniques. 本実施形態は、累積信頼度算出部106は、オプティカルフローから算出される移動ベクトルを求め、移動ベクトルより顔のトラッキングを行うものとする。 This embodiment, the cumulative reliability calculation unit 106 obtains a motion vector calculated from the optical flow, it is assumed that the tracking of the face from the motion vector.

累積信頼度算出部106は、顔の個数分だけ処理を実行したと判定すると、図17に示す処理を終了し、顔の個数分の処理を実行していないと判定すると、ステップS1703に進む。 Cumulative reliability calculation unit 106 determines that execution of the processing by the number fraction of the face, it ends the process shown in FIG. 17, if it is determined that not executing processes corresponding to the number of the face, the process proceeds to step S1703.
ステップS1703において、累積信頼度算出部106は、変数voteCountにゼロを代入し、初期化する。 In step S1703, the cumulative reliability calculation unit 106 substitutes zero variable VoteCount, initialized.
次に、ステップS1704について説明する。 Next, a description will be given of step S1704. 例えば判別クラス数が、5クラスである(A、B、C、D、Eの5パターンとし、それぞれをlabel=1、label=2、label=3、label=4、label=5とラベリングする)とする。 For example, the number of discrimination class is the 5 class (A, and B, C, D, and 5 Pattern E, respectively label = 1, label = 2, label = 3, label = 4, label = to 5 and labeling) to. このとき10個の2クラス分類器が存在する。 At this time there are 10 pieces of 2-class classifier. その様子を示したのが図19である。 Shown This state is shown in FIG 19. 図19は、2クラス分類器の判定結果を示す図である。 Figure 19 is a diagram showing a judgment result of the two-class classifier. 図19中において、入力データがAであるのか、Bであるのかを分類するAorB分類器は、比較対象クラスの欄からAとBとがクロスする部分のことである。 In FIG. 19, or input data that is A, AorB classifier that classifies a is for either the B includes A and B from the column of the comparison class is that the portion of the cross. また、分類器の結果は、図19中の斜体文字が示している。 As a result of the classifier indicates the italics in Figure 19. 即ち、図19中では、AorB分類器の分類結果がAである。 That is, in FIG. 19, the classification result of AorB classifier is A. また、最終判定結果は、多数決処理によりAと判定される。 Further, the final determination result is determined as A by the majority processing. 図19の各分類器の分類結果より、最終判定結果の賛成票数は、4となる。 From the classification result of each classifier of Figure 19, in favor votes of the final determination result is four. 最後に、ステップS1704において、累積信頼度算出部106は、最終判定結果の賛成票数を格納する変数voteCountに、取得した賛成票数を代入する。 Finally, in step S1704, the cumulative reliability calculation unit 106, a variable voteCount storing favor votes of the final determination result, and substitutes the obtained agreed number of votes.

次に、ステップS1705について説明する。 Next, a description will be given of step S1705. ステップS1705において、累積信頼度算出部106は、取得した変数voteCountと所定閾値との比較を行う。 In step S1705, the cumulative reliability calculation unit 106, and compares the acquired variables voteCount a predetermined threshold value. 本実施形態では、所定閾値は前述のように判定クラス数の過半数よりも大きい値にするものとする。 In the present embodiment, the predetermined threshold is assumed to be greater than the majority of the number of decision classes as described above. 但し、所定閾値は、統計的手法、又はヒューリスティックによって求めた値を用いてもよい。 However, the predetermined threshold value, statistical methods, or may be used a value determined by the heuristic. ここで、所定閾値は、ステップS1705において、Th confで表されている。 Here, the predetermined threshold value, in step S1705, is represented by Th conf. 変数voteCountがTh confよりも大きい場合、累積信頼度算出部106は、ステップS1706において、最終判定結果が信頼できるものとして、最終判定結果のラベルの信頼度変数を1インクリメントする。 If the variable voteCount is greater than Th conf, cumulative reliability calculation unit 106, in step S1706, as the final determination result is reliable increments the reliability variable of the final determination result label. ここで、信頼度変数は、フローチャートの変数confidenceである。 Here, the reliability variable is a flowchart of variable confidence. また、変数confidenceは、顔番号とラベルとの2次元配列で表される。 Further, the variable confidence is represented by two-dimensional array of the face number and label.

変数voteCountがTh confよりも大きくない場合、累積信頼度算出部106は、ステップS1707において、変数faceの値を1インクリメントし、ステップS1702の処理に戻る。 If the variable voteCount is not greater than Th conf, cumulative reliability calculation unit 106, in step S1707, and increments the value of variable face, the process returns to step S1702.

次に、図2のステップS209の出力判定処理について説明する。 It will now be described output determination process in step S209 of FIG. ステップS209において、出力判定部107は、前述の累積信頼度と所定閾値との比較を行う。 In step S209, the output determination unit 107 makes a comparison between the cumulative confidence with a predetermined threshold value described above. より具体的に説明すると、出力判定部107は、各検出顔の各labelに対して次式を評価することで出力判定を実行する。 To be more specific, the output determination unit 107 executes output determination by the respective label of the detected faces to evaluate the following equation.

ここで、 here,
は、あるラベルのある時刻tの入力画像までの累積信頼度を表し、Thoutputは、所定の出力判定閾値を表し、nは判別クラス数を表す。 Represents the cumulative confidence to the input image at time t with a certain label, Thoutput represents a predetermined output determination threshold, n represents represents a number of discrimination class. 数式(1)の比較処理は、ステップS207で処理対象、かつ、トラッキング可能である顔、全てに対して行われる。 Comparison of Equation (1) is processed and, at step S207, performed is trackable face, for all. 所定閾値は、統計的手法やヒューリスティックに求めることで獲得される。 Predetermined threshold value is obtained by calculating the statistical methods or heuristics. 出力判定部107は、数式(1)が真であった場合、ステップS210へと進む。 Output determination unit 107, when equation (1) is true, the process proceeds to step S210. また、出力判定部107は、数式(1)が偽であった場合、ステップS201へと進む。 Further, the output determination unit 107, when equation (1) is false, the process proceeds to step S201. このとき、複数の顔が写っている1つの画像データにおいて、ステップS210の評価が、OKとNGとを共に含んでいた場合、以後、NG顔のみが図2のフローチャートの処理対象となる。 At this time, in one of the image data that is reflected a plurality of faces, the evaluation of step S210 is, if the OK and NG were comprise both hereafter, only the NG Facial is processed in the flowchart of FIG. OK顔は、照合処理等を行わずトラッキングで画面内追尾される。 OK face is intra tracking tracking without matching process or the like.

次に、図2のステップS210について説明する。 It will be described step S210 of FIG. ステップS210において、表示部109(又は制御部101)は、前述の累積信頼度が所定閾値を超えた対象顔に対し、照合結果を出力する。 In step S210, the display unit 109 (or the controller 101) to subject Facial cumulative reliability described above exceeds a predetermined threshold value, and outputs the verification result. より具体的に説明すると、ステップS210において、表示部109は、対象顔近辺に所定閾値を超えたラベルに対応する登録名を出力する処理を実行する。 To be more specific, in step S210, the display unit 109 executes a process of outputting the registration name corresponding to the label exceeds a predetermined threshold value near the target face.

以上、第1の実施形態では、累積的な信頼度を、複数の分類器の結果から得られる賛成票数を基に算出することで、確信度の高い顔認識を実現することができる。 As described above, in the first embodiment, the cumulative confidence, by calculating on the basis of the agreed number of votes obtained from the results of a plurality of classifiers, it is possible to realize a high degree of certainty facial recognition. よって、姿勢等の制約が存在しないシチュエーションの顔認識処理においても、誤認識を低減した顔認識システムを提供することができる。 Therefore, even in the face recognition processing situations where constraints posture or the like does not exist, it is possible to provide a face recognition system which reduces erroneous recognition.

<第2の実施形態> <Second Embodiment>
以下、第2の実施形態について説明する。 Hereinafter, a second embodiment will be described. 基本的な構成は、第1の実施形態を踏襲する。 The basic configuration will be followed the first embodiment. 第1の実施形態と異なる点を以下に述べる。 The differences from the first embodiment will be described below. 第2の実施形態では、顔の状態、例えば表情、姿勢又は照明といった変動を推定し、推定結果を基に被写体照合を行う。 In the second embodiment, it estimated facial conditions such expression, the variation such attitude or illuminating performs object matching based on the estimation result. 更に、第2の実施形態では、推定結果を活用して累積信頼度の算出を行うことをポイントとする。 Further, in the second embodiment, the point that to calculate the cumulative reliability by utilizing the estimation result. 第2の実施形態では、推定する物体の状態を表情に限定し、以下、より具体的な説明を、図20を用いて行う。 In the second embodiment, limiting the state of an object for estimating the facial expression, the following, a more particular description, performed with reference to FIG. 20.

図20は、第2の実施形態における物体認識装置の全体処理の一例を示すフローチャートである。 Figure 20 is a flow chart showing an example of the overall processing of the object recognition apparatus in the second embodiment.
ステップS2000、ステップS2001、ステップS2002、ステップS2003、ステップS2004、ステップS2005及びステップS2009の各ステップは、第1の実施形態で示した図2の対応するステップと同様である。 Step S2000, the steps of step S2001, step S2002, step S2003, step S2004, step S2005 and step S2009 are the same as that in the corresponding steps of FIG. 2 described in the first embodiment. よって、これらのステップ群の説明は割愛する。 Therefore, description of these steps group will be omitted.

まず、ステップS2006の処理について説明する。 First, a description will be given of a process in step S2006. 表情の代表例を図21に示す。 Representative examples of expression shown in FIG. 21. 図21は、表情の代表例の一例を示す図である。 Figure 21 is a diagram showing an example of a typical example of expression. 表情判定する顔は、辞書データに存在しない表情をした顔とする。 Facial expression is determined face, and face an expression that does not exist in the dictionary data. 例えば、辞書画像を生成する登録者の表情が、図21(a)の中立顔であった場合、口を開けている状態、又は目を閉じている状態の顔が表情判定の対象顔となる。 For example, subscribers of expression for generating a dictionary image, if it was neutral face, state of opening the mouth, or face in the state with closed eyes is subject facial expression determination shown in FIG. 21 (a) . 本実施形態では、辞書データの登録者の顔が、表情のない図21(a)の中立顔のみ、又は図21(a)の中立顔が大多数である場合に関してより具体的に説明する。 In this embodiment, the registrant face dictionary data, neutral Facial no expression Figure 21 (a) only, or more specifically described with respect to the case neutral face shown in FIG. 21 (a) is a majority.

図21(a)の中立顔は、人間が標準的にとる表情であり、目が開いている状態、かつ、口は閉じられている顔である。 Neutral face in FIG. 21 (a), the human is a facial expression to take a standard, state eyes are open and a face mouth is closed. 一方、図21(a)の中立顔以外の顔(図21(b)〜図21(j))は、中立顔の目或いは口の特徴が、大小の形状変化を示したものである。 On the other hand, the face other than the neutral face in FIG. 21 (a) (FIG. 21 (b) ~ Figure 21 (j)), the feature of the eyes or mouth of the neutral face, showing the shape change of the magnitude. より具体的に説明すると、図21(b)の口開き顔及び図21(c)の口半開き顔は、図21(a)の中立顔に対して口形状が変化している場合に相当する。 To be more specific, the mouth half open face of the mouth opening face and 21 in FIG. 21 (b) (c) corresponds to the case where the mouth shape are changed with respect to the neutral face shown in FIG. 21 (a) . この変化は、画像中の人物が言葉を発している自然状態や、意図して口を大きく開けている状態の場合に生じる。 This change, and natural state of the person in the image is emitting words, occurs when a state in which wide open mouth with the intention.

また、図21(d)の両目閉じ顔、図21(e)の両目半閉じ顔、図21(f)の片目閉じ顔、又は図21(g)の片目半閉じ顔は、目形状が変化している場合に相当する。 Moreover, eyes closed face, eyes half closed face in FIG. 21 (e), one eye closed face, or one eye half closed face in FIG. 21 (g) of FIG. 21 (f) of FIG. 21 (d) eye shape change It corresponds to the case that you are. 図21(d)及び図21(e)の顔は、人間が自然に行う目つむり動作を行った結果、表情として表れるものである。 Face Figure 21 (d) and FIG. 21 (e) as a result of man-made eye head operation performed naturally, those appearing as expression. また、図21(f)及び図21(g)の顔は、ウインク等の人物の意図的な動作を行った結果、表情として表れるものである。 The face of FIG. 21 (f) and FIG. 21 (g), the result of intentional operation of the person wink like, in which appears as expression. 更に、図21(h)両目閉じ+口開き顔、図21(i)片目閉じ+口開き顔、又は図21(j)片目半閉じ+片目閉じ顔は、目と口との各形状変化が組み合わさった顔の代表例である。 Further, FIG. 21 (h) eyes closed + mouth open face, FIG. 21 (i) one eye closed + mouth open face, or FIG. 21 (j) eye half closed + one eye closed face, each shape change between the eyes and mouth it is a typical example of combined face. 次に、これら表情の判定方法について記す。 Next, it referred to as the method of determining these facial expressions.

本実施形態で行う表情判定は、公知の技術を利用することで実現される。 Facial expression determination performed in this embodiment is implemented by using known techniques. より具体的に説明すると、図22に示すように、物体認識装置(例えば特徴抽出部103等)は、目、鼻、口、眉毛又は顎の輪郭周りに特徴点を検出し、特徴点の配置状態又は特徴点の動的変化により表情を検出する。 To be more specific, as shown in FIG. 22, the object recognition device (e.g., feature extraction unit 103, etc.), eye, nose, mouth, and detects the feature points to the outline around the eyebrows or chin, the feature point arrangement detecting a facial expression by the dynamic change in condition or feature points. 図22は、特徴点の抽出の一例を示す図である。 Figure 22 is a diagram showing an example of extraction of a feature point. ここで、輪郭特徴点は、図22中の黒丸2201が一例であり、唇周りに関して、顔表面と接する部分だけでなく口腔に接する部分からも抽出される。 Here, the outline feature point is a black circle 2201 example of FIG. 22, with respect to around the lips, is also extracted from the portion in contact with the oral cavity as well as a portion in contact with the face surface. 各特徴の輪郭特徴点の抽出する方法は、例えばエッジ抽出により各特徴の輪郭を抽出することで検出する技術を利用する。 Method of extracting the outline feature points in each feature utilizes a technique for detecting by extracting the contour of each feature, for example, by edge extraction. 本実施形態では、特徴抽出部103は、AAM(Active Appearance Model)を利用する。 In this embodiment, the feature extraction unit 103 utilizes the AAM (Active Appearance Model). AAMは、特徴点の相対関係と各特徴点の輝度値を評価値として持つモデルを、顔に対してフィッティングさせることで、図22に示すような特徴点を抽出することができる。 AAM is a model with a luminance value of the relative relationship with the feature points of the feature points as an evaluation value, by fitting the face, it is possible to extract the feature points as shown in FIG. 22.

以上の輪郭特徴点抽出に関する公知技術の何れかの処理は、前述したステップS2004の目、口及び鼻特徴点抽出処理と同時、又は段階的に行われる。 Processing of one of known techniques for the above outline feature points extraction, eyes step S2004 described above, the mouth and nose feature point extraction processing simultaneously, or occur in stages. 次に、表情の判定方法をより具体的に説明する。 Next, a method of determining expression more specifically.

表情の判定は、輪郭特徴点の配置関係を表情毎に学習した判別器(以下、表情判別器と呼ぶ)により行われる。 Determination of facial expression, classifiers that have been learned the arrangement of the outline feature points for each facial expression (hereinafter, referred to as expression discriminator) is carried out by. 表情判別器が学習する際に用いるパラメータは、特徴点同士を結ぶことでできるメッシュの距離、又は角度である。 Parameters used in the expression classifier learns the distance of the mesh that can by connecting together the characteristic points, or the angle. 図23は、メッシュとパラメータとを説明するための図である。 Figure 23 is a diagram for explaining the mesh and parameters. メッシュは、顔に設定するメッシュを示す。 Mesh, show the mesh is set to face. 図23の(a)に示すように、顔の表情がでる目の周り、又は口の周りに設定される。 As shown in FIG. 23 (a), it is set around the eyes leaving the facial expressions, or around the mouth. また、パラメータは、図23の(b)に示すように、単位メッシュの各辺の距離a、b、c及び角度θ、φ、ψである。 The parameter, as shown in (b) of FIG. 23, the distance a of each side of the unit mesh, b, c and the angle theta, phi, is [psi. 但し、距離パラメータに関しては、個人差を取り除くために、両目の距離等で正規化する必要がある。 However, with respect to the distance parameter, in order to remove the individual differences, it is necessary to normalize the distance of the eyes or the like. 表情判別器2400は、図24に示すように各表情を識別する複数の分類器と、各表情分類器の出力を統合する出力統合器2401と、により構成される。 Expression discriminator 2400 includes a plurality of classifiers that identifies each facial expression as shown in FIG. 24, an output integrator 2401 for integrating the output of each facial expression classifiers, the constructed. 図24は、表情判定器の一例を示す図である。 Figure 24 is a diagram showing an example of the facial expression determination unit. 各表情分類器2402、2403及び2404は、表情ごとに前述のパラメータを全てのメッシュに対して算出し、学習することにより構築される。 Each expression classifier 2402, 2403 and 2404, calculated for all the meshes of the aforementioned parameters for each expression, are constructed by learning. また、出力統合器2401は、各表情分類器の出力を比較し、最終的な表情を判定する。 Further, the output integrator 2401 compares the outputs of each facial expression classifier determines the final look. 各表情分類器の学習は、本実施形態では公知技術であるニューラルネットワークを用いて行われるものとする。 Learning of each facial expression classifier, in the present embodiment shall be performed using a neural network it is well known in the art.

表情判定が終了すると、次にステップS2007に移行する。 When the facial expression determination is completed, then the process proceeds to step S2007. ステップS2007において、物体認識装置(又は特徴抽出部103)は、ステップS2006の結果を受けて、局所的領域及び大局的領域の取捨選択を行う。 In step S2007, the object recognition device (or the feature extraction unit 103) receives the result of step S2006, performs selection of the local area and global areas.

領域選択ステップS2007の説明を行う。 A description of the region selection step S2007. 表情判定ステップS2006の表情判定が、例えば図21に示す口開き顔2101であるとすると、口特徴の形状が変化していることになる。 Determining a facial expression of facial expression determination step S2006 is, for example, and a mouth opening face 2101 shown in FIG. 21, so that the shape of the mouth feature has changed. よって、図8に示す口に設定する局所的領域801内の情報は、中立的な口の形状との類似性が得られない可能性がある。 Therefore, the information in the local area 801 for setting the mouth shown in FIG. 8, may not be obtained similarity between the shape of the neutral mouth. よって、物体認識装置は、口に設定される局所的領域を、特徴抽出領域から除外する。 Therefore, the object recognition apparatus, a local area set in the mouth, excluded from the feature extraction region. また、ステップS2006の表情判定で、両目閉じ+口開き顔2107と判定された場合、前述と同様の理由で、目(両目)に設定する局所的領域及び口に設定する局所的領域を、物体認識装置は、特徴抽出領域から除外する。 Further, in the facial expression determination in step S2006, if it is determined that the eyes closed + mouth open face 2107, for the same reason as described above, the local region to be set to a local area and the mouth set eyes (both eyes), the object recognizer excludes from the feature extraction region. このとき、大局的領域に関しては、物体認識装置は、表情が表れたことにより特徴の配置関係が崩れることがないので、領域の取捨選択は行わない。 At this time, with respect to the global area, the object recognition apparatus, since there is never lost arrangement of features by facial expression appeared, selection of area is not performed. 以上のように、ステップS2007では、物体認識装置は、ステップS2006の結果を受けて、特徴抽出領域の適応的な取捨選択を行う。 As described above, in step S2007, the object recognition device receives the result of step S2006, performs adaptive selection of feature extraction region.

次に、ステップS2008において、物体認識装置(又は顔照合部104)は、選択した領域に適した辞書データを、辞書データDB部105より選択する。 Next, in step S2008, the object recognition device (or the face collation section 104), the dictionary data suitable for the selected area is selected from the dictionary data DB unit 105. より具体的に説明すると、ステップS2008において、物体認識装置は、ステップS2007で選択された領域により構築された辞書データを検索する処理を行う。 To be more specific, in step S2008, the object recognition device performs a process of searching the dictionary data constructed by the area selected at step S2007. よって、辞書データは、複数の局所的領域と大局的領域との組み合わせで、予め構築しておく必要がある。 Thus, dictionary data, in combination with a plurality of local area and global areas, it is necessary to previously constructed. 辞書データ群の構築については、後述する。 For the construction of the dictionary data group will be described later.

次に、ステップS2010において、顔照合部104は、抽出した辞書データと入力データとの照合を行う。 Next, in step S2010, the face collation section 104 performs the extracted dictionary data matching with the input data. 照合方法は、第1の実施形態と同様で、図7に示された手順で処理される。 Collation method is the same as the first embodiment, it is processed in the procedure shown in FIG. 但し、第1の実施形態と異なる点は、顔照合部104は、ステップS2007の領域選択処理で選択された領域よりベクトルを生成し、照合する点である。 However, differs from the first embodiment, the face collation section 104 is that to produce more vectors selected region by region selection processing in step S2007, to match.

次に、第2の実施形態における辞書データの生成の流れを、図25のフローチャートを用いて説明する。 Next, the flow of generation of the dictionary data in the second embodiment will be described with reference to the flowchart of FIG. 25. 図25は、第2の実施形態における物体認識装置の全体処理の一例を示すフローチャートである。 Figure 25 is a flow chart showing an example of the overall processing of the object recognition apparatus in the second embodiment. 図25のフローチャートを実行するにあたり、物体認識装置は、予め各登録者と非登録者の静止画又は動画を、フォルダ単位で振り分けておく。 Upon executing the flowchart of FIG. 25, the object recognition apparatus, the advance still or moving of the registered and non-registered person, previously distributed by folder. また、登録者の表情は、殆ど表情のない顔であるとする。 In addition, expression of the registered person is assumed to be a little facial expression with no face.

ステップS2500において、例えば制御部101等は、学習者の有無を判定する。 In step S2500, for example, the control unit 101 or the like determines whether the learner. 例えば制御部101等は、学習者が存在する場合、ステップS2501に処理を進め、学習者が存在しない場合、ステップS2511に処理を進める。 For example, the control unit 101 or the like, if the learner is present, the process proceeds to step S2501, if the learner does not exist, the process proceeds to step S2511.
ステップS2511において、例えば顔照合部104等は、lisvmを用いた学習処理を実行する。 In step S2511, for example the face collation section 104 and the like, and executes a learning process using Lisvm. 一方、ステップS2501において、例えば制御部101等は、予め定められた領域等に学習者の画像が存在するか否かの判定を行う。 On the other hand, in step S2501, for example, such as the control unit 101, it is determined whether or not the image of the learner is present in a predetermined area, and the like. 例えば制御部101等は、学習者の画像が存在する場合、ステップS2502に処理を進め、学習者の画像が存在しない場合、ステップS2500に処理を戻す。 For example, the control unit 101 or the like, when the image of the learner is present, the process proceeds to step S2502, when the image of the learner does not exist, the process returns to step S2500.

ステップS2502において、顔検出部102は、顔を含む画像データをメモリ上に確保する。 In step S2502, the face detection unit 102, to ensure the image data including the face on the memory. 以下、ステップS2503からステップS2507までの処理は、図2のステップS202からステップS206までの処理と同様である。 Hereinafter, processing from step S2503 to step S2507 is the same as the processing from step S202 in FIG. 2 to step S206.
まず、ステップS2508の処理を説明する。 First, the process of step S2508.
ここで、例えば、顔照合部104は、図8に示した、目、口及び鼻特徴に設定する局所的領域として、取捨選択した複数の領域パターンを設定する。 Here, for example, the face collation section 104, shown in FIG. 8, the eyes, as a local area to be set to the mouth and nose, wherein, to set a plurality of areas pattern selection. 図26は、領域パターンの一例を示す図である。 Figure 26 is a diagram showing an example of an area pattern. 図26(a)の領域パターンは、左目と口とに表情が検出され、左目と口とに設定されている局所的領域が除外されている状態に相当する。 Region pattern in FIG. 26 (a) expression is detected in the left eye and mouth, corresponding to the state of local regions set in the left eye and mouth are excluded. 図26(a)の領域パターン以外のパターンについて図26を用いて説明する。 Will be described with reference to FIG. 26 for patterns other than the area pattern shown in FIG. 26 (a).

領域パターン2601は、口のみに形状変化がある場合のパターン 領域パターン2602は、右目(又は左目)のみに形状変化がある場合のパターン 領域パターン2603は、両目に形状変化がある場合のパターン 領域パターン2604は、両目及び口に形状変化がある場合のパターン 領域パターン2605は、鼻に形状変化がある場合のパターン 領域パターン2606は、口を両側に広げた場合のパターン 領域パターン2607は、形状変化がない場合の標準のパターン 大局的領域に関しては、どのパターンでも両目間及び目−口間の大局的領域を共に用いている。 Region pattern 2601, the pattern area pattern 2602 in the case where there is change in shape only in the mouth, the pattern area pattern 2603 in the case where there is change in shape only to the right eye (or left), the pattern area pattern when there is a change in shape eyes 2604, the pattern area pattern 2605 when there is change in shape eyes and mouth, the pattern area pattern 2606 when there is change in shape nose, the pattern area pattern 2607 in the case of spread mouth on either side, the shape change for the standard pattern global region of the absence, between eyes and eyes in any pattern - it is used both global area between the mouth. その理由は、表情により目といった特徴の形状は変化するが、目、口及び鼻の配置情報は、図4のような特徴点をベースに設定する大局的領域を用いる限り、表情によるズレは生じない。 The reason is to change the shape of features such eyes by expressions, eyes, arrangement information of the mouth and nose, so long as the use of global area to be set based on the feature points as shown in FIG. 4, displacement by expression occurs Absent. よって、大局的領域により抽出する位置情報は、表情が存在した場合でも個人差を示しているので、表情変動があった場合において有効な特徴である。 Therefore, the position information extracted by the coarse region is it indicates individual differences even when the facial expression is present, it is useful feature when there is a facial expression change.

ステップS2508において、顔照合部104は、前述の複数の領域パターンを入力顔に対して設定する。 In step S2508, the face collation section 104 sets for the input face a plurality of area patterns described above.
次に、領域パターン別の辞書ベクトルを生成するステップS2509について説明する。 It will now be described step S2509 to generate a different dictionary vector field pattern. 例えば顔照合部104は、ステップS2508で設定された領域パターン群を、図11、図12及び図13に示した検出出力分布に対して設定し、高次特徴ベクトルを生成する処理を行う。 For example the face collation section 104, the set region pattern group in step S2508, Fig. 11, and set the detection output distributions shown in FIGS. 12 and 13, performs a process of generating high-order feature vector. 生成した高次特徴ベクトルは、ステップS2510で例えば制御部101等によって、メモリ等の記憶部に記録される。 Generated high-order feature vector is by a step S2510 for example, the control unit 101 and the like, are recorded in a storage unit such as a memory. 記録後、例えば制御部101等は、別の画像ファイルを読み込むため、画像データの検索を行う。 After recording, for example the control unit 101 or the like, to load another image file, to search for image data. このとき、例えば制御部101等は、処理中の人物画像データがない場合、別の人物の画像をサーチする処理を行う。 In this case, for example, such as the control unit 101, if there is no person image data being processed, it performs processing for searching the image of another person.

次に、図20のステップS2011の処理について説明する。 Next, a description is given of processing in step S2011 in FIG. 20. 第2の実施形態では、累積信頼度算出部106は、ステップS2007で取捨選択された領域数を基に、信頼度を算出する。 In the second embodiment, cumulative reliability calculation unit 106, based on the number of areas that have been sift through in step S2007, it calculates the reliability. より具体的な信頼度の算出方法を以下に示す。 A more specific method of calculating the reliability is shown below.
本実施形態の物体認識装置は、確信度を、図27に示すルックアップテーブルとして用意しているものとする。 Object recognition device of the present embodiment is assumed to have prepared the confidence, as a look-up table shown in FIG. 27. 図27は、確信度のルックアップテーブルの一例を示す図である。 Figure 27 is a diagram showing an example of the confidence of the look-up table. 図27のルックアップテーブル2700は、1列目及び3列目が有効領域数N、2列目及び4列目が信頼度を示している。 Look-up table 2700 in FIG. 27, first column and third column effective area number N, 2 and fourth columns indicates the reliability. 有効領域数とは、ステップS2006の結果を受けて、ステップS2007で取捨選択された結果、決定された特徴を抽出するための領域数のことである。 The effective number of regions, receives the result of step S2006, the result of the selection in step S2007, is a region number to extract the determined characteristics. また、確信度は、前述の領域数が増加すれば、情報量が増え、照合精度が向上する考えのもと、領域数に対して単純増加する形式で設定されている。 Also, confidence, if increased number of regions described above, the amount of information is increased, based on the idea that the matching accuracy is improved, it is set in a format that simply increases with respect to the number of regions. 更に、ここで求めた確信度は、公知の学習アルゴリズム、例えば部分空間法により学習された、例えばAor! Furthermore, confidence obtained here was learned known learning algorithm, for example, by the partial space method, for example Aor! Aの分類を行う識別器の出力値に積算される。 It is accumulated to the output value of the discriminator for classifying the A. 累積信頼度算出部106は、前述の積算値を所定時間で算出した値を累積信頼度とする。 Cumulative reliability calculation unit 106, the cumulative confidence value calculating the integrated value described above at predetermined time.

以上、第2の実施形態によれば、表情変動があった場合においても信頼できるパラメータを算出することが可能となり、表情変動をあった場合(若しくは、姿勢変動等)の顔認識システムの誤認識を低減することが可能となる。 As described above, according to the second embodiment, also it is possible to calculate a reliable parameter in the case where there is expression variation, when a facial expression variation (or posture variation or the like) mis face recognition system recognition it becomes possible to reduce the.

<第3の実施形態> <Third Embodiment>
第3の実施形態について説明する。 A third embodiment will be described. 第3の実施形態は、入力顔に表情等の変動が存在しない場合の処理を含んだ実施形態である。 The third embodiment is an embodiment including a process when the variation of facial expressions to the input face is not present. 変動がない場合、類似度は、辞書データの画像群の顔の状態と、入力顔の状態と、がほぼ等しいと考えられるので高くなる。 If there is no variation, the degree of similarity is, the state of the face of the image group of the dictionary data, the state of the input face, but increases it is considered substantially equal. よって、入力顔が変動の存在しない状態であると判断された場合は、所定領域の取捨選択処理を実行しない。 Therefore, when the input face is determined to be present and a state without variation does not perform the selection processing of the predetermined region. より具体的に説明するため、第3の実施形態のフローチャートを、図28に示す。 To illustrate more specifically, the flowchart of the third embodiment, shown in FIG. 28.

図28は、第3の実施形態における物体認識装置の全体処理の一例を示すフローチャートである。 Figure 28 is a flow chart showing an example of the overall processing of the object recognition apparatus in the third embodiment.
図28のフローチャートは、図20のフローチャートに対し、上位候補者情報の初期化を行うステップS2800を追加されている点と、表情判定を行うステップS2006の処理が表情判定の分岐を行うステップS2807に変更されている点と、が異なる。 The flowchart of FIG. 28, with respect to the flowchart of FIG. 20, and that it is added to step S2800 to initialize the upper candidate information, in step S2807 the processing of step S2006 to perform the facial expression determination is a branch of the facial expression determination and that has been changed, it is different. また、図28のフローチャートでは、ステップS2807で、表情有りと判定された場合の一連の処理も追加されている。 Further, in the flowchart of FIG. 28, in step S2807, also a series of processing when it is determined that there facial expression have been added. 追加、又は変更された、それぞれの処理ステップに関する説明を、以下に記す。 Added, or changed, an explanation of each process step, described below.

ステップS2800において、例えば制御部101は、後述する上位候補者情報の初期化を行う。 In step S2800, for example, the control unit 101 initializes the upper candidate information described later. 次に、ステップS2807において、表情判別器は、第2の実施形態の処理フローにあるステップS2006の処理に対し、分岐処理機能を追加しただけの処理を行う。 Next, in step S2807, the facial expression classifiers, to the processing of step S2006 in the processing flow of the second embodiment, the processes of simply adding the branch processing function.

次に、ステップS2815において、例えば累積信頼度算出部106は、時系列画像を処理する間のステップS2813の上位候補者情報を抽出する。 Next, in step S2815, for example, the cumulative reliability calculation unit 106 extracts the top candidate information in step S2813 while processing the time-series images. より具体的に説明すると、上位候補者情報とは、ある入力顔の照合結果の累積信頼度により順序付けられる候補者リストの上位所定人数の候補者名である。 To be more specific, the upper candidate information is a candidate's name top predetermined number of candidates list are ordered by the cumulative reliability of collation result is input face. 候補者リストは、図29(b)に示す候補者リスト2901のように作成される。 Candidate list is generated as the candidate list 2901 shown in FIG. 29 (b). ここで、図29は、候補者リスト等の一例を示す図である。 Here, FIG. 29 is a diagram showing an example of such a candidate list. 候補者リスト2901は、ある時刻の画像データ2900の顔番号0のリストを示している。 Candidate list 2901 shows a list of face number 0 of the image data 2900 at a certain time. 候補者リスト2901は、リストの3列目の信頼度で順位付けられており、それぞれのIDラベルを対応付ける表である。 Candidate list 2901 has been ranked in the third column of the reliability of the list is a table associating each of ID labels. ここで、LABEL_AとLABEL_Cとは、登録者Aさん、Bさん、Cさん・・・の辞書データの登録者Aと登録者Cとのことを示している。 Here, the LABEL_A and LABEL_C, shows that of the registered person A's, B's, and the registrant A of the dictionary data of C's ... the registrant C. また、REJECTは、登録者以外の非登録者であることを示している。 Further, REJECT shows that a non-registered person other than the registrant.

ステップS2816において、例えば累積信頼度算出部106は、候補者リスト2901の上位の例えば3名のIDラベルを取得する。 In step S2816, for example, the cumulative reliability calculation unit 106 acquires the ID labels of the top, for example three candidates list 2901. 又は、ステップS2816において、例えば累積信頼度算出部106は、信頼度の差を上位から順にとり、前述の差が所定閾値以上のIDラベルを取得するようにしてもよい。 Or, in step S2816, for example, the cumulative reliability calculation unit 106 takes in the order of the difference in confidence from the upper, may be the aforementioned difference to obtain the ID labels of more than a predetermined threshold value. より具体的に説明すると、4位と5位の信頼度差が、閾値を超えた場合、例えば累積信頼度算出部106は、上位4名のIDラベルを取得する。 To be more specific, the reliability difference 4 and 5 positions is, if the threshold is exceeded, for example, the cumulative reliability calculation unit 106 acquires the ID labels of the upper four.

次に、ステップS2817において、例えば累積信頼度算出部106は、ステップS2816で抽出された複数の候補者の辞書データを、辞書データDB部105より取得する。 Next, in step S2817, for example, the cumulative reliability calculation unit 106, a plurality of candidates of the dictionary data extracted in step S2816, acquires from the dictionary data DB unit 105. 本実施形態において、辞書データは、SVMを用いて構築される、登録者Aと登録者A以外、即ちA or ! In this embodiment, the dictionary data is constructed by using the SVM, other than the registered person A and the registered person A, ie A or! A分類器である。 A A classifier. また、本実施形態では、reject or ! In addition, in the present embodiment, reject or! reject分類器のように、登録者であるか、又は非登録者であるのかという分類器も辞書データとして用意する。 Like the reject classifier, or a registrant, or classifiers as being an the or a non-registrant is also prepared as a dictionary data.

次に、ステップS2819において、例えば累積信頼度算出部106は、ステップS2817で取得された候補者のみの辞書データを用いて、照合処理を行う。 Next, in step S2819, for example, the cumulative reliability calculation unit 106, by using the dictionary data of only the acquired candidate in step S2817, performs the matching process. より具体的に説明すると、例えば累積信頼度算出部106は、上位候補者がA、C又はrejectであった場合、入力データを、A or ! More specifically, the example cumulative reliability calculation unit 106, if the upper candidate was A, C or reject, the input data, A or! A、C or ! A, C or! C、reject or ! C, reject or! reject分類器に入力する。 Input to reject classifier. SVMによって構築される分類器は、バイナリの結果出力を行う。 Classifier constructed by SVM performs result output binary. よって、例えば入力顔がAであった場合、A or ! Thus, for example, if the input face was A, A or! A分類器に出力が表れる。 Output to A classifier appears.

以上、第3の実施形態によれば、累積信頼度によって決定される上位候補者情報利用するという形態をとることで、オープンな顔認識システムにおける大規模辞書データより高速な照合処理を提供することができる。 As described above, according to the third embodiment, by taking the form that the higher candidate information available is determined by the accumulated confidence, to provide a large dictionary data faster verification process in an open face recognition system can.

<その他の実施形態> <Other embodiments>
以上、前述した実施形態では、情報処理装置(物体認識装置)の各機能をハードウェアとして実装した場合の一例を例に説明を行ったが、前述した機能の一部をソフトウェアとして実装してもよい。 Above, in the embodiment described above, although an example in implementing the functions of the information processing apparatus (object recognition device) as hardware has been described as an example, be implemented part of the above functions as software good. より具体的に説明すると、例えば、前述した制御部101、顔検出部102、特徴抽出部103、顔照合部104、累積信頼度算出部106、出力判定部107等は、ソフトウェアとして情報処理装置に実装してもよい。 To be more specific, for example, the control unit 101 described above, the face detection unit 102, feature extraction unit 103, a face collation section 104, the cumulative reliability calculation unit 106, the output determination unit 107 or the like, the information processing apparatus as software it may be mounted. つまり、これらの機能に係るプログラムを情報処理装置のCPUがメモリ等から読み出し、実行することによって、前記機能を実現するようにしてもよい。 That, CPU of the information processing apparatus a program relating to these functions read from the memory or the like, by executing, may be implemented the function.

以上、上述した各実施形態によれば、変動が存在する画像が入力された場合であっても、精度のよい、安定した物体認識を実現することができる。 As described above, according to the embodiments described above, even when the variation has been input image present, it is possible to realize good accuracy, a stable object recognition.

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Have been described in detail preferred embodiments of the present invention, the present invention is not intended to be limited to the specific embodiments, within the scope of the present invention described in the claims, various modifications and change is possible.

情報処理装置(コンピュータ)の一例である物体認識装置のハードウェア構成の一例を示す図である。 It is a diagram illustrating an example of a hardware configuration of an object recognition apparatus which is an example of an information processing apparatus (computer). 第1の実施形態における物体認識装置の全体処理の一例を示すフローチャートである。 Is a flow chart showing an example of the overall processing of the object recognition device of the first embodiment. ニューラルネットワークを用いた顔検出部102における顔検出処理の一例を説明するための図である。 It is a diagram for explaining an example of the face detection processing in the face detection unit 102 using a neural network. 顔検出処理で検出される特徴を説明するための図である。 It is a diagram for explaining the characteristics detected by the face detection process. 特徴抽出部103が抽出した特徴点の一例を示す図である。 Is a diagram illustrating an example of feature points by the feature extraction unit 103 has extracted. サイズ正規化及び回転変動を説明するための図である。 It is a diagram for explaining the size normalization and rotation fluctuation. 照合処理の一例を示すフローチャートである。 Is a flowchart illustrating an example of a matching process. 顔照合部104が設定する局所的領域の一例を示す図(その1)である。 It illustrates an example of a local area face collation section 104 sets; FIG. 顔照合部104が設定する局所的領域の一例を示す図(その2)である。 It illustrates an example of a local area face collation section 104 sets; FIG. 顔照合部104が設定する大局的領域の一例を示す図(その1)である。 It illustrates an example of a global area face collation section 104 sets; FIG. 顔照合部104が設定する大局的領域の一例を示す図(その2)である。 It illustrates an example of a global area face collation section 104 sets; FIG. エッジ抽出ライクな検出出力分布の一例を示す図である。 Is a diagram showing an example of an edge extraction like detection output distribution. 両目間の大局的領域の設定の一例を示す図である。 Is a diagram illustrating an example of setting of the global area between the eyes. 目−口間の大局的領域の設定の一例を示す図である。 Eyes - is a diagram showing an example of a setting of a global area between the mouth. 高次元特徴ベクトルの定義を示す図である。 Is a diagram illustrating the definition of a high-dimensional feature vectors. 辞書データ生成処理の一例を示すフローチャートである。 Is a flowchart illustrating an example of a dictionary data generation processing. 信頼度を算出する処理の一例を示すフローチャートである。 Is a flowchart illustrating an example of a process for calculating the reliability. 顔に要素番号を指定する様子を示す図である。 It is a diagram showing how to specify the element number on the face. 2クラス分類器の判定結果を示す図である。 It is a diagram showing a judgment result of the two-class classifier. 第2の実施形態における物体認識装置の全体処理の一例を示すフローチャートである。 Is a flow chart showing an example of the overall processing of the object recognition apparatus in the second embodiment. 表情の代表例の一例を示す図である。 Is a diagram illustrating an example of a typical example of expression. 特徴点の抽出の一例を示す図である。 Is a diagram illustrating an example of a feature point extraction. メッシュとパラメータとを説明するための図である。 It is a diagram for explaining the mesh and parameters. 表情判定器の一例を示す図である。 Is a diagram illustrating an example of a facial expression determination unit. 第2の実施形態における物体認識装置の全体処理の一例を示すフローチャートである。 Is a flow chart showing an example of the overall processing of the object recognition apparatus in the second embodiment. 領域パターンの一例を示す図である。 Is a diagram illustrating an example of a region pattern. 確信度のルックアップテーブルの一例を示す図である。 Is a diagram showing an example of confidence in the lookup table. 第3の実施形態における物体認識装置の全体処理の一例を示すフローチャートである。 Is a flow chart showing an example of the overall processing of the object recognition apparatus in the third embodiment. 候補者リスト等の一例を示す図である。 Is a diagram illustrating an example of such a candidate list.

符号の説明 DESCRIPTION OF SYMBOLS

100 撮像部101 制御部102 顔検出部103 特徴抽出部104 顔照合部105 辞書データDB 100 imaging unit 101 the control unit 102 the face detection unit 103 feature extraction unit 104 face collation section 105 dictionary data DB
106 累積信頼度算出部107 出力判定部108 記憶部109 表示部 106 cumulative reliability calculation unit 107 outputs the determination unit 108 storage unit 109 display unit

Claims (6)

  1. 物体を含む時系列画像を受け取る受け取り手段と、 A receiving means for receiving the time-series images containing an object,
    前記時系列画像の各画像より前記物体に関する複数の特徴点を抽出する特徴点抽出手段と、 A feature point extracting means for extracting a plurality of feature points regarding the object from each image of the time-series images,
    前記特徴点抽出手段で抽出された複数の特徴点に基づいて前記物体の表情の判定を行う表情判定手段と、 A facial expression determining means for determining the expression of the object based on the plurality of feature points extracted by the feature point extracting means,
    前記表情判定手段で前記物体に表情があると判定された場合、前記表情に応じて、前記特徴点抽出手段で抽出された複数の特徴点の座標値に基づいて複数の領域を設定し、前記設定した領域の配置情報又は形状情報を含む特徴ベクトルを生成し、前記特徴ベクトルと、物体に関する辞書データと、を照合し、照合結果の信頼度を算出する照合手段と、 The facial expression determination if it is determined that there is expression in the object by means in response to the facial expression, setting a plurality of regions based on the coordinate values of a plurality of feature points extracted by the feature point extracting means, wherein It generates a feature vector including the arrangement information or shape information of the set area, and the feature vector, and collating means for collating, and dictionary data relating to an object, and calculates the reliability of the verification result,
    前記各画像について前記照合手段で算出された信頼度を前記時系列画像の複数の画像にわたって累積して前記物体に関する照合結果信頼度に係る累積値を算出する累積値算出手段と、 A cumulative value calculating means for calculating a cumulative value according to the reliability of the verification result for the said object by accumulating reliability calculated by said matching means for each image over a plurality of images of the time-series images,
    前記累積値算出手段で算出された前記累積値に基づいて前記照合手段での照合結果を出力するか否かを判定する出力判定手段と、 Output determining means for determining whether or not to output a matching result in the matching unit based on the calculated accumulation value in the accumulated value calculating means,
    を有することを特徴とする情報処理装置。 The information processing apparatus characterized by having a.
  2. 物体を含む画像に基づいて、前記辞書データを生成する辞書データ生成手段を更に有することを特徴とする請求項1に記載の情報処理装置。 Based on an image including an object, an information processing apparatus according to claim 1, further comprising a dictionary data generation means for generating the dictionary data.
  3. 前記照合手段は、前記表情判定手段で前記物体に表情がないと判定された場合、前記累積値算出手段で算出された累積値が上位の物体の前記辞書データと、前記特徴ベクトルと、を照合することを特徴とする請求項1に記載の情報処理装置。 The comparison means, if it is determined that there is no expression in the object by the facial expression determination unit, compares the said dictionary data of the object of the cumulative value is higher calculated by the cumulative value calculation means, and the feature vector, the the information processing apparatus according to claim 1, characterized in that.
  4. 情報処理装置における情報処理方法であって、 An information processing method in an information processing apparatus,
    物体を含む時系列画像を受け取る受け取りステップと、 A receiving step of receiving the time-series images containing an object,
    前記時系列画像の各画像より前記物体に関する複数の特徴点を抽出する特徴点抽出ステップと、 A feature point extracting step of extracting a plurality of feature points regarding the object from each image of the time-series images,
    前記特徴点抽出ステップで抽出された複数の特徴点に基づいて前記物体の表情の判定を行う表情判定ステップと、 A facial expression determination step for determining the expression of the object based on the plurality of feature points extracted by the feature point extracting step,
    前記表情判定ステップで前記物体に表情があると判定された場合、前記表情に応じて、前記特徴点抽出ステップで抽出された複数の特徴点の座標値に基づいて複数の領域を設定し、前記設定した領域の配置情報又は形状情報を含む特徴ベクトルを生成し、前記特徴ベクトルと、物体に関する辞書データと、を照合し、照合結果の信頼度を算出する照合ステップと、 The facial expression determination if the facial expression to the object is determined is step, according to the facial expression, setting a plurality of regions based on the coordinate values of a plurality of feature points extracted by the feature point extracting step, wherein It generates a feature vector including the arrangement information or shape information of the set area, and the feature vector, and the collation step of collating, and dictionary data relating to an object, and calculates the reliability of the verification result,
    前記各画像について前記照合ステップで算出された信頼度を前記時系列画像の複数の画像にわたって累積して前記物体に関する累積値を算出する累積値算出ステップと、 Wherein the accumulated value calculation step of calculating a cumulative value for the object by accumulating reliability calculated by the matching step for each image over a plurality of images of the time-series images,
    前記累積値算出ステップで算出された前記累積値に基づいて前記照合ステップでの照合結果を出力するか否かを判定する出力判定ステップと、 An output determining step of determining whether or not to output a matching result in the matching step on the basis of the cumulative value calculated by the cumulative value calculation step,
    を含むことを特徴とする情報処理方法。 The information processing method characterized by including the.
  5. 物体を含む画像に基づいて、前記辞書データを生成する辞書データ生成ステップを更に含むことを特徴とする請求項4に記載の情報処理方法。 Based on an image including an object, an information processing method according to claim 4, characterized in that the dictionary further comprises a data generation step of generating the dictionary data.
  6. 前記照合ステップでは、前記表情判定ステップで前記物体に表情がないと判定された場合、前記累積値算出ステップで算出された累積値が上位の物体の前記辞書データと、前記特徴ベクトルと、を照合することを特徴とする請求項4に記載の情報処理方法。 Wherein the collation step, the facial expression determination if it is determined that there is no expression on the object in step, matching with the dictionary data of the object of the accumulated value calculated by the cumulative value calculation step higher, and the feature vector, the the information processing method according to claim 4, characterized in that.
JP2008111843A 2008-04-22 2008-04-22 Information processing apparatus and information processing method Active JP5153434B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008111843A JP5153434B2 (en) 2008-04-22 2008-04-22 Information processing apparatus and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008111843A JP5153434B2 (en) 2008-04-22 2008-04-22 Information processing apparatus and information processing method

Publications (2)

Publication Number Publication Date
JP2009265774A JP2009265774A (en) 2009-11-12
JP5153434B2 true JP5153434B2 (en) 2013-02-27

Family

ID=41391583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008111843A Active JP5153434B2 (en) 2008-04-22 2008-04-22 Information processing apparatus and information processing method

Country Status (1)

Country Link
JP (1) JP5153434B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5577729B2 (en) * 2010-02-12 2014-08-27 オムロン株式会社 Monitoring apparatus and method, and program
JP5560976B2 (en) * 2010-07-09 2014-07-30 オムロン株式会社 An information processing apparatus and method, and program
JP5748548B2 (en) * 2011-04-27 2015-07-15 キヤノン株式会社 Object identification device, the object identification method and program
JP2012243049A (en) * 2011-05-19 2012-12-10 Fuji Heavy Ind Ltd Environment recognition device and environment recognition method
JP5843618B2 (en) * 2012-01-06 2016-01-13 キヤノン株式会社 IMAGE PROCESSING APPARATUS, CONTROL METHOD, AND PROGRAM
JP6225443B2 (en) * 2013-03-22 2017-11-08 富士通株式会社 Image processing apparatus, image processing method and image processing program
US9549118B2 (en) * 2014-03-10 2017-01-17 Qualcomm Incorporated Blink and averted gaze avoidance in photographic images
JP6345520B2 (en) * 2014-07-10 2018-06-20 国立研究開発法人産業技術総合研究所 Image retrieval apparatus and an image search program and image search method

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4612806B2 (en) * 2003-07-18 2011-01-12 キヤノン株式会社 Image processing apparatus, image processing method, imaging apparatus
JP4217664B2 (en) * 2004-06-28 2009-02-04 キヤノン株式会社 Image processing method, image processing apparatus
WO2007043679A1 (en) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha Information processing device, and program
JP4645411B2 (en) * 2005-10-28 2011-03-09 コニカミノルタホールディングス株式会社 Authentication system, registration system and program
US8290220B2 (en) * 2006-03-01 2012-10-16 Nec Corporation Face authenticating apparatus, face authenticating method, and program
JP5114871B2 (en) * 2006-05-31 2013-01-09 沖電気工業株式会社 Video providing apparatus

Also Published As

Publication number Publication date
JP2009265774A (en) 2009-11-12

Similar Documents

Publication Publication Date Title
Rowley Neural network-based face detection
Gao et al. Face recognition using line edge map
Ahonen et al. Face description with local binary patterns: Application to face recognition
Bicego et al. On the use of SIFT features for face authentication
US5842194A (en) Method of recognizing images of faces or general images using fuzzy combination of multiple resolutions
Tolba et al. Face recognition: A literature review
Abate et al. 2D and 3D face recognition: A survey
Wang et al. 3D facial expression recognition based on primitive surface feature distribution
Wang et al. Hand posture recognition using adaboost with sift for human robot interaction
CA2414743C (en) System and method for automatically detecting neutral expressionless faces in digital images
JP4575374B2 (en) Method of detecting a moving object in the temporal image in a sequence of video
CN1977286B (en) Object recognition method and apparatus therefor
US6944319B1 (en) Pose-invariant face recognition system and process
Li et al. Open set face recognition using transduction
US7929771B2 (en) Apparatus and method for detecting a face
US20070172099A1 (en) Scalable face recognition method and apparatus based on complementary features of face image
US7492943B2 (en) Open set recognition using transduction
Viola et al. Detecting pedestrians using patterns of motion and appearance
US8320643B2 (en) Face authentication device
Sung et al. Example Based Learning for View-Based Human Face Detection.
US20060147094A1 (en) Pupil detection method and shape descriptor extraction method for a iris recognition, iris feature extraction apparatus and method, and iris recognition system and method using its
US7127087B2 (en) Pose-invariant face recognition system and process
De Vel et al. Line-based face recognition under varying pose
JP5008269B2 (en) Information processing apparatus, information processing method
Marcel et al. On the recent use of local binary patterns for face authentication

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120313

A521 Written amendment

Effective date: 20120511

Free format text: JAPANESE INTERMEDIATE CODE: A523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Effective date: 20121106

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Effective date: 20121204

Free format text: JAPANESE INTERMEDIATE CODE: A61

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 3

Free format text: PAYMENT UNTIL: 20151214